CN114144527A - 固氮酶多肽在植物细胞中的表达 - Google Patents

固氮酶多肽在植物细胞中的表达 Download PDF

Info

Publication number
CN114144527A
CN114144527A CN202080034451.0A CN202080034451A CN114144527A CN 114144527 A CN114144527 A CN 114144527A CN 202080034451 A CN202080034451 A CN 202080034451A CN 114144527 A CN114144527 A CN 114144527A
Authority
CN
China
Prior art keywords
polypeptide
identity
plant cell
mtp
nifd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080034451.0A
Other languages
English (en)
Inventor
R·S·艾伦
C·M·格雷格
冈田尚子
A·梅农
A·C·瓦尔登
M·C·泰勒
C·C·伍德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Commonwealth Scientific and Industrial Research Organization CSIRO
Original Assignee
Commonwealth Scientific and Industrial Research Organization CSIRO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2019900780A external-priority patent/AU2019900780A0/en
Application filed by Commonwealth Scientific and Industrial Research Organization CSIRO filed Critical Commonwealth Scientific and Industrial Research Organization CSIRO
Publication of CN114144527A publication Critical patent/CN114144527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8242Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits
    • C12N15/8257Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits for the production of primary gene products, e.g. pharmaceutical products, interferon
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • A01H1/10Processes for modifying non-agronomic quality output traits, e.g. for industrial processing; Value added, non-agronomic traits
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H5/00Angiosperms, i.e. flowering plants, characterised by their plant parts; Angiosperms characterised otherwise than by their botanic taxonomy
    • A01H5/10Seeds
    • AHUMAN NECESSITIES
    • A23FOODS OR FOODSTUFFS; TREATMENT THEREOF, NOT COVERED BY OTHER CLASSES
    • A23KFODDER
    • A23K10/00Animal feeding-stuffs
    • A23K10/30Animal feeding-stuffs from material of plant origin, e.g. roots, seeds or hay; from material of fungal origin, e.g. mushrooms
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/195Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria
    • C07K14/24Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from bacteria from Enterobacteriaceae (F), e.g. Citrobacter, Serratia, Proteus, Providencia, Morganella, Yersinia
    • C07K14/26Klebsiella (G)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K14/00Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • C07K14/415Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from plants
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • C12N15/625DNA sequences coding for fusion proteins containing a sequence coding for a signal sequence
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/82Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
    • C12N15/8241Phenotypically and genetically modified plants via recombinant DNA technology
    • C12N15/8261Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/0004Oxidoreductases (1.)
    • C12N9/0095Oxidoreductases (1.) acting on iron-sulfur proteins as donor (1.18)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/07Fusion polypeptide containing a localisation/targetting motif containing a mitochondrial localisation signal
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y118/00Oxidoreductases acting on iron-sulfur proteins as donors (1.18)
    • C12Y118/06Oxidoreductases acting on iron-sulfur proteins as donors (1.18) with dinitrogen as acceptor (1.18.6)
    • C12Y118/06001Nitrogenase (1.18.6.1)
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/146Genetically Modified [GMO] plants, e.g. transgenic plants

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Cell Biology (AREA)
  • Botany (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Environmental Sciences (AREA)
  • Polymers & Plastics (AREA)
  • Developmental Biology & Embryology (AREA)
  • Physiology (AREA)
  • Gastroenterology & Hepatology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Mycology (AREA)
  • Animal Husbandry (AREA)
  • Food Science & Technology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Breeding Of Plants And Reproduction By Means Of Culturing (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Fodder In General (AREA)
  • Cereal-Derived Products (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及在植物细胞线粒体中产生固氮酶多肽的方法和手段。

Description

固氮酶多肽在植物细胞中的表达
技术领域
本发明涉及在植物细胞线粒体中产生固氮酶多肽的方法和手段。
背景技术
在酶复合物、固氮酶催化下,固氮细菌通过生物固氮(BNF)由N2气产生氨。然而现代农业的需求远远超出了这种固定氮源,因此工业生产的氮肥广泛用于农业中(Smil,2002)。然而,肥料生产和施用都是污染的原因(Good和Beatty,2011)并且被认为是不可持续的(Rockstrom等人,2009)。世界范围内施用的大部分肥料不被作物吸收(Cui等人,2013;de Bruijn,2015),导致肥料流失、杂草滋生和水道富营养化(Good和Beatty,2011)。由此产生的藻华降低了氧含量,对当地和整个珊瑚礁的近海造成环境破坏(De'ath等人,2012;Glibert等人,2014;Sutton等人,2008)。此外,尽管在许多发达国家中过度施肥是一个问题,但在某些地区,其可用性限制了作物产量(Mueller等人,2012)。生产化肥本身需要大量的能源投入,估计每年需要1000亿美元。
显然,需要采取策略减少工业生产的氮依赖性。为此,具有生物固氮作用的工程植物的概念长期以来引起了相当大的兴趣(Merrick和Dixon,1984),并且一直是最近评论的焦点(de Bruijn,2015;Oldroyd和Dixon,2014)。可能的方法包括i)将固氮生物(diazotrophs)的共生关系从豆类延伸到谷物(Santi等人,2013年),ii)重建(re-engineering)内共生微生物使其能够具有固氮作用(Geddes等人,2015年),iii)用基因工程将固氮酶植入植物细胞(Curatti和Rubio,2014年)。由于技术上的困难,所有这些方法都是宏伟的和推测性的。
固氮酶是一种能够在固氮细菌(diazotrophic bacteria)中产生生物固氮作用的酶复合物,它需要一个多基因组装途径来实现其生物合成和功能(Hu和Ribbe,2013;Rubio和Ludden,2008;Seefeldt等人,2009)进行了广泛的综述。典型的铁-钼固氮酶(iron-molybdenum nitrogenase)的组件(component)包括称为NifD和NifK的催化蛋白和电子供体NifH。大约12种其他蛋白参与固氮细菌固氮酶的组装,包括复合物的成熟、支撑和辅助因子插入,具体为NifM、NifS、NifU、NifE、NifN、NifX、NifV、NifJ、NifY、NifF、NifZ和NifQ。遗传病变、固氮生物与非固氮原核生物之间的互补分析和系统发生分析(Dos Santos等人,2012;Temme等人,2012;Wang等人,2013)导致Nif蛋白亚组(NifD、NifK、NifB、NifE和NifN)被认为是核心组件,而其他被认为是优化活性所需的并且被认为是辅助的。固氮酶的组装和功能也需要特定的生化条件。最重要的是,固氮酶对氧极其敏感(Robson和Postgate,1980)。此外,金属蛋白酶催化中心的生物合成和功能需要大量ATP、还原剂、容易获得的Fe、Mo、S-腺苷甲硫氨酸和高柠檬酸(Hu和Ribbe,2013;Rubo和Ludden,2008)。所有这些因素导致了在植物细胞中产生功能性固氮酶复合物的技术困难。
发明内容
鉴于观察到的在植物细胞中产生功能性NifD的困难,本发明人已经确定了表达对植物细胞中的二次切割/降解具有抗性的NifD的重要性。
因此,一方面,本发明提供了一种包含编码NifD多肽(ND)的外源多核苷酸的植物细胞,该NifD多肽在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性。
在一个相关方面,本发明提供了一种包含编码NifD多肽(ND)的外源多核苷酸的植物细胞,该NifD多肽在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ IDNO:101)以外的氨基酸序列。
在一个优选的实施方案中,ND在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处比在对应于SEQ ID NO:18的氨基酸97-100的位置处具有氨基酸序列RRNY(SEQ ID NO:101)的相应ND对蛋白酶切割更具抗性。
在上述方面的一个实施方案中,ND包含线粒体靶向肽(MTP),优选其中MTP位于ND的末端。
在另一个实施方案中,当外源多核苷酸在植物细胞中表达时,ND能够在MTP内或紧接MTP之后被切割以产生经加工的NifD多肽(CND),其中CND在其N端包含来自MTP的C端氨基酸的氨基酸序列(瘢痕序列),或者不包含瘢痕序列。
在优选的实施方案中,MTP在植物细胞中以至少50%的效率切割和/或其中CND在植物细胞中以高于ND的水平存在,优选以高于2:1、更优选高于3:1或4:1的比例存在。
在优选的实施方案中,CND具有NifD功能。
在上述方面的另一个或又一个实施方案中,外源多核苷酸编码ND,该ND是一种融合多肽(NifD-接头-NifK融合多肽),其依次包含NifD氨基酸序列、接头氨基酸序列(接头)和NifK多肽(NK)氨基酸序列,其中接头氨基酸序列长度为8-50个残基,优选约30个残基,该接头氨基酸序列翻译融合到ND和NK上。在一个优选的实施方案中,ND还包含线粒体靶向肽(MTP),其中MTP翻译融合于NifD氨基酸序列的N端。在一个最优选的实施方案中,当外源多核苷酸在植物细胞中表达时,ND能够在MTP中或紧接MTP之后被切割以产生经加工的NifD多肽(CND),其中CND在其N端包含瘢痕序列,或者不包含瘢痕序列。
在上述方面的一个实施方案中,ND或CND具有NifD功能,或者ND(NifD-接头-NifK多肽)同时具有NifD和NifK功能。在一个实施方案中,NifD多肽为AnfD多肽,NifK多肽为AnfK多肽。
在上述方面的一个实施方案中,MTP包含本文所公开的任何MTP,例如,MTP包含长度为约51个氨基酸的F1-ATPaseγ-亚基MTP。
在一个实施方案中,CND包含翻译融合于NifD氨基酸序列的N端的瘢痕序列,其长度为1-45个氨基酸,优选为1-20个氨基酸,更优选为1-10或11-20个氨基酸。
在另一个或又一个实施方案中,ND或CND或两者(例如,NifD-接头-NifK多肽)位于植物细胞的线粒体中,优选位于植物细胞的线粒体基质(MM)中。
在另一个实施方案中,ND或CND或两者(例如,NifD-接头-NifK多肽)显著溶于植物线粒体中。优选地,植物线粒体中至少60%或至少75%的CND是可溶的。优选如实施例中所述测定溶解度。
在另一个或又一个实施方案中,ND(例如,NifD-接头--接头-NifK多肽)在对应于SEQ ID NO:18的氨基酸100的位置处包含酪氨酸(Y)以外的氨基酸。
在一个实施方案中,ND(例如NifD-接头-NifK多肽)在对应于SEQ ID NO:18的氨基酸100的位置处包含谷氨酰胺(Q)或赖氨酸(K),或在对应于SEQ ID NO:18的氨基酸100的位置处包含亮氨酸(L)或甲硫氨酸(M)或苯丙氨酸(F)。
在另一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含Q、K、L或M。
在另一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含L或M。
在另一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含Q、K或L。
在另一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含Q、K或M。
在另一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含Q、K或F。
在另一个或又一个实施方案中,ND(例如NifD-接头-NifK多肽)在对应于SEQ IDNO:18的氨基酸97-100的位置处包含序列RRNX(SEQ ID NO:154),其中X是除Y之外的任何氨基酸。
在一个实施方案中,X为Q或K;或L、M或F;或L或M;或Q、K或L;或Q、K或M;或Q、K或F。
在另一个实施方案中,植物细胞包含一种或多种外源多核苷酸,优选2-8种外源多核苷酸,其编码一种或多种非ND的Nif融合多肽(NF),各NF包含(i)位于NF的N端的MTP,和(ii)Nif多肽序列(NP),其中各MTP独立地相同或不同且各NP独立地相同或不同。
在一个实施方案中,当一种或多种外源多核苷酸在植物细胞中表达时,每种NF能够在其MTP内或紧接MTP之后被切割以产生经加工的Nif多肽(CNF),其中每个CNF在其N端包含疤痕序列,或者不包含疤痕序列。
在一个实施方案中,至少一个NF多肽为NifK多肽或NifH多肽、或NifK和NifH多肽两者。
在另一个或又一个实施方案中,植物细胞包含NK氨基酸序列,其中多肽的C端为野生型NifK的C端,即,NK缺乏任何人工添加的C端延伸区。
在上述方面的另一个或又一个实施方案中,外源多核苷酸编码NifE-接头-NifN融合多肽(NifE-接头-NifN),其依次包含NifE氨基酸序列(NE)、接头氨基酸序列(接头)和NifN多肽(NN)氨基酸序列,其中接头氨基酸序列长度为20-70个残基,优选约46个残基,该接头氨基酸序列翻译融合于NE和NN。在一个优选的实施方案中,NifE-接头-NifN多肽包含线粒体靶向肽(MTP),其中MTP翻译融合于NE氨基酸序列的N端。在一个最优选的实施方案中,当外源多核苷酸在植物细胞中表达时,NifE-接头-NifN多肽能够在MTP中或紧接MTP之后被切割以产生经加工的NifD多肽(CNE),其中CNE在其N端包含疤痕序列,或者不包含疤痕序列。
在另一个或又一个实施方案中,NifE-接头-NifN多肽接头的长度为至少约30个氨基酸、或至少约40个氨基酸、或约20个氨基酸至约60个氨基酸、或约30个氨基酸至约70个氨基酸、或约30个氨基酸至约60个氨基酸、或约30个氨基酸至约50个氨基酸、或约25个氨基酸、或约30个氨基酸、或约35个氨基酸、或约40个氨基酸、或约45个氨基酸、或约46个氨基酸、或约50个氨基酸、或约55个氨基酸。最优选地,对于NifD-接头-NifK融合多肽而言,接头的长度约为30个氨基酸,对于NifE-接头-NifN融合多肽而言,接头的长度约为46个氨基酸。在本文中,“约30”是指27、28、29、30、31、32或33个氨基酸,“约46”是指41、42、43、44、45、46、47、48、49、50或51个氨基酸。
在另一个或又一个实施方案中,接头具有足够的长度以允许ND和NK或NE和NN在植物细胞或细菌细胞中以功能性构型缔合。在一个实施方案中,接头长度为8至50个氨基酸。优选地,接头长度为至少约20个氨基酸、至少约25个氨基酸、或至少约30个氨基酸。更优选地,对于NifD-接头-NifK融合多肽,接头长度为25至35个氨基酸。
在另一个或又一个实施方案中,当外源多核苷酸在植物细胞中表达时,融合多肽能够在其MTP中或紧接MTP之后被切割以产生加工的多肽(CDK),其中CDK依次包含任选的瘢痕序列、NifD氨基酸序列、接头氨基酸序列和NK氨基酸序列。如果紧接MTP之后发生切割,则不存在疤痕肽。
在一个实施方案中,植物细胞包含融合多肽、CDK或两者。
在另一个或又一个实施方案中,CDK包含翻译融合于NifD氨基酸序列的N端的瘢痕序列,其长度为1-45个氨基酸,优选为1-20个氨基酸,更优选为1-10或11-20个氨基酸。
在另一个或又一个实施方案中,CDK具有NifD和NifK两种功能。
在另一个或又一个实施方案中,植物细胞还包含一种或多种编码除ND和NK外的一种或多种Nif多肽(NF)的外源多核苷酸,各NF包含(i)位于NF的N端的MTP,和(ii)Nif多肽序列(NP),其中各MTP独立地相同或不同且各NP独立地相同或不同。
在另一个或又一个实施方案中,当一种或多种外源多核苷酸在植物细胞中表达时,每种NF能够在其MTP内或紧接MTP之被切割以产生经加工的Nif多肽(CNF),其中每种CNF在其N端包含瘢痕序列(scar sequence),或者不包含瘢痕序列。
在一个实施方案中,至少一种NF多肽为NifH多肽。
在在上述任一方面的一个实施方案中,植物细胞优选在植物细胞的线粒体基质中包含编码Nif多肽的外源多核苷酸,Nif多肽包含(i)NifD、NifH、NifK、NifB、NifE和NifN多肽。
在上述任一方面的另一个或又一个实施方案中,每个MTP包含至少10个氨基酸,优选长度为10-80个氨基酸。
在上述任一方面的另一个或又一个实施方案中,MTP或至少一个MTP或所有MTP独立地包含线粒体蛋白前体或其变体的MTP,优选植物MTP。
在上述任一方面的另一个或又一个实施方案中,一种或多种或所有外源多核苷酸(优选作为连续的核酸序列)被整合到细胞核基因组中和/或在细胞核中表达。
在上述任一方面的一个实施方案中,细胞是除拟南芥(Arabidopsis thaliana)原生质体以外或除本生烟(Nicotiana benthamiana)细胞以外的细胞。
本发明人还生产了植物细胞,其产生至少部分可溶于植物线粒体的Nif多肽的组合。
因此,在一个方面,本发明提供了包含线粒体和至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽的植物细胞,其中Nif多肽选自NifF、NifM、NifN、NifS、NifU、NifW、NifY、NifZ、NifV、NifH和NifD-NifK,并且其中至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽中的每一种在线粒体中是至少部分可溶的。
在一个实施方案中,植物细胞包括NifV多肽。优选地,NifV产生高柠檬酸盐。更优选地,NifV多肽至少部分可溶于植物细胞的线粒体中。在一个实施方案中,NifV多肽为本发明的NifV。
在另一个实施方案中,植物细胞包含至少NifS、NifU、或NifS和NifU多肽两者,和任选地NifV多肽。
在另一个实施方案中,植物细胞包含至少NifH、NifM、或NifH和NifM多肽两者,以及任选地NifV、NifS和NifU中的一种或多种或全部。
在另一个实施方案中,植物细胞包含NifV、NifH或NifD-NifK多肽、或NifH和NifD-NifK、或NifV、NifH和NifD-NifK,以及任选地NifV、NifS、NifU、NifH和NifM多肽中的一种或多种或全部。
在一个实施方案中,NifD多肽为AnfD多肽,NifH多肽为AnfH多肽,以及NifD-NifK多肽为AnfD-AnfK多肽。在优选的实施方案中,植物细胞还包含至少部分可溶于线粒体的AnfG多肽。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽中的每一种在被MPP切割后独立地至少10%、至少20%、至少30%、至少40%或至少50%可溶于线粒体中。Nif多肽可以高达80%或高达90%或甚至完全溶于植物细胞的线粒体中。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽各自独立地包含线粒体靶向肽(MTP),或者存在由MTP切割或MPP加工形式和未加工形式组合产生的C端肽,优选其中MTP位于至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽的N端,或MPP加工形式在Nif多肽的N端不具有C端肽。
在一个实施方案中,每个MTP在植物细胞中以至少50%的效率独立切割和/或其中至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种经加工的Nif多肽中的每一种在植物细胞中独立地以高于相应Nif多肽的水平存在,优选地以高于1:1、高于2:1、高于3:1或高于4:1的比例存在。
在一个实施方案中,植物细胞包含NifD-接头-NifK融合多肽,该融合多肽依次包含NifD氨基酸序列(ND)、接头氨基酸序列和NifK多肽(NK)氨基酸序列,其中接头氨基酸序列长度为8-50个残基,优选16-50个残基,更优选约26或约30个残基,或最优选26或30个残基,该接头氨基酸序列翻译融合于ND和NK。
在另一个实施方案中,NifD-接头-NifK融合多肽包含线粒体靶向肽(MTP),或由MTP切割或MPP加工和未加工形式组合产生的C端肽,其中MTP翻译融合于NifD-NifK融合多肽的N端。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种经加工的Nif多肽各自独立地包含C端肽,该C端肽由翻译融合于Nif多肽的N端的MTP切割产生,MTP长度为1-45个氨基酸,优选为1-20个氨基酸,更优选为1-10或11-20个氨基酸。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽或至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种经加工的Nif多肽是功能性Nif多肽。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽或优选至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种经加工的Nif多肽位于植物细胞的线粒体中,优选位于植物细胞的线粒体基质(MM)中。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽或优选至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种经加工的Nif多肽或两者独立地主要可溶于植物线粒体(即,大于50%可溶于线粒体)。经加工的Nif多肽优选至多80%或至多90%或甚至完全可溶于植物细胞的线粒体。可以如本文所述测定多肽溶解度。
在一个实施方案中,NifD融合多肽或NifD-接头-NifK融合多肽或其MPP切割产物存在于植物细胞中,并且(a)在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列。在一个实施方案中,ND在对应于SEQ ID NO:18的氨基酸100的位置处包含酪氨酸(Y)以外的氨基酸。在一个实施方案中,ND在对应于SEQID NO:18的氨基酸100的位置处包含谷氨酰胺(Q)或赖氨酸(K),或在对应于SEQ ID NO:18的氨基酸100的位置处包含亮氨酸(L)或甲硫氨酸(M)或苯丙氨酸(F)。
在一个实施方案中,MTP的长度约为距F1-ATPaseγ-亚基MTP约51个氨基酸。
在一个实施方案中,植物细胞包含NK氨基酸序列,其中多肽的C端为野生型NifK的C端。
在一个实施方案中,接头的长度为至少约20个氨基酸、或至少约30个氨基酸、或至少约40个氨基酸、或约20个氨基酸至约70个氨基酸、或约30个氨基酸至约70个氨基酸、或约30个氨基酸至约60个氨基酸、或约30个氨基酸至约50个氨基酸、或约25个氨基酸、或约30个氨基酸、或约35个氨基酸、或约40个氨基酸、或约45个氨基酸、或约46个氨基酸、或约50个氨基酸、或约55个氨基酸。
在一个实施方案中,NifD-接头-NifK融合多肽能够在其MTP中被切割或紧接MTP之后被切割,以产生经加工的多肽(CDK),其中CDK依次包含由MTP切割产生的任选的C端肽、NifD氨基酸序列(ND)、接头氨基酸序列和NK氨基酸序列。
在一个实施方案中,植物细胞还包含融合多肽或CDK或两者。
在一个实施方案中,CDK包含翻译融合于NifD氨基酸序列的N端的瘢痕序列,其长度为1-45个氨基酸,优选为1-20个氨基酸,更优选为1-10或11-20个氨基酸。
在一个实施方案中,CDK具有NifD和NifK两种功能。
在一个实施方案中,ND为AnfD而NK为AnfK。
在一个实施方案中,MTP的长度约为距F1-ATPaseγ-亚基MTP约51个氨基酸。
在一个实施方案中,每个MTP包含至少10个氨基酸,优选长度为10-80个氨基酸。
在一个实施方案中,MTP或至少一个MTP或所有MTP独立地包含线粒体蛋白前体或其变体的MTP,优选植物MTP。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽由至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种外源多核苷酸编码,其中至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种外源多核苷酸(优选作为连续的核酸序列)被整合到细胞核基因组中和/或在细胞核中表达。
在上述任一方面的另一个实施方案中,细胞是除拟南芥原生质体以外或除本生烟细胞以外的细胞。
本发明人还成功地在植物线粒体中表达了最小固氮酶复合物所需的Nif多肽的组合。
因此,在另一方面,本发明提供了一种包含线粒体和编码至少8种或至少9种Nif融合多肽的外源多核苷酸的植物细胞,其中外源多核苷酸各自包含与编码Nif融合多肽之一的核苷酸序列可操作地连接并在植物细胞中表达核苷酸序列的启动子,其中每种Nif融合多肽独立地包含线粒体靶向肽(MTP),其中Nif融合多肽包含(i)NifH、NifB、NifF、NifJ、NifS、NifU和NifV融合多肽,以及(ii)NifD融合多肽和NifK融合多肽或者(iii)包含具有C端的NifD序列的NifD-接头-NifK融合多肽、寡肽接头和具有N端的NifK序列,其中寡肽接头翻译融合于NifD序列的C端和NifK序列的N端,其中至少NifH、NifF、NifS和NifU融合多肽的线粒体加工蛋白酶(MPP)切割产物各自至少部分可溶于植物细胞的线粒体中,其中(ii)的NifD和NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,或(iii)的NifD-接头-NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,以及其中NifV融合多肽和/或其MPP切割产物在植物细胞中产生高柠檬酸盐,并且至少部分可溶于植物细胞的线粒体中。
在另一方面,本发明提供了一种包含线粒体和编码至少2种、至少3种、至少4种、至少5种或至少6种Nif融合多肽的外源多核苷酸的植物细胞,其中外源多核苷酸各自包含与编码Nif融合多肽之一的核苷酸序列可操作地连接并在植物细胞中表达核苷酸序列的启动子,其中每种Nif融合多肽独立地包含线粒体靶向肽(MTP),其中Nif融合多肽包含(i)NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部,以及(ii)NifD融合多肽和NifK融合多肽或者(iii)包含具有C端的NifD序列的NifD-接头-NifK融合多肽、寡肽接头和具有N端的NifK序列,其中寡肽接头翻译融合于NifD序列的C端和NifK序列的N端,其中至少NifW、NifX、NifY和NifZ融合多肽的线粒体加工蛋白酶(MPP)切割产物(如果存在于植物细胞中)各自至少部分可溶于植物细胞的线粒体中,其中(ii)的NifD和NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,或(iii)的NifD-接头-NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,以及其中ii)的NifD融合多肽和NifK融合多肽的MPP切割产物或iii)的NifD-接头-NifK融合多肽的MPP切割产物在植物细胞中的存在量大于缺少编码(i)的NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部的外源多核苷酸的相应植物细胞中存在的NifD融合多肽和NifK融合多肽的MPP切割产物或NifD-接头-NifK融合多肽的MPP切割产物的量。
在另一方面,本发明提供了一种包含线粒体和编码至少5种、至少6种、至少7种、至少8种或至少9种Nif融合多肽的外源多核苷酸的植物细胞,其中外源多核苷酸各自包含与编码Nif融合多肽之一的核苷酸序列可操作地连接并在植物细胞中表达核苷酸序列的启动子,其中每种Nif融合多肽独立地包含线粒体靶向肽(MTP),其中Nif融合多肽包含(i)NifH、NifS和NifU融合多肽和任选的NifM多肽,(ii)NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部,以及(iii)NifD融合多肽和NifK融合多肽或(iv)包含具有C端的NifD序列的NifD-接头-NifK融合多肽、寡肽接头和具有N端的NifK序列,其中寡肽接头翻译融合于NifD序列的C端和NifK序列的N端,其中NifS和NifU融合多肽的线粒体加工蛋白酶(MPP)切割产物至少部分可溶于植物细胞的线粒体中,其中NifW、NifX、NifY和NifZ融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,其中(iii)的NifD和NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,其中(iv)的NifD-接头-NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,以及其中iii)的NifD融合多肽和NifK融合多肽的MPP切割产物或iv)的NifD-接头-NifK融合多肽的MPP切割产物作为与P簇的复合物存在于植物细胞中。
在一个实施方案中,植物细胞包含NifH融合多肽,该NifH融合多肽为AnfD融合多肽,其中NifD融合多肽(如果存在)则是AnfD融合多肽,NifK融合多肽(如果存在)则是AnfK融合多肽,NifD-接头-NifK融合多肽(如果存在)则是AnfD-接头-AnfK融合多肽,且植物细胞还包含编码包含MTP的AnfG融合多肽的外源多核苷酸,其中编码AnfG融合多肽的外源多核苷酸包含启动子,该启动子与编码AnfG融合多肽的核苷酸序列可操作地连接且在植物细胞中表达所述核苷酸序列,并且其中AnfG融合多肽的MPP切割产物至少部分可溶于植物细胞的线粒体。
在上述三个方面的一个实施方案中,NifD融合多肽或NifD-接头-NifK融合多肽存在于植物细胞中,并且(a)在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列。
据他们所知,本发明人首次生产包含至少部分可溶于线粒体的NifV多肽的植物细胞。因此,本发明另一方面提供了一种包含NifV多肽(NV)的植物细胞,其中NV至少部分可溶于植物细胞的线粒体,优选可溶于植物细胞的MM。
在一个实施方案中,NV能够或正在细胞中产生高柠檬酸盐。
在一个实施方案中,NV多肽包含具有如SEQ ID NO’s:163、206-209、211或212中任一项所提供的序列的氨基酸及其生物活性片段;或者包含一种氨基酸序列,其与SEQ IDNO:163、206-209、211或212中的任何一项或多项中提供的氨基酸序列具有至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性,并且能够在细胞中产生高柠檬酸盐。
在该方面的一个实施方案中,本发明提供了一种植物细胞,该植物细胞包含线粒体和编码NifV多肽(NV)的外源多核苷酸,其中外源多核苷酸包含启动子,该启动子与编码NV的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,其中NV在植物细胞中产生高柠檬酸盐并且至少部分可溶于植物细胞的线粒体中,其中外源多核苷酸优选整合到植物细胞的核基因组中和/或在植物细胞的细胞核中表达,并且任选地其中NV包含线粒体靶向肽(MTP)。
在另一方面,本发明提供了一种包含编码NifD多肽(ND)的外源多核苷酸的植物细胞,该ND(a)在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ IDNO:101)以外的氨基酸序列,其中外源多核苷酸包含启动子,该启动子与编码ND的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,并且其中NifD多肽优选包含MTP。
在一个实施方案中,植物细胞包含编码NifK多肽(NK)的外源多核苷酸,其中编码NK的外源多核苷酸包含启动子,该启动子与编码NK的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,其中ND具有C端并且NK具有N端,并且其中(i)NK包含线粒体靶向肽(MTP)或者(ii)ND和NK翻译融合为包含寡肽接头的NifD-接头-NifK融合多肽,其中寡肽接头翻译融合于ND的C端和NK的N端。
在一个实施方案中,植物细胞包含编码NifH融合多肽(NH的外源多核苷酸,其中编码NH的外源多核苷酸包含启动子,该启动子与编码NH的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,其中NH包含线粒体靶向肽(MTP),并且优选其中NH和/或其MPP切割产物至少部分可溶于植物细胞的线粒体。
在一个实施方案中,至少一种或多种或优选所有Nif融合多肽的MPP切割产物至少部分可溶于植物细胞的线粒体中,优选其中NifD、NifK和NifD-接头-NifK融合多肽中每一种的MPP切割产物(如果存在于植物细胞中),且NifH多肽至少部分可溶于植物细胞的线粒体中。
据他们所知,本发明人也是首次生产包含至少部分可溶于线粒体的NifH多肽的植物细胞。因此,本发明另一方面提供了一种包含NifH多肽(NH)的植物细胞,其中NH至少部分可溶于线粒体。
在一个实施方案中,NH由外源多核苷酸编码,该多核苷酸优选作为具有编码NifD、NifK和NifD-接头-NifK融合多肽(如果存在于植物细胞中)的外源多核苷酸的连续核酸序列整合到细胞的核基因组中。
在另一方面,本发明提供了一种植物细胞,该植物细胞包含编码NifH融合多肽(NH)的外源多核苷酸,其中外源多核苷酸包含启动子,该启动子与编码NH的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,其中NH包含线粒体靶向肽(MTP),其中NH的MPP切割产物至少部分可溶于植物细胞的线粒体,以及任选地其中外源多核苷酸整合到植物细胞的核基因组中和/或在植物细胞的细胞核中表达。
在上述各方面的实施方案中,植物细胞还包含编码NifM多肽NM)的外源多核苷酸,其中编码NM的外源多核苷酸包含启动子,该启动子与编码NM的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,以及其中NM任选地包含线粒体靶向肽(MTP)。
在上述各方面的实施方案中,植物细胞包含编码NifS和NifU融合多肽的外源多核苷酸,其中外源多核苷酸各自包含启动子,该启动子与编码Nif融合多肽之一的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,以及其中NifS和NifU融合多肽各自包含线粒体靶向肽(MTP)。
在上述各方面的实施方案中,各Nif多肽作为包含线粒体靶向肽(MTP)的Nif融合多肽在植物细胞中产生,其中各MTP独立地相同或不同,优选其中MTP位于至少一种或多于一种或所有Nif融合多肽的N端。
在上述各方面的实施方案中,植物细胞中产生的各Nif融合多肽(i)在MTP序列内被MPP独立切割以产生MPP切割的Nif多肽,其中MPP切割的Nif多肽在其N端包含来自MTP的C端肽(瘢痕肽),或者(ii)紧接MTP之后被MPP独立切割,其中MPP切割的Nif多肽不包含来自MTP的C端肽。
在上述各方面的实施方案中,各MTP在植物细胞中以至少50%的效率独立切割和/或其中各切割的Nif多肽以高于相应未切割的Nif融合多肽的水平独立存在于植物细胞中,优选以高于1:1、2:1或3:1的比例存在。
在上述各方面的实施方案中,各Nif融合多肽在植物细胞中在其MTP序列中被至少部分切割以产生MPP切割的Nif多肽,其中各MPP切割的Nif多肽独立地包含衍生自MTP序列的长度为1-45个氨基酸、优选地长度为1-20个氨基酸、更优选地长度为1-11或11-20个氨基酸的肽(瘢痕肽),其翻译融合于MPP切割的Nif多肽的N端。在实施方案中,一种或多种瘢痕肽的长度独立地为2、3、4、5、6、7、8、9或10个氨基酸。在实施方案中,一种或多种疤痕肽的长度独立地为11、12、13、14、15、16、17、18、19或20个氨基酸,或者20-30、20-40或20-50个氨基酸,尽管优选较短的疤痕序列。在这些实施方案中,如本文所用,瘢痕肽包括任何接头序列,例如本文实施例中使用的与Nif序列的N端融合的Gly-Gly接头。在实施方案中,Nif序列在其N端保留了来自其野生型序列的Met(翻译起始Met),该Met不包括在瘢痕序列中。或者,从Nif序列中省略翻译起始Met。在实施方案中,相对于相应的野生型Nif序列,可以从Nif序列的N端修剪附加的氨基酸,条件是修剪后的Nif序列保留其Nif功能。
在上述各方面的实施方案中,植物细胞还包含编码铁氧化还原蛋白融合多肽、优选FdxN融合多肽的外源多核苷酸,其中编码铁氧化还原蛋白(ferredoxin)融合多肽的外源多核苷酸包含启动子,该启动子与编码铁氧化还原蛋白融合多肽的核苷酸序列可操作地连接并在植物细胞中表达所述核苷酸序列,以及其中铁氧化还原蛋白融合多肽包含线粒体靶向肽(MTP)。
在一个实施方案中,铁氧化还原蛋白融合多肽的MPP切割产物至少部分可溶于植物细胞的线粒体,优选其中外源多核苷酸整合到植物细胞的核基因组中和/或在植物细胞的细胞核中表达。
在一个实施方案中,植物细胞包含NifD-接头-NifK融合多肽,该融合多肽依次包含NifD氨基酸序列(ND)、寡肽接头和NifK多肽(NK)氨基酸序列,其中寡肽接头的长度为8-50个残基,优选地长度为16-50个残基,更优选地长度为约26或约30个残基,或最优选地长度为30个残基,该接头氨基酸序列翻译融合于ND和NK。
在一个实施方案中,各Nif融合多肽在植物细胞中被切割以产生作为功能性Nif多肽的Nif多肽。
在一个实施方案中,植物细胞包含编码NifD融合多肽(ND)或NifD-接头-NifK融合多肽的外源多核苷酸,其中ND或NifD-接头-NifK融合多肽在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列,并且其中所述ND或NifD-接头-NifK融合多肽优选在对应于SEQ ID NO:18的氨基酸100的位置处包含除酪氨酸(Y)以外的氨基酸。
在一个实施方案中,ND或NifD-接头-NifK融合多肽在对应于SEQ ID NO:18的氨基酸100的位置处包含谷氨酰胺(Q)或赖氨酸(K),或在对应于SEQ ID NO:18的氨基酸100的位置处包含亮氨酸(L)或甲硫氨酸(M)或苯丙氨酸(F)。
在一个实施方案中,植物细胞包含编码NifK融合多肽或NifD-接头-NifK融合多肽的外源多核苷酸,其中NifK融合多肽或NifD-接头-NifK融合多肽具有与野生型NifK多肽的C端氨基酸序列相同的C端氨基酸序列。在一些实施方案中,序列的至少最后两个、至少最后三个、至少最后四个氨基酸与野生型NifK多肽相同。合适的野生型NifK多肽序列包括SEQID NO:3,以及登录号WP_049080161.1、WP_044347163.1、SBM87811.1、WP_047370272.1、WP_014333919.1、WP_012728880.1、WP_011912506.1、WP_065303473.1、WP_018989051.1、prf||2106319A、WP_011021239.1等。
在一个实施方案中,NifK融合多肽或NifD-接头-NifK融合多肽以及由其得到的MPP切割产物具有氨基酸序列,其中该序列的最后四个氨基酸与野生型NifK多肽的最后四个氨基酸相同。
在一个实施方案中,本发明的NifK多肽的氨基酸序列在其C端具有氨基酸DLVR(SEQ ID NO:58)。在另一个实施方案中,NifK多肽在其C端具有氨基酸DLIR(SEQ ID NO:239)、DVVR(SEQ ID NO:240)、DIIR(SEQ ID NO:241)、DLTR(SEQ ID NO:242)或INVW(SEQ IDNO:243)。在一个实施方案中,AnfK多肽在其C端具有氨基酸LNVW(SEQ ID NO:244)、LNTW(SEQ ID NO:245)、LNMW(SEQ ID NO:246)、LAMW(SEQ ID NO:247)或LSVW(SEQ ID NO:248)。
在上述方面的实施方案中,植物细胞包含编码AnfD-接头-AnfK融合多肽的外源多核苷酸,其中AnfD-接头-AnfK融合多肽包含具有C端的AnfD序列、寡肽接头和包含N端的AnfK序列,其中寡肽接头翻译融合于AnfD序列的C端和AnfK序列的N端,其中寡肽接头的长度为至少约20个氨基酸、至少约30个氨基酸、至少约40个氨基酸、约20个氨基酸至约70个氨基酸、约30个氨基酸至约70个氨基酸、约30个氨基酸至约50个氨基酸、约25个氨基酸、约30个氨基酸、约35个氨基酸、约40个氨基酸、约45个氨基酸、约46个氨基酸、约50个氨基酸或约55个氨基酸。即,在这些实施方案中,上述实施方案的NifD序列为AnfD序列,NifK序列为AnfK序列。
在一个实施方案中,至少一种或多于一种或优选所有的外源多核苷酸被整合到植物细胞的核基因组中和/或在植物细胞的细胞核中表达。
在一个实施方案中,每个MTP包含至少10个氨基酸,优选长度为10-80个氨基酸。
在一个实施方案中,至少一个Nif融合多肽包含一个MTP,该MTP的长度为距离F1-ATPaseγ-亚基多肽约51个氨基酸。
在一个实施方案中,MTP或至少一个MTP或所有MTP独立地包含线粒体蛋白前体或其变体的MTP,优选植物MTP。
在一个实施方案中,至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种Nif多肽由至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种外源多核苷酸编码,其中至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种或至少11种外源多核苷酸(优选作为连续的核酸序列)被整合到细胞核基因组中。
在上述方面的实施方案中,细胞不能产生子代细胞,例如不能再生细胞培养物或活体植物。
在一个实施方案中,本发明的植物细胞还由本文提及的一个或多个特征限定。每个可能的特征组合都是显而易见的。
另一方面,本发明提供了包含本发明植物细胞的植物或植物部分、器官或组织,优选转基因植物或其部分,其中转基因植物或其部分对于至少一种或多种编码Nif多肽的外源多核苷酸是转基因的。
在一个实施方案中,植物部分是种子。在一个实施方案中,种子能够发芽,或者已经被加工或处理使得其不再能够发芽。种子的细胞可能不能再生为细胞培养物或活体植物。
在上述方面的实施方案中,一种或多种外源多核苷酸中的一种或多种在植物的根中表达,优选在植物的根中比在植物的叶片中以更高的水平表达。在这种情况下,使用一种提供了所需组织表达特异性的启动子序列。
在一个实施方案中,转基因植物相对于相应的野生型植物具有改变的表型,其相对于相应的野生型植物在产量、生物量、生长速率、活力、源自生物固氮的氮增益、氮利用效率、非生物胁迫抗性和/或对营养缺乏的抗性方面有所增加。
在另一个实施方案中,转基因植物相对于相应的野生型植物具有相同的生长速率和/或表型。
在上述方面的实施方案中,植物细胞、植物或其部分是谷类植物细胞、植物或其部分,例如小麦、水稻、玉米、黑小麦、燕麦或大麦,优选小麦。
在上述方面的实施方案中,植物细胞、植物或其部分对于一种或多种外源多核苷酸是纯合的或杂合的,优选对于所有外源多核苷酸是纯合的。
在上述方面的实施方案中,植物细胞、植物或其部分是单子叶植物细胞、植物或其部分,例如谷类植物细胞、植物或其部分,例如小麦、水稻、玉米、黑小麦、燕麦或大麦,优选小麦;或双子叶植物细胞、植物或其部分。
在另一个或又一个实施方案中,转基因植物生长于大田中,或植物部分收获于大田中生长的植物。或者,植物生长于温室中。
另一方面,本发明提供了在田间或温室中生长的至少100株本发明植物的种群、或从其收获的植物部分。
另一方面,本发明提供了一种分离的或重组的NifD多肽(ND),其在对应于SEQ IDNO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性。
在另一方面,本发明提供了一种分离的或重组的NifD多肽(ND),其在对应于SEQID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列。
分离的或重组的ND还可以由上述任何适用于Nif多肽的特征来定义。上述特征的所有可能组合都被认为是本发明的一部分。
在一个相关的方面,本发明提供了一种NifD融合多肽或其切割产物,该NifD融合多肽包含翻译融合于NifD多肽(ND)的线粒体靶向肽(MTP),该切割产物包含ND,其中NifD融合多肽或其切割产物(a)在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列。
在一个实施方案中,NifD融合多肽包含寡肽接头和NifK多肽(NK),该寡肽接头和NifK多肽翻译融合为NifD-接头-NifK融合多肽,其中ND包含C端且NK包含N端,其中寡肽接头翻译融合于ND的C端和NK的N端。
在另一方面,本发明提供了本发明的NifD融合多肽的切割产物,其中切割产物包含ND、寡肽接头和NK,其中寡肽接头翻译融合于ND的C端。在一个实施方案中,当在植物细胞中产生NifD融合多肽时,NifD融合多肽或其切割产物至少部分可溶于植物细胞的线粒体中。
在一个实施方案中,NifD融合多肽为AnfD融合多肽,NK为AnfK多肽,NifD-接头-NifK融合多肽为AnfD-接头-AnfK融合多肽。
在另一方面,本发明提供了一种NifK融合多肽,其包含翻译融合于NifK多肽(NK)的线粒体靶向肽(MTP),其中当NifK融合多肽或其切割产物在植物细胞中产生时,NifK融合多肽或其切割产物至少部分溶于植物细胞的线粒体中。
在另一方面,本发明提供了本发明的NifK融合多肽的切割产物,其包含NK,其中当在植物细胞中产生切割产物时,该切割产物至少部分可溶于植物细胞的线粒体中。
在一个实施方案中,NK为AnFK多肽。
在一个实施方案中,NifK多肽的C端氨基酸序列与野生型NifK多肽的C端氨基酸序列相同。本文描述了合适的野生型野生型NifK多肽序列。
在另一方面,本发明提供了一种蛋白质复合物,其包含(i)NifD融合多肽的切割产物,(ii)NifK融合多肽的切割产物,和(iii)Fe-S簇,优选P簇。
在一个实施方案中,蛋白质复合物位于植物细胞中,优选位于植物细胞的线粒体中。
在另一方面,本发明提供了基本上纯化的或重组的NifV多肽(NV),其在多肽在植物细胞中表达时至少部分可溶于植物线粒体中。
在一个相关的方面,本发明提供了分离的或重组的NifV,或包含翻译融合于NifV多肽(NV)的线粒体靶向肽(MTP)的NifV融合多肽,或包含NV的其切割产物,其中NifV多肽和/或NifV融合多肽和/或其切割产物在植物细胞中产生时至少部分可溶于植物细胞中,优选至少部分可溶于植物细胞的线粒体中。
在一个实施方案中,分离的或重组的NifV多肽或NifV融合多肽或其切割产物能够在植物细胞中、优选在植物细胞的线粒体中产生高柠檬酸盐。
在另一方面,本发明提供了一种基本上纯化的或重组的NifH多肽(NH),该多肽在植物细胞中(优选在转基因植物中表达时)至少部分可溶于植物线粒体中。
在另一方面,本发明提供了一种NifH融合多肽,其包含翻译融合于NifH多肽(NH)的线粒体靶向肽(MTP)或包含NH的其切割产物,其中NifH融合多肽和/或其切割产物至少部分溶于植物细胞的线粒体中。在这些方面的实施方案中,NH多肽在植物细胞中在其MTP序列中被至少部分切割以产生MPP切割的Nif多肽,其中MPP切割的NH包含衍生自MTP序列的长度为1-45个氨基酸、优选地长度为1-20个氨基酸、更优选地为1-11个氨基酸或11-20个氨基酸的肽(瘢痕肽),其翻译融合于NH的N端。在实施方案中,一种或多种瘢痕肽的长度独立地为2、3、4、5、6、7、8、9或10个氨基酸。在实施方案中,一种或多种疤痕肽的长度独立地为11、12、13、14、15、16、17、18、19或20个氨基酸,或者20-30、20-40或20-50个氨基酸,尽管优选较短的疤痕序列。
在这些方面的一个实施方案中,NH为AnfH多肽。
在一个实施方案中,NifH融合多肽或优选其MPP切割产物与一个或两个Fe-S簇、优选一个或两个Fe4-S4簇结合。
在另一方面,提供了编码NifV多肽(NV)的分离的或外源的多核苷酸,其中NV在植物细胞中表达时至少部分可溶于植物线粒体中。
在一个实施方案中,NV多肽包含具有如SEQ ID NO’s:163、206-209、211或212中任一项所提供的序列的氨基酸及其生物活性片段;或者包含一种氨基酸序列,其与SEQ IDNO:163、206-209、211或212中的任何一项或多项中提供的氨基酸序列具有至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性。
在一个实施方案中,本发明的多肽是一种分离的或重组的多肽。在另一个实施方案中,本发明的多肽例如重组多肽位于细胞中,优选位于植物细胞中。
用于上述任何方面的Nif多肽的合适氨基酸序列是本领域已知的并且包括本文提供的那些。
在一个实施方案中,NifH多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifH多肽包含SEQ ID NO:225-231中提供的一个或多个氨基酸序列基序。
在一个实施方案中,NifH多肽包含具有与SEQ ID NO:1中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifH多肽包含具有与SEQ ID NO:218中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifD多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifD多肽包含具有与SEQ ID NO:2中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifD多肽包含具有与SEQ ID NO:216中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifK多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifK多肽包含具有与SEQ ID NO:3中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifK多肽包含具有与SEQ ID NO:217中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifB多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifB多肽包含具有与SEQ ID NO:4中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifE多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifE多肽包含具有与SEQ ID NO:5中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifF多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifF多肽包含具有与SEQ ID NO:6中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,AnfG多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
i.SEQ ID NO:219;
ii.登录号WP_012703360;
iii.登录号WP_144571041;
iv.登录号HBE76208;
v.登录号WP_144349445;
vi.登录号WP_112317428;和
vii.登录号WP_048515315;
在一个实施方案中,AnfG多肽包含具有与SEQ ID NO:219中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifJ多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifJ多肽包含具有与SEQ ID NO:7中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifM多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifM多肽包含具有与SEQ ID NO:8中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifN多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifN多肽包含具有与SEQ ID NO:9中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifQ多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifQ多肽包含具有与SEQ ID NO:10中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifS多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifS多肽包含具有与SEQ ID NO:11中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifS多肽包含具有与SEQ ID NO:19中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifU多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifU多肽包含具有与SEQ ID NO:12中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifV多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifV多肽包含具有与SEQ ID NO:13中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifX多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifX多肽包含具有与SEQ ID NO:14中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifY多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifY多肽包含具有与SEQ ID NO:15中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifZ多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifZ多肽包含具有与SEQ ID NO:16中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,NifW多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,NifW多肽包含具有与SEQ ID NO:17中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在一个实施方案中,铁氧化还原蛋白多肽包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,铁氧化还原蛋白多肽包含具有与SEQ ID NO:232中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
与上述任何方面相关的MTP的合适氨基酸序列是本领域已知的并且包括本文提供的那些。在一个实施方案中,MTP包含具有与下列任一或多个序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸:
在一个实施方案中,MTP包含具有与SEQ ID NO:36中提供的序列至少30%同一性、至少40%同一性、至少50%同一性、至少60%同一性、至少70%同一性、至少80%同一性、至少90%同一性、至少95%同一性、至少97%同一性或至少99%同一性的氨基酸。
在另一方面,本发明提供了一种编码本发明任何一种或多种多肽的多核苷酸。
在一个实施方案中,相对于细菌中天然存在的多核苷酸的相应蛋白质编码区,多核苷酸的蛋白质编码区已经被密码子修饰以在植物细胞中表达。在一个实施方案中,大多数或甚至所有的蛋白质编码区已经被密码子优化以在植物细胞、优选本发明的植物细胞中表达。
在另一个实施方案中,每个外源多核苷酸包含可操作地连接至多核苷酸的启动子和/或可操作地连接至多核苷酸的翻译调节元件。
在一个实施方案中,启动子促进一种或多种多核苷酸在植物的根、叶片和/或茎中的表达,优选启动子促进一种或多种多核苷酸在相对于植物种子的植物的根、叶或茎中的一个或多个或全部中表达。
在另一个实施方案中,一种或多种或所有多核苷酸存在于植物细胞或细菌细胞中,优选整合到植物细胞的核基因组中,例如作为整合到叶绿体基因组或优选植物细胞的核基因组中的连续DNA序列。植物细胞可能包含例如作为多个T-DNA整合到核基因组中的连续DNA序列的多个拷贝。
在一个实施方案中,每个多核苷酸或其中编码多肽的每个序列与启动子和任选的转录终止序列可操作地连接。
在另一个或又一个实施方案中,启动子促进一种或多种多核苷酸在植物的根、叶和/或茎中的表达,优选一种或多种多核苷酸相对于植物种子优先在植物的一种或多种或所有根、叶或茎中表达。
在另一方面,提供了一种包含或编码本发明多核苷酸的嵌合载体。
在另一方面,本发明提供了一种包含本发明多核苷酸的载体。
在一个实施方案中,载体包含编码至少3种、至少4种或至少5种Nif融合多肽的多核苷酸。
在另一方面,本发明提供了一种包含多核苷酸的载体,该多核苷酸编码至少3种、至少4种或至少5种本发明上述任一方面所定义的Nif融合多肽。
在一个实施方案中,载体包含编码以下多肽的多核苷酸:
a)NifD融合多肽和NifK融合多肽,或NifD-接头-NifK融合多肽;以及
b)NifH融合多肽和NifV融合多肽;以及
c)任选地,AnfG融合多肽和/或铁氧化还原蛋白融合多肽。
在一个实施方案中,载体包含编码以下多肽的多核苷酸:
a)NifF、NifJ、NifU和NifB融合多肽以及任选地NifS融合多肽;和/或
b)NifW、NifX、NifY和NifZ融合多肽。
在另一方面,本发明提供了一种细胞,其包含一种或多种本发明的多肽、一种或多种本发明的外源多核苷酸和/或本发明的载体。
在一个实施方案中,细胞为植物细胞或细菌细胞。
在另一个实施方案中,植物细胞为单子叶植物细胞,例如谷类植物细胞如小麦细胞、水稻细胞、玉米细胞、黑小麦细胞、燕麦细胞或大麦细胞,优选小麦细胞;或为双子叶植物细胞。植物细胞还可以通过由上述任何特征限定的多肽或多核苷酸来表征。上述特征的所有可能组合都被认为是本发明植物细胞和本发明其他方面的一部分。
在另一方面,本发明提供了一种转基因植物或其转基因部分、优选种子,其包含一种或多种本发明的多肽、一种或多种本发明的外源多核苷酸和/或本发明的载体。
在一个实施方案中,转基因植物是单子叶植物,例如谷类植物如小麦、水稻、玉米、黑小麦、燕麦或大麦,优选小麦;或双子叶植物。植物或其部分的特征还在于由上述任何特征定义的多肽或多核苷酸。上述特征的所有可能组合都被认为是本发明植物或其部分和本发明其他方面的一部分。
在另一方面,本发明提供了一种产生本发明多肽的方法,该方法包括在细胞中表达本发明的多核苷酸。
在另一方面,本发明提供了一种产生本发明细胞的方法,该方法包括将本发明的一种或多种多核苷酸和/或本发明的载体导入细胞的步骤。
在另一方面,本发明提供了一种在植物细胞中产生高柠檬酸盐的方法,该方法包括在植物细胞中表达本发明的重组NifV多肽或NifV融合多肽,其中重组NifV多肽或NifV融合多肽和/或其切割产物在植物细胞中产生高柠檬酸盐。
在一个实施方案中,该方法还包括将编码重组NifV多肽或NifV融合多肽的多核苷酸导入植物细胞中。
在另一方面,本发明提供了本发明的NifV多肽在植物细胞中产生高柠檬酸盐的用途。
在另一方面,本发明提供了一种增加植物细胞中NifD、NifK或NifD-接头-NifK融合多肽的量的方法,该方法包括在植物细胞中表达NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部,其中每种Nif融合多肽独立地包含线粒体靶向肽(MTP),其中植物细胞中NifD、NifK或NifD-接头-NifK融合多肽的量相对于不表达所述NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部的相应植物细胞有所增加。
在一个实施方案中,该方法还包括:
i)将一种或多种编码NifD、NifK或NifD-接头-NifK融合多肽的多核苷酸导入植物细胞;以及
ii)将编码NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部的一种或多种多核苷酸导入植物细胞。
在另一方面,本发明提供了一种增加植物细胞中NifY多肽的量的方法,该方法包括在植物细胞中表达NifW、NifX和NifZ融合多肽中的一种或多种或全部,其中每种Nif融合多肽独立地包含线粒体靶向肽(MTP),其中植物细胞中NifY多肽的量相对于不表达所述NifW、NifX和NifZ融合多肽中的一种或多种或全部的相应植物细胞有所增加。
在一个实施方案中,该方法还包括:
i)将编码NifY融合多肽的多核苷酸导入植物细胞;以及
ii)将编码NifW、NifX和NifZ融合多肽中的一种或多种或全部的一种或多种多核苷酸导入植物细胞。
在另一方面,本发明提供了编码NifW、NifX和NifZ融合多肽中的一种或多种或全部的一种或多种多核苷酸在增加植物细胞中NifY多肽的量中的用途。
在另一方面,本发明提供了本发明的多核苷酸和/或本发明的载体在产生转基因植物细胞中的用途。
在另一方面,本发明提供了一种产生转基因植物的方法,该方法包括以下步骤:
i)将本发明的一种或多种多核苷酸和/或本发明的一种或多种载体导入植物的细胞中,
ii)由从步骤i)的细胞再生本发明的转基因植物,以及
iii)任选地,由步骤ii)中再生的转基因植物产生转基因种子和/或子代植物。
在另一方面,本发明提供了一种产生转基因种子的方法,包括
i)从本发明的转基因植物收获种子和/或
ii)从通过本发明的方法产生的一种或多种转基因子代植物收获种子。
在另一方面,本发明提供了一种产生植物的方法,该植物的基因组中整合了本发明的多核苷酸,该方法包括以下步骤:
i)使两种亲本植物杂交,其中至少一种植物包括该多核苷酸,
ii)从杂交中筛选存在或不存在该多核苷酸的一株或多株子代植物,以及
iii)选择包括该多核苷酸的子代植物,
由此产生植物。
在另一个或又一个实施方案中,至少一种亲本植物是四倍体或六倍体小麦植物。
在另一个或又一个实施方案中,步骤ii)包括分析包含来自一株或多株子代植物的DNA样品中的多核苷酸。
在另一个或又一个实施方案中,步骤iii)包括:
i)选择多核苷酸纯合的子代植物,和/或
ii)分析植物或其一株或多株子代植物的多核苷酸的存在和/或表达或如上所述的改变的表型。
在一个或另一个实施方案中,该方法还包括:
iv)将步骤i)的杂交子代和与缺乏该多核苷酸的第一亲本植物具有相同基因型的植物回交足够次数以产生具有第一亲本的大部分基因型但包括该多核苷酸的植物,和
v)选择包括多核苷酸和/或具有如上定义的改变的表型的子代植物。
在另一个或又一个实施方案中,该方法还包括分析植物或子代植物的至少一个其他遗传标志的步骤。
在另一方面,本发明提供了一种使用根据本发明的方法生产的植物。
在另一方面,本发明提供了本发明的多核苷酸和/或本发明的载体在产生重组细胞和/或转基因植物中的用途。
在一个实施方案中,在与缺乏外源多核苷酸和/或载体的相应植物相比时,转基因植物具有如上定义的改变的表型。
在另一方面,本发明提供了一种用于鉴定包含根据本发明的多核苷酸的植物的方法,该方法包括以下步骤:
i)从植物获得核酸样本,以及
ii)筛选样品中是否存在多核苷酸。
在一个实施方案中,在当与缺乏外源多核苷酸的相应植物相比时,多核苷酸的存在表明植物具有如上定义的改变的表型。
在另一个或又一个实施方案中,该方法鉴定本发明的植物。
在另一个或又一个实施方案中,该方法还包括在步骤i)之前由种子产生植物。
在另一方面,本发明提供了包含本发明的植物细胞或从本发明的转基因植物获得的转基因植物部分。
在一个实施方案中,植物部分是包含本发明多核苷酸的种子。
在另一方面,本发明提供了一种由种子生产面粉、全麦面粉、淀粉、油、种子粉或其他产品的方法,该方法包括;
a)获得本发明的种子和/或
b)提取面粉、全麦面粉、淀粉、油或其他产品、或生产种子粉。
在另一方面,本发明提供了一种从包含本发明多肽和/或本发明多核苷酸的本发明转基因植物和/或本发明植物部分生产的产品。
在一个实施方案中,植物部分为种子。
在另一个或又一个实施方案中,产品是食品成分或饮料成分或食品或饮料产品。优选地,i)食品成分选自由以下组成的组:面粉、淀粉、油、发酵或未发酵的面包、意大利面、面条、动物饲料、早餐谷类食品、零食食品、蛋糕、麦芽、甜点和含有基于面粉酱汁的食品,或ii)饮料产品是果汁、啤酒或麦芽。这些产品的生产方法通常为本领域技术人员已知。
在另一个实施方案中,产品是非食品。非食品的实例包括但不限于膜、涂层、粘合剂、建筑材料和包装材料。这些产品的生产方法通常为本领域技术人员已知。
在另一方面,本发明提供了一种制备食品的方法,该方法包括将本发明的种子或面粉、全麦面粉、淀粉、油或来自种子的其他产品与另一种食品成分混合。
在另一方面,本发明提供了一种制备麦芽的方法,包括使本发明的种子发芽的步骤。
在另一方面,本发明提供了根据本发明的植物或其部分作为动物饲料,或生产用于动物消费的饲料或用于人类消费的食物的用途。
另一方面,本发明提供了一种组合物,其包括根据本发明的多肽、根据本发明的多核苷酸、根据本发明的载体或根据本发明的细胞,以及一种或多种可接受的载体。
另一方面,本发明提供了在植物细胞中重建固氮酶蛋白复合物的方法,该方法包括将两种或多种根据本发明的多核苷酸、两种或多种根据本发明的核酸构建体和/或根据本发明的载体导入细胞,并培养植物细胞足够的时间以表达多核苷酸或载体。
除非另有特别说明,否则本文中的任何实施方案应被视为比照适用于任何其他实施方案。例如,本领域技术人员可以理解,本发明一个方面的上述Nif多肽的实例同样适用于本发明的任何其他方面。
本发明不限于本文描述的特定实施方案的范围,这些实施方案仅用于示例性目的。如本文所述,功能等同的产品、组合物和方法显然在本发明的范围内。
在整个说明书中,除非另有特别说明或上下文另有要求,提及单个步骤、物质组成、步骤组或物质组成组应被认为包括一个和多个(即一个或更多个)那些步骤、物质组成、步骤组或物质组成组。
以下通过以下非限制性实施例并参考附图描述本发明。
附图说明
图1.在本生烟叶片中瞬时表达后,使用抗HA抗体检测单个未加工的和MPP加工的pFAγ51::Nif::HA或6×HIS::Nif::HA多肽的蛋白质印迹分析。C.细胞质表达(6×His);M.线粒体靶向。
图2.将MTP:Nif基因构建体导入本生烟叶片后蛋白质提取物的蛋白质印迹。每个印迹上的第一和最后泳道显示了来自Invitrogen的预染的BenchMark分子量标准品(Invitrogen Prestained BenchMark ladder)的指示性分子量标记(molecular weightmarker)(以kDa为单位)。用于每个样品的基因构建体在每个泳道上方标出,且包含在每个融合多肽中的Nif多肽在泳道下方标出。在含有或不含编码MTP-FAγ77::NifK融合多肽(WO2018/141030)的pRA25的共压渗的情况下,对构建体SN26-SN32进行配对压渗(pairedinfiltration)。用HA抗体进行蛋白质印迹探测。
图3.在本生烟叶片细胞中表达后,使用单个MTP-FAγ51::Nif::HA多肽(除MTP-FAγ51::HA::NifK外)的抗HA抗体及其MPP加工产物进行蛋白质印迹分析。T.总蛋白;I.不溶性级分;S.可溶性级分。
图4.上图显示了用于由野生型NifD融合多肽产生的二次切割产物的测试基因构建体的示意图。MTP为FAγ51或L29序列,NifD为野生型产酸克雷伯氏杆菌(K.oxytoca)序列,并且HA=HA表位。下图显示了将基因构建体导入本生烟叶片细胞后蛋白质提取物的蛋白质印迹。用HA抗体进行蛋白质印迹探测。泳道1显示了使用预染的Benchmark分子量标准品的分子量标记。成对泳道了显示了NifK构建体pRA25的缺失(-)或存在(+)。条带1=未加工的MTP::NifD融合多肽,条带2=MPP加工的融合多肽,条带3=~48kDa降解产物。
图5.将MTP:NifD基因构建体导入本生烟叶片细胞后蛋白质提取物的蛋白质印迹。泳道1显示了使用ThermoFisher的预染的Benchmark分子量标准品的分子量标记(以kDa为单位)。每个样品中使用的基因构建体在每个泳道上方标出。pRA24编码MTP-FAγ::NifD::HA多肽,其中NifD编码区针对拟南芥进行了密码子优化(WO2018/141030)。将每种构建体与pRA25(MTP-FAγ77::NifK)一起导入植物细胞以增强NifD融合多肽的累积。用HA抗体进行蛋白质印迹探测。箭头显示来自NifD的~48kDa二次切割多肽的位置。
图6.将MTP:NifD基因构建体导入本生烟叶片细胞后蛋白质提取物的蛋白质印迹。泳道1显示了使用ThermoFisher的预染的Benchmark分子量标准品的分子量标记(以kDa为单位)。每个样品中使用的基因构建体在每个泳道上方标出。SN64编码mMTP-CPN60::NifD多肽,其中mMTP-CPN60氨基酸序列已被丙氨酸置换,从而使其对MPP切割具有抗性。pRA24编码MTP-FAγ::NifD::HA多肽,其中NifD编码区针对拟南芥进行了密码子优化(WO2018/141030)。用HA抗体进行蛋白质印迹探测。
图7.将SN66中的突变体mMTP-FAγ51氨基酸序列(SEQ ID NO:59)与SN10(SEQ IDNO:122)中未修饰的MTP-FAγ51序列(SEQ ID NO:21)进行比对。用丙氨酸置换5和8个连续氨基酸残基的区域,使MPP加工失活。
图8.在将MTP:Nif基因构建体导入植物细胞或酵母细胞后,用HA抗体进行蛋白质提取物的蛋白质印迹探测,证明了酵母细胞中NifD的二次切割/降解以及含有Y100Q氨基酸置换(SN114、SNY114)的切割减少。将来自本生烟叶片细胞(SN10、SN196、SN114)或来自酵母(SNY10、SNY196、SNY114)的蛋白质提取物在所示泳道中电泳。泳道1和8显示了使用ThermoFisher的预染的Benchmark分子量标准品(ladder)的分子量标记(以kDa为单位)。~64kDa处的条带代表未加工的MTP::NifD::HA融合多肽,而~58kDa处的条带代表MPP加工的融合多肽。箭头指向次级切割产生的~48kDa的C端多肽。
图9.导入编码MTP::NifD::HA氨基酸置换变体的基因构建体和SN46(MTP-Su9::NifK)的本生烟叶片细胞的蛋白质提取物的蛋白质印迹。泳道12显示了使用ThermoFisher的预染的Benchmark分子量标准品的分子量标记(以kDa为单位)。泳道5-11中~58kDa处最强的条带为MPP加工的MTP-FAγ51::NifD。泳道2和3显示了通过二次切割产生的48kDa多肽。注意泳道5-11中不存在48kDa多肽。
图10.野生型NifD多肽中对应于产酸克雷伯氏杆菌NifD的氨基酸区域49-108(SEQID NO:18)的氨基酸序列比对。从包含序列相似性网络中至少10个成员的每个簇中选择代表性序列。每个NifD序列簇中的成员数目显示在括号中。完全保守的氨基酸显示于比对上方。
图11.所提出的二次切割位点的定位示于来自产酸克雷伯氏杆菌的NifD多肽(PDB:1QGU)的晶体结构中。辅因子Femoco显示为右侧的球体。NifK-Ser515、NifK-Asp517、C端和左上方的结构来自NifK多肽。Arg97、Arg98、Asn99、Tyr100、Tyr101、Thr102和除FeMoCo之外的右下方结构来自NifD。虚线表示Tyr100和Ser515、Asp517和Arg98的羟基之间可能的氢键。
图12.蛋白质印迹分析显示了来自六种不同细菌的NifD融合多肽的线粒体加工。针对每个NifD序列分析相邻泳道中的三种构建体:编码mMTP-FAγ51::NifD::HA融合多肽,其在经典MPP切割位点(泳道A)处未被MPP切割;编码MTP-FAγ51::NifD::HA,其靶向线粒体(泳道M);以及编码6×His::NifD::HA,预计其位于细胞质中(泳道C)并且大小与MPP加工的大小相对应。
图13.未按比例绘制的编码NifD::接头(HA)::NifK融合多肽的基因构建体的示意图。mMTP-FAγ是指具有丙氨酸置换以防止被MPP切割的突变MTP。Y100Q是指在NifD序列中存在氨基酸置换。
图14.NifD-接头(HA)-NifK多肽在本生烟中表达后的溶解度。如实施例1中所述,来自渗透叶样品的蛋白质被分离为“总”蛋白质或分级成不溶性和可溶性级分。显示ThermoFisher的预染的Benchmark分子量标准品的分子量标记用于“总的”和“不溶性”样品的印迹,且Invitrogen的PageRuler分子量标准品用于“可溶性”样品的印迹。
图15.由SN197上的基因编码的metaxin融合多肽及其在线粒体外膜中的定位的示意图,其中大部分多肽从N端进入细胞质。这种构建体使用了本生烟的metaxin序列。
图16:显示了来自SN166的线粒体靶向的MTP-FAγ51::NifU::TS的纯化导致NifU多肽加工形式的纯化的蛋白质印迹。上图:用抗Strep抗体进行探测。下图:考马斯蓝染色的凝胶。
图17.显示了线粒体靶向scar9::GG::NifU::TS的纯化导致scar9::GG::NifS::HA的共纯化的蛋白质印迹。在第一次纯化实验的纯化过程中,使用抗Strep抗体或者使用抗HA抗体对来自步骤(i)至(v)的样品进行SDS-PAGE和蛋白质印迹以检测NifU多肽或检测NifS多肽。NiFS的两个带对应于未加工和处理形式。洗脱物中存在加工过的NiFS形式表明发生了共纯化。
图18.第三次纯化实验中来自本生烟的NifU的纯化的蛋白印迹,显示了NifS与NifU的共纯化。图A)渗入本生烟的构建体的示意图(未按比例绘制)。B)蛋白质印迹分析纯化。P=沉淀,S=上清液,FT=净化物,E=洗脱物。所有样品均一式两份上样,并使用抗strep抗体(α-strep)或HA抗-抗体(α-HA)进行免疫印迹检测。C)洗脱物的考马斯染色显示了NifU的主要条带和NifS的微弱条带。
图19.显示了线粒体靶向的MTP-FAγ51::NifS::TS的纯化导致scar9::GG::NifU::HA的共纯化的蛋白质印迹。使用抗Strep抗体或者使用抗HA抗体对来自步骤(ii)至(v)的样品进行SDS-PAGE和蛋白质印迹以检测NifS多肽或检测NifU多肽。NiFS的两个带对应于未加工和加工形式。洗脱物中存在加工过的NifU形式表明发生了共纯化。
图20.本研究中筛选的NifV/HCS启动子样氨基酸序列的前300个氨基酸残基与本生烟P72026(SEQ ID NO:221)和P20586(SEQ ID NO:222)翻译、产酸克雷伯氏杆菌NifV(SEQID NO:13)、日本百脉根FEN1(SEQ ID NO:215)和结核分枝杆菌α异丙基苹果酸合酶(MtLeuA,SEQ ID NO:223)的ClustalW比对。其他HCS序列来自布氏嗜热厌氧杆菌(Thermoanaerobacter brockii;TbHCS;SEQ ID NO:206)、Thermincola potens(TpHCS;SEQID NO:207)、酿酒酵母(Saccharomyces cerevisiae;ScHCS;SEQ ID NO:208)、泡沫节球藻(Nodularia spumigena;NsHCS;SEQ ID NO:209)、乙酸甲烷八叠球菌(Methanosarcinaacetivorans;MaHCS;SEQ ID NO:210)、绿硫细菌(Chlorobaculum tepidum;CTHC;SEQ IDNO:211)和甲烷暖球菌(Methanocaldococcus infernus;MiHCS1,SEQ ID NO:212;MiHCS2,SEQ ID NO:213)MiHCS,SEQ ID NO:214)。LeuA活性位点中的保守残基用*表示。在位置R81、D82、H291、H293的四个氨基酸残基含有Zn2+,并且两个氨基酸残基E224、T260与其位置中的Zn2+一起形成了MtLeuA的底物结合口袋(Koon等人,2004)。
图21.使用抗HA抗体对本生烟叶片中表达的NifV/HCS样融合多肽(MTP-FAγ51::HA::NifV/HCS)的总级分、不溶性级分和可溶性级分的蛋白质印迹分析。T.总蛋白;I.总蛋白的不溶性(沉淀)级分;S.总蛋白的可溶性(上清液)级分。m.线粒体靶向多肽;c.细胞质靶向多肽。
图22.使用抗HA抗体对本生烟叶片中表达的细胞质定位的NifV/HCS样融合多肽(HA::NifV/HCS)的总级分、不溶性级分和可溶性级分进行的蛋白质印迹分析,用作相应线粒体定位的融合多肽的比较物。T.总蛋白;I.总蛋白的不溶性(沉淀)级分;S.总蛋白的可溶性(上清液)级分。c.细胞质靶向多肽;m.线粒体靶向多肽。
图23.基线减法(Log10标度)后的高柠檬酸盐靶离子峰面积
图24:使用Strep抗体对NifH融合多肽在本生烟叶片瞬时叶表达系统中的溶解度进行蛋白质印迹分析,以检测具有TwinStrep表位的多肽。所有NifH基因构建体都与编码来自产酸克雷伯氏杆菌的NifM融合多肽的SN44共感染。在需氧条件下制备蛋白样品。
图25.显示由SL6编码的NifH融合多肽在稳定转化的烟草中的纯化结果的蛋白质印迹。NifH基因编码MTP-CoxIV::TwinStrep::KoNifH::HA融合多肽。通过蛋白质印迹分析来自纯化过程各阶段的5μL样品,并用识别Strep或HA表位的抗体进行探测。来自总级分、不溶性级分和可溶性级分的样品在泳道上方标出。实心箭头表示未加工的NifH多肽,黑色箭头表示加工形式。
图26.在本生烟叶片中瞬时导入基因构建体后Anf融合多肽表达和加工的蛋白质印迹分析。印迹具有三个相邻泳道的组(从左到右)AnfD、AnfK、AnfH和AnfG融合多肽。每组包括测试融合多肽MTP-FAγ51::HA::Anf和两个对照多肽HA::Anf和mFAγ51::HA::Anf作为分子量标记。L.分子量标记(kDa)的分子量标准品。
图27.显示了在本生烟叶片中多基因构建体表达的所有四种AnfD、AnfK、AnfH和AnfG融合多肽的表达和处理的蛋白质印迹。A.对SL26表达的线粒体靶向的AnfD、AnfK、AnfG和AnfH融合多肽以及SL31表达的未处理多肽的蛋白质印迹分析,在瞬时叶分析的总蛋白提取物中检测。B.对来自SL26的线粒体外靶向的AnfD、AnfK、AnfG和AnfH融合多肽以及来自SL31的未加工的融合多肽的表达产生的蛋白质进行的蛋白质印迹分析。C.显示了融合多肽的表达和加工的蛋白质印迹,该融合多肽来自多基因构建体SL26、SL27和SL28;单基因构建体SL29;以及四种单基因构建体SN161、SN129、SN1130和SN1317的混合物(Mix)。当存在时,AnfK显示上层未加工条带和下层加工条带。
图28.显示定位于细胞质或线粒体时本生烟叶片细胞中单基因载体表达的单个Anf多肽的溶解度的蛋白质印迹。上图为AnfD、AnfK、AnfH和AnfG融合多肽的可溶性级分;下图为AnfD、AnfK、AnfH和AnfG融合多肽的不溶性级分。C.细胞质定位;M.线粒体定位;A.丙氨酸置换的mMTP-FAγ51。黑色箭头表示MPP切割蛋白的位置,空心箭头表示未加工的多肽。未加工和MPP加工的多肽中每个Anf的预测分子量见表20。
图29.Fe固氮酶的AnfDKHG复合物的同源性模型,其基于具有连接AnfD和AnfK多肽的接头的棕色固氮菌Anf氨基酸序列。初始坐标位于20ns模拟之前。使用16个氨基酸的接头,将AnfD::Linker::AnfK多肽的预测结构与AnfH二聚体和AnfG复合。AnfH的二聚体被注释为AnfHH。
图30.利用表达融合的或单个的AnfD和AnfK多肽的基因构建体压渗的本生烟叶片的总蛋白提取物的蛋白质印迹分析。印迹用抗HA抗体进行探测。将来自SN272-SN275的AnfD-接头-AnfK融合多肽的表达与来自载体SL26和SL28上的独立基因的表达进行比较。SN161和SN129分别提供了对AnfD和AnfK的单独表达的控制。
图31.利用表达AnfD和AnfK基因的基因构建体压渗的本生烟叶片的(A)可溶性级分和(B)不溶性级分的蛋白质印迹分析。SN272-SN275各自编码AnfD-接头-AnfK融合多肽,而SL26和SL28表达单独的多肽。
图32.使用抗HA(A图)或抗Strep抗体(B图)检测本生烟叶片中SL42产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。黑色箭头表示经MPP线粒体切割后经处理的多肽条带的位置,白色箭头表示未经加工的多肽的条带。用抗Strep抗体探测的B图显示了加工过的NifB多肽。
图33.使用抗HA(A图)或抗Strep抗体(B图)检测本生烟叶片中SL43产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。用抗Strep抗体探测的B图显示了加工过的AnfK多肽。
图34.使用抗HA(A图)或抗Strep抗体(B图)检测共同导入本生烟叶片中的SL42和SL43产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。A图和B图侧面的数字表示第一泳道中标记物的分子量(kDa)。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
图35.使用抗HA(A图)或抗Strep抗体(B图)检测本生烟叶片中SL48产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。A图和B图侧面的数字表示第一泳道中标记物的分子量(kDa)。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经处理的多肽的条带。用抗Strep抗体探测的B图显示了加工过的NifB多肽。
图36.使用抗HA(A图)或抗Strep抗体(B图)检测本生烟叶片中SL49产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。用抗Strep抗体探测的B图显示了加工过的AnfK多肽。
图37.使用抗HA(A图)或抗Strep抗体(B图)检测共同导入本生烟叶片中SL48和SL49产生的多肽的蛋白质印迹分析,包括总级分(T)、不溶性级分(I)和可溶性级分(S)。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
图38.使用抗HA抗体检测本生烟叶片中SN292、SN291、SN299和SN300产生的多肽的蛋白质印迹分析,包括总级分(A图)、不溶性级分(B图)和可溶性级分(C图)。侧面的数字表示第一泳道中标记物的分子量(kDa)。黑色箭头表示线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带,*表示FdxN蛋白的潜在二聚体。
图39.使用抗HA抗体检测本生烟叶片中单独导入的SN192、SL50和SL54以及共同导入的SL50和SL54产生的多肽的蛋白质印迹分析,包括总级分(A图)、可溶性级分(B图)和不溶性级分(C图)。黑色箭头表示线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
图40.使用抗HA抗体检测本生烟叶片中SL50产生的多肽的蛋白质印迹分析,包括总级分(A图)、不溶性级分(B图)和可溶性级分(C图)。黑色箭头表示线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
图41.使用抗HA抗体检测本生烟叶片中SL50和SL49产生的多肽的蛋白质印迹分析,包括总级分(A图)、不溶性级分(B图)和可溶性级分(C图)。黑色箭头表示线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
图42.使用抗HA检测本生烟叶片中由SL47和SL55单独或组合产生的多肽的蛋白质印迹分析。第一泳道显示了分子量(kDa)标记。黑色箭头表示经MPP线粒体切割后经加工的多肽条带的位置,白色箭头表示未经加工的多肽的条带。
序列表的关键字
SEQ ID NO:1来自产酸克雷伯氏杆菌的NifH多肽的氨基酸序列,293aa。
SEQ ID NO:2根据登录号X13303.1的来自产酸克雷伯氏杆菌的野生型多肽的氨基酸序列;483aa(Temme序列为SEQ ID NO:18)。
SEQ ID NO:3根据Temme等人(2012)的来自产酸克雷伯氏杆菌的NifK多肽的氨基酸序列;520aa。
SEQ ID NO:4来自产酸克雷伯氏杆菌的NifB多肽的氨基酸序列,468aa。
SEQ ID NO:5来自产酸克雷伯氏杆菌的NifE多肽的氨基酸序列,457aa。
SEQ ID NO:6来自产酸克雷伯氏杆菌的NifF多肽的氨基酸序列,176aa;NCBI登录号X03214。
SEQ ID NO:7来自产酸克雷伯氏杆菌的NifJ多肽的氨基酸序列,1171aa;NCBI登录号43862;Cannon等人,1988Nucleic Acids Res.16:11379)。
SEQ ID NO:8来自产酸克雷伯氏杆菌的NifM多肽的氨基酸序列,266aa;NCBI登录号X05887;Paul和Merrick(1987)。
SEQ ID NO:9来自产酸克雷伯氏杆菌的NifN多肽的氨基酸序列,NCBI登录号P08738;461aa;Arnold等人,1988)。此序列和密歇根克雷伯氏菌序列(登录号WP_064371582)相同,且与注释为产酸克雷伯氏杆菌NifN(登录号WP_061153953)的序列具有85%的同一性。
SEQ ID NO:10来自产酸克雷伯氏杆菌的NifQ多肽的氨基酸序列,NCBI登录号WP_004138772。此序列与另一个注释为NifQ的产酸克雷伯氏杆菌序列(登录号AAA25108.1)具有95%的同一性。
SEQ ID NO:11来自产酸克雷伯氏杆菌的NifS多肽的氨基酸序列,400aa。
SEQ ID NO:12来自产酸克雷伯氏杆菌的NifU多肽的氨基酸序列;274aa。NCBI登录号P05343.2(Arnold等人,1988)。此序列与登录号WP_004138782相同,也与另一产酸克雷伯氏杆菌序列(登录号AAA25155)具有272/273的同一性。
SEQ ID NO:13来自产酸克雷伯氏杆菌的NifV多肽的氨基酸序列;381aa。NCBI登录号CAA31119.1(Arnold等人,1988)。
SEQ ID NO:14来自产酸克雷伯氏杆菌的NifX多肽的氨基酸序列,156aa(登录号P09136)。
SEQ ID NO:15来自产酸克雷伯氏杆菌的NifY多肽的氨基酸序列,220aa;NCBI登录号CAA31670(Arnold等人,1988)。
SEQ ID NO:16来自产酸克雷伯氏杆菌的NifZ多肽的氨基酸序列,148aa;NCBI登录号P0A3U2(Arnold等人,1988)。
SEQ ID NO:17.来自产酸克雷伯氏杆菌的NifW多肽的氨基酸序列;
SEQ ID NO:18.根据Temme等人(2012)的野生型产酸克雷伯氏杆菌NifD的氨基酸序列。
SEQ ID NO:19.根据Temme等人(2012)的野生型产酸克雷伯氏杆菌NifS的氨基酸序列(2012)。
SEQ ID NO:20.N端延伸的氨基酸序列包含MTP-FAγ77(氨基酸1-77)和氨基酸三联体GAP(78-80)。MPP切割发生在氨基酸残基42和43之间。
SEQ ID NO:21.具有附加的N端Met和C端GG的MTP-FAγ51多肽的氨基酸序列MPP切割发生在氨基酸残基43和44之间。
SEQ ID NO:22.FAγ-scar9多肽的氨基酸序列。
SEQ ID NO:23.由pRA10编码的MTP-FAγ77::NifH::HA融合多肽的氨基酸序列。氨基酸1-77对应于MTP-FAγ77,氨基酸78-80为GAP,氨基酸81-372对应于产酸克雷伯氏杆菌NifH氨基酸(SEQ ID NO:1,无起始子Met),以及氨基酸373-389包括HA表位。
SEQ ID NO:24.由pRA34编码的MTP-FAγ51::NifH::HA融合多肽的氨基酸序列。氨基酸1-51对应于MTP-FAγ51,氨基酸52-54为GAP,氨基酸55-346对应于产酸克雷伯氏杆菌NifH(SEQ ID NO:1,无起始子Met),以及氨基酸347-363包括HA表位。
SEQ ID NO:25.由SN18编码的MTP-FAγ51::NifH::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG含GG的MTP-FAγ51,氨基酸55-347对应于产酸克雷伯氏杆菌NifH(SEQID NO:1),以及氨基酸348-358包括HA表位。
SEQ ID NO:26.由SN29编码的MTP-FAγ51::HA::NifH融合多肽的氨基酸序列。氨基酸1-53对应于含GG的MTP-FAγ51,氨基酸54-64包括HA表位,氨基酸65-357对应于产酸克雷伯氏杆菌NifH(SEQ ID NO:1),以及氨基酸358-371为C端延伸区。
SEQ ID NO:27.使用6×His序列代替MTP序列,具有N端Met和C端GG。
SEQ ID NO:28.CPN60 MTP的氨基酸序列
SEQ ID NO:29.CPN60/无GG接头MTP的氨基酸序列。
SEQ ID NO:30.超氧化物歧化酶(SOD)MTP的氨基酸序列。
SEQ ID NO:31.超氧化物歧化酶加倍的(2SOD)MTP的氨基酸序列。
SEQ ID NO:32.超氧化物歧化酶修饰的(SODmod)MTP的氨基酸序列。
SEQ ID NO:33.超氧化物歧化酶修饰的(2SODmod)加倍的MTP的氨基酸序列。
SEQ ID NO:34.L29 MTP的氨基酸序列(At1G07830)。
SEQ ID NO:35.粗糙脉孢菌(Neurospora crassa)F0 ATPase亚基9(SU9)MTP的氨基酸序列。
SEQ ID NO:36.不含附加的N端Met(SEQ ID NO:21具有附加的N端Met)的gATPaseγ亚基(FAγ51)MTP的氨基酸序列。MPP切割发生在氨基酸残基42和43之间。
SEQ ID NO:37.CoxIV twin strep(ABM97483)MTP的氨基酸序列。
SEQ ID NO:38.CoxIV 10×His(ABM97483)MTP的氨基酸序列。
SEQ ID NO:39.含GG的超氧化物歧化酶(SOD)MTP和含GG的超氧化物歧化酶加倍的(2SOD)MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:40.含GG的L29 MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:41.含GG的粗糙脉孢菌F0 ATPase亚基9(SU9)MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:42.含GG的gATPaseγ亚基(FAγ51)MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:43.含GG的CoxIV twin strep MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:44.含GG的CoxIV 10×His MTP的预测瘢痕的氨基酸序列。
SEQ ID NO:45.寡核苷酸引物MIT_V2.1_SbfInifH_FW2。
SEQ ID NO:46.寡核苷酸引物MIT_V2.1_SbfInifJ_RV2。
SEQ ID NO:47.寡核苷酸引物MIT_V2.1_SbfInifB_FW。
SEQ ID NO:48.寡核苷酸引物MIT_V2.1_SbfIori_RV。
SEQ ID NO:49.来自MTP-FAγ51的mscar9的氨基酸序列,其用Met置换N端Ile残基以起始翻译。
SEQ ID NO:50.胰蛋白酶肽。
SEQ ID NO:51.无N端Met和有C端Met的MTP-FAγ9瘢痕的氨基酸序列
SEQ ID NOs:52-54.寡核苷酸引物。
SEQ ID NO:55.胰蛋白酶肽。
SEQ ID NO:56.胰蛋白酶肽。
SEQ ID NO:57.MTP-FAγ77::NifK融合多肽(pRA25)的氨基酸序列,缺少任意C端延伸区。氨基酸1-77对应于MTP-FAγ77,氨基酸78-80为GAP,氨基酸81-599对应于产酸克雷伯氏杆菌NifH,无起始子Met。
SEQ ID NO:58.来自产酸克雷伯氏杆菌NifK多肽C端最后四个氨基酸残基的氨基酸序列。
SEQ ID NO:59.不被MPP切割的突变体MTP-FAγ51多肽的氨基酸序列。
SEQ ID NO:60-107.肽序列。
SEQ ID NO:108-113.寡核苷酸引物。
SEQ ID NO:114.来自红褐肉座菌(Hypocrea jecorina)外切纤维素酶II的接头区的11个残基片段的氨基酸序列(登录号:AAG39980.1)。
SEQ ID NO:115.9残基HA表位的氨基酸序列。
SEQ ID NO:116.NifD::接头::NifK融合多肽接头的氨基酸序列。该接头长度为30个残基,并且具有SEQ ID NO:114,其中最后的精氨酸被丙氨酸置换,然后是一个9残基HA表位(SEQ ID NO:115),接着是SEQ ID NO:114的另一个拷贝,其中精氨酸被丙氨酸置换。
SEQ ID NO:117.寡核苷酸引物。
SEQ ID NO:118.寡核苷酸引物。
SEQ ID NO:119.瘢痕肽序列。
SEQ ID NO:120.瘢痕肽序列。
SEQ ID NO:121.由构建体SN197编码的metaxin融合多肽的氨基酸序列。TwinStrep表位对应于氨基酸1-31,mTurquoise对应于氨基酸32-273,TEV切割位点对应于氨基酸274-282,且metaxin序列对应于氨基酸283-603。
SEQ ID NO:122由SN10编码的MTP-FAγ51::NifD::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-36对应于产酸克雷伯氏杆菌NifD(SEQ ID NO:18)及其起始子Met,以及氨基酸537-547包括HA表位。
SEQ ID NO:123.由SN30编码的MTP-FAγ51::NifM::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-320对应于产酸克雷伯氏杆菌NifM(SEQ ID NO:8)及其起始子Met,以及氨基酸321-331包括HA表位。
SEQ ID NO:124.由SN31编码的MTP-FAγ51::NifS::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-454对应于根据Temme等人(2012)的产酸克雷伯氏杆菌NifS(SEQ ID NO:19)及其起始子Met,以及氨基酸455-465包括HA表位。
SEQ ID NO:125.由SN32编码的MTP-FAγ51::NifU::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-328对应于产酸克雷伯氏杆菌NifU(SEQ ID NO:12)及其起始子Met,以及氨基酸329-339包括HA表位。
SEQ ID NO:126.由SN38编码的MTP-FAγ51::NifE::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-511对应于根据Temme等人(2012)的产酸克雷伯氏杆菌NifE及其起始子Met,以及氨基酸512-522包括HA表位。
SEQ ID NO:127.由SN30编码的MTP-FAγ51::NifN::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-515对应于产酸克雷伯氏杆菌NifN(SEQ ID NO:9)及其起始子Met,以及氨基酸516-526包括HA表位。
SEQ ID NO:128.由SN42编码的MTP-CoxIV-Twin-Strep::NifH::HA融合多肽的氨基酸序列。氨基酸1-61对应于在其C端含GG的MTP-CoxIV-Twin-Strep,氨基酸62-354对应于产酸克雷伯氏杆菌NifH氨基酸(SEQ ID NO:1)及其起始子Met,以及氨基酸355-365包括HA表位。
SEQ ID NO:129.由SN46编码的MTP-Su9::NifK融合多肽的氨基酸序列。氨基酸1-70对应于在其C端含GG的MTP-Su9,氨基酸71-590对应于产酸克雷伯氏杆菌NifK(SEQ IDNO:3)及其起始子Met。
SEQ ID NO:130.由SN51编码的MTP-L29::NifV::HA融合多肽的氨基酸序列。氨基酸1-34对应于在其C端含GG的MTP-L29,氨基酸35-415对应于产酸克雷伯氏杆菌NifV(SEQID NO:13)及其起始子Met,以及氨基酸416-426包括HA表位。
SEQ ID NO:131.由SN68编码的MTP-FAγ51::NifD::接头(HA)::NifK融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-536对应于野生型产酸克雷伯氏杆菌NifD氨基酸(SEQ ID NO:18,无N端Met),氨基酸537-566对应于包括HA表位的接头,以及氨基酸567-1085对应于无N端Met且具有野生型C端的NifK(SEQ ID NO:3)。
SEQ ID NO:132.由SN75编码的MTP-FAγ51::HA::NifD::HA融合多肽的氨基酸序列。氨基酸1-53对应于在其C端含GG的MTP-FAγ51,氨基酸54-64对应于第一HA表位,氨基酸65-546对应于产酸克雷伯氏杆菌NifD氨基酸(SEQ ID NO:18),以及氨基酸547-557包括HA表位。
SEQ ID NO:133.由SN99编码的MTP-FAγ51::NifD::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-536对应于在氨基酸148-152处包含丙氨酸置换突变的产酸克雷伯氏杆菌NifD,以及氨基酸537-547包括HA表位。
SEQ ID NO:134.由SN100编码的MTP-FAγ51::NifD::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-536对应于在氨基酸153-157处包含丙氨酸置换突变的产酸克雷伯氏杆菌NifD氨基酸,以及氨基酸537-547包括HA表位。
SEQ ID NO:135.由SN104编码的MTP-Su9::NifW融合多肽的氨基酸序列。氨基酸1-70对应于在其C端含GG的MTP-Su9,氨基酸71-158对应于产酸克雷伯氏杆菌NifW(SEQ IDNO:17)及其起始子Met,以及氨基酸159-167包括HA表位。
SEQ ID NO:136.由SN114编码的MTP-FAγ51::NifD::HA融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-536对应于在氨基酸154处包含Y100Q置换突变的产酸克雷伯氏杆菌NifD,以及氨基酸537-547包括HA表位。
SEQ ID NO:137.由SN138编码的MTP-FAγ51::NifF::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-230对应于产酸克雷伯氏杆菌NifF(SEQID NO:6),以及氨基酸231-241包括HA表位。
SEQ ID NO:138.由SN139编码的MTP-FAγ51::NifJ::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-1225对应于产酸克雷伯氏杆菌NifJ(SEQID NO:7),以及氨基酸1226-1236包括HA表位。
SEQ ID NO:139.由SN140编码的MTP-FAγ51::HA::NifK融合多肽的氨基酸序列。氨基酸1-53对应于含GG的MTP-FAγ51,氨基酸54-64包括HA表位,以及氨基酸65-584对应于具有野生型C端的产酸克雷伯氏杆菌NifK(SEQ ID NO:3)。
SEQ ID NO:140.由SN141编码的MTP-FAγ51::NifQ::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-221对应于产酸克雷伯氏杆菌NifQ(SEQID NO:10),以及氨基酸222-232包括HA表位。
SEQ ID NO:141.由SN142编码的MTP-FAγ51::NifV::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-435对应于产酸克雷伯氏杆菌NifV(SEQID NO:13),以及氨基酸436-446包括HA表位。
SEQ ID NO:142.由SN143编码的MTP-FAγ51::NifW:HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-140对应于产酸克雷伯氏杆菌NifW(SEQ IDNO:17),以及氨基酸141-151包括HA表位。
SEQ ID NO:143.由SN144编码的MTP-FAγ51::NifX::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-210对应于产酸克雷伯氏杆菌NifX(SEQID NO:14),以及氨基酸211-221包括HA表位。
SEQ ID NO:144.由SN145编码的MTP-FAγ51::NifY::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-274对应于根据Temme等人(2012)的产酸克雷伯氏杆菌NifY,以及氨基酸275-285包括HA表位。
SEQ ID NO:145.由SN146编码的MTP-FAγ51::NifZ::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-202对应于产酸克雷伯氏杆菌NifZ(SEQID NO:16),以及氨基酸203-213包括HA表位。
SEQ ID NO:146.由SN159编码MTP-FAγ51::NifD(Y100Q)::接头(HA)::NifK融合多肽的氨基酸序列。氨基酸1-54对应于在其C端含GG的MTP-FAγ51,氨基酸55-536对应于具有Y100Q置换的产酸克雷伯氏杆菌NifD,氨基酸537-566对应于包括HA表位的接头,以及氨基酸567-1085对应于无N端Met且具有野生型C端的NifK(SEQ ID NO:3)。
SEQ ID NO:147.由SN192编码的MTP-FAγ51::NifB::HA融合多肽的氨基酸序列。氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-522对应于根据Temme等人(2012)的产酸克雷伯氏杆菌NifB,以及氨基酸523-533包括HA表位。
SEQ ID NO:148.野生型巴西固氮螺菌(Azospirillum brasilense)NifD多肽的氨基酸序列,UniProt A0A060DN91;479aa。
SEQ ID NO:149.野生型棕色固氮菌(Azotobacter vinelandii)NifD多肽的氨基酸序列,UniProt C1DGZ7;492aa。
SEQ ID NO:150.野生型费氏中华根瘤菌(Sinorhizobium fredii)NifD多肽的氨基酸序列,504aa。
SEQ ID NO:151.野生型绿硫细菌(Chlorobium tepidum)NifD多肽的氨基酸序列,Uniprot Q8KC89;543aa。
SEQ ID NO:152.野生型普通脱硫弧菌(Desulfovibrio vulgaris)NifD多肽的氨基酸序列,Uniprot B8DR77;544aa。
SEQ ID NO:153.野生型脱硫肠状菌(Desulfotomaculum ferrireducens)NifD多肽的氨基酸序列,539aa。
SEQ ID NO:154.肽序列,其中X为除Tyr以外的任何氨基酸。
SEQ ID NO:155.来自NifM的胰蛋白酶肽序列。
SEQ ID NO:156.来自NifM的胰蛋白酶肽序列。
SEQ ID NO:157.来自CAT的胰蛋白酶肽序列。
SEQ ID NO:158.来自CAT的胰蛋白酶肽序列。
SEQ ID NO:159.来自CAT的胰蛋白酶肽序列。
SEQ ID NO:160.由SN166编码的MTP-FAγ51::NifU::TwinStrep融合多肽的氨基酸序列。氨基酸1-54为具有附加的甲硫氨酸翻译起始子和C端GG的MTP-FAγ51序列,氨基酸55-328为NifU序列,以及氨基酸329-358为包括Twinstrep基序的序列。
SEQ ID NO:161.由SN231编码的MTP-FAγ51::NifS::TwinStrep融合多肽的氨基酸序列。氨基酸1-54为具有附加的甲硫氨酸翻译起始子和C端GG的MTP-FAγ51序列,氨基酸55-454为NifS序列,以及氨基酸455-484为包括Twinstrep基序的序列。
SEQ ID NO:162.来自scar9的胰蛋白酶肽序列。
SEQ ID NO:163.来自棕色固氮菌NifV多肽(AvNifV;登录号WP_012698855)的氨基酸序列。
SEQ ID NO:164.KoNifV变体序列的氨基酸序列(登录号WP_004138778)。
SEQ ID NO:165.N端ScHCS延伸区(瘢痕序列)。
SEQ ID NO:166.N端AvNifV延伸区(瘢痕序列)。
SEQ ID NO:167.由SN43编码的MTP-FAγ51::HA::KoNifM多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG的MTP-FAγ51序列,氨基酸54-64对应于在其C端包含GG的HA表位,以及氨基酸65-330对应于来自产酸克雷伯氏杆菌的NifM序列。
SEQ ID NO:168.由SN178编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-354对应于来自巴西固氮螺菌的NifH序列(登录号WP_014239786)。
SEQ ID NO:169.由SN179编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-356对应于来自嗜热蓝藻层理鞭枝藻(Mastigocladus laminosus)的NifH序列(登录号WP_016865872)。
SEQ ID NO:170.由SN180编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-348对应于来自弗兰克氏菌(Frankia casurinae)的NifH序列(登录号WP_0011438842)。
SEQ ID NO:171.由SN181编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-354对应于来自海洋着色菌(Marichromatium gracile)同型小种thermosufidiphilum的NifH序列(登录号WP_062275270)。
SEQ ID NO:172.由SN182编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-345对应于来自甲烷暖球菌(Methanocaldococcus infernus)的NifH序列(登录号WP_013099459)。
SEQ ID NO:173.由SN183编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-345对应于来自嗜中温螺旋杆菌(Heliobacterium modesticaldum)的NifH序列(登录号WP_012282218)。
SEQ ID NO:174.由SN184编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-335对应于来自绿硫细菌(Chlorobium tepidum)的NifH序列(登录号WP_010933198)。
SEQ ID NO:175.由SN185编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-350对应于来自地杆菌属(Geobacter sp.)M21的NifH序列(登录号WP_015837436)。
SEQ ID NO:176.由SN186编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-355对应于来自大豆慢生型根瘤菌(Bradyrhizobium diazoefficans)的NifH序列(登录号AHY57040)。
SEQ ID NO:177.由SN187编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-336对应于来自嗜热自养产甲烷杆菌(Methanobacteriumthermoautotrophicum)的NifH序列(登录号AAB86034)。
SEQ ID NO:178.由SN188编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-334对应于来自甲烷八叠球菌(Methanosarcina)的NifH序列(登录号WP_048121466)。
SEQ ID NO:179.由SN189编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-336对应于来自乙酸氧化脱硫肠状菌(Desulfotomaculum acetoxidans)的NifH序列(登录号WP_015756624)。
SEQ ID NO:180.由SN190编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-336对应于来自一氧化碳同化嗜热菌(Carboxydothermus pertinax)的NifH序列(登录号WP_075859892)。
SEQ ID NO:181.由SN191编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列。氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于在其C端包含GG的TwinStrep序列,以及氨基酸62-335对应于来自喜钙念珠藻(Nostoc calcicola)的NifH序列(登录号WP_073644321)。
SEQ ID NO:182.由SN81编码的MTP-FAγ51::AnfD::HA多肽的氨基酸序列。氨基酸1-54对应于在其端包含GG接头的MTP-FAγ51序列,氨基酸55-572对应于来自棕色固氮菌的AnfD序列,以及氨基酸573-583对应于HA表位。
SEQ ID NO:183.由SN82编码的HA::AnfD多肽的氨基酸序列。氨基酸1-12对应于在其C端包含GG接头的HA表位序列,以及氨基酸13-530对应于来自棕色固氮菌的AnfD序列。
SEQ ID NO:184.由SN129编码的MTP-FAγ51::HA::AnfK多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的MTP-FAγ51序列,氨基酸54-64对应于HA表位,以及氨基酸65-526对应于来自棕色固氮菌的AnfK序列。
SEQ ID NO:185.由SN130编码的MTP-FAγ51::HA::AnfH多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的MTP-FAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-339对应于来自棕色固氮菌的AnfH序列。
SEQ ID NO:186.由SN131编码的MTP-FAγ51::HA::AnfG多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的MTP-FAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-196对应于来自棕色固氮菌的AnfG序列。
SEQ ID NO:187.由SN152编码的HA::AnfK多肽的氨基酸序列。氨基酸1-12对应于在其C端包含GG接头的HA表位序列,以及氨基酸13-474对应于来自棕色固氮菌的AnfK序列。
SEQ ID NO:188.由SN153编码的HA::AnfH多肽的氨基酸序列。氨基酸1-12对应于在其C端包含GG接头的HA表位序列,以及氨基酸13-287对应于来自棕色固氮菌的AnfH序列。
SEQ ID NO:189.由SN154编码的HA::AnfG多肽的氨基酸序列。氨基酸1-12对应于在其C端包含GG接头的HA表位序列,以及氨基酸13-144对应于来自棕色固氮菌的AnfG序列。
SEQ ID NO:190.由SN155编码的mFAγ51::HA::AnfK多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的突变mFAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-526对应于来自棕色固氮菌的AnfK序列。
SEQ ID NO:191.由SN156编码的mFAγ51::HA::AnfH多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的突变mFAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-339对应于来自棕色固氮菌的AnfH序列。
SEQ ID NO:192.由SN157编码的mFAγ51::HA::AnfG多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的突变mFAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-196对应于来自棕色固氮菌的AnfG序列。
SEQ ID NO:193.由SN158编码的mFAγ51::HA::AnfD多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的突变mFAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-582对应于来自棕色固氮菌的AnfD序列。
SEQ ID NO:194.由SN161编码的MTP-FAγ51::HA::AnfD多肽的氨基酸序列。氨基酸1-53对应于在其C端包含GG接头的MTP-FAγ51序列,氨基酸54-64对应于在其C端含GG接头的HA表位,以及氨基酸65-582对应于来自棕色固氮菌的AnfD序列。
SEQ ID NO:195.由SN177编码的MTP-FAγ51::AnfD::Twin Strep多肽的氨基酸序列。氨基酸1-54对应于在其端包含GG接头的MTP-FAγ51序列,氨基酸55-572对应于来自棕色固氮菌的AnfD序列,以及氨基酸573-604对应于TwinStrep表位。
SEQ ID NO:196.由SN195编码的MTP-CoxIV::Twin Strep::AnfK多肽的氨基酸序列。氨基酸1-41对应于在其C端包含GG接头的MTP-CoxIV序列,氨基酸42-61对应于在C端包括GG接头的TwinStrep表位,以及氨基酸62-523对应于来自棕色固氮菌的AnfK序列。
SEQ ID NO:197.肽序列。
SEQ ID NO:198.接头序列。
SEQ ID NO:199.用于建模结构的AnfD::接头16::AnfK多肽的氨基酸序列(实施例20)。氨基酸1-509对应于省略N端甲硫氨酸的AnfD序列(棕色固氮菌),氨基酸510-525对应于16氨基酸接头,以及氨基酸526-984对应于AnFK(棕色固氮菌)。
SEQ ID NO:200.接头序列。
SEQ ID NO:201.AnfD::接头26(HA)::AnfK多肽的氨基酸序列。氨基酸1-517对应于AnfD序列,氨基酸518-543对应于26氨基酸接头,以及氨基酸544-1004对应于AnfK。
SEQ ID NO:202.由SN272编码的MTP-FAγ51::AnfD::接头26(HA)::AnfK多肽的氨基酸序列。氨基酸1-64对应于在其端包含GG的MTP-FAγ51-HA序列,氨基酸65-581对应于AnfD序列(棕色固氮菌),氨基酸582-607对应于26氨基酸接头(Linker26(HA)),以及氨基酸608-1068对应于AnfK(棕色固氮菌)。
SEQ ID NO:203.由SN273编码的MTP-CoxIV::AnfD::接头26(HA)::AnfK多肽的氨基酸序列。氨基酸1-61对应于在其端包含GG的MTP-CoxIV,氨基酸62-578对应于AnfD序列(棕色固氮菌),氨基酸579-604对应于26氨基酸接头(Linker26(HA)),以及氨基酸605-1065对应于AnfK(棕色固氮菌)。
SEQ ID NO:204.由SN274编码的mFAγ51::AnfD::接头26(HA)::AnfK多肽的氨基酸序列。氨基酸1-64对应于包括不允许MPP切割的丙氨酸置换和其C端GG的mFAγ51序列,氨基酸65-581对应于AnfD序列(棕色固氮菌),氨基酸582-607对应于26氨基酸接头(Linker26(HA)),以及氨基酸608-1068对应于AnfK(棕色固氮菌)。
SEQ ID NO:205.由SN275编码的HISx6::AnfD::接头26(HA)::AnfK多肽的氨基酸序列,其不含MTP序列并且将位于细胞质中。氨基酸1-9对应于在其端包含GG的HISx6,氨基酸10-526对应于AnfD序列(棕色固氮菌),氨基酸527-552对应于26氨基酸接头(Linker26(HA)),以及氨基酸553-1013对应于AnfK(棕色固氮菌)。
SEQ ID NO:206.TbHCS多肽的氨基酸序列(登录号CP002466)。
SEQ ID NO:207.TpHCS多肽的氨基酸序列(登录号CP002028)。
SEQ ID NO:208.ScHCS多肽的氨基酸序列(登录号CP036483)。
SEQ ID NO:209.NsHCS多肽的氨基酸序列(登录号CP007203)。
SEQ ID NO:210.MaHCS多肽的氨基酸序列(登录号AE010299)
SEQ ID NO:211.CtHCS多肽的氨基酸序列(登录号AE006470)。
SEQ ID NO:212.MiHCS1多肽的氨基酸序列(登录号ADG13125)。
SEQ ID NO:213.MiHCS2多肽的氨基酸序列(登录号ADG13175)。
SEQ ID NO:214.MiHCS3多肽的氨基酸序列(登录号ADG14004)。
SEQ ID NO:215.LjFEN1多肽的氨基酸序列(登录号BAI49592)。
SEQ ID NO:216.来自棕色固氮菌的AnfD的氨基酸序列V(登录号WP_012703361);518aa。
SEQ ID NO:217.来自棕色固氮菌的AnfK的氨基酸序列V(登录号WP_012703359);462aa。
SEQ ID NO:218.来自棕色固氮菌的AnfH的氨基酸序列V(登录号WP_012703362);275aa。
SEQ ID NO:219.来自棕色固氮菌的AnfG的氨基酸序列(登录号WP_012703360);132aa。
SEQ ID NO:220.肽序列。
SEQ ID NO:221.本生烟P72026氨基酸序列;606aa。
SEQ ID NO:222.本生烟P20586氨基酸序列;470aa。
SEQ ID NO:223.结核分枝杆菌α异丙基苹果酸合酶(MtLeuA)的氨基酸序列;644aa。
SEQ ID NO:224;来自棕色固氮菌的NifH的氨基酸序列(AvNifH;登录号WP_012698831);290aa。
SEQ ID NO:225.肽序列,AnfH基序I,其中X代表任意氨基酸。
SEQ ID NO:226.肽序列,AnfH基序II。
SEQ ID NO:227.肽序列,AnfH基序III。
SEQ ID NO:228.肽序列,AnfH基序IV。
SEQ ID NO:229.肽序列,AnfH基序V,其中X代表任意氨基酸。
SEQ ID NO:230.肽序列,AnfH基序VI。
SEQ ID NO:231.肽序列,AnfH基序VII,其中X代表任意氨基酸。
SEQ ID NO:232.来自棕色固氮菌的FdxN蛋白的氨基酸序列;登录号WP_012703542;92aa。
SEQ ID NO:233.SN291的MTP-FAγ51-FdxN-HA融合多肽的氨基酸序列;157aa。氨基酸1-54对应于含有GG接头的MTP-FAγ51序列,氨基酸55-145对应于不含N端甲硫氨酸的FdxN序列,以及氨基酸146-157对应于HA表位。
SEQ ID NO:234.SN292的MTP-FAγ51-HA-FdxN融合多肽的氨基酸序列;156aa。氨基酸1-53对应于含有GG接头的MTP-FAγ51序列,氨基酸54-64对应于含GG接头的HA表位,以及氨基酸65-156对应于不含N端甲硫氨酸的FdxN序列。
SEQ ID NO:235.SN299的mFAγ51-HA-FdxN融合多肽的氨基酸序列;156aa。氨基酸1-53对应于含有GG接头的mFAγ51序列,氨基酸54-64对应于含有GG接头的HA表位,以及氨基酸65-156对应于不含N端甲硫氨酸的FdxN序列。
SEQ ID NO:236.SN300的HA-FdxN融合多肽的氨基酸序列;104aa。氨基酸1-12对应于含有GG接头的HA表序列,以及氨基酸13-104对应于不含N端甲硫氨酸的FdxN序列。
SEQ ID NO:237.SN254的MTP-FAγ51-HA-NifV融合多肽的氨基酸序列;448aa。氨基酸1-53对应于含有GG接头的MTP-FAγ51序列,氨基酸54-64对应于含有GG接头的HA表位,以及氨基酸65-448对应于来自棕色固氮菌的的NifV序列。
SEQ ID NO:238.来自棕色固氮菌的NafY多肽的氨基酸序列(AvNafY;登录号AGK13761);
SEQ ID NO:239.NifK多肽的C端氨基酸序列。
SEQ ID NO:240.NifK多肽的C端氨基酸序列。
SEQ ID NO:241.NifK多肽的C端氨基酸序列。
SEQ ID NO:242.NifK多肽的C端氨基酸序列。
SEQ ID NO:243.NifK多肽的C端氨基酸序列。
SEQ ID NO:244.AnfK多肽的C端氨基酸序列。
SEQ ID NO:245.AnfK多肽的C端氨基酸序列。
SEQ ID NO:246.AnfK多肽的C端氨基酸序列。
SEQ ID NO:247.AnfK多肽的C端氨基酸序列。
SEQ ID NO:248.AnfK多肽的C端氨基酸序列。
具体实施方式
一般技术和定义
除非另有明确定义,否则本文使用的所有技术和科学术语均应被视为具有与本领域(例如在细胞培养、分子遗传学、植物分子生物学、蛋白质化学和生物化学领域)普通技术人员通常理解的相同含义。
除非另有说明,本发明中使用的重组蛋白、细胞培养和免疫技术都是标准程序,为本领域技术人员熟知。这些技术在以下来源的文献中都有描述和解释,例如,约翰·威利父子出版公司出版的《分子克隆实用指南》(J.Perbal,A Practical Guide to MolecularCloning,John Wiley and Sons(1984));冷泉港实验室出版社出版的J.Sambrook等人的《分子克隆:实验室手册》(J.Sambrook et al.,Molecular Cloning:A LaboratoryManual,Cold Spring Harbour Laboratory Press(1989));IRL出版社出版的T.A.Brown(编者)的《基本分子生物学:实用方法》第1卷和第2卷(T.A.Brown(editor),EssentialMolecular Biology:A Practical Approach,Volumes 1and 2,IRL Press(1991);IRL出版社出版的D.M.Glover和B.D.Hames(编者)的《DNA克隆:一种实用的方法》第1-4卷(D.M.Glover and B.D.Hames(editors),DNA Cloning:A Practical Approach,Volumes1-4,IRL Press(1995和1996);格林出版联合公司与约翰威立父子出版公司出版的F.M.Ausubel等人(编者)的《最新分子生物学实验方法汇编》(F.M.Ausubel et al.(editors),Current Protocols in Molecular Biology,Greene Pub.Associates andWiley-Interscience)(1988,包括到目前为止的所有更新);冷泉港实验室的Ed Harlow和David Lane(编者)的《抗体:实验室手册》(Ed Harlow and David Lane(editors),Antibodies:A Laboratory Manual,Cold Spring Harbour Laboratory,(1988));以及约翰·威利父子出版公司出版的J.E.Coligan等人(编者)的《免疫学实验指南》(CurrentProtocols in Immunology,John Wiley&Sons)(包括目前为止的所有更新)。
术语“和/或”,例如“X和/或Y”应理解为“X和Y”或“X或Y”,并应被视为对两种含义或其中一种含义提供明确支持。
如本文所用,除非另有说明,否则术语约指特定值的+/-10%,或更优选+/-5%。
在整个说明书中,单词“包括(comprise)”或诸如“包括(comprises或comprising)”之类的变化将被理解为暗示包括所述元件、整体或步骤,或一组元件、整体或步骤,但不排除任何其他元件、整体或步骤,或一组元件、整体或步骤。
固氮酶
固氮酶是真细菌和古细菌中的酶,其催化氮(N2)的强三键还原产生氨(NH3)。固氮酶仅天然地存在于细菌中。其是可以分别被纯化地两种酶的复合物,即固二氮酶(dinitrogenase)和固二氮酶还原酶(dinitrogenase reductase)。固二氮酶,也称为组件I或钼-铁(MoFe)蛋白,是两个NifD和两个NifK多肽(α2β2)的四聚体,其也含有两个“P簇”和两个“FeMo-辅因子”(FeMo-co)。每对NifD-NifK亚基含有一个P簇和一个FeMo-co。FeMo-co是由高柠檬酸盐分子络合的MoFe3-S3簇组成的金属原子簇,该高柠檬酸盐分子与钼原子配位并通过三个硫配体桥接到Fe4-S3簇上。FeMo-co分别在细胞中组装,然后掺入apo-MoFe蛋白中。P簇也是金属原子簇,含有8个Fe原子和7个硫原子,结构与FeMo-co相似但不同。P簇位于固二氮酶的αβ亚基界面,由两个亚基的半胱氨酰残基配位。固二氮酶还原酶,也称为组件II或“Fe蛋白”,是NifH多肽的二聚体,其在亚基界面也含有单个Fe4-S4簇和两个Mg-ATP结合位点,每个亚基一个。该酶是固二氮酶的强制性电子供体,其中电子从Fe4-S4簇转移到P簇,进而转移到N2还原的位点FeMo-co。
尽管含有Mo的固氮酶是细菌中最常见的固氮酶,但存在两种遗传上不同但具有相似辅因子和亚基组成的同源固氮酶,即分别由Vnf(钒固氮)和Anf(交替固氮)基因编码的含有钒固氮酶和仅含有Fe的固氮酶。自然界中的一些细菌具有所有三种类型的固氮酶,其他细菌仅含有含Mo和含V的酶或仅含有含Mo的酶,例如肺炎克雷伯菌(Klebsiellapneumoniae)。
FeMo-co的生物合成和固氮酶组件催化活性形式的成熟需要多种固氮(Nif)基因。已经描述了NifB、NifE、NifH、NifN、NifQ、NifV和NifX多肽在FeMo-Co合成中的作用(Rubio和Ludden,2008)。
由原核生物酶固氮酶催化的生物固氮是使用合成N2肥料的替代方案。固氮酶对氧的敏感性是工程化生物固氮(engineering biological nitrogen fixation)通过直接Nif基因转移进入植物例如谷类作物中的主要障碍。
本发明人认为将Nif多肽靶向到植物细胞的线粒体基质(MM)可能克服氧敏感性问题。MM具有耗氧酶,其允许含有氧敏感Fe-S簇的其他酶起作用。线粒体Fe-S簇组装机器类似于固氮等价物(Balk和Pilon,2011;Lill和Mühlenhoff,2008)。因此,对固氮酶生物合成的一些必要条件可能已经存在于MM中,减少了重建所需Nif基因的数量。ATP(Geigenberger和Fernie,2014;Mackenzie和McIntosh,1999)的还原电位和浓度也很高,这都是固氮酶催化的先决条件。另外,线粒体中谷氨酸合酶的存在为固氮酶将任何铵固定进入植物代谢提供了进入点。鉴于这些特征,以及线粒体自身是α-蛋白细菌来源的事实,本发明人认为该细胞器非常适合作为尝试功能性重建固氮酶的位置。
作为在植物细胞线粒体中重建固氮酶的第一步,需要个体Nif蛋白能够正确靶向MM的证据。为此目的,本发明人选择模型植物本生烟(Nicotiana benthamiana)作为表达平台(Wood等人,2009),单独或更重要地以组合方式提供转基因的表达。由于大多数MM定位的蛋白是核编码的,本发明人依靠使用先前表征的N端肽靶向信号(Lee等人,2012)理解亚细胞信号传导和转移过程(Huang等人,2009;Murcha等人,2014)的最新进展。
模型细菌固氮生物肺炎克雷伯菌使用16种独特的蛋白用于固氮酶的生物合成和催化功能。本发明人对来自肺炎克雷伯菌的所有16种Nif蛋白进行了重新工程化用于靶向植物MM,并在本生烟叶片中评估它们的表达和加工。将所有16种Nif多肽瞬时表达并测试序列特异性MM加工。本发明人已经确定,所有16种Nif多肽都可以在植物叶片细胞中单独表达为MTP:Nif融合多肽。此外,本发明人提供了这些蛋白可以靶向线粒体基质(MM)的证据,线粒体基质(MM)是潜在适应固氮酶功能的亚细胞定位定位(subcellular location),并且可以被线粒体加工蛋白酶(MPP)切割。这代表了朝向在植物中工程化内源固氮的目标的重要进展。代表了在植物中设计内源性固氮目标的重要进展。
植物中线粒体蛋白的导入
几乎所有线粒体蛋白都是核编码的并且在胞质溶胶中翻译的,因此需要它们易位到线粒体中。多肽内的信号序列将它们导入四个不同的线粒体内位置:外膜(OM)、膜间间隙(IS)、内膜(IM)或基质(MM)。这些信号序列的区别在于它们的生物化学特性,并且通过至少四种不同的导入途径指导转运,导入途径将多肽导向四个位置中的一个或多个(Chacinska等人,2009)。这四种途径是:(1)一般导入途径,也称为“经典”前导序列途径,其将多肽导向MM、IS或IM;(2)用于转移至IM的载体导入途径;(3)线粒体膜间间隙(MIA)组装途径;和(4)用于将多肽转移至OM的分选和组装机器(SAM)途径。一般导入途径导入具有可切割的前导序列(也称为信号序列)的多肽。这些多肽也可以具有疏水分选信号(HSS)。载体导入途径导入具有内部前导序列样信号和疏水区的多肽。MIA途径导入具有双半胱氨酸残基的多肽。SAM途径导入含有β信号和推定的TOM20信号的多肽。所有这些途径都利用外膜的移位酶(TOM),第一途径和第二途径也利用膜间复合物的TIM23移位酶。只有第一途径使用基质加工肽酶(基质作用蛋白酶,MPP)。
所有线粒体靶向多肽的共同特征是在多肽内存在至少一个指导转运到正确位置的结构域。其中研究得最好的是“经典的”N端前导序列结构域,其在基质中被MPP切割(Murcha等人,2004)。据估计约70%的植物和动物线粒体蛋白具有可切割的前导序列,但也发现了内部和C端信号序列(综述见Pfanner和Geissler(2001)、Schleiff和Soll(2000))。在拟南芥(Arabidopsis)中,这些前导序列的长度为11至109个氨基酸残基,平均长度为50个氨基酸残基。尽管没有完全限定第一途径的前导序列的共有序列,但它们倾向于含有高比例的疏水和带正电荷的氨基酸。另一个特征是它们形成两亲性α螺旋的能力,通常在前10个氨基酸残基内开始(Roise等人,1986)。这些结构域富含疏水的(Ala、Leu、Phe、Val)、羟基化的(Ser、Thr)和带正电荷的(Arg、Lys)氨基酸残基,并且缺乏酸性氨基酸。在大量线粒体蛋白中,丝氨酸(16-17%)和丙氨酸(12-13%)在线粒体信号肽中大大过量表达,精氨酸丰富(12%)。对于大多数前导序列,MPP切割点是通过保守精氨酸残基的存在来定义的,通常在P2位(距易裂键约-2个氨基酸),或在大多数其他情况下在P3位(Huang等人,2009)。
线粒体前导序列通过疏水残基与Tom20受体相互作用。研究表明,α-螺旋的疏水表面促进TOM导入复合物的TOM20组件识别肽,而正电荷被TOM22亚基识别(Abe等人,2000)。最后,大多数前导序列引导与Hsp70相关的多肽的运输,因此几乎所有的植物前导序列都至少含有一个Hsp70分子伴侣的结合基序(Zhang和Glaser,2002)。伴侣Hsp70参与蛋白折叠,防止蛋白聚集,并起到分子马达的作用,拉动前体穿过线粒体膜。跨内膜的电膜电位(Δψ)(-100mV,内部负)也通过电泳效应驱动带正电荷的前导序列易位。
大多数具有可切割前导序列的蛋白通过一般导入途径到达线粒体基质,该途径利用外膜(TOM)复合物转运蛋白和内膜23复合物(TIM23)转运蛋白。然而,一些具有可切割前导序列的蛋白可以在内膜等人,2004)或膜间间隙中组装,如果它们还含有疏水性分选信号(HSS)(Glick等人,1992)。很少有前导序列未被切割的基质定位蛋白的实例。在拟南芥中,在具有未加工的全长前导序列的基质中仅发现谷氨酸脱氢酶(Huang等人,2009)。
对于不是基质靶向的蛋白,使用各种内部不可切割的定位信号。这些通常与特定的运输途径相关,并且额外针对特定种类的蛋白进行定制。在植物中,迄今为止没有研究确定是什么精确地构成膜间间隙蛋白的内部信号序列。然而,看来具有双半胱氨酸残基的基序与经线粒体膜间间隙组装途径(MIA)的转移相关(Carrie等人,2010;Darshi等人,2012)。最后,不可切割的内部序列也被通过载体途径到达内膜的蛋白利用,其利用TOM和TIM22器插入具有多个跨膜区的蛋白(Kerscher等人,1997;Sirrenberg等人,1996)(Kerscher等人,1997;Sirrenberg等人,1996)。这些序列通常含有疏水区,其后是前导序列样内部序列,因此与N端前导序列相似,但区别在于它们在它们的同源蛋白内的内部位置。
在光合生物体中,核编码的线粒体蛋白需要在叶绿体和线粒体转运(mitochondrial trafficking)之间进行区分,尽管这两种细胞器和它们的蛋白质组之间存在许多相似性。大部分出现在线粒体前导序列中的α-螺旋通常不存在于叶绿体前导序列中(Zhang和Glaser,2002)(Zhang and Glaser,2002),其倾向于更加非结构化并显示高β片结构域结构(Bruce,2001)(Bruce,2001)。
在植物中,MPP锚定于内膜结合Cytbc1复合物,尽管活性MPP位点位于面向基质的位置,并且两种蛋白的功能是独立的(Glaser和Dessi,1999)(Glaser and Dessi,1999)。
线粒体靶向肽
如本文所用,术语“线粒体靶向肽”或“MTP”是指这样的氨基酸序列,其包括至少10个氨基酸,优选长度为10至约80个氨基酸残基,其将靶蛋白导向线粒体,并且其可以异源地用于MTP-靶蛋白翻译融合中以将选定的靶蛋白,例如Nif多肽、Gus、GFP等导向线粒体。
MTP通常在其N端包括衍生它的多肽的翻译起始子甲硫氨酸。MTP通过与对应于靶蛋白起始子Met的Met残基的肽键与Nif多肽或“靶蛋白”翻译融合,或者Met残基可以省略并且肽键直接与野生型中作为靶蛋白第二氨基酸的氨基酸残基融合。MTP通常富含碱性和羟基化的氨基酸,并且通常缺乏酸性氨基酸或延长的疏水性伸展。MTP可以形成两亲性螺旋。
不希望受理论的限制,MTP通常包括与线粒体外膜上的受体结合的摄取靶向序列。当与外膜结合时,融合多肽优选经历膜易位以转移通道蛋白,并通过线粒体的双层膜到达线粒体基质(MM)。然后通常切割摄取靶向序列并折叠成熟融合蛋白。
MTP可包括随后将蛋白靶向线粒体的不同区域如线粒体基质(MM)的附加信号。在一个实施方案中,摄取靶向序列是基质靶向序列。
当翻译融合到Nif多肽时,MTP可以是可切割的或不可切割的。因此,在一个实施方案中,MTP-Nif融合多肽是至少部分切割的。在这方面,短语“至少部分切割的”指在植物细胞中表达时MTP-Nif融合多肽的可检测的切割量。在一个实施方案中,细胞中产生的MTP-Nif融合多肽的至少50%在MTP序列内被切割,优选至少75%被切割,更优选至少90%被切割。在另一个实施方案中,少于50%的MTP-Nif融合多肽在细胞中被切割,例如MTP未被切割。在一个实施方案中,MTP不包括MPP的切割位点。MTP可以包括切割位点。切割后,所得加工产物(即成熟NP)的N端部分可包括MTP的一个或多个C端氨基酸,在本文中也称瘢痕序列(scar sequence)或无瘢痕序列。当瘢痕序列存在时,其长度优选为1-45个氨基酸,更优选为1-20个氨基酸,甚至更优选为1-12个氨基酸。或者,切割位点可以位于融合多肽内,使得整个MTP序列被切割,例如,接头可以包括切割序列。
天然线粒体靶向肽位于前体蛋白的N端,并且N端部分通常在导入线粒体期间或之后被切除。切割通常由一般的基质作用蛋白酶(MPP)催化,其在植物中整合到呼吸链的bc1复合物中。该蛋白酶识别近1000种前体蛋白的切割位点,这些蛋白具有广泛的氨基酸序列,几乎没有保守性。在一个实施方案中,MTP包括MPP的蛋白酶切割位点。在另一个实施方案中,通过MPP切割MTP内或紧接MTP之后的融合蛋白产生加工产物。在此上下文中,短语“紧接之后(immediately after)”意指在被MPP切割后,融合到Nif多肽的MTP中没有剩余氨基酸。因此,当融合多肽在“紧接”MTP之后被切割时,MPP切割位点紧接MTP的C端氨基酸之后。
在MTP融合多肽的上下文中使用的术语“切割产物(cleaved product或cleavageproduct)”是指由MTP氨基酸序列内或紧接其后的蛋白酶切割产生的多肽。在这方面,MTP融合多肽的切割产物可通过MPP切割获得。切割产物可在切割后保留来自MTP的一个或多个氨基酸(即瘢痕肽),或者在切割后它可以不具有任何来自MTP的氨基酸。在一个实施方案中,本发明的Nif融合多肽的切割产物包含Nif多肽序列中存在的至少95%或全部氨基酸。
在一个实施方案中,MTP不被切割。本发明人已经证明,MTP的掺入并不总是导致Nif蛋白的完全加工。在一些情况下(NifX-FLAG、NifD-HAopt1和NifDK-HA),加工和未加工的Nif蛋白都能观察到。考虑到MTP无通用共有序列,并且内部蛋白序列可以影响线粒体靶向(Becker等人,2012),本发明人发现Nif蛋白之间加工效率的差异也许并不令人惊讶。
可用于本发明上下文的合适MTP包括但不限于具有von Heijne(1986)或Roise和Schatz(1988)定义的一般结构的肽。MTP的非限制性实例是von Heijne(1986)的表I中定义或本文公开的线粒体靶向肽。
在一个实施方案中,MTP是F1-ATPaseγ亚基(MTP-FAγ)。合适的FAγMTP的实例来自拟南芥(Lee et al.,2012)(Lee等人,2012)。在一个实施方案中,MTP-FAγ的长度为77个氨基酸,MMP对其的切割在融合多肽的N端留下35个MTP残基。在优选的实施方案中,MTP-FAγ的长度小于77个氨基酸。例如,MTP-FAγ的长度可以是约51个氨基酸,MMP对其的切割在融合多肽的N端留下9个MTP残基。
本领域技术人员将理解,存在用于预测线粒体蛋白及其靶向序列的软件,例如MitoProtII、PSORT、TargetP和NNPSL。
MitoProtII是基于若干物理化学参数(例如,N端部分中的氨基酸组成,或17个残基窗口的最高总疏水性)预测序列的线粒体定位的程序。PSORT是基于各种序列衍生特征(例如序列基序和氨基酸组成的存在)预测亚细胞定位的程序。TargetP基于任何N端序列的预测存在预测真核蛋白的亚细胞定位:叶绿体转移肽、线粒体靶向肽或分泌途径信号肽。利用早期的二进制预测器、SignalP和ChloroP,TargetP需要N端序列作为两层人工神经网络(ANN)的导入。对于预测含有N端前导序列的序列,也可以预测潜在的切割位点。NNPSL是另一种基于ANN的方法,其使用氨基酸组成将四种亚细胞定位(胞质、胞外、核和线粒体)之一分配给查询序列。
基于常规方法和本文公开的方法,本领域技术人员能够容易地确定所选择的MTP是否将融合多肽靶向至线粒体基质。本发明人选择以前证明能够在拟南芥原生质体中转移GFP的靶向肽(Lee et al.,2012)(Lee等人,2012),并且该靶向肽相对较长,以助于检测加工的蛋白。如本文实施例中所示,选择的MTP将所有选择的固氮酶蛋白靶向至MM。这一结论基于以下证据。首先,观察到的本生烟表达的Nif多肽的大小与MM肽酶加工产生的预期大小一致。这也反映在细菌(全长未加工)和植物线粒体表达的小尺寸Nifs(NifF和NifZ)之间观察到的尺寸差异上。此外,MTP的突变,使其不能被线粒体导入机器加工,产生用于NifD和GFP融合的更大条带,这与加工和未加工蛋白之间的大小差异一致。最后,示例性融合多肽的质谱分析确定MTP-NifH在MTP的残基42-43之间被切割,如预测的那样用于基质中的特定加工。
在本发明的一些实施方案中,使用选定MTP的多个串联拷贝可能是有用的。复制的或倍增的靶向肽的编码序列可以通过基因工程从现有的MTP获得。MTP的量可以通过细胞分级来测量,然后,例如,定量免疫印迹分析。因此,在本发明中,术语“线粒体靶向肽”或“MTP”包括将靶Nif蛋白导向线粒体的一个氨基酸肽的一个或多个拷贝。在优选实施方案中,MTP包括选定MTP的两个拷贝。在另一实施方案中,MTP包括选定MTP的三个拷贝。在另一实施方案中,MTP包括选定MTP的四个拷贝或更多。
本领域技术人员将理解MTP序列不限于天然MTP序列,而是可以包括相对于天然存在的MTP的氨基酸置换、缺失和/或插入,条件是序列变异体仍然起线粒体靶向的作用。
本领域技术人员将理解,作为克隆策略的结果,MTP可以在其N或C端侧接氨基酸,并且可以用作接头。这些附加的氨基酸可被认为形成MTP的一部分。
本领域技术人员还将理解MTP可以在N或C端与寡肽接头和/或标签如表位标签融合。在一个优选的实施方案中,在植物细胞中产生的本发明的一种或多种或所有Nif融合多肽相对于相应的野生型Nif多肽缺少附加的表位标签。
线粒体靶向肽(MTP)-Nif融合多肽
本发明涉及线粒体靶向肽(MTP)-Nif融合多肽及其切割的多肽产物。当本发明的MTP-Nif融合多肽在植物细胞中表达时,MTP-Nif融合多肽和/或切割的多肽产物靶向线粒体基质(MM)。优选地,融合多肽促进植物细胞的固氮酶还原酶和/或固氮酶活性,或与细菌中相应野生型Nif多肽促进的活性相同的活性。
如本文所用,术语“融合多肽(fusion polypeptide)”是指包括两个或更多个通过肽键共价连接的多肽结构域的多肽。通常,融合多肽由本发明的嵌合多核苷酸编码为单多肽链。在一个实施方案中,本发明的融合多肽包括线粒体靶向肽(MTP)和Nif多肽(NP)。在该实施方案中,MTP的C端与NP的N端翻译融合。在另一个实施方案中,本发明的融合多肽包括MTP的C端部分和NP,其中C端部分由MPP切割MTP产生。这种MTP的C端部分在本文中称为“瘢痕(scar)”序列。在该实施方案中,MTP的C端部分的C端氨基酸与NP的N端氨基酸翻译融合。在这些实施方案中,融合多肽可以在MTP和NP之间包含一个或多个附加的氨基酸,例如GlyGly序列和/或添加的甲硫氨酸作为翻译起始氨基酸。在一个实施方案中,融合多肽包含两个Nif多肽,优选通过接头序列与NifK多肽翻译融合的NifD多肽或通过接头序列与NifN多肽翻译融合的NifE多肽。这两种融合多肽均可以存在。在这些实施方案中,优选融合多肽中的第二Nif多肽具有其野生型C端,即缺失任意C端延伸区。
如本文所用,术语“在N端翻译融合(translationally fused at the N-terminus)”是指MTP多肽或接头多肽的C端通过肽键共价连接到NP的N端,从而成为融合多肽。在一个实施方案中,相对于相应的野生型NP,NP不包括其天然翻译起始甲硫氨酸(Met)残基或其两个N端Met残基。在另一个实施方案中,NP包括翻译起始Met或野生型NP多肽的两个N端Met残基中的一个或两个,例如NifD。
这种多肽通常通过表达嵌合蛋白编码区产生,其中编码MTP的核苷酸的翻译阅读框与编码NP的核苷酸的阅读框在框内连接。本领域技术人员将理解MTP的C端氨基酸可以在没有接头的情况下或通过一个或多个氨基酸残基(例如1-5个氨基酸残基)的接头与NP的N端氨基酸翻译融合。这种接头也可以被认为是MTP的一部分。蛋白编码区表达之后可以在植物细胞的MM中切割MTP,并且这种切割(如果发生的话)包括在本发明融合多肽的生产概念中。
融合多肽或加工的Nif多肽优选具有功能性Nif活性。在一个优选的实施方案中,所述活性与相应的野生型Nif多肽的活性相似。融合多肽或加工的Nif多肽的功能活性可以在细菌和生化互补试验(biochemical complementation assays)中测定。在一个优选的实施方案中,融合多肽或加工的Nif多肽具有野生型Nif活性的约70-100%的活性。不具有Nif功能的Nif多肽仍然具有实用性,例如,作为研究工具来测试基因构建体的表达水平或用于与其他Nif多肽的关联。
融合多肽可以包括多于一种MTP和/或多于一种NP,例如,融合多肽可以包括MTP、NifD多肽和NifK多肽。融合多肽还可以包括寡肽接头,例如连接两种NP。优选地,接头具有足够的长度以允许两种或多种功能域,例如两种NP,如NifD和NifK或NifE和NifN,在植物细胞中以功能构型缔合。在一个优选的实施方案中,NifD多肽为AnfD多肽,NifK多肽为AnfK多肽。对于AnfD-接头-AnfK融合多肽,这种接头的长度可以是8-50个氨基酸残基,优选约25-35个氨基酸残基,更优选约30或约26个氨基酸残基。融合多肽可以通过常规方法获得,例如通过编码所述融合多肽的多核苷酸序列在合适细胞中的基因表达的方法。
如本文所用,“基本上纯化的多肽(substantially purified polypeptide)”是指基本上不含通常例如在细胞中与多肽缔合的成分(例如脂质、核酸、碳水化合物)的多肽。优选地,基本上纯化的多肽至少90%不含所述组件。
本发明的植物细胞、转基因植物及其部分包括编码本发明多肽的多核苷酸。本发明的多肽不是天然存在于植物细胞中,特别是不存在于植物细胞的线粒体中,因此编码该多肽的多核苷酸在本文中可以称为外源多核苷酸,因为它不是天然存在于植物细胞中,而是被引入植物细胞或祖细胞(progenitor cell)中。因此,可以说产生本发明多肽的本发明的细胞、植物和植物部分产生重组多肽。在多肽的上下文中,术语“重组的”是指当细胞产生外源多核苷酸时由外源多核苷酸编码的多肽,该多核苷酸已经通过重组DNA或RNA技术例如转化引入细胞或祖细胞。通常,植物细胞、植物或植物部分包括非内源基因,其可在植物细胞或植物的生命周期中的至少一些时间引起一定量的多肽产生。优选地,外源多核苷酸整合到植物细胞的核基因组中和/或在细胞核中转录。
在一个实施方案中,本发明的多肽不是天然存在的多肽。在另一个实施方案中,本发明的多肽是天然存在的,但存在于植物细胞中,优选存在于植物细胞的线粒体中,其中该多肽是非天然存在的。
在一个实施方案中,本发明的多肽(例如,MTP融合多肽或其切割产物)至少部分可溶于植物细胞的线粒体中。在本文中,短语“至少部分可溶的”是指多肽在包括植物细胞线粒体的匀浆样品的可溶级分中是可检测的。用于检测多肽溶解度的合适方法是本领域已知的并且包括在实施例1中描述的那些。在一个实施方案中,细胞中存在的至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%或至少90%的多肽是可溶的。
Nif多肽
本文所用术语“Nif多肽”和“Nif蛋白”可互换使用,是指氨基酸序列与涉及固氮酶活性的天然多肽相关的多肽,其中本发明的Nif多肽选自NifD多肽、NifH多肽、NifK多肽、NifB多肽、NifE多肽、NifN多肽、NifF多肽、NifJ多肽、NifM多肽、NifQ多肽、NifS多肽、NifU多肽、NifV多肽、NifW多肽、NifX多肽、NifY多肽和NifZ多肽组成的组,各自如本文所定义。本发明的Nif多肽包括“Nif融合多肽”,本文所用的“Nif融合多肽”是指天然存在的Nif多肽的多肽同系物,相对于相应的天然存在的Nif多肽,其具有与N端或C端或两者连接的附加氨基酸残基。如上所述,相对于相应的野生型Nif多肽,Nif融合多肽可能缺少翻译起始Met或两个N端Met残基。对应于天然存在的Nif多肽的Nif融合多肽的氨基酸残基,即没有连接到N端或C端或两者的附加氨基酸残基,在本文中也称为Nif多肽,在这种情况下缩写为“NP”,或称为NifD多肽(“ND”)等。在一个优选实施方案中,“连接到N端或C端或两者的附加氨基酸残基”包括连接到NP的N端的线粒体靶向肽(MTP)或与NP的N端连接的加工的MTP,或是NP的N端或C端或两者的表位序列(“标签”),或MTP或加工的MTP和表位序列两者。
天然存在的Nif多肽仅存在于一些细菌中,包括固氮菌(nitrogen-fixingbacteria),包括自生固氮菌(free living nitrogen fixing bacteria)、联合固氮菌(associative nitrogen fixing bacteria)和共生固氮菌(symbiotic nitrogen fixingbacteria)。自生固氮菌能够固定显著水平的氮,而不与其他生物体直接相互作用。非限制性地,所述自生固氮菌包括固氮菌属(Azotobacter)、拜叶林克氏菌属(Beijerinckia)、克雷伯氏菌属(Klebsiella)、蓝藻属(Cyanobacteria)(归类为好氧生物)的成员和梭状芽孢杆菌属(Clostridium)、脱硫弧菌属(Desulfovibrio)以及命名为紫色硫细菌、紫色非硫细菌和绿色硫细菌的成员。联合固氮细菌是能够与禾本科(Poaceae)(杂草)的几个成员形成紧密联系的那些原核生物。这些细菌在宿主植物的根际内固定了相当数量的氮。固氮螺菌属(Azospirillum)的成员是联合固氮细菌的代表。共生固氮菌是通过与宿主植物合作而共生固氮的那些细菌。植物通过光合作用提供糖分,固氮细菌利用这些糖分来提供固氮作用所需的能量。根瘤菌的成员是联合固氮细菌的代表。
本发明的Nif多肽或Nif融合多肽选自由NifH、NifD、NifK、NifB、NifE、NifN、NifF、NifJ、NifM、NifQ、NifS、NifU、NifV、NifW、NifX、NifY和NifZ多肽组成的组。这些多肽的功能最近由Burén等人(2020)综述。
本发明的其他多肽被认为是分别涉及V-脱氮酶和Fe-脱氮酶的VnfG和AnfG、硝化酶相关因子(Naf多肽)如Nafy和铁氧化还原蛋白多肽如FdxN多肽。这些多肽优选编码并表达为用于线粒体靶向的MTP全融合多肽。
多肽或多肽类可以通过其氨基酸序列与参考氨基酸序列的同一性程度(%同一性)和/或通过存在某些氨基酸基序或蛋白质家族结构域,或通过与一种参考氨基酸序列比与另一种参考氨基酸序列具有更高的%同一性来定义。多肽或多肽类也可以通过具有与天然存在的Nif多肽相同的生物活性来定义,除了序列的同一性程度。
多肽的%同一性由GAP(Needleman和Wunsch,1970)分析(GCG程序)确定,空位形成罚分=5,空位延伸罚分=0.3,或使用Blastp 2.5版或其更新版本(Altschul等人,1997),其中在每种情况下,该分析将两个序列进行比对,包括参考序列整个长度上的参考序列。如本文所用,参考序列包括来自肺炎克雷伯菌(改名为产酸克雷伯氏杆菌)的天然存在的Nif多肽所示的参考序列,SEQ ID NO:1-17。
在以下定义中,氨基酸序列与SEQ ID NO所示的参考序列的同一性程度由Blastp2.5版或其更新版本(Altschul等人,1997)使用默认参数(除目标序列最大数目设置为10,000)确定,且沿着参考氨基酸序列的全长确定。
细菌中天然存在的NifH多肽是固氮酶复合物的结构组件,通常称为铁(Fe)蛋白。它形成同二聚体,其中Fe4S4簇结合在亚基和两个ATP结合结构域之间。NifH是固氮酶蛋白(NifD/NifK异源四聚体)的专性电子供体,因此起固氮酶还原酶(EC 1.18.6.1)的作用。钼型NifH也参与FeMo-co生物合成和apo-MoFe蛋白成熟(Jasniewski等人,2018)。如本文所述,NiMH具有三个主要的公认功能:(i)在FeMo-Co的合成中涉及Mo和高柠檬酸盐的插入,还涉及NifE-NifN络合物,(ii)在NifD-NifK上由称为P*簇的物质形成P簇的还原酶功能,其也可能涉及小分子伴侣样多肽NifZ,和(iii)作为固氮酶蛋白的电子供体。
如本文所用,“NifH多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:1所示的氨基酸序列至少具有41%同一性,并且其包括一个或多个结构域TIGR01287、PRK13236、PRK13233和cd02040。TIGR01287结构域存在于钼-铁固氮酶还原酶(NifH)、钒-铁固氮酶还原酶(VnfH)和铁-铁固氮酶还原酶(AnfH)中的每一个中,但不包括来自非光依赖原叶绿素酸脂的同源蛋白。因此,本文使用的NifH多肽包括包含其序列与SEQ ID NO:1至少具有41%同一性的氨基酸的铁结合多肽的亚类,VnfH铁结合多肽和AnfH铁结合多肽。天然存在的NifH多肽通常长度为260-300个氨基酸,天然单体分子量为约30kDa。已经鉴定了大量的NifH多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自(密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_049123239.1,与SEQ ID NO:1具有99%同一性)、Brenneria goodwinii(WP_048638817.1,93%同一性)、Sideroxydanslithotrophicus(WP_013029017.1,84%同一性)、Denitrovibrio acetiphilus(WP_013010353.1,80%同一性)、非洲脱硫弧菌(Desulfovibrio africanus,WP_014258951.1,72%同一性)、褐杆状绿菌(Chlorobium phaeobacteroides,WP_011744626.1,69%同一性)、(甲烷鬓毛菌属(Methanosaeta concilii,WP_013718497.1,64%同一性)、红杆菌(Rhodobacter,WP_009565928.1,61%同一性)、甲烷暖球菌(Methanocaldococcusinfernus,WP_013099472.1,42%同一性)和Desulfosporosinus youngiae(WP_007781874.1,41%同一性)的NifH多肽。NifH多肽已经在Thiel等人(1997)、Pratte等人(2006)、Boison等人(2006)和Staples等人(2007)中进行了描述和综述。
如本文所用,功能性NifH多肽是能够与其他所需亚基(例如NifD和NifK)以及FeMo、FeV-或FeFe-辅因子一起形成功能性固氮酶蛋白复合物的NifH多肽。
如本文所用,“AnfH多肽”是一种NifH多肽,该NifH多肽是固氮酶保守超家族cl25403(TIGR01287)的成员,该超家族含有PRK13233保守结构域并且在沿SEQ ID NO:218的全长测量时与棕色固氮菌AnfH多肽(SEQ ID NO:218;登录号WP_012703362)具有至少69%的氨基酸序列同一性。该氨基酸序列在本文中用作AnfH的参考序列。TIGR01287:AnfH代表固氮酶组分II的全铁变体,也称为固氮酶还原酶。如本文所用,AnfH多肽是NifH多肽的亚组。AnfH多肽不包括钼型NifH多肽和钒型NifH多肽(VnfH)。序列数据库中的AnfH多肽的氨基酸序列通常被注释为AnfH多肽。截至2020年1月,在NCBI蛋白质数据库中的AnfH组中存在314个特异性的氨基酸序列,所有这些序列都具有AnfH特异性的氨基酸残基,并且与钼型NifH和VnfH不同,这些亚组看起来更相似,但仍有所不同。天然存在的AnfH多肽的实例包括来自Rhodocyclus tenuis(登录号WP_153472986;92.36%同一性),菊欧文氏杆菌香蕉致病变种(Dickeya paradisiaca,登录号WP_015854293;88.36%同一性),Thermodesulfitimonas autotrophica(登录号WP_123927773;78.91%同一性),克氏梭菌(Clostridium kluyveri,登录号WP_073538802;76.36%同一性)和Methanophagalesarchaeon(登录号RCV64832;69.37%同一性)的AnfH多肽,各自参考SEQ ID NO:218。
如本文实施例23所述,在相对于AvNifH的钼帽型NifH序列而言,在AnfH序列中保守且具有AnfH多肽特征的特定位置鉴定了16个氨基酸。这些可用于将AnfH多肽与其他不具有所有16个共同氨基酸的NifH序列区分开。AvNifH、KoNifH(SEQ ID NO:1)和其他钼型NifH序列具有基序III和IV,但不具有基序I、II、V-VII,因此这些基序(SEQ ID NOs:225-231)也可用于区分AnfH亚型与其他NifH多肽。
与其他功能性NifH多肽类似,功能性AnfH多肽能够作为固氮酶还原酶起作用,是FeFe复合物的专性电子供体。类似于钼型NifH,AnfH可能参与FeFe-co生物合成和apo-FeFe复合物(AnfD-AnfK-AnfG)的成熟
如本文所用,“NifD多肽”是指包括氨基酸的多肽,氨基酸的序列与如SEQ ID NO:2所示的氨基酸序列至少具有33%同一性,并且多肽包括(i)结构域TIGR01282和COG2710中的一个或两个,两个结构域都存在于铁-钼结合多肽中,包括具有SEQ ID NO:2所示氨基酸序列的多肽,或(ii)铁-钒结合结构域TIGR01860,其中NifD多肽存在于VnfD多肽的亚类中,或(iii)铁-铁结合结构域TIGR1861,其中NifD多肽存在于AnfD多肽的亚类中。NifD多肽可以是融合多肽的一部分,例如与MTP和/或NifK融合,或者可以不包含任何N端或C端延伸区。在一个优选的实施方案中,在与NifK多肽结合时,NifD多肽结合FeMO趋化因子。
如本文所用,NifD多肽包括铁-钼(FeMo-co)结合多肽的亚类,其包括序列与SEQID NO:2至少具有33%同一性的氨基酸、VnfD铁-钒多肽和AnfD多肽。天然存在的NifD多肽通常长度为470-540个氨基酸。已经鉴定了大量的NifD多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自解鸟氨酸拉乌尔菌(Raoultellaornithinolytica,登录号WP_044347161.1,与SEQ ID NO:2具有96%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370273.1,93%同一性)、达旦提狄克氏菌(Dickeyadadantii,WP_038902190.1,89%同一性)、甲苯单胞菌属BRL6-1(Tolumonas sp.BRL6-1,WP_024872642.1,81%同一性)、格瑞菲斯瓦尔德磁螺菌(Magnetospirillumgryphiswaldense,WP_024078601.1,68%同一性)、热解糖热厌氧杆菌(Thermoanaerobacterium thermosaccharolyticum,WP_013298320.1,42%同一性)、热自养甲烷热杆菌(Methanothermobacter thermautotrophicus,WP_010877172.1,38%同一性)、非洲脱硫弧菌(Desulfovibrio africanus,WP_014258953.1,37%同一性)、脱遛肠状菌属LMa1(Desulfotomaculum sp.LMa1,WP_066665786.1,37%同一性)、杆状脱硫微菌(Desulfomicrobium baculatum,WP_015773055.1,36%同一性)、Fischerella muscicola(底栖蓝藻)的VnfD多肽(WP_016867598.1,34%同一性)和来自丰祐菌TAV5(Opitutaceaebacterium TAV5)的AnfD多肽(WP_009512873.1,33%同一性)的NifD多肽。Lawson和Smith(2002)、Kim和Rees(1994)、Eady(9919)、Robson等人(1980)、Dilworth等人(1988)、Dilworth等人(1993)、Miller和Eady(1988),Chiu等人(2001)、Mayer等人(1999)以及Tezcan等人(2005)描述并综述了NifD多肽。
铁-钼亚类的NifD多肽是固氮酶复合物的关键亚基,是固氮酶核心处α2β2MoFe蛋白复合物的α亚基,且是用FeMo辅因子还原底物的位点。如本文所用,功能性NifD多肽是能够与其他所需亚基(例如NifH和NifK)以及FeMo或其他辅因子一起形成功能性固氮酶蛋白复合物的NifD多肽。
如本文所用,“对蛋白酶切割具有抗性的NifD多肽(ND)”在通过使用MTP将ND引入植物线粒体中时,对特定位点或特定区域内(例如在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内)的切割具有抗性。如本文所用,“对蛋白酶切割具有抗性”是指在使用MTP将NifD多肽引入植物线粒体时产生<10%的切割。在优选的实施方案中,少于5%的NifD多肽在该位点或该区域内被切割,更优选基本上不被切割、或未检测到切割。与包含SEQ IDNO:18所示氨基酸序列的NifD多肽相比,NifD多肽可“对切割具有相对抗性”,与包含SEQ IDNO:18所示氨基酸序列的NifD多肽相比,NifD多肽被切割的频率至少低5倍,优选至少低10倍。
如本文所用,“在对应于SEQ ID NO:18的氨基酸97-100的位置处除RRNY(SEQ IDNO:101)外的氨基酸序列”指在对应于SEQ ID NO:18的氨基酸97-100的位置处包含四个残基并且不是RRNY的序列。
如本文所用,“AnfD多肽”是一种NifD多肽,其特异性地是氧化还原酶固氮酶保守超家族cl30843的成员,该超家族包含TIGR01861保守结构域,并且在沿SEQ ID NO:216的全长测量时与棕色固氮菌AnfD多肽(SEQ ID NO:216;登录号WP_012703361)具有至少71%的氨基酸序列同一性。该氨基酸序列在本文中用作AnfD的参考序列。TIGR01861:AnfD代表固氮酶组分Iα-链的全铁变体。如本文所用,AnfD多肽因此是NifD多肽的亚组。AnfD多肽不包括钼型NifD多肽和钒型NifD多肽(VnfD),并且也不包括原叶绿素酸酯(protochlorophyllide)或叶绿素酸酯还原酶多肽(Boyd和Peters,2013)。蛋白质序列数据库中AnfD多肽的氨基酸序列通常被注释为AnfD多肽。截至2020年1月,在NCBI蛋白质数据库中的AnfD组中存在156个特异性的氨基酸序列。天然存在的AnfD多肽的实例包括来自脱硫弧菌DV(Desulfovibrio sp.DV,登录号WP_075356167;87.47%同一性)、类芽孢杆菌FSLH7-0357(Paenibacillus sp.FSL H7-0357,登录号WP_038590013;85.52%同一性)、荚膜红细菌(同一性,登录号WP_023922817;80.31%同一性)、乙酸甲烷八叠球菌(Methanosarcinaacetivorans C2A,登录号WP_011021232;77.13%同一性)和拟杆菌属Barb7(Bacteroidales bacterium Barb7,登录号OAV73823;71.25%同一性)的AnfD多肽,各自参考SEQ ID NO:216。McRose等人(2017)报道了其他实例。
与其他功能性NifD多肽类似,功能性AnfD多肽能够作为α2β2δ2异六聚体固氮酶的α蛋白结构组分与β蛋白(AnfK)和δ蛋白(AnfG)一起发挥作用,为分子氮还原提供结合FeFe-co的催化复合物。
如本文所用,“NifK多肽”是指包括氨基酸的多肽,氨基酸的序列与如SEQ ID NO:3所示的氨基酸序列至少具有31%同一性,并且其包括保守结构域cd01974、TIGR01286或cd01973中的一个或多个,在这种情况下,NifK多肽属于VnfK多肽的亚类,或者cl02775包含TIGR02931保守结构域,在这种情况下NifK多肽属于AnfK多肽的亚类。如本文所用,NifK多肽包括来自铁-钒固氮酶的VnfK多肽和AnfK铁结合蛋白多肽。天然存在的NifK多肽通常长度为430-530个氨基酸。已经鉴定了大量的NifK多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_049080161.1,与SEQ ID NO:3具有99%同一性)、解鸟氨酸拉乌尔菌(Raoultellaornithinolytica,WP_044347163.1,96%同一性)、变栖克雷伯氏菌(Klebsiellavariicola,SBM87811.1,94%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370272.1,89%同一性)、水生拉恩菌(Rahnella aquatilis,WP_014333919.1,82%同一性)、Tolumonas auensis(WP_012728880.1,75%同一性)、斯氏假单胞菌(Pseudomonasstutzeri,WP_011912506.1,68%同一性)、需钠弧菌(Vibrio natriegens,WP_065303473.1,65%同一性)、Azoarcus toluclasticus(WP_018989051.1,54%同一性)、弗兰克氏菌属(Frankia sp,prf||2106319A,50%同一性)和(乙酸甲烷八叠球菌(Methanosarcina acetivorans,WP_011021239.1,31%同一性)的NifK多肽。在标注为“NifK”的数据库中存在一些多肽实例,其与SEQ ID NO:3具有小于31%的同一性,但不含有上文列出的任何结构域,因此不包括在本文中作为NifK多肽。Kim和Rees(1994)、Eady(9919)、Robson等人(1989)、Dilworth等人(1988)、Dilworth等人(1993)、Miller和Eady(1988)、Igarashi和Seefeldt(2003)、Fani等人(2000)以及Rubio和Ludden(2008)描述并综述了NifK多肽。
铁-钼亚类的NifK多肽是固氮酶复合物的关键亚基,是固氮酶核心处α2β2MoFe蛋白复合物的β亚基。如本文所用,功能性NifK多肽是能够与其他所需亚基(例如NifD和NifH)以及FeMo或其他辅因子一起形成功能性固氮酶蛋白复合物的NifK多肽。在一个优选的实施方案中,当与氨基酸序列SEQ ID NO:3比对时,本发明的NifK多肽的氨基酸序列在其C端具有氨基酸DLVR(SEQ ID NO:58),精氨酸为C端氨基酸。也就是说,本发明的NifK多肽和NifK融合多肽优选具有与天然NifK多肽相同的C端,即,它没有C端的人工添加物。这些优选的NifK多肽能更好地与NifD和NifH多肽形成功能性固氮酶复合物。
铁-钼亚类的NifK多肽是固氮酶复合物的关键亚基,是固氮酶核心处α2β2MoFe蛋白复合物的β亚基。如本文所用,功能性NifK多肽是能够与其他所需亚基(例如NifD和NifH)以及FeMo或其他辅因子一起形成功能性固氮酶蛋白复合物的NifK多肽。在一个优选的实施方案中,当与氨基酸序列SEQ ID NO:3比对时,本发明的NifK融合多肽和切割的NifK多肽的氨基酸序列在其C端具有氨基酸DLVR(SEQ ID NO:58),精氨酸为C端氨基酸。在其他优选的实施方案中,本发明的NifK融合多肽和切割的NifK多肽的氨基酸序列在其C端具有氨基酸序列DLIR(SEQ ID NO:239)、DVVR(SEQ ID NO:240)、DIIR(SEQ ID NO:241)、DLTR(SEQ ID NO:242)或INVW(SEQ ID NO:243),它们通常不存在于天然的AnfK序列中。本发明的NifK多肽和NifK融合多肽以及由其切割的NifK多肽优选具有与天然NifK多肽相同的C端,即,它没有C端的人工添加物,并且当与天然NifK多肽比对时,它没有从C端缺失任何氨基酸。这些优选的NifK多肽能更好地与NifD和NifH多肽形成功能性固氮酶复合物。
如本文所用,“AnfK多肽”是一种多肽,其是氧化还原酶固氮酶保守超家族cl02775的成员,该超家族包含TIGR02931保守结构域,并且在沿SEQ ID NO:217的全长测量时与棕色固氮菌AnfK多肽(SEQ ID NO:217;登录号WP_012703359)具有至少54%的氨基酸序列同一性。该氨基酸序列在本文中用作AnfK的参考序列。TIGR02931:AnfK代表固氮酶组分Iβ-链的全铁变体。如本文所用,AnfK多肽可以是一种NifK多肽,与SEQ ID NO:3具有至少31%的氨基酸同一性。其他AnfK多肽与SEQ ID NO:3的同源性较低,且仅具有25-31%的同一性,但仍包括在本发明的AnfK多肽中。Anfk多肽不包括钼型NifK多肽和钒型NifK多肽(VnfK)。本发明的AnfK融合多肽和切割的AnfK多肽优选具有与天然AnfK多肽相同的C端,即,它没有C端的人工添加物,并且当与天然AnfK多肽如SEQ ID NO:27比对时,它没有从C端缺失任何氨基酸。在优选的实施方案中,本发明的AnfK融合多肽和切割的AnfK多肽的氨基酸序列在其C端具有氨基酸序列LNVW(SEQ ID NO:244)、LNTW(SEQ ID NO:245)、LNMW(SEQ ID NO:246)、LAMW(SEQ ID NO:247)或LSVW(SEQ ID NO:248)。蛋白质序列数据库中AnfK多肽的氨基酸序列通常被注释为AnfK多肽。截至2020年1月,在蛋白质数据库中的AnfK组中存在155个特异性的氨基酸序列,这些序列不同于钼型NifK和VnfK多肽序列。天然存在的AnfK多肽的实例包括来自敏捷氮单胞菌(Azomonas agilis,登录号WP_153472986;91.34%同一性)、梭状菌属BL-8(Clostridium sp.BL-8,登录号WP_077859050;78.35%同一性)、Luciferabutyrica(登录号WP_122630336;62.34%同一性)和嗜酸柏拉红菌(Rhodoblastusacidophilus,登录号WP_088520366;54%同一性)的AnfK多肽,各自参考SEQ ID NO:217。
与其他功能性NifK多肽类似,功能性AnfK多肽能够作为α2β2δ2异源六聚固氮酶的β蛋白结构组分与α蛋白(AnfD)和δ蛋白(AnfG)一起发挥作用,形成具有用于FeFe-Co上双氮还原的活性位点的复合物。
天然存在的细菌中的NifB多肽是一种将[4Fe-4S]簇转化为NifB-co的蛋白,NifB-co是具有中心C原子的较高核性的Fe-S簇,其用作FeMo-co、FeV-co和FeFe-co合成的前体(Guo等人,2016)。因此,NifB催化FeMo-co、FeV-co和FeFe-co合成途径中的第一个关键步骤,并且因此对于固氮酶功能是必需的。NifB的NifB-co产物能够结合NifE-NifN复合物,并且可以通过金属原子簇载体蛋白NifX从NifB穿梭到NifE-NifN。
如本文所用,“NifB多肽”意指其氨基酸序列包括序列与SEQ ID NO:4所示的氨基酸序列至少具有27%同一性的氨基酸的多肽。大多数NifB多肽包括保守结构域TIGR01290、NifB保守结构域cd00852、NifX-NifB超家族保守结构域cl00252和Radical_SAM保守结构域cd01335中的一个或多个。如本文所用,NifB多肽包括已被注释为具有NifB功能但不具有这些结构域之一的天然存在的多肽。来自克雷伯氏菌属(Klebsiella)、固氮菌属(Azotobacter)、根瘤菌属(Rhizobium)、慢生根瘤菌属(Bradyrhizobium)和其他细菌的NifB多肽具有C端NifX样延伸区,而大多数古细菌NifB多肽缺乏NifX样结构域并且被称为“截短的NifB多肽”。天然存在的NifB多肽通常长度为440-500个氨基酸,天然单体分子量为约50kDa。已经鉴定了大量的NifB多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自解鸟氨酸拉乌尔菌(Raoultella ornithinolytica,登录号WP_041145602.1,与SEQ ID NO:4具有91%同一性)、玉米联合固氮菌(Kosakoniaradicincitans,WP_043953592.1,80%同一性)、菊欧文氏菌(Dickeya chrysanthemi,WP_040003311.1,76%同一性)、黑胫病菌(Pectobacterium atrosepticum,WP_011094468.1,70%同一性)、Brenneria goodwinii(WP_048638849.1,63%同一性)、嗜盐嗜盐红螺菌(Halorhodospira halophila,WP_011813098.1,59%同一性,)、巴氏甲烷八叠球菌(Methanosarcina barkeri,WP_048108879.1,50%同一性,缺乏NifX结构域)、Clostridiumpurinilyticum(WP_050355163.1,40%同一性、缺乏NifX结构域)和需盐脱硫弧菌(Desulfovibrio salexigens,WP_015850328.1,27%同一性)的NifB多肽。如本文所用,“功能性NifB多肽”是能够由[4Fe-4S]簇形成NifB-co的NifB多肽。功能性NifB的功能需要S-腺苷酰氧甲硫氨酸(SAM)。NifB多肽已经在Curatti等人(2006)和Allen等人(1995)中进行了描述和综述。
Boyd等人(2011)研究了来自40个分类群的Anf/Vnf/NifDKEN的系统发育关系,并得出以下结论:(1)编码缺乏C端NifX结构域的NifB的Nif簇的横向基因转移发生在球菌目的产甲烷菌祖先到厌氧厚壁菌门祖先,其中两种生物体共存于厌氧环境中并且钼是可利用的;以及(2)在该横向基因转移事件之后,NifB和NifX的融合发生在厚壁菌门中,从厚壁菌门中进化出固氮营养细菌谱系。为支持这一理论提供了以下证据:(1)没有产甲烷古菌(甲烷球菌目、甲烷八叠球菌目和甲烷杆菌目)具有带有C端NifX结构域的NifB,(2)来自甲烷杆菌目和甲烷球菌目的NifB序列显示与甲烷八叠球菌目和细菌的NifB序列的早期分化(early divergence),以及(3)一些厌氧厚壁菌门、绿弯菌门和变形菌门具有无C端NifX结构域的NifB,推测是在Nif横向基因转移事件之后不久由厚壁菌门谱系早期分化。
为了确定NifB多肽中是否存在C端NifX结构域,可以使用基于约束的多重比对工具(COBALT,NCBI,www.ncbi.nlm.nih.gov/tools/cobalt/re_cobalt.cgi)将NifB氨基酸序列与代表性的NifB序列进行比对,代表性的NifB序列例如来自密歇根克雷伯氏菌NifB(登录号P10930)、密歇根克雷伯氏菌NifX(KZT46636.1)、NifY(KZT46633.1)、棕色固氮菌NifX(AGK13791.1)、NifY(AGK13792.1)、NafY(AGK13761.1)和NifX/NifY/NafY/VnfX家族蛋白(AGK14217.1)。使用预期值设定为10的Pfam-A数据库,通过PfamScan(EMBL-EBI,www.ebi.ac.uk/Tools/pfa/pfamscan/)可以鉴定每个序列中的“固二氮酶FeMo辅因子结合位点(dinitrogenase FeMo-cofactor binding site)”(Pfam家族PF02579)。
NifEN复合物是正确组装固二氮酶所需的支架复合物(scaffold complex),作为NifB-co成熟为FeMo-co(该过程也需要NifH功能)的支架发挥作用,并且在结构上也类似于固二氮酶(Fay等人,2016)。NifEN复合物分别由NifE和NifE各自的2个亚基组成,形成异源四聚体,本文称为ENα2β2。天然存在于细菌中的NifE多肽是具有NifN多肽的ENα2β2四聚体α亚基的多肽,该ENα2β2四聚体是FeMo-co合成所需的,并被建议用作合成FeMo-co的支架。
如本文所用,“NifE多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:5所示的氨基酸序列至少具有32%同一性,并且其包括结构域TIGR01283和PRK14478中的一个或两个。TIGR01283结构域蛋白家族的成员也是超家族cl02775的成员。天然存在的NifE多肽通常长度440-490个氨基酸,天然单体分子量为约50kDa。已经鉴定了大量的NifE多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_049114606.1,与SEQ ID NO:5具有99%同一性)、变栖克雷伯氏菌(Klebsiella variicola,SBM87755.1,92%同一性)、菊欧文氏杆菌香蕉致病变种(Dickeya paradisiaca,WP_012764127.1,89%同一性)、Tolumonas auensis(WP_012728883.1,75%同一性)、斯氏假单胞菌(Pseudomonas stutzeri,WP_003297989.1,69%同一性)、棕色固氮菌(Azotobacter vinelandii,WP_012698965.1,62%同一性)、Trichormus azollae(WP_013190624.1,55%同一性)、坚韧类芽孢杆菌(Paenibacillusdurus,WP_025698318.1,50%同一性)、Sulfuricurvum kujiense(WP_013460149.1,44%同一性)、甲酸甲烷杆菌(Methanobacteriumformicicum,AIS31022.1,39%同一性)、Anaeromusa acidaminophila(WP_018701501.1,35%同一性)和酿酒巨球形菌(Anaeromusaacidaminophila,WP_048514099.1,32%同一性)的NifE多肽。如本文所用,“功能性NifE多肽”是一种能够与NifN一起形成功能性四聚体使得复合物能够合成FeMo-co的NifE多肽。这种FeMo-co的合成涉及其他多肽,包括NifH和NifB,并且可能涉及NifX。NifE多肽已经在Fay等人(2016)、Hu等人(2005)、Hu等人进行了描述和综述。
天然存在的固氮细菌中的NifF多肽是作为NifH的电子供体的黄素氧还蛋白。如本文所用,“NifF多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:6所示的氨基酸序列至少具有34%同一性,并且其包括在来自固氮菌和其他细菌属PRK09267的Nif蛋白上发现的黄素氧还蛋白长结构域TIGR01752和黄素氧还蛋白FLDA结构域中的一个或两个。NifF多肽包括在非固氮细菌中与丙酮酸甲酸裂解酶活化和钴胺素依赖性甲硫氨酸合酶活性相关的黄素氧还蛋白,但排除了涉及更广泛功能的其他黄素氧还蛋白。天然存在的NifF多肽通常长度为160-200个氨基酸,天然单体分子量为约19kDa。已经鉴定了大量的NifF多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_004122417.1,与SEQ ID NO:6具有99%同一性)、变栖克雷伯氏菌(Klebsiella variicola,WP_040968713.1,85%同一性)、玉米联合固氮菌(Kosakonia radicincitans,WP_035885760.1,76%同一性)、菊欧文氏菌(Dickeyachrysanthemi,WP_039999438.1,72%同一性)、Brenneria goodwinii(WP_048638838.1,62%同一性)、甲烷甲基单胞菌(Methylomonas methanica,WP_064006977.1,56%同一性)、棕色固氮菌(Azotobacter vinelandii,WP_012698862.1,50%同一性)、厌氧嗜热绿硫细菌(Chlorobaculumtepidum,WP_010933399.1,39%同一性)、昭和弯曲菌(Campylobactershowae,WP_002949173.1,37%同一性)和圆褐固氮菌(Azotobacter chromococcum,WP_039801725.1,34%同一性)的NifF多肽。如本文所用,“功能性NifF多肽”是能够作为NifH多肽电子供体的NifF多肽。NifF多肽已经在Drummond(1985)中进行了描述和综述。
如本文所用,“AnfG多肽”是固氮酶保守超家族cl03910(pfam03139-AnfG)的成员,该超家族含有TIGR02929保守结构域,并且在沿SEQ ID NO:219的全长测量时与棕色固氮菌AnfG多肽(SEQ ID NO:219;登录号WP_012703360)具有至少42%的氨基酸序列同一性。该氨基酸序列在本文中用作AnfG的参考序列。TIGR02929代表固氮酶组分Iδ-链的全铁变体。AnfG多肽不包括钒型NifG多肽(VnfG)。蛋白质序列数据库中AnfG多肽的氨基酸序列通常被注释为AnfG多肽。截至2020年1月,在蛋白质数据库中的AnfG组中存在150个特异性的氨基酸序列。天然存在的AnfG多肽的实例包括来自敏捷氮单胞菌(Azomonas agilis,登录号WP_144571041;84.73%同一性)、厚壁菌门细菌(Firmicutes bacterium,登录号HBE76208;70.37%同一性)、白蚁孢子菌(Sporomusa termitida,登录号WP_144349445;68.75%同一性)、Rhodovulumviride(登录号WP_112317428;57.14%同一性)和Megasphaeracerevisiae(登录号WP_048515315;42.86%同一性)的AnfK多肽,各自参考SEQ ID NO:219。
功能性AnfG多肽能够作为α2β2δ2异六聚体固氮酶的δ蛋白结构组分发挥作用。
天然存在的细菌中的NifJ多肽是丙酮酸盐:黄素氧还蛋白(铁氧还蛋白)氧化还原酶,其是NifH的电子供体。如本文所用,“NifJ多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:7所示的氨基酸序列至少具有40%同一性并且包括保守结构域TIGR02176。天然存在的NifJ多肽通常长度为1100-1200个氨基酸,天然单体分子量为约128kDa。已经鉴定了大量的NifJ多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_024360006.1,与SEQ DI NO:7具有99%同一性)、解鸟氨酸拉乌尔菌(Raoultella ornithinolytica,WP_044347157.1,95%同一性)、类肺炎克雷伯氏菌(Klebsiella quasipneumoniae,WP_050533844.1,92%同一性)、Kosakonia oryzae(WP_064566543.1,82%同一性)、马铃薯黑胫病菌(Dickeyasolani,WP_057084649.1,78%同一性)、水生拉恩菌(Rahnella aquatilis,WP_014683040.1,72%同一性)、油藏嗜热厌氧杆菌(Thermoanaerobacter mathranii,WP_013149847.1,64%同一性)、肉毒梭菌(Clostridium botulinum,WP_053341220.1,60%同一性)、Spirochaeta africana(WP_014454638.1,52%同一性)和霍乱弧菌(Vibriocholerae,CSA83023.1,40%同一性)NifJ多肽。如本文所用,“功能性NifJ多肽”是能够作为NifH多肽电子供体的NifJ多肽。NifJ多肽已经在Schmitz等人(2001)中进行了描述和综述。
天然细菌中的NifM多肽是一些但不是所有NifH多肽成熟所需的多肽。在没有NifM的情况下,当异源表达时,产酸克雷伯氏杆菌NifH在大肠杆菌和酵母中只以低水平存在,并且不能向NifD-NifK提供电子。如本文所用,“NifM多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:8所示的氨基酸序列至少具有26%同一性并且包括结构域TIGR02933。NifM多肽与肽基脯氨酰顺反异构酶(PPIase)同源,PPIase是一组通过催化脯氨酸亚氨肽键的顺反异构化而促进蛋白质折叠的酶,具有PpiC型结构域,并且似乎是一些NifH多肽的辅助蛋白,包括至少一些VnfH和AnfH多肽。天然存在的NifM多肽通常长度为240-300个氨基酸,天然单体分子量为约30kDa。已经鉴定了大量的NifM多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自产酸克雷伯氏杆菌(Klebsiella oxytoca,登录号WP_064342940.1,与SEQ ID NO:8具有99%同一性)、密歇根克雷伯氏菌(Klebsiellamichiganensis,WP_004122413.1,97%同一性)、解鸟氨酸拉乌尔菌(Raoultellaornithinolytica,WP_044347181.1,85%同一性)、变栖克雷伯氏菌(Klebsiellavariicola,WP_063105800.1,75%同一性)、玉米联合固氮菌(,WP_035885759.1,59%同一性)、黑胫病菌(Pectobacterium atrosepticum,WP_011094472.1,42%同一性)、Brenneriagoodwinii(WP_048638837.1,33%同一性)、绿脓杆菌PAO1(Pseudomonas aeruginosa,CAA75544.1,28%同一性)、海杆菌属AK27(Marinobacterium sp.AK27,WP_051692859.1,27%同一性)和Teredinibacter turnerae(WP_018415157.1,26%同一性)NifM多肽。如本文所用,“功能性NifM多肽”是能够与NifH多肽复合以使NifH多肽成熟的NifM多肽。NifM多肽已经在Petrova等人(2000)中进行了描述和综述。
天然存在的细菌中的NifN多肽是具有NifE多肽的ENα2β2四聚体的β基,并且ENα2β2四聚体是FeMo-co合成所需的,并被建议用作FeMo-co合成的支架。如本文所用,“NifN多肽”意指(i)包括其序列与SEQ ID NO:9所示的序列具有至少76%同一性的氨基酸的多肽和/或(ii)包括其序列与SEQ ID NO:9所示的序列至少具有34%同一性的氨基酸的多肽,并且其包括保守结构域TIGR01285、cd01966和PRK14476中的一个或多个。NifN在结构上与钼-铁蛋白β链NifK有关。包括保守TIGR01285的多肽涵盖了NifN多肽的大多数实例,但排除了一些NifN多肽,如推定的绿硫细菌NifN,因此NifN的定义不限于包括保守TIGR01285结构域的多肽。PRK14476结构域蛋白家族的成员也是超家族cl02775的成员。天然存在的NifN多肽通常长度为410-470个氨基酸,尽管当与NifE天然融合时,其可以具有约900个氨基酸残基,并且天然单体分子量为约50kDa。已经鉴定了大量的NifN多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自产酸克雷伯氏杆菌(Klebsiella oxytoca,登录号WP_064391778.1,与SEQ ID NO:9具有97%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370268.1,80%同一性)、水生拉恩菌(Rahnella aquatilis,WP_014683026.1,70%同一性)、Brenneria goodwinii(WP_048638830.1,65%同一性)、Methylobactertundripaludum(WP_027147663.1,46%同一性)、墙壁眉藻(Calothrix parietina,WP_015195966.1,41%同一性)、运动发酵单胞菌(Zymomonas mobilis,WP_023593609.1,37%同一性)、马赛类芽孢杆菌(Paenibacillus massiliensis,WP_025677480.1,35%同一性)和四氯乙烯降解菌(Desulfitobacterium hafniense,WP_018306265.1,34%同一性)的NifN多肽。如本文所用,“功能性NifN多肽”是能够与NifE一起形成功能性四聚体使得复合物能够合成FeMo-co的NifN多肽。NifN多肽已经在Fay等人(2016)、Brigle等人(1987)、Fani等人(2000)和Hu等人(2005)中进行了描述和综述。
天然存在的细菌中的NifQ多肽是参与FeMo-co合成的多肽,可能存在于MoO4 2-加工的早期过程中。保守的C端半胱氨酸残基可能参与金属结合。如本文所用,“NifQ多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:10所示的氨基酸序列至少具有34%同一性,并且是CL04826结构域蛋白家族的成员和pfam04891结构域蛋白家族的成员。天然存在的NifQ多肽通常长度为160-250个氨基酸,尽管它们可以长达350个氨基酸残基,并且天然单体分子量为约20kDa。已经鉴定了大量的NifQ多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自产酸克雷伯氏杆菌(Klebsiella oxytoca,登录号WP_064391765.1,与SEQ ID NO:10具有95%同一性)、变栖克雷伯氏杆菌(Klebsiellavariicola,CTQ06350.1,75%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370257.1,63%同一性)、黑胫病菌(Pectobacterium atrosepticum,WP_043878077.1,59%同一性)、耐重金属中慢生根瘤菌(Mesorhizobium metallidurans,WP_008878174.1,46%同一性)、沼泽红假单胞菌(Rhodopseudomonas palustris,WP_011501504.1,42%同一性)、Paraburkholderia sprentiae(WP_027196569.1,41%同一性)、稳定伯克霍尔德菌(Burkholderia stabilis,GAU06296.1,39%同一性)和草酸盐嗜铜菌(Cupriavidusoxalaticus,WP_063239464.1,34%同一性)NifQ多肽。如本文所用,“功能性NifQ多肽”是能够加工MoO4 2-的NifQ多肽。NifQ多肽已经在Allen等人(1995)和Siddavattam等人(1993)中进行了描述和综述。
天然存在的细菌中的NifS多肽是参与铁-硫(FeS)簇生物合成的半胱氨酸脱硫酶,例如其参与硫的活动化以用于Fe-S簇合成和修复。如本文所用,“NifS多肽”意指(i)包括其序列与SEQ ID NO:19所示的氨基酸序列至少具有90%同一性的氨基酸的多肽和/或(ii)包括其序列与SEQ ID NO:19所示的序列至少具有36%同一性的氨基酸的多肽,并且其包括保守结构域TIGR03402和COG1104中的一个或两个。TIGR03402结构域蛋白家族包括几乎总是在延伸的氮固定系统中发现的分支加上与第一个比与IscS更紧密相关的第二个分支以及NifS样/NifU样系统的一部分。TIGR03402结构域蛋白家族不延伸至在如幽门螺杆菌的ε变形菌门(文献中也称为NifS)中发现的更远的分支,而是在TIGR03403中构建。COG1104结构域蛋白家族包括半胱氨酸亚磺酸盐脱硫酶/半胱氨酸脱硫酶或相关酶。一些NifS多肽包括天冬氨酸转氨酶结构域cl18945。天然存在的NifS多肽通常长度为370-440个氨基酸,天然单体分子量为约43kDa。已经鉴定了大量的NifS多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_004138780.1,与SEQ ID NO:19具有99%同一性)、土生拉乌尔菌(Raoultellaterrigena,WP_045858151.1,89%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370265.1,80%同一性)、水生拉恩菌(Rahnella aquatilis,WP_014333911.1,73%同一性)、Agarivorans gilvus(WP_055731597.1,64%同一性)、巴西固氮螺菌(Azospirillumbrasilense,WP_014239770.1,60%同一性)、Desulfosarcina cetonica(WP_054691765.1,55%同一性)、肠梭菌(Clostridium intestinale,WP_021802294.1,47%同一性)、Clostridiisalibacter paucivorans(WP_026894054.1,36%同一性)和凝结芽孢杆菌(Bacillus coagulans,WP_061575621.1,42%同一性并位于COG1104中)的NifS多肽。如本文所用,“功能性NifS多肽”是能够在铁-硫(FeS)簇生物合成和/或修复中起作用的NifS多肽。NifS多肽已经在Clausen等人(2000)、Johnson等人(2005)、Olson等人(2000)和Yuvaniyama等人(2000)中进行了描述和综述。
天然存在的细菌中的NifU多肽是参与固氮酶组件的铁-硫(FeS)簇生物合成的分子支架多肽。如本文所用,“NifU多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:12所示的序列至少具有31%同一性并且包括结构域TIGR02000。TIGR02000结构域蛋白家族的成员特异性地参与固氮酶成熟。NifU包括N端结构域(pfam01592)和C端结构域(pfam01106)。已经描述了三种不同但部分同源的Fe-S簇组装系统:Isc、Suf和NifNif系统(其中NifU是其一部分)与向多种固氮物种的固氮酶提供Fe-S簇相关。具有来自螺杆菌(Helicobacter)和弯曲杆菌(Campylobacter)的等同结构域结构的Isc和Suf同系物排除在本文NifU的定义之外。因此,NifU特异于参与固氮酶成熟的NifU多肽。相关的TIGR01999结构域蛋白家族的成员也被排除在本文的NifU的定义之外,其是包括NifU的N端区域的同系物的IscU蛋白(例如来自大肠杆菌和酿酒酵母和智人)。天然存在的NifU多肽通常长度为260-310个氨基酸,天然单体分子量为约29kDa。已经鉴定了大量的NifU多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来密歇根克雷伯氏菌(Klebsiellamichiganensis,登录号WP_049136164.1,与SEQ ID NO:12具有97%同一性)、变栖克雷伯氏菌(Klebsiella variicola,WP_050887862.1,90%同一性)、马铃薯黑胫病菌(Dickeyasolani,WP_057084657.1,80%同一性)、Brenneria goodwinii(WP_048638833.1,73%同一性)、Tolumonas auensis(WP_012728889.1,66%同一性)、Agarivorans gilvus(WP_055731596.1,58%同一性)、Desulfocurvus vexinensis(WP_028587630.1,54%同一性)、沼泽红假单胞菌(Rhodopseudomonas palustris,WP_044417303.1,49%同一性)、幽门螺杆菌(Helicobacter pylori,WP_001051984.1,31%同一性)和Sulfurovum sp.PC08-66(KIM05011.1,31%同一性)的NifU多肽。如本文所用,“功能性NifU多肽”是一种能够用作参与铁-硫(FeS)簇生物合成的分子支架多肽的NifU多肽。NifU多肽已经在Hwang等人(1996)、Mühlenhoff等人(2003)和Ouzunis等人(1994)中进行了描述和综述。
NifS是磷酸吡哆醛(PLP,维生素B6)依赖性半胱氨酸脱硫酶,其从半胱氨酸产生Fe-S簇合成所需的无机硫化物。该反应产生丙氨酸作为副产物。该反应通过蛋白质结合的半胱氨酸过硫化物中间体进行,该中间体通过半胱氨酸-PLP加合物上的高度保守的半胱氨酸残基(棕色固氮菌中的Cys325)的亲核攻击而形成(Zheng等人,1994)。硫化物被提供给NiFu,用于[Fe2S2]和[Fe4S4]簇的连续形成。NifS酶在细菌中作为同源二聚体起作用。
NifU为[Fe4S4]簇的形成提供支架,作为同源二聚体起作用。NifU多肽含有三个结构域,即N端支架结构域、中心结构域和C端支架结构域(Smith等人,2005)。N端结构域与来自细菌的IscU蛋白和来自真核生物的Isu蛋白具有高度的序列同源性,而C端结构域与在线粒体和叶绿体中发现的Nfu蛋白同源。中心结构域每个NifU亚基含有一个永久氧化还原活性的[Fe2S2]2+簇,由于其稳定性,认为其不被转移到其他Nif蛋白。这个簇被认为是由四个保守的半胱氨酸残基协调的(在棕色固氮菌NifU中的Cys137、139、172和175)(Fu等人,1994)。在细菌中,NifU形成同源二聚体,且其N端结构域可以每个单体结合一个[Fe2S2]簇。单体中的[Fe2S2]簇可以被还原融合以形成每个NifU单体一个[Fe4S4]簇。然后将一对[Fe4S4]簇从NifU输送到NifB,并在NifB上加工成8Fe核,随后用于FeMoco的合成。在Fe-S簇的不同途径中,将一个与NifU的N端或C端支架结构域结合的[Fe4S4]位点簇转移到apo-NifH以使固氮酶还原酶成熟,即NifH蛋白(Smith等人,2005)。已经提出NifU也向NifD-NifK蛋白质复合物(在此指定为0阶段D-K)提供两个[Fe4S4]簇,并且NifH将该对簇浓缩成成熟的P簇[Fe8-S7](Dos Santos等人,2004)。这些N端簇被认为是极不稳定的,并且在纯化过程中不被保留(Smith等人,2005)。C端结构域可以保持每个单体一个[Fe4S4]簇。与N端[Fe4S4]簇相反,C端[Fe4S4]簇的组装是快速的并且没有检测到中间[Fe2S2]簇(Smith等人,2005)。C端簇比N端簇更稳定,并且可以在纯化过程中保留。然而,在用连二亚硫酸盐还原时,C端簇迅速降解(Smith等人,2005)。在NifU中使用半胱氨酸到丙氨酸的突变,Dos Santos和同事们表明N端和C端簇都可以转移到apo-NifH。
López-Torrejón等人(2016)报道通过表达NifH和NifM,可以在酵母线粒体内产生能够向holoNifD-NifK提供电子的NifH蛋白。这些作者发现,在酵母细胞中,产生具有这种功能的NifH蛋白不需要NifS和NifU。他们得出结论,酵母细胞中的内源性铁硫簇组装途径,推测是酵母中相关蛋白的线粒体定位的Nfs1和Nfu1蛋白,它们能够向NifH提供[Fe4S4]簇。因此,在酵母中重建NifH蛋白、Fe蛋白或固二氮酶还原酶可能不需要NifS和NifU,但NifB和/或NifD-NifK成熟和功能可能需要NifS和NifU。植物线粒体是否具有相似的内源性能力以形成足够的[Fe4S4]簇用于固氮酶活性是未知的。
天然存在的细菌中的NifV多肽是高柠檬酸合酶(EC 2.3.3.14),通过将乙酰基从乙酰辅酶A(乙酰-CoA)转移到2-氧代戊二酸盐而产生高柠檬酸。然后将高柠檬酸用于FeMo-co、FeV-co和FeFe-co的合成。如本文所用,“NifV多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:13所示的氨基酸序列至少具有39%同一性并且包括结构域TIGR02660和DRE_TIM中的一个或两个。TIGR02660结构域蛋白家族的成员与包括2-异丙基苹果酸盐合酶、(R)-柠苹酸合酶和与除氮固定以外的过程相关的高柠檬酸合酶的酶同源。cd07939结构域蛋白家族还包括绿螺旋杆菌(Heliobacterium chlorum)和重氮营养葡糖酸醋杆菌(Gluconacetobacter diazotrophicus)的NifV蛋白,它们似乎与FrbC直系同源。该家族属于DRE-TIM金属裂解酶超家族。DRE-TIM金属裂解酶包括2-异丙基苹果酸合酶(IPMS)、α-异丙基苹果酸合酶(LeuA)、3-羟基-3-甲基戊二酰-CoA裂解酶、高柠檬酸合酶、柠苹酸合酶、4-羟基-2-氧代戊酸醛缩酶、re-柠檬酸合成酶、转羧酶5S、丙酮酸羧化酶、AksA和FrbC。这些成员都共有保守的磷酸丙糖异构酶(TIM)桶形(barrel)结构域,其由核心β(8)-α(8)基序组成,八个平行的β链形成被八个α螺旋包围的封闭桶形结构。该结构域具有含有二价阳离子结合位点的催化中心,二价阳离子结合位点由覆盖桶形芯的不变残基簇形成。此外,催化位点包括三个不变的残基——天冬氨酸(D)、精氨酸(R)和谷氨酸(E)——这是域名“DRE-TIM”的基础。天然存在的NifV多肽通常长度为360-390个氨基酸,尽管一些成员长度为约490个氨基酸残基,并且天然单体分子量为约41kDa。已经鉴定了大量的NifV多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiellamichiganensis,登录号WP_049083341.1,与SEQ ID NO:13具有同一性95%)、解鸟氨酸拉乌尔菌(Raoultella ornithinolytica,WP_045858154.1,86%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370264.1,81%同一性)、达旦提狄克氏菌(Dickeyadadantii,WP_038912041.1,70%同一性)、Brenneria goodwinii(WP_048638835.1,59%同一性)、Magnetococcus marinus(WP_011712856.1,46%同一性)、Sphingomonas wittichii(WP_037528703.1,43%同一性)、弗兰克氏菌属EI5c(Frankia sp.EI5c,OAA29062.1,41%同一性)和Clostridium sp.Maddingley MBC34-26(EKQ56006.1,39%同一性)的NifV多肽。如本文所用,“功能性NifV多肽”是能够作为高柠檬酸合酶起作用的NifV多肽。NifV多肽已经在Hu等人(2008)、Lee等人(2000)、Masukawa等人和Zheng等人(1997)中进行了描述和综述。
棕色固氮菌中的NifX多肽结合NifB-co(Fe6-S9-C),其被传递到NifE-NifN上用于FeMo-co组装(Hernandez等人,2007)。还显示了在NifE-NifN之间交换VK簇(Fe8-S9-C或Mo-Fe7-S9-C,Jimenez-Vincente等人,2015),提示其作为FeMo-co前体的瞬时储存库的作用。Hernandez等人(2007)报道,NifX可在FeMo-co转移到apo-NifD-NifK的过程中作为稳定NifE-NifN或NifD-NifK复合物的伴侣分子,和/或可将蛋白质以有利于FeMoco转移的取向重新定位并因此用于调节FeMoco合成。通过外源性FeMo-co与从缺乏NifY/NafY/NifX的不同辅助蛋白组合的棕色固氮菌突变体提取的固二氮酶复合物活化apo-NifD-NifK表明NifX也可以辅助apo-NifD-NifK的FeMo-co插入(Rubio等人,2002)。NifX的这种附加功能可能是Homer等人(1993)显示的克雷伯氏菌属(Klebsiella)ΔnifY突变体中乙炔还原活性保持的原因。
天然存在的细菌中的NifX多肽是参与FeMo-co合成的多肽,至少有助于将FeMo-co前体从NifB转移到NifE-NifN或从FeMo-co转移到NifD-NifK。如本文所用,“NifX多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:14所示的氨基酸序列至少具有29%同一性并且包括保守结构域TIGR02663和cd00853中的一个或两个。NifX包含在较大的铁-钼簇结合蛋白家族中,该家族包括一些NifB序列和NifY,其中NifX、NafY和一些NifB多肽的C端区域都包含pfam02579结构域,并且每一个都参与FeMo-co、FeV-co或FeFe-co中的一个或多个或全部的合成。其他NifB多肽,特别是来自产甲烷古菌和一些厌氧厚壁菌门的,缺乏NifX样结构域(Boyd等人,2011),包括来自上述H.halophila,M.barkeri和C.purinilyticum的NifB。一些NifX多肽在数据库中注释为NifY,反之亦然。天然存在的NifX多肽是单独产生的,而不是作为NifB多肽的一部分作为天然融合体产生的,通常长度为110-160个氨基酸,天然单体的分子量为约15kDa。已经鉴定了大量的NifX多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_049070199.1,与SEQ ID NO:14具有97%同一性)、产酸克雷伯氏杆菌(Klebsiella oxytoca,WP_064342937.1,97%同一性)、解鸟氨酸拉乌尔菌(Raoultellaornithinolytica,WP_044347173.1,91%同一性)、变栖克雷伯氏菌(Klebsiellavariicola,WP_044612922.1,83%同一性)、玉米联合固氮菌(Kosakonia radicincitans,WP_043953583.1,75%同一性)、菊欧文氏菌(Dickeya chrysanthemi,WP_039999416.1,68%同一性)、水生拉恩菌(Rahnella aquatilis,WP_047608097.1,58%同一性)、圆褐固氮菌(Azotobacter chroococcum,WP_039800848.1,34%同一性)、水节霉状贝日阿托氏菌(Beggiatoa leptomitiformis,WP_062149047.1,33%同一性)和Methyloversatilisdiscipulorum(WP_020165972.1,29%同一性)的NifX多肽。如本文所用,“功能性NifX多肽”是能够将FeMo-co前体从NifB转移到NifE-NifN的NifX多肽。NifX多肽已经在Allen等人(1994)和Shah等人(1999)中进行了描述和综述。
天然存在的细菌中的NifY多肽是参与FeMo-co合成的多肽,至少有助于将FeMo-co前体从NifB转移到NifE-NifN。如本文所用,“NifY多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:15所示的氨基酸序列至少具有34%同一性并且包括保守结构域TIGR02663和cd00853中的一个或两个。NifY包含在较大的铁-钼簇结合蛋白家族中,该家族包括NifB和NifX,其中NifX、NafY和NifB的C端区域都包含pfam02579结构域,并且每一个都参与FeMo-co的合成。已经鉴定了大量的NifY多肽,并且在公共数据库中可以获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_049089500.1,与SEQ ID NO:15具有99%同一性)、产酸克雷伯氏杆菌(Klebsiellaoxytoca,WP_064342935.1,98%同一性)、类肺炎克雷伯氏菌(Klebsiellaquasipneumoniae,WP_044524054.1,90%同一性)、变栖克雷伯氏菌(Klebsiellavariicola,WP_049010739.1,81%同一性)、中间克吕沃尔菌(Kluyvera intermedia,WP_047370270.1,69%同一性)、菊欧文氏菌(Dickeya chrysanthemi,WP_039999411.1,62%同一性)、Serratia sp.ATCC 39006(WP_037382461.1,57%同一性)、水生拉恩菌(Rahnellaaquatilis,WP_014683024.1,47%同一性)、恶臭假单胞菌(Pseudomonas putida,AEX25784.1,37%同一性)和棕色固氮菌(Azotobacter vinelandii,WP_012698835.1,34%同一性)的NifY多肽。如本文所用,“功能性NifY多肽”是能够将FeMo-co前体从NifB转移到NifE-NifN的NifY多肽。
当从产酸克雷伯氏杆菌或棕色固氮菌的NifB或NifN-NifE突变株中分离时,apo-NifD-NifK与称为γ蛋白的附加多肽相关(Paustian等人,1990;Homer等人,1993),与NifD和NifK多肽形成异六聚体(α2β2γ2)。在产酸克雷伯氏杆菌中,第三种多肽由NifY基因编码(Homer等人,1993),且向纯化的异六聚体α2β2γ2复合物中加入纯化的FeMo-co足以产生具有催化活性的固氮酶。FeMo-co的加入导致NifY从复合物中解离并形成全酶(α2β2)。在棕色固氮菌中,第三种多肽由NafY基因(固氮酶相关因子Y;登录号AGK13761,Rubio等人,2002)编码,该基因是不同的但与棕色固氮菌中NifY基因的产物(登录号AGK13792)相关。每种情况下的第三种多肽被认为参与辅助FeMo-co插入以形成活性酶。这得到NafY和NifY结合FeMo-co能力的支持(Homer等人,1995)。
在NifD-NifK全酶成熟的不同阶段,棕色固氮菌NifY和NafY与apo-NifD-NifK结合,与NifD的α-Cys275或α-His442结合,其两个氨基酸残基共价锚定FeMo-co(Jimenez-Vincente等人,2018)。即,NifY和NafY不同时结合到apo-NifD-NifK。NifY和NafY与apo-NifD-NifK的结合顺序目前是未知的。已经证明了产酸克雷伯氏杆菌固氮酶NifY在FeMo-Co插入时从NifD-NifK中解离(Homer等人,1993),以及棕色固氮菌NafY在FeMo-Co插入时从NifD-NifK中解离(Homer等人,1995)。NafY也被认为通过His121和可能的NifB-co结合FeMo-co,提示其作为FeMo-co或FeMo-co前体插入酶的作用(Rubio等人,2004)。由于ΔnifY突变体中缺乏表型,棕色固氮菌NifY似乎在功能上是多余的(Rubio等人,2002),并且NafY被认为是apo-NifD-NifK的主要辅助蛋白,其支持FeMo-co插入。另一方面,克雷伯氏菌属物种不具有NafY基因,且仅具有NifY基因以支持将FeMo-co插入apo-NifD-NifK,尽管克雷伯氏菌属ΔnifY突变体仍保留60%的乙炔还原活性(Homer等人,1993)。这种功能的保留表明在克雷伯氏菌属中存在另一种在其缺失时可以部分地覆盖NifY功能的辅助蛋白,例如如上所述的NifX。
如本文所用,“NafY多肽”是指包含下述氨基酸的多肽,该氨基酸的序列沿其全长与SEQ ID NO:238提供的序列(棕色固氮菌NafY,登录号AGK13761,243aa)具有至少50%同一性,并且该多肽包含保守结构域pfam16844。发现该长度为约91个氨基酸残基的结构域独立地存在于在一些成员中和较长NafY蛋白的氨基端一半中。该区域是带负电荷的,似乎具有识别apo-NifD-NifK并与之相互作用的功能。天然存在的NafY多肽通常长度为230-250个氨基酸,天然单体分子量为约25-28kDa。已经鉴定了大量的NafY多肽,并且在公众可获得的数据库中可获得许多序列。由于NafY和NifX序列的相关性,一些已被注释为NifX多肽。例如,已经报道了来自拜氏固氮菌(Azotobacter beijerinckii,WP_090728988,与SEQ IDNO:238具有93%同一性)、施氏假单胞菌(Pseudomonas stutzeri,WP_011912501,69%同一性)、Halomonas endophytica(WP_102654474,68%同一性)、Pseudomonas linyingensis(WP_090313081,67%同一性)、Acidihalobacter prosperus(WP_038093031,56%同一性)、Oscillatoriales cyanobacterium(WP_009769409,50%同一性)的NafY多肽。如本文所用,“功能性NafY多肽”是能够结合apo-NifD-NifK和FeMo-co的NafY多肽。Dyer等人(2003)报道了来自棕色固氮菌的NafY多肽的三维结构以及NafY和NifY、NifX、VnfX和NifB多肽序列的比较和区别。
天然存在的细菌中的NifZ多肽是参与Fe-S簇合成的多肽,特别是在MoFe蛋白质的第二个P簇形成中第二个Fe4S4对的偶联中起作用。NifZ被认为是作为一种分子伴侣起作用,其诱导apo-MoFe蛋白的至少后半段的构象变化,从而允许与NifH一起形成第二个P簇。删除棕色固氮菌中的NifZ使MoFe蛋白活性降低了66%,但对NifH活性没有影响。如本文所用,“NifZ多肽”是指包括氨基酸的多肽,氨基酸的序列与SEQ ID NO:16所示的序列至少具有28%同一性并且包括保守结构域pfam04319。发现该约75个氨基酸残基的结构域独立地存在于在一些成员中和较长NifZ蛋白的氨基端一半中。天然存在的NifZ多肽通常长度为70-150个氨基酸,并且天然单体分子量NafY约9-约16kDa。已经鉴定了大量的NifZ多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道了来自密歇根克雷伯氏菌(Klebsiella michiganensis,登录号WP_057173223.1,与SEQ ID NO:16具有93%同一性)、产酸克雷伯氏杆菌(Klebsiella oxytoca,WP_064342939.1,95%同一性)、变栖克雷伯氏菌(Klebsiella variicola,WP_043875005.1,77%同一性)、玉米联合固氮菌(Kosakoniaradicincitans,WP_043953588.1,67%同一性)、Kosakonia sacchari(WP_065368553.1,58%同一性)、Ferriphaselus amnicola(WP_062627625.1,47%同一性)、Paraburkholderia xenovorans(WP_011491838.1,41%同一性)、Acidithiobacillusferrivorans(WP_014029050.1,35%同一性)和Bradyrhizobium oligotrophicum(WP_015665422.1,28%同一性)的NifZ多肽。如本文所用,“功能性NifZ多肽”是能够在Fe-S簇合成中偶联Fe4S4簇的NifZ多肽。NifZ多肽已经在Cotton(2009)和Hu等人(2004)中进行了描述和综述。
天然存在的细菌中的NifW多肽是与NifZ多肽缔合形成更高级复合物的多肽(Lee等人,1998),并参与MoFe蛋白(NifD-NifK)合成或活性。NifW和NifZ似乎参与MoFe蛋白的形成或累积(Paul和Merrick,1987)。如本文所用,“NifW多肽”是指这样的多肽,其氨基酸序列包括其序列与SEQ ID NO:17所示的氨基酸序列至少具有28%同一性的氨基酸,并且其包括保守的NifW超家族蛋白结构域,结构ID号10505077,并且在P家族PF03206中。已经鉴定了多种NifW多肽,并且在公众可获得的数据库中可获得许多序列。例如,已经报道来自产酸克雷伯氏杆菌(Klebsiella oxytoca,登录号WP_064342938.1,与SEQ ID NO:17具有98%同一性)、密歇根克雷伯氏菌(Klebsiella michiganensis,WP_049080155.1,94%同一性)、Enterobacter sp.10-1(肠杆菌属10-1,WP_095103586.1,90%同一性)、类肺炎克雷伯菌(Klebsiella quasipneumoniae,WP_065877373.1,81%同一性)、Pectobacterium polaris(WP_095699971.1,69%同一性)、菊欧文氏杆菌香蕉致病变种(Dickeya paradisiaca,WP_012764136.1,58%同一性)、Brenneria goodwinii(WP_053085547.1,36%同一性)、水螺菌属LM1(Aquaspirillum sp.LM1,WP_077299824.1,44%同一性)、CandidatusMuproteobacteria bacterium RBG_16_64_10(OGI40729,34%同一性)、棕色固氮菌(Azotobacter vinelandii,ACO76430.1,32%同一性)和Methylocaldum marinum(BBA37427.1,28%同一性)的NifW多肽。如本文所用,“功能性NifW多肽”是促进或增强MoFe蛋白的一种或多种形成、累积或活性的NifW多肽。功能性NifW可以与NifZ相互作用和/或在MoFe蛋白的氧保护中起作用(Gavini等人,1998)。
包括细菌和真核生物如植物在内的大多数生物体都具有许多铁氧化还原蛋白。例如,在棕色固氮菌DJ和CA基因组中,分别有15或16种蛋白被注释为铁氧化还原蛋白或铁氧化还原蛋白样。如本文所用,“铁氧化还原蛋白多肽”是具有形成它们的反应中心的[2Fe-2S]、[3Fe-4S]和/或[4Fe-4S]类型的一个或两个铁硫簇的电子载体蛋白,参见Matsubara和Saeki(1992)的综述。它们参与各种代谢过程,包括参与固氮作用的铁氧化还原蛋白多肽,通常具有比不参与固氮酶的那些更低的分子量。基于大多数细胞中铁氧化还原蛋白的广泛多样性以及在若干研究中观察到的不同铁氧化还原蛋白在补充FdxN对NifB-co合成的功能中的相容性或特异性的变化(Yates,1972;Jimenez-Vincente等人,2014),包括诸如FdxN的铁氧化还原蛋白是基于铁硫簇的存在及其功能而不是基于与诸如棕色固氮菌FdxN的标准序列(SEQ ID NO:232;
登录号P_012703542)的氨基酸同一性来最佳定义的。如本文所用,“FdxN多肽”是铁氧化还原蛋白或铁氧化还原蛋白样多肽,其功能是为成熟的固二氮酶NifH和/或为固氮酶的NifB-co合成提供电子和/或作为[4Fe-4S]簇的中间载体。FdxN可通过向成熟的固二氮酶还原酶NifH提供电子而起作用,NifH随后将电子转移至NifD-NifK异六聚体(参见Yang等人,2017;大豆根瘤菌FdxN,Carter等人,1980;苜蓿根瘤菌FdxN,Riedel等人,1995;荚膜红细菌FdxN,Jouanneau等人,1995),或向NifB多肽提供电子用于NifB合成(棕色固氮菌:Jimenez-Vincente等人,2014),或作为[4Fe-4S]簇的中间载体(棕色固氮菌:Burén等人,2019),或任何这些功能的组合。
FdxN多肽的代表性实例包括通过使用SEQ ID NO:232作为BLASTP中的查询搜索非冗余蛋白质数据库并显示与该序列的百分比同一性而鉴定的以下多肽:丁香假单胞菌(Pseudomonas syringae,WP_065835964.1,85.87%)、Candidatus Thiodiazotrophaendolucinida(WP_069124666.1,70.65%)、Uliginosibacterium sp.TH139(WP_101942980,64.47%)、密歇根克雷伯氏菌(WP_049076934.1,44.26%)、大肠杆菌(WP_072048756.1,44.26%)、豆科根瘤菌(WP_130674512.1,43.86%)和阿尔维黄杆菌(WP_103805005.1,28.57%)。
序列同一性和置换
关于定义的多肽,应当理解,高于以上提供的那些的%同一性数字将包括优选的实施方案。因此,在适用时,根据最小%同一性数字,优选多肽包括至少30%、更优选至少35%、更优选至少40%、更优选至少45%、更优选至少50%、更优选至少55%、更优选至少60%、更优选至少65%、更优选至少70%、更优选至少75%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少91%、更优选至少92%、更优选至少93%、更优选至少94%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、更优选至少99%、更优选至少99.1%、更优选至少99.2%、更优选至少99.3%、更优选至少99.4%、更优选至少99.5%、更优选至少99.6%、更优选至少99.7%、更优选至少99.8%、甚至更优选与相关命名的SEQ ID NO至少具有99.9%同一性的氨基酸序列。
本文定义的多肽的氨基酸序列突变体可以通过向本文定义的核酸中引入适当的核苷酸变化,或通过所需多肽的体外合成来制备。这样的突变体包括例如一个或多个氨基酸缺失、插入或置换置换。可以进行缺失、插入和置换突变的组合以获得最终的构建体,条件是最终的多肽产物具有所需的特征。优选的氨基酸序列突变体相对于参照野生型多肽仅有一个、两个、三个、四个或少于10个氨基酸的变化。
突变体(改变的)多肽可使用本领域已知的任何技术制备,例如使用定向进化或合理设计策略(参见下文)。可以使用本文描述的技术容易地筛选来源于突变/改变的DNA的产物,以确定它们在植物中的表达是否相对于相应的野生型植物改变了其表型,例如,如果它们的表达导致相对于相应的野生型植物在产量、生物质、生长速率、活力、来源于生物固氮的氮增益、氮利用效率、非生物胁迫抗性和/或对营养缺乏的耐受性等方面有所增加。
在设计氨基酸序列突变体时,突变位点的位置和突变的性质将取决于待修饰的特征。突变位点可以单独或串联修饰,例如,通过(1)首先用保守的氨基酸选择置换,然后根据获得的结果用更多的自由基选择置换,(2)删除目标残基或(3)插入邻近定位位点的其他残基。
氨基酸序列缺失通常为约1至15个残基,更优选约1至10个残基,通常约1至5个连续残基。
置换突变体使多肽分子中的至少一个氨基酸残基被去除,并在其位置插入不同的残基。当需要维持某种活性时,优选在相关蛋白家族中高度保守的氨基酸位置不进行或仅进行保守性置换。保守性置换的实例示于表1的“示例性置换”标题下。
在优选的实施方案中,突变体/变异体多肽与天然存在的多肽相比具有一个或两个或三个或四个保守氨基酸改变。表1提供了保守氨基酸改变的细节。在优选的实施方案中,在本发明不同多肽之间高度保守的一个或多个基序或结构域中没有改变。本领域技术人员将意识到,当在重组细胞中表达时,可以合理地预测这种微小变化不会改变多肽的活性。
表1示例性置换
Figure BDA0003343176700000531
Figure BDA0003343176700000541
基于与密切相关多肽的比较,本发明多肽的一级氨基酸序列可用于设计其变异体/突变体。如本领域技术人员将理解的,紧密相关的蛋白中高度保守的残基不太可能被改变,尤其是非保守性置换,并且活性保持低于较不保守的残基(参见上文)。鉴定保守氨基酸残基更严格的测试是比对具有相同功能的关系更远的多肽。应该保持高度保守的残基以保持功能,而非保守的残基更易于在保持功能的同时进行置换或缺失。
也包括在本发明范围内的是本发明的多肽,其在细胞中合成期间或之后被差异修饰,例如通过糖基化、乙酰化、磷酸化或蛋白水解切割。
合理设计
可以在已知蛋白结构和折叠信息的基础上合理设计蛋白。这可以通过从头设计(从新设计)或通过基于天然支架的重新设计(参见例如Hellinga,1997;和Lu和Berry的《蛋白质手册2:蛋白质结构设计与工程》(Protein Structure Design and Engineering,Handbook of Proteins 2),1153-1157(2007))。参见例如本文的实施例10。蛋白设计通常涉及识别折叠成给定或目标结构的序列,并且可以使用计算机模型完成。计算蛋白质设计算法在序列构象空间中搜索折叠到目标结构时能量较低的序列。计算蛋白设计算法使用蛋白能量学模型来评估突变如何影响蛋白的结构和功能。这些能量函数通常包括分子力学、统计学(即基于知识)和其他经验项的组合。合适的可用软件包括IPRO(迭代蛋白重新设计和优化)、EGAD(用于蛋白设计的遗传算法)、Rosetta Design、Sharpen和Abalone。
接头
本文在多肽的上下文中使用的术语“接头(linker)”或“寡肽接头”是指共价连接两个或多个功能域,例如MTP和NP、两种NP、NP和标签的一个或多个氨基酸。氨基酸通过肽键共价连接,既在接头内也在接头和功能域之间。接头可以提供一个功能域相对于另一个功能域的自由移动,而不会对两个或更多个功能域的功能造成显著的有害影响。接头可以帮助促进一个或两个功能域的适当折叠和功能。本领域技术人员将理解接头的大小可以凭经验确定或可以基于蛋白折叠信息建模。
接头可包括蛋白酶如MPP的切割位点。这种接头也可以被认为是MTP的一部分。
本领域技术人员将理解MTP的C端可以在没有接头的情况下或通过一个或多个氨基酸残基(例如1-5个氨基酸残基)的接头与NP的N端氨基酸翻译融合。这种接头也可以被认为是MTP的一部分。
在实施方案中,接头包括至少1个氨基酸、至少2个氨基酸、至少3个氨基酸、至少4个氨基酸、至少5个氨基酸、至少6个氨基酸、至少7个氨基酸、至少8个氨基酸、至少9个氨基酸、至少10个氨基酸、至少12个氨基酸、至少14个氨基酸、至少16个氨基酸、至少18个氨基酸、至少20个氨基酸、至少25个氨基酸、至少30个氨基酸、至少35个氨基酸、至少40个氨基酸、至少45个氨基酸、至少50个氨基酸、至少60个氨基酸、至少70个氨基酸、至少80个氨基酸、至少90个氨基酸、或约100个氨基酸。在实施方案中,接头的最大长度是100个氨基酸,优选60个氨基酸,更优选40个氨基酸。
在一些实施方案中,接头允许一个功能域相对于另一个功能域移动以增加融合多肽的稳定性。如果需要,接头可以包括聚甘氨酸的重复或甘氨酸、脯氨酸和丙氨酸残基的组合。
用于连接两个Nif多肽(例如NifD-接头-NifK和NifE-接头-NifN)的接头优选地基于几个标准来选择接头中氨基酸的数量和序列。这些是:缺少半胱氨酸残基以避免形成不需要的二硫键,很少或优选没有带电荷的残基(Glu、Asp、Arg、Lys)以降低不需要的表面盐桥相互作用的可能性,很少或没有疏水残基(Phe、Trp、Tyr、Met、Val、Ile、Leu),因为这些残基可以促进穿透多肽表面的倾向。并且缺乏可翻译后修饰的氨基酸。在本文中,“少数带电残基”是指少于接头中氨基酸残基的10%,“少数疏水残基”是指少于接头中氨基酸残基的15%。
在一个实施方案中,接头不包括半胱氨酸残基。
在一个实施方案中,接头包括四个、三个或两个、或一个、或不包括带电残基。优选地,接头总共包括四个、三个或两个、或一个、或不包括谷氨酸、天冬氨酸、精氨酸和赖氨酸残基。
在一个实施方案中,接头包括四个、三个或两个、或一个或不包括疏水残基。优选地,接头总共包括四个、三个或两个、或一个或不包括苯丙氨酸、色氨酸、酪氨酸、甲硫氨酸、缬氨酸、异亮氨酸和亮氨酸残基。
在一个实施方案中,至少70%、或至少80%、或至少90%的接头包括选自苏氨酸、丝氨酸、甘氨酸和丙氨酸的残基。
寡肽接头在修饰多肽中的应用综述于Chen等人(2013)和Zhang等人(2009)。
标签
在一个特定的实施方案中,融合多肽包括至少一个适于检测或纯化融合多肽或其加工产物的标签(tag)。标签通常与融合多肽的C端或N端结构域结合。在一个优选的实施方案中,标签与Nif多肽的C端结合。标签通常是能够以高亲和力与一个或多个配体,例如亲和基质(例如色谱支持物(support)或珠子(bead))的一个或多个配体,或抗体结合的肽或氨基酸序列。本领域技术人员将理解,一旦MTP在导入线粒体后被切除,标签优选位于融合蛋白中不导致标签从NP去除的位置。此外,标签不应干扰线粒体导入机制。在优选的实施方案中,本发明的多核苷酸编码融合多肽,该融合多肽以N端到C端顺序包括N端MTP、Nif多肽和检测/纯化标签。在另一个实施方案中,融合多肽以N端到C端的顺序包括N端MTP、检测/纯化标签和Nif多肽。
用于检测、分离或纯化融合多肽或其加工产物的标签的其他说明性、非限制性实例包括人流感血凝素(HA)标签、包括例如6或8个组氨酸残基的组氨酸标签、如荧光素的荧光标签、试卤灵(resourfin)和其衍生物、Arg-标签、FLAG-标签、Strep-标签、能够被抗体识别的表位,例如c-myc-标签(被抗c-myc抗体识别)、SBP-标签、S-标签、钙调蛋白结合肽、纤维素结合结构域、几丁质结合结构域、谷胱甘肽S-转移酶-标签、麦芽糖结合蛋白、NusA、TrxA、DsbA、Avi标签等。
涉及Nif多肽的翻译融合
如科学文献中报道的,已经对几种Nif多肽进行了翻译融合。这些总结于表2以及Burén和Rubio(2018)的综述中。它们中的大多数涉及为了检测和纯化的目的向蛋白中人工添加表位或结合结构域,例如组氨酸标签或Strep标签,并且仅有一些已在植物细胞中表达。有一些关于细菌中Nif多肽之间天然存在的融合的报道。对于细菌宿主中的测定,将不同长度的His标签(7-10个组氨酸)加入到NifD(Christiansen等人,1998)、NifE(Goodwin等人,1998)、NifM(Gavini等人,2006)以及NifB的全长和截短版本(Fay等人,2015)中。在每种情况下,经修饰的Nif多肽都保留Nif功能,如在细菌或体外固氮酶重建试验中所证实的。
表2文献报道的Nif多肽的基因融合概述
Figure BDA0003343176700000551
Figure BDA0003343176700000561
Thiel等人(1995)在蓝藻多变鱼腥藻(Anabaena variabilis)中发现了29个核苷酸的天然缺失,并因此缺失了NifE和NifN基因之间的基因间隔区的9个氨基酸和NifE终止密码子。缺失导致NifE-NifN多肽融合,其保留了NifE和NifN多肽的至少一些固氮酶功能。NifE-NifN融合多肽在融合连接区也具有19个其他氨基酸置换,其可能影响Nif功能但方式未知。该融合基因仅在严格厌氧条件下表达。没有报道相对于未融合基因活性是否降低。
Suh等人(2003)通过包括NifD的终止密码子和NifK的翻译起始密码子(ATG)的缺失,在棕色固氮菌的染色体的NifD和NifK基因之间建立了人工连接,形成了名为pBG1404的载体。缺失导致NifK多肽的氨基酸2-10中3个氨基酸和7个氨基酸置换的净损失。相对于相应的野生型细菌,含有pBG1404的棕色固氮菌宿主细胞在低氮培养基中的生长受到损害。
Wiig等人(2011)使用在巴氏梭菌(Clostridium pastuerianum)中发现的NifN和NifB基因之间天然存在的翻译融合,并确定其在细菌和生化互补试验中具有NifN和NifB活性的功能。这种融合是直接的,没有任何肽接头,即NifN的C端直接共价连接到NifB的N端。
在酵母和植物细胞中,已经使用翻译融合将细胞核中编码的蛋白导向线粒体基质。在酵母表达测定中,线粒体靶向肽(MTP)和一些Nif多肽(NifH、NifM、NifS和NifU)的翻译融合在有氧条件下生长时显示出功能(Lopez-Torrrjon等人,2016)。表位融合多肽(FLAG和HIS)在与NifH、NifM、NifS和NifU融合时也显示出功能,尽管这些融合多肽旨在定位于酵母细胞质内,并且仅在酵母在厌氧条件下生长时才有功能。Burén等人(2017b)表明,当从酵母的线粒体中重新分离时,NifB可溶性变异体的线粒体基质靶向版本在体外互补试验中具有功能。NifB的这种版本包括N端MTP、NifB的截短变异体(没有NifX样结构域)和C端10×His表位标签。在酵母表达测定中也产生大量MTP-Nif融合。然而,这种共表达蛋白的大量集合在酵母中没有显示活性(Burén等人,2017b)。
将来自CPN-60基因的MTP融合到NifH、NifM、NifS和NifU的N端,并通过体外互补试验证明,当从在氧张力降低的10%氧下生长的植物中重新分离铁蛋白时,该基因具有功能(US2016/0304842)。
多核苷酸
术语“多核苷酸”和“核酸”在本文种可互换使用。它们是指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸,或其类似物。本文定义的多核苷酸可以是基因组、cDNA、半合成或合成来源、单链或优选双链的并且由于其来源或操作:(1)与天然与其缔合的多核苷酸(例如,不包括天然启动子编码序列的Nif多核苷酸)的全部或部分不缔合,(2)连接到天然与其连接的多核苷酸以外的多核苷酸(例如,连接到MTP编码核苷酸序列和/或非天然启动子编码序列的Nif多核苷酸),或(3)天然不存在(例如,本发明的编码MTP-Nif融合多肽的多核苷酸)。以下是多核苷酸的非限制性实例:基因或基因片段的编码或非编码区,由接头分析定义的多个基因座(单个基因座)、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、任何序列的嵌合DNA、核酸探针和引物。多核苷酸可以包括修饰的核苷酸如甲基化核苷酸和核苷酸类似物。如果存在,可以在组装聚合物之前或之后对核苷酸结构进行修饰。核苷酸序列可以被非核苷酸组件中断。多核苷酸可以在聚合后进一步修饰,例如通过与标签组件结合。
“分离的多核苷酸”基本上不含通常与多核苷酸连接的组件(例如调节序列)或缔合的组件。因此,当通过重组技术生产时,分离的多核苷酸基本上不含其他细胞物质或培养基,或者当化学合成时,基本上不含化学前体或其他化学物质。优选地,分离的多核苷酸至少60%、更优选至少75%、更优选至少90%不含所述组件。
如本文所用,短语“外源多核苷酸”是指具有源自外源多核苷酸存在于其中的细胞或生物体外部的序列的多核苷酸。
如本文所用,术语“基因”以其最广泛的上下文来理解,并且包括脱氧核糖核苷酸序列,该脱氧核糖核苷酸序列包括结构基因的转录区和(如果翻译的话)蛋白编码区,并且包括位于5'和3'端上的编码区相邻的序列,在两端至少约2kb的距离,并且参与该基因的表达。在这点上,基因包括控制信号,例如与给定基因天然相关的启动子、增强子、翻译和转录终止和/或聚腺苷酸化信号、或异源控制信号,在这种情况下,基因被称为“嵌合基因”。位于蛋白编码区5'并存在于mRNA上的序列称为5'非翻译序列。位于蛋白编码区3'或下游并存在于mRNA上的序列称为3'非翻译序列。术语“基因”包括基因的cDNA和基因组形式。基因的基因组形式或克隆含有可被称为“内含子”、“间隔区”或“间隔序列”的非编码序列中断的编码区。内含子是转录成核RNA(nRNA)的基因片段。内含子可以含有调节元件如增强子。从细胞核或初级转录物中除去或“剪接出”内含子;因此,在mRNA转录物中不存在内含子。mRNA在翻译过程中起作用以确定新生多肽中氨基酸的序列或顺序。术语“基因”包括编码本文所述的本发明的全部或部分蛋白的合成或融合分子和与上述任一种互补的核苷酸序列。
如本文所用,“嵌合DNA(chimeric DNA)”,在本文中也称为“DNA构建体”,是指不是天然存在的,而是人工地将两个DNA部分连接到单个分子中的任何DNA分子,单个分子的每个部分可以天然存在,但整体天然不存在。例如,编码本发明MTP-Nif融合多肽的DNA构建体。通常,嵌合DNA包括本质上非天然存在的调节和转录或蛋白编码序列(例如,与非天然启动子编码序列连接的Nif多核苷酸)。因此,嵌合DNA可包括来源于不同来源的调节序列和编码序列,或来源于相同来源但以不同于天然存在的方式排列的调节序列和编码序列。开放阅读框可以或可以不与其天然的上游和下游调控元件连接。开放阅读框可以掺入到,例如,植物基因组中、非天然位置、或非天然发现的复制子或载体中,如细菌质粒或病毒载体。术语“嵌合DNA”不限于可在宿主中复制的DNA分子,而是包括能够通过例如特异性连接体序列连接到复制子中的DNA。
“转基因(transgene)”是通过转化方法引入基因组的基因。术语包括引入其祖细胞基因组的子代细胞、植物、种子、非人生物体或其部分中的基因。这样的子代细胞等可以是来自初级转化细胞的祖细胞的至少第3或第4代子代。子代可以通过有性繁殖或营养性繁殖产生,例如来自马铃薯中的块茎或甘蔗中的截根苗。术语“基因修饰的(geneticallymodified)”及其变异是更广泛的术语,包括通过转化或转导将基因引入细胞,突变细胞中的基因并遗传改变或调节细胞或如上所述修饰的任何细胞的子代中基因的调节。
本文所用的“基因组区(genomic region)”是指基因组内转基因或转基因组(本文也称为簇)已插入细胞或其前体的位置。这些区域仅包括已通过人的介入(例如通过本文所述的方法)掺入的核苷酸。
本发明的“重组多核苷酸(recombinant polynucleotide)”是指通过人工重组方法构建或修饰的核酸分子。与其天然状态相比,重组多核苷酸可以以改变的量存在于细胞中或以改变的速率(例如,在mRNA的情况下)表达。在一个实施方案中,将多核苷酸引入不天然包括多核苷酸的细胞中。通常,外源DNA用作mRNA转录的模板,然后在转化细胞内将mRNA翻译成编码本发明多肽的氨基酸残基的连续序列。在另一个实施方案中,多核苷酸对于细菌细胞是内源的,并且其表达通过重组方式改变,例如,将外源控制序列引入目的内源基因的上游,以使转化细胞能够表达由该基因编码的多肽。
本发明的重组多核苷酸包括未从其所在的基于细胞或无细胞表达系统的其他组件中分离出来的多核苷酸,以及在所述基于细胞或无细胞系统中生成的多核苷酸,其随后从至少某些其他组件中纯化。多核苷酸可以是天然存在的连续核苷酸片段(例如Nif多核苷酸),或包括来自不同来源(天然存在的和/或合成的)的两个或更多个连续核苷酸片段,其连接形成单个多核苷酸(例如与MTP编码核苷酸序列和/或非天然启动子编码序列连接的Nif多核苷酸)。通常,这样的嵌合多核苷酸包括至少一个编码本发明多肽的开放阅读框,该开放阅读框与适合于驱动该开放阅读框在目的细胞中转录的启动子可操作地连接。关于本文的“启动子”包括单个启动子或多个启动子。
关于定义的多核苷酸,应当理解,高于以上提供的那些的%同一性数字将包括优选的实施方案。因此,在适用时,根据最小%同一性数字,优选多核苷酸包括至少60%、更优选至少65%、更优选至少70%、更优选至少75%、更优选至少80%、更优选至少85%、更优选至少90%、更优选至少91%、更优选至少92%、更优选至少93%、更优选至少94%、更优选至少95%、更优选至少96%、更优选至少97%、更优选至少98%、更优选至少99%、更优选至少99.1%、更优选至少99.2%、更优选至少99.3%、更优选至少99.4%、更优选至少99.5%、更优选至少99.6%、更优选至少99.7%、更优选至少99.8%、甚至更优选与相关命名的SEQ IDNO具有至少99.9%同一性的多核苷酸序列。
本发明的或对本发明有用的多核苷酸可以在严格的条件下选择性地与本文定义的多核苷酸杂交。本文所用的严格条件是:(1)在杂交过程中使用甲酰胺等变性剂,例如:50%(v/v)甲酰胺加0.1%(w/v)牛血清白蛋白,0.1%菲可(Ficoll),0.1%聚乙烯吡咯烷酮,42℃下pH为6.5的50mM磷酸钠缓冲液,含750mM NaCl和75mM柠檬酸钠;或(2)使用50%甲酰胺,5×SSC(0.75M NaCl,0.075M柠檬酸钠),50mM磷酸钠(pH6.8),0.1%焦磷酸钠,5×Denhardt's溶液,42℃下在0.2×SSC和0.1%SDS中超声处理的鲑鱼精DNA(50g/mL)、0.1%SDS和10%葡聚糖硫酸酯;和/或(3)使用低离子强度和高温洗涤,例如50℃下0.015M NaCl/0.0015M柠檬酸钠/0.1%SDS。
与天然存在的分子相比,本发明的多核苷酸可以具有一个或多个突变,该突变是核苷酸残基的缺失、插入或置换。相对于参考序列具有突变的多核苷酸可以是天然存在的(即,从天然来源分离)或合成的(例如,通过如上所述对核酸进行定点诱变或DNA改组)。
可以对本发明的多核苷酸进行密码子修饰以在植物细胞中表达。本领域技术人员将理解,蛋白编码区可以相对于例如固氮细菌中天然存在的多核苷酸的编码区进行密码子优化。
核酸构建体
本发明包括含有一种或多种本发明多核苷酸的核酸构建体,含有这些的载体和宿主细胞,它们的生产和使用的方法,以及它们的用途。本发明涉及可操作地连接或连接的元件。“可操作地连接(operably connected或operably linked)”等是指功能关系的多核苷酸元件接头。通常,可操作连接的核酸序列是连续连接的,并且当需要连结两个蛋白编码区时,是连续的并且在阅读框中。当RNA聚合酶将两个编码序列转录成单个RNA时,编码序列“可操作地连接至”另一编码序列,如果被翻译,则单个RNA被翻译成具有衍生自两个编码序列的氨基酸的单个多肽。编码序列不必彼此邻接,只要所表达的序列最终被加工以产生所需蛋白即可。
如本文所用,术语“顺式作用序列”、“顺式作用元件”或“顺式调节区”或“调节区”或类似术语应理解为意指核苷酸的任何序列,当相对于可表达的遗传序列适当地定位和连接时,其能够至少部分地调节遗传序列的表达。本领域技术人员将意识到顺式调节区能够在转录或转录后水平激活、沉默、增强、阻遏或改变基因序列的表达水平和/或细胞类型特异性和/或发育特异性。在本发明的优选实施方案中,顺式作用序列是增强或刺激可表达遗传序列表达的激活物序列。
“可操作地连接”启动子或增强子元件与可转录的多核苷酸是指将可转录的多核苷酸(例如,编码蛋白的多核苷酸或其他转录物)置于启动子的调控之下,然后启动子控制多核苷酸的转录。在异源启动子/结构基因组合的构建中,通常优选将启动子或其变异体定位于距可转录多核苷酸的转录起始位点的距离,该距离与该启动子和它在其天然环境中控制的蛋白编码区之间的距离大致相同;即,衍生启动子的基因。如本领域已知的,可以在不损失功能的情况下适应该距离的一些变化。类似地,调节序列元件(例如,操纵子、增强子等)相对于置于其控制之下的可转录多核苷酸的优选定位由元件在其天然环境中的定位来定义;即,衍生它的基因。
本文所用的“启动子”或“启动子序列”是指基因的区域,通常为RNA编码区的上游(5'),其控制目的细胞中转录的起始和水平。“启动子”包括经典基因组基因的转录调节序列,如TATA盒和CCAAT盒序列,以及响应发育和/或环境刺激或以组织特异性或细胞类型特异性方式改变基因表达的附加调节元件(即上游活化序列、增强子和沉默子)。启动子通常,但不是必须的(例如,一些PolIII启动子),位于结构基因的上游,其调节其表达。此外,包括启动子的调节元件通常位于基因转录起始位点的2kb内。启动子可以含有附加的特异性调节元件,其位于离起始位点更远的位置以进一步增强细胞中的表达,和/或改变与其可操作地连接的结构基因的表达的时间或诱导性。
“组成型启动子”是指指导可操作地连接的转录序列在生物体如植物的许多或所有组织中表达的启动子。本文所用的术语“组成型”不一定表示基因在所有细胞类型中以相同水平表达,而是该基因在广泛的细胞类型中表达,尽管水平上的一些变化通常是可检测的。本文所用的“选择性表达”是指几乎排他地在例如植物的特定器官中表达,例如胚乳、胚、叶片、果实、块茎或根。在优选的实施方案中,启动子选择性地或优先地在植物,优选谷类植物的根、叶片和/或茎中表达。因此,选择性表达可以与组成型表达形成对比,组成型表达是指在植物经历的大多数或所有条件下在植物的许多或所有组织中的表达。
选择性表达也可导致特定植物组织、器官或发育阶段中基因表达产物的区室化。在特定亚细胞定位例如质体、胞质溶胶、液泡或质外体空间中的区室化可以通过在基因产物的结构中包括适当的信号来实现,例如,信号肽,用于转移到所需的细胞区室,或在半自主细胞器(质体和线粒体)的情况下,通过将转基因与适当的调节序列直接整合到细胞器基因组中。
“组织特异性启动子”或“器官特异性启动子”是相对于许多其他组织或器官优选在一个组织或器官中表达的启动子,优选大多数(如果不是所有)其他组织或器官在例如植物中表达。通常,启动子在特定组织或器官中的表达水平比其他组织或器官高10倍。
在一个实施方案中,启动子是茎特异性启动子、叶片特异性启动子或指导植物地上部分(至少茎和叶片)基因表达的启动子(绿色组织特异性启动子),例如核酮糖-1,5-二磷酸羧化酶加氧酶(RUBISCO)启动子。
茎特异性启动子的实例包括但不限于US 5,625,136描述的那些。
在一个实施方案中,启动子是根特异性启动子,根特异性启动子的实例包括但不限于酸性壳多糖酶基因的启动子和CaMV 35S启动子的特异性亚结构域。
本发明预期的启动子对于待转化的宿主植物可以是天然的,或者可以衍生自替代来源,其中该区域在宿主植物中是功能性的。其他来源包括农杆菌T-DNA基因,例如用于胭脂碱、章鱼碱、甘露氨酸或其他阿片启动子的生物合成的基因的启动子,组织特异性启动子(参见例如US 5,459,252和WO 91/13992);来自病毒(包括宿主特异性病毒)的启动子,或部分或全部合成的启动子。在单和双子叶片植物中有功能的许多启动子是本领域熟知的(参见例如Greve,1983;Salomon等人,1984;Garfinkel等人,1983;Barker等人,1983);包括从植物和病毒分离的各种启动子,例如花椰菜花叶病毒启动子(CaMV 35S,19S)。Medberry等人(1992,1993)、Sambrook等人(1989,同上)和US 5,164,316公开了评估启动子活性的非限制性方法。
或者或另外,启动子可以是诱导型启动子或发育调节型启动子,其能够驱动引入的多核苷酸在例如植物的适当发育阶段表达。可以使用的其他顺式作用序列包括转录和/或翻译增强子。增强子区域是本领域技术人员熟知的,并且可以包括ATG翻译起始密码子和相邻序列。当包括起始密码子时,起始密码子应与编码序列阅读框同相,其涉及外来或外源多核苷酸,以确保整个序列的翻译,如果要翻译的话。翻译起始区可由转录起始区的来源提供,或由外来或外源多核苷酸提供。该序列还可以来源于选择用于驱动转录的启动子的来源,并且可以被特异性修饰以增加mRNA的翻译。
本发明的核酸构建体可以包括约50-1,000个核苷酸碱基对的3'非翻译序列,其可以包括转录终止序列。3'非翻译序列可以含有转录终止信号,其可以包括或不包括聚腺苷酸化信号和能够影响mRNA加工的任何其他调节信号。聚腺苷酸化信号用于将聚腺苷酸段添加到mRNA前体的3'端。聚腺苷酸化信号通常通过存在与标准型5'AATAAA-3'的同源性而被识别,尽管变异并不少见。不包括聚腺苷酸化信号的转录终止序列包括PolI或PolIII聚合酶的终止子,其包括一组4个或更多个胸腺嘧啶的序列。合适的3'非翻译序列的实例是含有来自根癌农杆菌(Agrobacterium tumefaciens)的章鱼碱合酶(ocs)基因或胭脂碱合酶(nos)基因的聚腺苷酸化信号的3'转录非翻译区(Bevan等人,1983)。合适的3'非翻译序列也可以来源于植物基因,例如核酮糖-1,5-二磷酸羧化酶(ssRUBISCO)基因,尽管也可以使用本领域技术人员已知的其他3'元件。
由于插入转录起始位点和编码序列起点之间的DNA序列,即非翻译的5'前导序列(5'UTR),可以影响基因表达,如果它被翻译和转录,也可以使用特定的前导序列。合适的前导序列包括那些包括选择用于指导外来或内源DNA序列最佳表达的序列的前导序列。例如,这样的前导序列包括优选的共有序列,其可以增加或维持mRNA稳定性并防止翻译的不适当启动,例如Joshi(1987)所描述的那样。
载体(vector)
本发明包括载体用于操作或转移基因构建体的用途。载体是一种核酸分子,优选DNA分子,可用于人工携带外源遗传物质;进入另一个细胞,在那里它可以被复制或表达。含有外来DNA的载体称为“重组载体”。载体的实例包括但不限于质粒、病毒载体、粘粒、染色体外元件、微染色体、人工染色体。载体可包括转座元件。
载体优选是双链DNA并且含有一个或多个独特的限制性位点,并且能够在包括靶细胞或组织或祖细胞或其组织的确定的宿主细胞中自主复制,或者能够整合到确定宿主的基因组,优选核基因组中,使得克隆序列可再现。因此,载体可以是自主复制载体,即作为染色体外实体存在的载体,其复制独立于染色体复制,例如线性或闭合环状质粒、染色体外元件、微染色体或人工染色体。载体可以含有确保自我复制的任何手段。或者,载体可以是当引入细胞时整合到受体细胞基因组,优选核基因组中并与其整合的染色体一起复制的载体。载体系统可包括单一载体或质粒、两种或多种载体或质粒,它们一起含有待引入宿主细胞的总DNA、或转座子(transposon)。载体的选择通常取决于载体与载体将要引入的细胞的相容性。载体还可包括选择标志,例如抗生素抗性基因、除草剂抗性基因或其他可用于选择合适转化体的基因。这些基因的实例通常为本领域技术人员已知。
本发明的核酸构建体可以导入载体,如质粒。质粒载体通常包括提供原核和真核细胞中表达盒的容易选择、扩增和转化的附加核酸序列,例如pUC来源的载体、pSK来源的载体、pGEM来源的载体、pSP来源的载体、pBS来源的载体或含有一个或多个T-DNA区的二元载体。附加核酸序列包括复制起源,以提供载体的自主复制;可选择的标志基因,优选编码抗生素或抗除草剂性;独特的多个克隆位点,提供多个位点以插入核酸序列或核酸构建体中编码的基因;以及增强原核细胞和真核细胞(特别是植物细胞)转化的序列。
所谓“标志基因(marker gene)”是指将一种独特的表型转入表达该标志基因的细胞,从而使这种转化细胞能够与没有该标志物的细胞区分开来。可选择的标志基因促进了可以基于对选择剂(例如除草剂、抗生素、辐射、热或其他破坏未转化细胞的处理)的抗性来“选择”的性状。可筛选标志基因(或报告基因)促进了可以通过观察或测试,即通过“筛选”(例如,β-葡糖醛酸酶、荧光素酶GFP或未转化细胞中不存在的其他酶活性)鉴定的性状。标志基因和目的核苷酸序列不必连接。
为了便于鉴定转化体,核酸构建体理想地包括可选择的或可筛选的标志基因作为外来或外源多核苷酸,或除了外来或外源多核苷酸之外还包括可选择的或可筛选的标志基因。标志的实际选择并不重要,只要它与宿主细胞,优选植物宿主细胞组合是功能性的(即选择性的)。标志基因和外来或外源目的多核苷酸不必连接,因为例如US 4,399,216中描述的未连接基因的共转化也是植物转化的有效方法。
细菌选择性标志物的实例是促进抗生素抗性的标志物,例如氨苄青霉素、红霉素、氯霉素或四环素抗性,优选卡那霉素抗性。用于选择植物转化体的示例性可选择的标志包括但不限于编码潮霉素B抗性的hyg基因;促进卡那霉素、巴龙霉素、G418抗性的新霉素磷酸转移酶(nptII)基因;来自大鼠肝脏的促进对谷胱甘肽衍生的除草剂抗性的谷胱甘肽-S-转移酶基因,如例如EP 256223中描述;谷氨酰胺合酶基因,其在过表达时促进对谷氨酰胺合酶抑制剂如膦丝菌素的抗性,如例如WO 87/05327中描述;来自绿色产色链霉菌(Streptomyces viridochromogenes)的乙酰转移酶基因,其促进对选择性试剂膦丝菌素(phosphinothricin)的抗性,如例如EP 275957中描述;编码5-烯醇莽草酸酯-3-磷酸合酶(EPSPS)的基因,其促进对N-膦酰基甲基甘氨酸的抗性,如Hinchee等人(1988)描述。促进抗双丙氨酰膦抗性的bar基因,如例如WO 91/02071中描述;腈水解酶基因,例如来臭鼻克雷伯菌(Klebsiella ozaenae)的bxn,其促进对溴苯腈的抗性(Stalker等人,1988);促进氨甲蝶呤抗性的二氢叶片酸还原酶(DHFR)基因(Thillet等人,1988);突变的乙酰乳酸合酶基因(ALS),其促进对咪唑啉酮、磺酰脲或其他ALS抑制化学品的抗性(EP 154,204);突变的邻氨基苯甲酸盐合酶基因,其促进对5-甲基色氨酸的抗性;或促进除草剂抗性的茅草枯脱卤素酶基因。
优选的可筛选标记包括但不限于编码β-葡糖醛酸酶(GUS)酶的uidA基因;编码显色底物已知的酶的β-半乳糖苷酶基因;水母发光蛋白基因(Prasher等人,1985),其可用于钙敏感生物发光检测;绿色荧光蛋白基因(Niedz等人,1995)或其衍生物;荧光素酶(luc)基因(Ow等人,1986),其允许生物发光检测,以及本领域已知的其他基因。本说明书中使用的“报告分子”是指通过其化学性质提供分析上可鉴定的信号的分子,信号通过参考蛋白产物促进启动子活性的测定。
优选地,核酸构建体稳定地掺入到例如植物的基因组中。因此,核酸包括允许分子掺入基因组的合适元件,或将构建体置于可掺入植物细胞染色体的合适载体中。
本发明的一个实施方案包括重组载体,其包括至少一种本文定义的多核苷酸,并且能够将多核苷酸递送到宿主细胞中。这种载体含有异源核酸序列,即不是天然发现的与本发明的核酸分子相邻的核酸序列,并且优选衍生自不同于衍生核酸分子的物种的物种。载体可以是RNA或DNA、原核或真核,通常是病毒或质粒。
本发明的重组载体包括导致核酸分子表达为融合蛋白的融合序列。
重组载体还可以包括在本文定义的多核苷酸的核酸序列周围和/或内部的间隔和/或非翻译序列。
优选地,将重组载体稳定地掺入宿主细胞如植物细胞的基因组中。因此,重组载体可包括合适的元件,其允许载体掺入到基因组或细胞的染色体中。
重组细胞
本发明的另一个实施方案包括重组细胞,例如重组植物细胞,其是用本发明的一种或多种多核苷酸、构建体或载体或其子代细胞转化的宿主细胞。术语“重组细胞”在本文中可与术语“转基因细胞”互换使用。
核酸分子向细胞的转化可以通过将核酸分子插入细胞的任何方法来完成。转化技术包括但不限于转染、电穿孔、显微注射脂质转染、吸附和原生质体融合。重组细胞可以保持单细胞或可以生长成组织、器官或多细胞生物体。本发明的转化核酸分子可以保留在染色体外,或者可以整合到转化细胞染色体内的一个或多个位点中,从而保留它们的表达能力。
优选的宿主细胞是植物细胞,更优选谷类植物的细胞,更优选大麦或小麦细胞,甚至更优选小麦细胞。
重组细胞可以是培养中的细胞、体外细胞、或生物体例如植物中的细胞,或器官例如根、叶片或茎中的细胞。优选地,细胞在植物中,更优选在植物的根、叶片和/或茎中。
在一个实施方案中,活性NifDk在植物细胞中的表达需要NifD、NifK、NifH、NifB、NifE、NifN和任选的NifU、NifS、NifO、NifV、NifY、NifW和/或NifZ的表达。
在另一个或进一步的实施方案中,活性NifH在植物细胞中的表达需要NifH和NifM以及任选地NifU和/或NifN的表达。
在一个实施方案中,在植物细胞中重建固氮酶活性至少需要表达NifD、NifK、NifH、NifB、NifE、NifN和NifM。
本领域技术人员将理解,较小的Nif蛋白亚组可导致植物细胞中功能性固氮酶的重建。就发明人所知,将固氮酶基因转移到任何光合生物体的唯一报道描述了衣藻(Chlamydomonas)叶绿体基因组中NifH的导入(Cheng等人,2005)。NifH能够补充叶绿素生物合成突变体,尽管NifH生物合成前体蛋白NifM、NifS和NifU没有共表达。这证明内源性真核等同物可功能性替代某些Nif蛋白。事实上,最近的报道表明,大肠杆菌仅使用8种Nif蛋白即可重建固氮酶功能(Wang等人,2013),这意味着在植物中实现功能可能不如表达Nif蛋白的完整补体复杂。尽管本发明人还没有建立植物原位(in planta)Nif蛋白的功能,但生物合成和功能性Nif蛋白的所有组成成分(repertoire)有希望可以在潜在支持固氮酶功能的环境中表达。
植物
如本文中作为名词使用的术语“植物”是指整株植物并且是指植物界的任何成员,但是如作为形容词使用是指存在于植物中、从植物获得、衍生自植物或与植物相关的任何物质,例如植物器官(例如叶片、茎、根、花)、单细胞(例如花粉)、种子、植物细胞等。从中产生根和芽的植物和发芽的种子,也包括在“植物”的含义范围内。本文所用的术语“植物部分”是指从植物获得的并且包括植物基因组DNA的一种或多种植物组织或器官。植物部分包括营养结构(例如叶片、茎)、根、花器官/结构、种子(包括胚、子叶片和种皮)、植物组织(例如维管组织,基本组织等)、细胞及其子代。在一个优选的实施方案中,植物部分为种子。本文所用的术语“植物细胞”是指从植物或植物中获得的细胞,包括原生质体或来源于植物的其他细胞,配子产生细胞和再生为完整植物的细胞。植物细胞可以是培养中的细胞。“植物组织”是指植物中的分化组织或从植物(“外植体”)获得的分化组织或衍生自未成熟或成熟胚、种子、根、芽、果实、块茎、花粉、肿瘤组织(例如冠瘿)和培养中植物细胞的聚集体的各种形式(例如愈伤组织)的未分化组织。种子中或来自种子的示例性植物组织是子叶片、胚和胚轴。因此,本发明包括植物和植物部分以及包括这些的产物。
如本文所用,术语“种子”是指植物的“成熟种子”,其可以准备好收获或者已经从植物中收获,例如通常在田间商业收获,或者作为“发育中的种子”,在受精后和种子休眠建立之前和收获之前,在植物中发生。
本文所用的“转基因植物(transgenic plant)”是指含有在相同物种、品种或栽培品种的野生型植物中未发现的核酸构建体的植物。也就是说,转基因植物(转化的植物)含有在转化之前不含有的遗传物质(转基因)。转基因可以包括从植物细胞、或另一种植物细胞、或非植物来源、或合成序列获得或衍生的遗传序列。通常,已经通过人的操作例如通过转化将转基因引入植物,但是本领域技术人员可以使用任何方法。遗传物质优选稳定整合到植物基因组,优选核基因组。引入的遗传物质可包括天然存在于相同物种但以重排顺序或元件的不同排列的序列,例如反义序列。含有这些序列的植物包括在“转基因植物”中。
在一个优选的实施方案中,转基因植物对于已经引入的每个基因(转基因)是纯合的,使得它们的子代不会因所需的表型分离。转基因植物对于引入的转基因也可以是杂合的,例如在已经从杂交种子生长的F1子代中。这样的植物可以提供本领域熟知的优点,例如杂种优势。
本发明上下文中定义的转基因植物包括已经用重组技术经基因修饰的植物的子代,其中子代包括目的转基因。这样的子代可以通过初级转基因植物的自体受精或通过将这样的植物与相同物种的另一种植物杂交而获得。这通常将调节本文定义的至少一种蛋白在所需植物或植物器官中的产生。转基因植物部分包括含有转基因的所述植物的所有部分和细胞,例如培养组织、愈伤组织和原生质体。
可以使用本领域中已知的技术来生产转基因植物,例如牛津大学出版社出版的A.Slater等人的《植物生物技术—植物的遗传操作》(Plant Biotechnology-The GeneticManipulation of Plants,Oxford University Press)(2003)),以及约翰·威利父子出版公司的P.Christou和H.Klee的《植物生物技术手册》(Handbook of Plant Biotechnology,John Wiley and Sons)(2004)中一般描述的技术。
“非转基因植物”是没有通过重组DNA技术引入遗传物质进行基因修饰的植物。如本文所用,术语“与同基因植物比较”或类似短语是指相对于转基因植物是同基因的但没有目的转基因的植物。优选地,相应的非转基因植物是与目的转基因植物的始祖相同的栽培品种或品种,或缺乏通常称为“分离体(segregant)”的构建体的同胞植物系,或用“空载体(empty vector)”构建体转化的相同栽培品种或品种的植物,并且可以是非转基因植物。如本文所用,“野生型”是指未根据本发明修饰的细胞、组织或植物。野生型细胞、组织或植物可用作对照,以比较外源核酸的表达水平或如本文所述修饰的细胞、组织或植物的性状修饰的程度和性质。
本发明上下文中定义的转基因植物包括已经用重组技术经基因修饰的植物的子代,其中子代包括目的转基因。这样的子代可以通过初级转基因植物的自体受精或通过将这样的植物与相同物种的另一种植物杂交而获得。转基因植物部分包括含有转基因的所述植物的所有部分和细胞,例如培养组织、愈伤组织和原生质体。
预期用于实施本发明的植物包括单子叶片植物和双子叶片植物。目标植物包括但不限于以下:谷类(例如,小麦、大麦、黑麦、燕麦、水稻、玉米、高粱和相关作物);葡萄;甜菜(甜菜和饲料甜菜);梨果、核果和无核小水果(苹果、梨、李子、桃、杏仁、樱桃、草莓、树莓和黑莓);豆科植物(豆角、扁豆、豌豆、大豆);油料植物(油菜或其他芸苔属、芥菜、罂粟、橄榄、向日葵、红花、亚麻、椰子、蓖麻油植物、可可豆、花生);黄瓜植物(西葫芦、黄瓜、甜瓜);纤维植物(棉花、亚麻、大麻、黄麻);柑橘类水果(橙子、柠檬、葡萄柚、柑橘);蔬菜(菠菜、莴苣、芦笋、白菜、胡萝卜、洋葱、番茄、马铃薯、辣椒);樟科(鳄梨、肉桂、樟脑);或植物,例如玉米、烟草、坚果、咖啡、甘蔗、茶、葡萄、啤酒花、草皮、香蕉和天然橡胶植物,以及观赏植物(花、灌木、阔叶片树和常青树、例如针叶树)。优选地,植物是谷类植物,更优选小麦、水稻、玉米、黑小麦、燕麦或大麦,甚至更优选小麦。
如本文所用,术语“小麦”是指小麦属的任何物种,包括其始祖(progenitor),以及通过与其他物种杂交产生的其子代。小麦包括具有包括42条染色体的AABBDD基因组结构的“六倍体小麦”和具有包括28条染色体的AABB基因组结构的“四倍体小麦”。六倍体小麦包括普通小麦(T.aestivum)、斯卑尔脱小麦(T.spelta)、莫迦小麦(T.macha)、密穗小麦(T.compactum)、印度圆粒小麦(T.sphaerococcum)、瓦维洛夫小麦(T.vavilovii)及其种间杂交。六倍体小麦的优选物种是普通小麦(T.aestivum ssp)(也称为“面包小麦”)。四倍体小麦包括硬粒小麦(T.durum)(本文也称为硬质小麦或圆锥小麦(Triticum turgidumssp.durum)),野生二粒麦(T.dicoccoides)、二粒小麦(T.dicoccum)、波兰小麦(T.polonicum)及其种间杂交。此外,术语“小麦”包括六倍体或四倍体小麦的潜在始祖,如A基因组的乌拉尔图小麦(T.urartu)、一粒小麦(T.monococcum)或野生一粒小麦(T.boeoticum),B基因组的拟斯卑尔托山羊草(Aegilops speltoides),D基因组的节节麦(T.tauschii)(又称为方穗山羊草(Aegilops squarrosa)或粗山羊草(Aegilopstauschii))。特别优选的始祖是A基因组始祖,更优选A基因组始祖是一粒小麦(T.monococcum)。用于本发明的小麦栽培品种可以属于但不限于任何上面列出的物种。还包括用传统技术以小麦属(Triticum sp.)作为亲本与非小麦物种(如黑麦[Secalecereale])有性杂交培育的植物,包括但不限于小黑麦。
如本文所用,术语“大麦”是指大麦属的任何物种,包括其祖细胞,以及通过与其他物种杂交产生的其子代。优选植物是商业栽培的大麦属植物,例如大麦的品种或栽培品种或菌株,或适合于谷物的商业生产。
产生转基因植物的方法
已经描述了将基因直接递送到细胞中的四种一般方法:(1)化学方法(Graham等人,1973);(2)物理方法如显微注射(Capecchi,1980);电穿孔(参见,例如,WO 87/06614、US5,472,869、5,384,253、WO 92/09696和WO 93/21335);和基因枪(参见例如US4,945,050和US 5,141,131);(3)病毒载体(Clapp,1993;Lu等人,1993;Eglitis等人,1988);和(4)受体介导的机制(Curiel等人,1992;Wagner等人,1992)。
可以使用的加速方法包括例如基因枪法等。将转化核酸分子递送至植物细胞的方法的一个实例是微粒轰击。英国牛津出版社出版的Yang等人的《基因转移的粒子轰击技术》(Particle Bombardment Technology for Gene Transfer,Oxford Press,England(1994))综述了该方法。可以用核酸包被并通过推动力递送到细胞中的非生物颗粒(微粒)。示例性的颗粒包括由钨、金、铂等组成的那些。基因枪法的一个特别的优点是,除了它是可重复转化单子叶片植物的有效方法之外,既不需要分离原生质体,也不需要农杆菌感染的易感性。适用于本发明的颗粒输送系统是氦加速PDS-1000/He枪,可从Bio-RadLaboratories获得。对于轰击,未成熟胚或衍生的靶细胞如来自未成熟胚的盾片或愈伤组织可以排列在固体培养基上。
在另一个可选择的实施方案中,质体可以被稳定地转化。公开的用于高等植物中质体转化的方法包括粒子枪递送含有可选择的标志DNA和通过同源重组将DNA靶向质体基因组(US 5,451,513、US 5,545,818、US 5,877,402、US 5,932479和WO 99/05265。
农杆菌介导的转移是用于将基因引入植物细胞的广泛适用的系统,因为DNA可被引入整个植物组织中,从而不需要从原生质体再生完整植物。使用农杆菌介导的植物整合载体将DNA引入植物细胞是本领域熟知的(参见例如US 5,177,010、US 5,104,310、US 5,004,863、US 5,159,135)。此外,T-DNA的整合是导致极少重排的相对精确的过程。待转移的DNA区域由边界序列限定,间插DNA通常插入植物基因组中。
农杆菌转化载体(Agrobacterium transformation vector)能够在大肠杆菌和农杆菌中复制,以便于如(Klee等人植物DNA传染性病原体,(Klee et al.,Plant DNAInfectious Agents,Hohn and Schell,(editors),Springer-Verlag,New York,(1985):179-203)描述的进行操作。此外,农杆菌介导的基因转移载体的技术进步改善了载体中基因和限制性位点的排列,有利于构建能够表达多种多肽编码基因的载体。所述载体具有方便的多接头区域,其侧接启动子和聚腺苷酸化位点,用于直接表达插入的多肽编码基因,并且适用于本发明目的。此外,含有武装的和解除武装的Ti基因的农杆菌可用于转化。在那些农杆菌介导的转化是有效的植物品种中,由于基因转移的简单易行和明确的性质,农杆菌介导的转化成为选择的方法。
使用农杆菌转化方法形成的转基因植物通常在一个染色体上含有单个基因座。这种转基因植物可被称为添加基因的半合子植物。更优选的是对于所添加的结构基因是纯合的转基因植物;即,含有两个添加基因的转基因植物,一个基因位于染色体对的每个染色体上的相同基因座。纯合转基因植物可通过将含有单一添加基因的独立分离体转基因植物进行有性杂交(自交),使一些产生的种子萌发,并对产生的植株进行目的基因分析。
还应当理解,也可以使两种不同的转基因植物交配以产生含有两种独立分离的外源基因的子代。合适子代的自交可以产生对两种外源基因都纯合的植物。也考虑了与亲本植物的回交和与非转基因植物的远交,如营养繁殖。关于其他常用于不同性状和作物的育种方法的描述可以在威斯康星州麦迪逊市美国农学会Fehr的《用于栽培种发育的育种方法》(Fehr,Breeding Methods for Cultivar Development,J.Wilcox(editor)AmericanSociety of Agronomy,Madison wis.(1987))中找到。
植物原生质体的转化可以使用基于磷酸钙沉淀、聚乙二醇处理、电穿孔和这些处理的组合的方法来实现。这些系统在不同植物品种中的应用取决于从原生质体再生该特定植物株的能力。描述了从原生质体再生谷物的说明性方法(Fujimura等人,1985;Toriyama等人,1986;Abdullah等人,1986)。
也可以使用细胞转化的其他方法,包括但不限于通过将DNA直接转移到花粉中,通过将DNA直接注射到植物的生殖器官中,或通过将DNA直接注入未成熟胚的细胞中,然后再水化干燥的胚而将DNA引入植物中。
从单个植物原生质体转化体或从各种转化的外植体再生、发育和培养植物是本领域熟知的(学术出版社出版的Weissbach等人《植物分子生物学方法》(Methods for PlantMolecular Biology,Academic Press,San Diego,(1988))。这种再生和生长过程通常包括以下步骤:选择转化的细胞,通过胚胎发育的通常阶段通过生根的幼苗阶段培养这些个体化的细胞。类似地再生转基因胚和种子。然后将得到的转基因生根芽种植在合适的植物生长培养基如土壤中。
含有外来、外源基因的植物的发育或再生是本领域熟知的。优选地,再生植物自花授粉以提供纯合转基因植物。否则,将从再生植物获得的花粉与农业上重要品系的种子生长植物杂交。相反,来自这些重要品系植物的花粉用于给再生植物授粉。使用本领域技术人员熟知的方法培养含有所需外源核酸的本发明转基因植物。
主要通过使用根癌农杆菌转化双子叶片植物并获得转基因植物的方法已经公开用于棉花(US 5,004,863、US 5,159,135、US 5,518,908);大豆(US 5,569,834、US 5,416,011);芸苔属(Brassica)(US 5,463,174);花生(Cheng等人,1996);和豌豆(Grant等人,1995)。
用于通过引入外源核酸将遗传变异引入植物来转化谷类植物如小麦和大麦和用于从原生质体或未成熟植物胚再生植物的方法是本领域熟知的,参见例如CA 2,092,588、AU 61781/94、AU 667939、US 6,100,447、WO 97/048814、US 5,589,617、US 6,541,257和在WO 99/14314中列出的其他方法。优选地,转基因小麦或大麦植物通过根癌农杆菌介导的转化方法产生。可以将携带所需核酸构建体的载体引入组织培养植物的可再生小麦细胞或外植体、或合适的植物系统如原生质体中。可再生的小麦细胞优选来自未成熟胚的盾片、成熟胚、来自这些胚的愈伤组织或分生组织。
为了证实转基因在转基因细胞和植物中的存在,可以使用本领域技术人员已知的方法进行聚合酶链式反应(PCR)扩增或Southern印迹杂交(Southern blot)分析。转基因的表达产物可以以多种方式中的任何一种检测,这取决于产物的性质,并且包括蛋白质印迹杂交和酶测定。一种特别有用的定量蛋白表达和检测不同植物组织中复制的方法是使用报告基因,如GUS。一旦获得转基因植物,它们可以生长以产生具有所需表型的植物组织或部分。可以收获植物组织或植物部分,和/或收集种子。种子可用作培育具有所需特征的组织或部分的额外植物的来源。
“聚合酶链式反应”(PCR)是一种利用由“上游”和“下游”引物组成的“引物对”或“引物组”,以及聚合催化剂(如DNA聚合酶)和通常是热稳定聚合酶,对目标多核苷酸进行复制拷贝的反应。PCR的方法是本领域已知的,例如,参见牛津大学BIOS科学出版社有限公司出版的McPherson和S.G Moller(编者)的“PCR”(M.J.McPherson and S.G Moller(editors),BIOS Scientific Publishers Ltd,Oxford,(2000))。可以对从表达本发明多核苷酸的植物细胞分离的逆转录mRNA获得的cDNA进行PCR。然而,如果对从植物分离的基因组DNA进行PCR,通常将更容易。
引物是能够以序列特异性方式与靶序列杂交并在PCR过程中延伸的寡核苷酸序列。扩增子或PCR产物或PCR片段或扩增产物是包括引物和新合成的靶序列拷贝的延伸产物。多重PCR系统含有多组导致同时产生一个以上扩增子的引物。引物可以与靶序列完全匹配,或者它们可以含有内部错配碱基,其可以导致在特定靶序列中引入限制性酶或催化性核酸识别/切割位点。引物还可以含有附加的序列和/或含有修饰的或标记的核苷酸以促进扩增子的捕获或检测。DNA热变性、引物与其互补序列退火和退火引物用聚合酶延伸的重复循环导致靶序列指数扩增。术语靶或靶序列或模板是指扩增的核酸序列。
核苷酸序列的直接测序方法是本领域技术人员熟知的,可以在例如Ausubel等人(同上)和Sambrook等人(同上)中找到。测序可以通过任何合适的方法进行,例如双脱氧测序、化学测序或其变化形式。直接测序具有确定特定序列的任何碱基对变化的优点。
植物/谷物加工
可以使用本领域已知的任何技术加工本发明的谷物/种子,优选谷类谷物或本发明的其他植物部分以生产食品配料、食品或非食物产品。
在一个实施方案中,产品是全谷物粉,例如超细碾磨的全谷物粉,或由约100%谷物制成的面粉。全谷物粉包括精制面粉成分(精制面粉或精制面粉)和粗粒级(超细碾磨的粗粒级)。
精制面粉可以是例如通过研磨和筛选清洁的谷物如小麦或大麦谷物而制备的面粉。精制面粉的粒度被描述为这样的面粉,其中不少于98%的面粉可通过一种网(cloth),其具有不大于指定为“212微米(美国70号金属丝)(212micrometers(U.S.Wire 70))”的金属丝编织网的孔洞(opening)。粗粒级包括麸皮和胚芽中的至少一种。例如,胚芽是在谷物中发现的胚胎植物。胚芽包括脂类、纤维、维生素、蛋白、矿物质和植物营养素,例如黄酮。麸皮包括若干细胞层并且具有显著量的脂质、纤维、维生素、蛋白、矿物质和植物营养素,例如黄酮。此外,粗粒级可以包括糊粉层,糊粉层还包括脂质、纤维、维生素、蛋白、矿物质和植物营养素,例如黄酮。糊粉层虽然在技术上被认为是胚乳的一部分,但表现出许多与麸皮相同的特征,因此通常在碾磨过程中与麸皮和胚芽一起除去。糊粉层含有蛋白、维生素和植物营养素,例如阿魏酸。
此外,粗粒级可以与精制面粉成分混合。粗粒级可以与精制面粉成分混合以形成全谷物粉,从而提供与精制面粉相比具有营养价值、纤维含量和抗氧化能力增加的全谷物粉。例如,粗粒级或全谷物粉可以以各种量使用以代替烘焙食品、零食产品和食物产品中的精制或全谷物粉。本发明的全谷物粉(即超细碾磨的全谷物粉)也可以直接销售给消费者用于其自制烘焙产品。在一个示例性实施方案中,全谷物粉的颗粒分布使得98%重量的全谷物粉颗粒小于212微米。
在进一步的实施方案中,在全谷物粉和/或粗粒级的麸皮和胚芽中发现的酶被灭活,以便稳定全谷物粉和/或粗粒级。稳定化是使用蒸汽、热、辐射或其他处理来灭活麸皮和胚芽层中发现的酶的方法。已经稳定的面粉保持其烹饪特性并具有较长的保质期。
在附加的实施方案中,全谷物粉、粗粒级或精制面粉可以是食物产品的组件(配料)并且可以用于生产食物产品。例如,食物产品可以是百吉饼、饼干、面包、小圆面包、羊角面包、饺子、英式松饼、松饼、皮塔饼、快速面包、冷藏/冷冻面团产品、面团、烘焙豆、墨西哥卷饼、辣椒、墨西哥煎玉米粉卷(taco)、玉米面包卷的辣味肉饼(tamale)、玉米粉圆饼(tortilla)、波特派(pot pie)、即食谷物、即食膳食、馅料、可微波膳食、布朗尼(brownie)、蛋糕、奶酪蛋糕、咖啡蛋糕、曲奇饼、甜点、糕点、小甜面包、糖果条、馅饼外壳、饼馅、婴儿食品、烘培混合物、稀面糊、面包屑、肉汁混合物、肉增量剂、肉代用品、调料混合物、汤料混合物、肉汁、油面酱、沙拉调料、汤、酸奶油、意大利面食、日本拉面、炒面面条、捞面面条、冰淇淋夹杂物、雪糕、蛋卷筒、冰淇淋三明治、薄脆饼干、烤面包丁、甜甜圈、蛋卷、挤压零食、水果和谷物棒、可微波的零食产品、营养棒、煎饼、半烘焙的烘培食品、椒盐卷饼、布丁、基于格兰诺拉麦片的产品、零食片、零食食品、零食混合物、华夫饼、比萨饼皮、动物性食品或宠物食品。
在可选择的实施方案中,全谷物粉、精制面粉或粗粒级可以是营养补充剂的组件。例如,营养补充剂可以是添加到含有一种或多种额外成分的饮食中的产品,额外成分通常包括:维生素、矿物质、草药、氨基酸、酶、抗氧化剂、草药、香料、益生菌、提取物、益生元和纤维。本发明的全谷物粉、精制面粉或粗粒级包括维生素、矿物质、氨基酸、酶和纤维。例如,粗粒级含有浓缩量的膳食纤维以及其他必需营养素,如维生素B、硒、铬、锰、镁和抗氧化剂,它们对于健康饮食是必需的。例如,22克本发明的粗粒级提供了33%的个体每日推荐纤维消耗量。营养补充剂可包括有助于个体总体健康的任何已知营养成分,实例包括但不限于维生素、矿物质、其他纤维组件、脂肪酸、抗氧化剂、氨基酸、肽、蛋白、叶片黄素、核糖、ω-3脂肪酸和/或其他营养成分。补充剂可以以下形式递送,但不限于以下形式:速溶饮料混合物、即饮饮料、营养棒、威化饼、饼干、薄脆饼干、凝胶丸(gel shots)、胶囊、咀嚼物、咀嚼片和丸剂。一个实施方案以调味摇动或麦芽型饮料的形式递送纤维补充剂,该实施方案作为儿童的纤维补充剂可能特别有吸引力。
在另一个实施方案中,碾磨方法可用于制备杂粮面粉或杂粮粗粒级。例如,来自一种类型谷物的麸皮和胚芽可以被磨碎并与磨碎的胚乳或另一种类型谷物的全谷物谷类粉混合。或者,可以将一种类型谷物的麸皮和胚芽磨碎并与磨碎的胚乳或另一种类型谷物的全谷物粉混合。预期本发明包括混合一种或多种麸皮、胚芽、胚乳和一种或多种谷物的全谷物粉的任意组合。这种杂粮方法可用于制作定制面粉,并利用多种类型谷类谷物的品质和营养含量来制作一种面粉。
预期本发明的全谷物粉、粗粒级和/或谷物产品可以通过本领域已知的任何碾磨方法生产。示例性实施方案包括在单个流中研磨谷物而不将谷物的胚乳、麸皮和胚芽分离成单独的流。清洁和回火的谷物被输送到第一通道研磨机,例如锤磨机、辊磨机、针磨机、冲击磨机、盘磨机、空气研磨机、凹口碾磨机等。研磨后,将谷物排出并输送到筛子中。此外,预期本发明的全谷物粉、粗粒级和/或谷物产品可以通过许多其他方法改性或增强,例如发酵、速溶、挤出、包封、烘、烤等。
麦芽制造
本发明提供的麦芽基饮料包括酒精饮料(包括蒸馏饮料)和通过使用麦芽作为其原料的一部分或全部生产的非酒精饮料。实例包括啤酒、发泡酒(happoshu,低麦芽啤酒饮料)、威士忌酒、低醇麦芽基饮料(例如含有少于1%乙醇的麦芽基饮料)和非醇饮料。
麦芽制造是控制浸泡和发芽,然后干燥谷物如大麦和小麦谷物的过程。该事件序列对于许多引起谷物修饰的酶的合成是重要的,谷物修饰主要是解聚死亡的胚乳细胞壁并调动谷物营养素的过程。在随后的干燥过程中,由于化学褐变反应产生香味和颜色。尽管麦芽的主要用途是用于饮料生产,但它也可用于其他工业过程中,例如作为烘焙工业中的酶源,或作为食品工业中的调味剂和着色剂,例如作为麦芽或作为麦芽粉,或间接作为麦芽糖浆等。
在一个实施方案中,本发明涉及生产麦芽组合物的方法。该方法优选包括以下步骤:
(i)提供本发明的谷物,例如大麦或小麦谷物,
(ii)浸泡所述谷物,
(iii)在预定条件下使浸泡的谷物发芽
(iv)干燥所述发芽的谷物。
例如,麦芽可以用美国谷物化学师协会出版的Hoseney的《谷物科学与技术原理》第二版(Principles of Cereal Science and Technology,Second Edition,1994:American Association of Cereal Chemists,St.Paul,Minn.)中描述的任何方法生产。然而,任何其他合适的生产麦芽的方法也可以用于本发明,例如生产特殊麦芽的方法,包括但不限于烘焙麦芽的方法。
麦芽主要用于酿造啤酒,也用于生产蒸馏酒精。酿造包括麦芽汁生产、主发酵和二次发酵以及后处理。首先将麦芽研磨、搅拌入水中并加热。在该“糖化”过程中,麦芽制造中活化的酶将谷粒的淀粉降解为可发酵的糖。澄清产生的麦芽汁,加入酵母,发酵混合物并进行后处理。
固氮酶复合物检测
固氮酶复合物的检测可以通过允许检测NifDk蛋白复合物和NifH蛋白之间相互作用的任何方法进行。适于检测NifDk蛋白复合物和NifH蛋白之间相互作用的方法包括本领域已知的用于检测蛋白-蛋白相互作用的任何方法,包括免疫共沉淀、亲和印迹、蛋白质体外结合实验(pull down)、荧光共振能量转移(FRET)等。
或者,可以通过测量所得固氮酶复合物的活性来检测固氮酶复合物。
适于测量固氮酶活性的方法包括本领域已知的用于检测将固二氮酶经酶还原成氨的任何方法,其中电子从NifH蛋白转移到NifDK蛋白复合物。例如,可以通过乙炔还原检测来估算固氮活性。简言之,该技术是一种间接方法,其利用固氮酶复合物的能力减少三重结合底物。固氮酶将乙炔(C2H2)还原为乙烯(C2H4)。两种气体都可以用气相色谱法定量。氮固定也可以通过析氢测定来测量。H2是N2固定的专性副产物。由此可以通过使用流通式H2传感器或气相色谱法定量气流中的H2浓度来获得固氮酶活性的间接测量。
N2固定的检测
固氮可以通过确定植物-土壤系统的总N的净增加来估计(N平衡法);2)将植物N分离成从土壤中吸收的级分和衍生自N2固定的级分(N差异,15N天然丰度,15N同种型稀释和酰脲方法)和3)测量固氮酶的活性(乙炔还原和析氢检测)。
实施例
实施例1.材料和方法
瞬时表达系统中植物细胞中基因的表达
使用基本上如Wood等人(2009)所述的瞬时表达系统在植物细胞中表达基因,并进行了如下概述的各种修饰。在16/8h的光照-黑暗循环下,本生烟植物在23℃的生长室中生长,冷白荧光灯提供90μmol/min的光强度。将含有通过强组成型35S启动子或增强型35S启动子(e35S;Kay等人,1987)在植物细胞中表达的编码区的二元载体引入根癌农杆菌菌株GV3101。如WO2010/057246中描述,将用于表达p19病毒沉默抑制因子的嵌合二元载体35S::p19分别导入根癌农杆菌菌株AGL1中。这种病毒沉默抑制因子通常包括在维持与其一起导入的转基因的基因表达的方法中。根据载体上的选择标记基因,重组根癌农杆菌细胞在补充有50mg/L羧苄青霉素或50mg/L卡那霉素和50mg/L利福平的LB肉汤中于28℃生长至稳定期。将乙酰丁香酮添加至培养物中至100μM的最终浓度,并且然后将培养物在28℃下在振荡下再孵育2.5h。然后通过在室温下以5000×g离心10min使细菌沉淀。弃去上清液,并将沉淀重悬于含有10mM MES pH 5.7,10mM MgCl2和100μM乙酰丁香酮的溶液中,然后测量OD600。将达到最终浓度OD600=0.10所需的一定体积的每种培养物(包括含有病毒抑制构建体35S::p19的培养物)添加到新管中。用压渗缓冲液补足最终体积。然后用培养混合物压渗叶片,通常在压渗后再生长3至5天,然后回收叶盘进行分析。通常包括仅具有病毒抑制构建体35S::p19的对照压渗。
为了以组合方式过度表达一个以上的目的基因,每个附加的基因分别导入根癌农杆菌菌株中,并如上所述生长。混合细菌悬浮液,使得每种细菌菌株的终浓度为OD600=0.10。含有编码病毒沉默抑制因子35S::p19的细菌菌株以相同浓度包括在所有混合物中。例如,为了在瞬时叶片测定中表达四种基因并包括病毒抑制因子构建体,压渗混合物的最终OD600为5×0.10=0.50单位。先前已经使用本生烟证明了以瞬时测定形式在植物细胞内同时过表达各自来自单独T-DNA载体的至少5种基因(Wood等人,2009)。
本生烟叶片中Nif基因表达质粒的构建
除非另有说明,使用具有金门组件的模块化克隆系统构建用于本生烟叶片中瞬时表达基因质粒的(Weber等人,2011)。使用IIS型限制性克隆将DNA部分作为单个质粒(Thermo Fisher Scientific,ENSA)组装到骨架质粒中(EC47772、EC47742、EC47751、EC47761、EC47781),每个质粒含有35S CaMV启动子(EC51288)、编码拟南芥F1-ATPaseγ亚基(MTP-FAγ51)的前51个氨基酸的基因、植物密码子优化的nifH(EC38011)、nifK(EC38015)、nifY(EC38019)、nifE(EC38016)、nifN(EC38024)、nifJ(EC38022)、nifB(EC38017)、nifQ(EC38025)、nifF(EC38021)、nifU(EC38026)、nifS(EC38018)、nifV(EC38020)、nifW(EC38027)、nifZ(EC38029)、nifM(EC38023)、nifX(EC38028),植物密码子优化的HA表位标签(EC38003)以及CaMV聚腺苷酸化序列/转录终止子区域(EC41414)。
RNA提取、cDNA合成与分析
为了从植物叶片样品例如已由农杆菌压渗的本生烟细胞中提取RNA,用液氮冷冻约2×2cm左右的叶片,研磨成粉末,每个样品加入500μL的Trizol缓冲液(Thermo FisherScientific)。在此之后,按照Trizol供应商的说明进行操作,但有以下修改:重复氯仿提取并将RNA在37℃下溶解。提取的RNA用RQ1 DNA酶(Promega)处理以去除任何提取的DNA。然后使用植物RNAeasy柱(Qiagen)进一步纯化RNA制备物。当进行操作时,根据供应商的方案使用SuperscriptIII逆转录酶(Thermo Fisher Scientific)用寡聚dT引物进行cDNA合成。对每个RNA样品的RT-PCR分析,进行三个单独的cDNA合成反应。将20μl cDNA反应物在无核酸酶的水中稀释20倍。在Qiagen Rotor-Gene-Q实时PCR仪上进行qRT-PCR。将9.6μl的每种cDNA加入到10μl的2x SensiFAST No-ROX SYBR Taq(Bioline)和0.4μl的正向和反向引物中,每种10μmol,最终反应体积为20μl。所有qPCR反应(对于参照和特定基因两者)在以下循环条件下一式三份进行:95℃/5min 1个循环;95℃/15s、60℃/15s和72℃/20s 45个循环。在72℃步骤测量荧光。然后进行55℃至99℃熔化循环。利用rotor gene软件包中的比较定量程序,通过对组成型表达的本生烟GADPH mRNA对照扩增,使基因表达正常化。将代表三次测定平均值的每组三种cDNA的值取平均值,从而计算平均值的标准误差(SEM)。
细菌细胞蛋白提取
通过用尿素/SDS缓冲液(8M尿素,2%SDS,100mM Tris-HCl pH8.5,65mM DTT)提取从大肠杆菌细胞分离蛋白质。加入300μl提取缓冲液,将混合物涡旋10s,并以12,000×g离心2min。在处理前将含有提取的蛋白(“总蛋白”)的上清液储存在-80℃。根据生产商的说明书,使用微量滴定Bradford蛋白测定法(Bio-Rad,加利福尼亚,美国)进行蛋白质估计为此,将从不同样品中提取的蛋白质在水中稀释两次(1:20、1:40),一式两份,并使用SpectraMaxPlus在595nm处进行测量。牛血清白蛋白(BSA)标准品在0.05mg/mL至约0.5mg/mL的线性范围内使用。BSA浓度由澳大利亚蛋白质组学分析机构(悉尼,澳大利亚)的高灵敏度氨基酸分析确定。空白校正的标准曲线一式两份。使用线性回归拟合标准曲线。
叶片组织蛋白提取
为了分析T-DNA导入后植物细胞中产生的特定多肽的量和性质,尤其是作为线粒体中加工的指示物的多肽的尺寸,除非另有说明,通过在压渗后4或5天从压渗区域切除约180mm2叶片来收获本生烟叶片样品。将这些在液氮中冷冻,并在加工时使用研钵和研杵研磨成粉末。向各粉末样品中加入300μL缓冲液。缓冲液含有125mM Tris-HCl pH 6.8,4%(w/v)十二烷基硫酸钠(SDS),20%(w/v)甘油,60mM二硫苏糖醇(DTT)和0.002%(w/v)溴酚蓝。将样品在95℃下加热3分钟,然后以12000×g离心2min。除去含有提取的多肽的上清液(本文称为“总蛋白”样品),并根据待检测的多肽的预期水平将10-100μL用于蛋白质印迹。
制备叶片组织总的、不溶性和可溶性蛋白质级分
通过在压渗后4或5天从压渗区域切除约180mm2叶片来收获本生烟叶样品。将这些在液氮中冷冻,并在加工时使用研钵和研杵研磨成粉末。
为了进行溶解度测试,将收获的叶片组织在液氮中研磨并转移到含有提取缓冲液(100mM Tris pH8.0,150mM NaCl,0.25M甘露醇,5%(v/v)甘油,1%(v/v)Tween20,1%(w/v)PVP,2mM TCEP,0.2mM PMSF,10M亮抑酶肽)的微量离心管中。将样品以20,000×g离心5min以将样品分成可溶性(上清液)和不溶性(沉淀)级分。将上清液转移到新鲜的微量离心管中,再次以20,000×g离心5min,用提取缓冲液洗涤沉淀3次。将Laemmli缓冲液加入到所得的可溶性和不溶性级分中,进行SDS-PAGE,然后如Allen等人(2017)所述进行蛋白质印迹分析。
向各研磨样品中加入300μL冷溶性缓冲液。可溶性缓冲液含有50mM Tris-HCl pH8.0,75mM NaCl,100mM甘露醇,2mM DTT,0.5%(w/v)聚乙烯吡咯烷酮(平均分子量40,000),5%(v/v)甘油,0.2mM PMSF,10μM亮抑酶肽和0.5%(v/v)
Figure BDA0003343176700000711
Figure BDA0003343176700000712
将样品在4℃下以16,000×g离心5min。将上清液转移至新试管中,并将沉淀重悬于300μL冷溶性缓冲液中。将上清液(样品1)和重悬的沉淀(样品2)在4℃下以16,000×g离心5min。从样品1中的上清液中取出样品,称为可溶性级分。将该样品与等量的4×SDS缓冲液混合。4×SDS缓冲液含有250mM Tris-HCl pH 6.8,8%(w/v)SDS,40%(v/v)甘油、120mM DTT和0.004%(w/v)溴酚蓝。在第二离心步骤后,弃去样品2的上清液。沉淀称为不溶性级分。将沉淀重悬于300μL 4×SDS缓冲液中并加入300μL可溶性缓冲液。当将可溶性和不溶性级分与总蛋白的量比较时,如上所述研磨总蛋白样品的叶片。然而,将研磨的样品重悬于300μL 4×SDS缓冲液中,并加入300μL可溶性缓冲液。将总的、不溶性和可溶性级分的样品在95℃下加热3min,然后在12,000×g下离心2min。将20μL含有提取的多肽的上清液上样到NuPAGE Bis Tris 4-12%凝胶(Thermo Fisher Scientific)上用于凝胶电泳和蛋白质印迹分析。
对于厌氧提取的蛋白质的蛋白质印迹分析,在充满H2/N2气氛(2-3%/97-98%)的厌氧室(COY实验室产品)中进行提取。在装备有丁基橡胶隔膜的瓶中,通过至少四个抽空和N2吹扫循环,在Schlenk管线中制备厌氧提取溶液。
植物中与TwinStrep表位融合的多肽的纯化
在用含有目的基因构建体的农杆菌压渗5天后,或从稳定转化的植物叶中收获本生烟叶片样品,并进行如下处理。在厌氧条件(<5ppm O2)下,使用具有6×5秒脉冲的棒式搅拌器将15-20g的叶片材料浸渍在100ml冷提取缓冲液中,在冰上保持混合物始终是冷的。将均化的混合物通过四层Miracloth过滤,并将滤液(70-80ml)在4℃以3800g离心30min。倾析上清液并通过0.45μM过滤器PVDF膜过滤以进一步除去细颗粒。将滤液(60-70ml)以2mL/min上样到StreptactinXT柱(2mL柱床体积)上。用20mL洗涤缓冲液洗涤该柱,然后用含有50mM生物素、50mM Tris pH8.0和75mM NaCl的缓冲液(洗脱缓冲液)洗脱含有TS表位的多肽。将收集的级分编号2-8各3mL进一步在10kDa分子量截止膜(10Kda MWCO,Amersham)上通过以3800×g下离心30min进行浓缩。将纯化的蛋白浓缩物在液氮中快速冷冻用于将来的分析。从纯化过程的每个步骤中保留样品用于在标准大气压下进行的蛋白质印迹分析。将样品和分子量标记(BenchMark分子量标准品)在4-20%NuPage凝胶上在200V下电泳60min,每个泳道使用20μL样品。使用iBLOT装置将凝胶中的蛋白质印迹到PVDF膜上,并使用抗HA(1:10000)和抗TREP:HRP(1步)检测含有表位的蛋白质抗体。
蛋白质印迹分析
提取的样品中的多肽通过SDS-聚丙烯酰胺凝胶电泳(SDS-PAGE)在NuPAGE BisTris 4-12%凝胶(Thermo Fisher Scientific)上在200V下分离约1h。使用干燥装置(iBLOT)按照供应商的说明(Thermo Fisher Scientific)使用三步7分钟转移程序(20V下1min,23V下4min和25V下2min),印迹后保留凝胶,用考马斯染色(SimplyBlue SafeStain,Thermo Fisher Scientific)染色过夜,然后在水中漂洗以观察剩余的蛋白质,以证实多肽的转移已经发生。用考马斯染色也提供了每个凝胶泳道的蛋白量相等上样的确认,使用高丰度蛋白如Rubisco大亚基和小亚基的水平作为每个泳道相等蛋白上样的指标。将具有结合多肽的膜在含有5%脱脂奶粉的TBST缓冲液中于4℃封闭过夜。TBST缓冲液含有50mMTris-HCl,pH 7.5,150mM NaCl和0.1%(v/v)
Figure BDA0003343176700000721
小鼠中产生的单克隆抗HA抗体和山羊中产生的抗兔IgG(全分子)-过氧化物酶抗体购自Sigma-Aldrich。Immun-Star羊抗鼠(GAM)-HRP缀合物购自Bio-Rad。兔中产生的抗异柠檬酸脱氢酶(IDH)抗体购自Agrisera。StrepMABclassic-HRP缀合物抗体购自IBA。抗GFP抗体由Leila Blackman(澳大利亚,堪培拉,澳大利亚国立大学)赠送。以1:5000的稀释度加入抗HA、抗IDH和抗GFP抗体,以1:10000的稀释度在含有5%脱脂奶粉的TBST中加入StrepMABclassic-HRP缀合物抗体,并将膜在溶液中孵育1-2h。然后用TBST洗涤膜3×20min。当使用StrepMABclassic-HRP缀合物抗体时,在此阶段使用Amersham ECL试剂(GE Healthcare)检测抗体,并在Amersham成像仪600(GEHealthcare)上显影膜。对于抗HA和抗GFP,将抗小鼠-HRP缀合物二抗以1:5000加入含有5%脱脂奶粉的TBST中,并将膜孵育1h。对于抗IDH,以1:5000的稀释度在含有5%脱脂奶粉的TBST中加入抗兔-过氧化物酶二抗,并将膜孵育1h。将膜用TBST洗涤3×15分钟。对于二抗检测,使用Amersham ECL试剂并在Amersham成像仪上显影膜。
LC-MS分析之前蛋白质提取物的胰蛋白酶处理
在用于LC-MS分析时,对蛋白质样品进行过滤辅助的样品制备(FASP),一种用于在基于质谱的分析之前在过滤器上消化蛋白质的方法(Wisniewski等人,2011)。简言之,将100μl(~200μg)蛋白质在100μl 8M尿素,100mM Tris-HCl,pH8.5(UA缓冲液)中稀释,并上样到10kDa分子量截留(MWCO)离心过滤器(Merck Millipore,澳大利亚)上,并在室温(RT)以20,800g离心15min。用200μL的UA缓冲液洗涤保留>10kDa的蛋白质的过滤器,并在室温下以20,800g离心15min。为了化学还原过滤器上蛋白质中的二硫键,加入200μL50 mM二硫苏糖醇溶液,并将混合物在室温下振荡孵育50min。用两份200μL体积的UA缓冲液洗涤过滤器,每次以20,800×g离心15min。对于半胱氨酸烷基化,加入100μL碘乙酰胺(IAM)溶液(UA缓冲液中的50mM IAM)并将混合物在室温下于黑暗中孵育30min,然后离心(20,800g,15min)。用两份200μL体积的UA缓冲液洗涤保留的蛋白质,同时离心(20,800g,15min),随后用200μL的50mM碳酸氢铵进行两步随后的洗涤/离心步骤。将200μL胰蛋白酶(测序级,Promega,亚历山大市,澳大利亚)溶液(20μg/mL,在50mM碳酸氢铵和1mM CaCl2中)上样到过滤器上,并在湿室中在37℃下孵育1h或18h。通过离心(20,800×g,15min)收集胰蛋白酶肽,随后用200μL50mM碳酸氢铵另外洗涤。将合并的滤液冻干并储存在-20℃。
蛋白质的LC-MS分析
将胰蛋白酶消化的肽溶解在50μL的1%甲酸(FA)中,并将4μL等分试样上样到Ekspert nanoLC415(都柏林,加利福尼亚州,美国)上用于色谱分离,直接偶联至6600TripleTOF MS(SCIEX,雷德伍德城,加利福尼亚州,美国)。将肽在ChromXP C18(3μm,
Figure BDA0003343176700000722
10mm×0.3mm)捕获柱上以10μL/min的流速使用0.1%FA 脱盐5min,并在ChromXPC18(3μm,
Figure BDA0003343176700000723
150mm×0.3mm)柱上以5μL/min的流速在30℃分离。采用68min内3%-25%溶剂B的线性梯度,然后:5min,25%-35%溶剂B;2min35%-80%溶剂B;3min 80%溶剂B,1min 80%-3%溶剂B;以及再平衡8min。溶剂为:(A)5%DMSO,0.1%FA,94.9%水;(B)5%DMSO,0.1%FA,90%乙腈,4.9%水。仪器参数为:离子喷雾电压5500V,气帘气体25psi,GS115psi和GS2 15psi,加热界面150℃。数据以信息相关采集(IDA)模式采集,包括飞行时间(TOF)-MS测量扫描,随后30MS/MS,每个具有40ms累积时间。第一阶段MS分析在正离子模式、质量范围m/z 400-1250和0.25s累积时间下进行。在电荷状态为2-5且动态排除15s且质量公差为100ppm的情况下,在大于150个计数/s的先驱离子(precursor ion)上获得串联质谱。基于先驱离子的尺寸和电荷,使用制造商的滚动碰撞能量(CE)在m/z 100-1500的质量范围内获得光谱。对于从大肠杆菌中提取的蛋白质,使用ProteinPilotTM 5.0软件(SCIEX)进行蛋白质鉴定,对Uniprot数据库的大肠杆菌亚组进行检索,其中Uniprot数据库附加有定制的固氮酶(Nif+Mit2Nif)数据库,包括对照氯霉素抗性蛋白质(CAT/P62577)和污染物数据库(外源蛋白通用存储库,Common Repository of Adventitious Proteins)。对于从本生烟提取的蛋白质,使用Uniprot数据库的本生烟亚组进行检索,其中Uniprot数据库附加有定制的固氮酶(Nif+Mit2Nif)数据库和污染物数据库(外源蛋白通用存储库,CommonRepository of Adventitious Proteins)。
从所鉴定的肽中,完全胰蛋白酶化的两种NifM肽,即DAFAPLAQR(SEQ ID NO:155)和DYLWQQSQQR(SEQ ID NO:156),不包含不寻常的切割和/或修饰,并且通过峰强度判断在MS中显示高反应,被选择用于多反应监测(MRM)扫描以确认大肠杆菌JM109表达系统中的固氮酶(NifM)蛋白的检测。
在细菌中提供氯霉素抗性的酶氯霉素乙酰转移酶(CAT;P62577)由含有修饰的或未修饰的pMIT2.1基因构建体的所有转化的大肠杆菌(JM109菌株)中的选择标记基因表达。因此选择该多肽作为对照以标准化蛋白表达水平。选择来自CAT多肽的三种胰蛋白酶肽(四个跃迁/肽)来测量CAT的水平,即ITGYTTVDISQWHR(SEQ ID NO:157)、LMNAHPEFR(SEQ IDNO:158)和YYTQGDK(SEQ ID NO:159)。
靶向液相色谱-多重反应监测-质谱(LC-MRM-MS)
还原和烷基化的胰蛋白酶肽(5μL)在Kinetex C18柱(2.1mm×100mm,Phenomenex)上使用5-45%乙腈/0.1%甲酸的线性梯度以400μL/min的流速经10min进行色谱分离。将来自Shimadzu Nexera UHPLC的洗脱液引导至QTRAP 6500质谱仪(SCIEX),其配备有以正离子模式操作的TurboV电离源以用于数据采集和分析。Ms参数如下:离子喷射电压,5500V;气帘气,35;GS1,35;GS2,40;源温度,500℃;去簇电压,70V;和入口电位,10V。根据先驱离子的尺寸和电荷,使用滚动碰撞能量在碰撞室中用氮气使肽片段化。使用预定的多反应监测(MRM)扫描实验进行相对定量,在预期保留时间(RT)附近有40s的检测窗口,循环时间为0.3s。使用Analyst v1.7软件获取数据。使用Skyline(mMacLean,Bioinformatics 2010)对四个MRM跃迁的峰面积进行积分,其中需要所有跃迁以>3的信噪比(S/N)和>1000每秒计数(cps)的强度共洗脱用于检测。
使用大肠杆菌的pMIT2.1系统进行乙炔还原检测
如Temme等人,2012所述,用分别促进抗生素氯霉素和壮观霉素抗性的质粒pMIT2.1(或其待测试的衍生物之一)和对照质粒pN249转化大肠杆菌JM109菌株的细胞。通过在含有氯霉素(34mg/L)和壮观霉素(80mg/L)的LB培养基(10g/L胰蛋白胨,5g/L酵母提取物,10g/L NaCl)上生长来选择转化的细胞。转化的细胞在含有抗生素的LB培养基中于37℃有氧生长过夜至600nm的光密度值为1.0。将培养物以10,000g离心1分钟,弃去上清液。将细胞重悬于一定量的不含N源的诱导培养基中,所述诱导培养基含有25g/L Na2HPO4,3g/LKH2PO4,0.25g/L MgSO4.7H2O,1g/L NaCl,0.1g/L CaCl2.2H2O,2.9mg/L FeCl3,0.25mg/LNa2MoO4.2H2O和20g/L蔗糖(基本培养基),补充有1.5ml/L 10%丝氨酸,600μl/L0.5%酪蛋白氨基酸,5mg/L生物素和10mg/L对氨基苯甲酸(Yang等人,2018)。在与细菌和抗生素混合之前,用氩气喷射培养基20分钟。将储备溶液过滤灭菌。为了诱导Nif基因表达,培养基中添加异丙基β-D-1-硫代吡喃半乳糖苷(IPTG;Gold Bio#I2481C25 259)的终浓度为0.1mM、0.5mM或1.0mM,除非另有说明,通常为1.0mM。将细胞悬浮液转移到3.5cc培养烧瓶中,并使用压接锁定系统用气密橡胶密封件封盖,并用纯氩气吹扫顶部空间20分钟。然后将悬浮液在30℃下以200rpm振荡孵育5小时。此后,通过注射0.5cc纯C2H2(BOC气体,仪器级;最终浓度氩气中10%C2H2),并进一步孵育18小时。使用Agilent 6890N GC仪器通过具有火焰电离检测的气相色谱(GC-FID)测量最终时间的乙烯产量。以10:1分流模式将顶部空间样品(0.5cc)去除,并手动进样到分流/无分流入口中。该仪器在以下参数下操作:入口和FID温度为200℃,载体He的平均速度为35cm/sec,等温烘箱温度为120℃。使用RT-Alumina Bond/MAPD柱(30m×0.32mm×5μm),其中5m颗粒捕获柱偶联到检测器端。通过运行合适的空白和标准物评估仪器的分析性能。在这些条件下,乙烯在约2.3分钟时从柱中排出,乙炔在约3.1分钟时从柱中排出。该GC系统能够在低至0.00001%atm的水平下检测乙烯,其中乙炔作为该形式中唯一的其他可检测峰具有清晰的分辨率,因此非常灵敏。
使用大肠杆菌JM109菌株中的野生型pMIT2.1和pN249作为阳性对照的测定系统在生长培养基中不添加IPTG时仅产生微量乙烯,而在生长培养基中加入0.1mM、0.5mM或1.0mM的IPTG则大大增加了乙烯的生成量。从3小时取样到18小时,乙烯产生速率大大增加,并且随着IPTG浓度增加,表明随着Nif基因表达增加,固氮酶活性增加。因此,测定通常使用1.0mM IPTG并在18小时后取样。
用于重组蛋白表达的酵母转化和培养条件
使用酵母转化试剂盒(Sigma Aldrich)根据制造商的方案进行酵母INVSc1菌株(Thermo Fisher Scientific)的转化。对于以Ura基因作为选择标记的载体,通过将转化混合物平板接种到不含尿嘧啶的基本培养基(SCMM-U)琼脂平板上来选择转化的菌落,所述平板含有6.7g/L酵母氮碱,1.92g/L不含尿嘧啶的合成释放培养基(Sigma Aldrich),20g/L葡萄糖和20g/L琼脂。在30℃下孵育2-3天后,将单个菌落再划线到新鲜的SCMM-U琼脂平板上。包括NifD基因或其他Nif基因的基因构建体的存在通过使用基因特异性引物的PCR证实。将含有基因构建体的单个菌落接种到SCMM-U液体培养基(含有与SCMM-U琼脂相同的组分但不含琼脂)中,在30℃下振荡生长2天。添加甘油至20%的最终浓度,并且将等分试样储存在-80℃直至进一步使用。
为了表达包含在基因构建体中的基因,将来自甘油原种的接种物在SCMMM-U液体培养基中在30℃下振荡生长2天。通过离心从培养物中收集细胞,并重悬于SCMMM-U诱导培养基中,该诱导培养基与SCMMM-U液体培养基相同,除了用20g/L半乳糖代替葡萄糖,至最终OD600为0.4。用于诱导的培养物在30℃振荡生长2天,并通过离心收集酵母细胞用于蛋白质提取和蛋白质印迹分析。
实施例2.通过表达MTP-Nif融合多肽在植物细胞的线粒体中产生Nif多肽
发明人先前已经报道了通过导入编码与Nif多肽的N端连接的线粒体靶向肽(MTP)的翻译融合体的嵌合基因,在植物细胞的线粒体中成功产生16种不同的Nif多肽(Allen等人,2017;WO2018/141030)。所用的MTP序列包括来源于拟南芥F1-ATPase(At2G33040;Lee等人,2012)的长度为77个氨基酸之一(SEQ ID NO:20的氨基酸1-77),并且本文指定为MTP-FAγ77,其用Gly-Ala-Pro(GAP)的3-氨基酸接头将MTP连接至Nif多肽的N端,提供翻译的Nif多肽的80个氨基酸的N端延伸区。MPP的切割发生在42个氨基酸之后,留下与目的Nif多肽融合的38个氨基酸残基的N端延伸区,35个残基来自MTP-FAγ77加上GAP。该N端延伸区称为FAγ-scar38。各Nif多肽的天然翻译起始甲硫氨酸残基因此被scar-38序列替换。这些实验没有测试所产生的Nif多肽的正常功能。
本发明人试图从MTP-FAγ77的77个氨基酸缩短MTP序列,用于在植物细胞中与Nif多肽一起使用,同时仍然保持MTP功能。发明人检查了是否可以从MTP-FAγ77的C端修剪26个氨基酸以产生命名为MTP-FAγ51(SEQ ID NO:21)的MTP。该序列具有作为克隆过程的结果而添加的C端GG。发明人预测MTP-FAγ51将在氨基酸42之后被MPP切割,在加工的融合多肽的N端留下来自MTP-FAγ51的9个氨基酸(ISTQVVRNR;SEQ ID NO:22),并由于克隆过程而留下连接GG。该9氨基酸序列命名为FAγ-scar9或简称为scar9。
为了测试MTP-FAγ51相对于较长的形式的功能,首先制备编码与NifH融合的该MTP的基因构建体。修饰的NifH基因与pRA10中的NifH基因(编码MTP-FAγ77+GAP::NifH::HA;SEQ ID NO:23)相同,不同的是所编码的多肽具有与NifH的N端融合的MTP-FAγ51而不是MTP-FAγ77。为了克隆的目的,该多肽仍然包括GAP氨基酸。基于pRA10中的核苷酸序列,对两种构建体中的NifH编码区进行密码子优化以在人细胞中表达。两种构建体都包括在Nif多肽的C端编码HA表位标签的序列,以提供用HA抗体检测和纯化多肽。缩短的构建体命名为pRA34(编码MTP-FAγ51+GAP::NifH::HA,SEQ ID NO:24)。
制备称为SN18并编码具有SEQ ID NO:25提供的氨基酸序列的NifH融合多肽的第二种构建体,其包括相对于pRA34的旨在增加表达水平的几种修饰。使用增强的35S启动子(e35S;Kay等人,1987)表达融合蛋白,添加附加的N端Met作为翻译起始,在蛋白质编码区的上游添加TMV 5’-UTR并将密码子使用转换为拟南芥密码子使用。进行所有这些修饰以增加转录和翻译水平的表达水平。另外,在MTP之后立即使用氨基酸GG代替GAP。还制备了第三种构建体,命名为SN29并编码具有SEQ ID NO:26提供的氨基酸序列的NifH融合多肽,其中该多肽在MTP-FAγ51序列(SEQ ID NO:36)之后以及GG和NifH序列(MTP-FAγ51::HA::NifH)之前具有HA表位标签。这两种构建体都是通过GoldenGate克隆方法(Weber等人,2011)制备的,该方法提供了如Engler(2014)所述的以模块方式将遗传成分与特定组分组装到构建体中。
这些构建体在本生烟叶片系统进行路测试,并与较长构建体pRA10进行了比较。从压渗的叶片组织产生蛋白质提取物,并使用HA抗体进行SDS PAGE和蛋白质印迹分析以评估蛋白质表达水平和MPP加工效率。作为未加工的融合多肽的尺寸的对照,将来自表达pRA34和pRA10的大肠杆菌的蛋白质提取物在凝胶上的相邻泳道中电泳。细菌提取物产生未加工的MTP::NifH预期尺寸的多肽条带。相比之下,被这些构建体压渗的本生烟叶片组织的蛋白质提取物产生的多肽条带尺寸较小,与MPP加工多肽的预期尺寸一致。由于缩短的MTP序列,根据多肽之间预期尺寸的差异,来自pRA34和SN18的MTP-FAγ51::NifH::HA以及来自SN29的MTP-FAγ51::HA::NifH多肽的表达各自在比MTP-FAγ77+GAP::NifH::HA更小的MW处产生条带。来自SN18的表达至少与来自pRA34的表达一样强;两者均较强。发明人得出结论,缩短的MTP-FAγ51能够将合成的NifH融合多肽导向植物细胞的线粒体,并在线粒体中通过MPP加工。
基于编码NifH多肽的pRA34、SN18和SN29的成功,用编码相应MTP-FAγ51形式的其他15种Nif多肽测试较短的MTP序列。使用GoldenGate方法(Weber等人,2011)制备一系列用于此的基因构建体(表3和4)。GoldenGate克隆系统用于组装不同的基因元件,包括启动子、5'-UTR、3'-UTR、N端和C端延伸区和终止子。每个元件具有限定的边界,其允许模块化组装和元件的轻松更换。因此,这种具有Engler等人(2014)描述的组件的克隆系统用于在以下实施例中测试用于生产MTP::Nif融合多肽的多种不同基因构建体。由于GoldenGate克隆系统利用了在其识别序列之外切割的IIS型限制性酶,因此可以避免使用连接序列内的限制性酶克隆位点。这允许构建编码MTP::Nif融合多肽的基因,而不含在早期构建体中存在的Gly-Ala-Pro序列。如上所述,取而代之的是MTP::多肽融合结合处的Gly-Gly桥,以适应GoldenGate系统。由于甘氨酸通常出现在MTP序列的-1位,因此选择甘氨酸作为该接头的标准氨基酸。作为例外,表达NifK融合多肽(SN140)的构建体具有插入在MTP-FAγ51和NifK序列之间的HA表位,通过Gly-Gly桥与野生型C末分开。这种变异是由于先前已经观察到NifK多肽需要野生型C端(不含C端延伸区)来获得活性(WO2018/141030)。
制备第二组平行的基因构建体,其编码细胞质定位的Nif多肽而不是线粒体定位的多肽。这是通过用编码6×His氨基酸基序(SEQ ID NO:27)的核苷酸序列替换构建体中的MTP-FAγ51编码序列来完成的。6×His基序具有与由MPP介导的MTP-FAγ51序列切割产生的FAγ-scar9基序相似的分子量。融合至6×His的多肽在其他方面与MTP-FAγ51::Nif::HA多肽相同,包括存在C端HA表位。因此,6×His形式的多肽为蛋白质印迹上相应的MP加工的FAγ-scar9::Nif::HA多肽提供了合适的分子量对照。例外的是表达NifK(SN72)的对照(细胞质定位的)构建体,其具有N端融合的HA表位,不含MTP序列,而不是6×His基序。未加工的MTP-FAγ51::Nif::HA多肽和6×His融合多肽的基因构建体和融合多肽的预测分子量列于表3中。
表3构建质粒以测试本生烟叶片中表达的Nif多肽的线粒体靶向效率和蛋白质溶解度。编码细胞质定位的多肽的质粒具有6×His基序而不是MTP序列。使用VNti软件计算预测的多肽尺寸(kDa)。
Figure BDA0003343176700000761
Figure BDA0003343176700000771
用于这些融合的NifD和NifS多肽序列是根据Temme等人(2012)的序列。这些氨基酸序列分别在SEQ ID NO:18和SEQ ID NO:19中提供。SEQ ID NO:18的NifD氨基酸序列与SEQ ID NO:2提供的483个氨基酸的序列的不同之处在于在位置39、41、87、96、355和483处的6个氨基酸置换。SEQ ID NO:19的NifS氨基酸序列与SEQ ID NO:11提供的400个氨基酸的序列的不同之处在于在位置110、113、124和290处的4个氨基酸置换。本文指定的含有NifD序列或NifS序列的SN号的所有基因构建体使用根据Temme等人(2012)的序列。
将每个构建体导入本生烟叶片细胞,并且5天后,从压渗的叶片组织中提取蛋白质,并通过蛋白质印迹法分析。来自表达6×His多肽的构建体的样品,包括作为相应MPP加工的FAγ-scar9::Nif::HA多肽的蛋白质印迹上的分子量标记(参见表3),在凝胶上的相邻泳道中进行电泳。使用与每种Nif多肽的C端融合的HA表位检测多肽。
通过MPP加工的结果示于图1中并总结于表4中。当翻译融合为MTP::Nif融合多肽时,MTP-FAγ51为几乎所有的Nif多肽产生切割的MTP::Nif多肽,但不是所有的Nif多肽具有相等的效率。NifQ加工最少,当在一个实验中通过蛋白质印迹分析总蛋白时,仅检测到痕量的加工形式,在另一个实验中未检测到。当与FAγ51融合时,NifF、NifM、NifV、NifX、NifY和NifZ融合多肽仅被部分加工,而包括NifB、NifE、NifK、NifN、NifS、NifU和NifW的其他Nif融合多肽被有效加工,证明不同的Nif的加工效率对于一个MTP可以不同。检测到低水平的NifD融合多肽,但始终显示降解产物(参见下文)。至于相对表达水平,编码NifY的基因构建体产生的多肽水平低于除NifD之外的其他多肽。认为这是由于NifY基因的表达水平较低,例如与其他Nif蛋白相比翻译速率较低和/或多肽的不稳定性。将NifY编码区与不同于FAγ51的MTP融合是提高多肽积累水平的一种方法。
观察到一些Nif多肽在细胞质定位的多肽(6×His)相对于线粒体定位的多肽的量上的差异。特别地,靶向线粒体的NifB、NifE、NifH、NifU和NifV多肽比靶向细胞质的相应多肽累积至更高的水平,而其他Nif多肽的累积水平在线粒体和细胞质形式之间近似相等。这种趋势的唯一例外是NifN,其中细胞质靶向的多肽累积到比线粒体对应物更高的水平。
在来自编码NifE、NifH、NifB、NifU和NifZ的构建体的蛋白质印迹中也观察到一些较高分子量的多肽条带(图1)。认为这些条带可能对应于对样品制备中使用的强变性条件具有抗性的二聚复合物。以前,使用不同的MTP对于各种线粒体靶向的Nif蛋白观察到类似的高分子量条带(Allen等人,2017)。
比较pRA10和SN18的蛋白质印迹以及编码NifH、NifM、NifS和NifU的构建体显示在图2中。图2的样品包括从编码MTP-FAγ77::NifK融合多肽的pRA25共压渗或未共压渗的配对压渗中提取的蛋白质(WO2018/141030),以便测试NifK的加入是否会影响表达和/或MPP加工。加入NifK对NifH、NifM、NifS和NifU的表达和加工没有观察到差异。
从这些实验中得出结论,MTP-FAγ51氨基酸序列能够将所有nif多肽靶向植物细胞中的线粒体基质,并且提供用于MPP加工,除了NifQ多肽的加工。多肽表达水平和加工效率与较长的FAγMTP一样好。另外,在一些情况下,在印迹中用HA抗体检测到较小尺寸的多肽条带(被认为是指示降解产物),例如pRA34。本发明人得出结论,较短的MTP序列可以出乎意料地减少MTP::Nif降解。
备选MTP
测试了一系列不同的MTP序列以评估它们在将Nif多肽转移到植物细胞的线粒体基质中的性能。选择几种不同长度(30-70个氨基酸残基)的MTP。预测这些在被MPP切割后在Nif多肽的N端融合留下不同长度的剩余氨基酸残基(“瘢痕序列”或简称“瘢痕”)(表5)。瘢痕序列的长度为0-36个氨基酸残基。由于NifD是Nif多肽中最难以表达的,使用GoldenGate克隆系统,使用这些MTP与几个Nif的组合组装17种不同的基因构建体以在植物细胞中表达,特别是表达NifD融合多肽(WO2018/141030)。这些构建体的启动子、5'和3'UTR和终止子是相同的。
将含有这些构建体的根癌农杆菌培养物(每种构建体与产生P19沉默抑制蛋白的构建体混合)如实施例1所述分别导入本生烟叶片中,并在压渗后5天产生蛋白提取物。对蛋白质提取物进行SDS-PAGE和蛋白质印迹分析。对于具有MTP::NifD构建体的压渗,SN46(pSu9::NifK)被共压渗,因为无C端延伸区的NifK的共同表达已经被证明可以增强NifD的丰度(WO2018/141030)。
测试了融合到NifD的CPN60 MTP的两种形式。在一种形式中,MTP是融合的,使得Gly-Gly接头置于CPN60 MTP(SEQ ID NO:28)和NifD(SN11)之间。在存在的每种情况下,Gly-Gly接头通过GoldenGate克隆方法插入,但可以认为是MTP序列的一部分。在另一种形式(SN4)中,CPN60MTP(SEQ ID NO:29)直接与NifD多肽的第一个甲硫氨酸融合。由于预测CPN60在其氨基酸序列中的C端酪氨酸之后立即被切割,该结构理论上将产生具有野生型N端的NifD多肽,即没有“scar”,而SN11构建体被预测在MTP(GlyGly)::NifD融合被切割后留下Gly-Gly延伸区。令人惊奇的是,这些非常相似的构建体产生不同的结果,如蛋白质印迹分析所证明的:SN11产生未加工的CPN60(GlyGly)::NifD预期大小的多肽条带,而SN4产生对应于加工和未加工多肽的条带,其中存在比加工多肽更多的未加工多肽。此外,当通过蛋白质印迹将来自SN4压渗的蛋白质与从平行的pRA24+pSN46(FAγ77+GAP::NifD::HA +Su9::NifK)压渗中提取的蛋白质进行比较时,显然,SN4构建体产生的正确加工的多肽比pRA24构建体少得多。因此,可见尽管CPN60 MTP能够靶向融合多肽并允许基质作用以产生野生型NifD多肽,但表达水平和加工效率都较低(US2016/0304842)。对于SN11,CPN60和NifD之间的Gly-Gly接头可能阻止MTP的加工。
还测试了几种来源于超氧化物歧化酶(SOD)多肽的MTP,它们是单一的或串联的MTP,在Gly-Gly接头之前的C端包含或不包含Ile和Gln。对于含有不含Ile和Gln残基的SODMTP(SN15,SEQ ID NO:32和SN16,SEQ ID NO:33)的形式,通过蛋白质印迹分析未检测到多肽,而保留Ile和Gln残基的SOD MTP(SN12,SEQ ID NO:30和SN13,SEQ ID NO:31)的形式确实产生可检测的多肽,尽管似乎它们没有被MPP加工过。相比之下,另一种测试的MTP,L29(SN17,SEQ ID NO:34)在与NifD融合时产生强的多肽信号。由于使用这种MTP加工的形式和未加工的形式之间的大小差异很小,将需要附加的实验来确定加工效率。预期L29 MTP以有效的方式产生切割的Nif多肽。发明人用twin strep标签测试了CoxIV MTP(Burén等人,2017),twin strep标签融合在MTP的C端但位于Gly-Gly接头上游(SN19,SEQ ID NO:37)。当与NifD融合时,该MTP通过蛋白质印迹分析也给出强信号,其大小与线粒体基质作用一致。
表4MTP::Nif多肽的MPP加工水平、植物线粒体中的溶解度和细菌测定中scar9-Nif的功能性的总结。是(p)表示部分(小于50%)MPP加工。经加工的Nif的溶解度得分为:-不溶性或微溶性;+,部分可溶性,++大部分或完全可溶性。Nt:未测试。使用MIT2.1载体系统在大肠杆菌JM109中进行功能测试。
Figure BDA0003343176700000781
Figure BDA0003343176700000791
表5用于在使用GoldenGate系统在植物中测试的MTP的细节。kDa F/P:未加工的MTP的全长尺寸/以kDa计的加工的MTP的尺寸。Scar(瘢痕)=在MPP加工后剩余的N端延伸区的预测氨基酸序列。
Figure BDA0003343176700000792
Figure BDA0003343176700000801
实施例3.Nif融合多肽在植物线粒体中的溶解度
固氮酶蛋白组分在线粒体基质中的溶解度被认为是植物细胞线粒体中固氮酶功能重建的先决条件。尽管Nif多肽如NifD在固氮细菌中是可溶的,但不知道在植物细胞中表达合成的MTP::NifD融合多肽是否将提供可与其他Nif组分结合的可溶性多肽,特别是在线粒体基质中。不溶性可能是许多因素的结果,包括聚集物的形成以及与细胞膜的结合,并且可能妨碍功能。
在本生烟叶片细胞中。因此,发明人评估了MTP-FAγ51::Nif::HA多肽和几种其他多肽在基因构建体(参见表4)在本生烟叶片细胞中表达后的溶解度。如实施例1所述制备可溶性和不溶性级分的蛋白质提取物以及包括可溶性和不溶性蛋白质的未分级的“总蛋白”样品。用于制备可溶性级分的缓冲液含有非离子去污剂
Figure BDA0003343176700000802
其被加入以裂解膜并释放线粒体基质蛋白。认为温和的非离子去污剂不太可能使Nif多肽变性。相比之下,在凝胶电泳之前,用含有相对高浓度的SDS(一种已知能有效变性蛋白质的强阴离子去污剂)的缓冲液溶解不溶性级分的蛋白质,并用高温处理。然后使用抗HA抗体对样品进行凝胶电泳和蛋白质印迹以检测印迹上的多肽。
进行了若干观察以测试该方法是否正确地区分可溶性和不溶性蛋白质。如预期的,转移后凝胶上剩余多肽的考马斯染色显示Rubisco存在于可溶性级分中。在不溶级分中仅发现痕量的Rubisco。也用异柠檬酸脱氢酶(IDH)抗体分析蛋白质印迹。IDH是参与柠檬酸循环的氧化还原酶,已知其位于线粒体基质中并可溶。蛋白质印迹显示在可溶性级分中存在IDH,表明线粒体被成功裂解,并且预期为可溶性的线粒体基质蛋白确实存在于可溶性级分中。这些观察表明,通过使用的方法,可溶性蛋白质被成功地提取并分级分离成可溶性样品。
然后将该方法应用于Nif融合多肽;代表性的蛋白质印迹显示在图3中,结果总结在表4中。可溶性级分中MPP加工的Nif多肽的丰度对于不同的pFAγ51::Nif::HA是不同的。以下来自MTP-FAγ51::Nif::HA融合多肽翻译产物的MPP加工多肽似乎可溶于或大部分可溶于线粒体:NifF、NifM和NifU。对于其他融合多肽,NifN、NifQ、NifS、NifW、NifY和NifZ是部分可溶/部分不溶的。以下物质似乎是不溶的或仅微溶的:NifB、NifD、NifE、NifH、NifJ、NifK(具有NifK序列N端的HA表位标签)、NifV和NifX,特别是pFAγ51::NifQ::HA产生了大约为可溶性级分中正确加工形式大小的微弱条带,其在总蛋白泳道中是不可检测的。特别重要的是,MTP-FAγ51::NifD::HA(来自SN10)、MTP-FAγ51::NifE::HA(来自SN38)和MTP-FAγ51::HA::NifK(来自SN140)中的每一个在它们作为单个多肽单独表达时,基本上是不溶性的——几乎没有检测到这些多肽的线粒体可溶性形式,尽管在本生烟叶片细胞中积累了大量的多肽。对于NifH融合多肽,MTP-FAγ77::NifH(来自SN150)在自身作为单一多肽表达时基本上是不溶的,而只有少量的MTP-CoxIV::twin strep::NifH(来自SN42)在作为单一多肽单独表达时是可溶的。此外,MTP-FAγ51::NifD(来自SN10)多肽在与来自SN46的MTP-Su9::NifK多肽共表达时同样基本上是不溶的。结论是,这四种对于固氮酶功能必需的多肽中的每一种在被表达以导入线粒体基质时都存在溶解性问题。
为了评估大气中的氧气是否影响Nif蛋白溶解度,如实施例1所述在厌氧条件下从压渗的植物中分离相同的16pFAγ51::Nif::HA蛋白,并如前所述进行蛋白质印迹分析。观察到蛋白质提取过程中的厌氧条件未显著改变Nif融合多肽的溶解度。结论是观察到的一些Nif多肽的不溶性不是由于暴露于氧,即使许多Nif多肽对氧敏感。
进一步的蛋白质印迹分析显示如下:MTP-FAγ51::NifB::HA多肽(由SN192产生)是不溶的,在可溶性级分中未检测到条带。NifB也是固氮酶功能所必需的。MTP-FAγ51::NifF::HA多肽(SN138)在MPP加工之前和之后对于这两种多肽几乎完全可溶——在印迹上显示两条条带,推测其代表MPP加工的和未加工的形式。MTP-FAγ51::NifJ::HA多肽(SN139)基本上是不溶的,在可溶性级分中仅检测到非常微弱的条带。MTP-FAγ51::NifM::HA多肽(SN30)在MPP加工后大部分是可溶的。对于MTP-FAγ51::NifS::HA(SN31),在印迹上观察到两条带,推测其代表MPP加工的和未加工的多肽。两者都是部分可溶的。MTP-FAγ51::NifV::HA多肽(SN142)基本上是不溶的,在可溶性级分中仅检测到非常微弱的条带。MTP-FAγ51::NifX::HA(SN144)多肽在MPP加工后是部分可溶的。MTP-FAγ51::NifY::HA多肽(SN145)大部分是可溶的,尽管在该实验中仅以低水平表达。MTP-FAγ51::NifZ::HA多肽(SN146)部分在可溶性级部分中,部分不溶。在该实验中,Rubisco和IDH都存在于“总蛋白”和可溶性级分中,而基本上不存在于不溶性级分中,表明用于分级分离的方法是有效的,并且确实提取了可溶性蛋白。
为了确定这些溶解度问题的原因,制备编码NifD、NifH和NifK融合多肽的基因构建体,其缺少N端MTP序列。预测这些多肽位于植物细胞的细胞质中,而不是线粒体中。使用GoldenGate组装方法制备编码NifD(SN33)、NifH(SN71)、NifK(SN72)的构建体,每种多肽仅具有与Nif序列的N端融合的Gly-Gly连接的HA表位标签。例如,SN33编码HA:NifD融合多肽,不含C端HA表位标签,那么基本上N端MTP-FAγ51序列被HA表位序列替换。经由根癌农杆菌将这三种构建体分别导入本生烟细胞,并对可溶性和不溶性蛋白级分进行多肽的蛋白质印迹分析。蛋白质印迹显示每种多肽基本上完全溶于植物细胞。结论是当与MTP序列融合时,NifD、NifH和NifK融合多肽的溶解度问题以某种方式与将Nif多肽靶向植物线粒体有关。
实施例4.MTP切割后Nif融合多肽的功能测试
实施例2描述了本生烟叶片细胞中Nif融合多肽的产生以及线粒体中融合多肽的递送和加工。融合多肽被设计成具有添加到Nif多肽的N端的MTP和添加的表位标签(有时作为N端延伸区,但最常作为C端延伸区)的框内融合体。尽管蛋白质折叠和结合的模型化预测大多数N端和C端延伸区不应阻止复合物形成和固氮酶功能,但本发明人希望测试这些延伸区是否可能影响融合多肽相对于天然Nif多肽的功能。为此建立了使用pMITv2.1载体(Smanski等人,2014;本文称为pMIT2.1或MIT2.1)的衍生物测试固氮酶功能的细菌系统。固氮酶活性所需的所有野生型基因都包含在单一的细菌表达载体pMIT2.1中,其中基因的表达用来自第二质粒pN249的诱导型启动子/T7-RNA聚合酶系统控制。当在大肠杆菌中表达时,产生全组野生型细菌Nif多肽,并一起提供固氮酶复合物,其活性可以通过从乙炔中产生乙烯来检测(乙炔还原检测,ARA),这是固氮酶活性的实际测量。
该系统允许在大肠杆菌中通过添加到其他野生型固氮酶系统中来单独测定每个修饰的多肽。这是通过将pMIT2.1中编码野生型Nif多肽的Nif基因替换为编码待测Nif融合多肽的相应的修饰的Nif基因来实现的。也可以在该系统中测试对两种或多种Nif多肽的修饰的组合。然而,pMIT2.1载体非常大,为22,946bp,使其难以整合基因修饰。为了使pMIT2.1载体系统更有效,首先通过PCR将MIT2.1质粒分成两半。含有NifHDKYENJ基因的前半部分使用在每一端掺入SbfI限制酶切位点的引物扩增,即,MIT_V2.1_SbfInifH_FW2 5’-AACCTGCAGGTGACGTCTAAGAAAAGGAATATTCAGCAAT-3’(SEQ ID NO:45)和MIT_V2.1_SbfInifJ_RV2 5’-AACCTGCAGGGCTAACTAACTAACCACGGACAAA AAACC-3’(SEQ ID NO:46),并连接到受体载体pCRBlunt II TOPO(Thermo Fisher Scientific)中,形成本文命名为pTopoH-J的载体。含有NifBQFUSVWZM基因的Nif基因簇的另一半使用也在每个端掺入SbfI限制性酶切位点的引物扩增,即MIT_V2.1_SbfInifB_FW 5’-AACCTGCAGGTACTCTAACCCCATCGGCCGTCTTA-3’(SEQ IDNO:47)和MIT_V2.1_SbfIori_RV5’-AACCTGCAGGTACGTAGCAATCAACTCACTGGCTC-3’(SEQ IDNO:48)。该PCR产物用SbfI消化并自连接以形成自我复制载体,本文称为pB-ori。为了改造pMIT2.1及其衍生物,用SbfI消化pTopoH-J和pB-ori或具有修饰的衍生物,并将Nif基因簇的两半连接在一起。
如实施例2所述,在植物线粒体中切割MTP-FAγ51氨基酸序列,留下9个氨基酸残基(FAγ-scar9;SEQ ID NO:22),在SN构建体的情况下加上插入Gly-Gly接头,与加工的Nif融合多肽的Nif多肽的N端融合。为了测试每种融合多肽在野生型固氮酶复合物中的功能,使用上述策略,将编码除N端Ile残基被Met置换用于翻译起始外的9个氨基酸的DNA片段(MSTQVVRNR,SEQ ID NO:49,命名为mscar9)直接插入pMIT2.1中每个Nif基因的翻译起始密码子的上游。例外是NifX,因为pMIT2.1不包含NifX,因此无法在该系统中测试经修饰的NifX。对于每种构建体,设计DNA片段,使得当直接在编码任一种Nif多肽的基因的起始密码子的上游框内融合时,嵌合基因将编码与所选择的Nif多肽的翻译融合多肽。预期在大肠杆菌中翻译后去除翻译起始Met,因为已知第二位置的丝氨酸促进酶MAP去除起始Met(Hirel1989,Xiao2010)。如果发生这种情况,得到的N端延伸区将是8个氨基酸残基。通过用Q-TRAP液相色谱串联质谱对半胰蛋白酶肽STQVVR(SEQ ID NO:50)的靶多反应监测离子进行增强的产物离子扫描来确认起始Met残基的去除(参见下文)。
对于野生型细菌Nif多肽,其中翻译起始Met残基在细菌中翻译后被去除,每个Nif蛋白的N端延伸区的长度是9个氨基酸,其中STQVVRNRM(SEQ ID NO:51)序列与Nif的剩余部分融合,其中末端Met是Nif多肽的翻译起始氨基酸。
作为pMIT2.1的修饰及其测试的实例,在这种情况下,为了将9个氨基酸的mscar9肽MSTQVVRNR(SEQ ID NO:49)的翻译融合体导入到Nif多肽的N端,将编码这些氨基酸的核苷酸序列添加到正向引物的5'端,所述正向引物杂交到每个Nif基因的编码序列的5'端。对于每个被修饰的Nif基因,设计与特定Nif基因的5'端相邻的反向引物。使用连接循环反应(LCR;de Kok等人,2014)连接修饰的PCR产物,之后,未修饰的pMIT2.1的另一半在用SbfI消化后与修饰的一半重新连接。例如,为了将MSTQVVRNR(SEQ ID NO:49)的翻译融合体导入NifB的N端,以pB-ori为模板将引物5’-ATGTCAACTCAAGTGGTGCGTAACCGCATGACCTCTTGTTCGTCGTT-3’(SEQ ID NO:52)和5’-TTTAGCCCTCCTATGATTGATTTGATGTATTACAGAGAGG-3’(SEQ IDNO:53)用于PCR,得到11,565bp的产物。使用de Kok等人(2014)的方法,通过LCR将PCR片段与桥连寡聚物5’-GGTTACGCACCACTTGAGTTGACATTTTAGCCCTCCTATGATTGATTTGATG-3’(SEQ IDNO:54)连接,并用于转化大肠杆菌DH5α。用SbfI消化所得构建体pB-ori_scar9B,并将其连接到来自含有未修饰的NifHDKYENJ基因的pTopoH-J的SbfI片段,产生编码融合多肽的修饰的pMIT2.1载体,所述融合多肽具有添加到NifB的N端延伸区,本文命名为pSO006。通过对修饰的一半(无论是pTopoH-J一半还是pB-ori一半)进行测序,证实所得修饰的基因构建体的核苷酸序列是正确的。
将每个基因构建体导入含有pN249的大肠杆菌DH5α菌株中,并如实施例1所述,培育用两种载体转化的细胞的培养物。使用16个Nif基因中缺少7个的pB-ori作为阴性对照。在实验中包括缺乏NifM的改变的pMIT2.1,称为ΔNifM(参见Lei等人,1999;Howard等人,1986)。在用IPTG诱导基因表达后,在乙炔还原检测中测试转化细胞的乙烯产生。表4和5中总结的结果显示JM109中的百分比函数,其计算为含有修饰的pMIT2.1的大肠杆菌JM109中的乙炔还原活性相对于含有未修饰的pMIT2.1的JM109中所见的乙炔还原活性。未修饰的对照pMIT2.1产生阳性乙烯产量。这些检测显示,与用未修饰的pMIT2.1观察到的乙烯产生水平相比,向NifB的N端添加9个氨基酸延伸区mscar9略微增加了固氮酶功能。
以类似的方式,剩余的15个Nif在其各自的N端也允许9个氨基酸的延伸,对NifH、NifJ、NifQ和NifF具有完全的活性,但对其他Nif的活性有所降低。在第一个实验中,NifH、NifD、NifK、NifE和NifN的N端的9个氨基酸延伸区产生的乙炔还原活性水平分别为未修饰的pMIT2.1的100%、50%、70%、30%和50%。其他Nif多肽,即NifJ、NifY、NifQ、NifF、NifU、NifS、NifV、NifW、NifZ和NifM,与未修饰的pMIT2.1相比,分别显示200%、60%、100%、100%、80%、50%、90%、30%、60%和10%的活性(表4)。
重复实验多次,且平均日期(n=2-6)如表6所示。大肠杆菌中单个scar9::Nif多肽的功能测试显示所有16种Nif融合多肽都保持活性,尽管不同Nif的活性水平有相当大的变化。值得注意地,scar9::NifJ的活性是阳性对照的3倍,而scar9::NifQ、scar9::NifH、scar9::NifB和scar9::NifF相对于相应的野生型Nif多肽在ARA活性上显著增加,但相对于未修饰的pMIT2.1显示出约130-150%的活性,因此小于用scar9::NifJ观察到的活性增加。相比之下,scar9::NifM相对于野生型NifM仅保留约10%的活性。
鉴于pMIT2.1系统中scar9-NifJ(pSO028)的高活性,与未修饰的对照相比活性高2-3倍,进一步研究修饰NifJ的影响。除去pMIT2.1的整个NifJ区域,产生ΔNifJ-MIT2.1(pSO014)。用pSO014进行的乙炔还原检测发现其活性与pMIT2.1相似,表明NifJ在JM109中的ARA检测系统中是冗余的。因此,pMIT2.1系统中scar9-NifJ(pSO028)活性增加可能是由于基因剂量效应。
根据实施例2-4中描述的实验,发明人得出结论,尽管每种表达构建体使用相同的MTP和启动子,16种不同MTP::Nif多肽的丰度、MPP加工和溶解度是不同的。然而,当其他Nif蛋白作为野生型多肽表达时,所有的Nif融合多肽在一定程度上对大肠杆菌中的固氮酶活性起作用,确实有些具有增加的活性。观察到的变化表明每种Nif多肽具有影响多肽积聚的量、其运输和MPP加工的内在特征。关键组分NifH和NifK易于表达和检测;已知这些蛋白质需要高水平的固氮酶活性。然而,在叶片实验中它们与NifB、NifD、NifE、NifJ和NifV都是不溶的。除了NifD,NifY融合多肽在这些实验中以Nif多肽的最低水平表达。一些Nif多肽在基质中被MPP成功切割,并相对于它们的细胞质对应物积累到更高的水平,表明线粒体定位是在被MPP切割后稳定融合多肽的方式。MTP::NifQ融合多肽切割不充分,可能是因为NifQ前蛋白由于对解折叠或误靶向的抗性而不能进入线粒体基质。
在这些实验中,具有来自产酸克雷伯氏杆菌的NifH的融合多肽不溶于植物线粒体基质。因为NifH在细菌中的稳定性和溶解度可能需要NifM(Lei等人,1999;Howard等人,1986)后一实验在瞬时叶片测定中测试了靶向线粒体的NifH和NifM的组合。
具有产酸克雷伯氏杆菌NifB的融合多肽在线粒体定位时是不溶的,与在靶向酵母和植物线粒体时的棕色固氮菌NifB所述的结果一致(Burén等人,2017a)。
综合考虑这些数据,本发明人得出结论,7种Nif融合多肽(即NifF、NifN、NifS、NifU、NifW、NifY和NifZ)以良好水平表达、被有效加工,并以主要可溶形式定位于线粒体基质,尽管NifY的丰度相对较低。这些N端融合多肽在被MPP切割后保留了合理的活性水平(表6)。
表6pFAγ51的9个氨基酸‘scar’(scar9)肽翻译融合至单独的Nif蛋白对大肠杆菌固氮酶功能的影响。数值以与pMIT2.1相比的乙炔还原活性%表示。pB-ori,阴性对照;ΔNifM、NifM编码序列从pMIT2.1中去除。
Figure BDA0003343176700000841
实施例5.Scar9-Nif融合多肽的检测
为了检测细菌系统中表达的特异性融合多肽,采用液相色谱-质谱(LC-MS)方法。该方法结合了液相色谱的物理分离能力和质谱(MS)的质量分析能力,以检测用胰蛋白酶消化蛋白质提取物所产生的特异性肽。
培养分别含有每种修饰的pMIT2.1载体以及pN249的大肠杆菌JM109菌株,并如实施例1所述提取蛋白质。在还原、烷基化和胰蛋白酶消化之前将蛋白质样品储存在-20℃。使用如实施例1中所述的过滤辅助样品制备(FASP)方案将蛋白质样品还原、烷基化并用胰蛋白酶处理,并通过如实施例1中所述的LC-MS分析。测试的样品列于表7中。样品5-19的每个基因构建体编码一种修饰的Nif多肽,其他15种Nif多肽是野生型产酸克雷伯氏杆菌。样品1-4没有任何多肽,包括LC-MS。
表7用于通过LC-MS检测融合多肽的基因构建体
Figure BDA0003343176700000851
nd:未检测
最初,评估4个样品的胰蛋白酶消化效率。样品5(NifB)和6((NifE)用胰蛋白酶消化两次,孵育30分钟并过夜(16-18小时)。使用Eksigent microLC在6600Triple TOF质谱仪上对每个样品注射4μL胰蛋白酶肽(85分钟)。使用ProteinPilot针对物种特异性UniProtKnowledgebase(UniProtKB)数据库处理数据,该数据库附加有自定义和杂质数据库:Uniprot-Swiss Prot大肠杆菌+自定义数据库(Mit2Nif)+外源蛋白通用存储库(CommonRepository of Adventitious Proteins);Mit2Nif+Mit2.1 Nif-Scar。这些数据库包括用胰蛋白酶消化Nif蛋白产生的所有预测肽。来自编码FAγ-Scar9-NifB和FAγ-Scar9-NifE的构建体的蛋白质样品5和6预期含有16种Nif蛋白,其中15种是野生型,而第16种分别在NifB和NifE上具有scar9。
与较长时间的消化相比,30分钟的较短持续时间的胰蛋白酶消化产生更多的蛋白质/肽识别。大肠杆菌样品全组(#1-19)随后用胰蛋白酶消化1小时而不是过夜消化。
研究了N端scar9序列的肽鉴定。对于完全切割的MSTQVVR(SEQ ID NO:55)和半胰蛋白酶的MSTQVVRNR(SEQ ID NO:49)肽,发现有限的IDA(6600TF LC-MS/MS)证据,具有低的肽鉴定置信度。还使用MRM评估了具有未修饰或氧化的甲硫氨酸残基的肽。然而,这些肽在测试样品中使用6600TF LC-MS/MS和ProteinPilot数据库搜索或靶向MRM 6500QTRAP LC-MS/MS都不能得到证实。
作为对低肽鉴定置信度的解释,认为翻译起始甲硫氨酸可能已经在细菌中翻译后切割掉。当重组蛋白在细菌表达系统中表达时,认为起始甲硫氨酸通常被甲硫氨酸氨肽酶(MAP)以基于与N-甲硫氨酸相邻的残基尺寸的效率切割(Hirel 1989,Xiao 2010)。当第2位残基是Ser残基时,如FAγ-scar9-Nif多肽的情况,估计N端Met经常被切割(84%效率)。
因此,从Nif融合多肽评估另外的修饰肽:STQVVR(+1,+2)(SEQ ID NO:50)和半胰蛋白酶肽STQVVRNR(+2,+3)(SEQ ID NO:56)。肽STQVVR(SEQ ID NO:50)较短且在以前的分析中没有鉴定,可能有三个原因。首先,它的质量(688Da)将产生低于标准LC-MS参数(m/z范围350-2000)中设定的m/z值(345.2,+2);其次,它具有低疏水性,因此可能没有保留在柱上;第三,它对于数据库搜索算法来说太短而不能确信地匹配序列。最初,样品#1-19(表7)被汇集并在6600TF LC-MS/MS上在不同条件下运行,例如将质量范围从m/z 350降低至300并将监测的电荷状态扩展到包括+1而不是仅+2至+5,以及通过定义封装预测的靶质量的包含列表。在光谱数据或数据库检索中,这些改变都没有产生STQVVR(SEQ ID NO:50)的阳性鉴定。
然后使用多重反应监测(MRM)在6500QTRAP上使用具有2个电荷状态的4个跃迁评估胰蛋白酶肽STQVVR(SEQ ID NO:50)和半胰蛋白酶肽STQVVRNR(SEQ ID NO:56)。这产生了STQVVR(SEQ ID NO:50)的峰,通过增强型离子(EPI)扫描研究该峰以获得靶标MRM的全扫描MS/MS谱。这证实了缺乏N端Met的修饰的截短的N端肽的存在。令人鼓舞的是,可以通过这种方法从复杂的蛋白质混合物中检测到特异性FAγ-Scar9-Nif多肽。
然后将该方法用于比较当从大肠杆菌中的修饰的pMIT2.1载体表达时每种不同的FAγ-Scar9-Nif多肽的表达水平。开发了具有230个跃迁的全面MRM方法以评估来自JM109的样品(表7)。这包括针对以下Nif蛋白鉴定的高反应性肽(4个跃迁/肽):B、D、E、F、H、K、M、N、Q、S、U、W、Y和Z。还包括来自FAγ-Scar9和氯霉素乙酰转移酶蛋白(CAT)的对照肽。如实施例1所述,测量每个样品中CAT特异性肽的量以标准化不同构建体之间的Nif水平。注意在每个样品中使用相等的总蛋白量。在所有实验样品中检测到的CAT特异性肽的量相似,表明可以适当地比较在来自pN249/pMIT2.1测定系统的不同样品中产生的Nif多肽的量。观察到衍生自FAγ-Scar9的肽STQVVR(SEQ ID NO:50)的量在样品9(FAγ-Scar9-NifH)和11(FAγ-Scar9-NifM)中最高,这两种都相对于其他样品强烈表达,然后是样品10(FAγ-Scar9-NifK)、14(FAγ-Scar9-NifS)和15(FAγ-Scar9-NifU)。在其他样品5-19中检测到较低的量,NifV可能除外。阴性对照样品1-4中不存在STQVVR(SEQ ID NO:50)肽,正如预期的缺乏MTP-FAγ-scar9序列。
如实施例1所述,使用靶向多重反应监测质谱(MRM-MS)测量大肠杆菌细胞中scar9::NifD、scar9::NifK、scar9::NifH、scar9::NifS和scar9::NifM多肽的量。测量显示所有样品中NifS融合多肽的特异性肽的量大约相同。相比之下,scar9::NifM的差异最大,其中NifM融合多肽的量相对于表达野生型NifM的样品增加约50倍。以相似的方式但在较小的程度上,与NifH融合的scar9肽导致NifH丰度比其他菌株中野生型NifH的量增加2-3倍。正如预期的那样,在缺失NifM基因(ΔNifM)的对照样品中,未检测到NifM特异性肽。同样地,NifD、NifK和NifH特异性肽未在含有pB-ori(其中不存在NifD、NifK和NifH这些基因)的大肠杆菌的样品中检测到。这些分析还显示所有样品中NifD和NifK的丰度相当一致,显著的例外是存在scar9::NifY,NifD和NifK的量降低至在具有野生型NifY的菌株中的水平的约30%。这种NifD和NifK水平的降低通过使用结合野生型NifD或NifK多肽的抗体由大肠杆菌细胞提取物的蛋白质印迹分析证实。本发明人得出结论,当在大肠杆菌中表达时,向代表MPP介导的MTP-FAγ51融合物切割产物的Nif多肽的N端添加scar9基序,可以影响多肽的积累水平,同时保留至少一些针对固氮酶功能的活性。
在这些分析中,当且仅当在细胞中产生scar9-NifH时,NifH特异性肽相对于对照细胞增加约2-3倍。与之相比,NifS和NifE是在所有pMIT2.1衍生的载体中一致积累的多肽的实例,其中2种NifS特异性肽、或2种NifE特异性肽和与CAT融合的scar9延伸肽的水平在所有样品中仅变化约20%。这些结果表明,相对于所有其他Nif蛋白和CAT,NifH和NifM多肽的N端改变显著增加了这两种蛋白的丰度。
这些结果和表4中总结的结果提供了对通过ARA测量的scar9延伸区对NifH、NifM和NifE固氮酶功能上的表现的一些洞察。尽管在含有pSO012的细菌中scar9-NifH多肽丰度增加了约2-3倍,但是相对于野生型对照,scar9-NifH在ARA测定中提供了110%的活性。另一方面,相对于野生型对照,scar9-NifM积累得更多,但相对于对照,ARA测定仅产生约10%的活性。该结果表明这些高水平的scar9-NifM多肽可能已经作为ARA功能的负调节剂。
LC-MS方法也用于检测植物细胞中的特异性融合多肽(实施例12),显示了其一般适用性。
实施例6.植物和酵母细胞中产酸克雷伯氏杆菌MTP-NifD的表达导致产生次级切割产物
本发明人以前的报道表明,在所有16种Nif多肽中,在植物细胞中最难以产生的是NifD(Allen等人,2017)。他们还报道了当在本生烟细胞中产生具有野生型产酸克雷伯氏杆菌NifD氨基酸序列的MTP-FAγ::NifD::HA融合多肽时,在蛋白质印迹上显示了附加的较低分子量的条带。附加条带包括~48kDa的强条带。这些附加条带被认为对应于NifD融合多肽的降解产物,这是在隐蔽蛋白酶位点二次切割的结果,或者可能是选择性转录或翻译起始信号的产物。
改变启动子和MTP序列的效果
为了证实这些观察结果并测试附加条带是否是由于某些启动子或MTP序列与NifD序列的组合,对构建体SN10进行了一系列基因修饰。起始构建体SN10编码MTP-FAγ51::NifD::HA融合多肽(SEQ ID NO:122),其中NifD氨基酸序列如SEQ ID NO:18所示,由增强的e35S启动子表达并使用本生烟的密码子优化。在一些修饰中,SN10的e35S启动子被不同的启动子取代,例如被地下三叶草矮化病毒(SCSV)的S4、S4v2或S7启动子取代。在其他实施方案中,MTP-FAγ51被另一个MTP取代,例如MTP-L29(SEQ ID NO:34)或MTP-CPN60(SEQ IDNO:28)。用于该实验的构建体列于表8中,并包括实施例2中所述的一些构建体。这些构建体通过Engler(2014)描述的具有特定组分的GoldenGate克隆系统(Weber等人,2011)制备。一些嵌合基因示意性显示在图4中(上图)。
根癌农杆菌中的这些构建体渗入到如实施例1所述的本生烟叶片细胞中,并且蛋白质提取物用HA抗体通过蛋白质印迹法分析。对于每种构建体,在不存在构建体pRA25或存在pRA25(编码MTP-FAγ::NifK融合多肽;SEQ ID NO:57)的情况下进行配对压渗,因为没有C端延伸区的NifK的共表达已经显示出增强的NifD丰度(WO2018/141030)。代表性的蛋白质印迹示于图4和5中。观察到对于每种构建体均产生了融合多肽的MPP加工和未加工形式,~48kDa多肽也是如此。在存在pRA25的每种情况下(图4,下图),~48kDa条带的强度大于加工的MTP::NifD多肽的强度(条带2)。这也在使用不同MTP序列的所有变体中观察到;48kDa多肽是蛋白质印迹上最强的多肽条带,与所用的MTP序列无关(图5)。还观察到,再一次,MTP-NifK表达构建体的存在通常会增加所有NifD多肽的数量,包括大约48kDa的显性条带。
制备编码NifK融合多肽SN46的不同构建体。该构建体具有增强的e35S启动子和包括TMVω片段以最大化翻译效率的5’-UTR、35S聚腺苷酸化/转录终止序列,并编码具有野生型C端的MTP-Su9::NifK多肽(SEQ ID NO:58)。编码区使用本生烟密码子优化而不是pRA25中的人密码子优化。比较SN46构建体与pRA25在用NifD构建体共压渗后增加NifD融合多肽积累的有效性。观察到SN46在增强NifD融合多肽积累方面至少与pRA25一样有效,但也导致~48kDa多肽产物的积累。代表性的蛋白质印迹示于图6中。
由于使用HA抗体检测到~48kDa多肽,其对应于翻译融合多肽的蛋白酶切割的C端产物。这些结果表明,~48kDa的C端多肽在植物细胞中由野生型产酸克雷伯氏杆菌NifD融合多肽产生,而与用于其表达的启动子或MTP序列无关。~48kDa多肽在本文中称为NifD“二次切割产物”或NifD“降解产物”。
表8用于测试植物细胞中MTP-NifD融合多肽的生产和加工的基因构建体。每个构建体都编码一种融合多肽,包括与野生型产酸克雷伯氏杆菌NifD序列的N端融合的所列MTP。
构建体ID 启动子 MTP MTP的SEQ ID NO
SN4 e35S CPN60无GG接头 SEQ ID NO:29
SN6 SCSV-S4 FAγ51 SEQ ID NO:21
SN7 SCSV-S4v2 FAγ51 SEQ ID NO:21
SN8 SCSV-S7 FAγ51 SEQ ID NO:21
SN9 35S FAγ51 SEQ ID NO:21
SN10 e35S FAγ51 SEQ ID NO:21
SN11 e35S CPN60 SEQ ID NO:28
SN12 e35S SOD SEQ ID NO:30
SN13 e35S 2SOD SEQ ID NO:31
SN14 e35S SU9 SEQ ID NO:35
SN15 e35S SODmod SEQ ID NO:32
SN16 e35S 2SODmod SEQ ID NO:33
SN17 e35S L29 SEQ ID NO:34
SN19 e35S CoxIV twin strep SEQ ID NO:37
线粒体靶向导致的二次切割?
本发明人旨在确定NifD次级切割/降解的原因,首先是其发生在线粒体输入之前还是之后。为了测试这一点,制备了NifD构建体(SN34),其与SN10相同,除了MTP-FAγ51序列被HA表位标签替换,因此编码HA::NifD::HA融合多肽。缺乏MTP的多肽不会靶向线粒体,而是预期定位于植物细胞的细胞质中。在翻译产物的两端具有HA表位,预期任何内部蛋白酶切割产生N端产物和C端产物,如果它们没有进一步降解,它们都可以用HA抗体检测。制备第二基因构建体,其中从SN34除去C端HA标签。构建体(SN33)编码HA:NifD融合多肽,其尺寸与MPP加工的MTP-FAγ51::NifD多肽几乎相同,每个仅具有一个HA表位标签,因此使比较更直接。
在SN75和SN46共压渗本生烟以及来自压渗的叶片细胞的蛋白质提取物的蛋白质印迹分析后,观察到SN33和SN34都产生离散的强条带,其尺寸对应于从这些构建体翻译的全长融合多肽。SN34的主要多肽条带略大于SN33的多肽条带,这被理解为是由于SN34中存在附加的C端HA表位。这些SN33和SN34 NifD特异性条带在强度上显著强于由SN10压渗的细胞产生的相应全长条带。重要的是,在导入SN34和SN33后没有观察到48kDa的C端切割/降解产物。类似地,没有观察到SN34的N端切割产物。
制备命名为SN66的另一构建体,其具有突变的MTP序列以测试48kDa多肽的产生是否需要MPP对MTP序列的第一次切割。为此,用相同长度的序列修饰SN10中编码的MTP-FAγ51,该序列包含MTP中5个连续丙氨酸置换的区域和8个置换的第二个区域,这将使其对MPP的线粒体加工具有抗性。特异性置换如图7所示。第二个丙氨酸扫描区域包括MPP的识别和切割位点,因此MPP加工被预测由于这些置换而被废除。尚不清楚这种融合多肽是否将被转运至线粒体。当将这种构建体导入本生烟叶片细胞时,通过蛋白质印迹分析观察到来自细胞的蛋白质提取物含有48kDa产物。
制备了命名为SN64的第二种构建体,其具有与MTP-CPN60序列(SEQ ID NO:28)相比含有丙氨酸置换的类似突变的MTP序列。当在本生烟叶片细胞中测试该结构时,再次观察到48kDa次级切割产物(图6)。
这些结果一起证明了MTP::NifD融合多肽的二次切割/降解是线粒体靶向的结果,推测是由线粒体蛋白酶引起的。然而,二次切割不依赖于线粒体中MPP对MTP序列的先前切割。
N端NifD切割产物的检测证明内切蛋白酶在特定位点进行二次切割
由于在引入SN10和编码MTP::NifD融合多肽的其他构建体后在植物细胞中明显产生了48kDa C端切割/降解产物,本发明人想要观察是否可以在植物细胞中观察到相应的N端NifD切割产物或是否通过来自N端的外蛋白酶活性发生降解。因此,制备了另一种构建体(SN75),其与SN10相同,除了在MTP-FAγ51之后和NifD编码区之前还直接包括Gly-Gly连接的HA标签,并将SEQ ID NO:36用作MTP-FAγ51。据预测,如果从该构建体产生的融合多肽在NifD内的相同特定位置被切割,则将产生两种HA标记的产物——先前在MTP::NifD提取物中看到的较长~48kDa的C端产物和较短的~13kDa的N端产物。然而,鉴于线粒体中的特定肽酶在MPP切割后降解N端切割的前序列(Kmiec等人,2013),本发明人不知道是否将观察到任何N端切割/降解产物。
在SN75渗入本生烟叶片和蛋白质提取物的蛋白质印迹分析后,检测到约15kDa的较短N端产物以及约48kDa的较长C端产物。尽管这两种产品的尺寸总和略大于MPP加工的MTP-FAγ51::HA::NifD::HA多肽的预测尺寸(57.6kDa),这种差异可能是相对于标记物而言高估了条带尺寸的结果,这可能是由于多肽的表面电荷影响了凝胶电泳中的迁移率。然而,该结果证明发生在NifD多肽的特定位点的融合多肽的NifD部分的二次切割是特异性和离散的,而不是从N端连续降解的结果。
线粒体靶向的nNifD的二次切割/降解是否在酵母中发生?
Burén等人(2017b)报道了将棕色固氮菌NifD多肽靶向酵母线粒体产生了可被NifD抗体检测到的更快迁移的~50kDa条带。本发明人想要确定当在酵母中表达时,植物优化的产酸克雷伯氏杆菌NifD序列是否也表现出类似的切割。为此,制备了一种酵母表达载体,其包括来自SN10的MTP-FAγ51::NifD::HA编码序列,其侧翼为KpnI/SacI限制性位点以允许克隆到酵母表达载体pYES2中。该构建体命名为SNY10。作为非线粒体定位的对照,制备了命名为SNY196的第二种酵母NifD构建体,其中SNY10的MTP-FAγ51被6×His表位标签取代。设计该第二构建体以表达与来自SN10或SNY10的加工多肽几乎相同尺寸的细胞质定位的NifD多肽,从而能够在蛋白质印迹上显现预期尺寸。还制备了SNY196的植物直系同源物(SN196),其中GAL1启动子被e35S启动子取代。该构建体与SN10相同,除了6×His标签替换为SN10的MTP-FAγ51。
含有SNY10(MTP-FAγ51::NifD::HA)或SNY196(6×His::NifD::HA)构建体的酵母细胞如实施例1中所述生长以表达编码融合多肽的基因。诱导转基因表达后,从转化细胞中提取蛋白质,并用HA抗体进行蛋白质印迹分析。结果如图8所示。在SNY10的泳道中,观察到MPP加工的MTP-FAγ51::NifD::HA多肽的预期尺寸(~58kDa)的强度较低的条带。该多肽与植物在MPP加工后表达的MTP-FAγ51::NifD::HA多肽和来自SN196的多肽大小相同。重要的是,从SNY10观察到~48kDa的更强的多肽条带,其与植物表达的来自SN10的切割/降解产物具有相同的尺寸。即,大多数酵母表达的MTP-FAγ51::NifD::HA以类似于植物细胞中切割的方式切割,实际上在酵母细胞中甚至更有效。来自酵母和植物细胞的C端切割产物具有相同尺寸的事实表明蛋白酶切割发生在酵母和植物细胞线粒体中的相同位点。与之相比,来自含有SNY196的酵母细胞的蛋白质提取物产生了具有非线粒体靶向的NifD的预期大小的单一、离散条带。从SNY196未检测到~48kDa的特异性的C端NifD::HA多肽条带,这表明在相同位点上进行了非线粒体切割。
值得注意的是,在来自含有SNY10的酵母细胞的蛋白提取物中没有检测到未被MPP加工的MTP::NifD融合多肽,这与在产生相同MTP-FAγ51::NifD多肽的本生烟细胞中观察到未加工和MPP加工形式的多肽的观察结果相反。即,在酵母中,MTP序列被MPP完全加工。这被认为反映了两种生物体之间的加工机制和效率的差异。它也可能来自这样的事实,即酵母细胞是稳定转化的细胞,而植物细胞仅是瞬时转化的。
这些结果共同表明,表达为MTP融合多肽的来自产酸克雷伯氏杆菌的野生型NifD多肽在靶向酵母或植物线粒体时在相同的特异性位点被切割,并且该切割依赖于线粒体靶向。
实施例7.野生型NifD中的二次切割位点的鉴定
实施例6中描述的实验的结果表明MTP::NifD fusion polypeptide融合多肽的二次切割发生在野生型NifD序列内的特定位点,并且是线粒体靶向的结果。由于切割因若干原因被认为是不期望的,本发明人希望修饰NifD的区域以试图防止植物细胞中的切割。根据N端和C端切割产物的尺寸,认为切割位点位于野生型NifD序列(SEQ ID NO:18)的氨基酸80-120的区域。然而,存在这样的可能性:特定位点的切割受到远端序列的影响,而不仅仅是受邻近切割位点的氨基酸的影响。因此,本发明人采用更广泛的方法来鉴定二次切割的特定位点和周围的氨基酸以及可能影响切割的其他区域。
作为鉴定NifD内切割位点或至少预测其位置的最初尝试,未加工的和MPP加工的氨基酸序列都被输入Mitofate软件(Fukusawa等人,2015)中以查看是否预测到任何MPP位点。Mitofate软件通过掺入氨基酸序列特征来预测MPP切割的位点,所述氨基酸序列特征包括带正电荷的两亲性和前序列基序以及氨基酸组成和物理化学性质。该软件还通过产生酵母训练数据集的对齐切割位点的氨基酸残基-4和+5之间的共有位置权重矩阵来预测MPP的前序列切割位点。该工具还结合了关于与N端的距离的信息,因为MTP长度通常为10-90aa,少数长于110aa(Huang等人,2009)。
假设MPP可能在前蛋白穿过线粒体外膜和线粒体内膜时在MTP内的初始切割后识别二次切割位点,将由初始MPP加工事件产生的氨基酸序列输入Mitomates软件中,得到两种长度的MTP-FAγ,即FAγ-scar37-NifD(35aa FAγscar plus GG)和FAγ-scar11-nifD(9aa FAγ51scar plus GG)。使用序列FAγ-scar37-NifD通过Mitofates的分析在相对于NifD的N端的序列VRGCAY(SEQ ID NO:60)内的氨基酸G62之后立即返回预测的切割位点,并且序列FAγ-scar11-NifD在序列RAGRRNYYTG(SEQ ID NO:61)中的N99之后立即返回预测的切割位点。因此,Mitofate分析显示该区域中的NifD序列似乎具有一个或甚至两个MPP加工位点的特征。如下所述,这些预测位点中的第二个被证实对于二次切割是正确的。
在鉴定NifD中参与二次切割的区域的不同方法中,制备一系列基因构建体,每个在NifD的二次切割的近似区域内具有5个连续氨基酸置换的区段,其中非丙氨酸氨基酸被丙氨酸取代,且天然丙氨酸氨基酸被甘氨酸取代。即,丙氨酸用于所有取代,除了天然丙氨酸残基被甘氨酸取代。一系列置换突变体跨越约6kDa的SEQ ID NO:18的氨基酸49-108的推定切割位点。这些构建体命名为NifD-Var 1-6和Var9-14(表9)。基于对序列VRGCAY(SEQ IDNO:60)中可能的切割位点的Mitofates预测,制备了具有离散置换的两种其他变体,命名为NifD-Var 7和Var 8。在所有其他方面,这些编码NifD变体的构建体与SN10相同,因为多肽具有翻译融合到NifD蛋白编码区的MTP-FAγ51和允许检测任何NifD C端切割产物的C端HA表位标签。
这14个构建体与SN46(MTP-Su9::NifK)一起单独地从根癌农杆菌导入本生烟叶片细胞中。从压渗的叶斑制备蛋白质提取物,并使用HA抗体进行SDS-PAGE和蛋白质印迹。在测试的14种变体中,12种仍然产生48kDa的切割产物,并且与来自具有野生型NifD序列的SN10的条带相比,它们的带型是不可区分的。然而,NifD-Var 13(基因构建体SN100)在没有显示48kDa的切割产物方面是显著的,并且从蛋白质印迹上条带的大小和强度来看,加工的与未加工的FAγ51::NifD的比例比其他变体相对更高。对于NifD-Var 12(Sn99),在48kDa检测到微弱的条带,其强度显著低于野生型。此外,与野生型和不同于NifD-Var13的变体相比,NifD-Var 12的MPP加工的NifD与未加工的NifD的比率更大。基于NifD-Var 12和13中置换的氨基酸,可以得出结论,在线粒体中NifD的二次切割需要NifD多肽的特定区域,其包括对应于SEQ ID NO:18的氨基酸94-103的氨基酸序列RAGRRNYYTG(SEQ ID NO:61)内的至少一些氨基酸。
基于该实验和得出的结论,制备了编码NifD的第二组氨基酸变体的基因构建体,其中RAGRRNYYTG(SEQ ID NO:61)序列中的一个、两个或三个氨基酸被置换。在该组变体中,不使用丙氨酸代替野生型氨基酸,而是使用基于对一大组天然存在的NifD序列(见下文)的系统发生分析的变化,并且使用NifD-NifK结构的建模来鉴定每个特定位置处的置换氨基酸。此处的概念是RAGRRNYYTG(SEQ ID NO:61)序列的天然存在的变体可能更有可能维持NifD功能,并且变体的合理设计可能避免二次切割并维持功能。除了氨基酸置换外,每个构建体与SN10相同,因此编码具有与NifD融合的MTP-FAγ51以及随后C端HA表位标签的多肽,以能够检测48kDa的C端切割产物。命名为NifD-Var 15-36的NifD变体组中的置换列于表10,且代表性的蛋白质印迹示于图9。
将各自编码变体NifD序列之一的19个单独的基因构建体(SN108-SN126)通过根癌农杆菌导入本生烟细胞中,并且在表达嵌合基因5天后,提取蛋白质并使用HA抗体进行SDS-PAGE和蛋白质印迹。如前所述,编码MTP-Su9::NifK的基因构建体SN46与每种NifD变体共压渗以增加NifD积累的水平。从蛋白质印迹数据观察到三组变体:(1)显示与用SN10获得的带型相同的带型的那些,其包含野生型NifD序列,即SN108、SN109、SN111-113、SN115、SN116和SN121。对于这些,48kDa条带的强度与MPP加工的NifD(初级切割)的强度的比率基本上与SN10相同,表明二次切割不受氨基酸置换的影响。(2)显示48kDa的产物的那些,但是48kDa产物的强度与MPP加工的NifD的强度的比率与SN10(SN110、SN122和SN123)的比率相比显著降低。(3)显示无48kDa二次切割/降解产物(SN114、SN117、SN118、SN119、SN120、SN124、SN125和SN126)的变体,即二次切割通过1-3个特异性氨基酸置换被消除或降低至未检测到的程度。最显着地,这最后一组中的两个,即具有Y100Q置换的NifD-Var(由SN114编码)和具有Y100K置换的NifD-Var29(SN119)具有单个氨基酸置换,且由SN117编码的另一个变体Var24具有两个氨基酸置换YY100-101QT。事先不可能预测到这些特定的氨基酸置换会产生这种效果。
从这组变体看来,仅置换第98位的精氨酸并不能阻止二次切割(NifD-Var 19和Var32)。同样,第99位的天冬酰胺(NifD-Var20)、第101位的酪氨酸(NifD-Var 15和Var22)、第102位的苏氨酸(NifD-Var 16和Var23)的单个氨基酸置换或第101-103位的2或3个置换不能阻止二次切割。然而,所测试的包括第100位酪氨酸的单取代、双取代或三取代(NifD-Var 21、24、26、29和30)均消除了NifD的二次切割。通过不包括第100位酪氨酸的氨基酸的双取代或三取代(NifD-Var 34、35和36)也消除了切割。很明显,例如通过使用本文示例的方法,可以容易地鉴定在选自对二次切割具有抗性的第98-102位的氨基酸的位置处具有氨基酸置换的多种变体。
酵母中MTP::NifD的二级切割的消除
鉴于实施例6中MTP::NifD融合多肽的切割发生在酵母细胞中与植物线粒体中相同区域的数据,在酵母线粒体中测试了具有Y100Q置换的变体。为此目的,来自SN114的蛋白质编码区(MTP-FAγ51::NifD(Y100Q)::HA)通过PCR扩增以提供侧翼的KpnI和SacI限制性酶切位点,且这些酶切位点用于将基因插入酵母表达载体pYES2中。用于酵母表达的该构建体命名为SNY114。从含有SNY114的酵母转化体获得蛋白质提取物,并通过蛋白质印迹进行分析。值得注意的是,来自含有SNY114的细胞的提取物产生了与植物细胞中NifD-Var 29构建体尺寸相同的强条带,同时二次裂解发生的量大大降低。这与图8中野生型NifD序列的结果形成强烈对比,当在酵母中表达时,野生型NifD序列产生强的48kDa切割/降解产物。尽管从SNY114观察到一些其他尺寸的蛋白质条带,但这些条带的强度低于对应于所需MPP加工的MTP::NifD::HA多肽的主要全长条带。结论是,当在参照SEQ ID NO:18的NifD的位置98-102处,例如在位置100处包括氨基酸取代时,正确加工的全长NifD多肽在酵母线粒体中表达为主要MTP::NifD多肽,如在植物线粒体中。
表9 FAγ51-NifD融合多肽的丙氨酸置换变体以及对植物细胞中的二次切割/降解的影响。
Figure BDA0003343176700000921
表10 FAγ51-NifD融合多肽的第二组氨基酸置换变体以及在ARA细菌测定中对二次切割/降解的影响和对功能的影响。野生型序列RAGRRNYYTG(SEQ ID NO:61)被所示的修饰序列取代。Nt=未测试。
Figure BDA0003343176700000922
Figure BDA0003343176700000931
二次切割位点的质谱证明
来自SN14(MTP-Su9::NifD::HA)压渗的本生烟叶片的蛋白质提取物使用聚丙烯酰胺浓度为4-20%的凝胶(Invitrogen)在SDS-PAGE上进行电泳。凝胶用Aqua染色剂(BulldogBio)染色。在水中脱色后,从凝胶上切下跨越37-50kDa分子量的5个切片。从较小的分子量到较大的切片编号为1-5。将每个凝胶切片切成大约1mm的立方体,并在150μl 30%甲醇中浸泡15分钟。为了还原可能已经氧化的蛋白质,除去缓冲液并替换为100μl含有5μl 15%二硫苏糖醇的新鲜25mM碳酸氢铵(ABC)缓冲液,并在室温下孵育1小时。加入5μl 40%丙烯酰胺使半胱氨酸残基失活,并在室温下孵育1小时,然后小心除去缓冲液。进行三步洗涤步骤,每步用50μl ABC缓冲液和50μl乙腈,并在室温下孵育。通过加入100μl 100%乙腈将凝胶片干燥2分钟,然后弃去乙腈。然后将干燥凝胶片中的蛋白质用0.1μg胰蛋白酶(Promega)在20μl ABC中消化,在37℃孵育过夜。用1μl的50%(v/v)甲酸溶液终止胰蛋白酶消化并超声处理15分钟。在加入10μl水后过滤样品,然后转移到LCMS小瓶中。
将从每个凝胶切片得到的胰蛋白酶消化物注入直接偶联到Orbitrap FusionTribrid质谱仪的Dionex Nanomate 3000(ThermoFisher)纳米液相色谱(LC)系统上。将肽在Acclaim PepMap C18(
Figure BDA0003343176700000933
5mm×300μm)捕获柱上用负载溶剂以10μL/min的流速脱盐5分钟,并且在Acclaim PepMap C18(
Figure BDA0003343176700000932
150mm×0.075mm)柱上以0.3μL/min的流速在35℃下分离。在60分钟内使用从5%至40%溶剂B的线性梯度,随后在5分钟内40-99%B洗涤并再平衡,在99%的B下保持5分钟,在6分钟内恢复至5%的B,并保持7分钟。所用溶剂为:(A)0.1%甲酸,99.9%水;(B)0.08%甲酸,80%乙腈,19.92%水。纳米LC直接偶联到OrbitrapFusion MS的Nanospray Flex离子源。离子喷雾电压设定为2400V,吹扫气体设定为1Arb,离子转移管温度设定为300℃。在数据依赖采集模式中采集数据,其包括Orbitap-MS测量扫描,随后并行采集分辨率为120,000的高分辨率Orbitrap扫描和线性离子阱中的多个MS/MS事件,采集时间为3秒。第一阶段MS分析以正离子模式在m/z 400-1500的质量范围内进行,AGC目标为4x105,最大注入时间为50毫秒。在离子阱中获得了前体离子的串联质谱,该前体离子在电荷态为2-7的情况下,超过了1000个计数的强度阈值。使用四极分离获得光谱,隔离窗口为1.6m/z,根据前体离子的大小和电荷将(高能碰撞解离)HCD设置为28%,以实现最佳的肽片段化。将离子阱扫描速率设定为快速,AGC靶标为4x103,最大注入时间为300毫秒,将仪器设置为在Orbitrap采集高分辨率MS光谱的3秒窗口内利用最大可并行时间将离子注入阱。设定动态排除以在15秒间隔和10ppm的质量公差下一次出现后排除前体离子。
使用Sequest算法在Proteome Discoverer v2.2(ThermoFisher)中进行蛋白鉴定的数据分析。选择脲甲基(carbamidomethyl)作为烷基化剂,选择胰蛋白酶作为消化酶。选择动态修饰用于NifD上的氧化,最多三次修饰。针对衍生自SN14编码的融合多肽氨基酸序列和本生烟蛋白质组、常见污染物和UniProt注释的生物体特异性数据库的NifD胰蛋白酶肽数据库搜索串联质谱数据。使用由Proteome Discoverer软件内的内置FDR工具确定的1%的全局错误发现率(FDR)整理数据库搜索结果以产生蛋白鉴定。
在提交给质谱分析的五个样品中,在来自最高分子量凝胶切片的样品(样品5)中未鉴定出NifD肽。相反,在其他样品1-4中鉴定出了NifD肽。最大的覆盖范围是样品2,从凝胶中切除的第二个最低条带,在该样品中鉴定了17种衍生自NifD序列的特异性胰蛋白酶肽。在样品1、3和4中鉴定了6-11种特异性NifD肽。重要的是,肽YYTGVSGVDSFGTLNFTSDFQER(SEQ ID NO:100)在样品2中被阳性鉴定。该肽的XCorr得分够高且后验误差概率(PEP)得分足够低以证实阳性鉴定,表明肽片段离子不是大小相似但不同的肽的产物。结论是该肽必须通过对植物细胞中的天冬酰胺(N)和酪氨酸(Y)残基之间的RRNY序列(SEQ ID NO:101)内的NifD序列进行特异性切割,随后在分析中进行胰蛋白酶消化而由SN14产生。通过该MS分析对切割位点的阳性鉴定与上述突变方法完全一致。
实施例8.二次切割位点周围NifD的系统发生分析
包括NifD多肽的固氮酶在许多细菌和古细菌中天然产生。从2018年12月12日的InterPro数据库中提取了来自很宽范围的细菌和古细菌来源的一组1751个天然存在的天然氨基酸序列。所有的序列被列为IPR005972家族的成员,被定义为固氮酶钼铁蛋白α链,其都是钼铁类型的NifD多肽。序列来自21个不同的门。大多数序列来自变形菌门(63.0%),随后是厚壁菌门(12.3%)和蓝藻门(12.3%)。其他较低数量的细菌来自于放线菌门(Actinobacteria)、产水菌门(Aquificae)、拟杆菌门(Bacteroidetes)、CandidatusMargulisbacteria、Candidatus Sumerlaeota、绿菌门(Chlorobi)、绿弯菌门(Chloroflexi)、脊索动物门(Chordata)、产金菌门(Chrysiogenetes)、脱铁杆菌门(Deferribacteres)、迷踪菌门(Elusimicrobia)、广古菌门(Euryarchaeota)、梭杆菌门(Fusobacteria)、黏胶球形菌门(Lentisphaerae)、硝化螺旋菌门(Nitrospirae)、浮霉菌门(Planctomycetes)、螺旋体门(Spirochaetes)和疣微菌门(Verrucomicrobia)。
1751个序列组包含275个重复序列。去除重复序列,得到一组1476个独特序列。检查这些序列以了解在对应于产酸克雷伯氏杆菌RAGRRNYYTG序列(SEQ ID NO:61)位置处的氨基酸序列的多样性。使用多序列比对(multiple sequence alignment)程序Mafft版本7,使用具有默认参数的FFT-NS-2策略,即使用默认“快速和渐进”设置,对序列进行比对(Katoh等人,2013)。使用ALVIS软件(多个序列比对的交互式非聚集可视化和探索性分析)显现比对的序列(Schwarz等人,2016)。NifD序列长362-592个残基。考虑到由比对程序引入的各个序列中的许多缺口,多序列比对(“mega-比对”)包含907个位置。在mega-比对中,在位置270-275之间发现建议的二次切割位点,对应于产酸克雷伯氏杆菌序列(SEQ ID NO:18)中的残基97-102。鉴定了68个序列,其含有与产酸克雷伯氏杆菌的氨基酸94-103(RAGRRNYYTG;SEQ ID NO:61)相同的10个氨基酸序列。
为InterPro的IPR005972家族的1476个成员产生了蛋白质相似性网络,显示了来自不同固氮细菌门的相关序列簇。代表性序列选自不同的簇(表11),并在对应于产酸克雷伯氏杆菌的氨基酸49-108的区域中比对。该区域的比对如图10所示。注意到高度的序列保守性,包括完全保守的19个氨基酸和高度保守的许多其他氨基酸。图10中未显示的来自脱硫肠状菌(Desulfotomaculum ferrireducens)、解糖盐厌氧菌(Halanaerobiumsaccharolyticum)、杨氏梭菌(Clostridium ljungdahlii)、巴氏甲烷八叠球菌(Methanosarcina barkeri)、普通脱硫弧菌(Desulfovibrio vulgaris)和绿球藻(Chlorobium tepidum)的序列及其簇中的相关序列含有50-60个残基的插入,进一步朝向C端,因此形成NifD序列的亚组。
在预测的二次切割位点周围计算残基的频率分布,作为紧接在RRN氨基酸之后的位置-3、-2、-1、+1、+2和+3(表12)。-3位的精氨酸(R)是完全保守的,除了该组中显示-3位和-2位都有“缺口”的两个序列。然而,这两个序列仅是片段,不是完整的NifD序列(A0A2N4YT47-变栖克雷伯氏菌,A0A2N5A8Y2-变栖克雷伯氏菌),因此是不确定的,并且可以从进一步的分析中排除。-2位的精氨酸几乎完全保守。1476个序列中仅有两个序列在该位置含有除精氨酸以外的残基:来自Paenibacillus fujiensis(B9X2A1)的NifD含有半胱氨酸残基,来自粪产碱菌(Alcaligenes faecalis)(Q44045)的NifD含有甘氨酸残基。不知道这些序列是否对NifD有活性。天冬酰胺(N)在位置-1高度保守,占1476个序列的97.83%。约1.9%的1476个序列在该位置含有组氨酸、苯丙氨酸、丙氨酸或丝氨酸残基而不是天冬酰胺。在位置+1处最常见的残基是酪氨酸(Y,71.54%),随后是谷氨酰胺、亮氨酸和赖氨酸,这三个残基中的每一个的频率在7-11%的范围内。由于有大量天然存在的NifD序列在该位置处具有除酪氨酸之外的这些氨基酸之一,因此可以得出结论,位置+1的那些氨基酸提供了NifD活性。苯丙氨酸、甲硫氨酸和谷氨酸也以较低频率出现在该位置。在位置+2处最常见的残基是酪氨酸(64.43%),接着是丙氨酸和苏氨酸,然后是处于较低频率的六个其他氨基酸中的任一个。再次得出结论,在位置+2处的那些氨基酸提供了NifD活性。位置+3处最常见的残基是缬氨酸(V,27.24%),接着是异亮氨酸、苏氨酸和赖氨酸,然后是11个其他氨基酸中的任何一个。显然,在对应于产酸克雷伯氏杆菌NifD序列的残基97-102的六个位置上的氨基酸的保守程度沿着该序列从被认为对NifD功能必需的两个精氨酸到显示出宽的变异性的位置+3降低。
然后在对应于SEQ ID NO:18的氨基酸97-101的位置处检查1474个NifD氨基酸序列(不包括上述两个部分序列),以确定序列RRNY(SEQ ID NO:101)的存在,且更具体地说位于RRNYY组(SEQ ID NO:102)内。有1045个序列(70.90%)包含RRNY(SEQ ID NO:101),其中935个序列包含对应于SEQ ID NO:18的氨基酸97-101的RRNYY(SEQ ID NO:102)。基于上述二次切割数据,可以得出结论,具有序列RRNY(SEQ ID NO:101)的1045个天然存在的NifD多肽在进入真核细胞线粒体时将在该序列内进行二次切割,而具有序列RRNX(SEQ ID NO:154)的NifD多肽(其中X为除酪氨酸(Y)以外的任何氨基酸)将在该序列内较少进行二次切割。因此,基于其二次切割的倾向,那些NifD序列不是优选的。与之相比,基于其在导入真核细胞线粒体后可能对切割具有抗性,NifD序列在对应于产酸克雷伯氏杆菌NifD(SEQ IDNO:18)的Y100的位置处包含除酪氨酸(Y)以外的任何氨基酸是优选的。当在植物细胞中作为MTP-NifD融合多肽表达时,可以容易地测试这些序列以证实它们在该区域内对切割的抗性。
在进一步检查1474个序列时,有155个序列(10.51%)具有序列RRNQ(SEQ ID NO:103)和95个序列(6.45%)具有序列RRNK(SEQ ID NO:104),这两个序列都被认为不进行二次切割,并且因此比在第四位置不具有谷氨酰胺或赖氨酸的序列更优选。认为这些NifD多肽比具有序列RRNF(SEQ ID NO:220)的NifD多肽更优选。然后注意到包含序列RRNQ(SEQ IDNO:103)的NifD序列中的155个中的141个紧接其后具有苏氨酸(T),即包含序列RRNQT(SEQID NO:105)。基于由包含序列RRNQT(SEQ ID NO:105)的Var24(SN117)编码的多肽在该位置不被切割并且该序列在天然存在的NifD多肽中频率较高,可以得出结论,包含序列RRNQTSEQ ID NO:105)的NifD多肽高度优选用于真核细胞线粒体。
表11来自广泛范围的固氮生物的代表性NifD序列。
Figure BDA0003343176700000951
Figure BDA0003343176700000961
表12:二次切割位点周围的1476个天然存在的NifD序列中氨基酸残基的频率分布。
Figure BDA0003343176700000962
Figure BDA0003343176700000971
*“X”表示在序列沼泽甲基细胞菌(Methylocella palustris,Q6KCQ3)和甲烷氧化菌(Methylosinus trichosporium,Q6KCQ2)中存在未知的氨基酸。
实施例9.二次切割位点周围NifD变体的功能测试
如下所述,在大肠杆菌MIT2.1系统中测试在残基99和100之间的推测位点处不显示切割的MTP-FAγ51::NifD变体的NifD功能。为了将编码氨基酸置换的突变导入到pMIT2.1的NifD基因中并使克隆更容易,将geI和SalI酶的限制性位点引入跨越氨基酸改变的位点的NifD编码区中。这是通过使用以下寡核苷酸引物组合由PCR介导的诱变来完成的:用于在pTopoH-J构建体的NifD基因插入AgeI的5’-CTAATGCTACCGGTGAACGTAACCTGGCACTGATTCAAGAAGTACTGGAAGTGTTC-3’(SEQ ID NO:108)和5’-GTTACGTTCACCGGTAGCATTAGTCATCATCCGGCTCCTCCGCTAGATAAAAATGTG-3’(SEQ ID NO:109),以及插入SalI的5’-GTTTCTGGCGTCGACTCTTTCGGCACGCTGAACTTCACCTCTGACTTCCAGGAAC-3’(SEQ ID NO:110)和5’-CGAAAGAGTCGACGCCAGAAACGCCCGTGTAGTAGTTACGACGTCCCGCGCG-3’(SEQ ID NO:111)(实施例4)。该AgeI至SalI片段针对本生烟表达进行了密码子优化。所得载体用SbfI消化,并与SbfI消化的B-ori连接,产生命名为pSO043的阳性对照载体,其编码野生型NifD以及其他的Nif多肽。
通过PCR扩增含有每个氨基酸置换的NifD的AgeI-SalI区,以便在与pSO043相同的位置添加AgeI和SalI限制性位点。这里使用引物5’-GACCAATGCTACCGGTGAGAGGAACC-3’(SEQID NO:112)和5’-GTTAAGAGTCCCGAAAGAGTCGACACCAG-3’(SEQ ID NO:113)以及来自构建体SN114、SN118、SN119、SN120、SN123、SN124和SN125的DNA作为模板,每个编码不同的变体NifD序列。然后将扩增的AgeI-SalI NifD变体片段连接到用AgeI和SalI消化的pSO043中,得到一系列称为pSO044-050的构建体。因此,这些构建体含有经密码子优化以在植物细胞中表达的AgeI-SalI区,而NifD基因的其余部分经密码子优化以在大肠杆菌中表达。还使用了SN100(具有被5个丙氨酸残基置换的氨基酸残基99和103的NifD-Var13)和EC38014(具有本生烟密码子优化的NifD基因)作为DNA模板以类似的方式构建了两种其他的NifD载体,分别产生了pSO052和pSO053。
将具有变体NifD基因的细菌表达构建体与表达诱导载体pN249一起导入大肠杆菌JM109菌株,并使用乙炔还原检测(ARA)测试固氮酶功能。用pSO053(阳性对照,野生型NifD)和由pSO052(残99-103的丙氨酸置换)、pSO044(Y100Q)、pSO045(NYY99-101HKG)、pSO046(Y100K)和pSO047(YY100-101KA)编码的NifD变体共转化的细菌各自在一定程度上产生乙烯。与阳性对照相比,pSO044、pSO045、pSO046和pSO047产生的乙烯的量分别为147%、33%、94%和67%。pSO052还产生了占阳性对照14%的乙烯。然而,含有pSO048、pSO049和pSO050(均包括取代R98K)的大肠杆菌细胞以高于阴性对照的速率仅产生痕量乙烯,表明那些NifD突变体对固氮酶几乎无活性。以类似的方式,具有YY100-101QT双取代的构建体相对于野生型NifD对照产生107%的ARA活性(表10)。因此,相对于野生型NifD序列,Y100Q和YY100-101QT取代都产生了增加的NifD活性。得出的结论是,第98位的精氨酸是NifD功能所需的,这与其在可以假设活性的天然存在的NifD序列中的完全保守性一致。
更普遍地得出结论,已经鉴定了保留了实质性NifD功能的NifD变体,对于一些变体确实完全或甚至增加了NifD功能,其不经历野生型产酸克雷伯氏杆菌NifD序列所观察到的二次切割。还得出结论,NifD多肽对植物线粒体中二次切割的抗性可与增加的固氮酶活性组合,后者针对细菌系统中修饰的NifD序列得到证实。还得出结论,可以鉴定出不经历二次切割但丧失NifD功能的其他NifD变体。
实施例10.其他NifD多肽
NifD中二次切割位点周围的NifD-NifK结构的模型化。
使用PyMOL软件可视化PDB:1QGU中提供的来自产酸克雷伯氏杆菌的NifD多肽的蛋白质结构,特别关注当NifD与来自产酸克雷伯氏杆菌的NifK多肽结合时二级切割位点周围的结构。观察到二次切割位点位于NifD和NifK多肽的界面,位于复合物内部,并且非常接近必需辅因子FeMoco(图11)。在静止状态下,NifD的Arg97残基与位于FeMoco的Fe3和Fe7之间的桥联硫基配体(S5)配位,解释了为什么Arg97在功能性NifD多肽中完全保守。它被认为在稳定簇(Fe1-Fe3-Fe7)边缘更小的负电荷方面起着重要作用(Spatzal等人,2016)。NifD中Tyr100的羟基与来自产酸克雷伯氏杆菌的的NifD中Arg98的氨基、NifK中Ser515的羟基和NifK中Asp517的羧基形成氢键,也显示出其对于NifD功能的重要性。
使用SWISS-MODEL(Waterhouse等人,2018)制备具有Y100Q和Y100K取代的NifD变体的同源性模型。NifD Y100Q或NifD Y100K的序列用作靶序列。来自产酸克雷伯氏杆菌的NifK的序列将作为异质靶标再次加入模型中。对于Y100Q变体,该模型预测NifD多肽的Gln100的氨基与NifK中Asp517的羧基和NifK中Tyr514的骨架羰基氧原子形成氢键。对于Y100K变体,该模型预测Lys100的氨基也与NifK中的Asp517和Tyr514形成氢键。NifK中Tyr100与Ser515的相互作用被Gln100或Lys100与NifK中Tyr514的骨架氧原子的相互作用替代。这些观察结果与Y100Q和Y100K取代的NifD活性的保留一致。
观察到(i)二次切割位点周围的序列在以其活性构象折叠时位于NifD多肽内部,以及(ii)包括野生型产酸克雷伯氏杆菌NifD序列的NifD-接头-NifK多肽被切割,这表明二次切割发生在多肽在线粒体中解折叠或正在解折叠时。
上述系统发生分析(实施例8)显示在天然存在的NifD多肽中对应于产酸克雷伯氏杆菌NifD中Y100的位置处(即相对于二次切割位点的+1位且这些NifD多肽被认为是功能性的)上也存在氨基酸残基亮氨酸、苯丙氨酸、甲硫氨酸和谷氨酸。在这些多肽中,对应于氨基酸100的位置处的氨基酸Leu在第101位之后是丙氨酸(53个序列)、甲硫氨酸(41个序列)、缬氨酸(10个序列)、苏氨酸(4个序列)、苯丙氨酸(4个序列)或酪氨酸(2个序列)。当对应于第100位的氨基酸是Phe时,以下氨基酸通常是丙氨酸(23个序列),在一些情况下是丝氨酸(2个序列)或酪氨酸(2个序列)。第100位的Met后接丙氨酸(3个序列)、甲硫氨酸(3个序列)、甘氨酸(2个序列)、缬氨酸(1个序列)或苏氨酸。第100位的Glu后接苏氨酸(1个序列)。然而,在第100位存在Phe、Leu或Met不会提供Y100与来自产酸克雷伯氏杆菌的NifK中的氨基酸Ser515和Asp517所具有的氢键。
为了测试它们的功能,以与上述置换类似的方式制备产酸克雷伯氏杆菌的NifD序列的包含Y100L、Y100F和Y100M置换的基因构建体。以与实施例8中所述类似的方式,使用pMIT2.1系统测试这些编码NifD变体的构建体在导入本生烟叶片细胞后的二级切割表型和大肠杆菌中的NifD功能。具有取代Y100L、Y100F和Y100M的所有这三种NifD多肽仍经受二次切割,表明该位点的氨基酸序列仍被植物线粒体中的MPP识别。以类似的方式容易测试第100位的其他14种可能的取代。
天然存在的NifD序列的切割预测和测试
在突变和系统发生分析的基础上,对不同的天然存在的NifD序列进行预测,无论它们在对应于产酸克雷伯氏杆菌的氨基酸97-102的区域中是否被切割、或不被切割或被较少切割(SEQ ID NO:18)。为了测试这些预测,从包含具有RRNYY序列(SEQ ID NO:102)的最高数量成员的三个NifD序列簇的每一个中选择一个序列,预测将被切割。这些选择的NifD序列来自棕色固氮菌、巴西固氮螺菌和费氏中华根瘤菌。这些序列如SEQ ID NO:148-150所示。鉴定了不具有RRNY序列(SEQ ID NO:101),而在相应序列处具有RRNQ(SEQ ID NO:103)、RRNK(SEQ ID NO:104)或RRFK(SEQ ID NO:106)的三种其他天然氨基酸序列(表13)。这些选择的NifD序列来自绿硫细菌(Clorobium tepidum)、脱硫肠状菌(Desulfotomaculumferrireducens)和普通脱硫弧菌(Desulfovibrio vulgaris),在第100位的等价物中含有谷氨酰胺或赖氨酸残基而不是酪氨酸。这些序列如SEQ ID NO:151-153所示。据预测,这三种多肽在这些序列内较少受到切割。
使用Emboss Needle双序列比对工具(Emboss Needle Pairwise AlignmentTool)将这些选择的序列与产酸克雷伯氏杆菌进行比对,以测定同一性的程度,也显示在表13中。注意到不具有RRNY序列(SEQ ID NO:101)的SEQ ID No:151-153与SEQ ID NO:18的同一性小于40%。
为了测试每种情况下关于二次切割程度的预测,制备编码MTP-FAγ51::NifD::HA融合多肽的基因构建体(SN221-226),其中NifD序列与天然存在的序列相同,用于导入本生烟叶片。压渗后5天制备蛋白质提取物并进行SDS-PAGE和蛋白质印迹。观察到包含来自棕色固氮菌和费氏中华根瘤菌NifD的RRNYY序列(SEQ ID NO:102)的融合多肽在蛋白质印迹中产生强的二次切割条带,其中超过50%的多肽在二级位点切割,而来自普通脱硫弧菌的NifD多肽不具有RRNYY(SEQ ID NO:102)显示极少的二次切割。来自绿硫细菌和脱硫肠状菌的多肽表现出一些二次切割,但少于棕色固氮菌和费氏中华根瘤菌NifD。
重复该实验,包括作为对照的基因构建体,其编码融合多肽,所述融合多肽不会由于MTP-FAγ51序列中的丙氨酸置换而被MPP切割(图12中标记为A的泳道),或其缺少MTP序列但具有6×His基序(标记为C的泳道),其尺寸与MPP加工形式相同。蛋白质印迹分析(图12)再次显示,对于所有6种NifD融合多肽,全长NifD和二次切割产物的比例是不同的。Burén等人(2017b)在酵母线粒体中观察到了来自棕色固氮菌的NifD的降解产物约48kDa。该多肽的尺寸与预测的RRNYY(SEQ ID NO:102)位点MPP的二次切割一致。在重复实验中,观察到棕色固氮菌NifD多肽的这种尺寸的降解产物。在约40kDa分子量处也观察到第二降解产物,表明存在第二隐蔽切割位点。对于编码细胞质定位的融合多肽6xHis::NifD::HA的基因构建体,没有观察到两种降解产物,表明第二降解产物也衍生自线粒体蛋白酶活性。与酵母线粒体相比,植物线粒体的加工也存在差异。需要进一步研究以确定植物细胞中棕色固氮菌AvNifD融合多肽的第二降解产物的来源。
包括来自巴西固氮螺菌的NifD序列的融合多肽主要以未加工的形式存在,表明AbNifD融合多肽进入线粒体的输入效率低。由于这个原因,难以评估MPP切割的量。值得注意的是,这次对于包括来自费氏中华根瘤菌的SfNifD序列的融合多肽仅观察到微弱的降解产物。
即使在所有基因构建体中使用相同的启动子,MTP51::NifD::HA多肽的相对丰度广泛变化。来自巴西固氮螺菌、棕色固氮菌、普通脱硫弧菌的NifD融合多肽的丰度与来自绿硫细菌和费氏中华根瘤菌的NifD融合多肽相比是低的。
如实施例1所述,通过将蛋白质提取物分级分离成可溶性和不溶性级分来扩展实验。观察到来自绿硫细菌、脱硫肠状菌和费氏中华根瘤菌的NifD融合多肽在一定程度上是可溶的,对于脱硫肠状菌NifD高达约50%是可溶的。
可以得出结论,由于具有RRNYY序列(SEQ ID NO:102)的天然存在的NifD序列在植物线粒体中的该序列内的二次切割的倾向,它们不是优选的,但是可以发现诸如费氏中华根瘤菌NifD的例外。
表13对应于产酸克雷伯氏杆菌氨基酸97-102的序列的野生型NifD多肽序列。显示了与SEQ ID NO:18的%氨基酸序列同一性。预测包含RRNYY(SEQ ID NO:102)的前三个序列被切割,而预测后三个序列在该区域内不被切割。
Figure BDA0003343176700001001
实施例11.在NifD-NifK融合多肽背景下的NifD变体
还测试了在NifD-接头-NifK融合多肽的情况下Y100Q置换对NifD加工和功能的影响。为此,首先如下修饰pMIT2.1载体以翻译融合另外的野生型NifD和NifK编码区。pMIT2.1中NifD和NifK基因之间的操纵子结构,编码单独的NifD和NifK多肽,被核苷酸序列取代以提供NifD和NifK多肽的翻译融合体,通过包括HA表位标签(YPYDVPDYA,SEQ ID NO:115)的30个氨基酸的接头(ATPPPGSTTTAYPYDVPDYATPPPGSTTTA,SEQ ID NO:116)连接。编码该NifD::接头(HA)::NifK多肽的DNA片段来自NifD::FLAG接头::NifKs基因(Allen等人,2017),除了编码FLAG表位的氨基酸的核苷酸序列被编码HA表位的序列取代,形成本文命名为pTopoH-J-DHAK的载体。此后,在用SbfI消化后,将用SbfI消化的pMIT2.1(NifB-ori)的第二个未修饰的一半与pTopoH-J-DHAK连接,得到pSO018。因此,该构建体编码了NifD::接头(HA)::NifK与pMIT2.1中所有其他Nif基因的翻译融合,NifD氨基酸序列相对于野生型产酸克雷伯氏杆菌序列未修饰。
通过使用引物5’-GTCGTAACCAATACACGGGCGTTTCTGGCGTCGACTCTTTCGGCACG-3’(SEQID NO:117)和5’-GCCCGTGTATTGGTTACGACGTCCCGCGCGAGAG TACTGGC-3’(SEQ ID NO:118)诱变以产生核苷酸取代T298C和C300A,将酪氨酸(Y)密码子TAC改变为谷氨酰胺(Q)密码子CAA,实现了在pTopoH-J和pTopoH-J-DHAK中的NifD编码区中引入Y100Q突变。将得到的编码未融合或融合NifD(Y100Q)的pTopoH-J载体用SbfI消化并与同样用SbfI消化的NifB-ori连接,产生pSO054和pSO055,pSO054是编码NifD(Y100Q)的改造的pMIT2.1,pSO055是编码NifD(Y100Q)::接头(HA)::NifK翻译融合多肽的改造的pMIT2.1。
用乙炔还原检测法在大肠杆菌中测试这些基因构建体。pSO054(编码未融合的NifD(Y100Q))和pSO055(编码融合的NifD(Y100Q)::接头(HA)::NifK)与它们各自的阳性对照pSO005和pSO018相比产生了80%至90%的乙烯。这证明Y100Q突变在NifD::接头::NifK的背景下不损害NifD活性,其活性仅轻微降低。
实施例12.野生型NifD和序列变体在植物线粒体中的溶解度
实施例3描述的实验表明许多以MTP::Nif融合多肽形式表达的用于线粒体定位的Nif多肽在作为单一多肽表达时基本上不溶或仅微溶。数据还表明,相对于细胞质定位,将Nif融合多肽靶向线粒体的过程或线粒体环境本身或两者至少对NifD、NifH和NifK的Nif多肽溶解度产生了负面影响。由于线粒体基质中的固氮酶蛋白组分的溶解度被认为是真核细胞线粒体中固氮酶功能重建的先决条件,本发明人试图确定这些观察结果对Nif多肽溶解度的原因。特别地,考虑到NifD、NifK和NifH的重要性,如下所述测试了几种方法来增加这些关键多肽的溶解度。线粒体中的不溶性可能是不正确的蛋白质折叠、不适当的糖基化或其他翻译后修饰、聚集体的形成或与细胞膜的结合、或这些或其他原因的组合的结果。
NifD融合多肽的溶解度——启动子、MTP和NifD序列的影响
最初,测试一组植物表达MTP::NifD多肽的溶解度,包括N端和C端修饰是否可能影响MPP加工和未加工形式的溶解度。为此,包括上述一些在内的一系列MTP::NifD构建体通过根癌农杆菌渗入本生烟叶片中(表14)。这些构建体在用于表达的启动子(e35S或SCSVS4启动子)中或在编码的MTP或NifD多肽序列(在二次位点被切割或未被切割)中不同。除了具有与NifD的N端和C端中的每一个融合的HA表位序列的SN75编码的多肽之外,它们都含有与NifD多肽的C端融合的HA表位标签,因此位于NifD多肽的侧翼。作为可溶性NifD多肽的阳性对照,编码NifD的非线粒体靶向形式的基因构建体SN33(实施例3)也进行了压渗。在每种情况下,编码MTP-Su9::NifK的构建体SN46与NifD构建体共压渗共压渗以增强NifD积累。对于每次压渗,从每个叶斑中提取蛋白质,并如实施例1所述分级分离成可溶性和不溶性级分,以及保留一些未分级分离的样品(“总蛋白”)。通过将样品上样到SDS-PAGE凝胶上的相邻泳道中并使用抗HA进行蛋白质印迹以检测MPP加工的和未加工的MTP::NifD::HA和MTP::HA::NifD::HA多肽来分析样品。
从蛋白质印迹的结果看,由SN33产生的非线粒体靶向的HA::NifD多肽几乎完全可溶(溶解度评分为4,表14)。与之相比,由SN10编码的MTP-FAγ::NifD::HA多肽及其MPP加工衍生物在可溶性级分中未检出或几乎未检出,因此基本上是不溶的。通过用SCSV S4启动子(SN06)取代e35S启动子来修饰启动子似乎略微增加了可溶性NifD::HA多肽的量。通过用CPN60或Su9 MTP序列(SN04,SN14)替换FAγ51序列来改变MTP没有显著增加NifD溶解度。当Y100Q氨基酸置换掺入到NifD氨基酸序列(SN114)中时,观察到溶解度的轻微增加。这些修饰都没有产生重大影响。然而,SN75在NifD表达水平和溶解度方面产生了突出变化。由SN75编码的融合多肽的至少50%位于可溶性级分中,所述融合多肽在MTP-FAγ51和NifD序列之间含有HA表位标签以及第二个C端HA表位标签。奇怪的是,位于MTP和NifD之间的不同N端表位产生了不同的结果——编码MTP-CoxIV::TwinStrep::NifD:HA多肽(SN19)的构建体产生了大部分不溶的NifD多肽。
考虑到SN75的结果,制备了用于NifK表达的类似构建体(SN140),其具有位于MTP-FAγ51(SEQ ID NO:36)和NifK序列之间的Gly-Gly连接的HA表位标签。在SN140渗入本生烟叶片细胞后,制备可溶性、不溶性和总蛋白级分。然而,与SN75相反,SDS-PAGE和蛋白质印迹显示NifK融合多肽保持不溶。该结果证明,将HA接头-GG插入融合多肽对蛋白质溶解度具有不同的影响,这取决于它的Nif多肽,在这种情况下是NifD与Nif。
总之,这些结果证实了将NifD多肽靶向线粒体的过程或线粒体环境本身对NifD的溶解度产生了负面影响。他们还表明N端修饰可以至少部分地克服这个问题。
表14通过可溶性和不溶性级分的SDS-PAGE和蛋白质印迹分析所确定的MTP::NifD融合多肽在植物细胞中表达并通过MPP加工MTP后的溶解度。每种融合多肽的溶解度得分如下:0:未检测到可溶性全长NifD多肽;1:仅就检测到可溶性多肽;2:检测到可溶性多肽,但<50%的总多肽;3:检测到可溶性多肽,>50%总多肽;4:至少90%的总多肽被检测为可溶性多肽。
Figure BDA0003343176700001021
Figure BDA0003343176700001031
NifD::接头::NifK融合多肽的溶解度
鉴于这些结果,测试了另一个C端延伸区对NifD溶解度的影响,即添加NifK序列以提供MTP::NifD::接头(HA)::NifK翻译融合(Allen等人,2017)。为此,制备基因构建体SN68,与SN10一样,其含有用于表达的强e35S启动子和用于有效翻译的TMV-omega 5’-UTR区(Gallie等人,1987)。SN68编码一种具有MTP-FAγ51的融合多肽,其带有与NifD N端融合的Gly-Gly接头,然后是包含如pRA20中先前使用的HA表位标签序列的30个氨基酸接头,接着是NifK序列。这在图13中示意性地示出。NifD氨基酸序列根据SEQ ID NO:18所示。对蛋白质编码区进行密码子优化以在本生烟中表达。
通过将SN68渗入本生烟中来测试该多肽的溶解度,以及可溶性、不溶性和总蛋白级分的分离。对蛋白级分进行SDS-PAGE和蛋白质印迹分析。在印迹上出现两条条带(图14),它们比预期的稍小并且可能代表在NifD序列内的二次切割位点的切割。然而,尽管如此,观察到包含HA表位和NifK序列的大多数融合多肽位于可溶性级分中,而只有少量位于不溶性级分中(图14)。这是发明人首次观察到最可溶的NifK多肽。
由于SN68编码的多肽包括对NifD的氨基酸97-102之间的二次切割敏感的氨基酸序列,从而制备了包含Y100Q氨基酸置换的相应的第二构建体,该置换已被证明保护NifD免受线粒体中的二次切割(实施例6)。该基因构建体命名为SN159。为了在SDS-PAGE凝胶上区分加工的和未加工的融合多肽,从而确定由SN159编码的融合多肽是否被MTP序列内的MPP切割,制备了与SN159相同的第三构建体,除了MTP-FAγ51序列用丙氨酸置换修饰,所述丙氨酸置换将使其对MPP的线粒体加工具有抗性。MTP中的丙氨酸置换与SN66多肽中的相同。第三构建体SN160因此被设计为产生不能被MPP加工的mMTP::NifD::接头(HA)::NifK融合多肽,因此产生比来自SN159的加工产物更大的产物。此外,制备了命名为SN176的对照的第四构建体,其编码缺乏MTP序列的融合多肽,并因此不靶向线粒体,而是位于细胞质中。对于该构建体,SN159的MTP-FAγ51序列被通过两个甘氨酸连接到NifD起始密码子的6×His标签取代。6xHis+Gly-Gly序列在尺寸上与MPP加工后从MTP-FAγ51预测产生的瘢痕序列非常相似。预测如果SN159被正确加工,来自SN176和SN159的蛋白质产物将具有实际上相同的长度(1040个残基/116,251Da的SN176,1042个残基/116,317Da的加工的SN159)。
如实施例1和3中所述,这些构建体SN68、SN159、SN160和SN176分别渗入本生烟叶片,并且5天后,从每个压渗的叶片区域制备三个蛋白级分:总蛋白、可溶性蛋白和不溶性蛋白。通过SDS-PAGE和用HA抗体的蛋白质印迹分析级分。考虑到较大尺寸的多肽,SDS-PAGE凝胶的运行时间比正常情况长,以提供更好的分辨率。
SN159和SN160都产生分子量约120kDa的独特多肽条带,SN160的主要多肽显著大于SN159的主要多肽。来自SN159的多肽似乎与由缺少MTP序列的SN176产生的多肽尺寸相同。由此得出结论,由SN159产生的多肽被MPP有效加工。与之相比,由SN68产生的多肽较小,因此推测包括来自NifD序列内的二次切割的产物。据预测,由不具有Y100Q置换的SN68产生的多肽将经历二次切割,并因此产生933个残基/104,403Da的产物。观察到该尺寸的多肽条带。
最令发明人感到欣慰和惊奇的是由这些构建体产生的多肽的溶解度分析的结果。在可溶性级分中比在不溶性级分中观察到更多的由SN159产生的多肽。这是发明人首次发现线粒体靶向的NifD多肽的这种情况。此外,加工的MTP::NifD::接头(HA)::NifK多肽已被证明在细菌测定系统中对NifD和NifK起作用(实施例11)。因此,本发明人得出结论,他们已经成功地修饰了Nif多肽以产生具有NifD和NifK功能的可溶性功能性多肽,其对RRNYY序列(SEQ ID NO:102)内NifD序列的二次切割具有抗性。
除了溶解度之外,在单独表达的NifD和NifD::接头::NifK多肽之间存在一些重要的加工差异。首先,不同于来自SN10及其置换变体的NifD多肽(实施例6),含有野生型NifD序列(SN68)的MTP::NifD::接头::NifK多肽被MPP完全加工。即使~48kDa的二次切割产物主要来自SN10和一些其他NifD变体构建体,但总能检测到未在RRNYY(SEQ ID NO:102)位点切割的全长NifD多肽。其次,尽管对于SN159、SN10和其他NifD变体使用相同的MTP-FAγ51,但是对于SN159,通过MPP的加工似乎是完全的,而当NifD单独表达时总能观察到经加工的和未经加工的MTP-FAγ51::NifD。因此,偶然地,来自SN159的融合多肽不仅对线粒体中的二次切割具有抗性,而且主要是可溶的,它还似乎在MTP序列内的规范位点被完全加工。
NifD-接头-NifK融合多肽的分离
通过以下免疫选择性方法从本生烟叶片样品分离由SN159编码的NifD::接头(HA)::NifK融合多肽。将已经用SN159压渗的12片尺寸各约2cm2的叶片在10mL溶解度缓冲液中研磨。溶解度缓冲液含有:100mM Tris pH 8.0,150mM NaCl,0.25M甘露醇,5%(v/v)甘油,1%(w/v)PVP40,0.1%(v/v)Tween 20,2mM TCEP,0.2mM PMSF和10μM亮抑酶肽。使用低含量的去污剂(0.1%Tween20)预期仅提取可溶性蛋白质。将研磨的混合物在4℃下以5500xg离心15分钟,并将上清液转移至干净的管中。抗HA琼脂糖磁珠(Sigma)用含有50mM TrispH 8.0和75mM NaCl的缓冲液(TN缓冲液)洗涤一次,然后将磁珠加到上清液中以免疫沉淀具有HA表位的多肽。将混合物在4℃下缓慢旋转孵育1小时,并使磁珠沉降。保留上清液样品作为“未结合的蛋白”。每次用1mL TN缓冲液洗涤磁珠5次,每次在室温下以1000x g离心2分钟以使磁珠沉降。最后,将60μL的Laemmli缓冲液添加至磁珠中,并将混合物在95℃下加热5分钟以释放结合的蛋白质并使其变性。将样品上样到一式两份的SDS-PAGE凝胶上。
将其中一种凝胶印迹到膜上,并作为蛋白质印迹处理。观察到MPP加工的NifD::接头(HA)::NifK多肽预期大小的强多肽带,以及被认为是降解产物的较小多肽的两条强度较低的带,这可能是由NifD内隐蔽位点处的蛋白酶切割引起的。由于多肽内的NifD序列具有Y100Q氨基酸置换,因此不可能在NifD的该位点发生进一步的蛋白酶切割/降解,而是在一个或多个新的位点发生。蛋白质印迹还显示两条强条带,其被认为代表免疫沉淀中所用的抗HA琼脂糖珠中存在的小鼠Ig 50kDa和25kDa多肽。
将第二SDS-PAGE凝胶用考马斯染色法染色,并用于切除对应于NifD::接头(HA)::NifK条带(样品1)的区域中的凝胶切片和较小的降解产物(样品2)。如实施例1所述,用胰蛋白酶消化这些凝胶切片中的蛋白质并通过LC-MS分析。将提取的胰蛋白酶肽干燥并重悬于30μL的1%甲酸中。最初,使用Eksigent microHPLC(55分钟),将5μL来自每种消化物的胰蛋白酶肽注入到6600Triple TOF MS中。将残留的胰蛋白酶肽储存在-20℃。
使用ProteinPilot针对物种特异性UniProt Knowledgebase(UniProtKB)数据库处理数据,该数据库附加有自定义和外源数据库:Uniprot-Nbenth+自定义Nif数据库+外源蛋白通用存储库(Common Repository of Adventitious Proteins)。来自靶多肽的几种特异性肽在样品1中被阳性鉴定,其中来自NifD序列中的2种肽以>95%的置信水平被鉴定,且来自NifD的一种其他肽和NifK序列中的两种其他肽以94.9%、93.3%和55.3%的置信水平被鉴定。发现数据中未检测到由MTP序列内的MPP切割得到的两种瘢痕肽,ISTQVVR(SEQ IDNO:119)和SISTQVVR(SEQ ID NO:120),但是使用更灵敏的靶向MRM在6500Q-trap上以6个跃迁离子/肽分别在2.83分钟和3.15分钟的保留时间检测到了这两种瘢痕肽。对占优势的跃迁离子(+2y6)的评估表明,样品1中肽SISTQVVR(SEQ ID NO:120)比ISTQVVR(SEQ ID NO:119)的丰度稍微更高。
可以得出结论,样品1确实含有MPP加工的NifD::接头(HA)::NifK多肽,且从本生烟细胞中提取的多肽为可溶形式。
样品2具有较低的蛋白质含量,因此分析较为困难。然而,从NifD序列中鉴定了单个胰蛋白酶肽,并证明了NifD中的第二个肽。发现数据中未检测到两种瘢痕肽ISTQVVR(SEQID NO:119)和SISTQVVR(SEQ ID NO:120),并且在650Q-trap上检测到更敏感的MRM。这些数据与样品2中由NifD序列内的额外切割产生的多肽一致。
提高NifK多肽的溶解度
本发明人测试了来自单独构建体的NifD和NifK多肽的共表达是否会提高NifK多肽相对于不含NifD的NifK的表达的溶解度。上述用SN140(MTP-HA::NifK)进行的实验表明,多肽在单独表达时基本上是不溶的。因此,利用分别用SN140和SN10、SN114或SN117转化的根癌农杆菌菌株混合物压渗本生烟叶片。SN10编码野生型NifD序列,而SN114和SN117在NifD中含有氨基酸置换以减少二次切割。如前所述,通过SDS-PAGE和蛋白质印迹分析含有可溶性和不溶性级分以及未分级分离的蛋白质的蛋白质提取物。
印迹显示当与任何NifD构建体共同导入时,由SN140表达的NifK融合多肽的溶解性显著增加。在不存在NifD时,在可溶性级分中几乎检测不到NifK,而在NifD存在时,在可溶性和不溶性级分中发现大约等量的NifK。结论是MTP::NifK多肽的溶解度通过NifD在同一植物细胞中的共表达而增加,即使在作为单独的多肽表达时也是如此。这增加了上述观察结果,即MTP-NifD-接头-NifK融合多肽提供了更可溶形式的NifK多肽。还得出结论,两种观察都指向线粒体基质中NifD和NifK多肽的结合——对于NifD-接头-NifK融合多肽是必需的,而且在表达为单独的多肽时也是如此。
实施例13.使用融合蛋白和磁珠纯化植物线粒体
发明人构思了一种快速纯化植物线粒体的方法,以便更好地研究外源多肽在线粒体中的定位和功能,所述外源多肽例如是它们希望引入到亚细胞器中的Nif多肽。分离高度富集的植物线粒体的传统方法通常需要用各种缓冲液处理新鲜收获的叶片材料,随后进行一系列离心步骤以除去非线粒体组分(Millar等人,2007)。这些方法需要大量的起始材料(例如,20-40克的植物材料)并且在纯化的线粒体准备好使用或分析之前整个过程需要几个小时。已经开发了从较少量的植物材料开始的更快速的分离方法(Millar等人,2007)。然而,这些方法最好被认为是线粒体富集,因为产物通常仍含有其他细胞组分(Carrari等人,2003)。
在本文所述的本生烟叶片测定中,8-10个或更多个“压渗区”可应用于单个叶片,每个区能够表达通过根癌农杆菌转化体的混合物导入的单个或多个(至多约8个)转基因。这种叶片测定对于基因组合的快速通量测试是理想的,并且通常预测最终设计用于在稳定转化的植物中表达的代谢途径。通常每个压渗区的直径仅为2-3cm,导致每个压渗区的总鲜重为50-100mg。诸如此类的少量新鲜材料不适用于传统的植物线粒体制剂,其中许多步骤导致线粒体的大量损失。因此,本发明人建立了在少于10分钟内从小样品如50-100mg中一步纯化植物线粒体的方案。
植物线粒体的外膜具有各种蛋白质导入和导出机制。metaxin是一种在植物线粒体的外膜上发现的约40kDa的植物特异性蛋白质,并且可能参与蛋白质在导入线粒体之前的识别(Lister等人,2004)。该蛋白似乎特异地位于线粒体。结构上,metaxin具有位于蛋白质C端的单一跨膜区,蛋白质的N端可能位于植物细胞质中。GFP与metaxin的N端的融合导致植物线粒体具有位于外膜的荧光信号(Lister等人,2004)。本发明人认为,如果metaxin的N端确实位于细胞质内,则可能易于与抗体结合并且可能允许基于亲和标签的纯化方法。进一步认为将表位置于报告多肽如GFP变体mTurquoise的N端将有助于将表位推入细胞质。选择TwinStrep标签(TwinStrep-tag)作为添加到N端的标签。这种TwinStrep标签链霉亲和素相互作用提供了特异性的、紧密的、但可逆的结合,其应用报道在基于亲和力的蛋白纯化中(Schmidt等人,2013;Schmidt和Skerra,2007)。作为翻译融合体的TwinStrep标签提供了与工程化结合底物StrepTactinXT的紧密但可逆的结合,尽管它也可以与链霉亲和素结合。
发明人设想了一种具有几种组分的融合多肽,如图15所示。设计并制备了编码该融合多肽的基因构建体。使用基因合成和GoldenGate克隆方法的组合来产生一种基因构建体,其具有用于在植物细胞中表达的35S启动子并编码TwinStrep-mTurquoise-TEV识别序列——metaxin融合多肽(构建体SN197,SEQ ID NO:121)。包括N端Twin-Strep标签表位以使得能够进行抗体介导的亲和纯化,mTurquoise组分允许使用共聚焦显微镜监测纯化,并且还将metaxin的N端进一步延伸到植物胞质溶胶中,并且TEV蛋白酶识别序列允许体外TEV蛋白酶介导的多肽切割以从磁珠释放植物线粒体。由于野生型metaxin被包埋在植物线粒体的外膜中,因此认为植物细胞中来自SN197的基因的表达能够纯化该细胞器,条件是融合蛋白将定位于线粒体的外膜。这在如下所述进行测试之前是未知的。
将含有SN197的根癌农杆菌细胞压渗到本生烟叶片中,一起作为含有用于表达p19沉默抑制子的单独构建体、MTP-FAγ::GFP(构建体pRA01)和细胞质定位的NifU::HA(SN211)的细胞混合物的一部分,每个OD为0.1,因此总OD为0.4。具有一些但不是所有组分的适当对照混合物(每种组分具有p19)也进行了压渗。四天后,切除压渗区,在4cm×2cm的叶片中提供约100mg鲜重的样品。以下步骤在4℃下进行。使用500μL KPBS缓冲液在研钵和研杵中手工研磨叶片材料。该缓冲液在500mL去离子水中含有5.07g KCl和0.68g KH2PO4,使用1M KOH调节至pH7.25。将浆料以1000g低速离心5分钟,以沉淀细胞壁碎片,但将大部分线粒体留在悬浮液中。将300μL上清液加到1.5ml Eppendorf管中的50μL用链霉亲和素蛋白包被的磁珠(直径2.8μm,光滑包被的磁珠,DynalBeads MyOne C1产品代码65002)的浆料中,然后将磁珠用KPBS缓冲液洗涤一次。在设定的时间,使用磁体将混合物中的磁珠收集到管壁上,并小心地去除剩余的液体。然后将磁珠用1mL KPBS洗涤两次,每次如前所述用磁体收集它们,最后重悬于50μL KPBS中。作为对照样品,将相同的磁珠纯化方案应用于表达pRA01(编码MTP-FAγ77::GFP)、SN211(编码细胞质NifU::HA)和p19但没有SN197的本生烟叶片提取物。
进行几次实验以确定使用磁珠纯化线粒体的最佳条件。首先,比较各种TwinStrep结合磁珠产品。观察到MyOne C1磁珠优于Dynalbeads MyWay T1、M-280和M-270,并且还优于IBT StreptaxtinXT-Agarose产品。使用1、5、10、30或60分钟孵育进行SN197样品与C1磁珠结合的时间过程,发现在5分钟后发生最大和饱和结合。在样品的纯化方案后没有检测到GFP信号,其中从压渗混合物中省略了SN197,表明没有线粒体与磁珠的非特异性结合。共聚焦显微镜显示来自mTurquoise(SN197)和GFP(MTP-FAγ77::GFP)的荧光信号在与MyOne C1磁珠孵育中是最强的。将不同浓度的C1磁珠与提取物一起孵育。TwinStrep::mTurquoise::TEV::Metaxin和MTP-FAγ::GFP的回收取决于磁珠浓度,在50μl的MyOne C1磁珠浆料下饱和,以便随后使用该量。
通过共聚焦显微镜分析纯化过程中的步骤,以评估GFP和mTurquoise多肽的存在和来自植物叶绿体的自身荧光。分别在488nm和434nmm的激发波长下检测GFP和mTurquoise。在用KPBS缓冲液研磨并进行低速离心时,来自用组合SN197、pRA01和p19压渗的样品富集GFP荧光线粒体。除线粒体外,仅观察到少数完整的亚细胞器,如叶绿体和细胞核以及少数细胞碎片。在使用2mL KPBS缓冲液洗涤珠并磁性下拉(magnetic pull-down)后,所得悬浮液的共聚焦显微镜显示发荧光的线粒体物理附着于磁珠。在纯化步骤后,没有观察到其他细胞器和细胞碎片。
还通过蛋白质印迹分析来分析纯化过程。为此,释放与磁珠结合的多肽,并通过加入100μL的Laemmli缓冲液(实施例1)以及在95℃加热样品使其变性。研磨后但纯化之前的植物提取物的样品,标记为“输入样品”,也包括在蛋白质印迹分析中,使用结合GFP的抗体检测MTP-FAγ::GFP和mTurquoise:metaxin多肽以及使用抗HA以检测NifU多肽。蛋白质印迹显示TwinStrep::mTurquiose::TEV::Metaxin多肽在约80kDa的分子量下易于检测,与单一完整的翻译融合蛋白一致。对于包括pRA01的样品,用针对GFP的抗体在约30kDa处观察到条带,与线粒体靶向的MTP-FAγ::GFP的预期大小一致。此外,用来自具有SN211的提取物的HA抗体在约42kDa处观察到条带,与NifU::HA多肽的预期大小一致。为了检查作为潜在杂质的非线粒体蛋白质,用相应的抗体(Sigma货号T6074,克隆B-5-1-2单克隆抗体)评估细胞质蛋白质α-微管蛋白的丰度。仅在具有输入样品的泳道中在约52kDa处观察到该蛋白质的特异性条带;在纯化的线粒体提取物中没有发现α-微管蛋白信号,表明纯化效果非常好。可以得出结论,使用metaxin融合多肽例如由SN197编码的融合多肽能够有效和快速、小规模地分离和纯化植物线粒体。还得出结论,在植物细胞中表达基因构建体后,融合多肽能够被包埋在植物线粒体的外膜内,并且N端TwinStrep表位标记可接触链霉亲和素蛋白包被的磁珠。
当通过蛋白质组学分析分离和纯化的线粒体时,样品高度富集线粒体蛋白质,Rubisco小亚基的水平非常低。这进一步证实了使用该方法的高度富集。
实施例14NifS和NifU多肽在植物细胞线粒体中的结合
固氮酶组分包含对于功能是至关重要的若干金属原子簇。执行催化的钼基酶的固氮酶蛋白,也被称为钼铁蛋白,是NifD和NifK多肽的α2β2-四聚体。活动状态下,催化四聚体在每个α/β亚基界面都包含[Fe8S7]复合物(被称为P-簇)并且也在每个α亚基中包含铁钼辅基(FeMo-co)。固氮酶还原酶组分(也被称为铁蛋白)为NifH多肽的二聚体,NifH多肽的二聚体包含亚基-桥基[Fe4S4]簇。这些Fe-S和P簇以及FeMoco对于转移电子用于N2还原来说是必要的。Rubio和Ludden(2005)对固氮酶的合成和结构作了概述。
这些金属原子簇的正确组装和成熟是一个复杂的过程,并且涉及若干辅助蛋白(Rubio和Ludden,2008)。成熟过程的第一个步骤是生成基础Fe-S簇。其由NifS和NifU催化。在细菌中,这两种蛋白是完全固氮酶活性所必需的。然后,Fe-S簇被转移至NifH、NifB以及可能的NifD-NifK。NifS和NifU不仅与Mo依赖型固氮酶组装有关,而且还与用于合成Fe-S金属原子簇的VFe和FeFe固氮酶的组装有关(Kennedy和Dean,1992)。
在细菌中已经很好研究了这些活性。NifS是磷酸吡哆醛(PLP,维生素B6)依赖型半胱氨酸脱硫酶,其生成由半胱氨酸合成Fe-S簇所必需的无机硫化物。该反应生成了副产品丙氨酸。然后,向NifU提供硫化物用于相继形成[Fe2S2]簇和[Fe4S4]簇。NifS酶在细菌中起到同二聚体的作用。
NifU提供支架用于形成[Fe4S4]簇,从而在细菌中起到同二聚体的作用。它的N末端结构域能够与每个单体一个[Fe2S2]簇结合。单体中的[Fe2S2]簇能够还原性融合以形成每个NifU二聚体一个[Fe4S4]簇。NifU的C末端结构域能够保持每个单体一个[Fe4S4]簇。然后NifU将[Fe4S4]簇供予NifB用于在NifB上加工成8Fe核心,其随后用于FeMoco合成。在针对Fe-S簇的分支路径中,与NifU的N末端结构域或C末端支架结构域结合的一个[Fe4S4]簇被转移至apo-NifH用于固氮酶还原酶(NifH蛋白)成熟(Smith等人,2005)。已经提出NifU还向NifD-NifK供予两个[Fe4S4]簇,并且NifH将那对簇压缩成一个成熟的P簇[Fe8-S7](DosSantos等人,2004)。
已经报道了NifS和NifU在细菌中形成了瞬态复合物而不是紧密复合物(Yuvaniyama等人,2000)。当从棕色固氮菌(A.vinelandii)制备的粗提物中提纯得到NifS时,NifU没有与NifS共纯化(Dos Santos等人,2012)。此外,NifU或NifS的特异性免疫沉淀反应不会导致另一种多肽的共沉淀。但是,当分离和纯化的NifU和NifS体外结合,并且混合物进行尺寸排斥色谱时,检测出异四聚体复合物。但是,该实验使用了纯化蛋白。没有人报道在植物细胞中共表达NifS和NifU,并且表明它们彼此结合;并且NifS还没有与从粗提物得到的NifU预先进行共提纯。
如实施例2-4中所述,当NifU融合多肽和NifS融合多肽分别由基因构建体SN32和SN31生成时,通过MPP高效精准地加工靶向线粒体的NifU融合多肽,并且部分加工NifS融合多肽。融合多肽具有用于线粒体靶向的MTP-FAγ51和用于蛋白质印迹法检测的C端HA抗原表位。在一个实验中,尽管随着实验不同NifU多肽的量有所变化,但是仍有至少90%的加工过的NifU多肽以可溶型累积在植物线粒体中,并且一些(<50%)加工过的NifS多肽以可溶型进行累积(图3)。而且,在N端保留FAγ-scar9基序的NifS多肽和NifU多肽被证明在大肠杆菌(E.coli)中用于支持固氮酶活性,因此NifS和NifU两者都通过9-氨基酸N端延伸保持活性(实施例4)。
基于这些成功,发明者设计并进行其他实验以检验,当NifS和NifU被引入到植物细胞线粒体中时,生成、加工NifS和NifU以及NifS和NifU的溶解性和功能,如下。
通过TwinStrep抗原表位构建编码融合多肽的质粒
通过线粒体靶向设计和制备两种基因构建体用于表达植物细胞中的已编码融合多肽,其中一个基因构建体编码MTP-FAγ51::NifU::TwinStrep融合蛋白(SEQ ID NO:160),并且另一个基因构建体编码MTP-FAγ51::NifS::TwinStrep融合蛋白(SEQ ID NO:161)。融合蛋白的NifS区和NifU区的氨基酸序列是基于产酸克雷伯氏杆菌(Klebsiellaoxytoca)蛋白的氨基酸序列的。TwinStrep抗原表位(或标记物)在本文中缩写为“TS”。由于TwinStrep抗原表位在基本生理状况下与StrepTactinXT树脂有较高结合亲和力而选定TwinStrep抗原表位,因此TwinStrep抗原表位甚至在较低浓度下也理想地适用于包含抗原表位的蛋白纯化。此外,洗脱条件温和,这使得蛋白复合物纯化成为可能。蛋白编码区的核苷酸序列为密码子,其被优化用于在植物细胞中改进表达。每个基因构建体包含用于在植物细胞中进行表达的35S CaMV启动子序列(登录号EC51288)以及编码将5’融合至Nif编码区的MTP-FAγ51的51个氨基酸的区。利用GoldenGate组装策略(Weber等人,2011;Engler等人,2014)以及与上述那些类似的方面制备这些构建体。这些构建体被命名为NifU的SN166和NifS的SN231。
制备与SN166相同的另一个构建体(SN167),除了MTP-FAγ51区产生突变,从而使得已编码的融合多肽在MTP序列中置换丙氨酸,丙氨酸不会允许在线粒体中用MPP进行加工-突变的区被命名为mFAγ51。
在植物细胞中生成融合多肽,以及它们的加工和溶解性
检验这些基因构建体与其他基因构建体用于生成和加工植物细胞中的已编码多肽以及它们的溶解性。如实施例2和3中所述,编码MTP-FAγ51::NifS::HA融合蛋白的构建体SN31渗入本生烟(N.benthamiana)叶片中,并且使用抗HA抗体通过蛋白质印迹法分析蛋白提取物。在印迹上观察两个多肽带。这些多肽带的大小与未经加工的及经MPP加工的多肽相对应(实施例3)。已加工的NifS多肽和未经加工的NifS多肽存在于可溶性蛋白级分和不可溶性蛋白级分两者中,指示部分溶解性。相反,当SN166被分别引入到本生烟叶片中时,MTP-FAγ51::NifU::TS融合多肽被MPP高效加工,并且由此生成的scar9-NifU::TS多肽几乎完全可溶,其中,scar9包括通过使用的克隆过程生成的Gly-Gly接头。如实施例4中所述,当具有9个氨基酸的N端延伸的NifS多肽和NifU多肽与野生型产酸克雷伯氏杆菌(K.oxytoca)蛋白结合用于其他Nifs时,它们积极为大肠杆菌提供固氮酶功能。还已证明,棕色固氮菌中的NifS的C端上的His-标记物并未干扰FeS簇在NifH上进行固氮生长和组装(Smith等人,2005)。
基因构建体SN166和SN167被分别引入到本生烟叶片中以确认MTP序列在SN166编码的多肽中的有效性以及线粒体靶向在StrepTactinXTcolumn上针对溶解性和纯化的效果。在非变性条件条件下,从叶组织中提取蛋白。提取缓冲液包含pH值为8.0的100mM三羟甲基氨基甲烷-HCl、150mM NaCl、5%(v/v)甘油、2mM TCEP、1%(w/v)PVP(平均分子量为40kDa)和0.1%Tween 20。用包含pH值为8.0的100mM三羟甲基氨基甲烷、150mM NaCl和2mMTCEP(洗涤缓冲液)的缓冲液洗涤2ml StrepTactinXT柱,然后加载分别从SN166或SN167提取的蛋白。当洗涤柱以去除未结合的蛋白之后,使用包含50mM生物素的洗涤缓冲液洗脱结合的蛋白。使用4mL Amicon Ultra 10kD MWCO浓缩器将包含蛋白的样品浓缩至200-500μl。通过SDS-PAG电泳分析和使用抗Streptactin HRP的蛋白质印迹法加工20μl等分试样。使用考马斯蓝将重复凝胶进行染色从而对蛋白染色。
蛋白质印迹(图6,上面板)示出,实际上已经通过使用StrepTactinXT柱从SN166渗透组织中提纯得到NifU::TwinStrep融合多肽。SN166渗透组织的提取物产生了少量的纯化NifU::TwinStrep蛋白,纯化NifU::TwinStrep蛋白大部分以未加工形式出现。用考马斯蓝染色的对应凝胶(图6,下面板)确认,在纯化过程中出现了高度富集。
从考马斯染色的凝胶上切下来的凝胶片和那些片中的多肽进行N端氨基酸分析。这证实了,因为纯化的多肽具有通过预期加工产生的N端序列,所以已在MTP序列中的预定位点通过MPP酶切SN166编码的MTP-FAγ51::NifU::TwinStrep融合多肽。
从这些数据中可以得出结论,靶向线粒体的NifS融合多肽和NifU融合多肽事实上在植物细胞中表达,在线粒体进行加工,并且为充分可溶型以使得纯化成为可能。
MTP::NifU::TwinStrep和MTP::NifS::HA在植物细胞中的共表达-NifS和NifU在植物细胞中结合
为了评估表达、加工、溶解性和稳定性,以及为了检验当NifS融合多肽和NifU融合多肽在植物线粒体中一起生成时的可能性结合,使用如实施例1中所述的方法将编码MTP-FAγ51::NifS::HA多肽的基因构建体SN31(实施例2)和编码MTP-FAγ51::NifU::TS多肽的基因构建体SN166共深入到本生烟叶片中。通过叶片制备蛋白提取物,并且首先使用StrepTactinXT柱进行NifU亲和纯化,然后使用实施例1中所述的方法检验NifS多肽共纯化来检验蛋白提取物中NifS-NifU复合物的存在。简略来说,在第一实验中,使用非变性的提取缓冲液在厌氧条件下加工12g鲜重的叶片材料。从16.6g鲜重的叶片材料开始进行第二重复纯化。使用23g鲜重的叶片材料进行第三纯化,其中,使用的缓冲液与Fe2+和L-半胱氨酸分别添加至2mM和0.5mM有轻微区别。在每个实验中,过滤的裂解物经过StreptactinXT柱(IBALifesciences)以通过其TS抗原表位保留NifU多肽。洗涤柱之后,用含有生物素的缓冲液洗脱结合的蛋白,然后如上所述的浓缩结合的蛋白。在纯化过程的每一个步骤中保留样品,特别是来自下列的样品:(i)实验开始时的总的可提取蛋白,(ii)第一次离心后的沉淀的细胞碎片,(iii)输入的蛋白溶液,该蛋白溶液是在经过柱之前可溶于提取缓冲液中的级分,(iv)没有与柱结合的穿透部分级分,以及(v)用生物素洗脱之后的浓缩的洗脱液。使用SDS处理样品,并且在SDS-PAG电泳分析和蛋白质印迹法之前加热至95℃。
来自第三纯化的纯化的和浓缩的NifU样品包含一些可见的褐黄色,这指出了Fe-S簇的存在。
这些样品的重复等分试样使用抗-Strep抗体或抗-HA抗体用免疫检测进行蛋白质印迹分析。第一纯化实验和第二纯化实验的蛋白质印迹在图17和18中示出。在向提取缓冲液中补充0.5mM L-半胱氨酸和2mM Fe2+的条件下完成第三纯化实验。蛋白质印迹分析示出,在从叶片材料中提取出来之后,这两种蛋白都存在于可溶性级分中。对于NifS,已加工形式和未加工形式都存在于可溶性级分中;而对于NifU,只存在已加工形式,这表明加工是高效的。抗-Strep抗体在粗样品以及从柱洗脱的样品中检测出scar9-NifU-TwinStrep多肽。来自洗脱液的信号强度非常强,这表明已经从植物提取物中纯化和浓缩得到scar9-NifU-TwinStrep多肽。根据电泳分析,多肽在凝胶中的流动性与在MTP序列中进行加工以及加工几乎完成的线粒体一致。
当细胞膜暴露于抗-HA抗体(抗-HA抗体比抗-Strep抗体更加灵敏约20x)时,揭露出HA-标记的多肽的大小与进行NifS多肽加工的线粒体,即scar9-NifS::HA,一致。在样品中没有检测出NifS融合多肽的未加工形式。因为用于这个实验中的NifS多肽不包含strep-标记物,所以这些结果表明,NifS和NifU形成一个复合物,并且NifS多肽通过与NifU相互作用而被共纯化。可以显著地观察到,当在柱纯化之前在输入样品中与两种形式的比值比较时,已加工形式(scar9-NifS::HA)相对应未加工形式大量富集在来自于柱的洗脱液中。基于表达没有表明多肽结合的NifS和NifU的细菌的报道,这些观察令发明人意想不到。他们得出结论,在厌氧、非变型条件下,在实验中使用下列用于蛋白提取:(i)NifS融合多肽与scar9-NifU::TS多肽共纯化,这指出了当通过线粒体靶向在植物细胞中被共表达时两种蛋白的结合;(ii)NifS多肽的经MPP加工形式(scar9-NifS::HA)为与NifU多肽结合的形式;以及(iii)已加工的NifU多肽和已加工的NifS多肽在线粒体以至少部分可溶形式生成以允许观察到的结合。关于观察(ii),有至少三种可能的解释。第一,由于位阻或错误折叠,未加工的MTP-FAγ51::NifS可能不能与NifU相互作用;第二,未加工形式可能未被运输到NifU多肽定位其中的线粒体中;以及第三,NifS未加工形式可能不能充分可溶,因此不能与NifU相互作用;或者这些理由的任何组合。
发明人不知道关于NifS-NifU复合物从植物线粒体或者实际上任何细胞中分离出来的任何先前报道。
第一纯化的样品再次进行变性SDS-PAGE。这次,使用考马斯蓝让凝胶染色(图18,面板C),并且使用蛋白质组学分析与已加工的NifU和NifS多肽相对应的凝胶的区域,从而识别在柱上共纯化的引入的多肽和任何内源性蛋白。如实施例1中所述的处理凝胶片,包括通过胰蛋白酶消化和使用LC-MS/MS进行分析。分析确认了预计在N端对scar肽(SEQ ID NO:42)进行胰蛋白酶消化的肽ISTQVVR(SEQ ID NO:119)的存在,这表明,NifS和NifU两者都在MTP中预期的MPP切割位点精确地进行了加工。靶向的MRM确认了胰蛋白酶肽的身份,从而确认了SDS-PAGE凝胶中期待的区域处存在被酶切的多肽。
尺寸排斥色谱
为了进一步确认蛋白复合物形成于NifS和NifU之间,浓缩的洗脱液样品应用于高分辨率尺寸排斥色谱中,用作Superdex 200Increase 3.2/300柱。使用天然蛋白大小标记物(Biorad Gel Filtration Standard Cat.#151-1901)进行柱的标定。通过变性SDS-PAGE上使样品进行电泳来进一步分析来自柱的级分。层析谱和蛋白质印迹分析示出,因为以比NifS期望的更高的分子量洗脱NifS蛋白,所以NifS和NifU形成复合物。这表明,异四聚体通过2个NifS多肽和2个NifU多肽结合而形成。
在NifU上用UV-可见光光谱测出铁硫簇
第四实验中包含StreptactinXT柱纯化的NifU和NifS洗脱液应用于在pH值为8.0的50mM三羟甲基氨基甲烷-HCl和300mM NaCl中平衡的PD10柱(GE Healthcare),以去除生物素以及过量Fe2+和半胱氨酸。在Cary 100Bio UV-可见光光谱仪上使用带有螺帽的厌氧试管和带有1cm通路的隔膜获得光谱。由于是从色氨酸、苯丙氨酸和半胱氨酸吸收的,如蛋白所期望的,光谱在280nm处示出一个主峰。此外,在325nm观察到第二峰,在420nm和460nm处观察到肩,这指出了NifU上存在Fe-S簇。
通过纯化所有NifS中的第一个结合NifS多肽和NifU多肽的其他试验
如上所述,设计并制备编码MTP-FAγ51::NifS::TS融合多肽的基因构建体(被命名为SN231),用于在植物细胞中进行瞬时表达。这个构建体类似于编码MTP-FAγ51::NifU::TS融合多肽的SN166,除了它具有NifS序列而非NifU序列。关于如上所述的SN31/SN166组合,SN231和SN32共渗透到本生烟叶片中并且如上所述的制备蛋白提取物。上清液经过StrepTactinXT柱以纯化包含TwinStrep抗原表位的NifS融合多肽。使用蛋白质印迹法分析被洗脱和浓缩的蛋白的样品,并且使用抗Strep抗体和抗HA抗体探测该样品。印迹(图19)示出了洗脱液中已加工的scar9::NifU::HA多肽的存在以及scar9::NifS::TS多肽的存在,这又示出了已加工的NifS多肽和NifU多肽在来自植物细胞的提取物中进行结合。
来自该纯化的洗脱液也进行了尺寸排斥色谱,如上所述,并且通过使用抗Strep抗体和抗HA抗体的蛋白质印迹法分析级分。蛋白质印迹分析确认了,NifU和NifS形成复合物。
未来,已纯化的NifS多肽和NifU多肽将通过电感耦合等离子质谱法(ICP-MS)进行分析以确定蛋白中的铁含量,并且通过穆斯堡尔谱学进行分析以确认结合至多肽的Fe-S簇存在、类型和氧化还原。
能够通过添加的Fe2+和L-半胱氨酸在体外反应中示出簇形成。在一个实验中,从棕色固氮菌纯化得到野生型NifH多肽,并且通过螯合作用去除Fe-S簇以生成apo-NifH多肽。野生型NifD-NifK复合物也从棕色固氮菌纯化得到。体外ARA测定示出,如上所述的已纯化的从本生烟细胞纯化得到NifU多肽能够向apo-NifH多肽供予Fe-S簇,从而作为针对ARA活性的固氮酶还原酶来重建NifH活性。
实施例15通过在植物细胞中表达NifV生成高柠檬酸
引入
(R)-2-羟基-1,2,4-苯三羧酸(在本文中且通常被称为高柠檬酸)是所有已知固氮酶,即分别为钼(Mo-Fe)、钒(V-Fe)和铁(Fe-Fe)固氮酶,的活性所必需的(Hu和Ribbe,2016)。进行氮的还原反应的Mo基酶的固氮酶蛋白是NifD多肽和NifK多肽的α2β2-四聚体,该α2β2-四聚体在每个α亚基中包含铁钼辅基(FeMoco)并且在每个α/β亚基界面包含[Fe8S7]复合物(被称为P簇)。包括高柠檬酸分子的FeMoco是N2还原反应所必需的。
高柠檬酸(HC)在表达固氮酶的细菌中形成必不可少的固氮酶辅基FeMoco、FeVco和FeFeco中的一部分,从而通过它的2-羟基基团和2-羧基基团与辅基的Mo、V或Fe原子结合。FeMoco、FeVco和FeFeco位于催化位点,并且这三个辅基被认为以基本相同的方式结合、活化和还原N2。FeMoco(也被称为Mo-固氮酶的M-簇)包含[Fe4S3]子簇和[MoFe3S3]子簇,[Fe4S3]子簇和[MoFe3S3]子簇通过三个桥连无机硫原子(被称为“带硫化物”)和一个间隙碳化物原子(Hu和Ribbe,2016)结合以形成具有化学公式HC-Mo-Fe7-S9-C的辅基。包含其辅基FeVco的钒固氮酶最近已结晶(Sippel和Einsle,2017;Sippel等人,2018)。FeVco具有与FeMoco几乎相同的金属硫,除了钒原子置换钼原子以及碳酸离子替代带硫化物中的一个。因此,FeVco为带有与钒原子配体的高柠檬酸分子的[HC-V-Fe7-S8-CO3-C]簇。在是催化V-固氮酶(VnfDGK)一部分的棕色固氮菌VnfD多肽案例中,金属原子簇的高柠檬酸与VnfD的氨基酸C257和H423进行配位。这些配体氨基酸相对于Mo-固氮酶的NifD高度保守。Mo-固氮酶和V-固氮酶的反应性与一氧化碳(CO)不同,一氧化碳抑制前者但是由后者转化为碳氢化合物(Sippel等人,2018)。高柠檬酸同样形成了FeFeco的一部分,并且辅基与AnfD多肽以类似方式结合。Fe-固氮酶具有与V-固氮酶相比较低的N2-还原活性,随后V-固氮酶的活性又低于Mo-固氮酶,这表明配备有所有三个系统的生物体采用优先表达,该优先表达取决于相对的Mo、V和Fe生物利用率。例如,细菌棕色固氮菌能够表达Mo-固氮酶、V-固氮酶和Fe-固氮酶中的每一个,但是每一个都在不同的营养条件下,V-固氮酶仅处于钼受限条件下,并且Fe-固氮酶仅处于Mo和V两者都受限的条件下。
在自生固氮菌中,高柠檬酸由NifV基因产物生成,NifV基因产物是一种浓缩乙酰辅酶A和α-酮戊二酸(αKG)以生成高柠檬酸的酶(Zheng等人,1997)。NifV是这些细菌中高柠檬酸合成所必需的唯一的基因产物。高柠檬酸合酶活性能够通过酶测定进行检测,如Zheng等人所述(1997)。棕色固氮菌nifV突变体不能生成任何形式的完全活性的固氮酶,但是通过添加高柠檬酸至生长介质恢复了所有这三种固氮酶的活性(Zheng等人,1997)。在缺少添加的高柠檬酸时,突变体nifV细菌表现出异常的固氮酶介导反应,包括改变底物特异性和抑制剂特异性。突变体细菌还原了乙炔和产生的H2,但是不会还原N2((McLean和Dixon,1981)。这些改变的活性是由于与高柠檬酸(诸如,柠檬酸)相关的内源性分子引入到金属原子簇中(Hoover等人,1988)。人们认为高柠檬酸将底物N2正确放于活性位点中的能力是唯一的,因此是完全和合适的功能性固氮酶所必需的。
棕色固氮菌NifV是研究得最为彻底的NifV(Zheng等人,1997;SEQ ID NO:163),在本文中被称为AvNifV。AvNifV多肽在大肠杆菌中的过表达生成了分子量大约为89kDa的二聚蛋白,其单体的分子量为44kDa。酶是氧不稳定的,在暴露于具有21%氧的空气中2小时后会示出大约50%的活性。它的浓缩活性的这种氧敏感性不受向反应介质添加MoO4 -2、Fe2+或Mg2+的影响。反应动力学表明,AvNifV的乙酰辅酶A Km值为0.06mM,αKG Km值为2.24mM。NifV还能够使乙酰辅酶A浓缩成其他酮酸底物,诸如,草酰乙酸和α-酮己二酸盐(Zheng等人,1997)。
在豆科植物根瘤菌共生(诸如,在百脉根(Lotus japonicus)和中慢生型百脉根根瘤菌(Mesorhizobium loti)之间)中,细菌助手不具有NifV基因编码的高柠檬酸合酶活性。相反,宿主植物百脉根表达高柠檬酸合酶(LjFEN1)从而通过根瘤中的根瘤菌提供必要的有机酸用于固氮作用(Hakoyama等人,2009)。LjFEN1多肽与棕色固氮菌NifV关系较远,这两种多肽有约36%的氨基酸同一性。LjFEN1具有540个氨基酸残基,其分子量大约为58.6kDa。在基因编码的LjFEN1没有发现信号肽序列,这说明它可能是胞质蛋白。百脉根有两个FEN1的直系同源物,即登录Nos.AK339695和AK339656,它们的氨基酸序列与LjFEN1分别有81%和71%的相同。进化分析的结果显示,LjFEN1由AK339695进化而来。在LjFEN1中突变的百脉根植物与M.loti之间的共生中,如果小共生体携带AvNifV或FEN1基因的异源拷贝,则生成带有可测固氮酶活性的完全功能性根瘤。
与许多其它真核生物相比,真菌(诸如,酿酒酵母(Saccharomyces cerevisiae))生成高柠檬酸用作通往类NifV酶的赖氨酸生物合成途径中的中间体(Thomas等人,1966;Verhasselt等人,1995)。编码类NifV酶的基因ORF D1298中的酵母突变体通过LjFEN1的过表达进行补充,所述基因在上述途径中起作用。
许多植物种类的基因组分析表明,只有与细菌有共生关系的那些植物才能表达有活性的高柠檬酸合酶,诸如,LjFEN1,并且没有在非豆科植物中发现类NifV酶(Hakoyama等人,2009)。此外,在通过中间体高柠檬酸合成赖氨酸的高等植物中没有确认到代谢途径。与这些报道一致的是,本生烟的基因组序列检查(Naim等人,2012)没有鉴定到NifV或FEN1的任何同源物。根据同源性识别的最近基因是与编码酶2-异丙基苹果酸合酶(EC.2.3.3.13)同源的基因(QUT本生烟基因组和转录组DB登录号P72026),2-异丙基苹果酸合酶参与白氨酸生物合成,但是并不参与高柠檬酸合成。发明人得出结论,本生烟通常不通过类NifV酶或类FEN1酶生产高柠檬酸。与香草豆荚相关的单一报道(Palama等人,2009)不同,发明人不知道在非豆科植物中生产高柠檬酸的任何报道,包括不知道关于烟草、棉花和谷物的报道。没有已知关于FEN1或NifV用于在非豆科植物中生产高柠檬酸的报道。
结果
如以上实施例2-4中所述,当基于产酸克雷伯氏杆菌氨基酸序列(KoNifV;SEQ IDNO:13)+和靶向植物细胞中的线粒体的NifV融合多肽自基因构建体SN142生成时,通过MPP进行高效(>90%)且精确的加工。通过基因构建体表达转录的融合多肽具有用于线粒体靶向的N端MTP-FAγ51和用于蛋白质印迹法检测的C端HA抗原表位。此外,基于产酸克雷伯氏杆菌氨基酸序列,且在N端融合FAγ-scar9基序的NifV多肽被证明在大肠杆菌中用于提供接近野生型水平的固氮酶活性,在相对于野生型的MIT2.1系统中提供约90%的活性,所以NifV融合多肽通过9个氨基酸的N端延伸仍保持活性(实施例4)。但是,已加工的KoNifV多肽在植物线粒体中以不可溶形式进行累积(图3)。
发明人认为产酸克雷伯氏杆菌NifV融合多肽在本生烟细胞中的不可溶性是构成植物细胞中固氮酶功能的一个问题,因为基本上不可溶性多肽不大可能为高柠檬酸合成提供充足的酶功能。因此,发明人通过天然NifV或与相同MTP和HA抗原表位序列融合用于线粒体定位和检测的其他类HCS变体的表达寻找更多可溶性NifV多肽。
变体NifV序列选择
在序列数据库中搜索NifV变体序列和与KoNifV氨基酸序列相关的其他高柠檬酸合酶(HCS)酶。序列来自于各种细菌和酵母,包括来自于耐热细菌的一些细菌。2018年9月14日访问数据库,以NifV进行查询从UniProt数据库提取NifV多肽序列。从数据库中识别并提取出2044个类NifV/HCS氨基酸序列。为了选择和检验代表序列,基于蛋白相似性建立蛋白网络,从而产生基于序列相似性的类NifV/HCS多肽群集。为此,氨基酸序列与MAFFT-多重序列对齐程序-使用服务器mafft.cbrc.jp/alignment/server/large.html?aug31的软件(版本7)-关于氨基酸或核苷酸序列进行比对。使用少于10000个序列且少于5000个位点的策略G-large-INS-1。使用线上序列转换器(www.hiv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html)将输出从.pir格式转换为.phy格式。
使用Cytoscape(https://cytoscape.org)软件显现彼此相关的序列群集。为了计算距离矩阵且准备Cytoscape的输入文件中数据,使用PHYLIP/protdist程序计算NifV序列的Kimura距离矩阵。使用Notepad修改输出文件,以为Cytoscape中的aMATReader准备合适的输入格式。然后在Excel中修改距离矩阵以减小文件大小并定义子群:移除所有大于0.1的数值,从而生成子群,并移除冗余序列。
从HCS的六个簇中的每一个和相关序列中选择代表性类HCS氨基酸序列。此外,因为三个甲烷暖球菌类HCS序列被认为更可能是耐热的的并且可能维持稳定和可溶性,所以选择它们,并且从产酸克雷伯氏杆菌(KoNifV)和棕色固氮菌(AvNifV)选择NifV序列作为比较。基于细菌表达构建体MIT2.1中的氨基酸序列,还识别了KoNifV的变体(登陆No.WP_004138778;SEQ ID NO:164)。EC38020中的KoNifV氨基酸序列和MIT2.1中的NifV氨基酸序列与相对于SEQ ID NO:13的氨基酸155-157和232-236不同,但是其它方面相同。与酿酒酵母基因Lys21p相对应,还选择了酿酒酵母HCS(ScHCS)序列,被Verhasselt等人称为D1298(1995)。酿酒酵母中的同源酶(Lys20)表现出更强活性和赖氨酸的较低负调控。
选定的序列以与来自EC38020(SEQ ID NO:13)的KoNifV相同的百分比列于表15中。氨基酸序列的序列比对在图20中示出,其示出了高度保守的氨基酸。毫无疑问地,选定序列覆盖了较大范围的类NifV/HCS序列。
表15选定用于检验的NifV和类NifV/HCS序列。
Figure BDA0003343176700001131
Figure BDA0003343176700001141
用NifV和类NifV/HCS序列构建编码融合多肽的质粒
融合多肽具有列于表15中选定的NifV和类NifV/HCS序列并且在每个N端具有MTP-FAγ51,然后测试它们在植物细胞中表达的能力、在线粒体它们使用MPP的加工能力以及它们生成高柠檬酸的能力。还使用如实施例1中所述的方法检验每个线粒体靶向多肽的溶解性。通过生成编码这些序列的基因构建体并在本生烟叶片系统中变体它们来完成这些实验。每个编码的融合多肽具有相同的HA抗原表位用于使用位于MTP序列和类NifV/HCS序列之间的抗HA抗体进行检测,在其C端具有HA抗原表位的SN142编码的KoNifV融合多肽除外(表15)。因此,设计这个实验用以检验每个类NifV/HCS序列的N-或C端延伸是否仍会在植物细胞中生成高柠檬酸。制备基因构建体的平行组(表15)以表达细胞质靶向的多肽,该细胞质靶向的多肽在N端缺失MTP-FAγ51序列,但是具有N端HA抗原表位。因此比对每个融合多肽的表达以及它们对对应的缺失MTP序列的细胞质多肽的作用。
使用密码子优化来合成每个融合多肽的DNA序列,用于植物表达和兼容GoldenGate克隆协议。通过GoldenGate协议使用模块化克隆系统制备基因构建体。除了SN142之外,DNA组分以5’至3’的顺序组装:35S CaMV启动子(EC51288)、编码MTP-FAγ51和HA抗原表位的嵌合序列、随后是GG接头(EC38095)、类NifV/HCS变体的密码子优化的编码区,以及最后是CaMV 3’聚腺苷酸化区/转录终止子(EC41414)。上述组分组装成期望的基因构建体,并根据GoldenGate组装使用Type IIS限制性内切酶克隆被插入到表达载体中(Weber等人,2011)。由此生成的构建体列于表16中。通过单一同位素设置利用ExPASycompute pl/Mw(web.expasy.org/compute_pi/)计算MPP加工之前和之后的已编码的融合多肽的分子量。
表16瞬时表达本生烟叶片或稳定转化的植物中类NifV/HCS多肽的基因构建体MTP,FAγ51线粒体靶向多肽;Mw,分子量;na,不适用。
Figure BDA0003343176700001142
Figure BDA0003343176700001151
本生烟叶片中的表达及检验溶解性和高柠檬酸生成
使用如实施例1所述的方法通过农杆菌(Agrobacterium)每一个基因构建体被引入到本生烟叶片。收获渗透后5天的叶片样品,制备蛋白提取物,并且使用抗KA抗体通过蛋白质印迹法分析蛋白提取物(图21和22)。收获平行叶片样品用于代谢产物提取,并且通过GC-MS/MS工艺测量其高柠檬酸水平。
通过蛋白质印迹分析很容易检测到所有检验的融合多肽,并且因此在植物细胞中被高效表达线粒体靶向多肽和细胞质靶向多肽两者。如之前经观察发现的(实施例3),线粒体靶向产酸克雷伯氏杆菌NifV融合多肽以较高水平生成,并被MPP高效加工,但在植物细胞中基本上不可溶。以相同方式,线粒体靶向MiHCS2、MiHCS3和MaHCS融合多肽也以较高水平表达,并且表现出被加工但不可溶。NsHCS融合多肽和MiHCS1融合多肽表现出被加工但仅部分可溶。相比之下,当TbHCS融合多肽、TpHCS融合多肽和CtHCS融合多肽靶向线粒体时,它们表现出被加工且基本上可溶。线粒体靶向酿酒酵母HCS(ScHCS)表现出以比其他多肽更低水平被表达,但是被高效加工且可溶。当使用MTP-FAγ51靶向植物线粒体时,棕色固氮菌NifV(AvNifV)融合多肽以较高水平被表达、被高效加工且部分可溶(~50%)。类似地,当使用MTP-FAγ51靶向植物线粒体时,绿硫细菌HCS(CtHCS)被较好表达、高效加工且可溶。
与线粒体靶向多肽相比,大部分细胞质靶向多肽是可溶的或者至少部分可溶,包括KoNifV多肽(图22)。发明人得出结论,在一些案例中,由于线粒体定位导致了不可溶性,并且多肽可能在两个位置上示出不同水平的可溶性。一般而言,与对应的线粒体靶向多肽相比,细胞质靶向多肽的信号强度更低。ScHCS、MiHCS1和KoNifV除外,其中,与靶向线粒体的负体相比,细胞质靶向多肽表现出更高的表达水平。
气相色谱-串联质谱(GC-MS/MS)分析用以测量高柠檬酸水平
为了在引入基因后测量叶片样品的高柠檬酸水平从而证实线粒体靶向融合多肽或细胞质靶向融合多肽的HCS活性,研发且验证GC-MS/MS方法,如下。包括任何高柠檬酸的极性代谢产物提取至每提取液的湿叶重10体积,该提取液包含在methanol:H2O(1:1v/v)中:22μM D4柠檬酸(美国剑桥同位素实验室公司,cat.no.DLM-3487)、36μM13C富马酸(美国剑桥同位素实验室公司,cat.no.CLM-1529)、23μM 13C山梨醇(美国剑桥同位素实验室公司,cat.no.CLM-1565)、31μM D3天冬氨酸(美国剑桥同位素实验室公司,cat.no.DLM-832)和54μM D5甘氨酸(美国剑桥同位素实验室公司,cat.no.DLM-280)作为内标准品。.用Qiagen组织研磨器和3mm碳化钨珠通过提取液在1.5ml微量离心管中均质化叶片样品。在预冷却至-80℃的支架中旋转管位置的同时,以1/20rpm均质化叶片样品两次三分钟。均质化之后,以10,000×g,在4℃下,离心样品30分钟以去除固体物质,并且由此生成的包含代谢产物的上清液被收集并在-80℃下进行保存直至进行分析。在真空浓缩器中干燥每份30μ上清液进行代谢产物衍生,手动进行代谢产物衍生如下。向每份已干燥样品添加10μl含有20mg/ml甲氧胺盐酸盐的吡啶。溶液在37℃下孵育90分钟,同时每15分钟涡旋一次,然后添加15μl的N,O-双(三甲基硅烷基)三氟乙酰胺+三甲基氯硅烷(BSTFA+TMCS)(99:1),并且再次在37℃下孵育溶液30分钟,同时每15分钟涡旋一次,然后添加并混合5μl烷烃混合物(正十二烷、正十五碳烷、正十八烷、正二十烷、正二十五烷、正二十七烷、正三十二烷,每样浓度为0.029%w/v)。在进行GC-MS分析前,将每个衍生混合物置于环境温度下60分钟。
在配备有DB-5毛细管柱(膜厚度为30m×0.25mm ID×1μm)的Shimadzu TQ8050气相色谱-串联质谱仪上进行GC-MS代谢产物分析。以1:10分配模式向柱上注入1μl,柱的入口被加热至280℃,且以氦作为气体载体。将烤箱温度设置为100℃,保持4分钟,然后以10℃/minute加热至320℃,保持11分钟。质谱仪接口被加热至280℃,离子源置于200℃下。以全扫描模式测量45与600之间的质量。对于多反应监测(MRM)模式,包含在具体保留时间窗口之间带有靶离子和限制子离子的467个化合物的Shimadzu MRM库通过相同的GC和MS参数用于检测,针对每个代谢产物衍生物设置所述保留时间窗口。研发多反应监测(MRM)参数用于高柠檬酸4TMS,且通过以碰撞能量3-45V扫描m/z=287、243、147和73将多反应监测(MRM)参数包括在MRM分析协议中。基于该扫描,以下两个碎断图式以保留指数1931:20V下靶离子m/z=287>73和9V下基准离子m/z=287/243进行检测。为了防止注射器从一个样品污染下一个样品,每次用己烷、然后1:1v/v乙酸乙酯和丙酮的溶液洗涤注射器5分钟,然后用吡啶冲洗,以从出去来自先前样品的任何残留高柠檬酸4TMS。关于全扫描模式下获得的色谱反复核对MRM模式下识别的推定化合物,其中,关于NIST 17库和Golm代谢组学数据库搜索具体保留时间点的质谱(Hummel等人,2007)。
植物细胞中生成高柠檬酸的结果
在许多样品中,通过这个方法很容易检测并测量高柠檬酸。只p19构建体渗透其中且没有NifV/HCS序列的对照本生烟叶片样品显示出较低高柠檬酸背景水平。GC-MS/MS方法极其敏感,所以识别出较低水平的高柠檬酸并不令人惊讶。对照植物中的信号被认为是真正的信号,因为相对于可靠商业标准,该方法使用了两个诊断离子和保留时间。仅在质量控制(QC)标准混合物或提取缓冲液中没有那些具体离子的背景噪音。
非渗透叶片样品和用编码GFP的基因孵育的叶片也显示出较低的高柠檬酸背景水平。选择基线峰面积,该基线峰面积具有三个阴性对照的峰面积的最大量(GFP,p19,野生型)。关于被NifV/HCS基因渗透的每个样品,从峰面积中减去基线高柠檬酸靶离子峰面积用于试样。归一化峰面积转换为log10尺度,并且在图23中示出数据。
数据表明,来自产酸克雷伯氏杆菌(KoNifV)的NifV/HCS多肽和来自Methanocaldococcus infernus的全部三种多肽(MiHCS1、MiHCS2和MiHCS3)没有关于线粒体靶向多肽和细胞质靶向多肽两者生成基线水平以上的可检测高柠檬酸。这些数据与观察到的KoNifV和MiHCSs对线粒体靶向多肽的不可溶性一致(图20和21),但是难以理解的是,对细胞质靶向多肽缺乏HCS活性。M.infernus多肽在本生烟的生长温度下已经失活。相比之下,包括其他NifV/HCS序列中的7个的线粒体靶向多肽和细胞质靶向融合多肽在叶细胞中生成高柠檬酸方面明显具有活性。
若干特定观察结果是特别值得注意的。酿酒酵母HCS(ScHCS)多肽是检测的多肽中在生成高柠檬酸方面最具活性的,在不考虑线粒体和细胞质位置的情况下,其活性比其他多肽要高出10倍至100倍。具有序列ISTQVVRNRGGYPYDVPDYAGG(SEQ ID NO:166)且在ScHCS的N末端包含HA抗原表位序列的22个氨基酸N端延伸(scar序列)对于HCS功能明显耐受。在ScHCS的N末端处的较短的12个氨基酸scar序列MYPYDVPDYAGG(SEQ ID NO:165)也对该功能耐受。更令人惊讶的是,当来自SN254的406氨基酸AvNifV的融合多肽(编码MTP::HA::AvNifV,被加工成scar9-HA::AvNifV)靶向与细胞质靶向多肽相对的植物线粒体时,生成27倍以上的高柠檬酸。对于由SN253生成绿硫细菌HCS(CtHCS)来说这也是真的,只是程度较小。这些观察的可能理由是AvNifV多肽和CtHCS多肽都有些对氧敏感,线粒体位置与氧隔离,并且因此产生更大活性。同时,当AvNifV和CtHCS位于细胞质内时明确生成了高柠檬酸,这建议那两种多肽可能一定程度上耐受氧。Zheng等人已报道了AvNifV的氧敏感性(1997)。相同方式下,在不考虑Thermincola potens、希氏热厌氧杆菌和乙酸甲烷八叠球菌HCSs位于哪里的情况下,它们也生产高柠檬酸。值得注意的是,当这三种HCSs位于细胞质时,它们都更加具有活性,这表明它们不对氧敏感。如通过ScHCS所观察到的,在AvNifV的N端具有序列ISTQVVRNRGGYPYDVPDYAGG(SEQ ID NO:166)的22个氨基酸延伸耐受功能。
ScHCS具有最高的高柠檬酸生产水平,因此被发明人认为如果期望较高高柠檬酸生产水则是用作植物线粒体中重组Nif途径一部分的最合适的NifV/HCS。但是,因为高柠檬酸构成辅基的一部分,所以其他HCS序列中的任何一个都可能用于FeMoco合成,辅基不能在固氮酶反应中殆尽,所以不会非常需要辅基。能够实证地确定NifV功能的最佳水平,如以下实施例中进一步描述的。
能够通过组合NifB、NifX、NifE、NifN、NifH、apoNifD-NifK、NafY、Mo、Fe、S、S-腺苷甲硫氨酸、ATP再生混合物(ATP、磷酸肌酸、肌酸磷酸激酶)和R-同型柠檬酸,在体外实现FeMoco合成和后续固氮酶活性,如Curatti等人所报道的(2007),这建议,如果组合混合物具有充足的高柠檬酸,则NifV不需要与其他Nif组分发生物理相互作用。人们认为,尤其是,NifH起到ATP依赖型Mo-高柠檬酸插入酶的作用以向NifE-NifN复合物递送Mo-高柠檬酸进行FeMoco组装(Hu等人,2013)。发明人认为,如果可能存在在植物线粒体中通过ScHCS生成较高水平高柠檬酸的有害作用,则AvNifV将会比ScHCS更适合用作重组Nif途径,因为AvNifV酶更可能将其生成的高柠檬酸通过物理结合递送至NifH。
测量本生烟细胞中的α-酮戊二酸和丙酮酸
GC-MS代谢产物分析还分别检测了衍生物α-酮戊二酸(αKG)1MEOX 2TMS和丙酮酸1MEOX 1TMS以及αKG和丙酮酸的衍生物。αKG和通过丙酮酸脱氢酶氧化丙酮酸生成的乙酰辅酶A(Ac-CoA)是NifV/HCS酶用于合成高柠檬酸的两个底物。当ScHCS在本生烟叶片中表达时,与当棕色固氮菌NifV靶向线粒体时相比,ScHCS降低了αKG和丙酮酸的水平,这与缺乏NifV/HCS的阴性对照叶片中的水平基本上相同。因为αKG和丙酮酸是线粒体基质中柠檬酸循环中的关键中间体,降低它们的水平可能会对线粒体整体功能产生不良影响,所以应当避免NifV/HCS对有害水平的过表达。因此,得出的结论是,如果AvNifV生成的高柠檬酸能够通过蛋白质相互作用,而非通过可能需要更高浓度的高柠檬酸的扩散,而被递送给NifH,则与ScHCS相比,AvNifV将会更加适用于FeMoco、FeVco或FeFeco组装。
实施例16当在植物细胞中被表达时NifH变体的溶解性
引入
当来自产酸克雷伯氏杆菌(KoNifH;SEQ ID NO:1)的NifH多肽被表达为在瞬时叶片表达系统(实施例3)中带有MTP序列和HA序列的融合多肽时,发现该NifH多肽在植物线粒体中几乎不可溶,或者在一些实验中完全不可溶。得出的结论是,尽管MTP序列已被MPP正确酶切,但是NifH融合多肽无法在本生烟线粒体中正确折叠或者仍与细胞膜保持结合,因此,在那种情况下,NifH融合多肽不可能合适地起到NifH蛋白的作用。相比之下,包括产酸克雷伯氏杆菌NifH序列、但在N端缺乏MTP序列且定向于细胞质而非线粒体的相应的NifH融合多肽在瞬时叶片表达系统中是可溶的。因此,融合多肽的不可溶性与线粒体位置相关。此前,Lopez-Torrejon等人(2016)已报道了来自棕色固氮菌的NifH保留了NifH的电子转移功能并且在酵母线粒体中是可溶的。但是,在瑞典斯德哥尔摩举行的会议上也报道了,当来自A.vinelandii的NifH在瞬时叶片表达系统中的植物线粒体中进行表达时,它仅进行较低水平的累积,这可能是因为其较低的溶解性(斯德哥尔摩ENFC的西江,2018)。因此,酵母细胞和植物细胞在任何一个特定NifH多肽的溶解性和/或功能方面可能是不同的,这对发明人是显而易见的。
结果
在避开已被检验在本生烟中进行较高水平表达的KoNifH融合多肽的明显不可溶性这个问题的尝试中,发明人使用如下所述的工艺从其他生物体中寻求NifH蛋白的同源物,其他生物体可能作为融合多肽在植物线粒体中是可溶的。
2018年4月23日访问数据库,以家族IPR005977-固氮酶铁蛋白NifH-进行查询从UniProt数据库提取NifV多肽序列。从数据库中识别并提取出4183个NifH氨基酸序列。为了选择和检验代表序列,基于蛋白相似性建立蛋白网络,从而产生基于序列相似性的NifH多肽群集。为此,氨基酸序列与MAFFT-多重序列对齐程序-使用服务器mafft.cbrc.jp/alignment/server/large.html?aug31的软件(版本7)-关于氨基酸或核苷酸序列进行比对。使用少于10,000个序列且少于5,000个位点的策略G-large-INS-1。使用线上序列转换器(www.hiv.lanl.gov/content/sequence/FORMAT_CONVERSION/form.html)将输出从.pir格式转换为.phy格式。为了计算距离矩阵且准备Cytoscape的输入文件中数据,使用PHYLIP/protdist程序计算NifH序列的Kimura距离矩阵。使用Notepad++修改输出文件,以为Cytoscape中的aMATReader准备合适的输入格式。然后在Excel中修改距离矩阵以减小文件大小并定义子群:移除所有大于0.1的数值,从而生成子群,移除冗余序列,移除零值,并且数值舍入到小数三位。
使用aMATReader app将这个距离矩阵导入到Cytoscape中用作无向网络,使用分隔符:tab,取消选择要导入的行。在这个阶段,网络包含3,114个节点和450,489个边缘。使用Prefuse力导向布局(未加权)使网络可视化。从包括入口名、状态、蛋白名称、基因名称、生物体、长度和分类谱系(PHYLUM)的UniProt知识库中提取出额外信息,并且将额外信息导入到Cytoscape中。节点按门进行着色,并且代表被选定进行生化分析的序列的节点被显示为更大节点。从网络去除长于700个氨基酸的蛋白序列-因为这些序列(731-804个氨基酸残基)的长度与典型NifH蛋白的长度260-300个氨基酸残基不一致。11个序列中的9个来自甲烷八叠球菌(Methanosarcina)种属,一个来自多食厌氧菌(Anaerovirgula multivorans),一个来自固氮密螺旋体(Treponema azotonutricium)。通常,这些蛋白被注解为“NifEH”。每个NifEH的第一部分都具有与包括P-环、[Fe4S4]-簇结合位点的NifH相似的序列,并且每个序列的第二部分都分别与NifE或NifD相关。在Methanosarcina中,存在编码NifD的基因或者NifEH的紧邻该基因的类似多肽,但是不存在近距离的NifK等价物。尽管这些NifEH多肽结果是与固氮酶蛋白相关,但是它们可能具有不同功能。根据本发明人的知识,此类蛋白还没有在科学文献中提及,并且不存在实验数据。
最终网络包含3,103个节点和450,486个边缘。用于网络生成和可视化的Cytoscape版本是3.6.1和3.7.0。InterPro数据库不包含关于AnfH蛋白或者VnfH蛋白的单独家族;因此,这些不包括在NifH组中。来自InterPro会员数据库的捐赠签名,即CDD、TIGRFAMs和HAMAP,不能区分NifH、AnfH和VnfH。因此,AnfH序列和VnfH序列也包括在该比对中。AnfH序列的子集从NifH序列中识别出。
序列选择
选择每个包含多于13个序列群集中的一个代表进行生化分析,与产酸克雷伯氏杆菌NifH.进行比对。这包括来自高温厌氧固氮生物体的NifH序列,用以检测溶解性和功能分析(表17)。表17中的关于温度的柱指出了针对生物体中的一些的最佳生长温度。选定NifH序列中的每一个相对于SEQ ID NO:1的序列同一性程度在表18中示出。SEQ ID NOs:168至181中提供了包括选定NifH多肽而非KoNifH且在MTP-CoxIV-TwinStrep序列的C端融合的融合多肽的氨基酸序列。
表17:来自固氮的相关生物体的NifH序列,当作为融合多肽在本生烟叶片中表达时检测其溶解性
Figure BDA0003343176700001191
Figure BDA0003343176700001201
一氧化碳同化嗜热菌菌株可能不能够固氮,因为那个生物体中的NifD蛋白编码区具有内部终止密码子。因此,NifH序列也可能不是功能性的。
表18:NifH与产酸克雷伯氏杆菌(SEQ ID NO:1)的氨基酸序列同一性
Figure BDA0003343176700001211
在瞬时叶片表达心态中检测NifH蛋白的溶解性
当作为MTP-CoxIV::TwinStrep::NifH融合物表达植物线粒体位置时,不同NifH多肽的溶解性使用strep抗体通过蛋白质印迹法进行评定。TwinStrep序列位于MTP序列和NifH序列之间。如果期望的话,这个抗原表位用于使NifH融合多肽的后续纯化成为可能。在好氧条件下,通过渗透的叶片组织制备蛋白提取物,并且将蛋白提取物分离为可溶性级分和不可溶性级分。当用由基因构建体SN44(编码MTP-FAγ51::NifM::HA)表达的产酸克雷伯氏杆菌NifM共表达每个NifH融合多肽时,评定每个NifH融合多肽的溶解性,看看用NifM进行共表达是否可能增加溶解性。NifM被认为参与了产酸克雷伯氏杆菌中的NifH突变。目前尚不清楚,为了获得完全活性,来自经检验的其他种属的NifH多肽是否需要类NifM蛋白。那些生物体中的大部分而非变形菌门在它们的基因组中不包含NifM同源物,蛋清其他非同源蛋白可能代替NifM执行类似的功能。
蛋白质印迹分析(图24)示出,检测可溶性或至少部分可溶性NifH蛋白的包括来自嗜热蓝藻层理鞭枝藻、M.infernus、嗜中温螺旋杆菌、绿硫细菌、土杆菌M21和革兰氏阳性杆菌(M.thermoautotrophicus)NifH序列的融合多肽。在包括来自产酸克雷伯氏杆菌、A.brasilense、F.casurinae、M.gracile和B.diazoefficans的NifH的那些融合蛋白的可溶性级分中检测出少量融合多肽或者没有检测出融合多肽。得出的结论是,在植物细胞线粒体中至少部分可溶的大部分NifH多肽来源于嗜热菌,这可能是因为与来自嗜常温菌的那些多肽相比,此类多肽更加固有稳定,所以它们能够更容易地折叠成其天然构象并得以保持。
还能观察到,当用产酸克雷伯氏杆菌NifM共表达NifH融合多肽时,包括产酸克雷伯氏杆菌NifH的融合多肽(图24),溶解性没有显著改进。如上所述,尚未清楚,大多数检验的细菌种属中的NifH多肽是否需要用于突变的类NifM活性以及生成完全功能性NifH。
从本生烟叶片中纯化得到M.infernus NifH和嗜热蓝藻层理鞭枝藻NifH
来自M.infernus和嗜热蓝藻层理鞭枝藻的NifH的Twin Strep::NifH融合多肽在非变性条件下提取之后成功地从渗透的本生烟叶片样品中纯化得到,然后使用StrepTactinXT柱。这确认了,来自这两个种属的MPP加工的NifH融合多肽实际上在叶片细胞的线粒体中是可溶的。纯化的蛋白用于生化分析,诸如,分析FeS簇是否存在以及NifH多肽向从棕色固氮菌分离的纯化的NifD-NifK供予电子的能力。
在细胞固氮酶系统中检测变体NifH多肽
使用MIT2.1系统检测当靶向叶片线粒体时被发现是可溶的NifH候选物在大肠杆菌中的NifH功能。通过定点突变在MIT2.1中将XhoI位点引入到NifH蛋白编码区的3’端。这个最新引入的XhoI限制性酶切位点与NifH上游的现有XhoI位点一起用于分别置换带有7个选定NifH变体序列的MIT2.1中的野生型产酸克雷伯氏杆菌NifH序列,这7个选定NifH变体序列通过每个开放阅读框侧面的XhoI限制性酶切位点进行合成:嗜热蓝藻层理鞭枝藻NifH(MlNifH;Genbank登录号Q47917)、M.infernus NifH(MiNifH;Genbank登录号WP_013099459)、温和日光杆菌NifH(HmNifH;Genbank登录号WP_012282218)、绿硫细菌NifH(CtNifH;Genbank登录号WP_010933198)、地杆菌属NifH(GspNifH;Genbank登录号WP_015837436)、热自养甲烷热杆菌NifH(MtNifH;Genbank登录号AAB86034)和一氧化碳同化嗜热菌(Carboxydothermus pertinax)NifH(CpNifH;Genbank登录号WP_075859892)。通过含有产酸克雷伯氏杆菌NifH DKYENJ的完成NifH变体置换,然后在用SbfI酶解这两种质粒后,含有产酸克雷伯氏杆菌NifB QFUSVWZM的MIT2.1的后半部分的pB-ori连接到已修饰的pHJ-TOPO。
由此生成的包含NifH变体的已修饰的MIT2.1质粒用于转化大肠杆菌菌株JM109,并且用乙炔还原分析法测定转化株。将JM109与ARA中的阳性对照原始MIT2.1相比,没有一个携带带有NifH变体的已修饰的MIT2.1质粒的JM109菌株减少乙炔,相反,显示出了与携带阴性对照质粒pB-ori的JM109相同的乙烯生产背景水平。基于这个结果,发明人得出结论,NifH变体不会与来自产酸克雷伯氏杆菌的NifD-NifK蛋白一起起作用,但是会与它们对应的NifDK异四聚体(例如,带有绿硫细菌NifD-NifK的绿硫细菌NifH)一起起作用。因此,能够实证地确定带有NifD-NifK的每个NifH的兼容性。
实施例17NifH和NifM在稳定转化的植物中的表达
引入
功能性NifH蛋白,又称Fe蛋白,是固氮酶活性所必需的。它具有针对固氮酶活性的若干已知功能:它是向固氮酶供予电子、包括P簇的金属原子簇突变所必需的,并且分别参与了关于Mo-固氮酶、V-固氮酶和Fe-固氮酶的辅基FeMoco、FeVco和FeFeco的合成。先前Rubio及其同事已经通过靶向线粒体在酵母中共表达了棕色固氮菌NifH和NifM。从酵母细胞中纯化得到的NifH蛋白能够向holo-NifD-NifK复合物体外供予电子(Lopez-Torrejon,2016),但是在并非为此设计的那个体外系统中没有检测到NifH蛋白的其他功能。向细胞器官(诸如,植物线粒体)中引入完全功能的NifH对于植物内的工程固氮酶来说是必需的。
发明人先前已通过在本生烟叶片中使用瞬时系统示出,产酸克雷伯氏杆菌NifH(KoNifH)能够通过将MTP序列转化融合至KoNifH多肽的N端靶向植物线粒体(Allen等人,2017)。在MTP序列中通过切割较好表达且加工了融合多肽,这证实了已表达融合多肽的线粒体位置。当在KoNifH的N端转化融合时,两种不同的线粒体靶向多肽MTP-FAγ77和MTP-FAγ51在MTP内的期望位点进行高效特异性切割。与其他线粒体靶向Nif蛋白相比,已加工NifH融合多肽的丰度相对较高。另外,本文实施例4中所述的实验表明,在通过带有额外Gly-Gly接头的线粒体基质蛋白酶(MPP)进行切割后留下来自MTP序列的C端的9个氨基酸“scar序列”,当被评定为细菌互补格式时,在KoNifH的N端的总共11个氨基酸不会降低乙炔还原活性。
但是,在MTP-FAγ51::KoNifH::HA融合多肽(SEQ ID NO:25)被载体SN18和SN27编码的情况下,MPP切割的多肽scar9::KoNifH::HA被发现几乎只存在于不可溶性蛋白级分中(实施例2和3)。为了评定NifH的不可溶性是否是由靶向多肽造成的,制备另一个基因构建体(SN42),并且使用编码MTP-CoxIV::TwinStrep::KoNifH::HA(SEQ ID NO:128)的另一个MTP序列进行测试该基因构建体。尽管在MTP内期望位点处进行切割后已在瞬时叶片分析中很容易地检测到来源于MTP-CoxIV::TwinStrep::KoNifH::HA的已正确加工形式,但是也显著地在不可溶性蛋白级分中发现这个scar32::KoNifH::HA产物。
因为不可溶性蛋白可能错误折叠或者仍保持与细胞膜结合,所以它们是非功能性的,发明人寻找了各种替代方法以改进NifH的可溶性,如下所述。对应于在植物线粒体中MPP切割MTP-CoxIV::TwinStrep::KoNifH::HA融合多肽之后生成的多肽,还检测了为KoNifH进行32个氨基酸N端延伸的功能性后果。
使用棕色固氮菌和产酸克雷伯氏杆菌的遗传和生化研究显示,NifM是在那些固氮细菌中生成功能性和成熟NifH蛋白所必需的。如本文实施例2-4中所示,产酸克雷伯氏杆菌NifM的线粒体靶向版本MTP-FAγ51::KoNifM::HA(SEQ ID NO:123)在植物线粒体中被表达且被精确高效地切割,然后在可溶性级分进行检测。但是,在KoNifM的N端处的9个氨基酸scar序列降低了乙炔还原活性,仅仅是大肠杆菌MIT2.1系统中野生型水平的10-20%(表4)。关于生成已加工的scar9::NifM::HA多肽的细菌菌株的蛋白质组分析表明,相对于野生型NifM,向NifM进行这个N端添加对导致约50倍的已修饰NifM多肽积累增加。因为众所周知,固氮酶活性对各种Nif蛋白的表达水平改变是敏感的(Temme等人,2012),所以那个细菌分析格式的scar9::NifM的多余部分降低了固氮酶功能,是野生型水平的10-20%。
NifH和NifM在本生烟叶片中的共表达
为了检测NifH在植物线粒体中的可溶性是否可能使用同样靶向那个细胞器官的NifM融合多肽通过共表达进行改进,每一个都包含不同载体的Agrobacterial菌株的混合物渗透到本生烟叶片中,如实施例1中所述。混合并且渗透包括编码MTP-FAγ51::KoNifH::HA(SN18)的载体或者编码MTP-CoxIV::TwinStrep::KoNifH::HA融合多肽(SN42)的载体的第一菌株和包括编码MTP-FAγ51::KoNifM::HA融合多肽的SN30的第二菌株。渗透后5天,从叶片组织制备可溶性和不可溶性蛋白级分,并且进行蛋白质印迹分析。相对应用单个载体进行渗透,NifH多肽在这些组合中的可溶性没有持续改进。
作为进一步的尝试,构建在同一T-DNA上具有两个基因的另外载体,其中,一个基因编码MTP-CoxIV::TwinStrep::KoNifH::HA融合多肽(SEQ ID NO:128),另一个基因编码MTP-FAγ51::HA::KoNifM多肽(SEQ ID NO:167)。第一个基因在MTP序列与NifH序列之间具有TwinStrep抗原表位并且在C端具有HA抗原表位。第二基因在MTP序列与NifM序列之间具有HA抗原表位。带有两个基因的基因构建体被命名为SL6。使用被称为GoldenGate方法的模块化DNA组装构建该基因构建体,如上所述。编码KoNifH融合多肽的基因受到增强的35S启动子制约,同时编码KoNifM多肽的基因是SCSV S4启动子(登录号AY181084)。
使用SL6转化的农杆菌培养基渗透到本生烟叶片中。渗透后5天收获样品,并且制备总的、不可溶性及可溶性蛋白级分。蛋白提取物的蛋白质印迹分析指出,尽管至少一个实验显示出可溶性NifH多肽的量增加了,但是来自相同载体的NifH融合多肽和NifM融合多肽两者的共表达不会持续改进NifH的可溶性。
然后,决定使用SL6转化烟草和本生烟以生成T-DNA整合到植物核基因组中的稳定转化的植物。
植物转化协议
为了转化本生烟植物,植物在组织培养基中无菌生长用作用于转化的植物材料的来源。通过表面已杀菌的种子建立源植物。为此,用70%乙醇漂洗种子,然后用5%次氯酸钠对表面进行杀毒10分钟同时进行搅拌,随后多次换水进行漂洗。然后,种子在包含浓度为4.43g/L的MSO培养基(M519,PhytoTechnology实验室)、包含3%蔗糖和0.8%琼脂,pH值为5.8的平板上发芽。植物以16/8小时光周期,在生长室中26℃下生长。在大约2周后,转移发育的幼苗,并被稀疏化至每个深组织培养板4个幼苗,并以相同培养基在相同生长条件下进行培养。大约2周后,在组织培养盆中培养单独的已完善生长的植物。6周龄的本生烟植物叶片用于农杆菌介导转化。
在双元载体中包含基因构建体的A.tumefaciens菌株AGL1培养物,诸如,SL6,使用抗生素在MG/L培养基28℃下生长,以保持选择基因构建体。在600nm下光密度介于0.25与0.5之间的培养物用于孵育本生烟组织,如下。切下组织培养生长的植物的上叶片,并使其漂浮在MG/L培养基上,以保持膨胀度直至使用,并且将上叶片切割成约1cm2的小片,包括叶中脉。包含基因构建体的农杆菌培养物被添加至叶片小片中,从而确保外植体完全浸湿,并保持20-30分钟,同时偶尔进行摇晃,使得细菌沿着切割边缘与植物细胞结合。然后,孵育的外植体被轻微印迹到无菌过滤纸上以去除多于的Agrobacteria,并且将外植体以近轴侧向下的方式转移至没有抗生素的共培养基MS9。MS9包含pH值为5.8的带有3%和0.8%琼脂的MSO培养基,通过高压灭菌进行杀菌,并且在高压灭菌和将MSO-琼脂培养基冷却到55℃之后,添加浓度为1mg/L的植物激素IBA和浓度为0.5mg/L的植物激素IAA。黑暗中,在26℃下共培养孵育的外植体48小时。在共培养期之后,外植体被转移到芽再生培养基(MS9,浓度为1mg/L的植物激素IBA和浓度为0.5mg/L的植物激素IAA加上浓度为100mg/L的卡那霉素和浓度为150mg/L的特美汀),近轴侧朝上,每个平板约10个外植体进行平铺。以16/8小时光周期,在光照下,26℃下孵育这些外植体。每2-3周将外植体转移至芽再生培养基一次,直至芽开始发育。6-8周后,将已经发育到充足大小的芽转移至发根培养基(1/3MSO+100mg/L卡那霉素+150mg/L特美汀+1mg/L IBA)。一旦单个植物已发育出粗壮的根,那么收获小叶片样品进行DNA提取,并且用PCR进行选择标记基因和期望的转基因是否存在。然后,将已确认的转基因植物种植在土壤中,并且在温室中生长,从而使得植物逐渐适应。
用标准方法转化培育品种为Wisconsin 38(Wi38)的烟草植物(Horsch等人,1985)。
用本生烟中的SL6生成12个独立转化的植物(命名为SL6-1至12),并且在烟草中生成另外12个独立转化的植物(命名为SL6-13至24)。这些最初的转基因植物被称为T0代。在通过植物的叶片样品制备的DNA上使用PCR确认植物中的每一个中T-DNA的存在,从而确认全部植物都是转基因的。这些独立转化的植物生长至成熟,并且在每个植物自花授精后收获T1种子。为了测试同一系中的遗传分离,将命名为SL6-13的植物的60个T1种子播种至土壤中,并且在标准温室条件下生长4周。使用PCR评估转基因是否存在。20个植物缺乏转基因(无效分离),并且40个植物呈现PCR阳性,这指出低拷贝数转基因事件,可能在植物SL6-13中有一个T-DNA插入。若干无效分离被识别并且作为阴性对照保留。
通过提取总蛋白以及在蛋白质印迹中使用抗Strep抗体或者抗HA抗体进行检测,来评定转基因植物中是否生成NifH融合多肽和NifM融合多肽。在稳定转化的烟草植物中的NifH融合多肽水平比在本生烟叶片中先前观察到的瞬时表达水平要低很多。令人吃惊和意外的是,鉴于那些实验的之前结果,包括被命名为SL6-13的植物的烟草植物产生被正确加工的NifH的可检测水平,只在可溶性级分中发现了被正确加工的NifH。同样的,用SL6稳定转化的本生烟植物生产出显著较少的NifH多肽,但是该多肽已被高效加工并且也在可溶性级分中发现。
分析后代转基因植物
从后代植物收获各种叶龄的叶片,来看看叶龄是否对NifH融合多肽和NifM融合多肽的累积、加工和可溶性有任何影响。从作为SL6-13后代的两个烟草植物中获取样品,从每个植物上获取幼叶、“中年”叶片和老叶。在这片的每一个中,使用抗Strep抗体通过蛋白质印迹法检测NifH融合多肽,并且使用抗HA抗体检测NifM多肽。NifH融合多肽的累积水平随着叶片叶龄而增加。
从稳定转化的植物纯化得到NifH融合多肽
给定TwinStrep标记的NifH多肽是可溶的且极易获得充足的植物材料,那么使用StreptactinXT亲和介质纯化这个多肽。通过在非变性缓冲液中均质化材料、进行离心以去除细胞碎屑、通过0.22μm过滤器进行过滤,并且经过StreptactinXT柱,来提取大约90gSL6-13植物叶片材料。在用使用生物素的柱洗脱之后,收集并且浓缩包含NifH多肽的级分。用蛋白质组学分析样品,用抗Strep抗体进行蛋白质印迹分析以检测NifH多肽,并且用抗HA抗体进行蛋白质印迹分析以检测NifH多肽和NifM多肽两者(图25)。纯化的蛋白进行N端分析以确定N端的氨基酸序列。这些分析确认,在预期的MPP切割位点处切割CoxIV MTP。通过与StreptactinXT柱结合纯化NifH同样支持以下结论,从稳定转化的植物提取得到的TwinStrep::KoNifH是可溶的。总体来说,这些结果指出,自稳定转化的烟草植物分离出来的scar32::TwinStrep::KoNifH::HA蛋白已经在线粒体中被正确加工并且是完全可溶的,满足了对植物中NifH功能的两个主要需求。
用转化的本生烟植物中的NifH和NifM进行NifS和NifU的共表达
编码NifS(SN31)融合多肽和NifU(Sn32)融合多肽的基因构建体被渗透到用SL6转化的本生烟植物中,来看看NifS融合多肽和NifU融合多肽的共表达是否可以提高NifH多肽累积的水平。
实施例18Anf多肽在植物细胞中的表达
引入
分别使用辅基FeMoco、FeVco和FeFeco,在一些固氮细菌(例如,在具有基于钼(Mo)、钒(V)和铁铁(Fe)的三个固氮酶系统的棕色固氮菌中)中发现铁铁固氮酶(Davis等人,1996;Robson等人,1986)。实际上催化双氮还原的钼固氮酶(Mo-固氮酶)和钒固氮酶(V-固氮酶)两者都具有已知的结晶结构。在铁铁固氮酶(Fe-固氮酶)结晶结构已经建立的同时,人们认为它具有与钒固氮酶相似的结构(Sippel和Einsle,2017)。所有生物体被记录到包含V-固氮酶或Fe-固氮酶中的一个或两个、也包含Mo-固氮酶的日期。通常,V-固氮酶和Fe-固氮酶被Mo-固氮酶表达抑制并且只有到Mo有效性开始受限时才被表达。为了区分钼型固氮酶和替代固氮酶,能够使用在乙炔还原分析法中测定13C同位素的同位素乙炔还原分析法(ISARA)(Zhang等人,2016)。
Fe-固氮酶至少研究了三个系统。它具有三个系统的最低固氮酶催化活性,但是它的生物起源看起来比较简单,需要关于固氮酶活性的的较少蛋白。存在来自经充分研究的生物体棕色固氮菌的6种已知Fe-固氮酶蛋白,即AnfD、AnfK、AnfH、AnfG、AnfO和AnfR,它们与Fe-固氮酶不同。这6种蛋白中的前4个是已知对于固氮酶活性是必需的且有助于固氮酶活性。每个固氮酶系统需要被命名为Nif(或者Vnf或者Anf)D、K和H的催化蛋白,并且Fe-固氮酶使用AnfD蛋白、AnfK蛋白和AnfH蛋白。V-固氮酶和Fe-固氮酶也分别需要被命名为VnfG或AnfG的额外结构蛋白,Mo-固氮酶不需要该额外结构蛋白。anfO基因和anfR基因位于其他结构anf基因下游,但是它们的功能尚不可知,并且它们已经显示出当在大肠杆菌系统中表达时不会影响Fe-固氮酶的活性(Yang等人,2014)。Fe-固氮酶活性所需的剩余最小附加基因在Mo-固氮酶途径中是常见的,即NifS、NifU、NifB、NifV、NifJ和NifF(Yang等人,2014)。因此,铁铁固氮酶在大肠杆菌中具有异源功能所需的4个Anf多肽和6个附加Nif多肽的最小集(Yang等人,2014)。
在Fe-固氮酶系统中,是双氮还原位点的固双氮酶是由用作α基的两个AnfD多肽、用作β基的两个AnfK多肽和用作δ基的两个AnfG多肽构成的异六聚体,所以形成了α2β2δ2构象。作为固双氮酶的专性电子供体的固双氮酶还原酶是带有2个相同AnfH多肽的同二聚体。固双氮酶还原酶又称Fe蛋白并且在其亚基的界面处包含单个[Fe4S4]簇(Burén、Young等人,2017)。还预测AnfH蛋白具有两个其他功能,包括以与Mo-固氮酶和V-固氮酶中的NifH基因产物和VnfH基因产物类似方式,是固双氮酶突变所必需的。
对于Mo-固氮酶和V-固氮酶,植物表达Fe-固氮酶的工程被认为是极端困难的。全部关键固氮酶因为极度的氧敏感而都需要特定生化环境,并且需要大量的AT(还原剂的一个来源),并且在正确的细胞区室中必须能够获得充足的元素(诸如,Fe、Mo、V和S)。特别是,当暴露于氧时,Anf酶很快变得不可逆失活。如上所述,4个Anf多肽和6个附加Nif多肽的最小集将会需要被引入到植物中,这从技术观点来看非常难实现。
因此,进行实验从而寻求在植物细胞中表达Anf基因,旨在定位Anf基因产物的线粒体,如下所述。因为4种关键Anf蛋白是AnfD蛋白、AnfK蛋白、AnfH蛋白和AnfG蛋白,所以发明人首先检测表达单个Anf基因的4个基因构建体的每一个,然后在一个载体中将这4个基因合并成一个T-DNA。
在植物细胞中表达Anf融合多肽的单个基因构建体
设计且制备第一系列的基因构建体以分别在植物细胞(诸如,本生烟叶片细胞)中表达AnfD多肽、AnfK多肽、AnfH多肽和AnfG多肽。每个合成基因受到强35S启动子和侧接蛋白编码区的CaMV 3’聚腺苷酸化区/转录终止子控制。来自棕色固氮菌的Anf序列用于设计已编码的氨基酸序列,并且核苷酸序列经过密码子优化用于在植物细胞中进行表达。关于线粒体位置,构建体分别编码了具有融合至N端的MTP-FAγ51的融合多肽以及用抗HA抗体或抗Strep抗体通过蛋白质印迹法检测多肽的HA-抗原表位或TwinStrep-抗原表位。HA抗原表位翻译性融合于C端或者,在大多数情况下,翻译性融合于MTP序列和Anf序列之间,而TwinStrep抗原表位融合于Anf序列的C端。关于编码了线粒体靶向融合多肽的每个基因构建体,还制备了两个相对应的对照构建体。第一个对照构建体编码了缺乏MTP序列而因此表达较小细胞质靶向多肽的多肽,该细胞质靶向多肽针对MTP-Anf多肽(已加工的Anf)的MPP加工的多肽在蛋白质印迹上提供分子量比较器,同时限定每个案例中的MPP加工的多肽都包括约9个氨基酸的“scar序列”,所以尺寸并不相同。每个案例中的第二个对照构建体编码了融合多肽,并被设计成阻止MPP加工,该融合多肽具有用丙氨酸置换的MTP序列的13个氨基酸(Allen等人,2017)。因此,这些第二个对照构建体为来自相对应的MTP-Anf构建体的未加工的多肽提供分子量比较器。在本文,丙氨酸突变的MTP序列被命名为mFAγ51。当分析从被渗透的植物组织中提取得到的蛋白时,来自每个MTP-Anf构建体的样品及它的两个对应的对照构建体被加载到相邻泳道上进行凝胶电泳,所以能够对MTP-Anf多肽的加工进行最佳检测。随后,通过质谱法确认MTP基序中切割期望的位点。
无论具有AnfK序列的融合多肽是否需要保留AnfK功能,都需要相对于野生型多肽避免C端延伸。因为C端延伸破坏了功能,所以将野生型C端序列用于AnfK的期望与将野生型C端用于来自产酸克雷伯氏杆菌(WO2018/141030)的NifK类似(Yang等人,2017)。
在线粒体用MPP进行加工之前和之后,同样列出每个预期分子量(kDa)的多肽的表19中列出了单个基因构建体。表19还列出了未加工的融合多肽的SEQ ID NOs。使用GoldenGate组装方法以与之前实验中期望的构建体类似的方式制备基因构建体。
根据表19,AnfD构建体(SN81和SN161)的对照构建体为SN82和SN158,SN82生成在大致尺寸上与已加工形式相对应的多肽,SN158生成未加工形式尺寸的多肽。因此,在蛋白质印迹分析的凝胶电泳步骤中,来自这些构建体的蛋白提取物在相邻泳道上运行。对于AnfK构建体SN129,对照为SN152和SN155。对于AnfH构建体SN130,对照为SN153和SN156。对于AnfG构建体SN131,对照为SN154和SN157。
除了改变在C端处或者朝向N端的HA抗原表位的位置之外,一个构建体(SN195)中的另一个变化是使用CoxIV MTP序列(Burén等人,2017)而非MTP-FAγ51序列。
表19在植物细胞中表达Anf融合多肽的单个基因构建体(NA:不适用)
Figure BDA0003343176700001271
Figure BDA0003343176700001281
Anf融合多肽在本生烟叶片细胞中的表达
使用如实施例1所述的农杆菌介导方法将构建体中的每一个分别引入到本生烟植物中。渗透后4-5天收获叶片样品,并且制备蛋白提取物,且通过SDS-聚丙烯酰胺凝胶电泳(PAGE)和之前实验中所述的蛋白质印迹分析蛋白提取物。因此,检测已表达的多肽用于借助MPP加工MTP前导序列进行线粒体基质导入。在另外的实验中,使用如实施例1中所述的方法将蛋白提取物分离为可溶性级分和不可溶性级分。
当通过使用抗HA抗体的蛋白质印迹法分析粗蛋白提取物时,很容易检测到多肽条带,该多肽条带的大小与Anf多肽预期的大小匹配(图26)。包括AnfD序列、AnfK序列、AnfH序列和AnfG序列的单个线粒体靶向多肽的全部都被较好表达并且在蛋白质印迹方法中短暂暴露(2分钟)后被看到。分别关于每一个都具有MTP-FAγ51序列的AnfD融合多肽、AnfH融合多肽和AnfG融合多肽的构建体SN161、SN130和SN131在印迹上生成单个主要条带,其分子量是在MTP序列中用MPP加工的多肽所期望的。在每个案例中用于对照多肽的相邻泳道中的条带确认了这些条带是关于已加工多肽的。得出的结论是,这三种融合多肽在线粒体中被较好表达且被高效加工。随后,通过质谱法确认该加工。尽管在凝胶电泳步骤使用了蛋白变性条件,但是来自编码MTP-FAγ51::HA::AnfH SN130的样品仍示出了,不太分离但是明确的较高分子量的条带,其大小适用于多肽的二聚体。
多个条带使得AnfK构建体中的两个的泳道更为复杂。分别自SN152和SN129生成的AnfK细胞质靶向多肽和线粒体靶向多肽示出了通过HA抗体检测的额外条带,这些额外条带比预期在MTP序列中切割的相比要小很多,这指明AnfK多肽似乎经受了的额外蛋白水解切割。尺寸小至约4-6kDa的较小多肽也可以是由转录提前终止或翻译提前终止导致。尽管得到关于AnfK的这个观察结果,但是得到的结论是,包括N端MTP序列的全部4个基因构建体通过加工表达了预期的融合多肽,部分地在AnfK的案例中,以提供期望的线粒体定位的Anf多肽。
来自多基因构建体的Anf融合多肽在植物细胞中的表达和加工
上述第一实验使用了单个基因构建体用于生成单个Anf融合多肽。现在发明人决定测试来自单一载体的AnfD融合多肽、AnfK融合多肽、AnfH融合多肽和AnfG融合多肽中的全部4个的表达,其中,Anf基因中的每一个都具有其自己的35S启动子和转录终止子。这个实验旨在测试当四个Anf多肽在相同植物细胞中一起被表达时它们之间是否相互作用,尤其是寻找单独多肽的累积水平或用MPP加工它们方面的变化。为此,组装基因构建体,使得全部4个基因在双元载体的单个T-DNA中,其中,每个基因具有翻译性融合到HA抗原表位的MTP-FAγ51序列以及之后Anf序列。针对单个基因载体SN161、SN129、SN130和SN131使用相同核苷酸序列和氨基酸序列。由此生成的基因构建体被命名为SL26。还制备了两个对照构建体,SL31编码了四个Anf融合多肽,其每一个都带有丙氨酸突变的MTP序列用于生成关于未加工的多肽(mFAγ51::HA::Anf)的大小标记物,并且SL36编码了四个缺失MTP序列(HA::Anf)的融合多肽用作已加工多肽的大小标记物。此外,为了辅助在蛋白质印迹中识别多个多肽条带,通过从SL26逐步删除一个、两个或三个基因来制备三个额外载体:SL27删除AnfG基因,SL28删除AnfH基因和AnfG基因,以及SL29删除AnfK基因、AnfH基因和AnfG基因,只留下AnfD基因。多基因载体及其组成基因列于表20中。
通过如实施例1中所述的方法将这些多基因载体的全部分别引入到本生烟叶片中。从渗透后4或5天的叶片组织提取得到蛋白,并且通过蛋白质印迹法分析该蛋白,如前所述。结果(图27)示出,融合至MTP-FAγ51序列和HA序列的全部4个Anf多肽很容易被检测到,作为单个强条带能够被较好表达。另外,具有N端MTP-FAγ51前导序列的的AnfD融合多肽、AnfH融合多肽和AnfG融合多肽在MTP序列中被高效加工,并且AnfK融合多肽被部分加工,这可以从比对由邻近泳道中SL31表达的相对应的多肽大小得到证实。这在使用多基因构建体SL36的单个实验中得到确认,所以由SL26提供了关于已加工多肽的蛋白质印迹法中的大小标记物,该多基因构建体SL36编码了不具有MTP序列的4个HA::Anf多肽。因为4个单个基因载体的混合物在泳道标记的混合物中,所以由一系列载体SL26、SL27、SL28和SL29产生的提取物的蛋白质印迹(图27,面板C)有助于职别混合物中的四个多肽,从而确认它们的同一性。
当相对于单个基因构建体的混合物,由多基因构建体表达4个Anf多肽累积水平时,可以对这4个Anf多肽累积水平进行比对。关于多基因构建体,AnfD融合多肽与其他三个Anf多肽相比以更高水平进行累积(图27,面板A),这令人惊讶的认为,NifD基因更加难以针对Mo-固氮酶表达相对应的NifD基因、NifK基因和NifH基因(Allen等人,2017)。另外,AnfD多肽似乎是全长的,并且没有关于与用来自产酸克雷伯氏杆菌的NifD观察结果相反的AnfD中的第二隐敝切割位点的证据(实施例6和7)。
表20用于植物细胞中Anf融合多肽表达的多基因载体和已编码多肽的列表
Figure BDA0003343176700001291
Figure BDA0003343176700001301
线粒体定位及MPP加工的确认
加工MTP-FAγ51::HA::Anf融合多肽提供给由SL26表达的四个已加工Anf多肽的线粒体定位发明人一个清楚的指示。这使用如实施例13中所述的Metaxin-介导方法通过富集从渗透的叶片组织获得的线粒体组分进一步得到确认。这涉及到向带有包含SL26的农杆菌的混合物中添加编码A.tumafaciens中TwinStrep-mTurquoise-TEV识别序列-metaxin融合多肽(SEQ ID NO:121)的基因构建体SN197。当在植物细胞中被瞬时表达时,来自Sn197的多肽的metaxin区定位于线粒体的外膜(Lister等人,2007)。这将N端TwinStrep基序暴露于细胞质,从而能够使用涂覆有抗Strep抗体的珠在温和条件下快速纯化被标记的线粒体。这导致了相对于同一细胞中的非线粒体蛋白,线粒体蛋白大量富集。
为验证这一点,在一个菌株中包含SN197的A.tumefaciens培养物和在另一个均中包含SL26的A.tumefaciens培养物的混合物被引入到本生烟叶片中。5天之后收获被渗透的组织。加工这些组织进行线粒体分离,如实施例13中所述。然后,通过SDS-PAGE和使用HA抗体进行检测的蛋白质印迹法分析分离的线粒体中的蛋白。很容易在线粒体组分中检测到Anf多肽的全部。在蛋白质印迹上检测到的条带在大小上与来自SL26的已加工AnfD多肽、AnfK多肽、AnfH多肽和AnfG多肽一直,这再一次指明Anf多肽定位于植物线粒体。来自可能由额外蛋白水解切割(见上文)形成的AnfK融合多肽的较小条带也在线粒体组分中富集,这建议在线粒体中发生第二切割。Anf多肽被加工的观察结果是他们定位于线粒体基质的证据。
在蛋白进行胰蛋白酶消化后,使用如实施例1中所述的方法,由LC-MS方法确认在MTP序列中通过切割进行的加工。在由SL26表达的蛋白提取物进行电泳后,从考马斯染色的凝胶分离蛋白条带。通过LC-MS和靶向的MRM确认凝胶片中的蛋白唯一性。蛋白唯一性与Metaxin、AnfD、AnfK和AnfH以至少95%置信度进行片匹配。可能由于低水平累积,没有在经历了LC-MS检测的考马斯凝胶中识别出AnfG蛋白。在MTP的高效切割后,用预期的N端检测除了AnfK之外的全部Anf蛋白。关于AnfK多肽,以低信号水平用MRM检测两个N端FAγ51MTP靶向多肽,这指出发生了AnfK融合多肽的部分MPP切割。这与蛋白质印迹分析获得的观察结果一致,并且确认了在MTP序列内的期望位点通过MPP发生了部分切割。
植物细胞中表达后线粒体Anf融合多肽的溶解性
发明人认为,在功能性方面,Fe-固氮酶蛋白应当以可溶性形式生成以进行必要的蛋白相互作用、获得Fe-固氮酶中的稳定性,以及使得酶能够与它们的底物和辅基相互作用。如果蛋白不是可溶性形式的,则它可能显示出不合适的蛋白折叠或与线粒体膜的紧密结合,从而不利于固氮酶活性。因此,进行实验以检测当在植物线粒体生成已表达的Anf多肽时,已表达的Anf多肽是否是可溶性形式。这通过使用如实施例1所述的方法使蛋白提取物分离为可溶性(上清液)形式和不可溶性(沉淀物)形式来完成。
这首先使用本生烟叶片中的单个基因构建体来完成,如前所述。由用基因构建体孵育的叶片制备可溶性蛋白和不可溶性蛋白的蛋白提取物,并通过蛋白质印迹法进行分析(图28)。蛋白质印迹表明,当AnfD融合多肽靶向本生烟叶片中的线粒体时,AnfD融合多肽基本上是不可溶的,只有非常微弱的条带在可溶性级分中是可见的(图28)。已加工的AnfK多肽和未加工的AnfK多肽基本上只存在于可溶性级分中,而已加工的AnfH多肽仅部分可溶。线粒体靶向AnfG多肽只存在于可溶性级分中,这指出当用本生烟的线粒体基质表达时,已加工的AnfG融合多肽是可溶性形式。
当共表达时,通过以下方式检测线粒体靶向AnfD、AnfK、AnfH和AnfG的溶解性。由多基因载体SL26表达的AnfD、AnfK、AnfH和AnfG融合多肽的溶解性与由SL31表达的多肽的溶解性进行比对。每一个都包含单个基因构建体的农杆菌菌株的混合物也用于渗透植物。蛋白质印迹示出在图27中,面板B。
用多基因载体SL26观察到令人惊奇和出于意料的结果。这次,在可溶性级分中清楚地观察到已加工AnfD融合多肽中的一些,这指出其他Anf多肽的共表达改进了AnfD多肽中至少一些的溶解性。这建议,可能通过AnfD多肽与其他Anf多肽中的一个或多个之间的蛋白相互作用来稳定AnfD多肽中的一些,或者增加AnfD多肽的折叠形成它合适的构象。如下列实施例中所述的,检测蛋白相互结合的可能性。
在类似实验中使用这一系列载体SL26、SL27、SL28和SL29,以当用其他Anf多肽中的一个、两个或全部三个进行共表达时比对AnfD多肽的溶解性。检测由多基因载体SL26、SL27和SL28和单个基因载体SL29表达的融合多肽的多肽累积水平、可溶性AnfD多肽和不可溶性AnfD多肽。由瞬时本生烟叶片分析产生的结果表明,Anf基因的数量减少,AnfD多肽的溶解性也降低,尤其是在缺乏AnfK的情况下。因此,得到的结论是,AnfK的存在尤其增强了AnfD多肽的溶解性。
通过使用连接至抗HA抗体的珠的亲和纯化实验对线粒体靶向Anf多肽的溶解性进行进一步确认。当在分析结合的蛋白之前粗提物和洗掉的未结合蛋白接触时,AnfD融合多肽(已加工和未加工两种形式)、AnfK融合多肽(已加工和未加工两种形式)、AnfH融合多肽(已加工)和AnfG融合多肽(已加工)中的每一个都由珠回收。切下考马斯染色凝胶上观察到的HA富集多肽条带,并且用LC-MS质谱法分析凝胶片中的多肽。存在于凝胶中的条带具有关于已加工和未加工AnfD多肽、AnfK多肽和AnfG多肽的正确尺寸。针对AnfG识别的多肽包括可能部分的已加工多肽,其在N端MTP切割位点处具有多余的氨基酸。这与针对AnfG存在于来自SL26的提取物的蛋白质印迹中的两个相近的迁移条带的观察结果一致(见图27,面板C)。针对AnfH存在的条带仅是已加工尺寸,这指出了MTP序列中的高效加工。通过LC-MS分析确认了多肽条带的同一性。
设计且制备若干其他多基因载体以检测Anf基因在多基因载体上的位置或者HA抗原表位的位置是否影响蛋白表达、溶解性或者两者。这些载体包括被命名为SL23、SL30、SL34和SL37的构建体。多基因载体上的基因的不同定位似乎并不显著影响蛋白表达和溶解性。
载体SL26用于转化烟草(N.tabacum)、本生烟和拟南芥植物,从而生成表达AnfD多肽、AnfK多肽、AnfH多肽和AnfG多肽的稳定转化的植物。
讨论
这些实验证实,有可能表达编码AnfD融合多肽、AnfK融合多肽、AnfH融合多肽和AnfG融合多肽的Anf基因,并且植物细胞的线粒体中加工和定位它们。多肽被证明在MTP序列中期望的位点被切割,在每个案例中,在融合多肽的N端处留下9个氨基酸“scar序列”。还以若干不同方式证实了线粒体定位。使用带有植物本生烟的叶片分析测定来引入和表达单个基因构建体和多基因构建体。还检测了线粒体定位的Anf多肽的溶解性。通过使用多个基因构建体共表达AnfK、AnfH和AnfG来改进AnfD的溶解性。
实施例19Fe-固氮酶多肽在植物叶片线粒体中的协同增效
AnfD蛋白、AnfK蛋白和AnfG蛋白构成了异六聚体复合物,该异六聚体复合物通过需要的辅基构成了固双氮酶(Davis等人,1996;Zheng等人,2018)。这个复合物是用于双氮还原的催化酶。为了成为活性酶,这个复合物需要FeFeco-辅基和多个Fe-S簇。
发明人设计且进行了若干实验,以在由多基因载体表达后检测植物线粒体中Anf多肽的蛋白相互作用。为了在第一实验检测这一点,设计且制备被命名为SL30的载体(表20),其包含anfD基因、anfK基因、anfH基因和anfG基因,这些基因中的每一个都由其自己的35S启动子和用关于SL26的相同转录终止子进行表达。相对于SL26的重要修饰是,SL30的AnfD融合多肽具有融合至AnfD的C端的TwinStrep抗原表位,以在温和、非变性条件下纯化AnfD多肽。SL30仍具有融合至AnfD的N端的MTP-FAγ51序列用于进行线粒体定位。SL30编码的AnfK融合多肽、AnfH融合多肽和AnfG融合多肽,关于SL26,具有翻译性融合在多肽的N端的MTP-FAγ51序列、随后是HA抗原表位并且然后是Anf序列。SL30中的每个单独基因仍保留其自己的35S启动子和终止子,同样是关于SL26。
SL30被引入到A.tumefaciens中,并且转化的Agrobacteria培养物渗透到本生烟叶片中,如前所述。5天之后,收获叶片样品,并且使用如实施例14中所述的相同提取缓冲液在环境空气条件下加工叶片样品用于将可溶性蛋白提取到提取缓冲液中。粗蛋白混合物在好氧条件下经过Strep-tactin XT亲和柱。在用10倍柱体积的洗涤缓冲液(根据实施例14)洗涤柱以去除未结合蛋白时,用含有pH值为7.2的0mM生物素的洗涤缓冲液洗脱未结合蛋白,并用SDS-PAGE和使用Strep-tactin抗体的蛋白质印迹法分析未结合蛋白用于检测AnfD多肽和抗HA抗体以检测具有HA抗原表位的任何共纯化Anf多肽。
通过使用Strep-tactin抗体的蛋白质印迹法测定已提取的蛋白。分析表明,已纯化的AnfD多肽存在于洗脱液中,并且以已加工形式的分子量进行迁移(图26),这指出线粒体靶向AnfD被加工、是可溶性的并且与Strep-tactin亲和介质相互作用。当用HA抗体探测蛋白质印迹时,观察到与AnfK融合多肽相对应的微弱但清楚可见的条带,其以与AnfK的正确MPP加工的亚型一致的速度进行迁移。这指出,AnfK融合多肽已通过与AnfD多肽的结合进行共纯化。AnfG多肽在蛋白质印迹中是不可见的。在蛋白质印迹上还存在较低分子量的若干条带,蛋白质印迹可能已表现出AnfD的分解产物,这在提取之后发生。
第二个类似实验以相同方式进行,除了制备和使用新的多基因构建体SL34之外。通过这个构建体,TwinStrep抗原表位融合至MTP序列和AnfK序列之间的AnfK序列,并且AnfD多肽与通过SL26(表20),即用HA抗原表位,编码的一个AnfD多肽相同。设计且检测这个配置,进行与使用SL26的实验相比对的反向捕获和检测,其中,AnfK多肽可以在trep-tactin柱上被纯化,并且用HA抗体分析结合的蛋白以确定其他Anf多肽的存在。SL34编码的AnfK多肽包括CoxIV MTP前导序列,其在AnfK的N端融合有Twin-strep而非MTP-FAγ51。SL34编码的AnfD融合多肽、AnfH融合多肽和AnfG融合多肽中的每一个都具有翻译性融合在多肽的N端的MTP-FAγ51序列、随后是HA抗原表位。CoxIV MTP在先前已示出将蛋白正确地靶向本生烟中的线粒体基质(Burén等人,2017)。
包含SL34的A.tumefaciens培养物渗透到本生烟叶片中,并且5天后收获叶片样品。在环境空气下,使用与SL30相同的实验条件加工组织样品,并且由此生成的粗蛋白提取物经过Strep-tactin柱以纯化包含TwinStrep序列的AnfK多肽。通过SDS-PAGE以及使用HA抗体和Strep-tactin抗体两者的蛋白质印迹法再一次分析来自柱的洗脱液,分别用于检测具有HA-抗原表位和TwinStrep-抗原表位的多肽。用Strep-tactin抗体探测的蛋白质印迹表明了纯化的AnfK多肽存在于洗脱液中,如所期望的,并且多肽的分子量与其成为MPP加工的亚型一致。当用HA抗体进一步探测蛋白质印迹时,观察到了AnfD多肽的存在,这指出AnfD多肽已经与AnfK多肽进行共纯化。AnfD的分子量与其成为MPP加工的亚型一致。AnfG仍未在蛋白质印迹中观察到,但是之后通过LC-MS质谱法以较低信号强度被检测到。与之前使用SL30的实验类似,这个实验证实了,靶向植物细胞的线粒体基质的MPP加工的AnfD多肽和MPP加工的AnfK多肽彼此结合。
组装另一个多基因载体SL37(表20),SL37编码具有融合在AnfK的N端的MTP-CoxIV序列和Twin-strep序列的融合多肽以及具有翻译性融合在其他Anf多肽的N端的MTP-FAγ51序列之后是HA抗原表位的AnfH融合多肽和AnfG融合多肽。AnfD多肽还具有翻译性融合在N端的MTP-FAγ51MTP,而HA抗原表位翻译性融合在AnfD序列的C端。设计这个构建体以检测AnfK多肽是否与全长的已加工AnfD多肽结合或者可能与截短的AnfD产物结合。这次,在厌氧条件下进行蛋白提取和加工。蛋白提取物经过Strep-tactin XT亲和柱,然后进行洗脱,这些都在好氧条件下进行。然后,通过SDS-PAGE以及使用HA抗体和Strep-tactin抗体的蛋白质印迹法分析洗脱液用于进行检测。
用Strep-tactin抗体探测的蛋白质印迹示出了已加工AnfK多肽的存在。另外,用HA抗体探测的蛋白质印迹示出,多肽条带在尺寸上与已加工的AnfD多肽和未加工的AnfD多肽相对应,较低分子量的条带代表提取后可能生成的较小AnfD产物。在洗脱液中观察到关于AnfH多肽和AnfG多肽大小的多肽条带,但是与AnfK或AnfD相比,其强度要弱很多(图26)。
由SL34叶片和SL37叶片生成的洗脱液用LC-MS质谱法和靶向MRM进行分析。来自AnfK多肽、AnfD多肽和AnfG多肽的多肽在两个洗脱液中检测,其中,来自AnfH的多肽仅在厌氧提取后进行检测。
作为上述实验的阴性对照,为了检验检测的特异性,编码全部都融合至MTP-FAγ51且在N端具有HA抗原表位(表20)的AnfD多肽、AnfK多肽、AnfG多肽和AnfH多肽的SL26被引入到本生烟叶片中。以与SL30和SL34相同的方式,在如上所述的好氧条件下加工叶片组织。只有在来自SL26的蛋白提取物的Strep-tactin探测的蛋白质印迹中观察到的多肽条带是相对微弱的背景条带。针对Strep-tactin探测的蛋白质印迹和HA探测的蛋白质印迹,在洗脱液中不存在Anf多肽条带。这个对照实验证实了,包含在蛋白质印迹上观察到的HA抗原表位的多肽具体来自AnfD多肽和AnfK多肽的结合。
讨论
这些实验中多基因构建体和差异抗原表位标记用于表明靶向植物线粒体基质的AnfD融合多肽与AnfK融合多肽之间的结合。这些结果证实了,可能会生成多个Anf多肽,并且将它们定位于植物线粒体中。这些实验第一次证实了在真核生物环境中,具体地在植物线粒体中,不同Fe-固氮酶蛋白的生成。尽管AnfD多肽仍是仅仅是部分可溶,但是来自单个载体的多个Anf基因的共表达导致了AnfD多肽溶解性的增强。
当在好氧条件下加工时,纯化的AnfD多肽中的一些与AnfK多肽共纯化。在好氧条件下,进行反向实验,其中,AnfK翻译性融合至TwinStrep抗原表位,其中,其他Anf多肽全部都融合至HA抗原表位。一些AnfD多肽与AnfK多肽以及较少量的AnfG蛋白共纯化。当在厌氧条件下进行类似实验时,再一次仅检测到较少量的AnfG蛋白,这指出AnfD多肽、AnfK多肽和AnfG多肽在线粒体的可溶性级分中相互作用以形成复合物。随着AnfK纯化,AnfG和AnfD连同AnfK一起进行检测,这指出了三向结合。还证实了,在厌氧条件下AnfG与AnfD-AnfK共纯化。FeFe固氮酶的预期结构具有与AnfD表明相互物理作用的AnfG多肽(Sippel和Einsle,2017;Zheng等人,2018)。有趣的是,当在厌氧条件下进行提取时,也在洗脱液中找到少量的AnfH蛋白。
相对于AnfD和AnfK,在牵出试验中观察到较低丰度的AnfG蛋白。在较长时间暴露后,关于AnfG的正确大小的条带是可见的。较小丰度的AnfG可以指出,Fe-固氮酶异六聚体的亚基的最佳比例还未达到。
发明人从这些实验中得到的结论是,AnfD多肽和AnfK多肽的结合以及AnfD、AnfK和AnfG的三向结合证实了在植物线粒体和固氮酶工程中使用Fe-固氮酶组分的潜力。
实施例20在靶向植物线粒体的AnfD与AnfK之间产生翻译性融合
尽管还未有针对Fe-固氮酶的结晶结构的报道,但是已经预测到,具有Fe-固氮酶的固氮细菌中的Fe-固氮酶的AnfD亚基、AnfK亚基和AnfG亚基在化学计量比为1:1:1(Hu&Ribbe,2015;Zheng等人,2018)。AnfD多肽、AnfK多肽和AnfG多肽的比例对Fe-固氮酶的最佳功能来说可以是重要的,并且可以影响AnfD组分的溶解性。如本实施例中所述的,研发了关于Fe-固氮酶的预期结构模型。该模型用于设计具有合适长度以将AnfD的C端结合至AnfK的N端的寡肽接头,从而生成AnfD和AnfK的翻译融合体。该接头的长度被设计成基于预期的结构模型能够使得蛋白复合物正确折叠。制备且检测表达融合多肽的基因构建体。融合多肽具有MTP序列以将其定位于线粒体基质。
生成Fe-固氮酶结构模型
为了设计AnfD::接头::AnfK融合多肽,基于棕色固氮菌V-固氮酶结晶结构创建关于AnfDKHG复合物的同源性模型PDB ID:5N6Y(Sippel和Einsle,2017)。因为尚未报道Fe-固氮酶结晶结构所以使用这个同源性模型,并且认为V-固氮酶的序列同源性最接近。关于使用来自PDB ID:5N6Yα2β2-异二聚体的各自单体作为模板的野生型棕色固氮菌AnfD和AnfK多肽(SEQ ID NOs:216and 217),使用同源性模型SWISS-MODEL(swissmodel.expasy.org/)构建同源性模型。AnfD模型缺失野生型序列的C端31个残基(NSETLRQYTGGYDSVSKLREREYPAFERKVG,SEQ ID NO:197),并且AnfK模型缺失两个N端氨基酸(PH)。使用嵌合体中的匹配器功能构建完整异二聚体以将AnfD同源性模型和AnfK同源性模型重叠在5N6Yα2β2-异二聚体上,在此之后,使用Discovery Studio 2018将上述缺失的残基手动添加至模型(Dassault Systèmes BIOVIA,圣地亚哥)。在AnfD单体C端的31个氨基酸残基作为α-螺旋进行添加,从而为这个部分的总体长度采取保守方法。与VnfD结构相比,AnfD在C端要长出13个残基,基于此,建立了AnfD,所以不可能确定地说这个额外序列会采用哪个构象。因此,建模采用可用于31个氨基酸的最短模式,在同源性模型生成期间,初始构建了这31个氨基酸。
在没有辅基的情况下,通过在周期性水箱(TIP3P,截角八面体,最小边界距离溶质
Figure BDA0003343176700001341
)中进行溶剂化和用Na+离子进行中和(frcmod.ionsjc tip3p),使用AMBER18的Xleap模块,制备关于分子动力学的完整的α2β2异二聚体模型。以25,000步的最速下降,随后进行25,000步的共轭梯度,之后使用AMBER18进行20ns的分子动力学,用Amber18使得该系统经历能量最小化。用ff14SB力场处理蛋白,在298K(NVT系综)下,使用带有用颗粒网状埃瓦尔德总和处理的远程相互作用的
Figure BDA0003343176700001342
截止,来进行模拟。该模拟的目的是,识别高应变潜在区和其他潜在的不利特征,因此20ns对于此任务是足够的。使用VMD(hwww.ks.uiuc.edu/)分析轨迹。构建α-螺旋,用于在AnfD的C端添加31个残基,在整个轨迹历程中保持它们的结构,这就建议,尽管进一步证实会需要更广泛的动力学模拟,但是这可能是它们的天然构象。添加的残基和接头在模拟中较早松弛,而对该结构的剩余部分没有明显的不良相互作用。
从该模型预测出,将AnfD的C端结合至AnfK的N端的肽接头可以创建融合蛋白,该融合蛋白保留了其整体结构,因此保留了功能。被命名为接头16的16个氨基酸的初始接头肽序列用于建模,其氨基酸序列为GGGSGGGSGGGSGGGS(SEQ ID NO:198),并期望提供无序接头。同源性模型预测,至少16个氨基酸长度的寡肽能够跨越所需距离。因此,16个氨基酸的接头被添加至延伸的构象,然后用Discovery Studio中的一系列粗几何优化进行松弛。
由20ns分子动力学模拟的最终框架生成AnfDK融合二聚体的坐标,并且为了生成AnfG的同源性模型的起始位置,这个结构与PDB ID:5N6Y重叠,使用来自5N6Y的VnfG单体作为模板,用SWISS-MODEL生成该AnfG的同源性模型。一旦构建了Anf(DKG)2模型,就将其与来自PDB ID:1N2C的NifDKH模型重叠以生成AnfH同源性模型的起始位置,使用来自PDB ID:1N2C的NifH单体作为模板,用SWISS-MODEL构建这些AnfH同源性模型。在分子动力学之前,如上所述开展建模,AnfG和AnfH二聚体结构以稍微远离其界面的方式与AnfD-AnfK融合结构进行手动定位,以缓解空间冲突,所述空间冲突是由重叠失真引起的。
带有接头16的合成融合多肽的氨基酸序列被提供作为SEQ ID NO:199。建模的结构如图29所示。
出于检测目的,带有序列YPYDVPDYA(SEQ ID NO:115)的HA抗原表位被添加至16个氨基酸接头的中间,以提供26-氨基酸序列ggggsgggsypydvpdyagggsgggs(SEQ ID NO:200),在本文被命名为“接头26(HA)”。HA抗原表位被包括在最小化或分子动力学内。带有在AnfD序列与AnfK序列之间连接AnfD序列和AnfK序列的这个接头26(HA),且不带N端MTP序列(SEQ ID NO:201)、或MTP-FAγ51(SEQ ID NO:202)、MTP-CoxIV(SEQ ID NO:203)、mFAγ51(SEQ ID NO:204)或融合至融合多肽的N端的6xHis序列(SEQ ID NO:205)的融合多肽,去在每个案例中都被预测使得AnfD多肽、
AnfK多肽、AnfG多肽和AnfH多肽合适的结合,而不对天然结构产生预测到的不利影响。在这些设计中,AnfG蛋白没有包括在这个接头设计中,因为AnfG的N端和C端都靠近AnfD的表面进行掩埋,并且似乎不可能耐受任何接头延伸。还证实了,AnfG和AnfK两者都不耐受C端氨基酸延伸(Yang等人,2018),这与研发的Fe-固氮酶的基于同源性的模型一致,如上所述。
用于这个实施例中的构建体概括在表21中。
表21用于这个实施例中基因构建体的列表
Figure BDA0003343176700001351
合成和检测在植物细胞中表达AnfD-接头-AnfK多肽的基因构建体
编码AnfD::接头26(HA)::AnfK蛋白编码区的DNA序列进行化学合成,并且用于通过GoldenGate协议,使用AnfD和AnfK棕色固氮菌氨基酸序列制备一组基因构建体。蛋白编码区进行密码子优化用于植物表达。编码融合多肽的基因在植物细胞中的表达受到35S启动子和Nos3’聚腺苷酸化区域/转录终止子的控制(表12)。关于线粒体靶向,编码MTP-FAγ51::HA的序列添加在AnfD::Linker26(HA)::AnfK蛋白编码区上游,从而当被转录和翻译时,MTP氨基酸序列和HA氨基酸序列翻译性融合至AnfD::接头26(HA)::AnfK多肽,用作单个翻译产物。编码这个融合多肽的基因构建体被命名为SN272。由SN272编码的全长融合多肽的氨基酸序列被提供作为SEQ ID NO:202。制备被命名为SN273的第二载体,所述第二载体编码相同的多肽,除了来自带有TwinStrep序列(Burén等人,2017)的MTP序列置换MTP-FAγ51序列。由SN273编码的全长融合多肽的氨基酸序列被提供作为SEQ ID NO:203。为了提供分子量标记以检测翻译产物在线粒体中的加工,制备两个基因构建体作为对照。第一(SN274)缺少MTP-FAγ51序列,因此将会靶向细胞质。第二(SN275)具有防止MPP切割的突变的MTP-FAγ51序列,其被命名为mFAγ51。由SN274和SN275编码的融合多肽的氨基酸序列被提供作为SEQ ID NOs:204和205。
使用如实施例1所述的农杆菌-介导方法将这些载体分别被引入到本生烟叶片中。作为进一步对照,在各种组合中表达单个Anf蛋白的载体(SL26、SL28、SN161和SN129)也渗透到本生烟叶片中。渗透4天后收获叶片组织,并且加工叶片组织以获得总的、可溶性和不可溶性蛋白功能,如实施例1中所述。通过SDS-PAGE和使用HA抗原表位进行检测的蛋白质印迹法分析由此生成的蛋白级分。
蛋白质印迹揭示了,AnfD::接头26(HA)::AnfK融合多肽的全部都很容易地在从本生烟叶片分离出来的总的蛋白级分中检测到(图30)。来自每个构建体的主要多肽条带的分子量与110-120kDa范围内的多肽的预期大小一致(见表21)。全长(未加工)MTP-FAγ51::HA::AnfD::接头26(HA)::AnfK融合多肽的预期大小大约为118kDa。切割后已加工的多肽预期为大约113kDa,这可能通过SDS-PAGE凝聚上和蛋白质印迹中的不同迁移率来与未加工的多肽进行区分。在蛋白质印迹(图30)上检测到的多肽分子量与表现为已加工形式的SN275编码的对照多肽进行匹配,这指出,来自SN272的MTP-FAγ51::HA::AnfD::接头26(HA)::AnfK多肽已被高效导入到线粒体导入中并且在本生烟细胞中进行切割。同样地,由编码MTP-CoxIV::TwinStrep::AnfD::接头26(HA)::AnfK融合多肽的构建体SN273生成的多肽条带也表现出被高效正确得加工。来自SN272的MTP-FAγ51::HA::AnfD::接头26(HA)::AnfK融合多肽具有两个HA抗原表位,而来自SN273MTP-CoxIV::TwinStrep::AnfD::接头26(HA)::AnfK融合多肽只具有一个,所以在这些蛋白质印迹中的每个多肽都可以可以更加高效地检测到前一个多肽。
可溶性级分和不可溶性级分的蛋白质印迹指出来自SN161的线粒体靶向AnfD自身表达生成了显著不可溶性多肽(图31,面板A),同时只有非常微弱的条带是可见的。但是,当相同的AnfD基因与来自SL28的AnfK共表达时,AnfD多肽的可溶性增强,并且当AnfD基因与来自SL26的AnfK、AnfH和AnfG共表达时,AnfD多肽的可溶性进一步得到改进。在AnfD基因和AnfK基因共表达的每一个案例中,尽管由相同T-DNA表达基因,但是在可溶性级分中检测出不同丰度的AnfD多肽和AnfK多肽。相比之下,靶向SN272和SN273中的线粒体的MTP::HA::AnfD::接头26(HA)::AnfK融合多肽形式的AnfD和AnfK的翻译融合体需要提供AnfD多肽和AnfK多肽的理想的化学计量比1:1。发明人得出结论,即使当两个基因连接到一个T-DNA上时,相对于由单独基因表达多肽,使用接头序列的融合多肽也至少具有这个有点。
在植物提取物的可溶性级分和不可溶性级分这检测到由SN272和SN273表达的MTP::HA::AnfD::接头26(HA)::AnfK多肽进行加工而生成的多肽(图31,面板A)和B))。因为添加表达靶向线粒体的AnfH和AnfG的基改进了线粒体靶向AnfD的溶解性,所以进一步实验中将线粒体靶向MTP::HA::AnfD::接头26(HA)::AnfK与线粒体靶向AnfH和AnfG一起进行共表达。
在使用基于亲和的纯化方法中的HA抗原表位,由SN272表达基因后,纯化通过MTP-FAγ51::HA::AnfD::接头26(HA)::AnfK融合多肽加工生成的多肽。纯化的蛋白经历了蛋白组学分析,以确认N端序列如期望的那样被MPP切割。
基因构建体SN272是双元载体,通过添加选择标记基因,基因构建体SN272将适用于通过农杆菌介导转化生成稳定转化的植物。编码融合多肽的基因被切除并且插入到包含合适的选择标记基因的双元载体中。一旦完成,由此生成的载体就可用于生成稳定转化的烟草和本生烟植物。已证明,融合多肽被表达,在MTP序列中期望位点处被MPP切割,并且存在于线粒体中。已加工的融合多肽中的至少一些存在于可溶性级分中。
实施例21通过线粒体靶向生成植物细胞中Fe-固氮酶所需的Anf蛋白和Nif蛋白
引入
经报导,编码Anf蛋白和Nif蛋白的至少10个基因是构成细菌大肠杆菌中的Fe-固氮酶所必需的(Yang等人,2014),即编码AnfD多肽、AnfK多肽、AnfH多肽和AnfG多肽的4个结构Anf基因和编码NifV多肽、NifS多肽、NifU多肽、NifJ多肽、NifF多肽和NifB多肽的6个所谓的辅助Nif基因。Anf多肽的序列是基于固氮细菌棕色固氮菌的,并且其他Nif多肽的序列是基于细菌产酸克雷伯氏杆菌的。尽管活性较低,但是这组10个基因在大肠杆菌中的表达生成了功能性Fe-固氮酶(Yang等人,2014)。
基于本文中示出在植物线粒体中生成可溶性形式的Anf和Nif融合多肽的之前实施例中所述的数据,发明人决定尝试对植物细胞进行工程设计以生成最小组基因用于生成Fe-固氮酶,同时,将基因产物靶向植物细胞中的线粒体基质。
结果:
被一系列实验选用的基因产物的集合包括基于重氮棕色固氮菌(Av)的AnfD、AnfK、AnfG和AnfH多肽,以及6种Nif蛋白质,即基于来自棕色固氮菌(AvNifV)的产酸克雷伯氏杆菌(Ko)的NifF、NifJ、NifS和NifU以及来自甲烷暖球菌属Methanocaldococcusinfernus(MiNifB)的NifB。设计和制备遗传构建体,以线粒体基质为靶,通过转录融合氮末端MTP序列,以类似于前面实施例中描述的遗传构建体的方式,在本生烟叶片中表达多肽。如前所述,用于表达融合多肽的核苷酸序列被密码子优化以在植物细胞中表达。使用两种不同的MTP序列,即MTP-FAγ51和MTP-CoxIV,用于融合多肽的线粒体靶向。具有MTP-FAγ51的多肽具有融合在N-或C端的HA表位,而具有MTP-CoxIV的多肽具有插入在它和Anf/Nif多肽之间的TwinStrep表位。对于在本生烟中的表达,每个基因都受35S启动子和nos 3’聚腺苷酸化区/转录终止子的控制。这些核苷酸序列分别位于每个蛋白质编码区的上游和下游。如前所述,构建体是使用金门方法组装的。
利用这些原理和方法制备了多基因构建体SL42和SL43。每个载体都有五个不同的、独立的基因连接在一个T-DNA中(表22)。SL42具有编码融合多肽的基因,这些融合多肽包括KoNifS、KoNifU、KoNifJ、KoNifF和MiNifB序列,每个序列都有自己的转录融合的MTP序列和表位序列。SL43具有编码融合多肽的基因,所述融合多肽包括AvAnfD、AvAnfK、AvAnfH、AvAnfG和AvNifV序列,每个序列都有自己的MTP序列和表位序列。如实施例15所述,基于表达、加工和溶解度数据以及AvNifV靶向植物线粒体产生的高柠檬酸的证据,从许多可用的NifV序列中选择AvNifV序列。
表22.编码组分的单基因和多基因遗传构建体的铁固氮酶在植物细胞中的表达
Figure BDA0003343176700001371
Figure BDA0003343176700001381
在植物细胞中生产融合多肽
如实施例1所述,将含有SL42的根癌农杆菌培养物渗透到5周大的本生烟叶片中。渗透后4到5天,收获叶片样品。如下提取可溶性的和不溶性的总蛋白质部分。为了测试植物表达的多肽的溶解性,将叶组织在冰冷的提取缓冲液(100mM Tris pH 8.0,150mM氯化钠,0.25M甘露醇,5%(v/v)甘油,1%(v/v)Tween 20,1%(w/v)PVP,新加入的2mM TCEP,0.2mMPMSF和10μM亮蛋白胨)中研磨,并转移到微量离心管中。样品以20,000x g离心5分钟,将样品分成可溶性(上清液)和不溶性(沉淀)部分。将上清液转移到新的微量离心管中,并再次以20,000x g离心5分钟,以除去任何残留的不溶性物质。通过将颗粒再悬浮于300μl提取缓冲液中洗涤不溶性部分,用移液管重复冲程分散,并以20,000x g离心5分钟,弃去上清液。该洗涤步骤重复两次以上,从不溶性部分中除去任何残留的可溶性蛋白质。然后用抗透明质酸和抗Strep抗体通过SDS-PAGE和蛋白质印迹分析样品。抗透明质酸抗体(单克隆抗透明质酸,Sigma)以1:5000稀释度使用,抗Strep/辣根过氧化物酶结合抗体(Strep-MAB-辣根过氧化物酶结合物,IBA)以1:10,000稀释度使用。
SL42的蛋白质印迹分析(图32)显示,所有五种多肽都很容易用合适的抗体检测到,每种抗体都显示可溶性蛋白部分存在多肽带。NifJ融合多肽似乎完全由MPP加工,而NifU、NifS和NifF多肽以加工和未加工形式存在,表明MPP裂解效率较低。NifJ、NifU、NifS、NifF和NifB多肽存在于可溶性和不溶性部分。当使用抗Strep抗体进行检测时,可以看到在氮末端与MTP-CoxIV-twinStrep序列转录融合的NifB多肽(图31,B组)。
SL43的蛋白质印迹分析(图33)还显示,所有五种编码的多肽都很容易用合适的抗体检测到,每种抗体都显示可溶性蛋白质部分中存在多肽带。重要的是,加工后的AnfD、AnfK和AnfH融合多肽都在可溶性部分观察到。在不溶性部分也观察到它们,表明了这三种融合多肽的部分溶解性。这一结果明显好于观察到的单基因载体中相应基因的表达。AnfD、AnfG、AnfH和NifV融合多肽似乎都被MPP部分裂解,各自显示加工和未加工形式的条带。AnfK融合多肽似乎被有效加工。
接下来,如前所述,将含有SL42和SL43的根癌农杆菌培养物混合并渗透到本生烟叶片中。因此,这个实验引入了所有4个AvAnf基因和所有6个Nif基因,是10个基因的组合。在蛋白质印迹(图34)中观察到的令人惊讶和显著的结果是所有10种多肽都很容易被检测到。此外,所有10种多肽都存在于可溶性部分,其中一些显示出MPP的有效加工。一些多肽可见2条带,上面的带代表未加工的多肽,下面的带代表经MPP裂解的多肽,证明线粒体导入。蛋白质AnfD、NifV、NifU和NifF的未加工多肽带以及裂解多肽的以预测的大小存在的带是可见的。
植物细胞中AnfD和AnfK的相关性
将多基因载体SL43和SL49(表22)单独或联合压渗至5周龄的本生烟植物中。SL43对一种融合多肽进行编码,该融合多肽具有四个对AnfD、AnfH、AnfG和NifV多肽进行编码的独立基因,每个多肽经转化与MTP-FAγ51序列融合,然后在Nif多肽的N端融合有HA抗原表位,以及第五个对融合在AnfK的N端的MTP-CoxIV和Twin-strep序列进行编码的基因。SL49对NifJ、NifF和NifU融合多肽进行编码,这些融合多肽的MTP-FAγ51序列经转化融合在Nif多肽的N端,然后在C端融合有HA抗原表位,并对在N端融合有MTP-FAγ51和HA的NifB融合多肽进行编码。设计构建体以利用Twin-Strep抗原表位纯化AnfK多肽产物,并试验其他Anf或Nif蛋白共纯化的可能性。
在厌氧条件下从共渗植物样品中提取和处理蛋白质。蛋白质提取物通过StrepTactin XT亲和柱洗脱。在多肽纯化过程收集的样品,通过SDS-PAGE和蛋白质印迹进行分析,并用HA和Strep-tactin抗体进行检测。
用Strep-tactin抗体探测的蛋白质印迹表明,在总的、输入的、沉淀的和洗脱的部分中均存在经处理的AnfK融合多肽,分子量较低的谱带可能代表AnfK衍生产物较小,这些产物可能是经蛋白酶污染后提取并降解所产生的。从印迹上AnfK谱带的强度可以看出,与输入部分相比,纯化的AnfK融合多肽在洗脱部分中的浓度很高。当用HA抗体重新检测蛋白质印迹时,在输入样品中能检测到所有编码的Anf和Nif融合多肽,尽管AnfG的谱带仅在印迹暴露20分钟后才可见,而不是1分钟。值得注意的是,HA抗体还表明洗脱液样品中存在处理过的AnfD多肽。洗脱液样品中存在AnfD和AnfK表明,当纯化AnfK融合多肽时,MPP处理的AnfD多肽会被共同纯化,这表明两种融合多肽的蛋白质-蛋白质相互作用。
压渗植物细胞中高柠檬酸盐的产生
如实施例15中所述,当从遗传构建体SN254中单独表达时,植物密码子优化的棕色固氮菌NifV融合多肽(AvNifV)表现出高柠檬酸合酶活性。利用实施例15中所述的气相色谱-质谱/质谱(GC-MS/MS)方法分析经SL42或SL43或两种载体联合压渗的叶片样中是否存在高柠檬酸盐。在压渗有SL43,无论是单独的还是与SL42联合的,但非单独SL42,的样品中均可检测到高柠檬酸盐。这与SL43上存在AvNifV基因是一致的。
Anf和Nif基因组合的其他构建体
如实施例20所示,对通过寡肽接头将AnfD与AnfK连接的具有线粒体靶向性的融合多肽进行表达和有效处理,并发现它在将遗传构建体引入植物细胞后主要存在于可溶性蛋白质部分中。因此,制造了一种遗传构建体,其利用对MTP-CoxIV::TwinStrep::AnfD::Linker26(HA)::AnfK融合多肽(SEQ ID NO:203)进行编码的杂合基因替代SL43上的AnfD和AnfK基因。将这个新载体命名为SL48。
当将SL48和SL49分别引入本生烟的叶片中时,通过蛋白质印迹分析发现所有编码的多肽至少在某种程度上存在于可溶性蛋白质提取物中(图35和36)。当将SL48和SL49的联合引入本生烟的叶片中时,通过蛋白质印迹分析发现八种编码的多肽都存在于可溶性蛋白质提取物中,包括经处理的scar::TwinStrep::AvAnfD::Linker26(HA)::AvAnfK融合多肽(在图37中标记为AnfDK)。
除了添加了对MTP-FAγ51::NifS::HA进行编码的第五个基因之外,还制备了与SL49相同的另一个构建体SL78(表22)。将SL48和SL78单独或联合渗入至本生烟叶片中。总的、可溶的和不可溶的蛋白质部分的蛋白质印迹表明,可溶性部分以及总的蛋白质样品中存在所有编码的融合多肽。也就是说,由两个载体联合编码的9种融合多肽都可以被检测到,包括来自SL48的经MPP处理的scar9::TwinStrep::AvAnfD::Linker26(HA)::AvAnfK融合多肽。因此,据报道,在大肠杆菌(Yang等人,2014年)中构成铁固氮酶所需的至少10种Anf和Nif蛋白都是在植物细胞中产生的,它们以线粒体为靶点,并且至少部分以可溶的形式存在。
在以SL48压渗的细胞中检测到有高柠檬酸盐产生。
从产生Anf和Nif融合多肽的植物细胞中纯化蛋白质。
由于经SL48上的MTP-CoxIV::TwinStrep::AnfD::Linker26(HA)::AnfK基因编码的处理多肽在其N-端的MTP序列之后具有经转化融合的TwinStrep抗原表位,因此StrepTactinXT柱纯化方法可用于从经SL48和SL49压渗的本生烟细胞中纯化该融合多肽。使用上述方法进行纯化,并且利用实施例14中所描述的方法对纯化的scar::TwinStrep::AnfD::Linker26(HA)::AnfK多肽进行浓缩。
含有纯化多肽的溶液在样品底部呈现少量棕色。本发明人认为这种颜色是由于存在结合到scar::TwinStrep::AnfD::Linker26(HA)::AnfK多肽的铁-硫簇,这表明植物细胞中至少有NifS、NifU和AnfH融合多肽主动向AnfD-linker-AnfK融合多肽提供铁-硫簇。这将通过使用例如电感耦合等离子体质谱(ICPMS)测量分离多肽中Fe2+和S的含量来证实。有望通过电子顺磁共振(EPR)测量检测特定的表明与多肽结合的铁-硫簇的存在和结构的波长偏移。
通过向上述Anf+Nif基因组合中添加另一个基因,即对铁氧还蛋白进行编码的基因,如来自棕色固氮菌或其他固氮生物的FdxN,有望增加结合的铁-硫簇的数量(实施例22)。
实施例22.FdxN在具有线粒体靶向的植物细胞中的表达
引言
FdxN基因对于许多固氮菌中固氮酶的最佳功能很重要,例如在棕色固氮菌中(A.vinelandii)(Jimenez-Vicente et al.,2014;Burén et al.,2019)。棕色固氮菌菌株CA(Setubal等人,2009;www.ncbi.nlm.nih.gov/nuccore/NC_021149.1)的基因组有16个铁氧还蛋白样基因,包括FdxN,FdxN属于2x[4Fe-4S]铁氧还蛋白簇类(Jimenez-Vicente etal.,2014)。这类铁氧还蛋白包含两个保守基序,Cys-X2-Cys-X2-Cys-X3-Cys和Cys-X2-Cys-X7~9-Cys-X3-Cys-X3~5-Cys,除了第二个基序中的最后一个Cys残基,它们都保留在棕色固氮菌FdxN中(Matsubara and Saeki,1992)。在细菌中对固氮酶起作用的FdxN基因通常但并不总是被发现作为操纵子的一部分,该操纵子与其他涉及固氮酶的基因(包括Nif基因)一起转录。例如,棕色固氮菌中的FdxN是包含NifB、FdxN、NifO-NifQ、RhdN和Grx5nif蛋白编码区的单个操纵子的一部分。在固氮生长条件下,FdxN的转录水平与NifB大致相同((Rodriguez-Quinones等人,1993)。当固氮酶在棕色固氮菌的ΔFdxN缺失突变体中表达时,观察到NifB-co合成减少5倍,相应地观察到固氮酶活性减少。因此,来自棕色固氮菌的FdxN基因编码一种参与NifB-co的合成铁氧还蛋白蛋白,NifB-co是所有三种Mo-、V-和Fe-氮酶所必需的。FdxN的缺失也将固氮条件下棕色固氮菌的生长速度降低到野生型的50%左右,表明FdxN的完全缺失对于生长和固氮酶活性是可以容忍的,但需要最佳生长和固氮酶活性。棕色固氮菌中的FdxN被认为或者作为铁氧还蛋白在NifB-co的生产过程中向NifB蛋白提供电子,或者作为[4Fe-4S]到NifB的中间载体,或两者兼而有之(Burén等人,2019)。
相比之下,苜蓿根瘤菌(Rhizobium meliloti)中的FdxN被证明是共生固氮所必需的,因为fdxN突变体无法固氮。通过引入编码FdxN的质粒恢复该功能(Klipp等人,1988)。纯化的苜蓿根瘤菌FdxN多肽能够在体外介导电子传递到荚膜红细菌(Rhodobactercapsulatus)固氮酶(Riedel et al.,1995)。然而,苜蓿根瘤菌对FdxN的这种绝对要求并未反映在许多其他固氮菌中,例如荚膜红细菌。
又一次不同的是,在产酸克雷伯氏杆菌(K.oxytoca)中,黄素氧还蛋白(NifF)和丙酮酸:黄素氧还蛋白氧化还原酶(NifJ)介导电子从丙酮酸转移到固氮酶,而不是FdxN(Shah等人,1983)。与此一致,当转移到大肠杆菌时产生功能性固氮酶的产酸克雷伯氏杆菌Nif基因簇具有NifJHDKTYENXUSVWZMFLABQ基因,但不包括FdxN或等效基因(Smanski等人,2014;Yang等人,2013;Temme et al.,2012)。合成载体pMIT v2.1在大肠杆菌中表达功能性固氮酶,但不包括FdxN基因,尽管大肠杆菌中的内源性铁氧还蛋白可能提供了这种功能。铁氧还蛋白以外的蛋白质也可能取代了大肠杆菌中的FdxN功能,例如黄素氧还蛋白。固氮菌中的固氮酶通常利用一种或多种黄素氧还蛋白(如NifF和NifJ)作为电子供体,因此NifF可能提供了该功能。在另一项研究中,杨等人(2017)用衣藻(Chlamydomonas)或来自拟南芥(Arabidopsis)、玉米、水稻和玉米的植物质体铁氧还蛋白替换了固氮酶载体pKU7017的产酸克雷伯氏杆菌NifF,与使用NifF的对照相比,所有这些都以50-100%的比率降低了乙炔,表明这些铁氧还蛋白至少可以替代NifF,用于向NifH和NifD-NifK固氮酶蛋白提供电子的功能。载体pKU7017不包括产酸克雷伯氏杆菌铁氧还蛋白基因,但具有NifF基因,因此NifF蛋白或内源性大肠杆菌铁氧还蛋白可能为NifH/NifD-NifK或NifB提供电子以形成NifB-co,或两者兼有。相比之下,Yates 1972发现纯化的圆褐固氮菌(A.chromococcum)黄素氧还蛋白,而不是铁氧还蛋白,可以向成熟的二氮酶提供电子。Jimenez-Vincente等人(2014)证实FdxN缺乏对NifD-NifK的电子捐赠。因此,对于不同的细菌,FdxN蛋白的功能及其对固氮酶功能的要求尚不清楚,更不用说在植物中表达并靶向线粒体时的固氮酶了。
Matsubara和Saeki(1992)综述了铁氧还蛋白和相关蛋白质的结构和多样性。
FdxN多肽的系统发生分析
使用棕色固氮菌FdxN(SEQ ID NO:232)对NCBI非冗余蛋白质数据库的搜索返回到蛋白质家族PRK13795(假设蛋白质,临时)的命中,它是超家族cl36298的唯一成员。然而,PRK13795中的627个氨基酸序列编码与古细菌(Archaea)中发现的磷酸腺苷磷酸硫酸盐还原酶相关的酶,其长度为400-800个氨基酸,包含[4Fe-4S]结合位点,但没有铁氧还蛋白样蛋白质。来自棕色固氮菌菌株DJ(登录号ACO81189.1)和CA(WP_012703542.1)的FdxN的蛋白质信息被注释为属于家族pfam12838。该域的区域名称称为“Fer4_7 4Fe-4S双簇域”,pfam12838是超家族cl38378的唯一家族成员。pfam12838的描述是“超家族包括含有与铁硫簇结合的结构域的蛋白质”。成员包括细菌铁氧还蛋白、各种脱氢酶和各种还原酶。该域的结构是一个α-β夹心结构,并且该域包含两个Fe4S4簇。蛋白质家族pfam12838中列出了206个代表性氨基酸序列,其中26个氨基酸序列短于160aa,用作大小截断值,因为注释为铁氧还蛋白的16个棕色固氮菌序列的最长序列为156个残基。pfam12838中长度为93-156个氨基酸的26个氨基酸序列使用NCBI全局比对(blast.ncbi.nlm.nih.gov/Blast)进行比对,并确定了与SEQ ID NO:232(WP_012703542.1)的百分比同一性。26个序列与SEQ ID NO:232的百分比同一性在10-22%之间,显示了FdxN序列的多样性。在此分析中使用的26个序列来自登录号:Q8KG02_CHLTE、Q3ATN2_CHLCH、Q8KG03_CHLTE、Q9X2D5_THEMA、Q2JP81_SYNJB、Q9I1H8_PSEAE、Q01ZR2_SOLUS、ESU39497、WP_043013856、WP_012106131、WP_018723072、EKY12520、WP_012422852、ABG77170.1、EEX22670、WP_015853105、WP_012455913、WP_020095796、WP_012235387、WP_011973256、WP_015758977、WP_012302957、WP_012301895、WP_036081271、WP_004845399和Q39V82_GEOMG。
在植物细胞中表达FdxN融合多肽的单基因构建体
本发明人寻求在植物细胞中表达编码A.vinelandii FdxN融合多肽的基因,旨在实现FdxN基因产物的线粒体定位,如下所述。首先测试了两个基因构建体(SN291、SN292),他们单独表达了MTP-FdxN融合多肽。随后的实验将5基因构建体中的FdxN基因与编码AnfD-Linker(HA)-AnfK、AnfH、AnfG和NifV融合多肽的基因组合在一起,其中5个基因位于一个T-DNA载体上,并且每个融合多肽都具有用于线粒体靶向的MTP序列。进一步的实验包括使用两个5基因构建体的共表达实验,即编码AnfD-Linker(HA)-AnfK、AnfH、AnfG、NifV和FdxN融合多肽的载体进入一个T-DNA载体,命名为SL50和SL49。(实施例21)。
设计并制造两个基因构建体SN291和SN292以在植物细胞如N.benthamiana烟草叶细胞中单独表达FdxN融合多肽(SEQ ID NO:233、SEQ ID NO:234),以及两种对照构建体SN299和SN300(表23)。合成基因均受位于蛋白质编码区两侧的强CaMV35S启动子和nos 3'多聚腺苷酸化区/转录终止子的控制。在C端添加了Ala残基的来自A.vinelandii的FdxN氨基酸序列(SEQ ID NO:232)用于设计每个构建体中蛋白质编码区的核苷酸序列,其中针对在植物细胞中的表达进行密码子优化。对于线粒体定位,SN291编码融合多肽,该融合多肽具有融合到N端的MTP-FAγ51和C端HA表位,用于通过使用抗HA抗体的蛋白质印迹检测多肽。HA表位在C端(SN291)或MTP和FdxN序列之间(SN292)翻译融合。一个对照构建体(SN300)编码缺乏MTP序列的多肽,因此表达较小的、细胞质靶向的多肽,该多肽在蛋白质印迹上为来自MTP-FdxN多肽(加工的FdxN)的MPP加工的多肽提供分子量比较器,条件是MPP加工的多肽在每种情况下都包含约9个氨基酸的“疤痕序列”,因此大小接近但不相同。第二个对照构建体(SN299)编码融合多肽,该融合多肽具有被丙氨酸取代的MTP序列中的13个氨基酸(Allen等人,2017),旨在防止MPP加工。因此,这些第二对照多肽为来自相应的MTP-FdxN构建体的未加工多肽提供了分子量比较器。丙氨酸突变的MTP序列被命名为mFAγ51。当分析来自浸润植物组织的蛋白质提取物时,将来自每个MTP-FdxN构建体的样品及其两个相应的对照构建体加载到相邻的泳道上进行凝胶电泳,以便允许最佳地检测MTP-FdxN多肽的加工。
表23.用于在植物细胞中表达的编码FdxN和Fe-固氮酶组分的单基因和多基因基因构建体
Figure BDA0003343176700001421
Figure BDA0003343176700001431
在植物细胞中的融合多肽的生产
如实施例1所述,将含有SN291的根癌农杆菌培养物浸润到5周龄的本氏烟草叶内,浸润后四至五天,收集叶样品。如下提取总的、可溶的和不可溶的蛋白质级分。为了测试植物表达的多肽的溶解度,将叶组织在冰冷的提取缓冲液(100mM Tris pH 8.0、150mM NaCl、0.25M甘露醇、5%(v/v)甘油、1%(v/v)Tween 20、1%(w/v)PVP、新鲜加入的2mM TCEP、0.2mM PMSF和10μM亮抑蛋白酶肽)中研磨并转移到微量离心管中。将样品以20,000×g离心5分钟,以将样品分成可溶性(上清液)和不溶性(沉淀物)级分。将上清液转移至新鲜的微量离心管中,并再次以20,000×g离心5分钟以除去任何剩余的不溶性物质。通过将沉淀重悬于300μL提取缓冲液中,通过重复的移液管冲程分散,洗涤不溶性级分,并在20,000×g离心5分钟,弃去上清液。再重复该洗涤步骤两次,从不溶性级分中除去任何剩余的可溶性蛋白。然后通过SDS-PAGE和使用抗HA抗体的Western blotting分析样品。抗HA抗体(单克隆抗HA,Sigma)以1:5000稀释使用。
SN291的Western blot分析(图38)显示在具有HA抗体的总蛋白质级分中容易检测到FdxN多肽,显示在可溶性和不溶性蛋白质级分中都存在微量的多肽,需要在Western程序中更长时间的暴露才能可见,这表明AvFdxN融合多肽是部分可溶的。FdxN融合多肽似乎部分地被MPP加工,加工和未加工的形式都表明被MPP无效切割。在每种情况下对照多肽的相邻泳道中的条带证实这些条带是加工的和未加工的多肽。
如实施例1所述,将含有SN292的根癌农杆菌培养物浸润到5周龄的本氏烟草叶内,浸润后四至五天,收集叶样品。使用与SN291相同的方法提取总的、可溶的和不可溶的蛋白质级分。SN292的Western blot分析显示在具有HA抗体的总蛋白质级分中容易检测到FdxN多肽,表明融合多肽中HA表位的位置,C-末端或朝向N-末端,不影响多肽的表达水平。同样,FdxN融合多肽似乎部分地被MPP加工,其中大多数蛋白质具有对于加工形式而言正确的大小。在每种情况下对照多肽的相邻泳道中的条带证实这些条带是加工的多肽。
在植物细胞中生产包括FdxN的融合多肽的组合
使用命名为SL50(表22)的GoldenGate合成方法设计和制备新的遗传构建体,并分别测试(图40)以及与SL49或SL54组合测试(图41)。SL50上的一个基因编码MTP-CoxIV::TwinStrep::AnfD::Linker26(HA)::AnfK融合多肽,并且其它四个基因编码AnfH、AnfG、NifV和FdxN融合多肽,各自具有MTP-FAγ51序列,其后是在多肽的N-末端翻译融合的HA表位。将遗传构建体SL49和SL50分别导入本生烟细胞,并且通过免疫印迹分析蛋白质表达。用适当的抗体检测来自SL50的所有5种编码的融合多肽,每种显示存在于可溶性蛋白部分中的多肽|条带|[A1],除了在可溶性或不溶性组分中不可见的FdxN多肽(图40)。重要的是,加工的AnfD-接头-AnfK,NifV和AnfH融合多肽都在可溶组分和不溶组分中观察到,因此所有三种都是至少部分可溶的。AnfG、AnfH和NifV多肽都表现为部分裂解,各自显示加工和未加工形式的条带。AnfD-接头-AnfK多肽似乎被有效加工。FdxN多肽仅在长暴露时间后可见,并且仅在总蛋白内的加工尺寸处可见。
接着,将含有SL50和SL49的农杆菌培养物混合,并将混合物渗入本氏烟叶如前。因此该实验引入了3个编码AnfH和AnfG多肽的Anf基因和融合的AnfD-接头-AnfK多肽,5个编码Nif基因(编码NifF、NifJ、NifU、NifB和NifV多肽),和FdxN基因,即9个基因的组合。在免疫印迹中观察到的令人惊讶的结果(图41)是所有9种多肽都容易检测到。一些多肽可见有2条条带,上部条带代表未加工的多肽,下部条带代表线粒体输入时切割的多肽。对于NifV,NifU和NifU融合多肽,未加工的多肽条带是可见的,而对于切割的多肽,存在预测大小的条带。除了FdxN多肽以外的所有多肽都存在于可溶性组分中,由于其低水平的积累,在可溶性或不溶性组分中不可见。
使用命名为SL54(表23)的GoldenGate合成方法设计和制备另一种遗传构建体,并单独测试和与SL50组合测试。SL54具有编码MTP-FAγ51::NifB::HA融合多肽(SEQ ID NO:147)的基因,其使用来自产酸克雷伯氏杆菌的序列。但在其它方面,对于NifS、NifU、NifJ和NifF融合多肽的表达,SL54与SL42相同(表22)。该实验还测试了基于产酸克雷伯氏杆菌的NifB融合多肽是否当与其它多肽组合表达时可以提高其溶解度,先前显示NifB融合多肽当单独表达时大部分是不溶的。
首先将SL50和SL54分别导入本生烟中,通过免疫印迹分析制备和分析可溶性和不溶性蛋白组分以及总蛋白组分。观察到所有编码的多肽至少在一定程度上存在于可溶性蛋白质提取物中以及存在于总蛋白质组分中,除了NifB和FdxN多肽不可见或被相似大小的其它蛋白质条带遮蔽。强度最小的多肽是FdxN多肽,其在较长的暴露后仅在总蛋白样品中可见。
SL50和SL54也一起导入本生烟叶片中。通过蛋白质印迹分析观察到AnfH、AnfG、NifV、NifJ、NifS、NifU和NifU多肽,以及加工的AnfD-接头-AnfK多肽至少在一定程度上存在于可溶性蛋白质提取物中。此外,FdxN多肽由于其低水平的积累而在可溶性或不溶性组分中不可见。由于在SDS-聚丙烯酰胺凝胶中NifB多肽的大小与未处理的NifS多肽一致(图39),所以无法证实可溶组分中NifB多肽的存在。
为控制大小和溶解度,编码产酸克雷伯氏杆菌NifB多肽的单个基因载体(SN192)单独渗入本氏烟叶中。当用HA抗体探测蛋白质印迹时,Nifb多肽作为未处理的和处理的形式都是可见的,并且在总蛋白和不溶性级分中是可见的,在可溶性组分中没有可见的Nifb(图39)。
在进一步的实验中,将纯化由SL50表达的TwinStrep-AnfD-接头-AnfK多肽。在进一步的实验中,将测试SL50与SL54变体的组合,所述变体具有源自除产酸克雷伯氏杆菌以外的生物体的Nifb多肽。
用Anf和Nif基因稳定转化的植物的产生
将SL49和SL50中每一个中的一组基因分别转移到具有选择标记基因的二元载体中。所得构建体用于产生转化的拟南芥植物。在用合适的抗生素进行初始选择后,获得SL49的9个T1转化体,获得SL50的2个T1转化体。该构建体也用于转化烟草(N.tabacum)和本氏烟。预期这些转基因植物表达所有编码的多肽,将Fe-S簇如P-簇掺入AnfD-接头-AnfK和AnfH多肽中,并以相对于相应野生型植物或缺乏NifV基因的植物增加的量产生高柠檬酸盐。还预期所述植物对在AnfD-接头-AnfK和AnfH多肽上产生Fe-S簇如P-簇呈阳性,并以相对于野生型植物增加的量产生高柠檬酸盐。测试植物的Fe-固氮酶活性。
实施例23.Anf多肽的分析
如本文所述,AnfH多肽是一种NifH多肽,该NifH多肽是固氮酶保守超家族cl25403的成员,该超家族含有PRK13233保守结构域并且在沿SEQ ID NO:218的全长测量时与棕色固氮菌AnfH多肽(SEQ ID NO:218)具有至少69%的氨基酸序列同一性。本发明人分析了存在于数据库中的AnfH多肽序列并对其进行了比对,并将其与代表性的钼型NifH进行了比较。
检索数据库中的AnfH氨基酸序列。这些序列被鉴定为具有PRK13233保守结构域并且与SEQ ID NO:218具有至少69%的同一性。鉴定了314个这样的序列。将这些序列与NCBICOBALT进行比对,得到具有300个残基位置(包括空位)的共有序列。该共有序列与SEQ IDNO:218具有89%的同一性。比对的AnfH氨基酸序列显著地具有300个位置中的137个氨基酸,其在所有314个天然存在的AnfH多肽中是相同的,并且许多其他氨基酸在许多AnfH多肽中是保守的。由于PRK13233结构域内的137个保守氨基酸跨越了AnfH序列的大部分,因此得出结论,PRK13233结构域覆盖了AnfH序列的大部分,并且PRK13233表示序列家族,而不是一个特定序列。137个保守氨基酸包括序列基序YGKGGIGKSTTXQNT(基序I,SEQ ID NO:225)、IHGCDPKAD(基序II,SEQ ID NO:226)、CVESGGPEPGVGCAGRG(基序III,SEQ ID NO:227)、DVLGDVVCGGFAMP(基序IV,SEQ ID NO:228)、VASGEMMAXYAANNI(基序V,SEQ ID NO:229)、QSGVR(基序VI,SEQ ID NO:230)和CNSRXVD(基序VII,SEQ ID NO:231),其中X代表任何氨基酸。所有基序I-VII存在于所有分析的314个AnfH序列中。
完全保守的137个氨基酸如下,数字是指SEQ ID NO:218中的氨基酸位置,字母是指该位置的氨基酸:3R、4K、6A、8Y、9G、10K、11G、12G、13I、14G、15K、16S、17T、18T、20Q、21N、22T、25A、36I、37H、38G、39C、40D、41P、42K、43A、44D、46T、47R、50L、52G、55Q、60D、63R、75V、79G、85C、86V、87E、88S、89G、90G、91P、92E、93P、94G、95V、96G、97C、98A、99G、100R、101G、103I、104T、106I、108L、109M、110E、115Y、119L、120D、125D、126V、127L、128G、129D、130V、131V、132C、133G、134G、135F、136A、137M、138P、140R、142G、143K、144A、146E、148Y、150V、151A、152S、153G、154E、155M、156M、157A、159Y、160A、161A、162N、163N、164I、167G、170K、172A、174Q、175S、176G、177V、178R、180G、181G、184C、185N、186S、187R、189V、190D、192E、198E、199F、204G、212P、213R、215N、217V、218Q、220A、221E、222F、227V、236Q、239E、240Y、243L、247I、250N、254V、255I、256P、258P、265E、272G。当与棕色固氮菌NifH序列(AvNifH;SEQ ID NO:224)比对时,来自AnfH序列的137个完全保守的氨基酸中的121个也存在于AvNifH的相应位置。在所有AnfH序列中保守但在AvNifH中不保守的16个氨基酸是:4K、22T、37H、52G、60D、63R、108L、109M、142G、151A、174Q、189V、198E、199F、222F和247I,参照SEQ IDNO:218。因此,相对于AvNifH的钼型NifH序列,这16个氨基酸是AnfH的特征,并且可用于将AnfH多肽与不具有所有共有16个氨基酸的其他NifH序列区分开。AvNifH、KoNifH(SEQ IDNO:1)和其他钼型NifH序列具有基序III和IV,但不具有基序I、II、V-VII,因此这些基序也可用于区分AnfH亚组与其他NifH多肽。
实施例24.附加的Nif多肽的共表达提高了NifD-NifK复合物和NifY的丰度
成熟的和催化活性的钼固氮酶包括两种金属因子,P簇和FeMo-co簇。基于对棕色固氮菌固氮酶的大量研究,这些金属簇按照Burén等人(2019)报道的顺序在几个步骤中组装。为了合成P簇,NafH多肽与称为pre-apo-NifD-NifK的蛋白质复合物相互作用,并帮助将由NifU提供的2个单独的[Fe4-S4]簇放置在NifD和NifK多肽内的位置上。然后NafH-NifD-NifK相互作用被NifW-NifD-NifK相互作用代替。NifW多肽然后被成熟的NifH和NifZ取代,且在此阶段,[Fe4-S4]簇在NifD和NifK的界面上缩合成[Fe8-S7]簇,即所谓的P簇,其中消除了一个硫原子。P簇的形成将pre-apo-NifD-NifK转化为一种、可能两种结合NafY(也称为γ蛋白)和/或NifY的“apo-NifD-NifK”中间体。在NafY的情况下,结构研究已经表明,FeMo-Co在NifE-NifN上的其他地方形成,并且NifX被认为参与金属因子在蛋白质之间的穿梭。
这种顺序组装途径及其推定的蛋白质相互作用是基于棕色固氮菌固氮酶的研究,并且这些步骤中的一些可能不同或在其他生物体中使用不同的蛋白质。例如,产酸克雷伯氏杆菌不具有编码NafH或NafY的基因,且其NifY比棕色固氮菌中的NifY更类似于NafY。产酸克雷伯氏杆菌中NifX对于固氮不是必须的(Temme等人,2012)。由于NifH基因的缺失破坏了P簇的形成和固氮生长,产酸克雷伯氏杆菌P簇的形成只需要功能性FeProtein(NifH)。相比之下,在棕色固氮菌中分别缺失编码NafY、NifY、NifW或NifZ的基因会减慢但并未停止固氮生长,这表明这些组分是部分冗余的,或者棕色固氮菌中的其他因素可以补偿特定蛋白质的缺乏。
本发明人决定在具有线粒体靶向的植物细胞中测试NifW、NifX、NifY和NifZ多肽的共表达对NifD-NifK融合多肽的作用。为此,使用Golden Gate克隆方法制备命名为SL55的植物表达构建体。SL55具有四个编码KoNifW、KoNifX、KoNifY和KoNifZ融合多肽的Nif基因,各自基于产酸克雷伯氏杆菌序列,且其具有融合于MTP-FAγ51序列的N端。每种多肽还具有融合位于C端的HA表位,用于在蛋白质印迹中检测。用于构建SL55的组分来自SN340(MTP-KoNifW-HA)、SN144(MTP-KoNifX-HA)、SN145(MTP-KoNifY-HA)和SN146(MTP-KoNifZ-HA)。每个单独的基因的侧翼是35S启动子和3'聚腺苷酸化区域/转录终止子,用于在植物细胞中表达。由SN159编码的用于共压渗实验的第二基因构建体是SL47,编码线粒体靶向的MTP-FAγ51::KoNifDY100Q::接头26(HA)::KoNifK,。该翻译融合体具有基于产酸克雷伯氏杆菌的NifD序列,在NifD序列内具有Y100Q置换。将构建体SL55和SL47分别或一起渗入本生烟中,且4或5天后取样品用于蛋白质印迹分析。在需氧条件下提取蛋白质,在4-20%梯度凝胶(SDS-PAGE)上分辨,并如前所述用抗HA抗体和HRP二抗进行探测。
仅用SL47压渗的叶片产生~110kDa多肽的相对较弱的信号,这是scar::NifD::接头26(HA)::NifK多肽的预期大小(图42)。如实施例2和3所述,在SL55上表达四种MTP-Nif融合基因的叶片单独或与SL47共压渗产生了对正确MPP加工的NifW、NifX、NifY和NifZ多肽的强信号。令人惊讶和显著的是,与SL55和SL47共压渗的叶片导致对应于正确处理的scar::NifD::接头26(HA)::NifK多肽的更大强度的条带(图42)。还注意到,当SL47与SL55共压渗时,SL55产生的约100kDa的较弱条带(可能是由scar::NifD::接头26(HA)::NifK多肽在线粒体中的二次降解产生的)丰度较低。尽管正确加工的scar::NifD::接头26(HA)::NifK多肽的丰度更高,但推定降解产物的丰度却降低了。
另外,单基因载体SN340、SN144、SN145和SN146的组合的共表达导致相对于单独的SN145的表达,正确加工的NifY的条带强度更大。该结果表明SN340、SN144和SN146(NifW、NifX和NifZ融合多肽)的组合改善了NifY融合多肽在植物线粒体中的表达和/或稳定性。本发明人得出结论,线粒体靶向的NifW、NifX、NifY和NifZ中的一种或多种或其组合改善了NifD和NifK多肽的翻译融合体的丰度。该实验还表明NifW、NifX和NifZ多肽的共表达提高了植物细胞中NifY的丰度。
制备另一种构建体(SN229),其编码类似的NifD-NifK融合多肽,但包括Twin-strep表位以纯化来自植物细胞的MPP加工的多肽。SN229共渗入具有SL55的本生烟叶片。制备蛋白质提取物并在需氧或厌氧条件下通过Strep-tactinXR柱。柱洗脱液含有纯化的scar::TS::NifD::接头26(HA)::NifK多肽,并分析NifW和NifZ融合多肽的存在,预期其中之一或两者与NifD-NifK蛋白共纯化。
构建体SN299、SL55和编码单独的NifH、NifM、NifS和NifU融合多肽的第三构建体(所有这些都通过与MTP融合而靶向线粒体)共同渗入本生烟叶片中。再次制备蛋白质提取物并在需氧或厌氧条件下通过Strep-tactinXR柱。预期所得洗脱液含有纯化的scar::TS::NifD::接头26(HA)::NifK多肽,已正确形成与其结合的P簇,可用于接受FeMo-co,即apo-NifD-NifK多肽。使用ICP-MS测量P簇的水平。
本申请要求于2019年3月8日提交的AU 2019900780、于2019年10月10日提交的AU2019903818以及于2020年3月5日提交的AU 2020900689的优先权,其全部内容通过引用并入本文。
本领域技术人员应当理解,在不脱离本公开的广义范围的情况下,可以对上述实施方案行多种变化和/或修改。因此,本实施方案在所有方面都被认为是说明性的而非限制性的。
本文讨论和/或引用的所有出版物均全文引入本文。
包括在本说明书中的文件、动作、材料、装置、物品等的任何讨论仅仅是为了提供本发明的上下文。不应视为承认这些内容中的任何或全部形成现有技术基础的一部分或者是与本发明相关的领域中的公知常识,因为其存在于本申请的每个权利要求的优先权日之前。
参考文献
Abe et al.(2000).Cell 100:551-560.
Abdullah et al.(1986).Biotechnology 4(12):1087.
Allen et al.(1994).Crit.Rev.Biotechnol.14:225-249.
Allen et al.(1995).J.Biol.Chem.270:26890-26896.
Allen et al.(2017).Front.Plant Sci.、8:287.doi:10.3389/fpls.2017.00287
Arnold et al.(1988).Tree physiology、4:291-300.
Altschul et al.(1997).Nucleic Acids Res.25:3389-3402.
Balk and Pilon(2011).Trends Plant Sci 16:218-226.
Barker et al.(1983).Plant Molecular Biology、2(6):335-350.
Becker et al.(2012).Trends in Biochemical Sciences 37:85-91.
Bevan et al.(1983).Nature 304:184-187.
Boison et al.(2006).Arch.Microbiol.186:367-376.
Boyd et al.(2011)Geobiology 9:221-232
Boyd and Peters(2013).Front.Microbiol.4:201.doi:10.3389/fmicb.2013.00201.
Brigle et al.(1987).J.Bacteriol.169:1547-1553.
Bruce(2001).Biochimica et Biophysica Acta(BBA)-Molecular CellResearch1541:2-21.
Burén et al.(2017a).Front Plant Sci 8:1567.
Burén et al.(2017b).ACS Synthetic Biology 6(6):1043-1055.
Burén and Rubio(2018)Fems Microbiol Lett 365:fnx274;doi:10.1093/femsle/fnx274.
Burén et al.(2019).Proc.Nat.Acad.Sci.USA 116:25078-25086.
Burén et al.(2020).Chemical Reviews doi.org/10.1021/acs.chemrev.9b00489.
Cannon et al.(1988)Nucleic Acids Res.16:11379.
Capecchi.(1980).Cell、22(2):479-488.
Carrari et al.(2003).Metab.Eng.5:191–200.
Carrie et al.(2010).Journal of Biological Chemistry 285:36138-36148.
Carter et al.(1980).J.Biol.Chem.255:4213-4223.
Chacinska et al.(2009).Cell 138:628-644.
Chen et al.(2013).Advanced Drug Delivery Reviews 65:1357-1369.
Cheng et al.(1996).Proceedings of the National Academy of Sciences、93(8):3636-3641.
Cheng et al.(2005).Biochemical and Biophysical ResearchCommunications329:966-975.
Chiu et al.(2001).Biochemistry 40:641-650.
Christiansen et al.(1998)Biochemistry-Us 37:12611-12623.
Clapp(1993).Clinics in perinatology、20(1):155-168.
Clausen et al.(2000).Proc.Natl.Acad.Sci.U.S.A.97:3856-3861.
Cotton(2009).J.Am.Chem.Soc.131:4558-4559.
Cui et al.(2013).Proceedings of the National Academy of Sciences 110、2052-2057.
Curatti et al.(2006).Proc.Natl.Acad.Sci.U.S.A.103:5297-5301.
Curatti et al.(2007).Proceedings of the National Academy of Sciences104(45):17626-17631.
Curatti and Rubio(2014).Plant Sci 225:130-137.
Curiel et al.(1992).Am J Respir Cell Mol Biol、6(3):247-252.
Darshi et al.(2012).Journal of Biological Chemistry 287:39480-39491.
Davis et al.(1996).J.Bacteriol.178:1445-1450.
De'ath et al.(2012).Proc.Natl.Acad.Sci.USA 109:17995-17999.
de Bruijn(2015).In:Biological Nitrogen Fixation pp.1087-1101.JohnWiley&Sons、Inc.
de Kok et al.(2014).ACS Synth.Biol.3:97–106.
Dilworth et al.(1988).Biochem.J.249:745-751.
Dilworth et al.(1993).Biochem.J.289:395-400.
Dos Santos et al.(2004).Chem Rev.104:1159-73.
Dos Santos et al.(2012).BMC Genomics 13:162.
Drummond(1985).Biochem.J.232:891-896.
Dyer et al.(2003).J.Biol.Chem.278:32150-32156.
Eady(1996).Chem.Rev.96:3013-3030.
Eglitis et al.(1988).Advances in Experimental Medicine and Biology241:19-27.
Emerich and Burris、(1978).J.Bacteriol.134:936-943.
Engler et al.(2014)ACS Synthetic Biology 3(11):839-843.
Fani et al.(2000).J.Mol.Evol.51:1-11.
Fay et al.(2015)Proc Natl Acad Sci U S A 112:14829-14833.
Fay et al.(2016).Proc.Natl.Acad.Sci.U.S.A.2016:9504-9508.
Fujimura et al.(1985).Plant Tissue Cult Lett.2:74-75.
Fukusawa et al.(2015).Molecular and Cellular Proteomics14:10.1074/mcp.M114.043083、1113-1126.
Gallie et al.(1987).Nucleic Acids Res.15:3257–73.
Garfinkel et al.(1983).Cell 27:143-153.
Gavini et al.(1998).Biochemical and Biophysical ResearchCommunications.244:498-504.
Gavini et al.(2006).Journal of Bacteriology 188:6020-6025.
Geddes et al.(2015).Curr Opin Biotech 32:216-222.
Geigenberger and Fernie(2014).Antioxid Redox Sign 21:1389-1421.
Glaser and Deshi(1999).J Bioenerg Biomembr 31:259-274.
Glibert et al.(2014).Environ Res Lett 9:e105001;doi.org/10.1088/1748-9326/9/10/105001.
Glick et al.(1992).Cell 69:809-822.
Goodwin et al.(1998)Biochemistry-Us 37:10420-10428.
Good and Beatty(2011).PLoS Biol 9、e1001124.
Graham et al.(1973).Virology 52(2)456-467.
Grant et al.(1995).J.Agric.Sci.、124(3):437-445
Guo et al.(2016).Angewandete Chemie 55:12764-12767
Fu et al.(1994).Biochemistry 1994 33:13455-63.
Hakoyama et al.(2009).Nature 462(7272):514.
Hellinga(1997).Proc Natl Acad Sci U S A.94:19 10015–10017.
Hernandez et al.(2007).Mol.Microbiol.63:177–192.
Hirel et al.(1989).Proc.Natl.Acad.Sci.USA 86:8247-8251.
Hinchee et al.(1988).
Homer et al.(1993).J.Bacteriol.175:4907-4910.
Homer et al.(1995).J.Biol.Chem.270:24745-24752.
Hoover et al.(1988).Biochemistry 27:3647-3652.
Horsch et al.(1985).Cold Spring Harbor Symposia on QuantitativeBiology 50:433-437.
Howard et al.(1986).J Biol.Chem.261:772-778
Hu et al.(2004).J.Biol.Chem.279:54963-54971.
Hu et al.(2005).Proc.Natl.Acad.Sci.U.S.A.102:3236-3241.
Hu et al.(2006).Proc.Natl.Acad.Sci.U.S.A.103:17119-17124.
Hu et al.(2008).Biochemistry 47:3973-3981.
Hu and Ribbe(2013).Bba-Bioenergetics 1827:1112-1122.
Hu and Ribbe、(2015).Journal of Biological Inorganic Chemistry 20(2):435-445.doi:10.1007/s00775-014-1225-3
Hu and Ribbe(2016).Annual Review of Biochemistry 85:455-483.
Huang et al.(2009).Plant Physiology 150(3):1272-1285.
Hummel et al.(2007).Metabolomics 75-95.
Hwang et al.(1996).J.Mol.Evol.Nov;43:536-540.
Igarashi and Seefeldt(2003).Crit.Rev.Biochem.Mol.Biol.38:351-384.
Jasniewski et al.(2018).Inorganics 6(1):25.
Jiménez-Vicente et al.(2014)FEBS Letters 588:512-516.
Johnson et al.(2005).Biochem.Soc.Trans.33:90-93.
Joshi(1987).Nucleic Acids Res.15:6643–6653.
Jouanneau et al.(1995).Biochim.Biophys.Acta 1232:33-42.
Katoh et al.(2013).Mol Biol Evol.4:772-80.
Kay et al.(1987).Science 236:1299-1302.
Kennedy and Dean、(1992).Mol Gen Genet.231:494-498.
Kerscher et al.(1997).The Journal of Cell Biology 139:1663-1675.
Khumanthem et al.(2007).Indian Journal of Microbiology、47:345–352.
Kim and Rees(1994).Biochemistry 33:389-397.
Kimble et al.(1995).Archives of Microbiology 163:259–267.
Klipp et al.(1988).Mol.Gen.Genet.216:293-302.
Kmiec et al.(2013).PNAS 110:40 E3761-E3769.
Koon et al.(2004).Proc Natl Acad Sci USA 10:8295-8300.
Lawson and Smith(2002).Met Ions Biol Syst;39:75-119.
Lee et al.(1998).Biochemical and Biophysical Research Communications244:2498-504.
Lee et al.(2000).J.Bacteriol.182:7088-7091.
Lee et al.(2012).Plant Cell 24:5037-5057.
Lei et al.(1999).Biochem Biophys Res Commun.264:186-90.
Lill and Mühlenhoff(2008).Annual Review of Biochemistry 77:669-700.
Lister et al.(2004).134:777-789.
Lister et al.(2007).Plant Cell、19:3739-3759.
Lopez-Torrejon et al.(2016).Nature Communications 7:11426.
Lu et al.(1993).Sci China B.36:11 1342-51.
Mackenzie and McIntosh(1999).Plant Cell 11:571-585.
Marques et al.(2014).Acta Crystallographica Section F 70(5):669-672.
Masukawa et al.(2007).Appl.Environ.Microbiol.73:7562-7570.
Matsubara and Saeki(1992).Adv.Inorganic Chem.38:223-280.
Mayer et al.(1999).J.Mol.Biol.292:871-891.
McLean and Dixon(1981).Nature、292:655.
McRose et al.(2017).Frontiers Microbiol.8:267 doi:10.3389/fmicb.2017.00267.
Medberry et al.(1992).The Plant Cell 4:2 185-192.
Medberry et al.(1993).Plant J.1993 3:4 619-26.
Merrick and Dixon(1984).Trends Biotechnol 2:162-166.
Mehta and Baross(2006).Science 314:1783–1786.
Millar et al.(2007).Methoods Cell Biol 80:65-90.
Miller and Eady(1988).Biochem.J.256:429-432.
Miyamoto et al.(1979).Applied and Environmental Microbiology、37:454–458.
Mueller et al.(2012).Nature 490:254-257.
Mühlenhoff et al.(2003).EMBO J.22:4815-4825.
Murcha et al.(2004).J Mol Biol 344:443-454.
Murcha et al.(2014).Bba-Gen Subjects 1840:1233-1245.
Niedz et al.(1995).Plant Cell Reports 14:7 403-6.
Naim et al.(2012).PLoS One 7(12):e52717.
Oldroyd and Dixon(2014)Curr Opin Biotechnol 26:19-24.
Olson et al.(2000).Biochemistry;39:16213-16219.
Ouzounis et al.(1994).Trends Biochem.Sci.19:199-200.
Ow et al.(1986).Science 234:856-859.
Paul and Merrick(1987)Eur.J.Biochem.170:259-265.
Paustian et al.(1990).Biochemistry 29:3515-3522.
Petrova et al.(2000).Biochem.Biophys.Res.Commun.270:863-867.
Pfanner and Geissler(2001)Nat.Rev.Mol.Cell Biol.2:339–349.
Prasad et al.(1992).Plant Molecular Biology 18(5):873-885.
Prasher et al.(1985).Trends in Genetics 11:8 320-3.
Pratte et al.(2006).J.Bacteriol.188:5806-5811.
Riedel et al.(1995).Eur.J.Biochem.231:742-746.
Robson and Postgate(1980).Annual Review of Microbiology 34:183-207.
Robson et al.(1986).Nature、322:388-390.
Robson et al.(1989).EMBO J.8:1217-1224.
Rockstrom et al.(2009).Nature 461:472-475.
Rodriguez-Quinones et al.(1993).J.Bacteriol.175:2926-2935.
Roise et al.(1986)The EMBO Journal 5:1327-1334.
Roise and Schatz(1988).J.Biol.Chem.263:4509-4511.
Rubio et al.(2002).J.Biol.Chem.277:14299-14305.
Rubio et al.(2004)J Biol Chem 279:19739-19746.
Rubio and Ludden(2005).J.Bacteriol.187:405-414.
Rubio and Ludden(2008).Annu Rev Microbiol 62:93-111.
Salomon et al.(1984).EMBO 3:1 141–146.
Santi et al.(2013).Ann Bot 111:743-767.
Schleiff and Soll(2000)Planta 211:449–456.
Schmidt and Skerra(2007).Nat.Protoc.2:1528–1535
Schmidt et al.(2013).Protein Expr.Purif.92:54–61.
Schmitz et al.(2001).FEMS Microbiol Lett.195:97-102.
Schwarz et al.(2016).Nucleic acids research 44(8):e77-e77.
Seefeldt et al.(2009).Annu Rev Biochem 78:701-722.
Serrano et al.(2009).Systematic and Applied Microbiology、32:1–7.
Shah et al.(1983)J.Biol.Chem.258:12064-12068.
Shah et al.(1999).J.Bacteriol.181:2797-2801.
Siddavattam et al.(1993).Mol.Gen.Genet.239:435-440.
Sippel and Einsle、(2017).Nature Chemical Biology、13:956.doi:10.1038/nchembio.2428
Sippel et al.(2018).Journal of Biological Inorganic Chemistry 23(7):1049-1056
Sirrenberg et al.(1996).Nature 384:6609 582-5.
Smil(2002).Ambio 31:126-131.
Smith et al.(1997).J.Bacteriol.179:7135–7155.
Smith et al.(2005).Annu.Rev.Biochem.74:247-281.
Smanski et al.(2014).Nature Biotechnology 32:1241-1249.
Spatzal et al.(2016).Nature communications 7(2016):10902.
Stalker et al.(1988).J.Biol.Chem.263(13):6310-6314.
Staples et al.(2007).J.Bacteriol.189:7392-7398.
Suh et al.(2003).Journal of Biological Chemistry 278:5353-5360.
Sutton et al.(2008).Environ Pollut 156:583-604.
Temme et al.(2012).Proc.Natl.Acad.Sci.U.S.A.109(18):7085-7090.
Tezcan et al.(2005).Science 309:1377-1380.
Thiel et al.(1995)Proc Natl Acad Sci U S A 92:9358-9362.
Thiel et al.(1997).J.Bacteriol.179:5222-5225.
Thillet et al.(1988).J.Biol.Chem 263(25):12500-12508
Thomas et al.(1966).Biochemistry 5(8):2513-2516.
Toriyama et al.(1986).Theor.Appl.Genet.73:16-19
Verhasselt et al.(1995).Yeast 11(10):961-966.
von Heijne(1986).EMBO J.5:1335-1342.
Wagner et al.(1992).Proc.Nail.Acad.Sci.U.S.A.89:6099-6103
Wahlund and Madigan、(1993).J.Bacteriol.175:474–478.
Wang et al.(2013).PLoS Genet 9、e1003865.
Waterhouse et al.(2018).Nucleic Acids Res.46(W1)、W296-W303.
Weber et al.(2011)PloS one.6(2)、pp.e16765.
Wiig et al.(2011)Proc Natl Acad Sci USA 108:8623-8627.
Wisniewski et al.(2011)Anal Biochem.410:307-9.
Wood et al.(2009).Plant Biotechnol J.7:914-924.
Xia et al.(2009).Nucleic acids research 37(suppl_2):W652-W660.
Xiao et al.(2010).Biochemistry 49:5588-5599.
Yang et al.(2014).Proc.Natl.Acad.Sci.U.S.A.111:E3718-E3725.
Yang et al.(2010).BMC Plant Biology、10.doi:10.1186/1471-2229-10-231.
Yang et al.(2017).Proc Natl Acad Sci USA 114:E2460-E2465.
Yang et al.(2018)Proc Natl Acad Sci USA doi/10.1073/pnas.1804992115
Yates(1972)FEBS Lett 27:63-67.
Yoneda et al.(2012).Int.J.Systematic Evol.Biol.62:1692–1697.
Yuvaniyama et al.(2000)Proc.Natl.Acad.Sci.USA 97:599-604.
Zhang and Glaser(2002).Trends Plant Sci 7:14-21.
Zhang et al.(2009).Progress in Natural Science 19:1197-1200.
Zhang et al.(2016).Biogeochemistry 127、189–198.doi:10.1007/s10533-016-0188-6.
Zhang and Wang(2013).PLoS One 8(7).doi:10.1371/journal.pone.0068491.
Zheng et al.(1994)
Zheng et al.(1997).J.Bacteriol.179:5963-5966.
Zheng et al.(2018).Nature Microbiology、3:281-286.doi:10.1038/s41564-017-0091-5.
序列表
<110> 联邦科学技术研究组织
<120> 固氮酶多肽在植物细胞中的表达
<130> 529584PCT
<150> AU 2020900689
<151> 2020-03-05
<150> AU 2019903818
<151> 2019-10-10
<150> AU 2019900780
<151> 2019-03-08
<160> 248
<170> PatentIn 3.5版
<210> 1
<211> 293
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 1
Met Thr Met Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys
1 5 10 15
Ser Thr Thr Thr Gln Asn Leu Val Ala Ala Leu Ala Glu Met Gly Lys
20 25 30
Lys Val Met Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
35 40 45
Ile Leu His Ala Lys Ala Gln Asn Thr Ile Met Glu Met Ala Ala Glu
50 55 60
Val Gly Ser Val Glu Asp Leu Glu Leu Glu Asp Val Leu Gln Ile Gly
65 70 75 80
Tyr Gly Asp Val Arg Cys Ala Glu Ser Gly Gly Pro Glu Pro Gly Val
85 90 95
Gly Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu
100 105 110
Glu Gly Ala Tyr Glu Asp Asp Leu Asp Phe Val Phe Tyr Asp Val Leu
115 120 125
Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys
130 135 140
Ala Gln Glu Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr
145 150 155 160
Ala Ala Asn Asn Ile Ser Lys Gly Ile Val Lys Tyr Ala Lys Ser Gly
165 170 175
Lys Val Arg Leu Gly Gly Leu Ile Cys Asn Ser Arg Gln Thr Asp Arg
180 185 190
Glu Asp Glu Leu Ile Ile Ala Leu Ala Glu Lys Leu Gly Thr Gln Met
195 200 205
Ile His Phe Val Pro Arg Asp Asn Ile Val Gln Arg Ala Glu Ile Arg
210 215 220
Arg Met Thr Val Ile Glu Tyr Asp Pro Ala Cys Lys Gln Ala Asn Glu
225 230 235 240
Tyr Arg Thr Leu Ala Gln Lys Ile Val Asn Asn Thr Met Lys Val Val
245 250 255
Pro Thr Pro Cys Thr Met Asp Glu Leu Glu Ser Leu Leu Met Glu Phe
260 265 270
Gly Ile Met Glu Glu Glu Asp Thr Ser Ile Ile Gly Lys Thr Ala Ala
275 280 285
Glu Glu Asn Ala Ala
290
<210> 2
<211> 483
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 2
Met Met Thr Asn Ala Thr Gly Glu Arg Asn Leu Ala Leu Ile Gln Glu
1 5 10 15
Val Leu Glu Val Phe Pro Glu Thr Ala Arg Lys Glu Arg Arg Lys His
20 25 30
Met Met Val Ser Asp Pro Lys Met Lys Ser Val Gly Lys Cys Ile Ile
35 40 45
Ser Asn Arg Lys Ser Gln Pro Gly Val Met Thr Val Arg Gly Cys Ala
50 55 60
Tyr Ala Gly Ser Lys Gly Val Val Phe Gly Pro Ile Lys Asp Met Ala
65 70 75 80
His Ile Ser His Gly Pro Ala Gly Cys Gly Gln Tyr Ser Arg Ala Glu
85 90 95
Arg Arg Asn Tyr Tyr Thr Gly Val Ser Gly Val Asp Ser Phe Gly Thr
100 105 110
Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg Asp Ile Val Phe Gly Gly
115 120 125
Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu Met Glu Leu Leu Phe Pro
130 135 140
Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu Cys Pro Val Gly Leu Ile
145 150 155 160
Gly Asp Asp Ile Ser Ala Val Ala Asn Ala Ser Ser Lys Ala Leu Asp
165 170 175
Lys Pro Val Ile Pro Val Arg Cys Glu Gly Phe Arg Gly Val Ser Gln
180 185 190
Ser Leu Gly His His Ile Ala Asn Asp Val Val Arg Asp Trp Ile Leu
195 200 205
Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr Thr Pro Tyr Asp Val Ala
210 215 220
Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala Trp Ala Ser Arg Ile
225 230 235 240
Leu Leu Glu Glu Met Gly Leu Arg Val Val Ala Gln Trp Ser Gly Asp
245 250 255
Gly Thr Leu Val Glu Met Glu Asn Thr Pro Phe Val Lys Leu Asn Leu
260 265 270
Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ala Arg His Met Glu Glu
275 280 285
Lys His Gln Ile Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Thr Lys
290 295 300
Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp Gln Phe Asp Asp Thr Ile
305 310 315 320
Arg Ala Asn Ala Glu Ala Val Ile Ala Arg Tyr Glu Gly Gln Met Ala
325 330 335
Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu Glu Gly Arg Lys Val Leu
340 345 350
Leu Tyr Ile Gly Gly Leu Arg Pro Arg His Val Ile Gly Ala Tyr Glu
355 360 365
Asp Leu Gly Met Glu Ile Ile Ala Ala Gly Tyr Glu Phe Ala His Asn
370 375 380
Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu Lys Glu Gly Thr Leu Leu
385 390 395 400
Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu Ala Phe Val Lys Ala Leu
405 410 415
Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu Lys Tyr Ile Phe Gln
420 425 430
Lys Met Gly Val Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly
435 440 445
Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp
450 455 460
Met Thr Leu Asn Asn Pro Ala Trp Asn Glu Leu Thr Ala Pro Trp Leu
465 470 475 480
Lys Ser Ala
<210> 3
<211> 520
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 3
Met Ser Gln Thr Ile Asp Lys Ile Asn Ser Cys Tyr Pro Leu Phe Glu
1 5 10 15
Gln Asp Glu Tyr Gln Glu Leu Phe Arg Asn Lys Arg Gln Leu Glu Glu
20 25 30
Ala His Asp Ala Gln Arg Val Gln Glu Val Phe Ala Trp Thr Thr Thr
35 40 45
Ala Glu Tyr Glu Ala Leu Asn Phe Gln Arg Glu Ala Leu Thr Val Asp
50 55 60
Pro Ala Lys Ala Cys Gln Pro Leu Gly Ala Val Leu Cys Ser Leu Gly
65 70 75 80
Phe Ala Asn Thr Leu Pro Tyr Val His Gly Ser Gln Gly Cys Val Ala
85 90 95
Tyr Phe Arg Thr Tyr Phe Asn Arg His Phe Lys Glu Pro Ile Ala Cys
100 105 110
Val Ser Asp Ser Met Thr Glu Asp Ala Ala Val Phe Gly Gly Asn Asn
115 120 125
Asn Met Asn Leu Gly Leu Gln Asn Ala Ser Ala Leu Tyr Lys Pro Glu
130 135 140
Ile Ile Ala Val Ser Thr Thr Cys Met Ala Glu Val Ile Gly Asp Asp
145 150 155 160
Leu Gln Ala Phe Ile Ala Asn Ala Lys Lys Asp Gly Phe Val Asp Ser
165 170 175
Ser Ile Ala Val Pro His Ala His Thr Pro Ser Phe Ile Gly Ser His
180 185 190
Val Thr Gly Trp Asp Asn Met Phe Glu Gly Phe Ala Lys Thr Phe Thr
195 200 205
Ala Asp Tyr Gln Gly Gln Pro Gly Lys Leu Pro Lys Leu Asn Leu Val
210 215 220
Thr Gly Phe Glu Thr Tyr Leu Gly Asn Phe Arg Val Leu Lys Arg Met
225 230 235 240
Met Glu Gln Met Ala Val Pro Cys Ser Leu Leu Ser Asp Pro Ser Glu
245 250 255
Val Leu Asp Thr Pro Ala Asp Gly His Tyr Arg Met Tyr Ser Gly Gly
260 265 270
Thr Thr Gln Gln Glu Met Lys Glu Ala Pro Asp Ala Ile Asp Thr Leu
275 280 285
Leu Leu Gln Pro Trp Gln Leu Leu Lys Ser Lys Lys Val Val Gln Glu
290 295 300
Met Trp Asn Gln Pro Ala Thr Glu Val Ala Ile Pro Leu Gly Leu Ala
305 310 315 320
Ala Thr Asp Glu Leu Leu Met Thr Val Ser Gln Leu Ser Gly Lys Pro
325 330 335
Ile Ala Asp Ala Leu Thr Leu Glu Arg Gly Arg Leu Val Asp Met Met
340 345 350
Leu Asp Ser His Thr Trp Leu His Gly Lys Lys Phe Gly Leu Tyr Gly
355 360 365
Asp Pro Asp Phe Val Met Gly Leu Thr Arg Phe Leu Leu Glu Leu Gly
370 375 380
Cys Glu Pro Thr Val Ile Leu Ser His Asn Ala Asn Lys Arg Trp Gln
385 390 395 400
Lys Ala Met Asn Lys Met Leu Asp Ala Ser Pro Tyr Gly Arg Asp Ser
405 410 415
Glu Val Phe Ile Asn Cys Asp Leu Trp His Phe Arg Ser Leu Met Phe
420 425 430
Thr Arg Gln Pro Asp Phe Met Ile Gly Asn Ser Tyr Gly Lys Phe Ile
435 440 445
Gln Arg Asp Thr Leu Ala Lys Gly Lys Ala Phe Glu Val Pro Leu Ile
450 455 460
Arg Leu Gly Phe Pro Leu Phe Asp Arg His His Leu His Arg Gln Thr
465 470 475 480
Thr Trp Gly Tyr Glu Gly Ala Met Asn Ile Val Thr Thr Leu Val Asn
485 490 495
Ala Val Leu Glu Lys Leu Asp Ser Asp Thr Ser Gln Leu Gly Lys Thr
500 505 510
Asp Tyr Ser Phe Asp Leu Val Arg
515 520
<210> 4
<211> 468
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 4
Met Thr Ser Cys Ser Ser Phe Ser Gly Gly Lys Ala Cys Arg Pro Ala
1 5 10 15
Asp Asp Ser Ala Leu Thr Pro Leu Val Ala Asp Lys Ala Ala Ala His
20 25 30
Pro Cys Tyr Ser Arg His Gly His His Arg Phe Ala Arg Met His Leu
35 40 45
Pro Val Ala Pro Ala Cys Asn Leu Gln Cys Asn Tyr Cys Asn Arg Lys
50 55 60
Phe Asp Cys Ser Asn Glu Ser Arg Pro Gly Val Ser Ser Thr Leu Leu
65 70 75 80
Thr Pro Glu Gln Ala Val Val Lys Val Arg Gln Val Ala Gln Ala Ile
85 90 95
Pro Gln Leu Ser Val Val Gly Ile Ala Gly Pro Gly Asp Pro Leu Ala
100 105 110
Asn Ile Ala Arg Thr Phe Arg Thr Leu Glu Leu Ile Arg Glu Gln Leu
115 120 125
Pro Asp Leu Lys Leu Cys Leu Ser Thr Asn Gly Leu Val Leu Pro Asp
130 135 140
Ala Val Asp Arg Leu Leu Asp Val Gly Val Asp His Val Thr Val Thr
145 150 155 160
Ile Asn Thr Leu Asp Ala Glu Ile Ala Ala Gln Ile Tyr Ala Trp Leu
165 170 175
Trp Leu Asp Gly Glu Arg Tyr Ser Gly Arg Glu Ala Gly Glu Ile Leu
180 185 190
Ile Ala Arg Gln Leu Glu Gly Val Arg Arg Leu Thr Ala Lys Gly Val
195 200 205
Leu Val Lys Ile Asn Ser Val Leu Ile Pro Gly Ile Asn Asp Ser Gly
210 215 220
Met Ala Gly Val Ser Arg Ala Leu Arg Ala Ser Gly Ala Phe Ile His
225 230 235 240
Asn Ile Met Pro Leu Ile Ala Arg Pro Glu His Gly Thr Val Phe Gly
245 250 255
Leu Asn Gly Gln Pro Glu Pro Asp Ala Glu Thr Leu Ala Ala Thr Arg
260 265 270
Ser Arg Cys Gly Glu Val Met Pro Gln Met Thr His Cys His Gln Cys
275 280 285
Arg Ala Asp Ala Ile Gly Met Leu Gly Glu Asp Arg Ser Gln Gln Phe
290 295 300
Thr Gln Leu Pro Ala Pro Glu Ser Leu Pro Ala Trp Leu Pro Ile Leu
305 310 315 320
His Gln Arg Ala Gln Leu His Ala Ser Ile Ala Thr Arg Gly Glu Ser
325 330 335
Glu Ala Asp Asp Ala Cys Leu Val Ala Val Ala Ser Ser Arg Gly Asp
340 345 350
Val Ile Asp Cys His Phe Gly His Ala Asp Arg Phe Tyr Ile Tyr Ser
355 360 365
Leu Ser Ala Ala Gly Met Val Leu Val Asn Glu Arg Phe Thr Pro Lys
370 375 380
Tyr Cys Gln Gly Arg Asp Asp Cys Glu Pro Gln Asp Asn Ala Ala Arg
385 390 395 400
Phe Ala Ala Ile Leu Glu Leu Leu Ala Asp Val Lys Ala Val Phe Cys
405 410 415
Val Arg Ile Gly His Thr Pro Trp Gln Gln Leu Glu Gln Glu Gly Ile
420 425 430
Glu Pro Cys Val Asp Gly Ala Trp Arg Pro Val Ser Glu Val Leu Pro
435 440 445
Ala Trp Trp Gln Gln Arg Arg Gly Ser Trp Pro Ala Ala Leu Pro His
450 455 460
Lys Gly Val Ala
465
<210> 5
<211> 457
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 5
Met Lys Gly Asn Glu Ile Leu Ala Leu Leu Asp Glu Pro Ala Cys Glu
1 5 10 15
His Asn His Lys Gln Lys Ser Gly Cys Ser Ala Pro Lys Pro Gly Ala
20 25 30
Thr Ala Ala Gly Cys Ala Phe Asp Gly Ala Gln Ile Thr Leu Leu Pro
35 40 45
Ile Ala Asp Val Ala His Leu Val His Gly Pro Ile Gly Cys Ala Gly
50 55 60
Ser Ser Trp Asp Asn Arg Gly Ser Ala Ser Ser Gly Pro Thr Leu Asn
65 70 75 80
Arg Leu Gly Phe Thr Thr Asp Leu Asn Glu Gln Asp Val Ile Met Gly
85 90 95
Arg Gly Glu Arg Arg Leu Phe His Ala Val Arg His Ile Val Thr Arg
100 105 110
Tyr His Pro Ala Ala Val Phe Ile Tyr Asn Thr Cys Val Pro Ala Met
115 120 125
Glu Gly Asp Asp Leu Glu Ala Val Cys Gln Ala Ala Gln Thr Ala Thr
130 135 140
Gly Val Pro Val Ile Ala Ile Asp Ala Ala Gly Phe Tyr Gly Ser Lys
145 150 155 160
Asn Leu Gly Asn Arg Pro Ala Gly Asp Val Met Val Lys Arg Val Ile
165 170 175
Gly Gln Arg Glu Pro Ala Pro Trp Pro Glu Ser Thr Leu Phe Ala Pro
180 185 190
Glu Gln Arg His Asp Ile Gly Leu Ile Gly Glu Phe Asn Ile Ala Gly
195 200 205
Glu Phe Trp His Ile Gln Pro Leu Leu Asp Glu Leu Gly Ile Arg Val
210 215 220
Leu Gly Ser Leu Ser Gly Asp Gly Arg Phe Ala Glu Ile Gln Thr Met
225 230 235 240
His Arg Ala Gln Ala Asn Met Leu Val Cys Ser Arg Ala Leu Ile Asn
245 250 255
Val Ala Arg Ala Leu Glu Gln Arg Tyr Gly Thr Pro Trp Phe Glu Gly
260 265 270
Ser Phe Tyr Gly Ile Arg Ala Thr Ser Asp Ala Leu Arg Gln Leu Ala
275 280 285
Ala Leu Leu Gly Asp Asp Asp Leu Arg Gln Arg Thr Glu Ala Leu Ile
290 295 300
Ala Arg Glu Glu Gln Ala Ala Glu Leu Ala Leu Gln Pro Trp Arg Glu
305 310 315 320
Gln Leu Arg Gly Arg Lys Ala Leu Leu Tyr Thr Gly Gly Val Lys Ser
325 330 335
Trp Ser Val Val Ser Ala Leu Gln Asp Leu Gly Met Thr Val Val Ala
340 345 350
Thr Gly Thr Arg Lys Ser Thr Glu Glu Asp Lys Gln Arg Ile Arg Glu
355 360 365
Leu Met Gly Glu Glu Ala Val Met Leu Glu Glu Gly Asn Ala Arg Thr
370 375 380
Leu Leu Asp Val Val Tyr Arg Tyr Gln Ala Asp Leu Met Ile Ala Gly
385 390 395 400
Gly Arg Asn Met Tyr Thr Ala Tyr Lys Ala Arg Leu Pro Phe Leu Asp
405 410 415
Ile Asn Gln Glu Arg Glu His Ala Phe Ala Gly Tyr Gln Gly Ile Val
420 425 430
Thr Leu Ala Arg Gln Leu Cys Gln Thr Ile Asn Ser Pro Ile Trp Pro
435 440 445
Gln Thr His Ser Arg Ala Pro Trp Arg
450 455
<210> 6
<211> 176
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 6
Met Ala Asn Ile Gly Ile Phe Phe Gly Thr Asp Thr Gly Lys Thr Arg
1 5 10 15
Lys Ile Ala Lys Met Ile His Lys Gln Leu Gly Glu Leu Ala Asp Ala
20 25 30
Pro Val Asn Ile Asn Arg Thr Thr Leu Asp Asp Phe Met Ala Tyr Pro
35 40 45
Val Leu Leu Leu Gly Thr Pro Thr Leu Gly Asp Gly Gln Leu Pro Gly
50 55 60
Leu Glu Ala Gly Cys Glu Ser Glu Ser Trp Ser Glu Phe Ile Ser Gly
65 70 75 80
Leu Asp Asp Ala Ser Leu Lys Gly Lys Thr Val Ala Leu Phe Gly Leu
85 90 95
Gly Asp Gln Arg Gly Tyr Pro Asp Asn Phe Val Ser Gly Met Arg Pro
100 105 110
Leu Phe Asp Ala Leu Ser Ala Arg Gly Ala Gln Met Ile Gly Ser Trp
115 120 125
Pro Asn Glu Gly Tyr Glu Phe Ser Ala Ser Ser Ala Leu Glu Gly Asp
130 135 140
Arg Phe Val Gly Leu Val Leu Asp Gln Asp Asn Gln Phe Asp Gln Thr
145 150 155 160
Glu Ala Arg Leu Ala Ser Trp Leu Glu Glu Ile Lys Arg Thr Val Leu
165 170 175
<210> 7
<211> 1171
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 7
Met Ser Gly Lys Met Lys Thr Met Asp Gly Asn Ala Ala Ala Ala Trp
1 5 10 15
Ile Ser Tyr Ala Phe Thr Glu Val Ala Ala Ile Tyr Pro Ile Thr Pro
20 25 30
Ser Thr Pro Met Ala Glu Asn Val Asp Glu Trp Ala Ala Gln Gly Lys
35 40 45
Lys Asn Leu Phe Gly Gln Pro Val Arg Leu Met Glu Met Gln Ser Glu
50 55 60
Ala Gly Ala Ala Gly Ala Val His Gly Ala Leu Gln Ala Gly Ala Leu
65 70 75 80
Thr Thr Thr Tyr Thr Ala Ser Gln Gly Leu Leu Leu Met Ile Pro Asn
85 90 95
Met Tyr Lys Ile Ala Gly Glu Leu Leu Pro Gly Val Phe His Val Ser
100 105 110
Ala Arg Ala Leu Ala Thr Asn Ser Leu Asn Ile Phe Gly Asp His Gln
115 120 125
Asp Val Met Ala Val Arg Gln Thr Gly Cys Ala Met Leu Ala Glu Asn
130 135 140
Asn Val Gln Gln Val Met Asp Leu Ser Ala Val Ala His Leu Ala Ala
145 150 155 160
Ile Lys Gly Arg Ile Pro Phe Val Asn Phe Phe Asp Gly Phe Arg Thr
165 170 175
Ser His Glu Ile Gln Lys Ile Glu Val Leu Glu Tyr Glu Gln Leu Ala
180 185 190
Thr Leu Leu Asp Arg Pro Ala Leu Asp Ser Phe Arg Arg Asn Ala Leu
195 200 205
His Pro Asp His Pro Val Ile Arg Gly Thr Ala Gln Asn Pro Asp Ile
210 215 220
Tyr Phe Gln Glu Arg Glu Ala Gly Asn Arg Phe Tyr Gln Ala Leu Pro
225 230 235 240
Asp Ile Val Glu Ser Tyr Met Thr Gln Ile Ser Ala Leu Thr Gly Arg
245 250 255
Glu Tyr His Leu Phe Asn Tyr Thr Gly Ala Ala Asp Ala Glu Arg Val
260 265 270
Ile Ile Ala Met Gly Ser Val Cys Asp Thr Val Gln Glu Val Val Asp
275 280 285
Thr Leu Asn Ala Ala Gly Glu Lys Val Gly Leu Leu Ser Val His Leu
290 295 300
Phe Arg Pro Phe Ser Leu Ala His Phe Phe Ala Gln Leu Pro Lys Thr
305 310 315 320
Val Gln Arg Ile Ala Val Leu Asp Arg Thr Lys Glu Pro Gly Ala Gln
325 330 335
Ala Glu Pro Leu Cys Leu Asp Val Lys Asn Ala Phe Tyr His His Asp
340 345 350
Asp Ala Pro Leu Ile Val Gly Gly Arg Tyr Ala Leu Gly Gly Lys Asp
355 360 365
Val Leu Pro Asn Asp Ile Ala Ala Val Phe Asp Asn Leu Asn Lys Pro
370 375 380
Leu Pro Met Asp Gly Phe Thr Leu Gly Ile Val Asp Asp Val Thr Phe
385 390 395 400
Thr Ser Leu Pro Pro Arg Gln Gln Thr Leu Ala Val Ser His Asp Gly
405 410 415
Ile Thr Ala Cys Lys Phe Trp Gly Met Gly Ser Asp Gly Thr Val Gly
420 425 430
Ala Asn Lys Ser Ala Ile Lys Ile Ile Gly Asp Lys Thr Pro Leu Tyr
435 440 445
Ala Gln Ala Tyr Phe Ser Tyr Asp Ser Lys Lys Ser Gly Gly Ile Thr
450 455 460
Val Ser His Leu Arg Phe Gly Asp Arg Pro Ile Asn Ser Pro Tyr Leu
465 470 475 480
Ile His Arg Ala Asp Phe Ile Ser Cys Ser Gln Gln Ser Tyr Val Glu
485 490 495
Arg Tyr Asp Leu Leu Asp Gly Leu Lys Pro Gly Gly Thr Phe Leu Leu
500 505 510
Asn Cys Ser Trp Ser Asp Ala Glu Leu Glu Gln His Leu Pro Val Gly
515 520 525
Phe Lys Arg Tyr Leu Ala Arg Glu Asn Ile His Phe Tyr Thr Leu Asn
530 535 540
Ala Val Asp Ile Ala Arg Glu Leu Gly Leu Gly Gly Arg Phe Asn Met
545 550 555 560
Leu Met Gln Ala Ala Phe Phe Lys Leu Ala Ala Ile Ile Asp Pro Gln
565 570 575
Thr Ala Ala Asp Tyr Leu Lys Gln Ala Val Glu Lys Ser Tyr Gly Ser
580 585 590
Lys Gly Ala Ala Val Ile Glu Met Asn Gln Arg Ala Ile Glu Leu Gly
595 600 605
Met Ala Ser Leu His Gln Val Thr Ile Pro Ala His Trp Ala Thr Leu
610 615 620
Asp Glu Pro Ala Ala Gln Ala Ser Ala Met Met Pro Asp Phe Ile Arg
625 630 635 640
Asp Ile Leu Gln Pro Met Asn Arg Gln Cys Gly Asp Gln Leu Pro Val
645 650 655
Ser Ala Phe Val Gly Met Glu Asp Gly Thr Phe Pro Ser Gly Thr Ala
660 665 670
Ala Trp Glu Lys Arg Gly Ile Ala Leu Glu Val Pro Val Trp Gln Pro
675 680 685
Glu Gly Cys Thr Gln Cys Asn Gln Cys Ala Phe Ile Cys Pro His Ala
690 695 700
Ala Ile Arg Pro Ala Leu Leu Asn Gly Glu Glu His Asp Ala Ala Pro
705 710 715 720
Val Gly Leu Leu Ser Lys Pro Ala Gln Gly Ala Lys Glu Tyr His Tyr
725 730 735
His Leu Ala Ile Ser Pro Leu Asp Cys Ser Gly Cys Gly Asn Cys Val
740 745 750
Asp Ile Cys Pro Ala Arg Gly Lys Ala Leu Lys Met Gln Ser Leu Asp
755 760 765
Ser Gln Arg Gln Met Ala Pro Val Trp Asp Tyr Ala Leu Ala Leu Thr
770 775 780
Pro Lys Ser Asn Pro Phe Arg Lys Thr Thr Val Lys Gly Ser Gln Phe
785 790 795 800
Glu Thr Pro Leu Leu Glu Phe Ser Gly Ala Cys Ala Gly Cys Gly Glu
805 810 815
Thr Pro Tyr Ala Arg Leu Ile Thr Gln Leu Phe Gly Asp Arg Met Leu
820 825 830
Ile Ala Asn Ala Thr Gly Cys Ser Ser Ile Trp Gly Ala Ser Ala Pro
835 840 845
Ser Ile Pro Tyr Thr Thr Asn His Arg Gly His Gly Pro Ala Trp Ala
850 855 860
Asn Ser Leu Phe Glu Asp Asn Ala Glu Phe Gly Leu Gly Met Met Leu
865 870 875 880
Gly Gly Gln Ala Val Arg Gln Gln Ile Ala Asp Asp Met Thr Ala Ala
885 890 895
Leu Ala Leu Pro Val Ser Asp Glu Leu Ser Asp Ala Met Arg Gln Trp
900 905 910
Leu Ala Lys Gln Asp Glu Gly Glu Gly Thr Arg Glu Arg Ala Asp Arg
915 920 925
Leu Ser Glu Arg Leu Ala Ala Glu Lys Glu Gly Val Pro Leu Leu Glu
930 935 940
Gln Leu Trp Gln Asn Arg Asp Tyr Phe Val Arg Arg Ser Gln Trp Ile
945 950 955 960
Phe Gly Gly Asp Gly Trp Ala Tyr Asp Ile Gly Phe Gly Gly Leu Asp
965 970 975
His Val Leu Ala Ser Gly Glu Asp Val Asn Ile Leu Val Phe Asp Thr
980 985 990
Glu Val Tyr Ser Asn Thr Gly Gly Gln Ser Ser Lys Ser Thr Pro Val
995 1000 1005
Ala Ala Ile Ala Lys Phe Ala Ala Gln Gly Lys Arg Thr Arg Lys
1010 1015 1020
Lys Asp Leu Gly Met Met Ala Met Ser Tyr Gly Asn Val Tyr Val
1025 1030 1035
Ala Gln Val Ala Met Gly Ala Asp Lys Asp Gln Thr Leu Arg Ala
1040 1045 1050
Ile Ala Glu Ala Glu Ala Trp Pro Gly Pro Ser Leu Val Ile Ala
1055 1060 1065
Tyr Ala Ala Cys Ile Asn His Gly Leu Lys Ala Gly Met Arg Cys
1070 1075 1080
Ser Gln Arg Glu Ala Lys Arg Ala Val Glu Ala Gly Tyr Trp His
1085 1090 1095
Leu Trp Arg Tyr His Pro Gln Arg Glu Ala Glu Gly Lys Thr Pro
1100 1105 1110
Phe Met Leu Asp Ser Glu Glu Pro Glu Glu Ser Phe Arg Asp Phe
1115 1120 1125
Leu Leu Gly Glu Val Arg Tyr Ala Ser Leu His Lys Thr Thr Pro
1130 1135 1140
His Leu Ala Asp Ala Leu Phe Ser Arg Thr Glu Glu Asp Ala Arg
1145 1150 1155
Ala Arg Phe Ala Gln Tyr Arg Arg Leu Ala Gly Glu Glu
1160 1165 1170
<210> 8
<211> 266
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 8
Met Asn Pro Trp Gln Arg Phe Ala Arg Gln Arg Leu Ala Arg Ser Arg
1 5 10 15
Trp Asn Arg Asp Pro Ala Ala Leu Asp Pro Ala Asp Thr Pro Ala Phe
20 25 30
Glu Gln Ala Trp Gln Arg Gln Cys His Met Glu Gln Thr Ile Val Ala
35 40 45
Arg Val Pro Glu Gly Asp Ile Pro Ala Ala Leu Leu Glu Asn Ile Ala
50 55 60
Ala Ser Leu Ala Ile Trp Leu Asp Glu Gly Asp Phe Ala Pro Pro Glu
65 70 75 80
Arg Ala Ala Ile Val Arg His His Ala Arg Leu Glu Leu Ala Phe Ala
85 90 95
Asp Ile Ala Arg Gln Ala Pro Gln Pro Asp Leu Ser Thr Val Gln Ala
100 105 110
Trp Tyr Leu Arg His Gln Thr Gln Phe Met Arg Pro Glu Gln Arg Leu
115 120 125
Thr Arg His Leu Leu Leu Thr Val Asp Asn Asp Arg Glu Ala Val His
130 135 140
Gln Arg Ile Leu Gly Leu Tyr Arg Gln Ile Asn Ala Ser Arg Asp Ala
145 150 155 160
Phe Ala Pro Leu Ala Gln Arg His Ser His Cys Pro Ser Ala Leu Glu
165 170 175
Glu Gly Arg Leu Gly Trp Ile Ser Arg Gly Leu Leu Tyr Pro Gln Leu
180 185 190
Glu Thr Ala Leu Phe Ser Leu Ala Glu Asn Ala Leu Ser Leu Pro Ile
195 200 205
Ala Ser Glu Leu Gly Trp His Leu Leu Trp Cys Glu Ala Ile Arg Pro
210 215 220
Ala Ala Pro Met Glu Pro Gln Gln Ala Leu Glu Ser Ala Arg Asp Tyr
225 230 235 240
Leu Trp Gln Gln Ser Gln Gln Arg His Gln Arg Gln Trp Leu Glu Gln
245 250 255
Met Ile Ser Arg Gln Pro Gly Leu Cys Gly
260 265
<210> 9
<211> 461
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 9
Met Ala Asp Ile Phe Arg Thr Asp Lys Pro Leu Ala Val Ser Pro Ile
1 5 10 15
Lys Thr Gly Gln Pro Leu Gly Ala Ile Leu Ala Ser Leu Gly Ile Glu
20 25 30
His Ser Ile Pro Leu Val His Gly Ala Gln Gly Cys Ser Ala Phe Ala
35 40 45
Lys Val Phe Phe Ile Gln His Phe His Asp Pro Val Pro Leu Gln Ser
50 55 60
Thr Ala Met Asp Pro Thr Ser Thr Ile Met Gly Ala Asp Gly Asn Ile
65 70 75 80
Phe Thr Ala Leu Asp Thr Leu Cys Gln Arg Asn Asn Pro Gln Ala Ile
85 90 95
Val Leu Leu Ser Thr Gly Leu Ser Glu Ala Gln Gly Ser Asp Ile Ser
100 105 110
Arg Val Val Arg Gln Phe Arg Glu Glu Tyr Pro Arg His Lys Gly Val
115 120 125
Ala Ile Leu Thr Val Asn Thr Pro Asp Phe Tyr Gly Ser Met Glu Asn
130 135 140
Gly Phe Ser Ala Val Leu Glu Ser Val Ile Glu Gln Trp Val Pro Pro
145 150 155 160
Ala Pro Arg Pro Ala Gln Arg Asn Arg Arg Val Asn Leu Leu Val Ser
165 170 175
His Leu Cys Ser Pro Gly Asp Ile Glu Trp Leu Arg Arg Cys Val Glu
180 185 190
Ala Phe Gly Leu Gln Pro Ile Ile Leu Pro Asp Leu Ala Gln Ser Met
195 200 205
Asp Gly His Leu Ala Gln Gly Asp Phe Ser Pro Leu Thr Gln Gly Gly
210 215 220
Thr Pro Leu Arg Gln Ile Glu Gln Met Gly Gln Ser Leu Cys Ser Phe
225 230 235 240
Ala Ile Gly Val Ser Leu His Arg Ala Ser Ser Leu Leu Ala Pro Arg
245 250 255
Cys Arg Gly Glu Val Ile Ala Leu Pro His Leu Met Thr Leu Glu Arg
260 265 270
Cys Asp Ala Phe Ile His Gln Leu Ala Lys Ile Ser Gly Arg Ala Val
275 280 285
Pro Glu Trp Leu Glu Arg Gln Arg Gly Gln Leu Gln Asp Ala Met Ile
290 295 300
Asp Cys His Met Trp Leu Gln Gly Gln Arg Met Ala Ile Ala Ala Glu
305 310 315 320
Gly Asp Leu Leu Ala Ala Trp Cys Asp Phe Ala Asn Ser Gln Gly Met
325 330 335
Gln Pro Gly Pro Leu Val Ala Pro Thr Gly His Pro Ser Leu Arg Gln
340 345 350
Leu Pro Val Glu Arg Val Val Pro Gly Asp Leu Glu Asp Leu Gln Thr
355 360 365
Leu Leu Cys Ala His Pro Ala Asp Leu Leu Val Ala Asn Ser His Ala
370 375 380
Arg Asp Leu Ala Glu Gln Phe Ala Leu Pro Leu Val Arg Ala Gly Phe
385 390 395 400
Pro Leu Phe Asp Lys Leu Gly Glu Phe Arg Arg Val Arg Gln Gly Tyr
405 410 415
Ser Gly Met Arg Asp Thr Leu Phe Glu Leu Ala Asn Leu Ile Arg Glu
420 425 430
Arg His His His Leu Ala His Tyr Arg Ser Pro Leu Arg Gln Asn Pro
435 440 445
Glu Ser Ser Leu Ser Thr Gly Gly Ala Tyr Ala Ala Asp
450 455 460
<210> 10
<211> 167
<212> PRT
<213> 人工序列
<220>
<223> Klebsiella sp. RCB570
<400> 10
Met Pro Pro Leu Asp Trp Leu Arg Arg Leu Trp Leu Leu Tyr His Ala
1 5 10 15
Gly Lys Gly Ser Phe Pro Leu Arg Met Gly Leu Ser Pro Arg Asp Trp
20 25 30
Gln Ala Leu Arg Arg Arg Leu Gly Glu Val Glu Thr Pro Leu Asp Gly
35 40 45
Glu Thr Leu Thr Arg Arg Arg Leu Met Ala Glu Leu Asn Ala Thr Arg
50 55 60
Glu Glu Glu Arg Gln Gln Leu Gly Ala Trp Leu Ala Gly Trp Met Gln
65 70 75 80
Gln Asp Ala Gly Pro Met Ala Gln Ile Ile Ala Glu Val Ser Leu Ala
85 90 95
Phe Asn His Leu Trp Gln Asp Leu Gly Leu Ala Ser Arg Ala Glu Leu
100 105 110
Arg Leu Leu Met Ser Asp Cys Phe Pro Gln Leu Val Val Met Asn Glu
115 120 125
His Asn Met Arg Trp Lys Lys Phe Phe Tyr Arg Gln Arg Cys Leu Leu
130 135 140
Gln Gln Gly Glu Val Ile Cys Arg Ser Pro Ser Cys Asp Glu Cys Trp
145 150 155 160
Glu Arg Ser Ala Cys Phe Glu
165
<210> 11
<211> 400
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 11
Met Lys Gln Val Tyr Leu Asp Asn Asn Ala Thr Thr Arg Leu Asp Pro
1 5 10 15
Met Val Leu Glu Ala Met Met Pro Phe Leu Thr Asp Phe Tyr Gly Asn
20 25 30
Pro Ser Ser Ile His Asp Phe Gly Ile Pro Ala Gln Ala Ala Leu Glu
35 40 45
Arg Ala His Gln Gln Ala Ala Ala Leu Leu Gly Ala Glu Tyr Pro Ser
50 55 60
Glu Ile Ile Phe Thr Ser Cys Ala Thr Glu Ala Thr Ala Thr Ala Ile
65 70 75 80
Ala Ser Ala Ile Ala Leu Leu Pro Glu Arg Arg Glu Ile Ile Thr Ser
85 90 95
Val Val Glu His Pro Ala Thr Leu Ala Ala Cys Glu His Met Glu Arg
100 105 110
Glu Gly Tyr Arg Ile His Arg Ile Ala Val Asp Gly Glu Gly Ala Leu
115 120 125
Asp Met Ala Gln Phe Arg Ala Ala Leu Ser Pro Arg Val Ala Leu Val
130 135 140
Ser Val Met Trp Ala Asn Asn Glu Thr Gly Val Leu Phe Pro Ile Gly
145 150 155 160
Glu Met Ala Glu Leu Ala His Glu Gln Gly Ala Leu Phe His Cys Asp
165 170 175
Ala Val Gln Val Val Gly Lys Ile Pro Ile Ala Val Gly Gln Thr Arg
180 185 190
Ile Asp Met Leu Ser Cys Ser Ala His Lys Phe His Gly Pro Lys Gly
195 200 205
Val Gly Cys Leu Tyr Leu Arg Arg Gly Thr Arg Phe Arg Pro Leu Leu
210 215 220
Arg Gly Gly His Gln Glu Tyr Gly Arg Arg Ala Gly Thr Glu Asn Ile
225 230 235 240
Cys Gly Ile Val Gly Met Gly Ala Ala Cys Glu Leu Ala Asn Ile His
245 250 255
Leu Pro Gly Met Thr His Ile Gly Gln Leu Arg Asn Arg Leu Glu His
260 265 270
Arg Leu Leu Ala Ser Val Pro Ser Val Met Val Met Gly Gly Gly Gln
275 280 285
Pro Ala Val Pro Gly Thr Val Asn Leu Ala Phe Glu Phe Ile Glu Gly
290 295 300
Glu Ala Ile Leu Leu Leu Leu Asn Gln Ala Gly Ile Ala Ala Ser Ser
305 310 315 320
Gly Ser Ala Cys Thr Ser Gly Ser Leu Glu Pro Ser His Val Met Arg
325 330 335
Ala Met Asn Ile Pro Tyr Thr Ala Ala His Gly Thr Ile Arg Phe Ser
340 345 350
Leu Ser Arg Tyr Thr Arg Glu Lys Glu Ile Asp Tyr Val Val Ala Thr
355 360 365
Leu Pro Pro Ile Ile Asp Arg Leu Arg Ala Leu Ser Pro Tyr Trp Gln
370 375 380
Asn Gly Lys Pro Arg Pro Ala Asp Ala Val Phe Thr Pro Val Tyr Gly
385 390 395 400
<210> 12
<211> 274
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 12
Met Trp Asn Tyr Ser Glu Lys Val Lys Asp His Phe Phe Asn Pro Arg
1 5 10 15
Asn Ala Arg Val Val Asp Asn Ala Asn Ala Val Gly Asp Val Gly Ser
20 25 30
Leu Ser Cys Gly Asp Ala Leu Arg Leu Met Leu Arg Val Asp Pro Gln
35 40 45
Ser Glu Ile Ile Glu Glu Ala Gly Phe Gln Thr Phe Gly Cys Gly Ser
50 55 60
Ala Ile Ala Ser Ser Ser Ala Leu Thr Glu Leu Ile Ile Gly His Thr
65 70 75 80
Leu Ala Glu Ala Gly Gln Ile Thr Asn Gln Gln Ile Ala Asp Tyr Leu
85 90 95
Asp Gly Leu Pro Pro Glu Lys Met His Cys Ser Val Met Gly Gln Glu
100 105 110
Ala Leu Arg Ala Ala Ile Ala Asn Phe Arg Gly Glu Ser Leu Glu Glu
115 120 125
Glu His Asp Glu Gly Lys Leu Ile Cys Lys Cys Phe Gly Val Asp Glu
130 135 140
Gly His Ile Arg Arg Ala Val Gln Asn Asn Gly Leu Thr Thr Leu Ala
145 150 155 160
Glu Val Ile Asn Tyr Thr Lys Ala Gly Gly Gly Cys Thr Ser Cys His
165 170 175
Glu Lys Ile Glu Leu Ala Leu Ala Glu Ile Leu Ala Gln Gln Pro Gln
180 185 190
Thr Thr Pro Ala Val Ala Ser Gly Lys Asp Pro His Trp Gln Ser Val
195 200 205
Val Asp Thr Ile Ala Glu Leu Arg Pro His Ile Gln Ala Asp Gly Gly
210 215 220
Asp Met Ala Leu Leu Ser Val Thr Asn His Gln Val Thr Val Ser Leu
225 230 235 240
Ser Gly Ser Cys Ser Gly Cys Met Met Thr Asp Met Thr Leu Ala Trp
245 250 255
Leu Gln Gln Lys Leu Met Glu Arg Thr Gly Cys Tyr Met Glu Val Val
260 265 270
Ala Ala
<210> 13
<211> 381
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 13
Met Glu Arg Val Leu Ile Asn Asp Thr Thr Leu Arg Asp Gly Glu Gln
1 5 10 15
Ser Pro Gly Val Ala Phe Arg Thr Ser Glu Lys Val Ala Ile Ala Glu
20 25 30
Ala Leu Tyr Ala Ala Gly Ile Thr Ala Met Glu Val Gly Thr Pro Ala
35 40 45
Met Gly Asp Glu Glu Ile Ala Arg Ile Gln Leu Val Arg Arg Gln Leu
50 55 60
Pro Asp Ala Thr Leu Met Thr Trp Cys Arg Met Asn Ala Leu Glu Ile
65 70 75 80
Arg Gln Ser Ala Asp Leu Gly Ile Asp Trp Val Asp Ile Ser Ile Pro
85 90 95
Ala Ser Asp Lys Leu Arg Gln Tyr Lys Leu Arg Glu Pro Leu Ala Val
100 105 110
Leu Leu Glu Arg Leu Ala Met Phe Ile His Leu Ala His Thr Leu Gly
115 120 125
Leu Lys Val Cys Ile Gly Cys Glu Asp Ala Ser Arg Ala Ser Gly Gln
130 135 140
Thr Leu Arg Ala Ile Ala Glu Val Ala Gln Asn Ala Pro Ala Ala Arg
145 150 155 160
Leu Arg Tyr Ala Asp Thr Val Gly Leu Leu Asp Pro Phe Thr Thr Ala
165 170 175
Ala Gln Ile Ser Ala Leu Arg Asp Val Trp Ser Gly Glu Ile Glu Met
180 185 190
His Ala His Asn Asp Leu Gly Met Ala Thr Ala Asn Thr Leu Ala Ala
195 200 205
Val Ser Ala Gly Ala Thr Ser Val Asn Thr Thr Val Leu Gly Leu Gly
210 215 220
Glu Arg Ala Gly Asn Ala Ala Ala Trp Lys Pro Ser Ala Leu Gly Leu
225 230 235 240
Glu Arg Cys Leu Gly Val Glu Thr Gly Val His Phe Ser Ala Leu Pro
245 250 255
Ala Leu Cys Gln Arg Val Ala Glu Ala Ala Gln Arg Ala Ile Asp Pro
260 265 270
Gln Gln Pro Leu Val Gly Glu Leu Val Phe Thr His Glu Ser Gly Val
275 280 285
His Val Ala Ala Leu Leu Arg Asp Ser Glu Ser Tyr Gln Ser Ile Ala
290 295 300
Pro Ser Leu Met Gly Arg Ser Tyr Arg Leu Val Leu Gly Lys His Ser
305 310 315 320
Gly Arg Gln Ala Val Asn Gly Val Phe Asp Gln Met Gly Tyr His Leu
325 330 335
Asn Ala Ala Gln Ile Asn Gln Leu Leu Pro Ala Ile Arg Arg Phe Ala
340 345 350
Glu Asn Trp Lys Arg Ser Pro Lys Asp Tyr Glu Leu Val Ala Ile Tyr
355 360 365
Asp Glu Leu Cys Gly Glu Ser Ala Leu Arg Ala Arg Gly
370 375 380
<210> 14
<211> 156
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 14
Met Pro Pro Ile Asn Arg Gln Phe Asp Met Val His Ser Asp Glu Trp
1 5 10 15
Ser Met Lys Val Ala Phe Ala Ser Ser Asp Tyr Arg His Val Asp Gln
20 25 30
His Phe Gly Ala Thr Pro Arg Leu Val Val Tyr Gly Val Lys Ala Asp
35 40 45
Arg Val Thr Leu Ile Arg Val Val Asp Phe Ser Val Glu Asn Gly His
50 55 60
Gln Thr Glu Lys Ile Ala Arg Arg Ile His Ala Leu Glu Asp Cys Val
65 70 75 80
Thr Leu Phe Cys Val Ala Ile Gly Asp Ala Val Phe Arg Gln Leu Leu
85 90 95
Gln Val Gly Val Arg Ala Glu Arg Val Pro Ala Asp Thr Thr Ile Val
100 105 110
Gly Leu Leu Gln Glu Ile Gln Leu Tyr Trp Tyr Asp Lys Gly Gln Arg
115 120 125
Lys Asn Gln Arg Gln Arg Asp Pro Glu Arg Phe Thr Arg Leu Leu Gln
130 135 140
Glu Gln Glu Trp His Gly Asp Pro Asp Pro Arg Arg
145 150 155
<210> 15
<211> 220
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 15
Met Ser Asp Asn Asp Thr Leu Phe Trp Arg Met Leu Ala Leu Phe Gln
1 5 10 15
Ser Leu Pro Asp Leu Gln Pro Ala Gln Ile Val Asp Trp Leu Ala Gln
20 25 30
Glu Ser Gly Glu Thr Leu Thr Pro Glu Arg Leu Ala Thr Leu Thr Gln
35 40 45
Pro Gln Leu Ala Ala Ser Phe Pro Ser Ala Thr Ala Val Met Ser Pro
50 55 60
Ala Arg Trp Ser Arg Val Met Ala Ser Leu Gln Gly Ala Leu Pro Ala
65 70 75 80
His Leu Arg Ile Val Arg Pro Ala Gln Arg Thr Pro Gln Leu Leu Ala
85 90 95
Ala Phe Cys Ser Gln Asp Gly Leu Val Ile Asn Gly His Phe Gly Gln
100 105 110
Gly Arg Leu Phe Phe Ile Tyr Ala Phe Asp Glu Gln Gly Gly Trp Leu
115 120 125
Tyr Asp Leu Arg Arg Tyr Pro Ser Ala Pro His Gln Gln Glu Ala Asn
130 135 140
Glu Val Arg Ala Arg Leu Ile Glu Asp Cys Gln Leu Leu Phe Cys Gln
145 150 155 160
Glu Ile Gly Gly Pro Ala Ala Ala Arg Pro Ile Arg His Arg Ile His
165 170 175
Pro Met Lys Ala Gln Pro Gly Thr Thr Ile Gln Ala Gln Cys Glu Ala
180 185 190
Ile Asn Thr Leu Leu Ala Gly Arg Leu Pro Pro Trp Leu Ala Lys Arg
195 200 205
Leu Asn Arg Asp Asn Pro Leu Glu Glu Arg Val Phe
210 215 220
<210> 16
<211> 148
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 16
Met Arg Pro Lys Phe Thr Phe Ser Glu Glu Val Arg Val Val Arg Ala
1 5 10 15
Ile Arg Asn Asp Gly Thr Val Ala Gly Phe Ala Pro Gly Ala Leu Leu
20 25 30
Val Arg Arg Gly Ser Thr Gly Phe Val Arg Asp Trp Gly Val Phe Leu
35 40 45
Gln Asp Gln Ile Ile Tyr Gln Ile His Phe Pro Glu Thr Asp Arg Ile
50 55 60
Ile Gly Cys Arg Glu Gln Glu Leu Ile Pro Ile Thr Gln Pro Trp Leu
65 70 75 80
Ala Gly Asn Leu Gln Tyr Arg Asp Ser Val Thr Cys Gln Met Ala Leu
85 90 95
Ala Val Asn Gly Asp Val Val Val Ser Ala Gly Gln Arg Gly Arg Val
100 105 110
Glu Ala Thr Asp Arg Gly Glu Leu Gly Asp Ser Tyr Thr Val Asp Phe
115 120 125
Ser Gly Arg Trp Phe Arg Val Pro Val Gln Ala Ile Ala Leu Ile Glu
130 135 140
Glu Arg Glu Glu
145
<210> 17
<211> 88
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 17
Met Met Glu Trp Phe Tyr Gln Ile Pro Gly Val Asp Glu Leu Arg Ser
1 5 10 15
Ala Glu Ser Phe Phe Gln Phe Phe Ala Val Pro Tyr Gln Pro Glu Leu
20 25 30
Leu Gly Arg Cys Ser Leu Pro Val Leu Ala Thr Phe His Arg Lys Leu
35 40 45
Arg Ala Glu Val Pro Leu Gln Asn Arg Leu Glu Asp Asn Asp Arg Ala
50 55 60
Pro Trp Leu Leu Ala Arg Arg Leu Leu Ala Glu Ser Tyr Gln Gln Gln
65 70 75 80
Phe Gln Glu Ser Gly Thr Gly Gly
85
<210> 18
<211> 483
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 18
Met Met Thr Asn Ala Thr Gly Glu Arg Asn Leu Ala Leu Ile Gln Glu
1 5 10 15
Val Leu Glu Val Phe Pro Glu Thr Ala Arg Lys Glu Arg Arg Lys His
20 25 30
Met Met Val Ser Asp Pro Glu Met Glu Ser Val Gly Lys Cys Ile Ile
35 40 45
Ser Asn Arg Lys Ser Gln Pro Gly Val Met Thr Val Arg Gly Cys Ala
50 55 60
Tyr Ala Gly Ser Lys Gly Val Val Phe Gly Pro Ile Lys Asp Met Ala
65 70 75 80
His Ile Ser His Gly Pro Val Gly Cys Gly Gln Tyr Ser Arg Ala Gly
85 90 95
Arg Arg Asn Tyr Tyr Thr Gly Val Ser Gly Val Asp Ser Phe Gly Thr
100 105 110
Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg Asp Ile Val Phe Gly Gly
115 120 125
Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu Met Glu Leu Leu Phe Pro
130 135 140
Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu Cys Pro Val Gly Leu Ile
145 150 155 160
Gly Asp Asp Ile Ser Ala Val Ala Asn Ala Ser Ser Lys Ala Leu Asp
165 170 175
Lys Pro Val Ile Pro Val Arg Cys Glu Gly Phe Arg Gly Val Ser Gln
180 185 190
Ser Leu Gly His His Ile Ala Asn Asp Val Val Arg Asp Trp Ile Leu
195 200 205
Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr Thr Pro Tyr Asp Val Ala
210 215 220
Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala Trp Ala Ser Arg Ile
225 230 235 240
Leu Leu Glu Glu Met Gly Leu Arg Val Val Ala Gln Trp Ser Gly Asp
245 250 255
Gly Thr Leu Val Glu Met Glu Asn Thr Pro Phe Val Lys Leu Asn Leu
260 265 270
Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ala Arg His Met Glu Glu
275 280 285
Lys His Gln Ile Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Thr Lys
290 295 300
Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp Gln Phe Asp Asp Thr Ile
305 310 315 320
Arg Ala Asn Ala Glu Ala Val Ile Ala Arg Tyr Glu Gly Gln Met Ala
325 330 335
Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu Glu Gly Arg Lys Val Leu
340 345 350
Leu Tyr Met Gly Gly Leu Arg Pro Arg His Val Ile Gly Ala Tyr Glu
355 360 365
Asp Leu Gly Met Glu Ile Ile Ala Ala Gly Tyr Glu Phe Ala His Asn
370 375 380
Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu Lys Glu Gly Thr Leu Leu
385 390 395 400
Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu Ala Phe Val Lys Ala Leu
405 410 415
Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu Lys Tyr Ile Phe Gln
420 425 430
Lys Met Gly Val Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly
435 440 445
Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp
450 455 460
Met Thr Leu Asn Asn Pro Ala Trp Asn Glu Leu Thr Ala Pro Trp Leu
465 470 475 480
Lys Ser Ala
<210> 19
<211> 400
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 19
Met Lys Gln Val Tyr Leu Asp Asn Asn Ala Thr Thr Arg Leu Asp Pro
1 5 10 15
Met Val Leu Glu Ala Met Met Pro Phe Leu Thr Asp Phe Tyr Gly Asn
20 25 30
Pro Ser Ser Ile His Asp Phe Gly Ile Pro Ala Gln Ala Ala Leu Glu
35 40 45
Arg Ala His Gln Gln Ala Ala Ala Leu Leu Gly Ala Glu Tyr Pro Ser
50 55 60
Glu Ile Ile Phe Thr Ser Cys Ala Thr Glu Ala Thr Ala Thr Ala Ile
65 70 75 80
Ala Ser Ala Ile Ala Leu Leu Pro Glu Arg Arg Glu Ile Ile Thr Ser
85 90 95
Val Val Glu His Pro Ala Thr Leu Ala Ala Cys Glu His Leu Glu Arg
100 105 110
Gln Gly Tyr Arg Ile His Arg Ile Ala Val Asp Ser Glu Gly Ala Leu
115 120 125
Asp Met Ala Gln Phe Arg Ala Ala Leu Ser Pro Arg Val Ala Leu Val
130 135 140
Ser Val Met Trp Ala Asn Asn Glu Thr Gly Val Leu Phe Pro Ile Gly
145 150 155 160
Glu Met Ala Glu Leu Ala His Glu Gln Gly Ala Leu Phe His Cys Asp
165 170 175
Ala Val Gln Val Val Gly Lys Ile Pro Ile Ala Val Gly Gln Thr Arg
180 185 190
Ile Asp Met Leu Ser Cys Ser Ala His Lys Phe His Gly Pro Lys Gly
195 200 205
Val Gly Cys Leu Tyr Leu Arg Arg Gly Thr Arg Phe Arg Pro Leu Leu
210 215 220
Arg Gly Gly His Gln Glu Tyr Gly Arg Arg Ala Gly Thr Glu Asn Ile
225 230 235 240
Cys Gly Ile Val Gly Met Gly Ala Ala Cys Glu Leu Ala Asn Ile His
245 250 255
Leu Pro Gly Met Thr His Ile Gly Gln Leu Arg Asn Arg Leu Glu His
260 265 270
Arg Leu Leu Ala Ser Val Pro Ser Val Met Val Met Gly Gly Gly Gln
275 280 285
Pro Arg Val Pro Gly Thr Val Asn Leu Ala Phe Glu Phe Ile Glu Gly
290 295 300
Glu Ala Ile Leu Leu Leu Leu Asn Gln Ala Gly Ile Ala Ala Ser Ser
305 310 315 320
Gly Ser Ala Cys Thr Ser Gly Ser Leu Glu Pro Ser His Val Met Arg
325 330 335
Ala Met Asn Ile Pro Tyr Thr Ala Ala His Gly Thr Ile Arg Phe Ser
340 345 350
Leu Ser Arg Tyr Thr Arg Glu Lys Glu Ile Asp Tyr Val Val Ala Thr
355 360 365
Leu Pro Pro Ile Ile Asp Arg Leu Arg Ala Leu Ser Pro Tyr Trp Gln
370 375 380
Asn Gly Lys Pro Arg Pro Ala Asp Ala Val Phe Thr Pro Val Tyr Gly
385 390 395 400
<210> 20
<211> 80
<212> PRT
<213> 人工序列
<220>
<223> N端延伸区的氨基酸序列包含pFAγMTP(氨基酸1-77)和氨基酸三联体GAP(78-80)
MPP切割发生在氨基酸残基42和43之间
<400> 20
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Met Lys Ser Val Lys Asn Ile Gln Lys Ile Thr Lys Ala
50 55 60
Met Lys Met Val Ala Ala Ser Lys Leu Arg Ala Val Gln Gly Ala Pro
65 70 75 80
<210> 21
<211> 54
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51多肽的氨基酸序列具有附加的N端和C端GG
MPP切割发生在氨基酸残基43和44之间
<400> 21
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly
50
<210> 22
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> FAv-scar9多肽的氨基酸序列
<400> 22
Ile Ser Thr Gln Val Val Arg Asn Arg
1 5
<210> 23
<211> 389
<212> PRT
<213> 人工序列
<220>
<223> pRA10编码的MTP-FAγ77::NifH::HA融合多肽的氨基酸序列
氨基酸1-77对应于MTP-FAγ77,氨基酸78-80为GAP,氨基酸81-372为产酸克雷伯氏杆菌NifH氨基酸)以及氨基酸373-389包括HA
<400> 23
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Met Lys Ser Val Lys Asn Ile Gln Lys Ile Thr Lys Ala
50 55 60
Met Lys Met Val Ala Ala Ser Lys Leu Arg Ala Val Gln Gly Ala Pro
65 70 75 80
Thr Met Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser
85 90 95
Thr Thr Thr Gln Asn Leu Val Ala Ala Leu Ala Glu Met Gly Lys Lys
100 105 110
Val Met Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile
115 120 125
Leu His Ala Lys Ala Gln Asn Thr Ile Met Glu Met Ala Ala Glu Val
130 135 140
Gly Ser Val Glu Asp Leu Glu Leu Glu Asp Val Leu Gln Ile Gly Tyr
145 150 155 160
Gly Asp Val Arg Cys Ala Glu Ser Gly Gly Pro Glu Pro Gly Val Gly
165 170 175
Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu Glu
180 185 190
Gly Ala Tyr Glu Asp Asp Leu Asp Phe Val Phe Tyr Asp Val Leu Gly
195 200 205
Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala
210 215 220
Gln Glu Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr Ala
225 230 235 240
Ala Asn Asn Ile Ser Lys Gly Ile Val Lys Tyr Ala Lys Ser Gly Lys
245 250 255
Val Arg Leu Gly Gly Leu Ile Cys Asn Ser Arg Gln Thr Asp Arg Glu
260 265 270
Asp Glu Leu Ile Ile Ala Leu Ala Glu Lys Leu Gly Thr Gln Met Ile
275 280 285
His Phe Val Pro Arg Asp Asn Ile Val Gln Arg Ala Glu Ile Arg Arg
290 295 300
Met Thr Val Ile Glu Tyr Asp Pro Ala Cys Lys Gln Ala Asn Glu Tyr
305 310 315 320
Arg Thr Leu Ala Gln Lys Ile Val Asn Asn Thr Met Lys Val Val Pro
325 330 335
Thr Pro Cys Thr Met Asp Glu Leu Glu Ser Leu Leu Met Glu Phe Gly
340 345 350
Ile Met Glu Glu Glu Asp Thr Ser Ile Ile Gly Lys Thr Ala Ala Glu
355 360 365
Glu Asn Ala Ala Ala Gly Gly Gly Gly Gly Tyr Pro Tyr Asp Val Pro
370 375 380
Asp Tyr Ala Pro Gly
385
<210> 24
<211> 363
<212> PRT
<213> 人工序列
<220>
<223> pRA34编码的MTP-FAγ51::NifH::HA融合多肽的氨基酸序列
氨基酸1-51对应于MTP-FAγ51,氨基酸52-54为GAP,氨基酸55-34为产酸克雷伯氏杆菌NifH氨基酸以及氨基酸347-363包括HA
<400> 24
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Ala Pro Thr Met Arg Gln Cys Ala Ile Tyr Gly Lys
50 55 60
Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln Asn Leu Val Ala Ala Leu
65 70 75 80
Ala Glu Met Gly Lys Lys Val Met Ile Val Gly Cys Asp Pro Lys Ala
85 90 95
Asp Ser Thr Arg Leu Ile Leu His Ala Lys Ala Gln Asn Thr Ile Met
100 105 110
Glu Met Ala Ala Glu Val Gly Ser Val Glu Asp Leu Glu Leu Glu Asp
115 120 125
Val Leu Gln Ile Gly Tyr Gly Asp Val Arg Cys Ala Glu Ser Gly Gly
130 135 140
Pro Glu Pro Gly Val Gly Cys Ala Gly Arg Gly Val Ile Thr Ala Ile
145 150 155 160
Asn Phe Leu Glu Glu Glu Gly Ala Tyr Glu Asp Asp Leu Asp Phe Val
165 170 175
Phe Tyr Asp Val Leu Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro
180 185 190
Ile Arg Glu Asn Lys Ala Gln Glu Ile Tyr Ile Val Cys Ser Gly Glu
195 200 205
Met Met Ala Met Tyr Ala Ala Asn Asn Ile Ser Lys Gly Ile Val Lys
210 215 220
Tyr Ala Lys Ser Gly Lys Val Arg Leu Gly Gly Leu Ile Cys Asn Ser
225 230 235 240
Arg Gln Thr Asp Arg Glu Asp Glu Leu Ile Ile Ala Leu Ala Glu Lys
245 250 255
Leu Gly Thr Gln Met Ile His Phe Val Pro Arg Asp Asn Ile Val Gln
260 265 270
Arg Ala Glu Ile Arg Arg Met Thr Val Ile Glu Tyr Asp Pro Ala Cys
275 280 285
Lys Gln Ala Asn Glu Tyr Arg Thr Leu Ala Gln Lys Ile Val Asn Asn
290 295 300
Thr Met Lys Val Val Pro Thr Pro Cys Thr Met Asp Glu Leu Glu Ser
305 310 315 320
Leu Leu Met Glu Phe Gly Ile Met Glu Glu Glu Asp Thr Ser Ile Ile
325 330 335
Gly Lys Thr Ala Ala Glu Glu Asn Ala Ala Ala Gly Gly Gly Gly Gly
340 345 350
Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Pro Gly
355 360
<210> 25
<211> 358
<212> PRT
<213> 人工序列
<220>
<223> SN18编码的MTP-FAγ51::NifH::HA融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51,氨基酸55-347为产酸克雷伯氏杆菌NifH氨基酸以及氨基酸348-358包括HA表位
<400> 25
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Thr Met Arg Gln Cys Ala Ile Tyr Gly
50 55 60
Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln Asn Leu Val Ala Ala
65 70 75 80
Leu Ala Glu Met Gly Lys Lys Val Met Ile Val Gly Cys Asp Pro Lys
85 90 95
Ala Asp Ser Thr Arg Leu Ile Leu His Ala Lys Ala Gln Asn Thr Ile
100 105 110
Met Glu Met Ala Ala Glu Val Gly Ser Val Glu Asp Leu Glu Leu Glu
115 120 125
Asp Val Leu Gln Ile Gly Tyr Gly Asp Val Arg Cys Ala Glu Ser Gly
130 135 140
Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg Gly Val Ile Thr Ala
145 150 155 160
Ile Asn Phe Leu Glu Glu Glu Gly Ala Tyr Glu Asp Asp Leu Asp Phe
165 170 175
Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys Gly Gly Phe Ala Met
180 185 190
Pro Ile Arg Glu Asn Lys Ala Gln Glu Ile Tyr Ile Val Cys Ser Gly
195 200 205
Glu Met Met Ala Met Tyr Ala Ala Asn Asn Ile Ser Lys Gly Ile Val
210 215 220
Lys Tyr Ala Lys Ser Gly Lys Val Arg Leu Gly Gly Leu Ile Cys Asn
225 230 235 240
Ser Arg Gln Thr Asp Arg Glu Asp Glu Leu Ile Ile Ala Leu Ala Glu
245 250 255
Lys Leu Gly Thr Gln Met Ile His Phe Val Pro Arg Asp Asn Ile Val
260 265 270
Gln Arg Ala Glu Ile Arg Arg Met Thr Val Ile Glu Tyr Asp Pro Ala
275 280 285
Cys Lys Gln Ala Asn Glu Tyr Arg Thr Leu Ala Gln Lys Ile Val Asn
290 295 300
Asn Thr Met Lys Val Val Pro Thr Pro Cys Thr Met Asp Glu Leu Glu
305 310 315 320
Ser Leu Leu Met Glu Phe Gly Ile Met Glu Glu Glu Asp Thr Ser Ile
325 330 335
Ile Gly Lys Thr Ala Ala Glu Glu Asn Ala Ala Gly Gly Tyr Pro Tyr
340 345 350
Asp Val Pro Asp Tyr Ala
355
<210> 26
<211> 371
<212> PRT
<213> 人工序列
<220>
<223> SN29编码的MTP-FAγ51::HA::NifH融合多肽的氨基酸序列
氨基酸1-53对应于含GG的MTP-FAγ51,氨基酸54-64包括HA表位,氨基酸65-357对应于产酸克雷伯氏杆菌NifH以及氨基酸358-371
<400> 26
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Thr Met Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys
65 70 75 80
Ser Thr Thr Thr Gln Asn Leu Val Ala Ala Leu Ala Glu Met Gly Lys
85 90 95
Lys Val Met Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
100 105 110
Ile Leu His Ala Lys Ala Gln Asn Thr Ile Met Glu Met Ala Ala Glu
115 120 125
Val Gly Ser Val Glu Asp Leu Glu Leu Glu Asp Val Leu Gln Ile Gly
130 135 140
Tyr Gly Asp Val Arg Cys Ala Glu Ser Gly Gly Pro Glu Pro Gly Val
145 150 155 160
Gly Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu
165 170 175
Glu Gly Ala Tyr Glu Asp Asp Leu Asp Phe Val Phe Tyr Asp Val Leu
180 185 190
Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys
195 200 205
Ala Gln Glu Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr
210 215 220
Ala Ala Asn Asn Ile Ser Lys Gly Ile Val Lys Tyr Ala Lys Ser Gly
225 230 235 240
Lys Val Arg Leu Gly Gly Leu Ile Cys Asn Ser Arg Gln Thr Asp Arg
245 250 255
Glu Asp Glu Leu Ile Ile Ala Leu Ala Glu Lys Leu Gly Thr Gln Met
260 265 270
Ile His Phe Val Pro Arg Asp Asn Ile Val Gln Arg Ala Glu Ile Arg
275 280 285
Arg Met Thr Val Ile Glu Tyr Asp Pro Ala Cys Lys Gln Ala Asn Glu
290 295 300
Tyr Arg Thr Leu Ala Gln Lys Ile Val Asn Asn Thr Met Lys Val Val
305 310 315 320
Pro Thr Pro Cys Thr Met Asp Glu Leu Glu Ser Leu Leu Met Glu Phe
325 330 335
Gly Ile Met Glu Glu Glu Asp Thr Ser Ile Ile Gly Lys Thr Ala Ala
340 345 350
Glu Glu Asn Ala Ala Ala Ser Leu Ala Arg Val Asp Arg Gln Ala Arg
355 360 365
Val Ser Pro
370
<210> 27
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 使用6xHis序列代替MTP,具有N端Met和C端GG
<400> 27
Met His His His His His His Gly Gly
1 5
<210> 28
<211> 33
<212> PRT
<213> 人工序列
<220>
<223> CPN60 MTP的氨基酸序列
<400> 28
Met Tyr Arg Phe Ala Ser Asn Leu Ala Ser Lys Ala Arg Ile Ala Gln
1 5 10 15
Asn Ala Arg Gln Val Ser Ser Arg Met Ser Trp Ser Arg Asn Tyr Gly
20 25 30
Gly
<210> 29
<211> 31
<212> PRT
<213> 人工序列
<220>
<223> CPN60/无GG接头 MTP的氨基酸序列
<400> 29
Met Tyr Arg Phe Ala Ser Asn Leu Ala Ser Lys Ala Arg Ile Ala Gln
1 5 10 15
Asn Ala Arg Gln Val Ser Ser Arg Met Ser Trp Ser Arg Asn Tyr
20 25 30
<210> 30
<211> 31
<212> PRT
<213> 人工序列
<220>
<223> 超氧化物歧化酶(SOD) MTP的氨基酸序列
<400> 30
Met Ala Ile Arg Cys Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys
1 5 10 15
Glu Thr Ser Ser Arg Leu Leu Arg Ile Arg Gly Ile Gln Gly Gly
20 25 30
<210> 31
<211> 60
<212> PRT
<213> 人工序列
<220>
<223> 超氧化物歧化酶加倍的(2SOD)MTP的氨基酸序列
<400> 31
Met Ala Ile Arg Cys Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys
1 5 10 15
Glu Thr Ser Ser Arg Leu Leu Arg Ile Arg Gly Ile Gln Met Ala Ile
20 25 30
Arg Cys Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys Glu Thr Ser
35 40 45
Ser Arg Leu Leu Arg Ile Arg Gly Ile Gln Gly Gly
50 55 60
<210> 32
<211> 29
<212> PRT
<213> 人工序列
<220>
<223> 超氧化物歧化酶修饰的(SODmod) MTP的氨基酸序列
<400> 32
Met Ala Ile Arg Cys Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys
1 5 10 15
Glu Thr Ser Ser Arg Leu Leu Arg Ile Arg Gly Gly Gly
20 25
<210> 33
<211> 56
<212> PRT
<213> 人工序列
<220>
<223> MTP 超氧化物歧化酶修饰(2SODmod) 加倍的MTP的氨基酸序列
<400> 33
Met Ala Ile Arg Cys Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys
1 5 10 15
Glu Thr Ser Ser Arg Leu Leu Arg Ile Arg Gly Met Ala Ile Arg Cys
20 25 30
Val Ala Ser Arg Lys Thr Leu Ala Gly Leu Lys Glu Thr Ser Ser Arg
35 40 45
Leu Leu Arg Ile Arg Gly Gly Gly
50 55
<210> 34
<211> 34
<212> PRT
<213> 人工序列
<220>
<223> L29 MTP (At1G07830)的氨基酸序列
<400> 34
Met Phe Leu Thr Arg Phe Val Gly Arg Arg Phe Leu Ala Ala Ala Ser
1 5 10 15
Ala Arg Ser Glu Ser Thr Thr Ala Ala Ala Ala Ala Ser Thr Ile Arg
20 25 30
Gly Gly
<210> 35
<211> 70
<212> PRT
<213> 粗糙脉孢菌
<400> 35
Met Ala Ser Thr Arg Val Leu Ala Ser Arg Leu Ala Ser Gln Met Ala
1 5 10 15
Ala Ser Ala Lys Val Ala Arg Pro Ala Val Arg Val Ala Gln Val Ser
20 25 30
Lys Arg Thr Ile Gln Thr Gly Ser Pro Leu Gln Thr Leu Lys Arg Thr
35 40 45
Gln Met Thr Ser Ile Val Asn Ala Thr Thr Arg Gln Ala Phe Gln Lys
50 55 60
Arg Ala Tyr Ser Gly Gly
65 70
<210> 36
<211> 53
<212> PRT
<213> 人工序列
<220>
<223> gATPaseγ亚基(FAγ51) MTP的氨基酸序列,不含附加的N端Met
SEQ ID NO:21含有额外的N端Met
MPP切割发生在氨基酸残基42和43之间
<400> 36
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly
50
<210> 37
<211> 61
<212> PRT
<213> 人工序列
<220>
<223> CoxIV twin strep (ABM97483) MTP的氨基酸序列
<400> 37
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly
50 55 60
<210> 38
<211> 43
<212> PRT
<213> 人工序列
<220>
<223> CoxIV 10xHis (ABM97483) MTP的氨基酸序列
<400> 38
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Gly Gly His
20 25 30
His His His His His His His His His Gly Gly
35 40
<210> 39
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 含GG的超氧化物歧化酶(SOD) MTP预测瘢痕(scar)的氨基酸序列
<400> 39
Ile Gln Gly Gly
1
<210> 40
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 含GG的超氧化物歧化酶加倍的(2SOD) MTP的预测瘢痕(scar)的氨基酸序列
<400> 40
Glu Ser Thr Thr Ala Ala Ala Ala Ala Ser Thr Ile Arg Gly Gly
1 5 10 15
<210> 41
<211> 4
<212> PRT
<213> 粗糙脉孢菌
<400> 41
Tyr Ser Gly Gly
1
<210> 42
<211> 11
<212> PRT
<213> 人工序列
<220>
<223> 含GG的gATPaseγ亚基(FAγ51) MTP的预测瘢痕的氨基酸序列
<400> 42
Ile Ser Thr Gln Val Val Arg Asn Arg Gly Gly
1 5 10
<210> 43
<211> 36
<212> PRT
<213> 人工序列
<220>
<223> 含GG的CoxIV twin strep MTP的预测瘢痕的氨基酸序列
<400> 43
Gln Gln Lys Pro Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly
1 5 10 15
Gly Ser Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe
20 25 30
Glu Lys Gly Gly
35
<210> 44
<211> 18
<212> PRT
<213> 人工序列
<220>
<223> GG 含GG的CoxIV 10xHis MTP的预测瘢痕的氨基酸序列
<400> 44
Gln Gln Lys Pro Gly Gly His His His His His His His His His His
1 5 10 15
Gly Gly
<210> 45
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物MIT_V2.1_SbfInifH_FW2
<400> 45
aacctgcagg tgacgtctaa gaaaaggaat attcagcaat 40
<210> 46
<211> 39
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物MIT_V2.1_SbfInifJ_RV2
<400> 46
aacctgcagg gctaactaac taaccacgga caaaaaacc 39
<210> 47
<211> 35
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物MIT_V2.1_SbfInifB_FW
<400> 47
aacctgcagg tactctaacc ccatcggccg tctta 35
<210> 48
<211> 35
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物MIT_V2.1_SbfIori_RV
<400> 48
aacctgcagg tacgtagcaa tcaactcact ggctc 35
<210> 49
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 来自MTP-FAγ51的mscar9氨基酸序列,其N端Ile残基被Met取代用于翻译起始
<400> 49
Met Ser Thr Gln Val Val Arg Asn Arg
1 5
<210> 50
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 胰蛋白酶肽
<400> 50
Ser Thr Gln Val Val Arg
1 5
<210> 51
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 不含N端Met且含C端Met的MTP-FAγ9 scar的氨基酸序列
<400> 51
Ser Thr Gln Val Val Arg Asn Arg Met
1 5
<210> 52
<211> 47
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 52
atgtcaactc aagtggtgcg taaccgcatg acctcttgtt cgtcgtt 47
<210> 53
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 53
tttagccctc ctatgattga tttgatgtat tacagagagg 40
<210> 54
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 54
ggttacgcac cacttgagtt gacattttag ccctcctatg attgatttga tg 52
<210> 55
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 胰蛋白酶肽
<400> 55
Met Ser Thr Gln Val Val Arg
1 5
<210> 56
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 胰蛋白酶肽
<400> 56
Ser Thr Gln Val Val Arg Asn Arg
1 5
<210> 57
<211> 599
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ77::NifK融合多肽(pRA25)的氨基酸序列,不含任何C端延伸区
氨基酸1-77对应于MTP-FAγ77,氨基酸78-80为GAP,以及氨基酸81-599对应于不含起始子的产酸克雷伯氏杆菌NifK
<400> 57
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Met Lys Ser Val Lys Asn Ile Gln Lys Ile Thr Lys Ala
50 55 60
Met Lys Met Val Ala Ala Ser Lys Leu Arg Ala Val Gln Gly Ala Pro
65 70 75 80
Ser Gln Thr Ile Asp Lys Ile Asn Ser Cys Tyr Pro Leu Phe Glu Gln
85 90 95
Asp Glu Tyr Gln Glu Leu Phe Arg Asn Lys Arg Gln Leu Glu Glu Ala
100 105 110
His Asp Ala Gln Arg Val Gln Glu Val Phe Ala Trp Thr Thr Thr Ala
115 120 125
Glu Tyr Glu Ala Leu Asn Phe Arg Arg Glu Ala Leu Thr Val Asp Pro
130 135 140
Ala Lys Ala Cys Gln Pro Leu Gly Ala Val Leu Cys Ser Leu Gly Phe
145 150 155 160
Ala Asn Thr Leu Pro Tyr Val His Gly Ser Gln Gly Cys Val Ala Tyr
165 170 175
Phe Arg Thr Tyr Phe Asn Arg His Phe Lys Glu Pro Ile Ala Cys Val
180 185 190
Ser Asp Ser Met Thr Glu Asp Ala Ala Val Phe Gly Gly Asn Asn Asn
195 200 205
Met Asn Leu Gly Leu Gln Asn Ala Ser Ala Leu Tyr Lys Pro Glu Ile
210 215 220
Ile Ala Val Ser Thr Thr Cys Met Ala Glu Val Ile Gly Asp Asp Leu
225 230 235 240
Gln Ala Phe Ile Ala Asn Ala Lys Lys Asp Gly Phe Val Asp Ser Ser
245 250 255
Ile Ala Val Pro His Ala His Thr Pro Ser Phe Ile Gly Ser His Val
260 265 270
Thr Gly Trp Asp Asn Met Phe Glu Gly Phe Ala Lys Thr Phe Thr Ala
275 280 285
Asp Tyr Gln Gly Gln Pro Gly Lys Leu Pro Lys Leu Asn Leu Val Thr
290 295 300
Gly Phe Glu Thr Tyr Leu Gly Asn Phe Arg Val Leu Lys Arg Met Met
305 310 315 320
Glu Gln Met Ala Val Pro Cys Ser Leu Leu Ser Asp Pro Ser Glu Val
325 330 335
Leu Asp Thr Pro Ala Asp Gly His Tyr Arg Met Tyr Ser Gly Gly Thr
340 345 350
Thr Gln Gln Glu Met Lys Glu Ala Pro Asp Ala Ile Asp Thr Leu Leu
355 360 365
Leu Gln Pro Trp Gln Leu Leu Lys Ser Lys Lys Val Val Gln Glu Met
370 375 380
Trp Asn Gln Pro Ala Thr Glu Val Ala Ile Pro Leu Gly Leu Ala Ala
385 390 395 400
Thr Asp Glu Leu Leu Met Thr Val Ser Gln Leu Ser Gly Lys Pro Ile
405 410 415
Ala Asp Ala Leu Thr Leu Glu Arg Gly Arg Leu Val Asp Met Met Leu
420 425 430
Asp Ser His Thr Trp Leu His Gly Lys Lys Phe Gly Leu Tyr Gly Asp
435 440 445
Pro Asp Phe Val Met Gly Leu Thr Arg Phe Leu Leu Glu Leu Gly Cys
450 455 460
Glu Pro Thr Val Ile Leu Ser His Asn Ala Asn Lys Arg Trp Gln Lys
465 470 475 480
Ala Met Asn Lys Met Leu Asp Ala Ser Pro Tyr Gly Arg Asp Ser Glu
485 490 495
Val Phe Ile Asn Cys Asp Leu Trp His Phe Arg Ser Leu Met Phe Thr
500 505 510
Arg Gln Pro Asp Phe Met Ile Gly Asn Ser Tyr Gly Lys Phe Ile Gln
515 520 525
Arg Asp Thr Leu Ala Lys Gly Lys Ala Phe Glu Val Pro Leu Ile Arg
530 535 540
Leu Gly Phe Pro Leu Phe Asp Arg His His Leu His Arg Gln Thr Thr
545 550 555 560
Trp Gly Tyr Glu Gly Ala Met Asn Ile Val Thr Thr Leu Val Asn Ala
565 570 575
Val Leu Glu Lys Leu Asp Ser Asp Thr Ser Gln Leu Gly Lys Thr Asp
580 585 590
Tyr Ser Phe Asp Leu Val Arg
595
<210> 58
<211> 4
<212> PRT
<213> 产酸克雷伯氏杆菌
<400> 58
Asp Leu Val Arg
1
<210> 59
<211> 60
<212> PRT
<213> 人工序列
<220>
<223> 突变的MTP-FAγ51多肽的氨基酸序列
<400> 59
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Thr Asn Ala Thr
50 55 60
<210> 60
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 60
Val Arg Gly Cys Ala Tyr
1 5
<210> 61
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 61
Arg Ala Gly Arg Arg Asn Tyr Tyr Thr Gly
1 5 10
<210> 62
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 62
Ser Asn Arg Lys Ser
1 5
<210> 63
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 63
Ala Ala Ala Ala Ala
1 5
<210> 64
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 64
Gln Pro Gly Val Met
1 5
<210> 65
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 65
Thr Val Arg Gly Cys
1 5
<210> 66
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 66
Ala Tyr Ala Gly Ser
1 5
<210> 67
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 67
Gly Ala Gly Ala Ala
1 5
<210> 68
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 68
Lys Gly Val Val Phe
1 5
<210> 69
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 69
Gly Pro Ile Lys Asp
1 5
<210> 70
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 70
Thr Val Arg Gly Cys Ala Tyr Ala Gly Ser
1 5 10
<210> 71
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 71
Thr Ala Arg Ala Cys Gly Tyr Gly Gly Ser
1 5 10
<210> 72
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 72
Ala Tyr Ala Gly
1
<210> 73
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 73
Gly Ala Gly Gly
1
<210> 74
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 74
Met Ala His Ile Ser
1 5
<210> 75
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 75
Ala Gly Ala Ala Ala
1 5
<210> 76
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 76
His Gly Pro Val Gly
1 5
<210> 77
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 77
Cys Gly Gln Tyr Ser
1 5
<210> 78
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 78
Arg Ala Gly Arg Arg
1 5
<210> 79
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 79
Asn Tyr Tyr Thr Gly
1 5
<210> 80
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 80
Val Ser Gly Val Asp
1 5
<210> 81
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 81
Arg Ala Gly Arg Arg Asn Tyr Phe Thr Gly
1 5 10
<210> 82
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 82
Arg Ala Gly Arg Arg Asn Tyr Tyr Ala Gly
1 5 10
<210> 83
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 83
Arg Ala Gly Arg Arg Asn Tyr Phe Ala Gly
1 5 10
<210> 84
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 84
Arg Ala Gly Arg Arg Asn Tyr Tyr Ala Ala
1 5 10
<210> 85
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 85
Arg Ala Gly Arg Ala Asn Tyr Tyr Thr Gly
1 5 10
<210> 86
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 86
Arg Ala Gly Arg Arg His Tyr Tyr Thr Gly
1 5 10
<210> 87
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 87
Arg Ala Gly Arg Arg Asn Gln Tyr Thr Gly
1 5 10
<210> 88
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 88
Arg Ala Gly Arg Arg Asn Tyr Thr Thr Gly
1 5 10
<210> 89
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 89
Arg Ala Gly Arg Arg Asn Tyr Tyr Val Gly
1 5 10
<210> 90
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 90
Arg Ala Gly Arg Arg Asn Gln Thr Thr Gly
1 5 10
<210> 91
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 91
Arg Ala Gly Arg Arg His Lys Gly Thr Gly
1 5 10
<210> 92
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 92
Arg Ala Gly Arg Arg Asn Lys Tyr Thr Gly
1 5 10
<210> 93
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 93
Arg Ala Gly Arg Arg Asn Lys Ala Thr Gly
1 5 10
<210> 94
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 94
Arg Ala Gly Arg Arg Asn Tyr Ala Thr Gly
1 5 10
<210> 95
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 95
Arg Ala Gly Arg Lys Asn Tyr Tyr Thr Gly
1 5 10
<210> 96
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 96
Arg Ala Gly Arg Lys Asn Tyr Phe Thr Gly
1 5 10
<210> 97
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 97
Arg Ala Gly Arg Lys Asn Tyr Tyr Ala Gly
1 5 10
<210> 98
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 98
Arg Ala Gly Arg Lys Asn Tyr Phe Ala Gly
1 5 10
<210> 99
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 99
Arg Ala Gly Arg Lys Asn Tyr Ala Ala Gly
1 5 10
<210> 100
<211> 23
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 100
Tyr Tyr Thr Gly Val Ser Gly Val Asp Ser Phe Gly Thr Leu Asn Phe
1 5 10 15
Thr Ser Asp Phe Gln Glu Arg
20
<210> 101
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 101
Arg Arg Asn Tyr
1
<210> 102
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 102
Arg Arg Asn Tyr Tyr
1 5
<210> 103
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 103
Arg Arg Asn Gln
1
<210> 104
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 104
Arg Arg Asn Lys
1
<210> 105
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 105
Arg Arg Asn Gln Thr
1 5
<210> 106
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 106
Arg Arg Phe Lys
1
<210> 107
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 107
Arg Arg Asn Lys Ala
1 5
<210> 108
<211> 56
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 108
ctaatgctac cggtgaacgt aacctggcac tgattcaaga agtactggaa gtgttc 56
<210> 109
<211> 57
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 109
gttacgttca ccggtagcat tagtcatcat ccggctcctc cgctagataa aaatgtg 57
<210> 110
<211> 55
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 110
gtttctggcg tcgactcttt cggcacgctg aacttcacct ctgacttcca ggaac 55
<210> 111
<211> 52
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 111
cgaaagagtc gacgccagaa acgcccgtgt agtagttacg acgtcccgcg cg 52
<210> 112
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 112
gaccaatgct accggtgaga ggaacc 26
<210> 113
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 113
gttaagagtc ccgaaagagt cgacaccag 29
<210> 114
<211> 11
<212> PRT
<213> 人工序列
<220>
<223> 来自红褐肉座菌纤维二糖水解酶II(登录号AAG39980.1)的已知非结构化接头区的11个残基部分的氨基酸序列
<400> 114
Ala Thr Pro Pro Pro Gly Ser Thr Thr Thr Arg
1 5 10
<210> 115
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 9残基HA表位的氨基酸序列
<400> 115
Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
1 5
<210> 116
<211> 30
<212> PRT
<213> 人工序列
<220>
<223> NifD::接头::NifK融合多肽接头的氨基酸序列
<400> 116
Ala Thr Pro Pro Pro Gly Ser Thr Thr Thr Ala Tyr Pro Tyr Asp Val
1 5 10 15
Pro Asp Tyr Ala Thr Pro Pro Pro Gly Ser Thr Thr Thr Ala
20 25 30
<210> 117
<211> 47
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 117
gtcgtaacca atacacgggc gtttctggcg tcgactcttt cggcacg 47
<210> 118
<211> 41
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸引物
<400> 118
gcccgtgtat tggttacgac gtcccgcgcg agagtactgg c 41
<210> 119
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<400> 119
Ile Ser Thr Gln Val Val Arg
1 5
<210> 120
<211> 8
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<400> 120
Ser Ile Ser Thr Gln Val Val Arg
1 5
<210> 121
<211> 603
<212> PRT
<213> 人工序列
<220>
<223> 构建体SN197编码的metaxin融合多肽的氨基酸序列
TwinStrep表位对应于氨基酸1-31,mTurquoise对应于氨基酸32-273,TEV切割位点对应于氨基酸274-282,以及metaxin序列对应于氨基酸
<400> 121
Met Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly
1 5 10 15
Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Met Val
20 25 30
Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu Val Glu
35 40 45
Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly Glu Gly
50 55 60
Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile Cys Thr
65 70 75 80
Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr Leu Ser
85 90 95
Trp Gly Val Gln Cys Phe Ala Arg Tyr Pro Asp His Met Lys Gln His
100 105 110
Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu Arg Thr
115 120 125
Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu Val Lys
130 135 140
Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly Ile Asp
145 150 155 160
Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr Asn Tyr
165 170 175
Phe Ser Asp Asn Val Tyr Ile Thr Ala Asp Lys Gln Lys Asn Gly Ile
180 185 190
Lys Ala Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Gly Val Gln
195 200 205
Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly Pro Val
210 215 220
Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Lys Leu Ser Lys
225 230 235 240
Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe Val Thr
245 250 255
Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys Gly Gly Gly
260 265 270
Gly Glu Asn Leu Tyr Phe Gln Gly Gly Gly Met Glu Glu Ala Lys Glu
275 280 285
Arg Glu Lys Leu Thr Leu Val Thr Arg Lys Ser Ser Phe Gly Leu Pro
290 295 300
Thr Ser Cys Pro Asn Cys Leu Pro Val Tyr Leu Tyr Leu Lys Phe Ser
305 310 315 320
Lys Thr Pro Phe Asp Leu Ala Phe Asn Leu Ile Asn Pro Asp Phe Gly
325 330 335
Gln Ile Pro Tyr Val Glu Ser Gly Thr Tyr Val Ala Tyr Asn Asn Glu
340 345 350
Lys Gly Gly Val Ile Arg Ser Leu Ile Glu Asp Gly Phe Val Asp Leu
355 360 365
Asp Ser Gln Val His Gly Ile Pro Glu Trp Val Ser Thr Lys Ala Met
370 375 380
Val Asp Ser Trp Leu Ala Asp Ala Ile Leu Tyr Glu Leu Trp Val Gly
385 390 395 400
Ser Asp Gly Ser Ser Ala His Lys Ile Tyr Phe Ser Asp Leu Pro Trp
405 410 415
Pro Leu Gly Lys Leu Leu Tyr Leu Lys Gln Val His Val Ala Lys Gln
420 425 430
Ile Leu Asp Ile Thr Lys Asp Asn Ala Glu Arg Arg Glu Glu Glu Ile
435 440 445
Tyr Arg Asn Ala Asn Asp Ala Phe Ser Ala Leu Ser Thr Arg Leu Gly
450 455 460
Glu Gln Ala Tyr Leu Phe Asp Asn Arg Pro Thr Ser Leu Asp Ala Val
465 470 475 480
Phe Leu Gly His Ala Leu Phe Thr Leu Tyr Ala Leu Pro Glu Asn Ser
485 490 495
Val Leu Arg Asn Lys Leu Leu Glu His Asp Asn Leu Val Arg Tyr Thr
500 505 510
Glu Lys His Lys Leu Glu Leu Val Asp Ser Ser Ala Ser Ser Ser Ser
515 520 525
Gly Thr Gln Ser Gln Ser Asp Pro Ser Ser Val Pro Arg Arg Pro Ser
530 535 540
Gln Trp Ser Ser Lys Pro Lys Ser Lys Pro Lys Arg Glu Lys Thr Glu
545 550 555 560
Glu Glu Lys Lys Phe Arg Arg Arg Ala Lys Tyr Phe Leu Val Thr Gln
565 570 575
Leu Val Ala Val Leu Val Phe Leu Ser Leu Leu Gly Gly Ser Gly Asp
580 585 590
Ala Glu Val Glu Leu Asp Glu Asp Asp Tyr Glu
595 600
<210> 122
<211> 547
<212> PRT
<213> 人工序列
<220>
<223> SN10编码的MTP-FAγ51::NifD::HA 融合多肽的氨基酸序列
氨基酸1-54对应于C端含GG的MTP-FAγ 51,氨基酸55-536为含起始子Met的产酸克雷伯氏杆菌NifD氨基酸 (SEQ ID NO:18),以及氨基
<400> 122
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Thr Asn Ala Thr Gly Glu Arg Asn
50 55 60
Leu Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg
65 70 75 80
Lys Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser
85 90 95
Val Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met
100 105 110
Thr Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly
115 120 125
Pro Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly
130 135 140
Gln Tyr Ser Arg Ala Gly Arg Arg Asn Tyr Tyr Thr Gly Val Ser Gly
145 150 155 160
Val Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg
165 170 175
Asp Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu
180 185 190
Met Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu
195 200 205
Cys Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala
210 215 220
Ser Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly
225 230 235 240
Phe Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val
245 250 255
Val Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr
260 265 270
Thr Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp
275 280 285
Ala Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val
290 295 300
Ala Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro
305 310 315 320
Phe Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile
325 330 335
Ala Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn
340 345 350
Phe Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp
355 360 365
Gln Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg
370 375 380
Tyr Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu
385 390 395 400
Glu Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His
405 410 415
Val Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly
420 425 430
Tyr Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu
435 440 445
Lys Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu
450 455 460
Ala Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys
465 470 475 480
Glu Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His
485 490 495
Ser Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile
500 505 510
Phe Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu
515 520 525
Leu Thr Ala Pro Trp Leu Lys Ser Gly Gly Tyr Pro Tyr Asp Val Pro
530 535 540
Asp Tyr Ala
545
<210> 123
<211> 331
<212> PRT
<213> 人工序列
<220>
<223> SN30编码的MTP-FAγ51::NifM::HA融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ51,氨基酸 55-320 对应于含起始子Met的产酸克雷伯氏杆菌NifM氨基酸 (SEQ ID NO:18),以及氨基
<400> 123
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Asn Pro Trp Gln Arg Phe Ala Arg Gln
50 55 60
Arg Leu Ala Arg Ser Arg Trp Asn Arg Asp Pro Ala Ala Leu Asp Pro
65 70 75 80
Ala Asp Thr Pro Ala Phe Glu Gln Ala Trp Gln Arg Gln Cys His Met
85 90 95
Glu Gln Thr Ile Val Ala Arg Val Pro Glu Gly Asp Ile Pro Ala Ala
100 105 110
Leu Leu Glu Asn Ile Ala Ala Ser Leu Ala Ile Trp Leu Asp Glu Gly
115 120 125
Asp Phe Ala Pro Pro Glu Arg Ala Ala Ile Val Arg His His Ala Arg
130 135 140
Leu Glu Leu Ala Phe Ala Asp Ile Ala Arg Gln Ala Pro Gln Pro Asp
145 150 155 160
Leu Ser Thr Val Gln Ala Trp Tyr Leu Arg His Gln Thr Gln Phe Met
165 170 175
Arg Pro Glu Gln Arg Leu Thr Arg His Leu Leu Leu Thr Val Asp Asn
180 185 190
Asp Arg Glu Ala Val His Gln Arg Ile Leu Gly Leu Tyr Arg Gln Ile
195 200 205
Asn Ala Ser Arg Asp Ala Phe Ala Pro Leu Ala Gln Arg His Ser His
210 215 220
Cys Pro Ser Ala Leu Glu Glu Gly Arg Leu Gly Trp Ile Ser Arg Gly
225 230 235 240
Leu Leu Tyr Pro Gln Leu Glu Thr Ala Leu Phe Ser Leu Ala Glu Asn
245 250 255
Ala Leu Ser Leu Pro Ile Ala Ser Glu Leu Gly Trp His Leu Leu Trp
260 265 270
Cys Glu Ala Ile Arg Pro Ala Ala Pro Met Glu Pro Gln Gln Ala Leu
275 280 285
Glu Ser Ala Arg Asp Tyr Leu Trp Gln Gln Ser Gln Gln Arg His Gln
290 295 300
Arg Gln Trp Leu Glu Gln Met Ile Ser Arg Gln Pro Gly Leu Cys Gly
305 310 315 320
Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
325 330
<210> 124
<211> 465
<212> PRT
<213> 人工序列
<220>
<223> SN31编码的MTP-FAγ51::NifS::HA 融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ 51,氨基酸 55-454 对应于含起始子Met的产酸克雷伯氏杆菌NifS (SEQ ID NO:19)
<400> 124
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Lys Gln Val Tyr Leu Asp Asn Asn Ala
50 55 60
Thr Thr Arg Leu Asp Pro Met Val Leu Glu Ala Met Met Pro Phe Leu
65 70 75 80
Thr Asp Phe Tyr Gly Asn Pro Ser Ser Ile His Asp Phe Gly Ile Pro
85 90 95
Ala Gln Ala Ala Leu Glu Arg Ala His Gln Gln Ala Ala Ala Leu Leu
100 105 110
Gly Ala Glu Tyr Pro Ser Glu Ile Ile Phe Thr Ser Cys Ala Thr Glu
115 120 125
Ala Thr Ala Thr Ala Ile Ala Ser Ala Ile Ala Leu Leu Pro Glu Arg
130 135 140
Arg Glu Ile Ile Thr Ser Val Val Glu His Pro Ala Thr Leu Ala Ala
145 150 155 160
Cys Glu His Leu Glu Arg Gln Gly Tyr Arg Ile His Arg Ile Ala Val
165 170 175
Asp Ser Glu Gly Ala Leu Asp Met Ala Gln Phe Arg Ala Ala Leu Ser
180 185 190
Pro Arg Val Ala Leu Val Ser Val Met Trp Ala Asn Asn Glu Thr Gly
195 200 205
Val Leu Phe Pro Ile Gly Glu Met Ala Glu Leu Ala His Glu Gln Gly
210 215 220
Ala Leu Phe His Cys Asp Ala Val Gln Val Val Gly Lys Ile Pro Ile
225 230 235 240
Ala Val Gly Gln Thr Arg Ile Asp Met Leu Ser Cys Ser Ala His Lys
245 250 255
Phe His Gly Pro Lys Gly Val Gly Cys Leu Tyr Leu Arg Arg Gly Thr
260 265 270
Arg Phe Arg Pro Leu Leu Arg Gly Gly His Gln Glu Tyr Gly Arg Arg
275 280 285
Ala Gly Thr Glu Asn Ile Cys Gly Ile Val Gly Met Gly Ala Ala Cys
290 295 300
Glu Leu Ala Asn Ile His Leu Pro Gly Met Thr His Ile Gly Gln Leu
305 310 315 320
Arg Asn Arg Leu Glu His Arg Leu Leu Ala Ser Val Pro Ser Val Met
325 330 335
Val Met Gly Gly Gly Gln Pro Arg Val Pro Gly Thr Val Asn Leu Ala
340 345 350
Phe Glu Phe Ile Glu Gly Glu Ala Ile Leu Leu Leu Leu Asn Gln Ala
355 360 365
Gly Ile Ala Ala Ser Ser Gly Ser Ala Cys Thr Ser Gly Ser Leu Glu
370 375 380
Pro Ser His Val Met Arg Ala Met Asn Ile Pro Tyr Thr Ala Ala His
385 390 395 400
Gly Thr Ile Arg Phe Ser Leu Ser Arg Tyr Thr Arg Glu Lys Glu Ile
405 410 415
Asp Tyr Val Val Ala Thr Leu Pro Pro Ile Ile Asp Arg Leu Arg Ala
420 425 430
Leu Ser Pro Tyr Trp Gln Asn Gly Lys Pro Arg Pro Ala Asp Ala Val
435 440 445
Phe Thr Pro Val Tyr Gly Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr
450 455 460
Ala
465
<210> 125
<211> 339
<212> PRT
<213> 人工序列
<220>
<223> SN32编码的MTP-FAγ51::NifU::HA 融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ51, 氨基酸55-328对应于含有起始子Met的产酸克雷伯氏杆菌NifU (SEQ ID NO:12),以及氨基
<400> 125
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Trp Asn Tyr Ser Glu Lys Val Lys Asp
50 55 60
His Phe Phe Asn Pro Arg Asn Ala Arg Val Val Asp Asn Ala Asn Ala
65 70 75 80
Val Gly Asp Val Gly Ser Leu Ser Cys Gly Asp Ala Leu Arg Leu Met
85 90 95
Leu Arg Val Asp Pro Gln Ser Glu Ile Ile Glu Glu Ala Gly Phe Gln
100 105 110
Thr Phe Gly Cys Gly Ser Ala Ile Ala Ser Ser Ser Ala Leu Thr Glu
115 120 125
Leu Ile Ile Gly His Thr Leu Ala Glu Ala Gly Gln Ile Thr Asn Gln
130 135 140
Gln Ile Ala Asp Tyr Leu Asp Gly Leu Pro Pro Glu Lys Met His Cys
145 150 155 160
Ser Val Met Gly Gln Glu Ala Leu Arg Ala Ala Ile Ala Asn Phe Arg
165 170 175
Gly Glu Ser Leu Glu Glu Glu His Asp Glu Gly Lys Leu Ile Cys Lys
180 185 190
Cys Phe Gly Val Asp Glu Gly His Ile Arg Arg Ala Val Gln Asn Asn
195 200 205
Gly Leu Thr Thr Leu Ala Glu Val Ile Asn Tyr Thr Lys Ala Gly Gly
210 215 220
Gly Cys Thr Ser Cys His Glu Lys Ile Glu Leu Ala Leu Ala Glu Ile
225 230 235 240
Leu Ala Gln Gln Pro Gln Thr Thr Pro Ala Val Ala Ser Gly Lys Asp
245 250 255
Pro His Trp Gln Ser Val Val Asp Thr Ile Ala Glu Leu Arg Pro His
260 265 270
Ile Gln Ala Asp Gly Gly Asp Met Ala Leu Leu Ser Val Thr Asn His
275 280 285
Gln Val Thr Val Ser Leu Ser Gly Ser Cys Ser Gly Cys Met Met Thr
290 295 300
Asp Met Thr Leu Ala Trp Leu Gln Gln Lys Leu Met Glu Arg Thr Gly
305 310 315 320
Cys Tyr Met Glu Val Val Ala Ala Gly Gly Tyr Pro Tyr Asp Val Pro
325 330 335
Asp Tyr Ala
<210> 126
<211> 522
<212> PRT
<213> 人工序列
<220>
<223> SN38编码的MTP-FAγ51::NifE::HA 融合多肽的氨基酸序列
根据Temme等人,氨基酸1-54对应于C端含GG的MTP-FAγ51, 氨基酸55-511对应于含起始子Met的产酸克雷伯氏杆菌NifE
<400> 126
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Lys Gly Asn Glu Ile Leu Ala Leu Leu
50 55 60
Asp Glu Pro Ala Cys Glu His Asn His Lys Gln Lys Ser Gly Cys Ser
65 70 75 80
Ala Pro Lys Pro Gly Ala Thr Ala Gly Gly Cys Ala Phe Asp Gly Ala
85 90 95
Gln Ile Thr Leu Leu Pro Ile Ala Asp Val Ala His Leu Val His Gly
100 105 110
Pro Ile Gly Cys Ala Gly Ser Ser Trp Asp Asn Arg Gly Ser Ala Ser
115 120 125
Ser Gly Pro Thr Leu Asn Arg Leu Gly Phe Thr Thr Asp Leu Asn Glu
130 135 140
Gln Asp Val Ile Met Gly Arg Gly Glu Arg Arg Leu Phe His Ala Val
145 150 155 160
Arg His Ile Val Thr Arg Tyr His Pro Ala Ala Val Phe Ile Tyr Asn
165 170 175
Thr Cys Val Pro Ala Met Glu Gly Asp Asp Leu Glu Ala Val Cys Gln
180 185 190
Ala Ala Gln Thr Ala Thr Gly Val Pro Val Ile Ala Ile Asp Ala Ala
195 200 205
Gly Phe Tyr Gly Ser Lys Asn Leu Gly Asn Arg Leu Ala Gly Asp Val
210 215 220
Met Val Lys Arg Val Ile Gly Gln Arg Glu Pro Ala Pro Trp Pro Glu
225 230 235 240
Ser Thr Leu Phe Ala Pro Glu Gln Arg His Asp Ile Gly Leu Ile Gly
245 250 255
Glu Phe Asn Ile Ala Gly Glu Phe Trp His Ile Gln Pro Leu Leu Asp
260 265 270
Glu Leu Gly Ile Arg Val Leu Gly Ser Leu Ser Gly Asp Gly Arg Phe
275 280 285
Ala Glu Ile Gln Thr Met His Arg Ala Gln Ala Asn Met Leu Val Cys
290 295 300
Ser Arg Ala Leu Ile Asn Val Ala Arg Ala Leu Glu Gln Arg Tyr Gly
305 310 315 320
Thr Pro Trp Phe Glu Gly Ser Phe Tyr Gly Ile Arg Ala Thr Ser Asp
325 330 335
Ala Leu Arg Gln Leu Ala Ala Leu Leu Gly Asp Asp Asp Leu Arg Gln
340 345 350
Arg Thr Glu Ala Leu Ile Ala Arg Glu Glu Gln Ala Ala Glu Leu Ala
355 360 365
Leu Gln Pro Trp Arg Glu Gln Leu Arg Gly Arg Lys Ala Leu Leu Tyr
370 375 380
Thr Gly Gly Val Lys Ser Trp Ser Val Val Ser Ala Leu Gln Asp Leu
385 390 395 400
Gly Met Thr Val Val Ala Thr Gly Thr Arg Lys Ser Thr Glu Glu Asp
405 410 415
Lys Gln Arg Ile Arg Glu Leu Met Gly Glu Glu Ala Val Met Leu Glu
420 425 430
Glu Gly Asn Ala Arg Thr Leu Leu Asp Val Val Tyr Arg Tyr Gln Ala
435 440 445
Asp Leu Met Ile Ala Gly Gly Arg Asn Met Tyr Thr Ala Tyr Lys Ala
450 455 460
Arg Leu Pro Phe Leu Asp Ile Asn Gln Glu Arg Glu His Ala Phe Ala
465 470 475 480
Gly Tyr Gln Gly Ile Val Thr Leu Ala Arg Gln Leu Cys Gln Thr Ile
485 490 495
Asn Ser Pro Ile Trp Pro Gln Thr His Ser Arg Ala Pro Trp Arg Gly
500 505 510
Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
515 520
<210> 127
<211> 526
<212> PRT
<213> 人工序列
<220>
<223> SN39编码的MTP-FAγ51::NifN::HA 融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ51, 氨基酸55-515对应于含起始子Met的产酸克雷伯氏杆菌NifN (SEQ ID NO:9) ,以及氨基
<400> 127
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Ala Asp Ile Phe Arg Thr Asp Lys Pro
50 55 60
Leu Ala Val Ser Pro Ile Lys Thr Gly Gln Pro Leu Gly Ala Ile Leu
65 70 75 80
Ala Ser Leu Gly Ile Glu His Ser Ile Pro Leu Val His Gly Ala Gln
85 90 95
Gly Cys Ser Ala Phe Ala Lys Val Phe Phe Ile Gln His Phe His Asp
100 105 110
Pro Val Pro Leu Gln Ser Thr Ala Met Asp Pro Thr Ser Thr Ile Met
115 120 125
Gly Ala Asp Gly Asn Ile Phe Thr Ala Leu Asp Thr Leu Cys Gln Arg
130 135 140
Asn Asn Pro Gln Ala Ile Val Leu Leu Ser Thr Gly Leu Ser Glu Ala
145 150 155 160
Gln Gly Ser Asp Ile Ser Arg Val Val Arg Gln Phe Arg Glu Glu Tyr
165 170 175
Pro Arg His Lys Gly Val Ala Ile Leu Thr Val Asn Thr Pro Asp Phe
180 185 190
Tyr Gly Ser Met Glu Asn Gly Phe Ser Ala Val Leu Glu Ser Val Ile
195 200 205
Glu Gln Trp Val Pro Pro Ala Pro Arg Pro Ala Gln Arg Asn Arg Arg
210 215 220
Val Asn Leu Leu Val Ser His Leu Cys Ser Pro Gly Asp Ile Glu Trp
225 230 235 240
Leu Arg Arg Cys Val Glu Ala Phe Gly Leu Gln Pro Ile Ile Leu Pro
245 250 255
Asp Leu Ala Gln Ser Met Asp Gly His Leu Ala Gln Gly Asp Phe Ser
260 265 270
Pro Leu Thr Gln Gly Gly Thr Pro Leu Arg Gln Ile Glu Gln Met Gly
275 280 285
Gln Ser Leu Cys Ser Phe Ala Ile Gly Val Ser Leu His Arg Ala Ser
290 295 300
Ser Leu Leu Ala Pro Arg Cys Arg Gly Glu Val Ile Ala Leu Pro His
305 310 315 320
Leu Met Thr Leu Glu Arg Cys Asp Ala Phe Ile His Gln Leu Ala Lys
325 330 335
Ile Ser Gly Arg Ala Val Pro Glu Trp Leu Glu Arg Gln Arg Gly Gln
340 345 350
Leu Gln Asp Ala Met Ile Asp Cys His Met Trp Leu Gln Gly Gln Arg
355 360 365
Met Ala Ile Ala Ala Glu Gly Asp Leu Leu Ala Ala Trp Cys Asp Phe
370 375 380
Ala Asn Ser Gln Gly Met Gln Pro Gly Pro Leu Val Ala Pro Thr Gly
385 390 395 400
His Pro Ser Leu Arg Gln Leu Pro Val Glu Arg Val Val Pro Gly Asp
405 410 415
Leu Glu Asp Leu Gln Thr Leu Leu Cys Ala His Pro Ala Asp Leu Leu
420 425 430
Val Ala Asn Ser His Ala Arg Asp Leu Ala Glu Gln Phe Ala Leu Pro
435 440 445
Leu Val Arg Ala Gly Phe Pro Leu Phe Asp Lys Leu Gly Glu Phe Arg
450 455 460
Arg Val Arg Gln Gly Tyr Ser Gly Met Arg Asp Thr Leu Phe Glu Leu
465 470 475 480
Ala Asn Leu Ile Arg Glu Arg His His His Leu Ala His Tyr Arg Ser
485 490 495
Pro Leu Arg Gln Asn Pro Glu Ser Ser Leu Ser Thr Gly Gly Ala Tyr
500 505 510
Ala Ala Asp Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
515 520 525
<210> 128
<211> 365
<212> PRT
<213> 人工序列
<220>
<223> SN42编码的MTP-CoxIV-Twin-Strep::NifH::HA融合多肽的氨基酸序列
氨基酸1-61对应于C端含GG的MTP-CoxIV-Twin-Strep, 氨基酸62-354为产酸克雷伯氏杆菌NifH氨基酸 (SEQ ID NO:1)
<400> 128
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Thr Met
50 55 60
Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr
65 70 75 80
Thr Gln Asn Leu Val Ala Ala Leu Ala Glu Met Gly Lys Lys Val Met
85 90 95
Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His
100 105 110
Ala Lys Ala Gln Asn Thr Ile Met Glu Met Ala Ala Glu Val Gly Ser
115 120 125
Val Glu Asp Leu Glu Leu Glu Asp Val Leu Gln Ile Gly Tyr Gly Asp
130 135 140
Val Arg Cys Ala Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala
145 150 155 160
Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu Glu Gly Ala
165 170 175
Tyr Glu Asp Asp Leu Asp Phe Val Phe Tyr Asp Val Leu Gly Asp Val
180 185 190
Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala Gln Glu
195 200 205
Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn
210 215 220
Asn Ile Ser Lys Gly Ile Val Lys Tyr Ala Lys Ser Gly Lys Val Arg
225 230 235 240
Leu Gly Gly Leu Ile Cys Asn Ser Arg Gln Thr Asp Arg Glu Asp Glu
245 250 255
Leu Ile Ile Ala Leu Ala Glu Lys Leu Gly Thr Gln Met Ile His Phe
260 265 270
Val Pro Arg Asp Asn Ile Val Gln Arg Ala Glu Ile Arg Arg Met Thr
275 280 285
Val Ile Glu Tyr Asp Pro Ala Cys Lys Gln Ala Asn Glu Tyr Arg Thr
290 295 300
Leu Ala Gln Lys Ile Val Asn Asn Thr Met Lys Val Val Pro Thr Pro
305 310 315 320
Cys Thr Met Asp Glu Leu Glu Ser Leu Leu Met Glu Phe Gly Ile Met
325 330 335
Glu Glu Glu Asp Thr Ser Ile Ile Gly Lys Thr Ala Ala Glu Glu Asn
340 345 350
Ala Ala Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
355 360 365
<210> 129
<211> 590
<212> PRT
<213> 人工序列
<220>
<223> SN46编码的MTP-Su9::NifK 融合多肽的氨基酸序列
氨基酸1-70对应于C端含GG的MTP-Su9, 氨基酸71-590对应于含起始子Met的产酸克雷伯氏杆菌NifK (SEQ ID NO:3)
<400> 129
Met Ala Ser Thr Arg Val Leu Ala Ser Arg Leu Ala Ser Gln Met Ala
1 5 10 15
Ala Ser Ala Lys Val Ala Arg Pro Ala Val Arg Val Ala Gln Val Ser
20 25 30
Lys Arg Thr Ile Gln Thr Gly Ser Pro Leu Gln Thr Leu Lys Arg Thr
35 40 45
Gln Met Thr Ser Ile Val Asn Ala Thr Thr Arg Gln Ala Phe Gln Lys
50 55 60
Arg Ala Tyr Ser Gly Gly Met Ser Gln Thr Ile Asp Lys Ile Asn Ser
65 70 75 80
Cys Tyr Pro Leu Phe Glu Gln Asp Glu Tyr Gln Glu Leu Phe Arg Asn
85 90 95
Lys Arg Gln Leu Glu Glu Ala His Asp Ala Gln Arg Val Gln Glu Val
100 105 110
Phe Ala Trp Thr Thr Thr Ala Glu Tyr Glu Ala Leu Asn Phe Gln Arg
115 120 125
Glu Ala Leu Thr Val Asp Pro Ala Lys Ala Cys Gln Pro Leu Gly Ala
130 135 140
Val Leu Cys Ser Leu Gly Phe Ala Asn Thr Leu Pro Tyr Val His Gly
145 150 155 160
Ser Gln Gly Cys Val Ala Tyr Phe Arg Thr Tyr Phe Asn Arg His Phe
165 170 175
Lys Glu Pro Ile Ala Cys Val Ser Asp Ser Met Thr Glu Asp Ala Ala
180 185 190
Val Phe Gly Gly Asn Asn Asn Met Asn Leu Gly Leu Gln Asn Ala Ser
195 200 205
Ala Leu Tyr Lys Pro Glu Ile Ile Ala Val Ser Thr Thr Cys Met Ala
210 215 220
Glu Val Ile Gly Asp Asp Leu Gln Ala Phe Ile Ala Asn Ala Lys Lys
225 230 235 240
Asp Gly Phe Val Asp Ser Ser Ile Ala Val Pro His Ala His Thr Pro
245 250 255
Ser Phe Ile Gly Ser His Val Thr Gly Trp Asp Asn Met Phe Glu Gly
260 265 270
Phe Ala Lys Thr Phe Thr Ala Asp Tyr Gln Gly Gln Pro Gly Lys Leu
275 280 285
Pro Lys Leu Asn Leu Val Thr Gly Phe Glu Thr Tyr Leu Gly Asn Phe
290 295 300
Arg Val Leu Lys Arg Met Met Glu Gln Met Ala Val Pro Cys Ser Leu
305 310 315 320
Leu Ser Asp Pro Ser Glu Val Leu Asp Thr Pro Ala Asp Gly His Tyr
325 330 335
Arg Met Tyr Ser Gly Gly Thr Thr Gln Gln Glu Met Lys Glu Ala Pro
340 345 350
Asp Ala Ile Asp Thr Leu Leu Leu Gln Pro Trp Gln Leu Leu Lys Ser
355 360 365
Lys Lys Val Val Gln Glu Met Trp Asn Gln Pro Ala Thr Glu Val Ala
370 375 380
Ile Pro Leu Gly Leu Ala Ala Thr Asp Glu Leu Leu Met Thr Val Ser
385 390 395 400
Gln Leu Ser Gly Lys Pro Ile Ala Asp Ala Leu Thr Leu Glu Arg Gly
405 410 415
Arg Leu Val Asp Met Met Leu Asp Ser His Thr Trp Leu His Gly Lys
420 425 430
Lys Phe Gly Leu Tyr Gly Asp Pro Asp Phe Val Met Gly Leu Thr Arg
435 440 445
Phe Leu Leu Glu Leu Gly Cys Glu Pro Thr Val Ile Leu Ser His Asn
450 455 460
Ala Asn Lys Arg Trp Gln Lys Ala Met Asn Lys Met Leu Asp Ala Ser
465 470 475 480
Pro Tyr Gly Arg Asp Ser Glu Val Phe Ile Asn Cys Asp Leu Trp His
485 490 495
Phe Arg Ser Leu Met Phe Thr Arg Gln Pro Asp Phe Met Ile Gly Asn
500 505 510
Ser Tyr Gly Lys Phe Ile Gln Arg Asp Thr Leu Ala Lys Gly Lys Ala
515 520 525
Phe Glu Val Pro Leu Ile Arg Leu Gly Phe Pro Leu Phe Asp Arg His
530 535 540
His Leu His Arg Gln Thr Thr Trp Gly Tyr Glu Gly Ala Met Asn Ile
545 550 555 560
Val Thr Thr Leu Val Asn Ala Val Leu Glu Lys Leu Asp Ser Asp Thr
565 570 575
Ser Gln Leu Gly Lys Thr Asp Tyr Ser Phe Asp Leu Val Arg
580 585 590
<210> 130
<211> 426
<212> PRT
<213> 人工序列
<220>
<223> SN51编码的MTP-L29::NifV::HA 融合多肽的氨基酸序列
氨基酸1-34对应于C端含GG的MTP-L29, 氨基酸 35-415 对应于含起始子Met的产酸克雷伯氏杆菌NifV (SEQ ID NO:13) , 以及氨基酸 416-
<400> 130
Met Phe Leu Thr Arg Phe Val Gly Arg Arg Phe Leu Ala Ala Ala Ser
1 5 10 15
Ala Arg Ser Glu Ser Thr Thr Ala Ala Ala Ala Ala Ser Thr Ile Arg
20 25 30
Gly Gly Met Glu Arg Val Leu Ile Asn Asp Thr Thr Leu Arg Asp Gly
35 40 45
Glu Gln Ser Pro Gly Val Ala Phe Arg Thr Ser Glu Lys Val Ala Ile
50 55 60
Ala Glu Ala Leu Tyr Ala Ala Gly Ile Thr Ala Met Glu Val Gly Thr
65 70 75 80
Pro Ala Met Gly Asp Glu Glu Ile Ala Arg Ile Gln Leu Val Arg Arg
85 90 95
Gln Leu Pro Asp Ala Thr Leu Met Thr Trp Cys Arg Met Asn Ala Leu
100 105 110
Glu Ile Arg Gln Ser Ala Asp Leu Gly Ile Asp Trp Val Asp Ile Ser
115 120 125
Ile Pro Ala Ser Asp Lys Leu Arg Gln Tyr Lys Leu Arg Glu Pro Leu
130 135 140
Ala Val Leu Leu Glu Arg Leu Ala Met Phe Ile His Leu Ala His Thr
145 150 155 160
Leu Gly Leu Lys Val Cys Ile Gly Cys Glu Asp Ala Ser Arg Ala Ser
165 170 175
Gly Gln Thr Leu Arg Ala Ile Ala Glu Val Ala Gln Asn Ala Pro Ala
180 185 190
Ala Arg Leu Arg Tyr Ala Asp Thr Val Gly Leu Leu Asp Pro Phe Thr
195 200 205
Thr Ala Ala Gln Ile Ser Ala Leu Arg Asp Val Trp Ser Gly Glu Ile
210 215 220
Glu Met His Ala His Asn Asp Leu Gly Met Ala Thr Ala Asn Thr Leu
225 230 235 240
Ala Ala Val Ser Ala Gly Ala Thr Ser Val Asn Thr Thr Val Leu Gly
245 250 255
Leu Gly Glu Arg Ala Gly Asn Ala Ala Ala Trp Lys Pro Ser Ala Leu
260 265 270
Gly Leu Glu Arg Cys Leu Gly Val Glu Thr Gly Val His Phe Ser Ala
275 280 285
Leu Pro Ala Leu Cys Gln Arg Val Ala Glu Ala Ala Gln Arg Ala Ile
290 295 300
Asp Pro Gln Gln Pro Leu Val Gly Glu Leu Val Phe Thr His Glu Ser
305 310 315 320
Gly Val His Val Ala Ala Leu Leu Arg Asp Ser Glu Ser Tyr Gln Ser
325 330 335
Ile Ala Pro Ser Leu Met Gly Arg Ser Tyr Arg Leu Val Leu Gly Lys
340 345 350
His Ser Gly Arg Gln Ala Val Asn Gly Val Phe Asp Gln Met Gly Tyr
355 360 365
His Leu Asn Ala Ala Gln Ile Asn Gln Leu Leu Pro Ala Ile Arg Arg
370 375 380
Phe Ala Glu Asn Trp Lys Arg Ser Pro Lys Asp Tyr Glu Leu Val Ala
385 390 395 400
Ile Tyr Asp Glu Leu Cys Gly Glu Ser Ala Leu Arg Ala Arg Gly Gly
405 410 415
Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
420 425
<210> 131
<211> 1085
<212> PRT
<213> 人工序列
<220>
<223> SN68编码的MTP-FAγ51::NifD::接头(HA)::NifK融合多肽的氨基酸序列
氨基酸1-54对应于C端含GG的MTP-FAγ51,氨基酸 55-536对应于野生型产酸克雷伯氏杆菌NifD氨基酸 (SEQ ID NO:18
<400> 131
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Thr Asn Ala Thr Gly Glu Arg Asn Leu
50 55 60
Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg Lys
65 70 75 80
Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser Val
85 90 95
Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met Thr
100 105 110
Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly Pro
115 120 125
Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly Gln
130 135 140
Tyr Ser Arg Ala Gly Arg Arg Asn Tyr Tyr Thr Gly Val Ser Gly Val
145 150 155 160
Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg Asp
165 170 175
Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu Met
180 185 190
Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu Cys
195 200 205
Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala Ser
210 215 220
Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly Phe
225 230 235 240
Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val Val
245 250 255
Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr Thr
260 265 270
Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala
275 280 285
Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val Ala
290 295 300
Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro Phe
305 310 315 320
Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ala
325 330 335
Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn Phe
340 345 350
Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp Gln
355 360 365
Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg Tyr
370 375 380
Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu Glu
385 390 395 400
Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His Val
405 410 415
Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly Tyr
420 425 430
Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu Lys
435 440 445
Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu Ala
450 455 460
Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu
465 470 475 480
Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His Ser
485 490 495
Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe
500 505 510
Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu Leu
515 520 525
Thr Ala Pro Trp Leu Lys Ser Ala Ala Thr Pro Pro Pro Gly Ser Thr
530 535 540
Thr Thr Ala Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Thr Pro Pro Pro
545 550 555 560
Gly Ser Thr Thr Thr Ala Ser Gln Thr Ile Asp Lys Ile Asn Ser Cys
565 570 575
Tyr Pro Leu Phe Glu Gln Asp Glu Tyr Gln Glu Leu Phe Arg Asn Lys
580 585 590
Arg Gln Leu Glu Glu Ala His Asp Ala Gln Arg Val Gln Glu Val Phe
595 600 605
Ala Trp Thr Thr Thr Ala Glu Tyr Glu Ala Leu Asn Phe Gln Arg Glu
610 615 620
Ala Leu Thr Val Asp Pro Ala Lys Ala Cys Gln Pro Leu Gly Ala Val
625 630 635 640
Leu Cys Ser Leu Gly Phe Ala Asn Thr Leu Pro Tyr Val His Gly Ser
645 650 655
Gln Gly Cys Val Ala Tyr Phe Arg Thr Tyr Phe Asn Arg His Phe Lys
660 665 670
Glu Pro Ile Ala Cys Val Ser Asp Ser Met Thr Glu Asp Ala Ala Val
675 680 685
Phe Gly Gly Asn Asn Asn Met Asn Leu Gly Leu Gln Asn Ala Ser Ala
690 695 700
Leu Tyr Lys Pro Glu Ile Ile Ala Val Ser Thr Thr Cys Met Ala Glu
705 710 715 720
Val Ile Gly Asp Asp Leu Gln Ala Phe Ile Ala Asn Ala Lys Lys Asp
725 730 735
Gly Phe Val Asp Ser Ser Ile Ala Val Pro His Ala His Thr Pro Ser
740 745 750
Phe Ile Gly Ser His Val Thr Gly Trp Asp Asn Met Phe Glu Gly Phe
755 760 765
Ala Lys Thr Phe Thr Ala Asp Tyr Gln Gly Gln Pro Gly Lys Leu Pro
770 775 780
Lys Leu Asn Leu Val Thr Gly Phe Glu Thr Tyr Leu Gly Asn Phe Arg
785 790 795 800
Val Leu Lys Arg Met Met Glu Gln Met Ala Val Pro Cys Ser Leu Leu
805 810 815
Ser Asp Pro Ser Glu Val Leu Asp Thr Pro Ala Asp Gly His Tyr Arg
820 825 830
Met Tyr Ser Gly Gly Thr Thr Gln Gln Glu Met Lys Glu Ala Pro Asp
835 840 845
Ala Ile Asp Thr Leu Leu Leu Gln Pro Trp Gln Leu Leu Lys Ser Lys
850 855 860
Lys Val Val Gln Glu Met Trp Asn Gln Pro Ala Thr Glu Val Ala Ile
865 870 875 880
Pro Leu Gly Leu Ala Ala Thr Asp Glu Leu Leu Met Thr Val Ser Gln
885 890 895
Leu Ser Gly Lys Pro Ile Ala Asp Ala Leu Thr Leu Glu Arg Gly Arg
900 905 910
Leu Val Asp Met Met Leu Asp Ser His Thr Trp Leu His Gly Lys Lys
915 920 925
Phe Gly Leu Tyr Gly Asp Pro Asp Phe Val Met Gly Leu Thr Arg Phe
930 935 940
Leu Leu Glu Leu Gly Cys Glu Pro Thr Val Ile Leu Ser His Asn Ala
945 950 955 960
Asn Lys Arg Trp Gln Lys Ala Met Asn Lys Met Leu Asp Ala Ser Pro
965 970 975
Tyr Gly Arg Asp Ser Glu Val Phe Ile Asn Cys Asp Leu Trp His Phe
980 985 990
Arg Ser Leu Met Phe Thr Arg Gln Pro Asp Phe Met Ile Gly Asn Ser
995 1000 1005
Tyr Gly Lys Phe Ile Gln Arg Asp Thr Leu Ala Lys Gly Lys Ala
1010 1015 1020
Phe Glu Val Pro Leu Ile Arg Leu Gly Phe Pro Leu Phe Asp Arg
1025 1030 1035
His His Leu His Arg Gln Thr Thr Trp Gly Tyr Glu Gly Ala Met
1040 1045 1050
Asn Ile Val Thr Thr Leu Val Asn Ala Val Leu Glu Lys Leu Asp
1055 1060 1065
Ser Asp Thr Ser Gln Leu Gly Lys Thr Asp Tyr Ser Phe Asp Leu
1070 1075 1080
Val Arg
1085
<210> 132
<211> 557
<212> PRT
<213> 人工序列
<220>
<223> SN75编码的MTP-FAγ51::HA::NifD::HA融合多肽的氨基酸序列
氨基酸1-53 对应于C端含GG的MTP-FAγ51 , 氨基酸54-64对应于第一HA表位,氨基酸 65-546 对应于
<400> 132
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Met Thr Asn Ala Thr Gly Glu Arg Asn Leu Ala Leu Ile Gln Glu
65 70 75 80
Val Leu Glu Val Phe Pro Glu Thr Ala Arg Lys Glu Arg Arg Lys His
85 90 95
Met Met Val Ser Asp Pro Glu Met Glu Ser Val Gly Lys Cys Ile Ile
100 105 110
Ser Asn Arg Lys Ser Gln Pro Gly Val Met Thr Val Arg Gly Cys Ala
115 120 125
Tyr Ala Gly Ser Lys Gly Val Val Phe Gly Pro Ile Lys Asp Met Ala
130 135 140
His Ile Ser His Gly Pro Val Gly Cys Gly Gln Tyr Ser Arg Ala Gly
145 150 155 160
Arg Arg Asn Tyr Tyr Thr Gly Val Ser Gly Val Asp Ser Phe Gly Thr
165 170 175
Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg Asp Ile Val Phe Gly Gly
180 185 190
Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu Met Glu Leu Leu Phe Pro
195 200 205
Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu Cys Pro Val Gly Leu Ile
210 215 220
Gly Asp Asp Ile Ser Ala Val Ala Asn Ala Ser Ser Lys Ala Leu Asp
225 230 235 240
Lys Pro Val Ile Pro Val Arg Cys Glu Gly Phe Arg Gly Val Ser Gln
245 250 255
Ser Leu Gly His His Ile Ala Asn Asp Val Val Arg Asp Trp Ile Leu
260 265 270
Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr Thr Pro Tyr Asp Val Ala
275 280 285
Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala Trp Ala Ser Arg Ile
290 295 300
Leu Leu Glu Glu Met Gly Leu Arg Val Val Ala Gln Trp Ser Gly Asp
305 310 315 320
Gly Thr Leu Val Glu Met Glu Asn Thr Pro Phe Val Lys Leu Asn Leu
325 330 335
Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ala Arg His Met Glu Glu
340 345 350
Lys His Gln Ile Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Thr Lys
355 360 365
Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp Gln Phe Asp Asp Thr Ile
370 375 380
Arg Ala Asn Ala Glu Ala Val Ile Ala Arg Tyr Glu Gly Gln Met Ala
385 390 395 400
Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu Glu Gly Arg Lys Val Leu
405 410 415
Leu Tyr Met Gly Gly Leu Arg Pro Arg His Val Ile Gly Ala Tyr Glu
420 425 430
Asp Leu Gly Met Glu Ile Ile Ala Ala Gly Tyr Glu Phe Ala His Asn
435 440 445
Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu Lys Glu Gly Thr Leu Leu
450 455 460
Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu Ala Phe Val Lys Ala Leu
465 470 475 480
Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu Lys Tyr Ile Phe Gln
485 490 495
Lys Met Gly Val Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly
500 505 510
Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp
515 520 525
Met Thr Leu Asn Asn Pro Ala Trp Asn Glu Leu Thr Ala Pro Trp Leu
530 535 540
Lys Ser Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
545 550 555
<210> 133
<211> 547
<212> PRT
<213> 人工序列
<220>
<223> SN99编码的MTP-FAγ51::NifD::HA 融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ51,氨基酸55-536 对应于包含丙氨酸突变的产酸克雷伯氏杆菌NifD
<400> 133
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Thr Asn Ala Thr Gly Glu Arg Asn
50 55 60
Leu Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg
65 70 75 80
Lys Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser
85 90 95
Val Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met
100 105 110
Thr Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly
115 120 125
Pro Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly
130 135 140
Gln Tyr Ser Ala Ala Ala Ala Ala Asn Tyr Tyr Thr Gly Val Ser Gly
145 150 155 160
Val Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg
165 170 175
Asp Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu
180 185 190
Met Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu
195 200 205
Cys Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala
210 215 220
Ser Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly
225 230 235 240
Phe Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val
245 250 255
Val Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr
260 265 270
Thr Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp
275 280 285
Ala Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val
290 295 300
Ala Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro
305 310 315 320
Phe Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile
325 330 335
Ala Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn
340 345 350
Phe Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp
355 360 365
Gln Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg
370 375 380
Tyr Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu
385 390 395 400
Glu Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His
405 410 415
Val Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly
420 425 430
Tyr Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu
435 440 445
Lys Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu
450 455 460
Ala Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys
465 470 475 480
Glu Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His
485 490 495
Ser Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile
500 505 510
Phe Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu
515 520 525
Leu Thr Ala Pro Trp Leu Lys Ser Gly Gly Tyr Pro Tyr Asp Val Pro
530 535 540
Asp Tyr Ala
545
<210> 134
<211> 547
<212> PRT
<213> 人工序列
<220>
<223> SN100编码的MTP-FAγ51::NifD::HA 融合多肽的氨基酸序列
氨基酸1-54 对应于C端含GG的MTP-FAγ51, 氨基酸55-536对应于包含丙氨酸突变的产酸克雷伯氏杆菌NifD氨基酸
<400> 134
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Thr Asn Ala Thr Gly Glu Arg Asn
50 55 60
Leu Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg
65 70 75 80
Lys Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser
85 90 95
Val Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met
100 105 110
Thr Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly
115 120 125
Pro Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly
130 135 140
Gln Tyr Ser Arg Ala Gly Arg Arg Ala Ala Ala Ala Ala Val Ser Gly
145 150 155 160
Val Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg
165 170 175
Asp Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu
180 185 190
Met Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu
195 200 205
Cys Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala
210 215 220
Ser Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly
225 230 235 240
Phe Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val
245 250 255
Val Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr
260 265 270
Thr Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp
275 280 285
Ala Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val
290 295 300
Ala Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro
305 310 315 320
Phe Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile
325 330 335
Ala Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn
340 345 350
Phe Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp
355 360 365
Gln Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg
370 375 380
Tyr Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu
385 390 395 400
Glu Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His
405 410 415
Val Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly
420 425 430
Tyr Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu
435 440 445
Lys Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu
450 455 460
Ala Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys
465 470 475 480
Glu Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His
485 490 495
Ser Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile
500 505 510
Phe Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu
515 520 525
Leu Thr Ala Pro Trp Leu Lys Ser Gly Gly Tyr Pro Tyr Asp Val Pro
530 535 540
Asp Tyr Ala
545
<210> 135
<211> 167
<212> PRT
<213> 人工序列
<220>
<223> SN104编码的MTP-Su9::NifW 融合多肽 的氨基酸序列
氨基酸1-70对应于C端含GG的MTP-Su9, 氨基酸71-158对应于含其起始子Met的产酸克雷伯氏杆菌 NifW (SEQ ID NO:17),以及氨基
<400> 135
Met Ala Ser Thr Arg Val Leu Ala Ser Arg Leu Ala Ser Gln Met Ala
1 5 10 15
Ala Ser Ala Lys Val Ala Arg Pro Ala Val Arg Val Ala Gln Val Ser
20 25 30
Lys Arg Thr Ile Gln Thr Gly Ser Pro Leu Gln Thr Leu Lys Arg Thr
35 40 45
Gln Met Thr Ser Ile Val Asn Ala Thr Thr Arg Gln Ala Phe Gln Lys
50 55 60
Arg Ala Tyr Ser Gly Gly Met Met Glu Trp Phe Tyr Gln Ile Pro Gly
65 70 75 80
Val Asp Glu Leu Arg Ser Ala Glu Ser Phe Phe Gln Phe Phe Ala Val
85 90 95
Pro Tyr Gln Pro Glu Leu Leu Gly Arg Cys Ser Leu Pro Val Leu Ala
100 105 110
Thr Phe His Arg Lys Leu Arg Ala Glu Val Pro Leu Gln Asn Arg Leu
115 120 125
Glu Asp Asn Asp Arg Ala Pro Trp Leu Leu Ala Arg Arg Leu Leu Ala
130 135 140
Glu Ser Tyr Gln Gln Gln Phe Gln Glu Ser Gly Thr Gly Gly Tyr Pro
145 150 155 160
Tyr Asp Val Pro Asp Tyr Ala
165
<210> 136
<211> 547
<212> PRT
<213> 人工序列
<220>
<223> SN114编码的MTP-FAγ51::NifD::HA 融合多肽的氨基酸序列
氨基酸1-54对应于C端含GG的MTP-FAγ51,氨基酸55-536对应于包含Y100Q 置换突变的产酸克雷伯氏杆菌NifD
<400> 136
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Thr Asn Ala Thr Gly Glu Arg Asn
50 55 60
Leu Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg
65 70 75 80
Lys Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser
85 90 95
Val Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met
100 105 110
Thr Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly
115 120 125
Pro Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly
130 135 140
Gln Tyr Ser Arg Ala Gly Arg Arg Asn Gln Tyr Thr Gly Val Ser Gly
145 150 155 160
Val Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg
165 170 175
Asp Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu
180 185 190
Met Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu
195 200 205
Cys Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala
210 215 220
Ser Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly
225 230 235 240
Phe Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val
245 250 255
Val Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr
260 265 270
Thr Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp
275 280 285
Ala Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val
290 295 300
Ala Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro
305 310 315 320
Phe Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile
325 330 335
Ala Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn
340 345 350
Phe Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp
355 360 365
Gln Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg
370 375 380
Tyr Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu
385 390 395 400
Glu Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His
405 410 415
Val Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly
420 425 430
Tyr Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu
435 440 445
Lys Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu
450 455 460
Ala Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys
465 470 475 480
Glu Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His
485 490 495
Ser Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile
500 505 510
Phe Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu
515 520 525
Leu Thr Ala Pro Trp Leu Lys Ser Gly Gly Tyr Pro Tyr Asp Val Pro
530 535 540
Asp Tyr Ala
545
<210> 137
<211> 241
<212> PRT
<213> 人工序列
<220>
<223> SN138编码的MTP-FAγ51::NifF::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ5, 氨基酸55-230对应于产酸克雷伯氏杆菌NifF (SEQ IDNO:6)以及氨基酸231-241包含HA表位
<400> 137
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Ala Asn Ile Gly Ile Phe Phe Gly Thr
50 55 60
Asp Thr Gly Lys Thr Arg Lys Ile Ala Lys Met Ile His Lys Gln Leu
65 70 75 80
Gly Glu Leu Ala Asp Ala Pro Val Asn Ile Asn Arg Thr Thr Leu Asp
85 90 95
Asp Phe Met Ala Tyr Pro Val Leu Leu Leu Gly Thr Pro Thr Leu Gly
100 105 110
Asp Gly Gln Leu Pro Gly Leu Glu Ala Gly Cys Glu Ser Glu Ser Trp
115 120 125
Ser Glu Phe Ile Ser Gly Leu Asp Asp Ala Ser Leu Lys Gly Lys Thr
130 135 140
Val Ala Leu Phe Gly Leu Gly Asp Gln Arg Gly Tyr Pro Asp Asn Phe
145 150 155 160
Val Ser Gly Met Arg Pro Leu Phe Asp Ala Leu Ser Ala Arg Gly Ala
165 170 175
Gln Met Ile Gly Ser Trp Pro Asn Glu Gly Tyr Glu Phe Ser Ala Ser
180 185 190
Ser Ala Leu Glu Gly Asp Arg Phe Val Gly Leu Val Leu Asp Gln Asp
195 200 205
Asn Gln Phe Asp Gln Thr Glu Ala Arg Leu Ala Ser Trp Leu Glu Glu
210 215 220
Ile Lys Arg Thr Val Leu Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr
225 230 235 240
Ala
<210> 138
<211> 1236
<212> PRT
<213> 人工序列
<220>
<223> SN139编码的MTP-FAγ51::NifJ::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸 55-1225 对应于产酸克雷伯氏杆菌NifJ (SEQID NO:7), 以及氨基酸1226-1236包含HA表位
<400> 138
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Ser Gly Lys Met Lys Thr Met Asp Gly
50 55 60
Asn Ala Ala Ala Ala Trp Ile Ser Tyr Ala Phe Thr Glu Val Ala Ala
65 70 75 80
Ile Tyr Pro Ile Thr Pro Ser Thr Pro Met Ala Glu Asn Val Asp Glu
85 90 95
Trp Ala Ala Gln Gly Lys Lys Asn Leu Phe Gly Gln Pro Val Arg Leu
100 105 110
Met Glu Met Gln Ser Glu Ala Gly Ala Ala Gly Ala Val His Gly Ala
115 120 125
Leu Gln Ala Gly Ala Leu Thr Thr Thr Tyr Thr Ala Ser Gln Gly Leu
130 135 140
Leu Leu Met Ile Pro Asn Met Tyr Lys Ile Ala Gly Glu Leu Leu Pro
145 150 155 160
Gly Val Phe His Val Ser Ala Arg Ala Leu Ala Thr Asn Ser Leu Asn
165 170 175
Ile Phe Gly Asp His Gln Asp Val Met Ala Val Arg Gln Thr Gly Cys
180 185 190
Ala Met Leu Ala Glu Asn Asn Val Gln Gln Val Met Asp Leu Ser Ala
195 200 205
Val Ala His Leu Ala Ala Ile Lys Gly Arg Ile Pro Phe Val Asn Phe
210 215 220
Phe Asp Gly Phe Arg Thr Ser His Glu Ile Gln Lys Ile Glu Val Leu
225 230 235 240
Glu Tyr Glu Gln Leu Ala Thr Leu Leu Asp Arg Pro Ala Leu Asp Ser
245 250 255
Phe Arg Arg Asn Ala Leu His Pro Asp His Pro Val Ile Arg Gly Thr
260 265 270
Ala Gln Asn Pro Asp Ile Tyr Phe Gln Glu Arg Glu Ala Gly Asn Arg
275 280 285
Phe Tyr Gln Ala Leu Pro Asp Ile Val Glu Ser Tyr Met Thr Gln Ile
290 295 300
Ser Ala Leu Thr Gly Arg Glu Tyr His Leu Phe Asn Tyr Thr Gly Ala
305 310 315 320
Ala Asp Ala Glu Arg Val Ile Ile Ala Met Gly Ser Val Cys Asp Thr
325 330 335
Val Gln Glu Val Val Asp Thr Leu Asn Ala Ala Gly Glu Lys Val Gly
340 345 350
Leu Leu Ser Val His Leu Phe Arg Pro Phe Ser Leu Ala His Phe Phe
355 360 365
Ala Gln Leu Pro Lys Thr Val Gln Arg Ile Ala Val Leu Asp Arg Thr
370 375 380
Lys Glu Pro Gly Ala Gln Ala Glu Pro Leu Cys Leu Asp Val Lys Asn
385 390 395 400
Ala Phe Tyr His His Asp Asp Ala Pro Leu Ile Val Gly Gly Arg Tyr
405 410 415
Ala Leu Gly Gly Lys Asp Val Leu Pro Asn Asp Ile Ala Ala Val Phe
420 425 430
Asp Asn Leu Asn Lys Pro Leu Pro Met Asp Gly Phe Thr Leu Gly Ile
435 440 445
Val Asp Asp Val Thr Phe Thr Ser Leu Pro Pro Arg Gln Gln Thr Leu
450 455 460
Ala Val Ser His Asp Gly Ile Thr Ala Cys Lys Phe Trp Gly Met Gly
465 470 475 480
Ser Asp Gly Thr Val Gly Ala Asn Lys Ser Ala Ile Lys Ile Ile Gly
485 490 495
Asp Lys Thr Pro Leu Tyr Ala Gln Ala Tyr Phe Ser Tyr Asp Ser Lys
500 505 510
Lys Ser Gly Gly Ile Thr Val Ser His Leu Arg Phe Gly Asp Arg Pro
515 520 525
Ile Asn Ser Pro Tyr Leu Ile His Arg Ala Asp Phe Ile Ser Cys Ser
530 535 540
Gln Gln Ser Tyr Val Glu Arg Tyr Asp Leu Leu Asp Gly Leu Lys Pro
545 550 555 560
Gly Gly Thr Phe Leu Leu Asn Cys Ser Trp Ser Asp Ala Glu Leu Glu
565 570 575
Gln His Leu Pro Val Gly Phe Lys Arg Tyr Leu Ala Arg Glu Asn Ile
580 585 590
His Phe Tyr Thr Leu Asn Ala Val Asp Ile Ala Arg Glu Leu Gly Leu
595 600 605
Gly Gly Arg Phe Asn Met Leu Met Gln Ala Ala Phe Phe Lys Leu Ala
610 615 620
Ala Ile Ile Asp Pro Gln Thr Ala Ala Asp Tyr Leu Lys Gln Ala Val
625 630 635 640
Glu Lys Ser Tyr Gly Ser Lys Gly Ala Ala Val Ile Glu Met Asn Gln
645 650 655
Arg Ala Ile Glu Leu Gly Met Ala Ser Leu His Gln Val Thr Ile Pro
660 665 670
Ala His Trp Ala Thr Leu Asp Glu Pro Ala Ala Gln Ala Ser Ala Met
675 680 685
Met Pro Asp Phe Ile Arg Asp Ile Leu Gln Pro Met Asn Arg Gln Cys
690 695 700
Gly Asp Gln Leu Pro Val Ser Ala Phe Val Gly Met Glu Asp Gly Thr
705 710 715 720
Phe Pro Ser Gly Thr Ala Ala Trp Glu Lys Arg Gly Ile Ala Leu Glu
725 730 735
Val Pro Val Trp Gln Pro Glu Gly Cys Thr Gln Cys Asn Gln Cys Ala
740 745 750
Phe Ile Cys Pro His Ala Ala Ile Arg Pro Ala Leu Leu Asn Gly Glu
755 760 765
Glu His Asp Ala Ala Pro Val Gly Leu Leu Ser Lys Pro Ala Gln Gly
770 775 780
Ala Lys Glu Tyr His Tyr His Leu Ala Ile Ser Pro Leu Asp Cys Ser
785 790 795 800
Gly Cys Gly Asn Cys Val Asp Ile Cys Pro Ala Arg Gly Lys Ala Leu
805 810 815
Lys Met Gln Ser Leu Asp Ser Gln Arg Gln Met Ala Pro Val Trp Asp
820 825 830
Tyr Ala Leu Ala Leu Thr Pro Lys Ser Asn Pro Phe Arg Lys Thr Thr
835 840 845
Val Lys Gly Ser Gln Phe Glu Thr Pro Leu Leu Glu Phe Ser Gly Ala
850 855 860
Cys Ala Gly Cys Gly Glu Thr Pro Tyr Ala Arg Leu Ile Thr Gln Leu
865 870 875 880
Phe Gly Asp Arg Met Leu Ile Ala Asn Ala Thr Gly Cys Ser Ser Ile
885 890 895
Trp Gly Ala Ser Ala Pro Ser Ile Pro Tyr Thr Thr Asn His Arg Gly
900 905 910
His Gly Pro Ala Trp Ala Asn Ser Leu Phe Glu Asp Asn Ala Glu Phe
915 920 925
Gly Leu Gly Met Met Leu Gly Gly Gln Ala Val Arg Gln Gln Ile Ala
930 935 940
Asp Asp Met Thr Ala Ala Leu Ala Leu Pro Val Ser Asp Glu Leu Ser
945 950 955 960
Asp Ala Met Arg Gln Trp Leu Ala Lys Gln Asp Glu Gly Glu Gly Thr
965 970 975
Arg Glu Arg Ala Asp Arg Leu Ser Glu Arg Leu Ala Ala Glu Lys Glu
980 985 990
Gly Val Pro Leu Leu Glu Gln Leu Trp Gln Asn Arg Asp Tyr Phe Val
995 1000 1005
Arg Arg Ser Gln Trp Ile Phe Gly Gly Asp Gly Trp Ala Tyr Asp
1010 1015 1020
Ile Gly Phe Gly Gly Leu Asp His Val Leu Ala Ser Gly Glu Asp
1025 1030 1035
Val Asn Ile Leu Val Phe Asp Thr Glu Val Tyr Ser Asn Thr Gly
1040 1045 1050
Gly Gln Ser Ser Lys Ser Thr Pro Val Ala Ala Ile Ala Lys Phe
1055 1060 1065
Ala Ala Gln Gly Lys Arg Thr Arg Lys Lys Asp Leu Gly Met Met
1070 1075 1080
Ala Met Ser Tyr Gly Asn Val Tyr Val Ala Gln Val Ala Met Gly
1085 1090 1095
Ala Asp Lys Asp Gln Thr Leu Arg Ala Ile Ala Glu Ala Glu Ala
1100 1105 1110
Trp Pro Gly Pro Ser Leu Val Ile Ala Tyr Ala Ala Cys Ile Asn
1115 1120 1125
His Gly Leu Lys Ala Gly Met Arg Cys Ser Gln Arg Glu Ala Lys
1130 1135 1140
Arg Ala Val Glu Ala Gly Tyr Trp His Leu Trp Arg Tyr His Pro
1145 1150 1155
Gln Arg Glu Ala Glu Gly Lys Thr Pro Phe Met Leu Asp Ser Glu
1160 1165 1170
Glu Pro Glu Glu Ser Phe Arg Asp Phe Leu Leu Gly Glu Val Arg
1175 1180 1185
Tyr Ala Ser Leu His Lys Thr Thr Pro His Leu Ala Asp Ala Leu
1190 1195 1200
Phe Ser Arg Thr Glu Glu Asp Ala Arg Ala Arg Phe Ala Gln Tyr
1205 1210 1215
Arg Arg Leu Ala Gly Glu Glu Gly Gly Tyr Pro Tyr Asp Val Pro
1220 1225 1230
Asp Tyr Ala
1235
<210> 139
<211> 584
<212> PRT
<213> 人工序列
<220>
<223> SN140编码的MTP-FAγ51::HA::NifK融合多肽的氨基酸序列
氨基酸1-53对应于含GG的MTP-FAγ51, 氨基酸54-64包含HA表位, 以及氨基酸65-584对应于产酸克雷伯氏杆菌NifK (SEQ ID NO:3)
<400> 139
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Ser Gln Thr Ile Asp Lys Ile Asn Ser Cys Tyr Pro Leu Phe Glu
65 70 75 80
Gln Asp Glu Tyr Gln Glu Leu Phe Arg Asn Lys Arg Gln Leu Glu Glu
85 90 95
Ala His Asp Ala Gln Arg Val Gln Glu Val Phe Ala Trp Thr Thr Thr
100 105 110
Ala Glu Tyr Glu Ala Leu Asn Phe Gln Arg Glu Ala Leu Thr Val Asp
115 120 125
Pro Ala Lys Ala Cys Gln Pro Leu Gly Ala Val Leu Cys Ser Leu Gly
130 135 140
Phe Ala Asn Thr Leu Pro Tyr Val His Gly Ser Gln Gly Cys Val Ala
145 150 155 160
Tyr Phe Arg Thr Tyr Phe Asn Arg His Phe Lys Glu Pro Ile Ala Cys
165 170 175
Val Ser Asp Ser Met Thr Glu Asp Ala Ala Val Phe Gly Gly Asn Asn
180 185 190
Asn Met Asn Leu Gly Leu Gln Asn Ala Ser Ala Leu Tyr Lys Pro Glu
195 200 205
Ile Ile Ala Val Ser Thr Thr Cys Met Ala Glu Val Ile Gly Asp Asp
210 215 220
Leu Gln Ala Phe Ile Ala Asn Ala Lys Lys Asp Gly Phe Val Asp Ser
225 230 235 240
Ser Ile Ala Val Pro His Ala His Thr Pro Ser Phe Ile Gly Ser His
245 250 255
Val Thr Gly Trp Asp Asn Met Phe Glu Gly Phe Ala Lys Thr Phe Thr
260 265 270
Ala Asp Tyr Gln Gly Gln Pro Gly Lys Leu Pro Lys Leu Asn Leu Val
275 280 285
Thr Gly Phe Glu Thr Tyr Leu Gly Asn Phe Arg Val Leu Lys Arg Met
290 295 300
Met Glu Gln Met Ala Val Pro Cys Ser Leu Leu Ser Asp Pro Ser Glu
305 310 315 320
Val Leu Asp Thr Pro Ala Asp Gly His Tyr Arg Met Tyr Ser Gly Gly
325 330 335
Thr Thr Gln Gln Glu Met Lys Glu Ala Pro Asp Ala Ile Asp Thr Leu
340 345 350
Leu Leu Gln Pro Trp Gln Leu Leu Lys Ser Lys Lys Val Val Gln Glu
355 360 365
Met Trp Asn Gln Pro Ala Thr Glu Val Ala Ile Pro Leu Gly Leu Ala
370 375 380
Ala Thr Asp Glu Leu Leu Met Thr Val Ser Gln Leu Ser Gly Lys Pro
385 390 395 400
Ile Ala Asp Ala Leu Thr Leu Glu Arg Gly Arg Leu Val Asp Met Met
405 410 415
Leu Asp Ser His Thr Trp Leu His Gly Lys Lys Phe Gly Leu Tyr Gly
420 425 430
Asp Pro Asp Phe Val Met Gly Leu Thr Arg Phe Leu Leu Glu Leu Gly
435 440 445
Cys Glu Pro Thr Val Ile Leu Ser His Asn Ala Asn Lys Arg Trp Gln
450 455 460
Lys Ala Met Asn Lys Met Leu Asp Ala Ser Pro Tyr Gly Arg Asp Ser
465 470 475 480
Glu Val Phe Ile Asn Cys Asp Leu Trp His Phe Arg Ser Leu Met Phe
485 490 495
Thr Arg Gln Pro Asp Phe Met Ile Gly Asn Ser Tyr Gly Lys Phe Ile
500 505 510
Gln Arg Asp Thr Leu Ala Lys Gly Lys Ala Phe Glu Val Pro Leu Ile
515 520 525
Arg Leu Gly Phe Pro Leu Phe Asp Arg His His Leu His Arg Gln Thr
530 535 540
Thr Trp Gly Tyr Glu Gly Ala Met Asn Ile Val Thr Thr Leu Val Asn
545 550 555 560
Ala Val Leu Glu Lys Leu Asp Ser Asp Thr Ser Gln Leu Gly Lys Thr
565 570 575
Asp Tyr Ser Phe Asp Leu Val Arg
580
<210> 140
<211> 232
<212> PRT
<213> 人工序列
<220>
<223> SN141编码的MTP-FAγ51::NifQ::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸 55-221对应于产酸克雷伯氏杆菌 NifQ (SEQ IDNO:10)以及氨基酸 222-232包含HA表位
<400> 140
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Pro Pro Leu Asp Trp Leu Arg Arg Leu
50 55 60
Trp Leu Leu Tyr His Ala Gly Lys Gly Ser Phe Pro Leu Arg Met Gly
65 70 75 80
Leu Ser Pro Arg Asp Trp Gln Ala Leu Arg Arg Arg Leu Gly Glu Val
85 90 95
Glu Thr Pro Leu Asp Gly Glu Thr Leu Thr Arg Arg Arg Leu Met Ala
100 105 110
Glu Leu Asn Ala Thr Arg Glu Glu Glu Arg Gln Gln Leu Gly Ala Trp
115 120 125
Leu Ala Gly Trp Met Gln Gln Asp Ala Gly Pro Met Ala Gln Ile Ile
130 135 140
Ala Glu Val Ser Leu Ala Phe Asn His Leu Trp Gln Asp Leu Gly Leu
145 150 155 160
Ala Ser Arg Ala Glu Leu Arg Leu Leu Met Ser Asp Cys Phe Pro Gln
165 170 175
Leu Val Val Met Asn Glu His Asn Met Arg Trp Lys Lys Phe Phe Tyr
180 185 190
Arg Gln Arg Cys Leu Leu Gln Gln Gly Glu Val Ile Cys Arg Ser Pro
195 200 205
Ser Cys Asp Glu Cys Trp Glu Arg Ser Ala Cys Phe Glu Gly Gly Tyr
210 215 220
Pro Tyr Asp Val Pro Asp Tyr Ala
225 230
<210> 141
<211> 446
<212> PRT
<213> 人工序列
<220>
<223> SN142编码的MTP-FAγ51::NifV::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸55-435对应于产酸克雷伯氏杆菌 NifV (SEQ IDNO:13)以及氨基酸436-446包含HA表位
<400> 141
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Glu Arg Val Leu Ile Asn Asp Thr Thr
50 55 60
Leu Arg Asp Gly Glu Gln Ser Pro Gly Val Ala Phe Arg Thr Ser Glu
65 70 75 80
Lys Val Ala Ile Ala Glu Ala Leu Tyr Ala Ala Gly Ile Thr Ala Met
85 90 95
Glu Val Gly Thr Pro Ala Met Gly Asp Glu Glu Ile Ala Arg Ile Gln
100 105 110
Leu Val Arg Arg Gln Leu Pro Asp Ala Thr Leu Met Thr Trp Cys Arg
115 120 125
Met Asn Ala Leu Glu Ile Arg Gln Ser Ala Asp Leu Gly Ile Asp Trp
130 135 140
Val Asp Ile Ser Ile Pro Ala Ser Asp Lys Leu Arg Gln Tyr Lys Leu
145 150 155 160
Arg Glu Pro Leu Ala Val Leu Leu Glu Arg Leu Ala Met Phe Ile His
165 170 175
Leu Ala His Thr Leu Gly Leu Lys Val Cys Ile Gly Cys Glu Asp Ala
180 185 190
Ser Arg Ala Ser Gly Gln Thr Leu Arg Ala Ile Ala Glu Val Ala Gln
195 200 205
Asn Ala Pro Ala Ala Arg Leu Arg Tyr Ala Asp Thr Val Gly Leu Leu
210 215 220
Asp Pro Phe Thr Thr Ala Ala Gln Ile Ser Ala Leu Arg Asp Val Trp
225 230 235 240
Ser Gly Glu Ile Glu Met His Ala His Asn Asp Leu Gly Met Ala Thr
245 250 255
Ala Asn Thr Leu Ala Ala Val Ser Ala Gly Ala Thr Ser Val Asn Thr
260 265 270
Thr Val Leu Gly Leu Gly Glu Arg Ala Gly Asn Ala Ala Ala Trp Lys
275 280 285
Pro Ser Ala Leu Gly Leu Glu Arg Cys Leu Gly Val Glu Thr Gly Val
290 295 300
His Phe Ser Ala Leu Pro Ala Leu Cys Gln Arg Val Ala Glu Ala Ala
305 310 315 320
Gln Arg Ala Ile Asp Pro Gln Gln Pro Leu Val Gly Glu Leu Val Phe
325 330 335
Thr His Glu Ser Gly Val His Val Ala Ala Leu Leu Arg Asp Ser Glu
340 345 350
Ser Tyr Gln Ser Ile Ala Pro Ser Leu Met Gly Arg Ser Tyr Arg Leu
355 360 365
Val Leu Gly Lys His Ser Gly Arg Gln Ala Val Asn Gly Val Phe Asp
370 375 380
Gln Met Gly Tyr His Leu Asn Ala Ala Gln Ile Asn Gln Leu Leu Pro
385 390 395 400
Ala Ile Arg Arg Phe Ala Glu Asn Trp Lys Arg Ser Pro Lys Asp Tyr
405 410 415
Glu Leu Val Ala Ile Tyr Asp Glu Leu Cys Gly Glu Ser Ala Leu Arg
420 425 430
Ala Arg Gly Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
435 440 445
<210> 142
<211> 151
<212> PRT
<213> 人工序列
<220>
<223> SN143编码的MTP-FAγ51::NifW::HA融合多肽的氨基酸序列
氨基酸1-54 对应于含GG的MTP-FAγ51, 氨基酸 55-140对应于产酸克雷伯氏杆菌 NifW (SEQ IDNO:17), 以及氨基酸 141-151包含HA表位
<400> 142
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Met Glu Trp Phe Tyr Gln Ile Pro Gly
50 55 60
Val Asp Glu Leu Arg Ser Ala Glu Ser Phe Phe Gln Phe Phe Ala Val
65 70 75 80
Pro Tyr Gln Pro Glu Leu Leu Gly Arg Cys Ser Leu Pro Val Leu Ala
85 90 95
Thr Phe His Arg Lys Leu Arg Ala Glu Val Pro Leu Gln Asn Arg Leu
100 105 110
Glu Asp Asn Asp Arg Ala Pro Trp Leu Leu Ala Arg Arg Leu Leu Ala
115 120 125
Glu Ser Tyr Gln Gln Gln Phe Gln Glu Ser Gly Thr Gly Gly Tyr Pro
130 135 140
Tyr Asp Val Pro Asp Tyr Ala
145 150
<210> 143
<211> 221
<212> PRT
<213> 人工序列
<220>
<223> SN144编码的MTP-FAγ51::NifX::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸 55-210对应于产酸克雷伯氏杆菌NifX (SEQ ID NO:14), 以及氨基酸 211-221包含HA表位
<400> 143
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Pro Pro Ile Asn Arg Gln Phe Asp Met
50 55 60
Val His Ser Asp Glu Trp Ser Met Lys Val Ala Phe Ala Ser Ser Asp
65 70 75 80
Tyr Arg His Val Asp Gln His Phe Gly Ala Thr Pro Arg Leu Val Val
85 90 95
Tyr Gly Val Lys Ala Asp Arg Val Thr Leu Ile Arg Val Val Asp Phe
100 105 110
Ser Val Glu Asn Gly His Gln Thr Glu Lys Ile Ala Arg Arg Ile His
115 120 125
Ala Leu Glu Asp Cys Val Thr Leu Phe Cys Val Ala Ile Gly Asp Ala
130 135 140
Val Phe Arg Gln Leu Leu Gln Val Gly Val Arg Ala Glu Arg Val Pro
145 150 155 160
Ala Asp Thr Thr Ile Val Gly Leu Leu Gln Glu Ile Gln Leu Tyr Trp
165 170 175
Tyr Asp Lys Gly Gln Arg Lys Asn Gln Arg Gln Arg Asp Pro Glu Arg
180 185 190
Phe Thr Arg Leu Leu Gln Glu Gln Glu Trp His Gly Asp Pro Asp Pro
195 200 205
Arg Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
210 215 220
<210> 144
<211> 285
<212> PRT
<213> 人工序列
<220>
<223> SN145编码的MTP-FAγ51::NifY::HA 融合多肽的氨基酸序列
根据Temme等人(2012),氨基酸1-54 对应于含GG的MTP-FAγ51, 氨基酸55-274 对应于产酸克雷伯氏杆菌NifY,以及氨基酸 275-285
<400> 144
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Ser Asp Asn Asp Thr Leu Phe Trp Arg
50 55 60
Met Leu Ala Leu Phe Gln Ser Leu Pro Asp Leu Gln Pro Ala Gln Ile
65 70 75 80
Val Asp Trp Leu Ala Gln Glu Ser Gly Glu Thr Leu Thr Pro Glu Arg
85 90 95
Leu Ala Thr Leu Thr Gln Pro Gln Leu Ala Ala Ser Phe Pro Ser Ala
100 105 110
Thr Ala Val Met Ser Pro Ala Arg Trp Ser Arg Val Met Ala Ser Leu
115 120 125
Gln Gly Ala Leu Pro Ala His Leu Arg Ile Val Arg Pro Ala Gln Arg
130 135 140
Thr Pro Gln Leu Leu Ala Ala Phe Cys Ser Gln Asp Gly Leu Val Ile
145 150 155 160
Asn Gly His Phe Gly Gln Gly Arg Leu Phe Phe Ile Tyr Ala Phe Asp
165 170 175
Glu Gln Gly Gly Trp Leu Tyr Asp Leu Arg Arg Tyr Pro Ser Ala Pro
180 185 190
His Gln Gln Glu Ala Asn Glu Val Arg Ala Arg Leu Ile Glu Asp Cys
195 200 205
Gln Leu Leu Phe Cys Gln Glu Ile Gly Gly Pro Ala Ala Ala Arg Leu
210 215 220
Ile Arg His Arg Ile His Pro Met Lys Ala Gln Pro Gly Thr Thr Ile
225 230 235 240
Gln Ala Gln Cys Glu Ala Ile Asn Thr Leu Leu Ala Gly Arg Leu Pro
245 250 255
Pro Trp Leu Ala Lys Arg Leu Asn Arg Asp Asn Pro Leu Glu Glu Arg
260 265 270
Val Phe Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
275 280 285
<210> 145
<211> 213
<212> PRT
<213> 人工序列
<220>
<223> SN146编码的MTP-FAγ51::NifZ::HA 融合多肽的氨基酸序列
氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸55-202对应于产酸克雷伯氏杆菌 NifZ (SEQ IDNO:16), 以及氨基酸 203-213包含HA表位
<400> 145
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Arg Pro Lys Phe Thr Phe Ser Glu Glu
50 55 60
Val Arg Val Val Arg Ala Ile Arg Asn Asp Gly Thr Val Ala Gly Phe
65 70 75 80
Ala Pro Gly Ala Leu Leu Val Arg Arg Gly Ser Thr Gly Phe Val Arg
85 90 95
Asp Trp Gly Val Phe Leu Gln Asp Gln Ile Ile Tyr Gln Ile His Phe
100 105 110
Pro Glu Thr Asp Arg Ile Ile Gly Cys Arg Glu Gln Glu Leu Ile Pro
115 120 125
Ile Thr Gln Pro Trp Leu Ala Gly Asn Leu Gln Tyr Arg Asp Ser Val
130 135 140
Thr Cys Gln Met Ala Leu Ala Val Asn Gly Asp Val Val Val Ser Ala
145 150 155 160
Gly Gln Arg Gly Arg Val Glu Ala Thr Asp Arg Gly Glu Leu Gly Asp
165 170 175
Ser Tyr Thr Val Asp Phe Ser Gly Arg Trp Phe Arg Val Pro Val Gln
180 185 190
Ala Ile Ala Leu Ile Glu Glu Arg Glu Glu Gly Gly Tyr Pro Tyr Asp
195 200 205
Val Pro Asp Tyr Ala
210
<210> 146
<211> 1085
<212> PRT
<213> 人工序列
<220>
<223> SN159编码的MTP-FAγ51::NifD(Y100Q)::接头(HA)::NifK融合多肽的氨基酸序列
氨基酸1-54对应于C端含GG的MTP-FAγ51 , 氨基酸55-536对应于含Y100Q置换的产酸克雷伯氏杆菌NifD, 氨基
<400> 146
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Thr Asn Ala Thr Gly Glu Arg Asn Leu
50 55 60
Ala Leu Ile Gln Glu Val Leu Glu Val Phe Pro Glu Thr Ala Arg Lys
65 70 75 80
Glu Arg Arg Lys His Met Met Val Ser Asp Pro Glu Met Glu Ser Val
85 90 95
Gly Lys Cys Ile Ile Ser Asn Arg Lys Ser Gln Pro Gly Val Met Thr
100 105 110
Val Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val Val Phe Gly Pro
115 120 125
Ile Lys Asp Met Ala His Ile Ser His Gly Pro Val Gly Cys Gly Gln
130 135 140
Tyr Ser Arg Ala Gly Arg Arg Asn Gln Tyr Thr Gly Val Ser Gly Val
145 150 155 160
Asp Ser Phe Gly Thr Leu Asn Phe Thr Ser Asp Phe Gln Glu Arg Asp
165 170 175
Ile Val Phe Gly Gly Asp Lys Lys Leu Ser Lys Leu Ile Glu Glu Met
180 185 190
Glu Leu Leu Phe Pro Leu Thr Lys Gly Ile Thr Ile Gln Ser Glu Cys
195 200 205
Pro Val Gly Leu Ile Gly Asp Asp Ile Ser Ala Val Ala Asn Ala Ser
210 215 220
Ser Lys Ala Leu Asp Lys Pro Val Ile Pro Val Arg Cys Glu Gly Phe
225 230 235 240
Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala Asn Asp Val Val
245 250 255
Arg Asp Trp Ile Leu Asn Asn Arg Glu Gly Gln Pro Phe Glu Thr Thr
260 265 270
Pro Tyr Asp Val Ala Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala
275 280 285
Trp Ala Ser Arg Ile Leu Leu Glu Glu Met Gly Leu Arg Val Val Ala
290 295 300
Gln Trp Ser Gly Asp Gly Thr Leu Val Glu Met Glu Asn Thr Pro Phe
305 310 315 320
Val Lys Leu Asn Leu Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ala
325 330 335
Arg His Met Glu Glu Lys His Gln Ile Pro Trp Met Glu Tyr Asn Phe
340 345 350
Phe Gly Pro Thr Lys Ile Ala Glu Ser Leu Arg Lys Ile Ala Asp Gln
355 360 365
Phe Asp Asp Thr Ile Arg Ala Asn Ala Glu Ala Val Ile Ala Arg Tyr
370 375 380
Glu Gly Gln Met Ala Ala Ile Ile Ala Lys Tyr Arg Pro Arg Leu Glu
385 390 395 400
Gly Arg Lys Val Leu Leu Tyr Met Gly Gly Leu Arg Pro Arg His Val
405 410 415
Ile Gly Ala Tyr Glu Asp Leu Gly Met Glu Ile Ile Ala Ala Gly Tyr
420 425 430
Glu Phe Ala His Asn Asp Asp Tyr Asp Arg Thr Leu Pro Asp Leu Lys
435 440 445
Glu Gly Thr Leu Leu Phe Asp Asp Ala Ser Ser Tyr Glu Leu Glu Ala
450 455 460
Phe Val Lys Ala Leu Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu
465 470 475 480
Lys Tyr Ile Phe Gln Lys Met Gly Val Pro Phe Arg Gln Met His Ser
485 490 495
Trp Asp Tyr Ser Gly Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe
500 505 510
Ala Arg Asp Met Asp Met Thr Leu Asn Asn Pro Ala Trp Asn Glu Leu
515 520 525
Thr Ala Pro Trp Leu Lys Ser Ala Ala Thr Pro Pro Pro Gly Ser Thr
530 535 540
Thr Thr Ala Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Thr Pro Pro Pro
545 550 555 560
Gly Ser Thr Thr Thr Ala Ser Gln Thr Ile Asp Lys Ile Asn Ser Cys
565 570 575
Tyr Pro Leu Phe Glu Gln Asp Glu Tyr Gln Glu Leu Phe Arg Asn Lys
580 585 590
Arg Gln Leu Glu Glu Ala His Asp Ala Gln Arg Val Gln Glu Val Phe
595 600 605
Ala Trp Thr Thr Thr Ala Glu Tyr Glu Ala Leu Asn Phe Gln Arg Glu
610 615 620
Ala Leu Thr Val Asp Pro Ala Lys Ala Cys Gln Pro Leu Gly Ala Val
625 630 635 640
Leu Cys Ser Leu Gly Phe Ala Asn Thr Leu Pro Tyr Val His Gly Ser
645 650 655
Gln Gly Cys Val Ala Tyr Phe Arg Thr Tyr Phe Asn Arg His Phe Lys
660 665 670
Glu Pro Ile Ala Cys Val Ser Asp Ser Met Thr Glu Asp Ala Ala Val
675 680 685
Phe Gly Gly Asn Asn Asn Met Asn Leu Gly Leu Gln Asn Ala Ser Ala
690 695 700
Leu Tyr Lys Pro Glu Ile Ile Ala Val Ser Thr Thr Cys Met Ala Glu
705 710 715 720
Val Ile Gly Asp Asp Leu Gln Ala Phe Ile Ala Asn Ala Lys Lys Asp
725 730 735
Gly Phe Val Asp Ser Ser Ile Ala Val Pro His Ala His Thr Pro Ser
740 745 750
Phe Ile Gly Ser His Val Thr Gly Trp Asp Asn Met Phe Glu Gly Phe
755 760 765
Ala Lys Thr Phe Thr Ala Asp Tyr Gln Gly Gln Pro Gly Lys Leu Pro
770 775 780
Lys Leu Asn Leu Val Thr Gly Phe Glu Thr Tyr Leu Gly Asn Phe Arg
785 790 795 800
Val Leu Lys Arg Met Met Glu Gln Met Ala Val Pro Cys Ser Leu Leu
805 810 815
Ser Asp Pro Ser Glu Val Leu Asp Thr Pro Ala Asp Gly His Tyr Arg
820 825 830
Met Tyr Ser Gly Gly Thr Thr Gln Gln Glu Met Lys Glu Ala Pro Asp
835 840 845
Ala Ile Asp Thr Leu Leu Leu Gln Pro Trp Gln Leu Leu Lys Ser Lys
850 855 860
Lys Val Val Gln Glu Met Trp Asn Gln Pro Ala Thr Glu Val Ala Ile
865 870 875 880
Pro Leu Gly Leu Ala Ala Thr Asp Glu Leu Leu Met Thr Val Ser Gln
885 890 895
Leu Ser Gly Lys Pro Ile Ala Asp Ala Leu Thr Leu Glu Arg Gly Arg
900 905 910
Leu Val Asp Met Met Leu Asp Ser His Thr Trp Leu His Gly Lys Lys
915 920 925
Phe Gly Leu Tyr Gly Asp Pro Asp Phe Val Met Gly Leu Thr Arg Phe
930 935 940
Leu Leu Glu Leu Gly Cys Glu Pro Thr Val Ile Leu Ser His Asn Ala
945 950 955 960
Asn Lys Arg Trp Gln Lys Ala Met Asn Lys Met Leu Asp Ala Ser Pro
965 970 975
Tyr Gly Arg Asp Ser Glu Val Phe Ile Asn Cys Asp Leu Trp His Phe
980 985 990
Arg Ser Leu Met Phe Thr Arg Gln Pro Asp Phe Met Ile Gly Asn Ser
995 1000 1005
Tyr Gly Lys Phe Ile Gln Arg Asp Thr Leu Ala Lys Gly Lys Ala
1010 1015 1020
Phe Glu Val Pro Leu Ile Arg Leu Gly Phe Pro Leu Phe Asp Arg
1025 1030 1035
His His Leu His Arg Gln Thr Thr Trp Gly Tyr Glu Gly Ala Met
1040 1045 1050
Asn Ile Val Thr Thr Leu Val Asn Ala Val Leu Glu Lys Leu Asp
1055 1060 1065
Ser Asp Thr Ser Gln Leu Gly Lys Thr Asp Tyr Ser Phe Asp Leu
1070 1075 1080
Val Arg
1085
<210> 147
<211> 533
<212> PRT
<213> 人工序列
<220>
<223> SN192编码的MTP-FAγ51::NifB::HA 融合多肽的氨基酸序列
根据Temme等人 (2012),氨基酸1-54对应于含GG的MTP-FAγ51, 氨基酸55-522对应于产酸克雷伯氏杆菌NifB以及氨基酸523-533
<400> 147
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Thr Ser Cys Ser Ser Phe Ser Gly Gly
50 55 60
Lys Ala Cys Arg Pro Ala Asp Asp Ser Ala Leu Thr Pro Leu Val Ala
65 70 75 80
Asp Lys Ala Ala Ala His Pro Cys Tyr Ser Arg His Gly His His Arg
85 90 95
Phe Ala Arg Met His Leu Pro Val Ala Pro Ala Cys Asn Leu Gln Cys
100 105 110
Asn Tyr Cys Asn Arg Lys Phe Asp Cys Ser Asn Glu Ser Arg Pro Gly
115 120 125
Val Ser Ser Thr Leu Leu Thr Pro Glu Gln Ala Val Val Lys Val Arg
130 135 140
Gln Val Ala Gln Ala Ile Pro Gln Leu Ser Val Val Gly Ile Ala Gly
145 150 155 160
Pro Gly Asp Pro Leu Ala Asn Ile Ala Arg Thr Phe Arg Thr Leu Glu
165 170 175
Leu Ile Arg Glu Gln Leu Pro Asp Leu Lys Leu Cys Leu Ser Thr Asn
180 185 190
Gly Leu Met Leu Pro Asp Ala Val Asp Arg Leu Leu Asp Val Gly Val
195 200 205
Asp His Val Thr Val Thr Ile Asn Thr Leu Asp Ala Glu Ile Ala Ala
210 215 220
Gln Ile Tyr Ala Trp Leu Trp Leu Asp Gly Glu Arg Tyr Ser Gly Arg
225 230 235 240
Glu Ala Gly Glu Ile Leu Ile Ala Arg Gln Leu Glu Gly Val Arg Arg
245 250 255
Leu Thr Ala Lys Gly Val Leu Val Lys Ile Asn Ser Val Leu Ile Pro
260 265 270
Gly Ile Asn Asp Ser Gly Met Ala Asp Val Ser Arg Ala Leu Arg Ala
275 280 285
Ser Gly Ala Phe Ile His Asn Ile Met Pro Leu Ile Ala Arg Pro Glu
290 295 300
His Gly Thr Val Phe Gly Leu Asn Gly Gln Pro Glu Pro Asp Ala Glu
305 310 315 320
Thr Leu Ala Ala Thr Arg Ser Arg Cys Gly Glu Val Met Pro Gln Met
325 330 335
Thr His Cys His Gln Cys Arg Ala Asp Ala Ile Gly Met Leu Gly Glu
340 345 350
Asp Arg Ser Gln Gln Phe Thr Gln Leu Pro Ala Pro Glu Ser Leu Pro
355 360 365
Ala Trp Leu Pro Ile Leu His Gln Arg Ala Gln Leu His Ala Ser Ile
370 375 380
Ala Thr Arg Gly Glu Ser Glu Ala Asp Asp Ala Cys Leu Val Ala Val
385 390 395 400
Ala Ser Ser Arg Gly Asp Val Ile Asp Cys His Phe Gly His Ala Asp
405 410 415
Arg Phe Tyr Ile Tyr Ser Leu Ser Ala Ala Gly Met Val Leu Val Asn
420 425 430
Glu Arg Phe Thr Pro Lys Tyr Cys Gln Gly Arg Asp Asp Cys Glu Pro
435 440 445
Gln Asp Asn Ala Ala Arg Phe Ala Ala Ile Leu Glu Leu Leu Ala Asp
450 455 460
Val Lys Ala Val Phe Cys Val Arg Ile Gly His Thr Pro Trp Gln Gln
465 470 475 480
Leu Glu Gln Glu Gly Ile Glu Pro Cys Val Asp Gly Ala Trp Arg Pro
485 490 495
Val Ser Glu Val Leu Pro Ala Trp Trp Gln Gln Arg Arg Gly Ser Trp
500 505 510
Pro Ala Ala Leu Pro His Lys Gly Val Ala Gly Gly Tyr Pro Tyr Asp
515 520 525
Val Pro Asp Tyr Ala
530
<210> 148
<211> 479
<212> PRT
<213> 巴西固氮螺菌
<400> 148
Met Ser Leu Ser Val Asn Glu Gly Val Asp Val Lys Gly Leu Val Asp
1 5 10 15
Lys Val Leu Glu Ala Tyr Pro Glu Lys Ser Arg Lys Arg Arg Ala Lys
20 25 30
His Leu Asn Val Leu Glu Ala Glu Ala Lys Asp Cys Gly Val Lys Ser
35 40 45
Asn Ile Lys Ser Ile Pro Gly Val Met Thr Ile Arg Gly Cys Ala Tyr
50 55 60
Ala Gly Ser Lys Gly Val Val Trp Gly Pro Ile Lys Asp Met Ile His
65 70 75 80
Ile Ser His Gly Pro Val Gly Cys Gly Tyr Tyr Ser Trp Ser Gly Arg
85 90 95
Arg Asn Tyr Tyr Val Gly Asp Thr Gly Val Asp Ser Trp Gly Thr Met
100 105 110
His Phe Thr Ser Asp Phe Gln Glu Lys Asp Ile Val Phe Gly Gly Asp
115 120 125
Lys Lys Leu His Lys Val Ile Glu Glu Ile Asn Glu Leu Phe Pro Leu
130 135 140
Val Asn Gly Ile Ser Ile Gln Ser Glu Cys Pro Ile Gly Leu Ile Gly
145 150 155 160
Asp Asp Ile Glu Ala Val Ala Arg Ala Lys Ser Glu Glu Leu Gly Lys
165 170 175
Pro Val Val Pro Val Arg Cys Glu Gly Phe Arg Gly Val Ser Gln Ser
180 185 190
Leu Gly His His Ile Ala Asn Asp Val Ile Arg Asp Trp Ile Phe Glu
195 200 205
Lys Thr Glu Pro Lys Glu Gly Phe Val Ser Thr Pro Tyr Asp Val Thr
210 215 220
Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala Trp Ala Ser Arg Ile
225 230 235 240
Leu Leu Glu Glu Ile Gly Leu Arg Val Ile Ala Gln Trp Ser Gly Asp
245 250 255
Gly Thr Leu Ala Glu Leu Glu Asn Thr Pro Lys Ala Lys Val Asn Leu
260 265 270
Ile His Cys Tyr Arg Ser Met Asn Tyr Ile Ala Arg His Met Glu Glu
275 280 285
Lys Phe Gly Ile Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Ser Gln
290 295 300
Ile Ala Glu Ser Leu Arg Lys Ile Ala Ala Leu Phe Asp Asp Thr Ile
305 310 315 320
Lys Glu Asn Ala Glu Lys Val Ile Ala Lys Tyr Gln Pro Met Val Asp
325 330 335
Ala Val Ile Ala Lys Phe Lys Pro Arg Leu Glu Gly Lys Lys Val Met
340 345 350
Ile Tyr Val Gly Gly Leu Arg Pro Arg His Val Val Asp Ala Tyr His
355 360 365
Asp Leu Gly Met Glu Ile Val Gly Thr Gly Tyr Glu Phe Ala His Asn
370 375 380
Asp Asp Tyr Gln Arg Thr Gln His Tyr Val Lys Glu Gly Thr Leu Ile
385 390 395 400
Tyr Asp Asp Val Thr Ala Phe Glu Leu Glu Lys Phe Val Glu Val Met
405 410 415
Arg Pro Asp Leu Val Ala Ser Gly Ile Lys Glu Lys Tyr Val Phe Gln
420 425 430
Lys Met Gly Leu Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly
435 440 445
Pro Tyr His Gly Tyr Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp
450 455 460
Leu Ala Ile Asn Asn Pro Val Trp Gly Ile Met Lys Ala Pro Phe
465 470 475
<210> 149
<211> 492
<212> PRT
<213> 棕色固氮菌
<400> 149
Met Thr Gly Met Ser Arg Glu Glu Val Glu Ser Leu Ile Gln Glu Val
1 5 10 15
Leu Glu Val Tyr Pro Glu Lys Ala Arg Lys Asp Arg Asn Lys His Leu
20 25 30
Ala Val Asn Asp Pro Ala Val Thr Gln Ser Lys Lys Cys Ile Ile Ser
35 40 45
Asn Lys Lys Ser Gln Pro Gly Leu Met Thr Ile Arg Gly Cys Ala Tyr
50 55 60
Ala Gly Ser Lys Gly Val Val Trp Gly Pro Ile Lys Asp Met Ile His
65 70 75 80
Ile Ser His Gly Pro Val Gly Cys Gly Gln Tyr Ser Arg Ala Gly Arg
85 90 95
Arg Asn Tyr Tyr Ile Gly Thr Thr Gly Val Asn Ala Phe Val Thr Met
100 105 110
Asn Phe Thr Ser Asp Phe Gln Glu Lys Asp Ile Val Phe Gly Gly Asp
115 120 125
Lys Lys Leu Ala Lys Leu Ile Asp Glu Val Glu Thr Leu Phe Pro Leu
130 135 140
Asn Lys Gly Ile Ser Val Gln Ser Glu Cys Pro Ile Gly Leu Ile Gly
145 150 155 160
Asp Asp Ile Glu Ser Val Ser Lys Val Lys Gly Ala Glu Leu Ser Lys
165 170 175
Thr Ile Val Pro Val Arg Cys Glu Gly Phe Arg Gly Val Ser Gln Ser
180 185 190
Leu Gly His His Ile Ala Asn Asp Ala Val Arg Asp Trp Val Leu Gly
195 200 205
Lys Arg Asp Glu Asp Thr Thr Phe Ala Ser Thr Pro Tyr Asp Val Ala
210 215 220
Ile Ile Gly Asp Tyr Asn Ile Gly Gly Asp Ala Trp Ser Ser Arg Ile
225 230 235 240
Leu Leu Glu Glu Met Gly Leu Arg Cys Val Ala Gln Trp Ser Gly Asp
245 250 255
Gly Ser Ile Ser Glu Ile Glu Leu Thr Pro Lys Val Lys Leu Asn Leu
260 265 270
Val His Cys Tyr Arg Ser Met Asn Tyr Ile Ser Arg His Met Glu Glu
275 280 285
Lys Tyr Gly Ile Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Thr Lys
290 295 300
Thr Ile Glu Ser Leu Arg Ala Ile Ala Ala Lys Phe Asp Glu Ser Ile
305 310 315 320
Gln Lys Lys Cys Glu Glu Val Ile Ala Lys Tyr Lys Pro Glu Trp Glu
325 330 335
Ala Val Val Ala Lys Tyr Arg Pro Arg Leu Glu Gly Lys Arg Val Met
340 345 350
Leu Tyr Ile Gly Gly Leu Arg Pro Arg His Val Ile Gly Ala Tyr Glu
355 360 365
Asp Leu Gly Met Glu Val Val Gly Thr Gly Tyr Glu Phe Ala His Asn
370 375 380
Asp Asp Tyr Asp Arg Thr Met Lys Glu Met Gly Asp Ser Thr Leu Leu
385 390 395 400
Tyr Asp Asp Val Thr Gly Tyr Glu Phe Glu Glu Phe Val Lys Arg Ile
405 410 415
Lys Pro Asp Leu Ile Gly Ser Gly Ile Lys Glu Lys Phe Ile Phe Gln
420 425 430
Lys Met Gly Ile Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly
435 440 445
Pro Tyr His Gly Phe Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp
450 455 460
Met Thr Leu Asn Asn Pro Cys Trp Lys Lys Leu Gln Ala Pro Trp Glu
465 470 475 480
Ala Ser Glu Gly Ala Glu Lys Val Ala Ala Ser Ala
485 490
<210> 150
<211> 504
<212> PRT
<213> 费氏中华根瘤菌
<400> 150
Met Ser Leu Asp Tyr Glu Asn Asp Ser Ala Leu His Gln Glu Leu Ile
1 5 10 15
Thr Gln Val Leu Ser Gln Tyr Pro His Lys Ala Ala Lys Arg Arg Gln
20 25 30
Lys His Leu Ser Val Ala Ser Asp Arg Glu Ala Val Gly Glu Glu Gly
35 40 45
Glu Thr Leu Ser Glu Cys Asp Val Lys Ser Asn Ile Lys Ser Ile Pro
50 55 60
Gly Val Met Thr Ile Arg Gly Cys Ala Tyr Ala Gly Ser Lys Gly Val
65 70 75 80
Val Trp Gly Pro Val Lys Asp Met Val His Ile Ser His Gly Pro Val
85 90 95
Gly Cys Gly Gln Tyr Ser Trp Ser Gln Arg Arg Asn Tyr Tyr Val Gly
100 105 110
Thr Thr Gly Val Asp Thr Phe Val Thr Met Gln Phe Thr Ser Asp Phe
115 120 125
Gln Glu Lys Asp Ile Val Phe Gly Gly Asp Lys Lys Leu Glu Gln Val
130 135 140
Ile Asp Glu Ile Glu Glu Leu Phe Pro Leu Asn Asn Gly Ile Thr Ile
145 150 155 160
Gln Ser Glu Cys Pro Ile Gly Leu Ile Gly Asp Asp Ile Glu Ala Val
165 170 175
Ser Arg Lys Lys Ala Ala Glu His Glu Thr Thr Ile Val Pro Val Arg
180 185 190
Cys Glu Gly Phe Arg Gly Val Ser Gln Ser Leu Gly His His Ile Ala
195 200 205
Asn Asp Ala Ile Arg Asp Trp Val Phe Asp Lys Ala Asp Gly Lys Thr
210 215 220
Asp Val Glu Phe Glu Thr Gly Pro Tyr Asp Val Asn Val Ile Gly Asp
225 230 235 240
Tyr Asn Ile Gly Gly Asp Ala Trp Ala Ser Arg Ile Leu Leu Glu Glu
245 250 255
Ile Gly Leu Arg Val Val Gly Asn Trp Ser Gly Asp Ala Thr Leu Ala
260 265 270
Glu Val Glu Arg Ala Pro Arg Ala Lys Leu Asn Leu Ile His Cys Tyr
275 280 285
Arg Ser Met Asn Tyr Ile Cys Arg His Met Glu Glu Arg Tyr Ala Ile
290 295 300
Pro Trp Met Glu Tyr Asn Phe Phe Gly Pro Ser Gln Ile Glu Ala Ser
305 310 315 320
Leu Arg Lys Ile Ala Arg His Phe Gly Pro Thr Ile Glu Glu Arg Ala
325 330 335
Glu Arg Val Ile Ala Lys Tyr Arg Pro Leu Val Asp Ala Val Ile Asp
340 345 350
Lys Tyr Trp Pro Arg Leu Gln Gly Lys Arg Val Met Leu Tyr Val Gly
355 360 365
Gly Leu Arg Pro Arg His Val Ile Thr Ala Tyr Glu Asp Leu Gly Met
370 375 380
Gln Ile Val Gly Thr Gly Tyr Glu Phe Ala His Asn Asp Asp Tyr Gln
385 390 395 400
Arg Thr Gly His Tyr Val Lys Thr Gly Thr Leu Ile Tyr Asp Asp Ala
405 410 415
Thr Ser Tyr Glu Leu Asp Thr Phe Ile Glu Arg Ile Arg Pro Asp Leu
420 425 430
Val Gly Ser Gly Ile Lys Glu Lys Tyr Pro Val Gln Lys Met Gly Ile
435 440 445
Pro Phe Arg Gln Met His Ser Trp Asp Tyr Ser Gly Pro Tyr His Gly
450 455 460
Tyr Asp Gly Phe Ala Ile Phe Ala Arg Asp Met Asp Leu Ala Ile Asn
465 470 475 480
Asn Pro Val Trp Asp Leu Tyr Asp Ala Pro Trp Lys Lys Met Thr Val
485 490 495
Pro Thr Ala Ala Val Ala Ala Glu
500
<210> 151
<211> 543
<212> PRT
<213> 绿硫细菌
<400> 151
Met Glu Ala Lys Val Leu Ile Pro Asp Pro Ser Lys Ile Lys Glu Glu
1 5 10 15
Leu Ile Asn Lys Tyr Pro Ala Lys Val Ala Lys Lys Arg Ser Lys Ser
20 25 30
Ile Val Val Asn Asp Pro Glu Ile Val Pro Glu Val Gln Ala Asn Val
35 40 45
Arg Thr Val Pro Gly Ile Ile Thr Gln Arg Gly Cys Ala Tyr Ala Gly
50 55 60
Cys Lys Gly Val Val Leu Gly Pro Thr Arg Asp Ile Val Asn Ile Val
65 70 75 80
His Gly Pro Ile Gly Cys Ser Phe Tyr Ala Trp Leu Thr Arg Arg Asn
85 90 95
Gln Thr Arg Pro Glu Thr Pro Glu His Glu Asn Tyr Ile Thr Tyr Cys
100 105 110
Phe Ser Thr Asp Met Gln Glu Glu His Val Val Phe Gly Gly Glu Lys
115 120 125
Lys Leu Lys Val Ala Ile Gln Glu Ala Tyr Asp Leu Phe His Pro Lys
130 135 140
Ala Ile Ala Ile Phe Ser Thr Cys Pro Val Gly Leu Ile Gly Asp Asp
145 150 155 160
Val His Ala Val Ala Arg Glu Met Lys Glu Lys Leu Gly Asp Cys Asn
165 170 175
Val Phe Gly Phe Ser Cys Glu Gly Tyr Arg Gly Val Ser Gln Ser Ala
180 185 190
Gly His His Ile Ala Asn Asn Gly Val Phe Lys His Met Val Gly Asn
195 200 205
Asn Asn Glu Val Lys Pro Gly Lys Phe Lys Leu Asn Leu Leu Gly Glu
210 215 220
Tyr Asn Ile Gly Gly Asp Ala Phe Glu Ile Glu Arg Leu Leu Glu Lys
225 230 235 240
Cys Gly Ile Thr Leu Val Ala Ser Phe Ser Gly Asn Ser Thr Val Gly
245 250 255
Ala Ile Glu Asn Ala His Thr Ala Asp Leu Asn Val Ile Met Cys His
260 265 270
Arg Ser Ile Asn Tyr Met Gly Asp Met Met Glu Thr Lys Tyr Gly Ile
275 280 285
Pro Trp Met Lys Val Asn Phe Val Gly Ala Glu Ser Thr Ala Lys Ser
290 295 300
Leu Arg Lys Ile Ala Glu Tyr Phe Gly Asp Glu Glu Leu Lys Ala Lys
305 310 315 320
Val Glu Glu Val Ile Ala Glu Glu Val Pro Ala Val Lys Ala Ile Ile
325 330 335
Asp Glu Ile Arg Pro Arg Thr Glu Gly Lys Thr Ala Met Leu Phe Val
340 345 350
Gly Gly Ser Arg Ala His His Tyr Gln Asp Leu Phe Ser Glu Leu Gly
355 360 365
Met Thr Thr Ile Ala Ala Gly Tyr Glu Phe Ala His Arg Asp Asp Tyr
370 375 380
Glu Gly Arg Glu Val Leu Pro Lys Ile Lys Ile Asp Ala Asp Ser Lys
385 390 395 400
Asn Ile Glu Glu Leu Lys Val Thr Ala Asp Pro Glu Leu Tyr Asn Pro
405 410 415
Arg Lys Ser Lys Ala Glu Leu Glu Glu Leu Lys Ala Lys Gly Leu Glu
420 425 430
Ile Asn Gly Tyr Glu Gly Met Met Lys Gln Met Met Lys Lys Thr Leu
435 440 445
Val Val Asp Asp Ile Ser His Tyr Glu Ser Glu Lys Leu Ile Glu Met
450 455 460
Tyr Lys Pro Asp Ile Phe Cys Ala Gly Ile Lys Glu Lys Tyr Val Val
465 470 475 480
Gln Lys Met Gly Val Pro Leu Lys Gln Leu His Ser Tyr Asp Tyr Gly
485 490 495
Gly Pro Tyr Thr Gly Phe Lys Gly Ala Val Asn Phe Tyr Lys Asp Ile
500 505 510
Asp Arg Met Val Asn Asn Pro Val Trp Lys Met Ile Lys Ala Pro Trp
515 520 525
Glu Lys Ser Glu Pro Glu Ser Leu Glu Ala Ser Tyr Val Ala Ser
530 535 540
<210> 152
<211> 544
<212> PRT
<213> 普通脱硫弧菌
<400> 152
Met Ala Leu Lys His Lys Ser Ile Pro Asp Val Ala Thr Val Lys Glu
1 5 10 15
Glu Leu Leu Lys Lys Tyr Pro Thr Lys Val Ala Arg Lys Arg Ala Lys
20 25 30
Gln Ile Val Ile Asn Asp Val Lys Asp Gly Asp Val Val Pro Glu Val
35 40 45
Gln Ala Asn Val Arg Thr Thr Pro Gly Ile Ile Thr Met Arg Gly Cys
50 55 60
Thr Tyr Ala Gly Cys Lys Gly Val Ile Leu Gly Pro Thr Arg Asp Ile
65 70 75 80
Val Asn Ile Thr His Gly Pro Ile Gly Cys Gly Phe Tyr Ser Trp Leu
85 90 95
Thr Arg Arg Asn Gln Thr Lys Ala Pro Leu Glu Ser Ser Glu Asn Phe
100 105 110
Met Pro Tyr Ala Phe Ser Thr Asp Met Gln Asp Glu Asp Ile Ile Phe
115 120 125
Gly Gly Glu Lys Lys Leu Ile Ala Ala Ile Gln Glu Ala Tyr Asp Thr
130 135 140
Phe His Pro Lys Ala Ile Ala Ile Phe Ala Thr Cys Pro Val Gly Leu
145 150 155 160
Ile Gly Asp Asp Ile His Ala Val Ala Arg Lys Met Lys Glu Lys Leu
165 170 175
Gly Ile Asn Ile Phe Ala Phe Ser Cys Glu Gly Tyr Lys Gly Val Ser
180 185 190
Gln Ser Ala Gly His His Ile Ala Asn Asn Gln Ile Phe Thr His Val
195 200 205
Val Gly Glu Asp Asp Thr Pro Lys Leu Gly Glu Tyr Lys Ile Asn Met
210 215 220
Leu Gly Glu Tyr Asn Ile Gly Gly Asp Ala Phe Glu Leu Glu Arg Val
225 230 235 240
Leu Glu Lys Cys Gly Ile Thr Leu Val Ser Thr Phe Ser Gly Asn Ser
245 250 255
Thr Tyr Glu His Phe Ala Thr Ala His Gln Ala Asp Leu Asn Ala Val
260 265 270
Met Cys His Arg Ser Ile Asn Tyr Val Ala Glu Met Met Glu Thr Lys
275 280 285
Tyr Gly Ile Pro Trp Ile Lys Val Asn Phe Ile Gly Ala Glu Ser Ser
290 295 300
Ala Lys Ser Leu Arg Lys Ile Ala Gln Tyr Phe Gly Asp Lys Lys Leu
305 310 315 320
Ile Asp Arg Val Glu Glu Val Ile Ala Glu Glu Met Pro Ala Val His
325 330 335
Ala Ala Leu Glu Asp Val Lys Pro Phe Thr Glu Gly Lys Thr Ala Met
340 345 350
Leu Phe Val Gly Gly Ser Arg Ala His His Tyr Gln Asp Leu Phe Thr
355 360 365
Glu Met Gly Met Lys Thr Ile Ala Ala Gly Tyr Glu Phe Ala His Arg
370 375 380
Asp Asp Tyr Glu Gly Arg Lys Val Met Pro Thr Ile Lys Val Asp Ala
385 390 395 400
Asp Ser Arg Asn Ile Glu Glu Ile Glu Val Thr Pro Asp Ser Thr Arg
405 410 415
Phe Val Pro Arg Lys Ser Asp Glu Asp Leu Lys Arg Leu Ala Glu Ala
420 425 430
Gly Phe Thr Phe Lys Asp Tyr Glu Gly Met Met Pro Gln Met Glu Ser
435 440 445
Asp Thr Leu Val Ile Asp Asp Leu Asn Gln Tyr Glu Ala Asp Lys Leu
450 455 460
Ile Glu Leu Leu Lys Pro Asp Val Phe Cys Ala Gly Ile Lys Glu Lys
465 470 475 480
Phe Ser Val Gln Lys Met Gly Val Pro Met Lys Gln Leu His Ser Tyr
485 490 495
Asp Tyr Gly Gly Pro Tyr Ala Gly Phe Lys Gly Ala Val Asn Phe Tyr
500 505 510
Thr Glu Ile Lys Arg Leu Val Thr Ser Lys Val Trp Ser Asp Leu Lys
515 520 525
Ala Pro Trp Glu Glu Asn Pro Glu Leu Ser Ala Thr Tyr Val Trp Glu
530 535 540
<210> 153
<211> 538
<212> PRT
<213> 人工序列
<220>
<223> 野生型脱硫肠状菌NifD多肽的氨基酸序列, 539aa
<400> 153
Met Ala Ile Asn Glu Lys Val Leu Asp Glu Ile Leu Ser Gln Tyr Pro
1 5 10 15
Thr Lys Val Lys Lys Asn Arg Lys Lys His Ile Ile Ile Lys Asp Pro
20 25 30
Asn Gln Ala Arg Gln Glu Ile Glu Ala Asn Thr Arg Thr Ile Pro Gly
35 40 45
Ile Ile Thr Asn Arg Gly Cys Ala Tyr Ala Gly Cys Lys Gly Val Val
50 55 60
Leu Gly Pro Leu Lys Asp Val Val His Ile Thr His Gly Pro Ile Gly
65 70 75 80
Cys Gly Tyr Tyr Ser Trp Leu Thr Arg Arg Asn Lys Ala Ala Ser Ser
85 90 95
Asp Pro Thr Lys Asn Phe Ile Ser Tyr Cys Phe Ser Thr Asp Met Gln
100 105 110
Glu Ser Asp Ile Val Phe Gly Gly Glu Lys Lys Leu Ala Arg Met Ile
115 120 125
Asp Glu Val Met Glu Ile Phe Lys Pro Asn Ala Ile Thr Ile Ser Ala
130 135 140
Thr Cys Pro Val Gly Leu Ile Gly Asp Asp Leu Gly Ala Val Ala Lys
145 150 155 160
Ala Ala Glu Gln Lys His Gly Ile Thr Val Met His Phe Asn Cys Glu
165 170 175
Gly Tyr Lys Gly Val Ser Gln Ser Ala Gly His His Ile Ala Asn Asn
180 185 190
Thr Leu Met Glu Arg Val Ile Gly Ala Gly Glu Leu Glu Ala Ala Pro
195 200 205
Gly Arg Tyr Pro Ile Asn Ile Leu Gly Glu Tyr Asn Ile Gly Gly Asp
210 215 220
Ser Trp Glu Ile Glu Arg Ile Leu Arg Glu Ile Gly Tyr Thr Val Leu
225 230 235 240
Ser Val Met Thr Gly Asp Gly Ser Tyr Glu Glu Leu Lys Asn Ala His
245 250 255
Val Ala Glu Leu Asn Leu Val Gln Cys His Arg Ser Ile Asn Tyr Ile
260 265 270
Ala Glu Met Leu Glu Thr Lys Tyr Gly Thr Pro Trp Leu Lys Val Asn
275 280 285
Phe Ile Gly Ile Gln Ser Thr Ile Asp Ser Leu Arg Asn Met Ala Ile
290 295 300
Tyr Phe Gly Asp Pro Glu Leu Thr Arg Arg Thr Glu Glu Val Ile Ala
305 310 315 320
Lys Glu Leu Ala Glu Val Glu Pro Val Met Glu Gln Tyr Lys Lys Ile
325 330 335
Cys Gln Gly Lys Thr Ala Phe Cys Phe Val Gly Gly Ser Arg Gly His
340 345 350
His Tyr Gln Gly Leu Phe Ala Glu Leu Gly Met Glu Thr Val Leu Ala
355 360 365
Gly Tyr Glu Phe Ala His Arg Asp Asp Tyr Glu Gly Arg Asp Val Leu
370 375 380
Pro Gln Ile Lys Leu Asp Ala Asp Asn Lys Asn Ile Pro Glu Leu His
385 390 395 400
Val Glu Pro Asp Gln Arg Arg Phe Lys Leu Lys Val Pro Arg Glu Arg
405 410 415
Met Glu Glu Leu Lys Lys Lys Ile Pro Leu Ser Tyr Tyr Ala Gly Met
420 425 430
Met Val Asp Met Lys Gly Gly His Val Val Val Asp Asp Leu Asn His
435 440 445
Tyr Glu Thr Glu Gln Phe Ile Lys Leu Leu Lys Pro Asp Ile Phe Ala
450 455 460
Ser Gly Ile Lys Asp Lys Tyr Val Val Gln Lys Met Gly Ile Pro Ala
465 470 475 480
Lys Gln Leu His Ser Tyr Asp Tyr Ser Gly Pro Tyr Ala Gly Phe Lys
485 490 495
Gly Ala Val Lys Phe Ala Glu Asp Ile Thr Met Ser Phe Ile Ser Pro
500 505 510
Thr Trp Asn Phe Ile Thr Pro Pro Trp Lys Asn Gln Pro Ile Leu Glu
515 520 525
Gly Glu Ile Val Glu Gly Gly Cys Ser Thr
530 535
<210> 154
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<220>
<221> X
<222> (4)..(4)
<223> 除Y以外的任何氨基酸
<400> 154
Arg Arg Asn Xaa
1
<210> 155
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 胰蛋白酶肽序列 from NifM
<400> 155
Asp Ala Phe Ala Pro Leu Ala Gln Arg
1 5
<210> 156
<211> 10
<212> PRT
<213> 人工序列
<220>
<223> 来自NifM的胰蛋白酶肽序列
<400> 156
Asp Tyr Leu Trp Gln Gln Ser Gln Gln Arg
1 5 10
<210> 157
<211> 14
<212> PRT
<213> 人工序列
<220>
<223> 来自CAT多肽的胰蛋白酶肽序列
<400> 157
Ile Thr Gly Tyr Thr Thr Val Asp Ile Ser Gln Trp His Arg
1 5 10
<210> 158
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 来自CAT多肽的胰蛋白酶肽序列
<400> 158
Leu Met Asn Ala His Pro Glu Phe Arg
1 5
<210> 159
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 来自CAT多肽的胰蛋白酶肽序列
<400> 159
Tyr Tyr Thr Gln Gly Asp Lys
1 5
<210> 160
<211> 358
<212> PRT
<213> 人工序列
<220>
<223> SN166编码的MTP-FA?51::NifU::TwinStrep融合多肽的氨基酸序列
氨基酸1-54为含附加的甲硫氨酸翻译起始和C端GG的MTP-FAγ51序列,以及氨基酸 55-328为NifU序列, 以及
<400> 160
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Trp Asn Tyr Ser Glu Lys Val Lys Asp
50 55 60
His Phe Phe Asn Pro Arg Asn Ala Arg Val Val Asp Asn Ala Asn Ala
65 70 75 80
Val Gly Asp Val Gly Ser Leu Ser Cys Gly Asp Ala Leu Arg Leu Met
85 90 95
Leu Arg Val Asp Pro Gln Ser Glu Ile Ile Glu Glu Ala Gly Phe Gln
100 105 110
Thr Phe Gly Cys Gly Ser Ala Ile Ala Ser Ser Ser Ala Leu Thr Glu
115 120 125
Leu Ile Ile Gly His Thr Leu Ala Glu Ala Gly Gln Ile Thr Asn Gln
130 135 140
Gln Ile Ala Asp Tyr Leu Asp Gly Leu Pro Pro Glu Lys Met His Cys
145 150 155 160
Ser Val Met Gly Gln Glu Ala Leu Arg Ala Ala Ile Ala Asn Phe Arg
165 170 175
Gly Glu Ser Leu Glu Glu Glu His Asp Glu Gly Lys Leu Ile Cys Lys
180 185 190
Cys Phe Gly Val Asp Glu Gly His Ile Arg Arg Ala Val Gln Asn Asn
195 200 205
Gly Leu Thr Thr Leu Ala Glu Val Ile Asn Tyr Thr Lys Ala Gly Gly
210 215 220
Gly Cys Thr Ser Cys His Glu Lys Ile Glu Leu Ala Leu Ala Glu Ile
225 230 235 240
Leu Ala Gln Gln Pro Gln Thr Thr Pro Ala Val Ala Ser Gly Lys Asp
245 250 255
Pro His Trp Gln Ser Val Val Asp Thr Ile Ala Glu Leu Arg Pro His
260 265 270
Ile Gln Ala Asp Gly Gly Asp Met Ala Leu Leu Ser Val Thr Asn His
275 280 285
Gln Val Thr Val Ser Leu Ser Gly Ser Cys Ser Gly Cys Met Met Thr
290 295 300
Asp Met Thr Leu Ala Trp Leu Gln Gln Lys Leu Met Glu Arg Thr Gly
305 310 315 320
Cys Tyr Met Glu Val Val Ala Ala Gly Gly Trp Ser His Pro Gln Phe
325 330 335
Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser
340 345 350
His Pro Gln Phe Glu Lys
355
<210> 161
<211> 484
<212> PRT
<213> 人工序列
<220>
<223> SN231编码的MTP-FAγ51::NifS::TwinStrep融合多肽的氨基酸序列
氨基酸1-54为含附加的甲硫氨酸翻译起始和C端GG的MTP-FAγ51序列, 氨基酸55-454为NifS序列, 以及
<400> 161
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Lys Gln Val Tyr Leu Asp Asn Asn Ala
50 55 60
Thr Thr Arg Leu Asp Pro Met Val Leu Glu Ala Met Met Pro Phe Leu
65 70 75 80
Thr Asp Phe Tyr Gly Asn Pro Ser Ser Ile His Asp Phe Gly Ile Pro
85 90 95
Ala Gln Ala Ala Leu Glu Arg Ala His Gln Gln Ala Ala Ala Leu Leu
100 105 110
Gly Ala Glu Tyr Pro Ser Glu Ile Ile Phe Thr Ser Cys Ala Thr Glu
115 120 125
Ala Thr Ala Thr Ala Ile Ala Ser Ala Ile Ala Leu Leu Pro Glu Arg
130 135 140
Arg Glu Ile Ile Thr Ser Val Val Glu His Pro Ala Thr Leu Ala Ala
145 150 155 160
Cys Glu His Leu Glu Arg Gln Gly Tyr Arg Ile His Arg Ile Ala Val
165 170 175
Asp Ser Glu Gly Ala Leu Asp Met Ala Gln Phe Arg Ala Ala Leu Ser
180 185 190
Pro Arg Val Ala Leu Val Ser Val Met Trp Ala Asn Asn Glu Thr Gly
195 200 205
Val Leu Phe Pro Ile Gly Glu Met Ala Glu Leu Ala His Glu Gln Gly
210 215 220
Ala Leu Phe His Cys Asp Ala Val Gln Val Val Gly Lys Ile Pro Ile
225 230 235 240
Ala Val Gly Gln Thr Arg Ile Asp Met Leu Ser Cys Ser Ala His Lys
245 250 255
Phe His Gly Pro Lys Gly Val Gly Cys Leu Tyr Leu Arg Arg Gly Thr
260 265 270
Arg Phe Arg Pro Leu Leu Arg Gly Gly His Gln Glu Tyr Gly Arg Arg
275 280 285
Ala Gly Thr Glu Asn Ile Cys Gly Ile Val Gly Met Gly Ala Ala Cys
290 295 300
Glu Leu Ala Asn Ile His Leu Pro Gly Met Thr His Ile Gly Gln Leu
305 310 315 320
Arg Asn Arg Leu Glu His Arg Leu Leu Ala Ser Val Pro Ser Val Met
325 330 335
Val Met Gly Gly Gly Gln Pro Arg Val Pro Gly Thr Val Asn Leu Ala
340 345 350
Phe Glu Phe Ile Glu Gly Glu Ala Ile Leu Leu Leu Leu Asn Gln Ala
355 360 365
Gly Ile Ala Ala Ser Ser Gly Ser Ala Cys Thr Ser Gly Ser Leu Glu
370 375 380
Pro Ser His Val Met Arg Ala Met Asn Ile Pro Tyr Thr Ala Ala His
385 390 395 400
Gly Thr Ile Arg Phe Ser Leu Ser Arg Tyr Thr Arg Glu Lys Glu Ile
405 410 415
Asp Tyr Val Val Ala Thr Leu Pro Pro Ile Ile Asp Arg Leu Arg Ala
420 425 430
Leu Ser Pro Tyr Trp Gln Asn Gly Lys Pro Arg Pro Ala Asp Ala Val
435 440 445
Phe Thr Pro Val Tyr Gly Gly Gly Trp Ser His Pro Gln Phe Glu Lys
450 455 460
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro
465 470 475 480
Gln Phe Glu Lys
<210> 162
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<400> 162
Ile Ser Thr Gln Val Val Arg Asn Met
1 5
<210> 163
<211> 384
<212> PRT
<213> 人工序列
<220>
<223> 来自棕色固氮菌的NifV多肽的氨基酸序列(AvNifV; 登录号CP001157);384aa
<400> 163
Met Ala Ser Val Ile Ile Asp Asp Thr Thr Leu Arg Asp Gly Glu Gln
1 5 10 15
Ser Ala Gly Val Ala Phe Asn Ala Asp Glu Lys Ile Ala Ile Ala Arg
20 25 30
Ala Leu Ala Glu Leu Gly Val Pro Glu Leu Glu Ile Gly Ile Pro Ser
35 40 45
Met Gly Glu Glu Glu Arg Glu Val Met His Ala Ile Ala Gly Leu Gly
50 55 60
Leu Ser Ser Arg Leu Leu Ala Trp Cys Arg Leu Cys Asp Val Asp Leu
65 70 75 80
Ala Ala Ala Arg Ser Thr Gly Val Thr Met Val Asp Leu Ser Leu Pro
85 90 95
Val Ser Asp Leu Met Leu His His Lys Leu Asn Arg Asp Arg Asp Trp
100 105 110
Ala Leu Arg Glu Val Ala Arg Leu Val Gly Glu Ala Arg Met Ala Gly
115 120 125
Leu Glu Val Cys Leu Gly Cys Glu Asp Ala Ser Arg Ala Asp Leu Glu
130 135 140
Phe Val Val Gln Val Gly Glu Val Ala Gln Ala Ala Gly Ala Arg Arg
145 150 155 160
Leu Arg Phe Ala Asp Thr Val Gly Val Met Glu Pro Phe Gly Met Leu
165 170 175
Asp Arg Phe Arg Phe Leu Ser Arg Arg Leu Asp Met Glu Leu Glu Val
180 185 190
His Ala His Asp Asp Phe Gly Leu Ala Thr Ala Asn Thr Leu Ala Ala
195 200 205
Val Met Gly Gly Ala Thr His Ile Asn Thr Thr Val Asn Gly Leu Gly
210 215 220
Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Cys Val Leu Ala Leu Lys
225 230 235 240
Asn Leu His Gly Ile Asp Thr Gly Ile Asp Thr Arg Gly Ile Pro Ala
245 250 255
Ile Ser Ala Leu Val Glu Arg Ala Ser Gly Arg Gln Val Ala Trp Gln
260 265 270
Lys Ser Val Val Gly Ala Gly Val Phe Thr His Glu Ala Gly Ile His
275 280 285
Val Asp Gly Leu Leu Lys His Arg Arg Asn Tyr Glu Gly Leu Asn Pro
290 295 300
Asp Glu Leu Gly Arg Ser His Ser Leu Val Leu Gly Lys His Ser Gly
305 310 315 320
Ala His Met Val Arg Asn Thr Tyr Arg Asp Leu Gly Ile Glu Leu Ala
325 330 335
Asp Trp Gln Ser Gln Ala Leu Leu Gly Arg Ile Arg Ala Phe Ser Thr
340 345 350
Arg Thr Lys Arg Ser Pro Gln Pro Ala Glu Leu Gln Asp Phe Tyr Arg
355 360 365
Gln Leu Cys Glu Gln Gly Asn Pro Glu Leu Ala Ala Gly Gly Met Ala
370 375 380
<210> 164
<211> 380
<212> PRT
<213> 人工序列
<220>
<223> KoNifV变体序列的氨基酸序列
<400> 164
Met Glu Arg Val Leu Ile Asn Asp Thr Thr Leu Arg Asp Gly Glu Gln
1 5 10 15
Ser Pro Gly Val Ala Phe Arg Thr Ser Glu Lys Val Ala Ile Ala Glu
20 25 30
Ala Leu Tyr Ala Ala Gly Ile Thr Ala Met Glu Val Gly Thr Pro Ala
35 40 45
Met Gly Asp Glu Glu Ile Ala Arg Ile Gln Leu Val Arg Arg Gln Leu
50 55 60
Pro Asp Ala Thr Leu Met Thr Trp Cys Arg Met Asn Ala Leu Glu Ile
65 70 75 80
Arg Gln Ser Ala Asp Leu Gly Ile Asp Trp Val Asp Ile Ser Ile Pro
85 90 95
Ala Ser Asp Lys Leu Arg Gln Tyr Lys Leu Arg Glu Pro Leu Ala Val
100 105 110
Leu Leu Glu Arg Leu Ala Met Phe Ile His Leu Ala His Thr Leu Gly
115 120 125
Leu Lys Val Cys Ile Gly Cys Glu Asp Ala Ser Arg Ala Ser Gly Gln
130 135 140
Thr Leu Arg Ala Ile Ala Glu Val Ala Gln Gln Cys Ala Ala Ala Arg
145 150 155 160
Leu Arg Tyr Ala Asp Thr Val Gly Leu Leu Asp Pro Phe Thr Thr Ala
165 170 175
Ala Gln Ile Ser Ala Leu Arg Asp Val Trp Ser Gly Glu Ile Glu Met
180 185 190
His Ala His Asn Asp Leu Gly Met Ala Thr Ala Asn Thr Leu Ala Ala
195 200 205
Val Ser Ala Gly Ala Thr Ser Val Asn Thr Thr Val Leu Gly Leu Gly
210 215 220
Glu Arg Ala Gly Asn Ala Ala Leu Glu Thr Val Ala Leu Gly Leu Glu
225 230 235 240
Arg Cys Leu Gly Val Glu Thr Gly Val His Phe Ser Ala Leu Pro Ala
245 250 255
Leu Cys Gln Arg Val Ala Glu Ala Ala Gln Arg Ala Ile Asp Pro Gln
260 265 270
Gln Pro Leu Val Gly Glu Leu Val Phe Thr His Glu Ser Gly Val His
275 280 285
Val Ala Ala Leu Leu Arg Asp Ser Glu Ser Tyr Gln Ser Ile Ala Pro
290 295 300
Ser Leu Met Gly Arg Ser Tyr Arg Leu Val Leu Gly Lys His Ser Gly
305 310 315 320
Arg Gln Ala Val Asn Gly Val Phe Asp Gln Met Gly Tyr His Leu Asn
325 330 335
Ala Ala Gln Ile Asn Gln Leu Leu Pro Ala Ile Arg Arg Phe Ala Glu
340 345 350
Asn Trp Lys Arg Ser Pro Lys Asp Tyr Glu Leu Val Ala Ile Tyr Asp
355 360 365
Glu Leu Cys Gly Glu Ser Ala Leu Arg Ala Arg Gly
370 375 380
<210> 165
<211> 12
<212> PRT
<213> 人工序列
<220>
<223> N端延伸区 (scar序列)
<400> 165
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
1 5 10
<210> 166
<211> 22
<212> PRT
<213> 人工序列
<220>
<223> N端AvNifV延伸区 (scar序列)
<400> 166
Ile Ser Thr Gln Val Val Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val
1 5 10 15
Pro Asp Tyr Ala Gly Gly
20
<210> 167
<211> 330
<212> PRT
<213> 人工序列
<220>
<223> SN43编码的MTP-FAγ51::HA::KoNifM多肽的氨基酸序列
氨基酸1-53对应于C端含GG的MTP-FAγ51序列, 氨基酸54-64对应于C端含GG的的HA表位
<400> 167
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Asn Pro Trp Gln Arg Phe Ala Arg Gln Arg Leu Ala Arg Ser Arg
65 70 75 80
Trp Asn Arg Asp Pro Ala Ala Leu Asp Pro Ala Asp Thr Pro Ala Phe
85 90 95
Glu Gln Ala Trp Gln Arg Gln Cys His Met Glu Gln Thr Ile Val Ala
100 105 110
Arg Val Pro Glu Gly Asp Ile Pro Ala Ala Leu Leu Glu Asn Ile Ala
115 120 125
Ala Ser Leu Ala Ile Trp Leu Asp Glu Gly Asp Phe Ala Pro Pro Glu
130 135 140
Arg Ala Ala Ile Val Arg His His Ala Arg Leu Glu Leu Ala Phe Ala
145 150 155 160
Asp Ile Ala Arg Gln Ala Pro Gln Pro Asp Leu Ser Thr Val Gln Ala
165 170 175
Trp Tyr Leu Arg His Gln Thr Gln Phe Met Arg Pro Glu Gln Arg Leu
180 185 190
Thr Arg His Leu Leu Leu Thr Val Asp Asn Asp Arg Glu Ala Val His
195 200 205
Gln Arg Ile Leu Gly Leu Tyr Arg Gln Ile Asn Ala Ser Arg Asp Ala
210 215 220
Phe Ala Pro Leu Ala Gln Arg His Ser His Cys Pro Ser Ala Leu Glu
225 230 235 240
Glu Gly Arg Leu Gly Trp Ile Ser Arg Gly Leu Leu Tyr Pro Gln Leu
245 250 255
Glu Thr Ala Leu Phe Ser Leu Ala Glu Asn Ala Leu Ser Leu Pro Ile
260 265 270
Ala Ser Glu Leu Gly Trp His Leu Leu Trp Cys Glu Ala Ile Arg Pro
275 280 285
Ala Ala Pro Met Glu Pro Gln Gln Ala Leu Glu Ser Ala Arg Asp Tyr
290 295 300
Leu Trp Gln Gln Ser Gln Gln Arg His Gln Arg Gln Trp Leu Glu Gln
305 310 315 320
Met Ile Ser Arg Gln Pro Gly Leu Cys Gly
325 330
<210> 168
<211> 354
<212> PRT
<213> 人工序列
<220>
<223> SN178编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸 32-61 对应于C端含GG的TwinStrep序列, 以及氨基酸62-354
<400> 168
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Ser Leu
50 55 60
Arg Gln Ile Ala Phe Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr
65 70 75 80
Ser Gln Asn Thr Leu Ala Ala Leu Val Glu Leu Asp Gln Lys Ile Leu
85 90 95
Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His
100 105 110
Ala Lys Ala Gln Asp Thr Val Leu His Leu Ala Ala Glu Ala Gly Ser
115 120 125
Val Glu Asp Leu Glu Leu Glu Asp Val Leu Lys Ile Gly Tyr Lys Gly
130 135 140
Ile Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala
145 150 155 160
Gly Arg Gly Val Ile Thr Ser Ile Asn Phe Leu Glu Glu Asn Gly Ala
165 170 175
Tyr Asp Asp Val Asp Tyr Val Ser Tyr Asp Val Leu Gly Asp Val Val
180 185 190
Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala Gln Glu Ile
195 200 205
Tyr Ile Val Met Ser Gly Glu Met Met Ala Leu Tyr Ala Ala Asn Asn
210 215 220
Ile Ala Lys Gly Ile Leu Lys Tyr Ala His Ser Gly Gly Val Arg Leu
225 230 235 240
Gly Gly Leu Ile Cys Asn Glu Arg Gln Thr Asp Lys Glu Ile Asp Leu
245 250 255
Ala Ser Ala Leu Ala Ala Arg Leu Gly Thr Gln Leu Ile His Phe Val
260 265 270
Pro Arg Asp Asn Ile Val Gln His Ala Glu Leu Arg Arg Met Thr Val
275 280 285
Ile Glu Tyr Ala Pro Asp Ser Gln Gln Ala Gln Glu Tyr Arg Gln Leu
290 295 300
Ala Asn Lys Val His Ala Asn Lys Gly Lys Gly Thr Ile Pro Thr Pro
305 310 315 320
Ile Thr Met Glu Glu Leu Glu Glu Met Leu Met Asp Phe Gly Ile Met
325 330 335
Lys Ser Glu Glu Gln Gln Leu Ala Glu Leu Gln Ala Lys Glu Ala Ala
340 345 350
Lys Ala
<210> 169
<211> 356
<212> PRT
<213> 人工序列
<220>
<223> SN179编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-356
<400> 169
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Thr Glu
50 55 60
Asn Ile Arg Gln Ile Ala Phe Tyr Gly Lys Gly Gly Ile Gly Lys Ser
65 70 75 80
Thr Thr Ser Gln Asn Thr Leu Ala Ala Met Ala Glu Met Gly Gln Arg
85 90 95
Ile Met Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Met
100 105 110
Leu His Ser Lys Ala Gln Thr Thr Val Leu His Leu Ala Ala Glu Arg
115 120 125
Gly Ala Val Glu Asp Leu Glu Leu Glu Glu Val Met Leu Thr Gly Phe
130 135 140
Arg Gly Val Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly
145 150 155 160
Cys Ala Gly Arg Gly Ile Ile Thr Ala Ile Asn Phe Leu Glu Glu Asn
165 170 175
Gly Ala Tyr Gln Asp Leu Asp Phe Val Ser Tyr Asp Val Leu Gly Asp
180 185 190
Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Gly Lys Ala Gln
195 200 205
Glu Ile Tyr Ile Val Thr Ser Gly Glu Met Met Ala Met Tyr Ala Ala
210 215 220
Asn Asn Ile Ala Arg Gly Ile Leu Lys Tyr Ala His Ser Gly Gly Val
225 230 235 240
Arg Leu Gly Gly Leu Ile Cys Asn Ser Arg Lys Val Asp Arg Glu Ala
245 250 255
Glu Leu Ile Glu Asn Leu Ala Glu Arg Leu Asn Thr Gln Met Ile His
260 265 270
Phe Val Pro Arg Asp Asn Ile Val Gln His Ala Glu Leu Arg Arg Met
275 280 285
Thr Val Asn Glu Tyr Ala Pro Asp Ser Asn Gln Ser Gln Glu Tyr Arg
290 295 300
Ala Leu Ala Lys Lys Ile Ile Asn Asn Thr Lys Leu Thr Ile Pro Thr
305 310 315 320
Pro Met Glu Met Asp Glu Leu Glu Ala Leu Leu Ile Glu Tyr Gly Ile
325 330 335
Leu Asp Asp Asp Thr Lys His Ala Asp Ile Ile Gly Lys Pro Ala Glu
340 345 350
Ala Ser Ala Lys
355
<210> 170
<211> 348
<212> PRT
<213> 人工序列
<220>
<223> SN180编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸 62-338
<400> 170
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Gln
50 55 60
Ile Ala Phe Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Gln Gln
65 70 75 80
Asn Thr Met Ala Ala Met Ala Glu Met Gly Lys Lys Val Met Ile Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His Ser Lys
100 105 110
Ala Gln Thr Ser Val Ile Gln Leu Ala Ala Glu Lys Gly Ser Val Glu
115 120 125
Asp Leu Glu Leu Asp Glu Val Leu Val Glu Gly Gln Trp Gly Ile Lys
130 135 140
Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg
145 150 155 160
Gly Val Ile Thr Ser Ile Ser Tyr Leu Glu Glu Ala Gly Ala Tyr Glu
165 170 175
Asp Leu Asp Phe Val Thr Tyr Asp Val Leu Gly Asp Val Val Cys Gly
180 185 190
Gly Phe Ala Met Pro Ile Arg Gln Gly Lys Ala Gln Glu Ile Tyr Ile
195 200 205
Val Thr Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn Asn Ile Ala
210 215 220
Arg Gly Ile Leu Lys Tyr Ala His Ser Gly Gly Val Arg Leu Gly Gly
225 230 235 240
Leu Ile Cys Asn Ser Arg Asn Thr Asp Arg Glu Asp Glu Leu Ile Ile
245 250 255
Glu Leu Ala Arg Arg Leu Asn Thr Gln Met Ile His Phe Ile Pro Arg
260 265 270
Asn Asn Val Val Gln His Ala Glu Leu Arg Arg Met Thr Val Ile Glu
275 280 285
Tyr Asp Pro Lys Asn Glu Gln Ala Asp Gln Tyr Arg Gln Leu Ala Lys
290 295 300
Lys Ile Val Asp Asn Asp Met Lys Thr Ile Pro Thr Pro Ile Thr Met
305 310 315 320
Asp Glu Leu Glu Glu Leu Leu Ile Glu Phe Gly Ile Met Glu Gln Glu
325 330 335
Asp Glu Ser Ile Ile Gly Lys Ala Ala Ala Val Ala
340 345
<210> 171
<211> 354
<212> PRT
<213> 人工序列
<220>
<223> SN181编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列,氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-338
<400> 171
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Ala Thr
50 55 60
Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr
65 70 75 80
Thr Gln Asn Leu Val Ala Gly Leu Ala Glu Leu Gly Lys Arg Val Met
85 90 95
Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His
100 105 110
Ser Lys Ala Gln Glu Thr Ile Met Gln Met Ala Ala Asp Ala Gly Ser
115 120 125
Val Glu Asp Leu Glu Leu Glu Asp Val Leu Lys Val Gly Phe Gly Asp
130 135 140
Ile Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala
145 150 155 160
Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu Glu Gly Ala
165 170 175
Tyr Glu Glu Asp Leu Asp Phe Val Phe Tyr Asp Val Leu Gly Asp Val
180 185 190
Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala Gln Glu
195 200 205
Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn
210 215 220
Asn Ile Ala Lys Gly Ile Val Lys Tyr Ala Ser Ser Gly Gly Val Arg
225 230 235 240
Leu Ala Gly Leu Ile Cys Asn Ser Arg Asn Thr Ala Arg Glu Asp Glu
245 250 255
Leu Ile Met Glu Leu Ala Arg Gln Leu Gly Thr Gln Met Ile His Phe
260 265 270
Val Pro Arg Asp Asn Ile Val Gln Arg Ala Glu Ile Arg Arg Met Thr
275 280 285
Val Ile Glu Tyr Asp Pro Lys Ser Gly Gln Ala Asp Glu Tyr Arg Thr
290 295 300
Leu Ala Gln Lys Ile Ile Asp Asn Lys Met Phe Val Val Pro Thr Pro
305 310 315 320
Ile Ser Met Asp Ala Leu Glu Asp Leu Leu Met Glu Phe Gly Val Leu
325 330 335
Glu Glu Glu Asp Glu Ser Ile Val Gly Lys Thr Ala Ala Glu Glu Ala
340 345 350
Val Ala
<210> 172
<211> 345
<212> PRT
<213> 人工序列
<220>
<223> SN182编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸 62-345
<400> 172
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Ser Phe
50 55 60
Asp Glu Ile Ala Pro Asn Ala Lys Lys Val Ala Ile Tyr Gly Lys Gly
65 70 75 80
Gly Ile Gly Lys Ser Thr Thr Thr Gln Asn Thr Ala Ala Ala Leu Ala
85 90 95
Tyr Tyr Tyr Lys Leu Lys Gly Met Ile His Gly Cys Asp Pro Lys Ala
100 105 110
Asp Ser Thr Arg Met Ile Leu His Gly Lys Pro Gln Glu Thr Val Met
115 120 125
Asp Val Leu Arg Glu Glu Gly Glu Glu Gly Val Thr Leu Glu Lys Val
130 135 140
Arg Lys Val Gly Phe Cys Gly Ile Tyr Cys Val Glu Ser Gly Gly Pro
145 150 155 160
Glu Pro Gly Val Gly Cys Ala Gly Arg Gly Val Ile Thr Ala Val Asn
165 170 175
Leu Met Lys Glu Leu Gly Gly Tyr Pro Asp Asp Leu Asp Phe Leu Phe
180 185 190
Phe Asp Val Leu Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro Leu
195 200 205
Arg Asp Gly Leu Ala Lys Glu Ile Tyr Ile Val Ser Ser Gly Glu Met
210 215 220
Met Ala Leu Tyr Ala Ala Asn Asn Ile Ala Lys Gly Ile Leu Lys Tyr
225 230 235 240
Ala Glu Gln Ser Gly Val Arg Leu Gly Gly Ile Ile Cys Asn Ser Arg
245 250 255
Asn Val Asp Gly Glu Arg Glu Leu Met Glu Glu Phe Cys Asp Lys Leu
260 265 270
Gly Thr Lys Leu Ile His Phe Ile Pro Arg Asp Asn Ile Val Gln Lys
275 280 285
Ala Glu Phe Asn Lys Met Thr Val Val Glu Phe Ala Pro Asp His Pro
290 295 300
Gln Ala Leu Glu Tyr Lys Lys Leu Gly Lys Lys Ile Met Asp Asn Asp
305 310 315 320
Glu Leu Val Ile Pro Thr Pro Leu Ser Met Asp Glu Leu Glu Lys Leu
325 330 335
Val Glu Lys Tyr Gly Leu Tyr Asp Lys
340 345
<210> 173
<211> 345
<212> PRT
<213> 人工序列
<220>
<223> SN183编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-345
<400> 173
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Gln
50 55 60
Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Thr Val Ser Ala Leu Ala Glu Met Gly Lys Lys Val Met Ile Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His Ser Lys
100 105 110
Ala Gln Ala Thr Val Met Asp Leu Ala Arg Glu Lys Gly Thr Val Glu
115 120 125
Asp Leu Glu Leu Ser Asp Val Leu Leu Thr Gly Phe Ala Asp Ile Arg
130 135 140
Cys Ala Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg
145 150 155 160
Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu Asn Gly Ala Tyr Thr
165 170 175
Pro Asp Leu Asp Tyr Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys
180 185 190
Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala Gln Glu Ile Tyr
195 200 205
Ile Val Thr Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn Asn Ile
210 215 220
Ala Arg Gly Ile Leu Lys Tyr Ala Ser Ser Gly Lys Val Arg Leu Gly
225 230 235 240
Gly Leu Ile Cys Asn Ser Arg Lys Val Asp Lys Glu Tyr Glu Leu Ile
245 250 255
Asp Glu Leu Ala Thr Arg Leu Gly Thr Gln Met Ile His Phe Leu Pro
260 265 270
Arg Asp Asn Gln Val Gln Arg Ala Glu Leu Arg Arg Met Thr Val Ile
275 280 285
Glu Tyr Ser Pro Asp His Pro Gln Ala Asp Glu Tyr Arg Ala Leu Ala
290 295 300
Lys Lys Ile Asp Glu Asn Lys Lys Leu Val Ile Pro Thr Pro Leu Thr
305 310 315 320
Met Asp Glu Leu Glu Asp Leu Leu Ile Gln Tyr Gly Ile Leu Glu Asp
325 330 335
Glu Glu Thr Ala Ala Ala Lys Leu Gly
340 345
<210> 174
<211> 335
<212> PRT
<213> 人工序列
<220>
<223> SN184编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-335
<400> 174
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Lys
50 55 60
Val Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Thr Val Ala Gly Leu Ala Glu Ala Gly Lys Lys Val Met Val Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Leu Leu Gly Gly Leu
100 105 110
Gln Gln Lys Thr Val Leu Asp Thr Leu Arg Glu Glu Gly Glu Glu Val
115 120 125
Glu Leu Glu Asp Ile Ile Lys Glu Gly Tyr Arg Asn Thr Arg Cys Thr
130 135 140
Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg Gly Ile
145 150 155 160
Ile Thr Ser Val Asn Leu Leu Glu Gln Leu Gly Ala Tyr Asp Asp Glu
165 170 175
Trp Glu Leu Asp Tyr Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys
180 185 190
Gly Gly Phe Ala Met Pro Ile Arg Asp Gly Lys Ala Glu Glu Ile Tyr
195 200 205
Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn Asn Ile
210 215 220
Cys Lys Gly Ile Leu Lys Tyr Ala Asp Ala Gly Gly Val Arg Leu Gly
225 230 235 240
Gly Leu Ile Cys Asn Ser Arg Lys Val Asp Asn Glu Arg Glu Met Ile
245 250 255
Glu Glu Leu Ala Arg Arg Leu Gly Thr Gln Met Ile His Phe Val Pro
260 265 270
Arg Asp Asn Phe Val Gln Arg Ala Glu Ile Asn Arg Lys Thr Val Ile
275 280 285
Asp Phe Asp Pro Thr His Pro Gln Ala Asp Glu Tyr Arg Ala Leu Ala
290 295 300
Lys Lys Ile Asp Glu Asn Lys Met Phe Val Ile Pro Lys Pro Leu Glu
305 310 315 320
Ile Asp Glu Leu Glu Ser Leu Leu Ile Glu Phe Gly Ile Ala Asn
325 330 335
<210> 175
<211> 350
<212> PRT
<213> 人工序列
<220>
<223> SN185编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸 62-350
<400> 175
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Gln
50 55 60
Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Thr Val Ala Gly Leu Ala Ser Ile Gly Lys Lys Val Met Ile Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu His Ala Lys
100 105 110
Ala Gln Ser Thr Val Met Asp Leu Val Arg Glu Leu Gly Thr Val Glu
115 120 125
Asp Leu Glu Leu Glu Asp Val Met Lys Val Gly Tyr Gly Asp Val Lys
130 135 140
Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg
145 150 155 160
Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu Asn Gly Ala Tyr Thr
165 170 175
Pro Asp Leu Asp Phe Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys
180 185 190
Gly Gly Phe Ala Met Pro Ile Arg Glu Gly Lys Ala Glu Glu Ile Tyr
195 200 205
Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn Asn Ile
210 215 220
Ala Lys Gly Ile Leu Lys Tyr Ala Thr Ser Gly Lys Val Arg Leu Ala
225 230 235 240
Gly Leu Ile Cys Asn Ala Arg Lys Thr Asp Lys Glu Tyr Glu Leu Ile
245 250 255
Asp Ala Leu Ala Lys Lys Leu Gly Thr Gln Met Ile His Phe Val Pro
260 265 270
Arg Asp Asn Gln Val Gln Arg Ala Glu Leu Arg Arg Met Thr Val Ile
275 280 285
Glu Tyr Ser Pro Glu His Pro Gln Ala Gln Glu Tyr Arg Thr Leu Ala
290 295 300
Gln Lys Ile Ala Asp Asn Lys Met Leu Val Val Pro Thr Pro Leu Glu
305 310 315 320
Met Glu Glu Leu Glu Asp Leu Leu Met Glu Phe Gly Ile Met Glu Ala
325 330 335
Glu Asp Glu Ser Ile Val Gly Val Ala Glu Ala Ala Ala Val
340 345 350
<210> 176
<211> 355
<212> PRT
<213> 人工序列
<220>
<223> SN186编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列 , 以及氨基酸62-355
<400> 176
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Ala Ser
50 55 60
Leu Arg Gln Ile Ala Phe Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr
65 70 75 80
Thr Ser Gln Asn Thr Leu Ala Ala Leu Ala Glu Met Gly Gln Lys Ile
85 90 95
Leu Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu
100 105 110
His Ala Lys Ala Gln Asp Thr Ile Leu Ser Leu Ala Ala Ser Ala Gly
115 120 125
Ser Val Glu Asp Leu Glu Leu Glu Asp Val Met Lys Val Gly Tyr Gln
130 135 140
Asp Ile Arg Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys
145 150 155 160
Ala Gly Arg Gly Val Ile Thr Ser Ile Asn Phe Leu Glu Glu Asn Gly
165 170 175
Ala Tyr Glu Asn Ile Asp Tyr Val Ser Tyr Asp Val Leu Gly Asp Val
180 185 190
Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys Ala Gln Glu
195 200 205
Ile Tyr Ile Val Met Ser Gly Glu Met Met Ala Met Tyr Ala Ala Asn
210 215 220
Asn Ile Ser Lys Gly Ile Leu Lys Tyr Ala Asn Ser Gly Gly Val Arg
225 230 235 240
Leu Gly Gly Leu Ile Cys Asn Glu Arg Gln Thr Asp Lys Glu Leu Glu
245 250 255
Leu Ala Glu Ala Leu Ala Lys Lys Leu Gly Thr Gln Leu Ile Tyr Phe
260 265 270
Val Pro Arg Asp Asn Val Val Gln His Ala Glu Leu Arg Arg Met Thr
275 280 285
Val Leu Glu Tyr Ala Pro Asp Ser Lys Gln Ala Asp His Tyr Arg Lys
290 295 300
Leu Ala Ala Lys Val His Asn Asn Gly Gly Lys Gly Ile Ile Pro Thr
305 310 315 320
Pro Ile Ser Met Asp Glu Leu Glu Asp Met Leu Met Glu His Gly Ile
325 330 335
Ile Lys Ala Val Asp Glu Ser Ile Ile Gly Lys Thr Ala Ala Glu Leu
340 345 350
Ala Ala Ser
355
<210> 177
<211> 336
<212> PRT
<213> 人工序列
<220>
<223> SN187编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列, 以及氨基酸 62-336
<400> 177
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Val Arg
50 55 60
Lys Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Gln
65 70 75 80
Gln Asn Thr Ala Ala Ala Met Ser Tyr Phe His Gly Lys Asn Val Met
85 90 95
Ile His Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu Gly
100 105 110
Gly Lys Met Gln Thr Thr Met Met Asp Thr Leu Arg Glu Leu Gly Glu
115 120 125
Val Ala Cys Thr Pro Asp Lys Val Ile Glu Thr Gly Phe Gly Gly Ile
130 135 140
Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly
145 150 155 160
Arg Gly Val Ile Thr Ala Ile Thr Leu Met Glu Arg His Gly Val Tyr
165 170 175
Glu Lys Asp Leu Asp Phe Val Phe Phe Asp Val Leu Gly Asp Val Val
180 185 190
Cys Gly Gly Phe Ala Met Pro Val Arg Asp Gly Lys Ala Glu Glu Ile
195 200 205
Tyr Ile Val Ala Ser Gly Glu Met Met Ala Leu Tyr Ala Ala Asn Asn
210 215 220
Ile Cys Lys Gly Met Val Lys Tyr Ala Arg Gln Ser Gly Val Arg Leu
225 230 235 240
Gly Gly Ile Ile Cys Asn Ser Arg Asn Val Asp Gly Glu Lys Glu Leu
245 250 255
Leu Glu Glu Phe Cys Glu Arg Ile Gly Thr Gln Met Ile His Phe Val
260 265 270
Pro Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Lys Lys Ser Val
275 280 285
Ile Glu Phe Asp Pro Glu Cys Asn Gln Ser Gln Glu Tyr Arg Glu Leu
290 295 300
Ala Arg Lys Ile Ile Glu Asn Lys Asp Phe Val Ile Pro Glu Pro Met
305 310 315 320
Thr Met Asp Glu Met Glu Glu Leu Val Val Lys Tyr Gly Val Met Asp
325 330 335
<210> 178
<211> 334
<212> PRT
<213> 人工序列
<220>
<223> SN188编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸 32-61对应于C端含GG的TwinStrep序列,以及氨基酸 62-334
<400> 178
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Gln
50 55 60
Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Leu Thr Ala Ser Leu Ser Thr Met Gly Asn Lys Ile Met Leu Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Met Leu Leu Gly Gly Leu
100 105 110
Asn Gln Lys Thr Val Leu Asp Thr Leu Arg Ser Glu Gly Asp Glu Gly
115 120 125
Val Asp Leu Asp Val Val Met Gln Arg Gly Phe Gly Asp Ile Lys Cys
130 135 140
Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg Gly
145 150 155 160
Ile Ile Thr Ser Ile Gly Leu Leu Glu Asn Leu Gly Ala Tyr Thr Asp
165 170 175
Asp Leu Asp Tyr Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys Gly
180 185 190
Gly Phe Ala Met Pro Ile Arg Glu Gly Lys Ala Lys Glu Ile Tyr Ile
195 200 205
Val Ala Ser Gly Glu Leu Met Ala Ile Tyr Ala Ala Asn Asn Ile Cys
210 215 220
Lys Gly Leu Ala Lys Phe Ala Lys Gly Gly Ala Arg Leu Gly Gly Ile
225 230 235 240
Ile Cys Asn Ser Arg Asn Val Asp Gly Glu Arg Glu Leu Leu Asp Ala
245 250 255
Phe Ala Lys Lys Leu Gly Ser His Leu Ile His Phe Ile Pro Arg Asp
260 265 270
Asn Ile Val Gln Arg Ala Glu Ile Asn Arg Lys Thr Val Ile Asp Phe
275 280 285
Asp Pro Glu Ser Asn Gln Ala Lys Glu Tyr Leu Thr Leu Ala His Asn
290 295 300
Val Gln Asn Asn Asp Lys Leu Val Val Pro Thr Pro Leu Pro Met Glu
305 310 315 320
Glu Leu Glu Ala Met Met Val Glu Phe Gly Ile Val Asp Leu
325 330
<210> 179
<211> 336
<212> PRT
<213> 人工序列
<220>
<223> SN189编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-336
<400> 179
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Gln
50 55 60
Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Thr Val Ala Ala Leu Ala Asp Ala Gly Lys Lys Ile Met Val Val
85 90 95
Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Leu Leu Asn Gly Leu
100 105 110
Asn Gln Lys Thr Val Leu Asp Thr Leu Arg Asp Glu Gly Glu Asp Val
115 120 125
Ile Leu Glu Asp Val Leu Arg Thr Gly Phe Lys Asp Val Lys Cys Val
130 135 140
Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg Gly Ile
145 150 155 160
Ile Thr Ser Ile Asn Leu Leu Glu Ser Leu Gly Ala Tyr Thr Asp Asp
165 170 175
Leu Asp Tyr Val Phe Tyr Asp Val Leu Gly Asp Val Val Cys Gly Gly
180 185 190
Phe Ala Met Pro Ile Arg Glu Gly Lys Ala Arg Glu Ile Tyr Ile Val
195 200 205
Ala Ser Gly Glu Leu Met Ala Leu Tyr Ala Ala Asn Asn Ile Cys Lys
210 215 220
Gly Val Gln Lys Tyr Ala Lys Thr Gly Gly Val Arg Met Gly Gly Ile
225 230 235 240
Ile Cys Asn Ser Arg Lys Val Asp Lys Glu Tyr Asp Leu Leu Lys Ala
245 250 255
Phe Ala Glu Glu Ile Gly Thr Gln Leu Ile His Phe Leu Pro Arg Asp
260 265 270
Asn Val Val Gln Arg Ala Glu Ile Lys Lys Lys Thr Val Ile Asp Tyr
275 280 285
Asp Pro Thr Val Ala Gln Ala Asp Glu Tyr Arg Lys Leu Ala Lys Asn
290 295 300
Ile Asp Glu Asn Thr Met Phe Val Ile Pro Asn Pro Met Thr Gln Asp
305 310 315 320
Arg Leu Glu Glu Leu Met Met Glu His Gly Phe Met Glu Gly Leu Asp
325 330 335
<210> 180
<211> 336
<212> PRT
<213> 人工序列
<220>
<223> SN190编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-336
<400> 180
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Thr Arg
50 55 60
Lys Ile Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Gln
65 70 75 80
Gln Asn Thr Ala Ala Ala Leu Ala Tyr Phe Tyr Gly Lys Lys Val Leu
85 90 95
Ile His Gly Cys Asp Pro Lys Ala Asp Cys Thr Arg Leu Ile Leu Gly
100 105 110
Gly Lys Pro Gln Glu Thr Val Met Asp Thr Met Arg Glu Leu Gly Glu
115 120 125
Asp Ala Val Thr Ile Asp Arg Val Val Lys Thr Gly Phe Cys Gly Ile
130 135 140
Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly
145 150 155 160
Arg Gly Val Ile Thr Ala Ile Ser Leu Met Glu Glu Leu Gly Ala Tyr
165 170 175
Thr Pro Asp Leu Asp Phe Ile Phe Phe Asp Val Leu Gly Asp Val Val
180 185 190
Cys Gly Gly Phe Ala Met Pro Val Arg Glu Gly Lys Ala Gln Glu Ile
195 200 205
Tyr Ile Val Ala Ser Gly Glu Met Met Ala Leu Tyr Ala Ala Asn Asn
210 215 220
Ile Cys Arg Gly Met Val Lys Tyr Ala Glu Gln Ser Gly Val Arg Leu
225 230 235 240
Gly Gly Ile Ile Cys Asn Ser Arg Asn Val Asp Gly Glu Arg Glu Leu
245 250 255
Met Glu Glu Phe Cys Ser Lys Ile Gly Thr Gln Met Ile His Phe Ile
260 265 270
Pro Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Arg Gln Thr Val
275 280 285
Thr Gln Phe Asp Pro Asn Cys Asn Gln Ala Gln Glu Tyr Arg Glu Leu
290 295 300
Ala Arg Lys Ile Ile Glu Asn Asp Met Phe Val Ile Pro Lys Pro Met
305 310 315 320
Thr Met Asp Glu Met Glu Asn Leu Val Ile Lys Tyr Gly Leu Leu Glu
325 330 335
<210> 181
<211> 335
<212> PRT
<213> 人工序列
<220>
<223> SN191编码的MTP-CoxIV::TwinStrep::NifH多肽的氨基酸序列
氨基酸1-31对应于MTP-CoxIV序列, 氨基酸32-61对应于C端含GG的TwinStrep序列,以及氨基酸62-335
<400> 181
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Arg Lys
50 55 60
Ile Ala Ile Tyr Gly Arg Gly Gly Val Gly Lys Ser Thr Thr Thr Gln
65 70 75 80
Asn Val Val Ala Gly Leu Ser Glu Met Ser Arg Lys Val Met Val Val
85 90 95
Gly Cys Asp Ser Lys Ala Asp Ser Thr Arg Leu Leu Leu Gly Gly Leu
100 105 110
His Gln Lys Ile Val Leu Asp Thr Leu Arg Lys Glu Glu Asp Asp Val
115 120 125
Asn Leu Glu Asp Phe Arg Leu Glu Gly Trp Gly Lys Thr Leu Cys Val
130 135 140
Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Thr Gly Arg Gly Ile
145 150 155 160
Leu Thr Ser Ile Gly Leu Leu Glu Gln Leu Gly Ala Tyr Asp Asp Ala
165 170 175
Val Arg Leu Asp Tyr Thr Phe Tyr Asp Gly Leu Gly Asp Val Val Cys
180 185 190
Ser Gly Phe Val Met Pro Ile Arg Glu Arg Lys Ala Gln Glu Ile Tyr
195 200 205
Ile Val Thr Ser Gly Glu Ile Met Ala Met Tyr Thr Ala Asn Asn Ile
210 215 220
Cys Arg Ser Leu Gln Lys Tyr Ala Pro Val Gly Gly Ile Arg Leu Gly
225 230 235 240
Gly Leu Ile Cys Asn Ser Arg Lys Val Asp Arg Glu Asn Asp Leu Val
245 250 255
Glu Ala Leu Ala Glu Lys Leu Gly Thr Gln Thr Ile Tyr Ser Ile Pro
260 265 270
Arg Asp Asn Met Val Gln Arg Ala Glu Phe Tyr Arg Lys Thr Val Ile
275 280 285
Glu Tyr Ala Pro Glu Cys Glu Gln Ala Gln His Tyr Arg Asn Leu Ala
290 295 300
Ala Ala Ile Asp Gln Asn Thr Asp Phe Val Ile Pro Lys Ser Met Ser
305 310 315 320
Ser Asp Arg Leu Glu Glu Leu Leu Val Lys Phe Gly Leu Phe Asp
325 330 335
<210> 182
<211> 583
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::AnfD::HA多肽
<400> 182
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Pro His His Glu Phe Glu Cys Ser Lys
50 55 60
Val Ile Pro Glu Arg Lys Lys His Ala Val Ile Lys Gly Lys Gly Glu
65 70 75 80
Thr Leu Ala Asp Ala Leu Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly
85 90 95
Ser Ile Ser Glu Arg Gly Cys Ala Tyr Cys Gly Ala Lys His Val Ile
100 105 110
Gly Thr Pro Met Lys Asp Val Ile His Ile Ser His Gly Pro Val Gly
115 120 125
Cys Thr Tyr Asp Thr Trp Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp
130 135 140
Asn Phe Gln Leu Lys Tyr Thr Tyr Ala Thr Asp Val Lys Glu Lys His
145 150 155 160
Ile Val Phe Gly Ala Glu Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala
165 170 175
Phe Lys Ala Phe Pro Gln Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys
180 185 190
Ala Thr Ala Leu Ile Gly Asp Asp Ile Asn Ala Ile Ala Glu Glu Val
195 200 205
Met Glu Glu Met Pro Glu Val Asp Ile Phe Val Cys Asn Ser Pro Gly
210 215 220
Phe Ala Gly Pro Ser Gln Ser Gly Gly His His Lys Ile Asn Ile Ala
225 230 235 240
Trp Ile Asn Gln Lys Val Gly Thr Val Glu Pro Glu Ile Thr Gly Asp
245 250 255
His Val Ile Asn Tyr Val Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu
260 265 270
Val Met Val Asp Tyr Phe Lys Arg Met Gly Ile Gln Val Leu Ser Thr
275 280 285
Phe Thr Gly Asn Gly Ser Tyr Asp Gly Leu Arg Ala Met His Arg Ala
290 295 300
His Leu Asn Val Leu Glu Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn
305 310 315 320
Glu Leu Arg Val Arg Tyr Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe
325 330 335
Gly Phe Lys Pro Leu Ala Asp Ser Leu Arg Lys Ile Gly Met Phe Phe
340 345 350
Gly Ile Glu Asp Arg Ala Lys Ala Ile Ile Asp Glu Glu Val Ala Arg
355 360 365
Trp Lys Pro Glu Leu Asp Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys
370 375 380
Val Cys Leu Trp Pro Gly Gly Ser Lys Leu Trp His Trp Ala His Val
385 390 395 400
Ile Glu Glu Glu Met Gly Leu Lys Val Val Ser Val Tyr Thr Lys Phe
405 410 415
Gly His Gln Gly Asp Met Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly
420 425 430
Thr Leu Ala Ile Asp Asp Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu
435 440 445
Glu Met Leu Lys Pro Asp Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu
450 455 460
Val Ala Lys Lys Val Arg Val Pro Tyr Leu Asn Ala His Ala Tyr His
465 470 475 480
Asn Gly Pro Tyr Lys Gly Phe Glu Gly Trp Val Arg Phe Ala Arg Asp
485 490 495
Ile Tyr Asn Ala Ile Tyr Ser Pro Ile His Gln Leu Ser Gly Ile Asp
500 505 510
Ile Thr Lys Asp Asn Ala Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg
515 520 525
Gln Met Leu Ser Asp Gly Asn Leu Ser Asp Ala Val Arg Asn Ser Glu
530 535 540
Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg
545 550 555 560
Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys Val Gly Gly Gly Tyr Pro
565 570 575
Tyr Asp Val Pro Asp Tyr Ala
580
<210> 183
<211> 530
<212> PRT
<213> 人工序列
<220>
<223> HA::AnfD多肽
<400> 183
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly Met Pro His His
1 5 10 15
Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys Lys His Ala Val
20 25 30
Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu Pro Gln Gly Tyr
35 40 45
Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly Cys Ala Tyr Cys
50 55 60
Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp Val Ile His Ile
65 70 75 80
Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp Gln Thr Lys Arg
85 90 95
Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr Thr Tyr Ala Thr
100 105 110
Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu Lys Leu Leu Lys
115 120 125
Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln Ile Lys Arg Met
130 135 140
Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly Asp Asp Ile Asn
145 150 155 160
Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu Val Asp Ile Phe
165 170 175
Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln Ser Gly Gly His
180 185 190
His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val Gly Thr Val Glu
195 200 205
Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val Gly Glu Tyr Asn
210 215 220
Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe Lys Arg Met Gly
225 230 235 240
Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser Tyr Asp Gly Leu
245 250 255
Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu Cys Ala Arg Ser
260 265 270
Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr Gly Ile Pro Arg
275 280 285
Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala Asp Ser Leu Arg
290 295 300
Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala Lys Ala Ile Ile
305 310 315 320
Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp Trp Tyr Lys Glu
325 330 335
Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly Gly Ser Lys Leu
340 345 350
Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly Leu Lys Val Val
355 360 365
Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met Glu Lys Gly Ile
370 375 380
Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp Pro Asn Glu Leu
385 390 395 400
Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp Ile Ile Leu Thr
405 410 415
Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg Val Pro Tyr Leu
420 425 430
Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly Phe Glu Gly Trp
435 440 445
Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr Ser Pro Ile His
450 455 460
Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala Pro Glu Trp Gly
465 470 475 480
Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly Asn Leu Ser Asp
485 490 495
Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp
500 505 510
Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys
515 520 525
Val Gly
530
<210> 184
<211> 526
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::HA::AnfK多肽
<400> 184
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Thr Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro
65 70 75 80
Ile Phe Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile
85 90 95
Lys Asp Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe
100 105 110
Val Arg Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala
115 120 125
Ser Ser Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg
130 135 140
Val Glu Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys
145 150 155 160
Val Val Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp
165 170 175
Val Asp Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys
180 185 190
Phe Pro Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe
195 200 205
Val Gly Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val
210 215 220
Arg His Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu
225 230 235 240
Thr Gly Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu
245 250 255
Gly Glu Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe
260 265 270
Asp Ser Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr
275 280 285
Thr Ile Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala
290 295 300
Leu Asn Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys
305 310 315 320
Phe Glu Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn
325 330 335
Thr Asp Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile
340 345 350
Pro Gln Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala
355 360 365
Asp Leu Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly
370 375 380
Ala Pro Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu
385 390 395 400
Met Lys Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val
405 410 415
Asp Asp Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met
420 425 430
Glu Ile Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys
435 440 445
Asn Glu Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg
450 455 460
Phe Ile Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro
465 470 475 480
Thr Tyr Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly
485 490 495
Gly Ala Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp
500 505 510
Met Glu His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
515 520 525
<210> 185
<211> 339
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::HA::AnfH多肽
<400> 185
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Thr Arg Lys Val Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser
65 70 75 80
Thr Thr Thr Gln Asn Thr Ala Ala Ala Leu Ala Tyr Phe His Asp Lys
85 90 95
Lys Val Phe Ile His Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
100 105 110
Ile Leu Gly Gly Lys Pro Gln Glu Thr Leu Met Asp Met Leu Arg Asp
115 120 125
Lys Gly Ala Glu Lys Ile Thr Asn Asp Asp Val Ile Lys Lys Gly Phe
130 135 140
Leu Asp Ile Gln Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly
145 150 155 160
Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asp Leu Met Glu Glu Asn
165 170 175
Gly Ala Tyr Thr Asp Asp Leu Asp Phe Val Phe Phe Asp Val Leu Gly
180 185 190
Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Asp Gly Lys Ala
195 200 205
Gln Glu Val Tyr Ile Val Ala Ser Gly Glu Met Met Ala Ile Tyr Ala
210 215 220
Ala Asn Asn Ile Cys Lys Gly Leu Val Lys Tyr Ala Lys Gln Ser Gly
225 230 235 240
Val Arg Leu Gly Gly Ile Ile Cys Asn Ser Arg Lys Val Asp Gly Glu
245 250 255
Arg Glu Phe Leu Glu Glu Phe Thr Ala Ala Ile Gly Thr Lys Met Ile
260 265 270
His Phe Val Pro Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Lys
275 280 285
Lys Thr Val Thr Glu Phe Ala Pro Glu Glu Asn Gln Ala Lys Glu Tyr
290 295 300
Gly Glu Leu Ala Arg Lys Ile Ile Glu Asn Asp Glu Phe Val Ile Pro
305 310 315 320
Lys Pro Leu Thr Met Asp Gln Leu Glu Asp Met Val Val Lys Tyr Gly
325 330 335
Ile Ala Asp
<210> 186
<211> 196
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::HA::AnfG多肽
<400> 186
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Ser Thr Ala Ser Ala Ala Ala Val Val Lys Gln Lys Val Glu Ala
65 70 75 80
Pro Val His Pro Met Asp Ala Arg Ile Asp Glu Leu Thr Asp Tyr Ile
85 90 95
Met Lys Asn Cys Leu Trp Gln Phe His Ser Arg Ser Trp Asp Arg Glu
100 105 110
Arg Gln Asn Ala Glu Ile Leu Lys Lys Thr Lys Glu Leu Leu Cys Gly
115 120 125
Glu Pro Val Asp Leu Ser Thr Ser His Asp Arg Cys Tyr Trp Val Asp
130 135 140
Ala Val Cys Leu Ala Asp Asp Tyr Arg Glu His Tyr Pro Trp Ile Asn
145 150 155 160
Ser Met Ser Lys Glu Glu Ile Gly Ser Leu Met Gln Gly Leu Lys Asp
165 170 175
Arg Met Asp Tyr Leu Thr Ile Thr Gly Ser Leu Asn Glu Glu Leu Ser
180 185 190
Asp Lys His Tyr
195
<210> 187
<211> 474
<212> PRT
<213> 人工序列
<220>
<223> HA::AnfK多肽
<400> 187
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly Met Thr Cys Glu
1 5 10 15
Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe Thr Cys
20 25 30
Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp Cys Ile
35 40 45
Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg Leu Ile
50 55 60
Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser Ser Leu
65 70 75 80
His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu Glu Ala
85 90 95
Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val Pro Ile
100 105 110
Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp Gly Val
115 120 125
Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro Asp Arg
130 135 140
Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly Ser Met
145 150 155 160
Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His Phe Ala
165 170 175
Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly Trp Val
180 185 190
Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu Met Asp
195 200 205
Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser Pro Ile
210 215 220
Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile Glu Asp
225 230 235 240
Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn Arg Tyr
245 250 255
Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu Ile Pro
260 265 270
Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp Ile Phe
275 280 285
Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln Ser Leu
290 295 300
Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu Thr His
305 310 315 320
Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro Asp Leu
325 330 335
Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys Pro Val
340 345 350
Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp Pro Arg
355 360 365
Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile Val Thr
370 375 380
Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu Gly Leu
385 390 395 400
Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile Ser Ile
405 410 415
Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr Tyr Asp Arg
420 425 430
Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly Gly Ala Ile Trp
435 440 445
Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp Met Glu His Lys
450 455 460
Lys Asn Lys Glu Trp Val Leu Asn Val Trp
465 470
<210> 188
<211> 287
<212> PRT
<213> 人工序列
<220>
<223> HA::AnfH多肽
<400> 188
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly Met Thr Arg Lys
1 5 10 15
Val Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Thr Gln
20 25 30
Asn Thr Ala Ala Ala Leu Ala Tyr Phe His Asp Lys Lys Val Phe Ile
35 40 45
His Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu Ile Leu Gly Gly
50 55 60
Lys Pro Gln Glu Thr Leu Met Asp Met Leu Arg Asp Lys Gly Ala Glu
65 70 75 80
Lys Ile Thr Asn Asp Asp Val Ile Lys Lys Gly Phe Leu Asp Ile Gln
85 90 95
Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg
100 105 110
Gly Val Ile Thr Ala Ile Asp Leu Met Glu Glu Asn Gly Ala Tyr Thr
115 120 125
Asp Asp Leu Asp Phe Val Phe Phe Asp Val Leu Gly Asp Val Val Cys
130 135 140
Gly Gly Phe Ala Met Pro Ile Arg Asp Gly Lys Ala Gln Glu Val Tyr
145 150 155 160
Ile Val Ala Ser Gly Glu Met Met Ala Ile Tyr Ala Ala Asn Asn Ile
165 170 175
Cys Lys Gly Leu Val Lys Tyr Ala Lys Gln Ser Gly Val Arg Leu Gly
180 185 190
Gly Ile Ile Cys Asn Ser Arg Lys Val Asp Gly Glu Arg Glu Phe Leu
195 200 205
Glu Glu Phe Thr Ala Ala Ile Gly Thr Lys Met Ile His Phe Val Pro
210 215 220
Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Lys Lys Thr Val Thr
225 230 235 240
Glu Phe Ala Pro Glu Glu Asn Gln Ala Lys Glu Tyr Gly Glu Leu Ala
245 250 255
Arg Lys Ile Ile Glu Asn Asp Glu Phe Val Ile Pro Lys Pro Leu Thr
260 265 270
Met Asp Gln Leu Glu Asp Met Val Val Lys Tyr Gly Ile Ala Asp
275 280 285
<210> 189
<211> 144
<212> PRT
<213> 人工序列
<220>
<223> HA::AnfG多肽
<400> 189
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly Met Ser Thr Ala
1 5 10 15
Ser Ala Ala Ala Val Val Lys Gln Lys Val Glu Ala Pro Val His Pro
20 25 30
Met Asp Ala Arg Ile Asp Glu Leu Thr Asp Tyr Ile Met Lys Asn Cys
35 40 45
Leu Trp Gln Phe His Ser Arg Ser Trp Asp Arg Glu Arg Gln Asn Ala
50 55 60
Glu Ile Leu Lys Lys Thr Lys Glu Leu Leu Cys Gly Glu Pro Val Asp
65 70 75 80
Leu Ser Thr Ser His Asp Arg Cys Tyr Trp Val Asp Ala Val Cys Leu
85 90 95
Ala Asp Asp Tyr Arg Glu His Tyr Pro Trp Ile Asn Ser Met Ser Lys
100 105 110
Glu Glu Ile Gly Ser Leu Met Gln Gly Leu Lys Asp Arg Met Asp Tyr
115 120 125
Leu Thr Ile Thr Gly Ser Leu Asn Glu Glu Leu Ser Asp Lys His Tyr
130 135 140
<210> 190
<211> 526
<212> PRT
<213> 人工序列
<220>
<223> mFAγ51::HA::AnfK多肽
<400> 190
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Thr Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro
65 70 75 80
Ile Phe Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile
85 90 95
Lys Asp Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe
100 105 110
Val Arg Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala
115 120 125
Ser Ser Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg
130 135 140
Val Glu Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys
145 150 155 160
Val Val Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp
165 170 175
Val Asp Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys
180 185 190
Phe Pro Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe
195 200 205
Val Gly Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val
210 215 220
Arg His Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu
225 230 235 240
Thr Gly Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu
245 250 255
Gly Glu Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe
260 265 270
Asp Ser Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr
275 280 285
Thr Ile Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala
290 295 300
Leu Asn Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys
305 310 315 320
Phe Glu Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn
325 330 335
Thr Asp Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile
340 345 350
Pro Gln Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala
355 360 365
Asp Leu Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly
370 375 380
Ala Pro Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu
385 390 395 400
Met Lys Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val
405 410 415
Asp Asp Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met
420 425 430
Glu Ile Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys
435 440 445
Asn Glu Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg
450 455 460
Phe Ile Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro
465 470 475 480
Thr Tyr Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly
485 490 495
Gly Ala Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp
500 505 510
Met Glu His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
515 520 525
<210> 191
<211> 339
<212> PRT
<213> 人工序列
<220>
<223> mFAγ51::HA::AnfH多肽
<400> 191
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Thr Arg Lys Val Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser
65 70 75 80
Thr Thr Thr Gln Asn Thr Ala Ala Ala Leu Ala Tyr Phe His Asp Lys
85 90 95
Lys Val Phe Ile His Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
100 105 110
Ile Leu Gly Gly Lys Pro Gln Glu Thr Leu Met Asp Met Leu Arg Asp
115 120 125
Lys Gly Ala Glu Lys Ile Thr Asn Asp Asp Val Ile Lys Lys Gly Phe
130 135 140
Leu Asp Ile Gln Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly
145 150 155 160
Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asp Leu Met Glu Glu Asn
165 170 175
Gly Ala Tyr Thr Asp Asp Leu Asp Phe Val Phe Phe Asp Val Leu Gly
180 185 190
Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Asp Gly Lys Ala
195 200 205
Gln Glu Val Tyr Ile Val Ala Ser Gly Glu Met Met Ala Ile Tyr Ala
210 215 220
Ala Asn Asn Ile Cys Lys Gly Leu Val Lys Tyr Ala Lys Gln Ser Gly
225 230 235 240
Val Arg Leu Gly Gly Ile Ile Cys Asn Ser Arg Lys Val Asp Gly Glu
245 250 255
Arg Glu Phe Leu Glu Glu Phe Thr Ala Ala Ile Gly Thr Lys Met Ile
260 265 270
His Phe Val Pro Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Lys
275 280 285
Lys Thr Val Thr Glu Phe Ala Pro Glu Glu Asn Gln Ala Lys Glu Tyr
290 295 300
Gly Glu Leu Ala Arg Lys Ile Ile Glu Asn Asp Glu Phe Val Ile Pro
305 310 315 320
Lys Pro Leu Thr Met Asp Gln Leu Glu Asp Met Val Val Lys Tyr Gly
325 330 335
Ile Ala Asp
<210> 192
<211> 196
<212> PRT
<213> 人工序列
<220>
<223> mFAγ51::HA::AnfG多肽
<400> 192
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Ser Thr Ala Ser Ala Ala Ala Val Val Lys Gln Lys Val Glu Ala
65 70 75 80
Pro Val His Pro Met Asp Ala Arg Ile Asp Glu Leu Thr Asp Tyr Ile
85 90 95
Met Lys Asn Cys Leu Trp Gln Phe His Ser Arg Ser Trp Asp Arg Glu
100 105 110
Arg Gln Asn Ala Glu Ile Leu Lys Lys Thr Lys Glu Leu Leu Cys Gly
115 120 125
Glu Pro Val Asp Leu Ser Thr Ser His Asp Arg Cys Tyr Trp Val Asp
130 135 140
Ala Val Cys Leu Ala Asp Asp Tyr Arg Glu His Tyr Pro Trp Ile Asn
145 150 155 160
Ser Met Ser Lys Glu Glu Ile Gly Ser Leu Met Gln Gly Leu Lys Asp
165 170 175
Arg Met Asp Tyr Leu Thr Ile Thr Gly Ser Leu Asn Glu Glu Leu Ser
180 185 190
Asp Lys His Tyr
195
<210> 193
<211> 582
<212> PRT
<213> 人工序列
<220>
<223> mFAγ51::HA::AnfD多肽
<400> 193
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
65 70 75 80
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
85 90 95
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
100 105 110
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
115 120 125
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
130 135 140
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
145 150 155 160
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
165 170 175
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
180 185 190
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
195 200 205
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
210 215 220
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
225 230 235 240
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
245 250 255
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
260 265 270
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
275 280 285
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
290 295 300
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
305 310 315 320
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
325 330 335
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
340 345 350
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
355 360 365
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
370 375 380
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
385 390 395 400
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
405 410 415
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
420 425 430
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
435 440 445
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
450 455 460
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
465 470 475 480
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
485 490 495
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
500 505 510
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
515 520 525
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
530 535 540
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
545 550 555 560
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
565 570 575
Phe Glu Arg Lys Val Gly
580
<210> 194
<211> 582
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::HA::AnfD多肽
<400> 194
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
65 70 75 80
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
85 90 95
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
100 105 110
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
115 120 125
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
130 135 140
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
145 150 155 160
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
165 170 175
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
180 185 190
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
195 200 205
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
210 215 220
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
225 230 235 240
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
245 250 255
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
260 265 270
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
275 280 285
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
290 295 300
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
305 310 315 320
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
325 330 335
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
340 345 350
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
355 360 365
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
370 375 380
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
385 390 395 400
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
405 410 415
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
420 425 430
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
435 440 445
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
450 455 460
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
465 470 475 480
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
485 490 495
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
500 505 510
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
515 520 525
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
530 535 540
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
545 550 555 560
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
565 570 575
Phe Glu Arg Lys Val Gly
580
<210> 195
<211> 604
<212> PRT
<213> 人工序列
<220>
<223> MTP-FAγ51::AnfD::Twin Strep多肽
<400> 195
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Met Pro His His Glu Phe Glu Cys Ser Lys
50 55 60
Val Ile Pro Glu Arg Lys Lys His Ala Val Ile Lys Gly Lys Gly Glu
65 70 75 80
Thr Leu Ala Asp Ala Leu Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly
85 90 95
Ser Ile Ser Glu Arg Gly Cys Ala Tyr Cys Gly Ala Lys His Val Ile
100 105 110
Gly Thr Pro Met Lys Asp Val Ile His Ile Ser His Gly Pro Val Gly
115 120 125
Cys Thr Tyr Asp Thr Trp Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp
130 135 140
Asn Phe Gln Leu Lys Tyr Thr Tyr Ala Thr Asp Val Lys Glu Lys His
145 150 155 160
Ile Val Phe Gly Ala Glu Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala
165 170 175
Phe Lys Ala Phe Pro Gln Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys
180 185 190
Ala Thr Ala Leu Ile Gly Asp Asp Ile Asn Ala Ile Ala Glu Glu Val
195 200 205
Met Glu Glu Met Pro Glu Val Asp Ile Phe Val Cys Asn Ser Pro Gly
210 215 220
Phe Ala Gly Pro Ser Gln Ser Gly Gly His His Lys Ile Asn Ile Ala
225 230 235 240
Trp Ile Asn Gln Lys Val Gly Thr Val Glu Pro Glu Ile Thr Gly Asp
245 250 255
His Val Ile Asn Tyr Val Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu
260 265 270
Val Met Val Asp Tyr Phe Lys Arg Met Gly Ile Gln Val Leu Ser Thr
275 280 285
Phe Thr Gly Asn Gly Ser Tyr Asp Gly Leu Arg Ala Met His Arg Ala
290 295 300
His Leu Asn Val Leu Glu Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn
305 310 315 320
Glu Leu Arg Val Arg Tyr Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe
325 330 335
Gly Phe Lys Pro Leu Ala Asp Ser Leu Arg Lys Ile Gly Met Phe Phe
340 345 350
Gly Ile Glu Asp Arg Ala Lys Ala Ile Ile Asp Glu Glu Val Ala Arg
355 360 365
Trp Lys Pro Glu Leu Asp Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys
370 375 380
Val Cys Leu Trp Pro Gly Gly Ser Lys Leu Trp His Trp Ala His Val
385 390 395 400
Ile Glu Glu Glu Met Gly Leu Lys Val Val Ser Val Tyr Thr Lys Phe
405 410 415
Gly His Gln Gly Asp Met Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly
420 425 430
Thr Leu Ala Ile Asp Asp Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu
435 440 445
Glu Met Leu Lys Pro Asp Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu
450 455 460
Val Ala Lys Lys Val Arg Val Pro Tyr Leu Asn Ala His Ala Tyr His
465 470 475 480
Asn Gly Pro Tyr Lys Gly Phe Glu Gly Trp Val Arg Phe Ala Arg Asp
485 490 495
Ile Tyr Asn Ala Ile Tyr Ser Pro Ile His Gln Leu Ser Gly Ile Asp
500 505 510
Ile Thr Lys Asp Asn Ala Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg
515 520 525
Gln Met Leu Ser Asp Gly Asn Leu Ser Asp Ala Val Arg Asn Ser Glu
530 535 540
Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg
545 550 555 560
Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys Val Gly Gly Gly Ser Ala
565 570 575
Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser
580 585 590
Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys
595 600
<210> 196
<211> 523
<212> PRT
<213> 人工序列
<220>
<223> MTP-CoxIV::Twin Strep::AnfK多肽
<400> 196
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Thr Cys
50 55 60
Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe Thr
65 70 75 80
Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp Cys
85 90 95
Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg Leu
100 105 110
Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser Ser
115 120 125
Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu Glu
130 135 140
Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val Pro
145 150 155 160
Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp Gly
165 170 175
Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro Asp
180 185 190
Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly Ser
195 200 205
Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His Phe
210 215 220
Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly Trp
225 230 235 240
Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu Met
245 250 255
Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser Pro
260 265 270
Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile Glu
275 280 285
Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn Arg
290 295 300
Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu Ile
305 310 315 320
Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp Ile
325 330 335
Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln Ser
340 345 350
Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu Thr
355 360 365
His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro Asp
370 375 380
Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys Pro
385 390 395 400
Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp Pro
405 410 415
Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile Val
420 425 430
Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu Gly
435 440 445
Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile Ser
450 455 460
Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr Tyr Asp
465 470 475 480
Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly Gly Ala Ile
485 490 495
Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp Met Glu His
500 505 510
Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
515 520
<210> 197
<211> 31
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<400> 197
Asn Ser Glu Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp Ser Val Ser
1 5 10 15
Lys Leu Arg Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys Val Gly
20 25 30
<210> 198
<211> 16
<212> PRT
<213> 人工序列
<220>
<223> 肽序列
<400> 198
Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser
1 5 10 15
<210> 199
<211> 984
<212> PRT
<213> 人工序列
<220>
<223> 用于建模结构的AnfD::接头16::AnfK多肽的氨基酸序列(实施例20)
氨基酸1-509对应于删除N端甲硫氨酸的AnfD序列(棕色固氮菌), 氨基酸510-525对应于
<400> 199
Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys Lys
1 5 10 15
His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu Pro
20 25 30
Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly Cys
35 40 45
Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp Val
50 55 60
Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp Gln
65 70 75 80
Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr Thr
85 90 95
Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu Lys
100 105 110
Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln Ile
115 120 125
Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly Asp
130 135 140
Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu Val
145 150 155 160
Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln Ser
165 170 175
Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val Gly
180 185 190
Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val Gly
195 200 205
Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe Lys
210 215 220
Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser Tyr
225 230 235 240
Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu Cys
245 250 255
Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr Gly
260 265 270
Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala Asp
275 280 285
Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala Lys
290 295 300
Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp Trp
305 310 315 320
Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly Gly
325 330 335
Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly Leu
340 345 350
Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met Glu
355 360 365
Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp Pro
370 375 380
Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp Ile
385 390 395 400
Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg Val
405 410 415
Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly Phe
420 425 430
Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr Ser
435 440 445
Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala Pro
450 455 460
Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly Asn
465 470 475 480
Ser Glu Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp Ser Val Ser Lys
485 490 495
Leu Arg Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys Val Gly Gly Gly
500 505 510
Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Gly Gly Gly Ser Val Lys
515 520 525
Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe Thr Cys Gln Pro
530 535 540
Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp Cys Ile Gly Ile
545 550 555 560
Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg Leu Ile Phe Ser
565 570 575
Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser Ser Leu His Glu
580 585 590
Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu Glu Ala Val Asp
595 600 605
Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val Pro Ile Ile Thr
610 615 620
Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp Gly Val Ile Lys
625 630 635 640
Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro Asp Arg Glu Val
645 650 655
His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly Ser Met Ile Ser
660 665 670
Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His Phe Ala Lys Arg
675 680 685
Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly Trp Val Asn Pro
690 695 700
Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu Met Asp Ile Glu
705 710 715 720
Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser Pro Ile Leu Pro
725 730 735
Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile Glu Asp Leu Ile
740 745 750
Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn Arg Tyr Glu Gly
755 760 765
Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu Ile Pro Ala Ile
770 775 780
Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp Ile Phe Leu Gln
785 790 795 800
Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln Ser Leu Ala His
805 810 815
Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu Thr His Met Phe
820 825 830
Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro Asp Leu Val Ile
835 840 845
Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys Pro Val Leu Leu
850 855 860
Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp Pro Arg Ile Lys
865 870 875 880
Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile Val Thr Asn Ala
885 890 895
Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu Gly Leu Glu Leu
900 905 910
Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile Ser Ile Asp Tyr
915 920 925
Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr Tyr Asp Arg Ala Gly
930 935 940
Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly Gly Ala Ile Trp Leu Ala
945 950 955 960
Glu Gln Met Ala Asn Thr Leu Phe Ala Asp Met Glu His Lys Lys Asn
965 970 975
Lys Glu Trp Val Leu Asn Val Trp
980
<210> 200
<211> 26
<212> PRT
<213> 人工序列
<220>
<223> 接头序列
<400> 200
Gly Gly Gly Gly Ser Gly Gly Gly Ser Tyr Pro Tyr Asp Val Pro Asp
1 5 10 15
Tyr Ala Gly Gly Gly Ser Gly Gly Gly Ser
20 25
<210> 201
<211> 1004
<212> PRT
<213> 人工序列
<220>
<223> 用于建模结构的AnfD::接头26(HA)::AnfK多肽的氨基酸序列
氨基酸1-517对应AnfD序列, 氨基酸518-543对应于26氨基酸接头,以及氨基酸544-1004对应于AnfK
<400> 201
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
1 5 10 15
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
20 25 30
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
35 40 45
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
50 55 60
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
65 70 75 80
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
85 90 95
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
100 105 110
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
115 120 125
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
130 135 140
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
145 150 155 160
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
165 170 175
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
180 185 190
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
195 200 205
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
210 215 220
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
225 230 235 240
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
245 250 255
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
260 265 270
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
275 280 285
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
290 295 300
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
305 310 315 320
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
325 330 335
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
340 345 350
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
355 360 365
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
370 375 380
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
385 390 395 400
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
405 410 415
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
420 425 430
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
435 440 445
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
450 455 460
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
465 470 475 480
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
485 490 495
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
500 505 510
Phe Glu Arg Lys Val Gly Gly Gly Gly Ser Gly Gly Gly Ser Tyr Pro
515 520 525
Tyr Asp Val Pro Asp Tyr Ala Gly Gly Gly Ser Gly Gly Gly Ser Thr
530 535 540
Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe
545 550 555 560
Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp
565 570 575
Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg
580 585 590
Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser
595 600 605
Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu
610 615 620
Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val
625 630 635 640
Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp
645 650 655
Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro
660 665 670
Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly
675 680 685
Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His
690 695 700
Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly
705 710 715 720
Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu
725 730 735
Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser
740 745 750
Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile
755 760 765
Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn
770 775 780
Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu
785 790 795 800
Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp
805 810 815
Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln
820 825 830
Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu
835 840 845
Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro
850 855 860
Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys
865 870 875 880
Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp
885 890 895
Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile
900 905 910
Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu
915 920 925
Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile
930 935 940
Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr Tyr
945 950 955 960
Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly Gly Ala
965 970 975
Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp Met Glu
980 985 990
His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
995 1000
<210> 202
<211> 1068
<212> PRT
<213> 人工序列
<220>
<223> SN272编码的MTP-FAγ51::AnfD::接头26(HA)::AnfK多肽的氨基酸序列
氨基酸 1-64 对应于C端含GG的MTP-FAγ51序列, 氨基酸65-581对应于AnfD序列 (棕色固氮菌)
<400> 202
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
65 70 75 80
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
85 90 95
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
100 105 110
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
115 120 125
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
130 135 140
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
145 150 155 160
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
165 170 175
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
180 185 190
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
195 200 205
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
210 215 220
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
225 230 235 240
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
245 250 255
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
260 265 270
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
275 280 285
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
290 295 300
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
305 310 315 320
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
325 330 335
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
340 345 350
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
355 360 365
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
370 375 380
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
385 390 395 400
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
405 410 415
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
420 425 430
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
435 440 445
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
450 455 460
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
465 470 475 480
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
485 490 495
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
500 505 510
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
515 520 525
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
530 535 540
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
545 550 555 560
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
565 570 575
Phe Glu Arg Lys Val Gly Gly Gly Gly Ser Gly Gly Gly Ser Tyr Pro
580 585 590
Tyr Asp Val Pro Asp Tyr Ala Gly Gly Gly Ser Gly Gly Gly Ser Thr
595 600 605
Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe
610 615 620
Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp
625 630 635 640
Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg
645 650 655
Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser
660 665 670
Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu
675 680 685
Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val
690 695 700
Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp
705 710 715 720
Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro
725 730 735
Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly
740 745 750
Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His
755 760 765
Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly
770 775 780
Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu
785 790 795 800
Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser
805 810 815
Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile
820 825 830
Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn
835 840 845
Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu
850 855 860
Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp
865 870 875 880
Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln
885 890 895
Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu
900 905 910
Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro
915 920 925
Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys
930 935 940
Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp
945 950 955 960
Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile
965 970 975
Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu
980 985 990
Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile
995 1000 1005
Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr
1010 1015 1020
Tyr Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly
1025 1030 1035
Gly Ala Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala
1040 1045 1050
Asp Met Glu His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
1055 1060 1065
<210> 203
<211> 1065
<212> PRT
<213> 人工序列
<220>
<223> SN273编码的MTP-CoxIV::AnfD::接头26(HA)::AnfK多肽的氨基酸序列
氨基酸1-61对应于C端含GG的MTP-CoxIV序列, 氨基酸62-578对应于AnfD序列 (棕色固氮菌)
<400> 203
Met Leu Ser Leu Arg Gln Ser Ile Arg Phe Phe Lys Pro Ala Thr Arg
1 5 10 15
Thr Leu Cys Ser Ser Arg Tyr Leu Leu Gln Gln Lys Pro Ser Ala Trp
20 25 30
Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser Gly Gly Gly Ser Gly
35 40 45
Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Met Pro His
50 55 60
His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys Lys His Ala
65 70 75 80
Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu Pro Gln Gly
85 90 95
Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly Cys Ala Tyr
100 105 110
Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp Val Ile His
115 120 125
Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp Gln Thr Lys
130 135 140
Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr Thr Tyr Ala
145 150 155 160
Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu Lys Leu Leu
165 170 175
Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln Ile Lys Arg
180 185 190
Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly Asp Asp Ile
195 200 205
Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu Val Asp Ile
210 215 220
Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln Ser Gly Gly
225 230 235 240
His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val Gly Thr Val
245 250 255
Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val Gly Glu Tyr
260 265 270
Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe Lys Arg Met
275 280 285
Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser Tyr Asp Gly
290 295 300
Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu Cys Ala Arg
305 310 315 320
Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr Gly Ile Pro
325 330 335
Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala Asp Ser Leu
340 345 350
Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala Lys Ala Ile
355 360 365
Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp Trp Tyr Lys
370 375 380
Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly Gly Ser Lys
385 390 395 400
Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly Leu Lys Val
405 410 415
Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met Glu Lys Gly
420 425 430
Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp Pro Asn Glu
435 440 445
Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp Ile Ile Leu
450 455 460
Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg Val Pro Tyr
465 470 475 480
Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly Phe Glu Gly
485 490 495
Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr Ser Pro Ile
500 505 510
His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala Pro Glu Trp
515 520 525
Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly Asn Leu Ser
530 535 540
Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr Gly Gly Tyr
545 550 555 560
Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala Phe Glu Arg
565 570 575
Lys Val Gly Gly Gly Gly Ser Gly Gly Gly Ser Tyr Pro Tyr Asp Val
580 585 590
Pro Asp Tyr Ala Gly Gly Gly Ser Gly Gly Gly Ser Thr Cys Glu Val
595 600 605
Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe Thr Cys Gln
610 615 620
Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp Cys Ile Gly
625 630 635 640
Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg Leu Ile Phe
645 650 655
Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser Ser Leu His
660 665 670
Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu Glu Ala Val
675 680 685
Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val Pro Ile Ile
690 695 700
Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp Gly Val Ile
705 710 715 720
Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro Asp Arg Glu
725 730 735
Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly Ser Met Ile
740 745 750
Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His Phe Ala Lys
755 760 765
Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly Trp Val Asn
770 775 780
Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu Met Asp Ile
785 790 795 800
Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser Pro Ile Leu
805 810 815
Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile Glu Asp Leu
820 825 830
Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn Arg Tyr Glu
835 840 845
Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu Ile Pro Ala
850 855 860
Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp Ile Phe Leu
865 870 875 880
Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln Ser Leu Ala
885 890 895
His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu Thr His Met
900 905 910
Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro Asp Leu Val
915 920 925
Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys Pro Val Leu
930 935 940
Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp Pro Arg Ile
945 950 955 960
Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile Val Thr Asn
965 970 975
Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu Gly Leu Glu
980 985 990
Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile Ser Ile Asp
995 1000 1005
Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr Tyr Asp Arg
1010 1015 1020
Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly Gly Ala Ile
1025 1030 1035
Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp Met Glu
1040 1045 1050
His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
1055 1060 1065
<210> 204
<211> 1068
<212> PRT
<213> 人工序列
<220>
<223> SN274编码的mFAγ51::AnfD::接头26(HA)::AnfK多肽的氨基酸序列
氨基酸1-64对应于包含不允许MPP切割的丙氨酸置换且C端含GG的的mFAγ51序列, 氨基酸
<400> 204
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
65 70 75 80
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
85 90 95
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
100 105 110
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
115 120 125
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
130 135 140
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
145 150 155 160
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
165 170 175
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
180 185 190
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
195 200 205
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
210 215 220
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
225 230 235 240
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
245 250 255
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
260 265 270
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
275 280 285
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
290 295 300
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
305 310 315 320
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
325 330 335
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
340 345 350
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
355 360 365
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
370 375 380
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
385 390 395 400
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
405 410 415
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
420 425 430
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
435 440 445
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
450 455 460
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
465 470 475 480
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
485 490 495
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
500 505 510
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
515 520 525
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
530 535 540
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
545 550 555 560
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
565 570 575
Phe Glu Arg Lys Val Gly Gly Gly Gly Ser Gly Gly Gly Ser Tyr Pro
580 585 590
Tyr Asp Val Pro Asp Tyr Ala Gly Gly Gly Ser Gly Gly Gly Ser Thr
595 600 605
Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro Ile Phe
610 615 620
Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile Lys Asp
625 630 635 640
Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe Val Arg
645 650 655
Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala Ser Ser
660 665 670
Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg Val Glu
675 680 685
Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys Val Val
690 695 700
Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp Val Asp
705 710 715 720
Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys Phe Pro
725 730 735
Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe Val Gly
740 745 750
Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val Arg His
755 760 765
Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu Thr Gly
770 775 780
Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu Gly Glu
785 790 795 800
Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe Asp Ser
805 810 815
Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr Thr Ile
820 825 830
Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala Leu Asn
835 840 845
Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys Phe Glu
850 855 860
Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn Thr Asp
865 870 875 880
Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile Pro Gln
885 890 895
Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala Asp Leu
900 905 910
Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly Ala Pro
915 920 925
Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu Met Lys
930 935 940
Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val Asp Asp
945 950 955 960
Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met Glu Ile
965 970 975
Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys Asn Glu
980 985 990
Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg Phe Ile
995 1000 1005
Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro Thr
1010 1015 1020
Tyr Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly
1025 1030 1035
Gly Ala Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala
1040 1045 1050
Asp Met Glu His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
1055 1060 1065
<210> 205
<211> 1013
<212> PRT
<213> 人工序列
<220>
<223> 氨基酸序列 SN275编码的HISx6::AnfD::接头26(HA)::AnfK多肽 , 其不含MTP序列且将细胞质定位
氨基酸1-9对应于C端含GG的HISx6序列, 氨基
<400> 205
Met His His His His His His Gly Gly Met Pro His His Glu Phe Glu
1 5 10 15
Cys Ser Lys Val Ile Pro Glu Arg Lys Lys His Ala Val Ile Lys Gly
20 25 30
Lys Gly Glu Thr Leu Ala Asp Ala Leu Pro Gln Gly Tyr Leu Asn Thr
35 40 45
Ile Pro Gly Ser Ile Ser Glu Arg Gly Cys Ala Tyr Cys Gly Ala Lys
50 55 60
His Val Ile Gly Thr Pro Met Lys Asp Val Ile His Ile Ser His Gly
65 70 75 80
Pro Val Gly Cys Thr Tyr Asp Thr Trp Gln Thr Lys Arg Tyr Ile Ser
85 90 95
Asp Asn Asp Asn Phe Gln Leu Lys Tyr Thr Tyr Ala Thr Asp Val Lys
100 105 110
Glu Lys His Ile Val Phe Gly Ala Glu Lys Leu Leu Lys Gln Asn Ile
115 120 125
Ile Glu Ala Phe Lys Ala Phe Pro Gln Ile Lys Arg Met Thr Ile Tyr
130 135 140
Gln Thr Cys Ala Thr Ala Leu Ile Gly Asp Asp Ile Asn Ala Ile Ala
145 150 155 160
Glu Glu Val Met Glu Glu Met Pro Glu Val Asp Ile Phe Val Cys Asn
165 170 175
Ser Pro Gly Phe Ala Gly Pro Ser Gln Ser Gly Gly His His Lys Ile
180 185 190
Asn Ile Ala Trp Ile Asn Gln Lys Val Gly Thr Val Glu Pro Glu Ile
195 200 205
Thr Gly Asp His Val Ile Asn Tyr Val Gly Glu Tyr Asn Ile Gln Gly
210 215 220
Asp Gln Glu Val Met Val Asp Tyr Phe Lys Arg Met Gly Ile Gln Val
225 230 235 240
Leu Ser Thr Phe Thr Gly Asn Gly Ser Tyr Asp Gly Leu Arg Ala Met
245 250 255
His Arg Ala His Leu Asn Val Leu Glu Cys Ala Arg Ser Ala Glu Tyr
260 265 270
Ile Cys Asn Glu Leu Arg Val Arg Tyr Gly Ile Pro Arg Leu Asp Ile
275 280 285
Asp Gly Phe Gly Phe Lys Pro Leu Ala Asp Ser Leu Arg Lys Ile Gly
290 295 300
Met Phe Phe Gly Ile Glu Asp Arg Ala Lys Ala Ile Ile Asp Glu Glu
305 310 315 320
Val Ala Arg Trp Lys Pro Glu Leu Asp Trp Tyr Lys Glu Arg Leu Met
325 330 335
Gly Lys Lys Val Cys Leu Trp Pro Gly Gly Ser Lys Leu Trp His Trp
340 345 350
Ala His Val Ile Glu Glu Glu Met Gly Leu Lys Val Val Ser Val Tyr
355 360 365
Thr Lys Phe Gly His Gln Gly Asp Met Glu Lys Gly Ile Ala Arg Cys
370 375 380
Gly Glu Gly Thr Leu Ala Ile Asp Asp Pro Asn Glu Leu Glu Gly Leu
385 390 395 400
Glu Ala Leu Glu Met Leu Lys Pro Asp Ile Ile Leu Thr Gly Lys Arg
405 410 415
Pro Gly Glu Val Ala Lys Lys Val Arg Val Pro Tyr Leu Asn Ala His
420 425 430
Ala Tyr His Asn Gly Pro Tyr Lys Gly Phe Glu Gly Trp Val Arg Phe
435 440 445
Ala Arg Asp Ile Tyr Asn Ala Ile Tyr Ser Pro Ile His Gln Leu Ser
450 455 460
Gly Ile Asp Ile Thr Lys Asp Asn Ala Pro Glu Trp Gly Asn Gly Phe
465 470 475 480
Arg Thr Arg Gln Met Leu Ser Asp Gly Asn Leu Ser Asp Ala Val Arg
485 490 495
Asn Ser Glu Thr Leu Arg Gln Tyr Thr Gly Gly Tyr Asp Ser Val Ser
500 505 510
Lys Leu Arg Glu Arg Glu Tyr Pro Ala Phe Glu Arg Lys Val Gly Gly
515 520 525
Gly Gly Ser Gly Gly Gly Ser Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
530 535 540
Gly Gly Gly Ser Gly Gly Gly Ser Thr Cys Glu Val Lys Glu Lys Gly
545 550 555 560
Arg Val Gly Thr Ile Asn Pro Ile Phe Thr Cys Gln Pro Ala Gly Ala
565 570 575
Gln Phe Val Ser Ile Gly Ile Lys Asp Cys Ile Gly Ile Val His Gly
580 585 590
Gly Gln Gly Cys Val Met Phe Val Arg Leu Ile Phe Ser Gln His Tyr
595 600 605
Lys Glu Ser Phe Glu Leu Ala Ser Ser Ser Leu His Glu Asp Gly Ala
610 615 620
Val Phe Gly Ala Cys Gly Arg Val Glu Glu Ala Val Asp Val Leu Leu
625 630 635 640
Ser Arg Tyr Pro Asp Val Lys Val Val Pro Ile Ile Thr Thr Cys Ser
645 650 655
Thr Glu Ile Ile Gly Asp Asp Val Asp Gly Val Ile Lys Lys Leu Asn
660 665 670
Glu Gly Leu Leu Lys Glu Lys Phe Pro Asp Arg Glu Val His Leu Ile
675 680 685
Ala Met His Thr Pro Ser Phe Val Gly Ser Met Ile Ser Gly Tyr Asp
690 695 700
Val Ala Val Arg Asp Val Val Arg His Phe Ala Lys Arg Glu Ala Pro
705 710 715 720
Asn Asp Lys Ile Asn Leu Leu Thr Gly Trp Val Asn Pro Gly Asp Val
725 730 735
Lys Glu Leu Lys His Leu Leu Gly Glu Met Asp Ile Glu Ala Asn Val
740 745 750
Leu Phe Glu Ile Glu Ser Phe Asp Ser Pro Ile Leu Pro Asp Gly Ser
755 760 765
Ala Val Ser His Gly Asn Thr Thr Ile Glu Asp Leu Ile Asp Thr Gly
770 775 780
Asn Ala Arg Ala Thr Phe Ala Leu Asn Arg Tyr Glu Gly Thr Lys Ala
785 790 795 800
Ala Glu Tyr Leu Gln Lys Lys Phe Glu Ile Pro Ala Ile Ile Gly Pro
805 810 815
Thr Pro Ile Gly Ile Arg Asn Thr Asp Ile Phe Leu Gln Asn Leu Lys
820 825 830
Lys Ala Thr Gly Lys Pro Ile Pro Gln Ser Leu Ala His Glu Arg Gly
835 840 845
Val Ala Ile Asp Ala Leu Ala Asp Leu Thr His Met Phe Leu Ala Glu
850 855 860
Lys Arg Val Ala Ile Tyr Gly Ala Pro Asp Leu Val Ile Gly Leu Ala
865 870 875 880
Glu Phe Cys Leu Asp Leu Glu Met Lys Pro Val Leu Leu Leu Leu Gly
885 890 895
Asp Asp Asn Ser Lys Tyr Val Asp Asp Pro Arg Ile Lys Ala Leu Gln
900 905 910
Glu Asn Val Asp Tyr Gly Met Glu Ile Val Thr Asn Ala Asp Phe Trp
915 920 925
Glu Leu Glu Asn Arg Ile Lys Asn Glu Gly Leu Glu Leu Asp Leu Ile
930 935 940
Leu Gly His Ser Lys Gly Arg Phe Ile Ser Ile Asp Tyr Asn Ile Pro
945 950 955 960
Met Leu Arg Val Gly Phe Pro Thr Tyr Asp Arg Ala Gly Leu Phe Arg
965 970 975
Tyr Pro Thr Val Gly Tyr Gly Gly Ala Ile Trp Leu Ala Glu Gln Met
980 985 990
Ala Asn Thr Leu Phe Ala Asp Met Glu His Lys Lys Asn Lys Glu Trp
995 1000 1005
Val Leu Asn Val Trp
1010
<210> 206
<211> 383
<212> PRT
<213> 布氏嗜热厌氧杆菌
<400> 206
Met Thr Leu Lys Lys Gly Lys Lys Val Tyr Ile Val Asp Thr Thr Leu
1 5 10 15
Arg Asp Gly Glu Gln Thr Ala Gly Val Val Phe Ala Asn Asn Glu Lys
20 25 30
Ile Arg Ile Ala Gln Met Leu Asp Glu Ile Gly Ile Asp Gln Leu Glu
35 40 45
Val Gly Ile Pro Thr Met Gly Gly Asp Glu Lys Glu Thr Val Thr Lys
50 55 60
Ile Ala Lys Leu Gly Leu Asn Ala Ser Ile Met Ala Trp Asn Arg Ala
65 70 75 80
Val Val Lys Asp Val Gln Glu Ser Leu Glu Cys Gly Val Asp Ala Val
85 90 95
Ala Ile Ser Val Ser Thr Ser Asp Ile His Ile Glu His Lys Leu Lys
100 105 110
Lys Thr Arg Gln Trp Val Leu Asp Asn Met Thr Glu Ala Val Lys Phe
115 120 125
Ala Lys Lys Glu Gly Val Tyr Val Ser Val Asn Ala Glu Asp Ala Ser
130 135 140
Arg Thr Asp Met Asn Phe Leu Ile Glu Phe Ala Lys Cys Ala Lys Gln
145 150 155 160
Ala Gly Ala Asp Arg Leu Arg Phe Cys Asp Thr Val Gly Phe Leu Asp
165 170 175
Pro Phe Lys Thr Tyr Asp Met Val Lys Ala Ile Lys Glu Ala Val Asp
180 185 190
Ile Asp Ile Glu Met His Thr His Asn Asp Phe Gly Met Ala Thr Ala
195 200 205
Asn Ala Leu Ala Gly Met Arg Ala Gly Ala Asn Phe Ile Gly Val Thr
210 215 220
Val Asn Gly Leu Gly Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Val
225 230 235 240
Val Met Ala Leu Lys His Val Tyr Lys Ile Asp Leu Gly Ile Asp Thr
245 250 255
Thr Arg Phe Arg Glu Ile Ser Glu Tyr Val Ala Leu Ala Ser Gly Arg
260 265 270
Gln Leu Pro Ala Trp Lys Ala Ile Val Gly Thr Asn Val Phe Ala His
275 280 285
Glu Ser Gly Ile His Val Asp Gly Ala Leu Lys Asn Pro His Thr Tyr
290 295 300
Glu Ile Phe Asn Pro Asp Glu Val Gly Leu Glu Arg Gln Ile Val Ile
305 310 315 320
Gly Lys His Ser Gly Thr Ala Ala Leu Ile Asn Lys Phe Lys Glu Tyr
325 330 335
Gly Arg Val Leu Thr Glu Glu Glu Ala Asn Leu Leu Leu Pro His Val
340 345 350
Arg Lys Leu Ala Ile Gln Leu Lys Arg Pro Leu Phe Asp Lys Glu Leu
355 360 365
Met Tyr Leu Tyr Glu Asp Val Ile Lys Asn Arg Glu Lys Ala Ile
370 375 380
<210> 207
<211> 378
<212> PRT
<213> Thermincola potens
<400> 207
Met Met Glu Lys Lys Ile Thr Ile Val Asp Thr Thr Leu Arg Asp Gly
1 5 10 15
Glu Gln Thr Ala Gly Val Val Phe Ala Asn Lys Glu Lys Val Arg Ile
20 25 30
Ala Gln Met Leu Asp Glu Leu Gly Val His Gln Ile Glu Ala Gly Ile
35 40 45
Pro Val Met Gly Gly Asp Glu Glu Lys Ala Val Lys Asp Ile Val Lys
50 55 60
Leu Gly Leu Lys Ala Ser Ile Met Gly Trp Asn Arg Ala Val Ile Ser
65 70 75 80
Asp Ile Glu Glu Thr Leu Arg Cys Gly Val Asp Ala Val Ala Ile Ser
85 90 95
Ile Ser Thr Ser Asp Ile His Ile Gln His Lys Leu Gln Thr Ser Arg
100 105 110
Glu Trp Val Leu Glu Asn Met Val Lys Ala Val Glu Phe Ala Lys Lys
115 120 125
Glu Gly Val Tyr Ile Ser Val Asn Ala Glu Asp Ala Ser Arg Ser Asp
130 135 140
Met Glu Phe Leu Ile Gln Phe Ala Arg Ala Ala Lys Glu Ala Gly Ala
145 150 155 160
Asp Arg Ile Arg Tyr Cys Asp Thr Ile Gly Ile Leu Asp Pro Phe Thr
165 170 175
Thr Tyr Glu Asn Ile Gln Thr Leu Lys Lys His Val Asp Ile Asp Ile
180 185 190
Glu Met His Thr His Asn Asp Phe Gly Met Ala Thr Ala Asn Ala Leu
195 200 205
Ala Gly Ile Lys Ala Gly Ala Ser His Val Gly Val Thr Val Met Gly
210 215 220
Leu Gly Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Val Val Met Ala
225 230 235 240
Leu Lys His Ile Trp Gln Ile Asp Leu Gly Phe Lys Thr Asn Met Phe
245 250 255
Arg Asp Leu Ala Glu Tyr Val Ser Leu Ala Ser Gly Arg Glu Leu Pro
260 265 270
Ala Trp Lys Ala Ile Val Gly Ser Asn Met Phe Ala His Glu Ser Gly
275 280 285
Ile His Ala Asp Gly Ala Ile Lys Asn Pro Ile Thr Tyr Glu Val Phe
290 295 300
Ala Pro Glu Glu Val Gly Leu Glu Arg Gln Ile Val Ile Gly Lys His
305 310 315 320
Ser Gly Ser Lys Ala Leu Met Met Lys Phe Ala Glu Tyr Gly Ile His
325 330 335
Leu Ser Glu Ala Asp Ala Ala Gln Leu Leu Pro Lys Ile Arg Ser His
340 345 350
Ala Val Ala Leu Lys Arg Ser Leu Phe Asp Lys Glu Leu Val Tyr Ile
355 360 365
Tyr Glu Glu Val Phe Gly Lys Lys Pro Leu
370 375
<210> 208
<211> 440
<212> PRT
<213> 酿酒酵母
<400> 208
Met Ser Glu Asn Asn Glu Phe Gln Ser Val Thr Glu Ser Thr Thr Ala
1 5 10 15
Pro Thr Thr Ser Asn Pro Tyr Gly Pro Asn Pro Ala Asp Tyr Leu Ser
20 25 30
Asn Val Lys Asn Phe Gln Leu Ile Asp Ser Thr Leu Arg Glu Gly Glu
35 40 45
Gln Phe Ala Asn Ala Phe Phe Asp Thr Glu Lys Lys Ile Glu Ile Ala
50 55 60
Arg Ala Leu Asp Asp Phe Gly Val Asp Tyr Ile Glu Leu Thr Ser Pro
65 70 75 80
Val Ala Ser Glu Gln Ser Arg Lys Asp Cys Glu Ala Ile Cys Lys Leu
85 90 95
Gly Leu Lys Ala Lys Ile Leu Thr His Ile Arg Cys His Met Asp Asp
100 105 110
Ala Arg Val Ala Val Glu Thr Gly Val Asp Gly Val Asp Val Val Ile
115 120 125
Gly Thr Ser Lys Phe Leu Arg Gln Tyr Ser His Gly Lys Asp Met Asn
130 135 140
Tyr Ile Ala Lys Ser Ala Val Glu Val Ile Glu Phe Val Lys Ser Lys
145 150 155 160
Gly Ile Glu Ile Arg Phe Ser Ser Glu Asp Ser Phe Arg Ser Asp Leu
165 170 175
Val Asp Leu Leu Asn Ile Tyr Lys Thr Val Asp Lys Ile Gly Val Asn
180 185 190
Arg Val Gly Ile Ala Asp Thr Val Gly Cys Ala Asn Pro Arg Gln Val
195 200 205
Tyr Glu Leu Ile Arg Thr Leu Lys Ser Val Val Ser Cys Asp Ile Glu
210 215 220
Cys His Phe His Asn Asp Thr Gly Cys Ala Ile Ala Asn Ala Tyr Thr
225 230 235 240
Ala Leu Glu Gly Gly Ala Arg Leu Ile Asp Val Ser Val Leu Gly Ile
245 250 255
Gly Glu Arg Asn Gly Ile Thr Pro Leu Gly Gly Leu Met Ala Arg Met
260 265 270
Ile Val Ala Ala Pro Asp Tyr Val Arg Ser Lys Tyr Lys Leu His Lys
275 280 285
Ile Arg Asp Ile Glu Asn Leu Val Ala Asp Ala Val Glu Val Asn Ile
290 295 300
Pro Phe Asn Asn Pro Ile Thr Gly Phe Cys Ala Phe Thr His Lys Ala
305 310 315 320
Gly Ile His Ala Lys Ala Ile Leu Ala Asn Pro Ser Thr Tyr Glu Ile
325 330 335
Leu Asp Pro His Asp Phe Gly Met Lys Arg Tyr Ile His Phe Ala Asn
340 345 350
Arg Leu Thr Gly Trp Asn Ala Ile Lys Ser Arg Val Asp Gln Leu Asn
355 360 365
Leu Asn Leu Thr Asp Asp Gln Ile Lys Glu Val Thr Ala Lys Ile Lys
370 375 380
Lys Leu Gly Asp Val Arg Pro Leu Asn Ile Asp Asp Val Asp Ser Ile
385 390 395 400
Ile Lys Asp Phe His Ala Glu Leu Ser Thr Pro Leu Leu Lys Pro Val
405 410 415
Asn Lys Gly Thr Asp Asp Asp Asn Ile Asp Ile Ser Asn Gly His Val
420 425 430
Ser Lys Lys Ala Lys Val Thr Lys
435 440
<210> 209
<211> 376
<212> PRT
<213> 泡沫节球藻
<400> 209
Met Asn Glu Ile Leu Ile Asn Asp Thr Thr Leu Arg Asp Gly Glu Gln
1 5 10 15
Ala Ala Gly Val Ala Phe Thr Phe Glu Glu Lys Val Ala Ile Ala Gln
20 25 30
Phe Leu Asp Ala Ile Gly Val Pro Glu Leu Glu Val Gly Ile Pro Ala
35 40 45
Met Gly Glu Ala Glu Thr His Ala Ile Leu Ala Ile Ser Asp Leu Gly
50 55 60
Leu Gln Ala Ser Leu Leu Gly Trp Asn Arg Ala Val Leu Ser Asp Ile
65 70 75 80
Lys Ala Ser Ile Thr Cys Gly Leu Lys Arg Val His Ile Ala Ile Pro
85 90 95
Val Ser Gly Ile Gln Ile Ala Ala Lys Phe His Gly Gln Trp Arg Val
100 105 110
Ser Leu Gln Arg Leu Lys Asp Cys Ile Ser Phe Ala Val Asp Gln Gly
115 120 125
Leu Trp Val Ala Val Gly Gly Glu Asp Ser Ser Arg Ala Asp Pro Asn
130 135 140
Phe Leu Leu Asp Val Ala Leu Asn Ala Gln Glu Trp Gly Ala Ser Arg
145 150 155 160
Phe Arg Phe Cys Asp Thr Val Gly Val Leu Asp Pro Phe Ser Thr Tyr
165 170 175
Ala Lys Val Lys Gln Leu Val Ser Ala Leu Ser Ile Pro Leu Glu Ile
180 185 190
His Thr His Asn Asp Phe Gly Leu Ala Thr Ala Asn Ala Leu Ala Gly
195 200 205
Ile Lys Ala Gly Ala Thr Ser Val Asn Thr Thr Val Asn Gly Val Gly
210 215 220
Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Val Val Met Ser Ile Lys
225 230 235 240
Arg Ile Tyr Gly Ile Asn Leu Gly Ile Asp Thr Arg Arg Leu Leu Glu
245 250 255
Leu Ser Gln Leu Val Ala Ser Ala Ser Asn Cys His Val Pro Pro Trp
260 265 270
Lys Ala Ile Val Gly Glu Asn Thr Phe Ala His Glu Ser Gly Ile His
275 280 285
Ala His Gly Val Leu Gln Asn Pro Leu Thr Tyr Glu Pro Phe Ala Pro
290 295 300
Glu Glu Val Gly Trp Glu Arg Arg Leu Val Val Gly Lys His Ser Gly
305 310 315 320
Arg His Leu Val Thr Ser Leu Leu Gln Gln Asn Asp Ile Phe Leu Asn
325 330 335
Pro Glu Glu Thr Gln Ser Val Leu Asp Ala Val Arg Gln Gln Ser Val
340 345 350
Lys Gln Lys Arg Asn Leu Thr Val Glu Glu Leu Leu Asn Leu Val Arg
355 360 365
Glu Gln Arg Tyr Ser His Ala Thr
370 375
<210> 210
<211> 376
<212> PRT
<213> 乙酸甲烷八叠球菌
<400> 210
Met Lys Ala Asp Ile Lys Val Ser Ile Val Asp Gln Thr Ile Asn Glu
1 5 10 15
Val Val Arg Leu Gly Val Asn Asn Pro Ala Asp Val Arg Phe Met Leu
20 25 30
Ser Val Leu Lys Lys Tyr Ser Phe Asp Ala Ala Asp Val Ser Leu Asn
35 40 45
Asn Leu Glu Lys Asn Met Val Glu Phe Glu Ala Asp Glu Phe Ser Glu
50 55 60
Ser Met Arg Cys Arg Val Lys Cys Ser Gly Gln Glu Ile Phe Arg Ala
65 70 75 80
Lys Lys Leu Gly Phe Ser Lys Ile Val Ile Asn Thr Ser Leu Asn Pro
85 90 95
Leu Thr Pro Ile Gln Asp Met Leu Glu Pro Val Leu Gln Met Ala Cys
100 105 110
Ser Asn Asp Gln Glu Ile Tyr Leu Ser Ile Asp Asn Ala Leu Glu Phe
115 120 125
Ser Ile Arg Asp Val Glu Thr Ile Tyr Pro Leu Ile Pro Lys Tyr Gly
130 135 140
Ile Lys Arg Leu Ile Leu Gly Asp Arg Ser Gly Lys Ala Asp Pro Phe
145 150 155 160
Thr Thr Tyr Asp Lys Leu Gly Phe Leu Gly Asn Thr Ile Gln Cys Pro
165 170 175
Val Glu Tyr Val Gly Tyr Asn Asp Tyr Gly Thr Ala Thr Ala Asn Thr
180 185 190
Leu Ser Ala Leu Arg Ala Gly Ile Glu Tyr Val Ala Thr Ala Val Ser
195 200 205
Gly Ile Gly Ile Pro Gly Val Ala Ala Met Glu Glu Val Leu Met Ala
210 215 220
Ala Arg His Leu Trp Lys Asn Glu Leu Val Pro Asp Gly Tyr Ser Ile
225 230 235 240
Ala Ala Asp Cys Glu Asn Ile Leu Tyr Arg Ala Gly Ile Met Leu Pro
245 250 255
Gly Glu Lys Ala Ile Ile Gly Lys Asn Val Phe Ala His Glu Ser Gly
260 265 270
Ile His Val Asp Gly Val Leu Lys Asn Pro Asn Leu Tyr Glu Ala Ile
275 280 285
Lys Pro Glu Glu Val Gly Leu Arg Arg Leu Leu Val Ile Gly Lys His
290 295 300
Ser Gly Thr Ala Ser Leu Val Gln Lys Leu Arg His Leu Gly Leu Ser
305 310 315 320
Leu Ser Pro Glu Lys Ala Ala Ala Leu Leu Glu Lys Val Arg Asn Thr
325 330 335
Ala Ile Leu Gln Lys Lys Pro Leu Thr Asp Leu Gln Leu Lys Thr Leu
340 345 350
Tyr Asp Leu Gln Met Glu Ser Val Lys Asp Pro Asn Ile His Leu Ser
355 360 365
Gly Lys Gly Glu Met Pro Cys Asp
370 375
<210> 211
<211> 376
<212> PRT
<213> 绿硫细菌
<400> 211
Met Ile Arg Lys Pro Trp Ile Ile Asp Thr Thr Leu Arg Asp Gly Glu
1 5 10 15
Gln Ala Pro Gly Val Val Phe Ser Pro His Glu Lys Lys Arg Ile Ala
20 25 30
Ala Met Leu Ala Glu Thr Gly Val Asp Glu Ile Glu Val Gly Tyr Pro
35 40 45
Ala Ile Ser Ala Ala Glu Arg Lys Val Ile Arg Glu Ile Val Ala Met
50 55 60
Lys Leu Pro Val Arg Leu Thr Ser Trp Ser Arg Ala Asn Met Ala Asp
65 70 75 80
Ile Glu Leu Ala Ala Glu Cys Gly Thr Asp Ala Val His Ile Ser Phe
85 90 95
Pro Ala Ser Arg Leu Tyr Leu Glu Leu Ile His Lys Lys Asp Asp Trp
100 105 110
Ile Gln Glu Gln Leu His Ala Leu Val Ser Lys Ala Arg Glu Arg Phe
115 120 125
Asp Phe Val Ser Val Gly Gly Gln Asp Ala Thr Arg Ser Ser Thr Asp
130 135 140
Phe Leu Gln Arg Phe Met Leu Asp Ala Glu Ala Ala Gly Ala Lys Arg
145 150 155 160
Phe Arg Ile Ala Asp Thr Val Gly Ile Ala Thr Pro Val Ser Val Met
165 170 175
Ala Leu Gly Ala Ala Leu Arg Gln Ser Ser Ser Leu Pro Leu Glu Phe
180 185 190
His Ala His Asn Asp Leu Gly Met Ala Thr Ala Asn Ala Phe Thr Ala
195 200 205
Leu Asn Glu Gly Phe Glu Ala Val Ser Val Ser Val Thr Gly Leu Gly
210 215 220
Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Leu Ala Met Ala Leu Ala
225 230 235 240
Leu Asn Gly Asp Phe Asp Thr His Leu Asp Thr Ser Met Leu Ser Arg
245 250 255
Leu Cys Asp Ala Val Ala Thr Ala Ser Gly Arg Ala Ile Gln Glu Gln
260 265 270
Lys Pro Val Val Gly Arg Ser Ala Phe Gln His Glu Ser Gly Ile His
275 280 285
Cys Ala Ala Leu Leu Gln Asp Pro Leu Ser Tyr Gln Pro Phe Leu Pro
290 295 300
Ser Arg Val Gly Arg Ser Asp Phe Glu Ile Val Ile Gly Lys His Ser
305 310 315 320
Gly Thr Ala Ala Ile Ile Ala His Phe Asn Arg Arg Gly Ile Thr Ile
325 330 335
Ser Lys Lys Glu Ala Arg Glu Leu Leu Asp Leu Ile Arg Ser Gln Ser
340 345 350
Asp Arg Leu Lys Arg Ala Leu Arg Thr Asp Glu Ile Asp Ala Leu Arg
355 360 365
Glu Gln Asn Ser Val Lys His Ala
370 375
<210> 212
<211> 511
<212> PRT
<213> 甲烷暖球菌
<400> 212
Met Ile Leu Tyr Lys Glu Glu Asn Glu Ile Ile Lys Glu Ala Leu Lys
1 5 10 15
Gly Leu Lys Leu Pro Asp Arg Val Tyr Ile Phe Asp Thr Thr Leu Arg
20 25 30
Asp Gly Glu Gln Thr Pro Gly Val Ser Leu Thr Val Asp Glu Lys Val
35 40 45
Glu Ile Ala Ile Asn Leu Asp Lys Leu Gly Val Asp Ile Ile Glu Ala
50 55 60
Gly Phe Pro Ile Ser Ser Ser Gly Glu Tyr Glu Ala Val Lys Lys Ile
65 70 75 80
Ala Ser Leu Asn Leu Asp Ala Glu Ile Cys Ala Leu Ala Arg Ala Val
85 90 95
Lys Glu Asp Ile Asp Arg Ala Ile Asp Cys Gly Val Asp Arg Ile His
100 105 110
Thr Phe Ile Ala Thr Ser Pro Leu His Arg Lys Tyr Lys Leu Lys Met
115 120 125
Ser Lys Glu Glu Ile Val Glu Lys Ala Val Asn Ala Ile Glu Tyr Ile
130 135 140
Lys Glu His Gly Ile Lys Val Glu Phe Ser Ala Glu Asp Ala Thr Arg
145 150 155 160
Thr Glu Ile Asp Tyr Leu Lys Glu Val Tyr Lys Lys Ala Val Glu Ala
165 170 175
Gly Ala Asp Ile Ile Asn Val Pro Asp Thr Val Gly Val Met Ile Pro
180 185 190
Arg Ala Thr Tyr Tyr Leu Ile Ser Glu Leu Arg Lys Glu Ile Asp Asn
195 200 205
Ile Ser Val His Cys His Asn Asp Phe Gly Leu Ala Val Ala Asn Ser
210 215 220
Leu Ala Ala Val Glu Ala Gly Ala Ile Gln Cys His Val Thr Val Asn
225 230 235 240
Gly Leu Gly Glu Arg Gly Gly Asn Ala Ala Leu Glu Glu Val Val Thr
245 250 255
Ser Leu His Phe Ile Tyr Gly Ile Lys Thr Lys Val Lys Thr Glu Glu
260 265 270
Leu Tyr Asn Ile Ser Lys Leu Val Glu Lys Leu Thr Glu Val Lys Val
275 280 285
Gln Pro Asn Lys Ala Val Val Gly Asp Asn Ala Phe Ala His Glu Ser
290 295 300
Gly Ile His Ala His Gly Val Leu Ala His Ala Leu Thr Tyr Glu Pro
305 310 315 320
Ile Pro Pro Glu Leu Val Gly Gln Arg Arg Arg Ile Ile Leu Gly Lys
325 330 335
His Thr Gly Thr His Ala Ile Glu Ala Lys Leu Lys Glu Leu Gly Tyr
340 345 350
Thr Asn Ile Asn Lys Glu Gln Phe Lys Glu Ile Val Lys Arg Ile Lys
355 360 365
Ser Leu Gly Asp Lys Gly Lys Arg Val Thr Asp Lys Asp Val Glu Ala
370 375 380
Ile Val Glu Asp Val Ile Gly Arg Val Ser Lys Arg Glu Arg Val Val
385 390 395 400
Asp Leu Glu Gln Ile Ala Val Met Thr Gly Asn Lys Val Ile Pro Thr
405 410 415
Ala Ser Val Ala Leu Lys Ile Asn Asp Asn Leu Ile Lys Thr Ser Ala
420 425 430
Ile Gly Val Gly Pro Val Asp Ala Ala Val Lys Ala Ile Gln Lys Ala
435 440 445
Ile Gly Glu Lys Ile Lys Ile Lys Glu Tyr His Ile Asp Ala Ile Thr
450 455 460
Gly Gly Thr Asp Ala Leu Ala Glu Val Val Val Thr Leu Glu Gly Tyr
465 470 475 480
Gly Lys Glu Ile Thr Thr Lys Ala Ala Arg Glu Asp Ile Val Arg Ala
485 490 495
Ser Val Glu Ala Val Ile Asp Gly Ile Asn Lys Ile Leu Lys Lys
500 505 510
<210> 213
<211> 490
<212> PRT
<213> 甲烷暖球菌
<400> 213
Met Lys Val Arg Val Phe Asp Thr Thr Leu Arg Asp Gly Glu Gln Thr
1 5 10 15
Pro Gly Val Ser Leu Thr Pro Ser Asp Lys Leu Glu Ile Ala Lys Ala
20 25 30
Leu Asp Glu Leu Gly Val Asp Val Ile Glu Ala Gly Ser Ala Ile Thr
35 40 45
Ser Lys Gly Glu Arg Glu Gly Ile Lys Leu Ile Thr Arg Glu Asn Leu
50 55 60
Asn Ala Glu Ile Cys Ser Phe Val Arg Pro Leu Thr Val Asp Ile Asp
65 70 75 80
Ala Ala Ile Glu Cys Glu Val Asp Ser Ile His Leu Val Val Pro Ser
85 90 95
Ser Pro Ile His Ile Lys Tyr Lys Leu Lys Lys Ser Glu Asp Glu Val
100 105 110
Leu Asp Leu Ala Val Asn Ala Ile Glu Tyr Ala Lys Asp His Gly Leu
115 120 125
Ile Val Glu Leu Ser Ala Glu Asp Ala Thr Arg Ala Glu Leu Asn Phe
130 135 140
Leu Ile Lys Leu Phe Lys Ala Gly Glu Asn Leu Ala Asp Arg Val Cys
145 150 155 160
Val Cys Asp Thr Val Gly Val Leu Thr Pro Gln Lys Ser Glu Glu Leu
165 170 175
Phe Lys Lys Ile Thr Ser Glu Ile Lys Leu Pro Val Ser Val His Cys
180 185 190
His Asn Asp Phe Gly Met Ala Thr Ala Asn Thr Cys Ser Ala Ile Leu
195 200 205
Gly Gly Ala Val Gln Cys His Val Thr Val Asn Gly Ile Gly Glu Arg
210 215 220
Ala Gly Asn Ala Ala Leu Glu Glu Val Val Thr Ala Leu Lys Phe Leu
225 230 235 240
Tyr Asn Ile Glu Thr Asn Ile Lys Leu Glu Lys Leu Tyr Glu Val Ser
245 250 255
Arg Leu Val Ala Arg Leu Met Lys Leu Pro Val Pro Pro Asn Lys Ala
260 265 270
Ile Val Gly Asp Asn Ala Phe Ala His Glu Ala Gly Ile His Val Asp
275 280 285
Gly Leu Ile Lys Asn Thr Lys Thr Tyr Glu Pro Ile Ser Pro Glu Val
290 295 300
Val Gly Asn Lys Arg Arg Ile Ile Leu Gly Lys His Ser Gly Arg Lys
305 310 315 320
Ala Leu Ile Tyr Lys Leu Lys Leu Met Gly Ile Glu Ala Ser Glu Glu
325 330 335
Gln Ile Asn Lys Ile Tyr Glu Lys Ile Lys Glu Leu Gly Asp Leu Gly
340 345 350
Lys Tyr Val Ser Asp Ala Asp Leu Met Ala Ile Val Lys Asp Val Leu
355 360 365
Gly Lys Asp Leu Glu Glu Lys Ile Glu Leu Asp Glu Leu Thr Val Val
370 375 380
Ser Gly Asn Lys Ile Thr Pro Ile Ala Ser Val Lys Leu His Tyr Lys
385 390 395 400
Gly Glu Asp Arg Leu Leu Ile Glu Thr Ala Tyr Gly Val Gly Pro Val
405 410 415
Asp Ala Ala Ile Asn Ala Val Arg Lys Ala Ile Ser Gly Val Ala Asp
420 425 430
Ile Lys Leu Glu Glu Tyr Lys Val Glu Ala Ile Gly Gly Gly Thr Asp
435 440 445
Ala Ile Ile Glu Val Thr Val Lys Leu Arg Lys Gly Val Asn Thr Val
450 455 460
Glu Val Lys Lys Ala Asp Ser Asp Ile Ile Arg Ala Ser Val Asn Ala
465 470 475 480
Val Met Glu Gly Ile Asn Leu Leu Leu Gln
485 490
<210> 214
<211> 396
<212> PRT
<213> 甲烷暖球菌
<400> 214
Met Asp Leu Leu Tyr Glu Asn Thr Trp Lys Ala Pro Ser Pro Tyr Asn
1 5 10 15
Pro Lys Leu Lys Leu Lys Asp Ile Tyr Ile Tyr Asp Thr Thr Leu Arg
20 25 30
Asp Gly Glu Gln Thr Pro Gly Val Cys Phe Thr Lys Glu Gln Lys Leu
35 40 45
Glu Ile Ala Arg Ala Leu Asp Glu Leu Gly Val Ser Gln Ile Glu Ala
50 55 60
Gly Phe Pro Ile Val Ser Lys Arg Glu Ala Glu Ile Val Lys Ala Ile
65 70 75 80
Ala Ser Glu Asn Leu Asn Ala Asp Ile Leu Ala Leu Ser Arg Ile Arg
85 90 95
Lys Glu Asp Ile Asn Lys Ala Ile Asp Cys Asp Val Asp Gly Ile Ile
100 105 110
Thr Phe Ile Ala Thr Ser Pro Leu His Ile Lys Cys Lys Phe Lys Gly
115 120 125
Lys Arg Leu Glu Asp Phe Phe Asp Thr Ile Val Glu Cys Ile Glu Tyr
130 135 140
Ala Lys Ser His Gly Leu Phe Val Ala Phe Ser Ala Glu Asp Gly Thr
145 150 155 160
Arg Thr Pro Leu Glu Asp Leu Ile Arg Val His Lys Leu Ala Glu Glu
165 170 175
Ala Gly Ala Asp Arg Val His Val Ala Asp Thr Ala Gly Thr Ala Thr
180 185 190
Pro Gln Ala Met Glu Phe Ile Cys Lys Ala Leu Thr Cys Ser Leu Asn
195 200 205
Lys Ala His Val Gly Val His Cys His Asn Asp Phe Gly Leu Ala Val
210 215 220
Ile Asn Ser Ile Tyr Gly Leu Ile Gly Gly Ala Lys Ala Val Ser Thr
225 230 235 240
Thr Val Asn Gly Ile Gly Glu Arg Ala Gly Asn Thr Ser Leu Glu Glu
245 250 255
Leu Ile Met Ser Leu Ile Val Leu Tyr Asp Val Asp Leu Lys Leu Asn
260 265 270
Leu Glu Val Leu Pro Lys Leu Cys Arg Met Val Glu Glu Tyr Ser Gly
275 280 285
Ile Lys Asn Pro Lys Asn Lys Pro Ile Val Gly Glu Leu Val Phe Ser
290 295 300
His Glu Ser Gly Ile His Val Asp Ala Val Ile Glu Asn Pro Leu Thr
305 310 315 320
Tyr Glu Pro Phe Leu Pro Glu Lys Ile Gly Leu Lys Arg Asn Ile Ile
325 330 335
Leu Gly Lys His Ser Gly Lys Arg Ala Val Lys Tyr Lys Leu Lys Leu
340 345 350
Leu Gly Val Glu Val Glu Asp Lys Leu Leu Asp Lys Ile Val Glu Arg
355 360 365
Val Lys Glu Leu Arg Glu Lys Gly Glu Lys Ile Asp Asp Glu Lys Leu
370 375 380
Leu Glu Ile Val Glu Glu Ile Lys Arg Ile Lys Asp
385 390 395
<210> 215
<211> 540
<212> PRT
<213> 百脉根
<400> 215
Met Ala Ser Lys Asn Ser Ile Ile Arg Asn Arg Pro Glu Tyr Ile Pro
1 5 10 15
Asn His Ile Pro Asn Pro Thr Tyr Val Arg Ile Leu Asp Thr Thr Leu
20 25 30
Arg Asp Gly Glu Gln Ser Pro Gly Ala Ala Met Thr Cys Val Gln Lys
35 40 45
Leu Glu Thr Ala Arg Gln Leu Ala Lys Leu Gly Val Asp Ile Ile Glu
50 55 60
Ala Gly Phe Pro Cys Ala Ser Lys Gln Asp Phe Met Ala Val Lys Met
65 70 75 80
Ile Ala Glu Glu Val Gly Asn Cys Val Asp Gly Asn Gly Tyr Val Pro
85 90 95
Val Ile Thr Gly Val Ser Arg Cys Asn Glu Lys Asp Ile Ala Thr Ala
100 105 110
Trp Glu Ala Leu Lys His Ala Lys Arg Pro Arg Leu Arg Thr Phe Ile
115 120 125
Ala Thr Ser Pro Ile His Met Glu Tyr Lys Leu Arg Lys Ser Lys Asp
130 135 140
Gln Val Leu Glu Thr Ala Arg Asn Met Val Lys Phe Ala Arg Ser Leu
145 150 155 160
Gly Cys Thr Asp Ile Gln Phe Gly Ala Glu Asp Ala Ala Arg Ser Asp
165 170 175
Lys Glu Phe Leu Tyr Gln Ile Phe Gly Glu Val Ile Lys Ala Gly Ala
180 185 190
Thr Thr Leu Thr Ile Pro Asp Thr Val Gly Ile Ala Met Pro Phe Glu
195 200 205
Tyr Gly Lys Leu Ile Ala Asp Ile Lys Ala Asn Thr Pro Gly Ile Glu
210 215 220
Asn Ala Ile Met Ala Thr His Cys His Asn Asp Leu Gly Leu Ala Thr
225 230 235 240
Ala Asn Thr Ile Glu Gly Ala Arg Tyr Gly Ala Arg Gln Leu Glu Val
245 250 255
Thr Ile Asn Gly Ile Gly Glu Arg Ala Gly Asn Ala Ser Phe Glu Glu
260 265 270
Val Val Met Ala Leu Thr Cys Arg Gly Ile Asp Ile Leu Gly Gly Leu
275 280 285
His Thr Gly Ile Asn Thr Arg His Ile Leu Lys Thr Ser Lys Met Val
290 295 300
Glu Lys Tyr Ser Gly Leu His Leu Gln Pro His Lys Ala Leu Val Gly
305 310 315 320
Ala Asn Ala Phe Leu His Glu Ser Gly Ile His Gln Asp Gly Met Leu
325 330 335
Lys His Arg Gly Thr Tyr Glu Ile Ile Ser Pro Glu Asp Ile Gly Leu
340 345 350
Val Arg Ser Val Gly Asp Thr Ile Val Leu Gly Lys Leu Ser Gly Arg
355 360 365
Gln Ala Leu Arg Asn Arg Leu Glu Glu Leu Gly Tyr Lys Leu Lys Asp
370 375 380
Thr Glu Val Glu Gly Val Phe Trp Gln Phe Lys Ala Val Ala Glu Lys
385 390 395 400
Lys Lys Arg Ile Thr Asp Thr Asp Leu Arg Ala Leu Val Ser Asn Glu
405 410 415
Ala Phe Asn Glu Gln Pro Ile Trp Lys Leu Gly Asp Leu Gln Val Thr
420 425 430
Cys Gly Thr Val Gly Phe Ser Thr Ala Thr Val Lys Leu Phe Ser Ile
435 440 445
Asp Gly Ser Met His Val Ala Cys Ser Ile Gly Thr Gly Pro Val Asp
450 455 460
Ser Ala Tyr Lys Ala Ile Asn His Ile Val Lys Glu Pro Ala Lys Leu
465 470 475 480
Val Lys Tyr Thr Leu Gly Ala Ile Thr Glu Gly Ile Asp Ala Thr Ala
485 490 495
Thr Thr Ser Val Glu Ile Ser Arg Gly Asp Thr Asn His Pro Val Phe
500 505 510
Ser Gly Thr Gly Gly Gly Thr Asp Val Val Val Ser Ser Val Asp Ala
515 520 525
Tyr Leu Ser Ala Leu Asn Asn Met Leu Arg Phe Tyr
530 535 540
<210> 216
<211> 518
<212> PRT
<213> 棕色固氮菌
<400> 216
Met Pro His His Glu Phe Glu Cys Ser Lys Val Ile Pro Glu Arg Lys
1 5 10 15
Lys His Ala Val Ile Lys Gly Lys Gly Glu Thr Leu Ala Asp Ala Leu
20 25 30
Pro Gln Gly Tyr Leu Asn Thr Ile Pro Gly Ser Ile Ser Glu Arg Gly
35 40 45
Cys Ala Tyr Cys Gly Ala Lys His Val Ile Gly Thr Pro Met Lys Asp
50 55 60
Val Ile His Ile Ser His Gly Pro Val Gly Cys Thr Tyr Asp Thr Trp
65 70 75 80
Gln Thr Lys Arg Tyr Ile Ser Asp Asn Asp Asn Phe Gln Leu Lys Tyr
85 90 95
Thr Tyr Ala Thr Asp Val Lys Glu Lys His Ile Val Phe Gly Ala Glu
100 105 110
Lys Leu Leu Lys Gln Asn Ile Ile Glu Ala Phe Lys Ala Phe Pro Gln
115 120 125
Ile Lys Arg Met Thr Ile Tyr Gln Thr Cys Ala Thr Ala Leu Ile Gly
130 135 140
Asp Asp Ile Asn Ala Ile Ala Glu Glu Val Met Glu Glu Met Pro Glu
145 150 155 160
Val Asp Ile Phe Val Cys Asn Ser Pro Gly Phe Ala Gly Pro Ser Gln
165 170 175
Ser Gly Gly His His Lys Ile Asn Ile Ala Trp Ile Asn Gln Lys Val
180 185 190
Gly Thr Val Glu Pro Glu Ile Thr Gly Asp His Val Ile Asn Tyr Val
195 200 205
Gly Glu Tyr Asn Ile Gln Gly Asp Gln Glu Val Met Val Asp Tyr Phe
210 215 220
Lys Arg Met Gly Ile Gln Val Leu Ser Thr Phe Thr Gly Asn Gly Ser
225 230 235 240
Tyr Asp Gly Leu Arg Ala Met His Arg Ala His Leu Asn Val Leu Glu
245 250 255
Cys Ala Arg Ser Ala Glu Tyr Ile Cys Asn Glu Leu Arg Val Arg Tyr
260 265 270
Gly Ile Pro Arg Leu Asp Ile Asp Gly Phe Gly Phe Lys Pro Leu Ala
275 280 285
Asp Ser Leu Arg Lys Ile Gly Met Phe Phe Gly Ile Glu Asp Arg Ala
290 295 300
Lys Ala Ile Ile Asp Glu Glu Val Ala Arg Trp Lys Pro Glu Leu Asp
305 310 315 320
Trp Tyr Lys Glu Arg Leu Met Gly Lys Lys Val Cys Leu Trp Pro Gly
325 330 335
Gly Ser Lys Leu Trp His Trp Ala His Val Ile Glu Glu Glu Met Gly
340 345 350
Leu Lys Val Val Ser Val Tyr Thr Lys Phe Gly His Gln Gly Asp Met
355 360 365
Glu Lys Gly Ile Ala Arg Cys Gly Glu Gly Thr Leu Ala Ile Asp Asp
370 375 380
Pro Asn Glu Leu Glu Gly Leu Glu Ala Leu Glu Met Leu Lys Pro Asp
385 390 395 400
Ile Ile Leu Thr Gly Lys Arg Pro Gly Glu Val Ala Lys Lys Val Arg
405 410 415
Val Pro Tyr Leu Asn Ala His Ala Tyr His Asn Gly Pro Tyr Lys Gly
420 425 430
Phe Glu Gly Trp Val Arg Phe Ala Arg Asp Ile Tyr Asn Ala Ile Tyr
435 440 445
Ser Pro Ile His Gln Leu Ser Gly Ile Asp Ile Thr Lys Asp Asn Ala
450 455 460
Pro Glu Trp Gly Asn Gly Phe Arg Thr Arg Gln Met Leu Ser Asp Gly
465 470 475 480
Asn Leu Ser Asp Ala Val Arg Asn Ser Glu Thr Leu Arg Gln Tyr Thr
485 490 495
Gly Gly Tyr Asp Ser Val Ser Lys Leu Arg Glu Arg Glu Tyr Pro Ala
500 505 510
Phe Glu Arg Lys Val Gly
515
<210> 217
<211> 462
<212> PRT
<213> 棕色固氮菌
<400> 217
Met Thr Cys Glu Val Lys Glu Lys Gly Arg Val Gly Thr Ile Asn Pro
1 5 10 15
Ile Phe Thr Cys Gln Pro Ala Gly Ala Gln Phe Val Ser Ile Gly Ile
20 25 30
Lys Asp Cys Ile Gly Ile Val His Gly Gly Gln Gly Cys Val Met Phe
35 40 45
Val Arg Leu Ile Phe Ser Gln His Tyr Lys Glu Ser Phe Glu Leu Ala
50 55 60
Ser Ser Ser Leu His Glu Asp Gly Ala Val Phe Gly Ala Cys Gly Arg
65 70 75 80
Val Glu Glu Ala Val Asp Val Leu Leu Ser Arg Tyr Pro Asp Val Lys
85 90 95
Val Val Pro Ile Ile Thr Thr Cys Ser Thr Glu Ile Ile Gly Asp Asp
100 105 110
Val Asp Gly Val Ile Lys Lys Leu Asn Glu Gly Leu Leu Lys Glu Lys
115 120 125
Phe Pro Asp Arg Glu Val His Leu Ile Ala Met His Thr Pro Ser Phe
130 135 140
Val Gly Ser Met Ile Ser Gly Tyr Asp Val Ala Val Arg Asp Val Val
145 150 155 160
Arg His Phe Ala Lys Arg Glu Ala Pro Asn Asp Lys Ile Asn Leu Leu
165 170 175
Thr Gly Trp Val Asn Pro Gly Asp Val Lys Glu Leu Lys His Leu Leu
180 185 190
Gly Glu Met Asp Ile Glu Ala Asn Val Leu Phe Glu Ile Glu Ser Phe
195 200 205
Asp Ser Pro Ile Leu Pro Asp Gly Ser Ala Val Ser His Gly Asn Thr
210 215 220
Thr Ile Glu Asp Leu Ile Asp Thr Gly Asn Ala Arg Ala Thr Phe Ala
225 230 235 240
Leu Asn Arg Tyr Glu Gly Thr Lys Ala Ala Glu Tyr Leu Gln Lys Lys
245 250 255
Phe Glu Ile Pro Ala Ile Ile Gly Pro Thr Pro Ile Gly Ile Arg Asn
260 265 270
Thr Asp Ile Phe Leu Gln Asn Leu Lys Lys Ala Thr Gly Lys Pro Ile
275 280 285
Pro Gln Ser Leu Ala His Glu Arg Gly Val Ala Ile Asp Ala Leu Ala
290 295 300
Asp Leu Thr His Met Phe Leu Ala Glu Lys Arg Val Ala Ile Tyr Gly
305 310 315 320
Ala Pro Asp Leu Val Ile Gly Leu Ala Glu Phe Cys Leu Asp Leu Glu
325 330 335
Met Lys Pro Val Leu Leu Leu Leu Gly Asp Asp Asn Ser Lys Tyr Val
340 345 350
Asp Asp Pro Arg Ile Lys Ala Leu Gln Glu Asn Val Asp Tyr Gly Met
355 360 365
Glu Ile Val Thr Asn Ala Asp Phe Trp Glu Leu Glu Asn Arg Ile Lys
370 375 380
Asn Glu Gly Leu Glu Leu Asp Leu Ile Leu Gly His Ser Lys Gly Arg
385 390 395 400
Phe Ile Ser Ile Asp Tyr Asn Ile Pro Met Leu Arg Val Gly Phe Pro
405 410 415
Thr Tyr Asp Arg Ala Gly Leu Phe Arg Tyr Pro Thr Val Gly Tyr Gly
420 425 430
Gly Ala Ile Trp Leu Ala Glu Gln Met Ala Asn Thr Leu Phe Ala Asp
435 440 445
Met Glu His Lys Lys Asn Lys Glu Trp Val Leu Asn Val Trp
450 455 460
<210> 218
<211> 275
<212> PRT
<213> 棕色固氮菌
<400> 218
Met Thr Arg Lys Val Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys Ser
1 5 10 15
Thr Thr Thr Gln Asn Thr Ala Ala Ala Leu Ala Tyr Phe His Asp Lys
20 25 30
Lys Val Phe Ile His Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
35 40 45
Ile Leu Gly Gly Lys Pro Gln Glu Thr Leu Met Asp Met Leu Arg Asp
50 55 60
Lys Gly Ala Glu Lys Ile Thr Asn Asp Asp Val Ile Lys Lys Gly Phe
65 70 75 80
Leu Asp Ile Gln Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly
85 90 95
Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asp Leu Met Glu Glu Asn
100 105 110
Gly Ala Tyr Thr Asp Asp Leu Asp Phe Val Phe Phe Asp Val Leu Gly
115 120 125
Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Asp Gly Lys Ala
130 135 140
Gln Glu Val Tyr Ile Val Ala Ser Gly Glu Met Met Ala Ile Tyr Ala
145 150 155 160
Ala Asn Asn Ile Cys Lys Gly Leu Val Lys Tyr Ala Lys Gln Ser Gly
165 170 175
Val Arg Leu Gly Gly Ile Ile Cys Asn Ser Arg Lys Val Asp Gly Glu
180 185 190
Arg Glu Phe Leu Glu Glu Phe Thr Ala Ala Ile Gly Thr Lys Met Ile
195 200 205
His Phe Val Pro Arg Asp Asn Ile Val Gln Lys Ala Glu Phe Asn Lys
210 215 220
Lys Thr Val Thr Glu Phe Ala Pro Glu Glu Asn Gln Ala Lys Glu Tyr
225 230 235 240
Gly Glu Leu Ala Arg Lys Ile Ile Glu Asn Asp Glu Phe Val Ile Pro
245 250 255
Lys Pro Leu Thr Met Asp Gln Leu Glu Asp Met Val Val Lys Tyr Gly
260 265 270
Ile Ala Asp
275
<210> 219
<211> 132
<212> PRT
<213> 棕色固氮菌
<400> 219
Met Ser Thr Ala Ser Ala Ala Ala Val Val Lys Gln Lys Val Glu Ala
1 5 10 15
Pro Val His Pro Met Asp Ala Arg Ile Asp Glu Leu Thr Asp Tyr Ile
20 25 30
Met Lys Asn Cys Leu Trp Gln Phe His Ser Arg Ser Trp Asp Arg Glu
35 40 45
Arg Gln Asn Ala Glu Ile Leu Lys Lys Thr Lys Glu Leu Leu Cys Gly
50 55 60
Glu Pro Val Asp Leu Ser Thr Ser His Asp Arg Cys Tyr Trp Val Asp
65 70 75 80
Ala Val Cys Leu Ala Asp Asp Tyr Arg Glu His Tyr Pro Trp Ile Asn
85 90 95
Ser Met Ser Lys Glu Glu Ile Gly Ser Leu Met Gln Gly Leu Lys Asp
100 105 110
Arg Met Asp Tyr Leu Thr Ile Thr Gly Ser Leu Asn Glu Glu Leu Ser
115 120 125
Asp Lys His Tyr
130
<210> 220
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 220
Arg Arg Asn Phe
1
<210> 221
<211> 606
<212> PRT
<213> 本生烟
<400> 221
Met Ala Ser Ile Thr Thr Asn His Thr Phe Ser Arg Asn Leu Asn Phe
1 5 10 15
Ser Phe His Pro Gln Asn Pro Leu Ile Gln Thr Gln Ala Leu Phe Lys
20 25 30
Phe Lys Pro Ser Ile Pro Asn Cys Ser Pro Ile Ile Arg Cys Ala Ile
35 40 45
Arg Arg Arg Pro Glu Tyr Thr Pro Ser His Ile Pro Asp Pro Lys Tyr
50 55 60
Ile Arg Ile Phe Asp Thr Thr Leu Arg Asp Gly Glu Gln Ser Pro Gly
65 70 75 80
Ala Thr Met Thr Thr Lys Glu Lys Leu Asp Val Ala Arg Gln Leu Ala
85 90 95
Lys Leu Gly Val Asp Ile Ile Glu Ala Gly Phe Pro Ala Ser Ser Glu
100 105 110
Ala Asp Leu Glu Ala Val Lys Leu Ile Ala Lys Glu Val Gly Asn Gly
115 120 125
Val Tyr Glu Glu Gly His Val Pro Val Ile Cys Gly Leu Ala Arg Cys
130 135 140
Asn Lys Arg Asp Ile Asp Lys Ala Trp Glu Ala Val Lys Tyr Ala Lys
145 150 155 160
Lys Pro Arg Ile His Thr Phe Ile Ala Thr Ser Glu Ile His Met Lys
165 170 175
Phe Lys Leu Lys Met Ser Arg Asp Glu Val Val Glu Lys Ala Arg Ser
180 185 190
Met Val Ala Tyr Ala Arg Ser Ile Gly Cys Glu Asp Val Glu Phe Ser
195 200 205
Pro Glu Asp Ala Gly Arg Ser Asp Pro Glu Phe Leu Tyr His Ile Leu
210 215 220
Gly Glu Val Ile Lys Ala Gly Ala Thr Thr Leu Asn Ile Pro Asp Thr
225 230 235 240
Val Gly Tyr Thr Val Pro Ser Glu Phe Gly Lys Leu Ile Ala Asp Ile
245 250 255
Lys Ala Asn Thr Pro Gly Ile Gly Asp Val Ile Ile Ser Thr His Cys
260 265 270
Gln Asn Asp Leu Gly Leu Ser Thr Ala Asn Thr Leu Ala Gly Ala Cys
275 280 285
Ala Gly Ala Arg Gln Val Glu Val Thr Ile Asn Gly Ile Gly Glu Arg
290 295 300
Ala Gly Asn Ala Ser Leu Glu Glu Val Val Met Ala Leu Lys Cys Arg
305 310 315 320
Gly Glu Gln Val Leu Gly Gly Leu Tyr Thr Gly Ile Asn Thr Gln His
325 330 335
Ile Leu Met Ser Ser Lys Met Val Glu Glu Tyr Thr Gly Leu His Val
340 345 350
Gln Pro His Lys Ala Ile Val Gly Ala Asn Ala Phe Ala His Glu Ser
355 360 365
Gly Ile His Gln Asp Gly Met Leu Lys His Lys Asp Thr Tyr Glu Ile
370 375 380
Ile Ser Pro Glu Asp Ile Gly Leu Asn Arg Ala Asn Glu Ala Gly Ile
385 390 395 400
Val Leu Gly Lys Leu Ser Gly Arg His Ala Leu Lys Ser Lys Met Leu
405 410 415
Glu Leu Gly Tyr Asp Ile Glu Gly Lys Glu Leu Glu Asp Leu Phe Trp
420 425 430
Arg Phe Lys Ser Val Ala Glu Lys Lys Lys Lys Val Thr Asp Asp Asp
435 440 445
Ile Ile Ala Leu Met Ser Asp Glu Val Phe Gln Pro Gln Val Val Trp
450 455 460
Gln Leu Ala Asp Val Gln Ile Thr Cys Gly Ser Leu Gly Leu Ser Thr
465 470 475 480
Ala Thr Val Lys Leu Ile Asp Ser Asp Gly Gln Asp His Val Ala Cys
485 490 495
Ser Val Gly Thr Gly Pro Val Asp Ala Ala Tyr Lys Ala Val Asp Leu
500 505 510
Ile Val Lys Val Pro Ile Thr Leu Leu Glu Tyr Ser Met Asn Ala Val
515 520 525
Thr Glu Gly Ile Asp Ser Ile Ala Ser Thr Arg Val Val Ile Arg Glu
530 535 540
Glu Asp Asp His Ala Ile Thr Asn Gly Ser Ile Gly Leu Thr Leu His
545 550 555 560
Arg Thr Phe Ser Gly Thr Gly Ala Asp Met Asp Val Val Ile Ser Ser
565 570 575
Val Arg Ala Tyr Ile Gly Ala Leu Asn Lys Met Leu Ser Phe Gly Lys
580 585 590
Leu Val Ser Arg Cys Asn Asn Pro Glu Gly Ser Val Val Val
595 600 605
<210> 222
<211> 470
<212> PRT
<213> 本生烟
<400> 222
Met Ala Ser Ile Tyr Ala Asn Pro Thr Thr Ser Leu Asn Thr Ser Leu
1 5 10 15
Ser Ser Tyr Ser Lys Asn Ile Phe Leu Arg Ser Val Phe Lys Phe Met
20 25 30
Pro Ser Ile Thr Lys Arg Cys His Cys Pro Tyr Thr Ser Thr Ala Val
35 40 45
Arg Cys Thr Asn Val Arg Arg Pro Arg Pro Asn Tyr Arg Pro Gly Arg
50 55 60
Phe Ser His Pro Asn Tyr Val Gly Ile Phe Asp Thr Thr Leu Arg Asp
65 70 75 80
Gly Glu Gln Ala Pro Gly Ala Ala Met Thr Ile Thr Glu Lys Leu Asp
85 90 95
Ile Ala Arg Gln Leu Ala Lys Leu Gly Val Asp Val Ile Glu Ala Gly
100 105 110
Phe Pro Ala Ala Ser Asp Ala Asp Phe Glu Leu Val Lys Leu Val Ala
115 120 125
Lys Glu Val Gly Asn Asn Val Asp Glu Glu Gly Tyr Val Pro Val Ile
130 135 140
Cys Ala Ile Gly Arg Thr Thr Lys Lys Asp Ile Asp Arg Thr Trp Glu
145 150 155 160
Ala Leu Lys Tyr Ala Lys Lys Pro Met Ile Ser Leu Phe Ile Ala Thr
165 170 175
Ser Asp Ile His Met Lys Tyr Lys Leu Lys Met Ser Lys Glu Val Val
180 185 190
Val Glu Lys Ala Arg Ser Met Val Ala Tyr Ala Lys Thr Leu Cys Glu
195 200 205
Asp Val Arg Phe Cys Val Glu Asp Gly Ala Arg Ser Asp Arg Lys Phe
210 215 220
Leu Tyr Tyr Ile Leu Gly Glu Gly Ile Lys Val Gly Ala Thr Ala Ile
225 230 235 240
Cys Val Ala Asp Thr Val Gly Ser Ser Leu Pro Thr Glu Phe Gly Arg
245 250 255
Leu Ile Ala Asp Ile Lys Ala Asn Thr Pro Gly Ile Glu Asp Val Ile
260 265 270
Ile Ser Val His Cys His Asn Asp Leu Gly Leu Ala Thr Ala Asn Thr
275 280 285
Leu Ala Gly Ala Cys Ala Gly Ala Arg Leu Val Asp Val Thr Val Asn
290 295 300
Gly Ile Gly Glu Arg Ala Gly Asn Gly Ser Leu Glu Glu Ile Val Met
305 310 315 320
Ala Leu Lys Tyr Arg Gly Glu Glu Val Leu Gly Gly Leu Tyr Ser Gly
325 330 335
Ile Asn Thr Lys His Ile Ile Ala Thr Ser Lys Met Val Glu Glu Tyr
340 345 350
Cys Gly Leu Lys Leu Gln Pro His Lys Pro Ile Val Gly Ala Asn Ala
355 360 365
Phe Ser His Glu Ser Gly Ile His Gln Asp Gly Val Leu Lys Lys Arg
370 375 380
Glu Thr Tyr Glu Phe Val Ser Pro Glu Asp Val Gly Phe Gln Arg Val
385 390 395 400
Thr Gly His Gly Ile Ile Leu Gly Lys Leu Ser Gly Arg His Ala Leu
405 410 415
Lys Ser Lys Met Phe Glu Leu Gly Tyr Glu Phe Glu Gly Lys Glu Leu
420 425 430
Asp Asp Ile Phe Arg Arg Phe Lys Ser Val Ala Glu Lys Lys Lys Lys
435 440 445
Ile Thr Glu Glu Asp Leu Arg Ala Leu Val Ser Asp Lys Val Cys Ser
450 455 460
Leu Lys Leu Leu Asp Ala
465 470
<210> 223
<211> 644
<212> PRT
<213> 结核分枝杆菌
<400> 223
Met Ala Thr Ser Glu Ser Pro Asp Ala Tyr Thr Glu Ser Phe Gly Ala
1 5 10 15
His Thr Ile Val Lys Pro Ala Gly Pro Pro Arg Val Gly Gln Pro Ser
20 25 30
Trp Asn Pro Gln Arg Ala Ser Ser Met Pro Val Asn Arg Tyr Arg Pro
35 40 45
Phe Ala Glu Glu Val Glu Pro Ile Arg Leu Arg Asn Arg Thr Trp Pro
50 55 60
Asp Arg Val Ile Asp Arg Ala Pro Leu Trp Cys Ala Val Asp Leu Arg
65 70 75 80
Asp Gly Asn Gln Ala Leu Ile Asp Pro Met Ser Pro Ala Arg Lys Arg
85 90 95
Arg Met Phe Asp Leu Leu Val Arg Met Gly Tyr Lys Glu Ile Glu Val
100 105 110
Gly Phe Pro Ser Ala Ser Gln Thr Asp Phe Asp Phe Val Arg Glu Ile
115 120 125
Ile Glu Gln Gly Ala Ile Pro Asp Asp Val Thr Ile Gln Val Leu Thr
130 135 140
Gln Cys Arg Pro Glu Leu Ile Glu Arg Thr Phe Gln Ala Cys Ser Gly
145 150 155 160
Ala Pro Arg Ala Ile Val His Phe Tyr Asn Ser Thr Ser Ile Leu Gln
165 170 175
Arg Arg Val Val Phe Arg Ala Asn Arg Ala Glu Val Gln Ala Ile Ala
180 185 190
Thr Asp Gly Ala Arg Lys Cys Val Glu Gln Ala Ala Lys Tyr Pro Gly
195 200 205
Thr Gln Trp Arg Phe Glu Tyr Ser Pro Glu Ser Tyr Thr Gly Thr Glu
210 215 220
Leu Glu Tyr Ala Lys Gln Val Cys Asp Ala Val Gly Glu Val Ile Ala
225 230 235 240
Pro Thr Pro Glu Arg Pro Ile Ile Phe Asn Leu Pro Ala Thr Val Glu
245 250 255
Met Thr Thr Pro Asn Val Tyr Ala Asp Ser Ile Glu Trp Met Ser Arg
260 265 270
Asn Leu Ala Asn Arg Glu Ser Val Ile Leu Ser Leu His Pro His Asn
275 280 285
Asp Arg Gly Thr Ala Val Ala Ala Ala Glu Leu Gly Phe Ala Ala Gly
290 295 300
Ala Asp Arg Ile Glu Gly Cys Leu Phe Gly Asn Gly Glu Arg Thr Gly
305 310 315 320
Asn Val Cys Leu Val Thr Leu Gly Leu Asn Leu Phe Ser Arg Gly Val
325 330 335
Asp Pro Gln Ile Asp Phe Ser Asn Ile Asp Glu Ile Arg Arg Thr Val
340 345 350
Glu Tyr Cys Asn Gln Leu Pro Val His Glu Arg His Pro Tyr Gly Gly
355 360 365
Asp Leu Val Tyr Thr Ala Phe Ser Gly Ser His Gln Asp Ala Ile Asn
370 375 380
Lys Gly Leu Asp Ala Met Lys Leu Asp Ala Asp Ala Ala Asp Cys Asp
385 390 395 400
Val Asp Asp Met Leu Trp Gln Val Pro Tyr Leu Pro Ile Asp Pro Arg
405 410 415
Asp Val Gly Arg Thr Tyr Glu Ala Val Ile Arg Val Asn Ser Gln Ser
420 425 430
Gly Lys Gly Gly Val Ala Tyr Ile Met Lys Thr Asp His Gly Leu Ser
435 440 445
Leu Pro Arg Arg Leu Gln Ile Glu Phe Ser Gln Val Ile Gln Lys Ile
450 455 460
Ala Glu Gly Thr Ala Gly Glu Gly Gly Glu Val Ser Pro Lys Glu Met
465 470 475 480
Trp Asp Ala Phe Ala Glu Glu Tyr Leu Ala Pro Val Arg Pro Leu Glu
485 490 495
Arg Ile Arg Gln His Val Asp Ala Ala Asp Asp Asp Gly Gly Thr Thr
500 505 510
Ser Ile Thr Ala Thr Val Lys Ile Asn Gly Val Glu Thr Glu Ile Ser
515 520 525
Gly Ser Gly Asn Gly Pro Leu Ala Ala Phe Val His Ala Leu Ala Asp
530 535 540
Val Gly Phe Asp Val Ala Val Leu Asp Tyr Tyr Glu His Ala Met Ser
545 550 555 560
Ala Gly Asp Asp Ala Gln Ala Ala Ala Tyr Val Glu Ala Ser Val Thr
565 570 575
Ile Ala Ser Pro Ala Gln Pro Gly Glu Ala Gly Arg His Ala Ser Asp
580 585 590
Pro Val Thr Ile Ala Ser Pro Ala Gln Pro Gly Glu Ala Gly Arg His
595 600 605
Ala Ser Asp Pro Val Thr Ser Lys Thr Val Trp Gly Val Gly Ile Ala
610 615 620
Pro Ser Ile Thr Thr Ala Ser Leu Arg Ala Val Val Ser Ala Val Asn
625 630 635 640
Arg Ala Ala Arg
<210> 224
<211> 290
<212> PRT
<213> 棕色固氮菌
<400> 224
Met Ala Met Arg Gln Cys Ala Ile Tyr Gly Lys Gly Gly Ile Gly Lys
1 5 10 15
Ser Thr Thr Thr Gln Asn Leu Val Ala Ala Leu Ala Glu Met Gly Lys
20 25 30
Lys Val Met Ile Val Gly Cys Asp Pro Lys Ala Asp Ser Thr Arg Leu
35 40 45
Ile Leu His Ser Lys Ala Gln Asn Thr Ile Met Glu Met Ala Ala Glu
50 55 60
Ala Gly Thr Val Glu Asp Leu Glu Leu Glu Asp Val Leu Lys Ala Gly
65 70 75 80
Tyr Gly Gly Val Lys Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val
85 90 95
Gly Cys Ala Gly Arg Gly Val Ile Thr Ala Ile Asn Phe Leu Glu Glu
100 105 110
Glu Gly Ala Tyr Glu Asp Asp Leu Asp Phe Val Phe Tyr Asp Val Leu
115 120 125
Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro Ile Arg Glu Asn Lys
130 135 140
Ala Gln Glu Ile Tyr Ile Val Cys Ser Gly Glu Met Met Ala Met Tyr
145 150 155 160
Ala Ala Asn Asn Ile Ser Lys Gly Ile Val Lys Tyr Ala Asn Ser Gly
165 170 175
Ser Val Arg Leu Gly Gly Leu Ile Cys Asn Ser Arg Asn Thr Asp Arg
180 185 190
Glu Asp Glu Leu Ile Ile Ala Leu Ala Asn Lys Leu Gly Thr Gln Met
195 200 205
Ile His Phe Val Pro Arg Asp Asn Val Val Gln Arg Ala Glu Ile Arg
210 215 220
Arg Met Thr Val Ile Glu Tyr Asp Pro Lys Ala Lys Gln Ala Asp Glu
225 230 235 240
Tyr Arg Ala Leu Ala Arg Lys Val Val Asp Asn Lys Leu Leu Val Ile
245 250 255
Pro Asn Pro Ile Thr Met Asp Glu Leu Glu Glu Leu Leu Met Glu Phe
260 265 270
Gly Ile Met Glu Val Glu Asp Glu Ser Ile Val Gly Lys Thr Ala Glu
275 280 285
Glu Val
290
<210> 225
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 肽
<220>
<221> X
<222> (12)..(12)
<223> 任何氨基酸
<400> 225
Tyr Gly Lys Gly Gly Ile Gly Lys Ser Thr Thr Xaa Gln Asn Thr
1 5 10 15
<210> 226
<211> 9
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 226
Ile His Gly Cys Asp Pro Lys Ala Asp
1 5
<210> 227
<211> 17
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 227
Cys Val Glu Ser Gly Gly Pro Glu Pro Gly Val Gly Cys Ala Gly Arg
1 5 10 15
Gly
<210> 228
<211> 14
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 228
Asp Val Leu Gly Asp Val Val Cys Gly Gly Phe Ala Met Pro
1 5 10
<210> 229
<211> 15
<212> PRT
<213> 人工序列
<220>
<223> 肽
<220>
<221> X
<222> (9)..(9)
<223> 任何氨基酸
<400> 229
Val Ala Ser Gly Glu Met Met Ala Xaa Tyr Ala Ala Asn Asn Ile
1 5 10 15
<210> 230
<211> 5
<212> PRT
<213> 人工序列
<220>
<223> 肽
<400> 230
Gln Ser Gly Val Arg
1 5
<210> 231
<211> 7
<212> PRT
<213> 人工序列
<220>
<223> 肽
<220>
<221> X
<222> (5)..(5)
<223> 任何氨基酸
<400> 231
Cys Asn Ser Arg Xaa Val Asp
1 5
<210> 232
<211> 92
<212> PRT
<213> 棕色固氮菌
<400> 232
Met Ala Leu Lys Ile Val Glu Ser Cys Val Asn Cys Trp Ala Cys Val
1 5 10 15
Asp Val Cys Pro Ser Glu Ala Ile Ser Leu Ala Gly Pro His Phe Glu
20 25 30
Ile Ser Ala Ser Lys Cys Thr Glu Cys Asp Gly Asp Tyr Ala Glu Lys
35 40 45
Gln Cys Ala Ser Ile Cys Pro Val Glu Gly Ala Ile Leu Leu Ala Asp
50 55 60
Gly Thr Pro Ala Asn Pro Pro Gly Ser Leu Thr Gly Ile Pro Pro Glu
65 70 75 80
Arg Leu Ala Glu Ala Met Arg Glu Ile Gln Ala Arg
85 90
<210> 233
<211> 157
<212> PRT
<213> 人工序列
<220>
<223> 合成的融合多肽
<400> 233
Met Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro
1 5 10 15
Ser Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser
20 25 30
Asp Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val
35 40 45
Val Arg Asn Arg Gly Gly Ala Leu Lys Ile Val Glu Ser Cys Val Asn
50 55 60
Cys Trp Ala Cys Val Asp Val Cys Pro Ser Glu Ala Ile Ser Leu Ala
65 70 75 80
Gly Pro His Phe Glu Ile Ser Ala Ser Lys Cys Thr Glu Cys Asp Gly
85 90 95
Asp Tyr Ala Glu Lys Gln Cys Ala Ser Ile Cys Pro Val Glu Gly Ala
100 105 110
Ile Leu Leu Ala Asp Gly Thr Pro Ala Asn Pro Pro Gly Ser Leu Thr
115 120 125
Gly Ile Pro Pro Glu Arg Leu Ala Glu Ala Met Arg Glu Ile Gln Ala
130 135 140
Arg Ala Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala
145 150 155
<210> 234
<211> 156
<212> PRT
<213> 人工序列
<220>
<223> 合成的融合多肽
<400> 234
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Ala Leu Lys Ile Val Glu Ser Cys Val Asn Cys Trp Ala Cys Val Asp
65 70 75 80
Val Cys Pro Ser Glu Ala Ile Ser Leu Ala Gly Pro His Phe Glu Ile
85 90 95
Ser Ala Ser Lys Cys Thr Glu Cys Asp Gly Asp Tyr Ala Glu Lys Gln
100 105 110
Cys Ala Ser Ile Cys Pro Val Glu Gly Ala Ile Leu Leu Ala Asp Gly
115 120 125
Thr Pro Ala Asn Pro Pro Gly Ser Leu Thr Gly Ile Pro Pro Glu Arg
130 135 140
Leu Ala Glu Ala Met Arg Glu Ile Gln Ala Arg Ala
145 150 155
<210> 235
<211> 156
<212> PRT
<213> 人工序列
<220>
<223> 合成的融合多肽
<400> 235
Met Ala Met Ala Val Phe Arg Arg Glu Ala Ala Ala Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ala Ala Ala Ala Ala Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Ala Ala Ala Ala Ala Ala Ala Ala Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Ala Leu Lys Ile Val Glu Ser Cys Val Asn Cys Trp Ala Cys Val Asp
65 70 75 80
Val Cys Pro Ser Glu Ala Ile Ser Leu Ala Gly Pro His Phe Glu Ile
85 90 95
Ser Ala Ser Lys Cys Thr Glu Cys Asp Gly Asp Tyr Ala Glu Lys Gln
100 105 110
Cys Ala Ser Ile Cys Pro Val Glu Gly Ala Ile Leu Leu Ala Asp Gly
115 120 125
Thr Pro Ala Asn Pro Pro Gly Ser Leu Thr Gly Ile Pro Pro Glu Arg
130 135 140
Leu Ala Glu Ala Met Arg Glu Ile Gln Ala Arg Ala
145 150 155
<210> 236
<211> 104
<212> PRT
<213> 人工序列
<220>
<223> 合成的融合多肽
<400> 236
Met Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly Ala Leu Lys Ile
1 5 10 15
Val Glu Ser Cys Val Asn Cys Trp Ala Cys Val Asp Val Cys Pro Ser
20 25 30
Glu Ala Ile Ser Leu Ala Gly Pro His Phe Glu Ile Ser Ala Ser Lys
35 40 45
Cys Thr Glu Cys Asp Gly Asp Tyr Ala Glu Lys Gln Cys Ala Ser Ile
50 55 60
Cys Pro Val Glu Gly Ala Ile Leu Leu Ala Asp Gly Thr Pro Ala Asn
65 70 75 80
Pro Pro Gly Ser Leu Thr Gly Ile Pro Pro Glu Arg Leu Ala Glu Ala
85 90 95
Met Arg Glu Ile Gln Ala Arg Ala
100
<210> 237
<211> 448
<212> PRT
<213> 人工序列
<220>
<223> 合成的融合多肽
<400> 237
Met Ala Met Ala Val Phe Arg Arg Glu Gly Arg Arg Leu Leu Pro Ser
1 5 10 15
Ile Ala Ala Arg Pro Ile Ala Ala Ile Arg Ser Pro Leu Ser Ser Asp
20 25 30
Gln Glu Glu Gly Leu Leu Gly Val Arg Ser Ile Ser Thr Gln Val Val
35 40 45
Arg Asn Arg Gly Gly Tyr Pro Tyr Asp Val Pro Asp Tyr Ala Gly Gly
50 55 60
Met Ala Ser Val Ile Ile Asp Asp Thr Thr Leu Arg Asp Gly Glu Gln
65 70 75 80
Ser Ala Gly Val Ala Phe Asn Ala Asp Glu Lys Ile Ala Ile Ala Arg
85 90 95
Ala Leu Ala Glu Leu Gly Val Pro Glu Leu Glu Ile Gly Ile Pro Ser
100 105 110
Met Gly Glu Glu Glu Arg Glu Val Met His Ala Ile Ala Gly Leu Gly
115 120 125
Leu Ser Ser Arg Leu Leu Ala Trp Cys Arg Leu Cys Asp Val Asp Leu
130 135 140
Ala Ala Ala Arg Ser Thr Gly Val Thr Met Val Asp Leu Ser Leu Pro
145 150 155 160
Val Ser Asp Leu Met Leu His His Lys Leu Asn Arg Asp Arg Asp Trp
165 170 175
Ala Leu Arg Glu Val Ala Arg Leu Val Gly Glu Ala Arg Met Ala Gly
180 185 190
Leu Glu Val Cys Leu Gly Cys Glu Asp Ala Ser Arg Ala Asp Leu Glu
195 200 205
Phe Val Val Gln Val Gly Glu Val Ala Gln Ala Ala Gly Ala Arg Arg
210 215 220
Leu Arg Phe Ala Asp Thr Val Gly Val Met Glu Pro Phe Gly Met Leu
225 230 235 240
Asp Arg Phe Arg Phe Leu Ser Arg Arg Leu Asp Met Glu Leu Glu Val
245 250 255
His Ala His Asp Asp Phe Gly Leu Ala Thr Ala Asn Thr Leu Ala Ala
260 265 270
Val Met Gly Gly Ala Thr His Ile Asn Thr Thr Val Asn Gly Leu Gly
275 280 285
Glu Arg Ala Gly Asn Ala Ala Leu Glu Glu Cys Val Leu Ala Leu Lys
290 295 300
Asn Leu His Gly Ile Asp Thr Gly Ile Asp Thr Arg Gly Ile Pro Ala
305 310 315 320
Ile Ser Ala Leu Val Glu Arg Ala Ser Gly Arg Gln Val Ala Trp Gln
325 330 335
Lys Ser Val Val Gly Ala Gly Val Phe Thr His Glu Ala Gly Ile His
340 345 350
Val Asp Gly Leu Leu Lys His Arg Arg Asn Tyr Glu Gly Leu Asn Pro
355 360 365
Asp Glu Leu Gly Arg Ser His Ser Leu Val Leu Gly Lys His Ser Gly
370 375 380
Ala His Met Val Arg Asn Thr Tyr Arg Asp Leu Gly Ile Glu Leu Ala
385 390 395 400
Asp Trp Gln Ser Gln Ala Leu Leu Gly Arg Ile Arg Ala Phe Ser Thr
405 410 415
Arg Thr Lys Arg Ser Pro Gln Pro Ala Glu Leu Gln Asp Phe Tyr Arg
420 425 430
Gln Leu Cys Glu Gln Gly Asn Pro Glu Leu Ala Ala Gly Gly Met Ala
435 440 445
<210> 238
<211> 243
<212> PRT
<213> 棕色固氮菌
<400> 238
Met Val Thr Pro Val Asn Met Ser Arg Glu Thr Ala Leu Arg Ile Ala
1 5 10 15
Leu Ala Ala Arg Ala Leu Pro Gly Thr Thr Val Gly Gln Leu Leu Glu
20 25 30
Ile Leu His Gln Arg Ile Glu Gly Pro Leu Thr Glu Glu Ser Leu Gln
35 40 45
Gly Val Ser Val Thr Asp Leu Lys Ile Gly Leu Ala Gly Ser Glu Glu
50 55 60
Asp Val Asp Met Leu Asp Thr Pro Met Ser Ala Leu Lys Asp Ala Val
65 70 75 80
Arg Ile Leu Trp Gly Glu Ala Glu Val Asp Ser Leu Pro Gln Pro Val
85 90 95
Lys Leu Glu Arg Val Pro Glu Gly Ser Ile Arg Val Ala Ile Ala Ser
100 105 110
Asn Asn Gly Glu Gln Leu Asp Gly His Phe Gly Ser Cys Leu Arg Phe
115 120 125
Leu Val Tyr Gln Val Ser Ala Lys Asp Ala Ser Leu Val Asp Ile Arg
130 135 140
Ser Thr Leu Asp Val Ala Leu Ala Glu Asp Lys Asn Ala Trp Arg Val
145 150 155 160
Glu Gln Ile Gln Asp Cys Gln Val Leu Tyr Val Val Ser Ile Gly Gly
165 170 175
Pro Ala Ala Ala Lys Val Val Arg Ala Gly Ile His Pro Leu Lys Lys
180 185 190
Pro Lys Gly Cys Ala Ala Gln Glu Ala Ile Ala Glu Leu Gln Thr Val
195 200 205
Met Ala Gly Ser Pro Pro Pro Trp Leu Ala Lys Leu Val Gly Val Ser
210 215 220
Ala Glu Glu Arg Val Arg Phe Ser Val Ser Asp Asp Glu Asp Glu Ala
225 230 235 240
Ala Arg Ala
<210> 239
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 239
Asp Leu Ile Arg
1
<210> 240
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 240
Asp Val Val Arg
1
<210> 241
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 241
Asp Ile Ile Arg
1
<210> 242
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 242
Asp Leu Thr Arg
1
<210> 243
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 243
Ile Asn Val Trp
1
<210> 244
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 244
Leu Asn Val Trp
1
<210> 245
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 245
Leu Asn Thr Trp
1
<210> 246
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 246
Leu Asn Met Trp
1
<210> 247
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 247
Leu Ala Met Trp
1
<210> 248
<211> 4
<212> PRT
<213> 人工序列
<220>
<223> C端氨基酸序列
<400> 248
Leu Ser Val Trp
1

Claims (50)

1.一种包含编码NifD多肽的外源多核苷酸的植物细胞,所述NifD多肽(a)在对应于SEQID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列,其中所述外源多核苷酸包含启动子,所述启动子与编码NifD多的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列。
2.根据权利要求1所述的植物细胞,其中所述NifD多肽是一种包含线粒体靶向肽(MTP)的NifD融合多肽,其中所述MTP优选在所述NifD多肽的N端翻译融合。
3.根据权利要求2所述的植物细胞,其中所述NifD融合多肽在所述MTP内被线粒体加工蛋白酶(MPP)切割以产生MPP切割产物,其中所述MPP切割产物包含(i)位于其N端的来自所述MTP的C端肽(瘢痕肽),或(ii)不包含来自所述MTP的C端肽。
4.根据权利要求3所述的植物细胞,其中所述MPP切割产物至少部分可溶于植物细胞的线粒体中。
5.根据权利要求1-4中任一项所述的植物细胞,包含编码NifK多肽(NK)的外源多核苷酸,其中编码所述NK的所述外源多核苷酸包含启动子,所述启动子与编码所述NK的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列,其中所述NifD多肽(ND)具有C端并且所述NK具有N端,并且其中(i)所述NK是包含MTP的NifK融合多肽,或者(ii)所述ND和NK翻译融合为包含寡肽接头的NifD-接头-NifK融合多肽,其中所述寡肽接头翻译融合于所述ND的C端和所述NK的N端。
6.根据权利要求5所述的植物细胞,包含编码NifD-接头-NifK融合多肽的外源多核苷酸,其中所述寡肽接头长度为8-50个残基,优选长度为16-50个残基,更优选长度为约26或约30个残基,或最优选长度为30个残基。
7.根据权利要求5或6所述的植物细胞,其中NifK融合多肽或NifD-接头-NifK融合多肽具有与野生型NifK多肽的C端氨基酸序列相同的C端氨基酸序列。
8.根据权利要求7所述的植物细胞,其中所述NifK融合多肽或NifD-接头-NifK融合多肽具有氨基酸序列,其中所述序列的最后四个氨基酸与野生型NifK多肽的最后四个氨基酸相同。
9.根据权利要求5-8中任一项所述的植物细胞,其中所述NifD-接头-NifK融合多肽在MTP中切割以产生MPP切割产物,其中所述NifD-接头-NifK融合多肽的MPP切割产物至少部分可溶于植物细胞的线粒体中。
10.根据权利要求1至9中任一项所述的植物细胞,其中所述NifD融合多肽或NifD-接头-NifK融合多肽在对应于SEQ ID NO:18的氨基酸100的位置处包含除酪氨酸(Y)以外的氨基酸,优选在对应于SEQ ID NO:18的氨基酸100的位置处包含谷氨酰胺(Q)或赖氨酸(K)。
11.根据权利要求1-10中任一项所述的植物细胞,包含编码NifH融合多肽的外源多核苷酸,其中编码所述NifH融合多肽的所述外源多核苷酸包含启动子,所述启动子与编码所述NifH融合多肽的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列,其中所述NifH融合多肽包含MTP,优选其中所述MTP位于所述NifH融合多肽的N端。
12.根据权利要求11所述的植物细胞,其中所述NifH多肽在所述MTP内被切割以产生MPP切割产物,其中所述MPP切割产物包含(i)位于其N端的来自所述MTP的C端肽(瘢痕肽),或(ii)不包含来自所述MTP的C端肽。
13.根据权利要求12所述的植物细胞,其中所述NifH融合多肽的所述MPP切割产物至少部分可溶于植物细胞的线粒体中。
14.根据权利要求1-13中任一项所述的植物细胞,还包括以下中的一个或多个或全部:
(i)编码NifV多肽(NV)的外源多核苷酸,其中所述外源多核苷酸包含启动子,所述启动子与编码所述NV的核苷酸序列可操作地连接并且在所述植物细胞中表达所述核苷酸序列,其中所述NV在所述植物细胞中产生高柠檬酸盐,并且任选地其中所述NV包含MTP,
(ii)编码NifM多肽(NM)的外源多核苷酸,其中编码所述NM的所述外源多核苷酸包含启动子,所述启动子与编码所述NM的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列,并且其中所述NM任选地包含MTP,以及
(iii)编码NifS融合多肽(NS)和NifU融合多肽(NU)的外源多核苷酸,其中所述外源多核苷酸各自包含启动子,所述启动子与编码所述Nif融合多肽之一的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列,并且其中所述NS和NU各自包含MTP。
15.根据权利要求14所述的植物细胞,其中NV、NM、NS和NU中的一种或多种或全部在MTP中被切割以独立地产生MPP切割产物,其中所述MPP切割产物在每种情况下包含(i)位于其N端的来自所述MTP的C端肽(瘢痕肽),或(ii)不包含来自MTP的C端肽。
16.根据权利要求1-15中任一项所述的植物细胞,包含编码至少8种或至少9种Nif融合多肽的外源多核苷,其中所述外源多核苷酸各自包含与编码所述Nif融合多肽之一的核苷酸序列可操作地连接并在所述植物细胞中表达所述核苷酸序列的启动子,其中每种Nif融合多肽独立地包含MTP,其中所述Nif融合多肽包含(i)NifH、NifB、NifF、NifJ、NifS、NifU和NifV融合多肽,以及(ii)NifD融合多肽和NifK融合多肽或者(iii)包含具有C端的NifD序列的NifD-接头-NifK融合多肽、寡肽接头和具有N端的NifK序列,其中所述寡肽接头翻译融合于所述NifD序列的C端和所述NifK序列的N端,其中至少所述NifH、NifF、NifS和NifU融合多肽的MPP切割产物各自至少部分可溶于植物细胞的线粒体中,其中(ii)的NifD和NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,或(iii)的NifD-接头-NifK融合多肽的MPP切割产物(如果存在于植物细胞中)至少部分可溶于植物细胞的线粒体中,以及其中NifV融合多肽和/或其MPP切割产物在植物细胞中产生高柠檬酸盐,并且至少部分可溶于植物细胞的线粒体中。
17.根据权利要求2-16中任一项所述的植物细胞,其中各MTP在所述植物细胞中以至少50%的效率独立切割和/或其中各MPP切割产物以高于相应未切割的Nif融合多肽的水平独立存在于所述植物细胞中,优选以高于1:1、高于2:1或高于3:1的比例存在。
18.根据权利要求2-17中任一项所述的植物细胞,其中各Nif融合多肽在所述植物细胞中在其MTP序列中被至少部分切割以独立地产生MPP切割产物,其中各MPP切割产物独立地包含衍生自所述MTP序列的长度为1-45个氨基酸、优选地长度为1-20个氨基酸、更优选地长度为1-11或11-20个氨基酸的肽(瘢痕肽),其中所述瘢痕肽翻译融合于所述MPP切割产物的N端。
19.根据权利要求11-18中任一项所述的植物细胞,其中所述外源多核苷酸编码(i)作为AnfH融合多肽的NifH融合多肽,和(ii)作为AnfD融合多肽的NifD融合多肽和作为AnfK融合多肽的NifK融合多肽,或(iii)作为AnfD-接头-AnfK融合多肽的NifD-接头-NifK融合多肽,且所述植物细胞还包含(iv)编码包含MTP的AnfG融合多肽的外源多核苷酸,其中编码所述AnfG融合多肽的所述外源多核苷酸包含启动子,所述启动子与编码AnfG融合多肽的核苷酸序列可操作地连接且在植物细胞中表达所述核苷酸序列,并且其中所述AnfG融合多肽的MPP切割产物至少部分可溶于所述植物细胞的线粒体中。
20.根据权利要求1-19中任一项所述的植物细胞,其中一种或多种或优选所有的外源多核苷酸被整合到所述植物细胞的核基因组中和/或在所述植物细胞的细胞核中表达。
21.一株植物或其部分,包含根据权利要求1-20中任一项所述的植物细胞,或其对于编码权利要求1至20中任一项所定义的Nif融合多肽的外源多核苷酸是转基因的。
22.根据权利要求21所述的植物或其部分,其是谷类植物,优选小麦、水稻、玉米、黑小麦、燕麦或大麦植物或其部分。
23.一种NifD融合多肽或其切割产物,所述NifD融合多肽包含翻译融合于NifD多肽(ND)的线粒体靶向肽(MTP),所述切割产物包含ND,其中所述NifD融合多肽或其切割产物(a)在对应于SEQ ID NO:18的氨基酸97-100的氨基酸序列内的位点处对蛋白酶切割具有抗性和/或(b)在对应于SEQ ID NO:18的氨基酸97-100的位置处包含除RRNY(SEQ ID NO:101)以外的氨基酸序列。
24.根据权利要求23所述的NifD融合多肽或切割产物,其在对应于SEQ ID NO:18的氨基酸100的位置处包含除酪氨酸(Y)以外的氨基酸,优选在对应于SEQ ID NO:18的氨基酸100的位置处包含谷氨酰胺(Q)或赖氨酸(K)。
25.根据权利要求23或24所述的NifD融合多肽或切割产物,其包含寡肽接头和NifK多肽(NK),所述寡肽接头和NifK多肽(NK)作为NifD-接头-NifK融合多肽与所述ND翻译融合,其中所述ND包含C端且所述NK包含N端,其中所述寡肽接头翻译融合于所述ND的C端和所述NK的N端。
26.根据权利要求25所述的NifD融合多肽的切割产物,其中所述切割产物包含ND、寡肽接头和NK,其中所述寡肽接头翻译融合于所述ND的C端和所述NK的N端。
27.根据权利要求23-25中任一项所述的NifD融合多肽或其切割产物、或权利要求26所述的切割产物,当在所述植物细胞中产生所述NifD融合多肽时,其至少部分溶于所述植物细胞的线粒体中。
28.根据权利要求23-25或27中任一项所述的NifD融合多肽或其切割产物、或权利要求26所述的切割产物,其位于所述植物细胞中,优选位于所述植物细胞的线粒体中。
29.根据权利要求24或25所述的NifD融合多肽或其切割产物、或权利要求26-28中任一项所述的切割产物,其中所述NifD融合多肽是AnfD融合多肽,NK是AnfK多肽,以及NifD-接头-NifK融合多肽是AnfD-接头-AnfK融合多肽。
30.一种(i)权利要求23或24所述的NifK融合多肽或其切割产物和(ii)包含翻译融合于NifK多肽(NK)的MTP的NifK融合多肽或其MPP切割产物的组合,其中当所述植物细胞中产生所述NifK融合多肽或其MPP切割产物时,所述NifK融合多肽或其MPP切割产物至少部分可溶于所述植物细胞的线粒体。
31.根据权利要求23-29任一项所述的融合多肽或其切割产物、或权利要求30所述的组合,其中所述NifK多肽具有与野生型NifK多肽的C端氨基酸序列相同的C端氨基酸序列。
32.根据权利要求30或31所述的组合,还包含NifH融合多肽,所述NifH融合多肽包含翻译融合于NifH多肽(NH)的MTP或包含所述NH的其切割产物,其中所述NifH融合多肽和/或其切割产物至少部分可溶于所述植物细胞的线粒体中。
33.根据权利要求30-32任一项所述的组合,其中所述ND是AnfD多肽,NK是AnfK多肽,以及NH是AnfH多肽。
34.一种多核苷酸,其编码根据权利要求23-25、27或28中任一项所述的多肽、或根据权利要求30-33中任一项所述的组合。
35.根据权利要求34所述的多核苷酸,其中相对于细菌中天然存在的多核苷酸的相应多肽编码区,所述多核苷酸的一个或多个或所有多肽编码区已经被密码子修饰以在所述植物细胞中表达。
36.根据权利要求34或权利要求35所述的多核苷酸,还包含与编码每种多肽的所述多核苷酸可操作地连接的启动子。
37.根据权利要求34-36中任一项所述的多核苷酸,其存在于植物细胞、酵母细胞或细菌细胞中。
38.根据权利要求37所述的多核苷酸,其整合到所述植物细胞的核基因组中和/或在所述植物细胞的细胞核中表达。
39.一种包含权利要求34-38中任一项所述的合成基因的载体。
40.根据权利要求39所述的载体,包含多核苷酸,所述多核苷酸编码至少3种、至少4种或至少5种Nif融合多肽,优选如前述权利要求中任一项所定义的Nif融合多肽。
41.根据权利要求40所述的载体,其包含编码以下的多核苷酸:
a)NifD融合多肽和NifK融合多肽,或NifD-接头-NifK融合多肽;以及
b)NifH融合多肽和NifV融合多肽;以及
c)任选地,所述AnfG融合多肽。
42.根据权利要求40或41所述的载体,其包含编码以下的多核苷酸:
a)NifF、NifJ、NifU和NifB融合多肽以及任选地NifS融合多肽;和/或
b)NifW、NifX、NifY和NifZ融合多肽中的一种或多种或全部。
43.权利要求34-38中任一项所述的多核苷酸和/或权利要求39-42中任一项所述的载体用于产生转基因植物细胞的用途。
44.一种产生转基因植物的方法,所述方法包括以下步骤:
i)将根据权利要求34-38中任一项所述的一种或多种多核苷酸和/或根据权利要求39-42中任一项所述的一种或多种载体导入植物细胞中,
ii)由步骤i)的细胞中再生出根据权利要求21或22所述的转基因植物,和
iii)任选地,由步骤ii)中再生的所述转基因植物产生转基因种子和/或子代植物。
45.一种产生转基因种子的方法,包括:
i)从权利要求21或22所述的转基因植物中收获种子,和/或
ii)从通过权利要求44所述的方法产生的一种或多种转基因后代植物收获种子。
46.根据权利要求21或22所述的植物部分,其是种子。
47.一种由种子生产面粉、全麦面粉、淀粉、油、种子粉或其他产品的方法,所述方法包括从权利要求46所述的种子提取面粉、全麦面粉、淀粉、油或其他产品、或生产种子粉。
48.一种由权利要求21或22所述的转基因植物或其部分和/或权利要求46所述的种子产生的产物,其中所述产物包含权利要求23-29中任一项所述的多肽或MPP切割产物和/或权利要求34-38中任一项所述的多核苷酸。
49.一种制备食品的方法,所述方法包括将权利要求46所述的种子或来自所述种子的面粉、全麦粉面、淀粉、油或其他产品与另一种食品配料混合。
50.一种喂养动物的方法,包括向所述动物提供权利要求21或22所述的植物或其部分、权利要求46所述的种子或权利要求48所述的产品。
CN202080034451.0A 2019-03-08 2020-03-06 固氮酶多肽在植物细胞中的表达 Pending CN114144527A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
AU2019900780A AU2019900780A0 (en) 2019-03-08 Expression of nitrogenase polypeptides in plant cells
AU2019900780 2019-03-08
AU2019903818A AU2019903818A0 (en) 2019-10-10 Expression of nitrogenase polypeptides in plant cells
AU2019903818 2019-10-10
AU2020900689A AU2020900689A0 (en) 2020-03-05 Expression of nitrogenase polypeptides in plant cells
AU2020900689 2020-03-05
PCT/AU2020/050216 WO2020181324A1 (en) 2019-03-08 2020-03-06 Expression of nitrogenase polypeptides in plant cells

Publications (1)

Publication Number Publication Date
CN114144527A true CN114144527A (zh) 2022-03-04

Family

ID=72426505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080034451.0A Pending CN114144527A (zh) 2019-03-08 2020-03-06 固氮酶多肽在植物细胞中的表达

Country Status (12)

Country Link
US (1) US20220170038A1 (zh)
EP (1) EP3935169A4 (zh)
JP (1) JP2022523586A (zh)
KR (1) KR20210149063A (zh)
CN (1) CN114144527A (zh)
AU (1) AU2020236396A1 (zh)
BR (1) BR112021017799A2 (zh)
CA (1) CA3132683A1 (zh)
IL (1) IL286116A (zh)
MX (1) MX2021010820A (zh)
WO (1) WO2020181324A1 (zh)
ZA (1) ZA202107143B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114846143A (zh) * 2019-10-10 2022-08-02 联邦科学技术研究组织 固氮酶多肽在植物细胞中的表达

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0339830A2 (en) * 1988-04-14 1989-11-02 Biotechnica International, Inc. Improved biological nitrogen fixation
CN104903453A (zh) * 2012-12-03 2015-09-09 阿迪·查尔兹曼 模拟原核途径的植物自固氮
WO2018141030A1 (en) * 2017-02-06 2018-08-09 Commonwealth Scientific And Industrial Research Organisation Expression of nitrogenase polypeptides in plant cells
WO2019068011A2 (en) * 2017-09-28 2019-04-04 Lanzatech, Inc. GENETIC BLOCKING IN WOOD-LJUNGDAHL MICROORGANISMS

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0339830A2 (en) * 1988-04-14 1989-11-02 Biotechnica International, Inc. Improved biological nitrogen fixation
CN104903453A (zh) * 2012-12-03 2015-09-09 阿迪·查尔兹曼 模拟原核途径的植物自固氮
WO2018141030A1 (en) * 2017-02-06 2018-08-09 Commonwealth Scientific And Industrial Research Organisation Expression of nitrogenase polypeptides in plant cells
CN110475861A (zh) * 2017-02-06 2019-11-19 联邦科学技术研究组织 固氮酶多肽在植物细胞中的表达
WO2019068011A2 (en) * 2017-09-28 2019-04-04 Lanzatech, Inc. GENETIC BLOCKING IN WOOD-LJUNGDAHL MICROORGANISMS
CN111225978A (zh) * 2017-09-28 2020-06-02 朗泽科技有限公司 Wood-ljungdahl微生物的基因敲除

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ALLEN, R.等: "Expression of 16 Nitrogenase Proteins within the plant mitochondrial matrix", FRONTIERS IN PLANT SCIENCE, no. 8, pages 1 - 14, XP055629661, DOI: 10.3389/fpls.2017.00287 *
BUREN, S.等: "State of the art in eukaryotic nitrogenase engineering", FEMS MICROBIOLOGY LETTERS., vol. 365, no. 2, pages 1 - 9, XP055629655, DOI: 10.1093/femsle/fnx274 *
OKADA, S.等: "An experimental workflow identifies nitrogenase proteins ready for expression in plant mitochondria", BIORXIV. *
ROBERT S. ALLEN等: "plant expression of NifD protein variants resistant to mitochondrial degradation", BIOLOGICAL SCIENCES, vol. 117, no. 37, pages 23165 - 23173, XP055977985, DOI: 10.1073/pnas.2002365117 *
黄开耀, 郭厚良: "蓝藻突变体研究综述", 武汉植物学研究, no. 03 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114846143A (zh) * 2019-10-10 2022-08-02 联邦科学技术研究组织 固氮酶多肽在植物细胞中的表达

Also Published As

Publication number Publication date
MX2021010820A (es) 2022-01-04
US20220170038A1 (en) 2022-06-02
IL286116A (en) 2021-10-31
EP3935169A4 (en) 2022-12-21
AU2020236396A1 (en) 2021-10-14
KR20210149063A (ko) 2021-12-08
JP2022523586A (ja) 2022-04-25
BR112021017799A2 (pt) 2021-11-23
WO2020181324A1 (en) 2020-09-17
ZA202107143B (en) 2023-10-25
EP3935169A1 (en) 2022-01-12
CA3132683A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
US11802290B2 (en) Expression of nitrogenase polypeptides in plant cells
CN104769121B (zh) 香草醛合酶
Gottschamel et al. Production of dengue virus envelope protein domain III-based antigens in tobacco chloroplasts using inducible and constitutive expression systems
CN115927440A (zh) 修饰基因组的组合物和方法
US10913939B2 (en) Compositions and methods for expression of nitrogenase in plant cells
EP2914726B1 (en) Improved acyltransferase polynucleotides, polypeptides, and methods of use
EA008669B1 (ru) Способ увеличения содержания общих или растворимых углеводов или сахаристости эндогенных углеводов путем каталитического превращения эндогенного сахара в чужеродный сахар
US20230114811A1 (en) Glycosyltransferases, polynucleotides encoding these and methods of use
US20240117326A1 (en) Expression of nitrogenase polypeptides in plant cells
US20220170038A1 (en) Expression of Nitrogenase Polypeptides In Plant Cells
Zalabák et al. Maize cytokinin dehydrogenase isozymes are localized predominantly to the vacuoles
WO2017196790A1 (en) Algal components of the pyrenoid&#39;s carbon concentrating mechanism
RU2809244C2 (ru) Экспрессия полипептидов нитрогеназы в растительных клетках
US11492636B2 (en) Modified bialaphos resistance acetyltransferase compositions and uses thereof
JP2013141421A (ja) 芳香族アミノ酸含量の増大した植物およびその作製方法
US20150247161A1 (en) METHOD OF PRODUCING STRESS TOLERANT PLANTS OVER-EXPRESSING OsAlba1
Dempers Overexpression of α-acetolactate decarboxylase and acetoin reductase/2, 3-butanediol dehydrogenase in Arabidopsis thaliana
WO2022107165A1 (en) Methods for producing transgenic plants overexpressing non-symbiotic hemoglobin class-1 gene, and applications thereof
Lockhart An investigation of the role of stress-responsive aldo-keto reductases in Arabidopsis thaliana
Mall Evaluation of novel input output traits in sorghum through biotechnology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination