CN103797026A

CN103797026A - 由木质素衍生的化合物生物生产芳香族化学品

Info

Publication number: CN103797026A
Application number: CN201180044555.0A
Authority: CN
Inventors: R·查特吉; K·赞恩; K·米歇尔; G·Y·刘
Original assignee: Aligna Technologies Inc
Current assignee: Aligna Technologies Inc
Priority date: 2010-09-15
Filing date: 2011-08-29
Publication date: 2014-05-14
Also published as: CA2811403A1; EP2616481A4; WO2012036884A2; EP2616481A2; JP2014506115A; WO2012036884A3; AU2011302522A1

Abstract

本文所提供的教导总体而言涉及使用酶的生物转换工艺将木质素衍生的化合物转换为有价值的芳香族化学品的方法。本文所述的教导提供了以下选择：(i)对在木质素级份中存在的毒性化合物耐受的宿主细胞；(ii)可以在将木质素级份生物转换为芳香族化学品产物中作为酶使用的多肽；(iii)可以用于转化宿主细胞从而在木质素级份的生物转换中表达作为酶的所选多肽的多核苷酸；以及(iv)表达酶的转化子。

Description

由木质素衍生的化合物生物生产芳香族化学品

R·查特吉

K·赞

K·米歇尔

G·刘

相关领域的描述

当前，全世界整体性地依赖石油作为用于制造燃料和化学品的可能耗尽的原料。使用石油的问题是如此公知的，并记录为它们对于世界人口而言几乎已经成为陈词滥调。简言之，基于石油的工艺是脏且危险的。与石油应用相关的环境影响是已知的，例如包括空气污染、全球变暖、提取产生的损伤、油泄露、油球以及对人、家畜和野生生物的健康危害。

例如，油的精炼是主要生产汽油的基于石油的工艺。然而，它们还广泛地用于生产在药物、农用化学品、食品原料和塑料的制造中有价值的且鲜有人知的化学产物。该市场范围的清洁绿色备选物受到全球范围的重视。

生物加工可以将清洁绿色的备选物提供给基于石油的工艺，所述的生物加工为使用有机体、细胞、细胞器或酶来进行商业化工艺的加工方法。例如，生物精炼可以生产例如化学品，热和动力，以及食品、饲料、燃料和工业化学产物。生物精炼的实例可以包括湿磨和干磨玉米粉、制浆和造纸厂以及生物燃料工厂。在制革过程中，使用蛋白酶软化毛皮并除去头发。在酿造中，在发芽大麦中使用淀粉酶。在干酪制造中，使用凝乳酶来凝结蛋白质(以密尔计)。例如，近来，生物燃料工厂成为焦点，其自然而然地集中与燃料产物来替代基于石油的燃料，结果不再研发同样依赖于基于石油工艺的其他有价值的化学产物。

由此，生物精炼使用酶来将天然产物转换为有用的化学品。天然产物(例如在制浆和造纸厂中使用的木材)包含纤维素、半纤维素和木质素、硬木的典型组成范围可以为大约40-44％纤维素、大约15-35％半纤维素、以及大约18-25％木质素。同样，软木的典型组成范围可以为大约40-44％纤维素、大约20-32％半纤维素、以及大约25-35％木质素。由于所有的生物燃料均得自纤维素质的生物精炼，其中重要的原材料为葡萄糖，其衍生自纤维素，所以木质素保持未充分利用。在自然界中，木质素为芳香族化合物的单一的最丰富的来源，并且木质素的用途目前局限于低价值的应用，例如燃烧生成用于生物精炼设备的过程热和能量。备选地，木质素作为动物饲料或肥料的天然成分被出售。然而，有趣的是木质素为基于芳香族核心结构的唯一的植物生物质成分，并且所述的核心结构在工业化学品的生产中是有价值的。技术人员理解的是：不幸地，此类木质素应用的主要问题仍保留：存在于生物精炼的木质素级份中的芳香族化合物包括抑制工业微生物生长和存活的毒性化合物。至少鉴于这些原因，使用工业微生物将木质素级份转换为工业产物的工艺仍未成功。

基于上文所述，技术人员理解的是：(i)在生产有价值的化学产物(包括主要的市场，例如药物、农用化学品、食品原料和塑料)中，清洁绿色替代基于石油的工艺；(ii)有益地利用在木质素中得到的大量且可再生的天然来源，其目前为工业废物流，其作为工业原料是未经充分利用的；(iii)选择对原料的木质素级份中存在的毒性化合物耐受的宿主细胞；(iv)选择可以在木质素级份生物转换为有价值的化学产物的过程中用作酶的多肽；(v)选择可以用于转化宿主细胞从而在木质素级份转换为有价值的化学产物的过程中表达所选择的多肽的宿主细胞；(vi)包含表达酶的转化子的系统，其中所述的转化子可以用于(a)表达酶，同时与木质素级份直接接触；或者(b)表达由细胞进行提取的酶，其后将提取的酶与木质素级份直接接触；以及(vii)在高于基于石油工艺的收益下生产有价值的化学产物的清洁绿色方法。

发明概述

本发明总体而言涉及生产用于将木质素衍生的化合物生物转变为有价值的芳香族化学品的酶的重组方法。在一些实施方案中，所述的教导涉及分离的重组多肽，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列。该序列可以保留残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54，K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195。

在一些实施方案中，所述的教导涉及分离的重组多肽，其包含SEQ ID NO：101；或者该序列的保守残基以外的保守性取代。保守的残基可以包括T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54；K100，A101，N104，V111，G112，M115，F116，P166， W107，Y184，Y187，R188，G191，G192和F195。

在一些实施方案中，所述的教导涉及分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列。该序列可以保留残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54；K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，所述的教导涉及分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，所述的教导涉及分离的重组多肽，其包含：(i)长度范围为大约279至281的氨基酸；(ii)由以下部分构成的第一氨基酸区域：得自SEQ ID NO：101的残基19-54，或其除保守残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53和G54以外的保守性取代；其中所述的第一氨基酸区域可以定位于大约残基14至大约残基59的重组多肽中；以及(iii)由以下部分构成的第二氨基酸区域：得自SEQ ID NO：101的残基98-221，或其除保守残基K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195以外的保守性取代；其中所述的第二氨基酸区域定位于大约残基93至大约残基226的重组多肽中。

在一些实施方案中，所述的教导涉及分离的重组谷胱甘肽S转移酶，其包含：(i)长度范围为大约279至281个氨基酸；(ii)第一氨基酸区域，其具有与得自SEQ ID NO：101残基19-54具有至少95％的一致性，同时保留了残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53和G54；其中所述的第一氨基酸区域定位于大约残基14至大约残基59的重组多肽中；以及(iii)第二氨基酸区域，其具有与得自SEQ ID NO：101残基98-221具有至少95％的一致性，同时保留了残基K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195；其中所述的第二氨基酸区域可以定位于大约残基93至大约残基226的重组多肽中；并且所述的重组谷胱甘肽S转移酶可以起到切割β-芳基醚的作用。

在一些实施方案中，所述的教导涉及分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：541具有至少95％的一致性的氨基酸序列；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，所述的教导涉及分离的重组多肽，其包含：(i)长度范围为大约256至260个氨基酸；(ii)由以下部分构成的第一氨基酸区域：得自SEQ ID NO：541的残基47-57，或其除保守残基A47，I48，N49，P50，G52，V54，P55，V56，L57以外的保守性取代；其中所述的第一氨基酸区域定位于大约残基45至大约残基57的重组多肽中；以及(iii)由以下部分构成的第二氨基酸区域：得自SEQ IDNO：541的的残基99-230，或其除保守残基R100，Y101，K104，D107，M111，N112，S115，M116，K176，L194，I197， N198，S201，H202和M206以外的保守性取代；其中所述的第二氨基酸区域定位于大约残基94至大约残基235的重组多肽中。

在一些实施方案中，所述的教导涉及分离的重组谷胱甘肽S转移酶，其包含：(i)长度范围为大约279至281的氨基酸；(ii)第一氨基酸区域，其具有与得自SEQ ID NO：541残基47-57具有至少95％的一致性，或其除保守残基A47，I48，N49，P50，G52，V54，P55，V56，L57以外的保守性取代；其中所述的第一氨基酸区域可以定位于大约残基45至大约残基57的重组多肽中；(iii)第二氨基酸区域，其由SEQ ID NO：541的63-76构成；以及(iv)第三氨基酸区域，其具有与得自SEQ ID NO：541残基99-230具有至少95％的一致性，或其除保守残基R100，Y101，K104，D107，M111，N112，S115，M116，K176，L194，I197，N198，S201，H202和M206以外的保守性取代；其中所述的第二氨基酸区域可以定位于大约残基94至大约残基235的重组多肽中；其中所述的重组谷胱甘肽S转移酶起到切割β-芳基醚的作用。

在一些实施方案中，除保守残基以外的氨基酸取代可以为保守性取代。并且，在一些实施方案中，所述的氨基酸序列可以起到切割β-芳基醚的作用。

此外，所述的教导涉及切割β-芳基醚键的方法，其包括：将本文所教导的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有(i)β-芳基醚键；并且(ii)分子量范围为大约180道尔顿至大约3000道尔顿；其中所述的接触是在其中木质素衍生的化合物是可溶的溶剂环境中进行。

在一些实施方案中，所述的木质素衍生的化合物具有大约180道尔顿至大约1000道尔顿的分子量。在一些实施方案中，所述的溶剂环境包含水。并且在一些实施方案中，所述的溶剂环境包含极性有机溶剂。

此外，所述的教导还涉及用于生物加工木质素衍生的化合物的系统，该系统包含本文所教导的多肽；木质素衍生的化合物，其具有β-芳基醚键并且分子量范围为大约180道尔顿至大约3000道尔顿；以及所述的木质素衍生的化合物可溶于其中的溶剂；其中所述的系统通过将所述的多肽与所述的木质素衍生的化合物在溶剂中相接触来切割β-芳基醚键。

此外，所述的教导还涉及重组多核苷酸，其包含编码本文所述的多肽的核苷酸序列。类似地，所述的教导还涉及包含所述的多核苷酸的载体或质粒、以及由能够表达所述的多肽的载体或质粒转化的宿主细胞。

此外，所述的教导还涉及切割β-芳基醚键的方法，该方法包括：(i)在适于生产本文所教导的多肽的条件下培养本文所教导的宿主细胞；(ii)由宿主细胞培养物回收所述的多肽；以及(iii)将权利要求1所述的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有β-芳基醚键，并且分子量范围为大约180道尔顿至大约3000道尔顿；其中所述的接触是在其中木质素衍生的化合物是可溶的溶剂环境中进行。

在一些实施方案中，所述的宿主细胞可以为大肠杆菌或固氮菌属菌株，例如棕色固氮菌(Azotobacter vinelandii)。并且在一些实施方案中，所述的木质素衍生的化合物可以具有大约280道尔顿至大约1000道尔顿的分子量。

此外，所述的教导还涉及用于生物加工木质素衍生的化合物的系统，该系统包括：(i)本文所教导的转化的宿主细胞；(ii)木质素衍生的化合物，其具有β-芳基醚键，并且分子量范围为大约180道尔顿至大约3000道尔顿；以及(iii)其中木质素衍生的化合物是可溶的溶剂；其中所述的系统通过将本文所教导的多肽与所述的木质素衍生的化合物在溶剂中相接触来切割β-芳基醚键。

附图简述

图1A和1B示出了根据一些实施方案、本文所讨论的生物精炼工艺和发现工艺的总体概念。

图2示出了根据一些实施方案、可以使用生物转变而生产的一些构造块化学品的结构。

图3为根据一些实施方案、β-醚酶催化来水解模式木质素二聚体α-O-(β-甲基伞形酮基)乙酰香兰酮(MUAV)的实例。

图4示出了根据一些实施方案、针对少动鞘氨醇单胞菌(S.paucimobilis)阳性对照多肽和新鞘氨醇杆菌(N.aromaticivorans)推断的β-醚酶多肽的β-醚酶功能由生物化学活性测试得到的不可预期的结果。

图5示出了根据一些实施方案、代表了天然木质素结构的作为待测试底物的β-芳基醚化合物。

图6示出了根据一些实施方案、少动鞘氨醇单胞菌的愈创木酚基甘油-β-愈创木基醚(GGE)代谢途径。

图7示出了根据一些实施方案、由木质素寡聚体生产儿茶酚的生物化学工艺的实例。

图8示出了根据一些实施方案、由木质素寡聚体生产香草醛的生物化学工艺的实例。

图9示出了根据一些实施方案、由木质素寡聚体生产2，4-二氨基甲苯的生物化学工艺的实例。

图10示出了根据一些实施方案、由木质素寡聚体生产有价值的化学品的其他目的产物(包括邻甲酚、水杨酸和氨基水杨酸)的工艺示意图。

发明详述

本发明总体而言涉及生产用于将木质素衍生的化合物生物转变为有价值的芳香族化学品的酶的重组方法。目前，由于局限于能够选择性地将木质素转变为所需的芳香族化合物的酶的知识，技术人员局限在控制木质素的降解从而生产有用产物的能力。通常，技术人员了解两个基本的事情：(1)木质素是复杂的；以及(2)因此，细菌木质素降解系统至少与木质素本身一样复杂。因此，并且至少鉴于这些原因，本文所提供的教导提供了可用于生产工业用途的芳香族化合物物质的有价值的、不可预期且令人意想不到的一组系统、方法和组合物。

图1A和1B示出了根据一些实施方案、本文所讨论的生物精炼工艺和发现工艺的总体概念。图1A示出了重组微生物菌株在用于由木质素衍生的化合物生产芳香族化学品的生物转化中的用途的一般实例。生物精炼工艺100使用转化的宿主细胞通过一系列生物转化来转变可溶的生物精炼木质素105。生物精炼木质素105为包含木质素衍生的化合物的原料，其可以为例如木质素衍生的单体和寡聚体的组合。“生物转化1”107可以用于选择性地切割单体上或单体间的键从而创造出其他的木质素单体110。“生物转化2”112可以用于选择性地切割单体上或单体间的其他的键从而创造出单环芳香族商业化产物115。图1B示出了发现工艺120，其包括选择耐受木质素衍生的毒性化合物的宿主细胞菌株。该菌株的获取125包括菌株的生长、样品的制备和储藏。获得一组细菌菌株以用于测试菌株对可溶的生物精炼木质素样品的耐受。

在一些实施方案中，可以针对(i)良好表征的芳香族和异型生物质的代谢；(ii)注释的基因组序列；以及(iii)在试验规模或较大规模的发酵工艺中的现有用途来选择菌株。菌株的实例可以包括但不限于：棕色固氮菌(ATCC BAA-1303DJ)，圆褐固氮菌(Azotobacter chroococcum)(ATCC4412(EB Fred)X-50)，恶臭假单胞菌(Pseudomonas putida)(ATCC BAA-477Pf-5)，荧光假单胞菌(Pseudomonas fluorescens)(ATCC29837NCTC1100)。根据所附的ATCC文献所述，可以将菌株在相关的丰富培养基平板上划线以用于复活。可以挑选单个的菌落(5each)并在相关的液体培养基中培养直到饱和。在甘油的最终浓度为12.5％中制备的培养物样品可以为速冻并储藏在-80℃下。

可以通过优选法试验研究组织(CRO)外购用于生物化学筛选选择性活性的模式底物的合成150。酶的发现尝试最初可以集中在识别通过生物信息学方法识别的潜在的β-醚酶候选物基因。具有β-醚酶活性的候选物的识别为由在可溶的木质素流中存在的木质素寡聚体生成木质素单体的第一步。在体外测试中，可以使用例如荧光底物α-O-(β-甲基伞形酮基)乙酰香兰酮(MUAV)来识别β-醚酶功能(Acme Biosciences，Mt.View，CA)。可以在例如λex＝365nm和λem＝450nm(或460nm)下通过荧光来监测在芳基醚键水解时4甲基伞形酮(4MU)的形成。

基因合成、克隆和转化步骤145可以包括将生物信息学方法与显示出所需的选择性酶活性的相关酶的已知信息相结合。例如，生物信息学可以生产与少动鞘氨醇单胞菌ligE和ligFβ-醚酶序列共有显著的同源性的推定的β-醚酶序列。参见Masai，E.，et al.Journal of Bacteriology(3)：1768-1775(2003)(“Masai”)，其在此以引用方式全文并入本文。少动鞘氨醇单胞菌序列可以用作生物化学测试的阳性对照以便在酶发现策略中用于显示相关活性。

基因合成、克隆和转化步骤145可以使用本领域的技术人员已知的任何方法来实施。例如，所有的基因都可以使用基于标准的PCR方法的组装方法并使用大肠杆菌的密码子偏好以开放的阅读框(ORF)由寡核苷酸直接合成。末端序列可以包含限制性消化并克隆到大肠杆菌表达载体pET24a(Novagen)中的适配体(BamHI和HindIII)。在寡核苷酸的消化过程中，内部BamHI和HindIII位点可以由ORF序列中排除。组装的基因可以由纯化的质粒DNA克隆到专用的克隆载体(pGOV4)中，转化到大肠杆菌CH3化学感受态细胞中，以及确定的DNA序列(Tocore Inc.)中。在序列被证实之后，可以使用限制性消化来由克隆载体上切除各个ORF片段，并可以将该序列亚克隆到pET24a中。然后，将带有质粒的完整的一组ligE和ligF转化到大肠杆菌BL21(DE3)中，其中所述的大肠杆菌BL21可以作为β-醚酶表达和生物化学测试的宿主菌株。

进行酶的筛选155来识别新的醚酶160。可以使用荧光底物MUAV来筛选和识别重组大肠杆菌克隆物的β-醚酶活性。可以在处于LB培养基(使用IPTG诱导)中的5ml或25ml的重组大肠杆菌菌株样品中进行β-醚酶基因的表达。在诱导以及收获细胞后，可以使用BPER(Invitrogen)细胞裂解系统来裂解细胞团。可以在体外生物化学测试中，在荧光底物MUAV上针对β-醚酶的活性来测试细胞提取物。可以在λex＝365nm和λem＝450nm(或460nm)下通过荧光来监测在芳基醚键水解时4甲基伞形酮(4MU)的形成。使用少动鞘氨醇单胞菌ligE和ligF基因转化的大肠杆菌细胞提取物可以为测试的阳性对照。测试样品或未知样品可以包括例如表达由N.aromaticovorans得到的推断的β-醚酶基因的大肠杆菌菌株。

木质素流的获取130包括用于测试的通过精炼得到的木质素废物流。此类木质素的一个来源的初步特征显示芳香族单体的浓度低于1g/L，并且寡聚体的浓度为～10g/L。寡聚体显示以10∶1的比例与碳水化合物相关，例如糖：酚。一些信息存在于液体流中的化合物(包括苯甲酸、香草醛、紫丁香酸和ferulics)上，其中所述的化合物通常在可溶的样品中定量。已经建立了单体的平均分子量～280，而寡聚体成分有待表征。

菌株耐受测试135。在暴露于生物精炼的木质素时通过细胞的生长来确定菌株的耐受。在生物精炼木质素废物流中的酚化合物的耐受对于微生物系统的生物加工的效率和高水平的生产芳香族化学品而言是非常重要的。细胞生长通过可溶的四唑盐的还原情况而被定量为呼吸的函数。XTT(2，3-双(2-甲氧基-4-硝基-5-磺苯基)-2H-四唑-5-甲酰苯胺内盐，Sigma)被呼吸细胞还原为可溶的紫色甲臜化合物。通过450nm下的吸光率检测并定量为甲臜产物。

例如，可以在48孔板中以液体形式对可溶的木质素进行菌株耐受的测试135。例如，各种菌株都可以测试8个重复，并且将大肠杆菌用作阴性对照菌株。首选，菌株可以在丰富培养基中生产以达到饱和，然后进行洗涤，并确定培养物的OD600nm。可以将等量的细菌接种到包含基本培养基(排除了碳源)的48孔生长板的孔中。除了minus木质素阳性对照以外，可以将浓度增加的可溶的木质素级份加入到包含各个物种的孔中，直到最终体积为0.8ml。可以将木质素级份的苯甲酸含量分析作为不同起源的木植物废料的酚含量的内部指示剂。在30℃下在摇动条件下温育24-48小时后，可以使用XTT测试试剂盒针对在暴露于木质素级份时的生长情况来测试培养物。可以由48孔生长板中除去培养物样品，并在96孔测试板中适当地稀释至可以加入XTT试剂。通过在450nm下的吸光率来定量所生产的可溶的甲臜。表现为最高水平的生产、并由此耐受的细菌菌株可以为用于进一步研发用于木质素转变的宿主菌株的候选物。

可以使用被识别为显示出最高生物化学活性的β-醚酶基因转化证明具有最佳耐受特征的菌株。可以使用限制性消化来由克隆载体上切除ORF片段，并且可以将该序列亚克隆到穿梭载体pMMB206上。可以将在穿梭载体中克隆的构建体通过电穿孔或化学转化而转化到固氮菌属或假单胞菌属菌株中。可以使用适用于所用的特定的宿主菌株的本领域的技术人员已知的任何方法(例如本文所描述的那些)，针对β-醚酶的表达和活性来再次测试重组的木质素耐受宿主菌株。

得自精炼工艺的原料

起始材料的实例可以为预处理的木质纤维素生物质。在一些实施方案中，木质纤维素生物质可以包括草、谷物稷、稻壳、农业残余物、软木和硬木。在一些实施方案中，木质素衍生的化合物可以衍生自硬木物种，例如得自the Upper Peninsula region of Michigan的杨树；或者硬木，例如杨树、lolloby pine、以及得自Virginia和Georgia地区的桉树；或者混合硬木，包括得自New York北部地区的枫树和栎树物种。

在一些实施方案中，预处理方法可以涵盖一定范围的基于物理、化学和生物的工艺。用于生成Aligna工艺使用的原料的预处理方法的实例可以包括物理预处理、溶剂分级、化学预处理、生物预处理、离子液体预处理、超临界流体预处理、或例如可以在多个阶段中利用的它们的组合。

用于减小木质纤维素生物质粒径减小的物理预处理方法可以使用干法机械压制方法、湿法振动以及基于压制的球磨研磨过程。溶剂分级方法包括有机溶剂(organosolve)工艺、磷酸分级工艺以及使用离子液体对木质纤维素生物质进行预处理从而差异溶解和区分生物质的不同成分的方法。在一些实施方案中，有机溶剂方法可以通过以下方式实施：使用醇，包括乙醇；使用酸催化剂；在大约90℃至大约20℃、以及大约155℃至大约220℃；停留时间为大约25分钟至大约100分钟。催化剂浓度可以为大约0.83％至大约1.67％，醇的浓度可以为大约25％至大约74％(v/v)。在一些实施方案中，木质纤维素生物质的磷酸分级可以使用一系列不同的提取液(使用磷酸、丙酮和水)在大约50℃的温度下实施。在一些实施方案中，木质纤维素生物质的离子液体预处理可以包括使用包含阴离子(例如氯离子、甲酸根、乙酸根或烷基磷酸根)的离子液体，并且生物质：离子液体的比例为大约1∶10(w/w)。所述的预处理可以在大约100℃至大约150℃的温度下实施。可以使用的其他离子液体化合物包括1-丁基-3-甲基-氯化咪唑和1-乙基-3-甲基氯化咪唑。

木质纤维素生物质材料的化学预处理可以使用多种技术实施，包括酸性、碱性和氧化处理。在一些实施方案中，可以使用木质纤维素生物质的酸预处理方法，例如下文所述的那些。稀释的酸预处理使用了浓度为大约0.05％至大约5％的硫酸，温度范围为大约160℃至大约220℃。蒸汽喷发为在大约160℃至大约290℃的温度下，在蒸汽喷发之前使用或未使用催化剂，例如硫酸、硝酸、碳酸、琥珀酸、富马酸、马来酸、柠檬酸、二氧化硫、氢氧化钠、氨。液态热水处理为在压力＞5MPa、温度范围为大约160℃至大约230℃、并且pH范围为大约4至大约7。并且，在一些实施方案中，可以使用碱处理方法，其使用了催化剂，例如氧化钙、氨和氢氧化钠。可以使用氨纤维膨胀(AFEX)方法，其中在大约60℃至大约140℃下，在高压反应器中使用大约0.3kg至大约2kg氨/kg干重生物质的浓氨，并煮5-45分钟，然后快速释放压力。可以在高温和高压下，通过渗透浓度为5-15％的氨溶液来以流通方式使用氨再循环渗透(ARP)。在高压反应器中，在大约170℃至大约220℃的温度下，氧化预处理方法(例如碱性湿法氧化)可以与碳酸钠一起使用，其中使用加压空气/氧气的混合物或过氧化氢作为氧化剂。

可以使用生物预处理方法，其使用了白腐担子菌和某些放线菌。得自此类预处理方法的一种类型的产物流可以为可溶的木质素，并且可以包含木聚糖，以及大约1g/L至大约10g/L的木质素衍生的单体和寡聚体。木质素衍生的单体可以包括诸如鞣酸、羟基安息香酸酯、阿魏酸、羟甲基糠醛、羟甲基糠醛醇、香草醛、高香草醛、紫丁香酸、紫丁香醛和糠醛醇之类的化合物。

超临界流体预处理方法可以用于加工生物质。在加工生物质中使用的超临界流体的实例包括在高于乙醇和二氧化碳的临界的温度和压力下、但是低于水的临界的温度和/或压力下的乙醇、丙酮、水和二氧化碳。

可以使用蒸汽预处理和生物预处理方法的组合。例如，在195℃下，将生物质蒸汽在受控的pH下预处理10分钟，然后使用计量为100mg蛋白质/总固体的商业化的纤维素酶和木聚糖酶进行酶处理，并在pH5.0、50℃下温育，同时在500rpm下搅拌。

在一些实施方案中，可以使用水热、有机溶剂和生物预处理方法的组合。此类组合的一个实例为3阶段的工艺：

阶段1.对于水热工艺而言，在预定的pH、温度和压力下，在水性介质中加热；

阶段2.对于有机溶剂步骤而言，在水中，使用得自6-6c中所述的那些中的至少一种有机溶剂；

阶段3.对于生物预处理步骤而言，使用天然或重组形式的酵母菌、白腐担子菌、放线菌和纤维素酶和木聚糖酶。

使用有机溶剂方法衍生的可溶的木质素级份可以生产分子量范围为188-1000的可溶于多种极性溶剂中的可溶的木质素。不想被任何理论或作用机制所限制，有机溶剂工艺通常被认为可以保持木质素β-芳基醚键。

可以使用由蒸汽喷发的木质纤维素质生物质得到的木质素流。例如，可以使用在大约200psi至大约500psi范围、温度范围为大约180℃至大约230℃的高压蒸汽在分批或连续的反应器中进行大约1分钟至大约20分钟来实施蒸汽喷发。可以使用碱性洗涤或使用有机溶剂进行提取来由蒸汽喷发的材料提取木质素。蒸汽喷发的木质素可以表现出与本文所述形式的有机溶剂木质素相似的性质，其保持了天然的键的结构，并且每个寡聚体单元都包含大约3至大约12个芳香族单元。

超临界流体预处理可以生产可以根据本文所提供的教导使用的可溶的木质素级份。此类工艺通常产生分子量为大约＜1000道尔顿的单体和木质素寡聚体。

生物预处理可以生产可以根据本文所提供的教导使用的可溶的木质素级份。此类木质素流可以包含木聚糖，以及大约1g/L至大约10g/L的且分子量为大约＜1000道尔顿的木质素单体和木质素寡聚体。木质素衍生的单体可以包括诸如鞣酸、羟基安息香酸酯、阿魏酸、羟甲基糠醛、羟甲基糠醛醇、香草醛、高香草醛、紫丁香酸、紫丁香醛和糠醛醇之类的化合物。

由木浆工艺得到的原料

木浆工艺生产出多种类型的木质素，木质素的类型取决于所采用的工艺的类型。例如，化学制浆工艺包括Kraft制浆和亚硫酸盐法制浆。

在一些实施方案中，木质素衍生的化合物可以衍生自Kraft制浆工艺的制浆废液或“黑液”。Kraft木质素可以衍生自分批或连续的工艺，这些工艺采用了以下条件：例如，反应温度为大约150℃至大约200℃，反应时间为大约2小时。可以得到分子量为任何范围的木质素，并且在一些实施方案中，有用的级份可以为大约200道尔顿至大约400道尔顿的范围。在生物转换中可以使用分子量范围为大约1000道尔顿至大约3000道尔顿的Kraft木质素。

在一些实施方案中，可以使用得自亚硫酸盐法制浆工艺的木质素。亚硫酸盐法制浆工艺可以包括例如化学磺化作用，其在大约2至大约12的pH范围下，使用了水性二氧化硫、重亚硫酸盐和中性亚硫酸盐。磺化的木质素可以使用过量的石灰通过沉淀以木素磺化盐的形式回收。备选地，可以对木质素芳香族化合物进行基于甲醛的甲基化，然后进行磺化作用。可以得到分子量为任何范围的木质素，并且在一些实施方案中，有用的级份可以为大约200道尔顿至大约4000道尔顿。在生物转换中可以使用分子量范围为大约1000道尔顿至大约3000道尔顿的亚硫酸盐木质素。

在生物转换中使用的木质素衍生的化合物的特征

用于特定原料的系统的优化应该包括对特定原料的组成的了解。例如，技术人员应该理解，天然木质素的组成可以明显不同于用于原料的给定木质素级份中的木质素衍生的化合物的组成。因此，对原料的组成的了解将有助于优化木质素衍生的化合物向有价值的芳香族化合物的转换。技术人员已知的任何方法可以用于表征原料的组成。例如，技术人员可以使用与气相色谱(其传统上已经使用)偶联的湿法化学技术，例如硫代酸解和硝基苯氧化法；或者使用光谱技术，例如NMR和FTIR。例如，硫代酸解法会切割木质素中的β-O-4键，从而得到单体和二聚体，然后这些单体和二聚体用于计算S和G含量。可以使用硝基苯氧化法得到相似的信息，但是认为比例较不精确。在一些实施方案中，S、G和H的含量，以及它们的相对比例可以用于表征原料的组成，以便确定生物转换系统的设计。

广泛接受的是，木质素的生物合成源自三种类型的苯基丙烷单元的聚合，也称为木质素单体。这些单元为松柏醇、芥子醇和对香豆醇。三种结构如下：

表1A和1B总结了对香豆醇或对羟基酚(H)、松柏醇或愈创木基木质素(G)、以及芥子醇或丁香基木质素(S)在多种来源的生物质中的分布。表1A比较了生物质中木质素百分比与G∶S∶H。

表1A

火炬松	29	86	2	12
						29	87	0	13
压制		60		40
					云杉(挪威云杉)	28	94	1	5
MWL		98	2	0
					桉树	22	14	84	2
巨桉	27	27	69	4
					birch pendula	22	29	69	2

山毛榉	26	56	40	4
					阿拉伯胶	28	48	49	3

表1A将样品在生物质中的定位、物种和环境压力中对G∶S∶H进行了比较。

表1B

总体而言，G、S和H在木质素中的相对的量可以为其总体组成和响应于处理方法(例如本文所教导的生物转换)的良好指示剂。例如，在杨树物种中，根据测量技术以及物种可以见到差异，但是通常S/G的比值范围为1.3至2.2。这与硬树桉树相似，但是高于草本生物质柳枝稷和芒属植物。考虑到在草的木质素中H的含量较高，上述情况是可预计的。最佳的硝基苯氧化方法显示出由两处不同位点得到的13种杨树样品的S/G的比值，并且得到范围为1.01至1.68的值。此外，在杨树中发现在木质素含量的降低与S/G比值的增高之间存在线性关系(R²＝0.85)。这种关系在得自单一位点的样品中较强烈(R²＝0.93)，表面这取决于地理位置。

可以使用高通量方法来快速筛选原料。此类方法的实例可以包括但不限于近红外(NIR)、反射光谱、热解分子束质谱(pyMBMS)、傅里叶变换红外分光镜、修改的硫代酸解技术和溶解于离子液体中之后的全细胞NMR。使用这些方法可以快速得到关于木质素的一些结构特征的信息，例如S/G比例。例如，使用修改的硫代酸解技术确定了104种杨树木质素样品的平均S∶G∶H比例，并发现为68∶32∶0.02。在一些实施方案中，一定比例的S、G和H成分可以表示为质量百分比。在一些实施方案中，一定比例的S、G和H成分可以表示为任何相关的单位或无单位。如果各种成分的量与组合物中其他各自成分直接相关，则可以使用任何比较。所述的比例可以以相对的整数或级份表示为S∶G∶H，或者各成分的任何其他级数或组合S/G、G/S等。在一些实施方案中，可以使用S/G比值。在一些实施方案中，S/G比值可以为大约0.20至大约20.0、大约0.3至大约18.0、大约0.4至大约15.0、大约0.5至大约15.0、大约0.6至大约12.0、大约0.7至大约10.0、大约0.8至大约8.0、大约0.9至大约9.0、大约1.0至大约7.0或其中的任何范围。在一些实施方案中，S/G的比值可以为大约0.2、大约0.4、大约0.6、大约0.8、大约1.0、大约1.2、大约1.4、大约1.6、大约1.8、大约2.0、大约2.2、大约2.4、大约2.6、大约2.8、大约3.0、大约3.2、大约3.4、大约3.6、大约3.8、大约4.0、大约4.2、大约4.4、大约4.6、大约4.8、大约5.0、大约5.2、大约5.4、大约5.6、大约5.8、大约6.0、大约6.2、大约6.4、大约6.6、大约6.8、大约7.0、大约7.2、大约7.4、大约7.6、大约7.8、大约8.0、大约8.2、大约8.4、大约8.6、大约8.8、大约9.0、大约9.2、大约9.4、大约9.6、大约9.8、大约10.0和以0.1增加的中间的任何比值，以及其中的任何比值范围。

用于生物转换的木质素衍生的化合物的分级

由生物精炼或Kraft工艺衍生的可溶的木质素流可以在微生物转换中直接使用而无需额外的纯化，或者这种木质素流可以通过一种或多种分离或分级技术进一步纯化，然后进行微生物转换。

在一些实施方案中，采用膜过滤来获得起始浓度的木质素单体何寡聚体，其浓度范围为1-60％(w/v)且分子量范围为大约180道尔顿至大约2000道尔顿、大约200道尔顿至大约4000道尔顿、大约250道尔顿至大约2500道尔顿、大约180道尔顿至大约3500道尔顿、大约300道尔顿至大约3000道尔顿、或其中的任何范围。

在一些实施方案中，可溶的木质素流可以通过使用了例如HP-20树脂的色谱而进行部分纯化。木质素单体和寡聚体可以与树脂结合，同时对微生物有机体可能具有毒性的高极性杂质或无机物可以保持不结合。随后使用例如甲醇-水溶剂系统进行洗脱可以提供富含在木质素单体和寡聚体中的高纯度的级份。

化学产物

本教导的目的包括发现新的生物化学转换，该生物化学转化由多种木质素核心结构创造出有价值的商业化产物。此类商业化的产物包括可以起到构造块化学品的作用的单体芳香族化学品。技术人员将会理解的是使用通过本文所列出的教导而提供的原理可以生产出大量的芳香族化学品，并且可以生产出的每种可行的化学品的综合性教导均在本教导的范围和目的之外。

图2A和2B示出了(i)可以使用生物转化来生产的一些构造块化学品的结构；以及(ii)根据一些实施方案，由基因簇得到少动鞘氨醇单胞菌的酶系统的实例。图2A示出了一些单环芳香族结构的实例，其可以起到由木质素衍生的构造块化学品的作用，包括但不限于愈创木酚、β-羟丙酸香草酮、4-羟-3-甲氧基扁桃酸、松柏醛、阿魏酸、丁香油酚、丙基guaicol、和4-乙酰基愈创木酚。应该理解的是这些结构的每一种都可以使用本文所提供的教导来生产。图2B(i)示出了在少动鞘氨醇单胞菌菌株中LigDFEG基因簇的组织。图2B(ii)示出了在模式木质素结构愈创木酚基甘油-β-愈创木基醚(GGE)中据信与β-芳基醚键的切割有关的所推断的基因产物的功能。在限制性图谱上方的竖条表示LigD，LigF，LigE和LigG的基因插入的位置。LigD显示出Cα-脱氢酶的活性，LigF和LigE显示出β-醚酶的活性，而LigG显示出谷胱甘肽裂解酶的活性。图2LEGEND(缩写)：限制性酶Ap(ApaI)，Bs(BstXI)，E(EcoRI)，Ec(Eco47III)，Ml(MluI)，P(PstI)，RV(EcoRV)，S，(SalI)，Sc(SacI).ScII(SacII)，St(StuI)，Sm(SmaI)，Tt(TthlllI)和X(XhoI)；化学品GGE(愈创木酚基甘油-β-愈创木基醚)，GSH(谷胱甘肽)，GSSG(氧化型谷胱甘肽)；并且星号为不对称的碳。

如本文所教导的那样，可以由木质素衍生的化合物通过生物转换而得到的商业化的产物包括单环芳香族化学品。此类化学品的实例包括但不限于己内酰胺；枯烯；苯乙烯；一硝基和二硝基甲苯以及它们的衍生物；2，4-二氨基甲苯；2，4-二硝基甲苯；对苯二酸；儿茶酚；香草醛；水杨酸；氨基水杨酸；甲酚及异构体；烷基酚；氯化酚；硝基酚；多元酚；硝基苯；苯胺、仲胺和叔胺碱基；苯并噻唑及衍生物；烷基苯和磺化烷基苯；4，4-二苯基甲烷二异氰酸酯(MDI)；氯苯和二氯苯；硝基氯苯；甲苯的磺酸衍生物；假枯烯；三甲基苯；硝基枯烯；枯烯磺酸。

酶的发现

此外，本文所述的教导还涉及新的酶的发现。在一些实施方案中，所述的酶为β-醚酶。

木质素为基于芳香族核心结构的唯一的植物生物质构成部分，并且由支化的苯基丙烯基(C9)单元构成。木质素的愈创木酚和二甲氧基酚构造块通过碳-碳(C-C)和碳-氧(C-O，醚)键连接。木质素的天然结构表明了其作为芳香族化学品使用的化学原料的重要应用。此类化学结构的生产需要C-C和C-O键的解聚和断裂。木质素中大量的化学键为β-芳基醚键，其在木质素中占键的类型的50％至70％。高效的切断β-芳基醚键会生成木质素的单体构造块，并提供用于随后转换成大量工业产物的化学原料。

β-醚酶系统具有超过用于将木质素寡聚体转换为单体的漆酶系统的多个优点。β-醚酶系统会高选择性地催化还原键切断，以便高效且高产率地将木质素寡聚体转换为单体，而无需形成副产物，无需降解木质素的芳香族核心结构，或者无需使用基于氧化和自由基化学的漆酶系统所需的电子传递介质。

图3为根据一些实施方案，模式木质素二聚体(α-O-(β-甲基伞形酮基)乙酰香兰酮(MUAV))的β-醚酶催化水解的实例。已经描述了在木质素的模式化合物中，通过得自微生物少动鞘氨醇单胞菌的β-醚酶来切断β-芳基醚键。但是，可利用的信息是有限的，并且文献中并无使用少动鞘氨醇单胞菌作为用于商业化规模工艺的工业微生物的先例。新的β-醚酶的发现以及这些新酶在固氮菌属菌株中的异源表达将提供本领域以有价值的工业菌株，这些菌株特别良好地适用于木质素的转换工艺。

技术人员将认为本文使用的化学系统命名法作为本领域的标准。例如，本文使用的氨基酸至少可以通过下表2中的传统的3字母缩写来识别：

表2

为了容易参考，提供了单字母的标示符，但是可以使用任何的形式。三字母的缩写通常被肽领域所采用，由生物化学系统命名的IUPAC-IUB委员会推荐，并提供符合了WIPO Standard ST.25。此外，根据通常所接受的传统来教导肽序列，将N末端至于序列表的左侧，将C末端至于序列表的右侧，从而再次符合了WIPO Standard ST.25。

重组多肽

本文所述的教导是基于新的且创造性的蛋白质、DNA和宿主细胞系统的发现，其中所述的宿主细胞系统可以起到将木质素衍生的化合物转换为有价值的芳香族化合物的作用。所述的系统可以包括天然、野生型成分或重组成分，该重组成分与天然形成的物质是可分离的。

术语“分离的”是指“通过手工”由其天然状态发生改变，即，如果其在自然中形成，则其已经变化和/或由其原始的环境中除去。例如，该术语如本文所用，天然形成的多核苷酸或多肽以其天然的状态存在于活的动物中是未“分离的”，但是同一多核苷酸或多肽与其天然状态的共存材料分离则是“分离的”。例如，就多核苷酸而言，术语分离的是指其与染色体以及在其中天然形成的细胞分离。但是，就本文所教导的目的而言，克隆中所包含的核酸分子是未“分离的”，其中所述的克隆为混合的克隆文库(例如基因组或cDNA文库)的成员，以及尚未与其他文库或染色体(由细胞或细胞裂解液分离或除去的，例如如在核型中，“染色体分散”)的克隆分离(例如包含所述的克隆但不包含其他文库成员的同源溶液的形式)。此外，就本文所教导的目的而言，在核酸分子的分离并非目标的情况下，在机械或酶切割的基因组DNA中所包含的单独的核酸分子也并非是“分离的”。例如，作为目标分离的一部分或者在目标分离之后，为了形成突变，多核苷酸可以与其他多核苷酸连接，从而形成了融合蛋白质，并在宿主中繁殖或表达。分离的多核苷酸以单独的方式或者与其他多核苷酸(例如载体)连接的方式可以被引入到宿主细胞、培养物或整个有机体中，此后该术语如本文所用，此类DNA仍是被分离的，这是因为它们并非为它们天然形成的形式或环境中。类似地，分离的多核苷酸和多肽可以在组合物(例如介质配制物)、例如用于将多核苷酸或多肽引入到细胞中的溶液、用于化学或没反应的组合物或溶液中形成，其中所述的组合物、溶液或组合物或溶液并非为天然形成的组合物，并且其中将“分离的”多核苷酸或多肽保持在本文所述的术语的范围内。

“载体”，例如表达载体，用于将所关注的DNA转移或传输至原核或真核宿主细胞中，例如细菌、酵母菌或较高级的真核细胞。可以以重组方式设计载体，使其包含编码所需多肽的多核苷酸。这些载体可以包含标记、切割位点或这些元件的组合，从而有利于例如多肽的生产、分离和唇环工艺。所关注的DNA可以作为载体的表达成分插入。载体的实例包括质粒、黏粒、病毒和噬菌体。如果载体为病毒或噬菌体，则属于载体可以包括病毒/噬菌体衣壳。术语“表达载体”通常用于描述包含基因的DNA构建体，其中所述的基因编码了所关注的表达产物，通常为蛋白质，其通过宿主细胞的机制被表达。这种类型的载体通常为质粒，但是可以使用其他形式的表达载体，例如噬菌体载体和病毒载体(例如腺病毒、复制缺陷型逆转录病毒和腺相关病毒)。

在一些实施方案中，本文所教导的多肽可以为天然或野生型的，分离和/或重组的。在一些实施方案中，多核苷酸可以为天然或野生型的，分离和/或重组的。在一些实施方案中，所述的教导涉及可以包含此类多核苷酸的载体或被此类载体转化的宿主细胞。

在一些实施方案中，多肽可以为分离的重组多肽，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列。该序列可以保留残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54，K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195。

在一些实施方案中，多肽可以为分离的重组多肽，其包含SEQ ID NO：101；或者该序列的保守残基以外的保守性取代。保守残基可以包括T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54；K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195。

在一些实施方案中，多肽可以为分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列。氨基酸序列可以保留残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53，G54；K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，多肽可以为分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：101具有至少95％的一致性的氨基酸序列；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，多肽可以为分离的重组多肽，其包含：(i)长度范围为大约279至281的氨基酸；(ii)由以下部分构成的第一氨基酸区域：得自SEQ ID NO：101的残基19-54，或其除保守残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53和G54以外的保守性取代；其中所述的第一氨基酸区域可以定位于大约残基14至大约残基59的重组多肽中；以及(iii)由以下部分构成的第二氨基酸区域：得自SEQ ID NO：101的的残基98-221，或其除保守残基K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195以外的保守性取代；其中所述的第二氨基酸区域定位于大约残基93至大约残基226的重组多肽中。

在一些实施方案中，多肽可以为分离的重组谷胱甘肽S转移酶，其包含：(i)长度范围为大约279至大约281的氨基酸；(ii)第一氨基酸区域，其具有与得自SEQ ID NO：101残基19-54具有至少95％的一致性，同时保留了残基T19，I20，S21，P22，V24，W25，T27，K28，Y29，A30，H33，K34，G35，F36，D39，I40，V41，P42，G43，G44，F45，G47，I48，E50，R51，T52，G53和G54；其中所述的第一氨基酸区域定位于大约残基14至大约残基59的重组多肽中；以及(iii)第二氨基酸区域，其具有与得自SEQ ID NO：101残基98-221具有至少95％的一致性，同时保留了残基K100，A101，N104，V111，G112，M115，F116，P166，W107，Y184，Y187，R188，G191，G192和F195；其中所述的第二氨基酸区域可以定位于大约残基93至大约残基226的重组多肽中；并且所述的重组谷胱甘肽S转移酶可以起到切割β-芳基醚的作用。

在一些实施方案中，多肽可以为分离的重组谷胱甘肽S转移酶，其包含与SEQ ID NO：541具有至少95％的一致性的氨基酸序列；其中所述的氨基酸序列起到切割β-芳基醚的作用。

在一些实施方案中，多肽可以为分离的重组多肽，其包含：(i)长度范围为大约256至大约260的氨基酸；(ii)由以下部分构成的第一氨基酸区域：得自SEQ IDNO：541的残基47-57，或其除保守残基A47，I48，N49，P50，G52，V54，P55，V56，L57以外的保守性取代；其中所述的第一氨基酸区域可以定位于大约残基45至大约残基57的重组多肽中；(iii)第二氨基酸区域，其由SEQ ID NO：541的63-76构成；以及(iv)第三氨基酸区域，其由得自SEQ ID NO：541残基99-230构成，或其除保守残基R100，Y101，K104，D107，M111，N112，S115，M116，K176，L194，I197，N198，S201，H202和M206以外的保守性取代；其中所述的第二氨基酸区域可以定位于大约残基94至大约残基235的重组多肽中。

在一些实施方案中，多肽可以为分离的重组谷胱甘肽S转移酶，其包含：(i)长度范围为大约279至大约281的氨基酸；(ii)第一氨基酸区域，其具有与得自SEQ ID NO：541的残基47-57至少95％的一致性，或其除保守残基A47，I48，N49，P50，G52，V54，P55，V56，L57以外的保守性取代；其中所述的第一氨基酸区域可以定位于大约残基45至大约残基57的重组多肽中；(iii)第二氨基酸区域，其由SEQ ID NO：541的63-76构成；以及(iv)第三氨基酸区域，其具有与得自SEQ ID NO：541残基99-230至少95％的一致性，或其除保守残基R100，Y101，K104，D107，M111，N112，S115，M116，K176， L194，I197，N198，S201，H202和M206以外的保守性取代；其中所述的第二氨基酸区域可以定位于大约残基94至大约残基235的重组多肽中；其中所述的重组谷胱甘肽S转移酶起到切割β-芳基醚的作用。

在一些实施方案中，除保守残基以外的氨基酸取代可以为保守性取代。并且在许多实施方案中，所述的氨基酸序列可以起到切割β-芳基醚的作用。

制备重组SDF-1多核苷酸和多肽的方法

所述的教导包括制备本文所述的多肽的方法，其包括在适于生产所需的多肽的条件下培养宿主细胞；以及由宿主细胞培养物回收多肽；其中宿主细胞包含编码所需多肽的外源衍生的多核苷酸。在一些实施方案中，宿主细胞为大肠杆菌。在一些实施方案中，宿主细胞可以为固氮菌属的菌株，例如棕色固氮菌。

起初，可以设计编码重组多肽的一级氨基酸序列的双链DNA片段。可以对该DNA片段进行操作，从而促进表达产物的合成、克隆、表达或生物化学操作。合成的基因可以与合适的载体连接，然后确定并证实克隆基因的核苷酸序列。接着，可以使用设计引物扩增基因，其中所述的引物具有在插入基因的两侧引入的特异的限制性酶序列，并且可以将基因亚克隆到合适的亚克隆/表达载体中。可以将带有用于突变的合成基因的表达载体插入到合适的表达宿主中。此后，可以将表达宿主保持在适于生产基因产物的条件下，并且在一些实施方案中，蛋白质可以(i)与表达基因的细胞分离和纯化，或者(ii)在包含宿主细胞的反应环境中直接使用。

可以将核酸(例如cDNA或基因组DNA)插入到用于克隆(DNA的扩增)以便进行表达的可复制的载体中。多种载体是可以公开使用的。通常，可以使用例如本领域已知的技术将DNA插入到合适的限制性内切酶位点中。载体成分通常包含但不限于信号序列、复制起点、一个或多个标记基因、增强子元件、启动子和转录终止序列中的一者或多者。

信号序列可以为原核信号序列，选自例如碱性磷酸酶、青霉素酶、Ipp或热稳定的肠毒素II的前导序列。就酵母菌的分泌而言，信号序列可以为例如酵母菌转化酵素的前导序列、α因子的前导序列(包括酵母菌属和克鲁维酵母属α因子的前导序列，克鲁维酵母属α因子的前导序列在美国专利No.5,010,182中有所描述)、或者酸性磷酸酶前导序列、白色念珠菌(C.albicans)葡萄糖淀粉酶前导序列(EP362,179)、或在WO90/13646中所述的信号。在哺乳动物的细胞表达中，哺乳动物信号序列可以用于定向蛋白质的分离，例如由同一或相关物种的分离多肽得到的信号序列、以及病毒分泌前导序列。

表达载体和克隆载体均包含能够使载体在一种或多种所选的宿主细胞中复制的核酸序列。对于多种细菌、酵母菌和病毒而言，此类序列是公知的。得自质粒(例如pBR322)的复制起点适用于大部分的革兰氏阴性细菌，而2u质粒起点适用于酵母菌，而多种病毒起点(SV40、多瘤病毒、腺病毒、VSV或BPV)用于在哺乳动物细胞中克隆载体。

表达和克隆载体通常包含选择基因，也称为选择性标记。典型的选择基因编码了这样的蛋白质，该蛋白质(a)赋予了对抗生素或其他毒素的抗性，例如氨苄青霉素、新霉素、甲氨蝶呤或四环素；(b)补充了营养缺陷型的缺陷；或(c)提供了不能由复合培养基中获得的重要营养物，例如编码了杆菌所用的D-丙氨酸消旋酶的基因。

哺乳动物细胞所用的合适的选择性标记的实例为能够识别细胞的那些，其中所述的细胞有能力取得起编码作用的核酸，例如DHFR或胸苷激酶。当使用野生型DHFR时，合适的宿主细胞为DHFR活性缺陷的CHO细胞系，并按照Urlaub et al.，Proc.Natl.Acad.Sci.USA，77：4216(1980)所述制备和繁殖。酵母菌所用的合适的选择基因为存在于酵母菌质粒Yrp7中的trp1基因(Stinchcomb et al.，Nature，282：39(1979)；Kingsman et al.，Gene，7：141(1979)；Tschemper et al.，Gene，10：157(1980))。Trp1基因提供了用于缺乏在色氨酸中生长的能力的酵母菌突变体菌株的选择标记，例如ATCC No.44076或PEP4-1(Jones，Genetics，85：12(1977))。

表达和克隆载体通常包含与起编码作用的核酸可操作的连接的启动子，从而定向mRNA的合成。被多种潜在的宿主细胞所识别的启动子是公知的。适用于原核宿主的启动子包括β-内酰胺酶和乳糖酶启动子系统(Chang et al.，Nature，275：615(1978)；Goeddel et al.，Nature，281：544(1979))；碱性磷酸酶、色氨酸(trp)启动子系统(Goeddel，NucleicAcids Res.，8：4057(1980)；EP36,776)；以及杂交启动子，例如tac启动子(deBoer et al.，Proc.Natl.Acad.Sci.USA，80：2125(1983))。在细菌系统中使用的启动子还将包含与其编码作用的DNA可操作的连接的Shine-Dalgarno序列。

作为可诱导的启动子(其具有受到生长条件控制的转录的其他优点)的其他酵母菌启动子为醇脱氢酶2、异细胞色素C、酸性磷酸酶、与氮代谢有关的降解酶、金属硫蛋白、甘油醛-3-磷酸脱氢酶以及导致麦芽糖和半乳糖被利用的酶的启动子区域。酵母菌表达所用的合适的载体和启动子是本领域已知的，例如参见EP73,657以进一步讨论。

在哺乳动物宿主细胞中由载体的PRO87299的转录受到例如得自病毒基因组的启动子的控制，其中所述的病毒启动子例如为多瘤病毒、鸟痘病毒(UK2,211,504)、腺病毒(例如腺病毒2)、牛乳头状瘤病毒、鸟肉瘤病毒、巨细胞病毒、逆转录病毒、肝炎B病毒和猿猴病毒40(SV40)、异源哺乳动物的启动子(例如肌动蛋白启动子或免疫球蛋白启动子，以及热休克蛋白启动子)，只要这些启动子与宿主细胞系统相容即可。

起编码作用的DNA由较高等的真核细胞的转录可以通过在载体中插入增强子序列而增强。增强子为DNA的顺势作用元件，通常大约10至300bp，其作用于启动子从而增强其转录。许多增强子序列目前已知是得自哺乳动物基因(球蛋白、弹性蛋白酶、白蛋白、α胎蛋白和胰岛素)。但是，通常人们使用得自真核细胞病毒的增强子。实例包括位于复制起点的下游的SV40增强子、巨细胞病毒早期启动子增强子、复制起点的下游的多瘤病毒的增强子、以及腺病毒增强子。可以将增强子拼接到载体中起编码作用的序列的位置5′或3′，但是优选的是定位于启动子的5′端。

在真核宿主细胞(酵母菌、真菌、昆虫、植物、动物、人或得自其他多细胞有机体的成核细胞)中使用的表达载体还包含转录终止和稳定mRNA所需的序列。此类序列通常得自真核宿主细胞或病毒DNA或cDNA的5′非翻译区域，偶然得自3′非翻译区域。这些区域在编码突变体的mRNA的非翻译部分中包含描述为多腺苷酸化的片段的核苷酸节段。

在一些实施方案中，表达控制序列可以选自lac系统，T7表达系统，pBR322起点的主要操纵子和启动子区域，以及其他原核控制区域。适用于在重组脊椎动物细胞培养中合成突变体的其他方法、载体和宿主细胞在Gething et al.，Nature，293：620625(1981)；Mantei et al.，Nature，281：4046(1979)；EP117,060；以及EP117,058中有所描述。

突变体可以作为融合蛋白质表达。在一些实施方案中，所述的方法涉及向蛋白质中加入大量的氨基酸，并且在一些实施方案中，向蛋白质的氨基末端加入大量的氨基酸。额外的氨基酸可以起到例如亲和标记或切割位点的作用。融合蛋白质可以被设计为：(1)通过作为用于亲和纯化的临时配体而有助于纯化；(2)通过在目标基因和亲和标记之间使用切割位点来除去额外的氨基酸，从而生产精确的重组；(3)增加产物的溶解度；和/或(4)增加产物的表达。在融合区域与所关注的蛋白质的连接处可以包含蛋白水解的切割位点，从而能够进一步的纯化产物-在融合蛋白质的亲和纯化之后将重组蛋白质与融合蛋白质分离。此类酶以及它们的同源识别序列可以包含例如因子Xa、凝血酶和肠激酶、溴化氢、胰岛素或胰凝乳蛋白酶。典型的融合表达载体包括pGEX(Pharmacia Biotech Inc；Smith，D.B.and Johnson，K.S.Gene67：31-40(1988))、pMAL(New England Biolabs，Beverly，Mass.)、pRIT5(Pharmacia，Piscataway，N.J.)、以及pET(Strategen)，它们可以分别将谷胱甘肽S转移酶(GST)、麦芽糖E结合蛋白质、蛋白质A或6组氨酸序列与目标重组蛋白质融合。

可以设计包含核苷酸、标记和切割位点的合成DNA，并以用于重组多肽突变的经修饰的编码形式提供。在一些实施方案中，多肽可以为具有亲和标记的融合多肽，并且回收步骤包括：(1)捕获和纯化融合多肽；以及(2)除去亲和标记，以便高产率地生产所需的多肽或氨基酸序列，该多肽或氨基酸序列与所需的多肽至少95％同源。编码突变体的DNA可以得自cDNA文库，该文库由拥有突变体的mRNA的组织制备。如此，DNA可以由cDNA文库方便地得到。此外，用于突变体的编码基因还可以得自基因组文库或已知的合成过程(例如自动化的核酸合成)。

可以使用被设计用于识别所关注的基因或该基因编码的蛋白质的探针来筛选文库。使用所选的探针来筛选cDNA或基因组文库可以使用标准的杂交过程来实施，例如在Sambrook et al.，Molecular Cloning：A Laboratory Manual(New York：Cold Spring Harbor Laboratory Press，1989)中所述，该文献以引用方式并入本文。用于分离编码重组多肽突变体的基因的备选手段为使用PCR方法[Sambrook et al.，supra；Dieffenbach et al.，PCR Primer：A Laboratory Manual(Cold Spring Harbor Laboratory Press，1995)]。

具有所需的蛋白质编码序列的核酸可以通过使用推断的氨基酸序列来筛选所选的cDNA或基因组文库而得到，并且如果需要，可以通过在Sambrook et al.，supra中所述的传统的引物延伸过程(其用于检测尚未逆转录成cDNA的mRNA的前体和加工中间体)而得到所述的核酸。

表达载体、控制序列、转化方法等的选择取决于用于表达基因的宿主细胞的类型。在进入细胞后，包括插入DNA在内的载体DNA的全部或部分都可以并入到宿主细胞染色体中，或者载体可以保持在染色体外。保持在染色体外的这些载体通常能够在宿主细胞中自主复制。其他载体被整合到宿主细胞的基因组中，并与宿主基因组一起复制。

使用本文所述的表达或克隆载体转染或转化宿主细胞从而生产突变体。在按照适于诱导启动子、选择转化子或扩增编码所需序列的基因而修改的传统的营养培养基中培养细胞。诸如培养基、温度、pH之类的培养条件可以由技术人员选择而无需过度的实验。通常，用于使细胞培养的生产率达到最大的原理、方案和实施技术可以在Mammalian Cell Biotechnology：a Practical Approach，M.Butler，ed.(IRL Press，1991)和Sambrook et al.，supra中找到，这些文献的每一份均以引用方式并入本文。

宿主细胞可以为原核或真核细胞，并且用于在本文所述的载体中克隆或表达DNA的合适的宿主细胞可以包括原核细胞、酵母菌细胞或较高等的真核细胞。真核细胞转染和原核细胞转化的方法是本领域的普通技术人员已知的，例如CaCl₂、CaPO₄、由脂质体介导以及电穿孔。根据所用的宿主细胞，使用适于此类细胞的标准的技术来进行转化。根据Sambrook et al.，supra所述的使用氯化钙的钙处理，或者电穿孔通常用于原核生物。根据Shaw et al.，Gene，23：315(1983)以及1989年6月29日公开的WO89/05859所述，使用根癌土壤杆菌(农杆菌)进行感染用于转化某些植物细胞。对于不具有此类细胞壁的哺乳动物细胞而言，可以使用Graham and van der Eb，Virology，52：456457(1978)的磷酸钙沉淀方法。在美国专利No.4,399,216中描述了哺乳动物细胞宿主系统转染的一般方面。通常根据Van Solingen et al.，J.Bact.，130：946(1977)和Hsiao et al.，Proc.Natl.Acad.Sci.(USA)，76：3829(1979)的方法来实施向酵母菌中的转化。然而，还可以使用将DNA引入到细胞中的其他方法，例如细胞核显微注射、电穿孔、与完整细胞的细菌原生质体融合或聚阳离子(例如聚凝胺、聚鸟氨酸)。对于转化哺乳动物细胞的多种技术而言，参见Keown et al.，Methods in Enzymology，185：527537(1990)and Mansour et al.，Nature，336：348352(1988)。

用于在本文所述的载体中克隆或表达DNA的合适的宿主细胞包括原核生物、酵母菌或较高等的真核生物的细胞。合适的原核生物包括但不限于真细菌，例如革兰氏阴性或革兰氏阳性有机体，例如肠杆菌科，如大肠杆菌。多种大肠杆菌菌株是公开使用的，例如大肠杆菌K12菌株MM294(ATCC31,446)、大肠杆菌X1776(ATCC31,537)、大肠杆菌菌株W3110(ATCC27,325)和K5772(ATCC53,635)。其他合适的原核宿主细胞包括肠杆菌科，例如埃希氏菌属(例如大肠杆菌)、肠杆菌属、欧文氏菌属、克雷伯氏杆菌属、变形菌属、沙门氏菌属(例如鼠伤寒沙门菌(Salmonella typhimunrium))、沙雷氏菌属(例如粘质沙雷氏菌(Serratia marcescans))、志贺氏菌属、以及杆菌(例如枯草杆菌(B.subtilis)和地衣芽孢杆菌(B.licheniformis)(例如在1989年4月12日公开的DD266,710所述的地衣芽孢杆菌))，假单胞菌属(例如铜绿假单胞菌(P.aeruginosa))和链霉菌属。这些实例是示例性的，而非限定性的，并且仅仅是本文所述的教导的其余物的补充。由于菌株W3110为用于重组DNA产物发酵的普通的宿主菌株，则其是特别优选的一种宿主或亲代宿主。优选的是，宿主细胞分泌最少量的原核的酶。例如，菌株W3110可以被修饰从而影响基因的基因突变，所述的基因编码了对宿主而言为内源的蛋白质，此类宿主的实例包括：大肠杆菌菌株W3110菌株1A2，其具有完整的基因型tonA；大肠杆菌菌株W3110菌株9E4，其具有完整的基因型tonAptr3；大肠杆菌菌株W3110菌株27C7(ATCC55,244)，其具有完整的基因型tonA ptr3phoA E15(argF-lac)169degP ompT kanr；大肠杆菌菌株W3110菌株37D6，其具有完整的基因型tonAptr3phoAE15(argF-lac)169degP ompT rbs7ilvC kanr；大肠杆菌菌株W3110菌株40B4，其为不具有卡那霉素抗性的degP缺失突变的37D6；以及具有突变体周质蛋白酶的大肠杆菌菌株，如美国专利中所公开。备选地，体外克隆方法(例如PCR或其他核酸聚合酶反应)是合适的。

除了原核生物以外，诸如丝状真菌或酵母菌之类的真核微生物是适用于突变体克隆或表达的宿主。酿酒酵母(Saccharomyces cerevisiae)为常用的较低级的真核宿主微生物体。其他宿主包括：粟酒裂殖酵母菌(Schizosaccharomyces pombe)(Beach and Nurse，Nature，290：140(1981)；1985年5月2日公开的EP139,383)；克鲁维酵母菌属(美国专利No.4,943,529；Fleer et al.，Bio/Technology，9：968975(1991))，例如乳酸克鲁维酵母(K.lactis)(MW98-8C，CBS683，CBS4574；Louvencourt et al.，J.Bacteriol.，154(2)：737742(1983))、脆壁克鲁维酵母(K.fragilis)(ATCC12,424)、K.bulgaricus(ATCC16,045)、K.wickeramii(ATCC24,178)、K.waltii(ATCC56,500)、K.drosophilarum(ATCC36,906；Van den Berg et al.，Bio/Technology，8：135(1990))、K.thermotolerans和K.marxianus；低温烷烃降解菌(EP402,226)；巴斯德毕赤酵母(Pichia pastoris)(EP183,070；Sreekrishna et al.，J.Basic Microbiol.，28：265278[1988])；念珠球菌属；Trichoderma reesia(EP244,234)；粗糙脉饱菌(Neurospora crassa)(Case et al.，Proc.Natl.Acad.Sci.USA，76：52595263(1979))；许旺酵母属，例如Schwanniomyces occidentalis(EP394,538)；以及丝状真菌，例如链孢霉属、青霉素、弯颈霉属(WO91/00357)、和曲霉属宿主(例如沟槽曲霉(A.nidulans)(Ballance et al.，Biochem.Biophys.Res.Commun.，112：284289(1983)；Tilburn et al.，Gene，26：205221(1983)；Yelton et al.，Proc.Natl.Acad.Sci.USA，81：14701474(1984))和黑曲霉(A.niger)(Kelly and Hynes，EMBO J.，4：475479(1985)))。Methylotropic yeast在本发明中是合适的，并且包括但不限于能够在甲醇上生长的酵母菌，其选自汉森酵母属、假丝酵母属、克勒克酵母属、毕赤酵母属、酵母属、球拟酵母属和蔷薇色酵母属。作为此类酵母菌的实例的特定物种的列表可以在C.Anthony，The Biochemistry of Methylotrophs，269(1982)中找到。

用于糖基化突变体的表达的合适的宿主细胞可以衍生自多细胞有机体。脊椎动物细胞包括昆虫细胞，例如Drosophila S2和Spodoptera Sf9；以及植物细胞。有用的哺乳动物宿主细胞系包括中国仓鼠卵细胞(CHO)和COS细胞。更多的特定的实例包括：由SV40转化的猴肾CVI细胞系(COS-7，ATCC CRL1651)；人胚胎肾细胞系(293细胞或亚克隆用于在悬浮培养中生长的293细胞，Graham et al.，J.Gen Virol.，36：59(1977))；中国仓鼠卵细胞/-DHFR(CHO，Urlaub and Chasin，Proc.Natl.Acad.Sci.USA，77：4216(1980))；小鼠支持细胞(TM4，Maher， Biol.Reprod.，23：243251(1980))；人肺细胞(W138，ATCC CCL75)；人肝细胞(Hep G2，HB8065)；以及小鼠乳腺肿瘤(MMT060562，ATCC CCL51)。至少对于细胞外蛋白质的收获实施方案而言，技术人员可以容易地选择合适的宿主细胞，而无需过度的实验。

在一些实施方案中，在适度严谨的条件下，核苷酸序列可以与核酸杂交，其中所述的核酸具有包含或与所需的核苷酸序列互补的核苷酸序列。在一些实施方案中，在严谨条件下，分离的核苷酸序列可以与核酸杂交，其中所述的核酸具有包含或与所需的核苷酸序列互补的核苷酸序列。当单链形式的核酸分子在合适的温度和离子强度的条件下可以与其他核酸分子退火时，该核酸分子可以与另一个核酸分子“杂交”(参见Sambrook et al.，supra)。温度和离子强度的条件确定了杂交的“严谨程度”。“杂交”需要两条核酸包含互补的序列。但是，根据杂交的严谨程度，碱基键的错配可能发生。用于杂交核酸的合适的严谨程度取决于核酸的长度和互补程度。这种可变性是本领域公知的。更具体而言，两条核苷酸之间的相似性或同源性的程度越高，则用于杂交具有这些序列的核酸的Tm值越大。对于长度超过100个核苷酸的杂交而言，导出用于计算Tm的等式(参见Sambrook et al.，supra)。对于较短的核酸的杂交而言，错配的位置变得更加重要，并且寡核苷酸的长度确定了其特异性(参见Sambrook et al.，supra)。

在一些实施方案中，多核苷酸和多肽与所需的多核苷酸或多肽具有至少55，60，65，70，75，80，85，90，91，92，93，94，95，96，97，98或99％的同源性。在一些实施方案中，多核苷酸和多肽与所需的多核苷酸或多肽具有至少55，60，65，70，75，80，85，90，91，92，93，94，95，96，97，98或99的一致性。并且在一些实施方案中，多核苷酸和多肽与所需的多核苷酸或多肽具有至少55，60，65，70，75，80，85，90，91，92，93，94，95，96，97，98或99％相似性。如上文所述，劣化形式的所需的核苷酸也是可接受的。在一些实施方案中，只要多肽与所需的多肽共有相同的功能并且发挥功能的程度比所需的多肽的功能稍弱或稍强，则多肽可以与所需的多肽达到90，91，92，93，94，95，96，97，98或99同源、一致或相似。在一些实施方案中，例如，多肽可以具有所需多肽的功能的10％，20％，30％，40％，50％，60％，70％，80％，90％，100％或以0.1％增加的任何中间值的功能。并且，在一些实施方案中，多肽可以具有所需多肽的功能的110％，120％，130％，140％，150％，160％，170％，180％，190％，200％，300％，400％，500％或更高、或1％增加的任何中间值的功能。在一些实施方案中，“功能”为酶的活性，其可通过本领域的技术人员已知的方法测量，例如在本文所述的教导中使用的方法。“所需的多肽”或“所需的多核苷酸”可以称为“参照多肽”或“参照多核苷酸”等，在一些实施方案中，“所需的多肽”或“所需的多核苷酸”可以作为用于比较所关注的多肽的对照，其中所述的所关注的多肽可以被认为是“测试多肽”或“测试多核苷酸”等。在任何情况下，比较为将一组碱基或氨基酸与另一组碱基或氨基酸的比较，以便测量同源性、一致性或相似性。当然，杂交能力是比较核苷酸序列的另一种方式。

在某些实施方案中，术语“同源性”和“同源的”可以交换使用。该术语可以指核酸序列的匹配，以及在多核苷酸序列之间核苷酸碱基中的变化影响基因表达的程度。这些术语还指修饰，例如一个或多个核苷酸的删除或插入，以及这些修饰对所得的核苷酸的功能性相对于未经修饰的多核苷酸的影响。同样，这些术语是指多肽序列的匹配，以及在多肽序列中的变化(例如当将修饰的多肽与未经修饰的多肽进行比较时所见到的那些)影响该多肽的功能的程度。技术人员应该理解的是在劣化限制的范围内，多肽(例如本文所教导的突变体)可以由非同源的多核苷酸序列生产。

术语“相似性”和“一致性”是本领域已知的。术语“一致性”可以用于指在所比较的序列中基于在相应一致的位置之间的一致的匹配而进行的序列比较。术语“相似性”可以用于指氨基酸序列之间的比较，并且不仅考虑了相应位置处的一致的氨基酸，而且考虑了在相应位置处的功能相似的氨基酸。因此，多肽序列之间的相似性除了表明序列相似性以外，还表明了功能相似性。基因序列之间的一致性的水平以及氨基酸序列之间的一致性或相似性的水平可以使用已知的方法计算。例如，用于确定一致性和相似性的基于计算机的公开使用的方法包括BLASTP、BLASTN和FASTA(Atschul et al.，J.Molec.Biol.，1990；215：403-410)，BLASTX程序得自NIBI，而Gap程序得自Genetics Computer Group，Madison Wis。在一些实施方案中，缺口罚分为12并且缺口长度罚分为4的Gap程序可以用于确定氨基酸序列的比较，而缺口罚分为50并且缺口长度罚分为3的Gap程序可以用于多核苷酸序列的比较。在一些实施方案中，可以对序列进行比对，从而得到最高级别的匹配。可以使用公开的技术计算匹配情况，包括例如Computational Molecular Biology，Lesk，A.M.，ed.，Oxford University Press，New York，1988；Biocomputing：Informatics and Genome Projects，Smith，D.W，ed.，Academic Press，New York，1993；Computer Analysis of Sequence Data，Part I，Griffin，A.M.，and Griffin，H.G.，eds.，Humana Press，New Jersey，1994；Sequence Analysis in Molecular Biology，von Heinje，G.，Academic Press，1987；以及Sequence Analysis Primer，Gribskov，M.and Devereux，J.，eds.，M Stockton Press，New York，1991，这些文献的每一份均以引用方式并入本文。

由此，术语“相似性”为相似的直到“一致性”，与一致性相反，相似性可以用于指一致的匹配和保守性取代的匹配。例如，如果两条多肽序列具有10/20一致的氨基酸，并且剩余的均为非保守性的取代，则百分一致性和相似性均为50％。另一方面，如果有5个以上的位置为保守性的取代，则百分一致性为50％，其中百分相似性为75％。

在一些实施方案中，术语“基本的序列一致性”可以指例如通过程序GAP或BESTFIT，使用缺省缺口罚分的最佳比对，其具有至少65，70，75，80，85，90，95，96，97，98或99％的序列一致性。由于首要重要的因子通常为系统中序列的功能，所以关于一致性所说的“基本上”的差异通常可以根据相应的百分相似性而改变。术语“基本上的百分一致性”可以用于指这样的DNA序列，该DNA序列在核苷酸水平上与编码同一蛋白质或者具有基本相同功能的蛋白质的参照序列大体相似，其中对于编码区域中的等位基因的差异可以进行比较。同样，所述的术语可以用于指最佳比对的两条多肽序列的比较。

在一些实施方案中，可以在氨基酸或碱基的“比较窗”上与参照序列进行序列比较，其中所述的氨基酸或碱基包含用于特定比较的任何数量的氨基酸和碱基。例如，参照序列可以为较大序列的子集。在一些实施方案中，比较窗可以包括至少10个残基或碱基位置，并且有时至少为15-20个氨基酸或碱基。例如，参照或测试序列可以表示具有一个或多个删除、取代或加入的多肽或多核苷酸。

术语“变体”是指允许肽保持其结合性质的肽的修饰，并且此类修饰包括但不限于：保守性取代，其中一个或多个氨基酸被其他氨基酸取代；氨基酸的删除或加入，其对二级结构的结合性质具有最小的影响；连接体的缀合；翻译后修饰，例如加入官能团。此类翻译后修饰的实例可以包括但不限于通过诸如糖基化、乙酰化、磷酸化、使用脂肪酸修饰、肽之间二硫键的形成、生物素化、PEG化以及它们的组合之类的工艺加入对以下所述基团的修饰。事实上，在一些实施方案中，多肽可以被任一技术人员已知的多种修饰基团的任意一种来修饰。

在一些实施方案中，术语“保守性的修饰变体”、“保守性的修饰取代”以及“保守性的取代”可以交换使用。这些术语可以用于指保守性的氨基酸取代，其为氨基酸被具有相似电荷密度、亲水性/疏水性、大小和/或构造的氨基酸取代，例如缬氨酸取代异亮氨酸。相比之下，“非保守性的修饰变体”是指非保守性的氨基酸取代，其为氨基酸被具有不同的电荷密度、亲水性/疏水性、大小和/或构造的氨基酸取代，例如缬氨酸取代苯丙氨酸。技术人员应该理解的是由多种方式来定义保守性的取代，并且这些方法的任意一种都可以与本文所述的教导一起使用。在一些实施方案中，例如如果落入以下一组的氨基酸被落入同一组的氨基酸能取代，则认为该取代是保守性的：亲水性的(Ala，Pro，Gly，Glu，Asp，Gln，Asn，Ser，Thr)，脂肪族的(Val，Ile，Leu，Met)，碱性的(Lys，Arg，His)，芳香族(Phe，Tyr，Trp)，以及巯基(Cys)。参见Dayhoff，MO.Et al.National Biomedical Research Foundation，Georgetown University，Washington DC：89-99(1972)，该文献并入本文。在一些实施方案中，其中取代基的侧链与被取代的氨基酸的侧链具有相似的生物化学性质，则认为该氨基酸取代是保守性的。

微生物系统-抗微生物的木质素衍生的化合物

木质素衍生的化合物的抗微生物活性为本文所教导的系统所解决的主要问题。例如，典型的工业发酵工艺可能使用了微生物大肠杆菌K12或大肠杆菌B，或者酵母菌酿酒酵母，以及这些微生物的重组版本，它们为良好表征的工业菌株。问题在于芳香族化合物对此类工业微生物的抗微生物活性对该微生物是有毒性的，这会否定生物转化木质素衍生的化合物的应用。

例如，由预处理的木质纤维素生物质衍生的酚流或可溶的木质素流可能包含芳香族或非芳香族的化合物，例如鞣酸、羟甲基糠醇、羟甲基糠醛、糠醇、3，5-二羟基安息香酸酯、糠酸、3，4-二羟基苯甲醛、羟基安息香酸酯、高香草醛、紫丁香酸、香草醛和紫丁香醛。由多种木质素衍生的化合物是抗微生物的。例如，已知糠醛、4-羟基苯甲醛、紫丁香醛、5-羟甲基糠醛和香草醛均具有抗大肠杆菌的抗微生物活性，并且当组合存在时可能具有抗大肠杆菌的额外的抗微生物活性。此外，藜芦醛，肉桂酸、及香草酸的各种苯甲酸衍生物，香草基丙酮，以及肉桂酸衍生物邻香豆酸、间香豆酸和对香豆酸可能为由预处理的木质纤维素生物质得到的酚流的成分。藜芦醛，肉桂酸、及香草酸的各种苯甲酸衍生物，香草基丙酮，以及肉桂酸衍生物邻香豆酸、间香豆酸和对香豆酸均具有显著的抗酵母菌酿酒酵母的抗真菌活性，并且当组合存在时可能具有抗酵母菌酿酒酵母的额外的抗真菌活性。

以下苯甲醛衍生物的一种或多种可能存在于由预处理的木质纤维素生物质得到的酚流：2，4，6-三羟基苯甲醛、2，5-二羟基苯甲醛、2，3，4-三羟基苯甲醛、2-羟基-5-甲氧基苯甲醛、2，3-二羟基苯甲醛、2-羟基-3-甲氧基苯甲醛、4-羟基-2，6-二甲氧基苯甲醛、 2，5-二羟基苯甲醛、2，4-二羟基苯甲醛和2-羟基苯甲醛。同样，2，4，6-三羟基苯甲醛、2，5-二羟基苯甲醛、2，3，4-三羟基苯甲醛、2-羟基-5-甲氧基苯甲醛、2，3-二羟基苯甲醛、2-羟基-3-甲氧基苯甲醛、4-羟基-2，6-二甲氧基苯甲醛、2，5-二羟基苯甲醛、2，4-二羟基苯甲醛和2-羟基苯甲醛均被证明具有抗大肠杆菌的抗细菌活性，并且当组合存在时可能具有抗大肠杆菌的额外的抗细菌活性。

微生物系统-合适的微生物

木质素衍生的化合物的抗微生物活性形成了在反应环境中对此类活性耐受的微生物菌株的需要。本文所述的教导识别重组或非重组的微生物物种，该物种天然能够代谢芳香族化合物，从而将木质素衍生的化合物生物转化为商业化的产物。

特别适用于生物转化由预处理的木质纤维素生物质得到的酚流的微生物物种的一些实例包括但不限于圆褐固氮菌、棕色固氮菌、新鞘氨醇杆菌(Novosphingobium aromaticivorans)、铜绿假单胞菌、恶臭假单胞菌、荧光假单胞菌、Pseudomonas stutzerii、缺陷短波单胞菌(Pseudomonas diminuta)、假产碱假单胞菌(Pseudomonas pseudoalcaligenes)、沼泽红假单胞菌(Rhodopseudomonas palustris)、鞘氨醇单胞菌属sp.A1、少动鞘氨醇单胞菌SYK-6、Sphingomonas japonicum、Sphingomonas alaskenesis、Sphingomonas wittichii、放线菌绿孢链霉菌(Streptomyces viridosporus)、食酸代尔夫特菌(Delftia acidivorans)以及马红球菌(Rhodococcus equi)。由文献得到的生物信息和实验数据表明在这些菌株中对芳香族化合物存在广泛的代谢活性，从而使得它们成为用于发现水解木质素衍生的寡聚体的酶、以及生物转化木质素核心结构的相关物种。无意于被任何理论或作用机制所限定，这些物种表现出例如芳香族化合物(例如安息香酸酯；氨基-、氟代-和氯代-安息香酸酯；二苯基；甲苯和硝基甲苯；二甲苯；烷基苯；苯乙烯；阿特拉津；己内酰胺；以及多环芳香烃)的代谢。

例如，可以使用任一技术人员已知的方法使微生物在发酵罐中生长。在生物加工中使用的酶得自微生物，并且它们可以是细胞内的、细胞外的或它们的组合。由此，可以使用本领域的任一技术人员已知的方法由宿主细胞回收酶，所述的方法包括例如过滤或离心、蒸发和纯化。在一些实施方案中，所述的方法可以包括使用超声或机械装置破裂宿主细胞，除去碎片并提取蛋白质，其后可以使用例如电泳来纯化蛋白质。然而，在一些实施方案中，所述的教导包括使用对木质素衍生的化合物耐受的重组或非重组的微生物。例如，在工业上可以使用对木质素衍生的化合物耐受的微生物来表达任何重组或非重组的酶，这些酶具有所需的酶活性，同时直接与木质素衍生的化合物相关。此类活性包括例如β醚酶活性、C-α-脱氢酶活性、谷胱甘肽裂解酶活性或者可以用于生物转化木质素衍生的化合物的任何其他的酶活性。这些活性可以是野生型的，或者通过任一技术人员已知的方法生产，例如转染或转化。

微生物系统-固氮菌属菌株

本文所述的教导还涉及重组固氮菌属菌株的发现和用途，其中所述的重组固氮菌属菌株异源表达用于水解木质素寡聚体的新β-醚酶。

定向于发现合适的微生物的研究显示棕色固氮菌可以具有本文所提供的教导所需的工业相关菌株的标准。在一些实施方案中，所述的标准包括：(i)在廉价且成分明确的培养基上生长；(ii)在木质纤维素的水解过程中对抑制剂具有抗性；(iii)耐受酸性pH和较高的温度；(iv)戊糖和己糖的共发酵；(v)基因易处理并且基因表达工具的可利用性；(vi)快速传代时间；以及(vii)在实验规模的发酵中成功生长的性能。此外，有助于棕色固氮菌对木质素流进行转换的潜在适合性的重要生理学特点包括对芳香族化合物和异型生物质进行代谢的能力。此外，已经显示能够耐受在工业废物流中的酚化合物。所注释的棕色固氮菌的基因组序列以及用于转化和酶的异源表达的基因工具的可利用性有助于该微生物以其天然形式或作为转化子在例如由木质素流高产率地生产工业化学品中发挥作用的潜力。

所述的教导还涉及切割β-芳基醚键的方法，其包括将本文所述的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有(i)β-芳基醚键，以及(ii)分子量范围为大约180道尔顿至大约3000道尔顿；其中所述的接触在溶剂环境中进行，其中所述的木质素衍生的化合物是可溶的。术语“相接触”是指将试剂(例如本文所教导的化合物)与目标化合物设置在一起，并且这种设置可以例如原位或体外进行。

所述的教导还涉及切割β-芳基醚键的方法，其包括将本文所述的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有(i)β-芳基醚键，以及(ii)分子量范围为大约180道尔顿至大约3000道尔顿；其中所述的接触在溶剂环境中进行，其中所述的木质素衍生的化合物是可溶的。在一些实施方案中，木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。在一些实施方案中，溶剂环境包含水。并且在一些实施方案中，溶剂环境包含极性有机溶剂。

本文所述的教导还涉及生物加工木质素衍生的化合物的系统，该系统包含：本文所教导的多肽，具有β-芳基醚键并且分子量范围为大约180道尔顿至大约3000道尔顿的木质素衍生的化合物；以及溶剂，其中木质素衍生的化合物是可溶的；其中所述的系统通过将多肽与木质素衍生的化合物在溶剂中相接触而起到切割β-芳基醚键的作用。

本文所述的教导还涉及包含核苷酸序列的重组多核苷酸，其中所述的核苷酸序列编码了本文所教导的多肽。同样，本文所述的教导还涉及包含多核苷酸的载体或质粒、以及通过表达多肽的载体或质粒所转化的宿主细胞。

本文所述的教导还涉及切割β-芳基醚键的方法，该方法包括：(i)在适于生产本文所教导的多肽的条件下培养本文所教导的宿主细胞；(ii)由宿主细胞培养物回收多肽；以及(iii)将权利要求1所述的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有β-芳基醚键并且分子量为大约180道尔顿至大约3000道尔顿；其中所述的接触在溶剂环境中进行，其中所述的木质素衍生的化合物是可溶的。

在一些实施方案中，宿主细胞可以为大肠杆菌或固氮菌属的菌株，例如棕色固氮菌。并且在一些实施方案中，木质素衍生的化合物可以具有大约180道尔顿至大约1000道尔顿的分子量。

本文所述的教导还涉及用于生物加工木质素衍生的化合物的系统，该系统包含：(i)本文所教导的转化的宿主细胞；(ii)具有β-芳基醚键并且分子量为大约180道尔顿至大约3000道尔顿的木质素衍生的化合物；以及(iii)其中木质素衍生的化合物是可溶的溶剂；其中所述的系统通过将本文所教导的多肽与木质素衍生的化合物在溶剂中相接触而起到切割β-芳基醚键的作用。

实施例

以下实施例是示例性的，而并非限定了本发明。

实施例1

在可溶的木质素样品上进行微生物生长和代谢的研究，以便测试微生物对木质素衍生的化合物的耐受情况。可以使用一组已知会抑制大肠杆菌和菌株的生长的芳香族和非芳香族化合物来表征棕色固氮菌菌株BAA1303和圆褐固氮菌菌株4412(EB Fred)X-50的生长、耐受情况和代谢能力。微生物菌株对多种芳香族和非芳香族化合物的代谢可以通过活跃代谢的细胞将可溶的四唑盐减少的情况而确定为细胞呼吸的函数。XTT(2，3-双(2-甲氧基-4-硝基-5-磺苯基)-2H-四唑-5-甲酰苯胺内盐，Sigma)被呼吸细胞还原为可溶的紫色甲臜化合物。在本研究中，大肠杆菌可以被用作阴性对照菌株。菌株可以在丰富培养基上生长至饱和，洗涤，并确定培养物的OD600。将等量的细菌接种到48孔生长，芳香族和非-芳香族化合物的浓度为0-500mM，将增加至孔中至最终体积为0.8ml。在25-37℃下在摇动情况下温育24-48小时后，在暴露于测试化合物时，使用XTT测试试剂盒(Sigma)针对生长情况测试培养物。由48孔生长平板上除去培养样品，并在将加入XTT试剂的96孔测试平板上适当稀释。通过450nm下的吸光率定量所形成的可溶的甲臜。在450nm下吸光率增加为菌株生长或存活、或对特定测试化合物进行代谢的指示。表3列出了可以用于测试微生物对木质素衍生的化合物的耐受情况的一些实例化合物。

表3

	测试化合物
		1	紫丁香酸
2	紫丁香醛
		3	鞣酸
4	糠醛
		5	5-羟甲基糠醛
6	4-羟基苯甲醛
		7	羟基安息香酸酯
8	香草醛
		9	香草酸
10	肉桂酸
		11	邻、间和对香豆酸
12	2-羟基-3-甲氧基苯甲醛
		13	2，4，6-三羟基苯甲醛
14	4-羟基-2，6-二甲氧基苯甲醛

待测试的一组木质素化合物可以扩展到本文所提供的任何教导中。并且，还可以在实际工业样品上进行在可溶的木质素样品上微生物生长和代谢的研究，其中所述的实际工业样品例如为Kraft木质素和生物精炼木质素。

实施例2

本实例示出了根据本文所提供的教导，预计的酶是怎样被识别以便使用。尽管在商业化规模的工艺中，少动鞘氨醇单胞菌从未成功地作为工业微生物进行异源表达，但是其已经显示出生产在切割木质素的β芳基醚键中具有一定活性的酶。参见Masai，E.，et al。因此，发现酶的努力以针对被Masai所识别的两种酶而进行的BLAST检索为开始(“ligE”和“ligF”)，其中所述的两种酶具有β醚酶活性。参见Id.atAbstract。表4列出了作为初始筛选在BLAST检索中所识别的基因。

表4

表4中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

实施例3

本实施例描述了制备重组宿主细胞的方法，以用于在大肠杆菌(E.coli)中异源表达已知的和推断的β-醚酶编码基因的序列。在本实施例中大肠杆菌被用作生产替代酶的宿主有机体，以用于发现酶。以下描述新工业宿主微生物棕色固氮菌的构建。

具有表3所示编号的基因序列通过使用标准的基于PCR的组装方法，并使用具有10％阈值的大肠杆菌密码子偏好，由寡核苷酸作为开放阅读框(ORF)直接合成。末端序列包含用于限制性消化的适配体(Ndel和Xhol)，并被克隆到大肠杆菌表达载体pET24b(Novagen)中。在寡核苷酸的设计过程中，内部Ndel和Xhol位点由ORF序列上除去。将组装的基因克隆到克隆载体(pGOV4)中，转化到大肠杆菌CH3化学感受态细胞中，并由纯化的质粒DNA确定DNA序列。在序列被证实后，使用限制性消化由克隆载体上切除各个ORF片段，并将序列亚克隆到pET24b中。接着，将带有ligE和ligF的完整的一组质粒转化到大肠杆菌BL21(DE3)，该菌作为用于β-醚酶表达和生物化学活性测试的宿主菌株。

LigE(编号No BAA2032.1)在本文中列为蛋白质序列SEQ ID NO：1，及基因序列SEQ ID NO：2。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：977。

LigE-1(编号No ABD26841.1)在本文中列为蛋白质序列SEQ ID NO：101，及基因序列SEQ ID NO：102。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：978。

LigF(编号No BAA2031.1(P30347.1))在本文中列为蛋白质序列SEQ ID NO：513，及基因序列SEQ ID NO：514。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：979。

LigF-1(编号No ABD26530.1)在本文中列为蛋白质序列SEQ ID NO：539，及基因序列SEQ ID NO：540。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：980。

LigF-2(编号No ABD27301.1)在本文中列为蛋白质序列SEQ ID NO：541，及基因序列SEQ ID NO：542。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：981。

LigF-3(编号No ABD27309.1)在本文中列为蛋白质序列SEQ ID NO：545，及基因序列SEQ ID NO：546。创建“优化的”核酸序列，从而有助于大肠杆菌中的转化，并在本文中列为SEQ ID NO：982。

实施例3

本实施例描述了在大肠杆菌中进行基因表达的方法、以及β-醚酶的生物化学测试。使用处于Luria Broth培养基中的本文所述的重组大肠杆菌菌株的5ml培养物，通过使用异丙基硫代半乳糖苷(IPTG)至最终浓度为0.1mM来诱导基因的表达，由此表达已知的及推断的β-醚酶基因。诱导并收获细胞后，使用超声或BPER(Invitrogen)细胞裂解系统来破碎细胞。

在体外生物化学测试中，针对在荧光底物(模式木质素二聚体化合物α-O-(β-甲基伞形酮基)乙酰香兰酮(MUAV))上的β-醚酶活性测试澄清的细胞提取物。在总体积为200μl并且包含25mM TrisHCl pH7.5；0.5mM二硫苏糖醇；1mM谷胱甘肽；0.05mM 或0.1mMMUAV；10ul澄清的细胞提取物(用于引发反应)的混合物中进行体外反应。在室温下温育2.5小时后，使用150ul300mM甘氨酸/NaOH缓冲剂pH9终止50ul样品的反应。通过使用Spectramax UV/可视/荧光风光光度计通过在λex＝360nm和λem＝450nm下的荧光的增加来监测在水解芳基醚键时形成的4甲基伞形酮(4MU)。

使用用于蛋白质定量的BCA试剂系统(Pierce)确定细胞裂解物的总蛋白质浓度。

此外，还可以使用浓度范围为0.01-1mM的IPTG进行诱导。此外，还可以使用甲苯渗透，法压技术或者使用与溶菌酶联合的多次冻结/解冻循环进行细胞的破碎。可以改变测试条件，使其包含：浓度为10-150mM的TrisHCl并且pH范围为6.5-8.5；0-2mM二硫苏糖醇；0.05-2mM谷胱甘肽；0.01-5mM MUAV底物；22-42℃反应温度。实施生物化学测试作为固定时间点测试，其反应的时间范围为5分钟-12小时，或者连续实施生物化学测试而未使用甘氨酸/NaOH缓冲剂淬火，从而得到酶的动力学参数。

实施例4

本实施例描述了新开发的β-醚酶的测试生物化学活性。

图4示出了根据一些实施方案，针对少动鞘氨醇单胞菌阳性对照多肽和新鞘氨醇杆菌推断的β-醚酶多肽的β-醚酶功能，由生物化学活性测试得到的意想不到结果。与少动鞘氨醇单胞菌ligE基因产物相比，由新鞘氨醇杆菌得到的推断ligE1基因产物所展现的非常高β-醚酶活性是酶开发过程的完全意想不到的结果。

在包含0.1mM MUAV底物的反应物中，与少动鞘氨醇单胞菌ligE蛋白质的总活性7rfu/ug相比，表达新鞘氨醇杆菌ligE1蛋白质的大肠杆菌细胞提取物产生了529rfu/ug的总活性。由新鞘氨醇杆菌得到的新开发的β-醚酶比之前所述的少动鞘氨醇单胞菌ligEβ-醚酶的效率高出大约75倍。高效的新β-醚酶理想地适用于在生物技术工艺中将木质素芳基醚转换为单体的生物催化剂。

此外，令人惊奇的发现与少动鞘氨醇单胞菌LigF序列具有一致性的3种新的新鞘氨醇杆菌多肽对MUAV底物显示出β-醚酶活性。尽管由新鞘氨醇杆菌得到的所有3种推断的ligF基因产物都表现出β-醚酶活性，但是LigF2多肽比动鞘氨醇单胞菌LigF蛋白质的效率高出大约2倍。与少动鞘氨醇单胞菌LigF蛋白质的总活性558rfu/ug相比，新鞘氨醇杆菌LigF2蛋白质产生了1206rfu/ug的总活性。

由此，酶开发过程意想不到且令人惊奇地产生了由新鞘氨醇杆菌得到的具有β-醚酶活性的四种(4)新的多肽。这组酶对催化木质素衍生的化合物的完全解聚显示出较大的潜力。就至少以下原因而言，结果是意想不到且令人惊奇的：

编码具有β-醚酶活性的多肽的四种(4)新基因序列是由新鞘氨醇杆菌开发的。这些序列具有GenBank No.ABD26841.1(SEQ ID NO：101)；ABD26530.1(SEQ ID NO：539)；ABD27301.1(SEQ ID NO：541)；和ABD27309.1(SEQ ID NO：545)。

技术人员应该理解的是用于帮助识别推断的酶的生物信息筛选就生物化学活性本身而言并非是明确的预报器，特别是考虑到(i)在不同的物种中仅有一种已知的LigE活性酶；(ii)一种已知的LigF活性酶；以及(iii)所开发的此类活性的意想不到的程度后更是如此。因此，必须凭经验对新鞘氨醇杆菌推断的β-醚酶基因组别进行功能测试。

此外，技术人员还应该理解的是考虑到所有4种新鞘氨醇杆菌多肽的序列与少动鞘氨醇单胞菌LigE和LigF蛋白质具有相对低水平的一致性(37％-62％)，则发现这4种新鞘氨醇杆菌多肽的β-醚酶活性是完全令人吃惊的。

此外，技术人员还应该理解的是发现由新鞘氨醇杆菌得到2种新的β-醚酶比由少动鞘氨醇单胞菌到的相应的LigE和LigF蛋白质具有改善的活性，是完全意想不到的，并且这种激动人心的开发提供了进一步研发工业应用用酶的基础。

实施例5

本实施例描述了在开发过程中生物信息识别一堆推断的酶的扩展用途。如上文所述，用于帮助识别推断的酶的生物信息筛选最初在生物化学本文中并非是明确的预报器，特别是考虑到(i)在不同的物种中仅有一种已知的LigE活性酶；(ii)一种已知的LigF活性酶；以及(iii)所开发的此类活性的意想不到的程度后更是如此。额外的已知的活性酶提供了更多的可以用于增强生物信息针对LigE型和LigF型酶识别推断的酶的效力。

针对新开发的β-醚酶的功能相关序列进行分析和识别。对新鞘氨醇杆菌LigE和LigF多肽进行功能结构域、必要的催化残基和序列比对的生物信息调查。尽管不希望被任何理论或作用机制所束缚，但是调查的基本原理和重要结果至少包括以下方面：

识别功能结构域

如图4所示，与少动鞘氨醇单胞菌LigE和LigF蛋白质相比，发现新鞘氨醇杆菌LigE1和LigF2多肽序列的高水平的β-醚酶活性。新鞘氨醇杆菌LigE1和LigF2多肽序列作为查询序列用于使用GenBank中保守结构域数据库(CDD)来识别功能结构域。

新鞘氨醇杆菌LigE1多肽注释为与GST_C家族和β-醚酶LigE亚家族具有相似性的谷胱甘肽S转移酶(GST)样蛋白质。LigE亚家族由与少动鞘氨醇单胞菌β-醚酶LigE相似的蛋白质构成，其为GST样蛋白质，在反应中能够使用还原的谷胱甘肽(GSH)作为氢供体催化在低分子量木质素中存在的β-芳基醚键的切割。GST折叠包含N末端硫氧还蛋白-折叠结构域和C末端α螺旋结构域，并且活性位点定位于这两个结构域之间的裂口中。

根据一些实施方案，表5描述了新鞘氨醇杆菌LigE1多肽(ABD26841.1)中保守结构域和必需氨基酸残基。在新鞘氨醇杆菌LigE1多肽中注释为三个(3)保守功能结构域为：(i)二聚体界面；(ii)N末端结构域；(iii)木质素底物结合口袋或H位点。在此类实施方案中，定义了功能结构域的氨基酸残基为新鞘氨醇杆菌LigE1多肽中的残基98-221。

此外，根据一些实施方案，表5还列出了用于催化活性的保守且必需的十五个(15)氨基酸残基(表5中第3列)。这些残基包括：K100；A101；N104；P166；W107；Y184；Y187；R188；G191；G192；F195；V111；G112；M115；F116。尽管不想被任何理论或作用机制所束缚，但是这些残基似乎形成了所开发的新鞘氨醇杆菌LigE1多肽比少动鞘氨醇单胞菌ligE多肽更高的β-醚酶活性。

在此类实施方案中，新鞘氨醇杆菌LigE1多肽的必需氨基酸残基可以保守性的改变，并且可以单独改变或者与能够保留或改善新鞘氨醇杆菌LigE1多肽的催化功能的相似氨基酸残基相结合。可以在必需的位置处引入的此类改变的备选残基的实例也示于表5中的第4列。

表5

新鞘氨醇杆菌LigF2多肽被注释为与GST_C家族具有相似性的谷胱甘肽S转移酶(GST)样蛋白质，从而催化谷胱甘肽与广泛的异型生物质试剂缀合。

根据一些实施方案，表6描述了在新鞘氨醇杆菌LigF2多肽(ABD273011)中的保守性结构域和必需氨基酸残基。针对新鞘氨醇杆菌LigF2多肽所注释的三种(3)保守性的功能结构域与针对新鞘氨醇杆菌LigE多肽所描述的那些相似，并包含：(i)二聚体界面；(ii)N末端结构域；(iii)木质素底物结合口袋或H位点。在此类实施方案中，定义了功能结构域的氨基酸残基为新鞘氨醇杆菌LigF2多肽中的残基99-230。

此外，根据一些实施方案，表6还列出了用于新鞘氨醇杆菌LigF2多肽的催化活性的保守且必需的十六个(16)氨基酸残基(表6中第3列)。这些残基包括：R100；Y101；K104；K176；D107；L194；I197；N198；S201；M206；M111；N112；S115；M116；M206；H202。尽管不想被任何理论或作用机制所束缚，但是16个残基似乎形成了所开发的新鞘氨醇杆菌LigF2多肽比少动鞘氨醇单胞菌ligF多肽更高的β-醚酶活性。

在此类实施方案中，新鞘氨醇杆菌LigF2多肽的必需氨基酸残基可以保守性的改变，并且可以单独改变或者与能够保留或改善新鞘氨醇杆菌LigF2多肽的催化功能的相似氨基酸残基相结合。可以在必需的位置处引入的此类改变备选的残基的实例也示于表6中的第4列。

表6

识别额外的功能结构域

使用生物信息方法来进一步了解可以得到所需的活性的蛋白质结构。首先，一起分析LigE1和LigF2。使用GenBank的BLAST-P程序以及ProDom和PraLine程序，用新鞘氨醇杆菌ligE1(ABD268411)和ligF2(ABD27301.1)序列进行氨基酸序列比对。全长序列比对产生了具有相对低的一致性的命中，例如一致性＜70％。

接着，在GENBANK中单独分析LigE1和LigF2中的区域。就LigE1而言，使用得自新鞘氨醇杆菌ligE1的查询序列“tispfvwatkyalkhkgfdldvvpggftgilertgg”(SEQ ID NO：101的残基19-54)，针对GENBANK中的数据库进行比对。BLAST在包含TRX折叠的硫氧还蛋白(TRX)样超家族中产生了至少3个具有高度一致性的题述序列。许多成员包含具有氧化还原活性CXXC基元的传统的TRX结构域。

不想被任何理论或作用机制所束缚，认为它们作为蛋白质二硫化物氧化还原酶(PDO)发挥作用，从而通过它们活性位点二巯基化物的可逆氧化而改变目标蛋白质的氧化还原状态。这种超家族的PDO成员包括TRX、蛋白质二硫化物异构酶(PDI)、tlpA、谷氧还蛋白、NrdH还原酶、和细菌Dsb的蛋白质(DsbA，DsbC，DsbG，DsbE，DsbDgamma) 家族。未发挥PDO功能但是包含TRX-折叠结构域的超家族成员包括光传感因子、过氧化物氧化还原因子、谷胱甘肽(GSH)过氧化物酶、SCO蛋白质、GSH转移酶(GST，N-末端结构域)、砷还原酶、TRX样铁氧化还原蛋白以及隐钙素等。

表7列出了与LigE-1(SEQ ID NO：101)的残基19-54具有高度的一致性(＞80％)的3个题述序列。在一些实施方案中，这些序列对于与在新鞘氨醇杆菌ligE1多肽中所开发的那些相似的催化功能可能是必需的。

表7

表7中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

同样，对于LigF2而言，使用得自新鞘氨醇杆菌ligF2(ABD27301.1)的以下2条查询序列：“ainpegqvpvl”(SEQ ID NO：541的残基47-57)和“iithttvineyled”(SEQ ID NO：541的残基63-76)针对GENBANK中的数据库进行单独比对，在蛋白质的GST-N超家族中产生了多条具有高度的一致性的题述序列。不想被任何理论或作用机制所束缚，在CDD中注释新鞘氨醇杆菌ligF2多肽的N末端区域(SEQ ID NO：541的残基43-75)，从而涵盖：

i.在形成蛋白质GST-N家族的三级蛋白质结构中，被认为与C末端界面相接触的N末端残基；

ii.被认为与多肽的二聚化有关的N末端残基；以及

iii.被认为与谷胱甘肽底物的结合有关的残基。

表8提供了与新鞘氨醇杆菌LigF2查询序列残基47-57的百分一致性和相似性。

表8

表8中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

表9提供了与新鞘氨醇杆菌LigF2查询序列残基63-76的百分一致性和相似性。

表9

表9中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

生物信息对可以有助于识别测试候选物的蛋白质结构提供了有价值的信息。例如，LigE1具有98-221区域，其在数据库中通常被注释为潜在形成结合和活性、二聚化作用以及用于结合和催化的成分。尽管不想被任何理论或作用机制所束缚，但是在活性位点结构中的可变性由底物结构的可变性所反应。同样，在使用生物信息进行进一步检索时，进一步发现19-54区域，该区域在数据库中被注释为第二区域，其潜在的作为还原酶功能的成分，并由此除了98-221区域以外潜在地用于催化，同时在成员之间是更加保守的。

获得有助于在各家族菌株内找到高性能蛋白质的额外的结构信息在本文所述的教导的范围内，直到该方法学是任一技术人员已知的程度。多种检索技术是任一技术人员已知的。诸如发现基元之类的生物信息方法为获得额外的结构信息的一种方式的实例。基元查找也称为概况分析(profile analysis)构建了全局多序列比对，其试图在查询组别的序列中比对短的保守性序列基元。这可以通过以下方式完成：首先构建常规的全局多序列比对，其后按照与本文所教导的相似的方式分离高度保守性的区域，并将该区域构建一组概况矩阵。如同得分矩阵那样排列各个保守性区域的概况矩阵，但是在各个位置处各个氨基酸或核苷酸的频率计数源自保守性区域的特征分布而非更通常的经验分布。然后，使用概况矩阵针对它们所表征的基元的出现情况来检索其他序列。

通过分别将LigE-1和LigF-2的结构与LigE型和LigF型的其他多肽比较来进一步检测LigE-1和LigF-2。表10A示出了在LigE和LigE-1的多肽序列之间的保守性残基，而表10B示出了在LigF和LigF-2的多肽序列之间的保守性残基。

表10A

如所见到的那样，在LigE型家族中，在LigE和LigE-1之间存在高度的物种间相似性。LigE残基得自少动鞘氨醇单胞菌(BAA02032.1)，而LigE-1残基得自新鞘氨醇杆菌LigE1(ABD268411)。在PRALINE比对文件(不包含缺口)中，根据少动鞘氨醇单胞菌序列(BAA02032.1)进行编码。

表10B

如所见到的那样，在LigF型家族中，在LigF和LigF-2之间存在较低的物种间相似性。LigF残基得自少动鞘氨醇单胞菌(BAA02032.1)，而LigF-2残基得自新鞘氨醇杆菌(ABD26841.1)。在PRALINE比对文件(不包含缺口)中，根据少动鞘氨醇单胞菌序列(BAA02032.1)进行编码。

实施例6

本实施例提供了用于第二轮测试的额外的序列，该序列包含用于GST_C家族蛋白质的本文所述的3个保守性功能结构域，并且属于β-醚酶LigE亚家族。表11列出在氨基酸水平上具有51％至73％的一致性的九个(9)额外的序列，这些序列是使用少动鞘氨醇单胞菌LigE序列(P27457.3)作为查询序列而在SwissProt数据库中识别的。生物信息的信息表明这9个序列是使用本文所述的方法用于所需的生物化学功能的下一轮合成、克隆、表达和测试的良好的候选物。

表11

表11中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

实施例7

本实施例描述了天然木质素核心结构是怎样通过Cα-脱氢酶、β-醚酶和谷胱甘肽消除酶的作用而水解的。

图5示出了根据一些实施方案待测试的β-芳基醚化合物作为代表天然木质素结构的底物。尽管在新的β-醚酶的识别中MUAV被用作模式底物，但是诸如图5所示的那些之类的额外的芳基醚化合物可以被用于评估β-醚酶对包含β-芳基醚键并代表天然木质素结构的芳香族化合物的二聚体和三聚体的底物特异性。还可以合成和测试分子量＜2000的较高级别的寡聚体。如同荧光底物MUAV，所述的化合物可以通过常规的有机合成得到。

图6示出了根据一些实施方案由少动鞘氨醇单胞菌代谢愈创木酚基甘油-β-愈创木基醚(GGE)的途径。可以需要除了LigE/F样β醚酶以外的酶来水解天然木质素核心结构。据信，模式β-芳基醚化合物愈创木酚基甘油-β-愈创木基醚(GGE)包含在天然木质素中存在的主要的化学键，包括羟基、芳基醚和甲氧基官能度。对于少动鞘氨醇单胞菌而言，GGE生物转化为木质素单体β-羟丙酸香草酮(β-HPV)已经部分了解，并提出通过3种不同的酶以分布的方式作用来进行。ligD基因产物编码了Cα-脱氢酶，其将GGE氧化为α-(2-甲氧基苯氧基)-β-羟丙酸香草酮(MPHPV)；MPHPV的醚键被ligE和ligF基因产物的β-醚酶活性所切割，从而分别产生木质素单体愈创木酚和α-谷胱甘肽羟丙酸香草酮(GS-HPV)。ligG基因产物编码了消除谷胱甘肽(GSH)的谷胱甘肽S转移酶(GST)，其催化谷胱甘肽(GSH)由GS-HPV上的消除，从而产生木质素羟丙酸香草酮(HPV)。

尽管LigE和LigF多肽或者本文所述的类似的肽可能足以水解天然的木质素结构，但是有用的是发现新的Cα脱氢酶(少动鞘氨醇单胞菌LigD同源物)和消除谷胱甘肽(GSH)的谷胱甘肽S转移酶(少动鞘氨醇单胞菌LigG同源物)用于工业应用。可以通过与本文所述相似的方法来进行酶的开发过程。在过滤后可以检测木质素底物、中间体和生物化学反应的产物，并将底物和产物提取至乙酸乙酯中。可以使用具有C18柱的反向HPLC条件来分离底物和产物(其中使用甲醇和水的梯度溶剂系统展开)，并在230nm或254nm下检测。

表12列出了与β醚酶(包括但不限于LigE/F)联合使用的潜在的Cα-脱氢酶多肽序列LigD型。使用诸如本文所教导的那些之类的生物信息方法来识别所述的序列。这些Cα-脱氢酶作为短链脱氢酶/还原酶(SDR)被归类为CDD中，并且为功能多样化家族的氧化还原酶，该酶具有带有结构保守性的Rossmann折叠(具有中心β片的α/β折叠图案)的单一结构域、NAD(P)(H)结合区域以及结构多样化的C末端区域。传统的SDR通常为大约250个残基长，同时延伸的SDR为大约350个残基。不同的SDR酶之间的序列一致性通称为15-30％，但是这些酶共有Rossmann折叠NAD结合基元，以及特征性的NAD结合和催化序列图案。

不想被任何理论和作用机制所束缚，认为这些酶催化了广泛的活性，包括甾类化合物、辅助因子、碳水化合物、脂质、芳香族化合物和氨基酸的代谢；并且在氧化还原感应中起作用。传统的SDR具有TGXXX[AG]XG辅助因子结合基元和YXXXK活性位点基元，并且活性位点基元的Tyr残基起到了重要的催化残基(Tyr-151，人类前列腺素脱氢酶(PGDH)编号)的作用。除了Tyr和Lys以外，上游Ser(Ser-138，PGDH编号)和/或Asn(Asn-107，PGDH编号)通常有助于活性位点；同时底物结合为C末端区域，其决定了特异性。

不想被任何理论和作用机制所束缚，认为标准的反应机制为4-pro-S氢负离子转移和质子传递(其与保守性的Tyr和Lys、Asn稳定的水分子、和烟碱有关)。延伸的SDR在C末端区域具有额外的元件，并且通常具有TGXXGXXG辅助因子结合基元。复杂(多结构域)SDR(例如脂肪酸合酶的酮还原酶结构域)具有GGXGXXG NAD(P)结合基元和改变的活性位点基元(YXXXN)。真菌类型的酮脂酰还原酶可以具有TGXXXGX(1-2)G NAD(P)结合基元。认为一些非典型的SDR失去了催化活性和/或具有不常见的NAD(P)结合基元和失去的或不常见的活性位点残基。SDR家族中催化的反应可以包括异构化、脱羧作用、差向异构作用、C＝N键还原、脱水酶活性、脱卤作用、烯酰-CoA还原以及羰基醇氧化还原作用。

表12

表12中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

表13列出了与β醚酶(包括但不限于LigE/F)联合使用的潜在的LigG(谷胱甘肽消除)样酶序列。使用诸如本文所教导的那些之类的生物信息方法来识别所述的序列。这些酶可以与Cα-脱氢酶和/或LigE/F样β-醚酶联合使用。LigG样蛋白质在CDD中被注释为谷胱甘肽S转移酶(GST)样蛋白质，其与包含TRX折叠的GST_C家族、GST-N家族和硫氧还蛋白(TRX)样超家族的蛋白质相似。

表13

表13中的核苷酸和氨基酸序列通过GenBank编号以引用方式全文并入本文。

实施例8

本实施例描述了用于将木质素寡聚体转换为单体的新的重组微生物系统的创建。例如，可以使用得自新鞘氨醇杆菌的编码β-醚酶的基因转化棕色固氮菌菌株BAA-1303DJ，以便创建能够在工业工艺中以高产率将木质素寡聚体转换为单体的耐受木质素酚的棕色固氮菌菌株。表14列出通过例如菌株命名和美国模式培养物保藏中心(ATCC)编号可以用作β-醚酶基因表达的宿主菌株的其他棕色固氮菌菌株。

表14

使用本文所述的表达质粒系统可以得到用于在棕色固氮菌中生产木质素单体和芳香族产物的β醚酶、Cα脱氢酶和其他酶的异源生产。可以使用编码链霉素抗性的广泛的宿主范围的多拷贝质粒Pkt230(ATCC)来进行基因克隆。可以通过上文所述的方法合成基因，并将其克隆到Pkt230的Smal位点。可以使用得自棕色固氮菌菌株BAA1303DJ的nifH启动子来控制基因的表达。

可以使用电感受态细胞的电穿孔(Eppendorf方法)，用pKT230衍生物来转化棕色固氮菌菌株BAA1303DJ，或者通过将质粒DNA与在TF培养基(每升1.9718gMgSO₄，0.0136g CaSO₄，1.1g CH₃COONH₄，10g葡萄糖，0.25g KH₂PO₄，以及0.55g K₂HPO₄)中制备的化学感受态细胞温育来转化棕色固氮菌菌株BAA1303DJ。可以通过筛选对链霉素的抗性来选择转化子。可以在不含氮的Burk培养基(每升0.2gMgSO₄，0.1g CaSO₄，0.5g酵母提取物，20g蔗糖，0.8g K₂HPO₄，和0.2g KH₂PO₄，以及痕量的FeCl₃和Na₂MoO₄)中通过细胞生长来诱导基因的表达。

可以使用任一技术人员已知的方法(例如本文所提供的方法)来测试在棕色固氮菌菌株BAA1303DJ中功能性表达的新开发的β-醚酶的生物化学活性。可以按照本文所述进行针对β-醚酶功能及针对总蛋白质的生物化学活性测试。

实施例9

本实施例描述了重组固氮菌属菌株的设计和用途，其中所述的重组固氮菌属的菌株能够异源表达用于由木质素核心结构异源生产高价值的芳香族化合物的酶。表15列出了可以通过本文所述的微生物平台生产的芳香族化合物的几个实例。

表15

商业化芳香族化合物的微生物工艺的一个实例为由木质素衍生的酚化合物生产儿茶酚。可以使用基因工程改造的棕色固氮菌或圆褐固氮菌菌株由愈创木酚生产儿茶酚，其中所述的菌株具有酶，其包括β-醚酶和脱甲基酶、或者单独的脱甲基酶。可以通过本文所述的方法对固氮菌属的菌株进行基因工程改造，从而表达异源的酶。

图7示出了根据一些实施方案用于由木质素寡聚体生产儿茶酚的生物化学工艺的实例。形成诸如儿茶酚之类的芳香族产物的生物化学工艺可以设计为以下所述的3个单元的操作：

(i)可溶的木质素的分级-使用任一技术人员已知的方法浓缩或部分纯化可溶的生物净化的木质素级份或酚流。

(ii)生物转化-可以使用经过基因工程改造从而特异且最佳地将特异的木质素衍生的酚底物转换成终产物(例如儿茶酚)的固氮菌属的菌株以分批供料的方式进行酚底物流的生物转化。可以使用玉米浆作为生物转化的基础培养基。可以以分批的方式引入浓度为菌株可以耐受的酚流。

(iii)产物分离-可以使用标准的化学分离方法由水性培养液纯化产物(例如儿茶酚)，其中所述的方法例如为液-液提取(LLE)，其中溶剂以改变的极性依次供入。

所设计的形成芳香族产物的生物化学途径的另一个实例如下所述：

(i)可以使用芳醛氧化酶和脱甲基酶通过2步生物化学转换将木质素衍生的紫丁香酸转换为鞣酸。

(ii)可以使用芳醛氧化酶和脱甲基酶通过2步生物化学转换将木质素衍生的香草醛酸转换为原儿茶酸。

(iii)可以使用芳醛氧化酶、芳香族脱羧酶和脱甲基酶通过3步生物化学转换将木质素衍生的香草醛酸转换为儿茶酚。

(iv)可以使用脱甲基酶、阿魏酸-5-羟基酶、2，4-硝基酚氧化还原酶、和2，4-硝基苯还原酶通过4步生物化学转换将木质素衍生的2-甲氧基甲苯酸转换为聚氨酯前体或2，4-二氨基甲苯。

在各种情况下，特异的酶可以经基因工程改造而进入例如棕色固氮菌或圆褐固氮菌菌株中，并且可以使用与本文所述相似的用于生物化学生产儿茶酚的单元操作来实施所述的工艺。

图8示出了根据一些实施方案由木质素寡聚体生产香草醛的生物化学工艺的实例。香草醛可以用作风味剂，并且可以作为诸如甲基多巴之类的药物的前体。例如，可以通过与水合乙醛酸发生反应由石油衍生的愈创木酚来生产合成的香草醛。而且，还可以根据图8所示的工艺简图由木质素衍生的β-羟丙酸香草酮(β-HPV)生产香草醛。可以使用经基因工程改造而进入到棕色固氮菌中的酶(2，4-二羟基乙酸苯氧化还原酶、以及香草醛脱氢酶或羧酸还原酶)来完成由β-HPV形成香草醛的2步生物化学途径。

图9示出了根据一些实施方案由木质素寡聚体生产2，4-二氨基甲苯的生物化学工艺的实例。可以使用甲苯二异氰酸酯(TDI)制造聚亚胺酯。例如，2，4-二氨基甲苯(2，4-DAT)为TDI的重要前体。可以通过以下方式工业化生产二氨基甲苯：使用硝酸依次消化甲苯，然后将二硝基甲苯还原成相应的二氨基甲苯。消化和还原反应产生了甲苯异构体的混合物，通过蒸馏由该混合物纯化2，4-DAT异构体。可以根据图9概述的工艺简图将木质素衍生的2-甲氧基甲苯转换成2，4-DAT。可以通过经基因工程改造的棕色固氮菌将2-甲氧基甲苯转换为2，4-DAT，其中所述的棕色固氮菌具有4种酶，从而特异性地脱甲基化、羟基化、硝基化和氨化甲氧基甲苯。

图10示出了根据一些实施方案由木质素寡聚体生产有价值的化学品的额外产物目标(包括邻甲酚、水杨酸和氨基水杨酸)的工艺简图。传统上，可以由存在问题的石油化学工艺得到这些化学品等。使用本文所述的教导，基于愈创木酚或2-甲氧基甲苯生产这些化学品的一些工艺简图示意性地示于图10中。所设计的生物化学途径与具有显著的耐受酚的特性的固氮菌属菌株结合被建议用于将木质素结构转换为工业和精细的化学品。

实施例10

本实施例描述了潜在的LigE-、LigF-、LigG-和LigD-型多肽，以及编码这些多肽的基因。使用生物信息方法，例如本文所教导的那些，来识别潜在的多肽。

如上文所述，在初始通过中用于LigE-型和LigF-型的查询序列为少动鞘氨醇单胞菌序列，例如在Masai，E.，et al中所讨论的那些。同样，用于LigG-型和LigD-型的查询序列也为少动鞘氨醇单胞菌序列，例如在Masai中所讨论的那些。在初始通过中以下序列用于所有的查询：

LigE(编号No BAA2032.1)在本文中列为蛋白质序列SEQ ID NO：1，及基因序列SEQ ID NO：2。

LigF(编号No BAA2031.1(P30347.1))在本文中列为蛋白质序列SEQ ID NO：513，及基因序列SEQ ID NO：514。

LigG(编号No Q9Z339.2)在本文中列为蛋白质序列SEQ ID NO：733，及基因序列SEQ ID NO：734。

LigD(编号No Q01198.1)在本文中列为蛋白质序列SEQ ID NO：777，及基因序列SEQ ID NO：778。

以下序列用作经修改的查询序列，以便进一步精制LigE-型和LigF-型，并且查询序列为LigE-1和LigF-2，其示出了图4所示的令人惊奇及意想不到的结果。

LigE-1(编号No ABD26841.1)在本文中列为蛋白质序列SEQ ID NO：101，及基因序列SEQ ID NO：102。

LigF-2(编号No ABD27301.1)在本文中列为蛋白质序列SEQ ID NO：541，及基因序列SEQ ID NO：542。

表16列出了SEQ ID NO：1-246，其为LigE-型的潜在的蛋白质序列以及编码这些蛋白质的各个基因序列。表17列出了SEQ ID NO：247-576，其为LigF-型的潜在的蛋白质序列以及编码这些蛋白质的各个基因序列。表18列出了SEQ ID NO：577-776，其为LigG-型的潜在的蛋白质序列以及编码这些蛋白质的各个基因序列。表19列出了SEQ ID NO：777-976，其为LigD-型的潜在的蛋白质序列以及编码这些蛋白质的各个基因序列。

诸如本文所述的那些的生物信息方法可以用于表明实验的效率级数，从而表明用于本文所提供的教导的用途的其他潜在的酶。此外，可以使用突变和氨基酸取代来测试对酶活性的影响，从而进一步相对于由本文所提供的教导而寻求的酶功能来进一步了解最具活性的蛋白质的结构。

表16

表17

表18

表19

使用仅仅普通的实验，本领域的那些技术人员便将确认或能够明确存在许多本文所述的特定实施方案的等价物，这些特定的实施方案经描述并且能够达到本领域的任一技术人员可以实施本发明的程度，超出本文所教导的特定实施方案的范围。此类等价物将被所附的权利要求书所涵盖。此外，存在大量的本文所教导且要求保护的列举物和Markush基团。技术人员能够理解的是各个此类的列举物和基团都包含多种物种，并且可以通过除去或加入一种或多种物种来修改，这是由于本文所教导和要求保护的各个列举物和基团不可能适用于实施本发明的每一个可行的实施方案。因此，此类列举物中的成分可以被除去且预计被除去，从而反映本文所教导的一些实施方案。本申请所提及的所有公开、专利、专利申请、其他参考文献、编号、ATCC编号等均以引用方式并入本文，如同每一份文献均特异地表明通过引用全文并入本文一样。

Claims

1.一种分离的重组多肽，其包含：

与SEQ ID NO：101具有至少95％的一致性的氨基酸序列，该氨基酸序列保留了SEQ ID NO：101的残基1，2，4-8，10-12，14，17，19-22，24，25，27-37，39，41-54，57，58，60，62-67，69-73，75，77-80，82-87，89，100，102，103，104，105，107，110-114，117，212，122，124-130，133，134，137-139，148，149，151-156，159，160，166-168，170，173，174，178-181，184，185，187-189，198-201，204，205，207，210-216，219，222，223，226-232，235-239，242-246，249，251，254，257，264，266，267，270，275和278；

其中除了所述的保守残基以外的氨基酸取代为保守性取代；以及

所述的氨基酸序列起到切割β-芳基醚的作用。

2.一种分离的重组多肽，其包含：

与SEQ ID NO：101具有至少95％的一致性的氨基酸序列，该氨基酸序列保留了SEQ ID NO：101的残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195；

其中除了所述的保守残基以外的氨基酸取代为保守性取代。

3.权利要求2所述的分离的重组多肽，其中所述的氨基酸序列起到切割β-芳基醚的作用。

4.一种分离的重组多肽，其包含：

SEQ ID NO：101；或者除了SEQ ID NO：101的保守残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195以外的保守性取代。

5.一种分离的重组谷胱甘肽S转移酶，其包含：

其中所述的氨基酸序列起到切割β-芳基醚的作用。

6.一种分离的重组谷胱甘肽S转移酶，其包含：

与SEQ ID NO：101具有至少95％的一致性的氨基酸序列；其中，所述的氨基酸序列起到切割β-芳基醚的作用。

7.一种分离的重组多肽，其包含：

长度范围为大约279至大约281个氨基酸；

由以下部分构成的第一氨基酸区域：得自SEQ ID NO：101的残基19-54，或者除了SEQ ID NO：101的保守残基19-22，24，25，27-30，33-36，39-45，47，48和50-54以外的保守性取代；以及

由以下部分构成的第二氨基酸区域：得自SEQ ID NO：101的残基98-221，或SEQ ID NO：101的除保守残基100，101，104，111，112，115，116，166，107，184，187，188，191，192和195以外的保守性取代。

8.一种分离的重组谷胱甘肽S转移酶，其包含：

长度范围为大约279至大约281个氨基酸；

第一氨基酸区域，其具有与得自SEQ ID NO：101残基19-54具有至少95％的一致性，同时保留了SEQ ID NO：101的残基19-22，24，25，27-30，33-36，39-45，47，48和50-54；其中所述的第一氨基酸区域定位于大约残基14至大约残基59的重组多肽中；以及

第二氨基酸区域，其具有与得自SEQ ID NO：101残基98-221具有至少95％的一致性，同时保留了SEQ ID NO：101的残基100，101，104，111，112，115，116，166，107，184，187，188，191，192和195；其中所述的第二氨基酸区域可以定位于大约残基93至大约残基226的重组多肽中；以及

其中所述的重组谷胱甘肽S转移酶可以起到切割β-芳基醚的作用。

9.权利要求8所述的分离的重组多肽，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

10.一种切割β-芳基醚键的方法，其包括：

将包含氨基酸序列的多肽与木质素衍生的化合物相接触，其中所述的氨基酸序列与SEQ ID NO：101具有至少95％的一致性，并且所述的氨基酸序列保留了SEQ ID NO：101的残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195；所述的木质素衍生的化合物具有(i)β-芳基醚键，并且(ii)分子量范围为大约180道尔顿至大约3000道尔顿；

其中所述的接触是在其中所述的木质素衍生的化合物是可溶的溶剂环境中进行。

11.权利要求10所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

12.权利要求10所述的方法，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

13.权利要求10所述的方法，其中所述的溶剂环境包含水。

14.权利要求10所述的方法，其中所述的溶剂环境包含极性有机溶剂。

15.一种切割β-芳基醚键的方法，其包括：

16.权利要求15所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

17.权利要求15所述的方法，其中所述的溶剂环境包含水。

18.权利要求15所述的方法，其中所述的溶剂环境包含极性有机溶剂。

19.一种用于生物加工木质素衍生的化合物的系统，其包括：

具有氨基酸序列的多肽，其中所述的氨基酸序列与SEQ ID NO：101具有至少95％的一致性，并且所述的氨基酸序列保留了SEQ ID NO：101的残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195；

木质素衍生的化合物，其具有β-芳基醚键，并且分子量范围为大约180道尔顿至大约3000道尔顿；以及

所述的木质素衍生的化合物可溶于其中的溶剂；

其中所述的系统通过将所述的多肽与所述的木质素衍生的化合物在所述的溶剂中相接触来起到切割所述的β-芳基醚键的作用。

20.权利要求19所述的系统，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

21.一种包含核苷酸序列的重组多核苷酸，其中所述的核苷酸序列编码了多肽，该多肽具有与SEQ ID NO：101至少95％的一致性的氨基酸序列，并且该氨基酸序列保留的SEQ ID NO：101的残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195。

22.一种包含核苷酸序列的重组多核苷酸，其中所述的核苷酸序列编码了多肽，该多肽包含SEQ ID NO：101；或者除了SEQ ID NO：101的保守残基19-22，24，25，27-30，33-36，39-45，47，48，50-54；100，101，104，111，112，115，116，166，107，184，187，188，191，192和195以外的保守性取代。

23.一种包含权利要求21所述的多核苷酸的载体。

24.一种包含权利要求22所述的多核苷酸的载体。

25.一种包含权利要求21所述的多核苷酸的质粒。

26.一种包含权利要求22所述的多核苷酸的质粒。

27.一种由权利要求23所述的载体所转化的宿主细胞。

28.一种由权利要求24所述的载体所转化的宿主细胞。

29.一种切割β-芳基醚键的方法，其包括：

在适于生产所述的多肽的条件下培养权利要求27所述的宿主细胞；

由所述的宿主细胞培养物回收所述的多肽；以及

将所述的多肽与木质素衍生的化合物相接触，其中所述的木质素衍生的化合物具有(i)β-芳基醚键；并且(ii)分子量范围为大约180道尔顿至大约3000道尔顿；

30.权利要求29所述的方法，其中所述的宿主细胞为大肠杆菌。

31.权利要求29所述的方法，其中所述的宿主细胞为棕色固氮菌。

32.权利要求29所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

33.权利要求29所述的方法，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

34.权利要求29所述的方法，其中所述的溶剂环境包含水。

35.权利要求29所述的方法，其中所述的溶剂环境包含极性有机溶剂。

36.一种切割β-芳基醚键的方法，其包括：

在适于生产所述的多肽的条件下培养权利要求28所述的宿主细胞；

由所述的宿主细胞培养物回收所述的多肽；以及

37.权利要求36所述的方法，其中所述的宿主细胞为大肠杆菌。

38.权利要求36所述的方法，其中所述的宿主细胞为棕色固氮菌。

39.权利要求36所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

40.权利要求36所述的方法，其中所述的溶剂环境包含水。

41.权利要求36所述的方法，其中所述的溶剂环境包含极性有机溶剂。

42.一种用于生物加工木质素衍生的化合物的系统，其包括：

权利要求27所述的转化的宿主细胞；

木质素衍生的化合物，其具有β-芳基醚键；并且分子量范围为大约180道尔顿至大约3000道尔顿；以及

所述的木质素衍生的化合物可溶于其中的溶剂；

43.权利要求42所述的系统，其中所述的转化的宿主细胞包括棕色固氮菌。

44.权利要求42所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

45.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求23所述的载体转化的宿主细胞，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

46.权利要求45所述的系统，其中所述的转化子包括大肠杆菌。

47.权利要求45所述的系统，其中所述的转化子包括棕色固氮菌。

48.权利要求45所述的系统，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

49.权利要求45所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

50.权利要求45所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

51.权利要求45所述的系统，其中所述的溶剂环境包含水。

52.权利要求45所述的方法，其中所述的溶剂环境包含极性有机溶剂。

53.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求24所述的载体转化的宿主细胞，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

54.权利要求53所述的系统，其中所述的转化子包括大肠杆菌。

55.权利要求53所述的系统，其中所述的转化子包括棕色固氮菌。

56.权利要求53所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

57.权利要求53所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

58.权利要求53所述的系统，其中所述的溶剂环境包含水。

59.权利要求53所述的方法，其中所述的溶剂环境包含极性有机溶剂。

60.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求23所述的载体转化的棕色固氮菌，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

61.权利要求60所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

62.权利要求60所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

63.权利要求60所述的系统，其中所述的溶剂环境包含水。

64.权利要求60所述的方法，其中所述的溶剂环境包含极性有机溶剂。

65.一种分离的重组多肽，其包含：

氨基酸序列，该氨基酸序列与SEQ ID NO：541具有至少95％的一致性，并且该氨基酸序列保留了残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206。

66.权利要求65所述的分离的重组多肽，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

67.权利要求65所述的分离的重组多肽，其中所述的氨基酸序列起到切割β-芳基醚的作用。

68.一种分离的重组多肽，其包含：

SEQ ID NO：541；或者除了保守残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206以外的保守性取代。

69.一种分离的重组谷胱甘肽S转移酶，其包含：

氨基酸序列，该氨基酸序列与SEQ ID NO：541具有至少95％的一致性，并且该氨基酸序列保留了保守性残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206；

其中所述的氨基酸序列起到切割β-芳基醚的作用。

70.一种分离的重组谷胱甘肽S转移酶，其包含：

与SEQ ID NO：541具有至少95％的一致性的氨基酸序列；其中所述的氨基酸序列起到切割β-芳基醚的作用。

71.一种分离的重组多肽，其包含：

长度范围为大约256至大约260个氨基酸；

由以下部分构成的第一氨基酸区域：得自SEQ ID NO：541的残基47-57，或者除了SEQ ID NO：101的保守残基47，48，49，50，52，54，55，56，57以外的保守性取代；以及

第二氨基酸区域，其由得自SEQ ID NO：541的63-76构成；以及

由以下部分构成的第三氨基酸区域：得自SEQ ID NO：541的残基99-230，或者除了保守残基100，101，104，107，111，112，115，116，176，194，197，198，201，202和206以外的保守性取代。

72.一种分离的重组谷胱甘肽S转移酶，其包含：

长度范围为大约279至大约281个氨基酸；

第一氨基酸区域，其与得自SEQ ID NO：541的47-57具有至少95％的一致性，或者除了保守残基47，48，49，50，52，54，55，56，57以外的保守性取代；

第二氨基酸区域，其由得自SEQ ID NO：541的63-76构成；以及

第三氨基酸区域，其与得自SEQ ID NO：541的残基99-230具有至少95％的一致性，或者除了保守残基100，101，104，107，111，112，115，116，176，194，197，198，201，202和206以外的保守性取代；

其中所述的重组谷胱甘肽S转移酶起到切割β-芳基醚的作用。

73.权利要求72所述的分离的重组多肽，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

74.一种切割β-芳基醚键的方法，其包括：

将氨基酸序列与木质素衍生的化合物相接触，其中所述的氨基酸序列与SEQ ID NO：541具有至少95％的一致性，并且该氨基酸序列保留了残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206；其中所述的木质素衍生的化合物具有(i)β-芳基醚键；并且(ii)分子量范围为大约180道尔顿至大约3000道尔顿；

75.权利要求74所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

76.权利要求74所述的方法，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

77.权利要求74所述的方法，其中所述的溶剂环境包含水。

78.权利要求74所述的方法，其中所述的溶剂环境包含极性有机溶剂。

79.一种切割β-芳基醚键的方法，其包括：

将多肽与木质素衍生的化合物相接触，其中所述的多肽包含SEQ IDNO：541；或者除了保守残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206以外的保守性取代；其中所述的木质素衍生的化合物具有(i)β-芳基醚键；并且(ii)分子量范围为大约180道尔顿至大约3000道尔顿；

80.权利要求79所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

81.权利要求79所述的方法，其中所述的溶剂环境包含水。

82.权利要求79所述的方法，其中所述的溶剂环境包含极性有机溶剂。

83.一种用于生物加工木质素衍生的化合物的系统，其包括：

多肽，其与SEQ ID NO：541具有至少95％的一致性，所述的氨基酸序列保留了残基47-57，63-76，100，101，104，107，111，112，115，116，176，194，197，198，201，202和206；

所述的木质素衍生的化合物可溶于其中的溶剂；

84.权利要求83所述的系统，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

85.一种包含核苷酸序列的重组多核苷酸，其中所述的核苷酸序列编码了权利要求65所述的多肽。

86.一种包含核苷酸序列的重组多核苷酸，其中所述的核苷酸序列编码了权利要求68所述的多肽。

87.一种包含权利要求65所述的多核苷酸的载体。

88.一种包含权利要求68所述的多核苷酸的载体。

89.一种包含权利要求65所述的多核苷酸的质粒。

90.一种包含权利要求68所述的多核苷酸的质粒。

91.一种由权利要求87所述的载体转化的宿主细胞。

92.一种由权利要求88所述的载体转化的宿主细胞。

93.一种切割β-芳基醚键的方法，其包括：

在适于生产所述的多肽的条件下培养权利要求91所述的宿主细胞；

由所述的宿主细胞培养物回收所述的多肽；以及

94.权利要求93所述的方法，其中所述的宿主细胞为大肠杆菌。

95.权利要求93所述的方法，其中所述的宿主细胞为棕色固氮菌。

96.权利要求93所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

97.权利要求93所述的方法，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

98.权利要求93所述的方法，其中所述的溶剂环境包含水。

99.权利要求93所述的方法，其中所述的溶剂环境包含极性有机溶剂。

100.一种切割β-芳基醚键的方法，其包括：

在适于生产所述的多肽的条件下培养权利要求92所述的宿主细胞；

由所述的宿主细胞培养物回收所述的多肽；以及

101.权利要求100所述的方法，其中所述的宿主细胞为大肠杆菌。

102.权利要求100所述的方法，其中所述的宿主细胞为棕色固氮菌。

103.权利要求100所述的方法，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

104.权利要求100所述的方法，其中所述的溶剂环境包含水。

105.权利要求100所述的方法，其中所述的溶剂环境包含极性有机溶剂。

106.一种用于生物加工木质素衍生的化合物的系统，其包括：

权利要求91所述的转化的宿主细胞；

所述的木质素衍生的化合物可溶于其中的溶剂；

107.权利要求106所述的系统，其中所述的转化的宿主细胞包括棕色固氮菌。

108.权利要求106所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达权利要求65所述的多肽。

109.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求87所述的载体转化的宿主细胞，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

110.权利要求109所述的系统，其中所述的转化子包括大肠杆菌。

111.权利要求109所述的系统，其中所述的转化子包括棕色固氮菌。

112.权利要求109所述的系统，其中除了所述的保守残基以外的氨基酸取代为保守性取代。

113.权利要求109所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

114.权利要求109所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

115.权利要求109所述的系统，其中所述的溶剂环境包含水。

116.权利要求109所述的系统，其中所述的溶剂环境包含极性有机溶剂。

117.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求88所述的载体转化的宿主细胞，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

118.权利要求117所述的系统，其中所述的转化子包括大肠杆菌。

119.权利要求117所述的系统，其中所述的转化子包括棕色固氮菌。

120.权利要求117所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

121.权利要求117所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

122.权利要求117所述的系统，其中所述的溶剂环境包含水。

123.权利要求117所述的系统，其中所述的溶剂环境包含极性有机溶剂。

124.一种用于生物加工木质素衍生的化合物的系统，其包括：

转化子，其包含使用权利要求87所述的载体转化的棕色固氮菌宿主细胞，该转化子表达所述的多肽；

所述的木质素衍生的化合物可溶于其中的溶剂；

125.权利要求124所述的系统，其中所述的转化的宿主细胞在其中所述的木质素衍生的化合物是可溶的溶剂中表达所述的多肽。

126.权利要求124所述的系统，其中所述的木质素衍生的化合物的分子量为大约180道尔顿至大约1000道尔顿。

127.权利要求124所述的系统，其中所述的溶剂环境包含水。

128.权利要求124所述的系统，其中所述的溶剂环境包含极性有机溶剂。