CN112029804A

CN112029804A - 使用重组酵母菌株从葡萄糖、半乳糖和阿拉伯糖发酵生产乙醇

Info

Publication number: CN112029804A
Application number: CN202010830212.8A
Authority: CN
Inventors: 保罗·克莱斯森; 吉斯博蒂娜·皮特奈拉·苏勒库姆·范; 比安卡·伊丽莎白·玛丽亚·吉勒森; 尼古勒特·贾斯明·布罗尔斯; 贝蒂·韦德曼恩; 威廉默斯·西奥多瑞斯·安东尼厄斯·玛丽亚·拉特·德
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2009-07-10
Filing date: 2010-07-06
Publication date: 2020-12-04
Also published as: CA3079026A1; US20120115186A1; AU2010270301A1; EA201200114A1; CN102482688A; AU2010270301C1; HUE056500T2; CA3079026C; BR112012000599A2; AU2010270301B2; DK2451962T3; US10982235B2; PL2451962T3; US20170121738A1; UA108853C2; MX336597B; US10260075B2; US20210198701A1; US20190177748A1; MY162589A

Abstract

本申请涉及使用重组酵母菌株从葡萄糖、半乳糖和阿拉伯糖发酵生产乙醇。本发明涉及用于从糖组合物生产一种或多种发酵产物的方法，所述方法包括以下步骤：a)在存在属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces或Yarrowia属的酵母时，发酵糖组合物；和b)回收发酵产物，其中所述酵母包含基因araA、araB和araD，并且所述糖组合物包含葡萄糖、半乳糖和阿拉伯糖。

Description

使用重组酵母菌株从葡萄糖、半乳糖和阿拉伯糖发酵生产乙醇

本申请是申请号为201080031239.5的中国专利申请的分案申请，原申请是申请日为2010年7月6日的国际申请PCT/EP2010/059618的中国国家阶段申请。

技术领域

本发明涉及混合糖发酵，尤其是包含葡萄糖、半乳糖和阿拉伯糖的糖组合物的发酵。糖组合物可源自木质纤维素材料。

背景技术

作为化石燃料的替代品生产的大部分乙醇目前来自于对玉米淀粉和基于甘蔗的蔗糖的发酵。为了达成生产可更新燃料的宏伟目标，已开发了新的技术，用于将非食物生物质转化成发酵产物，例如乙醇。Saccharomyces cerevisiae是乙醇工业中所选择的生物，但是其不利用生物质原料的半纤维素组分中含有的五碳糖。半纤维素可占生物质的20-30％，其中木糖和阿拉伯糖是最丰量的C5糖。木糖异构酶(XI)的异源表达是使得酵母细胞能够代谢和发酵木糖的一种选择。类似地，细菌基因araA、araB和araD在S.cerevisiae菌株中的表达导致阿拉伯糖的利用和高效的醇发酵。半乳糖是C6糖，其也是通常存在于木质纤维素中的糖，就经济上的原因而言通常其含量(总糖的～4％)不会被忽略。

J.van den Brink et al,Microbiology(2009)155,1340-1350公开了葡萄糖是Saccharomyces cerevisiae偏好的碳源，并且从葡萄糖受限的发酵条件转换为缺氧条件下半乳糖过量的条件后，半乳糖不被消耗。

迄今为止尚无公开在使用葡萄糖或一种或多种C5糖的相同方法中将半乳糖转化成发酵产物的方法。因此，本发明的一个目的是提供在使用葡萄糖和一种或多种C5糖的相同方法中将半乳糖转化成发酵产物的方法。

发明内容

本发明提供了从糖组合物生产一种或多种发酵产物的方法，所述方法包括以下步骤：

a)在存在属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces或Yarrowia属的酵母时，发酵糖组合物；和

b)回收发酵产物，

其中所述酵母包含基因araA、araB和araD，并且所述糖组合物包含葡萄糖、半乳糖和阿拉伯糖。

有利地，所述糖，葡萄糖、半乳糖和阿拉伯糖被转化成发酵产物。

优选地，混合的糖细胞是Saccharomyces属，更优选地是Saccharomycescerevisiae。

本发明还涉及基因araA、araB和araD赋予葡萄糖发酵菌株在存在阿拉伯糖时以厌氧形式发酵半乳糖的能力的用途，所述用途通过这些基因的表达来实现。

附图说明

图1展示了质粒pPWT006的物理图谱。

图2展示了质粒pPWT018的物理图谱。

图3展示了Southern印迹放射自显影图。用EcoRI和HindIII二者消化野生型菌株CEN.PK113-7D(泳道1)和BIE104A2(泳道2)的染色体DNA。将印迹与特异性的SIT2-探针杂交。

图4展示了野生型SIT2-基因座(图a)的物理图谱，和通过质粒pPWT018的整合引入ara-基因后，之后进行分子内重组，导致载体和可选择标记物序列的丢失(图b)。指示出了探针的杂交。

图5展示了质粒pPWT080的物理图谱，其序列在SEQ ID no.4.中给出。

图6展示了野生型GRE3-基因座的物理图谱(图a)和GRE3-基因座中PWT080的单拷贝整合(图b，展示引物结合处，图c，展示RKI1-探针结合处)。

图7展示了GRE3-基因座的物理图谱，其中GRE3-基因的编码区被PPP-基因TAL1、TKL1、RKI1和RPE1的整合代替。图a展示了引物SEQ ID 5和6结合处，图b展示了RKI1-探针结合处。

图8展示了不同培养基上BIE104P1A2在需氧条件下的生长曲线。在YNB 2％半乳糖上预培养菌株BIE104A2P1。生长曲线在2％半乳糖和1％阿拉伯糖上开始，之后是在图中由数字(1)标注的事件：转移至含2％阿拉伯糖作为唯一碳源的YNB上。达到高于1的OD 600后，将培养物转移至具有0.2的起始OD 600的新鲜培养基上。在纯阿拉伯糖培养基上转移三次后，将得到的菌株命名为BIE104P1A2c。

图9展示了在2％阿拉伯糖作为唯一碳源的YNB上，BIE104P1A2c在厌氧条件下的生长曲线。达到高于1的OD 600后，将培养物转移至具有0.2的起始OD 600的新鲜培养基上。若干次转移后，将得到的菌株命名为BIE104P1A2d(＝BIE201)。

图10展示了在合成的玉米纤维模型培养基上，BIE104的糖转化和产物形成。持续测量CO2生产。通过跟踪培养物的光密度来监测生长。预培养物在2％葡萄糖上培养。

图11展示了在合成的玉米纤维模型培养基上，BIE104P1A2c的糖转化和产物形成。持续测量CO2生产。通过跟踪培养物的光密度来监测生长。预培养物在2％葡萄糖上培养。

图12展示了在合成的玉米纤维模型培养基上，BIE201的糖转化和产物形成。持续测量CO2生产。通过跟踪培养物的光密度来监测生长。预培养物在2％葡萄糖上培养。

图13展示了在合成的玉米纤维模型培养基上，BIE104A2的糖转化和产物形成。持续测量CO2生产。通过跟踪培养物的光密度来监测生长。预培养物在2％葡萄糖上培养。

图14展示了在合成的玉米纤维模型培养基上，BIE105A2的糖转化和产物形成。持续测量CO2生产。通过跟踪培养物的光密度来监测生长。预培养物在2％葡萄糖上培养。

图15展示了质粒pPWT007的物理图谱。

图16展示了质粒pPWT042的物理图谱。

图17展示了野生型SIT4-基因座的物理图谱(图a)，和SIT4-基因座中PWT080的单拷贝整合(图b，展示引物结合处)。

图18展示了不同培养基上菌株BIE104A2P1Y9的生长曲线的图示。图a：在葡萄糖上培养的菌株BIE104A2P1Y9，之后是在图中通过数字(1)指出的事件：转移至1％阿拉伯糖+1％木糖，和通过数字(2)指出的事件：转移至2％木糖+0.2％阿拉伯糖。图b：在半乳糖上培养的菌株BIE104A2P1Y9，之后是(1)转移至1％阿拉伯糖+1％木糖，和(2)转移至2％木糖+0.2％阿拉伯糖。

图19展示了菌株BIE104A2P1Y9在补充有2％木糖的Verduyn培养基上的生长。测试了两个独立的菌落。在达到2的OD 600后，将菌株转移至新鲜培养基，并立即开始在木糖上再次培养。

图20展示了质粒pGBS416ARAABD的物理图谱。

序列表说明

SEQ ID NO:1展示了来自Bacteroides uniformis ATCC 8492的野生型木糖异构酶序列。Genbank登记号AAYH02000036。

SEQ ID NO:2展示了源自SEQ ID NO:1的经密码子优化的序列。

SEQ ID NO:3展示了来自Bacteroides uniformis ATCC 8492的木糖异构酶的氨基酸序列。

SEQ ID NO:4展示了质粒pPWT080的序列。

SEQ ID NO:5展示了正向引物的序列。

SEQ ID NO:6展示了反向引物的序列。

SEQ ID NO:7展示了用于诊断性PCR的正向多功能引物的序列。

SEQ ID NO:8展示了用于诊断性PCR的反向多功能引物的序列。

SEQ ID NO:9展示了正向引物RKI1-探针的序列。

SEQ ID NO:10展示了反向引物RKI1-探针的序列。

SEQ ID NO:11展示了正向引物kanMX-盒的序列。

SEQ ID NO:12展示了反向引物kanMX-盒的序列。

SEQ ID NO:13展示了正向引物的序列。

SEQ ID NO:14展示了反向引物的序列。

SEQ ID NO:15展示了用于诊断性PCR的正向多功能引物的序列。

SEQ ID NO:16展示了用于诊断性PCR的反向多功能引物的序列。

SEQ ID NO:17展示了质粒pPWT018的序列。

SEQ ID NO:18展示了正向引物整合pPWT018的序列。

SEQ ID NO:19展示了反向引物整合pPWT018的序列。

SEQ ID NO:20展示了正向引物SIT2-探针的序列。

SEQ ID NO:21展示了反向引物SIT2-探针的序列。

SEQ ID NO:22展示了扩增araABD表达盒的正向引物的序列。

SEQ ID NO:23展示了扩增araABD表达盒的反向引物的序列。

具体实施方式

发明详述

在本说明书和附带的权利要求书中，词语“包含”和“包括”及其变体如“包含”("comprises","comprising")、“包括”("includes"and"including")应被解释为包含在内。也就是说，在上下文允许时，这些词语旨在传达可能包括未明确指出的其它元素或整数。

冠词“一个”(“a”和“an”)在本文中被用于表示一个或多于一个(即一个或至少一个)所述冠词的语法客体。例如，“一个元件”可表示一个元件或多于一个元件。

本文所述的本发明的多个实施方案可以交叉组合。

糖组合物

根据本发明的糖组合物包含葡萄糖、阿拉伯糖和半乳糖。在本发明的方法中，糖葡萄糖、半乳糖和阿拉伯糖有利地被转化成发酵产物。

在本发明中可以使用满足这些标准的任何糖组合物。在一个优选的实施方案中，糖组合物是一种或多种木质纤维素材料的水解产物。此处木质纤维素包括半纤维素和生物质的半纤维素部分。木质纤维素还包括生物质的木质纤维素级分。合适的木质纤维素材料可存在于以下列表中：果园底料，树丛，磨坊废弃物，城市木材废弃物，市政废弃物，伐木废弃物，森林疏伐废弃物，短期轮种木本作物，工业废弃物，小麦秸，燕麦秸，水稻秸，大麦秸，黑麦秸，亚麻秸，大豆壳，稻壳，水稻秸，玉米谷蛋白饲料，燕麦壳，甘蔗，玉米秸秆，玉米杆，玉米芯，玉米壳，柳枝稷，芒草，高粱，芸苔茎，大豆茎，牧场草，磨擦禾，狐尾草；甜菜浆，柑橘果实浆，种子壳，纤维素动物粪便，草坪修剪废弃物，棉花，海藻，树木，软木材，硬木材，白杨，松树，灌木丛，草，小麦，小麦秸，甘蔗渣，玉米，玉米壳，玉米棒，玉米粒，来自玉米粒的纤维，来自谷物湿磨或干磨的产物和副产物，市政固体废弃物，废纸，庭院废弃物，草本材料，农业残余物，林业残余物，市政固体废弃物，废纸，纸浆，造纸厂残余物，树枝，灌木，甘蔗，玉米，玉米壳，能源作物，森林，水果，鲜花，谷物，草，草本作物，树叶，树皮，针叶，原木，根，树苗，灌木丛，柳枝稷，树木，蔬菜，水果皮，藤蔓，甜菜浆，小麦麸皮，燕麦壳，硬木材或软木材，由农业加工产生的有机废弃物材料，林业木材废弃物，或其中任意两种或更多的组合。

表1中给出了源自木质纤维素的一些合适的糖组合物及其水解产物的糖组合物的概况。所列出的木质纤维素包括：玉米芯、玉米纤维、稻壳、瓜皮(melon shells)、甜菜浆、小麦秸、甘蔗渣、木材、草和橄榄压制物(olive pressings)。

表1：来自木质纤维素材料的糖组合物的概况。Gal＝半乳糖，Xyl＝木糖，Ara＝阿拉伯糖，Man＝甘露糖，Glu＝谷氨酸盐/酯，Rham＝鼠李糖。给出了半乳糖百分比(％Gal)和文献来源。

表1表明在这些木质纤维素中，可观量的糖(平均3.8％)是半乳糖。因此半乳糖到发酵产物的转化具有巨大的经济重要性。

混合的糖细胞

混合的糖细胞如下文所定义，包含基因araA、araB和araD。其能够发酵葡萄糖、阿拉伯糖和半乳糖。在本发明的一个实施方案中，混合的糖细胞能够发酵一种或多种其他糖，优选地C5和/或C6糖。在本发明的一个实施方案中，混合的糖细胞包含以下之一种或多种：xylA-基因和/或XKS1-基因，以允许混合的糖细胞发酵木糖；醛糖还原酶(GRE3)基因的缺失；PPP-基因TAL1、TKL1、RPE1和RKI1的过表达，以允许提高细胞中通过戊糖磷酸途径的通量。

在本发明的一个实施方案中，混合的糖细胞能够发酵一种或多种其他糖，优选地C5和/或C6糖。在本发明的一个实施方案中，混合的糖细胞包含以下之一种或多种：xylA-基因，XYL1基因和XYL2基因和/或XKS1-基因，以允许混合的糖细胞发酵木糖；醛糖还原酶(GRE3)基因的缺失；PPP-基因TAL1、TKL1、RPE1和RKI1的过表达，以允许提高细胞中通过戊糖磷酸途径的通量。

在一个实施方案中，混合的糖细胞是工业细胞，更优选地是工业酵母。工业细胞和工业酵母细胞可如下定义。工业方法中(酵母)细胞的生存环境与实验室中显著不同。工业酵母细胞必须能够在所述方法期间可能变化的多种环境条件下表现良好。此类改变包括养分来源、pH、乙醇浓度、温度、氧浓度等等的改变，它们一起对Saccharomyces cerevisiae的细胞生长和乙醇生产具有潜在的影响。在不利的条件下，环境耐受菌株会允许强健的生长和生产。对使用工业酵母菌株的应用(例如烘焙工业、酿造工业、造酒和乙醇工业)中可能发生的环境条件中的这些改变而言，工业酵母菌株通常更加强健。在一个实施方案中，以工业宿主细胞为基础构建工业混合的糖细胞，其中所述构建如下文所述进行。工业酵母(S.cerevisiae)的例子是Ethanol

(Fermentis)、

(DSM)和

(Lallemand)。

在一个实施方案中，混合的糖细胞是抑制剂耐受的。抑制剂耐受是对抑制性化合物的抗性。木质纤维素中抑制性化合物的存在和水平可随着原料、预处理方法、水解过程的变化而广泛变化。抑制剂范畴的例子是羧酸、呋喃和/或酚类化合物。羧酸的例子是乳酸、乙酸或甲酸。呋喃的例子是糠醛和羟基-甲基糠醛。酚类化合物的例子是香草醛(vannilin)、丁香酸、阿魏酸和香豆酸。抑制剂的典型用量对于羧酸而言是每升若干克到每升20克或更多，取决于原料、预处理和水解条件。对呋喃而言是每升数百毫克到每升数克，取决于原料、预处理和水解条件。对酚类而言是每升数十毫克到每升一克，取决于原料、预处理和水解条件。

根据本发明的混合的糖菌株是抑制剂耐受的，即它们能经得起在使用常见预处理和水解条件时典型水平的常见抑制剂，使得混合的糖菌株能够具有广泛的应用，即其具有针对不同原料、不同预处理方法和不同水解条件的高度可应用性。

在一个实施方案中，以抑制剂耐性宿主细胞为基础构建工业混合的糖细胞，其中如下文所述进行所述构建。可以针对在含有抑制剂的材料上的生长，通过筛选菌株来选择抑制剂耐性的宿主细胞，如Kadar et al,Appl.Biochem.Biotechnol.(2007),Vol.136-140,847-858中所述，其中选择了抑制剂耐受性S.cerevisiae菌株ATCC 26602。

在一个实施方案中，混合的糖细胞是无标记物的。在本文中使用时，术语“标记物”是指编码性状或表型的基因，所述性状或表型允许选择或筛选含有所述标记物的宿主细胞。无标记物表示混合的糖细胞中基本不存在标记物。在混合的糖细胞的构建中使用、并在之后去除抗生素标记物时,无标记物是尤其有利的。可以使用任何合适的现有技术(例如分子内重组)进行标记物的去除。标记物去除的合适方法在实施例中阐述。

混合的糖细胞可以能够将植物生物质、纤维素、半纤维素酶、果胶、鼠李糖、半乳糖、果糖、麦芽糖、麦芽糖糊精、核糖、核酮糖或淀粉、淀粉衍生物、蔗糖、乳糖和甘油转化成例如可发酵的糖。因此，混合的糖细胞可表达一种或多种酶，例如将纤维素转化成葡萄糖单体或将半纤维素转化成木糖和阿拉伯糖单体的纤维素酶(内切纤维素酶或外切纤维素酶)、半纤维素酶(内切木聚糖酶或外切木聚糖酶或阿拉伯糖酶)，能够将果胶转化成葡糖醛酸和半乳糖醛酸的果胶酶，或将淀粉转化成葡萄糖单体的淀粉酶。

混合的糖细胞还可包含将丙酮酸转化成想要的发酵产物例如乙醇、丁醇、乳酸、3-羟基-丙酸、丙烯酸、乙酸、琥珀酸、柠檬酸、富马酸、苹果酸、衣康酸、氨基酸、1,3-丙二醇、乙烯、甘油、β-内酰胺抗生素或头孢菌素所需的这些酶活性。

在一个实施方案中，混合的糖细胞是天然能够进行醇发酵、优选地能够进行厌氧醇发酵的细胞。混合的糖细胞优选地具有对乙醇的高度耐受，对低pH(即能够在低于约5、约4、约3、或约2.5的pH下生长)和对有机酸的高度耐受，和/或对提高的温度的高度耐受。

混合的糖细胞的任何上述特征或活性可天然存在于细胞中，或可通过遗传修饰被引入或修饰。

混合的糖菌株的构建

可以通过向宿主细胞中引入：

a)处于强启动子控制下的由PPP-基因TAL1、TKL1、RPE1和RKI1构成的簇，

b)由二者均处于组成型启动子控制下的xylA-基因和XKS1-基因构成的簇，

c)由基因araA、araB和araD构成的簇和/或XKS1-基因和/或xylA-基因的簇；

和

d)醛糖还原酶基因的缺失，

并进行适应性进化(adaptive evolution)，将基因引入混合的糖细胞中。

重组表达

本发明的细胞是重组细胞。也就是说，本发明的细胞包含下述核苷酸序列，或用下述核苷酸序列转化，或用下述核苷酸序列遗传修饰，所述核苷酸序列并不天然地存在于所考虑的细胞中。

用于在细胞中重组表达酶以及用于对本发明的细胞进行其他遗传修饰的技术是本领域技术人员公知的。典型地，此类技术涉及用包含相关序列的核酸构建体转化细胞。此类方法可例如从标准手册中获知，例如Sambrook and Russel(2001)"Molecular Cloning:A Laboratory Manual(3rd edition),Cold Spring Harbor Laboratory,Cold SpringHarbor Laboratory Press或F.Ausubel et al.,eds.,"Current protocols inmolecular biology",Green Publishing and Wiley Interscience,New York(1987)。用于对真菌宿主细胞进行转化和遗传修饰的方法可从例如EP-A-0635 574、WO 98/46772、WO99/60102、WO 00/37671、WO90/14423、EP-A-0481008、EP-A-0635574和US 6,265,186中获知。

典型地，核酸构建体可以是质粒，例如低拷贝质粒或高拷贝质粒。根据本发明的细胞可例如通过多个拷贝的核苷酸构建体，或通过使用具有多个拷贝酶序列的构建体，而包含单个或多个拷贝的编码酶的核苷酸序列。

核酸构建体可保持为游离并因此包含用于自主复制的序列，例如常染色体复制序列。合适的游离核酸构建体可例如基于酵母2μ或pKD1质粒(Gleer et al.,1991,Biotechnology 9:968-975)或AMA质粒(Fierro et al.,1995,Curr Genet.29:482-489)。或者，每种核酸构建体可作为单个拷贝或多个拷贝被整合进细胞的基因组中。进入细胞基因组的整合可通过非同源重组随机地发生，但是优选地，核酸构建体可如本领域所公知的通过同源重组被整合进细胞的基因组中(见例如WO90/14423、EP-A-0481008、EP-A-0635574和US 6,265,186)。

大部分游离或2μ质粒是相对不稳定的，在每一代后在约10^-2或更多细胞中丢失。即使在选择性生长的条件下，只有60％到95％的细胞保留游离质粒。对cir⁺宿主而言，大部分游离质粒的拷贝数范围在每个细胞10-40个之间。然而，质粒在细胞之间并非均等分布的，种群中每个细胞中的拷贝数存在高度方差。用整合型质粒转化的菌株是极度稳定的，即使在不存在选择性压力时也是如此。然而，质粒丢失可通过串联重复DNA之间的同源重组而以约10^-3到10^-4的频率发生，导致载体序列的成环丢失(looping out)。因此，优选地，在稳定整合情况下的载体设计是，通过选择标记物基因的丢失(也通过分子内、同源重组发生)，被整合的构建体的成环丢失不再可能。优选地，基因以这种方式被稳定整合。稳定整合在本文中被定义为整合进基因组中，其中被整合的构建体的成环丢失不再可能。优选地不存在选择标记物。典型地，酶编码序列应与一个或多个能够提供或帮助酶序列的转录和/或翻译的核酸序列可操作地连接。

术语“可操作地连接”是指下述并置(juxtaposition)，其中所述组分处于允许它们以期望的方式发挥作用的关系中。例如，启动子或增强子与编码序列可操作地连接，所述启动子或增强子影响所述编码序列的转录。

在本文中使用时，“启动子”是指下述核酸片段，其发挥控制一个或多个基因转录的功能，相对于基因转录起点的转录方向而言位于上游，并且在结构上通过DNA-依赖性RNA聚合酶、转录起点和本领域技术人员已知的任何其它DNA序列的存在来识别。“组成型”启动子是在大部分环境和发育条件下有活性的启动子。“诱导型”启动子是在环境或发育调节下有活性的启动子。

能够用于实现编码本发明酶的核苷酸序列表达的启动子对编码要表达的酶的核苷酸序列而言可以不是天然的，即对与之可操作地连接的核苷酸序列(编码序列)而言异源的启动子。然而，启动子对宿主细胞而言可以是同源的，即内源的。

启动子是可广泛获得的，并是技术人员已知的。这类启动子的合适例子包括例如来自糖酵解基因的启动子，如来自酵母或丝状真菌的果糖磷酸激酶(PFK)、丙糖磷酸异构酶(TPI)、甘油醛-3-磷酸脱氢酶(GPD、TDH3或GAPDH)、丙酮酸激酶(PYK)、磷酸甘油酸激酶(PGK)启动子；关于这类启动子的更多细节可在(WO 93/03159)中找到。其它有用的启动子是编码核糖体蛋白的基因启动子，乳糖酶基因启动子(LAC4)、醇脱氢酶启动子(ADHl、ADH4等等)和烯醇化酶启动子(ENO)。其它(组成型以及诱导型)启动子和增强子或上游活化序列应当是本领域技术人员已知的。本发明宿主细胞中使用的启动子可以在需要时被修饰，来影响它们的控制特征。本文上下文中合适的启动子包括组成型和诱导型两种天然启动子以及经改造的启动子，这是本领域技术人员公知的。真核宿主细胞中合适的启动子可以是GAL7、GAL10或GAL1、CYC1、HIS3、ADH1、PGL、PH05、GAPDH、ADC1、TRP1、URA3、LEU2、ENO1 TPI1和AOX1。其它合适的启动子包括PDC1、GPD1、PGK1、TEF1和TDH3。

在本发明的细胞中，编码酶的核苷酸序列的3’-端优选地与转录终止子序列可操作地连接。优选地，终止子序列在选择的宿主细胞、如例如选择的酵母物种中是可操作的。在任何情况下终止子的选择不是关键性的；其可以例如来自于任何酵母基因，尽管如果来自于非酵母、真核基因时终止子有时可能发挥功能。通常，编码酶的核苷酸序列包含终止子。优选地，这类终止子与预防本发明宿主细胞中无义介导的mRNA衰变的突变组合(参阅例如：Shirley et al.,2002,Genetics 161:1465-1482)。

转录终止序列还优选地包含多聚腺苷酸化信号。

任选地，适用于本发明的核酸构建体中可存在可选择标记物。在本文中使用时，术语“标记物”是指编码性状或表型的基因，所述性状或表型允许选择或筛选含有所述标记物的宿主细胞。标记物基因可以是抗生素抗性基因，从而可使用适当的抗生素从未经转化的细胞中选择经转化的细胞。合适的抗生素抗性标记物包括例如二氢叶酸还原酶、潮霉素B磷酸转移酶、3'-O-磷酸转移酶II(卡那霉素、新霉素和G418抗性)。对于多倍体宿主细胞的转化而言抗生素抗性标记物可以是最为便利的。也可以使用非抗生素抗性标记物，如营养缺陷型标记物(URA3、TRPl、LEU2)或S.pombe TPI基因(由Russell P R,1985,Gene 40:125-130描述)。在一个优选的实施方案中，用核酸构建体转化的宿主细胞是无标记物基因的。用于构建重组的无标记物基因的微生物宿主细胞的方法公开于EP-A-O 635 574中，并且基于双向标记物如A.nidulans amdS(乙酰胺酶)基因或酵母URA3和LYS2基因的使用。或者，可以将可筛选的标记物如绿色荧光蛋白、lacL、萤光素酶、氯霉素乙酰转移酶、β-葡萄糖苷酸酶并入本发明的核酸构建体中，允许筛选经转化的细胞。

可存在于适用于本发明的核酸构建体中任选的其它元件包括但不限于，一条或多条前导序列、增强子、整合因子、和/或报告基因、内含子序列、着丝点抗体(centromer)、调聚物和/或基质附着(MAR)序列。本发明的核酸构建体可还包含用于自主复制的序列，如ARS序列。

因此，重组方法可使用已知的重组技术进行。本领域技术人员已知用于在本发明的细胞中表达和过表达酶的多种手段。具体地，可以通过提高宿主细胞中编码酶的基因的拷贝数(例如通过在宿主细胞的基因组中整合额外的基因拷贝，通过表达来自游离多拷贝表达载体的基因，或通过引入包含多拷贝基因的游离表达载体)来过表达酶。

或者，可以通过使用对编码要过表达的酶的序列而言不是天然的启动子(即对与之可操作地连接的编码序列而言为异源的启动子)来实现本发明宿主细胞中酶的过表达。尽管启动子优选地对与之可操作地连接的编码序列而言是异源的，但是还优选启动子是同源的，即对宿主细胞而言是内源的。优选地，与对编码序列而言天然的启动子相比，异源启动子能够生产更高稳态水平的包含所述编码序列的转录本(或者每单位时间能够生产更多转录本分子，即mRNA分子)。在本文上下文中，合适的启动子包括组成型和诱导型启动子二者，以及经改造的启动子。

在一个实施方案中，混合的糖细胞是无标记物的，这表示基因组或染色体外不存在营养缺陷或显性标记物，尤其是抗生素抗性标记物。

用于上述酶过表达的编码序列可优选地对本发明的宿主细胞而言是同源的。然而，可以使用对本发明宿主细胞而言异源的编码序列。

涉及经遗传修饰的细胞中酶的生产时，酶的过表达表示与相同条件下未经修饰的宿主细胞相比，所述酶以更高水平的酶比活性被生产。通常，这表示与相同条件下未经修饰的宿主细胞相比酶活性蛋白质(或在多亚基酶的情况下多种蛋白质)以更大量被生产，或者以更高的稳态水平被生产。类似地，这通常表示与相同条件下未经修饰的宿主细胞相比，编码酶活性蛋白质的mRNA以更大量被生产，或者也以更高的稳态水平被生产。优选地，在本发明的宿主细胞中，与除了引起过表达的遗传修饰之外在遗传上相同的菌株相比时，要过表达的酶被过表达至至少约1.1、约1.2、约1.5、约2、约5、约10或约20的倍数。应当理解这些过表达水平可适用于酶活性的稳态水平，酶蛋白质的稳态水平以及编码酶的转录本的稳态水平。

适应(adaption)

适应是一种进化过程，藉此种群变得更加适合(适应)其一种或多种栖息地(habitat)。该过程在若干到许多代中发生，并且是生物学的基本现象之一。

术语适应也可以表示对生物存活而言特别重要的特征。此类适应在可变种群中通过天然选择由更成功地进行繁殖的、更好地适应的形式生产。

环境条件的改变改变了天然选择的结果，影响所造成的适应的选择性益处(selective benefits)，改善生物在新条件下的适合度(fitness)。在极端环境改变的情况下，有益适应的出现和固定对存活而言可以是至关重要的。大量不同的因素(例如养分可用度、温度、氧可用度等等)能够驱动适应性进化。

适合度(Fitness)

适应性(在给定栖息地集合中生物能够生活和繁殖的程度)和适合度之间存在清楚的联系。适合度是天然选择率的一种估计量和预测器。通过应用天然选择，替代性表型的相对频率可随着时间而变化，如果它们可以遗传的话。

遗传改变

当天然选择作用于种群的遗传变异性时，遗传改变是潜在的机制。通过这种方式，种群遗传适应于其环境。遗传改变可导致可见的结构，或者以适应改变的栖息地的方式调节生物的生理活性。

适应性进化

混合的糖细胞在其制备中被施加以适应性进化。可以针对在想要的糖上、优选地作为唯一碳源的想要的糖上，更优选地在厌氧条件下的生长来选择自发或(例如通过辐射或化学品)诱导的突变体，使本发明的细胞适应糖使用。突变体的选择可以通过包括例如Kuyper et al.(2004,FEMS Yeast Res.4:655-664)所述的培养物连续转移在内的技术来进行，或者通过在恒化器培养中的选择压力下培养来进行。例如，在本发明的一种优选的宿主细胞中，至少一种上述遗传修饰(包括通过突变体选择获得的修饰)赋予宿主细胞在木糖作为碳源、优选地作为唯一碳源时、并且优选地在厌氧条件下生长的能力。优选地，细胞基本上不生产木糖醇，例如生产的木糖醇低于检出界限，或者例如以摩尔为基础少于消耗的碳的约5％、约2％、约1％、约0.5％或约0.3％。

适应性进化还描述于例如Wisselink H.W.et al,Applied and EnvironmentalMicrobiology Aug.2007,p.4881–4891中。

在适应性进化的一个实施方案中，使用由不同培养基(葡萄糖、木糖和阿拉伯糖；木糖和阿拉伯糖)中重复的连续生长循环与重复的分批培养所构成的方案。见Wisselinket al.(2009)Applied and Environmental Microbiology,Feb.2009,p.907–914。

酵母转化和遗传稳定性

遗传工程(即用重组DNA转化酵母细胞)在1978年首次可行[Beggs,1978；Hinnenet al.,1978]。从那时起，建立了酵母中的重组DNA技术。可以获得多种不同的载体构建体。通常，这些被称作穿梭载体的质粒载体含有由复制起点和可选择标记物(通常是β-内酰胺酶基因，ampR)构成的、源自E.coli载体的遗传材料，这使得它们在被转化进酵母细胞中之前能够在E.coli中繁殖。另外，穿梭载体含有用于在酵母中选择的可选择标记物。标记物可以是下述基因，所述基因编码用于合成具体氨基酸或核苷酸的酶，使得带有相应基因组缺失(或突变)的细胞针对营养缺陷或自养而被回补(complemented)。或者，这些载体含有异源显性抗性标记物，它们对重组的酵母细胞(即吸收了DNA并且表达标记物基因的细胞)赋予针对某些抗生素如g418(遗传霉素)、潮霉素B或腐草霉素的抗性。另外，这些载体可含有(组合的)限制性位点序列(多克隆位点或MCS)，这些序列会允许将外源DNA克隆进这些位点内，尽管同时存在替代性的方法。

传统上，可以通过额外的遗传元件的不存在或存在区别四种类型的穿梭载体：

·整合性质粒(YIp)，当宿主基因组中标记物或另一基因的基因座通过限制性消化被打开并使用经线性化的DNA转化酵母细胞时，所述整合性质粒通过同源重组被整合进宿主基因组中标记物或另一基因的基因座处。

·游离质粒(Yep)，其带有在酵母细胞中自主复制所需的2μ质粒DNA序列部分。多拷贝的被转化的质粒在酵母细胞中繁殖，并作为游离保持。

·自主复制质粒(YRp)，其带有允许被转化的质粒被繁殖数百倍的酵母复制起点(ARS，自主复制序列)。

·CEN质粒(YCp)，其除了ARS序列外还带有中心粒序列(源自核染色体之一)，所述中心粒序列通常保证稳定的有丝分裂分离，并且通常将自我复制的质粒的拷贝数减少至仅有一个。

这些质粒通过转化被引入酵母细胞中。酵母细胞的转化可以通过若干不同的技术实现，例如用醋酸锂(Ito et al,1983)和电穿孔方法使细胞通透化。

在重组微生物的商业应用中，质粒不稳定性是最重要的问题。不稳定性是经转化的细胞由于质粒的改变或丢失而失去它们被改造的特性的趋势。这一问题由Zhang et al(Plasmid stability in recombinant Saccharomyces cerevisiae.BiotechnologyAdvances,Vol.14,No.4,pp.401-435,1996)详细讨论。用整合型质粒转化的菌株是极度稳定的，即使在缺失选择性压力时也是如此(Sherman,F.http://dbb.urmc.rochester.edu/labs/sherman_f/yeast/9.html及其中的参考文献)。

异源DNA通常以染色体外质粒(Yep、YCp和YRp)的形式被引入生物中。不幸的是，已经用细菌和酵母发现新的特征可能不被保持，特别是不持续应用选择压力时。这归因于重组细胞长时间生长时杂种质粒的分离不稳定性(segregational instability)。这导致种群异质性和克隆变异性，并最终得到下述细胞种群，其中大部分细胞丢失了通过转化被引入的特性。如果使用具有营养缺陷型标记物的载体，则在丰富培养基中的培养通常导致载体的迅速丢失，因为载体仅在最小培养基中被保持。或者，显性抗生素抗性标记物的使用通常不与生产方法相容。从注册的观点来看(痕量抗生素存在于终产物中的可能性)或处于经济原因(以工业规模使用抗生素的成本)，抗生素的使用可能不是期望的。

载体的丢失在大规模生产的情况下导致多种问题。对酵母而言，存在用于引入DNA的替代性方法，例如使用整合性质粒(YIp)。质粒通过重组被整合进宿主基因组中，导致高稳定性。(Caunt,P.Stability of recombinant plasmids in yeast.Journal ofBiotechnology 9(1988)173–192)。我们发现，使用宿主转座子的整合方法是一种好的选择。

转座子

在本发明的一个实施方案中，细胞可包含多于一个拷贝的想要的基因。例如，两种或更多的木糖异构酶基因或木糖还原酶基因和木糖醇脱氢酶可以被整合进混合的糖细胞基因组中。这可以通过本领域已知的导致基因引入的任何方式进行。在一个优选的实施方案中，这可以通过使用下述载体来进行，所述载体具有与宿主细胞的重复序列同源的部分(转座子)。当宿主细胞是酵母细胞时，合适的重复序列是Ty元件的长末端重复(LTR)，已知为δ序列。

Ty元件落入称作Ty1和Ty2的两个相当相似的亚家族中。这些元件长度约为6000个碱基(kb)，并且于约335个碱基对的序列——长末端重复(LTR)结合(Boeke JD et al,TheSaccharomyces cerevisiae Genome Contains Functional and Nonfunctional Copiesof Transposon Ty1.Molecular and Cellular Biology,Apr.1988,p.1432-1442Vol.8,No.4)。在经完全测序的S.cerevisiae菌株S288c中，最丰富的转座子是Ty1(31个拷贝)和Ty2(13个拷贝)(Gabriel A,Dapprich J,Kunkel M,Gresham D,Pratt SC,et al.(2006)Global mapping of transposon location.PLoS Genet 2(12):e212.doi:10.1371/journal.pgen.0020212)。这些转座子由两个重叠的开放读码框(ORF)构成，每个开放读码框编码若干种蛋白质。编码区侧翼是前述接近相同的LTR。S.cereviaise中的其他(但是更丰富并且更不同的)Ty元件包括Ty3、Ty4和Ty5。对全长Ty元件的每个家族而言，存在一个数量级的更加单独的LTR元件分散于基因组中。它们被认为通过全长元件的LTR–LTR重组产生，内部蛋白质编码区成环丢失。

Ty反转录转座子的反转录机制已被用于在基因组中整合多个拷贝(Boeke etal.,1988；Jacobs et al.,1988)。已知为δ序列的Ty元件的长末端重复(LTR)也是通过同源重组整合的良好靶标，因为它们存在于约150-200个拷贝的与Ty结合的或单独的位点中(Boeke,1989；Kingsman and Kingsman,1988)。(Parekh R.N.(1996).An IntegratingVector for Tunable,High Copy,Stable Integration into the Dispersed Ty DELTASites of Saccharomyces cerevisiae.Biotechnol.Prog.1996,12,16-21)。

宿主细胞

宿主细胞可以是适合生产有用产物的任何宿主细胞。本发明的细胞可以是任何合适的细胞，如原核细胞如细菌，或真核细胞。典型地，细胞会是真核细胞，例如酵母或丝状真菌。

酵母在本文中被定义为真核微生物，并且包括主要以单细胞形式生长的真菌亚门的所有物种(Alexopoulos,C.J.,1962,In:Introductory Mycology,John Wiley&Sons,Inc.,New York)。

酵母可以通过单细胞原植体的出芽生长，或可通过生物的裂变生长。作为本发明细胞的一种优选的酵母可属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces或Yarrowia属。优选地，酵母是能够厌氧发酵或氧受限发酵的酵母，更优选地是能够厌氧醇发酵的酵母。

丝状真菌在本文中被定义为下述真核微生物，其包括真菌亚门的所有丝状形式。这些真菌的特征是由甲壳质、纤维素和其它复合多糖构成的植物菌丝体。

适合用作本发明细胞的丝状真菌在形态学、生理和遗传上区别于酵母。可有利地使用丝状真菌细胞，因为大部分真菌不需要无菌条件来繁殖，并且对噬菌体感染敏感。丝状真菌的营养生长通过菌丝延长进行，并且大部分丝状真菌的碳代谢是专性需氧的。作为本发明宿主细胞的优选的丝状真菌可属于Aspergillus、Trichoderma、Humicola、Acremoniurra、Fusarium或Penicillium属。更优选地，丝状真菌细胞可以是Aspergillusniger、Aspergillus oryzae、Penicillium chrysogenum或Rhizopus oryzae细胞。

在一个实施方案中，宿主细胞可以是酵母。

优选地，宿主是工业宿主，更优选地是工业酵母。工业宿主和工业酵母细胞可以如下定义。工业方法中酵母细胞的生活环境与实验室中显著不同。工业酵母细胞必须能够在所述方法期间可能变化的多种环境条件下表现良好。此类改变包括养分来源、pH、乙醇浓度、温度、氧浓度等等的改变，它们一起对Saccharomyces cerevisiae的细胞生长和乙醇生产具有潜在的影响。在不利的工业条件下，环境耐受菌株会允许强健的生长和生产。对使用工业酵母菌株的应用(例如烘焙工业、酿造工业、造酒和乙醇工业)中可能发生的环境条件中的这些改变而言，工业酵母菌株通常更加强健。工业酵母(S.cerevisiae)的例子是Ethanol

(Fermentis)、

(DSM)和

(Lallemand)。

在一个实施方案中，宿主是抑制剂耐受的。可以通过针对在含抑制剂的材料上的生长筛选菌株，来选择抑制剂耐受的宿主细胞，如Kadar et al,Appl.Biochem.Biotechnol.(2007),Vol.136-140,847-858中所述，其中选择了抑制剂耐受的S.cerevisiae菌株ATCC 26602。

优选地，宿主细胞是工业的和抑制剂耐受的。

AraA、AraB和AraD基因

本发明的细胞能够使用阿拉伯糖。因此，本发明的细胞能够将L-阿拉伯糖转化为L-核酮糖和/或木酮糖5-磷酸和/或需要的发酵产物，例如本文提到的发酵产物之一。

能够从L-阿拉伯糖生产乙醇的生物例如S.cerevisiae菌株可以通过修饰细胞，引入来自合适来源的araA(L-阿拉伯糖异构酶)、araB(L-核酮糖激酶)和araD(L-核酮糖-5-P4-差向异构酶)基因来产生。这类基因可被引入本发明的细胞中，使其能够使用阿拉伯糖。这样的通路描述于WO2003/095627中。来自Lactobacillus plantanum的araA、araB和araD基因可以使用，并公开于WO2008/041840中。来自Bacillus subtilis的araA基因和来自Escherichia coli的araB和araD基因可以使用，并公开于EP1499708中。在另一实施方案中，araA、araB和araD基因可源自Clavibacter、Arthrobacter和/或Gramella中至少一种属，特别是Clavibacter michiganensis、Arthrobacter aurescens和/或Gramellaforsetii之一，如WO2009011591中所公开。

PPP-基因

本发明的细胞可包含一种或多种提高戊糖磷酸通路通量的遗传修饰。具体地，遗传修饰可导致通过戊糖磷酸通路非氧化性部分的通量提高。引起戊糖磷酸通路非氧化性部分通量提高的遗传修饰在本文中被理解为表示下述修饰，与除了引起通量提高的遗传修饰之外遗传上相同的菌株中的通量相比，所述修饰将所述通量提高至约1.1、约1.2、约1.5、约2、约5、约10或约20的倍数。戊糖磷酸通路非氧化部分的通量可以如下测量：在木糖作为唯一碳源时培养经修饰的宿主，测定木糖消耗的比速率，并在产生任何木糖醇时从木糖消耗的比速率中减去木糖醇生产的比速率。然而，戊糖磷酸通路非氧化部分的通量与木糖作为唯一碳源时的生长速率成比例，优选地与木糖作为唯一碳源时的厌氧生长速率成比例。木糖作为唯一碳源时的生长速率(μ_max)和戊糖磷酸通路非氧化部分的通量之间存在线性相关。木糖消耗的比速率(Q_s)等于生长速率(μ)除以在糖上的生物量产率(Y_xs)，因为在糖上的生物量产率是恒定的(在给定的一组条件下：厌氧、生长培养基、pH、菌株的遗传背景等；即Q_s＝μ/Y_xs)。因此，戊糖磷酸通路非氧化部分通量的提高可能演绎自这些条件下最大生产速率的提高，除非转运(摄取收到限制)。

可以通过多种方式在宿主细胞中引入提高戊糖磷酸通路通量的一种或多种遗传修饰。这些方式包括例如，实现木酮糖激酶和/或非还原性部分戊糖磷酸通路的一种或多种酶更高的稳态活性水平，和/或非特异性醛糖还原酶活性的降低的稳态水平。稳态活性水平的这些改变可以通过(自发或化学或辐射诱导的)突变体的选择和/或编码酶的基因或调节这些基因的因子的重组DNA技术(例如过表达或失活)来实现。

在一种优选的宿主细胞中，遗传修饰包括(非氧化部分)戊糖磷酸通路的至少一种酶的过表达。优选地，所述酶选自由编码核酮糖-5-磷酸异构酶、5-磷酸核酮糖差向异构酶、转酮酶和转醛酶的酶构成的组。可以过表达(非氧化性部分)戊糖磷酸通路的酶的多种组合。例如可以被过表达的酶可以至少是酶5-磷酸核酮糖异构酶和5-磷酸核酮糖差向异构酶；或至少是酶5-磷酸核酮糖异构酶和转酮酶；或至少是酶5-磷酸核酮糖异构酶和转醛酶；或至少是酶5-磷酸核酮糖差向异构酶和转酮酶；或至少是酶核酮糖-5-磷酸差向异构酶和转醛酶；或至少是酶转酮酶和转醛酶；或至少是酶5-磷酸核酮糖差向异构酶、转酮酶和转醛酶；或至少是酶5-磷酸核酮糖异构酶、转酮酶和转醛酶；或至少是酶5-磷酸核酮糖异构酶、5-磷酸核酮糖差向异构酶和转醛酶；或至少是酶5-磷酸核酮糖异构酶、5-磷酸核酮糖差向异构酶和转酮酶。在本发明的一个实施方案中，酶5-磷酸核酮糖异构酶、5-磷酸核酮糖差向异构酶、转酮酶和转醛酶的每一种都在宿主细胞中被过表达。更优选的是下述宿主细胞，其中遗传修饰至少包含酶转酮酶和转醛酶二者的过表达，因为这样的宿主细胞已经能够在木糖上厌氧生长。实际上，在一些条件下，仅过表达转酮酶和转醛酶的宿主细胞在木糖上已经具有与下述宿主细胞相同的厌氧生长速率，所述宿主细胞过表达所有四种酶，即5-磷酸核酮糖异构酶、5-磷酸核酮糖差向异构酶、转酮酶和转醛酶。另外，过表达酶5-磷酸核酮糖异构酶和核酮糖-5-磷酸差向异构酶二者的宿主细胞是超过下述宿主细胞而被优选的，所述宿主细胞仅过表达异构酶或仅过表达差向异构酶，因为这些酶中仅一种的过表达可产生代谢失衡。

酶“核酮糖-5-磷酸差向异构酶”(EC 5.1.3.1)在本文中被定义为催化D-木酮糖5-磷酸差向异构化为D-核酮糖5-磷酸并且反之亦然的酶。所述酶也已知为磷酸核酮糖(phosphoribulose)异构酶；赤藓糖-4-磷酸异构酶；磷酸酮戊糖3-差向异构酶；木酮糖磷酸3-差向异构酶；磷酸酮戊糖向异构酶；核酮糖5-磷酸3-差向异构酶；D-核酮糖磷酸-3-差向异构酶；D-核酮糖5-磷酸差向异构酶；D-核酮糖-5-P 3-差向异构酶；D-木酮糖-5-磷酸3-差向异构酶；戊糖-5-磷酸3-差向异构酶；或D-核酮糖-5-磷酸3-差向异构酶。核酮糖5-磷酸差向异构酶还可通过其氨基酸序列定义。类似地，核酮糖5-磷酸差向异构酶可以通过编码酶的核苷酸序列或者通过与编码核酮糖5-磷酸差向异构酶的参照核苷酸序列杂交的核苷酸序列来定义。编码核酮糖5-磷酸差向异构酶的核苷酸序列在本文中称作RPE1。

酶“核酮糖5-磷酸异构酶”(EC 5.3.1.6)在本文中被定义为催化D-核糖5-磷酸直接异构化为D-核酮糖5-磷酸并且反之亦然的酶。所述酶也已知为磷酸戊糖异构酶；磷酸核糖异构酶；核糖磷酸异构酶；5-磷酸核糖异构酶；D-核糖5-磷酸异构酶；D-核糖-5-磷酸酮醇-异构酶；或D-核糖-5-磷酸醛糖-酮糖-异构酶。核酮糖5-磷酸异构酶还可通过其氨基酸序列定义。类似地，核酮糖5-磷酸异构酶可以通过编码所述酶的核苷酸序列以及与编码核酮糖5-磷酸异构酶的参照核苷酸序列杂交的核苷酸序列来定义。编码核酮糖5-磷酸异构酶的核苷酸序列在本文中称作RKI1。

酶“转酮酶”(EC 2.2.1.1)在本文中被定义为催化下述反应的酶：D-核糖5-磷酸+D-木酮糖5-磷酸<->景天庚酮糖7-磷酸+D-甘油醛3-磷酸且反之亦然。所述酶也已知为羟乙醛转移酶或景天庚酮糖-7-磷酸:D-甘油醛-3-磷酸羟乙醛转移酶。转酮酶还可通过其氨基酸定义。类似地，转酮酶可以通过编码酶的核苷酸序列以及与编码转酮酶的参照核苷酸序列杂交的核苷酸序列来定义。编码转酮酶的核苷酸序列在本文中称作TKL1。

酶“转醛酶”(EC 2.2.1.2)在本文中被定义为催化下述反应的酶：景天庚酮糖7-磷酸+D-甘油醛3-磷酸<->D-赤藓糖4-磷酸+D-岩藻糖6-磷酸且反之亦然。所述酶还已知为二羟基丙酮转移酶；二羟基丙酮合酶；甲醛转酮酶；或景天庚酮糖-7-磷酸:D-甘油醛-3-磷酸甘油酮转移酶。转醛酶还可通过其氨基酸序列定义。类似地，转醛酶可以通过编码酶的核苷酸序列以及与编码转醛酶的参照核苷酸序列杂交的核苷酸序列来定义。编码转醛酶的核苷酸序列在本文中称作TAL1。

木糖异构酶或木糖还原酶和木糖醇脱氢酶基因

根据本发明，一个、两个或更多个一种或多种木糖异构酶基因和/或一种或多种木糖还原酶和木糖醇脱氢酶被引入宿主细胞的基因组中。这两种或更多遗传元件的存在赋予细胞通过异构化或还原来转化木糖的能力。

在一个实施方案中，一个、两个或更多个拷贝的一种或多种木糖异构酶基因被引入宿主细胞的基因组中。

“木糖异构酶”(EC 5.3.1.5)在本文中被定义为催化D-木糖直接异构化为D-木酮糖和/或反过来的酶。所述酶还已知为D-木糖酮异构酶。本文的木糖异构酶也可以能够催化D-葡萄糖和D-果糖之间的转化(并因此可以被称作葡萄糖异构酶)。本文的木糖异构酶可需要二价阳离子如镁、锰或钴作为辅因子。

因此，这样的混合糖细胞能够将木糖异构化为木酮糖。通过用下述核酸构建体转化宿主细胞对所述宿主细胞赋予将木糖异构化为木酮糖的能力，所述核酸构建体包含编码确定的木糖异构酶的核苷酸序列。混合的糖细胞通过木糖到木酮糖的直接异构化将木糖异构化为木酮糖。

木糖异构酶活性单位(U)在本文中可以被定义为：在Kuyper et al.(2003,FEMSYeast Res.4:69-78)所述条件下，每分钟生产1nmol木酮糖的酶的量。木糖异构酶基因可具有多种来源，例如如WO2006/009434中公开的Pyromyces sp.。其他合适的来源是如PCT/EP2009/52623中所述的Bacteroides，特别是Bacteroides uniformis，如PCT/EP2009/052625中所述的Bacillus，特别是Bacillus stearothermophilus。

在另一实施方案中，两个或更多个拷贝的一种或多种木糖还原酶和木糖醇脱氢酶基因被引入宿主细胞的基因组中。在所述实施方案中，木糖的转化在两个步骤中进行：分别由木糖还原酶和木糖醇脱氢酶催化的，木糖通过木糖醇中间产物转化成木酮糖。在一个实施方案中，木糖还原酶(XR)，木糖醇脱氢酶(XDR)和木酮糖激酶(xylokinase，XK)可以被过表达，任选地一个或多个编码NADPH生产酶的基因被上调，并且一个或多个编码NADH消耗酶的基因被上调，如WO 2004085627中所述。

XKS1基因

本发明的细胞可包含提高特异性木酮糖激酶活性的一种或多种遗传修饰。优选地，所述一种或多种遗传修饰引起木酮糖激酶的过表达，例如通过编码木酮糖激酶的核苷酸序列的过表达来实现。编码木酮糖激酶的基因对宿主细胞而言可以是内源的，或者可以是对宿主细胞异源的木酮糖激酶。用于本发明宿主细胞中木酮糖激酶过表达的核苷酸序列是编码具有木酮糖激酶活性的多肽的核苷酸序列。

酶“木酮糖激酶”(EC 2.7.1.17)在本文中被定义为催化反应ATP+D-木酮糖＝ADP+D-木酮糖5-磷酸的酶。所述酶还已知为磷酸化木酮糖激酶、D-木酮糖激酶或ATP:D-木酮糖5-磷酸转移酶。本发明的木酮糖激酶还可以通过其氨基酸序列定义。类似地，木酮糖激酶可以通过编码所述酶的核苷酸序列以及与编码木酮糖激酶的参照核苷酸序列杂交的核苷酸序列来定义。

在本发明的细胞中，提高特异性木酮糖激酶活性的一种或多种遗传修饰可以与上文所述提高戊糖磷酸通路通量的任何修饰组合。然而，这不是必需的。

因此，本发明的宿主细胞可仅包含提高特异性木酮糖激酶活性的一种或多种遗传修饰。用于实现和分析本发明宿主细胞中木酮糖激酶过表达的本领域可获得的多种手段与上文针对戊糖磷酸通路酶所述相同。优选地，在本发明的宿主细胞中，与除了引起过表达的遗传修饰之外在遗传上相同的菌株相比，要过表达的木酮糖激酶被过表达至少约1.1、约1.2、约1.5、约2、约5、约10或约20的倍数。还应当理解这些过表达水平可适用于酶活性的稳态水平，酶蛋白质的稳态水平以及编码酶的转录本的稳态水平。

醛糖还原酶(GRE3)基因缺失

在使用XI作为转化木糖的基因的实施方案中，其可有利地降低醛糖还原酶活性。因此，本发明的细胞可包含降低宿主细胞中非特异性醛糖还原酶活性的一种或多种遗传修饰。优选地，通过一种或多种下述遗传修饰降低宿主细胞中的非特异性醛糖还原酶活性，所述遗传修饰降低编码非特异性醛糖还原酶的基因的表达或使其失活。优选地，所述遗传修饰降低宿主细胞中编码非特异性醛糖还原酶的基因的每种内源拷贝或使其表达失活(本文中称作GRE3缺失)。宿主细胞可由于二倍性、多倍性或非整倍性而包含多拷贝的编码非特异性醛糖还原酶的基因，和/或宿主细胞可含有具有醛糖还原酶活性的若干不同的(同工)酶，所述酶氨基酸序列不同并且鸽子由不同基因编码。还在这类情况下，优选地编码非特异性醛糖还原酶的每种基因的表达被降低或失活。优选地，通过缺失基因的至少一部分或者通过破坏基因使基因失活，其中在该语境中，术语基因还包括编码序列上游或下游的任何非编码序列，其(部分)缺失或失活导致宿主细胞中非特异性醛糖还原酶活性表达的降低。

编码要在本发明宿主细胞中降低其活性的醛糖还原酶的核苷酸序列是编码具有醛糖还原酶活性的多肽的核苷酸序列。

因此，仅包含下述一种或多种遗传修饰的本发明的宿主细胞明确地包括在本发明中，所述修饰降低宿主细胞中的非特异性醛糖还原酶活性。

酶“醛糖还原酶”(EC 1.1.1.21)在本文中被定义为能够将木糖或木酮糖还原为木糖醇的任何酶。在本发明的语境中，醛糖还原酶可以是对本发明宿主细胞而言天然(内源)的并且能够将木糖或木酮糖还原为木糖醇的任何非特异性醛糖还原酶。非特异性醛糖还原酶催化反应：

所述酶具有广泛特异性并且也已知为醛糖还原酶；多元醇脱氢酶(NADP⁺)；糖醇:NADP氧化还原酶；糖醇:NADP⁺1-氧化还原酶；NADPH-戊醛糖还原酶；或NADPH-醛糖还原酶。

这类非特异性醛糖还原酶的一个具体的例子是对S.cerevisiae内源并且由GRE3基因编码的醛糖还原酶(Traff et al.,2001,Appl.Environ.Microbiol.67:5668-74)。因此，本发明的醛糖还原酶还可通过其氨基酸序列定义。类似地，醛糖还原酶可以通过编码酶的核苷酸序列以及与编码醛糖还原酶的参照核苷酸序列杂交的核苷酸序列来定义。

序列同一性

序列同一性(或序列相似性)在本文中定义为两条或更多氨基酸(多肽或蛋白质)序列或两条或更多核酸(多核苷酸)序列之间的关系，所述关系通过比较所述序列来测定。通常，序列同一性或相似性典型地在被比较的序列的整个长度上比较。然而，可以在更短的比较窗口中比较序列。在本领域中，“同一性”还表示根据情况通过氨基酸或核酸序列字符串之间的匹配测定的氨基酸或核酸序列之间的序列相关程度。

测定同一性的优选的方法被设计为给出被测试序列之间的最大匹配。测定同一性和相似性的方法在公众可获得的计算机程序中被编码。测定两条序列之间同一性和相似性的优选的计算机程序方法包括例如BestFit、BLASTP、BLASTN和FASTA(Altschul,S.F.etal.,J.Mol.Biol.215:403-410(1990)，公众可从NCBI和其它来源获得(BLAST Manual,Altschul,S.,et al.,NCBI NLM NIH Bethesda,MD 20894)。使用BLASTP进行氨基酸序列比较的优选的参数是缺口开放11.0，缺口延伸1，Blosum 62矩阵。使用BLASTP进行核酸序列比较的优选的参数是缺口开放11.0、缺口延伸1、DNA全矩阵(DNA同一性矩阵)。

任选地，在测定氨基酸相似性程度时，技术人员也可以考虑所谓的“保守性”氨基酸取代，如本领域技术人员所明白的。

保守性氨基酸取代是指具有相似侧链的残基的互换性。例如，具有脂肪族侧链的氨基酸的组是甘氨酸、丙氨酸、缬氨酸、亮氨酸和异亮氨酸；具有脂肪族-羟基侧链的氨基酸的组是丝氨酸和苏氨酸；具有含酰胺侧链的氨基酸的组是天冬酰胺和谷氨酰胺；具有芳香族侧链的氨基酸的组是苯丙氨酸、酪氨酸和色氨酸；具有碱性侧链的氨基酸的组是赖氨酸、精氨酸和组氨酸；具有含硫侧链的氨基酸的组是半胱氨酸和甲硫氨酸。

优选的保守性氨基酸取代组为：缬氨酸-亮氨酸-异亮氨酸，苯丙氨酸-酪氨酸，赖氨酸-精氨酸，丙氨酸-缬氨酸和天冬酰胺-谷氨酰胺。本文公开的氨基酸序列的取代变体是其中所公开的序列中至少一个残基被去除并在其位置中插入一个不同残基的变体。优选地，氨基酸改变是保守性的。对每种天然存在的氨基酸而言优选的保守性取代如下：Ala到ser；Arg到lys；Asn到gln或his；Asp到glu；Cys到ser或ala；GIn到asn；GIu到asp；GIy到pro；His到asn或gln；He到leu或val；Leu到ile或val；Lys到arg；gln或glu；Met到leu或ile；Phe到met,leu或tyr；Ser到thr；Thr到ser；Trp到tyr；Tyr到trp或phe；和Val到ile或leu。

严格杂交条件在本文中定义为下述条件，其允许至少约25个、优选地约50个核苷酸、75或100个和最优选地约200个或更多个核苷酸的核酸序列在约65℃的温度下，在包含约1M盐、优选地6x SSC(氯化钠、柠檬酸钠)的溶液或具有可比较的离子强度的任何其它溶液中杂交，和在包含约0.1M盐或更少，优选地0.2x SSC的溶液或具有可比较的离子强度的任何其它溶液中于65℃下洗涤。优选地，杂交过夜进行，即至少进行10小时，并优选地至少进行1小时洗涤并将洗涤溶液更换至少两次。这些条件通常会允许具有约90％或更多序列同一性的序列的特异性杂交。

中度条件在本文中定义为下述条件，所述条件允许至少50个核苷酸、优选地约200个或更多个核苷酸在约45℃的温度下，于包含约1M盐、优选地6x SSC的溶液或具有可比较的离子强度的任何其它溶液中杂交，并于室温下，在包含约1M盐、优选地6x SSC的溶液或具有可比较的离子强度的任何其它溶液中洗涤。优选地，杂交过夜进行，即至少进行10小时，并优选地至少进行1小时洗涤并将洗涤溶液更换至少两次。这些条件通常会允许具有至多50％序列同一性的序列的特异性杂交。本领域技术人员应当能够修饰这些杂交条件，从而特异性鉴定同一性在50％和90％之间变化的序列。

为了提高被引入的酶在本发明的细胞中以活性形式表达的可能性，可以改造相应的编码核苷酸序列，从而针对所选择的酵母细胞优化其密码子使用。密码子优化的若干方法是本领域已知的。针对酵母的密码子使用来优化核苷酸序列密码子使用的一种优选的方法是如WO2006/077258和/或WO2008/000632中公开的密码子对优化技术。WO2008/000632涉及密码子对优化。密码子对优化是这样一种方法，其中编码多肽的核苷酸序列关于其密码子使用、尤其是使用的密码子对而被修饰，以获得编码所述多肽的核苷酸序列的改进的表达和/或所编码的多肽的改进的生产。密码子对被定义为编码序列中一组两个连续的三联体(密码子)。

作为基因表达和翻译效率的简单度量，本文中使用如Xuhua Xia,EvolutionaryBioinformatics 2007,:3 53-58中所述的密码子适应指数(Codon Adaptation Index，CAI)。所述指数使用来自一个物种的高度表达基因的参照组来评价每种密码子的相对优点(merits)，并从所述基因中所有密码子的使用频率计算基因的分值。指数评价选择在塑造密码子使用模式中的有效程度。在这一方面中，预测基因的表达水平来评价病毒基因对其宿主的适应和在不同生物中进行密码子使用比较是有用的。指数也可给出异源基因表达可能成功的大致指示。在根据本发明的经密码子对优化的基因中，CAI为0.6或更多、0.7或更多、0.8或更多、0.85或更多、0.87或更多0.90或更多、0.95或更多或约1.0。

因此，本发明的细胞是包含下述核酸构建体(即用所述核酸构建体转化)的细胞，所述核酸构建体包含如上文定义的编码araA、araB和araD基因的核苷酸序列。包含araA编码序列的核酸构建体优选地能够在所述宿主细胞中表达araA基因。

优选地，基因在胞质溶胶中表达。胞质溶胶表达可通过线粒体或过氧化物酶体靶向信号的缺失或修饰来实现。

生物制品生产

许多年来，建议引入多种生物用于从作物糖生产生物乙醇。然而在实践中，所有主要的生物乙醇生产方法继续使用Saccharomyces属的酵母作为乙醇生产者。这归因于Saccharomyces物种对工业方法而言的许多有吸引力的特征，即高度酸-、乙醇-和渗透-耐性，厌氧生长的能力，当然及其高的醇发酵能力。作为宿主细胞的优选的酵母物种包括S.cerevisiae、S.bulderi、S.barnetti、S.exiguus、S.uvarum、S.diastaticus、K.lactis、K.marxianus或K fragilis。

本发明的细胞可以能够将植物生物量、纤维素、半纤维素、果胶、鼠李糖、半乳糖、岩藻糖、麦芽糖、麦芽糖糊精、核糖、核酮糖或淀粉、淀粉衍生物、蔗糖、乳糖和甘油转化成例如可发酵的糖。因此，本发明的细胞可表达将纤维素转化为葡萄糖单体或将半纤维素转化为木糖和阿拉伯糖单体所需的一种或多种酶，如纤维素酶(内切纤维素酶和外切纤维素酶)、半纤维素酶(内切或外切木聚糖酶或阿拉伯糖酶)，能够将果胶转化成葡糖醛酸和半乳糖醛酸的果胶酶，或能够将淀粉转化成葡萄糖单体的淀粉酶。

所述细胞还优选地包含将丙酮酸转化成期望的发酵产物如乙醇、丁醇、乳酸、3-羟基-丙酸、丙烯酸、乙酸、琥珀酸、柠檬酸、反丁烯二酸、苹果酸、衣康酸(itaconic acid)、氨基酸、1,3-丙二醇、乙烯、甘油、β-内酰胺抗生素或头孢菌素所需的这些酶活性。

本发明的一种优选的细胞是天然能够进行醇发酵、优选地进行厌氧醇发酵的细胞。本发明的细胞优选地具有对乙醇的高度耐性、对低pH的高度耐性(即能够在低于约5、约4、约3或约2.5的pH下生长)和对有机酸如乳酸、乙酸或甲酸和/或糖降解产物如糠醛和羟基-甲基糠醛的的高度耐性，和/或对提高的温度的高度耐性。

本发明细胞的任何上述特征或活性可以天然存在于细胞中，或者可以通过遗传修饰引入或修饰。

本发明的细胞可以是适合生产乙醇的细胞。然而，本发明的细胞可适用于生产除乙醇以外的发酵产物。这类非乙醇发酵产物原则上包括可由真核微生物如酵母或丝状真菌生产的任何大宗化学品(bulk chemical)或精细化学品。

这类发酵产物可以是例如丁醇、乳酸、3-羟基-丙酸、丙烯酸、乙酸、琥珀酸、柠檬酸、苹果酸、反丁烯二酸、衣康酸、氨基酸、1,3-丙二醇、乙烯、丙三醇、β-内酰胺抗生素或头孢菌素。用于生产非乙醇发酵产物的一种优选的本发明的细胞是下述宿主细胞，所述宿主细胞含有导致降低的醇脱氢酶活性的遗传修饰。

在又一个方面中，本发明涉及多种发酵方法，其中使用本发明的细胞来发酵包含木糖来源的碳源，如木糖。除了木糖来源以外，发酵培养基中的碳源还可包含葡萄糖来源。木糖或葡萄糖来源可以是原样的木糖或葡萄糖，或者可以是包含木糖或葡萄糖单元的任何碳水化合物寡聚体或多聚体，如例如木质纤维素、木聚糖、纤维素、淀粉等等。为了从这类碳水化合物释放木糖或葡萄糖单元，可以向发酵培养基中添加或者由细胞生产适当的糖酶(例如木聚糖酶、葡聚糖酶、淀粉酶等等)。在后一情况下，细胞可以被遗传改造为生产和分泌这类碳水化合物。使用葡萄糖的寡聚体或多聚体来源的一种额外的优点是其例如通过使用限速量的碳水化合物，使得能够在发酵期间维持(更)低的游离葡萄糖浓度。这随即会预防阻抑非葡萄糖的糖(如木糖)代谢和转运所需的系统。

在一种优选的方法中，细胞发酵木糖以及葡萄糖，优选地同时发酵，在这种情况下优选地使用下述细胞，所述细胞对葡萄糖阻抑不敏感从而防止两阶段生长。除了作为碳源的木糖(和葡萄糖)来源以外，发酵培养基还会包含细胞生长所需的适当成分。用于微生物(如酵母)生长的发酵培养基的组成是本领域公知的。发酵方法是用于生产以下发酵产物的方法，如例如乙醇、丁醇、乳酸、3-羟基-丙酸、丙烯酸、乙酸、琥珀酸、柠檬酸、苹果酸、反丁烯二酸、衣康酸、氨基酸、1,3-丙二醇、乙烯、丙三醇、β-内酰胺抗生素如青霉素G或青霉素V及其发酵衍生物，和头孢菌素。

木质纤维素

可以被认为是潜在的可再生原料的木质纤维素通常多糖纤维素(葡聚糖)和半纤维素(木聚糖、杂木聚糖(heteroxylans)和木葡聚糖(xyloglucans))。另外，一些半纤维素可以作为葡甘露聚糖(glucomannans)存在于例如木材衍生的原料中。这些多糖成为可溶糖(包括单体和多体，例如葡萄糖、纤维二糖、木糖、阿拉伯糖、半乳糖、果糖、甘露糖、鼠李糖、核糖、半乳糖醛酸、葡萄糖醛酸和其他己糖和戊糖)的酶促水解发生于共同作用(acting inconcert)的不同酶的作用下。

另外，果胶和其他果胶物质如阿拉伯聚糖(arabinans)可占来自非木本植物组织典型的细胞壁干物质的可观的比例(约四分之一到一半的干物质可以是果胶)。

预处理

可能需要预处理，使根据本发明可以被发酵的糖从木质纤维素(包括半纤维素)材料中释放。这一步骤可以使用常规方法进行。

酶促水解

可以使用常规方法进行酶促水解。

发酵

发酵方法可以是需氧或厌氧的发酵方法。厌氧发酵方法在本文中被定义为在不存在氧时运行的发酵方法，或者其中基本不消耗氧，优选地消耗少于约5、约2.5或约1mmol/L/h，更优选地消耗0mmol/L/h(即氧消耗不可检出)，并且其中有机分子发挥电子供体和电子受体两种用途。在不存在氧时，糖酵解和生物量形成中产生的NADH不能够被氧化磷酸化氧化。为了解决这一问题，许多微生物使用丙酮酸或其衍生物之一作为电子和氢受体，从而再生NAD⁺。

因此，在一种优选的厌氧发酵方法中，丙酮酸被用作电子(和氢受体)，并且被还原成发酵产物如乙醇、丁醇、乳酸、3-羟基-丙酸、丙烯酸、乙酸、琥珀酸、柠檬酸、苹果酸、反丁烯二酸、氨基酸、1,3-丙二醇、乙烯、丙三醇、β-内酰胺抗生素和头孢菌素。

发酵方法优选地在对细胞而言最适的温度下进行。因此，对大部分酵母或真菌宿主细胞而言，发酵方法在低于约42℃、优选地低于约38℃的温度下进行。对酵母或丝状真菌宿主细胞而言，发酵方法优选地在低于约35、约33、约30或约28℃的温度且高于约20、约22或约25℃的温度下进行。

在所述方法中，在木糖和/或葡萄糖上的乙醇产率优选地为至少约50％，约60％，约70％，约80％，约90％，约95％或约98％。乙醇产率在本文中被定义为理论最大产率的百分比。

本发明还涉及用于生产发酵产物的方法。

发酵方法可以以分批、补料分批或连续的方式进行。也可以使用分离水解和发酵(SHF)方法或同时糖化和发酵(SSF)方法。也可以针对最适生产力使用这些方法模式的组合。

根据本发明的方法可以在需氧和厌氧条件下进行。优选地，所述方法在微需气(aerophilic)或氧受限的条件下进行。

厌氧发酵方法在本文中被定义为在不存在氧时进行的发酵方法，或其中基本不消耗氧，优选地消耗少于约5、约2.5或约1mmol/L/h，并且其中有机分子发挥电子供体和电子受体两种作用。

氧受限的发酵方法是下述方法，其中氧消耗受到从气体到液体的氧转移的限制。氧受限的程度由进入气流的量和组成以及使用的发酵设备的实际混合/物量转移特性决定。优选地，在氧受限条件下的方法中，氧消耗速率为至少约5.5、更优选地至少约6、如至少7mmol/L/h。本发明的方法包括发酵产物的回收。

在一个优选的方法中，细胞发酵木糖以及葡萄糖，优选地同时发酵，在这种情况下优选地使用下述细胞，所述细胞对葡萄糖阻抑不敏感从而防止两阶段生长(diauxicgrowth)。除了作为碳源的木糖(和葡萄糖)来源以外，发酵培养基还会包含细胞生长所需的适当成分。用于微生物(如酵母)生长的发酵培养基的组成是本领域公知的。

发酵方法可以以分批、补料分批或连续的方式进行。也可以使用分离水解和发酵(SHF)方法或同时糖化和发酵(SSF)方法。也可以针对最适生产力使用这些方法模式的组合。这些方法在下文更详细地描述。

SSF模式

对同时糖化和发酵(SSF)的模式而言，液化/水解或预糖化步骤的反应时间取决于实现期望产率(即纤维素成为葡萄糖的转化产率)的时间。这类产率优选地尽可能高，优选地为60％或更多，65％或更多，70％或更多，75％或更多，80％或更多，85％或更多，90％或更多，95％或更多，96％或更多，97％或更多，98％或更多，99％或更多，甚至99.5％或更多或99.9％或更多。

根据本发明，在SHF模式下实现了非常高的糖浓度，在SSF模式下实现了非常高的产物浓度(例如乙醇)。在SHF操作中，葡萄糖浓度是25g/L或更高，30g/L或更高，35g/L或更高，40g/L或更高，45g/L或更高，50g/L或更高，55g/L或更高，60g/L或更高，65g/L或更高，70g/L或更高，75g/L或更高，80g/L或更高，85g/L或更高，90g/L或更高，95g/L或更高，100g/L或更高，110g/L或更高，120g/L或更高，或者可以例如是25g/L-250g/L，30gl/L-200g/L，40g/L-200g/L，50g/L-200g/L，60g/L-200g/L，70g/L-200g/L，80g/L-200g/L，90g/L，80g/L-200g/L。

SSF模式中的产物浓度

在SSF操作中，产物浓度(g/L)取决于生产的葡萄糖量，但因为在SSF中糖被转化成产物，所以这是不可见的，并且糖浓度可以通过与理论最大产率(以gr产物/克葡萄糖计的Yps max)相乘而与潜在的葡萄糖浓度相关。

发酵产物的理论最大产率(以gr产物/克葡萄糖计的Yps max)可源自生物化学教科书。对乙醇而言，1摩尔葡萄糖(180gr)根据酵母中正常的糖酵解发酵通路产生2摩尔乙醇(＝2x46＝92gr乙醇)。因此，基于葡萄糖的乙醇的理论最大产率为92/180＝0.511gr乙醇/gr葡萄糖。

对丁醇(MW 74gr/摩尔)或异丁醇而言，理论最大产率是每摩尔葡萄糖1摩尔丁醇。因此，(异)丁醇的Yps max＝74/180＝0.411gr(异)丁醇/gr葡萄糖。

对乳酸而言，纯乳酸发酵(homolactic fermentatio)的发酵产率是每摩尔葡萄糖2摩尔乳酸(MW＝90gr/摩尔)。根据所述化学计量法，Yps max＝1gr乳酸/gr葡萄糖。

对其他发酵产物而言，可以进行类似的计算。

SSF模式

在SSF操作中，产物浓度为25g*Yps g/L/L或更高，30*Yps g/L或更高，35g*Yps/L或更高，40*Yps g/L或更高，45*Yps g/L或更高，50*Yps g/L或更高，55*Yps g/L或更高，60*Yps g/L或更高，65*Yps g/L或更高，70*Yps g/L或更高，75*Yps g/L或更高，80*Yps g/L或更高，85*Yps g/L或更高，90*Yps g/L或更高，95*Yps g/L或更高，100*Yps g/L或更高，110*Yps g/L或更高，120g/L*Yps或更高，或者可以例如是25*Yps g/L-250*Yps g/L，30*Yps gl/L-200*Yps g/L，40*Yps g/L-200*Yps g/L，50*Yps g/L-200*Yps g/L，60*Yps g/L-200*Yps g/L，70*Yps g/L-200*Yps g/L，80*Yps g/L-200*Yps g/L，90*Yps g/L，80*Ypsg/L-200*Yps g/L。

因此，本发明提供了用于制备发酵产物的方法，所述方法包括：

a.使用本文所述的方法降解木质纤维素；和

b.发酵得到的材料，

从而制备发酵产物。

发酵产物

本发明的发酵产物可以是任何有用的产物。在一个实施方案中，其为选自下组的产物，所述组由以下构成：乙醇，正丁醇，异丁醇，乳酸，3-羟基-丙酸，丙烯酸，乙酸，琥珀酸，富马酸，苹果酸，衣康酸，马来酸，柠檬酸，己二酸，氨基酸例如赖氨酸、甲硫氨酸、色氨酸、苏氨酸和天冬氨酸，1,3-丙二醇，乙烯，甘油，β-内酰胺抗生素和头孢菌素，维生素，药物，动物饲料补充剂，特种化学品，化学原料，塑料，溶剂，燃料包括生物燃料和沼气或有机聚合物，和工业酶例如蛋白酶、纤维素酶、淀粉酶、葡聚糖酶、乳糖酶、脂肪酶、裂合酶、氧化还原酶、转移酶或木聚糖酶。

发酵产物的回收

对发酵产物的回收而言，使用现有的技术。对不同的发酵产物而言，适用不同的回收方法。现有的从水性混合物中回收乙醇的方法通常使用分级(fractionation)和吸附技术。例如，可以使用发酵醪蒸馏器(beer still)加工在水性混合物中含有乙醇的发酵产物，以生产富集的含有乙醇的混合物，所述富集的含有乙醇的混合物随后进行分级(例如分馏(fractional distillation)或其他类似的技术)。接着，含有最高浓度乙醇的级分可以经过吸附剂，从乙醇中去除大部分(如果不是所有的话)剩余的水。

以下的实施例阐述本发明：

实施例

除非另有说明，使用的方法是标准生物化学方法。合适的一般方法教科书的例子包括Sambrook et al.,Molecular Cloning,a Laboratory Manual(1989)和Ausubel etal.,Current Protocols in Molecular Biology(1995),John Wiley&Sons,Inc。

S.cerevisiae的转化

S.cerevisiae的转化如Gietz和Woods所述进行(2002；Transformation of theyeast by the LiAc/SS carrier DNA/PEG method.Methods in Enzymology350:87-96)。

菌落PCR

用塑料牙签挑取单个菌落隔离群，并重悬于50μl milliQ水中。将样品在99℃下孵育10分钟。使用5μl经孵育的样品作为PCR反应的模板，所述PCR反应使用

DNA聚合酶(Finnzymes)根据供应商提供的说明书进行。

PCR反应条件：

培养基组成

生长实验：在具有以下组成的培养基上培养Saccharomyces cerevisiae菌株：0.67％(w/v)酵母氮基或合成培养基(Verduyn et al.,Yeast 8:501-517,1992)，和葡萄糖、阿拉伯糖、半乳糖或木糖之任一，或这些底物的组合(见下文)。对于琼脂平板而言，对培养基补充2％(w/v)细菌学琼脂。

乙醇生产：在BAM(生物活性监测器，Halotec，荷兰)中，在100ml合成模型培养基(含5％葡萄糖、5％木糖、3.5％阿拉伯糖和1-1.5％半乳糖的Verduyn-培养基(Verduyn etal.,Yeast 8:501-517,1992))中于30℃下进行培养。在灭菌前用2M NaOH/H2SO4将培养基的pH调节至4.2。对厌氧培养的合成培养基补充溶于乙醇中的0.42g l-1Tween 80和0.01gl-1麦角固醇(Andreasen and Stier.J.Cell Physiol.41:23-36,1953；和Andreasen andStier.J.Cell Physiol.43:271-281,1954)。用磁力搅拌器搅拌培养物。因为不对培养物充气，所以发酵期间厌氧条件迅速发展。持续监测CO2生产。通过NMR分析糖转化和产物形成。通过在LKB Ultrospec K分光光度计上于600nm下跟踪培养物的光密度来监测生长。

通过用冷冻菌种培养物或来自琼脂平板的单个菌落接种100ml摇瓶中补充有2％葡萄糖的25ml Verduyn-培养基(Verduyn et al.,Yeast 8:501-517,1992)，来制备预培养物。在定轨摇床(200rpm)中于30℃下孵育约24小时后，收获该培养物，并用于以约2的OD600接种BAM。

实施例1

将基因araA、araB和araD引入S.cerevisiae的基因组中

1.1构建含有阿拉伯糖途径的基因的表达载体

如下构建如图2中所展示的质粒pPWT018：用限制性酶BsiWI和MluI消化载体pPWT006(图1，由SIT2-基因座(Gottlin-Ninfa and Kaback(1986)Molecular and CellBiology vol.6,no.6,2185-2197)和允许基于抗生素G418和在乙酰胺上生长的能力来选择转化体的标记物(见上文)组成)。从p427TEF(Dualsystems Biotech)分离孵育G418抗性的kanMX-标记物，含有amdS-标记物的片段已在文献中描述(Swinkels,B.W.,Noordermeer,A.C.M.and Renniers,A.C.H.M(1995)The use of the amdS cDNA of Aspergillusnidulans as a dominant,bidirectional selectable marker for yeasttransformation.Yeast Volume 11,Issue 1995A,page S579；and US6051431)。如专利申请WO2008/041840中公开的来自Lactobacillus plantarum的编码阿拉伯糖异构酶(araA)、L-核酮糖激酶(araB)和L-核酮糖-5-磷酸-4-差向异构酶(araD)的基因由BaseClear(Leiden，荷兰)合成。合成一个大的片段，其带有位于来自S.cerevisiae的强启动子控制下(或于之可操作地连接)的上文提到的三个阿拉伯糖基因，即TDH3-启动子控制araA-基因的表达，ENO1-启动子控制araB-基因的表达，PGI1-启动子控制araD-基因的表达。该片段被特有的限制性酶Acc65I和MluI包围。将该片段克隆进用MluI和BsiWI消化的pPWT006中，得到质粒pPWT018(图2)。质粒pPWT018的序列在SEQ ID 17中公开。

1.2酵母转化

用质粒pPWT018转化CEN.PK113-7D(MATa URA3 HIS3 LEU2 TRP1MAL2-8 SUC2)，所述质粒之前已根据供应商的说明用SfiI(New England Biolabs)线性化。在SIT2-基因的5’-侧翼设计合成的SfiI-位点(见图2)。将转化混合物涂布在每ml含100μg G418(SigmaAldrich)的YPD-琼脂(每升10克酵母提取物，每升20克胨，每升20克葡萄糖，每升20克琼脂)上。两到四天后，平板上出现菌落，而阴性对照(即转化实验中不添加DNA)得到空白的YPD/G418-平板。质粒pPWT018的整合指向SIT2-基因座。使用PCR和Southern印迹技术表征转化体。

用SEQ ID 18和15，和15和14所示引物进行指示单拷贝质粒pPWT018的正确整合的PCR反应(见图4)。使用引物对SEQ ID 18和15检查了SIT2-基因座上的正确整合。如果质粒pPWT018以多个拷贝被整合(头尾整合(head-to-tail integration))，则SEQ ID 15和14的引物对会给出PCR产物。如果不存在后一PCR产物，则表示pPWT018的单拷贝整合。其中一个拷贝的质粒pPWT018被整合在SIT2-基因座中的菌株被命名为BIE104R2。

1.3标记物补救(Marker rescue)

为了能够使用相同的选择标记物，用其他构建体转化酵母菌株，必须去除可选择的标记物。质粒pPWT018的设计如下：将pPWT018整合在染色体中后，同源序列彼此密切接近。这种设计允许可选择标记物通过这些同源区域的自发性分子内重组而丢失。

在营养性生长时分子内重组会发生，尽管以较低的频率发生。这种重组的频率取决于同源性的长度和基因组中的基因座(未公开的结果)。将培养物的亚级分相继转移至新鲜培养基后，分子内重组会及时累积。

为此，从单个菌落隔离群开始在YPD-培养基(每升10克酵母提取物，每升20克胨，每升20克右旋糖)中培养菌株BIE104R2。使用25μl过夜培养物接种新鲜的YPD培养基。在至少五次这样的连续转移后，测定培养物的光密度，并将细胞稀释至每ml约5000个的浓度。将100μl细胞悬浮液涂布在含30mM KPi(pH 6.8)、0.1％(NH4)2SO4、40mM氟乙酰胺(Amersham)和1.8％琼脂(Difco)的酵母碳基培养基(Difco)上。与菌株BIE104R2的细胞相同(即无细胞内重组)的细胞仍然含有amdS-基因。对这些细胞而言，氟乙酰胺是有毒的。在含有氟乙酰胺的培养基上，这些细胞将不能生长，并且不会形成菌落。然而，如果发生了分子内重组，则丢失了可选择标记物的BIE104R2-变体将能够在氟乙酰胺培养基上生长，因为它们不能将氟乙酰胺转化成抑制生长的化合物。这些细胞会在该琼脂培养基上形成菌落。

使用引物SEQ ID 18和15，和14和19，对由此获得的氟乙酰胺抗性菌落进行PCR分析。如果如所预期地发生可选择标记物的重组，则SEQ ID 18和5的引物会得到条带。因此，带有处于强酵母启动子控制下的基因araA、araB和araD的盒已被整合进宿主菌株基因座的SIT2-基因座中。在这种情况下，使用引物SEQ ID 14和19的PCR反应应当不能得到PCR产物，因为引物14在应当由于重组而丢失的区域中发挥引物作用。如果使用后一对引物获得了条带，这表明基因组中存在完整的质粒pPWT018，因此未发生重组。

如果SEQ ID 18和15的引物步得到PCR产物，则发生了重组，但是重组方式是整个质粒pPWT018被重组出基因组之外。不仅可选择标记物丢失，而且阿拉伯糖基因也丢失。事实上恢复了野生型酵母。

对显示与pPWT018的单拷贝整合一致的PCR结果的隔离群进行Southern印迹分析。用EcoRI和HindIII消化菌株CEN.PK113-7D的染色体DNA和正确的重组体(双重消化)。使用CEN.PK113-7D的染色体DNA作为模板，用引物SEQ ID 20和21制备SIT2-探针。杂交实验的结果展示于图3中。预期的杂交模式可由图4(图a和图b)中展示的物理图谱演绎而来。

在野生型菌株中观察到2.35kb的条带，其与野生型基因的预期大小一致(图4，图a)。质粒pPWT018的整合和通过重组部分丢失后，预期有1.06kb的条带(图4，图b)。事实上观察到了这一条带，如图3中所示(第2道)。

(如从图3中可推出的)在Southern印迹上显示正确条带模式的菌株之一是被命名为BIE104A2的菌株。

1.4引入非氧化性戊糖磷酸途径的四个组成型表达的基因

用质粒pPWT080转化组成型表达基因araA、araB和araD的Saccharomycescerevisiae BIE104A2(图5)。质粒pPWT080的序列在SEQ ID NO:4中展示。在选择单拷贝转化体之后，用于转化和选择的程序与上文第1.1、1.2和1.3部分中所述相同。简言之，用经SfiI-消化的pPWT080转化BIE104A2。将转化混合物涂布在每ml含有100μg G418(SigmaAldrich)的YPD-琼脂(每升10克酵母提取物，每升20克胨，每升20克右旋糖，每升20克琼脂)上。

两到四天后，平板上出现菌落，而阴性对照(即转化实验中未添加DNA)得到空白的YPD/G418-平板。

质粒pPWT018的整合指向GRE3-基因座。使用PCR和Southern印迹技术表征转化体。

显示与预期的杂交模式一致的单拷贝质粒pPWT080正确整合的转化体被命名为BIE104A2F1。

为了能够引入编码木糖异构酶和木酮糖激酶的基因(实施例5)，必须去除通过质粒pPWT080的整合引入的选择标记物。为此，从单个菌落隔离群开始在YPD-培养基中培养菌株BIE104A2F1。使用25μl过夜培养物接种新鲜的YPD培养基。五次连续转移后，测定培养物的光密度，并将细胞稀释至每ml约5000个的浓度。将100μl细胞悬浮液涂布在含30mM KPi(pH 6.8)、0.1％(NH4)2SO4、40mM氟乙酰胺(Amersham)和1.8％琼脂(Difco)的酵母碳基培养基(Difco)上。对氟乙酰胺抗性菌落进行PCR分析，并且在正确的PCR谱的情况下，进行Southern印迹分析(实施例1的第1.3部分)。在Southern印迹上显示正确条带模式的菌株之一是被命名为BIE104A2P1的菌株。

实施例2

适应性进化

2.1适应性进化(需氧)

使用菌株BIE104A2P1的单菌落隔离群接种补充有2％半乳糖的YNB-培养基(Difco)。将预培养物在30℃和280rpm下孵育约24小时。收获细胞并以0.2的起始OD 600接种于含1％半乳糖和1％阿拉伯糖的YNB培养基中(图8)。细胞在30℃和280rpm下培养。有规律地监测600nm下的光密度。

当光密度达到5的数值时，将培养物的小分式样转移至含有相同培养基的新鲜YNB培养基中。添加的细胞量使得培养物的初始OD 600为0.2。再次达到5的OD 600后，将培养物的小分式样转移至含2％阿拉伯糖作为惟一碳源的YNB培养基上(如图8中(1)所示事件)。

转移至含2％阿拉伯糖作为惟一碳源的YNB上后，可以在约两周后观察生长。当600nm处的光密度达到至少1的数值后，将细胞以0.2的起始OD 600转移至含有补充有2％阿拉伯糖的新鲜YNB培养基的摇瓶中(图8)。

将连续转移重复三次，如图8中所示。得到的能够在阿拉伯糖上快速生长的菌株被命名为BIE104A2P1c。

2.2适应性进化(厌氧)

在需氧条件下在阿拉伯糖上适应生长后，将来自菌株BIE104A2P1c的单个菌落接种进补充有2％葡萄糖的YNB培养基中。将预培养物在30℃和280rpm下孵育约24小时。收获细胞，并以0.2的OD⁶⁰⁰接种于含2％阿拉伯糖的YNB培养基中。用水封(waterlocks)闭合摇瓶，确保从培养基和液面上空间(head space)耗尽氧后厌氧的生长条件。达到3的OD 600最小值后，将培养物的小分式样转移至含2％阿拉伯糖的新鲜YNB培养基上(图9)，每份具有0.2的光密度OD⁶⁰⁰。

若干次转移后，将得到的菌株命名为BIE104A2P1d(＝BIE201)。

实施例3

发酵能力测定

使用菌株BIE104、BIE104A2P1c和BIE201的单菌落隔离群接种补充有2％葡萄糖的YNB-培养基(Difco)。将预培养物在30℃和280rpm下孵育约24小时。收获细胞并以约2的起始OD 600接种于BAM中的合成模型培养基(synthetic model medium，Verduyn et al.,Yeast 8:501-517,1992；5％葡萄糖，5％木糖，3.5％阿拉伯糖，1％半乳糖)中。持续监测CO2生产。通过NMR分析糖转化和产物形成。数据表示所指示处的残余糖量(以克/升为单位的葡萄糖、阿拉伯糖、半乳糖和木糖)和(副)产物(乙醇、甘油)的形成。通过跟踪600nm处培养物的光密度(图10、11、12)监测生长。实验进行约140小时。

实验清楚地显示参照菌株BIE104迅速转化葡萄糖，但是在140小时内不能够转化阿拉伯糖或半乳糖(图10)。然而，菌株BIE104A2P1c和BIE201能够转化阿拉伯糖和半乳糖(分别见图11和12)。半乳糖和阿拉伯糖利用在少于20小时后葡萄糖耗尽之后立即开始。两种糖同时被转化。然而，针对厌氧条件下阿拉伯糖生长被改进的菌株BIE201更迅速地消耗两种糖(图12)。在所有发酵中，仅产生甘油作为副产物。BIE201的发酵数据在本文表2中给出。

表2：如图12中所示的BIE201发酵的糖浓度和乙醇浓度(g/l)。最大乙醇浓度通过将每种糖的浓度乘以0.51并加合来计算。136h时的乙醇浓度(39.2g/l)表示0,45乙醇/g糖的乙醇产率。该产率显示所有糖被转化成乙醇。

以g/l为单位的浓度

时间(h)	Glu	Xyl	Ara	Gal	EtOH
						0	42,8	50,2	31,6	12,9	0,7
16	0,1	54,2	35,8	10,8	22,9
						23	0,0	49,2	31,3	8,4	18,7
39	0,1	52,8	16,3	0,7	32,1
						48	0,0	52,5	8,9	0,2	29,4
65	0,0	55,1	4,3	0,3	40,3
						111	0,0	48,8	0,5	0,3	38,1
136	0,0	49,6	0,2	0,3	39,2

来自于以下的最大乙醇浓度(以g/l为单位)

从这一计算中可以看出，糖葡萄糖、半乳糖和阿拉伯糖各自被转化成乙醇。

实施例4

PPP基因对糖转化的影响

为了测试PPP-基因对糖转化的影响，将来自菌株BIE104A2和BIE105A2的单个克隆接种在补充有2％葡萄糖的YNB-培养基(Difco)中。两种菌株均含有阿拉伯糖基因，并且针对在阿拉伯糖上的生长被改造(如实施例2，第2.1部分所述)。菌株BIE105A2具有工业菌株的背景。然而，其使用如前文所述(实施例1，第1.2部分)相同的方法和构建体被转化。

收获预培养物并以约2的起始OD 600接种于BAM中的合成玉米纤维模型培养基(Verduyn et al.,Yeast 8:501-517,1992；5％葡萄糖，5％木糖，3.5％阿拉伯糖，1.5％半乳糖)中。通过NMR分析糖转化和产物形成。数据表示所指示处的残余糖量(以克/升为单位的葡萄糖、阿拉伯糖、半乳糖和木糖)和(副)产物(乙醇、甘油)的形成。通过跟踪600nm处培养物的光密度监测生长。实验进行约160小时。

实验显示两种菌株均能在葡萄糖耗尽后立即转化阿拉伯糖和半乳糖，而不需过表达PPP-基因(图13和14)。

实施例5

引入编码木糖异构酶和木酮糖激酶的组成型表达的基因

5.1酵母转化

用质粒pPWT042(图16)转化菌株BIE104A2P1(MATa URA3 HIS3 LEU2 TRP1 MAL2-8SUC2 SIT2::[TDH3-araA,ENO1-araB,PGI1-araD]ΔGRE3::[TPI1p-TAL1,ADH1p-TKL1,PGI1p-RPE1,ENO1p-RKI1])。质粒pPWT042源自载体pPWT007(图15)。其含有如专利申请PCT/EP2009/52623中所公开的来自Bacteroides uniformis的经密码子对优化的木糖异构酶(SEQ 2)，和来自S.cerevisiae的经密码子对优化的木酮糖激酶。在转化BIE104A2P1之前，使用限制性酶SfiI，根据供应商提供的说明书将pPWT042线性化。将转化混合物涂布在每ml含有100μg G418(Sigma Aldrich)的YPD-琼脂(每升10克酵母提取物，每升20克胨，每升20克右旋糖，每升20克琼脂)上。

两到四天后，平板上出现菌落，而阴性对照(即转化实验中不添加DNA)得到空白的YPD/G418-平板。

用SfiI消化质粒pPWT042后，其整合指向基因组中的SIT4-基因座(Gottlin-Ninfaand Kaback(1986)Molecular and Cellular Biology Vol.6,No.6,2185-2197)(图17)。使用PCR和Southern印迹技术表征转化体，如实施例1(第1.2部分)中所述。

具有整合进基因组中的单拷贝质粒pPWT042的菌株被命名为BIE104A2P1Y9。

5.2生长实验

使用菌株BIE104A2P1Y9的单菌落隔离群接种补充有2％葡萄糖或2％半乳糖的YNB-培养基(Difco)。将经接种的摇瓶在30℃和280rpm下孵育，直至600nm处的光密度达到至少2.0的数值。

以0.2的起始OD 600，用过夜培养物接种补充有1％阿拉伯糖和1％木糖的YNB培养基。细胞在30℃和280rpm下培养。有规律地监测600nm下的光密度。当光密度达到大于2.0的数值时，将培养物的小分式样转移至含有2％木糖和0.2％阿拉伯糖的新鲜YNB培养基中。添加的细胞量使得培养物的初始OD 600为0.2。

有规律地监测光密度。结果展示于图18的图a(半乳糖上的预培养物)和图b(葡萄糖上的预培养物)中。

结果清楚地显示，菌株能够利用葡萄糖、半乳糖、阿拉伯糖和木糖。

5.3标记物补救

为了去除通过质粒pPWT042的整合引入的选择标记物，从菌落隔离群开始，在YPD-培养基中培养菌株BIE104A2P1Y9。使用25μl过夜培养物接种新鲜的YPD-培养基。连续转移后，测定培养物的光密度，并将细胞稀释至每ml约5000个的浓度。将100μl细胞悬浮液涂布在含有30mM KPi(pH 6.8)、0.1％(NH4)2SO4、40mM氟乙酰胺(Amersham)和1.8％琼脂(Difco)的酵母碳基培养基(Difco)上。对氟乙酰胺抗性菌落进行PCR分析，并且在正确的PCR谱的情况下进行Southern印迹分析(实施例1第1.3部分)。在Southern印迹上显示正确条带谱的菌株之一被命名为BIE104A2P1X9。

5.4生长实验

使用菌株BIE104A2P1X9(BIE104A2P1X9a1和BIE104A2P1X9a2)的单个菌落隔离群接种补充有2％葡萄糖的Verduyn-培养基(Difco)。将经接种的烧瓶在30℃和280rpm下孵育约24小时。

以0.2的起始OD600，用过夜培养物接种补充有2％木糖的Verduyn-培养基。将细胞在30℃和280rpm下培养。规律地监测600nm下的光密度。结果展示于图19中。

结果清楚地显示，菌株BIE104A2P1X9的两个独立的菌落均仍然能够在标记物补救后利用木糖。如实施例3中已展示的，菌株能够利用葡萄糖、阿拉伯糖和半乳糖(图11和图12)。

实施例6

针对在阿拉伯糖和半乳糖上的琥珀酸生产转化S.cerevisiae

6.1.表达构建体

如先前WO2009/065778中在第19-20和22-30页中所述，制造包含来自Actinobacillus succinogenes的磷酸烯醇丙酮酸羧激酶PCKa(E.C.4.1.1.49)和来自Trypanosoma brucei的酵解酶体富马酸还原酶FRDg(E.C.1.3.1.6)的表达构建体pGBS414PPK-3，和包含来自Rhizopus oryzae的延胡索酸酶(E.C.4.2.1.2.)和过氧化物酶体苹果酸脱氢酶MDH3(E.C.1.1.1.37)的表达构建体pGBS415FUM3，所述WO2009/065778包括附图和序列表在内通过引用并入本文。

通过将包含来自质粒pPWT018的araABD表达盒的PCR产物克隆进质粒pRS416中，构建包含源自Lactobacillus plantarum的基因araA、araB和araD的表达构建体pGBS416ARAABD。使用

DNA聚合酶(Finnzymes)和本文中定义为SEQ ID 22和SEQID 23的PCR引物生产PCR片段。如对质粒pRS416一样，用限制性酶SalI和NotI切割PCR产物。连接并转化E.coli TOP10后，在限制性酶分析的基础上选择正确的重组体。质粒pGBS416ARAABD的物理图谱展示于图20中。

6.2.S.cerevisiae菌株

将质粒pGBS414PPK-3、pGBS415-FUM-3转化进S.cerevisiae菌株CEN.PK113-6B(MATA ura3-52 leu2-112 trp1-289)中。另外，将质粒pGBS416ARAABD转化进该酵母中，以产生原养型酵母菌株。通过电穿孔将表达载体转化进酵母中。将转化混合物涂布在酵母氮基(YNB)w/o AA(Difco)+2％葡萄糖上。

针对在阿拉伯糖作为惟一碳源上的生长，对菌株进行适应性进化(见第2部分)。

6.3.生长实验和琥珀酸生产

将转化体接种在由包含2％半乳糖(w/v)的Verduyn培养基(Verduyn et al.,1992,Yeast.Jul；8(7):501-17)组成的20ml预培养培养基中，并在需氧条件下在100ml摇瓶中，在摇动培养箱中于30℃和250rpm下培养。约24小时后，将细胞转移至含2％葡萄糖、2％半乳糖或2％阿拉伯糖任一或它们的四倍混合物的新鲜Verduyn培养基中。两个烧瓶在需氧条件下孵育，两个烧瓶在厌氧条件下孵育，所述厌氧条件例如通过使用水封闭合烧瓶实现，或者通过在厌氧定轨摇床中孵育来实现。以一定的时间间隔采取培养物样品。将样品在4750rpm下离心5分钟。使用1ml上清液，如第6.4部分中所述通过HPLC测量琥珀酸水平。

6.4.HPLC分析

进行HPLC测定有机酸和糖。在Phenomenex Rezex-RHM-单糖柱上分离的原理是基于尺寸排除、离子排除和使用反相机制的离子交换。检测通过鉴别屈光指数(differentialrefractive index)和紫外检测器进行。

参考文献

Lit.No Source

(1)Bioresource Technology 1994Vol.47page 283-284

(2)Micard,Enzyme Microbiol Technology 1996 Vol19 page 163-170

(3)DOE Radke,Idaho wheat straw composition

(4)Grohman and Botast Process Biochemistry 1997Vol.32No 5 405-415

(5)Saska B&B 1995 517-523

(6)PCT/EP2009/52623

(7)Zheng Appl.Biochem.Microbiol.2007,Vol.136-140 pp 423-436

(8)

Bradshaw Appl Biochem.Microbiol.2007 Vol 136-140 page 395-406

(9)Cara Appl Biochem.Microbiol.2007 Vol 136-140page 379-394

序列表

<110> 帝斯曼知识产权资产管理有限公司

<120> 使用重组酵母菌株从葡萄糖、半乳糖和阿拉伯糖发酵生产乙醇

<130> 27392-WO-PCT

<160> 23

<170> PatentIn version 3.5

<210> 1

<211> 1317

<212> DNA

<213> 人工序列

<220>

<223> Bacteroides uniformis

<400> 1

atggcaacaa aagagtattt tcccggaata ggaaagatta aattcgaagg taaagagagc 60

aagaacccga tggcattccg ttattacgat gccgataaag taatcatggg taagaaaatg 120

agcgaatggc tgaagttcgc catggcatgg tggcacactc tttgcgcaga aggtggtgac 180

caattcggtg gcggaacaaa gaaattcccc tggaacggtg aggctgacaa ggttcaggct 240

gccaagaaca aaatggacgc cggctttgaa ttcatgcaga aaatgggtat cgaatactac 300

tgcttccacg atgtagacct ctgcgaagaa gccgagacca ttgaagaata cgaagccaac 360

ttgaaggaaa tcgtagcgta tgccaagcag aaacaagcag aaaccggcat caaactgttg 420

tggggtactg ccaacgtatt cggccatgcc cgctacatga atggtgcagc caccaatccc 480

gatttcgatg ttgtggcacg tgccgccatc caaatcaaaa acgccatcga cgctactatc 540

gaactgggag gctcaaacta tgtattctgg ggcggtcgcg aaggctacat gtcattgctg 600

aatacagacc agaagcgtga gaaagagcac ctcgcacaga tgttgaccat cgcccgcgac 660

tatgcacgtg cccgcggctt caaaggtacc ttcttgattg aaccgaaacc gatggaacct 720

acaaaacacc agtatgatgt agacaccgaa accgttatcg gcttcttgaa ggctcacaat 780

ctggacaaag atttcaaggt gaacatcgaa gtgaaccacg ctactttggc gggccacacc 840

ttcgagcacg aactcgcagt agccgtagac aacggtatgc tcggctccat cgacgccaac 900

cgtggtgact accagaacgg ctgggataca gaccagttcc ccattgacaa cttcgaactg 960

acccaggcaa tgatgcaaat catccgtaac ggaggctttg gcaatggcgg tacaaacttc 1020

gatgccaaga cccgtcgcaa ctccaccgac ctggaagaca ttttcattgc ccacatcgcc 1080

ggtatggacg tgatggcacg tgcactggaa agtgcagcca aactgcttga agagtctcct 1140

tacaagaaga tgctggccga ccgctatgct tccttcgaca gtggtaaagg caaggaattt 1200

gaagatggca aactgacgct ggaggatttg gtagcttacg caaaagccaa cggtgagccg 1260

aaacagacca gcggcaagca ggaattgtat gaggcaatcg tgaatatgta ctgctaa 1317

<210> 2

<211> 1318

<212> DNA

<213> 人工序列

<220>

<223> Bacteroides uniformis经密码子优化的序列

<220>

<221> CDS

<222> (1)..(1314)

<400> 2

atg gct acc aag gaa tac ttc cca ggt att ggt aag atc aaa ttc gaa 48

Met Ala Thr Lys Glu Tyr Phe Pro Gly Ile Gly Lys Ile Lys Phe Glu

1 5 10 15

ggt aag gaa tcc aag aac cca atg gcc ttc aga tac tac gat gct gac 96

Gly Lys Glu Ser Lys Asn Pro Met Ala Phe Arg Tyr Tyr Asp Ala Asp

20 25 30

aag gtt atc atg ggt aag aag atg tct gaa tgg tta aag ttc gct atg 144

Lys Val Ile Met Gly Lys Lys Met Ser Glu Trp Leu Lys Phe Ala Met

35 40 45

gct tgg tgg cat acc ttg tgt gct gaa ggt ggt gac caa ttc ggt ggt 192

Ala Trp Trp His Thr Leu Cys Ala Glu Gly Gly Asp Gln Phe Gly Gly

50 55 60

ggt acc aag aaa ttc cca tgg aac ggt gaa gct gac aag gtc caa gct 240

Gly Thr Lys Lys Phe Pro Trp Asn Gly Glu Ala Asp Lys Val Gln Ala

65 70 75 80

gct aag aac aag atg gac gct ggt ttc gaa ttt atg caa aag atg ggt 288

Ala Lys Asn Lys Met Asp Ala Gly Phe Glu Phe Met Gln Lys Met Gly

85 90 95

att gaa tac tac tgt ttc cac gat gtt gac ttg tgt gaa gaa gct gaa 336

Ile Glu Tyr Tyr Cys Phe His Asp Val Asp Leu Cys Glu Glu Ala Glu

100 105 110

acc atc gaa gaa tac gaa gct aac ttg aag gaa att gtt gct tac gct 384

Thr Ile Glu Glu Tyr Glu Ala Asn Leu Lys Glu Ile Val Ala Tyr Ala

115 120 125

aag caa aag caa gct gaa act ggt atc aag cta tta tgg ggt act gct 432

Lys Gln Lys Gln Ala Glu Thr Gly Ile Lys Leu Leu Trp Gly Thr Ala

130 135 140

aac gtc ttt ggt cat gcc aga tac atg aac ggt gcc gct acc aac cca 480

Asn Val Phe Gly His Ala Arg Tyr Met Asn Gly Ala Ala Thr Asn Pro

145 150 155 160

gat ttc gat gtt gtt gcc aga gct gcc atc caa atc aag aac gcc atc 528

Asp Phe Asp Val Val Ala Arg Ala Ala Ile Gln Ile Lys Asn Ala Ile

165 170 175

gat gct acc att gaa tta ggt ggt tcc aac tac gtt ttc tgg ggt ggt 576

Asp Ala Thr Ile Glu Leu Gly Gly Ser Asn Tyr Val Phe Trp Gly Gly

180 185 190

aga gaa ggt tac atg tcc ttg ttg aac act gac caa aag aga gaa aag 624

Arg Glu Gly Tyr Met Ser Leu Leu Asn Thr Asp Gln Lys Arg Glu Lys

195 200 205

gaa cac ttg gct caa atg ttg acc att gct cgt gac tac gct cgt gcc 672

Glu His Leu Ala Gln Met Leu Thr Ile Ala Arg Asp Tyr Ala Arg Ala

210 215 220

aga ggt ttc aag ggt act ttc ttg att gaa cca aag cca atg gaa cca 720

Arg Gly Phe Lys Gly Thr Phe Leu Ile Glu Pro Lys Pro Met Glu Pro

225 230 235 240

acc aag cac caa tac gat gtt gac acc gaa act gtc atc ggt ttc ttg 768

Thr Lys His Gln Tyr Asp Val Asp Thr Glu Thr Val Ile Gly Phe Leu

245 250 255

aag gct cac aac ttg gac aag gac ttc aag gtc aac atc gaa gtc aac 816

Lys Ala His Asn Leu Asp Lys Asp Phe Lys Val Asn Ile Glu Val Asn

260 265 270

cac gct act ttg gcc ggt cac act ttc gaa cac gaa ttg gct gtt gct 864

His Ala Thr Leu Ala Gly His Thr Phe Glu His Glu Leu Ala Val Ala

275 280 285

gtc gac aac ggt atg ttg ggt tcc att gat gct aac aga ggt gac tac 912

Val Asp Asn Gly Met Leu Gly Ser Ile Asp Ala Asn Arg Gly Asp Tyr

290 295 300

caa aac ggt tgg gac acc gac caa ttc cca atc gac aac ttt gaa ttg 960

Gln Asn Gly Trp Asp Thr Asp Gln Phe Pro Ile Asp Asn Phe Glu Leu

305 310 315 320

act caa gct atg atg caa atc atc aga aac ggt ggt ttc ggt aac ggt 1008

Thr Gln Ala Met Met Gln Ile Ile Arg Asn Gly Gly Phe Gly Asn Gly

325 330 335

ggt acc aac ttc gat gct aag acc aga aga aac tct act gac ttg gaa 1056

Gly Thr Asn Phe Asp Ala Lys Thr Arg Arg Asn Ser Thr Asp Leu Glu

340 345 350

gat atc ttc atc gct cac att gcc ggt atg gat gtc atg gcc aga gct 1104

Asp Ile Phe Ile Ala His Ile Ala Gly Met Asp Val Met Ala Arg Ala

355 360 365

ttg gaa tct gct gct aaa tta ttg gaa gaa tct cct tac aag aag atg 1152

Leu Glu Ser Ala Ala Lys Leu Leu Glu Glu Ser Pro Tyr Lys Lys Met

370 375 380

ttg gct gac aga tac gct tct ttc gac tct ggt aag ggt aag gaa ttt 1200

Leu Ala Asp Arg Tyr Ala Ser Phe Asp Ser Gly Lys Gly Lys Glu Phe

385 390 395 400

gaa gat ggt aag ttg act ttg gaa gat ttg gtt gct tac gcc aag gct 1248

Glu Asp Gly Lys Leu Thr Leu Glu Asp Leu Val Ala Tyr Ala Lys Ala

405 410 415

aac ggt gaa cca aag caa act tct ggt aag caa gaa ttg tac gaa gcc 1296

Asn Gly Glu Pro Lys Gln Thr Ser Gly Lys Gln Glu Leu Tyr Glu Ala

420 425 430

att gtc aac atg tac tgt taag 1318

Ile Val Asn Met Tyr Cys

435

<210> 3

<211> 438

<212> PRT

<213> 人工序列

<220>

<223> 合成构建体

<400> 3

Met Ala Thr Lys Glu Tyr Phe Pro Gly Ile Gly Lys Ile Lys Phe Glu

1 5 10 15

Gly Lys Glu Ser Lys Asn Pro Met Ala Phe Arg Tyr Tyr Asp Ala Asp

20 25 30

Lys Val Ile Met Gly Lys Lys Met Ser Glu Trp Leu Lys Phe Ala Met

35 40 45

Ala Trp Trp His Thr Leu Cys Ala Glu Gly Gly Asp Gln Phe Gly Gly

50 55 60

Gly Thr Lys Lys Phe Pro Trp Asn Gly Glu Ala Asp Lys Val Gln Ala

65 70 75 80

Ala Lys Asn Lys Met Asp Ala Gly Phe Glu Phe Met Gln Lys Met Gly

85 90 95

Ile Glu Tyr Tyr Cys Phe His Asp Val Asp Leu Cys Glu Glu Ala Glu

100 105 110

Thr Ile Glu Glu Tyr Glu Ala Asn Leu Lys Glu Ile Val Ala Tyr Ala

115 120 125

Lys Gln Lys Gln Ala Glu Thr Gly Ile Lys Leu Leu Trp Gly Thr Ala

130 135 140

Asn Val Phe Gly His Ala Arg Tyr Met Asn Gly Ala Ala Thr Asn Pro

145 150 155 160

Asp Phe Asp Val Val Ala Arg Ala Ala Ile Gln Ile Lys Asn Ala Ile

165 170 175

Asp Ala Thr Ile Glu Leu Gly Gly Ser Asn Tyr Val Phe Trp Gly Gly

180 185 190

Arg Glu Gly Tyr Met Ser Leu Leu Asn Thr Asp Gln Lys Arg Glu Lys

195 200 205

Glu His Leu Ala Gln Met Leu Thr Ile Ala Arg Asp Tyr Ala Arg Ala

210 215 220

Arg Gly Phe Lys Gly Thr Phe Leu Ile Glu Pro Lys Pro Met Glu Pro

225 230 235 240

Thr Lys His Gln Tyr Asp Val Asp Thr Glu Thr Val Ile Gly Phe Leu

245 250 255

Lys Ala His Asn Leu Asp Lys Asp Phe Lys Val Asn Ile Glu Val Asn

260 265 270

His Ala Thr Leu Ala Gly His Thr Phe Glu His Glu Leu Ala Val Ala

275 280 285

Val Asp Asn Gly Met Leu Gly Ser Ile Asp Ala Asn Arg Gly Asp Tyr

290 295 300

Gln Asn Gly Trp Asp Thr Asp Gln Phe Pro Ile Asp Asn Phe Glu Leu

305 310 315 320

Thr Gln Ala Met Met Gln Ile Ile Arg Asn Gly Gly Phe Gly Asn Gly

325 330 335

Gly Thr Asn Phe Asp Ala Lys Thr Arg Arg Asn Ser Thr Asp Leu Glu

340 345 350

Asp Ile Phe Ile Ala His Ile Ala Gly Met Asp Val Met Ala Arg Ala

355 360 365

Leu Glu Ser Ala Ala Lys Leu Leu Glu Glu Ser Pro Tyr Lys Lys Met

370 375 380

Leu Ala Asp Arg Tyr Ala Ser Phe Asp Ser Gly Lys Gly Lys Glu Phe

385 390 395 400

Glu Asp Gly Lys Leu Thr Leu Glu Asp Leu Val Ala Tyr Ala Lys Ala

405 410 415

Asn Gly Glu Pro Lys Gln Thr Ser Gly Lys Gln Glu Leu Tyr Glu Ala

420 425 430

Ile Val Asn Met Tyr Cys

435

<210> 4

<211> 16176

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 4

tcgcgcgttt cggtgatgac ggtgaaaacc tcttgacaca tgcagctccc ggagacggtc 60

acagcttgtc tgtaagcgga tgccgggagc agacaagccc gtcagggcgc gtcagcgggt 120

gttggcgggt gtcggggctg gcttaactat gcggcatcag agcagattgt actgagagtg 180

caccatatgc ggtgtgaaat accgcacaga tgcgtaagga gaaaataccg catcaggcgc 240

cattcgccat tcaggctgcg caactgttgg gaagggcgat cggtgcgggc ctcttcgcta 300

ttacgccagc tggcgaaagg gggatgtgct gcaaggcgat taagttgggt aacgccaggg 360

ttttcccagt cacgacgttg taaaacgacg gccagtaagc ttgcatgcct gcaggtcgac 420

gcggccgcat attttttgta actgtaattt cactcatgca caagaaaaaa aaaactggat 480

taaaagggag cccaaggaaa actcctcagc atatatttag aagtctcctc agcatatagt 540

tgtttgtttt ctttacacat tcactgttta ataaaacttt tataatattt cattatcgga 600

actctagatt ctatacttgt ttcccaattg ggccgatcgg gccttgctgg tagtaaacgt 660

atacgtcata aaagggaaaa gccacatgcg gaagaatttt atggaaaaaa aaaaaacctc 720

gaagttacta cttctagggg gcctatcaag taaattactc ctggtacact gaagtatata 780

agggatatag aagcaaatag ttgtcagtgc aatccttcaa gacgattggg aaaatactgt 840

aggtaccgga gacctaacta catagtgttt aaagattacg gatatttaac ttacttagaa 900

taatgccatt tttttgagtt ataataatcc tacgttagtg tgagcgggat ttaaactgtg 960

aggaccttaa tacattcaga cacttctgcg gtatcaccct acttattccc ttcgagatta 1020

tatctaggaa cccatcaggt tggtggaaga ttacccgttc taagactttt cagcttcctc 1080

tattgatgtt acacctggac accccttttc tggcatccag tttttaatct tcagtggcat 1140

gtgagattct ccgaaattaa ttaaagcaat cacacaattc tctcggatac cacctcggtt 1200

gaaactgaca ggtggtttgt tacgcatgct aatgcaaagg agcctatata cctttggctc 1260

ggctgctgta acagggaata taaagggcag cataatttag gagtttagtg aacttgcaac 1320

atttactatt ttcccttctt acgtaaatat ttttcttttt aattctaaat caatcttttt 1380

caattttttg tttgtattct tttcttgctt aaatctataa ctacaaaaaa cacatacata 1440

aactaaaaat gtctgaacca gctcaaaaga aacaaaaggt tgctaacaac tctctagaac 1500

aattgaaagc ctccggcact gtcgttgttg ccgacactgg tgatttcggc tctattgcca 1560

agtttcaacc tcaagactcc acaactaacc catcattgat cttggctgct gccaagcaac 1620

caacttacgc caagttgatc gatgttgccg tggaatacgg taagaagcat ggtaagacca 1680

ccgaagaaca agtcgaaaat gctgtggaca gattgttagt cgaattcggt aaggagatct 1740

taaagattgt tccaggcaga gtctccaccg aagttgatgc tagattgtct tttgacactc 1800

aagctaccat tgaaaaggct agacatatca ttaaattgtt tgaacaagaa ggtgtctcca 1860

aggaaagagt ccttattaaa attgcttcca cttgggaagg tattcaagct gccaaagaat 1920

tggaagaaaa ggacggtatc cactgtaatt tgactctatt attctccttc gttcaagcag 1980

ttgcctgtgc cgaggcccaa gttactttga tttccccatt tgttggtaga attctagact 2040

ggtacaaatc cagcactggt aaagattaca agggtgaagc cgacccaggt gttatttccg 2100

tcaagaaaat ctacaactac tacaagaagt acggttacaa gactattgtt atgggtgctt 2160

ctttcagaag cactgacgaa atcaaaaact tggctggtgt tgactatcta acaatttctc 2220

cagctttatt ggacaagttg atgaacagta ctgaaccttt cccaagagtt ttggaccctg 2280

tctccgctaa gaaggaagcc ggcgacaaga tttcttacat cagcgacgaa tctaaattca 2340

gattcgactt gaatgaagac gctatggcca ctgaaaaatt gtccgaaggt atcagaaaat 2400

tctctgccga tattgttact ctattcgact tgattgaaaa gaaagttacc gcttaaggaa 2460

gtatctcgga aatattaatt taggccatgt ccttatgcac gtttcttttg atacttacgg 2520

gtacatgtac acaagtatat ctatatatat aaattaatga aaatccccta tttatatata 2580

tgactttaac gagacagaac agttttttat tttttatcct atttgatgaa tgatacagtt 2640

tcttattcac gtgttatacc cacaccaaat ccaatagcaa taccggccat cacaatcact 2700

gtttcggcag cccctaagat cagacaaaac atccggaacc accttaaatc aacgtcccat 2760

atgaatcctt gcagcaaagc cgctcgtacc ggagatatac aatagaacag ataccagaca 2820

agacataatg ggctaaacaa gactacacca attacactgc ctcattgatg gtggtacata 2880

acgaactaat actgtagccc tagacttgat agccatcatc atatcgaagt ttcactaccc 2940

tttttccatt tgccatctat tgaagtaata ataggcgcat gcaacttctt ttcttttttt 3000

ttcttttctc tctcccccgt tgttgtctca ccatatccgc aatgacaaaa aaatgatgga 3060

agacactaaa ggaaaaaatt aacgacaaag acagcaccaa cagatgtcgt tgttccagag 3120

ctgatgaggg gtatctcgaa gcacacgaaa ctttttcctt ccttcattca cgcacactac 3180

tctctaatga gcaacggtat acggccttcc ttccagttac ttgaatttga aataaaaaaa 3240

agtttgctgt cttgctatca agtataaata gacctgcaat tattaatctt ttgtttcctc 3300

gtcattgttc tcgttccctt tcttccttgt ttctttttct gcacaatatt tcaagctata 3360

ccaagcatac aatcaactat ctcatataca atgactcaat tcactgacat tgataagcta 3420

gccgtctcca ccataagaat tttggctgtg gacaccgtat ccaaggccaa ctcaggtcac 3480

ccaggtgctc cattgggtat ggcaccagct gcacacgttc tatggagtca aatgcgcatg 3540

aacccaacca acccagactg gatcaacaga gatagatttg tcttgtctaa cggtcacgcg 3600

gtcgctttgt tgtattctat gctacatttg actggttacg atctgtctat tgaagacttg 3660

aaacagttca gacagttggg ttccagaaca ccaggtcatc ctgaatttga gttgccaggt 3720

gttgaagtta ctaccggtcc attaggtcaa ggtatctcca acgctgttgg tatggccatg 3780

gctcaagcta acctggctgc cacttacaac aagccgggct ttaccttgtc tgacaactac 3840

acctatgttt tcttgggtga cggttgtttg caagaaggta tttcttcaga agcttcctcc 3900

ttggctggtc atttgaaatt gggtaacttg attgccatct acgatgacaa caagatcact 3960

atcgatggtg ctaccagtat ctcattcgat gaagatgttg ctaagagata cgaagcctac 4020

ggttgggaag ttttgtacgt agaaaatggt aacgaagatc tagccggtat tgccaaggct 4080

attgctcaag ctaagttatc caaggacaaa ccaactttga tcaaaatgac cacaaccatt 4140

ggttacggtt ccttgcatgc cggctctcac tctgtgcacg gtgccccatt gaaagcagat 4200

gatgttaaac aactaaagag caaattcggt ttcaacccag acaagtcctt tgttgttcca 4260

caagaagttt acgaccacta ccaaaagaca attttaaagc caggtgtcga agccaacaac 4320

aagtggaaca agttgttcag cgaataccaa aagaaattcc cagaattagg tgctgaattg 4380

gctagaagat tgagcggcca actacccgca aattgggaat ctaagttgcc aacttacacc 4440

gccaaggact ctgccgtggc cactagaaaa ttatcagaaa ctgttcttga ggatgtttac 4500

aatcaattgc cagagttgat tggtggttct gccgatttaa caccttctaa cttgaccaga 4560

tggaaggaag cccttgactt ccaacctcct tcttccggtt caggtaacta ctctggtaga 4620

tacattaggt acggtattag agaacacgct atgggtgcca taatgaacgg tatttcagct 4680

ttcggtgcca actacaaacc atacggtggt actttcttga acttcgtttc ttatgctgct 4740

ggtgccgtta gattgtccgc tttgtctggc cacccagtta tttgggttgc tacacatgac 4800

tctatcggtg tcggtgaaga tggtccaaca catcaaccta ttgaaacttt agcacacttc 4860

agatccctac caaacattca agtttggaga ccagctgatg gtaacgaagt ttctgccgcc 4920

tacaagaact ctttagaatc caagcatact ccaagtatca ttgctttgtc cagacaaaac 4980

ttgccacaat tggaaggtag ctctattgaa agcgcttcta agggtggtta cgtactacaa 5040

gatgttgcta acccagatat tattttagtg gctactggtt ccgaagtgtc tttgagtgtt 5100

gaagctgcta agactttggc cgcaaagaac atcaaggctc gtgttgtttc tctaccagat 5160

ttcttcactt ttgacaaaca acccctagaa tacagactat cagtcttacc agacaacgtt 5220

ccaatcatgt ctgttgaagt tttggctacc acatgttggg gcaaatacgc tcatcaatcc 5280

ttcggtattg acagatttgg tgcctccggt aaggcaccag aagtcttcaa gttcttcggt 5340

ttcaccccag aaggtgttgc tgaaagagct caaaagacca ttgcattcta taagggtgac 5400

aagctaattt ctcctttgaa aaaagctttc taaattctga tcgtagatca tcagatttga 5460

tatgatatta tttgtgaaaa aatgaaataa aactttatac aacttaaata caactttttt 5520

tataaacgat taagcaaaaa aatagtttca aacttttaac aatattccaa acactcagtc 5580

cttttccttc ttatattata ggtgtacgta ttatagaaaa atttcaatga ttactttttc 5640

tttctttttc cttgtaccag cacatggccg agcttgaatg ttaaaccctt cgagagaatc 5700

acaccattca agtataaagc caataaagaa tatcgtacca gagaattttg ccatcggaca 5760

tgctacctta cgcttatatc tctcattgga atatcgtttt ctgattaaaa cacggaagta 5820

agaacttaat tcgtttttcg ttgaactatg ttgtgccagc gtaacattaa aaaagagtgt 5880

acaaggccac gttctgtcac cgtcagaaaa atatgtcaat gaggcaagaa ccgggatggt 5940

aacaaaaatc acgatctggg tgggtgtggg tgtattggat tataggaagc cacgcgctca 6000

acctggaatt acaggaagct ggtaattttt tgggtttgca atcatcacca tctgcacgtt 6060

gttataatgt cccgtgtcta tatatatcca ttgacggtat tctatttttt tgctattgaa 6120

atgagcgttt tttgttacta caattggttt tacagacgga attttcccta tttgtttcgt 6180

cccatttttc cttttctcat tgttctcata tcttaaaaag gtcctttctt cataatcaat 6240

gctttctttt acttaatatt ttacttgcat tcagtgaatt ttaatacata ttcctctagt 6300

cttgcaaaat cgatttagaa tcaagatacc agcctaaaaa tggtcaaacc aattatagct 6360

cccagtatcc ttgcttctga cttcgccaac ttgggttgcg aatgtcataa ggtcatcaac 6420

gccggcgcag attggttaca tatcgatgtc atggacggcc attttgttcc aaacattact 6480

ctgggccaac caattgttac ctccctacgt cgttctgtgc cacgccctgg cgatgctagc 6540

aacacagaaa agaagcccac tgcgttcttc gattgtcaca tgatggttga aaatcctgaa 6600

aaatgggtcg acgattttgc taaatgtggt gctgaccaat ttacgttcca ctacgaggcc 6660

acacaagacc ctttgcattt agttaagttg attaagtcta agggcatcaa agctgcatgc 6720

gccatcaaac ctggtacttc tgttgacgtt ttatttgaac tagctcctca tttggatatg 6780

gctcttgtta tgactgtgga acctgggttt ggaggccaaa aattcatgga agacatgatg 6840

ccaaaagtgg aaactttgag agccaagttc ccccatttga atatccaagt cgatggtggt 6900

ttgggcaagg agaccatccc gaaagccgcc aaagccggtg ccaacgttat tgtcgctgga 6960

accagtgttt tcactgcagc tgacccgcac gatgttatct ccttcatgaa agaagaagtc 7020

tcgaaggaat tgcgttctag agatttgcta gattagttgt acatatgcgg catttcttat 7080

atttatactc tctatactat acgatatggt atttttttct cgttttgatc tcctaatata 7140

cataaaccga gccattccta ctatacaaga tacgtaagtg cctaactcat gggaaaaatg 7200

ggccgcccag ggtggtgcct tgtccgtttt cgatgatcaa tccctgggat gcagtatcgt 7260

caatgacact ccataaggct tccttaacca aagtcaaaga actcttcttt tcattctctt 7320

tcactttctt accgccatct agatcaatat ccatttcgta ccccgcggaa ccgccagata 7380

ttcattactt gacgcaaaag cgtttgaaat aatgacgaaa aagaaggaag aaaaaaaaag 7440

aaaaataccg cttctaggcg ggttatctac tgatccgagc ttccactagg atagcaccca 7500

aacacctgca tatttggacg acctttactt acaccaccaa aaaccacttt cgcctctccc 7560

gcccctgata acgtccacta attgagcgat tacctgagcg gtcctctttt gtttgcagca 7620

tgagacttgc atactgcaaa tcgtaagtag caacgtctca aggtcaaaac tgtatggaaa 7680

ccttgtcacc tcacttaatt ctagctagcc taccctgcaa gtcaagaggt ctccgtgatt 7740

cctagccacc tcaaggtatg cctctccccg gaaactgtgg ccttttctgg cacacatgat 7800

ctccacgatt tcaacatata aatagctttt gataatggca atattaatca aatttatttt 7860

acttctttct tgtaacatct ctcttgtaat cccttattcc ttctagctat ttttcataaa 7920

aaaccaagca actgcttatc aacacacaaa cactaaatca aaatggctgc cggtgtccca 7980

aaaattgatg cgttagaatc tttgggcaat cctttggagg atgccaagag agctgcagca 8040

tacagagcag ttgatgaaaa tttaaaattt gatgatcaca aaattattgg aattggtagt 8100

ggtagcacag tggtttatgt tgccgaaaga attggacaat atttgcatga ccctaaattt 8160

tatgaagtag cgtctaaatt catttgcatt ccaacaggat tccaatcaag aaacttgatt 8220

ttggataaca agttgcaatt aggctccatt gaacagtatc ctcgcattga tatagcgttt 8280

gacggtgctg atgaagtgga tgagaattta caattaatta aaggtggtgg tgcttgtcta 8340

tttcaagaaa aattggttag tactagtgct aaaaccttca ttgtcgttgc tgattcaaga 8400

aaaaagtcac caaaacattt aggtaagaac tggaggcaag gtgttcccat tgaaattgta 8460

ccttcctcat acgtgagggt caagaatgat ctattagaac aattgcatgc tgaaaaagtt 8520

gacatcagac aaggaggttc tgctaaagca ggtcctgttg taactgacaa taataacttc 8580

attatcgatg cggatttcgg tgaaatttcc gatccaagaa aattgcatag agaaatcaaa 8640

ctgttagtgg gcgtggtgga aacaggttta ttcatcgaca acgcttcaaa agcctacttc 8700

ggtaattctg acggtagtgt tgaagttacc gaaaagtgag cagatcaaag gcaaagacag 8760

aaaccgtagt aaaggttgac ttttcacaac agtgtctcca ttttttatat tgtattatta 8820

aagctattta gttatttgga tactgttttt tttccagaag ttttcttttt agtaaagtac 8880

aatccagtaa aaatgaagga tgaacaatcg gtgtatgcag attcaacacc aataaatgca 8940

atgtttattt ctttggaacg tttgtgttgt tcgaaatcca ggataatcct tcaacaagac 9000

cctgtccgga taaggcgtta ctaccgatga cacaccaagc tcgagtaacg gagcaagaat 9060

tgaaggatat ttctgcacta aatgccaaca tcagatttaa tgatccatgg acctggttgg 9120

atggtaaatt ccccactttt gcctgatcca gccagtaaaa tccatactca acgacgatat 9180

gaacaaattt ccctcattcc gatgctgtat atgtgtataa atttttacat gctcttctgt 9240

ttagacacag aacagcttta aataaaatgt tggatatact ttttctgcct gtggtgtcat 9300

ccacgctttt aattcatctc ttgtatggtt gacaatttgg ctatttttta acagaaccca 9360

acggtaattg aaattaaaag ggaaacgagt gggggcgatg agtgagtgat actaaaatag 9420

acaccaagag agcaaagcgg tcccagcggc cgcgaattcg gcgtaatcat ggtcatagct 9480

gtttcctgtg tgaaattgtt atccgctcac aattccacac aacatacgag ccggaagcat 9540

aaagtgtaaa gcctggggtg cctaatgagt gagctaactc acattaattg cgttgcgctc 9600

actgcccgct ttccagtcgg gaaacctgtc gtgccagctg cattaatgaa tcggccaacg 9660

cgcggggaga ggcggtttgc gtattgggcg ctcttccgct tcctcgctca ctgactcgct 9720

gcgctcggtc gttcggctgc ggcgagcggt atcagctcac tcaaaggcgg taatacggtt 9780

atccacagaa tcaggggata acgcaggaaa gaacatgtga gcaaaaggcc agcaaaaggc 9840

caggaaccgt aaaaaggccg cgttgctggc gtttttccat aggctccgcc cccctgacga 9900

gcatcacaaa aatcgacgct caagtcagag gtggcgaaac ccgacaggac tataaagata 9960

ccaggcgttt ccccctggaa gctccctcgt gcgctctcct gttccgaccc tgccgcttac 10020

cggatacctg tccgcctttc tcccttcggg aagcgtggcg ctttctcaat gctcacgctg 10080

taggtatctc agttcggtgt aggtcgttcg ctccaagctg ggctgtgtgc acgaaccccc 10140

cgttcagccc gaccgctgcg ccttatccgg taactatcgt cttgagtcca acccggtaag 10200

acacgactta tcgccactgg cagcagccac tggtaacagg attagcagag cgaggtatgt 10260

aggcggtgct acagagttct tgaagtggtg gcctaactac ggctacacta gaaggacagt 10320

atttggtatc tgcgctctgc tgaagccagt taccttcgga aaaagagttg gtagctcttg 10380

atccggcaaa caaaccaccg ctggtagcgg tggttttttt gtttgcaagc agcagattac 10440

gcgcagaaaa aaaggatctc aagaagatcc tttgatcttt tctacggggt ctgacgctca 10500

gtggaacgaa aactcacgtt aagggatttt ggtcatgaga ttatcaaaaa ggatcttcac 10560

ctagatcctt ttaaattaaa aatgaagttt taaatcaatc taaagtatat atgagtaaac 10620

ttggtctgac agttaccaat gcttaatcag tgaggcacct atctcagcga tctgtctatt 10680

tcgttcatcc atagttgcct gactccccgt cgtgtagata actacgatac gggagggctt 10740

accatctggc cccagtgctg caatgatacc gcgagaccca cgctcaccgg ctccagattt 10800

atcagcaata aaccagccag ccggaagggc cgagcgcaga agtggtcctg caactttatc 10860

cgcctccatc cagtctatta attgttgccg ggaagctaga gtaagtagtt cgccagttaa 10920

tagtttgcgc aacgttgttg ccattgctac aggcatcgtg gtgtcacgct cgtcgtttgg 10980

tatggcttca ttcagctccg gttcccaacg atcaaggcga gttacatgat cccccatgtt 11040

gtgcaaaaaa gcggttagct ccttcggtcc tccgatcgtt gtcagaagta agttggccgc 11100

agtgttatca ctcatggtta tggcagcact gcataattct cttactgtca tgccatccgt 11160

aagatgcttt tctgtgactg gtgagtactc aaccaagtca ttctgagaat agtgtatgcg 11220

gcgaccgagt tgctcttgcc cggcgtcaat acgggataat accgcgccac atagcagaac 11280

tttaaaagtg ctcatcattg gaaaacgttc ttcggggcga aaactctcaa ggatcttacc 11340

gctgttgaga tccagttcga tgtaacccac tcgtgcaccc aactgatctt cagcatcttt 11400

tactttcacc agcgtttctg ggtgagcaaa aacaggaagg caaaatgccg caaaaaaggg 11460

aataagggcg acacggaaat gttgaatact catactcttc ctttttcaat attattgaag 11520

catttatcag ggttattgtc tcatgagcgg atacatattt gaatgtattt agaaaaataa 11580

acaaataggg gttccgcgca catttccccg aaaagtgcca cctgacgtca actatacaaa 11640

tgacaagttc ttgaaaacaa gaatcttttt attgtcagta ctgattagaa aaactcatcg 11700

agcatcaaat gaaactgcaa tttattcata tcaggattat caataccata tttttgaaaa 11760

agccgtttct gtaatgaagg agaaaactca ccgaggcagt tccataggat ggcaagatcc 11820

tggtatcggt ctgcgattcc gactcgtcca acatcaatac aacctattaa tttcccctcg 11880

tcaaaaataa ggttatcaag tgagaaatca ccatgagtga cgactgaatc cggtgagaat 11940

ggcaaaagct tatgcatttc tttccagact tgttcaacag gccagccatt acgctcgtca 12000

tcaaaatcac tcgcatcaac caaaccgtta ttcattcgtg attgcgcctg agcgagacga 12060

aatacgcgat cgctgttaaa aggacaatta caaacaggaa tcgaatgcaa ccggcgcagg 12120

aacactgcca gcgcatcaac aatattttca cctgaatcag gatattcttc taatacctgg 12180

aatgctgttt tgccggggat cgcagtggtg agtaaccatg catcatcagg agtacggata 12240

aaatgcttga tggtcggaag aggcataaat tccgtcagcc agtttagtct gaccatctca 12300

tctgtaacat cattggcaac gctacctttg ccatgtttca gaaacaactc tggcgcatcg 12360

ggcttcccat acaatcgata gattgtcgca cctgattgcc cgacattatc gcgagcccat 12420

ttatacccat ataaatcagc atccatgttg gaatttaatc gcggcctcga aacgtgagtc 12480

ttttccttac ccatggttgt ttatgttcgg atgtgatgtg agaactgtat cctagcaaga 12540

ttttaaaagg aagtatatga aagaagaacc tcagtggcaa atcctaacct tttatatttc 12600

tctacagggg cgcggcgtgg ggacaattca acgcgactgt gacgcgttct agaacacaca 12660

atatgcatgt aatcgctgat tttttttgtt ttagaagctc tatcttcagg taaaaatgag 12720

tagagaaaaa aaaacatact ggatcgatgc agaattaggg ggttattatc ctgcaggtac 12780

atgattttca gtgggaacat tgctttttag tagtccggtt ctcaacaact tgtctaagtg 12840

ttgaaaacaa aagaaatggc gtagaaacaa agtagtgtaa gtaaatctgc caatgttcta 12900

tgtataaaaa gtaaaggcaa gaagaggttc tatgcatatt tctgaaaata tctaatacac 12960

tattataatg catcaagaaa ctgtcgtatg atgaagtgcc tatgagtttt tgtgtacgtg 13020

cttctctagt atgtagccgg ttttctcttt ttacctcttt ttactactta tactactact 13080

tttactacct ttcttccacg taatctagat ctcaagccac aattcttgcc ctatgctcca 13140

acgtatacaa catcgaagaa gagtctttct ttagggagtc attggaaaag atagtatgat 13200

ggtattcgat ttacctatgt cgcaaaagaa agtccggggc aacaccacag aatgctttct 13260

ctgtactaat aacctgttgt gcgcttaacg gtctaatcgt taatcagcgg tggttaaatt 13320

tttgtaaatc taatgttcca tgattttctt tcttcaaaag gaacatgtag cgaaaatctt 13380

ttttttactt tgatacactg caattgtttc tgagcatgct gaaattttct cgatgttttt 13440

tttttttatt ggcatccaag taattaatcc ttatgctacg aaaaagttgt aggaatgaat 13500

catgcataat ctaacggata tcatcatata ctctgtgcta atattctaaa caagttcgaa 13560

aatattttct tggcccatgt aataggtggt aagtgtattg ctttgatagg aacgtcatta 13620

tcgcacaaga caatcggcac taataaccgt ttaaatatta tcatgcatgt atacatcagt 13680

atctcataga aatatacctg taagtacata cttatctaag tataaattct cgacctatgg 13740

agtcaccaca tttcccagca acttccccac ttcctctgca atcgccaacg tcctctcttc 13800

actgagtctc cgtccgataa cctgcactgc aaccggtgcc ccatggtacg cctccggatc 13860

atactcttcc tgcacgaggg catcaagctc actaaccgcc ttgaaactct cattcttctt 13920

atcgatgttc ttatccgcaa aggtaaccgg aacaaccacg ctcgtgaaat ccagcaggtt 13980

gatcacagag gcatacccat agtaccggaa ctggtcatgc cgtaccgcag cggtaggcgt 14040

aatcggcgcg atgatggcgt ccagttcctt cccggccttt tcttcagcct cccgccattt 14100

ctcaaggtac tccatctggt aattccactt ctggagatgc gtgtcccaga gctcgttcat 14160

gttaacagct ttgatgttcg ggttcagtag gtctttgata tttggaatcg ccggctcgcc 14220

ggatgcactg atatcgcgca ttacgtcggc gctgccgtca gccgcgtaga tatgggagat 14280

gagatcgtgg ccgaaatcgt gcttgtatgg cgtccacggg gtcacggtgt gaccggcttt 14340

ggcgagtgcg gcgacggtgg tttccacgcc gcgcaggata ggagggtgtg gaaggacatt 14400

gccgtcgaag ttgtagtagc cgatattgag cccgccgttc ttgatcttgg aggcaataat 14460

gtccgactcg gactggcgcc agggcatggg gatgaccttg gagtcgtatt tccatggctc 14520

ctgaccgagg acggatttgg tgaagaggcg gaggtcctca acagagtgcg taatcggccc 14580

gacaacgctg tgcaccgtct cctgaccctc catgctgttc gccatctttg catacggcag 14640

ccgcccatga ctcggcctta gaccgtacag gaagttgaac gcggccggca ctcgaatcga 14700

gccaccgata tccgttccta caccgatgac gccaccacga atcccaacga tcgcaccctc 14760

accaccagaa ctgccgccgc acgaccagtt cttgttgcgt gggttgacgg tgcgcccgat 14820

gatgttgttg actgtctcgc agaccatcag ggtctgcggg acagaggtct tgacgtagaa 14880

gacggcaccg gctttgcgga gcatggttgt cagaaccgag tccccttcgt cgtacttgtt 14940

tagccatgag atgtagccca ttgatgtttc gtagcccttg actcgaagct ggtctttgag 15000

agagatgggg aggccatgga gtggaccaac gggtctcttg tgctttgcgt agtattcatc 15060

gagttccctt gcctgcgcga gagcggcgtc agggaagaac tcgtgggcgc agtttgttaa 15120

ctgctgggcg attgctgccc gtttacagaa tgctagcgta acttccaccg aggtcaactc 15180

tccggccgcc agcttggaca caagatctgc agcggaggcc tctgtgatct tcagttcggc 15240

ctctgaaagg atccccgatt tctttgggaa atcaataacg ctgtcttccg caggcagcgt 15300

ctggactttc cattcatcag ggatggtttt tgcgaggcgg gcgcgcttat cagcggccag 15360

ttcttcccag gattgaggca ttgtatatga gatagttgat tgtatgcttg gtatagcttg 15420

aaatattgtg cagaaaaaga aacaaggaag aaagggaacg agaacaatga cgaggaaaca 15480

aaagattaat aattgcaggt ctatttatac ttgatagcaa agcggcaaac tttttttatt 15540

tcaaattcaa gtaactggaa ggaaggccgt ataccgttgc tcattagaga gtagtgtgcg 15600

tgaatgaagg aaggaaaaag tttcgtgtgt tcgaagatac ccctcatcag ctctggaaca 15660

acgacatctg ttggtgctgt ctttgtcgtt aattttttcc tttagtgtct tccatcattt 15720

tttttgtcat tgcggatatg gtgagacaac aacgggggag agagaaaaga aaaaaaaaga 15780

aaagaagttg catgcgccta ttattacttc aatagatggc aaatggaaaa agggtagtga 15840

aacttcgata tgatgatggc tatcaagtct agggctacag tattagttcg ttatgtacca 15900

ccatcaatga ggcagtgtaa tttgtgtagt cttgtttagc ccattatgtc ttgtctggta 15960

tctgttctat tgtatatctc ccctccgcca cctacatgtt agggagacca acgaaggtat 16020

tataggaatc ccgatgtatg ggtttggttg ccagaaaaga ggaagtccat attgtacacc 16080

cggaaacaac aaaaggatgg gcccatgacg tctaagaaac cattattatc atgacattaa 16140

cctataaaaa taggcgtatc acgaggccct ttcgtc 16176

<210> 5

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 5

gaaatgggcg cattactaca ag 22

<210> 6

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 6

caccaacctg atgggttcct ag 22

<210> 7

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 7

acgccagggt tttcccagtc ac 22

<210> 8

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 8

ccagcaccct aagccgacta gg 22

<210> 9

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 9

acggtgctga tgaagtggat g 21

<210> 10

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 10

accacgccca ctaacagttt g 21

<210> 11

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 11

ggggggtacc ctggatggcg gcgttagtat cg 32

<210> 12

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 12

ggggggtacc tcacagtcgc gttgaattgt cc 32

<210> 13

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 13

ccaaggcagc ggtacatcaa gtag 24

<210> 14

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 14

tgcacatgtt gtccatcaag atg 23

<210> 15

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 15

ggaaacagct atgacatgat tacg 24

<210> 16

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 16

gtagcgaaat catgtattgc acc 23

<210> 17

<211> 18215

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 17

ggccaagatg gccgatctgc atttttcata ataatcctcg gtactttcta caagatcaat 60

taaattccaa tcaaaaatcg tcttttgcaa gattttgaag tcacagtact tttcattttc 120

aatgtcaaca gcgccccatt tgtattgtct tcctttaact ttttcgccct tttcattaaa 180

aatgtactca ttagatgcaa ttatactgaa tggatatttt tgaaaaatat cttgtgttgc 240

attcaaaact tcatcgccga aaaagaaaca tacagggata tcttgtactc ttattatttc 300

tctaacttgt gttttgaagt ttttcaattc ctctttcgtt agcaaatctg atttagcaat 360

aaccgggatt aaattcactc tcttcgctaa ttttttcatt gttacgacgt ctaaagtatc 420

aattccctta tttgaaggtc tcagaaagta caaacaacaa tggactctat tatcaaccat 480

ttttgtccta tcaggttgtt cttcttggaa aatgtacgat cttatttctt catcaatata 540

gtttctagac tgcagcccgg gatccgtcga caagcttgtg gagaggtgac ttcatgaacc 600

aagtgtctgt cgatatacaa caaaaaggaa ccattttcat cttgatggac aacatgtgca 660

tcaaaaacct tatcgtaaag agttcttgga cccttggatg gagtgtaaac catgatttaa 720

aacagcaaat aataaaaatc gatagcgaca aaaactgtca atttcaatat tctttatatt 780

tgttgactgc ttagatattt tgagaaaatt cagcggaaac agcgtgatga gtgagttaag 840

ttctgctgtt taaataagta ttcaactact attgaagccg actcatgaag ccggttacgg 900

acaaaaccgg gcaaatttcg ccggtcccgg aattttcgtt tccgcaataa aagaaccgct 960

catcatcata gcgccagggt agtatactat agaaggtcag actaaactga gtcatctaga 1020

gtaatgacgc cttagtagct tttacatctt cataagaaaa ggaaacttgt agaatggcct 1080

ggcgatttgt ttgctttctt gtgatgaaga aatttcgatg cgattaaccg gcaaaatcag 1140

taaaggtatt tcgcggaggc ggccttcaat catcgaatac tacgtcttaa tatgatgtac 1200

tgtggttcat attttcaagt agtgttagta aatttgtata cgttcatgta agtgtgtatc 1260

ttgagtgtct gtatgggcgc ataaacgtaa gcgagacttc caaatggagc aaacgagaag 1320

agatctttaa agtattatag aagagctggg caggaactat tatgacgtaa agccttgacc 1380

ataataaaga cgattctttg tccctctata caaacatctt gcaaagatac caaatatttt 1440

caaatcctac tcaataaaaa attaatgaat aaattagtgt gtgtgcatta tatatattaa 1500

aaattaagaa ttagactaaa taaagtgttt ctaaaaaaat attaaagttg aaatgtgcgt 1560

gttgtgaatt gtgctctatt agaataatta tgacttgtgt gcgtttcata ttttaaaata 1620

ggaaataacc aagaaagaaa aagtaccatc cagagaaacc aattatatca aatcaaataa 1680

aacaaccagc ttcggtgtgt gtgtgtgtgt gaagctaaga gttgatgcca tttaatctaa 1740

aaattttaag gtgtgtgtgt ggataaaata ttagaatgac aattcgaatt gcgtacctta 1800

gtcaaaaaat tagcctttta attctgctgt aacccgtaca tgcccaaaat agggggcggg 1860

ttacacagaa tatataacat cgtaggtgtc tgggtgaaca gtttattcct ggcatccact 1920

aaatataatg gagcccgctt tttaagctgg catccagaaa aaaaaagaat cccagcacca 1980

aaatattgtt ttcttcacca accatcagtt cataggtcca ttctcttagc gcaactacag 2040

agaacagggg cacaaacagg caaaaaacgg gcacaacctc aatggagtga tgcaacctgc 2100

ctggagtaaa tgatgacaca aggcaattga cccacgcatg tatctatctc attttcttac 2160

accttctatt accttctgct ctctctgatt tggaaaaagc tgaaaaaaaa ggttgaaacc 2220

agttccctga aattattccc ctacttgact aataagtata taaagacggt aggtattgat 2280

tgtaattctg taaatctatt tcttaaactt cttaaattct acttttatag ttagtctttt 2340

ttttagtttt aaaacaccaa gaacttagtt tcgaataaac acacataaac aaacaaaatg 2400

ttatcagtac ctgattatga gttttggttt gttaccggtt cacaacacct ttatggtgaa 2460

gaacaattga agtctgttgc taaggatgcg caagatattg cggataaatt gaatgcaagc 2520

ggcaagttac cttataaagt agtctttaag gatgttatga cgacggctga aagtatcacc 2580

aactttatga aagaagttaa ttacaatgat aaggtagccg gtgttattac ttggatgcac 2640

acattctcac cagctaagaa ctggattcgt ggaactgaac tgttacaaaa accattatta 2700

cacttagcaa cgcaatattt gaataatatt ccatatgcag acattgactt tgattacatg 2760

aaccttaacc aaagtgccca tggcgaccgc gagtatgcct acattaacgc ccggttgcag 2820

aaacataata agattgttta cggctattgg ggcgatgaag atgtgcaaga gcagattgca 2880

cgttgggaag acgtcgccgt agcgtacaat gagagcttta aagttaaggt tgctcgcttt 2940

ggcgacacaa tgcgtaatgt ggccgttact gaaggtgaca aggttgaggc tcaaattaag 3000

atgggctgga cagttgacta ttatggtatc ggtgacttag ttgaagagat caataaggtt 3060

tcggatgctg atgttgataa ggaatacgct gacttggagt ctcggtatga aatggtccaa 3120

ggtgataacg atgcggacac gtataaacat tcagttcggg ttcaattggc acaatatctg 3180

ggtattaagc ggttcttaga aagaggcggt tacacagcct ttaccacgaa ctttgaagat 3240

ctttggggga tggagcaatt acctggtcta gcttcacaat tattaattcg tgatgggtat 3300

ggttttggtg ctgaaggtga ctggaagacg gctgctttag gacgggttat gaagattatg 3360

tctcacaaca agcaaaccgc ctttatggaa gactacacgt tagacttgcg tcatggtcat 3420

gaagcgatct taggttcaca catgttggaa gttgatccgt ctatcgcaag tgataaacca 3480

cgggtcgaag ttcatccatt ggatattggg ggtaaagatg atcctgctcg cctagtattt 3540

actggttcag aaggtgaagc aattgatgtc accgttgccg atttccgtga tgggttcaag 3600

atgattagct acgcggtaga tgcgaataag ccagaagccg aaacacctaa tttaccagtt 3660

gctaagcaat tatggacccc aaagatgggc ttaaagaaag gtgcactaga atggatgcaa 3720

gctggtggtg gtcaccacac gatgctgtcc ttctcgttaa ctgaagaaca aatggaagac 3780

tatgcaacca tggttggcat gactaaggca ttcttaaagt aagtgaattt actttaaatc 3840

ttgcatttaa ataaattttc tttttatagc tttatgactt agtttcaatt tatatactat 3900

tttaatgaca ttttcgattc attgattgaa agctttgtgt tttttcttga tgcgctattg 3960

cattgttctt gtctttttcg ccacatgtaa tatctgtagt agatacctga tacattgtgg 4020

atgctgagtg aaattttagt taataatgga ggcgctctta ataattttgg ggatattggc 4080

tttttttttt aaagtttaca aatgaatttt ttccgccagg atcgtacgcc gcggaaccgc 4140

cagatattca ttacttgacg caaaagcgtt tgaaataatg acgaaaaaga aggaagaaaa 4200

aaaaagaaaa ataccgcttc taggcgggtt atctactgat ccgagcttcc actaggatag 4260

cacccaaaca cctgcatatt tggacgacct ttacttacac caccaaaaac cactttcgcc 4320

tctcccgccc ctgataacgt ccactaattg agcgattacc tgagcggtcc tcttttgttt 4380

gcagcatgag acttgcatac tgcaaatcgt aagtagcaac gtctcaaggt caaaactgta 4440

tggaaacctt gtcacctcac ttaattctag ctagcctacc ctgcaagtca agaggtctcc 4500

gtgattccta gccacctcaa ggtatgcctc tccccggaaa ctgtggcctt ttctggcaca 4560

catgatctcc acgatttcaa catataaata gcttttgata atggcaatat taatcaaatt 4620

tattttactt ctttcttgta acatctctct tgtaatccct tattccttct agctattttt 4680

cataaaaaac caagcaactg cttatcaaca cacaaacact aaatcaaaat gaatttagtt 4740

gaaacagccc aagcgattaa aactggcaaa gtttctttag gaattgagct tggctcaact 4800

cgaattaaag ccgttttgat cacggacgat tttaatacga ttgcttcggg aagttacgtt 4860

tgggaaaacc aatttgttga tggtacttgg acttacgcac ttgaagatgt ctggaccgga 4920

attcaacaaa gttatacgca attagcagca gatgtccgca gtaaatatca catgagtttg 4980

aagcatatca atgctattgg cattagtgcc atgatgcacg gatacctagc atttgatcaa 5040

caagcgaaat tattagttcc gtttcggact tggcgtaata acattacggg gcaagcagca 5100

gatgaattga ccgaattatt tgatttcaac attccacaac ggtggagtat cgcacactta 5160

taccaggcaa tcttaaataa tgaagcgcac gttaaacagg tggacttcat aacaacgctg 5220

gctggctatg taacctggaa attgtcgggt gagaaagttc taggaatcgg tgatgcgtct 5280

ggcgttttcc caattgatga aacgactgac acatacaatc agacgatgtt aaccaagttt 5340

agccaacttg acaaagttaa accgtattca tgggatatcc ggcatatttt accgcgggtt 5400

ttaccagcgg gagccattgc tggaaagtta acggctgccg gggcgagctt acttgatcag 5460

agcggcacgc tcgacgctgg cagtgttatt gcaccgccag aaggggatgc tggaacagga 5520

atggtcggta cgaacagcgt ccgtaaacgc acgggtaaca tctcggtggg aacctcagca 5580

ttttcgatga acgttctaga taaaccattg tctaaagtct atcgcgatat tgatattgtt 5640

atgacgccag atgggtcacc agttgcaatg gtgcatgtta ataattgttc atcagatatt 5700

aatgcgtggg caacgatttt tcatgagttt gcagcccggt tgggaatgga attgaaaccg 5760

gatcgattat atgaaacgtt attcttggaa tcaactcgcg ctgatgcgga tgctggaggg 5820

ttggctaatt atagttatca atccggtgag aatattacta agattcaagc tggtcggccg 5880

ctatttgtac ggacaccaaa cagtaaattt agtttaccga actttatgtt gactcaatta 5940

tatgcggcgt tcgcacccct ccaacttggt atggatattc ttgttaacga agaacatgtt 6000

caaacggacg ttatgattgc acagggtgga ttgttccgaa cgccggtaat tggccaacaa 6060

gtattggcca acgcactgaa cattccgatt actgtaatga gtactgctgg tgaaggcggc 6120

ccatggggga tggcagtgtt agccaacttt gcttgtcggc aaactgcaat gaacctagaa 6180

gatttcttag atcaagaagt ctttaaagag ccagaaagta tgacgttgag tccagaaccg 6240

gaacgggtgg ccggatatcg tgaatttatt caacgttatc aagctggctt accagttgaa 6300

gcagcggctg ggcaagcaat caaatattag agcttttgat taagccttct agtccaaaaa 6360

acacgttttt ttgtcattta tttcattttc ttagaatagt ttagtttatt cattttatag 6420

tcacgaatgt tttatgattc tatatagggt tgcaaacaag catttttcat tttatgttaa 6480

aacaatttca ggtttacctt ttattctgct tgtggtgacg cgggtatccg cccgctcttt 6540

tggtcaccca tgtatttaat tgcataaata attcttaaaa gtggagctag tctatttcta 6600

tttacatacc tctcatttct catttcctcc actagtagag aattttgcca tcggacatgc 6660

taccttacgc ttatatctct cattggaata tcgttttctg attaaaacac ggaagtaaga 6720

acttaattcg tttttcgttg aactatgttg tgccagcgta acattaaaaa agagtgtaca 6780

aggccacgtt ctgtcaccgt cagaaaaata tgtcaatgag gcaagaaccg ggatggtaac 6840

aaaaatcacg atctgggtgg gtgtgggtgt attggattat aggaagccac gcgctcaacc 6900

tggaattaca ggaagctggt aattttttgg gtttgcaatc atcaccatct gcacgttgtt 6960

ataatgtccc gtgtctatat atatccattg acggtattct atttttttgc tattgaaatg 7020

agcgtttttt gttactacaa ttggttttac agacggaatt ttccctattt gtttcgtccc 7080

atttttcctt ttctcattgt tctcatatct taaaaaggtc ctttcttcat aatcaatgct 7140

ttcttttact taatatttta cttgcattca gtgaatttta atacatattc ctctagtctt 7200

gcaaaatcga tttagaatca agataccagc ctaaaaatgc tagaagcatt aaaacaagaa 7260

gtttatgagg ctaacatgca gcttccaaag ctgggcctgg ttacttttac ctggggcaat 7320

gtctcgggca ttgaccggga aaaaggccta ttcgtgatca agccatctgg tgttgattat 7380

ggtgaattaa aaccaagcga tttagtcgtt gttaacttac agggtgaagt ggttgaaggt 7440

aaactaaatc cgtctagtga tacgccgact catacggtgt tatataacgc ttttcctaat 7500

attggcggaa ttgtccatac tcattcgcca tgggcagttg cctatgcagc tgctcaaatg 7560

gatgtgccag ctatgaacac gacccatgct gatacgttct atggtgacgt gccggccgcg 7620

gatgcgctga ctaaggaaga aattgaagca gattatgaag gcaacacggg taaaaccatt 7680

gtgaagacgt tccaagaacg gggcctcgat tatgaagctg taccagcctc attagtcagc 7740

cagcacggcc catttgcttg gggaccaacg ccagctaaag ccgtttacaa tgctaaagtg 7800

ttggaagtgg ttgccgaaga agattatcat actgcgcaat tgacccgtgc aagtagcgaa 7860

ttaccacaat atttattaga taagcattat ttacgtaagc atggtgcaag tgcctattat 7920

ggtcaaaata atgcgcattc taaggatcat gcagttcgca agtaaacaaa tcgctcttaa 7980

atatatacct aaagaacatt aaagctatat tataagcaaa gatacgtaaa ttttgcttat 8040

attattatac acatatcata tttctatatt tttaagattt ggttatataa tgtacgtaat 8100

gcaaaggaaa taaattttat acattattga acagcgtcca agtaactaca ttatgtgcac 8160

taatagttta gcgtcgtgaa gactttattg tgtcgcgaaa agtaaaaatt ttaaaaatta 8220

gagcaccttg aacttgcgaa aaaggttctc atcaactgtt taaaaacgcg tgtcttctgt 8280

gtttcagttc agggcttttc ggaggatgtg aatcgacggc gtactgtcct tgggaacttt 8340

gtctacgtat tttcacttcc tcagcgaatc cagagactat cttgggaaat tcgacaggac 8400

agtctgttga caaccgactc ccttttgact tcataataaa aattcaatga cgcaaaagga 8460

attttaggtt tttattattt atttatttat ttctgttaat tgatcctttt ctttccacta 8520

ccaacaacaa aaaagggggg aaaaagatgt ataatctaaa agacactaat ctgctcttga 8580

tatccttatt atgtaatgga ataactcata taaatgtaaa atagaacttc aaattaatat 8640

tataatgata gtcgaggtca gacacactta taatacatta agtaaagaaa aaaaaatgtc 8700

tgtcatcgag gtctcttttg tgtcgctaac aaaacatcac taaatacgaa gacactttgc 8760

atgggaagga tgcagcaaat ggcaaactaa cgggccattg attggtttac ctcttctatt 8820

tgtattacga ccagaaagaa cgaatggttt tcatcaatga ggtaggaaac gacctaaata 8880

taatgtagca tagataaaat ctttgtactg tatggttgca atgccttctt gattagtatc 8940

gaatttcctg aataattttg ttaatctcat tagccaaact aacgcctcaa cgaatttatc 9000

aaactttagt tcttttcctg ttccatttct gtttataaac tcagcatatt ggtcaaatgt 9060

tttctcgcta acttcaaaag gtattagata tcctagttct tgaagtgagt tatgaaattc 9120

gcttacagaa atggtgagcg atccgttgat atcattgtcc acataaactt ttctccaact 9180

tttcactctt ttgtataggg cgatgaattc tgcctggttg acagtgccaa acctggaagc 9240

accaaataaa tttatcagcg catctactga tgatatacaa aaatgggagt tgtcgtcgtt 9300

ttgtagtaag ttctgtagtt cctcagctgt cagtcggttt ttgcccttta catcatggtt 9360

atgaaatagc tgtgtggcca cttgcatgtc tcgtacatct tctctgctat cgaacgaagc 9420

aggtgcaact ttcttcaaga gttgtgcagg cactgcttga ttgtgaatta ggggaggagg 9480

agaggaagct atccgttgag cggaagtgtt caagttgtta taatgggttg gcgctggagg 9540

tataggcctg cctgctggtt tctgtgcgat aacattatat ctaggatcca caggtgtttt 9600

cgtatgtctt ggagaataac tttggggaga accataggag tggtgaccgt tttctgctct 9660

gtttttgtta tattgagttt gtaagggaat tggagctgag tggactctag tgttgggagt 9720

ttgtgcttga gtaaccggta ccacggctcc tcgctgcaga cctgcgagca gggaaacgct 9780

cccctcacag tcgcgttgaa ttgtccccac gccgcgcccc tgtagagaaa tataaaaggt 9840

taggatttgc cactgaggtt cttctttcat atacttcctt ttaaaatctt gctaggatac 9900

agttctcaca tcacatccga acataaacaa ccatgggtaa ggaaaagact cacgtttcga 9960

ggccgcgatt aaattccaac atggatgctg atttatatgg gtataaatgg gctcgcgata 10020

atgtcgggca atcaggtgcg acaatctatc gattgtatgg gaagcccgat gcgccagagt 10080

tgtttctgaa acatggcaaa ggtagcgttg ccaatgatgt tacagatgag atggtcagac 10140

taaactggct gacggaattt atgcctcttc cgaccatcaa gcattttatc cgtactcctg 10200

atgatgcatg gttactcacc actgcgatcc ccggcaaaac agcattccag gtattagaag 10260

aatatcctga ttcaggtgaa aatattgttg atgcgctggc agtgttcctg cgccggttgc 10320

attcgattcc tgtttgtaat tgtcctttta acagcgatcg cgtatttcgt ctcgctcagg 10380

cgcaatcacg aatgaataac ggtttggttg atgcgagtga ttttgatgac gagcgtaatg 10440

gctggcctgt tgaacaagtc tggaaagaaa tgcataagct tttgccattc tcaccggatt 10500

cagtcgtcac tcatggtgat ttctcacttg ataaccttat ttttgacgag gggaaattaa 10560

taggttgtat tgatgttgga cgagtcggaa tcgcagaccg ataccaggat cttgccatcc 10620

tatggaactg cctcggtgag ttttctcctt cattacagaa acggcttttt caaaaatatg 10680

gtattgataa tcctgatatg aataaattgc agtttcattt gatgctcgat gagtttttct 10740

aatcagtact gacaataaaa agattcttgt tttcaagaac ttgtcatttg tatagttttt 10800

ttatattgta gttgttctat tttaatcaaa tgttagcgtg atttatattt tttttcgcct 10860

cgacatcatc tgcccagatg cgaagttaag tgcgcagaaa gtaatatcat gcgtcaatcg 10920

tatgtgaatg ctggtcgcta tactgctgtc gattcgatac taacgccgcc atccagggta 10980

ccatcctttt gttgtttccg ggtgtacaat atggacttcc tcttttctgg caaccaaacc 11040

catacatcgg gattcctata ataccttcgt tggtctccct aacatgtagg tggcggaggg 11100

gagatataca atagaacaga taccagacaa gacataatgg gctaaacaag actacaccaa 11160

ttacactgcc tcattgatgg tggtacataa cgaactaata ctgtagccct agacttgata 11220

gccatcatca tatcgaagtt tcactaccct ttttccattt gccatctatt gaagtaataa 11280

taggcgcatg caacttcttt tctttttttt tcttttctct ctcccccgtt gttgtctcac 11340

catatccgca atgacaaaaa aaatgatgga agacactaaa ggaaaaaatt aacgacaaag 11400

acagcaccaa cagatgtcgt tgttccagag ctgatgaggg gtatcttcga acacacgaaa 11460

ctttttcctt ccttcattca cgcacactac tctctaatga gcaacggtat acggccttcc 11520

ttccagttac ttgaatttga aataaaaaaa gtttgccgct ttgctatcaa gtataaatag 11580

acctgcaatt attaatcttt tgtttcctcg tcattgttct cgttcccttt cttccttgtt 11640

tctttttctg cacaatattt caagctatac caagcataca atcaactatc tcatatacaa 11700

tgcctcaatc ctgggaagaa ctggccgctg ataagcgcgc ccgcctcgca aaaaccatcc 11760

ctgatgaatg gaaagtccag acgctgcctg cggaagacag cgttattgat ttcccaaaga 11820

aatcggggat cctttcagag gccgaactga agatcacaga ggcctccgct gcagatcttg 11880

tgtccaagct ggcggccgga gagttgacct cggtggaagt tacgctagca ttctgtaaac 11940

gggcagcaat cgcccagcag ttaacaaact gcgcccacga gttcttccct gacgccgctc 12000

tcgcgcaggc aagggaactc gatgaatact acgcaaagca caagagaccc gttggtccac 12060

tccatggcct ccccatctct ctcaaagacc agcttcgagt caagggctac gaaacatcaa 12120

tgggctacat ctcatggcta aacaagtacg acgaagggga ctcggttctg acaaccatgc 12180

tccgcaaagc cggtgccgtc ttctacgtca agacctctgt cccgcagacc ctgatggtct 12240

gcgagacagt caacaacatc atcgggcgca ccgtcaaccc acgcaacaag aactggtcgt 12300

gcggcggcag ttctggtggt gagggtgcga tcgttgggat tcgtggtggc gtcatcggtg 12360

taggaacgga tatcggtggc tcgattcgag tgccggccgc gttcaacttc ctgtacggtc 12420

taaggccgag tcatgggcgg ctgccgtatg caaagatggc gaacagcatg gagggtcagg 12480

agacggtgca cagcgttgtc gggccgatta cgcactctgt tgaggacctc cgcctcttca 12540

ccaaatccgt cctcggtcag gagccatgga aatacgactc caaggtcatc cccatgccct 12600

ggcgccagtc cgagtcggac attattgcct ccaagatcaa gaacggcggg ctcaatatcg 12660

gctactacaa cttcgacggc aatgtccttc cacaccctcc tatcctgcgc ggcgtggaaa 12720

ccaccgtcgc cgcactcgcc aaagccggtc acaccgtgac cccgtggacg ccatacaagc 12780

acgatttcgg ccacgatctc atctcccata tctacgcggc tgacggcagc gccgacgtaa 12840

tgcgcgatat cagtgcatcc ggcgagccgg cgattccaaa tatcaaagac ctactgaacc 12900

cgaacatcaa agctgttaac atgaacgagc tctgggacac gcatctccag aagtggaatt 12960

accagatgga gtaccttgag aaatggcggg aggctgaaga aaaggccggg aaggaactgg 13020

acgccatcat cgcgccgatt acgcctaccg ctgcggtacg gcatgaccag ttccggtact 13080

atgggtatgc ctctgtgatc aacctgctgg atttcacgag cgtggttgtt ccggttacct 13140

ttgcggataa gaacatcgat aagaagaatg agagtttcaa ggcggttagt gagcttgatg 13200

ccctcgtgca ggaagagtat gatccggagg cgtaccatgg ggcaccggtt gcagtgcagg 13260

ttatcggacg gagactcagt gaagagagga cgttggcgat tgcagaggaa gtggggaagt 13320

tgctgggaaa tgtggtgact ccataggtcg agaatttata cttagataag tatgtactta 13380

caggtatatt tctatgagat actgatgtat acatgcatga taatatttaa acggttatta 13440

gtgccgattg tcttgtgcga taatgacgtt cctatcaaag caatacactt accacctatt 13500

acatgggcca agaaaatatt ttcgaacttg tttagaatat tagcacagag tatatgatga 13560

tatccgttag attatgcatg attcattcct acaacttttt cgtagcataa ggattaatta 13620

cttggatgcc aataaaaaaa aaaaacatcg agaaaatttc agcatgctca gaaacaattg 13680

cagtgtatca aagtaaaaaa aagattttcg ctacatgttc cttttgaaga aagaaaatca 13740

tggaacatta gatttacaaa aatttaacca ccgctgatta acgattagac cgttaagcgc 13800

acaacaggtt attagtacag agaaagcatt ctgtggtgtt gccccggact ttcttttgcg 13860

acataggtaa atcgaatacc atcatactat cttttccaat gactccctaa agaaagactc 13920

ttcttcgatg ttgtatacgt tggagcatag ggcaagaatt gtggcttgag atctagatta 13980

cgtggaagaa aggtagtaaa agtagtagta taagtagtaa aaagaggtaa aaagagaaaa 14040

ccggctacat actagagaag cacgtacaca aaaactcata ggcacttcat catacgacag 14100

tttcttgatg cattataata gtgtattaga tattttcaga aatatgcata gaacctcttc 14160

ttgcctttac tttttataca tagaacattg gcagatttac ttacactact ttgtttctac 14220

gccatttctt ttgttttcaa cacttagaca agttgttgag aaccggacta ctaaaaagca 14280

atgttcccac tgaaaatcat gtacctgcag gataataacc ccctaattct gcatcgatcc 14340

agtatgtttt tttttctcta ctcattttta cctgaagata gagcttctaa aacaaaaaaa 14400

atcagcgatt acatgcatat tgtgtgttct agaattgcgg atcaccagat cgccattaca 14460

atgtatgcag gcaaatattt ctcagaatga aaaatagaga aaaggaaacg aaaattctgt 14520

aagatgcctt cgaagagatt tctcgatatg caaggcgtgc atcagggtga tccaaaggaa 14580

ctcgagagag agggcgaaag gcaatttaat gcattgcttc tccattgact tctagttgag 14640

cggataagtt cggaaatgta agtcacagct aatgacaaat ccactttagg tttcgaggca 14700

ctatttaggc aaaaagacga gtggggaaat aacaaacgct caaacatatt agcatatacc 14760

ttcaaaaaat gggaatagta tataaccttc cggttcgtta ataaatcaaa tctttcatct 14820

agttctctta agatttcaat attttgcttt cttgaagaaa gaatctactc tcctccccca 14880

ttcgcactgc aaagctagct tggcactggc cgtcgtttta caacgtcgtg actgggaaaa 14940

ccctggcctt acccaactta atcgccttgc agcacatccc cctttcgcca gctggcgtaa 15000

tagcgaagag gcccgcaccg atcgcccttc ccaacagttg cgcagcctga atggcgaatg 15060

ggaaattgta aacgttaata ttttgttaaa attcgcgtta aatttttgtt aaatcagctc 15120

attttttaac caataggccg aaatcggcaa aatcccttat aaatcaaaag aatagaccga 15180

gatagggttg agtgttgttc cagtttggaa caagagtcca ctattaaaga acgtggactc 15240

caacgtcaaa gggcgaaaaa ccgtctatca gggcgatggc ccactacgtg aaccatcacc 15300

ctaatcaagt tttttggggt cgaggtgccg taaagcacta aatcggaacc ctaaagggag 15360

cccccgattt agagcttgac ggggaaagcc ggcgaacgtg gcgagaaagg aagggaagaa 15420

agcgaaagga gcgggcgcta gggcgctggc aagtgtagcg gtcacgctgc gcgtaaccac 15480

cacacccgcc gcgcttaatg cgccgctaca gggcgcgtca ggtggcactt ttcggggaaa 15540

tgtgcgcgga acccctattt gtttattttt ctaaatacat tcaaatatgt atccgctcat 15600

gagacaataa ccctgataaa tgcttcaata atattgaaaa aggaagagta tgagtattca 15660

acatttccgt gtcgccctta ttcccttttt tgcggcattt tgccttcctg tttttgctca 15720

cccagaaacg ctggtgaaag taaaagatgc tgaagatcag ttgggtgcac gagtgggtta 15780

catcgaactg gatctcaaca gcggtaagat ccttgagagt tttcgccccg aagaacgttt 15840

tccaatgatg agcactttta aagttctgct atgtggcgcg gtattatccc gtattgacgc 15900

cgggcaagac caactcggtc gccgcataca ctattctcag aatgacttgg ttgagtactc 15960

accagtcaca gaaaagcatc ttacggatgg catgacagta agagaattat gcagtgctgc 16020

cataaccatg agtgataaca ctgcggccaa cttacttctg acaacgatcg gaggaccgaa 16080

ggagctaacc gcttttttgc acaacatggg ggatcatgta actcgccttg atcgttggga 16140

accggagctg aatgaagcca taccaaacga cgagcgtgac accacgatgc ctgtagcaat 16200

ggcaacaacg ttgcgcaaac tattaactgg cgaactactt agtctagctt cccggcaaca 16260

attaatagac tggatggagg cggataaagt tgcaggacca cttctgcgct cggcccttcc 16320

ggctggctgg tttattgctg ataaatctgg agccggtgag cgtgggtctc gcggtatcat 16380

tgcagcactg gggccagatg gtaagccctc ccgtatcgta gttatctaca cgacggggag 16440

tcaggcaact atggatgaac gaaatagaca gatcgctgag ataggtgcct cactgattaa 16500

gcattggtaa ctgtcagacc aagtttactc atatatactt tagattgatt taaaacttca 16560

tttttaattt aaaaggatct aggtgaagat cctttttgat aatctcatga ccaaaatccc 16620

ttaacgtgag ttttcgttcc actgagcgtc agaccccgta gaaaagatca aaggatcttc 16680

ttgagatcct ttttttctgc gcgtaatctg ctgcttgcaa acaaaaaaac caccgctacc 16740

agcggtggtt tgtttgccgg atcaagagct accacctctt tttccgaagg taactggctt 16800

cagcagagcg cagataccaa atactgtcct tctagtgtag ccgtagttag gccaccactt 16860

caagaactct gtagcaccgc ctacatacct cgctctgcta atcctgttac cagtggctgc 16920

tgccagtggc gataagtcgt gtcttaccgg gttggactca agacgatagt taccggataa 16980

ggcgcagcgg tcgggctgaa cggggggttc gtgcacacag cccagcttgg agcgaacgac 17040

ctacaccgaa ctgagatacc tacagcgtga gcattgagaa agcgccacgc ttcccgaagg 17100

gagaaaggcg gacaggtatc cggtaagcgg cagggtcgga acaggagagc gcacgaggga 17160

gcttccaggg ggaaacgcct ggtatcttta tagtcctgtc gggtttcgcc acctctgact 17220

tgagcgtcga tttttgtgat gctcgtcagg ggggcggagc ctatggaaaa acgccagcaa 17280

cgcggccttt ttacggttcc tggccttttg ctggcctttt gctcacatgt tctttcctgc 17340

gttatcccct gattctgtgg ataaccgtat taccgccttt gagtgagctg ataccgctcg 17400

ccgcagccga acgaccgagc gcagcgagtc agtgagcgag gaagcggaag agcgcccaat 17460

acgcaaaccg cctctccccg cgcgttggcc gattcattaa tgcagctggc acgacaggtt 17520

tcccgactgg aaagcgggca gtgagcgcaa cgcaattaat gtgagttagc tcactcatta 17580

ggcaccccag gctttacact ttatgcttcc ggctcgtatg ttgtgtggaa ttgtgagcgg 17640

ataacaattt cacacaggaa acagctatga catgattacg aatttaatac gactcacaat 17700

agggaattag cttgcgcgaa attattggct tttttttttt tttaattaat actacctttt 17760

gatgtgaacg tttactaaag tagcactatc tgtggaatgg ctgttggaac tttttccgat 17820

taacagcttg tattccaagt cctgacattc cagttgtaag ttttccaact tgtgattcaa 17880

ttgttcaatc tcttggttaa aattctcttg ttccatgaat aggctctttt tccagtctcg 17940

aaattttgaa atttctctgt tggacagctc gttgaatttt ttcttagctt ctaattgtct 18000

agttataaat tcaggatccc attctgtagc caccttatcc atgaccgttt tattaattat 18060

ttcatagcac ttgtaatttt tgagtttgtt ttcctcgatt tcatcgaagt tcatttcttc 18120

ctccaaaaat ttcctttgtt cttccgttat gtcaacactt ttcgttgtta agcaatctct 18180

ggcctttaat agcctagttc ttagcatttc agatc 18215

<210> 18

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 18

tgatcttgta gaaagtaccg agg 23

<210> 19

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 19

ctttgttctt ccgttatgtc aacac 25

<210> 20

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 20

ttccaagaag aacaacctga tag 23

<210> 21

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 21

tgatgtgaac gtttactaaa g 21

<210> 22

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 22

tgttcttctt ggaaaatgta cg 22

<210> 23

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成DNA

<400> 23

gattcgcggc cgcctgaact gaaacacaga agac 34

Claims

1.用于从糖组合物生产一种或多种发酵产物的方法，所述方法包括以下步骤：

a)在存在属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces或Yarrowia属的酵母时发酵糖组合物；和

b)回收发酵产物，

2.根据权利要求1所述的方法，其中所述糖，葡萄糖、半乳糖和阿拉伯糖，被转化成发酵产物。

3.根据权利要求1或2所述的方法，其中所述一种或多种发酵产物是乙醇。

4.根据权利要求1-3中任一项所述的方法，所述糖组合物通过如下方式从木质纤维素材料生产：

a)预处理一种或多种木质纤维素材料，以生产经预处理的木质纤维素材料；

b)对所述经预处理的木质纤维素材料进行酶处理，以生产所述糖组合物。

5.根据权利要求1-4中任一项所述的方法，其中混合的糖细胞属于Saccharomyces属。

6.根据权利要求5所述的方法，其中所述混合的糖细胞是Saccharomyces cerevisiae。

7.根据权利要求1-6中任一项所述的方法，其中所述混合的糖细胞包含醛糖还原酶基因的缺失。

8.根据权利要求1-7中任一项所述的方法，其中发酵在厌氧或氧受限的条件下进行。

9.根据权利要求1-8中任一项所述的方法，其中所述混合的糖细胞包含被过表达的PPP-基因TAL1、TKL1、RPE1和RKI1。

10.根据权利要求1-9中任一项所述的方法，其中所述混合的糖细胞包含xylA-基因和/或XKS1-基因。

11.根据权利要求1-10中任一项所述的方法，其中以下述方式将所述基因引入所述混合的糖细胞中：

向宿主细胞中引入

c)由基因araA、araB和araD构成的簇，和/或，XKS1-基因和xylA-基因的簇；

和

d)醛糖还原酶基因的缺失，

并对所述混合糖构建体进行适应性进化，以生产所述混合糖细胞。

12.根据权利要求11所述的方法，其中所述宿主细胞是抑制剂抗性细胞。

13.根据权利要求11或12所述的方法，其中所述宿主细胞是工业菌株。

14.根据权利要求1-13中任一项所述的方法，其中所述发酵产物选自由以下组成的组：

乙醇，正丁醇，异丁醇，乳酸，3-羟基-丙酸，丙烯酸，乙酸，琥珀酸，富马酸，苹果酸，衣康酸，马来酸，柠檬酸，己二酸，氨基酸例如赖氨酸、甲硫氨酸、色氨酸、苏氨酸和天冬氨酸，1,3-丙二醇，乙烯，甘油，β-内酰胺抗生素和头孢菌素，维生素，药物，动物饲料补充剂，特种化学品，化学原料，塑料，溶剂，燃料包括生物燃料和沼气或有机聚合物，和工业酶例如蛋白酶、纤维素酶、淀粉酶、葡聚糖酶、乳糖酶、脂肪酶、裂合酶、氧化还原酶、转移酶或木聚糖酶。

15.基因araA、araB和araD向下述葡萄糖发酵酵母赋予下述能力的用途，所述能力是在耗尽葡萄糖后、在存在阿拉伯糖时以厌氧方式发酵半乳糖的能力，所述用途通过这些基因的表达来实现，所述葡萄糖发酵酵母属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces或Yarrowia属。