CN110628803A

CN110628803A - 具有纤维二糖水解酶活性的多肽及编码该多肽的多核苷酸

Info

Publication number: CN110628803A
Application number: CN201910840926.4A
Authority: CN
Inventors: N.斯波德斯伯格
Original assignee: Novoxin Co Ltd; Novozymes AS
Current assignee: Novoxin Co Ltd; Novozymes AS
Priority date: 2011-01-26
Filing date: 2012-01-26
Publication date: 2019-12-31
Also published as: BR112013018307A2; US20180010112A1; EP2668266B1; CN105838698A; WO2012103293A1; US10280413B2; MX337913B; DK2668266T3; US9822350B2; MX2013008096A; US8759023B2; US20160237416A1; CN105838698B; EP2668266A1; US20140030770A1; US20190218535A1; US11208641B2; CN103517985A; US9376670B2; CN103517985B

Abstract

本发明涉及具有纤维二糖水解酶活性的分离的多肽，以及编码所述多肽的分离的多核苷酸。本发明还涉及包含所述多核苷酸的核酸构建体、载体和宿主细胞，以及用于制备和使用所述多肽的方法。

Description

具有纤维二糖水解酶活性的多肽及编码该多肽的多核苷酸

本发明是基于申请日为2012年1月26日，申请号为201610341639.5，发明名称为“具有纤维二糖水解酶活性的多肽及编码该多肽的多核苷酸”的专利申请的分案申请。

对于在联邦资助的研究和开发下完成的发明的权利的声明

本发明是部分地在由能源部授予的合作协议(Cooperative Agreement)DE-FC36-08GO18080下以政府支持完成的。政府在本发明中具有一定权利。

涉及序列表

本申请包含计算机可读形式的序列表，其通过提述并入本文。

发明背景

技术领域

本发明涉及具有纤维二糖水解酶活性的多肽，和编码所述多肽的多核苷酸。本发明亦涉及包含所述多核苷酸的核酸构建体、载体和宿主细胞，以及产生和使用所述多肽的方法。

背景技术

纤维素是葡萄糖通过β-1,4-键连接的聚合物。许多微生物产生水解β-连接的葡聚糖的酶。这些酶包括内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶。内切葡聚糖酶在随机位置消化纤维素聚合物，将其打开以受到纤维二糖水解酶攻击(attack)。纤维二糖水解酶从纤维素聚合物的末端顺序地释放纤维二糖的分子。纤维二糖是水溶性的β-1,4-连接的葡萄糖二聚体。β-葡糖苷酶将纤维二糖水解成葡萄糖。

将含木素纤维素原料(lignocellulosic feedstock)转化为乙醇具有以下优势：大量原料现成可用，避免燃烧或填埋材料的合意性和乙醇燃料的清洁性。木材、农业残余物、草本作物和城市固体废物被认为是用于乙醇生产的原料。这些材料主要由纤维素、半纤维素和木质素组成。一旦将纤维素转化成葡萄糖，葡萄糖容易地由酵母发酵成乙醇。因为葡萄糖容易地由多种酵母发酵为乙醇，而纤维二糖却不这样，所以任何在水解终止时残留的纤维二糖代表乙醇产量的丧失。更重要的是，纤维二糖是内切葡聚糖酶和纤维二糖水解酶的强力抑制剂。在水解过程中纤维二糖的累积对于乙醇产生是不合意的。

本发明提供了具有纤维二糖水解酶活性的多肽和编码所述多肽的多核苷酸。

作为SEQ ID NO:4公开、具有纤维二糖水解酶活性的P23YSY GH7多肽与来自烟曲霉的预测的GH7家族蛋白(登录号GENESEQP:AZH96970)的推导的氨基酸序列具有78.3％同一性(排除缺口)。

发明内容

本发明涉及具有纤维二糖水解酶活性的分离的多肽，其选自下组：

(a)多肽，其与SEQ ID NO:2的成熟多肽具有至少84％序列同一性，或多肽，其与SEQ ID NO:4的成熟多肽具有至少81％序列同一性；

(b)多肽，其由多核苷酸编码，所述多核苷酸在低、或中等、或中等-高、或高、或非常高严格条件下与以下杂交：(i)SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，(ii)其cDNA序列，或(iii)(i)或(ii)的全长互补物；

(c)多肽，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，或它们的cDNA序列具有至少60％序列同一性；

(d)SEQ ID NO:2或SEQ ID NO:4的成熟多肽在一个或多个(例如几个)位置包含取代、缺失和/或插入的变体；和

(e)(a)、(b)、(c)或(d)的多肽的具有纤维二糖水解酶活性的片段。

本发明亦涉及分离的多肽，其包含催化域，所述催化域选自下组：

(a)催化域，其与SEQ ID NO:2的催化域(例如，SEQ ID NO:2的氨基酸26至460)具有至少80％序列同一性，或催化域，其与SEQ ID NO:4的催化域(例如，SEQ ID NO:4的氨基酸26至459)具有至少80％序列同一性；

(b)催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1的催化域编码序列(例如，SEQ ID NO:1的核苷酸76至1380)具有至少80％序列同一性，或催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:3的催化域编码序列(例如，SEQ ID NO:3的核苷酸76至1377)具有至少80％序列同一性；

(c)SEQ ID NO:2或SEQ ID NO:4的催化域包含一个或多个(几个)氨基酸取代、缺失和/或插入的催化域变体；和

(d)(a)、(b)或(c)的催化域的具有纤维二糖水解酶活性的片段。

本发明亦涉及编码本发明的多肽的分离的多核苷酸，包含所述多核苷酸的核酸构建体、重组表达载体、重组宿主细胞；和产生所述多肽的方法。

本发明亦涉及降解纤维素材料的工艺，其包括：在本发明的具有纤维二糖水解酶活性的多肽的存在下用酶组合物处理纤维素材料。在一个方面，所述工艺进一步包括回收经降解或转化的纤维素材料。

本发明亦涉及产生发酵产物的工艺，其包括：(a)在本发明的具有纤维二糖水解酶活性的多肽的存在下用酶组合物糖化纤维素材料；(b)用一种或多种(例如几种)发酵微生物发酵经糖化的纤维素材料以产生发酵产物；和(c)从发酵回收发酵产物。

本发明亦涉及发酵纤维素材料的工艺，其包括用一种或多种(例如几种)发酵微生物发酵所述纤维素材料，其中所述纤维素材料在本发明具有纤维二糖水解酶活性的多肽的存在下用酶组合物糖化。在一个方面，纤维素材料的发酵产生发酵产物。在另一个方面，所述工艺进一步包括从发酵回收发酵产物。

本发明亦涉及编码信号肽的多核苷酸，所述信号肽包含或组成为(consist of)SEQ ID NO:2的氨基酸1至25或SEQ ID NO:4的氨基酸1至25，其可操作地连接于编码蛋白的基因；包含所述多核苷酸的核酸构建体、表达载体和重组宿主细胞；和产生蛋白的方法。

定义

纤维二糖水解酶：术语“纤维二糖水解酶”意指1,4-β-D-葡聚糖纤维二糖水解酶(1,4-beta-D-glucan cellobiohydrolase)(E.C.3.2.1.91)，其催化纤维素、纤维寡糖，或任何包含β-1,4-连接的葡萄糖的聚合物中的1,4-β-D-糖苷键的水解，从链的还原或非还原末端释放纤维二糖(Teeri,1997,Crystalline cellulose degradation:New insightinto the function of cellobiohydrolases,Trends in Biotechnology 15:160-167；Teeri等,1998,Trichoderma reesei cellobiohydrolases:why so efficient oncrystalline cellulose？,Biochem.Soc.Trans.26:173-178)。根据Lever等,1972,Anal.Biochem.47:273-279；van Tilbeurgh等,1982,FEBS Letters 149:152-156；vanTilbeurgh和Claeyssens,1985,FEBS Letters 187:283-288；以及Tomme等,1988,Eur.J.Biochem.170:575-581描述的方法确定纤维二糖水解酶活性。在本发明中，Tomme等的方法可用于确定纤维二糖水解酶活性。

在一个方面，本发明的多肽具有SEQ ID NO:2或SEQ ID NO:4的成熟多肽的纤维二糖水解酶活性的至少20％，例如至少40％，至少50％，至少60％，至少70％，至少80％，至少90％，至少95％，或至少100％。

乙酰木聚糖酯酶：术语“乙酰木聚糖酯酶”意指羧基酯酶(EC 3.1.1.72)，其催化乙酰基从聚合木聚糖、乙酰化木糖、乙酰化葡萄糖、乙酸α-萘酯(alpha-napthyl acetate)和乙酸对硝基苯酯(p-nitrophenyl acetate)的水解。就本发明而言，乙酰木聚糖酯酶活性是使用含有0.01％TWEEN^TM 20(聚氧乙烯山梨聚糖单月桂酸酯)的50mM乙酸钠pH 5.0中的0.5mM乙酸对硝基苯酯作为底物确定的。一个单位的乙酰木聚糖酯酶定义为能够在pH 5,25℃每分钟释放1微摩尔对硝基苯酚阴离子(p-nitrophenolate anion)的酶量。

等位变体(allelic variant)：术语“等位变体”意指占据相同染色体基因座的基因的任何两种或更多种可选形式。等位变异通过突变天然地发生，并且可导致种群内的多态性。基因突变可以是沉默的(在编码的多肽中无变化)或可以编码具有改变的氨基酸序列的多肽。多肽的等位变体是由基因的等位变体编码的多肽。

α-L-阿拉伯呋喃糖苷酶：术语“α-L-阿拉伯呋喃糖苷酶”意指α-L-阿拉伯呋喃糖苷阿拉伯呋喃水解酶(EC 3.2.1.55)，其催化对α-L-阿拉伯糖苷中的末端非还原性α-L-阿拉伯呋喃糖苷残基的水解。该酶对α-L-阿拉伯呋喃糖苷、含有(1,3)-和/或(1,5)-键的α-L-阿拉伯聚糖、阿拉伯木聚糖和阿拉伯半乳聚糖起作用。α-L-阿拉伯呋喃糖苷酶也称为阿拉伯糖苷酶、α-阿拉伯糖苷酶、α-L-阿拉伯糖苷酶、α-阿拉伯呋喃糖苷酶、多糖α-L-阿拉伯呋喃糖苷酶、α-L-阿拉伯呋喃糖苷水解酶、L-阿拉伯糖苷酶或α-L-阿拉伯聚糖酶。就本发明而言，α-L-阿拉伯呋喃糖苷酶活性是使用总体积200μl中的每ml的100mM乙酸钠pH 5中5mg的中等粘度小麦阿拉伯木聚糖(Megazyme International Ireland,Ltd.,Bray,Co.Wicklow,Ireland)在40℃进行30分钟，接着通过HPX-87H柱层析(Bio-RadLaboratories,Inc.,Hercules,CA,USA)的阿拉伯糖分析来确定的。

α-葡糖醛酸糖苷酶：术语“α-葡糖醛酸糖苷酶”意指α-D-葡糖苷酸葡糖醛酸水解酶(alpha-D-glucosiduronate glucuronohydrolase)(EC 3.2.1.139)，其催化α-D-葡糖醛酸糖苷水解为D-葡糖醛酸和醇。就本发明而言，α-葡糖醛酸糖苷酶活性是根据de Vries,1998,J.Bacteriol.180:243-249确定的。一个单位的α-葡糖醛酸糖苷酶等于能够在pH 5，40℃每分钟释放1微摩尔葡糖醛酸或4-O-甲基葡糖醛酸的酶量。

β-葡糖苷酶：术语“β-葡糖苷酶”意指β-D-葡糖苷葡糖水解酶(beta-D-glucosideglucohydrolase)(E.C.No.3.2.1.21)，其催化末端非还原β-D-葡萄糖残基的水解，并释放β-D-葡萄糖。就本发明而言，β-葡糖苷酶根据Venturi等,2002,Extracellular beta-D-glucosidase from Chaetomium thermophilum var.coprophilum:production,purification and some biochemical properties,J.Basic Microbiol.42:55-66的方法使用对硝基苯基-β-D-葡糖吡喃糖苷作为底物确定。一个单位的β-葡糖苷酶定义为在25℃,pH 4.8，在含有0.01％20的50mM柠檬酸钠中从作为底物的1mM对硝基苯基-β-D-葡糖吡喃糖苷每分钟产生1.0微摩尔对硝基苯酚阴离子。

β-木糖苷酶：术语“β-木糖苷酶”意指β-D木糖苷木糖水解酶(β-D-xylosidexylohydrolase)(E.C.3.2.1.37)，其催化短β(1→4)木寡糖(xylooligosaccharide)的外水解以从非还原端去除连续的D-木糖残基。就本发明而言，一个单位的β-木糖苷酶定义为在40℃，pH 5在含有0.01％20的100mM柠檬酸钠中从作为底物的1mM对硝基苯基-β-D-木糖苷每分钟产生1.0微摩尔对硝基苯酚阴离子。

cDNA：术语“cDNA”意指能够通过反转录从得自真核或原核细胞的成熟的、已剪接的mRNA分子制备的DNA分子。cDNA缺少通常存在于相应基因组DNA中的内含子序列。起始的(initial)、初级的RNA转录物是mRNA的前体，其通过一系列的步骤加工包括剪接，然后作为成熟的已剪接的mRNA出现。

纤维素材料：术语“纤维素材料”意指包含纤维素的任何材料。生物质的初生细胞壁(primary cell wall)中的主要多糖是纤维素，其次最丰富的是半纤维素，而第三是果胶。次生细胞壁(secondary cell wall)在细胞停止生长后产生，其同样含有多糖并通过共价交联至半纤维素的聚合木质素而加强。纤维素是脱水纤维二糖的均聚物，并且因此是直链β-(1-4)-D-葡聚糖，而半纤维素包括多种化合物，例如木聚糖、木葡聚糖(xyloglucan)、阿拉伯木聚糖和甘露聚糖，具有系列取代基的复杂分支结构。尽管通常是多形的，存在于植物组织中的纤维素主要是平行葡聚糖链的不溶晶体基质。半纤维素通常与纤维素以及其它半纤维素以氢键相连，其帮助稳定细胞壁基质。

纤维素通常见于例如植物的茎、叶、壳、皮和穗轴，或树的叶、枝和木材。纤维素材料可以是，但不限于，农业残余物、草本材料(包括能量作物)、城市固体废物、纸浆与造纸厂残余物、废纸和木材(包括林业残余物)(参见，例如，Wiselogel等,1995,于Handbook onBioethanol(Charles E.Wyman编),pp.105-118,Taylor&Francis,Washington D.C.；Wyman,1994,Bioresource Technology 50:3-16；Lynd,1990,Applied Biochemistry andBiotechnology 24/25:695-719；Mosier等,1999,Recent Progress in Bioconversion ofLignocellulosics,于Advances in Biochemical Engineering/Biotechnology,T.Scheper主编,Volume 65,pp.23-40,Springer-Verlag,New York)。在本文中应理解的是，纤维素可以是任何形式的木素纤维素，在混合基质中包含木质素、纤维素和半纤维素的植物细胞壁材料。在一个优选的方面，纤维素材料是任何生物质材料。在另一个优选的方面，所述纤维素材料是木素纤维素，其包含纤维素、半纤维素和木质素。

在一个方面，纤维素材料是农业残余物。在另一个方面，纤维素材料是草本材料(包括能量作物)。在另一个方面，纤维素材料是城市固体废物。在另一个方面，纤维素材料是纸浆和造纸厂残余物。在另一个方面，纤维素材料是废纸。在另一个方面，纤维素材料是木材(包括林业残余物)。

在另一个方面，纤维素材料是芦竹(arundo)。在另一个方面，纤维素材料是甘蔗渣。在另一个方面，纤维素材料是竹材。在另一个方面，纤维素材料是玉米穗轴。在另一个方面，纤维素材料是玉米纤维。在另一个方面，纤维素材料是玉米秸秆。在另一个方面，纤维素材料是芒草属。在另一个方面，纤维素材料是橙皮。在另一个方面，纤维素材料是稻杆。在另一个方面，纤维素材料是柳枝稷(switch grass)。在另一个方面，纤维素材料是麦杆。

在另一个方面，纤维素材料是白杨。在另一个方面，纤维素材料是桉树。在另一个方面，纤维素材料是枞树(fir)。在另一个方面，纤维素材料是松树。在另一个方面，纤维素材料是杨树。在另一个方面，纤维素材料是云杉。在另一个方面，纤维素材料是柳树。

在另一个方面，纤维素材料是藻类纤维素。在另一个方面，纤维素材料是细菌纤维素。在另一个方面，纤维素材料是棉绒(cotton linter)。在另一个方面，纤维素材料是滤纸。在另一个方面，纤维素材料是微晶纤维素。在另一个方面，纤维素材料是经磷酸处理的纤维素。

在另一个方面，纤维素材料是水生生物质。如用于本文中，“水生生物质”意指在水生环境中由光合作用过程产生的生物质。水生生物质可为藻类、挺水植物(emergentplant)、浮叶植物(floating-leaf plant)或沉水植物(submerged plant)。

纤维素材料可以按原样(as is)使用或进行预处理，使用本领域已知的常规方法，如本文所述。在一个优选的方面，预处理纤维素材料。

纤维素分解酶或纤维素酶：术语“纤维素分解酶”或“纤维素酶”意指一种或多种(例如几种)水解纤维素材料的酶。此类酶包括内切葡聚糖酶，纤维二糖水解酶，β-葡糖苷酶，或其组合。测量纤维素分解活性的两种基本方法包括：(1)测量总纤维素分解活性，和(2)测量单独的纤维素分解活性(内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶)，如Zhang等,Outlook for cellulase improvement:Screening and selection strategies,2006,Biotechnology Advances 24:452-481所综述的。总纤维素分解活性通常是使用不溶性底物来测定的，所述底物包括Whatman No.1滤纸、微晶纤维素、细菌纤维素、藻类纤维素、棉花、经预处理的木素纤维素等。最常见的总纤维素分解活性测定法是使用Whatman No.1滤纸作为底物的滤纸测定法。该测定法是由International Union of Pure and AppliedChemistry(IUPAC)(Ghose,1987,Measurement of cellulase activities,PureAppl.Chem.59:257-68)确立的。

就本发明而言，纤维素分解酶活性通过测量在下述条件下由纤维素分解酶进行的纤维素材料水解的增加来确定：1-50mg的纤维素分解酶蛋白/g的PCS中纤维素(或其它经预处理的纤维素材料)在合适的温度，例如50℃、55℃或60℃进行3-7日，与未添加纤维素分解酶蛋白的对照水解相比较。通常条件为：1ml反应液，经洗涤或未洗涤的PCS，5％不溶性固形物，50mM乙酸钠pH 5，1mM MnSO₄，50℃、55℃或60℃，72小时，通过HPX-87H柱(Bio-Rad Laboratories,Inc.,Hercules,CA,USA)进行糖分析。

编码序列：术语“编码序列”意指直接指定多肽的氨基酸序列的多核苷酸。编码序列的边界通常由开放阅读框决定，所述开读框以起始密码子如ATG、GTG或TTG开始，并且以终止密码子如TAA、TAG或TGA结束。编码序列可以是基因组DNA、cDNA、合成DNA或其组合。

调控序列(control sequence)：术语“调控序列”意指对编码本发明的成熟多肽的多核苷酸表达是必需的核酸序列。各个调控序列对于编码所述成熟多肽的多核苷酸可以是天然的(即，来自同一基因)或外源的(即，来自不同基因)，或各个调控序列对于彼此可以是天然的或外源的。这些调控序列包括但不限于前导序列、聚腺苷酸化序列、前肽序列、启动子、信号肽序列和转录终止子。最少的情况，调控序列包括启动子和转录和翻译的终止信号。调控序列可以和用于引入特异性限制位点的接头一起提供，所述特异性限制位点促进调控序列与编码多肽的多核苷酸编码区的连接。

内切葡聚糖酶：术语“内切葡聚糖酶”意指内切-1,4-(1,3；1,4)-β-D-葡聚糖4-葡聚糖水解酶(endo-1,4-β-D-glucan 4-glucanohydrolase)(E.C.3.2.1.4)，其催化纤维素、纤维素衍生物(例如羧甲基纤维素和羟乙基纤维素)、地衣淀粉(lichenin)中的1,4-β-D-糖苷键、混合的β-1,3葡聚糖例如谷类β-D-葡聚糖或木葡聚糖和含有纤维素组分的其它植物材料中的β-1,4键的内水解(endohydrolysis)。内切葡聚糖酶活性可通过测量底物粘度的减少或由还原糖测定法(Zhang等,2006,Biotechnology Advances 24:452-481)确定的还原端增加来确定。就本发明而言，根据Ghose,1987,Pure and Appl.Chem.59:257-268的方法，在pH 5，40℃使用羧甲基纤维素(CMC)作为底物来确定内切葡聚糖酶活性。

表达：术语“表达”包括涉及多肽产生的任何步骤，其包括但不限于转录、转录后修饰、翻译、翻译后修饰和分泌。

表达载体：术语“表达载体”意指线性的或环状的DNA分子，其包含编码多肽的多核苷酸，并且所述多核苷酸与提供用于其表达的调控序列可操作地连接。

家族61糖苷水解酶：术语“家族61糖苷水解酶”或“家族GH61”或“GH61”在本文中定义为根据Henrissat,1991,A classification of glycosyl hydrolases based onamino-acid sequence similarities,Biochem.J.280:309-316,及Henrissat和Bairoch,1996,Updating the sequence-based classification of glycosyl hydrolases,Biochem.J.316:695-696属于糖苷水解酶家族61的多肽。该家族中的酶原先基于在一个家族成员测量到的非常弱的内切-1,4-β-D葡聚糖酶活性而归类为糖苷水解酶家族。这些酶的结构和作用模式是非经典的，且它们无法视为真正的(bona fide)糖苷酶。然而，基于当与纤维素酶或纤维素酶的混合物一同使用时，其增强木素纤维素分解的能力，它们被保留在CAZy分类中。

阿魏酸酯酶：术语“阿魏酸酯酶(feruloyl esterase)”意指4-羟基-3-甲氧基肉桂酰-糖水解酶(EC 3.1.1.73)，其催化4-羟基-3-甲氧基肉桂酰(阿魏酰)基团从酯化的糖(其在“天然”底物中通常为阿拉伯糖)的水解，以产生阿魏酸(4-羟基-3-甲氧基肉桂酸)。阿魏酸酯酶也称作阿魏酸酯酶(ferulic acid esterase)、羟基肉桂酰基酯酶、FAE-III、肉桂酸酯水解酶、FAEA、cinnAE、FAE-I或FAE-II。就本发明而言，阿魏酸酯酶活性是使用50mM乙酸钠pH 5.0中的0.5mM阿魏酸对硝基苯酯作为底物确定的。一个单位的阿魏酸酯酶等于能够在pH 5，25℃每分钟释放1微摩尔对硝基苯酚阴离子的酶量。

片段：术语“片段”意指从成熟多肽的氨基和/或羧基末端缺失一个或多个(例如几个)氨基酸的多肽；其中所述片段具有纤维二糖水解酶。在一个方面，所述片段含有SEQ IDNO:2的至少20个氨基酸残基，例如至少30至460个氨基酸残基，或至少50至450，80至400，100至350，150至300或200至250个，或其间任何数值的氨基酸残基。在一个方面，所述片段含有SEQ ID NO:4的至少20个氨基酸残基，例如至少30至459个氨基酸残基，或至少50至450，80至400，100至350，150至300或200至250个，或其间任何数值的氨基酸残基。更具体而言，在一个实施方案中，片段意指包含或组成为SEQ ID NO:2的氨基酸26至460的多肽。片段可在进一步的实施方案中包含接头，SEQ ID NO:2的氨基酸461至496，或其部分。在另一个实施方案中，片段意指包含或组成为SEQ ID NO:4的氨基酸26至459的多肽。片段可在进一步的实施方案中包含接头，SEQ ID NO:4的氨基酸460至496，或其部分。

半纤维素分解酶或半纤维素酶：术语“半纤维素分解酶”或“半纤维素酶”意指一种或多种(例如几种)水解半纤维素材料的酶。参见，例如Shallom和Shoham(2003)Microbialhemicellulases.Current Opinion In Microbiology,2003,6(3):219-228)。半纤维素酶是植物生物质降解中的关键成分。半纤维素酶的实例包括但不限于乙酰甘露聚糖酯酶、乙酰木聚糖酯酶、阿拉伯聚糖酶、阿拉伯呋喃糖苷酶、香豆酸酯酶、阿魏酸酯酶、半乳糖苷酶、葡糖醛酸糖苷酶、葡糖醛酸酯酶、甘露聚糖酶、甘露糖苷酶、木聚糖酶和木糖苷酶。这些酶的底物，半纤维素，是支化和直链多糖的混杂集团，这些多糖通过氢键键合于植物细胞壁中的纤维素微纤维，将其交联为鲁棒(robust)的网络。半纤维素亦共价地附于木质素，与纤维素一同形成高度复杂的结构。半纤维素的可变的结构和组织形式需要许多酶的协同作用使其完全降解。半纤维素酶的催化模块为水解糖苷键的糖苷水解酶(GH)，或水解乙酸或阿魏酸侧基的酯连接的糖酯酶(CE)。这些催化模块，基于其一级结构的同源性，可指派为GH和CE家族。一些家族，具有总体上类似的折叠，可进一步归类为宗族(clan)，以字母标记(例如，GH-A)。最具信息性和最新的这些和其他糖活性酶的分类可在Carbohydrate-Active Enzymes(CAZy)数据库获得。半纤维素分解酶活性可根据Ghose和Bisaria,1987,Pure&Appl.Chem.59:1739-1752在合适的温度，例如50℃、55℃或60℃，和pH，例如5.0或5.5进行测量。

高严格条件：术语“高严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和50％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在65℃将载体材料最终洗涤三次，每次15分钟。

宿主细胞：术语“宿主细胞”意指任何细胞类型，所述细胞类型对于使用包含本发明多核苷酸的核酸构建体或表达载体的转化、转染、转导等是易感的(susceptible)。术语“宿主细胞”涵盖任何亲本细胞的后代，其由于在复制中发生的突变而不同于亲本细胞。

分离的：术语“分离的”意指以不在自然界出现的形式或环境存在的物质。分离的物质的非限定性实例包括(1)任何非天然存在的物质，(2)任何至少部分地从一种或多种或全部与其天然结合的天然存在的成分移出的物质，包括但不限于任何酶、变体、核酸、蛋白质、肽或辅因子；(3)任何相对于见于自然界的该物质经人工修饰的物质；或(4)任何通过相对于与其自然结合的其他组分增加该物质的量(例如，编码该物质的基因的多拷贝；比与编码该物质的基因自然结合的启动子更强的启动子的使用)而修饰的物质。分离的物质可在发酵液样品中存在。

低严格条件：术语“低严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和25％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在50℃将载体材料最终洗涤三次，每次15分钟。

成熟多肽：术语“成熟多肽”意指以其在翻译和任何翻译后修饰之后的最终形式存在的多肽，所述修饰例如N-末端加工、C-末端截短、糖基化、磷酸化等。在一个方面，根据预测SEQ ID NO:2的氨基酸1至25是信号肽的SignalP程序(Nielsen等,1997,ProteinEngineering 10:1-6)，成熟多肽是SEQ ID NO:2的氨基酸26至532。在另一个方面，根据预测SEQ ID NO:4的氨基酸1至25是信号肽的SignalP程序，成熟多肽是SEQ ID NO:4的氨基酸26至532。在本领域中已知宿主细胞可产生由相同多核苷酸表达的两种或更多种不同成熟多肽(即具有不同的C端和/或N端氨基酸)的混合物。

成熟多肽编码序列：术语“成熟多肽编码序列”意指编码具有纤维二糖水解酶活性的成熟多肽的多核苷酸。在一个方面，根据预测SEQ ID NO:1的核苷酸1至75编码信号肽的SignalP程序(Nielsen等,1997，见上)，成熟多肽编码序列是SEQ ID NO:1的核苷酸76至1596或其cDNA序列。在另一个方面，根据预测SEQ ID NO:3的核苷酸1至75编码信号肽的SignalP程序，成熟多肽编码序列是SEQ ID NO:3的核苷酸76至1596或其cDNA序列。

催化域：术语“催化域”意指含有酶的催化机构(catalytic machinery)的酶的部分。在一个实施方案中，所述催化域是SEQ ID NO:2的氨基酸26至460。在另一个实施方案中，所述催化域是SEQ ID NO:4的氨基酸26至459。

纤维素结合域：术语“纤维素结合域”意指介导酶对纤维素底物的无定形区的结合的酶的部分。纤维素结合域(CBD)见于酶的N末端或C末端。CBD亦称作纤维素结合模块或CBM。在一个实施方案中，CBM是SEQ ID NO:2的氨基酸497至532。在一个实施方案中，CBM是SEQ ID NO:4的氨基酸497至532。CBM与催化域通过接头序列分隔。在一个实施方案中，所述接头是SEQ ID NO:2的氨基酸461至496。在一个实施方案中，所述接头是SEQ ID NO:4的氨基酸460至496。

中等严格条件：术语“中等严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和35％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在55℃将载体材料最终洗涤三次，每次15分钟。

中等-高严格条件：术语“中等-高严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和35％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在60℃将载体材料最终洗涤三次，每次15分钟。

核酸构建体：术语“核酸构建体”意指单链或双链的核酸分子，其分离自天然存在的基因，或其经修饰以本来不存在于(not otherwise exist)自然界中的方式含有核酸的区段，或其为合成的，其包含一个或多个调控序列。

可操作地连接：术语“可操作地连接”意指这样的构型，其中将调控序列置于相对于多核苷酸的编码序列的适当位置，使得调控序列指导编码序列的表达。

具有纤维素分解增强活性的多肽：术语“具有纤维素分解增强的多肽”意指催化具有纤维素分解活性的酶对纤维素材料的水解的增强的GH61多肽。就本发明而言，通过测量来自由纤维素分解酶在下述条件下水解纤维素材料的还原糖增加或纤维二糖与葡萄糖的总量增加来确定纤维素分解增强活性：1-50mg总蛋白/g PCS中纤维素，其中总蛋白包含50-99.5％w/w的纤维素分解酶蛋白，及0.5-50％w/w的具有纤维素分解增强活性的GH61多肽的蛋白质，在合适的温度(例如50℃、55℃或60℃)和pH(例如5.0或5.5)历时1-7天，与用等量的总蛋白加载量而无纤维素分解增强活性(1-50mg纤维素分解蛋白/g PCS中纤维素)所进行的对照水解相比。在一个优选的方面，使用在总蛋白重量的2-3％的米曲霉β-葡糖苷酶(根据WO 02/095014在米曲霉中重组产生)或者总蛋白质量的2-3％的烟曲霉β-葡糖苷酶(如WO 2002/095014所述在米曲霉中重组产生)的纤维素酶蛋白加载量存在下的1.5L(Novozymes A/S,Denmark)的混合物作为纤维素分解活性的来源。

具有纤维素分解增强活性的GH61多肽通过降低达到相同水解水平所需的纤维素分解酶的量而增强由具有纤维素分解活性的酶催化的纤维素材料的水解，优选降低至少1.01倍，例如至少1.05倍，至少1.10倍，至少1.25倍，至少1.5倍，至少2倍，至少3倍，至少4倍，至少5倍，至少10倍，或至少20倍。

预处理的玉米秸秆：术语“PCS”或“预处理的玉米秸秆”意指通过用热和稀硫酸处理、碱预处理或中性预处理的源自玉米秸秆的纤维素材料。

序列同一性：参数“序列同一性”描述两个氨基酸序列之间或两个核苷酸序列之间的相关性。

就本发明而言，两个氨基酸序列之间的序列同一性程度使用如EMBOSS软件包(EMBOSS:The European Molecular Biology Open Software Suite,Rice等,2000,TrendsGenet.16:276-277)，优选5.0.0版或更高版本的Needle程序中所执行的Needleman-Wunsch算法(Needleman和Wunsch,1970,J.Mol.Biol.48:443-453)来测定。使用的参数为缺口开放罚分(gap open penalty)10，缺口延伸罚分(gap extension penalty)0.5和EBLOSUM62(BLOSUM62的EMBOSS版)取代矩阵。使用Needle标记为“最高同一性(longest identity)”的输出结果(使用-nobrief选项获得)作为同一性百分比，并计算如下：

(同样的残基×100)/(比对长度－比对中缺口的总数)

就本发明而言，两个核苷酸序列之间的序列同一性程度使用如EMBOSS软件包(EMBOSS:The European Molecular Biology Open Software Suite,Rice等,2000,见上文)，优选5.0.0版或更高版本的Needle程序中所执行的Needleman-Wunsch算法(Needleman和Wunsch,1970,见上文)来测定。使用的参数为缺口开放罚分10，缺口延伸罚分0.5和EDNAFULL(NCBI NUC4.4的EMBOSS版)取代矩阵。使用Needle标记为“最高同一性”的输出结果(使用-nobrief选项获得)作为同一性百分比，并计算如下：

(同样的脱氧核糖核苷酸×100)/(比对长度－比对中缺口的总数)

亚序列：术语“亚序列(subsequence)”意指从成熟多肽编码序列的5’和/或3’端缺失一个或多个(例如几个)核苷酸的多核苷酸；其中所述亚序列编码具有纤维二糖水解酶活性的片段。在一个方面，所述亚序列编码具有纤维二糖水解酶活性的多肽，例如根据本发明的催化域。在一个实施方案中，亚序列包含或组成为SEQ ID NO:1的核苷酸76至1380。在另一个实施方案中，亚序列包含或组成为SEQ ID NO:3的核苷酸76至1377。

变体：术语“变体”意指在一个或多个(例如几个)位置包含改变，即取代、插入和/或缺失的具有纤维二糖水解酶活性的多肽。取代意指将占据某位置的氨基酸用不同的氨基酸替代；缺失意指去除占据某位置的氨基酸；而插入意指在邻接并紧接着占据某位置的氨基酸之后添加氨基酸。

非常高严格条件：术语“非常高严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和50％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在70℃将载体材料最终洗涤三次，每次15分钟。

非常低严格条件：术语“非常低严格条件”意指对于长度至少100个核苷酸的探针，在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和25％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时。使用2X SSC、0.2％SDS在45℃将载体材料最终洗涤三次，每次15分钟。

含木聚糖材料：术语“含木聚糖材料”意指任何包含含有β-(1-4)连接的木糖残基骨架的植物细胞壁多糖的材料。陆生植物的木聚糖是具有β-(1-4)-吡喃木糖骨架的杂聚物，其由短的糖链分支。它们包含D-葡糖醛酸或其4-O-甲基醚，L-阿拉伯糖和/或多种包含D-木糖、L-阿拉伯糖、D-或L-半乳糖和D-葡萄糖的寡糖。木聚糖类型的多糖可分为均木聚糖(homoxylan)和杂木聚糖(heteroxylan)，后者包括葡糖醛酸木聚糖，(阿拉伯)葡糖醛酸木聚糖，(葡糖醛酸)阿拉伯木聚糖，阿拉伯木聚糖和复合杂木聚糖。参见，例如Ebringerova等,2005,Adv.Polym.Sci.186:1-67。

在本发明的工艺中，可使用任何含有木聚糖的材料。在一个优选的方面，所述含木聚糖材料是木素纤维素。

木聚糖降解活性或木聚糖分解活性：术语“木聚糖降解活性”或“木聚糖分解活性”意指水解含木聚糖材料的生物学活性。两种测定木聚糖分解活性的基础方法包括：(1)测定总木聚糖分解活性，和(2)测定单独的木聚糖分解活性(例如内切木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶、α-葡糖醛酸糖苷酶、乙酰木聚糖酯酶、阿魏酸酯酶和α-葡糖醛酸酯酶(α-glucuronyl esterase))。最近在木聚糖分解酶测定法的进展总结于几个公开文献中，包括Biely和Puchard,Recent progress in the assays of xylanolytic enzymes,2006,Journal of the Science of Food和Agriculture 86(11):1636-1647；Spanikova和Biely,2006,Glucuronoyl esterase-Novel carbohydrate esterase produced bySchizophyllum commune,FEBS Letters 580(19):4597-4601；Herrmann,Vrsanska,Jurickova,Hirsch,Biely和Kubicek,1997,The beta-D-xylosidase of Trichodermareesei is a multifunctional beta-D-xylan xylohydrolase,Biochemical Journal321:375-381。

总木聚糖降解活性可通过确定从多种类型的木聚糖形成的还原糖来测量，所述木聚糖包括例如燕麦小麦(oat spelt)、山毛榉木(beechwood)和落叶松木(larchwood)木聚糖，或者可通过光度法确定从多种共价染色的木聚糖释放出的染色的木聚糖片段来测量。最常见的总木聚糖分解活性测定法基于从多聚的4-O-甲基葡糖醛酸木聚糖产生还原糖，如Bailey等,1992,Interlaboratory testing of methods for assay of xylanaseactivity,Journal of Biotechnology 23(3):257-270中所述。木聚糖酶活性亦可用0.2％AZCL-阿拉伯木聚糖作为底物在37℃在0.01％X-100(4-(1,1,3,3-四甲基丁基)苯基-聚乙二醇)和200mM磷酸钠缓冲液pH 6中来确定。一个单位的木聚糖酶活性定义为在37℃，pH 6在200mM磷酸钠pH 6缓冲液中从作为底物的0.2％AZCL-阿拉伯木聚糖每分钟产生1.0微摩尔天青蛋白(azurine)。

就本发明而言，木聚糖降解活性是通过测量由木聚糖降解酶在下述通常条件下造成的桦木木聚糖(Sigma Chemical Co.,Inc.,St.Louis,MO,USA)水解的增加来确定的：1ml反应液，5mg/ml底物(总固形物)，5mg木聚糖分解蛋白质/g底物，50mM乙酸钠，pH 5，50℃，24小时，如Lever,1972,A new reaction for colorimetric determination ofcarbohydrates,Anal.Biochem 47:273-279所述使用对羟基苯甲酸酰肼(PHBAH)测定法进行糖分析。

木聚糖酶：术语“木聚糖酶”意指1,4-β-D-木聚糖-木糖水解酶(1,4-β-D-xylan-xylohydrolase)(E.C.3.2.1.8)，其催化木聚糖中1,4-β-D-木糖苷键的内水解。就本发明而言，木聚糖酶活性是使用0.2％AZCL-阿拉伯木聚糖作为底物确定的。一个单位的木聚糖酶活性定义为在37℃，pH 6在200mM磷酸钠pH 6缓冲液中从作为底物的0.2％AZCL-阿拉伯木聚糖每分钟产生1.0微摩尔天青蛋白。

发明详述

具有纤维二糖水解酶活性的多肽

在一个实施方案中，本发明涉及分离的多肽，其与SEQ ID NO:2的成熟多肽具有至少84％，例如至少85％，至少86％，至少87％，至少88％，至少89％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性，其具有纤维二糖水解酶活性。在一个实施方案中，本发明涉及分离的多肽，其与SEQ ID NO:4的成熟多肽具有至少81％，例如至少82％，至少83％，至少84％，至少85％，至少87％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性，其具有纤维二糖水解酶活性。本发明的多肽具有SEQ ID NO:2或SEQ ID NO:4的成熟多肽的纤维二糖水解酶活性的至少20％，例如至少40％，至少50％，至少60％，至少70％，至少80％，至少90％，至少95％，或至少100％。

在一个方面，所述多肽与SEQ ID NO:2或SEQ ID NO:4的成熟多肽相差不超过10个氨基酸，例如1，2，3，4，5，6，7，8，或9个氨基酸。

本发明的多肽优选包含或组成为SEQ ID NO:2或SEQ ID NO:4的氨基酸序列或其等位变体；或为其具有纤维二糖水解酶活性的片段。在另一个方面，所述多肽包含或组成为SEQ ID NO:2或SEQ ID NO:4的成熟多肽。在另一个方面，所述多肽包含或组成为SEQ IDNO:2的氨基酸26至532或SEQ ID NO:4的氨基酸26至532。

在另一个方面，本发明涉及具有纤维二糖水解酶活性的分离的多肽，其由多核苷酸编码，所述多核苷酸在中等严格条件，或中等-高严格条件，或高严格条件，或非常高严格条件下与以下杂交：(i)SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，(ii)其cDNA序列，或(iii)(i)或(ii)的全长互补物(Sambrook等,1989,Molecular Cloning,ALaboratory Manual,第2版,Cold Spring Harbor,New York)。

SEQ ID NO:1或SEQ ID NO:3的多核苷酸或其亚序列，以及SEQ ID NO:2或SEQ IDNO:4的多肽或其片段，可用于设计核酸探针，以根据本领域内公知的方法从不同属或种的菌株鉴定和克隆编码具有纤维二糖水解酶活性的多肽的DNA。具体而言，根据标准的Southern印迹方法，可将这些探针用于与感兴趣的细胞的基因组DNA或cDNA杂交，以鉴定和从其中分离相应的基因。这些探针可明显短于完整序列，但长度上应为至少15，例如至少25，至少35，或至少70个核苷酸。优选地，所述核酸探针是至少100个核苷酸的长度，例如，至少200个核苷酸，至少300个核苷酸，至少400个核苷酸，至少500个核苷酸，至少600个核苷酸，至少700个核苷酸，至少800个核苷酸，或至少900个核苷酸的长度。DNA和RNA探针二者均可使用。通常将探针标记以探测相应的基因(例如，用³²P、³H、³⁵S、生物素或抗生物素蛋白(avidin)标记)。这些探针涵盖于本发明中。

可从由这些其它菌株制备的基因组DNA或cDNA文库中筛选DNA，所述DNA与上述探针杂交并且编码具有纤维二糖水解酶活性的多肽。可以通过琼脂糖或聚丙烯酰胺凝胶电泳，或通过其它分离技术分离来自这些其它菌株的基因组或其它DNA。可以将来自文库的DNA或分离的DNA转移至硝化纤维素(nitrocellulose)或其它合适的载体材料并且固定于其上。为了鉴定与SEQ ID NO:1或SEQ ID NO:3或其亚序列杂交的克隆或DNA，将所述载体材料用在Sounthern印迹中。

就本发明而言，杂交表示多核苷酸在中等至非常高的严格条件下与标记的核酸探针杂交，所述核酸探针对应于下述：(i)SEQ ID NO:1或SEQ ID NO:3，(ii)SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，(iii)它们的全长互补物，或(iv)它们的亚序列。可使用例如X射线片(X-ray film)或其他任何本领域中已知的检测手段检测在这些条件下与核酸探针杂交的分子。

在一个方面，所述核酸探针是编码SEQ ID NO:2或SEQ ID NO:4的多肽，其成熟多肽，或它们的片段的多核苷酸。在另一个方面，所述核酸探针是SEQ ID NO:1或SEQ ID NO:3。

在另一个实施方案中，本发明涉及具有纤维二糖水解酶活性的分离的多肽，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列具有至少60％，例如至少65％，至少70％，至少75％，至少80％，至少85％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性。

在另一个实施方案中，本发明涉及SEQ ID NO:2或SEQ ID NO:4的成熟多肽在一个或多个(例如几个)位置包含取代、缺失和/或插入的变体。在一个实施方案中，导入SEQ IDNO:2或SEQ ID NO:4的成熟多肽的氨基酸取代、缺失和/或插入的数量是不超过10，例如1、2、3、4、5、6、7、8或9。氨基酸改变可为性质上较不重要的(of a minor nature)，即保守的氨基酸取代或插入，其不显著影响蛋白质的折叠和/或活性；通常为1至大约30个氨基酸的小缺失；小的氨基或羧基末端延伸，例如氨基末端甲硫氨酸残基；多至大约20-25个残基的小接头肽；或通过改变净电荷或其它功能来促进纯化的小延伸，如多组氨酸序列(poly-histidine tract)、抗原表位(antigenic epitope)或结合域(binding domain)。

保守取代的实例是在以下组之内：碱性氨基酸组(精氨酸、赖氨酸和组氨酸)、酸性氨基酸组(谷氨酸和天冬氨酸)、极性氨基酸组(谷氨酰胺和天冬酰胺)、疏水氨基酸组(亮氨酸、异亮氨酸和缬氨酸)、芳族氨基酸组(苯丙氨酸、色氨酸和酪氨酸)和小氨基酸组(甘氨酸、丙氨酸、丝氨酸、苏氨酸和甲硫氨酸)。通常不改变比活性(specific activity)的氨基酸取代是本领域已知的，并且由例如H.Neurath和R.L.Hill,1979,于The Proteins,Academic Press,New York中描述。最普遍发生的交换是Ala/Ser、Val/Ile、Asp/Glu、Thr/Ser、Ala/Gly、Ala/Thr、Ser/Asn、Ala/Val、Ser/Gly、Tyr/Phe、Ala/Pro、Lys/Arg、Asp/Asn、Leu/Ile、Leu/Val、Ala/Glu和Asp/Gly。

或者，氨基酸改变具有这样的性质以使多肽的物理化学性质改变。例如，氨基酸改变可改善多肽的热稳定性，改变底物特异性，改变最适pH等。

能够根据本领域已知的方法，例如定位诱变或丙氨酸扫描诱变法(Cunningham和Wells,1989,Science 244:1081-1085)来鉴定亲本多肽中的必需氨基酸。在后一技术中，将单一丙氨酸突变引入到分子中的每个残基，并且就纤维二糖水解酶测试所得突变分子以鉴定对于所述分子的活性关键的氨基酸残基。同样参见Hilton等,1996,J.Biol.Chem.271:4699-4708。酶的活性部位或其它的生物相互作用也能够通过结构的物理分析而测定，如通过以下这些技术：如核磁共振、晶体学、电子衍射或光亲和标记，连同推定的接触位点氨基酸的突变来测定。参见例如de Vos等,1992,Science 255:306-312；Smith等,1992,J.Mol.Biol.224:899-904；Wlodaver等,1992,FEBS Lett.309:59-64。必需氨基酸的身份也能够从与相关多肽的同一性分析来推断。

可使用已知的诱变、重组和/或改组方法，然后进行相关的筛选过程，如由Reidhaar-Olson和Sauer,1988,Science 241:53-57；Bowie和Sauer,1989,Proc.Natl.Acad.Sci.USA 86:2152-2156；WO 95/17413；或者WO 95/22625所公开的那些，进行一个或多个氨基酸取代、缺失和/或插入并加以测试。其他可使用的方法包括易错PCR、噬菌体展示(例如Lowman等,1991,Biochemistry 30:10832-10837；美国专利号5,223,409；WO 92/06204)和区域定向诱变(region-directed mutagenesis)(Derbyshire等,1986,Gene 46:145；等,1988,DNA 7:127)。

诱变/改组方法可与高通量、自动筛选方法组合以检测由宿主细胞表达的经克隆、诱变的多肽的活性(Ness等,1999,Nature Biotechnology 17:893-896)。编码活性多肽的经诱变的DNA分子可自宿主细胞回收并使用本领域标准方法迅速测序。这些方法允许快速确定多肽中单个氨基酸残基的重要性。

所述多肽可为杂合多肽，其中一个多肽的区域融合于另一个多肽的区域的N端或C端。

所述多肽可为融合多肽或可切割的融合多肽，其中另一个多肽融合于本发明的多肽的N端或C端。通过将编码另一个多肽的多核苷酸融合于本发明的多核苷酸来产生融合多肽。产生融合多肽的技术是本领域已知的，并包括连接编码多肽的编码序列以使它们符合读框(in frame)，并且使融合多肽的表达在相同启动子和终止子的控制下。融合蛋白亦可使用内蛋白(intein)技术构建，其中融合物在翻译后产生(Cooper等,1993,EMBO J.12:2575-2583；Dawson等,1994,Science 266:776-779)。

融合多肽还可以在两个多肽之间包含切割位点。在融合多肽分泌时，就切割所述位点，释放所述两个多肽。切割位点的实例包括，但不限于，公开于Martin等,2003,J.Ind.Microbiol.Biotechnol.3:568-76；Svetina等,2000,J.Biotechnol.76:245-251；Rasmussen-Wilson等,1997,Appl.Environ.Microbiol.63:3488-3493；Ward等,1995,Biotechnology 13:498-503；和Contreras等,1991,Biotechnology 9:378-381；Eaton等,1986,Biochem.25:505-512)；Collins-Racie等,1995,Biotechnology 13:982-987；Carter等,1989,Proteins:Structure,Function,and Genetics 6:240-248；以及Stevens,2003,Drug Discovery World 4:35-48中的位点。

具有纤维二糖水解酶活性的多肽的来源

本发明的具有纤维二糖水解酶活性的多肽可以获得自任何属的微生物。就本发明而言，用于本文与给定的来源有关的术语“获得自”，意思应为由多核苷酸编码的多肽由所述来源产生，或由其中插入了来自所述来源的多核苷酸的菌株产生。在一个方面，从给定来源获得的多肽是胞外分泌的。

在一个方面，所述多肽是踝节菌属(Talaromyces)多肽。

在另一个方面，所述多肽是Talaromyces leycettanus多肽，例如从Talaromycesleycettanus菌株CBS398.68获得的多肽。

可理解的是对于前述的种，本发明包含完全和不完全阶段(perfect andimperfect states)，和其它分类学的等同物(equivalent)，例如无性型(anamorph)，而无论它们已知的种名。本领域技术人员将容易地识别适合的等同物的身份。

这些种的菌株在许多培养物保藏中心对于公众能够容易地取得，所述保藏中心诸如美国典型培养物保藏中心(the American Type Culture Collection)(ATCC)、德意志微生物和细胞培养物保藏中心(Deutsche Sammlung von Mikroorganismen undZellkulturen GmbH)(DSMZ)、真菌菌种保藏中心(Centraalbureau VoorSchimmelcultures)(CBS)和农业研究机构专利培养物保藏中心北区研究中心(Agricultural Research Service Patent Culture Collection,Northern RegionalResearch Center)(NRRL)。

可以使用上述的探针从其它来源，包括从自然界(例如，土壤、堆肥、水等)分离的微生物或直接获得自自然材料(例如，土壤、堆肥、水等)的DNA样品鉴定和获得所述多肽。用于直接从天然生境(habitat)分离微生物和DNA的技术是本领域内公知的。随后可通过相似地筛选另一种微生物的基因组DNA或cDNA文库或混合的DNA样品来得到编码所述多肽的多核苷酸。一旦用探针检测到编码多肽的多核苷酸，就可以使用本领域普通技术人员已知的技术将所述多核苷酸分离或克隆(参见，例如，Sambrook等,1989,见上文)。

催化域

(a)催化域，其与SEQ ID NO:2的催化域(例如SEQ ID NO:2的氨基酸26至460)具有至少80％序列同一性；或催化域，其与SEQ ID NO:4的催化域(例如SEQ ID NO:4的氨基酸26至459)具有至少80％序列同一性；

(b)催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1的催化域编码序列(例如SEQ ID NO:1的核苷酸76至1380)具有至少60％序列同一性；或催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:3的催化域编码序列(例如SEQ ID NO:3的核苷酸76至1377)具有至少60％序列同一性；

(c)SEQ ID NO:2或SEQ ID NO:4的催化域包含一个或多个(例如几个)氨基酸的取代、缺失和/或插入的催化域变体；和

(d)(a)、(b)或(c)的催化域的具有纤维二糖水解酶活性的片段。

所述催化域优选与SEQ ID NO:2或SEQ ID NO:4的催化域具有至少80％，至少85％，至少90％，至少91％，至少92％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性程度。在一个方面，所述催化域包含氨基酸序列，所述氨基酸序列与SEQ ID NO:2或SEQ ID NO:4的催化域相差十个氨基酸，例如相差五个氨基酸，相差四个氨基酸，相差三个氨基酸，相差两个氨基酸，和相差一个氨基酸。

所述催化域优选包含或组成为(consist of)SEQ ID NO:2的催化域或其等位变体；或为其具有纤维二糖水解酶活性的片段。在另一个优选方面，所述催化域包含或组成为SEQ ID NO:2的氨基酸26至460。

所述催化域优选包含或组成为(consist of)SEQ ID NO:4的催化域或其等位变体；或为其具有纤维二糖水解酶活性的片段。在另一个优选方面，所述催化域包含或组成为SEQ ID NO:4的氨基酸26至459。

在一个实施方案中，所述催化域可由多核苷酸编码，所述多核苷酸在中等严格条件，或中等-高严格条件，或高严格条件，或非常高严格条件下(如上文定义)，与以下杂交：(i)SEQ ID NO:1或SEQ ID NO:3的催化域编码序列，或(ii)(i)的全长互补物(J.Sambrook等，1989，见上文)。

所述催化域可由多核苷酸编码，所述多核苷酸与SEQ ID NO:1或SEQ ID NO:3的催化域编码序列具有至少60％，例如至少70％，至少75％，至少80％，至少85％，至少90％，至少91％，至少92％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性程度，其编码具有纤维二糖水解酶活性的多肽。

在一个方面，编码催化域的多核苷酸包含或组成为SEQ ID NO:1的核苷酸76至1380或其cDNA序列。

在一个方面，编码催化域的多核苷酸包含或组成为SEQ ID NO:3的核苷酸76至1377或其cDNA序列。

多核苷酸

本发明亦涉及编码如本文中所述的本发明的多肽的分离的多核苷酸。

用于分离或克隆多核苷酸的技术在本领域中是已知的，并包括包括从基因组DNA或cDNA分离，或其组合。可通过例如使用熟知的聚合酶链式反应(PCR)或表达文库的抗体筛选来检测具有共有结构特性的克隆DNA片段，从而实现从这种基因组DNA克隆多核苷酸。参见，例如，Innis等,1990,PCR:A Guide to Methods and Application,Academic Press,New York。可以使用其它核酸扩增方法，如连接酶链式反应(LCR)、连接活化转录(ligatedactivated transcription；LAT)和基于多核苷酸的扩增(NASBA)。可以从踝节菌属的菌株，或相关生物体克隆所述多核苷酸，因此，例如可为所述多核苷酸的多肽编码区的等位基因变体或种变体(species variant)。

修饰编码本发明多肽的多核苷酸对于合成与所述多肽基本上相似的多肽可为必需的。术语与所述多肽“基本上相似”指多肽的非天然存在的形式。这些多肽可能以一些工程改造的方式而不同于从其天然来源分离的多肽，例如，比活性、热稳定性、最适pH等方面不同的变体。可以在作为SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，或其cDNA序列，例如其亚序列呈现的多核苷酸的基础上和/或通过引入如下核苷酸取代：所述取代不导致多肽氨基酸序列的改变，但是符合意欲产生酶的宿主生物体的密码子使用；或者通过导入可产生不同的氨基酸序列的核苷酸取代来构建变体。关于核苷酸取代的概述，参见，例如，Ford等,1991,Protein Expression and Purification 2:95-107。

核酸构建体

本发明还涉及包含本发明的多核苷酸的核酸构建体，所述多核苷酸与一个或多个调控序列可操作地连接，所述调控序列在合适的宿主细胞中在与该调控序列相容的条件下指导编码序列的表达。

可以用许多方式操作所述多核苷酸以提供多肽的表达。依赖于表达载体，在将多核苷酸插入载体之前对其进行操作可能是理想的或必需的。使用重组DNA方法修饰多核苷酸的技术是本领域熟知的。

调控序列可为启动子，其由用于表达编码本发明的多肽的多核苷酸的宿主细胞所识别的多核苷酸。启动子含有介导多肽的表达的转录调控序列。启动子可以是在宿主细胞中显示转录活性的任何多核苷酸，包括突变的、截短的和杂合的启动子，并且可以从编码与宿主细胞同源或异源的胞外或胞内多肽的基因获得。

用于在细菌宿主细胞中指导本发明的核酸构建体转录的合适启动子的实例是从下述获得的启动子：解淀粉芽孢杆菌α-淀粉酶基因(amyQ)、地衣芽孢杆菌α-淀粉酶基因(amyL)、地衣芽孢杆菌青霉素酶基因(penP)、嗜热脂肪芽孢杆菌产麦芽淀粉酶基因(amyM)、枯草芽孢杆菌果聚糖蔗糖酶基因(sacB)、枯草芽孢杆菌xylA和xylB基因、苏云金芽孢杆菌cryIIIA基因(Agaisse和Lereclus,1994,Molecular Microbiology 13:97-107)、大肠杆菌lac操纵子、大肠杆菌trc启动子(Egon等,1988,Gene 69:301-315)、天蓝链霉菌琼脂糖酶基因(dagA)和原核β-内酰胺酶基因(Villa-Kamaroff等,1978,Proceedings of theNational Academy of Sciences USA 75:3727-3731)，以及tac启动子(DeBoer等,1983,Proc.Natl.Acad.Sci.USA 80:21-25)。另外的启动子在"Useful proteins fromrecombinant bacteria"于Gilbert等,1980,Scientific American,242:74-94中；和在Sambrook等,1989,见上文中描述。串联启动子的实例公开于WO 99/43835。

用于指导本发明的核酸构建体在丝状真菌宿主细胞中转录的合适启动子的实例是从下列酶的基因获得的启动子：构巢曲霉乙酰胺酶、黑曲霉中性α-淀粉酶、黑曲霉酸稳定性α-淀粉酶、黑曲霉或泡盛曲霉葡糖淀粉酶(glaA)、米曲霉TAKA淀粉酶、米曲霉碱性蛋白酶、米曲霉丙糖磷酸异构酶、尖镰孢胰蛋白酶样蛋白酶(WO 96/00787)、镶片镰孢淀粉葡糖苷酶(WO 00/56900)、镶片镰孢Daria(WO 00/56900)、镶片镰孢Quinn(WO 00/56900)、曼赫根毛霉(Rhizomucor miehei)脂肪酶、曼赫根毛霉天冬氨酸蛋白酶、里氏木霉β-葡糖苷酶、里氏木霉纤维二糖水解酶I、里氏木霉纤维二糖水解酶II、里氏木霉内切葡聚糖酶I、里氏木霉内切葡聚糖酶II、里氏木霉内切葡聚糖酶III、里氏木霉内切葡聚糖酶IV、里氏木霉内切葡聚糖酶V、里氏木霉木聚糖酶I、里氏木霉木聚糖酶II、里氏木霉β-木糖苷酶，以及NA2-tpi启动子(一种修饰的启动子，其来自在曲霉属中性α-淀粉酶基因，其中未翻译的前导序列由曲霉属丙糖磷酸异构酶的基因的未翻译的前导序列所替代；非限制性实例包括修饰的启动子，其来自黑曲霉中性α-淀粉酶的基因，其中未翻译的前导序列由构巢曲霉或米曲霉丙糖磷酸异构酶的基因的未翻译的前导序列所替代)；和它们的突变的、截短的和杂合的启动子。

在酵母宿主中，有用的启动子从如下的基因获得：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母半乳糖激酶(GAL1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH1,ADH2/GAP)、酿酒酵母丙糖磷酸异构酶(TPI)、酿酒酵母金属硫蛋白(CUP1)和酿酒酵母3-磷酸甘油酸激酶。对于酵母宿主细胞其它有用的启动子由Romanos等,1992,Yeast 8:423-488描述。

调控序列也可以是转录终止子，其由宿主细胞识别以终止转录。所述终止子与编码所述多肽的多核苷酸的3’末端可操作地连接。在本发明中，可使用在宿主细胞中有功能的任何终止子。

对于细菌宿主细胞优选的终止子从如下的基因获得：克劳氏芽孢杆菌碱性蛋白酶(aprH)、地衣芽孢杆菌α-淀粉酶(amyL)和大肠杆菌核糖体RNA(rrnB)。

对于丝状真菌宿主细胞优选的终止子从如下酶的基因获得：构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶、和尖镰孢胰蛋白酶样蛋白酶。

对于酵母宿主细胞优选的终止子从如下酶的基因获得：酿酒酵母烯醇化酶、酿酒酵母细胞色素C(CYC1)和酿酒酵母甘油醛-3-磷酸脱氢酶。对于酵母宿主细胞其它有用的终止子由Romanos等,1992,见上文描述。

调控序列还可以是启动子下游和基因的编码序列上游的mRNA稳定化区，其增加所述基因的表达。

合适的mRNA稳定化区的实例从如下的基因获得：苏云金芽孢杆菌cryIIIA基因(WO94/25612)和枯草芽孢杆菌SP82基因(Hue等,1995,Journal of Bacteriology 177:3465-3471)。

调控序列还可以是合适的前导序列，其为对于宿主细胞的翻译重要的mRNA非翻译区。前导序列可操作地连接于编码多肽的多核苷酸的5’-末端。可使用在宿主细胞中有功能的任何前导序列。

对于丝状真菌宿主细胞优选的前导序列从如下酶的基因获得：米曲霉TAKA淀粉酶和构巢曲霉丙糖磷酸异构酶。

对于酵母宿主细胞合适的前导序列从如下酶的基因获得：酿酒酵母烯醇化酶(ENO-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(ADH2/GAP)。

调控序列也可以是聚腺苷酸化序列，其是与多核苷酸的3’末端可操作地连接的序列，并且在转录时，宿主细胞将其识别为将聚腺苷残基添加至转录的mRNA的信号。可使用在宿主细胞中有功能的任何聚腺苷酸化序列。

对于丝状真菌宿主细胞优选的聚腺苷酸化序列从如下酶的基因获得：构巢曲霉邻氨基苯甲酸合酶、黑曲霉葡糖淀粉酶、黑曲霉α-葡糖苷酶、米曲霉TAKA淀粉酶和尖镰孢胰蛋白酶样蛋白酶。

对于酵母宿主细胞有用的聚腺苷酸化序列由Guo和Sherman,1995,Mol.CellularBiol.15:5983-5990描述。

调控序列还可以是信号肽编码区，其编码与多肽的N端相连的信号肽，并指导所述多肽进入细胞分泌途径。多核苷酸的编码序列5’端可固有地包含信号肽编码序列，其与编码所述多肽的编码序列的区段一起天然地连接在翻译阅读框中。或者，编码序列5’端可含有对于所述编码序列外源的信号肽编码序列。外源信号肽编码序列在编码序列不天然地含有信号肽编码序列时可为必需的。或者，外源信号肽编码序列可简单地取代天然信号肽编码序列以增强多肽的分泌。然而，可使用指导表达的多肽进入宿主细胞的分泌途径的任何信号肽编码序列。

对于细菌宿主细胞有效的信号肽编码序列是从如下酶的基因获得的信号肽编码序列：芽孢杆菌属NCIB 11837产麦芽糖淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶(subtilisin)、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌α-淀粉酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT,nprS,nprM)和枯草芽孢杆菌prsA。另外的信号肽由Simonen和Palva,1993,Microbiological Reviews 57:109-137描述。

对于丝状真菌宿主细胞有效的信号肽编码序列是从如下酶的基因获得的信号肽编码序列：黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米曲霉TAKA淀粉酶、特异腐质霉纤维素酶、特异腐质霉内切葡聚糖酶V、疏棉状腐质霉脂肪酶和曼赫根毛霉天冬氨酸蛋白酶。

对于酵母宿主细胞有用的信号肽从酿酒酵母α因子和酿酒酵母转化酶的基因获得。其它有用的信号肽编码序列由Romanos等,1992,见上文描述。

调控序列还可以是前肽编码序列，其编码位于多肽N端的前肽。所得多肽称为酶原(proenzyme)或前多肽(propolypeptide)(或在某些情况下称为酶原(zymogen))。前多肽通常是无活性的，并且能够通过前肽的催化或自催化切割从前多肽转化为活性多肽。可以从枯草芽孢杆菌碱性蛋白酶(aprE)、枯草芽孢杆菌中性蛋白酶(nprT)、嗜热毁丝霉漆酶(WO95/33836)、曼赫根毛霉天冬氨酸蛋白酶和酿酒酵母α因子的基因获得前肽编码序列。

当信号肽和前肽序列二者均存在时，将前肽序列置于紧接着(next to)多肽的N端，并且将信号肽序列置于紧接着前肽序列的N端。

同样理想的是添加调节序列，其相对于宿主细胞的生长来调节多肽的表达。调节系统的实例是引起基因表达响应化学或物理刺激物，包括调节化合物的存在而开启或关闭的那些系统。原核系统中的调节系统包括lac、tac和trp操纵基因系统。在酵母中，可使用ADH2系统或GAL1系统。在丝状真菌中，可以使用黑曲霉葡糖淀粉酶启动子、米曲霉TAKA α-淀粉酶启动子和米曲霉葡糖淀粉酶启动子。调节序列的其它实例是那些允许基因扩增的序列。在真核系统中，这些调节序列包括在氨甲蝶呤(methotrexate)存在下扩增的二氢叶酸还原酶基因，和以重金属(with heavy metal)扩增的金属硫蛋白基因。在这些情况下，编码多肽的多核苷酸将与调节序列可操作地连接。

表达载体

本发明还涉及重组表达载体，所述重组表达载体包含本发明的多核苷酸，其连接于一个或多个调控序列，例如启动子和转录和翻译终止信号，所述调控序列指导所述多肽在表达宿主中产生。多种核苷酸和调控序列可以结合在一起以产生重组表达载体，所述表达载体可以包括一个或多个方便的限制位点以允许在这些位点插入或取代编码多肽的多核苷酸。可供选择的是，可以通过在适当的用于表达的载体中插入包含所述多核苷酸的核酸构建体或多核苷酸来表达所述多核苷酸。在制备表达载体的过程中，将编码序列置于载体中，从而将该编码序列与适当的调控序列可操作地连接以供表达。

重组表达载体可以是任何载体(例如，质粒或病毒)，其能够方便地进行重组DNA步骤，并且能够产生多核苷酸的表达。载体的选择将通常依赖于载体与将引入该载体的宿主细胞的相容性。载体可以是线状或闭合环状质粒。

载体可以是自主复制载体，即，作为染色体外实体(entity)存在的载体，其复制独立于染色体复制，例如，质粒、染色体外元件、微型染色体(minichromosome)或人工染色体。载体可以含有任何用于确保自复制的手段(means)。或者，载体可以是一种当被引入宿主细胞中时，整合到基因组中并且与整合了该载体的染色体一起复制的载体。此外，可以使用单独的载体或质粒或两个或更多个载体或质粒，其共同含有待引入宿主细胞基因组的完整DNA(total DNA)，或可以使用转座子(transposon)。

所述载体优选地含有一个或多个选择性标记，其允许简单选择经转化、转染、转导等的细胞。选择性标记是基因，其产物提供杀生物剂或病毒抗性、对重金属的抗性、对营养缺陷型的原养性(prototrophy to auxotrophs)等。

细菌选择性标记的实例是地衣芽孢杆菌或枯草芽孢杆菌dal基因，或赋予抗生素抗性的标记，所述抗生素抗性例如氨苄青霉素、氯霉素、卡那霉素、新霉素、壮观霉素或四环素抗性。对于酵母宿主细胞合适的标记包括但不限于ADE2、HIS3、LEU2、LYS2、MET3、TRP1和URA3。用于丝状真菌宿主细胞的选择性标记包括但不限于amdS(乙酰胺酶)、argB(鸟氨酸氨甲酰基转移酶)、bar(草铵膦(phosphinothricin)乙酰转移酶)、hph(潮霉素磷酸转移酶)、niaD(硝酸还原酶)(nitrate reductase)、pyrG(乳清酸核苷-5’-磷酸脱羧酶)(orotidine-5’-phosphate decarboxylase)、sC(硫酸腺苷酰转移酶)和trpC(邻氨基苯甲酸合酶(anthranilate synthase))以及它们的等同物。优选用在曲霉属细胞中的是构巢曲霉或米曲霉amdS和pyrG基因和吸水链霉菌(Streptomyces hygroscopicus)bar基因。

所述载体优选含有元件，其允许载体整合入宿主细胞基因组或载体在细胞中独立于基因组的自主复制。

为了整合入宿主细胞基因组，载体可依赖编码多肽的多核苷酸的序列或用于通过同源或非同源重组整合入基因组的任何其它载体元件。或者，载体可以含有额外的多核苷酸，用于指导通过同源重组整合入宿主细胞基因组染色体中的精确位置。为了增加在精确位置整合的可能性，整合元件应含有足够数量的核酸，如100至10,000碱基对，400至10,000碱基对，和800至10,000碱基对，其与相应的目标序列具有高度序列同一性以增强同源重组的概率。整合元件可为任何序列，其与宿主细胞基因组中的目标序列同源。此外，整合元件可为非编码或编码的多核苷酸。另一方面，可以将载体通过非同源重组整合到宿主细胞的基因组中。

为了自主复制，载体可以进一步包含复制起点，其使载体能够在所述的宿主细胞中自主地复制。复制起点可以是介导自主复制的任何质粒复制子(replicator)，其在细胞中发挥功能。术语“复制起点”或“质粒复制子”意指能够使质粒或载体体内复制的多核苷酸。

细菌复制起点的实例是允许在大肠杆菌中复制的质粒pBR322、pUC19、pACYC177和pACYC184的复制起点，和允许在芽孢杆菌属中复制的质粒pUB110、pE194、pTA1060和pAMβ1的复制起点。

用于酵母宿主细胞中的复制起点的实例是2微米复制起点、ARS1、ARS4、ARS1和CEN3的组合，和ARS4和CEN6的组合。

在丝状真菌细胞中有用的复制起点的实例是AMA1和ANS1(Gems等,1991,Gene 98:61-67；Cullen等,1987,Nucleic Acids Res.15:9163-9175；WO 00/24883)。分离AMA1基因和构建包含该基因的质粒或载体能够根据公开于WO 00/24883中的方法完成。

可以将多于一个拷贝的本发明的多核苷酸插入宿主细胞以增加多肽的产生。多核苷酸拷贝数的增加可通过如下方法获得：将至少一个额外拷贝的序列整合入宿主细胞基因组，或将可扩增的选择性标记基因包括于多核苷酸，其中可通过在合适的选择剂(selectable agent)存在下培养细胞来选择含有选择性标记基因的扩增拷贝，且由此含有多核苷酸的额外拷贝的细胞。

用于连接上述元件以构建本发明的重组表达载体的方法是本领域技术人员熟知的(参见，例如，Sambrook等,1989,见上文)。

宿主细胞

本发明还涉及重组宿主细胞，其包含本发明的多核苷酸可操作地连接于一个或多个指导本发明多肽的产生的调控序列。将包含多核苷酸的构建体或载体导入宿主细胞，使所述构建体或载体如前所述作为染色体整体或者作为自复制的染色体外载体维持。术语“宿主细胞”包括亲本细胞的任何后代，其由于复制过程中发生的突变而不同于亲本细胞。宿主细胞的选择将在很大程度上依赖于编码多肽的基因及其来源。

宿主细胞可以是在本发明的多肽的重组产生中有用的任何细胞，例如，原核或真核细胞。

原核宿主细胞可以是任何革兰氏阳性或革兰氏阴性细菌。革兰氏阳性细菌包括但不限于，芽孢杆菌属(Bacillus)、梭菌属(Clostridium)、肠球菌属(Enterococcus)、地芽孢杆菌属(Geobacillus)、乳杆菌属(Lactobacillus)、乳球菌属(Lactococcus)、海洋芽孢杆菌属(Oceanobacillus)、葡萄球菌属(Staphylococcus)、链球菌属(Streptococcus)和链霉菌属(Streptomyces)。革兰氏阴性细菌包括但不限于，弯曲杆菌属(Campylobacter)、大肠杆菌(E.coli)、黄杆菌属(Flavobacterium)、梭杆菌属(Fusobacterium)、螺杆菌属(Helicobacter)、泥杆菌属(Ilyobacter)、奈瑟氏菌属(Neisseria)、假单胞菌属(Pseudomonas)、沙门氏菌属(Salmonella)和脲原体属(Ureaplasma)。

细菌宿主细胞可以是任何芽孢杆菌属细胞，包括但不限于嗜碱芽孢杆菌(Bacillus alkalophilus)、解淀粉芽孢杆菌(Bacillus amyloliquefaciens)、短芽孢杆菌(Bacillus brevis)、环状芽孢杆菌(Bacillus circulans)、克劳氏芽孢杆菌(Bacillusclausii)、凝结芽孢杆菌(Bacillus coagulans)、坚强芽孢杆菌(Bacillus firmus)、灿烂芽孢杆菌(Bacillus lautus)、迟缓芽孢杆菌(Bacillus lentus)、地衣芽孢杆菌(Bacilluslicheniformis)、巨大芽孢杆菌(Bacillus megaterium)、短小芽孢杆菌(Bacilluspumilus)、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、枯草芽孢杆菌(Bacillussubtilis)和苏云金芽孢杆菌(Bacillus thuringiensis)细胞。

细菌宿主细胞还可以是任何链球菌属细胞，包括但不限于似马链球菌(Streptococcus equisimilis)、酿脓链球菌(Streptococcus pyogenes)、乳房链球菌(Streptococcus uberis)和马链球菌兽瘟亚种(Streptococcus equisubsp.Zooepidemicus)细胞。

细菌宿主细胞还可以是任何链霉菌属细胞，包括但不限于不产色链霉菌(Streptomyces achromogenes)、除虫链霉菌(Streptomyces avermitilis)、天蓝链霉菌(Streptomyces coelicolor)、灰色链霉菌(Streptomyces griseus)和浅青紫链霉菌(Streptomyces lividans)细胞。

可通过如下方法实现将DNA引入到芽孢杆菌属细胞：原生质体转化(参见，例如，Chang和Cohen,1979,Mol.Gen.Genet.168:111-115)，感受态细胞转化(参见，例如，Young和Spizizen,1961,J.Bacteriol.81:823-829或Dubnau和Davidoff-Abelson,1971,J.Mol.Biol.56:209-221)，电穿孔(参见，例如，Shigekawa和Dower,1988,Biotechniques6:742-751)或接合(参见，例如，Koehler和Thorne,1987,J.Bacteriol.169:5771-5278)。可通过如下方法实现将DNA引入到大肠杆菌细胞：原生质体转化(参见，例如，Hanahan,1983,J.Mol.Biol.166:557-580)或电穿孔(参见，例如，Dower等,1988,Nucleic Acids Res.16:6127-6145)。可通过如下方法实现将DNA引入到链霉菌属细胞：原生质体转化和电穿孔(参见，例如，Gong等,2004,Folia Microbiol.(Praha)49:399-405)，接合(参见，例如，Mazodier等,1989,J.Bacteriol.171:3583-3585)，或转导(参见，例如，Burke等,2001,Proc.Natl.Acad.Sci.USA 98:6289-6294)。可通过如下方法实现将DNA引入到假单胞菌属细胞：电穿孔(参见，例如，Choi等,2006,J.Microbiol.Methods64:391-397)或接合(参见，例如，Pinedo和Smets,2005,Appl.Environ.Microbiol.71:51-57)。可通过如下方法实现将DNA引入到链球菌属细胞：天然感受态(natural competence)(参见，例如，Perry和Kuramitsu,1981,Infect.Immun.32:1295-1297)，原生质体转化(参见，例如，Catt和Jollick,1991,Microbios.68:189-207)，电穿孔(参见，例如，Buckley等,1999,Appl.Environ.Microbiol.65:3800-3804)或接合(参见，例如，Clewell,1981,Microbiol.Rev.45:409-436)。然而，可以使用本领域已知的将DNA引入宿主细胞的任何方法。

宿主细胞还可以是真核生物，如哺乳动物、昆虫、植物或真菌细胞。

宿主细胞可为真菌细胞。“真菌”用在本文包括以下门：子囊菌门(Ascomycota)、担子菌门(Basidiomycota)、壶菌门(Chytridiomycota)和接合菌门(Zygomycota)以及卵菌门(Oomycota)，和所有有丝分裂孢子真菌(mitosporic fungi)(如由Hawksworth等,于Ainsworth and Bisby’s Dictionary of The Fungi,第8版,1995,CAB International,University Press,Cambridge,UK中所定义)。

真菌宿主细胞可为酵母细胞。“酵母”用在本文包括产子囊酵母(ascosporogenousyeast)(内孢霉目(Endomycetales))、产担子酵母(basidiosporogenous yeast)和属于半知菌类(Fungi Imperfecti)(芽孢纲(Blastomycetes))的酵母。由于酵母的分类在未来可能改变，就本发明而言，将酵母定义为如Biology and Activities of Yeast(Skinner,Passmore,和Davenport编,Soc.App.Bacteriol.Symposium Series No.9,1980)中所述。

酵母宿主细胞可为假丝酵母属(Candida)、汉逊酵母属(Hansenula)、克鲁维酵母属(Kluyveromyces)、毕赤酵母属(Pichia)、酵母属(Saccharomyces)、裂殖酵母属(Schizosaccharomyces)或西洋蓍霉属(Yarrowia)细胞，如乳酸克鲁维酵母(Kluyveromyces lactis)、卡尔酵母(Saccharomyces carlsbergensis)、酿酒酵母(Saccharomyces cerevisiae)、糖化酵母(Saccharomyces diastaticus)、道格拉氏酵母(Saccharomyces douglasii)、克鲁弗酵母(Saccharomyces kluyveri)、诺地酵母(Saccharomyces norbensis)、卵形酵母(Saccharomyces oviformis)或解脂西洋蓍霉(Yarrowia lipolytica)细胞。

真菌宿主细胞可为丝状真菌细胞。“丝状真菌”包括真菌门(Eumycota)和卵菌门的亚门(如由Hawksworth等,1995,见上文，所定义)的所有丝状形式。丝状真菌通常的特征在于由壳多糖(chitin)、纤维素、葡聚糖、壳聚糖(chitosan)、甘露聚糖和其它复杂多糖组成的菌丝体壁。通过菌丝延伸进行营养生长，而碳分解代谢是专性需氧的。相反，酵母例如酿酒酵母的营养生长通过单细胞菌体的出芽生殖(budding)进行，而碳分解代谢可以是发酵的。

丝状真菌宿主细胞可为枝顶孢霉属(Acremonium)、曲霉属(Aspergillus)、短梗霉属(Aureobasidium)、烟管霉属(Bjerkandera)、拟蜡菌属(Ceriporiopsis)、金孢子菌属(Chrysosporium)、鬼伞属(Coprinus)、革盖菌属(Coriolus)、隐球菌属(Cryptococcus)、Filibasidium、镰孢属(Fusarium)、腐质霉属(Humicola)、梨孢菌属(Magnaporthe)、毛霉属(Mucor)、毁丝霉属(Myceliophthora)、新考玛脂霉属(Neocallimastix)、脉孢菌属(Neurospora)、拟青霉属(Paecilomyces)、青霉属(Penicillium)、平革菌属(Phanerochaete)、射脉菌属(Phlebia)、瘤胃壶菌属(Piromyces)、侧耳属(Pleurotus)、裂褶菌属(Schizophyllum)、踝节菌属(Talaromyces)、嗜热子囊菌属(Thermoascus)、梭孢壳属(Thielavia)、弯颈霉属(Tolypocladium)、栓菌属(Trametes)或木霉属(Trichoderma)细胞。

例如，丝状真菌宿主细胞可为泡盛曲霉(Aspergillus awamori)、烟曲霉(Aspergillus fumigatus)、臭曲霉(Aspergillus foetidus)、日本曲霉(Aspergillusjaponicus)、构巢曲霉(Aspergillus nidulans)、黑曲霉(Aspergillus niger)、米曲霉(Aspergillus oryzae)、黑刺烟管菌(Bjerkandera adusta)、干拟蜡菌(Ceriporiopsisaneirina)、Ceriporiopsis caregiea、Ceriporiopsis gilvescens、Ceriporiopsispannocinta、Ceriporiopsis rivulosa、Ceriporiopsis subrufa、虫拟蜡菌(Ceriporiopsis subvermispora)、Chrysosporium inops、嗜角质金孢子菌(Chrysosporium keratinophilum)、Chrysosporium lucknowense、Chrysosporiummerdarium、毡金孢子菌(Chrysosporium pannicola)、Chrysosporium queenslandicum、热带金孢子菌(Chrysosporium tropicum)、Chrysosporium zonatum、灰盖鬼伞(Coprinuscinereus)、毛革盖菌(Coriolus hirsutus)、杆孢状镰孢(Fusarium bactridioides)、禾谷镰孢(Fusarium cerealis)、库威镰孢(Fusarium crookwellense)、大刀镰孢(Fusariumculmorum)、禾本科镰孢(Fusarium graminearum)、禾赤镰孢(Fusarium graminum)、异孢镰孢(Fusarium heterosporum)、合欢木镰孢(Fusarium negundi)、尖镰孢(Fusariumoxysporum)、多枝镰孢(Fusarium reticulatum)、粉红镰孢(Fusarium roseum)、接骨木镰孢(Fusarium sambucinum)、肤色镰孢(Fusarium sarcochroum)、拟分枝孢镰孢(Fusariumsporotrichioides)、硫色镰孢(Fusarium sulphureum)、圆镰孢(Fusarium torulosum)、拟丝孢镰孢(Fusarium trichothecioides)、镶片镰孢(Fusarium venenatum)、特异腐质霉(Humicola insolens)、疏棉状腐质霉(Humicola lanuginosa)、米黑毛霉(Mucor miehei)、嗜热毁丝霉(Myceliophthora thermophila)、粗糙脉孢菌(Neurospora crassa)、产紫青霉(Penicillium purpurogenum)、黄孢平革菌(Phanerochaete chrysosporium)、辐射射脉菌(Phlebia radiata)、刺芹侧耳(Pleurotus eryngii)、土生梭孢霉(Thielaviaterrestris)、长绒毛栓菌(Trametes villosa)、变色栓菌(Trametes versicolor)、哈茨木霉(Trichoderma harzianum)、康宁木霉(Trichoderma koningii)、长枝木霉(Trichodermalongibrachiatum)、里氏木霉(Trichoderma reesei)或绿色木霉(Trichoderma viride)细胞。

可以将真菌细胞通过涉及原生质体形成、原生质体转化和细胞壁再生的方法以本身公知的方式转化。用于转化曲霉属和木霉属宿主细胞的合适方法在EP238 023，Yelton等,1984,Proc.Natl.Acad.Sci.USA 81:1470-1474，和Christensen等,1988,Bio/Technology 6:1419-1422中描述。用于转化镰孢属菌种的合适方法由Malardier等,1989,Gene 78:147-156和WO 96/00787描述。可以使用由如下文献描述的方法转化酵母：Becker和Guarente,于Abelson,J.N.和Simon,M.I.编,Guide to Yeast Genetics and MolecularBiology,Methods in Enzymology,Volume194,pp 182-187,Academic Press,Inc.,NewYork；Ito等,1983,J.Bacteriol.153:163；和Hinnen等,1978,Proc.Natl.Acad.Sci.USA75:1920。

产生方法

本发明还涉及用于产生本发明多肽的方法，其包括：(a)在有助于产生多肽的条件下培养细胞，所述细胞以其野生型形式产生所述多肽；和(b)回收所述多肽。在一个优选的方面，所述细胞是踝节菌属的细胞。在一个更优选的方面，所述细胞是Talaromycesleycettanus细胞。在一个最优选的方面，所述细胞是Talaromyces leycettanus菌株CBS398.68。

本发明还涉及用于产生本发明的多肽的方法，其包括：(a)在有助于产生多肽的条件下培养本发明的重组宿主细胞；和(b)回收所述多肽。

所述宿主细胞使用本领域已知的方法在适合于产生所述多肽的营养培养基中培养。例如，可以通过在合适培养基中和允许表达和/或分离所述多肽的条件下的摇瓶培养，或实验室或工业发酵罐中的小规模或大规模发酵(包括连续、分批、补料分批或固态发酵)来培养细胞。使用本领域已知的方法在合适的营养培养基中进行培养，所述营养培养基包含碳源和氮源和无机盐。合适的培养基能够从商业供应商获得或可以根据公开的组成制备(例如，在美国典型培养物保藏中心的目录中)。如果多肽分泌到营养培养基中，该多肽能够从所述培养基中直接回收。如果多肽不分泌，其能够从细胞裂解物(lysate)回收。

可以使用本领域已知的对于所述多肽是特异性的方法来检测多肽。这些检测方法包括但不限于特异性抗体的使用、酶产物的形成或酶底物的消失。例如，酶测定法(enzymeassay)可用于确定多肽的活性。

多肽可以使用本领域已知的方法回收。例如，多肽可以通过常规方法从营养培养基中回收，所述常规方法包括但不限于收集、离心、过滤、提取、喷雾干燥、蒸发或沉淀。

多肽可以通过多种本领域已知的方法纯化以获得基本上纯的多肽，所述方法包括但不限于层析(例如，离子交换、亲和、疏水、层析聚焦和大小排阻)、电泳方法(例如，制备型(preparative)等电聚焦)、差示溶解度(例如，硫酸铵沉淀)、SDS-PAGE或提取(参见，例如，Protein Purification,Janson和Ryden编,VCH Publishers,New York,1989)。

在另一个方面，不回收多肽，而是使用表达所述多肽的本发明的宿主细胞作为所述多肽的来源。

植物

本发明还涉及分离的植物，例如，转基因植物、植物部分或植物细胞，其包含本发明的多核苷酸，从而以可回收的量表达和产生所述多肽或域。多肽或域可从植物或植物部分回收。或者，可以按原样(as such)将含有该多肽或域的植物或植物部分用于改进食品或饲料的质量，例如，改进营养价值、适口性(palatability)和流变性质(rheologicalproperties)，或用于破坏抗营养因子。

转基因植物可以是双子叶的(双子叶植物)或单子叶的(单子叶植物)。单子叶植物的实例是草(grasses)，如草地早熟禾(meadow grass)(蓝草(blue grass)，早熟禾属(Poa))；饲用牧草(forage grass)如羊茅属(Festuca)、黑麦草属(Lolium)；寒地型牧草(temperate grass)，如Agrostis(翦股颖属)；和谷类，例如，小麦、燕麦、黑麦、大麦、稻(rice)、高粱和玉蜀黍(maize)(玉米)。

双子叶植物的实例是烟草(tobacco)，豆类(legumes)，如羽扇豆(lupins)，马铃薯，糖甜菜(sugar beet)，豌豆，豆(bean)和大豆(soybean)和十字花科的(cruciferous)植物(十字花科(family Brassicaceae))，如花椰菜(cauliflower)，油菜籽(rape seed)和紧密相关的模型生物体拟南芥(Arabidopsis thaliana)。

植物部分的实例是茎(stem)、愈伤组织(callus)、叶(leaf)、根(root)、果实(fruit)、种子(seed)和块茎(tuber)，以及包含这些部分的独立组织，例如，表皮(epidermis)、叶肉(mesophyll)、薄壁组织(parenchyme)、维管组织(vascular tissue)、分生组织(meristem)。具体的植物细胞区室(compartments)，如叶绿体(chloroplast)、质外体(apoplast)、线粒体(mitochondria)、液泡(vacuole)、过氧化物酶体(peroxisome)和细胞质(cytoplasm)也被认为是植物部分。此外，任何植物细胞，无论什么组织来源，都被认为是植物部分。同样地，植物部分，如分离以促进本发明的应用的具体组织和细胞也被认为是植物部分，例如胚(embryo)、胚乳(endosperm)、糊粉(aleurone)和种皮(seed coat)。

同样包含于本发明范围内的还有这些植物、植物部分和植物细胞的后代。

表达多肽或域的转基因植物或植物细胞可以依照本领域已知方法构建。简而言之，通过如下方法构建所述植物或植物细胞：将编码多肽或域的一个或多个表达构建体并入植物宿主基因组或叶绿体基因组，并且将所得的修饰植物或植物细胞繁殖为转基因植物或植物细胞。

表达构建体便利地是包含编码多肽或域的多核苷酸的核酸构建体，所述多核苷酸与在选择的植物或植物部分中表达该多核苷酸所需的适当的调节序列可操作地连接。此外，表达构建体可以包含对于鉴定植物细胞有用的选择性标记，在所述植物细胞中整合了表达构建体和将该构建体引入到所述植物中所必需的DNA序列(后者依赖于使用的DNA引入方法)。

调节序列的选择，例如启动子和终止子序列和任选地信号或转运序列的选择，举例来说，基于期望何时、何处以及如何表达多肽或域而确定。例如，编码多肽或域的基因的表达可以是组成型的或诱导型的，或可以是发育、阶段或组织特异性的，并且基因产物可以靶向特定的组织或植物部分如种子或叶。调节序列由例如Tague等,1988,PlantPhysiology 86:506所述。

对于组成性表达，可以使用35S-CaMV、玉米泛素1或稻肌动蛋白1启动子(Franck等,1980,Cell 21:285-294,Christensen等,1992,Plant Mo.Biol.18:675-689；Zhang等,1991,Plant Cell 3:1155-1165)。器官特异性启动子可以是例如来自贮藏库组织(storagesink tissue)例如种子、马铃薯块茎和果实的启动子(Edwards和Coruzzi,1990,Ann.Rev.Genet.24:275-303)，或来自代谢库组织(metabolic sink tissue)例如分生组织的启动子(Ito等,1994,Plant Mol.Biol.24:863-878)，种子特异性启动子诸如来自稻的谷蛋白(glutelin)、醇溶蛋白(prolamin)、球蛋白(globulin)或白蛋白(albumin)启动子(Wu等,1998,Plant Cell Physiol.39:885-889)，来自豆球蛋白(legumin)B4和蚕豆(Viciafaba)的未知的种子蛋白基因的蚕豆启动子(Conrad等,1998,J.Plant Physiol.152:708-711)、来自种子油体蛋白(oil body protein)的启动子(Chen等,1998,Plant CellPhysiol.39:935-941)，来自欧洲油菜(Brassica napus)的贮藏蛋白napA启动子，或本技术领域公知的任何其他种子特异性的启动子，例如，在WO 91/14772中所描述的。此外，启动子可为叶特异性的启动子，如来自稻或番茄的rbcs启动子(Kyozuka等,1993,PlantPhysiol.102:991-1000)，小球藻病毒(chlorella virus)腺嘌呤甲基转移酶(adeninemethyltransferase)基因启动子(Mitra和Higgins,1994,Plant Mol.Biol.26:85-93)，来自稻的aldP基因启动子(Kagaya等,1995,Mol.Gen.Genet.248:668-674)，或伤口诱导的启动子，如马铃薯pin2启动子(Xu等,1993,Plant Mol.Biol.22:573-588)。同样地，所述启动子可通过非生物的处理诱导，所述非生物的处理诸如温度、干旱或盐度变化，或通过外源施加的激活所述启动子的物质诱导，例如乙醇、雌激素(oestrogens)、植物激素(planthormones)如乙烯、脱落酸(abscisic acid)和赤霉酸(gibberellic acid)，和重金属。

启动子增强子元件也可以用于实现多肽或域在植物中的较高表达。例如，启动子增强子元件可以是内含子，其置于启动子和编码多肽或域的多核苷酸之间。例如Xu等,1993,见上，公开了使用稻肌动蛋白1基因的第一内含子以增强表达。

选择性标记基因和表达构建体的任何其它部分可以选自本领域内可用的那些。

将核酸构建体根据本领域已知的常规技术并入植物基因组，所述常规技术包括土壤杆菌属(Agrobacterium)介导的转化、病毒介导的转化、显微注射(microinjection)、粒子轰击、生物射弹转化和电穿孔(Gasser等,1990,Science 244:1293；Potrykus,1990,Bio/Technology 8:535；Shimamoto等,1989,Nature 338:274)。

根癌土壤杆菌(Agrobacterium tumefaciens)介导的基因转移(gene transfer)，是一种产生转基因双子叶植物(其综述，参见Hooykas和Schilperoort,1992,PlantMol.Biol.19:15-38)，和用于转化单子叶植物的方法，虽然对于这些植物可使用其他的转化方法。一种产生转基因单子叶植物的方法是用粒子(用转化DNA涂覆的微观的金或钨粒子)轰击胚愈伤组织(embryonic calli)或发育中的胚(developing embryos)(Christou,1992,Plant J.2:275-281；Shimamoto,1994,Curr.Opin.Biotechnol.5:158-162；Vasil等,1992,Bio/Technology 10:667-674)。转化单子叶植物的可供选择的方法是基于原生质体转化，如由Omirulleh等,1993,Plant Mol.Biol.21:415-428所描述的。其它转化方法包括描述于美国专利号6,395,966和7,151,204中的那些(两者均通过提述以其整体并入本文)。

转化之后，根据本领域熟知的方法选择具有并入的表达构建体的转化体并且再生成为完整植物。通常设计转化方法用于通过如下方法在再生期间或在后续世代中选择性消除选择基因：例如，使用带有两个独立的T-DNA构建体的共转化或通过特异性重组酶位点特异性地切除选择基因。

除了直接用本发明的构建体直接转化具体植物基因型之外，还可通过将具有构建体的植物与缺乏该构建体的第二植物杂交来制备转基因植物。举例而言，可将编码多肽或域的构建体通过杂交而引入特定植物品种，而根本无需直接转化该给定品种的植物。因此，本发明不仅涵盖从依照本发明经转化的细胞直接再生的植物，还包括此类植物的后代(progeny)。如用于本文，后代可指依照本发明制备的亲本植物任何世代的后裔(offspring)。此种后代可包含依据本发明制备的DNA构建体。杂交导致转基因通过将起始种系供体植物种系交叉授粉而引入植物种系。此类步骤的非限制性实例描述于美国专利号7,151,204。

植物通过回交转化方法生成。举例而言，该植物包括称作回交转化的基因型、种系、近交体(inbred)或杂交体(hybrid)的植物。

可使用遗传标记以协助本发明的一种或多种转基因从一个遗传背景基因渗入(introgression)至另一个。标记协助的选择提供了相对于常规育种的优势，在于其可用于避免由表型变异导致的错误。进一步，遗传标记可在特定杂交的个体后代中提供有关良种种质相对程度的数据。举例而言，当本不(otherwise)具有非农艺学所需的遗传背景但具有所需性状的植物与良种亲本杂交时，可使用遗传标记来选择不仅具有目标性状，还具有相对较大比例所需种质的后代。以此方式，使一种或多种性状基因渗入特定遗传背景所需的世代数得到最小化。

本发明亦涉及产生本发明的多肽或域的方法，其包括：(a)在有助于产生所述多肽或域的条件下培养转基因植物或植物细胞，所述植物或植物细胞包含编码多肽或域的多核苷酸；和(b)回收所述多肽或域。

下面给出了本发明的多肽组合物的优选用途。本发明的多肽组合物的剂量和使用所述组合物的其它条件可基于本领域中已知的方法来确定。

本发明还涉及下述使用具有纤维二糖水解酶活性的多肽或其组合物的工艺。

本发明还涉及降解纤维素材料的工艺，其包括：在本发明的具有纤维二糖水解酶活性的多肽的存在下，用酶组合物处理纤维素材料。在一个方面，所述方法进一步包括回收已降解或转化的纤维素材料。所述纤维素材料的降解或转化的可溶性产物可使用本领域已知的方法如例如离心、过滤或重力沉降从不溶性纤维素材料分离。

本发明还涉及产生发酵产物的工艺，其包括：(a)在本发明的具有纤维二糖水解酶活性的多肽的存在下，用酶组合物糖化纤维素材料；(b)用一种或多种(例如几种)发酵微生物发酵经糖化的纤维素材料以产生发酵产物；和(c)从发酵回收发酵产物。

本发明还涉及发酵纤维素材料的工艺，其包括：用一种或多种(例如几种)发酵微生物发酵纤维素材料，其中所述纤维素材料是在本发明的具有纤维二糖水解酶活性的多肽的存在下用酶组合物糖化的。在一个方面，纤维素材料的发酵产生发酵产物。在另一个方面，所述方法进一步包括从发酵回收发酵产物。

本发明的工艺可以用于将纤维素材料糖化成可发酵糖，并且将可发酵糖转化成很多有用的发酵产物，例如燃料、饮用乙醇和/或平台化学品(platform chemical)(例如酸、醇、酮、气体等)。从纤维素材料产生期望的发酵产物通常涉及预处理、酶水解(糖化)和发酵。

根据本发明的纤维素材料的处理可以使用本领域的常规工艺完成。此外，本发明的方法能使用经配置以依照发明操作的任何常规生物质加工设备进行。

水解(糖化)和发酵，分别或同时，包括但不限于，分离的水解和发酵(SHF)、同步糖化和发酵(SSF)、同步糖化和共发酵(SSCF)、混合的水解和发酵(HHF)、分离的水解和共发酵(SHCF)、混合的水解和共发酵(HHCF)，和直接微生物转化(DMC)，有时也称为合并的生物加工(consolidated bioprocessing，CBP)。SHF使用分离的处理步骤以首先将纤维素材料酶水解为可发酵糖，例如，葡萄糖，纤维二糖和戊糖单体，然后将可发酵糖发酵成为乙醇。在SSF中，纤维素材料的酶水解和糖变为乙醇的发酵在一个步骤中组合(Philippidis,G.P.,1996,Cellulose bioconversion technology,于Handbook on Bioethanol:Productionand Utilization,Wyman,C.E编,Taylor&Francis,Washington,DC,179-212)。SSCF包括多种糖的共发酵(Sheehan J.和Himmel M.,1999,Enzymes,energy and the environment:Astrategic perspective on the U.S.Department of Energy’s research anddevelopment activities for bioethanol,Biotechnol.Prog.15:817-827)。HHF在同步糖化和水解步骤之外，还涉及单独的水解步骤，所述步骤可以在同一个反应器中进行。HHF过程中的步骤可以在不同的温度，即，高温酶法糖化，然后在发酵菌株能够耐受的较低温度进行SSF。DMC在一个或多个(例如几个)步骤中组合了所有三个过程(酶产生、水解和发酵)，其中使用相同的生物体产生用于将纤维素材料转化成可发酵糖并将可发酵糖转化成终产物的酶(Lynd等,2002,Microbial cellulose utilization:Fundamentals andbiotechnology,Microbiol.Mol.Biol.Reviews 66:506-577)。在本文可以理解的是，任何本领域中已知的方法，包括预处理、酶水解(糖化)、发酵，或它们的组合，可用于实施本发明的工艺。

常规设备包括补料批式搅拌反应器、批式搅拌反应器、具有超滤的连续流搅拌反应器和/或连续活塞流柱式反应器(Corazza等,2003,Optimal control in fed-batchreactor for the cellobiose hydrolysis,Acta Scientiarum.Technology25:33-38；Gusakov和Sinitsyn,1985,Kinetics of the enzymatic hydrolysis of cellulose:1.Amathematical model for a batch reactor process,Enz.Microb.Technol.7:346-352)、研磨反应器(Ryu和Lee,1983,Bioconversion of waste cellulose by using anattrition bioreactor,Biotechnol.Bioeng.25:53-65)，或者具有由电磁场引起的强烈搅拌的反应器(Gusakov等,1996,Enhancement of enzymatic cellulose hydrolysis usinga novel type of bioreactor with intensive stirring induced by electromagneticfield,Appl.Biochem.Biotechnol.56:141-153)。其它反应器类型包括：流化床、升流层(upflow blanket)、固定化和用于水解和/或发酵的挤出机型的反应器。

预处理。在本发明的工艺的实施中，可以使用本领域已知的任何预处理过程破坏植物细胞壁的纤维素材料组分(Chandra等,2007,Substrate pretreatment:The key toeffective enzymatic hydrolysis of lignocellulosics？Adv.Biochem.Engin./Biotechnol.108:67-93；Galbe和Zacchi,2007,Pretreatment of lignocellulosicmaterials for efficient bioethanol production,Adv.Biochem.Engin./Biotechnol.108:41-65；Hendriks和Zeeman,2009,Pretreatments to enhance thedigestibility of lignocellulosic biomass,Bioresource Technol.100:10-18；Mosier等,2005,Features of promising technologies for pretreatment oflignocellulosic biomass,Bioresource Technol.96:673-686；Taherzadeh和Karimi,2008,Pretreatment of lignocellulosic wastes to improve ethanol and biogasproduction:A review,Int.J.of Mol.Sci.9:1621-1651；Yang和Wyman,2008,Pretreatment:the key to unlocking low-cost cellulosic ethanol,BiofuelsBioproducts and Biorefining-Biofpr.2:26-40)。

纤维素材料也可以在预处理之前使用本领域中已知的方法进行粒度减小、筛分、预浸泡、润湿、洗涤和/或调理(conditioning)。

常规的预处理包括但不限于，蒸汽预处理(伴随或不伴随爆炸)、稀酸预处理、热水预处理、碱性预处理、石灰预处理、湿氧化、湿爆炸、氨纤维爆炸、有机溶剂预处理和生物预处理。其它预处理包括氨渗滤、超声、电穿孔、微波、超临界CO₂、超临界H₂O、臭氧、离子性液体和γ辐射预处理。

可以在水解和/或发酵之前预处理纤维素材料。预处理优选在水解前进行。或者，预处理可以与酶水解同时进行以释放可发酵糖，如葡萄糖、木糖和/或纤维二糖。在大多数情况下，预处理步骤本身使一些生物质转化成可发酵糖(甚至在不存在酶的情况下)。

蒸汽预处理。在蒸汽预处理中，加热纤维素材料以破坏植物细胞壁成分，包括木质素、半纤维素和纤维素，使酶可接触纤维素和其它级分，例如，半纤维素。将纤维素材料经过或通过反应容器，其中注入蒸汽以增加温度至需要的温度和压力，并且在其中保持期望的反应时间。蒸汽预处理优选在140-250℃，例如160-200℃，或170-190℃进行，其中最优的温度范围依赖于任何化学催化剂的添加。蒸汽预处理的停留时间优选1-60分钟，例如1-30分钟，1-20分钟，3-12分钟，或4-10分钟，其中最优的停留时间依赖于温度范围和化学催化剂的添加。蒸汽预处理允许相对较高的固体加载量，使纤维素材料在预处理过程中通常仅仅变得潮湿。蒸汽预处理经常与预处理后的物质的爆炸放料(explosive discharge)组合，这称为蒸汽爆炸，即，快速闪变至大气压和物质的湍流，以通过破碎增加可接触的表面积(Duff和Murray,1996,Bioresource Technology 855:1-33；Galbe和Zacchi,2002,Appl.Microbiol.Biotechnol.59:618-628；美国专利申请No.20020164730)。在蒸汽预处理过程中，切割半纤维素乙酰基团，并且得到的酸自催化半纤维素部分水解成为单糖和寡糖。去除木质素仅至有限的程度。

化学预处理：术语“化学处理”指能促进纤维素、半纤维素和/或木质素分离和/或释放的任何化学预处理。此种预处理可将晶体纤维素转化为无定形纤维素。合适的化学预处理工艺的实例包括例如稀酸预处理、石灰预处理、湿氧化、氨纤维/冷冻爆炸(AFEX)、氨渗滤(APR)、离子性液体和有机溶剂预处理。

经常在蒸汽预处理之前加入催化剂如H₂SO₄或SO₂(通常0.3至5％w/w)，其可减少时间，降低温度，增加回收率，并改进酶水解(Ballesteros等,2006,Appl.Biochem.Biotechnol.129-132:496-508；Varga等,2004,Appl.Biochem.Biotechnol.113-116:509-523；Sassner等.,2006,EnzymeMicrob.Technol.39:756-762)。在稀酸预处理中，将纤维素材料与稀酸(通常是H₂SO₄)和水混合以形成浆料，由蒸汽加热至期望的温度，并在一段停留时间后闪变至大气压。可以用很多反应器设计进行稀酸预处理，例如，活塞流反应器、逆流反应器或连续逆流收缩床反应器(Duff和Murray,1996,supra；Schell等,2004,Bioresource Technol.91:179-188；Lee等,1999,Adv.Biochem.Eng.Biotechnol.65:93-115)。

还可以使用碱性条件下的几种预处理方法。这些碱预处理包括，但不限于，氢氧化钠、石灰、湿氧化、氨渗滤(APR)和氨纤维/冷冻爆炸(AFEX)。

用氧化钙或氢氧化钙，在85-150℃的温度进行石灰预处理，停留时间从1小时到几天(Wyman等,2005,Bioresource Technol.96:1959-1966；Mosier等,2005,BioresourceTechnol.96:673-686)。WO 2006/110891、WO 2006/110899、WO 2006/110900和WO 2006/110901公开了使用氨的预处理方法。

湿法氧化是热预处理，通常在180-200℃进行5-15分钟，加入氧化剂如过氧化氢或过压氧(Schmidt和Thomsen,1998,Bioresource Technol.64:139-151；Palonen等,2004,Appl.Biochem.Biotechnol.117:1-17；Varga等,2004,Biotechnol.Bioeng.88:567-574；Martin等,2006,J.Chem.Technol.Biotechnol.81:1669-1677)。预处理以优选1-40％干物质，例如2-30％干物质，或5-20％干物质进行，并且由于加入碱如碳酸钠，初始pH常常会增加。

湿法氧化预处理方法的修改方法，称为湿爆炸(湿氧化和蒸汽爆炸的组合)，能够处理高达30％的干物质。在湿爆炸中，在预处理过程中，在一定的停留时间后引入氧化剂。然后通过闪变至大气压而结束预处理(WO 2006/032282)。

氨纤维爆炸(AFEX)涉及在温和温度如90-150℃和高压如17-20bar，用液体或气体氨将纤维素材料处理5-10分钟，其中干物质含量可以高达60％(Gollapalli等,2002,Appl.Biochem.Biotechnol.98:23-35；Chundawat等,2007,Biotechnol.Bioeng.96:219-231；Alizadeh等,2005,Appl.Biochem.Biotechnol.121:1133-1141；Teymouri等,2005,Bioresource Technol.96:2014-2018)。在AFEX预处理过程中，纤维素和半纤维素保持相对完整。木质素-糖复合物受切割。

有机溶剂预处理通过用含水乙醇(40-60％乙醇)在160-200℃提取30-60分钟而将纤维素材料去木质素化(Pan等,2005,Biotechnol.Bioeng.90:473-481；Pan等,2006,Biotechnol.Bioeng.94:851-861；Kurabi等,2005,Appl.Biochem.Biotechnol.121:219-230)。经常加入硫酸作为催化剂。在有机溶剂预处理中，去除大部分半纤维素和木质素。

合适的预处理方法的其他实例如Schell等,2003,Appl.Biochem andBiotechn.105-108:69-85,和Mosier等,2005,Bioresource Technology 96:673-686,和美国公开申请号2002/0164730所述。

在一个方面，化学预处理优选作为稀酸处理，并且更优选作为连续稀酸处理进行。酸通常是硫酸，但也可以使用其它酸，如乙酸、柠檬酸、硝酸、磷酸、酒石酸、琥珀酸、氯化氢或其混合物。弱酸(mild acid)处理在优选1-5，例如1-4，或1-2.5的pH范围进行。在一个方面，酸浓度在优选0.01至10wt％酸，例如0.05至5wt％酸或0.1至2wt％酸的范围。将酸与纤维素材料接触，并在优选140-200℃，例如165-190℃范围的温度保持1至60分钟的时间。

在另一个方面，预处理发生在含水浆料中。在优选的方面，在预处理过程中纤维素材料以优选10-80wt％，例如20-70wt％或30-60wt％，如约40wt％的量存在。预处理的纤维素材料可以不洗涤或者使用本领域任何已知的方法洗涤，例如，用水洗涤。

机械预处理或物理预处理：术语“机械预处理”或“物理预处理”指任何促进颗粒大小减少的预处理。举例而言，此种预处理可涉及各种类型的磨制(grinding)或粉碎(milling)(例如，干磨、湿磨或振动球磨)。

纤维素材料可经物理(机械)和化学预处理。机械或物理预处理可与下述偶联：汽蒸/蒸汽爆炸、水热解(hydrothermolysis)、稀酸或弱酸处理、高温、高压处理、辐射(例如微波辐射)，或其组合。在一个方面，高压指优选约100至约400psi，例如约150至约250psi的范围的压强。在另一个方面，高温指约100至300℃，例如约140至约200℃范围的温度。在一个优选的方面，机械或物理预处理在使用利用如上所定义的高温和高压的蒸汽枪水解器系统(例如来自Sunds Defibrator AB,Sweden的Sunds Hydrolyzer)的分批过程中进行。所述物理和化学预处理可视需要顺序进行或同时进行。

因此，在一个优选的方面，对纤维素材料进行物理(机械)或化学预处理，或者它们的任何组合，以促进纤维素、半纤维素和/或木质素的分离和/或释放。

生物预处理：术语“生物预处理”指可以促进纤维素、半纤维素和/或木质素从纤维素材料分离和/或释放的任何生物预处理。生物预处理技术可以包括应用溶解木质素的微生物和/或酶(参见，例如，Hsu,T.-A.,1996,Pretreatment of biomass,于Handbook onBioethanol:Production and Utilization,Wyman,C.E编,Taylor&Francis,Washington,DC,179-212；Ghosh和Singh,1993,Physicochemical and biological treatments forenzymatic/microbial conversion of lignocellulosic biomass,Adv.Appl.Microbiol.39:295-333；McMillan,J.D.,1994,Pretreating lignocellulosicbiomass:a review,于Enzymatic Conversion of Biomass for Fuels Production,Himmel,M.E.,Baker,J.O.,和Overend,R.P.,编,ACS Symposium Series 566,AmericanChemical Society,Washington,DC,第15章；Gong,C.S.,Cao,N.J.,Du,J.,和Tsao,G.T.,1999,Ethanol production from renewable resources,于Advances in BiochemicalEngineering/Biotechnology,Scheper,T.,编,Springer-Verlag Berlin Heidelberg,Germany,65:207-241；Olsson和Hahn-Hagerdal,1996,Fermentation of lignocellulosichydrolysates for ethanol production,Enz.Microb.Tech.18:312-331；和Vallander和Eriksson,1990,Production of ethanol from lignocellulosic materials:State ofthe art,Adv.Biochem.Eng./Biotechnol.42:63-95)。

糖化。在水解(也称作糖化)步骤中，将例如经预处理的纤维素材料水解以将纤维素和半纤维素分解成可发酵糖，如葡萄糖、纤维二糖、木糖、木酮糖、阿拉伯糖、甘露糖、半乳糖和/或可溶的寡糖。水解由酶组合物以酶法在本发明具有纤维二糖水解酶活性的多肽的存在下进行。组合物的酶还可以同时或顺序加入。

酶水解优选在容易由本领域技术人员确定的条件下，在合适的含水环境中进行。在一个方面，水解在适于酶的活性，即对于酶最佳的条件下进行。水解可以以补料分批或连续的过程进行，其中将纤维素材料逐渐补入，例如，含酶的水解溶液中。

糖化通常在搅拌釜反应器或发酵罐中在受控的pH、温度和混合条件下进行。合适的处理时间、温度和pH条件可以由本领域技术人员容易地确定。例如，糖化可持续长达200小时，但是通常进行优选约12至约120小时，例如约16至约72小时，或约24至约48小时。温度在优选约25℃至约70℃，例如约30℃至约65℃，约40℃至约60℃，或约50℃至55℃的范围。pH在优选约3至约8，例如约3.5至约7，约4至约6，或约5.0至约5.5的范围。干固体含量在优选约5至约50wt％，例如约10至约40wt％，或约20至约30wt％的范围。

本发明还涉及包含本发明多肽的组合物。优选地，所述组合物富集此种多肽。术语“富集”表明组合物的纤维二糖水解酶活性，例如，以至少1.1的富集因数(enrichmentfactor)增加。

所述组合物可以包含本发明的多肽作为主要酶成分，例如，单成分组合物。或者，所述组合物可以包含多种酶活性，如一种或多种(几种)选自下组的酶：纤维素酶、半纤维素酶、棒曲霉素、酯酶、漆酶、木质素分解酶、果胶酶、过氧化物酶、蛋白酶和膨胀素。

在一个优选实施方案中，所述酶组合物包含至少本发明的纤维二糖水解酶，至少一种内切葡聚糖酶，至少一种β-葡糖苷酶，和至少一种具有纤维素分解增强活性的GH61多肽。

可以依照本领域内已知的方法制备多肽组合物，并且可以是液体或干组合物的形式。例如，所述多肽组合物可以是颗粒(granulate)或微粒(microgranulate)的形式。可以依照本领域内已知方法使包含于所述组合物中的多肽稳定化。

酶组合物可包含任何可用于降解纤维素材料的蛋白。

在一个方面，所述酶组合物包含或进一步包含一种或多种(例如几种)选自下组的蛋白：纤维素酶、具有纤维素分解增强活性的GH61多肽，半纤维素酶、酯酶、棒曲霉素、漆酶、木质素分解酶、果胶酶、过氧化物酶、蛋白酶和膨胀素。在另一个方面，所述纤维素酶为优选一种或多种(例如几种)选自下组的酶：内切葡聚糖酶、其它纤维二糖水解酶和β-葡糖苷酶。在另一个方面，所述半纤维素酶为优选一种或多种(例如几种)选自下组的酶：乙酰甘露聚糖酯酶、乙酰木聚糖酯酶、阿拉伯聚糖酶、阿拉伯呋喃糖苷酶、香豆酸酯酶、阿魏酸酯酶、半乳糖苷酶、葡糖醛酸糖苷酶、葡糖醛酸酯酶、甘露聚糖酶、甘露糖苷酶、木聚糖酶和木糖苷酶。

在另一个方面，所述酶组合物包含一种或多种(例如几种)纤维素分解酶。在另一个方面，所述酶组合物包含或进一步包含一种或多种(例如几种)半纤维素分解酶。在另一个方面，所述酶组合物包含一种或多种(例如几种)纤维素分解酶和一种或多种(例如几种)半纤维素分解酶。在另一个方面，所述酶组合物包含一种或多种(例如几种)选自下组的酶：纤维素分解酶和半纤维素分解酶。在另一个方面，所述酶组合物包含内切葡聚糖酶。在另一个方面，所述酶组合物包含纤维二糖水解酶。在另一个方面，所述酶组合物包含β-葡糖苷酶。在另一个方面，所述酶组合物包含具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含内切葡聚糖酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含纤维二糖水解酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含β-葡糖苷酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含内切葡聚糖酶和纤维二糖水解酶。在另一个方面，所述酶组合物包含内切葡聚糖酶和β-葡糖苷酶。在另一个方面，所述酶组合物包含纤维二糖水解酶和β-葡糖苷酶。在另一个方面，所述酶组合物包含内切葡聚糖酶、纤维二糖水解酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含内切葡聚糖酶、β-葡糖苷酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含纤维二糖水解酶、β-葡糖苷酶和具有纤维素分解增强活性的多肽。在另一个方面，所述酶组合物包含内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶。在另一个方面，所述酶组合物包含内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶和具有纤维素分解增强活性的多肽。

在另一个方面，所述酶组合物包含乙酰甘露聚糖酯酶。在另一个方面，所述酶组合物包含乙酰木聚糖酯酶。在另一个方面，所述酶组合物包含阿拉伯聚糖酶(例如α-L-阿拉伯聚糖酶)。在另一个方面，所述酶组合物包含阿拉伯呋喃糖苷酶(例如α-L-阿拉伯呋喃糖苷酶)。在另一个方面，所述酶组合物包含香豆酸酯酶。在另一个方面，所述酶组合物包含阿魏酸酯酶。在另一个方面，所述酶组合物包含半乳糖苷酶(例如α-半乳糖苷酶和/或β-半乳糖苷酶)。在另一个方面，所述酶组合物包含葡糖醛酸糖苷酶(例如α-D-葡糖醛酸糖苷酶)。在另一个方面，所述酶组合物包含葡糖醛酸酯酶。在另一个方面，所述酶组合物包含甘露聚糖酶。在另一个方面，所述酶组合物包含甘露糖苷酶(例如β-甘露糖苷酶)。在另一个方面，所述酶组合物包含木聚糖酶。在一个优选的方面，所述木聚糖酶是家族10木聚糖酶。在另一个方面，所述酶组合物包含木糖苷酶(例如β-木糖苷酶)。

在另一个方面，所述酶组合物包含酯酶。在另一个方面，所述酶组合物包含棒曲霉素。在另一个方面，所述酶组合物包含漆酶。在另一个方面，所述酶组合物包含木质素分解酶。在另一个优选的方面，所述木质素分解酶是锰过氧化物酶。在另一个优选的方面，所述木质素分解酶是木质素过氧化物酶。在另一个优选的方面，所述木质素分解酶是产生H₂O₂的酶。在另一个方面，所述酶组合物包含果胶酶。在另一个方面，所述酶组合物包含过氧化物酶。在另一个方面，所述酶组合物包含蛋白酶。在另一个方面，所述酶组合物包含膨胀素。

在本发明的方法中，酶可在发酵过程之前或之中，例如在糖化过程中或在发酵微生物的繁殖过程之中或之后添加。

所述酶组合物的一种或多种(例如几种)组分可为野生型蛋白、重组蛋白或野生型蛋白和重组蛋白的组合。举例而言，一种或多种(例如几种)组分可为细胞的天然蛋白，其用作宿主细胞以重组表达酶组合物的一种或多种(例如几种)其他组分。酶组合物的一种或多种(例如几种)组分可作为单组分产生，然后将其组合以形成酶组合物。所述酶组合物可为多组分和单组分蛋白制备物的组合。

用于本发明工艺中的酶可为任何适用于如去除或不去除细胞的粗发酵液配制物，含或不含细胞碎片的细胞裂解液，半纯化或纯化的酶制备物，或宿主细胞，作为酶的来源。所述酶组合物可为干粉或颗粒，无粉尘的颗粒，液体，稳定化液体或稳定化受保护的酶。液体酶制备物可根据确立的工艺，例如通过添加稳定剂如糖、糖醇或其他多元醇，和/或乳酸或其他有机酸来稳定化。

具有纤维二糖水解酶活性的酶和多肽的最适量取决于几个因素，其包括但不限于，组分纤维素分解酶的混合物、纤维素材料、纤维素材料的浓度、纤维素材料的预处理、温度、时间、pH和包括发酵生物体(例如，同步糖化和发酵的酵母)。

在一个方面，纤维素分解酶或半纤维素分解酶对于纤维素材料的有效量是约0.5至约50mg，例如约0.5至约40mg，约0.5至约25mg，约0.75至约20mg，约0.75至约15mg，约0.5至约10mg，或约2.5至约10mg每g纤维素材料。

在另一个方面，具有纤维二糖水解酶活性的多肽对于纤维素材料的有效量是约0.01至约50.0mg，例如约0.01至约40mg，约0.01至约30mg，约0.01至约20mg，约0.01至约10mg，约0.01至约5mg，约0.025至约1.5mg，约0.05至约1.25mg，约0.075至约1.25mg，约0.1至约1.25mg，约0.15至约1.25mg，或约0.25至约1.0mg每g纤维素材料。

在另一个方面，具有纤维二糖水解酶活性的多肽对于纤维素分解酶或半纤维素分解酶的有效量是约0.005至约1.0g，例如约0.01至约1.0g，约0.15至约0.75g，约0.15至约0.5g，约0.1至约0.5g，约0.1至约0.25g，或约0.05至约0.2g每g纤维素分解酶或半纤维素分解酶。

具有纤维素分解酶活性或半纤维素分解酶活性的多肽，以及任何可用于纤维素材料的降解的蛋白/多肽，例如具有纤维素分解增强活性的GH61多肽(在本文中统称为具有酶活性的多肽)可源自或获得自任何合适的来源，包括细菌、真菌、酵母、植物或哺乳动物来源。术语“获得”在本文中还意指该酶可在宿主生物中使用本文中所述的方法重组产生，其中经重组产生的酶对于宿主生物是天然的或外源的，或具有修饰的氨基酸序列，例如，具有一个或多个(例如几个)缺失、插入和/或取代的氨基酸，即重组产生的酶，其为天然氨基酸序列的片段和/或突变体或通过本领域已知的氨基酸改组方法产生的酶。天然酶的含义中涵盖的是天然变体，而外来酶的含义中涵盖的是重组(如通过定位诱变或重排)获得的变体。

还可以使用具有酶活性的多肽的经化学修饰或蛋白质工程改造的突变体。

所述纤维素分解酶组合物的一种或多种(例如几种)组分可以是重组组分，亦即，通过克隆编码所述单独组分的DNA序列并随后用该DNA序列转化细胞并在宿主中表达(参见，例如，WO91/17243和WO91/17244)产生。所述宿主优选是异源宿主(酶对宿主是外源的)，但该宿主在一定条件下也可以是同源宿主(酶对宿主是天然的)。单组分纤维素分解蛋白还可以通过从发酵液中提纯这样的蛋白质来制备。

在一个方面，所述一种或多种(例如几种)纤维素分解酶包含商业性纤维素分解酶制备物。适用于本发明的商业的纤维素分解酶制备物的实例包括，例如，CELLIC^TM Ctec(Novozymes A/S)、CELLIC^TM CTec2(Novozymes A/S)、CELLUCLAST^TM(Novozymes A/S)、NOVOZYM^TM 188(Novozymes A/S)、CELLUZYME^TM(Novozymes A/S)、CEREFLO^TM(Novozymes A/S)和ULTRAFLO^TM(Novozymes A/S)，ACCELERASE^TM(Genencor Int.)、LAMINEX^TM(GenencorInt.)、SPEZYME^TM CP(Genencor Int.)，NL(DSM)、S/L 100(DSM)，ROHAMENT^TM 7069W(GmbH)，LDI(Dyadic International,Inc.)、LBR(Dyadic International,Inc.)或150L(Dyadic International,Inc.)。所述纤维素酶酶以固体的约0.001至约5.0wt％，例如固体的约0.025至约4.0wt％，或固体的约0.005至约2.0wt％的有效量添加。

可以用于本发明的工艺的细菌内切葡聚糖酶的实例包括但不仅限于，解纤维热酸菌(Acidothermus cellulolyticus)内切葡聚糖酶(WO 91/05039；WO 93/15186；美国专利5,275,944；WO 96/02551；美国专利5,536,655，WO 00/70031，WO 05/093050)；Thermobifida fusca内切葡聚糖酶III(WO 05/093050)；和Thermobifida fusca内切葡聚糖酶V(WO 05/093050)。

可以用于本发明的真菌内切葡聚糖酶的实例包括但不仅限于，里氏木霉内切葡聚糖酶I(Penttila等,1986,Gene 45:253-263，里氏木霉Cel7B内切葡聚糖酶I(GENBANK^TM登录号M15665)；里氏木霉内切葡聚糖酶II(Saloheimo等,1988,Gene 63:11-22)，里氏木霉Cel5A内切葡聚糖酶II(GENBANK^TM登录号M19373)；里氏木霉内切葡聚糖酶III(Okada等,1988,Appl.Environ.Microbiol.64:555-563；GENBANK^TM登录号AB003694)；里氏木霉内切葡聚糖酶V(Saloheimo等,1994,Molecular Microbiology 13:219-228；GENBANK^TM登录号Z33381)；棘孢曲霉内切葡聚糖酶(Ooi等,1990,Nucleic Acids Research18:5884)；川地曲霉(Aspergillus kawachii)内切葡聚糖酶(Sakamoto等,1995,Current Genetics 27:435-439)；胡萝卜软腐欧文氏菌(Erwinia carotovara)内切葡聚糖酶(Saarilahti等,1990,Gene 90:9-14)；尖镰孢内切葡聚糖酶(GENBANK^TM登录号L29381)；灰腐质霉thermoidea变种内切葡聚糖酶(GENBANK^TM登录号AB003107)；Melanocarpus albomyces内切葡聚糖酶(GENBANK^TM登录号MAL515703)；粗糙脉孢菌内切葡聚糖酶(GENBANK^TM登录号XM_324477)；特异腐质霉内切葡聚糖酶V；嗜热毁丝霉CBS 117.65内切葡聚糖酶；担子菌纲(basidiomycete)CBS 495.95内切葡聚糖酶；担子菌纲CBS 494.95内切葡聚糖酶；土生梭孢霉NRRL 8126CEL6B内切葡聚糖酶；土生梭孢霉NRRL 8126CEL6C内切葡聚糖酶；土生梭孢霉NRRL 8126CEL7C内切葡聚糖酶；土生梭孢霉NRRL 8126CEL7E内切葡聚糖酶；土生梭孢霉NRRL 8126CEL7F内切葡聚糖酶；Cladorrhinum foecundissimum ATCC 62373 CEL7A内切葡聚糖酶；以及里氏木霉菌株VTT-D-80133内切葡聚糖酶(GENBANK^TM登录号M15665)。

可用于本发明的纤维二糖水解酶的实例包括但不仅限于，棘孢曲霉纤维二糖水解酶II(WO 2011/059740)，嗜热毛壳菌(Chaetomium thermophilum)纤维二糖水解酶I，嗜热毛壳菌纤维二糖水解酶II，特异腐质霉纤维二糖水解酶I，嗜热毁丝霉纤维二糖水解酶II，(WO2009/042871)，Thielavia hyrcanie纤维二糖水解酶II(WO 2010/141325)，土生梭孢霉纤维二糖水解酶II(CEL6A，WO 2006/074435)，里氏木霉纤维二糖水解酶I，里氏木霉纤维二糖水解酶II，以及褐孢长毛盘菌纤维二糖水解酶II(WO 2010/057086)。

可用于本发明的β-葡糖苷酶的实例包括但不仅限于来自棘孢曲霉(Kawaguchi等,1996,Gene 173:287-288)、烟曲霉(WO 2005/047499)、黑曲霉(Dan等,2000,J.Biol.Chem.275:4973-4980)、米曲霉(WO 2002/095014)、巴西青霉IBT 20888(WO 2007/019442和WO 2010/088387)、土生梭孢霉(WO 2011/035029)和褐孢长毛盘菌(WO 2007/019442)的β-葡糖苷酶。

所述β-葡糖苷酶可以是融合蛋白。在一个方面，所述β-葡糖苷酶是WO米曲霉β-葡糖苷酶变体BG融合蛋白(WO 2008/057637)或米曲霉β-葡糖苷酶融合蛋白(2008/057637)。

其它可用的内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶公开于使用根据Henrissat,1991,A classification of glycosyl hydrolases based on amino-acidsequence similarities,Biochem.J.280:309-316和Henrissat和Bairoch,1996,Updatingthe sequence-based classification of glycosyl hydrolases,Biochem.J.316:695-696的分类的许多糖基水解酶家族中。

其它可用于本发明的纤维素分解酶描述于WO 98/13465、WO 98/015619、WO 98/015633、WO 99/06574、WO 99/10481、WO 99/025847、WO 99/031255、WO 2002/101078、WO2003/027306、WO 2003/052054、WO 2003/052055、WO 2003/052056、WO 2003/052057、WO2003/052118、WO 2004/016760、WO 2004/043980、WO 2004/048592、WO 2005/001065、WO2005/028636、WO 2005/093050、WO 2005/093073、WO 2006/074005、WO 2006/117432、WO2007/071818、WO 2007/071820、WO 2008/008070、WO 2008/008793、美国专利No.5,457,046、美国专利No.5,648,263和美国专利No.5,686,593。

在本发明的工艺中，可使用任何具有纤维素分解增强活性的GH61多肽。

可用于本发明的工艺的具有纤维素分解增强活性的GH61多肽的实例包括但不限于来自土生梭孢霉(WO 2005/074647，WO 2008/148131和WO 2011/035027)；桔橙热子囊菌(WO 2005/074656和WO 2010/065830)，里氏木霉(WO 2007/089290)，嗜热毁丝霉(WO 2009/085935，WO 2009/085859，WO 2009/085864，WO 2009/085868)，烟曲霉(WO 2010/138754)的GH61多肽，来自嗜松青霉(Penicillium pinophilum)(WO 2011/005867)，嗜热子囊菌菌种(WO 2011/039319)，青霉属菌种(WO 2011/041397)，和Thermoascus crustaceous(WO2011/041504)的GH61多肽。

在一个方面，所述具有纤维素分解增强活性的GH61多肽在WO 2008/151043中所述的可溶性活化二价金属阳离子，例如硫酸锰的存在下使用。

在一个方面，所述具有纤维素分解增强活性的GH61多肽在二氧化合物、二环化合物、杂环化合物、含氮化合物、醌化合物、含硫化合物或从经预处理的纤维素材料(如经预处理的玉米秸秆(PCS))获得的液体的存在下使用。

所述二氧化合物可包括任何含有两个或更多氧原子的合适化合物。在一些方面，所述二氧化合物含有如本文中所述的取代的芳基模块(moiety)。所述二氧化合物可包括一个或多个(几个)羟基和/或羟基衍生物，但亦包括缺乏羟基和羟基衍生物的取代的芳基模块。二氧化合物的非限定性实例包括邻苯二酚或儿茶酚；咖啡酸；3,4-二羟基苯甲酸；4-叔丁基-5-甲氧基-1,2-苯二酚；连苯三酚；没食子酸；甲基-3,4,5-三羟基苯甲酸；2,3,4-三羟基二苯甲酮；2,6-二甲氧基苯酚；芥子酸；3,5-二羟基苯甲酸；4-氯-1,2-苯二酚；4-硝基-1,2-苯二酚；鞣酸；没食子酸乙酯；羟乙酸甲酯；二羟基延胡索酸；2-丁炔-1,4-二醇；克酮酸；1,3-丙二醇；酒石酸；2,4-戊二醇；3-乙氧基-1,2-丙二醇；2,4,4’-三羟基二苯甲酮；顺-2-丁烯-1,4-二醇；3,4-二羟基-3-环丁烯-1,2-二酮；二羟基丙酮；乙酰丙烯醛(acroleinacetal)；甲基-4-羟基苯甲酸；4-羟基苯甲酸；和甲基-3,5-二甲氧基-4-羟基苯甲酸；或它们的盐或溶剂合物(solvate)。

所述二环化合物可包括任何如本文中所述的合适的取代稠环系统。所述化合物可包含一个或多个(例如几个)另外的环，且除非另行说明，不限于具体的环数。在一个方面，所述二环化合物是类黄酮。在另一个方面，所述二环化合物是任选取代的异类黄酮(isoflavonoid)。在另一个方面，所述二环化合物是任选取代的花色离子(flavyliumion)，如任选取代的花色素或任选取代的花色苷，或其衍生物。二环化合物的非限定性实例包括表儿茶素(epicatechin)；槲皮素(quercetin)；杨梅黄酮(myricetin)；黄杉素(taxifolin)；山奈酚(kaempferol)；桑素(morin)；金合欢素(acacetin)；柚皮素(naringenin)；异鼠李黄素(isorhamnetin)；芹菜苷配基(apigenin)；花青素(cyanidin)；花色素苷(cyanin)；kuromanin；花青素鼠李葡糖苷(keracyanin)；或它们的盐或溶剂合物。

所述杂环化合物可为任何合适的化合物，如本文中所述的任选取代的包含杂原子的芳环或非芳环。在一个方面，所述杂环是包含任选取代的杂环烷基(heterocycloalkyl)模块或任选取代的杂芳基模块的化合物。在另一个方面，所述任选取代的杂环烷基模块或任选取代的杂芳基模块是任选取代的五元杂环烷基或任选取代的五元杂芳基模块。在另一个方面，任选取代的杂环烷基或任选取代的杂芳基模块是选自如下的任选取代的模块：吡唑基、呋喃基、咪唑基、异噁唑基、噁二唑基、噁唑基、吡咯基、吡啶基、嘧啶基、哒嗪基、噻唑基、三唑基、噻吩基(thienyl)、二氢噻吩-吡唑基(dihydrothieno-pyrazolyl)、硫茚基、咔唑基、苯并咪唑基、苯并噻吩基(benzothienyl)、苯并呋喃基、吲哚基、喹啉基、苯并三唑基、苯并噻唑基、苯并噁唑基(benzooxazolyl)、苯并咪唑基、异喹啉基、异吲哚基、吖啶基、苯并异噁唑基(benzoisazolyl)、二甲基乙内酰脲、吡嗪基、四氢呋喃基、吡咯啉基、吡咯烷基、吗啉基、吲哚基、二氮杂环庚三烯基(diazepinyl)、氮杂环庚三烯基(azepinyl)、硫杂环庚三烯基(thiepinyl)、哌啶基和氧杂环庚三烯基(oxepinyl)。在另一个方面所述任选取代的杂环烷基模块或任选取代的杂芳基模块是任选取代的呋喃基。杂环化合物的非限定性实例包括(1,2-二羟乙基)-3,4-二氢呋喃-2(5H)-酮；4-羟基-5-甲基-3-呋喃酮；5-羟基-2(5H)-呋喃酮；[1,2-二羟乙基]呋喃-2,3,4(5H)-三酮；α-羟基-γ-丁内酯；核糖酸γ-内酯；己醛糖酸γ-内酯(aldohexuronicaldohexuronic acidγ-lactone)；葡糖酸δ-内酯；4-羟基香豆素；二氢苯并呋喃；5-(羟甲基)糠醛；糠偶姻(furoin)；2(5H)-呋喃酮；5,6-二氢-2H-吡喃-2-酮；和5,6-二氢-4-羟基-6-甲基-2H-吡喃-2-酮；或它们的盐或溶剂合物。

所述含氮化合物可为任何具有一个或多个氮原子的合适化合物。在一个方面，所述含氮化合物包含胺、亚胺、羟胺或氧化亚氮(nitroxide)模块。含氮化合物的非限定性实例包括丙酮肟；紫尿酸；吡啶-2-醛肟；2-氨基苯酚；1,2-苯二胺；2,2,6,6-四甲基-1-哌啶基氧(piperidinyloxy)；5,6,7,8-四氢生物蝶呤；6,7-二甲基-5,6,7,8-四氢蝶呤；和马来酰胺酸；或它们的盐或溶剂合物。

所述醌化合物可为任何本文中所述的包含醌模块的合适的化合物。醌化合物的非限定性实例包括1,4-苯醌；1,4-萘醌；2-羟基-1,4-萘醌；2,3-二甲氧基-5-甲基-1,4-苯醌或辅酶Q₀；2,3,5,6-四甲基-1,4-苯醌或四甲基对苯醌；1,4-二羟基蒽醌；3-羟基-1-甲基-5,6-二氢吲哚二酮或肾上腺色素；4-叔丁基-5-甲氧基-1,2-苯醌；吡咯并喹啉醌(pyrroloquinoline quinone)；或它们的盐或溶剂合物。

所述含硫化合物可为任何包含一个或多个硫原子的合适的化合物。在一个方面，所述含硫化合物包含选自如下的模块：亚硫酰，硫醚，亚磺酰，磺酰，磺酰胺(sulfamide)，磺酰胺(sulfonamide)，磺酸和磺酸酯。含硫化合物的非限定性实例包括乙硫醇；2-丙硫醇；2-丙烯-1-硫醇；2-巯基乙磺酸；苯硫醇；苯-1,2-二硫醇；半胱氨酸；甲硫氨酸；谷胱甘肽；胱氨酸；或它们的盐或溶剂合物。

在一个方面此种如上所述的化合物对纤维素材料的有效量，作为对纤维素糖单元的摩尔比例为约10^-6至约10，例如约10^-6至约7.5，约10^-6至约5，约10^-6至约2.5，约10^-6至约1，约10^-5至约1，约10^-5至约10^-1，约10^-4至约10^-1，约10^-3至约10^-1，或约10^-3至约10^-2。在另一个方面，此种如上所述的化合物的有效量为约0.1μM至约1M，例如约0.5μM至约0.75M，约0.75μM至约0.5M，约1μM至约0.25M，约1μM至约0.1M，约5μM至约50mM，约10μM至约25mM，约50μM至约25mM，约10μM至约10mM，约5μM至约5mM，或约0.1mM至约1mM。

术语“液剂(liquor)”意指在本文中所述的条件下，通过处理浆料中的木素纤维素和/或半纤维素材料，或其单糖例如木糖、阿拉伯糖、甘露糖等，所产生的溶液相，即水相、有机相或其组合，及其可溶性内含物。用于GH61多肽的纤维素分解增强的液剂可通过，任选在催化剂例如酸的存在下，任选在有机溶剂的存在下，且任选与所述材料的物理破坏相组合来藉由施加热和/或压力来处理纤维素材料或半纤维素材料(或原料)，然后将溶液与残余固体分离来产生。此类条件决定在通过纤维素酶制备物水解纤维素材料过程中，通过液剂和GH61多肽的组合可获得的纤维素分解增强的程度。所述液剂可使用本领域中的标准方法如过滤、沉积或离心从经处理的材料分离。

在一个方面，所述液剂对纤维素的有效量为约10^-6至约10g每g纤维素，例如约10^-6至约7.5g，约10^-6至约5，约10^-6至约2.5g，约10^-6至约1g，约10^-5至约1g，约10^-5至约10^-1g，约10^-4至约10^-1g，约10^-3至约10^-1g，或约10^-3至约10^-2g每g纤维素。

在一个方面，所述一种或多种(例如几种)半纤维素分解酶包含商业性半纤维素分解酶制备物。适用于本发明的商业性半纤维素分解酶制备物的实例包括，例如SHEARZYME^TM(Novozymes A/S)、CELLIC^TM HTec(Novozymes A/S)、CELLIC^TM Htec2(Novozymes A/S)、(Novozymes A/S)、(Novozymes A/S)、HC(Novozymes A/S)、Xylanase(Genencor)、XY(Genencor)、XC(Genencor)、TX-200A(AB Enzymes)、HSP6000Xylanase(DSM)、DEPOL^TM 333P(Biocatalysts Limit,Wales,UK)、DEPOL^TM 740L(Biocatalysts Limit,Wales,UK)和DEPOL^TM 762P(Biocatalysts Limit,Wales,UK)。

可用于本发明工艺的木聚糖酶的实例包括但不限于来自棘孢曲霉(Aspergillusaculeatus)(GeneSeqP:AAR63790；WO 94/21785)、烟曲霉(Aspergillus fumigatus)(WO2006/078256)、嗜松青霉(WO 2011/041405)、青霉属菌种(WO 2010/126772)、土生梭孢霉(Thielavia terrestris)NRRL 8126(WO 2009/079210)和褐孢长毛盘菌GH10(WO 2011/057083)的木聚糖酶。

可用于本发明工艺的β-木糖苷酶的实例包括但不限于来自粗糙脉孢菌(Neurospora crassa)(SwissProt登录号Q7SOW4)、里氏木霉(Trichoderma reesei)(UniProtKB/TrEMBL登录号Q92458)和埃默森踝节菌(Talaromyces emersonii)(SwissProt登录号Q8X212)的β-木糖苷酶。

可用于本发明工艺的乙酰木聚糖酯酶的实例包括但不限于来自棘孢曲霉(WO2010/108918)、球毛壳菌(Chaetomium globosum)(Uniprot登录号Q2GWX4)、细丽毛壳菌(Chaetomium gracile)(GeneSeqP登录号AAB82124)、特异腐质霉(Humicola insolens)DSM1800(WO 2009/073709)、红褐肉座菌(Hypocrea jecorina)(WO 2005/001036)、嗜热毁丝霉(Wo 2010/014880)、粗糙脉孢菌(UniProt登录号q7s259)、颖枯壳针孢(Phaeosphaerianodorum)(Uniprot登录号Q0UHJ1)和土生梭孢霉NRRL 8126(WO 2009/042846)的乙酰木聚糖酯酶。

可用于本发明工艺的阿魏酸酯酶的实例包括但不限于来自特异腐质霉DSM1800(WO 2009/076122)、费希新萨托菌(Neosartorya fischer)(UniProt登录号A1D9T4)、粗糙脉孢菌(UniProt登录号Q9HGR3)、橘灰青霉(WO 2009/127729)和土生梭孢壳(WO 2010/053838和WO 2010/065448)的阿魏酸酯酶。

可用于本发明工艺的阿拉伯呋喃糖苷酶的实例包括但不限于来自黑曲霉(Aspergillus niger)(GeneSeqP登录号AAR94170)、特异腐质霉(Humicola insolens)DSM1800(WO 2006/114094和WO 2009/073383)和M.giganteus(WO 2006/114094)的阿拉伯呋喃糖苷酶。

可用于本发明工艺的α-葡糖醛酸糖苷酶的实例包括但不限于来自棒曲霉(Aspergillus clavatus)(UniProt登录号alcc12)、烟曲霉(SwissProt登录号Q4WW45)、黑曲霉(Uniprot登录号Q96WX9)、土曲霉(Aspergillus terreus)(SwissProt登录号Q0CJP9)、特异腐质霉(WO 2010/014706)、橘灰青霉(WO 2009/068565)、埃默森踝节菌(UniProt登录号Q8X211)和里氏木霉(Uniprot登录号Q99024)的α-葡糖醛酸糖苷酶。

用于本发明工艺的具有酶活性的多肽可通过在含有合适碳源和氮源和无机盐的营养培养基上，使用本领域已知方法(参见，例如Bennett,J.W.和LaSure,L.(编),MoreGene Manipulations in Fungi,Academic Press,CA,1991)发酵上述指出的微生物菌株来产生。合适的培养基可从供应商获得，或可根据已公开组合物制备(例如美国典型培养物保藏中心的目录)。适于生长和酶产生的温度范围和其他条件在本领域是已知的(参见，例如Bailey,J.E.和Ollis,D.F.,Biochemical Engineering Fundamentals,McGraw-Hill BookCompany,NY,1986)。

所述发酵可以是任何其结果为酶或蛋白表达或分离的培养细胞的方法。因此，发酵可以理解为包括在合适的培养基中并在允许所述酶得以表达或分离的条件下进行的摇瓶培养，或在实验室或工业发酵罐中的小-或大规模发酵(包括连续、分批、补料分批或固态发酵)。通过上述方法产生的所得的酶可从发酵培养基回收并通过常规方法纯化。

发酵。可通过一种或多种(例如几种)能将糖直接或间接发酵成所需发酵产物的发酵微生物发酵自经水解的纤维素材料获得的可发酵糖。“发酵”或“发酵方法”指任何发酵方法或包含发酵步骤的任何方法。发酵方法还包括用于消费品醇工业(例如，啤酒和葡萄酒)、乳品业(例如，发酵乳产品)、皮革业和烟草业的发酵方法。发酵条件依赖于期望的发酵产物和发酵生物体，并且能由本领域的技术人员容易地确定。

在发酵步骤中，作为预处理和酶水解步骤的结果从纤维素材料释放的糖，通过发酵生物体(如酵母)发酵成为产物，例如，乙醇。如本文中所述，水解(糖化)和发酵可以是单独或同时的。

在实施本发明的发酵步骤中可以使用任何合适的经水解的纤维素材料。通常根据所需发酵产品(即，要从发酵获得的物质)和使用的方法来选择所述材料，如本领域中所公知的。

术语“发酵培养基”在本文中可理解为指加入发酵微生物之前的培养基，如，由糖化过程产生的培养基，以及同步的糖化和发酵方法(SSF)中使用的培养基。

“发酵微生物”指适用于理想的发酵方法产生发酵产物的任何微生物，包括细菌和真菌生物体。发酵生物体可以是己糖和/或戊糖发酵生物体，或它们的组合。己糖和戊糖发酵生物体均在本领域公知。合适的发酵微生物能将糖(如葡萄糖、木糖、木酮糖、阿拉伯糖、麦芽糖、甘露糖、半乳糖和/或寡糖)直接或间接地发酵(即，转化)成所需的发酵产品。可产生乙醇的细菌和真菌发酵生物体的实例如Lin等,2006,Appl.Microbiol.Biotechnol.69:627-642所述。

能发酵己糖的发酵微生物的实例包括细菌和真菌生物体，如酵母。优选的酵母包括假丝酵母属、克鲁维酵母属和酵母属，例如Candida sonorensis、马克斯克鲁维酵母和酿酒酵母的菌株。

以其天然状态能发酵戊糖的发酵生物体的实例包括细菌和真菌生物体，如一些酵母。优选的木糖发酵酵母包括假丝酵母属，优选休哈塔假丝酵母(Candida sheatae)或Candida sonorensis；和毕赤酵母属，优选树干毕赤酵母(Pichia stipitis)的菌株，如树干毕赤酵母CBS 5773的菌株。优选的戊糖发酵酵母包括管囊酵母属(Pachysolen)，优选嗜鞣管囊酵母(Pachysolen tannophilus)的菌株。不能够发酵戊糖如木糖和阿拉伯糖的生物通过本领域已知方法可经遗传修饰而发酵戊糖。

能有效地将己糖和戊糖发酵成乙醇的细菌包括，例如，凝结芽孢杆菌(Bacilluscoagulans)、丙酮丁醇梭菌(Clostridium acetobutylicum)、热纤维梭菌(Clostridiumthermocellum)、Clostridium phytofermentans、地芽孢杆菌属菌种、解糖热厌氧杆菌(Thermoanaerobacter saccharolyticum)和运动发酵单胞菌(Zymomonas mobilis)(Philippidis,1996,见上文)。

其它发酵生物包括芽孢杆菌属，如凝结芽孢杆菌；假丝酵母属，如C.sonorensis、C.methanosorbosa、迪丹斯假丝酵母(C.diddensii)、近平滑假丝酵母(C.parapsilosis)、C.naedodendra、C.blankii、C.entomophilia、芸薹假丝酵母(C.brassicae)、假热带假丝酵母(C.pseudotropicalis)、博伊丁假丝酵母(Candida boidinii)、产朊假丝酵母(Candidautilis)和休哈塔假丝酵母(C.scehatae)；梭菌属，如丙酮丁醇梭菌、热纤维梭菌和C.phytofermentans；大肠杆菌，特别是经遗传修饰以改进乙醇产生的大肠杆菌菌株；地芽孢杆菌属菌种；汉逊酵母属，如异常汉逊酵母(Hansenula anomala)；克雷伯氏菌属(Klebsiella)，如产酸克雷伯氏菌(K.oxytoca)；克鲁维酵母属，如马克斯克鲁维酵母、乳酸克鲁维酵母(K.lactis)、K.thermotolerans和脆壁克鲁维酵母；裂殖酵母属，如粟酒裂殖酵母(S.pombe)；热厌氧杆菌属(Thermoanaerobacter)，如解糖热厌氧杆菌，和发酵单胞菌属(Zymomonas)，如运动发酵单胞菌的菌株。

在一个优选的方面，酵母是酒香酵母属(Bretannomyces)。在一个更优选的方面，酵母是克劳森酒香酵母(Bretannomyces clausenii)。在另一个更优选的方面，酵母是假丝酵母。在另一个更优选的方面，酵母是Candida sonorensis。在另一个更优选的方面，酵母是博伊丁假丝酵母。在另一个更优选的方面，酵母是Candida blankii。在另一个更优选的方面，酵母是芸薹假丝酵母。在另一个更优选的方面，酵母是迪丹斯假丝酵母。在另一个更优选的方面，酵母是Candida entomophiliia。在另一个更优选的方面，酵母是假热带假丝酵母。在另一个更优选的方面，酵母是休哈塔假丝酵母。在另一个更优选的方面，酵母是产朊假丝酵母。在另一个优选的方面，酵母是棒孢酵母属(Clavispora)。在另一个更优选的方面，酵母是葡萄牙棒孢酵母(Clavispora lusitaniae)。在另一个更优选的方面，酵母是仙人掌棒孢酵母(Clavispora opuntiae)。在另一个优选的方面，酵母是克鲁维酵母。在另一个更优选的方面，酵母是脆壁克鲁维酵母。在另一个更优选的方面，酵母是马克斯克鲁维酵母。在另一个更优选的方面，酵母是Kluyveromyces thermotolerans。在另一个优选的方面，酵母是管囊酵母属(Pachysolen)。在另一个更优选的方面，酵母是嗜鞣管囊酵母。在另一个优选的方面，酵母是毕赤酵母。在另一个更优选的方面，酵母是树干毕赤酵母。在另一个优选的方面，酵母是酵母属菌种。在一个优选的方面，酵母是酿酒酵母。在另一个更优选的方面，酵母是糖化酵母(Saccharomyces distaticus)。在另一个更优选的方面，酵母是葡萄汁酵母(Saccharomyces uvarum)。

在一个优选的方面，细菌是芽孢杆菌属。在一个更优选的方面，细菌是凝结芽孢杆菌。在另一个更优选的方面，细菌是梭菌属。在另一个更优选的方面，细菌是丙酮丁醇梭菌。在另一个更优选的方面，细菌是Clostridium phytofermentans。在另一个更优选的方面，细菌是热纤维梭菌。在另一个更优选的方面，细菌是地芽孢杆菌属菌种。在另一个更优选的方面，细菌是热厌氧杆菌属。在另一个更优选的方面，细菌是解糖热厌氧杆菌。在另一个更优选的方面，细菌是发酵单胞菌属。在另一个更优选的方面，细菌是运动发酵单胞菌。

商业上可得到的适合乙醇产生的酵母包括，例如BIOFERM^TM AFT和XR(NABC-NorthAmerican Bioproducts Corporation,GA,USA)，ETHANOL RED^TM酵母(Red Star/Lesaffre,USA)、FALI^TM(Fleischmann’s Yeast,Burns Philp Food Inc.,USA)，FERMIOL^TM(DSMSpecialties)，GERT STRAND^TM(Gert Strand AB,Sweden)以及SUPERSTART^TM和THERMOSACC^TM新鲜酵母(Ethanol Technology,WI,USA)。

在一个优选的方面，发酵微生物已经经过遗传修饰，提供发酵戊糖的能力，如利用木糖、利用阿拉伯糖和共同利用木糖和阿拉伯糖的微生物。

通过将异源基因克隆入多种发酵微生物已经构建了能将己糖和戊糖转化成乙醇(共发酵)的生物体(Chen和Ho,1993,Cloning and improving the expression of Pichiastipitis xylose reductase gene in Saccharomyces cerevisiae,Appl.Biochem.Biotechnol.39-40:135-147；Ho等,1998,Genetically engineeredSaccharomyces yeast capable of effectively cofermenting glucose and xylose,Appl.Environ.Microbiol.64:1852-1859；Kotter和Ciriacy,1993,Xylose fermentationby Saccharomyces cerevisiae,Appl.Microbiol.Biotechnol.38:776-783；Walfridsson等,1995,Xylose-metabolizing Saccharomyces cerevisiae strains overexpressingthe TKL1 and TAL1 genes encoding the pentose phosphate pathway enzymestransketolase and transaldolase,Appl.Environ.Microbiol.61:4184-4190；Kuyper等,2004,Minimal metabolic engineering of Saccharomyces cerevisiae for efficientanaerobic xylose fermentation:a proof of principle,FEMS Yeast Research 4:655-664；Beall等,1991,Parametric studies of ethanol production from xylose andother sugars by recombinant Escherichia coli,Biotech.Bioeng.38:296-303；Ingram等,1998,Metabolic engineering of bacteria for ethanol production,Biotechnol.Bioeng.58:204-214；Zhang等,1995,Metabolic engineering of a pentosemetabolism pathway in ethanologenic Zymomonas mobilis,Science 267:240-243；Deanda等,1996,Development of an arabinose-fermenting Zymomonas mobilis strainby metabolic pathway engineering,Appl.Environ.Microbiol.62:4465-4470；WO 2003/062430,xylose isomerase)。

在一个优选的方面，经过遗传修饰的发酵微生物是Candida sonorensi。在另一个优选的方面，经过遗传修饰的发酵微生物是大肠杆菌。在另一个优选的方面，经过遗传修饰的发酵微生物是产酸克雷伯氏菌。在另一个优选的方面，所述经遗传修饰的发酵微生物是马克斯克鲁维酵母。在另一个优选的方面，所述经遗传修饰的发酵微生物是酿酒酵母。在另一个优选的方面，经过遗传修饰的发酵微生物是运动发酵单胞菌。

本领域中公知的是，上述生物体还能用于产生其它物质，如本文所述。

通常向降解的纤维素材料或水解物加入发酵微生物，并进行约8至约96小时，例如约24至约60小时发酵。温度通常为约26℃至约60℃，例如约32℃或50℃，并且在约pH 3至约pH 8，例如约pH 4-5、6或7。

在一个方面，对降解的纤维素材料施用酵母和/或另一种微生物，并进行约12至约96小时，如通常为24-60小时发酵。在另一个方面，温度优选为约20℃至约60℃，例如约25℃至约50℃，并且约32℃至约50℃，约32℃至约50℃，并且pH通常为约pH 3至约pH 7，例如约pH 4至约pH 7。然而，一些发酵生物体例如细菌，具有更高的最适发酵温度。酵母或另一种微生物优选以约10⁵-10¹²，优选约10⁷-10¹⁰，特别是约2x 10⁸活细胞计数每ml发酵液的量施用。关于使用酵母进行发酵的进一步指导可见于例如“The Alcohol Textbook”(K.Jacques,T.P.Lyons和D.R.Kelsall编,Nottingham University Press,UnitedKingdom 1999)，其通过提述并入本文。

对于乙醇产生，在发酵之后，对发酵的浆料进行蒸馏以提取乙醇。根据本发明的工艺获得的乙醇可用作例如燃料乙醇，饮用乙醇，例如可饮用的中性引用酒(potableneutral spritis)，或工业乙醇。

发酵刺激剂可以与本文所述的任何方法组合使用，以进一步改进发酵工艺，而且特定地，改进发酵微生物的性能，如，速率增加和乙醇得率。“发酵刺激剂”指用于发酵微生物(特别是酵母)生长的刺激剂。优选的用于生长的发酵刺激剂包括维生素和矿物质。维生素的实例包括多种维生素、生物素、泛酸(盐)、烟酸、内消旋肌醇(meso-inositol)、硫胺素、吡哆醇(pyridoxine)、对氨基苯甲酸、叶酸、核黄素和维生素A、B、C、D和E。参见，例如，Alfenore等,Improving ethanol production and viability of Saccharomycescerevisiae by a vitamin feeding strategy during fed-batch process,Springer-Verlag(2002)，其通过提述并入本文。矿物质的实例包括能够提供营养物的矿物质和矿物质盐，所述营养物包括P、K、Mg、S、Ca、Fe、Zn、Mn和Cu。

发酵产物：发酵产物可以是源自发酵的任何物质。发酵产物可以是，不限于，醇(例如，阿拉伯醇、正丁醇、异丁醇、乙醇、甘油、甲醇、乙二醇、1,3-丙二醇(丙二醇)、丁二醇、丙三醇、山梨醇和木糖醇)；烷烃(例如戊烷、己烷、庚烷、辛烷、壬烷、癸烷、十一烷和十二烷)；环烷烃(例如环戊烷、环己烷、环庚烷、和环辛烷)；烯烃(例如戊烯、己烯、庚烯和辛烯)；氨基酸(例如，天冬氨酸、谷氨酸、甘氨酸、赖氨酸、丝氨酸和苏氨酸)；气体(例如，甲烷、氢气(H₂)、二氧化碳(CO₂)和一氧化碳(CO))；异戊二烯；酮(例如，丙酮)；有机酸(例如，乙酸、醋酮酸、己二酸、抗坏血酸、柠檬酸、2,5-二酮-D-葡糖酸、甲酸、反丁烯二酸、葡糖二酸、葡糖酸、葡糖醛酸、戊二酸、3-羟基丙酸、衣康酸、乳酸、苹果酸、丙二酸、草酸、草酰乙酸、丙酸、琥珀酸和木糖酸)；和聚酮化合物。发酵产物还可以是作为高价值产品的蛋白质。

在一个优选的方面，发酵产物是醇。可理解的是，术语“醇”包括包含一个或多个羟基模块的物质。在更优选的方面，所述醇是正丁醇。在另一个更优选的方面，所述醇是异丁醇。在另一个更优选的方面，所述醇是乙醇。在另一个更优选的方面，所述醇是甲醇。在另一个更优选的方面，所述醇是阿拉伯糖醇。在另一个更优选的方面，所述醇是丁二醇。在另一个更优选的方面，所述醇是乙二醇。在另一个更优选的方面，所述醇是丙三醇(glycerin)。在另一个更优选的方面，所述醇是甘油(glycerol)。在另一个更优选的方面，所述醇是1,3-丙二醇。在另一个更优选的方面，所述醇是山梨醇。在另一个更优选的方面，所述醇是木糖醇。参见，例如，Gong,C.S.,Cao,N.J.,Du,J.,和Tsao,G.T.,1999,Ethanol productionfrom renewable resources,于Advances in Biochemical Engineering/Biotechnology,Scheper,T.编,Springer-Verlag Berlin Heidelberg,Germany,65:207-241；Silveira,和Jonas,2002,The biotechnological production of sorbitol,Appl.Microbiol.Biotechnol.59:400-408；Nigam和Singh,1995,Processes forfermentative production of xylitol–a sugar substitute,Process Biochemistry 30(2):117-124；Ezeji等,2003,Production of acetone,butanol and ethanol byClostridium beijerinckii BA101 and in situ recovery by gas stripping,WorldJournal of Microbiology and Biotechnology 19(6):595-603。

在另一个优选的方面，所述发酵产物是烷烃。所述烷烃是未支化或支化的烷烃。在另一个更优选的方面，所述烷烃是戊烷。在另一个更优选的方面，所述烷烃是己烷。在另一个更优选的方面，所述烷烃是庚烷。在另一个更优选的方面，所述烷烃是辛烷。在另一个更优选的方面，所述烷烃是壬烷。在另一个更优选的方面，所述烷烃是癸烷。在另一个更优选的方面，所述烷烃是十一烷。在另一个更优选的方面，所述烷烃是十二烷。

在另一个优选的方面，所述发酵产物是环烷烃。在另一个更优选的方面，所述环烷烃是环戊烷。在另一个更优选的方面，所述环烷烃是环己烷。在另一个更优选的方面，所述环烷烃是环庚烷。在另一个更优选的方面，所述环烷烃是环辛烷。

在另一个优选的方面，所述发酵产物是烯烃。所述烯烃可为未支化或支化的烯烃。在另一个更优选的方面，所述烯烃是戊烯。在另一个更优选的方面，所述烯烃是己烯。在另一个更优选的方面，所述烯烃是庚烯。在另一个更优选的方面，所述烯烃是辛烯。

在另一个优选的方面，所述发酵产物是氨基酸。在另一个更优选的方面，所述有机酸是天冬氨酸。在另一个更优选的方面，所述氨基酸是谷氨酸。在另一个更优选的方面，所述氨基酸是甘氨酸。在另一个更优选的方面，所述氨基酸是赖氨酸。在另一个更优选的方面，所述氨基酸是丝氨酸。在另一个更优选的方面，所述氨基酸是苏氨酸。参见，例如，Richard和Margaritis,2004,Empirical modeling of batch fermentation kineticsfor poly(glutamic acid)production and other microbial biopolymers,Biotechnology and Bioengineering 87(4):501-515。

在另一个优选的方面，所述物质是气体。在另一个更优选的方面，所述气体是甲烷。在另一个更优选的方面，所述气体是H₂。在另一个更优选的方面，所述气体是CO₂。在另一个更优选的方面，所述气体是CO。参见，例如，Kataoka等,1997,Studies on hydrogenproduction by continuous culture system of hydrogen-producing anaerobicbacteria,Water Science and Technology 36(6-7):41-47；和Gunaseelan,Biomass andBioenergy,13(1-2):83-114,1997,Anaerobic digestion of biomass for methaneproduction:A review。

在另一个优选的方面，所述发酵产物是异戊二烯。

在另一个优选的方面，所述发酵产物是酮。应理解的是，术语“酮”涵盖了含有一个或多个酮模块的酮。在另一个更优选的方面，所述酮是丙酮。参见，例如Qureshi和Blaschek,2003,见上文。

在另一个优选的方面，所述发酵产物是有机酸。在另一个更优选的方面，所述有机酸是乙酸。在另一个更优选的方面，所述有机酸是醋酮酸。在另一个更优选的方面，所述有机酸是己二酸。在另一个更优选的方面，所述有机酸是抗坏血酸。在另一个更优选的方面，所述有机酸是柠檬酸。在另一个更优选的方面，所述有机酸是2,5-二酮-D-葡糖酸。在另一个更优选的方面，所述有机酸是甲酸。在另一个更优选的方面，所述有机酸是反丁烯二酸。在另一个更优选的方面，所述有机酸是葡糖二酸。在另一个更优选的方面，所述有机酸是葡糖酸。在另一个更优选的方面，所述有机酸是葡糖醛酸。在另一个更优选的方面，所述有机酸是戊二酸。在另一个优选的方面，所述有机酸是3-羟基丙酸。在另一个更优选的方面，所述有机酸是衣康酸。在另一个更优选的方面，所述有机酸是乳酸。在另一个更优选的方面，所述有机酸是苹果酸。在另一个更优选的方面，所述有机酸是丙二酸。在另一个更优选的方面，所述有机酸是草酸。在另一个更优选的方面，所述有机酸是丙酸。在另一个更优选的方面，所述有机酸是琥珀酸。在另一个更优选的方面，所述有机酸是木糖酸。参见，例如，Chen和Lee,1997,Membrane-mediated extractive fermentation for lactic acidproduction from cellulosic biomass,Appl.Biochem.Biotechnol.63-65:435-448。

在另一个优选的方面，所述物质是聚酮化合物。

回收可以使用本领域已知的任何方法，任选地从发酵培养基回收发酵产物，所述方法包括，但不限于，层析、电泳方法、差示溶解度、蒸馏或提取。例如，通过常规蒸馏方法从发酵的纤维素材料分离并纯化醇。可以获得纯度高达约96vol.％的乙醇，其能用作，例如，燃料乙醇、饮用乙醇(即，可饮用的中性含酒精饮料)，或工业乙醇。

信号肽

本发明还涉及编码信号肽的分离的多核苷酸，所述信号肽包含或组成为SEQ IDNO:2的氨基酸1至25，或SEQ ID NO:4的氨基酸1至25。所述多核苷酸可进一步包含编码蛋白的基因，其可操作地连接于信号肽。所述蛋白优选对于所述信号肽是外源的。在一个方面，编码信号肽的多核苷酸是SEQ ID NO:1的核苷酸1至75。在另一个方面，编码信号肽的多核苷酸是SEQ ID NO:3的核苷酸1至75。

本发明还涉及包含此种多核苷酸的核酸构建体、表达载体和重组宿主细胞。

本发明还涉及用于产生蛋白质的方法，包括：(a)培养包含此种多核苷酸的重组宿主细胞；和(b)回收所述蛋白质。

所述蛋白质对于宿主细胞可以是天然的或异源的。术语“蛋白质”在本文的意思不是指特定长度的编码产物，并且因此涵盖肽、寡肽和多肽。术语“蛋白质”还涵盖经组合以形成编码产物的两种以上多肽。所述蛋白质还包括杂合多肽和融合多肽。

优选蛋白质是激素、酶、受体或其部分、抗体或其部分，或报告蛋白(reporter)。例如，所述蛋白质可为水解酶、异构酶、连接酶、裂合酶(lyase)、氧化还原酶或转移酶，如氨肽酶、淀粉酶、糖酶、羧肽酶、过氧化氢酶、纤维二糖水解酶、纤维素酶、几丁质酶、角质酶、环糊精糖基转移酶、脱氧核糖核酸酶、内切葡聚糖酶、酯酶、α-半乳糖苷酶、β-半乳糖苷酶、葡糖淀粉酶、α-葡糖苷酶、β-葡糖苷酶、转化酶、漆酶、脂肪酶、甘露糖苷酶、变聚糖酶(mutanase)、氧化酶、果胶分解酶、过氧化物酶、肌醇六磷酸酶、多酚氧化酶、蛋白水解酶、核糖核酸酶、转谷氨酰胺酶、木聚糖酶或β-木糖苷酶。

基因可以从任何原核、真核生物或其它来源获得。

优选实施方案的列表

实施方案1.一种具有纤维二糖水解酶活性的分离的多肽，其选自下组：

(a)多肽，其与SEQ ID NO:2的成熟多肽具有至少84％，例如至少85％，至少86％，至少87％，至少88％，至少89％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性，或多肽，其与SEQID NO:4的成熟多肽具有至少81％，例如至少82％，至少83％，至少84％，至少85％，至少87％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性；

(b)多肽，其由多核苷酸编码，所述多核苷酸在低严格条件，或中等严格条件，或中等-高严格条件，或高严格条件，或非常高严格条件下与以下杂交：(i)SEQ ID NO:1或SEQID NO:3的成熟多肽编码序列，(ii)其cDNA序列，或(iii)(i)或(ii)的全长互补物；

(c)多肽，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列或它们的cDNA序列具有至少60％，例如至少65％，至少70％，至少75％，至少80％，至少85％，至少85％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性；

(d)SEQ ID NO:2或SEQ ID NO:4的成熟多肽在一个或多个位置包含取代、缺失和/或插入的变体；和

实施方案2.实施方案1的多肽，其与SEQ ID NO:2的成熟多肽具有至少84％，至少85％，至少86％，至少87％，至少88％，至少89％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性，或与SEQ ID NO:4的成熟多肽具有至少81％，至少82％，至少83％，至少84％，至少85％，至少87％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性。

实施方案3.实施方案1或2的多肽，其由多核苷酸编码，所述多核苷酸在低严格条件，或低-中等严格条件，或中等严格条件，或中等-高严格条件，或高严格条件，或非常高严格条件下与以下杂交：(i)SEQ ID NO:1或SEQ ID NO:3的成熟多肽编码序列，(ii)其cDNA序列，或(iii)(i)或(ii)的全长互补物。

实施方案4.实施方案1-3任一项的多肽，其由多核苷酸编码，所述多核苷酸与SEQID NO:1或SEQ ID NO:3的成熟多肽编码序列或它们的cDNA序列具有至少60％，至少65％，至少70％，至少75％，至少80％，至少85％，至少85％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性。

实施方案5.实施方案1-4任一项的多肽，其包含或组成为SEQ ID NO:2或SEQ IDNO:4，或SEQ ID NO:2或SEQ ID NO:4的成熟多肽。

实施方案6.实施方案5的多肽，其中所述成熟多肽是SEQ ID NO:2的氨基酸26至532或SEQ ID NO:4的氨基酸26至532。

实施方案7.实施方案1-4任一项的多肽，其为SEQ ID NO:2或SEQ ID NO:4的成熟多肽在一个或多个位置包含取代、缺失和/或插入的变体。

实施方案8.实施方案1的多肽，其为SEQ ID NO:2或SEQ ID NO:4的片段，其中所述片段具有纤维二糖水解酶活性。

实施方案9.一种分离的多肽，其包含选自下组的催化域：

(a)催化域，其与SEQ ID NO:2或SEQ ID NO:4的催化域具有至少60％序列同一性；

(b)催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1或SEQ ID NO:3的催化域编码序列具有至少60％序列同一性；

(c)SEQ ID NO:2或SEQ ID NO:4的催化域的包含一个或多个(几个)氨基酸取代、缺失和/或插入的催化域变体；和

(d)(a)、(b)或(c)的多肽的具有纤维二糖水解酶活性的片段。

实施方案10.实施方案9的多肽，其包含或组成为SEQ ID NO:2或SEQ ID NO:4的催化域。

实施方案11.实施方案10的多肽，其中所述催化域是SEQ ID NO:2的氨基酸26至460或SEQ ID NO:4的氨基酸26至459。

实施方案12.实施方案9-11任一项的多肽，其进一步包含纤维素结合域。

实施方案13.实施方案1-12任一项的多肽，其由Talaromyces leycettanus菌株CBS398.68中所含的多核苷酸所编码。

实施方案14.一种组合物，其包含实施方案1-13任一项的多肽。

实施方案15.一种分离的多核苷酸，其编码实施方案1-13任一项的多肽。

实施方案16.一种核酸构建体或表达载体，其包含实施方案15的多核苷酸，所述多核苷酸可操作地连接于一个或多个调控序列，所述调控序列指导所述多肽在表达宿主中的产生。

实施方案17.一种重组宿主细胞，其包含实施方案15的多核苷酸，所述多核苷酸可操作地连接于一个或多个调控序列，所述调控序列指导多肽的产生。

实施方案18.一种产生实施方案1-13中任一项的多肽的方法，其包括：

(a)在有助于所述多肽产生的条件下培养细胞，所述细胞以其野生型形式产生所述多肽；和

(b)回收所述多肽。

实施方案19.一种产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有助于所述多肽产生的条件下培养实施方案17的宿主细胞；和

(b)回收所述多肽。

实施方案20.一种转基因植物、植物部分或植物细胞，其用编码实施方案1-13任一项的多肽的多核苷酸转化。

实施方案21.一种产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有助于所述多肽的产生的条件下培养实施方案20的转基因植物或植物细胞；和

(b)回收所述多肽。

实施方案22.一种编码信号肽的分离的多核苷酸，所述信号肽包含或组成为SEQID NO:2的氨基酸1至25或SEQ ID NO:4的氨基酸1至25。

实施方案23.一种核酸构建体或表达载体，其包含编码蛋白的基因，所述基因可操作地连接于实施方案22的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的。

实施方案24.一种重组宿主细胞，其包含编码蛋白的基因，所述基因可操作地连接于实施方案22的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的。

实施方案25.一种产生蛋白的方法，其包括：

(a)在有助于所述蛋白的产生的条件下培养重组宿主细胞，所述重组宿主细胞包含编码蛋白的基因，所述基因可操作地连接于实施方案22的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的；和

(b)回收所述蛋白。

实施方案26.一种降解纤维素材料的方法，其包括：在实施方案1-13任一项的具有纤维二糖水解酶活性的多肽存在下用酶组合物处理所述纤维素材料。

实施方案27.实施方案26的方法，其中所述纤维素材料经过预处理。

实施方案28.实施方案26或27的方法，其中所述酶组合物包含一种或多种选自下组的酶：纤维素酶、具有纤维素分解增强活性的GH61多肽、半纤维素酶、酯酶、棒曲霉素、漆酶、木质素分解酶、果胶酶、过氧化物酶、蛋白酶和膨胀素。

实施方案29.实施方案28的方法，其中所述纤维素酶是一种或多种选自下组的酶：内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶。

实施方案30.实施方案28的方法，其中所述半纤维素酶是一种或多种选自下组的酶：木聚糖酶、乙酰木聚糖酯酶、阿魏酸酯酶、阿拉伯呋喃糖苷酶、木糖苷酶和葡糖醛酸糖苷酶。

实施方案31.实施方案26-30任一项的工艺，进一步包括回收经降解的纤维素材料。

实施方案32.实施方案31的工艺，其中所述经降解的纤维素材料是糖。

实施方案33.实施方案32的工艺，其中所述糖选自下组：葡萄糖、木糖、甘露糖、半乳糖和阿拉伯糖。

实施方案34.一种产生发酵产物的工艺，其包括：

(a)在实施方案1-13任一项的具有纤维二糖水解酶活性的多肽存在下，用酶组合物糖化纤维素材料；

(b)用一种或多种发酵微生物发酵经糖化的纤维素材料以产生发酵产物；和

(c)从发酵回收发酵产物。

实施方案35.实施方案34的工艺，其中所述纤维素材料经过预处理。

实施方案36.实施方案34或35的工艺，其中所述酶组合物包含一种或多种选自下组的酶：纤维素酶、具有纤维素分解增强活性的GH61多肽、半纤维素酶、酯酶、棒曲霉素、漆酶、木质素分解酶、果胶酶、过氧化物酶、蛋白酶和膨胀素。

实施方案37.实施方案36的工艺，其中所述纤维素酶是一种或多种选自下组的酶：内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶。

实施方案38.实施方案36的工艺，其中所述半纤维素酶是一种或多种选自下组的酶：木聚糖酶、乙酰木聚糖酯酶、阿魏酸酯酶、阿拉伯呋喃糖苷酶、木糖苷酶和葡糖醛酸糖苷酶。

实施方案39.实施方案34-38中任一项的工艺，其中步骤(a)和(b)在同步糖化和发酵中同时进行。

实施方案40.实施方案34-39中任一项的工艺，其中发酵产物是醇、烷烃、环烷烃、烯烃、氨基酸、气体、异戊二烯、酮、有机酸或聚酮化合物。

实施方案41.一种发酵纤维素材料的工艺，其包括：用一种或多种发酵微生物发酵纤维素材料，其中所述纤维素材料是在实施方案1-13中任一项的具有纤维二糖水解酶活性的多肽的存在下用酶组合物糖化的。

实施方案42.实施方案41的工艺，其中所述纤维素材料的发酵产生发酵产物。

实施方案43.实施方案42的工艺，进一步包括从发酵回收发酵产物。

实施方案44.实施方案41-43任一项的工艺，其中纤维素材料在糖化之前经预处理。

实施方案45.实施方案41-44任一项的工艺，其中所述酶组合物包含一种或多种选自下组的酶：纤维素酶、具有纤维素分解增强活性的GH61多肽、半纤维素酶、酯酶、棒曲霉素、漆酶、木质素分解酶、果胶酶、过氧化物酶、蛋白酶和膨胀素。

实施方案46.实施方案45的工艺，其中所述纤维素酶是一种或多种选自下组的酶：内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶。

实施方案47.实施方案45的工艺，其中所述半纤维素酶是一种或多种选自下组的酶：木聚糖酶、乙酰木聚糖酯酶、阿魏酸酯酶、阿拉伯呋喃糖苷酶、木糖苷酶和葡糖醛酸糖苷酶。

实施方案48.实施方案41-47中任一项的工艺，其中发酵产物是醇、烷烃、环烷烃、烯烃、氨基酸、气体、异戊二烯、酮、有机酸或聚酮化合物。

本文描述和要求保护的本发明并不局限于本文公开的具体方面的范围内，因为这些方面旨在作为本发明几个方面的说明。旨在将任何等同的方面包含于本发明的范围内。实际上，从前面的说明中，除本文所显示和描述的之外，本发明的多种修改对于本领域的技术人员来说是显而易见的。这些修改也旨在落入所附的权利要求的范围内。在冲突的情况下，将以包括定义部分的本公开为准。

本发明还涉及：

1.一种具有纤维二糖水解酶活性的分离的多肽，其选自下组：

2.项1的多肽，其与SEQ ID NO:2的成熟多肽具有至少84％，至少85％，至少86％，至少87％，至少88％，至少89％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性，或与SEQ ID NO:4的成熟多肽具有至少81％，至少82％，至少83％，至少84％，至少85％，至少87％，至少90％，至少91％，至少92％，至少93％，至少94％，至少95％，至少96％，至少97％，至少98％，至少99％，或100％的序列同一性。

3.项1或2的多肽，其包含或组成为SEQ ID NO:2或SEQ ID NO:4，或SEQ ID NO:2的成熟多肽或SEQ ID NO:4的成熟多肽。

4.项3的多肽，其中所述成熟多肽是SEQ ID NO:2的氨基酸26至532或SEQ ID NO:4的氨基酸26至532。

5.项1的多肽，其为SEQ ID NO:2的片段或SEQ ID NO:4的片段，其中所述片段具有纤维二糖水解酶活性。

6.一种分离的多肽，其包含选自下组的催化域：

(a)催化域，其与SEQ ID NO:2的催化域或SEQ ID NO:4的催化域具有至少60％序列同一性；

(b)催化域，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:1的催化域编码序列或SEQ ID NO:3的催化域编码序列具有至少60％序列同一性；

(d)(a)、(b)或(c)的催化域的具有纤维二糖水解酶活性的片段。

7.项6的多肽，其包含或组成为SEQ ID NO:2的催化域或SEQ ID NO:4的催化域。

8.项7的多肽，其中所述催化域是SEQ ID NO:2的氨基酸26至460或SEQ ID NO:4的氨基酸26至459。

9.项6-8任一项的多肽，其进一步包含纤维素结合域。

10.一种组合物，其包含项1-9任一项的多肽。

11.一种分离的多核苷酸，其编码项1-9任一项的多肽。

12.一种核酸构建体或表达载体，其包含项11的多核苷酸，所述多核苷酸可操作地连接于一个或多个调控序列，所述调控序列指导所述多肽在表达宿主中的产生。

13.一种重组宿主细胞，其包含项11的多核苷酸，所述多核苷酸可操作地连接于一个或多个调控序列，所述调控序列指导所述多肽的产生。

14.一种产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有助于所述多肽产生的条件下培养项13的宿主细胞；和

(b)回收所述多肽。

15.一种编码信号肽的分离的多核苷酸，所述信号肽包含或组成为SEQ ID NO:2的氨基酸1至25或SEQ ID NO:4的氨基酸1至25。

16.一种核酸构建体或表达载体，其包含编码蛋白的基因，所述基因可操作地连接于项15的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的。

17.一种重组宿主细胞，其包含编码蛋白的基因，所述基因可操作地连接于项15的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的。

18.一种产生蛋白的方法，其包括：

(a)在有助于所述蛋白的产生的条件下培养重组宿主细胞，所述重组宿主细胞包含编码蛋白的基因，所述基因可操作地连接于项15的多核苷酸，其中所述基因对于编码信号肽的多核苷酸是外源的；和

(b)回收所述蛋白。

19.一种降解纤维素材料的工艺，其包括：在项1-9任一项的具有纤维二糖水解酶活性的多肽存在下用酶组合物处理所述纤维素材料。

20.项19的工艺，其中所述纤维素材料经过预处理。

21.项19或20的工艺，进一步包括回收经降解的纤维素材料。

22.项21的工艺，其中所述经降解的纤维素材料是糖。

23.一种产生发酵产物的工艺，其包括：

(a)在项1-9任一项的具有纤维二糖水解酶活性的多肽存在下，用酶组合物糖化纤维素材料；

(b)用一种或多种发酵微生物发酵经糖化的纤维素材料以产生所述发酵产物；和

(c)从发酵回收所述发酵产物。

24.项23的工艺，其中步骤(a)和(b)在同步糖化和发酵中同时进行。

25.项23或24的工艺，其中所述发酵产物是醇、烷烃、环烷烃、烯烃、氨基酸、气体、异戊二烯、酮、有机酸或聚酮化合物。

26.一种发酵纤维素材料的工艺，其包括：用一种或多种发酵微生物发酵纤维素材料，其中所述纤维素材料是在项1-9中任一项的具有纤维二糖水解酶活性的多肽的存在下用酶组合物糖化的。

本发明还提供了：

1.一种具有纤维二糖水解酶活性的分离的多肽，其选自下组:

(a)多肽，其与SEQ ID NO:4的氨基酸26至532序列具有至少90％的序列同一性；

(b)多肽，其由多核苷酸编码，所述多核苷酸在高严格条件与SEQ ID NO:3的76至1596位核苷酸序列或其cDNA序列的全长互补链杂交，其中所述高严格条件定义为在42℃，在5X SSPE、0.3％SDS、200微克/ml已剪切并且变性的鲑精DNA和50％的甲酰胺中，根据标准的Southern印迹法进行预杂交和杂交12至24小时，随后使用2X SSC、0.2％SDS在65℃洗涤三次，每次15分钟；

(c)具有纤维二糖水解酶活性的SEQ ID NO:4的氨基酸26至532序列的片段。

2.项1的多肽，其与SEQ ID NO:4的氨基酸26至532序列具有至少95％的序列同一性。

3.项1的多肽，其与SEQ ID NO:4的氨基酸26至532序列具有至少97％的序列同一性。

4.项1的多肽，其由多核苷酸编码，所述多核苷酸与SEQ ID NO:3的成熟多肽编码序列具有至少95％的序列同一性。

5.项1的多肽，其为与在一个或多个位点包含取代、缺失、和/或插入的SEQ ID NO：4的氨基酸26至532序列具有至少98％的序列同一性的变体。

6.项1的多肽，其包含SEQ ID NO：4的氨基酸26至532序列。

7.项1的多肽，其为SEQ ID NO:4的氨基酸26至532序列的片段，其中所述片段具有纤维二糖水解酶活性。

8.一种组合物，其包含项1的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶。

9.一种组合物，其包含项2的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶。

10.一种降解纤维素材料的方法，包括用项1的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶处理纤维素材料。

11.一种降解纤维素材料的方法，包括用项2的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶处理纤维素材料。

12.项10所述的方法，进一步包括回收经降解的纤维素材料。

13.一种产生发酵产物的方法，其包括：

(a)用项1的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶糖化纤维素材料；

(c)从发酵回收发酵产物。

14.一种产生发酵产物的方法，其包括：

(a)用项2的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶糖化纤维素材料；

(c)从发酵回收发酵产物。

15.项13的方法，其中步骤(a)和(b)在同步糖化和发酵中同时进行。

16.项13的方法，其中发酵产物是乙醇。

17.一种用核酸构建体或表达载体转化的重组宿主细胞，所述构建体或载体包含编码项1所述多肽的多核苷酸，其中所述多核苷酸可操作地连接于一个或多个调控序列，所述调控序列指导所述多肽在宿主细胞中的产生。

18.一种产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有助于所述多肽的产生的条件下培养项17的宿主细胞；和

(b)回收所述多肽。

19.一种分离的多肽，其包含选自下组的催化域：

(a)催化域，其与SEQ ID NO：4的氨基酸26至459序列具有至少90％序列同一性；

(b)SEQ ID NO：4的氨基酸26至459序列的片断，其具有纤维二糖水解酶活性。

20.项19的多肽，其与SEQ ID NO：4的氨基酸26至459序列具有至少95％序列同一性。

21.项19的多肽，其中所述催化域包含SEQ ID NO：4的氨基酸26至459序列。

22.项19的多肽，进一步包含纤维素结合域。

23.一种组合物，其包含项19的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶。

24.一种组合物，其包含项20的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶。

25.一种降解纤维素材料的方法，包括用项19的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶处理纤维素材料。

26.一种降解纤维素材料的方法，包括用项20的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶处理纤维素材料。

27.项25所述的方法，进一步包括回收经降解的纤维素材料。

28.一种产生发酵产物的方法，其包括：

(a)用项19的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶糖化纤维素材料；

(c)从发酵回收发酵产物。

29.一种产生发酵产物的方法，其包括：

(a)用项20的多肽、内切葡聚糖酶，GH61多肽、β-葡糖苷酶，和木聚糖酶糖化纤维素材料；

(c)从发酵回收发酵产物。

30.项28的方法，其中步骤(a)和(b)在同步糖化和发酵中同时进行。

31.项28的方法，其中发酵产物是乙醇。

实施例

材料

用作缓冲液和底物的化学品是至少试剂级别的商品。

菌株

将Talaromyces leycettanus菌株CBS398.68用作具有纤维二糖水解酶活性的多肽的来源。将米曲霉MT3568菌株用于表达编码具有纤维二糖水解酶活性的多肽的Talaromyces leycettanus基因。米曲霉MT3568是米曲霉JaL355(WO 2002/40694)的amdS(乙酰胺酶)破坏的基因衍生物，其中通过破坏米曲霉乙酰胺酶(amdS)基因恢复了pyrG营养缺陷。

培养基和溶液

YP+2％葡萄糖培养基包含1％酵母提取物，2％蛋白胨和2％葡萄糖。

PDA琼脂平板包含马铃薯浸出物(马铃薯浸出物如下所述制备：将300g的切片(经洗涤但未经削皮)的马铃薯在水中煮沸30分钟，然后将汤液(broth)倾出或通过干酪包布(cheesecloth)滤过。然后添加蒸馏水直至悬液的总体积为一升，接着添加20g的右旋糖和20g的琼脂粉。将培养基通过高压灭菌在15psi灭菌15分钟(Bacteriological AnalyticalManual,8th Edition,Revision A,1998)。

LB平板包含10g的Bacto-Tryptone，5g的酵母提取物，10g的氯化钠，15g的Bacto琼脂，和去离子水加至1升。将培养基通过高压灭菌在15psi灭菌15分钟(BacteriologicalAnalytical Manual,8th Edition,Revision A,1998)。

COVE蔗糖平板包含342g蔗糖(Sigma S-9378)，20g琼脂粉，20ml COVE盐溶液(26gMgSO₄.7H₂O，26g KCL，26g KH₂PO₄，50ml Cove微量金属溶液)和去离子水加至1升)，和去离子水加至1升。将培养基通过高压灭菌在15psi灭菌15分钟(Bacteriological AnalyticalManual,8th Edition,Revision A,1998)。将培养基冷却至60℃并添加10mM乙酰胺，15mMCsCl，Triton X-100(50μl/500ml))。

Cove微量金属溶液包含0.04g Na₂B₄O₇.10H₂O，0.4g CuSO₄.5H₂O，1.2g FeSO₄.7H₂O，0.7g MnSO₄.H₂O，0.8g Na₂MoO₄.2H₂O，10g ZnSO₄.7H₂O，和去离子水加至1升。

Dap-4C培养基包含20g右旋糖，10g麦芽糖，11g MgSO₄.7H₂O，1g KH₂PO₄，2g柠檬酸，5.2g K₃PO₄.H₂O，0.5g酵母提取物(Difco)，1ml Dowfax63N10(Dow Chemical Company)，0.5ml KU6微量金属溶液，2.5g CaCO₃，和去离子水加至1升。将培养基通过高压灭菌在15psi灭菌15分钟(Bacteriological Analytical Manual,8th Edition,Revision A,1998)。在使用之前，向Dap-4C培养基添加3.5ml灭菌的50％(NH₄)₂HPO₄和5ml灭菌的20％乳酸每150ml培养基。

KU6微量金属溶液包含0.13g NiCl₂，2.5g CuSO₄.5H₂O，13.9g FeSO₄.7H₂O，8.45gMnSO₄.H₂O，6.8g ZnCl₂，3g柠檬酸，和去离子水加至1升。

实施例1：关于Talaromyces leycettanus菌株CBS398.68的DNA序列信息的来源

基因组序列信息在中国北京市的Beijing Genome Institute(BGI)通过IlluminaDNA测序从由Talaromyces leycettanus菌株CBS398.68分离的基因组DNA生成。基因组的初级汇编(preliminary assembly)使用Pedant-Pro^TM Sequence Analysis Suite(BiomaxInformatics AG，Martinsried，Germany)进行分析。将由该软件构建的基因模型用作供在基因组中检测GH7同源物的起始点。使用多种已知的GH7蛋白序列作为指导，手动构建了更加准确的基因模型。

实施例2：Talaromyces leycettanus菌株CBS398.68基因组DNA提取

为了生成用于PCR扩增的基因组DNA，将Talaromyces leycettanus菌株CBS398.68在PDA琼脂平板上通过在26℃生长7日来进行繁殖。将从PDA平板收获的孢子用于接种带隔板的摇瓶中的25ml的YP+2％葡萄糖培养基，并在30℃在85rpm搅拌下温育72小时。

基因组DNA根据修饰的DNeasy Plant Maxi kit实验方案(Qiagen Danmark，Copenhagen，Denmark)进行分离。将来自上述培养物的真菌材料通过在14,000x g离心2分钟来收获。去除上清，并将0.5g的沉淀与石英砂冻结于液氮，并在经预冷的研钵中磨制至细微粉末。将粉末转移至15ml离心管，并添加5ml缓冲液AP1(预热至65℃)和10μl RNase A储液(100mg/ml)，接着进行剧烈的涡旋。在65℃定期倒置试管下温育10分钟之后，将1.8ml缓冲液AP2通过轻柔地混合添加至裂解液，接着在冰上温育10分钟。然后将裂解液在室温在3000x g离心5分钟，并将上清倾入置于50ml收集管的QIAshredder maxi旋转柱中。接着，在室温在3000x g离心5分钟。将流过物转移入新的50ml试管，并添加1.5倍体积的缓冲液AP3/E，接着进行涡旋。将15ml的样品转移入置于50ml收集管中的DNeasy Maxi旋转柱，并在室温在3000x g离心5分钟。将流过物弃去，并将12ml缓冲液AW添加至置于50ml收集管中的DNeasy Maxi旋转柱，并在室温在3000x g离心10分钟。在弃去流过物之后，重复离心以弃去剩余的醇。将DNeasy Maxi旋转柱转移至新的50ml试管，并添加0.5ml缓冲液AE(预热至70℃)。在室温温育5分钟之后，将样品通过在室温在3000x g离心5分钟来洗脱。再用0.5ml缓冲液AE重复洗脱，并合并洗脱物。收获的DNA的浓度通过在260nm的UV分光光度计来测量。

实施例3：含有编码具有纤维二糖水解酶活性的家族GH7多肽的Talaromycesleycettanus菌株CBS398.68基因组序列的米曲霉表达载体的构建设计了下示的两个合成的寡核苷酸引物以从实施例2中制备的基因组DNA来PCR扩增Talaromyces leycettanus菌株CBS398.68 P23YSY基因。使用IN-FUSION^TM Cloning Kit(BD Biosciences，Palo Alto，CA，USA)以将片段直接克隆入表达载体pDau109(WO 2005/042735)。

F-P23YSY

R-P23YSY

粗体字母代表基因序列。下划线序列同源于pDau109的插入位点。

使用MJ Research PTC-200DNA引擎(engine)进行PCR反应。使用High-Fidelity PCR Kit(Finnzymes Oy，Espoo，Finland)进行PCR扩增。PCR反应包含5μl的5X HF缓冲液(Finnzymes Oy，Espoo，Finland)，各0.5μl的dNTP(10mM)，0.5μl的DNA聚合酶(0.2单位/μl)(Finnzymes Oy，Espoo，Finland)，1μl的引物F-P23YSY(5μM)，1μl的引物R-P23YSY(5μM)，0.5μl的Talaromyces leycettanus基因组DNA(100ng/μl)，和16.5μl的去离子水，总体积为25μl。PCR条件为1个循环，在95℃进行2分钟，35个循环，每个在98℃进行10秒，60℃进行30秒，和72℃进行2分钟；和1个循环，在72℃进行10分钟。然后将样品保持在12℃，直至从PCR机器移去。

反应产物通过使用40mM Tris碱，20mM乙酸钠，1mM EDTA二钠盐(TAE)缓冲液的1.0％琼脂糖凝胶电泳来分离，其中将1657bp产物条带从凝胶切出，并使用illustraPCR DNA and Gel Band Purification Kit(GE Healthcare Life Sciences，Brondby，Denmark)根据生产商的指示纯化。然后将片段使用IN-FUSION^TM Cloning Kit克隆入经Bam HI和Xho I消化的pDau109，得到质粒pP23YSY。将P23YSY基因克隆入经Bam HI-XhoI消化的pDau109使得Talaromyces leycettanus P23YSY基因的转录处于NA2-tpi双重启动子的调控下。NA-tpi是经修饰的来自编码黑曲霉中性α-淀粉酶的基因的启动子，其中未翻译的前导序列由来自编码构巢曲霉丙糖磷酸异构酶的基因的未翻译的前导序列替代。

克隆实验方案根据IN-FUSION^TM Cloning Kit的指示进行，生成P23YSY GH7构建体。将经处理的质粒和插入物根据生产商的实验方案转化入One TOP10F′Chemically Competent大肠杆菌细胞(nvitrogen，Carlsbad，CA，USA)，并铺板于补充0.1mg氨苄青霉素每ml的LB平板上。在37℃温育过夜之后，发现菌落在LB氨苄青霉素平板上的选择下生长。将四个经P23YSY GH7构建体转化的菌落在补充0.1mg氨苄青霉素每ml的LB培养基中培养，并用QIAprep Spin Miniprep Kit(QIAGEN Inc.，Valencia，CA，USA)根据生产商的实验方案分离质粒。

将分离的质粒用载体引物和P23YSY基因特异性引物进行测序以确定不含PCR错误的代表性质粒表达克隆。

实施例4：对编码具有纤维二糖水解酶活性的P23YSY GH7多肽(SEQ ID NO:4)的Talaromyces leycettanus CBS398.68基因组序列的表征

Talaromyces leycettanus CBS398.68 P23YSY GH7基因组克隆的DNA测序用Applied Biosystems Model 3700Automated DNA Sequencer使用版本3.1BIG-DYE^TM终止子化学(Applied Biosystems，Inc.，Foster City，CA，USA)和引物巡查策略来进行。对核苷酸序列就品质进行审视，并在PHRED/PHRAP软件(University of Washington，Seattle，WA，USA)的协助下将所有序列相互比较。获得的序列与来自BIG的序列相同。

Talaromyces leycettanus P23YSY基因的核苷酸序列和推导的氨基酸序列分别示于SEQ ID NO:3和SEQ ID NO:4。编码序列为1599bp，包含终止密码子。编码的预测蛋白为532个氨基酸。使用SignalP程序(Nielsen等，1997，Protein Engineering 10:1-6)，预测了25个残基的信号肽。预测的成熟蛋白含有507个氨基酸，具有53kDa的预测分子量和4.31的等电点pH。

氨基酸序列的比较性逐对全局比对使用Needleman和Wunsch算法(Needleman和Wunsch，1970，J.Mol.Biol.48:443-453)以缺口开放罚分为10，缺口延伸罚分为0.5，和EBLOSUM62矩阵进行。比对显示编码具有纤维二糖水解酶活性的P23YSY GH7多肽的Talaromyces leycettanus基因的推导的氨基酸序列与来自烟曲霉、具有纤维二糖水解酶活性的预测的GH7家族蛋白(登录号GENESEQP:AZH96970)的推导的氨基酸序列具有78.3％同一性(排除缺口)。

实施例5：Talaromyces leycettanus GH7纤维二糖水解酶P23YSY的表达将表达质粒pP23YSY转化入米曲霉MT3568。米曲霉MT3568是JaL355(WO 2002/40694)的AMDS(乙酰胺酶)破坏的衍生物，其中在米曲霉乙酰胺酶(AMDS)基因的敲除过程中恢复了pyrG营养缺陷。MT3568原生质体根据欧洲专利EP0238023第14至15页(其通过提述并入本文)的方法制备。

将转化体在COVE蔗糖选择平板上通过单个分生孢子进行纯化，然后使它们在PDA平板上形成孢子。由转化体所致的Talaromyces leycettanus GH7多肽的生成根据YP+2％葡萄糖培养基中在30℃的1ml 96深孔静态培养的培养上清进行分析。表达在E-Page 8％SDS-PAGE 48孔凝胶(Invitrogen，Carlsbad，CA，USA)上通过考马斯染色进行验证。选择一个转化体进行进一步研究，并将其命名为米曲霉80.8。

对于更大规模的生产，将米曲霉80.8孢子铺板于PDA平板，并在37℃温育5日。将汇合的孢子平板用5ml的0.01％20洗涤两次以最大化收集的孢子的数量。然后使用孢子悬液接种二十五个含有100ml的Dap-4C培养基的500ml烧瓶。将培养物在30℃在100rpm的恒定振荡下温育。在接种之后第四日，将培养液通过经由瓶顶(bottle top)MF75Supor MachV 0.2μm PES过滤器(Thermos Fisher Scientific，Roskilde，Denmark)过滤来收集。来自该转化体的新鲜培养液产生大约72kDa的GH7蛋白的条带。该条带作为Talaromyces leycettanus GH7多肽的身份通过肽测序来验证。

实施例6：用于产生Talaromyces leycettanus GH7纤维二糖水解酶P23YSY的其它方法

基于鉴定为SEQ ID NO:3的核苷酸序列，可从多个供应商如Gene Art(GENEART AGBioPark，Josef-Engert-Str.11，93053，Regensburg，Germany)或DNA 2.0(DNA2.0，1430O'Brien Drive，Suite E，Menlo Park，CA 94025，USA)获得合成基因。所述合成基因可设计为并入其它DNA序列如限制性位点或同源重组区以便于克隆入表达载体。

使用上述的两个合成寡核苷酸引物F-P23YSY和F-P23YSY，可使用简单的PCR反应从合成基因扩增全长开放阅读框。然后可将基因克隆入表达载体，例如如上所述的表达载体，并在宿主细胞中表达，例如在如上所述的米曲霉中表达。

实施例7：Talaromyces leycettanus GH7纤维二糖水解酶P23YSY的纯化将米曲霉表达菌株80.8的1000ml培养液调整至pH 7.0并在0.22μm PES过滤器(Thermo FisherScientific，Roskilde，Denmark)上过滤。接着，向滤过物添加1.8M硫酸铵。将滤过物加载于用1.8M硫酸铵pH 7.0平衡的Phenyl Sepharose^TM 6Fast Flow柱(high sub)(GEHealthcare，Piscataway，NJ，USA)(柱体积为60mL)。在加载之后，将用3个柱体积的平衡缓冲液继以7个柱体积的1M硫酸铵(蛋白保持结合于柱)洗涤柱，并接着用5个柱体积的25mMHEPES pH 7.0以15ml/min的流速将蛋白洗脱。收集10mL的级分，并通过SDS-page分析。将级分汇集并施于在25mM HEPES pH 7.0中平衡的SOURCE^TM 15Q(GE Healthcare，Piscataway，NJ，USA)柱。将级分施于在25mM HEPES pH 7.0(柱体积60mL)中平衡的SOURCE^TM 15Q(GEHealthcare，Piscataway，NJ，USA)柱。在加载之后，将柱用3个柱体积的平衡缓冲液洗涤，并将结合的蛋白在10个柱体积上以0至500mM氯化钠的线性梯度洗脱。收集10ml的级分，并通过SDS-page分析，且汇集含有蛋白的级分。蛋白浓度通过A280/A260吸光度来确定。

实施例8：预处理的玉米秸秆水解测定

将玉米秸秆在U.S.Department of Energy National Renewable EnergyLaboratory(美国能源部国家可再生能源实验室)(NREL)使用1.4wt％硫酸在165℃和107psi预处理8分钟。预处理的玉米秸秆(PCS)中的不溶于水的固体含有56.5％纤维素，4.6％半纤维素和28.4％木质素。通过两阶段硫酸水解，接着通过使用NREL StandardAnalytical Procedure#002的高效液相色谱分析糖来确定纤维素和半纤维素。木质素在用硫酸水解纤维素和半纤维素级分之后使用NREL Standard Analytical Procedure#003以重量分析法确定。

未经磨制、未经洗涤的PCS(全浆料PCS)通过藉由添加10M NaOH与充分混合将PCS的pH调整至5.0，然后在120℃高压灭菌20分钟来制备。全浆料PCS的干重量是29％。PCS以未经洗涤或经水洗涤的形式使用。经磨制、未经洗涤的PCS(干重量32.35％)通过在CosmosICMG 40湿式多用途研磨机(EssEmm Corporation，Tamil Nadu，India)中磨制全浆料PCS来制备。经磨制、洗涤的PCS(干重量32.35％)以相同方式制备，并接着用去离子水洗涤和反复倾去上清级分。

PCS的水解使用2.2ml深孔板(Axygen，Union City，CA，USA)在1.0ml的总反应体积中进行。水解用50mg的不溶性PCS固体每ml的含有1mM硫酸锰的50mM乙酸钠pH 5.0缓冲液和多种蛋白加载量的多种酶组合物(表示为mg蛋白每克纤维素)进行。制备酶组合物，然后以50μl至200μl范围的体积同时添加至所有孔，至每个反应中1ml的终体积。然后使用ALPS-300^TM平板热密封器(Abgene，Epsom，United Kingdom)密封平板，充分混合，并在特定温度温育72小时。所有报道的反应重复三次进行。

在水解之后，使用0.45μm96孔过滤板(Millipore，Bedford，MA，USA)过滤样品，然后如下所述就糖含量分析滤过物。当不立即使用时，将过滤的等分试样冻结于-20℃。稀释于0.005M H₂SO₄的样品的糖浓度使用4.6x 250mm HPX-87H柱(Bio-Rad Laboratories，Inc.，Hercules，CA，USA)通过在65℃用0.05％w/w苯甲酸-0.005M H₂SO₄以0.6ml每分钟的流速洗脱，和通过从由纯糖样品校正的折光率检测(1100HPLC，Agilent Technologies，Santa Clara，CA，USA)所得的葡萄糖、纤维二糖和木糖信号的积分的定量来进行测量。使用所得的葡萄糖和纤维二糖当量对于每个反应计算纤维素转化的百分比。

分别测量葡萄糖、纤维二糖和木糖。就合适的稀释因子调整测得的糖浓度。来自未洗涤的PCS的酶法产生的糖的净浓度通过就在零时点未洗涤的PCS中相应的背景糖浓度调整测得的糖浓度来确定。所有HPLC数据处理使用MICROSOFT EXCEL^TM软件(Microsoft，Richland，WA，USA)进行。

使用下式计算纤维素转化为葡萄糖的程度：％转化＝(葡萄糖浓度/限制消化中的葡萄糖浓度)x 100。为了计算％转化，基于纤维素酶对照(100mg的里氏木霉纤维素酶每克纤维素)设定100％转化点，并将所有值除以该数值并接着乘以100。将三次重复数据点取平均值，并计算标准偏差。

实施例9：酶组合物的制备

烟曲霉NN055679纤维二糖水解酶II的制备。烟曲霉GH6A纤维二糖水解酶II(SEQID NO:7[DNA序列]和SEQ ID NO:8[推导的氨基酸序列])在米曲霉中如WO 2011/057140中所述重组制备。将烟曲霉GH6A纤维二糖水解酶II经过滤的培养液使用400ml SEPHADEX^TM G-25柱(GE Healthcare，United Kingdom)根据生产商的指示缓冲液交换入20mM Tris pH8.0。汇集级分，并将其调整为1.2M硫酸钠-20mM Tris pH 8.0。将经平衡的蛋白加载于在含1.2M硫酸铵的20mM Tris pH 8.0中平衡的PHENYL SEPHAROSE^TM6Fast Flow柱(high sub)(GE Healthcare，Piscataway，NJ，USA)之上，并将结合的蛋白用不含硫酸铵的20mM TrispH 8.0洗脱。汇集级分。蛋白浓度使用Microplate BCA^TM Protein Assay Kit以牛血清白蛋白作为蛋白标样来确定。

具有纤维素分解增强活性的青霉属种(emersonii)GH61A多肽的制备。所述青霉属种(emersonii)GH61A多肽(SEQ ID NO:9[DNA序列]和SEQ ID NO:10[推导的氨基酸序列])根据WO 2011/041397重组制备。所述青霉属种(emersonii)GH61A多肽根据WO 2011/041397纯化。

里氏木霉GH5内切葡聚糖酶II的制备。里氏木霉GH5内切葡聚糖酶II(SEQ ID NO:11[DNA序列]和SEQ ID NO:12[推导的氨基酸序列])根据WO 2011/057140使用米曲霉作为宿主重组制备。将里氏木霉GH5内切葡聚糖酶II的经过滤的培养液脱盐并使用切向流(10K膜，Pall Filtron，Northborough，MA，USA)根据生产商的指示缓冲液交换入10mM Tris pH8.0。

烟曲霉NN055679GH10木聚糖酶的制备。烟曲霉GH10木聚糖酶(xyn3)(SEQ ID NO:13[DNA序列]和SEQ ID NO:14[推导的氨基酸序列])根据WO 2006/078256使用米曲霉BECh2(WO 2000/39322)作为宿主来重组制备。将烟曲霉NN055679GH10木聚糖酶(xyn3)的经过滤的培养液脱盐，并使用26/10Desalting Column(GE Healthcare，Piscataway，NJ，USA)根据生产商的指示缓冲液交换入50mM乙酸钠pH 5.0。

烟曲霉NN055679Cel3A β-葡糖苷酶的制备。(SEQ ID NO:15[DNA序列]和SEQ IDNO:16[推导的氨基酸序列])根据WO 2005/047499使用米曲霉作为宿主来重组制备。将过滤的培养液用20％乙酸钠调整至pH 8.0，这使得溶液浑浊。为了去除浑浊，将溶液离心(20000x g，20分钟)，并将上清通过0.2μm过滤单元(Nalgene，Rochester，NY，USA)过滤。将滤过物用去离子水稀释以达到与50mM Tris/HCl，pH 8.0相同的电导率。将经调整的酶溶液施于在50mM Tris-HCl，pH 8.0中平衡的Q SEPHAROSE^TM Fast Flow柱(GE Healthcare，Piscataway，NJ，USA)，并用0至500mM氯化钠的线性梯度洗脱。汇集级分，并用1％(w/v)活性炭处理以去除来自β-葡糖苷酶汇集的颜色。活性炭通过将上清经由0.2μm过滤单元(Nalgene，Rochester，NY，USA)过滤来去除。将滤过物用20％乙酸调整至pH 5.0，并用去离子水稀释10倍。将经调整的滤过物施于在10mM琥珀酸pH 5.0中平衡的SP SEPHAROSE^TM FastFlow柱(GE Healthcare，Piscataway，NJ，USA)，并用0至500mM氯化钠的线性梯度洗脱。

烟曲霉NN051616GH3β-木糖苷酶的制备。烟曲霉GH3β-木糖苷酶(SEQ ID NO:17[DNA序列]和SEQ ID NO:18[推导的氨基酸序列])如WO 2011/057140中所述在米曲霉中重组制备。将烟曲霉NN051616GH3β-木糖苷酶的过滤的培养液使用26/10Desalting Column(GE Healthcare，Piscataway，NJ，USA)根据生产商的指示脱盐并缓冲液交换入50mM乙酸钠pH 5.0。

对于每个上述的单组分的蛋白浓度使用Microplate BCA^TM Protein Assay Kit(Thermo Fischer Scientific，Waltham，MA，USA)来确定，其中牛血清白蛋白用作蛋白标样。用如上所述制备的每种单组分如下所述构成酶组合物：25％烟曲霉Cel6A纤维二糖水解酶II，15％具有纤维素分解增强活性的Penicillium emersonii GH61A多肽，10％里氏木霉GH5内切葡聚糖酶II，5％烟曲霉GH10木聚糖酶，5％烟曲霉β-葡糖苷酶，和3％烟曲霉β-木糖苷酶。该酶组合物在本文中命名为“不含纤维二糖水解酶的酶组合物”。

实施例10：烟曲霉纤维二糖水解酶I的制备

烟曲霉GH7A纤维二糖水解酶I(SEQ ID NO:19[DNA序列]和SEQ ID NO:20[推导的氨基酸序列])如WO 2011/057140中所述在米曲霉中重组制备。将烟曲霉GH7A纤维二糖水解酶I的过滤的培养液使用配有10kDa聚醚砜膜(Pall Filtron，Northborough，MA，USA)的切向流浓缩器(Pall Filtron，Northborough，MA，USA)浓缩并用20mM Tris-HCl pH 8.0缓冲液交换。烟曲霉GH7A纤维二糖水解酶I的脱盐的培养液在20mM Tris-HCl pH 8中的QSEPHAROSE^TM离子交换层析柱(GE Healthcare，Piscataway，NJ，USA))上以0至1M NaCl线性梯度进行纯化。收集级分，并基于8-16％Stain-free SDS-PAGE(Bio-RadLaboratories，Inc.，Hercules，CA，USA)汇集含有纤维二糖水解酶I纤维素酶的级分。蛋白浓度使用Microplate BCA^TM Protein Assay Kit确定，其中牛血清白蛋白用作蛋白标样。

实施例11：Talaromyces leycettanus家族GH7纤维二糖水解酶I(P23YSY)对通过酶组合物在50-60℃水解经磨制、未经洗涤的PCS中的作用

将Talaromyces leycettanus家族GH7纤维二糖水解酶(P23YSY)I在不含纤维二糖水解酶I的酶组合物中在50℃，55℃，60℃，和65℃使用经磨制、未经洗涤的PCS作为底物进行评估。将不含纤维二糖水解酶I的酶组合物(实施例9)以1.9mg总蛋白每g纤维素添加至PCS水解反应，并将水解结果与对于添加或不添加GH7纤维二糖水解酶I(3.0mg蛋白每g纤维素)的类似酶组合物的结果进行比较。

测定如实施例8中所述进行。用经磨制、未经洗涤的PCS(5％不溶性固体)的1ml反应在含有1mM硫酸锰的50mM乙酸钠pH 5.0缓冲液中进行72小时。所有反应进行一式三次，并涉及在水解开始时的单次混合。

如下表1中所示，包含Talaromyces leycettanus家族GH7纤维二糖水解酶(P23YSY)I的酶组合物与不含纤维二糖水解酶I的酶组合物(1.9mg蛋白/g纤维素和3.0mg蛋白/g纤维素)相比，在50℃，55℃，60℃，和65℃性能显著更佳(因为在50℃，55℃，60℃，和65℃，对于Talaromyces leycettanus家族GH7纤维二糖水解酶(P23YSY)，纤维素至葡萄糖的转化程度要高于含有烟曲霉家族GH7纤维二糖水解酶I的酶组合物)。下表1中的结果，显示含有Talaromyces leycettanus家族GH7纤维二糖水解酶I(P23YSY)的酶组合物在50℃性能略好于包含烟曲霉家族GH7纤维二糖水解酶I的酶组合物，并在55℃，60℃，和65℃与烟曲霉家族GH7纤维二糖水解酶I相比，性能较佳。

表1

实施例12：两种纤维二糖水解酶I对经磨制、洗涤的PCS在50至65℃的评估

将两种纤维二糖水解酶I以1mg蛋白每g纤维素在50℃，55℃，60℃，和65℃使用经磨制、洗涤的PCS作为底物与1mg蛋白每g纤维素的烟曲霉家族GH3β-葡糖苷酶一同进行评估。测试了下述纤维二糖水解酶：Talaromyces leycettanus家族GH7纤维二糖水解酶I(P23YSY)和烟曲霉GH7A纤维二糖水解酶I。

测定如实施例8中所述进行。用经磨制、洗涤的PCS(5％不溶性固体)的1ml反应在含有1mM硫酸锰的50mM乙酸钠pH 5.0缓冲液中进行72小时。所有反应进行一式三次，并涉及在水解开始时的单次混合。

示于下表2的结果说明在50℃，55℃，60℃，和65℃，Talaromyces leycettanus家族GH7纤维二糖水解酶I(P23YSY)与烟曲霉GH7纤维二糖水解酶I相比具有显著更高的纤维素至葡萄糖转化。

表2

序列表

<110> 诺维信公司

诺维信股份有限公司

<120> 具有纤维二糖水解酶活性的多肽及其编码该多肽的多核苷酸

<130> 12258-CN-PCD

<160> 20

<170> PatentIn version 3.5

<210> 1

<211> 1660

<212> DNA

<213> Talaromyces leycettanus

<400> 1

atggcgtcct ctctctctta caggatctac aagaatgctc tcatcttctc ttctctcctg 60

gccgctgccc agggtcagca gattggtacc taccagacgg agacccatcc gcctctgacc 120

tggcagacat gcaccagcgg cggcagttgc acgaccaacc aaggctccat cgtcctcgat 180

gccaactggc gctgggtgca cgaggtcggc agcaccacca actgctacac cggcaatacc 240

tgggacacct ccatctgcag cacggatacg acctgcgctc agcaatgtgc cgtcgatggt 300

gccgactacg agggcaccta tggtatcacg accagcggca gccaggtccg catcaacttc 360

gtcaccaaca actcgaacgg aaagaacgtc ggcgcgcgtg tctacatgat ggcggacaac 420

acccactacc aaatttacca gctgctgaac caggagttca cctttgatgt cgacgtgtcc 480

aacctgcctt gcggcctcaa cggtgccctc tactttgtgg tcatggacgc cgatggtggt 540

gtctccaagt atcccaacaa caaggctggt gcccagtacg gtgtcggtta ctgcgactcc 600

cagtgtccca gagacctcaa attcatccag ggacaggcca acgtcgaggg ctggcaaccg 660

tcgtccaaca acgccaatac cggcctgggc aaccacggct cctgctgtgc tgaactggac 720

gtctgggagt cgaacagcat ctcccaggcc ctcactcccc acccctgcga cactcccacc 780

aataccctgt gcaccggtga tagctgcggt ggcacataca gcagcaaccg ttatgcgggc 840

acttgcgatc ctgacggctg cgatttcaac ccctaccgct tgggcaacac caccttctac 900

ggtcctggca agactattga caccaccaaa cccttcacgg ttgtgacgca gttcatcacg 960

gatgacggca cttccagcgg caccctgtcc gaaattaggc gtttctatgt ccagaacggt 1020

gttacgtacg cccagcccaa ctctgacgtc agcggtatca gcggcaatgc catcaacagt 1080

gcttactgca ctgcggagaa caccgtcttc aacggtgccg gcaccttcgc gcagcacggc 1140

ggcctggctg gcatgagcca ggccatgtcc accggtatgg tcttggtgat gagcctgtgg 1200

gatgattact atgccgacat gctctggctc gacagcacct acccaaccaa cgacaccgca 1260

agcacgcccg gtgcggtccg tggaacctgc tctacgtcgt ccggtgtccc cagccaggtc 1320

gaatccgcca gcccgaacgc ctacgtgacc tactcgaaca tcaaggttgg tcccattggc 1380

tcgactttca actctggcgg ctctggctct ggcagcagct ccagcactac cacgaccact 1440

cacgccagca ccacgacgac gtcctccgcc tcgtctacgg gaactggcgt ggcccaacac 1500

tggggccagt gtggtggaca gggctggacc ggcccaacaa cctgcgtttc cccgtacact 1560

tgccaggagc tgaacccgta ctactaccag tgtctgtaga tggacaccgt gaccgatgat 1620

cattgatcag cgatcttgag ataggaatgt cgagcaggag 1660

<210> 2

<211> 532

<212> PRT

<213> Talaromyces leycettanus

<400> 2

Met Ala Ser Ser Leu Ser Tyr Arg Ile Tyr Lys Asn Ala Leu Ile Phe

1 5 10 15

Ser Ser Leu Leu Ala Ala Ala Gln Gly Gln Gln Ile Gly Thr Tyr Gln

20 25 30

Thr Glu Thr His Pro Pro Leu Thr Trp Gln Thr Cys Thr Ser Gly Gly

35 40 45

Ser Cys Thr Thr Asn Gln Gly Ser Ile Val Leu Asp Ala Asn Trp Arg

50 55 60

Trp Val His Glu Val Gly Ser Thr Thr Asn Cys Tyr Thr Gly Asn Thr

65 70 75 80

Trp Asp Thr Ser Ile Cys Ser Thr Asp Thr Thr Cys Ala Gln Gln Cys

85 90 95

Ala Val Asp Gly Ala Asp Tyr Glu Gly Thr Tyr Gly Ile Thr Thr Ser

100 105 110

Gly Ser Gln Val Arg Ile Asn Phe Val Thr Asn Asn Ser Asn Gly Lys

115 120 125

Asn Val Gly Ala Arg Val Tyr Met Met Ala Asp Asn Thr His Tyr Gln

130 135 140

Ile Tyr Gln Leu Leu Asn Gln Glu Phe Thr Phe Asp Val Asp Val Ser

145 150 155 160

Asn Leu Pro Cys Gly Leu Asn Gly Ala Leu Tyr Phe Val Val Met Asp

165 170 175

Ala Asp Gly Gly Val Ser Lys Tyr Pro Asn Asn Lys Ala Gly Ala Gln

180 185 190

Tyr Gly Val Gly Tyr Cys Asp Ser Gln Cys Pro Arg Asp Leu Lys Phe

195 200 205

Ile Gln Gly Gln Ala Asn Val Glu Gly Trp Gln Pro Ser Ser Asn Asn

210 215 220

Ala Asn Thr Gly Leu Gly Asn His Gly Ser Cys Cys Ala Glu Leu Asp

225 230 235 240

Val Trp Glu Ser Asn Ser Ile Ser Gln Ala Leu Thr Pro His Pro Cys

245 250 255

Asp Thr Pro Thr Asn Thr Leu Cys Thr Gly Asp Ser Cys Gly Gly Thr

260 265 270

Tyr Ser Ser Asn Arg Tyr Ala Gly Thr Cys Asp Pro Asp Gly Cys Asp

275 280 285

Phe Asn Pro Tyr Arg Leu Gly Asn Thr Thr Phe Tyr Gly Pro Gly Lys

290 295 300

Thr Ile Asp Thr Thr Lys Pro Phe Thr Val Val Thr Gln Phe Ile Thr

305 310 315 320

Asp Asp Gly Thr Ser Ser Gly Thr Leu Ser Glu Ile Arg Arg Phe Tyr

325 330 335

Val Gln Asn Gly Val Thr Tyr Ala Gln Pro Asn Ser Asp Val Ser Gly

340 345 350

Ile Ser Gly Asn Ala Ile Asn Ser Ala Tyr Cys Thr Ala Glu Asn Thr

355 360 365

Val Phe Asn Gly Ala Gly Thr Phe Ala Gln His Gly Gly Leu Ala Gly

370 375 380

Met Ser Gln Ala Met Ser Thr Gly Met Val Leu Val Met Ser Leu Trp

385 390 395 400

Asp Asp Tyr Tyr Ala Asp Met Leu Trp Leu Asp Ser Thr Tyr Pro Thr

405 410 415

Asn Asp Thr Ala Ser Thr Pro Gly Ala Val Arg Gly Thr Cys Ser Thr

420 425 430

Ser Ser Gly Val Pro Ser Gln Val Glu Ser Ala Ser Pro Asn Ala Tyr

435 440 445

Val Thr Tyr Ser Asn Ile Lys Val Gly Pro Ile Gly Ser Thr Phe Asn

450 455 460

Ser Gly Gly Ser Gly Ser Gly Ser Ser Ser Ser Thr Thr Thr Thr Thr

465 470 475 480

His Ala Ser Thr Thr Thr Thr Ser Ser Ala Ser Ser Thr Gly Thr Gly

485 490 495

Val Ala Gln His Trp Gly Gln Cys Gly Gly Gln Gly Trp Thr Gly Pro

500 505 510

Thr Thr Cys Val Ser Pro Tyr Thr Cys Gln Glu Leu Asn Pro Tyr Tyr

515 520 525

Tyr Gln Cys Leu

530

<210> 3

<211> 1623

<212> DNA

<213> Talaromyces leycettanus

<400> 3

atggccagcc tcttctcttt caagatgtac aaggccgctc tggtcctctc ctctctcctt 60

gcggccaccc aggcccagca ggccggcacc ctgaccaccg aaacccatcc ttctctgacc 120

tggcagcaat gctctgccgg cggcagctgc accactcaga acggcaaggt cgtcatcgac 180

gccaactggc gctgggttca cagcaccagc ggctcgaaca actgctacac tggcaacact 240

tgggatgcta ctctctgccc tgacgacgtg acttgcgctg ccaactgcgc cctggacggc 300

gctgactact cgggcaccta cggtgtcacc accagcggca actctctgcg cctgaacttc 360

gtcacccagg cgtcgcagaa gaacgtcggc tctcgtctct atctgatgga gaatgacaca 420

acctaccaga tcttcaagtt gctgaaccag gagttcacct ttgacgttga tgtctccaac 480

cttccctgcg gtctcaacgg tgctctctac ctggttgcca tggatgccga cggcggcatg 540

gccaagtacc caaccaacaa ggctggtgcg aagtacggaa ccggttactg cgactcccag 600

tgccctcgcg acctgaagtt catcaacggt gaggccaatg ttgagggatg gcagccttct 660

tccaatgacc ccaactctgg cattggcaac cacggctctt gctgtgctga gatggacatc 720

tgggaggcca acagcatctc caatgcagtc actcctcacc cttgcgacac cccgggacag 780

gtcatgtgca ccggcaacaa ctgtggtggc acttacagca ctactcgcta tgctggcact 840

tgcgatcctg atggctgcga cttcaacccc taccgcatgg gcaaccactc cttctacggc 900

cccaaacaga tcgtcgacac cagctccaag ttcactgttg ttactcagtt cctcaccgat 960

gatggcacct ccaccggcac cctcagcgag atcaggcgct tctacgttca gaacggccag 1020

gtcatcccca actccgtgtc cacgatcagc ggcgtctccg gcaactccat caccaccgag 1080

ttctgcacgg cccagaagca ggctttcggc gacactgatg acttcagcaa gcacggcggt 1140

ctgtctggca tgtccgccgc cctctcccag ggtatggttc tcgtcatgag cttgtgggac 1200

gaccacgccg ccaacatgct ctggcttgac agcacctacc cgaccaacgc cacctcttcc 1260

acccccggtg ccgcccgtgg tacttgcgac atctcctccg gtgtccccgc cgatgttgag 1320

tccaacgacc ccaacgccta cgtcgtctac tccaacatca aggtcggccc gatcggctct 1380

accttcagca gctctggctc tggctctagc tccagctcca gcaccaccac caccaccacc 1440

gcttccccaa ccacgaccac ctccagcgct tccagcaccg gcactggcgt tgctcagcac 1500

tggggtcagt gcggtggcca gggatggacc ggtccgacca cctgcgttag cccctacacc 1560

tgccaggagc tgaaccccta ctactaccag tgcctgtaag cggttgtccc taacggggag 1620

gac 1623

<210> 4

<211> 532

<212> PRT

<213> Talaromyces leycettanus

<400> 4

Met Ala Ser Leu Phe Ser Phe Lys Met Tyr Lys Ala Ala Leu Val Leu

1 5 10 15

Ser Ser Leu Leu Ala Ala Thr Gln Ala Gln Gln Ala Gly Thr Leu Thr

20 25 30

Thr Glu Thr His Pro Ser Leu Thr Trp Gln Gln Cys Ser Ala Gly Gly

35 40 45

Ser Cys Thr Thr Gln Asn Gly Lys Val Val Ile Asp Ala Asn Trp Arg

50 55 60

Trp Val His Ser Thr Ser Gly Ser Asn Asn Cys Tyr Thr Gly Asn Thr

65 70 75 80

Trp Asp Ala Thr Leu Cys Pro Asp Asp Val Thr Cys Ala Ala Asn Cys

85 90 95

Ala Leu Asp Gly Ala Asp Tyr Ser Gly Thr Tyr Gly Val Thr Thr Ser

100 105 110

Gly Asn Ser Leu Arg Leu Asn Phe Val Thr Gln Ala Ser Gln Lys Asn

115 120 125

Val Gly Ser Arg Leu Tyr Leu Met Glu Asn Asp Thr Thr Tyr Gln Ile

130 135 140

Phe Lys Leu Leu Asn Gln Glu Phe Thr Phe Asp Val Asp Val Ser Asn

145 150 155 160

Leu Pro Cys Gly Leu Asn Gly Ala Leu Tyr Leu Val Ala Met Asp Ala

165 170 175

Asp Gly Gly Met Ala Lys Tyr Pro Thr Asn Lys Ala Gly Ala Lys Tyr

180 185 190

Gly Thr Gly Tyr Cys Asp Ser Gln Cys Pro Arg Asp Leu Lys Phe Ile

195 200 205

Asn Gly Glu Ala Asn Val Glu Gly Trp Gln Pro Ser Ser Asn Asp Pro

210 215 220

Asn Ser Gly Ile Gly Asn His Gly Ser Cys Cys Ala Glu Met Asp Ile

225 230 235 240

Trp Glu Ala Asn Ser Ile Ser Asn Ala Val Thr Pro His Pro Cys Asp

245 250 255

Thr Pro Gly Gln Val Met Cys Thr Gly Asn Asn Cys Gly Gly Thr Tyr

260 265 270

Ser Thr Thr Arg Tyr Ala Gly Thr Cys Asp Pro Asp Gly Cys Asp Phe

275 280 285

Asn Pro Tyr Arg Met Gly Asn His Ser Phe Tyr Gly Pro Lys Gln Ile

290 295 300

Val Asp Thr Ser Ser Lys Phe Thr Val Val Thr Gln Phe Leu Thr Asp

305 310 315 320

Asp Gly Thr Ser Thr Gly Thr Leu Ser Glu Ile Arg Arg Phe Tyr Val

325 330 335

Gln Asn Gly Gln Val Ile Pro Asn Ser Val Ser Thr Ile Ser Gly Val

340 345 350

Ser Gly Asn Ser Ile Thr Thr Glu Phe Cys Thr Ala Gln Lys Gln Ala

355 360 365

Phe Gly Asp Thr Asp Asp Phe Ser Lys His Gly Gly Leu Ser Gly Met

370 375 380

Ser Ala Ala Leu Ser Gln Gly Met Val Leu Val Met Ser Leu Trp Asp

385 390 395 400

Asp His Ala Ala Asn Met Leu Trp Leu Asp Ser Thr Tyr Pro Thr Asn

405 410 415

Ala Thr Ser Ser Thr Pro Gly Ala Ala Arg Gly Thr Cys Asp Ile Ser

420 425 430

Ser Gly Val Pro Ala Asp Val Glu Ser Asn Asp Pro Asn Ala Tyr Val

435 440 445

Val Tyr Ser Asn Ile Lys Val Gly Pro Ile Gly Ser Thr Phe Ser Ser

450 455 460

Ser Gly Ser Gly Ser Ser Ser Ser Ser Ser Thr Thr Thr Thr Thr Thr

465 470 475 480

Ala Ser Pro Thr Thr Thr Thr Ser Ser Ala Ser Ser Thr Gly Thr Gly

485 490 495

Val Ala Gln His Trp Gly Gln Cys Gly Gly Gln Gly Trp Thr Gly Pro

500 505 510

Thr Thr Cys Val Ser Pro Tyr Thr Cys Gln Glu Leu Asn Pro Tyr Tyr

515 520 525

Tyr Gln Cys Leu

530

<210> 5

<211> 41

<212> DNA

<213> 人工

<220>

<223> PCR引物

<400> 5

acacaactgg ggatccacca tggccagcct cttctctttc a 41

<210> 6

<211> 36

<212> DNA

<213> 人工

<220>

<223> PCR引物

<400> 6

ccctctagat ctcgaggtcc tccccgttag ggacaa 36

<210> 7

<211> 1713

<212> DNA

<213> 烟曲霉

<400> 7

atgaagcacc ttgcatcttc catcgcattg actctactgt tgcctgccgt gcaggcccag 60

cagaccgtat ggggccaatg tatgttctgg ctgtcactgg aataagactg tatcaactgc 120

tgatatgctt ctaggtggcg gccaaggctg gtctggcccg acgagctgtg ttgccggcgc 180

agcctgtagc acactgaatc cctgtatgtt agatatcgtc ctgagtggag acttatactg 240

acttccttag actacgctca gtgtatcccg ggagccaccg cgacgtccac caccctcacg 300

acgacgacgg cggcgacgac gacatcccag accaccacca aacctaccac gactggtcca 360

actacatccg cacccaccgt gaccgcatcc ggtaaccctt tcagcggcta ccagctgtat 420

gccaacccct actactcctc cgaggtccat actctggcca tgccttctct gcccagctcg 480

ctgcagccca aggctagtgc tgttgctgaa gtgccctcat ttgtttggct gtaagtggcc 540

ttatcccaat actgagacca actctctgac agtcgtagcg acgttgccgc caaggtgccc 600

actatgggaa cctacctggc cgacattcag gccaagaaca aggccggcgc caaccctcct 660

atcgctggta tcttcgtggt ctacgacttg ccggaccgtg actgcgccgc tctggccagt 720

aatggcgagt actcaattgc caacaacggt gtggccaact acaaggcgta cattgacgcc 780

atccgtgctc agctggtgaa gtactctgac gttcacacca tcctcgtcat cggtaggccg 840

tacacctccg ttgcgcgccg cctttctctg acatcttgca gaacccgaca gcttggccaa 900

cctggtgacc aacctcaacg tcgccaaatg cgccaatgcg cagagcgcct acctggagtg 960

tgtcgactat gctctgaagc agctcaacct gcccaacgtc gccatgtacc tcgacgcagg 1020

tatgcctcac ttcccgcatt ctgtatccct tccagacact aactcatcag gccatgcggg 1080

ctggctcgga tggcccgcca acttgggccc cgccgcaaca ctcttcgcca aagtctacac 1140

cgacgcgggt tcccccgcgg ctgttcgtgg cctggccacc aacgtcgcca actacaacgc 1200

ctggtcgctc agtacctgcc cctcctacac ccagggagac cccaactgcg acgagaagaa 1260

gtacatcaac gccatggcgc ctcttctcaa ggaagccggc ttcgatgccc acttcatcat 1320

ggatacctgt aagtgcttat tccaatcgcc gatgtgtgcc gactaatcaa tgtttcagcc 1380

cggaatggcg tccagcccac gaagcaaaac gcctggggtg actggtgcaa cgtcatcggc 1440

accggcttcg gtgttcgccc ctcgactaac accggcgatc cgctccagga tgcctttgtg 1500

tggatcaagc ccggtggaga gagtgatggc acgtccaact cgacttcccc ccggtatgac 1560

gcgcactgcg gatatagtga tgctctgcag cctgctcctg aggctggtac ttggttccag 1620

gtatgtcatc cattagccag atgagggata agtgactgac ggacctaggc ctactttgag 1680

cagcttctga ccaacgctaa cccgtccttt taa 1713

<210> 8

<211> 454

<212> PRT

<213> 烟曲霉

<400> 8

Met Lys His Leu Ala Ser Ser Ile Ala Leu Thr Leu Leu Leu Pro Ala

1 5 10 15

Val Gln Ala Gln Gln Thr Val Trp Gly Gln Cys Gly Gly Gln Gly Trp

20 25 30

Ser Gly Pro Thr Ser Cys Val Ala Gly Ala Ala Cys Ser Thr Leu Asn

35 40 45

Pro Tyr Tyr Ala Gln Cys Ile Pro Gly Ala Thr Ala Thr Ser Thr Thr

50 55 60

Leu Thr Thr Thr Thr Ala Ala Thr Thr Thr Ser Gln Thr Thr Thr Lys

65 70 75 80

Pro Thr Thr Thr Gly Pro Thr Thr Ser Ala Pro Thr Val Thr Ala Ser

85 90 95

Gly Asn Pro Phe Ser Gly Tyr Gln Leu Tyr Ala Asn Pro Tyr Tyr Ser

100 105 110

Ser Glu Val His Thr Leu Ala Met Pro Ser Leu Pro Ser Ser Leu Gln

115 120 125

Pro Lys Ala Ser Ala Val Ala Glu Val Pro Ser Phe Val Trp Leu Asp

130 135 140

Val Ala Ala Lys Val Pro Thr Met Gly Thr Tyr Leu Ala Asp Ile Gln

145 150 155 160

Ala Lys Asn Lys Ala Gly Ala Asn Pro Pro Ile Ala Gly Ile Phe Val

165 170 175

Val Tyr Asp Leu Pro Asp Arg Asp Cys Ala Ala Leu Ala Ser Asn Gly

180 185 190

Glu Tyr Ser Ile Ala Asn Asn Gly Val Ala Asn Tyr Lys Ala Tyr Ile

195 200 205

Asp Ala Ile Arg Ala Gln Leu Val Lys Tyr Ser Asp Val His Thr Ile

210 215 220

Leu Val Ile Glu Pro Asp Ser Leu Ala Asn Leu Val Thr Asn Leu Asn

225 230 235 240

Val Ala Lys Cys Ala Asn Ala Gln Ser Ala Tyr Leu Glu Cys Val Asp

245 250 255

Tyr Ala Leu Lys Gln Leu Asn Leu Pro Asn Val Ala Met Tyr Leu Asp

260 265 270

Ala Gly His Ala Gly Trp Leu Gly Trp Pro Ala Asn Leu Gly Pro Ala

275 280 285

Ala Thr Leu Phe Ala Lys Val Tyr Thr Asp Ala Gly Ser Pro Ala Ala

290 295 300

Val Arg Gly Leu Ala Thr Asn Val Ala Asn Tyr Asn Ala Trp Ser Leu

305 310 315 320

Ser Thr Cys Pro Ser Tyr Thr Gln Gly Asp Pro Asn Cys Asp Glu Lys

325 330 335

Lys Tyr Ile Asn Ala Met Ala Pro Leu Leu Lys Glu Ala Gly Phe Asp

340 345 350

Ala His Phe Ile Met Asp Thr Ser Arg Asn Gly Val Gln Pro Thr Lys

355 360 365

Gln Asn Ala Trp Gly Asp Trp Cys Asn Val Ile Gly Thr Gly Phe Gly

370 375 380

Val Arg Pro Ser Thr Asn Thr Gly Asp Pro Leu Gln Asp Ala Phe Val

385 390 395 400

Trp Ile Lys Pro Gly Gly Glu Ser Asp Gly Thr Ser Asn Ser Thr Ser

405 410 415

Pro Arg Tyr Asp Ala His Cys Gly Tyr Ser Asp Ala Leu Gln Pro Ala

420 425 430

Pro Glu Ala Gly Thr Trp Phe Gln Ala Tyr Phe Glu Gln Leu Leu Thr

435 440 445

Asn Ala Asn Pro Ser Phe

450

<210> 9

<211> 835

<212> DNA

<213> Penicillium emersonii

<400> 9

atgctgtctt cgacgactcg caccctcgcc tttacaggcc ttgcgggcct tctgtccgct 60

cccctggtca aggcccatgg ctttgtccag ggcattgtca tcggtgacca attgtaagtc 120

cctctcttgc agttctgtcg attaactgct ggactgcttg cttgactccc tgctgactcc 180

caacagctac agcgggtaca tcgtcaactc gttcccctac gaatccaacc caccccccgt 240

catcggctgg gccacgaccg ccaccgacct gggcttcgtc gacggcacag gataccaagg 300

cccggacatc atctgccacc ggaatgcgac gcccgcgccg ctgacagccc ccgtggccgc 360

cggcggcacc gtcgagctgc agtggacgcc gtggccggac agccaccacg gacccgtcat 420

cacctacctg gcgccgtgca acggcaactg ctcgaccgtc gacaagacga cgctggagtt 480

cttcaagatc gaccagcagg gcctgatcga cgacacgagc ccgccgggca cctgggcgtc 540

ggacaacctc atcgccaaca acaatagctg gaccgtcacc attcccaaca gcgtcgcccc 600

cggcaactac gtcctgcgcc acgagatcat cgccctgcac tcggccaaca acaaggacgg 660

cgcccagaac tacccccagt gcatcaacat cgaggtcacg ggcggcggct ccgacgcgcc 720

tgagggtact ctgggcgagg atctctacca tgacaccgac ccgggcattc tggtcgacat 780

ttacgagccc attgcgacgt ataccattcc ggggccgcct gagccgacgt tctag 835

<210> 10

<211> 253

<212> PRT

<213> Penicillium emersonii

<400> 10

Met Leu Ser Ser Thr Thr Arg Thr Leu Ala Phe Thr Gly Leu Ala Gly

1 5 10 15

Leu Leu Ser Ala Pro Leu Val Lys Ala His Gly Phe Val Gln Gly Ile

20 25 30

Val Ile Gly Asp Gln Phe Tyr Ser Gly Tyr Ile Val Asn Ser Phe Pro

35 40 45

Tyr Glu Ser Asn Pro Pro Pro Val Ile Gly Trp Ala Thr Thr Ala Thr

50 55 60

Asp Leu Gly Phe Val Asp Gly Thr Gly Tyr Gln Gly Pro Asp Ile Ile

65 70 75 80

Cys His Arg Asn Ala Thr Pro Ala Pro Leu Thr Ala Pro Val Ala Ala

85 90 95

Gly Gly Thr Val Glu Leu Gln Trp Thr Pro Trp Pro Asp Ser His His

100 105 110

Gly Pro Val Ile Thr Tyr Leu Ala Pro Cys Asn Gly Asn Cys Ser Thr

115 120 125

Val Asp Lys Thr Thr Leu Glu Phe Phe Lys Ile Asp Gln Gln Gly Leu

130 135 140

Ile Asp Asp Thr Ser Pro Pro Gly Thr Trp Ala Ser Asp Asn Leu Ile

145 150 155 160

Ala Asn Asn Asn Ser Trp Thr Val Thr Ile Pro Asn Ser Val Ala Pro

165 170 175

Gly Asn Tyr Val Leu Arg His Glu Ile Ile Ala Leu His Ser Ala Asn

180 185 190

Asn Lys Asp Gly Ala Gln Asn Tyr Pro Gln Cys Ile Asn Ile Glu Val

195 200 205

Thr Gly Gly Gly Ser Asp Ala Pro Glu Gly Thr Leu Gly Glu Asp Leu

210 215 220

Tyr His Asp Thr Asp Pro Gly Ile Leu Val Asp Ile Tyr Glu Pro Ile

225 230 235 240

Ala Thr Tyr Thr Ile Pro Gly Pro Pro Glu Pro Thr Phe

245 250

<210> 11

<211> 1849

<212> DNA

<213> 里氏木霉(Trichoderma reesei)

<400> 11

tgccatttct gacctggata ggttttccta tggtcattcc tataagagac acgctctttc 60

gtcggcccgt agatatcaga ttggtattca gtcgcacaga cgaaggtgag ttgatcctcc 120

aacatgagtt ctatgagccc cccccttgcc cccccccgtt caccttgacc tgcaatgaga 180

atcccacctt ttacaagagc atcaagaagt attaatggcg ctgaatagcc tctgctcgat 240

aatatctccc cgtcatcgac aatgaacaag tccgtggctc cattgctgct tgcagcgtcc 300

atactatatg gcggcgccgt cgcacagcag actgtctggg gccagtgtgg aggtattggt 360

tggagcggac ctacgaattg tgctcctggc tcagcttgtt cgaccctcaa tccttattat 420

gcgcaatgta ttccgggagc cactactatc accacttcga cccggccacc atccggtcca 480

accaccacca ccagggctac ctcaacaagc tcatcaactc cacccacgag ctctggggtc 540

cgatttgccg gcgttaacat cgcgggtttt gactttggct gtaccacaga gtgagtaccc 600

ttgtttcctg gtgttgctgg ctggttgggc gggtatacag cgaagcggac gcaagaacac 660

cgccggtccg ccaccatcaa gatgtgggtg gtaagcggcg gtgttttgta caactacctg 720

acagctcact caggaaatga gaattaatgg aagtcttgtt acagtggcac ttgcgttacc 780

tcgaaggttt atcctccgtt gaagaacttc accggctcaa acaactaccc cgatggcatc 840

ggccagatgc agcacttcgt caacgaggac gggatgacta ttttccgctt acctgtcgga 900

tggcagtacc tcgtcaacaa caatttgggc ggcaatcttg attccacgag catttccaag 960

tatgatcagc ttgttcaggg gtgcctgtct ctgggcgcat actgcatcgt cgacatccac 1020

aattatgctc gatggaacgg tgggatcatt ggtcagggcg gccctactaa tgctcaattc 1080

acgagccttt ggtcgcagtt ggcatcaaag tacgcatctc agtcgagggt gtggttcggc 1140

atcatgaatg agccccacga cgtgaacatc aacacctggg ctgccacggt ccaagaggtt 1200

gtaaccgcaa tccgcaacgc tggtgctacg tcgcaattca tctctttgcc tggaaatgat 1260

tggcaatctg ctggggcttt catatccgat ggcagtgcag ccgccctgtc tcaagtcacg 1320

aacccggatg ggtcaacaac gaatctgatt tttgacgtgc acaaatactt ggactcagac 1380

aactccggta ctcacgccga atgtactaca aataacattg acggcgcctt ttctccgctt 1440

gccacttggc tccgacagaa caatcgccag gctatcctga cagaaaccgg tggtggcaac 1500

gttcagtcct gcatacaaga catgtgccag caaatccaat atctcaacca gaactcagat 1560

gtctatcttg gctatgttgg ttggggtgcc ggatcatttg atagcacgta tgtcctgacg 1620

gaaacaccga ctggcagtgg taactcatgg acggacacat ccttggtcag ctcgtgtctc 1680

gcaagaaagt agcactctga gctgaatgca gaagcctcgc caacgtttgt atctcgctat 1740

caaacatagt agctactcta tgaggctgtc tgttctcgat ttcagcttta tatagtttca 1800

tcaaacagta catattccct ctgtggccac gcaaaaaaaa aaaaaaaaa 1849

<210> 12

<211> 418

<212> PRT

<213> 里氏木霉

<400> 12

Met Asn Lys Ser Val Ala Pro Leu Leu Leu Ala Ala Ser Ile Leu Tyr

1 5 10 15

Gly Gly Ala Val Ala Gln Gln Thr Val Trp Gly Gln Cys Gly Gly Ile

20 25 30

Gly Trp Ser Gly Pro Thr Asn Cys Ala Pro Gly Ser Ala Cys Ser Thr

35 40 45

Leu Asn Pro Tyr Tyr Ala Gln Cys Ile Pro Gly Ala Thr Thr Ile Thr

50 55 60

Thr Ser Thr Arg Pro Pro Ser Gly Pro Thr Thr Thr Thr Arg Ala Thr

65 70 75 80

Ser Thr Ser Ser Ser Thr Pro Pro Thr Ser Ser Gly Val Arg Phe Ala

85 90 95

Gly Val Asn Ile Ala Gly Phe Asp Phe Gly Cys Thr Thr Asp Gly Thr

100 105 110

Cys Val Thr Ser Lys Val Tyr Pro Pro Leu Lys Asn Phe Thr Gly Ser

115 120 125

Asn Asn Tyr Pro Asp Gly Ile Gly Gln Met Gln His Phe Val Asn Glu

130 135 140

Asp Gly Met Thr Ile Phe Arg Leu Pro Val Gly Trp Gln Tyr Leu Val

145 150 155 160

Asn Asn Asn Leu Gly Gly Asn Leu Asp Ser Thr Ser Ile Ser Lys Tyr

165 170 175

Asp Gln Leu Val Gln Gly Cys Leu Ser Leu Gly Ala Tyr Cys Ile Val

180 185 190

Asp Ile His Asn Tyr Ala Arg Trp Asn Gly Gly Ile Ile Gly Gln Gly

195 200 205

Gly Pro Thr Asn Ala Gln Phe Thr Ser Leu Trp Ser Gln Leu Ala Ser

210 215 220

Lys Tyr Ala Ser Gln Ser Arg Val Trp Phe Gly Ile Met Asn Glu Pro

225 230 235 240

His Asp Val Asn Ile Asn Thr Trp Ala Ala Thr Val Gln Glu Val Val

245 250 255

Thr Ala Ile Arg Asn Ala Gly Ala Thr Ser Gln Phe Ile Ser Leu Pro

260 265 270

Gly Asn Asp Trp Gln Ser Ala Gly Ala Phe Ile Ser Asp Gly Ser Ala

275 280 285

Ala Ala Leu Ser Gln Val Thr Asn Pro Asp Gly Ser Thr Thr Asn Leu

290 295 300

Ile Phe Asp Val His Lys Tyr Leu Asp Ser Asp Asn Ser Gly Thr His

305 310 315 320

Ala Glu Cys Thr Thr Asn Asn Ile Asp Gly Ala Phe Ser Pro Leu Ala

325 330 335

Thr Trp Leu Arg Gln Asn Asn Arg Gln Ala Ile Leu Thr Glu Thr Gly

340 345 350

Gly Gly Asn Val Gln Ser Cys Ile Gln Asp Met Cys Gln Gln Ile Gln

355 360 365

Tyr Leu Asn Gln Asn Ser Asp Val Tyr Leu Gly Tyr Val Gly Trp Gly

370 375 380

Ala Gly Ser Phe Asp Ser Thr Tyr Val Leu Thr Glu Thr Pro Thr Gly

385 390 395 400

Ser Gly Asn Ser Trp Thr Asp Thr Ser Leu Val Ser Ser Cys Leu Ala

405 410 415

Arg Lys

<210> 13

<211> 1415

<212> DNA

<213> 烟曲霉

<400> 13

atggtccatc tatcttcatt ggcagcagcc ctggctgctc tgcctctgta tgtttaccca 60

ctcacgagag gaggaacagc tttgacattg ctatagtgta tatggagctg gcctgaacac 120

agcagccaaa gccaaaggac taaagtactt tggttccgcc acggacaatc cagagctcac 180

ggactctgcg tatgtcgcgc aactgagcaa caccgatgat tttggtcaaa tcacacccgg 240

aaactccatg aaggtttgct tacgtctgcc tccctggagc attgcctcaa aagctaattg 300

gttgttttgt ttggatagtg ggatgccacc gagccttctc agaattcttt ttcgttcgca 360

aatggagacg ccgtggtcaa tctggcgaac aagaatggcc agctgatgcg atgccatact 420

ctggtctggc acagtcagct accgaactgg ggtatgtaaa cgtcttgtct attctcaaat 480

actctctaac agttgacagt ctctagcggg tcatggacca atgcgaccct tttggcggcc 540

atgaagaatc atatcaccaa tgtggttact cactacaagg ggaagtgcta cgcctgggat 600

gttgtcaatg aaggtttgtt gctccatcta tcctcaatag ttcttttgaa actgacaagc 660

ctgtcaatct agccctgaac gaggacggta ctttccgtaa ctctgtcttc taccagatca 720

tcggcccagc atacattcct attgcgttcg ccacggctgc tgccgcagat cccgacgtga 780

aactctacta caacgactac aacattgaat actcaggcgc caaagcgact gctgcgcaga 840

atatcgtcaa gatgatcaag gcctacggcg cgaagatcga cggcgtcggc ctccaggcac 900

actttatcgt cggcagcact ccgagtcaat cggatctgac gaccgtcttg aagggctaca 960

ctgctctcgg cgttgaggtg gcctataccg aacttgacat ccgcatgcag ctgccctcga 1020

ccgccgcaaa gctggcccag cagtccactg acttccaagg cgtggccgca gcatgcgtta 1080

gcaccactgg ctgcgtgggt gtcactatct gggactggac cgacaagtac tcctgggtcc 1140

ccagcgtgtt ccaaggctac ggcgccccat tgccttggga tgagaactat gtgaagaagc 1200

cagcgtacga tggcctgatg gcgggtcttg gagcaagcgg ctccggcacc acaacgacca 1260

ctactactac ttctactacg acaggaggta cggaccctac tggagtcgct cagaaatggg 1320

gacagtgtgg cggtattggc tggaccgggc caacaacttg tgtcagtggt accacttgcc 1380

aaaagctgaa tgactggtac tcacagtgcc tgtaa 1415

<210> 14

<211> 397

<212> PRT

<213> 烟曲霉

<400> 14

Met Val His Leu Ser Ser Leu Ala Ala Ala Leu Ala Ala Leu Pro Leu

1 5 10 15

Val Tyr Gly Ala Gly Leu Asn Thr Ala Ala Lys Ala Lys Gly Leu Lys

20 25 30

Tyr Phe Gly Ser Ala Thr Asp Asn Pro Glu Leu Thr Asp Ser Ala Tyr

35 40 45

Val Ala Gln Leu Ser Asn Thr Asp Asp Phe Gly Gln Ile Thr Pro Gly

50 55 60

Asn Ser Met Lys Trp Asp Ala Thr Glu Pro Ser Gln Asn Ser Phe Ser

65 70 75 80

Phe Ala Asn Gly Asp Ala Val Val Asn Leu Ala Asn Lys Asn Gly Gln

85 90 95

Leu Met Arg Cys His Thr Leu Val Trp His Ser Gln Leu Pro Asn Trp

100 105 110

Val Ser Ser Gly Ser Trp Thr Asn Ala Thr Leu Leu Ala Ala Met Lys

115 120 125

Asn His Ile Thr Asn Val Val Thr His Tyr Lys Gly Lys Cys Tyr Ala

130 135 140

Trp Asp Val Val Asn Glu Ala Leu Asn Glu Asp Gly Thr Phe Arg Asn

145 150 155 160

Ser Val Phe Tyr Gln Ile Ile Gly Pro Ala Tyr Ile Pro Ile Ala Phe

165 170 175

Ala Thr Ala Ala Ala Ala Asp Pro Asp Val Lys Leu Tyr Tyr Asn Asp

180 185 190

Tyr Asn Ile Glu Tyr Ser Gly Ala Lys Ala Thr Ala Ala Gln Asn Ile

195 200 205

Val Lys Met Ile Lys Ala Tyr Gly Ala Lys Ile Asp Gly Val Gly Leu

210 215 220

Gln Ala His Phe Ile Val Gly Ser Thr Pro Ser Gln Ser Asp Leu Thr

225 230 235 240

Thr Val Leu Lys Gly Tyr Thr Ala Leu Gly Val Glu Val Ala Tyr Thr

245 250 255

Glu Leu Asp Ile Arg Met Gln Leu Pro Ser Thr Ala Ala Lys Leu Ala

260 265 270

Gln Gln Ser Thr Asp Phe Gln Gly Val Ala Ala Ala Cys Val Ser Thr

275 280 285

Thr Gly Cys Val Gly Val Thr Ile Trp Asp Trp Thr Asp Lys Tyr Ser

290 295 300

Trp Val Pro Ser Val Phe Gln Gly Tyr Gly Ala Pro Leu Pro Trp Asp

305 310 315 320

Glu Asn Tyr Val Lys Lys Pro Ala Tyr Asp Gly Leu Met Ala Gly Leu

325 330 335

Gly Ala Ser Gly Ser Gly Thr Thr Thr Thr Thr Thr Thr Thr Ser Thr

340 345 350

Thr Thr Gly Gly Thr Asp Pro Thr Gly Val Ala Gln Lys Trp Gly Gln

355 360 365

Cys Gly Gly Ile Gly Trp Thr Gly Pro Thr Thr Cys Val Ser Gly Thr

370 375 380

Thr Cys Gln Lys Leu Asn Asp Trp Tyr Ser Gln Cys Leu

385 390 395

<210> 15

<211> 3060

<212> DNA

<213> 烟曲霉

<400> 15

atgagattcg gttggctcga ggtggccgct ctgacggccg cttctgtagc caatgcccag 60

gtttgtgatg ctttcccgtc attgtttcgg atatagttga caatagtcat ggaaataatc 120

aggaattggc tttctctcca ccattctacc cttcgccttg ggctgatggc cagggagagt 180

gggcagatgc ccatcgacgc gccgtcgaga tcgtttctca gatgacactg gcggagaagg 240

ttaaccttac aacgggtact gggtgggttg cgactttttt gttgacagtg agctttcttc 300

actgaccatc tacacagatg ggaaatggac cgatgcgtcg gtcaaaccgg cagcgttccc 360

aggtaagctt gcaattctgc aacaacgtgc aagtgtagtt gctaaaacgc ggtggtgcag 420

acttggtatc aactggggtc tttgtggcca ggattcccct ttgggtatcc gtttctgtga 480

gctatacccg cggagtcttt cagtccttgt attatgtgct gatgattgtc tctgtatagc 540

tgacctcaac tccgccttcc ctgctggtac taatgtcgcc gcgacatggg acaagacact 600

cgcctacctt cgtggcaagg ccatgggtga ggaattcaac gacaagggcg tggacatttt 660

gctggggcct gctgctggtc ctctcggcaa atacccggac ggcggcagaa tctgggaagg 720

cttctctcct gatccggttc tcactggtgt acttttcgcc gaaactatca agggtatcca 780

agacgcgggt gtgattgcta ctgccaagca ttacattctg aatgaacagg agcatttccg 840

acaggttggc gaggcccagg gatatggtta caacatcacg gagacgatca gctccaacgt 900

ggatgacaag accatgcacg agttgtacct ttggtgagta gttgacactg caaatgagga 960

ccttgattga tttgactgac ctggaatgca ggccctttgc agatgctgtg cgcggtaaga 1020

ttttccgtag acttgacctc gcgacgaaga aatcgctgac gaaccatcgt agctggcgtt 1080

ggcgctgtca tgtgttccta caatcaaatc aacaacagct acggttgtca aaacagtcaa 1140

actctcaaca agctcctcaa ggctgagctg ggcttccaag gcttcgtcat gagtgactgg 1200

agcgctcacc acagcggtgt cggcgctgcc ctcgctgggt tggatatgtc gatgcctgga 1260

gacatttcct tcgacgacgg actctccttc tggggcacga acctaactgt cagtgttctt 1320

aacggcaccg ttccagcctg gcgtgtcgat gacatggctg ttcgtatcat gaccgcgtac 1380

tacaaggttg gtcgtgaccg tcttcgtatt ccccctaact tcagctcctg gacccgggat 1440

gagtacggct gggagcattc tgctgtctcc gagggagcct ggaccaaggt gaacgacttc 1500

gtcaatgtgc agcgcagtca ctctcagatc atccgtgaga ttggtgccgc tagtacagtg 1560

ctcttgaaga acacgggtgc tcttcctttg accggcaagg aggttaaagt gggtgttctc 1620

ggtgaagacg ctggttccaa cccgtggggt gctaacggct gccccgaccg cggctgtgat 1680

aacggcactc ttgctatggc ctggggtagt ggtactgcca acttccctta ccttgtcacc 1740

cccgagcagg ctatccagcg agaggtcatc agcaacggcg gcaatgtctt tgctgtgact 1800

gataacgggg ctctcagcca gatggcagat gttgcatctc aatccaggtg agtgcgggct 1860

cttagaaaaa gaacgttctc tgaatgaagt tttttaacca ttgcgaacag cgtgtctttg 1920

gtgtttgtca acgccgactc tggagagggt ttcatcagtg tcgacggcaa cgagggtgac 1980

cgcaaaaatc tcactctgtg gaagaacggc gaggccgtca ttgacactgt tgtcagccac 2040

tgcaacaaca cgattgtggt tattcacagt gttgggcccg tcttgatcga ccggtggtat 2100

gataacccca acgtcactgc catcatctgg gccggcttgc ccggtcagga gagtggcaac 2160

tccctggtcg acgtgctcta tggccgcgtc aaccccagcg ccaagacccc gttcacctgg 2220

ggcaagactc gggagtctta cggggctccc ttgctcaccg agcctaacaa tggcaatggt 2280

gctccccagg atgatttcaa cgagggcgtc ttcattgact accgtcactt tgacaagcgc 2340

aatgagaccc ccatttatga gtttggccat ggcttgagct acaccacctt tggttactct 2400

caccttcggg ttcaggccct caatagttcg agttcggcat atgtcccgac tagcggagag 2460

accaagcctg cgccaaccta tggtgagatc ggtagtgccg ccgactacct gtatcccgag 2520

ggtctcaaaa gaattaccaa gtttatttac ccttggctca actcgaccga cctcgaggat 2580

tcttctgacg acccgaacta cggctgggag gactcggagt acattcccga aggcgctagg 2640

gatgggtctc ctcaacccct cctgaaggct ggcggcgctc ctggtggtaa ccctaccctt 2700

tatcaggatc ttgttagggt gtcggccacc ataaccaaca ctggtaacgt cgccggttat 2760

gaagtccctc aattggtgag tgacccgcat gttccttgcg ttgcaatttg gctaactcgc 2820

ttctagtatg tttcactggg cggaccgaac gagcctcggg tcgttctgcg caagttcgac 2880

cgaatcttcc tggctcctgg ggagcaaaag gtttggacca cgactcttaa ccgtcgtgat 2940

ctcgccaatt gggatgtgga ggctcaggac tgggtcatca caaagtaccc caagaaagtg 3000

cacgtcggca gctcctcgcg taagctgcct ctgagagcgc ctctgccccg tgtctactag 3060

<210> 16

<211> 863

<212> PRT

<213> 烟曲霉

<400> 16

Met Arg Phe Gly Trp Leu Glu Val Ala Ala Leu Thr Ala Ala Ser Val

1 5 10 15

Ala Asn Ala Gln Glu Leu Ala Phe Ser Pro Pro Phe Tyr Pro Ser Pro

20 25 30

Trp Ala Asp Gly Gln Gly Glu Trp Ala Asp Ala His Arg Arg Ala Val

35 40 45

Glu Ile Val Ser Gln Met Thr Leu Ala Glu Lys Val Asn Leu Thr Thr

50 55 60

Gly Thr Gly Trp Glu Met Asp Arg Cys Val Gly Gln Thr Gly Ser Val

65 70 75 80

Pro Arg Leu Gly Ile Asn Trp Gly Leu Cys Gly Gln Asp Ser Pro Leu

85 90 95

Gly Ile Arg Phe Ser Asp Leu Asn Ser Ala Phe Pro Ala Gly Thr Asn

100 105 110

Val Ala Ala Thr Trp Asp Lys Thr Leu Ala Tyr Leu Arg Gly Lys Ala

115 120 125

Met Gly Glu Glu Phe Asn Asp Lys Gly Val Asp Ile Leu Leu Gly Pro

130 135 140

Ala Ala Gly Pro Leu Gly Lys Tyr Pro Asp Gly Gly Arg Ile Trp Glu

145 150 155 160

Gly Phe Ser Pro Asp Pro Val Leu Thr Gly Val Leu Phe Ala Glu Thr

165 170 175

Ile Lys Gly Ile Gln Asp Ala Gly Val Ile Ala Thr Ala Lys His Tyr

180 185 190

Ile Leu Asn Glu Gln Glu His Phe Arg Gln Val Gly Glu Ala Gln Gly

195 200 205

Tyr Gly Tyr Asn Ile Thr Glu Thr Ile Ser Ser Asn Val Asp Asp Lys

210 215 220

Thr Met His Glu Leu Tyr Leu Trp Pro Phe Ala Asp Ala Val Arg Ala

225 230 235 240

Gly Val Gly Ala Val Met Cys Ser Tyr Asn Gln Ile Asn Asn Ser Tyr

245 250 255

Gly Cys Gln Asn Ser Gln Thr Leu Asn Lys Leu Leu Lys Ala Glu Leu

260 265 270

Gly Phe Gln Gly Phe Val Met Ser Asp Trp Ser Ala His His Ser Gly

275 280 285

Val Gly Ala Ala Leu Ala Gly Leu Asp Met Ser Met Pro Gly Asp Ile

290 295 300

Ser Phe Asp Asp Gly Leu Ser Phe Trp Gly Thr Asn Leu Thr Val Ser

305 310 315 320

Val Leu Asn Gly Thr Val Pro Ala Trp Arg Val Asp Asp Met Ala Val

325 330 335

Arg Ile Met Thr Ala Tyr Tyr Lys Val Gly Arg Asp Arg Leu Arg Ile

340 345 350

Pro Pro Asn Phe Ser Ser Trp Thr Arg Asp Glu Tyr Gly Trp Glu His

355 360 365

Ser Ala Val Ser Glu Gly Ala Trp Thr Lys Val Asn Asp Phe Val Asn

370 375 380

Val Gln Arg Ser His Ser Gln Ile Ile Arg Glu Ile Gly Ala Ala Ser

385 390 395 400

Thr Val Leu Leu Lys Asn Thr Gly Ala Leu Pro Leu Thr Gly Lys Glu

405 410 415

Val Lys Val Gly Val Leu Gly Glu Asp Ala Gly Ser Asn Pro Trp Gly

420 425 430

Ala Asn Gly Cys Pro Asp Arg Gly Cys Asp Asn Gly Thr Leu Ala Met

435 440 445

Ala Trp Gly Ser Gly Thr Ala Asn Phe Pro Tyr Leu Val Thr Pro Glu

450 455 460

Gln Ala Ile Gln Arg Glu Val Ile Ser Asn Gly Gly Asn Val Phe Ala

465 470 475 480

Val Thr Asp Asn Gly Ala Leu Ser Gln Met Ala Asp Val Ala Ser Gln

485 490 495

Ser Ser Val Ser Leu Val Phe Val Asn Ala Asp Ser Gly Glu Gly Phe

500 505 510

Ile Ser Val Asp Gly Asn Glu Gly Asp Arg Lys Asn Leu Thr Leu Trp

515 520 525

Lys Asn Gly Glu Ala Val Ile Asp Thr Val Val Ser His Cys Asn Asn

530 535 540

Thr Ile Val Val Ile His Ser Val Gly Pro Val Leu Ile Asp Arg Trp

545 550 555 560

Tyr Asp Asn Pro Asn Val Thr Ala Ile Ile Trp Ala Gly Leu Pro Gly

565 570 575

Gln Glu Ser Gly Asn Ser Leu Val Asp Val Leu Tyr Gly Arg Val Asn

580 585 590

Pro Ser Ala Lys Thr Pro Phe Thr Trp Gly Lys Thr Arg Glu Ser Tyr

595 600 605

Gly Ala Pro Leu Leu Thr Glu Pro Asn Asn Gly Asn Gly Ala Pro Gln

610 615 620

Asp Asp Phe Asn Glu Gly Val Phe Ile Asp Tyr Arg His Phe Asp Lys

625 630 635 640

Arg Asn Glu Thr Pro Ile Tyr Glu Phe Gly His Gly Leu Ser Tyr Thr

645 650 655

Thr Phe Gly Tyr Ser His Leu Arg Val Gln Ala Leu Asn Ser Ser Ser

660 665 670

Ser Ala Tyr Val Pro Thr Ser Gly Glu Thr Lys Pro Ala Pro Thr Tyr

675 680 685

Gly Glu Ile Gly Ser Ala Ala Asp Tyr Leu Tyr Pro Glu Gly Leu Lys

690 695 700

Arg Ile Thr Lys Phe Ile Tyr Pro Trp Leu Asn Ser Thr Asp Leu Glu

705 710 715 720

Asp Ser Ser Asp Asp Pro Asn Tyr Gly Trp Glu Asp Ser Glu Tyr Ile

725 730 735

Pro Glu Gly Ala Arg Asp Gly Ser Pro Gln Pro Leu Leu Lys Ala Gly

740 745 750

Gly Ala Pro Gly Gly Asn Pro Thr Leu Tyr Gln Asp Leu Val Arg Val

755 760 765

Ser Ala Thr Ile Thr Asn Thr Gly Asn Val Ala Gly Tyr Glu Val Pro

770 775 780

Gln Leu Tyr Val Ser Leu Gly Gly Pro Asn Glu Pro Arg Val Val Leu

785 790 795 800

Arg Lys Phe Asp Arg Ile Phe Leu Ala Pro Gly Glu Gln Lys Val Trp

805 810 815

Thr Thr Thr Leu Asn Arg Arg Asp Leu Ala Asn Trp Asp Val Glu Ala

820 825 830

Gln Asp Trp Val Ile Thr Lys Tyr Pro Lys Lys Val His Val Gly Ser

835 840 845

Ser Ser Arg Lys Leu Pro Leu Arg Ala Pro Leu Pro Arg Val Tyr

850 855 860

<210> 17

<211> 2376

<212> DNA

<213> 烟曲霉

<400> 17

atggcggttg ccaaatctat tgctgccgtg ctggtagcac tgttgcctgg tgcgcttgct 60

caggcgaata caagctatgt tgattacaat gtggaggcga atccggatct cacccctcag 120

tcggtcgcta cgattgacct gtcctttccc gactgcgaga atggaccgct cagcaagact 180

ctcgtttgcg acacgtcggc tcggccgcat gaccgagctg ctgccctggt ttccatgttc 240

accttcgagg agctggtgaa caacacaggc aacactagcc ctggtgttcc aagacttggt 300

ctccctccgt accaagtatg gagcgaggct ctccatggac ttgaccgcgc caacttcaca 360

aacgagggag agtacagctg ggccacctcg ttccccatgc ctatcctgac aatgtcggcc 420

ttgaaccgaa ccctgatcaa ccagatcgcg accatcatcg caactcaagg acgagctttc 480

aataacgttg ggcggtatgg gctggacgtg tacgccccga atataaatgc attcagatcg 540

gctatgtggg gaagaggtca agagaccccc ggagaagacg cttactgcct ggcatcggcg 600

tatgcgtacg agtatatcac tggcatccag ggtggtgttg atccggaaca cctcaagttg 660

gtggccactg ccaaacacta tgcgggctac gatcttgaga actgggacgg tcactcccgt 720

ttgggcaacg atatgaacat tacacagcag gaactttccg aatactacac ccctcagttc 780

cttgttgcag ccagagacgc caaagtgcac agtgtcatgt gctcctacaa cgcggtaaat 840

ggggtgccca gctgcgcaaa ctcgttcttc ctccagaccc tcctccgtga cacattcggc 900

ttcgtcgagg atggttatgt atccagcgac tgcgactcgg cgtacaatgt ctggaacccg 960

cacgagtttg cggccaacat cacgggggcc gctgcagact ctatccgggc ggggacggac 1020

attgattgcg gcactactta tcaatactat ttcggcgaag cctttgacga gcaagaggtc 1080

acccgtgcag aaatcgaaag aggtgtgatc cgcctgtaca gcaacttggt gcgtctcggc 1140

tatttcgatg gcaatggaag cgtgtatcgg gacctgacgt ggaatgatgt cgtgaccacg 1200

gatgcctgga atatctcata cgaagccgct gtagaaggca ttgtcctact gaagaacgat 1260

ggaaccttgc ctctcgccaa gtcggtccgc agtgttgcat tgattgggcc ctggatgaat 1320

gtgacgactc agcttcaggg caactacttt ggaccggcgc cttatctgat tagtccgttg 1380

aatgccttcc agaattctga cttcgacgtg aactacgctt tcggcacgaa catttcatcc 1440

cactccacag atgggttttc cgaggcgttg tctgctgcga agaaatccga cgtcatcata 1500

ttcgcgggcg ggattgacaa cactttggaa gcagaagcca tggatcgcat gaatatcaca 1560

tggcccggca atcagctaca gctcatcgac cagttgagcc aactcggcaa accgctgatc 1620

gtcctccaga tgggcggcgg ccaagtcgac tcctcctcgc tcaagtccaa caagaatgtc 1680

aactccctga tctggggtgg ataccccgga caatccggcg ggcaggctct cctagacatc 1740

atcaccggca agcgcgcccc cgccggccga ctcgtggtca cgcagtaccc ggccgaatac 1800

gcaacccagt tccccgccac cgacatgagc ctgcggcctc acggcaataa tcccggccag 1860

acctacatgt ggtacaccgg cacccccgtc tacgagtttg gccacgggct cttctacacg 1920

accttccacg cctccctccc tggcaccggc aaggacaaga cctccttcaa catccaagac 1980

ctcctcacgc agccgcatcc gggcttcgca aacgtcgagc aaatgccttt gctcaacttc 2040

accgtgacga tcaccaatac cggcaaggtc gcttccgact acactgctat gctcttcgcg 2100

aacaccaccg cgggacctgc tccatacccg aacaagtggc tcgtcggctt cgaccggctg 2160

gcgagcctgg aaccgcacag gtcgcagact atgaccatcc ccgtgactat cgacagcgtg 2220

gctcgtacgg atgaggccgg caatcgggtt ctctacccgg gaaagtacga gttggccctg 2280

aacaatgagc ggtcggttgt ccttcagttt gtgctgacag gccgagaggc tgtgattttc 2340

aagtggcctg tagagcagca gcagatttcg tctgcg 2376

<210> 18

<211> 792

<212> PRT

<213> 烟曲霉

<400> 18

Met Ala Val Ala Lys Ser Ile Ala Ala Val Leu Val Ala Leu Leu Pro

1 5 10 15

Gly Ala Leu Ala Gln Ala Asn Thr Ser Tyr Val Asp Tyr Asn Val Glu

20 25 30

Ala Asn Pro Asp Leu Thr Pro Gln Ser Val Ala Thr Ile Asp Leu Ser

35 40 45

Phe Pro Asp Cys Glu Asn Gly Pro Leu Ser Lys Thr Leu Val Cys Asp

50 55 60

Thr Ser Ala Arg Pro His Asp Arg Ala Ala Ala Leu Val Ser Met Phe

65 70 75 80

Thr Phe Glu Glu Leu Val Asn Asn Thr Gly Asn Thr Ser Pro Gly Val

85 90 95

Pro Arg Leu Gly Leu Pro Pro Tyr Gln Val Trp Ser Glu Ala Leu His

100 105 110

Gly Leu Asp Arg Ala Asn Phe Thr Asn Glu Gly Glu Tyr Ser Trp Ala

115 120 125

Thr Ser Phe Pro Met Pro Ile Leu Thr Met Ser Ala Leu Asn Arg Thr

130 135 140

Leu Ile Asn Gln Ile Ala Thr Ile Ile Ala Thr Gln Gly Arg Ala Phe

145 150 155 160

Asn Asn Val Gly Arg Tyr Gly Leu Asp Val Tyr Ala Pro Asn Ile Asn

165 170 175

Ala Phe Arg Ser Ala Met Trp Gly Arg Gly Gln Glu Thr Pro Gly Glu

180 185 190

Asp Ala Tyr Cys Leu Ala Ser Ala Tyr Ala Tyr Glu Tyr Ile Thr Gly

195 200 205

Ile Gln Gly Gly Val Asp Pro Glu His Leu Lys Leu Val Ala Thr Ala

210 215 220

Lys His Tyr Ala Gly Tyr Asp Leu Glu Asn Trp Asp Gly His Ser Arg

225 230 235 240

Leu Gly Asn Asp Met Asn Ile Thr Gln Gln Glu Leu Ser Glu Tyr Tyr

245 250 255

Thr Pro Gln Phe Leu Val Ala Ala Arg Asp Ala Lys Val His Ser Val

260 265 270

Met Cys Ser Tyr Asn Ala Val Asn Gly Val Pro Ser Cys Ala Asn Ser

275 280 285

Phe Phe Leu Gln Thr Leu Leu Arg Asp Thr Phe Gly Phe Val Glu Asp

290 295 300

Gly Tyr Val Ser Ser Asp Cys Asp Ser Ala Tyr Asn Val Trp Asn Pro

305 310 315 320

His Glu Phe Ala Ala Asn Ile Thr Gly Ala Ala Ala Asp Ser Ile Arg

325 330 335

Ala Gly Thr Asp Ile Asp Cys Gly Thr Thr Tyr Gln Tyr Tyr Phe Gly

340 345 350

Glu Ala Phe Asp Glu Gln Glu Val Thr Arg Ala Glu Ile Glu Arg Gly

355 360 365

Val Ile Arg Leu Tyr Ser Asn Leu Val Arg Leu Gly Tyr Phe Asp Gly

370 375 380

Asn Gly Ser Val Tyr Arg Asp Leu Thr Trp Asn Asp Val Val Thr Thr

385 390 395 400

Asp Ala Trp Asn Ile Ser Tyr Glu Ala Ala Val Glu Gly Ile Val Leu

405 410 415

Leu Lys Asn Asp Gly Thr Leu Pro Leu Ala Lys Ser Val Arg Ser Val

420 425 430

Ala Leu Ile Gly Pro Trp Met Asn Val Thr Thr Gln Leu Gln Gly Asn

435 440 445

Tyr Phe Gly Pro Ala Pro Tyr Leu Ile Ser Pro Leu Asn Ala Phe Gln

450 455 460

Asn Ser Asp Phe Asp Val Asn Tyr Ala Phe Gly Thr Asn Ile Ser Ser

465 470 475 480

His Ser Thr Asp Gly Phe Ser Glu Ala Leu Ser Ala Ala Lys Lys Ser

485 490 495

Asp Val Ile Ile Phe Ala Gly Gly Ile Asp Asn Thr Leu Glu Ala Glu

500 505 510

Ala Met Asp Arg Met Asn Ile Thr Trp Pro Gly Asn Gln Leu Gln Leu

515 520 525

Ile Asp Gln Leu Ser Gln Leu Gly Lys Pro Leu Ile Val Leu Gln Met

530 535 540

Gly Gly Gly Gln Val Asp Ser Ser Ser Leu Lys Ser Asn Lys Asn Val

545 550 555 560

Asn Ser Leu Ile Trp Gly Gly Tyr Pro Gly Gln Ser Gly Gly Gln Ala

565 570 575

Leu Leu Asp Ile Ile Thr Gly Lys Arg Ala Pro Ala Gly Arg Leu Val

580 585 590

Val Thr Gln Tyr Pro Ala Glu Tyr Ala Thr Gln Phe Pro Ala Thr Asp

595 600 605

Met Ser Leu Arg Pro His Gly Asn Asn Pro Gly Gln Thr Tyr Met Trp

610 615 620

Tyr Thr Gly Thr Pro Val Tyr Glu Phe Gly His Gly Leu Phe Tyr Thr

625 630 635 640

Thr Phe His Ala Ser Leu Pro Gly Thr Gly Lys Asp Lys Thr Ser Phe

645 650 655

Asn Ile Gln Asp Leu Leu Thr Gln Pro His Pro Gly Phe Ala Asn Val

660 665 670

Glu Gln Met Pro Leu Leu Asn Phe Thr Val Thr Ile Thr Asn Thr Gly

675 680 685

Lys Val Ala Ser Asp Tyr Thr Ala Met Leu Phe Ala Asn Thr Thr Ala

690 695 700

Gly Pro Ala Pro Tyr Pro Asn Lys Trp Leu Val Gly Phe Asp Arg Leu

705 710 715 720

Ala Ser Leu Glu Pro His Arg Ser Gln Thr Met Thr Ile Pro Val Thr

725 730 735

Ile Asp Ser Val Ala Arg Thr Asp Glu Ala Gly Asn Arg Val Leu Tyr

740 745 750

Pro Gly Lys Tyr Glu Leu Ala Leu Asn Asn Glu Arg Ser Val Val Leu

755 760 765

Gln Phe Val Leu Thr Gly Arg Glu Ala Val Ile Phe Lys Trp Pro Val

770 775 780

Glu Gln Gln Gln Ile Ser Ser Ala

785 790

<210> 19

<211> 1599

<212> DNA

<213> 烟曲霉

<400> 19

atgctggcct ccaccttctc ctaccgcatg tacaagaccg cgctcatcct ggccgccctt 60

ctgggctctg gccaggctca gcaggtcggt acttcccagg cggaagtgca tccgtccatg 120

acctggcaga gctgcacggc tggcggcagc tgcaccacca acaacggcaa ggtggtcatc 180

gacgcgaact ggcgttgggt gcacaaagtc ggcgactaca ccaactgcta caccggcaac 240

acctgggaca cgactatctg ccctgacgat gcgacctgcg catccaactg cgcccttgag 300

ggtgccaact acgaatccac ctatggtgtg accgccagcg gcaattccct ccgcctcaac 360

ttcgtcacca ccagccagca gaagaacatt ggctcgcgtc tgtacatgat gaaggacgac 420

tcgacctacg agatgtttaa gctgctgaac caggagttca ccttcgatgt cgatgtctcc 480

aacctcccct gcggtctcaa cggtgctctg tactttgtcg ccatggacgc cgacggtggc 540

atgtccaagt acccaaccaa caaggccggt gccaagtacg gtactggata ctgtgactcg 600

cagtgccctc gcgacctcaa gttcatcaac ggtcaggcca acgtcgaagg gtggcagccc 660

tcctccaacg atgccaatgc gggtaccggc aaccacgggt cctgctgcgc ggagatggat 720

atctgggagg ccaacagcat ctccacggcc ttcacccccc atccgtgcga cacgcccggc 780

caggtgatgt gcaccggtga tgcctgcggt ggcacctaca gctccgaccg ctacggcggc 840

acctgcgacc ccgacggatg tgatttcaac tccttccgcc agggcaacaa gaccttctac 900

ggccctggca tgaccgtcga caccaagagc aagtttaccg tcgtcaccca gttcatcacc 960

gacgacggca cctccagcgg caccctcaag gagatcaagc gcttctacgt gcagaacggc 1020

aaggtgatcc ccaactcgga gtcgacctgg accggcgtca gcggcaactc catcaccacc 1080

gagtactgca ccgcccagaa gagcctgttc caggaccaga acgtcttcga aaagcacggc 1140

ggcctcgagg gcatgggtgc tgccctcgcc cagggtatgg ttctcgtcat gtccctgtgg 1200

gatgatcact cggccaacat gctctggctc gacagcaact acccgaccac tgcctcttcc 1260

accactcccg gcgtcgcccg tggtacctgc gacatctcct ccggcgtccc tgcggatgtc 1320

gaggcgaacc accccgacgc ctacgtcgtc tactccaaca tcaaggtcgg ccccatcggc 1380

tcgaccttca acagcggtgg ctcgaacccc ggtggcggaa ccaccacgac aactaccacc 1440

cagcctacta ccaccacgac cacggctgga aaccctggcg gcaccggagt cgcacagcac 1500

tatggccagt gtggtggaat cggatggacc ggacccacaa cctgtgccag cccttatacc 1560

tgccagaagc tgaatgatta ttactctcag tgcctgtag 1599

<210> 20

<211> 532

<212> PRT

<213> 烟曲霉

<400> 20

Met Leu Ala Ser Thr Phe Ser Tyr Arg Met Tyr Lys Thr Ala Leu Ile

1 5 10 15

Leu Ala Ala Leu Leu Gly Ser Gly Gln Ala Gln Gln Val Gly Thr Ser

20 25 30

Gln Ala Glu Val His Pro Ser Met Thr Trp Gln Ser Cys Thr Ala Gly

35 40 45

Gly Ser Cys Thr Thr Asn Asn Gly Lys Val Val Ile Asp Ala Asn Trp

50 55 60

Arg Trp Val His Lys Val Gly Asp Tyr Thr Asn Cys Tyr Thr Gly Asn

65 70 75 80

Thr Trp Asp Thr Thr Ile Cys Pro Asp Asp Ala Thr Cys Ala Ser Asn

85 90 95

Cys Ala Leu Glu Gly Ala Asn Tyr Glu Ser Thr Tyr Gly Val Thr Ala

100 105 110

Ser Gly Asn Ser Leu Arg Leu Asn Phe Val Thr Thr Ser Gln Gln Lys

115 120 125

Asn Ile Gly Ser Arg Leu Tyr Met Met Lys Asp Asp Ser Thr Tyr Glu

130 135 140

Met Phe Lys Leu Leu Asn Gln Glu Phe Thr Phe Asp Val Asp Val Ser

145 150 155 160

Asn Leu Pro Cys Gly Leu Asn Gly Ala Leu Tyr Phe Val Ala Met Asp

165 170 175

Ala Asp Gly Gly Met Ser Lys Tyr Pro Thr Asn Lys Ala Gly Ala Lys

180 185 190

Tyr Gly Thr Gly Tyr Cys Asp Ser Gln Cys Pro Arg Asp Leu Lys Phe

195 200 205

Ile Asn Gly Gln Ala Asn Val Glu Gly Trp Gln Pro Ser Ser Asn Asp

210 215 220

Ala Asn Ala Gly Thr Gly Asn His Gly Ser Cys Cys Ala Glu Met Asp

225 230 235 240

Ile Trp Glu Ala Asn Ser Ile Ser Thr Ala Phe Thr Pro His Pro Cys

245 250 255

Asp Thr Pro Gly Gln Val Met Cys Thr Gly Asp Ala Cys Gly Gly Thr

260 265 270

Tyr Ser Ser Asp Arg Tyr Gly Gly Thr Cys Asp Pro Asp Gly Cys Asp

275 280 285

Phe Asn Ser Phe Arg Gln Gly Asn Lys Thr Phe Tyr Gly Pro Gly Met

290 295 300

Thr Val Asp Thr Lys Ser Lys Phe Thr Val Val Thr Gln Phe Ile Thr

305 310 315 320

Asp Asp Gly Thr Ser Ser Gly Thr Leu Lys Glu Ile Lys Arg Phe Tyr

325 330 335

Val Gln Asn Gly Lys Val Ile Pro Asn Ser Glu Ser Thr Trp Thr Gly

340 345 350

Val Ser Gly Asn Ser Ile Thr Thr Glu Tyr Cys Thr Ala Gln Lys Ser

355 360 365

Leu Phe Gln Asp Gln Asn Val Phe Glu Lys His Gly Gly Leu Glu Gly

370 375 380

Met Gly Ala Ala Leu Ala Gln Gly Met Val Leu Val Met Ser Leu Trp

385 390 395 400

Asp Asp His Ser Ala Asn Met Leu Trp Leu Asp Ser Asn Tyr Pro Thr

405 410 415

Thr Ala Ser Ser Thr Thr Pro Gly Val Ala Arg Gly Thr Cys Asp Ile

420 425 430

Ser Ser Gly Val Pro Ala Asp Val Glu Ala Asn His Pro Asp Ala Tyr

435 440 445

Val Val Tyr Ser Asn Ile Lys Val Gly Pro Ile Gly Ser Thr Phe Asn

450 455 460

Ser Gly Gly Ser Asn Pro Gly Gly Gly Thr Thr Thr Thr Thr Thr Thr

465 470 475 480

Gln Pro Thr Thr Thr Thr Thr Thr Ala Gly Asn Pro Gly Gly Thr Gly

485 490 495

Val Ala Gln His Tyr Gly Gln Cys Gly Gly Ile Gly Trp Thr Gly Pro

500 505 510

Thr Thr Cys Ala Ser Pro Tyr Thr Cys Gln Lys Leu Asn Asp Tyr Tyr

515 520 525

Ser Gln Cys Leu

530

Claims

1.核酸构建体，所述核酸构建体包含编码具有纤维二糖水解酶活性的多肽的多核苷酸，其中所述多核苷酸可操作地连接于一个或多个异源调控序列，所述调控序列指导所述多肽在宿主细胞中的产生，且其中所述多肽与SEQ ID NO:2或SEQ ID NO:2的氨基酸26至532具有至少95％、至少96％、至少97％、至少98％、或至少99％序列同一性。

2.权利要求1的核酸构建体，其中所述具有纤维二糖水解酶活性的多肽包含SEQ IDNO:2或SEQ ID NO:2的氨基酸26至532或由SEQ ID NO:2或SEQ ID NO:2的氨基酸26至532组成。

3.权利要求1或2的核酸构建体，其中所述具有纤维二糖水解酶活性的多肽来自踝节菌属。

4.权利要求3的核酸构建体，其中所述具有纤维二糖水解酶活性的多肽来自Talaromyces leycettanus。

5.用权利要求1-4中任一项的核酸构建体转化的重组宿主细胞。

6.产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有益于所述多肽产生的条件下培养权利要求5的重组宿主细胞；并且

(b)回收所述多肽。

7.核酸构建体，所述核酸构建体包含编码包含具有纤维二糖水解酶活性的催化域的多肽的多核苷酸，其中所述多核苷酸可操作地连接于一个或多个异源调控序列，所述调控序列指导所述多肽在宿主细胞中的产生，且其中所述催化域与SEQ ID NO:2的氨基酸26至460具有至少95％、至少96％、至少97％、至少98％、或至少99％序列同一性。

8.权利要求7的核酸构建体，其中所述催化域包含SEQ ID NO:2的氨基酸26至460或由SEQ ID NO:2的氨基酸26至460组成。

9.权利要求7或8的核酸构建体，其中所述催化域来自踝节菌属。

10.权利要求9的核酸构建体，其中所述催化域来自Talaromyces leycettanus。

11.权利要求7-10中任一项的核酸构建体，其中所述多肽进一步包含纤维素结合域。

12.用权利要求7-11中任一项的核酸构建体转化的重组宿主细胞。

13.产生具有纤维二糖水解酶活性的多肽的方法，其包括：

(a)在有益于所述多肽产生的条件下培养权利要求12的重组宿主细胞；并且

(b)回收所述多肽。