CN103555741A

CN103555741A - 纤维素分解酶、其编码核酸及制备和使用它们的方法

Info

Publication number: CN103555741A
Application number: CN201310373730.1A
Authority: CN
Inventors: 凯文·A·格雷; 莉姗·赵; 米歇尔·卡约特
Original assignee: Diversa Corp
Current assignee: Syngenta Participations AG
Priority date: 2006-02-10
Filing date: 2006-12-08
Publication date: 2014-02-05
Also published as: MY161026A; DK2420570T3; US9175275B2; NZ571087A; CN103602692A; NZ595497A; EP2420570A1; MY160772A; US20160108386A1; EP2444487B1; MY147955A; EP1989301A2; EP1989301B1; EP1989301A4; EP2444490B1; MY160770A; US20090220480A1; EP2447363B1; DK2444487T3; MY160756A

Abstract

本发明提供具有任何纤维素分解活性例如纤维素酶活性的多肽，编码这些多肽的多核苷酸，以及制备和使用这些多核苷酸和多肽的方法。本发明涉及具有任何纤维素分解活性例如纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽，编码这些酶的多核苷酸，以及制备和使用这些多核苷酸和多肽的方法。本发明提供具有寡聚体酶活性的多肽，例如，在生物质的糖化过程中将难分解可溶性寡聚体转化为可发酵的糖类的酶。本发明的多肽可用于多个药学、农业、食物和饲料加工以及工业领域。本发明还提供包含具有本发明的至少一种酶的酶混合物的组合物或制备产品。

Description

纤维素分解酶、其编码核酸及制备和使用它们的方法

本申请是分案申请，原申请的申请日为2006年12月8日、申请号为200680054166.5(PCT/US2006/046919)、发明名称为“纤维素分解酶、其编码核酸及制备和使用它们的方法”。

政府支持

本发明是依据能源部提供的第1435-04-03-CA-70224、1435-04-04-CA-70224和DE-FC36-03GO13146号DOE合同，在美国政府的支持下进行的。美国政府在本发明中享有一定的权利。

光盘提交

以下光盘提交的内容通过引用整体结合入本文：光盘上计算机可读形式(CRF)的序列表（文件名：564462014241，记录日期：2006年12月6日，大小：1,843,200字节）；序列表的三份光盘拷贝之一（拷贝1）（文件名：564462014241，记录日期：2006年12月6日，大小：1,843,200字节）；序列表的三份光盘拷贝之一（拷贝2）（文件名：564462014241，记录日期：2006年12月6日，大小：1,843,200字节）；和序列表的三份光盘拷贝之一（拷贝3）（文件名：564462014241，记录日期：2006年12月6日，大小：1,843,200字节）。

发明领域

本发明涉及分子细胞生物学和生物化学。一方面，本发明提供具有纤维素分解活性例如纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶(mannanse)、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶（oligomerase）活性的多肽、编码这些多肽的多核苷酸以及制备和使用这些多核苷酸和多肽的方法。一方面，本发明提供具有寡聚体酶活性的多肽（例如，在生物质的糖化中将可溶性寡聚体转化为可发酵的单体糖的酶）、编码这些酶的多核苷酸以及这些多核苷酸和多肽的制备和使用。一方面，本发明提供本发明多肽的热稳定和耐热形式。本发明多肽可用于多个药学、农业和工业领域。

发明背景

纤维素是地球上最丰富的可更新资源。它由直链的β1-4葡萄糖单元和纤维二糖（具有如图5所示的结构的葡萄糖二聚体）重复单元组成。此聚合体被包括内切葡聚糖酶(EG)（随机水解所述纤维素聚合体）和纤维二糖水解酶(CBH)（从纤维素移除末端的纤维二糖残基）的一组酶降解。纤维二糖和纤维寡糖被β-葡糖苷酶(BG)水解为葡萄糖。所有这三种酶都是将纤维素完全分解为葡萄糖所必需的。对于这三种酶中的每一种，都存在执行相同功能的不同结构的变体。此外，除不同结构的变体外，已知真菌和细菌可生产多种形式的相同结构的变体。

进一步使此系统变复杂的事实是，已知一些厌氧性细菌和真菌以多酶复合体形式产生这些酶，所述多酶复合体包含均连接至分子量超过200万道尔顿的酶支架的多个酶。为什么一个如此简单的分子必须使用一个如此复杂的酶系统？一些研究人员认为这种复杂性是由于底物的难分解性。纤维素链形成微原纤，该微原纤通过相邻链的氢键连接包装成晶态基质。此结构对化学或酶学降解具有高度的抗性。

CBH由于其对纤维素的酶攻击性而被认为是降解此晶态纤维素的关键酶。与CBH不同，EG具有以垂直的角度攻击纤维素链的开放的裂缝。CBH通过包含活性位点的通道直接攻击纤维素链。目前的看法是纤维素链进入该通道，与此同时，相邻的氢键连接被断裂。一旦纤维二糖水解酶在底物上建立此“立足处”后，则EG即可进入，并且更容易攻击所述底物。

已知的CBH的主要缺陷是它们的低催化活性。一些研究组认为此低活性是因为水解的能量被转化为断裂氢键和使酶沿所述底物前进的动能。CBH是外切作用（exo-acting）酶，并发现于90个糖基水解酶家族中的6个家族。它们包括家族5、6、7、9、10和48。家族5包含许多不同类型的糖基水解酶，包括纤维素酶、甘露聚糖酶(mannanase)和木聚糖酶。虽然此家族内的大多数纤维素酶为内切葡聚糖酶，但是也有纤维二糖水解酶的实例，最显著的是来自热纤梭菌(Clostridiumthermocellum)的CelO。家族6仅包含内切葡聚糖酶或纤维二糖水解酶，并且纤维二糖水解酶成员要多于内切葡聚糖酶。这些酶具有转化机制(inverting mechanism)，并且晶体学研究暗示，该酶具有包含7个而不是8个平行β-链的扭曲的α/β桶结构。家族7的酶同样由内切葡聚糖酶和纤维二糖水解酶两种酶组成，具有更多的纤维二糖水解酶，并且仅有来自真菌的已知成员。该酶具有保留机制(retaining mechanism)，并且晶体结构显示为β-果酱卷(β-jellyroll)结构。家族9包含内切葡聚糖酶、纤维二糖水解酶和β-葡糖苷酶，并以内切葡聚糖酶占优。但是，褐色喜热裂孢菌（Thermobifida fusca）产生内切/外切-1,4-葡聚糖酶，其晶体结构显示为(α/α)₆桶折叠。该酶兼有内切和外切-葡聚糖酶CBH的性质。家族10仅包含2个纤维二糖水解酶成员，其余主要是木聚糖酶。家族10的纤维二糖水解酶和木聚糖酶具有对甲基-伞形酮(umbelliferyl)纤维二糖苷的活性。家族48主要包含细菌和厌氧性真菌的纤维二糖水解酶和内切葡聚糖酶。其结构为类似于家族9的(α/α)₆桶折叠。

需要更加廉价和可再生的道路车辆燃料来源。新的燃料来源如果在燃烧后产生无害的终产物，则其将更具吸引力。乙醇是基于石油的燃料的有吸引力的替代品，其可通过发酵衍生自淀粉或木素纤维素的单体糖而获得。但是，由于乙醇的生产成本高，目前的经济条件并不支持其广泛使用。旨在降低成本的一个研究领域是增强可用于从生物质（例如，包含木素纤维素的组合物）产生可发酵的糖的酶的技术功效。更有效地消化生物质（例如，原料）的酶的开发将转化为乙醇生产成本的降低。更有效的过程将降低美国对外国石油的依赖和可能与此依赖有关的价格波动。使用更加清洁的运输燃料（像生物乙醇）可减少CO₂净排放，而CO₂净排放被认为是造成全球变暖的部分原因。

由于生物质的复杂性，其转化为单体糖类涉及多种不同酶类的作用，如图6、7、8、62和63所示，这些图包括参与纤维素(图6、7和63)和半纤维素(图8和62)的消化的酶的示意图。生物质主要由糖类和非糖类物质组成。所述糖类可细分为纤维素（β-1,4连接的葡萄糖部分的直链聚合体）和半纤维素（由β-1,4连接的木糖主链和阿拉伯糖、半乳糖、甘露糖和葡糖醛酸支链组成的复杂支链聚合体）。有时，木糖可被乙酰化，而阿拉伯糖可包含至其他半纤维素链或木质素的阿魏酸酯或肉桂酸酯。生物质的最后一种主要成分是木质素，一种高度交联的类苯基丙烷（phenylpropanoid）结构。纤维素酶将纤维素转化为葡萄糖，并且包括：(1)断裂内部的β-1,4糖苷键而生成链更短的葡糖寡糖(glucooligosaccharide)的内切葡聚糖酶，(2)作用于较小的寡糖末端而生成纤维二糖(双糖)的纤维二糖水解酶，和(3)将可溶性寡糖(DP2至DP7)转化为葡萄糖的β-葡糖苷酶。已表明，单组分酶仅部分消化纤维素，完全转化为葡萄糖需要所有酶的协同作用。将半纤维素消化为糖单体需要更多的酶，包括木聚糖酶、木糖苷酶、阿拉伯呋喃糖苷酶、甘露聚糖酶、半乳糖苷酶和葡糖醛酸糖苷酶。也可能涉及非糖基水解酶，如乙酰木聚糖酯酶和阿魏酸酯酶。

发明概述

本发明提供具有纤维素分解活性例如纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽、编码它们的核酸以及制备和使用它们的方法。一方面，本发明酶具有提高的催化速率以促进底物(例如，纤维素)水解的过程。此催化速率的效率提高导致糖生成效率的提高，这可用于工业应用，例如，如此生成的糖可被微生物利用来生产乙醇。一方面，本发明提供高活性(例如，具有提高的催化速率)的内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶。本发明提供使用本发明酶的工业应用(例如，生物质至乙醇)，具有降低的酶成本，例如，降低的生物质至乙醇转化过程的成本。因此，本发明提供从任何生物质生产生物乙醇和包含生物乙醇的组合物（包括包含生物乙醇的燃料）的有效过程。

一方面，本发明酶，包括本发明酶“鸡尾酒”(“鸡尾酒”指包含至少一种本发明酶的酶混合物），用于水解木素纤维素生物质或包含纤维素和/或半纤维素的任何组合物(木素纤维素生物质还包含木质素)的主要成分，所述生物质或组合物例如，种子、谷粒、块茎、食物加工或工业加工中的植物废弃物或副产品(例如，茎)、玉米（包括玉米穗、玉米秸秆及类似物)、草（例如印度草，如Sorghastrum nutans；或柳枝稷(switch grass)，例如黍属如Panicum virgatum）、木材(包括木片、加工废弃物)、纸、纸浆、回收纸(例如报纸)。一方面，本发明酶用于水解包含β-1,4-连接的葡萄糖部分的直链的纤维素和/或在不同植物中为各不相同的复杂结构的半纤维素。一方面，本发明酶用于水解包含β-1,4连接的木糖分子的主链与间隔的阿拉伯糖、半乳糖、葡糖醛酸和/或甘露糖支链的半纤维素。一方面，本发明酶用于水解包含非糖组分（如木糖的乙酰基和阿拉伯糖的阿魏酸酯）的半纤维素。一方面，本发明酶用于水解共价连接至木质素和/或通过二阿魏酸酯交联偶联至其它半纤维素链的半纤维素。

一方面，本发明组合物和方法用于生物质的酶消化，并可包括使用多种不同的酶，包括纤维素酶和半纤维素酶。用于实施本发明的纤维素酶可将纤维素消化为葡萄糖。一方面，用于实施本发明的组合物可包括酶的混合物，所述酶例如木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、纤维二糖水解酶和/或阿拉伯呋喃糖苷酶或可将半纤维素消化为单体糖类的其它酶。

一方面，用于实施本发明的组合物包括“纤维素酶”，该酶是至少三种不同类型的酶的混合物：(1)断裂内部的β-1,4键而生成更短的葡糖寡糖的内切葡聚糖酶，(2)以“外切”方式作用，向前释放纤维二糖单元(β-1,4葡萄糖-葡萄糖二糖)的纤维二糖水解酶，和(3)从短的纤维寡糖(例如纤维二糖)释放葡萄糖单体的β-葡糖苷酶。

一方面，本发明酶具有葡聚糖酶（例如，内切葡聚糖酶）活性，例如，催化内部的内切-β-1,4-和/或β-1,3-葡聚糖酶键的水解。一方面，所述内切葡聚糖酶活性(例如，内切-1,4-β-D-葡聚糖4-葡聚糖水解酶（glucano hydrolase）活性)包括水解纤维素、纤维素衍生物(例如，羧甲基纤维素和羟乙基纤维素)地衣淀粉中的1,4-和/或β-1,3-β-D-糖苷键、混合的β-1,3葡聚糖（如谷物β-D-葡聚糖或木葡聚糖）和包含纤维质部分的其它植物材料中的β-1,4键。

一方面，本发明酶具有内切葡聚糖酶(例如，内切-β-1,4-葡聚糖酶，EC3.2.1.4；内切-β-1,3(1)-葡聚糖酶，EC3.2.1.6；内切-β-1,3-葡聚糖酶，EC3.2.1.39)活性，并可水解纤维素和葡聚糖中的内部β-1,4-和/或β-1,3-糖苷键以生成更小分子量的葡萄糖和葡萄糖寡聚体。本发明提供使用本发明的这些酶生成更小分子量的葡萄糖和葡萄糖寡聚体的方法。

一方面，本发明酶用于产生葡聚糖，例如，从1,4-β-和/或1,3-糖苷-连接的D-吡喃葡萄糖形成的多糖。一方面，本发明内切葡聚糖酶用于食物工业，例如，用于烘焙以及水果和蔬菜加工、分解农业废弃物、生产动物饲料、生产纸浆和纸、纺织品生产以及家用和工业清洗剂。一方面，本发明酶（例如，内切葡聚糖酶）由微生物（例如，真菌和/或细菌）产生。

一方面，本发明酶（例如，内切葡聚糖酶）用于水解beta-葡聚糖(β-葡聚糖)，该糖是谷物的主要非淀粉多糖。多糖的葡聚糖含量可因品种和生长条件而有显著差异。此多糖的物理化学性质使其在氧化条件下形成粘性溶液或甚至凝胶。此外，葡聚糖具有高度的水结合能力。所有这些特性给几种工业（包括酿造、烘焙、动物营养）带来了问题。在酿造应用中，葡聚糖的存在造成麦芽汁过滤性和浊雾形成（hazeformation）问题。在烘焙应用（特别是糕点(cookie)和脆点心(cracker)）中，葡聚糖会造成难以机器加工和减小饼干(biscuit)大小的粘性生面团。因此，本发明酶（例如，内切葡聚糖酶）用于减少包含β-葡聚糖的组合物中β-葡聚糖的量，例如，本发明酶用于降低溶液或凝胶的粘性的过程；降低组合物（例如，包含β-葡聚糖的组合物）的水结合能力；用于酿造过程(例如，增加麦芽汁过滤性和减少浊雾形成），降低生面团（例如，用于制作糕点、面包、饼干及类似产品的生面团）的粘性。

此外，糖类(例如，β-葡聚糖)参与烘焙产品的快速再水化，造成脆性损失和保存期限缩短。因此，本发明酶（例如，内切葡聚糖酶）用于保留脆性、增加脆性或降低脆性损失率，以及增加任何含糖的食物、饲料或饮料（例如，含β-葡聚糖的食物、饲料或饮料）的保存期限。

本发明酶（例如，内切葡聚糖酶）用于降低肠内容物(例如，在动物如反刍动物或人中，例如谷物膳食的动物）的粘性。因此，在可选择的方面，本发明酶（例如，内切葡聚糖酶）用于有利地影响食物或饲料的消化性和动物(例如，人或家畜）的生长速率，并在一个方面中用于提高饲料转化效率。对于谷物膳食的单胃动物的饲料应用，β-葡聚糖是促进肠内容物粘性的因素，进而不利地影响饲料的消化性和动物生长速率。对于反刍动物，这些β-葡聚糖代表主要的纤维摄入组分，更加完全的葡聚糖消化将有利于提高饲料的转化效率。因此，本发明提供包含本发明内切葡聚糖酶的动物饲料和食物，并且一方面，这些酶在动物消化道中（例如，在胃和/或肠中）具有活性。

本发明酶（例如，内切葡聚糖酶）用于消化纤维素或任何包含β-1,4-连接的葡聚糖的合成的或天然的物质（包括那些发现于任何植物材料中的物质）。本发明酶（例如，内切葡聚糖酶）用作商业用酶来消化任何来源的纤维素，所述来源包括所有生物来源，如植物生物质（例如，玉米、谷粒、草(例如，印度草如Sorghastrum nutans；或柳枝稷(switchgrass)，例如黍属如Panicum virgatum))或木材或木材加工副产品；例如，在木材加工、纸浆和/或纸工业中，在纺织品生产以及在家用和工业清洗剂中和/或在生物质废弃物加工中。

一方面，本发明提供包含本发明酶、多肽或多核苷酸的组合物（例如，药物组合物、食物、饲料、药物、膳食补剂）。这些组合物可配制成多种形式，例如，作为片剂、凝胶、丸剂、植入物、液体、喷雾剂、粉剂、食物、颗粒饲料（feed pellets）或作为任何类型的包胶形式(encapsulated form)。

本发明提供包含与本发明示例性核酸在至少约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500个或更多个残基的区域内具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的核酸序列的分离的、合成的或重组的核酸，所述示例性核酸包括SEQ ID NO：1、SEQ ID NO：3、SEQ ID NO：5、SEQ IDNO：7、SEQ ID NO：9、SEQ ID NO：11、SEQ ID NO：13、SEQ ID NO：15、SEQ ID NO：17、SEQ ID NO：19、SEQ ID NO：21、SEQ ID NO：23、SEQID NO：25、SEQ ID NO：27、SEQ ID NO：29、SEQ ID NO：31、SEQ IDNO：33、SEQ ID NO：35、SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：41、SEQ ID NO：43、SEQ ID NO：45、SEQ ID NO：47、SEQ ID NO：49、SEQID NO：51、SEQ ID NO：53、SEQ ID NO：55、SEQ ID NO：57、SEQ IDNO：59、SEQ ID NO：61、SEQ ID NO：63、SEQ ID NO：65、SEQ ID NO：67、SEQ ID NO：69、SEQ ID NO：71、SEQ ID NO：73、SEQ ID NO：75、SEQID NO：77、SEQ ID NO：79、SEQ ID NO：81、SEQ ID NO：83、SEQ IDNO：85、SEQ ID NO：87、SEQ ID NO：89、SEQ ID NO：91、SEQ ID NO：93、SEQ ID NO：95、SEQ ID NO：97、SEQ ID NO：99、SEQ ID NO：101、SEQID NO：103、SEQ ID NO：105、SEQ ID NO：107、SEQ ID NO：109、SEQID NO：111、SEQ ID NO：113、SEQ ID NO：115、SEQ ID NO：117、SEQID NO：119、SEQ ID NO：121、SEQ ID NO：123、SEQ ID NO：125、SEQID NO：127、SEQ ID NO：129、SEQ ID NO：131、SEQ ID NO：133、SEQID NO：135、SEQ ID NO：137、SEQ ID NO：139、SEQ ID NO：141、SEQID NO：143、SEQ ID NO：145、SEQ ID NO：147、SEQ ID NO：149、SEQID NO：151、SEQ ID NO：153、SEQ ID NO：155、SEQ ID NO：157、SEQID NO：159、SEQ ID NO：161、SEQ ID NO：163、SEQ ID NO：165、SEQID NO：167、SEQ ID NO：169、SEQ ID NO：171、SEQ ID NO：173、SEQID NO：175、SEQ ID NO：177、SEQ ID NO：179、SEQ ID NO：181、SEQID NO：183、SEQ ID NO：185、SEQ ID NO：187、SEQ ID NO：189、SEQID NO：191、SEQ ID NO：193、SEQ ID NO：195、SEQ ID NO：197、SEQID NO：199、SEQ ID NO：201、SEQ ID NO：203、SEQ ID NO：205、SEQID NO：207、SEQ ID NO：209、SEQ ID NO：211、SEQ ID NO：213、SEQID NO：215、SEQ ID NO：217、SEQ ID NO：219、SEQ ID NO：221、SEQID NO：223、SEQ ID NO：225、SEQ ID NO：227、SEQ ID NO：229、SEQID NO：231、SEQ ID NO：233、SEQ ID NO：235、SEQ ID NO：237、SEQID NO：239、SEQ ID NO：241、SEQ ID NO：243、SEQ ID NO：245、SEQID NO：247、SEQ ID NO：249、SEQ ID NO：251、SEQ ID NO：253、SEQID NO：255、SEQ ID NO：257、SEQ ID NO：259、SEQ ID NO：261、SEQID NO：263、SEQ ID NO：265、SEQ ID NO：267、SEQ ID NO：269、SEQID NO：271、SEQ ID NO：273、SEQ ID NO：275、SEQ ID NO：277、SEQID NO：279、SEQ ID NO：281、SEQ ID NO：283、SEQ ID NO：285、SEQID NO：287、SEQ ID NO：289、SEQ ID NO：291、SEQ ID NO：293、SEQID NO：295、SEQ ID NO：297、SEQ ID NO：299、SEQ ID NO：301、SEQID NO：303、SEQ ID NO：305、SEQ ID NO：307、SEQ ID NO：309、SEQID NO：311、SEQ ID NO：313、SEQ ID NO：315、SEQ ID NO：317、SEQID NO：319、SEQ ID NO：321、SEQ ID NO：323、SEQ ID NO：325、SEQID NO：327、SEQ ID NO：329、SEQ ID NO：331、SEQ ID NO：333、SEQID NO：335、SEQ ID NO：337、SEQ ID NO：339、SEQ ID NO：341、SEQID NO：343、SEQ ID NO：345、SEQ ID NO：347、SEQ ID NO：349、SEQID NO：351、SEQ ID NO：353、SEQ ID NO：355、SEQ ID NO：357、SEQID NO：359、SEQ ID NO：361、SEQ ID NO：363、SEQ ID NO：365、SEQID NO：367、SEQ ID NO：369、SEQ ID NO：371、SEQ ID NO：373、SEQID NO：375、SEQ ID NO：377、SEQ ID NO：379、SEQ ID NO：381、SEQID NO：383、SEQ ID NO：385、SEQ ID NO：387、SEQ ID NO：389、SEQID NO：391、SEQ ID NO：393、SEQ ID NO：395、SEQ ID NO：397、SEQID NO：399、SEQ ID NO：401、SEQ ID NO：403、SEQ ID NO：405、SEQID NO：407、SEQ ID NO：409、SEQ ID NO：411、SEQ ID NO：413、SEQID NO：415、SEQ ID NO：417、SEQ ID NO：419、SEQ ID NO：421、SEQID NO：423、SEQ ID NO：425、SEQ ID NO：427、SEQ ID NO：429、SEQID NO：431、SEQ ID NO：433、SEQ ID NO：435、SEQ ID NO：437、SEQID NO：439、SEQ ID NO：441、SEQ ID NO：443、SEQ ID NO：445、SEQID NO：447、SEQ ID NO：449、SEQ ID NO：451、SEQ ID NO：453、SEQID NO：455、SEQ ID NO：457、SEQ ID NO：459、SEQ ID NO：461、SEQID NO：463、SEQ ID NO：465、SEQ ID NO：467、SEQ ID NO：469、SEQID NO：471、SEQ ID NO：473、SEQ ID NO：475、SEQ ID NO：477、SEQID NO：479、SEQ ID NO：481、SEQ ID NO：483、SEQ ID NO：485、SEQID NO：487、SEQ ID NO：489、SEQ ID NO：491、SEQ ID NO：493、SEQID NO：495、SEQ ID NO：497、SEQ ID NO：499、SEQ ID NO：501、SEQID NO：503、SEQ ID NO：505、SEQ ID NO：507、SEQ ID NO：509、SEQID NO：511、SEQ ID NO：513、SEQ ID NO：515、SEQ ID NO：517、SEQID NO：519、SEQ ID NO：521和/或SEQ ID NO：523（另请参见下文的表1、2和3，实施例1和4，以及序列表）；在可选择的方面，这些核酸编码至少一个具有纤维素分解活性的多肽，所述纤维素分解活性例如纤维素酶活性，例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。寡聚体酶可以例如将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖，或编码能够产生可与本发明多肽特异性结合的抗体的多肽，或者，这些核酸可用作鉴定或分离编码纤维素酶的核酸的探针，或用于抑制表达纤维素酶的核酸的表达（所有这些方面均称为“本发明的核酸”)。一方面，所述序列同一性通过使用序列比较算法的分析或通过视觉检测（visualinspection）确定。

本发明核酸还包括编码本发明示例性酶的分离的、合成的或重组的核酸，所述示例性酶包括具有下述序列号的序列(以下述序列号提出的序列)的多肽：SEQ ID NO：2、SEQ ID NO：4、SEQ ID NO：6、SEQ IDNO：8、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：14、SEQ ID NO：16、SEQ ID NO：18、SEQ ID NO：20、SEQ ID NO：22、SEQ ID NO：24、SEQID NO：26、SEQ ID NO：28、SEQ ID NO：30、SEQ ID NO：32、SEQ IDNO：34、SEQ ID NO：36、SEQ ID NO：38、SEQ ID NO：40、SEQ ID NO：42、SEQ ID NO：44、SEQ ID NO：46、SEQ ID NO：48、SEQ ID NO：50、SEQID NO：52、SEQ ID NO：54、SEQ ID NO：56、SEQ ID NO：58、SEQ IDNO：60、SEQ ID NO：62、SEQ ID NO：64、SEQ ID NO：66、SEQ ID NO：68、SEQ ID NO：70、SEQ ID NO：72、SEQ ID NO：74、SEQ ID NO：76、SEQID NO：78、SEQ ID NO：80、SEQ ID NO：82、SEQ ID NO：84、SEQ IDNO：86、SEQ ID NO：88、SEQ ID NO：90、SEQ ID NO：92、SEQ ID NO：94、SEQ ID NO：96、SEQ ID NO：98、SEQ ID NO：100、SEQ ID NO：102、SEQID NO：104、SEQ ID NO：106、SEQ ID NO：108、SEQ ID NO：110、SEQID NO：112、SEQ ID NO：114、SEQ ID NO：116、SEQ ID NO：118、SEQID NO：120、SEQ ID NO：122、SEQ ID NO：124、SEQ ID NO：126、SEQID NO：128、SEQ ID NO：130、SEQ ID NO：132、SEQ ID NO：134、SEQID NO：136、SEQ ID NO：138、SEQ ID NO：140、SEQ ID NO：142、SEQID NO：143、SEQ ID NO：146、SEQ ID NO：148、SEQ ID NO：150、SEQID NO：152、SEQ ID NO：154、SEQ ID NO：156、SEQ ID NO：158、SEQID NO：160、SEQ ID NO：162、SEQ ID NO：164、SEQ ID NO：166、SEQID NO：168、SEQ ID NO：170、SEQ ID NO：172、SEQ ID NO：174、SEQID NO：176、SEQ ID NO：178、SEQ ID NO：180、SEQ ID NO：182、SEQID NO：184、SEQ ID NO：186、SEQ ID NO：188、SEQ ID NO：190、SEQID NO：192、SEQ ID NO：194、SEQ ID NO：196、SEQ ID NO：198、SEQID NO：200、SEQ ID NO：202、SEQ ID NO：204、SEQ ID NO：206、SEQID NO：209、SEQ ID NO：210、SEQ ID NO：212、SEQ ID NO：214、SEQID NO：216、SEQ ID NO：218、SEQ ID NO：220、SEQ ID NO：222、SEQID NO：224、SEQ ID NO：226、SEQ ID NO：228、SEQ ID NO：230、SEQID NO：232、SEQ ID NO：234、SEQ ID NO：236、SEQ ID NO：238、SEQID NO：240、SEQ ID NO：242、SEQ ID NO：244、SEQ ID NO：246、SEQID NO：248、SEQ ID NO：250、SEQ ID NO：252、SEQ ID NO：254、SEQID NO：256、SEQ ID NO：258、SEQ ID NO：260、SEQ ID NO：262、SEQID NO：264、SEQ ID NO：266、SEQ ID NO：268、SEQ ID NO：270、SEQID NO：272、SEQ ID NO：274、SEQ ID NO：276、SEQ ID NO：278、SEQID NO：280、SEQ ID NO：282、SEQ ID NO：284、SEQ ID NO：286、SEQID NO：288、SEQ ID NO：290、SEQ ID NO：292、SEQ ID NO：294、SEQID NO：296、SEQ ID NO：298、SEQ ID NO：300、SEQ ID NO：302、SEQID NO：304、SEQ ID NO：306、SEQ ID NO：308、SEQ ID NO：310、SEQID NO：312、SEQ ID NO：314、SEQ ID NO：316、SEQ ID NO：318、SEQID NO：320、SEQ ID NO：322、SEQ ID NO：324、SEQ ID NO：326、SEQID NO：328、SEQ ID NO：330、SEQ ID NO：332、SEQ ID NO：334、SEQID NO：336、SEQ ID NO：338、SEQ ID NO：340、SEQ ID NO：342、SEQID NO：344、SEQ ID NO：346、SEQ ID NO：348、SEQ ID NO：350、SEQID NO：352、SEQ ID NO：354、SEQ ID NO：356、SEQ ID NO：358、SEQID NO：360、SEQ ID NO：362、SEQ ID NO：364、SEQ ID NO：366、SEQID NO：368、SEQ ID NO：370、SEQ ID NO：372、SEQ ID NO：374、SEQID NO：376、SEQ ID NO：378、SEQ ID NO：380、SEQ ID NO：382、SEQID NO：384、SEQ ID NO：386、SEQ ID NO：388、SEQ ID NO：390、SEQID NO：392、SEQ ID NO：394、SEQ ID NO：396、SEQ ID NO：398、SEQID NO：400、SEQ ID NO：402、SEQ ID NO：404、SEQ ID NO：406、SEQID NO：408、SEQ ID NO：410、SEQ ID NO：412、SEQ ID NO：414、SEQID NO：416、SEQ ID NO：418、SEQ ID NO：420、SEQ ID NO：422、SEQID NO：424、SEQ ID NO：426、SEQ ID NO：428、SEQ ID NO：430、SEQID NO：432、SEQ ID NO：434、SEQ ID NO：436、SEQ ID NO：438、SEQID NO：440、SEQ ID NO：442、SEQ ID NO：444、SEQ ID NO：446、SEQID NO：448、SEQ ID NO：450、SEQ ID NO：452、SEQ ID NO：454、SEQID NO：456、SEQ ID NO：458、SEQ ID NO：460、SEQ ID NO：462、SEQID NO：464、SEQ ID NO：466、SEQ ID NO：468、SEQ ID NO：470、SEQID NO：472、SEQ ID NO：474、SEQ ID NO：476、SEQ ID NO：478、SEQID NO：480、SEQ ID NO：482、SEQ ID NO：484、SEQ ID NO：486、SEQID NO：488、SEQ ID NO：490、SEQ ID NO：492、SEQ ID NO：494、SEQID NO：496、SEQ ID NO：498、SEQ ID NO：500、SEQ ID NO：502、SEQID NO：504、SEQ ID NO：506、SEQ ID NO：508、SEQ ID NO：510、SEQID NO：512、SEQ ID NO：514、SEQ ID NO：516、SEQ ID NO：518、SEQID NO：520、SEQ ID NO：522和/或SEQ ID NO：524（另请参见下文的表1、2和3，实施例1和4，以及序列表），以及其子序列和其变体。一方面，所述多肽具有纤维素分解活性，例如纤维素酶活性，例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶，和/或寡聚体酶。寡聚体酶可以例如可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖。

一方面，本发明提供编码纤维素分解酶的核酸，例如编码内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸，这些核酸具有共同的新颖性，因为它们衍生自混合的培养物。本发明提供从混合的培养物中分离的编码纤维素或寡糖水解（降解）酶的核酸，所述核酸包含本发明多核苷酸，例如，与本发明示例性核酸在至少约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150或更多的区域内具有至少约10%、15%、20%、25%、30%、35%、40%、45%、50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列，所述示例性核酸例如SEQ ID NO：1、SEQ ID NO：3、SEQ ID NO：5、SEQ ID NO：7、SEQ ID NO：9、SEQ ID NO：11、SEQ IDNO：13、SEQ ID NO：15、SEQ ID NO：17、SEQ ID NO：19、SEQ ID NO：21、SEQ ID NO：23、SEQ ID NO：25、SEQ ID NO：27、SEQ ID NO：29、SEQID NO：31、SEQ ID NO：33、SEQ ID NO：35、SEQ ID NO：37、SEQ IDNO：39、SEQ ID NO：41、SEQ ID NO：43、SEQ ID NO：45、SEQ ID NO：47、SEQ ID NO：49、SEQ ID NO：51、SEQ ID NO：53、SEQ ID NO：55、SEQID NO：57、SEQ ID NO：59、SEQ ID NO：61、SEQ ID NO：63、SEQ IDNO：65、SEQ ID NO：67、SEQ ID NO：69、SEQ ID NO：71、SEQ ID NO：73、SEQ ID NO：75、SEQ ID NO：77、SEQ ID NO：79、SEQ ID NO：81、SEQID NO：83、SEQ ID NO：85、SEQ ID NO：87、SEQ ID NO：89、SEQ IDNO：91、SEQ ID NO：93、SEQ ID NO：95、SEQ ID NO：97、SEQ ID NO：99、SEQ ID NO：101、SEQ ID NO：103、SEQ ID NO：105、SEQ ID NO：107、SEQ ID NO：109、SEQ ID NO：111、SEQ ID NO：113、SEQ ID NO：115、SEQ ID NO：117、SEQ ID NO：119、SEQ ID NO：121、SEQ ID NO：123、SEQ ID NO：125、SEQ ID NO：127、SEQ ID NO：129、SEQ ID NO：131、SEQ ID NO：133、SEQ ID NO：135、SEQ ID NO：137、SEQ ID NO：139、SEQ ID NO：141、SEQ ID NO：143、SEQ ID NO：145、SEQ ID NO：147,SEQID NO：149、SEQ ID NO：151、SEQ ID NO：153、SEQ ID NO：155、SEQID NO：157、SEQ ID NO：159、SEQ ID NO：161、SEQ ID NO：163、SEQID NO：165、SEQ ID NO：167、SEQ ID NO：169、SEQ ID NO：171、SEQID NO：173、SEQ ID NO：175、SEQ ID NO：177、SEQ ID NO：179、SEQID NO：181、SEQ ID NO：183、SEQ ID NO：185、SEQ ID NO：187、SEQID NO：189、SEQ ID NO：191、SEQ ID NO：193、SEQ ID NO：195、SEQID NO：197、SEQ ID NO：199、SEQ ID NO：201、SEQ ID NO：203、SEQID NO：205、SEQ ID NO：207、SEQ ID NO：209、SEQ ID NO：211、SEQID NO：213、SEQ ID NO：215、SEQ ID NO：217、SEQ ID NO：219、SEQID NO：221、SEQ ID NO：223、SEQ ID NO：225、SEQ ID NO：227、SEQID NO：229、SEQ ID NO：231、SEQ ID NO：233、SEQ ID NO：235、SEQID NO：237、SEQ ID NO：239、SEQ ID NO：241、SEQ ID NO：243、SEQID NO：245、SEQ ID NO：247、SEQ ID NO：249、SEQ ID NO：251、SEQID NO：253、SEQ ID NO：255、SEQ ID NO：257、SEQ ID NO：259、SEQID NO：261、SEQ ID NO：263、SEQ ID NO：265、SEQ ID NO：267、SEQID NO：269、SEQ ID NO：271、SEQ ID NO：273、SEQ ID NO：275、SEQID NO：277、SEQ ID NO：279、SEQ ID NO：281、SEQ ID NO：283、SEQID NO：285、SEQ ID NO：287、SEQ ID NO：289、SEQ ID NO：291、SEQID NO：293、SEQ ID NO：295、SEQ ID NO：297、SEQ ID NO：299、SEQID NO：301、SEQ ID NO：303、SEQ ID NO：305、SEQ ID NO：307、SEQID NO：309、SEQ ID NO：311、SEQ ID NO：313、SEQ ID NO：315、SEQID NO：317、SEQ ID NO：319、SEQ ID NO：321、SEQ ID NO：323、SEQID NO：325、SEQ ID NO：327、SEQ ID NO：329、SEQ ID NO：331、SEQID NO：333、SEQ ID NO：335、SEQ ID NO：337、SEQ ID NO：339、SEQID NO：341、SEQ ID NO：343、SEQ ID NO：345、SEQ ID NO：347、SEQID NO：349、SEQ ID NO：351、SEQ ID NO：353、SEQ ID NO：355、SEQID NO：357、SEQ ID NO：359、SEQ ID NO：361、SEQ ID NO：363、SEQID NO：365、SEQ ID NO：367、SEQ ID NO：369、SEQ ID NO：371、SEQID NO：373、SEQ ID NO：375、SEQ ID NO：377、SEQ ID NO：379、SEQID NO：381、SEQ ID NO：383、SEQ ID NO：385、SEQ ID NO：387、SEQID NO：389、SEQ ID NO：391、SEQ ID NO：393、SEQ ID NO：395、SEQID NO：397、SEQ ID NO：399、SEQ ID NO：401、SEQ ID NO：403、SEQID NO：405、SEQ ID NO：407、SEQ ID NO：409、SEQ ID NO：411、SEQID NO：413、SEQ ID NO：415、SEQ ID NO：417、SEQ ID NO：419、SEQID NO：421、SEQ ID NO：423、SEQ ID NO：425、SEQ ID NO：427、SEQID NO：429、SEQ ID NO：431、SEQ ID NO：433、SEQ ID NO：435、SEQID NO：437、SEQ ID NO：439、SEQ ID NO：441、SEQ ID NO：443、SEQID NO：445、SEQ ID NO：447、SEQ ID NO：449、SEQ ID NO：451、SEQID NO：453、SEQ ID NO：455、SEQ ID NO：457、SEQ ID NO：459、SEQID NO：461、SEQ ID NO：463、SEQ ID NO：465、SEQ ID NO：467、SEQID NO：469、SEQ ID NO：471、SEQ ID NO：473、SEQ ID NO：475、SEQID NO：477、SEQ ID NO：479、SEQ ID NO：481、SEQ ID NO：483、SEQID NO：485、SEQ ID NO：487、SEQ ID NO：489、SEQ ID NO：491、SEQID NO：493、SEQ ID NO：495、SEQ ID NO：497、SEQ ID NO：499、SEQID NO：501、SEQ ID NO：503、SEQ ID NO：505、SEQ ID NO：507、SEQID NO：509、SEQ ID NO：511、SEQ ID NO：513、SEQ ID NO：515、SEQID NO：517、SEQ ID NO：519、SEQ ID NO：521和/或SEQ ID NO：523（参见下文的表1、2和3，实施例1和4，以及序列表）。

一方面，本发明提供编码纤维素分解酶的核酸，例如编码内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸，其包括本发明的示例性多核苷酸序列（另请参见下文的表1、2和3，实施例1和4，以及序列表），并提供了由这些核酸编码的多肽，包括本发明的酶，例如本发明示例性多肽，例如SEQ ID NO：2、SEQ IDNO：4、SEQ ID NO：6、SEQ ID NO：8、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：14、SEQ ID NO：16、SEQ ID NO：18、SEQ ID NO：20、SEQID NO：22、SEQ ID NO：24、SEQ ID NO：26、SEQ ID NO：28、SEQ IDNO：30、SEQ ID NO：32、SEQ ID NO：34、SEQ ID NO：36、SEQ ID NO：38、SEQ ID NO：40、SEQ ID NO：42、SEQ ID NO：44、SEQ ID NO：46、SEQID NO：48、SEQ ID NO：50、SEQ ID NO：52、SEQ ID NO：54、SEQ IDNO：56、SEQ ID NO：58、SEQ ID NO：60、SEQ ID NO：62、SEQ ID NO：64、SEQ ID NO：66、SEQ ID NO：68、SEQ ID NO：70、SEQ ID NO：72、SEQID NO：74、SEQ ID NO：76、SEQ ID NO：78、SEQ ID NO：80、SEQ IDNO：82、SEQ ID NO：84、SEQ ID NO：86、SEQ ID NO：88、SEQ ID NO：90、SEQ ID NO：92、SEQ ID NO：94、SEQ ID NO：96、SEQ ID NO：98、SEQID NO：100、SEQ ID NO：102、SEQ ID NO：104、SEQ ID NO：106、SEQID NO：108、SEQ ID NO：110、SEQ ID NO：112、SEQ ID NO：114、SEQID NO：116、SEQ ID NO：118、SEQ ID NO：120、SEQ ID NO：122、SEQID NO：124、SEQ ID NO：126、SEQ ID NO：128、SEQ ID NO：130、SEQID NO：132、SEQ ID NO：134、SEQ ID NO：136、SEQ ID NO：138、SEQID NO：140、SEQ ID NO：142、SEQ ID NO：143、SEQ ID NO：146、SEQID NO：148、SEQ ID NO：150、SEQ ID NO：152、SEQ ID NO：154、SEQID NO：156、SEQ ID NO：158、SEQ ID NO：160、SEQ ID NO：162、SEQID NO：164、SEQ ID NO：166、SEQ ID NO：168、SEQ ID NO：170、SEQID NO：172、SEQ ID NO：174、SEQ ID NO：176、SEQ ID NO：178、SEQID NO：180、SEQ ID NO：182、SEQ ID NO：184、SEQ ID NO：186、SEQID NO：188、SEQ ID NO：190、SEQ ID NO：192、SEQ ID NO：194、SEQID NO：196、SEQ ID NO：198、SEQ ID NO：200、SEQ ID NO：202、SEQID NO：204、SEQ ID NO：206、SEQ ID NO：209、SEQ ID NO：210、SEQID NO：212、SEQ ID NO：214、SEQ ID NO：216、SEQ ID NO：218、SEQID NO：220、SEQ ID NO：222、SEQ ID NO：224、SEQ ID NO：226、SEQID NO：228、SEQ ID NO：230、SEQ ID NO：232、SEQ ID NO：234、SEQID NO：236、SEQ ID NO：238、SEQ ID NO：240、SEQ ID NO：242、SEQID NO：244、SEQ ID NO：246、SEQ ID NO：248、SEQ ID NO：250、SEQID NO：252、SEQ ID NO：254、SEQ ID NO：256、SEQ ID NO：258、SEQID NO：260、SEQ ID NO：262、SEQ ID NO：264、SEQ ID NO：266、SEQID NO：268、SEQ ID NO：270、SEQ ID NO：272、SEQ ID NO：274、SEQID NO：276、SEQ ID NO：278、SEQ ID NO：280、SEQ ID NO：282、SEQID NO：284、SEQ ID NO：286、SEQ ID NO：288、SEQ ID NO：290、SEQID NO：292、SEQ ID NO：294、SEQ ID NO：296、SEQ ID NO：298、SEQID NO：300、SEQ ID NO：302、SEQ ID NO：304、SEQ ID NO：306、SEQID NO：308、SEQ ID NO：310、SEQ ID NO：312、SEQ ID NO：314、SEQID NO：316、SEQ ID NO：318、SEQ ID NO：320、SEQ ID NO：322、SEQID NO：324、SEQ ID NO：326、SEQ ID NO：328、SEQ ID NO：330、SEQID NO：332、SEQ ID NO：334、SEQ ID NO：336、SEQ ID NO：338、SEQID NO：340、SEQ ID NO：342、SEQ ID NO：344、SEQ ID NO：346、SEQID NO：348、SEQ ID NO：350、SEQ ID NO：352、SEQ ID NO：354、SEQID NO：356、SEQ ID NO：358、SEQ ID NO：360、SEQ ID NO：362、SEQID NO：364、SEQ ID NO：366、SEQ ID NO：368、SEQ ID NO：370、SEQID NO：372、SEQ ID NO：374、SEQ ID NO：376、SEQ ID NO：378、SEQID NO：380、SEQ ID NO：382、SEQ ID NO：384、SEQ ID NO：386、SEQID NO：388、SEQ ID NO：390、SEQ ID NO：392、SEQ ID NO：394、SEQID NO：396、SEQ ID NO：398、SEQ ID NO：400、SEQ ID NO：402、SEQID NO：404、SEQ ID NO：406、SEQ ID NO：408、SEQ ID NO：410、SEQID NO：412、SEQ ID NO：414、SEQ ID NO：416、SEQ ID NO：418、SEQID NO：420、SEQ ID NO：422、SEQ ID NO：424、SEQ ID NO：426、SEQID NO：428、SEQ ID NO：430、SEQ ID NO：432、SEQ ID NO：434、SEQID NO：436、SEQ ID NO：438、SEQ ID NO：440、SEQ ID NO：442、SEQID NO：444、SEQ ID NO：446、SEQ ID NO：448、SEQ ID NO：450、SEQID NO：452、SEQ ID NO：454、SEQ ID NO：456、SEQ ID NO：458、SEQID NO：460、SEQ ID NO：462、SEQ ID NO：464、SEQ ID NO：466、SEQID NO：468、SEQ ID NO：470、SEQ ID NO：472、SEQ ID NO：474、SEQID NO：476、SEQ ID NO：478、SEQ ID NO：480、SEQ ID NO：482、SEQID NO：484、SEQ ID NO：486、SEQ ID NO：488、SEQ ID NO：490、SEQID NO：492、SEQ ID NO：494、SEQ ID NO：496、SEQ ID NO：498、SEQID NO：500、SEQ ID NO：502、SEQ ID NO：504、SEQ ID NO：506、SEQID NO：508、SEQ ID NO：510、SEQ ID NO：512、SEQ ID NO：514、SEQID NO：516、SEQ ID NO：518、SEQ ID NO：520、SEQ ID NO：522和/或SEQ ID NO：524（另请参见表1和序列表），它们具有共同的新颖性，因为它们衍生自同一来源，例如环境来源。下文的表3指示本发明各种酶的来源。一方面，本发明还提供编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸，这些核酸具有共同的新颖性，因为它们衍生自环境来源，例如混合的环境来源。

一方面，所述序列比较算法为BLAST2.2.2版算法，其中过滤设置设为blastall-p blastp-d"nr pataa"-F F，且所有其他选项均设为默认。

本发明的另一方面为包括本发明核酸序列、与其大致相同的序列和与其互补的序列的至少10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550、1600、1650、1700、1750、1800、1850、1900、1950、2000、2050、2100、2200、2250、2300、2350、2400、2450、2500或更多个连续碱基的分离的、合成的或重组的核酸。

一方面，本发明分离的、合成的或重组的核酸编码具有纤维素分解活性或寡聚体酶活性的热稳定的多肽，所述纤维素分解活性例如纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的活性，所述寡聚体酶活性例如可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖。所述多肽可在包括温度范围约37℃至约95℃、约55℃至约85℃、约70℃至约95℃或约90℃至约95℃的条件下保留纤维素酶或寡聚体酶活性。所述多肽可在约1℃至约5℃、约5℃至约15℃、约15℃至约25℃、约25℃至约37℃、约37℃至约95℃、96℃、97℃、98℃或99℃、约55℃至约85℃、约70℃至约75℃、或约90℃至约99℃范围内的温度下或在95℃、96℃、97℃、98℃或99℃或更高温度下保留纤维素酶或寡聚体酶活性。

另一方面，所述分离的、合成的或重组的核酸编码具有纤维素分解活性的耐热多肽，所述纤维素分解活性例如纤维素酶活性，例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，例如可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖。所述多肽可在暴露于从高于37℃至约95℃范围内的温度或从高于55℃至约85℃范围内的任何温度之后保留纤维素酶或寡聚体酶活性。所述多肽可在暴露于范围约1℃至约5℃、约5℃至约15℃、约15℃至约25℃、约25℃至约37℃、约37℃至约95℃、96℃、97℃、98℃或99℃、约55℃至约85℃、约70℃至约75℃或约90℃至约95℃、或更高的温度之后保留纤维素酶或寡聚体酶活性。一方面，在约pH4.5或更酸性的条件下，所述多肽在暴露于从高于90℃至约99℃范围内的温度或95℃、96℃、97℃、98℃或99℃的温度之后保留纤维素酶或寡聚体酶活性。

本发明提供包含在严格条件下与本发明核酸杂交的序列的分离的、合成的或重组的核酸，本发明核酸包括本发明的示例性序列，例如SEQ ID NO：1、SEQ ID NO：3、SEQ ID NO：5、SEQ ID NO：7、SEQ IDNO：9、SEQ ID NO：11、SEQ ID NO：13、SEQ ID NO：15、SEQ ID NO：17、SEQ ID NO：19、SEQ ID NO：21、SEQ ID NO：23、SEQ ID NO：25、SEQID NO：27、SEQ ID NO：29、SEQ ID NO：31、SEQ ID NO：33、SEQ IDNO：35、SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：41、SEQ ID NO：43、SEQ ID NO：45、SEQ ID NO：47、SEQ ID NO：49、SEQ ID NO：51、SEQID NO：53、SEQ ID NO：55、SEQ ID NO：57、SEQ ID NO：59、SEQ IDNO：61、SEQ ID NO：63、SEQ ID NO：65、SEQ ID NO：67、SEQ ID NO：69、SEQ ID NO：71、SEQ ID NO：73、SEQ ID NO：75、SEQ ID NO：77、SEQID NO：79、SEQ ID NO：81、SEQ ID NO：83、SEQ ID NO：85、SEQ IDNO：87、SEQ ID NO：89、SEQ ID NO：91、SEQ ID NO：93、SEQ ID NO：95、SEQ ID NO：97、SEQ ID NO：99、SEQ ID NO：101、SEQ ID NO：103、SEQID NO：105、SEQ ID NO：107、SEQ ID NO：109、SEQ ID NO：111、SEQID NO：113、SEQ ID NO：115、SEQ ID NO：117、SEQ ID NO：119、SEQID NO：121、SEQ ID NO：123、SEQ ID NO：125、SEQ ID NO：127、SEQID NO：129、SEQ ID NO：131、SEQ ID NO：133、SEQ ID NO：135、SEQID NO：137、SEQ ID NO：139、SEQ ID NO：141、SEQ ID NO：143、SEQID NO：145、SEQ ID NO：147、SEQ ID NO：149、SEQ ID NO：151、SEQID NO：153、SEQ ID NO：155、SEQ ID NO：157、SEQ ID NO：159、SEQID NO：161、SEQ ID NO：163、SEQ ID NO：165、SEQ ID NO：167、SEQID NO：169、SEQ ID NO：171、SEQ ID NO：173、SEQ ID NO：175、SEQID NO：177、SEQ ID NO：179、SEQ ID NO：181、SEQ ID NO：183、SEQID NO：185、SEQ ID NO：187、SEQ ID NO：189、SEQ ID NO：191、SEQID NO：193、SEQ ID NO：195、SEQ ID NO：197、SEQ ID NO：199、SEQID NO：201、SEQ ID NO：203、SEQ ID NO：205、SEQ ID NO：207、SEQID NO：209、SEQ ID NO：211、SEQ ID NO：213、SEQ ID NO：215、SEQID NO：217、SEQ ID NO：219、SEQ ID NO：221、SEQ ID NO：223、SEQID NO：225、SEQ ID NO：227、SEQ ID NO：229、SEQ ID NO：231、SEQID NO：233、SEQ ID NO：235、SEQ ID NO：237、SEQ ID NO：239、SEQID NO：241、SEQ ID NO：243、SEQ ID NO：245、SEQ ID NO：247、SEQID NO：249、SEQ ID NO：251、SEQ ID NO：253、SEQ ID NO：255、SEQID NO：257、SEQ ID NO：259、SEQ ID NO：261、SEQ ID NO：263、SEQID NO：265、SEQ ID NO：267、SEQ ID NO：269、SEQ ID NO：271、SEQID NO：273、SEQ ID NO：275、SEQ ID NO：277、SEQ ID NO：279、SEQID NO：281、SEQ ID NO：283、SEQ ID NO：285、SEQ ID NO：2S7、SEQID NO：289、SEQ ID NO：291、SEQ ID NO：293、SEQ ID NO：295、SEQID NO：297、SEQ ID NO：299、SEQ ID NO：301、SEQ ID NO：303、SEQID NO：305、SEQ ID NO：307、SEQ ID NO：309、SEQ ID NO：311、SEQID NO：313、SEQ ID NO：315、SEQ ID NO：317、SEQ ID NO：319、SEQID NO：321、SEQ ID NO：323、SEQ ID NO：325、SEQ ID NO：327、SEQID NO：329、SEQ ID NO：331、SEQ ID NO：333、SEQ ID NO：335、SEQID NO：337、SEQ ID NO：339、SEQ ID NO：341、SEQ ID NO：343、SEQID NO：345、SEQ ID NO：347、SEQ ID NO：349、SEQ ID NO：351、SEQID NO：353、SEQ ID NO：355、SEQ ID NO：357、SEQ ID NO：359、SEQID NO：361、SEQ ID NO：363、SEQ ID NO：365、SEQ ID NO：367、SEQID NO：369、SEQ ID NO：371、SEQ ID NO：373、SEQ ID NO：375、SEQID NO：377、SEQ ID NO：379、SEQ ID NO：381、SEQ ID NO：383、SEQID NO：385、SEQ ID NO：387、SEQ ID NO：389、SEQ ID NO：391、SEQID NO：393、SEQ ID NO：395、SEQ ID NO：397、SEQ ID NO：399、SEQID NO：401、SEQ ID NO：403、SEQ ID NO：405、SEQ ID NO：407、SEQID NO：409、SEQ ID NO：411、SEQ ID NO：413、SEQ ID NO：415、SEQID NO：417、SEQ ID NO：419、SEQ ID NO：421、SEQ ID NO：423、SEQID NO：425、SEQ ID NO：427、SEQ ID NO：429、SEQ ID NO：431、SEQID NO：433、SEQ ID NO：435、SEQ ID NO：437、SEQ ID NO：439、SEQID NO：441、SEQ ID NO：443、SEQ ID NO：445、SEQ ID NO：447、SEQID NO：449、SEQ ID NO：451、SEQ ID NO：453、SEQ ID NO：455、SEQID NO：457、SEQ ID NO：459、SEQ ID NO：461、SEQ ID NO：463、SEQID NO：465、SEQ ID NO：467、SEQ ID NO：469、SEQ ID NO：471、SEQID NO：473、SEQ ID NO：475、SEQ ID NO：477、SEQ ID NO：479、SEQID NO：481、SEQ ID NO：483、SEQ ID NO：485、SEQ ID NO：487、SEQID NO：489、SEQ ID NO：491、SEQ ID NO：493、SEQ ID NO：495、SEQID NO：497、SEQ ID NO：499、SEQ ID NO：501、SEQ ID NO：503、SEQID NO：505、SEQ ID NO：507、SEQ ID NO：509、SEQ ID NO：511、SEQID NO：513、SEQ ID NO：515、SEQ ID NO：517、SEQ ID NO：519、SEQID NO：521和/或SEQ ID NO：523序列(另请参见下文的表1、2和3，实施例1和4)，或者其片段或子序列。一方面，所述核酸编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，或可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖的多肽。所述核酸可为至少约10、15、20、25、30、35、40、45、50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200个或更多个残基长，或是所述基因或转录物的全长。一方面，所述严格条件包括漂洗步骤，该漂洗步骤包括在约65℃温度下用0.2X SSC漂洗约15分钟。

本发明提供用于鉴定或分离编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，或可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖的多肽的核酸的核酸探针，其中所述探针包含：包含本发明序列、或者其片段或子序列的序列的至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000个或更多个连续碱基，其中所述探针通过结合或杂交鉴定所述核酸。所述探针可包含：包含本发明序列、或者其片段或子序列的序列的至少约10至50、约20至60、约30至70、约40至80或约60至100个连续碱基的寡核苷酸。

本发明提供用于鉴定或分离编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，或可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖的的多肽的核酸的核酸探针，其中所述探针包含：包含本发明核酸的至少约10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000个或更多个残基的序列的核酸，例如与本发明示例性核酸具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的多核苷酸。一方面，所述序列同一性通过使用序列比较算法的分析或通过视觉检测确定。在可选择的方面，所述探针可包含：包含本发明核酸序列或其子序列的至少约10至50、约20至60、约30至70、约40至80或约60至100个连续碱基的寡核苷酸。

本发明提供用于扩增(例如，通过PCR)编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，或可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖的多肽的核酸的扩增引物对，其中所述引物对能够扩增包含本发明序列、或者其片段或子序列的核酸。所述扩增引物序列对的一个或每个成员可包含：包含所述序列的至少约10至50或更多个连续碱基，或所述序列的约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36个或更多个连续碱基的寡核苷酸。本发明提供扩增引物对，其中所述引物对包含：具有由本发明核酸的大约前(5′)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36个或更多个残基确定的序列的第一成员，和具有由所述第一成员的互补链的大约前(5′)12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36个或更多个残基确定的序列的第二成员。

本发明提供通过使用本发明扩增引物对扩增（例如，聚合酶链式反应(PCR)）产生的编码纤维素酶例如编码内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸。本发明提供通过使用本发明扩增引物对扩增（例如，聚合酶链式反应(PCR)）产生的编码纤维素酶例如编码内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸。本发明提供通过使用本发明扩增引物对扩增（例如，聚合酶链式反应(PCR)）制备纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶）和/或寡聚体酶的方法。一方面，所述扩增引物对扩增文库核酸，所述文库例如基因文库，如环境文库。

本发明提供扩增编码具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶，或可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖的多肽的核酸的方法，所述方法包括使用能够扩增本发明核酸序列、或其片段或子序列的扩增引物序列对扩增模板核酸。

本发明提供包含本发明核酸或其子序列的表达盒。一方面，所述表达盒可包含可操作地连接至(operably linked to)启动子的核酸。所述启动子可以是病毒、细菌、哺乳动物或植物的启动子。一方面，所述植物启动子可以是马铃薯、水稻、玉米、小麦、烟草或大麦的启动子。所述启动子可以是组成型启动子。所述组成型启动子可包含CaMV35S。另一方面，所述启动子可以是诱导型启动子。一方面，所述启动子可以是组织特异性启动子或环境调控的或发育调控的启动子。因此，所述启动子可以是，例如，种子特异性、叶特异性、根特异性、茎特异性或脱落诱导的启动子。一方面，所述表达盒可进一步包含植物或植物病毒表达载体。

本发明提供包含本发明表达盒（例如，载体）或本发明核酸的克隆载体(vehicle)。所述克隆载体可以是病毒载体、质粒、噬菌体（phage）、噬菌粒、黏粒、F黏粒、细菌噬菌体（bacteriophage）或人工染色体。所述病毒载体可包含腺病毒载体、逆转录病毒载体或腺伴随病毒载体。所述克隆载体可包含细菌人工染色体(BAC)、质粒、细菌噬菌体P1衍生载体(PAC)、酵母人工染色体(YAC)或哺乳动物人工染色体(MAC)。

本发明提供包含本发明核酸或本发明表达盒（例如，载体）或本发明克隆载体的转化细胞。一方面，所述转化细胞可以是细菌细胞、哺乳动物细胞、真菌细胞、酵母细胞、昆虫细胞或植物细胞。一方面，所述植物细胞可以是大豆、油菜籽、含油种子(oilseed)、番茄、蔗糖(canesugar)、谷物、马铃薯、小麦、水稻、玉米、烟草或大麦细胞。

本发明提供包含本发明核酸或本发明表达盒（例如，载体）的转基因非人动物。一方面，所述动物是小鼠、大鼠、猪、山羊或绵羊。

本发明提供包含本发明核酸或本发明表达盒（例如，载体）的转基因植物。所述转基因植物可以是谷物植物、玉米植物、马铃薯植物、番茄植物、小麦植物、含油种子植物、油菜植物、大豆植物、水稻植物、大麦植物或烟草植物。

本发明提供包含本发明核酸或本发明表达盒（例如，载体）的转基因种子。所述转基因种子可以是谷物植物、玉米种子、小麦仁(kernel)、含油种子、油菜籽、大豆种子、棕榈仁(kernel)、葵花籽、芝麻种子、花生或烟草植物种子。

本发明提供包含与本发明核酸互补或能够在严格条件与本发明核酸杂交的核酸序列的反义寡核苷酸。本发明提供抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶信息在细胞中翻译的方法，该方法包括向所述细胞施用或在所述细胞中表达包含与本发明核酸互补或能够在严格条件与本发明核酸杂交的核酸序列的反义寡核苷酸。一方面，所述反义寡核苷酸的长度为约10至50、约20至60、约30至70、约40至80或约60至100个碱基，例如，长度为10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100个或更多个碱基。本发明提供抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶信息在细胞中翻译的方法，该方法包括向所述细胞施用或在所述细胞中表达包含与本发明核酸互补或能够在严格条件与本发明核酸杂交的核酸序列的反义寡核苷酸。

本发明提供包含本发明序列的子序列的双链抑制性RNA（RNAi，即RNA干扰）分子(包括用于抑制转录的小干扰RNA即siRNA，和用于抑制翻译的微RNA即miRNA）。一方面，所述siRNA长度为约21至24个残基，或约至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、40、45、50、55、60、65、70、75、80、85、90、95、100个或更多个双链体核苷酸。本发明提供抑制细胞中纤维素酶（例如，内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶）表达和/或寡聚体酶活性（例如，可将可溶性纤维寡糖和阿拉伯木聚糖寡聚体水解（降解）为单体木糖、阿拉伯糖和葡萄糖）的方法，该方法包括向所述细胞施用或在所述细胞中表达双链抑制性RNA(siRNA或miRNA)，其中所述RNA包含本发明序列的子序列。

本发明提供包含与本发明示例性多肽或肽在至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、225、250、275、300、325、350或更多残基的区域内或在全长多肽内具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的氨基酸序列的分离的、合成的或重组的多肽。一方面，所述序列同一性通过使用序列比较算法的分析或通过视觉检测确定。本发明示例性多肽或肽序列包括SEQ IDNO：2、SEQ ID NO：4、SEQ ID NO：6、SEQ ID NO：8、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：14、SEQ ID NO：16、SEQ ID NO：18、SEQID NO：20、SEQ ID NO：22、SEQ ID NO：24、SEQ ID NO：26、SEQ IDNO：28、SEQ ID NO：30、SEQ ID NO：32、SEQ ID NO：34、SEQ ID NO：36、SEQ ID NO：38、SEQ ID NO：40、SEQ ID NO：42、SEQ ID NO：44、SEQID NO：46、SEQ ID NO：48、SEQ ID NO：50、SEQ ID NO：52、SEQ IDNO：54、SEQ ID NO：56、SEQ ID NO：58、SEQ ID NO：60、SEQ ID NO：62、SEQ ID NO：64、SEQ ID NO：66、SEQ ID NO：68、SEQ ID NO：70、SEQID NO：72、SEQ ID NO：74、SEQ ID NO：76、SEQ ID NO：78、SEQ IDNO：80、SEQ ID NO：82、SEQ ID NO：84、SEQ ID NO：86、SEQ ID NO：88、SEQ ID NO：90、SEQ ID NO：92、SEQ ID NO：94、SEQ ID NO：96、SEQID NO：98、SEQ ID NO：100、SEQ ID NO：102、SEQ ID NO：104、SEQ IDNO：106、SEQ ID NO：108、SEQ ID NO：110、SEQ ID NO：112、SEQ IDNO：114、SEQ ID NO：116、SEQ ID NO：118、SEQ ID NO：120、SEQ IDNO：122、SEQ ID NO：124、SEQ ID NO：126、SEQ ID NO：128、SEQ IDNO：130、SEQ ID NO：132、SEQ ID NO：134、SEQ ID NO：136、SEQ IDNO：138、SEQ ID NO：140、SEQ ID NO：142、SEQ ID NO：143、SEQ IDNO：146、SEQ ID NO：148、SEQ ID NO：150、SEQ ID NO：152、SEQ IDNO：154、SEQ ID NO：156、SEQ ID NO：158、SEQ ID NO：160、SEQ IDNO：162、SEQ ID NO：164、SEQ ID NO：166、SEQ ID NO：168、SEQ IDNO：170、SEQ ID NO：172、SEQ ID NO：174、SEQ ID NO：176、SEQ IDNO：178、SEQ ID NO：180、SEQ ID NO：182、SEQ ID NO：184、SEQ IDNO：186、SEQ ID NO：188、SEQ ID NO：190、SEQ ID NO：192、SEQ IDNO：194、SEQ ID NO：196、SEQ ID NO：198、SEQ ID NO：200、SEQ IDNO：202、SEQ ID NO：204、SEQ ID NO：206、SEQ ID NO：209、SEQ IDNO：210、SEQ ID NO：212、SEQ ID NO：214、SEQ ID NO：216、SEQ IDNO：218、SEQ ID NO：220、SEQ ID NO：222、SEQ ID NO：224、SEQ IDNO：226、SEQ ID NO：228、SEQ ID NO：230、SEQ ID NO：232、SEQ IDNO：234、SEQ ID NO：236、SEQ ID NO：238、SEQ ID NO：240、SEQ IDNO：242、SEQ ID NO：244、SEQ ID NO：246、SEQ ID NO：248、SEQ IDNO：250、SEQ ID NO：252、SEQ ID NO：254、SEQ ID NO：256、SEQ IDNO：258、SEQ ID NO：260、SEQ ID NO：262、SEQ ID NO：264、SEQ IDNO：266、SEQ ID NO：268、SEQ ID NO：270、SEQ ID NO：272、SEQ IDNO：274、SEQ ID NO：276、SEQ ID NO：278、SEQ ID NO：280、SEQ IDNO：282、SEQ ID NO：284、SEQ ID NO：286、SEQ ID NO：288、SEQ IDNO：290、SEQ ID NO：292、SEQ ID NO：294、SEQ ID NO：296、SEQ IDNO：298、SEQ ID NO：300、SEQ ID NO：302、SEQ ID NO：304、SEQ IDNO：306、SEQ ID NO：308、SEQ ID NO：310、SEQ ID NO：312、SEQ IDNO：314、SEQ ID NO：316、SEQ ID NO：318、SEQ ID NO：320、SEQ IDNO：322、SEQ ID NO：324、SEQ ID NO：326、SEQ ID NO：328、SEQ IDNO：330、SEQ ID NO：332、SEQ ID NO：334、SEQ ID NO：336、SEQ IDNO：338、SEQ ID NO：340、SEQ ID NO：342、SEQ ID NO：344、SEQ IDNO：346、SEQ ID NO：348、SEQ ID NO：350、SEQ ID NO：352、SEQ IDNO：354、SEQ ID NO：356、SEQ ID NO：358、SEQ ID NO：360、SEQ IDNO：362、SEQ ID NO：364、SEQ ID NO：366、SEQ ID NO：368、SEQ IDNO：370、SEQ ID NO：372、SEQ ID NO：374、SEQ ID NO：376、SEQ IDNO：378、SEQ ID NO：380、SEQ ID NO：382、SEQ ID NO：384、SEQ IDNO：386、SEQ ID NO：388、SEQ ID NO：390、SEQ ID NO：392、SEQ IDNO：394、SEQ ID NO：396、SEQ ID NO：398、SEQ ID NO：400、SEQ IDNO：402、SEQ ID NO：404、SEQ ID NO：406、SEQ ID NO：408、SEQ IDNO：410、SEQ ID NO：412、SEQ ID NO：414、SEQ ID NO：416、SEQ IDNO：418、SEQ ID NO：420、SEQ ID NO：422、SEQ ID NO：424、SEQ IDNO：426、SEQ ID NO：428、SEQ ID NO：430、SEQ ID NO：432、SEQ IDNO：434、SEQ ID NO：436、SEQ ID NO：438、SEQ ID NO：440、SEQ IDNO：442、SEQ ID NO：444、SEQ ID NO：446、SEQ ID NO：448、SEQ IDNO：450、SEQ ID NO：452、SEQ ID NO：454、SEQ ID NO：456、SEQ IDNO：458、SEQ ID NO：460、SEQ ID NO：462、SEQ ID NO：464、SEQ IDNO：466、SEQ ID NO：468、SEQ ID NO：470、SEQ ID NO：472、SEQ IDNO：474、SEQ ID NO：476、SEQ ID NO：478、SEQ ID NO：480、SEQ IDNO：482、SEQ ID NO：484、SEQ ID NO：486、SEQ ID NO：488、SEQ IDNO：490、SEQ ID NO：492、SEQ ID NO：494、SEQ ID NO：496、SEQ IDNO：498、SEQ ID NO：500、SEQ ID NO：502、SEQ ID NO：504、SEQ IDNO：506、SEQ ID NO：508、SEQ ID NO：510、SEQ ID NO：512、SEQ IDNO：514、SEQ ID NO：516、SEQ ID NO：518、SEQ ID NO：520、SEQ IDNO：522和/或SEQ ID NO：524(另请参见下文的表1、2和3，实施例1和4，以及序列表)，以及其子序列和其变体。示例性多肽还包括长度为至少约10、15、20、25、30、35、40、45、50、75、80、85、90、95、100、150、200、250、300、350、400、450、500、550、600个或更多个残基的酶片段或全长的酶。本发明多肽或肽序列包括由本发明核酸编码的序列。本发明多肽或肽序列包括被本发明抗体特异性结合的多肽或肽(例如，表位)，或可产生本发明抗体的多肽或肽(例如，免疫原)。

一方面，本发明多肽具有至少一种纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。在可选择的方面，本发明多核苷酸编码具有至少一种纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的多肽。

一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性是热稳定的。所述多肽可在包括温度范围约1℃至约5℃、约5℃至约15℃、约15℃至约25℃、约25℃至约37℃、约37℃至约95℃、约55℃至约85℃、约70℃至约75℃或约90℃至约95℃、或更高温度的条件下保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。另一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、甘露聚糖酶、木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性可以是耐热的。所述多肽可在暴露于从高于37℃至约95℃范围内的温度或从高于55℃至约85℃范围内的温度之后保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。一方面，在pH4.5条件下，所述多肽可在暴露于从高于90℃至约95℃范围内的温度之后保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明的另一方面提供包含本发明多肽或肽序列、与其大致相同的序列和与其互补的序列的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150个或更多个连续碱基的分离的、合成的或重组的多肽或肽。例如，所述肽可以是免疫原性片段、模体(例如，结合位点)、信号序列、前序列（preprosequence）或活性位点。

本发明提供包含编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、甘露聚糖酶、木聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的序列和信号序列的分离的、合成的或重组的核酸，其中所述核酸包含本发明序列。所述信号序列可以衍生自另一纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、甘露聚糖酶、木聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，或非纤维素酶例如非内切葡聚糖酶、非纤维二糖水解酶、非β-葡糖苷酶(非beta-葡糖苷酶)、非木聚糖酶、非甘露聚糖酶、非β-木糖苷酶、非阿拉伯呋喃糖苷酶和/或非寡聚体酶（异源的）。本发明提供包含编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、β-木糖苷酶、甘露聚糖酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的序列的分离的、合成的或重组的核酸，其中所述序列不包含信号序列，并且所述核酸包含本发明序列。一方面，本发明提供包含本发明多肽但缺乏全部或部分信号序列的分离的、合成的或重组的多肽。一方面，所述分离的、合成的或重组的多肽可包含：包含异源信号序列的本发明多肽，所述异源信号序列如异源的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的信号序列，或非纤维素酶例如非内切葡聚糖酶、非纤维二糖水解酶、非β-葡糖苷酶(非beta-葡糖苷酶)、非木聚糖酶、非甘露聚糖酶、非β-木糖苷酶、非阿拉伯呋喃糖苷酶和/或非寡聚体酶的信号序列。

一方面，本发明提供嵌合蛋白，该嵌合蛋白包含：包含本发明信号序列的第一个结构域和至少第二个结构域。所述蛋白可以是融合蛋白。所述第二个结构域可包含酶。所述酶可以是非酶。

本发明提供嵌合多肽，该嵌合多肽包含：包含本发明信号肽(SP)、前序列和/或催化结构域(CD)的至少第一个结构域和包含异源多肽或肽的至少第二个结构域，其中所述异源多肽或肽与所述信号肽(SP)、前序列和/或催化结构域(CD)不是天然连接的。一方面，所述异源多肽或肽不是纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、木糖苷酶(例如，β-木糖苷酶)、阿拉伯呋喃糖苷酶和/或寡聚体酶。所述异源多肽或肽可位于所述信号肽(SP)、前序列和/或催化结构域(CD)的氨基末端、羧基末端或两端。

本发明提供编码嵌合多肽的分离的、合成的或重组的核酸，其中所述嵌合多肽包含：包含本发明信号肽(SP)、前结构域（prepro domain）和/或催化结构域(CD)的至少第一个结构域和包含异源多肽或肽的至少第二个结构域，其中所述异源多肽或肽与所述信号肽(SP)、前结构域和/或催化结构域(CD)不是天然连接的。

本发明提供由本发明多肽的残基1至14、1至15、1至16、1至17、1至18、1至19、1至20、1至21、1至22、1至23、1至24、1至25、1至26、1至27、1至28、1至28、1至30、1至31、1至32、1至33、1至34、1至35、1至36、1至37、1至38、1至40、1至41、1至42、1至43、1至44、1至45、1至46或1至47的序列（由其确定的序列）组成或包含该序列的分离的、合成的或重组的信号序列(例如，信号肽)，本发明多肽例如，示例性的SEQ ID NO：2、SEQ IDNO：4、SEQ ID NO：6、SEQ ID NO：8、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：14、SEQ ID NO：16、SEQ ID NO：18、SEQ ID NO：20、SEQID NO：22、SEQ ID NO：24、SEQ ID NO：26、SEQ ID NO：28、SEQ IDNO：30、SEQ ID NO：32、SEQ ID NO：34、SEQ ID NO：36、SEQ ID NO：38、SEQ ID NO：40、SEQ ID NO：42、SEQ ID NO：44、SEQ ID NO：46、SEQID NO：48、SEQ ID NO：50、SEQ ID NO：52、SEQ ID NO：54、SEQ IDNO：56、SEQ ID NO：58、SEQ ID NO：60、SEQ ID NO：62、SEQ ID NO：64、SEQ ID NO：66、SEQ ID NO：68、SEQ ID NO：70、SEQ ID NO：72、SEQID NO：74、SEQ ID NO：76、SEQ ID NO：78、SEQ ID NO：80、SEQ IDNO：82、SEQ ID NO：84、SEQ ID NO：86、SEQ ID NO：88、SEQ ID NO：90、SEQ ID NO：92、SEQ ID NO：94、SEQ ID NO：96、SEQ ID NO：98、SEQID NO：100、SEQ ID NO：102、SEQ ID NO：104、SEQ ID NO：106、SEQID NO：108、SEQ ID NO：110、SEQ ID NO：112、SEQ ID NO：114、SEQID NO：116、SEQ ID NO：118、SEQ ID NO：120、SEQ ID NO：122、SEQID NO：124、SEQ ID NO：126、SEQ ID NO：128、SEQ ID NO：130、SEQID NO：132、SEQ ID NO：134、SEQ ID NO：136、SEQ ID NO：138、SEQID NO：140、SEQ ID NO：142、SEQ ID NO：143、SEQ ID NO：146、SEQID NO：148、SEQ ID NO：150、SEQ ID NO：152、SEQ ID NO：154、SEQID NO：156、SEQ ID NO：158、SEQ ID NO：160、SEQ ID NO：162、SEQID NO：164、SEQ ID NO：166、SEQ ID NO：168、SEQ ID NO：170、SEQID NO：172、SEQ ID NO：174、SEQ ID NO：176、SEQ ID NO：178、SEQID NO：180、SEQ ID NO：182、SEQ ID NO：184、SEQ ID NO：186、SEQID NO：188、SEQ ID NO：190、SEQ ID NO：192、SEQ ID NO：194、SEQID NO：196、SEQ ID NO：198、SEQ ID NO：200、SEQ ID NO：202、SEQID NO：204、SEQ ID NO：206、SEQ ID NO：209、SEQ ID NO：210、SEQID NO：212、SEQ ID NO：214、SEQ ID NO：216、SEQ ID NO：218、SEQID NO：220、SEQ ID NO：222、SEQ ID NO：224、SEQ ID NO：226、SEQID NO：228、SEQ ID NO：230、SEQ ID NO：232、SEQ ID NO：234、SEQID NO：236、SEQ ID NO：238、SEQ ID NO：240、SEQ ID NO：242、SEQID NO：244、SEQ ID NO：246、SEQ ID NO：248、SEQ ID NO：250、SEQID NO：252、SEQ ID NO：254、SEQ ID NO：256、SEQ ID NO：258、SEQID NO：260、SEQ ID NO：262、SEQ ID NO：264、SEQ ID NO：266、SEQID NO：268、SEQ ID NO：270、SEQ ID NO：272、SEQ ID NO：274、SEQID NO：276、SEQ ID NO：278、SEQ ID NO：280、SEQ ID NO：282、SEQID NO：284、SEQ ID NO：286、SEQ ID NO：288、SEQ ID NO：290、SEQID NO：292、SEQ ID NO：294、SEQ ID NO：296、SEQ ID NO：298、SEQID NO：300、SEQ ID NO：302、SEQ ID NO：304、SEQ ID NO：306、SEQID NO：308、SEQ ID NO：310、SEQ ID NO：312、SEQ ID NO：314、SEQID NO：316、SEQ ID NO：318、SEQ ID NO：320、SEQ ID NO：322、SEQID NO：324、SEQ ID NO：326、SEQ ID NO：328、SEQ ID NO：330、SEQID NO：332、SEQ ID NO：334、SEQ ID NO：336、SEQ ID NO：338、SEQID NO：340、SEQ ID NO：342、SEQ ID NO：344、SEQ ID NO：346、SEQID NO：348、SEQ ID NO：350、SEQ ID NO：352、SEQ ID NO：354、SEQID NO：356、SEQ ID NO：358、SEQ ID NO：360、SEQ ID NO：362、SEQID NO：364、SEQ ID NO：366、SEQ ID NO：368、SEQ ID NO：370、SEQID NO：372、SEQ ID NO：374、SEQ ID NO：376、SEQ ID NO：378、SEQID NO：380、SEQ ID NO：382、SEQ ID NO：384、SEQ ID NO：386、SEQID NO：388、SEQ ID NO：390、SEQ ID NO：392、SEQ ID NO：394、SEQID NO：396、SEQ ID NO：398、SEQ ID NO：400、SEQ ID NO：402、SEQID NO：404、SEQ ID NO：406、SEQ ID NO：408、SEQ ID NO：410、SEQID NO：412、SEQ ID NO：414、SEQ ID NO：416、SEQ ID NO：418、SEQID NO：420、SEQ ID NO：422、SEQ ID NO：424、SEQ ID NO：426、SEQID NO：428、SEQ ID NO：430、SEQ ID NO：432、SEQ ID NO：434、SEQID NO：436、SEQ ID NO：438、SEQ ID NO：440、SEQ ID NO：442、SEQID NO：444、SEQ ID NO：446、SEQ ID NO：448、SEQ ID NO：450、SEQID NO：452、SEQ ID NO：454、SEQ ID NO：456、SEQ ID NO：458、SEQID NO：460、SEQ ID NO：462、SEQ ID NO：464、SEQ ID NO：466、SEQID NO：468、SEQ ID NO：470、SEQ ID NO：472、SEQ ID NO：474、SEQID NO：476、SEQ ID NO：478、SEQ ID NO：480、SEQ ID NO：482、SEQID NO：484、SEQ ID NO：486、SEQ ID NO：488、SEQ ID NO：490、SEQID NO：492、SEQ ID NO：494、SEQ ID NO：496、SEQ ID NO：498、SEQID NO：500、SEQ ID NO：502、SEQ ID NO：504、SEQ ID NO：506、SEQID NO：508、SEQ ID NO：510、SEQ ID NO：512、SEQ ID NO：514、SEQID NO：516、SEQ ID NO：518、SEQ ID NO：520、SEQ ID NO：522和/或SEQ ID NO：524（参见下文的表1、2和3，实施例1和4，以及序列表)。一方面，本发明提供包含本发明多肽的前14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70个或更多个氨基末端残基的信号序列。

一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，包括在约37℃下范围约1至约1200单位/毫克蛋白，或约100至约1000单位/毫克蛋白的比活性。另一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性包括从约100至约1000单位/毫克蛋白或从约500至约750单位/毫克蛋白的比活性。可选地，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性包括在37℃下范围从约1至约750单位/毫克蛋白，或从约500至约1200单位/毫克蛋白的比活性。一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性包括在37℃下范围从约1至约500单位/毫克蛋白，或从约750至约1000单位/毫克蛋白的比活性。另一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性包括在37℃下范围从约1至约250单位/毫克蛋白的比活性。可选地，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性包括在37℃下范围从约1至约100单位/毫克蛋白的比活性。

另一方面，所述耐热性包括在被加热至更高温度之后保留所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶在37℃下的比活性的至少一半。可选地，所述耐热性可包括在被加热至更高温度之后，保留范围从约1至约1200单位/毫克蛋白，或从约500至约1000单位/毫克蛋白的37℃比活性。另一方面，所述耐热性可包括在被加热至更高温度之后，保留范围从约1至约500单位/毫克蛋白的37℃比活性。

本发明提供本发明分离的、合成的或重组的多肽，其中所述多肽包含至少一个糖基化位点。一方面，糖基化可以是N-连接的糖基化。一方面，所述多肽可以在毕赤酵母(P.pastoris)或裂殖酵母(S.pombe)中表达之后被糖基化。

一方面，所述多肽可在包括约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4或更酸性的条件下保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。另一方面，所述多肽可在包括约pH7、pH7.5pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更碱性pH的条件下保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。一方面，所述多肽可在暴露于包括约pH6.5、pH6、pH5.5、pH5、pH4.5或pH4或更酸性pH的条件之后保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。另一方面，所述多肽可在暴露于包括约pH7、pH7.5、pH8.0、pH8.5、pH9、pH9.5、pH10、pH10.5或pH11或更碱性pH的条件之后保留纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

一方面，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶在碱性条件下具有活性，例如，在肠（例如，小肠）的碱性条件下。一方面，所述多肽可在暴露于胃的酸性pH之后保留活性。

本发明提供包含本发明多肽(包括肽)的蛋白制品，其中所述蛋白制品包括液体、固体或凝胶。本发明提供包含本发明多肽和第二个蛋白或结构域的异二聚体。所述异二聚体的第二个成员可以是不同的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶、不同的酶或另一蛋白。一方面，所述第二个结构域可以是多肽，并且所述异二聚体可以是融合蛋白。一方面，所述第二个结构域可以是表位或标记物。一方面，本发明提供包含本发明多肽的同二聚体。

本发明提供具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的固定化多肽(包括肽)，其中所述固定化多肽包含本发明多肽、由本发明核酸编码的多肽或包含本发明多肽和第二个结构域的多肽。一方面，所述多肽可以被固定于细胞、金属、树脂、聚合体、陶瓷、玻璃、微电极、石墨颗粒、珠子、凝胶、平板、阵列或毛细管。

本发明还提供包含本发明固定化核酸（包括例如本发明探针）的阵列。本发明还提供包含本发明抗体的阵列。

本发明提供与本发明多肽或由本发明核酸编码的多肽特异性结合的分离的、合成的或重组的抗体。本发明的这些抗体可以是单克隆或多克隆抗体。本发明提供包含本发明抗体（例如，与本发明多肽或由本发明核酸编码的多肽特异性结合的抗体）的杂交瘤。本发明提供编码这些抗体的核酸。

本发明提供分离或鉴定具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的方法，该方法包括如下步骤：(a)提供本发明抗体；(b)提供包含多肽的样品；和(c)使用步骤(a)中的抗体在所述抗体可与所述多肽特异性结合的条件下接触步骤(b)中的样品，从而分离或鉴定具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽。

本发明提供制备抗寡聚体酶、抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶、抗β-葡糖苷酶(抗beta-葡糖苷酶)、抗木聚糖酶、抗甘露聚糖酶、抗β-木糖苷酶、抗阿拉伯呋喃糖苷酶和/或抗寡聚体酶的抗体的方法，该方法包括向非人动物施用足以产生体液免疫应答的量的本发明核酸或本发明多肽或其子序列，从而制备抗寡聚体酶或抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶、抗β-葡糖苷酶(抗beta-葡糖苷酶)、抗木聚糖酶、抗甘露聚糖酶、抗β-木糖苷酶、抗阿拉伯呋喃糖苷酶和/或抗寡聚体酶的抗体。本发明提供产生抗寡聚体酶或抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶、抗β-葡糖苷酶(抗beta-葡糖苷酶)、抗木聚糖酶、抗甘露聚糖酶、抗β-木糖苷酶、抗阿拉伯呋喃糖苷酶和/或抗寡聚体酶的免疫应答（细胞或体液）的方法，该方法包括向非人动物施用足以产生免疫应答（细胞或体液）的量的本发明核酸或本发明多肽或其子序列。

本发明提供生产重组的多肽的方法，该方法包括如下步骤：(a)提供可操作地连接至启动子的本发明核酸；和(b)在允许表达所述多肽的条件下表达步骤(a)中的核酸，从而生产重组的多肽。一方面，该方法可进一步包括使用步骤(a)中的核酸转化宿主细胞，然后表达步骤(a)中的核酸，从而在转化的细胞中生产重组的多肽。

本发明提供用于鉴定具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的方法，该方法包括如下步骤：(a)提供本发明多肽；或由本发明核酸编码的多肽；(b)提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的底物；和(c)使用步骤(b)中的底物接触步骤(a)中的多肽或其片段或变体，然后检测底物的量的减少或反应产物的量的增加，其中所述底物的量的减少或所述反应产物的量的增加检测具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽。一方面，所述底物是包含纤维素或包含多糖（例如，包含可溶性纤维寡糖和/或阿拉伯木聚糖寡聚体）的化合物。

本发明提供鉴定纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶底物的方法，该方法包括如下步骤：(a)提供本发明多肽；或由本发明核酸编码的多肽；(b)提供受试底物；和(c)使用步骤(b)中的受试底物接触步骤(a)中的多肽，然后检测底物的量的减少或反应产物的量的增加，其中所述底物的量的减少或所述反应产物的量的增加鉴定所述受试底物为纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶底物。

本发明提供确定受试化合物是否与多肽特异性结合的方法，该方法包括如下步骤：(a)在允许核酸翻译为多肽的条件下表达所述核酸或包含所述核酸的载体或提供本发明多肽，其中所述核酸包含本发明核酸；(b)提供受试化合物；(c)使所述多肽接触所述受试化合物；和(d)确定步骤(b)中的受试化合物是否与所述多肽特异性结合。

本发明提供用于鉴定纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的活性调节剂的方法，该方法包括如下步骤：(a)提供本发明多肽或由本发明核酸编码的多肽；(b)提供受试化合物；(c)使用步骤(b)中的受试化合物接触步骤(a)中的的多肽，然后测量所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的活性，其中在存在所述受试化合物时测量的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性相比于不存在所述受试化合物时活性的变化，确定所述受试化合物调节所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的活性可以通过提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶底物，然后检测所述底物的量的减少或所述反应产物的量的增加，或者所述底物的量的增加或所述反应产物的量的减少来确定。与不存在所述受试化合物时所述底物或所述反应产物的量相比，存在所述受试化合物时所述底物的量的减少或所述反应产物的量的增加，鉴定所述受试化合物是纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的激活剂。与不存在所述受试化合物时所述底物或所述反应产物的量相比，存在所述受试化合物时所述底物的量的增加或所述反应产物的量的减少，鉴定所述受试化合物是纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的抑制剂。

本发明提供包含处理器和数据存储设备的计算机系统，其中所述数据存储设备中已存储了本发明多肽序列或核酸序列（例如，由本发明核酸编码的多肽或肽)。一方面，所述计算机系统可进一步包含序列比较算法和存储了至少一个参考序列的数据存储设备。另一方面，所述序列比较算法包含指示多态性的计算机程序。一方面，所述计算机系统可进一步包含鉴定所述序列中的一个或多个特征的鉴定程序(identifier)。本发明提供已存储了本发明多肽序列或核酸序列的计算机可读介质。本发明提供鉴定序列特征的方法，该方法包括如下步骤：(a)使用鉴定序列中的一个或多个特征的计算机程序读取所述序列，其中所述序列包含本发明多肽序列或核酸序列；和(b)使用所述计算机程序鉴定所述序列中的一个或多个特征。本发明提供用于比较第一个序列和第二个序列的方法，该方法包括如下步骤：(a)通过使用比较序列的计算机程序读取所述第一个序列和所述第二个序列，其中所述第一个序列包含本发明多肽序列或核酸序列；和(b)使用所述计算机程序确定所述第一个序列和所述第二个序列之间的差异。确定所述第一个序列和所述第二个序列之间的差异的步骤可进一步包括鉴定多态性的步骤。一方面，所述方法可进一步包括鉴定序列中的一个或多个特征的鉴定程序。另一方面，所述方法可包括，使用计算机程序读取所述第一个序列和鉴定该序列中的一个或多个特征。

本发明提供从样品（例如，环境样品）中分离或回收编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸的方法，该方法包括如下步骤：(a)提供用于扩增编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸的扩增引物序列对，其中所述引物对能够扩增本发明核酸；(b)从所述样品（例如，环境样品）中分离核酸，或对所述样品（例如，环境样品）进行处理，以使所述样品中的核酸可与所述扩增引物对杂交；和，(c)将步骤(b)中的核酸与步骤(a)中的扩增引物对合并，然后扩增所述样品（例如，环境样品）中的核酸，从而从样品（例如，环境样品）中分离或回收编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸。所述扩增引物序列对一个或每个成员可包含：包含本发明扩增引物序列对（例如，具有本发明序列的至少约10至50个连续碱基）的寡核苷酸。

本发明提供从样品（例如，环境样品）中分离或回收编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸的方法，该方法包括如下步骤：(a)提供包含本发明核酸或其子序列的多核苷酸探针；(b)从所述样品（例如，环境样品）中分离核酸，或对所述样品（例如，环境样品）进行处理，以便所述样品中的核酸可与步骤(a)中的多核苷酸探针杂交；(c)将步骤(b)中的分离的核酸或经处理的样品（例如，环境样品）与步骤(a)中的多核苷酸探针合并；和(d)分离与步骤(a)中的多核苷酸探针特异性杂交的核酸，从而从样品（例如，环境样品）中分离或回收编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸。所述样品（例如，环境样品）可包括水样品、液体样品、土壤样品、空气样品或生物样品。一方面，所述生物样品可来自细菌细胞、原生动物细胞、昆虫细胞、酵母细胞、植物细胞、真菌细胞或哺乳动物细胞。

本发明提供产生编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸的变体的方法，该方法包括如下步骤：(a)提供包含本发明核酸的模板核酸；和(b)在所述模板序列中改变、缺失或添加一个或多个核苷酸或这些操作的组合，以产生所述模板核酸的变体。一方面，所述方法可进一步包括表达所述变异的核酸以产生变异的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽。所述改变、添加或缺失可以通过包括易错PCR、改组、寡核苷酸定向诱变、装配PCR(assembly PCR)、有性PCR诱变(sexual PCR mutagenesis)、体内诱变(invivo mutagenesis)、盒式诱变、递归总体诱变（recursive ensemblemutagenesis）、指数总体诱变（exponential ensemble mutagenesis）、位点特异性诱变、基因重装配(gene reassembly)、基因位点饱和诱变(GeneSite Saturation Mutagenesis，GSSM)、合成连接重装配（synthetic ligationreassembly，SLR)、染色体饱和诱变(Chromosomal SaturationMutagenesis，CSM)或其组合的方法引入。另一方面，所述改变、添加或缺失是通过包括重组、递归序列重组（recursive sequencerecombination）、硫代磷酸酯改性的DNA诱变(phosphothioate-modifiedDNA mutagenesis)、含尿嘧啶的模板诱变(uracil-containing templatemutagenesis)、缺口双链诱变（gapped duplex mutagenesis）、点错配修复诱变(point mismatch repair mutagenesis)、修复缺陷宿主菌株诱变(repair-deficient host strain mutagenesis)、化学诱变、辐射诱变、缺失诱变、限制-选择诱变（restriction-selection mutagenesis）、限制-纯化诱变（restriction-purification mutagenesis）、人工基因合成(artificial genesynthesis)、总体诱变(ensemble mutagenesis)、嵌合核酸多聚体构建(chimeric nucleic acid multimer creation)及其组合的方法引入的。

一方面，所述方法可迭代重复，直至产生具有改变的或不同的活性或改变的或不同的稳定性（与模板核酸编码的多肽相比）的纤维素酶，例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶(beta-葡糖苷酶)、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。一方面，所述变异的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽是耐热的，并且在暴露于升高的温度之后保留一定的活性。另一方面，所述变异的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽与由模板核酸编码的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶相比，具有增加的糖基化。可选地，所述变异的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽在高温下具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，其中由所述模板核酸编码的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶在高温下没有活性。一方面，所述方法可迭代重复，直至产生具有与生产模板核酸相比改变的密码子使用的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的编码序列。另一方面，所述方法可迭代重复，直至产生具有比模板核酸更高或更低水平的信息表达或稳定性的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的基因。

本发明提供了用于改变编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸中的密码子，以增加其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的本发明核酸；和，(b)鉴定步骤(a)核酸的非偏好或低偏好(lesspreferred)密码子，然后将其替换为与被替换的密码子编码同一氨基酸的偏好或中立使用（neutrally used）的密码子，其中偏好密码子是在所述宿主细胞的基因的编码序列中高表达（over-represented）的密码子，而非偏好或低偏好密码子是在所述宿主细胞的基因的编码序列中低表达（under-represented）的密码子，从而改变所述核酸以增加其在宿主细胞中的表达。

本发明提供改变编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸中的密码子的方法；该方法包括如下步骤：(a)提供本发明核酸；和，(b)鉴定步骤(a)中的核酸的密码子，然后将其替换为与被替换的密码子编码同一氨基酸的不同密码子，从而改变编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸中的密码子。

本发明提供改变编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸中的密码子，以增加其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的多肽的本发明核酸；和，(b)鉴定步骤(a)中的核酸的非偏好或低偏好密码子，然后将其替换为与被替换的密码子编码同一氨基酸的偏好或中立使用的密码子，其中偏好密码子是在所述宿主细胞的基因的编码序列中高表达的密码子，而非偏好或低偏好密码子是在所述宿主细胞的基因的编码序列中低表达的密码子，从而改变所述核酸以增加其在宿主细胞中的表达。

本发明提供改变编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸中的密码子，以减少其在宿主细胞中的表达的方法，该方法包括如下步骤：(a)提供本发明核酸；和(b)鉴定步骤(a)中的核酸的至少一个偏好密码子，然后将其替换为与被替换的密码子编码同一氨基酸的非偏好或低偏好密码子，其中偏好密码子是在所述宿主细胞的基因的编码序列中高表达的密码子，而非偏好或低偏好密码子是在所述宿主细胞的基因的编码序列中低表达的密码子，从而改变所述核酸以减少其在宿主细胞中的表达。一方面，所述宿主细胞可以是细菌细胞、真菌细胞、昆虫细胞、酵母细胞、植物细胞或哺乳动物细胞。

本发明提供生产编码多个改变的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的活性位点或底物结合位点的核酸的文库的方法，其中所述改变的活性位点或底物结合位点衍生自包含编码第一个活性位点或第一个底物结合位点的序列的第一个核酸，该方法包括如下步骤：(a)提供编码第一个活性位点或第一个底物结合位点的第一个核酸，其中所述第一个核酸序列包含在严格条件下与本发明核酸和编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性位点或纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶底物结合位点的核酸杂交的序列；(b)提供一组编码在所述第一个核酸的多个靶向密码子处的天然存在氨基酸变体的诱变的寡核苷酸；和，(c)使用所述诱变的寡核苷酸组产生一组编码活性位点或编码底物结合位点的变异的核酸，所述变异的核酸编码多个在每个诱变的氨基酸密码子处的氨基酸变体，从而生产编码多个改变的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性位点或底物结合位点的核酸的文库。一方面，该方法包括，通过包括最优定向进化系统(optimized directed evolution system)、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、易错PCR、改组、寡核苷酸定向诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归总体诱变、指数总体诱变、位点特异性诱变、基因重装配及其组合的方法诱变步骤(a)中的第一个核酸。另一方面，该方法包括，通过包括重组、递归序列重组、硫代磷酸酯改性的DNA诱变、含尿嘧啶的模板诱变、缺口双链诱变、点错配修复诱变、修复缺陷宿主菌株诱变、化学诱变、辐射诱变、缺失诱变、限制-选择诱变、限制-纯化诱变、人工基因合成、总体诱变、嵌合核酸多聚体构建及其组合的方法诱变步骤(a)中的第一个核酸或变体。

本发明提供制备小分子的方法，该方法包括如下步骤：(a)提供能够合成或修饰小分子的多个生物合成酶，其中所述酶之一包含由本发明核酸编码的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶；(b)提供步骤(a)中至少一种酶的底物；和(c)使步骤(b)中的底物与所述酶在促进多个生物催化反应的条件下反应，以通过一系列生物催化反应产生小分子。本发明提供修饰小分子的方法，该方法包括如下步骤：(a)提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，其中所述酶包含本发明多肽或由本发明核酸或其子序列编码的多肽；(b)提供小分子；和(c)使步骤(a)中的酶与步骤(b)中的小分子在促进由所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶催化的酶反应的条件下反应，从而通过纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的酶反应来修饰小分子。一方面，所述方法可包括步骤(a)中的酶的多个小分子底物，从而产生通过由所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶催化的至少一个酶反应生产的修饰的小分子的文库。一方面，所述方法可在促进所述酶的多个生物催化反应的条件下包括多个其他酶，以形成由多个酶反应生产的修饰的小分子的文库。另一方面，所述方法可进一步包括测试所述文库以确定所述文库内是否存在表现出所需活性的特定的修饰的小分子的步骤。所述测试文库的步骤可进一步包括：系统排除所有其他生物催化反应而仅保留用于生产文库中一部分多个修饰的小分子（通过测试所述修饰的小分子部分中存在或不存在具有所需活性的特定的修饰的小分子）的一个生物催化反应的步骤，和鉴定产生具有所需活性的特定的修饰的小分子的至少一个特定的生物催化反应的步骤。

本发明提供确定寡聚体酶和/或纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的功能性片段的方法，该方法包括如下步骤：(a)提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，其中所述酶包含本发明多肽或由本发明核酸编码的多肽或其子序列；和(b)从步骤(a)的序列中缺失多个氨基酸残基，然后测试剩余子序列的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，从而确定纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的功能性片段。一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性是通过提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶底物，然后检测所述底物的量的减少或反应产物的量的增加来测量的。

本发明提供通过使用实时代谢流分析（real-time metabolic fluxanalysis）进行新的或改变的表型的全细胞改造（whole cell engineering）的方法，该方法包括如下步骤：(a)通过改变细胞的遗传组成制备改变的细胞，其中所述遗传组成通过向所述细胞添加本发明核酸而进行改变；(b)培养所述改变的细胞以产生多个改变的细胞；(c)通过实时监测步骤(b)中的细胞培养物而测量所述细胞的至少一个代谢参数；和，(d)分析步骤(c)的数据以确定所测量的参数是否不同于相似条件下未改变的细胞中的可比测量(comparable measurement)，从而使用实时代谢流分析鉴定所述细胞中的改造的表型。一方面，所述细胞的遗传组成可通过包括在所述细胞中缺失序列或改变序列，或者剔除基因表达的方法进行改变。一方面，所述方法可进一步包括选择包含新改造的表型的细胞。另一方面，所述方法可包括培养所选细胞，从而产生包含新改造的表型的新细胞株。

本发明提供增加寡聚体酶和/或纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽的耐热性或热稳定性的方法，该方法包括对纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽进行糖基化，其中所述多肽包含本发明多肽或由本发明核酸序列编码的多肽的至少30个连续的氨基酸，从而增加所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽的耐热性或热稳定性。一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶比活性在从高于约37℃至约95℃范围内的温度下可以是热稳定或耐热的。

本发明提供在细胞中过表达重组的寡聚体酶和/或纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽的方法，该方法包括表达载体，该载体包含：包含本发明核酸的核酸或本发明核酸序列，其中序列同一性通过使用序列比较算法的分析或通过视觉检测确定，其中过表达受使用高活性启动子、双顺反子载体或受所述载体的基因扩增的影响。

本发明提供制备转基因植物的方法，该方法包括如下步骤：(a)向细胞中引入异源核酸序列，其中所述异源核酸序列包含本发明核酸序列，从而生成转化的植物细胞；和(b)从所述转化的细胞生产转基因植物。一方面，步骤(a)可进一步包括通过植物细胞原生质体的电穿孔或微注射引入所述异源核酸序列。另一方面，步骤(a)可进一步包括通过DNA粒子轰击将所述异源核酸序列直接引入植物组织。可选地，步骤(a)可进一步包括通过使用根癌农杆菌（Agrobacterium tumefaciens）宿主将所述异源核酸序列引入植物细胞DNA。一方面，所述植物细胞可以是蔗糖(cane sugar)、甜菜（beet）、大豆、番茄、马铃薯、玉米、水稻、小麦、烟草或大麦细胞。

本发明提供在植物细胞中表达异源核酸序列的方法，该方法包括如下步骤：(a)使用可操作地连接至启动子的异源核酸序列转化所述植物细胞，其中所述异源核序列包含本发明核酸；(b)在其中所述异源核酸序列在植物细胞中表达的条件下培养所述植物。本发明提供在植物细胞中表达异源核酸序列的方法，该方法包括如下步骤：(a)使用可操作地连接至启动子的异源核酸序列转化所述植物细胞，其中所述异源核序列包含本发明序列；(b)在其中所述异源核酸序列在植物细胞中表达的条件下培养所述植物。

本发明提供水解、分解或断裂纤维寡糖、阿拉伯木聚糖寡聚体或者包含葡聚糖或纤维素的组合物的方法，该方法包括如下步骤：(a)提供本发明具有寡聚体酶、纤维素酶或纤维素分解活性的多肽；(b)提供包含纤维素或葡聚糖的组合物；和(c)使用步骤(b)中的组合物在其中所述纤维素酶水解、分解或断裂所述纤维寡糖、阿拉伯木聚糖寡聚体、或包含葡聚糖或纤维素的组合物的条件下接触步骤(a)中的多肽；其中可选择地所述组合物包括植物细胞、细菌细胞、酵母细胞、昆虫细胞或动物细胞，并且可选择地所述多肽具有寡聚体酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明多肽，或由本发明核酸编码的多肽的饲料或食物。一方面，本发明提供包含本发明多肽的食物、饲料、液体（例如，饮料如果汁或啤酒)、面包或生面团或面包产品、或饮料前体(例如，麦芽汁)。本发明提供包含本发明多肽（例如，由本发明核酸编码的多肽）的动物食物或营养补剂(nutritional supplement)。

一方面，所述食物或营养补剂中的多肽可以是糖基化的。本发明提供包含本发明多肽（例如，由本发明核酸编码的多肽）的可食用的酶递送基质。一方面，所述递送基质包括丸粒。一方面，所述多肽可以是糖基化的。一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性是耐热的。另一方面，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性是热稳定的。

本发明提供包含本发明多肽的食物、饲料或营养补剂。本发明提供利用纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶作为动物膳食中的营养补剂的方法，该方法包括：制备营养补剂，该营养补剂包含：包含本发明多肽的至少30个连续氨基酸的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶；和向动物施用所述营养补剂。所述动物可以是人、反刍动物或单胃动物。所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可通过在选自细菌、酵母、植物、昆虫、真菌和动物组成的组的生物体中表达编码所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的多核苷酸而进行制备。所述生物体可选自裂殖酵母、酿酒酵母(S.cerevisiae)、毕赤酵母(Pichia pastoris)、大肠杆菌(E.coli)、链霉菌种(Streptomyces sp.)、芽孢杆菌种(Bacillus sp.)和乳杆菌种(Lactobacillussp.)组成的组。

本发明提供包含热稳定的重组的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶（例如本发明多肽）的可食用的酶递送基质。本发明提供向动物递送纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶补剂的方法，该方法包括：制备包含粒状可食用载体和热稳定的重组的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的丸粒形式的可食用酶递送基质，其中所述丸粒容易将其中包含的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶分散到水性介质中，和向所述动物施用所述可食用的酶递送基质。所述重组的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可包含本发明多肽。所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可被糖基化，以提供在制粒条件下的热稳定性。所述递送基质可通过将包含粒胚(grain germ)和纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的混合物制粒而形成。所述制粒条件可包括应用蒸汽。所述制粒条件可包括应用超过约80℃的温度约5分钟，并且所述酶保留至少350至约900单位/毫克酶的比活性。

一方面，本发明提供包含本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，或由本发明核酸编码的多肽的药物组合物。一方面，所述药物组合物充当助消化剂（digestive aid）。

在某些方面，包含纤维素的化合物在约pH3.0至9.0、10.0、11.0或更高范围内的pH下接触具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的本发明多肽。在其他方面，包含纤维素的化合物在约55℃、60℃、65℃、70℃、75℃、80℃、85℃、90℃、或更高温度下接触所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。

本发明提供向动物递送寡聚体酶和/或纤维素酶补剂的方法，该方法包括：制备包含粒状可食用载体和热稳定的重组的纤维素酶的可食用的酶递送基质或丸粒，其中所述丸粒容易将其中包含的纤维素酶分散到水性介质中，并且所述重组的纤维素酶包含本发明多肽或由本发明核酸编码的多肽；和，向所述动物施用所述可食用的酶递送基质或丸粒；并且可选择地所述粒状可食用载体包含选自粒胚、脱油粒胚（agrain germ that is spent of oil）、干草、苜蓿、梯牧草、大豆种皮(soy hull)、葵花籽粕(sunflower seed meal)和小麦中部（wheat midd）组成的组的载体，并且可选择地所述可食用的载体包括脱油粒胚，并且可选择地所述纤维素酶被糖基化以提供在制粒条件下的热稳定性，并且可选择地所述递送基质是通过将包含粒胚和纤维素酶的混合物制粒而形成的，并且可选择地所述制粒条件包括应用蒸汽，并且可选择地所述制粒条件包括应用超过约80℃的温度约5分钟，并且所述酶保留至少350至约900单位/毫克酶的比活性。

本发明提供包含本发明多肽或由本发明核酸编码的多肽的纤维素组合物或纤维素衍生物组合物，其中可选择地所述多肽具有寡聚体酶、纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明纤维素酶或由本发明核酸编码的纤维素酶的木材、木质纸浆或木材产品，其中可选择地所述纤维素酶活性包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明多肽或由本发明核酸编码的多肽的纸、纸浆或纸产品，其中可选择地所述多肽具有纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供用于降低纸、木材或木材产品中的纤维素量的方法，该方法包括使用本发明纤维素酶或由本发明核酸编码的纤维素酶接触所述纸、木材或木材产品，其中可选择地所述纤维素酶活性包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明纤维素酶或由本发明核酸编码的纤维素酶的去污剂组合物，其中可选择地所述多肽被配制成非水液体组合物、流延固体(cast solid)、粒状形式、微粒形式、压制片、凝胶形式、糊或浆形式，并且可选择地所述纤维素酶活性包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明纤维素酶或由本发明核酸编码的纤维素酶的药物组合物或膳食补剂，其中可选择地所述纤维素酶被配制成片剂、凝胶、丸剂、植入物、液体、喷雾剂、粉剂、食物、颗粒饲料或包胶制剂(encapsulated formulation)，并且可选择地所述纤维素酶活性包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

本发明提供包含本发明多肽或由本发明核酸编码的多肽的燃料，其中可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性，其中可选择地所述燃料衍生自植物材料，所述植物材料可选择地包括马铃薯、大豆（油菜籽）、大麦、黑麦、玉米、燕麦、小麦、甜菜或甘蔗，并且可选择地所述燃料包括生物乙醇或汽油-乙醇混合物。

本发明提供制备燃料的方法，该方法包括使用本发明多肽，或由本发明核酸编码的多肽，或本发明混合物或“鸡尾酒”或制备产品的任何一种接触包含纤维素或可发酵的糖类的组合物，其中可选择地所述包含纤维素或可发酵的糖类的组合物包括植物、植物产品或植物衍生物，并且可选择地所述植物或植物产品包括蔗糖(cane sugar)植物或植物产品、甜菜或糖甜菜、小麦、玉米、大豆、马铃薯、水稻或大麦，并且可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性，并且可选择地所述燃料包括生物乙醇或汽油-乙醇混合物。

本发明提供制备生物乙醇的方法，该方法包括使用本发明多肽，或由本发明核酸编码的多肽，或本发明混合物或“鸡尾酒”或制备产品的任何一种接触包含纤维素或可发酵的糖类的组合物，其中可选择地所述包含纤维素或可发酵的糖类的组合物包括植物、植物产品或植物衍生物，并且可选择地所述植物或植物产品包括蔗糖(cane sugar)植物或植物产品、甜菜或糖甜菜、小麦、玉米、大豆、马铃薯、水稻或大麦，并且可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供将纤维素聚合体和半纤维素聚合体解聚为可代谢的碳部分的酶总体（enzyme ensembles）或“鸡尾酒”，其包含本发明多肽或由本发明核酸编码的多肽，其中可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。本发明酶总体或“鸡尾酒”可以是组合物(例如，制剂、液体或固体)形式，例如，作为制备产品。

本发明提供包含如下组成的组合物（包括制备产品、酶总体或“鸡尾酒”)：(a)半纤维素水解酶和纤维素水解酶的混合物（或“鸡尾酒”），其中纤维素水解酶包含内切葡聚糖酶、纤维二糖水解酶Ⅰ(CBH Ⅰ)、纤维二糖水解酶Ⅱ(CBH Ⅱ)和β-葡糖苷酶的每一种的至少一个；而半纤维素水解酶包含木聚糖酶、β-木糖苷酶和阿拉伯呋喃糖苷酶的每一种的至少一个；(b)包含内切葡聚糖酶、寡聚体酶、纤维二糖水解酶Ⅰ(CBH Ⅰ)、纤维二糖水解酶Ⅱ(CBH Ⅱ)、阿拉伯呋喃糖苷酶和木聚糖酶的每一种的至少一个的半纤维素水解酶和纤维素水解酶的混合物（或“鸡尾酒”），其中可选择地所述寡聚体酶为寡聚体酶-1或β-葡糖苷酶，或可选择地所述寡聚体酶为寡聚体酶-2或β-木糖苷酶；(c)包含内切葡聚糖酶；纤维二糖水解酶Ⅰ(CBH Ⅰ)；纤维二糖水解酶Ⅱ(CBH Ⅱ)；阿拉伯呋喃糖苷酶；木聚糖酶；寡聚体酶-1(β-葡糖苷酶)；和寡聚体酶-2或β-木糖苷酶的每一种的至少一个的半纤维素水解酶和纤维素水解酶的混合物（或“鸡尾酒”）；或(d)包含如下组成的酶的混合物（或“鸡尾酒”）：(1)断裂内部的β-1,4键而生成更短的葡糖寡糖的内切葡聚糖酶，(2)以“外切”方式向前释放纤维二糖单元(β-1,4葡萄糖-葡萄糖二糖)的纤维二糖水解酶，和(3)从短的纤维寡糖(例如纤维二糖)释放葡萄糖单体的β-葡糖苷酶。

在本发明组合物(例如，酶总体，或制备产品)的可选择的方面：(a)所述内切葡聚糖酶包含SEQ ID NO：106，所述纤维二糖水解酶Ⅰ包含SEQ ID NO：34或SEQ ID NO：46，所述纤维二糖水解酶Ⅱ包含SEQ IDNO：98，所述β-葡糖苷酶包含SEQ ID NO：94，所述木聚糖酶包含SEQ IDNO：100、SEQ ID NO：102或SEQ ID NO：524，所述β-木糖苷酶包含SEQID NO：96，所述阿拉伯呋喃糖苷酶包含SEQ ID NO：92或SEQ IDNO：104，或其任何组合，其中SEQ ID NO：106可选择地包含另外的糖结合结构域；或(b)所述混合物包含：包含SEQ ID NO：106的内切葡聚糖酶、包含SEQ ID NO：522的寡聚体酶-1、包含SEQ ID NO：34或SEQID NO：46的纤维二糖水解酶Ⅰ(CBH Ⅰ)、包含SEQ ID NO：98的纤维二糖水解酶Ⅱ(CBH Ⅱ)、包含SEQ ID NO：92的阿拉伯呋喃糖苷酶、包含SEQ ID NO：520的寡聚体酶-2(或β-木糖苷酶)和包含SEQ IDNO：524或SEQ ID NO：100的木聚糖酶。

本发明提供包含酶混合物的组合物或制备产品，所述酶混合物包含：(a)SEQ ID NO：106、纤维二糖水解酶Ⅰ(CBH Ⅰ)和纤维二糖水解酶Ⅱ(CBH Ⅱ)；(b)如(a)所述的混合物，其中所述CBHⅠ是SEQ IDNO：46或SEQ ID NO：34；(c)如(a)或(b)所述的混合物，其中所述CBHⅡ是SEQ ID NO：98；(d)如(a)、(b)、或(c)所述的混合物，其进一步包含阿拉伯呋喃糖苷酶；(e)如(d)所述的混合物，其中所述阿拉伯呋喃糖苷酶是SEQ ID NO：92和/或SEQ ID NO：104；(f)如(a)、(b)、(c)、(d)或(e)所述的混合物，其进一步包含木聚糖酶；(g)如(f)所述的混合物，其中所述木聚糖酶是SEQ ID NO：100、SEQ ID NO：102或SEQ IDNO：524，或其组合；(h)如(a)、(b)、(c)、(d)、(e)、(f)或(g)所述的混合物，其进一步包含寡聚体酶；(i)如(h)所述的混合物，其中所述寡聚体酶是SEQ ID NO：520或SEQ ID NO：522，或其组合；(j)如(a)、(b)、(c)、(d)、(e)、(f)、(g)、(h)或(i)所述的混合物，其进一步包含SEQ ID NO：94、SEQ ID NO：96、SEQ ID NO：264、SEQ ID NO：440或SEQ ID NO：442或其组合的至少一个；或(k)如(a)、(b)、(c)、(d)、(e)、(f)、(g)、(h)、(i)或(j)所述的混合物，其进一步包含内切葡聚糖酶，其中可选择地所述内切葡聚糖酶包含SEQ ID NO：108、SEQ ID NO：112、SEQ ID NO：114或SEQ ID NO：116。

本发明提供加工包含木素纤维素的生物质材料的方法，该方法包括使用本发明多肽，或由本发明核酸编码的多肽，或本发明的酶总体、制备产品或“鸡尾酒”接触包含纤维素或可发酵的糖类的组合物，其中可选择地所述生物质材料包含衍生自农作物的木素纤维素、是食物或饲料生产的副产品、是木素纤维素废产品、或是植物残体（plant residue）或废纸或废纸产品，并且可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性，并且可选择地所述植物残体包括谷粒、种子、茎、叶、谷壳(hull)、果壳(husk)、玉米穗、玉米秸秆、稻草、草（其中可选择地所述草为印度草或柳枝稷）、木材、木片、木质纸浆和木屑，并且可选择地所述废纸包括废弃的或用过的复印纸（photocopy paper）、计算机打印纸、笔记本纸、留言簿纸、打字机纸、报纸、杂志、纸板和纸质包装材料，并且可选择地所述生物质材料的加工产生生物乙醇。

本发明提供包含本发明多肽，或由本发明核酸编码的多肽，或本发明酶总体、制备产品或“鸡尾酒”的乳制品，其中可选择地所述乳制品包括牛奶、冰淇淋、干酪或酸奶，并且可选择地所述多肽具有包括寡聚体酶和/或纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供改善乳制品的质地（texture）和风味的方法，该方法包括如下步骤：(a)提供本发明多肽，或由本发明核酸编码的多肽，或本发明的酶总体、制备产品或“鸡尾酒”；(b)提供乳制品；和(c)使步骤(a)中的多肽与步骤(b)中的乳制品在其中所述纤维素酶可改善所述乳制品的质地或风味的条件下接触。

本发明提供包含本发明多肽，或由本发明核酸编码的多肽，或本发明的酶总体、制备产品或“鸡尾酒”的纺织品或织物，其中可选择地所述纺织品或织物包含具有纤维素的纤维，并且可选择地所述多肽具有包括寡聚体酶和/或纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供处理固体或液体的动物废弃物的方法，该方法包括如下步骤：(a)提供本发明多肽，或由本发明核酸编码的多肽，或本发明的酶总体、制备产品或“鸡尾酒”，其中可选择地所述多肽具有包括寡聚体酶和/或纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性；(b)提供固体或液体的动物废弃物；和(c)使步骤(a)中的多肽与步骤(b)中的固体或液体废弃物在其中所述蛋白酶可以处理所述废弃物的条件下接触。

本发明提供包含本发明多肽，或由本发明核酸编码的多肽，或本发明酶总体、制备产品或“鸡尾酒”的经过加工的废产品，其中可选择地所述多肽具有包括寡聚体酶和/或纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供包含具有寡聚体酶和/或纤维素酶活性的多肽的消毒剂，其中所述多肽包含本发明序列，或由本发明核酸编码的多肽，或本发明酶总体、制备产品或“鸡尾酒”，其中可选择地所述多肽具有包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供包含具有寡聚体酶和/或纤维素酶活性的多肽的生物防御或生物解毒剂，其中所述多肽包含本发明序列，或由本发明核酸编码的多肽，或本发明酶总体、制备产品或“鸡尾酒”，其中可选择地所述多肽具有包括内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性。

本发明提供包含半纤维素水解酶和纤维素水解酶的混合物的组合物(包括本发明的酶总体和制备产品)，其中所述纤维素水解酶包含至少一种内切葡聚糖酶、纤维二糖水解酶Ⅰ、纤维二糖水解酶Ⅱ和β-葡糖苷酶；而所述半纤维素水解酶包含至少一种木聚糖酶、β-木糖苷酶和阿拉伯呋喃糖苷酶。一方面，所述内切葡聚糖酶是EG1_CDCBM3（SEQID NO：106（由例如SEQ ID NO：105编码)加上糖结合结构域），所述纤维二糖水解酶Ⅰ(CBHⅠ)是SEQ ID NO：34（由例如SEQ ID NO：33编码）或SEQ ID NO：46（由例如SEQ ID NO：45编码)，所述纤维二糖水解酶Ⅱ是SEQ ID NO：98（由例如SEQ ID NO：97编码)，所述β-葡糖苷酶是SEQ ID NO：94（由例如SEQ ID NO：93编码)，所述木聚糖酶是SEQ ID NO：100（由例如SEQ ID NO：99编码)、SEQ ID NO：102（由例如SEQ ID NO：101编码)或SEQ ID NO：524（由例如SEQ ID NO：523编码)，所述β-木糖苷酶是SEQ ID NO：96（由例如SEQ ID NO：95编码)，所述阿拉伯呋喃糖苷酶是SEQ ID NO：92（由例如SEQ ID NO：91编码)或SEQ ID NO：104（由例如SEQ ID NO：103编码)，或其组合。

本发明提供包含如下组成的组合物(包括本发明的酶总体和制备产品）：(a)SEQ ID NO：106、SEQ ID NO：264、纤维二糖水解酶Ⅰ(CBHⅠ)、纤维二糖水解酶Ⅱ(CBH Ⅱ)、SEQ ID NO：100或SEQ IDNO：524、SEQ ID NO：96、SEQ ID NO：92、SEQ ID NO：440和SEQ IDNO：442；或(b)SEQ ID NO：106、SEQ ID NO：264、SEQ ID NO：34或SEQID NO：46、SEQ ID NO：98、SEQ ID NO：100或SEQ ID NO：524、SEQ IDNO：96、SEQ ID NO：92、SEQ ID NO：440、SEQ ID NO：442和SEQ IDNO：102；(c)SEQ ID NO：98；SEQ ID NO：34或SEQ ID NO：46；SEQ IDNO：94；SEQ ID NO：100或SEQ ID NO：524；SEQ ID NO：102；SEQ IDNO：96；SEQ ID NO：92；和，SEQ ID NO：104；或，(d)如(a)、(b)、或(c)所述的混合物，其进一步包含内切葡聚糖酶，其中可选择地所述内切葡聚糖酶包含SEQ ID NO：108、SEQ ID NO：108、SEQ ID NO：112、SEQ ID NO：114或SEQ ID NO：116。

本发明提供包含本发明半纤维素水解酶和纤维素水解酶的混合物和生物质材料的组合物(包括本发明的酶总体和制备产品），其中可选择地所述生物质材料包含衍生自农作物的木素纤维素，或所述生物质材料是食物或饲料生产的副产品，或所述生物质材料是木素纤维素废产品，或所述生物质材料是植物残体或废纸或废纸产品，或所述生物质材料包含植物残体，并且可选择地所述植物残体包括谷粒、种子、茎、叶、谷壳、果壳、玉米穗、玉米秸秆、草（其中可选择地所述草是印度草或柳枝稷）、稻草、木材、木片、木质纸浆和/或木屑，并且可选择地所述废纸包括废弃的或用过的复印纸、计算机打印纸、笔记本纸、留言簿纸、打字机纸、报纸、杂志、纸板和纸质包装材料。

本发明提供加工生物质材料的方法，该方法包括提供本发明的酶总体(“鸡尾酒”)或制备产品，或半纤维素水解酶和纤维素水解酶的混合物，其中所述纤维素水解酶包含至少一种内切葡聚糖酶、纤维二糖水解酶Ⅰ、纤维二糖水解酶Ⅱ和β-葡糖苷酶，而所述半纤维素水解酶包含至少一种木聚糖酶、β-木糖苷酶和阿拉伯呋喃糖苷酶；和使用所述生物质材料接触所述酶混合物，其中可选择地所述生物质材料包含衍生自农作物的木素纤维素、是食物或饲料生产的副产品、是木素纤维素废产品、或是植物残体或废纸或废纸产品，并且可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的活性，并且可选择地所述植物残体包括谷粒、种子、茎、叶、谷壳、果壳、玉米穗、玉米秸秆、草（其中可选择地所述草是印度草或柳枝稷）、稻草、木材、木片、木质纸浆和木屑，并且可选择地所述废纸包括废弃的或用过的复印纸、计算机打印纸、笔记本纸、留言簿纸、打字机纸、报纸、杂志、纸板和纸质包装材料，并且可选择地生物质材料的加工产生生物乙醇。一方面，所述内切葡聚糖酶是EG1_CDCBM3(SEQ ID NO：106（由例如SEQ ID NO：105编码）加上糖结合结构域），所述纤维二糖水解酶Ⅰ是SEQ ID NO：34（由例如SEQID NO：33编码）或SEQ ID NO：46（由例如SEQ ID NO：45编码），所述纤维二糖水解酶Ⅱ是SEQ ID NO：98（由例如SEQ ID NO：97编码），所述β-葡糖苷酶是SEQ ID NO：94（由例如SEQ ID NO：93编码），所述木聚糖酶是SEQ ID NO：100（由例如SEQ ID NO：99编码）或SEQ IDNO：102（由例如SEQ ID NO：101编码）或SEQ ID NO：524（由例如SEQID NO：523编码），所述β-木糖苷酶是SEQ ID NO：96（由例如SEQ IDNO：95编码），所述阿拉伯呋喃糖苷酶是SEQ ID NO：92（由例如SEQID NO：91编码）或SEQ ID NO：104（由例如SEQ ID NO：103编码），或其组合。

本发明提供包含酶的混合物的组合物(包括本发明的酶总体(“鸡尾酒”)或制备产品），所述酶的混合物包含SEQ ID NO：106（由例如SEQ ID NO：105编码）、SEQ ID NO：264（由例如SEQ ID NO：263编码）、纤维二糖水解酶Ⅰ(CBH Ⅰ)、纤维二糖水解酶Ⅱ(CBH Ⅱ)、SEQ IDNO：100（由例如SEQ ID NO：99编码）或SEQ ID NO：524（由例如SEQID NO：523编码）、SEQ ID NO：96（由例如SEQ ID NO：95编码）、SEQID NO：92（由例如SEQ ID NO：91编码）、SEQ ID NO：440（由例如SEQID NO：439编码）和SEQ ID NO：442（由例如SEQ ID NO：441编码）。一方面，所述酶的混合物包含SEQ ID NO：34（由例如SEQ ID NO：33编码）、SEQ ID NO：98（由例如SEQ ID NO：97编码）和SEQ ID NO：104（由例如SEQ ID NO：103编码）。

本发明提供加工生物质材料的方法，该方法包括提供本发明酶的混合物(包括本发明酶总体(“鸡尾酒”)或制备产品），和使用所述生物质材料接触所述酶混合物，其中可选择地所述生物质材料包含衍生自农作物的木素纤维素、是食物或饲料生产的副产品、是木素纤维素废产品、或是植物残体或废纸或废纸产品，并且可选择地所述多肽具有包括纤维素酶、内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶、和/或寡聚体酶活性的活性，并且可选择地所述植物残体包括种子、茎、叶、谷壳、果壳、玉米穗、玉米秸秆、草（其中可选择地所述草是印度草或柳枝稷）、谷粒、稻草、木材、木片、木质纸浆和木屑，并且可选择地所述废纸包括废弃的或用过的复印纸、计算机打印纸、笔记本纸、留言簿纸、打字机纸、报纸、杂志、纸板和纸质包装材料，并且可选择地所述生物质材料的加工产生生物乙醇。

本发明提供包含第一个结构域和至少第二个结构域的嵌合多肽，其中所述第一个结构域包含本发明酶，而第二个结构域包含异源或改变的糖结合结构域或异源或改变的停靠结构域（dockerin domain），并且可选择地所述糖结合结构域是纤维素结合模块(CBM)或木质素结合结构域，并且可选择地所述第二个结构域挂靠于所述酶的催化结构域，并且可选择地所述第二个结构域挂靠于所述酶的催化结构域的C-末端。

本发明提供包含具有纤维二糖水解酶Ⅰ活性的多肽和具有阿拉伯呋喃糖苷酶活性的多肽的组合物，其中至少一个具有纤维二糖水解酶Ⅰ活性的多肽是SEQ ID NO：34（由例如SEQ ID NO：33编码）。

本发明的一个或多个方面的详情在附图和下文的说明提出。本发明的其他特征、目的和优点将通过下面的说明和附图和权利要求而明显。

本文引用的所有出版物、专利、专利申请、GenBank序列和ATCC保藏品均通过引用明确结合入本文，并用于所有目的。

附图简述

附图示例说明本发明的方面，并不是要限制权利要求所涵盖的本发明的范围。

本专利或申请文件包含至少一个彩色图。在请求并支付必要的费用后，将由官方提供带有彩色附图的本专利或专利申请公布的副本。

图1是计算机系统的框图。

图2是说明将新的核苷酸或蛋白序列与序列数据库进行比较，以确定所述新的序列和所述数据库中的序列之间的同源水平的过程的一个方面的流程图。

图3是说明用于确定两个序列是否同源的计算机过程的一个方面的流程图。

图4是说明用于检测序列中的特征的存在的鉴定过程300的流程图。

图5说明纤维二糖的结构。

图6、7和8是消化纤维素(图6和7)和半纤维素(图8)的酶学驱动途径的示意说明；详细讨论参见下文的实施例11。

图9是说明通过如易错PCR的方法在编码所述多肽的多核苷酸中引入单点突变而得到的多肽中可能的突变的多样性的图。由于多核苷酸序列中的复制错误（如那些使用易错PCR引入的错误）不可能产生两个-更不可能是三个－连续的核苷酸变化，所述方法不可能在每个密码子位置处实现多于5-7（平均而言）个密码子变化。图示了此方法在实现沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化上差的能力。与此相反，基因位点饱和诱变(gene site-saturation mutagenesis，GSSM)方法确实实现了多个密码子置换（优选包括由简并盒序列N,N,G/T代表的32个密码子），以实现沿多肽的每个氨基酸位点的所有可能的氨基酸变化。

图10以图形形式说明了显示典型的GIGAMATRIX^TM断裂的数据，其中鉴定了表达能够水解甲基伞形酮纤维二糖苷的酶的活性克隆，详细讨论参见下文的实施例4。

图11是说明使用基因位点饱和诱变(GSSM)方法以获得沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化的图。

图12概括了GSSM过程。

图13概括了用于开发和实施本发明的Gene Discovery &

技术(Diversa Corporation，San Diego，CA)，如此处所述。

图14是说明使用GIGAMATRIX^TM平台与传统的384孔板进行筛选的差异的技术比较。

图15说明了96孔板的单个孔（直径(dia.)8mm）相对于约1,000个GIGAMATRIX^TM孔(直径约0.2mm)的大小。

图16以图形形式说明了对预处理的玉米穗进行酶处理的数据，详细讨论参见下文的实施例5。

图17说明了使用3种不同浓度的本发明示例性内切葡聚糖酶消化碱预处理的玉米秸秆的数据；使用HPLC方法监测随时间的产物释放（纤维二糖和葡萄糖），详细讨论参见下文的实施例7。

图18说明了显示通过本发明示例性木聚糖酶从高强度碱(highseverity alkaline)预处理的玉米秸秆(alkPCS)释放木糖的数据，详细讨论参见下文的实施例7。

图19说明了显示通过本发明示例性酶消化高强度碱预处理的玉米秸秆(alkPCS)的数据，详细讨论参见下文的实施例7。

图20说明了显示使用纤维二糖水解酶Ⅰ(CBH Ⅰ)(图20A)和纤维二糖水解酶Ⅱ(CBH Ⅱ)(图20B)与示例性木聚糖酶和示例性内切葡聚糖酶的组合时葡萄糖释放的速率和程度的数据，详细讨论参见下文的实施例7。

图21说明了显示通过20种不同的内切葡聚糖酶在48小时后从预处理的玉米秸秆样品释放葡萄糖的数据，详细讨论参见下文的实施例5。

图22说明了显示76种β-葡糖苷酶作用于对硝基苯-β-吡喃葡萄糖苷的最适温度和pH的数据，详细讨论参见下文的实施例5。

图23说明了显示通过三种不同酶载量的示例性木聚糖酶消化高强度碱预处理的玉米秸秆(PCS)的数据，详细讨论参见下文的实施例5。

图24说明了八种木糖苷酶在50℃或37℃下水解木二糖的数据，详细讨论参见下文的实施例5。

图25说明了显示通过木聚糖酶、木糖苷酶和阿拉伯呋喃糖苷酶的组合从高强度碱预处理的玉米秸秆(PCS)释放木糖和阿拉伯糖的数据，详细讨论参见下文的实施例5。

图26说明了显示本发明示例性酶鸡尾酒对低强度alkPCS和碱预处理的玉米穗的作用的数据，详细讨论参见下文的实施例5。

图27以表格形式比较了

纤维素酶和本发明示例性酶鸡尾酒E9作用于四种不同预处理的玉米样品的数据，详细讨论参见下文的实施例5。

图28以表格形式列出了EG在规定的37℃、pH7.0下对可溶性纤维素底物羧甲基纤维素(CMC)的比活性的数据；详细讨论参见下文的实施例8。

图29说明了示例性EG在60℃(图29A)和80℃(图29B)的归一化条件下对的水解；详细讨论参见下文的实施例8。

图30用图形说明了显示示例性酶作用于

MCC的最适pH和温度的数据；详细讨论参见下文的实施例8。

图31用图形说明了显示本发明89种β-葡糖苷酶的最适pH和温度的数据；详细讨论参见下文的实施例9。

图32说明了本发明CBH基因的系统树；详细讨论参见下文的实施例9。

图33说明了粗细胞提取物的SDS PAGE和经阴离子交换层析后富集的(重组的)本发明示例性β-葡糖苷酶活性；详细讨论参见下文的实施例5。

图34说明了所述粗细胞提取物和经阴离子交换层析后富集的示例性β-葡糖苷酶的SDS PAGE；详细讨论参见下文的实施例5。

图35说明了所述粗细胞提取物和经阳离子交换层析后富集的本发明示例性木聚糖酶的SDS PAGE；详细讨论参见下文的实施例5。

图36说明了所述粗细胞提取物和经阳离子交换层析后富集的本发明示例性木聚糖酶的SDS PAGE；详细讨论参见下文的实施例5。

图37说明了粗细胞提取物和经阴离子交换层析后富集的具有β-木糖苷酶活性的本发明示例性酶的SDS PAGE；详细讨论参见下文的实施例5。

图38说明了粗细胞提取物和经阴离子交换层析后富集的具有阿拉伯呋喃糖苷酶活性的本发明示例性酶的SDS PAGE；详细讨论参见下文的实施例5。

图39说明了经PAPC亲和配体富集的具有纤维二糖水解酶活性的本发明示例性酶的SDS-PAGE；详细讨论参见下文的实施例5。

图40说明了经尺寸排阻层析富集的本发明示例性家族7纤维二糖水解酶的SDS-PAGE；详细讨论参见下文的实施例5。

图41说明了本发明示例性酶消化生物质产生的产物的代表性HPLC示踪的层析图；详细讨论参见下文的实施例5。

图42用图形说明了使用本发明示例性酶的纤维素酶消化获得的数据（使用5%固体的绝对浓度和转化百分比）；详细讨论参见下文的实施例5。

图43用图形说明了消化10%固体（使用商业纤维素＋7.5“FPU同等物”/g商业木聚糖酶）的数据；详细讨论参见下文的实施例5。

图44和图45各自用图形说明了显示通过三种不同的本发明示例性酶鸡尾酒从5%纤维素固体组合物催化释放葡萄糖的数据；详细讨论参见下文的实施例5。

图46用图形说明了显示按每克纤维素使用58毫克所述的示例性“E9鸡尾酒”消化10%纤维素固体组合物的数据；详细讨论参见下文的实施例5。

图47用图形说明了显示葡萄糖出现的时间过程（使用每克纤维素18.1毫克示例性酶鸡尾酒“E8”和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图48用图形说明了显示葡萄糖出现的时间过程（使用18.1毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图49用图形说明了显示葡萄糖出现的时间过程（使用9毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图50用图形说明了显示葡萄糖出现的时间过程（使用9毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图51用图形说明了显示木糖出现的时间过程（使用18毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图52用图形说明了显示木糖出现的时间过程（使用18毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图53用图形说明了显示木糖出现的时间过程（使用9毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图54用图形说明了显示木糖出现的时间过程（使用9毫克示例性E8酶鸡尾酒/g纤维素和1、5和10%固体（预处理的玉米穗））的数据；详细讨论参见下文的实施例5。

图55和56以图表形式概述了图47至50(葡萄糖)和图51至54(木糖)中显示的数据；详细讨论参见下文的实施例5。

图57至59以表格形式概述了本发明示例性酶混合物的组合物：图57（情形1-CBH Ⅰ/CBH Ⅱ)、图58(情形2-CBH Ⅰ/SEQ IDNO：98（由例如SEQ ID NO：97编码）)和图59(情形3-SEQ ID NO：34（由例如SEQ ID NO：33编码）/SEQ ID NO：98（由例如SEQ ID NO：97编码）)；详细讨论参见下文的实施例10。

图60用图形说明了显示三种不同的示例性E8鸡尾酒从5%固体（预处理的玉米穗）催化释放葡萄糖的数据；详细讨论参见下文的实施例10。

图61用图形说明了显示三种不同的示例性E8鸡尾酒从5%固体（预处理的玉米穗）催化释放木糖的数据；详细讨论参见下文的实施例10。

图62和63是消化纤维素(图63)和半纤维素(图62)的酶学驱动途径的示意说明；详细讨论参见下文的实施例11。

图64的数据概述了不同酶作用于微晶纤维素的最适pH和温度的研究；详细讨论参见下文的实施例11。

图65用图形说明了显示两种本发明示例性酶与微晶纤维素和磷酸溶胀纤维素的反应时间过程的数据；详细讨论参见下文的实施例11。

图66用图形说明了通过本发明不同内切葡聚糖酶(EG)从高、中和低强度alkPCS释放葡萄糖同等物的数据；详细讨论参见下文的实施例11。

图67用图形说明了显示本发明示例性酶的剂量依赖性的研究的数据；详细讨论参见下文的实施例11。

图68说明了设计用于筛选大量酶和底物的本发明示例性自动化系统的示意图；详细讨论参见下文的实施例11。

图69用图形说明了使用本发明示例性分析（包括使用“BCA”(二辛可宁酸)还原糖分析法）的产物检测方法的研究的数据；详细讨论参见下文的实施例11。

图70用图形说明了显示本发明智能机器方法的结果的研究的数据，其中每天进行数千个分析反应，所述分析包括使用碱性PCS和一系列本发明内切葡聚糖酶；详细讨论参见下文的实施例11。

图71说明了酶消化alkPCS之后HPLC分离糖单体的数据；详细讨论参见下文的实施例11。

图72概述了纤维寡糖（从纤维二糖至纤维六糖）的毛细管电泳分离；详细讨论参见下文的实施例11。

图73概述了纤维寡糖（从纤维二糖至纤维六糖）的毛细管电泳分离；详细讨论参见下文的实施例11。

图74用图形说明了示例性酶对底物纤维二糖的活性的Michaelis-Menten图；详细讨论参见下文的实施例11。

图75说明了30L发酵罐的肉汤培养物的SDS-PAGE分析，图76用图形说明了所述肉汤培养物的活性分析，以显示蛋白和活性的积累；详细讨论参见下文的实施例11。

图77用图形说明了显示组合使用本发明示例性木聚糖酶和本发明示例性内切葡聚糖酶(图77A)或(图77B)对纤维素的水解效果的数据；详细讨论参见下文的实施例11。

图78用图形说明了使用本发明酶混合物（通过组合本发明示例性木聚糖酶、本发明示例性内切葡聚糖酶、本发明示例性β-葡糖苷酶和CBH Ⅰ(图78A)或CBH Ⅱ(图78B)制备）对纤维素的水解效果的数据。

图79用图形说明了显示以木聚糖为底物时三种不同的酶上样的时间过程的数据，通过HPLC-RI监测木糖和木二糖产物，然后将数据转化为“木糖同等物”；详细讨论参见下文的实施例11。

图80用图形说明了显示筛选的β-葡糖苷酶的最适pH和温度的数据；详细讨论参见下文的实施例12。

图81用图形说明了显示示例性酶的葡萄糖抑制的数据；详细讨论参见下文的实施例12。

图82用图形说明了显示包含本发明核酸的重组的异旋孢腔菌（C.heterostrophus）菌株消化磷酸溶胀的纤维素(PASC)的数据；详细讨论参见下文的实施例12。

图83用图形说明了显示本发明示例性酶的活性依赖于在摇瓶中的天数的数据；图83A-包含5种不同的家族6CBH的菌株在500mL摇瓶中生长过程中的PASC活性；图83B-包含4种不同的家族7CBH的菌株在500mL摇瓶中生长过程中的PASC活性，详细讨论参见下文的实施例12。

图84用图形说明了显示组合本发明不同酶时转化百分比的进步的数据；该图描述了本发明示例性酶混合物，例如，E10、E9等；该图用图形说明了向所述鸡尾酒添加本发明酶时葡萄糖和木糖转化的提高；详细讨论参见下文的实施例12。

图85通过显示48小时释放的糖的量，用图形说明了

酶和命名为“E9”的本发明示例性酶混合物对预处理的生物质原料的消化；图85A，释放的葡萄糖；图85B，释放的木糖；图85C，释放的阿拉伯糖；详细讨论参见下文的实施例12。

图86用图形说明了显示使用添加有里氏木霉（T.reesei）CBH Ⅰ和Ⅱ或本发明示例性酶的示例性“E8”鸡尾酒进行温育的过程中，从5%固体预处理的玉米穗(5%重量)释放葡萄糖的数据；详细讨论参见下文的实施例12。

图87和图88用图形说明了显示使用纤维素

纤维素酶加

木聚糖酶消化Jaygo2（分别为5%固体和10%固体）的数据；详细讨论参见下文的实施例12。

图89和图90用图形说明了显示三种不同的本发明示例性酶混合物从Jaygo2(5%固体)催化释放葡萄糖的数据；详细讨论参见下文的实施例12。

图91用图形说明了显示作用于纤维素的本发明示例性“E9”酶混合物消化Jaygo2(10%固体)的数据；详细讨论参见下文的实施例12。

图92用图形说明了使用10%固体Jaygo2和多种酶配方（纤维素酶和半纤维素酶含量不同）时葡萄糖(G1)和木糖(X1)的转化水平；详细讨论参见下文的实施例12。

图93A用图形说明了使用本发明示例性酶混合物和固体(Jaygo2)上样时的葡萄糖转化百分比；图93B用图形说明了使用本发明示例性酶混合物和固体(Jaygo2)上样时，48小时的木糖转化百分比；详细讨论参见下文的实施例12。

图94用图形说明了使用本发明示例性木糖苷酶、木聚糖酶和阿拉伯呋喃糖苷酶时，低强度alkPCS(2.2%固体)的木糖释放(图94A)和阿拉伯糖释放(图94B)；详细讨论参见下文的实施例12。

图95说明了使用本发明示例性酶混合物“E10鸡尾酒”温育48小时后消化Jaygo2(5%固体)(图95A)和随后对这些液体进行酸水解(图95B)的结果的层析图；详细讨论参见下文的实施例12。

图96说明了分馏的、E10酶混合物诱导产生的糖化液体的HPLC；详细讨论参见下文的实施例12。

图97说明了E10酶混合物消化的糖化液体（上图）的馏分的毛细管电泳结果；下图包括标准的单糖和寡糖；详细讨论参见下文的实施例12。

图98说明了在本发明示例性酶鸡尾酒中测试的6种果胶酶的SDS-PAGE；详细讨论参见下文的实施例12。

图99说明了在本发明示例性E8鸡尾酒中测试的6种β-葡糖苷酶的SDS-PAGE；详细讨论参见下文的实施例12。

图100说明了未分馏的糖化液体的HPLC-RI示踪，显示难分解寡糖(F2)、纤维二糖(CB)、葡萄糖(G)、木糖(X)和阿拉伯糖(A)；详细讨论参见下文的实施例12。

图101说明了分馏的糖化液体的HPLC-RI示踪，显示难分解寡糖(F2)、纤维二糖(CB)、葡萄糖(G)、木糖(X)和阿拉伯糖(A)；详细讨论参见下文的实施例12。

图102说明了使用本发明示例性酶时图101中所示的样品的HPLC-RI示踪；详细讨论参见下文的实施例12。

图103说明了使用示例性阿拉伯呋喃糖苷酶时图102中所示的样品的HPLC-RI示踪；详细讨论参见下文的实施例12。

图104说明了本发明示例性酶消化分馏的可溶性寡聚体(AX₃)的HPLC分析；详细讨论参见下文的实施例12。

图105说明了显示包含示例性酶SEQ ID NO：34（由例如SEQ IDNO：33编码）和SEQ ID NO：98（由例如SEQ ID NO：97编码）的本发明E8鸡尾酒消化分馏的可溶性寡聚体(AX₃)的数据；上图是仅含底物，而下图则是与酶温育14小时之后；详细讨论参见下文的实施例12。

图106用图形说明了不同基因剔除的分泌酶SEQ ID NO：34（由例如SEQ ID NO：33编码）对PASC的水解。

图107说明了Jaygo2经本发明示例性酶混合物“E8”（包含里氏木霉CBH Ⅰ和Ⅱ和两种本发明酶）的48小时糖化后的产物图谱；详细讨论参见下文的实施例12。

图108用图形说明了比较有无SEQ ID NO：104（由例如SEQ IDNO：103编码）时示例性酶“E8”鸡尾酒(SEQ ID NO：34（由例如SEQ IDNO：33编码）/SEQ ID NO：98（由例如SEQ ID NO：97编码）)的酶进程曲线；详细讨论参见下文的实施例12。

图109用图形说明了包含CBH Ⅰ、CBH Ⅱ和EG1_CDCBM3(SEQID NO：106（由例如SEQ ID NO：105编码）加上糖结合结构域)的示例性酶鸡尾酒“E8”的产物图谱；详细讨论参见下文的实施例12。

图110说明了APTS标记的阿拉伯木聚糖片段的毛细管电泳的结果，其中#1、2和3是标准分子，而#5和6是从糖化液体中分离的分子；而图111说明了阿拉伯木聚糖片段的¹³C NMR谱的结果；详细讨论参见下文的实施例12。

图112说明了74种诱变的旋孢腔菌（Cochliobolus）菌株分泌的蛋白（酶）对底物4-MU-纤维二糖苷的活性；详细讨论参见下文的实施例12。

图113说明了诱变的旋孢腔菌菌株的分泌蛋白活性（使用底物4-MU-纤维二糖苷）；详细讨论参见下文的实施例12。

图114说明了来自SEQ ID NO：34（由例如SEQ ID NO：33编码）的突变体表达和活性研究的功能和定量数据，其中所述酶在旋孢腔菌中表达；详细讨论参见下文的实施例12。

图115说明了图114中特定孔的蛋白质印迹，其中SEQ ID NO：34（由例如SEQ ID NO：33编码）在微滴孔板中生长，并且酶活性使用底物PASC进行分析；详细讨论参见下文的实施例12。

图116说明了96通道MegaBACE^TM仪器的48个通道的未校准的（unaligned）电泳图；详细讨论参见下文的实施例12。

图117显示了再次确认不同的“过表达的”旋孢腔菌菌株的高蛋白表达和活性的数据；详细讨论参见下文的实施例12。

图118说明了不同的“过表达的”旋孢腔菌菌株的分泌蛋白的SDS-PAGE；详细讨论参见下文的实施例12。

图119说明了示例性酶SEQ ID NO：98（由例如SEQ ID NO：97编码）和SEQ ID NO：34（由例如SEQ ID NO：33编码）的10个个体曲霉（Aspergillus）转化株的分泌蛋白的SDS-PAGE；详细讨论参见下文的实施例12。

图120说明了曲霉和旋孢腔菌生产的本发明示例性酶SEQ IDNO：34（由例如SEQ ID NO：33编码）和SEQ ID NO：98（由例如SEQ IDNO：97编码）的SDS-PAGE，以比较它们在所述的两个示例性细胞表达系统中的生成；详细讨论参见下文的实施例12。

图121说明了本发明示例性酶鸡尾酒的多糖水解反应的时间过程研究，详细讨论参见下文。

图122A和122B说明了本发明示例性酶鸡尾酒的多糖水解反应的时间过程研究，详细讨论参见下文。

图123用图形说明了显示本发明示例性鸡尾酒随时间的木聚糖转化百分比数据，详细讨论参见下文的实施例13。

不同图中同样的引用标号指示同样的要素。

发明详述

一方面，本发明提供具有任何纤维素分解活性例如纤维素酶活性（例如，内切葡聚糖酶、纤维二糖水解酶、甘露聚糖酶和/或β-葡糖苷酶活性）的多肽、编码这些多肽的多核苷酸，以及制备和使用这些多核苷酸和多肽的方法。一方面，本发明提供具有寡聚体酶活性的多肽，例如，在生物质的糖化过程中将可溶性寡聚体转化为可发酵的单体糖的酶，例如，其中所述活性包括将可溶性纤维寡糖和阿拉伯木聚糖寡聚体酶解（降解）为单体木糖、阿拉伯糖和葡萄糖；和编码这些酶的多核苷酸，以及制备和使用这些多核苷酸和多肽。一方面，本发明提供本发明多肽的热稳定和耐热形式。本发明多肽可用于药学、农业和工业的多个领域。

一方面，本发明提供催化速率增加、促进底物水解过程的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。此催化速率的效率的增加导致生成糖类的效率增加，糖类随后被微生物用于乙醇生产。一方面，产生本发明酶的微生物与生产乙醇的微生物一起使用。因此，本发明提供生产乙醇和制备基于乙醇的“清洁燃料”的方法，例如，使用生物乙醇的运输。

一方面，本发明提供包含本发明酶、多肽或多核苷酸的组合物（例如，酶制品、饲料、药物、膳食补剂)。这些组合物可配制成多种形式，例如，作为液体、凝胶、丸剂、片剂、喷雾剂、粉剂、食物、颗粒饲料或包胶形式（包括纳米包胶形式）。

测量纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，例如，确定多肽是否具有纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的分析法在本领域为公知，并在本发明的范围内；参见例如Baker WL，Panow A，Estimation ofcellulase activity using a glucose-oxidase-Cu(Ⅱ)reducing assay forglucose（使用针对葡萄糖的葡萄糖氧化酶-Cu(Ⅱ)还原分析法来估计纤维素酶活性），J Biochem Biophys Methods.，1991年12月，23(4)：265-73；Sharrock KR，Cellulase assay methods：a review（纤维素酶分析方法综述），J Biochem Biophys Methods.，1988年10月，17(2)：81-105；CarderJH，Detection and quantitation of cellulase by Congo red staining ofsubstrates in a cup-plate diffusion assay（通过在杯碟扩散分析法中对底物进行刚果红染色来检测和定量纤维素酶），Anal Biochem.，1986年2月15日，153(1)：75-9；Canevascini G.，A cellulase assay coupled tocellobiose dehydrogenase（与纤维二糖脱氢酶偶联的纤维素酶分析法），Anal Biochem.，1985年6月，147(2)：419-27；Huang JS，Tang J，Sensitiveassay for cellulase and dextranase（纤维素酶和葡聚糖酶的敏感分析法），Anal Biochem.，1976年6月，73(2)：369-77。

本发明利用的反应条件的pH是本发明提供的另一可变参数。在某些方面，进行反应的pH位于约3.0至约9.0范围内。在其他方面，pH是约4.5，或pH是约7.5，或pH是约9。在碱性条件下进行的反应条件也可能是有利的，例如在本发明酶的某些工业或药学应用中。

本发明以多种形式和制剂提供本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽。在本发明的方法中，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽以多种形式和制剂使用。例如，纯化的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽可用于生物乙醇生产或药学或膳食助剂(dietary aid)应用中使用的酶制品。可选地，本发明酶可直接用于生产生物乙醇、制备清洁燃料、处理生物废物、加工食物、液体或饲料及类似的过程。

可选地，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽可以使用本领域已知的程序在微生物中表达。在其他方面，在用于本发明方法之前，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽可以固定在固体载体上。将酶固定在固体载体上的方法在本领域为普遍所知，例如，J.Mol.Cat.B：Enzymatic6(1999)29-39；Chivata等，Biocatalysis：Immobilized cellsand enzymes（生物催化：固定化细胞和酶），J.Mol.Cat.37(1986)1-24：Sharma等，Immobilized Biomaterials Techniques and Applications（固定化生物材料技术和应用），Angew.Chem.Int.Ed.Engl.21(1982)837-54：Laskin（编），Enzymes and Immobilized Cells in Biotechnology（生物技术中的酶和固定化细胞）。

核酸、探针和抑制分子

本发明提供分离的和重组的核酸（例如，参见下文的表1、2和3，实施例1和4，以及序列表）；编码多肽的核酸，包括本发明示例性多核苷酸序列（例如，参见表1和序列表）；包括表达盒，如包含本发明核酸的表达载体和各种克隆载体。本发明还包括使用本发明核酸发现、鉴定或分离新的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽序列的方法。本发明还包括使用本发明核酸抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶编码基因和转录物的表达的方法。

还提供了改变本发明核酸的方法，包括制备本发明核酸的变体，例如，通过合成连接重装配、最优定向进化系统和/或饱和诱变如基因位点饱和诱变(GSSM)。术语“饱和诱变”、基因位点饱和诱变或“GSSM”包括使用简并寡核苷酸引物在多核苷酸中引入点突变的方法，详细描述参见下文。术语“最优定向进化系统”或“最优定向进化”包括重装配相关核酸序列的片段（例如，相关基因）的方法，详细解释参见下文。术语“合成连接重装配”或“SLR”包括以非随机方式连接寡核苷酸片段的方法，详细解释参见下文。术语“变体”指(分别)在一个或多个碱基对、密码子、内含子、外显子或氨基酸残基处发生改变但仍保留本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的生物活性的本发明多核苷酸或多肽。变体可以通过任何数量的方法产生，所述方法包括例如，易错PCR、改组、寡核苷酸定向诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归总体诱变、指数总体诱变、位点特异性诱变、基因重装配、GSSM及其任何组合。

本发明核酸可通过例如克隆和表达cDNA文库、通过PCR扩增信息或基因组DNA及类似方式进行制备、分离和/或操纵。例如，本发明示例性序列最初衍生自环境来源。因此，一方面，本发明提供编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸和由它们编码的多肽，这些核酸和多肽具有共同的新颖性，因为它们衍生自共同的来源，例如环境、混合的培养物或细菌来源。

如此处所述，在实施本发明方法时，可通过操纵模板核酸来改变同源基因。本发明可以与本领域已知的任何方法或方案或设备（在科学和专利文献中已有详尽的描述）联合实施。

如此处所用，短语“核酸”或“核酸序列”指寡核苷酸、核苷酸、多核苷酸或指任何这些物质的片段，指基因组或合成来源的、可能是单链或双链的以及可代表有义或反义（互补）链的DNA或RNA，指肽核酸(PNA)，或指天然或合成来源的任何类DNA或类RNA物质。短语“核酸”或“核酸序列”包括寡核苷酸、核苷酸、多核苷酸，或指任何这些物质的片段，指基因组或合成来源的、可能是单链或双链的以及可代表有义或反义（互补）链的DNA或RNA(例如mRNA、rRNA、tRNA、iRNA)，指肽核酸(PNA)，或指天然或合成来源的任何类DNA或类RNA物质，包括例如iRNA、核糖核蛋白(例如，例如双链iRNA，例如iRNP)。该术语包括包含天然核苷酸的已知类似物的核酸，即寡核苷酸。该术语还包括具有合成的主链的类核酸结构，参见例如Mata(1997)Toxicol.Appl.Pharmacol.144：189-197；Strauss-Soukup(1997)Biochemistry36：8692-8698；Samstag(1996)Antisense Nucleic Acid DrugDev 6：153-156。“寡核苷酸”包括可化学合成的单链多脱氧核苷酸或两条互补的多脱氧核苷酸链。此类合成的寡核苷酸不具有5′磷酸，因而不会连接至另一寡核苷酸，除非在存在激酶的条件下使用ATP添加磷酸。合成的寡核苷酸可连接至尚未去磷酸化的片段。

特定多肽或蛋白“的编码序列”或“其编码核苷酸序列”是当置于适当的调控序列的控制之下时，被转录并翻译为多肽或蛋白的核酸序列。术语“基因”指参与生产多肽链的DNA节段；它包括位于编码区之前和之后的区域(前导区和非转录尾区)以及位于各编码节段(外显子)之间的间插序列(内含子)（如果适用）。当RNA聚合酶（在启动子处启动转录）将所述编码序列转录为mRNA时，启动子序列“可操作地连接至”编码序列。如此处所用，“可操作地连接”指两个或多个核酸(例如，DNA)节段之间的功能关系。它可以指转录调控序列与转录序列的功能关系。例如，如果启动子刺激或调控所述编码序列在适当的宿主细胞或其它表达系统的转录，则它可操作地连接至编码序列（如本发明核酸）。一般而言，可操作地连接至转录序列的启动子转录调控序列与所述转录序列在物理上紧接，即它们是顺式作用。但是，一些转录调控序列（如增强子）则不需要物理上紧接它们增强转录的编码序列或位于其附近。

如此处所用，术语“表达盒”指在与此类序列相容的宿主中能够影响结构基因(即，蛋白编码序列，如本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶）的表达的核苷酸序列。表达盒包括与多肽编码序列和可选择地与其它序列（例如，转录终止信号）可操作地连接的至少一个启动子。也可使用影响表达所必需或有用的其它因子，例如增强子、α-因子。因此，表达盒还包括质粒、表达载体、重组的病毒、任何形式的重组的“裸DNA”载体等。“载体”包含可感染、转染、瞬时或永久转导细胞的核酸。应认为，载体可以是裸核酸或与蛋白或脂质复合的核酸。所述载体可选择地包括病毒或细菌的核酸和/或蛋白、和/或膜(例如细胞膜、病毒脂膜等)。载体包括但不限于可连接并复制DNA片段的复制子(例如RNA复制子、细菌噬菌体）。因而载体包括但不限于RNA、自主自我复制环状或线状DNA或RNA(例如质粒、病毒等，参见例如第5,217,879号美国专利)，并且包括表达和非表达质粒。当重组的微生物或细胞培养物被描述为“表达载体”的宿主时，表达载体包括染色体外的环状和线状DNA和已包括进宿主染色体的DNA。当载体保留在宿主细胞中时，该载体可作为自主结构在有丝分裂过程中被所述细胞稳定复制，或被包括在所述宿主的基因组中。

如此处所用，术语“重组的”包括临近在其天然环境中不临近的“主链”核酸的核酸。一方面，“富集”的核酸应代表核酸主链分子群体中约5%或更多数量的核酸插入物。依照本发明的主链分子包括如表达载体、自我复制核酸、病毒、整合核酸和其它载体的核酸或用于维持或操纵所感兴趣的核酸插入物的核酸。一方面，所述富集的核酸代表重组的主链分子群体中约15%或更多数量的核酸插入物。一方面，所述富集的核酸代表重组的主链分子群体中约50%或更多数量的核酸插入物。一方面，所述富集的核酸代表重组的主链分子群体中约90%或更多数量的核酸插入物。

本发明的一方面是包含本发明序列之一，或包含本发明核酸的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个或更多个连续碱基的片段的分离的、合成的或重组的核酸。所述分离的、合成的或重组的核酸可包含DNA（包括cDNA、基因组DNA和合成的DNA）。所述DNA可以是双链或单链，并且如果是单链，其可以是编码链或非编码(反义)链。可选地，所述分离的、合成的或重组的核酸包含RNA。

本发明分离的、合成的或重组的核酸可用于制备本发明多肽之一、或包含本发明多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段。因此，本发明的另一方面是编码本发明多肽之一、或包含本发明多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段的分离的、合成的或重组的核酸。这些核酸的编码序列可与本发明核酸之一的一个编码序列相同，或可以是编码具有本发明多肽之一的至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的本发明之一的不同编码序列（由于遗传密码的冗余性或简并性）。遗传密码对本领域的技术人员为公知，并可以在例如B.Lewin，Gene VI（基因VI），Oxford University Press，1997的第214页获得。

编码本发明多肽的核酸包括但不限于：本发明核酸的编码序列和另外的编码序列（如前导序列或前蛋白（proprotein）序列）和非编码序列（如内含子或编码序列5′和/或3′的非编码序列）。因此，如此处所用，术语“编码多肽的多核苷酸”包括：包括所述多肽的编码序列的多核苷酸，以及包括另外的编码和/或非编码序列的多核苷酸。

一方面，本发明核酸序列使用常规技术（如位点特异性诱变）或本领域的技术人员熟悉的其它技术进行诱变，以向本发明多核苷酸引入沉默变化。如此处所用，“沉默变化”包括，例如不改变由所述多核苷酸编码的氨基酸序列的变化。此类变化可能是通过引入在宿主生物体中高表达的密码子或密码子对来增加包含编码所述多肽的载体的宿主细胞生产所述多肽的水平所需要的。

本发明还涉及具有造成本发明多肽的氨基酸置换、添加、缺失、融合和截断的核苷酸变化的多核苷酸。此类核苷酸变化可使用如位点特异性诱变、随机化学诱变、外切核酸酶Ⅲ缺失和其它DNA重组技术的技术引入。可选地，此类核苷酸变化可以是天然发生的等位基因变异，这些变异通过鉴定在如本文提供的高、中或低严格条件下与包含本发明序列之一(或与其互补的序列）的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的探针特异性杂交的核酸而进行分离。

一般性技术

用于实施本发明的核酸，无论是RNA、siRNA、miRNA、反义核酸、cDNA、基因组DNA、载体、病毒或其杂交体，均可从各种来源进行分离、遗传改造、扩增和/或重组表达/生成。这些核酸生成的重组的多肽（例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶）可以单独分离或克隆，和测试所需的活性。可以使用任何重组的表达系统，包括细菌、哺乳动物、酵母、昆虫或植物细胞表达系统。

可选地，这些核酸可以通过公知的化学合成技术在体外合成，所述技术如Adams(1983)J.Am.Chem.Soc.105：661；Belousov(1997)Nucleic Acids Res.25：3440-3444；Frenkel(1995)Free Radic.Biol.Med.19：373-380；Blommers(1994)Biochemistry33：7886-7896；Narang(1979)Meth.Enzymol.68：90；Brown(1979)Meth.Enzymol.68：109；Beaucage(1981)Tetra.Lett.22：1859；第4,458,066号美国专利所描述的。

操纵核酸的技术例如亚克隆、标记探针(例如，使用Klenow聚合酶的随机引物标记、切口平移、扩增）、测序、杂交等在科学和专利文献中已有详尽的描述，参见例如Sambrook编，MOLECULARCLONING：A LABORATORY MANUAL（分子克隆实验手册）（第二版），第1-3卷，Cold Spring Harbor Laboratory，(1989)；CURRENTPROTOCOLS IN MOLECULAR BIOLOGY（分子生物学最新方案），Ausubel编，John Wiley&Sons,Inc.，New York(1997)；LABORATORYTECHNIQUES IN BIOCHEMISTRY AND MOLECULAR BIOLOGY：HYBRIDIZATION WITH NUCLEIC ACID PROBES,Part I.Theory andNucleic Acid Preparation（生物化学和分子生物学实验技术：核酸探针杂交，第一部分：理论与核酸制备），Tijssen编，Elsevier，N.Y.(1993)。

获得和操纵用于实施本发明方法的核酸的另一有用方法是从基因组样品中克隆，并且如果需要，则筛选和再克隆从例如基因组克隆或cDNA克隆中分离或扩增的插入物。本发明方法中使用的核酸来源包括：包含在例如哺乳动物人工染色体(MAC)（参见例如第5,721,118；6,025,155号美国专利）；人工的人染色体（参见例如Rosenfeld(1997)Nat.Genet.15：333-335）；人工酵母染色体(YAC)；人工细菌染色体(BAC)；人工P1染色体（参见例如Woon(1998)Genomics50：306-316）；P1衍生载体(PAC)（参见例如Kern(1997)Biotechniques23：120-124）；黏粒、重组的病毒、噬菌体或质粒中的基因组或cDNA文库。

一方面，编码本发明多肽的核酸在适当阶段（in appropriate phase）与能够指导所翻译的多肽或其片段的分泌的前导序列装配。

本发明提供融合蛋白和编码它们的核酸。本发明多肽可融合至异源的肽或多肽，如赋予需要的特性（如增强的稳定性或简化的纯化）的N-末端识别肽。本发明肽和多肽还可合成和表达为与一个或多个另外的结构域连接的融合蛋白以例如生产免疫原性更强的肽，以更容易地分离重组的合成肽，鉴定和分离抗体和表达抗体的B细胞，等。有利于检测和纯化的结构域包括，例如允许在固定的金属上进行纯化的金属螯合肽（如多组氨酸序列段（polyhistidine tracts）和组氨酸-色氨酸模块）、允许在固定的免疫球蛋白上进行纯化的蛋白A结构域和FLAGS延伸/亲和纯化系统(Immunex Corp，Seattle WA)中利用的结构域。在纯化结构域和包含模体的肽或多肽之间包括可切割的连接体序列（如因子Xa或肠激酶(Invitrogen，San Diego CA)），以促进纯化。例如，表达载体可包括连接至6个组氨酸残基、后接硫氧还蛋白和肠激酶切割位点的编码表位的核酸序列（参见例如Williams(1995)Biochemistry34：1787-1797；Dobeli(1998)Protein Expr.Purif.12：404-414）。所述组氨酸残基有助于检测和纯化，而所述肠激酶切割位点提供将所述表位从剩余的融合蛋白纯化出来的方法。与编码融合蛋白的载体和融合蛋白的应用有关的技术在科学和专利文献中已有详尽的描述，参见例如Kroll(1993)DNA Cell.Biol.，12：441-53。

转录和翻译控制序列

本发明提供操作地连接至表达(例如转录或翻译)控制序列（例如启动子或增强子），以指导或调节RNA合成/表达的本发明核酸(例如DNA)序列。所述表达控制序列可位于表达载体中。示例性细菌启动子包括lacI、lacZ、T3、T7、gpt、λ PR、PL和trp。示例性真核启动子包括CMV早早期、HSV胸苷激酶、早期和晚期SV40、逆转录病毒的LTR和小鼠金属硫蛋白Ⅰ。

如此处所用，术语“启动子”包括能够驱动编码序列在细胞（例如植物或动物细胞）中转录的所有序列。因此，本发明构建体中使用的启动子包括顺式作用转录控制元件和参与调控或调节基因转录的时间和/或速率的调控序列。例如，启动子可以是顺式作用转录控制元件，包括参与转录调控的增强子、启动子、转录终止子、复制起点、染色体整合序列、5′和3′非翻译区，或内含子序列。这些顺式作用序列可与蛋白或其它生物分子相互作用以执行（启动/关闭、调控、调节等)转录。“组成型”启动子是那些在大多数环境条件和发育或细胞分化状态下持续驱动表达的启动子。“诱导型”或“可调控型”启动子指导本发明核酸在环境条件或发育条件的影响下表达。可影响诱导型启动子驱动的转录的环境条件的实例包括厌氧条件、升高的温度、干旱或光的存在。

“组织特异性”启动子是仅在特定细胞或组织或器官（例如在植物或动物中）中具有活性的转录控制元件。组织特异性调控可通过某些确保编码给定组织特异性蛋白的基因被表达的内在因子来实现。已知此类因子存在于哺乳动物和植物，以允许特定的组织进行发育。

适合在细菌中表达多肽的启动子包括大肠杆菌lac或trp启动子、lacI启动子、lacZ启动子、T3启动子、T7启动子、gpt启动子、λPR启动子、λPL启动子、编码糖酵解酶（如3-磷酸甘油酸激酶(PGK)）的操纵子的启动子和酸性磷酸酶启动子。真核启动子包括CMV早早期启动子、HSV胸苷激酶启动子、热休克启动子、早期和晚期SV40启动子、逆转录病毒的LTR和小鼠金属硫蛋白-Ⅰ启动子。也可使用已知控制基因在原核或真核细胞或它们的病毒中表达的其它启动子。适合在细菌中表达所述多肽或其片段的启动子包括大肠杆菌lac或trp启动子、lacI启动子、lacZ启动子、T3启动子、T7启动子、gpt启动子、λP_R启动子、λP_L启动子、编码糖酵解酶（如3-磷酸甘油酸激酶(PGK)）的操纵子的启动子和酸性磷酸酶启动子。真菌启动子包括α-因子启动子。真核启动子包括CMV早早期启动子、HSV胸苷激酶启动子、热休克启动子、早期和晚期SV40启动子、逆转录病毒的LTR和小鼠金属硫蛋白-Ⅰ启动子。也可使用已知控制基因在原核或真核细胞或它们的病毒中表达的其它启动子。

组织特异性植物启动子

本发明提供可以组织特异性方式表达的表达盒，例如，可以组织特异性方式表达本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的表达盒。本发明还提供以组织特异性方式表达本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的植物或种子。所述组织特异性可以是种子特异的、茎特异的、叶特异的、根特异的、水果特异的及类似的特异。

术语“植物”包括植物整体、植物部分(例如叶、茎、花、根等)、植物原生质体、种子和植物细胞和它们的子代。可用于本发明方法的植物类别一般如可应用转化技术的高等植物的类别一样广泛，包括被子植物（单子叶和双子叶植物)，以及裸子植物。它包括具有多种倍性水平的植物，包括多倍体、二倍体、单倍体和半合子状态。如此处所用，术语“转基因植物”包括已插入了异源核酸序列（例如，本发明核酸和各种重组的构建体(例如表达盒)）的植物或植物细胞。

一方面，组成型启动子（如CaMV35S启动子）可用于在植物的特定部分或种子或在植物整体内的表达。例如，可以采用植物启动子片段进行过表达，该片段将指导核酸在植物（例如再生植物）的某些或所有组织中的表达。此类启动子在此处被称为“组成型”启动子，并在大多数环境条件和发育或细胞分化状态下具有活性。组成型启动子的实例包括花椰菜花叶病毒(CaMV)35S转录起始区、衍生自根癌农杆菌(Agrobacterium tumefaciens)的T-DNA的1′-或2′-启动子和技术人员已知的来自不同植物基因的其它转录起始区。此类基因包括例如：拟南芥(Arabidopsis)的ACT11(Huang(1996)Plant Mol.Biol.33：125-139)；拟南芥(Arabidopsis)的Cat3(GenBank编号U43147，Zhong(1996)Mol.Gen.Genet.251：196-203)；甘蓝型油菜(Brassica napus)的编码硬脂酰-酰基载体蛋白去饱和酶的基因(GenBank编号X74782，Solocombe(1994)Plant Physiol.104：1167-1176)；玉米的GPc1(GenBank编号X15596；Martinez(1989)J.Mol.Biol 209：551-565)；玉米的Gpc2(GenBank编号U45855，Manjunath(1997)Plant Mol.Biol.33：97-112)；如第4,962,028；5,633,440号美国专利所述的植物启动子。

本发明使用衍生自病毒的组织特异性或组成型启动子，其包括例如：烟草花叶病毒亚基因组启动子(Kumagai(1995)Proc.Natl.Acad.Sci.USA92：1679-1683；水稻东格鲁病杆状病毒(RTBV)，其仅在受感染的水稻植物中的韧皮部细胞中进行复制，其启动子驱动强烈的韧皮部特异性的报告基因表达；木薯叶脉花叶病毒(CVMV)启动子，其在维管元件、叶的叶肉细胞和根尖(Verdaguer(1996)Plant Mol.Biol.31：1129-1139)中具有最高活性。

一方面，所述植物启动子指导表达纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸在特定的组织、器官或细胞类型中的表达（即组织特异性启动子），或者其可以其他方式处于更精确的环境或发育控制之下，或处于诱导型启动子的控制之下。可影响转录的环境条件的实例包括厌氧条件、升高的温度、光的存在或喷洒了化学剂/激素。例如，本发明包括玉米的干旱诱导启动子（Busk(1997)同上）；马铃薯的冷、干旱和高盐诱导启动子(Kirch(1997)Plant Mol.Biol.33：897909)。

一方面，组织特异性启动子仅在所述组织的发育阶段的某些时期促进转录。参见例如Blazquez(1998)Plant Cell 10：791-800，鉴定了拟南芥(Arabidopsis)LEAFY基因启动子。另请参见Cardon(1997)Plant J12：367-77，描述了转录因子SPL3，该因子识别拟南芥（A.thaliana）花分生组织决定基因AP1的启动子区域的保守序列模体；和Mandel(1995)Plant Molecular Biology，第29卷，第995-1004页，描述了分生组织启动子eIF4。可使用在特定组织的整个生命周期都具有活性的组织特异性启动子。一方面，本发明核酸可操作地连接至主要仅在棉花纤维细胞中具有活性的启动子。一方面，本发明核酸可操作地连接至主要在棉花纤维细胞伸长阶段具有活性的启动子，参见例如Rinehart(1996)同上。所述核酸可可操作地连接至Fb12A基因启动子以优选在棉花纤维细胞中表达（同上）。另请参见，John(1997)Proc.Natl.Acad.Sci.USA89：5769-5773；John等，第5,608,148和5,602,321号美国专利，描述了棉花纤维特异性启动子和构建转基因棉花植物的方法。还可使用根特异性启动子来表达本发明核酸。根特异性启动子的实例包括乙醇脱氢酶基因的启动子(DeLisle(1990)Int.Rev.Cytol.123：39-60)。可用来表达本发明核酸的其他启动子包括，例如胚珠特异性、胚特异性、胚乳特异性、珠被特异性、种皮特异性启动子或其某组合；叶特异性启动子(参见例如Busk(1997)Plant J.11：1285 1295，描述了玉米的叶特异性启动子）；发根农杆菌(Agrobacterium rhizogenes)的ORF13启动子（在根中显示出高活性，参见例如Hansen(1997)同上）；玉米花粉特异性启动子(参见例如Guerrero(1990)Mol.Gen.Genet.224：161168)；可使用在水果成熟、叶和花（较低）的衰老和脱落过程中具有活性的番茄启动子(参见例如Blume(1997)Plant J.12：731 746）；马铃薯SK2基因的雌蕊特异性启动子(参见例如Ficker(1997)Plant Mol.Biol.35：425 431)；豌豆的Blec4基因，其在转基因苜蓿的营养顶端和花柄顶端的表皮组织中具有活性，使其成为将外源基因的表达定位于活跃生长的枝或纤维的表皮层中；胚珠特异性的BEL1基因(参见例如Reiser(1995)Cell83：735-742，GenBank编号U39944)；和/或Klee，第5,589,583号美国专利（描述了能够在分生组织和/或快速分裂细胞中的实现高水平转录的植物启动子区域）中的启动子。

一方面，在暴露于植物激素（如生长素）后可诱导的植物启动子用于表达本发明核酸。例如，本发明可以使用大豆（Glycine max L.)的生长素响应元件E1启动子片段(AuxRE)(Liu(1997)Plant Physiol.115：397-407)；生长素响应的拟南芥(Arabidopsis)GST6启动子（也响应水杨酸和过氧化氢）(Chen(1996)Plant J.10：955-966)；烟草的生长素诱导型parC启动子(Sakai(1996)37：906-913)；植物生物素响应元件(Streit(1997)Mol.Plant Microbe Interact.10：933-937)；和，响应应激激素脱落酸的启动子(Sheen(1996)Science274：1900-1902)。

本发明核酸还能够可操作地连接至暴露于可应用于植物的化学试剂（如除草剂或抗生素）后可诱导的植物启动子。例如，可使用由苯磺酰胺除草剂安全剂激活的玉米In2-2启动子(De Veylder(1997)PlantCell Physiol.38：568-577)；应用不同的除草剂安全剂诱导不同的基因表达模式，包括在根、排水器和苗端分生组织中表达。例如，编码序列可处于四环素诱导型启动子的控制之下，参见例如包含Avena sativa L.（燕麦）精氨酸脱羧酶基因(Masgrau(1997)Plant J.11：465-473)；或水杨酸响应元件(Stange(1997)Plant J.11：1315-1324)的转基因烟草植物。使用化学(例如激素或杀虫剂）诱导型启动子（即响应可应用于田间的转基因植物的化学剂的启动子），可在所述植物发育的特定阶段表达本发明多肽。因此，本发明还提供包含编码本发明多肽的诱导型基因的转基因植物，所述基因的宿主范围限于目标植物种类（如玉米、水稻、大麦、大豆、番茄、小麦、马铃薯或其它作物），可在所述作物发育的任何阶段诱导。

技术人员应了解，组织特异性植物启动子可驱动可操作地连接的序列在除目标组织以外的组织中表达。因此，一方面，组织特异性启动子是驱动优选在目标组织或细胞类型中表达的启动子，但是也可导致在其它组织中的一定表达。

本发明核酸还能够可操作地连接至在暴露于化学试剂后可诱导的植物启动子。这些试剂包括例如除草剂、合成的生长素，或抗生素，它们可应用（例如喷洒）至转基因植物。本发明生产纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸的诱导型表达将允许种植者选择具有最佳的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表达和/或活性的植物。因而可以控制植物部分的发育。这样，本发明提供便于收获植物和植物部分的方法。例如，在不同实施方案中，使用由苯磺酰胺除草剂安全剂激活的玉米In2-2启动子(De Veylder(1997)Plant Cell Physiol.38：568-577)；应用不同的除草剂安全剂诱导不同的基因表达模式，包括在根、排水器和苗端分生组织中表达。本发明编码序列还处于四环素诱导型启动子的控制之下，参见例如包含Avena sativa L.（燕麦）精氨酸脱羧酶基因(Masgrau(1997)Plant J.11：465-473)；或水杨酸响应元件(Stange(1997)Plant J.11：1315-1324)的转基因烟草植物。

在某些方面，合适的多肽表达可能需编码区3′-端的聚腺苷酸化区。所述聚腺苷酸化区可以衍生自天然基因、多种其它植物(或动物或其它)基因，或农杆菌(Agrobacterial)T-DNA中的基因。

表达载体和克隆载体

本发明提供包含本发明核酸（例如，编码本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的序列）的表达载体和克隆载体。本发明表达载体和克隆载体可包括病毒粒子、杆状病毒、噬菌体、质粒、噬菌粒、黏粒、F黏粒、细菌人工染色体、病毒DNA(例如牛痘、腺病毒、鸡痘病毒、假狂犬病和SV40的衍生物)、基于P1的人工染色体、酵母质粒、酵母人工染色体和对感兴趣的特定宿主特异的任何其它载体(如杆菌、曲霉和酵母)。本发明载体包括染色体、非染色体和合成的DNA序列。大量合适的载体对本领域技术人员为已知，并可通过商业途径获得。示例性载体包括：细菌：pQE^TM载体(Qiagen)、pBLUESCRIPT^TM质粒、pNH载体、(λ-ZAP载体(Stratagene)；ptrc99a、ρKK223-3、pDR540、pRIT2T(Pharmacia)；真核：pXT1、pSG5(Stratagene)、pSVK3、pBPV、pMSG、pSVLSV40(Pharmacia)。但是，也可使用任何其它质粒或其它载体，只要它们可以在所述宿主中复制和存活。本发明可使用低拷贝数或高拷贝数载体。“质粒”可以不受限制地通过商业途径、公共途径获得，或可以根据已公布的程序从可获得的质粒构建。此处所述质粒的等效质粒在本领域为已知的，并对普通技术人员是明显的。

所述表达载体可包含启动子、翻译起始的核糖体结合位点和转录终止子。所述载体还可包括适当的扩增表达序列。哺乳动物表达载体可包含复制起点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列和5′侧翼非转录序列。在某些方面，衍生自SV40剪接和聚腺苷酸化位点的DNA序列可用于提供所需的非转录遗传元件。

一方面，所述表达载体包含一个或多个选择性标记基因，以允许选择包含所述载体的宿主细胞。此类选择性标记包括编码二氢叶酸还原酶的基因或赋予真核细胞培养物新霉素抗性的基因、赋予大肠杆菌四环素或氨苄青霉素抗性的基因和酿酒酵母TRP1基因。可以使用氯霉素转移酶(CAT)载体或具有选择性标记的其它载体从任何需要的基因中选择启动子区。

一方面，用于在真核细胞中表达所述多肽或其片段的载体包含增强子以增加表达水平。增强子是长度可以约10至约300bp的DNA的顺式作用元件。它们可以作用于启动子以增加其转录。示例性增强子包括位于复制起点第100至270位bp的后端的SV40增强子、细胞巨化病毒早期启动子增强子、复制起点后端的多瘤病毒增强子和腺病毒增强子。

核酸序列可以通过多种程序插入载体。一般而言，所述序列在使用适当的限制性核酸内切酶消化所述插入物和所述载体后，连接至所述载体中希望的位置。可选地，可以连接所述插入物和所述载体的两个平末端。本领域已知多种克隆技术，参见例如Ausubel和Sambrook。此类和其它程序在本领域的技术人员的范围之内。

所述载体可以是质粒、病毒粒子或噬菌体形式。其它载体包括染色体、非染色体和合成的DNA序列、SV40的衍生物；细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生自质粒和噬菌体DNA的组合的载体、病毒DNA（如牛痘、腺病毒、鸡痘病毒和假狂犬病）。用于原核和真核宿主的多种克隆载体和表达载体参见例如Sambrook。

可使用的具体的细菌载体包括通过商业途径获得的、包含公知的克隆载体pBR322(ATCC 37017)、pKK223-3(Pharmacia FineChemicals，Uppsala、Sweden)、GEM1(Promega Biotec，Madison，WI，USA)pQE70、pQE60、pQE-9(Qiagen)、pD10、psiX174pBLUESCRIPTⅡ KS、pNH8A、pNH16a、pNH18A、pNH46A(Stratagene)、ptrc99a、pKK223-3、pKK233-3、DR540、pRIT5(Pharmacia)、pKK232-8和pCM7的遗传元件的质粒。具体的真核载体包括pSV2CAT、pOG44、pXT1、pSG(Stratagene)pSVK3、pBPV、pMSG和pSVL(Pharmacia)。但是，也可使用任何其它载体，只要它可以在所述宿主细胞中复制和存活。

本发明核酸可以在表达盒、载体或病毒中表达，以及瞬时或稳定表达于植物细胞和种子。一个示例性瞬时表达系统使用游离表达系统，例如，细胞核中通过转录包含超螺旋DNA的游离的微染色体产生的花椰菜花叶病毒(CaMV)病毒RNA（参见例如Covey(1990)Proc.Natl.Acad.Sci.USA87：1633-1637）。可选地，编码序列（即本发明序列的全部片段或亚片段）可以插入植物宿主细胞基因组而成为宿主染色体DNA的一个整合部分。可以此方式表达有义或反义转录物。包含本发明核酸的序列(例如启动子或编码区)的载体可包含赋予植物细胞或种子选择性表型的标记基因。例如，该标记可编码杀生物剂抗性，例如抗生素抗性（如对卡那霉素、G418、博来霉素、潮霉素的抗性），或除草剂抗性（如对氯磺隆或Basta的抗性）。

能够在植物中表达核酸和蛋白的表达载体在本领域为公知，并可包括，例如来自农杆菌（Agrobacterium spp.）的载体、马铃薯病毒X(参见例如Angell(1997)EMBO J.16：3675-3684)、烟草花叶病毒(参见例如Casper(1996)Gene 173：69-73)、番茄丛矮病病毒(参见例如Hillman(1989)Virology169：42-50)、烟草蚀刻病毒(参见例如Dolja(1997)Virology234：243-252)、菜豆金黄花叶病毒(参见例如Morinaga(1993)Microbiol Immunol.37：471-476)、花椰菜花叶病毒(参见例如Cecchini(1997)Mol.Plant Microbe Interact.10：1094-1101)、玉米Ac/Ds转座因子(参见例如Rubin(1997)Mol.Cell.Biol.17：6294-6302；Kunze(1996)Curr.Top.Microbiol.Immunol.204：161-194)，和玉米抑制基因-增变基因(Spm)转座因子(参见例如Schlappi(1996)Plant Mol.Biol.32：717-725)；及其衍生物。

一方面，所述表达载体可拥有两个复制系统，以允许其保持在两种生物体中，例如在哺乳动物或昆虫细胞进行表达和在原核宿主中进行克隆和扩增。此外，为了整合表达载体，所述表达载体可包含至少一个与所述宿主细胞基因组同源的序列。其可包含两个位于所述表达构建体侧翼的同源序列。整合载体可以被定位至所述宿主细胞的特定位置（通过选择适当的同源序列而包括在所述载体中）。整合载体的构建体在本领域为公知。

本发明表达载体还可包括选择性标记基因以允许选择已转化的细菌菌株，例如，使细菌具有对药物（如氨苄青霉素、氯霉素、红霉素、卡那霉素、新霉素和四环素）的抗性的基因。选择性标记还可包括生物合成基因，如组氨酸、色氨酸和亮氨酸生物合成途径中的基因。

表达载体的DNA序列操作地连接至适当的指导RNA合成的表达控制序列(启动子)。具体命名的细菌启动子包括lacI、lacZ、T3、T7、gpt、λP_R、P_L和trp。真核启动子包括CMV早早期、HSV胸苷激酶、早期和晚期SV40、逆转录病毒的LTR和小鼠金属硫蛋白-Ⅰ。选择适当的载体和启动子在本领域普通技术人员的水平之内。所述表达载体还包含用于翻译起始的核糖体结合位点和转录终止子。所述载体还可包括适当的扩增表达序列。可以使用氯霉素转移酶(CAT)载体或具有选择性标记的其它载体从任何需要的基因中选择启动子区。此外，所述表达载体一方面包含一个或多个选择性标记基因以提供选择转化的宿主细胞的表型性状，如用于真核细胞培养物的二氢叶酸还原酶或新霉素抗性或如用于大肠杆菌的四环素或氨苄青霉素抗性。

哺乳动物表达载体还可包含复制起点、任何必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、转录终止序列和5′侧翼非转录序列。在某些方面，可使用衍生自SV40剪接和聚腺苷酸化位点的DNA序列以提供所需的非转录遗传元件。

在真核细胞中表达所述多肽或其片段的载体还可包含增强子以增加表达水平。增强子是作用于启动子以增加其转录的DNA顺式作用元件，通常长约10至约300bp。实例包括位于复制起点第100至270位bp的后端的SV40增强子、细胞巨化病毒早期启动子增强子、复制起点后端的多瘤病毒增强子和腺病毒增强子。

此外，所述表达载体可包含一个或多个选择性标记基因以允许选择包含所述载体的宿主细胞。此类选择性标记包括编码二氢叶酸还原酶的基因或赋予真核细胞培养物新霉素抗性的基因、赋予大肠杆菌四环素或氨苄青霉素抗性的基因和酿酒酵母TRP1基因。

在某些方面，编码本发明多肽之一，或包含其至少约5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸片段的核酸在适当的阶段与能够指导所翻译的多肽或其片段的前导序列装配。一方面，所述核酸可编码融合多肽，其中本发明多肽之一或包含其至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段融合至异源的肽或多肽，如赋予需要的特性（如增强的稳定性或简化的纯化）的N-末端识别肽。

适当的DNA序列可以通过多种程序插入所述载体。一般而言，所述DNA序列在使用适当的限制性核酸内切酶消化所述插入物和所述载体后，连接至所述载体中希望的位置。可选地，可以连接所述插入物和所述载体的两个平末端。Ausubel等Current Protocols in MolecularBiology（分子生物学最新方案），John Wiley503Sons,Inc.1997和Sambrook等，Molecular Cloning：A Laboratory Manual（分子克隆实验手册），第二版，Cold Spring Harbor Laboratory Press(1989)公开了多种克隆技术。此类和其它程序在本领域的技术人员的范围之内。

例如，所述载体可以是质粒、病毒粒子或噬菌体形式。其它载体包括染色体、非染色体和合成的DNA序列、SV40的衍生物；细菌质粒、噬菌体DNA、杆状病毒、酵母质粒、衍生自质粒和噬菌体DNA的组合的载体、病毒DNA（如牛痘、腺病毒、鸡痘病毒和假狂犬病）。用于原核和真核宿主的多种克隆载体和表达载体参见Sambrook等，Molecular Cloning：A Laboratory Manual（分子克隆实验手册），第二版，Cold Spring Harbor，N.Y.，(1989)。

宿主细胞和转化细胞

本发明还提供包含本发明核酸序列（例如，编码本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的序列）或本发明载体的转化细胞。所述宿主细胞可以是本领域的技术人员熟悉的任何宿主细胞，包括原核细胞、真核细胞、如细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。示例性细菌细胞包括任何种的链霉菌(Streptomyces)、假单胞菌(Pseudomonas)、葡萄球菌(Staphylococcus)或杆菌(Bacillus)，或示例性种的大肠杆菌、枯草芽孢杆菌(Bacillus subtilis)、蜡状芽孢杆菌(Bacillus cereus)、鼠伤寒沙门氏菌(Salmonella typhimurium)。示例性昆虫细胞包括任何种的草地夜蛾(Spodoptera)或果蝇(Drosophila)，包括果蝇S2和草地夜蛾Sf9。示例性动物细胞包括CHO、COS或Bowes黑色素瘤(Bowes melanoma)或任何小鼠或人细胞系。选择适当的宿主在本领域的技术人员的能力范围内。转化多种高等植物物种的技术为公知，并在技术和科学文献中有描述。参见例如Weising(1988)Ann.Rev.Genet.22：421-477；第5,750,870号美国专利。

可以使用众多技术中的任何技术将所述载体引入宿主细胞，包括转化、转染、转导、病毒感染、基因枪或Ti-介导的基因转移。具体方法包括磷酸钙转染、DEAE-葡聚糖介导的转染、脂转染或电穿孔(Davis,L.，Dibner,M.，Battey,I.，Basic Methods in Molecular Biology（分子生物学基础方法），(1986))。

一方面，本发明核酸或载体被引入细胞以进行筛选，因此，所述核酸以适合随后表达该核酸的方式进入所述细胞。引入的方法主要取决于靶细胞类型。示例性方法包括CaPO₄沉淀、脂质体融合、脂转染(例如LIPOFECTIN^TM)、电穿孔、病毒感染等。所述候选核酸可稳定整合至所述宿主细胞的基因组(例如，使用逆转录病毒进行引入时），或可瞬时或稳定存在于细胞质中（即通过使用传统的质粒、利用标准调控序列、选择性标记等)。由于许多药学上重要的筛选需要人或模型哺乳动物细胞靶标，因此可使用能够转染此类靶标的逆转录病毒载体。

在适当条件下，工程化宿主细胞可以在经过改良的适合激活启动子、选择转化株或扩增本发明基因的常规营养培养基中培养。在转化合适的宿主株且所述宿主株生长至适当的细胞密度之后，可通过适当的方法（例如，温度变化或化学诱导）诱导所选的启动子，而细胞可继续培养一段时间，以允许它们生产所需的多肽或其片段。

可以通过离心收集细胞，通过物理或化学方法破碎细胞，然后保留所得粗提物用于进一步纯化。表达蛋白所用的微生物细胞可以通过任何方便的方法（包括冻融循环、超声处理、机械破碎或使用细胞裂解剂）进行破碎。此类方法对本领域的技术人员为公知。表达的多肽或其片段可以通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换层析、磷酸纤维素层析、疏水作用层析、亲和层析、羟基磷灰石层析和凝集素层析的方法从重组的细胞培养物中进行回收和纯化。如果必要，在完成所述多肽的构型过程中可使用蛋白重折叠步骤。如果需要，最后的纯化步骤可以使用高效液相层析(HPLC)。

可按常规方式使用宿主细胞中的构建体生产所述重组序列编码的基因产物。根据重组生产程序中使用的宿主，包含所述载体的宿主细胞生产的多肽可以是糖基化的或可以是非糖基化的。本发明多肽还可包括或不包括起始的甲硫氨酸氨基酸残基。

还可使用无细胞翻译系统生产本发明多肽。无细胞翻译系统可以使用从DNA构建体（包含连接至编码所述多肽或其片段的核酸的启动子）转录的mRNA。在某些方面，在进行体外转录反应之前，可使所述DNA构建体线性化。然后将转录的mRNA与适当的无细胞翻译提取物（如兔网织红细胞提取物）温育，以生产所需的多肽或其片段。

所述表达载体可包含一个或多个选择性标记基因以提供用于选择转化的宿主细胞的表型性状，如用于真核细胞培养物的二氢叶酸还原酶或新霉素抗性或如用于大肠杆菌的四环素或氨苄青霉素抗性。

包含所感兴趣的多核苷酸（例如，本发明核酸）的宿主细胞可以在经过改良的适合激活启动子、选择转化株或扩增基因的常规营养培养基中培养。培养条件（如温度、pH等）为那些以前用于表达所选的宿主细胞所使用的条件，并且这些条件对普通熟练的技术人员是明显的。然后可以对鉴定为具有指定酶活性的克隆进行测序，以鉴定编码具有增强的活性的酶的多核苷酸序列。

本发明提供在细胞中过表达重组的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的方法，该方法包括表达包含本发明核酸的载体，所述核酸例如，包含与本发明示例性序列在至少约100个残基的区域内具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高序列同一性的核酸序列的核酸（其中所述序列同一性通过使用序列比较算法的分析或通过视觉检测确定），或在严格条件下与本发明核酸序列杂交的核酸。可以通过任何方法，例如使用高活性启动子、双顺反子载体或通过所述载体的基因扩增载体来影响过表达。

本发明核酸可以在任何体外或体内表达系统中进行表达或过表达。任何细胞培养系统均可以用于表达或过表达重组蛋白，包括细菌、昆虫、酵母、真菌或哺乳动物培养物。可以通过选择适当的启动子、增强子、载体(例如，使用复制子载体、双顺反子载体(参见例如Gurtu(1996)Biochem.Biophys.Res.Commun.229：295-8）、培养基、培养系统等来影响过表达。一方面，在细胞系统中使用选择性标记，例如谷氨酸合成酶(参见例如Sanders(1987)Dev.Biol.Stand.66：55-63)的基因扩增用于过表达本发明多肽。所述宿主细胞可以是本领域的技术人员熟悉的任何宿主细胞，包括原核细胞、真核细胞、如细菌细胞、真菌细胞、酵母细胞、哺乳动物细胞、昆虫细胞或植物细胞。选择适当的宿主在本领域的技术人员的能力范围内。

可以使用众多技术中的任何技术将所述载体引入所述宿主细胞，包括转化、转染、转导、病毒感染、基因枪或Ti-介导的基因转移。具体方法包括磷酸钙转染、DEAE-葡聚糖介导的转染、脂转染或电穿孔(Davis,L.，Dibner,M.，Battey,I.，Basic Methods in Molecular Biology（分子生物学基础方法），(1986))。

如果适当，工程化宿主细胞可以在经过改良的适合激活启动子、选择转化株或扩增本发明基因的常规营养培养基中培养。在转化合适的宿主株且所述宿主株生长至适当的细胞密度之后，可通过适当的方法（例如，温度变化或化学诱导）诱导所选的启动子，而细胞可继续培养一段时间，以允许它们生产所需的多肽或其片段。

可以通过离心收集细胞，通过物理或化学方法破碎细胞，然后保留所得粗提物用于进一步的纯化。表达蛋白所用的微生物细胞可以通过任何方便的方法（包括冻融循环、超声处理、机械破碎或使用细胞裂解剂）进行破碎。此类方法对本领域的技术人员为公知。表达的多肽或其片段可以通过包括硫酸铵或乙醇沉淀、酸提取、阴离子或阳离子交换层析、磷酸纤维素层析、疏水作用层析、亲和层析、羟基磷灰石层析和凝集素层析的方法从重组的细胞培养物中进行回收和纯化。如果必要，在完成所述多肽的构型过程中可使用蛋白重折叠步骤。如果需要，最后的纯化步骤可以使用高效液相层析(HPLC)。

还可使用不同的哺乳动物细胞培养系统表达重组蛋白。哺乳动物表达系统的实例包括猴肾纤维原细胞COS-7系（参见Gluzman，Cell，23：175，1981)和能够表达相容载体的蛋白的其它细胞系，如C127、3T3、CHO、HeLa和BHK细胞系。

可选地，本发明多肽或包含其至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段可以由例如下文所述的常规肽合成仪通过合成进行生产。在其他方面，所述多肽的片段或部分可用于通过肽合成生产相应的全长多肽；因此，所述片段可用作生产所述全长多肽的中间物。

无细胞翻译系统还可用于生产本发明多肽之一，或包含其至少5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸的片段，该系统使用从DNA构建体（包含可操作地连接至编码所述多肽或其片段的核酸的启动子）转录的mRNA。在某些方面，在进行体外转录反应之前，可使所述DNA构建体线性化。然后将转录的mRNA与适当的无细胞翻译提取物（如兔网织红细胞提取物）温育，以生产所需的多肽或其片段。

核酸的扩增

实施本发明时，本发明核酸和编码本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸或本发明改良的核酸，可以通过扩增（例如PCR）进行复制。扩增还可用于克隆或改良本发明核酸。因此，本发明提供用于扩增本发明核酸的扩增引物序列对。本领域的技术人员可以设计这些序列的任何部分或者全长的扩增引物序列对。

一方面，本发明提供通过本发明扩增引物对扩增的核酸，所述引物对例如由本发明核酸的约前(5′)12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个残基，和互补链的约前(5′)15、16、17、18、19、20、21、22、23、24或25个或更多个残基所示的引物对。本发明提供用于扩增编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽的核酸的扩增引物序列对，其中所述引物对能够扩增包含本发明序列、或者其片段或子序列的核酸。所述扩增引物序列对的一个或每个成员可包含：包含所述序列的至少约10至50个或更多个连续碱基，或所述序列的约12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个连续碱基的寡核苷酸。本发明提供包含具有由本发明核酸的约前(5′)12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个残基所示的序列的第一成员，和由所述的第一成员的互补链的约前(5′)12、13、14、15、16、17、18、19、20、21、22、23、24或25个或更多个残基所示的序列的第二成员的扩增引物对。

本发明提供使用本发明扩增引物对通过例如聚合酶链式反应(PCR)扩增产生的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。本发明提供使用本发明扩增引物对通过扩增（例如PCR）制备纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的方法。一方面，所述扩增引物对从文库（例如基因文库（如环境文库））扩增核酸。

扩增反应还可用于定量样品中的核酸的量（如细胞样品中的信息量）、标记核酸（例如，将其应用于阵列或印迹）、检测核酸、或定量样品中特定的核酸的量。本发明的一方面对从细胞或cDNA文库中分离的信息进行扩增。

熟练的技术人员可以选择和设计合适的寡核苷酸扩增引物。扩增方法在本领域也为公知，并包括例如聚合酶链式反应，PCR（例如，参见PCR PROTOCOLS,A GUIDE TO METHODS ANDAPPLICATIONS（PCR方案：方法和应用指南），Innis编，AcademicPress，N.Y.(1990)和PCR STRATEGIES（PCR策略）(1995)，Innis编，Academic Press,Inc.，N.Y.），连接酶链式反应(LCR)(参见例如Wu(1989)Genomics4：560；Landegren(1988)Science241：1077；Barringer(1990)Gene89：117)；转录扩增(参见例如Kwoh(1989)Proc.Natl.Acad.Sci.USA86：1173)；和，自动维持序列复制(参见例如Guatelli(1990)Proc.Natl.Acad.Sci.USA87：1874)；Q-β复制酶扩增(参见例如Smith(1997)J.Clin.Microbiol.35：1477-1491)、自动化Q-β复制酶扩增分析法(参见例如Burg(1996)Mol.Cell.Probes 10：257-271)和RNA聚合酶介导的其它技术(例如NASBA、Cangene、Mississauga、Ontario)；另请参见Berger(1987)Methods Enzymol.152：307-316；Sambrook；Ausubel；第4,683,195和4,683,202号美国专利；Sooknanan(1995)Biotechnology 13：563-564。

确定核酸和多肽的序列同一性

本发明提供包含与本发明示例性核酸(另请参见下文的表1、2和3，实施例1和4，以及序列表)在至少约50、75、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1550个或更多个残基的区域内具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的序列的核酸。本发明提供包含与本发明示例性多肽（参见下文的表1、2和3，实施例1和4，以及序列表)具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性的序列的多肽。序列同一性(同源性)程度可使用任何计算机程序和相关参数（包括本文所描述的程序，如BLAST2.2.2.或FASTA3.0t78版，使用默认的参数）确定。

本发明核酸序列可包含本发明示例性序列和与其大致相同的序列的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个或更多个连续核苷酸。本发明核酸序列的同源序列和片段可指与这些序列具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高序列同一性(同源性)的序列。同源性（序列同一性）可使用本文所述的任何计算机程序和参数（包括FASTA3.0t78版，使用默认的参数）确定。同源序列还包括其中尿苷替换本发明核酸序列中的胸苷的RNA序列。所述同源序列可使用本文所述的任何程序获得，或可得自对测序错误的校正。应了解，本发明核酸序列可以用传统的单字符格式（参见Stryer,Lubert，Biochemistry（生物化学），第三版，W.H Freeman&Co.，New York.的封底内侧）或记录序列中的核苷酸的同一性的任何其它格式表示。

在不同的方面，此处确定的序列比较程序用于本发明的此方面，即确定核酸或多肽序列是否在本发明所述范围内。但是，蛋白和/或核酸序列同一性（同源性）可使用本领域已知的任何序列比较算法或程序进行评估。此类算法和程序包括但绝不限于：TBLASTN、BLASTP、FASTA、TFASTA和CLUSTALW(参见例如Pearson和Lipman，Proc.Natl.Acad.Sci.USA85(8)：2444-2448，1988；Altschul等，J.Mol.Biol.215(3)：403-410，1990；Thompson Nucleic Acids Res.22(2)：4673-4680，1994；Higgins等，Methods Enzymol.266：383-402，1996；Altschul等，J.Mol.Biol.215(3)：403-410，1990；Altschul等，Nature Genetics3：266-272，1993)。

一方面，同源性或同一性是使用序列分析软件（例如GeneticsComputer Group（University of Wisconsin Biotechnology Center，1710University Avenue，Madison，WI53705）的Sequence Analysis SoftwarePackage（序列分析软件包）)进行测量的。此软件通过指定与不同缺失、置换和其它改变的同源性程度来匹配相似的序列。一方面，在两个或多个核酸或多肽序列的环境中，术语“同源性”和“同一性”指在比较窗口或指定区域上进行最大对应性比较和对比（使用任何数量的序列比较算法或通过手动对比和视觉检测）时，相同或具有指定的百分比的相同氨基酸残基或核苷酸的两个或多个序列或子序列。一方面，为了进行序列比较，一个序列充当与受试序列相比较的参考序列。当使用序列比较算法时，将受试和参考序列输入计算机，如果必要则指定子序列坐标(Subsequence coordinate)，并指定序列算法程序参数。可使用默认的程序参数，或者可以指定其它参数。然后，所述序列比较算法根据程序参数计算所述受试序列相对所述参考序列的序列同一性百分比。

如此处所用，“比较窗口”包括具有任何一个数目的选自从20至600、通常约50至约200、更通常约100至约150的连续位置的节段的参考，其中可以在对所述两个序列进行最佳对比之后，将序列与具有相同数目的连续位置的参考序列进行比较。进行序列比较的对比方法在本领域为公知。可以通过下列方法进行序列比较的最佳对比，例如，通过局部同源性算法，Smith & Waterman，Adv.Appl.Math.2：482，1981；通过同源性对比算法，Needleman&Wunsch，J.Mol.Biol 48：443，1970；通过相似性搜索方法，person&Lipman，Proc.Nat’l.Acad.Sci.USA85：2444，1988；通过计算机执行这些算法(Wisconsin GeneticsSoftware Package中的GAP、BESTFIT、FASTA和TFASTA（GeneticsComputer Group，575 Science Dr.，Madison，WI）；或通过手动对比和视觉检测。除了BLAST程序(美国国立生物信息中心(National Centerfor Biological Information)的基本局部对比搜索工具)之外，确定同源性或同一性的其它算法包括例如：ALIGN、AMAS(Analysis of MultiplyAligned Sequences，多对比序列分析)、AMPS(Protein Multiple SequenceAlignment，蛋白多重序列对比)、ASSET(Aligned Segment StatisticalEvaluation Tool，对比节段统计评估工具)、BANDS、BESTSCOR、BIOSCAN(Biological Sequence Comparative Analysis Node，生物序列比较分析节点)、BLIMPS(BLocks IMProved Searcher，嵌段改良的检索器)、FASTA、Intervals&Points、BMB、CLUSTAL V、CLUSTAL W、CONSENSUS、LCONSENSUS、WCONSENSUS、Smith-Waterman算法、DARWIN、Las Vegas算法、FNAT(Forced Nucleotide AlignmentTool，强制性核苷酸对比工具)、Framealign（框架对比）、Framesearch（框架检索）、DYNAMIC、FILTER、FSAP(Fristensky Sequence AnalysisPackage，Fristensky序列分析包)、GAP(Global Alignment Program，总体对比程序)、GENAL、GIBBS、GenQuest、ISSC(Sensitive SequenceComparison，敏感序列比较)、LALIGN(Local Sequence Alignment，局部序列对比)、LCP(Local Content Program，局部内容程序)、MACAW(Multiple Alignment Construction&Analysis Workbench，多重对比构建&分析工作台)、MAP(Multiple Alignment Program，多重对比程序)、MBLKP、MBLKN、PIMA(Pattern-Induced Multi-sequence Alignment，模式诱导的多序列对比)、SAGA(Sequence Alignment by GeneticAlgorithm，遗传算法序列对比)和WHAT-IF。此类对比程序还可用于筛选基因组数据库以鉴定具有大致相同序列的多核苷酸序列。有许多基因组数据库可用，例如，作为人类基因组测序计划(Gibbs，1995)的一部分，人基因组已有大部分可以使用。至少有21个其它基因组已经测序，包括例如生殖支原体(M.genitalium)(Fraser等，1995)、詹氏甲烷球菌(M.jannaschii)(Bult等，1996)、流感嗜血杆菌(H.influenzae)(Fleischmann等，1995)、大肠杆菌(Blattner等，1997)和酵母(酿酒酵母)(Mewes等，1997)和黑腹果蝇(D.melanogaster)(Adams等，2000)。模式生物（如小鼠、秀丽线虫(C.elegans)和Arabadopsis种）的基因测序组也已取得显著进展。不同机构维护了多个包含一些注释的功能信息的基因组信息的数据库，并且这些数据库可通过互联网访问。

一方面，使用了BLAST和BLAST2.0算法，分别参见Altschul等，Nuc.Acids Res.25：3389-3402，1977和Altschul等，J.Mol.Biol.215：403-410，1990。美国国立生物技术信息中心公开提供执行BLAST分析的软件。此算法包括首先通过鉴定查询序列中长度为W的短字（short words）来鉴定高得分序列对(HSP)，当与数据库序列中相同长度的字进行对比时，所述短字匹配或满足某个取正值的阈值分值T。T是指相邻字的分值阈值(Altschul等，同上)。这些初始的相邻字的匹配字串充当启动寻找包含它们的更长的HSP的搜索的种子。只要累积对比分值可以增加，所述匹配字串就沿各个序列向两个方向延伸。对于核苷酸序列，累积分值使用参数M（一对匹配残基的奖励分值；始终>0）进行计算。对于氨基酸序列，则使用评分矩阵计算累积分值。当出现下列情况时，匹配字串沿各个方向的延伸将终止：所述累积对比分值比其达到的最大得分下降数量X；所述累积分值由于积累了一个或多个得分为负的残基对比而变为零或更低；或到达任一序列的末端。BLAST算法参数W、T和X决定对比的灵敏度和速度。BLASTN程序（核苷酸序列)使用字长(W)11、期望值(E)10、M=5、N=-4和比较双链作为默认值。对于氨基酸序列，BLASTP程序使用字长3和期望值(E)10，BLOSUM62评分矩阵（参见Henikoff&Henikoff，Proc.Natl.Acad.Sci.USA89：10915，1989)对比(B)使用50、期望值(E)10，M=5、N=-4和比较双链作为默认值。

BLAST算法还执行两个序列间的相似性的统计分析(参见例如Karlin&Altschul，Proc.Natl.Acad.Sci.USA90：5873，1993)。BLAST算法提供的一个相似性测量是最小总和可能性(smallest sum probability)(P(N))，该测量指示两个核苷酸或氨基酸序列偶然发生匹配的可能性。例如，如果受试核酸与参考核酸进行比较时的最小总和可能性小于约0.2、一个方面中更小为小于约0.01和一个方面中最小为小于约0.001，则所述核酸即被视为与所述参考序列相似。

一方面，使用基本局部对比搜索工具(“BLAST”)评估蛋白和核酸序列的同源性。特别是，有五个特定的BLAST程序用于执行下列任务：

(1)BLASTP和BLAST3比较氨基酸查询序列和蛋白序列数据库；

(2)BLASTN比较核苷酸查询序列和核苷酸序列数据库；

(3)BLASTX比较查询核苷酸序列（双链）的六框架概念翻译产物和蛋白序列数据库；

(4)TBLASTN比较查询蛋白序列和按全部六个阅读框（双链）翻译的核苷酸序列数据库；和

(5)TBLASTX比较核苷酸查询序列的六框架翻译和核苷酸序列数据库的六框架翻译。

BLAST程序通过鉴定查询氨基酸或核酸序列和受试序列（一方面获自蛋白或核酸序列数据库）之间的相似节段（在此称为“高得分节段对”）来鉴定同源序列。一方面，高得分节段对是通过评分矩阵（许多在本领域为已知）的方法进行鉴定(即，对比)的。一方面，所用的评分矩阵为BLOSUM62矩阵(Gonnet(1992)Science256：1443-1445；Henikoff和Henikoff(1993)Proteins17：49-61)。更少的，一方面，还可使用PAM或PAM250矩阵(参见例如Schwartz和Dayhoff编，1978，Matrices for Detecting Distance Relationships：Atlas of Protein Sequenceand Structure（检测距离关系的矩阵：蛋白序列和结构图谱），Washington：National Biomedical Research Foundation)。可通过美国国立医学图书馆访问BLAST程序。

上述算法使用的参数可以根据研究的序列长度和同源性程度进行调整。在某些方面，所述参数在没有用户的指令时可以是该算法使用的默认参数。

计算机系统和计算机程序产品

本发明提供其上记录或存储本发明核酸和多肽序列的计算机、计算机系统、计算机可读介质、计算机程序产品等。此外，在实施本发明方法时，例如，通过电子杂交确定和鉴定序列同一性(确定核酸是否在本发明范围内)、结构同源性、模体等，本发明核酸或多肽序列可以在计算机能够读取和访问的任何介质上存储、记录和操作。

如此处所用，词语“记录”和“存储”指在计算机介质上存储信息的过程。熟练的技术人员可以容易地采取任何已知的在计算机可读介质上记录信息的方法来产生包含一个或多个本发明核酸和/或多肽序列的产品。如此处所用，术语“计算机”、“计算机程序”和“处理器”以其最广泛的一般含义使用，并包括下文详细描述的所有此类设备。特定多肽或蛋白“的编码序列”或“其编码序列”是当置于适当的调控序列的控制之下时，被转录并翻译为多肽或蛋白的核酸序列。

本发明多肽包括本发明示例性序列和与其大致相同的序列，以及任何上述序列的子序列(片段)。一方面，大致相同的或同源的多肽序列指与本发明示例性序列具有至少50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性(同源性)的多肽序列。

同源性（序列同一性）可使用本文所述的任何计算机程序和参数确定。本发明核酸或多肽序列可以在计算机能够读取和访问的任何介质上存储、记录和操作。如此处所用，词语“记录”和“存储”指在计算机介质上存储信息的过程。熟练的技术人员可以容易地采取任何目前已知的在计算机可读介质上记录信息的方法来产生包含一个或多个本发明核酸、一个或多个本发明多肽序列的产品。本发明的另一方面是已记录了至少2、5、10、15或20个或更多个本发明核酸或多肽序列的计算机可读介质。

本发明的另一方面是已记录了一个或多个本发明核酸序列的计算机可读介质。本发明的另一方面是已记录了一个或多个本发明多肽序列的计算机可读介质。本发明的另一方面是已记录了至少2、5、10、15或20个或更多个如上所述的核酸或多肽序列的计算机可读介质。

计算机可读介质包括磁可读介质、光可读介质、电可读介质和磁性/光介质。例如，所述计算机可读介质可以是硬盘、软盘、磁带、CD-ROM、数字通用光盘(DVD)、随机存储器(RAM)或只读存储器(ROM)以及本领域的技术人员已知的其它类型的其它介质。

本发明的方面包括系统（例如，基于互联网的系统），例如，存储和操作本文描述的序列信息的计算机系统。计算机系统100的一个实例如图1中的示意图所示。如此处所用，“计算机系统”指用于分析本发明核酸序列的核苷酸序列、或本发明多肽序列的硬件组件、软件组件和数据存储组件。一方面，计算机系统100包括处理、访问和操作所述序列数据的处理器。处理器105可以是任何公知类型的中央处理器，例如，如Intel Corporation的Pentium Ⅲ，或Sun、Motorola、Compaq、AMD或International Business Machines的类似处理器。

一方面，计算机系统100是包含处理器105和一个或多个内部数据存储组件110（用于存储数据）和一个或多个数据检索设备（用于检索存储在数据存储组件上的数据）的通用系统。熟练的技术人员可以容易地理解，任何一种目前可用的计算机系统都是合适的。

在一个特别的方面，计算机系统100包括连接至总线的处理器105，总线连接至存储器115(一方面充当RAM)和一个或多个内部数据存储设备110（如其上记录了数据的硬驱动和/或其它计算机可读介质）。在某些方面，计算机系统100进一步包括一个或多个数据检索设备118，以读取存储在内部数据存储设备110上的数据。

数据检索设备118可代表，例如，软盘驱动器、光盘驱动器、磁带驱动器或能够连接至远程数据存储系统(例如，通过互联网）的调制解调器等。在某些方面，互联网数据存储设备110是包含控制逻辑和/或数据记录的可移动的计算机可读介质，如软盘、光盘、磁带等。计算机系统100可有利地包括适当软件或通过适当软件程序化，所述软件在插入数据检索设备后从数据存储组件上读取控制逻辑和/或数据。

计算机系统100包括用于向计算机用户显示输出的显示器120。还应注意，计算机系统100可以连接至网络或广域网中的其它计算机系统125a-c，以提供对计算机系统100的集中访问。

在执行过程中，访问和处理本发明核酸序列的核苷酸序列或本发明多肽序列的软件（如搜索工具、比较工具和建模工具等）可驻留于存储器115。

在某些方面，计算机系统100可进一步包含用于比较存储在计算机可读介质上的本发明核酸序列或本发明多肽序列和存储在计算机可读介质上的参考核苷酸或多肽序列的序列比较算法。“序列比较算法”指在计算机系统100上执行（本地或远程）的用来比较核苷酸序列与存储在数据存储设备内的其它核苷酸序列和/或化合物的一个或多个程序。例如，所述序列比较算法可比较存储在计算机可读介质上的本发明核酸序列的核苷酸序列或本发明多肽序列和存储在计算机可读介质上的参考序列，以鉴定同源性或结构模体。

图2是说明将新的核苷酸或蛋白序列与序列数据库进行比较，以确定所述新的序列和所述数据库中的序列之间的同源水平的过程200的一个方面的流程图。所述序列数据库可以是存储在计算机系统100内的私人数据库，或可通过互联网访问的公共数据库（如GENBANK）。

过程200从初始状态201开始，然后移至状态202，这一过程将待比较的新序列存储至计算机系统100的存储器。如上所述，所述存储器可以是任何类型的存储器，包括RAM或内部存储设备。

然后过程200移至状态204，这一过程打开用于分析和比较的序列数据库。然后过程200移至状态206，这一过程将存储在数据库中的第一个序列读取到计算机的存储器中。然后在状态210执行比较，以确定所述第一个序列是否与第二个序列相同。值得注意的是，此步骤并不限于执行新序列和数据库中第一个序列之间的精确比较。用于比较两个核苷酸或蛋白序列（即使它们并不相同）的公知方法对本领域技术人员为已知。例如，可以向一个序列中引入缺口，以提高两个受试序列之间的同源性水平。控制是否在比较过程中向序列引入缺口或其它特征的参数通常由所述计算机系统的用户输入。

在状态210下执行所述两个序列的比较之后，将在决定状态210下作出所述两个序列是否相同的决定。当然，术语“相同”并不限于完全一致的序列。在过程200中，在用户输入的同源性参数范围内的序列都将标记为“相同”。

如果作出的决定是两个序列相同，过程200将移至状态214，其中向用户显示所述数据库序列的名称。此状态通知用户具有显示的名称的序列满足输入的同源性限制。向用户显示所述存储序列的名称之后，过程200将移至决定状态218，其中作出数据库中是否存在更多序列的决定。如果数据库中不存在更多序列，则过程200将终止在结束状态220。但是，如果数据库中确实存在更多序列，则过程200将移至状态224，其中指示器移至数据库中的下一个序列，以便其可以和所述新序列进行比较。所述新序列将以这种方式和数据库中的每一个序列进行对比和比较。

值得注意的是，如果在决定状态212下作出的决定是所述序列不同源，则过程200将立即移至决定状态218，以确定数据库中是否存在可以比较的任何其它序列。

因此，本发明的一方面是包含处理器、存储了本发明核酸序列或本发明多肽序列的数据存储设备、可检索地存储了要与本发明核酸序列或本发明多肽序列进行比较的参考核苷酸序列或多肽序列的数据存储设备和用于执行比较的序列比较器的计算机系统。所述序列比较器可指示所比较的序列之间的同源性水平，或鉴定上述核酸密码、本发明核酸序列，或本发明多肽序列中的结构模体，或者它可以鉴定与这些核酸密码和多肽密码进行比较的序列中的结构模体。在某些方面，所述数据存储设备可以存储至少2、5、10、15、20、25、30或40个或更多个本发明核酸序列或本发明多肽序列。

本发明的另一方面是确定本发明核酸序列或本发明多肽序列和参考核苷酸序列之间的同源性的方法。所述方法包括通过使用确定同源性水平的计算机程序读取所述核酸密码或所述多肽密码和参考核苷酸或多肽序列，并使用该计算机程序确定所述核酸密码或多肽密码和参考核苷酸或多肽序列之间的同源性。所述计算机程序可以是用来确定同源性水平的众多计算机程序中的任何一个，包括那些本文特别列举的程序(例如，使用默认参数或使用任何改良参数的BLAST2N)。所述方法可以使用上述计算机系统执行。所述方法还可通过使用所述计算机程序读取至少2、5、10、15、20、25、30或40个或更多个上文所述的本发明核酸序列或所述本发明多肽序列，然后确定所述核酸密码或多肽密码和参考核苷酸序列或多肽序列之间的同源性来执行。

图3是说明确定两个序列是否同源的计算机过程250的一个方面的流程图。过程250从初始状态252开始，然后移至状态254，这一过程将待比较的第一个序列存储至内存。然后待比较的第二个序列在状态256下存储至内存。然后过程250移至状态260，这一过程将读取所述第一个序列的第一个字符，然后移至状态262，这一过程将读取所述第二个序列的第一个字符。应理解，如果所述序列是核苷酸序列，则所述字符是A、T、C、G或U。如果所述序列是蛋白序列，则其一方面是单字母的氨基酸密码，以便可以容易地比较所述第一个序列和第二个序列。

将在决定状态264下作出所述两个字符是否相同的决定。如果它们相同，则过程250将移至状态268，这一过程将读取所述第一个和第二个序列中接下来的字符。然后将作出接下来的字符是否相同的决定。如果是，则过程250将继续此循环，直至两个字符不相同。如果作出的决定是接下来的两个字符不相同，则过程250将移至决定状态274，以确定任一序列中是否还有更多字符可读取。

如果没有更多字符可读取，则过程250将移至状态276，这一过程将向用户显示所述第一个和第二个序列之间的同源性水平。同源性水平通过计算两个序列之间相同的字符占所述第一个序列的字符总数的比例来确定。因此，如果第一个100核苷酸的序列中的每一个字符与第二个序列的每个字符相对应，则同源性水平是100%。

可选地，所述计算机程序可以是比较本发明核酸序列的核苷酸序列和一个或多个参考核苷酸序列以确定本发明核酸密码是否在一个或多个位置处不同于参考核酸序列的计算机程序。可选择地，此程序记录有关参考多核苷酸或本发明核酸序列的序列的插入、缺失或置换的核苷酸的长度和同一性。一方面，所述计算机程序可以是确定本发明核酸序列是否包含与参考核苷酸序列有关的单核苷酸多态性(SNP)的程序。

因此，本发明的另一方面是确定本发明核酸序列是否在一个或多个核苷酸处不同于参考核苷酸序列的方法，该方法包括如下步骤：通过使用鉴定核酸序列差异的计算机程序读取所述核酸密码和所述参考核苷酸序列，并使用所述计算机程序鉴定所述核酸密码和所述参考核苷酸序列之间的差异。在某些方面，所述计算机程序是鉴定单核苷酸多态性的程序。所述方法可使用上述计算机系统和图3所示方法来实现。所述方法还可通过使用所述计算机程序读取至少2、5、10、15、20、25、30或40个或更多个本发明核酸序列和参考核苷酸序列，然后使用所述计算机程序鉴定所述核酸密码和所述参考核苷酸序列之间的差异来执行。

在其它方面，所述基于计算机的系统可进一步包含用于鉴定本发明核酸序列或本发明多肽序列内的特征的鉴定程序。“鉴定程序”指鉴定本发明核酸序列或本发明多肽序列的某些特征的一个或多个程序。一方面，所述鉴定程序可包含鉴定本发明核酸序列的开放阅读框的程序。

图4是说明检测序列中的特征的存在的鉴定程序过程300的一个方面的流程图。过程300从初始状态302开始，然后移至状态304，其中将待核对特征的第一个序列存储至计算机系统100中的内存115。然后过程300将移至状态306，这一过程将打开序列特征数据库。此数据库将包括各个特征的属性的列表以及所述特征的名称。例如，特征名称可以是“起始密码子”，而其属性将是“ATG”。另一是特征名称“TAATAA盒”，而特征属性将是“TAATAA”。此数据库的一个实例是由University of Wisconsin Genetics Computer Group生产的。可选地，所述特征可以是结构多肽模体（如α螺旋、β折叠），或功能多肽模体（如酶活性位点、螺旋-转角-螺旋模体或本领域的技术人员已知的其它模体）。

在状态306下打开特征数据库之后，过程300将移至状态308，这一过程将从所述数据库中读取第一个特征。然后将在状态310下比较所述第一个特征的属性和所述第一个序列。然后将在决定状态316下作出是否在所述第一个序列中找到所述特征的属性的决定。如果找到了所述属性，则过程300将移至状态318，这一过程将向用户显示找到的特征的名称。

然后过程300将移至决定状态320，这一过程将作出数据库中是否存在更多特征的决定。如果不存在更多特征，则过程300将终止在结束状态324。但是，如果数据库中确实存在更多特征，则过程300将在状态326下读取下一个序列特征，而循环则返回状态310，这一过程将比较下一个特征的属性和所述第一个序列。值得注意的是，如果在决定状态316下未在所述第一个序列中找到所述特征属性，过程300将直接移至决定状态320，以确定数据库中是否存在更多特征。

因此，本发明的另一方面是鉴定本发明核酸序列或本发明多肽序列内的特征的方法，包括通过使用鉴定特征的计算机程序读取所述核酸密码或多肽密码，然后使用所述计算机程序鉴定所述核酸密码的特征。一方面，计算机程序包括鉴定开放阅读框的计算机程序。所述方法可通过使用所述计算机程序读取单个序列或至少2、5、10、15、20、25、30或40个或更多个本发明核酸序列或本发明多肽序列，然后使用所述计算机程序鉴定所述核酸密码或多肽密码内的特征来执行。

本发明核酸序列或本发明多肽序列可以多种格式在多种数据处理器程序中进行存储和操作。例如，本发明核酸序列或本发明多肽序列可作为文本存储在文字处理文件（如Microsoft WORD^TM或WORDPERFECT^TM），或作为ASCⅡ文件存储在本领域技术人员熟悉的多种数据库程序（如DB2^TM、SYBASE^TM或ORACLE^TM）中。此外，许多计算机程序和数据库可用作序列比较算法、鉴定程序、或与本发明核酸序列或本发明多肽序列进行比较的参考核苷酸序列或多肽序列的来源。下面的列表并非意在限制本发明，而是提供可用于本发明核酸序列或本发明多肽序列的程序和数据库的指南。

可使用的程序和数据库包括但不限于：MACPATTERN^TM(EMBL)、DISCOVERYBASE^TM(Molecular Applications Group)、GENEMINE^TM(Molecular Applications Group)、LOOK^TM(MolecularApplications Group)、MACLOOK^TM(Molecular Applications Group)、BLAST和BLAST2(NCBI)、BLASTN和BLASTX(Altschul等，J.Mol.Biol.215：403，1990)、FASTA(Pearson和Lipman，Proc.Natl.Acad.Sci.USA，85：2444，1988)、FASTDB(Brutlag等Comp.App.BioSci.6：237-245，1990)、CATALYST^TM(Molecular Simulations Inc.)、Catalyst/SHAPE^TM(Molecular Simulations Inc.)、Cerius².DBAccess^TM(Molecular Simulations Inc.)、HYPOGEN^TM(Molecular Simulations Inc.)、INSIGHT Ⅱ^TM(Molecular Simulations Inc.)、DISCOVER^TM(MolecularSimulations Inc.)、CHARMm^TM(Molecular Simulations Inc.)、FELIX^TM(Molecular Simulations Inc.)、DELPHI^TM(Molecular Simulations Inc.)、QuanteMM^TM(Molecular Simulations Inc.)、Homology(MolecularSimulations Inc.)、MODELER^TM(Molecular Simulations Inc.)、ISIS^TM(Molecular Simulations Inc.)、Quanta/Protein Design(MolecularSimulations Inc.)、WebLab(Molecular Simulations Inc.)、WebLabDiversity Explorer(Molecular Simulations Inc.)、Gene Explorer(MolecularSimulations Inc.)、SeqFold(Molecular Simulations Inc.)、MDL可用化学品目录数据库(MDL Available Chemicals Directory database)、MDL药物数据报告数据库(MDL Drug Data Report data base)、综合药物化学数据库(Comprehensive Medicinal Chemistry database)、Derwents′s世界药物索引数据库（Derwents′s World Drug Index database）、BioByteMasterFile数据库、Genbank数据库和Genseqn数据库。许多其它程序和数据库对本发明领域的技术人员是明显的。

可使用上述程序进行检测的模体包括：编码亮氨酸拉链、螺旋-转角-螺旋模体、糖基化位点、泛素化位点、α螺旋和β折叠的序列，编码信号肽（指导编码的蛋白的分泌）的信号序列，参与转录调控的序列如同源异型框、酸性序列(acidic stretches)、酶活性位点、底物结合位点和酶切割位点。

核酸的杂交

本发明提供在严格条件下与本发明示例性序列(例如，SEQ IDNO：1、SEQ ID NO：3、SEQ ID NO：5、SEQ ID NO：7、SEQ ID NO：9、SEQ ID NO：11、SEQ ID NO：13、SEQ ID NO：15、SEQ ID NO：17、SEQID NO：19、SEQ ID NO：21、SEQ ID NO：23、SEQ ID NO：25、SEQ IDNO：27、SEQ ID NO：29、SEQ ID NO：31、SEQ ID NO：33、SEQ ID NO：35、SEQ ID NO：37、SEQ ID NO：39、SEQ ID NO：41、SEQ ID NO：43、SEQID NO：45、SEQ ID NO：47、SEQ ID NO：49、SEQ ID NO：51、SEQ IDNO：53、SEQ ID NO：55、SEQ ID NO：57、SEQ ID NO：59、SEQ ID NO：61、SEQ ID NO：63、SEQ ID NO：65、SEQ ID NO：67、SEQ ID NO：69、SEQID NO：71、SEQ ID NO：73、SEQ ID NO：75、SEQ ID NO：77、SEQ IDNO：79、SEQ ID NO：81、SEQ ID NO：83、SEQ ID NO：85、SEQ ID NO：87、SEQ ID NO：89、SEQ ID NO：91、SEQ ID NO：93、SEQ ID NO：95、SEQID NO：97、SEQ ID NO：99、SEQ ID NO：101、SEQ ID NO：103、SEQ IDNO：105、SEQ ID NO：107、SEQ ID NO：109、SEQ ID NO：111、SEQ IDNO：113、SEQ ID NO：115、SEQ ID NO：117、SEQ ID NO：119、SEQ IDNO：121、SEQ ID NO：123、SEQ ID NO：125、SEQ ID NO：127、SEQ IDNO：129、SEQ ID NO：131、SEQ ID NO：133、SEQ ID NO：135、SEQ IDNO：137、SEQ ID NO：139、SEQ ID NO：141、SEQ ID NO：143、SEQ IDNO：145、SEQ ID NO：147、SEQ ID NO：149、SEQ ID NO：151、SEQ IDNO：153、SEQ ID NO：155、SEQ ID NO：157、SEQ ID NO：159、SEQ IDNO：161、SEQ ID NO：163、SEQ ID NO：165、SEQ ID NO：167、SEQ IDNO：169、SEQ ID NO：171、SEQ ID NO：173、SEQ ID NO：175、SEQ IDNO：177、SEQ ID NO：179、SEQ ID NO：181、SEQ ID NO：183、SEQ IDNO：185、SEQ ID NO：187、SEQ ID NO：189、SEQ ID NO：191、SEQ IDNO：193、SEQ ID NO：195、SEQ ID NO：197、SEQ ID NO：199、SEQ IDNO：201、SEQ ID NO：203、SEQ ID NO：205、SEQ ID NO：207、SEQ IDNO：209、SEQ ID NO：211、SEQ ID NO：213、SEQ ID NO：215、SEQ IDNO：217、SEQ ID NO：219、SEQ ID NO：221、SEQ ID NO：223、SEQ IDNO：225、SEQ ID NO：227、SEQ ID NO：229、SEQ ID NO：231、SEQ IDNO：233、SEQ ID NO：235、SEQ ID NO：237、SEQ ID NO：239、SEQ IDNO：241、SEQ ID NO：243、SEQ ID NO：245、SEQ ID NO：247、SEQ IDNO：249、SEQ ID NO：251、SEQ ID NO：253、SEQ ID NO：255、SEQ IDNO：257、SEQ ID NO：259、SEQ ID NO：261、SEQ ID NO：263、SEQ IDNO：265、SEQ ID NO：267、SEQ ID NO：269、SEQ ID NO：271、SEQ IDNO：273、SEQ ID NO：275、SEQ ID NO：277、SEQ ID NO：279、SEQ IDNO：281、SEQ ID NO：283、SEQ ID NO：285、SEQ ID NO：287、SEQ IDNO：289、SEQ ID NO：291、SEQ ID NO：293、SEQ ID NO：295、SEQ IDNO：297、SEQ ID NO：299、SEQ ID NO：301、SEQ ID NO：303、SEQ IDNO：305、SEQ ID NO：307、SEQ ID NO：309、SEQ ID NO：311、SEQ IDNO：313、SEQ ID NO：315、SEQ ID NO：317、SEQ ID NO：319、SEQ IDNO：321、SEQ ID NO：323、SEQ ID NO：325、SEQ ID NO：327、SEQ IDNO：329、SEQ ID NO：331、SEQ ID NO：333、SEQ ID NO：335、SEQ IDNO：337、SEQ ID NO：339、SEQ ID NO：341、SEQ ID NO：343、SEQ IDNO：345、SEQ ID NO：347、SEQ ID NO：349、SEQ ID NO：351、SEQ IDNO：353、SEQ ID NO：355、SEQ ID NO：357、SEQ ID NO：359、SEQ IDNO：361、SEQ ID NO：363、SEQ ID NO：365、SEQ ID NO：367、SEQ IDNO：369、SEQ ID NO：371、SEQ ID NO：373、SEQ ID NO：375、SEQ IDNO：377、SEQ ID NO：379、SEQ ID NO：381、SEQ ID NO：383、SEQ IDNO：385、SEQ ID NO：387、SEQ ID NO：389、SEQ ID NO：391、SEQ IDNO：393、SEQ ID NO：395、SEQ ID NO：397、SEQ ID NO：399、SEQ IDNO：401、SEQ ID NO：403、SEQ ID NO：405、SEQ ID NO：407、SEQ IDNO：409、SEQ ID NO：411、SEQ ID NO：413、SEQ ID NO：415、SEQ IDNO：417、SEQ ID NO：419、SEQ ID NO：421、SEQ ID NO：423、SEQ IDNO：425、SEQ ID NO：427、SEQ ID NO：429、SEQ ID NO：431、SEQ IDNO：433、SEQ ID NO：435、SEQ ID NO：437、SEQ ID NO：439、SEQ IDNO：441、SEQ ID NO：443、SEQ ID NO：445、SEQ ID NO：447、SEQ IDNO：449、SEQ ID NO：451、SEQ ID NO：453、SEQ ID NO：455、SEQ IDNO：457、SEQ ID NO：459、SEQ ID NO：461、SEQ ID NO：463、SEQ IDNO：465、SEQ ID NO：467、SEQ ID NO：469、SEQ ID NO：471、SEQ IDNO：473、SEQ ID NO：475、SEQ ID NO：477、SEQ ID NO：479、SEQ IDNO：481、SEQ ID NO：483、SEQ ID NO：485、SEQ ID NO：487、SEQ IDNO：489、SEQ ID NO：491、SEQ ID NO：493、SEQ ID NO：495、SEQ IDNO：497、SEQ ID NO：499、SEQ ID NO：501、SEQ ID NO：503、SEQ IDNO：505、SEQ ID NO：507、SEQ ID NO：509、SEQ ID NO：511、SEQ IDNO：513、SEQ ID NO：515、SEQ ID NO：517、SEQ ID NO：519、SEQ IDNO：521和/或SEQ ID NO：523，另请参见下文的表1、2和3，实施例1和4，以及序列表)杂交的分离的、合成的或重组的核酸。所述严格条件可以是高严格条件、中严格条件和/或低严格条件，包括本文描述的高和降低的严格条件。一方面，正是所述漂洗条件的严格性确定了确定核酸是否在本发明范围内的条件，参见下文。

“杂交”指核酸链通过碱基配对与互补链结合的过程。杂交反应可以是敏感和选择性的，以便鉴定以低浓度存在于样品中的所感兴趣的特定序列。适当严格的条件可以由例如预杂交和杂交溶液中的盐或甲酰胺浓度或由杂交温度来确定，并且所述条件在本领域为公知。在可选择的方面，可以通过降低盐浓度、增加甲酰胺浓度或提高杂交温度来增加严格性。在可选择的方面，本发明核酸由其在如本文所述的不同严格条件(例如，高、中和低）下进行杂交的能力确定。

一方面，高严格条件下的杂交包括约50%甲酰胺，约37℃至42℃。一方面，杂交条件包括约35%至25%甲酰胺，约30℃至35℃的降低的严格条件。一方面，杂交条件包括高严格条件，例如，42℃，50%甲酰胺，5X SSPE，0.3%SDS和200μg/ml剪切和变性的鲑精DNA。一方面，杂交条件包括这些降低的严格条件，但是还包括35%甲酰胺，35℃降低的温度。对应于特定严格水平的温度范围可以通过计算所感兴趣的核酸的嘌呤与嘧啶的比值，并相应地调整温度来缩小。上述范围和条件的变化在本领域为公知。

在可选择的方面，根据其在严格条件下杂交的能力而确定的本发明核酸可以是约五个残基至本发明核酸的全长；例如，它们的长度可以是至少5、10、15、20、25、30、35、40、50、55、60、65、70、75、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000个或更多个残基。短于全长的核酸也包括在内。这些核酸可以用作，例如杂交探针、标记探针、PCR寡核苷酸探针、siRNA或miRNA(单链或双链)、编码抗体结合肽(表位)、模体、活性位点等的序列或反义序列。

一方面，本发明核酸根据它们在包括约50%甲酰胺、约37℃至42℃的条件的高严格性下杂交的能力来确定。一方面，本发明核酸根据它们在包括约35%至25%甲酰胺、约30℃至35℃的条件的降低的严格性下杂交的能力来确定。

可选地，本发明核酸根据它们在包括42℃、50%甲酰胺、5X SSPE、0.3%SDS和重复序列封闭核酸如cot-1或鲑精DNA（例如，200μg/ml剪切和变性的鲑精DNA）的条件的高严格性下杂交的能力来确定。一方面，本发明核酸根据它们在包括35%或40%甲酰胺、35℃或42℃的降低的温度的降低的严格条件下杂交的能力来确定。

在核酸杂交反应中，用来实现特定严格水平的条件将根据杂交的核酸的性质而变化。例如，选择杂交条件时，可以考虑所述核酸的杂交区的长度、互补程度、核苷酸序列组成(例如，GC与AT含量)和核酸类型(例如，RNA与DNA)。另外一个考虑是所述核酸之一是否固定在例如滤器上。

可在低严格、中严格或高严格的条件下进行杂交。作为核酸杂交的一个实例，包含固定的变性核酸的聚合物膜首先在由0.9M NaCl、50mM NaH₂PO₄、pH7.0、5.0mM Na₂EDTA、0.5%SDS、10X Denhardt’s和0.5mg/ml多核糖腺苷酸组成的溶液中，在45℃下预杂交30分钟。然后向所述溶液中加入约2X10⁷cpm(比活性4-9X10⁸cpm/μg)的³²P末端标记的寡核苷酸探针。温育12-16小时之后，将所述膜用包含0.5%SDS的1X SET(150mM NaCl、20mM Tris盐酸、pH7.8、1mMNa₂EDTA)在室温下漂洗30分钟，然后用新鲜的1X SET在所述寡核苷酸探针的T_m-10℃下漂洗30分钟。然后将所述膜曝光于放射自显影胶片，以检测杂交信号。所有前述杂交均应视为是在高严格性条件下。

杂交之后，可以漂洗滤器以除去任何非特异性结合的可检测探针。用于漂洗滤器的严格性还可以根据杂交的核酸的性质、杂交的核酸的长度、互补程度、核苷酸序列组成(例如，GC与AT含量)和核酸类型(例如，RNA与DNA)而变化。漂洗条件严格性递增的实例如下：2XSSC，0.1%SDS，室温漂洗15分钟(低严格性)；0.1X SSC，0.5%SDS，室温漂洗30分钟至1小时(中严格性)；0.1X SSC，0.5%SDS，在介于杂交温度和68℃之间的温度下漂洗15至30分钟(高严格性)；和0.15MNaCl，72℃下漂洗15分钟(极高严格性)。最后的低严格性漂洗可以在0.1X SSC，室温下进行。上述实例只是说明可以用来漂洗滤器的一组条件。本领域的技术人员应知道，不同严格性的漂洗存在无数方案。下文给出了一些其它实例。

一方面，杂交条件包括的漂洗步骤包括：在室温下，在包含1X150mM NaCl、20mM Tris盐酸、pH7.8、1mM Na₂EDTA、0.5%SDS的溶液中漂洗30分钟，然后在新鲜溶液中漂洗30分钟。

与探针杂交的核酸通过放射自显影或其它常规技术鉴定。

可对上述程序进行改良，以鉴定与所述探针序列的序列同一性(同源性)水平降低的核酸。例如，为了获得与所述可检测探针的序列同一性(同源性)降低的核酸，可以使用较低严格性条件。例如，所述杂交温度可按5℃的幅度从68℃降至42℃，杂交缓冲液的Na+浓度约为1M。杂交之后，所述滤器可以使用2X SSC、0.5%SDS在杂交温度下漂洗。这些条件在高于50℃时被视为“中”条件，在低于50℃时被视为“低”条件。“中”杂交条件的一个具体实例是当上述杂交在55℃下进行时。“低严格性”杂交条件的一个具体实例是当上述杂交在45℃下进行时。

可选地，所述杂交可在包含甲酰胺的缓冲液（如6X SSC）中，在42℃温度下进行。在此情况下，所述杂交缓冲液中的甲酰胺浓度可按5%的幅度从50%降至0%，以鉴定与所述探针的同源性水平降低的克隆。杂交之后，所述滤器可用6X SSC、0.5%SDS在50℃下漂洗。这些条件在高于25%甲酰胺时被视为“中”条件，在低于25%甲酰胺时被视为“低”条件。“中”杂交条件的一个具体实例是当上述杂交在30%甲酰胺下进行时。“低严格性”杂交条件的一个具体实例是当上述杂交在10%甲酰胺下进行时。

但是，杂交形式的选择可能并不是关键的，是漂洗条件的严格性确定了确定核酸是否在本发明范围内的条件。用来鉴定本发明范围内的核酸的漂洗条件包括，例如：约0.02M的盐浓度，pH7和至少约50℃或约55℃至约60℃的温度；或，约0.15M NaCl的盐浓度，72℃，约15分钟；或，约0.2X SSC的盐浓度，至少约50℃或约55℃至约60℃的温度，约15至约20分钟；或，所述杂交复合体用包含0.1%SDS的盐浓度约为2X SSC的溶液在室温下漂洗15分钟，两次，然后用包含0.1%SDS的0.1X SSC在68℃下漂洗15分钟，两次；或，同等条件。参见Sambrook、Tijssen和Ausubel关于SSC缓冲液和同等条件的描述。

这些方法可用于分离或鉴定本发明核酸。例如，前述方法可用于分离或鉴定具有与选自本发明序列组成的组之一的核酸序列具有至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高序列同一性(同源性)的序列的核酸，或包含其或其互补序列的至少约10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段。序列同一性(同源性)可使用对比算法测量。例如，所述同源多核苷酸可以具有是本文所述编码序列之一的天然存在等位变体的编码序列。与本发明核酸相比，此类等位基因变体可以具有一个或多个核苷酸的置换、缺失或添加。此外，上述程序可用于分离编码与本发明多肽具有至少约99%、95%、至少90%、至少85%、至少80%、至少75%、至少70%、至少65%、至少60%、至少55%或至少50%序列同一性(同源性)的多肽，或包含所述多肽的至少5、10、15、20、25、30、35、40、50、75、100或150个连续氨基酸的片段的核酸，所述序列同一性使用序列对比算法（例如，如FASTA3.0t78版算法，使用默认的参数）确定。

寡核苷酸探针和使用它们的方法

本发明还提供可用于，例如，鉴定、扩增或分离编码具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的多肽或其片段的核酸，或用于鉴定纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶基因的核酸探针。一方面，所述探针包含本发明核酸的至少约10个连续碱基。可选地，本发明探针可以是本发明核酸的序列的至少约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、60、70、80、90、100、110、120、130、150个，或约10至50、约20至60、约30至70个连续碱基。所述探针通过结合和/或杂交鉴定核酸。所述探针可用于本发明阵列（参见下文的讨论），包括例如毛细管阵列。本发明探针还可用于分离其它核酸或多肽。

本发明分离的、合成的或重组的核酸，其互补序列，或包含本发明序列之一的至少约10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个连续碱基的片段或其互补序列还可用作确定生物样品（如土壤样品）是否包含具有本发明核酸序列的生物体或获得所述核酸的生物体的探针。在此类程序中，得到可能具有从中分离所述核酸的生物体的生物样品，然后从该样品中获得核酸。在允许探针与其中存在的任何互补序列特异性杂交的条件下使所述核酸与所述探针接触。

如果必要，允许所述探针与互补序列特异性杂交的条件可通过使所述探针与互补序列（来自已知包含所述互补序列的样品）以及不包含所述互补序列的对照序列接触来确定。可对杂交条件（如杂交缓冲液的盐浓度、杂交缓冲液的甲酰胺浓度或杂交温度）进行改变，以鉴定允许所述探针与互补核酸特异性杂交的条件。

如果所述样品包含从中分离所述核酸的生物体，则可检测到所述探针的特异性杂交。杂交可通过用可检测试剂（如放射性同位素、荧光染料或能够催化形成可检测产物的酶）标记所述探针而进行检测。

本领域的技术人员熟悉许多使用标记的探针检测样品中存在互补核酸的方法。这些方法包括DNA印迹、RNA印迹、菌落杂交程序和斑点印迹。Ausubel等Current Protocols in Molecular Biology（分子生物学最新方案），John Wiley503Sons，Inc.(1997)和Sambrook等，Molecular Cloning：A Laboratory Manual（分子克隆实验手册），第二版，Cold Spring Harbor Laboratory Press(1989)提供了每一种程序的方案。

可选地，可在扩增反应中使用多于一个探针(至少一个能够与所述核酸样品中存在的任何互补序列特异性杂交），以确定所述样品是否包含：包含本发明核酸序列的生物体(例如，从中分离所述核酸的生物体)。一方面，所述探针包含寡核苷酸。一方面，所述扩增反应可包括PCR反应。PCR方案参见Ausubel和Sambrook，同上。可选地，所述扩增可包括连接酶链式反应，3SR，或链置换反应（参见Barany，F.，“The Ligase Chain Reaction in a PCR World”（PCR世界中的连接酶链式反应），PCR Methods and Applications 1：5-16，1991；E.Fahy等，“Self-sustained Sequence Replication(3SR)：An IsothermalTranscription-based Amplification System Alternative to PCR”（自维持序列复制(3SR)：替代PCR的等温的基于转录的扩增系统），PCR Methodsand Applications1：25-33，1991；和Walker G.T.等，“Strand DisplacementAmplification-an Isothermal in vitro DNA Amplification Technique”（链置换扩增-一种等温体外DNA扩增技术），Nucleic Acid Research20：1691-1696，1992)。在此类程序中，使所述样品中的核酸与所述探针接触，然后进行扩增反应，并检测得到的任何扩增产物。所述扩增产物可通过对反应产物进行凝胶电泳，然后使用嵌入剂（如溴化乙锭）对所述凝胶进行染色来检测。可选地，一个或多个所述探针可以使用放射性同位素进行标记，然后在凝胶电泳之后可通过放射自显影检测放射性扩增产物的存在。

也可使用衍生自靠近本发明序列末端的序列的探针，通过染色体步移程序鉴定包含临近本发明序列的基因组序列的克隆。此类方法允许从所述宿主生物体中分离编码另外的蛋白的基因。

一方面，本发明分离的、合成的或重组的核酸，其互补序列，或包含本发明序列之一的至少10、15、20、25、30、35、40、50、75、100、150、200、300、400或500个或更多个连续碱基的片段或其互补序列用作鉴定和分离相关核酸的探针。在某些方面，所述相关核酸可以是从中分离所述核酸的生物体之外的生物体的cDNA或基因组DNA。例如，所述其它生物体可以是亲缘（related）生物体。在此类程序中，核酸样品在允许所述探针与相关序列特异性杂交的条件下接触所述探针。然后使用上文描述的任何方法检测所述探针与所述亲缘生物体的核酸的杂交。

通过改变用来鉴定与所述可检测探针杂交的核酸（如cDNA或基因组DNA）的杂交条件的严格性，可以分离和鉴定与所述探针具有不同同源性水平的核酸。可通过在低于所述探针的熔解温度的不同温度下进行杂交而改变严格性。熔解温度（T_m）是50%的靶序列与完全互补探针杂交的温度（在规定的离子强度和pH下）。极严格条件选择为等于特定探针的T_m或比其低约5℃。所述探针的熔解温度可使用下列公式计算：

对于长14至70核苷酸的探针，熔解温度(T_m)使用如下公式计算：T_m=81.5+16.6(log[Na+])+0.41(G+C分数)-(600/N)，其中N是探针长度。

如果杂交在包含甲酰胺的溶液中进行，熔解温度可使用如下等式计算：T_m=81.5+16.6(log[Na+])+0.41(G+C分数)-(0.63%甲酰胺)-(600/N)，其中N是探针长度。

预杂交可在6X SSC、5X Denhardt’s试剂、0.5%SDS、100μg/ml变性的片段化鲑精DNA或6X SSC、5X Denhardt’s试剂、0.5%SDS、100μg/ml变性的片段化鲑精DNA、50%甲酰胺中进行。Sambrook等（同上）列出了SSC和Denhardt’s杂交溶液的配方。

一方面，可通过向上面列出的预杂交溶液中加入可检测探针来进行杂交。如果所述探针包含双链DNA，则在其加入杂交溶液之前进行变性。一方面，所述滤器与所述杂交溶液接触足以允许所述探针与包含其互补或同源序列的cDNA或基因组DNA杂交的时段。对于长度超过200核苷酸的探针，所述杂交可在低于T_m15-25℃的温度下进行。对于较短的探针（如寡核苷酸探针），所述杂交可在低于T_m5-10℃的温度下进行。一方面，对于在6X SSC中的杂交，所述杂交在约68℃下进行。通常，对于在包含50%甲酰胺的溶液中的杂交，杂交在约42℃下进行。

抑制纤维素酶的表达

本发明提供与本发明核酸（例如，编码纤维素酶的核酸）互补的核酸(例如，反义序列），例如包含反义、siRNA、miRNA、核酶的核酸。本发明包含反义序列的核酸能够抑制纤维素酶编码基因的转运、剪接或转录。可以通过靶向基因组DNA或信使RNA来影响此抑制。例如，可通过杂交和/或切割来抑制被靶向的核酸的转录或功能。本发明提供的一组示例性抑制剂包括能够与纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶基因或信息结合，在任何情况下阻止或抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的生产或功能的寡核苷酸。这种缔合可以是通过序列特异性杂交。另一类有用的抑制剂包括造成纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶信息的失活或切割的寡核苷酸。所述寡核苷酸可以具有造成此类切割的活性，如核酶。所述寡核苷酸可以经化学修饰或共轭至能够切割所述互补核酸的酶或组合物。可从许多不同的此类寡核苷酸的池中筛选具有所需活性的寡核苷酸。因此，本发明提供在核酸和/或蛋白水平抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表达的不同组合物，例如，包含本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶序列的反义、siRNA、miRNA和核酶，和抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶和/或抗β-葡糖苷酶的本发明抗体。

抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表达可以具有多种工业应用。例如，抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表达可以减慢或防止变质。一方面，抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的表达和/或活性的本发明组合物（例如，抗体、反义寡核苷酸、核酶、siRNA和miRNA）的用途是用于减慢或防止变质。因此，一方面，本发明提供包括向植物或植物产品(例如，谷物、谷粒、水果、种子、根、叶等)应用本发明抗体、反义寡核苷酸、核酶、siRNA和miRNA以减慢或防止变质的方法和组合物。这些组合物还可以由植物(例如，转基因植物)或另一生物体(例如，转化有本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶基因的细菌或其它微生物）表达。

本发明抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表达的组合物(例如，反义、iRNA、核酶、抗体)可用作药物组合物，例如作为抗病原体剂，或在其它治疗中用作例如抗微生物剂（例如，针对沙门氏菌属(Salmonella)）。

反义寡核苷酸

本发明提供能够结合纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶信息的反义寡核苷酸，其在一方面可以通过靶向mRNA而抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。设计反义寡核苷酸的策略在科学和专利文献中已有详尽的描述，并且熟练的技术人员可以使用本发明的新试剂设计此类纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的寡核苷酸。例如，用于筛选有效的反义寡核苷酸的基因步移/RNA作图方案在本领域为公知，参见例如Ho(2000)Methods Enzymol.314：168-183，描述了RNA作图分析法，该方法基于标准的分子技术以提供简单可靠的用于选择有效的反义序列的方法。另请参见Smith(2000)Eur.J.Pharm.Sci.11：191-198。

使用天然存在的核酸作为反义寡核苷酸。所述反义寡核苷酸可以是任何长度；例如，在可选择的方面，所述反义寡核苷酸介于约5至100、约10至80、约15至60、约18至40。最佳长度可以通过常规的筛选确定。所述反义寡核苷酸可以为任何浓度。最佳浓度可以通过常规的筛选确定。许多可以解决此潜在问题的合成的、非天然存在的核苷酸和核酸类似物为已知。例如，可使用包含非离子主链如N-(2-氨乙基)甘氨酸单元的肽核酸(PNA)。还可使用具有硫代磷酸酯键的反义寡核苷酸，参见WO97/03211；WO96/39154；Mata(1997)Toxicol ApplPharmacol144：189-197；Antisense Therapeutics（反义疗法），Agrawal编(Humana Press，Totowa，N.J.，1996)。本发明提供的具有合成的DNA主链类似物的反义寡核苷酸还包括二硫代磷酸酯、膦酸甲酯、氨基磷酸酯、烷基磷酸三酯、氨基磺酸酯、3′-硫缩醛、亚甲基(甲基亚氨基)、3′-N-氨基甲酸酯和吗啉代氨基甲酸酯核酸，如上文所述。

可使用组合化学方法产生大量可以用于快速筛选对任何靶具有适当结合亲和力和特异性的特异性寡核苷酸的寡核苷酸，所述靶如本发明的有义和反义纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶序列(参见例如Gold(1995)J.of Biol.Chem.270：13581-13584)。

抑制性核酶

本发明提供能够结合纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶信息的核酶。这些核酶可以通过例如靶向mRNA而抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。设计核酶和选择要靶向的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的特异性反义序列的策略在科学和专利文献中已有详尽的描述，并且熟练的技术人员可以使用本发明新颖试剂设计此类核酶。核酶通过其靶RNA结合部分（被置于靠近切割所述靶RNA的RNA的酶部分的位置）与靶RNA结合，并通过此结合发挥作用。因此，所述核酶通过互补碱基配对识别和结合靶RNA，并在结合至正确位点之后，发挥酶活性切割和失活所述靶RNA。如果切割发生在编码序列，则以这样的方式切割靶RNA将会破坏其指导编码蛋白的合成的能力。在核酶结合和切割其RNA靶之后，它可以从所述RNA释放，以重复结合和断裂新的靶。

在某些情况下，核酶的酶学性质可以比其它技术如反义技术（其中核酸分子仅与核酸靶结合，以阻止其转录、翻译或与另一分子缔合)更为有利，因为影响治疗必需的有效核酶浓度可以低于反义寡核苷酸的浓度。这一潜在好处反映了核酶发挥酶作用的能力。因此，一个核酶分子能够切割许多个靶RNA分子。一方面，核酶是高度特异性的抑制剂，其抑制特异性不仅取决于结合的碱基配对机制，而且取决于该分子抑制其结合的RNA的表达的机制。即，抑制由所述RNA靶的切割引起，所以特异性定义为靶向RNA切割率与非靶向RNA切割率的比值。这种切割机制取决于参与碱基配对的因素之外的因素。因此，核酶作用的特异性可以高于结合相同RNA位点的反义寡核苷酸的特异性。

本发明核酶（例如，酶活性核酶RNA分子）可以形成于锤头模体、发夹模体，作为与RNA指导序列缔合的丁型肝炎病毒模体、Ⅰ型内含子模体和/或RNaseP-样RNA。锤头模体的实例参见，例如，Rossi(1992)Aids Research and Human Retroviruses8：183；发夹模体参见Hampel(1989)Biochemistry28：4929，和Hampel(1990)Nuc.Acids Res.18：299；丁型肝炎病毒模体参见Perrotta(1992)Biochemistry31：16；RNaseP模体参见Guerrier-Takada(1983)Cell35：849；而Ⅰ型内含子参见Cech第4,987,071号美国专利。这些特定的模体的提及并非意在限制。本领域的技术人员应了解，本发明核酶（例如，本发明酶活性RNA分子）可以具有与一个或多个所述靶基因RNA区域互补的特异性底物结合位点。本发明核酶可以具有位于赋予RNA对所述分子的切割活性的所述底物结合位点内部或其周围的核苷酸序列。

RNA干扰(RNAi)

一方面，本发明提供包含本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶序列的RNA抑制分子，即所谓的“RNAi”分子。RNAi分子可包括双链RNA(dsRNA)分子，例如，siRNA和/或miRNA。RNAi分子（例如，siRNA和/或miRNA）可以抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶基因的表达。一方面，RNAi分子（例如，siRNA和/或miRNA）长约15、16、17、18、19、20、21、22、23、24、25个或更多个双链体核苷酸。虽然本发明不受任何特定作用机制的限制，但是所述RNAi可以进入细胞，并造成具有相似或相同序列的单链RNA(ssRNA)（包括内源mRNA）的降解。当细胞接触双链RNA(dsRNA)时，所述同源基因的mRNA将被一个叫做RNA干扰(RNAi)的过程选择性降解。RNAi可能的基本机制是将匹配特定基因序列的双链RNA(dsRNA)断裂成叫做干扰RNA的短片段，该配对触发匹配其序列的mRNA的降解。一方面，本发明RNAi用于基因沉默治疗，参见例如Shuey(2002)DrugDiscov.Today7：1040-1046。一方面，本发明提供使用本发明RNAi分子（例如，siRNA和/或miRNA）选择性降解RNA的方法。该过程可在体外、间接体内（ex vivo）或体内实施。一方面，本发明RNAi分子可用于在细胞、器官或动物中产生功能缺失突变。制备和使用RNAi分子（例如，siRNA和/或miRNA）以选择性降解RNA的方法在本领域为公知，参见例如第6,506,559；6,511,824；6,515,109；6,489,127号美国专利。

核酸的改变—制备变异的本发明酶

本发明提供产生本发明核酸（例如，那些编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸）的变体的方法。这些方法可以重复使用或以不同组合使用，以产生与由所述模板核酸编码的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶相比，具有改变的或不同的活性或改变的或不同的稳定性的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。这些方法还可以重复使用或以不同组合使用，例如，以产生基因/信息表达、信息翻译或信息稳定性的变化。另一方面，例如，通过在间接体内改变同源基因，然后将其重新插入细胞来改变所述细胞的遗传组成。

可以通过任何方法改变本发明核酸。例如，无规则或随机方法，或非随机或“定向进化”方法，参见例如第6,361,974号美国专利。基因随机突变的方法在本领域为公知，参见例如第5,830,696号美国专利。例如，可使用诱变剂对基因进行随机突变。诱变剂包括单独或组合的，例如，紫外线或γ射线，或化学诱变剂（例如，丝裂霉素、亚硝酸、光活化补骨脂素），以诱导可以通过重组修复的DNA断裂。其它化学诱变剂包括，例如亚硫酸氢钠、亚硝酸、羟胺、肼或甲酸。其它诱变剂为核苷酸前体的类似物，例如亚硝基胍、5-溴尿嘧啶、2-氨基嘌呤或吖啶。这些试剂可以取代核苷酸前体加入PCR反应，从而突变所述序列。也可使用插入剂，如普罗黄素、吖啶黄素、喹吖因及类似物。

可使用分子生物学中的任何技术，例如随机PCR诱变（参见例如Rice(1992)Proc.Natl.Acad.Sci.USA89：5467-5471）；或，组合多重盒式诱变（参见例如Crameri(1995)Biotechniques18：194-196）。可选地，核酸（例如，基因）可以在无规则或“随机”片段化后进行重装配，参见例如第6,291,242；6,287,862；6,287,861；5,955,358；5,830,721；5,824,514；5,811,238；5,605,793号美国专利。另一方面，通过易错PCR、改组、寡核苷酸定向诱变、装配PCR、有性PCR诱变、体内诱变、盒式诱变、递归总体诱变、指数总体诱变、位点特异性诱变、基因重装配、基因位点饱和诱变(GSSM)、合成连接重装配(SLR)、重组、递归序列重组、硫代磷酸酯改性的DNA诱变、含尿嘧啶的模板诱变、缺口双链诱变、点错配修复诱变、修复缺陷宿主菌株诱变、化学诱变、辐射诱变、缺失诱变、限制-选择诱变、限制-纯化诱变、人工基因合成、全体诱变、嵌合核酸多聚体构建、染色体饱和诱变(CSM)和/或这些方法的组合和其它方法引入改变、添加或缺失。

下列文献描述了可结合入本发明方法的多种递归重组程序和/或方法：Stemmer(1999)“Molecular breeding of viruses for targeting and otherclinical properties”（病毒的靶向和其它临床性质的分子育种）TumorTargeting4：1-4；Ness(1999)Nature Biotechnology17：893-896；Chang(1999)“Evolution of a cytokine using DNA family shuffling”（使用DNA家族改组对细胞因子进行进化）Nature Biotechnology17：793-797；Minshull(1999)“Protein evolution by molecular breeding”（通过分子育种进行蛋白进化）Current Opinion in Chemical Biology3：284-290；Christians(1999)“Directed evolution of thymidine kinase for AZTphosphorylation using DNA family shuffling”（使用DNA家族改组的胸苷激酶AZT磷酸化的定向进化）Nature Biotechnology17：259-264；Crameri(1998)“DNA shuffling of a family of genes from diverse speciesaccelerates directed evolution”（来自多样化物种的基因家族的DNA改组加速定向进化）Nature391：288-291；Crameri(1997)“Molecularevolution of an arsenate detoxification pathway by DNA shuffling”（通过DNA改组对砷酸盐解毒途径进行分子进化）Nature Biotechnology15：436-438；Zhang(1997)“Directed evolution of an effective fucosidasefrom a galactosidase by DNA shuffling and screening”（通过DNA改组和筛选进行从半乳糖苷酶到有效岩藻糖苷酶的定向进化）Proc.Natl.Acad.Sci.USA94：4504-4509；Patten等(1997)“Applications of DNAShuffling to Pharmaceuticals and Vaccines”（对药物和疫苗应用DNA改组）Current Opinion in Biotechnology8：724-733；Crameri等(1996)“Construction and evolution of antibody-phage libraries by DNAshuffling（通过DNA改组进行抗体-噬菌体文库的构建和进化）”Nature Medicine2：100-103；Gates等(1996)“Affinity selectiveisolation of ligands from peptide libraries through display on a lac repressor′headpiece dimer′”（通过在lac抑制子‘头片二聚体’上进行显示从肽文库中选择性亲和分离配体）Journal of Molecular Biology255：373-386；Stemmer(1996)“Sexual PCR and Assembly PCR”（有性PCR和装配PCR），选自：The Encyclopedia of Molecular Biology（分子生物学百科全书），VCH Publisher，New York，第447-457页；Crameri和Stemmer(1995)“Combinatorial multiple cassette mutagenesis creates all thepermutations of mutant and wildtype cassettes”（组合多重盒式诱变创建突变型和野生型盒的全部排列）BioTechniques18：194-195；Stemmer等(1995)“Single-step assembly of a gene and entire plasmid form largenumbers of oligodeoxyribonucleotides”（一步装配基因和完整质粒形成大量寡脱氧核糖核苷酸）Gene，164：49-53；Stemmer(1995)“TheEvolution of Molecular Computation”（分子计算的演变）Science270：1510；Stemmer(1995)“Searching Sequence Space”（搜索序列空间）Bio/Technology13：549-553；Stemmer(1994)“Rapid evolution of a proteinin vitro by DNA shuffling”（通过DNA改组在体外对蛋白进行快速进化）Nature370：389-391；和Stemmer(1994)“DNA shuffling by randomfragmentation and reassembly：In vitro recombination for molecularevolution”（通过随机片段化和重装配进行DNA改组：用于分子进化的体外重组）Proc.Natl.Acad.Sci.USA91：10747-10751。

产生多样性的突变方法包括，例如，位点特异性诱变(Ling等(1997)“Approaches to DNA mutagenesis：an overview（DNA诱变方法综述）”Anal Biochem.254(2)：157-178；Dale等(1996)“Oligonucleotide-directed random mutagenesis using thephosphorothioate method（使用硫代磷酸酯方法的寡核苷酸指导的随机诱变）”Methods Mol.Biol.57：369-374；Smith(1985)“In vitromutagenesis”（体外诱变）Ann.Rev.Genet.19：423-462；Botstein&Shortle(1985)“Strategies and applications of in vitro mutagenesis”（体外诱变的策略和应用）Science229：1193-1201；Carter(1986)“Site-directedmutagenesis（位点定向诱变）”Biochem.J.237：1-7；和Kunkel(1987)“Theefficiency of oligonucleotide directed mutagenesis”（寡核苷酸定向诱变的效率），选自Nucleic Acids&Molecular Biology（核酸与分子生物学）(Eckstein，F.和Lilley，D.M.J.编，Springer Verlag，Berlin))；使用包含尿嘧啶的模板的诱变（Kunkel(1985)“Rapid and efficient site-specificmutagenesis without phenotypic selection”（无需进行表型选择的快速、有效的位点特异性诱变）Proc.Natl.Acad.Sci.USA82：488-492；Kunkel等(1987)“Rapid and efficient site-specific mutagenesis without phenotypicselection”（无需进行表型选择的快速、有效的位点特异性诱变）Methodsin Enzymol.154，367-382；和Bass等(1988)“Mutant Trp repressors withnew DNA-binding specificities”（使用新DNA结合特异性对Trp抑制子进行突变）Science242：240-245)；寡核苷酸定向诱变(Methods inEnzymol.100：468-500(1983)；Methods in Enzymol.154：329-350(1987)；Zoller(1982)“Oligonucleotide-directed mutagenesis usingM13-derived vectors：an efficient and general procedure for the productionof point mutations in any DNA fragment”（使用M13衍生载体的寡核苷酸定向诱变：在任何DNA片段中生产点突变的有效和通用的程序）Nucleic Acids Res.10：6487-6500；Zoller&Smith(1983)“Oligonucleotide-directed mutagenesis of DNA fragments clonedinto M13vectors”（克隆至M13载体的DNA片段的寡核苷酸定向诱变）Methods in Enzymol.100：468-500；和Zoller(1987)“Oligonucleotide-directed mutagenesis：a simple method using two oligonucleotide primersand a single-stranded DNA template”（寡核苷酸定向诱变：使用两个寡核苷酸引物和单链DNA模板的简单的方法）Methods in Enzymol.154：329-350)；硫代磷酸酯改性的DNA诱变(Taylor(1985)“The use ofphosphorothioate-modified DNA in restriction enzyme reactions to preparenicked DNA”（在限制性酶反应中使用硫代磷酸酯改性的DNA以制备带切口的DNA）Nucl.Acids Res.13：8749-8764；Taylor(1985)“The rapidgeneration of oligonucleotide-directed mutations at high frequency usingphosphorothioate-modified DNA”（使用硫代磷酸酯改性的DNA高频快速产生寡核苷酸指导的突变）Nucl.Acids Res.13：8765-8787(1985)；Nakamaye(1986)“Inhibition of restriction endonuclease Nci Ⅰ cleavageby phosphorothioate groups and its application to oligonucleotide-directedmutagenesis”（通过硫代磷酸酯基团抑制限制性内切酶Nci Ⅰ切割及其在寡核苷酸定向诱变中的应用）Nucl.Acids Res.14：9679-9698；Sayers(1988)“Y-T Exonucleases in phosphorothioate-basedoligonucleotide-directed mutagenesis”（基于硫代磷酸酯的寡核苷酸定向诱变中的Y-T外切核酸酶）Nucl.Acids Res.16：791-802；和Sayers等(1988)“Strand specific cleavage of phosphorothioate-containing DNA byreaction with restriction endonucleases in the presence of ethidiumbromide”（通过在存在溴化乙锭的条件下与限制性核酸内切酶反应对包含硫代磷酸酯的DNA进行链特异性切割）Nucl.Acids Res.16：803-814)；使用带缺口的双链体DNA的诱变(Kramer等(1984)“Thegapped duplex DNA approach to oligonucleotide-directed mutationconstruction”（构建寡核苷酸指导的突变的带缺口的双链体DNA方法）Nucl.Acids Res.12：9441-9456；Kramer&Fritz(1987)Methods inEnzymol.“Oligonucleotide-directed construction of mutations via gappedduplex DNA”（通过带缺口的双链体DNA构建寡核苷酸指导的突变）154：350-367；Kramer(1988)“Improved enzymatic in vitro reactions in thegapped duplex DNA approach to oligonucleotide-directed construction ofmutations”（改进构建寡核苷酸指导的突变的带缺口的双链体DNA方法中的体外酶反应）Nucl.Acids Res.16：7207；和Fritz(1988)“Oligonucleotide-directed construction of mutations：a gappedduplex DNA procedure without enzymatic reactions in vitro”（构建寡核苷酸指导的突变：无需体外酶反应的带缺口的双链体DNA程序）Nucl.Acids Res.16：6987-6999)。

可用于实施本发明的其它的方案包括点错配修复(Kramer(1984)“Point Mismatch Repair”（点错配修复）Cell 38：879-887)，使用修复缺陷宿主菌株的诱变(Carter等(1985)“Improved oligonucleotide site-directed mutagenesis using M13vectors”（使用M13载体改进寡核苷酸定向诱变）Nucl.Acids Res.13：4431-4443；和Carter(1987)“Improvedoligonucleotide site-directed mutagenesis using M13vectors”（使用M13载体改进寡核苷酸定向诱变）Methods in Enzymol.154：382-403)、缺失诱变(Eghtedarzadeh(1986)“Use of oligonucleotides to generate largedeletions”（使用寡核苷酸产生大缺失）Nucl.Acids Res.14：5115)、限制-选择和限制-选择和限制-纯化(Wells等(1986)“Importance ofhydrogen-bond formation in stabilizing the transition state of subtilisin”（氢键形成在稳定枯草杆菌蛋白酶的转变状态中的重要性）Phil.Trans.R.Soc.Lond.A317：415-423)、通过合成完整基因进行的诱变(Nambiar等(1984)“Total synthesis and cloning of a gene coding for the ribonuclease Sprotein”（完整合成和克隆编码核糖核酸酶S蛋白的基因）Science223：1299-1301；Sakamar和Khorana(1988)“Total synthesis andexpression of a gene for the a-subunit of bovine rod outer segment guaninenucleotide-binding protein(transducin)”（完整合成和表达牛视杆细胞外节鸟嘌呤核苷酸-结合蛋白(转导素)的a-亚基的基因）Nucl.Acids Res.14：6361-6372；Wells等(1985)“Cassette mutagenesis：an efficient methodfor generation of multiple mutations at defined sites”（盒式诱变：在指定位点产生多重突变的有效方法）Gene34：315-323；和Grundstrom等(1985)“Oligonucleotide-directed mutagenesis by microscale"shot-gun"gene synthesis”（通过微量“鸟枪法”基因合成进行寡核苷酸定向诱变）Nucl.Acids Res.13：3305-3316)、双链断裂修复(Mandecki(1986)；Arnold(1993)“Protein engineering for unusual environments”（用于特殊环境的蛋白质工程）Current Opinion in Biotechnology4：450-455。“Oligonucleotide-directed double-strand break repair in plasmids ofEscherichia coli：a method for site-specific mutagenesis”（大肠杆菌质粒中的寡核苷酸指导的双链断裂修复：一种位点特异性诱变方法）Proc.Natl.Acad.Sci.USA，83：7177-7181)。有关上述许多方法的详情，可以参见Methods in Enzymology，第154卷，它还描述了各种诱变方法的故障排除问题的有用对照。

可用于实施本发明的方案参见，例如，授予Stemmer的第5,605,793号美国专利（1997年2月25日）“Methods for In Vitro Recombination”（体外重组的方法）；授予Stemmer等的第5,811,238号美国专利（1998年9月22日）“Methods for Generating Polynucleotides having DesiredCharacteristics by Iterative Selection and Recombination”（通过迭代选择和重组产生具有所需的特性的多核苷酸的方法）；授予Stemmer等的第5,830,721号美国专利（1998年11月3日）“DNA Mutagenesis byRandom Fragmentation and Reassembly”（通过随机片段化和重装配进行DNA诱变）；授予Stemmer等的第5,834,252号美国专利（1998年11月10日）“End-Complementary Polymerase Reaction”（末端互补的聚合酶反应）；授予Minshull等的第5,837,458号美国专利（1998年11月17日）“Methods and Compositions for Cellular and MetabolicEngineering”（细胞和代谢工程的方法和组合物）；WO95/22625，Stemmer和Crameri，“Mutagenesis by Random Fragmentation andReassembly”（通过随机片段化和重装配进行诱变）；WO96/33207，Stemmer和Lipschutz，“End Complementary Polymerase Chain Reaction”（末端互补的聚合酶链式反应）；WO97/20078，Stemmer和Crameri，“Methods for Generating Polynucleotides having Desired Characteristicsby Iterative Selection and Recombination”（通过迭代选择和重组产生具有所需的特性的多核苷酸的方法）；WO97/35966，Minshull和Stemmer，“Methods and Compositions for Cellular and Metabolic Engineering”（细胞和代谢工程的方法和组合物）；WO99/41402，Punnonen等，“Targeting of Genetic Vaccine Vectors”（基因疫苗载体的靶向）；WO99/41383，Punnonen等，“Antigen Library Immunization”（抗原文库免疫）；WO99/41369，Punnonen等，“Genetic Vaccine Vector Engineering”（基因疫苗载体工程）；WO99/41368，Punnonen等，“Optimization ofImmunomodulatory Properties of Genetic Vaccines”（基因疫苗免疫调节特性的优化）；EP752008，Stemmer和Crameri，“DNA Mutagenesis byRandom Fragmentation and Reassembly”（通过随机片段化和重装配进行DNA诱变）；EP0932670，Stemmer，“Evolving Cellular DNA Uptake byRecursive Sequence Recombination”（通过递归序列重组实现细胞DNA进化）；WO99/23107，Stemmer等，“Modification of Virus Tropism andHost Range by Viral Genome Shuffling”（通过病毒基因组改组改变病毒嗜性和宿主范围）；WO99/21979，Apt等，“Human PapillomavirusVectors”（人乳头状瘤病毒载体）；WO98/31837，del Cardayre等，“Evolution of Whole Cells and Organisms by Recursive SequenceRecombination”（通过递归序列重组实现全细胞和生物体进化）；WO98/27230，Patten和Stemmer，“Methods and Compositions for PolypeptideEngineering”（多肽工程的方法和组合物）；WO98/27230，Stemmer等，“Methods for Optimization of Gene Therapy by Recursive SequenceShuffling and Selection”（通过递归序列改组和选择优化基因治疗的方法）；WO00/00632，“Methods for Generating Highly Diverse Libraries”（产生高度多样化的文库的方法），WO00/09679，“Methods forObtaining in Vitro Recombined Polynucleotide Sequence Banks andResulting Sequences”（体外获得重组多核苷酸序列库和所得序列的方法），WO98/42832，Arnold等，“Recombination of PolynucleotideSequences Using Random or Defined Primers”（使用随机或确定的引物对多核苷酸序列进行重组），WO99/29902，Arnold等，“Method for CreatingPolynucleotide and Polypeptide Sequences”（制备多核苷酸和多肽序列的方法），WO98/41653，Vind，“An in Vitro Method for Construction of aDNA Library”（构建DNA文库的体外方法），WO98/41622，Borchert等，“Method for Constructing a Library Using DNA Shuffling”（使用DNA改组构建文库的方法），和WO98/42727，Pati和Zarling，“SequenceAlterations using Homologous Recombination”（使用同源重组改变序列）。

可用于实施本发明的方案(提供有关产生多样化的各种方法的详情)参见，例如，第(USSN)09/407,800号美国专利申请，“SHUFFLING OFCODON ALTERED GENES”（密码子发生改变的基因的改组）（Patten等，1999年9月28日提交）；“EVOLUTION OF WHOLE CELLS ANDORGANISMS BY RECURSIVE SEQUENCE RECOMBINATION”（通过递归序列重组实现全细胞和生物体进化），del Cardayre等，第6,379,964号美国专利；“OLIGONUCLEOTIDE MEDIATED NUCLEICACID RECOMBINATION”（寡核苷酸介导的核酸重组），Crameri等，第6,319,714；6,368,861；6,376,246；6,423,542；6,426,224号美国专利和PCT/US00/01203；“USE OF CODON-VARIED OLIGONUCLEOTIDESYNTHESIS FOR SYNTHETIC SHUFFLING”（使用密码子发生改变的寡核苷酸合成进行合成改组），Welch等，第6,436,675号美国专利；“METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES&POLYPEPTIDES HAVING DESIREDCHARACTERISTICS”（制备具有所需的特性的字符串、多核苷酸和多肽的方法），Selifonov等，2000年1月18日提交(PCT/US00/01202)和，例如“METHODS FOR MAKING CHARACTER STRINGS,POLYNUCLEOTIDES&POLYPEPTIDES HAVING DESIREDCHARACTERISTICS”（制备具有所需的特性的字符串、多核苷酸和多肽的方法），Selifonov等，2000年7月18日提交(美国序号09/618,579)；“METHODS OF POPULATING DATA STRUCTURES FOR USE INEVOLUTIONARY SIMULATIONS”（增加数据结构以用于进化模拟的方法），Selifonov和Stemmer，2000年1月18日提交(PCT/US00/01138)；和“SINGLE-STRANDED NUCLEIC ACID TEMPLATE-MEDIATEDRECOMBINATION AND NUCLEIC ACID FRAGMENT ISOLATION”（单链核酸模板介导的重组和核酸片段分离），Affholter，2000年9月6日提交(美国序号09/656,549)；和第6,177,263、6,153,410号美国专利。

非随机或“定向进化”方法包括例如，饱和诱变如基因位点饱和诱变(GSSM)、合成连接重装配(SLR)或其组合，用于改变本发明核酸以产生具有新的或改变的特性(例如，在强酸或强碱条件下，高温或低温下及类似条件下的活性)的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。在测试葡聚糖水解或其它活性之前，可以对所述改变的核酸编码的多肽进行活性筛选。任何测试模式或方案均可使用，例如，使用毛细管阵列平台。参见例如第6,361,974；6,280,926；5,939,250号美国专利。

基因位点饱和诱变，或，GSSM

本发明还提供使用本文和第6,171,820和6,579,258号美国专利所述基因位点饱和诱变或GSSM来制备酶的方法。图11是说明使用基因位点饱和诱变(GSSM)方法以获得沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化的图。所用的寡聚体（oligos）包含同源序列、主要由简并N,N,G/T组成的三联体序列和另一同源序列。因此，每个寡聚体的简并性衍生自其中包含的N,N,G/T盒的简并性。使用此类寡聚体得到的聚合产物包括沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化，因为N,N,G/T序列能够编码所有20个氨基酸。如图所示，单独的简并寡聚体用于诱变编码多肽的多核苷酸中的每个密码子。

一方面，包含简并N,N,G/T序列的密码子引物用于向多核苷酸（例如，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶或抗体）引入点突变，以产生一组子代多肽，其中每个氨基酸位置（例如，要被改变的活性位点或配体结合位点中的氨基酸残基）均产生齐全的单个氨基酸置换。这些寡核苷酸可包含连续的第一个同源序列、简并的N,N,G/T序列，和，可选择地，第二个同源序列。通过使用此类寡核苷酸的下游子代翻译产物包括沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化，因为N,N,G/T序列的简并性包括所有20个氨基酸的密码子。一方面，一个此类简并寡核苷酸(包含例如一个简并N,N,G/T盒）用于对亲代多核苷酸模板中的每个密码子进行齐全的密码子置换。另一方面，至少两个简并盒（位于相同或不同寡核苷酸）用于对亲代多核苷酸模板中的至少两个原始密码子进行齐全的密码子置换。例如，可在一个寡核苷酸中包含多于一个N,N,G/T序列，以在多于一个位点引入氨基酸突变。此多个N,N,G/T序列可以是直接相连，或被一个或多个另外的核苷酸序列分开。另一方面，可用于引入添加和缺失的寡核苷酸可单独或与包含N,N,G/T序列的密码子一起使用，以引入任何组合或排列（permutation）的氨基酸添加、缺失和/或置换。

一方面，两个或多个连续的氨基酸位置的同时诱变使用包含连续的N,N,G/T三联体（即简并的(N,N,G/T)n序列）的寡核苷酸进行。另一方面，使用简并性低于N,N,G/T序列的简并盒。例如，一些情况下可能需要使用(例如在寡核苷酸中)仅包含一个N的简并三联体序列，其中所述N可以位于所述三联体的第一个、第二个或第三个位置。所述三联体的两个剩余位置可以使用包括其任何组合和排列的任何其它碱基。可选地，一些情况下可能需要使用(例如在寡聚体中)简并N,N,N三联体序列。

一方面，简并三联体(例如，N,N,G/T三联体)的使用，允许在多肽中的每一个氨基酸位置系统而轻松地产生齐全的可能的天然氨基酸(总共20种氨基酸)(另一方面，所述方法还包括产生每个氨基酸残基或密码子位置的少于所有可能的置换)。例如，对于100个氨基酸的多肽，可以产生2000个不同的种类（即每个位置20个可能的氨基酸X100个氨基酸位置)。通过使用包含简并N,N,G/T三联体的寡核苷酸或寡核苷酸组，32个不同序列可以编码所有20个可能的天然氨基酸。因此，在使用至少一个此类寡核苷酸对亲代多核苷酸序列进行饱和诱变的反应容器中，产生了编码20个不同多肽的32个不同的子代多核苷酸。与此相反，位点特异性诱变中使用非简并寡核苷酸导致每个反应容器中仅产生一个子代多肽产物。非简并寡核苷酸可以可选择地与所公开的简并引物组合使用；例如，非简并寡核苷酸可用于在工作多核苷酸中产生特定的点突变。这提供了一种产生特定的沉默点突变、导致相应氨基酸变化的点突变和导致产生终止密码子的点突变以及相应的多肽片段表达的方法。

一方面，每个饱和诱变反应容器包含编码至少20个子代多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)分子的多核苷酸，以便在对应于亲代多核苷酸中诱变的密码子位置的一个特定的氨基酸位置处产生所有20个天然氨基酸(其它方面使用少于所有20个天然的组合)。每个饱和诱变反应容器产生的32倍简并子代多肽可以进行克隆扩增(例如，使用例如表达载体克隆入合适的宿主例如大肠杆菌宿主）并进行表达筛选。当子代多肽个体经筛选鉴定为显示出有利的特性变化（与亲代多肽相比，如在碱性或酸性条件下增强的葡聚糖水解活性）时，可以对其进行测序，以鉴定其中包含的相对有利的氨基酸置换。

一方面，使用本文公开的饱和诱变对亲代多肽的每一个氨基酸位置进行诱变时，可以在多于一个氨基酸位置处鉴定有利的氨基酸变化。可以产生包含这些有利的氨基酸置换的全部或部分的组合的一个或多个新的子代分子。例如，如果在多肽的每3个氨基酸位置中鉴定到2个特定的有利的氨基酸变化，则排列包括每个位置3种可能性(与原始氨基酸没有变化，和两个有利变化中的每一个)和3个位置。因此，共有3x3x3或27种可能性，包括7个已检测到的-6个单点突变（即三个位置，每个位置2个)和任何位置均没有变化。

另一方面，位点饱和诱变可与改组、嵌合、重组和其它诱变过程一起并配合筛选使用。本发明提供以迭代方式使用任何诱变过程（包括饱和诱变）。在一个示例中，所述任何诱变过程的迭代使用是与筛选结合使用的。

本发明还提供使用专有的密码子引物(包含简并N,N,N序列)向多核苷酸引入点突变，以产生一组子代多肽，其中每个氨基酸位置均产生齐全的单个氨基酸置换(基因位点饱和诱变(GSSM))。所用的寡聚体包含连续的第一个同源序列、简并N,N,N序列和在一个方面中并不必需的第二个同源序列。通过使用此类寡聚体的下游子代翻译产物包括沿所述多肽的每个氨基酸位点的所有可能的氨基酸变化，因为N,N,N序列的简并性包括所有20个氨基酸的密码子。

一方面，一个此类简并寡聚体(包含一个简并N,N,N盒）用于对亲代多核苷酸模板中的每个原始密码子进行齐全的密码子置换。另一方面，至少两个简并N,N,N盒（位于相同或不同寡聚体）用于对亲代多核苷酸模板中的至少两个密码子进行齐全的密码子置换。因此，可在一个寡聚体中包含多于一个N,N,N序列，以在多于一个位点引入氨基酸突变。此多个N,N,N序列可以是直接相连，或被一个或多个另外的核苷酸序列分开。另一方面，可用于引入添加和缺失的寡聚体可单独或与包含N,N,N序列的密码子一起使用，以引入任何组合或排列的氨基酸添加、缺失和/或置换。

一方面，可以使用包含连续的N,N,N三联体（即简并(N,N,N)n序列）的寡聚体同时诱变两个或多个连续的氨基酸位置。另一方面，本发明提供使用简并性低于N,N,N序列的简并盒。例如，一些情况下可能需要使用(例如在寡聚体中)仅包含一个N的简并三联体序列，其中所述N可以位于所述三联体的第一个、第二个或第三个位置。所述三联体的两个剩余位置可以使用包括其任何组合和排列的任何其它碱基。可选地，一些情况下可能需要使用(例如在寡聚体中)简并N,N,N三联体序列、N,N,G/T或N,N,G/C三联体序列。

一方面，使用简并三联体(如N,N,G/T或N,N,G/C三联体序列)具有多个方面的好处。一方面，本发明提供在多肽中的每一个氨基酸位置系统而相当轻松地产生齐全的可能的氨基酸(总共20种氨基酸)置换的方法。因此，对于100氨基酸的多肽，本发明提供系统而相当轻松地产生2000个不同的种类（即每个位置20个可能的氨基酸乘以100个氨基酸位置)的方法。应理解，通过使用包含简并N,N,G/T或N,N,G/C三联体序列的寡聚体，提供了编码20个可能的氨基酸的32个不同序列。因此，在使用一个此类寡聚体对亲代多核苷酸序列进行饱和诱变的反应容器中，产生了编码20个不同多肽的32个不同的子代多核苷酸。与此相反，位点定向诱变中使用非简并寡聚体导致每个反应容器中仅产生一个子代多肽产物。

本发明还提供使用可以可选择地与所公开的简并引物结合使用的非简并寡聚体。应理解，在某些情况下，使用非简并寡聚体有利于在工作多核苷酸中产生特定的点突变。这提供了产生特定的沉默点突变、导致相应氨基酸变化的点突变和导致产生终止密码子点突变以及相应的多肽片段表达的方法。

因此，在本发明的一方面，每个饱和诱变反应容器包含编码至少20个子代多肽分子的多核苷酸，以便在对应于亲代多核苷酸中诱变的密码子位置的一个特定的氨基酸位置处产生所有20个氨基酸。每个饱和诱变反应容器产生的32倍简并子代多肽可以进行克隆扩增(例如，使用表达载体克隆至合适的大肠杆菌宿主）并进行表达筛选。当子代多肽个体经筛选鉴定为显示出有利的特性变化（与亲代多肽相比）时，可以对其进行测序，以鉴定其中包含的相对有利的氨基酸置换。

一方面，使用本文公开的饱和诱变对亲代多肽的每一个氨基酸位置进行诱变时，在多于一个氨基酸位置处鉴定到有利的氨基酸变化。可以产生包含这些有利的氨基酸置换的全部或部分的组合的一个或多个新的子代分子。例如，如果在多肽的每3个氨基酸位置中鉴定到2个特定的有利的氨基酸变化，则排列包括每个位置3种可能性(与原始氨基酸没有变化，和两个有利变化中的每一个)和3个位置。因此，共有3x3x3或27种可能性，包括7个已检测到的-6个单点突变（即三个位置，每个位置2个)和任何位置均没有变化。

本发明提供饱和诱变与其它诱变过程(如将两个或多个相关的多核苷酸引入合适的宿主细胞，以便通过重组和减数重配（reductivereassortment）产生杂种多核苷酸的过程）的组合使用。

除了沿基因的完整序列进行诱变外，本发明提供可以用于置换多核苷酸序列中每个任何数量碱基的诱变，其中可诱变的碱基的数量一方面是从15至100,000的每个整数。因此，可以对每个或离散数量的碱基(一方面，总计从15至100,000的亚组)进行诱变，而不用沿分子的每个位置进行诱变。一方面，使用单独的核苷酸沿多核苷酸序列的每个位置或位置组进行诱变。诱变的3位置组可以是密码子。所述诱变可以使用包含异源盒（也称为诱变盒）的诱变引物引入。示例性盒可以具有1至500个碱基。此类异源盒中的每个核苷酸位置为N、A、C、G、T、A/C、A/G、A/T、C/G、C/T、G/T、C/G/T、A/G/T、A/C/T、A/C/G或E，其中E是除A、C、G或T外的任何碱基(E可以称为设计者寡聚体)。

一方面，饱和诱变包含对待诱变的确定的多核苷酸序列(其中所述待诱变的序列一方面长约15至100,000碱基）中的整套诱变盒(其中每个盒一方面长约1-500碱基)进行诱变。从而向每个待诱变的盒中引入一组突变（范围从1至100个突变)。在应用一轮饱和诱变的过程中，引入一个盒的突变的分组可以与引入第二个盒的突变的第二个分组不同或相同。此类分组例如缺失、添加、特定密码子的分组和特定核苷酸盒的分组。

一方面，待诱变的确定的序列包括完整基因、途径、cDNA、完整的开放阅读框(ORF)和完整的启动子、增强子、抑制子/反式激活蛋白，复制起点、内含子、操纵子或任何多核苷酸的功能组。一般而言，用于此目的的“确定的序列”可以是15个碱基的多核苷酸序列和长度介于15个碱基和15,000个碱基(本发明特别指定其中的每个整数)之间的多核苷酸序列的任何多核苷酸。选择密码子分组的考虑事项包括简并诱变盒编码的氨基酸的类型。

一方面，可以引入诱变盒的突变的分组，本发明特别提供在每个位置编码2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20个氨基酸的简并密码子置换(使用简并寡聚体)和因此编码的多肽的文库。

合成连接重装配(SLR)

本发明提供叫做“合成连接重装配”，或简称“SLR”，“定向进化过程”的非随机基因修饰系统，以产生新的或改变的特性的多肽，例如，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶或抗体。

SLR是将寡核苷酸片段非随机地连接在一起的方法。此方法与随机寡核苷酸改组不同，因为核酸构件不是被随机改组、连接或嵌合，而是非随机装配。参见例如第6,773,900；6,740,506；6,713,282；6,635,449；6,605,449；6,537,776号美国专利。一方面，SLR包括如下步骤：(a)提供模板多核苷酸、其中所述模板多核苷酸包含编码同源基因的序列；(b)提供多个构件多核苷酸，其中所述构件多核苷酸被设计为在预定的序列与所述模板多核苷酸进行交换重装配，而构件多核苷酸包含是所述同源基因的变体的序列和与所述变体序列侧翼的模板多核苷酸同源的序列；(c)合并构件多核苷酸和模板多核苷酸，以便所述构件多核苷酸与所述模板多核苷酸进行交换重装配而产生包含同源基因序列变化的多核苷酸。

SLR不依赖于被重排的多核苷酸之间存在高水平的同源性。因此，这种方法可用于非随机地产生包含超过10¹⁰⁰个不同嵌合体的子代分子的文库（或组）。SLR可用于产生包含超过10¹⁰⁰⁰个不同子代嵌合体的文库。因此，本发明的方面包括生产具有通过设计选择的整体装配顺序的一组最终嵌合的核酸分子。这种方法包括如下步骤：通过设计产生多个具有有用的互相相容的可连接末端的特定的核酸构件，和装配这些核酸构件以便实现设计的整体装配顺序。

如果待装配的核酸构件的互相相容的可连接末端能使所述构件按预定的顺序偶联，则它们即被视为对这种顺序装配类型“有用”。因此，其中核酸构件可以偶联的整体装配顺序由可连接末端的设计来确定。如果要使用多于一个装配步骤，其中核酸构件可以偶联的整体装配顺序还由装配步骤的先后顺序来确定。一方面，用酶如连接酶(例如T4DNA连接酶)处理退火的构件以实现所述构件的共价键合。

一方面，所述寡核苷酸构件的设计是通过分析一组充当生产子代组最终嵌合的多核苷酸的基础的祖先核酸序列模板得到的。因而这些亲代寡核苷酸模板充当帮助设计待诱变的（例如，嵌合的或改组的）核酸构件的序列信息的来源。在该方法的一个方面中，对多个亲代核酸模板的序列进行对比，以选择一个或多个分界点。所述分界点可以位于同源区，并包含一个或多个核苷酸。这些分界点一方面为至少两个祖先模板共用。从而所述分界点可用于描绘产生的寡核苷酸构件的边界，以重排所述亲代多核苷酸。祖先分子中鉴定和选择的分界点充当最后的嵌合子代分子中潜在的嵌合点。分界点可以是至少两个亲代多核苷酸序列共用的同源区(包含至少一个同源核苷酸碱基)。可选地，分界点可以是至少一半的亲代多核苷酸序列共用的同源区，或其可以是至少三分之二的亲代多核苷酸序列共用的同源区。一方面，有用的分界点甚至是至少四分之三的亲代多核苷酸序列共用的同源区，或其可以是几乎所有亲代多核苷酸序列共用的。一方面，分界点是所有亲代多核苷酸序列共用的同源区。

一方面，全面进行连接重装配过程以产生子代嵌合多核苷酸的完全文库。换言之，核酸构件所有可能的排列组合都出现在最终嵌合的核酸分子组中。同时，另一方面，每个组合中的装配顺序（即在每个最终嵌合的核酸的从5′至3的序列中每个构件的装配顺序)是通过上文描述的进行设计的（或非随机的）。由于本发明的非随机性性质，不想要的副产物的可能性大大降低。

另一方面，所述连接重装配方法是系统地进行的。例如，进行所述方法以产生系统区室化的子代分子的文库，使用可以系统地（例如逐个地）进行筛选的区室（compartment）。换言之，本发明提供，通过选择性和正确使用特定的核酸构件，结合选择性和正确使用随后进行的装配反应，可以实现其中在多个反应容器的每个容器中制备特定的子代产物组的设计。这允许进行系统的检查和筛选程序。因此，这些方法允许以较小的组系统地检查数量可能非常巨大的子代分子。由于其能够以高度灵活而全面和系统的方式进行嵌合的能力，特别是当祖先分子间存在低同源性水平时，这些方法提供包含大量子代分子的文库（或组）的产生。由于本连接重装配发明的非随机性性质，在一个方面中产生的子代分子包含具有通过设计选择的整体装配顺序的最终嵌合的核酸分子的文库。所述饱和诱变和最优定向进化方法还可用于产生不同的子代分子种类。应理解，本发明提供关于分界点选择、核酸构件的大小和数量，和偶联的大小和设计的选择和控制的自由。此外应理解，本发明的可操作性对于分子间同源性的要求是非常不严格的。事实上，分界点甚至可以选择在几乎没有或没有分子间同源性的区域。例如，由于密码子摇摆现象（即密码子的简并性），可以向核酸构件引入核苷酸置换，而不改变相应祖先模板中原始编码的氨基酸。可选地，可以改变密码子以便改变原始氨基酸的编码。本发明提供此类可以导入核酸构件的置换，以增加分子间同源分界点的发生率，从而允许增加所述构件间要实现的偶联的数量，这反过来允许产生更多数量的子代嵌合分子。

合成基因重装配

一方面，本发明提供叫做合成基因重装配的非随机性方法，该方法与随机改组有些相关，只是核酸构件不是随机改组或连接或嵌合的，而是非随机装配的。参见例如第6,537,776号美国专利。

合成基因重装配方法不依赖于改组的多核苷酸之间存在高水平的同源性。本发明可用于非随机地产生包含超过10¹⁰⁰个不同嵌合体的子代分子的文库（或组）。可以想到，合成基因重装配甚至可用于产生包含超过10¹⁰⁰⁰个不同子代嵌合体的文库。

因此，一方面，本发明提供生产具有通过设计选择的整体装配顺序的一组最终嵌合的核酸分子的非随机方法，该方法包括通过如下步骤：设计产生多个具有有用的互相相容的可连接末端的特定的核酸构件，和装配这些核酸构件以便实现设计的整体装配顺序。

如果装配的核酸构件的互相相容的可连接末端能使所述构件按预定的顺序偶联，则它们即被视为对这种顺序装配类型“有用”。因此，一方面，其中核酸构件可以偶联的整体装配顺序由可连接末端的设计来确定，并且，如果要使用多于一个装配步骤，则其中核酸构件可以偶联的整体装配顺序还由装配步骤的先后顺序来确定。在本发明的一个方面，用酶如连接酶(例如T4DNA连接酶)处理退火的构件以实现所述构件的共价键合。

另一方面，核酸构件的设计在对一组充当生产子代组最终嵌合的核酸分子的基础的祖先核酸模板的分析后得到的。因而这些祖先核酸模板充当帮助设计待诱变的（例如，嵌合的或改组的）核酸构件的序列信息的来源。

在一个示例中，本发明提供相关基因家族和它们编码的相关产物家族的嵌合。在特定示例中，所述编码产物是酶。本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可以依据此处所述的方法进行诱变。

因此，依照本发明的一方面、对多个祖先核酸模板(例如，本发明多核苷酸）的序列进行对比，以选择一个或多个分界点，该分界点可以位于同源区。所述分界点可用于描绘产生的核酸构件的边界，以重排所述亲代多核苷酸。因此，祖先分子中鉴定和选择的分界点充当子代分子装配体中潜在的嵌合点。

一方面，有用的分界点是至少两个祖先模板共用的同源区(包含至少一个同源核苷酸碱基)，但是所述分界点可以是至少一半的祖先模板、至少三分之二的祖先模板、至少四分之三的祖先模板和在一方面几乎所有的祖先模板共用的同源区。一方面，有用的分界点甚至是所有祖先模板共用的同源区。

一方面，全面进行基因重装配过程以产生完全文库。换言之，核酸构件所有可能的排列组合都出现在最终嵌合的核酸分子组中。同时，每个组合中的装配顺序（即在每个最终嵌合的核酸的从5′至3的序列中每个构件的装配顺序)是经过设计的（或非随机的）。由于所述方法的非随机性性质，不想要的副产物的可能性大大降低。

另一方面，提供所述基因重装配过程的方法是系统地进行的，例如，以产生系统区室化的文库，使用可以系统地（例如逐个地）进行筛选的区室。换言之，本发明提供，通过选择性和正确使用特定的核酸构件，结合选择性和正确使用顺序发生的装配反应，可以实现其中在多个反应容器的每个容器中制备特定的子代产物组的实验设计。这允许进行系统的检查和筛选程序。因此，该方法允许以较小的组系统地检查数量可能非常巨大的子代分子。

由于其能够以高度灵活而全面和系统的方式进行嵌合的能力，特别是当祖先分子间存在低同源性水平时，本发明提供包含大量子代分子的文库（或组）的产生。由于本基因重装配发明的非随机性性质，在一个方面中产生的子代分子包含具有通过设计选择的整体装配顺序的最终嵌合的核酸分子的文库。在特定的方面，这样产生的文库包含高于10³至高于10¹⁰⁰⁰个不同子代分子种类。

一方面，按所述方法生产的最终嵌合的核酸分子组包含编码多肽的多核苷酸。依照一方面，此多核苷酸是基因，该基因可以是人造的基因。依照另一方面，此多核苷酸是基因途径（gene pathway），该途径可以是人造的基因途径。本发明提供，本发明产生的一个或多个人造的基因可以包括在人造的基因途径，例如可在真核生物体(包括植物)中操作的途径。

在另一示例中，其中产生构件的步骤的合成性质允许设计和引入稍后可以可选择地在体外过程(例如，通过诱变)或在体内过程(例如，通过利用宿主生物体发基因剪接能力)被除去的核苷酸（例如，一个或多个核苷酸，其可以是例如，密码子或内含子或调控序列)。应理解，在许多情况下，除了创造有用的分界点这一潜在的好处之外，还有许多其它原因需要引入这些核苷酸。

因此，依照另一方面，本发明提供可用于引入内含子的核酸构件。因此，本发明提供可以导入本发明人造基因中的功能性内含子。本发明还提供可以导入本发明人造基因途径中的功能性内含子。因此，本发明提供是包含一个(或多个)人工引入的内含子的人造基因的嵌合多核苷酸的产生。

本发明还提供是包含一个(或多个)人工引入的内含子的人造基因途径的嵌合多核苷酸的产生。一方面，人工引入的内含子主要是按天然存在内含子在基因剪接中行使功能的方式在一个或多个宿主细胞中行使基因剪接功能。本发明提供生产要引入宿主生物体进行重组和/或剪接的含人造内含子的多核苷酸的过程。

使用本发明生产的人造基因还可充当与另一核酸进行重组的底物。同样地，使用本发明生产的人造基因途径还可充当与另一核酸进行重组的底物。一方面，所述重组受所述人造的包含内含子的基因和充当重组配偶体的核酸之间的同源区的促进或发生在所述同源区。一方面，所述重组配偶体还可以是通过本发明产生的核酸，包括人造基因或人造基因途径。重组可以受所述人造基因的一个（或多个）人工引入的内含子中存在的同源区的促进或发生在所述同源区。

一方面，本发明合成基因重装配方法利用多个核酸构件，一个方面中每个核酸构件都具有两个可连接的末端。每个核酸构件上的两个可连接的末端可以是平头末端（即每个末端都没有突出端的核苷酸)，或一方面一个平头末端和一个突出端、或更多地一方面两个突出端。一方面，用于此目的的突出端可以是3′突出端或5′突出端。因此，核酸构件可以具有3′突出端或可选地5′突出端或可选地两个3′突出端或可选地两个5′突出端。其中所述核酸构件形成最终嵌合的核酸分子的整体装配顺序是通过有目的的实验设计确定的，而不是随机的。

一方面，核酸构件是通过化学合成两个单链核酸（也称为单链寡聚体），然后使它们进行接触，以允许它们退火形成双链核酸构件而产生的。双链核酸构件可以具有不同的尺寸。这些构件的尺寸可小可大。构件的示例性尺寸范围从1个碱基对(不包括任何突出端)至100,000碱基对（不包括任何突出端)。还提供了其它示例性尺寸范围，该范围具有从1bp至10,000bp(包括其间的每个整数值)的下限和从2bp至100,000bp(包括其间的每个整数值)的上限。

存在许多可以产生对本发明有用的双链核酸构件的方法；并且这些方法在本领域为已知，可以由熟练的技术人员容易地进行。依照一方面，双链核酸构件是通过首先产生两个单链核酸，然后让它们退火形成双链核酸构件而产生的。双链核酸构件的双链可以在除任何形成突出端的核苷酸外的每个核苷酸处互补；因此除任何突出端外不包含错配。依照另一方面，双链核酸构件的双链在少于除任何形成突出端的核苷酸外的每个核苷酸处互补。因此，依照这一方面，双链核酸构件可用于引入密码子简并性。一方面，所述密码子简并性是使用本文描述的位点饱和诱变，使用一个或多个N,N,G/T盒或可选地使用一个或多个N,N,N盒引入的。

可以对具有特定的多核苷酸或序列的未知的杂种或等位基因池盲进行本发明体内重组方法。但是，无需知道特定的多核苷酸的实际DNA或RNA序列。在基因的混合群体中使用重组的方法可以对产生任何有用的蛋白（例如，本发明纤维素酶或其变体）非常有用。这种方法可用于产生具有改变的特异性或活性的蛋白。该方法还可用于产生杂种核酸序列，例如基因的启动子区、内含子、外显子、增强子序列、31非翻译区或51非翻译区。因此该方法还可用于产生具有增加的表达率的基因。该方法还可用于重复DNA序列的研究。最后，该方法可用于制备本发明核酶或适体。

一方面，此处描述的本发明涉及使用减数重配、重组和选择的重复循环，该重复循环允许通过重组对高度复杂的线性序列（如DNA、RNA或蛋白）进行定向分子进化。

最优定向进化系统

本发明提供叫做“最优定向进化系统”的非随机基因修饰系统，以产生具有新的或改变的特性的多肽，例如，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶或抗体。一方面，最优定向进化涉及使用减数重配、重组和选择的重复循环，该重复循环允许通过重组对核酸进行定向分子进化。

最优定向进化允许产生进化的嵌合序列的大量群体，其中所产生的群体显著富集了具有预定数量的交换事件的序列。交换事件是嵌合序列中其中从一个亲代变体向另一亲代变体发生序列迁移的点。此点通常位于其中两个亲代的寡核苷酸连接在一起形成单个序列的接合处。此方法允许计算寡核苷酸序列的正确浓度，以便序列最后的嵌合群体富集了所选数量的交换事件。这提供了对选择具有预定数量的交换事件的嵌合变体的更多控制。

此外，与其它系统相比，此方法提供了开发大量可能的蛋白变体空间的方便方法。以前，如果在一个反应中产生了，例如，10¹³个嵌合分子，对如此大量的嵌合变体测试特定活性将是极其困难的。而且，所述子代群体的很大一部分将具有大量的交换事件，这样产生的蛋白将不大可能具有水平增加的特定活性。通过使用这些方法，所述嵌合分子的群体可以富集那些具有特定数量的交换事件的变体。因此，虽然仍会在一个反应中产生10¹³个嵌合分子，但是选择用于进一步分析的每个分子很可能具有，例如，仅三个交换事件。由于可以对得到的子代群体进行扭曲（be skewed）以使之具有预定数量的交换事件，嵌合分子间功能变异的边界就减少了。这为计算原始亲代多核苷酸中的哪个寡核苷酸可能对影响特定性状负责提供了更易控制的变量数量。

一种用于生成嵌合子代多核苷酸序列的方法是生成对应于每个亲代序列的片段或部分的寡核苷酸。每个寡核苷酸一方面包括唯一的重叠区，以便将所述寡核苷酸混合在一起后生成按正确的顺序装配每个寡核苷酸片段的新的变体。可选地，实施本发明这些方法的方案可以参见第6,773,900；6,740,506；6,713,282；6,635,449；6,605,449；6,537,776；6,361,974号美国专利。

每个亲代变体产生的寡核苷酸的数量与最终生成的嵌合分子中得到的交换的总数有关。例如，可能提供三个亲代核苷酸序列变体进行连接反应，以找到，例如，在高温下具有更大活性的嵌合变体。作为一个实例，可以产生对应于每个亲代变体的每个部分的一组50个寡核苷酸序列。因此，在连接重装配过程中，每个嵌合序列最多可以有50个交换事件。每个产生的嵌合多核苷酸包含交替顺序的每个亲代变体的寡核苷酸的可能性非常低。如果连接反应中的每个寡核苷酸片段具有相同的摩尔量，则很可能在某些位置上，同一亲代多核苷酸的寡核苷酸将相互连接，因而不发生交换事件。如果每个亲代的每个寡核苷酸的浓度在此实例的任何连接步骤中保持恒定，则嵌合序列中同一亲代变体的寡核苷酸连接和不产生交换的几率为1/3（假定3个亲代）。

因此，给定亲代变体组数、对应于每个变体的寡核苷酸数和连接反应每个步骤中每个变体的浓度时，可以确定概率密度函数(PDF)以预测连接反应的每个步骤中可能发生的交换事件的群体。下面描述了确定PDF的统计学和数学。通过利用这些方法，可以计算此概率密度函数，从而富集从特定连接反应得到的具有预定数量的交换事件的嵌合子代群体。而且，可以预定交换事件的靶数量，然后可以对系统进行编程以计算连接反应的每个步骤中每个亲代寡核苷酸的起始量，以使概率密度函数集中在预定数量的交换事件上。这些方法涉及使用减数重配、重组和选择的重复循环，该重复循环允许通过重组对编码多肽的核酸进行定向分子进化。此系统允许产生进化的嵌合序列的大量群体，其中所产生的群体显著富集了具有预定数量的交换事件的序列。交换事件是嵌合序列中从一个亲代变体向另一亲代变体发生序列迁移的点。此点通常位于其中两个亲代的寡核苷酸连接在一起形成单个序列的接合处。此方法允许计算寡核苷酸序列的正确浓度，以便序列最后的嵌合群体富集了所选数量的交换事件。这提供了对选择具有预定数量的交换事件的嵌合变体的更多控制。

此外，与其它系统相比，这些方法提供了开发大量可能的蛋白变体空间的方便方法。通过使用此处描述的这些方法，所述嵌合分子的群体可以富集那些具有特定数量的交换事件的变体。因此，虽然仍会在一个反应中产生10¹³个嵌合分子，但是选择用于进一步分析的每个分子很可能具有，例如，仅三个交换事件。由于可以对得到的子代群体进行扭曲以使之具有预定数量的交换事件，嵌合分子间功能变异的边界就减少了。这为计算原始亲代多核苷酸中的哪个寡核苷酸可能对影响特定性状负责提供了更易控制的变量数量。

一方面，所述方法通过生成对应于每个亲代序列的片段或部分的寡核苷酸生成嵌合子代多核苷酸序列。每个寡核苷酸一方面包括唯一的重叠区，以便将所述寡核苷酸混合在一起后生成按正确的顺序装配每个寡核苷酸片段的新的变体。另请参见第6,773,900；6,740,506；6,713,282；6,635,449；6,605,449；6,537,776；6,361,974号美国专利。

确定交换事件

本发明包括接收所需的交换概率密度函数(PDF)、重装配的亲代基因的数量和重装配中的片段数量作为输入的系统和软件。此程序的输出是可用于确定生产重装配基因的方案的“片段PDF”和这些基因的估计交换PDF。此处描述的处理一方面在MATLAB^TM(The Mathworks，Natick，Massachusetts)中进行，MATLAB^TM是进行技术计算的编程语言和开发环境。

迭代过程

本发明任何过程都是可以迭代重复的，例如，编码改变的或新的纤维素酶表型（例如，本发明内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶）的核酸，可以被鉴定、再分离、再修饰、活性再测试。此过程可以迭代重复至改造得到所需的表型。例如，可以将完整的生物化学合成代谢或分解代谢途径改造入细胞，包括例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。

类似地，如果确定特定的寡核苷酸对所需的性状(例如，新的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶表型)毫无影响，则可以通过合成包括要除去的序列的较大的亲代寡核苷酸将其作为变量除去。因为将所述序列掺入较大的序列中防止了任何交换事件的发生，子代多核苷酸中将不再有此序列的任何变异。这种确定哪些寡核苷酸与所需的性状最相关和哪些无关的迭代操作允许更有效地开发可能提供特定性状或活性的所有可能的蛋白变体。

体内改组

在不同的方面，分子的体内改组用于本发明方法以提供本发明多肽（例如，本发明抗体或本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶及类似的酶）的变体。可以利用细胞重组多聚体的天然特性来进行体内改组。虽然体内重组提供了分子多样化的主要天然途径，但是基因重组仍然是相对复杂的过程，该过程包括1)识别同源性；2)链切割、链侵入和导致产生重组交叉的代谢步骤；和最后3)交叉分解成离散的重组分子。所述交叉的形成需要识别同源序列。

另一方面，本发明包括从至少第一个多核苷酸和第二个多核苷酸生产杂种多核苷酸的方法。通过向合适的宿主细胞引入共用至少一个具有部分序列同源性的区域的至少第一个多核苷酸和第二个多核苷酸(例如，一个或二者都是本发明示例性纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的编码序列），本发明可用于生产杂种多核苷酸。所述部分序列同源性区域促进了造成序列改组而生产杂种多核苷酸的过程。如此处所用，术语“杂种多核苷酸”是从本发明方法中得到的，并且包含来自至少两个原始多核苷酸序列的序列的任何核苷酸序列。此类杂种多核苷酸可以产生自促进DNA分子间的序列整合的分子间重组事件。此外，此类杂种多核苷酸可以产生自利用重复序列改变DNA分子内的核苷酸序列的分子内减数重配过程。

一方面，活体重配着重于统称为“重组”的“分子间”过程；在细菌中，该过程一般被看作“RecA依赖”现象。本发明可依赖宿主细胞的重组过程以重组和重配序列，或依赖所述细胞介导减少过程的能力以通过缺失降低所述细胞中准重复（quasi-repeated）序列的复杂性。此“减数重配”过程是通过“分子间”、RecA依赖过程发生的。

在本发明的另一方面，可以通过减数重配过程产生新颖的多核苷酸。该方法包括产生包含连续序列(原始编码序列)的构建体、将它们插入适当的载体和随后将它们导入适当的宿主细胞。具体分子特性的重配是通过构建体中拥有同源区的连续序列之间或准重复单元之间的组合过程而发生的。所述重配过程重组和/或减少了重复序列的复杂性和程度，并造成新颖分子种类的产生。可以应用不同处理以增强重配率。这些处理可以包括紫外线或DNA损伤化学剂处理和/或使用显示出增强的“遗传不稳定性”水平的宿主细胞系。因而所述重配过程可以包括同源重组或准重复序列的天然特性以指导其自身的进化。

重复或“准重复”序列在遗传不稳定性中起一定作用。一方面，“准重复序列”是不限于其原始单元结构的重复序列。准重复单元可以作为构建体中的序列阵列；相似序列的连续单元出现。连接之后，所述连续序列之间的接合将变得基本不可见，并且所得构建体的准重复性质现在在分子水平是连续的。所述准重复序列之间将进行细胞用来减少所得构建体的复杂性的缺失过程。所述准重复单元提供了实际上无限的其上可以发生滑动事件的模板的清单。一方面，包含所述准重复序列的构建体因而有效地提供了充分的分子弹性，以致缺失(和潜在的插入)事件可以在所述准重复单元内的几乎任何位置上发生。

当所述准重复序列均按相同取向（例如，头与尾或相反）连接时，所述细胞将无法区分各个单元。因此，所述减少过程可以在整个序列内发生。与此相反，例如，当所述单元按头与头，而不是头与尾相连时，此倒置描绘了相邻单元的端点，以致缺失形成将支持离散单元的损失。因此，本方法优选的是，所述序列为相同取向。准重复序列的随机取向将导致重配效率的损失，而所述序列的一致性取向将提供最高的效率。不过，虽然拥有较少的相同取向的连续序列会降低效率，但是其仍可以提供足以有效地回收新颖分子的弹性。可以使用相同取向的准重复序列制备构建体以实现较高的效率。

可以使用多种方法中的任何方法将序列按头与尾取向进行装配，所述方法包括下列方法：

a)包括多聚-A头和多聚-T尾的引物，当其制成单链时，将提供可以利用的取向。这是通过具有从RNA制备的引物的前几个碱基并因而容易通过RNA酶H除去来实现的。

b)可以利用包括独特的限制性切割位点的引物。将需要多个位点、一系列独特的序列和重复的合成和连接步骤。

c)所述引物的内部的几个碱基可以被硫醇化，并使用外切核酸酶生产具有适当尾部的分子。

一方面，所述重配序列的回收依赖于鉴定具有降低的重复指数(RI)的克隆载体。然后可以通过扩增回收所述重配编码序列。对所述产物进行再克隆和表达。具有降低的RI的克隆载体的回收可以受下列因素的影响：

1)在构建体的复杂性降低时仅稳定保持的载体的使用。

2)通过物理程序对缩短的载体进行的物理回收。在此情况下，克隆载体将使用标准的质粒分离程序回收，然后利用标准程序在琼脂糖凝胶或具有低分子量截留的柱上进行大小分级。

3)当插入物大小降低时可以选择的包含中断的基因的载体的回收。

4)使用表达载体和适当的选择的直接选择技术的使用。

亲缘生物体的编码序列(例如，基因)可能显示高度的同源性，但是却编码非常多样化的蛋白产物。这些类型的序列在本发明中作为准重复序列特别有用。不过，虽然下面说明的实例示范了几乎相同的原始编码序列(准重复序列)的重配，但是此过程并不限于此类几乎相同的重复序列。

下面的实例示范了本发明示例性方法。描述了衍生自三(3)个独特物种的编码核酸序列(准重复序列)。每个序列编码具有一组不同特性的蛋白。每个序列在其序列中的独特位置具有单个或几个碱基对的差异。所述准重复序列单独或共同进行扩增，并连接成随机装配体，以便所述连接分子群体中存在所有可能的排列和组合。准重复单元的数量可以通过装配条件控制。构建体中准重复单元的平均数量定义为重复指数(RI)。

形成之后，所述构建体可以进行或可以不进行依照公布的方案的在琼脂糖凝胶上的大小分级，被插入克隆载体，然后转染至适当的宿主细胞。所述细胞然后进行繁殖并实现“减数重配”。如果需要，可以通过引入DNA损伤来刺激减数重配过程的速率。至于RI的减少是受重复序列之间的缺失形成（通过“分子内”机制）的介导，还是受类重组事件（通过“分子间”机制）的诱导并不重要。最终的结果是所述分子重配成所有可能的组合。

可选择地，所述方法包含筛选改组池的文库成员，以鉴定具有与预定的大分子（例如，如蛋白质受体、寡糖、病毒粒子）或其它预定的化合物或结构结合或以其他方式相互作用，或催化特定反应(例如，如酶的催化结构域)的能力的个体改组文库成员的另外的步骤。

从此类文库鉴定的多肽可用于治疗、诊断、研究和相关用途(例如，催化剂、增加水性溶液的渗透性的溶质等)，和/或可以进行一个或多个另外的改组和/或选择循环。

另一方面，可以预见，在重组或重配之前或过程中，通过本发明方法产生的多核苷酸可以经受促进向原始多核苷酸中引入突变的试剂或过程。此类突变的引入将增加得到的杂种多核苷酸和其编码的多肽的多样性。促进诱变的试剂或过程可以包括但不限于：(+)-CC-1065或合成类似物，如(+)-CC-1065-(N3-腺嘌呤(参见Sun和Hurley，(1992)）；能够抑制DNA合成的N-乙酰化或脱乙酰化4′-氟-4-氨基联苯加合物(参见例如van de Poll等(1992))；或能够抑制DNA合成的N-乙酰化或脱乙酰化4-氨基联苯加合物(另请参见，van de Poll等(1992)，第751-758页)；能够抑制DNA复制的三价铬、三价铬盐、多环芳香烃(PAH)DNA加合物，如7-溴甲基-苯并蒽(“BMA”)、三(2,3-二溴丙基)磷酸(“Tris-BP”)、1,2-二溴-3-氯丙烷(“DBCP”)、2-溴丙烯醛(2BA)、7,8-二羟-9-10-环氧苯并芘(“BPDE”)、卤化铂(Ⅱ)盐、N-羟基-2-氨基-3-甲基咪唑[4,5-f]-喹啉(“N-羟基-IQ”)和N-羟基-2-氨基-1-甲基-6-苯基咪唑[4,5-f]-吡啶(“N-羟基-PhIP”)。减慢或终止PCR扩增的示例性方法由紫外线(+)-CC-1065和(+)-CC-1065-(N3-腺嘌呤)组成。特别包括的方法是DNA加合物或包含多核苷酸或多核苷酸池的DNA加合物的多核苷酸，所述多核苷酸可以通过包括在进一步的加工之前加热包含所述多核苷酸的溶液的过程而释放或除去。

另一方面，本发明涉及通过在依照本发明提供杂种或重配多核苷酸的生产的条件下处理包含编码野生型蛋白的双链模板多核苷酸的样品，而生产具有生物活性的重组蛋白的方法。

生产序列变体

本发明还提供制备本发明核酸(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)序列的序列变体的其它方法。本发明还提供使用本发明核酸和多肽分离纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的其它方法。一方面，本发明提供可以通过如上文所述的任何方法（包括例如无规则或随机方法，或非随机或“定向进化”方法）进行改变的，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶编码序列(例如，基因、cDNA或信息)的变体。

所述分离的变体可以是天然的。变体还可在体外产生。变体可使用基因工程技术（如位点特异性诱变、随机化学诱变、外切核酸酶Ⅲ缺失程序和标准克隆技术）产生。可选地，此类变体、片段、类似物或衍生物可使用化学合成或修饰程序产生。制备变体的其它方法也是本领域的技术人员所熟悉的。这些方法中包括对从天然分离物中获得的核酸序列进行改变，以产生编码具有增强其在工业或实验室应用中的价值的特性的多肽的核酸的程序。在此类程序中，产生并鉴定了大量与从天然分离物中获得的序列有一个或多个核苷酸差异的变体序列。这些核苷酸差异可造成相对于由天然分离物的核酸编码的多肽的氨基酸变化。

例如，变体可使用易错PCR。在易错PCR的一方面，所述PCR是在其中DNA聚合酶的复制忠实度低的条件下进行的，以便沿所述PCR产物的整个长度获得高比率的点突变。易错PCR可参见，例如，Leung(1989)Technique1：11-15和Caldwell(1992)PCR Methods Applic.2：28-33。简而言之，在此类程序中，待诱变的核酸与PCR引物、反应缓冲液、MgCl₂、MnCl₂、Taq聚合酶和适当浓度的dNTP混合，以沿所述PCR产物的整个长度实现高比率的点突变。例如，所述反应可使用20飞摩尔（fmoles）的待诱变核酸、30皮摩尔（pmoles）的每个PCR引物、包含50mM KCl、10mM Tris HCl(pH8.3)和0.01%明胶的反应缓冲液、7mM MgCl₂、0.5mM MnCl₂、5单位Taq聚合酶、0.2mM dGTP、0.2mM dATP、1mM dCTP和1mM dTTP来进行。PCR可进行30个94℃1分钟、45℃1分钟，然后72℃1分钟的循环。但是，应理解，这些参数可以进行适当调整。诱变的核酸克隆至适当的载体，评估由所述诱变的核酸编码的多肽的活性。

一方面，变体是使用寡核苷酸定向诱变以在感兴趣的任何克隆的DNA中产生位点特异性突变而制备的。寡核苷酸诱变可参见，例如，Reidhaar-Olson(1988)Science241：53-57。简而言之，在此类程序中，带有要引入克隆DNA的一个或多个突变的多个双链寡核苷酸被合成并插入待诱变的克隆DNA。一方面，回收和表达包含诱变的DNA的克隆，并评估其编码的多肽的活性。

另一产生变体的方法是装配PCR。装配PCR包括从小DNA片段混合物中装配PCR产物。同一小瓶中平行发生大量不同的PCR反应，一个反应的产物引发另一反应的产物。装配PCR可参见，例如，第5,965,408号美国专利。

一方面，有性PCR诱变是产生本发明变体的示例性方法。在有性PCR诱变的一方面，由于DNA分子基于序列同源性的随机片段化，不同但高度相关的DNA序列之间在体外发生强制性同源重组，然后通过PCR反应中的引物延伸固定所述交换。有性PCR诱变可参见，例如，Stemmer(1994)Proc.Natl.Acad.Sci.USA91：10747-10751。简而言之，在此类程序中，使用DNA酶消化待重组的多个核酸，以产生平均大小为50-200个核苷酸的片段。纯化具有所需的平均大小的片段，并将其重悬于PCR混合物。在促进所述核酸片段之间发生重组的条件下进行PCR。例如，可通过将所述纯化的片段按10-30ng/μl的浓度重悬于包含0.2mM每个dNTP、2.2mM MgCl₂、50mM KCl、10mM Tris HCl、pH9.0和0.1%Triton X-100的溶液进行PCR。每100：1反应混合物加入2.5单位的Taq聚合酶，然后使用下列方案进行PCR：94℃60秒、94℃30秒、50-55℃30秒、72℃30秒(30-45次)和72℃5分钟。但是，应理解，这些参数可以进行适当调整。在某些方面，所述PCR反应中可包括寡核苷酸。在其他方面，可在第一组PCR反应中使用DNA聚合酶Ⅰ的Klenow片段，而在后续PCR反应组中使用Taq聚合酶。分离重组的序列并评估它们编码的多肽的活性。

一方面，变体是通过体内诱变产生的。在某些方面，所感兴趣的序列的随机突变是通过在细菌菌株（如大肠杆菌菌株）中繁殖所感兴趣的序列产生的，所述菌株携带一个或多个DNA修复途径的突变。此类“增变基因”菌株具有比野生型亲代更高的随机突变率。将DNA在这些菌株之一中进行繁殖将最终在所述DNA内产生随机突变。适合体内诱变使用的增变基因菌株可参见1991年10月31日公开的，题为“Methods for Phenotype Creation from Multiple Gene Populations”（从多基因群体中产生表型的方法）的第WO91/16427号PCT公布。

变体还可使用盒式诱变产生。在盒式诱变中，使用不同于天然序列的合成的寡核苷酸“盒”置换双链DNA分子的一小段区域。所述寡核苷酸通常包含完全和/或部分随机化的天然序列。

递归总体诱变也可用于产生变体。递归总体诱变是开发用于生产表型相关的突变体的多样化群体（其成员的氨基酸序列不同）的蛋白质工程(蛋白质诱变)算法。此方法使用反馈机制来控制组合盒式诱变的连续轮次。递归总体诱变可参见，例如，Arkin(1992)Proc.Natl.Acad.Sci.USA89：7811-7815。

在某些方面，变体是使用指数总体诱变产生的。指数总体诱变是产生具有高百分比的独特和功能突变体的组合文库的过程，其中小组残基被平行随机化以在每个改变的位置鉴定导致形成功能蛋白的氨基酸。指数总体诱变参见，例如，Delegrave(1993)Biotechnology Res.11：1548-1552。随机和位点特异性诱变参见，例如，Arnold(1993)CurrentOpinion in Biotechnology4：450-455。

在某些方面，所述变体是使用改组程序产生的，其中编码不同多肽的多个核酸的部分被融合在一起，以产生编码嵌合多肽的嵌合核酸序列，参见1996年7月9日提交的题为“Method of DNA Reassembly byInterrupting Synthesis”（通过中断合成进行DNA重装配的方法）的第5,965,408号美国专利和1996年5月22日提交的题为“Production ofEnzymes Having Desired Activities by Mutagenesis”（通过诱变生产具有所需的活性的酶）的第5,939,250号美国专利。

本发明多肽的变体可以是其中具有本发明序列的多肽的一个或多个氨基酸残基被保守或非保守氨基酸残基(一方面，保守氨基酸残基)置换并且此置换的氨基酸残基可以是或可以不是遗传密码编码的氨基酸残基的变体。

一方面，保守置换是将多肽中给定的氨基酸置换为另一具有相似特性的氨基酸的置换。一方面，本发明保守置换包括下列置换：脂族氨基酸（如丙氨酸、缬氨酸、亮氨酸和异亮氨酸）置换为另一脂族氨基酸；丝氨酸置换为苏氨酸或反之；酸性残基（如天冬氨酸和谷氨酸）置换为另一酸性残基；带有酰胺基的残基（如天冬酰胺和谷氨酰胺）置换为另一带有酰胺基的残基；碱性残基（如赖氨酸和精氨酸）交换为另一碱性残基；和芳族残基（如苯丙氨酸、酪氨酸）置换为另一芳族残基。

其它变体是其中本发明多肽的一个或多个氨基酸残基包括取代基的变体。一方面，其它变体是所述多肽与另一化合物如增加所述多肽的半衰期的化合物(例如，聚乙二醇)缔合的变体。其它变体是其中另外的氨基酸（如前导序列、分泌序列、前蛋白序列或有利于纯化、富集或稳定所述多肽的序列）融合至所述多肽的变体。

在某些方面，所述片段、衍生物和类似物保留与本发明多肽相同的生物功能或活性。在其他方面，所述片段、衍生物或类似物包括前蛋白，以便所述片段、衍生物或类似物可以通过切割所述前蛋白部分以产生活性多肽来激活。

优化密码子以在宿主细胞中实现高水平的蛋白表达

本发明提供改变编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸以改变(例如，优化)密码子使用的方法。一方面，本发明提供改变编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸中的密码子以增加或降低其在宿主细胞中的表达的方法。本发明还提供经过改变以增加其在宿主细胞中的表达的编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸、通过此方法改变的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶和制备所述改变的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的方法。该方法包括鉴定编码纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸中的“非偏好”或“低偏好”密码子，然后将一个或多个这些非偏好或低偏好密码子置换为与被置换的密码子编码同一氨基酸的“偏好密码子”，并且所述核酸中的至少一个非偏好或低偏好密码被置换为编码同一氨基酸的偏好密码子。偏好密码子是在所述宿主细胞的基因的编码序列中高表达的密码子，而非偏好或低偏好密码子是在所述宿主细胞的基因的编码序列中低表达的密码子。

用于表达本发明核酸、表达盒和载体的宿主细胞包括细菌、酵母、真菌、植物细胞、昆虫细胞和哺乳动物细胞(参见上文的讨论)。因此，本发明提供优化所有这些细胞中的密码子使用的方法、密码子发生改变的核酸和由所述密码子发生改变的核酸编码的多肽。示例性宿主细胞包括革兰氏阴性菌，如大肠杆菌（Escherichia coli）、荧光假单胞菌(Pseudomonas fluorescens)；革兰氏阳性菌，如链霉菌种、格氏乳杆菌(Lactobacillus gasseri)、乳酸乳球菌(Lactococcus lactis)、乳脂乳球菌（Lactococcus cremoris）、枯草芽孢杆菌、蜡状芽孢杆菌。示例性宿主细胞还包括真核生物体，例如，各种酵母（如酵母菌种（Saccharomycessp.），包括酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Schizosaccharomyces pombe)、毕赤酵母和乳酸克鲁维酵母(Kluyveromyces lactis)、多形汉逊酵母(Hansenula polymorpha)），黑曲霉菌(Aspergillus niger)，和哺乳动物的细胞和细胞系和昆虫的细胞和细胞系。因此，本发明还包括经过优化以在这些生物体和物种中进行表达的核酸和多肽。

例如，对编码从某种细菌细胞中分离的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的核酸的密码子进行改变，以便所述核酸在与产生所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的细菌不同的细菌细胞、酵母、真菌、植物细胞、昆虫细胞或哺乳动物细胞中具有最佳表达。优化密码子的方法在本领域为公知，参见例如第5,795,737号美国专利；Baca(2000)Int.J.Parasitol.30：113-118；Hale(1998)Protein Expr.Purif.12：185-188；Narum(2001)Infect.Immun.69：7250-7253。另请参见Narum(2001)Infect.Immun.69：7250-7253（描述了优化小鼠系统中的密码子）；Outchkourov(2002)Protein Expr.Purif.24：18-24（描述了优化酵母中的密码子）；Feng(2000)Biochemistry39：15399-15409（描述了优化大肠杆菌中的密码子）；Humphreys(2000)Protein Expr.Purif.20：252-264（描述了优化影响在大肠杆菌中的分泌的密码子使用）。

转基因非人动物

本发明提供包含本发明核酸、多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)、表达盒或载体或转染或转化细胞的转基因非人动物。本发明还提供制备和使用这些转基因非人动物的方法。

例如，所述转基因非人动物可以是包含本发明核酸的狗、山羊、兔、绵羊、猪(包括所有家猪(swine)、野猪(hogs)和亲缘动物)、牛、大鼠和小鼠。例如，这些动物可用作研究纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的体内模型，或作为筛选在体内改变所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的试剂的模型。在所述转基因非人动物中表达的多肽的编码序列可以设计为组成型，或处于组织特异性、发育特异性或诱导型转录调控因子的控制之下。

可以使用本领域已知的任何方法设计和产生转基因非人动物；参见例如第6,211,428；6,187,992；6,156,952；6,118,044；6,111,166；6,107,541；5,959,171；5,922,854；5,892,070；5,880,327；5,891,698；5,639,940；5,573,933；5,387,742；5,087,571号美国专利，描述了制备和使用转化细胞和卵细胞和转基因小鼠、大鼠、兔、绵羊、猪和牛。另请参见，例如，Pollock(1999)J.Immunol.Methods231：147-157，描述了转基因乳畜的乳中生产重组蛋白；Baguisi(1999)Nat.Biotechnol.17：456-461，显示了转基因山羊的生产。第6,211,428号美国专利描述了制备和使用在其脑部表达包含DNA序列的核酸构建体的转基因非人哺乳动物。第5,387,742号美国专利描述了向受精的小鼠卵细胞注射克隆重组的或合成的DNA序列、将注射后的卵细胞移植到假孕雌性中，然后培育成所谓的转基因小鼠。第6,187,992号美国专利描述了制备和使用转基因小鼠。

“剔除动物”也可用于实施本发明方法。例如，一方面，本发明转基因或改变的动物包括被改造不表达内源基因的“剔除动物”（例如，“剔除小鼠”），所述内源基因被替换为表达本发明纤维素酶（例如，内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶），或包含本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的融合蛋白的基因。

转基因植物和种子

本发明提供包含本发明核酸、多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)、表达盒或载体或转染或转化细胞的转基因植物和种子。本发明还提供包含本发明核酸和/或多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)的植物产物（例如，脂肪、种子、叶、提取物及类似物）。所述转基因植物可以是双子叶(双子叶植物)或单子叶(单子叶植物)。本发明还提供制备和使用这些转基因植物和种子的方法。表达本发明多肽的转基因植物或植物细胞可以依照本领域已知的任何方法进行构建。参见例如第6,309,872号美国专利。

本发明核酸和表达构建体可以通过任何方法引入植物细胞。例如，核酸或表达构建体可以引入所需的植物宿主的基因组，或所述核酸或表达构建体可以是游离基因。引入所需的植物的基因组可以使所述宿主的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的酶生产受内源转录或翻译控制元件的调控。本发明还提供其中通过例如同源重组而插入基因序列断裂内源基因表达的“剔除植物”。产生“剔除”植物的方法在本领域为公知，参见例如Strepp(1998)Proc Natl.Acad.Sci.USA95：4368-4373；Miao(1995)Plant J7：359-365。参见下文关于转基因植物的讨论。

本发明核酸可用于赋予几乎任何植物，例如，产生淀粉的植物（如马铃薯、番茄、大豆、甜菜、玉米、小麦、水稻、大麦及类似物）所需的性状。本发明核酸可用于操纵植物的代谢途径以优化或改变宿主的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的表达。其可以改变植物中的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。可选地，本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可用于生产转基因植物，以生产不是由该植物天然生成的化合物。这样可以降低生产成本或产生新颖产物。

一方面，制备转基因植物的第一步包括制备在植物细胞中表达的表达构建体。这些技术在本领域为公知。它们可以包括选择和克隆启动子（一种用于促进核糖体与mRNA有效结合的编码序列）和选择适当的基因终止子序列。一个示例性组成型启动子是花椰菜花叶病毒的CaMV35，该启动子通常造成在植物中高表达。其它启动子是更加特异的启动子，并响应所述植物内部或外部环境的信号。示例性光诱导型启动子是cab基因（编码主要的叶绿素a/b结合蛋白）的启动子。

一方面，所述核酸被改变以实现在植物细胞中的更高表达。例如，与植物中见到的序列（其中一些序列偏好G-C核苷酸对）相比，本发明序列可能具有较高的A-T核苷酸对百分比。因此，在不显著改变氨基酸序列的情况下，所述编码序列中的A-T核苷酸可以置换为G-C核苷酸以增加所述基因产物在植物细胞中的生产。

可以向所述基因构建体添加选择性标记基因以鉴定成功整合所述转基因的植物细胞或组织。这可能是必需的，因为实现基因在植物细胞中的掺入和表达是稀有事件，仅在很低百分比的靶组织或细胞中发生。选择性标记基因编码提供对通常是对植物有毒的试剂（如抗生素或除草剂）的抗性的蛋白。在包含适当的抗生素或除草剂的培养基上生长时，仅有整合了所述选择性标记基因的植物细胞存活。像其它插入基因一样，标记基因也需要启动子和终止序列以正常行使功能。

一方面，制备转基因植物或种子包括将本发明序列和可选择地将标记基因掺入靶表达构建体(例如，质粒)，以及布置启动子和终止子序列。这可包括通过合适的方法将所述改变的基因转移到所述植物中。例如，可以使用如植物细胞原生质体的电穿孔和微注射的技术将构建体直接引入所述植物细胞的基因组DNA，或可以使用霰弹法（如DNA粒子轰击）将所述构建体直接引入植物组织。参见例如，例如Christou(1997)Plant Mol.Biol.35：197-203；Pawlowski(1996)Mol.Biotechnol.6：17-30；Klein(1987)Nature327：70-73；Takumi(1997)Genes Genet.Syst.72：63-69，讨论了使用粒子轰击将转基因引入小麦；和Adam(1997)同上，使用粒子轰击将YAC引入植物细胞。例如，Rinehart(1997)同上，使用粒子轰击以产生转基因棉花植物。加速粒子的设备可参见第5,015,580号美国专利；和，可通过商业途径获得的BioRad(Biolistics)PDS-2000粒子加速仪；另请参见，John，第5,608,148号美国专利；和Ellis，第5,681,730号美国专利，描述了粒子介导的裸子植物转化。

一方面，原生质体可以被固定并用核酸（例如，表达构建体）注射。虽然从原生质体的植物再生对谷类来说并不容易，但是在豆类中，可以使用体细胞胚发生从原生质体衍生的愈伤组织进行植物再生。可以使用基因枪技术向有序组织转化裸DNA，其中DNA包被在钨微粒（大小为细胞的1/100的弹丸）上，该微粒携带所述DNA深入细胞和细胞器。然后诱导转化的组织再生（通常通过体细胞胚发生）。此技术已成功用于若干种谷类物种（包括玉米和水稻）。

也可使用重组的病毒将核酸（例如，表达构建体）引入植物细胞。可以使用病毒载体，如，例如，烟草花叶病毒衍生载体(Rouwendal(1997)Plant Mol.Biol.33：989-999)转化植物细胞，参见Porta(1996)“Useof viral replicons for the expression of genes in plants”（使用病毒复制子在植物中表达基因），Mol.Biotechnol.5：209-221。

可选地，核酸（例如，表达构建体）可以与合适的T-DNA侧翼区组合，然后引入常规的根癌农杆菌宿主载体。当植物细胞被根癌农杆菌感染时，该细菌宿主的侵入功能将指导所述构建体和相邻的标记插入所述细胞DNA。根癌农杆菌介导的转化技术（包括卸甲和使用双元载体）在科学文献中已有详尽的描述。参见例如Horsch(1984)Science233：496-498；Fraley(1983)Proc.Natl.Acad.Sci.USA80：4803(1983)；Gene Transfer to Plants（植物转基因），Potrykus编(Springer-Verlag，Berlin1995)。农杆菌（A.tumefaciens）细胞中的DNA包含在该细菌的染色体以及称为Ti(致瘤)质粒的另一结构。Ti质粒包含一段叫做T-DNA(～20kb长)的在感染过程中被转移到植物细胞的DNA和一系列指导感染过程的vir(致病)基因。农杆菌只能通过伤口感染植物：当植物的根或茎受伤时，它就释放出某些化学信号，作为响应，农杆菌的vir基因被激活，并指导一系列将T-DNA从Ti质粒转移到所述植物的染色体所必需的事件。然后T-DNA即通过伤口进入所述植物细胞。一种推测是T-DNA等至植物DNA复制或转录，然后将其自身插入暴露的植物DNA。为了使用农杆菌作为转基因载体，T-DNA的致瘤部分必须被除去，同时保留T-DNA边界区和vir基因。所述转基因则插入T-DNA边界区之间，该基因从此处转移至植物细胞并整合到所述植物的染色体。

本发明提供使用本发明核酸转化单子叶植物，包括重要的谷类，参见Hiei(1997)Plant Mol.Biol.35：205-218。另请参见，例如，Horsch，Science(1984)233：496；Fraley(1983)Proc.Natl.Acad.Sci USA80：4803；Thykjaer(1997)同上；Park(1996)Plant Mol.Biol.32：1135-1148，讨论了T-DNA与基因组DNA的整合。另请参见D′Halluin，第5,712,135号美国专利，描述了稳定整合包含在谷类或其它单子叶植物的细胞中具有功能的基因的DNA的过程。

一方面，第三步包括能够将掺入的靶基因传输给下一代的完整植株的选择和再生。此类再生技术可能使用某些植物激素在组织培养生长培养基中的操纵。一方面，所述方法使用已与所需的核苷酸序列一起引入的杀生物剂和/或除草剂标记。从培养的原生质体再生植物可参见Evans等，Protoplasts Isolation and Culture（原生质体分离和培养），Handbook of Plant Cell Culture（植物细胞培养手册），第124-176页，MacMillilan Publishing Company，New York，1983；和Binding，Regeneration of Plants（植物的再生），Plant Protoplasts（植物原生质体），第21-73页，CRC Press，Boca Raton，1985。还可从植物愈伤组织、外植体、器官或其部分进行再生。此类再生技术的一般性描述可参见Klee(1987)Ann.Rev.of Plant Phys.38：467-486。要从转基因组织（如幼胚）获得完整植株，可以在控制的环境条件下将所述转基因组织在一系列包含营养素和激素的培养基中培养，即所谓的组织培养过程。产生完整植株并生成种子之后，即可开始评价子代。

一方面，在所述表达盒稳定掺入转基因植物之后，其可以通过有性杂交引入其它植物。根据要杂交的物种，可以使用许多标准杂交技术中的任何技术。因为本发明核酸的转基因表达导致表型变化，所以包含本发明重组核酸的植物可以与另一植物进行有性杂交，以获得最终产物。因此，本发明种子可以衍生自本发明两种转基因植物的杂交，或本发明植物和另一植物的杂交。当两个亲代植物均表达本发明多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶)时，所需的效果(例如，表达本发明多肽以生产其中开花行为发生改变的植物)可以得到增强。所需的效果可以通过标准的繁殖方法传递给后代植物。

一方面，本发明核酸和多肽表达于或插入任何植物或种子。本发明转基因植物可以是双子叶或单子叶。本发明转基因植物的单子叶植物的实例是草，如草甸草(蓝草，早熟禾属(Poa))、饲草（如羊茅、黑麦草）、温带草（如剪股颖属(Agrostis)）和谷类（例如，小麦、燕麦、黑麦、大麦、水稻、高粱和玉米）。本发明转基因植物的双子叶植物的实例是烟草、豆科植物（如羽扇豆、马铃薯、甜菜、豌豆、菜豆和大豆)和十字花科植物(十字花科（Brassicaceae))、如花椰菜、油菜和近缘模式生物拟南芥(Arabidopsis thaliana)。因此，本发明转基因植物和种子包括一大类植物，包括但不限于下列属的种：腰果属(Anacardium)、落花生属(Arachis)、天门冬属(Asparagus)、颠茄属(Atropa)、燕麦属(Avena)、芸苔属(Brassica)、柑橘属(Citrus)、西瓜属(Citrullus)、辣椒属(Capsicum)、红花属(Carthamus)、椰子属(Cocos)、咖啡属(Coffea)、黄瓜属(Cucumis)、南瓜属(Cucurbita)、胡萝卜属(Daucus)、油棕属(Elaeis)、草莓属(Fragaria)、大豆属(Glycine)、棉属(Gossypium)、向日葵属(Helianthus)、Heterocallis、大麦属(Hordeum)、天仙子属(Hyoscyamus)、莴苣属(Lactuca)、亚麻属(Linum)、毒麦属(Lolium)、羽扇豆属(Lupinus)、番茄属(Lycopersicon)、苹果属(Malus)、木薯属(Manihot)、马郁兰(Majorana)、苜蓿属(Medicago)、烟草属(Nicotiana)、木犀榄属(Olea)、稻属(Oryza)、黍属(Panieum)、狼尾草属(Pannisetum)、鳄梨属(Persea)、菜豆属(Phaseolus)、黄连木属(Pistachia)、豌豆属(Pisum)、梨属(Pyrus)、李属(Prunus)、萝卜属(Raphanus)、蓖麻属(Ricinus)、黑麦属(Secale)、千里光属(Senecio)、白芥属(Sinapis)、茄属(Solanum)、高粱属(Sorghum)、可可属(Theobromus)、胡芦巴属(Trigonella)、小麦属(Triticum)、山野豌豆属(Vicia)、葡萄属(Vitis)、豇豆属(Vigna)和玉蜀黍属(Zea)。

在可选择的实施方案中，本发明核酸表达于包含纤维细胞的植物，包括，例如，棉花、丝棉树(木棉，爪哇木棉(Ceiba pentandra))、沙柳、木焦油灌木(creosote bush)、冬季育肥草(winterfat)、轻木、苎麻、红麻、大麻、玫瑰茄、黄麻、剑麻、蕉麻和亚麻。在可选择的实施方案中，本发明转基因植物可以是棉属(Gossypium)的成员，包括任何棉属(Gossypium)的种的成员，如亚洲棉(G.arboreum)、草棉(G.herbaceum)、海岛棉(G.barbadense)和陆地棉(G.hirsutum)。

本发明还提供用于生产大量的本发明多肽(例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶或抗体)的转基因植物。参见例如Palmgren(1997)Trends Genet.13：348；Chong(1997)Transgenic Res.6：289-296(使用生长素诱导的、双向甘露碱合成酶(mas1′,2′)启动子通过根癌农杆菌介导的叶盘转化法在转基因马铃薯植物中生产人乳蛋白β-酪蛋白)。

使用已知程序，技术人员可以通过检测转基因植物中转基因mRNA或蛋白的增加或减少来筛选本发明植物。检测和定量mRNA或蛋白的方法在本领域为公知。

多肽和肽

一方面，本发明提供与本发明示例性序列具有序列同一性(例如，至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高或完全的(100%)序列同一性，或同源性)的分离的、合成的或重组的多肽，本发明示例性序列例如，具有SEQ ID NO：2、SEQ ID NO：4、SEQ ID NO：6、SEQ ID NO：8、SEQ ID NO：10、SEQ ID NO：12、SEQ ID NO：14、SEQ ID NO：16、SEQID NO：18、SEQ ID NO：20、SEQ ID NO：22、SEQ ID NO：24、SEQ IDNO：26、SEQ ID NO：28、SEQ ID NO：30、SEQ ID NO：32、SEQ ID NO：34、SEQ ID NO：36、SEQ ID NO：38、SEQ ID NO：40、SEQ ID NO：42、SEQID NO：44、SEQ ID NO：46、SEQ ID NO：48、SEQ ID NO：50、SEQ IDNO：52、SEQ ID NO：54、SEQ ID NO：56、SEQ ID NO：58、SEQ ID NO：60、SEQ ID NO：62、SEQ ID NO：64、SEQ ID NO：66、SEQ ID NO：68、SEQID NO：70、SEQ ID NO：72、SEQ ID NO：74、SEQ ID NO：76、SEQ IDNO：78、SEQ ID NO：80、SEQ ID NO：82、SEQ ID NO：84、SEQ ID NO：86、SEQ ID NO：88、SEQ ID NO：90、SEQ ID NO：92、SEQ ID NO：94、SEQID NO：96、SEQ ID NO：98、SEQ ID NO：100、SEQ ID NO：102、SEQ IDNO：104、SEQ ID NO：106、SEQ ID NO：108、SEQ ID NO：110、SEQ IDNO：112、SEQ ID NO：114、SEQ ID NO：116、SEQ ID NO：118、SEQ IDNO：120、SEQ ID NO：122、SEQ ID NO：124、SEQ ID NO：126、SEQ IDNO：128、SEQ ID NO：130、SEQ ID NO：132、SEQ ID NO：134、SEQ IDNO：136、SEQ ID NO：138、SEQ ID NO：140、SEQ ID NO：142、SEQ IDNO：143、SEQ ID NO：146、SEQ ID NO：148、SEQ ID NO：150、SEQ IDNO：152、SEQ ID NO：154、SEQ ID NO：156、SEQ ID NO：158、SEQ IDNO：160、SEQ ID NO：162、SEQ ID NO：164、SEQ ID NO：166、SEQ IDNO：168、SEQ ID NO：170、SEQ ID NO：172、SEQ ID NO：174、SEQ IDNO：176、SEQ ID NO：178、SEQ ID NO：180、SEQ ID NO：182、SEQ IDNO：184、SEQ ID NO：186、SEQ ID NO：188、SEQ ID NO：190、SEQ IDNO：192、SEQ ID NO：194、SEQ ID NO：196、SEQ ID NO：198、SEQ IDNO：200、SEQ ID NO：202、SEQ ID NO：204、SEQ ID NO：206、SEQ IDNO：209、SEQ ID NO：210、SEQ ID NO：212、SEQ ID NO：214、SEQ IDNO：216、SEQ ID NO：218、SEQ ID NO：220、SEQ ID NO：222、SEQ IDNO：224、SEQ ID NO：226、SEQ ID NO：228、SEQ ID NO：230、SEQ IDNO：232、SEQ ID NO：234、SEQ ID NO：236、SEQ ID NO：238、SEQ IDNO：240、SEQ ID NO：242、SEQ ID NO：244、SEQ ID NO：246、SEQ IDNO：248、SEQ ID NO：250、SEQ ID NO：252、SEQ ID NO：254、SEQ IDNO：256、SEQ ID NO：258、SEQ ID NO：260、SEQ ID NO：262、SEQ IDNO：264、SEQ ID NO：266、SEQ ID NO：268、SEQ ID NO：270、SEQ IDNO：272、SEQ ID NO：274、SEQ ID NO：276、SEQ ID NO：278、SEQ IDNO：280、SEQ ID NO：282、SEQ ID NO：284、SEQ ID NO：286、SEQ IDNO：288、SEQ ID NO：290、SEQ ID NO：292、SEQ ID NO：294、SEQ IDNO：296、SEQ ID NO：298、SEQ ID NO：300、SEQ ID NO：302、SEQ IDNO：304、SEQ ID NO：306、SEQ ID NO：308、SEQ ID NO：310、SEQ IDNO：312、SEQ ID NO：314、SEQ ID NO：316、SEQ ID NO：318、SEQ IDNO：320、SEQ ID NO：322、SEQ ID NO：324、SEQ ID NO：326、SEQ IDNO：328、SEQ ID NO：330、SEQ ID NO：332、SEQ ID NO：334、SEQ IDNO：336、SEQ ID NO：338、SEQ ID NO：340、SEQ ID NO：342、SEQ IDNO：344、SEQ ID NO：346、SEQ ID NO：348、SEQ ID NO：350、SEQ IDNO：352、SEQ ID NO：354、SEQ ID NO：356、SEQ ID NO：358、SEQ IDNO：360、SEQ ID NO：362、SEQ ID NO：364、SEQ ID NO：366、SEQ IDNO：368、SEQ ID NO：370、SEQ ID NO：372、SEQ ID NO：374、SEQ IDNO：376、SEQ ID NO：378、SEQ ID NO：380、SEQ ID NO：382、SEQ IDNO：384、SEQ ID NO：386、SEQ ID NO：388、SEQ ID NO：390、SEQ IDNO：392、SEQ ID NO：394、SEQ ID NO：396、SEQ ID NO：398、SEQ IDNO：400、SEQ ID NO：402、SEQ ID NO：404、SEQ ID NO：406、SEQ IDNO：408、SEQ ID NO：410、SEQ ID NO：412、SEQ ID NO：414、SEQ IDNO：416、SEQ ID NO：418、SEQ ID NO：420、SEQ ID NO：422、SEQ IDNO：424、SEQ ID NO：426、SEQ ID NO：428、SEQ ID NO：430、SEQ IDNO：432、SEQ ID NO：434、SEQ ID NO：436、SEQ ID NO：438、SEQ IDNO：440、SEQ ID NO：442、SEQ ID NO：444、SEQ ID NO：446、SEQ IDNO：448、SEQ ID NO：450、SEQ ID NO：452、SEQ ID NO：454、SEQ IDNO：456、SEQ ID NO：458、SEQ ID NO：460、SEQ ID NO：462、SEQ IDNO：464、SEQ ID NO：466、SEQ ID NO：468、SEQ ID NO：470、SEQ IDNO：472、SEQ ID NO：474、SEQ ID NO：476、SEQ ID NO：478、SEQ IDNO：480、SEQ ID NO：482、SEQ ID NO：484、SEQ ID NO：486、SEQ IDNO：488、SEQ ID NO：490、SEQ ID NO：492、SEQ ID NO：494、SEQ IDNO：496、SEQ ID NO：498、SEQ ID NO：500、SEQ ID NO：502、SEQ IDNO：504、SEQ ID NO：506、SEQ ID NO：508、SEQ ID NO：510、SEQ IDNO：512、SEQ ID NO：514、SEQ ID NO：516、SEQ ID NO：518、SEQ IDNO：520、SEQ ID NO：522和/或SEQ ID NO：524（另请参见下文的表1、2和3，实施例1和4，以及序列表)序列的蛋白。所述序列同一性百分比可以是针对所述多肽的全长，或所述同一性可以是针对至少约15、20、25、30、35、40、45、50、60、70、80、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700个或更多个残基的区域。

本发明多肽也可短于示例性多肽的全长。另一方面，本发明提供大小介于约5和多肽（例如，酶，如纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶）的全长之间的多肽(肽，片段)；示例性大小为约5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、100、125、150、175、200、250、300、350、400、450、500、550、600、650、700个或更多个残基，例如，本发明示例性纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的连续残基。本发明肽(例如，本发明示例性多肽的子序列)可以用作，例如，标记探针、抗原(免疫原)、耐受原、模体、纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性位点(例如，“催化结构域”)、信号序列和/或前结构域。

在可选择的方面，具有纤维素分解活性（例如，纤维素酶活性如内切葡聚糖酶、纤维二糖水解酶和/或β-葡糖苷酶(beta-葡糖苷酶)活性）的多肽是一类共用与纤维素分解活性（如纤维素酶活性例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性)相关的特定的结构元件（例如，氨基酸残基）的多肽的成员。这些共用的结构元件可用于纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶变体的常规生产。本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的这些共用结构元件可用于指导位于本发明多肽的类别范围内的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶变体的常规生产。

如此处所用，术语“纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶”包括但不限于能够催化纤维素的完全或部分分解和/或水解，或纤维素、半纤维素或木素纤维素材料（例如，包含纤维素、半纤维素和木质素的生物质材料）的任何改变或水解的任何多肽或酶(例如，本发明示例性多肽，另请参见下文的表1、2和3，实施例1至7)。

下表总结了本发明示例性多肽的示例性酶活性，例如，如此表所示，在可选择的方面，这些示例性多肽具有但不限于下列活性：

-具有SEQ ID NO：2（由例如SEQ ID NO：1编码）序列的多肽，具有纤维二糖水解酶活性。

-具有SEQ ID NO：102（由例如SEQ ID NO：101编码）序列的多肽，具有酯酶、或更特殊地糖苷水解酶活性。

-具有SEQ ID NO：104（由例如SEQ ID NO：103编码）序列的多肽，具有糖基水解酶活性。

-具有SEQ ID NO：106（由例如SEQ ID NO：105编码）序列的多肽，具有糖苷水解酶活性。

-具有SEQ ID NO：108（由例如SEQ ID NO：107编码）序列的多肽，具有内切葡聚糖酶活性。

-具有SEQ ID NO：110（由例如SEQ ID NO：109编码）序列的多肽，具有内切-1;4-β-葡聚糖酶活性。

-具有SEQ ID NO：12（由例如SEQ ID NO：11编码）序列的多肽，具有纤维二糖水解酶Ⅱ活性。

-具有SEQ ID NO：112（由例如SEQ ID NO：111编码）序列的多肽，具有内切-1;4-β-葡聚糖酶活性。

-具有SEQ ID NO：114（由例如SEQ ID NO：113编码）序列的多肽，具有内切-1;4-β-葡聚糖酶活性。

-具有SEQ ID NO：116（由例如SEQ ID NO：115编码）序列的多肽，具有内切葡聚糖酶活性。

-具有SEQ ID NO：118（由例如SEQ ID NO：117编码）序列的多肽，具有停靠结构域I型糖苷水解酶活性。

-具有SEQ ID NO：120（由例如SEQ ID NO：119编码）序列的多肽，具有4-β-纤维二糖糖苷酶活性。

等，参见下文

[本页剩余部分有意留为空白]

寡聚体酶

本发明还提供具有寡聚体酶活性（例如，寡聚体酶-1（一种β-葡糖苷酶)或寡聚体酶-2(一种β-木糖苷酶)）或能够将可溶性纤维寡糖和/或阿拉伯木聚糖寡聚体水解（降解）为单体（如木糖、阿拉伯糖和葡萄糖）的本发明所述多肽。例如，本发明示例性多肽SEQ ID NO：522（例如，由SEQ ID NO：521编码）和SEQ ID NO：520（例如，由SEQ IDNO：519编码）具有寡聚体酶活性，gpe

在酶解生物质(例如碱预处理的玉米生物质)中的半纤维素和纤维素的过程中，不溶性聚合底物首先被转化为可溶性寡聚体如阿拉伯木糖寡糖和纤维寡糖，并且这些可溶性寡聚体可以进一步被本发明多肽寡聚体酶，例如，SEQ ID NO：522（例如，由SEQ ID NO：521编码）和SEQ ID NO：520（例如，由SEQ ID NO：519编码）降解为可发酵的单体糖。因此，本发明还提供将阿拉伯木糖寡糖和纤维寡糖“转化”为单体糖(例如，可发酵的单体糖，如木糖、阿拉伯糖和葡萄糖）的方法。本发明还提供处理生物质，例如，玉米（如碱预处理的玉米生物质），以使用本发明酶之一或其任何组合（包括一个或多个具有寡聚体酶活性的本发明多肽）将所述生物质“转化”为可发酵的单体糖的方法。

在可选择的方面，本发明酶组合成不同组合，或与其它寡聚体酶、纤维素酶和/或半纤维素酶组合以形成能够将植物生物质(例如，玉米、草)转化为可发酵的单体糖（如木糖、阿拉伯糖和葡萄糖）的酶鸡尾酒。

下面列出了代表性的酶鸡尾酒：

图121说明了两个糖化反应产物（温育48小时）的HPLC示踪，这些数据显示了寡聚体酶(在本研究中，即本发明寡聚体酶）在降解可溶性寡糖中的作用。13和16分钟时的峰分别为可溶性寡聚阿拉伯木聚糖（araboxylan）和纤维寡糖。在图121中，上图说明了使用不含寡聚体酶（上文所述的前八种酶，或内切葡聚糖酶、GH7纤维二糖水解酶、GH6纤维二糖水解酶、β-葡糖苷酶和阿拉伯呋喃糖苷酶)的命名为“E8”的“鸡尾酒”时，糖化反应的HPLC示踪。因此，本发明提供包含下述物质的组合物：包含内切葡聚糖酶、GH7纤维二糖水解酶、GH6纤维二糖水解酶、β-葡糖苷酶和阿拉伯呋喃糖苷酶的“鸡尾酒”，以及一方面，至少一种、多种或全部酶是本发明酶，例如，本发明示例性酶，例如，SEQ ID NO：106（例如，由SEQ ID NO：105编码）、SEQ ID NO：34（例如，由SEQ ID NO：33编码）、SEQ ID NO：98（例如，由SEQ IDNO：97编码）、SEQ ID NO：94（例如，由SEQ ID NO：93编码）、SEQID NO：100（例如，由SEQ ID NO：99编码）、SEQ ID NO：102（例如，由SEQ ID NO：101编码）、SEQ ID NO：96（例如，由SEQ ID NO：95编码）和/或SEQ ID NO：92（例如，由SEQ ID NO：91编码）。

在图121中，下图说明了使用包含此“E8”鸡尾酒和如上所述的两种寡聚体酶Ⅰ和Ⅱ(本发明这些示例性酶为SEQ ID NO：520（例如，由SEQ ID NO：519编码）和SEQ ID NO：522（例如，由SEQ ID NO：521编码）)的“鸡尾酒”时糖化反应的HPLC示踪。这些数据清楚地显示本发明这些示例性寡聚体酶的添加，降低了寡聚阿拉伯木聚糖和纤维寡糖的水平，并增加了单体（可发酵的）糖的量。因此，本发明提供包含下述物质的组合物：包含纤维素降解酶“鸡尾酒”（如上文所述的示例性“E8”混合物）的“鸡尾酒”和寡聚体酶，以及在一个方面中至少一种或多种本发明寡聚体酶（例如，本发明示例性SEQ ID NO：520（例如，由SEQ ID NO：519编码）和SEQ ID NO：522（例如，由SEQ IDNO：521编码）酶）。

与不含示例性SEQ ID NO：520（例如，由SEQ ID NO：519编码）的鸡尾酒相比，寡聚体酶Ⅱ(示例性SEQ ID NO：520（例如，由SEQ IDNO：519编码）)在剂量为1mg/g纤维素时增加了木糖(从52%至66%)和葡萄糖（从63%至70%）的产率。图122说明了使用酶鸡尾酒E8(如上文定义，作为图122A中的“组-1”)和E8加寡聚体酶Ⅱ，示例性SEQID NO：520（例如，由SEQ ID NO：519编码）（即所谓的“E9”鸡尾酒混合物，或图122B中的“组-2”)进行反应时的时间过程研究。在图122A中，上图说明了葡萄糖产率的时间过程研究；在图122B中，下图说明了木糖产率的时间过程研究。

另外的实验显示寡聚体酶Ⅰ(示例性SEQ ID NO：522（例如，由SEQ ID NO：521编码）)能够降解纤维二糖和其它纤维寡糖，进而使得示例性β-葡糖苷酶SEQ ID NO：94（例如，由SEQ ID NO：93编码）在所述鸡尾酒中并不必要。因此，本发明另一示例性酶鸡尾酒包含示例性SEQ ID NO：106（例如，由SEQ ID NO：105编码）、SEQ ID NO：34（例如，由SEQ ID NO：33编码）、SEQ ID NO：98（例如，由SEQ IDNO：97编码）、SEQ ID NO：94（例如，由SEQ ID NO：93编码）、SEQID NO：100（例如，由SEQ ID NO：99编码）、SEQ ID NO：102（例如，由SEQ ID NO：101编码）、SEQ ID NO：96（例如，由SEQ ID NO：95编码）、SEQ ID NO：92（例如，由SEQ ID NO：91编码)和SEQ ID NO：522（例如，由SEQ ID NO：521编码）；或，示例性SEQ ID NO：106（例如，由SEQ ID NO：105编码）、SEQ ID NO：34（例如，由SEQ ID NO：33编码）、SEQ ID NO：98（例如，由SEQ ID NO：97编码）、SEQ ID NO：100（例如，由SEQ ID NO：99编码）、SEQ ID NO：102（例如，由SEQ IDNO：101编码）、SEQ ID NO：96（例如，由SEQ ID NO：95编码）、SEQID NO：92（例如，由SEQ ID NO：91编码）和SEQ ID NO：520（例如，由SEQ ID NO：519编码）(或SEQ ID NO：522（例如，由SEQ ID NO：521编码）)。

类似地，寡聚体酶Ⅱ(示例性SEQ ID NO：520（例如，由SEQ IDNO：519编码）)也能够通过取代所述鸡尾酒中的示例性β-木糖苷酶SEQ ID NO：96（例如，由SEQ ID NO：95编码）而降解木二糖和其它可溶性阿拉伯木聚糖。因此，本发明另一示例性酶鸡尾酒包含SEQ IDNO：106（例如，由SEQ ID NO：105编码）、SEQ ID NO：34（例如，由SEQ ID NO：33编码）、SEQ ID NO：98（例如，由SEQ ID NO：97编码）、SEQ ID NO：94（例如，由SEQ ID NO：93编码）、SEQ ID NO：100（例如，由SEQ ID NO：99编码）、SEQ ID NO：102（例如，由SEQ ID NO：101编码）、SEQ ID NO：96（例如，由SEQ ID NO：95编码）、SEQ ID NO：92（例如，由SEQ ID NO：91编码）和SEQ ID NO：520（例如，由SEQ IDNO：519编码）；或，SEQ ID NO：106（例如，由SEQ ID NO：105编码）、SEQ ID NO：34（例如，由SEQ ID NO：33编码）、SEQ ID NO：98（例如，由SEQ ID NO：97编码）、SEQ ID NO：94（例如，由SEQ ID NO：93编码）、SEQ ID NO：100（例如，由SEQ ID NO：99编码）、SEQ ID NO：102（例如，由SEQ ID NO：101编码）、SEQ ID NO：92（例如，由SEQ IDNO：91编码）和SEQ ID NO：520（例如，由SEQ ID NO：519编码）(或SEQ ID NO：522（例如，由SEQ ID NO：521编码）)。

在可选择的方面，本发明单个酶，或本发明酶的组合(或“鸡尾酒”或混合物)(其可包含一种或多种非本发明酶)，可用于加工（降解）商业的纤维素酶制品，例如，衍生自粗真菌肉汤培养物（如里氏木霉（Trichoderma reesei））的纤维素酶制品。添加本发明酶的原因是商业的制品自身缺乏许多酶活性，例如消化碱预处理的生物质所需要的半纤维素酶活性。更重要地，添加本发明酶的原因是商业的纤维素酶制品中的大多数可溶性木聚糖以寡聚形式存在，如果不添加本发明酶，其将无法进一步降解为单体糖类。因此，本发明提供针对难分解可溶性木糖寡聚体，例如，商业的纤维素酶制品（如衍生自粗真菌肉汤培养物的纤维素酶制品）中发现的木糖寡聚体的酶溶液。本发明还提供降解可溶性纤维寡糖的酶溶液，虽然纤维寡糖转化为葡萄糖单体的比率一般比较小。一方面，本发明寡聚体酶允许将难分解纤维寡糖和阿拉伯木糖寡聚体分解为可发酵的单体糖（如葡萄糖、木糖和阿拉伯糖）。

一方面，本发明酶，包括本发明“鸡尾酒”酶混合物，增加生物质（例如，包含玉米或草的生物质）的半纤维素和纤维素向单体糖的整体转化。如果不添加本发明寡聚体酶，大量木糖将保持非可发酵寡糖的束缚状态。此外，本发明的这些寡聚体酶可用于取代和/或补充鸡尾酒中的其它酶，例如，β-葡糖苷酶和/或β-木糖苷酶，从而不增加整体的蛋白上样。由于本发明这两种示例性寡聚体酶具有宽松的底物特异性，它们显示出多种功能（如上所述，并另请参见图121和122)。

确定或鉴定酶活性的分析法

确定或鉴定酶活性（如确定寡聚体酶、纤维素酶、木聚糖酶、纤维二糖水解酶、β-葡糖苷酶、β-木糖苷酶、阿拉伯呋喃糖苷酶或相关活性），例如，以确定多肽是否在本发明范围内的分析法在本领域为公知，参见例如Thomas M.Wood，K.Mahalingeshwara Bhat，“Methods forMeasuring Cellulase Activities”（测量纤维素酶活性的方法），Methods inEnzymology，160，87-111(1988)；第5,747,320；5,795,766；5,973,228；6,022,725；6,087,131；6,127,160；6,184,018；6,423,524；6,566,113；6,921,655号美国专利。

在某些方面，本发明多肽可以具有可选择的酶活性。例如，所述多肽可以具有内切葡聚糖酶/纤维素酶活性；木聚糖酶活性；蛋白酶活性；等；换言之，由于其具有宽松的底物特异性，本发明酶可以是多功能的。事实上，本文显示的研究表明，由于其具有宽松的底物特异性，本发明两种示例性寡聚体酶是多功能的，参见上文的讨论。

如此处所用，“氨基酸”或“氨基酸序列”指寡肽、肽、多肽或蛋白序列，或指任何这些的片段、部分或亚基，以及指天然或合成的分子。“氨基酸”或“氨基酸序列”包括寡肽、肽、多肽或蛋白序列，或任何这些序列的片段、部分或亚基，以及天然或合成的分子。如此处所用，术语“多肽”指通过肽键或改变的肽键（即肽等排物）彼此连接的氨基酸，并可包含20个基因编码的氨基酸之外的经修饰的氨基酸。所述多肽可通过天然过程（如翻译后加工）或通过本领域公知的化学修饰技术进行修饰。修饰可发生于多肽的任何位置，包括肽主链、氨基酸侧链和氨基或羧基末端。应了解，给定多肽的多个位点可存在相同或不同程度的同一类型的修饰。给定多肽也可具有许多修饰类型。修饰包括乙酰化、酰化、ADP-核糖基化、酰胺化、共价连接黄素、共价连接血红素、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联环化、二硫键的形成、去甲基化、共价交联的形成、半胱氨酸的形成、焦谷氨酸的形成、甲酰化、γ-羧基化、糖基化、GPI锚的形成、羟基化、碘化、甲基化、豆蔻酰化、氧化、聚乙二醇化、葡聚糖水解酶加工、磷酸化、异戊烯化、外消旋化、硒化、硫化和转移-RNA介导的氨基酸向蛋白的添加（如精氨酸化）(参见Creighton,T.E.，Proteins—Structure and Molecular Properties（蛋白质—结构和分子特性），第二版，W.H.Freeman and Company，New York(1993)；Posttranslational Covalent Modification of Proteins（蛋白质的翻译后共价修饰），B.C.Johnson编，Academic Press，New York，第1-12页(1983))。本发明肽和多肽还包括所有“模拟物”和“拟肽”形式，进一步的详细讨论参见下文。

如此处所用，术语“分离的”指所述物质(例如，本发明蛋白或核酸）被从其原始环境(例如，其天然存在的自然环境)中取出。例如，活体动物中的天然存在的多核苷酸或多肽不是分离的，但是当同样的多核苷酸或多肽与天然系统中一些或所有共存的物质分开时，则是分离的。此类多核苷酸可以是载体的一部分，和/或此类多核苷酸或多肽可以是组合物的一部分，并且其仍是分离的，因为此类载体或组合物并不是所述多核苷酸的天然环境。如此处所用，术语“纯化的”并不要求绝对纯净，而意指一种相对定义。从文库获得的个体核酸已常规纯化至电泳同质。从这些克隆中获得的序列不能直接从所述文库或从人总DNA中获得。本发明纯化核酸已从所述生物体的基因组DNA的剩余部分纯化了至少10⁴-10⁶倍。一方面，术语“纯化的”包括已从所述基因组DNA的剩余部分或文库的其它序列或其它环境中纯化了至少一个数量级，例如，一方面，两个或三个，或四个或五个数量级的核酸。

“重组的”多肽或蛋白指通过重组DNA技术生产的多肽或蛋白；即从转化了编码所需的多肽或蛋白的外源DNA构建体的细胞生产的。“合成的”多肽或蛋白是那些通过化学合成制备的多肽或蛋白。固相化学肽合成方法也可用于合成本发明多肽或片段。从20世纪60年代早期开始，此类方法在本领域就为已知(Merrifield，R.B.，J.Am.Chem.Soc，85：2149-2154，1963)(另请参见Stewart，J.M.和Young，J.D.，Solid Phase Peptide Synthesis（固相肽合成），第二版，Pierce ChemicalCo.，Rockford，Ill.，第11-12页))，并且最近已用于可通过商业途径获得的实验室肽设计和合成试剂盒(Cambridge Research Biochemicals)。此类可通过商业途径获得的实验室试剂盒一般采用了H.M.Geysen等，Proc.Natl.Acad.Sci,USA，81：3998(1984)的教导，并用于在多个“杆”或“针”（所有这些均连接至一个平板）的尖端上合成肽。

在两个核酸或多肽的上下文中，短语“大致相同”指当使用一种已知的序列比较算法或通过视觉检测测量，进行最大对应性比较和对比时，两个或多个序列具有，例如，至少约50%、51%、52%、53%、54%、55%、56%、57%、58%、59%、60%、61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的核苷酸或氨基酸残基(序列)同一性。在可选择的方面，大致相同存在于至少约100个或更多个残基的区域内，并且最普遍地，所述序列在至少约150至200个或更多个残基上大致相同。在某些方面，所述序列在编码区的全长上大致相同。

此外，“大致相同的”氨基酸序列是与参考序列具有一个或多个保守或非保守氨基酸置换、缺失或插入的差异的序列。一方面，所述置换发生于不是分子活性位点的位点，或可选地所述置换发生于是分子活性位点的位点，条件是多肽基本保持其功能（酶学）特性。例如，保守氨基酸置换将一个氨基酸置换为另一个同一类别的氨基酸(例如，将一个疏水性氨基酸如异亮氨酸、缬氨酸、亮氨酸或甲硫氨酸置换为另一个疏水性氨基酸，或将一个极性氨基酸置换为另一个极性氨基酸，如将精氨酸置换为赖氨酸、谷氨酸置换为天冬氨酸或谷氨酰胺置换为天冬酰胺)。例如，可以从纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽中删除一个或多个氨基酸，以改变所述多肽的结构而不显著改变其生物活性。例如，可以除去对纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的生物活性不必需的氨基-或羧基-末端氨基酸。本发明改变的多肽序列可以通过任何数量的方法进行纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶生物活性分析，所述方法包括使底物接触改变的多肽序列，并确定所述改变的多肽是否减少分析中特定的底物的量或增加功能性纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶多肽与底物的酶学反应的生物产物。

如此处所用，“片段”是可以至少两种不同构象存在的天然存在蛋白的一部分。片段可以具有与所述天然存在蛋白相同或大致相同的氨基酸序列。也包括具有与天然存在蛋白不同的三维结构的片段。这种片段的一个实例是“前形式”分子，如可以通过切割进行改变以产生具有明显更高的活性的成熟酶的低活性前蛋白。

一方面，本发明提供本发明蛋白和肽（例如，纤维素酶）的晶体（三维）结构；所述结构可以使用本领域公知的常规方案进行制备和分析，参见例如MacKenzie(1998)Crystal structure of the family7endoglucanase Ⅰ(Cel7B)from Humicola insolens at2.2A resolution andidentification of the catalytic nucleophile by trapping of the covalentglycosyl-enzyme intermediate（特异腐质霉家族7内切葡聚糖酶Ⅰ(Cel7B)在2.2A分辨率下的晶体结构和通过捕获共价糖基-酶中间体鉴定催化亲核体），Biochem.J.335：409-416；Sakon(1997)Structure andmechanism of endo/exocellulase E4from Thermomonospora fusca（褐色高温单孢菌内切/外切纤维素酶E4的结构和机制），Nat.Struct.Biol4：810-818；Varrot(1999)Crystal structure of the catalytic core domain ofthe family6cellobiohydrolase II,Cel6A,from Humicola insolens,at1.92A resolution（特异腐质霉家族6纤维二糖水解酶Ⅱ(Cel6A)的催化核心结构域在1.92A分辨率下的晶体结构），Biochem.J.337：297-304；说明和鉴定了作为常规产生本发明纤维素酶变体的指南，和作为鉴定本发明范围内的酶种类的指南的特异性结构元件。

本发明多肽和肽可以是从自然来源分离的，或是合成的，或是重组产生的多肽。肽和蛋白可以在体外或体内进行重组表达。可以使用本领域已知的任何方法制备和分离本发明肽和多肽。本发明多肽和肽还可以是使用本领域公知的化学方法完整或部分合成的。参见例如，Caruthers(1980)Nucleic Acids Res.Symp.Ser.215-223；Horn(1980)Nucleic Acids Res.Symp.Ser.225-232；Banga，A.K.，Therapeutic Peptidesand Proteins,Formulation,Processing and Delivery Systems（治疗性肽和蛋白，制剂、加工和递送系统）(1995)Technomic Publishing Co.，Lancaster，PA。例如，可以使用不同的固相技术进行肽合成（参见例如Roberge(1995)Science269：202；Merrifield(1997)Methods Enzymol.289：3-13)并可实现自动化合成，例如，使用ABI431A肽合成仪(PerkinElmer)（依照制造商提供的说明）。

本发明肽和多肽还可以被糖基化。所述糖基化可以是通过化学方法或通过细胞生物合成机制在翻译后添加的，其中后者包括使用已知的糖基化模体，该模体可以是序列固有的，或者可以是作为肽添加的，或是添加在核酸编码序列中。所述糖基化可以是O-连接的或N-连接的。

如上文的定义，本发明肽和多肽包括所有“模拟物”和“拟肽”形式。术语“模拟物”和“拟肽”指具有与本发明多肽大致相同的结构和/或功能特性的合成的化合物。所述模拟物可以完全由合成的、非天然的、氨基酸类似物构成，或是部分天然肽氨基酸与部分非天然的氨基酸类似物的嵌合分子。所述模拟物还可包括任何量的天然氨基酸保守置换，只要此类置换也不显著改变所述模拟物的结构和/或活性。与作为本发明多肽种类的保守变体或成员(例如，与本发明示例性序列具有约50%或更多序列同一性)的本发明多肽一样，可使用常规的实验方法确定模拟物是否在本发明范围内，即其结构和/或功能是否发生实质改变。因此，一方面，如果模拟物组合物具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性，则其在本发明范围内。

本发明多肽模拟物组合物可以包含非天然结构组分的任何组合。另一方面，本发明模拟物组合物包括下列三种结构基团的一种或全部：a)天然酰胺键(“肽键”)连接之外的残基连接基团；b)取代天然存在氨基酸残基的非天然残基；或c)诱发二级结构模拟，即诱发或稳定二级结构（例如，β转角、γ转角、β折叠、α螺旋构象及类似结构）的残基。例如，当本发明多肽的所有或部分残基是通过天然肽键之外的化学方法连接在一起时，其即可被鉴定为模拟物。个体的肽模拟物残基可通过肽键、其它化学键或偶联方式（如，例如，戊二醛、N-羟基琥珀酰亚胺酯、双官能马来酰亚胺、N,N′-二环己基碳二亚胺(DCC)或N,N′-二异丙基碳二亚胺(DIC)）连接。可以替代传统的酰胺键(“肽键”)连接的连接基团包括，例如，酮基亚甲基(例如，-C(=O)-CH₂-取代-C(=O)-NH-)、氨基亚甲基(CH₂-NH)、乙烯、链烯(CH=CH)、醚(CH₂-O)、硫醚(CH₂-S)、四唑(CN₄-)、噻唑、逆酰胺（retroamide）、硫代酰胺或酯(参见例如Spatola(1983)，Chemistry and Biochemistry ofAmino Acids,Peptides and Proteins，第7卷，第267-357页，“PeptideBackbone Modifications（肽主链修饰）”，Marcell Dekker，NY)。

本发明多肽也可通过包含取代天然存在氨基酸残基的所有或一些非天然残基而被鉴定为模拟物。非天然残基在科学和专利文献中已有详尽的描述；一些用作天然氨基酸残基模拟物的示例性非天然组合物和指南如下所述。芳族氨基酸模拟物可以通过用，例如，D-或L-萘基丙氨酸（naphylalanine）；D-或L-苯基甘氨酸；D-或L-2噻吩丙氨酸（thieneylalanine）；D-或L-1、-2、3-或4-芘丙氨酸；D-或L-3噻吩丙氨酸；D-或L-(2-吡啶)-丙氨酸；D-或L-(3-吡啶)-丙氨酸；D-或L-(2-吡嗪)-丙氨酸；D-或L-(4-异丙基)-苯基甘氨酸；D-(三氟甲基)-苯基甘氨酸；D-(三氟甲基)-苯基丙氨酸；D-p-氟-苯基丙氨酸；D-或L-对-二苯基苯基丙氨酸；D-或L-对-甲氧-二苯基苯基丙氨酸；D-或L-2-吲哚(烷基)丙氨酸；和，D-或L-烷基丙氨酸(alkylainines)置换产生，其中烷基可以是取代或未取代的甲基、乙基、丙基、己基、丁基、戊基、异丙基、异丁基、sec-isotyl、异戊基或非酸性氨基酸。非天然氨基酸的芳环包括，例如，噻唑基、硫代苯基、吡唑基、苯并咪唑基、萘基、呋喃基、吡咯基和吡啶基芳环。

酸性氨基酸的模拟物可以通过用下述物质取代产生：例如，非羧酸氨基酸而保持负电荷；(膦酰)丙氨酸；硫酸苏氨酸。羧基侧基团(例如，天冬氨酰基或谷氨酰基)也可通过与碳二亚胺(R′-N-C-N-R′)（如，例如，1-环己基-3(2-吗啉基-(4-乙基)碳二亚胺或1-乙基-3(4-氮阳离子-4,4-二甲基戊基（dimetholpentyl）)碳二亚胺）反应进行选择性修饰。天冬氨酰基或谷氨酰基也可通过与铵离子反应转化为天冬酰胺酰基和谷氨酰胺酰基残基。碱性氨基酸的模拟物可以通过用，例如，(除赖氨酸和精氨酸外)氨基酸鸟氨酸、瓜氨酸或(胍基)-乙酸或(胍基)烷基-乙酸取代产生，其中烷基是上文确定的烷基。腈衍生物(例如，含有取代COOH的CN-部分)可以取代天冬酰胺或谷氨酰胺。天冬酰胺酰基和谷氨酰胺酰基残基可以脱氨基成为相应的天冬氨酰基或谷氨酰基残基。精氨酸残基模拟物可以通过一方面在碱性条件下与例如一个或多个常规试剂反应而产生，所述试剂包括例如苯基乙二醛、2,3-丁二酮、1,2-环-己二酮或茚三酮。酪氨酸残基模拟物可以通过使酪氨酰与例如芳香族重氮化合物或四硝基甲烷反应产生。N-乙酰亚胺基（acetylimidizol）和四硝基甲烷可分别用于形成O-乙酰基酪氨酰基物类和3-硝基衍生物。半胱氨酸残基模拟物可以通过使半胱氨酰残基与例如α-卤代乙酸（如2-氯乙酸）或氯乙酰胺和相应的胺反应产生；以生成羧甲基或羧酰氨基甲基衍生物。半胱氨酸残基模拟物还可通过使半胱氨酰残基与下述物质反应产生：例如，溴-三氟丙酮、α-溴-β-(5-咪唑基(imidozoyl))丙酸；氯乙酰磷酸、N-烷基马来酰亚胺、3-硝基-2-吡啶二硫化物；甲基2-吡啶二硫化物；p-氯汞苯甲酸；2-氯汞-4硝基苯酚；或，氯-7-硝基苯-氧杂-1,3-二唑。赖氨酸模拟物可以通过使赖氨酰基与例如琥珀酸或其它羧酸酐反应产生(并且可以改变氨基末端残基)。赖氨酸和其它包含α-氨基的残基模拟物还可通过与亚胺酸酯，如皮考啉亚氨酸甲酯、吡多醛磷酸、吡多醛、氯硼氢化物、三硝基-苯磺酸、O-甲基异脲、2,4-戊二酮反应，以及转酰胺基酶催化的与乙醛酸的反应产生。甲硫氨酸的模拟物可以通过与例如甲硫氨酸亚砜反应产生。脯氨酸的模拟物包括例如，哌啶酸、四氢噻唑羧酸、3-或4-羟基脯氨酸、脱氢脯氨酸、3-或4-甲基脯氨酸或3,3,-二甲基脯氨酸。组氨酸残基模拟物可以通过使组氨酰基与例如焦碳酸二乙酯（diethylprocarbonate）或对-溴苯甲酰甲基溴化物反应产生。其它模拟物包括例如，那些通过脯氨酸和赖氨酸的羟基化；丝氨酰或苏氨酰残基的羟基的磷酸化；赖氨酸、精氨酸和组氨酸的α-氨基的甲基化；N-末端胺的乙酰化；主链氨基残基的甲基化或用N-甲基氨基酸进行的置换；或C-末端羧基的酰胺化产生的模拟物。

一方面，本发明多肽的残基（例如，氨基酸）还可置换为具有相反手性的氨基酸(或拟肽残基)。一方面，任何以L-构型(根据化学实体的结构，也可称为R或S)天然存在的氨基酸可以置换为具有相同化学结构类型，但具有相反的手性的氨基酸或拟肽，即所谓的D-氨基酸，还可以称为R-或S-形式。

本发明还提供通过天然过程如翻译后加工(例如，磷酸化、酰化等)或通过化学修饰技术修饰本发明多肽的方法和得到的修饰的多肽。修饰可以发生在所述多肽的任何位置，包括肽主链、氨基酸侧链和氨基或羧基末端。应了解，给定多肽的多个位点可存在相同或不同程度的同一类型的修饰。给定多肽也可具有许多修饰类型。一方面，修饰包括乙酰化、酰化、ADP-核糖基化、酰胺化、共价连接黄素、共价连接血红素、共价连接核苷酸或核苷酸衍生物、共价连接脂质或脂质衍生物、共价连接磷脂酰肌醇、交联环化、二硫键的形成、去甲基化、共价交联的形成、半胱氨酸的形成、焦谷氨酸的形成、甲酰化、γ-羧基化、糖基化、GPI锚的形成、羟基化、碘化、甲基化、豆蔻酰化、氧化、聚乙二醇化、蛋白酶加工、磷酸化、异戊烯化、外消旋化、硒化、硫化和转移-RNA介导的氨基酸向蛋白的添加（如精氨酸化）。参见例如Creighton,T.E.，Proteins—Structure and Molecular Properties（蛋白质—结构和分子特性），第二版，W.H.Freeman and Company，New York(1993)；Posttranslational Covalent Modification of Proteins（蛋白质的翻译后共价修饰），B.C.Johnson编，Academic Press，New York，第1-12页(1983)。

固相化学肽合成方法也可用于合成本发明多肽或片段。从20世纪60年代早期开始，此类方法在本领域就为已知(Merrifield,R.B.，J.Am.Chem.Soc.，85：2149-2154，1963)(另请参见Stewart，J.M.和Young，J.D.，Solid Phase Peptide Synthesis（固相肽合成），第二版，PierceChemical Co.，Rockford，Ill.，第11-12页))，并且最近已用于可通过商业途径获得的实验室肽设计和合成试剂盒(Cambridge ResearchBiochemicals)。此类可通过商业途径获得的实验室试剂盒一般采用了H.M.Geysen等，Proc.Natl.Acad.Sci,USA，81：3998(1984)的教导，并用于在多个“杆”或“针”（所有这些均连接至一个平板）的尖端上合成肽。当采用此系统时，杆和针的平板被倒置并插入具有相应孔或池（包含将适当的氨基酸连接或锚定至所述针或杆的尖端的溶液）的第二块平板。通过重复此加工步骤，即将所述杆和针的尖端倒置并插入适当的溶液，氨基酸即构建成所需的肽。此外，有许多可用的FMOC肽合成系统是可获得的。例如，多肽或片段的装配可以使用AppliedBiosystem，Inc.的Model431A^TM自动化肽合成仪在载体上进行。通过直接合成或通过合成一系列可以使用其它已知技术偶联的片段，此类设备容易获得本发明肽。

本发明多肽包括活性或非活性形式的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。例如，本发明多肽包括“成熟”或例如通过前蛋白-加工酶（如前蛋白转化酶）产生“活性”成熟蛋白的前序列加工之前的前蛋白。本发明多肽包括因其它原因而失活的纤维素酶例如，内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，所述原因例如在被翻译后加工事件（例如，内切-或外-肽酶或蛋白酶作用、磷酸化事件、酰胺化、糖基化或硫化、二聚体化事件及类似事件）“激活”之前。本发明多肽包括所述酶的所有活性形式，包括活性子序列，例如催化结构域或活性位点。

本发明包括固定化纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶，抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶和/或抗β-葡糖苷酶抗体和其片段。本发明提供抑制纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的方法，例如，使用本发明显性负性突变体或抗纤维素酶例如抗内切葡聚糖酶、抗纤维二糖水解酶和/或抗β-葡糖苷酶抗体。本发明包括包含本发明纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的杂络物（例如，融合蛋白、异二聚体等）。

本发明多肽可以在不同条件（例如，极端pH和/或温度、氧化剂及类似条件)下具有纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性。本发明提供制备例如，针对温度、氧化剂和更改漂洗条件具有不同催化效率和稳定性的可选择的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶制品的方法。一方面，可以使用位点特异性诱变和/或随机诱变技术制备纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶变体。一方面，可使用定向进化生产大量具有可选择的特异性和稳定性的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶变体。

本发明蛋白还可用作鉴定纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶调节剂的研究试剂，所述调节剂例如，纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶活性的激活剂或抑制剂。简而言之，将受试样品(化合物、肉汤、提取物及类似物)添加至纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶分析物，以确定其抑制底物切割的能力。此方法鉴定的抑制剂可在工业和研究中用于降低或阻止不希望的蛋白水解。与纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶一样，抑制剂可以被组合以增加其活性谱。

本发明酶还可用作消化蛋白或用于蛋白测序的研究试剂。例如，所述纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶可用于将多肽断裂为较小的片段，以使用例如自动化测序仪测序。

本发明还提供使用本发明核酸、多肽和抗体发现新的纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶的方法。一方面，可以筛选噬菌粒文库以根据表达发现纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。另一方面，可以筛选λ噬菌体文库以根据表达发现纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶。筛选噬菌体或噬菌粒文库可允许检测毒性克隆；增加底物接触；减少改造宿主的需要、避开因大量删除文库而产生任何偏差的可能；和，低克隆密度下更快的生长。筛选噬菌体或噬菌粒文库可以是在液相或固相中进行。一方面，本发明提供在液相中筛选。相对于固相筛选，液相筛选分析条件更加灵活；具有另外的底物灵活性；弱克隆的更高灵敏度；和易于实现自动化。

本发明提供使用本发明蛋白和核酸和实现在短时间（例如，每天）内执行数千个生物催化反应和筛选分析并确保高准确度和重复性的机械自动化(参见下文关于阵列的讨论)的筛选方法。因此，可以在数周时间内生产衍生化合物的文库。有关修饰分子，包括小分子的教导，参见PCT/US94/09174；第6,245,547号美国专利。

一方面，本发明多肽或片段是通过生物化学富集或纯化程序获得的。可通过纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶、和/或寡聚体酶分析法(参见例如下文的实施例1、2和3）、凝胶电泳和/或微量测序确定潜在的同源多肽或片段的序列。可以使用上文描述的任何程序将有前景的本发明多肽或片段的序列与本发明示例性多肽或片段（例如，包含其至少约5、10、15、20、25、30、35、40、50、75、100或150个或更多个连续氨基酸）进行比较。

本发明的另一方面是鉴定保留本发明多肽的酶学功能的本发明片段或变体的分析法。例如所述多肽的片段或变体可用于催化生物化学反应，这指示所述片段或变体保留了本发明多肽的酶学活性。确定变体的片段是否保留本发明多肽的酶学活性的示例性分析法包括如下步骤：使底物分子在允许所述多肽片段或变体行使功能的条件下接触所述多肽片段或变体，并检测底物水平的降低或所述多肽与底物之间的反应的特异性反应产物的水平的增加。

本发明利用酶的独特催化特性。但是，在化学转化中使用生物催化剂(即，纯化的或粗酶、非存活或存活细胞)，通常要求鉴定与特定的起始化合物反应的特定生物催化剂，本发明使用针对许多起始化合物（如小分子）中都存在的官能团的选择的特异性生物催化剂和反应条件。每个生物催化剂针对一个官能团或几个相关的官能团特异，并可与许多包含此官能团的起始化合物反应。

一方面，所述生物催化反应从一个起始化合物生成一个衍生物群体。这些衍生物可以接受另一轮生物催化反应以生成第二个衍生物化合物群体。可以通过生物催化衍生化的每次重复，生成所述原始小分子或化合物的数千个变体。

酶在起始化合物的特定位点反应，而不影响该分子的剩余部分，这一过程是使用传统化学方法非常难以实现的。此高度的生物催化特异性提供了鉴定文库内单一活性化合物的方法。所述文库由用于制备它的生物催化反应系列来表征，即所谓的“生物合成历史”。筛选所述文库的生物活性并跟踪所述生物合成历史，确定生产所述活性混合物的特定的反应顺序。重复所述反应顺序并确定所合成的化合物的结构。与其它合成和筛选方法不同，这种鉴定模式不需要固定化技术，并且可以使用实际上任何类型的筛选分析法在溶液中自由合成和测试化合物。值得注意的是，酶反应对官能团的这种高度特异性允许“跟踪”构成生物催化制备的文库的特定的酶反应。

一方面，使用允许每天执行数千个生物催化反应和/或筛选分析并确保高水平的准确度和重复性的机械自动化方法进行程序化步骤。机械自动化还可用于筛选纤维素酶活性，以确定多肽是否在本发明范围内。因此，一方面，衍生物化合物文库可在数周内生产完成，而使用“传统的”化学或酶学筛选方法将需要花费数年来生成这样的衍生物化合物文库。

在特定的方面，本发明提供修饰小分子的方法，该方法包括使小分子接触由本文所述的多核苷酸编码的多肽或其酶活片段以生成修饰的小分子。测试修饰的小分子的文库以确定显示出所需活性的修饰的小分子是否存在于所述文库中。系统检查用来生产所述文库的一部分的每个生物催化反应，并测试该部分文库中生产的小分子是否存在具有所需的活性的小分子，从而鉴定生产具有所需的活性的小分子的特定的生物催化反应。可任选地重复进行生成具有所需活性的修饰的小分子的特定的生物催化反应。所述生物催化反应是使用一组与小分子结构内不同的结构部分反应的生物催化剂进行的，每个生物催化剂特异性针对一个结构部分或一组相关的结构部分；并且每个生物催化剂与包含不同的结构部分的许多不同的小分子反应。

纤维素酶例如内切葡聚糖酶、纤维二糖水解酶和/或β-葡糖苷酶信号序列、前结构域和催化结构域

本发明提供纤维素酶例如内切葡聚糖酶、纤维二糖水解酶、β-葡糖苷酶、木聚糖酶、甘露聚糖酶、β-木糖苷酶、阿拉伯呋喃糖苷酶和/或寡聚体酶信号序列(例如，信号肽(SP))、前结构域和催化结构域(CD)。本发明SP、前结构域和/或CD可以是分离的、合成的或重组的肽，或可以是融合蛋白的一部分，例如，作为嵌合蛋白中的异源结构域。本发明提供编码这些催化结构域(CD)、前结构域和信号序列(SP，例如，具有包含本发明多肽的氨基末端残基/由其组成的序列的肽)的核酸。

本发明提供包含具有本发明多肽（例如，示例性本发明多肽）的1至14、1至15、1至16、1至17、1至18、1至19、1至20、1至21、1至22、1至23、1至24、1至25、1至26、1至27、1至28、1至28、1至30、1至31、1至32、1至33、1至34、1至35、1至36、1至37、1至38、1至40、1至41、1至42、1至43、1至44、1至45、1至46或1至47、或更多个残基的序列(由其确定的序列)（另请参见下文的表3、实施例1和4，以及序列表）的分离的、合成的或重组的信号序列(例如，信号肽)，或由这些序列组成的分离的、合成的或重组的信号序列(例如，信号肽)。

一方面，本发明提供包含本发明多肽的前14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70个或更多个氨基末端残基的信号序列。

例如，下文的表3说明了本发明多肽的示例性信号(前导区)序列，例如在具有SEQ ID NO：2（例如，由SEQ ID NO：1编码）序列的多肽中，具有包含(或由其组成)SEQ ID NO：2的氨基末端的18个残基或MYKQLALASLSLFGLVNA的信号序列。另外的示例性信号序列也在表3中进行了相似的说明(这些序列是示例性信号序列，而本发明并不限于这些示例性序列，例如，SEQ ID NO：2的另一信号序列可能是MYKQLALASLSLFGLVN等)。表3还说明了有关本发明示例性序列的其它信息。例如，在第一行，SEQ ID NO：1、2代表具有如SEQ ID NO：2（例如，由SEQ ID NO：1编码）所示的序列的本发明示例性多肽；此示例性序列具有纤维二糖水解酶活性；信号序列预测为MYKQLALASLSLFGLVNA(氨基末端的1至18位氨基酸)；此示例性序列最初是从环境样品中分离的，因此其被分类为来自未知来源；和此纤维二糖水解酶的“EC”编号为3.2.1.91(EC编号是依照国际生物化学与分子生物学联盟（即IUBMB）的酶学命名委员会制定的标准化酶命名法为每类酶指定的编号)。