CN105441414A

CN105441414A - 稳定的功能嵌合纤维二糖水解酶i类酶

Info

Publication number: CN105441414A
Application number: CN201510604587.1A
Authority: CN
Inventors: 弗朗西斯·H·阿诺德; 皮特·海因策尔曼
Original assignee: California Institute of Technology CalTech
Current assignee: California Institute of Technology CalTech
Priority date: 2010-06-01
Filing date: 2011-06-01
Publication date: 2016-03-30
Also published as: CA2796189A1; US20110319294A1; US20170037441A1; US8962295B2; US9708633B2; EP2576626A4; CN102884086A; EP2576626A2; CN102884086B; EP2576626B1; US20150159187A1; WO2011153276A3; WO2011153276A2; BR112012028206A2; US9284587B2

Abstract

本发明涉及稳定的功能嵌合纤维二糖水解酶I类酶。具体来说，本公开内容涉及CBH？I嵌合体融合的多肽、编码该多肽的核酸以及用于产生该多肽的宿主细胞。

Description

稳定的功能嵌合纤维二糖水解酶I类酶

本申请是申请日为2011年06月01日、申请号为201180022906.8、发明名称为“稳定的功能嵌合纤维二糖水解酶I类酶”的申请的分案申请。

相关申请的交叉引用

本申请根据美国法典第35卷第119条要求于2010年6月1日提交的美国临时申请序列号61/350,412的优先权，该美国临时申请的公开内容在此通过引用方式并入。

关于联邦资助研究的声明

本发明在由美国陆军研究处(ArmyResearchOffice)授予的基金第W911NF-09-D-0001号下的政府资助下作出。政府具有本发明中的某些权益。

技术领域

本公开内容涉及生物分子工程和设计，以及工程化的蛋白和核酸。

背景技术

纤维素酶混合物在生物质转化过程中的表现除了取决于纤维素底物的物理状态和组成以外，还取决于许多酶特性，包括稳定性、产物抑制、不同纤维素酶组分之间的协作、生产性结合(productivebinding)相对非生产性吸附(nonproductiveadsorption)、以及pH依赖性。鉴于纤维素水解的多变量性质，具有多样的纤维素酶选择来优化用于不同应用和原料的酶制剂是令人期望的。

发明内容

本公开内容提供了大体纯化的嵌合多肽，其包括来自至少两个不同的亲本纤维二糖水解酶I(CBHI)多肽的至少两个结构域，其中这些结构域从N端到C端包含：(区段1)-(区段2)-(区段3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8)；其中：区段1包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁至少50-100％相同的序列；区段2包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₁到大约x₂至少50-100％相同的序列；区段3包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₂到大约x₃至少50-100％相同的序列；区段4包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₃到大约x₄至少50-100％相同的序列；区段5包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₄到大约x₅至少50-100％相同的序列；区段6包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₅到大约x₆至少50-100％相同的序列；区段7包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₆到大约x₇至少50-100％相同的序列；及区段8包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₇到大约x₈至少50-100％相同的序列；且其中x₁是SEQIDNO:2、4、6或8的残基47、48、49、50、51或52，或是SEQIDNO:10的残基48、49、50、51、52或53；x₂是SEQIDNO:2或10的残基92、93、94、95、96或97，或是SEQIDNO:4、6或8的残基91、92、93、94、95或96；x₃是SEQIDNO:2的残基127、128、129、130、131或132，或是SEQIDNO:4或6的残基125、126、127、128、129或130，或是SEQIDNO:8的残基126、127、128、129、130或131，或是SEQIDNO:10的残基123、124、125、126、127或128；x₄是SEQIDNO:2的残基175、176、177、178、180或181，或是SEQIDNO:4或SEQIDNO:6的残基173、174、175、176、177或178，或是SEQIDNO:8的残基174、175、176、177、178或179，或是SEQIDNO:10的残基171、172、173、174、175或176；x₅是SEQIDNO:2的残基221、222、223、224、225或226，或是SEQIDNO:4或SEQIDNO:6的残基219、220、221、222、223或224，或是SEQIDNO:8的残基220、221、222、223、224或225，或是SEQIDNO:10的残基217、218、219、220、221或222；x₆是SEQIDNO:2的残基268、269、270、271、272或273，或是SEQIDNO:4或SEQIDNO:6的残基266、267、268、269、270或271，或是SEQIDNO:8的残基267、268、269、270、271或272，或是SEQIDNO:10的残基264、265、266、267、268或269；x₇是SEQIDNO:2的残基384、385、386、387、388或389，或是SEQIDNO:4的残基385、386、387、388、389或390，或是SEQIDNO:6的残基378、379、380、381、382或383，或是SEQIDNO:8或10的残基383、384、385、386、387或388；并且x₈是对应于SEQIDNO:2的残基454、SEQIDNO:4的残基457、SEQIDNO:6的残基458、SEQIDNO:8的残基453、SEQIDNO:10的残基455、或者具有序列SEQIDNO:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8或SEQIDNO:10的多肽的C端的氨基酸残基，且其中嵌合多肽具有纤维二糖水解酶活性和与包含SEQIDNO:2、4、6、8或10的CBHI多肽相比改善的热稳定性、pH稳定性和/或表达。在前述的另一实施方案中，区段1包含SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁并具有1-10个保守氨基酸取代；区段2是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₁到大约x₂并具有大约1-10个保守氨基酸取代；区段3是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₂到大约x₃并具有大约1-10个保守氨基酸取代；区段4是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₃到大约x₄并具有大约1-10个保守氨基酸取代；区段5是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₄到大约x₅并具有大约1-10个保守氨基酸取代；区段6是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₅到大约x₆并具有大约1-10个保守氨基酸取代；区段7是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₆到大约x₇并具有大约1-10个保守氨基酸取代；并且区段8是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₇到大约x₈并具有大约1-10个保守氨基酸取代。在前述中的任一个的又一个实施方案中，多肽与选自由SEQIDNO:19、20、21、22、23、24、25、26、27、28、29、30、31、32、33和34组成的组的序列至少60-100％相同。在前述任一个的又一个实施方案中，多肽包括可操作地连接到N端氨基酸的前导序列。在前述任一个的又一个实施方案中，多肽还包括选自由SEQIDNO:16、17和18组成的组的序列的C端CBM结构域。在前述任一个的又一个实施方案中，至少两个不同的亲本纤维二糖水解酶I(CBHI)多肽包括选自由SEQIDNO:2、4、6、8和10组成的组的序列。在前述任一个的又一个实施方案中，多肽具有选自由以下组成的组的区段结构：55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551、55525555、55555552、55525552、55555155、55555515、55555115、55555255、55555525、55555225、34152252(SEQIDNO:19)、55153552(SEQIDNO:20)、32153252(SEQIDNO:21)、55155552(SEQIDNO:22)、22153252(SEQIDNO:23)、52152552(SEQIDNO:24)、12153252(SEQIDNO:25)、45153252(SEQIDNO:26)、12153552(SEQIDNO:27)、25152252(SEQIDNO:28)、13152552(SEQIDNO:29)、12152252(SEQIDNO:30)、55153252(SEQIDNO:31)、55552252(SEQIDNO:32)、55152552(SEQIDNO:33)和55152252(SEQIDNO:34)。

本公开内容还提供了编码如前述实施方案中任一个中所描述的多肽的多核苷酸，含有所述多核苷酸的载体，以及包含所述多核苷酸或载体的宿主细胞(例如植物或真菌细胞)。

本公开内容还提供了包含如以上以及本文中别处所述的多肽的酶制品。在又一实施方案中，酶制品还包含热稳定的纤维二糖水解酶II类酶嵌合体。

本公开内容还提供了处理包含纤维素的生物质的方法，该方法包括使生物质与本公开内容的酶制品接触。

本公开内容还提供了用于产生本发明的多肽的方法，所述多肽与一个亲本多肽或一类亲本多肽相比具有改善的活性或稳定性，该方法包括：识别多个(P)进化上、结构上或者进化上和结构上相关的多肽；在多个相关多肽的至少第一多肽和至少第二多肽中选择包含N个肽区段的一组交叉位置；从具有稳定的功能表达的多个进化上、结构上或者进化上和结构上相关的多肽中选择亲本；产生多个嵌合体，所述嵌合体包含亲本的N-1个肽区段以及所述多个进化上、结构上或者进化上和结构上相关的多肽中另一个多肽的一个异源肽区段；识别具有增强活性或稳定性的改善的嵌合体以及识别异源肽区段作为改善的单体中的活性/稳定性相关的肽区段；产生重新组合的重组蛋白的样品集(xP”)，所述重组蛋白包含所述至少第一多肽和第二多肽中的每一个的活性/稳定性相关的肽区段，其中x<1；测量折叠表达的重新组合的重组蛋白的样品集的稳定性；产生包含一个或多个活性/稳定性相关的肽区段的多个嵌合多肽。

在一些实施方案中，所述改善的嵌合体可通过进行回归分析来识别。进一步地，所述回归分析可包括确定序列稳定性数据或折叠蛋白与未折叠蛋白的多重序列比对(MSA)的共有序列分析。更进一步地，所述序列稳定性数据可包括与稳定性测量可操作地关联的序列信息。

在另一些实施方案中，所述选择一组交叉位置可包括比对所述多个进化上、结构上或者进化上和结构上相关的多肽的序列并识别序列同一性区域；进一步地，所述方法可包括序列比对以及选自由以下组成的组的一种或多种方法：X射线晶体学、NMR、搜索蛋白结构数据库、同源模建、从头蛋白折叠及计算蛋白结构预测。

在一些实施方案中，所述选择一组交叉位置可包括：识别所述至少第一多肽中的残基对之间的偶联相互作用；产生多个数据结构，每个数据结构代表包含所述至少第一多肽和第二多肽的重组的交叉突变体，其中每个重组具有不同的交叉位置；对每个数据结构确定与由所述数据结构代表的交叉突变体中被破坏的偶联相互作用的数目相关的交叉破坏；及在所述多个数据结构中识别具有低于阈值的交叉破坏的特定数据结构，其中由所述特定数据结构代表的交叉突变体的交叉位置是被识别的交叉位置。进一步地，偶联相互作用可通过确定残基之间的构象能量或原子间距离来识别。更进一步地，该原子间距离可由多个多肽中的至少一个多肽的三维结构来确定。在一些实施方案中，所述至少第一多肽和第二多肽的每一个的构象能量可由所述第一多肽和第二多肽中的至少一个的三维结构来确定。在另一些实施方案中，偶联相互作用可通过高于阈值的残基之间的构象能量来识别。在某些实施方案中，所述阈值可是所述多个数据结构的交叉可破坏的平均水平；进一步地，交叉位置的识别可包括基于序列同一性区域来识别所述多肽中的可能的切割点。更进一步地，所述序列同一性区域可必须包含至少4个残基。再更进一步地，稳定性的测量可包括选自由以下组成的组的技术：化学稳定性测量、功能稳定性测量和热稳定性测量。具体来说，所述化学稳定性测量可包括化学变性测量；所述热稳定性测量可包括热变性测量；所述功能稳定性测量可包括配体或底物结合技术。

在又一些实施方案中，本公开的方法还可包括创建具有肽区段的片段的单体。在另一些实施方案中，亲本可包括与SEQIDNO:15具有至少80％-100％同一性的序列。

附图简述

图1A-B显示了CBHI多肽的三维结构以及重组区块图。(A)CBHI催化结构域三维结构。形成二硫键的Cys残基由通过黑线连接的球体表示。(B)CBHI重组区块分割及二级结构图。区块间二硫键由栗色线表示，区块间二硫键由浅蓝色线表示，区块分割由黑色箭头表示。埃默森篮状菌(T.emersonii)CBHI的残基编号。

图2显示了亲本CBHI以及32个单体的总分泌CBHIMUL-水解活性。单体含有从亲本1-4到亲本5(来自埃默森篮状菌)的单区块取代。埃默森篮状菌的CBHI的总分泌CBHIMUL-水解活性由粉色棒表示。在45℃下将酵母分泌培养上清液用300μΜ可溶的荧光MUL底物孵育30分钟。三个独立的埃默森篮状菌分泌培养物的单一活性测量的平均值是2.3×10^- ⁴molMUL/(L·s)，标准偏差是3.0×10-5molMUL/(L·s)。所有其它值代表单一培养物和测量。在图的底部的黑线表示T₅₀测量的1.6×10^-5molMUL/(L·s)的活性阈值。

图3显示了28个CBHI单体相对于埃默森篮状菌(T₅₀＝62.9+/-0.3℃)亲本的T₅₀值(℃)的改变。单体含有从亲本1-4到亲本5(来自埃默森篮状菌)中的单区块取代。单体的误差棒代表两个重复测量的极值。亲本的误差棒代表3个重复到8个重复的标准偏差。嗜热毛壳菌(C.thermophilum)和嗜热子囊菌(T.aurantiacus)亲本CBHI的T₅₀值分别是59.9+/-0.3℃和62.2+/-0.4℃。未分泌红褐肉座菌(H.jecorina)和嗜热支顶孢(A.thermophilum)亲本CBHI。

图4显示了亲本CBHI的T₅₀值、总酵母分泌活性(molMUL/(L·s)×10⁵)以及区块序列。单体的T₅₀误差棒代表两个重复测量的极值，亲本的误差棒代表3个重复和8个重复之间的标准偏差。除亲本5(埃默森篮状菌，对于三个独立培养物的单一测量，其具有(2.3+/-0.3)×10^-4molMUL/(L·s)的平均值和标准偏差总酵母分泌活性)以外，总分泌活性值[molMUL/(L·s)]是单一培养物的单一测量。亲本3(红褐肉座菌)和亲本4(嗜热支顶孢)的分泌水平低于T₅₀测量的阈值。

图5显示了亲和分离的CBHI亲本和嵌合体的标准化高温固体纤维素水解活性。所显示的值是相对于在50℃下的活性的在给定的温度下的活性。在50mM醋酸钠、pH4.8中，用60mg/mL固体纤维素和14.6μg/mL亲和分离的CBHI进行反应16小时。误差棒表示三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。

图6显示了CBHI亲本和嵌合体的针对固体纤维素的总酵母分泌活性。在4℃下，在50mM醋酸钠、pH4.8中用微晶纤维素孵育酵母培养上清液1小时以结合CBHI。随后将纤维素洗涤并允许在37℃下进行水解90分钟。误差棒代表三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。

图7显示了CBHI亲本催化结构域(分别是SEQIDNO:2、4、6、8、10)的ClustalW多重序列比对，区块边界由黑线表示。

图8显示了CBHI亲本YPD酵母培养分泌上清液的SDS-PAGE分析。主要埃默森篮状菌CBHI条带出现在～62kDa处，并且由绿色矩形涵盖。相对于～53kDa的氨基酸分子质量的分子质量的增加可通过来自N-连接和O-连接糖基化的预期的额外的8-10kDa来解释。在～62kDa以上的分子质量处的拖尾效应可能是由于糖基化异质性。蓝色数字表示相对于埃默森篮状菌CBHI的针对MUL的CBHI上清液活性。红色数字表示3个CBHI亲本的T₅₀值，对于热稳定性测量来说，其分泌是足够的。

图9显示了CBHI单体的与破坏的接触数目(E)相比的总分泌CBHIMUL活性。圈出了区块7单体数据点。

图10显示了Ni²⁺亲和分离的CBHI亲本和嵌合体针对MUL[(molMUL/(L·μgCBHI·s)×10⁴]的比活性。在50mM醋酸钠中用300μΜMUL和29.2μg/亲和分离的CBHI进行反应30分钟。*5表示具有稳定化子区块C插入的亲本5的区块7。

图11显示了B7P2(嗜热子囊菌)和B7P5(埃默森篮状菌)序列的比对。子区块圈在红色框中。子区块C起始于位置60并继续到比对的第二行中。

图12显示了Ni²⁺亲和分离的CBHI亲本和嵌合体样品的SDSPAGE分析。所有样品以1.5μg蛋白每泳道加样。样品泳道：1-亲本5、2-亲本1、3-121522*52、4-551535*52、5-551522*52、6-251522*52、7-121522*52。亲本2亲和分离的样品(未包括在凝胶中)蛋白浓度太低而无法进行考马斯蓝显色。由于存在嗜热毛壳菌接头和CBM而不是埃默森篮状菌接头和CBM，亲本1预期的分子量大于亲本5和嵌合体。*5表示具有稳定化子区块C插入的亲本5的区块7。

图13显示了亲和分离的CBHI亲本和嵌合体的与温度相比的比活性。在50mM醋酸钠中，用60mg/mL固体纤维素和14.6μg/mL亲和分离的CBHI进行反应16小时。误差棒表示三个重复的标准偏差。*5表示具有稳定化子区块C插入的亲本5的区块7。

具体实施方式

如在此处和在所附权利要求书中所用的那样，除非上下文另外清楚地指明，否则单数形式“一种”、“一个”和“该”包括多个指称。因此，例如，提及“一个结构域”包括多个这样的结构域，提及“该蛋白”包括提及一种或更多种蛋白，等等。

同样，除非另外声明，“或”表示“和/或”。类似地，“包含(comprise)”、“包含(comprises)”、“包含(comprising)”、“包括(include)”、“包括(includes)”和“包括(including)”是可互换的并且不旨在限制。

还应理解，在各实施方案的描述使用术语“包含”时，本领域技术人员将理解在一些具体情况下，实施方案能够可替代地使用语言“基本上由…组成”或“由…组成”描述。

尽管在本公开的方法和组合物的实施中可使用与本文所述的方法和材料相似或等同的方法和材料，但在此处描述了示例性方法、装置和材料。

除非另外定义，否则本文所用的所有技术术语和科学术语具有与本公开所属技术领域的普通技术人员所通常理解的相同的含义。因此，如本申请通篇所使用的，以下术语应具有以下含义。

鉴于已经证明的SCHEMA效用以及用于产生新的热稳定酶的单体区块筛选方法，将这种策略与改善酶热稳定性的其它方法比较和对照是有启示的。共有序列诱变(consensusmutagenesis)可能是最广泛利用的不应用高通量筛选的酶热稳定化策略。共有序列诱变是基于大量(例如，几十个或几百个)相关的酶序列的比对并识别在给定位置高频率出现的残基可能具有稳定化作用。由此预测，将给定位置的残基身份从低频率氨基酸改变为较高频率氨基酸改善进行了这种取代的酶的热稳定性。

尽管成功地利用了共有序列诱变来预测改善酶的热稳定性的单残基取代，但是对大量的系统发生学上多样的序列来确保预测精度的需求是相当大的限制。共有序列诱变的成功应用加入了几十个(如果没有几百个)酶同源物序列。虽然CAZy数据库(参见全球网络cazy.org)含有多于四十个可用于将共有序列诱变应用于CBHI稳定化的CBHI或CBHI相关的基因序列，但是存在许多酶类，对于其，如此大量已知序列是不可获得的。此外，即使可获得许多序列，精确预测稳定化残基的能力受到酶由共同祖先进化而来的事实的限制。从小起始库的进化使完整的同源物组中的残基频率偏向亲本序列中出现的氨基酸，这破坏氨基酸可能具有的任何稳定化作用。考虑到SCHEMA重组仅需要亲本酶的序列以及亲本酶或同源物的晶体结构，我们所描述的单体区块筛选方法可能是用于改善稳定性的共有序列诱变的有效的替代方案。

在工业相关的真菌CBHI的上下文中说明了通过SCHEMA重组的酶稳定化，所述工业相关的真菌CBHI是大规模生物质转化过程中使用的纤维素酶混合物的主要组分。众所周知，这些酶难以在异源宿主中表达，并且蛋白质工程计划很少得到改善的酶，尽管其具有工业重要性。迄今为止，所描述的最热稳定的CBHI是由重组酿酒酵母(S.cerevisiae)宿主分泌的含有三个额外的合理设计的二硫键G4C-A72C、N54C-P191C和T243C-A375C的埃默森篮状菌的变体。本文提供了用作SCHEMA重组亲本的单G4C-A72C工程化二硫键埃默森篮状菌催化结构域。如通过圆二色性(CD)所测得的，单二硫键和三二硫键变体的各自的T_m值被报道为80℃和84℃，并且在不存在底物的情况下其在70℃下的半衰期被报道为270分钟和320分钟。G4C-A72C突变体的这些数字与在酵母分泌培养上清液中的埃默森篮状菌CBHI亲本所观察到的T₅₀值62.9+/-0.3℃不匹配，并且还意味着热稳定性比我们在固体底物水解测定中观察到的更大，其中埃默森篮状菌亲本在65℃以上的温度下是非活性的。

生物质到生物燃料的转化过程中常用的真菌纤维素酶混合物的高成本是实现从不可食用的植物物质经济上可行地生产运输燃料的主要限制之一。纤维素酶处理的操作成本可通过改善这些酶混合物的热稳定性来降低。纤维素酶操作的寿命随热稳定性而增加，与其较不稳定的对应物相比，在生物质降解的过程中允许热稳定的纤维素酶每单位酶水解更多的纤维素。热稳定的纤维素酶还可在较高的温度下操作并且可从较高的比活性中获益。这种增强的水解降低了将纤维素生物质转化成可发酵糖所需的酶负载。除稳定性以外，性能诸如比活性、pH依赖性、产物抑制以及在固体底物的表面上的生产性相对非生产性吸附均对纤维素酶混合物的整体性能做出贡献。

I类纤维二糖水解酶(CBHI或家族7糖基水解酶)是工业化纤维素酶混合物的主要组分并占由普遍的商业纤维素酶生产宿主(丝状真菌红褐肉座菌(T.reesei))分泌的纤维素酶的约60wt％。这样，CBHI已成为以改善CBHI热稳定性为主要目标的多种酶工程工作的主题。CBHI随机突变文库的高通量筛选(HTS)以及合理的二硫键设计已被应用于创建稳定的CBHI变体。HTS的适用性被限制于由足以实现文库特征化的水平的合适的异源宿主表达的CBHI。二硫键设计的适用性被限制于存在晶体结构的CBHI。这些方法中没有一个产生可导致以上列举的一组酶性能改善的CBHI基因序列多样性。本公开内容描述了用于工程化纤维素酶(及其它蛋白)的方法，并且还提供了这种组合物以及工程多肽，所述纤维素酶(及其它蛋白)可靠地改善热稳定性而同时维持功能并提供高水平的序列多样性。

大多数的生物质转化过程利用真菌纤维素酶(主要是纤维二糖水解酶II类(CBHII)、纤维二糖水解酶I类(CBHI)、内切葡聚糖酶和β-葡糖苷酶)的混合物来实现高水平的纤维素水解。产生一组多样的热稳定的CBHI酶嵌合体是构建稳定的高活性纤维素酶的清单的第一步，酶混合物可从这些稳定的高活性纤维素酶配制并被优化用于特定的应用和原料。本公开内容中的这些嵌合CBHI可以与其它纤维二糖水解酶(例如野生型CBHII和嵌合CBHII，参见，例如，PCT/US2010/027248和PCT/US2010/30133，其公开内容在此通过引用方式并入)组合使用。

先前已使用SCHEMA来创建数百个活性CBHII、β-内酰胺酶和细胞色素P450酶嵌合体的家族。SCHEMA利用蛋白结构数据来限定使<E>最小化的连续氨基酸“区块”的边界，<E>是当这些区块在不同亲本之间交换时破坏的氨基酸侧链接触的文库平均数目。已显示β-内酰胺酶嵌合体被折叠且具有活性的概率与该序列的E值负相关。RASPP(最短路径重组问题(RecombinationasShortestPathProblem))算法用于鉴定使<E>相对于突变的文库平均数目<m>最小化的区块边界。由β-内酰胺酶集合(collection)表征的包含来自3个亲本的8个区块(3⁸＝6,561条可能的序列)的～500种独特嵌合体中多于20％具有催化活性。类似方法产生了包含多于2,300种新颖的催化活性酶的3-亲本、8-区块细胞色素P450嵌合体家族。来自这两种集合的嵌合体特征在于从最近的亲本高数目的突变，分别为平均66个氨基酸和72个氨基酸。SCHEMA/RASPP因而使得设计具有显著的序列多样性和可观比例的功能成员的嵌合体家族成为可能。

还已显示SCHEMA嵌合体的热稳定性能够基于小样品序列的序列稳定性数据来预测。184种细胞色素P450嵌合体的热失活数据的线性回归建模显示SCHEMA区块对热稳定性作出加性的贡献。通过这个模型预测多于300种嵌合体是热稳定的，并且所测试的所有44种比最稳定的亲本更稳定。据估计少至35次热稳定性测量可用于预测热稳定性最高的嵌合体。此外，热稳定的P450嵌合体展示独特的活性和特异性性质，表明嵌合(chimeragenesis)能产生另外有用的酶特性。本公开内容说明CBHII酶的SCHEMA重组能够产生在高温下经延长的时间和宽范围的pH对磷酸膨胀纤维素(PASC)具有活性的嵌合纤维素酶。

可通过交换序列区块而制得的嵌合体的总数是p^b，其中p是亲本的数目且b是每个亲本分成的区块的数目。在SCHEMA重组家族的构建中包括更多的亲本酶产生更多潜在独特的嵌合体，并能够包括更多潜在有利的突变。然而，6,561个嵌合体可通过将3个亲本和8个区块重组而制得，再加入两个亲本序列增加家族大小至大于390,000。通过重组而开发的突变的数目取决于亲本序列同一性。对于CBHI，相对于埃默森篮状菌背景亲本(亲本5(P5))，亲本1(嗜热毛壳菌)含有151个突变，亲本2(嗜热子囊菌)增加43个独特的突变，亲本3(红褐肉座菌)产生另外100个独特的突变，且亲本4(嗜热支顶孢)增加了52个突变计数，产生336的可由重组来搜索的突变的总数。

用较大的嵌合体家族操作的缺点是必须表征更多的嵌合体以构建预测性稳定性模型。如果显著比例的样品嵌合体没有以功能形式表达，则这可能是高成本的。本公开内容说明，可用单体筛选方法来有效地识别期望的序列，其中在稳定的良好表达的亲本的背景中进行个体区块的取代。相对于选择用于测试区块之间的相互作用的嵌合体样品集，即背景序列的重要性，这一策略减少了构建的非生产性序列的数目。

对背景亲本及32-成员CBHI单体集的28个分泌成员的稳定性测量允许评价构成5-亲本、8-区块CBHI嵌合体家族的40个区块的36个的稳定性贡献。假设在区块之中没有非线性的稳定性作用，并且区块7亲本5(B7P5)在全部嵌合体背景中在位置7处是最稳定的区块，这些测量允许预测5⁸＝390,625个CBHI嵌合体序列中最稳定的序列。这表明筛选效率相对于先前CBHII重组操作的增加，但是建立在如下假设之上：区块对总稳定性加性地做出贡献并且没有测试线性模型。

本公开内容说明用于从特征为大量的二硫键的亲本酶创建活性嵌合体的SCHEMA重组的稳定性。SCHEMA试图限定区块边界以便使区块之间的相互作用类似于亲本酶中发生的那些相互作用。然而，区块边界未考虑二硫键来限定。这样，10个二硫键(其中的5个连接位于不同区块的Cys残基)的存在提出了SCHEMA产生导致大比例活性成员的嵌合体家族设计的能力的新测试。如32个单体中的28个和16中的16个所示，预测的稳定的嵌合体被分泌为活性纤维素酶，即使当蛋白由大量的二硫键交联时，SCHEMA重组可产生大比例的活性嵌合体。这些结果表明，SCHEMA重组保留了用于形成二硫键的Cys残基的合适的定位和定向。

允许定量预测嵌合体热稳定性的线性区块稳定性贡献支持高序列多样性和大比例的活性成员作为SCHEMA嵌合体家族的可用特征。区块7是最大的区块，具有116个残基，其占CBHI催化结构域的27％。在此位置处进行取代的能力的下降显著地降低了由单体样品集筛选中所包含的突变的总数。具体地，32个单体样品集的总计336个独特的突变中的119个包含在区块7中。高E值不一定预测区块7对重组的抗性。为了测试，产生并重组了区块7的另外的子区块。不仅增加相应的单体的稳定性还增加其被取代进入的全部五个稳定嵌合体的稳定性的子区块被识别，并表明细分重组区块可产生进一步的稳定性改善。

五亲本SCHEMA重组产生一组热稳定的CBHI嵌合体，其在可以配制应用特异性混合物的热稳定的真菌纤维素酶的清单的装配中是对前述热稳定的CBHII嵌合体^7,8的关键补充。另外，该工作表明单体筛选策略使大家族中的期望的嵌合体序列的预测易于处理，因此增加了SCHEMA用于开发大范围酶序列空间的功用。此外，观察到的嵌合体性能的改善以及活性重组酶的高比例表明SCHEMA重组可应用于含有广泛的翻译后修饰的酶。这样，这些结果不仅对于工业化生物质转化过程的上下文中的酶工程有重要意义，还对于工程化期望高序列多样性和/或其性能不易通过诱变和高通量筛选改善的其它蛋白有重要意义。

使用本文所述的方法，产生了许多具有纤维二糖水解酶活性的嵌合多肽，其与野生型亲本CBHI蛋白相比具有改进的特征。

使用相应于含有大于390,000个独特序列的8-区块、5-亲本家族的多样的CBHI嵌合体样品集。为了预测这种嵌合体家族的最稳定的成员而仍仅抽取一组有限的嵌合基因(～30-40)，利用经验来简化样品集设计并使预期以功能形式分泌的样品基因的数目最大化。具体地，假定SCHEMA区块对嵌合体稳定性具有加性的贡献或至少累积的贡献。还进一步假设，利用高度表达的亲本作为背景(其中同源亲本的单一区块被取代)将增加样品序列将被分泌和具有功能的可能性。因此，在良好表达的亲本酶的背景下构建出含有单一区块取代的一组CBHI“单体”嵌合体。这是快速筛选用于稳定序列的区块的同源酶的有效方法。预测最稳定的嵌合体的任务被减少到进行亲本酶及该背景中制得的32个单体的稳定性测量。然后，可由具有稳定作用的且中性的区段装配多样的热稳定的嵌合体。

“氨基酸”是具有如下结构的分子：其中中心碳原子与氢原子、羧酸基团(其碳原子在此称为“羧基碳原子”)、氨基基团(其氮原子在此称为“氨基氮原子”)和侧链基团R相连。当加入到肽、多肽或蛋白中时，在连接一个氨基酸与另一个氨基酸的脱水反应中氨基酸失去其氨基酸羧基的一个或多个原子。结果，当加入到蛋白中时，氨基酸被称为“氨基酸残基”。

“蛋白”或“多肽”是指两个或更多个单独的氨基酸(不论是否为天然存在的)通过肽键相连的任何聚合物。术语“蛋白”被理解为包括术语“多肽”和“肽”(有时其在本文中可互换地使用)在其含义之内。另外，包含多个多肽亚基(例如，DNA聚合酶III、RNA聚合酶II)或其它组分(例如，如端粒酶中存在的RNA分子)的蛋白也将被理解为包括在本文所用的“蛋白”的含义之内。类似地，蛋白及多肽的片段也在本公开内容的范围内并可在此称为“蛋白”。在本公开内容的一个实施方案中，稳定化的蛋白包括两个或更多个亲本肽区段的嵌合体。

给定蛋白的具体氨基酸序列(即，当从氨基端到羧基端书写时为多肽的“一级结构”)由mRNA的编码部分的核苷酸序列决定，mRNA进而由遗传信息指定，所述遗传信息通常为基因组DNA(包括细胞器DNA，例如线粒体DNA或叶绿体DNA)。因此，确定基因的序列帮助预测对应的多肽的一级序列和更特别的是预测由该基因或多核苷酸序列编码的多肽或蛋白的作用或活性。

“融合的”、“可操作地连接的”和“可操作地关联的”在本文可互换使用来概括地指两种在其他方面不同的结构域或肽区段的化学偶联或物理偶联，其中每个结构域或肽区段当可操作地连接时能够提供具有期望活性的功能多肽。结构域或肽区段能够通过使得它们具有功能的肽接头直接连接或相连，或者能够通过其他的中间体或化学键融合。例如，两个结构域可以是同一编码序列的一部分，其中该多核苷酸是符合读框的以使得该多核苷酸在转录时编码一个mRNA，该mRNA在翻译时包括这两个结构域作为一个多肽。可替代地，两个结构域可以被分别表达为个体多肽并且使用化学方法彼此融合。通常，编码结构域将被直接地或被肽接头分隔地“符合读框地”连接，并被一个多核苷酸编码。肽接头和肽的各个编码序列是本领域已知的。

“多核苷酸”或“核酸序列”是指核苷酸的聚合形式。在一些情况下，多核苷酸是指不与在获取该多核苷酸的生物体的天然存在的基因组中与之紧密邻接的编码序列(一个在5'端且一个在3'端)中的任何一个紧密邻接的序列。该术语因此包括，例如，加入载体中的重组DNA；加入自主复制质粒或病毒中的重组DNA；或加入原核生物或真核生物的基因组DNA中的重组DNA，或作为独立于其他序列的单独分子(例如，cDNA)而存在的重组DNA。本公开内容的核苷酸可以是核糖核苷酸、脱氧核糖核苷酸或任何一种核苷酸的修饰形式。如本文所用的多核苷酸是指，除了其他之外，单链和双链的DNA，为单链和双链区域的混合物的DNA，单链和双链的RNA，以及为单链和双链的区域的混合物的RNA，包含可能为单链的或更通常为双链的或为单链和双链的区域的混合物的DNA和RNA的杂合分子。术语多核苷酸涵盖基因组DNA或RNA(取决于生物体，即病毒的RNA基因组)以及由基因组DNA编码的mRNA、和cDNA。

“核酸区段”、“寡核苷酸区段”或“多核苷酸区段”是指较大多核苷酸分子的一部分。多核苷酸区段不必对应于蛋白的编码功能域；然而，在一些情况下该区段将编码蛋白的功能域。多核苷酸区段的长度可以是约6个核苷酸或更多(例如，长度为6-20、20-50、50-100、100-200、200-300、300-400个或更多核苷酸)。稳定性相关的肽区段可以被稳定性相关的多核苷酸区段编码，其中该肽区段与缺乏该肽区段的多肽相比促进稳定性、功能或折叠。

“嵌合体”是指至少两个不同的亲本蛋白或多肽的至少两个区段或结构域的组合。如本领域技术人员所理解的，这些区段不必实际来自每个亲本，因为它是相关的特定序列，而不是实体核酸或肽本身。例如，嵌合真菌I类纤维二糖水解酶(CBHI纤维素酶)将具有来自两个不同的亲本CBHI多肽的至少两个区段。这两个区段是相连的以产生具有纤维二糖水解酶活性的新多肽。换言之，如果蛋白具有全长亲本中任一个的相同序列，那么该蛋白将不是嵌合体。嵌合多肽能够包含来自两个不同亲本蛋白的多于两个区段。例如，对于每个最终的嵌合体或嵌合体的文库来说可能有2、3、4、5-10、10-20个或更多个亲本。每个亲本多肽的区段可以是非常短的或非常长的，区段的连续氨基酸的长度范围可以是蛋白全长的1％到约90％、95％、98％或99％。在一个实施方案中，最小长度是10个氨基酸，但是长度可以是15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100个或更多个氨基酸。在一个实施方案中，确定了两个亲本的一个交叉点。交叉位置确定了一个亲本氨基酸区段停止和下一个亲本氨基酸区段开始的地方。因而，简单的嵌合体将只具有一个交叉位置，其中在该交叉位置之前的区段属于第一亲本而在该交叉位置之后的区段属于第二亲本。在一个实施方案中，嵌合体具有多于一个交叉位置。例如，2、3、4、5、6、7、8、9、10、11-30个或更多个交叉位置。这些交叉位置如何命名和定义均在以下讨论。在其中有两个交叉位置和两个亲本的实施方案中，将具有来自第一亲本的第一连续区段，紧跟着来自第二亲本的第二连续区段，紧跟着来自第一亲本或又一不同的亲本的第三连续区段。连续的旨在表示没有任何中断区段的含义。这些连续的区段相连形成连续的氨基酸序列。例如，来自嗜热毛壳菌(此后称“1”)和嗜热子囊菌(此后称“2”)的在49和94具有两个交叉点的CBHI嵌合体可具有来自1的前49个氨基酸，紧跟着来自2的接下来55个氨基酸，紧跟着来自1的剩余氨基酸，所有这些氨基酸连接在一个连续氨基酸链中。可选地，CBHI嵌合体可具有来自2的前49个氨基酸，来自1的接下来55个氨基酸以及紧跟着来自2的剩余氨基酸。如本领域技术人员所理解的，存在嵌合体的变体以及准确序列。因而，如果是变异的嵌合体，则并非每个区段的100％必须存在于最终的嵌合体中。可通过额外的残基或残基的移除或变化而改变的量将按照术语变体所定义的那样定义。当然，如本领域技术人员所理解的，以上讨论不仅适用于氨基酸而且适用于编码氨基酸的核酸。

“保守的氨基酸取代”是指具有类似侧链的残基的可交换性，且因此通常涉及多肽中的氨基酸由相同或类似定义类别的氨基酸中的氨基酸取代。作为实例而非限制，具有脂族侧链的氨基酸可由另一个脂族氨基酸取代，例如丙氨酸、缬氨酸、亮氨酸、异亮氨酸和甲硫氨酸；具有羟基侧链的氨基酸由具有羟基侧链的另一氨基酸取代，例如丝氨酸和苏氨酸；具有芳族侧链的氨基酸由具有芳族侧链的另一氨基酸取代，例如，苯丙氨酸、酪氨酸、色氨酸和组氨酸；具有碱性侧链的氨基酸由具有碱性侧链的另一氨基酸取代，例如，赖氨酸、精氨酸和组氨酸；具有酸性侧链的氨基酸由具有酸性侧链的另一氨基酸取代，例如，天冬氨酸或谷氨酸；以及疏水性或亲水性氨基酸分别由另一疏水性或亲水性氨基酸取代。

“非保守取代”是指多肽中的氨基酸由具有显著不同的侧链性质的氨基酸取代。非保守取代可使用定义的组之间而不是定义的组之内的氨基酸，并影响(a)取代区域中多肽骨架的结构(例如，脯氨酸代替甘氨酸)，(b)电荷或疏水性，或者(c)侧链体积。作为实例而非限制，示例的非保守取代可以是由碱性或脂族氨基酸取代酸性氨基酸；由小氨基酸取代芳族氨基酸；以及由疏水性氨基酸取代亲水性氨基酸。

“分离的多肽”是指与其天然伴随的其他污染物例如蛋白、脂质和多核苷酸分离的多肽。该术语包括已自其天然存在环境或表达系统(例如，宿主细胞或体外合成)中移出或纯化的多肽。

“基本上纯的多肽”是指如下组合物：在其中多肽物类是存在的优势物类(即，在摩尔基础或重量基础上它比该组合物中的任何其他个体大分子物类更丰富)，并且一般而言当目标物类构成存在的大分子物类的按摩尔或重量％计至少约50％时是基本上纯化的组合物。一般而言，基本上纯的多肽组合物将占该组合物中所存在的所有大分子物类的按摩尔或重量％计的约60％或更多、约70％或更多、约80％或更多、约90％或更多、约95％或更多以及约98％或更多。在一些实施方案中，将目标物类纯化至基本的均一性(即，通过常规检测方法不能在组合物中检测出污染物类)，其中组合物基本上由单一大分子物类组成。溶剂物类、小分子(<500道尔顿)、以及元素离子物类不被认为是大分子物类。

“参考序列”是指用作序列比较的基础的限定序列。参考序列可以是较大序列的子部分，例如，全长基因或多肽序列的区段。一般而言，参考序列长度可为至少20个核苷酸或氨基酸残基，至少25个核苷酸或残基，至少50个核苷酸或残基，或核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包括在这两条序列之间相似的序列(即完整序列的一部分)，以及(2)还可以包括在这两条序列之间相异的序列，所以在两条(或多条)多核苷酸或多肽之间的序列比较通常是通过在“比较窗口”上比较这两条多核苷酸或多肽的序列而进行的，以识别和比较局部区域的序列相似性。

“序列同一性”表示在比较窗口上两条氨基酸序列基本上相同(即，在逐个氨基酸的基础上)。术语“序列相似性”是指共有相同的生物物理特点的相似氨基酸。术语“序列同一性百分比”或“序列相似性百分比”是通过如下方式计算的：在比较窗口上比较两条最佳比对的序列，确定两条多肽序列中存在相同的残基(或相似的残基)的位置数目以得出匹配的位置数目，用匹配的位置数目除以比较窗口中的位置的总数目(即，窗口大小)，并且将结果乘以100得出序列同一性百分比(或序列相似性百分比)。关于多核苷酸序列，术语序列同一性和序列相似性具有对于蛋白质序列所述的类似的含义，其中术语“序列同一性的百分比”指示在比较窗口上两条多核苷酸序列是相同的(在逐个核苷酸的基础上)。这样，还可以计算多核苷酸序列同一性的百分比(或基于分析算法，多核苷酸序列相似性的百分比，例如，对于沉默取代或其他取代来说)。最大对应可通过使用本文所述的序列算法之一(或本领域普通技术人员可用的其他算法)或通过视觉检查来确定。

当应用于多肽时，术语基本的同一性或基本的相似性表示当诸如通过使用缺省空位权重(defaultgapweight)的程序BLAST、GAP或BESTFIT或通过视觉检查进行最优比对时，两条肽序列享有序列同一性或序列相似性。类似地，在应用于两条核酸的上下文时，术语基本的同一性或基本的相似性表示当诸如通过使用缺省空位权重的程序BLAST、GAP或BESTFIT(如本文其他地方描述的)或通过视觉检查进行最优比对时，两条核酸序列享有序列同一性或序列相似性。

适于确定序列同一性百分比或序列相似性百分比的算法的一个实例是FASTA算法，它描述于Pearson,W.R.&Lipman,D.J.,(1988)Proc.Natl.Acad.Sci.USA85:2444中。还参见W.R.Pearson,(1996)MethodsEnzymology266:227-258。在计算同一性百分比或相似性百分比的DNA序列的FASTA比对中使用的优选的参数被优化，BL50Matrix15：-5，k-tuple＝2；连接罚分(joiningpenalty)＝40，最优＝28；空位罚分-12，空位长度罚分＝-2；以及宽度＝16。

有用的算法的另一个实例是PILEUP。PILEUP利用渐进的逐对比对从一组相关序列中创建多序列比对来显示关系和序列同一性百分比或序列相似性百分比。它还绘制树或系统树图，显示用于创建比对的聚类关系。PILEUP利用Feng&Doolittle,(1987)J.Mol.Evol.35:351-360的渐进比对方法的简化形式。所用的方法与Higgins&Sharp,CABIOS5:151-153,1989所述的方法类似。该程序可比对高达300条序列，各具有5,000个核苷酸或氨基酸的最大长度。多重比对步骤开始于两条最相似序列的逐对比对，产生两条比对序列的簇。然后这种簇与下一个最相关的序列或比对序列的簇进行比对。通过两个个体序列的逐对比对的简单延伸对序列的两个簇进行比对。通过一系列渐进的逐对比对实现最终的比对。通过指定具体的序列及其序列比对区域的氨基酸或核苷酸坐标和通过指定程序参数来运行该程序。使用PILEUP，利用以下参数将参考序列与其他测试序列进行比较来确定序列同一性百分比(或序列相似性百分比)关系：缺省空位权重(3.00)、缺省空位长度权重(0.10)以及权重端空位(weightedendgap)。PILEUP可以从GCG序列分析软件包例如7.0版本获得(Devereaux等人,(1984)Nuc.AcidsRes.12:387-395)。

适于多重DNA和氨基酸序列比对的算法的另一个实例是CLUSTALW程序(Thompson,J.D.等人,(1994)Nuc.AcidsRes.22:4673-4680)。CLUSTALW在序列组之间进行多重逐对比较并且基于序列同一性将它们装配成多重比对。空位开放罚分(Gapopenpenalty)和空位扩展罚分(Gapextensionpenalty)分别是10和0.05。对于氨基酸比对来说，BLOSUM算法可用作蛋白权重矩阵(proteinweightmatrix)(Henikoff和Henikoff,(1992)Proc.Natl.Acad.Sci.USA89:10915-10919)。

“功能的”是指如下的多肽，其具有其天然产生的蛋白形式的天然生物活性，或任何特定的期望的活性，例如，如通过其结合到配体分子或进行酶促反应的能力来判断。

本公开内容描述了基于纤维二糖水解酶家族和更具体地纤维二糖水解酶I酶的具体成员(例如，嗜热毛壳菌是亲本“1”(SEQIDNO:2)，嗜热子囊菌是亲本“2”(SEQIDNO:4)，红褐肉座菌是亲本“3”(SEQIDNO:6)，嗜热支顶孢是亲本“4”(SEQIDNO:8)且埃默森篮状菌是亲本“5”SEQIDNO:10))产生纤维二糖水解酶的定向SCHEMA重组文库。SCHEMA是用于预测哪些相关蛋白的片段可被重组而不影响蛋白的结构完整性的基于计算的方法(参见，例如，Meyer等人,(2003)ProteinSci.,12:1686-1693)。这种计算方法鉴定了CBHI亲本蛋白中的七个重组点，从而容许形成CBHI嵌合多肽的文库，其中每个多肽包含例如从二至八个区段。通过利用序列稳定性数据的线性回归或通过依赖折叠蛋白与未折叠蛋白的MSA的共有序列分析而确定每个区段对总的稳定性的加性贡献，可鉴定具有较高稳定性的嵌合体。SCHEMA重组确保嵌合体通过保留重要的功能残基同时交换耐受残基而保持生物功能并显示高的序列多样性。

因而，如通过本文的各种实施方案所显示的，本公开内容提供了包含亲本结构域的嵌合体的CBHI多肽。在一些实施方案中，多肽包含从N端到C端具有不同亲本CBHII蛋白的多个结构域的嵌合体：(区段1)-(区段2)-(区段3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8)；

其中区段1包含SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁；区段2包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₁到大约x₂至少50-100％相同的序列；区段3包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₂到大约x₃至少50-100％相同的序列；区段4包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₃到大约x₄至少50-100％相同的序列；区段5包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₄到大约x₅至少50-100％相同的序列；区段6包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₅到大约x₆至少50-100％相同的序列；区段7包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₆到大约x₇至少50-100％相同的序列；及区段8包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₇到大约x₈至少50-100％相同的序列；

其中x₁是SEQIDNO:2、4、6或8的残基47、48、49、50、51或52，或是SEQIDNO:10的残基48、49、50、51、52或53；x₂是SEQIDNO:2或10的残基92、93、94、95、96或97，或是SEQIDNO:4、6或8的残基91、92、93、94、95或96；x₃是SEQIDNO:2的残基127、128、129、130、131或132，或是SEQIDNO:4或6的残基125、126、127、128、129或130，或是SEQIDNO:8的残基126、127、128、129、130或131，或是SEQIDNO:10的残基123、124、125、126、127或128；x₄是SEQIDNO:2的残基175、176、177、178、180或181，或是SEQIDNO:4或SEQIDNO:6的残基173、174、175、176、177或178，或是SEQIDNO:8的残基174、175、176、177、178或179，或是SEQIDNO:10的残基171、172、173、174、175或176；x₅是SEQIDNO:2的残基221、222、223、224、225或226，或是SEQIDNO:4或SEQIDNO:6的残基219、220、221、222、223或224，或是SEQIDNO:8的残基220、221、222、223、224或225，或是SEQIDNO:10的残基217、218、219、220、221或222；x₆是SEQIDNO:2的残基268、269、270、271、272或273，或是SEQIDNO:4或SEQIDNO:6的残基266、267、268、269、270或271，或是SEQIDNO:8的残基267、268、269、270、271或272，或是SEQIDNO:10的残基264、265、266、267、268或269；x₇是SEQIDNO:2的残基384、385、386、387、388或389，或是SEQIDNO:4的残基385、386、387、388、389或390，或是SEQIDNO:6的残基378、379、380、381、382或383，或是SEQIDNO:8或10的残基383、384、385、386、387或388；并且x₈是对应于SEQIDNO:2的残基454、SEQIDNO:4的残基457、SEQIDNO:6的残基458、SEQIDNO:8的残基453、SEQIDNO:10的残基455、或者具有序列SEQIDNO:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8或SEQIDNO:10的多肽的C端的氨基酸残基。

使用前述结构域参考，产生如表1所列出的大量嵌合结构。

表1.二硫键配对的CBHI嵌合体以及基础单体的总酵母分泌MUL活性和T₅₀值。T₅₀值误差棒代表2个重复测量的极值，MUL活性值为单一培养物的单一测量，300μΜMUL，在45℃下孵育30分钟。NS表示对于T₅₀测量不充足的分泌。

参考上表，每个数字指嵌合的CBHI多肽的结构域/区段。该数字表示结构域/区段的亲本链。例如，具有序列12111131的嵌合的CBHI多肽表明该多肽从N端到C端包含序列：SEQIDNO:2(“1”)的从大约1到x₁的氨基酸，连接于SEQIDNO:4(“2”)的从大约x₁到x₂的氨基酸，连接于SEQIDNO:2的从大约x₂到x₃的氨基酸，连接于SEQIDNO:2的大约x3到大约x4的氨基酸，连接于SEQIDNO:2的从大约x₄到大约x₅的氨基酸，连接于SEQIDNO:2的从大约x₅到大约x₆的氨基酸，连接于SEQIDNO:6(“3”)的从大约x₆到x₇的氨基酸，连接于SEQIDNO:2的从大约x₇到x₈(例如，C端)的氨基酸。

表2.B7P5嵌合体和相应的B7P*5取代的嵌合体的总酵母分泌MUL活性(molMUL/(L·s))×10⁵和T₅₀值。T₅₀值误差棒代表2个重复测量的极值，MUL活性值为单一培养物的单一测量，300μΜMUL，在45℃下孵育30分钟。

在一些实施方案中，多肽具有相比于SEQIDNO:2、4、6、8或10的野生型多肽的改善的热稳定性。多肽的活性可以用如实施例中所述的任何一种底物或底物的组合来测量。如对技术人员明显的是，可测试和使用由实施例中讨论的化合物所示例的化合物类别中的其他化合物。

在一些实施方案中，多肽可具有相对于参考序列的氨基酸序列的多种改变。这些改变可以是一个或更多个氨基酸的取代、缺失或添加。在改变为取代的情况下，改变可以是保守的取代或非保守的取代。因此，嵌合体可包含保守的取代和非保守的取代的组合。

因此，在一些实施方案中，多肽可从N端到C端包含一般结构：(区段1)-(区段2)-(区段3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8)，

其中区段1包括SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁并具有1-10个保守氨基酸取代；区段2是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₁到大约x₂并具有大约1-10个保守氨基酸取代；区段3是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₂到大约x₃并具有大约1-10个保守氨基酸取代；区段4是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₃到大约x₄并具有大约1-10个保守氨基酸取代；区段5是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₄到大约x₅并具有大约1-10个保守氨基酸取代；区段6是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₅到大约x₆并具有大约1-10个保守氨基酸取代；区段7是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₆到大约x₇并具有大约1-10个保守氨基酸取代；并且区段8是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₇到大约x₈并具有大约1-10个保守氨基酸取代。

其中x₁是SEQIDNO:2、4、6或8的残基47、48、49、50、51或52，或是SEQIDNO:10的残基48、49、50、51、52或53；x₂是SEQIDNO:2或10的残基92、93、94、95、96或97，或是SEQIDNO:4、6或8的残基91、92、93、94、95或96；x₃是SEQIDNO:2的残基127、128、129、130、131或132，或是SEQIDNO:4或6的残基125、126、127、128、129或130，或是SEQIDNO:8的残基126、127、128、129、130或131，或是SEQIDNO:10的残基123、124、125、126、127或128；x₄是SEQIDNO:2的残基175、176、177、178、180或181，或是SEQIDNO:4或SEQIDNO:6的残基173、174、175、176、177或178，或是SEQIDNO:8的残基174、175、176、177、178或179，或是SEQIDNO:10的残基171、172、173、174、175或176；x₅是SEQIDNO:2的残基221、222、223、224、225或226，或是SEQIDNO:4或SEQIDNO:6的残基219、220、221、222、223或224，或是SEQIDNO:8的残基220、221、222、223、224或225，或是SEQIDNO:10的残基217、218、219、220、221或222；x₆是SEQIDNO:2的残基268、269、270、271、272或273，或是SEQIDNO:4或SEQIDNO:6的残基266、267、268、269、270或271，或是SEQIDNO:8的残基267、268、269、270、271或272，或是SEQIDNO:10的残基264、265、266、267、268或269；x₇是SEQIDNO:2的残基384、385、386、387、388或389，或是SEQIDNO:4的残基385、386、387、388、389或390，或是SEQIDNO:6的残基378、379、380、381、382或383，或是SEQIDNO:8或10的残基383、384、385、386、387或388；并且x₈是对应于SEQIDNO:2的残基454、SEQIDNO:4的残基457、SEQIDNO:6的残基458、SEQIDNO:8的残基453、SEQIDNO:10的残基455、或者具有序列SEQIDNO:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8或SEQIDNO:10的多肽的C端的氨基酸残基，其中嵌合多肽具有纤维二糖水解酶活性和与包含SEQIDNO:2、4、6、8或10的CBHI多肽相比改善的热稳定性和/或pH稳定性。

在一些实施方案中，取代的数目可以是2、3、4、5、6、8、9或10个或更多个氨基酸取代(例如，10-20、21-30、31-40个等氨基酸取代)。

在一些实施方案中，功能性嵌合多肽可具有诸如对于实施例中讨论的确定的底物而言的纤维二糖水解酶活性连同增加的热稳定性，并且还具有对参考纤维二糖水解酶或其区段的氨基酸序列同一性水平。参考酶或区段可以是野生型的(例如，天然存在的)或工程化酶的酶或区段。

在一些实施方案中，嵌合多肽的每个区段可具有与SEQIDNO:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8或SEQIDNO:10的(区段1)、(区段2)、(区段3)、(区段4)-(区段5)、(区段6)、(区段7)和(区段8)中的每一个所示的参考区段相比至少60％、70％、80％、90％、95％、96％、97％、98％或99％或更多的序列同一性。

在一些实施方案中，多肽变体可具有相比于SEQIDNO:2、4、6、8或10的野生型多肽的酶活性的改善的热稳定性。

本文所述的嵌合酶可以多种形式制备，诸如裂解物、粗提取物或分离的制品。多肽可溶解于适合的溶液中；配制成粉末，如丙酮粉末(有或没有稳定剂)；或制备成冻干物。在一些实施方案中，多肽可以是分离的多肽。

在一些实施方案中，多肽可以处于阵列形式。酶可以处于可溶形式，例如为微量滴定板孔中的溶液，或被固定到基质上。基质可以是固体基质或多孔基质(例如，膜)，它们可以由有机聚合物及其共聚物和接枝物构成，所述有机聚合物诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚乙烯氧(polyethyleneoxy)和聚丙烯酰胺。固体支持体还可以是无机的，诸如玻璃、二氧化硅、可控孔径玻璃(CPG)、反相二氧化硅或金属，诸如金或铂。基质的构型可处于珠、球、粒子、颗粒、凝胶、膜或表面的形式。表面可以是平的，大体上平的或不平的。固体支持体可以是多孔的或是无孔的，并且可具有膨胀或非膨胀特点。固体支持体的构型可以是孔、凹陷或其他容器、器皿、器件(feature)或位置的形式。多种支持体可构造在阵列上对于试剂的自动递送或通过检测方法和/或仪器可寻址的不同位置。

本公开内容还提供了编码本文公开的工程化CBHI多肽的多核苷酸。可以将所述多核苷酸可操作地连接至控制基因表达的一种或多种异源调节序列或控制序列以产生能够表达该多肽的重组多核苷酸。可以将包含编码CBHI嵌合体的异源多核苷酸的表达构建体引入适当的宿主细胞来表达多肽。

鉴于对CBHII嵌合体酶(例如，嵌合的CBHII的区段结构)的具体序列的了解，由工程化CBHII嵌合体酶的氨基酸序列并参照本文所描述的多肽序列和核酸序列，多核苷酸序列将对本领域技术人员是明显的。对应于各种氨基酸的密码子的了解连同多肽的氨基酸序列的了解，容许本领域技术人员制备编码本公开内容的多肽的不同的多核苷酸。因此，本公开内容考虑了可通过选择基于可能的密码子选择的组合而制备的多核苷酸的每一种可能的变化，并且应认为所有这些变化对于本文描述的任何多肽而言被具体地公开。

在一些实施方案中，多核苷酸编码本文所述的多肽，但在核苷酸水平与编码CBHI嵌合多肽的参考多核苷酸具有大约80％或更多的序列同一性、大约85％或更多的序列同一性、大约90％或更多的序列同一性、大约91％或更多的序列同一性、大约92％或更多的序列同一性、大约93％或更多的序列同一性、大约94％或更多的序列同一性、大约95％或更多的序列同一性、大约96％或更多的序列同一性、大约97％或更多的序列同一性、大约98％或更多的序列同一性，或大约99％或更多的序列同一性。

在一些实施方案中，可以用多种方式操作编码多肽的分离的多核苷酸以提供多肽的表达。取决于表达载体，在插入载体之前操作分离的多核苷酸可能是令人期望的或必要的。利用重组DNA方法修饰多核苷酸和核酸序列的技术是本领域公知的。指导提供于：Sambrook等人,2001,MolecularCloning:ALaboratoryManual,第3版,ColdSpringHarborLaboratoryPress；以及CurrentProtocolsinMolecularBiology,Ausubel.F.编,GreenePub.Associates,1998,更新至2007。

在一些实施方案中，将多核苷酸可操作地连接于控制序列以用于表达多核苷酸和/或多肽。在一些实施方案中，控制序列可以是从编码细胞外多肽或细胞内多肽的基因获得的与宿主细胞同源或异源的适当的启动子序列。对于细菌宿主细胞来说，用于指导本公开内容的核酸构建体转录的适合的启动子包括从大肠杆菌(E.coli)lac操纵子、枯草芽孢杆菌(Bacillussubtilis)xylA和xylB基因、巨大芽孢杆菌(Bacillusmegatarium)木糖利用基因(例如，Rygus等人,(1991)Appl.Microbiol.Biotechnol.35:594-599；Meinhardt等人,(1989)Appl.Microbiol.Biotechnol.30:343-350)、原核β-内酰胺酶基因(Villa-Kamaroff等人,(1978)Proc.NatlAcad.Sci.USA75:3727-3731)获得的启动子以及tac启动子(DeBoer等人,(1983)Proc.NatlAcad.Sci.USA80:21-25)。各种适合的启动子描述于ScientificAmerican,1980,242:74-94中的“Usefulproteinsfromrecombinantbacteria”；以及Sambrook等人，同上。

在一些实施方案中，控制序列还可以是适合的转录终止子序列，即由宿主细胞识别以终止转录的序列。终止子序列被可操作地连接于编码多肽的核酸序列的3'端。可以使用在选择的宿主细胞中有功能的任何终止子。

在一些实施方案中，控制序列也可以是适宜的前导序列，所述前导序列是对宿主细胞翻译重要的mRNA的非翻译区。前导序列被可操作地连接于编码多肽的核酸序列的5'端。可以使用在选择的宿主细胞中有功能的任何前导序列。

在一些实施方案中，控制序列也可以是编码与多肽的氨基端连接的氨基酸序列并引导编码的多肽进入细胞分泌途径的信号肽编码区。核酸序列的编码序列的5'端可以固有地包含在翻译阅读框中与编码分泌的多肽的编码区区段天然连接的信号肽编码区。例如，SEQIDNO:2、4、6、8和10各自具有信号肽序列(例如，从氨基酸1到氨基酸17(即，在SEQIDNO:4、6和8的氨基酸17之后裂解)或到氨基酸18(即，在SEQIDNO:l和10的氨基酸18之后裂解))。本公开内容的成熟多肽，成熟嵌合多肽将缺少信号肽结构域(例如，SEQIDNO:2、4、6、8或10的前1-18个氨基酸)。可选地，编码序列的5'端可以包含对编码序列而言为外来的信号肽编码区。在编码序列不天然包含信号肽编码区时可能需要外来的信号肽编码区。对细菌宿主细胞有效的信号肽编码区可以是从芽孢杆菌NClB11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌(Bacillusstearothermophilus)α-淀粉酶、地衣芽孢杆菌(Bacilluslicheniformis)枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprT、nprS、nprM)和枯草芽孢杆菌prsA的基因中获得的信号肽编码区。Simonen和Palva,(1993)MicrobiolRev57:109-137描述了其他的信号肽。

此外，本公开内容的嵌合体的C端末端可包括糖结合模块(CBM)。CBM可以与嵌合体的C端结构域邻近或者可通过接头连接。此外，CBM可以与本公开内容的嵌合体的最终结构域是异源的。

本公开内容还涉及重组表达载体，所述重组表达载体包含编码工程化的CBHI嵌合多肽的多核苷酸以及一个或多个表达调节区，诸如启动子和终止子、复制起点等等，这取决于待引入表达调节区的宿主的类型。在表达载体的创建中，编码序列位于载体中以使得该编码序列与适当的表达控制序列可操作地连接。

重组表达载体可以是能够方便进行重组DNA程序并且能够导致多核苷酸序列表达的任何载体(例如，质粒或病毒)。载体的选择将通常取决于载体与要引入该载体的宿主细胞的相容性。载体可以是线性质粒或闭合环状质粒。

表达载体可以是自主复制的载体，即作为染色体外的实体存在、其复制独立于染色体复制的载体，例如质粒、染色体外的元件、微型染色体或人工染色体。载体可以包含用于确保自我复制的任何元件。可选地，载体可以是在引入宿主细胞时被整合到基因组并与它所整合的染色体一起复制的载体。此外，可以使用单种载体或质粒，或一起包含要引入到宿主细胞基因组中的总DNA的两种或多种载体或质粒，或转座子。

在一些实施方案中，本公开内容的表达载体包含容许容易地选择转化细胞的一种或多种选择性标记。选择性标记是一种基因，其产物提供了杀生物剂抗性或病毒抗性、对重金属的耐受性、针对营养缺陷型的原养型等。细菌的选择性标记的实例是来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因，或是赋予抗生素抗性诸如氨比西林、卡那霉素、氯霉素或四环素抗性的标记。其他有用的标记对本领域技术人员是明显的。

在另一个实施方案中，本公开内容提供了包括编码CBHI嵌合多肽的多核苷酸的宿主细胞，该多核苷酸与一个或多个控制多肽在宿主细胞中表达的序列可操作地连接。在由本公开内容的表达载体所编码的多肽的表达中使用的宿主细胞是本领域公知的并且包括但不限于：细菌细胞，诸如大肠杆菌和巨大芽孢杆菌；真核细胞，诸如酵母细胞、CHO细胞等等；昆虫细胞诸如果蝇S2细胞和草地贪夜蛾(Spodoptera)Sf9细胞；动物细胞诸如CHO、COS、BHK、293和Bowes黑色素瘤细胞；以及植物细胞。其他适合的宿主细胞对本领域技术人员是明显的。用于上述宿主细胞的适当培养基和生长条件是本领域公知的。

本公开内容的CBHI嵌合多肽可通过使用本文所描述的方法制备。多核苷酸可通过重组技术来合成，所述重组技术诸如以下中描述的重组技术：Sambrook等人,2001,MolecularCloning:ALaboratoryManual,第3版,ColdSpringHarborLaboratoryPress；以及CurrentProtocolsinMolecularBiology,Ausubel.F.编,GreenePub.Associates,1998,更新至2007。编码酶的多核苷酸或用于扩增的引物还可以根据已知的合成方法通过标准固相方法来制备，例如，使用由Beaucage等人,(1981)TetLett22:1859-69所述的亚磷酰胺方法或由Matthes等人,(1984)EMBOJ.3:801-05所述的方法，例如，按照其通常在自动化合成方法中操作的那样。另外，基本上任何核酸都可以获自各种商业来源中的任何一个，诸如TheMidlandCertifiedReagentCompany,Midland,TX，TheGreatAmericanGeneCompany,Ramona,CA，ExpressGenInc.Chicago,IL，OperonTechnologiesInc.,Alameda,CA以及许多其他来源。

在宿主细胞中表达的工程化酶可以使用任何一种或多种公知的蛋白质纯化技术从这些细胞中和或培养基中回收，所述公知的蛋白质纯化技术除了其他以外包括溶菌酶处理、超声处理、过滤、盐析、超离心、色谱和亲和分离(例如，基质结合的抗体)。用于裂解以及从细菌诸如大肠杆菌中高效提取蛋白的适宜的溶液是以St.LouisMO的Sigma-Aldrich的商品名CelLyticB^TM可商购的。

用于分离多肽的色谱技术除了其他以外包括反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件将部分地取决于如下因素：诸如净电荷、疏水性、亲水性、分子量、分子形状等等，并且将对本领域技术人员是明显的。

SCHEMA定向重组的描述和嵌合多肽的合成描述于本文的实施例中，以及描述于Otey等人,(2006),PLoSBiol.4(5):e112；Meyer等人,(2003)ProteinSci.,12:1686-1693；2008年2月1日提交的美国专利申请第12/024,515号；以及2008年2月7日提交的美国专利申请第12/027,885号中；通过引用将这些参考文献整体并入本文。

如以上所讨论的，可在多种应用中使用多肽，除了其他以外，诸如：生物燃料的产生、纤维素分解等等。

例如，在一个实施方案中，提供了用于处理纤维素的方法。该方法包括培养如本文所提供的表达本公开内容的嵌合多肽的重组微生物，所述培养在合适的纤维素底物的存在下且在适于嵌合多肽催化纤维素的条件下进行。

在又一实施方案中，在允许嵌合多肽降解纤维素的条件下将本公开内容的基本上纯化的嵌合多肽与纤维素底物接触。在一个实施方案中，条件包括从约35至65℃的温度。

如先前所讨论的，描述本文中有用的分子生物学技术，包括载体、启动子及其它相关的主题的使用的一般教科书，包括Berger和Kimmel,GuidetoMolecularCloningTechniques,MethodsinEnzymology第152卷，(AcademicPress,Inc.,SanDiego,Calif.；Sambrook等人,MolecularCloning--ALaboratoryManual,第2版,第1-3卷,ColdSpringHarborLaboratory,ColdSpringHarbor,N.Y.,1989；及CurrentProtocolsinMolecularBiology,F.M.Ausubel等人编,CurrentProtocols,ajointventurebetweenGreenePublishingAssociates,Inc.及JohnWiley&Sons,Inc.,(1999增刊)。足以指导技术人员通过体外扩增方法的方案的实例包括聚合酶链式反应(PCR)、连接酶链式反应(LCR)、Q-复制酶扩增及其他RNA聚合酶介导的技术(例如，NASBA)，例如，本公开内容的同源核酸的生产发现于Berger、Sambrook,和Ausubel以及Mullis等人(1987)美国专利第4,683,202号；Innis等人编(1990)PCRProtocols:AGuidetoMethodsandApplications(AcademicPressInc.SanDiego,Calif.)("Innis")；Arnheim&Levinson(Oct.1,1990)C&EN36-47；TheJournalOfN1HResearch(1991)3:81-94；Kwoh等人(1989)Proc.Natl.Acad.Sci.USA86:1173；Guatelli等人(1990)Proc.Nat'1.Acad.Sci.USA87:1874；Lomell等人(1989)J.Clin.Chem35:1826；Landegren等人(1988)Science241:1077-1080；VanBrunt(1990)Biotechnology8:291-294；Wu和Wallace(1989)Gene4:560；Barringer等人(1990)Gene89:117；以及Sooknanan和Malek(1995)Biotechnology13:563-564中。Wallace等人美国专利第5,426,039号中描述了体外克隆扩增核酸的改进的方法。Cheng等人(1994)Nature369:684-685及其中引用的参考文献中概述了通过PCR来扩增大核酸的改进的方法，其中产生多达40kb的PCR扩增子。技术人员将理解，基本上任何RNA可利用逆转录酶和聚合酶转化成适于限制消化、PCR扩增及测序的双链DNA。参见，例如，Ausubel、Sambrook和Berger，全部同上。

适当的培养条件包括，例如，培养基pH、离子强度、营养含量等；温度；氧/CO₂/氮含量；湿度；及允许宿主微生物产生化合物(即通过微生物的代谢作用)的其他培养条件。可作为宿主细胞的微生物的适当的培养条件是公知的。

以下实施例旨在进一步解释但不限制前述公开内容或所附权利要求。实施例

将编码CBHI酶的亲本基因和嵌合基因克隆到酵母表达载体YEp352/PGK91-1-αss中并转化进入表达菌株YDR483W。亲本CBHI基因以天然的密码子选择为特征并且通过DNA2.0(MenloPark,CA)来合成。使5mL合成的葡萄糖酪蛋白氨基酸(SDCAA)培养基起始培养物在30℃且225rpm的摇动下生长过夜，扩展到40mL的酵母蛋白胨葡萄糖(YPD)培养基中并孵育48小时。培养上清液加进1mM苯甲基磺酰氟(PMSF)和0.02％NaN3。

通过以下来确定针对可溶性底物4-甲基伞形酮基吡喃乳糖苷(4-methylumbelliferyllactopyranoside)(MUL)的总酵母分泌CBHI活性：将125μL的培养上清液加到溶解于750mM醋酸钠、pH4.8中的25μL的1.8mMMUL(Sigma)，在45℃下孵育30分钟并用150μL1MNa₂CO₃猝灭。通过使用酶标仪测量具有365nm激发和445nm发射的样品荧光并将值与由4-甲基伞形酮(Sigma)制备的标准曲线比较来确定MUL水解速率。

T₅₀值被定义为如下温度：在该温度下在不存在底物下孵育10分钟使得与MUL底物反应后测得的活性相对于未经孵育的100％活性参考样品损失一半。对于T₅₀测定，利用来自阴性对照YPD酵母培养物的不含分泌纤维素酶的上清液稀释培养上清液以使未经热变性孵育的样品获得1.6*10^-5mol/L/s的近似相等的MUL水解速率。将这些稀释的样品调节至1mMDTT和125mM醋酸钠，pH4.8。在水浴中在跨越包括T₅₀值的温度范围内孵育125μL的等份10分钟。利用两个不同的酒精温度计测量水浴温度并观察到波动在0.1℃之内。冷却后，将在50mM醋酸钠、pH4.8中的25μL的1.8mMMUL加入被孵育样品和未加热样品中，并在45℃的水浴中孵育这些样品90分钟。如上确定MUL水解，并利用MicrosoftExcel通过数据的线性内插法来计算T₅₀值。表3中提供了代表性T₅₀数据集。

表3：亲本1(嗜热毛壳菌)单体到亲本5(埃默森篮状菌)单体的代表性T₅₀数据。每个温度点的小数值代表在给定温度下预孵育10分钟之后相对于未预孵育所保留的单体活性。给出了连续两天进行的实验的数据。利用MicrosoftExcel获得T₅₀拟合值。图3中显示了亲本1单体的T₅₀值。基于两个以下重复和六个额外的T₅₀测量的平均数计算埃默森篮状菌(亲本5)给出的T₅₀值。55555515单体分泌太低以致不容许T₅₀测量。

为了确定针对固体纤维素的总酵母分泌CBHI活性，在4℃下在以1000rpm摇动的热区块中，在50mM醋酸钠，pH4.8中用500μL的120mg/mLLatticeNT微晶纤维素(FMC)孵育500μL的酵母培养上清液1小时。将样品以3000rcf离心3分钟并用1mL的含有1mg/mLBSA的冰冷的50mM醋酸钠、pH4.8洗涤。将具有结合CBHI的固体纤维素再悬浮到1mL的相同的缓冲液中，在37℃下摇动地孵育90分钟，并通过Nelson-Somogyi测定法确定反应上清液中还原糖的量。

进行Ni²⁺亲和分离的CBHI样品的制备，蛋白浓度测量和SDS-PAGE分析。Ni²⁺分离后的CBHI收率估计范围从弱分泌的嗜热子囊菌亲本CBHI的500μg/L培养物至埃默森篮状菌亲本CBHI和最高分泌的CBHI嵌合体的5mg/L和10mg/L之间。通过假设亲和分离的CBHI样品中的所有蛋白是完全活性的CBHI并且向含有60mg/mLLatticeNT纤维素的270μL的50mM醋酸钠，pH4.8中加入4μg而获得CBHI固体纤维素的温度活性曲线。在感兴趣的温度下在水浴中孵育16小时之后，通过Nelson-Somogyi测定法确定上清液还原糖。

为了埃默森篮状菌CBHI圆二色性和半衰期t_1/2热稳定性比较试验，将金属亲和分离的CBHI样品处理为100％完全活性的CBHI，并利用酶、底物和缓冲液的条件(参见，例如，Voutilainen等人，ProteinEngDesSel.23:69-79,2010)。其中通过加入培养上清液而供应CBHI的半衰期测定样品接收含有MUL-水解CBHI活性的上清液，所述MUL-水解CBHI活性近似等于加入用亲和分离的CBHI进行的测定的MUL-水解CBHI活性。以100μg/mL的CBHI浓度按照制造商的说明书利用PNGaseF(NewEnglandBiolabs)进行CBHI去糖基化。除了起始培养物在扩展到YPD中之前在尿嘧啶合成缺陷型培养基(syntheticdropout–Uracilmedia)中生长过夜以外，如上进行超糖基化酵母菌珠的CBHI分泌培养。

亲本真菌CBHI酶。来自丝状真菌嗜热毛壳菌(Chaetomiumthermophilum)(亲本1(P1))、嗜热子囊菌(Thermoascusaurantiacus)(P2)、红褐肉座菌(Hypocreajecorina)(P3)和嗜热支顶孢(Acremoniumthermophilum)(P4)的五种CBHI重组亲本中的四种是基于它们已由流行工业纤维素酶分泌宿主里氏木霉(Trichodermareesei)(有性型红褐肉座菌)过度表达而选择的，这对工业应用是重要的。来自嗜热真菌埃默森篮状菌的第五种CBHI(P5)凭借其报道的高的热稳定性而被包括。为了消除重组后产生不配对的Cys残基的可能性，将埃默森篮状菌CBHI和嗜热子囊菌CBHI中的残基G4和A72变为Cys(参见SEQIDNO:12和15)，以便每个亲本CBHI催化结构域含有10个二硫键。五种亲本催化结构域的序列比对显示于图7中，并且催化结构域的逐对序列同一性如下：

序列(11:12)比对得分：69

序列(11:13)比对得分：61

序列(11:14)比对得分：71

序列(11:15)比对得分：64

序列(12:13)比对得分：66

序列(12:14)比对得分：73

序列(12:15)比对得分：81

序列(13:14)比对得分：63

序列(13:15)比对得分：66

序列(14:15)比对得分：70

不含有糖结合模块(CBM)的埃默森篮状菌CBHI和嗜热子囊菌CBHI附加有C端接头和来自红褐肉座菌CBHI的CBM，模拟先前用于嗜热子囊菌CBHI的异源表达的构建。嗜热毛壳菌、红褐肉座菌和嗜热支顶孢亲本基因以其各自的野生型接头和CBM为特征。所有CBHI亲本的序列提供于SEQIDNO:11-15中。

如图8中所示，埃默森篮状菌CBHI在SDS-PAGE凝胶中显示出比其它4种亲本高得多的表达。埃默森篮状菌酵母分泌的培养上清液还含有为来自嗜热毛壳菌的第二最高表达的亲本的上清液的三倍高的针对荧光的可溶性CBHI底物4-甲基伞形酮基吡喃乳糖苷(MUL)的活性[(2.3+/-0.3)×10^-4mol/L/s]。10分钟T₅₀值形式的精确的CBHI热稳定性测量需要≥1.6*10^-5mol/L/s的总MUL水解速率。红褐肉座菌(P3)亲本与嗜热支顶孢(P4)亲本均未达到该阈值。上清液活性值在该水平以下的CBHI被分类为‘不分泌的’。埃默森篮状菌亲本具有大于嗜热毛壳菌亲本(59.9+/-0.3℃)和嗜热子囊菌亲本(62.2+/-0.4℃)的T₅₀(62.9+/-0.3℃)。埃默森篮状菌CBHI的相对高的稳定性和分泌启发了将其选择作为用于筛选其它酶中的序列区块的背景。

SCHEMA嵌合体家族设计。埃默森篮状菌CBHI的晶体结构(pdb1Q9H)被用于制备由SCHEMA使用的接触图以评价重组后的破坏(disruption)，其是用于选择使文库平均破坏<E>最小化的区块边界的RASPP所需要的。因为CBHI接头与CBM的晶体结构均不可获得，所以SCHEMA重组仅被应用于CBHI催化结构域。因此，CBHI嵌合体在区块8处含有相应于代表的亲本的接头和CBM。由RASPP算法返回的5-亲本、8区块家族设计的分析指引我们选择描绘于图1中的区块边界。该家族中的5⁸＝390,625个嵌合体具有<E>＝20.3和<m>＝66.0，提供了高数目的突变和低数目的破坏接触之间期望的平衡。

用于稳定性分析的样品嵌合体。真菌CBHI从酿酒酵母(S.cerevisiae)中的分泌较差。为了使提供有用数据的样品集嵌合体的比例最大化，实施区块筛选策略，其中来自4个亲本的32个区块每次一个地被取代进入以相对高水平分泌的CBHI的背景(亲本5)。32-成员CBHI“单体”样品集具有<E>＝5.9和<m>＝15.6。这些显著低于家族中390,625个序列的平均值，且因此被预期为具有保留折叠和纤维素酶功能的高可能性。

通过总基因合成来制备32个单体。如图2中所示，28个单体(88％)以功能形式从酿酒酵母中分泌。然而，没有分泌在区块7(最大的区块)处含有取代的单体。在区块4处的取代也对单体的分泌非常不利。另一方面，在区块2和区块5处有取代的一些单体比埃默森篮状菌背景亲本更加高度地分泌。虽然先前观察到在CBHII嵌合体的E和分泌之间的相反关系，但是E对CBHI单体分泌没有预测性(图9)。针对MUL的CBHI上清液活性作为CBHI分泌的代表是基于如下观察：Ni-NTA亲和分离的C端His₆标签化的CBHI亲本和嵌合体具有相似的针对MUL的比活性(图10)。

图3概述了区块稳定性贡献，并显示出4种区块取代导致具有增加的T₅₀值的CBHI嵌合体；稳定化区块B1P1、B3P1、B5P2和B8P2使T₅₀增加了～0.7℃至～1.6℃。虽然没有从不分泌的两个亲本(P3、P4)中获得稳定化区块，但是这些亲本提供了五个中性区块，B1P3、B2P3、B5P3、B1P4和B2P4。假设区块中性不依赖于嵌合体背景，这些区块可被用于在不降低热稳定性的情况下增加嵌合体的序列多样性。

CBHI中的10个二硫键中的5个涉及起源于不同的区块的Cys残基。例如，区块4的Cys135(亲本5编号；参见SEQIDNO:15)与区块8的Cys401形成二硫键，且区块7的Cys253与区块6的Cys227配对(图1)。检验了形成二硫键的Cys对的重组是否与由区块4和区块7的取代造成的对分泌和/或稳定性的有害作用有关的分析。这通过将来自亲本1和亲本2的4-8区块对和6-7区块对取代到亲本5中来进行测试。以这种方式保留二硫键，然而，这导致下降至含有相应的单个区块取代的单体之间的表达水平或完全没有分泌(表1)。在区块4和区块8处有取代的嵌合体的T₅₀值下降至相应的区块4单体和区块8单体的T₅₀值之间。这些结果表明，取自不同亲本的含有Cys残基的C135-C401和C227-C253二硫键相对于来自相同亲本的这些区块没有降低分泌或稳定性。

区块7取代的单体分泌的缺乏阻止了对此位置处区块的稳定性贡献分配。仅分泌其中B7P5被取代到其它四种亲本中的一种单体，当将区块7移动到亲本2(与亲本5具有最高的同一性(81％))中时，使表达增加了多于五倍并使亲本2的T₅₀增加了1.5℃。

热稳定的CBHI嵌合体设计和表征。然后设计出还以相对高的水平分泌的一组多样的热稳定的嵌合体。为了达到高稳定性，该组中的全部16个成员包括两个最稳定的区块，B3P1和B8P5。类似地，因为观察到B5P3和B5P5均具有显著的且相似的稳定化作用，所以全部设计的嵌合体均含有这两个区块中的一个。因为发现来自除埃默森篮状菌亲本5以外的亲本的区块4和区块7消除分泌或显著地降低分泌，所以全部16个设计的嵌合体以B4P5和B7P5为特征。最后，为了获得高序列多样性而不牺牲热稳定性和/或分泌水平，我们加入11个区块的集合，B1P1、B1P2、B1P3、B1P4、B1P5、B2P2、B2P3、B2P4、B2P5、B6P2和B6P5，这些区块被预期为对嵌合体稳定性和分泌水平是有利或中性的。

因此，嵌合体由40个可获得的CBHI区块中的17个组成并且相对于最接近的亲本(441个总残基)含有平均37个突变。它们彼此有平均21个突变差异并代表全部五个亲本CBHI。如图4中所示，实际上这些预测的稳定的CBHI嵌合体的全部16个均具有比最稳定的CBHI亲本(来自埃默森篮状菌)的T₅₀值显著更大的T₅₀值。16个热稳定的嵌合体中的8个具有超过埃默森篮状菌2度或更多度的T₅₀值，其中最热稳定的嵌合体55152552具有高出3.4℃的T₅₀。如图4中所示，除了一个以外的全部16个稳定的嵌合体以等于或大于来自嗜热毛壳菌的第二最高分泌的亲本的水平分泌；且8个嵌合体以等于或大于来自埃默森篮状菌的最高分泌的亲本的水平分泌。

因为对于亲本2(与亲本5最具同一性的亲本)来说，将B7P5取代进入4种其它亲本的背景的尝试是成功的，所以在五种热稳定的嵌合体的背景中将B7P5取代为B7P2。如表4中所示，在全部五种情况下，这种取代显著地降低分泌或消除分泌，并使分泌的嵌合体的T₅₀值下降平均2.3+/-0.8℃。

表4.B7P5和B72CBHI嵌合体的T₅₀值和总酵母分泌活性[(molMUL/(L·s))×10⁵]的比较。T₅₀值上的误差棒表示两个重复的极值。总酵母分泌活性是单一培养的单一测量。NS表示总分泌活性太低以致不容许T₅₀测量。

进行实验以确定位于区块7内的更小段氨基酸或子区块是否可以在嵌合CBHI中交换，以及这些区块是否可作出积极的热稳定性贡献。继续进行在两个最具同一性的序列亲本2和亲本5之间的这种交换序列的方式。选定B7P2内的6个子区块并在克隆便利性和分离B7P2和B7P5的32个突变的相对等同的分布的基础上选择。如图11所示，6个子区块特征为2个至7个突变。表5显示，6个子区块中的3个(C、D和E)被取代到亲本5中时增加分泌或不减少分泌。发现含有6个突变的子区块C使埃默森篮状菌CBHI的T₅₀增加大约1.0℃。

表5.子区块取代的埃默森篮状菌CBHI变体的T₅₀值和总分泌酵母活性。T₅₀值上的误差棒表示两个重复测量的极值。子区块总酵母分泌活性[(molMUL/(L·s))×10⁵]是单一培养的单一测量。埃默森篮状菌的T₅₀值和总分泌值为8个和3个相应重复的均值和标准偏差。NS表示对于T₅₀测量不充足的总活性。

子区块取代	T₅₀(℃)	分泌活性
			亲本5(埃默森篮状菌)	62.9+/-0.3	23.0+/-3.0
A	59.9+/-0.5	0.7
			B	62.6+/-0.2	8.3
C	63.9+/-0.0	46.0
			D	62.7+/-0.4	33.6
E	61.9+/-0.1	20.4
			F	62.1+/-0.1	7.5

如表2中所示，其中含有来自亲本2的子区块C的B7P5由在7位置处的“*5”表示，这一子区块改善了其中取代进入的全部五个嵌合体的热稳定性，且平均T₅₀增加1.5+/-0.4℃。此外，B7P*5嵌合体全部以比相应的B7P5嵌合体高的水平分泌。

利用热稳定的CBHI嵌合体的纤维素水解。还进行实验以确定T₅₀的增加是否相应于最大CBHI固体纤维素水解温度的增加，该T₅₀是在不存在底物下进行热变性之后测得的。为此目的，为3种分泌的CBHI亲本和5种热稳定的B7P*5嵌合体构建酵母分泌构建体，其中CBHI的N端附加有His₆标签以允许通过Ni-NTA亲和色谱从酵母培养基中的组分中纯化。如图12中所示，虽然在SDS-PAGE中CBHI条带出现在预期的分子量-60kDa处，但是在-20kDa处还存在未预料到的条带。虽然这些样品的同质性不足以容许CBHI比活性测量，但是将背景蛋白和糖类从培养基中除去允许有效地比较最大的固体纤维素的水解温度。

如图5中所示，较高的T₅₀值指示在高温下在16小时间隔期间内水解固体纤维素的较高的能力。而亲本酶中没有一个在65℃以上是有活性的，全部五种被测试的热稳定的嵌合体(所述嵌合体含有平均42个突变并且彼此具有平均16个突变差异)在70℃下均保留一定水解活性。然而，这五种被测试的热稳定的嵌合体在50℃下均具有比埃默森篮状菌亲本低30％至50％的比活性(假定加载到每个反应中的全部蛋白是活性的CBHI)。

Ni-NTA亲和分离的CBHI样品还可用于评价在45℃下测量的针对可溶的MUL底物的CBHI比活性在重组后是否保留。如图10所示，在亲和分离的CBHI样品是100％纯的假定的基础上，五种热稳定的His₆-标签化的嵌合体的估计的比活性在平均值2.8×10^-4molMUL/(LsμgCBHI)的4×10^-5molMUL/(LsμgCBHI)内。这些比活性落入对亲本1、2和5测量的各自的值(4.3+/-0.1)×10^-4molMUL/(LsμgCBHI)、(2.3+/-0.2)×10^-4molMUL/(LsμgCBHI)和(4.3+/-0.1)×10^-4molMUL/(LsμgCBHI)之间。因此，热稳定的嵌合体的稳定性没有以其针对可溶的MUL底物的比活性为代价而增加稳定性。

由酵母分泌的总纤维素酶活性在联合生物加工(CBP)应用中是有重要意义的，其中酿酒酵母的重组菌株以单一工艺步骤将纤维素生物质转化为可发酵的单糖并将单糖发酵成生物燃料。测量了5种CBHI亲本和一组6种稳定的嵌合体的总的固体纤维素的水解活性，所述一组6种稳定的嵌合体具有等于或大于埃默森篮状菌CBHI的针对可溶的MUL底物的总分泌活性。如图6所示，全部6种CBHI嵌合体还展示出比亲本中任一个大的总的固体纤维素的水解活性。

虽然已经阐释和描述了各种具体实施方案，但应理解可以作出各种改变而不背离本发明的精神和范围。

Claims

1.一种基本上纯化的嵌合多肽，包含来自至少两个不同的亲本纤维二糖水解酶I(CBHI)多肽的至少两个结构域，其中所述结构域从N端到C端包含：(区段1)-(区段2)-(区段3)-(区段4)-(区段5)-(区段6)-(区段7)-(区段8)；

其中：区段1包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁至少50-100％相同的序列；区段2包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₁到大约x₂至少50-100％相同的序列；区段3包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₂到大约x₃至少50-100％相同的序列；区段4包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₃到大约x₄至少50-100％相同的序列；区段5包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₄到大约x₅至少50-100％相同的序列；区段6包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₅到大约x₆至少50-100％相同的序列；区段7包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₆到大约x₇至少50-100％相同的序列；及区段8包含与SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基x₇到大约x₈至少50-100％相同的序列；

其中x₁是SEQIDNO:2、4、6或8的残基47、48、49、50、51或52，或是SEQIDNO:10的残基48、49、50、51、52或53；x₂是SEQIDNO:2或10的残基92、93、94、95、96或97，或是SEQIDNO:4、6或8的残基91、92、93、94、95或96；x₃是SEQIDNO:2的残基127、128、129、130、131或132，或是SEQIDNO:4或6的残基125、126、127、128、129或130，或是SEQIDNO:8的残基126、127、128、129、130或131，或是SEQIDNO:10的残基123、124、125、126、127或128；x₄是SEQIDNO:2的残基175、176、177、178、180或181，或是SEQIDNO:4或SEQIDNO:6的残基173、174、175、176、177或178，或是SEQIDNO:8的残基174、175、176、177、178或179，或是SEQIDNO:10的残基171、172、173、174、175或176；x₅是SEQIDNO:2的残基221、222、223、224、225或226，或是SEQIDNO:4或SEQIDNO:6的残基219、220、221、222、223或224，或是SEQIDNO:8的残基220、221、222、223、224或225，或是SEQIDNO:10的残基217、218、219、220、221或222；x₆是SEQIDNO:2的残基268、269、270、271、272或273，或是SEQIDNO:4或SEQIDNO:6的残基266、267、268、269、270或271，或是SEQIDNO:8的残基267、268、269、270、271或272，或是SEQIDNO:10的残基264、265、266、267、268或269；x₇是SEQIDNO:2的残基384、385、386、387、388或389，或是SEQIDNO:4的残基385、386、387、388、389或390，或是SEQIDNO:6的残基378、379、380、381、382或383，或是SEQIDNO:8或10的残基383、384、385、386、387或388；并且x₈是对应于SEQIDNO:2的残基454、SEQIDNO:4的残基457、SEQIDNO:6的残基458、SEQIDNO:8的残基453、SEQIDNO:10的残基455、或者具有序列SEQIDNO:2、SEQIDNO:4、SEQIDNO:6、SEQIDNO:8或SEQIDNO:10的多肽的C端的氨基酸残基，

其中所述嵌合多肽具有纤维二糖水解酶活性和与包含SEQIDNO:2、4、6、8或10的CBHI多肽相比改善的热稳定性、pH稳定性和/或表达。

2.如权利要求1所述的多肽，其中区段1包含SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的氨基酸残基从大约1或从大约18或19到大约x₁并具有1-10个保守氨基酸取代；区段2是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₁到大约x₂并具有大约1-10个保守氨基酸取代；区段3是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₂到大约x₃并具有大约1-10个保守氨基酸取代；区段4是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₃到大约x₄并具有大约1-10个保守氨基酸取代；区段5是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₄到大约x₅并具有大约1-10个保守氨基酸取代；区段6是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₅到大约x₆并具有大约1-10个保守氨基酸取代；区段7是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₆到大约x₇并具有大约1-10个保守氨基酸取代；并且区段8是SEQIDNO:2(“1”)、SEQIDNO:4(“2”)、SEQIDNO:6(“3”)、SEQIDNO:8(“4”)或SEQIDNO:10(“5”)的从大约氨基酸残基x₇到大约x₈并具有大约1-10个保守氨基酸取代。

3.如权利要求1所述的多肽，其中所述多肽与选自由SEQIDNO:19、20、21、22、23、24、25、26、27、28、29、30、31、32、33和34组成的组的序列至少60-100％相同。

4.如权利要求1、2或3所述的多肽，其中所述多肽包含可操作地连接到N端氨基酸的前导序列。

5.如权利要求1、2、3或4所述的多肽，还包括包含选自由SEQIDNO:16、17和18组成的组的序列的C端CBM结构域。

6.如权利要求1、2、3、4或5所述的多肽，其中所述至少两个不同的亲本纤维二糖水解酶I(CBHI)多肽包括选自由SEQIDNO:2、4、6、8和10组成的组的序列。

7.如前述权利要求中任一项所述的多肽，其中所述多肽具有选自由以下组成的组的区段结构：55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551、55525555、55555552、55525552、55555155、55555515、55555115、55555255、55555525、55555225、34152252(SEQIDNO:19)、55153552(SEQIDNO:20)、32153252(SEQIDNO:21)、55155552(SEQIDNO:22)、22153252(SEQIDNO:23)、52152552(SEQIDNO:24)、12153252(SEQIDNO:25)、45153252(SEQIDNO:26)、12153552(SEQIDNO:27)、25152252(SEQIDNO:28)、13152552(SEQIDNO:29)、12152252(SEQIDNO:30)、55153252(SEQIDNO:31)、55552252(SEQIDNO:32)、55152552(SEQIDNO:33)和55152252(SEQIDNO:34)。

8.一种编码权利要求1-7中任一项所述的多肽的多核苷酸。

9.一种包含权利要求8的多核苷酸的载体。

10.一种包含权利要求9所述的载体的宿主细胞。

11.如权利要求10所述的宿主细胞，其中所述宿主细胞是植物细胞或真菌细胞。

12.一种包含权利要求1-7中任一项的多肽的酶制品。

13.如权利要求12所述的酶制品，还包含热稳定的纤维二糖水解酶II类酶嵌合体。

14.一种处理包含纤维素的生物质的方法，所述方法包括使所述生物质与权利要求12或13的酶制品接触。

15.一种处理包含纤维素的生物质的方法，所述方法包括使所述生物质与权利要求10的宿主细胞接触。

16.一种用于产生权利要求1的多肽的方法，所述多肽与一个亲本多肽或一类亲本多肽相比具有改善的活性或稳定性，所述方法包括：

识别多个P进化上、结构上或者进化上和结构上相关的多肽；

在多个相关多肽的至少第一多肽和至少第二多肽中选择一组交叉位置，所述一组交叉位置包含N个肽区段；

从具有稳定的功能表达的所述多个进化上、结构上或者进化上和结构上相关的多肽中选择亲本；

产生多个嵌合体，所述嵌合体包含所述亲本的N-1个肽区段以及所述多个进化上、结构上或者进化上和结构上相关的多肽中另一个多肽的一个异源肽区段；

识别具有增强活性或稳定性的改善的嵌合体以及识别所述异源肽区段作为改善的单体中的活性/稳定性相关的肽区段；

产生重新组合的重组蛋白样品集xP”，所述重组蛋白包含所述至少第一多肽和第二多肽中的每一个的活性/稳定性相关的肽区段，其中x<1；测量折叠表达的重新组合的重组蛋白的样品集的稳定性；

产生包含一个或多个活性/稳定性相关的肽区段的多个嵌合多肽。

17.如权利要求16所述的方法，其中所述改善的嵌合体通过进行回归分析来识别。

18.如权利要求16所述的方法，其中所述选择一组交叉位置包括比对所述多个进化上、结构上或者进化上和结构上相关的多肽的序列并识别序列同一性区域。

19.如权利要求18所述的方法，其中所述方法包括序列比对以及选自由以下组成的组的一种或多种方法：X射线晶体学、NMR、搜索蛋白结构数据库、同源模建、从头蛋白折叠及计算蛋白结构预测。

20.如权利要求16所述的方法，其中所述选择一组交叉位置包括：识别所述至少第一多肽中的残基对之间的偶联相互作用；

产生多个数据结构，每个数据结构代表包含所述至少第一多肽和第二多肽的重组的交叉突变体，其中每个重组具有不同的交叉位置；

对每个数据结构确定与由所述数据结构代表的交叉突变体中被破坏的偶联相互作用的数目相关的交叉破坏；及

在所述多个数据结构中识别具有低于阈值的交叉破坏的特定数据结构，其中由所述特定数据结构代表的交叉突变体的交叉位置是被识别的交叉位置。

21.如权利要求20所述的方法，其中偶联相互作用通过确定残基之间的构象能量来识别。

22.如权利要求20所述的方法，其中偶联相互作用通过确定残基之间的原子间距离来识别。

23.如权利要求20所述的方法，其中所述至少第一多肽和第二多肽的每一个的构象能量由所述第一多肽和第二多肽中的至少一个的三维结构来确定。

24.如权利要求22所述的方法，其中原子间距离由多个多肽中的至少一个多肽的三维结构来确定。

25.如权利要求20所述的方法，其中偶联相互作用通过高于阈值的残基之间的构象能量来识别。

26.如权利要求20所述的方法，其中所述阈值是所述多个数据结构的交叉破坏的平均水平。

27.如权利要求26所述的方法，其中交叉位置的识别包括基于序列同一性区域来识别所述多肽中的可能的切割点。

28.如权利要求26或27所述的方法，其中所述序列同一性区域必须包含至少4个残基。

29.如权利要求26所述的方法，其中稳定性的测量包括选自由以下组成的组的技术：化学稳定性测量、功能稳定性测量和热稳定性测量。

30.如权利要求29所述的方法，其中所述化学稳定性测量包括化学变性测量。

31.如权利要求28所述的方法，其中所述热稳定性测量包括热变性测量。

32.如权利要求29所述的方法，其中所述功能稳定性测量包括配体或底物结合技术。

33.如权利要求16所述的方法，其中所述回归分析包括确定序列稳定性数据或折叠蛋白与未折叠蛋白的多重序列比对(MSA)的共有序列分析。

34.如权利要求33所述的方法，其中所述序列稳定性数据包括与稳定性测量可操作地关联的序列信息。

35.如权利要求16所述的方法，还包括创建具有肽区段的片段的单体。

36.如权利要求16所述的方法，其中所述亲本包括与SEQIDNO:15具有至少80％-100％同一性的序列。