CN1198939C

CN1198939C - 来自绿色木霉的纤维素酶cbh1基因的调控序列以及利用该序列的蛋白质或多肽的大量生产体系

Info

Publication number: CN1198939C
Application number: CNB971984530A
Authority: CN
Inventors: 渡边学; 守屋达树; 青柳薰; 隅田奈绪美; 村上健
Original assignee: Meiji Seika Kaisha Ltd
Current assignee: Meiji Seika Pharma Co Ltd
Priority date: 1996-09-13
Filing date: 1997-09-16
Publication date: 2005-04-27
Anticipated expiration: 2017-09-16
Also published as: JP3683280B2; DK0952223T3; DE69737035D1; EP0952223A4; DE69737035T2; EP0952223A1; EP0952223B1; AU4221397A; US6277596B1; CN1232506A; ATE346942T1; WO1998011239A1

Abstract

本发明确立了蛋白质或肽的大量生产体系、尤其是确立了于Trichoderma viride那样的霉菌中纤维素酶的大量生产体系。来自Trichoderma viride的纤维素酶cbh1基因的调控序列可使目的蛋白质高效表达。因此，利用该调控序列可以使目的蛋白质特别是纤维素酶大量表达。特别是通过该调控序列在使来自Humicola insolens的葡聚糖内切酶生产达到15g/L方面获得了成功。

Description

来自绿色木霉的纤维素酶cbh1基因的调控序列以及利用该序列的蛋白质或多肽的大量生产体系

本发明涉及蛋白质或多肽的大量生产体系，更详细地说是涉及利用了来自绿色木霉Trichoderma viride的调控序列的生产体系，以及利用了该生产体系的蛋白质或多肽的生产技术。

霉菌能够向菌体外大量分泌蛋白质、特别是分泌酶已为人们所知。例如，Aspergillus属真菌能够分泌淀粉酶、蛋白酶、脂肪酶和纤维素酶，这些酶被用于各个领域。其生产量，就工业上利用黑曲霉Aspergillus niger情况看，每升培养液生产的葡萄糖淀粉酶在20g以上，而利用米曲霉Aspergillus oryzae生产时，通过个体培养每1kg大约生产50kg左右(五味胜也：化学与生物(1994)，32，269)。

近年来，关于利用霉菌生产蛋白质的特性生产目的蛋白质的技术也正在积累着很多的知识。例如，可以通过下列各种宿主菌生产来自霉菌的异种蛋白质：以Aspergillus nidulans为宿主菌生产来自Mucor miehei的凝乳酶(G.L.Gray，等：基因(Gene)(1986)，48，41)、以Aspergillus niger为宿主菌生产来自Aspergillus ficuum的植酸酶(R.E.M.van gorcom等：欧州专利申请(1991)，0420358A1)、以Aspergillus oryzae为宿主菌生产来自Mucor miehei的凝乳酶(T.christensen，等：生物/技术(Bio/Technology(1988)，6，1419)和脂肪酶(B.huge-Jensen，等：脂(Lipids)(1989)，24，781)、以Trichoderma reesei为宿主菌生产来自Phlebia radiata的漆酶(M.Saloheimo，等：生物/技术(Bio/Technology)(1991)，9，987)、以Trichoderma viride为宿主菌生产来自Aspergillus oryzae的α-淀粉酶(C.Cheng，等；农业生物化学(Agric.Biol.Chem)，(1991)，55，1817)、以Acremonium chrysogenum为宿主菌生产来自Fusarium属的碱性蛋白酶(森田滋等：日本农艺化学会大会讲演要旨集(1993)，p.140)。另外，以Aspergillus nidulans、Aspergillus niger、Aspergillus oryzae或Trichoderma reesai为宿主菌生产来自人或马等动物的蛋白质、甚至于生产来自植物的蛋白质也已得到了证实。

如上所述，很清楚霉菌是蛋白质或多肽的优良的生产宿主菌。而且工业上利用这些宿主菌时，目的蛋白质的产率变得重要了。作为所谓左右蛋白质产率的要素有以下几点：①在宿主内表达的调节区域(例如启动子或终止子等)应对有效、且大量转录、翻译目的蛋白质进行调节，②翻译产物应呈现出表现活性的高级结构(活性型)，③而且翻译产物应稳定地分泌到细胞外等。对此，已经开发出了Aspergillus属的淀粉酶基因启动子以及Trichoderma属的纤维素酶基因启动子等有效的启动子。如果按照到目前为止的看法，以Aspergillus oryzae为宿主菌，利用α-淀粉酶的启动子，每升培养液可以生产3.3g的Mucor miehei的凝乳酶。

然而，无论利用多么强的启动子，一般来说希望得到的目的蛋白质也不会超过宿主的蛋白质的产量。实际上，就上述Aspergillus oryzae的例子来说，只不过利用了30％的蛋白质生产能力。人们认为这种现象是利用的基因遗留在宿主中，翻译区的密码使用频率因菌种不同而产生的差异，分泌的机制因菌种不同而产生的差异等因素造成的，然而改进这些因素的技术还未见报道。

因此，应当考虑通过使宿主的蛋白质产量本身提高，来使目的蛋白质的收率提高。

到目前为止，已经知道属于Trichoderma属的真菌是优良的纤维素酶生产菌。尤其是Trichoderma reesei有关异种蛋白质的生产也进行了各种研究，利用据说大约占同菌分泌蛋白质70％的纤维二糖水解酶1(cbh1)基因的启动子，进行了很多异种蛋白质表达的研究(Uusitalo JM，等：生物技术杂志(J.Biotechnol.)(1991)，17，35；Joutsjoki VV，et.al：现代遗传学(Curr.Genet.)(1993)，24，223；Barnett CC，等：生物技术杂志(Biotechnology)(1991)，9，562；Berges T，等：现代遗传学(Curr.Genet.)(1993)，24，53；Saloheimo M，等：基因(Gene)(1989)，85，343.Saarelainen R，等：分子遗传学和基础遗传学Mol.Gen.Genet.(1993)，241，497.)。然而，有关以Trichoderma viride为宿主菌的异种蛋白质表达体系只是看到了C.Cheng等人的报告。根据C.Cheng等人的报告，以Trichoderma viride的蛋白酶缺损株为宿主菌，导入利用了cbh1启动子、信号序列的α-淀粉酶基因，每升培养液可以生产出1g的α-淀粉酶。这表明利用Trichodermaviride生产异种蛋白质的可能性，但在实际的生产规模中，生产水平从生产成本看并不令人满意。

现在，本发明人获得了来自Trichoderma viride的纤维素酶基因的调控序列可以使目的蛋白质高效表达的认识，利用该调控序列在使来自Humicola insolens的葡聚糖内切酶的生产达到15g/L中获得了成功。这样的产量在到目前为止在所报道的任何霉菌的异种蛋白质生产体系中都没有看到。本发明就是依据这些认识形成的。

因此，本发明的目的就是提供使目的蛋白质高效表达的调控序列以及利用该调控序列的蛋白质大量生产体系。

另外，提供利用上述生产体系的蛋白质或多肽大量生产方法也是本发明的目的。

而来自本发明的使目的蛋白质高效表达的调控序列是来自Trichoderma viride的纤维素酶cbh1基因的调控序列。

同时，来自本发明的蛋白质的大量生产体系是利用了来自Trichodermaviride的纤维素酶cbh1基因的调控序列的生产体系。

附图的简单说明

图1是含有来自Trichoderma viride的纤维素酶cbh1基因以及它的调控序列的质粒pA01、以及使其降解片段克隆的质粒pCB1-H3、pCB1-H4、pCB1-S1、pCB1-S3、pCB1-a1、pCB1-b1、pCB1-c2、pCB1-d1、以及pCB1-e1的限制性内切酶图。

图2是质粒pCB1-MX的限制性内切酶图。

图3是质粒pCB1-M2的限制性内切酶图。

图4是质粒pCB1-M2XR的限制性内切酶图。

图5是质粒pCB1-HEgX的限制性内切酶图。

图6是质粒pCB1-Eg3X的限制性内切酶图。

图7是质粒pCB-XI′的限制性内切酶图。

微生物的保藏

用图2表示的质粒pCB1-MX转化的大肠杆菌JM109菌株保藏在通商产业省工业技术院生命工程工业技术研究所(日本国茨城县筑波市东1-1-3、以下简称为“NIBH”)，保藏号为FERM BP-6044，保藏日为1996年9月9日(原保藏日)。

用图4表示的质粒pCB1-M2XR转化的大肠杆菌JM109菌株保藏在NIBH，保藏号为FERM BP-6045，保藏日为1996年9月9日(原保藏日)。

用图5表示的质粒pCB1-HEgX转化的大肠杆菌JM109菌株保藏在NIBH，保藏号为FERM BP-6046，保藏日为1996年9月9日(原保藏日)。

用图6表示的质粒pCB1-Eg3X转化的大肠杆菌菌株保藏在NIBH，保藏号为FERM BP-6043，保藏日为1997年8月11日(原保藏日)。

用图7表示的质粒pCB-XI′转化的大肠杆菌菌株保藏在NIBH，保藏号为FERM BP-6042，保藏日为1997年8月11日(原保藏日)。

根据本发明的cbh1基因以及它的调控序列的Trichoderma virideMC300-1菌株保藏在NIBH，保藏号为FERM BP-6047，保藏日为1996年9月9日(原保藏日)。

本说明书中，只要没有特别标明，蛋白质和多肽使用的含义应当是一样的。另外，本说明书中，所谓的变化序列意思是指在碱基序列或氨基酸序列中，插入、置换或缺失、或是在序列的一端或两端附加几个(例如、1-数个)碱基或氨基酸后而形成的序列。

来自Trichoderma viride的纤维素酶cbh1基因的调控序列

本发明中的调控序列是来自Trichoderma viride的调控序列。在本发明中所谓调控序列意思是指从启动子、信号序列、以及终止子组成的序列中至少选择出的一个序列。

所谓本发明中的调控序列，更具体讲是处于图1记载的质粒pA01中的cbh1基因的调控序列。

作为本发明中优选的启动子序列的例子是存在于从图1表示的质粒pA01中的cbh1基因的氨基末端到上游大约1.5kb区域内的序列，例如从质粒pA01中的cbh1基因的氨基末端到上游的HindIII位点的序列。

同时本发明的启动子序列中不仅包括这些区域的整个序列，也包括保持高启动子活性的其变化的序列。本发明中，所谓的高启动子活性指的是在后续的NCE4基因的表达中实现高表达的强的启动子活性，具体讲，是指实现每升培养液7～8g、优选的是15g以上的NCE4表达的启动子活性。很清楚，如果是能够给出后续实施例记载的资料、保藏的菌株以及序列1那样的序列的本领域技术人员可能容易预测那样变化序列的存在，而且可能容易制造。

而本发明中所谓的优选的信号序列的例子是序列1记载的编码-17到-1氨基酸序列的碱基序列。另外本发明中，作为其碱基序列的变化序列也包括编码依然保持信号序列活性的氨基酸序列的碱基序列。很清楚，就这样变化的序列，如果是能够给出后续实施例记载的资料、保藏的菌株、以及序列1那样的序列的本领域技术人员也可能容易预测那样变化序列的存在，而且可能容易制造。

本领域技术人员很清楚，在实际利用这些序列时，即使在上述的信号序列上附加上cbh1蛋白质的N末端一侧的几个氨基酸也是可以的。即，在利用这些信号序列时，得到的目的蛋白质即便是与cbh1蛋白质的N末端一侧的几个氨基酸组成的多肽形成的融合蛋白质，甚至是与cbh1蛋白质形成的融合蛋白质也可以。

作为本发明中优选的终止子序列是存在于从质粒pA01中的cbh1基因的羧基端到下游大约1kb的区域内的序列，例如从质粒pA01中的cbh1基因的羧基端到下游的SalI位点的序列。

另外本发明的终止子序列中不仅包括这些区域的全部序列，也包括保持其终止子活性的变化序列。

这些调控序列，尤其是上述的启动子序列可以以极高的效率使NCE4表达。因此，如果按照本发明的优选实施方案，可以提供在NCE4基因的表达中优选使用的调控序列、尤其是NCE4基因的表达中优选使用的启动子序列。如果按照本发明的优选实施方案，纤维素酶NCE4的产量可达每升7～8g、优选达到大约15g。

表达载体和宿主

按照本发明，使用上述调控序列可以提供为表达目的蛋白质所需的表达载体。

本发明的表达载体，按照其第一实施方案，应当是包含上述调控序列，以及包含根据情况不同所需要的标记基因的载体。而且本发明的表达载体是在第一实施方案的表达载体中含有可操作的连接于其调控序列的编码目的蛋白质的碱基序列的载体。因此，至少含有从上述本发明的启动子、信号序列、以及终止子构成的调控序列中选择出的一种序列的表达载体也包含在本发明的范围内。

如上所述，由于本发明的启动子序列是非常有用的，按照本发明的优选状态，可以提供至少含有本发明的启动子序列的表达载体。在该表达载体中，信号序列、终止子序列即使是本发明的信号序列和终止子序列以外的也可以，但最好是使用上述的本发明的信号序列和终止子序列。作为这些载体的具体例子有从后续实施例中构建的表达载体Pcb1-MX和pCB1-M2XR。

本发明的表达载体是在为构建表达载体表达的宿主细胞中能够复制的载体，例如，以质粒为基础构建的最好。这样构建的载体是在大肠杆菌中能够复制的载体，如pUC Vector、pTV Vector、pBluescript、pBR322等。构建本发明载体所必需的手段可以采用基因重组领域中惯用的方法。

而标记基因可以根据转化体的选择手段适当地选择，例如可以利用编码耐药性的基因、营养需求互补的基因等。本发明使用的耐药性基因只要是宿主细胞表现出敏感性的药物都可以，并没有限定，例如，如果宿主使用的是Trichoderma viride时，优选使用来自Streptomycesrimofaciens的越霉素抗性基因、来自Escherichia coli的潮霉素B抗性基因、Streptococcus hindustanus的博来霉素抗性基因。

按照本发明的优选状态，最好是利用通过众所周知的方法，得到来自Aspergillus nidulans的trp C基因的启动子和终止子(Mullaney，E.J.等.，分子遗传学与基础遗传学(Mol.Gen.Genet.)199：37-45，1985)，然后用这些序列将潮霉素B抗性基因作成能够表达的弹夹盒(カヤツト)(Cullen，D.等，基因(Gene)(1987)，57，21)。

本发明的载体可以用于各种目的蛋白质或肽的表达生产。本发明中所谓的目的蛋白质或肽不仅是指宿主细胞中不存在的所谓的外来蛋白质，也包括宿主细胞中虽然能够表达，但其表达量很微量的蛋白质。作为本发明的表达载体中编码目的蛋白质的基因，例如有编码纤维素酶、淀粉酶、脂肪酶、蛋白酶、植酸酶等产业上有用的蛋白质的基因。这些基因经人工改造后也同样可以作为编码目的蛋白质的基因。

本发明的载体只要是能够表达Trichoderma viride的cbh1基因的宿主细胞，并没有特别的限定，但最好是与作为宿主的属于Trichoderma属的微生物组合后作为表达体系。按照本发明的优选状态，可以利用作为属于Trichoderma属微生物的Trichoderma viride。

按照本发明的优选状态，最好是利用作为最优选的宿主Trichodermaviride高纤维素酶生产菌株Trichoderma viride MC300-1。

按照本发明的优选状态，利用Trichoderma reesei作为宿主细胞也是可以的。

按照本发明的优选状态，本发明的表达体系能很好地用在纤维素酶的表达上。作为纤维素酶的具体例子有来自Humicola insolens的纤维素酶NCE4或其变化的蛋白质、以及WO91/17243号公报(特表平5-509223)记载的43kD的葡聚糖内切酶、来自Trichoderma viride的葡聚糖内切酶SCE3或其变化的蛋白质、或是同样来自Trichoderma viride的木聚糖酶SXY1或其变化的蛋白质。其中所谓来自Humicola insolens的纤维素酶NCE4是指具有序列3记载的从1到284序列的蛋白质。所谓葡聚糖内切酶SEC3是指具有序列5记载的从1到397序列的蛋白质。而所谓来自Trichoderma viride的木聚糖酶SXY1是指具有序列7记载的从1到190序列的蛋白质。

而这里所谓的变化的蛋白质是指在上述蛋白质的氨基酸序列中发生了附加、插入、剔除、缺失或置换氨基酸等变化而形成的蛋白质，但该变化蛋白质依然具有其酶活性，尤其是保持着葡聚糖内切酶活性或保持木聚糖内切酶活性。

按照本发明的优选状态，作为纤维素酶NCE4表达体系的优选的载体的具体例子有后续实施例中构建的表达载体pCB1-HEgX。而作为葡聚糖内切酶SCE3或木聚糖酶SXY1表达体系的优选的载体的具体例子有后续实施例中构建的表达载体pCB1-Eg3X或pCB-XI′等。

目的蛋白质的生产

本发明的目的蛋白质的生产是通过将上述本发明表达载体转化的宿主细胞在适当的培养基中培养，从培养物中获得目的蛋白质或肽的过程实施的。

按照本发明的优选状态，可以提供效率极高的目的蛋白质生产体系。例如，宿主细胞为Trichoderma viride时，其每升培养液可以生产7g或8g以上、优选的大约可达15g以上的目的蛋白质。该产量与以前所报道的蛋白质表达体系的产量比较高得多。这表明，本发明的目的蛋白质的表达体系具有极高的可利用性。

例如，目的蛋白质是纤维素酶NCE4时，这些酶本来活性就很高，所以可以更大量地生产。其结果得到的好处是可能高效地生产用于含纤维素纤维细毛的除去、减量加工以及斜纹粗棉布染色中纤维素纤维的脱色加工的纤维素酶制剂。

本发明的目的蛋白质的生产方法中、转化体的培养可以在含有惯用的成分，例如碳源、氮源、无机盐、增殖因子等成分的液体培养基中利用有氧条件下的培养法、振荡培养法、电搅拌培养法或深度培养法进行，培养基的pH值例如可以是4～8左右。宿主细胞是Trichoderma viride时，培养可以在Trichoderma viride的惯用培养条件，例如20℃～37℃，优选的是26℃～28℃，培养时间为48～168小时的条件下进行。

当从培养物回收通过本发明得到的蛋白质或肽时，可以使用利用其性质的常用的分离手段，例如溶剂抽提法，离子交换树脂法、吸附或分配柱层析法、凝胶过滤法、透析法、沉淀法等，这些方法可以单独使用，或适当组合起来使用。

纤维素酶cbh1及其基因

成为本发明调控序列来源的纤维素酶cbh1基因是具有序列1记载的序列的一部分或全部序列的基因。而利用基因工程的惯用方法(例如定点突变等)对本基因的各个组成部分(启动子、信号序列、终止子等)和翻译区的各个组成部分(核心部位、连接部位、底物结合部位)进行附加、插入、缺失或置换等变化的序列1记载的来自Trichoderma viride的cbh1片段、就是说它的变化序列也包含在本发明中。

序列1记载的碱基序列表示来自Trichoderma viride的染色体cbh1基因的碱基序列。序列1记载的碱基序列含有开始于序列1438的ATG和终止于序列3109的终止密码子(TAA)的开放读框(可读框)。而序列1489～3108的碱基序列对应于由497残基组成的上述成熟cbh1蛋白质。另外已确认序列1的碱基序列中存在着2个内含子。

没有证据表明本发明的cbh1基因与到目前为止已经克隆、碱基序列已经清楚的任何一个纤维素酶基因是同一基因。就是说，通过与DNA数据库GenBank R96.August，1996登录的纤维素酶基因比较，已经被证实。

另外，没有证据表明序列2给出的cbh1蛋白质与到目前为止已经克隆、碱基序列已经清楚的任何一个纤维素酶基因编码的蛋白质是同一个蛋白质。就是说，通过与氨基酸数据库Protein Identification Resource R48March，1996、SWISS-PRPT R33 February，1996登录的纤维素酶蛋白质比较，已经被证实。

如果给出蛋白质的氨基酸序列，很容易确定编码蛋白质的DNA序列，可以选择编码序列1记载的氨基酸序列的全部或部分序列的各种碱基序列。因此，所谓编码本发明序列1记载的氨基酸序列的一部分或全部序列的DNA序列是指加在序列2记载的一部分或全部的碱基序列上的序列，也是指编码同一氨基酸序列的但以存在简并关系的密码为碱基序列的序列。

本发明的DNA既可以是来自天然的DNA，也可以是全合成的。而即使是利用一部分来自天然的序列进行合成的也可以。作为获得DNA的典型方法有从来自Trichoderma viride的染色体文库在基因工程领域中惯用的方法，例如有利用以部分氨基酸序列信息为基础作成适当DNA探针进行筛选的方法等。另外，从上述保藏菌株获得DNA也是可能的。

另外，本发明的cbh1基因的序列明显表现出Trichoderma Viride与Trichoderma reesei菌株的差异。就是说，虽然cbh1翻译区的DNA序列的同源性大约为96％，但非翻译区(内含子)的同源性为66％、而启动子、终止子的DNA序列分别离开翻译区150bp、170bp以上时看不到同源性。这表明cbh1基因的起源即使相同，承继该基因的各个菌株的遗传的多样性相差很远。

到目前为止，霉菌的分类一般都是从形态学的特征进行的。然而近年来，根据常用的DNA分析可以明确菌株间的差异。例如，从Trichodermareesei与Trichoderma longibrachiatum的纤维二糖水解酶(cbh)2基因的Southern解析就可显示出杂化方式的差异(Meyer W，等：现代遗传学(Curr.Genet.)(1992)，21，27.Morawez R，等：现代遗传学(Curr.Genet.)(1992)，21，27.)。

实施例1：cbh1基因的克隆

(1a)cbh1蛋白质的纯化

将Trichoderma viride MC300-1菌株于P培养基(1.0％葡萄糖、4.0％乳糖、2.0％大豆糟、1.0％酵母提取液、0.5％磷酸钾、0.2％硫酸铵、0.2％碳酸钙、0.03％硫酸镁)、28℃下培养5天。将培养液离心除去菌体残渣、用Pharmacia Biotech公司制造的FPLC装置(RESOURCE Q50mM Tris-盐酸(pH7.8).0-1M氯化钠梯度)进行分级，收集氯化钠浓度大约280mM洗脱出的峰。该级分进行SDS-PAGE(テフコ公司制造SDS-PAGE mini、8％gel)分析，考马斯亮蓝R250染色，得到了几乎是一条带的分子量大约为67kda的cbh1。

(1b)cbh1蛋白质的氨基酸序列解析

氨基末端的氨基酸序列的解析按照Podell，D.N等人的方法(Podell，D.N.等，生化研究通讯Bichem.Res.Commun.(1978)81：176)除去修饰氨基末端残基。即、对上述纯化的cbh1级分进行脱盐浓缩，调整到浓度大约为0.5μg/μl。在5mM二硫苏糖醇、10mM EDTA、5％甘油、0.1M磷酸缓冲液(pH8.0)中用Boehringer Mannheim公司制造的焦谷氨酸氨肽酶(测序级)使浓缩的cbh1于50℃反应6小时，除去修饰的氨基末端。然后进行SDS-PAGE，在PVDF膜(Millipore公司制造Immobilon-PSQ)上显示斑点后，水洗风干。该斑点用Perkin Elmer公司制造的蛋白质序列仪Model 492进行氨基酸序列解析。其结果为如下所示的氨基末端的氨基酸序列(10个残基)。

氨基末端的氨基酸序列：Ser-Ala-Xaa-Thr-Leu-Gln-Ala-Glu-Thr-His

(序列9)

(1c)肽谱

将通过上述(1a)那样纯化的cbh1级分于100mM的碳酸氢铵缓冲液中(pH7.8)用1/50摩尔量的V8蛋白酶(Sigma公司制造)消化，其分解产物用Perkin Elmer公司制造的Model 172μ制备型HPLC系统进行柱层析(柱子：RP-300 Aquapor C8、220×2.1mm，0.1％TFA～0.085％TFA/35％乙腈梯度)，分离出两种肽，分别取名为V8-33和V8-34。解析它们的氨基酸序列，如下所示。

V8-33：Glu-Phe-Ser-Phe-Asp-Val

(序列10)

V8-34：Glu-Thr-His-Pro-Pro-Leu-Thr-Trp-Gln-Lys-Xaa-Ser-Ser-Gly-Gly

-Thr-Xaa-Thr (序列11)

这些氨基酸序列表现出与从Trichoderma reesei得到的cbh-1蛋白质的氨基酸序列(S.Shoemaker等，生物/技术(Bio/Technology)(1983)，1691))的同源性。另外，因为表现出与从Trichoderma viride菌株得到的外纤维二糖水解酶(Cheng Cheng等，核酸研究(Nucleic Acids Res.)(1990)18，5559)的同一的氨基酸序列，所以编码同一蛋白质的基因的克隆使用PCR对来自Trichoderma viride菌株的外纤维二糖水解酶基因的翻译区进行扩增、扩增产物可用作探针。

(1d)cbh1翻译区域的扩增

以来自Trichoderma viride MC300-1菌株的基因组DNA为模板通过PCR进行cbh1翻译区域的扩增。

基因组DNA的分离按照Horiuchi等人的方法(Hiroyuki Horiuchi等.，细菌学杂志(J.Bacteriol)(1988)170，272-278)进行。首先，将Trichodermaviride MC300-1菌株于S培养基(3.0％葡萄糖、0.1％蛋白胨、1.0％酵母提取液、0.14％硫酸铵、0.2％磷酸钾、0.03％硫酸镁pH6.8)、培养24小时，通过离心分离回收菌体。将得到的菌体冷冻干燥、悬浮于TE(10mMTris-盐酸、1mM EDTA)缓冲液、于3％SDS溶液中、60℃下进行30分钟处理后，通过TE饱和酚萃取、除去菌体残渣。萃取液经乙醇沉淀后，经核糖核酸酶A(Sigma公司制造)以及蛋白酶K(和光纯药公司制造)处理，再使用日立工机公司制造的65P-7超离心机通过氯化铯密度梯度沉降平衡法得到DNA。

PCR使用的是宝酒造公司制造的Takara Taq。作为引物使用的是如下所示的cbh1-N和cbh1-C进行94℃1分钟，50℃2分钟，72℃3分钟的40次循环反应。其结果扩增得到大约1.7kbp的DNA。以下给出的是cbh1-N和cbh1-C的序列。

cbh1-N：5′-ATG TAT CAA AAG TTG GCC-3′

(序列12)

cbh1-C：5′-TTA CAA GCA CTG AGA GTA G-3′

(序列13)

该PCR扩增片段在琼脂糖电泳后，按照Pharmacia公司制造的Bandprep试剂盒从琼脂糖回收，回收的片段用作筛选用的探针。

实施例2：Trichoderma viride基因组DNA文库的制备

用Sau3AI对Trichoderma viride MC300-1菌株基因组DNA进行部分消化。使用T4连接酶(宝酒造公司制造，Lycation Kit Ver.2)将该DNA片段连接在噬菌体载体、入EMBL3克隆试剂盒(Stratagene公司制造)中的BamH I arm上。用乙醇沉淀后，溶解于TE缓冲液中。按照Stratagene公司制造的GigapackII包装试剂盒，使上述连接后的混合物都形成噬菌体粒子。然后用得到的噬菌体感染大肠杆菌LE392菌株。使用通过这种方法得到的1.1×10⁴个噬菌体文库进行目的基因的克隆。

实施例3：cbh1基因的亚克隆

(3a)利用噬斑原位杂交进行筛选

首先利用Amersham公司制造ECL Direct系统对来自外纤维二糖水解酶基因的翻译区大约1.7kb的DNA片段预先进行标记。

将在实施例2中制作的噬菌体噬斑转移到杂交N⁺尼龙转移膜(Amersham公司制造)上，碱变性后，用5倍浓度的SSC(15mM柠檬酸三钠盐，150mM氯化钠)洗净，干燥，使DNA固定。按照试剂盒的方法，进行1小时的预杂交(42℃)后，加入先前标记的探针，进行4小时(42℃)的杂交。按照上述试剂盒的方法洗净标记物。

洗净探针的尼龙膜浸入到附带的检测液中1分钟，然后使同一公司制造的Hyperfilm-ECL感光，得到4个阳性克隆。

(3b)噬菌体DNA的制备

从阳性克隆制备DNA按照Maniatis等人方法(J.Sambrook，E.F.Fritsch和T.Maniatis，《分子克隆》(Molecular Cloning)，冷泉港实验室出版社1989)进行。

宿主大肠杆菌使用LE392。首先将LE392于LB-MM培养基(1％蛋白胨、0.5％酵母提取液、0.5％氯化钠、10mM硫酸镁、0.2％麦芽糖)培养过夜，感染来自单个噬斑的噬菌体溶液，于LB-MM培养基中培养过夜。然后，加入氯化钠和三氯甲烷使它们的浓度分别达到1M和0.8％，促进大肠杆菌的溶菌。通过离心分离除去菌体残渣，再经聚乙二醇(10％PEG 6000)沉淀回收噬菌体粒子。噬菌体粒子在SDS存在下用蛋白酶K消化，然后经苯酚处理、乙醇沉淀后、回收噬菌体DNA。

以上回收的DNA按照Amersham公司制造ECL Direct系统进行Southern Block解析。将实施例1的PCR扩增片段与探针杂交，结果表明7kb的PstI的消化片段能进行同样的杂交(图1)。

将这一共同杂交的PstI片段于pUC118(宝酒造公司制造)进行亚克隆，得到质粒pA01。

实施例4：cbh1基因碱基序列的确定

(4a)基因组DNA碱基序列解析

碱基序列的确定按以下方式实施。碱基序列解析设备使用的是Pharmacia Biotech公制造的A.L.F.DNA序列仪II。作为测序胶使用的是FMC公司制造的以Hyclrolink Long Ringer销售的丙烯酰胺载体。作胶用的各种试剂(N，N，N’，N’-四甲基乙二胺、尿素、过硫铵)使用的是Pharmacia Biotech公司制造A.L.F级试剂。

解读碱基序列反应使用的是Pharmacia Biotech公司制造的AutoreadSequencing Kit。凝胶制作条件、反应条件和电泳条件等参照各说明书设定。

而碱基序列解读用模板质粒(以后记作模板)制备以下那样的单链DNA和分段克隆，作为模板。

首先将pA01用Hind III消化、3.1kb片段克隆于pUC119的产物(pCB1-H3或pCB1-H4)，或是用SalI消化pA01，将2.8kb片段克隆于pUC119的(pCB1-S1或pCB1-S3)产物作为M13单链DNA制备。然后，3.1Kb片段克隆于pUC18(pCB1-2、pCB1-7)、pCB1-7用EcoRI消化、4kb消化片段自身环化的产物(pCB1-b1)，1.3kb消化片段克隆于pUC118(pCB1-a1)的产物，pCB1-7用SalI消化、5.4kb的片段进行自身环化的产物(pCB1-c2)，pCB1-2用Hind III和EcoRV消化、将2.2kb和0.9kb片段分别连接于pUC18的Hind III-HincII位点并克隆的产物(pCB1-e1、pCB1-d1)，共制备出9种质粒(图1)。(4b)单链DNA的制备

使pCB1-H3、pCB1-H4、pCB1-S1、pCB1-S3各个质粒转化大肠杆菌JM109，转化的菌落于含有150μg/ml的氨苄青霉素的LB培养基上预培养过夜。对该培养液用109PFU/ml的辅助噬菌体M13K07悬浊液进行等量感染。将感染后的培养液于100倍量的含有150μg/ml的氨苄青霉素和70μg/ml的卡那霉素的LB培养基中正式培养一夜。

对30ml的该培养液进行离心分离(8000rpm、10分钟)除去菌体、向离心的上清加入6ml的PEG-NaCl(20％PEG6000、2.5M氯化钠)，使M13粒子沉淀。将M13的PEG沉淀悬浮于3ml的100mM Tris-盐酸(pH7.5)、10mM氯化镁溶液中，用100μg/ml的DnaseI(BoehringerMannheim公司制造)、10μg/ml的核糖核酸酶A处理、分解夹杂的大肠杆菌的核酸。然后再用PEG沉淀、悬浮于TE缓冲液后，进行TE饱和的苯酚萃取、苯酚-三氯甲烷萃取后、通过乙醇使单链DNA沉淀。(4c)测序反应和解析

首先用2M氢氧化钠将双链质粒进行碱变性后，通过使pCB1-2与试剂盒附带的Universal以及Reverse；pCB1-7与Universal以及Reverse；pCB1-a1与Universal以及Reverse；，pCB1-b1与Reverse；pCB1-c2与Reverse；pCB1-d1与Reverse；pCB1-e1与Reverse的引物分别组合使其退火，按照试剂盒进行延长反应。然后通过pCB1-2与WVCI-01、WVCI-02、WVCI-03、WVCI-04以及WVCI-06的组合进行测序反应，确定cbh1翻译区域的碱基序列。

以下，通过pCB1-H3与Universal、WVCI-07、WVCI-08、WVCI-09以及WVCB-11；pCB1-H4与WVCI-05、WVCI-15、WVCI-16以及WVCI-17；pCB1-S1与Universal、WVCI-13、WVCI-14、以及WVCB-12；pCB1-S3与WVCI-06、WVCI-10、WVCI-11、以及WVCI-12的组合进行测序反应确定了象序列表中1所示的那样的cbh1的HindIII～SalI片段的全长4176bp序列。

cbh1特异的测序引物的序列如下所示。

WVCI-01：5′-TCA CTT TCC AGC AGC CCA ACG CC-3′(序列14)

WVCI-02：5′-CAA CTC TCC CAA CGC CAA GGT CG-3′(序列15)

WVCI-03：5′-CGT CGG GTA GGT AGA GTC CAG CC-3′(序列16)

WVCI-04：5′-TCT CGA ACT GAG TGA CGA CGG TC-3′(序列17)

WVCI-05：5′-CTG CCA TGT CAG AGG CGG GTG AG-3′(序列18)

WVCI-06：5′-ACT CCA ACA TCA AGT TCG GCC CC-3′(序列19)

WVCI-07：5′-AAC TCC CAC TGA GCC TTT ACG TC-3′(序列20)

WVCI-08：5′-CAA TTA AGT GGC TAA ACG TAC CG-3′(序列21)

WVCI-09：5′-GCA AAA ATA TAG TCG AAT CTG CC-3′(序列22)

WVCI-10：5′-GCT GGA ATG CTC GCT AGC TTG GC-3′(序列23)

WVCI-11：5′-ACT GTT GGA GAC CAG CTT GTC CG-3′(序列24)

WVCI-12：5′-CGC AGT AGG AGA ATA GAA ACC CC-3′(序列25)

WVCI-13：5′-CTG CTG TCA ATC CCC GCT ACT GG-3′(序列26)

WVCI-14：5′-CCT TCG AGA AAA GGA GAT TCG CG-3′(序列27)

WVCI-15：5′-CAG CTC CTT GGC AAA AGC AGT GG-3′(序列28)

WVCI-16：5′-AGA TCA TCA GTT GAG GTT AGA CC-3′(序列29)

WVCI-17：5′-TGT ATA AAA TTA GGT TCG GGT CC-3′(序列30)

WVCB-11：5′-CTA CTC ATC AAC TCA GAT CCT CC-3′(序列31)

WVCB-12：5′-GGA AGC CTC AGA AGT AGA TAC AGC-3′(序列32)

(4d)非翻译区(以下记作“内含子”)的确定

为了确定内含子、由Trichoderma viride MC300-1菌株制备mRNA、利用逆转录酶合成cDNA、将该cDNA与基因组的碱基序列比较、判断出它们的相同序列。

(4d-1)总RNA的制备

将Trichoderma viride MC300-1菌株于P培养基培养2天，通过离心分离(3500rpm、10分钟)，收集菌体。将该菌体用灭菌水洗净，于液氮冷冻状态下用搅拌机粉碎。然后悬浮于含有4M硫氰酸胍盐的变性溶液中(4M硫氰酸胍盐、25mM柠檬酸三钠盐、0.5％N-十二烷基肌氨酸钠、0.1M巯基乙醇)。于室温搅拌数分钟后，用2M醋酸钠(pH4.5)中和，加入TE饱和的苯酚，继续搅拌。然后加入氯仿-异戊醇(24∶1)，搅拌后，通过离心分离(3500rpm、10分钟)，除去苯酚变性了的菌体成分。回收上层液(水相)，用异丙醇将核酸沉淀。通过离心分离(3500rpm、10分钟)从该沉淀中回收核酸，用70％乙醇通过再离心分离洗沉淀。

将该沉淀溶解于TE缓冲液中，使核酸浓度变为1mg/ml，然后用2.5M氯化锂沉淀(5℃2小时)后，经离心分离(12000rpm、10分钟)，回收沉淀。用70％乙醇洗该沉淀，得到沉淀即为总RNA级分。(4d-2)PolyA尾巴⁺RNA(＝mRNA)的制备

mRNA的制备是利用Pharmacia Biotech公司制造mRNA纯化试剂盒进行的。

首先，从上述(4d-1)中制备的总RNA中取出1mg溶解于1ml的洗脱缓冲液中，于65℃进行10分钟的热变性处理。然后于冰中骤冷后，加入0.2ml的样品缓冲液。将该总RNA溶液加到寡聚物(dT)纤维素柱上，用高盐溶液洗3次，再用低盐溶液洗3次，然后用于65℃加温的洗脱缓冲液洗脱。上述对柱子的操作反复进行2次，作为mRNA级分。(4d-3)cDNA的合成

使用Pharmacia Biotech公司制造Timesaver cDNA合成试剂盒进行cDNA合成。

首先将5μg的mRNA溶解于20μl的样品缓冲液。于65℃进行10分钟的热处理后，与二硫苏糖醇溶液以及寡聚物(dT)引物一起加到第一条链合成混合物中，于37℃反应1小时。然后再都加到第二条链合成混合物中，于12℃反应30分钟，再于22℃反应1小时，得到cDNA。(4d-4)cbh1 cDNA的扩增

cbh1 cDNA是以总cDNA为模板通过PCR扩增的。

PCR反应用的是宝酒造公司制造LA PCR试剂盒。引物用的是Mcbh1-N和Mcbh1-C，通过25次循环反应进行扩增，每一循环的反应条件都是94℃1分钟，55℃2分钟，72℃2分钟。结果大约1.6kb的DNA被扩增了。

Mcbh1-N和Mcbh1-C的序列如下所示。

Mcbh1-N：5′-TCG ACT ACG GAC TGC GCA TC-3′

(序列33)

Mcbh1-C：5’-CAA GCT TTT GCC ACA GTA CC-3’

(序列34)

该PCR扩增的片段经琼脂糖电泳后，按照Pharmacia公司制造的BandPrep试剂盒从琼脂糖回收，再克隆于Novagen公司制造的pT7-blue(pCbhU)，作为确定内含子的模板。

(4d-5)cDNA碱基序列的解析

使用与上述一样的自动解读测序试剂盒进行测序反应。首先，质粒pCbhU用2M的氢氧化钠进行碱变性后，变性后的质粒作为模板，用T7聚合酶进行聚合反应。引物用的是试剂盒附带的Universal和Reverse，还有上述的WVCI-03和WVCI-04。

结果发现存在着1899～1965bp(Introne I)、2663～2724bp(Introne II)两个内含子。在序列表1中，非翻译开始序列以及其终止序列、内含子内部的调整序列如下所示。

Introne I：1899～1904、1963～1965、1946～1952

Introne II：2663～2668、2722～2724、2705～2711

实施例5：Trichoderma viride用的异种蛋白质表达分泌载体的构建

为了使cbh1启动子、终止子、分泌信号肽作成可用于目的蛋白质表达分泌的形式，进行了指定部位的变异处理。

(5a)表达载体pCB1-MX的构建

指定部位的变异处理使用的是Amersham公司制造的雕纹体外诱变系统(Sculpter In Vitro Mutagenesis System)。变异点是在起始密码的上游和终止密码的下游导入的。

首先，变异导入用的寡核苷酸CBn-Stu、CBc-Xho调整到浓度为0.9OD₂₆₀/ml，然后使用100mM Tris-盐酸(pH8.0)、10mM氯化镁、7mM的二硫苏糖醇、1mM ATP溶液中的PNK于37℃反应15分钟，使末端磷酸化。然后再于70℃进行10分钟的热处理，使酶失活。

对于上述的pCB1-H4、pCB1-S1的单链DNA2μg分别加入CBn-Stu、CBc-Xho，并于70℃放置3分钟、然后于55℃大约500ml的热水中放置直至达到室温为止(大约2小时)，使寡核苷酸退火。

使klenow片段、T4连接酶与该退火混合物反应，使异双链合成。该异双链用T5核酸外切酶将未反应的一条链分解。然后用限制酶NciI导入切口，用核酸外切酶III分解模板链。再用DNA聚合酶I、T4连接酶将变异的链作成双链，然后用该双链转化大肠杆菌TG1。

变异DNA的检测选择出来自pCB1-H4的变异被StuI切的产物(pCB1H4-19)、来自pCBI-S1的变异被XhoI切的产物(pCBIS1-17)。然后用XbaI和XhoI消化pCB1H4-19、回收大约6kb的片段、将该片段与pCB1S1-17用XbaI消化后、XhoI部分切断的大约1.2kb的片段连接、连接后的质粒定为pCB1-M。pCB1-M用XbaI消化、插入来自PDH25(Cullen，D.，Leong，S.A.，Wilson，L.J.和Henneer，D.J.，基因(Gene)57，21-26，1987)抗潮霉素B盒(カセツト)，构建成pCB1-MX(图2)。CBn-Stu、CBc-Xho的序列如下所示。

CBn-Stu：5’-GAT ACA TGA TGC GCA GGC CTT AGT CGA CTA GAA TGC-3’

(序列35)

CBc-Xho：5’-GAT CCT CAA GCT TTT GCT CGA GTA CCT TAC AAG CAC-3’

(序列36)

(5b)分泌载体pCB1-M2XR的构建

上述pCB1-M用SalI消化、将大约2.7Kb片段克隆于pUC119(pCB1-SalM)，再使其变成单链、使用雕纹体外诱变系统进行与上述(5a)同样的变异处理。在Process残基的上游和下游(CB1-SmSph)、cbh1蛋白质的连接结构中(CB1-Bam)、以及终止密码的上游部位(CB1-Pst)导入变异部位。

另外，变异基因的构建是用XbaI和RcoRI切pUC118、使用宝酒造公司制造的DNA Branching kit使上述DNA的末端补平。再使其自身环化(pUC118-SBN)、用SaII和HindIII消化后、连接cbh1启动子HindIII～SalI片段。将导入变异的cbh1翻译区域～终止子按照正向连接于上述Sa1I部位、构建成pCB1-M2(图3)。pCB1-M2XR是pCB1-M2的XbaI部位连接了上述潮霉素B抗性基因弹夹的产物(图4)。

CB1-SmSph、CB1-Bam、CB1-Pst的序列如下所示。

CB1-SmSph：5’-GGA GGG TGC ATG CCG ACT GAG CCC GGG CAG TAG CC-3’

(序列37)

CB1-Bam：5’-GCC GGG AGA GGA TCC AGT GGA GG-3’

(序列38)

CB1-Pst：5’-GCT CGA GTA CCT TAC TGC AGG CAC TGA GAG-3’

(序列39)

实施例6：Trichoderma viride用NCE4分泌载体的构建

为了使Trichoderma viride NCE4强制分泌，通过PCR扩增来自Humicola insolens NCE4翻译区域。

首先按照Horiuchi等人的方法(Horiuchi Horiuchi等.，微生物学杂志(J.Bacteriol.)，170：272-278，1988)、回收Humicola insolens的总DNA。具体来说，将Humicola insolens MN 200-1于37℃下，在(N)培养基(5.0％Avicel、2.0％酵母提取液、0.1％蛋白胨、0.03％氯化钙、0.03％硫酸镁、pH6.8)中培养。培养2天后，通过离心分离(3500rpm、10分钟)收集菌体。将得到的菌体进行苯酚处理、蛋白激酶K和核糖核酸酶A处理、再通过聚乙二醇(PEG)沉淀，得到基因组DNA。

以得到的总DNA为模板、在有HEg-mn(Sph)和HEg-c(Sal)的各个引物1μM、dNTPs200μM存在下使用Pfu聚合酶(Stratagene公司制造)进行PCR反应。PCR反应共进行25个循环，每个循环的反应条件都是94℃下热变性1分钟，55℃下退火2分钟，75℃延伸反应5分钟，使目的DNA片段扩增。

PCR扩增的片段经Pharmacia Biotech公司制造Microspine S-400HR柱层析、除去残存的引物。再经SphI和SalI消化、通过琼脂糖凝胶电泳、回收大约0.9kb的片段。

另外，用SphI和XhoI消化pCB1-M2、回收7.3kb片段。将该片段与0.9kb的消化PCR片段连接、再于XbaI部位插入上述潮霉素抗性基因弹夹、构建成的质粒作为pCB1-HEgX(图5)。

而通过上述操作得到的NCE4的翻译区域的碱基序列如序列4所记载的那样。

HEg-mn(Sph)和HEg-c(Sal)的序列如下所示。

Heg-mn(Sph)：5’-GGG GCA TGC GCT GAT GGC AAG TCC ACC CG-3’

(序列40)

Heg-c(Sal)：5’-GGG GTC GAC TAC CTT ACA GGC ACT GAT GGT ACC-3’

(序列41)

实施例7：Trichoderma viride的转化

将Trichoderma viride MC300-1在(S)培养基中于28℃培养24小时后，通过3000rpm、离心分离10分钟。得到的菌体用0.5M蔗糖洗净，悬浮于经0.45μm过滤的10ml的原生质体化酶液中(5mg/ml Novozyme234、5mg/ml纤维素酶オノズカR-10、0.5M蔗糖)。于30℃振荡60～90分钟，使菌原生质体化。将该悬浊液过滤后，经2500rpm、10分钟离心分离，回收原生质体，用SUTC缓冲液(0.5M蔗糖、10mM氯化钙、10mM Tris盐酸(pH7.5))洗净。

将以上制备的原生质体悬浮于1ml的SUTC缓冲液中，向100μl该悬浮液中加入10μg的DNA(TE)溶液(10μl)，静置于冰中5分钟。然后加入400μl的PEP溶液(60％PEP4000、10mM氯化钙、10mM Tris-盐酸(pH7.5))，静置于冰中20分钟后，加入10ml的SUTC缓冲液，经2500rpm、10分钟离心分离，收集原生质体。将该原生质体悬浮于1ml的SUTC缓冲液后，经4000rpm、5分钟离心分离，将原生质体最终悬浮于100μl的SUTC缓冲液中。

将经以上处理的原生质体与PD软琼脂(1.3％马铃薯葡萄糖(PD)琼脂、17.1％蔗糖)一起铺在含有潮霉素B(20μg/ml)的马铃薯葡萄糖琼脂培养基(3.9％马铃薯葡萄糖琼脂、17.1％蔗糖)上，于28℃培养5天后，将形成的菌落作为转化体。

实施例8：pCB1-HEgX转化体的NCE4产率的评价

象实施例7那样将质粒pCB1-HEgX导入Trichoderma viride MC300-1菌株，每1μg的DNA大约出现25株表现出潮霉素B抗性的菌株。

将这25个菌株于S培养基进行预培养，然后在P培养基上进行正式培养。该培养上清经SDS-PAGE解析，出现了新观测到预料为NCE4蛋白质的分子量大约为43kD带的菌株。

其中，预测NCE4产率更高的菌株的培养上清通过FPLC(PharmaciaBiotech公司制造)分级、测定NCE4的产量。柱子用的是RESOURCERPC 3ml、用含有0.1％三氟乙酸的5-60％乙腈的浓度梯度洗脱、收集大约在47％乙腈浓度洗脱的峰、然后脱盐、冷冻干燥后测定其收率、确认每1升培养液含有15g NCE4。

实施例9：SCE3的分离纯化

将Trichoderma viride MC300-1用P培养基培养、其培养上清进行疏水层析(Phenyl-Sepharose HP 16/100、Pharmacia Biotech公司制造)、用50mM醋酸缓冲液(pH5.5)中加有1-0M浓度梯度的硫酸铵溶液洗脱、分级。由于其中0.1-0M浓度梯度洗脱得到的级分能明显看到具有牛仔裤脱色活性、所以将该级分进行疏水层析(RESOURCE PHE 30mmI.D.×150mm、Pharmacia Biotech公司制造)、用50mM醋酸缓冲液(pH5.5)中加有1-0M浓度梯度的硫酸铵溶液洗脱、收集活性组份。

其中0M浓度梯度洗脱得到的级分能明显看到具有牛仔裤脱色活性。该级分进行疏水层析(Butyl-Toyopearl 6500S 22mm I.D.×200mm、东曹公司制造)、用50mM醋酸缓冲液(pH5.0)洗脱、分离到表现出明显牛仔裤脱色活性级分的纯化酶SCE3。该SCE3在SDS-PAGE中显示出大约50kD的单一一条带。

实施例10：SCE3基因的克隆

(10a)SCE3蛋白质氨基末端一侧氨基酸序列解析

与实施例9一样将得到的纯化的SCE3进行SDS-PAGE，然后转移到Millipore公司制造的PVDF膜(Immobilon-PSQ)上。用考马斯亮蓝染色后，将转移的目的蛋白质部分从膜中剪下。用0.5％聚乙烯吡咯烷酮、100mM醋酸溶液于37℃下处理30分钟后，洗净、然后利用宝酒造社制造的Pfu焦谷氨酸氨肽酶除去修饰的氨基末端残基。利用氨基酸测序仪Model 492，确定氨基末端一侧的10个氨基酸残基序列。其序列如下所示。

SCE3-N：Gln-Asp-Val-Trp-Gly-Gln-Cys-Gly-Gly-Ile

(序列42)

(10b)肽谱

与实施例9一样将得到的纯化的SCE3级分于50mM的碳酸氢铵缓冲液(pH7.8)中用1/50摩尔量的V8蛋白酶(Sigma公司制造)消化，使用与实施例1c一样的手法收集V8-18.5、V8-26、以及V8-42三种肽。并进行氨基酸序列解析，结果如下。

V8-18.5：Thr-Pro-Thr-Gly-Ser-Gly-Asn-Ser-Trp-Thr-Asp

(序列43)

V8-26：Ser-Thr-Tyr-Ile-Leu-Thr-Glu

(序列44)

V8-42：Phe-Ala-Gly-Val-Asn-Ile-Ala-Gly-Phe-Asp-Phe-Gly-Xaa-Thr-Thr

(序列45)

由于这些氨基酸序列表现出与从Trichoderma reesei得到的葡聚糖内切酶(EGIII)蛋白质的氨基酸序列(M.Saloheimo等，基因(Gene)(1988)，63，11)的同源性，所以编码同一蛋白质的基因的克隆可以使用PCR对来自Trichoderma reesei菌株的EGIII基因的翻译区进行扩增、扩增产物用作探针。

(10c)SCE3翻译区域的扩增

以来自Trichoderma viride MC300-1菌株的基因组DNA为模板利用PCR进行SCE3翻译区域的扩增。

扩增是用来自实施例1d的Trichoderma viride MC300-1菌株的染色体DNA为模板使用Takara Taq进行的。作为引物使用的是SCE3-N和SCE3-C、共进行20次循环反应、每个循环反应都是94℃1分钟，50℃2分钟，72℃3分钟。其结果扩增得到大约1.5kbp的DNA。

SCE3-N和SCE3-C的序列如下所示。

SCE3-N：5’-ATG AAC AAG TCC GTG GCT C-3’

(序列46)

SCE3-C：5’-TTA CTT TCT TGC GAG ACA CGA GC-3’

(序列47)

该PCR扩增片段在琼脂糖电泳后，从凝胶回收，回收的片段用作SCE3克隆用的探针。

(10d)来自Trichoderma viride菌株的SCE3基因的克隆

使用通过与实施例2同样的手法制备的1.0×10⁴个噬菌体文库进行SCE3基因的克隆。噬斑杂交的结果得到一种阳性克隆。该克隆经Southern解析，其结果显示出大约4kb的BamHI片段、大约4kb的EcoRI片段、以及大约3.7kb的XbaI片段与染色体DNA有共同的杂交带。该XbaI片段克隆于pUC118(pUC-Eg3X)。

实施例11：SCE3表达载体pCB1-Eg3X的构建

为了使SCE3在cbh1启动子的调控下大量表达、将SCE3的翻译区域连接在cbh1启动子的下游。

首先、以pUC-Eg3X为模板用SCE3-Stu和SCE3-Xho得到引物进行PCR反应、回收大约1.5kb的扩增片段、通过pT7-blue进行亚克隆。该质粒用StuI和XhoI切、将大约8.5kb的片段与大约1.5kb的StuI～XhoI片段连接、该质粒就作为pCB1-Eg3X(图6)。

通过上述操作得到的SCE3的翻译区域的碱基序列如序列6所示。

而SCE3-Stu和SCE3-Xho的序列如下所示。

SCE3-Stu：5’-GGG AGG CCT GCG CAT CAT GGC TCC ATT GCT TGC-3’

(序列48)

SCE3-Xho：5′-GGG CTC GAG TAC CTT ACT TCC TGG CGA GAC ACG AGC-3′

(序列49)

实施例12：pCB1-Eg3X转化体的SCE3产率的评价

象实施例7那样将质粒pCB1-Eg3X导入Trichoderma viride MC300-1菌株。其结果每1mg的DNA大约出现20株表现出潮霉素B抗性的菌株。将这25个菌株于S培养基进行予培养后，然后在P培养基上进行正式培养。该培养上清经SDS-PAGE解析，出现了新观测到预料为SCE3蛋白质的分子量大约为43kD带的菌株。

其中，以粗斜棉布染色含纤维素纤维的脱色活性为指标算出明显看到的50kD带的菌株(EG3D2菌株)SCE3产量。实验是在以下给出的详细的条件下进行的。

对已下水脱浆的12 Ounce的蓝色牛仔裤(棉织品)按照下面的条件进行脱色处理。

试验机械：20kg洗衣机(SANYO公司制造全自动洗衣机SCW5101)

浴比：1∶40

加热：60℃

时间：30分钟

pH：4(20mM醋酸缓冲液)

脱色度用色差计COLOR ANSLYZER TOPSCAN MODELTC-1800MK2(东京电色株式会社制造)测定Lab表示计的L值(白度)。通过相对于对照的L值增加值(白度的增加)＝ΔL来评价脱色，就评价脱色的各个试验区测定了5个点的ΔL值(n＝5)，去掉最大值和最小值，采用剩下的3点的平均值。可以算出为了使脱色达到ΔL值＝4所需要的蛋白质浓度。

蛋白质浓度按照Bio-Rad公司制造的蛋白质分析试剂盒以γ球蛋白为标准进行定量。

作为亲本菌株的Trichoderma viride MC300-1菌株培养上清、牛仔裤脱色所必需的蛋白质浓度是160mg/L、实施例9中分离纯化的SCE3是32mg/L。EG3D2菌株培养上清的牛仔裤脱色必需的蛋白质浓度与加入了占总蛋白质质量30％的纯化SCE3的Trichoderma viride MC300-1菌株培养上清的脱色所必需的蛋白质浓度一致、其浓度是80mg/L。由此可以认为1L EG3D2菌株培养上清中所含的27g总蛋白质中的30％(9g)含有(重组)SCE3。

实施例13：SXY1的分离纯化

将Trichoderma viride MC300-1用P培养基培养、以木聚糖分解活性为指标纯化其培养上清。首先进行Resource Q 6ml(Pharmacia Biotech公司制造)层析、用50mM Tris-盐酸缓冲液(pH7.5)中加有0-1M浓度梯度的氯化钠溶液洗脱、回收盐浓度0M洗脱的级分。该级分再经Pharmacia Biotech公司制造的Resource HIC PHE 1ml层析、用50mMTris-盐酸缓冲液(pH7.0)中加有1.5-0M浓度梯度的硫酸铵溶液洗脱、将硫酸铵浓度大约为0.3M洗脱出的级分作为SXY1级分回收。该级分再经Pharmacia Biotech公司制造的Superdex 75(10/30)凝胶过滤层析、用含有0.1M氯化钠的0.05M磷酸缓冲液洗脱、回收SXY1级分。该SXY1在SDS-PAGE中显示出大约20kD的单一一条带。

实施例14：SXY1基因的克隆

(14a)SXY1蛋白质的氨基末端一侧的氨基酸序列解析

与实施例13一样将得到的纯化SCE3进行SDS-PAGE，利用与实施例10一样的方法除去氨基末端修饰残基。然后利用氨基酸测序仪Model492，确定氨基末端一侧的13个氨基酸残基序列。其序列如下所示。SXY1-N：Gln-Thr-Ile-Gly-Pro-Gly-Thr-Gly-Phe-Asn-Asn-Gly-Tyr-Phe(序列50)

由于这些氨基酸序列表现出与从Trichoderma reesei得到的木聚糖酶I(XYLI)蛋白质的氨基酸序列(Anneli Torronen等，生物/技术(Bio/Technology)(1992)，10，1461)的同源性，所以编码同一蛋白质的基因的克隆可以利用PCR对来自THchoderma reesei菌株的XYLI基因的翻译区进行扩增、备用。

(14b)SXYI翻译区域的扩增

以来自Trichoderma viride MC300-1菌株的基因组DNA为模板通过PCR进行SXYI翻译区域的扩增。

扩增是用来自实施例1d的Trichoderma viride MC300-1菌株的染色体DNA为模板使用Takara Taq进行的。作为引物使用的是SXYI-N和SXYI-C、共进行20次循环反应、每个循环反应都是94℃1分钟，50℃2分钟，72℃3分钟。其结果扩增得到大约0.7kbp的DNA。

SXYI-N和SXYI-C的序列如下所示。

SXYI-N：5′-GGG AGG CCT GCG CAT CAT GGT CTC CTT CAC CTC CC-3′

(序列51)

SXYI-C：5′-GGG CTC GAG TAC CTT AGC TGA CGG TGA TGG AAG C-3′

(序列52)

该PCR扩增片段在琼脂糖电泳后，从凝胶回收，以备以下实验用。实施例15：SXYI表达载体pCB-XI′的构建

为了使SXYI在cbh1启动子的调控下大量表达、将SXYI 3的翻译区域连接在cbh1启动子的下游。

首先、与实施例14b一样进行PCR反应、回收大约0.7kb的扩增片段、亚克隆于pT7-blue。该质粒用StuI和XhoI切、回收大约0.7kb的片段。另外用StuI和XhoI切如实施例5a那样构建的pCB1-MX、将大约8.5kb的片段与大约0.7kb的StuI～XhoI片段连接、该质粒就作为pCB-XI′(图7)。

实施例16：pCB-XI′转化体的SXYI产率的评价

象实施例7那样将质粒pCB-XI′导入Trichoderma viride MC300-1菌株。其结果每1mg的DNA大约出现10株表现出潮霉素B抗性的菌株。将其中的46个菌株于S培养基进行予培养后，然后在P培养基上进行正式培养。该培养上清经SDS-PAGE解析，出现了新观测到预料为SXYI蛋白质的分子量大约为20kD带的菌株。

使用FPLC系统对其中明显观察到20kD的菌株(S22菌株)的SXY1产量解析定量。

柱子用的是上述Resource HIC PHE 1ml、用50mM Tris-盐酸缓冲液(pH7.5)中加有1-0M浓度梯度的硫酸铵溶液洗脱。作为对照使用实施例13中得到的纯化的SXY1、SXY1产量通过硫酸铵浓度大约为0.3M洗脱出的峰面积计算出。其结果、S22菌株的SXY1产率是8.1g/L、产率是亲本菌株的13倍。

序列表

序列号：1

序列的长度：4176

序列类型：核酸

链数：二条链

拓扑型：直链形

序列种类：基因组DNA

起源

生物名：Trichoderma viride MC300-1

序列特征

表示特征的记号：sig peptide

存在位置：1438..1488

决定特征的方法：E

表示特征的记号：mat peptide

存在位置：1489..3108

决定特征的方法：E

表示特征的记号：内含子

存在位置：1899..1965

决定特征的方法：E

表示特征的记号：内含子

存在位置：2663..2724

决定特征的方法：E

序列

AAGCTTCCAT TTGGCGGCTG AATACCCTGA GAATGAAAAC ACATCAGGCT GGGTGATATC 60

CATGAAGACA GGTGGTGAAT ATGTAATCAC GTCCGTTCTC CTGAAGGGAA ACCCCTTGTC 120

GTGGTCACAT GCGGCTCTTT CCATGTAAGT CGGATATTCC TAAGTAGCGA TGGAGCGGCA 180

GAATCAAATA GGCAATACAG CGAGTGGCTC GAACTTTTTA AATGTCGGGC GGGTTGCTGC 240

GCTTCGGCAC TAGTAGACAT TGTATTCCAT ACCCCGCCCC TGTTTCCGCG ACCTCTGGGA 300

TTCCCTTGAA TGATCAAATT CTCGCCTCTA CTACCTAACT CCCACTGAGC CTTTACGTCT 360

TTTGCCATTC ATCCTGGTGG AAGTTATCGC GGTGTGTAGG GCTACATGCT AGGTCAACTG 420

GACGTGTTGG GGCCCGGACC CGAACCTAAT TTTATACAAC GACTTTGATT CAGTCTACAG 480

TAATGGGACG TCCCCATATA CAGTTGCACG TAGGGCACAA CGGTAGAGTA CGTTGGGTGA 540

ATTCGATATG ATACGAGGAT AACCCCCTGA ATGTAGAGTC TCACGGCAAA CTCTGACCGC 600

GCGGTGCGAC CTCACAAAAC AATACAAACG GATGGCTAAA AGTACATGAG TTAATGCCTA 660

AAGATGTCAT ATACCAGCGG CTAATAATTG TACAATTAAG TGGCTAAACG TACCGTAATT 720

TGCCAATGAC TTGTAGGGTT GCAGAAGCAA CAGTACAGCC CCACTTCCCC ACGTTTGCCC 780

TCTTACACGC AGGTCTAACC TCAACTGATG ATCTCCCATC TAAGTTCTCT TGTTGTTGTT 840

TAGTCTAAGA GGCAAGTGTT TACTTCAGGA TTTTGTAAGG CGTAGCATGT AAGAAATAAA 900

CAGAAAGCAG ACGCCAAGAA GCGAGTTTCT GGATGAAGGC GTTTGAGAGA ACCTTGCAGG 960

GAGTTGTCTG ACAATAGAAA AACAATGGAT TGTCGCTTCT ACTCAGGTGT CTGTAATTAA 1020

ATGTTACTCC GTCCTGTACA GGCAAAAAAT ATAGTCGAAT CTGCCTAAGA TCTCGGGCCT 1080

TCGGGCCTTT AAGTCTACAG GTCAGTTTGG TTATATGGGC ATTTTTGGGT GTGGTAGCAT 1140

TGAGGGAACC ACTGCTTTTG CCAAGGAGCT GAACGTATGC TGTAGGCAAA GCTCTAGGTG 1200

CCACTGCATT TGTGTCGAAC ATAATGTGAT GCTTGGGCAG GCATAATAGC CGCCAAAGAT 1260

AGCCTCATTG AGCGGAAGTC GGCGAACAGG TGAAGAGCAG AATATCACAT ATATATATGG 1320

CCCAAACGCC GTGTCCCCTT CTCCCTTTCC CCATCTACTC ATCAACTCAG ATCCTCCAGA 1380

AGACTTGTAC ATCATCTTTT GGGGCATAGC ATTCTAGTCG ACTACGGACT GCGCATC 1437

ATG TAT CAA AAG TTG GCC CTC ATC TCG GCC TTC TTG GCT ACT GCT CGT 1485

Met Tyr Gln Lys Leu Ala Leu Ile Ser Ala Phe Leu Ala Thr Ala Arg

-17 -15 -10 -5

GCT CAG TCG GCC TGC ACC CTC CAG GCG GAA ACT CAC CCG CCT CTG ACA 1533

Ala Gln Ser Ala Cys Thr Leu Gln Ala Glu Thr His Pro Pro Leu Thr

+1 5 10 15

TGG CAG AAA TGC TCA TCT GGT GGC ACT TGC ACC CAA CAG ACA GGC TCC 1581

Trp Gln Lys Cys Ser Ser Gly Gly Thr Cys Thr Gln Gln Thr Gly Ser

20 25 30

GTG GTC ATC GAC GCG AAC TGG CGC TGG ACT CAC GCC ACC AAC AGC AGC 1629

Val Val Ile Asp Ala Asn Trp Arg Trp Thr His Ala Thr Asn Ser Ser

35 40 45

ACG AAC TGC TAC GAC GGC AAT ACT TGG AGC TCA ACC CTG TGC CCT GAC 1677

Thr Asn Cys Tyr Asp Gly Asn Thr Trp Ser Ser Thr Leu Cys Pro Asp

50 55 60

AAT GAG ACT TGC GCG AAG AAC TGC TGC TTG GAC GGT GCT GCC TAC GCG 1725

Asn Glu Thr Cys Ala Lys Asn Cys Cys Leu Asp Gly Ala Ala Tyr Ala

65 70 75

TCC ACG TAC GGA GTC ACC ACG AGC GCT GAC AGC CTC TCC ATT GGC TTC 1773

Ser Thr Tyr Gly Val Thr Thr Ser Ala Asp Ser Leu Ser Ile Gly Phe

80 85 90 95

GTC ACT CAG TCT GCG CAA AAG AAC GTC GGC GCT CGT CTC TAC TTG ATG 1821

Val Thr Gln Ser Ala Gln Lys Asn Val Gly Ala Arg Leu Tyr Leu Met

100 105 110

GCG AGT GAC ACG ACC TAT CAA GAA TTC ACC CTG CTT GGC AAC GAG TTC 1869

Ala Ser Asp Thr Thr Tyr Gln Glu Phe Thr Leu Leu Gly Asn Glu Phe

115 120 125

TCT TTC GAT GTT GAT GTT TCG CAG CTG CC GTAAGTGACC AACTACACCT 1918

Ser Phe Asp Val Asp Val Ser Gln Leu Pr

130 135

CTTGATGCCA TTCTCGTATT AGTTCTCAGC TGACTAGCTT ATTTAAG A TGT GGC TTG 1975

o Cys Gly Leu

140

AAC GGA GCT CTT TAC TTC GTG TCC ATG GAC GCG GAT GGT GGC GTG AGC 2023

Asn Gly Ala Leu Tyr Phe Val Ser Met Asp Ala Asp Gly Gly Val Ser

145 150 155

AAG TAT CCC ACC AAC ACT GCC GGT GCC AAG TAC GGC ACG GGC TAC TGT 2071

Lys Tyr Pro Thr Asn Thr Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys

160 165 170

GAC AGC CAG TGC CCT CGT GAT CTC AAG TTC ATC AAC GGC CAG GCC AAT 2119

Asp Ser Gln Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Gln Ala Asn

175 180 185

GTT GAG GGC TGG GAG CCG TCC TCT AAC AAT GCC AAC ACG GGC ATT GGC 2167

Val Glu Gly Trp Glu Pro Ser Ser Asn Asn Ala Asn Thr Gly Ile Gly

190 195 200

GGA CAT GGA AGC TGC TGC TCT GAG ATG GAT ATC TGG GAG GCC AAT TCC 2215

Gly His Gly Ser Cys Cys Ser Glu Met Asp Ile Trp Glu Ala Asn Ser

205 210 215 220

ATC TCT GAG GCT CTT ACT CCT CAT CCT TGC ACG ACC GTC GGG CAG GAA 2263

Ile Ser Glu Ala Leu Thr Pro His Pro Cys Thr Thr Val Gly Gln Glu

220 230 235

ATT TGC GAC GGT GAC TCC TGC GGT GGA ACC TAC TCG GGT GAC CGA TAT 2311

Ile Cys Asp Gly Asp Ser Cys Gly Gly Thr Tyr Ser Gly Asp Arg Tyr

240 245 250

GGC GGT ACT TGC GAC CCT GAT GGC TGC GAT TGG AAC CCA TAT CGC TTG 2359

Gly Gly Thr Cys Asp Pro Asp Gly Cys Asp Trp Asn Pro Tyr Arg Leu

255 260 265

GGC AAC ACC AGC TTC TAT GGC CCC GGC TCC AGC TTC ACG CTT GAC ACC 2407

Gly Asn Thr Ser Phe Tyr Gly Pro Gly Ser Ser Phe Thr Leu Asp Thr

270 275 280

ACC AAG AAG TTG ACC GTC GTC ACT CAG TTC GAG ACT TCG GGT GCC ATC 2455

Thr Lys Lys Leu Thr Val Val Thr Gln Phe Glu Thr Ser Gly Ala Ile

285 290 295 300

AAC CGA TAC TAT GTC CAG AAT GGC GTC ACT TTC CAG CAG CCC AAC GCC 2503

Asn Arg Tyr Tyr Val Gln Asn Gly Val Thr Phe Gln Gln Pro Asn Ala

305 310 315

GAG CTC GGT GAT TAC TCT GGC AAC TCG CTC GAC GAT GAC TAC TGC GCG 2551

Glu Leu Gly Asp Tyr Ser Gly Asn Ser Leu Asp Asp Asp Tyr Cys Ala

320 325 330

GCT GAA GAG GCG GAG TTT GGC GGC TCC TCT TTC TCG GAC AAG GGC GGC 2599

Ala Glu Glu Ala Glu Phe Gly Gly Ser Ser Phe Ser Asp Lys Gly Gly

335 340 345

CTT ACT CAA TTC AAG AAG GCT ACT TCC GGT GGC ATG GTC CTG GTC ATG 2647

Leu Thr Gln Phe Lys Lys Ala Thr Ser Gly Gly Met Val Leu Val Met

350 355 360

AGC CTG TGG GAT GAC GTGAGTTCAA GAATAACATT CACATTGTCA ACAGAATGAC 2702

Ser Leu Trp Asp Asp

365

AGAACTGAC TGAGAGACGA TAG TAC TAC GCC AAC ATG CTG TGG CTG GAC TCT 2754

Tyr Tyr Ala Asn Met Leu Trp Leu Asp Ser

370 375

ACC TAC CCG ACG AAC GAG ACC TCC TCC ACC CCC GGT GCC GTG CGT GGA 2802

Thr Tyr Pro Thr Asn Glu Thr Ser Ser Thr Pro Gly Ala Val Arg Gly

380 385 390 395

AGC TGC TCC ACC AGC TCC GGT GTT CCT GCT CAG CTC GAG TCC AAC TCT 2850

Ser Cys Ser Thr Ser Ser Gly Val Pro Ala Gln Leu Glu Ser Asn Ser

400 405 410

CCC AAC GCC AAG GTC GTA TAC TCC AAC ATC AAG TTC GGC CCC ATC GGC 2898

Pro Asn Ala Lys Val Val Tyr Ser Asn Ile Lys Phe Gly Pro Ile Gly

415 420 425

AGC ACC GGC AAC TCT AGC GGC GGA AAC CCT CCT GGC GGA AAC CCT CCC 2946

Ser Thr Gly Asn Ser Ser Gly Gly Asn Pro Pro Gly Gly Asn Pro Pro

430 435 440

GGC ACC ACA ACC ACC CGC CGC CCG GCT ACC TCC ACT GGA AGC TCT CCC 2994

Gly Thr Thr Thr Thr Arg Arg Pro Ala Thr Ser Thr Gly Ser Ser Pro

445 450 455

GGC CCT ACT CAG ACG CAC TAT GGC CAG TGC GGT GGA ATT GGA TAC TCG 3042

Gly Pro Thr Gln Thr His Tyr Gly Gln Cys Gly Gly Ile Gly Tyr Ser

460 465 470 475

GGC CCC ACC GTC TGC GCG AGT GGC AGC ACT TGC CAG GTC CTG AAC CCC 3090

Gly Pro Thr Val Cys Ala Ser Gly Ser Thr Cys Gln Val Leu Asn Pro

480 485 490

TAC TAC TCT CAG TGC TTG TAA GGTACTGTG GCAAAAGCTT GAGGTACTGC 3140

Tyr Tyr Ser Gln Cys Leu ***

495

TGGCTTATGG ATGAGTTCAT CTCATTATGG ACTAGATGGA GGATTTACTT TGCTGTATCT 3200

ACTTCTGAGG CTTCCAATAT ATACGGTTAT TTCACCTTTG CTGGAATGCT CGCTAGCTTG 3260

GCAAGCACGG CTTTCGAGAG ACGGACTGAT TCTCTGCTAA CTATGCATTA TATAAGACTG 3320

AAATAGACAA AAAAGGAAAA AAGTTGCCAC TCGAATTATC TTGACGGTGT TGATTATATG 3380

TATGGCATTG TAAGGGTTTT TCATTGATAT TTCTCCCGCC AATATGGTTC TACTCCCATC 3440

TCCGCGAATC TCCTTTTCTC GAAGGCCGTA GTGGCACGCC AATTGGCAAC AACCCACAGG 3500

GAGACGAAAA ACATGATGGC GGCAGCCGAA ATCAGTGGCG CAATGATTGA AAACACGGTG 3560

AGACCGTAGC TTGCAGCCTG GAAAGCACTG TTGGAGACCA GCTTGTCCGT TGCGAGGCCG 3620

ACTTGCATTG CTGTCAAGAC GATGGCAATG TAGCCGAGCA CTGTCACCAG GGACGCAAAG 3680

TTGTCGCGGA TAAGGTCTCC GTAGATGGCG TAGCCAGAGA TTCGAGAATA GCCTCTCAAA 3740

AGGTGGCCCT TTCGAAACCG GTAAATCTTG TTCAAGCGTC CTAGGCGCAG CTCGCCGTAC 3800

CAGTAGCGGG GATTGACAGC AGAATAGCAG TGATTCTCCA GGACTTGACT GGACAATATC 3860

TTCCAGTACT CCCAAGATAC AATATCCGGC AAGAGTCCCT TCTCACGTGC GAGGCGAAAG 3920

TCGCTGTAGT GCGCAATGAG AGCGCAGTAG GAGAATAGAA ACCCCCTGGC ACATTGTTCT 3980

ACCTCGGCGT GTAGTGGATG ACTGTCGGGC AGAATGTGCT GTCTCCAGAA TCCGATGTCT 4040

AGTAGATACT CTGGCAGAGG CTTCAGGTGA ATGCCCTTGG GACCCCAGAT GAGATGCAGC 4100

TCCGGATTCT CAGTAACGAC GATCTCGCGG GAGAGCACGA GTTGGTGATG AAGAGGGCGA 4160

GGAGGCATGG GTCGAC 4176

序列号：2

序列的长度：514

序列类型：氨基酸

拓扑型：直链形

序列种类：蛋白质

序列

Met Tyr Gln Lys Leu Ala Leu Ile Ser Ala Phe Leu Ala Thr Ala Arg

-17 -15 -10 -5

Ala Gln Ser Ala Cys Thr Leu Gln Ala Glu Thr His Pro Pro Leu Thr

+1 5 10 15

Trp Gln Lys Cys Ser Ser Gly Gly Thr Cys Thr Gln Gln Thr Gly Ser

20 25 30

Val Val Ile Asp Ala Asn Trp Arg Trp Thr His Ala Thr Asn Ser Ser

35 40 45

Thr Asn Cys Tyr Asp Gly Asn Thr Trp Ser Ser Thr Leu Cys Pro Asp

50 55 60

Asn Glu Thr Cys Ala Lys Asn Cys Cys Leu Asp Gly Ala Ala Tyr Ala

65 70 75

Ser Thr Tyr Gly Val Thr Thr Ser Ala Asp Ser Leu Ser Ile G1y Phe

80 85 90 95

Val Thr Gln Ser Ala Gln Lys Asn Val Gly Ala Arg Leu Tyr Leu Met

100 105 110

Ala Ser Asp Thr Thr Tyr Gln Glu Phe Thr Leu Leu Gly Asn Glu Phe

115 120 125

Ser Phe Asp Val Asp Val Ser Gln Leu Pro Cys Gly Leu Asn Gly Ala

130 135 140

Leu Tyr Phe Val Ser Met Asp Ala Asp Gly Gly Val Ser Lys Tyr Pro

145 150 155

Thr Asn Thr Ala Gly Ala Lys Tyr Gly Thr Gly Tyr Cys Asp Ser Gln

160 165 170 175

Cys Pro Arg Asp Leu Lys Phe Ile Asn Gly Gln Ala Asn Val Glu Gly

180 185 190

Trp Glu Pro Ser Ser Asn Asn Ala Asn Thr Gly Ile Gly Gly His Gly

195 200 205

Ser Cys Cys Ser Glu Met Asp Ile Trp Glu Ala Asn Ser Ile Ser Glu

210 215 220

Ala Leu Thr Pro His Pro Cys Thr Thr Val Gly Gln Glu Ile Cys Asp

225 230 235

Gly Asp Ser Cys Gly Gly Thr Tyr Ser Gly Asp Arg Tyr Gly Gly Thr

240 245 250 255

Cys Asp Pro Asp Gly Cys Asp Trp Asn Pro Tyr Arg Leu Gly Asn Thr

260 265 270

Ser Phe Tyr Gly Pro Gly Ser Ser Phe Thr Leu Asp Thr Thr Lys Lys

275 280 285

Leu Thr Val Val Thr Gln Phe Glu Thr Ser Gly Ala Ile Asn Arg Tyr

290 295 300

Tyr Val Gln Asn Gly Val Thr Phe Gln Gln Pro Asn Ala Glu Leu Gly

305 310 315

Asp Tyr Ser Gly Asn Ser Leu Asp Asp Asp Tyr Cys Ala Ala Glu Glu

320 325 330 335

Ala Glu Phe Gly Gly Ser Ser Phe Ser Asp Lys Gly Gly Leu Thr Gln

340 345 350

Phe Lys Lys Ala Thr Ser Gly Gly Met Val Leu Val Met Ser Leu Trp

355 360 365

Asp Asp Tyr Tyr Ala Asn Met Leu Trp Leu Asp Ser Thr Tyr Pro Thr

370 375 380

Asn Glu Thr Ser Ser Thr Pro Gly Ala Val Arg Gly Ser Cys Ser Thr

385 390 395

Ser Ser Gly Val Pro Ala Gln Leu Glu Ser Asn Ser Pro Asn Ala Lys

400 405 410 415

Val Val Tyr Ser Asn Ile Lys Phe Gly Pro Ile Gly Ser Thr Gly Asn

420 425 430

Ser Ser Gly Gly Asn Pro Pro Gly Gly Asn Pro Pro Gly Thr Thr Thr

435 440 445

Thr Arg Arg Pro Ala Thr Ser Thr Gly Ser Ser Pro Gly Pro Thr Gln

450 455 460

Thr His Tyr Gly Gln Cys Gly Gly Ile Gly Tyr Ser Gly Pro Thr Val

465 470 475

Cys Ala Ser Gly Ser Thr Cys Gln Val Leu Asn Pro Tyr Tyr Ser Gln

480 485 490 495

Cys Leu

序列号：3

序列的长度：286

序列类型：氨基酸

拓扑型：直链形

序列种类：蛋白质

序列

Ala Cys Ala Asp Gly Lys Ser Thr Arg Tyr Trp Asp Cys Cys Lys Pro

-2 1 5 10

Ser Cys Gly Trp Ala Lys Lys Ala Pro Val Asn Gln Pro Val Phe Ser

15 20 25 30

Cys Asn Ala Asn Phe Gln Arg Leu Thr Asp Phe Asp Ala Lys Ser Gly

35 40 45

Cys Glu Pro Gly Gly Val Ala Tyr Ser Cys Ala Asp Gln Thr Pro Trp

50 55 60

Ala Val Asn Asp Asp Phe Ala Phe Gly Phe Ala Ala Thr Ser Ile Ala

65 70 75

Gly Ser Asn Glu Ala Gly Trp Cys Cys Ala Cys Tyr Glu Leu Thr Phe

80 85 90

Thr Ser Gly Pro Val Ala Gly Lys Lys Met Val Val Gln Ser Thr Ser

95 100 105 110

Thr Gly Gly Asp Leu Gly Ser Asn His Phe Asp Leu Asn Ile Pro Gly

115 120 125

Gly Gly Val Gly Ile Phe Asp Gly Cys Thr Pro Gln Phe Gly Gly Leu

130 135 140

Pro Gly Gln Arg Tyr Gly Gly Ile Ser Ser Arg Asn Glu Cys Asp Arg

145 150 155

Phe Pro Asp Ala Leu Lys Pro Gly Cys Tyr Trp Arg Phe Asp Trp Phe

160 165 170

Lys Asn Ala Asp Asn Pro Ser Phe Ser Phe Arg Gln Val Gln Cys Pro

175 180 185 190

Ala Glu Leu Val Ala Arg Thr Gly Cys Arg Arg Asn Asp Asp Gly Asn

195 200 205

Phe Pro Ala Val Gln Ile Pro Ser Ser Ser Thr Ser Ser Pro Val Gly

210 215 220

Gln Pro Thr Ser Thr Ser Thr Thr Ser Thr Ser Thr Thr Ser Ser Pro

225 230 235

Pro Val Gln Pro Thr Thr Pro Ser Gly Cys Thr Ala Glu Arg Trp Ala

240 245 250

Gln Cys Gly Gly Asn Gly Trp Ser Gly Cys Thr Thr Cys Val Ala Gly

255 260 265 270

Ser Thr Cys Thr Lys Ile Asn Asp Trp Tyr His Gln Cys Leu

275 280

序列号：4

序列的长度：927

序列类型：核酸

链数：双链

拓扑型：直链形

序列种类：基因组DNA

起源

生物名：Humicola insolens

序列特征

表示特征的记号：内含子

存在位置：297..334

确定特征的方法：E

序列

GCA TGC GCT GAT GGC AAG TCC ACC CGC TAC TGG GAC TGC TGC AAG CCT 48

Ala Cys Ala Asp Gly Lys Ser Thr Arg Tyr Trp Asp Cys Cys Lys Pro

-2 1 5 10

TCG TGC GGC TGG GCC AAG AAG GCT CCC GTG AAC CAG CCT GTC TTC TCC 96

Ser Cys Gly Trp Ala Lys Lys Ala Pro Val Asn Gln Pro Val Phe Ser

15 20 25 30

TGC AAC GCC AAC TTC CAG CGT CTC ACT GAC TTC GAC GCC AAG TCC GGC 144

Cys Asn Ala Asn Phe Gln Arg Leu Thr Asp Phe Asp Ala Lys Ser Gly

35 40 45

TGC GAG CCG GGC GGT GTC GCC TAC TCG TGC GCC GAC CAG ACC CCA TGG 192

Cys Glu Pro Gly Gly Val Ala Tyr Ser Cys Ala Asp Gln Thr Pro Trp

50 55 60

GCT GTG AAC GAC GAC TTC GCG TTC GGT TTT GCT GCC ACC TCT ATT GCC 240

Ala Val Asn Asp Asp Phe Ala Phe Gly Phe Ala Ala Thr Ser Ile Ala

65 70 75

GGC AGC AAT GAG GCG GGC TGG TGC TGC GCC TGC TAC GA GTAAGCTTTG 288

Gly Ser Asn Glu Ala Gly Trp Cys Cys Ala Cys Tyr Gl

80 85 90

GTCGCGTGTG TAACACTGTG CAGGCATAGC ACTAACCACC TCCCAG G CTC ACC 341

u Leu Thr

TTC ACA TCC GGT CCT GTT GCT GGC AAG AAG ATG GTC GTC CAG TCC ACC 389

Phe Thr Ser Gly Pro Val Ala Gly Lys Lys Met Val Val Gln Ser Thr

95 100 105

AGC ACT GGC GGT GAT CTT GGC AGC AAC CAC TTC GAT CTC AAC ATC CCC 437

Ser Thr Gly Gly Asp Leu Gly Ser Asn His Phe Asp Leu Asn Ile Pro

110 115 120 125

GGC GGC GGC GTC GGC ATC TTC GAC GGA TGC ACT CCC CAG TTC GGC GGT 485

Gly Gly Gly Val Gly Ile Phe Asp Gly Cys Thr Pro Gln Phe Gly Gly

130 135 140

CTG CCC GGC CAG CGC TAC GGC GGC ATC TCG TCC CGC AAC GAG TGC GAT 533

Leu Pro Gly Gln Arg Tyr Gly Gly Ile Ser Ser Arg Asn Glu Cys Asp

145 150 155

CGG TTC CCC GAC GCC CTC AAG CCC GGC TGC TAC TGG CGC TTC GAC TGG 581

Arg Phe Pro Asp Ala Leu Lys Pro Gly Cys Tyr Trp Arg Phe Asp Trp

160 165 170

TTC AAG AAC GCC GAC AAC CCG AGC TTC AGC TTC CGT CAG GTC CAA TGC 629

Phe Lys Asn Ala Asp Asn Pro Ser Phe Ser Phe Arg Gln Val Gln Cys

175 180 185

CCA GCC GAG CTC GTC GCT CGC ACC GGA TGC CGC CGC AAC GAC GAC GGC 677

Pro Ala Glu Leu Val Ala Arg Thr Gly Cys Arg Arg Asn Asp Asp Gly

190 195 200 205

AAC TTC CCT GCC GTC CAG ATC CCC TCC AGC AGC ACC AGC TCT CCG GTC 725

Asn Phe Pro Ala Val Gln Ile Pro Ser Ser Ser Thr Ser Ser Pro Val

210 215 220

GGC CAG CCT ACC AGT ACC AGC ACC ACC TCC ACC TCC ACC ACC TCG AGC 773

Gly Gln Pro Thr Ser Thr Ser Thr Thr Ser Thr Ser Thr Thr Ser Ser

225 230 235

CCG CCC GTC CAG CCT ACG ACT CCC AGC GGC TGC ACT GCT GAG AGG TGG 821

Pro Pro Val Gln Pro Thr Thr Pro Ser Gly Cys Thr Ala Glu Arg Trp

240 245 250

GCT CAG TGC GGC GGC AAT GGC TGG AGC GGC TGC ACC ACC TGC GTC GCT 869

Ala Gln Cys Gly Gly Asn Gly Trp Ser Gly Cys Thr Thr Cys Val Ala

255 260 265

GGC AGC ACC TGC ACG AAG ATT AAT GAC TGG TAC CAT CAG TGC CTG TAA 917

Gly Ser Thr Cys Thr Lys Ile Asn Asp Trp Tyr His Gln Cys Leu ***

270 275 280

GGTAGTCGAC 927

序列号：5

序列的长度：418

序列类型：氨基酸

拓扑型：直链形

序列种类：蛋白质

序列

Gly Gly Ala Ala Ala Gln Gln Thr Val Trp Gly Gln Cys Gly Gly Ile

-5 1 5 10

Gly Trp Ser Gly Pro Thr Ser Cys Ala Pro Gly Ser Ala Cys Ser Thr

15 20 25

Leu Asn Pro Tyr Tyr Ala Gln Cys Ile Pro Gly Ala Thr Ser Ile Thr

30 35 40

Thr Ser Thr Arg Pro Pro Ser Gly Pro Thr Thr Thr Thr Arg Ala Thr

45 50 55

Ser Thr Thr Ser Ser Pro Pro Pro Thr Ser Ser Gly Val Arg Phe Ala

60 65 70 75

Gly Val Asn Ile Ala Gly Phe Asp Phe Gly Cys Thr Thr Asp Gly Thr

80 85 90

Cys Val Thr Ser Lys Val Tyr Pro Pro Leu Lys Asn Phe Thr Gly Ala

95 100 105

Asn Asn Tyr Pro Asp Gly Ile Gly Gln Met Gln His Phe Val Asn Asp

110 115 120

Asp Gly Met Thr Ile Phe Arg Leu Pro Val Gly Trp Gln Tyr Leu Val

125 130 135

Asn Asn Asn Leu Gly Gly Thr Leu Asp Ser Thr Ser Ile Ser Lys Tyr

140 145 150 155

Asp Gln Leu Val Gln Gly Cys Leu Ser Leu Gly Val Tyr Cys Ile Ile

160 165 170

Asp Ile His Asn Tyr Ala Arg Trp Asn Gly Gly Ile Ile Gly Gln Gly

175 180 185

Gly Pro Thr Asn Ala Gln Phe Thr Ser Leu Trp Ser Gln Leu Ala Ser

190 195 200

Lys Tyr Ala Ser Gln Ser Arg Val Trp Phe Gly Ile Met Asn Glu Pro

205 210 215

His Asp Val Asn Ile Asn Thr Trp Ala Ala Thr Val Gln Glu Val Val

220 225 230 235

Thr Ala Ile Arg Asn Ala Gly Ala Thr Ser Gln Tyr Ile Ser Leu Pro

240 245 250

Gly Asn Asp Tyr Gln Ser Ala Ala Ala Phe Ile Ser Asp Gly Ser Ala

255 260 265

Ala Ala Leu Ser Gln Val Thr Asn Pro Asp Gly Ser Thr Thr Asn Leu

270 275 280

Ile Phe Asp Val His Lys Tyr Leu Asp Ser Asp Asn Ser Gly Thr His

285 290 295

Ala Glu Cys Thr Thr Asn Asn Ile Asp Gly Ala Phe Ala Pro Leu Ala

300 305 310 315

Thr Trp Leu Arg Gln Asn Asn Arg Gln Ala Ile Leu Thr Glu Thr Gly

320 325 330

Gly Gly Asn Val Gln Ser Cys Ile Gln Asp Leu Cys Gln Gln Ile Gln

335 340 345

Tyr Leu Asn Gln Asn Ser Asp Val Tyr Leu Gly Tyr Ala Gly Trp Gly

350 355 360

Ala Gly Ser Phe Asp Ser Thr Tyr Ile Leu Thr Glu Thr Pro Thr Gly

365 370 375

Ser Gly Asn Ser Trp Thr Asp Thr Ser Leu Val Ser Ser Cys Leu Ala

380 385 390 395

Arg Lys

序列号：6

序列的长度：1463

序列类型：核酸

链数：二条链

拓扑型：直链形

序列种类：基因组DNA

起源

生物名：Trichoderma viride MC300-1

序列特征

表示特征的记号：sig peptide

存在位置：14..76

决定特征的方法：E

表示特征的记号：mat peptide

存在位置：77..1450

决定特征的方法：E

表示特征的记号：内含子

存在位置：343..525

决定特征的方法：E

序列

AGGCCTGCGC ATC ATG AAC AGG ACC ATG GCT CCA TTG CTG CTT GCA GCG 49

Met Asn Arg Thr Met Ala Pro Leu Leu Leu Ala Ala

-20 -15 -10

TCG ATA CTC TTC GGG GGC GCT GCT GCA CAA CAG ACT GTC TGG GGA CAG 97

Ser Ile Leu Phe Gly Gly Ala Ala Ala Gln Gln Thr Val Trp Gly Gln

-5 -1 1 5

TGT GGA GGT ATT GGT TGG AGC GGA CCT ACG AGT TGT GCT CCT GGA TCA 145

Cys Gly Gly Ile Gly Trp Ser Gly Pro Thr Ser Cys Ala Pro Gly Ser

10 15 20

GCT TGT TCT ACT CTC AAT CCT TAT TAT GCG CAA TGC ATT CCG GGG GCC 193

Ala Cys Ser Thr Leu Asn Pro Tyr Tyr Ala Gln Cys Ile Pro Gly Ala

25 30 35

ACT AGT ATC ACC ACC TCG ACC CGA CCC CCC TCG GGT CCA ACC ACC ACC 241

Thr Ser Ile Thr Thr Ser Thr Arg Pro Pro Ser Gly Pro Thr Thr Thr

40 45 50 55

ACC AGA GCC ACC TCA ACG ACC TCA TCT CCG CCA CCG ACC AGC TCT GGA 289

Thr Arg Ala Thr Ser Thr Thr Ser Ser Pro Pro Pro Thr Ser Ser Gly

60 65 70

GTT CGA TTT GCT GGC GTT AAC ATC GCG GGC TTT GAC TTC GGA TGT ACC 337

Val Arg Phe Ala Gly Val Asn Ile Ala Gly Phe Asp Phe Gly Cys Thr

75 80 85

ACA GA GTATGTCTTC ATGTTGCATA GTGTTGCTGG CTGAGTATTC TGGGCGGATG 392

Thr As

ATTTATAGCT GTGCGGGCTG CAAAACACCG CCGGTCTGCC ACTATCAAGG CATAGTTGAT 452

AGGCGGCGGT GTTTTCTTCA ATCCCCTGAT TACACTCTCA AGAATCTAGT GGCTGATGGA 512

TGTATGATTA CAG T GGC ACT TGC GTT ACA TCG AAG GTT TAT CCT CCG TTG 562

P Gly Thr Cys Val Thr Ser Lys Val Tyr Pro Pro Leu

90 95 100

AAG AAC TTC ACT GGG GCA AAC AAC TAC CCG GAC GGT ATC GGC CAG ATG 510

Lys Asn Phe Thr Gly Ala Asn Asn Tyr Pro Asp Gly Ile Gly Gln Met

105 110 115

CAG CAC TTC GTC AAC GAT GAT GGG ATG ACT ATT TTC CGC CTA CCC GTC 658

Gln His Phe Val Asn Asp Asp Gly Met Thr Ile Phe Arg Leu Pro Val

120 125 130

GGA TGG CAG TAC CTC GTA AAC AAC AAT CTG GGT GGA ACT CrC GAT TCC 706

Gly Trp Gln Tyr Leu Val Asn Asn Asn Leu Gly Gly Thr Leu Asp Ser

135 140 145

ACC AGT ATC TCG AAG TAT GAT CAG CTC GTT CAG GGG TGC CTG TCT CTC 754

Thr Ser Ile Ser Lys Tyr Asp Gln Leu Val Gln Gly Cys Leu Ser Leu

150 155 160 165

GGT GTA TAC TGC ATC ATC GAC ATC CAC AAT TAT GCT CGA TGG AAC GGT 802

Gly Val Tyr Cys Ile Ile Asp Ile His Asn Tyr Ala Arg Trp Asn Gly

170 175 180

GGA ATC ATT GGC CAG GGA GGC CCT ACA AAT GCC CAG TTT ACC AGT CTT 850

Gly Ile Ile Gly Gln Gly Gly Pro Thr Asn Ala Gln Phe Thr Ser Leu

185 190 195

TGG TCG CAG TTG GCA TCG AAG TAC GCG TCT CAG TCG AGG GTG TGG TTC 898

Trp Ser Gln Leu Ala Ser Lys Tyr Ala Ser Gln Ser Arg Val Trp Phe

200 205 210

GGA ATA ATG AAT GAG CCC CAC GAC GTG AAC ATC AAC ACT TGG GCT GCC 946

Gly Ile Met Asn Glu Pro His Asp Val Asn Ile Asn Thr Trp Ala Ala

215 220 225

ACG GTT CAA GAG GTC GTC ACT GCA ATC CGC AAC GCC GGT GCT ACG TCG 994

Thr Val Gln Glu Val Val Thr Ala Ile Arg Asn Ala Gly Ala Thr Ser

230 235 240 245

CAA TAC ATT TCT CTG CCT GGA AAT GAT TAT CAA TCT GCG GCA GCT TTT 1042

Gln Tyr Ile Ser Leu Pro Gly Asn Asp Tyr Gln Ser Ala Ala Ala Phe

250 255 260

ATT TCC GAT GGC AGT GCA GCC GCC CTG TCT CAG GTA ACG AAC CCT GAT 1090

Ile Ser Asp Gly Ser Ala Ala Ala Leu Ser Gln Val Thr Asn Pro Asp

265 270 275

GGA TCA ACA ACG AAT CTA ATC TTC GAT GTC CAC AAG TAC TTA GAC TCG 1138

Gly Ser Thr Thr Asn Leu Ile Phe Asp Val His Lys Tyr Leu Asp Ser

280 285 290

GAC AAC TCC GGT ACT CAC GCC GAA TGC ACT ACA AAC AAC ATC GAC GGC 1186

Asp Asn Ser Gly Thr His Ala Glu Cys Thr Thr Asn Asn Ile Asp Gly

295 300 305

GCC TTT GCT CCT CTC GCC ACT TGG CTT CGA CAG AAC AAC CGC CAG GCT 1234

Ala Phe Ala Pro Leu Ala Thr Trp Leu Arg Gln Asn Asn Arg Gln Ala

310 315 320 325

ATT CTG ACG GAA ACC GGC GGT GGC AAT GTT CAG TCC TGC ATC CAA GAT 1282

Ile Leu Thr Glu Thr Gly Gly Gly Asn Val Gln Ser Cys Ile Gln Asp

330 335 340

TTG TGC CAA CAG ATC CAG TAC CTC AAC CAG AAC TCA GAT GTC TAT CTT 1330

Leu Cys Gln Gln Ile Gln Tyr Leu Asn Gln Asn Ser Asp Val Tyr Leu

345 350 355

GGC TAT GCT GGC TGG GGT GCC GGT TCA TTT GAT AGC ACT TAT ATT CTG 1378

Gly Tyr Ala Gly Trp Gly Ala Gly Ser Phe Asp Ser Thr Tyr Ile Leu

360 365 370

ACG GAA ACG CCT ACT GGA AGC GGT AAC TCG TGG ACG GAC ACA TCC CTA 1426

Thr Glu Thr Pro Thr Gly Ser Gly Asn Ser Trp Thr Asp Thr Ser Leu

375 380 385

GTT AGC TCG TGT CTC GCC AGG AAG TAAGGTACTC GAG 1463

Val Ser Ser Cys Leu Ala Arg Lys

390 395

序列号：7

序列的长度：223

序列类型：氨基酸

拓扑型：直链形

序列种类：蛋白质

序列

Met Val Ser Phe Thr Ser Leu Leu Ala Gly Val Ala Pro Ile Ser Gly

-33 -30 -25 -20

Val Leu Ala Ala Pro Ala Ala Glu Val Glu Ser Val Asp Val Glu Lys

-15 -10 -5

Arg Gln Thr Ile Gln Pro Gly Thr Gly Tyr Asn Asn Gly Tyr Phe Tyr

-1 1 5 10 15

Ser Tyr Trp Asn Asp Gly His Gly Gly Val Thr Tyr Thr Asn Gly Pro

20 25 30

Gly Gly Gln Phe Ser Val Asn Trp Ser Asn Ser Gly Asn Phe Val Gly

35 40 45

Gly Lys Gly Trp Gln Pro Gly Thr Lys Asn Lys Val Ile Asn Phe Ser

50 55 60

Gly Thr Tyr Asn Pro Asn Gly Asn Ser Tyr Leu Ser Val Tyr Gly Trp

65 70 75

Ser Arg Asn Pro Leu Ile Glu Tyr Tyr Ile Val Glu Asn Phe Gly Thr

80 85 90 95

Tyr Asn Pro Ser Thr Gly Ala Thr Lys Leu Gly Glu Val Thr Ser Asp

100 105 110

Gly Ser Val Tyr Asp Ile Tyr Arg Thr Gln Arg Val Asn Gln Pro Ser

115 120 125

Ile Glu Gly Thr Ser Thr Phe Tyr Gln Tyr Trp Ser Val Arg Arg Thr

130 135 140

His Arg Ser Ser Gly Ser Val Asn Thr Ala Asn His Phe Asn Ala Trp

145 150 155

Ala Ser His Gly Leu Thr Leu Gly Thr Met Asp Tyr Gln Ile Val Ala

160 165 170 175

Val Glu Gly Tyr Phe Ser Ser Gly Ser Ala Ser Ile Thr Val Ser

180 185 190

序列号：8

序列的长度：822

序列类型：核酸

链数：二条链

拓扑型：直链形

序列种类：基因组DNA

起源

生物名：Trichoderma viride MC300-1

序列特征

表示特征的记号：sig peptide

存在位置：14..112

决定特征的方法：E

表示特征的记号：mat peptide

存在位置：113..809

决定特征的方法：E

表示特征的记号：内含子

存在位置：286..412

决定特征的方法：E

序列

AGGCCTGCGC ATC ATG GTC TCC TTC ACC TCC CTC CTC GCC GGC GTC GCG CCC 52

Met Val Ser Phe Thr Ser Leu Leu Ala Gly Val Ala Pro

-33 -30 -25

ATC TCC GGA GTC TTG GCC GCT CCC GCT GCT GAG GTC GAG TCC GTG GAC 100

Ile Ser Gly Val Leu Ala Ala Pro Ala Ala Glu Val Glu Ser Val Asp

-20 -15 -10 -5

GTT GAA AAG CGC CAG ACG ATT CAG CCC GGC ACG GGC TAC AAC AAC GGC 148

Val Glu Lys Arg Gln Thr Ile Gln Pro Gly Thr Gly Tyr Asn Asn Gly

-1 1 5 10

TAC TTC TAC TCG TAC TGG AAC GAC GGC CAC GGC GGC GTG ACG TAC ACC 196

Tyr Phe Tyr Ser Tyr Trp Asn Asp Gly His Gly Gly Val Thr Tyr Thr

15 20 25

AAT GGC CCC GGC GGC CAG TTC TCC GTC AAC TGG TCC AAC TCG GGC AAC 244

Asn Gly Pro Gly Gly Gln Phe Ser Val Asn Trp Ser Asn Ser Gly Asn

30 35 40

TTT GTC GGC GGC AAG GGA TGG CAG CCC GGC ACC AAG AAC AA 285

Phe Val Gly Gly Lys Gly Trp Gln Pro Gly Thr Lys Asn Ly

45 50 55

GTAAGACTAT ATACAACCCC ACCTTCTGAC CAAACCCCCT ATCCAACGAC AGAATATAAA 345

ACCAAGGGCG TGATTATCAT GGAGAGAGAG AGTGTGTGTG ATCTAACGGT TTTGTTCTGA 405

AAACAAG G GTC ATC AAC TTC TCG GGC ACC TAC AAC CCC AAC GGC AAC 452

s Val Ile Asn Phe Ser Gly Thr Tyr Asn Pro Asn Gly Asn

60 65 70

AGC TAC CTC TCC GTG TAC GGC TGG TCG CGC AAC CCC CTG ATC GAG TAC 500

Ser Tyr Leu Ser Val Tyr Gly Trp Ser Arg Asn Pro Leu Ile Glu Tyr

75 80 85

TAC ATC GTC GAG AAC TTT GGC ACC TAC AAC CCG TCC ACC GGC GCC ACC 548

Tyr Ile Val Glu Asn Phe Gly Thr Tyr Asn Pro Ser Thr Gly Ala Thr

90 95 100

AAG CTG GGC GAG GTG ACG TCG GAC GGC AGC GTC TAC GAC ATC TAC CGC 596

Lys Leu Gly Glu Val Thr Ser Asp Gly Ser Val Tyr Asp Ile Tyr Arg

105 110 115

ACG CAG CGC GTC AAC CAG CCG TCC ATC GAG GGC ACC TCC ACC TTT TAC 644

Thr Gln Arg Val Asn Gln Pro Ser Ile Glu Gly Thr Ser Thr Phe Tyr

120 125 130 135

CAG TAC TGG TCC GTC CGC CGC ACC CAC CGC TCC AGC GGC TCC GTC AAC 692

Gln Tyr Trp Ser Val Arg Arg Thr His Arg Ser Ser Gly Ser Val Asn

140 145 150

ACG GCG AAC CAC TTC AAC GCG TGG GCC TCG CAC GGC CTG ACG CTG GGC 740

Thr Ala Asn His Phe Asn Ala Trp Ala Ser His Gly Leu Thr Leu Gly

155 160 165

ACC ATG GAT TAC CAG ATT GTT GCC GTG GAG GGC TAC TTT AGC TCT GGC 788

Thr Met Asp Tyr Gln Ile Val Ala Val Glu Gly Tyr Phe Ser Ser Gly

170 175 180

TCT GCT TCC ATC ACC GTC AGC TAAGGTACTC GAG 822

Ser Ala Ser Ile Thr Val Ser

185 190

序列号：9

序列的长度：10

序列类型：氨基酸

拓扑型：直链形

片段种类：N末端片段

起源

生物名：Trichoderma viride MC300-l

序列

Ser Ala Xaa Thr Leu Gln Ala Glu Thr His

1 5 10

序列号：10

序列的长度：6

序列类型：氨基酸

拓扑型：直链形

片段种类：中间片段

起源

生物名：Trichoderma viride MC300-1

序列

Glu Phe Ser Phe Asp Val

1 5

序列号：11

序列的长度：18

序列类型：氨基酸

拓扑型：直链形

片段种类：中间片段

起源

生物名：Trichoderma viride MC300-1

序列

Glu Thr His Pro Pro Leu Thr Trp Gln Lys Xaa Ser Ser Gly Gly Thr

1 5 10 15

Xaa Thr

序列号：12

序列的长度：18

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

ATGTATCAAA AGTTGGCC 18

序列号：13

序列的长度：19

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TTACAAGCAC TGAGAGTAG 19

序列号：14

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TCACTTTCCA GCAGCCCAAC GCC

序列号：15

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CAACTCTCCC AACGCCAAGG TCG

序列号：16

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CGTCGGGTAG GTAGAGTCCA GCC

序列号：17

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TCTCGAACTG AGTGACGACG GTC

序列号：18

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CTGCCATGTC AGAGGCGGGT GAG

序列号：19

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

ACTCCAACAT CAAGTTCGGC CCC

序列号：20

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

AACTCCCACT GAGCCTTTAC GTC

序列号：21

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CAATTAAGTG GCTAAACGTA CCG

序列号：22

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GCAAAAATAT AGTCGAATCT GCC

序列号：23

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GCTGGAATGC TCGCTAGCTT GGC

序列号：24

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

ACTGTTGGAG ACCAGCTTGT CCG

序列号：25

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CGCAGTAGGA GAATAGAAAC CCC

序列号：26

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CTGCTGTCAA TCCCCGCTAC TGG

序列号：27

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CCTTCGAGAA AAGGAGATTC GCG

序列号：28

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CAGCTCCTTG GCAAAAGCAG TGG

序列号：29

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

AGATCATCAG TTGAGGTTAG ACC

序列号：30

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TGTATAAAAT TAGGTTCGGG TCC

序列号：31

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CTACTCATCA ACTCAGATCC TCC

序列号：32

序列的长度：24

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGAAGCCTCA GAAGTAGATA CAGC

序列号：33

序列的长度：20

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TCGACTACGG ACTGCGCATC

序列号：34

序列的长度：20

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

CAAGCTTTTG CCACAGTACC

序列号：35

序列的长度：36

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GATACATGAT GCGCAGGCCT TAGTCGACTA GAATGC

序列号：36

序列的长度：36

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GATCCTCAAG CTTTTGCTCG AGTACCTTAC AAGCAC

序列号：37

序列的长度：35

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGAGGGTGCA TGCCGACTGA GCCCGGGCAG TAGCC

序列号：38

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GCCGGGAGAG GATCCAGTGG AGG

序列号：39

序列的长度：30

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GCTCGAGTAC CTTACTGCAG GCACTGAGAG

序列号：40

序列的长度：29

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGGCATGCG CTGATGGCAA GTCCACCCG

序列号：41

序列的长度：33

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGGTCGACT ACCTTACAGG CACTGATGGT ACC

序列号：42

序列的长度：10

序列类型：氨基酸

拓扑型：直链形

片段种类：N末端片段

起源

生物名：Trichoderma viride MC300-1

序列

Gln Asp Val Trp Gly Gln Cys Gly Gly Ile

1 5 10

序列号：43

序列的长度：11

序列类型：氨基酸

拓扑型：直链形

片段种类：中间片段

起源

生物名：Trichoderma viride MC300-1

序列

Thr Pro Thr Gly Ser Gly Asn Ser Trp Thr Asp

1 5 10

序列号：44

序列的长度：7

序列类型：氨基酸

拓扑型：直链形

片段种类：中间片段

起源

生物名：Trichoderma viride MC300-1

序列

Ser Thr Tyr Ile Leu Thr Glu

1 5

序列号：45

序列的长度：15

序列类型：氨基酸

拓扑型：直链形

片段种类：中间片段

起源

生物名：Trichoderma viride MC300-1

序列

Phe Ala Gly Val Asn Ile Ala Gly Phe Asp Phe Gly Xaa Thr Thr

1 5 10 15

序列号：46

序列的长度：19

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

ATGAACAAGT CCGTGGCTC

序列号：47

序列的长度：23

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

TTACTTTCTT GCGAGACACG AGC

序列号：48

序列的长度：36

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGAGGCCTG CGCATCATGG CTCCATTGCT GCTTGC

序列号：49

序列的长度：36

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGCTCGAGT ACCTTACTTC CTGGCGAGAC ACGAGC

序列号：50

序列的长度：14

序列类型：氨基酸

拓扑型：直链形

片段种类：N末端片段

起源

生物名：Trichoderma viride MC300-1

序列

Gln Thr Ile Gly Pro Gly Thr Gly Phe Asn Asn Gly Tyr Phe

1 5 10

序列号：51

序列的长度：35

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGAGGCCTG CGCATCATGG TCTCCTTCAC CTCCC

序列号：52

序列的长度：34

序列类型：核酸

拓扑型：直链形

序列种类：其它核酸合成核酸

序列

GGGCTCGAGT ACCTTAGCTG ACGGTGATGG AAGC

Claims

1.含有序列1中1～1437号碱基的启动子序列，具有实现每升培养液7g以上的目的蛋白质表达的启动子活性。

2.权利要求1记载的启动子序列，目的蛋白质是葡聚糖内切酶NCE4。

3.权利要求1记载的启动子序列，具有每升培养液生产15g以上的目的蛋白质的启动子活性。

4.权利要求3记载的启动子序列，其中，目的蛋白质是葡聚糖内切酶NCE4。

5.含有序列1中1～1437号碱基的启动子序列的表达载体。

6.权利要求5记载的表达载体，其中还含有序列1中3112～4167号碱基的终止子序列。

7.权利要求5记载的表达载体，含有可操作的连接于上述启动子序列的编码目的蛋白质或肽的碱基序列。

8.权利要求7记载的表达载体，其中，上述目的蛋白质是来自傲慢霉质菌(Humicola insolens)的葡聚糖内切酶。

9.权利要求8记载的表达载体，其中，来自傲慢霉质菌的葡聚糖内切酶是葡聚糖内切酶NCE4。

10.权利要求7记载的表达载体，其中，上述目的蛋白质是来自绿色木霉(Trichoderma viride)的葡聚糖内切酶。

11.权利要求10记载的表达载体，其中，来自绿色木霉的葡聚糖内切酶是葡聚糖内切酶SCE3。

12.权利要求7记载的表达载体，其中，上述目的蛋白质是来自绿色木霉的木聚糖酶。

13.权利要求12记载的表达载体，其中，来自绿色木霉的木聚糖酶是木聚糖酶SXY1。

14.权利要求5记载的表达载体，还含有选择标记。

15.权利要求14记载的表达载体，其中，选择标记是潮霉素B抗性基因。

16.表达载体pCB1-MX、pCB1-M2XR、pCB1-HEgX、pCB1-Eg3X、pCB-XI’。

17.权利要求5记载的表达载体转化的宿主细胞。

18.权利要求17记载的宿主细胞，是属于木霉属微生物。

19.权利要求18记载的宿主细胞，其中属于木霉属的微生物是绿色木霉。

20.权利要求19记载的宿主细胞，其中属于木霉属的微生物是绿色木霉的菌株绿色木霉MC300-1或其细胞系。

21.目的蛋白质的生产方法，其中包括培养权利要求17记载的宿主细胞、从培养物中提取上述目的蛋白质的工序。

22.权利要求21记载的方法，其中每一升培养液可生产7g以上的目的蛋白质。

23.权利要求21记载的方法，其中每一升培养液可生产15g以上的目的蛋白质。