CN1624137A

CN1624137A - 一种编码糖基水解酶家族5的纤维素酶的基因及其应用

Info

Publication number: CN1624137A
Application number: CNA2003101168798A
Authority: CN
Inventors: 冯家勋; 段承杰; 庞浩; 靳振江; 张鹏; 封毅; 许跃强; 唐纪良
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2003-12-01
Filing date: 2003-12-01
Publication date: 2005-06-08
Anticipated expiration: 2023-12-01
Also published as: CN1272438C

Abstract

本发明涉及一种编码纤维素酶的基因umcel5A，其特征在于含有SEQID NO：2的核苷酸序列或其同源序列，其中所述同源序列具有与SEQID NO：2的核苷酸序列80％以上的同源性。本发明还涉及该基因编码的纤维素酶(SEQID NO：3)及该酶在降解纤维素中的应用。

Description

一种编码糖基水解酶家族5的纤维素酶的基因及其应用

技术领域

本发明涉及一种新的编码糖基水解酶家族5的纤维素酶的基因，特别是涉及克隆自堆肥未培养微生物的一种新的编码糖基水解酶家族5的纤维素酶的基因，该基因编码的蛋白质可用于纤维素的降解。

背景技术

纤维素主要是植物用二氧化碳和水在太阳能作用下通过光合作用合成的地球上最丰富的可再生的生物质(biomass)资源。据报道，全球每年通过光合作用产生的纤维素高达1.55×10⁹吨，其中89％尚未被人类利用(Dunlap C，Chiang G C.Utilization and recycle of agriculture wastes andresidues.Shuler M L.Boca Raton，Florida.USA：CRC Press Inc.1980.19)。纤维素是多个葡萄糖残基以β-1，4-糖苷链连接而成的多聚物，其基本重复单位为纤维二糖。天然纤维素的基本结构是由原纤维构成的微纤维束集合而成。原纤维是由15-40根有结晶区和非结晶区构成的纤维素分子长链所组成。纤维素的结晶部分是由纤维素分子进行非常整齐规划地折迭排列形成。在天然纤维素中，木质素和半纤维素形成牢固结合层，紧密地包围纤维素。纤维素酶是能将纤维素转化成葡萄糖的一系列酶的总称，包括三类酶即内切-β-1，4-葡聚糖酶(endo-β-1，4-glucanase，EC 3.2.1.4)、外切葡聚糖酶(exoglucanase，又叫纤维二糖水解酶cellobiohydrolase，EC3.2.1.91)和β-葡萄糖苷酶(β-glucosidase，EC3.2.1.21)，这三种酶协同作用能将纤维素转化成葡萄糖。内切葡聚糖酶作用于纤维素长链分子的内部将长纤维切成短纤维，外切葡聚糖酶作用于纤维素分子的一端，以两个葡萄糖残基为单位进行切割生成纤维二糖，β-葡萄糖苷酶切割纤维二糖生成葡萄糖(Tomme P，Warren R A J，Gilkes N R.1995.Cellulosehydrolysis by bacteria and fungi.Adv.Microbiol.Physiol.，37：1-81.1995；Bhat M K，Bhat S.1997.Cellulose degrading enzymesand their potential industrial applications.BiotechnologyAdvances，15：583-620)。葡萄糖可作为重要的工业原料生产酒精、丙酮等化工产品。纤维素的利用与转化对于解决世界能源危机、粮食和饲料短缺、环境污染等问题具有重要意义。纤维素酶可广泛应用于酿酒、饲料、食品、纺织、造纸等行业。如纤维素酶作为饲料添加剂可增加饲料的可消化性，减少排泄的粪便量。纤维素酶可取代浮石进行牛仔裤的“石洗”处理，也可处理其它含纤维织物以降低粗糙度和增加光亮。纤维素酶可添加到洗涤剂中以提高洗涤剂的清洁能力(Bhat M K.2000.Cellulases andrelated enzymes in biotechnology.BiotechnologyAdvances，18：355-383)。由于纤维素酶的广泛用途以及针对不同的用途需要使用不同性质的纤维素酶，更由于纤维素酶的效率低、价格高而使以纤维素为原料生产燃料酒精的成本太高以至于无法真正实现产业化，因此，需要新的纤维素酶。

纤维素酶属于糖基水解酶类(glycosyl hydrolases)，许多糖基水解酶由一个催化功能域和一个或更多个其它的功能域如碳水化合物结合组件(carbohydrate-binding modules，CBMs)组成，根据催化功能域的氨基酸序列相似性，糖基水解酶类被划分成不同的家族(families)(Davies G.，Henrissat B.1995.Structures and mechanisms of glycosyl hydrolases.Structure3：853-859；Henrissat B.1991.A classification of glycosyl hydrolases based onamino-acid sequence similarities.Biochem.J.280：309-316；Henrissat B.，Bairoch A.1993 New families in the classification of glycosyl hydrolases basedon amino-acid sequence similarities.Biochem.J.293：781-788；Henrissat B.，Bairoch A.1996.Updating the sequence-based classification of glycosylhydrolases.Biochem.J.316：695-696)。根据Expasy服务器(server)(http://www.expasy.org/cgi-bin/lists？glycosid.txt)上所列糖基水解酶类的最新清单，目前糖基水解酶类有68个家族，纤维素酶分属于糖基水解酶类家族3、5、6、7、8、9、12、44、45、48、61。将未知的纤维素酶与已知的纤维素酶做序列同源性比较可对其进行分类。

目前除Rees等(Rees HC，Grant S，Jones B，Grant WD，Heaphy S.2003.Detecting cellulase and esterase enzyme activities encoded by novelgenes present in environmental DNA libraries.Extremophiles.7(5)：415-421)报道从湖水和湖床沉积物未培养微生物中克隆到2个纤维素酶基因CRATCEL和HKCEL以及Voget等(Voget S，Leggewie C，Uesbeck A，RaaschC，Jaeger KE，Streit WR.2003.Prospecting for novel biocatalysts in a soilmetagenome.Appl Environ Microbiol.，69(10)：6235-6242)报道从土壤未培养微生物中克隆到2个纤维素酶基因gnuB和uvs080外，人类所克隆的所有其它纤维素酶基因都是从人类所培养的微生物中来的，但并不是自然界中所有微生物都是可以被分离、培养的，一般认为可培养的微生物种类只占自然界中微生物种类的1％(Amann R I，Ludwig W，Schleifer K H.1995.Phylogenetic identification and in situ detection of individual microbial cellswithout cultivation.Microbiol.Rev.59：143-169)，那么剩余的99％的不可培养的微生物中蕴藏着大量的基因资源。近年来从环境样品未培养微生物提取基因组DNA然后构建混合基因组DNA文库以分离基因已是成熟技术(Lorenz P，Schleper C.2002.Metagenome-a challenging sourceof enzyme discovery.Journal of Molecular Catalysis B：Enzymatic19-20：13-19)。由于堆肥是纤维素等被活跃降解的地方，有大量的微生物在进行纤维素、半纤维素、果胶物质等的分解，但这些分解性的微生物只有极少部分已被培养，还有极大部分未被培养，这些未培养微生物中一定含有大量的基因资源如纤维素酶基因资源，其中很可能有些就是优于目前所发现的最好的纤维素酶的高效酶的基因。通过构建堆肥未培养微生物的混合基因组DNA文库，极有可能从中筛选得到比目前已知的最好的纤维素酶还要好的酶的基因。

本发明通过构建堆肥未培养微生物的混合基因组DNA文库和文库克隆的纤维素酶活性平板检测筛选法，得到了新的编码纤维素酶的基因，可在宿主细胞中大量表达该基因以生产该纤维素酶，用于纤维素的降解。

发明内容

本发明涉及一种新的编码纤维素酶的基因umcel5A(SEQ ID NO：2)，其是从堆肥未培养微生物中分离得到。堆肥未培养微生物的DNA(SEQ IDNO：1)由1500个碱基组成，含完整的纤维素酶基因umcel5A，自5’端的第276-1319位核苷酸为umcel5A的开放阅读框(Open Reading Frame，ORF)，自5’端的第276-278位核苷酸为umcel5A基因的起始密码子ATG，自5’端的第1320-1322位核苷酸为umcel5A基因的终止密码子TAA。自5’端的第261-266位核苷酸为SD序列。携带该基因的质粒pGXN5002已在中国普通微生物菌种保藏管理中心保存(北京市中关村北一条13号2714信箱)，保存编号为CGMCC No.1052，保存日期为2003年11月26日，保藏的微生物为大肠埃希氏菌(Escherichia coli)EPI100/pGXN5002。

SEQ ID NO：3的蛋白质是基因umcel5A编码的纤维素酶产物Umcel5A，由348个氨基酸组成，自N端的第1-23位氨基酸为信号肽，自N端的第33-314位氨基酸为家族5糖基水解酶(glycosyl hydrolase)功能域，和Umcel5A催化功能域同源性最高的为野油菜黄单胞菌野油菜致病变种(Xanthomonas campestris pv.campestris)的纤维素酶EGL(TrBMBL索引号Q8PEF2；da Silva AC et al.2002，Comparison of the genomesof two Xanthomonas pathogens with differing host specificities.Nature.417：459-463)的催化功能域(e-值为3e-66)，两者的相似性为56％、相同性为44％。

基因umcel5A在大肠杆菌中表达的重组产物Umcel5A能降解羧甲基纤维素。

本发明还涉及含有本发明基因的表达载体，及用于转化本发明基因的宿主。

本发明提供了一种新的纤维素酶基因，该基因所编码的纤维素酶在纤维素的降解中具有广泛的用途。

附图说明

图1为从堆肥样品中提取的未培养微生物的混合基因组DNA。1：λMix(片段大小从大到小依次为：48.5kb，38.4kb，33.5kb，29.9kb，24.5kb，24.0kb，19.4kb，17.1kb，15.0kb，12.2kb，10.1kb，8.6kb，8.3kb)；2：BamHI酶切的混合基因组DNA；3：未酶切的混合基因组DNA；4：未酶切的λDNA(48.5kb)

图2为堆肥未培养微生物基因文库克隆的限制性内切酶BamHI酶切分析以判断文库质量。M1：λ/EcoRI(片段大小从大到小依次为：21.2kb，7.4kb，5.8kb，5.6kb，4.9kb，3.5kb)；M2：1kb ladder(片段大小从大到小依次为：10.0kb，8.0kb，6.0kb，5.0kb，4.0kb，3.5kb，3.0kb，2.5kb，2.0kb，1.5kb)；M3：λ/HindIII(片段大小从大到小依次为：23.1kb，9.4kb，6.6kb，4.4kb，2.3kb，2.0kb)；其它泳道分别为文库克隆。

图3为堆肥未培养微生物基因文库克隆的筛选。

图4为能降解羧甲基纤维素的文库克隆质粒pGXN5002的BamHI酶切带型。1：λ/EcoRI(片段大小从大到小依次为：21.2kb，7.4kb，5.8kb，5.6kb，4.9kb，3.5kb)；2：1kb ladder(片段大小从大到小依次为：10.0kb，8.0kb，6.0kb，5.0kb，4.0kb，3.5kb，3.0kb，2.5kb，2.0kb，1.5kb)；3：pGXN5002/BamHI。

图5为初筛获得的重组质粒pGXN5002转化大肠杆菌后得到的转化子能降解羧甲基纤维素(右)，而空载体pWEB∷TNC转化大肠杆菌后得到的转化子不能降解羧甲基纤维素(左)。

具体实施方式

下述实施方式是为了更好的解释本发明，而不应被解释为限制本发明的目的。

在本发明的实施例中所用到的材料包括：大肠杆菌(Escherichia coli)株系EPI100(属购自Epicentre公司的文库制备试剂盒pWEB∷TNC cosmidcloning kit(目录号WEBC931)的一个组分)；载体为购自Epicentre公司的柯斯质粒载体pWEB∷TNC；购自Epicentre公司的文库制备试剂盒(pWEB∷TNC cosmid cloning kit，目录号WEBC931)和缺失柯斯质粒转座试剂盒(pWEB∷TNC deletion cosmid transposition kit，目录号WEBC942)，购自Promega、Stratagene、SIGMA、QIAGEN的限制性内切酶、修饰酶等试剂。

实施例1.堆肥的堆制

堆肥的堆制是在一个自制的1米×1米×1.2米的水泥槽中进行，该槽内置通风管道。管道和槽外的一个鼓风机相连。堆肥的配方为：稻草，50kg；牛粪，50kg；猪粪，10kg；鸡粪，10kg；废报纸，5kg；农村堆肥，80kg；森林土，2.5kg；青草皮，5kg；果园土，2.5kg；菜园土，5kg；竹林土，5kg；酵母粉，0.065kg；硫酸铵，1kg；尿素，0.411kg；水，67kg。把稻草切成5cm左右长，按照上述配方称取各原材料，把除稻草以外的各配方材料混合均匀，然后再和稻草秸秆混匀，在此过程中添加适量的水，使堆肥的最终含水量控制在59％左右。混合均匀后装填堆肥发酵池。供气方式采用鼓风机强制通气，从发酵池底部供气。加水为从堆肥顶部淋适量的自来水。

实施例2.堆肥未培养微生物的基因组文库的构建

取50g堆肥土壤，悬浮在100ml的0.18M磷酸钾缓冲液(pH7.2)中，充分混匀后在Beckman Coulter Avanti J-E离心机(购自Beckman Coulter公司，目录号369003)JA-10转头上用600g离心力离心10分钟，收集上清液，加入40ml PVPP(聚乙烯聚吡咯烷酮，polyvinylpolypyrrolidone)溶液(PVPP溶液：每100mgPVPP(购自Sigma公司，目录号P-6755)与1ml0.18M磷酸钾缓冲液(pH7.2)混匀)，振荡30秒，再加入200μl 3M CaCl2溶液，振荡30秒后，600g离心力离心5分钟，收集上清液于另一个离心管中。再用同样的离心机、转头用8000g离心力离心15分钟收集上清液中的细菌细胞。将收集到的菌体充分悬浮在1ml TE(10mM Tris/HCl，pH8.0，1mM EDTA，pH8.0)溶液中，加入100μl溶菌酶(20mg/ml，溶于TE溶液)，在37℃下作用30分钟，在Eppendorf5417C离心机(购自Eppendorf公司，目录号19718)上以10000g离心1分钟以沉淀细胞，再将细胞充分悬浮在600μl PUREGENE公司的基因组DNA纯化试剂盒(Genomic DNAPurification Kit，目录号R-5500A)的细胞裂解缓冲液(Cell Lysis Solution)中，置80℃水浴锅5分钟以裂解细胞，待样品冷却到室温后，加入200μl上述试剂盒中的蛋白质沉淀溶液(Protein Precipitation Solution)，充分混匀后13000g离心3分钟，将上清液转移到一个新的1.5ml微量离心管中，加入600μl 100％异丙醇，充分混匀后即见DNA絮状沉淀析出，挑出DNA絮状沉淀，用70％乙醇洗2次DNA，干燥后将DNA溶于500μl TE溶液即得DNA粗提物。

将DNA粗提物加到含有Sephadex G200(购自Pharmacia公司，目录号17-0080-01)和2％PVPP(购自Sigma公司，目录号P-6755)的层析柱(200mm×10mm)上，用TE缓冲液洗脱，按每组分1ml分部收集洗脱液，每一组分加入100μl的3M醋酸钠溶液(pH4.8)及1ml异丙醇沉淀DNA，把沉淀物溶于TE中，合并所得DNA溶液(见图1)，0.7％琼脂糖凝胶电泳后切下含20kb以上的DNA的凝胶，用电洗脱法回收纯化DNA。为了用这些纯化的DNA制做基因文库，首先对这些DNA进行末端修补以产生平头末端而和文库制备试剂盒中已处理好的同样具平头末端的pWEB∷TNC载体相连，依次在冰上向一个新的灭过菌的微量离心管中加入：6μl 10X末端修补缓冲液(330mM Tris-醋酸[pH7.8]，660mM醋酸钾，100mM醋酸镁，5mMDTT)，6μl 2.5mMdNTP混合物(每种2.5mM)，6μl 10mM ATP，40μl DNA(0.2μg/μl)，2μl末端修补酶混合物(T4DNA聚合酶和T4多聚核苷酸激酶)。25℃下放置45分钟，再转移到70℃水浴锅放置10分钟以终止酶反应，1.0％低熔点琼脂糖凝胶电泳后切下含25kb-45kb的DNA的凝胶进行DNA回收，为了使回收片段与文库制备试剂盒中已处理好的具平头末端的载体在T4 DNA连接酶的作用下连接起来，依次在冰上向一个新的灭过菌的微量离心管中加入：12μl无菌水，2μl 10倍快速连接缓冲液(10XFast-Link Ligation Buffer)，1μl 10mMATP，1μl pWEB∷TNC载体(0.5μg)，3μl低熔点琼脂糖凝胶回收的25kb-45kb的DNA(0.1μg/μl)，1μl快速连接DNA连接酶(Fast-Link DNALigase，2单位/μl)，混匀后在25℃下放置2个小时，再在70℃放置10分钟以终止酶反应。为了将连接反应产物用λ包装提取物(属购自Epicentre公司的文库制备试剂盒pWEB∷TNC cosmid cloning kit(目录号WEBC931)的一个组分)包装，将在冰上刚刚溶化的λ包装提取物(属购自Epicentre公司的文库制备试剂盒pWEB∷TNC cosmid cloning kit(目录号WEBC931)的一个组分)25μl立即转移到一个新的灭过菌的微量离心管中并快速置于冰上，再往其中加入10μl连接反应产物，充分混匀后置于30℃90分钟后，再往其中加入25μl溶化的λ包装提取物，充分混匀后置于30℃90分钟，向其中加入500μl噬菌体稀释缓冲液(10mM Tris-HCl[pH8.3]，100mM NaCl，10mM MgCl₂)，再将该560μl包装反应产物加入到5.6mL的OD₆₀₀＝1.0的宿主大肠杆菌EPI100培养液(培养基为LB[每升含胰蛋白胨(Oxoid)，10g；酵母浸出粉(Difco)，5g；NaCl，5g；pH7.0]+10mM MgSO₄)中，25℃下放置20分钟让上述得到的包装的λ噬菌体吸附和侵染宿主细胞E.coli EPI100，在含氨苄青霉素(100μg/mL)的LA平板上筛选转化子。结果共获得约10万个转化子，任意提取24个克隆的质粒DNA，限制性内切酶BamHI酶切后0.7％琼脂糖凝胶电泳分析，结果所有质粒除都有一个5.8kb的载体片段外，都含有插入片段，且没有发现有两个质粒具有相同的酶切带型(见图2)，说明文库含有非常随机的插入DNA片段，插入片段最大的为44.2kb，最小的为20.0kb，平均大小为31.1kb。说明文库的克隆容量也是相当大的，文库的质量相当好。

实施例3.从堆肥未培养微生物的基因组文库中筛选表达纤维素酶活性的克隆

用平板影印法将含氨苄青霉素的LA平板上得到的转化子(每平板约200个菌落左右)分别影印到含0.5％羧甲基纤维素(carboxylmethylcellulose，CMC)(购自Sigma公司，目录号C-5678)的LA平板、含氨苄青霉素(100μg/mL)的LA平板上，将平板倒置于37℃培养箱培养24小时后，将长满菌落的含氨苄青霉素的LA平板置于4℃冰箱保存，将长满菌落的含羧甲基纤维素的LA平板用0.5％刚果红溶液染色15分钟，用1M的NaCl溶液脱色15分钟，然后检测菌落周围有无水解圈(见图3)，结果共筛选到4个菌落周围有水解圈的克隆，本发明只涉及其中一个克隆，进一步提取该克隆的质粒DNA并将其命名为pGXN5002，用限制性内切酶BamHI完全酶切pGXN5002后，进行0.7％琼脂糖凝胶电泳分析，结果pGXN5002除有一个5.8kb的载体片段外，还给出另外9条BamHI片段，大小分别为10.0kb、9.5kb、4.5kb、4.2kb、3.6kb、3.3kb、2.0kb、1.8kb和1.5kb(见图4)，说明pGXN5002含有40.4kb的插入片段。

为了证实pGXN5002的插入片段确实含有纤维素酶基因，用pGXN5002质粒DNA和空载体pWEB∷TNC分别转化E.coli EPI100，在含氨苄青霉素(100μg/mL)的LA平板上筛选转化子，随机挑取由每个质粒转化得到的10个转化子点接到含0.5％羧甲基纤维素的LA平板上，37℃培养24小时后，用0.5％刚果红溶液染色15分钟，用1M的NaCl溶液脱色，然后观察菌落周围有无水解圈，结果所有10个由空载体pWEB∷TNC转化得到的转化子周围都没有水解圈，所有10个由pGXN5002转化得到的转化子周围都有水解圈，图5给出各一个转化子的检测结果。从而证明重组质粒pGXN5002的插入片段上确实含有纤维素酶基因。将重组质粒pGXN5002于2003年11月26日保存在中国普通微生物菌种保藏管理中心，保藏号为CGMCC No.1052。

实施例4.重组质粒pGXN5002上纤维素酶基因的测序

为了测定重组质粒pGXN5002上纤维素酶基因的DNA序列，首先用Epicentre公司生产的缺失柯斯质粒转座试剂盒(pWEB∷TNC deletioncosmid transposition kit，目录号WEBC942)来获得pGXN5002沿着一个方向缺失不同长度的DNA的缺失克隆。为了这个目的，先进行体外转座反应，按顺序向一个新的灭过菌的EP管中加入1μl EZ∷TN 10倍反应缓冲液(0.5M Tris-醋酸(pH7.5)，1.5M醋酸钾，100mM醋酸镁和40mM亚精胺)、1μl pGXN5002质粒DNA(0.2μg/μl)、7μl无菌水和1μl EZ∷TN转座酶，充分混匀后于37℃水浴保温2小时，再加入1μl EZ∷TN 10X终止溶液(1％SDS溶液)，混匀后置70℃水浴10分钟。用1μl反应液转化E.coli EPI100，在含氨苄青霉素(50μg/mL)的LA平板上筛选转化子。再将转化子分别点接到含氨苄青霉素(50μg/mL)的LA平板、氯霉素(12μg/mL)LA平板上，筛选并留取氯霉素敏感、氨苄青霉素抗性的转化子，进一步将这些转化子点接到含0.5％羧甲基纤维素的LA平板上，检测哪些转化子能降解羧甲基纤维素和哪些不能，随机挑选一些转化子提取质粒，用0.7％琼脂糖凝胶电泳分析质粒大小，从能降解羧甲基纤维素的转化子中选取一个最小的质粒(pGXN5002-A21)进行测序。对于不能降解羧甲基纤维素的转化子，其大小比pGXN5002小1.7kb的质粒，是因1.7kb氯霉素抗性基因转座过程中重组缺失造成的，而pGXN5002上的插入片段没有发生缺失，因而不予考虑，将其它质粒的大小和pGXN5002-A21进行比较，挑取大小和pGXN5002-A21比较接近的质粒进行测序。用双脱氧核苷酸法在ABI377 DNA自动测序仪(购自PE Biosystems公司，目录号100002252)上测定DNA核苷酸序列。用软件DNAStar(DNASTAR公司，版本5)对序列进行拼接，得到SEQ ID NO：1的核苷酸序列，用NCBI(National Centerfor Biotechnology Information，http://www.ncbi.nlm.nih.gov)上的软件如ORF finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)，Blast(http://www.ncbi.nlm.nih.gov/BLAST)对DNA序列进行分析。

实施例5.纤维素酶基因umcel5A的核苷酸序列分析

SEQ ID NO：1的DNA的自5’端的第276-1319位核苷酸为基因umcel5A的开放阅读框(open reading frame，ORF)，由1044个核苷酸组成，自5’端的第276-278位核苷酸为umcel5A基因的起始密码子ATG，自5’端的第1320-1322位核苷酸为umcel5A基因的终止密码子TAA。在其推测的起始密码子ATG(核苷酸位置276)的上游相隔9 bp处有一个潜在的核糖体结合位点(ribosome binding site，RBS，又叫Shine-Dalgarno序列)序列AGGAGG，该序列可使mRNA和细菌核糖体16S rRNA的3’端碱基互补配对。在其编码区上游，没有一个典型的σ70所识别的启动子序列(大肠杆菌的保守的σ70所识别的启动子序列为相隔17bp的TTGACA和TATAAT)。

实施例6.纤维素酶基因umcel5A编码的产物Umcel5A的氨基酸序列分析

纤维素酶基因umcel5A编码一个含348个氨基酸的蛋白质，用DNAStar软件预测该蛋白质的理论分子量大小为39434.7道尔顿，等电点pI为6.34。

用简单组件结构研究工具(Simple Modular Architecture ResearchTool，SMART，http://smart.embl-he idelberg.de)分析由DNA序列推测的堆肥未培养微生物的纤维素酶Umcel5A的组件结构，结果是自N端的第1-23位氨基酸为信号肽，自N端的第33-314位氨基酸为家族5糖基水解酶(glycosyl hydrolase)功能域。搜寻TrEMBL、PIR-PSD、SWISS-PROT和PDB数据库，发现Umcel5A的家族5催化功能域和家族5的其它内切-β-1，4-葡聚糖酶的催化功能域具有一定的同源性，如和野油菜黄单胞菌野油菜致病变种(Xanthomonas campestris pv.campestris)的纤维素酶EGL(TrEMBL索引号Q8PEF2)的催化功能域的相似性为56％、相同性为44％(e-值为3e-66)。和Xan thomonas axonopodis pv.citri的纤维素酶(TrEMBL索引号Q8PRD3)的催化功能域的相似性为56％、相同性为44％(e-值为6e-66)。和茄青枯假单胞菌(Ralstonia solanacearum)的内切-1，4-β-D-葡聚糖酶EGL(PIR索引号A42649，A32884；SWISS-PROT索引号P17974)的催化功能域的相似性为52％、相同性为39％(e-值为2e-58)。和Fibrobacter succinogenes的内切-1，4-β-D-葡聚糖酶CMCASE(TrEMBL索引号Q59442)的催化功能域的相似性为64％、相同性为48％(e-值为e-113)。和Thermoascusaurantiacus家族5纤维素酶(PDB索引号1GZJ)的催化功能域的相似性为45％、相同性为32％(e-值为3.2e-34)。

SEQUENCE LISTING

<110>广西大学

<120>一种编码糖基水解酶家族5的纤维素酶的基因及其应用

<130>I030740

<160>3

<170>PatentIn version 3.1

<210>1

<211>1500

<212>DNA

<213>堆肥未培养微生物

<220>

<221>CDS

<222>(276)..(1322)

<223>

<400>1

gcgcccatcg aaggcatgag cgcggggctg actccgctgc tcagcgatat tcctcctttc 60

cagcgcttgg caaaacgctc cggactgggc ttcactatca gtaccaacgc accgttggac 120

accgccatag acagtctcct gcagcttcat gcggaggggc aggatgccta tcttgcgcgg 180

cggcggattg ccatgtcctt ttcccggcag tacgcctggc ccagagtagc tgagcgctac 240

ctggagttat acgacaagtt aggaggtcga ccatc atg aaa acc ctt ttc cat 293

Met Lys Thr Leu Phe His

1 5

tct ctc atc tgc ctg gcg ctg aca ttc ttc gta tca gcg gcc cat gcc 341

Ser Leu Ile Cys Leu Ala Leu Thr Phe Phe Val Ser Ala Ala His Ala

10 15 20

aac acc tgt ctc agt tcg ccg cgt ctc acc gga gtc aac atc gcc ggt 389

Asn Thr Cys Leu Ser Ser Pro Arg Leu Thr Gly Val Asn Ile Ala Gly

25 30 35

gcg gag ttc aac gca aaa cgt ctg ccc ggc gtt atc ttc aag gat tac 437

Ala Glu Phe Asn Ala Lys Arg Leu Pro Gly Val Ile Phe Lys Asp Tyr

40 45 50

acc tac ccg aaa gac tct gag ctg gcc tac att gcc gcg cag ggt gcc 485

Thr Tyr Pro Lys Asp Ser Glu Leu Ala Tyr Ile Ala Ala Gln Gly Ala

55 60 65 70

aat gtc atc cgc ctg ccg ttt cgc tgg gag cgg ctg cag ccg gaa ccg 533

Asn Val Ile Arg Leu Pro Phe Arg Trp Glu Arg Leu Gln Pro Glu Pro

75 80 85

aac aag ccc ttc aac ggc gat gaa ctc aag cgt ctg aaa aat acg gta 581

Asn Lys Pro Phe Asn Gly Asp Glu Leu Lys Arg Leu Lys Asn Thr Val

90 95 100

aat aag gcc agc gcc caa ggc ctg tgt gtc atc ctc gac gtg cac aat 629

Asn Lys Ala Ser Ala Gln Gly Leu Cys Val Ile Leu Asp Val His Asn

105 110 115

tac gcg gag tat tac ggc gaa tct ttc gag gac aaa ccc gcg ctg gag 677

Tyr Ala Glu Tyr Tyr Gly Glu Ser Phe Glu Asp Lys Pro Ala Leu Glu

120 125 130

agc gcc ttc att gat ctg tgg cgc cgc ctg gcc aaa gaa ttc acc gac 725

Ser Ala Phe Ile Asp Leu Trp Arg Arg Leu Ala Lys Glu Phe Thr Asp

135 140 145 150

ccg acg cag acc atc ttc ggc ctg atg aac gag ccg gcc cac acc cct 773

Pro Thr Gln Thr Ile Phe Gly Leu Met Asn Glu Pro Ala His Thr Pro

155 160 165

gtc gcc aac tgg gcc gcc ctg gcc aaa cgc acg gta aag atg ctg cgt 821

Val Ala Asn Trp Ala Ala Leu Ala Lys Arg Thr Val Lys Met Leu Arg

170 175 180

gac gaa ggc tcc acc aat cag atc ttt gtg gcc ggc ggc agc tgg agc 869

Asp Glu Gly Ser Thr Asn Gln Ile Phe Val Ala Gly Gly Ser Trp Ser

185 190 195

ggc ctg cac gac tgg ttc aaa ccc aag ggt gac acc tcc aac gcg gcg 917

Gly Leu His Asp Trp Phe Lys Pro Lys Gly Asp Thr Ser Asn Ala Ala

200 205 210

gaa ttt gcc gac ctg aaa gac ccc ctc aac cgc acc acc atc gaa gtg 965

Glu Phe Ala Asp Leu Lys Asp Pro Leu Asn Arg Thr Thr Ile Glu Val

215 220 225 230

cac caa tac gcc gac gaa tgg tat tcc ggt acc aag acc gac tgt cat 1013

His Gln Tyr Ala Asp Glu Trp Tyr Ser Gly Thr Lys Thr Asp Cys His

235 240 245

cca ccg gag cac ttc gac ccc cgc ttc gaa cgc atc agt gcc tgg gcc 1061

Pro Pro Glu His Phe Asp Pro Arg Phe Glu Arg Ile Ser Ala Trp Ala

250 255 260

gaa gaa cac aag cag cag ctg ttt ctg ggt gaa ttc ggt atg gcc acc 1109

Glu Glu His Lys Gln Gln Leu Phe Leu Gly Glu Phe Gly Met Ala Thr

265 270 275

aca aaa gaa tgc ctg gaa gtg ctg gaa cgc ttt tta tcg ctg atg aaa 1157

Thr Lys Glu Cys Leu Glu Val Leu Glu Arg Phe Leu Ser Leu Met Lys

280 285 290

ggc ccc gcc tgg aaa ggt tgg act tac tgg gcc gcc ggt ggc tgg tgg 1205

Gly Pro Ala Trp Lys Gly Trp Thr Tyr Trp Ala Ala Gly Gly Trp Trp

295 300 305 310

ggc gac tac ccc ttt gca ctg aac acc aac gcc gct acg cca tcc ttg 1253

Gly Asp Tyr Pro Phe Ala Leu Asn Thr Asn Ala Ala Thr Pro Ser Leu

315 320 325

cag tgg aag ctg ctg aaa gat cat ttt tat atc gtc aac ccg cct aat 1301

Gln Trp Lys Leu Leu Lys Asp His Phe Tyr Ile Val Asn Pro Pro Asn

330 335 340

cca ccg gag ccg gtg aat taa ctcaacgtac gcattgggag catgcttatg 1352

Pro Pro Glu Pro Val Asn

345

aattctcacg ccgctgtcat ggaacaaacg tctaccggga cggataactt cctggtgctg 1412

tcagcgcacg actaccgttc tccccgcaag gcgagcattc acttcattgc cgatgagctg 1472

gccaagcgcg gacctacacg gttcttct 1500

<210>2

<211>1047

<212>DNA

<213>堆肥未培养微生物

<400>2

atgaaaaccc ttttccattc tctcatctgc ctggcgctga cattcttcgt atcagcggcc 60

catgccaaca cctgtctcag ttcgccgcgt ctcaccggag tcaacatcgc cggtgcggag 120

ttcaacgcaa aacgtctgcc cggcgttatc ttcaaggatt acacctaccc gaaagactct 180

gagctggcct acattgccgc gcagggtgcc aatgtcatcc gcctgccgtt tcgctgggag 240

cggctgcagc cggaaccgaa caagcccttc aacggcgatg aactcaagcg tctgaaaaat 300

acggtaaata aggccagcgc ccaaggcctg tgtgtcatcc tcgacgtgca caattacgcg 360

gagtattacg gcgaatcttt cgaggacaaa cccgcgctgg agagcgcctt cattgatctg 420

tggcgccgcc tggccaaaga attcaccgac ccgacgcaga ccatcttcgg cctgatgaac 480

gagccggccc acacccctgt cgccaactgg gccgccctgg ccaaacgcac ggtaaagatg 540

ctgcgtgacg aaggctccac caatcagatc tttgtggccg gcggcagctg gagcggcctg 600

cacgactggt tcaaacccaa gggtgacacc tccaacgcgg cggaatttgc cgacctgaaa 660

gaccccctca accgcaccac catcgaagtg caccaatacg ccgacgaatg gtattccggt 720

accaagaccg actgtcatcc accggagcac ttcgaccccc gcttcgaacg catcagtgcc 780

tgggccgaag aacacaagca gcagctgttt ctgggtgaat tcggtatggc caccacaaaa 840

gaatgcctgg aagtgctgga acgcttttta tcgctgatga aaggccccgc ctggaaaggt 900

tggacttact gggccgccgg tggctggtgg ggcgactacc cctttgcact gaacaccaac 960

gccgctacgc catccttgca gtggaagctg ctgaaagatc atttttatat cgtcaacccg 1020

cctaatccac cggagccggt gaattaa 1047

<210>3

<211>348

<212>PRT

<213>堆肥未培养微生物

<400>3

Met Lys Thr Leu Phe His Ser Leu Ile Cys Leu Ala Leu Thr Phe Phe

1 5 10 15

Val Ser Ala Ala His Ala Asn Thr Cys Leu Ser Ser Pro Arg Leu Thr

20 25 30

Gly Val Asn Ile Ala Gly Ala Glu Phe Asn Ala Lys Arg Leu Pro Gly

35 40 45

Val Ile Phe Lys Asp Tyr Thr Tyr Pro Lys Asp Ser Glu Leu Ala Tyr

50 55 60

Ile Ala Ala Gln Gly Ala Asn Val Ile Arg Leu Pro Phe Arg Trp Glu

65 70 75 80

Arg Leu Gln Pro Glu Pro Asn Lys Pro Phe Asn Gly Asp Glu Leu Lys

85 90 95

Arg Leu Lys Asn Thr Val Asn Lys Ala Ser Ala Gln Gly Leu Cys Val

100 105 110

Ile Leu Asp Val His Asn Tyr Ala Glu Tyr Tyr Gly Glu Ser Phe Glu

115 120 125

Asp Lys Pro Ala Leu Glu Ser Ala Phe Ile Asp Leu Trp Arg Arg Leu

130 135 140

Ala Lys Glu Phe Thr Asp Pro Thr Gln Thr Ile Phe Gly Leu Met Asn

145 150 155 160

Glu Pro Ala His Thr Pro Val Ala Asn Trp Ala Ala Leu Ala Lys Arg

165 170 175

Thr Val Lys Met Leu Arg Asp Glu Gly Ser Thr Asn Gln Ile Phe Val

180 185 190

Ala Gly Gly Ser Trp Ser Gly Leu His Asp Trp Phe Lys Pro Lys Gly

195 200 205

Asp Thr Ser Asn Ala Ala Glu Phe Ala Asp Leu Lys Asp Pro Leu Asn

210 215 220

Arg Thr Thr Ile Glu Val His Gln Tyr Ala Asp Glu Trp Tyr Ser Gly

225 230 235 240

Thr Lys Thr Asp Cys His Pro Pro Glu His Phe Asp Pro Arg Phe Glu

245 250 255

Arg Ile Ser Ala Trp Ala Glu Glu His Lys Gln Gln Leu Phe Leu Gly

260 265 270

Glu Phe Gly Met Ala Thr Thr Lys Glu Cys Leu Glu Val Leu Glu Arg

275 280 285

Phe Leu Ser Leu Met Lys Gly Pro Ala Trp Lys Gly Trp Thr Tyr Trp

290 295 300

Ala Ala Gly Gly Trp Trp Gly Asp Tyr Pro Phe Ala Leu Asn Thr Asn

305 310 315 320

Ala Ala Thr Pro Ser Leu Gln Trp Lys Leu Leu Lys Asp His Phe Tyr

325 330 335

Ile Val Asn Pro Pro Asn Pro Pro Glu Pro Val Asn

340 345

Claims

1.一种编码纤维素酶的基因，其特征在于具有SEQ ID NO：2的核苷酸序列或其同源序列。

2.权利要求1的基因，其中所述同源序列与SEQ ID NO：2的核苷酸序列具有80％以上的同源性。

3.一种权利要求1的基因所编码的蛋白质，其特征在于具有SEQ IDNO：3的氨基酸序列。

4.一种表达载体，其特征在于含有权利要求1所述的基因。

5.一种宿主细胞，其特征在于含有权利要求1所述的基因。

6.权利要求3所述的蛋白质在纤维素降解和对含纤维素材料的处理中的应用。