CN1364909A

CN1364909A - 耐高温转醛酶基因及其编码的多肽和制备方法

Info

Publication number: CN1364909A
Application number: CN 01132266
Authority: CN
Inventors: 田宇清; 包其郁; 张小英; 李蔚; 汪建
Original assignee: HUADA GENE RES AND DEV CT HANG
Current assignee: HUADA GENE RES AND DEV CT HANG
Priority date: 2001-11-20
Filing date: 2001-11-20
Publication date: 2002-08-21
Anticipated expiration: 2021-11-20
Also published as: CN1164750C

Abstract

本发明涉及编码具有活性或其功能等同变异体的分离的DNA和利用重组DNA技术以所述分离的DNA生产具有耐高温转醛酶活性的多肽或其功能等同变异体。以腾冲嗜热厌氧菌全基因组测序与分析为基础,克隆分离了耐高温转醛酶基因。该基因对于制备用于生产耐高温转醛酶的转基因微生物或动植物,并回收获得该基因编码的酶有用。另外,本发明还提供了具有耐高温转醛酶活性的多肽的氨基酸序列及功能等同体。同时,本发明还提供了制备,分离,纯化具有耐高温转醛酶活性的多肽的方法。

Description

耐高温转醛酶基因及其编码的多肽和制备方法

技术领域

本发明涉及突变或遗传工程，尤其涉及一种耐高温转醛酶基因及其编码的多肽和制备方法。

背景技术

转醛酶(Transaldolase)是糖代谢过程中磷酸戊糖途径中非氧化阶段的重要调节酶之一。转醛酶催化一个可逆的反应，即把磷酸酮糖上的三碳单位(二羟基丙酮基)转到另一个磷酸醛糖的C₃上去，即7—磷酸景天酮糖经转醛反应将三碳单位转移到3—磷酸甘油醛的C₁上生成6—磷酸果糖和4—磷酸赤藓糖。该反应不需辅助因素，酮糖底物(二羟基丙酮)与该酶活性位置的赖氨酸的残基ε氨基上形成西佛碱。西佛碱又立即被硼氢化钾还原。这个复合物的总的结构和天然的酶非常相似，西佛碱的质子化使C₃、C₄之间链断开形成醛糖。

转醛酶分子量大约为34千道尔顿，它的序列具有高度保守性。在该酶的催化机制中需要一个赖氨酸，它是作为转醛酶的酶活性位置而与6—磷酸果糖的羰基部位相结合。在对转醛酶的氨基酸序列进行研究后，表明转醛酶家系能够被进一步分为二个亚科。＂古典的＂转醛酶家系表现为人和E.coli的转醛酶，而且是唯一的其立体结构为已知的亚纲。来自植物和藻青菌类的在一些位点具有大量的插入/缺失片段的转醛酶也可能属于这个亚纲。另一个分支的亚科表现为原核生物的酶，该酶为长度大约为200个氨基酸的比较短的多肽链。

从大肠杆菌中得到的重组转醛酶B的三维结构显示酶的亚单位是一个单一8链a/b筒状区域组成。两个亚单位以二重对称形成一个二聚体活性位点残基lys132(它与底物形成一个西佛碱)位于活性位点的底部。

目前有人进行了在番茄上克隆编码转醛酶的基因的cDNA，进而研究其在植物中的作用。还有报道称在临床中发现：在分析一个肝硬化患者的糖代谢物时，发现其转醛酶有缺失。还有人揭示了转醛酶的活性与着色性干皮病(xeroderma pigmentosum)的关系。

由于转醛酶是糖代谢过程中戊糖磷酸途径中重要酶，因此广泛应用于工业、农业、及医药方面。

腾冲嗜热厌氧菌(Thermoanaerobacter tangcongensis)，是生活在我国云南省腾冲县的热泉中的一种微生物，是一种嗜热的真细菌(eubacteria)，最适生长温度为75摄氏度，厌氧生长，革兰氏染色反应呈阳性。它由中国科学院微生物所首先发现并进行了分类学上的分析。菌种保存在中国微生物保存中心MB4^T(Chinese collection of microorganisms AS 1.2430^T＝JCM 11007^T)。该嗜热厌氧菌是我国特有的一个物种，其体内所具有的耐高温转醛酶也具有自己特有的结构。

发明内容

本发明的目的之一是提供一种分离的，编码具有耐高温转醛酶活性的多肽的核苷酸序列。

本发明的目的之二是提供一种分离的，具有耐高温转醛酶活性多肽。

本发明的目的还提供了嗜热厌氧菌的转醛酶重组载体、含有重组载体的宿主细胞，以及生产蛋白的方法。

本发明一方面提供一种能编码具有耐高温转醛酶活性的多肽的核苷酸序列。所说的核苷酸序列编码具有SEQ ID NO.2中的氨基酸序列的多肽或所述多肽的修饰形式，该修饰形式功能上相当或与转醛酶相关。核苷酸序列具有SEQ ID NO.1的多核苷酸序列以及它的突变形式，突变类型包括：缺失、无义、插入、错义。

本发明另一方面提供了一种耐高温转醛酶活性的多肽。该多肽具有SEQ IDNo.2中的氨基酸序列的多肽、或其保守性变异多肽、或其活性片段、或其活性衍生物。

生产耐高温转醛酶的方法为：

1)分离出编码耐高温转醛酶的核苷酸序列SEQ ID NO.1；

2)构建含SEQ ID NO.1核苷酸序列的表达载体；

3)将步骤2)中表达载体转入宿主细胞，形成能生产耐高温转醛酶的重组细胞；

4)培养步骤3)中的重组细胞；

5)分离、纯化得到耐高温转醛酶。

本发明涉及嗜热厌氧菌的耐高温转醛酶基因的分离及表达。以腾冲嗜热厌氧菌全基因组测序与分析为基础，克隆分离了耐高温转醛酶基因。该基因对于制备用于生产耐高温转醛酶的转基因微生物或动植物，并回收获得该基因编码的酶有用。另外，本发明还提供了具有耐高温转醛酶活性的多肽的氨基酸序列及功能等同体。同时，本发明还提供了制备，分离，纯化具有耐高温转醛酶活性的多肽的方法。

附图说明

图1是测序文库构建步骤流程图；

图2是测序与数据分析流程图；

图3部分Cosmid末端测序结果示意图；

图4是正反向测序结果分析示意图。

具体实施方式

首先，本发明提供了分离的，编码耐高温转醛酶活性的多肽的多聚核苷酸分子，该核苷酸分子是通过对腾冲嗜热厌氧菌全基因组测序与分析而获得的，具有SEQ.ID NO.1的核苷酸序列，它编码具有216氨基酸阅读框的多肽，推测分子量为23775道尔顿。

本发明还涉及一种重组载体，该载体包含本发明的分离的核苷酸分子，以及包含有重组载体的宿主细胞。同时，本发明包括构建该重组载体和宿主细胞的方法，以及用重组工程技术生产耐高温转醛酶的方法。

本发明进一步地提供了一种分离的耐高温转醛酶或多肽，其特征在于具有SEQ.ID NO.2氨基酸序列，或至少70％相似，更佳地，至少具有90％，95％，99％的相同。

在本发明中，“分离的”DNA是指该DNA或片断已从天然状态下位于其两侧的序列中分离出来，还指该DNA或片断已经与天然状态下伴随核酸的组份分开，而且已经与在细胞中伴随其的蛋白质分开。

在本发明中，“耐高温转醛酶基因”指编码具有耐高温转醛酶活性的多肽的核苷酸序列，如SEQ.ID NO.1的核苷酸序列及其简并序列。该简并序列是指该序列中有一个或多个密码子被编码相同氨基酸的简并密码子所取代后而产生的序列。由于公知的密码子的简并性，所以与SEQ ID NO.1核苷酸序列同源性低至约70％的简并序列也能编码出SEQ ID NO.2所述的氨基酸序列。该术语还包括能在中度严谨条件下，更佳地在高度严谨条件下与SEQ ID NO.1的核苷酸序列杂交的核苷酸序列。该术语还包括与SEQ ID NO.1核苷酸序列同源性至少70％，较佳地至少80％，更佳地至少90％，最佳地至少95％的核苷酸序列。

在本发明中，“分离的”蛋白的多肽是指其至少占样品总物质的至少20％，较佳地至少50％，更佳地至少80％，最佳地至少90％(按干重或湿重计)。纯度可以用任何合适的方法进行测量，如用柱层析，PAGE或HPLC法测量多肽的纯度。分离的多肽基本上不含天然状态下的伴随其的组份。

在本发明中，“耐高温转醛酶”指具有耐高温转醛酶活性的SEQ ID NO.2序列的多肽。该术语还包括SEQ ID NO.2序列的变异体，这些变异体具有与天然耐高温转醛酶相同的功能。这些变异体包括(但不限于)若干个氨基酸的缺失，插入和/或取代，以及在C末段和/或N末端添加一个或数个氨基酸，也可以是不影响序列的修饰形式上的差异。例如，为本领域所公知的，用性能相近或相似的氨基酸进行取代时，通常不会改变蛋白质的功能。又比如，在C末段和/或N末端添加一个或数个氨基酸通常也不会改变蛋白质的功能。该术语还包括耐高温转醛酶的活性片断和活性衍生物。

在本发明中，可选用本领域已知的各种载体，如市售的各种质粒，粘粒，噬菌体及反转录病毒等。在生产本发明的耐高温转醛酶时，可以将耐高温转醛酶基因序列可操作地连于表达调控序列，从而形成耐高温转醛酶表达载体。表达载体含有复制起始点和表达调控序列，启动子，增强子和必要的加工信息位点。表达载体还必须含有可供选择的标记基因，如a)提供对抗生素或其它毒性物质(氨苄青霉素，卡那霉素，氨甲蝶呤等)的抗性的蛋白质或b)互补营养缺陷型蛋白质或c)提供复合培养基中没有的必需营养成分的蛋白质。各种不同宿主的合适标记基因是本领域中所熟知或生产厂商说明书著名的。这些表达载体可以用本领域技术人员公知的重组DNA技术制备，如可参考Sambrook等人，1989或Ausubel等人，1992。

重组表达载体可以用本领域熟知的方法引入宿主细胞，这些方法包括：电转化法，氯化钙法，基因枪法等。将外源重组载体导入宿主细胞的过程称为“转化”。通过培养宿主细胞，诱导所需蛋白的表达，并通过本领域所熟知的蛋白分离技术，如柱层析等得到所需的蛋白质。也可采用固相技术等人工合成该蛋白质。

在本发明中，术语“宿主细胞”包括原核细胞和真核细胞。常用的原核细胞如大肠杆菌，枯草杆菌等。常用的真核细胞如酵母细胞，或各种动植物细胞。

本发明的耐高温转醛酶基因全长序列或其片断通常可以用PCR扩增法，重组法，或人工合成的方法获得。对于PCR扩增法，可根据本发明所公开的有关核苷酸序列来设计引物，用本领域技术人员已知的常规方法制备的嗜热厌氧菌全基因组DNA为模板，扩增而得到有关序列。一旦获得了有关序列，就可以将其克隆入有关载体，再转入宿主细胞，然后通过常规方法从增殖后的宿主细胞中分离得到大批量的有关序列。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如Sambrook等人，分子克隆：实验室手册(NewYork：Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。

实施例1：构建测序文库

测序文库的构建采用全基因组霰弹法(shotgun)进行。首先培养腾冲嗜热厌氧菌，培养方法按(Yanfen Xue，2000)改进的MB培养基(Balch et al.，1979)，按Marmur(1961)方法收集细菌，提取总DNA。为了保证测序文库构建的随机性，最大程度地避免产生断裂热点的问题，采用多种方法、不同条件的建库原则。先采用物理剪切方法(包括超声波法及用Hydroshear Machine进行剪切)，其次根据该菌基因组特征选用AluI进行随机部分酶切。物理剪切时采用不同强度处理样品，酶切时通过设置酶量梯度处理样品。处理后的样品经平末端处理后，采用电泳分部收集1.5-4kb DNA片段，与去磷酸化的经SmaI酶切的pUC18进行连接，连接产物通过电转化E.coli DH5α构建了随机测序的文库。同时，为了便于以后长片断(contig)的搭接还构建了长插入片段(10kb左右)的测序文库(将基因组DNA以Sau3AI随机部分酶切，电泳收集10kb左右的片段，与去磷酸化的经BanHI酶切的pUC18进行连接、构建文库)。该文库经两个末端的测序在完成图(finishing)的过程中可以得到contig之间的关系，并可以解决较大的gap对补洞造成的困难。建库流程如(见图1)。

实施例2：基因组测序

在完成腾冲嗜热厌氧菌基因组的测序时，主要使用了两种全自动测序仪：ABI377和MegaBACE 1000。这两种测序仪都是利用电泳原理进行测序(见图2)，每次可完成96个样品。ABI377是PE公司的产品，是ABI系列的一种。它属于平板凝胶电泳测序仪。MegaBACE 1000是法玛西亚公司的产品，属于毛细管凝胶电泳测序仪。

实施例3：Basecalling和测序质量监控

所谓Basecalling是指从测序仪上得到的原始数据文件中得到正确的碱基序列的过程。由于测序仪上得到的是A，T，G，C四种碱基对应的不同波长的光的强度变化轨迹(trace)，需要用计算机采取一定的算法从中正确识别出不同的轨迹对应的碱基。我们使用的是Phred软件(Ewing B，Hillier L，1998)，原因是其结果更可靠，并且其结果输出更便于同一软件包中的其他程序进行进一步的分析。

Phred进行Basecalling的算法原理，是根据轨迹中各个峰的形状，间距，以及信噪比等因素，判断碱基类型，同时对这个碱基给出可信度信息，即碱基的测序质量。在大规模测序中，测序质量的监控是十分重要的，它直接影响对测序的决策，包括文库的构建，覆盖率的大小。同时对测序实验中可能出现的失误能及时反馈。

实施例4：序列拼接

所谓序列拼接，就是把全基因组霰弹法，又称鸟枪法随机测序得到的样品序列组装成连续的长片断(contig)，主要利用它们之间的重叠序列作参考。考虑到测序中存在载体的影响，需要先对样品序列进行去载体处理。这里所用的软件cross_match和后面拼接所用的软件Phrap都是美国Washington大学的软件(Gordon D，Abajian C，1998)，其基本原理为Swith-Waterman算法(Waterman MS，1990)。这是一种动态算法，在考虑了两两序列之间的比较之后，可以得到一组序列的公有序列(consensus sequence)。去除载体后的样品序列再用Phrap进行拼接。在拼接时，碱基的测序质量也被考虑了，所得到的公有序列各碱基的可信度，由组成该公有序列的样品的测序质量计算得到。

实施例5：基因注释

在大体得到基因组的大部分序列(完成工作框架图)后，就需要对基因组进行注释，包括进行开读框架(Open Reading Frame，ORF)的预测，基因功能的预测，以及特殊RNA片断的分析等。

第一步采用缺省参数的GLIMMER2.0(Delcher，A.L.，Harmon，D.1999)和ORPHEUS(Frishman，D.1998)软件预测基因编码序列，然后所有预测的开读框和非编码区(intergenicregion)都用BLAST软件(Altschul，S.F.et al.1997)与NCBI的无冗余蛋白数据库(non-redundant protein database)比较来发现可能漏掉的基因。在判断一个基因的起始点时，将参考各种相关信息，如序列同源性，核糖体结合位点，可能的信号肽序列和启动子序列等。如果在一个开读框内出现多个启动子时，一般采用第一个启动子作为基因的起始点。采用TransTerm软件(Ermolaeva，M.D.2000)在非编码区预测不依赖于Rho(ρ)因子的转录终止子。如果该终止子位于一个基因的下游区的太远处，则可能暗示一个小基因的丢失或测序错误人为地缩短了该基因，可作为进一步分析的参考。在确定移框突变和点突变时，主要根据与数据库中的蛋白质的相似性来判断。如果出现一个蛋白质对应于两个彼此相邻的编码序列的情况，则被认为是一个无活性基因(假基因pseudogenes)，因为这说明这两个编码序列之间由于突变而产生异常中止现象，进而使基因失去活性。所有分析结果再用Artemis sequence viewer软件(Rutherford，K.et al.2000)进行手工分析。一些明显与其它编码序列有重叠的开读框，长度小于150碱基对并且在已有数据库中没有同源性和其中没有明显的启动子或终止区域的开读框将被去除。

蛋白质的功能片断(motif)和功能区域(domain)分别采用与Pfam、PRINTS、PROSITE、ProDom和SMART数据库进行比对分析，结果再用InterPro数据库(Apweiler，R.et al.2001)进行汇总分析。根据NCBI的COGs数据库(Tatusov，R.L.et al.2001)并且参照其他数据库的查询结果来确定蛋白质在COGs分类中的功能分类和可能的代谢途径。用TMHMM软件(Krogh，A.et al.2001)来确认膜蛋白、ABC转运蛋白和跨膜功能域。采用革兰氏阴性菌为参数，用SIGNALP2.0软件(Nielsen，H.et al.1999)分析信号肽区域。(4)补洞

在完成基因组的工作框架图之后，就要进行更加困难的补洞工作，即完成整个基因组100％的测序，得到一个环形基因组。主要工作就是把前面得到的contig连接起来。这是一项十分具体而又繁杂的工作。主要方法包括：

A.利用测序中的正反向测序样品信息在测序过程中，我们有意对某些样品进行了双向测序，即同时测序某个插入片断的两端，再将所得序列与其他序列一起进行拼接。由于这一对序列在基因组上的关系一定，其之间的距离大致已知，根据这一信息，一可以确认某段contig是否可靠，二是当这一对序列分别位于不同的contig上时，可以确定这两个contig的方向关系和位置关系，为进一步设计实验提供参考(见图3)。

B.长插入片断及Cosmid末端测序基于同样的原理，我们可以构建不同长度的插入片断文库，只对其两端测序，然后拼接，分析其具体位置。这些文库包括长度为9-12Kb的长插入片断库和20-40Kb左右的Cosmid文库。具体分析方法同上所述。图4所示为部分Cosmid末端测序结果。

C.PCR和末端延伸Walking实验

根据A和B所提供的contig方向和位置关系，进一步的生物化学实验就可以进行了。如设计一对引物进行PCR扩增，或以某一contig末端序列合成引物进行末端延伸(Walking)来补洞等。

实施例6：转醛酶的制备和提纯

根据实施例中基因注释得到的转醛酶全长编码序列(SEQ ID NO.1)，设计能扩增出完整编码阅读框的引物，并在正反引物上分别引入限制性内切酶位点，以便构建表达载体。以实施例1中获得的测序文库的质粒DNA为模板，经PCR扩增后，在保证阅读框正确的前提下重组至pGEX-2T载体(Pharmacia，Piscataway，NJ)。再将重组载体转化入大肠杆菌DH5α中(转化方法为CaCL₂法或电转化法)。筛选鉴定的到含有表达载体的工程菌DH5α-pGEX-2T-MipB。

挑取单菌落的工程菌DH5α-pGEX-2T-MipB于3ml含100μg/ml氨苄青霉素的LB培养基中振摇培养37℃过夜，按1∶100的浓度吸取培养液于新的LB培养基(含100μg/ml氨苄青霉素)中培养约3小时，至OD₆₀₀达0.5后，加入IPTG至终浓度1mmol/L，继续于37℃分别培养0，1，2，3小时。取培养时间不同的1ml菌液离心，在细菌沉淀物中加入裂解液(2×SDS上样缓冲液50μl，蒸馏水45μl，二巯基乙醇5μl)，混悬细菌沉淀，沸水浴中煮5分钟，10000rpm离心1分钟，上清加入12％SDS-PAGE胶中电泳。染色后观察预期分子量大小的蛋白量随IPTG诱导时间增加而增加的菌株即为表达所需蛋白的工程菌。

按上述方法诱导表达所需蛋白的工程菌后，将细菌离心沉淀，按每400ml菌加入20ml PBS饱和的50％谷胱苷肽Sepharose 4B，37℃振摇结合30分钟，10000rpm离心10分钟沉淀结合了所需蛋白的谷胱苷肽Sepharose 4B，弃上清。按每毫升超声液所得沉淀加入100μl还原型谷胱苷肽洗脱液，室温置10分钟，上清即为洗脱的蛋白。重复洗脱两次。洗脱的上清保存于-80℃，并进行SDS-PAGE电泳，检测纯化效果。在23775道尔顿处的蛋白质条带即为转醛酶。

序列表1.SEQ ID NO.1(1)序列特征：a.长度：651碱基对b.类型：DNAc.链型：双链d.几何结构：线性(2)分子类型：核苷酸(3)序列描述：atgaaattctttcttgacactgcaaatatagaggagataaaagaggcttattctctaggagtgatatctggggttactacaaatccgtcgcttgttgccaaagagggaagggattttaaagaagtaataagggagatagcagagattgtggacgggcccataagcgcagaggttataagcgatgaccatgaagggatggtgaaagaagcaagagagcttgcaaagatacataaaaacatagtcataaaaatacccatgacggcagagggcctgaaagctgttaacatcctttctaaagaaggaattaagacaaatgtgacattgattttttcagcaaatcaggcgcttctcgcagctcgcgctggtgctacctatgtgagtccatttgtagggagactggacgacataaatacggatgggatgcagataattgaggatatagtaactatattcacaaactatgatatacaggcagaaataataactgccagcgtgagacatcctatacacgttttagaggcagcaaaactgggagcccatattgctacagttccttacaaagtgctcatgcagatgattaagcatcctctcacagatataggaattgaaagattcaaagaggactggaaaaaagcaggattgaagatatga2.SEQ ID NO.2(1)序列特征：a.长度：216氨基酸b.类型：多肽c.链型：单链d.几何结构：立体(2)分子类型：蛋白质(3)序列描述MKFFLDTANIEEIKEAYSLGVISGVTTNPSLVAKEGRDFKEVIREIAEIVDGPISAEVISDDHEGMVKEARELAKIHKNIVIKIPMTAEGLKAVNILSKEGIKTNVTLIFSANQALLAARAGATYVSPFVGRLDDINTDGMQIIEDIVTIFTNYDIQAEIITASVRHPIHVLEAAKLGAHIATVPYKVLMQMIKHPLTDIGIERFKEDWKKAGLKI

Claims

1.一种分离的DNA分子，其特征在于：它是编码具有耐高温转醛酶蛋白活性的多肽的核苷酸序列。

2.如权利要求1所述的DNA分子，其特征在于：所说的核苷酸序列编码具有SEQ.ID NO.2中的氨基酸序列的多肽或所述多肽的修饰形式，该修饰形式功能上相当或与耐高温转醛酶相关。

3.如权利要求1所述的DNA分子，其特征在于：所说的核苷酸序列具有SEQ ID NO.1的多核苷酸序列以及它的突变形式，突变类型包括：缺失、无义、插入、错义。

4.一种分离出的多肽，其特征在于：它具有耐高温转醛酶活性。

5.如权利要求4所述的多肽，其特征在于：它具有SEQ ID No.2中的氨基酸序列的多肽、或其保守性变异多肽、或其活性片段、或其活性衍生物。

6.一种载体，其特征在于：它含有权利要求1中之DNA。

7.一种宿主细胞，其特征在于：它是用权利要求6所述载体转化的原核细胞或真核细胞。

8.一种制备耐高温转醛酶的方法，其特征在于该方法包括：

1)分离出编码耐高温转醛酶基因的核苷酸序列SEQ ID NO.1；

2)构建含SEQ ID NO.1核苷酸序列的表达载体；

4)培养步骤3)中的重组细胞；

5)分离、纯化得到耐高温转醛酶。