CN116802284A

CN116802284A - 具有β-氨基己糖苷酶活性的多肽和编码所述多肽的多核苷酸

Info

Publication number: CN116802284A
Application number: CN202180091682.XA
Authority: CN
Inventors: S·里索姆; A·查托帕德亚; W·迪特里希; T·M·温德里希
Original assignee: Genzyme Corp
Current assignee: Genzyme Corp
Priority date: 2020-12-02
Filing date: 2021-12-02
Publication date: 2023-09-22

Abstract

本发明涉及一种产生具有β‑氨基己糖苷酶活性的多肽的方法，所述方法包括以下步骤：a)提供酵母细胞，所述酵母细胞包含编码具有β‑氨基己糖苷酶活性且具有与SEQ ID NO:1中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，b)在允许产生所述多肽的条件下培养所述酵母细胞，以及c)获得步骤b)中产生的多肽。本发明进一步涉及一种编码具有β‑氨基己糖苷酶活性且具有与SEQ ID NO:1中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，以及一种由所述多核苷酸编码的多肽。此外，本发明涉及一种包含本发明的多核苷酸的酵母细胞。

Description

具有β-氨基己糖苷酶活性的多肽和编码所述多肽的多核苷酸

技术领域

本发明涉及一种产生具有β-氨基己糖苷酶活性的多肽的方法，所述方法包括以下步骤：a)提供酵母细胞，所述酵母细胞包含编码具有β-氨基己糖苷酶活性且具有与SEQ IDNO:1或16中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，b)在允许产生所述多肽的条件下培养所述酵母细胞，以及c)获得步骤b)中产生的多肽。本发明进一步涉及一种编码具有β-氨基己糖苷酶活性且具有与SEQ ID NO:1中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，以及一种由所述多核苷酸编码的多肽。此外，本发明涉及一种包含本发明的多核苷酸的酵母细胞和载体。

背景技术

β-氨基己糖苷酶(EC 3.2.1.52，本文中缩写为“b-Hex”)是一种催化N-乙酰基-β-氨基己糖苷(hexosaminide)中末端非还原N-乙酰基氨基己糖残基水解的酶。这种酶通常也称为N-乙酰基-β-葡糖苷酶。N-乙酰基葡糖苷和N-乙酰基半乳糖苷是底物。

在哺乳动物中发现了三种主要形式的β-氨基己糖苷酶：由一条α链、一条β-A链和一条β-B链组成的三聚体(A型)，由两条β-A链和两条β-B链组成的四聚体(B型)，以及两条α链的同二聚体(S型)。已知一些遗传障碍(如泰-萨二氏病和山德霍夫氏病(Sandhoff’sdisease))是由人类b-Hex基因突变引起的。

糖苷酶已经在糖生物学研究中用作工具数十年，并且已经研究了它们在糖蛋白成熟中的作用(如由Léonard R、Strasser R、Altmann F.Plant glycosidases acting onprotein-linked oligosaccharides.Phytochemistry.2009年2月；70(3):318-24.doi:10.1016/j.phytochem.2009.01.006.Epub 2009年2月4日.PMID:19200565综述)。

当前用于聚糖修饰的β-氨基己糖苷酶制剂是从其天然来源刀豆(Jack Beans)(直生刀豆(Canavalia ensiformis))中提取的。所述酶的基本描述和当前提取方法的基础可以在Li等人(J.Biol.Chem.1970 245:5153-5160)中找到。所述酶已经用于例如研究生物膜的酶促分离(J Med Microbiol.2006年8月；55(Pt 8):999-1008)。

然而，这种当前提取方法具有几个缺点：

刀豆作为一种生长在田间的植物具有此类天然系统的缺点：由于天气、土壤等条件导致的高度不可再现性(参见Li(1970))。作为结果，可能产生新的次级代谢物，然后其被引入生产过程中，最终可能污染原料药，并对患者健康具有不可计算的影响。使用农用化学品来保持生育力和避免对植物的损害可能导致在产品内的残留。在培养或储存期间土壤中、植物上或豆类上真菌或其他微生物污染物的存在可能导致产物被毒素(如黄曲霉毒素)污染，所述毒素即使在少量时也可以具有极毒作用。

由于在自然条件下植物不需要大量的这种酶，因此b-Hex在刀豆中不是非常丰富的蛋白质。它仅以约1U/g豆材料的非常小的活性存在，并且因此需要从大量污染蛋白质中提取且随后分离并纯化。这种困难的程序导致对用作底物的植物材料的高需求，并且使得这种方法非常昂贵。

除了1970年代早期描述的关于b-Hex的少量数据(参见Li等人，同上)之外，对这种酶知之甚少。值得注意的是，没有公开可得的蛋白质或DNA序列。没有对所述酶进行详细的结构表征。

Gers-Barlag等人描述了从大豆中分离β-氨基己糖苷酶(Phytochemistry,第27卷,第12期,1988,第3739-3741页)。US 2004/0031072披露了来自大豆的β-氨基己糖苷酶的序列(如SEQ ID NO:162900)。大豆β-氨基己糖苷酶序列也可以经由UniProt(参见登录号I1KTU6或I1JDS6，其对应于NCBI参考序列：XP_003518662.1)来评估。

CN 109 971 736描述了对来自草莓的氨基己糖苷酶的鉴定。

Slámová等人描述了真菌b-N-乙酰基氨基己糖苷酶在巴斯德毕赤酵母(Pichiapastoris)中的克隆和高产表达(Protein Expr Purif.2012年3月；82(1):212-7.doi:10.1016/j.pep.2012.01.004.Epub 2012年1月11日)。

Strasser描述了存在于拟南芥(Arabidopsis)(拟南芥(Arabidopsis thaliana))基因组中的三个假定b-Hex序列的异源表达(Strasser等人,Plant Physiol.2008年6月；147(2):931)。作者使用草地贪夜蛾(Spodoptera frugiperda)Sf21昆虫细胞系统进行表达。作者还表明这些植物酶与充分研究的人类b-Hex酶HexA和HexB仅具有大约30％的非常有限的同源性。因此，不足为奇的是，在Akeboshi等人中对于人类HexA描述的在甲基营养型酵母Ogataea minuta中的微生物表达将不能转座到植物酶上(Akeboshi等人,ApplEnviron Microbiol.2007年8月；73(15):4805-12)。这一点尤其正确，因为作者描述了来自O.minuta的重组HexA与来自人类溶酶体的天然HexA之间的两处主要差异，这对应于两种生物体之间不同的翻译后加工。

发明内容

在作为本申请基础的研究的背景下，对从刀豆(直生刀豆)中分离的b-Hex酶进行了详细分析，以便确定尽可能多的蛋白质序列。这通过应用蛋白酶消化、Edman测序和LC-MS/MS分析的组合来进行，并且通向了约40％蛋白质序列覆盖率的结果(实施例2)。利用这个结果，可以通过数据库检索确认实际上没有与所发现的序列的匹配。所发现的最接近的序列属于来自大豆(Soy Bean)(大豆(Glycine max))的b-Hex蛋白。此外，还确定了编码刀豆b-Hex酶的全长cDNA序列(实施例3)。与数据库中可获得的序列的比对揭示没有已知序列与所测定的序列匹配，因此检测到的β-氨基己糖苷酶多肽似乎尚未为公众所知。

有利地，可以在微生物系统中，即在法夫驹形氏酵母(Komagataella phaffii)(有时也称为巴斯德毕赤酵母)中表达β-氨基己糖苷酶多肽。含有产生的法夫驹形氏酵母菌株的培养物的上清液显示显著量的b-Hex活性(实施例4)。显示出可以获得超过100U/mL培养物。另外，培养物上清液不含大量的污染蛋白质。这允许直接可再现的蛋白质纯化过程。

选择由Swennen(2002)描述的乳酸克鲁维酵母(Klyveromyces lactis)表达系统作为第二个例子。对于此酵母系统，b-Hex的重组表达也是成功的，因为在各自的酵母培养物中发现了生物活性b-Hex。

显示出来自刀豆的b-Hex酶不是存在于单一多肽链中，如通过将所发现的DNA序列翻译成蛋白质序列所预期的。相反，发现了存在两条彼此缔合而没有共价连接的多肽链。这两条链的解离导致活性的完全丧失。因此，出人意料的是重组微生物表达产生了活性酶，因为没有预期到所鉴定的b-Hex酶以如下方式再现，即分裂成两条链并且同时确保这两条链以正确的结构缔合。

因此，本发明涉及一种产生具有β-氨基己糖苷酶活性的多肽的方法，所述方法包括以下步骤：

a)提供宿主细胞，所述宿主细胞包含编码具有β-氨基己糖苷酶活性且具有与SEQID NO:1或16中所示的氨基酸序列至少85％相同的氨基酸序列的多肽的多核苷酸，

b)在允许产生所述多肽的条件下培养所述宿主细胞，以及

c)获得步骤b)中产生的多肽。

本发明进一步涉及一种编码具有β-氨基己糖苷酶活性且具有与SEQ ID NO:1或16中所示的氨基酸序列至少85％相同的氨基酸序列的多肽的多核苷酸。

本发明进一步涵盖一种由本发明的多核苷酸编码的分离的多肽。

此外，本发明涉及一种包含本发明的多核苷酸的载体。在一些实施方案中，所述载体是表达载体。

本发明进一步涉及一种包含本发明的多核苷酸、本发明的多肽和/或本发明的载体的宿主细胞。

在一些实施方案中，本发明的宿主细胞是酵母细胞或动物细胞。例如，所述宿主细胞可以是属于酵母科(Saccharomycetaceae)的酵母细胞，如法夫驹形氏酵母细胞。

在一些实施方案中，本发明的多肽具有与SEQ ID NO:1或16中所示的氨基酸序列至少90％相同，如95％或98％相同的氨基酸序列。在一些实施方案中，所述多肽包含如SEQID NO:1或16中所示的氨基酸序列。

在一些实施方案中，本发明的多核苷酸包含如SEQ ID NO:2中所示的核酸序列。在一些实施方案中，本发明的多核苷酸包含如SEQ ID NO:17中所示的核酸序列。

在一些实施方案中，本发明的多核苷酸可操作地连接至异源启动子。

在一些实施方案中，本发明的多核苷酸是针对宿主细胞(如酵母细胞)进行密码子优化的。

具体实施方式-定义

如上所述，本发明涉及一种产生具有β-氨基己糖苷酶活性的多肽的方法，所述方法包括以下步骤：

b)在允许产生所述多肽的条件下培养所述宿主细胞，以及

c)获得步骤b)中产生的多肽。

在本发明方法的步骤a)中，将提供包含编码具有β-氨基己糖苷酶活性的多肽的多核苷酸的宿主细胞。

如本文使用的术语“多核苷酸”是指线性或环状核酸分子。其涵盖DNA分子以及RNA分子。所述多核苷酸将作为分离的多核苷酸(即，从其天然环境中分离)或以遗传修饰的形式提供。如本文所述的多核苷酸的特征在于其将编码如上提及的多肽，即具有β-氨基己糖苷酶活性的多肽。

术语“多肽”和“蛋白质”在本文中可互换使用并且是指通过肽键连接在一起的呈聚合形式的氨基酸。

通过本发明的方法产生的多肽将具有β-氨基己糖苷酶活性。

如本文所用，β-氨基己糖苷酶(EC 3.2.1.52)典型地是指能够催化N-乙酰基-β-氨基己糖苷中末端非还原N-乙酰基氨基己糖残基水解的酶。例如，N-乙酰基葡糖苷和N-乙酰基半乳糖苷是底物。用于评估多肽是否具有β-氨基己糖苷酶活性的测定是本领域已知的，并且描述于例如Li&Li(1970)J Biol Chem 245 5153中：它们对以下底物显示b-氨基己糖苷酶活性：对-硝基苯基β-2-乙酰氨基-2-脱氧-对-吡喃葡萄糖苷和对-硝基苯基β-2-乙酰氨基-2-脱氧-对-吡喃半乳糖苷。同义词有β-氨基己糖苷酶、β-(1-2,3,4,6)氨基己糖苷酶、β-乙酰氨基-脱氧己糖苷酶、N-乙酰基-β-D-氨基己糖苷酶、N-乙酰基-β-氨基己糖苷酶、β-乙酰基氨基己糖苷酶、β-D-N-乙酰基氨基己糖苷酶、β-N-乙酰基-D-氨基己糖苷酶、β-N-乙酰基氨基葡糖苷酶、N-乙酰基氨基己糖苷酶和β-D-氨基己糖苷酶。

在一些实施方案中，具有β-氨基己糖苷酶活性的多肽形成同二聚体。

在一些实施方案中，具有β-氨基己糖苷酶活性的多肽由异源多核苷酸表达，即由例如通过使用表达载体瞬时地或稳定地引入宿主细胞中的多核苷酸表达。如本文使用的术语“异源”意指多核苷酸不是天然存在于宿主细胞中。因此，所述术语涵盖衍生自不同生物体的修饰或未修饰的多核苷酸或衍生自宿主细胞的修饰的多核苷酸。应当理解，异源多核苷酸可以包含允许在宿主细胞中表达的表达控制序列或允许异源多核苷酸在宿主细胞的基因组中的基因座处整合的序列，其中异源多核苷酸的表达将由宿主细胞的内源表达控制序列控制。通过引入异源多核苷酸，产生转基因宿主细胞。

具有β-氨基己糖苷酶活性的多肽的引入可以通过将编码所述多肽的异源多核苷酸引入宿主细胞中来实现。如本文提及的术语“引入”或“转化”涵盖将如本文所述的多核苷酸转移到宿主细胞中，而不管用于转移的方法如何。这包括瞬时引入表达载体中或稳定整合到宿主细胞的基因组中。在一些实施方案中，将多核苷酸稳定地引入宿主细胞的基因组中。

因此，本发明方法的步骤a)可以包括以下步骤：

a1)将编码具有β-氨基己糖苷酶活性的多肽的多核苷酸引入宿主细胞中；以及a2)由所述多核苷酸表达所述多肽。

术语“表达”或“基因表达”意指一种或多种特定基因或特定基因构建体的转录。术语“表达”或“基因表达”特别意指一种或多种基因或基因构建体转录成结构mRNA，随后将后者翻译成如本文提及的多肽。所述过程包括DNA的转录和所得mRNA产物的加工。

如上所述，由本发明的多核苷酸编码的多肽将具有β-氨基己糖苷酶活性。另外，它将具有与SEQ ID NO:1或16中所示的氨基酸序列至少85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％相同的氨基酸序列。

在一些实施方案中，所述具有β-氨基己糖苷酶活性的多肽具有与SEQ ID NO:1或16中所示的氨基酸序列至少95％相同，如至少98％相同的氨基酸序列。

在一些实施方案中，所述具有β-氨基己糖苷酶活性的多肽包含如SEQ ID NO:16中所示的氨基酸序列。

SEQ ID NO:16是在作为本发明基础的研究中鉴定的刀豆(直生刀豆)β-氨基己糖苷酶的氨基酸序列。所述序列如下：

潜在前导序列(aa 1至30)的序列用下划线表示。在作为本发明基础的研究中，多肽以不含前导序列的方式表达。SEQ ID NO:1是刀豆(直生刀豆)β-氨基己糖苷酶的氨基酸序列，其中没有前导序列。因此，SEQ ID NO:1包含SEQ ID NO:16的aa 31至553。SEQ ID NO:1如下：

AAAPVKNYYA RRAPSGPGSC YEQ

在一个实施方案中，SEQ ID NO:1在N末端另外包含甲硫氨酸残基(M)。

在一个实施方案中，上述多肽由包含如SEQ ID NO:2中所示的核酸序列的多核苷酸编码：

gctactttgaagtccatcatcgagccaactgagtccttgacttacttgtggccattgccagctgacttcacttctggtgacgaaactttgtctgttgacccagctttgactttgtccgttgctggtaatggtggtggttcctccattttgagagatgctttcgacagatacagaggtattatcttcaagcactcctccgttggattctctttgatcagaaagttgagagagagattggtttccgtttccgcttacgacattgctactttgaagatcactgttcactccgacaacgaagagttgcagttgggtgttgacgagacttacactttgttggttccaaaggctaaggactcctacgttgctggtgaggttactatcgaggctaacactgtttacggtgctttgagaggtttggagactttctcccagttgtgttccttcgactactctgacaagactatcaagatttacaaggctccttggtccatccaggacaagccaagattttcctacagaggtttgttgttggacacttccagacactacttgccaatcaacgttatcaagcagatcatcgagtccatgtcctacgctaagttgaacgttttgcactggcacatcatcgacgaagagtctttcccattggaggttccaacttacccaaacttgtggaagggttcctacactaagtgggagagatacactgttgaggacgcttacgagatcgttaacttcgctaagatgagaggtattaacgttatggctgaggttgacgttccaggtcatgctgaatcttggggtgctggttatccaaatttgtggccatctccatcctgtagagagccattggacgtttccaagaacttcactttcgacgttatctccggaatcttgactgacatcagaaagatattcccattcgagttgttccacttgggaggtgacgaggttaatactgactgttggacttccacttcccacgttaaggaatggttgtccactcagaacatgactgctaaggatgcttacgaatacttcgttttgaaggctcaagagatcgctgtttctaagaactggtcccctgttaactgggaagagactttcaacactttcccagctaagttgcacaagaaaactgttgttcacaactggttgggtccaggtgtttgtccaaaggttgttgctaagggtttcagatgtatcttctccaaccagggtgtttggtacttggaccacttggatgttccttgggacgaggtttacactgctgaaccattggaaggtatcgagaagtcctctgagcaagagttggttatcggtggtgaagtttgtatgtggggtgagactgctgacacttctaacgttcagcagactatctggccaagagccgcagctgctgctgaaagattgtggtcccaaagagactccactaacatcactgttactgctttgccaagattgcagaacttcagatgtttgttgaacaagagaggtgttgctgctgctccagttaagaactactacgctagaagagccccatccggtccaggttcttgttacgaacaa

SEQ ID NO:2可以进一步包含在5'端的起始密码子(ATG)和在3'端的一个或多个终止密码子。

当多肽在宿主细胞中表达时，可以进一步加工多肽。例如，可以将多肽加工成两个亚基，其中第一亚基包含SEQ ID NO:16的氨基酸35至100，并且第二亚基包含SEQ ID NO:16的氨基酸110至553。第一亚基的起始和结束以及第二亚基的起始可以略有变化。例如，还检测到包含氨基酸34至101的亚基。

此外，所述多肽可以是己糖基化的和/或糖基化的。例如，第一亚基可以是己糖基化的。

在一个实施方案中，具有如SEQ ID NO:16中所示的序列的多肽由具有SEQ ID NO:17中所示的序列的多核苷酸编码。所述序列如下：

1561TTCAGATGTC TATTGAATAA ACGTGGAGTT GCAGCTGCTC CTGTGAAAAA TTATTATGCT

1621AGAAGGGCTC CTAGTGGTCC AGGCTCATGT TATGAGCAAT AA

在一个实施方案中，编码具有β-氨基己糖苷酶活性的多肽的多核苷酸是针对宿主细胞，如针对人类细胞进行密码子优化的。例如，所述多核苷酸可以包含SEQ ID NO:18中所示的序列：

包含SEQ ID NO:18中所示的序列的多核苷酸编码具有β-氨基己糖苷酶活性的多肽，其中所述多肽具有如SEQ ID NO:1中所示的序列。

关于参考多肽序列的“氨基酸序列同一性百分比(％)”定义为在用以实现最大序列同一性百分比而比对序列和引入空位(如果需要)后，候选序列中与所述参考多肽序列中的氨基酸残基相同的氨基酸残基的百分比。在一些实施方案中，应用标准参数来确定两个序列的序列同一性程度。例如，同一性程度将通过在比较窗口中比较两个最佳比对序列来确定，其中为了最佳比对，与参考序列(不包含添加或缺失)相比，比较窗口中的氨基酸序列的片段可以包含添加或缺失(例如，空位或突出端)。百分比是通过以下方式来计算的：确定两个序列中出现相同氨基酸残基的位置数，以得到匹配位置数；用匹配位置数除以比较窗口中的位置总数，并将结果乘以100，得到序列同一性百分比。用于比较的序列的最佳比对可以通过以下方法进行：Smith和Waterman Add.APL.Math.2:482(1981)的局部同源性算法；Needleman和Wunsch J.Mol.Biol.48:443(1970)的同源性比对算法；Pearson和LipmanProc.Natl.Acad.Sci.(USA)85:2444(1988)的相似性方法的检索；这些算法的计算机化实施(在威斯康辛州麦迪逊市科学大道575号Genetics Computer Group(GCG)的WisconsinGenetics Software Package中的GAP、BESTFIT、BLAST、PASTA和TFASTA)；或目视检查。在一些实施方案中，在序列的整个长度上确定序列同一性程度。鉴于已经鉴定了用于比较的两个序列，优选使用GAP和BESTFIT来确定它们的最佳比对，并因此确定同一性程度。优选地，使用空位权重的默认值5.00和空位权重长度的默认值0.30。在一个实施方案中，使用以下确定两个氨基酸序列之间的序列同一性：Needleman和Wunsch算法(Needleman 1970,J.Mol.Biol.(48):444-453)，所述算法已经被并入EMBOSS软件包(EMBOSS：欧洲分子生物学开放软件套件(The European Molecular Biology Open Software Suite),Rice,P.、Longden,I.和Bleasby,A.,Trends in Genetics 16(6),276-277,2000)中的needle程序中；BLOSUM62评分矩阵；以及空位开放罚分10和空位延伸罚分0.5。使用needle程序比对两个氨基酸序列时所用参数的非限制性例子是默认参数，包括EBLOSUM62评分矩阵、空位开放罚分10和空位延伸罚分0.5。

如本文提及的多核苷酸可以基本上由上述核酸序列组成或包含上述核酸序列。因此，它们也可以进一步含有另外的核酸序列。

在一些实施方案中，编码具有β-氨基己糖苷酶活性的多肽的多核苷酸可操作地连接至启动子，如异源启动子。典型地，启动子包含调节元件，所述调节元件介导编码序列区段在宿主细胞中的表达。

在一个实施方案中，所述启动子是组成型启动子。在一个替代性实施方案中，所述启动子是诱导型启动子。

“启动子”或“启动子序列”是与基因在同一链上且位于所述基因上游的核苷酸序列，其能够实现该基因的转录。启动子之后是基因的转录起始位点。启动子被RNA聚合酶(连同任何所需的转录因子)识别，从而启动转录。启动子的功能性片段或功能性变体是可被RNA聚合酶识别并能够启动转录的核苷酸序列。

“活性启动子片段”、“活性启动子变体”、“功能性启动子片段”或“功能性启动子变体”描述了启动子的核苷酸序列的片段或变体，它们仍具有启动子活性。

启动子可以是“诱导物依赖型启动子”或“非诱导物依赖型启动子”，其包含组成型启动子或处于其他细胞调节因子的控制下的启动子。

本领域技术人员能够选择用于表达目的多肽的合适启动子。例如，编码目的多肽的多核苷酸典型地可操作地连接至“诱导物依赖型启动子”或“非诱导物依赖型启动子”。此外，编码具有β-氨基己糖苷酶活性的多肽的多核苷酸典型地可操作地连接至“非诱导物依赖型启动子”，如组成型启动子。

“诱导物依赖型启动子”在本文中理解为这样的启动子，在将“诱导物分子”添加至发酵培养基中后增加了其用于实现所述启动子可操作地连接的基因的转录的活性。因此，对于诱导物依赖型启动子，诱导物分子的存在经由信号转导触发可操作地连接至启动子的基因的表达的增加。

在一个实施方案中，所述启动子是CMV启动子。例如，当在哺乳动物宿主细胞(如HEK-293宿主细胞)中表达具有β-氨基己糖苷酶活性的多肽时，可以使用CMV。

在另一个实施方案中，所述启动子是Tac启动子。例如，当在酵母宿主细胞(如下文公开的酵母细胞)中表达具有β-氨基己糖苷酶活性的多肽时，可以使用Tac启动子。Tac启动子(缩写为Ptac)是合成产生的DNA启动子，由来自trp和lac操纵子的启动子的组合产生。其通常用于蛋白质产生。

在一个实施方案中，所述启动子是编码醇氧化酶的多核苷酸的启动子，如来自酵母AOX1(醇氧化酶1)的启动子。

术语“可操作地连接”典型地是指启动子序列与目的基因(即，编码具有β-氨基己糖苷酶活性的多肽的多核苷酸)之间的功能性连接，使得启动子序列能够启动目的基因的转录。

此外，如本文提及的多核苷酸可以可操作地连接至终止子。术语“终止子”典型地涵盖控制序列，所述控制序列是在转录单元末端的DNA序列，其发出初级转录物的3'加工和聚腺苷酸化以及转录终止的信号。

如本文提及的多核苷酸可以进一步可操作地连接至编码分泌前导序列的多核苷酸，所述分泌前导序列即允许本发明的β-氨基己糖苷酶分泌至培养基中的序列。

本发明方法的步骤a)中提供的宿主细胞可以是任何被认为适当的宿主细胞。例如，所述宿主选自细菌细胞，如大肠杆菌细胞、酵母细胞、藻类细胞或植物细胞。术语“宿主细胞”进一步包括动物细胞，如非人动物细胞。

在一些实施方案中，所述宿主细胞是真核宿主细胞。

在一些实施方案中，所述宿主细胞是酵母细胞。

在一些实施方案中，所述酵母细胞属于酵母科，其是通过芽殖而繁殖的酵母目中的酵母科。在一些实施方案中，所述酵母科包括以下属：假丝酵母属(Candida)、克鲁维酵母属(Kluyveromyces)、驹形氏酵母属(Komagataella)、Kuraishia、拉钱斯氏酵母属(Lachancea)、Nakaseomyces、毕赤酵母属、酵母属(Saccharomyces)、Spathaspora、Tetrapisispora、接合酵母属(Zygosaccharomyces)和接合有孢圆酵母属(Zygotorulaspora)。

在一些实施方案中，所述酵母细胞属于克鲁维酵母属。例如，所述酵母细胞可以是乳酸克鲁维酵母细胞。

在一些实施方案中，所述酵母细胞属于毕赤酵母属。例如，所述酵母细胞可以是巴斯德毕赤酵母细胞。

在一些实施方案中，所述酵母细胞属于驹形氏酵母属。例如，所述酵母细胞可以是法夫驹形氏酵母细胞，如法夫驹形氏酵母菌株ATCC 76273的细胞。关于此菌株的更多信息可以在UniProt数据库(参见Taxon标识符981350)中找到。

在一些实施方案中，所述宿主细胞不是直生刀豆细胞。

在一些实施方案中，所述宿主细胞是哺乳动物宿主细胞。合适的哺乳动物细胞包括但不限于例如CHO(中国仓鼠卵巢)细胞、BHK细胞、HeLa细胞、COS细胞、HEK-293等。在一个实施方案中，使用HEK-293细胞。在另一个实施方案中，使用CHO细胞。

本发明方法的步骤b)包括在允许产生，即产生具有β-氨基己糖苷酶活性的多肽的条件下培养宿主细胞。此类条件在本领域中是熟知的，并且例如在实施例部分中描述。

本发明的方法可以进一步包括获得步骤b)中产生的多肽的步骤c)。所述多肽将通过本领域已知的方法从培养基中获得。

本发明进一步涉及如上文结合本发明的方法所定义的多核苷酸，即编码具有β-氨基己糖苷酶活性且具有与SEQ ID NO:1中所示的氨基酸序列至少85％相同的氨基酸序列的多肽的多核苷酸。

本发明进一步涵盖一种由本发明的多核苷酸编码的分离的多肽。所述多肽已在上文中定义。所述分离的多肽可以是己糖基化和/或糖基化的。

术语“载体”典型地涵盖噬菌体、质粒、病毒或逆转录病毒载体以及人工染色体，如细菌或酵母人工染色体。此外，所述术语还涉及靶向构建体，其允许将靶向构建体随机或定点整合到基因组DNA中。此类靶构建体优选包含足够长度的DNA以用于如下文详细描述的同源或异源重组。含有本发明的多核苷酸的载体优选进一步包含用于在宿主中繁殖和/或选择的选择标记物。可以通过本领域熟知的各种技术将所述载体并入宿主细胞中。如果引入宿主细胞中，所述载体可以存在于细胞质中，或者可以并入基因组中。在后一种情况下，所述载体可以进一步包含允许同源重组或异源插入的核酸序列。可以经由常规转化或转染技术将载体引入原核或真核细胞中。如本文所用的术语“转化”和“转染”、缀合和转导旨在包括用于将外来核酸(例如DNA)引入宿主细胞中的多种现有技术方法，包括磷酸钙、氯化铷或氯化钙共沉淀、DEAE-葡聚糖介导的转染、脂质体转染、自然感受态、碳基簇、化学介导的转移、电穿孔或粒子轰击(例如，“基因枪”)。用于转化或转染宿主细胞(包括酵母细胞)的合适方法可以在以下文献中见到：Sambrook等人(Molecular Cloning:A Laboratory Manual,第2版,Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,NY,1989)以及其他实验室手册，如Methods in Molecular Biology,1995,第44卷,Agrobacterium protocols,Gartland和Davey编辑,Humana Press,Totowa,NewJersey。可替代地，可以通过热休克或电穿孔技术引入质粒载体。

在一些实施方案中，本文提及的载体适合作为克隆载体，即可在微生物系统中，如在大肠杆菌中或在酵母细胞中复制。

此外，设想本发明的载体是表达载体。在这样的表达载体中，所述多核苷酸包含如上指定的允许在宿主细胞中表达的表达盒。除了本发明的多核苷酸之外，表达载体还可以包含其他调节元件，如启动子(例如，如本文别处所述的启动子)。优选地，所述表达载体也是基因转移或靶向载体。

实施方案列表

1.一种产生具有β-氨基己糖苷酶活性的多肽的方法，所述方法包括以下步骤：

a)提供酵母细胞，所述酵母细胞包含编码具有β-氨基己糖苷酶活性且具有与SEQID NO:1或16中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，

b)在允许产生所述多肽的条件下培养所述酵母细胞，以及

c)获得步骤b)中产生的多肽。

2.根据实施方案1所述的方法，其中所述具有β-氨基己糖苷酶活性的多肽具有与SEQ ID NO:1中所示的氨基酸序列至少98％相同的氨基酸序列。

3.根据实施方案1和2所述的方法，其中所述具有β-氨基己糖苷酶活性的多肽包含如SEQ ID NO:1中所示的氨基酸序列。

4.根据实施方案1至3所述的方法，其中所述酵母细胞属于酵母科。

5.根据实施方案4所述的方法，其中所述酵母细胞是驹形氏酵母属细胞，如法夫驹形氏酵母，如法夫驹形氏酵母菌株ATCC 76273的细胞。

6.根据实施方案1至5中任一项所述的方法，其中编码具有β-氨基己糖苷酶活性的多肽的所述多核苷酸可操作地连接至异源启动子。

7.根据实施方案1至6中任一项所述的方法，其中编码具有β-氨基己糖苷酶活性的多肽的所述多核苷酸是针对所述酵母细胞进行密码子优化的。

8.根据实施方案1至7中任一项所述的方法，其中所述多核苷酸包含如SEQ ID NO:2或17中所示的核酸序列。

9.一种多核苷酸，所述多核苷酸编码具有β-氨基己糖苷酶活性且具有与SEQ IDNO:1中所示的氨基酸序列至少95％相同的氨基酸序列的多肽。

10.根据实施方案9所述的多核苷酸，其中所述具有β-氨基己糖苷酶活性的多肽包含如SEQ ID NO:1中所示的氨基酸序列。

11.根据实施方案9所述的多核苷酸，其中所述多核苷酸可操作地连接至异源启动子。

12.一种载体，如表达载体，所述载体包含根据实施方案9至11中任一项所述的多核苷酸。

13.一种酵母细胞，所述酵母细胞包含根据实施方案9至11中任一项所述的多核苷酸或根据实施方案12所述的载体。

14.根据实施方案13所述的酵母细胞，其中所述酵母细胞属于酵母科。

15.根据实施方案14所述的酵母细胞，其中所述酵母细胞是法夫驹形氏酵母。

16.一种分离的多肽，所述分离的多肽由根据实施方案9至11中任一项所述的多核苷酸编码。

以下实施例仅说明本发明。无论如何，它们不应被解释为限制保护范围。

实施例

实施例1：引言

在作为本发明基础的研究中，确定了来自直生刀豆的β-氨基己糖苷酶的mRNA序列和蛋白质序列。首先，通过制备型消化、MS/MS和N末端测序确定已从直生刀豆植物中提取的β-氨基己糖苷酶蛋白部分的序列。随后，通过3'和5'RACE(cDNA末端的快速扩增)确定cDNA序列。

NCBI和KEGG中的数据库研究得到了来自大豆(Glycine max)(大豆(soybean))的4种β-氨基己糖苷酶的mRNA衍生序列，其是具有以下NCBI ID的直生刀豆(C.ensiformis)(刀豆)的下一个测序亲属(relative)：

·2号染色体(1668nt)；cDNA XM_003518614.2；蛋白质XP_003518662.1

·10号染色体(1632nt)；cDNA XM_003535730.2；蛋白质XP_003535778.1

·18号染色体(1698nt)；cDNA XM_003552624.2；蛋白质XP_003552672.1

·20号染色体(1641nt)；cDNA XM_003555573.2；蛋白质XP_003555621.1

这些序列充当用于引物设计和所阐明序列的比较的基础。

实施例2：来自直生刀豆的β-氨基己糖苷酶的蛋白质序列部分的确定

用Lys-C消化从直生刀豆纯化的β-氨基己糖苷酶(且具有约55kDa的表观分子量)，并且经由HPLC分离所得肽。在此之后，用这些级分进行Edman降解。

将100μlβ-氨基己糖苷酶(约77μg)与29mg盐酸胍(固体)一起涡旋，以达到约3MGuaHCl的终浓度。添加7μl 1.5M Tris/HCl pH 8.8并再次短暂涡旋。取出3μl用于在条带上测试pH值(约pH 8.5)。使剩余溶液在-80℃下变性20min并在冰浴中骤冷。

用50μl水重构一小瓶Lys-C(5μg，Roche目录号11047825001)。将5μl(0.5μg Lys-C)的此溶液添加到骤冷的溶液中，再次涡旋并在32℃下孵育3h。将95μl直接注入使用Waters柱(X-Select CSH C18 2.5μm 2,1x150 mm,目录号186006727)的装备有级分收集器的Agilent 1200HPLC上。色谱分离产生了级分体积为100至150μl(含有约25％ ACN溶剂)的尖峰。收集到36个级分(未示出)。将这些直接用于MALDI-MS以确定肽质量(例如，估计Edman循环的次数)。

对于一些获得的级分，可以在标准条件下使用Applied Biosystems Procise HT或Shimadzu PPSQ-33A测序仪通过N末端Edman测序来确定氨基酸序列。通过MALDI-MS测量来估计每个级分的循环次数(＝氨基酸)。

级分的Edman降解产生了大量序列，将其使用ClustalW进行比对。总共鉴定出553个氨基酸中的208个。将从头测序的肽与如下文实施例3中所述鉴定的翻译的cDNA序列(未示出)重叠。结果表明在直生刀豆中鉴定出正确的cDNA序列。

实施例3：来自直生刀豆的β-氨基己糖苷酶的cDNA序列的确定

将刀豆(直生刀豆)种子置于塑料托盘中的潮湿吸水薄纸之间，并且在室温下在黑暗处储存约48小时(用于萌芽)。然后，将萌芽的种子在室温下在光照下再生长5-6天。然后将小植株置于在阳光充足的窗户处在室温下的作为基底的3-6mm蛭石中(深度为2-3cm)，并且如果干燥，则浇水。

用解剖刀将来自直生刀豆的萌芽材料切成可以用于RNA提取的多个部分(约200mg植物材料)，将其置于50ml塑料管中并在液氮中速冻。这是用芽、子叶、胚胎和叶组织进行的。根据制造商的说明书(RNeasy植物微型试剂盒(Qiagen目录号74903))从上述组织中分离RNA。

对于芽、子叶、胚胎和叶，分别用两种逆转录酶合成cDNA。然后，合并分别用于芽、子叶、胚胎和叶的两种逆转录酶反应的cDNA。

随后，使用Phusion Hot Start II DNA聚合酶(Thermo Scientific，目录号F-549L)和以下引物通过PCR扩增每种cDNA的内部片段：

JB-01CTCACCTACCTCTGGCCCCTTCCCGC(SEQ ID NO:3)

JB-07TTATTGGTCATAACATGACCCTGGACCAACAGG(SEQ ID NO:4)

然后，使用Big循环测序终止子试剂盒(Applied Biosystems，美国)和以下引物对扩增的片段进行DNA序列分析：

JB-01CTCACCTACCTCTGGCCCCTTCCCGC(SEQ ID NO:3)

JB-02GAGGAGCTTCAATTTGGAGTGGATG(SEQ ID NO:5)

JB-06ATCAGCTGTCTCACCCCACATGCAAACTTCTC(SEQ ID NO:6)

JB-07TTATTGGTCATAACATGACCCTGGACCAACAGG(SEQ ID NO:4),

用Big循环测序终止子试剂盒扩增约100ng PCR片段(或300ng质粒DNA)和10pmol引物，用DyeEX 2.0Spin试剂盒纯化并测序。根据制造商的说明书使用所述试剂盒和设备。

然后，用从子叶组织获得的cDNA进行3'RACE和5'RACE。

使用了以下引物：

对于3'RACE：

JB-08AAGTTTGCATGTGGGGTGAGAC(SEQ ID NO:7)

JB-09GCAAACAATATGGCCTAGAGCTG(SEQ ID NO:8)

CDSIII-短ATTCTAGAGGCCGAGGCGGCCGACATGT(SEQ ID NO:9)

进行了两次PCR，一次用JB-08+CDSIII-短，并且一次用JB-09+CDSIII-短。使用JB-09引物对PCR片段进行测序。

对于5'RACE：

JB-10AAGAGTCCTTGGCTTTGGGAAC(SEQ ID NO:10)

Okib57-衔接子5'-pGTAGGAATTCGGGTTGTAGGGAGGTCGACATTGCC-3'(SEQ ID NO:11)

JB-01CTCACCTACCTCTGGCCCCTTCCCGC(SEQ ID NO:3)

JB-11TCAATGTCGCAATGTCATAGGC(SEQ ID NO:12)

JB-12ATGAGACTGAACCCAACACTGC(SEQ ID NO:13)

Okib58 5'-GGCAATGTCGACCTCCCTACAAC-3'(SEQ ID NO:14)

Okib59 5'CTCCCTACAACCCGAATTCCTAC-3'(SEQ ID NO:15)

用两种子叶转录酶用特异性引物JB-10合成cDNA。然后合并两种cDNA。将Okib57-衔接子与新鲜合成的cDNA连接。用引物JB-11和Okib58进行一次PCR，并且用引物JB-12和Okib59进行一次PCR。将所得片段亚克隆到PCR-Blunt-II-TOPO中并如上所述测序。

总之，成功地获得了来自直生刀豆的β-氨基己糖苷酶的mRNA序列。可以从不同的新鲜萌芽的植物材料中分离mRNA。对相应的cDNA进行测序，并通过β-氨基己糖苷酶(纯化的β-氨基己糖苷酶)的蛋白质序列的部分阐明来证实发现的序列。

实施例4：所鉴定的多肽的重组表达

来自直生刀豆的β-氨基己糖苷酶在AOX1启动子的控制下在法夫驹形氏酵母菌株ATCC 76273(也称为CBS 7435)中重组表达。为了在96深孔板中重组表达β-氨基己糖苷酶，从转化板中挑取单个菌落，放入填充有优化培养基的96深孔板的单个孔中。在产生生物质的初始生长期之后，通过添加允许去阻抑表达的优化的液体混合物诱导从AOX1启动子的表达。在从初始接种开始总共108小时之后，将所有深孔板离心，并且将所有孔的上清液收获到储备微量滴定板中以用于随后的分析。

为了在发酵规模上重组表达β-氨基己糖苷酶，用生产菌株接种300mL摇瓶中的50mL酵母/蛋白胨/甘油培养基，并且在28℃下以110rpm摇动过夜(预培养物1)。从预培养物1接种预培养物2(在2L摇瓶中200mL酵母/蛋白胨/甘油培养基)，使得OD600nm达到大约20。将预培养物2在28℃下以220rpm摇动约8h。从预培养物2接种2L填充有400mL含有甘油作为碳源的确定成分培养基(pH＝5.5)的发酵罐，使得OD600nm为2.0，在初始分批期期间，培养温度为28℃。在启动生产期前一小时，温度降低至24℃，并且在整个剩余过程中保持在此水平，同时pH降至5.0并保持在此水平。在整个过程中将氧饱和度设定为30％(级联控制：搅拌器、流量、氧补充)。在700rpm与1200rpm之间进行搅拌，并且选择1.0-2.0L·min-1的流量范围(空气)。甘油分批补料通过在整个培养过程中以6g/L·h供应60％甘油溶液来进行。

SEQUENCE LISTING

<110> 建新公司

<120> 具有β-氨基己糖苷酶活性的多肽和编码所述多肽的多核苷酸

<130> PAT19110-WO-PCT

<160> 18

<170> PatentIn version 3.5

<210> 1

<211> 523

<212> PRT

<213> Canavalia ensiformis

<400> 1

Ala Thr Leu Lys Ser Ile Ile Glu Pro Thr Glu Ser Leu Thr Tyr Leu

1 5 10 15

Trp Pro Leu Pro Ala Asp Phe Thr Ser Gly Asp Glu Thr Leu Ser Val

20 25 30

Asp Pro Ala Leu Thr Leu Ser Val Ala Gly Asn Gly Gly Gly Ser Ser

35 40 45

Ile Leu Arg Asp Ala Phe Asp Arg Tyr Arg Gly Ile Ile Phe Lys His

50 55 60

Ser Ser Val Gly Phe Ser Leu Ile Arg Lys Leu Arg Glu Arg Leu Val

65 70 75 80

Ser Val Ser Ala Tyr Asp Ile Ala Thr Leu Lys Ile Thr Val His Ser

85 90 95

Asp Asn Glu Glu Leu Gln Leu Gly Val Asp Glu Thr Tyr Thr Leu Leu

100 105 110

Val Pro Lys Ala Lys Asp Ser Tyr Val Ala Gly Glu Val Thr Ile Glu

115 120 125

Ala Asn Thr Val Tyr Gly Ala Leu Arg Gly Leu Glu Thr Phe Ser Gln

130 135 140

Leu Cys Ser Phe Asp Tyr Ser Asp Lys Thr Ile Lys Ile Tyr Lys Ala

145 150 155 160

Pro Trp Ser Ile Gln Asp Lys Pro Arg Phe Ser Tyr Arg Gly Leu Leu

165 170 175

Leu Asp Thr Ser Arg His Tyr Leu Pro Ile Asn Val Ile Lys Gln Ile

180 185 190

Ile Glu Ser Met Ser Tyr Ala Lys Leu Asn Val Leu His Trp His Ile

195 200 205

Ile Asp Glu Glu Ser Phe Pro Leu Glu Val Pro Thr Tyr Pro Asn Leu

210 215 220

Trp Lys Gly Ser Tyr Thr Lys Trp Glu Arg Tyr Thr Val Glu Asp Ala

225 230 235 240

Tyr Glu Ile Val Asn Phe Ala Lys Met Arg Gly Ile Asn Val Met Ala

245 250 255

Glu Val Asp Val Pro Gly His Ala Glu Ser Trp Gly Ala Gly Tyr Pro

260 265 270

Asn Leu Trp Pro Ser Pro Ser Cys Arg Glu Pro Leu Asp Val Ser Lys

275 280 285

Asn Phe Thr Phe Asp Val Ile Ser Gly Ile Leu Thr Asp Ile Arg Lys

290 295 300

Ile Phe Pro Phe Glu Leu Phe His Leu Gly Gly Asp Glu Val Asn Thr

305 310 315 320

Asp Cys Trp Thr Ser Thr Ser His Val Lys Glu Trp Leu Ser Thr Gln

325 330 335

Asn Met Thr Ala Lys Asp Ala Tyr Glu Tyr Phe Val Leu Lys Ala Gln

340 345 350

Glu Ile Ala Val Ser Lys Asn Trp Ser Pro Val Asn Trp Glu Glu Thr

355 360 365

Phe Asn Thr Phe Pro Ala Lys Leu His Lys Lys Thr Val Val His Asn

370 375 380

Trp Leu Gly Pro Gly Val Cys Pro Lys Val Val Ala Lys Gly Phe Arg

385 390 395 400

Cys Ile Phe Ser Asn Gln Gly Val Trp Tyr Leu Asp His Leu Asp Val

405 410 415

Pro Trp Asp Glu Val Tyr Thr Ala Glu Pro Leu Glu Gly Ile Glu Lys

420 425 430

Ser Ser Glu Gln Glu Leu Val Ile Gly Gly Glu Val Cys Met Trp Gly

435 440 445

Glu Thr Ala Asp Thr Ser Asn Val Gln Gln Thr Ile Trp Pro Arg Ala

450 455 460

Ala Ala Ala Ala Glu Arg Leu Trp Ser Gln Arg Asp Ser Thr Asn Ile

465 470 475 480

Thr Val Thr Ala Leu Pro Arg Leu Gln Asn Phe Arg Cys Leu Leu Asn

485 490 495

Lys Arg Gly Val Ala Ala Ala Pro Val Lys Asn Tyr Tyr Ala Arg Arg

500 505 510

Ala Pro Ser Gly Pro Gly Ser Cys Tyr Glu Gln

515 520

<210> 2

<211> 1569

<212> DNA

<213> Canavalia ensiformis

<400> 2

gctactttga agtccatcat cgagccaact gagtccttga cttacttgtg gccattgcca 60

gctgacttca cttctggtga cgaaactttg tctgttgacc cagctttgac tttgtccgtt 120

gctggtaatg gtggtggttc ctccattttg agagatgctt tcgacagata cagaggtatt 180

atcttcaagc actcctccgt tggattctct ttgatcagaa agttgagaga gagattggtt 240

tccgtttccg cttacgacat tgctactttg aagatcactg ttcactccga caacgaagag 300

ttgcagttgg gtgttgacga gacttacact ttgttggttc caaaggctaa ggactcctac 360

gttgctggtg aggttactat cgaggctaac actgtttacg gtgctttgag aggtttggag 420

actttctccc agttgtgttc cttcgactac tctgacaaga ctatcaagat ttacaaggct 480

ccttggtcca tccaggacaa gccaagattt tcctacagag gtttgttgtt ggacacttcc 540

agacactact tgccaatcaa cgttatcaag cagatcatcg agtccatgtc ctacgctaag 600

ttgaacgttt tgcactggca catcatcgac gaagagtctt tcccattgga ggttccaact 660

tacccaaact tgtggaaggg ttcctacact aagtgggaga gatacactgt tgaggacgct 720

tacgagatcg ttaacttcgc taagatgaga ggtattaacg ttatggctga ggttgacgtt 780

ccaggtcatg ctgaatcttg gggtgctggt tatccaaatt tgtggccatc tccatcctgt 840

agagagccat tggacgtttc caagaacttc actttcgacg ttatctccgg aatcttgact 900

gacatcagaa agatattccc attcgagttg ttccacttgg gaggtgacga ggttaatact 960

gactgttgga cttccacttc ccacgttaag gaatggttgt ccactcagaa catgactgct 1020

aaggatgctt acgaatactt cgttttgaag gctcaagaga tcgctgtttc taagaactgg 1080

tcccctgtta actgggaaga gactttcaac actttcccag ctaagttgca caagaaaact 1140

gttgttcaca actggttggg tccaggtgtt tgtccaaagg ttgttgctaa gggtttcaga 1200

tgtatcttct ccaaccaggg tgtttggtac ttggaccact tggatgttcc ttgggacgag 1260

gtttacactg ctgaaccatt ggaaggtatc gagaagtcct ctgagcaaga gttggttatc 1320

ggtggtgaag tttgtatgtg gggtgagact gctgacactt ctaacgttca gcagactatc 1380

tggccaagag ccgcagctgc tgctgaaaga ttgtggtccc aaagagactc cactaacatc 1440

actgttactg ctttgccaag attgcagaac ttcagatgtt tgttgaacaa gagaggtgtt 1500

gctgctgctc cagttaagaa ctactacgct agaagagccc catccggtcc aggttcttgt 1560

tacgaacaa 1569

<210> 3

<211> 26

<212> DNA

<213> Artificial Sequence

<220>

<223> Primer JB-01

<400> 3

ctcacctacc tctggcccct tcccgc 26

<210> 4

<211> 33

<212> DNA

<213> Artificial Sequence

<220>

<223> Primer JB-07

<400> 4

ttattggtca taacatgacc ctggaccaac agg 33

<210> 5

<211> 25

<212> DNA

<213> Artificial Sequence

<220>

<223> Primer JB-02

<400> 5

gaggagcttc aatttggagt ggatg 25

<210> 6

<211> 32

<212> DNA

<213> Artificial Sequence

<220>

<223> Primer JB-06

<400> 6

atcagctgtc tcaccccaca tgcaaacttc tc 32

<210> 7

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> Primber JB-08

<400> 7

aagtttgcat gtggggtgag ac 22

<210> 8

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> Primer JB-09

<400> 8

gcaaacaata tggcctagag ctg 23

<210> 9

<211> 28

<212> DNA

<213> Artificial Sequence

<220>

<223> CDSIII-short

<400> 9

attctagagg ccgaggcggc cgacatgt 28

<210> 10

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> JB-10

<400> 10

aagagtcctt ggctttggga ac 22

<210> 11

<211> 35

<212> DNA

<213> Artificial Sequence

<220>

<223> Okib57-Adapter

<400> 11

gtaggaattc gggttgtagg gaggtcgaca ttgcc 35

<210> 12

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> JB-11

<400> 12

tcaatgtcgc aatgtcatag gc 22

<210> 13

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> JB-12

<400> 13

atgagactga acccaacact gc 22

<210> 14

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> Okib58

<400> 14

ggcaatgtcg acctccctac aac 23

<210> 15

<211> 23

<212> DNA

<213> Artificial Sequence

<220>

<223> Okib59

<400> 15

ctccctacaa cccgaattcc tac 23

<210> 16

<211> 553

<212> PRT

<213> Canavalia ensiformis

<400> 16

Met Phe Leu Cys Ile Pro Arg Trp Phe Ser Ser Pro Leu Leu Ile Leu

1 5 10 15

Phe Val Ile Tyr Cys Ala Leu Phe Ala Pro Gln Ala Ala Ser Ala Thr

20 25 30

Leu Lys Ser Ile Ile Glu Pro Thr Glu Ser Leu Thr Tyr Leu Trp Pro

35 40 45

Leu Pro Ala Asp Phe Thr Ser Gly Asp Glu Thr Leu Ser Val Asp Pro

50 55 60

Ala Leu Thr Leu Ser Val Ala Gly Asn Gly Gly Gly Ser Ser Ile Leu

65 70 75 80

Arg Asp Ala Phe Asp Arg Tyr Arg Gly Ile Ile Phe Lys His Ser Ser

85 90 95

Val Gly Phe Ser Leu Ile Arg Lys Leu Arg Glu Arg Leu Val Ser Val

100 105 110

Ser Ala Tyr Asp Ile Ala Thr Leu Lys Ile Thr Val His Ser Asp Asn

115 120 125

Glu Glu Leu Gln Leu Gly Val Asp Glu Thr Tyr Thr Leu Leu Val Pro

130 135 140

Lys Ala Lys Asp Ser Tyr Val Ala Gly Glu Val Thr Ile Glu Ala Asn

145 150 155 160

Thr Val Tyr Gly Ala Leu Arg Gly Leu Glu Thr Phe Ser Gln Leu Cys

165 170 175

Ser Phe Asp Tyr Ser Asp Lys Thr Ile Lys Ile Tyr Lys Ala Pro Trp

180 185 190

Ser Ile Gln Asp Lys Pro Arg Phe Ser Tyr Arg Gly Leu Leu Leu Asp

195 200 205

Thr Ser Arg His Tyr Leu Pro Ile Asn Val Ile Lys Gln Ile Ile Glu

210 215 220

Ser Met Ser Tyr Ala Lys Leu Asn Val Leu His Trp His Ile Ile Asp

225 230 235 240

Glu Glu Ser Phe Pro Leu Glu Val Pro Thr Tyr Pro Asn Leu Trp Lys

245 250 255

Gly Ser Tyr Thr Lys Trp Glu Arg Tyr Thr Val Glu Asp Ala Tyr Glu

260 265 270

Ile Val Asn Phe Ala Lys Met Arg Gly Ile Asn Val Met Ala Glu Val

275 280 285

Asp Val Pro Gly His Ala Glu Ser Trp Gly Ala Gly Tyr Pro Asn Leu

290 295 300

Trp Pro Ser Pro Ser Cys Arg Glu Pro Leu Asp Val Ser Lys Asn Phe

305 310 315 320

Thr Phe Asp Val Ile Ser Gly Ile Leu Thr Asp Ile Arg Lys Ile Phe

325 330 335

Pro Phe Glu Leu Phe His Leu Gly Gly Asp Glu Val Asn Thr Asp Cys

340 345 350

Trp Thr Ser Thr Ser His Val Lys Glu Trp Leu Ser Thr Gln Asn Met

355 360 365

Thr Ala Lys Asp Ala Tyr Glu Tyr Phe Val Leu Lys Ala Gln Glu Ile

370 375 380

Ala Val Ser Lys Asn Trp Ser Pro Val Asn Trp Glu Glu Thr Phe Asn

385 390 395 400

Thr Phe Pro Ala Lys Leu His Lys Lys Thr Val Val His Asn Trp Leu

405 410 415

Gly Pro Gly Val Cys Pro Lys Val Val Ala Lys Gly Phe Arg Cys Ile

420 425 430

Phe Ser Asn Gln Gly Val Trp Tyr Leu Asp His Leu Asp Val Pro Trp

435 440 445

Asp Glu Val Tyr Thr Ala Glu Pro Leu Glu Gly Ile Glu Lys Ser Ser

450 455 460

Glu Gln Glu Leu Val Ile Gly Gly Glu Val Cys Met Trp Gly Glu Thr

465 470 475 480

Ala Asp Thr Ser Asn Val Gln Gln Thr Ile Trp Pro Arg Ala Ala Ala

485 490 495

Ala Ala Glu Arg Leu Trp Ser Gln Arg Asp Ser Thr Asn Ile Thr Val

500 505 510

Thr Ala Leu Pro Arg Leu Gln Asn Phe Arg Cys Leu Leu Asn Lys Arg

515 520 525

Gly Val Ala Ala Ala Pro Val Lys Asn Tyr Tyr Ala Arg Arg Ala Pro

530 535 540

Ser Gly Pro Gly Ser Cys Tyr Glu Gln

545 550

<210> 17

<211> 1662

<212> DNA

<213> Canavalia ensiformis

<400> 17

atgtttctgt gcatacccag atggttctct tcacctcttc tcattctctt tgtcatttac 60

tgtgccctct ttgctcctca agctgcttct gccacactca aatctatcat tgaacccact 120

gagtccctca catacctttg gcccctcccc gcagacttca cttcaggcga tgaaactctt 180

tccgttgacc ctgcacttac cctctctgtc gccggcaacg gtggtggctc ttccattctc 240

agagatgcat ttgaccgata cagaggaatc atattcaagc acagcagtgt tgggttcagt 300

ctcataagaa agttaaggga aagattggtg tctgtttctg cctatgacat tgcgacattg 360

aagatcactg tccattcaga taacgaggag cttcaacttg gagtggatga aacctatacc 420

ttgctggttc ccaaagccaa ggactcttat gttgctgggg aagtcacaat tgaggcaaac 480

actgtttatg gtgcattgcg cggattagag acattcagcc agttgtgttc tttcgattat 540

tcggataaaa caataaaaat atacaaggca ccttggtcca tccaagataa acctagattt 600

tcctatcgtg ggcttttgtt ggacacatcg aggcactatt taccaattaa cgtaattaag 660

cagattattg aatctatgtc ctatgctaaa cttaatgttc tacattggca catcatagac 720

gaggagtcat ttcctcttga ggtacctaca tatccaaact tgtggaaagg ttcatataca 780

aagtgggaac gttacacggt agaagacgca tatgaaattg tcaacttcgc caaaatgaga 840

ggcataaatg tgatggcaga agtggatgtt cctggtcatg cagaatcatg gggtgctgga 900

tatcccaatc tttggccgtc accttcctgt agggagccac tggatgtttc aaagaatttt 960

acttttgatg tcatttctgg tatcctgaca gatataagaa agattttccc gtttgagcta 1020

tttcacttgg gtggtgatga agttaataca gattgctgga ccagtacttc tcatgtgaag 1080

gaatggcttt cgactcaaaa catgactgct aaagatgcct atgaatattt tgtactgaag 1140

gcccaagaga tagctgtttc aaaaaattgg agtccggtga actgggaaga aaccttcaat 1200

acatttccag caaagctcca taagaaaact gtggtgcata actggttggg ccctggggtt 1260

tgtccaaagg ttgttgcaaa aggtttcagg tgcattttca gtaatcaggg tgtctggtat 1320

cttgaccatc tggatgtacc ttgggatgag gtctatactg ctgagccact agaaggaata 1380

gaaaaatctt ctgaacaaga gcttgtaatt ggaggagaag tttgcatgtg gggtgagaca 1440

gctgatacat ccaatgttca gcaaacaata tggcctagag ctgctgcagc tgcagaacgc 1500

ttatggagtc agagagattc tacaaatatt actgtaactg cgttgccccg gttacaaaac 1560

ttcagatgtc tattgaataa acgtggagtt gcagctgctc ctgtgaaaaa ttattatgct 1620

agaagggctc ctagtggtcc aggctcatgt tatgagcaat aa 1662

<210> 18

<211> 1572

<212> DNA

<213> Artificial Sequence

<220>

<223> codon optimized sequence (for human cells)

<400> 18

gccacactga agtccatcat cgagcccacc gagagcctga cctacctgtg gcctctgccc 60

gccgatttca ccagcggcga cgagacactg tccgtggatc ctgccctgac actgagcgtg 120

gccggaaatg gcggcggaag cagcatcctg agagatgcct tcgaccggta cagaggcatc 180

atcttcaagc acagcagcgt gggcttcagc ctgatccgga agctgcgcga gagactggtg 240

tccgtgtccg cctacgatat cgccaccctg aagatcaccg tgcactccga caacgaggaa 300

ctgcagctgg gcgtggacga gacatacacc ctgctggtgc ccaaggccaa ggacagctat 360

gtggccggcg aagtgaccat cgaggccaac acagtgtacg gcgccctgag aggcctggaa 420

accttcagcc agctgtgcag cttcgactac agcgacaaga ccatcaagat ctacaaggcc 480

ccttggagca tccaggacaa gccccggttc agctacagag gcctgctgct ggacaccagc 540

agacactacc tgcccatcaa cgtgatcaag cagatcatcg agagcatgag ctacgccaag 600

ctgaacgtgc tgcactggca catcatcgac gaggaatcct tcccactgga agtgcccacc 660

taccccaacc tgtggaaggg cagctacacc aagtgggagc ggtacaccgt ggaagatgcc 720

tacgagatcg tgaacttcgc caagatgcgg ggcatcaatg tgatggccga ggtggacgtg 780

ccaggccacg ctgaatcttg gggagccggc taccctaatc tgtggcccag ccccagctgt 840

cgcgaacccc tggacgtgtc caagaacttc accttcgacg tgatcagcgg catcctgacc 900

gatatcagaa agatcttccc attcgagctg ttccacctgg gaggcgacga agtgaacacc 960

gactgctgga ccagcaccag ccacgtgaaa gagtggctga gcacccagaa catgaccgcc 1020

aaggacgcct acgagtactt cgtgctgaag gcccaggaaa tcgccgtgtc taagaattgg 1080

agccccgtga actgggagga aacctttaac accttccctg ccaaactgca caagaaaacc 1140

gtggtgcaca attggctggg ccctggcgtg tgccctaagg tggtggccaa gggcttccgc 1200

tgcatattca gcaaccaggg cgtgtggtat ctggaccacc tggatgtgcc ctgggacgag 1260

gtgtacacag ccgagcctct ggaaggcatc gagaagtcct ccgagcagga actcgtgatc 1320

ggcggagaag tgtgcatgtg gggcgagaca gccgacacct ccaacgtgca gcagaccatc 1380

tggcctagag ccgccgctgc cgctgaaaga ctgtggtccc agagagacag caccaacatc 1440

accgtgaccg ccctgccccg gctgcagaac tttagatgcc tgctgaacaa gcggggcgtg 1500

gccgctgccc ccgtgaagaa ttactatgcc agaagggccc ccagcggccc tggcagctgt 1560

tatgaacagt ga 1572

Claims

a)提供酵母细胞，所述酵母细胞包含编码具有β-氨基己糖苷酶活性且具有与SEQ IDNO:1或16中所示的氨基酸序列至少95％相同的氨基酸序列的多肽的多核苷酸，

b)在允许产生所述多肽的条件下培养所述酵母细胞，以及

c)获得步骤b)中产生的多肽。

2.根据权利要求1所述的方法，其中所述具有β-氨基己糖苷酶活性的多肽具有与SEQID NO:1中所示的氨基酸序列至少98％相同的氨基酸序列。

3.根据权利要求1和2所述的方法，其中所述具有β-氨基己糖苷酶活性的多肽包含如SEQ ID NO:1中所示的氨基酸序列。

4.根据权利要求1至3所述的方法，其中所述酵母细胞属于酵母科。

5.根据权利要求4所述的方法，其中所述酵母细胞是驹形氏酵母属细胞，如法夫驹形氏酵母细胞。

6.根据权利要求1至5中任一项所述的方法，其中编码具有β-氨基己糖苷酶活性的多肽的所述多核苷酸可操作地连接至异源启动子。

7.根据权利要求1至6中任一项所述的方法，其中编码具有β-氨基己糖苷酶活性的多肽的所述多核苷酸是针对所述酵母细胞进行密码子优化的。

8.根据权利要求1至7中任一项所述的方法，其中所述多核苷酸包含如SEQ ID NO:2或17中所示的核酸序列。

9.一种多核苷酸，所述多核苷酸编码具有β-氨基己糖苷酶活性且具有与SEQ ID NO:1中所示的氨基酸序列至少95％相同的氨基酸序列的多肽。

10.根据权利要求9所述的多核苷酸，其中所述具有β-氨基己糖苷酶活性的多肽包含如SEQ ID NO:1中所示的氨基酸序列。

11.根据权利要求9所述的多核苷酸，其中所述多核苷酸可操作地连接至异源启动子。

12.一种载体，如表达载体，所述载体包含根据权利要求9至11中任一项所述的多核苷酸。

13.一种酵母细胞，所述酵母细胞包含根据权利要求9至11中任一项所述的多核苷酸或根据权利要求12所述的载体。

14.根据权利要求13所述的酵母细胞，其中所述酵母细胞属于酵母科。

15.一种分离的多肽，所述分离的多肽由根据权利要求9至11中任一项所述的多核苷酸编码。