CN101490262B - 实现改进的多肽表达的方法 - Google Patents

实现改进的多肽表达的方法 Download PDF

Info

Publication number
CN101490262B
CN101490262B CN2007800246705A CN200780024670A CN101490262B CN 101490262 B CN101490262 B CN 101490262B CN 2007800246705 A CN2007800246705 A CN 2007800246705A CN 200780024670 A CN200780024670 A CN 200780024670A CN 101490262 B CN101490262 B CN 101490262B
Authority
CN
China
Prior art keywords
codon
sequence
gene
coding
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800246705A
Other languages
English (en)
Other versions
CN101490262A (zh
Inventor
约翰尼斯·安德列什·劳博斯
诺埃尔·尼古拉斯·玛丽亚·伊丽莎白·佩吉·范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DSM IP Assets BV
Original Assignee
DSM IP Assets BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DSM IP Assets BV filed Critical DSM IP Assets BV
Publication of CN101490262A publication Critical patent/CN101490262A/zh
Application granted granted Critical
Publication of CN101490262B publication Critical patent/CN101490262B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2402Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing O- and S- glycosyl compounds (3.2.1)
    • C12N9/2405Glucanases
    • C12N9/2408Glucanases acting on alpha -1,4-glucosidic bonds
    • C12N9/2411Amylases
    • C12N9/2414Alpha-amylase (3.2.1.1.)
    • C12N9/2417Alpha-amylase (3.2.1.1.) from microbiological source
    • C12N9/242Fungal source
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/90Isomerases (5.)
    • C12N9/92Glucose isomerase (5.3.1.5; 5.3.1.9; 5.3.1.18)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Mycology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本发明涉及优化蛋白质编码序列以在给定的宿主细胞中表达的方法。该方法应用遗传算法来优化编码预定的氨基酸序列的序列的单个密码子适合度和/或密码子对适合度。在该算法中,重复进行产生新序列变体和随后选择适当变体的过程,直到变体的编码序列达到单个密码子适合度和/或密码子对适合度的最小值。本发明还涉及包含处理器和存储器的计算机,所述处理器被设置为从所述存储器读取和写入,所述存储器包含数据和指令,所述数据和指令被设置为向处理器提供进行下述遗传算法的能力,所述遗传算法用于优化单个密码子适合度和/或密码子对适合度。本发明还涉及包含预定的氨基酸序列的编码序列的核酸,所述编码序列针对本发明的方法中给定的宿主细胞针对单个密码子适合度和/或密码子对适合度进行了优化,本发明还涉及包含这类核酸的宿主细胞和使用这些宿主细胞生产多肽和其它发酵产物的方法。

Description

实现改进的多肽表达的方法
技术领域
本发明涉及在宿主细胞中生产多肽的方法,其中根据宿主细胞的密码子使用(codon-usage)、尤其是所使用的密码子对(codon-pair)对编码多肽的核苷酸序列进行了修饰,从而获得改进的编码多肽的核苷酸序列的表达和/或改进的多肽生产。
背景技术
本发明涉及用于生产多肽的改进方法。大量途径已被用于产生用于蛋白质过表达和/或生产的菌株。这包括但不限于,制造下述菌株和应用强启动子序列,所述菌株具有多个拷贝的编码感兴趣的蛋白质(POI)的基因。
每个特定氨基酸最少由一个密码子、最多由六个密码子编码。先前的研究已显示:不同物种间编码细胞的多肽的基因中密码子使用是有偏向的(Kanaya,S,Y.Yamada,Y.Kudo and T.Ikemura(1999)Studies of codon usageand tRNA genes at 18 unicellular organisms and quantification of Bacillussubtilis tRNAs:gene expression level and species-specific diversity of codonusage based on multivariate analysis.Gene 238:143-155)。先前的出版物公开了对给定宿主细胞中密码子使用的优化(optimization),以改进多肽生产(以WO 97/11086为例)。更具体地,WO 03/70957描述了丝状真菌中用于生产植物多肽的优化密码子使用。在所有这些“经典的”密码子优化情况中,天然的密码子已被来自基因的参考组的最常用的密码子所取代,而针对每个氨基酸的密码子翻译率被设计为高(优化的)。
更近来,在WO 03/85114中描述了对密码子使用的调和(harmonization),其影响宿主生物的基因中所有密码子的分布,假定这些影响蛋白质折叠。
最近数年中,许多生物如Bacillus subtilis(Kunst et al.1997)、Bacillusamiloliquefaciens、Aspergillus niger(Pel et al.,2007,Nat Biotech.25:221-231)、Kluyveromyces lactis、Saccharomyces cerevisiae(http://www.yeastgenome.org/)、多种植物基因组、小鼠、大鼠和人的经完全测序的基因组的可用性提供了相对于基因序列的天然表达水平(mRNA或蛋白质水平)来分析其自身的不同方面的可能性。一个良好的例子是密码子使用(偏向性)分析和后续的单个密码子优化。应当注意:单个密码子优化在本文中被理解为表示密码子优化或密码子调和技术,所述技术关注密码子作为单个独立实体的优化,这与本发明主题的密码子对优化相反。
尽管单个密码子使用(偏向性)之前已经被广泛研究(综述见Gustafsson et al.,2004,Trends Biotechnol.22:346-353),但是对关于密码子对选择和密码子对优化的报道很少。
已经例如针对AGG-AGG密码子(Spanjaard and van Duin,1988,Proc.Natl.Acad.Sci.USA 85:7967-7971;Gurvich et al.,2005,J.Bacteriol.187:4023-432)和针对UUU-YNN位点(Schwarz and Curran,1997,NucleicAcids Res.25:2005-2011)研究了少量特定的密码子对对E.coli中核糖体移码的影响。
Gutman和Hatfield(1989,Proc.Natl.Acad.Sci USA 86:3699-3703)分析了用于E.coli的所有可能的密码子对的更大的序列集合,并且发现密码子对是有定向偏向的。另外,他们观察到高度不足量表现(underrepresented)的对几乎是高表达的基因中过量表现的(overrepresented)对使用频率的两倍,而在弱表达的基因中,过量表现的对被更频繁地使用。US 5,082,767(Hatfield and Gutman,1992)公开了下述方法,所述方法测定生物中相对天然的密码子对偏好,并根据所述密码子对偏好改变感兴趣的基因的密码子对从而以预定的方式改变所述基因的翻译动力学,有针对E.coli和S.cerevisiae的例子。然而,在他们的方法中,Hatfield和Gutman仅优化了个别的相邻密码子对。另外,在他们的专利(US 5,082,767)中要求通过被修饰的序列提高至少一部分基因的翻译动力学,所述被修饰的序列中密码子对被改变以增加下述密码子对的数量,所述密码子与随机密码子对使用相比是生物中更加大量并且更加不足量表现的密码子对。本发明公开了通过被修饰的序列提高翻译的一种方法,所述被修饰的序列中密码子对被改变,以增加下述密码子对的数量,所述密码子与随机密码子对使用相比是生物中更加过量表现的密码子对。
Moura et al.(2005,Genome Biology,6:R28)分析了整个S.cerevisae ORF组,但是没有发现约47%密码子对的统计学显著的偏向性。各自的数值在物种间差异,导致可以被称作密码子对使用的“物种特异指纹”的“密码子背景图(codon context map)”。
Boycheva et al.(2003,Bioinformatics 19(8):987-998)通过在具有高和弱表达的基因中寻找过量表现的和不足量表现的密码子对,鉴定了E.coli中被称作假定衰减的(hypothetically attenuating)和假定非衰减的两个密码子对集合。然而,他们未提出应用该发现的方法,也未给出对他们的假设的任何实验证明。应当注意,这些组被定义为与Gutman和Hatfield(1989,1992,上文)定义的组(他们提出了高表达的基因中高度不足量表现的对的非衰减效应)完全相反。
Buchan、Aucott和Stanfield(2006,Nucleic Acids Research 34(3):1015-1027)分析了相对密码子对偏向性而言的tRNA特性。
对于偏向性在密码子对利用中的牵连而言,Irwin et al.(1995,J.Biol.Chem.270:22801-22806)证明了:在E.coli中当用高度过量表现的密码子对替换高度不足量表现的密码子对时,合成率实际上大量降低,当将轻微不足量表现的密码子对替换为更高度不足量表现的密码子对时,合成率提高。这是非常显著的,因为这与人们考虑到单个密码子偏向性对蛋白质水平的影响后所预期的有些相反。
然而,上述领域均未公开如何考虑下述事实来优化全长密码子序列的密码子对使用,所述事实为密码子对通过定义重叠,和每个个体密码子对因此影响重叠的上游和下游密码子对的偏向性。另外,上述领域均未公开将单个密码子以及密码子对二者的优化组合的方法。考虑到下述密码子对优化与单个密码子优化的任选的组合和所述密码子对重叠的密码子对优化会大幅改进编码感兴趣的多肽的核苷酸序列的表达和/或改进所述多肽的生产。
因此,本领域仍然需要新颖的方法,所述方法用于在宿主细胞中优化编码序列以改进多肽的生产。
发明概述
本发明的一个目的是提供下述方法,所述方法针对有效的基因转录和蛋白质翻译来优化编码序列。为达到此目的,本发明提供了编码预定的氨基酸序列的核苷酸序列的优化方法,其中所述编码序列针对在预定的宿主细胞中的表达被优化,所述方法包括:(a)产生至少一条编码预定的氨基酸序列的原始编码序列;(b)通过用同义密码子替换该至少一条原始编码序列中的一个或多个密码子,从该至少一条原始编码序列产生至少一条新产生的编码序列;(c)测定所述至少一条原始编码序列的适合度值和所述至少一条新产生的编码序列的适合度值,同时使用下述适合度函数,所述函数针对预定的宿主细胞至少测定单个密码子适合度和密码子对适合度之一;(d)根据预定的选择标准,在所述至少一条原始编码序列和所述至少一条新产生的编码序列中选择一条或多条选定的编码序列,所述适合度值越高,被选择的机会越高;和(e)重复动作b)到d),同时在动作b)到d)中将所述一条或多条选定的编码序列作为一条或多条原始编码序列处理,直至满足预定的迭代终止标准(iteration stop criterion)。
在一些实施方案中,本发明涉及例如单个密码子使用、密码子调和、二核苷酸使用的方面,并涉及密码子对偏向性。该方法可以通过在下述计算机上运行的计算机程序进行,所述计算机程序使用可以在MATLAB(http://www.mathworks.com/)中完成的序列分析和序列最优化的数学算法。
除了正的密码子最优化(例如以正的方式调控基因表达和蛋白质生产)以外,本发明还提供了使密码子适应“不良”密码子对的方法(即负的密码子对最优化)。后一方法适用于对照目的以及以负的方式调控基因表达。
附图概述
应当观察到,将参考下述若干附图来阐述本发明,所述附图仅旨在阐述本发明,而不限制本发明的范围,本发明的范围仅由附带的权利要求书及其等价物所定义。
图1显示了计算机装置,本发明的方法可以在所述装置上进行。
图2显示了本发明的实施方案的流程图。
图3显示了不同生物中3,721个正义:正义密码子对的密码子对偏向性数值分布。每个直方图右上角的数字是观察到的分布的标准差;对所有生物而言均值(未显示)在-0.06和-0.01之间。
图4显示了多种生物的密码子对偏向性的相关性。相关系数在每个小图的右上角显示。
图5显示了A.niger的密码子偏向性图谱。偏向性数值范围从-0.67到0.54,而在其它生物中它们甚至可以稍高于+-0.9(也见图3)。这些图表中最高强度的黑色代表0.9(图5A和5C为正值,原始为绿色)和-0.9(图5B和5D为负值,原始为红色)的数值。在图5A和B中,行和列根据它们密码子的字母顺序排列。在图5C和5D中,行根据下述的字母顺序排列:第三位核苷酸作为首要的排列标准,中间位置核苷酸作为次要排列标准,第一位核苷酸作为第三排列标准。
图6显示了B.subtilus的密码子偏向性图谱。偏向性数值范围从-0.97到0.87,而在其它生物中它们甚至可以稍高于+-0.9(也见图3)。这些图表中最高强度的黑色代表0.9(图6A为正值,原始为绿色)和-0.9(图6B为负值,原始为红色)的数值。
图7显示了E.coli的密码子偏向性图谱。偏向性数值范围从-0.97到0.85,而在其它生物中它们甚至可以稍高于+-0.9(也见图3)。这些图表中最高强度的黑色代表0.9(图7A为正值,原始为绿色)和-0.9(图7B为负值,原始为红色)的数值。
图8显示了与前文图5-7类似的A.niger的479个高度转录的基因的密码子偏向性图谱。这些图表中最高强度的黑色代表0.9(图8A为正值,原始为绿色)和-0.9(图8B为负值,原始为红色)的数值。该组中最大的偏向性数值为-1,即一些可能的密码子对完全不存在,尽管它们各自的密码子和所编码的氨基酸对存在。这可以是与全基因组中5,885,942个相比更小量的188,067个密码子对的结果。然而,主要的原因应当是这类对的真实不足量表现,其由高表达的基因中的选择引起。
图9显示了A.niger中一组479个高表达的基因的偏向性(垂直轴)对所有基因偏向性(水平轴)的散布图。不涉及终止密码子的所有3,721个密码子对被示出。从浅灰到黑的颜色根据整个基因组中z-评分的绝对值指定(即图中的亮点在所有的基因中不具有显著的偏向性),大小根据高表达的组中绝对z-评分指定,即非常小的点在其中不具有显著的偏向性(此处|z-评分|<1.9)。黑色实线指出两个偏向性数值相等的地方;虚线表示实际相关性的最佳线性近似(通过主成分分析确定);其斜率为2.1左右。
图10:与其转录水平的对数相比,4,584个A.niger基因的适合度值。相关系数为-0.62。
图11显示了单个密码子优化与密码子对优化相比。野生型(fitsc(gFUA)=0.165,fitcp(gFUA)=0.033)不适合该图(其应该在右上远处)。清楚的是cpi参数确定单个密码子和密码子对适合度之间的权衡。最优的基因始终是具有最低fitsc和fitcp值的基因。考虑到点的位置仍然不清楚对哪个cpi值可获得最好的基因,因为我们还不知道单个密码子使用或密码子对使用哪个更重要。尽管实施例表明:除单个密码子适合度以外密码子对适合度也非常重要的有力证据,这表示cpi应当被选择为至少>0。
图12展示了两幅图,其显示了上述FUA的(499个中)最初20个密码子的序列品质(也见实施例2)。黑点指出了期望的密码子比例,而x-标记显示实际的密码子比例(在整个基因中),二者通过虚线连接。然后单个密码子适合度可以被解释为这些虚线长度的平均值(注意对于位置4和5上预期的和实际的比例相等的密码子例如TGG(其没有同义密码子)而言,该“长度”为零;还注意“长度”不能为负)。黑色条反过来显示两个相邻密码子形成的对的权重。黑色点(中间,条下方)指出编码相同的二肽的任何密码子对的最小权重。然后密码子对适合度是这些条的平均高度(注意此处使用的高度可以适当地为负)。
图13指出使用本发明所述的遗传算法途径用于优化amyB基因的fitcombi的趋同(convergence),其得到SEQ ID NO.6。
图14为了解释指出单个密码子分布图表(如例如图15中所示的分布图表)的部分。两幅图指出编码苯丙氨酸的两个同义密码子:UUU(上图)和UUC(下图)的单个密码子使用。两幅图的X轴和Y轴均从0%到100%。灰色直方图是一组250个高表达的A.niger基因针对每个氨基酸(同义密码子组)标准化的密码子使用直方图,其中所述基因包括在具有0%、>0-<10%、10-<20%、...、90-<100%、100%的组中。例如,50%的高表达的基因落入具有0%UUU密码子使用和因此100% UUC密码子使用以编码苯丙氨酸的组中。白色条给出关于直方图的相似库(bin)中基因A(在该情况下为WT amyB)的密码子使用;因此对基因A而言100%在库20-30%(20%是3/15的密码子为UUU)中,因而100%在库80-<90%(80%是12/15的密码子为UUC)中。黑色条给出基因B(在该情况下为amyB的单个密码子优化的变体)的统计学。可以用类似的方式产生16乘4的图,以显示所有64个密码子的统计学,见例如图15。
图15(第1和第2部分)描述了单个密码子优化的amyB基因(黑色)与野生型amyB基因(白色)相比的三个密码子频率。灰色直方图描述了A.niger中250个高表达的基因的统计学。显而易见,某些密码子如半胱氨酸(UGU/UGC)、组氨酸(CAU/CAC)、酪氨酸(UAU/UAC)和其它的密码子被用来进行了真正的改进。
图16(第1和第2部分)描述了已经关于单个密码子和密码子对二者被优化的amyB基因(黑色)与野生型amyB(白色)相比的单个密码子频率。灰色直方图描述了A.niger中250个高表达的基因的统计学。显而易见,这些图高度类似图15中描述的单个密码子优化的基因的情况。
图17描述了A.niger的WT amyB基因单个密码子和密码子对统计学全图(图18)的部分。X轴上是在位置1上用起始密码子ATG起始的基因中后续的密码子。黑点“.”指出该位置上的密码子相对于其同义密码子的目标单个密码子比例。对ATG而言其为1.0(100%)。交叉“x”是所示基因中实际的密码子比例;虚线显示目标比例与实际比例之间的差异。密码子权重为-1和1之间的数值。条指出相邻密码子的实际密码子对权重,而五角星指出最优的能达到的同义密码子对的权重(不考虑相邻的对)。例如,第一条为-0.23,其为‘ATG-GTC’的权重,第二条为0.66,其为‘GTC-GCG’的权重。
图18描述了SEQ ID NO.2(WT AmyB)的单个密码子和密码子对统计学。
图19描述了SEQ ID NO.5(单个密码子优化的AmyB)的单个密码子和密码子对统计学。
图20描述了SEQ ID NO.6(单个密码子和密码子对优化的WTAmyB)的单个密码子和密码子对统计学。
图21描述了表达载体pGBFINFUA-1的质粒图谱。图21还提供了质粒pGBFINFUA-2和pGBFINFUA-3的代表性图谱。所有的克隆来自pGBFIN-12(在WO99/32617中描述)表达载体。其标示出了相对于amyB启动子变体序列和编码α-淀粉酶的A.niger amyB cDNA序列的glaA侧翼区。可以在转化A.niger菌株之前通过用限制性酶NotI消化去除E.coliDNA。
图22描述了通过单次同源重组整合的图示。表达载体包含选择性amdS标记物和与amyB基因相连的glaA启动子。这些特征侧翼是glaA基因座的同源区(分别为3’glaA和3”glaA),以指导在基因组glaA基因座处的整合。
图23描述了表达三种不同构建体的A.niger菌株培养液中α淀粉酶的活性。描述了表达天然amyB构建体的A.niger菌株培养液中α淀粉酶的活性,其中(1)翻译起始序列和翻译终止序列被修饰(pGBFINFUA-1),和(2)翻译起始序列、翻译终止序列和单个密码子使用被修饰(pGBFINFUA-2),和(3)翻译起始序列、翻译终止序列和单个密码子使用与密码子对使用被修饰(pGBFINFUA-3),所述修饰根据本发明的方法进行。α-淀粉酶活性以相对单位[AU]表示,第4天FUA1组的10个菌株中6个单拷贝菌株的均值设定为100%。所示的每组10个转化体是被独立地分离和培养的转化体。
图24(A和B)描述了Bacillus物种单个密码子优化的单个密码子频率。图14给出了对小图的解释。灰色直方图代表B.subtilis中50个最高表达的基因的密码子分布,见文本。黑色条指出了目标单个密码子频率。
图25描述了针对SEQ ID NO.14(1/3)、SEQ ID NO.17(2/3)和SEQ IDNO.14(3/3)的单个密码子和密码子对统计学,所述序列分别使用密码子对+单个密码子(1/3)、单个密码子(2/3)和负密码子对+单个密码子优化(3/3)被优化。关于图的解释见图17。
图26.E.coli/Bacillus穿梭载体pBHA-12。其中指出了多克隆位点(MCS)1和2。
图27.在E.coli/Bacillus穿梭载体pBHA-12中克隆基因的例子。图显示了SEQ ID NO.9被克隆的部分A和B(灰色箭头)。其中指出了1A部分的克隆位点NdeI和BamHI,1B部分的克隆位点SmaI和KpnI。使用PvuII切除E.coli部分。
发明详述
除单个密码子偏向性外,核苷酸序列中的其它结构也可能影响蛋白质表达,所述结构例如二核苷酸或某些短核苷酸序列的重复(密码子使用终究能够按照读码框成直线以三核苷酸序列的模式重复)。该工作呈现了鉴定某些密码子对优选级(preference)的方法,即密码子是否像它们是根据所鉴定的密码子使用比例被选择然后随机分布在基因(关于氨基酸序列)中那样来出现在基因中,或者,是否一些密码子更经常紧邻某些密码子出现和更不经常紧邻其它密码子出现。
对密码子对(codon pair)的分析还包括其它方面,即读码框周围的二核苷酸使用,和对与密码子紧邻的某单个核苷酸可能的优选级。本发明公开了针对给定的宿主生物来产生密码子对偏向性表格的方法,藉此经测序的全基因组的所有经鉴定的ORF之任一被用作输入值或选定的基因(例如高表达的基因)组。本发明公开了一种方法,其中如此鉴定的密码子对偏向性表格随后被用于在感兴趣的基因(GOI)中优化密码子对分布,以改善相应的感兴趣的蛋白质(POI)的表达。
单个密码子优化提供了改进感兴趣的蛋白质的表达水平的一个良好起点。尽管其它人针对具有低丰度的tRNA插入tRNA基因的额外拷贝,尝试通过宿主细胞的适应克服由感兴趣的基因中存在被拒绝的密码子引起的缺点(例如Stratagene BL-21 CodonPlusTM感受态细胞、Novagen RosettaTM宿主菌株,均为E.coli),但是本发明人专注于感兴趣的基因自身的适应。基因组中不想要的密码子已被替换为同义密码子,使得得到的序列的单个密码子分布尽可能地接近先前鉴定的期望的密码子比例。
然而,这种密码子调和仍然具有非常大量可能的基因是同样“最适”的,因为优化的基因中总体密码子分布是选择标准,因此能够容易地考虑密码子序列的其它期望的特性,例如不存在某些酶的限制性位点或已知引起移码的密码子对。更进一步,人们能够将密码子对使用优化至有限的程度。但是当(例如朝向最丰富的密码子对使用)优化基因的密码子对时,得到的序列的单个密码子使用可能不接近最适度,因为可能存在由不足量表现的单个密码子组成的优选的密码子对,因此必须找到单个密码子和密码子对优化之间的平衡。本发明公开了允许平衡单个密码子和密码子对优化二者的方法。下述密码子对优化大幅地改进了编码感兴趣的多肽的核苷酸序列的表达和/或改进了所述多肽的生产,所述密码子对优化考虑了密码子对重叠和所述密码子对优化与单个密码子优化的任选组合。
在本发明的上下文中,核苷酸编码序列或编码序列被定义为编码多肽的核苷酸序列。编码序列的边界一般由位于mRNA 5′端开放读码框开端的起始密码子(在真核生物中通常为ATG,而在原核生物中其可以是ATG、CTG、GTG、TTG之一)和位于mRNA 3′端开放读码框紧下游的终止密码子(一般为TAA、TGA、TAG之一,尽管存在该“通用”编码的例外)界定。编码序列可包括但不限于:DNA、cDNA、RNA和重组核酸(DNA、cDNA、RNA)序列(注意本领域公知在RNA中尿嘧啶U代替脱氧核苷酸胸腺嘧啶T)。如果编码序列旨在用于在真核细胞中表达,则多聚腺苷酸化信号和转录终止序列通常会位于编码序列的3′。编码序列包括翻译起始子(initiator)编码序列和任选的信号序列,和任选的一条或多条内含子序列。尽管术语“编码序列”和“基因”严格地讲不表示相同的实体,但是两个术语在本文中频繁地可交换地使用,技术人员会根据上下文明白该术语是表示全基因还是仅表示其编码序列。
用于单个密码子和/或密码子对适应(codon pair adaptation)的方法和 计算机设置
对于高表达的基因的单个密码子使用特性而言,在所有基因和一组高表达基因中的单个密码子比例“手动”比较导致用于改善基因表达水平的一些“期望的密码子比例”。
然后可以如下进行基因的单个密码子适应:(1)计算基因中的实际比例,重复地(例如随机地)挑出其期望的比例比实际比例低的密码子并将其替换为具有过低比例的同义密码子;或(2)使用“期望的密码子比例”来计算每个密码子的期望数,制造多组同义密码子,并重复地针对基因中的每个位置从编码预定的氨基酸的同义组中(例如随机地)挑出密码子;使用方法(1)和/或(2)制造多重变体,并基于额外的选择标准挑出最相关的基因(例如想要的和不想要的限制性位点和/或折叠能量)。
然而该途径不适合密码子对适应,首先因为考虑到其复杂性,针对所有密码子对的偏向性数据的视觉检查是不可能的,其次因为改变一个密码子对(这表示替换两个参与的密码子中至少一个)也会影响至少一个邻近的密码子对,因此“期望的密码子对比例”将是不可获得的。因为这带来的限制,确定性途径(deterministic approach)被认为过于复杂并且不够有前途,然后选择了“遗传算法”途径。
观察到:术语“遗传算法”在其似乎涉及遗传工程的含义中可以是混淆的。然而,“遗传算法”是来自计算机科学的途径,其被用于多维优化问题的近似解(Michalewicz,Z.,Genetic Algorithms+Data Structure=Evolution Programs,Springer Verlag 1994;David E.Goldberg.GeneticAlgorithms in Search,Optimization and Machine Learning.Addison-Wesley,Reading MA,1989;http://en.wikipedia.org/wiki/Genetic_algorithm)。在本发明中,该途径被用于解决选择可能的“最佳”基因的优化问题,所述“最佳”基因即感兴趣的聚体蛋白质的编码序列。在该途径中,基因中的每个位置(即每个密码子)能够被认为是一维,其数值集合是离散的并通过可获得的同义密码子测定。
一般而言,在遗传算法中,首先通常随机地、或者通过对最初提供的解变更产生该问题的可能的“解”集,(尽管存在许多其它方法途径)。该集合被称作“种群”;其元件为“个体”或“染色体”,主要由包含每一维坐标的载体(数学含义上的载体)表示。因为遗传算法是在涉及自然选择的过程之后建模,所以许多术语来自于遗传学。然而,因为它们(在该情况下不同)主要应用于计算机科学的领域,但是也提出了遗传算法在生物科学问题中应用的一些例子,例如用于蛋白质二级结构预测(Armanoet al.2005 BMC Bioinformatics 1(6)Suppl.4:S3);用于在计算机芯片上网络优化(Patil et al.2005 BMC Bioinformatics.23(6):308);基因表达数据聚类(Di Gesu et al.2005 BMC Bioinformatics.7(6):289)。
在该情况下,载体含有密码子。通过改变已有个体的某些位置(“突变”)或通过将一个个体的部分(即某些坐标)与来自另一个体的另一部分(即另一维的坐标)组合(“交换”),来从该种群产生新的个体。然后检查这些个体有多良好(因为新的个体也可能解决最初的优化问题),并将更好(“最适合”)的个体再次作为初始种群,用于产生新的个体(“下一世代”;例如保留最好的10%、20%、30%、40%、50%、60%,但是存在许多其它可能性,其选择子集作为下一代用于获得朝向更适合个体的趋同,例如转轮选择(roulette wheel selecting),见Michalewicz,Z,1994)。当允许来自原始种群的最佳个体被带入下一世代时,确保对每个种群而言可能的解的品质变得更好或至少维持相同。然后假定,通过将该算法进行许多世代(=迭代;数百到数千,取决于问题的复杂性),人们会得到接近最优的解。在计算机科学中遗传算法已被精密地研究,包括性能如种群大小和世代数量的最适比例、如何预防该算法陷入局部最优等,但是这在本文中关系不大。如何针对实际的优化步骤设定这些参数的信息,参见实施例2中MATLAB中遗传算法完成的描述。
这将参考图2来详细解释。图2显示了用于基因优化的遗传算法的流程图。这类遗传算法可以在适当编程的计算机上进行,其例子将在图1中展示并首先参考图1解释。图1显示了可以用于进行本发明方法的计算机设置的综述。该设置包括用于进行算术运算(arithmetic operation)的处理器1。
应当注意,遗传算法一般是非确定性的,因为它们涉及随机化的步骤(例如随机化的选择标准和/或随机化的算子选择和/或随机化的势解(potential solution)产生),然而,存在以确定性方式进行的例外。“遗传算法”是用于下述算法的通用工具,所述算法处理一组(称作种群)势解,其通过使用一个或多个对象(objective)筛选和/或选择和/或去除,和/或(再)引入趋向于最适解的(新)产生的解。考虑到该定义,被描述为进化编程、进化算法、经典遗传算法、实际编码(real-coded)的遗传算法、模拟退火、ant算法以及Monte-Carlo以及趋化性方法的方法也属于类似的算法种类,与下述算法相反,所述算法基于使用确定性算法的单个势解朝向最适解的趋同,例如线性编程和梯度算法。另外,技术人员从上下文会明白是否另一原始术语表示相同的算法种类。另外,尽管遗传算法是优选的方法,但是我们不排除遗传算法以外用于解决本发明所述的单个密码子和/或密码子对优化问题的任何其它方法。
处理器1与大量存储组件连接,所述存储组件包括硬盘5、只读存储器(ROM)7、电可擦除可编程只读存储器(EEPROM)9和随机存取存储器(RAM)11。不是必须提供所有这些存储器类型。另外,这些存储组件不需要物理地位于接近处理器1处,而是可以位于远离处理器1处。
处理器1还与使用者输入指令、数据等的手段连接,所述手段如键盘13和鼠标15。也可以提供本领域技术人员已知的其它输入手段,如触摸屏、轨迹球和/或声音转换器。
本发明提供了与处理器1连接的读取单元17。读取单元17被设置为从数据运载体如软盘19或CDROM 21中读取数据和可能地写入数据。其它数据运载体可以是如本领域技术人员已知的磁带、DVD、记忆棒等。
处理器1还与用于打印输出数据的打印机23和显示器3(例如监视器或LCD屏(液晶显示器))或本领域技术人员已知的任何类型的显示器相连。
处理器1可以通过I/O设备25与通信网络27连接,所述通信网络27例如公共交换电话网络(PSTN)、局域网(LAN)、广域网(WAN)等。处理器1可以被设置为通过网络27与其它通信设施通信。
数据运载体19、21可包含数据和指令形式的计算机程序产物,其被设置为给处理器提供进行本发明的方法的能力。然而,这类计算机程序产物或者可通过电信网络27下载。
处理器1可以作为独立系统运行,或者作为多个平行操作处理器(每个被设置为完成更大计算机程序的子任务)的大部分运行,或者作为具有若干个亚处理器的一个或多个主处理器运行。本发明的功能性部分甚至可以通过经过网络27与处理器1通信的远程处理器完成。
现在将解释图2的算法,其可以在处理器1运行存储于其存储器中的计算机程序时在处理器1上进行。
在动作32中,计算机产生一个或多个编码预定的蛋白质的基因。这可以通过从计算机存储器中存储的表格中取出这类数据来完成该处理。这类基因可以例如是:
·ATG’GTT’GCA’TGG’TGG’TCT’...
·ATG’GTA’GCA’TGG’TGG’TCA’...
·...
就算法的目的而言,这些产生的基因被称作“原始基因”。
在动作32之后,计算机程序通过将动作34-40进行一次或多次而进行一个或多个迭代循环(iteration loop)。
在动作34中,计算机程序通过将原始基因中的一个或多个密码子替换为同义密码子,从而使得新产生的基因仍然编码预定的蛋白质(交叉&突变过程)来产生新基因。为了能够达到该目的,计算机的存储器存储了密码子使用表格,该表格显示哪个密码子编码哪个氨基酸。(注意如果是特定的宿主生物的情况,则存在并考虑与“通用密码子”的偏差,见例如Laplaza et al.,2006,Enzyme and Microbial Technology,38:741-747)。知道了蛋白质中的氨基酸序列,计算机程序就能够从如本领域所公知的表格中选择备选的密码子。
使用动作32的例子,新产生的基因可以是(用粗体指出):
·ATG’GTT’GCA’TGG’TGG’TCT’...
·ATG’GTA’GCA’TGG’TGG’TCA’...
·ATG’GTT’GCA’TGG’TGG’TCA’...
·ATG’GTA’GCA’TGG’TGG’TCA’...
·ATG’GTA’GCC’TGG’TGG’TCA’...
在动作36中,通过计算机程序使用适合度函数来测定所有基因的品质数值,所述适合度函数至少测定密码子适合度和密码子对适合度之一,所述所有基因包括原始基因和新产生的基因。这类适合度函数将在下文“进行密码子对优化”部分中详细解释。
在动作38中,选择大量的根据适合度函数显示最佳适合度的基因参与“育种过程”(交叉和突变),并且选择大量的根据适合度函数显示最差适合度的基因从种群中去除。这些数量可以是预定的数量或取决于预定的适合度改进量。这些基因的选择应当是确定性的,但是当具有更高改变的“最适基因”被选择用于育种,而相反的被选择从种群中删除时,一般随后是随机过程。该方法被称作转轮选择。
得到的被选择用于育种的基因可以例如是(非选择的基因用删除线表示):
·ATG’GTT’GCA’TGG’TGG’TCT’...
Figure G2007800246705D00151
·ATG’GTT’GCA’TGG’TGG’TCA’...
Figure G2007800246705D00152
Figure G2007800246705D00153
在动作40中,计算机程序测试一个或多个终端标准是否被满足。通常终端标准之一为预定的迭代最大值。备选的标准是:检验相对于原始基因的适合度而言,通过选择的基因获得的适合度是否被改进了至少最小的阈值;或检验相对于n迭代之前(优选地n为<10,100中选择的数值)具有最佳适合度的基因的适合度而言,通过选择的基因获得的适合度是否被改进了至少最小的阈值。如果总体终端标准没有被满足,则计算机程序跳回动作34同时将选择的基因作为“原始基因”处理。
如果在动作40中,计算机程序确立了改进低于最小阈值,则动作34-38没有很大意义,且计算机程序用动作42继续。
应当理解,可在动作40中使用任何其它合适的迭代终止标准(如进行的迭代数)以留下迭代动作34-40并用动作42继续。
在动作42中,在所有选择的基因中选择具有最佳适合度的基因,并例如通过监视器或借助于打印机通过打印输出提交给用户。
在使用遗传算法的基因适应的情况下,必须确保交叉总是在读码框位置进行,因为否则的话得到的氨基酸序列可能被改变,组合了一个密码子的一个核苷酸与另一密码子的两个核苷酸。为了更好的趋同提出了经修饰的突变算子,对该突变算子而言只有同义密码子置换被允许,所述同义密码子置换导致至少最优的单个密码子使用或最优的密码子对使用之一。
因此,目前密码子对优化的一个重要问题是如何测量个体的品质。该所谓的适合度函数可以被认为是遗传算法的中枢部分,因为它是要被优化的实际函数。在本发明中,一种优选的途径是对每个密码子对指定一个实数(称作权重)并在基因中利用该权重作为其“适合度”,从而导致要被最小化的函数。
在本说明书中,发明人将基因优化的过程描述为最小化问题。这是一个相当随意(arbitrarily)的途径。应注意,如果函数f要被最大化,人们能够同样寻找-f的最小值,因此这并非对一般性(generality)的限制。
因此,必须鉴定测定密码子对权重的方法,其中被认为对表达水平有益的密码子对具有低权重,被认为对表达水平有害的密码子对具有高权重。
用于基因适应的密码子对权重鉴定
为了鉴定下述密码子对权重(其与更高的转录/表达水平相关并可作为输入值用于密码子对使用的适应),可以应用以下的方法,所述方法在本文中通过A.niger(其大部分被表达的基因的转录水平是已知的)和B.subtilis(可获得其转录水平的数据以及一组300个高表达的基因)例证。
在A.niger中(其中可以获得上述一组4,584个实际表达的基因的、从GeneChip数据中提取的完全分级(见实施例1)),计算每个基因的平均密码子对权重(即fitcp(g)值的等价物)。然后根据适合度值(升序排列)和表达水平(降序排列)将基因分类。因为高表达的基因被假定为具有低密码子对适合度值,所以当使用理想的密码子对权重时这两种分级应当是相等的,因此,这两种分级的比较可以给出与适合度函数中使用的权重的品质相关的信息(其中与普通基因的分级相比,给予高表达的基因的“正确”分级稍微更多的注意力)。因此,计算了4,584个基因的分级和平均密码子对权重之间的相关系数(每个变量的协方差除以标准差)。
在本发明的方法中可以使用若干个可能的权重组,包括选自下组的一个或多个:(i)来自全基因组的偏向性值;(ii)来自一组高表达的基因的偏向性值;(iii)具有所有下述值的偏向性,所述值不具有调整到零的确定的最小z-分数(其中z-分数如实施例1.1.4中所述被测定);(iv)上升至2或3、4、5或更高的幂次(power)的偏向性值(以给予高度优选的或拒绝的密码子更低/更高的影响);(v)z-分数自身;(vi)来自高表达的组和全基因组的偏向性数值/z-分数的差异;和(vii)(i)-(vi)中一个或多个的组合。
对遗传算法而言,它们的求反(negation)已被使用,因为已用正值随意地识别优选的密码子对,然而遗传算法进行最小化。这适用于所有上述权重。
可以如上所述,使用根据全基因组的密码子比值计算的期望值通过计算高表达的组中的密码子对“偏向性”获得更优选的权重矩阵。
Figure G2007800246705D00171
仍然表示全基因组数据集合中ck的单个密码子比例,
Figure G2007800246705D00172
表示高表达的组中对(ci,cj)的发生,然后“组合的期望值”
Figure G2007800246705D00173
的计算对应于
n exp combi ( ( c i , c j ) ) = r sc all ( c i ) &CenterDot; r sc all ( c j ) &CenterDot; &Sigma; c k &Element; syn ( c i ) c l &Element; syn ( c j ) n obs high ( ( c k , c l ) )
从而
w ( ( c i , c j ) ) = n exp combi ( ( c i , c j ) ) - n obs high ( ( c i , c j ) ) max ( n obs high ( ( c i , c j ) ) , n exp combi ( ( c i , c j ) ) ) .
其中w((ci,cj))被定义为密码子的序列g中密码子对(ci,cj)的权重。注意因为优化函数会寻找最小的平均权重,所以与针对偏向性值的方程相比两个分子术语被反转,但是除了改变标志以外这不影响与表达水平的相关性。
与测试的其它权重集合不同,下述密码子对在本文中略微具有缺点,所述密码子对涉及在高表达的组中更不足量表现的密码子。因此,这些权重是仅有的也反映高表达的组和所有基因的不同单个密码子偏向性的权重。使用这些权重带有拒绝下述一些密码子对的风险,所述密码子对实际上在高表达的组中具有正偏向性,但是由(高表达的组中)很少使用的密码子组成。然而,因为我们期望的单个密码子比例通常与具有高表达的基因组中的单个密码子比例并不相同,而是比它们更加“极端”,单个密码子优化无论如何会代替这些不足量表现的密码子,因此我们能够认为上文所述的权重对于密码子对优化是非常方便的。因此,尽管密码子对权重也在有限的程度上反映了单个密码子偏向性,但是对优化而言,单个密码子使用被认为是独立的、另外的问题。
使用遗传算法对单个密码子和密码子对的优化
在本发明的方法中,优选使用被程序化以进行如上所述的遗传算法的计算机设置,来进行密码子对适应,或进行了组合的单个密码子和密码子对适应。将遗传算法应用于单个密码子适应也是可能的并且不从本发明中被排除,但是此处不想要的密码子可以被替换为同义密码子而不受相邻密码子的约束,因此使用遗传算法不是真正必需的。
对密码子对而言,改变单个密码子通常会改变两个密码子对的权重,因此密码子对优化是受严重限制的,因为替换不想要的密码子对的单个密码子改变总是会改变另一密码子对,这不一定是针对更好的改变,随后在邻近的密码子对中改正针对更差的改变会再次改变另一对,依此类推。
对于突变算子而言,只有密码子序列的下述变更被允许,所述变更不改变所编码的肽序列并且至少改进单个密码子适合度和密码子对适合度之一,即在改变之前,突变算子寻找下述同义密码子,其是不足量表现的(根据期望的单个密码子比例)或者是其所涉及的两个密码子对具有更好的权重的密码子。随机选择进行两种类型突变中的哪一种。在每个单个密码子上进行前一“突变”算子足够创建单个密码子优化的基因,而不使用任何遗传算法。
考虑两个方面来测定基因的品质,即单个密码子“适合度”和密码子对“适合度”。后者简单地是密码子序列g(或基因)中所有密码子对的权重w((c(k),c(k+1))的均值。即当g再次表示密码子序列时,|g|为其长度(以密码子表示)而c(k)为其k-th密码子:
fit cp ( g ) = 1 | g | - 1 &CenterDot; &Sigma; k = 1 | g | - 1 w ( ( c ( k ) , c ( k + 1 ) ) .
单个密码子适合度被定义为基因中实际密码子比例和目标密码子比例的差异,其针对每个密码子的出现数被标准化。单个密码子比例在本文的实施例1.1.2中定义并如其中所述被测定。
Figure G2007800246705D00192
是密码子ck的期望的比例(或频率),而
Figure G2007800246705D00193
如前文是基因g中的实际比例,然后单个密码子适合度被定义为
fit sc ( g ) = 1 | g | &CenterDot; &Sigma; k = 1 | g | | r sc t arg et ( c ( k ) ) - r sc g ( c ( k ) ) | .
因此,fitsc能够达到[0,1]中的数值,其中最优的序列接近0,而fitcp受权重限制,所述权重在本文中也在[-1,1]中。
为了针对两个方面进行优化,在一个实施方案中引入了组合的适合度函数:
fit combi ( g ) = fit cp ( g ) cpi + fit sc ( g ) .
其中代表“密码子对重要性”的cpi是大于零的实数,并且决定两个适合度函数中的哪一个对组合适合度具有更大的影响。cpi接近零时,当fitsc(g)更好时(即也接近零)分母接近零,因此fitsc(g)中的小改变比fitcp(g)中的小改变更多地影响fitcombi(g),然而在高cpi下,fitcp(g)的轻微改进比起fitsc(g)的中度改进可对fitcombi(g)具有更大的作用。注意,使用不同的cpi值获得的fitcombi值是不能比较的(cpi接近于0可导致fitcombi接近于-100,然而对cpi>0.2而言fitcombi一般在0和-1之间)。
在一个实施方案中,如果g含有某些不想要的序列(例如限制性位点或导致mRNA中不想要的二级结构的序列),则添加“罚分(penalty)”。构建合成基因时这可以是有用的,但是其自身与单个密码子和密码子对使用的优化无关。经修饰的适合度函数成为
fit combi * ( g ) = fit cp ( g ) cpi + fit sc ( g ) + P ( g ) ,
其中P(g)表示罚分函数(penalty function),其在不想要的序列结构是基因g的部分的情况下创建了正权重。
应当理解,在本发明的实施方案中,核苷酸和氨基酸序列可以是理论序列,其仅存在于例如纸上或另一优选的计算机可读数据运载体上,或它们可以作为切实地、物理地创建的具体化身存在。
因此本发明第一方面涉及优化编码预定的氨基酸序列的核苷酸序列的方法,其中所述编码序列针对在预定的宿主细胞中的表达被优化。该方法优选地包括下述步骤:(a)产生至少一条编码预定的氨基酸序列的原始编码序列;(b)通过用同义密码子替换该至少一条原始编码序列中的一个或多个密码子,从该至少一条原始编码序列产生至少一条新产生的编码序列;(c)测定所述至少一条原始编码序列的适合度值和所述至少一条新产生的编码序列的适合度值同时使用下述适合度函数,所述函数针对预定的宿主细胞至少测定单个密码子适合度和密码子对适合度之一;(d)根据预定的选择标准,在所述至少一条原始基因和所述至少一条新产生的编码序列中选择一条或多条选定的编码序列,所述适合度值越高,被选择的机会越高;和(e)重复动作b)到d),同时在动作b)到d)中将所述一条或多条选定的编码序列作为一条或多条原始编码序列处理,直至满足预定的迭代终止标准。
根据本发明的一个实施方案,该方法优选地包括步骤:(a)产生至少一条编码预定的氨基酸序列的原始编码序列;(b)通过用同义密码子替换该至少一条原始编码序列中的一个或多个密码子,从该至少一条原始编码序列产生至少一条新产生的编码序列;(c)测定所述至少一条原始编码序列的适合度值和所述至少一条新产生的编码序列的适合度值同时使用下述适合度函数,所述函数针对预定的宿主细胞测定密码子对适合度;(d)根据预定的选择标准,在所述至少一条原始基因和所述至少一条新产生的编码序列中选择一条或多条选定的编码序列,所述适合度值越高,被选择的机会越高;和(e)重复动作b)到d),同时在动作b)到d)中将所述一条或多条选定的编码序列作为一条或多条原始编码序列处理,直至满足预定的迭代终止标准。
根据本发明的另一实施方案,该方法优选地包括下述步骤:(a)产生至少一条编码预定的氨基酸序列的原始编码序列;(b)通过用同义密码子替换该至少一条原始编码序列中的一个或多个密码子,从该至少一条原始编码序列产生至少一条新产生的编码序列;(c)测定所述至少一条原始编码序列的适合度值和所述至少一条新产生的编码序列的适合度值同时使用下述适合度函数,所述函数包括针对预定的宿主细胞测定单个密码子适合度和密码子对适合度;(d)根据预定的选择标准,在所述至少一条原始基因和所述至少一条新产生的编码序列中选择一条或多条选定的编码序列,所述适合度值越高,被选择的机会越高;和(e)重复动作b)到d),同时在动作b)到d)中将所述一条或多条选定的编码序列作为一条或多条原始编码序列处理,直至满足预定的迭代终止标准。
在所述方法中,优选地,预定的选择标准是所述一条或多条选择的编码序列具有根据预定的标准最优的适合度值。根据本发明的方法还可在动作e)之后包括:在所述一条或多条选定的编码序列中选择最佳个体编码序列,其中所述最佳个体编码序列具有比其它选定的编码序列更好的适合度值。
在本发明的方法中,其中所述预定的迭代终止标准优选地至少为下述之一:(a)测试是否至少一条所述选定的编码序列具有高于预定的阈值的最佳适合度值;(b)测试是否所述选定的编码序列均不具有低于所述预定的阈值的最佳适合度值;(c)测试是否至少一条所述选定的编码序列在所述原始编码序列中有至少30%的对预定的宿主细胞而言具有相关正密码子对权重的密码子对被转化为具有相关负权重的密码子对;和(d)测试是否至少一条所述选定的编码序列在所述原始编码序列中有至少10%、20%、30%、40%、50%、60%、70%、80%或90%的对预定的宿主细胞而言具有高于0的相关正权重的密码子对被转化为具有低于0的相关权重的密码子对。
在本发明的方法中,适合度函数优选地借助于
fit c ( g ) = 100 - 1 | g | &CenterDot; &Sigma; k = 1 | g | | r c t arg et ( c ( k ) ) - r c g ( c ( k ) ) | &CenterDot; 100
来定义单个密码子适合度,其中g象征编码序列,|g|为长度,g(k)为k-th密码子,
Figure G2007800246705D00222
是期望的密码子c(k)比值(附录2;CR载体),且
Figure G2007800246705D00223
为核苷酸编码序列g中的实际比值。
在本发明的方法中,适合度函数优选地借助于
fit cp ( g ) = 1 | g | - 1 &CenterDot; &Sigma; k = 1 | g | - 1 w ( ( c ( k ) , c ( k + 1 ) )
定义密码子对适合度,其中w((c(k),c(k+1))是编码序列g中密码子对的权重,|g|为所述核苷酸编码序列的长度,且c(k)为所述编码序列g中的k-th密码子。
更优选地,在本发明的方法中,适合度函数借助于
fit combi ( g ) = fit cp ( g ) cpi + fit sc ( g )
定义,其中
fit cp ( g ) = 1 | g | - 1 &CenterDot; &Sigma; k = 1 | g | - 1 w ( ( c ( k ) , c ( k + 1 ) )
fit sc ( g ) = 1 | g | &CenterDot; &Sigma; k = 1 | g | | r sc t arg et ( c ( k ) ) - r sc g ( c ( k ) ) |
cpi是大于零的真实值,fitcp(g)是密码子对适合度函数,fitsc(g)是单个密码子适合度函数,w((c(k),c(k+1))是编码序列g中密码子对的权重(附录3,CPW矩阵),|g|是所述编码序列的长度,c(k)是所述密码子序列中的k-th密码子,是期望的密码子c(k)比例,是编码序列g中的实际比例。优选地cpi在0和10之间,更优选地在0和0.5之间,最优选地为约0.2。
在本发明的方法中,密码子对权重w(附录3)可以来自包含终止密码子的61×64密码子对矩阵。注意终止:正义对和终止:终止对的权重总是零。优选地根据基于计算机的方法,使用至少以下之一作为输入值来计算密码子对权重w:(a)预定的宿主细胞的基因组序列,其中至少5%、10%、20%或80%的蛋白质编码核苷酸序列被测序;(b)预定的宿主细胞的相关物种的基因组序列,其中至少5%、10%、20%或80%的蛋白质编码核苷酸序列被测序;(c)由预定的宿主细胞的至少200个编码序列组成的一组核苷酸序列;和(d)由预定的宿主细胞的相关物种的至少200个编码序列组成的一组核苷酸序列。相关物种在本文中应当被理解为表示下述物种,其小亚基核糖体RNA的核苷酸序列与预定的宿主细胞的小亚基核糖体RNA的核苷酸序列具有至少60%、70%、80%或90%的同一性(Wuyts etal.,2004,Nucleic Acids Res.32:D101-D103)。
不需要针对所有可能的61×64密码子对(其包含作为终止密码子的终止信号)来测定密码子对权重w,而是可以仅针对其片段来测定,例如至少5%、10%、20%、50%和优选地100%的包含作为终止密码子的终止信号的可能的61×64密码子对。
选择高表达的基因
为了计算密码子对权重矩阵和单个密码子目标比例载体,人们可以应用来自特定的宿主细胞自身的核苷酸序列集合、来自相关物种的核苷酸序列集合,或二者的组合。核苷酸序列的A集合被称为“全体参考集合(reference set all)”。最优选地,该集合含有被完全测序(>95%)的生物的开放读码框(ORF)的全集。
在本发明一个优选的实施方案中,子集B被选择为含有下述子集,所述子集过量表现高表达的基因或编码高表达的蛋白质的基因。该集合可以使用下述测量方法和随后的分级测定,所述测量方法如使用阵列(例如来自Affymetrix、Nimblegen、Agilent或参考集合A的任何其它来源的阵列)技术的mRNA杂交。其它测量方法可以是RT-PCR、蛋白质凝胶、MS-MS分析或本领域技术人员已知的任何其它测量技术。除了在测量方法的基础上进行分级以外,还可以应用生物信息学工具来直接预测一组高表达的基因,例如通过选择最偏向的基因(Carbone et al,2003)或通过选择已知在大范围生物中高表达的基因来预测。其中包括涉及初级代谢的核糖体蛋白质、糖酵解和TCA循环基因,涉及转录和翻译的基因。
优选地,根据基于计算机的方法,使用在预定的宿主细胞中高表达的基因组作为输入值计算密码子对权重w。高表达的基因在本文中被理解为表示下述基因,所述基因的mRNA可以以每个细胞至少10个、优选地20个、更优选地50个、更优选地100个、更优选地500个和最优选地至少1,000个拷贝的水平被检测。例如,Gygi et al.测量了每个酵母细胞~15,000mRNA分子。特定的mRNA分子的丰度被测定为在每个细胞0.1-470的范围内(Gygi,S.P.,Y.Rochon,B.R.Franza and R.Aebersold(1999).Correlation between protein and mRNA abundance in yeast.Mol.Cel.Biol.19(3):1720-30)或低10倍的范围内:每个细胞0.01-50(by Akashi,H.(2003).Translational selection and yeast proteome evolution.Genetics 164(4):1291-1303.)。
或者,预定的宿主细胞中高表达基因的组可以是包含1000、500、400、300或200或100个最大量的mRNA或蛋白质的组。技术人员应当明白:为了计算单个密码子比例,高表达基因的组大小可以是小的,因为至多仅64个目标值被明确。此时具有高表达基因的参考集合可以低至1个基因,但是通常认为1%的基因组大小是高表达基因的代表性集合,见例如Carbone,A.et al.(2003)(Codon adaptation index as a measure ofdominating codon bias.Bioinformatics.19(16):2005-15)。对密码子对权重矩阵的计算而言,通常200-500个参考基因的集合满足条件,其对应于细菌基因组(3000-15000个基因)的2-7%。
另一种可能性是从文献中得出推定高表达的基因的子集。例如对于模式生物Bacillus subtilis而言,存在许多针对单个密码子偏向性的文献。针对Bacillus subtilis的本领域水平的良好综述由Kanaya et al.(1999)的工作给出。在我们的途径中(见实施例4),我们根据通过Affymetrix技术测量的mRNA水平将数据归类在高表达组的子集中,并将这些序列与基因组ORF的全集比较。在文献中已经使用的其它选择是蛋白质表达数据,和功能性范畴的(预期的)基因组,所述基因如核糖体蛋白质、涉及翻译和转录、孢子形成、能量代谢和鞭毛体系的蛋白质(Kanaya et al.,1999;Karlinand Mrazek,2000)。
事实上人们常发现例如核糖体蛋白质以及其它名称的组中的高密码子偏向性。然而,一般地后一组中并非所有基因均显示这样的表现。我们也不知道核糖体蛋白质如何在低生长生产条件下反应。因此,推出高表达基因子集的直接测量技术似乎是合理的。然后我们可以选择转录体组(TX)和/或蛋白质组(PX)数据。对二者而言均存在pros和cons。TX给出全基因组中基因mRNA水平的相当全面的图谱,而PX数据可能由水溶性蛋白质的过量表现引起偏向。TX数据是可获得的进行翻译的mRNA的直接度量,而蛋白质是蓄积过程的部分,其中周转(turnover)也起到重要作用。总之,TX和PX数据显示与高表达的基因相关(Gygi et al,1999)。另一个有趣的工作是通过与平均密码子使用的偏差和与下述蛋白质的相似性来预测高表达的(PHX)基因,所述蛋白质为核糖体蛋白质和涉及翻译和转录加工因子的蛋白质,和陪伴分子降解蛋白质(Karlin and Mrazek,2000)。尤其是对于快速生长的生物如Bacillus、E.coli等而言,发现主要的糖酵解基因和三羧酸循环基因属于上述组。该预测方法在mRNA数据和蛋白质表达上与已知高表达的基因良好地比较。
技术人员应当明白,单个密码子权重和密码子对权重w二者均可针对经修饰的宿主细胞被测定,所述宿主细胞关于其tRNA编码基因的含量和性质被修饰,即包含存在的tRNA基因的额外拷贝、下述新(外源)tRNA基因(包括非天然的tRNA基因)的宿主细胞,以及其中一个或多个tRNA基因被失活或删除的宿主细胞,所述非天然的tRNA基因包括编码tuna的基因,所述tuna被修饰为包括非天然的氨基酸或其它化合物。
在本发明的方法中,编码预定的氨基酸序列的原始编码核苷酸序列选自:(a)编码预定的氨基酸序列的野生型核苷酸序列;(b)预定的氨基酸序列的逆翻译,其中预定的氨基酸序列中氨基酸位置上的密码子随机地选自编码该氨基酸的同义密码子;和(c)预定的氨基酸序列的逆翻译,其中根据预定的宿主或与所述宿主细胞相关的物种的单个密码子偏向性来选择预定的氨基酸序列中氨基酸位置上的密码子。
宿主细胞
在本发明的方法中,预定的宿主细胞可以是适用于通过表达被优化的核苷酸编码序列来生产感兴趣的多肽的任何宿主细胞或生物。因此宿主细胞可以是原核或真核的宿主细胞。宿主细胞可以是适用于在液体或固体培养基中培养的宿主细胞。或者,宿主细胞可以是下述细胞,其为多细胞组织或/和多细胞生物如(转基因)植物、动物或人的部分。
宿主细胞可以是微生物或非微生物的。合适的非微生物宿主细胞包括例如哺乳动物宿主细胞如仓鼠细胞:CHO(中国仓鼠卵巢)、BHK(幼仓鼠肾)细胞、小鼠细胞(例如NS0)、猴细胞如COS或Vero;人细胞如PER.C6TM或HEK-293细胞;或昆虫细胞如Drosophila S2和Spodoptera Sf9或Sf21细胞;或植物细胞如烟草、番茄、马铃薯、欧洲油菜(oilseedrape)、卷心菜、豌豆、小麦、玉米、水稻、Taxus物种如Taxusbrevifolia、Arabidopsis物种如Arabidopsis thaliana,和Nicotiana物种如Nicotiana tabacum。这类非微生物的细胞尤其适用于生产用于哺乳动物或人治疗中的哺乳动物或人蛋白质。
宿主细胞也可以是微生物宿主细胞如细菌或真菌细胞。合适的细菌宿主细胞包括革兰氏阳性和革兰氏阴性细菌。合适的细菌宿主细胞包括来自于Bacillus、Actinomycetis、Escherichia、Streptomyces属的细菌,以及乳酸菌如Lactobacillus、Streptococcus、Lactococcus、Oenococcus、Leuconostoc、Pediococcus、Carnobacterium、Propionibacterium、Enterococcus和Bifidobacterium。尤其优选的是Bacillus subtilis、Bacillusamyloliquefaciens、Bacillus licheniformis、Escherichia coli、Streptomycescoelicolor、Streptomyces clavuligerus和Lactobacillus plantarum、Lactococcus lactis。
或者,宿主细胞可以是真核微生物如酵母或丝状真菌。优选的作为宿主细胞的酵母属于Saccharomyces、Kluyveromyces、Candida、Pichia、Schizosaccharomyces、Hansenula、Kloeckera、Schwanniomyces和Yarrowia的属。尤其优选的Debaromyces宿主细胞包括Saccharomyces cerevisiae和Kluyveromyces lactis。
根据一个更优选的实施方案,本发明的宿主细胞是丝状真菌的细胞。“丝状真菌”包括真菌门和卵菌门(Oomycota)亚类的所有丝状形式(如上文Hawksworth et al.、1995定义)。丝状真菌的特征是由甲壳质、纤维素、葡聚糖、壳聚糖、甘露聚糖和其它复合多糖组成的菌丝体壁。植物性生长通过菌丝延长进行,碳分解代谢是专性需氧的。在本发明中其菌株可以用作宿主细胞的丝状真菌属包括,但不限于下述属的菌株:Acremonium、Aspergillus、Aureobasidium、Cryptococcus、Filibasidium、Fusarium、Humicola、Magnaporthe、Mucor、Myceliophthora、Neocallimastix、Neurospora、Paecilomyces、Penicillium、Piromyces、Schizophyllum、Chrysosporium、Talaromyces、Thermoascus、Thielavia、Tolypocladium和Trichoderma。优选地,丝状真菌属于选自下组的物种,所述组由Aspergillusniger、Aspergillus oryzae、Aspergillus sojae、Trichoderma reesei或Penicillium chrysogenum组成。合适的宿主菌株的例子包括:Aspergillus niger CBS 513.88(Pel et al.,2007,Nat Biotech.25:221-231)、Aspergillus oryzae ATCC 20423、IFO 4177、ATCC 1011、ATCC9576、ATCC14488-14491、ATCC 11601、ATCC12892、P.chrysogenumCBS 455.95、Penicillium citrinum ATCC 38065、Penicillium chrysogenumP2、Acremonium chrysogenum ATCC 36225或ATCC 48272、Trichodermareesei ATCC 26921或ATCC 56765或ATCC 26921、Aspergillus sojaeATCC11906、Chrysosporium lucknowense ATCC44006及其衍生物。
宿主细胞可以是野生型丝状真菌宿主细胞或变体、突变体或经遗传修饰的丝状真菌宿主细胞。这类经修饰的丝状真菌宿主细胞包括:例如,具有降低的蛋白酶水平的宿主细胞,例如蛋白酶缺陷菌株如Aspergillusoryzae JaL 125(描述与WO 97/35956或EP 429 490中);如WO 96/14404中公开的三肽酰-氨肽酶-缺陷型A.niger菌株,或具有降低的蛋白酶转录激活子生产的宿主细胞(parT;如WO 01/68864、US2004/0191864A1和WO2006/040312中所述);宿主菌株如Aspergillus oryzae BECh2,其中三个TAKA淀粉酶基因、两个蛋白酶基因以及形成代谢产物环并偶氮酸和曲酸的能力已经失活(BECh2在WO 00/39322中公开);与野生型细胞相比包含提高的未折叠的蛋白质应答(UPR)以增强感兴趣的多肽的生产能力的丝状真菌宿主细胞(描述于US2004/0186070A1、US2001/0034045A1、WO01/72783A2和and WO2005/123763中);具有草酸盐缺陷表型的宿主细胞(在WO2004/070022A2和WO2000/50576中描述);具有多量内源多肽的降低的表达的宿主细胞,所述内源多肽如葡萄糖淀粉酶、中性α-淀粉酶A、中性α-淀粉酶B、α-1,6-转葡萄糖基酶、蛋白酶、纤维二糖水解酶和/或草酸水解酶(如可根据US2004/0191864A1中所述技术通过遗传修饰获得);具有提高的同源重组效率的宿主细胞(如WO2005/095624中所述具有缺陷的hdfA或hdfB基因);和具有这些修饰的任何可能的组合的宿主细胞。
在本发明的一种方法中,预定的氨基酸序列可以是与所述预定的宿主细胞异源的(感兴趣的多肽的)氨基酸序列,或其可以是与所述预定的宿主细胞同源的(感兴趣的多肽的)氨基酸序列。
在关于核酸(DNA或RNA)或蛋白质的方面,使用术语“异源的”表示下述核酸或蛋白质,其不作为其存在的生物、细胞、基因组或DNA或RNA序列的部分天然存在,或其存在于与其天然存在的细胞或位置基因组或DNA或RNA序列中的位点不同的地方。异源核酸或蛋白质对其被引入的细胞而言不是内源的,但是得自另一细胞或被合成或重组地生产。一般地(尽管并非必须),这类核酸编码下述细胞通常不生产的蛋白质,所述核酸在所述细胞中被表达。在本文中术语异源核酸或蛋白质包括本领域技术人员会识别为对于下述细胞是异源或外源的任何核酸或蛋白质,所述核酸或蛋白质在所述细胞中被表达。术语异源的也适用于核酸或氨基酸序列的非天然的组合,即组合中至少两条组合的序列对彼此而言是外源的。
当用于指出给定的(重组的)核酸或多肽分子与给定的宿主生物或宿主细胞之间的相互关系时,术语“同源的”应当被理解为表示该核酸或多肽分子天然地由相同物种(优选地相同变种或菌株)的宿主细胞或生物生产。
预定的氨基酸序列可以是具有商业或工业应用性或实用性的任何感兴趣的多肽的序列。因此,感兴趣的多肽可以是抗体或其部分、抗原、凝固因子、酶、激素或激素变体、受体或其部分、调节蛋白、结构蛋白、受体、或运输蛋白、细胞内蛋白质、涉及分泌过程的蛋白质、涉及折叠过程的蛋白质、陪伴分子、肽氨基酸转运蛋白、糖基化因子、转录因子。优选地,感兴趣的多肽通过经典的分泌途径、通过非经典的分泌途径或通过备选的分泌途径(描述于WO 2006/040340中)被分泌进宿主细胞的细胞外环境中。如果感兴趣的多肽是一种酶,则其可以是例如氧化还原酶、转移酶、水解酶、裂合酶、异构酶、连接酶、过氧化氢酶、纤维素酶、壳多糖酶、胶质酶、过氧核糖核酸酶、葡聚糖酶、酯酶。更优选的酶包括例如糖酶,例如纤维素酶如内切葡聚糖酶、β-葡聚糖酶、纤维二糖水解酶或β-葡糖苷酶,半纤维素酶或果胶分解酶如木聚糖酶、木糖苷酶、甘露聚糖酶、半乳聚糖酶、半乳糖苷酶、果胶甲基酯酶、果胶裂合酶、果胶酸裂合酶、多聚半乳糖醛酸内切酶、多聚半乳糖醛酸酶外切酶、鼠李半乳糖醛酸酶、阿拉伯聚糖酶、阿拉伯呋喃糖酶、阿拉伯木聚糖水解酶、半乳糖醛酸酶、裂合酶或淀粉酶;水解酶、异构酶或连接酶、磷酸镁如植酸酶、酯酶如脂酶、蛋白水解酶、氧化还原酶如氧化酶、转移酶,或异构酶、植酸酶、氨肽酶、羧肽酶、内切蛋白酶、金属蛋白酶、丝氨酸蛋白酶、过氧化氢酶、甲壳酶、角质酶、环糊精葡萄糖基转移酶、脱氧核糖核酸酶、α-半乳糖苷酶、β-半乳糖苷酶、葡萄糖淀粉酶、α-葡糖苷酶、β-葡糖苷酶、卤素过氧化氢酶、转化酶、漆酶、甘露糖苷酶、变构酶(mutanase)、过氧化物酶、磷脂酶、多酚氧化酶、核糖核酸酶、转谷氨酰胺酶、葡萄糖氧化酶、己糖氧化酶和单加氧酶。感兴趣的若干种治疗蛋白质包括例如抗体及其片段、人胰岛素及其类似物、人乳铁蛋白及其类似物、人生长激素、红细胞生成素、组织纤维蛋白溶酶原激活剂(tPA)或胰岛素调理素(insulinotropin)。多肽可以涉及代谢产物(优选地为柠檬酸)的合成。这类多肽例如包括:乌头酸水合酶、顺乌头酸酶、6-果糖磷酸激酶、柠檬酸合成酶、羧基磷酰基烯醇丙酮酸盐磷酰基变位酶(carboxyphosphonoenolpyruvatephosphonomutase)、乙醇酸还原酶、葡萄糖氧化酶前体goxC、核苷二磷酸糖差向异构酶、葡萄糖氧化酶、锰超氧化物岐化酶、柠檬酸裂合酶、泛醌还原酶、载体蛋白、柠檬酸传递蛋白、线粒体呼吸蛋白质和金属传递蛋白。
计算机、程序和数据运载体
本发明又一方面涉及包含处理器和存储器的计算机,所述处理器被设置为从所述存储器读取和写入所述存储器,所述存储器包含数据和指令,所述数据和指令被设置为提供给处理器进行本发明方法的能力。
本发明另一方面涉及计算机程序产品,其包含数据和指令并被设置为可以负载于计算机的存储器中,所述计算机也包含处理器,所述处理器被设置为从所述存储器读取和写入所述存储器,所述数据和指令被设置为提供给所述处理器进行本发明方法的能力。
本发明还在另一方面涉及用上文所定义的计算机程序产品提供的数据运载体。
核酸分子
本发明又一方面涉及包含编码预定的氨基酸序列的编码序列的核酸分子。编码序列优选地是与天然存在的编码序列不类似的核苷酸序列。核酸分子中的编码序列不是天然存在的核苷酸序列,而是人工的(即工程操作的)人造核苷酸序列,其基于下述方法产生并随后作为有形的核酸分子合成,所述方法用于针对预定的宿主细胞根据本文定义的方法优化单个密码子和/或密码子对偏向性。优选地,编码序列具有针对预定宿主细胞至少低于0.2,或更优选地低于0.1和最优选地低于0.02的fitsc(g)。更优选地,编码序列具有针对预定宿主细胞至少低于0的fitcp(g)。最优选地,编码序列具有针对预定宿主细胞至少低于-0.1,或更优选地至少低于-0.2的fitcp(g)。优选地,经优化的基因g中密码子对的数量含有至少60%、70%、75%、80%、85%的密码子对和最优选地至少90%的密码子对针对特定的宿主生物具有相关的负密码子对。
由编码序列编码的预定的氨基酸序列可以是本文如上定义的任何感兴趣的多肽,预定的宿主细胞也可以是本文如上定义的任何宿主细胞。
在核酸分子中,编码序列优选地与表达控制序列可操作地连接,所述表达控制序列能够指导编码序列在预定的宿主细胞中的表达。在本发明的上下文中,控制序列被定义为当一起存在时与编码序列可操作地连接的核苷酸序列,其包括对编码要生产的多肽的核苷酸序列表达是必需的或有利的所有组件。对于编码要生产的多肽的核苷酸序列而言,每个控制序列可以是固有的或外来的。这类控制序列可包括但不限于,前导序列、多聚腺苷酸化序列、原肽序列(propeptide)、启动子、翻译起始因子序列、翻译起始因子编码序列、翻译转录终止子和转录终止子序列。例如为了引入特异限制性位点的目的,可以用连接子提供控制序列,以便于将控制序列与编码多肽的核苷酸的编码区连接。
表达控制序列通常会最低限度地包含启动子。本文使用术语“启动子”是指一种核酸片段,其功能是控制一个或多个基因的转录,根据转录的方向位于基因的转录起点上游,并且结构上由DNA-依赖性RNA聚合酶、转录起点和任何其它DNA序列的存在识别,所述任何其它DNA序列包括但不限于转录因子结合位点、阻抑因子和激活因子蛋白结合位点和本领域技术人员已知的直接或间接地作用以调节来自启动子的转录量的任何其它核苷酸序列。“组成型”启动子是在大部分环境和发育条件下有活性的启动子。“诱导型”启动子是在环境或发育调节下有活性的启动子。
当DNA区段(如表达调控序列)被置于与另一DNA区段的功能关系中时,其是“可操作地连接”的。例如,如果启动子或增强子刺激编码序列的转录,则其与该编码序列是可操作地连接的。如果信号序列的DNA被表达为参与多肽分泌的前蛋白,则该信号序列的DNA与编码该多肽的DNA可操作地连接。一般地,可操作地连接的DNA序列是连续的,并且在信号序列的情况下,不仅是连续的而且是处于读码状态的(in readingphase)。然而,增强子不必须与它们调控其转录的编码序列连续。连接用本领域已知的手段通过在便利的限制性位点处或接头、连接子或PCR片段处的连接完成。
对适当的启动子序列的选择一般取决于被选择用于表达DNA区段的宿主细胞。合适的启动子序列的例子包括本领域公知的原核和真核启动子(见例如Sambrook and Russell,2001,"Molecular Cloning:A LaboratoryManual(3rd edition),Cold Spring Harbor Laboratory,Cold Spring HarborLaboratory Press,New York)。转录调节序列典型地包括被宿主识别的异源增强子或启动子。适当启动子的选择取决于宿主,但是启动子如trp、1ac和噬菌体启动子、tRNA启动子和糖酵解酶启动子是已知和可获得的(见例如Sambrook and Russell,2001,上文)。可以使用的优选的诱导型启动子的例子为淀粉-、铜-、油酸-诱导的启动子。丝状真菌宿主细胞优选的启动子例如包括A.niger的葡萄糖淀粉酶启动子或A.oryzae的TAKA淀粉酶启动子和WO2005/100573中描述的启动子。
本发明的核苷酸序列可还包含信号序列,或更确切地包含信号肽编码区。信号序列编码与多肽的氨基端连接的氨基酸序列,其能够指导被表达的多肽进入细胞的分泌途径。信号序列通常含有约4-15个氨基酸的疏水核心,其常紧邻地位于碱性氨基酸之前。信号肽的羧基端存在被单个插入氨基酸分开的一对小的、不带电的氨基酸,所述单个掺入氨基酸定义了信号肽切割位点(von Heijne,G.(1990)J.Membrane Biol.115:195-201)。尽管它们整体的结构和功能相似,但是天然的信号肽不具有共有序列。合适的信号肽编码区可得自:来自Aspergillus物种的葡萄糖淀粉酶或淀粉酶基因、来自Rhizomucor物种的脂酶或蛋白酶基因、来自Saccharomycescerevisiae的α-因子基因、来自Bacillus物种的淀粉酶或蛋白酶基因、或小牛前-原-凝乳酶基因。然而,本发明中可以使用能够指导表达的蛋白质进入选择的宿主细胞的分泌途径的任何信号肽编码区。丝状真菌宿主细胞的优选的信号肽编码区是得自Aspergillus oryzae TAKA淀粉酶基因(EP238023)、Aspergillus niger中性淀粉酶基因、Aspergillus niger葡萄糖淀粉酶、Rhizomucor miehei天冬氨酸蛋白酶基因、Humicola lanuginosa纤维素酶基因、Humicola insolens纤维素酶、Humicola insolens角质酶、Candidaantarctica脂酶B基因或Rhizomucor miehei脂酶基因的信号肽编码区及其突变体、截短的和杂种信号序列。在本发明的一个优选的实施方案中,编码信号序列的核苷酸序列是下述编码序列的一个完整部分,所述编码序列针对预定的宿主关于单个密码子和/或密码子对偏向性被优化。
在本发明的核酸分子中,编码序列还优选地与翻译起始因子序列可操作地连接。在真核生物中,起始因子ATG-密码子之前的核苷酸共有序列(6-12个核苷酸)常由于Kozak在该客体上的初期工作而被称作Kozak共有序列(Kozak,M.(1987):an analysis of 5’-noncoding sequences from 699vertebrate messenger RNAs.Nucl.Acid Res.15(20):8125-47)。包含由Kozak推出的+4个核苷酸的原始Kozak共有序列与高等真核生物中的翻译起始相关联。对原核宿主细胞而言,相应的Shine-Delgarno序列(AGGAGG)优选地存在于原核mRNA的5′-非翻译区,作为核糖体的翻译起点作用。
在本发明的上下文中,“翻译起始因子序列”被定义为编码多肽的DNA序列的开放读码框的起始因子或起始密码子上游紧邻的十个核苷酸。起始因子或起始密码子编码氨基酸甲硫氨酸。起始因子密码子典型地为ATG,但是也可以是任何功能性起始密码子如GTG、TTG或CTG。
在本发明的一个尤其优选的实施方案中,核酸分子包含编码预定氨基酸序列的编码序列,所述预定的氨基酸序列要在真菌宿主细胞中被表达,即所述预定的宿主细胞优选地是真菌,最优选丝状真菌。包含编码序列(其根据本发明的方法针对在真菌中的表达被优化)的核酸分子可还包含一个或多个下述元件:1)真菌共有翻译起始因子序列;2)真菌翻译起始因子编码序列;和3)真菌翻译终止序列。
共有的真菌翻译起始因子序列优选地由以下序列定义:5’-mwChkyCAmv-3’,使用编码下述核苷酸的多义性(ambiguity):m(A/C);r(A/G);w(A/T);s(C/G);y(C/T);k(G/T);v(A/C/G);h(A/C/T);d(A/G/T);b(C/G/T);n(A/C/G/T)。根据一个更优选的实施方案,该序列为:5’-mwChkyCAAA-3’;5’-mwChkyCACA-3’或5’-mwChkyCAAG-3’。最优选的,翻译起始共有序列为5’-CACCGTCAAA-3’或5’-CGCAGTCAAG-3’。
在本发明的上下文中,术语“共有翻译起始因子编码序列”在本文中被定义为编码序列的开放读码框起始因子密码子上游紧邻的九个核苷酸(起始因子密码子典型地为ATG,但是也可以是任何功能性起始密码子如GTG)。一个优选的真菌共有翻译起始因子编码序列具有以下的核苷酸序列:5’-GCTnCCyyC-3’,使用编码核苷酸y(C/T)和n(A/C/G/T)的多义性。这导致翻译起始因子编码序列的16个变体,其中5’-GCT TCC TTC-3’是最优选的。使用共有翻译起始因子编码序列,在所述氨基酸位置允许以下的氨基酸:被编码的多肽中位置+2处的丙氨酸,位置+3处的丙氨酸、丝氨酸、脯氨酸或苏氨酸,和位置+4处的苯丙氨酸、丝氨酸、亮氨酸或脯氨酸。优选的在本发明中,共有翻译起始因子编码序列对于编码要生产的多肽的核酸序列是外来的,但是共有翻译起始因子对真菌宿主细胞可以是固有的。
在本发明的上下文中,术语“翻译终止序列”被定义为从开放读码框或编码序列3′端的翻译终止密码子开始的四个核苷酸。优选的真菌翻译终止序列包括:5’-TAAG-3’、5’-TAGA-3’和5’-TAAA-3’,其中最优选5’-TAAA-3’。
编码要在真菌宿主细胞中被表达的预定氨基酸序列的编码序列还优选的关于单个密码子频率被优化,使得至少一个、两个、三个、四个或五个原始密码子,更优选的至少1%、2%、3%、4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%或95%的原始密码子被交换为同义密码子,所述同义密码子编码与固有的密码子相同的氨基酸并且与原始密码子相比在表A中定义的密码子使用中具有更高的频率。
表A:以%表示的最优的丝状真菌同义密码子的密码子频率。
Figure G2007800246705D00341
Figure G2007800246705D00351
一条进一步更优选的编码预定的氨基酸序列(其要在真菌宿主细胞中被表达)的编码序列还优选地关于单个密码子频率被优化,使得至少一个、两个、三个、四个或五个原始密码子,更优选的至少1%、2%、3%、4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%或95%的原始密码子被交换为同义密码子,所述同义密码子改变密码子频率使得所述频率中所述密码子的百分比和列出的最优百分比之间的绝对差值在修饰后变得更小,应用以下的最优百分比列表:由TGC(100%)编码的半胱氨酸;由TTC(100%)编码的苯丙氨酸;由CAC(100%)编码的组氨酸;由AAG(100%)编码的赖氨酸;由AAC(100%)编码的天冬酰胺;由CAG(100%)编码的谷氨酰胺;由TAC(100%)编码的酪氨酸;由GCT(38.0%)、GCC(50.7%)或GCG(11.3%)编码的丙氨酸;由GAC(63.2%)编码的天冬氨酸;由GAG(74.2%)编码的谷氨酸;由GGT(49.0%)、GGC(35.9%)、GGA(15.1%)编码的甘氨酸;由ATT(26.7%)、ATC(73.3%)编码的异亮氨酸;由TTG(12.7%)、CTT(17.4%)、CTC(38.7%)、CTG(31.2%)编码的亮氨酸;由CCT(35.6%)、CCC(64.4%)编码的脯氨酸;由CGT(49.1%)、CGC(50.9%)编码的精氨酸;由TCT(20.8%)、TCC(44.0%)、TCG(14.4%)、AGC(20.8%)编码的丝氨酸;由ACT(29.7%)、ACC(70.3%)编码的苏氨酸和/或由GTT(27.4%)、GTC(54.5%)、GTG(18.1%)编码的缬氨酸;所有其它可能的氨基酸编码密码子(0%)。
上文定义的包含本发明的编码序列的核酸分子(用于在预定的宿主细胞中表达)可进一步包含通常存在于表达载体中的元件,如可选择的标记物、复制起点和/或(优选地通过基因组中预定位点的同源重组)促进整合的序列。这类其它元件是本领域公知的并且不需要在本文中进一步说明。
本发明又一方面涉及包含本文如上定义的核酸分子的宿主细胞。宿主细胞优选地是本文如上定义的宿主细胞。
本发明还在又一方面涉及生产具有预定的氨基酸序列的多肽的方法。该方法优选地包括在有助于所述多肽表达的条件下培养宿主细胞,所述宿主细胞包含本文如上定义的核酸分子,以及任选地,回收所述多肽。
本发明再在又一方面涉及至少生产细胞内和细胞外代谢产物之一的方法。该方法包括在有助于生产代谢产物的条件下培养本文如上定义的宿主细胞。优选地,宿主中具有预定的氨基酸序列的多肽(其由如上所述的核酸分子编码)涉及代谢产物的生产。代谢产物(其为初级或刺激代谢产物或二者,其为细胞内、细胞外或二者)可以是可以在发酵过程中生产的任何发酵产物。这类发酵产物例如包括氨基酸如赖氨酸、谷氨酸、亮氨酸、苏氨酸、色氨酸;抗生素,包括例如氨苄青霉素、杆菌肽、先锋霉素、红霉素、莫能菌素、青霉素、链霉素、四环素、泰乐菌素、大环内酯和喹诺酮;优选的抗生素为先锋霉素和β-内酰胺;脂质和脂肪酸,包括例如多不饱和脂肪酸(PUFA);链烷醇如乙醇、丙醇和丁醇;多元醇如1,3-丙烷-二醇、丁二醇、甘油和木糖醇;酮如丙酮;胺、二胺、乙烯;类异戊二烯,如类胡萝卜素、胡萝卜素、虾青素、番茄红素、叶黄素;丙烯酸、甾醇如胆固醇和麦角固醇;维生素,包括例如维生素A、B2、B12、C、D、E和K,和有机酸,包括例如葡萄糖二酸、葡糖酸、戊二酸、己二酸、琥珀酸、酒石酸、草酸、乙酸、乳酸、甲酸、苹果酸、马来酸、丙二酸、柠檬酸、延胡索酸、衣康酸、乙酰丙酸、木质酸、乌头酸、抗坏血酸、曲酸和comeric酸;一种优选的有机酸为柠檬酸。
在该文件及其权利要求书中,动词“包括”及其变化形式以其非限制性的含义被使用,表示该词语后的项目被包括,但是未明确提到的项目不排除在外。另外,涉及元件时,不定冠词“一个/种”(“a”或“an”)不排除存在多于一个/种元件的可能性,除非上下文清楚地要求有且仅有一个/种元件。不定冠词“一个/种”(“a”或“an”)因此通常表示“至少一个/种”。
实施例
1. 实施例1:密码子对偏向性的分析
1.1 材料和方法
1.1.1 数据和软件
可以对全基因组序列数据中的编码序列(CDS)以及来自它们的部分组(或部分基因组序列,例如cDNA/EST文库,或甚至来自相关生物的多个基因组的部分基因组数据)进行密码子对分析。本发明中使用的工具使用FASTA文件作为输入值阅读这些数据。所有计算中的大部分在MATLAB7.01(The Math Works,Inc.,www.mathworks.com)中进行,但是对得到的结果的一些详细的分析而言,使用Spotfire DecisionSite 8.0(Spotfire,Inc.,http://www.spotfire.com/products/decisionsite.cfm)。
对于A.niger而言,使用针对CBS513.88(Pel et al.,2007,Nat Biotech.25:221-231)全基因组预测的cDNA序列和一组479个高表达的基因的FASTA文件。另外,因为在中试规模发酵条件下A.niger的>14,000个基因中通常少于一半同时被表达,所以来自使用这类条件获得的24个基因芯片的数据被用于选取第二组基因并根据观察到的mRNA水平(因为此时不能获得其它数据)将它们分级,从而能够容易地鉴定任何大小的一组(推定地)高表达的基因,所述第二组基因仅包括在多种实验中实际表达的基因(仅考虑具有至少18个“存在”口令的基因,使用AffymetrixMAS5.0阵列分析软件;该集合包含4,584个基因)。
对该分析而言,我们使用了基因的转录水平。或者也可以使用定量的蛋白质表达数据,例如蛋白质的双向凝胶电泳和随后通过质谱法的鉴定。然而,与mRNA水平的测定(例如使用基因芯片)相比,产生针对大组蛋白质的蛋白质表达仍然是耗时的。因此,本文完成了在翻译实际发生之前研究密码子偏向性对翻译的影响。Gygi et al.(Yeast.Mol.Cel.Biol.19(3):1720-30)实际上发现了E.coli中"蛋白质和mRNA表达水平与密码子偏向性的关联",尽管mRNA和蛋白质表达水平的关联仅仅是相当初步的。因此,在本文上下文中,当实际上仅测定了对转录水平的影响时会使用术语“表达水平”。
对含有约4,000个基因的生物Bacillus subtilis而言,能够获得并分析了一组300个高表达的基因。在该研究中考虑到的所有生物基因组的基本特性(然而,它们并非均会被详细描述)的综述见表1.1。
在每个分析中忽略其中在末端外的另一位置包含一个或多个终止密码子的(推定的)基因,和其长度不能被3整除的序列(即在测序期间可能发生移码的序列)。每个基因的最先五个密码子和最后五个密码子也不考虑在内,因为这些位点可能涉及蛋白质结合和释放效率,并因而承受与序列其它部分不同的选择压力,因此此处的密码子和密码子对偏向性可能不具代表性。比20个密码子更短的ORF(ORF=开放读码框)也从该分析中被省略。在表1.1中已经考虑。
表1.1 若干种生物的核苷酸含量,包括ORF数量和以兆碱基对(Mbp)表示的基因组大小。
Figure G2007800246705D00381
Figure G2007800246705D00391
1.1.2 预期的密码子对出现(occurrence)
为了分析密码子对使用,首先计数每个单个密码子和每个密码子对的出现,下文记为nobs((ci,cj)),其中obs表示观察到的。双括号必须指出“观察到的数值”即nobs是仅有一个自变量的函数,其自身为对(在该情况下为密码子对,即(ci,cj))。这同样适用于下文定义的针对密码子对的所有函数。指数i、j以及k可以是1到64,指出内部表征(internal representation)(根据其字母顺序)中的密码子编号。(ci,cj)表示密码子对,ci为左侧密码子(即6-核苷酸序列的5′三联体),而cj为右侧密码子(即更接近3′端),以及针对每个密码子ck的出现数
Figure G2007800246705D00392
(其中下标sc表示单个密码子,上标all指出表示该数字涉及全基因组,与可被用于表示单个基因g中密码子比例的
Figure G2007800246705D00393
相反;密码子对的函数如nobs((ci,cj))始终表示全基因组或更大组基因中的数量)。然后计算单个密码子比例(注意在一些文章中,这些比例也被称作频率。然而,密码子频率也可表示密码子的出现数除以所有密码子的总数):
r sc all ( c k ) = n sc all ( c k ) / &Sigma; c i &Element; syn ( c k ) n sc all ( c l )
其中syn(ck)表示与ck编码相同的氨基酸并因而与ck同义的密码子集合。因此,分数线以下的总和数值等于整个蛋白质组中由ci编码的氨基酸的出现数。本文中使用的最重要的符号和式的简表见附录1。
为了揭示是否某些所述的密码子对优选级仅仅是个体密码子优选级的结果,必须基于个体密码子频率计算每个密码子对的预期值。这些使用下式计算:
n exp own ( ( c i , c j ) ) = r sc all ( c i ) &CenterDot; r sc all ( c j ) &CenterDot; &Sigma; c m &Element; syn ( c i ) c n &Element; syn ( c j ) n obs ( ( c m , c n ) )
上标own用于将这些数值与使用下文提到的其它方法获得的数值区分。在该等式的最后一个因数中,计算所有同义密码子对的实际出现数的总和。因此,每个密码子对的预期量是个体密码子使用比例和各自氨基酸对出现数的乘积。
Gutman and Hatfield(1989,Proc.Natl.Acad.Sci USA 86:3699-3703)提出计算预期值的另一种方法。他们最初的途径是个别地计算每个基因的密码子频率(即基因g中的密码子量除以g中密码子的总量,所述总量表示为|g|),然后将这些值与该序列中的密码子对数(其为|g|-1)逐对相乘。
n exp gh 1 ( ( c i , c j ) ) = &Sigma; g &Element; ORFs n sc g ( c i ) | g | &CenterDot; n sc g ( c j ) | g | &CenterDot; ( | g | - 1 )
在该等式中“gh1”表示Gutman and Hatfield方法1(1989,上文)。这得到了针对每个基因预期的密码子对值(上文等式中求和算子(sum operator)后的部分),所述预期的密码子对值随后被加在一起,得到最终的预期值,所述最终的预期值通过定义针对相同基因组中不同基因间单个密码子使用的可能偏差被调节,但是不考虑氨基酸对使用中可能的偏向性。这表示如果某些氨基酸倾向于比其它的更经常彼此紧邻,或者也就是说如果氨基酸对的的发生不与它们在具有相同氨基酸组成的随机化的序列中会发生的不相似,则预期值也应显著不同,因为编码很少使用的氨基酸对的密码子对会具有过高的预期值,而编码更常使用的氨基酸对的密码子对会具有过低的预期值。
Gutman and Hatfield(1989,上文)还提出了标准化他们关于氨基酸对偏向性的预期值。因此,他们将根据他们的方法得到的氨基酸对预期值与观察到的值简单地比较,并相应地按比例计算所有受影响的密码子对的预期值使得前者与后者匹配:
n exp gh 2 ( ( c i , c j ) ) = n exp gh 1 ( ( c i , c j ) ) &CenterDot; &Sigma; c m &Element; syn ( c i ) c n &Element; syn ( c j ) n obs ( ( c m , c n ) ) &Sigma; c m &Element; syn ( c i ) c n &Element; syn ( c j ) n exp gh 1 ( ( c m , c n ) )
在该等式中“gh2”表示Gutman and Hatfield方法2(1989,上文)。
1.1.3 计算密码子对偏向性
然后实际的密码子对偏向性bias((ci,cj)应当得自预期的和实际的(观察到的)密码子对数之间的差异(其中可使用针对预期值的任何这些方法)。最初的途径简单地通过
bias 1 ( ( c i , c j ) ) = n obs ( ( c i , c j ) ) - n exp ( ( c i , c j ) ) n exp ( ( c i , c j ) )
计算。
以这种方式,该偏向性值会指出事实上使用的密码子对比预期的多或少多少个百分比(即乘以100%)。对于被分析的基因集合中不存在的氨基酸对而言,根据该式的偏向性值对所有相应的密码子对而言应当是0/0。在该情况下,其被定义为0。因此偏向性值的下限应当是-1,而不存在清楚的上限。这被认为有些不实用,因此使用
bias ( ( c i , c j ) ) = n obs ( ( c i , c j ) ) - n exp ( ( c i , c j ) ) max ( n obs ( ( c i , c j ) ) , n exp ( ( c i , c j ) ) )
来代替,其中max(a,b)表示a和b两个数值中更大的一个,这总是导致在(-1,1)中的偏向性值。这表示偏向性值可以是-1,但是不是+1。前者发生于某一密码子对完全不被用于编码真实发生的氨基酸对;数值+1不能达到因为那时nexp((ci,cj))会是0,但是这仅在nobs((ci,cj))也是0时是可能的。
上文给出的解释对于<0(这表示nobs((ci,cj))<nexp((ci,cj)),因此两式具有相同的结果)的偏向性值仍然有效。如果nobs((ci,cj))>nexp((ci,cj)),则偏向性值(此时其>0)指出预期的值比观察到的值低多少个百分比(即在该情况下基线被改变)。
1.1.4 偏向性的统计学显著性
Gutman and Hatfield(1989,上文)使用χ2-检验测定他们的结果的统计学显著性。该检验被用于检查在特定的假设下某观察到的结果偶然发生的可能性。当检查密码子对时,该假设应当是密码子对使用是独立地随机选择每个密码子的结果。为了检验该假设,计算χ2-值:
&chi; 2 = &Sigma; ( c m , c n ) &Element; CP ( n obs ( ( c m , c n ) ) - n exp ( ( c m , c n ) ) ) 2 n exp ( ( c m , c n ) )
(其中CP表示不包括终止密码子的所有密码子对的集合)。此时自由度为3720(61*61-1)。如果密码子对选择是随机的,则会预期χ2-值在3720左右(等于自由度),标准差等于2*自由度的平方根。
以这种方式,可以检验观察到的偏向性的总体统计学显著性。然而,也可以演绎个体密码子对偏向性的统计学显著性。如前文提出的计算预期值的方法一样,密码子对的出现数被认为是一系列的独立的是/否实验(是:这两个密码子被选择用于编码各自的氨基酸对;否:另一个密码子对被选择)的结果,因此其允许二项分布,如果被分析的基因集合足够大的话这可以被近似为正态分布。如果n*p>4的话这被认为是良好的逼近,其中n表示实验数,p表示“是”的概率,其也是预期值。因此,对于每个密码子对而言,标准差可以根据下式计算
&sigma; ( ( c i , c j ) ) = n exp ( ( c i , c j ) ) &CenterDot; ( 1 - r sc all ( c i ) &CenterDot; r sc all ( c j ) ) .
然后可以计算标准分数(也被称作z-分数):
z ( ( c i , c j ) ) = ( n obs ( ( c i , c j ) ) - n exp ( ( c i , c j ) ) &sigma; ( ( c i , c j ) ) .
z-分数的绝对值指出实际(观察到的)值偏离预期值多少标准差。假定为正态分布,则所有观察结果约95%应当偏离预期值在两倍的标准差内,>99%应当偏离预期值在三倍的标准差内。
1.2 结果
1.2.1 密码子对偏向性的存在
使用上述的方法,我们发现存在显著的密码子对偏向性。对于所有被研究的生物而言,χ2-检验给出了χ2-值,其为自由度的若干倍高并因此也高于预期值多倍标准差。如针对个体密码子对的偏向性一样,可以证实Moura et al.的发现:在酵母中“约47%的密码子对上下文落入”偏离预期值“-3到+3”个标准差“的区间中”(尽管他们以不同的方式计算预期值),所述预期值对应于我们分析中的z-分数。总之,如果密码子对使用是随机的,则存在比应当有的显著更多的具有相当高z-分数的密码子对。见表1.2:使用会导致近似正态分布的随机选择时,例如仅约5%的所有密码子对会具有大于2或小于-2的z-分数,但是在选择的四个生物的全基因组中,这实际上适用于多于三分之二。
表1.2.不同生物中的Z-分数
Figure G2007800246705D00431
注意这些值与基因组大小有些相关(见表1.1的比较),即具有更大基因组的生物趋向于具有有更极端z-分数的密码子对。特别是当分析更小的基因(例如A.niger中479个高表达的基因)组时,该数值更低(对该例子分别为65.1%、37.2%和19.7),因为更小的出现数导致(与预期值相比)更高的标准差,并因此导致结果的更低的统计学显著性。这导致下述结论:密码子对使用不是根据单个密码子比例的密码子随机选择的结果。
偏向性值自身的分布在一个生物和另一个生物间差异。这可以根据图3解释,图3显示了不同生物中3,721个正义:正义密码子对的密码子对偏向性值的分布。图3中每个直方图右上角的数字是观察到的分布的标准差;对所有生物而言平均值(未显示)在-0.06和0.01之间。在图3所示直方图中,可以看到在测试的十个生物中,细菌E.coli、B.subtilus、B.amiloliquefaciens和S.coelicolor具有最极端的密码子对偏向性,而真菌A.niger、A.oryzae、A.terreus、A.nidulans、P.chrysogenum和酵母S.cerevisiae和K.lactis中的偏向性较不极端。
比较不同生物的密码子对偏向性时可以得到另一有趣的观察结果。来自相关生物的偏向性值显示比来自无关生物的这些更高的关联。这根据图4解释。图4显示了多种生物的密码子对偏向性之间的关联。相关系数在每个小图的右上角显示。在该分析中,可以在A.niger对P.chrysogenum,和A.niger对A.oryzae之间观察到最高的相关,可以在B.subtilis和S.coelicolor之间观察到最低的、即观察不到有效的相关。有趣的是,未观察到负相关。这表示尽管具有高GC-含量的生物(如S.coelicolor)大部分偏好在富含AT的生物(如S.cerevisiae,或尽管其并非极端富含AT的B.subtilis)中较少使用的这些密码子,但是不存在两种生物,其一优选的对在另一中可能被拒绝且反之亦然。这可表示尽管几乎每个单个密码子的偏向性都是生物依赖性的,但是存在在几乎每个生物中都被优选的和/或被拒绝的若干密码子对(例如因为它们引起移码或具有不匹配结构的tRNA的可能性)。
1.2.2 密码子对偏向性的模式
为了显示观察到的密码子对偏向性,可以如Moura et al.(2005)所做绘制所谓的图谱(他们将这些图谱称作“密码子上下文图谱”)。这可以最容易地根据彩色图片解释,所述图片由针对每个密码子对的彩色矩形组成,行表示对的第一密码子,列表示对的第二密码子。红色表示负偏向性,绿色表示正偏向性。白色表示实际上具有等于0的偏向性的密码子对(其为例如ATG-ATG的情况,因为这是编码氨基酸对Met-Met的唯一方式)和掺合了终止密码子的对。
然而,彩色的图片不能是专利申请公开内容的部分。为了进行黑白的显示,在该实施例中将图片拆分为两个图片。图5A展示了A.niger的正密码子对,而图5B展示了A.niger的负密码子对(也见附录3,表C1)。密码子对越偏向,则相应的矩形越黑。此处的偏向性值范围在-0.67和0.54之间,而在其它生物中他们甚至可能稍高于+/-0.9(也见图3)。这些矩形中最高的黑色强度(原始的绿色(顶部)和黑色(原始红色(底部)))分别表示0.9和-0.9的值(此处未达到;通常最大偏向性的绝对值稍低于最小偏向性的绝对值)。
另外,我们在附录3中提到CPW矩阵-表,其含有密码子对的偏向性的数值,我们提到图5作为彩色图片的黑色和白色例子,从而技术人员能够使用来自附录3的表中的数值重建彩色的版本。
这些密码子对图谱的第一条途径是根据其字母顺序(因为这是它们的内部表征)对行和列排列。该图谱中可以看出对角线似乎含有比红点稍多的绿点,这指出许多密码子具有与其邻居相同的密码子偏好。另外,大部分相邻的列有些相似,而相邻的行则不然(数据未显示),见图5A和5B和附录3,表C1。然而大部分行与隔着另外三行的行相似,即每四行存在一些相似性。
因为每四行的普遍特性是所述对的第一个密码子的最末核苷酸,所以更优选地根据第三位的字母顺序作为第一排列标准、中位的字母顺序作为第二排列标准对行进行排列。然后可以在A.niger图谱(图5C和D,和附录3,表C1)中看到的是偏向性似乎的确主要与第一个(5′)密码子的最末核苷酸和第二(3′)密码子的第一个核苷酸相关,因为16*16密码子对的各块值中大部分具有相同的颜色。例如,在Aspergillus中可以鉴定的一个普遍规律是密码子对如xxT-Axx(x表示任何核苷酸,指出各位置上的核苷酸对于所说明的规律不重要)被拒绝(左下角的红色块),而模式xxA-Txx表征了优选的密码子(右上角的绿色块),再次指出密码子对偏向性是有方向性的。然而,并非所有偏向性可以仅用密码子对“中间”两个相邻的核苷酸中的模式解释。例如xxC-Axx密码子对(见最左侧从顶部起第二块)通常不被优选或拒绝,但是对xxC-AAx模式的对(注意刚提到的块左侧的四个绿色块)存在清楚的偏好。偏向性也可取决于不相邻的核苷酸(例如B.subtilis中对CxA-Gxx对的强拒绝;见图6A和6B和附录3,表C4)。不幸的是,密码子对偏向性不能总是归因于这类“简单”的模式(见例如图7A和B和附录3,表C5中针对E.coli的相当混乱的图谱)—甚至当使用Spotfire DecisionSite 8.0(http://www.spotfire.com/products/decisionsite.cfm)进行聚类分析时,也未发现普遍特性(数据未显示),即鉴定的聚类主要由不相关的密码子组成(即相同位置没有通用核苷酸)。
1.2.3 偏向性和表达水平的关系
观察A.niger的具有高表达水平(或更好地为:假定高表达水平,因为它们仅通过观察转录水平被鉴定)的基因的偏向性图谱(见图8),更大组(即简图中的块)的存在不是同样明显的(或者,也就是说,如上所述的简单规律可能完全不存在)。然而因为所有密码子对中的三分之二在该组中出现36倍或更少倍,还因为如上所述平均低得多的z-分数,人们能够将这归因于大范围的随机变异。
图9显示A.niger的一组479个高表达基因的偏向性(垂直轴)对所有基因中偏向性(水平)的散布图。显示了不涉及终止密码子的所有3,721个密码子对。
从浅灰到黑色的阴影处理根据全基因组中z-分数的绝对值指定(即图中的浅色点在所有的基因中不具有显著偏向性),大小根据高表达组中z-分数的绝对值指定,即非常小的点在其中不具有显著偏向性(此处|z-分数|<1.9)。黑色实线指出两个偏向性数值相等的地方;黑色虚线显示实际相关的最佳线性逼近(通过主成分分析鉴定的);其斜率在2.1左右。
将每个密码子对在高表达组中和全基因组中的两个偏向性值进行比较时(见图9中的散布图),可以看出对大部分对而言,高转录组中的偏向性更加极端,即如果低于0则更低且如果为正则更高,但是存在一些对,其偏向性值相当不同,甚至具有不同的标志。然而,这些主要是在顶部组(top group)中小量发生的密码子对,其中偏向性高度显著的大部分对(蓝色,大圈)在两组中具有相似的偏向性(即它们接近蓝色线,所述蓝色线指出两个偏向性值相等的位置)。
未能(无论是针对A.niger还是针对均B.subtilis未能)找到分享三个核苷酸中两个的、涉及密码子的相似偏向性差异的特定模式,即在与上图相同的密码子差异图中,不存在具有相似的偏向性差异的更大组。
1.3.为了基因适应鉴定密码子对权重的细节
目前可以根据所述的方法来测定用于适应的密码子对权重(附录1:密码子对权重-方法一个序列组(或基因组)):
1.基于基因的全集;基于1的子集。
2.被识别为高表达基因的部分。
另外,我们开始搜索以鉴定与更高的转录水平明显相关的密码子对权重,其是适应密码子对使用的改进的方法所需要的,已经应用以下的方法:在A.niger中计算每个基因的平均密码子对权重(即fitcp(g)值的等价物),所述A.niger中可以针对上述4,584个实际表达的基因集合获得取自GeneChip数据的完全分级(见“材料和方法”中的“数据”)。然后根据适合度值(升序)和表达水平(降序)来排列基因。因为高表达的基因应该具有低密码子对适合度值,当使用理想的密码子对权重时这两个分级应当是相等的,因此这两个分级的比较能够给出关于适合度函数(其中对高表达基因的“正确”分级给予了比中等表达基因的分级稍微更多的关注)中使用的权重品质的信息。另外,计算了4,584个基因的分级和平均密码子对权重之间的相关系数(协方差除以每个变量的标准差)。
已经检查了若干种可能的权重集合,包括:
i.来自全基因组的偏向性值,
ii.高表达组的偏向性值,
iii.具有所有值的偏向性,其不具有设置为零的确定的最小z-分数
iv.上升至2的幂次(和一些其它值)的偏向性值,以给予高表达的或拒绝的密码子更低/更高的影响
v.其组合
vi.z-分数自身
vii.来自高表达组和全基因组的偏向性值/z-分数的差异。
对遗传算法而言,它们的求反(negation)已被使用,因为已用正值(相当随意地)识别优选的密码子对,然而GA进行最小化。这适用于所有提到的权重。
其中,“最佳”的权重矩阵最终是ii到iv项的组合,然而,使用基于全基因组的密码子比例计算的预期值通过计算高表达组中的密码子对“偏向性”,如上所述可以获得进一步更好的矩阵。图10显示观察到的相关。
与测试的所有其它权重结合不同,涉及在高表达组中更不足量表现的密码子的密码子对在本文中具有轻度的缺点。因此,这些权重是仅有的也反映高表达的组和所有基因的不同单个密码子偏向性的权重。使用这些权重带有拒绝下述一些密码子对的风险,所述密码子对实际上在高表达的组中具有正偏向性,但是由(高表达的组中)很少使用的密码子组成。然而,因为我们期望的单个密码子比例通常与具有高表达的基因组中的单个密码子比例并不相同,而是比它们更加“极端”,单个密码子优化无论如何会代替这些不足量表现的密码子,因此我们能够认为上文所述的权重对于密码子对优化是非常方便的。
总而言之,已经如上所述鉴定了用于基因适应的被潜在地改进的密码子对权重矩阵。方程在附录1中给出:密码子对权重—方法高表达组与参考组(或基因组)。
1.4.在计算机芯片上的单个密码子和密码子对优化
1.4.1 材料和方法
用于分析和优化基因的被开发的MATLAB工具箱由若干个函数组成,这些函数根据其能力被组织在不同的目录中。因此为了使用它们,必须使得它们对MATLAB环境而言均是已知的。为此,从文件菜单中选择“设置途径(Set Path)”并点击“从子文件夹添加(Add with subfolders)”并选择安装该工具箱的途径(通常被称作“Matlab-bio”)。还添加FASTA和应当被分析的其它文件的位置。所有个体MATLAB函数简要描述于“contents.m”中(键入“help Matlab-bio”从而在MATLAB环境中显示该文件,并且在函数名前使用“help”得到关于该函数的详细信息)。对于关注于密码子对使用的基因优化而言,两个重要的函数是“fullanalysis”和“geneopt”。
如果你希望一个基因所适应的生物的全基因组位于该文件(即“Aniger_ORF.fasta”)中且其高表达基因的标识符在“an-high.txt”中,键入“fullanalysis(′Aniger_ORF.fasta′,′an-high.txt′,′an′);”后,你会得到(i)全基因组的密码子对偏向性图谱,(ii)第二个文件中基因的组的密码子对偏向性图谱,和(iii)MATLAB工作空间中用于进一步用途的若干个变量(即临时存储的数据集合)。“fullanalysis”的第三个参数仅确定这些变量如何被命名,并且如果同时只要分析一个基因组的话可以被省略。所提到的变量中有:(i)全基因组的密码子对使用和偏向性数据(在该实施例中称作“cpan”),(ii)由第二参数说明的特定组基因的密码子对使用和偏向性数据(称作“cpans”)和(iii)下述结构,其具有能够用于遗传算法的目标单个密码子比例和密码子对权重。“fullanalysis(‘Xyz_ORF.fasta’);”仅会显示密码子对偏向性图谱并存储各自基因组的偏向性数据。
尽管第二参数可以是包含基因标识符的任何文件(例如具有低表达的基因或具有某共有功能的基因的集合),但是其总是被对待为关于该(潜在的)参数的高表达基因的集合(在该实施例中称作“optparamforan”,这表示特定生物的优化参数(the optimization parameter for the specifiedorganism))。注意此处的单个密码子比例被简单地计算 r sc t arg et ( c k ) = 2 &CenterDot; r sc high ( c k ) - r sc all ( c k ) ,这是可接受的近似值。同样可以通过其它方法鉴定目标比例从而进一步改进期望比例的规格,所述其它方法包括单个密码子分布的细节(见主文本)。另外,当未发现特异偏向性时目标比例可以保持为空,从而在寻找具有更高密码子对适合度时给予密码子对算法更多自由度。附录1中针对多种宿主生物给出了若干个这类预定的单个密码子目标载体。
为了将预定的单个密码子目标比例用于遗传算法,如下改变参数的字段(field)“cr”:键入“optparamforan.cr=[“,然后粘贴单个密码子比例(例如从Excel表格中拷贝;注意它们应当按照密码子的字母顺序),如果该比例可以作为64-元行获得则键入“];”,或如果它们从列中拷贝则键入“]’;”,按回车(注意后一情况下方括号后额外的单引号或上撇号)。不重要的密码子比例(即其中不期望特定的目标比例)可以被指派“数值”NaN(不是数字),并且在计算单个密码子适合度时它们会被忽略。
为了从优化的基因中排除某些短序列,以同样的方式设定参数“rs”,其中每条序列必须括在单引号内,且所有的序列必须被一起括在大括号内例如(无断行)“optparamforan.rs={′CTGCAG′′GCGGCGCC′};”。最后,可以改变参数的字段cpi,给予单个密码子优化或密码子对优化在组合的适合度函数中更高的重要性(见“结果和讨论”中的分段“进行密码子对优化”)。默认值为0.2。如果用密码子对优化的基因的实验结果显示密码子对优化的基因与单个密码子优化的基因相比很少的改进,则将其设定为更低的值;在相反的情况下,更高的cpi可能更好。
然后可以使用函数geneopt进行使用遗传算法的基因实际优化。只需要下述参数:要被优化的序列和含有密码子对权重的结构、如上所述的目标比例和限制性位点,因此geneopt(‘MUVARNEQST*’,optparamforan);可以例如被用于优化给定的(相当短的)蛋白质序列从而在A.niger中高表达;‘*’被用于表示得到的遗传序列应当在末端具有终止密码子(然而,因为A.niger中的最优终止信号被认为是四聚体TAAA,所以这不是必要的)。注意要被优化的序列也必须括在单引号内;如果该序列仅含有字母A、C、G、T或U且其长度为3的倍数,则其被自动地识别为核苷酸序列。然后将遗传算法进行1000世代,种群大小为200,其中80个被该世代保留(79个最优的和一个随机挑选的)并用于产生新个体,其中40%的新个体使用交换产生,60%的新个体使用突变算子产生。这些默认值证明对优化是非常便利的,即这些参数中的改变仅会(如果根本的话)导致非常轻微“更好”的基因,但是如果在优化上应当花费显著更多或更少的计算时间,则它们可同样被改变(在1.4GHz Pentium M处理器上用约500个密码子的基因平均运行geneopt耗时约15分钟)。geneopt(seq,optparamforan,[50 750 5 0 0.6])会例如使得遗传算法计算种群的750个世代,其中每个新世代保留50个个体并新产生250个个体(5*50;即在每代中检查300个个体),仅保留最优的(并且无随机挑选的)个体且60%的重组使用交换算子进行。关于如何明确这些参数的更多细节,键入helpgeneopt和help geneticalgorithm。
注意:尽管本文中针对A.niger和B.subtilis显示和描述了通过分析相应的FASTA文件产生密码子对权重的步骤,但是只有对这两种生物这不是必要的,因为已针对先前的基因优化进行过这些计算。为了更简单的使用,已存储了遗传算法的各自参数(分别键入“load gadata_for_an”或“loadgadata_for_bs”;注意参数现在仅简单地称作an_param和bs_param)。
1.4.2 结果
图11显示了五个优化版本的适合度值,各针对不同的cpi值(见图11中的图例)。蛋白质为针对宿主A.niger(见实施例2)优化的真菌α-淀粉酶(FUA;也称作AmyB)。另外,显示了“纯”单个密码子优化(右侧黑点)的结果和密码子对优化的结果。通过对400个种群大小将遗传算法进行1000世代左右获得优化的版本,每个世代在1.4GHz Pentium M上运行耗时约17分钟。注意纯单个密码子优化和纯密码子对优化仅耗费该时间的约60%。
在图11中,野生型(fitsc(gfua)=0.165,fitcp(gfua)=0.033)不适合该图(其应该在右上远处)。最优的基因总是具有最低fitsc和fitcp值的基因。考虑到点的位置,不清楚针对哪个cpi值能够获得最改进的基因,因为我们还不知道是单个密码子使用还是密码子对使用更加重要。然而,一种费用平衡(fare trade-off)似乎在cpi=0.2的情况下发生。
单个密码子和密码子对使用中的改进可以显示在该工作中提出的所谓序列品质绘图中。图12阐述了两幅简图,其显示上述FUA(也见实施例2)的(449个中)最初20个密码子的序列品质。
注意这些序列品质简图不仅取决于序列自身,而且取决于权重和期望的单个密码子比例的设置,并因此取决于生物。
注意对于具有低或无密码子偏向性的密码子而言,还可能将目标单个密码子比例定义为“不关注”,即不考虑某密码子的使用与其同义密码子相比对于表达是正还是负。在该情况下,基因中各自密码子的实际比例仅显示蓝色的x-标记,并且计算单个密码子适合度时该具体的位置被忽略(见1.4在计算机芯片上的单个密码子和密码子对优化)。
1.5 结论
已经在大范围的生物中确立了密码子对使用和转录水平的显著相关。这证实了该偏向性不能仅通过开发读码位点周围的单核苷酸偏向性来解释。因为偏好或拒绝某密码子对的可能的解释均集中在翻译上,所以应当假定偏好或拒绝二者均由天然选择引起,所述天然选择同时作用于影响翻译的特征和影响转录的其它特征,从而最小化细胞生产酶或至少更重要的酶的作用。
除了经典的单个密码子优化或密码子对调和外,可因此考虑在多肽编码序列中优化密码子对使用以达成改进的过表达,其中对于优化仅考虑单个密码子频率。对于在该实施例中被研究的真菌宿主种类和bacilli而言,相同基因的密码子对适应和单个密码子适应仅轻微地干扰,即二者可同时进行且结果会比野生型基因具有“更好”的单个密码子使用和“更好”的密码子对使用,且当忽略另一个时,两方面中的任何能够仅被轻微地改进。
为了阅读FASTA文件,并进行分析和优化,已开发了用户友好的MATLAB函数。已介绍了展示单个基因的密码子对偏向性和密码子对使用的新方法,见实施例2和实施例4。针对优化设计的遗传算法允许有效处理邻近密码子对的相互依赖性带来的约束,同时特别设计的突变算子有助于克服由于遗传算法在最初几个世代后的重组步骤中产生许多不良的可能解的性状而通常伴随着遗传算法的无效(inefficiency),所述突变算子总能改进序列品质(单个密码子和密码子对适合度)的两个方面之一。
合适的密码子对使用能影响对酶的生产,这会在以下的实施例中通过实验显示。已经制备了要在B.subtilis中表达的三个基因的密码子对优化的变体,其中一个将与仅适应了单个密码子使用的合成基因比较而另一个将与下述合成基因比较,其经历了优化过程(所述过程使用假定为正的权重的求反)但是仍然以与前文相同的方式(见实施例4和实施例5)针对单个密码子使用被优化。通过这种方式,也对在本文中被否决的Irwinet al.(1995)的观点进行检验,所述观点为不足量表现的密码子刺激翻译。对于A.niger而言,将检验上述amyB的密码子对优化的版本并与具有单个密码子调和的野生型和合成基因比较,见实施例2和3。
2. 实施例2:用于构建改进的DNA序列以改进Aspergillus niger 真菌淀粉酶在A.niger中生产的本发明的方法的用途
下文中,本发明的方法被应用于设计A.niger的AmyB(FUA)基因的新颖的核苷酸序列,该序列为了在A.niger中改进的表达而在单个密码子和/或密码子对使用上被优化。该方法可以以相同的方式应用于改进任何核苷酸序列的密码子使用。
2.1 介绍
通过密码子调和的单个密码子优化的概念先前由本发明的申请人开发并在主文本中报道(也见实施例3)。在该实施例中我们显示了如何将本发明的方法应用于设计下述基因,所述基因针对单个密码子和密码子对使用被优化。在该特定的情况下应用权重矩阵,所述权重矩阵通过应用含有14,000个基因的A.niger全基因组中2%和4%的高表达基因的两个子集产生。对于单个密码子使用而言,该算法使得解趋向于具有表B.1(=表2.1的第三列)定义的同义密码子-频率的基因,而对于密码子对使用而言,其应朝向下述最优密码子对的集合被优化,所述密码子对集合的高频率具有相关的负权重(在表C.2中),是对于其在4%高表达基因集合中的期望值而言过量表现的密码子对。注意万一没有特定宿主的高表达基因的确定列表,则人们也可以(i)引用类似的宿主生物的权重矩阵,例如P.chrysogenum矩阵可以被用于A niger,或(ii)应用全基因组序列数据或其子集产生良好的、但是较不最优的权重矩阵。
2.2 材料和方法
2.2.1 编码A.niger α-淀粉酶AmyB的野生型amyB编码序列
编码α-淀粉酶蛋白质的amyB基因的DNA序列公开于J.Biochem.Mol.Biol.37(4):429-438(2004)(Matsubara T.,Ammar Y.B.,Anindyawati T.,Yamamoto S.,Ito K.,Iizuka M.,Minamiura N."Molecular cloning anddetermination of the nucleotide sequence of raw starch digesting alpha-amylasefrom Aspergillus awamori KT-11.")中,其也可以以登录号AB083159得自EMBL Nucleotide Sequence Database(http://www.ebi.ac.uk/embl/index.html)。天然A.niger amyB基因的基因组序列作为SEQ ID NO.1显示。amyB的相应编码或cDNA序列作为SEQ IDNO.2显示。被翻译的SEQ ID NO.2序列被指定为SEQ ID NO.3,代表A.niger α-淀粉酶蛋白质AmyB。该序列与A.oryzae α-淀粉酶蛋白质也具有100%的相似性(Wirsel S.,Lachmund A.,Wildhardt G.,Ruttkowski E.,"Threealpha-amylase genes of Aspergillus oryzae exhibit identical intron-exonorganization.";Mol.Microbiol.3:3-14(1989,UniProt accession nr.P10529,P11763 or Q00250)。已对amyB cDNA序列进行了根据本发明方法的优化。
2.3 设计步骤
经优化的编码核苷酸序列SEQ ID NO 6是运行所述软件方法的结果。应用的参数为:种群大小=200;迭代数=1000;cpi=0.20、CPW矩阵=“表C.2.CPW:Aspergillus niger-高表达的序列”和CR矩阵=“表B.1第4列:CR表ANS:Aspergillus niger-高表达的序列”。另外,对PstI(CTGCAG)和NotI(GCGGCGCC)位点的每次发生,对fitcombi加上+1的罚分值。
朝向fitcombi的最小值的解趋同在图13中显示。针对SEQ ID NO.6获得的目标值(objective value)在表2.2中与针对SEQ ID NO.2和SEQ ID NO.5的值一起给出,图14解释了如图15和16中所示的这些基因的单个密码子统计,表2.2给出三条序列中密码子的实际值。图18-20显示三个基因变体的单个密码子和密码子对二者的统计。该类图表在图17及其描述中详细解释。从这些图中明确了SEQ ID NO.5和SEQ ID NO.6的单个密码子统计是高度相似的。然而,本发明的方法导致下述基因,所述基因具有增加的具有相关负权重(wcp(g)≤0)的密码子对数量(93%比74%),还导致了fitcp从-0.18到-0.34的进一步降低,指出具有更多负权重与之相关的密码子对的更加最优的使用。
表2.1 amyB的密码子优化。
Figure G2007800246705D00551
Figure G2007800246705D00561
表2.2 amyB的密码子优化
 
序列 类型 fitsc fitcp wcp(g)≤0    fitcombi(cpi=0.2)
SEQ ID NO.2 WT 0.1652 0.0329 37.3% 0.090
SEQ ID NO.5 sc优化的 0.0046 -0.1765 73.9% -0.862
SEQ ID NO.6 sc+cp优化的 0.0109 -0.3420 92.6% -1.621
表2.2 中列出的所有三条序列是编码序列,其翻译的序列被指定为SEQ ID NO.3。
3. 实施例3:测试用于构建改进的DNA序列以提供Aspergillus niger真菌淀粉酶在A.niger中改进的生产的本发明的方法
本发明的方法在下文中用于改善A.niger的AmyB基因的单个密码子和密码子对使用。该方法可以用相同的方式应用于任何核苷酸序列的密码子使用改善和改进的表达。
3.1 材料和方法
3.1.1 菌株
WT 1:该A.niger菌株被用作野生型菌株。该菌株在保藏号CBS513.88下保藏于CBS Institute。
WT 2:该A.niger菌株是包含编码葡萄糖淀粉酶的基因(glaA)缺失的WT 1菌株。按照EP 0 635 574 B1中所述,通过使用“MARKER-GENEFREE”途径,构建WT 2。在该专利中详尽地描述了如何缺失CBS 513.88基因组中的glaA特异DNA序列。该步骤产生MARKER-GENE FREEΔglaA重组体A.niger CBS 513.88菌株,其最终完全不具有外来的DNA序列。
WT 3:该A.niger菌株是含有突变的WT 2菌株,所述突变导致草酸盐缺陷的A.niger菌株。通过使用如EP1590444中所述的方法来构建WT3。在该专利申请中详尽地描述了如何筛选草酸盐缺陷的A.niger菌株。根据EP1590444的实施例1和2的方法来构建菌株WT3,菌株WT3是EP1590444的突变体菌株22(在EP1590444中命名为FINAL)。
WT 4:该A.niger菌株是在三个先后的步骤中包含编码α-淀粉酶的三个基因(amyB,amyBI和amyBII)缺失的WT 3菌株。缺失载体的构建和这三个基因的基因组缺失在WO2005095624中详细描述。WO2005095624中描述的载体pDEL-AMYA、pDEL-AMYBI和pDEL-AMYBII已如EP 0635 574 B1中所述根据“MARKER-GENE FREE”途径使用。上述步骤产生草酸盐缺陷、MARKER-GENE FREEΔglaA、ΔamyA、ΔamyBI和ΔamyBII淀粉酶-阴性重组体A.niger CBS 513.88菌株,其最终完全不含有外来的DNA序列。因此,与WT 1相比,WT 4针对α-淀粉酶表达更加优化。
3.1.2 A.niger摇瓶发酵
如WO99/32617的实施例:“A.niger摇瓶发酵”章节中所述,在20ml预培养基中预培养A.niger菌株。过夜生长后,将10ml该培养物转移至发酵培养基1(FM1)中进行α-淀粉酶发酵。在含100ml发酵液的500ml带盖三角瓶中于34℃和170rpm下将发酵进行指定的天数,一般如WO99/32617中所述。
该FM1培养基每升含有:52.570g葡萄糖、8.5g麦芽糖、25g水解酪蛋白、12.5g酵母提取物、1g KH2PO4、2g K2SO4、0.5g MgSO4·7H2O、0.03g ZnCl2、80.02g CaCl2、0.01g MnSO4·4H2O、0.3g FeSO4·7H2O、10ml Pen-Strep(Invitrogen,cat.nr.10378-016)、48g MES,用4N H2SO4调节至pH 5.6。
3.1.3 真菌α-淀粉酶活性
为了测定A.niger培养液中的α-淀粉酶活性,根据供应商的方案,使用Megazyme谷物α-淀粉酶试剂盒(Megazyme,CERALPHA α-淀粉酶测试试剂盒,产品目录号K-CERA,2000-2001年)。测量的活性基于存在过量的葡萄糖淀粉酶和α-葡萄糖苷酶时非-还原-端封闭的ρ-硝基苯基麦芽七糖苷(ρ-nitrophenyl maltoheptaoside)的水解。形成的ρ-硝基苯酚的量是样品中存在的α-淀粉酶的度量。
3.2 针对编码A.niger α-淀粉酶AmyB的野生型amyB编码序列构建 Aspergillus表达构建体
野生型amyB的DNA序列已在2.2.1中描述过。为了A.niger amyB构建体在Aspergillus物种中的表达分析,使用基于pGBFIN的表达构建体将强amyB启动子用于α-淀粉酶在A.niger中的过表达(如WO99/32617中所述)。包括PamyB的ATG起始密码子的amyB启动子的翻译起始序列为5’-GGCATTTATG ATG-3’或5’-GAAGGCATTT ATG-3’,取决于选择哪个ATG作为起始密码子。在下文产生的所有后来的amyB表达构建体中,PamyB的该翻译起始序列已经被修饰为5’-CACCGTCAAA ATG-3’。
在两端引入适当的限制性位点,以允许在表达载体中克隆。天然的amyB基因含有‘TGA’终止密码子。在下文制造的所有amyB构建体中,5’-TGA-3’翻译终止序列被替换为5’-TAAA-3’,随后是PacI限制性位点的5’-TTAATTAA-3’。在5’-端引入XhoI位点,在3’-端引入PacI位点。因此,包含经修饰的基因组amyB启动子和amyB cDNA的片段被完全合成、克隆,并通过序列分析验证该序列。
用XhoI和PacI消化包含α-淀粉酶启动子(其带有经修饰的翻译起始序列)和amyB cDNA序列(其带有经修饰的翻译终止序列)的片段,并将其引入经XhoI和PacI消化的pGBFIN-12载体(如WO99/32617中所述构建和设计)中,得到pGBFINFUA-1(图21)。通过序列分析验证引入的PCR片段的序列,并将其序列表示在SEQ ID NO.4中。
3.3 改善用于在A.niger中表达的α-淀粉酶编码序列amyB的单个密码 子使用
下文应用单个密码子使用优化来改善A.niger amyB基因的密码子使用。天然amyB的核苷酸编码序列显示为SEQ ID NO.2。
天然A.niger amyB基因和合成的经优化的变体的密码子使用在下表2.1中给出。对于天然的和经单个密码子优化的合成的amyB基因而言,给出了每个密码子的精确数以及每个氨基酸的分布。另外,第三列提供了提出的最优分布,其为优化的目标。
对第1组氨基酸而言,仅有一种可能性。第1组由总是由ATG编码的甲硫氨酸和总是由TGG编码的色氨酸组成。
第2组氨基酸根据0%或100%的极端频率进行优化,该策略是清楚的。第2组AA的所有密码子被特异地改变为两种可能的密码子的最优变体。更明确地,对于半胱氨酸,将密码子TGT替换为TGC;对于苯丙氨酸,将TTT替换为TTC;对于组氨酸,将CAT替换为CAC;对于赖氨酸,将AAA替换为AAG;对于天冬酰胺,将AAT替换为AAC;对于谷氨酰胺,将CAA替换为CAG;对于酪氨酸,将TAT替换为TAC。
第3组氨基酸可以由表3.1中指出的若干种密码子编码;根据以下的方法来优化以优选的密码子频率存在的每个密码子(对于丙氨酸为GCT,GCC,GCA,GCG;对于天冬氨酸为GAT,GAC;对于谷氨酸为GAA,GAG;对于甘氨酸为GGT,GGC,GGA,GGG;对于异亮氨酸为ATT,ATC,ATA;对于亮氨酸为TTA,TTG,CTT,CTC,CTA,CTG;对于脯氨酸为CCT,CCC,CCA,CCG;对于精氨酸为CGT,CGC,CGA,CGG,AGA,AGG;对于丝氨酸为TCT,TCC,TCA,TCG,AGT,AGC;对于苏氨酸为ACT,ACC,ACA,ACG;对于缬氨酸为GTT,GTC,GTA,GTG):
对第3组氨基酸及其编码密码子而言,给定的编码序列中每个可能的密码子的最优出现率的计算是根据以下的方法进行的:
i.对各自第3组AA,求和给定序列中编码的残基总数,见低A1列(表3.1),
ii.针对每个AA和编码该AA的密码子,用该AA的总数乘以表2.1中的最优密码子分布,得到粗密码子分布,这一般可含有小数(decimalnumber),见第A2列(表3.2),
iii.通过去除小数位(digit)近似(round off)粗密码子分布(ii)的值,得到近似的密码子分布,见第A3列(表3.2),
iv.针对每个AA,求和近似密码子分布(iii)中表示的AA总数,见第A4列(表3.1),
v.通过从给定序列中编码的残基总数(i)减去近似的密码子分布(iv)中表示的AA总数,计算近似的密码子分布中每个各自AA的残基的总丢失数,见第A5列(表3.1),
vi.针对每个密码子,通过减法计算粗密码子分布(ii)和近似密码子分布(iii)之间的小数差,见第A6列(表3.2),
vii.针对每个密码子,用小数差(vi)乘以表1中的最优密码子分布,得到每个密码子的权重值,见第A7列(表3.2),
viii.针对每个各自的AA,选择丢失的残基量(v),具有最高权重值(vii)的密码子的各自量,见第A8列(表3.2),
ix.编码多肽的给定序列中最终最优密码子分布的计算如下进行:针对每个密码子将近似密码子分布(iii)和选择的丢失残基量(viii)相加,见第A9列(表3.2)。
表3.1
Figure G2007800246705D00601
Figure G2007800246705D00611
表3.2
Figure G2007800246705D00612
随后,通过随机分布原始amyB肽中每个氨基酸的提出量的同义密码子(表2.1)创建全新的核苷酸编码序列。得自上述过程的合成的amyB序列在SEQ ID NO.5中指出。使用Clone Manager7程序(Sci.Ed.Central:Scientific & Educational软件,7.02版)针对有害二级结构可能的发生来检验经修饰的编码序列中的二级结构。
3.4 针对α-淀粉酶编码序列amyB在A.niger中的表达根据本发明的组 合的单个密码子和密码子对方法优化编码序列
本发明的方法被用于改进A.niger的amyB基因的编码序列。得自实施例2所述过程的经优化的amyB序列在SEQ ID NO.6中指出。使用Clone Manager 7程序(Sci.Ed.Central:Scientific & Educational软件,7.02版)针对有害二级结构可能的发生来检验经修饰的编码序列中的二级结构。
3.5 构建用于表达由实施例3.2和3.3中所述编码序列编码的A.niger α-淀粉酶AmyB的经修饰的amyB表达载体
pGBFINFUA-1(图2)的XhoI-PacI片段的DNA序列如SEQ ID NO.4所示并包含amyB启动子和带有经修饰的翻译起始序列和经修饰的翻译终止序列的野生型amyB cDNA序列。如实施例1.2中所述的DNA序列表示为SEQ ID NO.7,所述DNA序列包含α-淀粉酶启动子的翻译起始序列的变体,其与编码α-淀粉酶的amyB基因的密码子优化的编码序列组合。如实施例3.3中所述的DNA序列表示为SEQ ID NO.8,所述DNA序列包含α-淀粉酶启动子的翻译起始序列的变体,其与编码α-淀粉酶的amyB基因的优化的编码序列组合,所述优化根据本发明的组合的单个密码子和密码子对方法完成。
为了在表达载体中克隆这些经修饰的序列变体,用XhoI和PacI消化两个合成的基因片段,并将其引入经XhoI和PacI消化的pGBFINFUA-1载体(图21)的更大片段中,产生变体表达载体。检验正确片段的整合后,将变体表达构建体命名为pGBFINFUA-2和pGBFINFUA-3,如下文表3.3中所述。
表3.3:用于在A.niger中表达α-淀粉酶的经修饰的表达构建体
 
质粒名称 SEQ IDNO     翻译起始序列 编码序列 翻译终止序列
 
pGBFINFUA-1 4 经修饰的(CACCGTCAAAATG)        w.t. 经修饰的(TAA ATA)
pGBFINFUA-2 7 经修饰的(CACCGTCAAAATG)        经单个密码子优化的   经修饰的(TAA ATA)
pGBFINFUA-3 8 经修饰的(CACCGTCAAAATG)        依照本发明经修饰的   经修饰的(TAA ATA)
质粒pGBFINFUA-1到pGBFINFUA-3的amyB编码序列的翻译的序列是按照SEQ ID NO 3中所示的氨基酸序列,其代表野生型A.niger α-淀粉酶。
3.6 A.niger α-淀粉酶的经修饰的DGBFINFUA-表达构建体在A.niger 中的表达
如下所述和根据图22中所示策略通过转化将如上所述制备的pGBFINFUA-1、pGBFINFUA-2和pGBFINFUA-3表达构建体引入A.niger中。
为了在WT 4中引入三个pGBFINFUA-1、-2和-3载体(表3.3),如WO98/46772和WO99/32617中所述进行转化和随后的转化体选择。简言之,分离pGBFINFUA-构建体的线性DNA并用于转化A.niger。在乙酰胺培养基上选择转化体并根据标准步骤纯化菌落。诊断菌落在glaA基因座上的整合,并使用PCR诊断其拷贝数。选择了pGBFINFUA-1、-2和-3构建体每一个的具有相似的评估拷贝数(低拷贝:1-3)的十个独立转化体,并使用转化质粒的名称编号,例如分别为FUA-1-1(对于第一个pGBFINFUA-1转化体而言)和FUA-3-1(对于第一个pGBFINFUA-3转化体而言)。
所选择的FUA-菌株和A.niger WT 4被用于在100ml培养基中和如上所述的条件下进行摇瓶实验。3和4天的发酵后,取样。
测量所有三个不同的A.niger FUA-转化体中α-淀粉酶的生产。如从图23中可以看出,根据本发明方法的编码序列的优化显示与称作单个密码子优化的测试的其它方法相比对AmyB表达的更高改进。这些图已概括于下表3.4中。
表3.4.带有野生型构建体的转化体与带有经修饰的amyB编码序列的转化体相比的相对平均α-淀粉酶活性(如从图23中所概括的)。
 
菌株类型 SEQ ID NO 编码序列 α-淀粉酶活性
FUA-1 4 w.t. 100%
FUA-2 7 单个密码子优化的 200%
FUA-3 8 根据本发明修饰的 400%
这些结果清楚地指出本发明的方法可应用于促进宿主中的蛋白质表达,尽管表达构建体和宿主已具有若干种其它优化,例如强启动子、改进的翻译起始序列、改进的翻译终止序列、最优的单个密码子使用和/或针对蛋白质表达改进的宿主。
4. 实施例4:设计用于三种异源酶在Bacillus物种:Bacillus subtilis和Bacillus amiloliquefaciens中表达的改进的DNA序列
4.1.介绍
实施例4描述了本专利所述的本发明方法的实验设计和应用,该方法用于两种物种(在该实施例中更特定地为Bacillus subtilis和Bacillusamiloliquefaciens)中异源蛋白质的(改进的)表达。一个优选的表达宿主为Bacillus amiloliquefaciens。
Bacillus subtilis基因组于1997年公布,其它Bacillus物种随后公布(Kunst,F.et al.1997.The complete genome sequence of the Gram-positivebacterium Bacillus subtilis.Nature 390:249-56;Rey,M.W.et al.(2004).Complete genome sequence of the industrial bacterium Bacillus licheniformisand comparisons with closely related Bacillus species.Genome Biology 5:R77;Rasko D.A.et al.(2005).Genomics of the Bacillus cereus group of organisms.FEMS Microbiology Reviews 29:303-329)。
在该实施例中,选择B.subtilis的全序列作为计算单个密码子频率和密码子对权重的基础。对GC-含量和tRNA的比较提供了所述Bacillus物种的类似图谱(见上文)。这表示相同的统计可应用于其它相关的Bacillus物种。另外,从实施例1(也见图4)已经清楚相关的物种显示相似的密码子对频率。
在图4(也见实施例1)中,可以找到基于B.subtilis对B.amyloliquefaciens的全基因组统计的密码子对比较图表。观察到两个数据集合之间的良好相关。另外,似乎B.amyloliquefaciens更加通用(versatile),因为有在B.amiloliquefaciens中被良好接受而在B.subtilis中具有高度负值的密码子对组合的子集;但未观察到相反情况。
4.2.实验设计
选择三条蛋白质序列用于在Bacillus subtilis和Bacillusamiloliquefaciens二者中表达:
蛋白质1:来自Bacillus stearothermophilus的木糖(葡萄糖)异构酶xylA(EC.5.3.1.5);
蛋白质2:来自Streptomyces olivochromogenes的木糖(葡萄糖)异构酶xylA(EC.5.3.1.5);
蛋白质3:来自Thermoanaerobacter mathranii的L-阿拉伯糖异构酶(EC5.3.1.4)。
表4.1 概述基因构建体;选择蛋白质2以进一步探究密码子更广义的概念。
 
基因 蛋白质 单个密码子优化           单个密码子&正密码子对优化           单个密码子&负密码子对优化          
蛋白质1 SEQ ID NO.9 SEQ ID NO.16 SEQ ID NO.13
蛋白质2 SEQ ID NO.10 SEQ ID NO.17 SEQ ID NO.14 SEQ ID NO.18
蛋白质3 SEQ ID NO.11 SEQ ID NO.12 SEQ ID NO.15
表4.1 提供了应用于上文所述3个基因的方法。对蛋白质1、蛋白质2和蛋白质3而言,除了之前开发的单个密码子优化外还应用本发明方法的密码子对优化。
作为对照,通过包含蛋白质2的2个额外构建体实验,来检验单个密码子优化和负密码子对优化的作用。一个变体(SEQ.ID.18)被设计为其朝向不良密码子对被“优化”(即负密码子对优化),第二变体被设计为仅进行单个密码子优化(SEQ.ID.17)。选择蛋白质2是因为Streptomyces物种限制高度差异的密码子对偏向性,见实施例1和图4。
所有设计的B.amyloliquefaciens基因避免NdeI(CATATG)和BamHI(GGATTC)限制性位点的发生。另外,它们含有去除克隆载体pBHA12的E.coli部分的单个限制性位点。
4.3.单个密码子优化
蛋白质1和蛋白质2的单个密码子优化的变体根据实施例3.3中所述用于单个密码子优化的方法设计,分别得到SEQ ID NO.16和SEQ ID NO.17。应用的单个密码子分布表(表4.2)使用50个最高表达的基因测定,所述最高表达的基因使用B.subtilus 168的24 Affymetrix GeneChips(其使用6个独立的发酵时间系列)测定。所有的GeneChips根据其算术平均值被标准化。表达列表排除了下述基因:其在菌株工程操作中被有意地过表达,因此它们测量出的表达水平不能与其密码子使用相关联。
单个密码子分布表4.2的测定通过视觉检查50、100、200、400个最高表达的序列和所有B.subtilis序列的密码子频率直方图完成。在清楚趋向于0%或100%的最高表达基因的情况下,分别进行0%和100%的指定。对于未指定的其它密码子而言,计算平均使用并通过省略指定的密码子对同义密码子集合进行标准化。得到的目标单个密码子频率在表4.2第3列中给出。
表4.2 合成基因设计的密码子使用分布,其基于50个最高表达的基因和单个密码子使用直方图例如图24的视觉检查;在密码子对优化期间可以应用不关注(Don’t care)的项目,以允许这些密码子的选择自由化,从而不考虑这些密码子的单个密码子优化。
Figure G2007800246705D00681
4.4.密码子对优化
根据本发明的方法进行密码子对优化。优化的编码核苷酸序列SEQID NO.13-15运行所述的软件方法的结果。应用的参数为:种群大小=200;迭代数=1000;cpi=0.20、CPW矩阵=“表C.4.CPW:Bacillussubtilis-高表达的序列”和CR矩阵=“表B.1第5列:CR表BAS:Bacillussubtilis-高表达的序列”(也在表 4.2中)和如表 4.2中的“不关注”元素。另外,对NdeI(CATATG)和BamHI(GGATTC)限制性位点的每次发生,对fitcombi加上+1的罚分值。
经优化的编码核苷酸序列SEQ ID NO.18是运行所述软件方法的结果。应用的参数为:种群大小=200;迭代数=1000;cpi=0.20、CPW矩阵=-1倍的“表C.4.CPW:Bacillus subtilis-高表达的序列”(用于获得朝向不良密码子对的密码子对优化)和CR矩阵=“表B.1第5列:CR表BAS:Bacillus subtilis-高表达的序列”(也在表4.2中)和如表4.2中的“不关注”元素。另外,对NdeI(CATATG)和BamHI(GGATTC)限制性位点的每次发生,对fitcombi加上+1的罚分值。
对不显示密码子偏向性的这些密码子选择表4.2中的“不关注”元素。这通过视觉检查单个密码子偏向性图完成,见4.3。这类元素的使用对优化的密码子对部分提供了额外的自由度。
所有的优化朝向fitcombi的最小值集中。表4.2中与获得的SEQ ID NO.11、SEQ ID NO.16和SEQ ID NO.17的目标值一起,给出获得的SEQ IDNO.13-15和SEQ ID NO18的目标值。从该数据了解到对SEQ ID NO.16和SEQ ID NO.17而言与SEQ ID NO.14和SEQ ID NO.15相比单个密码子统计是高度类似的。然而,本发明的方法导致下述基因,所述基因具有增加的密码子对(其具有相关负权重)数量,指出具有更多正权重与之相关的密码子对的更加最优的使用,见表4.3。
使用fitcp最大值化的“优化”导致下述基因,所述基因具有增加的密码子对(其具有相关负权重)数量,指出具有更多正权重与之相关的密码子对的提高的使用,因此预期对翻译特征的不良影响。对SEQ ID NO.18(wcp(g)≤0)为24%而对SEQ ID NO.14为85%,且fitcp也从1.20提高至-1.43。
表4.3 密码子优化;在B.subtilis和B.amyloliquefaciens中表达的基因的目标适合度值。
 
序列 类型 fitsc fitcp wcp(g)≤0    fitcombi(cpi=0.2)
SEQ ID NO.11      WT 0.078 0.097 41.1% 0.350
SEQ ID NO.13      sc+cp优化的 0.004 -0.293 89.1% -1.439
SEQ ID NO.14      sc+cp优化的 0.004 -0.292 84.8% -1.431
SEQ ID NO.15      sc+cp优化的 0.003 -0.303 89.2% -1.493
SEQ ID NO.16      sc优化的 0.002 -0.023 56.9% -0.114
SEQ ID NO.17      sc优化的 0.003 0.087 44.3% 0.428
SEQ ID NO.18      sc+负cp优化的 0.015 0.257 23.5% 1.196
5. 实施例5:针对三种异源酶在Bacillus subtilis和Bacillus amyloliquefaciens中的表达检验本发明的方法。
5.1 介绍
实施例5描述了具有这些序列变体的3个异源基因在Bacillus subtilis和Bacillus amiloliquefaciens宿主细胞二者中表达的实验和结果。变体根据本发明的方法制造,如实施例4中所述。
5.2 材料和方法
5.2.1 Bacillus生长培养基
2*TY(每L):胰蛋白胨16g、酵母提取物Difco 10g、NaCl 5g。
5.2.2 B.subtilis的转化
培养基
2x Spizizen培养基:28g K2HPO4;12g KH2PO4;4g(NH4)2SO4;2.3g柠檬酸三钠.2H2O;0.4g MgSO4.7H2O;加H2O至900ml并用4N NaOH调节至pH7.0-7.4。加H2O至1升。
在120℃高压灭菌20分钟。
1x Spizizen-plus培养基:向50ml 2x Spizizen培养基中添加50mlmilliQ;1ml50%葡萄糖和100μl水解酪蛋白氨基酸(20μg/ml终浓度)。
来自非选择性2xTY琼脂平板的单个Bacillus菌落(或来自深层冷冻管中的等分式样)被接种在100ml摇瓶中的10ml 2xTY发酵液中。细胞于37℃和±250rpm下在培养箱摇床中培养过夜。在600nm处测量OD值,并用1x Spizizen-plus培养基将培养物稀释至OD600≈0.1。在37℃和250-300rpm下培养细胞,直到培养物的OD600为0.4-0.6。用补充有0.5%葡萄糖的1x Spizizen培养基(饥饿培养基)对培养物进行1:1稀释,并将其在37℃和250-300rpm下孵育90分钟。在桌上离心机中于4500rpm下将培养物离心10分钟。去除90%的上清液并将沉淀物悬浮在剩余的体积中。将DNA(最大20μl体积中1-5μg)与0.5ml感受态细胞在万能管中混合,并在旋转摇动水浴中在37℃于稳定的摇动(5/6)下孵育1小时。将细胞涂布(20到200μl)在含25-μg/ml卡那霉素的选择性2xTY琼脂平板上并在37℃孵育过夜。
5.2.3 制备无细胞提取物
将得自1ml培养物的沉淀物重悬于含10mM Thris-HCl(pH7.5)、10mM EDTA、F50mM NaCl、1mg/ml溶菌酶和蛋白酶抑制剂(无EDTA的蛋白酶抑制剂完全混合物,Roche)的缓冲液A中。将重悬的沉淀物在37℃孵育30分钟,以进行原生质体化,并随后如下进行超声处理:30秒,10微米振幅(3个循环),循环之间冷却15秒。超声处理后通过离心(10分钟,4℃下13000rpm)将细胞碎片离心,澄清的溶胞产物被用于进一步分析。
5.2.4 选择葡萄糖异构酶和L-阿拉伯糖异构酶编码基因,并设计用于 在Bacillus amyloliquefaciens和Bacillus subtilis中表达的合成基因
所选择的三个酶为:
1.Bacillus stearothermophilus木糖异构酶(P54272 Swissprot);蛋白质序列SEQ ID NO.9,
2.Streptomyces olivochromogenes木糖异构酶(P15587 Swissprot);蛋白质SEQ ID NO.10,
3.Thermoanaerobacter mathranii L-阿拉伯糖异构酶(AJ 582623.1 EMBL,以及US2003/012971A1),蛋白质SEQ ID NO.11,核苷酸SEQ ID NO.12。
如从上文中看出的,所选择的酶具有不同的微生物来源。为了在Bacillus subtilis或Bacillus amyloliquefaciens中过量生产这些酶的目的,我们已经用使得其适合于在Bacillus物种中表达的方式优化了每个蛋白质的核苷酸序列,见实施例4。
我们已优化了编码上述酶的核苷酸序列。序列在序列表中以SEQ IDNO.13.(Bacillus stearothermophilus葡萄糖(木糖)异构酶)、SEQ IDNO.14.(Streptomyces olivochromogenes葡萄糖(木糖)异构酶)、SEQID NO.15列出。作为对照,产生了具有单个密码子优化而无密码子对优化的一个变体SEQ ID NO.16-17,和具有单个密码子优化与“负密码子对优化”的一个变体SEQ ID NO.18,见实施例4和表4.1。
5.3 在E.coli/Bacillus穿梭载体中克隆葡萄糖异构酶和L-阿拉伯糖 异构酶编码基因并转化进Bacilli
为了在Bacilli中表达选择的基因,我们使用了pBHA12 E.coli/Bacillus穿梭载体(图26)。该载体主要来自于表达载体pBHA-1(EP 340878),其中来自Bacillus amyloliquefaciens的amyQ基因的启动子替换了HpaII启动子。pBHA12质粒含有两个多克隆位点(图26)。所有选择的和优化的基因被合成制造(DNA 2.0,Menlo Park,CA,U.S.A.)为两个片段(A和B)。对应于基因5′端的A片段被克隆在amyQ启动子之后。两个片段均用特定的限制性内切核酸酶位点延长,从而允许在多克隆位点1和2中的直接克隆(见图27)。片段A的3′端和片段B的5′端通过特有的限制性内切核酸酶位点重叠,所述位点允许将载体的E.coli部分切除并在转化Bacillus subtilis之前连接回去(CBS 363.94)。在克隆和转化B.subtilis的步骤期间,使用E.coli作为中间宿主。选择pBHA12中的两步克隆途径,从而避免在E.coli中克隆和繁殖表达载体时可能的问题。在表5.1中列出了添加至片段A和B的限制性酶识别位点,以及允许回复连接(backligation)和原样再建完整功能基因的特有限制性位点。所有的A片段5′端含有NdeI位点(识别序列CATATG),其允许将基因作为片段克隆,所述片段精确地在其各自的起始密码子(ATG)处起始。
表5.1.对已被添加至基因片段以协助在pBHA12中克隆的限制性内切核酸酶(RE)克隆位点的概述。
已使用标准的分子生物学方法(Sambrook & Russell,Molecular Cloning:A Laboratory Manual,3rd Ed.,CSHL Press,Cold Spring Harbor,NY,2001;and Ausubel et al.,Current Protocols in Molecular Biology,Wiley InterScience,NY,1995)将5个基因的A和B片段在两个步骤中分别克隆进MCS1和2,如图27中的SEQ ID NO.13所示。转化在E.coli TOP10(Invitrogen)中进行,或者在另一步骤中使用甲基化敏感的限制性内切核酸酶的情况下,转化在INV110(Invitrogen)中进行。使用小量或中量质粒分离试剂盒(分别来自Macherey-Nagel和Sigma),分离针对每个表达构建体的若干个E.coli氨苄青霉素抗性转化体。通过限制性分析证实pBHA12载体中相应的A和B片段的正确连接。在下一步中,用特有的限制性内切核酸酶(见表5.1)消化含有基因的A和B片段的pBHA12质粒,从而将载体的E.coli部分切除。使用凝胶提取试剂盒(Macherey-Nagel)从琼脂糖凝胶上分离含有断裂基因的载体的Bacillus部分,并回复连接。通过感受态细胞转化将连接混合物转化至B.subtilis CBS 363.94菌株。使用小量或中量质粒分离试剂盒(分别来自Macherey-Nagel和Sigma)分离针对每个表达构建体的若干个B.subtilis卡那霉素抗性转化体。通过限制性分析针对下述内容检验表达构建体:切除E.coli部分后正确的模式和pBHA12载体的Bacillus部分的回复连接。对于每个构建体而言,选择三个B.subtilis转化体用于分析无细胞的提取物。
5.4 检测在Bacilli中过量生产的酶
使用每个构建体的三个B.subtilis转化体和三个B.amyloliquefaciens转化体分析无细胞提取物中相应蛋白质(葡萄糖或L-阿拉伯糖异构酶)的存在。使用2xTY发酵培养基培养菌株。在(摇瓶中)发酵24小时时取样(1ml)并制备无细胞提取物,其中提取缓冲液中含有蛋白酶抑制剂。在SDS-PAGE(Invitrogen)上分析13μl无细胞提取物。针对若干个转化体检测对应于过表达的蛋白质的预期Mw的清楚条带。条带的视觉比较在表5.2中给出。显然,本发明的方法通过使用密码子对方法改进了Bacillusstearothermophilus木糖异构酶、Streptomyces olivochromogenes木糖异构酶和Thermoanaerobacter mathranii L-阿拉伯糖异构酶的蛋白质生产,即这导致了与WT对照基因或单个密码子优化的变体之任一相比改进的蛋白质生产。另外,如果与单个密码子优化一起应用负密码子对优化,则未检测到任何产物。
表5.2:三个异源基因在Bacilli中的过表达。WT:野生型;sc:单个密码子优化;cp:密码子对优化;cp-:负密码子对优化。
Figure G2007800246705D00751
参考文献
Boycheva,S.,Chkodrov,G.& Ivanov,I.(2003).Codon pairs in thegenome of Escherichia coli.Bioinformatics 19(8):987-998
Gurvich,O.L.,Baranov,P.V.,Gesteland,R.F.,Atkins,J.F.(2005).Expression levels influence ribosomal frameshifting at the tandem rare argininecodons AGG_AGG and AGA_AGA.J.Bacteriol.187:4023-4032.
Gustafsson,C.,Govindarajan,S.& Minshull,J.(2004).Codon bias andheterologous protein expression.Trends Biotechnol.22(7):346-353
Gutman,G.A.& Hatfield,G.W.(1989).Nonrandom utilization of codonpairs in Escherichia coli.PNAS 86:3699-3703
Gygi,S.P.,Rochon,Y.,Franza,B.R.,& Aebersold,R.(1999).Correlationbetween protein and mRNA abundance in Yeast.Mol.Cel.Biol.19(3):1720-30
Hatfield,G.W.& Gutman,G.A.(1992).Codon pair utilization.UnitedStates Patent No 5,082,767
Irwin,B.,Heck,D.& Hatfield,G.W.(1995).Codon pair utilization biasesinfluence translational elongation step times.J Biol Chem 270:22801-22806
Karlin et al.(2001).Characterization of highly expressed genes of fourfast-growing bacteria.J.of Bacteriology 183(17):5025-39.
Kunst,F.et al.(1997).The complete genome sequence of the Gram-positive bacterium Bacillus subtilis.Nature 390:249-256
Lithwick,G.& Margalit,H.(2003).Hierarchy of sequence-dependentfeatures associated with prokaryotic translation.Genome Res.13(12):2665-73.
Makrides,S.C.(1996).Strategiesfor achieving high-level expression ofgenes in Escherichia coli.Microbiol.Rev.60:512-538
Moura,G.et al.(2005).Comparative context analysis of codon pairs on anORFeome scale.Genome Biology 2005,6:R28
Nevalainen,K.M.H.,Te’o,V.S.J.& Bergquist,P.L.(2005).Heterologousprotein expression in filamentous fungi.Trends Biotechnol.200523(9):468-474
Pel,H.J.,et al.(2007).Genome sequencing and analysis of the versatile cellfactory Aspergillus niger CBS513.88.Nat Biotech.2007 25(2):221-231
Punt,P.J.,van Biezen,N.,Conesa,A.,Albers,A.,Mangnus,J.&van den Hondel,C.(2005).Filamentous fungi as cell factories for heterologousprotein production.Trends Biotechnol.20(5):200-206
Rocha,E.P.C.,A.Danchin and A.Viari(1999).Translation in Bacillussubtilis:roles and trends of initiation and termination,insights from a genomeanalysis.NAR,27(17):3567-76.Boycheva,S.,Chkodrov,G.& Ivanov,I.(2003).Codon pairs in the genome of Escherichia coli.Bioinformatics 19(8):987-998
Schwartz,S.& Curran,J.F.(1997).Analyses of frameshifting at UUU-pyrimidine sites.NAR 25(10):2005-2011
Spanjaard,R.A.& van Duin,J.(1988).Translation of the sequence AGG-AGG yields 50% ribosomal frameshift.PNAS 85:7967-7971
附录1:符号和等式列表
单个密码子:
ci
编码相同氨基酸的密码子:
syn(ci)
密码子ci的出现数:
nsc(ci)
密码子ck的比例(与其同义的相比):
r sc ( c k ) = n sc ( c k ) / &Sigma; c l &Element; syn ( c k ) n sc ( c l )
密码子对:
(ci,cj)
密码子对的出现率(观察到的数量):
nobs((ci,cj))
该密码子对的预期数量:
n exp own ( ( c i , c j ) ) = r sc all ( c i ) &CenterDot; r sc all ( c j ) &CenterDot; &Sigma; c m &Element; syn ( c i ) c n &Element; syn ( c j ) n obs ( ( c m , c n ) )
相应的标准差:
&sigma; ( ( c i , c j ) ) = n exp ( ( c i , c j ) ) &CenterDot; ( 1 - r sc all ( c i ) &CenterDot; r sc all ( c j ) )
相应的标准评分(z-评分):
z ( ( c i , c j ) ) = ( n obs ( ( c i , c j ) ) - n exp ( ( c i , c j ) ) &sigma; ( ( c i , c j ) )
密码子对的偏向性系数:
bias ( ( c i , c j ) ) = n obs ( ( c i , c j ) ) - n exp ( ( c i , c j ) ) max ( n obs ( ( c i , c j ) ) , n exp ( ( c i , c j ) ) )
组合的“预期”值(对权重而言):
n exp combi ( ( c i , c j ) ) = r sc all ( c i ) &CenterDot; r sc all ( c j ) &CenterDot; &Sigma; c k &Element; syn ( c i ) c l &Element; syn ( c j ) n obs high ( ( c k , c l ) )
密码子对权重-方法,一个序列组(或基因组):
w ( ( c i , c j ) ) = n exp all ( ( c i , c j ) ) - n obs all ( ( c i , c j ) ) max ( n obs all ( ( c i , c j ) ) , n exp all ( ( c i , c j ) ) )
密码子对权重-方法,高表达的组与参考组(或基因组):
w ( ( c i , c j ) ) = n exp combi ( ( c i , c j ) ) - n obs high ( ( c i , c j ) ) max ( n obs high ( ( c i , c j ) ) , n exp combi ( ( c i , c j ) ) )
附录2:CR载体
表B.1:按列表示的以下生物的CR矩阵值:(1)AN:A.niger全基因组-方法:统计分布;(2)ANS:A.niger 250个高表达基因-方法:目检,(3)AN_d:A.niger关注-不关注(0-1)载体;(4)BS:B.subtilis全基因组-方法:统计分布;(5)BSS:B.subtilis 50个高表达基因-方法,目检,(6)BS_d:B.subtilis关注-不关注(0-1)载体;(7)EC:E.coli全基因组4298seq;-方法:统计分布;(8)ECS E.coli来自Carbone et al.(2003)的高表达组100seq-方法:目检;(9)EC_d:E.coli关注-不关注(0-1)载体;(10)BA:B.amyloliquefaciens全基因组-方法:统计分布;(11)BAS:B.amyolliquefaciens 50个高表达的基因-方法:目检;(12)BS_d:B.amyolliquefaciens关注-不关注(0-1)载体;(13)SC:S.cerevisiae全基因组-方法:统计分布;(14)SCS:S.cerevisiae 200个高表达的基因-方法:目检,(15)SC_d:S.cerevisiae关注-不关注(0-1)载体;(16)SCO:S.coelicolorA3(2)全基因组-方法:统计分布。
注意:对于真菌微生物(更特定的P.chrysogenum、A.Oryzae、A.terreus、A.nidulans、A.fumigatus、T.reesei、N.fischerii)而言,使用A.niger序列衍生的CR载体适用。对于一般酵母(更特定的K.lactis和S.pombe)而言,使用S.cerevisiae序列衍生的CR载体适用。对于Streptomyces物种而言,使用S.coelicolor A3(2)的CR载体适用。
Figure G2007800246705D00801
Figure G2007800246705D00811
表B.1 继续
Figure G2007800246705D00812
Figure G2007800246705D00821
Figure G2007800246705D00831
附录3:CPW矩阵
表C.1:CPW矩阵Aspergillus niger全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:A.niger;序列数据:全A.niger基因组。
Figure G2007800246705D00832
Figure G2007800246705D00841
表C.1 继续
Figure G2007800246705D00842
表1 继续
Figure G2007800246705D00852
Figure G2007800246705D00871
表C.1 继续
Figure G2007800246705D00872
Figure G2007800246705D00881
表C.1 继续
Figure G2007800246705D00882
Figure G2007800246705D00891
表C.1 继续
Figure G2007800246705D00892
Figure G2007800246705D00901
表C.2:CPW矩阵A.niger高表达序列(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:A.niger;序列数据:全A.niger基因组;高表达的组:400条序列。
Figure G2007800246705D00911
Figure G2007800246705D00921
表C.2 继续
Figure G2007800246705D00922
Figure G2007800246705D00931
表C.2 继续
Figure G2007800246705D00932
Figure G2007800246705D00941
表C.2 继续
Figure G2007800246705D00942
Figure G2007800246705D00951
Figure G2007800246705D00961
表C.2 继续
Figure G2007800246705D00962
表C.2 继续
Figure G2007800246705D00981
表C.3:CPW矩阵Bacillus subtilis全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:B.subtilis;序列数据:全B.subtilis基因组。
Figure G2007800246705D00991
Figure G2007800246705D01001
表C.3 继续
Figure G2007800246705D01002
Figure G2007800246705D01011
表C.3 继续
Figure G2007800246705D01012
表C.3 继续
Figure G2007800246705D01031
Figure G2007800246705D01041
表C.3 继续
Figure G2007800246705D01042
Figure G2007800246705D01051
表C.3 继续
Figure G2007800246705D01052
Figure G2007800246705D01061
表C.4:CPW矩阵Bacillus subtilis高表达序列(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:B.subtilus;序列数据:全B.subtilus基因组;高表达的组:415条序列。
Figure G2007800246705D01071
表C.4 继续
Figure G2007800246705D01082
Figure G2007800246705D01091
表C.4 继续
Figure G2007800246705D01101
表C.4 继续
Figure G2007800246705D01102
Figure G2007800246705D01121
表C.4 继续
Figure G2007800246705D01131
表C.4 继续
Figure G2007800246705D01132
Figure G2007800246705D01141
表C.5:CPW矩阵Escherichia coli K12全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:E.coli;序列数据:全E.coli基因组。
Figure G2007800246705D01151
Figure G2007800246705D01161
表C.5 继续
Figure G2007800246705D01162
表C.5 继续
Figure G2007800246705D01181
表C.5 继续
Figure G2007800246705D01182
Figure G2007800246705D01191
Figure G2007800246705D01201
表C.5 继续
Figure G2007800246705D01202
Figure G2007800246705D01211
表C.5 继续
Figure G2007800246705D01212
Figure G2007800246705D01221
表C.6:CPW矩阵Escherichi coli K12高表达序列(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:E.coli;序列数据:全E.coli基因组;高表达的组:100条序列。
Figure G2007800246705D01231
Figure G2007800246705D01241
表C.6 继续
Figure G2007800246705D01251
表C.6 继续
Figure G2007800246705D01252
Figure G2007800246705D01261
表C.6 继续
Figure G2007800246705D01271
Figure G2007800246705D01281
表C.6 继续
Figure G2007800246705D01291
表C.6 继续
Figure G2007800246705D01301
表C.7:CPW矩阵Bacillus amyloliqueaciens全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:B.amyloliqueaciens;序列数据:全B.amyloliqueaciens基因组。
Figure G2007800246705D01311
Figure G2007800246705D01321
表C.7 继续
Figure G2007800246705D01322
表C.7 继续
Figure G2007800246705D01341
表C.7 继续
Figure G2007800246705D01342
Figure G2007800246705D01351
Figure G2007800246705D01361
表C.7 继续
Figure G2007800246705D01362
Figure G2007800246705D01371
表C.7 继续
Figure G2007800246705D01381
表C.8:CPW矩阵Bacillus amyloliqueaciens K12高表达序列(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:B.amyloliqueaciens;序列数据:全B.amyloliqueaciens基因组;高表达的组:236条序列。
Figure G2007800246705D01391
Figure G2007800246705D01401
表C.8 继续
Figure G2007800246705D01402
Figure G2007800246705D01411
表C.8 继续
Figure G2007800246705D01412
表C.8 继续
Figure G2007800246705D01431
Figure G2007800246705D01441
表C.8 继续
Figure G2007800246705D01442
Figure G2007800246705D01451
表C.8 继续
表C.9:CPW矩阵Saccharomyces cerevisiae全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:S.cerevisiae;序列数据:全S.cerevisiae基因组。
Figure G2007800246705D01471
Figure G2007800246705D01481
表C.9 继续
Figure G2007800246705D01482
Figure G2007800246705D01491
表C.9 继续
Figure G2007800246705D01501
表C.9 继续
Figure G2007800246705D01502
Figure G2007800246705D01511
Figure G2007800246705D01521
表C.9 继续
Figure G2007800246705D01522
表C.9 继续
Figure G2007800246705D01532
Figure G2007800246705D01541
表C.10:CPW矩阵Saccaromyces.cerevisia高表达序列(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:S.cerevisiae;序列数据:全S.cerevisiae基因组;高表达组:300条序列。
Figure G2007800246705D01551
Figure G2007800246705D01561
表C.10 继续
Figure G2007800246705D01562
Figure G2007800246705D01571
表C.10 继续
表C.10 继续
Figure G2007800246705D01582
Figure G2007800246705D01601
表C.10 继续
Figure G2007800246705D01602
Figure G2007800246705D01611
表C.10 继续
Figure G2007800246705D01612
Figure G2007800246705D01621
表C.11:CPW矩阵Streptomyces coelicolor A3(2)全基因组(左侧密码子在第2列中指出,右侧密码子在第2行中指出)。宿主细胞:S.coelicolor;序列数据:全S.coelicolor基因组。
Figure G2007800246705D01631
Figure G2007800246705D01641
表C.11 继续
Figure G2007800246705D01642
Figure G2007800246705D01651
表C.11 继续
Figure G2007800246705D01652
Figure G2007800246705D01661
表C.11 继续
Figure G2007800246705D01662
Figure G2007800246705D01671
Figure G2007800246705D01681
表C.11 继续
Figure G2007800246705D01682
Figure G2007800246705D01691
表C.11 继续
Figure G2007800246705D01692
 
申请人或代理人文件参考编号25051WO 国际申请号:
           与被保藏的微生物相关的说明
                (PCT Rule 13bis)
Figure G2007800246705D01711
         与被保藏的微生物相关的说明
             (PCT Rule 13bis)
Figure G2007800246705D01721
序列表
<110>帝斯曼知识产权资产管理有限公司
<120>实现改进的多肽表达的方法
<130>25051WO
<160>18
<170>PatentIn version 3.3
<210>1
<211>3965
<212>DNA
<213>Aspergillus niger
<400>1
gtttgacgcg tttgcagtgt agaagcttcc agctaccgta gattactgat acaaactcaa      60
tacactattt ctataacctt actgttcaat acagtacgat caaaatttcc ggaatattaa     120
tgttacggtt accttccata tgtagactag cgcacttggc attagggttc gaaatacgat     180
caaagagtat tggggggggt gacagcagta atgactccaa ctgtaaatcg gcttctaggc     240
gcgctccatc taaatgttct ggctgtggtg tacaggggca taaaattacg cactacccga     300
atcgatagaa ctactcattt ttatatagaa gtcagaattc atggtgtttt gatcatttta     360
aatttttata tggcgggtgg tgggcaactc gcttgcgcgg gcaactcgct taccgattac     420
gttagggctg atatttacgt aaaaatcgtc aagggatgca agaccaaagt actaaaaccc     480
cggagtcaac agcatccaag cccaagtcct tcacggagaa accccagcgt ccacatcacg     540
agcgaaggac cacctctagg catcggacgc accatccaat tagaagcagc aaagcgaaac     600
agcccaagaa aaaggtcggc ccgtcggcct tttctgcaac gctgatcacg ggcagcgatc     660
caaccaacac cctccagagt gactaggggc ggaaatttat cgggattaat ttccactcaa     720
ccacaaatca cagtcgtccc cggtattgtc ctgcagaatg caatttaaac tcttctgcga     780
atcgcttgga ttccccgccc ctggccgtag agcttaaagt atgtcccttg tcgatgcgat     840
gtatcacaac atataaatac tagcaaggga tgccatgctt ggaggatagc aaccgacaac     900
atcacatcaa gctctccctt ctctgaacaa taaaccccac agaaggcatt tatgatggtc     960
gcgtggtggt ctctatttct gtacggcctt caggtcgcgg cacctgcttt ggctgcaacg    1020
cctgcggact ggcgatcgca atccatttat ttccttctca cggatcgatt tgcaaggacg    1080
gatgggtcga cgactgcgac ttgtaatact gcggatcagg tgtgttgtta cctactagct    1140
ttcagaaaga ggaatgtaaa ctgacttgat atagaaatac tgtggtggaa catggcaggg    1200
catcatcgac aaggtaaatt gcccctttat caaaaaaaaa agaaggaaaa gcagaagaaa    1260
aataaaataa aaagaactct agtcctaacc atcacatagt tggactatat ccagggaatg    1320
ggcttcacag ccatctggat cacccccgtt acagcccagc tgccccagac caccgcatat    1380
ggagatgcct accatggcta ctggcagcag gatatgtaag tcgatttctt taaatatcta    1440
cctgtcatct tttacatcaa tatgaactaa cttgatggtt ttagatactc tctgaacgaa    1500
aactacggca ctgcagatga cttgaaggcg ctctcttcgg cccttcatga gagggggatg    1560
tatcttatgg tcgatgtggt tgctaaccat atggttcgtg gtcctttgca actgacttcg    1620
cggatatggt tcatttcagt actgacaatg agtaatatca gggctatgat ggagcgggta    1680
gctcagtcga ttacagtgtg tttaaaccgt tcagttccca agactacttc cacccgttct    1740
gtttcattca aaactatgaa gatcagactc aggttgagga ttgctggcta ggagataaca    1800
ctgtctcctt gcctgatctc gataccacca aggatgtggt caagaatgaa tggtacgact    1860
gggtgggatc attggtatcg aactactcca gtaagatatt tctccctcat tctacaactt    1920
ggctgatcga tgatacttac gaaatcagtt gacggcctcc gtatcgacac agtaaaacac    1980
gtccagaagg acttctggcc cgggtacaac aaagccgcag gcgtgtactg tatcggcgag    2040
gtgctcgacg gtgatccggc ctacacttgt ccctaccaga acgtcatgga cggcgtactg    2100
aactatccca tgtatggttc ctccaaccat gagccttctt gcaagtctca tctcctaacg    2160
aaacggctaa aaccagttac tatccactcc tcaacgcctt caagtcaacc tccggcagca    2220
tggacgacct ctacaacatg atcaacaccg tcaaatccga ctgtccagac tcaacactcc    2280
tgggcacatt cgtcgagaac cacgacaacc cacggttcgc ttcgtaagtc ttccctttta    2340
ttttccgttc ccaatttcca cacagaaccc cacctaacaa gagcaaagtt acaccaacga    2400
catagccctc gccaagaacg tcgcagcatt catcatcctc aacgacggaa tccccatcat    2460
ctacgccggc caagaacagc actacgccgg cggaaacgac cccgcgaacc gcgaagcaac    2520
ctggctctcg ggctacccga ccgacagcga gctgtacaag ttaattgcct ccgcgaacgc    2580
aatccggaac tatgccatta gcaaagatac aggattcgtg acctacaagg taagcacaac    2640
ctctaagcat accctaatgg cctatcttca gagtatctga cacaagagac taatcactgg    2700
caatacagaa ctggcccatc tacaaagacg acacaacgat cgccatgcgc aagggcacag    2760
atgggtcgca gatcgtgact atcttgtcca acaagggtgc ttcgggtgat tcgtataccc    2820
tctccttgag tggtgcgggt tacacagccg gccagcaatt gacggaggtc attggctgca    2880
cgaccgtgac ggttggttcg gatggaaatg tgcctgttcc tatggcaggt gggctaccta    2940
gggtattgta tccgactgag aagttggcag gtagcaagat ctgtagtagc tcgtgaaggg    3000
tggagagtat atgatggtac tgctattcaa tctggcattg gacagtgagt ttgagtttga    3060
tgtacataac caaggttgtg tctgtataat atatacatgt aagatacatg agcttcggtg    3120
atataataca gaagtaccat acagtaccgc gttatgaaaa cacattaatc cggatccttt    3180
cctataatag actagcgtgc ttggcattag ggttcgaaaa acaatcgaag agtataaggg    3240
gatgacagca gtaacgactc caactgtagc ccacatcttg agttcggcaa ctactgttgg    3300
cacgtgaccc tgtgccttgt ggtagctcct taactttgtc atcattcgaa gaattttcgt    3360
cccttcccag gtaccatcca aaagacaagc atccgtcgct tcactctgag atcagatgag    3420
agtaatattg ttgactgcgt ttgtgatgcg ggtgatgtcc tctgcgatcg gccgcaagct    3480
gtttagtttg ccccggatct tctgtgccga cggttgctcc ccgaattttc ttagctagtg    3540
taatcacgct attcagaaag gcttccaaga attaggccgg tagttcggcg cgtttggtgt    3600
cgtcaagctc cagcagtgct ggggcctcgg ctatgatatg gttagaatgc tcggggtggg    3660
tcacggcagg acacccgaca ctgcaacgtc taccacattt gagcgttatt ggcagacttg    3720
cggcgagata acgaccgcta gcttgtatca accaaatcca actgaaatta ttgctttgcc    3780
atcccaacag tggatttcgg aggagggagg ggggaagata tacgatgaac ggaagactgg    3840
acaagatacg ttacataaag cagtactact tgtttcaaac tgtgtacaca ccagggctct    3900
cgcttcagcg gagagtgtcg aaagattcag taaaacatcg ccaggggtga tggaaagggg    3960
ttaag                                                                3965
<210>2
<211>1497
<212>DNA
<213>Aspergillus niger
<220>
<221>CDS
<222>(1)...(1497)
<400>2
atg gtc gcg tgg tgg tct cta ttt ctg tac ggc ctt cag gtc gcg gca     48
Met Val Ala Trp Trp Ser Leu Phe Leu Tyr Gly Leu Gln Val Ala Ala
1               5                   10                  15
cct gct ttg gct gca acg cct gcg gac tgg cga tcg caa tcc att tat     96
Pro Ala Leu Ala Ala Thr Pro Ala Asp Trp Arg Ser Gln Ser Ile Tyr
            20                  25                  30
ttc ctt ctc acg gat cga ttt gca agg acg gat ggg tcg acg act gcg    144
Phe Leu Leu Thr Asp Arg Phe Ala Arg Thr Asp Gly Ser Thr Thr Ala
        35                  40                  45
act tgt aat act gcg gat cag aaa tac tgt ggt gga aca tgg cag ggc    192
Thr Cys Asn Thr Ala Asp Gln Lys Tyr Cys Gly Gly Thr Trp Gln Gly
    50                  55                  60
atc atc gac aag ttg gac tat atc cag gga atg ggc ttc aca gcc atc    240
Ile Ile Asp Lys Leu Asp Tyr Ile Gln Gly Met Gly Phe Thr Ala Ile
65                  70                  75                  80
tgg atc acc ccc gtt aca gcc cag ctg ccc cag acc acc gca tat gga    288
Trp Ile Thr Pro Val Thr Ala Gln Leu Pro Gln Thr Thr Ala Tyr Gly
                85                  90                  95
gat gcc tac cat ggc tac tgg cag cag gat ata tac tct ctg aac gaa    336
Asp Ala Tyr His Gly Tyr Trp Gln Gln Asp Ile Tyr Ser Leu Asn Glu
            100                 105                 110
aac tac ggc act gca gat gac ttg aag gcg ctc tct tcg gcc ctt cat    384
Asn Tyr Gly Thr Ala Asp Asp Leu Lys Ala Leu Ser Ser Ala Leu His
        115                 120                 125
gag agg ggg atg tat ctt atg gtc gat gtg gtt gct aac cat atg ggc    432
Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly
    130                 135                 140
tat gat gga gcg ggt agc tca gtc gat tac agt gtg ttt aaa ccg ttc    480
Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe
145                 150                 155                 160
agt tcc caa gac tac ttc cac ccg ttc tgt ttc att caa aac tat gaa    528
Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Phe Ile Gln Asn Tyr Glu
                165                 170                 175
gat cag act cag gtt gag gat tgc tgg cta gga gat aac act gtc tcc    576
Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser
            180                 185                 190
ttg cct gat ctc gat acc acc aag gat gtg gtc aag aat gaa tgg tac    624
Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr
        195                 200                 205
gac tgg gtg gga tca ttg gta tcg aac tac tcc att gac ggc ctc cgt    672
Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg
    210                 215                 220
atc gac aca gta aaa cac gtc cag aag gac ttc tgg ccc ggg tac aac    720
Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn
225                 230                 235                 240
aaa gcc gca ggc gtg tac tgt atc ggc gag gtg ctc gac ggt gat ccg    768
Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro
                245                 250                 255
gcc tac act tgt ccc tac cag aac gtc atg gac ggc gta ctg aac tat    816
Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr
            260                 265                 270
ccc att tac tat cca ctc ctc aac gcc ttc aag tca acc tcc ggc agc    864
Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser
        275                 280                 285
atg gac gac ctc tac aac atg atc aac acc gtc aaa tcc gac tgt cca     912
Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro
    290                 295                 300
gac tca aca ctc ctg ggc aca ttc gtc gag aac cac gac aac cca cgg     960
Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg
305                 310                 315                 320
ttc gct tct tac acc aac gac ata gcc ctc gcc aag aac gtc gca gca    1008
Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala
                325                 330                 335
ttc atc atc ctc aac gac gga atc ccc atc atc tac gcc ggc caa gaa    1056
Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu
            340                 345                 350
cag cac tac gcc ggc gga aac gac ccc gcg aac cgc gaa gca acc tgg    1104
Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp
        355                 360                 365
ctc tcg ggc tac ccg acc gac agc gag ctg tac aag tta att gcc tcc    1152
Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser
    370                 375                 380
gcg aac gca atc cgg aac tat gcc att agc aaa gat aca gga ttc gtg    1200
Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val
385                 390                 395                 400
acc tac aag aac tgg ccc atc tac aaa gac gac aca acg atc gcc atg    1248
Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met
                405                 410                 415
cgc aag ggc aca gat ggg tcg cag atc gtg act atc ttg tcc aac aag    1296
Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys
            420                 425                 430
ggt gct tcg ggt gat tcg tat acc ctc tcc ttg agt ggt gcg ggt tac    1344
Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr
        435                 440                 445
aca gcc ggc cag caa ttg acg gag gtc att ggc tgc acg acc gtg acg    1392
Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr
    450                 455                 460
gtt ggt tcg gat gga aat gtg cct gtt cct atg gca ggt ggg cta cct    1440
Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro
465                 470                 475                 480
agg gta ttg tat ccg act gag aag ttg gca ggt agc aag atc tgt agt    1488
Arg Val Leu Tyr Pro Thr Glu Lys Leu Ala Gly Ser Lys Ile Cys Ser
                485                 490                 495
agc tcg tga                                                        1497
Ser Ser
<210>3
<211>498
<212>PRT
<213>Aspergillus niger
<400>3
Met Val Ala Trp Trp Ser Leu Phe Leu Tyr Gly Leu Gln Val Ala Ala
1               5                   10                  15
Pro Ala Leu Ala Ala Thr Pro Ala Asp Trp Arg Ser Gln Ser Ile Tyr
            20                  25                  30
Phe Leu Leu Thr Asp Arg Phe Ala Arg Thr Asp Gly Ser Thr Thr Ala
        35                  40                  45
Thr Cys Asn Thr Ala Asp Gln Lys Tyr Cys Gly Gly Thr Trp Gln Gly
    50                  55                  60
Ile Ile Asp Lys Leu Asp Tyr Ile Gln Gly Met Gly Phe Thr Ala Ile
65                  70                  75                  80
Trp Ile Thr Pro Val Thr Ala Gln Leu Pro Gln Thr Thr Ala Tyr Gly
                85                  90                  95
Asp AIa Tyr His Gly Tyr Trp Gln Gln Asp Ile Tyr Ser Leu Asn Glu
            100                 105                 110
Asn Tyr Gly Thr Ala Asp Asp Leu Lys Ala Leu Ser Ser Ala Leu His
        115                 120                 125
Glu Arg Gly Met Tyr Leu Met Val Asp Val Val Ala Asn His Met Gly
    130                 135                 140
Tyr Asp Gly Ala Gly Ser Ser Val Asp Tyr Ser Val Phe Lys Pro Phe
145                 150                 155                 160
Ser Ser Gln Asp Tyr Phe His Pro Phe Cys Phe Ile Gln Asn Tyr Glu
                165                 170                 175
Asp Gln Thr Gln Val Glu Asp Cys Trp Leu Gly Asp Asn Thr Val Ser
            180                 185                 190
Leu Pro Asp Leu Asp Thr Thr Lys Asp Val Val Lys Asn Glu Trp Tyr
        195                 200                 205
Asp Trp Val Gly Ser Leu Val Ser Asn Tyr Ser Ile Asp Gly Leu Arg
    210                 215                 220
Ile Asp Thr Val Lys His Val Gln Lys Asp Phe Trp Pro Gly Tyr Asn
225                 230                 235                 240
Lys Ala Ala Gly Val Tyr Cys Ile Gly Glu Val Leu Asp Gly Asp Pro
                245                 250                 255
Ala Tyr Thr Cys Pro Tyr Gln Asn Val Met Asp Gly Val Leu Asn Tyr
            260                 265                 270
Pro Ile Tyr Tyr Pro Leu Leu Asn Ala Phe Lys Ser Thr Ser Gly Ser
        275                 280                 285
Met Asp Asp Leu Tyr Asn Met Ile Asn Thr Val Lys Ser Asp Cys Pro
    290                 295                 300
Asp Ser Thr Leu Leu Gly Thr Phe Val Glu Asn His Asp Asn Pro Arg
305                 310                 315                 320
Phe Ala Ser Tyr Thr Asn Asp Ile Ala Leu Ala Lys Asn Val Ala Ala
                325                 330                 335
Phe Ile Ile Leu Asn Asp Gly Ile Pro Ile Ile Tyr Ala Gly Gln Glu
            340                 345                 350
Gln His Tyr Ala Gly Gly Asn Asp Pro Ala Asn Arg Glu Ala Thr Trp
        355                 360                 365
Leu Ser Gly Tyr Pro Thr Asp Ser Glu Leu Tyr Lys Leu Ile Ala Ser
    370                 375                 380
Ala Asn Ala Ile Arg Asn Tyr Ala Ile Ser Lys Asp Thr Gly Phe Val
385                 390                 395                 400
Thr Tyr Lys Asn Trp Pro Ile Tyr Lys Asp Asp Thr Thr Ile Ala Met
                405                 410                 415
Arg Lys Gly Thr Asp Gly Ser Gln Ile Val Thr Ile Leu Ser Asn Lys
            420                 425                 430
Gly Ala Ser Gly Asp Ser Tyr Thr Leu Ser Leu Ser Gly Ala Gly Tyr
        435                 440                 445
Thr Ala Gly Gln Gln Leu Thr Glu Val Ile Gly Cys Thr Thr Val Thr
    450                 455                 460
Val Gly Ser Asp Gly Asn Val Pro Val Pro Met Ala Gly Gly Leu Pro
465                 470                 475                 480
Arg Val Leu Tyr Pro Thr Glu Lys Leu Ala Gly Ser Lys Ile Cys Ser
                485                 490                 495
Ser Ser
<210>4
<211>3494
<212>DNA
<213>人工
<220>
<223>核苷酸序列,其含有具有经修饰的翻译起始序列的
Aspergillus niger α-淀粉酶启动子和具有经修
饰的翻译终止序列的α-淀粉酶核苷酸编码序列
<220>
<221>Promoter
<222>(1)?1988)
<223>Aspergillus niger的α-淀粉酶启动子
<220>
<221>misc_feature
<222>(1979)?1988)
<223>翻译起始序列
<220>
<221>Gene
<222>(1989)?3482)
<223>Aspergillus niger的α-淀粉酶的核苷酸编码序列
<220>
<221>misc_feature
<222>(3483)?3486)
<223>翻译终止序列
<400>4
ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60
tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120
cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180
ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240
tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300
cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360
atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt   420
gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480
cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540
ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600
tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660
ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720
gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780
agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840
tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900
aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960
aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020
ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080
tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa   1140
aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt   1200
agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg   1260
taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa   1320
aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg   1380
gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca   1440
actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga   1500
ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc   1560
ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag   1620
aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct   1680
gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg   1740
gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa   1800
tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg   1860
tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga   1920
ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca   1980
ccgtcaaaat ggtcgcgtgg tggtctctat ttctgtacgg ccttcaggtc gcggcacctg   2040
ctttggctgc aacgcctgcg gactggcgat cgcaatccat ttatttcctt ctcacggatc   2100
gatttgcaag gacggatggg tcgacgactg cgacttgtaa tactgcggat cagaaatact   2160
gtggtggaac atggcagggc atcatcgaca agttggacta tatccaggga atgggcttca   2220
cagccatctg gatcaccccc gttacagccc agctgcccca gaccaccgca tatggagatg   2280
cctaccatgg ctactggcag caggatatat actctctgaa cgaaaactac ggcactgcag   2340
atgacttgaa ggcgctctct tcggcccttc atgagagggg gatgtatctt atggtcgatg   2400
tggttgctaa ccatatgggc tatgatggag cgggtagctc agtcgattac agtgtgttta   2460
aaccgttcag ttcccaagac tacttccacc cgttctgttt cattcaaaac tatgaagatc   2520
agactcaggt tgaggattgc tggctaggag ataacactgt ctccttgcct gatctcgata   2580
ccaccaagga tgtggtcaag aatgaatggt acgactgggt gggatcattg gtatcgaact   2640
actccattga cggcctccgt atcgacacag taaaacacgt ccagaaggac ttctggcccg   2700
ggtacaacaa agccgcaggc gtgtactgta tcggcgaggt gctcgacggt gatccggcct   2760
acacttgtcc ctaccagaac gtcatggacg gcgtactgaa ctatcccatt tactatccac   2820
tcctcaacgc cttcaagtca acctccggca gcatggacga cctctacaac atgatcaaca   2880
ccgtcaaatc cgactgtcca gactcaacac tcctgggcac attcgtcgag aaccacgaca   2940
acccacggtt cgcttcttac accaacgaca tagccctcgc caagaacgtc gcagcattca   3000
tcatcctcaa cgacggaatc cccatcatct acgccggcca agaacagcac tacgccggcg   3060
gaaacgaccc cgcgaaccgc gaagcaacct ggctctcggg ctacccgacc gacagcgagc   3120
tgtacaagtt aattgcctcc gcgaacgcaa tccggaacta tgccattagc aaagatacag   3180
gattcgtgac ctacaagaac tggcccatct acaaagacga cacaacgatc gccatgcgca   3240
agggcacaga tgggtcgcag atcgtgacta tcttgtccaa caagggtgct tcgggtgatt   3300
cgtataccct ctccttgagt ggtgcgggtt acacagccgg ccagcaattg acggaggtca   3360
ttggctgcac gaccgtgacg gttggttcgg atggaaatgt gcctgttcct atggcaggtg   3420
ggctacctag ggtattgtat ccgactgaga agttggcagg tagcaagatc tgtagtagct   3480
cgtaaattaa ttaa                                                     3494
<210>5
<211>1498
<212>DNA
<213>人工
<220>
<223>具有最优化的编码频率的编码Aspergillus niger
α-淀粉酶的核苷酸编码系列
<220>
<221>Gene
<222>(1)?1494)
<223>具有最优化的编码频率的编码Aspergillus niger
α-淀粉酶的核苷酸编码系列
<220>
<221>misc_feature
<222>(1495)?1498)
<223>翻译终止序列
<400>5
atggtcgcct ggtggtccct gttcctctac ggacttcagg tggctgcccc cgctctcgcc     60
gcgacccccg ccgattggcg tagccagtcg atttacttct tgcttactga ccgcttcgct    120
cgcaccgacg gttccaccac cgccacctgc aacactgcgg accagaagta ctgcggcggc    180
acttggcagg gtatcatcga caagctggat tacatccagg gtatgggatt caccgctatc    240
tggattactc ctgttaccgc tcagctcccc cagaccaccg cctacggcga tgcctaccac    300
ggttactggc agcaggacat ctactctctg aacgaaaact acggtaccgc tgacgatctc    360
aaggccttgt cttccgccct ccacgagcgt ggcatgtacc tgatggtcga cgtcgtggct    420
aaccacatgg gttacgacgg tgcgggcagc tctgtcgatt actcggtttt caagcctttc    480
tcctcccagg attacttcca ccccttctgc ttcatccaga actacgagga ccagacccag    540
gtcgaggact gctggctggg agacaacact gtttcgcttc ccgatctcga cactaccaag    600
gacgtcgtta agaacgagtg gtacgattgg gtgggtagct tggtctccaa ctacagcatt    660
gacggcctcc gcatcgacac cgtcaagcac gtccagaagg atttctggcc tggatacaac    720
aaggccgccg gtgtgtactg catcggcgaa gttctggacg gtgaccctgc ttacacctgc    780
ccctaccaga acgtcatgga tggtgtcctg aactacccca tctactaccc ccttctcaac    840
gctttcaagt ctacctccgg ctccatggac gacctctaca acatgattaa cactgttaag    900
agcgattgcc ctgactcgac cctgttgggc accttcgtgg agaaccacga taacccccgt    960
ttcgcctcct acactaacga catcgccctt gcgaagaacg tcgctgcctt catcatcctc   1020
aacgacggta ttcctatcat ctacgctggt caggagcagc actacgccgg cggaaacgat   1080
cccgctaacc gcgaagccac ctggctgtcc ggttacccca ccgactctga gctctacaag   1140
ctgatcgcta gcgccaacgc gattcgtaac tacgccatct ccaaggacac tggcttcgtc   1200
acctacaaga actggcctat ctacaaggat gacaccacta tcgctatgcg taagggtacc   1260
gacggttctc agatcgttac cattttgtcc aacaagggag ccagcggtgattcctacacc    1320
ctctctctgt ccggcgctgg ctacactgcc ggtcagcagc ttaccgaggt catcggatgc   1380
accactgtca ccgtgggttc ggacggcaac gttcccgtcc ccatggctgg tggcctccct   1440
cgcgtcctgt accccaccga gaagctcgcc ggttctaaga tctgctccag ctcctaaa     1498
<210>6
<211>1498
<212>DNA
<213>Artificial
<220>
<223>具有根据本发明最优化的编码序列的
Aspergillus niger α-淀粉酶核苷酸编码序列
<220>
<221>Gene
<222>(1)?1494)
<223>具有根据本发明最优化的编码序列的
Aspergillus niger α-淀粉酶核苷酸编码序列
<220>
<221>misc_feature
<222>(1495)?1498)
<223>翻译终止序列
<400>6
atggttgcct ggtggtccct cttcctgtac ggtctccagg ttgctgctcc tgctcttgct     60
gccactcctg ccgactggcg ctcccagtcc atctacttcc tgctgaccga ccgcttcgct    120
cgtaccgatg gaagcaccac tgccacctgc aacactgcgg accagaagta ctgcggtggt    180
acctggcagg gtatcattga caagctcgac tacatccagg gcatgggttt cactgccatc    240
tggatcaccc ccgtgactgc tcagctcccc cagaccactg cctacggtga tgcctaccac    300
ggatactggc agcaggatat ctactctctg aacgagaact acggcactgc cgatgacctc    360
aaggcccttt cttctgctct gcacgagcgt ggaatgtacc tgatggtgga tgttgttgcc    420
aaccacatgg gctacgacgg tgctggcagc tctgttgact actctgtctt caagcccttc    480
tcttcccagg actacttcca ccccttctgc ttcatccaga actacgaaga ccagacccag    540
gttgaggact gctggttggg tgacaacacc gtctccctcc ccgatcttga caccaccaag    600
gatgttgtca agaacgaatg gtacgactgg gtgggatccc tggtctccaa ctactccatc    660
gatggtctcc gcattgacac cgtcaagcac gtccagaagg acttctggcc tggctacaac    720
aaggctgctg gtgtctactg cattggtgag gtcctcgatg gagatcctgc ctacacctgc    780
ccctaccaga acgtcatgga tggtgttctc aactacccca tctactaccc cttgctcaac    840
gccttcaagt ccacctccgg cagcatggat gacctctaca acatgatcaa caccgtcaag    900
tccgactgcc ccgacagcac tctccttggt accttcgtcg agaaccacga caaccctcgt    960
ttcgccagct acaccaacga cattgctctt gccaagaacg tcgctgcttt catcatcctg   1020
aacgacggta tccccatcat ctacgctggc caggagcagc actacgctgg tggcaacgac   1080
cctgccaacc gtgaggccac ctggctgtct ggctacccca ccgacagcga attgtacaag   1140
ttgattgcct ctgccaacgc catccgcaac tacgccatct ccaaggacac tggtttcgtc   1200
acctacaaga actggcccat ctacaaggat gacaccacca ttgccatgcg caagggtact   1260
gatggcagcc agatcgtcac catcctgtcc aacaagggtg cctccggtga ctcctacacc   1320
ctctccctct ccggtgctgg ctacactgct ggccagcagc tgaccgaggt cattggctgc   1380
accaccgtca ccgttggatc ggatggcaac gtgcctgtgc ccatggccgg tggtcttcct    1440
cgtgtcctct accccactga gaagcttgct ggcagcaaga tctgctcgtc gtcgtaaa      1498
<210>7
<211>3494
<212>DNA
<213>Artificial
<220>
<223>核苷酸序列,其含有具有最优化的密码子频率和
经修饰的翻译起始序列的Aspergillus niger
α-淀粉酶启动子和具有经修饰的翻译终止序列的
α-淀粉酶核苷酸编码序列
<220>
<221>Promoter
<222>(1)?1988)
<223>Aspergillus niger的α-淀粉酶启动子
<220>
<221>misc_feature
<222>(1979)?1988)
<223>翻译终止序列
<220>
<221>Gene
<222>(1989)?3482)
<223>具有最优化的Aspergillus niger
α-淀粉酶编码频率的核苷酸编码序列
<220>
<221>misc_feature
<222>(3483)?3486)
<223>翻译终止序列
<400>7
ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60
tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120
cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180
ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240
tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300
cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360
atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt    420
gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480
cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540
ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600
tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660
ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720
gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780
agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840
tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900
aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960
aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020
ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080
tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa   1140
aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt   1200
agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg   1260
taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa   1320
aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg   1380
gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca   1440
actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga   1500
ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc   1560
ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag   1620
aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct   1680
gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg   1740
gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa   1800
tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg   1860
tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga   1920
ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca   1980
ccgtcaaaat ggtcgcctgg tggtccctgt tcctctacgg acttcaggtg gctgcccccg   2040
ctctcgccgc gacccccgcc gattggcgta gccagtcgat ttacttcttg cttactgacc   2100
gcttcgctcg caccgacggt tccaccaccg ccacctgcaa cactgcggac cagaagtact   2160
gcggcggcac ttggcagggt atcatcgaca agctggatta catccagggt atgggattca   2220
ccgctatctg gattactcct gttaccgctc agctccccca gaccaccgcc tacggcgatg   2280
cctaccacgg ttactggcag caggacatct actctctgaa cgaaaactac ggtaccgctg    2340
acgatctcaa ggccttgtct tccgccctcc acgagcgtgg catgtacctg atggtcgacg    2400
tcgtggctaa ccacatgggt tacgacggtg cgggcagctc tgtcgattac tcggttttca    2460
agcctttctc ctcccaggat tacttccacc ccttctgctt catccagaac tacgaggacc    2520
agacccaggt cgaggactgc tggctgggag acaacactgt ttcgcttccc gatctcgaca    2580
ctaccaagga cgtcgttaag aacgagtggt acgattgggt gggtagcttg gtctccaact    2640
acagcattga cggcctccgc atcgacaccg tcaagcacgt ccagaaggat ttctggcctg    2700
gatacaacaa ggccgccggt gtgtactgca tcggcgaagt tctggacggt gaccctgctt    2760
acacctgccc ctaccagaac gtcatggatg gtgtcctgaa ctaccccatc tactaccccc    2820
ttctcaacgc tttcaagtct acctccggct ccatggacga cctctacaac atgattaaca    2880
ctgttaagag cgattgccct gactcgaccc tgttgggcac cttcgtggag aaccacgata    2940
acccccgttt cgcctcctac actaacgaca tcgcccttgc gaagaacgtc gctgccttca    3000
tcatcctcaa cgacggtatt cctatcatct acgctggtca ggagcagcac tacgccggcg    3060
gaaacgatcc cgctaaccgc gaagccacct ggctgtccgg ttaccccacc gactctgagc    3120
tctacaagct gatcgctagc gccaacgcga ttcgtaacta cgccatctcc aaggacactg    3180
gcttcgtcac ctacaagaac tggcctatct acaaggatga caccactatc gctatgcgta    3240
agggtaccga cggttctcag atcgttacca ttttgtccaa caagggagcc agcggtgatt    3300
cctacaccct ctctctgtcc ggcgctggct acactgccgg tcagcagctt accgaggtca    3360
tcggatgcac cactgtcacc gtgggttcgg acggcaacgt tcccgtcccc atggctggtg    3420
gcctccctcg cgtcctgtac cccaccgaga agctcgccgg ttctaagatc tgctccagct    3480
cctaaattaa ttaa                                                      3494
<210>8
<211>3494
<212>DNA
<213>Artificial
<220>
<223>核苷酸序列,其具有最优化的编码频率和经
修饰的翻译终止序列的α-淀粉酶核苷酸编码序列
<220>
<221>Promoter
<222>(1)?1988)
<223>Aspergillus niger的α-淀粉酶启动子
<220>
<221>misc_feature
<222>(1979)?1988)
<223>翻译起始序列
<220>
<221>Gene
<222>(1989)?3482)
<223>Aspergillus niger的α-淀粉酶的
核苷酸编码序列
<220>
<221>misc_feature
<222>(3483)?3486)
<223>翻译终止序列
<400>8
ctcgagggac aacgcatcgt ttgatacact tcccgccaat atggacgttg tccagaagcc     60
tgttcagcat cgatctgggc gtctcgttct gtaagcattc tcctagttac tgatgacttt    120
cctctcttat ctgtattccg tgaaagagga gggccactgt cctctatata gtttatggat    180
ataaaaagtt tgagcttctt gccaatatga aacagatttc cccacattaa gagctgtttc    240
tctataggtt tccaatcaat attagtgccg tcaaaacgtt tgttcagatc agattgtcca    300
cgttcgttta cagatactct gactgtagta tcatctgatc tcacacgttg gttgtgacgt    360
atttttcgac gcataacatt ttcagcatcc tgtgttatct tcgcccagtg tgaactgggt    420
gctacagcca agtcctgttc agtgtccttt gacacagttc ggttgttcag agttaccttc    480
cactcaatag tataatgaat acaaggcttt cctctatgtt gcctcgtagt cctttcttcg    540
ggctcctgga agaaacccag atgattgggc tgggattgat gcaagggagt ataaggttca    600
tcaagtacat gttcaggtga tgggcaaaat acggatggcg tacgatctct accgaagtca    660
ccaggggtgg gggcatacga tggagtttgt atccacggat caggtggctg aagctgagag    720
gcatcgtcat cgtagtaagg actaaacgtc atcccctcaa ggcagtagat gccactgaga    780
agcctagtgt tgggatcatc atatgttagc ctacaccata tgggtgtccc agcaagagtg    840
tccgtgaggg aagaggtgca gctaacaaaa ccagtaaaat gatcaggttc atggacaatg    900
aactaagaca ggtacagtat tgtagcccta cccgtcttgg ttaacctggt aaggtcaaaa    960
aggatcgaac cgtggctcag tacaaacaaa aggaatgtta acagtttgcg ggagatgcaa   1020
ggcacatgct ttgtcatgtt tgacgcgttt gcagtgtaga agcttccagc taccgtagat   1080
tactgataca aactcaatac actatttcta taaccttact gttcaataca gtacgatcaa    1140
aatttccgga atattaatgt tacggttacc ttccatatgt agactagcgc acttggcatt    1200
agggttcgaa atacgatcaa agagtattgg ggggggtgac agcagtaatg actccaactg    1260
taaatcggct tctaggcgcg ctccatctaa atgttctggc tgtggtgtac aggggcataa    1320
aattacgcac tacccgaatc gatagaacta ctcattttta tatagaagtc agaattcatg    1380
gtgttttgat cattttaaat ttttatatgg cgggtggtgg gcaactcgct tgcgcgggca    1440
actcgcttac cgattacgtt agggctgata tttacgtaaa aatcgtcaag ggatgcaaga    1500
ccaaagtact aaaaccccgg agtcaacagc atccaagccc aagtccttca cggagaaacc    1560
ccagcgtcca catcacgagc gaaggaccac ctctaggcat cggacgcacc atccaattag    1620
aagcagcaaa gcgaaacagc ccaagaaaaa ggtcggcccg tcggcctttt ctgcaacgct    1680
gatcacgggc agcgatccaa ccaacaccct ccagagtgac taggggcgga aatttatcgg    1740
gattaatttc cactcaacca caaatcacag tcgtccccgg tattgtcctg cagaatgcaa    1800
tttaaactct tctgcgaatc gcttggattc cccgcccctg gccgtagagc ttaaagtatg    1860
tcccttgtcg atgcgatgta tcacaacata taaatactag caagggatgc catgcttgga    1920
ggatagcaac cgacaacatc acatcaagct ctcccttctc tgaacaataa accccacaca    1980
ccgtcaaaat ggttgcctgg tggtccctct tcctgtacgg tctccaggtt gctgctcctg    2040
ctcttgctgc cactcctgcc gactggcgct cccagtccat ctacttcctg ctgaccgacc    2100
gcttcgctcg taccgatgga agcaccactg ccacctgcaa cactgcggac cagaagtact    2160
gcggtggtac ctggcagggt atcattgaca agctcgacta catccagggc atgggtttca    2220
ctgccatctg gatcaccccc gtgactgctc agctccccca gaccactgcc tacggtgatg    2280
cctaccacgg atactggcag caggatatct actctctgaa cgagaactac ggcactgccg    2340
atgacctcaa ggccctttct tctgctctgc acgagcgtgg aatgtacctg atggtggatg    2400
ttgttgccaa ccacatgggc tacgacggtg ctggcagctc tgttgactac tctgtcttca    2460
agcccttctc ttcccaggac tacttccacc ccttctgctt catccagaac tacgaagacc    2520
agacccaggt tgaggactgc tggttgggtg acaacaccgt ctccctcccc gatcttgaca    2580
ccaccaagga tgttgtcaag aacgaatggt acgactgggt gggatccctg gtctccaact    2640
actccatcga tggtctccgc attgacaccg tcaagcacgt ccagaaggac ttctggcctg    2700
gctacaacaa ggctgctggt gtctactgca ttggtgaggt cctcgatgga gatcctgcct    2760
acacctgccc ctaccagaac gtcatggatg gtgttctcaa ctaccccatc tactacccct    2820
tgctcaacgc cttcaagtcc acctccggca gcatggatga cctctacaac atgatcaaca    2880
ccgtcaagtc cgactgcccc gacagcactc tccttggtac cttcgtcgag aaccacgaca    2940
accctcgttt cgccagctac accaacgaca ttgctcttgc caagaacgtc gctgctttca    3000
tcatcctgaa cgacggtatc cccatcatct acgctggcca ggagcagcac tacgctggtg    3060
gcaacgaccc tgccaaccgt gaggccacct ggctgtctgg ctaccccacc gacagcgaat    3120
tgtacaagtt gattgcctct gccaacgcca tccgcaacta cgccatctcc aaggacactg    3180
gtttcgtcac ctacaagaac tggcccatct acaaggatga caccaccatt gccatgcgca    3240
agggtactga tggcagccag atcgtcacca tcctgtccaa caagggtgcc tccggtgact    3300
cctacaccct ctccctctcc ggtgctggct acactgctgg ccagcagctg accgaggtca    3360
ttggctgcac caccgtcacc gttggatcgg atggcaacgt gcctgtgccc atggccggtg    3420
gtcttcctcg tgtcctctac cccactgaga agcttgctgg cagcaagatc tgctcgtcgt    3480
cgtaaattaa ttaa                                                      3494
<210>9
<211>441
<212>PRT
<213>Bacillus stearothermophilus
<400>9
Met Pro Tyr Phe Asp Asn Ile Ser Thr Ile Ala Tyr Glu Gly Pro Ala
1               5                   10                  15
Ser Lys Asn Pro Leu Ala Phe Lys Phe Tyr Asn Pro Glu Glu Lys Val
            20                  25                  30
Gly Asp Lys Thr Met Glu Glu His Leu Arg Phe Ser Val Ala Tyr Trp
        35                  40                  45
His Thr Phe Thr Gly Asp Gly Ser Asp Pro Phe Gly Ala Gly Asn Met
    50                  55                  60
Ile Arg Pro Trp Asn Lys Tyr Ser Gly Met Asp Leu Ala Lys Ala Arg
65                  70                  75                  80
Val Glu Ala Ala Phe Glu Phe Phe Glu Lys Leu Asn Ile Pro Phe Phe
                85                  90                  95
Cys Phe His Asp Val Asp Ile Ala Pro Glu Gly Glu Thr Leu Lys Glu
            100                 105                 110
Thr Tyr Lys Asn Leu Asp Ile Ile Val Asp Met Ile Glu Glu Tyr Met
        115                 120                 125
Lys Thr Ser Lys Thr Lys Leu Leu Trp Asn Thr Ala Asn Leu Phe Thr
    130                 135                 140
His Pro Arg Phe Val His Gly Ala Ala Thr Ser Cys Asn Ala Asp Val
145                 150                 155                 160
Phe Ala Tyr Ala Ala Ala Lys Val Lys Lys Gly Leu Glu Ile Ala Lys
                165                 170                 175
Arg Leu Gly Ala Glu Asn Tyr Val Phe Trp Gly Gly Arg Glu Gly Tyr
            180                 185                 190
Glu Thr Leu Leu Asn Thr Asp Met Lys Leu Glu Leu Asp Asn Leu Ala
        195                 200                 205
Arg Phe Leu His Met Ala Val Asp Tyr Ala Lys Glu Ile Gly Phe Asp
    210                 215                 220
Gly Gln Phe Leu Ile Glu Pro Lys Pro Lys Glu Pro Thr Lys His Gln
225                 230                 235                 240
Tyr Asp Phe Asp Val Ala Thr Ala Leu Ala Phe Leu Gln Thr Tyr Gly
                245                 250                 255
Leu Lys Asp Tyr Phe Lys Phe Asn Ile Glu Ala Asn His Ala Thr Leu
            260                 265                 270
Ala Gly His Thr Phe Glu His Glu Leu Arg Val Ala Arg Ile His Gly
        275                 280                 285
Met Leu Gly Ser Val Asp Ala Asn Gln Gly Asp Met Leu Leu Gly Trp
    290                 295                 300
Asp Thr Asp Glu Phe Pro Thr Asp Leu Tyr Ser Thr Thr Leu Ala Met
305                 310                 315                 320
Tyr Glu Ile Leu Lys Asn Gly Gly Leu Gly Arg Gly Gly Leu Asn Phe
                325                 330                 335
Asp Ala Lys Val Arg Arg Gly Ser Phe Glu Pro Glu Asp Leu Phe Tyr
            340                 345                 350
Ala His Ile Ala Gly Met Asp Ser Phe Ala Val Gly Leu Lys Val Ala
        355                 360                 365
His Arg Leu Ile Glu Asp Arg Val Phe Asp Glu Phe Ile Glu Glu Arg
    370                 375                 380
Tyr Lys Ser Tyr Thr Glu Gly Ile Gly Arg Glu Ile Val Glu Gly Thr
385                 390                 395                 400
Val Asp Phe His Lys Leu Glu Ala His Ala Leu Gln Leu Gly Glu Ile
                405                 410                 415
Gln Asn Gln Ser Gly Arg Gln Glu Arg Leu Lys Thr Leu Leu Asn Gln
            420                 425                 430
Tyr Leu Leu Glu Val Cys Ala Ala Arg
        435                 440
<210>10
<211>388
<212>PRT
<213>Streptomyces olivochromogenes
<400>10
Met Ser Tyr Gln Pro Thr Pro Glu Asp Arg Phe Thr Phe Gly Leu Trp
1               5                   10                  15
Thr Val Gly Trp Gln Gly Arg Asp Pro Phe Gly Asp Ala Thr Arg Pro
            20                  25                  30
Ala Leu Asp Pro Val Glu Thr Val Gln Arg Leu Ala Glu Leu Gly Ala
        35                  40                  45
His Gly Val Thr Phe His Asp Asp Asp Leu Ile Pro Phe Gly Ser Ser
    50                  55                  60
Asp Thr Glu Arg Glu Ser His Ile Lys Arg Phe Arg Gln Ala Leu Asp
65                  70                  75                  80
Ala Thr Gly Met Thr Val Pro Met Ala Thr Thr Asn Leu Phe Thr His
                85                  90                  95
Pro Val Phe Lys Asp Gly Gly Phe Thr Ala Asn Asp Arg Asp Val Arg
            100                 105                 110
Arg Tyr Ala Leu Arg Lys Thr Ile Arg Asn Ile Asp Leu Ala Val Glu
        115                 120                 125
Leu Gly Ala Lys Thr Tyr Val Ala Trp Gly Gly Arg Glu Gly Ala Glu
    130                 135                 140
Ser Gly Ala Ala Lys Asp Val Arg Val Ala Leu Asp Arg Met Lys Glu
145                 150                 155                 160
Ala Phe Asp Leu Leu Gly Glu Tyr Val Thr Ser Gln Gly Tyr Asp Thr
                165                 170                 175
Arg Phe Ala Ile Glu Pro Lys Pro Asn Glu Pro Arg Gly Asp Ile Leu
            180                 185                 190
Leu Pro Thr Val Gly His Ala Leu Ala Phe Ile Glu Arg Leu Glu Arg
        195                 200                 205
Pro Glu Leu Tyr Gly Val Asn Pro Glu Val Gly His Glu Gln Met Ala
    210                 215                 220
Gly Leu Asn Phe Pro His Gly Ile Ala Gln Ala Leu Trp Ala Gly Lys
225                 230                 235                 240
Leu Phe His Ile Asp Leu Asn Gly Gln Ser Gly Ile Lys Tyr Asp Gln
                245                 250                 255
Asp Leu Arg Phe Gly Ala Gly Asp Leu Arg Ala Ala Phe Trp Leu Val
            260                 265                 270
Asp Leu Leu Glu Ser Ala Gly Tyr Glu Gly Pro Arg His Phe Asp Phe
        275                 280                 285
Lys Pro Pro Arg Thr Glu Asp Ile Asp Gly Val Trp Ala Ser Ala Ala
    290                 295                 300
Gly Cys Met Arg Asn Tyr Leu Ile Leu Lys Glu Arg Ala Ala Ala Phe
305                 310                 315                 320
Arg Ala Asp Pro Glu Val Gln Glu Ala Leu Arg Ala Ser Arg Leu Asp
                325                 330                 335
Glu Leu Ala Gln Pro Thr Ala Ala Asp Gly Val Gln Glu Leu Leu Ala
            340                 345                 350
Asp Arg Thr Ala Phe Glu Asp Phe Asp Val Asp Ala Ala Ala Ala Arg
        355                 360                 365
Gly Met Ala Phe Glu Arg Leu Asp Gln Leu Ala Met Asp His Leu Leu
    370                 375                 380
Gly Ala Arg Gly
385
<210>11
<211>1398
<212>DNA
<213>Thermoanaerobacter mathranii
<400>11
atgcaaacca agaaaaagcc gcaaatagga tttttaggca ttatgcaaga gttgtacgat     60
gatatgttac caggcattac tgaaagacaa gaaaaatatg caagagaagt tatagaacaa    120
cttcaagatg ttgccgattt tcattttcct aaagcagcaa agaatagaca ggacattgaa    180
catattgtga aagaatttaa tgaaaaagac cttgatggta ttatgatagt aatgcttacg    240
tatggacctg ctacaaatat tgttaatgca ctaaggaata ataaactacc tattatgctt    300
gcgaacattc aacctgttcc gacagtaaca gaggattggg atatgggaga tttgacatac    360
aatcaaggtg ttcacggtgc ccaagataca gcaaatgcca ttttaaggat gggaattaag    420
tgtcctatta ttacagaaga atggcattca gaagaattta aaaaatttgt tggagattgg    480
gctaaagctg tgcagacaat taaagcattg cgaaacatga aaatagcgca gtttggaaga    540
atgcatggaa tgtatgatat tttgggagat gatgcagcct ttacaagaaa aataggtccg    600
caaattaatc aagaatacat tggcgaagtt tatagatata tggaaactgc gacagaagag    660
gagattaatg cggttattga agagaataga aagaattttt atatcgatcc aaatcttagc    720
gaagaaagcc atagatatgc tgcaagatta caaattggat ttaaaaaatt tcttattaat    780
aaaggatatg acggatttac tgcgcatttc gatgtgttta aaggagatgg aagattcaag    840
caaattccaa tgatggctgc gtcaaattta atggctgaag gatatggata tgcagcagag    900
ggtgatgctg taactgcaag tttggttgcg gcaggtcatg tattgatagg agatgcacat    960
tttactgaga tgtacgctat ggattttaag agaaattcaa ttttaatgag ccatatgggc   1020
gaaggtaact ggaaaatagc aagaaaggat agaccgatta aacttattga tagagaactg   1080
ggcattggaa aacttgataa tccgccgaca attgtgttta tggcacaacc tgggccagca   1140
actcttgttt ctttagtatc cttagaagga gaaagatata ggttagttgt gtcaaaagga   1200
gaaattctgg atacagaaga agcaaagtat attgaaatgc catatttcca ctttagacct   1260
tcaacaggtg tgaaggcatg tcttgatgga tggcttacaa atggaggaac acatcatgaa   1320
tgtttaaatc taggtgataa cacacggaga tggaaaatat tatgtaacct cttggacatt   1380
gaatatgtag aagtatag                                                 1398
<210>12
<211>465
<212>PRT
<213>Thermoanaerobacter mathranii
<400>12
Met Gln Thr Lys Lys Lys Pro Gln Ile Gly Phe Leu Gly Ile Met Gln
1               5                   10                  15
Glu Leu Tyr Asp Asp Met Leu Pro Gly Ile Thr Glu Arg Gln Glu Lys
            20                  25                  30
Tyr Ala Arg Glu Val Ile Glu Gln Leu Gln Asp Val Ala Asp Phe His
        35                  40                  45
Phe Pro Lys Ala Ala Lys Asn Arg Gln Asp Ile Glu His Ile Val Lys
    50                  55                  60
Glu Phe Asn Glu Lys Asp Leu Asp Gly Ile Met Ile Val Met Leu Thr
65                  70                  75                  80
Tyr Gly Pro Ala Thr Asn Ile Val Asn Ala Leu Arg Asn Asn Lys Leu
                85                  90                  95
Pro Ile Met Leu Ala Asn Ile Gln Pro Val Pro Thr Val Thr Glu Asp
            100                 105                 110
Trp Asp Met Gly Asp Leu Thr Tyr Asn Gln Gly Val His Gly Ala Gln
        115                 120                 125
Asp Thr Ala Asn Ala Ile Leu Arg Met Gly Ile Lys Cys Pro Ile Ile
    130                 135                 140
Thr Glu Glu Trp His Ser Glu Glu Phe Lys Lys Phe Val Gly Asp Trp
145                 150                 155                 160
Ala Lys Ala Val Gln Thr Ile Lys Ala Leu Arg Asn Met Lys Ile Ala
                165                 170                 175
Gln Phe Giy Arg Met His Gly Met Tyr Asp Ile Leu Gly Asp Asp Ala
            180                 185                 190
Ala Phe Thr Arg Lys Ile Gly Pro Gln Ile Asn Gln Glu Tyr Ile Gly
        195                 200                 205
Glu Val Tyr Arg Tyr Met Glu Thr Ala Thr Glu Glu Glu Ile Asn Ala
    210                 215                 220
Val Ile Glu Glu Asn Arg Lys Asn Phe Tyr Ile Asp Pro Asn Leu Ser
225                 230                 235                 240
Glu Glu Ser His Arg Tyr Ala Ala Arg Leu Gln Ile Gly Phe Lys Lys
                245                 250                 255
Phe Leu Ile Asn Lys Gly Tyr Asp Gly Phe Thr Ala His Phe Asp Val
            260                 265                 270
Phe Lys Gly Asp Gly Arg Phe Lys Gin Ile Pro Met Met Ala Ala Ser
        275                 280                 285
Asn Leu Met Ala Glu Gly Tyr Gly Tyr Ala Ala Glu Gly Asp Ala Val
    290                 295                 300
Thr Ala Ser Leu Val Ala Ala Gly His Val Leu Ile Gly Asp Ala His
305                 310                 315                 320
Phe Thr Glu Met Tyr Ala Met Asp Phe Lys Arg Asn Ser Ile Leu Met
                325                 330                 335
Ser His Met Gly Glu Gly Asn Trp Lys Ile Ala Arg Lys Asp Arg Pro
            340                 345                 350
Ile Lys Leu Ile Asp Arg Glu Leu Gly Ile Gly Lys Leu Asp Asn Pro
        355                 360                 365
Pro Thr Ile Val Phe Met Ala Gln Pro Gly Pro Ala Thr Leu Val Ser
    370                 375                 380
Leu Val Set Leu Glu Gly Glu Arg Tyr Arg Leu Val Val Set Lys Gly
385                 390                 395                 400
Glu Ile Leu Asp Thr Glu Glu Ala Lys Tyr Ile Glu Met Pro Tyr Phe
                405                 410                 415
His Phe Arg Pro Ser Thr Gly Val Lys Ala Cys Leu Asp Gly Trp Leu
            420                 425                 430
Thr Asn Gly Gly Thr His His Glu Cys Leu Asn Leu Gly Asp Asn Thr
        435                 440                 445
Arg Arg Trp Lys Ile Leu Cys Asn Leu Leu Asp Ile Glu Tyr Val Glu
    450                 455                 460
Val
465
<210>13
<211>1329
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>13
atgccatact tcgacaacat cagcacgatc gcttatgaag gcccggcttc taaaaacccg     60
cttgcattca aattctacaa ccctgaagaa aaagtgggag acaaaacaat ggaagaacac    120
cttcgtttct ctgttgctta ctggcacacg ttcactggtg acggttctga tccattcggt    180
gctggaaaca tgatccgtcc ttggaacaaa tacagcggca tggatttggc aaaagcacgc    240
gttgaagctg cttttgaatt ctttgaaaaa ctgaacatcc cattcttctg cttccacgat    300
gtggatatcg ctcctgaagg agaaacgctg aaagaaactt acaaaaacct tgatatcatc    360
gttgatatga tcgaagaata catgaaaaca agcaaaacaa aacttttgtg gaacactgca    420
aacctgttca ctcacccacg tttcgttcac ggtgctgcaa cttcttgtaa cgctgatgtg    480
tttgcttacg cagctgcaaa agtaaaaaaa ggtcttgaaa tcgcaaaacg tcttggtgct    540
gaaaactacg tattctgggg cggacgtgaa ggctatgaaa cattgctgaa cactgatatg    600
aaacttgaac ttgataacct tgctcgtttc cttcacatgg ctgttgatta cgcaaaagaa    660
atcggcttcg acggacaatt cctgatcgaa ccaaaaccaa aagaaccgac aaaacaccaa    720
tacgatttcg acgttgcaac tgctcttgca ttccttcaaa cgtacggatt gaaagactac    780
ttcaaattca acatcgaagc aaaccacgca actcttgctg gacacacgtt tgaacatgag    840
cttcgtgtgg ctcgtattca cggcatgctt ggttctgttg atgcaaacca aggtgacatg    900
ctgcttggct gggacactga tgaattccca actgatcttt attcaactac tcttgcaatg    960
tacgaaattt taaaaaacgg cggacttgga cgcggcggat taaacttcga tgcaaaagtg   1020
cgccgcggaa gctttgaacc tgaagatttg ttctacgctc acatcgctgg tatggacagc   1080
ttcgctgtag gtttgaaagt ggctcaccgc ctgatcgaag accgtgtatt cgatgaattc   1140
atcgaagaac gttacaaatc atacactgaa ggcatcggcc gtgaaatcgt tgaaggcact   1200
gttgatttcc acaaacttga agctcacgct cttcaattag gtgaaatcca aaaccaaagc   1260
ggacgtcaag aacgcctgaa aacgctttta aaccaatacc ttcttgaagt atgtgctgcg   1320
cgctaataa                                                           1329
<210>14
<211>1170
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>14
atgagctacc aaccaactcc agaagaccgt ttcacattcg gtttgtggac ggtaggctgg     60
caaggccgtg atccattcgg agatgcaact cgtcctgctc ttgatcctgt tgaaactgtt    120
caacgtcttg ctgaacttgg tgctcacggc gtaacgttcc acgatgatga tctgatccca    180
ttcggaagct ctgacactga acgtgaaagc cacatcaaac gtttccgtca agctcttgat    240
gcaactggta tgactgttcc aatggcaaca acaaacctgt tcactcaccc tgtattcaaa    300
gacggcggat tcactgcaaa cgaccgtgac gttcgtcgtt acgctcttcg caaaacgatc    360
cgcaacatcg atcttgctgt tgaacttggt gcaaaaacgt acgtggcttg gggcggacgt    420
gaaggcgctg aaagcggagc tgcaaaagat gtgcgtgtgg ctcttgaccg catgaaagaa    480
gcattcgatt tgcttggtga atacgtgact tctcaaggct acgatactcg tttcgcaatc    540
gaaccaaaac caaacgaacc acgcggagat attttgctgc caactgtagg acacgctctt    600
gcattcatcg aacgtcttga acgtcctgaa ctttacggtg taaaccctga agtgggacac    660
gaacaaatgg caggcctgaa cttcccacac ggtatcgctc aagctttgtg ggcaggaaaa    720
ctgttccaca ttgatttaaa cggacaaagc ggaatcaaat acgatcaaga tcttcgtttc    780
ggtgctggtg accttcgtgc tgctttctgg cttgttgatt tgcttgaatc tgctggttat    840
gaaggcccgc gtcacttcga cttcaaaccg ccgcgtactg aagatattga cggtgtttgg    900
gcttctgctg caggctgtat gagaaactat ttgattttaa aagaacgtgc tgctgctttc    960
cgtgctgatc ctgaagtgca agaagcactt cgtgcaagcc gtcttgatga actggctcaa   1020
ccaactgctg ctgacggcgt tcaagaactg cttgctgacc gtactgcttt tgaagatttc   1080
gacgttgatg ctgctgctgc acgcggtatg gcttttgaac gtcttgatca gcttgcaatg   1140
gaccaccttc ttggcgctcg tggataataa                                    1170
<210>15
<211>1401
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>15
atgcaaacga aaaaaaaacc gcaaatcggc ttccttggca tcatgcaaga actttacgat     60
gatatgcttc ctggaattac agaacgtcaa gaaaaatacg ctcgtgaagt gatcgaacaa    120
ttgcaagatg tggctgattt ccacttccca aaagcagcaa aaaaccgtca agatattgaa    180
catatcgtaa aagaattcaa cgaaaaagat cttgacggca tcatgatcgt gatgctgact    240
tacggaccgg caacaaacat cgtaaacgct cttcgcaaca acaaacttcc aatcatgctt    300
gcaaacatcc aaccagtgcc gactgttact gaagactggg atatgggaga tttgacttac    360
aaccaaggtg ttcacggcgc tcaagacact gcaaacgcaa tccttcgcat gggtatcaaa    420
tgtccgatca tcactgaaga atggcacagc gaagaattca aaaaattcgt tggtgactgg    480
gcaaaagctg ttcaaacgat caaagcactt cgcaacatga aaatcgctca attcggacgc    540
atgcacggta tgtacgatat ccttggagat gacgctgctt tcactcgtaa aatcggtcct    600
caaatcaacc aagaatacat cggtgaagtg taccgttaca tggaaacggc aactgaagaa    660
gaaatcaacg ctgttatcga agaaaaccgt aaaaacttct acatcgatcc aaacctttct    720
gaagaaagcc accgttacgc tgctcgtctt caaatcggct tcaaaaaatt cctgatcaac    780
aaaggctatg acggcttcac tgctcacttc gatgtattca aaggtgacgg ccgtttcaaa    840
caaatcccaa tgatggctgc ttctaacctg atggctgaag gctacggata cgctgctgaa    900
ggagatgctg taactgcttc tcttgttgct gctggacacg tgctgatcgg agatgctcac    960
ttcactgaaa tgtacgcaat ggatttcaaa cgcaacagca ttttaatgtc tcacatgggt   1020
gaaggaaact ggaaaatcgc tcgtaaagac cgtccaatca aactgattga ccgtgaactt   1080
ggcatcggaa aacttgataa cccgccgaca atcgtattca tggctcaacc aggtcctgct   1140
acgcttgttt ctcttgtttc tcttgaaggt gaacgttacc gtcttgttgt ttctaaaggt   1200
gaaatccttg atacagaaga agcaaaatac atcgaaatgc cttacttcca cttccgtcca   1260
agcactggtg tgaaagcatg ccttgacggc tggctgacga acggcggaac tcaccacgaa   1320
tgcctgaacc ttggagacaa cactcgccgc tggaaaatcc tttgcaacct tcttgatatt   1380
gaatacgttg aagtctaata a                                             1401
<210>16
<211>1329
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>16
atgccgtatt ttgataacat ttcaacaatc gcatacgaag gccctgcttc taaaaatcca    60
ttagcattca aattttataa cccggaagaa aaagttggag ataaaactat ggaagaacat    120
cttcgtttca gcgtggctta ctggcacacg tttacaggtg atggctcaga tcctttcgga    180
gcaggtaata tgattcgccc gtggaacaaa tattctggca tggatttggc taaagcaaga    240
gtagaagctg catttgaatt ctttgaaaaa ctgaatatcc cattcttttg tttccatgat    300
gttgatattg ctcctgaagg agaaacttta aaagaaacgt ataaaaacct tgatattatc    360
gtggatatga ttgaagaata catgaaaaca agcaaaacta aattgctgtg gaatacagca    420
aacttattta cgcatccgcg tttcgtacac ggtgctgcaa catcatgcaa tgctgatgtt    480
tttgcttatg ctgcagctaa agttaaaaaa ggccttgaaa tcgcaaaacg cttaggagct    540
gaaaactacg tgttctgggg tggcagagaa ggatatgaaa ctcttttgaa cacagatatg    600
aaactggaat tagataatct tgcacgtttt ttgcacatgg ctgtagatta tgcaaaagaa    660
attggtttcg atggccaatt tctgattgaa cctaaaccga aagaaccaac taaacatcaa    720
tacgatttcg atgttgctac ggcattagct tttcttcaaa catacggatt aaaagattac    780
ttcaaattta acatcgaagc aaatcatgct actcttgcag gtcacacatt cgaacatgaa    840
ttgcgcgtgg ctagaattca tggcatgctg ggatctgttg atgcaaacca aggtgatatg    900
ttacttggct gggatacgga tgaatttcct acagatttat atagcactac acttgctatg    960
tatgaaatct tgaaaaatgg aggtctgggc cgtggaggtt taaacttcga tgcaaaagta   1020
cgccgtggct catttgaacc ggaagatctt ttctacgctc atattgcagg aatggattct   1080
tttgctgttg gtttgaaagt ggcacacaga ctgattgaag atcgcgtttt cgatgaattt   1140
atcgaagaac gttataaaag ctacacggaa ggcattggaa gagaaatcgt agaaggtact   1200
gtggatttcc ataaattaga agctcatgca cttcaattag gcgaaattca aaatcaatca   1260
ggacgccaag aacgtcttaa aacattgctg aaccaatatt tacttgaagt ttgtgctgca   1320
cgctaataa                                                           1329
<210>17
<211>1170
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>17
atgtcatatc aaccgactcc ggaagataga tttacttttg gcttatggac agttggctgg     60
caaggtagag atccgtttgg agatgctaca cgtccggcac tggacccggt agaaacagta    120
caacgtctgg cagaactggg agcacatggc gttacttttc atgacgatga cttaattcca    180
tttggtagca gcgacactga aagagaatca catattaaaa gatttagaca agcattagac    240
gctacaggta tgacagtgcc tatggctaca acaaatttgt ttacgcatcc tgtttttaaa    300
gatggaggat ttacagctaa cgatagagat gttcgtagat atgcattaag aaaaacgatc    360
cgtaacatcg acttggcagt ggaactgggc gctaaaactt atgtagcatg gggaggcaga    420
gaaggcgctg aatctggugc ugctaaagac gtgagagttg ctttagatag aatgaaagaa    480
gctttcgatc tgctgggaga atacgttact tctcaaggtt atgatacacg cttcgcaatt    540
gaacctaaac ctaatgaacc tcgcggtgat atcttattac ctacggtagg tcatgcatta    600
gctttcattg aacgtttgga aagaccagaa ttgtatggtg ttaatcctga agtgggacat    660
gaacaaatgg caggccttaa ctttcctcat ggaatcgctc aagctctttg ggctggaaaa    720
ctttttcata tcgatcttaa tggccaaagc ggcattaaat atgaccaaga tttgagattt    780
ggcgctggtg acttacgtgc tgcattttgg ttggttgact tgttggaatc tgcaggctac    840
gaaggcccgc gtcactttga ctttaaacct ccgagaacgg aagatattga tggagtgtgg    900
gctagcgctg ctggatgtat gcgcaattat cttattctta aagaacgcgc agcagcattt    960
agagcagatc ctgaagttca agaagcttta cgcgcttcac gtttggatga attggctcaa   1020
cctacagctg cagacggagt gcaagaattg ttggctgatc gcacggcttt cgaagatttc   1080
gatgttgatg cagcagctgc tagaggtatg gctttcgaaa gattggacca attggctatg   1140
gatcatctgc tgggagctcg tggttaataa                                    1170
<210>18
<211>1170
<212>DNA
<213>人工
<220>
<223>具有最优化的密码子频率的核苷酸编码序列
<400>18
atgtcttatc aacctactcc ggaagataga ttcacttttg gtctgtggac agtgggttgg     60
caaggtagag atcccttcgg cgatgcaacg cgcccggcat tagatcccgt agaaacagtg    120
caaagattag cagaattggg cgcacatgga gttacattcc acgacgacga ccttatcccg    180
tttggtagct cagatacaga acgcgaatca catattaaaa gattcagaca agcattggac    240
gcaacgggaa tgacagtacc tatggcaacg actaaccttt ttacgcaccc cgtttttaaa    300
gatggtggat ttacagctaa tgatagagat gttcgtagat atgctcttag gaaaactatt    360
agaaatatcg atctggcagt ggaattggga gctaaaacat acgtagcatg gggtggtcgc    420
gaaggagcag aatctggagc agctaaagat gttagagtag cactggatag aatgaaagaa    480
gctttcgatt tattgggcga atatgttact agtcaaggtt acgacacaag atttgctatc    540
gaacccaaac ctaatgaacc tcgtggcgat attctgttgc caacggtggg tcatgcatta    600
gctttcatag aaagattaga aagacctgaa ttatatggag ttaatcctga agttggtcat    660
gaacaaatgg ctggcttgaa ctttccacat ggaatagctc aagcactgtg ggctggcaaa    720
ctttttcaca tagaccttaa tggccaatca ggaattaaat acgaccaaga cttacgcttt    780
ggagctggcg acttgagagc tgcattttgg ttggtggact tattggaaag cgctggctac    840
gaaggcccta gacattttga ttttaaacca ccgcgtaccg aagatattga tggagtttgg    900
gctagcgcag ctggttgcat gaggaactac ttaatactta aagaaagagc tgcagcattc    960
agagccgacc cggaagtaca agaagccctt agagcatcac gattggacga attagctcaa   1020
ccgaccgcag cagatggagt gcaagaatta ttagctgatc gcacagcatt tgaagatttc   1080
gatgttgacg cagcagcagc tagaggcatg gccttcgaac gtctggatca actggcaatg   1140
gatcatctgt tgggcgcacg gggataataa                                    1170

Claims (10)

1.优化编码预定的氨基酸序列的核苷酸编码序列的方法,其中针对在预定的微生物宿主细胞中的表达对所述编码序列进行优化,所述方法包括:
a)产生至少一条编码所述预定的氨基酸序列的原始编码序列;
b)通过用同义密码子替换该至少一条原始编码序列中的一个或多个密码子,从该至少一条原始编码序列产生至少一条新产生的编码序列;
c)测定所述至少一条原始编码序列的适合度值和所述至少一条新产生的编码序列的适合度值,同时使用下述适合度函数,所述函数针对所述预定的宿主细胞至少测定单个密码子适合度和密码子对适合度之一;
d)根据预定的选择标准,在所述至少一条原始编码序列和所述至少一条新产生的编码序列中选择一条或多条选定的编码序列,所述适合度值越高,被选择的机会越高,其中所述预定的选择标准是这样的,其使得所述一条或多条选定的编码序列根据预定标准具有最优的适合度值;
e)重复动作b)到d),同时在动作b)到d)中将所述一条或多条选定的编码序列作为一条或多条原始编码序列处理,直至满足预定的迭代终止标准,
其中所述适合度函数通过下式定义:
fit combi ( g ) = fit cp ( g ) cpi + fit sc ( g )
其中
fit cp ( g ) = 1 | g | - 1 &CenterDot; &Sigma; k = 1 | g | - 1 w ( c ( k ) , c ( k + 1 ) )
fit sc ( g ) = 1 | g | &CenterDot; &Sigma; k = 1 | g | | r sc t arg et ( c ( k ) ) - r sc g ( c ( k ) ) |
cpi是大于零的真实值,fitcp(g)是密码子对适合度函数,fitsc(g)是单个密码子适合度函数,w((c(k),c(k+1))是编码序列g中密码子对的权重,|g|是所述编码序列的长度,c(k)是所述密码子序列中的k-th密码子,
Figure FSB00000715115700021
是期望的密码子c(k)比例,是编码序列g中的实际比例,
其中cpi在10-4和0.5之间,
其中所述预定的迭代终止标准至少为下述之一:
(a)测试是否至少一条所述选定的编码序列具有高于预定的阈值的最佳适合度值;
(b)测试是否所述选定的编码序列均不具有低于所述预定的阈值的最佳适合度值;
(c)测试是否至少一条所述选定的编码序列在所述原始编码序列中有至少30%的对预定的宿主细胞而言具有相关正密码子对权重的密码子对被转化为具有相关负权重的密码子对;
其中所述密码子对权重w来自无终止密码子的61×61密码子对矩阵,或包括终止密码子的61×64密码子对矩阵,且其中根据基于计算机的方法,使用至少以下之一作为输入值来计算所述密码子对权重w:
(a)由预定的宿主的至少200个编码序列组成的核苷酸序列组;
(b)由所述预定的宿主所属的物种的至少200个编码序列组成的核苷酸序列组;
(c)由预定的宿主的基因组序列中至少5%的蛋白质编码核苷酸组成的核苷酸序列组;和
(d)由与预定的宿主相关的属的基因组序列中至少5%的蛋白质编码核苷酸序列组成的核苷酸序列组。
2.根据权利要求1的方法,其中所述方法在动作e)之后包括:
f)在所述一条或多条选定的编码序列中选择最佳个体编码序列,其中所述最佳个体编码序列具有比其它选定的编码序列更好的适合度值。
3.根据权利要求1的方法,其中针对可能的61×64密码子对中的至少5%来测定所述密码子对权重w,所述密码子对包含作为终止密码子的终止信号。
4.根据权利要求1的方法,其中针对可能的61×64密码子对中的至少10%来测定所述密码子对权重w,所述密码子对包含作为终止密码子的终止信号。
5.根据权利要求1的方法,其中针对可能的61×64密码子对中的至少20%来测定所述密码子对权重w,所述密码子对包含作为终止密码子的终止信号。
6.根据权利要求1的方法,其中针对可能的61×64密码子对中的至少50%来测定所述密码子对权重w,所述密码子对包含作为终止密码子的终止信号。
7.根据权利要求1的方法,其中针对可能的61×64密码子对中的至少100%来测定所述密码子对权重w,所述密码子对包含作为终止密码子的终止信号。
8.根据权利要求1的方法,其中所述密码子对权重w来自无终止密码子的61×61密码子对矩阵,或包括终止密码子的61×64密码子对矩阵,且其中所述密码子对权重w通过下式定义:
w ( ( c i , c j ) ) = n exp combi ( ( c i , c j ) ) - n obs high ( ( c i , c j ) ) max ( n obs high ( ( c i , c j ) ) , n exp combi ( ( c i , c j ) ) )
其中所述组合的预期值
Figure FSB00000715115700032
通过下式定义:
n exp combi ( ( c i , c j ) ) = r sc all ( c i ) &CenterDot; r sc all ( c j ) &CenterDot; &Sigma; c k &Element; syn ( c i ) c l &Element; syn ( c j ) n obs high ( ( c k , c l ) )
其中
Figure FSB00000715115700034
表示全基因组数据集中ck的单个密码子比例,且
Figure FSB00000715115700035
是高表达的组中对(ci,cj)的出现,且其中所述高表达的组是其mRNA能够以至少每个细胞20个拷贝的水平被检测的多个基因,其中
r sc all ( c k ) = n sc all ( c k ) / &Sigma; c l &Element; syn ( c k ) n sc all ( c l ) ,
其中syn(ck)表示与ck编码相同的氨基酸并因而与ck同义的密码子集合,并且
Figure FSB00000715115700037
的总和数值等于整个蛋白质组中由ci编码的氨基酸的出现数。
9.根据权利要求1的方法,其中编码预定的氨基酸序列的所述原始编码核苷酸序列选自:
(a)编码所述预定的氨基酸序列的野生型核苷酸序列
(b)预定的氨基酸序列的逆翻译,其中预定的氨基酸序列中氨基酸位置上的密码子随机地选自编码所述氨基酸的同义密码子;和
(c)预定的氨基酸序列的逆翻译,其中根据预定的宿主细胞或与所述宿主细胞相关的物种的单个密码子偏向性来选择预定的氨基酸序列中氨基酸位置上的密码子。
10.根据权利要求1的方法,其中所述预定的宿主细胞是选自以下的属的微生物:Bacillus、Actinomycetis、Escherichia、Streptomyces、Aspergillus、Penicillium、Kluyveromyces、Saccharomyces。
CN2007800246705A 2006-06-29 2007-06-15 实现改进的多肽表达的方法 Expired - Fee Related CN101490262B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06076328 2006-06-29
EP06076328.1 2006-06-29
PCT/EP2007/055943 WO2008000632A1 (en) 2006-06-29 2007-06-15 A method for achieving improved polypeptide expression

Publications (2)

Publication Number Publication Date
CN101490262A CN101490262A (zh) 2009-07-22
CN101490262B true CN101490262B (zh) 2012-09-26

Family

ID=37199000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800246705A Expired - Fee Related CN101490262B (zh) 2006-06-29 2007-06-15 实现改进的多肽表达的方法

Country Status (12)

Country Link
US (2) US8812247B2 (zh)
EP (2) EP2035561A1 (zh)
JP (1) JP5250850B2 (zh)
CN (1) CN101490262B (zh)
AU (1) AU2007263880A1 (zh)
BR (1) BRPI0713795B1 (zh)
CA (1) CA2657975A1 (zh)
DK (1) DK2423315T3 (zh)
EA (1) EA015925B1 (zh)
ES (1) ES2534282T3 (zh)
PL (1) PL2423315T3 (zh)
WO (1) WO2008000632A1 (zh)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10260805A1 (de) * 2002-12-23 2004-07-22 Geneart Gmbh Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins
WO2008019036A2 (en) * 2006-08-04 2008-02-14 Pharmathene Inc. Long half-life recombinant butyrylcholinesterase
EA018840B1 (ru) 2007-02-15 2013-11-29 ДСМ АйПи АССЕТС Б.В. Рекомбинантная клетка-хозяин для получения соединения, представляющего интерес
WO2009005564A2 (en) * 2007-06-29 2009-01-08 The Regents Of The University Of California Cellulose- and hemicellulose-degradation enzyme -encoding nucleotide sequences with refined translational kinetics and methods of making same
WO2009030254A1 (en) * 2007-09-04 2009-03-12 Curevac Gmbh Complexes of rna and cationic peptides for transfection and for immunostimulation
BRPI0819275B8 (pt) 2007-11-20 2022-07-19 Dsm Ip Assets Bv Célula eucariótica recombinante produtora de ácido succínico e processo para a preparação de ácido succínico
WO2009065777A1 (en) 2007-11-20 2009-05-28 Dsm Ip Assets B.V. Dicarboxylic acid production in a filamentous fungus
CN102016053A (zh) * 2008-02-15 2011-04-13 帝斯曼知识产权资产管理有限公司 生产二羧酸的方法
AU2009221104B2 (en) 2008-03-07 2014-07-31 Dsm Ip Assets B.V. A pentose sugar fermenting cell
WO2009109634A1 (en) * 2008-03-07 2009-09-11 Dsm Ip Assets B.V. A pentose sugar fermenting cell
TWI787575B (zh) 2008-03-11 2022-12-21 美商吉諾瑪蒂卡股份有限公司 由α-酮庚二酸製備6-胺己酸之技術
EP2252698B1 (en) 2008-03-11 2017-11-22 Genomatica, Inc. Adipate ester or thioester synthesis
EP2123767A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of epsilon-caprolactam via lysine cyclisation
EP2123768A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of (Z)-6,7-dihydro-1H-azepin-2(5H)-one
EA018463B1 (ru) 2008-07-08 2013-08-30 ДСМ АйПи АССЕТС Б.В. ПОЛУЧЕНИЕ ДИКАРБОНОВЫХ КИСЛОТ ПРИ НИЗКИХ pH
WO2010102982A1 (en) 2009-03-10 2010-09-16 Dsm Ip Assets B.V. Method for improving the yield of a polypeptide
DK2406372T3 (da) 2009-03-10 2017-11-27 Dsm Ip Assets Bv Prægastrisk esterase og derivater deraf
EA201101311A1 (ru) 2009-03-11 2012-04-30 ДСМ АйПи АССЕТС Б.В. Получение альфа-кетопимелиновой кислоты
US9353387B2 (en) 2009-04-15 2016-05-31 Dsm Ip Assets B.V. Dicarboxylic acid production process
AU2010241099A1 (en) 2009-04-22 2011-10-27 Dsm Ip Assets B.V. Process for the production of a recombinant polypeptide of interest
UA108853C2 (uk) 2009-07-10 2015-06-25 Спосіб ферментації галактози
EP2456872B1 (en) 2009-07-22 2017-08-30 DSM IP Assets B.V. Improved host cell for the production of a compound of interest
JP5776907B2 (ja) 2009-07-24 2015-09-09 ディーエスエム アイピー アセッツ ビー.ブイ. N−アシル保護またはn−グアニジル保護1,4−ブタンジアミン前駆体を介する1,4−ブタンジアミンの調製方法
EP2470667B1 (en) 2009-08-27 2017-11-15 DSM IP Assets B.V. Dicarboxylic acid fermentation process
CN102549150A (zh) 2009-09-03 2012-07-04 帝斯曼知识产权资产管理有限公司 作为ssl替代品的烘焙酶组合物
WO2011064151A1 (en) 2009-11-24 2011-06-03 Dsm Ip Assets B.V. Process for the crystallization of succinic acid
EP2336310A1 (en) 2009-12-16 2011-06-22 Isobionics B.V. Valencene synthase
WO2011084145A2 (en) 2009-12-21 2011-07-14 Pharmathene, Inc. Recombinant butyrylcholinesterases and truncates thereof
JP5521236B2 (ja) * 2009-12-22 2014-06-11 独立行政法人産業技術総合研究所 発現予測装置および発現予測方法
WO2011100369A2 (en) * 2010-02-09 2011-08-18 The Trustees Of Columbia University In The City Of New York Methods for altering polypeptide expression and solubility
WO2011157717A1 (en) 2010-06-14 2011-12-22 Dsm Fine Chemicals Austria Nfg. Gmbh & Co Kg Novel polypeptides having nad(p)h oxidase activity and the use thereof
CA2803222A1 (en) 2010-07-01 2012-01-05 Dsm Ip Assets B.V. A method for the production of a compound of interest
CN103189519B (zh) 2010-07-14 2018-01-26 DPx控股有限公司 (r)‑选择性胺化
WO2012031911A2 (en) 2010-09-10 2012-03-15 Dsm Ip Assets B.V. Preparation of 6-aminocaproic acid from alpha-ketopimelic acid
WO2012031910A2 (en) 2010-09-10 2012-03-15 Dsm Ip Assets B.V. Method for preparing alpha-ketopimelic acid by c1-elongation
CN103228791B (zh) 2010-09-24 2016-06-15 帝斯曼知识产权资产管理有限公司 二羧酸生产工艺
EP2495304A1 (en) 2010-12-03 2012-09-05 DSM IP Assets B.V. Dicarboxylic acid production in a yeast cell
WO2012089613A1 (en) 2010-12-28 2012-07-05 Dsm Ip Assets B.V. Process to increase the production of a succinyl-coa derived compound
DK2683732T3 (en) 2011-03-11 2016-12-12 Dsm Ip Assets Bv Vector-host-system
US20140113338A1 (en) 2011-04-01 2014-04-24 Dsm Ip Assets B.V. Preparation of 5-formyl valeric acid from alpha-ketopimelic acid
EP2537926A1 (en) 2011-06-21 2012-12-26 Isobionics B.V. Valencene synthase
PL2726624T3 (pl) 2011-07-01 2017-06-30 Dsm Ip Assets B.V. Sposób wytwarzania kwasów dikarboksylowych komórki zatrudniających grzybiczych
CN103797112A (zh) * 2011-07-13 2014-05-14 阿梅蒂斯公司 用于异戊二烯生产的组合物和方法
WO2013007821A1 (en) 2011-07-14 2013-01-17 Dsm Ip Assets B.V. Screening method
AR087423A1 (es) 2011-08-04 2014-03-19 Dsm Ip Assets Bv Celula capaz de fermentar azucares pentosas
EP2554668A1 (en) 2011-08-04 2013-02-06 DSM IP Assets B.V. A pentose sugar fermenting cell
RU2645252C2 (ru) 2012-01-05 2018-02-19 Глюкос Финланд Ой Клетка нитчатых грибов с дефицитом протеаз и способы ее применения
EP2620496B1 (en) 2012-01-30 2015-06-03 DSM IP Assets B.V. Alpha-amylase
CN104245937B (zh) 2012-04-17 2021-09-21 弗·哈夫曼-拉罗切有限公司 使用修饰的核酸表达多肽的方法
US9695454B2 (en) 2012-05-23 2017-07-04 Glykos Finland Oy Production of fucosylated glycoproteins
US20150147365A1 (en) 2012-05-31 2015-05-28 Dsm Ip Assets B.V. Oral preparation
EP2875136B1 (en) 2012-07-18 2017-04-12 Isobionics B.V. Rhodobacter for preparing terpenoids
CN105308171B (zh) 2012-07-19 2019-03-08 帝斯曼知识产权资产管理有限公司 Agse缺陷菌株
EP2877576B1 (en) * 2012-07-24 2019-06-05 BP Corporation North America Inc. Xylose isomerases and their uses
IN2015DN01041A (zh) 2012-08-28 2015-06-26 Dsm Ip Assets Bv
WO2014033019A1 (en) 2012-08-28 2014-03-06 Dsm Ip Assets B.V. Yeast strains engineered to produce ethanol from acetate
US9951339B2 (en) 2012-09-19 2018-04-24 Dsm Ip Assets B.V. Cell modification method using essential genes as markers and optionally recycling these
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression
AR093025A1 (es) 2012-10-16 2015-05-13 Dsm Ip Assets Bv Celulas con conversion mejorada de pentosas
WO2014142647A1 (en) 2013-03-14 2014-09-18 Wageningen Universiteit Fungals strains with improved citric acid and itaconic acid production
KR20160035587A (ko) 2013-07-10 2016-03-31 노파르티스 아게 복수개의 프로테아제 결핍 사상형 진균 세포들 및 그의 이용방법
RS62189B1 (sr) 2013-08-26 2021-08-31 Biontech Research And Development Inc Nukleinske kiseline koje kodiraju humana antitela na sijalil-luis a
AR097480A1 (es) 2013-08-29 2016-03-16 Dsm Ip Assets Bv Células de levadura convertidoras de glicerol y ácido acético con una conversión de ácido acético mejorada
MX370305B (es) 2013-12-02 2019-12-09 Dsm Ip Assets Bv Proteína estructurante de hielo.
BR112016026789B1 (pt) 2014-05-19 2023-05-02 Dsm Ip Assets B.V Polipeptídeo com atividade de endoprotease específica de prolina, composição, ácido nucleico que codifica a referida endoprotease, vetor de expressão, célula hospedeira de microrganismo recombinante, método para a preparação de um polipeptídeo, processo para a preparação de um alimento ou produto para alimentação animal e uso de um polipeptídeo
WO2015177153A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
WO2015177152A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
CA2950602C (en) 2014-06-04 2021-07-20 MabVax Therapeutics, Inc. Human monoclonal antibodies to ganglioside gd2
CA2954974A1 (en) 2014-07-21 2016-01-28 Glykos Finland Oy Production of glycoproteins with mammalian-like n-glycans in filamentous fungi
EP3242949B1 (en) 2015-01-06 2021-11-03 DSM IP Assets B.V. A crispr-cas system for a yeast host cell
WO2016110511A1 (en) 2015-01-06 2016-07-14 Dsm Ip Assets B.V. A crispr-cas system for a lipolytic yeast host cell
US11396665B2 (en) 2015-01-06 2022-07-26 Dsm Ip Assets B.V. CRISPR-CAS system for a filamentous fungal host cell
EP3259361A1 (en) 2015-02-16 2017-12-27 DSM IP Assets B.V. Process for producing itaconic acid under anaerobic conditions
AR104205A1 (es) 2015-04-09 2017-07-05 Dsm Ip Assets Bv Fosfolipasa c
US20180160695A1 (en) 2015-06-02 2018-06-14 Dsm Ip Assets B.V. Use of ice structuring protein afp19 expressed in filamentous fungal strains for preparing food
US10724040B2 (en) 2015-07-15 2020-07-28 The Penn State Research Foundation mRNA sequences to control co-translational folding of proteins
WO2017050652A1 (en) 2015-09-25 2017-03-30 Dsm Ip Assets B.V. Asparaginase
EP4361240A2 (en) 2015-11-17 2024-05-01 DSM IP Assets B.V. Preparation of a stable beer
US10829748B2 (en) 2016-06-10 2020-11-10 Dsm Ip Assets B.V. Mutant lipase and use thereof
ES2899973T3 (es) 2016-07-13 2022-03-15 Dsm Ip Assets Bv Malato deshidrogenasas
CN109689856A (zh) 2016-07-13 2019-04-26 帝斯曼知识产权资产管理有限公司 用于海藻宿主细胞的CRISPR-Cas系统
WO2018019948A1 (en) 2016-07-29 2018-02-01 Dsm Ip Assets B.V. Polypeptides having cellulolytic enhancing activity and uses thereof
CN106650307B (zh) * 2016-09-21 2019-04-05 武汉伯远生物科技有限公司 一种基于密码子对使用频度的基因密码子优化方法
CN109715804A (zh) 2016-09-23 2019-05-03 帝斯曼知识产权资产管理有限公司 用于宿主细胞的指导rna表达系统
WO2018114912A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
EP3559221A1 (en) 2016-12-21 2019-10-30 DSM IP Assets B.V. Lipolytic enzyme variants
US10918113B2 (en) 2016-12-21 2021-02-16 Dsm Ip Assets B.V. Lipolytic enzyme variants
WO2018114938A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
CN110088274A (zh) 2016-12-22 2019-08-02 帝斯曼知识产权资产管理有限公司 谷胱甘肽还原酶
WO2018148761A1 (en) * 2017-02-13 2018-08-16 The Regents Of The University Of Colorado, A Body Corporate Compositions, methods and uses for multiplexed trackable genomically-engineered polypeptides
NL2018457B1 (en) 2017-03-02 2018-09-21 Isobionics B V Santalene Synthase
WO2018166943A1 (en) 2017-03-13 2018-09-20 Dsm Ip Assets B.V. Zinc binuclear cluster transcriptional regulator-deficient strain
CN107353327A (zh) 2017-03-30 2017-11-17 南京百斯杰生物工程有限公司 植酸酶在黑曲霉中表达
US20200032252A1 (en) 2017-04-06 2020-01-30 Dsm Ip Assets B.V. Self-guiding integration construct (sgic)
CN110070913B (zh) * 2017-07-25 2023-06-27 南京金斯瑞生物科技有限公司 一种基于免疫算法的密码子优化方法
NL2019473B1 (en) 2017-09-01 2019-03-11 Isobionics B V Terpene Synthase producing patchoulol and elemol, and preferably also pogostol
BR112020005972A2 (pt) 2017-09-26 2020-11-17 Bunge Global Innovation, Llc remoção enzimática de substratos de clorofila de óleos à base de triacilglicerol
CN111630069B (zh) 2017-10-13 2024-05-31 勃林格殷格翰国际有限公司 针对Thomsen-nouvelle(Tn)抗原的人抗体
EP3728603A2 (en) 2017-12-20 2020-10-28 DSM IP Assets B.V. A method for genome editing in a host cell
WO2019193102A1 (en) 2018-04-05 2019-10-10 Dsm Ip Assets B.V. Variant maltogenic alpha-amylase
EP3790969A1 (en) 2018-05-09 2021-03-17 DSM IP Assets B.V. Crispr transient expression construct (ctec)
WO2019219904A2 (en) 2018-05-18 2019-11-21 Dsm Ip Assets B.V. Mutant lipase and use thereof
CN112135903A (zh) 2018-05-18 2020-12-25 帝斯曼知识产权资产管理有限公司 突变体脂肪酶及其用途
US20210115418A1 (en) 2018-06-19 2021-04-22 Dsm Ip Assets B.V. Lipolytic enzyme variants
CN112513989B (zh) * 2018-07-30 2022-03-22 南京金斯瑞生物科技有限公司 密码子优化
CN112585687A (zh) * 2018-08-15 2021-03-30 齐默尔根公司 具有生物序列选择的生物可获取预测工具
WO2020099303A1 (en) 2018-11-15 2020-05-22 Dsm Ip Assets B.V. Improved production of riboflavin
EP3891281A1 (en) 2018-12-05 2021-10-13 DSM IP Assets B.V. Crispr guide-rna expression strategies for multiplex genome engineering
EP3946720A1 (en) 2019-03-27 2022-02-09 Bunge Global Innovation, LLC. Silica adsorbent treatment for removal of chlorophyll derivatives from triacylglycerol-based oils
WO2020198641A2 (en) * 2019-03-28 2020-10-01 Intellia Therapeutics, Inc. Polynucleotides, compositions, and methods for polypeptide expression
MX2021015193A (es) 2019-06-28 2022-01-18 Hoffmann La Roche Metodo para la produccion de un anticuerpo.
EP3766982A1 (en) 2019-07-18 2021-01-20 Delft Advanced Biofuels B.V. Integrated system for biocatalytically producing and recovering an organic substance
CN110491447B (zh) * 2019-08-05 2021-08-17 浙江省农业科学院 一种用于异源基因体外表达的密码子优化方法及应用
CN110873833B (zh) * 2019-12-10 2022-04-08 国网河南省电力公司洛阳供电公司 一种含分布式电源的配电网自适应故障区段定位方法
EP4117445A1 (en) 2020-03-10 2023-01-18 DSM IP Assets B.V. Lactose reduced dairy powder
EP4015626A1 (en) 2020-12-18 2022-06-22 Isobionics B.V. Enzymes and methods for fermentative production of monoterpene esters
CA3216308A1 (en) 2021-04-21 2022-10-27 Zhejiang University Negative-strand rna viral vector and plant genome editing method without transformation
WO2022263504A1 (en) 2021-06-17 2022-12-22 Dsm Ip Assets B.V. Improved bacillus host cell
EP4381085A2 (en) 2021-08-02 2024-06-12 Basf Se Novel production of aroma compounds with ionylideneethane synthases
AU2022392804A1 (en) 2021-11-19 2024-05-02 Mirobio Limited Engineered PD-1 antibodies and uses thereof
WO2023196866A1 (en) 2022-04-06 2023-10-12 Mirobio Limited Engineered cd200r antibodies and uses thereof
WO2023225459A2 (en) 2022-05-14 2023-11-23 Novozymes A/S Compositions and methods for preventing, treating, supressing and/or eliminating phytopathogenic infestations and infections
WO2023222614A1 (en) 2022-05-16 2023-11-23 Dsm Ip Assets B.V. Lipolytic enzyme variants
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus
CN117153253B (zh) * 2022-09-09 2024-05-07 南京金斯瑞生物科技有限公司 一种设计人源化抗体序列的方法
EP4365192A1 (en) 2022-11-04 2024-05-08 DSM IP Assets B.V. Microbial production of growth factors

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK122686D0 (da) 1986-03-17 1986-03-17 Novo Industri As Fremstilling af proteiner
EP0340878B1 (en) 1988-05-06 2001-05-16 Aventis Pharma S.A. Process for the biochemical oxidation of steroids and genetically engineered cells to be used therefor
CA1333777C (en) 1988-07-01 1995-01-03 Randy M. Berka Aspartic proteinase deficient filamentous fungi
US5082767A (en) 1989-02-27 1992-01-21 Hatfield G Wesley Codon pair utilization
ATE238425T1 (de) 1993-07-23 2003-05-15 Dsm Nv Selektionmarker-genfreie rekombinante stämme: verfahren zur ihrer herstellung und die verwendung dieser stämme
US5795737A (en) 1994-09-19 1998-08-18 The General Hospital Corporation High level expression of proteins
DE69535696T2 (de) 1994-11-08 2009-02-05 Novozymes A/S Tripeptidyl-aminopeptidase
US5874304A (en) * 1996-01-18 1999-02-23 University Of Florida Research Foundation, Inc. Humanized green fluorescent protein genes and methods
EP0894126B1 (en) 1996-03-27 2006-02-01 Novozymes A/S Alkaline protease deficient filamentous fungi
WO1998046772A2 (en) 1997-04-11 1998-10-22 Dsm N.V. Gene conversion as a tool for the construction of recombinant industrial filamentous fungi
CA2296067C (en) * 1997-07-09 2008-10-07 The University Of Queensland Nucleic acid sequence and method for selectively expressing a protein in a target cell or tissue
ES2287989T3 (es) 1997-12-22 2007-12-16 Dsm Ip Assets B.V. Clonacion de expresion en hongos filamentosos.
CN100529096C (zh) 1998-12-23 2009-08-19 诺维信公司 在曲霉属突变细胞中产生多肽的方法
CN1195058C (zh) 1999-02-22 2005-03-30 诺维信公司 草酰乙酸水解酶缺陷型真菌宿主细胞
DE60142226D1 (de) 2000-03-14 2010-07-08 Novozymes As Pilz transkriptionsaktivator zur verwendung in verfahren zur herstellung von polypeptiden
EP1266018B1 (en) 2000-03-24 2008-05-07 Genencor International, Inc. Production of secreted proteins by recombinant eukaryotic cells
WO2002064766A2 (en) 2000-12-22 2002-08-22 Janssen Pharmaceutica N.V. Bax-responsive genes for drug target identification in yeast and fungi
AU2002242025A1 (en) 2001-01-29 2002-08-12 Olga Kachurina Advanced composite ormosil coatings
EP1231272A3 (en) 2001-02-08 2002-11-13 Laboratorios Ovejero S.A. Procedure for obtaining bovine chymosin (rennin), curd
WO2003070957A2 (en) 2002-02-20 2003-08-28 Novozymes A/S Plant polypeptide production
WO2003085114A1 (en) * 2002-04-01 2003-10-16 Walter Reed Army Institute Of Research Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell
CN1836033A (zh) 2003-02-05 2006-09-20 帝斯曼知识产权资产管理有限公司 草酸缺陷型Aspergillus Niger菌株生产多肽的用途
US7303877B2 (en) 2003-03-31 2007-12-04 Novozymes, Inc. Methods for producing biological substances in enzyme-deficient mutants of Aspergillus
DE602005023427D1 (de) 2004-04-02 2010-10-21 Dsm Ip Assets Bv Filamentöse pilzmutanten mit verbesserter homologer rekombinationseffizienz
WO2005100573A2 (en) 2004-04-16 2005-10-27 Dsm Ip Assets B.V. Fungal promoters for expressing a gene in a fungal cell
US7968312B2 (en) 2004-06-16 2011-06-28 Dsm Ip Assets B.V. Production of polypeptides by improved secretion
EP1799827A2 (en) 2004-10-12 2007-06-27 DSMIP Assets B.V. Fungal transcriptional activators useful in methods for producing a polypeptide
AU2005293578B2 (en) 2004-10-15 2010-10-21 Dsm Ip Assets B.V. Method for production of a compound in a eukaryotic cell
EP2410048B1 (en) 2005-01-24 2016-08-10 DSM IP Assets B.V. Method for producing a compound of interest in a filamentous fungal cell

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Becky Irwin等.Codon Pair Utilization Biases Influence Translational Elongation Step Times.《THE JOURNAL OF BIOLOGICAL CHEMISTRY》.1995,第270卷(第39期), *
Svetlana Boycheva1等.Codon pairs in the genome of Escherichia coli.《BIOINFORMATICS》.2003,第19卷(第8期), *

Also Published As

Publication number Publication date
AU2007263880A1 (en) 2008-01-03
PL2423315T3 (pl) 2015-06-30
BRPI0713795B1 (pt) 2018-03-20
WO2008000632A1 (en) 2008-01-03
US20140377800A1 (en) 2014-12-25
ES2534282T3 (es) 2015-04-21
EP2423315A1 (en) 2012-02-29
JP5250850B2 (ja) 2013-07-31
BRPI0713795A2 (pt) 2012-11-06
EP2035561A1 (en) 2009-03-18
US8812247B2 (en) 2014-08-19
EA200900096A1 (ru) 2009-06-30
EA015925B1 (ru) 2011-12-30
EP2423315B1 (en) 2015-01-07
JP2009540845A (ja) 2009-11-26
DK2423315T3 (en) 2015-04-13
US20090286280A1 (en) 2009-11-19
CA2657975A1 (en) 2008-01-03
CN101490262A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
CN101490262B (zh) 实现改进的多肽表达的方法
Li et al. Developing Aspergillus niger as a cell factory for food enzyme production
CN103502266B (zh) 具有粘度改变表型的丝状真菌
JP2008527985A (ja) 糸状菌細胞において目的の化合物を産生させるための方法
Ribeiro et al. Random and direct mutagenesis to enhance protein secretion in Ashbya gossypii
CN103154249B (zh) 用于在丝状真菌中改进的蛋白质生产的方法
US20240182882A1 (en) Optimization of yeast host cells for the production of heterologous proteins
CN108795837A (zh) 一种高效表达磷脂酶d的枯草芽孢杆菌工程菌
Liu et al. Development of genetic tools in glucoamylase-hyperproducing industrial Aspergillus niger strains
CN103773746B (zh) 一种脂肪酶及其突变体
KR101912359B1 (ko) 해당과정 플럭스 조절에 의해 n-아세틸글루코사민 생성능이 향상된 변이 미생물
CN115725632B (zh) 一种Aomsn2过表达米曲霉工程菌及其构建方法与应用
EP2451954B1 (en) Modified promoter
CN103725707B (zh) 一种重组表达植酸酶的基因工程菌
CN106636088B (zh) 一种酵母上游激活元件在丝状真菌中的应用
CN103667204B (zh) 一种来源于烟曲霉的植酸酶
JP5105691B2 (ja) アスペルギルス属糸状菌由来の環状ヌクレオチド、アスペルギルス属糸状菌セルフクローニング株の製造方法及びセルフクローニング株
Song et al. Identification and characterization of an antifungal gene Mt1 from Bacillus subtilis by affecting amino acid metabolism in Fusarium graminearum
Muniandy et al. Application of statistical experimental design for optimization of novel a-amylase production by Anoxybacillus species
Class et al. Patent application title: Method for Achieving Improved Polypeptide Expression Inventors: Johannes Andries Roubos (Echt, NL) Johannes Andries Roubos (Echt, NL) Noël Nicolaas Maria Elisabeth Van Peij (Echt, NL)
JP2006109701A (ja) 酵母宿主、形質転換体および異種タンパク質の製造方法
Hirsch Identification and characterization of genes regulating amylolysis and cellulolysis in the maize pathogen Fusarium verticillioides
CN104250643A (zh) 一种淀粉酶与其编码基因和应用
JP2010284130A (ja) バチルス属細菌由来の改変プロモーター

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120926