CN100425698C - Acc基因 - Google Patents
Acc基因 Download PDFInfo
- Publication number
- CN100425698C CN100425698C CNB038231972A CN03823197A CN100425698C CN 100425698 C CN100425698 C CN 100425698C CN B038231972 A CNB038231972 A CN B038231972A CN 03823197 A CN03823197 A CN 03823197A CN 100425698 C CN100425698 C CN 100425698C
- Authority
- CN
- China
- Prior art keywords
- leu
- ala
- val
- glu
- gly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/52—Genes encoding for enzymes or proenzymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/93—Ligases (6)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P23/00—Preparation of compounds containing a cyclohexene ring having an unsaturated side chain containing at least ten carbon atoms bound by conjugated double bonds, e.g. carotenes
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Medicinal Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Plant Pathology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Enzymes And Modification Thereof (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Coloring Foods And Improving Nutritive Qualities (AREA)
- Peptides Or Proteins (AREA)
Abstract
本发明涉及在增加微生物产生类胡萝卜素的方法中有用的一种基因。类胡萝卜素-虾青素在生物体如动物、藻类和微生物中广泛存在。它对活性氧具有很强的抗氧化特性。虾青素被用作色素,尤其在如鲑的养殖鱼业中,因为它在动物中可使其成明显的桔红色,因而在市场上能够吸引消费者。
Description
本发明涉及增加微生物生产类胡萝卜素的方法中有用的一种基因。
类胡萝卜素虾青素在生物体如动物、藻类和微生物中广泛存在。它对活性氧种类具有很强的抗氧化特性。虾青素被用作色素,尤其在如鲑的养殖鱼业中,因为它在动物中可使其成明显的桔红色,因而在市场上能够吸引消费者。
在例如Phaffia rhodozyme中,类胡萝卜素合成(carotenogenic)途径的第一步之一是两个乙酰辅酶A之间的缩合。乙酰辅酶A也是乙酰辅酶A羧化酶(carboxylase)的底物,该酶也参与脂肪酸的生物合成。
一方面,本发明提供一种包含编码乙酰辅酶A羧化酶基因的DNA片段。
更具体地说,本发明提供包含调控区,如启动子和终止子,以及乙酰辅酶A羧化酶基因的开放阅读区的DNA分子。
本发明提供编码P.rhodozyma的乙酰辅酶A羧化酶的DNA片段。所述DNA指含有侧接5’-和3’-非翻译区中的短片段之间的开放阅读框的cDNA,或还包含有调控序列如在P.rhodozyma中表达乙酰辅酶A羧化酶基因所必需的启动子和终止子的基因组DNA。
相应地,本发明涉及含有选自下述组的核酸分子的多核苷酸:
(a)编码至少如SEQ ID NO:3所示多肽的成熟形式的核酸分子;
(b)含有如SEQ ID NO:2所示编码序列的核酸分子;
(c)(a)或(b)的核酸分子由于遗传密码的简并性得到的核苷酸序列的核酸分子;
(d)编码了衍生自由(a)至(c)的多核苷酸编码的多肽序列中经过一个或多个氨基酸的取代、缺失和/或增加得到的多肽的核酸分子;
(e)编码与由(a)或(b)的核酸分子编码的多肽的氨基酸序列有56.3%或更高同一性的多肽衍生的多肽的核酸分子;
(f)编码含有(a)至(e)任一核酸分子编码的多肽的片段或含表位区的核酸分子,其具有乙酰辅酶A羧化酶活性;
(g)含有从Phaffia或Xanthophylomyces的核酸文库中扩增得到的核酸分子序列的多核苷酸,所用引物如SEQ ID NO:4、5和6所示;
(h)编码具有乙酰辅酶A羧化酶活性多肽的核酸分子,其中所述多肽为(a)至(g)任一编码的多肽的片段。
(i)包含(a)至(d)任一多核苷酸的至少15个核苷酸的核酸分子;
(j)所述核酸分子编码了具有乙酰辅酶A羧化酶活性的多肽,所述多肽可被针对由(a)至(h)任一核酸分子编码的多肽所产生的抗体所识别;
(k)可由下述方式获得的核酸分子:用具有(a)至(j)任一核酸分子的序列作探针,在严谨条件下筛选合适的文库而获得,并且编码的多肽具有乙酰辅酶A羧化酶活性;
(l)核酸分子,其互补链能在严谨条件下与(a)至(k)任一核酸分子杂交,并且编码的多肽具有乙酰辅酶A羧化酶活性。
术语“基因”、“多核苷酸”、“核酸序列”、“核苷酸序列”、“DNA序列”或“核酸分子”,在此处指任何长度的核苷酸聚合形式,可以核糖核苷酸,也可以是脱氧核糖核苷酸。这些术语仅指分子的初级结构。
因此,这些术语包括双链-和单链-DNA和RNA。也包括已知类型的修饰形式,如甲基化、用类似物引起自然存在的一个或多个核苷酸的“帽子(cap)”取代。优选地,本发明的DNA序列包含编码上述定义的多肽的编码序列。
“编码序列”是指其核苷酸序列在合适地调控序列的控制下能够转录成mRNA和/或翻译成多肽。编码序列的边界分别是由5’末端的翻译起始密码子和3’末端的翻译终止密码子确定。编码序列可以包括,但不局限于mRNA、cDNA、重组核苷酸序列或基因组DNA,且在特定条件下还存在有内含子。SEQ ID NO:1所示的基因组DNA,其中内含子序列被插入来自P.rhodozyma的乙酰辅酶A羧化酶基因的编码序列中。
通常,基因由几个功能互不相同的部分组成。在真核生物中,编码相应蛋白质的基因被转录成前体(premature)信使RNA(pre-mRNA),它不同于核糖体RNA(rRNA)、核小RNA(snRNA)和转运RNA(tRNA)。虽然RNA聚合酶II(PolII)在转录过程中起核心作用,但如果在没有覆盖包括启动子和上游激活序列(UAS)的上游区的顺式(cis)元件和反式活化蛋白因子时,PolII不能单独起始转录。首先,转录起始复合体由数个基本(basic)蛋白成分组成,能够识别将要表达的基因的5’邻近区的启动子序列。在这个事件中,对于某些由特异调控条件下表达的基因还需要其它因子的参与,如热激反应或营养饥饿适应等调控表达的那些基因。在这种情况下,在启动子序列周围的5’非翻译上游区需存在有UAS,一些正或负调控蛋白识别并结合到UAS上。转录起始复合体与启动子序列结合的强度受到在启动子周围的这些反式活化因子的影响,导致了对转录活性的调节。
通过磷酸化活化转录起始复合体之后,转录起始复合体起始从转录起始位点开始的转录。部分转录起始复合体脱离而成为从基因的启动子区域向3’方向的延伸复合体(这一步称为启动子清除事件(a promoter clearanceevent)),延伸复合体继续转录直到位于基因的3’邻近的下游区域的终止子序列。因而在核中通过在几乎相应于转录起始位点的帽子位点处增加帽子结构,以及在位于3’邻近的下游区域的poly A信号增加聚腺苷片断而被修饰成Pre-mRNA。接着,编码区域中的内含子结构被去除,外显子部分组合产生开放阅读框,其序列与相应蛋白的初级氨基酸序列相应。这些修饰产生了成熟mRNA,对于稳定的基因表达是必需的。cDNA通常指相应于从这种成熟mRNA序列反转录得的DNA序列。以成熟mRNA为模板,用来自病毒的反转录酶合成它。
为了表达来自真核生物的基因,经常采用将cDNA克隆到表达载体中并在E.coli中进行表达的方法。这是因为,在不同生物体中的内含子结构的特异性不同,而来自别种类的内含子序列不能为另一种类生物所识别。事实上,原核生物在本身的遗传背景中不存在内含子。甚至在酵母中,属于啤酒糖酵母(Saccharomyces cerevisiae)的Ascomycetes与属于P.rhodozyma的Basidiomycetes的遗传背景不同,P.rhodozyma的肌动蛋白基因的内含子结构不能为ascomycetous酵母S.cerevisiae所识别,也不能进行剪切。
某些类型基因的内含子结构似乎参与了这些基因的表达调控。当感兴趣的基因是自克隆的,其内含子结构参与它们所在基因的自身调控时,利用具有内含子的基因组片段非常重要。
将遗传工程方法应用于菌株的改良研究时,有必要研究转录和翻译中的遗传机制。确定如基因的UAS、启动子、内含子结构和终止子等遗传序列对于研究其遗传机制是非常重要的。
根据本发明,来自P.rhodozyma的编码乙酰辅酶A羧化酶(ACC)的基因包括了5’和3’邻近区域以及被确认的内含子结构。
本发明进一步包含由于遗传密码子的简并性而与SEQ ID NO:2所示核苷酸序列(及其部分)之一不同的多核苷酸,但仍然编码如SEQ ID NO:2所示的核苷酸序列编码的乙酰辅酶A羧化酶。进一步,本发明的多核苷酸具有编码了SEQ ID NO:3所示氨基酸序列的蛋白质的核苷酸序列。更进一步地实施方式,本发明的多核苷酸编码了全长的P.rhodozyma蛋白,其与SEQID NO:3的氨基酸序列基本上同源。
此外,本领域技术人员能够理解的是,在种群中(例如P.rhodozyma种群)可能存在DNA序列多态性而导致氨基酸序列有些变化。乙酰辅酶A羧化酶基因的这种遗传多态性可由于自然变异而在种群中的不同个体之间存在。
在此处,术语“基因”和“重组基因”是指核酸分子包含了编码乙酰辅酶A羧化酶的开放阅读框,优选地乙酰辅酶A羧化酶来自P.rhodozyma。
这种自然变异典型地导致乙酰辅酶A羧化酶基因的核苷酸序列的1-5%的变化。任何和所有这种核苷酸变异以及导致乙酰辅酶A羧化酶的氨基酸多态性都是自然变异的结果,均未改变乙酰辅酶A羧化酶的功能活性,因而都属于本发明的范围之内。
可以基于其与本发明公开的P.rhodozyma乙酰辅酶A羧化酶多核苷酸的同源性,利用本发明的多核苷酸或其部分作为杂交探针,在严谨杂交条件下根据标准杂交技术来获得本发明乙酰-COA羧化酶cDNA的自然变异的多核苷酸和非P.rhodozyma的同源物。
相应地,在另一实施方式中,本发明的多核苷酸至少具有15个核苷酸的长度。优选地,在严谨条件下能够与包含本发明的多核苷酸,如SEQ IDNO:2的多核苷酸序列的核酸分子杂交。在另一实施方式中,核酸至少为20、30、50、100、250或更多核苷酸的长度。上述中的术语“在严谨条件下杂交”指杂交和洗涤的条件可使相互之间的核苷酸序列的同一性至少为60%的核酸分子之间典型地仍然能杂交。优选地,这种杂交条件可使相互之间的核苷酸序列的同一性至少约为65%或70%,更优选约为75%或80%,还优选为至少约85%、90%或95%或更高的核酸分子之间典型地仍然能杂交。优选地,能与SEQ ID NO:2的序列在严谨条件下杂交的本发明的多核苷酸是相应自然存在的核酸分子。
在本发明中,多核苷酸序列包括SEQ ID NO:2或其片段,其所具有多核苷酸序列在足以鉴定特异结合SEQ ID NO:2的严谨条件下与SEQ ID NO:2杂交。例如下述杂交和洗涤条件的任何组合均可用于获得所预期的特异性结合:
高度严谨杂交条件:6×SSC,0.5%SDS,100ug/ml变性鲑鱼精子DNA,50%甲酰胺,于42℃温和振摇过夜。
高度严谨洗涤条件:先在2×SSC,0.5%SDS于室温下洗涤15分钟1次,然后,于0.1×SSC,0.5%SDS于室温下洗涤15分钟1次。
低度严谨杂交条件:6×SSC,0.5%SDS,100ug/ml变性鲑鱼精子DNA,50%甲酰胺,于37℃温和振摇过夜。
低度严谨洗涤条件:在0.1×SSC,0.5%SDS于室温下洗涤15分钟1次。
中度严谨条件下可通过改变上述的杂交反应的温度和/或洗涤条件来达到。本发明中,优选地利用高度严谨杂交和洗涤条件来确定针对来自P.rhodozyma的乙酰辅酶A羧化酶基因的反义活性。
术语“同源性”指各核酸分子或编码的蛋白质是功能和/或结构上的等价物。与上述的核酸分子同源的核酸分子和所述核酸分子的衍生物,例如所述核酸分子的修饰但仍具有相同的生物功能的变体,尤其是编码蛋白具有相同或基本上相同的生物功能。它们可以自然存在的变体,如来自其它植物品种或类的序列,或者是突变体。这些突变体可能是自然发生的,也可以是通过突变技术获得的。这些等位基因变体可以是自然存在的等位基因变体,也通过合成或遗传工程产生的变异体。结构上的等价物可,如通过与所述多肽与抗体结合来检测。结构上的等价物具类似的免疫特性,如包含类似的表位。
在此处,“自然存在”的核酸分子指在具有自然存在的核苷酸序列的RNA或DNA分子(例如编码自然存在的蛋白质)。优选地,多核苷酸编码了自然的P.rhodozyma乙酰辅酶A羧化酶。
除在种群中存在的乙酰辅酶A羧化酶序列的自然变体之外,本领域技术人员可理解的是这种变化可通过突变引入到编码乙酰辅酶A羧化酶的多核苷酸的核苷酸序列中,因而导致所编码的乙酰辅酶A羧化酶的氨基酸序列的变化,但不影响乙酰辅酶A羧化酶的功能活性。例如,在“非必需”氨基酸残基引起氨基酸取代的核苷酸取代可以应用到编码乙酰辅酶A羧化酶的多核苷酸的序列中,如SEQ ID NO:2。“非必需”氨基酸残基是指那些以乙酰辅酶A羧化酶之一的野生型序列为基础进行改变,但不影响乙酰辅酶A羧化酶的活性的残基,而“必需”氨基酸残基是乙酰辅酶A羧化酶活性所需要的。然而,其它氨基酸残基(例如那些在乙酰辅酶A羧化酶活性的结构域中的非保守或仅仅半保守残基)可对活性而言不是必需的,因而可以对其进行改变但不影响乙酰辅酶A羧化酶活性。
相应地,本发明涉及编码乙酰辅酶A羧化酶的多核苷酸包含了对乙酰辅酶A羧化酶活性不是必需的氨基酸残基的改变。这种乙酰辅酶A羧化酶的氨基酸序列与SEQ ID NO:3中含有的序列不同,但仍然保持有此处所描述的乙酰辅酶A羧化酶活性。多核苷酸可包含编码多肽的核苷酸序列,其中所述多肽包含与SEQ ID NO:3中的序列有至少约60%同一性的氨基酸序列,且具有乙酰辅酶A羧化酶活性。优选地,核酸分子编码的蛋白与SEQ IDNO:3中的序列有至少约60-65%同一性的氨基酸序列,更优选与SEQ IDNO:3中之一的序列有至少约60-70%同一性的氨基酸序列,进一步优选为与SEQ ID NO:3中的序列有至少约70-80%、80-90%、90-95%同源性的氨基酸序列,最优选为与SEQ ID NO:3中的序列有至少约96%、97%、98%或99%同一性的氨基酸序列。
确定两个氨基酸序列(例如SEQ ID NO:3的一个序列与其突变体形式)或两个核酸分子的同源性百分率,序列的排列成最佳对比的目的(例如可以引入缺口到一蛋白质序列或核酸中以与另一蛋白或核酸进行最佳对比)。然后,比较在相应氨基酸位置或核苷酸位置的氨基酸残基或核苷酸。当一个序列中的位置(例如SEQ ID NO:2或3的一个序列)在另一序列(例如所选序列的突变形式)的相应位置处具有相同的氨基酸残基或核苷酸,则两个分子在该位置是同源的(即在此处的氨基酸或核酸“同源物”等同于氨基酸或核酸“同一性”)。两个序列之间的同源百分率表示出了序列具有同一性的位置数目(即%同源性=同一性位置的数目/总位置数目×100)。同源性可通过计算机程序如Blast 2.0(Altschul,Nuc.Acid.Res.,2:3389-3402,1997)。在本发明中,采用GENETYX-SV/RC软件(Software Development Co.,Ltd.,Tokyo,Japan)以默认算法作为同源性分析软件。这个软件利用Lipman-Pearson方法作为其分析算法。
编码与具有SEQ ID NO:3的氨基酸序列的蛋白质同源之乙酰辅酶A羧化酶的核酸分子可通过引入一个或多个核苷酸的取代、增加或缺失到本发明的多核苷酸的核苷酸序列中来得到,尤其是导致SEQ ID NO:2编码的蛋白质中引入一个或多个氨基酸的取代、增加或缺失。通过标准技术,如定点突变和PCR介导的突变技术,在如SEQ ID NO:2的序列中引入突变。优选地,保守氨基酸取代在一个或多个被认为是非必需氨基酸残基处进行。“保守氨基酸取代”就是用具有相似侧链的氨基酸残基进行取代。具有相似侧链的氨基酸族在现有技术已经作了确定。这些族包括碱性侧链的氨基酸(如赖氨酸、精氨酸、组氨酸)、酸性侧链的的氨基酸(如天冬氨酸、谷氨酸),不带电荷的极性侧链的氨基酸(例如,甘氨酸,天冬酰胺,谷氨酰胺,丝氨酸,苏氨酸,酪氨酸,半胱氨酸),非极性侧链(如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸),β支链侧链的氨基酸(如苏氨酸、缬氨酸、异亮氨酸)以及芳香族侧链氨基酸(如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此,在乙酰辅酶A羧化酶中被预计为是非必需氨基酸残基优选地用另一个与其属于相同族的氨基酸来取代。任选地,在另一实施方式中,可以在乙酰辅酶A羧化酶的全部或部分编码序列中随机引入突变,如通过饱和诱变,可根据本发明描述方法在所得到的突变体中筛选仍然保持乙酰辅酶A羧化酶活性。在对SEQ ID NO:2的序列之一进行突变之后,可经重组表达获得编码的蛋白质,再利用例如此处所描述的方法确定蛋白质的活性。
本发明的多核苷酸,例如具有SEQ ID NO:2的核苷酸序列,或其部分的核酸分子可利用标准分子生物学技术来分离克隆,此处也列出了它的序列信息。例如用本发明的多核苷酸序列之一的的全部或部分作为杂交探针,经标准杂交技术从文库可以分离出乙酰辅酶A羧化酶cDNA。此外,包含全部或部分的本发明的一个序列的多核苷酸可以通过聚合酶链式反应来获得,其中寡核苷酸引物可以基于该序列进行设计(例如含全部或部分的本发明的一个多核苷酸序列的核苷酸分子可以用基于本发明相同多核苷酸序列而设计寡核苷酸引物,如SEQ ID NO:4、5或6,并通过聚合酶链式反应来分离)。例如,可以从如phaffia细胞中分离出mRNA(如通过Chirgwin等的硫氰酸胍提取方法),然后用反转录酶制备cDNA(例如莫洛尼(Moloney)MLV反转录酶或AMV反转录酶,这些酶可从Promega(Madison,USA)得到)。用于PCR的合成寡核苷酸引物可以基于SEQ ID NO:2之一所示核苷酸序列来设计。可用cDNA,任选地用基因组DNA作为模板,用合适的寡核苷酸引物,按标准PCR扩增技术来获得本发明的多核苷酸。扩增的多核苷酸可克隆进合适的载体中,并进行DNA序列分析。况且,根据乙酰辅酶A羧化酶的核苷酸序列相应寡核苷酸可用标准合成技术来合成,如用自动DNA合成仪。
术语“片段”、“某一序列的片段”或“某一序列的部分”指短于所述原始序列的截短序列。截短序列(核酸或蛋白序列)长度可差别很大;最短长度应当足以提供至少与原始序列相当的(comparable)功能和/或活性,然而最大片段的长度并不关键。在一些应用中,最大长度通常基本上不超过提供预期的原始序列的活性和/或功能。
典型地,截短氨基酸序列的长度范围从约5个氨基酸至约60个氨基酸。然而,更典型地,序列具有约50个氨基酸的最大长度,优选为约30个氨基酸的最大长度。通常,选择序列至少为约10、12或15个氨基酸,直到最大值为约20或25个氨基酸。
术语“表位”涉及抗原中的特异性免疫位点,也称为抗原决定簇。这些表位可以是多聚化物中线性排列的-如蛋白质的氨基酸,或者组成或包含更复杂的次级或三级结构单体。本领域技术人员可以理解所有的免疫原(即能够激发免疫反应的物质)都是抗原;然而,某些抗原,如半抗原并不是免疫原,但可能与载体分子耦合后具备免疫原性。术语“抗原”所指包括能够产生抗体的物质和/或与抗体能发生特异免疫反应的物质。
术语“一个或多个氨基酸”指至少一个氨基酸但不超过导致同源性低于60%同一性的氨基酸数目。优选地,所述同一性高于70%或80%,更优选为85%、90%或95%,进一步优选为96%、97%、98%或99%。
术语“乙酰辅酶A羧化酶”或“乙酰辅酶A羧化酶活性”如下面描述的多肽具有酶活性,或可以通过酶分析方法来确定。况且,在此处分析中失活的多肽,但能够被可特异性与乙酰辅酶A羧化酶结合的抗体所识别,即具有一个或多个乙酰辅酶A羧化酶表位,这种情况下,也认为属于“乙酰辅酶A羧化酶”。在这些情况中,所述活性指免疫活性。
术语“多核苷酸”和“核酸分子”也指“分离”的多核苷酸或核酸分子。“分离”的核酸分子是指与它天然来源中存在的其它核酸分子分离开来。优选地,“分离”的核酸分子不含有生物体的基因组DNA中天然状态的侧翼核酸(如该核酸的5’和3’末端的序列)。
例如,在许多实施方式中,PNO多核苷酸可包含低于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸序列,这些序列位于该核酸来源细胞(如Phaffia细胞)的基因组DNA中天然状态的该核酸分子的侧翼。此外,本发明的多核苷酸,尤其是“分离”的核酸分子,如cDNA分子可基本上不含有其它细胞物质,或者用重组技术表达产生时,不含有培养基,或者用化学合成时,不含有前体物质或其它化学成分。
优选地,本发明的多肽包含SEQ ID NO:2中所示的核苷酸序列中的一条。SEQ ID NO:2的序列相应于本发明的P.rhodozyma乙酰辅酶A羧化酶cDNA。
进一步,本发明的多核苷酸包含的核酸分子是上面提及的多核苷酸或其片段的核苷酸序列。与SEQ ID NO:2所示的核苷酸序列之一互补的核酸分子是指它与SEQ ID NO:2所示的核苷酸序列之一达到足够的互补以至可与SEQ ID NO:2所示的核苷酸序列之一杂交,进而形成稳定的双链。
本发明的多核苷酸包含的核苷酸序列与SEQ ID NO:2所示核苷酸序列或其部分有至少约60%,优选至少约65-70%,更优选至少约70-80%、80-90%或90-95%,更优选至少约95%、96%、97%、98%、99%或更高的同源性。本发明的多核苷酸包含的核苷酸序列可与SEQ ID NO:2所示核苷酸序列之一或其部分杂交,如在严谨条件下杂交。
更进一步地,本发明的多核苷酸可只包含SEQ ID NO:2中的序列之一的编码区的一部分,例如是可用作探针或引物的片段,或者编码了乙酰辅酶A羧化酶的生物活性部分。基于克隆自P.rhodozyma的乙酰辅酶A羧化酶基因所确定的核苷酸序列,可制备为用于鉴定和/或克隆其它类型细胞或生物体中的乙酰辅酶A羧化酶同源物的探针或引物。探针/引物典型包含基本上纯的寡核苷酸。典型地,寡核苷酸包含的核苷酸序列区域可在严谨条件下与如SEQ ID NO:2中的一条序列的有义链、或与如SEQ ID NO:2中的一条序列的反义链或它们的天然突变体中的至少约12、15,优选约20或25,更优选约40、50或75个保守性核苷酸杂交。基于本发明的多核苷酸的引物可用于PCR反应以克隆乙酰辅酶A羧化酶的同源物。基于乙酰辅酶A羧化酶核苷酸序列的探针可用于检测编码与之相同的蛋白或同源性蛋白的转录体或基因组序列。探针可进一步包括附着的标记基团,例如标记基团可以是放射性同位素、荧光化合物、酶或酶的辅助因子。这种探针可用作基因组标记检测试剂盒的一部分,用于鉴定表达乙酰辅酶A羧化酶的细胞,如通过在样品细胞中检测编码乙酰辅酶A羧化酶核酸分子,如检测乙酰辅酶A羧化酶mRNA水平或确定基因组乙酰辅酶A羧化酶基因是否发生突变或缺失。
本发明的多核苷酸编码的多肽或其部分所包括的氨基酸序列与SEQ IDNO:3的氨基酸序列有足够的同源性,以至于该蛋白或其片段仍然保持乙酰辅酶A羧化酶活性,尤其是保持如下面实施例中描述的微生物或植物中的乙酰辅酶A羧化酶活性。在此处,“足够的同源性”指所具有的氨基酸序列的蛋白或其部分包括了与SEQ ID NO:3的氨基酸序列之一中的相同或等价的氨基酸残基数目达到最低值,仍足以使该蛋白或其片段具有乙酰辅酶A羧化酶活性,其中相同或等价的氨基酸残基例如是与本发明的多肽序列之一的氨基酸残基具有相似的侧链。乙酰辅酶A羧化酶活性的实例也在此处作了描述。
所述蛋白与SEQ ID NO:3的全部氨基酸序列有至少约60-65%,优选至少约66-70%,更优选至少约70-80%、80-90%、90-95%,最优选至少约96%、97%、98%、99%或更高的同源性。
本发明的乙酰辅酶A羧化酶多核苷酸所编码的蛋白的片段优选地具有一个乙酰辅酶A羧化酶的生物活性片段。
如此处所述,术语“乙酰辅酶A羧化酶的生物活性片段”意指包括具有乙酰辅酶A羧化酶的生物活性片段,或具有免疫活性的片段以致于能与乙酰辅酶A羧化酶的特异性抗体结合。为了确定乙酰辅酶A羧化酶或其生物活性片段是否参与代谢,可进行酶活性分析。这种分析方法对本领域技术人员是熟知的,在实施例中将详细介绍。编码了乙酰辅酶A羧化酶的生物活性部分的额外核酸片段可通过如下方式获得:分离SEQ ID NO:2中的一个序列的片段,表达乙酰辅酶A羧化酶或肽的被编码片段(如通过体外的重组表达),进而评价乙酰辅酶A羧化酶或肽的被编码片段的活性。
首先,通过使用简并PCR方法克隆包含ACC基因片段的部分基因片段。所述简并PCR是一种克隆与在其它物种中的已知酶的氨基酸序列具有高度同源的感兴趣基因,它们具相同或相似的功能。在简并PCR中作为引物的简并引物是根据氨基酸序列反向翻译成相应地核苷酸(具有简并性)。在这种简并引物中,经常使用包括由A、C、G或T任一组成的混合引物,或包含在密码子不明确的地方具有次黄嘌呤核苷的引物。在本发明,简并引物采用上述混合引物以克隆上述基因。
可利用,由上面描述的简并PCR获得的部分DNA片段,标记后作为探针,通过筛选构建于合适宿主中噬菌体载体或质粒载体所形成的基因组文库,而从染色体中克隆包含编码区以及内含子和调控区如启动子或终止子的完整基因。通常,E.coli作为宿主菌,E.coli载体、噬菌体载体如λ噬菌体载体,或质粒载体如pUC载体经常用于构建文库和后续的遗传操作如测序、限制性消化、连接等。在本发明中,P.rhodozyma的EcoRI基因组文库被构建到衍生的λ载体,λZAPII中。插入片段的大小,即可以被克隆的插入片段的长度,在构建文库之前通过与基因的Southern印迹杂交来确定。在本发明中,作探针的DNA用地高辛(DIG,是一种类固醇半抗原而不是常规的32P标记),可根据制造商提供的方法进行标记(Boehringer-Mannheim,Mannheim,Germany)。用DIG-标记的DNA片段作为探针筛选由P.rhodozyma染色体构建的基因组文库,所述标记DNA片段具有感兴趣的基因的部分片段。挑取杂交斑,并用于进一步的研究。当λZAPII(插入片段小于9kb)被用于构建基因组文库时,接着可用单链M13噬菌体衍生物-Ex assist噬菌体(Stratagene,La Jolla,USA),通过体内切除方法可方便地将其克隆到质粒载体上。所获得的质粒DNA可用于测序。
在本发明中,我们使用自动荧光DNA测序仪,即ALFred系统(Pharmacia,Uppsala,Sweden),按自环化(autocycle)测序方法进行测序,其中采用的TaqDNA聚合酶为大多数测序所采用。
确定基因组序列之后,用编码区的序列克隆相应基因的cDNA。可用PCR方法来克隆cDNA片断。PCR引物的序列与开放阅读框的5’-和3’-末端的序列相同,在合成时增加合适的限制性内切酶位点,即可用这些PCR引物进行PCR反应。在本发明中,cDNA池作为PCR克隆cDNA的模板。所述cDNA池由许多cDNA组成,它们在体外利用反转录酶和Taq聚合酶(CapFinder Kit,由Clontech,Palo,Alto,USA),和来自P.rhodozyma的mRNA作为模板。确认所获得的cDNA的序列。进一步,在将所获得的cDNA克隆到表达载体以确认其酶活性,其中表达载体可在E.coli中在强启动子活性下起作用,如lac或T7表达系统。
在另一实施方式中,本发明涉及一种制备重组载体方法,其中所述载体插入了本发明的多核苷酸。
进一步,本发明涉及包含本发明的多核苷酸的重组载体或由本发明所述方法产生的重组载体。
在此处,术语“载体”指能传送被连接的多核苷酸的核酸分子。一种类型载体称为“质粒”,是环形双链DNA loop,可连接额外的DNA片段。一种类型载体是病毒载体,其中额外的DNA或RNA片段可连接到病毒基因组中。某些载体能够在所导入的宿主细胞中进行自我复制(如具有细菌复制起始的细菌载体和游离型哺乳动物(episomal mammalian)载体)。其它载体(如非游离型哺乳动物载体)在被导入的宿主细胞中可整合到其基因组,因而可与宿主基因组一起进行复制。此外,某些载体能表达与之可操作性连接的基因。这种载体被称为“表达载体”。通常,在重组DNA技术中使用的表达载体经常是质粒形式。在本发明说明书中,“质粒”或“载体”可以互换,这是由于质粒是通用载体形式。然而,本发明也包括其它形式的表达载体,如病毒载体(如复制缺陷型反转录病毒、腺病毒和腺伴随病毒),也具有等同的功能。
本发明也涉及包含了本发明的核酸分子的遗传工程中常用的柯斯质粒、病毒、噬菌体和其它载体。本领域技术人员熟知构建不同质粒和载体的方法。任选地,本发明的核酸分子和载体可重构到脂质体中,用于导入到靶细胞中。
本发明进一步涉及如述载体,其中本发明的多核苷酸可操性连接到表达控制序列,因而能在原核或真核宿主细胞中进行表达。根据不同宿主生物体,有不同的这种调控序列性质。在原核生物中,控制序列通常包括启动子、核糖体结合位点和终止子。在真核生物中,控制序列通常包括启动子、终止子,以及某些情况下还包括增强子、顺式激活因子或转录因子。
术语“控制序列”意欲包括,表达所必需的最小成分,且也包括其它有利的成分。
术语“可操作性连接”指成分的排列允许以预期的方式发生作用。控制序列“可操作性连接”于编码序列指其连接方式使编码序列在控制序列的控制下在合适条件得到表达。如果控制序列是启动子,本领域技术人员可显而易见的是需要双链核酸。
调控序列包括那些在许多类型的宿主细胞中指导核苷酸序列组成型表达的调控序列,和那些指导只在特定宿主细胞或特定条件下引起核酸序列表达的调控序列。本领域技术人员可以理解的是,可基于欲转化的宿主细胞、预期蛋白表达水平等因素来设计表达载体。本发明的表达载体可引入到宿主细胞中,因而产生由此处所述的多核苷酸编码的蛋白或多肽,包括融合蛋白或肽。
本发明的重组表达载体可设计成在原核或真核细胞中表达乙酰辅酶A羧化酶。本发明的多核苷酸基因可在下述细胞中表达:细菌细胞如E.coli、昆虫细胞(利用杆状病毒病毒表达载体)、酵母和其它真菌细胞、藻类、可用载体按WO9801572中描述的转化方法进行转化的纤毛纲类型(ciliate oftypes):Holotrichia,Peritrichia,Spirotrichia,Suctoria,Tetrahymena,Paramecium,Colpidium,Glaucoma,Platyophrya,Potomacus,Pseudocohnilembus,Euplote,Engelmaniella,Stylonychia,尤其是Stylonychialemnae,以及多细胞的植物细胞。任选地,重组表达载体在体外进行转录和翻译,如利用T7启动子调控序列和T7聚合酶。
在真核生物中表达蛋白最经常用含有组成或诱导型启动子控制融合或非融合蛋白的表达的载体来完成。融合载体增加了数个氨基酸到编码的蛋白质上,通常增加的氨基酸存在于重组蛋白的氨基末端,但也可位于C末端或融合到蛋白的合适区域。利用这种融合载体典型地有三个目的:1)增加重组蛋白的表达;2)增加重组蛋白的可溶性以及3)作为亲和纯化的配体而利于重组蛋白的纯化。通常,融合表达载体,在融合部分和重组蛋白之间的连接处引入有蛋白切割位点,以使重组蛋白在对融合蛋白纯化之后能与融合部分分离开。这种酶,及它们的同族识别序列(cognate recognitionsequences),包括Xa因子、凝血酶和肠激酶。
典型地融合表达载体包括pGEX(Pharmacia Biotech Inc.)、pMAL(NewEngland Biolabs,Beverly,USA)和pRIT5(Pharmacia,Piscataway,USA),可分别将谷胱甘肽S-1转移酶(GST)、麦芽糖E结合蛋白或蛋白A融合到靶重组蛋白。在一个实施方式中,本发明的多核苷酸编码的多肽的编码序列克隆到pGEX表达载体中,构建成了编码了融合蛋白的载体,其中从N末端到C末端,融合蛋白包括GST-凝血酶切割位点-X蛋白。用谷光甘肽琼脂树脂的亲和层析来纯化融合蛋白,例如可通过凝血酶切割融合蛋白来获得没有融合GST的重组乙酰辅酶A羧化酶。
合适诱导非融合E.coli表达载体的实例包括pTrc和pET11d。pTrc载体的靶基因表达依赖宿主RNA聚合酶从杂交trp-lac融合启动子的转录。pET11d载体上靶基因的表达依赖从T7gn10-lac融合启动子的转录,其由病毒RNA聚合酶(T7gnl)共表达所介导。这个病毒聚合酶可通过自携带了受lacUV5启动子转录调控的T7gnl基因的固有(resident)λ噬菌体由宿主菌BL21(DE3)或HMS174(DE3)提供。
一种重组蛋白表达最大化的策略是在对重组蛋白切割能力被削弱的宿主菌中进行表达。另一策略是将改变了核酸序列的核酸插入到表达载体中,以使编码每一个氨基酸的各密码子是所选择用于表达的细菌如E.coli所偏好使用的密码子。这种对本发明的核酸序列的改变可用标准DNA合成技术来完成。
进一步,乙酰辅酶A羧化酶载体可以是酵母表达载体。在酵母S.cerevisiae中的载体的例子包括pYepSec1、pMFa、pJRY88和pYES2(Invitrogen,San Diego,USA)。构建适合于在其它真菌如丝状真菌中使用的载体和方法是本领域技术人员所熟知的。
任选地,本发明的多核苷酸利用杆状病毒表达载体而导入到昆虫细胞中。在培养的昆虫细胞(如SF9细胞)中表达蛋白的杆状病毒载体包括pAc系列和pVL系列。
任选地,本发明的多核苷酸可利用哺乳动物表达载体而导入到哺乳动物细胞中。哺乳动物表达载体的例子包括pCDM8和pMT2PC。当用于哺乳动物细胞,表达载体中由病毒调节元件提供控制功能。例如,常用的启动子衍生自多瘤病毒、腺病毒2、巨细胞病毒和猴病毒(simian virus)40。
重组哺乳动物表达载体可偏好性在特定细胞类型中引起核酸表达(例如将组织特异性调节元件用于核酸表达)。组织特异性调节元件是本领域已知的。合适的组织特异启动子的非限制性例子,包括白蛋白启动子(肝特异性)、淋巴特异性启动子尤其是T细胞受体和免疫球蛋白的启动子,神经元特异性启动子(如神经丝启动子),胰腺特异性启动子以及乳腺特异性启动子(如乳清启动子,US4873316和EP264166)。也包括发育调节启动子,例如鼠hox启动子和胎蛋白(fetoprotein)启动子。
进而,如通过酶分析方法验证表达的ACC基因的活性。一些实验程序在现有技术文献中已有描述。下面是一个用于确定乙酰辅酶A羧化酶活性的方法:用反相HPLC,在5分钟间隔,20分钟,分析乙酰辅酶A的减少和/或丙二酰-辅酶A的产生。乙酰辅酶A向丙二酰-辅酶A的转化率在20分钟内是线性,则通过线性回归分析丙二酰-辅酶A浓度与时间之间的关系得到转化速率。反应混合物包含50mM Tris,pH7.5,6uM乙酰辅酶A,2mMATP,7mM KHCO3,8mM MgCl2,1mM二硫苏糖醇,以及1mg/ml牛血清白蛋白。将酶预先与牛血清白蛋白(2mg/ml)和柠檬酸钾(10mM)温育(25℃,30分钟)。将50ul预先温育的酶转移到反应混合液中(最终体积为200ul)以起动反应,以及25℃温育5-20分钟。加入50ul 10%高氯酸终止反应。终止反应之后,对样品进行离心(10000g,3分钟),进行HPLC分析。使用的流动相为10mM KH2PO4,pH6.7(溶液A),和MeOH(溶液B)。流速为1.0ml/分钟,且梯度如下:置于100%的溶液A中1分钟,之后的5分钟中,线性梯度至用30%溶液B的,然后于30%溶液B中保持5分钟。用这种方法,丙二酰-辅酶A和乙酰辅酶A的保持时间分别为7.5和9.0分钟。当利用适于S.cerevisiae的表达载体时,可用常规的条件性乙酰辅酶A羧化酶无义突变菌株作为宿主菌来验证其活性,其无义突变菌株衍生自S.cerevisiae。
在确认酶活性之后,可对表达的蛋白进行纯化,并用于产生针对纯化酶的抗体。制备的抗体因而可用于鉴定改良菌株研究中表达的相应蛋白、培养条件的优化研究等。
在进一步地实施方式中,本发明涉及可特异性结合本发明的多肽或其部分,即特异性片段或这种蛋白的表位的抗体。
本发明的抗体可以用于鉴定和分离其它乙酰辅酶A羧化酶和基因。这些抗体可以是单克隆抗体、多克隆抗体或合成抗体以及抗体的片段,如Fab、Fv或scFv片段等。例如可通过Kohler和Milstein最初描述的技术来制备单克隆抗体,该技术包括将鼠骨髓瘤细胞与来源于免疫哺乳动物的脾细胞进行融合。
进一步,本领域技术人员按已知的方法来制备前面提及的多肽相应的抗体或其片段。例如这些抗体可用于与本发明的蛋白进行免疫沉淀和免疫定位,以及监控如重组生物体中的蛋白合成,以及鉴定与本发明相互作用的化合物。例如,在BlAcore体系中采用了表面胞质共振(surface plasmonresonance),可增加噬菌体抗体选择的效率,因此从与本发明蛋白的表位结合的单个噬菌体抗体文库产生亲和力增加。在许多情况下,抗体与抗原的结合现象与其它配体/抗配体之间的结合一样。
在本发明中,乙酰辅酶A羧化酶的基因片段可从P.rhodozyma中克隆,并利用所克隆的基因片段通过遗传工程方法来减低在P.rhodozyma中的表达水平。
通过遗传工程方法来减低基因的表达水平,可采用某些策略,其中之一是基因破坏(gene-disruption)方法。这种方法中,欲破坏的目标基因的部分片段连接到整合载体上的药物抗性表达盒,其中整合载体在宿主中不能复制。药物抗性基因编码的酶可以使宿主在毒性抗生素存在的环境下存活,因而是常用选择标记。pGB-Ph9携带有G418抗性基因(Wery etal.(Gene,184,89-97,1997))是在P.rhodozyma中起作用的药物抗性基因的例子。对于具有合适的营养缺陷型标记的宿主,也可利用营养互补标记。P.rhodozyma ATCC24221菌株的生长需要胞苷,是营养缺陷型的例子。通过用CTP合酶基因作为ATCC24221的供体DNA,建立利用营养互补的宿主载体系统。
在宿主生物的转化之后,在载体上的目标基因片段与宿主生物体的染色体上的相应基因片段发生重组,经单杂交重组,整合载体整合到宿主染色体上。这种重组的结果,药物抗性表达盒将插入到目标基因中,其翻译产物只是截短形式,而不具有酶功能。在类似的方式中,目标基因的两个部分也可用于基因破坏研究,其中药物抗性基因将插入到整合载体上所述目标基因的两个部分片段之间。这种类型的载体,在整合载体上的基因片段与宿主的染色体上的相应基因片段需要发生双重组。虽然这种双重杂交导致的重组频率低于单次杂交重组,而双重杂交重组产生的目标基因的无义(null)表型比单次杂交重组所产生的要稳定。
另一方面,当基因的功能是宿主必需的时,若被破坏则对宿主生物体是致死的,则这种策略很困难,例如乙酰辅酶A羧化酶基因。乙酰辅酶A羧化酶的功能对于除脂肪酸生物合成之外,对宿主存活是必需的。基于这种观点,似乎很难通过基因破坏方法来构建P.rhodozyma的乙酰辅酶A羧化酶破坏体(disruptant)。
这种情况下,其它策略也可用于降低(而不是破坏)基因的表达,其中之一就是常规的致突变方法,以筛选出乙酰辅酶A羧化酶表达量降低的突变体。这种方法,具有合适的报告基因与来自宿主的乙酰辅酶A羧化酶基因启动子区融合的合适的重组体进行突变,筛选报告基因产物的活性较弱的突变体。这种突变体,除了基因启动子本身的突变,其中乙酰辅酶A羧化酶的表达活性的降低是在于影响着乙酰辅酶A羧化酶基因的表达存在于报告基因的启动子区的突变,或存在于反式激活区。在报告融合体的启动子区发生突变的情况下,则可用相应区域的序列来分离这种突变。进而,通过染色体上的乙酰辅酶A羧化酶基因原始的启动子与突变的启动子片段之间发生重组,而将分离出的突变导入到各种衍生自P.rhodozyma的能产生类胡萝卜素,尤其是虾青素的突变体中。为了排除在反式激活区发生的突变,在启动子区的顺式元件经体外突变也可诱导突变。这种方法,基因表达盒进行突变,并导入到P.rhodozyma中,其中基因表达盒包含整合到衍生自在其5’末端的感兴趣基因的启动子和在其3’末端的感兴趣基因的终止子融合的报告基因。通过检测报告基因的活性差异,可以筛选到有效的突变体。这种突变体可通过如体内突变方法相同的方法将其导入到染色体上天然启动子的序列中。但是,这些方法也有些缺点,即比较费时。
另一种降低基因表达的策略是反义方法。甚至当有性型(teleomorphic)生物体如P.rhodozyma被用作宿主生物时,通常难以应用突变方法和基因破坏方法,此时反义方法被常采用。反义方法是一种通过导入人工基因片段来降低目的基因表达的方法,其中人工基因片段与靶标基因的cDNA片段互补。这种反义基因片段将在体内与目标基因的成熟mRNA片段形成复合体,因而抑制了从mRNA的有效翻译。
“反义”核酸分子包括一种核酸序列,其与编码蛋白的“有义”核酸分子完全互补,例如互补于双链cDNA分子的编码链或互补于mRNA序列。相应地,反义核酸分子通过氢键与有义核酸分子结合,反义核酸分子可互补于完整的乙酰辅酶A羧化酶的编码链,或仅仅其部分。相应地,反义核酸分子可以反义于编码乙酰辅酶A羧化酶的核酸序列的编码链的“编码区”。术语“编码区”指包含可翻译成氨基酸残基的密码子的核酸序列的区域。进一步,反义核酸分子可反义于编码乙酰辅酶A羧化酶的核酸序列的编码链的“非编码区”。术语“非编码区”指侧接于编码区的5’和3’端的序列,它们并不被翻译成多肽(即也指5’和3’非翻译区)。
根据此处公开的编码乙酰辅酶A羧化酶的编码链序列,可根据Watson和Crick碱基配对规则来设计本发明的反义核酸分子。反义核酸分子可互补于完整的乙酰辅酶A羧化酶mRNA,但也可以是反义于乙酰辅酶A羧化酶mRNA编码或非编码区的一部分的寡核苷酸。例如,反义寡核苷酸可与乙酰辅酶A羧化酶mRNA翻译起始位点周围区域互补。反义寡核苷酸例如约5、10、15、20、25、30、35、40、45或50个核酸的长度。本发明的反义核酸分子可用已知技术如利用化学合成或酶连接反应构建。例如,反义核酸分子(例如反义寡核苷酸)可利用天然存在的核苷酸或各种修饰的核苷酸来化学合成,其中设计的修饰核苷酸是为了增加分子的生物活性或增加反义和有义核酸形成的双链的物理稳定性,例如可以利用硫代磷酸(phosphorothioate)衍生物和吖啶取代的核苷酸。可用于产生反义核酸的修饰核苷酸的例子,包括:5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶(chlorouraci)、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰胞嘧啶、5-(羧羟基甲基)尿嘧啶、5-羧甲基-氨甲基-2-硫脲核苷、5-羧甲基氨甲基尿嘧啶、二氢尿嘧啶、β-D-galactosylqueosine、次黄(嘌呤核)苷、N6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基次黄(嘌呤核)苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞核嘧啶、5-甲基胞核嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-methylaminomethyluracil、5-甲氧基氨甲基-2-硫脲嘧啶、β-D-mannosylqueosine、5’-methoxycarboxymethyluracil、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-羟基乙酸(v)、wybutoxosine、假尿(嘧啶核)苷(pseudouracil)、queosine、2-硫代胞嘧啶、5-甲基-2-硫脲嘧啶、5-甲基-2-硫脲嘧啶、2-硫脲嘧啶、4-硫脲嘧啶、5-甲基尿嘧啶、尿嘧啶-5-羟基乙酸甲酯、尿嘧啶-5-羟基乙酸(v)、5-甲基-2-硫脲嘧啶、3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w、以及2,6-二氨基嘌呤。任选地,反义核酸也可通过生物方法产生,将多核苷酸中以反义方向亚克隆到表达载体中(即从插入的多核苷酸转录RNA将与靶多核苷酸而言是反义方向的,下面将进一步描述)。
本发明的反义核酸分子典型地给予到细胞或原位产生,以使它们能与编码乙酰辅酶A羧化酶的细胞mRNA和/或基因组DNA杂交或结合,进而抑制蛋白的表达,如抑制转录和/或翻译。通过常规核苷酸互补的杂交形成稳定的复合体,或例如,在反义核酸分子与DNA结合形成复合体情况中,是通过双螺旋的主沟发生的特异性互相作用。反义分子可被修饰成以便与在选择细胞表面表达的受体或抗原特异性结合,例如将反义核酸分子与肽或抗体连接,其中肽或抗体能与细胞表面的受体或抗原结合。反义核酸分子也可通过此处描述的载体而导入到细胞中。为了使反义分子在细胞内达到足够的浓度,载体构建体中的反义核酸分子被置于强原核、病毒或真核包括植物的启动子控制之下是优选的。
本发明的反义核酸分子,例如可以是α异构体的核酸分子。α异构体的核酸分子与互补的RNA形成特异的双链杂交,由于RNA通常是β异构体,故形成的双链是两条链是平行的。反义核酸分子也可包括2’-o-甲基化核糖核苷酸或嵌合的RNA-DNA类似物。
进一步地,本发明的反义核酸分子可是核酶。核酶是具有核糖核酸酶的催化活性的RNA分子,可切割具有与其互补区的单链核酸如mRNA。因而,核酶(如锤头核酶)可用于催化切割乙酰辅酶A羧化酶mRNA转录体,进而抑制mRNA的翻译。特异于乙酰辅酶A羧化酶编码核酸分子的核酶可基于此处公开的乙酰辅酶A羧化酶cDNA的核苷酸序列来设计,或基于根据本发明教导的方法分离出来的异源序列来设计。例如Tetrahymena L-19IVS RNA衍生物可被构建成活性位点的核苷酸序列与在编码mRNA中切割的核苷酸序列互补(可参见US 4987071和US511672)。任选地,乙酰辅酶A羧化酶mRNA可用于在RNA分子池中选择具有特异性的核糖核酸酶活性的催化性RNA。
EP1158051公开了,反义方法应用于构建类胡萝卜素过量产生的P.rhodozyma菌株。
本发明的一个实施方式涉及制备重组宿主细胞的方法,包括将本发明的载体或多核苷酸导入到宿主细胞。
载体DNA可通过常规的转化或转染技术而被导入到原核细胞或真核细胞。在此处,术语“转化”和“转染”,接合和转导是指各种已知的将外源核酸(如DNA)导入到宿主细胞的人工识别技术,包括磷酸钙或氯化钙共沉淀,DEAE-葡聚糖介导的转染,脂转染,自然感受态(natural competence),化学介导转移或电穿孔法。转化或转染宿主细胞包括植物细胞的合适方法是本领域熟知的。
对于哺乳动物细胞的稳定转化,只有其中一部分细胞中的基因组中可整合了外源DNA,这依赖于所采用的表达载体和转染技术。为了鉴定和选择出这些整合体,通常与目的基因一起还导入编码选择标记(例如抗生素的抗性)。优选的选择标记包括那些赋予对药物,如G418、潮霉素和氨甲蝶呤的抗性。编码选择标记的核酸可在包括编码本发明多肽的同一载体上一起导入宿主细胞,也在另外的载体上而被导入。导入的核酸稳定转化的细胞可通过,如药物来选择(例如整合了选择标记基因的细胞可以存活,而其它细胞被杀死)。
为了获得同源性重组微生物,先需要制备这样的载体,其中包含至少部分本发明多核苷酸的片段,该片段中引入了缺失、增加或取代,因而可改变,如功能性破坏乙酰辅酶A羧化酶基因。优选地,该乙酰辅酶A羧化酶基因是P.rhodozyma乙酰辅酶A羧化酶基因,但也可以是来自相关或不同来源的同源物。任选地,载体被设计成可通过同源重组,内源乙酰辅酶A羧化酶基因被突变或改变但仍然编码有功能的蛋白(可改变上游调控区而改变内源乙酰辅酶A羧化酶的表达)。也可用经同源重组及DNA-RNA杂交体来创造点突变,这被称为chimeraplasty,可参见Cole-Strauss et al.,Nucl.Aci.Res.,27,5,1323-1330,1999和Kmiec,Gene therapy.,American Scientist.87,3,240-247,1999。
载体可导入到细胞,进而可利用已知技术来选择被导入的多核苷酸基因与内源乙酰辅酶A羧化酶基因发生了同源重组的细胞。
进一步,也可制备包含能调节被导入基因表达的选择体系的宿主细胞。例如,将载体中的本发明多核苷酸的置于lac操纵子的控制之下,而使多核苷酸只有存在IPTG时才表达。这种调节体系在本领域是熟知的。
优选地,导入的核酸对宿主细胞而言是外源的。
“外源”指核酸分子要么相对于宿主细胞而言是异源的,此时指核酸分子来自具有不同的基因组背景的细胞或生物体。或者与宿主细胞是同源,此时指相对于天然存在的对应核酸分子而言,所述核酸分子位于不同的基因组环境。也就是说,如核酸分子相对于宿主细胞是同源的,则在所述宿主细胞的基因组中,它不位于它天然存在的位置,尤其指被不同的基因所包围。这种情况下,核酸分子受它本身的启动子控制,或被异源启动子所控制。导入宿主细胞的本发明的载体或核酸分子,可整合到宿主细胞的基因组中,或以某种形式而仍然保持于染色体之外。这一方面,也可理解为本发明的核酸分子用于通过同源重组而恢复或创建突变基因。
相应地,在本发明的其它实施方式中,涉及用本发明的多核苷酸或载体进行遗传工程改变的宿主细胞。
术语“宿主细胞”和“重组宿主细胞”在此处可互换。应当理解的是,该术语不仅指特定的目标细胞,也指这种细胞的后代或潜在后代。在继代过程由于突变或环境影响而导致某些改变,因而这种后代实事上可能与亲本细胞不相同,但仍然包含在此处所用术语的范围之内。
例如,本发明的多核苷酸可导入到细菌细胞,以及昆虫细胞、真菌细胞或哺乳动物细胞(如中华仓鼠卵巢细胞(CHO)或COS细胞)、藻类、纤毛虫、植物细胞、真菌或其它微生物如E.coli。其它合适的宿主细胞对本领域技术人员是熟知的。优选的是E.coli、杆状病毒、农杆菌或真菌细胞,如属于糖酵母属(Saccharomyces)种,例如酿酒酵母(S.cerevisiae)和P.rhodozyma(Xanthophylomyces dendrorhous)。
此外,一个实施方式中,本发明涉及产生真菌转化体的方法,包括将本发明的多核苷酸或载体导入到所述真菌细胞的基因组中。
为了在植物中以有义或反义方向表达本发明的核酸分子,可将所述分子置于调控元件控制之下,以保证在真菌细胞中能够表达。这些调控元件可相对于将要表达的核酸分子或将要转化的真菌而言是异源或同源的。
通常,这种调控元件包括在真菌细胞中能起作用的启动子。为了在真菌细胞中组成型表达,优选的组成型启动子选用如来自P.rhodozyma的甘油醛-3-脱氢酶启动子(WO 97/23633)。诱导型启动子可用于精确控制的表达。诱导型启动子的一个例子是热激蛋白基因的启动子。作为诱导型启动子的候选者的淀粉酶基因启动子也已公开(EP 1035206)。调控元件可进一步包括在真菌中起作用的转录和/或翻译增强子。而且,调控元件也包括转录终止信号,如聚腺苷信号,可导致聚腺苷尾巴增加到转录体上以改善其稳定性。
将外源基因导入到真菌细胞中的方法也是本领域中已知的。这些方法包括,如用LiCl方法的转化,原生质体融合,电穿孔,biolistic方法等粒子轰击法以及其它本领域熟知的方法。利用biolistic方法的转化方法是本领域技术人员所熟知的。
此处所用的术语“转化”指将外源多核苷酸转移到宿主细胞,而不管用什么方法来转移。多核苷酸可瞬时或稳定导入到宿主细胞,也可保持非整合状态,如作为质粒或嵌合link,或任选地,也可整合到宿主基因组中。
通常,可根据本发明来修饰真菌,以过量表达本发明的蛋白,或者降低这种蛋白的合成,所述真菌可来自任何预期的真菌种。
进一步,在一个实施例中,本发明涉及真菌细胞,其包含由本发明方法获得的多核苷酸或载体。
因而,本发明涉及转基因真菌细胞,其包含(优选是稳定整合进基因组)连接于调控元件的根据本发明的多核苷酸,以使多核苷酸在真菌细胞中能表达,而且所述多核苷酸相对转化真菌细胞而言是外源的。关于外源的含义,如上所述。
因而,本发明也涉及根据本发明的转化的真菌细胞。
相应地,由于改变了乙酰辅酶A羧化酶的表达,细胞代谢途径在产物的产量和/或生产的效率方面被调整。
术语“生产(production)”或“产率(productivity)”是本领域公知的,包括在给定时间和给定发酵体积中(如kg产物/小时/升)形成的发酵产物(例如脂肪酸、类胡萝卜素、(多)糖、脂、维生素、类异戊二烯、蜡酯和/或聚合体如polyhydroxyalkanoates和/或其代谢产物,或此处提及的精细化合物)的浓度。
术语生产的“效率”包括为获得特定水平的生产所需要的时间(例如,细胞需要多长时间来达到将所述改变的产物产出的特定速率,尤其是转化成类胡萝卜素、(多)糖、脂、维生素、类异戊二烯等)。
术语“产量”或“产品/碳产量”是本领域已知的,包括将碳源转换成产品的效率(即乙酰辅酶A,脂肪酸,维生素,类胡萝卜素、类异戊二烯,脂类等和/或其它如上述提及的化合物,它们的生物合成基于所述产品)。通常被记为,例如,kg产品/kg碳源。通过增加产量或化合物的生产,在给定量的培养基中培养给定时间内,由化合物回收分子的量、或有用回收分子增加了。
术语“生物合成”(被用作与细胞、组织、植物等中的“生物产品”的“合成”的同义词)或“生物合成途径”都是本领域中已知的,包括通过细胞从中间化合物,并经过多个步骤和高度调节过程而合成化合物,优选是有机化合物。
术语“代谢”是本领域公知的,包括在生物体中发生的全部生物化学反应。特定化合物的代谢(如乙酰辅酶A、脂肪酸、己醣,类异戊二烯,维生素、类胡萝卜素、脂类等)因而也包括在与该化合物相关的细胞中整个生物合成、修饰和降解途径。
这种遗传工程改造的P.rhodozyma可在合适的培养基中培养,并评价它产生类胡萝卜素,尤其虾青素的产率。选择能超量产生虾青素的菌株,并通过其产率与通过这种遗传工程方法导入的基因或蛋白的表达水平关系而得以证实。
本发明进一步由下述实施例进行阐明。
在实施例中采用的材料和方法描述如下:
菌株
P.rhodozyma ATCC96594(按照Budapest条约,于1998年4月8日重新保存,其保藏号为ATCC 74438)
E.coli DH5α:F’,Φ80d,lacZΔM15,Δ(lacZYA-argF)U169,hsd(rk -,mk +),recA1,endA1,deoR,thi-1,supE44,gyrA96,relA1(Toyobo,Osaka,Japan)
E.coli XL1-Blue MRF’:Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,recA1,gyrA96,relA1,lac[F’proAB,lacIqZΔM15,Tn10(tetr)](Stratagene,La Jolla,USA)
E.coli SOLR:e14-(mcrA),Δ(mcrCB-hsdSMR-mrr)171,sbcC,recB,recJ,umuC::Tn5(kanr),uvrC,lac,gyrA96,relA1,thi-1,endA1,ΔR,[F’proAB,lacIqzΔM15]Su-(非抑制)(Stratagene)
E.coli TOP 10:F-,mcrA,Δmrr-hsdRMS-mcrBC),Φ80,ΔlacZ M15,ΔlacX74,recA1,deoR,araD139,(ara-leu)7697,galU,galK,rpsL(Strr),endA1,nupG(Invitrogen,Carlsbad,USA)
载体
λZAPII(Stratagene)
pBluescriptII KS-(Stratagene)
pMOSBlue T-载体(Amersham,Buckinghamshire,U.K.)
pCR2.1-TOPO(Invitrogen)
培养基
P.rhodozyma菌株在常规的YPD培养基中保存(DIFCO,Detroit,U.S.A.)。
E.coli菌株保存在LB培养基(每升含10g Bacto-胰蛋白胨,5g酵母抽提物(DIFCO)和5g NaCl)。NZY培养(每升含5g NaCl,2g MgSO4-7H2O,5g酵母抽提物(DIFCO),10g NZ amine type A(WAKO,Osaka,Japan)),于软琼脂(0.7%琼脂(WAKO))以用于λ噬菌体的繁殖。当制备琼脂培养基时,需添加1.5%的琼脂(WAKO)。
方法
限制性内切酶和T4DNA连接酶购于Takara Shuzo(Ohtsu,Japan)。
分离P.rhodozyma的染色体DNA可用QIAGEN Genomic试剂盒(QIAGEN,Hilden,Germany)按所提供的操作方法进行。从转化的E.coli中进行质粒DNA的微制备可用自动DNA分离体系(PI-50,Kurabo,Co.Ltd,Osaka,Japan)。从E.coli转化体中进行质粒DNA的微制备可用QIAGEN柱(QIAGEN)。用Wizardλ制备DNA纯化系统(Promega,Madison,USA)用于分离λDNA,按生产商提供的操作方法进行。用QIA快速或QIAEXII(QIAGEN)从琼脂中分离和纯化DNA片段。λ噬菌体衍生物的操作按生产商(Stratagene)提供的方法进行。
用Isogen(Nippon Gene,Toyama,Japan)的酚法从P.rhodozyma分离总RNA。从总RNA纯化mRNA可通过mRNA分离试剂盒(Clontech)来获得。用CapFinder cDNA构建试剂盒(Clontech)合成cDNA。
用Gigapack III金包装extract(Stratagene)进行体外包装。
聚合酶链式反应(PCR)采用Perkin Elmer model 2400热循环仪来进行。每个PCR的条件在实施例中进行描述。PCR引物可从商业途径购得。用于DNA测序的荧光DNA引物购自Pharmacia。用自动荧光DNA测序仪(ALFred,Pharmacia)来进行DNA测序。
DH5α感受态细胞购自Toyobo(Japan)。
实施例1:分离P.rhodozyma mRNA并构建cDNA文库
为了构建P.rhodozyma cDNA文库,用酚抽提法从刚破碎的细胞中分离总RNA,进而用mRNA分离试剂盒(Clontech)纯化P.rhodozyma ATCC96594mRNA。
首先,ATCC96594菌株的细胞在以10ml的YPD培养基中培养2天后,通过离心收集细胞(1500×g,10分钟),用抽提缓冲液(10mM柠檬酸钠/HCl(pH6.2,并含0.7M KCl)洗涤一次。悬浮于2.5ml抽提缓冲液之后,用French压碎匀浆(Press homogenizer)(Ohtake Works Corp.,Tokyo,Japan)以1500kgf/cm2进行破碎,并根据生产商提供的方法立即与两倍体积的等基因isogen(Nippon基因)混合。在这一步中,获得400ug的总RNA。
然后,用mRNA分离试剂盒(Clontech)根据生产商提供的方法纯化总RNA。最终,获得16ug的P.rhodozyma ATCC96594菌株mRNA。
采用GapFinder PCR cDNA构建试剂盒(Clontech),按生产商提供的方法构建cDNA文库。用lug的纯化mRNA经PCR扩增进行第一链合成。在该次PCR扩增之后,获得1mg cDNA池。
实施例2:从P.rhodozyma克隆部分ACC(乙酰辅酶A羧化酶)基因的
采用简并PCR法克隆P.rhodozyma的ACC基因的一部分。下述列出了用于多重比较(multiple alignment)分析的乙酰辅酶A羧化酶序列相应的物种和保藏号:
拟南芥(Arabidopsis thaliana) D34630(DDBJ)
Emericella nidulans Y15996(EMBL)
Gallus gallus P11029(Swiss-Prot)
Glycine max S41121(PIR)
Medicago sativa L25042(GenBank)
Ovis aries Q285559(Swiss-Prot)
褐家鼠(Rattus norvegicus) P11497(Swiss-Prot)
酿酒酵母(Saccharomyces cerevisiae) Q285559(Swiss-Prot)
粟酒裂殖酵母(Schizosaccharomyces pombe) Q285559(Swiss-Prot)
(玉蜀黍黑粉菌)Ustilago maydis S49991(PIR)
根据来自其它物种的已知乙酰辅酶A羧化酶基因的共同序列设计并合成两个混合引物:acc9(有义引物)(SEQ ID NO:4)和acc13(反义引物)(SEQ IDNO:5)(序列中的“n”指核苷酸a、c、g或t,“h”指核苷酸a、c或t,“m”指核苷酸a或c,“k”指核苷酸g或t,以及“y”指核苷酸c或t)。
用ExTaq(Takara Shuzo)作DNA聚合酶,实施例1中获得的cDNA池作为模板,以如下参数进行PCR:95℃30秒,45℃30秒以及72℃15秒,共进行25个循环。之后,将反应混合物进行琼脂糖凝胶电泳。从琼脂凝胶上回收预期长度(0.8kb)的一PCR带,并通过QIAquick(QIAGEN)按所提供的方法进行纯化,然后连接到pMOSBlue-T-载体(Amersham)上。转化感受态E.coli DH5α,选择出6个白色菌落,并用自动DNA分离体系分离其中的质粒。测序结果发现,3个克隆含有序列,所推导的氨基酸序列与已知乙酰辅酶A羧化酶基因相似。这些分离的cDNA克隆称为pACC1014,并用于进一步筛选试验。
实施例3:分离P.rhodozyma的基因组DNA
为了分离P.rhodozyma的基因组DNA,用QIAGEN基因组试剂盒,并按生产商提供的方法进行操作。
首先,在100ml YPD培养基过夜培养P.rhodozyma ATCC96594菌株,通过离心收集细胞(1500×g,10分钟),用TE缓冲液(10mM Tris/HCl(pH8.0,并含1mM EDTA)洗涤一次。悬浮于8ml QIAGEN基因组试剂盒中Y1缓冲液之后,加入细胞裂解酶(lyticase)(SIGMA,St.Louis,USA)到2mg/ml以通过酶降解来裂解细胞,反应混和物于30℃温育90分钟,然后进行下一步抽提步骤。最终,获得20ug的基因组DNA。
实施例4:以pACC1014作为探针进行Southern印迹杂交
通过Southern印迹杂交克隆包含P.rhodozyma的ACC基因的基因组片段。2ug基因组DNA用EcoRI消化,并进行琼脂糖凝胶电泳,接着进行酸和碱处理。采用transblot(Joto Rika,Tokyo,Japan)将变性DNA向尼龙膜(Hybond N+,Amersham)转移1小时。转移到尼龙膜的DNA通过热处理进行固定(80℃,90分钟)。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI和SalI消化的pACC1014)作为探针。按生产商提供的方法进行杂交反应。结果,观察到在2.0至2.3kb范围的杂交带。
实施例5:含有ACC基因的基因组片段的克隆
用EcoRI消化4ug基因组DNA,进行琼脂糖凝胶电泳。然后,用QIAEXII抽提试剂(QIAGEN),根据生产商提供的方法回收长度在1.5至2.7范围内的DNA。纯化DNA与0.5ug用EcoRI消化和CIAP(小牛肠碱性磷酸酶)处理的λZAP II(Stratagene)于16℃连接过夜,并用Gigapack III金包装提取物(Stratagene)进行包装。包装的提取物被感染E.coli MRF’菌株,并用倾注LB琼脂培养基上的NZY培养基over-laid。用EcoRI和SalI消化的pACC1014作探针筛选约5000个噬菌斑。有5个噬菌斑能够与标记探针杂交。
对这些包含假定为P.rhodozyma ACC基因的λZAP II衍生物进行体内切割程序,按操作说明书进行(Stratagene),将插入片段克隆到E.coli克隆载体即pBluescript SK中。从5个阳性噬菌体中回收每一个克隆,用于序列分析,发现其中3个具有与pACC1014中的插入片段完全相同的序列。其中的一个称为pACC1224,用于进一步研究。对pACC1224中的插入片段的整个区域进行测序,结果表明该克隆既不包含ACC基因的5’末端,也不包含其3’末端。
实施例6:用基因组步行法克隆P.rhodozyma基因组中pACC1224中的插入片段的侧翼区
根据pACC1224的内在序列设计合成两个PCR引物:acc17(SEQ IDNO:6)和acc18(SEQ ID NO:7),用于基因组步行法。根据生产商(Clontech)所提供的操作手册进行染色体步行。用acc17引物进行PCR反应,在基因组StuI文库中获得2.8kb PCR带。而用acc18引物,在基因组PvuII文库中获得2.2kb PCR带。这些PCR带克隆进pCR2.1-TOPO(Invitrogen),发现2.8kbPCR带包含ACC基因的5’片段,而2.2kb PCR带包含ACC基因的3’带。包含2.8kb和2.2kb PCR片段的克隆分别称为pACCstu107和pACCPvd107,用于进一步的研究。
实施例7:用pACCstu107和pACCPvd107作探针进行Southern印迹杂交
进行Southern印迹杂交以克隆覆盖P.rhodozyma ACC基因的基因组片段。用EcoRI消化2ug基因组DNA,然后进行琼脂糖凝胶电泳,并进行酸和碱处理。采用transblot(Joto Rika,Tokyo,Japan)将变性DNA向尼龙膜(Hybond N+,Amersham)转移1小时。转移到尼龙膜的DNA通过热处理进行固定(80℃,90分钟)。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI消化的pACCSStu107和pACCPvd107)作为探针。按生产商提供的方法进行杂交反应。当用pACCStu107中的插入片段作探针时,可观察到2.0kb、0.9kb和0.6kb的杂交带。而以pACCPvd107中的插入片段作探针时,可观察到从6.0kb至6.5kb范围的杂交带。
实施例8:覆盖ACC基因的基因组克隆
与实施例5类似的方式,包含在pACCstu107和pACCPvd107中的插入片段的基因组片段通过噬菌斑杂交而克隆。用EcoRI消化4ug基因组DNA,继而进行琼脂糖凝胶电泳。然后,用QIAEXII凝胶抽提试剂盒(QIAGEN),按生产商提供的方法回收长度在下述范围的DNA:(1)2.7-5.0kb;(2)1.4-2.7kb以及(3)0.5-1.4kb。
每一个纯化DNA与0.5ug的EcoRI消化和CIAP(小牛肠碱性磷酸酶)处理的λZAP II(Stratagene)于16℃连接过夜,并用Gigapack III金包装提取物(extract)(Stratagene)进行包装。包装的提取物(extract)被感染E.coli MRF’菌株,并用倾注LB琼脂培养基的NZY培养基over-laid。用Eco RI消化的pACCStu107和pACCPvd107作为探针筛选约5000个噬菌斑。噬菌斑杂交分析后,分离出下面的候选物:
1)用pACCPvd107中的插入片段作探针从2.7-6.0kb的文库中获得的3个噬菌斑;
2)用pACCStu107中的插入片段作探针从1.4-2.7kb的文库中获得的3个噬菌斑;
用pACCStu107中的插入片段作探针从0.5-1.4kb的文库中获得的21个噬菌斑;
对这些包含假定为P.rhodozyma ACC基因的λZAP II衍生物进行体内切割程序,按操作说明书进行(Stratagene),将插入片段克隆到E.coli克隆载体即pBluescript SK中。从每个阳性噬菌体中回收每一个克隆,用于序列分析。经BLAST X分析得到至少一个克隆具有推定为ACC基因(http://www.blast.genome.ad.jp/)。下述克隆被选择用于进一步分析:
pACC119-18:含6kb长的插入片段,并覆盖ACC基因的3’末端;
pACC119-17-0.6:含0.6kb长的插入片段,侧接pACC1224中插入片段的5’末端;
pACC119-17-2:含2kb长的插入片段,是pACC119-17-0.6中插入片段的5’末端的侧翼序列;
pACC127-17-0.9:含0.9kb长的插入片段,是pACC119-17-2中插入片段的5’末端的侧翼序列。
pACC119-18、pACC119-17-0.6、pACC119-17-2和pACC127-17-0.9中的插入片段的全部区域的所有序列,表明这些克隆并没有覆盖ACC基因的5’末端。
实施例9:用染色体步行法克隆P.rhodozyma基因组中的pACC127-17-0.9中的插入片段的侧翼区
根据pACC127-17-0.9的内在序列设计合成PCR引物:acc26(SEQ IDNO:8),用于基因组步行法。
利用acc26引物进行PCR反应,在基因组StuI文库中获得2.6kb PCR带。将该PCR带克隆进pCR2.1-TOPO(Invitrogen),经过BLAST X分析表明该克隆包含ACC基因的5’片段。该克隆被命名为pACCVu126并用于进一步的研究。
实施例10:用pACCPvu126作探针进行Southern印迹杂交
进行Southern印迹杂交以克隆覆盖P.rhodozyma ACC基因的5’末端。按实施例7的类似方式进行Southern印迹杂交。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI消化的pACCPvu116)作为探针。按生产商提供的方法进行杂交反应。结果可观察到5.0kb的杂交带。
实施例11:覆盖ACC基因的5’末端的基因组克隆
与实施例8类似的方式,在pACCPvu126中的包含插入片段的基因组片段通过噬菌斑杂交而克隆。也利用了实施例8中制备的覆盖2.7-6.0kb长的基因组文库。与用DIG标记的pACCPvu126的插入片段能够杂交的12个阳性噬菌斑被分离,并进行体内切割以获得质粒DNA。从分离的质粒中进行测序表明,大部分质粒与pACCPvu126中的插入片段中的序列完全相同。其中一个克隆被称为pACC204,用于进一步研究。
实施例12:pACC204和pACC127-17-0.9之间的缺口区(gapped region)的克隆
在对pACC204的插入片段的3’末端和pACC127-17-0.9的插入片段的5’末端进行测序之后,对已知乙酰-COA羧化酶基因作BLAST X分析,其结果表明对于整个ACC基因而言,仍然有约0.3kb长的片段没有被覆盖。基于pACC204和pACC127-17-0.9的内在序列合成了下述PCR引物:acc43(有义引物)(SEQ ID NO:9)和acc44(反义序列)(SEQ ID NO:10)。用HF聚合酶(Clontech)作DNA聚合酶,实施例3中获得的基因组DNA作为模板,以如下参数进行PCR:94℃15秒,55℃30秒以及72℃15秒,共进行25个循环。之后,将反应混合物进行琼脂糖凝胶电泳。从琼脂糖凝胶上回收预期长度(0.3kb)的一PCR带,并用QIAquick(QIAGEN)按所提供的方法进行纯化,然后克隆到pCR2.1-TOPO(Invitrogen)上。转化感受态E.coli TOP10,选择出6个白色菌落,并用自动DNA分离体系分离其中的质粒。测序结果发现,5个克隆含有的序列相互一致。分离克隆中的一个称为pACC210。
实施例13:含有ACC基因的完整基因组片段的测序
用AutoRead测序试剂盒(Pharmacia),以引物进行步行程序对这些克隆加以测序:pACC204、pACC210、pACC127-17-0.9、pACC119-17-2、pACC119-17-0.6、pACC1224和pACC119-18。
测序结果表明,确定了含有10561碱基对的基因组片段的核苷酸序列包含了P.rhodozyma ACC基因,包括其启动子(1445碱基对)和终止子(1030碱基对)(SEQ ID NO:1)。8086碱基对长的编码区中包括了19个外显子和18个内含子。内含子分布在编码区中,没有5’或3’偏好。发现开放阅读框(SEQID NO:2)由2187个氨基酸(SEQ ID NO:3)组成,用GENETYX-SV/RC软件(Software Development Co.,Ltd.,Tokyo,Japan)进行同源性查找发现,它与来自其它物种的已知乙酰辅酶A羧化酶的氨基酸序列显著相似(与来自Emericella nidulans的乙酰辅酶A羧化酶有56.28%的同一性)。
图1显示覆盖P.rhodozyma染色体上的ACC基因区的DNA片段的克隆。
实施例14:ACC基因的反义质粒的构建
覆盖ACC基因的整个结构基因的反义基因片段通过PCR扩增,并克隆进整合载体,其中反义ACC基因由其本身在P.rhodozyma的ACC启动子所转录。
引物包括了限制性内切酶SfiI(GGCCNNNNNGGCC)的不对称识别序列的,但它们的不对称的延伸序列被设计成不同。这使得能够定向克隆入表达载体中,其中该载体在连接序列处具有相同的不对称序列。这种构建体应用在EP118051中公开。
对于能够驱动反义ACC基因转录的启动子和终止子片段,利用SEQ IDNO:1所示的序列信息从染色体上克隆了ACC启动子和终止子。通过将含有ACC终止子的DNA片段与pG418Sa330(EP1035206)的G418抗性表达盒连接而使ACC终止子片段与G418抗性表达盒融合,并连接到合适的载体上,如pBluescriptII KS-(Stratagene)。
然后,含有核糖体DNA(rDNA)位点的3.1kb长的Sacl片段(Wery et al.,Gene,184,89-97,1977)插入到制备成质粒的G418表达盒的下游。rDNA片段以多拷贝存在于真核生物的染色体中。经rDNA片段的整合事件可导致在宿主中的染色体上发生多拷贝的整合,因而能够使由表达载体携带的外源基因过量表达。
接下来,ACC启动子插入到ACC终止子的上游构建成能在P.rhodozyma起作用的表达载体。
最后,反义ACC构建体通过将包含反义ACC的1.5kb长的SfiI片段插入由此而制备成能在P.rhodozyma起作用的表达载体而得以完成。类似的质粒构建体在EP1158051中有公开。
实施例15:用ACC反义载体对P.rhodozyma进行转化
制备的ACC反义载体转化P.rhodozyma的野生型菌株,ATCC96594。Biolistic转化的程序可参见EP1158051。
实施例16:P.rhodozyma的反义ACC重组体的鉴定
P.rhodozyma(ATCC96594)的反义ACC重组体在500ml Erlenmeyer瓶的50ml YPD培养基中,于20℃下培养3天,其是使用在检测管(直径21mm)的10ml YPD培养基中在20℃下培养3天,获得的种培养物。取出适当体积的培养物用于分析产生的类胡萝卜素、以及用于它们生长、类胡萝卜素(尤其是虾青素)的产率的分析。对于生长分析,用UV-1200光度计(ShimadzuCorp,Kyoto,Japan)于660nm处测定菌液的光学密度,并且取1ml培养液离心获得的细胞于100℃干燥1天,以测定它们的细胞干重(mass)。对于虾青素和总类胡萝卜素的含量分析,从1.0ml培养液离心获得的细胞,用玻璃珠破碎P.rhodozyma细胞以抽提其类胡萝卜素。抽提之后,被破碎的细胞经离心去除,所得物用HPLC分析胡萝卜素含量分析。HPLC条件如下:HPLC柱为Chrompack Lichrosorb si-60(4.6mm,250mm),温度为室温,流动相为丙酮/己烷(18/82),并加1ml/L水到流动相中,上样注射体积:10ul,流速:2.0ml/min,检测条件是450nm的UV。一个对照的虾青素样品可从HoffmannLa-Roche(Basel,Switzerland)获得。
图1显示在P.rhodozyma中从乙酰辅酶A到虾青素的推导的生物合成途径。
图2显示覆盖P.rhodozyma染色体上的ACC基因区的DNA片段的克隆。
序列表
<110>DSM IP资产公司(DSM IP ASSETS B.V.)
<120>ACC基因
<130>NDR5217
<140>PCT/EP03/10683
<141>2003-09-25
<150>EP 02021625.5
<151>2002-09-27
<160>10
<170>PatentIn version 3.2
<210>1
<211>10561
<212>DNA
<213>Phaffia rhodozyma
<220>
<221>5′UTR
<222>(1221)..(1222)
<220>
<221>外显子
<222>(1446)..(1482)
<220>
<221>内含子
<222>(1483)..(1675)
<220>
<221>外显子
<222>(1676)..(1758)
<220>
<221>内含子
<222>(1759)..(1832)
<220>
<221>外显子
<222>(1833)..(1957)
<220>
<221>内含子
<222>(1958)..(2030)
<220>
<221>外显子
<222>(2031)..(2171)
<220>
<221>内含子
<222>(2172)..(2243)
<220>
<221>外显子
<222>(2244)..(2641)
<220>
<221>内含子
<222>(2642)..(2745)
<220>
<221>外显子
<222>(2746)..(2991)
<220>
<221>内含子
<222>(2992)..(3074)
<220>
<221>外显子
<222>(3075)..(3443)
<220>
<221>内含子
<222>(3444)..(3517)
<220>
<221>外显子
<222>(3518)..(3552)
<220>
<221>内含子
<222>(3553)..(3625)
<220>
<221>外显子
<222>(3626)..(3750)
<220>
<221>内含子
<222>(3751)..(3827)
<220>
<221>外显子
<222>(3828)..(4026)
<220>
<221>内含子
<222>(4027)..(4095)
<220>
<221>外显子
<222>(4096)..(4911)
<220>
<221>内含子
<222>(4912)..(4983)
<220>
<221>外显子
<222>(4984)..(5384)
<220>
<221>内含子
<222>(5385)..(5455)
<220>
<221>外显子
<222>(5456)..(5608)
<220>
<221>内含子
<222>(5609)..(5673)
<220>
<221>外显子
<222>(5674)..(5805)
<220>
<221>内含子
<222>(5806)..(5870)
<220>
<221>外显子
<222>(5871)..(6832)
<220>
<221>内含子
<222>(6833)..(6898)
<220>
<221>外显子
<222>(6899)..(6976)
<220>
<221>内含子
<222>(6977)..(7047)
<220>
<221>外显子
<222>(7048)..(7227)
<220>
<221>内含子
<222>(7228)..(7295)
<220>
<221>外显子
<222>(7296)..(9160)
<220>
<221>内含子
<222>(9161)..(9230)
<220>
<221>外显子
<222>(9231)..(9530)
<220>
<221>polyA_位点
<222>(9813)..(9814)
<400>1
caacagacag acaaaggaac ttacgtgtac atactggtct ttccaatgtc gcggcgtcga 60
gattaactag aacaatactt gacaatcgaa tctcttattc tgccctagtt gaaggcgtct 120
gttcaaattg atcaagatct tccaatcatt gacatccagg tattcgcatt cgactctgct 180
cgtatgtact gttccgattt tcttatggcc accagatttc aactctgata tacattggtt 240
caccctgtct ttgtctcttt gcctttcgtt ccatctagcg ctgttcaacg gatcactcag 300
tcggcttgac tcaactccct ctggaacgtg tgccttatct caggttctga tttctcctca 360
gccagtatgc gcacaaagca gcgatcgtga ctttttgctc cataagacct ctcagcgggg 420
aatatatgac actcatacat cgatagctcg tatgttttct ttgatcactt cctaaaatgt 480
aacggcaact gacattcaac atgatgcgct ttcatagatc aactacttcc gactacgatg 540
accgttcttc tatacagccc agtcagctcg tcgacctcac ataaagtgac tgagaccgcg 600
atctcgaaca tcttattcct tccaccgtta gctgagaagt ggattacacc atcaatagaa 660
tcatctaccc cgttcttgcc tggactaatg cgtcaggagc tcttggataa aggagaaata 720
gctgagcaga ccatcacctt ggatgatgtc cgtctgtggc tgaactccgg aggtcgagtg 780
gcgtgctgca acgcacttcg aggaatttgg gaagtgaacc tcgtttggag tgataaatga 840
gattacgaaa gtctgttcga aacatccatg cttcatgata accgataacg cttaaatctt 900
gagagtgcgc acatcgatcg ccttttatat atggggttgg ggaaacataa agtgttcata 960
gactattgtt catatatctt aaagtacaaa gacgcatcta accctaagcc tgaatgattg 1020
gcaaaatcct agtaagaccg tgaaattccg aagaatacgc agttcattaa taaagatata 1080
gcttaggtaa gcagcggttg ctcccccaac caacctcatc cgaaattccc cagggggttg 1140
agattctcaa ggctttgaat ccccatcccg tcaagttggt cttaaaccct tcatctctac 1200
ttgttacttc ttttcttctt gacctccttc ccccactccc tcctattctc tgaacgaact 1260
cgcctccctg tccatctact cttcttcggt tttcttttgg gtttttactt ttctcgttcc 1320
tcctccatct ttccatctct tttcgtatct gtgggtaact ttgcatccaa gggccctcac 1380
acataaccct atatccatct tcctccattc acacacatct gtactcaacc aacaaagctc 1440
acaag atg gtt gtc gat cac gag agc gta agg cat ttc atc g 1482
Met Val Val Asp His Glu Ser Val Arg His Phe Ile
1 5 10
gtaagcgttc ttgttctttt ccttgtctgg ctccctgcat tttcttaaac gatctaggaa 1542
gagagggaaa ttacatctgg tcaattttcc gcgctctttt ccttggggac aaaagaatgc 1602
ctttctgtga tcggagatcg gttgctgatc tcttttgtct tgttcttttt gctctttccc 1662
tcccctttac cag gt gga aac gca ctt gag aac gcc cct ccg tca agc 1710
Gly Gly Asn Ala Leu Glu Asn Ala Pro Pro Ser Ser
15 20
gtc acc gat ttc gtt aga agt caa gat ggt cac acg gtc atc acc aaa 1758
Val Thr Asp Phe Val Arg Ser Gln Asp Gly His Thr Val Ile Thr Lys
25 30 35 40
gtcagtaatt ttcatttttt ccttcacgta gcctcagggc caaggagcta aattgcttct 1818
gtatcatttc tcag gtc ctc att gcc aac aac gga atc gct gct gta aaa 1868
Val Leu Ile Ala Asn Asn Gly Ile Ala Ala Val Lys
45 50
gag atc cga tca gtt cgt aaa tgg gct tac gag acg ttt gga gat gag 1916
Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr Phe Gly Asp Glu
55 60 65
cga gcc atc gaa ttt acg gta atg gcc act cca gaa gat tt 1957
Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu Asp Leu
70 75 80
gttcgtacca atcacataag ctttccttga gtcagggaca tcctctaatt aattcaactt 2017
gagcgccata cag g aag gtg aac tgc gac tat att cga atg gct gat cga 2067
Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg
85 90
gtc gtc gaa gtt cct gga gga act aac aac aac aat cac tct aac gtc 2115
Val Val Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val
95 100 105 110
gac ctc atc gtt gac att gcc gag cga ttc aat ata cat gct gtt tgg 2163
Asp Leu Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp
115 120 125
gct gga tg gtaagtaaaa taggacctta acatgttgga agaagagtgt 2211
Ala Gly Trp
ccacttaaac gcgctttctt tccatccgac ag g ggt cac gct tcg gaa aac ccc 2265
Gly His Ala Ser Glu Asn Pro
130 135
aga ctt ccc gag tct ctc gcc gcc tca aag aac aag atc gtc ttc att 2313
Arg Leu Pro Glu Ser Leu Ala Ala Ser Lys Asn Lys Ile Val Phe Ile
140 145 150
ggt cct ccc gga tcc gct atg cga tcc ctt gga gac aag att tct tcg 2361
Gly Pro Pro Gly Ser Ala Met Arg Ser Leu Gly Asp Lys Ile Ser Ser
155 160 165
acc atc gtt gcc cag tct gcc cag gtg ccg tgt atg gcc tgg tct gga 2409
Thr Ile Val Ala Gln Ser Ala Gln Val Pro Cys Met Ala Trp Ser Gly
170 175 180
tca ggc atc act gat aca gag ctc agc cct cag ggc ttc gtg act gtg 2457
Ser Gly Ile Thr Asp Thr Glu Leu Ser Pro Gln Gly Phe Val Thr Val
185 190 195 200
ccc gat ggg cca tat cag gct gct tgt gta aag acg gtg gag gat ggt 2505
Pro Asp Gly Pro Tyr Gln Ala Ala Cys Val Lys Thr Val Glu Asp Gly
205 210 215
ttg gtg cga gcc gag aag atc ggt ttg cca gtt atg atc aag gcc tct 2553
Leu Val Arg Ala Glu Lys Ile Gly Leu Pro Val Met Ile Lys Ala Ser
220 225 230
gag gga gga gga gga aag ggt atc cga atg gtt cac agc atg gac aca 2601
Glu Gly Gly Gly Gly Lys Gly Ile Arg Met Val His Ser Met Asp Thr
235 240 245
ttc aag aac tcc tac aac tcc gtc gct tcc gag gtg cca g gtaagttcac 2651
Phe Lys Asn Ser Tyr Asn Ser Val Ala Ser Glu Val Pro
250 255 260
tctgtttgac tggagatttg agcacaatct ctaccatggg agttcaagaa ggaataccca 2711
ctcatgaatt gacgactgcg ttcttgacct ctag ga tct ccg att ttc atc atg 2765
Gly Ser Pro Ile Phe Ile Met
265
gcc ttg gct gga tct gct cga cat ttg gag gtc cag ctc ctt gct gat 2813
Ala Leu Ala Gly Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp
270 275 280
cag tac gga aac gct atc tct ttg ttc ggt cga gat tgc tct gtt cag 2861
Gln Tyr Gly Asn Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln
285 290 295 300
cga cga cat cag aag atc att gag gag gct ccc gtc acg atc gct cgt 2909
Arg Arg His Gln Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg
305 310 315
cca gag aga ttc gaa gag atg gag aag gct gct gtc agg ttg gcc aag 2957
Pro Glu Arg Phe Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys
320 325 330
tta gta gga tat gtt agt gcc ggt acc gtc gaa t gt a aggaaca 3001
Leu Val Gly Tyr Val Ser Ala Gly Thr Val Glu
335 340
aacagctacc tctcattctg ttttttcgag atagtcaact tacatcactt ttcttttgcc 3061
ggattttctt tag ac ctc tac tct cac gcc gac gac tca ttc ttc ttc 3109
Tyr Leu Tyr Ser His Ala Asp Asp Ser Phe Phe Phe
345 350 355
ctc gaa ctc aac cct cga ctt caa gtc gag cac cct act acc gag atg 3157
Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr Thr Glu Met
360 365 370
gtc tcg ggt gtc aac ctt ccc gct gct cag ctt cag att gct atg ggt 3205
Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile Ala Met Gly
375 380 385
atc cct ctt tct cga att cgg gat att cga gtc ctc tac ggt ctc gat 3253
Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr Gly Leu Asp
390 395 400
ccc cac act gtt tcc gag atc gac ttc gac agc agc aga gcg gag tct 3301
Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg Ala Glu Ser
405 410 415
gtc cag act cag agg aag cct agg ccc aag ggt cac gtc att gcc tgt 3349
Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val Ile Ala Cys
420 425 430 435
cga atc acg agt gaa aac ccc gat gag ggg ttc aag ccg tct gcc gga 3397
Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro Ser Ala Gly
440 445 450
gat atc caa gag ttg aac ttc aga agt aat act aac gtc tgg gga t 3443
Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val Trp Gly
455 460 465
gtgagtacag aggcttctca aagattctta tgtggaacaa atctctgact cttaaattgt 3503
gtttgacttt caag ac ttc tct gtt gga gct act gga gga att cat agt 3552
Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser
470 475
gtaagtttct tcgccaacaa tataatcaca ctagatccct atctaatctg aactggctta 3612
tctcttgtta tag ttc gcc gat tct caa ttc ggt cac gtg ttt gct tat 3661
Phe Ala Asp Ser Gln Phe Gly His Val Phe Ala Tyr
480 485 490
ggc tcc gac cga acg act gcc aga aag aat atg gtt atc gcc ttg aaa 3709
Gly Ser Asp Arg Thr Thr Ala Arg Lys Asn Met Val Ile Ala Leu Lys
495 500 505
gag ctt tcc att cga gga gac ttc cga acc act gtc gag ta 3750
Glu Leu Ser Ile Arg Gly Asp Phe Arg Thr Thr Val Glu Tyr
510 515
gtgcgtatag cctggtacat ctcctttcaa tcacttacga tgaactgacc gatctgtctc 3810
gatcacgttt aatctag t ctt atc act ctt ctt gag acg agc gat ttc gag 3861
Leu Ile Thr Leu Leu Glu Thr Ser Asp Phe Glu
525 530
cag aac gcc att acc acc gct tgg ttg gat ggg ttg atc act aac aag 3909
Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile Thr Asn Lys
535 540 545
ctt aca tct gag agg cct gat cca tca ctg gcc gtt att tgt ggt gca 3957
Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile Cys Gly Ala
550 555 560
att gtg aaa gct cac gtg gct tct gag aac tgt tgg gcc gaa tac cga 4005
Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala Glu Tyr Arg
565 570 575
cga gta ttg gac aag gga cag gtaagctctg tttctcatga agtttttgac 4056
Arg Val Leu Asp Lys Gly Gln
580 585
tgaggcactc accactccgt acatgtttcc tgtttttag gtt ccc tcc aag gac 4110
Val Pro Ser Lys Asp
590
act ctc aag aca gtg ttc act ctt gat ttc atc tat gag ggt gtt cgg 4158
Thr Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg
595 600 605
tac aat ttc acc gct gct cga gcc tcc ctc aac act tac cga ttg tat 4206
Tyr Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr
610 615 620
cta aac gga gga aag acc gtg gtg tcc atc cga cct ttg gcc gat ggt 4254
Leu Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly
625 630 635
gga atg ctc gtt ctt ctc gat ggc cga tcc cac act ctc tac tgg agg 4302
Gly Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg
640 645 650 655
gag gaa gtc ggt acc ctc cga att cag gta gac gca aag act tgc ctg 4350
Glu Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu
660 665 670
att gag cag gag aac gac ccc act cag ctc cga tca ccc tcg cct gga 4398
Ile Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly
675 680 685
aag atc atc cgg ttt ttg gtc gaa agc gga gat cac atc tcc tcc gga 4446
Lys Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly
690 695 700
gat atc tat gct gag gtt gag gtc atg aag atg atc ttg ccc ttg att 4494
Asp Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile
705 710 715
gcc cag gag tcc ggt cac gtt cag ttt gtc aag caa gcc ggt gtg acc 4542
Ala Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr
720 725 730 735
gtc gat cct gga gcg att att ggg atc ttg agt ctt gat gac cct acg 4590
Val Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr
740 745 750
cga gtg aag aag gcg aag ccc ttc gag ggt ctc ctg cct gtg act ggt 4638
Arg Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly
755 760 765
ctc cct aac ctg ccc ggt aac aga cct cac cag cgg cta cag ttc cag 4686
Leu Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln
770 775 780
ctt gag tcg ata tac tcg gtc ttg gat gga tac gag agt gac tcc act 4734
Leu Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr
785 790 795
gca aca atc ctc cga tca ttc tct gaa aac ctt tat gat cct gat ctt 4782
Ala Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu
800 805 810 815
gct ttc gga gag gct tta tcc atc att tcc gtc ctt tct ggg aga atg 4830
Ala Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met
820 825 830
cct gcc gat ctt gag gag agc att cga gag gtc atc agc gaa gct cag 4878
Pro Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln
835 840 845
tcg aag cct cac gcc gag ttc cct gga tca aag gtgtgtagtt gatcgcagag 4931
Ser Lys Pro His Ala Glu Phe Pro Gly Ser Lys
850 855
ttatgactgt atacatcgac cagaagctta cccatctctt tcgtgtgcac ag atc ctc 4989
Ile Leu
860
aaa gtc gtc gag cgg tac atc gat aat ttg cga cct cag gag agg gct 5037
Lys Val Val Glu Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala
865 870 875
atg gtc cga act cag atc gaa ccc atc gtt ggt att gct gag aag aac 5085
Met Val Arg Thr Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn
880 885 890
gtt ggc ggt cct aag ggt tac gcc tct tac gtc tta gct acc atc ctt 5133
Val Gly Gly Pro Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu
895 900 905
caa aag ttc ttg gcc gtt gag gcc gtt ttt gct act ggt agt gaa gag 5181
Gln Lys Phe Leu Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu
910 915 920
gcc att gtt ctc caa ctt cga gat gaa aac cga gaa tct ttg aac gac 5229
Ala Ile Val Leu Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp
925 930 935 940
gtc ctt ggt ctc gtc ctg gct cac tcg cgt ctc agc gct cga tcc aag 5277
Val Leu Gly Leu Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys
945 950 955
ctt gtt ctc tcc gtc ttt gat ctg atc aag tct atg cag ctc ctc aac 5325
Leu Val Leu Ser Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn
960 965 970
aac act gag ggt tct ttc ctt cat aag act atg aaa gcg ctt gcc gac 5373
Asn Thr Glu Gly Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp
975 980 985
atg ccc acc aa gtaggtttcc tcttgtagtt tacaaactat tgttgcgatg 5424
Met Pro Thr Lys
990
tgttgacaaa gactctgttt ccgatctat a g g gct cct ttg gcc agc aag gtg 5477
Ala Pro Leu Ala Ser Lys Val
995
tct ttg aag gct cgg gaa att ctt atc tct tgc tct ctt ccc tct 5522
Ser Leu Lys Ala Arg Glu Ile Leu Ile Ser Cys Ser Leu Pro Ser
1000 1005 1010
tac gag gag agg ttg ttc cag atg gaa aag atc ctt aac tct tct 5567
Tyr Glu Glu Arg Leu Phe Gln Met Glu Lys Ile Leu Asn Ser Ser
1015 1020 1025
gtc acc act tct tac tac gga gag act gga ggt gga cac ag 5608
Val Thr Thr Ser Tyr Tyr Gly Glu Thr Gly Gly Gly His Arg
1030 1035 1040
gtttgtcctc tcccatgtgt ttctagttca tagctctctg ctgactctga tccgattttc 5668
aacag a aac cct tcg gtt gat gtt ctg act gag atc tca aac tct 5713
Asn Pro Ser Val Asp Val Leu Thr Glu Ile Ser Asn Ser
1045 1050 1055
cga ttc acc gtc tac gat gtc ctg tcc tcc ttc ttc aag cac gat 5758
Arg Phe Thr Val Tyr Asp Val Leu Ser Ser Phe Phe Lys His Asp
1060 1065 1070
gat cct tgg att gtt ctt gct agt ttg acc gtc tac gtt ctt cga 5803
Asp Pro Trp Ile Val Leu Ala Ser Leu Thr Val Tyr Val Leu Arg
1075 1080 1085
gc gtaagtgatc gttcttctcc tcttgcccaa acaatgactg acagttctat 5855
Ala
ctattccatc tgcag t tac cga gag tac agt att ctt gat atg caa cat 5904
Tyr Arg Glu Tyr Ser Ile Leu Asp Met Gln His
1090 1095
gag caa ggt cag gat ggc gct gct gga gtc atc act tgg cga ttc 5949
Glu Gln Gly Gln Asp Gly Ala Ala Gly Val Ile Thr Trp Arg Phe
1100 1105 1110
aag ctc aac cag ccc atc gct gag tct tct act ccc cga gtt gac 5994
Lys Leu Asn Gln Pro Ile Ala Glu Ser Ser Thr Pro Arg Val Asp
1115 1120 1125
tcg aat cga gac gtt tac cga gtc ggt tcg ctt tct gat ttg acc 6039
Ser Asn Arg Asp Val Tyr Arg Val Gly Ser Leu Ser Asp Leu Thr
1130 1135 1140
tac aag atc aag cag agt cag acc gag ccc ctc cga gct ggt gtc 6084
Tyr Lys Ile Lys Gln Ser Gln Thr Glu Pro Leu Arg Ala Gly Val
1145 1150 1155
atg acg agc ttc aac aac ttg aag gag gtt cag gac gga ctc ttg 6129
Met Thr Ser Phe Asn Asn Leu Lys Glu Val Gln Asp Gly Leu Leu
1160 1165 1170
aat gtt ctg tct ttc ttc cct gct tac cat cat caa gat ttc act 6174
Asn Val Leu Ser Phe Phe Pro Ala Tyr His His Gln Asp Phe Thr
1175 1180 1185
caa cga cat ggt cag gac agt gcc atg ccc aac gtt ctc aac att 6219
Gln Arg His Gly Gln Asp Ser Ala Met Pro Asn Val Leu Asn Ile
1190 1195 1200
gct atc cgg gct ttc gag gag aag gac gac atg tct gat ctt gat 6264
Ala Ile Arg Ala Phe Glu Glu Lys Asp Asp Met Ser Asp Leu Asp
1205 1210 1215
tgg gcc aag agt gtt gag tcg ctg gta atg cag atg tct gcc gag 6309
Trp Ala Lys Ser Val Glu Ser Leu Val Met Gln Met Ser Ala Glu
1220 1225 1230
atc cag aag aag gga att cga cga gtt acc ttc ttg gtt tgc cga 6354
Ile Gln Lys Lys Gly Ile Arg Arg Val Thr Phe Leu Val Cys Arg
1235 1240 1245
aag ggc gtt tac ccc tcc tac ttc acc ttc aga caa gag ggt gcc 6399
Lys Gly Val Tyr Pro Ser Tyr Phe Thr Phe Arg Gln Glu Gly Ala
1250 1255 1260
cag ggc ccc tgg aga gag gag gag aag att cga aac atc gag cct 6444
Gln Gly Pro Trp Arg Glu Glu Glu Lys Ile Arg Asn Ile Glu Pro
1265 1270 1275
gct cta gcc agt cag ctt gag ctc aac cga ctc tcg aat ttc aag 6489
Ala Leu Ala Ser Gln Leu Glu Leu Asn Arg Leu Ser Asn Phe Lys
1280 1285 1290
gtc acc cct atc ttc gta gac aac aga cag atc cac atc tac aag 6534
Val Thr Pro Ile Phe Val Asp Asn Arg Gln Ile His Ile Tyr Lys
1295 1300 1305
gga gtg ggt aag gag aac tct tcc gat gtt cga ttc ttt atc cgg 6579
Gly Val Gly Lys Glu Asn Ser Ser Asp Val Arg Phe Phe Ile Arg
1310 1315 1320
gct ttg gtt cga cct gga cgg gtc cag gga tcg atg aag gct gcc 6624
Ala Leu Val Arg Pro Gly Arg Val Gln Gly Ser Met Lys Ala Ala
1325 1330 1335
gag tat ctc atc tcc gag tge gat cga ctg ctc act gat atc ctg 6669
Glu Tyr Leu Ile Ser Glu Cys Asp Arg Leu Leu Thr Asp Ile Leu
1340 1345 1350
gac gcc ttg gag gtt gtt gga gcc gag act cga aac gcc gat tgc 6714
Asp Ala Leu Glu Val Val Gly Ala Glu Thr Arg Asn Ala Asp Cys
1355 1360 1365
aac cat gtt gga att aac ttc atc tat aac gtt ctt gtc gac ttc 6759
Asn His Val Gly Ile Asn Phe Ile Tyr Asn Val Leu Val Asp Phe
1370 1375 1380
gac gac gtc cag gag gcc ctt gcc ggg ttc att gag agg cac gga 6804
Asp Asp Val Gln Glu Ala Leu Ala Gly Phe Ile Glu Arg His Gly
1385 1390 1395
aag agg ctt tgg cga ctt cga gtg acc g gtaagtgttc tctcggcatt 6852
Lys Arg Leu Trp Arg Leu Arg Val Thr
1400 1405
gaattcagca atgagctgtg actaacgggt ttcttcggta tattag ct tct gaa 6906
Ala Ser Glu
1410
atc cga atg gtt ctt gag gac gac gag ggt aac gtc acc ccc atc 6951
Ile Arg Met Val Leu Glu Asp Asp Glu Gly Asn Val Thr Pro Ile
1415 1420 1425
cga tgc tgc att gag aac gtt tctggtaagcagtc caaaataact 6996
Arg Cys Cys Ile Glu Asn Val Ser
1430
gataatccta ttcagtctag acattgtaac tgatgcattt ctcgttctta g gt ttc 7052
Gly Phe
1435
gtc gtg aag tac cac gcc tac cag gag gtt gag acc gag aag ggt 7097
Val Val Lys Tyr His Ala Tyr Gln Glu Val Glu Thr Glu Lys Gly
1440 1445 1450
act acc atc ttg aag tca atc gga gac ctt gga cct ctt cac ctt 7142
Thr Thr Ile Leu Lys Ser Ile Gly Asp Leu Gly Pro Leu His Leu
1455 1460 1465
cag cct gtc aac cat gct tac cag acc aag aac agt ctt cag ccc 7187
Gln Pro Val Asn His Ala Tyr Gln Thr Lys Asn Ser Leu Gln Pro
1470 1475 1480
cga cga tac cag gct cac ttg gtt gga acg act tac gtc t 7227
Arg Arg Tyr Gln Ala His Leu Val Gly Thr Thr Tyr Val
1485 1490
gttagtcaca tttcatgctc tggttttctg accgtcactg gttattgacg ttctgtttgg 7287
cgtcacag ac gac tac ccc gat ctc ttc gtt cag agt ttg cgc aag 7333
Tyr Asp Tyr Pro Asp Leu Phe Val Gln Ser Leu Arg Lys
1495 1500 1505
gtt tgg gct gag gct gct gct aag att cct cac ctc cgg gtg cct 7378
Val Trp Ala Glu Ala Ala Ala Lys Ile Pro His Leu Arg Val Pro
1510 1515 1520
agc gag cct ctt acc gct acc gag ttg gtt ctc gat gag aac aac 7423
Ser Glu Pro Leu Thr Ala Thr Glu Leu Val Leu Asp Glu Asn Asn
1525 1530 1535
gag ctt cag gag gtc gag cga cct ccg ggt tcc aac tcg tgt ggt 7468
Glu Leu Gln Glu Val Glu Arg Pro Pro Gly Ser Asn Ser Cys Gly
1540 1545 1550
atg gtc gcc tgg atc ttc act atg ctc act ccc gag tat ccc aag 7513
Met Val Ala Trp Ile Phe Thr Met Leu Thr Pro Glu Tyr Pro Lys
1555 1560 1565
ggt cga cga gta gtt gcc att gcc aac gat atc acc ttc aag att 7558
Gly Arg Arg Val Val Ala Ile Ala Asn Asp Ile Thr Phe Lys Ile
1570 1575 1580
gga tcc ttt ggt cct aag gaa gac gat tac ttc ttc aag gct act 7603
Gly Ser Phe Gly Pro Lys Glu Asp Asp Tyr Phe Phe Lys Ala Thr
1585 1590 1595
gaa att gcc aag aag ctg ggc ctt cct cga att tac ctc tct gcc 7648
Glu Ile Ala Lys Lys Leu Gly Leu Pro Arg Ile Tyr Leu Ser Ala
1600 1605 1610
aac agt gga gct aga ctc ggt atc gcg gag gag ctc ttg cac atc 7693
Asn Ser Gly Ala Arg Leu Gly Ile Ala Glu Glu Leu Leu His Ile
1615 1620 1625
ttc aag gcg gcc ttc gtt gac ccc gca aag cct tcc atg ggt att 7738
Phe Lys Ala Ala Phe Val Asp Pro Ala Lys Pro Ser Met Gly Ile
1630 1635 1640
aag tat cta tac ttg acc cct gaa act tta tcc act ctt gcc aag 7783
Lys Tyr Leu Tyr Leu Thr Pro Glu Thr Leu Ser Thr Leu Ala Lys
1645 1650 1655
aag gga tcc agc gtc acc act gag gag atc gag gat gac ggc gag 7828
Lys Gly Ser Ser Val Thr Thr Glu Glu Ile Glu Asp Asp Gly Glu
1660 1665 1670
cga cga cac aag atc acc gcc atc atc ggt ctt gca gag ggt ttg 7873
Arg Arg His Lys Ile Thr Ala Ile Ile Gly Leu Ala Glu Gly Leu
1675 1680 1685
gga gtt gag tct ctt cga gga tcc ggt ctt att gct gga gcc acc 7918
Gly Val Glu Ser Leu Arg Gly Ser Gly Leu Ile Ala Gly Ala Thr
1690 1695 1700
act cga gct tac gag gag gga atc ttc acc atc tct ctc gtt act 7963
Thr Arg Ala Tyr Glu Glu Gly Ile Phe Thr Ile Ser Leu Val Thr
1705 1710 1715
gcc cga tcg gtc ggt atc gga gct tac ttg gtt cga ttg ggt cag 8008
Ala Arg Ser Val Gly Ile Gly Ala Tyr Leu Val Arg Leu Gly Gln
1720 1725 1730
cga gct att cag gtt gaa ggc aac cct atg atc ctt act gga gct 8053
Arg Ala Ile Gln Val Glu Gly Asn Pro Met Ile Leu Thr Gly Ala
1735 1740 1745
cag tct ctc aac aag gtg ctt gga cga gag gtt tac act tcc aac 8098
Gln Ser Leu Asn Lys Val Leu Gly Arg Glu Val Tyr Thr Ser Asn
1750 1755 1760
ctt cag ctt gga gga acc cag att atg gcc cga aac ggt acc acg 8143
Leu Gln Leu Gly Gly Thr Gln Ile Met Ala Arg Asn Gly Thr Thr
1765 1770 1775
cat ctc gtc gct gaa tct gat ctc gat ggt gct ctc aag gtc atc 8188
His Leu Val Ala Glu Ser Asp Leu Asp Gly Ala Leu Lys Val Ile
1780 1785 1790
cag tgg ctc tcg tat gtg ccc gag cga aag ggc aag gcc att cct 8233
Gln Trp Leu Ser Tyr Val Pro Glu Arg Lys Gly Lys Ala Ile Pro
1795 1800 1805
atc tgg cct tcc gag gac cct tgg gac cga act gtg acc tac gag 8278
Ile Trp Pro Ser Glu Asp Pro Trp Asp Arg Thr Val Thr Tyr Glu
1810 1815 1820
cct ccc ega ggt cct tac gat cct cga tgg ttg ctt gaa gga aag 8323
Pro Pro Arg Gly Pro Tyr Asp Pro Arg Trp Leu Leu Glu Gly Lys
1825 1830 1835
ccg gat gaa ggc ttg act ggt ctt ttc gac aag gga tct ttc atg 8368
Pro Asp Glu Gly Leu Thr Gly Leu Phe Asp Lys Gly Ser Phe Met
1840 1845 1850
gag acc ctt gga gat tgg gcc aag act atc gtc acc ggt cga gcc 8413
Glu Thr Leu Gly Asp Trp Ala Lys Thr Ile Val Thr Gly Arg Ala
1855 1860 1865
cga ctg gga ggc att cct atg ggt gtt att gct gtc gaa acc agg 8458
Arg Leu Gly Gly Ile Pro Met Gly Val Ile Ala Val Glu Thr Arg
1870 1875 1880
acg acc gag aag atc atc gct gcc gat cct gcc aac cct gca gct 8503
Thr Thr Glu Lys Ile Ile Ala Ala Asp Pro Ala Asn Pro Ala Ala
1885 1890 1895
ttc gag caa aag att atg gag gct ggt cag gtt tgg aac ccc aac 8548
Phe Glu Gln Lys Ile Met Glu Ala Gly Gln Val Trp Asn Pro Asn
1900 1905 1910
gct gct tac aag acc gct caa tcc atc ttt gat atc aac aag gag 8593
Ala Ala Tyr Lys Thr Ala Gln Ser Ile Phe Asp Ile Asn Lys Glu
1915 1920 1925
ggt ctt cct ttg atg atc ctt gcc aac atc cga ggt ttc tct gga 8638
Gly Leu Pro Leu Met Ile Leu Ala Asn Ile Arg Gly Phe Ser Gly
1930 1935 1940
gga cag ggt gat atg ttt gac gct atc ctc aag cag ggt tct aag 8683
Gly Gln Gly Asp Met Phe Asp Ala Ile Leu Lys Gln Gly Ser Lys
1945 1950 1955
atc gtt gac ggt ctc tcg aac ttc aag cag cca gtg ttc gtc tat 8728
Ile Val Asp Gly Leu Ser Asn Phe Lys Gln Pro Val Phe Val Tyr
1960 1965 1970
gtt gtc ccc aac gga gag ctt cgt gga gga gct tgg gtc gtg ttg 8773
Val Val Pro Asn Gly Glu Leu Arg Gly Gly Ala Trp Val Val Leu
1975 1980 1985
gat cct act atc aac ctt gcc aag atg gag atg tac gct gat gaa 8818
Asp Pro Thr Ile Asn Leu Ala Lys Met Glu Met Tyr Ala Asp Glu
1990 1995 2000
acc gct cga gga gga att ctc gag ccg gaa ggt atc gtt gag atc 8863
Thr Ala Arg Gly Gly Ile Leu Glu Pro Glu Gly Ile Val Glu Ile
2005 2010 2015
aag ttc cga cga gac aag gtc atc gct acc atg gag cga ttg gac 8908
Lys Phe Arg Arg Asp Lys Val Ile Ala Thr Met Glu Arg Leu Asp
2020 2025 2030
gag acc tat gcc tct ctc aaa gct gcc tcg aac gac tca acc aag 8953
Glu Thr Tyr Ala Ser Leu Lys Ala Ala Ser Asn Asp Ser Thr Lys
2035 2040 2045
tct gcg gag gag cga gct aag agt gct gag cta ctc aag gca aga 8998
Ser Ala Glu Glu Arg Ala Lys Ser Ala Glu Leu Leu Lys Ala Arg
2050 2055 2060
gag act cta ctt caa ccg acg tac ttg cag att gca cac ctt tac 9043
Glu Thr Leu Leu Gln Pro Thr Tyr Leu Gln Ile Ala His Leu Tyr
2065 2070 2075
gct gat ctc cat gat cgt gtc gga cga atg gag gcc aag ggt tgc 9088
Ala Asp Leu His Asp Arg Val Gly Arg Met Glu Ala Lys Gly Cys
2080 2085 2090
gcg aag cga gct gtc tgg gct gag gct cga cga ttc ttc tac tgg 9133
Ala Lys Arg Ala Val Trp Ala Glu Ala Arg Arg Phe Phe Tyr Trp
2095 2100 2105
cga ctt cga cga cgt ctc aac gat gag gtgagccgtc ccattcactc 9180
Arg Leu Arg Arg Arg Leu Asn Asp Glu
2110 2115
tttcgttgca aggttcagta gtactaaccg cttctttctt tatetatcag cac atc 9236
His Ile
ctg tct aag ttc gct gct gcc aac ccg gat ctt act ctc gag gag 9281
Leu Ser Lys Phe Ala Ala Ala Asn Pro Asp Leu Thr Leu Glu Glu
2120 2125 2130
cga caa aac att ctc gac tct gtc gtc cag act gac ctc act gat 9326
Arg Gln Asn Ile Leu Asp Ser Val Val Gln Thr Asp Leu Thr Asp
2135 2140 2145
gac cga gcc acc gct gaa tgg att gag cag tct gca gaa gag att 9371
Asp Arg Ala Thr Ala Glu Trp Ile Glu Gln Ser Ala Glu Glu Ile
2150 2155 2160
gct gct gcc gtt gcc gaa gtc cga tcc acc tac gtg tcg aat aag 9416
Ala Ala Ala Val Ala Glu Val Arg Ser Thr Tyr Val Ser Asn Lys
2165 2170 2175
att atc agc ttc gcc gag acg gag cga gct gga gcg ttg cag ggc 9461
Ile Ile Ser Phe Ala Glu Thr Glu Arg Ala Gly Ala Leu Gln Gly
2180 2185 2190
ttg gtc gct gtc ttg agc act ttg aat gcg gaa gac aag aag gcc 9506
Leu Val Ala Val Leu Ser Thr Leu Asn Ala Glu Asp Lys Lys Ala
2195 2200 2205
ctt gtt tct agc ctt ggt ctc taa attttaattt tttttgtcga tgctattctt 9560
Leu Val Ser Ser Leu Gly Leu
2210
cctatcttta gtctttgatt aacttttgaa tatccttcat agatctttcc ttgcatacat 9620
tgatattatt tcctcacccg tttttatgta cttccatacg agtttccatt tttttctgct 9680
tttatatttc gactacacgt cgactgttca cctgcctctc ttttgttctt tctgttctgt 9740
tttcttctgt tctttcgcct cttgggattc tatattctcc ttcgcattta catatgctca 9800
tgttaatgtc tgactcagag ttcactagga tatgtcgtga gagcccgaaa caagttgcac 9860
aacatatatt gataatgatc agaacactct aagaccaccc agtccatgat cagccgcatc 9920
gccagtttcg atctcttctc cattctcatc aacctcaatc tcctcccgga tcgtcctgcc 9980
cagcagactg ccgaataact cgtcgacctg ctcctcctgc cacaagtctt ccgttcgctc 10040
aggaaccatg aagttcatga tcttttcttg gggggtatat cgaagcttgc gacctttaga 10100
agctcgtgta tcgagggtgg gcttgtgctt tttgggtccg taattggaaa aggttgcttg 10160
gcctatttca aaataaacga aattgatgat tatacaccgc cgtagaccgt ttctggtcag 10220
gattttgtgt tggacgatga tataccgatc gatgtttgag cagacaaggg agttaggaag 10280
agactactta ccactcatag cgccgactcc agcacctcca cctcttcgct cgatgacgtc 10340
tctgaccaag ctctggtaaa actctttgtc atcaccccaa acggcggcct cacattcagc 10400
ctcatcctga gagacgagtc ccatgaaccg atctactttt ttcctaccct ctagaccctc 10460
aagggaagct ccaatttgct cgacgactcc gatcttgacg gatttaaact tttcacctcg 10520
aagattctga aggccttgag cggtcataat cttggaagac c 10561
<210>2
<211>6645
<212>DNA
<213>Phaffia rhodozyma
<220>
<221>CDS
<222>(1)..(6645)
<400>2
atg gtt gtc gat cac gag agc gta agg cat ttc atc ggt gga aac gca 48
Met Val Val Asp His Glu Ser Val Arg His Phe Ile Gly Gly Asn Ala
1 5 10 15
ctt gag aac gcc cct ccg tca agc gtc acc gat ttc gtt aga agt caa 96
Leu Glu Asn Ala Pro Pro Ser Ser Val Thr Asp Phe Val Arg Ser Gln
20 25 30
gat ggt cac acg gtc atc acc aaa gtc ctc att gcc aac aac gga atc 144
Asp Gly His Thr Val Ile Thr Lys Val Leu Ile Ala Asn Asn Gly Ile
35 40 45
gct gct gta aaa gag atc cga tca gtt cgt aaa tgg gct tac gag acg 192
Ala Ala Val Lys Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr
50 55 60
ttt gga gat gag cga gcc atc gaa ttt acg gta atg gcc act cca gaa 240
Phe Gly Asp Glu Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu
65 70 75 80
gat ttg aag gtg aac tgc gac tat att cga atg gct gat cga gtc gtc 288
Asp Leu Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg Val Val
85 90 95
gaa gtt cct gga gga act aac aac aac aat cac tct aac gtc gac ctc 336
Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val Asp Leu
100 105 110
atc gtt gac att gcc gag cga ttc aat ata cat gct gtt tgg gct gga 384
Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp Ala Gly
115 120 125
tgg ggt cac gct tcg gaa aac ccc aga ctt ccc gag tct ctc gcc gcc 432
Trp Gly His Ala Ser Glu Asn Pro Arg Leu Pro Glu Ser Leu Ala Ala
130 135 140
tca aag aac aag atc gtc ttc att ggt cct ccc gga tcc gct atg cga 480
Ser Lys Asn Lys Ile Val Phe Ile Gly Pro Pro Gly Ser Ala Met Arg
145 150 155 160
tcc ctt gga gac aag att tct tcg acc atc gtt gcc cag tct gcc cag 528
Ser Leu Gly Asp Lys Ile Ser Ser Thr Ile Val Ala Gln Ser Ala Gln
165 170 175
gtg ccg tgt atg gcc tgg tct gga tca ggc atc act gat aca gag ctc 576
Val Pro Cys Met Ala Trp Ser Gly Ser Gly Ile Thr Asp Thr Glu Leu
180 185 190
agc cct cag ggc ttc gtg act gtg ccc gat ggg cca tat cag gct gct 624
Ser Pro Gln Gly Phe Val Thr Val Pro Asp Gly Pro Tyr Gln Ala Ala
195 200 205
tgt gta aag acg gtg gag gat ggt ttg gtg cga gcc gag aag atc ggt 672
Cys Val Lys Thr Val Glu Asp Gly Leu Val Arg Ala Glu Lys Ile Gly
210 215 220
ttg cca gtt atg atc aag gcc tct gag gga gga gga gga aag ggt atc 720
Leu Pro Val Met Ile Lys Ala Ser Glu Gly Gly Gly Gly Lys Gly Ile
225 230 235 240
cga atg gtt cac agc atg gac aca ttc aag aac tcc tac aac tcc gtc 768
Arg Met Val His Ser Met Asp Thr Phe Lys Asn Ser Tyr Asn Ser Val
245 250 255
gct tcc gag gtg cca gga tct ccg att ttc atc atg gcc ttg gct gga 816
Ala Ser Glu Val Pro Gly Ser Pro Ile Phe Ile Met Ala Leu Ala Gly
260 265 270
tct gct cga cat ttg gag gtc cag ctc ctt gct gat cag tac gga aac 864
Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp Gln Tyr Gly Asn
275 280 285
gct atc tct ttg ttc ggt cga gat tgc tct gtt cag cga cga cat cag 912
Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln Arg Arg His Gln
290 295 300
aag atc att gag gag gct ccc gtc acg atc gct cgt cca gag aga ttc 960
Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg Pro Glu Arg Phe
305 310 315 320
gaa gag atg gag aag gct gct gtc agg ttg gcc aag tta gta gga tat 1008
Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys Leu Val Gly Tyr
325 330 335
gtt agt gcc ggt acc gtc gaa tac ctc tac tct cac gcc gac gac tca 1056
Val Ser Ala Gly Thr Val Glu Tyr Leu Tyr Ser His Ala Asp Asp Ser
340 345 350
ttc ttc ttc ctc gaa ctc aac cct cga ctt caa gtc gag cac cct act 1104
Phe Phe Phe Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr
355 360 365
acc gag atg gtc tcg ggt gtc aac ctt ccc gct gct cag ctt cag att 1152
Thr Glu Met Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile
370 375 380
gct atg ggt atc cct ctt tct cga att cgg gat att cga gtc ctc tac 1200
Ala Met Gly Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr
385 390 395 400
ggt ctc gat ccc cac act gtt tcc gag atc gac ttc gac agc agc aga 1248
Gly Leu Asp Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg
405 410 415
gcg gag tct gtc cag act cag agg aag cct agg ccc aag ggt cac gtc 1296
Ala Glu Ser Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val
420 425 430
att gcc tgt cga atc acg agt gaa aac ccc gat gag ggg ttc aag ccg 1344
Ile Ala Cys Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro
435 440 445
tct gcc gga gat atc caa gag ttg aac ttc aga agt aat act aac gtc 1392
Ser Ala Gly Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val
450 455 460
tgg gga tac ttc tct gtt gga gct act gga gga att cat agt ttc gcc 1440
Trp Gly Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser Phe Ala
465 470 475 480
gat tct caa ttc ggt cac gtg ttt gct tat ggc tcc gac cga acg act 1488
Asp Ser Gln Phe Gly His Val Phe Ala Tyr Gly Ser Asp Arg Thr Thr
485 490 495
gcc aga aag aat atg gtt atc gcc ttg aaa gag ctt tcc att cga gga 1536
Ala Arg Lys Asn Met Val Ile Ala Leu Lys Glu Leu Ser Ile Arg Gly
500 505 510
gac ttc cga acc act gtc gag tat ctt atc act ctt ctt gag acg agc 1584
Asp Phe Arg Thr Thr Val Glu Tyr Leu Ile Thr Leu Leu Glu Thr Ser
515 520 525
gat ttc gag cag aac gcc att acc acc gct tgg ttg gat ggg ttg atc 1632
Asp Phe Glu Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile
530 535 540
act aac aag ctt aca tct gag agg cct gat cea tca ctg gcc gtt att 1680
Thr Asn Lys Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile
545 550 555 560
tgt ggt gca att gtg aaa gct cac gtg gct tct gag aac tgt tgg gcc 1728
Cys Gly Ala Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala
565 570 575
gaa tac cga cga gta ttg gac aag gga cag gtt ccc tcc aag gac act 1776
Glu Tyr Arg Arg Val Leu Asp Lys Gly Gln Val Pro Ser Lys Asp Thr
580 585 590
ctc aag aca gtg ttc act ctt gat ttc atc tat gag ggt gtt cgg tac 1824
Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg Tyr
595 600 605
aat ttc acc gct gct cga gcc tcc ctc aac act tac cga ttg tat cta 1872
Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr Leu
610 615 620
aac gga gga aag acc gtg gtg tcc atc cga cct ttg gcc gat ggt gga 1920
Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly Gly
625 630 635 640
atg ctc gtt ctt ctc gat ggc cga tcc cac act ctc tac tgg agg gag 1968
Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg Glu
645 650 655
gaa gtc ggt acc ctc cga att cag gta gac gca aag act tgc ctg att 2016
Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu Ile
660 665 670
gag cag gag aac gac ccc act cag ctc cga tca ccc tcg cct gga aag 2064
Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly Lys
675 680 685
atc atc cgg ttt ttg gtc gaa agc gga gat cac atc tcc tcc gga gat 2112
Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly Asp
690 695 700
atc tat gct gag gtt gag gtc atg aag atg atc ttg ccc ttg att gcc 2160
Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile Ala
705 710 715 720
cag gag tcc ggt cac gtt cag ttt gtc aag caa gcc ggt gtg acc gtc 2208
Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr Val
725 730 735
gat cct gga gcg att att ggg atc ttg agt ctt gat gac cct acg cga 2256
Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr Arg
740 745 750
gtg aag aag gcg aag ccc ttc gag ggt ctc ctg cct gtg act ggt ctc 2304
Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly Leu
755 760 765
cct aac ctg ccc ggt aac aga cct cac cag cgg cta cag ttc cag ctt 2352
Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln Leu
770 775 780
gag tcg ata tac tcg gtc ttg gat gga tac gag agt gac tcc act gca 2400
Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr Ala
785 790 795 800
aca atc ctc cga tca ttc tct gaa aac ctt tat gat cct gat ctt gct 2448
Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu Ala
805 810 815
ttc gga gag gct tta tcc atc att tcc gtc ctt tct ggg aga atg cct 2496
Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met Pro
820 825 830
gcc gat ctt gag gag agc att cga gag gtc atc agc gaa gct cag tcg 2544
Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln Ser
835 840 845
aag cct cac gcc gag ttc cct gga tca aag atc ctc aaa gtc gtc gag 2592
Lys Pro His Ala Glu Phe Pro Gly Ser Lys Ile Leu Lys Val Val Glu
850 855 860
cgg tac atc gat aat ttg cga cct cag gag agg gct atg gtc cga act 2640
Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala Met Val Arg Thr
865 870 875 880
cag atc gaa ccc atc gtt ggt att gct gag aag aac gtt ggc ggt cct 2688
Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn Val Gly Gly Pro
885 890 895
aag ggt tac gcc tct tac gtc tta gct acc atc ctt caa aag ttc ttg 2736
Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu Gln Lys Phe Leu
900 905 910
gcc gtt gag gcc gtt ttt gct act ggt agt gaa gag gcc att gtt ctc 2784
Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu Ala Ile Val Leu
915 920 925
caa ctt cga gat gaa aac cga gaa tct ttg aac gac gtc ctt ggt ctc 2832
Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp Val Leu Gly Leu
930 935 940
gtc ctg gct cac tcg cgt ctc agc gct cga tcc aag ctt gtt ctc tcc 2880
Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys Leu Val Leu Ser
945 950 955 960
gtc ttt gat ctg atc aag tct atg cag ctc ctc aac aac act gag ggt 2928
Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn Asn Thr Glu Gly
965 970 975
tct ttc ctt cat aag act atg aaa gcg ctt gcc gac atg ccc acc aag 2976
Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp Met Pro Thr Lys
980 985 990
gct cct ttg gcc agc aag gtg tct ttg aag gct cgg gaa att ctt atc 3024
Ala Pro Leu Ala Ser Lys Val Ser Leu Lys Ala Arg Glu Ile Leu Ile
995 1000 1005
tct tgc tct ctt ccc tct tac gag gag agg ttg ttc cag atg gaa 3069
Ser Cys Ser Leu Pro Ser Tyr Glu Glu Arg Leu Phe Gln Met Glu
1010 1015 1020
aag atc ctt aac tct tct gtc acc act tct tac tac gga gag act 3114
Lys Ile Leu Asn Ser Ser Val Thr Thr Ser Tyr Tyr Gly Glu Thr
1025 1030 1035
gga ggt gga cac aga aac cct tcg gtt gat gtt ctg act gag atc 3159
Gly Gly Gly His Arg Asn Pro Ser Val Asp Val Leu Thr Glu Ile
1040 1045 1050
tca aac tct cga ttc acc gtc tac gat gtc ctg tcc tcc ttc ttc 3204
Ser Asn Ser Arg Phe Thr Val Tyr Asp Val Leu Ser Ser Phe Phe
1055 1060 1065
aag cac gat gat cct tgg att gtt ctt gct agt ttg acc gtc tac 3249
Lys His Asp Asp Pro Trp Ile Val Leu Ala Ser Leu Thr Val Tyr
1070 1075 1080
gtt ctt cga gct tac cga gag tac agt att ctt gat atg caa cat 3294
Val Leu Arg Ala Tyr Arg Glu Tyr Ser Ile Leu Asp Met Gln His
1085 1090 1095
gag caa ggt cag gat ggc gct gct gga gtc atc act tgg cga ttc 3339
Glu Gln Gly Gln Asp Gly Ala Ala Gly Val Ile Thr Trp Arg Phe
1100 1105 1110
aag ctc aac cag ccc atc gct gag tct tct act ccc cga gtt gac 3384
Lys Leu Asn Gln Pro Ile Ala Glu Ser Ser Thr Pro Arg Val Asp
1115 1120 1125
tcg aat cga gac gtt tac cga gtc ggt tcg ctt tct gat ttg acc 3429
Ser Asn Arg Asp Val Tyr Arg Val Gly Ser Leu Ser Asp Leu Thr
1130 1135 1140
tac aag atc aag cag agt cag acc gag ccc ctc cga gct ggt gtc 3474
Tyr Lys Ile Lys Gln Ser Gln Thr Glu Pro Leu Arg Ala Gly Val
1145 1150 1155
atg acg agc ttc aac aac ttg aag gag gtt cag gac gga ctc ttg 3519
Met Thr Ser Phe Asn Asn Leu Lys Glu Val Gln Asp Gly Leu Leu
1160 1165 1170
aat gtt ctg tct ttc ttc cct gct tac cat cat caa gat ttc act 3564
Asn Val Leu Ser Phe Phe Pro Ala Tyr His His Gln Asp Phe Thr
1175 1180 1185
caa cga cat ggt cag gac agt gcc atg ccc aac gtt ctc aac att 3609
Gln Arg His Gly Gln Asp Ser Ala Met Pro Asn Val Leu Asn Ile
1190 1195 1200
gct atc cgg gct ttc gag gag aag gac gac atg tct gat ctt gat 3654
Ala Ile Arg Ala Phe Glu Glu Lys Asp Asp Met Ser Asp Leu Asp
1205 1210 1215
tgg gcc aag agt gtt gag tcg ctg gta atg cag atg tct gcc gag 3699
Trp Ala Lys Ser Val Glu Ser Leu Val Met Gln Met Ser Ala Glu
1220 1225 1230
atc cag aag aag gga att cga cga gtt acc ttc ttg gtt tgc cga 3744
Ile Gln Lys Lys Gly Ile Arg Arg Val Thr Phe Leu Val Cys Arg
1235 1240 1245
aag ggc gtt tac ccc tcc tac ttc acc ttc aga caa gag ggt gcc 3789
Lys Gly Val Tyr Pro Ser Tyr Phe Thr Phe Arg Gln Glu Gly Ala
1250 1255 1260
cag ggc ccc tgg aga gag gag gag aag att cga aac atc gag cct 3834
Gln Gly Pro Trp Arg Glu Glu Glu Lys Ile Arg Asn Ile Glu Pro
1265 1270 1275
gct cta gcc agt cag ctt gag ctc aac cga ctc tcg aat ttc aag 3879
Ala Leu Ala Ser Gln Leu Glu Leu Asn Arg Leu Ser Asn Phe Lys
1280 1285 1290
gtc acc cct atc ttc gta gac aac aga cag atc cac atc tac aag 3924
Val Thr Pro Ile Phe Val Asp Asn Arg Gln Ile His Ile Tyr Lys
1295 1300 1305
gga gtg ggt aag gag aac tct tcc gat gtt cga ttc ttt atc cgg 3969
Gly Val Gly Lys Glu Asn Ser Ser Asp Val Arg Phe Phe Ile Arg
1310 1315 1320
gct ttg gtt cga cct gga cgg gtc cag gga tcg atg aag gct gcc 4014
Ala Leu Val Arg Pro Gly Arg Val Gln Gly Ser Met Lys Ala Ala
1325 1330 1335
gag tat ctc atc tcc gag tgc gat cga ctg ctc act gat atc ctg 4059
Glu Tyr Leu Ile Ser Glu Cys Asp Arg Leu Leu Thr Asp Ile Leu
1340 1345 1350
gac gcc ttg gag gtt gtt gga gcc gag act cga aac gcc gat tgc 4104
Asp Ala Leu Glu Val Val Gly Ala Glu Thr Arg Asn Ala Asp Cys
1355 1360 1365
aac cat gtt gga att aac ttc atc tat aac gtt ctt gtc gac ttc 4149
Asn His Val Gly Ile Asn Phe Ile Tyr Asn Val Leu Val Asp Phe
1370 1375 1380
gac gac gtc cag gag gcc ctt gcc ggg ttc att gag agg cac gga 4194
Asp Asp Val Gln Glu Ala Leu Ala Gly Phe Ile Glu Arg His Gly
1385 1390 1395
aag agg ctt tgg cga ctt cga gtg acc gct tct gaa atc cga atg 4239
Lys Arg Leu Trp Arg Leu Arg Val Thr Ala Ser Glu Ile Arg Met
1400 1405 1410
gtt ctt gag gac gac gag ggt aac gtc acc ccc atc cga tgc tgc 4284
Val Leu Glu Asp Asp Glu Gly Asn Val Thr Pro Ile Arg Cys Cys
1415 1420 1425
att gag aac gtt tct ggt ttc gtc gtg aag tac cac gcc tac cag 4329
Ile Glu Asn Val Ser Gly Phe Val Val Lys Tyr His Ala Tyr Gln
1430 1435 1440
gag gtt gag acc gag aag ggt act a cc atc ttg aag tca atc gga 4374
Glu Val Glu Thr Glu Lys Gly Thr Thr Ile Leu Lys Ser Ile Gly
1445 1450 1455
gac ctt gga cct ctt cac ctt cag cct gtc aac cat gct tac cag 4419
Asp Leu Gly Pro Leu His Leu Gln Pro Val Asn His Ala Tyr Gln
1460 1465 1470
acc aag aac agt ctt cag ccc cga cga tac cag gct cac ttg gtt 4464
Thr Lys Asn Ser Leu Gln Pro Arg Arg Tyr Gln Ala His Leu Val
1475 1480 1485
gga acg act tac gtc tac gac tac ccc gat ctc ttc gtt cag agt 4509
Gly Thr Thr Tyr Val Tyr Asp Tyr Pro Asp Leu Phe Val Gln Ser
1490 1495 1500
ttg cgc aag gtt tgg gct gag gct gct gct aag att cct cac ctc 4554
Leu Arg Lys Val Trp Ala Glu Ala Ala Ala Lys Ile Pro His Leu
1505 1510 1515
cgg gtg cct agc gag cct ctt acc gct acc gag ttg gtt ctc gat 4599
Arg Val Pro Ser Glu Pro Leu Thr Ala Thr Glu Leu Val Leu Asp
1520 1525 1530
gag aac aac gag ctt cag gag gtc gag cga cct ccg ggt tcc aac 4644
Glu Asn Asn Glu Leu Gln Glu Val Glu Arg Pro Pro Gly Ser Asn
1535 1540 1545
tcg tgt ggt atg gtc gcc tgg atc ttc act atg ctc act ccc gag 4689
Ser Cys Gly Met Val Ala Trp Ile Phe Thr Met Leu Thr Pro Glu
1550 1555 1560
tat ccc aag ggt cga cga gta gtt gcc att gcc aac gat atc acc 4734
Tyr Pro Lys Gly Arg Arg Val Val Ala Ile Ala Asn Asp Ile Thr
1565 1570 1575
ttc aag att gga tcc ttt ggt cct aag gaa gac gat tac ttc ttc 4779
Phe Lys Ile Gly Ser Phe Gly Pro Lys Glu Asp Asp Tyr Phe Phe
1580 1585 1590
aag gct act gaa att gcc aag aag ctg ggc ctt cct cga att tac 4824
Lys Ala Thr Glu Ile Ala Lys Lys Leu Gly Leu Pro Arg Ile Tyr
1595 1600 1605
ctc tct gcc aac agt gga gct aga ctc ggt atc gcg gag gag ctc 4869
Leu Ser Ala Asn Ser Gly Ala Arg Leu Gly Ile Ala Glu Glu Leu
1610 1615 1620
ttg cac atc ttc aag gcg gcc ttc gtt gac ccc gca aag cct tcc 4914
Leu His Ile Phe Lys Ala Ala Phe Val Asp Pro Ala Lys Pro Ser
1625 1630 1635
atg ggt att aag tat cta tac ttg acc cct gaa act tta tcc act 4959
Met Gly Ile Lys Tyr Leu Tyr Leu Thr Pro Glu Thr Leu Ser Thr
1640 1645 1650
ctt gcc aag aag gga tcc agc gtc acc act gag gag atc gag gat 5004
Leu Ala Lys Lys Gly Ser Ser Val Thr Thr Glu Glu Ile Glu Asp
1655 1660 1665
gac ggc gag cga cga cac aag atc acc gcc atc atc ggt ctt gca 5049
Asp Gly Glu Arg Arg His Lys Ile Thr Ala Ile Ile Gly Leu Ala
1670 1675 1680
gag ggt ttg gga gtt gag tct ctt cga gga tcc ggt ctt att gct 5094
Glu Gly Leu Gly Val Glu Ser Leu Arg Gly Ser Gly Leu Ile Ala
1685 1690 1695
gga gcc acc act cga gct tac gag gag gga atc ttc acc atc tct 5139
Gly Ala Thr Thr Arg Ala Tyr Glu Glu Gly Ile Phe Thr Ile Ser
1700 1705 1710
ctc gtt act gcc cga tcg gtc ggt atc gga gct tac ttg gtt cga 5184
Leu Val Thr Ala Arg Ser Val Gly Ile Gly Ala Tyr Leu Val Arg
1715 1720 1725
ttg ggt cag cga gct att cag gtt gaa ggc aac cct atg atc ctt 5229
Leu Gly Gln Arg Ala Ile Gln Val Glu Gly Asn Pro Met Ile Leu
1730 1735 1740
act gga gct cag tct ctc aac aag gtg ctt gga cga gag gtt tac 5274
Thr Gly Ala Gln Ser Leu Asn Lys Val Leu Gly Arg Glu Val Tyr
1745 1750 1755
act tcc aac ctt cag ctt gga gga acc cag att atg gcc cga aac 5319
Thr Ser Asn Leu Gln Leu Gly Gly Thr Gln Ile Met Ala Arg Asn
1760 1765 1770
ggt acc acg cat ctc gtc gct gaa tct gat ctc gat ggt gct ctc 5364
Gly Thr Thr His Leu Val Ala Glu Ser Asp Leu Asp Gly Ala Leu
1775 1780 1785
aag gtc atc cag tgg ctc tcg tat gtg ccc gag cga aag ggc aag 5409
Lys Val Ile Gln Trp Leu Ser Tyr Val Pro Glu Arg Lys Gly Lys
1790 1795 1800
gcc att cct atc tgg cct tcc gag gac cct tgg gac cga act gtg 5454
Ala Ile Pro Ile Trp Pro Ser Glu Asp Pro Trp Asp Arg Thr Val
1805 1810 1815
acc tac gag cct ccc cga ggt cct tac gat cct cga tgg ttg ctt 5499
Thr Tyr Glu Pro Pro Arg Gly Pro Tyr Asp Pro Arg Trp Leu Leu
1820 1825 1830
gaa gga aag ccg gat gaa ggc ttg act ggt ctt ttc gac aag gga 5544
Glu Gly Lys Pro Asp Glu Gly Leu Thr Gly Leu Phe Asp Lys Gly
1835 1840 1845
tct ttc atg gag acc ctt gga gat tgg gcc aag act atc gtc acc 5589
Ser Phe Met Glu Thr Leu Gly Asp Trp Ala Lys Thr Ile Val Thr
1850 1855 1860
ggt cga gcc cga ctg gga ggc att cct atg ggt gtt att gct gtc 5634
Gly Arg Ala Arg Leu Gly Gly Ile Pro Met Gly Val Ile Ala Val
1865 1870 1875
gaa acc agg acg acc gag aag atc atc gct gcc gat cct gcc aac 5679
Glu Thr Arg Thr Thr Glu Lys Ile Ile Ala Ala Asp Pro Ala Asn
1880 1885 1890
cct gca gct ttc gag caa aag att atg gag gct ggt cag gtt tgg 5724
Pro Ala Ala Phe Glu Gln Lys Ile Met Glu Ala Gly Gln Val Trp
1895 1900 1905
aac ccc aac gct gct tac aag acc gct caa tcc atc ttt gat atc 5769
Asn Pro Asn Ala Ala Tyr Lys Thr Ala Gln Ser Ile Phe Asp Ile
1910 1915 1920
aac aag gag ggt ctt cct ttg atg atc ctt gcc aac atc cga ggt 5814
Asn Lys Glu Gly Leu Pro Leu Met Ile Leu Ala Asn Ile Arg Gly
1925 1930 1935
ttc tct gga gga cag ggt gat atg ttt gac gct atc ctc aag cag 5859
Phe Ser Gly Gly Gln Gly Asp Met Phe Asp Ala Ile Leu Lys Gln
1940 1945 1950
ggt tct aag atc gtt gac ggt ctc tcg aac ttc aag cag cca gtg 5904
Gly Ser Lys Ile Val Asp Gly Leu Ser Asn Phe Lys Gln Pro Val
1955 1960 1965
ttc gtc tat gtt gtc ccc aac gga gag ctt cgt gga gga gct tgg 5949
Phe Val Tyr Val Val Pro Asn Gly Glu Leu Arg Gly Gly Ala Trp
1970 1975 1980
gtc gtg ttg gat cct act atc aac ctt gcc aag atg gag atg tac 5994
Val Val Leu Asp Pro Thr Ile Asn Leu Ala Lys Met Glu Met Tyr
1985 1990 1995
gct gat gaa acc gct cga gga gga att ctc gag ccg gaa ggt atc 6039
Ala Asp Glu Thr Ala Arg Gly Gly Ile Leu Glu Pro Glu Gly Ile
2000 2005 2010
gtt gag atc aag ttc cga cga gac aag gtc atc gct acc atg gag 6084
Val Glu Ile Lys Phe Arg Arg Asp Lys Val Ile Ala Thr Met Glu
2015 2020 2025
cga ttg gac gag acc tat gcc tct ctc aaa gct gcc tcg aac gac 6129
Arg Leu Asp Glu Thr Tyr Ala Ser Leu Lys Ala Ala Ser Asn Asp
2030 2035 2040
tca acc aag tct gcg gag gag cga gct aag agt gct gag cta ctc 6174
Ser Thr Lys Ser Ala Glu Glu Arg Ala Lys Ser Ala Glu Leu Leu
2045 2050 2055
aag gca aga gag act cta ctt caa ccg acg tac ttg cag att gca 6219
Lys Ala Arg Glu Thr Leu Leu Gln Pro Thr Tyr Leu Gln Ile Ala
2060 2065 2070
cac ctt tac gct gat ctc cat gat cgt gtc gga cga atg gag gcc 6264
His Leu Tyr Ala Asp Leu His Asp Arg Val Gly Arg Met Glu Ala
2075 2080 2085
aag ggt tgc gcg aag cga gct gtc tgg gct gag gct cga cga ttc 6309
Lys Gly Cys Ala Lys Arg Ala Val Trp Ala Glu Ala Arg Arg Phe
2090 2095 2100
ttc tac tgg cga ctt cga cga cgt ctc aac gat gag cac atc ctg 6354
Phe Tyr Trp Arg Leu Arg Arg Arg Leu Asn Asp Glu His Ile Leu
2105 2110 2115
tct aag ttc gct gct gcc aac ccg gat ctt act ctc gag gag cga 6399
Ser Lys Phe Ala Ala Ala Asn Pro Asp Leu Thr Leu Glu Glu Arg
2120 2125 2130
caa aac att ctc gac tct gtc gtc cag act gac ctc act gat gac 6444
Gln Asn Ile Leu Asp Ser Val Val Gln Thr Asp Leu Thr Asp Asp
2135 2140 2145
cga gcc acc gct gaa tgg att gag cag tct gca gaa gag att gct 6489
Arg Ala Thr Ala Glu Trp Ile Glu Gln Ser Ala Glu Glu Ile Ala
2150 2155 2160
gct gcc gtt gcc gaa gtc cga tcc acc tac gtg tcg aat aag att 6534
Ala Ala Val Ala Glu Val Arg Ser Thr Tyr Val Ser Asn Lys Ile
2165 2170 2175
atc agc ttc gcc gag acg gag cga gct gga gcg ttg cag ggc ttg 6579
Ile Ser Phe Ala Glu Thr Glu Arg Ala Gly Ala Leu Gln Gly Leu
2180 2185 2190
gtc gct gtc ttg agc act ttg aat gcg gaa gac aag aag gcc ctt 6624
Val Ala Val Leu Ser Thr Leu Asn Ala Glu Asp Lys Lys Ala Leu
2195 2200 2205
gtt tct agc ctt ggt ctc taa 6645
Val Ser Ser Leu Gly Leu
2210
<210>3
<211>2214
<212>PRT
<213>Phaffia rhodozyma
<400>3
Met Val Val Asp His Glu Ser Val Arg His Phe Ile Gly Gly Asn Ala
1 5 10 15
Leu Glu Asn Ala Pro Pro Ser Ser Val Thr Asp Phe Val Arg Ser Gln
20 25 30
Asp Gly His Thr Val Ile Thr Lys Val Leu Ile Ala Asn Asn Gly Ile
35 40 45
Ala Ala Val Lys Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr
50 55 60
Phe Gly Asp Glu Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu
65 70 75 80
Asp Leu Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg Val Val
85 90 95
Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val Asp Leu
100 105 110
Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp Ala Gly
115 120 125
Trp Gly His Ala Ser Glu Asn Pro Arg Leu Pro Glu Ser Leu Ala Ala
130 135 140
Ser Lys Asn Lys Ile Val Phe Ile Gly Pro Pro Gly Ser Ala Met Arg
145 150 155 160
Ser Leu Gly Asp Lys Ile Ser Ser Thr Ile Val Ala Gln Ser Ala Gln
165 170 175
Val Pro Cys Met Ala Trp Ser Gly Ser Gly Ile Thr Asp Thr Glu Leu
180 185 190
Ser Pro Gln Gly Phe Val Thr Val Pro Asp Gly Pro Tyr Gln Ala Ala
195 200 205
Cys Val Lys Thr Val Glu Asp Gly Leu Val Arg Ala Glu Lys Ile Gly
210 215 220
Leu Pro Val Met Ile Lys Ala Ser Glu Gly Gly Gly Gly Lys Gly Ile
225 230 235 240
Arg Met Val His Ser Met Asp Thr Phe Lys Asn Ser Tyr Asn Ser Val
245 250 255
Ala Ser Glu Val Pro Gly Ser Pro Ile Phe Ile Met Ala Leu Ala Gly
260 265 270
Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp Gln Tyr Gly Asn
275 280 285
Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln Arg Arg His Gln
290 295 300
Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg Pro Glu Arg Phe
305 310 315 320
Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys Leu Val Gly Tyr
325 330 335
Val Ser Ala Gly Thr Val Glu Tyr Leu Tyr Ser His Ala Asp Asp Ser
340 345 350
Phe Phe Phe Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr
355 360 365
Thr Glu Met Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile
370 375 380
Ala Met Gly Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr
385 390 395 400
Gly Leu Asp Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg
405 410 415
Ala Glu Ser Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val
420 425 430
Ile Ala Cys Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro
435 440 445
Ser Ala Gly Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val
450 455 460
Trp Gly Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser Phe Ala
465 470 475 480
Asp Ser Gln Phe Gly His Val Phe Ala Tyr Gly Ser Asp Arg Thr Thr
485 490 495
Ala Arg Lys Asn Met Val Ile Ala Leu Lys Glu Leu Ser Ile Arg Gly
500 505 510
Asp Phe Arg Thr Thr Val Glu Tyr Leu Ile Thr Leu Leu Glu Thr Ser
515 520 525
Asp Phe Glu Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile
530 535 540
Thr Asn Lys Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile
545 550 555 560
Cys Gly Ala Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala
565 570 575
Glu Tyr Arg Arg Val Leu Asp Lys Gly Gln Val Pro Ser Lys Asp Thr
580 585 590
Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg Tyr
595 600 605
Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr Leu
610 615 620
Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly Gly
625 630 635 640
Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg Glu
645 650 655
Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu Ile
660 665 670
Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly Lys
675 680 685
Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly Asp
690 695 700
Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile Ala
705 710 715 720
Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr Val
725 730 735
Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr Arg
740 745 750
Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly Leu
755 760 765
Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln Leu
770 775 780
Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr Ala
785 790 795 800
Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu Ala
805 810 815
Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met Pro
820 825 830
Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln Ser
835 840 845
Lys Pro His Ala Glu Phe Pro Gly Ser Lys Ile Leu Lys Val Val Glu
850 855 860
Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala Met Val Arg Thr
865 870 875 880
Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn Val Gly Gly Pro
885 890 895
Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu Gln Lys Phe Leu
900 905 910
Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu Ala Ile Val Leu
915 920 925
Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp Val Leu Gly Leu
930 935 940
Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys Leu Val Leu Ser
945 950 955 960
Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn Asn Thr Glu Gly
965 970 975
Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp Met Pro Thr Lys
980 985 990
Ala Pro Leu Ala Ser Lys Val Ser Leu Lys Ala Arg Glu Ile Leu Ile
995 1000 1005
Ser Cys Ser Leu Pro Ser Tyr Glu Glu Arg Leu Phe Gln Met Glu
1010 1015 1020
Lys Ile Leu Asn Ser Ser Val Thr Thr Ser Tyr Tyr Gly Glu Thr
1025 1030 1035
Gly Gly Gly His Arg Asn Pro Ser Val Asp Val Leu Thr Glu Ile
1040 1045 1050
Ser Asn Ser Arg Phe Thr Val Tyr Asp Val Leu Ser Ser Phe Phe
1055 1060 1065
Lys His Asp Asp Pro Trp Ile Val Leu Ala Ser Leu Thr Val Tyr
1070 1075 1080
Val Leu Arg Ala Tyr Arg Glu Tyr Ser Ile Leu Asp Met Gln His
1085 1090 1095
Glu Gln Gly Gln Asp Gly Ala Ala Gly Val Ile Thr Trp Arg Phe
1100 1105 1110
Lys Leu Asn Gln Pro Ile Ala Glu Ser Ser Thr Pro Arg Val Asp
1115 1120 1125
Ser Asn Arg Asp Val Tyr Arg Val Gly Ser Leu Ser Asp Leu Thr
1130 1135 1140
Tyr Lys Ile Lys Gln Ser Gln Thr Glu Pro Leu Arg Ala Gly Val
1145 1150 1155
Met Thr Ser Phe Asn Asn Leu Lys Glu Val Gln Asp Gly Leu Leu
1160 1165 1170
Asn Val Leu Ser Phe Phe Pro Ala Tyr His His Gln Asp Phe Thr
1175 1180 1185
Gln Arg His Gly Gln Asp Ser Ala Met Pro Asn Val Leu Asn Ile
1190 1195 1200
Ala Ile Arg Ala Phe Glu Glu Lys Asp Asp Met Ser Asp Leu Asp
1205 1210 1215
Trp Ala Lys Ser Val Glu Ser Leu Val Met Gln Met Ser Ala Glu
1220 1225 1230
Ile Gln Lys Lys Gly Ile Arg Arg Val Thr Phe Leu Val Cys Arg
1235 1240 1245
Lys Gly Val Tyr Pro Ser Tyr Phe Thr Phe Arg Gln Glu Gly Ala
1250 1255 1260
Gln Gly Pro Trp Arg Glu Glu Glu Lys Ile Arg Asn Ile Glu Pro
1265 1270 1275
Ala Leu Ala Ser Gln Leu Glu Leu Asn Arg Leu Ser Asn Phe Lys
1280 1285 1290
Val Thr Pro Ile Phe Val Asp Asn Arg Gln Ile His Ile Tyr Lys
1295 1300 1305
Gly Val Gly Lys Glu Asn Ser Ser Asp Val Arg Phe Phe Ile Arg
1310 1315 1320
Ala Leu Val Arg Pro Gly Arg Val Gln Gly Ser Met Lys Ala Ala
1325 1330 1335
Glu Tyr Leu Ile Ser Glu Cys Asp Arg Leu Leu Thr Asp Ile Leu
1340 1345 1350
Asp Ala Leu Glu Val Val Gly Ala Glu Thr Arg Asn Ala Asp Cys
1355 1360 1365
Asn His Val Gly Ile Asn Phe Ile Tyr Asn Val Leu Val Asp Phe
1370 1375 1380
Asp Asp Val Gln Glu Ala Leu Ala Gly Phe Ile Glu Arg His Gly
1385 1390 1395
Lys Arg Leu Trp Arg Leu Arg Val Thr Ala Ser Glu Ile Arg Met
1400 1405 1410
Val Leu Glu Asp Asp Glu Gly Asn Val Thr Pro Ile Arg Cys Cys
1415 1420 1425
Ile Glu Asn Val Ser Gly Phe Val Val Lys Tyr His Ala Tyr Gln
1430 1435 1440
Glu Val Glu Thr Glu Lys Gly Thr Thr Ile Leu Lys Ser Ile Gly
1445 1450 1455
Asp Leu Gly Pro Leu His Leu Gln Pro Val Asn His Ala Tyr Gln
1460 1465 1470
Thr Lys Asn Ser Leu Gln Pro Arg Arg Tyr Gln Ala His Leu Val
1475 1480 1485
Gly Thr Thr Tyr Val Tyr Asp Tyr Pro Asp Leu Phe Val Gln Ser
1490 1495 1500
Leu Arg Lys Val Trp Ala Glu Ala Ala Ala Lys Ile Pro His Leu
1505 1510 1515
Arg Val Pro Ser Glu Pro Leu Thr Ala Thr Glu Leu Val Leu Asp
1520 1525 1530
Glu Asn Asn Glu Leu Gln Glu Val Glu Arg Pro Pro Gly Ser Asn
1535 1540 1545
Ser Cys Gly Met Val Ala Trp Ile Phe Thr Met Leu Thr Pro Glu
1550 1555 1560
Tyr Pro Lys Gly Arg Arg Val Val Ala Ile Ala Asn Asp Ile Thr
1565 1570 1575
Phe Lys Ile Gly Ser Phe Gly Pro Lys Glu Asp Asp Tyr Phe Phe
1580 1585 1590
Lys Ala Thr Glu Ile Ala Lys Lys Leu Gly Leu Pro Arg Ile Tyr
1595 1600 1605
Leu Ser Ala Asn Ser Gly Ala Arg Leu Gly Ile Ala Glu Glu Leu
1610 1615 1620
Leu His Ile Phe Lys Ala Ala Phe Val Asp Pro Ala Lys Pro Ser
1625 1630 1635
Met Gly Ile Lys Tyr Leu Tyr Leu Thr Pro Glu Thr Leu Ser Thr
1640 1645 1650
Leu Ala Lys Lys Gly Ser Ser Val Thr Thr Glu Glu Ile Glu Asp
1655 1660 1665
Asp Gly Glu Arg Arg His Lys Ile Thr Ala Ile Ile Gly Leu Ala
1670 1675 1680
Glu Gly Leu Gly Val Glu Ser Leu Arg Gly Ser Gly Leu Ile Ala
1685 1690 1695
Gly Ala Thr Thr Arg Ala Tyr Glu Glu Gly Ile Phe Thr Ile Ser
1700 1705 1710
Leu Val Thr Ala Arg Ser Val Gly Ile Gly Ala Tyr Leu Val Arg
1715 1720 1725
Leu Gly Gln Arg Ala Ile Gln Val Glu Gly Asn Pro Met Ile Leu
1730 1735 1740
Thr Gly Ala Gln Ser Leu Asn Lys Val Leu Gly Arg Glu Val Tyr
1745 1750 1755
Thr Ser Asn Leu Gln Leu Gly Gly Thr Gln Ile Met Ala Arg Asn
1760 1765 1770
Gly Thr Thr His Leu Val Ala Glu Ser Asp Leu Asp Gly Ala Leu
1775 1780 1785
Lys Val Ile Gln Trp Leu Ser Tyr Val Pro Glu Arg Lys Gly Lys
1790 1795 1800
Ala Ile Pro Ile Trp Pro Ser Glu Asp Pro Trp Asp Arg Thr Val
1805 1810 1815
Thr Tyr Glu Pro Pro Arg Gly Pro Tyr Asp Pro Arg Trp Leu Leu
1820 1825 1830
Glu Gly Lys Pro Asp Glu Gly Leu Thr Gly Leu Phe Asp Lys Gly
1835 1840 1845
Ser Phe Met Glu Thr Leu Gly Asp Trp Ala Lys Thr Ile Val Thr
1850 1855 1860
Gly Arg Ala Arg Leu Gly Gly Ile Pro Met Gly Val Ile Ala Val
1865 1870 1875
Glu Thr Arg Thr Thr Glu Lys Ile Ile Ala Ala Asp Pro Ala Asn
1880 1885 1890
Pro Ala Ala Phe Glu Gln Lys Ile Met Glu Ala Gly Gln Val Trp
1895 1900 1905
Asn Pro Asn Ala Ala Tyr Lys Thr Ala Gln Ser Ile Phe Asp Ile
1910 1915 1920
Asn Lys Glu Gly Leu Pro Leu Met Ile Leu Ala Asn Ile Arg Gly
1925 1930 1935
Phe Ser Gly Gly Gln Gly Asp Met Phe Asp Ala Ile Leu Lys Gln
1940 1945 1950
Gly Ser Lys Ile Val Asp Gly Leu Ser Asn Phe Lys Gln Pro Val
1955 1960 1965
Phe Val Tyr Val Val Pro Asn Gly Glu Leu Arg Gly Gly Ala Trp
1970 1975 1980
Val Val Leu Asp Pro Thr Ile Asn Leu Ala Lys Met Glu Met Tyr
1985 1990 1995
Ala Asp Glu Thr Ala Arg Gly Gly Ile Leu Glu Pro Glu Gly Ile
2000 2005 2010
Val Glu Ile Lys Phe Arg Arg Asp Lys Val Ile Ala Thr Met Glu
2015 2020 2025
Arg Leu Asp Glu Thr Tyr Ala Ser Leu Lys Ala Ala Ser Asn Asp
2030 2035 2040
Ser Thr Lys Ser Ala Glu Glu Arg Ala Lys Ser Ala Glu Leu Leu
2045 2050 2055
Lys Ala Arg Glu Thr Leu Leu Gln Pro Thr Tyr Leu Gln Ile Ala
2060 2065 2070
His Leu Tyr Ala Asp Leu His Asp Arg Val Gly Arg Met Glu Ala
2075 2080 2085
Lys Gly Cys Ala Lys Arg Ala Val Trp Ala Glu Ala Arg Arg Phe
2090 2095 2100
Phe Tyr Trp Arg Leu Arg Arg Arg Leu Asn Asp Glu His Ile Leu
2105 2110 2115
Ser Lys Phe Ala Ala Ala Asn Pro Asp Leu Thr Leu Glu Glu Arg
2120 2125 2130
Gln Asn Ile Leu Asp Ser Val Val Gln Thr Asp Leu Thr Asp Asp
2135 2140 2145
Arg Ala Thr Ala Glu Trp Ile Glu Gln Ser Ala Glu Glu Ile Ala
2150 2155 2160
Ala Ala Val Ala Glu Val Arg Ser Thr Tyr Val Ser Asn Lys Ile
2165 2170 2175
Ile Ser Phe Ala Glu Thr Glu Arg Ala Gly Ala Leu Gln Gly Leu
2180 2185 2190
Val Ala Val Leu Ser Thr Leu Asn Ala Glu Asp Lys Lys Ala Leu
2195 2200 2205
Val Ser Ser Leu Gly Leu
2210
<210>4
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc9
<220>
<221>misc_feature
<222>(6)..(6)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(9)..(9)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(15)..(15)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(18)..(18)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(21)..(21)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(24)..(24)
<223>n为a,c,g或t
<400>4
athggngcnt ayytngynmg nytngg 26
<210>5
<211>25
<212>DNA
<213>人工序列
<220>
<223>引物acc13
<220>
<221>misc_feature
<222>(3)..(3)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(6)..(6)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(12)..(12)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(15)..(15)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(18)..(18)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(21)..(21)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(24)..(24)
<223>n为a,c,g或t
<400>5
acnacnaccc angcnccncc nckna 25
<210>6
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc17
<400>6
ttaccctcgt cgtcctcaag aaccat 26
<210>7
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc18
<400>7
tggatcctac tatcaacctg ccaaga 26
<210>8
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc26
<400>8
gtgaacactg tcttgagagt gtcctt 26
<210>9
<211>20
<212>DNA
<213>人工序列
<220>
<223>引物acc43
<400>9
ccgctgctca gcttcagatt 20
<210>10
<211>19
<212>DNA
<213>人工序列
<220>
<223>引物acc44
<400>10
gattagatag ggatctagt 19
Claims (13)
1.重组微生物,其特征在于所述微生物的乙酰辅酶A羧化酶的基因表达低于宿主微生物,因此其能够产生相对于宿主微生物而言较高水平的类胡萝卜素,其中所述宿主微生物属于Phaffia rhodozyma菌株或Xanthophylomyces dendrorhous菌株,所述菌株包含含反义多核苷酸的载体,该反义多核苷酸为针对包含核酸分子的多核苷酸的反义多核苷酸,其中所述核酸分子选自:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
2.权利要求1的重组微生物,其包含针对含有一或多种核酸分子的分离的多核苷酸的反义多核苷酸,其中所述核酸分子选自:
(h)核酸分子,其具有SEQ ID NO:1所示的核苷酸序列;
(i)核酸分子,其核苷酸序列由于遗传密码而是(h)的核苷酸序列的简并序列。
3.权利要求1所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸编码氨基酸序列,所述氨基酸序列由SEQ ID NO:3确定。
4.权利要求2所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸编码氨基酸序列,所述氨基酸序列由SEQ ID NO:3确定。
5.权利要求1所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸源自P.rhodozyma菌株或Xanthophylomycesdendrorhous菌株。
6.权利要求2所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸源自P.rhodozyma菌株或Xanthophylomycesdendrorhous菌株。
7.制备重组载体的方法,所述方法包括将针对多核苷酸的反义多核苷酸插入载体,其中所述多核苷酸包含选自下述的核酸分子:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
8.重组载体,其含有针对多核苷酸的反义多核苷酸,所述多核苷酸包含选自下述的核酸分子:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
9.权利要求8的重组载体,其中所述的多核苷酸可操作地连接于表达控制序列,而允许在原核或真核细胞中的表达。
10.根据权利要求1-6中任一项所述的重组微生物,其中乙酰辅酶A羧化酶的基因表达用选自下组的技术降低:反义技术、定点诱变、易错聚合酶链式反应、或化学诱变。
11.生产类胡萝卜素的方法,所述方法包括培养权利要求1-6任一项的重组微生物。
12.权利要求11的方法,其中所述类胡萝卜素是选自虾青素、β-胡萝卜素、番茄红素、玉米黄质或角黄素中的一种或多种。
13.根据权利要求11的方法,其中在权利要求1-6任一项所述的重组微生物中,乙酰辅酶A羧化酶的基因表达用选自下组的技术降低:反义技术、定点诱变、易错聚合酶链式反应、或化学诱变。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02021625.5 | 2002-09-27 | ||
EP02021625 | 2002-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1685042A CN1685042A (zh) | 2005-10-19 |
CN100425698C true CN100425698C (zh) | 2008-10-15 |
Family
ID=32039109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB038231972A Expired - Fee Related CN100425698C (zh) | 2002-09-27 | 2003-09-25 | Acc基因 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7288395B2 (zh) |
EP (1) | EP1543123A2 (zh) |
JP (1) | JP2006500058A (zh) |
KR (1) | KR101196180B1 (zh) |
CN (1) | CN100425698C (zh) |
AU (1) | AU2003277902A1 (zh) |
CA (1) | CA2498381C (zh) |
NO (1) | NO20052073L (zh) |
WO (1) | WO2004029232A2 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
UA94038C2 (ru) | 2005-03-18 | 2011-04-11 | Майкробиа, Инк. | Продуцирование каротиноидов в маслянистых дрожжах и грибах |
EP1880004A1 (en) * | 2005-05-04 | 2008-01-23 | TMO Renewables Limited | Thermophilic microorganisms with inactivated lactate dehydrogenase gene (ldh) for ethanol production |
WO2008042338A2 (en) | 2006-09-28 | 2008-04-10 | Microbia, Inc. | Production of carotenoids in oleaginous yeast and fungi |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999032635A1 (en) * | 1997-12-20 | 1999-07-01 | Astrazeneca Uk Limited | Acetyl-coa-carboxylase from candida albicans |
WO2000011199A1 (en) * | 1998-08-20 | 2000-03-02 | Pioneer Hi-Bred International, Inc. | COMPOSITIONS AND METHODS FOR ALTERING AN ACETYL-CoA METABOLIC PATHWAY OF A PLANT |
CN1266101A (zh) * | 1999-03-09 | 2000-09-13 | 霍夫曼-拉罗奇有限公司 | 虾青素合成酶 |
CN1340628A (zh) * | 2000-05-24 | 2002-03-20 | 霍夫曼-拉罗奇有限公司 | 生物生产类胡萝卜素的改良方法及其所用的生物材料 |
-
2003
- 2003-09-25 CN CNB038231972A patent/CN100425698C/zh not_active Expired - Fee Related
- 2003-09-25 KR KR1020057005191A patent/KR101196180B1/ko not_active IP Right Cessation
- 2003-09-25 US US10/528,847 patent/US7288395B2/en not_active Expired - Fee Related
- 2003-09-25 WO PCT/EP2003/010683 patent/WO2004029232A2/en active Application Filing
- 2003-09-25 CA CA2498381A patent/CA2498381C/en not_active Expired - Fee Related
- 2003-09-25 AU AU2003277902A patent/AU2003277902A1/en not_active Abandoned
- 2003-09-25 EP EP03769321A patent/EP1543123A2/en not_active Withdrawn
- 2003-09-25 JP JP2004539021A patent/JP2006500058A/ja active Pending
-
2005
- 2005-04-27 NO NO20052073A patent/NO20052073L/no not_active Application Discontinuation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999032635A1 (en) * | 1997-12-20 | 1999-07-01 | Astrazeneca Uk Limited | Acetyl-coa-carboxylase from candida albicans |
WO2000011199A1 (en) * | 1998-08-20 | 2000-03-02 | Pioneer Hi-Bred International, Inc. | COMPOSITIONS AND METHODS FOR ALTERING AN ACETYL-CoA METABOLIC PATHWAY OF A PLANT |
CN1266101A (zh) * | 1999-03-09 | 2000-09-13 | 霍夫曼-拉罗奇有限公司 | 虾青素合成酶 |
CN1340628A (zh) * | 2000-05-24 | 2002-03-20 | 霍夫曼-拉罗奇有限公司 | 生物生产类胡萝卜素的改良方法及其所用的生物材料 |
Also Published As
Publication number | Publication date |
---|---|
KR20050059197A (ko) | 2005-06-17 |
AU2003277902A1 (en) | 2004-04-19 |
CA2498381A1 (en) | 2004-04-08 |
EP1543123A2 (en) | 2005-06-22 |
NO20052073L (no) | 2005-06-27 |
AU2003277902A8 (en) | 2004-04-19 |
US7288395B2 (en) | 2007-10-30 |
NO20052073D0 (no) | 2005-04-27 |
KR101196180B1 (ko) | 2012-11-01 |
CN1685042A (zh) | 2005-10-19 |
WO2004029232A3 (en) | 2004-10-14 |
US20060172372A1 (en) | 2006-08-03 |
CA2498381C (en) | 2013-04-16 |
JP2006500058A (ja) | 2006-01-05 |
WO2004029232A2 (en) | 2004-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100487120C (zh) | 改进的类异戊二烯的生产 | |
NO334836B1 (no) | Rekombinant organisme, vektor, fremgangsmåte for å lage organismen derav og fremgangsmåte for å produsere karotenoider. | |
US7585659B2 (en) | Carotene synthase gene and uses therefor | |
US6329141B1 (en) | Methods for transforming Phaffia strains, transformed Phaffia strains so obtained and recombinant DNA in said methods | |
KR20070047306A (ko) | 아이소프레노이드의 제조 | |
CN100425698C (zh) | Acc基因 | |
JP2002253266A (ja) | アスタキサンチンのための方法 | |
CN102884187B (zh) | 包含啶南平生物合成基因簇和标记基因的核酸构建体 | |
EP2415865A1 (en) | Protoilludene synthase | |
CN111433219A (zh) | 通过基因修饰信号传导蛋白提高藻类脂质生产力 | |
EP1546314A1 (en) | Bhyd gene | |
JP2001136992A (ja) | カロチノイドの生成増大方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081015 Termination date: 20170925 |
|
CF01 | Termination of patent right due to non-payment of annual fee |