CN100425698C - Acc基因 - Google Patents

Acc基因 Download PDF

Info

Publication number
CN100425698C
CN100425698C CNB038231972A CN03823197A CN100425698C CN 100425698 C CN100425698 C CN 100425698C CN B038231972 A CNB038231972 A CN B038231972A CN 03823197 A CN03823197 A CN 03823197A CN 100425698 C CN100425698 C CN 100425698C
Authority
CN
China
Prior art keywords
leu
ala
val
glu
gly
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB038231972A
Other languages
English (en)
Other versions
CN1685042A (zh
Inventor
星野达雄
尾岛和之
濑户口丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DSM IP Assets BV
Original Assignee
DSM IP Assets BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DSM IP Assets BV filed Critical DSM IP Assets BV
Publication of CN1685042A publication Critical patent/CN1685042A/zh
Application granted granted Critical
Publication of CN100425698C publication Critical patent/CN100425698C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/93Ligases (6)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P23/00Preparation of compounds containing a cyclohexene ring having an unsaturated side chain containing at least ten carbon atoms bound by conjugated double bonds, e.g. carotenes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Coloring Foods And Improving Nutritive Qualities (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明涉及在增加微生物产生类胡萝卜素的方法中有用的一种基因。类胡萝卜素-虾青素在生物体如动物、藻类和微生物中广泛存在。它对活性氧具有很强的抗氧化特性。虾青素被用作色素,尤其在如鲑的养殖鱼业中,因为它在动物中可使其成明显的桔红色,因而在市场上能够吸引消费者。

Description

ACC基因
本发明涉及增加微生物生产类胡萝卜素的方法中有用的一种基因。
类胡萝卜素虾青素在生物体如动物、藻类和微生物中广泛存在。它对活性氧种类具有很强的抗氧化特性。虾青素被用作色素,尤其在如鲑的养殖鱼业中,因为它在动物中可使其成明显的桔红色,因而在市场上能够吸引消费者。
在例如Phaffia rhodozyme中,类胡萝卜素合成(carotenogenic)途径的第一步之一是两个乙酰辅酶A之间的缩合。乙酰辅酶A也是乙酰辅酶A羧化酶(carboxylase)的底物,该酶也参与脂肪酸的生物合成。
一方面,本发明提供一种包含编码乙酰辅酶A羧化酶基因的DNA片段。
更具体地说,本发明提供包含调控区,如启动子和终止子,以及乙酰辅酶A羧化酶基因的开放阅读区的DNA分子。
本发明提供编码P.rhodozyma的乙酰辅酶A羧化酶的DNA片段。所述DNA指含有侧接5’-和3’-非翻译区中的短片段之间的开放阅读框的cDNA,或还包含有调控序列如在P.rhodozyma中表达乙酰辅酶A羧化酶基因所必需的启动子和终止子的基因组DNA。
相应地,本发明涉及含有选自下述组的核酸分子的多核苷酸:
(a)编码至少如SEQ ID NO:3所示多肽的成熟形式的核酸分子;
(b)含有如SEQ ID NO:2所示编码序列的核酸分子;
(c)(a)或(b)的核酸分子由于遗传密码的简并性得到的核苷酸序列的核酸分子;
(d)编码了衍生自由(a)至(c)的多核苷酸编码的多肽序列中经过一个或多个氨基酸的取代、缺失和/或增加得到的多肽的核酸分子;
(e)编码与由(a)或(b)的核酸分子编码的多肽的氨基酸序列有56.3%或更高同一性的多肽衍生的多肽的核酸分子;
(f)编码含有(a)至(e)任一核酸分子编码的多肽的片段或含表位区的核酸分子,其具有乙酰辅酶A羧化酶活性;
(g)含有从Phaffia或Xanthophylomyces的核酸文库中扩增得到的核酸分子序列的多核苷酸,所用引物如SEQ ID NO:4、5和6所示;
(h)编码具有乙酰辅酶A羧化酶活性多肽的核酸分子,其中所述多肽为(a)至(g)任一编码的多肽的片段。
(i)包含(a)至(d)任一多核苷酸的至少15个核苷酸的核酸分子;
(j)所述核酸分子编码了具有乙酰辅酶A羧化酶活性的多肽,所述多肽可被针对由(a)至(h)任一核酸分子编码的多肽所产生的抗体所识别;
(k)可由下述方式获得的核酸分子:用具有(a)至(j)任一核酸分子的序列作探针,在严谨条件下筛选合适的文库而获得,并且编码的多肽具有乙酰辅酶A羧化酶活性;
(l)核酸分子,其互补链能在严谨条件下与(a)至(k)任一核酸分子杂交,并且编码的多肽具有乙酰辅酶A羧化酶活性。
术语“基因”、“多核苷酸”、“核酸序列”、“核苷酸序列”、“DNA序列”或“核酸分子”,在此处指任何长度的核苷酸聚合形式,可以核糖核苷酸,也可以是脱氧核糖核苷酸。这些术语仅指分子的初级结构。
因此,这些术语包括双链-和单链-DNA和RNA。也包括已知类型的修饰形式,如甲基化、用类似物引起自然存在的一个或多个核苷酸的“帽子(cap)”取代。优选地,本发明的DNA序列包含编码上述定义的多肽的编码序列。
“编码序列”是指其核苷酸序列在合适地调控序列的控制下能够转录成mRNA和/或翻译成多肽。编码序列的边界分别是由5’末端的翻译起始密码子和3’末端的翻译终止密码子确定。编码序列可以包括,但不局限于mRNA、cDNA、重组核苷酸序列或基因组DNA,且在特定条件下还存在有内含子。SEQ ID NO:1所示的基因组DNA,其中内含子序列被插入来自P.rhodozyma的乙酰辅酶A羧化酶基因的编码序列中。
通常,基因由几个功能互不相同的部分组成。在真核生物中,编码相应蛋白质的基因被转录成前体(premature)信使RNA(pre-mRNA),它不同于核糖体RNA(rRNA)、核小RNA(snRNA)和转运RNA(tRNA)。虽然RNA聚合酶II(PolII)在转录过程中起核心作用,但如果在没有覆盖包括启动子和上游激活序列(UAS)的上游区的顺式(cis)元件和反式活化蛋白因子时,PolII不能单独起始转录。首先,转录起始复合体由数个基本(basic)蛋白成分组成,能够识别将要表达的基因的5’邻近区的启动子序列。在这个事件中,对于某些由特异调控条件下表达的基因还需要其它因子的参与,如热激反应或营养饥饿适应等调控表达的那些基因。在这种情况下,在启动子序列周围的5’非翻译上游区需存在有UAS,一些正或负调控蛋白识别并结合到UAS上。转录起始复合体与启动子序列结合的强度受到在启动子周围的这些反式活化因子的影响,导致了对转录活性的调节。
通过磷酸化活化转录起始复合体之后,转录起始复合体起始从转录起始位点开始的转录。部分转录起始复合体脱离而成为从基因的启动子区域向3’方向的延伸复合体(这一步称为启动子清除事件(a promoter clearanceevent)),延伸复合体继续转录直到位于基因的3’邻近的下游区域的终止子序列。因而在核中通过在几乎相应于转录起始位点的帽子位点处增加帽子结构,以及在位于3’邻近的下游区域的poly A信号增加聚腺苷片断而被修饰成Pre-mRNA。接着,编码区域中的内含子结构被去除,外显子部分组合产生开放阅读框,其序列与相应蛋白的初级氨基酸序列相应。这些修饰产生了成熟mRNA,对于稳定的基因表达是必需的。cDNA通常指相应于从这种成熟mRNA序列反转录得的DNA序列。以成熟mRNA为模板,用来自病毒的反转录酶合成它。
为了表达来自真核生物的基因,经常采用将cDNA克隆到表达载体中并在E.coli中进行表达的方法。这是因为,在不同生物体中的内含子结构的特异性不同,而来自别种类的内含子序列不能为另一种类生物所识别。事实上,原核生物在本身的遗传背景中不存在内含子。甚至在酵母中,属于啤酒糖酵母(Saccharomyces cerevisiae)的Ascomycetes与属于P.rhodozyma的Basidiomycetes的遗传背景不同,P.rhodozyma的肌动蛋白基因的内含子结构不能为ascomycetous酵母S.cerevisiae所识别,也不能进行剪切。
某些类型基因的内含子结构似乎参与了这些基因的表达调控。当感兴趣的基因是自克隆的,其内含子结构参与它们所在基因的自身调控时,利用具有内含子的基因组片段非常重要。
将遗传工程方法应用于菌株的改良研究时,有必要研究转录和翻译中的遗传机制。确定如基因的UAS、启动子、内含子结构和终止子等遗传序列对于研究其遗传机制是非常重要的。
根据本发明,来自P.rhodozyma的编码乙酰辅酶A羧化酶(ACC)的基因包括了5’和3’邻近区域以及被确认的内含子结构。
本发明进一步包含由于遗传密码子的简并性而与SEQ ID NO:2所示核苷酸序列(及其部分)之一不同的多核苷酸,但仍然编码如SEQ ID NO:2所示的核苷酸序列编码的乙酰辅酶A羧化酶。进一步,本发明的多核苷酸具有编码了SEQ ID NO:3所示氨基酸序列的蛋白质的核苷酸序列。更进一步地实施方式,本发明的多核苷酸编码了全长的P.rhodozyma蛋白,其与SEQID NO:3的氨基酸序列基本上同源。
此外,本领域技术人员能够理解的是,在种群中(例如P.rhodozyma种群)可能存在DNA序列多态性而导致氨基酸序列有些变化。乙酰辅酶A羧化酶基因的这种遗传多态性可由于自然变异而在种群中的不同个体之间存在。
在此处,术语“基因”和“重组基因”是指核酸分子包含了编码乙酰辅酶A羧化酶的开放阅读框,优选地乙酰辅酶A羧化酶来自P.rhodozyma。
这种自然变异典型地导致乙酰辅酶A羧化酶基因的核苷酸序列的1-5%的变化。任何和所有这种核苷酸变异以及导致乙酰辅酶A羧化酶的氨基酸多态性都是自然变异的结果,均未改变乙酰辅酶A羧化酶的功能活性,因而都属于本发明的范围之内。
可以基于其与本发明公开的P.rhodozyma乙酰辅酶A羧化酶多核苷酸的同源性,利用本发明的多核苷酸或其部分作为杂交探针,在严谨杂交条件下根据标准杂交技术来获得本发明乙酰-COA羧化酶cDNA的自然变异的多核苷酸和非P.rhodozyma的同源物。
相应地,在另一实施方式中,本发明的多核苷酸至少具有15个核苷酸的长度。优选地,在严谨条件下能够与包含本发明的多核苷酸,如SEQ IDNO:2的多核苷酸序列的核酸分子杂交。在另一实施方式中,核酸至少为20、30、50、100、250或更多核苷酸的长度。上述中的术语“在严谨条件下杂交”指杂交和洗涤的条件可使相互之间的核苷酸序列的同一性至少为60%的核酸分子之间典型地仍然能杂交。优选地,这种杂交条件可使相互之间的核苷酸序列的同一性至少约为65%或70%,更优选约为75%或80%,还优选为至少约85%、90%或95%或更高的核酸分子之间典型地仍然能杂交。优选地,能与SEQ ID NO:2的序列在严谨条件下杂交的本发明的多核苷酸是相应自然存在的核酸分子。
在本发明中,多核苷酸序列包括SEQ ID NO:2或其片段,其所具有多核苷酸序列在足以鉴定特异结合SEQ ID NO:2的严谨条件下与SEQ ID NO:2杂交。例如下述杂交和洗涤条件的任何组合均可用于获得所预期的特异性结合:
高度严谨杂交条件:6×SSC,0.5%SDS,100ug/ml变性鲑鱼精子DNA,50%甲酰胺,于42℃温和振摇过夜。
高度严谨洗涤条件:先在2×SSC,0.5%SDS于室温下洗涤15分钟1次,然后,于0.1×SSC,0.5%SDS于室温下洗涤15分钟1次。
低度严谨杂交条件:6×SSC,0.5%SDS,100ug/ml变性鲑鱼精子DNA,50%甲酰胺,于37℃温和振摇过夜。
低度严谨洗涤条件:在0.1×SSC,0.5%SDS于室温下洗涤15分钟1次。
中度严谨条件下可通过改变上述的杂交反应的温度和/或洗涤条件来达到。本发明中,优选地利用高度严谨杂交和洗涤条件来确定针对来自P.rhodozyma的乙酰辅酶A羧化酶基因的反义活性。
术语“同源性”指各核酸分子或编码的蛋白质是功能和/或结构上的等价物。与上述的核酸分子同源的核酸分子和所述核酸分子的衍生物,例如所述核酸分子的修饰但仍具有相同的生物功能的变体,尤其是编码蛋白具有相同或基本上相同的生物功能。它们可以自然存在的变体,如来自其它植物品种或类的序列,或者是突变体。这些突变体可能是自然发生的,也可以是通过突变技术获得的。这些等位基因变体可以是自然存在的等位基因变体,也通过合成或遗传工程产生的变异体。结构上的等价物可,如通过与所述多肽与抗体结合来检测。结构上的等价物具类似的免疫特性,如包含类似的表位。
在此处,“自然存在”的核酸分子指在具有自然存在的核苷酸序列的RNA或DNA分子(例如编码自然存在的蛋白质)。优选地,多核苷酸编码了自然的P.rhodozyma乙酰辅酶A羧化酶。
除在种群中存在的乙酰辅酶A羧化酶序列的自然变体之外,本领域技术人员可理解的是这种变化可通过突变引入到编码乙酰辅酶A羧化酶的多核苷酸的核苷酸序列中,因而导致所编码的乙酰辅酶A羧化酶的氨基酸序列的变化,但不影响乙酰辅酶A羧化酶的功能活性。例如,在“非必需”氨基酸残基引起氨基酸取代的核苷酸取代可以应用到编码乙酰辅酶A羧化酶的多核苷酸的序列中,如SEQ ID NO:2。“非必需”氨基酸残基是指那些以乙酰辅酶A羧化酶之一的野生型序列为基础进行改变,但不影响乙酰辅酶A羧化酶的活性的残基,而“必需”氨基酸残基是乙酰辅酶A羧化酶活性所需要的。然而,其它氨基酸残基(例如那些在乙酰辅酶A羧化酶活性的结构域中的非保守或仅仅半保守残基)可对活性而言不是必需的,因而可以对其进行改变但不影响乙酰辅酶A羧化酶活性。
相应地,本发明涉及编码乙酰辅酶A羧化酶的多核苷酸包含了对乙酰辅酶A羧化酶活性不是必需的氨基酸残基的改变。这种乙酰辅酶A羧化酶的氨基酸序列与SEQ ID NO:3中含有的序列不同,但仍然保持有此处所描述的乙酰辅酶A羧化酶活性。多核苷酸可包含编码多肽的核苷酸序列,其中所述多肽包含与SEQ ID NO:3中的序列有至少约60%同一性的氨基酸序列,且具有乙酰辅酶A羧化酶活性。优选地,核酸分子编码的蛋白与SEQ IDNO:3中的序列有至少约60-65%同一性的氨基酸序列,更优选与SEQ IDNO:3中之一的序列有至少约60-70%同一性的氨基酸序列,进一步优选为与SEQ ID NO:3中的序列有至少约70-80%、80-90%、90-95%同源性的氨基酸序列,最优选为与SEQ ID NO:3中的序列有至少约96%、97%、98%或99%同一性的氨基酸序列。
确定两个氨基酸序列(例如SEQ ID NO:3的一个序列与其突变体形式)或两个核酸分子的同源性百分率,序列的排列成最佳对比的目的(例如可以引入缺口到一蛋白质序列或核酸中以与另一蛋白或核酸进行最佳对比)。然后,比较在相应氨基酸位置或核苷酸位置的氨基酸残基或核苷酸。当一个序列中的位置(例如SEQ ID NO:2或3的一个序列)在另一序列(例如所选序列的突变形式)的相应位置处具有相同的氨基酸残基或核苷酸,则两个分子在该位置是同源的(即在此处的氨基酸或核酸“同源物”等同于氨基酸或核酸“同一性”)。两个序列之间的同源百分率表示出了序列具有同一性的位置数目(即%同源性=同一性位置的数目/总位置数目×100)。同源性可通过计算机程序如Blast 2.0(Altschul,Nuc.Acid.Res.,2:3389-3402,1997)。在本发明中,采用GENETYX-SV/RC软件(Software Development Co.,Ltd.,Tokyo,Japan)以默认算法作为同源性分析软件。这个软件利用Lipman-Pearson方法作为其分析算法。
编码与具有SEQ ID NO:3的氨基酸序列的蛋白质同源之乙酰辅酶A羧化酶的核酸分子可通过引入一个或多个核苷酸的取代、增加或缺失到本发明的多核苷酸的核苷酸序列中来得到,尤其是导致SEQ ID NO:2编码的蛋白质中引入一个或多个氨基酸的取代、增加或缺失。通过标准技术,如定点突变和PCR介导的突变技术,在如SEQ ID NO:2的序列中引入突变。优选地,保守氨基酸取代在一个或多个被认为是非必需氨基酸残基处进行。“保守氨基酸取代”就是用具有相似侧链的氨基酸残基进行取代。具有相似侧链的氨基酸族在现有技术已经作了确定。这些族包括碱性侧链的氨基酸(如赖氨酸、精氨酸、组氨酸)、酸性侧链的的氨基酸(如天冬氨酸、谷氨酸),不带电荷的极性侧链的氨基酸(例如,甘氨酸,天冬酰胺,谷氨酰胺,丝氨酸,苏氨酸,酪氨酸,半胱氨酸),非极性侧链(如丙氨酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、甲硫氨酸、色氨酸),β支链侧链的氨基酸(如苏氨酸、缬氨酸、异亮氨酸)以及芳香族侧链氨基酸(如酪氨酸、苯丙氨酸、色氨酸、组氨酸)。因此,在乙酰辅酶A羧化酶中被预计为是非必需氨基酸残基优选地用另一个与其属于相同族的氨基酸来取代。任选地,在另一实施方式中,可以在乙酰辅酶A羧化酶的全部或部分编码序列中随机引入突变,如通过饱和诱变,可根据本发明描述方法在所得到的突变体中筛选仍然保持乙酰辅酶A羧化酶活性。在对SEQ ID NO:2的序列之一进行突变之后,可经重组表达获得编码的蛋白质,再利用例如此处所描述的方法确定蛋白质的活性。
本发明的多核苷酸,例如具有SEQ ID NO:2的核苷酸序列,或其部分的核酸分子可利用标准分子生物学技术来分离克隆,此处也列出了它的序列信息。例如用本发明的多核苷酸序列之一的的全部或部分作为杂交探针,经标准杂交技术从文库可以分离出乙酰辅酶A羧化酶cDNA。此外,包含全部或部分的本发明的一个序列的多核苷酸可以通过聚合酶链式反应来获得,其中寡核苷酸引物可以基于该序列进行设计(例如含全部或部分的本发明的一个多核苷酸序列的核苷酸分子可以用基于本发明相同多核苷酸序列而设计寡核苷酸引物,如SEQ ID NO:4、5或6,并通过聚合酶链式反应来分离)。例如,可以从如phaffia细胞中分离出mRNA(如通过Chirgwin等的硫氰酸胍提取方法),然后用反转录酶制备cDNA(例如莫洛尼(Moloney)MLV反转录酶或AMV反转录酶,这些酶可从Promega(Madison,USA)得到)。用于PCR的合成寡核苷酸引物可以基于SEQ ID NO:2之一所示核苷酸序列来设计。可用cDNA,任选地用基因组DNA作为模板,用合适的寡核苷酸引物,按标准PCR扩增技术来获得本发明的多核苷酸。扩增的多核苷酸可克隆进合适的载体中,并进行DNA序列分析。况且,根据乙酰辅酶A羧化酶的核苷酸序列相应寡核苷酸可用标准合成技术来合成,如用自动DNA合成仪。
术语“片段”、“某一序列的片段”或“某一序列的部分”指短于所述原始序列的截短序列。截短序列(核酸或蛋白序列)长度可差别很大;最短长度应当足以提供至少与原始序列相当的(comparable)功能和/或活性,然而最大片段的长度并不关键。在一些应用中,最大长度通常基本上不超过提供预期的原始序列的活性和/或功能。
典型地,截短氨基酸序列的长度范围从约5个氨基酸至约60个氨基酸。然而,更典型地,序列具有约50个氨基酸的最大长度,优选为约30个氨基酸的最大长度。通常,选择序列至少为约10、12或15个氨基酸,直到最大值为约20或25个氨基酸。
术语“表位”涉及抗原中的特异性免疫位点,也称为抗原决定簇。这些表位可以是多聚化物中线性排列的-如蛋白质的氨基酸,或者组成或包含更复杂的次级或三级结构单体。本领域技术人员可以理解所有的免疫原(即能够激发免疫反应的物质)都是抗原;然而,某些抗原,如半抗原并不是免疫原,但可能与载体分子耦合后具备免疫原性。术语“抗原”所指包括能够产生抗体的物质和/或与抗体能发生特异免疫反应的物质。
术语“一个或多个氨基酸”指至少一个氨基酸但不超过导致同源性低于60%同一性的氨基酸数目。优选地,所述同一性高于70%或80%,更优选为85%、90%或95%,进一步优选为96%、97%、98%或99%。
术语“乙酰辅酶A羧化酶”或“乙酰辅酶A羧化酶活性”如下面描述的多肽具有酶活性,或可以通过酶分析方法来确定。况且,在此处分析中失活的多肽,但能够被可特异性与乙酰辅酶A羧化酶结合的抗体所识别,即具有一个或多个乙酰辅酶A羧化酶表位,这种情况下,也认为属于“乙酰辅酶A羧化酶”。在这些情况中,所述活性指免疫活性。
术语“多核苷酸”和“核酸分子”也指“分离”的多核苷酸或核酸分子。“分离”的核酸分子是指与它天然来源中存在的其它核酸分子分离开来。优选地,“分离”的核酸分子不含有生物体的基因组DNA中天然状态的侧翼核酸(如该核酸的5’和3’末端的序列)。
例如,在许多实施方式中,PNO多核苷酸可包含低于约5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸序列,这些序列位于该核酸来源细胞(如Phaffia细胞)的基因组DNA中天然状态的该核酸分子的侧翼。此外,本发明的多核苷酸,尤其是“分离”的核酸分子,如cDNA分子可基本上不含有其它细胞物质,或者用重组技术表达产生时,不含有培养基,或者用化学合成时,不含有前体物质或其它化学成分。
优选地,本发明的多肽包含SEQ ID NO:2中所示的核苷酸序列中的一条。SEQ ID NO:2的序列相应于本发明的P.rhodozyma乙酰辅酶A羧化酶cDNA。
进一步,本发明的多核苷酸包含的核酸分子是上面提及的多核苷酸或其片段的核苷酸序列。与SEQ ID NO:2所示的核苷酸序列之一互补的核酸分子是指它与SEQ ID NO:2所示的核苷酸序列之一达到足够的互补以至可与SEQ ID NO:2所示的核苷酸序列之一杂交,进而形成稳定的双链。
本发明的多核苷酸包含的核苷酸序列与SEQ ID NO:2所示核苷酸序列或其部分有至少约60%,优选至少约65-70%,更优选至少约70-80%、80-90%或90-95%,更优选至少约95%、96%、97%、98%、99%或更高的同源性。本发明的多核苷酸包含的核苷酸序列可与SEQ ID NO:2所示核苷酸序列之一或其部分杂交,如在严谨条件下杂交。
更进一步地,本发明的多核苷酸可只包含SEQ ID NO:2中的序列之一的编码区的一部分,例如是可用作探针或引物的片段,或者编码了乙酰辅酶A羧化酶的生物活性部分。基于克隆自P.rhodozyma的乙酰辅酶A羧化酶基因所确定的核苷酸序列,可制备为用于鉴定和/或克隆其它类型细胞或生物体中的乙酰辅酶A羧化酶同源物的探针或引物。探针/引物典型包含基本上纯的寡核苷酸。典型地,寡核苷酸包含的核苷酸序列区域可在严谨条件下与如SEQ ID NO:2中的一条序列的有义链、或与如SEQ ID NO:2中的一条序列的反义链或它们的天然突变体中的至少约12、15,优选约20或25,更优选约40、50或75个保守性核苷酸杂交。基于本发明的多核苷酸的引物可用于PCR反应以克隆乙酰辅酶A羧化酶的同源物。基于乙酰辅酶A羧化酶核苷酸序列的探针可用于检测编码与之相同的蛋白或同源性蛋白的转录体或基因组序列。探针可进一步包括附着的标记基团,例如标记基团可以是放射性同位素、荧光化合物、酶或酶的辅助因子。这种探针可用作基因组标记检测试剂盒的一部分,用于鉴定表达乙酰辅酶A羧化酶的细胞,如通过在样品细胞中检测编码乙酰辅酶A羧化酶核酸分子,如检测乙酰辅酶A羧化酶mRNA水平或确定基因组乙酰辅酶A羧化酶基因是否发生突变或缺失。
本发明的多核苷酸编码的多肽或其部分所包括的氨基酸序列与SEQ IDNO:3的氨基酸序列有足够的同源性,以至于该蛋白或其片段仍然保持乙酰辅酶A羧化酶活性,尤其是保持如下面实施例中描述的微生物或植物中的乙酰辅酶A羧化酶活性。在此处,“足够的同源性”指所具有的氨基酸序列的蛋白或其部分包括了与SEQ ID NO:3的氨基酸序列之一中的相同或等价的氨基酸残基数目达到最低值,仍足以使该蛋白或其片段具有乙酰辅酶A羧化酶活性,其中相同或等价的氨基酸残基例如是与本发明的多肽序列之一的氨基酸残基具有相似的侧链。乙酰辅酶A羧化酶活性的实例也在此处作了描述。
所述蛋白与SEQ ID NO:3的全部氨基酸序列有至少约60-65%,优选至少约66-70%,更优选至少约70-80%、80-90%、90-95%,最优选至少约96%、97%、98%、99%或更高的同源性。
本发明的乙酰辅酶A羧化酶多核苷酸所编码的蛋白的片段优选地具有一个乙酰辅酶A羧化酶的生物活性片段。
如此处所述,术语“乙酰辅酶A羧化酶的生物活性片段”意指包括具有乙酰辅酶A羧化酶的生物活性片段,或具有免疫活性的片段以致于能与乙酰辅酶A羧化酶的特异性抗体结合。为了确定乙酰辅酶A羧化酶或其生物活性片段是否参与代谢,可进行酶活性分析。这种分析方法对本领域技术人员是熟知的,在实施例中将详细介绍。编码了乙酰辅酶A羧化酶的生物活性部分的额外核酸片段可通过如下方式获得:分离SEQ ID NO:2中的一个序列的片段,表达乙酰辅酶A羧化酶或肽的被编码片段(如通过体外的重组表达),进而评价乙酰辅酶A羧化酶或肽的被编码片段的活性。
首先,通过使用简并PCR方法克隆包含ACC基因片段的部分基因片段。所述简并PCR是一种克隆与在其它物种中的已知酶的氨基酸序列具有高度同源的感兴趣基因,它们具相同或相似的功能。在简并PCR中作为引物的简并引物是根据氨基酸序列反向翻译成相应地核苷酸(具有简并性)。在这种简并引物中,经常使用包括由A、C、G或T任一组成的混合引物,或包含在密码子不明确的地方具有次黄嘌呤核苷的引物。在本发明,简并引物采用上述混合引物以克隆上述基因。
可利用,由上面描述的简并PCR获得的部分DNA片段,标记后作为探针,通过筛选构建于合适宿主中噬菌体载体或质粒载体所形成的基因组文库,而从染色体中克隆包含编码区以及内含子和调控区如启动子或终止子的完整基因。通常,E.coli作为宿主菌,E.coli载体、噬菌体载体如λ噬菌体载体,或质粒载体如pUC载体经常用于构建文库和后续的遗传操作如测序、限制性消化、连接等。在本发明中,P.rhodozyma的EcoRI基因组文库被构建到衍生的λ载体,λZAPII中。插入片段的大小,即可以被克隆的插入片段的长度,在构建文库之前通过与基因的Southern印迹杂交来确定。在本发明中,作探针的DNA用地高辛(DIG,是一种类固醇半抗原而不是常规的32P标记),可根据制造商提供的方法进行标记(Boehringer-Mannheim,Mannheim,Germany)。用DIG-标记的DNA片段作为探针筛选由P.rhodozyma染色体构建的基因组文库,所述标记DNA片段具有感兴趣的基因的部分片段。挑取杂交斑,并用于进一步的研究。当λZAPII(插入片段小于9kb)被用于构建基因组文库时,接着可用单链M13噬菌体衍生物-Ex assist噬菌体(Stratagene,La Jolla,USA),通过体内切除方法可方便地将其克隆到质粒载体上。所获得的质粒DNA可用于测序。
在本发明中,我们使用自动荧光DNA测序仪,即ALFred系统(Pharmacia,Uppsala,Sweden),按自环化(autocycle)测序方法进行测序,其中采用的TaqDNA聚合酶为大多数测序所采用。
确定基因组序列之后,用编码区的序列克隆相应基因的cDNA。可用PCR方法来克隆cDNA片断。PCR引物的序列与开放阅读框的5’-和3’-末端的序列相同,在合成时增加合适的限制性内切酶位点,即可用这些PCR引物进行PCR反应。在本发明中,cDNA池作为PCR克隆cDNA的模板。所述cDNA池由许多cDNA组成,它们在体外利用反转录酶和Taq聚合酶(CapFinder Kit,由Clontech,Palo,Alto,USA),和来自P.rhodozyma的mRNA作为模板。确认所获得的cDNA的序列。进一步,在将所获得的cDNA克隆到表达载体以确认其酶活性,其中表达载体可在E.coli中在强启动子活性下起作用,如lac或T7表达系统。
在另一实施方式中,本发明涉及一种制备重组载体方法,其中所述载体插入了本发明的多核苷酸。
进一步,本发明涉及包含本发明的多核苷酸的重组载体或由本发明所述方法产生的重组载体。
在此处,术语“载体”指能传送被连接的多核苷酸的核酸分子。一种类型载体称为“质粒”,是环形双链DNA loop,可连接额外的DNA片段。一种类型载体是病毒载体,其中额外的DNA或RNA片段可连接到病毒基因组中。某些载体能够在所导入的宿主细胞中进行自我复制(如具有细菌复制起始的细菌载体和游离型哺乳动物(episomal mammalian)载体)。其它载体(如非游离型哺乳动物载体)在被导入的宿主细胞中可整合到其基因组,因而可与宿主基因组一起进行复制。此外,某些载体能表达与之可操作性连接的基因。这种载体被称为“表达载体”。通常,在重组DNA技术中使用的表达载体经常是质粒形式。在本发明说明书中,“质粒”或“载体”可以互换,这是由于质粒是通用载体形式。然而,本发明也包括其它形式的表达载体,如病毒载体(如复制缺陷型反转录病毒、腺病毒和腺伴随病毒),也具有等同的功能。
本发明也涉及包含了本发明的核酸分子的遗传工程中常用的柯斯质粒、病毒、噬菌体和其它载体。本领域技术人员熟知构建不同质粒和载体的方法。任选地,本发明的核酸分子和载体可重构到脂质体中,用于导入到靶细胞中。
本发明进一步涉及如述载体,其中本发明的多核苷酸可操性连接到表达控制序列,因而能在原核或真核宿主细胞中进行表达。根据不同宿主生物体,有不同的这种调控序列性质。在原核生物中,控制序列通常包括启动子、核糖体结合位点和终止子。在真核生物中,控制序列通常包括启动子、终止子,以及某些情况下还包括增强子、顺式激活因子或转录因子。
术语“控制序列”意欲包括,表达所必需的最小成分,且也包括其它有利的成分。
术语“可操作性连接”指成分的排列允许以预期的方式发生作用。控制序列“可操作性连接”于编码序列指其连接方式使编码序列在控制序列的控制下在合适条件得到表达。如果控制序列是启动子,本领域技术人员可显而易见的是需要双链核酸。
调控序列包括那些在许多类型的宿主细胞中指导核苷酸序列组成型表达的调控序列,和那些指导只在特定宿主细胞或特定条件下引起核酸序列表达的调控序列。本领域技术人员可以理解的是,可基于欲转化的宿主细胞、预期蛋白表达水平等因素来设计表达载体。本发明的表达载体可引入到宿主细胞中,因而产生由此处所述的多核苷酸编码的蛋白或多肽,包括融合蛋白或肽。
本发明的重组表达载体可设计成在原核或真核细胞中表达乙酰辅酶A羧化酶。本发明的多核苷酸基因可在下述细胞中表达:细菌细胞如E.coli、昆虫细胞(利用杆状病毒病毒表达载体)、酵母和其它真菌细胞、藻类、可用载体按WO9801572中描述的转化方法进行转化的纤毛纲类型(ciliate oftypes):Holotrichia,Peritrichia,Spirotrichia,Suctoria,Tetrahymena,Paramecium,Colpidium,Glaucoma,Platyophrya,Potomacus,Pseudocohnilembus,Euplote,Engelmaniella,Stylonychia,尤其是Stylonychialemnae,以及多细胞的植物细胞。任选地,重组表达载体在体外进行转录和翻译,如利用T7启动子调控序列和T7聚合酶。
在真核生物中表达蛋白最经常用含有组成或诱导型启动子控制融合或非融合蛋白的表达的载体来完成。融合载体增加了数个氨基酸到编码的蛋白质上,通常增加的氨基酸存在于重组蛋白的氨基末端,但也可位于C末端或融合到蛋白的合适区域。利用这种融合载体典型地有三个目的:1)增加重组蛋白的表达;2)增加重组蛋白的可溶性以及3)作为亲和纯化的配体而利于重组蛋白的纯化。通常,融合表达载体,在融合部分和重组蛋白之间的连接处引入有蛋白切割位点,以使重组蛋白在对融合蛋白纯化之后能与融合部分分离开。这种酶,及它们的同族识别序列(cognate recognitionsequences),包括Xa因子、凝血酶和肠激酶。
典型地融合表达载体包括pGEX(Pharmacia Biotech Inc.)、pMAL(NewEngland Biolabs,Beverly,USA)和pRIT5(Pharmacia,Piscataway,USA),可分别将谷胱甘肽S-1转移酶(GST)、麦芽糖E结合蛋白或蛋白A融合到靶重组蛋白。在一个实施方式中,本发明的多核苷酸编码的多肽的编码序列克隆到pGEX表达载体中,构建成了编码了融合蛋白的载体,其中从N末端到C末端,融合蛋白包括GST-凝血酶切割位点-X蛋白。用谷光甘肽琼脂树脂的亲和层析来纯化融合蛋白,例如可通过凝血酶切割融合蛋白来获得没有融合GST的重组乙酰辅酶A羧化酶。
合适诱导非融合E.coli表达载体的实例包括pTrc和pET11d。pTrc载体的靶基因表达依赖宿主RNA聚合酶从杂交trp-lac融合启动子的转录。pET11d载体上靶基因的表达依赖从T7gn10-lac融合启动子的转录,其由病毒RNA聚合酶(T7gnl)共表达所介导。这个病毒聚合酶可通过自携带了受lacUV5启动子转录调控的T7gnl基因的固有(resident)λ噬菌体由宿主菌BL21(DE3)或HMS174(DE3)提供。
一种重组蛋白表达最大化的策略是在对重组蛋白切割能力被削弱的宿主菌中进行表达。另一策略是将改变了核酸序列的核酸插入到表达载体中,以使编码每一个氨基酸的各密码子是所选择用于表达的细菌如E.coli所偏好使用的密码子。这种对本发明的核酸序列的改变可用标准DNA合成技术来完成。
进一步,乙酰辅酶A羧化酶载体可以是酵母表达载体。在酵母S.cerevisiae中的载体的例子包括pYepSec1、pMFa、pJRY88和pYES2(Invitrogen,San Diego,USA)。构建适合于在其它真菌如丝状真菌中使用的载体和方法是本领域技术人员所熟知的。
任选地,本发明的多核苷酸利用杆状病毒表达载体而导入到昆虫细胞中。在培养的昆虫细胞(如SF9细胞)中表达蛋白的杆状病毒载体包括pAc系列和pVL系列。
任选地,本发明的多核苷酸可利用哺乳动物表达载体而导入到哺乳动物细胞中。哺乳动物表达载体的例子包括pCDM8和pMT2PC。当用于哺乳动物细胞,表达载体中由病毒调节元件提供控制功能。例如,常用的启动子衍生自多瘤病毒、腺病毒2、巨细胞病毒和猴病毒(simian virus)40。
重组哺乳动物表达载体可偏好性在特定细胞类型中引起核酸表达(例如将组织特异性调节元件用于核酸表达)。组织特异性调节元件是本领域已知的。合适的组织特异启动子的非限制性例子,包括白蛋白启动子(肝特异性)、淋巴特异性启动子尤其是T细胞受体和免疫球蛋白的启动子,神经元特异性启动子(如神经丝启动子),胰腺特异性启动子以及乳腺特异性启动子(如乳清启动子,US4873316和EP264166)。也包括发育调节启动子,例如鼠hox启动子和胎蛋白(fetoprotein)启动子。
进而,如通过酶分析方法验证表达的ACC基因的活性。一些实验程序在现有技术文献中已有描述。下面是一个用于确定乙酰辅酶A羧化酶活性的方法:用反相HPLC,在5分钟间隔,20分钟,分析乙酰辅酶A的减少和/或丙二酰-辅酶A的产生。乙酰辅酶A向丙二酰-辅酶A的转化率在20分钟内是线性,则通过线性回归分析丙二酰-辅酶A浓度与时间之间的关系得到转化速率。反应混合物包含50mM Tris,pH7.5,6uM乙酰辅酶A,2mMATP,7mM KHCO3,8mM MgCl2,1mM二硫苏糖醇,以及1mg/ml牛血清白蛋白。将酶预先与牛血清白蛋白(2mg/ml)和柠檬酸钾(10mM)温育(25℃,30分钟)。将50ul预先温育的酶转移到反应混合液中(最终体积为200ul)以起动反应,以及25℃温育5-20分钟。加入50ul 10%高氯酸终止反应。终止反应之后,对样品进行离心(10000g,3分钟),进行HPLC分析。使用的流动相为10mM KH2PO4,pH6.7(溶液A),和MeOH(溶液B)。流速为1.0ml/分钟,且梯度如下:置于100%的溶液A中1分钟,之后的5分钟中,线性梯度至用30%溶液B的,然后于30%溶液B中保持5分钟。用这种方法,丙二酰-辅酶A和乙酰辅酶A的保持时间分别为7.5和9.0分钟。当利用适于S.cerevisiae的表达载体时,可用常规的条件性乙酰辅酶A羧化酶无义突变菌株作为宿主菌来验证其活性,其无义突变菌株衍生自S.cerevisiae。
在确认酶活性之后,可对表达的蛋白进行纯化,并用于产生针对纯化酶的抗体。制备的抗体因而可用于鉴定改良菌株研究中表达的相应蛋白、培养条件的优化研究等。
在进一步地实施方式中,本发明涉及可特异性结合本发明的多肽或其部分,即特异性片段或这种蛋白的表位的抗体。
本发明的抗体可以用于鉴定和分离其它乙酰辅酶A羧化酶和基因。这些抗体可以是单克隆抗体、多克隆抗体或合成抗体以及抗体的片段,如Fab、Fv或scFv片段等。例如可通过Kohler和Milstein最初描述的技术来制备单克隆抗体,该技术包括将鼠骨髓瘤细胞与来源于免疫哺乳动物的脾细胞进行融合。
进一步,本领域技术人员按已知的方法来制备前面提及的多肽相应的抗体或其片段。例如这些抗体可用于与本发明的蛋白进行免疫沉淀和免疫定位,以及监控如重组生物体中的蛋白合成,以及鉴定与本发明相互作用的化合物。例如,在BlAcore体系中采用了表面胞质共振(surface plasmonresonance),可增加噬菌体抗体选择的效率,因此从与本发明蛋白的表位结合的单个噬菌体抗体文库产生亲和力增加。在许多情况下,抗体与抗原的结合现象与其它配体/抗配体之间的结合一样。
在本发明中,乙酰辅酶A羧化酶的基因片段可从P.rhodozyma中克隆,并利用所克隆的基因片段通过遗传工程方法来减低在P.rhodozyma中的表达水平。
通过遗传工程方法来减低基因的表达水平,可采用某些策略,其中之一是基因破坏(gene-disruption)方法。这种方法中,欲破坏的目标基因的部分片段连接到整合载体上的药物抗性表达盒,其中整合载体在宿主中不能复制。药物抗性基因编码的酶可以使宿主在毒性抗生素存在的环境下存活,因而是常用选择标记。pGB-Ph9携带有G418抗性基因(Wery etal.(Gene,184,89-97,1997))是在P.rhodozyma中起作用的药物抗性基因的例子。对于具有合适的营养缺陷型标记的宿主,也可利用营养互补标记。P.rhodozyma ATCC24221菌株的生长需要胞苷,是营养缺陷型的例子。通过用CTP合酶基因作为ATCC24221的供体DNA,建立利用营养互补的宿主载体系统。
在宿主生物的转化之后,在载体上的目标基因片段与宿主生物体的染色体上的相应基因片段发生重组,经单杂交重组,整合载体整合到宿主染色体上。这种重组的结果,药物抗性表达盒将插入到目标基因中,其翻译产物只是截短形式,而不具有酶功能。在类似的方式中,目标基因的两个部分也可用于基因破坏研究,其中药物抗性基因将插入到整合载体上所述目标基因的两个部分片段之间。这种类型的载体,在整合载体上的基因片段与宿主的染色体上的相应基因片段需要发生双重组。虽然这种双重杂交导致的重组频率低于单次杂交重组,而双重杂交重组产生的目标基因的无义(null)表型比单次杂交重组所产生的要稳定。
另一方面,当基因的功能是宿主必需的时,若被破坏则对宿主生物体是致死的,则这种策略很困难,例如乙酰辅酶A羧化酶基因。乙酰辅酶A羧化酶的功能对于除脂肪酸生物合成之外,对宿主存活是必需的。基于这种观点,似乎很难通过基因破坏方法来构建P.rhodozyma的乙酰辅酶A羧化酶破坏体(disruptant)。
这种情况下,其它策略也可用于降低(而不是破坏)基因的表达,其中之一就是常规的致突变方法,以筛选出乙酰辅酶A羧化酶表达量降低的突变体。这种方法,具有合适的报告基因与来自宿主的乙酰辅酶A羧化酶基因启动子区融合的合适的重组体进行突变,筛选报告基因产物的活性较弱的突变体。这种突变体,除了基因启动子本身的突变,其中乙酰辅酶A羧化酶的表达活性的降低是在于影响着乙酰辅酶A羧化酶基因的表达存在于报告基因的启动子区的突变,或存在于反式激活区。在报告融合体的启动子区发生突变的情况下,则可用相应区域的序列来分离这种突变。进而,通过染色体上的乙酰辅酶A羧化酶基因原始的启动子与突变的启动子片段之间发生重组,而将分离出的突变导入到各种衍生自P.rhodozyma的能产生类胡萝卜素,尤其是虾青素的突变体中。为了排除在反式激活区发生的突变,在启动子区的顺式元件经体外突变也可诱导突变。这种方法,基因表达盒进行突变,并导入到P.rhodozyma中,其中基因表达盒包含整合到衍生自在其5’末端的感兴趣基因的启动子和在其3’末端的感兴趣基因的终止子融合的报告基因。通过检测报告基因的活性差异,可以筛选到有效的突变体。这种突变体可通过如体内突变方法相同的方法将其导入到染色体上天然启动子的序列中。但是,这些方法也有些缺点,即比较费时。
另一种降低基因表达的策略是反义方法。甚至当有性型(teleomorphic)生物体如P.rhodozyma被用作宿主生物时,通常难以应用突变方法和基因破坏方法,此时反义方法被常采用。反义方法是一种通过导入人工基因片段来降低目的基因表达的方法,其中人工基因片段与靶标基因的cDNA片段互补。这种反义基因片段将在体内与目标基因的成熟mRNA片段形成复合体,因而抑制了从mRNA的有效翻译。
“反义”核酸分子包括一种核酸序列,其与编码蛋白的“有义”核酸分子完全互补,例如互补于双链cDNA分子的编码链或互补于mRNA序列。相应地,反义核酸分子通过氢键与有义核酸分子结合,反义核酸分子可互补于完整的乙酰辅酶A羧化酶的编码链,或仅仅其部分。相应地,反义核酸分子可以反义于编码乙酰辅酶A羧化酶的核酸序列的编码链的“编码区”。术语“编码区”指包含可翻译成氨基酸残基的密码子的核酸序列的区域。进一步,反义核酸分子可反义于编码乙酰辅酶A羧化酶的核酸序列的编码链的“非编码区”。术语“非编码区”指侧接于编码区的5’和3’端的序列,它们并不被翻译成多肽(即也指5’和3’非翻译区)。
根据此处公开的编码乙酰辅酶A羧化酶的编码链序列,可根据Watson和Crick碱基配对规则来设计本发明的反义核酸分子。反义核酸分子可互补于完整的乙酰辅酶A羧化酶mRNA,但也可以是反义于乙酰辅酶A羧化酶mRNA编码或非编码区的一部分的寡核苷酸。例如,反义寡核苷酸可与乙酰辅酶A羧化酶mRNA翻译起始位点周围区域互补。反义寡核苷酸例如约5、10、15、20、25、30、35、40、45或50个核酸的长度。本发明的反义核酸分子可用已知技术如利用化学合成或酶连接反应构建。例如,反义核酸分子(例如反义寡核苷酸)可利用天然存在的核苷酸或各种修饰的核苷酸来化学合成,其中设计的修饰核苷酸是为了增加分子的生物活性或增加反义和有义核酸形成的双链的物理稳定性,例如可以利用硫代磷酸(phosphorothioate)衍生物和吖啶取代的核苷酸。可用于产生反义核酸的修饰核苷酸的例子,包括:5-氟尿嘧啶、5-溴尿嘧啶、5-氯尿嘧啶(chlorouraci)、5-碘尿嘧啶、次黄嘌呤、黄嘌呤、4-乙酰胞嘧啶、5-(羧羟基甲基)尿嘧啶、5-羧甲基-氨甲基-2-硫脲核苷、5-羧甲基氨甲基尿嘧啶、二氢尿嘧啶、β-D-galactosylqueosine、次黄(嘌呤核)苷、N6-异戊烯基腺嘌呤、1-甲基鸟嘌呤、1-甲基次黄(嘌呤核)苷、2,2-二甲基鸟嘌呤、2-甲基腺嘌呤、2-甲基鸟嘌呤、3-甲基胞核嘧啶、5-甲基胞核嘧啶、N6-腺嘌呤、7-甲基鸟嘌呤、5-methylaminomethyluracil、5-甲氧基氨甲基-2-硫脲嘧啶、β-D-mannosylqueosine、5’-methoxycarboxymethyluracil、5-甲氧基尿嘧啶、2-甲硫基-N6-异戊烯基腺嘌呤、尿嘧啶-5-羟基乙酸(v)、wybutoxosine、假尿(嘧啶核)苷(pseudouracil)、queosine、2-硫代胞嘧啶、5-甲基-2-硫脲嘧啶、5-甲基-2-硫脲嘧啶、2-硫脲嘧啶、4-硫脲嘧啶、5-甲基尿嘧啶、尿嘧啶-5-羟基乙酸甲酯、尿嘧啶-5-羟基乙酸(v)、5-甲基-2-硫脲嘧啶、3-(3-氨基-3-N-2-羧丙基)尿嘧啶、(acp3)w、以及2,6-二氨基嘌呤。任选地,反义核酸也可通过生物方法产生,将多核苷酸中以反义方向亚克隆到表达载体中(即从插入的多核苷酸转录RNA将与靶多核苷酸而言是反义方向的,下面将进一步描述)。
本发明的反义核酸分子典型地给予到细胞或原位产生,以使它们能与编码乙酰辅酶A羧化酶的细胞mRNA和/或基因组DNA杂交或结合,进而抑制蛋白的表达,如抑制转录和/或翻译。通过常规核苷酸互补的杂交形成稳定的复合体,或例如,在反义核酸分子与DNA结合形成复合体情况中,是通过双螺旋的主沟发生的特异性互相作用。反义分子可被修饰成以便与在选择细胞表面表达的受体或抗原特异性结合,例如将反义核酸分子与肽或抗体连接,其中肽或抗体能与细胞表面的受体或抗原结合。反义核酸分子也可通过此处描述的载体而导入到细胞中。为了使反义分子在细胞内达到足够的浓度,载体构建体中的反义核酸分子被置于强原核、病毒或真核包括植物的启动子控制之下是优选的。
本发明的反义核酸分子,例如可以是α异构体的核酸分子。α异构体的核酸分子与互补的RNA形成特异的双链杂交,由于RNA通常是β异构体,故形成的双链是两条链是平行的。反义核酸分子也可包括2’-o-甲基化核糖核苷酸或嵌合的RNA-DNA类似物。
进一步地,本发明的反义核酸分子可是核酶。核酶是具有核糖核酸酶的催化活性的RNA分子,可切割具有与其互补区的单链核酸如mRNA。因而,核酶(如锤头核酶)可用于催化切割乙酰辅酶A羧化酶mRNA转录体,进而抑制mRNA的翻译。特异于乙酰辅酶A羧化酶编码核酸分子的核酶可基于此处公开的乙酰辅酶A羧化酶cDNA的核苷酸序列来设计,或基于根据本发明教导的方法分离出来的异源序列来设计。例如Tetrahymena L-19IVS RNA衍生物可被构建成活性位点的核苷酸序列与在编码mRNA中切割的核苷酸序列互补(可参见US 4987071和US511672)。任选地,乙酰辅酶A羧化酶mRNA可用于在RNA分子池中选择具有特异性的核糖核酸酶活性的催化性RNA。
EP1158051公开了,反义方法应用于构建类胡萝卜素过量产生的P.rhodozyma菌株。
本发明的一个实施方式涉及制备重组宿主细胞的方法,包括将本发明的载体或多核苷酸导入到宿主细胞。
载体DNA可通过常规的转化或转染技术而被导入到原核细胞或真核细胞。在此处,术语“转化”和“转染”,接合和转导是指各种已知的将外源核酸(如DNA)导入到宿主细胞的人工识别技术,包括磷酸钙或氯化钙共沉淀,DEAE-葡聚糖介导的转染,脂转染,自然感受态(natural competence),化学介导转移或电穿孔法。转化或转染宿主细胞包括植物细胞的合适方法是本领域熟知的。
对于哺乳动物细胞的稳定转化,只有其中一部分细胞中的基因组中可整合了外源DNA,这依赖于所采用的表达载体和转染技术。为了鉴定和选择出这些整合体,通常与目的基因一起还导入编码选择标记(例如抗生素的抗性)。优选的选择标记包括那些赋予对药物,如G418、潮霉素和氨甲蝶呤的抗性。编码选择标记的核酸可在包括编码本发明多肽的同一载体上一起导入宿主细胞,也在另外的载体上而被导入。导入的核酸稳定转化的细胞可通过,如药物来选择(例如整合了选择标记基因的细胞可以存活,而其它细胞被杀死)。
为了获得同源性重组微生物,先需要制备这样的载体,其中包含至少部分本发明多核苷酸的片段,该片段中引入了缺失、增加或取代,因而可改变,如功能性破坏乙酰辅酶A羧化酶基因。优选地,该乙酰辅酶A羧化酶基因是P.rhodozyma乙酰辅酶A羧化酶基因,但也可以是来自相关或不同来源的同源物。任选地,载体被设计成可通过同源重组,内源乙酰辅酶A羧化酶基因被突变或改变但仍然编码有功能的蛋白(可改变上游调控区而改变内源乙酰辅酶A羧化酶的表达)。也可用经同源重组及DNA-RNA杂交体来创造点突变,这被称为chimeraplasty,可参见Cole-Strauss et al.,Nucl.Aci.Res.,27,5,1323-1330,1999和Kmiec,Gene therapy.,American Scientist.87,3,240-247,1999。
载体可导入到细胞,进而可利用已知技术来选择被导入的多核苷酸基因与内源乙酰辅酶A羧化酶基因发生了同源重组的细胞。
进一步,也可制备包含能调节被导入基因表达的选择体系的宿主细胞。例如,将载体中的本发明多核苷酸的置于lac操纵子的控制之下,而使多核苷酸只有存在IPTG时才表达。这种调节体系在本领域是熟知的。
优选地,导入的核酸对宿主细胞而言是外源的。
“外源”指核酸分子要么相对于宿主细胞而言是异源的,此时指核酸分子来自具有不同的基因组背景的细胞或生物体。或者与宿主细胞是同源,此时指相对于天然存在的对应核酸分子而言,所述核酸分子位于不同的基因组环境。也就是说,如核酸分子相对于宿主细胞是同源的,则在所述宿主细胞的基因组中,它不位于它天然存在的位置,尤其指被不同的基因所包围。这种情况下,核酸分子受它本身的启动子控制,或被异源启动子所控制。导入宿主细胞的本发明的载体或核酸分子,可整合到宿主细胞的基因组中,或以某种形式而仍然保持于染色体之外。这一方面,也可理解为本发明的核酸分子用于通过同源重组而恢复或创建突变基因。
相应地,在本发明的其它实施方式中,涉及用本发明的多核苷酸或载体进行遗传工程改变的宿主细胞。
术语“宿主细胞”和“重组宿主细胞”在此处可互换。应当理解的是,该术语不仅指特定的目标细胞,也指这种细胞的后代或潜在后代。在继代过程由于突变或环境影响而导致某些改变,因而这种后代实事上可能与亲本细胞不相同,但仍然包含在此处所用术语的范围之内。
例如,本发明的多核苷酸可导入到细菌细胞,以及昆虫细胞、真菌细胞或哺乳动物细胞(如中华仓鼠卵巢细胞(CHO)或COS细胞)、藻类、纤毛虫、植物细胞、真菌或其它微生物如E.coli。其它合适的宿主细胞对本领域技术人员是熟知的。优选的是E.coli、杆状病毒、农杆菌或真菌细胞,如属于糖酵母属(Saccharomyces)种,例如酿酒酵母(S.cerevisiae)和P.rhodozyma(Xanthophylomyces dendrorhous)。
此外,一个实施方式中,本发明涉及产生真菌转化体的方法,包括将本发明的多核苷酸或载体导入到所述真菌细胞的基因组中。
为了在植物中以有义或反义方向表达本发明的核酸分子,可将所述分子置于调控元件控制之下,以保证在真菌细胞中能够表达。这些调控元件可相对于将要表达的核酸分子或将要转化的真菌而言是异源或同源的。
通常,这种调控元件包括在真菌细胞中能起作用的启动子。为了在真菌细胞中组成型表达,优选的组成型启动子选用如来自P.rhodozyma的甘油醛-3-脱氢酶启动子(WO 97/23633)。诱导型启动子可用于精确控制的表达。诱导型启动子的一个例子是热激蛋白基因的启动子。作为诱导型启动子的候选者的淀粉酶基因启动子也已公开(EP 1035206)。调控元件可进一步包括在真菌中起作用的转录和/或翻译增强子。而且,调控元件也包括转录终止信号,如聚腺苷信号,可导致聚腺苷尾巴增加到转录体上以改善其稳定性。
将外源基因导入到真菌细胞中的方法也是本领域中已知的。这些方法包括,如用LiCl方法的转化,原生质体融合,电穿孔,biolistic方法等粒子轰击法以及其它本领域熟知的方法。利用biolistic方法的转化方法是本领域技术人员所熟知的。
此处所用的术语“转化”指将外源多核苷酸转移到宿主细胞,而不管用什么方法来转移。多核苷酸可瞬时或稳定导入到宿主细胞,也可保持非整合状态,如作为质粒或嵌合link,或任选地,也可整合到宿主基因组中。
通常,可根据本发明来修饰真菌,以过量表达本发明的蛋白,或者降低这种蛋白的合成,所述真菌可来自任何预期的真菌种。
进一步,在一个实施例中,本发明涉及真菌细胞,其包含由本发明方法获得的多核苷酸或载体。
因而,本发明涉及转基因真菌细胞,其包含(优选是稳定整合进基因组)连接于调控元件的根据本发明的多核苷酸,以使多核苷酸在真菌细胞中能表达,而且所述多核苷酸相对转化真菌细胞而言是外源的。关于外源的含义,如上所述。
因而,本发明也涉及根据本发明的转化的真菌细胞。
相应地,由于改变了乙酰辅酶A羧化酶的表达,细胞代谢途径在产物的产量和/或生产的效率方面被调整。
术语“生产(production)”或“产率(productivity)”是本领域公知的,包括在给定时间和给定发酵体积中(如kg产物/小时/升)形成的发酵产物(例如脂肪酸、类胡萝卜素、(多)糖、脂、维生素、类异戊二烯、蜡酯和/或聚合体如polyhydroxyalkanoates和/或其代谢产物,或此处提及的精细化合物)的浓度。
术语生产的“效率”包括为获得特定水平的生产所需要的时间(例如,细胞需要多长时间来达到将所述改变的产物产出的特定速率,尤其是转化成类胡萝卜素、(多)糖、脂、维生素、类异戊二烯等)。
术语“产量”或“产品/碳产量”是本领域已知的,包括将碳源转换成产品的效率(即乙酰辅酶A,脂肪酸,维生素,类胡萝卜素、类异戊二烯,脂类等和/或其它如上述提及的化合物,它们的生物合成基于所述产品)。通常被记为,例如,kg产品/kg碳源。通过增加产量或化合物的生产,在给定量的培养基中培养给定时间内,由化合物回收分子的量、或有用回收分子增加了。
术语“生物合成”(被用作与细胞、组织、植物等中的“生物产品”的“合成”的同义词)或“生物合成途径”都是本领域中已知的,包括通过细胞从中间化合物,并经过多个步骤和高度调节过程而合成化合物,优选是有机化合物。
术语“代谢”是本领域公知的,包括在生物体中发生的全部生物化学反应。特定化合物的代谢(如乙酰辅酶A、脂肪酸、己醣,类异戊二烯,维生素、类胡萝卜素、脂类等)因而也包括在与该化合物相关的细胞中整个生物合成、修饰和降解途径。
这种遗传工程改造的P.rhodozyma可在合适的培养基中培养,并评价它产生类胡萝卜素,尤其虾青素的产率。选择能超量产生虾青素的菌株,并通过其产率与通过这种遗传工程方法导入的基因或蛋白的表达水平关系而得以证实。
本发明进一步由下述实施例进行阐明。
在实施例中采用的材料和方法描述如下:
菌株
P.rhodozyma ATCC96594(按照Budapest条约,于1998年4月8日重新保存,其保藏号为ATCC 74438)
E.coli DH5α:F’,Φ80d,lacZΔM15,Δ(lacZYA-argF)U169,hsd(rk -,mk +),recA1,endA1,deoR,thi-1,supE44,gyrA96,relA1(Toyobo,Osaka,Japan)
E.coli XL1-Blue MRF’:Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,recA1,gyrA96,relA1,lac[F’proAB,lacIqZΔM15,Tn10(tetr)](Stratagene,La Jolla,USA)
E.coli SOLR:e14-(mcrA),Δ(mcrCB-hsdSMR-mrr)171,sbcC,recB,recJ,umuC::Tn5(kanr),uvrC,lac,gyrA96,relA1,thi-1,endA1,ΔR,[F’proAB,lacIqzΔM15]Su-(非抑制)(Stratagene)
E.coli TOP 10:F-,mcrA,Δmrr-hsdRMS-mcrBC),Φ80,ΔlacZ M15,ΔlacX74,recA1,deoR,araD139,(ara-leu)7697,galU,galK,rpsL(Strr),endA1,nupG(Invitrogen,Carlsbad,USA)
载体
λZAPII(Stratagene)
pBluescriptII KS-(Stratagene)
pMOSBlue T-载体(Amersham,Buckinghamshire,U.K.)
pCR2.1-TOPO(Invitrogen)
培养基
P.rhodozyma菌株在常规的YPD培养基中保存(DIFCO,Detroit,U.S.A.)。
E.coli菌株保存在LB培养基(每升含10g Bacto-胰蛋白胨,5g酵母抽提物(DIFCO)和5g NaCl)。NZY培养(每升含5g NaCl,2g MgSO4-7H2O,5g酵母抽提物(DIFCO),10g NZ amine type A(WAKO,Osaka,Japan)),于软琼脂(0.7%琼脂(WAKO))以用于λ噬菌体的繁殖。当制备琼脂培养基时,需添加1.5%的琼脂(WAKO)。
方法
限制性内切酶和T4DNA连接酶购于Takara Shuzo(Ohtsu,Japan)。
分离P.rhodozyma的染色体DNA可用QIAGEN Genomic试剂盒(QIAGEN,Hilden,Germany)按所提供的操作方法进行。从转化的E.coli中进行质粒DNA的微制备可用自动DNA分离体系(PI-50,Kurabo,Co.Ltd,Osaka,Japan)。从E.coli转化体中进行质粒DNA的微制备可用QIAGEN柱(QIAGEN)。用Wizardλ制备DNA纯化系统(Promega,Madison,USA)用于分离λDNA,按生产商提供的操作方法进行。用QIA快速或QIAEXII(QIAGEN)从琼脂中分离和纯化DNA片段。λ噬菌体衍生物的操作按生产商(Stratagene)提供的方法进行。
用Isogen(Nippon Gene,Toyama,Japan)的酚法从P.rhodozyma分离总RNA。从总RNA纯化mRNA可通过mRNA分离试剂盒(Clontech)来获得。用CapFinder cDNA构建试剂盒(Clontech)合成cDNA。
用Gigapack III金包装extract(Stratagene)进行体外包装。
聚合酶链式反应(PCR)采用Perkin Elmer model 2400热循环仪来进行。每个PCR的条件在实施例中进行描述。PCR引物可从商业途径购得。用于DNA测序的荧光DNA引物购自Pharmacia。用自动荧光DNA测序仪(ALFred,Pharmacia)来进行DNA测序。
DH5α感受态细胞购自Toyobo(Japan)。
实施例1:分离P.rhodozyma mRNA并构建cDNA文库
为了构建P.rhodozyma cDNA文库,用酚抽提法从刚破碎的细胞中分离总RNA,进而用mRNA分离试剂盒(Clontech)纯化P.rhodozyma ATCC96594mRNA。
首先,ATCC96594菌株的细胞在以10ml的YPD培养基中培养2天后,通过离心收集细胞(1500×g,10分钟),用抽提缓冲液(10mM柠檬酸钠/HCl(pH6.2,并含0.7M KCl)洗涤一次。悬浮于2.5ml抽提缓冲液之后,用French压碎匀浆(Press homogenizer)(Ohtake Works Corp.,Tokyo,Japan)以1500kgf/cm2进行破碎,并根据生产商提供的方法立即与两倍体积的等基因isogen(Nippon基因)混合。在这一步中,获得400ug的总RNA。
然后,用mRNA分离试剂盒(Clontech)根据生产商提供的方法纯化总RNA。最终,获得16ug的P.rhodozyma ATCC96594菌株mRNA。
采用GapFinder PCR cDNA构建试剂盒(Clontech),按生产商提供的方法构建cDNA文库。用lug的纯化mRNA经PCR扩增进行第一链合成。在该次PCR扩增之后,获得1mg cDNA池。
实施例2:从P.rhodozyma克隆部分ACC(乙酰辅酶A羧化酶)基因的
采用简并PCR法克隆P.rhodozyma的ACC基因的一部分。下述列出了用于多重比较(multiple alignment)分析的乙酰辅酶A羧化酶序列相应的物种和保藏号:
拟南芥(Arabidopsis thaliana)             D34630(DDBJ)
Emericella nidulans                      Y15996(EMBL)
Gallus gallus                            P11029(Swiss-Prot)
Glycine max                              S41121(PIR)
Medicago sativa                          L25042(GenBank)
Ovis aries                               Q285559(Swiss-Prot)
褐家鼠(Rattus norvegicus)                P11497(Swiss-Prot)
酿酒酵母(Saccharomyces cerevisiae)       Q285559(Swiss-Prot)
粟酒裂殖酵母(Schizosaccharomyces pombe)  Q285559(Swiss-Prot)
(玉蜀黍黑粉菌)Ustilago maydis            S49991(PIR)
根据来自其它物种的已知乙酰辅酶A羧化酶基因的共同序列设计并合成两个混合引物:acc9(有义引物)(SEQ ID NO:4)和acc13(反义引物)(SEQ IDNO:5)(序列中的“n”指核苷酸a、c、g或t,“h”指核苷酸a、c或t,“m”指核苷酸a或c,“k”指核苷酸g或t,以及“y”指核苷酸c或t)。
用ExTaq(Takara Shuzo)作DNA聚合酶,实施例1中获得的cDNA池作为模板,以如下参数进行PCR:95℃30秒,45℃30秒以及72℃15秒,共进行25个循环。之后,将反应混合物进行琼脂糖凝胶电泳。从琼脂凝胶上回收预期长度(0.8kb)的一PCR带,并通过QIAquick(QIAGEN)按所提供的方法进行纯化,然后连接到pMOSBlue-T-载体(Amersham)上。转化感受态E.coli DH5α,选择出6个白色菌落,并用自动DNA分离体系分离其中的质粒。测序结果发现,3个克隆含有序列,所推导的氨基酸序列与已知乙酰辅酶A羧化酶基因相似。这些分离的cDNA克隆称为pACC1014,并用于进一步筛选试验。
实施例3:分离P.rhodozyma的基因组DNA
为了分离P.rhodozyma的基因组DNA,用QIAGEN基因组试剂盒,并按生产商提供的方法进行操作。
首先,在100ml YPD培养基过夜培养P.rhodozyma ATCC96594菌株,通过离心收集细胞(1500×g,10分钟),用TE缓冲液(10mM Tris/HCl(pH8.0,并含1mM EDTA)洗涤一次。悬浮于8ml QIAGEN基因组试剂盒中Y1缓冲液之后,加入细胞裂解酶(lyticase)(SIGMA,St.Louis,USA)到2mg/ml以通过酶降解来裂解细胞,反应混和物于30℃温育90分钟,然后进行下一步抽提步骤。最终,获得20ug的基因组DNA。
实施例4:以pACC1014作为探针进行Southern印迹杂交
通过Southern印迹杂交克隆包含P.rhodozyma的ACC基因的基因组片段。2ug基因组DNA用EcoRI消化,并进行琼脂糖凝胶电泳,接着进行酸和碱处理。采用transblot(Joto Rika,Tokyo,Japan)将变性DNA向尼龙膜(Hybond N+,Amersham)转移1小时。转移到尼龙膜的DNA通过热处理进行固定(80℃,90分钟)。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI和SalI消化的pACC1014)作为探针。按生产商提供的方法进行杂交反应。结果,观察到在2.0至2.3kb范围的杂交带。
实施例5:含有ACC基因的基因组片段的克隆
用EcoRI消化4ug基因组DNA,进行琼脂糖凝胶电泳。然后,用QIAEXII抽提试剂(QIAGEN),根据生产商提供的方法回收长度在1.5至2.7范围内的DNA。纯化DNA与0.5ug用EcoRI消化和CIAP(小牛肠碱性磷酸酶)处理的λZAP II(Stratagene)于16℃连接过夜,并用Gigapack III金包装提取物(Stratagene)进行包装。包装的提取物被感染E.coli MRF’菌株,并用倾注LB琼脂培养基上的NZY培养基over-laid。用EcoRI和SalI消化的pACC1014作探针筛选约5000个噬菌斑。有5个噬菌斑能够与标记探针杂交。
对这些包含假定为P.rhodozyma ACC基因的λZAP II衍生物进行体内切割程序,按操作说明书进行(Stratagene),将插入片段克隆到E.coli克隆载体即pBluescript SK中。从5个阳性噬菌体中回收每一个克隆,用于序列分析,发现其中3个具有与pACC1014中的插入片段完全相同的序列。其中的一个称为pACC1224,用于进一步研究。对pACC1224中的插入片段的整个区域进行测序,结果表明该克隆既不包含ACC基因的5’末端,也不包含其3’末端。
实施例6:用基因组步行法克隆P.rhodozyma基因组中pACC1224中的插入片段的侧翼区
根据pACC1224的内在序列设计合成两个PCR引物:acc17(SEQ IDNO:6)和acc18(SEQ ID NO:7),用于基因组步行法。根据生产商(Clontech)所提供的操作手册进行染色体步行。用acc17引物进行PCR反应,在基因组StuI文库中获得2.8kb PCR带。而用acc18引物,在基因组PvuII文库中获得2.2kb PCR带。这些PCR带克隆进pCR2.1-TOPO(Invitrogen),发现2.8kbPCR带包含ACC基因的5’片段,而2.2kb PCR带包含ACC基因的3’带。包含2.8kb和2.2kb PCR片段的克隆分别称为pACCstu107和pACCPvd107,用于进一步的研究。
实施例7:用pACCstu107和pACCPvd107作探针进行Southern印迹杂交
进行Southern印迹杂交以克隆覆盖P.rhodozyma ACC基因的基因组片段。用EcoRI消化2ug基因组DNA,然后进行琼脂糖凝胶电泳,并进行酸和碱处理。采用transblot(Joto Rika,Tokyo,Japan)将变性DNA向尼龙膜(Hybond N+,Amersham)转移1小时。转移到尼龙膜的DNA通过热处理进行固定(80℃,90分钟)。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI消化的pACCSStu107和pACCPvd107)作为探针。按生产商提供的方法进行杂交反应。当用pACCStu107中的插入片段作探针时,可观察到2.0kb、0.9kb和0.6kb的杂交带。而以pACCPvd107中的插入片段作探针时,可观察到从6.0kb至6.5kb范围的杂交带。
实施例8:覆盖ACC基因的基因组克隆
与实施例5类似的方式,包含在pACCstu107和pACCPvd107中的插入片段的基因组片段通过噬菌斑杂交而克隆。用EcoRI消化4ug基因组DNA,继而进行琼脂糖凝胶电泳。然后,用QIAEXII凝胶抽提试剂盒(QIAGEN),按生产商提供的方法回收长度在下述范围的DNA:(1)2.7-5.0kb;(2)1.4-2.7kb以及(3)0.5-1.4kb。
每一个纯化DNA与0.5ug的EcoRI消化和CIAP(小牛肠碱性磷酸酶)处理的λZAP II(Stratagene)于16℃连接过夜,并用Gigapack III金包装提取物(extract)(Stratagene)进行包装。包装的提取物(extract)被感染E.coli MRF’菌株,并用倾注LB琼脂培养基的NZY培养基over-laid。用Eco RI消化的pACCStu107和pACCPvd107作为探针筛选约5000个噬菌斑。噬菌斑杂交分析后,分离出下面的候选物:
1)用pACCPvd107中的插入片段作探针从2.7-6.0kb的文库中获得的3个噬菌斑;
2)用pACCStu107中的插入片段作探针从1.4-2.7kb的文库中获得的3个噬菌斑;
用pACCStu107中的插入片段作探针从0.5-1.4kb的文库中获得的21个噬菌斑;
对这些包含假定为P.rhodozyma ACC基因的λZAP II衍生物进行体内切割程序,按操作说明书进行(Stratagene),将插入片段克隆到E.coli克隆载体即pBluescript SK中。从每个阳性噬菌体中回收每一个克隆,用于序列分析。经BLAST X分析得到至少一个克隆具有推定为ACC基因(http://www.blast.genome.ad.jp/)。下述克隆被选择用于进一步分析:
pACC119-18:含6kb长的插入片段,并覆盖ACC基因的3’末端;
pACC119-17-0.6:含0.6kb长的插入片段,侧接pACC1224中插入片段的5’末端;
pACC119-17-2:含2kb长的插入片段,是pACC119-17-0.6中插入片段的5’末端的侧翼序列;
pACC127-17-0.9:含0.9kb长的插入片段,是pACC119-17-2中插入片段的5’末端的侧翼序列。
pACC119-18、pACC119-17-0.6、pACC119-17-2和pACC127-17-0.9中的插入片段的全部区域的所有序列,表明这些克隆并没有覆盖ACC基因的5’末端。
实施例9:用染色体步行法克隆P.rhodozyma基因组中的pACC127-17-0.9中的插入片段的侧翼区
根据pACC127-17-0.9的内在序列设计合成PCR引物:acc26(SEQ IDNO:8),用于基因组步行法。
利用acc26引物进行PCR反应,在基因组StuI文库中获得2.6kb PCR带。将该PCR带克隆进pCR2.1-TOPO(Invitrogen),经过BLAST X分析表明该克隆包含ACC基因的5’片段。该克隆被命名为pACCVu126并用于进一步的研究。
实施例10:用pACCPvu126作探针进行Southern印迹杂交
进行Southern印迹杂交以克隆覆盖P.rhodozyma ACC基因的5’末端。按实施例7的类似方式进行Southern印迹杂交。用DIG multiprining法(Boehringer Mannheim)标记模板DNA(EcoRI消化的pACCPvu116)作为探针。按生产商提供的方法进行杂交反应。结果可观察到5.0kb的杂交带。
实施例11:覆盖ACC基因的5’末端的基因组克隆
与实施例8类似的方式,在pACCPvu126中的包含插入片段的基因组片段通过噬菌斑杂交而克隆。也利用了实施例8中制备的覆盖2.7-6.0kb长的基因组文库。与用DIG标记的pACCPvu126的插入片段能够杂交的12个阳性噬菌斑被分离,并进行体内切割以获得质粒DNA。从分离的质粒中进行测序表明,大部分质粒与pACCPvu126中的插入片段中的序列完全相同。其中一个克隆被称为pACC204,用于进一步研究。
实施例12:pACC204和pACC127-17-0.9之间的缺口区(gapped region)的克隆
在对pACC204的插入片段的3’末端和pACC127-17-0.9的插入片段的5’末端进行测序之后,对已知乙酰-COA羧化酶基因作BLAST X分析,其结果表明对于整个ACC基因而言,仍然有约0.3kb长的片段没有被覆盖。基于pACC204和pACC127-17-0.9的内在序列合成了下述PCR引物:acc43(有义引物)(SEQ ID NO:9)和acc44(反义序列)(SEQ ID NO:10)。用HF聚合酶(Clontech)作DNA聚合酶,实施例3中获得的基因组DNA作为模板,以如下参数进行PCR:94℃15秒,55℃30秒以及72℃15秒,共进行25个循环。之后,将反应混合物进行琼脂糖凝胶电泳。从琼脂糖凝胶上回收预期长度(0.3kb)的一PCR带,并用QIAquick(QIAGEN)按所提供的方法进行纯化,然后克隆到pCR2.1-TOPO(Invitrogen)上。转化感受态E.coli TOP10,选择出6个白色菌落,并用自动DNA分离体系分离其中的质粒。测序结果发现,5个克隆含有的序列相互一致。分离克隆中的一个称为pACC210。
实施例13:含有ACC基因的完整基因组片段的测序
用AutoRead测序试剂盒(Pharmacia),以引物进行步行程序对这些克隆加以测序:pACC204、pACC210、pACC127-17-0.9、pACC119-17-2、pACC119-17-0.6、pACC1224和pACC119-18。
测序结果表明,确定了含有10561碱基对的基因组片段的核苷酸序列包含了P.rhodozyma ACC基因,包括其启动子(1445碱基对)和终止子(1030碱基对)(SEQ ID NO:1)。8086碱基对长的编码区中包括了19个外显子和18个内含子。内含子分布在编码区中,没有5’或3’偏好。发现开放阅读框(SEQID NO:2)由2187个氨基酸(SEQ ID NO:3)组成,用GENETYX-SV/RC软件(Software Development Co.,Ltd.,Tokyo,Japan)进行同源性查找发现,它与来自其它物种的已知乙酰辅酶A羧化酶的氨基酸序列显著相似(与来自Emericella nidulans的乙酰辅酶A羧化酶有56.28%的同一性)。
图1显示覆盖P.rhodozyma染色体上的ACC基因区的DNA片段的克隆。
实施例14:ACC基因的反义质粒的构建
覆盖ACC基因的整个结构基因的反义基因片段通过PCR扩增,并克隆进整合载体,其中反义ACC基因由其本身在P.rhodozyma的ACC启动子所转录。
引物包括了限制性内切酶SfiI(GGCCNNNNNGGCC)的不对称识别序列的,但它们的不对称的延伸序列被设计成不同。这使得能够定向克隆入表达载体中,其中该载体在连接序列处具有相同的不对称序列。这种构建体应用在EP118051中公开。
对于能够驱动反义ACC基因转录的启动子和终止子片段,利用SEQ IDNO:1所示的序列信息从染色体上克隆了ACC启动子和终止子。通过将含有ACC终止子的DNA片段与pG418Sa330(EP1035206)的G418抗性表达盒连接而使ACC终止子片段与G418抗性表达盒融合,并连接到合适的载体上,如pBluescriptII KS-(Stratagene)。
然后,含有核糖体DNA(rDNA)位点的3.1kb长的Sacl片段(Wery et al.,Gene,184,89-97,1977)插入到制备成质粒的G418表达盒的下游。rDNA片段以多拷贝存在于真核生物的染色体中。经rDNA片段的整合事件可导致在宿主中的染色体上发生多拷贝的整合,因而能够使由表达载体携带的外源基因过量表达。
接下来,ACC启动子插入到ACC终止子的上游构建成能在P.rhodozyma起作用的表达载体。
最后,反义ACC构建体通过将包含反义ACC的1.5kb长的SfiI片段插入由此而制备成能在P.rhodozyma起作用的表达载体而得以完成。类似的质粒构建体在EP1158051中有公开。
实施例15:用ACC反义载体对P.rhodozyma进行转化
制备的ACC反义载体转化P.rhodozyma的野生型菌株,ATCC96594。Biolistic转化的程序可参见EP1158051。
实施例16:P.rhodozyma的反义ACC重组体的鉴定
P.rhodozyma(ATCC96594)的反义ACC重组体在500ml Erlenmeyer瓶的50ml YPD培养基中,于20℃下培养3天,其是使用在检测管(直径21mm)的10ml YPD培养基中在20℃下培养3天,获得的种培养物。取出适当体积的培养物用于分析产生的类胡萝卜素、以及用于它们生长、类胡萝卜素(尤其是虾青素)的产率的分析。对于生长分析,用UV-1200光度计(ShimadzuCorp,Kyoto,Japan)于660nm处测定菌液的光学密度,并且取1ml培养液离心获得的细胞于100℃干燥1天,以测定它们的细胞干重(mass)。对于虾青素和总类胡萝卜素的含量分析,从1.0ml培养液离心获得的细胞,用玻璃珠破碎P.rhodozyma细胞以抽提其类胡萝卜素。抽提之后,被破碎的细胞经离心去除,所得物用HPLC分析胡萝卜素含量分析。HPLC条件如下:HPLC柱为Chrompack Lichrosorb si-60(4.6mm,250mm),温度为室温,流动相为丙酮/己烷(18/82),并加1ml/L水到流动相中,上样注射体积:10ul,流速:2.0ml/min,检测条件是450nm的UV。一个对照的虾青素样品可从HoffmannLa-Roche(Basel,Switzerland)获得。
图1显示在P.rhodozyma中从乙酰辅酶A到虾青素的推导的生物合成途径。
图2显示覆盖P.rhodozyma染色体上的ACC基因区的DNA片段的克隆。
序列表
<110>DSM IP资产公司(DSM IP ASSETS B.V.)
<120>ACC基因
<130>NDR5217
<140>PCT/EP03/10683
<141>2003-09-25
<150>EP 02021625.5
<151>2002-09-27
<160>10
<170>PatentIn version 3.2
<210>1
<211>10561
<212>DNA
<213>Phaffia rhodozyma
<220>
<221>5′UTR
<222>(1221)..(1222)
<220>
<221>外显子
<222>(1446)..(1482)
<220>
<221>内含子
<222>(1483)..(1675)
<220>
<221>外显子
<222>(1676)..(1758)
<220>
<221>内含子
<222>(1759)..(1832)
<220>
<221>外显子
<222>(1833)..(1957)
<220>
<221>内含子
<222>(1958)..(2030)
<220>
<221>外显子
<222>(2031)..(2171)
<220>
<221>内含子
<222>(2172)..(2243)
<220>
<221>外显子
<222>(2244)..(2641)
<220>
<221>内含子
<222>(2642)..(2745)
<220>
<221>外显子
<222>(2746)..(2991)
<220>
<221>内含子
<222>(2992)..(3074)
<220>
<221>外显子
<222>(3075)..(3443)
<220>
<221>内含子
<222>(3444)..(3517)
<220>
<221>外显子
<222>(3518)..(3552)
<220>
<221>内含子
<222>(3553)..(3625)
<220>
<221>外显子
<222>(3626)..(3750)
<220>
<221>内含子
<222>(3751)..(3827)
<220>
<221>外显子
<222>(3828)..(4026)
<220>
<221>内含子
<222>(4027)..(4095)
<220>
<221>外显子
<222>(4096)..(4911)
<220>
<221>内含子
<222>(4912)..(4983)
<220>
<221>外显子
<222>(4984)..(5384)
<220>
<221>内含子
<222>(5385)..(5455)
<220>
<221>外显子
<222>(5456)..(5608)
<220>
<221>内含子
<222>(5609)..(5673)
<220>
<221>外显子
<222>(5674)..(5805)
<220>
<221>内含子
<222>(5806)..(5870)
<220>
<221>外显子
<222>(5871)..(6832)
<220>
<221>内含子
<222>(6833)..(6898)
<220>
<221>外显子
<222>(6899)..(6976)
<220>
<221>内含子
<222>(6977)..(7047)
<220>
<221>外显子
<222>(7048)..(7227)
<220>
<221>内含子
<222>(7228)..(7295)
<220>
<221>外显子
<222>(7296)..(9160)
<220>
<221>内含子
<222>(9161)..(9230)
<220>
<221>外显子
<222>(9231)..(9530)
<220>
<221>polyA_位点
<222>(9813)..(9814)
<400>1
caacagacag acaaaggaac ttacgtgtac atactggtct ttccaatgtc gcggcgtcga   60
gattaactag aacaatactt gacaatcgaa tctcttattc tgccctagtt gaaggcgtct  120
gttcaaattg atcaagatct tccaatcatt gacatccagg tattcgcatt cgactctgct  180
cgtatgtact gttccgattt tcttatggcc accagatttc aactctgata tacattggtt  240
caccctgtct ttgtctcttt gcctttcgtt ccatctagcg ctgttcaacg gatcactcag  300
tcggcttgac tcaactccct ctggaacgtg tgccttatct caggttctga tttctcctca  360
gccagtatgc gcacaaagca gcgatcgtga ctttttgctc cataagacct ctcagcgggg  420
aatatatgac actcatacat cgatagctcg tatgttttct ttgatcactt cctaaaatgt  480
aacggcaact gacattcaac atgatgcgct ttcatagatc aactacttcc gactacgatg  540
accgttcttc tatacagccc agtcagctcg tcgacctcac ataaagtgac tgagaccgcg  600
atctcgaaca tcttattcct tccaccgtta gctgagaagt ggattacacc atcaatagaa  660
tcatctaccc cgttcttgcc tggactaatg cgtcaggagc tcttggataa aggagaaata  720
gctgagcaga ccatcacctt ggatgatgtc cgtctgtggc tgaactccgg aggtcgagtg  780
gcgtgctgca acgcacttcg aggaatttgg gaagtgaacc tcgtttggag tgataaatga     840
gattacgaaa gtctgttcga aacatccatg cttcatgata accgataacg cttaaatctt     900
gagagtgcgc acatcgatcg ccttttatat atggggttgg ggaaacataa agtgttcata     960
gactattgtt catatatctt aaagtacaaa gacgcatcta accctaagcc tgaatgattg    1020
gcaaaatcct agtaagaccg tgaaattccg aagaatacgc agttcattaa taaagatata    1080
gcttaggtaa gcagcggttg ctcccccaac caacctcatc cgaaattccc cagggggttg    1140
agattctcaa ggctttgaat ccccatcccg tcaagttggt cttaaaccct tcatctctac    1200
ttgttacttc ttttcttctt gacctccttc ccccactccc tcctattctc tgaacgaact    1260
cgcctccctg tccatctact cttcttcggt tttcttttgg gtttttactt ttctcgttcc    1320
tcctccatct ttccatctct tttcgtatct gtgggtaact ttgcatccaa gggccctcac    1380
acataaccct atatccatct tcctccattc acacacatct gtactcaacc aacaaagctc    1440
acaag atg gtt gtc gat cac gag agc gta agg cat ttc atc g              1482
      Met Val Val Asp His Glu Ser Val Arg His Phe Ile
      1               5                   10
gtaagcgttc ttgttctttt ccttgtctgg ctccctgcat tttcttaaac gatctaggaa    1542
gagagggaaa ttacatctgg tcaattttcc gcgctctttt ccttggggac aaaagaatgc    1602
ctttctgtga tcggagatcg gttgctgatc tcttttgtct tgttcttttt gctctttccc    1662
tcccctttac cag gt  gga aac gca ctt gag aac gcc cct ccg tca agc       1710
               Gly Gly Asn Ala Leu Glu Asn Ala Pro Pro Ser Ser
                       15                  20
gtc acc gat ttc gtt aga agt caa gat ggt cac acg gtc atc acc aaa      1758
Val Thr Asp Phe Val Arg Ser Gln Asp Gly His Thr Val Ile Thr Lys
25                  30                  35                  40
gtcagtaatt ttcatttttt ccttcacgta gcctcagggc caaggagcta aattgcttct    1818
gtatcatttc tcag gtc ctc att gcc aac aac gga atc gct gct gta aaa      1868
                Val Leu Ile Ala Asn Asn Gly Ile Ala Ala Val Lys
                                45                  50
gag atc cga tca gtt cgt aaa tgg gct tac gag acg ttt gga gat gag      1916
Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr Phe Gly Asp Glu
        55                  60                  65
cga gcc atc gaa ttt acg gta atg gcc act cca gaa gat tt               1957
Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu Asp Leu
    70                  75                  80
gttcgtacca atcacataag ctttccttga gtcagggaca tcctctaatt aattcaactt    2017
gagcgccata cag g aag gtg aac tgc gac tat att cga atg gct gat cga     2067
                 Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg
                         85                  90
gtc gtc gaa gtt cct gga gga act aac aac aac aat cac tct aac gtc      2115
Val Val Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val
95                  100                 105                 110
gac ctc atc gtt gac att gcc gag cga ttc aat ata cat gct gtt tgg      2163
Asp Leu Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp
                115                 120                 125
gct gga tg  gtaagtaaaa taggacctta acatgttgga agaagagtgt            2211
Ala Gly Trp
ccacttaaac gcgctttctt tccatccgac ag g ggt cac gct tcg gaa aac ccc  2265
                                      Gly His Ala Ser Glu Asn Pro
                                      130                 135
aga ctt ccc gag tct ctc gcc gcc tca aag aac aag atc gtc ttc att    2313
Arg Leu Pro Glu Ser Leu Ala Ala Ser Lys Asn Lys Ile Val Phe Ile
            140                 145                 150
ggt cct ccc gga tcc gct atg cga tcc ctt gga gac aag att tct tcg    2361
Gly Pro Pro Gly Ser Ala Met Arg Ser Leu Gly Asp Lys Ile Ser Ser
        155                 160                 165
acc atc gtt gcc cag tct gcc cag gtg ccg tgt atg gcc tgg tct gga    2409
Thr Ile Val Ala Gln Ser Ala Gln Val Pro Cys Met Ala Trp Ser Gly
    170                 175                 180
tca ggc atc act gat aca gag ctc agc cct cag ggc ttc gtg act gtg    2457
Ser Gly Ile Thr Asp Thr Glu Leu Ser Pro Gln Gly Phe Val Thr Val
185                 190                 195                 200
ccc gat ggg cca tat cag gct gct tgt gta aag acg gtg gag gat ggt    2505
Pro Asp Gly Pro Tyr Gln Ala Ala Cys Val Lys Thr Val Glu Asp Gly
                205                 210                 215
ttg gtg cga gcc gag aag atc ggt ttg cca gtt atg atc aag gcc tct    2553
Leu Val Arg Ala Glu Lys Ile Gly Leu Pro Val Met Ile Lys Ala Ser
            220                 225                 230
gag gga gga gga gga aag ggt atc cga atg gtt cac agc atg gac aca    2601
Glu Gly Gly Gly Gly Lys Gly Ile Arg Met Val His Ser Met Asp Thr
        235                 240                 245
ttc aag aac tcc tac aac tcc gtc gct tcc gag gtg cca g gtaagttcac   2651
Phe Lys Asn Ser Tyr Asn Ser Val Ala Ser Glu Val Pro
    250                 255                 260
tctgtttgac tggagatttg agcacaatct ctaccatggg agttcaagaa ggaataccca  2711
ctcatgaatt gacgactgcg ttcttgacct ctag ga  tct ccg att ttc atc atg  2765
                                      Gly Ser Pro Ile Phe Ile Met
                                                  265
gcc ttg gct gga tct gct cga cat ttg gag gtc cag ctc ctt gct gat    2813
Ala Leu Ala Gly Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp
    270                 275                 280
cag tac gga aac gct atc tct ttg ttc ggt cga gat tgc tct gtt cag    2861
Gln Tyr Gly Asn Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln
285                 290                 295                 300
cga cga cat cag aag atc att gag gag gct ccc gtc acg atc gct cgt    2909
Arg Arg His Gln Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg
                305                 310                 315
cca gag aga ttc gaa gag atg gag aag gct gct gtc agg ttg gcc aag    2957
Pro Glu Arg Phe Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys
            320                 325                 330
tta gta gga tat gtt agt gcc ggt acc gtc gaa t gt a aggaaca         3001
Leu Val Gly Tyr Val Ser Ala Gly Thr Val Glu
        335                 340
aacagctacc tctcattctg ttttttcgag atagtcaact tacatcactt ttcttttgcc  3061
ggattttctt tag ac  ctc tac tct cac gcc gac gac tca ttc ttc ttc     3109
                Tyr Leu Tyr Ser His Ala Asp Asp Ser Phe Phe Phe
                    345                 350                 355
ctc gaa ctc aac cct cga ctt caa gtc gag cac cct act acc gag atg    3157
Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr Thr Glu Met
                360                 365                 370
gtc tcg ggt gtc aac ctt ccc gct gct cag ctt cag att gct atg ggt    3205
Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile Ala Met Gly
            375                 380                 385
atc cct ctt tct cga att cgg gat att cga gtc ctc tac ggt ctc gat    3253
Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr Gly Leu Asp
        390                 395                 400
ccc cac act gtt tcc gag atc gac ttc gac agc agc aga gcg gag tct    3301
Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg Ala Glu Ser
    405                 410                 415
gtc cag act cag agg aag cct agg ccc aag ggt cac gtc att gcc tgt    3349
Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val Ile Ala Cys
420                 425                 430                 435
cga atc acg agt gaa aac ccc gat gag ggg ttc aag ccg tct gcc gga    3397
Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro Ser Ala Gly
                440                 445                 450
gat atc caa gag ttg aac ttc aga agt aat act aac gtc tgg gga t      3443
Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val Trp Gly
            455                 460                 465
gtgagtacag aggcttctca aagattctta tgtggaacaa atctctgact cttaaattgt  3503
gtttgacttt caag ac  ttc tct gtt gga gct act gga gga att cat agt    3552
                Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser
                            470                 475
gtaagtttct tcgccaacaa tataatcaca ctagatccct atctaatctg aactggctta  3612
tctcttgtta tag ttc gcc gat tct caa ttc ggt cac gtg ttt gct tat     3661
               Phe Ala Asp Ser Gln Phe Gly His Val Phe Ala Tyr
                   480                 485                 490
ggc tcc gac cga acg act gcc aga aag aat atg gtt atc gcc ttg aaa    3709
Gly Ser Asp Arg Thr Thr Ala Arg Lys Asn Met Val Ile Ala Leu Lys
                495                 500                 505
gag ctt tcc att cga gga gac ttc cga acc act gtc gag ta             3750
Glu Leu Ser Ile Arg Gly Asp Phe Arg Thr Thr Val Glu Tyr
            510                 515
gtgcgtatag cctggtacat ctcctttcaa tcacttacga tgaactgacc gatctgtctc  3810
gatcacgttt aatctag t ctt atc act ctt ctt gag acg agc gat ttc gag   3861
                     Leu Ile Thr Leu Leu Glu Thr Ser Asp Phe Glu
                                     525                 530
cag aac gcc att acc acc gct tgg ttg gat ggg ttg atc act aac aag    3909
Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile Thr Asn Lys
            535                 540                 545
ctt aca tct gag agg cct gat cca tca ctg gcc gtt att tgt ggt gca    3957
Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile Cys Gly Ala
        550                 555                 560
att gtg aaa gct cac gtg gct tct gag aac tgt tgg gcc gaa tac cga    4005
Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala Glu Tyr Arg
    565                 570                 575
cga gta ttg gac aag gga cag gtaagctctg tttctcatga agtttttgac       4056
Arg Val Leu Asp Lys Gly Gln
580                 585
tgaggcactc accactccgt acatgtttcc tgtttttag gtt ccc tcc aag gac     4110
                                           Val Pro Ser Lys Asp
                                                       590
act ctc aag aca gtg ttc act ctt gat ttc atc tat gag ggt gtt cgg    4158
Thr Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg
            595                 600                 605
tac aat ttc acc gct gct cga gcc tcc ctc aac act tac cga ttg tat    4206
Tyr Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr
        610                 615                 620
cta aac gga gga aag acc gtg gtg tcc atc cga cct ttg gcc gat ggt    4254
Leu Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly
    625                 630                 635
gga atg ctc gtt ctt ctc gat ggc cga tcc cac act ctc tac tgg agg    4302
Gly Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg
640                 645                 650                 655
gag gaa gtc ggt acc ctc cga att cag gta gac gca aag act tgc ctg    4350
Glu Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu
                660                 665                 670
att gag cag gag aac gac ccc act cag ctc cga tca ccc tcg cct gga    4398
Ile Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly
            675                 680                 685
aag atc atc cgg ttt ttg gtc gaa agc gga gat cac atc tcc tcc gga    4446
Lys Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly
        690                 695                 700
gat atc tat gct gag gtt gag gtc atg aag atg atc ttg ccc ttg att    4494
Asp Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile
    705                 710                 715
gcc cag gag tcc ggt cac gtt cag ttt gtc aag caa gcc ggt gtg acc    4542
Ala Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr
720                 725                 730                 735
gtc gat cct gga gcg att att ggg atc ttg agt ctt gat gac cct acg    4590
Val Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr
                740                 745                 750
cga gtg aag aag gcg aag ccc ttc gag ggt ctc ctg cct gtg act ggt    4638
Arg Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly
            755                 760                 765
ctc cct aac ctg ccc ggt aac aga cct cac cag cgg cta cag ttc cag    4686
Leu Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln
        770                 775                 780
ctt gag tcg ata tac tcg gtc ttg gat gga tac gag agt gac tcc act    4734
Leu Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr
    785                 790                 795
gca aca atc ctc cga tca ttc tct gaa aac ctt tat gat cct gat ctt    4782
Ala Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu
800                 805                 810                 815
gct ttc gga gag gct tta tcc atc att tcc gtc ctt tct ggg aga atg    4830
Ala Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met
            820                 825                 830
cct gcc gat ctt gag gag agc att cga gag gtc atc agc gaa gct cag      4878
Pro Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln
            835                 840                 845
tcg aag cct cac gcc gag ttc cct gga tca aag gtgtgtagtt gatcgcagag    4931
Ser Lys Pro His Ala Glu Phe Pro Gly Ser Lys
        850                 855
ttatgactgt atacatcgac cagaagctta cccatctctt tcgtgtgcac ag atc ctc    4989
                                                          Ile Leu
                                                              860
aaa gtc gtc gag cgg tac atc gat aat ttg cga cct cag gag agg gct      5037
Lys Val Val Glu Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala
                865                 870                 875
atg gtc cga act cag atc gaa ccc atc gtt ggt att gct gag aag aac      5085
Met Val Arg Thr Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn
            880                 885                 890
gtt ggc ggt cct aag ggt tac gcc tct tac gtc tta gct acc atc ctt      5133
Val Gly Gly Pro Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu
        895                 900                 905
caa aag ttc ttg gcc gtt gag gcc gtt ttt gct act ggt agt gaa gag      5181
Gln Lys Phe Leu Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu
    910                 915                 920
gcc att gtt ctc caa ctt cga gat gaa aac cga gaa tct ttg aac gac      5229
Ala Ile Val Leu Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp
925                 930                 935                 940
gtc ctt ggt ctc gtc ctg gct cac tcg cgt ctc agc gct cga tcc aag      5277
Val Leu Gly Leu Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys
                945                 950                 955
ctt gtt ctc tcc gtc ttt gat ctg atc aag tct atg cag ctc ctc aac      5325
Leu Val Leu Ser Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn
            960                 965                 970
aac act gag ggt tct ttc ctt cat aag act atg aaa gcg ctt gcc gac      5373
Asn Thr Glu Gly Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp
        975                 980                 985
atg ccc acc aa  gtaggtttcc tcttgtagtt tacaaactat tgttgcgatg          5424
Met Pro Thr Lys
    990
tgttgacaaa gactctgttt ccgatctat a g g gct cct ttg gcc agc aag gtg    5477
                                      Ala Pro Leu Ala Ser Lys Val
                                              995
tct  ttg aag gct cgg gaa  att ctt atc tct tgc  tct ctt ccc tct       5522
Ser  Leu Lys Ala Arg Glu  Ile Leu Ile Ser Cys  Ser Leu Pro Ser
1000                1005                1010
tac  gag gag agg ttg ttc  cag atg gaa aag atc  ctt aac tct tct       5567
Tyr  Glu Glu Arg Leu Phe  Gln Met Glu Lys Ile  Leu Asn Ser Ser
1015                1020                1025
gtc  acc act tct tac tac  gga gag act gga ggt  gga cac ag            5608
Val  Thr Thr Ser Tyr Tyr  Gly Glu Thr Gly Gly  Gly His Arg
1030                1035                1040
gtttgtcctc tcccatgtgt ttctagttca tagctctctg ctgactctga tccgattttc    5668
aacag a aac cct  tcg gtt gat gtt ctg  act gag atc tca aac  tct    5713
        Asn Pro  Ser Val Asp Val Leu  Thr Glu Ile Ser Asn  Ser
            1045                 1050                 1055
cga ttc acc gtc  tac gat gtc ctg tcc  tcc ttc ttc aag cac  gat    5758
Arg Phe Thr Val  Tyr Asp Val Leu Ser  Ser Phe Phe Lys His  Asp
            1060                 1065                 1070
gat cct tgg att  gtt ctt gct agt ttg  acc gtc tac gtt ctt  cga    5803
Asp Pro Trp Ile  Val Leu Ala Ser Leu  Thr Val Tyr Val Leu  Arg
            1075                 1080                 1085
gc  gtaagtgatc gttcttctcc tcttgcccaa acaatgactg acagttctat        5855
Ala
ctattccatc tgcag t tac cga gag  tac agt att ctt gat  atg caa cat  5904
                   Tyr Arg Glu  Tyr Ser Ile Leu Asp  Met Gln His
                           1090                 1095
gag caa  ggt cag gat ggc gct  gct gga gtc atc act  tgg cga ttc    5949
Glu Gln  Gly Gln Asp Gly Ala  Ala Gly Val Ile Thr  Trp Arg Phe
    1100                 1105                 1110
aag ctc  aac cag ccc atc gct  gag tct tct act ccc  cga gtt gac    5994
Lys Leu  Asn Gln Pro Ile Ala  Glu Ser Ser Thr Pro  Arg Val Asp
    1115                 1120                 1125
tcg aat  cga gac gtt tac cga  gtc ggt tcg ctt tct  gat ttg acc    6039
Ser Asn  Arg Asp Val Tyr Arg  Val Gly Ser Leu Ser  Asp Leu Thr
    1130                 1135                 1140
tac aag  atc aag cag agt cag  acc gag ccc ctc cga  gct ggt gtc    6084
Tyr Lys  Ile Lys Gln Ser Gln  Thr Glu Pro Leu Arg  Ala Gly Val
    1145                 1150                 1155
atg acg  agc ttc aac aac ttg  aag gag gtt cag gac  gga ctc ttg    6129
Met Thr  Ser Phe Asn Asn Leu  Lys Glu Val Gln Asp  Gly Leu Leu
    1160                 1165                 1170
aat gtt  ctg tct ttc ttc cct  gct tac cat cat caa  gat ttc act    6174
Asn Val  Leu Ser Phe Phe Pro  Ala Tyr His His Gln  Asp Phe Thr
    1175                 1180                 1185
caa cga  cat ggt cag gac agt  gcc atg ccc aac gtt  ctc aac att    6219
Gln Arg  His Gly Gln Asp Ser  Ala Met Pro Asn Val  Leu Asn Ile
    1190                 1195                 1200
gct atc  cgg gct ttc gag gag  aag gac gac atg tct  gat ctt gat    6264
Ala Ile  Arg Ala Phe Glu Glu  Lys Asp Asp Met Ser  Asp Leu Asp
    1205                 1210                 1215
tgg gcc  aag agt gtt gag tcg  ctg gta atg cag atg  tct gcc gag    6309
Trp Ala  Lys Ser Val Glu Ser  Leu Val Met Gln Met  Ser Ala Glu
    1220                 1225                 1230
atc cag  aag aag gga att cga  cga gtt acc ttc ttg  gtt tgc cga    6354
Ile Gln  Lys Lys Gly Ile Arg  Arg Val Thr Phe Leu  Val Cys Arg
    1235                 1240                 1245
aag ggc  gtt tac ccc tcc tac  ttc acc ttc aga caa  gag ggt gcc    6399
Lys Gly  Val Tyr Pro Ser Tyr  Phe Thr Phe Arg Gln  Glu Gly Ala
    1250                 1255                 1260
cag ggc  ccc tgg aga gag gag  gag aag att cga aac  atc gag cct    6444
Gln Gly  Pro Trp Arg Glu Glu  Glu Lys Ile Arg Asn  Ile Glu Pro
    1265                 1270                 1275
gct cta  gcc agt cag ctt gag  ctc aac cga ctc tcg  aat ttc aag      6489
Ala Leu  Ala Ser Gln Leu Glu  Leu Asn Arg Leu Ser  Asn Phe Lys
    1280                 1285                 1290
gtc acc  cct atc ttc gta gac  aac aga cag atc cac  atc tac aag      6534
Val Thr  Pro Ile Phe Val Asp  Asn Arg Gln Ile His  Ile Tyr Lys
    1295                 1300                 1305
gga gtg  ggt aag gag aac tct  tcc gat gtt cga ttc  ttt atc cgg      6579
Gly Val  Gly Lys Glu Asn Ser  Ser Asp Val Arg Phe  Phe Ile Arg
    1310                 1315                 1320
gct ttg  gtt cga cct gga cgg  gtc cag gga tcg atg  aag gct gcc      6624
Ala Leu  Val Arg Pro Gly Arg  Val Gln Gly Ser Met  Lys Ala Ala
    1325                 1330                 1335
gag tat  ctc atc tcc gag tge  gat cga ctg ctc act  gat atc ctg      6669
Glu Tyr  Leu Ile Ser Glu Cys  Asp Arg Leu Leu Thr  Asp Ile Leu
    1340                 1345                 1350
gac gcc  ttg gag gtt gtt gga  gcc gag act cga aac  gcc gat tgc      6714
Asp Ala  Leu Glu Val Val Gly  Ala Glu Thr Arg Asn  Ala Asp Cys
    1355                 1360                 1365
aac cat  gtt gga att aac ttc  atc tat aac gtt ctt  gtc gac ttc      6759
Asn His  Val Gly Ile Asn Phe  Ile Tyr Asn Val Leu  Val Asp Phe
    1370                 1375                 1380
gac gac  gtc cag gag gcc ctt  gcc ggg ttc att gag  agg cac gga      6804
Asp Asp  Val Gln Glu Ala Leu  Ala Gly Phe Ile Glu  Arg His Gly
    1385                 1390                 1395
aag agg  ctt  tgg cga ctt cga  gtg acc g gtaagtgttc tctcggcatt      6852
Lys Arg  Leu Trp Arg Leu Arg  Val Thr
    1400                 1405
gaattcagca atgagctgtg actaacgggt ttcttcggta tattag ct  tct gaa      6906
                                                   Ala Ser Glu
                                                           1410
atc cga atg gtt ctt  gag gac gac gag ggt  aac gtc acc ccc atc       6951
Ile Arg Met Val Leu  Glu Asp Asp Glu Gly  Asn Val Thr Pro Ile
                1415                 1420                 1425
cga tgc tgc att gag  aac gtt  tctggtaagcagtc caaaataact             6996
Arg Cys Cys Ile Glu  Asn Val  Ser
                1430
gataatccta ttcagtctag acattgtaac tgatgcattt ctcgttctta g gt  ttc    7052
                                                         Gly Phe
                                                             1435
gtc gtg aag tac cac  gcc tac cag gag gtt  gag acc gag aag ggt       7097
Val Val Lys Tyr His  Ala Tyr Gln Glu Val  Glu Thr Glu Lys Gly
                1440                 1445                 1450
act acc atc ttg aag  tca atc gga gac ctt  gga cct ctt cac ctt       7142
Thr Thr Ile Leu Lys  Ser Ile Gly Asp Leu  Gly Pro Leu His Leu
                1455                 1460                 1465
cag cct gtc aac cat  gct tac cag acc aag  aac agt ctt cag ccc       7187
Gln Pro Val Asn His  Ala Tyr Gln Thr Lys  Asn Ser Leu Gln Pro
                1470                 1475                 1480
cga cga tac cag gct  cac ttg gtt gga acg  act tac gtc t             7227
Arg Arg Tyr Gln Ala  His Leu Val Gly Thr  Thr Tyr Val
                1485                 1490
gttagtcaca tttcatgctc  tggttttctg accgtcactg gttattgacg ttctgtttgg    7287
cgtcacag ac  gac  tac ccc gat ctc ttc  gtt cag agt ttg cgc  aag       7333
         Tyr Asp  Tyr Pro Asp Leu Phe  Val Gln Ser Leu Arg  Lys
             1495                 1500                 1505
gtt tgg gct gag  gct gct gct aag att  cct cac ctc cgg gtg  cct        7378
Val Trp Ala Glu  Ala Ala Ala Lys Ile  Pro His Leu Arg Val  Pro
            1510                 1515                 1520
agc gag cct ctt  acc gct acc gag ttg  gtt ctc gat gag aac  aac        7423
Ser Glu Pro Leu  Thr Ala Thr Glu Leu  Val Leu Asp Glu Asn  Asn
            1525                 1530                 1535
gag ctt cag gag  gtc gag cga cct ccg  ggt tcc aac tcg tgt  ggt        7468
Glu Leu Gln Glu  Val Glu Arg Pro Pro  Gly Ser Asn Ser Cys  Gly
            1540                 1545                 1550
atg gtc gcc tgg  atc ttc act atg ctc  act ccc gag tat ccc  aag        7513
Met Val Ala Trp  Ile Phe Thr Met Leu  Thr Pro Glu Tyr Pro  Lys
            1555                 1560                 1565
ggt cga cga gta  gtt gcc att gcc aac  gat atc acc ttc aag  att        7558
Gly Arg Arg Val  Val Ala Ile Ala Asn  Asp Ile Thr Phe Lys  Ile
            1570                 1575                 1580
gga tcc ttt ggt  cct aag gaa gac gat  tac ttc ttc aag gct  act        7603
Gly Ser Phe Gly  Pro Lys Glu Asp Asp  Tyr Phe Phe Lys Ala  Thr
            1585                 1590                 1595
gaa att gcc aag  aag ctg ggc ctt cct  cga att tac ctc tct  gcc        7648
Glu Ile Ala Lys  Lys Leu Gly Leu Pro  Arg Ile Tyr Leu Ser  Ala
            1600                 1605                 1610
aac agt gga gct  aga ctc ggt atc gcg  gag gag ctc ttg cac  atc        7693
Asn Ser Gly Ala  Arg Leu Gly Ile Ala  Glu Glu Leu Leu His  Ile
            1615                 1620                 1625
ttc aag gcg gcc  ttc gtt gac ccc gca  aag cct tcc atg ggt  att        7738
Phe Lys Ala Ala  Phe Val Asp Pro Ala  Lys Pro Ser Met Gly  Ile
            1630                 1635                 1640
aag tat cta tac  ttg acc cct gaa act  tta tcc act ctt gcc  aag        7783
Lys Tyr Leu Tyr  Leu Thr Pro Glu Thr  Leu Ser Thr Leu Ala  Lys
            1645                 1650                 1655
aag gga tcc agc  gtc acc act gag gag  atc gag gat gac ggc  gag        7828
Lys Gly Ser Ser  Val Thr Thr Glu Glu  Ile Glu Asp Asp Gly  Glu
            1660                 1665                 1670
cga cga cac aag  atc acc gcc atc atc  ggt ctt gca gag ggt  ttg        7873
Arg Arg His Lys  Ile Thr Ala Ile Ile  Gly Leu Ala Glu Gly  Leu
            1675                 1680                 1685
gga gtt gag tct  ctt cga gga tcc ggt  ctt att gct gga gcc  acc        7918
Gly Val Glu Ser  Leu Arg Gly Ser Gly  Leu Ile Ala Gly Ala  Thr
            1690                 1695                 1700
act cga gct tac  gag gag gga atc ttc  acc atc tct ctc gtt  act        7963
Thr Arg Ala Tyr  Glu Glu Gly Ile Phe  Thr Ile Ser Leu Val  Thr
            1705                 1710                 1715
gcc cga tcg gtc  ggt atc gga gct tac  ttg gtt cga ttg ggt  cag        8008
Ala Arg Ser Val  Gly Ile Gly Ala Tyr  Leu Val Arg Leu Gly  Gln
            1720                 1725                 1730
cga gct att cag  gtt gaa ggc aac cct  atg atc ctt act gga  gct    8053
Arg Ala Ile Gln  Val Glu Gly Asn Pro  Met Ile Leu Thr Gly  Ala
            1735                 1740                 1745
cag tct ctc aac  aag gtg ctt gga cga  gag gtt tac act tcc  aac    8098
Gln Ser Leu Asn  Lys Val Leu Gly Arg  Glu Val Tyr Thr Ser  Asn
            1750                 1755                 1760
ctt cag ctt gga  gga acc cag att atg  gcc cga aac ggt acc  acg    8143
Leu Gln Leu Gly  Gly Thr Gln Ile Met  Ala Arg Asn Gly Thr  Thr
            1765                 1770                 1775
cat ctc gtc gct  gaa tct gat ctc gat  ggt gct ctc aag gtc  atc    8188
His Leu Val Ala  Glu Ser Asp Leu Asp  Gly Ala Leu Lys Val  Ile
            1780                 1785                 1790
cag tgg ctc tcg  tat gtg ccc gag cga  aag ggc aag gcc att  cct    8233
Gln Trp Leu Ser  Tyr Val Pro Glu Arg  Lys Gly Lys Ala Ile  Pro
            1795                 1800                 1805
atc tgg cct tcc  gag gac cct tgg gac  cga act gtg acc tac  gag    8278
Ile Trp Pro Ser  Glu Asp Pro Trp Asp  Arg Thr Val Thr Tyr  Glu
            1810                 1815                 1820
cct ccc ega ggt  cct tac gat cct cga  tgg ttg ctt gaa gga  aag    8323
Pro Pro Arg Gly  Pro Tyr Asp Pro Arg  Trp Leu Leu Glu Gly  Lys
            1825                 1830                 1835
ccg gat gaa ggc  ttg act ggt ctt ttc  gac aag gga tct ttc  atg    8368
Pro Asp Glu Gly  Leu Thr Gly Leu Phe  Asp Lys Gly Ser Phe  Met
            1840                 1845                 1850
gag acc ctt gga  gat tgg gcc aag act  atc gtc acc ggt cga  gcc    8413
Glu Thr Leu Gly  Asp Trp Ala Lys Thr  Ile Val Thr Gly Arg  Ala
            1855                 1860                 1865
cga ctg gga ggc  att cct atg ggt gtt  att gct gtc gaa acc  agg    8458
Arg Leu Gly Gly  Ile Pro Met Gly Val  Ile Ala Val Glu Thr  Arg
            1870                 1875                 1880
acg acc gag aag  atc atc gct gcc gat  cct gcc aac cct gca  gct    8503
Thr Thr Glu Lys  Ile Ile Ala Ala Asp  Pro Ala Asn Pro Ala  Ala
            1885                 1890                 1895
ttc gag caa aag  att atg gag gct ggt  cag gtt tgg aac ccc  aac    8548
Phe Glu Gln Lys  Ile Met Glu Ala Gly  Gln Val Trp Asn Pro  Asn
            1900                 1905                 1910
gct gct tac aag  acc gct caa tcc atc  ttt gat atc aac aag  gag    8593
Ala Ala Tyr Lys  Thr Ala Gln Ser Ile  Phe Asp Ile Asn Lys  Glu
            1915                 1920                 1925
ggt ctt cct ttg  atg atc ctt gcc aac  atc cga ggt ttc tct  gga    8638
Gly Leu Pro Leu  Met Ile Leu Ala Asn  Ile Arg Gly Phe Ser  Gly
            1930                 1935                 1940
gga cag ggt gat  atg ttt gac gct atc  ctc aag cag ggt tct  aag    8683
Gly Gln Gly Asp  Met Phe Asp Ala Ile  Leu Lys Gln Gly Ser  Lys
            1945                 1950                 1955
atc gtt gac ggt  ctc tcg aac ttc aag  cag cca gtg ttc gtc  tat    8728
Ile Val Asp Gly  Leu Ser Asn Phe Lys  Gln Pro Val Phe Val  Tyr
            1960                 1965                 1970
gtt gtc ccc aac  gga gag ctt cgt gga  gga gct tgg gtc gtg  ttg    8773
Val Val Pro Asn  Gly Glu Leu Arg Gly  Gly Ala Trp Val Val  Leu
            1975                 1980                 1985
gat cct act atc  aac ctt gcc aag atg  gag atg tac gct gat  gaa    8818
Asp Pro Thr Ile  Asn Leu Ala Lys Met  Glu Met Tyr Ala Asp  Glu
            1990                 1995                 2000
acc gct cga gga  gga att ctc gag ccg  gaa ggt atc gtt gag  atc        8863
Thr Ala Arg Gly  Gly Ile Leu Glu Pro  Glu Gly Ile Val Glu  Ile
            2005                 2010                 2015
aag ttc cga cga  gac aag gtc atc gct  acc atg gag cga ttg  gac        8908
Lys Phe Arg Arg  Asp Lys Val Ile Ala  Thr Met Glu Arg Leu  Asp
            2020                 2025                 2030
gag acc tat gcc  tct ctc aaa gct gcc  tcg aac gac tca acc  aag        8953
Glu Thr Tyr Ala  Ser Leu Lys Ala Ala  Ser Asn Asp Ser Thr  Lys
            2035                 2040                 2045
tct gcg gag gag  cga gct aag agt gct  gag cta ctc aag gca  aga        8998
Ser Ala Glu Glu  Arg Ala Lys Ser Ala  Glu Leu Leu Lys Ala  Arg
            2050                 2055                 2060
gag act cta ctt  caa ccg acg tac ttg  cag att gca cac ctt  tac        9043
Glu Thr Leu Leu  Gln Pro Thr Tyr Leu  Gln Ile Ala His Leu  Tyr
            2065                 2070                 2075
gct gat ctc cat  gat cgt gtc gga cga  atg gag gcc aag ggt  tgc        9088
Ala Asp Leu His  Asp Arg Val Gly Arg  Met Glu Ala Lys Gly  Cys
            2080                 2085                 2090
gcg aag cga gct  gtc tgg gct gag gct  cga cga ttc ttc tac  tgg        9133
Ala Lys Arg Ala  Val Trp Ala Glu Ala  Arg Arg Phe Phe Tyr  Trp
            2095                 2100                 2105
cga ctt cga cga  cgt ctc aac gat gag  gtgagccgtc ccattcactc           9180
Arg Leu Arg Arg  Arg Leu Asn Asp Glu
            2110                 2115
tttcgttgca aggttcagta gtactaaccg cttctttctt tatetatcag cac atc        9236
                                                       His Ile
ctg tct aag  ttc gct gct gcc aac  ccg gat ctt act ctc  gag gag        9281
Leu Ser Lys  Phe Ala Ala Ala Asn  Pro Asp Leu Thr Leu  Glu Glu
        2120                 2125                 2130
cga caa aac  att ctc gac tct gtc  gtc cag act gac ctc  act gat        9326
Arg Gln Asn  Ile Leu Asp Ser Val  Val Gln Thr Asp Leu  Thr Asp
        2135                 2140                 2145
gac cga gcc  acc gct gaa tgg att  gag cag tct gca gaa  gag att        9371
Asp Arg Ala  Thr Ala Glu Trp Ile  Glu Gln Ser Ala Glu  Glu Ile
        2150                 2155                 2160
gct gct gcc  gtt gcc gaa gtc cga  tcc acc tac gtg tcg  aat aag        9416
Ala Ala Ala  Val Ala Glu Val Arg  Ser Thr Tyr Val Ser  Asn Lys
        2165                 2170                 2175
att atc agc  ttc gcc gag acg gag  cga gct gga gcg ttg  cag ggc        9461
Ile Ile Ser  Phe Ala Glu Thr Glu  Arg Ala Gly Ala Leu  Gln Gly
        2180                 2185                 2190
ttg gtc gct  gtc ttg agc act ttg  aat gcg gaa gac aag  aag gcc        9506
Leu Val Ala  Val Leu Ser Thr Leu  Asn Ala Glu Asp Lys  Lys Ala
        2195                 2200                 2205
ctt gtt tct  agc ctt ggt ctc taa  attttaattt tttttgtcga tgctattctt    9560
Leu Val Ser  Ser Leu Gly Leu
        2210
cctatcttta gtctttgatt aacttttgaa  tatccttcat agatctttcc ttgcatacat    9620
tgatattatt tcctcacccg tttttatgta cttccatacg agtttccatt tttttctgct     9680
tttatatttc gactacacgt cgactgttca cctgcctctc ttttgttctt tctgttctgt     9740
tttcttctgt tctttcgcct cttgggattc tatattctcc ttcgcattta catatgctca     9800
tgttaatgtc tgactcagag ttcactagga tatgtcgtga gagcccgaaa caagttgcac     9860
aacatatatt gataatgatc agaacactct aagaccaccc agtccatgat cagccgcatc     9920
gccagtttcg atctcttctc cattctcatc aacctcaatc tcctcccgga tcgtcctgcc     9980
cagcagactg ccgaataact cgtcgacctg ctcctcctgc cacaagtctt ccgttcgctc    10040
aggaaccatg aagttcatga tcttttcttg gggggtatat cgaagcttgc gacctttaga    10100
agctcgtgta tcgagggtgg gcttgtgctt tttgggtccg taattggaaa aggttgcttg    10160
gcctatttca aaataaacga aattgatgat tatacaccgc cgtagaccgt ttctggtcag    10220
gattttgtgt tggacgatga tataccgatc gatgtttgag cagacaaggg agttaggaag    10280
agactactta ccactcatag cgccgactcc agcacctcca cctcttcgct cgatgacgtc    10340
tctgaccaag ctctggtaaa actctttgtc atcaccccaa acggcggcct cacattcagc    10400
ctcatcctga gagacgagtc ccatgaaccg atctactttt ttcctaccct ctagaccctc    10460
aagggaagct ccaatttgct cgacgactcc gatcttgacg gatttaaact tttcacctcg    10520
aagattctga aggccttgag cggtcataat cttggaagac c                        10561
<210>2
<211>6645
<212>DNA
<213>Phaffia rhodozyma
<220>
<221>CDS
<222>(1)..(6645)
<400>2
atg gtt gtc gat cac gag agc gta agg cat ttc atc ggt gga aac gca     48
Met Val Val Asp His Glu Ser Val Arg His Phe Ile Gly Gly Asn Ala
1               5                   10                  15
ctt gag aac gcc cct ccg tca agc gtc acc gat ttc gtt aga agt caa     96
Leu Glu Asn Ala Pro Pro Ser Ser Val Thr Asp Phe Val Arg Ser Gln
            20                  25                  30
gat ggt cac acg gtc atc acc aaa gtc ctc att gcc aac aac gga atc    144
Asp Gly His Thr Val Ile Thr Lys Val Leu Ile Ala Asn Asn Gly Ile
        35                  40                  45
gct gct gta aaa gag atc cga tca gtt cgt aaa tgg gct tac gag acg    192
Ala Ala Val Lys Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr
    50                  55                  60
ttt gga gat gag cga gcc atc gaa ttt acg gta atg gcc act cca gaa    240
Phe Gly Asp Glu Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu
65                  70                  75                  80
gat ttg aag gtg aac tgc gac tat att cga atg gct gat cga gtc gtc    288
Asp Leu Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg Val Val
                85                  90                  95
gaa gtt cct gga gga act aac aac aac aat cac tct aac gtc gac ctc     336
Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val Asp Leu
            100                 105                 110
atc gtt gac att gcc gag cga ttc aat ata cat gct gtt tgg gct gga     384
Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp Ala Gly
        115                 120                 125
tgg ggt cac gct tcg gaa aac ccc aga ctt ccc gag tct ctc gcc gcc     432
Trp Gly His Ala Ser Glu Asn Pro Arg Leu Pro Glu Ser Leu Ala Ala
    130                 135                 140
tca aag aac aag atc gtc ttc att ggt cct ccc gga tcc gct atg cga     480
Ser Lys Asn Lys Ile Val Phe Ile Gly Pro Pro Gly Ser Ala Met Arg
145                 150                 155                 160
tcc ctt gga gac aag att tct tcg acc atc gtt gcc cag tct gcc cag     528
Ser Leu Gly Asp Lys Ile Ser Ser Thr Ile Val Ala Gln Ser Ala Gln
                165                 170                 175
gtg ccg tgt atg gcc tgg tct gga tca ggc atc act gat aca gag ctc     576
Val Pro Cys Met Ala Trp Ser Gly Ser Gly Ile Thr Asp Thr Glu Leu
            180                 185                 190
agc cct cag ggc ttc gtg act gtg ccc gat ggg cca tat cag gct gct     624
Ser Pro Gln Gly Phe Val Thr Val Pro Asp Gly Pro Tyr Gln Ala Ala
        195                 200                 205
tgt gta aag acg gtg gag gat ggt ttg gtg cga gcc gag aag atc ggt     672
Cys Val Lys Thr Val Glu Asp Gly Leu Val Arg Ala Glu Lys Ile Gly
    210                 215                 220
ttg cca gtt atg atc aag gcc tct gag gga gga gga gga aag ggt atc     720
Leu Pro Val Met Ile Lys Ala Ser Glu Gly Gly Gly Gly Lys Gly Ile
225                 230                 235                 240
cga atg gtt cac agc atg gac aca ttc aag aac tcc tac aac tcc gtc     768
Arg Met Val His Ser Met Asp Thr Phe Lys Asn Ser Tyr Asn Ser Val
                245                 250                 255
gct tcc gag gtg cca gga tct ccg att ttc atc atg gcc ttg gct gga     816
Ala Ser Glu Val Pro Gly Ser Pro Ile Phe Ile Met Ala Leu Ala Gly
            260                 265                 270
tct gct cga cat ttg gag gtc cag ctc ctt gct gat cag tac gga aac     864
Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp Gln Tyr Gly Asn
        275                 280                 285
gct atc tct ttg ttc ggt cga gat tgc tct gtt cag cga cga cat cag     912
Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln Arg Arg His Gln
    290                 295                 300
aag atc att gag gag gct ccc gtc acg atc gct cgt cca gag aga ttc     960
Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg Pro Glu Arg Phe
305                 310                 315                 320
gaa gag atg gag aag gct gct gtc agg ttg gcc aag tta gta gga tat    1008
Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys Leu Val Gly Tyr
                325                 330                 335
gtt agt gcc ggt acc gtc gaa tac ctc tac tct cac gcc gac gac tca    1056
Val Ser Ala Gly Thr Val Glu Tyr Leu Tyr Ser His Ala Asp Asp Ser
            340                 345                 350
ttc ttc ttc ctc gaa ctc aac cct cga ctt caa gtc gag cac cct act    1104
Phe Phe Phe Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr
        355                 360                 365
acc gag atg gtc tcg ggt gtc aac ctt ccc gct gct cag ctt cag att    1152
Thr Glu Met Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile
    370                 375                 380
gct atg ggt atc cct ctt tct cga att cgg gat att cga gtc ctc tac    1200
Ala Met Gly Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr
385                 390                 395                 400
ggt ctc gat ccc cac act gtt tcc gag atc gac ttc gac agc agc aga    1248
Gly Leu Asp Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg
                405                 410                 415
gcg gag tct gtc cag act cag agg aag cct agg ccc aag ggt cac gtc    1296
Ala Glu Ser Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val
            420                 425                 430
att gcc tgt cga atc acg agt gaa aac ccc gat gag ggg ttc aag ccg    1344
Ile Ala Cys Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro
         435                 440                 445
tct gcc gga gat atc caa gag ttg aac ttc aga agt aat act aac gtc    1392
Ser Ala Gly Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val
    450                 455                 460
tgg gga tac ttc tct gtt gga gct act gga gga att cat agt ttc gcc    1440
Trp Gly Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser Phe Ala
465                 470                 475                 480
gat tct caa ttc ggt cac gtg ttt gct tat ggc tcc gac cga acg act    1488
Asp Ser Gln Phe Gly His Val Phe Ala Tyr Gly Ser Asp Arg Thr Thr
                485                 490                 495
gcc aga aag aat atg gtt atc gcc ttg aaa gag ctt tcc att cga gga    1536
Ala Arg Lys Asn Met Val Ile Ala Leu Lys Glu Leu Ser Ile Arg Gly
            500                 505                 510
gac ttc cga acc act gtc gag tat ctt atc act ctt ctt gag acg agc    1584
Asp Phe Arg Thr Thr Val Glu Tyr Leu Ile Thr Leu Leu Glu Thr Ser
        515                 520                 525
gat ttc gag cag aac gcc att acc acc gct tgg ttg gat ggg ttg atc    1632
Asp Phe Glu Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile
    530                 535                 540
act aac aag ctt aca tct gag agg cct gat cea tca ctg gcc gtt att    1680
Thr Asn Lys Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile
545                 550                 555                 560
tgt ggt gca att gtg aaa gct cac gtg gct tct gag aac tgt tgg gcc    1728
Cys Gly Ala Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala
                565                 570                 575
gaa tac cga cga gta ttg gac aag gga cag gtt ccc tcc aag gac act    1776
Glu Tyr Arg Arg Val Leu Asp Lys Gly Gln Val Pro Ser Lys Asp Thr
            580                 585                 590
ctc aag aca gtg ttc act ctt gat ttc atc tat gag ggt gtt cgg tac    1824
Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg Tyr
        595                 600                 605
aat ttc acc gct gct cga gcc tcc ctc aac act tac cga ttg tat cta    1872
Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr Leu
    610                 615                 620
aac gga gga aag acc gtg gtg tcc atc cga cct ttg gcc gat ggt gga    1920
Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly Gly
625                 630                 635                 640
atg ctc gtt ctt ctc gat ggc cga tcc cac act ctc tac tgg agg gag    1968
Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg Glu
                645                 650                 655
gaa gtc ggt acc ctc cga att cag gta gac gca aag act tgc ctg att    2016
Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu Ile
            660                 665                 670
gag cag gag aac gac ccc act cag ctc cga tca ccc tcg cct gga aag    2064
Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly Lys
        675                 680                 685
atc atc cgg ttt ttg gtc gaa agc gga gat cac atc tcc tcc gga gat    2112
Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly Asp
    690                 695                 700
atc tat gct gag gtt gag gtc atg aag atg atc ttg ccc ttg att gcc    2160
Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile Ala
705                 710                 715                 720
cag gag tcc ggt cac gtt cag ttt gtc aag caa gcc ggt gtg acc gtc    2208
Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr Val
                725                 730                 735
gat cct gga gcg att att ggg atc ttg agt ctt gat gac cct acg cga    2256
Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr Arg
            740                 745                 750
gtg aag aag gcg aag ccc ttc gag ggt ctc ctg cct gtg act ggt ctc    2304
Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly Leu
        755                 760                 765
cct aac ctg ccc ggt aac aga cct cac cag cgg cta cag ttc cag ctt    2352
Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln Leu
    770                 775                 780
gag tcg ata tac tcg gtc ttg gat gga tac gag agt gac tcc act gca    2400
Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr Ala
785                 790                 795                 800
aca atc ctc cga tca ttc tct gaa aac ctt tat gat cct gat ctt gct    2448
Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu Ala
                805                 810                 815
ttc gga gag gct tta tcc atc att tcc gtc ctt tct ggg aga atg cct    2496
Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met Pro
            820                 825                 830
gcc gat ctt gag gag agc att cga gag gtc atc agc gaa gct cag tcg    2544
Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln Ser
        835                 840                 845
aag cct cac gcc gag ttc cct gga tca aag atc ctc aaa gtc gtc gag    2592
Lys Pro His Ala Glu Phe Pro Gly Ser Lys Ile Leu Lys Val Val Glu
    850                 855                 860
cgg tac atc gat aat ttg cga cct cag gag agg gct atg gtc cga act    2640
Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala Met Val Arg Thr
865                 870                 875                 880
cag atc gaa ccc atc gtt ggt att gct gag aag aac gtt ggc ggt cct    2688
Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn Val Gly Gly Pro
                885                 890                 895
aag ggt tac gcc tct tac gtc tta gct acc atc ctt caa aag ttc ttg    2736
Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu Gln Lys Phe Leu
            900                 905                 910
gcc gtt gag gcc gtt ttt gct act ggt agt gaa gag gcc att gtt ctc    2784
Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu Ala Ile Val Leu
        915                 920                 925
caa ctt cga gat gaa aac cga gaa tct ttg aac gac gtc ctt ggt ctc    2832
Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp Val Leu Gly Leu
    930                 935                 940
gtc ctg gct cac tcg cgt ctc agc gct cga tcc aag ctt gtt ctc tcc    2880
Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys Leu Val Leu Ser
945                 950                 955                 960
gtc ttt gat ctg atc aag tct atg cag ctc ctc aac aac act gag ggt    2928
Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn Asn Thr Glu Gly
                965                 970                 975
tct ttc ctt cat aag act atg aaa gcg ctt gcc gac atg ccc acc aag    2976
Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp Met Pro Thr Lys
            980                 985                 990
gct cct ttg gcc agc aag gtg tct  ttg aag gct cgg gaa  att ctt atc  3024
Ala Pro Leu Ala Ser Lys Val Ser  Leu Lys Ala Arg Glu  Ile Leu Ile
        995                 1000                 1005
tct tgc  tct ctt ccc tct tac  gag gag agg ttg ttc  cag atg gaa     3069
Ser Cys  Ser Leu Pro Ser Tyr  Glu Glu Arg Leu Phe  Gln Met Glu
    1010                 1015                 1020
aag atc  ctt aac tct tct gtc  acc act tct tac tac  gga gag act     3114
Lys Ile  Leu Asn Ser Ser Val  Thr Thr Ser Tyr Tyr  Gly Glu Thr
    1025                 1030                 1035
gga ggt  gga cac aga aac cct  tcg gtt gat gtt ctg  act gag atc     3159
Gly Gly  Gly His Arg Asn Pro  Ser Val Asp Val Leu  Thr Glu Ile
    1040                 1045                 1050
tca aac  tct cga ttc acc gtc  tac gat gtc ctg tcc  tcc ttc ttc     3204
Ser Asn  Ser Arg Phe Thr Val  Tyr Asp Val Leu Ser  Ser Phe Phe
    1055                 1060                 1065
aag cac  gat gat cct tgg att  gtt ctt gct agt ttg  acc gtc tac     3249
Lys His  Asp Asp Pro Trp Ile  Val Leu Ala Ser Leu  Thr Val Tyr
    1070                 1075                 1080
gtt ctt  cga gct tac cga gag  tac agt att ctt gat  atg caa cat     3294
Val Leu  Arg Ala Tyr Arg Glu  Tyr Ser Ile Leu Asp  Met Gln His
    1085                 1090                 1095
gag caa  ggt cag gat ggc gct  gct gga gtc atc act  tgg cga ttc     3339
Glu Gln  Gly Gln Asp Gly Ala  Ala Gly Val Ile Thr  Trp Arg Phe
    1100                 1105                 1110
aag ctc  aac cag ccc atc gct  gag tct tct act ccc  cga gtt gac     3384
Lys Leu  Asn Gln Pro Ile Ala  Glu Ser Ser Thr Pro  Arg Val Asp
    1115                 1120                 1125
tcg aat  cga gac gtt tac cga  gtc ggt tcg ctt tct  gat ttg acc     3429
Ser Asn  Arg Asp Val Tyr Arg  Val Gly Ser Leu Ser  Asp Leu Thr
    1130                 1135                 1140
tac aag  atc aag cag agt cag  acc gag ccc ctc cga  gct ggt gtc     3474
Tyr Lys  Ile Lys Gln Ser Gln  Thr Glu Pro Leu Arg  Ala Gly Val
    1145                 1150                 1155
atg acg  agc ttc aac aac ttg  aag gag gtt cag gac  gga ctc ttg     3519
Met Thr  Ser Phe Asn Asn Leu  Lys Glu Val Gln Asp  Gly Leu Leu
    1160                 1165                 1170
aat gtt  ctg tct ttc ttc cct  gct tac cat cat caa  gat ttc act     3564
Asn Val  Leu Ser Phe Phe Pro  Ala Tyr His His Gln  Asp Phe Thr
    1175                 1180                 1185
caa cga  cat ggt cag gac agt  gcc atg ccc aac gtt  ctc aac att    3609
Gln Arg  His Gly Gln Asp Ser  Ala Met Pro Asn Val  Leu Asn Ile
    1190                 1195                 1200
gct atc  cgg gct ttc gag gag  aag gac gac atg tct  gat ctt gat    3654
Ala Ile  Arg Ala Phe Glu Glu  Lys Asp Asp Met Ser  Asp Leu Asp
    1205                 1210                 1215
tgg gcc  aag agt gtt gag tcg  ctg gta atg cag atg  tct gcc gag    3699
Trp Ala  Lys Ser Val Glu Ser  Leu Val Met Gln Met  Ser Ala Glu
    1220                 1225                 1230
atc cag  aag aag gga att cga  cga gtt acc ttc ttg  gtt tgc cga    3744
Ile Gln  Lys Lys Gly Ile Arg  Arg Val Thr Phe Leu  Val Cys Arg
    1235                 1240                 1245
aag ggc  gtt tac ccc tcc tac  ttc acc ttc aga caa  gag ggt gcc    3789
Lys Gly  Val Tyr Pro Ser Tyr  Phe Thr Phe Arg Gln  Glu Gly Ala
    1250                 1255                 1260
cag ggc  ccc tgg aga gag gag  gag aag att cga aac  atc gag cct    3834
Gln Gly  Pro Trp Arg Glu Glu  Glu Lys Ile Arg Asn  Ile Glu Pro
    1265                 1270                 1275
gct cta  gcc agt cag ctt gag  ctc aac cga ctc tcg  aat ttc aag    3879
Ala Leu  Ala Ser Gln Leu Glu  Leu Asn Arg Leu Ser  Asn Phe Lys
    1280                 1285                 1290
gtc acc  cct atc ttc gta gac  aac aga cag atc cac  atc tac aag    3924
Val Thr  Pro Ile Phe Val Asp  Asn Arg Gln Ile His  Ile Tyr Lys
    1295                 1300                 1305
gga gtg  ggt aag gag aac tct  tcc gat gtt cga ttc  ttt atc cgg    3969
Gly Val  Gly Lys Glu Asn Ser  Ser Asp Val Arg Phe  Phe Ile Arg
    1310                 1315                 1320
gct ttg  gtt cga cct gga cgg  gtc cag gga tcg atg  aag gct gcc    4014
Ala Leu  Val Arg Pro Gly Arg  Val Gln Gly Ser Met  Lys Ala Ala
    1325                 1330                 1335
gag tat  ctc atc tcc gag tgc  gat cga ctg ctc act  gat atc ctg    4059
Glu Tyr  Leu Ile Ser Glu Cys  Asp Arg Leu Leu Thr  Asp Ile Leu
    1340                 1345                 1350
gac gcc  ttg gag gtt gtt gga  gcc gag act cga aac  gcc gat tgc    4104
Asp Ala  Leu Glu Val Val Gly  Ala Glu Thr Arg Asn  Ala Asp Cys
    1355                 1360                 1365
aac cat  gtt gga att aac ttc  atc tat aac gtt ctt  gtc gac ttc    4149
Asn His  Val Gly Ile Asn Phe  Ile Tyr Asn Val Leu  Val Asp Phe
    1370                 1375                 1380
gac gac  gtc cag gag gcc ctt  gcc ggg ttc att gag  agg cac gga    4194
Asp Asp  Val Gln Glu Ala Leu  Ala Gly Phe Ile Glu  Arg His Gly
    1385                 1390                 1395
aag agg  ctt tgg cga ctt cga  gtg acc gct tct gaa  atc cga atg    4239
Lys Arg  Leu Trp Arg Leu Arg  Val Thr Ala Ser Glu  Ile Arg Met
    1400                 1405                 1410
gtt ctt  gag gac gac gag ggt  aac gtc acc ccc atc  cga tgc tgc    4284
Val Leu  Glu Asp Asp Glu Gly  Asn Val Thr Pro Ile  Arg Cys Cys
    1415                 1420                 1425
att gag  aac gtt tct ggt ttc  gtc gtg aag tac cac  gcc tac cag    4329
Ile Glu  Asn Val Ser Gly Phe  Val Val Lys Tyr His  Ala Tyr Gln
    1430                 1435                 1440
gag gtt gag acc gag aag ggt  act a cc atc ttg aag  tca atc gga    4374
Glu Val  Glu Thr Glu Lys Gly  Thr Thr Ile Leu Lys  Ser Ile Gly
    1445                 1450                 1455
gac ctt  gga cct ctt cac ctt  cag cct gtc aac cat  gct tac cag    4419
Asp Leu  Gly Pro Leu His Leu  Gln Pro Val Asn His  Ala Tyr Gln
    1460                 1465                 1470
acc aag  aac agt ctt cag ccc  cga cga tac cag gct  cac ttg gtt    4464
Thr Lys  Asn Ser Leu Gln Pro  Arg Arg Tyr Gln Ala  His Leu Val
    1475                 1480                 1485
gga acg  act tac gtc tac gac  tac ccc gat ctc ttc  gtt cag agt    4509
Gly Thr  Thr Tyr Val Tyr Asp  Tyr Pro Asp Leu Phe  Val Gln Ser
    1490                 1495                 1500
ttg cgc  aag gtt tgg gct gag  gct gct gct aag att  cct cac ctc    4554
Leu Arg  Lys Val Trp Ala Glu  Ala Ala Ala Lys Ile  Pro His Leu
    1505                 1510                 1515
cgg gtg  cct agc gag cct ctt  acc gct acc gag ttg  gtt ctc gat    4599
Arg Val  Pro Ser Glu Pro Leu  Thr Ala Thr Glu Leu  Val Leu Asp
    1520                 1525                 1530
gag aac  aac gag ctt cag gag  gtc gag cga cct ccg  ggt tcc aac    4644
Glu Asn  Asn Glu Leu Gln Glu  Val Glu Arg Pro Pro  Gly Ser Asn
    1535                 1540                 1545
tcg tgt  ggt atg gtc gcc tgg  atc ttc act atg ctc  act ccc gag    4689
Ser Cys  Gly Met Val Ala Trp  Ile Phe Thr Met Leu  Thr Pro Glu
    1550                 1555                 1560
tat ccc  aag ggt cga cga gta  gtt gcc att gcc aac  gat atc acc    4734
Tyr Pro  Lys Gly Arg Arg Val  Val Ala Ile Ala Asn  Asp Ile Thr
    1565                 1570                 1575
ttc aag  att gga tcc ttt ggt  cct aag gaa gac gat  tac ttc ttc    4779
Phe Lys  Ile Gly Ser Phe Gly  Pro Lys Glu Asp Asp  Tyr Phe Phe
    1580                 1585                 1590
aag gct  act gaa att gcc aag  aag ctg ggc ctt cct  cga att tac    4824
Lys Ala  Thr Glu Ile Ala Lys  Lys Leu Gly Leu Pro  Arg Ile Tyr
    1595                 1600                 1605
ctc tct  gcc aac agt gga gct  aga ctc ggt atc gcg  gag gag ctc    4869
Leu Ser  Ala Asn Ser Gly Ala  Arg Leu Gly Ile Ala  Glu Glu Leu
    1610                 1615                 1620
ttg cac  atc ttc aag gcg gcc  ttc gtt gac ccc gca  aag cct tcc    4914
Leu His  Ile Phe Lys Ala Ala  Phe Val Asp Pro Ala  Lys Pro Ser
    1625                 1630                 1635
atg ggt  att aag tat cta tac  ttg acc cct gaa act  tta tcc act    4959
Met Gly  Ile Lys Tyr Leu Tyr  Leu Thr Pro Glu Thr  Leu Ser Thr
    1640                 1645                 1650
ctt gcc  aag aag gga tcc agc  gtc acc act gag gag  atc gag gat    5004
Leu Ala  Lys Lys Gly Ser Ser  Val Thr Thr Glu Glu  Ile Glu Asp
    1655                 1660                 1665
gac ggc  gag cga cga cac aag  atc acc gcc atc atc  ggt ctt gca    5049
Asp Gly  Glu Arg Arg His Lys  Ile Thr Ala Ile Ile  Gly Leu Ala
    1670                 1675                 1680
gag ggt  ttg gga gtt gag tct  ctt cga gga tcc ggt  ctt att gct    5094
Glu Gly  Leu Gly Val Glu Ser  Leu Arg Gly Ser Gly  Leu Ile Ala
    1685                 1690                 1695
gga gcc  acc act cga gct tac  gag gag gga atc ttc  acc atc tct    5139
Gly Ala  Thr Thr Arg Ala Tyr  Glu Glu Gly Ile Phe  Thr Ile Ser
    1700                 1705                 1710
ctc gtt  act gcc cga tcg gtc  ggt atc gga gct tac  ttg gtt cga    5184
Leu Val  Thr Ala Arg Ser Val  Gly Ile Gly Ala Tyr  Leu Val Arg
    1715                 1720                 1725
ttg ggt  cag cga gct att cag  gtt gaa ggc aac cct  atg atc ctt    5229
Leu Gly  Gln Arg Ala Ile Gln  Val Glu Gly Asn Pro  Met Ile Leu
    1730                 1735                 1740
act gga  gct cag tct ctc aac  aag gtg ctt gga cga  gag gtt tac    5274
Thr Gly  Ala Gln Ser Leu Asn  Lys Val Leu Gly Arg  Glu Val Tyr
    1745                 1750                 1755
act tcc  aac ctt cag ctt gga  gga acc cag att atg  gcc cga aac    5319
Thr Ser  Asn Leu Gln Leu Gly  Gly Thr Gln Ile Met  Ala Arg Asn
    1760                 1765                 1770
ggt acc  acg cat ctc gtc gct  gaa tct gat ctc gat  ggt gct ctc    5364
Gly Thr  Thr His Leu Val Ala  Glu Ser Asp Leu Asp  Gly Ala Leu
    1775                 1780                 1785
aag gtc  atc cag tgg ctc tcg  tat gtg ccc gag cga  aag ggc aag    5409
Lys Val  Ile Gln Trp Leu Ser  Tyr Val Pro Glu Arg  Lys Gly Lys
    1790                 1795                 1800
gcc att  cct atc tgg cct tcc  gag gac cct tgg gac  cga act gtg    5454
Ala Ile  Pro Ile Trp Pro Ser  Glu Asp Pro Trp Asp  Arg Thr Val
    1805                 1810                 1815
acc tac  gag cct ccc cga ggt  cct tac gat cct cga  tgg ttg ctt    5499
Thr Tyr  Glu Pro Pro Arg Gly  Pro Tyr Asp Pro Arg  Trp Leu Leu
    1820                 1825                 1830
gaa gga  aag ccg gat gaa ggc  ttg act ggt ctt ttc  gac aag gga    5544
Glu Gly  Lys Pro Asp Glu Gly  Leu Thr Gly Leu Phe  Asp Lys Gly
    1835                 1840                 1845
tct ttc  atg gag acc ctt gga  gat tgg gcc aag act  atc gtc acc    5589
Ser Phe  Met Glu Thr Leu Gly  Asp Trp Ala Lys Thr  Ile Val Thr
    1850                 1855                 1860
ggt cga  gcc cga ctg gga ggc  att cct atg ggt gtt  att gct gtc    5634
Gly Arg  Ala Arg Leu Gly Gly  Ile Pro Met Gly Val  Ile Ala Val
    1865                 1870                 1875
gaa acc  agg acg acc gag aag  atc atc gct gcc gat  cct gcc aac    5679
Glu Thr  Arg Thr Thr Glu Lys  Ile Ile Ala Ala Asp  Pro Ala Asn
    1880                 1885                 1890
cct gca  gct ttc gag caa aag  att atg gag gct ggt  cag gtt tgg    5724
Pro Ala  Ala Phe Glu Gln Lys  Ile Met Glu Ala Gly  Gln Val Trp
    1895                 1900                 1905
aac ccc  aac gct gct tac aag  acc gct caa tcc atc  ttt gat atc    5769
Asn Pro  Asn Ala Ala Tyr Lys  Thr Ala Gln Ser Ile  Phe Asp Ile
    1910                 1915                 1920
aac aag  gag ggt ctt cct ttg  atg atc ctt gcc aac  atc cga ggt    5814
Asn Lys  Glu Gly Leu Pro Leu  Met Ile Leu Ala Asn  Ile Arg Gly
    1925                 1930                 1935
ttc tct  gga gga cag ggt gat  atg ttt gac gct atc  ctc aag cag    5859
Phe Ser  Gly Gly Gln Gly Asp  Met Phe Asp Ala Ile  Leu Lys Gln
    1940                 1945                 1950
ggt tct  aag atc gtt gac ggt  ctc tcg aac ttc aag  cag cca gtg    5904
Gly Ser  Lys Ile Val Asp Gly  Leu Ser Asn Phe Lys  Gln Pro Val
    1955                 1960                 1965
ttc gtc  tat gtt gtc ccc aac  gga gag ctt cgt gga  gga gct tgg    5949
Phe Val  Tyr Val Val Pro Asn  Gly Glu Leu Arg Gly  Gly Ala Trp
    1970                 1975                 1980
gtc gtg  ttg gat cct act atc  aac ctt gcc aag atg  gag atg tac    5994
Val Val  Leu Asp Pro Thr Ile  Asn Leu Ala Lys Met  Glu Met Tyr
    1985                 1990                 1995
gct gat  gaa acc gct cga gga  gga att ctc gag ccg  gaa ggt atc    6039
Ala Asp  Glu Thr Ala Arg Gly  Gly Ile Leu Glu Pro  Glu Gly Ile
    2000                 2005                 2010
gtt gag  atc aag ttc cga cga  gac aag gtc atc gct  acc atg gag    6084
Val Glu  Ile Lys Phe Arg Arg  Asp Lys Val Ile Ala  Thr Met Glu
    2015                 2020                 2025
cga ttg  gac gag acc tat gcc  tct ctc aaa gct gcc  tcg aac gac    6129
Arg Leu  Asp Glu Thr Tyr Ala  Ser Leu Lys Ala Ala  Ser Asn Asp
    2030                 2035                 2040
tca acc  aag tct gcg gag gag  cga gct aag agt gct  gag cta ctc    6174
Ser Thr  Lys Ser Ala Glu Glu  Arg Ala Lys Ser Ala  Glu Leu Leu
    2045                 2050                 2055
aag gca  aga gag act cta ctt  caa ccg acg tac ttg  cag att gca    6219
Lys Ala  Arg Glu Thr Leu Leu  Gln Pro Thr Tyr Leu  Gln Ile Ala
    2060                 2065                 2070
cac ctt  tac gct gat ctc cat  gat cgt gtc gga cga  atg gag gcc    6264
His Leu  Tyr Ala Asp Leu His  Asp Arg Val Gly Arg  Met Glu Ala
    2075                 2080                 2085
aag ggt  tgc gcg aag cga gct  gtc tgg gct gag gct  cga cga ttc    6309
Lys Gly  Cys Ala Lys Arg Ala  Val Trp Ala Glu Ala  Arg Arg Phe
    2090                 2095                 2100
ttc tac  tgg cga ctt cga cga  cgt ctc aac gat gag  cac atc ctg    6354
Phe Tyr  Trp Arg Leu Arg Arg  Arg Leu Asn Asp Glu  His Ile Leu
    2105                 2110                 2115
tct aag  ttc gct gct gcc aac  ccg gat ctt act ctc  gag gag cga    6399
Ser Lys  Phe Ala Ala Ala Asn  Pro Asp Leu Thr Leu  Glu Glu Arg
    2120                 2125                 2130
caa aac  att ctc gac tct gtc  gtc cag act gac ctc  act gat gac    6444
Gln Asn  Ile Leu Asp Ser Val  Val Gln Thr Asp Leu  Thr Asp Asp
    2135                 2140                 2145
cga gcc  acc gct gaa tgg att  gag cag tct gca gaa  gag att gct    6489
Arg Ala  Thr Ala Glu Trp Ile  Glu Gln Ser Ala Glu  Glu Ile Ala
    2150                 2155                 2160
gct gcc  gtt gcc gaa gtc cga  tcc acc tac gtg tcg  aat aag att    6534
Ala Ala  Val Ala Glu Val Arg  Ser Thr Tyr Val Ser  Asn Lys Ile
    2165                 2170                 2175
atc agc  ttc gcc gag acg gag  cga gct gga gcg ttg  cag ggc ttg    6579
Ile Ser  Phe Ala Glu Thr Glu  Arg Ala Gly Ala Leu  Gln Gly Leu
    2180                 2185                 2190
gtc gct  gtc ttg agc act ttg  aat gcg gaa gac aag  aag gcc ctt    6624
Val Ala  Val Leu Ser Thr Leu  Asn Ala Glu Asp Lys  Lys Ala Leu
    2195                 2200                 2205
gtt tct  agc ctt ggt ctc taa                                      6645
Val Ser  Ser Leu Gly Leu
    2210
<210>3
<211>2214
<212>PRT
<213>Phaffia rhodozyma
<400>3
Met Val Val Asp His Glu Ser Val Arg His Phe Ile Gly Gly Asn Ala
1               5                   10                  15
Leu Glu Asn Ala Pro Pro Ser Ser Val Thr Asp Phe Val Arg Ser Gln
            20                  25                  30
Asp Gly His Thr Val Ile Thr Lys Val Leu Ile Ala Asn Asn Gly Ile
        35                 40                 45
Ala Ala Val Lys Glu Ile Arg Ser Val Arg Lys Trp Ala Tyr Glu Thr
    50                  55                  60
Phe Gly Asp Glu Arg Ala Ile Glu Phe Thr Val Met Ala Thr Pro Glu
65                  70                  75                  80
Asp Leu Lys Val Asn Cys Asp Tyr Ile Arg Met Ala Asp Arg Val Val
                85                  90                  95
Glu Val Pro Gly Gly Thr Asn Asn Asn Asn His Ser Asn Val Asp Leu
            100                 105                 110
Ile Val Asp Ile Ala Glu Arg Phe Asn Ile His Ala Val Trp Ala Gly
        115                 120                 125
Trp Gly His Ala Ser Glu Asn Pro Arg Leu Pro Glu Ser Leu Ala Ala
    130                 135                 140
Ser Lys Asn Lys Ile Val Phe Ile Gly Pro Pro Gly Ser Ala Met Arg
145                 150                 155                 160
Ser Leu Gly Asp Lys Ile Ser Ser Thr Ile Val Ala Gln Ser Ala Gln
                165                 170                 175
Val Pro Cys Met Ala Trp Ser Gly Ser Gly Ile Thr Asp Thr Glu Leu
            180                 185                 190
Ser Pro Gln Gly Phe Val Thr Val Pro Asp Gly Pro Tyr Gln Ala Ala
        195                 200                 205
Cys Val Lys Thr Val Glu Asp Gly Leu Val Arg Ala Glu Lys Ile Gly
    210                 215                 220
Leu Pro Val Met Ile Lys Ala Ser Glu Gly Gly Gly Gly Lys Gly Ile
225                 230                 235                 240
Arg Met Val His Ser Met Asp Thr Phe Lys Asn Ser Tyr Asn Ser Val
                245                 250                 255
Ala Ser Glu Val Pro Gly Ser Pro Ile Phe Ile Met Ala Leu Ala Gly
            260                 265                 270
Ser Ala Arg His Leu Glu Val Gln Leu Leu Ala Asp Gln Tyr Gly Asn
        275                 280                 285
Ala Ile Ser Leu Phe Gly Arg Asp Cys Ser Val Gln Arg Arg His Gln
    290                 295                 300
Lys Ile Ile Glu Glu Ala Pro Val Thr Ile Ala Arg Pro Glu Arg Phe
305                 310                 315                 320
Glu Glu Met Glu Lys Ala Ala Val Arg Leu Ala Lys Leu Val Gly Tyr
                325                 330                 335
Val Ser Ala Gly Thr Val Glu Tyr Leu Tyr Ser His Ala Asp Asp Ser
            340                 345                 350
Phe Phe Phe Leu Glu Leu Asn Pro Arg Leu Gln Val Glu His Pro Thr
        355                 360                 365
Thr Glu Met Val Ser Gly Val Asn Leu Pro Ala Ala Gln Leu Gln Ile
    370                 375                 380
Ala Met Gly Ile Pro Leu Ser Arg Ile Arg Asp Ile Arg Val Leu Tyr
385                 390                 395                 400
Gly Leu Asp Pro His Thr Val Ser Glu Ile Asp Phe Asp Ser Ser Arg
                405                 410                 415
Ala Glu Ser Val Gln Thr Gln Arg Lys Pro Arg Pro Lys Gly His Val
            420                 425                 430
Ile Ala Cys Arg Ile Thr Ser Glu Asn Pro Asp Glu Gly Phe Lys Pro
        435                 440                 445
Ser Ala Gly Asp Ile Gln Glu Leu Asn Phe Arg Ser Asn Thr Asn Val
    450                 455                 460
Trp Gly Tyr Phe Ser Val Gly Ala Thr Gly Gly Ile His Ser Phe Ala
465                 470                 475                 480
Asp Ser Gln Phe Gly His Val Phe Ala Tyr Gly Ser Asp Arg Thr Thr
                485                 490                 495
Ala Arg Lys Asn Met Val Ile Ala Leu Lys Glu Leu Ser Ile Arg Gly
            500                 505                 510
Asp Phe Arg Thr Thr Val Glu Tyr Leu Ile Thr Leu Leu Glu Thr Ser
        515                 520                 525
Asp Phe Glu Gln Asn Ala Ile Thr Thr Ala Trp Leu Asp Gly Leu Ile
    530                 535                 540
Thr Asn Lys Leu Thr Ser Glu Arg Pro Asp Pro Ser Leu Ala Val Ile
545                 550                 555                 560
Cys Gly Ala Ile Val Lys Ala His Val Ala Ser Glu Asn Cys Trp Ala
                565                 570                 575
Glu Tyr Arg Arg Val Leu Asp Lys Gly Gln Val Pro Ser Lys Asp Thr
            580                 585                 590
Leu Lys Thr Val Phe Thr Leu Asp Phe Ile Tyr Glu Gly Val Arg Tyr
        595                 600                 605
Asn Phe Thr Ala Ala Arg Ala Ser Leu Asn Thr Tyr Arg Leu Tyr Leu
    610                 615                 620
Asn Gly Gly Lys Thr Val Val Ser Ile Arg Pro Leu Ala Asp Gly Gly
625                 630                 635                 640
Met Leu Val Leu Leu Asp Gly Arg Ser His Thr Leu Tyr Trp Arg Glu
                645                 650                 655
Glu Val Gly Thr Leu Arg Ile Gln Val Asp Ala Lys Thr Cys Leu Ile
            660                 665                 670
Glu Gln Glu Asn Asp Pro Thr Gln Leu Arg Ser Pro Ser Pro Gly Lys
        675                 680                 685
Ile Ile Arg Phe Leu Val Glu Ser Gly Asp His Ile Ser Ser Gly Asp
    690                 695                 700
Ile Tyr Ala Glu Val Glu Val Met Lys Met Ile Leu Pro Leu Ile Ala
705                 710                 715                 720
Gln Glu Ser Gly His Val Gln Phe Val Lys Gln Ala Gly Val Thr Val
                725                 730                 735
Asp Pro Gly Ala Ile Ile Gly Ile Leu Ser Leu Asp Asp Pro Thr Arg
            740                 745                 750
Val Lys Lys Ala Lys Pro Phe Glu Gly Leu Leu Pro Val Thr Gly Leu
        755                 760                 765
Pro Asn Leu Pro Gly Asn Arg Pro His Gln Arg Leu Gln Phe Gln Leu
    770                 775                 780
Glu Ser Ile Tyr Ser Val Leu Asp Gly Tyr Glu Ser Asp Ser Thr Ala
785                 790                 795                 800
Thr Ile Leu Arg Ser Phe Ser Glu Asn Leu Tyr Asp Pro Asp Leu Ala
                805                 810                 815
Phe Gly Glu Ala Leu Ser Ile Ile Ser Val Leu Ser Gly Arg Met Pro
            820                 825                 830
Ala Asp Leu Glu Glu Ser Ile Arg Glu Val Ile Ser Glu Ala Gln Ser
        835                 840                 845
Lys Pro His Ala Glu Phe Pro Gly Ser Lys Ile Leu Lys Val Val Glu
    850                 855                 860
Arg Tyr Ile Asp Asn Leu Arg Pro Gln Glu Arg Ala Met Val Arg Thr
865                 870                 875                 880
Gln Ile Glu Pro Ile Val Gly Ile Ala Glu Lys Asn Val Gly Gly Pro
                885                 890                 895
Lys Gly Tyr Ala Ser Tyr Val Leu Ala Thr Ile Leu Gln Lys Phe Leu
            900                 905                 910
Ala Val Glu Ala Val Phe Ala Thr Gly Ser Glu Glu Ala Ile Val Leu
        915                 920                 925
Gln Leu Arg Asp Glu Asn Arg Glu Ser Leu Asn Asp Val Leu Gly Leu
    930                 935                 940
Val Leu Ala His Ser Arg Leu Ser Ala Arg Ser Lys Leu Val Leu Ser
945                 950                 955                 960
Val Phe Asp Leu Ile Lys Ser Met Gln Leu Leu Asn Asn Thr Glu Gly
                965                 970                 975
Ser Phe Leu His Lys Thr Met Lys Ala Leu Ala Asp Met Pro Thr Lys
            980                 985                 990
Ala Pro Leu Ala Ser Lys Val Ser  Leu Lys Ala Arg Glu  Ile Leu Ile
        995                 1000                 1005
Ser Cys  Ser Leu Pro Ser Tyr  Glu Glu Arg Leu Phe  Gln Met Glu
    1010                 1015                 1020
Lys Ile  Leu Asn Ser Ser Val  Thr Thr Ser Tyr Tyr  Gly Glu Thr
    1025                 1030                 1035
Gly Gly  Gly His Arg Asn Pro  Ser Val Asp Val Leu  Thr Glu Ile
    1040                 1045                 1050
Ser Asn  Ser Arg Phe Thr Val  Tyr Asp Val Leu Ser  Ser Phe Phe
    1055                 1060                 1065
Lys His  Asp Asp Pro Trp Ile  Val Leu Ala Ser Leu  Thr Val Tyr
    1070                 1075                 1080
Val Leu  Arg Ala Tyr Arg Glu  Tyr Ser Ile Leu Asp  Met Gln His
    1085                 1090                 1095
Glu Gln  Gly Gln Asp Gly Ala  Ala Gly Val Ile Thr  Trp Arg Phe
    1100                 1105                 1110
Lys Leu  Asn Gln Pro Ile Ala  Glu Ser Ser Thr Pro  Arg Val Asp
    1115                 1120                 1125
Ser Asn  Arg Asp Val Tyr Arg  Val Gly Ser Leu Ser  Asp Leu Thr
    1130                 1135                 1140
Tyr Lys  Ile Lys Gln Ser Gln  Thr Glu Pro Leu Arg  Ala Gly Val
    1145                 1150                 1155
Met Thr  Ser Phe Asn Asn Leu  Lys Glu Val Gln Asp  Gly Leu Leu
    1160                 1165                 1170
Asn Val  Leu Ser Phe Phe Pro  Ala Tyr His His Gln  Asp Phe Thr
    1175                 1180                 1185
Gln Arg  His Gly Gln Asp Ser  Ala Met Pro Asn Val  Leu Asn Ile
    1190                 1195                 1200
Ala Ile  Arg Ala Phe Glu Glu  Lys Asp Asp Met Ser  Asp Leu Asp
    1205                 1210                 1215
Trp Ala  Lys Ser Val Glu Ser  Leu Val Met Gln Met  Ser Ala Glu
    1220                 1225                 1230
Ile Gln  Lys Lys Gly Ile Arg  Arg Val Thr Phe Leu  Val Cys Arg
    1235                 1240                 1245
Lys Gly  Val Tyr Pro Ser Tyr  Phe Thr Phe Arg Gln  Glu Gly Ala
    1250                 1255                 1260
Gln Gly  Pro Trp Arg Glu Glu  Glu Lys Ile Arg Asn  Ile Glu Pro
    1265                 1270                 1275
Ala Leu  Ala Ser Gln Leu Glu  Leu Asn Arg Leu Ser  Asn Phe Lys
    1280                 1285                 1290
Val Thr  Pro Ile Phe Val Asp  Asn Arg Gln Ile His  Ile Tyr Lys
    1295                 1300                 1305
Gly Val  Gly Lys Glu Asn Ser  Ser Asp Val Arg Phe  Phe Ile Arg
    1310                 1315                 1320
Ala Leu  Val Arg Pro Gly Arg  Val Gln Gly Ser Met  Lys Ala Ala
    1325                 1330                 1335
Glu Tyr  Leu Ile Ser Glu Cys  Asp Arg Leu Leu Thr  Asp Ile Leu
    1340                 1345                 1350
Asp Ala  Leu Glu Val Val Gly  Ala Glu Thr Arg Asn  Ala Asp Cys
    1355                 1360                 1365
Asn His  Val Gly Ile Asn Phe  Ile Tyr Asn Val Leu  Val Asp Phe
    1370                 1375                 1380
Asp Asp  Val Gln Glu Ala Leu  Ala Gly Phe Ile Glu  Arg His Gly
    1385                 1390                 1395
Lys Arg  Leu Trp Arg Leu Arg  Val Thr Ala Ser Glu  Ile Arg Met
    1400                 1405                 1410
Val Leu  Glu Asp Asp Glu Gly  Asn Val Thr Pro Ile  Arg Cys Cys
    1415                 1420                 1425
Ile Glu  Asn Val Ser Gly Phe  Val Val Lys Tyr His  Ala Tyr Gln
    1430                 1435                 1440
Glu Val  Glu Thr Glu Lys Gly  Thr Thr Ile Leu Lys  Ser Ile Gly
    1445                 1450                 1455
Asp Leu  Gly Pro Leu His Leu  Gln Pro Val Asn His  Ala Tyr Gln
    1460                 1465                 1470
Thr Lys  Asn Ser Leu Gln Pro  Arg Arg Tyr Gln Ala  His Leu Val
    1475                 1480                 1485
Gly Thr  Thr Tyr Val Tyr Asp  Tyr Pro Asp Leu Phe  Val Gln Ser
    1490                 1495                 1500
Leu Arg  Lys Val Trp Ala Glu  Ala Ala Ala Lys Ile  Pro His Leu
    1505                 1510                 1515
Arg Val  Pro Ser Glu Pro Leu  Thr Ala Thr Glu Leu  Val Leu Asp
    1520                 1525                 1530
Glu Asn  Asn Glu Leu Gln Glu  Val Glu Arg Pro Pro  Gly Ser Asn
    1535                 1540                 1545
Ser Cys  Gly Met Val Ala Trp  Ile Phe Thr Met Leu  Thr Pro Glu
    1550                 1555                 1560
Tyr Pro  Lys Gly Arg Arg Val  Val Ala Ile Ala Asn  Asp Ile Thr
    1565                 1570                 1575
Phe Lys  Ile Gly Ser Phe Gly  Pro Lys Glu Asp Asp  Tyr Phe Phe
    1580                 1585                 1590
Lys Ala  Thr Glu Ile Ala Lys  Lys Leu Gly Leu Pro  Arg Ile Tyr
    1595                 1600                 1605
Leu Ser  Ala Asn Ser Gly Ala  Arg Leu Gly Ile Ala  Glu Glu Leu
    1610                 1615                 1620
Leu His  Ile Phe Lys Ala Ala  Phe Val Asp Pro Ala  Lys Pro Ser
    1625                 1630                 1635
Met Gly  Ile Lys Tyr Leu Tyr  Leu Thr Pro Glu Thr  Leu Ser Thr
    1640                 1645                 1650
Leu Ala  Lys Lys Gly Ser Ser  Val Thr Thr Glu Glu  Ile Glu Asp
    1655                 1660                 1665
Asp Gly  Glu Arg Arg His Lys  Ile Thr Ala Ile Ile  Gly Leu Ala
    1670                 1675                 1680
Glu Gly  Leu Gly Val Glu Ser  Leu Arg Gly Ser Gly  Leu Ile Ala
    1685                 1690                 1695
Gly Ala  Thr Thr Arg Ala Tyr  Glu Glu Gly Ile Phe  Thr Ile Ser
    1700                 1705                 1710
Leu Val  Thr Ala Arg Ser Val  Gly Ile Gly Ala Tyr  Leu Val Arg
    1715                 1720                 1725
Leu Gly  Gln Arg Ala Ile Gln  Val Glu Gly Asn Pro  Met Ile Leu
    1730                 1735                 1740
Thr Gly  Ala Gln Ser Leu Asn  Lys Val Leu Gly Arg  Glu Val Tyr
    1745                 1750                 1755
Thr Ser  Asn Leu Gln Leu Gly  Gly Thr Gln Ile Met  Ala Arg Asn
    1760                 1765                 1770
Gly Thr  Thr His Leu Val Ala  Glu Ser Asp Leu Asp  Gly Ala Leu
    1775                 1780                 1785
Lys Val  Ile Gln Trp Leu Ser  Tyr Val Pro Glu Arg  Lys Gly Lys
    1790                 1795                 1800
Ala Ile  Pro Ile Trp Pro Ser  Glu Asp Pro Trp Asp  Arg Thr Val
    1805                 1810                 1815
Thr Tyr  Glu Pro Pro Arg Gly  Pro Tyr Asp Pro Arg  Trp Leu Leu
    1820                 1825                 1830
Glu Gly  Lys Pro Asp Glu Gly  Leu Thr Gly Leu Phe  Asp Lys Gly
    1835                 1840                 1845
Ser Phe  Met Glu Thr Leu Gly  Asp Trp Ala Lys Thr  Ile Val Thr
    1850                 1855                 1860
Gly Arg  Ala Arg Leu Gly Gly  Ile Pro Met Gly Val  Ile Ala Val
    1865                 1870                 1875
Glu Thr  Arg Thr Thr Glu Lys  Ile Ile Ala Ala Asp  Pro Ala Asn
    1880                 1885                 1890
Pro Ala  Ala Phe Glu Gln Lys  Ile Met Glu Ala Gly  Gln Val Trp
    1895                 1900                 1905
Asn Pro  Asn Ala Ala Tyr Lys  Thr Ala Gln Ser Ile  Phe Asp Ile
    1910                 1915                 1920
Asn Lys  Glu Gly Leu Pro Leu  Met Ile Leu Ala Asn  Ile Arg Gly
    1925                 1930                 1935
Phe Ser  Gly Gly Gln Gly Asp  Met Phe Asp Ala Ile  Leu Lys Gln
    1940                 1945                 1950
Gly Ser  Lys Ile Val Asp Gly  Leu Ser Asn Phe Lys  Gln Pro Val
    1955                 1960                 1965
Phe Val  Tyr Val Val Pro Asn  Gly Glu Leu Arg Gly  Gly Ala Trp
    1970                 1975                 1980
Val Val  Leu Asp Pro Thr Ile  Asn Leu Ala Lys Met  Glu Met Tyr
    1985                 1990                 1995
Ala Asp  Glu Thr Ala Arg Gly  Gly Ile Leu Glu Pro  Glu Gly Ile
    2000                 2005                 2010
Val Glu  Ile Lys Phe Arg Arg  Asp Lys Val Ile Ala  Thr Met Glu
    2015                 2020                 2025
Arg Leu  Asp Glu Thr Tyr Ala  Ser Leu Lys Ala Ala  Ser Asn Asp
    2030                 2035                 2040
Ser Thr  Lys Ser Ala Glu Glu  Arg Ala Lys Ser Ala  Glu Leu Leu
    2045                 2050                 2055
Lys Ala  Arg Glu Thr Leu Leu  Gln Pro Thr Tyr Leu  Gln Ile Ala
    2060                 2065                 2070
His Leu  Tyr Ala Asp Leu His  Asp Arg Val Gly Arg  Met Glu Ala
    2075                 2080                 2085
Lys Gly  Cys Ala Lys Arg Ala  Val Trp Ala Glu Ala  Arg Arg Phe
    2090                 2095                 2100
Phe Tyr  Trp Arg Leu Arg Arg  Arg Leu Asn Asp Glu  His Ile Leu
    2105                 2110                 2115
Ser Lys  Phe Ala Ala Ala Asn  Pro Asp Leu Thr Leu  Glu Glu Arg
    2120                 2125                 2130
Gln Asn  Ile Leu Asp Ser Val  Val Gln Thr Asp Leu  Thr Asp Asp
    2135                 2140                 2145
Arg Ala  Thr Ala Glu Trp Ile  Glu Gln Ser Ala Glu  Glu Ile Ala
    2150                 2155                 2160
Ala Ala  Val Ala Glu Val Arg  Ser Thr Tyr Val Ser  Asn Lys Ile
    2165                 2170                 2175
Ile Ser  Phe Ala Glu Thr Glu  Arg Ala Gly Ala Leu  Gln Gly Leu
    2180                 2185                 2190
Val Ala  Val Leu Ser Thr Leu  Asn Ala Glu Asp Lys  Lys Ala Leu
    2195                 2200                 2205
Val Ser  Ser Leu Gly Leu
    2210
<210>4
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc9
<220>
<221>misc_feature
<222>(6)..(6)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(9)..(9)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(15)..(15)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(18)..(18)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(21)..(21)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(24)..(24)
<223>n为a,c,g或t
<400>4
athggngcnt ayytngynmg nytngg    26
<210>5
<211>25
<212>DNA
<213>人工序列
<220>
<223>引物acc13
<220>
<221>misc_feature
<222>(3)..(3)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(6)..(6)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(12)..(12)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(15)..(15)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(18)..(18)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(21)..(21)
<223>n为a,c,g或t
<220>
<221>misc_feature
<222>(24)..(24)
<223>n为a,c,g或t
<400>5
acnacnaccc angcnccncc nckna     25
<210>6
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc17
<400>6
ttaccctcgt cgtcctcaag aaccat    26
<210>7
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc18
<400>7
tggatcctac tatcaacctg ccaaga    26
<210>8
<211>26
<212>DNA
<213>人工序列
<220>
<223>引物acc26
<400>8
gtgaacactg tcttgagagt gtcctt    26
<210>9
<211>20
<212>DNA
<213>人工序列
<220>
<223>引物acc43
<400>9
ccgctgctca gcttcagatt           20
<210>10
<211>19
<212>DNA
<213>人工序列
<220>
<223>引物acc44
<400>10
gattagatag ggatctagt            19

Claims (13)

1.重组微生物,其特征在于所述微生物的乙酰辅酶A羧化酶的基因表达低于宿主微生物,因此其能够产生相对于宿主微生物而言较高水平的类胡萝卜素,其中所述宿主微生物属于Phaffia rhodozyma菌株或Xanthophylomyces dendrorhous菌株,所述菌株包含含反义多核苷酸的载体,该反义多核苷酸为针对包含核酸分子的多核苷酸的反义多核苷酸,其中所述核酸分子选自:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
2.权利要求1的重组微生物,其包含针对含有一或多种核酸分子的分离的多核苷酸的反义多核苷酸,其中所述核酸分子选自:
(h)核酸分子,其具有SEQ ID NO:1所示的核苷酸序列;
(i)核酸分子,其核苷酸序列由于遗传密码而是(h)的核苷酸序列的简并序列。
3.权利要求1所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸编码氨基酸序列,所述氨基酸序列由SEQ ID NO:3确定。
4.权利要求2所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸编码氨基酸序列,所述氨基酸序列由SEQ ID NO:3确定。
5.权利要求1所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸源自P.rhodozyma菌株或Xanthophylomycesdendrorhous菌株。
6.权利要求2所述的重组微生物,其包含针对多核苷酸的反义多核苷酸,其中所述多核苷酸源自P.rhodozyma菌株或Xanthophylomycesdendrorhous菌株。
7.制备重组载体的方法,所述方法包括将针对多核苷酸的反义多核苷酸插入载体,其中所述多核苷酸包含选自下述的核酸分子:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
8.重组载体,其含有针对多核苷酸的反义多核苷酸,所述多核苷酸包含选自下述的核酸分子:
(a)核酸分子,其编码至少SEQ ID NO:3所示多肽的成熟形式;
(b)核酸分子,其具有SEQ ID NO:2所示的编码序列;
(c)核酸分子,其核苷酸序列由于遗传密码而是(a)或(b)的核苷酸序列的简并序列。
9.权利要求8的重组载体,其中所述的多核苷酸可操作地连接于表达控制序列,而允许在原核或真核细胞中的表达。
10.根据权利要求1-6中任一项所述的重组微生物,其中乙酰辅酶A羧化酶的基因表达用选自下组的技术降低:反义技术、定点诱变、易错聚合酶链式反应、或化学诱变。
11.生产类胡萝卜素的方法,所述方法包括培养权利要求1-6任一项的重组微生物。
12.权利要求11的方法,其中所述类胡萝卜素是选自虾青素、β-胡萝卜素、番茄红素、玉米黄质或角黄素中的一种或多种。
13.根据权利要求11的方法,其中在权利要求1-6任一项所述的重组微生物中,乙酰辅酶A羧化酶的基因表达用选自下组的技术降低:反义技术、定点诱变、易错聚合酶链式反应、或化学诱变。
CNB038231972A 2002-09-27 2003-09-25 Acc基因 Expired - Fee Related CN100425698C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02021625.5 2002-09-27
EP02021625 2002-09-27

Publications (2)

Publication Number Publication Date
CN1685042A CN1685042A (zh) 2005-10-19
CN100425698C true CN100425698C (zh) 2008-10-15

Family

ID=32039109

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB038231972A Expired - Fee Related CN100425698C (zh) 2002-09-27 2003-09-25 Acc基因

Country Status (9)

Country Link
US (1) US7288395B2 (zh)
EP (1) EP1543123A2 (zh)
JP (1) JP2006500058A (zh)
KR (1) KR101196180B1 (zh)
CN (1) CN100425698C (zh)
AU (1) AU2003277902A1 (zh)
CA (1) CA2498381C (zh)
NO (1) NO20052073L (zh)
WO (1) WO2004029232A2 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
UA94038C2 (ru) 2005-03-18 2011-04-11 Майкробиа, Инк. Продуцирование каротиноидов в маслянистых дрожжах и грибах
EP1880004A1 (en) * 2005-05-04 2008-01-23 TMO Renewables Limited Thermophilic microorganisms with inactivated lactate dehydrogenase gene (ldh) for ethanol production
WO2008042338A2 (en) 2006-09-28 2008-04-10 Microbia, Inc. Production of carotenoids in oleaginous yeast and fungi

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999032635A1 (en) * 1997-12-20 1999-07-01 Astrazeneca Uk Limited Acetyl-coa-carboxylase from candida albicans
WO2000011199A1 (en) * 1998-08-20 2000-03-02 Pioneer Hi-Bred International, Inc. COMPOSITIONS AND METHODS FOR ALTERING AN ACETYL-CoA METABOLIC PATHWAY OF A PLANT
CN1266101A (zh) * 1999-03-09 2000-09-13 霍夫曼-拉罗奇有限公司 虾青素合成酶
CN1340628A (zh) * 2000-05-24 2002-03-20 霍夫曼-拉罗奇有限公司 生物生产类胡萝卜素的改良方法及其所用的生物材料

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999032635A1 (en) * 1997-12-20 1999-07-01 Astrazeneca Uk Limited Acetyl-coa-carboxylase from candida albicans
WO2000011199A1 (en) * 1998-08-20 2000-03-02 Pioneer Hi-Bred International, Inc. COMPOSITIONS AND METHODS FOR ALTERING AN ACETYL-CoA METABOLIC PATHWAY OF A PLANT
CN1266101A (zh) * 1999-03-09 2000-09-13 霍夫曼-拉罗奇有限公司 虾青素合成酶
CN1340628A (zh) * 2000-05-24 2002-03-20 霍夫曼-拉罗奇有限公司 生物生产类胡萝卜素的改良方法及其所用的生物材料

Also Published As

Publication number Publication date
KR20050059197A (ko) 2005-06-17
AU2003277902A1 (en) 2004-04-19
CA2498381A1 (en) 2004-04-08
EP1543123A2 (en) 2005-06-22
NO20052073L (no) 2005-06-27
AU2003277902A8 (en) 2004-04-19
US7288395B2 (en) 2007-10-30
NO20052073D0 (no) 2005-04-27
KR101196180B1 (ko) 2012-11-01
CN1685042A (zh) 2005-10-19
WO2004029232A3 (en) 2004-10-14
US20060172372A1 (en) 2006-08-03
CA2498381C (en) 2013-04-16
JP2006500058A (ja) 2006-01-05
WO2004029232A2 (en) 2004-04-08

Similar Documents

Publication Publication Date Title
CN100487120C (zh) 改进的类异戊二烯的生产
NO334836B1 (no) Rekombinant organisme, vektor, fremgangsmåte for å lage organismen derav og fremgangsmåte for å produsere karotenoider.
US7585659B2 (en) Carotene synthase gene and uses therefor
US6329141B1 (en) Methods for transforming Phaffia strains, transformed Phaffia strains so obtained and recombinant DNA in said methods
KR20070047306A (ko) 아이소프레노이드의 제조
CN100425698C (zh) Acc基因
JP2002253266A (ja) アスタキサンチンのための方法
CN102884187B (zh) 包含啶南平生物合成基因簇和标记基因的核酸构建体
EP2415865A1 (en) Protoilludene synthase
CN111433219A (zh) 通过基因修饰信号传导蛋白提高藻类脂质生产力
EP1546314A1 (en) Bhyd gene
JP2001136992A (ja) カロチノイドの生成増大方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081015

Termination date: 20170925

CF01 Termination of patent right due to non-payment of annual fee