CN1970770A - 改进的类异戊二烯的生产 - Google Patents

改进的类异戊二烯的生产 Download PDF

Info

Publication number
CN1970770A
CN1970770A CNA2006100848321A CN200610084832A CN1970770A CN 1970770 A CN1970770 A CN 1970770A CN A2006100848321 A CNA2006100848321 A CN A2006100848321A CN 200610084832 A CN200610084832 A CN 200610084832A CN 1970770 A CN1970770 A CN 1970770A
Authority
CN
China
Prior art keywords
sequence
dna
ala
leu
ser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100848321A
Other languages
English (en)
Other versions
CN100487120C (zh
Inventor
星野立夫
小岛一行
世户口丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
DSM IP Assets BV
Original Assignee
DSM IP Assets BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DSM IP Assets BV filed Critical DSM IP Assets BV
Publication of CN1970770A publication Critical patent/CN1970770A/zh
Application granted granted Critical
Publication of CN100487120C publication Critical patent/CN100487120C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/0004Oxidoreductases (1.)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/52Genes encoding for enzymes or proenzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/1085Transferases (2.) transferring alkyl or aryl groups other than methyl groups (2.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/10Transferases (2.)
    • C12N9/12Transferases (2.) transferring phosphorus containing groups, e.g. kinases (2.7)
    • C12N9/1205Phosphotransferases with an alcohol group as acceptor (2.7.1), e.g. protein kinases
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/88Lyases (4.)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P23/00Preparation of compounds containing a cyclohexene ring having an unsaturated side chain containing at least ten carbon atoms bound by conjugated double bonds, e.g. carotenes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本发明目的在于编码涉及甲羟戊酸途径或从异戊烯焦磷酸到法尼焦磷酸的途径的酶的分离的DNA序列,含有该DNA的载体和质粒,由该DNA或载体或质粒转化的宿主以及通过用该转化的宿主细胞生产类异戊二烯和类胡萝卜素的方法。

Description

改进的类异戊二烯的生产
本申请是中国发明申请(发明名称:改进的类异戊二烯的生产,申请日:1999年5月6日;申请号99106367.8)的分案申请。
本发明涉及制备类异戊二烯及其有用的生物材料的分子生物学。
已知变胞藻黄素分布于各种生物体,如动物(如诸如红鹤和猩红鹮的鸟类,以及诸如虹鳟和鲑鱼的鱼类),藻类和微生物。也已认识到变胞藻黄素具有抗氧自由基的强烈的抗氧化特性,应该可应用于药物用途以防止活细胞的一些疾病如癌症。此外,从工业应用的观点看,对用作着色剂的变胞藻黄素的需求尤其在养殖的鱼(如鲑鱼)的产业中正在骤增,这是因为变胞藻黄素赋于动物有特色的橙红色并在市场上使其对消费者有吸引力。
已知Phaffia rhodozyma是胡萝卜素产生酵母株,其特异性地产生变胞藻黄素。与其它Rhodotorula属的胡萝卜素产生酵母不同,Phaffiarhodozyma(P.rhodozyma)可发酵一些糖类如D-葡萄糖。从工业应用的观点看,这是一个重要的特征。在最近的分类学研究中,揭示了P.rhodozyma的性周期并命名其末路进化态为Xanthophyllomyces dendrorhous(W.I.Golubev;酵母11,101-110,(1995)。已进行一些株的改良研究以得到源自P.rhodozyma的变胞藻黄素的高生产者,但是,在近十年里,这些努力局限于使用常规的诱变和原生质融合的方法。最近,Wery等用P.rhodozyma开发了一种宿主载体系统,其中将非复制型质粒在核糖体DNA的基因座以多拷贝整合到P.rhodozyma基因组(Wery等,基因,184,89-97,1997中。而Verdoes等报道了更加改进的载体以得到P.rhodozyma的转化体及其三个编码催化香叶基香叶基焦磷酸生成β-胡萝卜素的反应的酶的胡萝卜素生成基因的转化体(国际专利WO 97/23633)。最近,基因工程方法在P.rhodozyma的品系改良研究中的重要性日益提高从而将突破通过常规方法获得的生产能力。
据报道,自一般代谢物(乙酰CoA)的胡萝卜素生成途径在胡萝卜素生成的真核生物中是由如图1所示的多酶步骤组成的。两分子的乙酰CoA缩合生成乙酰乙酰CoA,再通过3-羟甲基-3-戊二酰CoA合成酶的作用生成3-羟-3-甲基戊二酰CoA(HMG-GoA)。接着,通过3-羟-3-甲基戊二酰CoA还原酶将HMG-CoA转变成甲羟戊酸,然后通过两种激酶(甲羟戊酸激酶和磷酸甲羟戊酸激酶)的作用加入二分子磷酸残基。然后,甲羟戊酸焦磷酸再通过甲羟戊酸焦磷酸脱羧酶的作用脱羧形成异戊烯焦磷酸,其变成活生物体所需要的各种异戊二烯分子的构建单元。此途径被称为源自其重要的中间体甲羟戊酸的甲羟戊酸途径。IPP通过IPP异构酶的作用异构成二甲基芳基焦磷酸(DMAPP)。然后,IPP和DMAPP通过头对尾的缩合生成C10单元,香叶基焦磷酸(GPP)。GPP在GPP和IPP之间的类似的缩合反应中被转变成C15单元,即法尼焦磷酸,其为动物的胆固醇和酵母的麦角固醇以及诸如RAS蛋白调控蛋白的法尼基化的重要的底物。一般地,自IPP和DMAPP的GPP和FPP的生物合成是通过称为FPP合酶的酶催化的(Laskovics等,生物化学,20,1893-1901,1981)。另一方面,在诸如真细菌的原核生物中,异戊烯焦磷酸是通过来自酵母和动物中没有的丙酮酸的1-脱氧木酮糖-5-磷酸以不同途径合成的(Rohmer等,生物化学杂志,295,517-524,1993)。在胆固醇生物合成的专门研究中,发现胆固醇代谢的限速步骤是该甲羟戊酸途径的步骤,尤其是其由HMG-CoA合成酶和HMG-CoA还原酶催化的早期步骤。本发明人注意到这样的事实,即胆固醇和类胡萝卜素的生物合成途径共享其从乙酰CoA到FPP的中间体途径,并且试图改进可能存在于甲羟戊酸途径,尤其是诸如由HMG-CoA合酶和HMG-CoA还原酶催化的步骤的早期甲羟戊酸途径中的胡萝卜素生成途径中的限速步骤从而改进类胡萝卜素,特别是变胞藻黄素的生产能力。
本发明涉及如下方面:
1.分离的DNA序列,其编码与甲羟戊酸途径或自异戊烯焦磷酸到法尼焦磷酸的途径有关的酶。
2.项1的分离的DNA序列,其中所说的酶具有选自如下的活性:3-羟-3-甲基戊二酰-CoA合酶活性,3-羟-3-甲基戊二酰-CoA还原酶活性,甲羟戊酸激酶活性,甲羟戊酸焦磷酸脱羧酶活性和法尼焦磷酸合酶活性。
3.项1和2的分离的DNA序列,特征为:
(a)所说DNA序列编码的所有酶具有选自序列6,7,8,9和10的氨基酸序列,或者
(b)所说的DNA编码所说的酶的变体,选自(i)等位基因变体,和(ii)具有一个或多个氨基酸加入,插入,缺失和/或取代并具有所宣称的酶活性的酶。
4.项1-3中任一项的分离的DNA序列,其可以是衍生于Phaffiarhodozyma基因的并选自:(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等指导或等位基因变体;和(iii)带有一个或多个核苷酸的加入,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列的并编码具有所说的酶活性的多肽的衍生物。
5.分离的DNA序列,选自:
(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指导或等位基因变体;以及(iii)编码具有甲羟戊酸激酶活性的多肽的带有一个或多个核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
6.项1或2的分离的DNA序列,选自:(i)在标准条件杂交于序列1-10所示的序列或其互补链或其片段的DNA序列,以及(ii)那些由于遗传密码子的简并性而不能如(i)所述进行杂交但编码具有完全同于序列1-10所示的氨基酸序列的或由(i)定义的DNA编码的多肽的DNA序列。
7.载体或质粒,含有项1-6中任一项的DNA序列的载体或质粒。
8.被项1-6中任一项的DNA序列或项7的载体或质粒转化或转染的宿主细胞。
9.生产与甲羟戊酸途径或从异戊烯焦磷酸到法尼焦磷酸的途径相关的酶的方法,包括在有利于生产所说酶的条件下培养项8所述的宿主细胞。
10.生产类异戊二烯或类胡萝卜素,优选变胞藻黄素的方法,包括在合适的条件下培养项8的宿主细胞。
本发明基于本发明人的上述努力。按照本发明,提供了涉及从乙酰CoA到FPP的甲羟戊酸途径的作为用于改进变胞藻黄素生产过程的生物材料的基因和酶。本发明涉及编码HMG-CoA合酶,HMG-CoA还原酶,甲羟戊酸激酶,甲羟戊酸焦磷酸脱羧酶和FPP合酶的基因的克隆和测定。本发明还涉及作为该基因在合适的宿主生物体(如E.Coli)中表达的结果的酶的表征。这些基因可在诸如P.rhodozyma的合适的宿主中增殖,而其对胡萝卜生成作用的影响可通过在合适的培养基中于合适的培养条件下培养这种转化体而得以证实。
按照本发明,提供了编码涉及甲羟戊酸途径或自异戊烯焦磷酸到法尼焦磷酸的反应途径的酶的分离的DNA序列。更具体地,该酶是那些具有选自如下的活性的酶,而这些活性选自:3-羟-3-甲基戊二酰-CoA合酶活性,3-羟-3-甲基戊二酰CoA还原酶活性,甲羟戊酸激酶活性,甲羟戊酸焦磷酸脱羧酶活性以及法尼焦磷酸合酶。
所说的分离的DNA序列的更具体的特征在于:(a)其编码具有选自序列6,7,8,9和10的氨基酸序列的所说的酶,或者(b)其编码所说酶的变体,选自(i)等位基因变体,和(ii)具有一个或多个氨基酸加入,插入,缺失和/或取代并具有所宣称的酶活性的酶。尤其具体的上述特定的分离的DNA序列可以是衍生于Phaffia rhodozyma基因的并选自:(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等编码的或等位基因变体;和(iii)带有一个或多个核苷酸的加成,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列并编码具有所说的酶活性的多肽的衍生物。这种衍生物过可通重组方法制备,它是基于本文公开的DNA序列通过本领域已知的和诸如Sambrook等(分子克隆,冷泉港实验室出版社,纽约,美国,第二版,1989)公开的方法而实现的。一般不改变活性的蛋白和肽中的氨基酸的变换是本领域中周知的并如诸如H.Neurath和R.L.Hill在“蛋白质”中所述(学术出版社,纽约,1979,具体见第14页,图6)。最常发生的变换是:Ala/Ser,Val/Ile,Asp/Glu,Thr/Ser,Ala/Gly,Ala/Thr,Ser/Asn,Ala/Val,Ser/Gly,Tyr/Phe,Ala/Pro,Lys/Arg,Asp/Asn,Leu/Ile,Leu/Val,Ala/Glu,Asp/Gly,以及相反的变化。
本发明还提供了分离的DNA序列,其选自(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指导的或等位基因变体;以及(iii)编码具有甲羟戊酸激酶活性的多肽的带有一个或多个核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
此外,本发明目的在于上述的以及序列表中所示的以及其互补链的DNA序列,或在标准条件杂交于该序列或其片段的DNA序列以及那些由于遗传密码子的简并性而不能在标准的条件下杂交到该序列但编码完相同的氨基酸序列的DNA序列。
杂交的“标准条件”在上下文中是指本领域技术人员常用于检测特定的杂交信号的并如Sambrook等,“分子克隆”第二版,冷泉港实验室出版社,1989,纽约,所述的那些条件,或者优选本领域技术人员熟悉的并如Sambrook等所述的称为严紧杂交和非严紧洗涤条件或者更优选本领域技术人员熟悉的并如Sambrook等所述的严格杂交条件和严紧洗涤条件。而且,本发明的目的还在于通过本领域周知的方法并用基于本文所公开的DNA序列设计的引物通过PCR制得的DNA序列。应理解本发明的DNA序列还可按如EP 747483所述合成。
此外,本发明提供重组DNA,优选载体和/或质粒,其含有编码在甲羟戊酸途径或在从异戊烯焦磷酸到法尼焦磷酸反应途径中起作用的酶的序列。所说的重组DNA载体和/或质粒可包括调控区域如启动子和终止子以及上述各种DNA的开放阅读框。
本发明还提供利用所述的重组DNA,载体或质粒转化宿主生物体的用途。利用该重组DNA所得的重组生物体能过量表达编码涉及甲羟戊酸途径或从异戊烯焦磷酸到法尼焦磷酸的反应途径的酶的DNA序列。用该重组DNA转化的宿主生物体可用于改进类异戊二烯和类胡萝卜素,尤其是变胞藻黄素的生产方法。因此,本发明还提供了这类重组生物体/转化的宿主。
本发明进一步提供了生产类异戊二烯或类胡萝卜素,优选类胡萝卜素的方法,包括培养如此获得的重组生物体。
本发明也涉及生产参与甲羟戊酸途径或从异戊烯焦磷酸到法尼焦磷酸的反应途径的酶的方法,包括在有利于该酶生产的条件下培养上述重组生物体,本发明还涉及该酶本身。
基于下列附图和更详细的解释将会更容易地理解本发明。
图1示P.rhodozyma中推定的从乙酰CoA到变胞藻黄素的生物合成途径。
图2示通过利用获自在源自P.rhodozyma的假-mvk基因的氨基末端人工加入核苷酸的人工mvk基因的表达研究。将得自50μl肉汤的细胞进行10%SDS-PAGE电泳。泳道1,E.coli(M15(pREP4)(pQE30),无IPTG);泳道2,E.coli(M15(pREP4)(pQE30),有1mM IPTG);泳道3,分子量标记(105kDa,82.0kDa,49.0kDa,33.3kD和28.6kDa,从上到下,BIO-RAD);泳道4,E.coli(M15(pREP4)(pMK1209#3334)无  IPTG);泳道5,E.coli(M15(pREP4)(pMK1209#3334)有1mMIPTG)。
本发明提供了一种分离的DNA序列,其编码涉及包括甲羟戊酸途径或自异戊烯焦磷酸到法尼焦磷酸的反应途径的生物途径的酶。所述酶的实例为那些在Phaffia rhodozyma中涉及甲羟戊酸途径或自异戊烯焦磷酸到法尼基焦磷酸反应途径的,如3-羟-3-甲基戊二酰-CoA合成酶,3-羟-3-甲基戊二酰-CoA还原酶,甲羟戊酸激酶,甲羟戊酸焦磷酸脱羧酶和法尼焦磷酸合酶。本发明用于生产涉及自甲羟戊酸途径到胡萝卜素生成途径的化合物以及衍生于这类化合物的各种产物。涉及甲羟戊酸途径的化合物是乙酰乙酰CoA,3-羟甲基-3-戊二酰-CoA,甲羟戊酸,甲羟戊酸-磷酸,甲羟戊酸-焦磷酸和异戊烯焦磷酸。随后,异戊烯焦磷酸转变成香叶基香叶基-焦磷酸,这是利用如图1所示的“异戊烯生物合成”反应通过香叶基-焦磷酸和法尼焦磷酸而进行的。涉及胡萝卜素生成途径的化合物是香叶基香叶基-焦磷酸,八氢番茄红素,番茄红素,β-胡萝卜素和变胞藻黄素。在这些涉及上述生物合成的化合物中,香叶基焦磷酸可用于生产泛醌。法尼-焦磷酸可用于生产甾醇,如胆固醇和麦角固醇。香叶基香叶基-焦磷酸用于生产维生素K,维生素E和叶绿素等。因此,若用于类异戊二烯的生物生产,本发明尤其有用。类异戊二烯是一个统称,其命名一系列具有异戊烯-焦磷酸作为骨架单元的化合物。类异戊二烯的进一步的例子是维生素A和维生素D3
本发明所说的DNA可指仅包括在其5′-和3′-非翻译区的短片段之间的侧翼开放阅读框的cDNA以及还含有目的基因的表达所需的诸如其启动子和终止子的调控序列的基因组DNA。
一般地,该基因由几个功能彼此不同的部分组成。在真核生物中,编码相应的蛋白质的基因转录成与核糖体RNA(rRNA),核小RNA(snRNA)和转移RNA(tRNA)的基因不同的前mRNA(Pre-mRNA)。虽然在此转录事件中,RNA聚合酶II(Pol II)起中心作用,但Pol II在没有包括含有启动子和上游激活序列(UAS)的上游区域的Cis元件以及反式蛋白因子的条件下不能单独起始转录。首先,由几个基本蛋白成分组成的转录起始复合物识别待表达的基因的5′-邻近区域中的启动子序列。在该事件中,若基因是在一些特定调控如热激反应,或营养饥饿适应等的情况下,则需要一些另外的参与者。在这种情况下,需要UAS存在于启动子序列及识别和结合该UAS一些阳性或阴性调控蛋白周围的5′-非翻译的上游区域。转录起始复合物结合到启动子序列的强度受启动子周围的反式因子的这种结合的影响,并且这能调节转录活性。
通过磷酸化激活转录起始复合物后,转录起始复合物启动自转录起始位点的转录。该转录起始复合物的一些部分作为延伸复合物而与从启动子区域到该基因的3′方向上脱离(此步称为启动子切割事件),延伸复合物继续转录直至其到达位于该基因3′-邻近下游区域的终止序列。如此生成的Pre-mRNA在核中通过在帽位点(几乎对应于转录起始位点)加入帽结构,以及通过在位于3′-邻近下游区域的Poly A信号处加入PolyA序列而修饰。接着,从编码区除去内含子结构并结合外显子部分以得到其序列对应于相应的蛋白质的一级氨基酸序列的开放阅读框。这种产生成熟mRNA的修饰是稳定的基因表达所需的。cDNA一般对应于自该成熟的mRNA序列反转录的DNA序列。其可通过衍生于病毒的反转录酶并用成熟的mRNA作为模板以实验方法合成。
为了表达衍生于真核生物的基因,常常使用如本发明所示的将cDNA克隆到E.coli中的表达载体中的方法。这源于这样的事实,即内含子结构的特异性在各种生物体中是不同的并且其不能识别源自其它物种的内含子序列。事实上,原核生物在其自身的遗传背景中并没有内含子结构。甚至在酵母中,遗传背景在酿酒酵母所属的子囊菌纲以及P.rhodozyma所属的担子菌纲之间也是不同的。Wery等表明P.rhodozyma的肌动蛋白基因的内含子结构既不能被子囊菌纲酵母酿酒酵母(酵母,12,641-651,1996)识别也不能被其剪接。
一些其它的研究者报道有些基因的内含子结构涉及其基因表达的调控(Dabeva,M.D.等,美国国家科学院院刊,83,5834,1986)。在其内含子结构涉及其基因表达的调控的目的基因的自克隆中使用含其内含子的基因组片段可能是重要的。
为了在菌株改良研究中应用基因工程方法,需要在诸如转录和翻译的事件中研究其遗传机制。测定诸如其UAS,启动子,内含子结构以及终止子的遗传序列对研究遗传机制是重要的。
按照本发明,编码涉及甲羟戊酸途径的酶的基因克隆自P.rhodozyma的基因组DNA,测定其含有包括其5′-和3′-邻近区域以及其内含子结构的HMG-CoA合酶(hmc)基因,HMG-CoA还原酶(hmg)基因,甲羟戊酸(mvk)基因,甲羟戊酸焦磷酸脱羧酶(mpd)基因和FPP合酶(fps)基因的基因组序列。
首先,我们用简并PCR法克隆了含有一部分hmc基因,hmg基因,mvk基因,mpd基因和fps基因的部分基因片段。所述的简并PCR是一种克隆与源自其它物种的并具有相同或相似的功能的已知酶有高度同源性的氨基酸序列的目的基因的方法。在简并PCR中引作引物的简并引物通过将氨基酸序列反译成相应的核苷酸(简并的)而设计。在这种简并引物中,通常使用由任何A,C,G或T组成的混合引物或者在多义密码子处含有肌苷的引物。在本发明中,使用这种混合引物以克隆上述基因。使用的PCR条件根据引物和如下所述克隆的基因而变化。
用由上述的简并PCR所得的部分DNA片段在标记后作为探针通过筛选合适的宿主中的菌体载体或质粒载体中构建的基因组文库而可将含有带有内含子以及其调节区域如启动子或终止子的编码区域的完整基因可从染色体上克隆下来。一般地,E.coli作为宿主菌株而E.coli载体,噬菌体载体如λ噬菌体载体,或诸如pUC(载体的质粒载体通常用于构建文库以及下列遗传操作中,如测序,限制酶消化,连接等。在本发明中,根据插入片段大小,将P.rhodozyma的EcoRI基因文库构建入λ载体,λZAPII和λDASHII的衍生物中。通过在构建文库前的Sonthem印迹杂交确定插入片段长度必须被克隆的插入片段大小。在本发明中,用作探针的DNA按供应商(Boehringer-Mannheim)的推荐方法用地高辛(DIG)标记(一种取代常规的32P标记的类固醇半抗原)。使用含有一部分目的基因作为探针的DIG-标记的DNA片段筛选构建于P.rhodozyma的染色体的基因文库。挑出杂交的噬斑并用于进一步研究。若用λDASHII(插入片段大小自9kb到23kb),所制备的λDNA用EcoRI消化,随后将该EcoRI插入片段克隆到诸如pUC19或pBluescriptIISK+的质粒载体中。当用λZAPII的构建基因文库,可方便地将体内切除法用于通过使用单链M13噬菌体的衍生物,Ex辅助噬菌体(Stratagene)克隆入质粒载体的随后步骤中。将如此所得的质粒DNA进行测序。
在本发明中,我们使用了自动荧光DNA测序仪,使用自循环测序方案的ALFred系统,其中在测序的大多数情况下都使用Taq DNA聚合酶。
测定基因组序列后,用一个编码区的序列来克隆相应的基因的cDNA。还可使用PCR法克隆cDNA片段。合成了加入了合适的限制酶位点的其序列与开放阅读框(ORF)的5′-和3′端的序列相同的PCR引物,并且使用这些PCR引物进行PCR。在本发明中,cDNA库用作此cDNA PCR克隆中的模板。所说的cDNA库由各种通过病毒反转录酶和Taq聚合酶(CapFinder试剂盒,由Clontech制备)并使用获自P.rhodozyma的mRNA作为模板体外合成的cDNA组成。如此获得的目的cDNA的序列已被证实。此外,如此获得的cDNA用于在将该cDNA片段克隆到表达载体中后证实其酶活性,而该载体在E.coli中于诸如lac或T7表达系统的强启动子活性下起作用。
在证实该酶活性后,纯化表达的蛋白质并用于产生针对该纯化酶的抗体。如此制备的抗体用于菌株改良研究中,培养条件最优化研究中以及类似研究中的相应的酶的表达的表征。
在确定了由多步骤酶促反应组成的生物合成途径中的限速步骤后,有三种通过使用其基因组序列提高限速反应的酶活性的策略。
一个策略是用其天然形式的基因本身。最简便的方法是扩增包括其诸如启动子和终止子的调控序列的基因组序列。这通过将编码目的酶的基因组片段克隆入其上带有在P.rhodozyma中起作用的可选择标记的合适载体中来实现。编码使得宿主在有毒抗生素存在下存活的酶的耐药基因通常用作可选择标记。pGB-Ph9(Wery等(Gene,184,89-97,1997))中所带的G418抗性基因是耐药基因的一个例子。营养互补标记也可用于具有合适的营养缺陷型标记的宿主中。其生长需要胞苷的P.rhodozyma ATCC 24221株是营养缺陷型的一个例子。通过使用CTP合酶作为ATCC24221的供体DNA,可建立使用营养互补的宿主载体系统。作为载体,可使用两种类型的载体。一种是不具有自主复制序列的整合的载体。上述的pGB-Ph9是此类载体的一个例子。由于这种载体没有自主复制序列,上述载体不能自我复制而仅能以整合的形式存在于作为用载体和染色体间同源序列的单杂交重组的结果的宿主的染色体上。在染色体上整合基因增加剂量的情况下,通常使用通过这种耐药标记的基因的扩增。随着选择性培养基中相应的药物浓度的升高,仅有那些其中在染色体上由于重组所致的整合基因被扩增的菌株存活。通过使用这种选择,可选择出具有扩增的基因的菌株。另一类型的载体是具有自主复制序列的可复制载体。这种载体以多拷贝状态存在并且这使得所带的基因的剂量也以多拷贝状态存在。通过使用这种策略,扩增的基因编码的目的酶可望被超表达。
另一个超表达目的酶的策略是使目的基因置于强启动子的控制下。在此策略中,基因的拷贝数无需以多拷贝状态存在。该策略还用于超表达在其活性在合适的生长期和合适的培养时间调控下被诱导的合适的启动子控制下的目的基因。在诸如在次级代谢产生的生长晚期,变胞藻黄素的生成加速。因此,胡萝卜素生成基因的表达可在生长晚期达到最大化。在该期间,大多数生物合成酶的基因表达降低。例如,将涉及变胞藻黄素前体的生物合成且其表达在营养启动子控制下的基因(如编码涉及甲羟戊酸途径的酶的基因)置于胡萝卜素生成基因的下游,那么所有的涉及变胞藻黄素生物合成的基因表达的间调控和生长期都会是同步的。
还有一个超表达目的酶的策略是诱导其调控元件中的突变。为此目的,将诸如β-半乳糖苷酶基因,荧光素酶,编码绿色荧光蛋白的基因等的一种报告基因插入该目的基因的启动子和终止子序列之间从而使得包括启动子,终止子和该报告基因的所有部分相互融合并相互作用。体内诱变其中在染色体或载体上导入了所说的报告基因的转化的P.rhodozyma,以在该目的基因的启动子区域诱发突变。可通过检测该报告基因编码的活性的变化来监测突变。若突变发生在该基因的顺式元件中,突变点可通过拯救突变的基因和测序而确定。通过天然启动子序列和突变的序列间的重组而将测定的突变导入染色体上的启动子区域。按相同的方法,还得到编码反式作用因子的基因中发生的突变。其也影响目的基因的超表达。
还可以通过体外诱变启动子区域的顺式元件而诱导突变。在此方法中,还可诱变含有融合到衍生于目的基因的5′端的启动子区域以及目的基因的3′端的终止子区域的报告基因的基因盒并接着将其导入P.rhodozyma中。通过检测该报告基因的活性的差异,可筛选到有效的突变。该突变可通过相同于体内突变的方法导入染色体上天然启动子区域的序列中。
作为供体DNA,可单独导入或通过存在于质粒载体而共导入编码甲羟戊酸途径的酶或FPP合酶的基因。可使用相同于其天然序列的编码序列,以及其等位基因突变体,即只要其相应的酶具有所述的酶活性的具有一个或多个氨基酸加入,缺失和/或取代的序列。并且这种载体可通过转化而导入P.rhodozyma中,而转化体可通过将所转化的细胞涂布于合适的选择培养基如含有遗传霉素的YPD琼脂培养基(pGB-Ph9作为载体)或没有胞苷的基本琼脂培养基上(用营养缺陷型ATCC 24221作受体)。
这种基因工程P.rhodozyma培养于合适的培养基并评估其变胞藻黄素生产能力。如此选择的变胞藻黄素的超级生产者可通过其生产能力和通过这种基因工程方法导入的基因或蛋白表达的水平间的关系而确认。
实施例
在下述实施例中使用下列方法和材料:
菌株:
P.rhodozyma ATCC 96594(此菌株已在1998年4月8日按布达佩斯条约以入藏号74438被再保藏)。
E.coli DH5α:F,φ80d,lacZΔM15,Δ(lacZYA-argF)U169,hsd(rK-, mK+),recA1,endA1,deoR,thi-1,supE44,gyrA96,relA1(Toyobo)
E.coli XL1-Blue MRF’:Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,recA1,gyrA96,relA1,lac[F’proAB,lacIqZΔM15,Tn10(tetr)](Stratagene)
E.coli SOLR:e14-(mcrA),Δ(mcrCB-hsdSMR-mrr)171,sbcC,recB,recJ,umuC::Tn5(kanr),uvrC,lac,gyrA96,relA1,thi-1,endA1,λR,[F’proAB,lacIqZΔM15]Su-(非抑制的)(Stratagene,CA,USA)
E.coliXL1 MRA(P2):Δ(mcrA)183,Δ(mcrCB-hsdSMR-mrr)173,endA1,supE44,thi-1,gyrA96,relA1,lac(P2溶源体)(Stratagene)
E.coli BL21(DE3)(pLysS):dcm-,ompTrB -mB -lon-λ(DE3),pLysS(Stratagene)
E.coli M15(pREP4)(QIAGEN)(Zarnenhof P.J.et al.,J.Bacteriol.110,171-178,1972)
E.coli KB822:pcnB80,zad::Tn10,Δ(lacU169),hsdR17,endA1,thi-1,supE44
E.coli TOP10:F-,mcrA,Δ(mrr-hsdRMS-mcrBC),φ80,ΔlacZ M15,ΔlacX74,recA1,deoR,araD139,(ara-leu)7697,galU,galK,rpsL(StrT),endA1,nupG(Invitrogen)
载体
λZAPII(Stratagene)
λDASHII(Stratagene)
pBluescriptIISK+(Stratagene)
pUC57(MBI Fermentas)
pMOSBlue T-载体(Amersham)
pET4c(Stratagene)
pQE30(QIAGEN)
pCR2.1TOPO(Invitrogen)
培养基
将P.rhodozyma常规维持于YPD培养基(DIFCO)。E.coli株维持于LB培养基(每升10g Bacto-trypton,5g酵母提取物(DIFCO)和5g NaCl)。NZY培养基(每升5g NaCl,2g MgSO4-7H2O,5g酵母抽提物(DIFCO),10g NZ的A型胺(Sheffield))用于λ噬菌体在软琼脂(0.7%琼脂(WAKO))中增殖。当制备琼脂培养基时,补充1.5%琼脂(WAKO)。
方法
一般的分子遗传方法参照分子克隆:实验手册,第2版(冷泉港实验室出版社,1989)。限制性酶和T4 DNA连接酶购自Takara Shuzo(日本)。
用QIAGEN基因组试剂盒(QIAGEN)按生产商提供的方案进行源自P.rhodozyma的染色体DNA的分离。用自动DNA分离系统(PI-50,Kurabo,Co.Ltd,Japan)进行转化的E.coli的质粒DNA的小规模制备。用QIAGEN柱(QIAGEN)进行E.coli转化体的质粒DNA的小规模制备。通过Wizardλ制备型DNA纯化系统(Promega)按制造商的方案进行λDNA的分离。分离DNA片段从琼脂糖中的分离和纯化通过QIAquick或QIAEXII(QIAGEN)进行。按照制造商(Stratagene)的方法进行λ噬菌体衍生物的操作。
通过苯酚法用Isogen(Nippon Gene,Japan)进行P.rhodozyma的总RNA分离。用mRNA分离试剂盒(clontech)从如此获得的总RNA中纯化mRNA。用CapFinder cDNA构建试剂盒(Clontech)合成cDNA。
用Gigapaek IIIgold包装抽提物进行体外包装。
用Perkin Elmer 2400型热循环仪进行PCR。每个PCR条件如实施例中所述。PCR引物购自厂商或用DNA合成仪(392型,Applied Biosystem)合成。DNA测序用的荧光DNA引物购自Pharmacia。DNA测序用自动荧光DNA测序仪(ALFred,Pharmacia)进行。
DH5α的感受态细胞购自Toyobo(Japan)。M15(pREP4)的感受态细胞通过如Sambrook等(分子克隆:实验室手册,第2版,冷泉港实验室出版社,1989)用CaCl2法制备。
实施例1分离P.rhodozyma的mRNA并构建cDNA文库
为构建P.rhodozyma的cDNA文库,在细胞破裂后立即通过苯酚抽提法分离总RNA并用mRNA制备试剂盒(Clontech)纯化P.rhodozyma ATCC96594的mRNA。
首先,离心(1500×g,10分钟)收获10ml YPD培养基中的二天培养物中的ATCC 96594菌株的细胞并用抽提缓冲液洗涤一次(10mM柠檬酸钠/HCl(pH6.2),含0.7M HCl)。悬浮于2.5ml的抽提缓冲液中后,用弗氏压碎匀浆器(Ohtake Works Corp.,Japan)以1500kgf/cm2破碎细胞并立即与两倍体积的isogen(Nippon gene)按制造商的推荐方法混合。在此步骤中,回收了400μg总RNA。
然后,用mRNA分离试剂盒(Clontech)按制造商所述的方法纯化总RNA。最后,获得P.rhodozyma ATCC 96594株的16μgmRNA。
为构建cDNA文库,按制造商所述的方法使用CapFinder PCR cDNA构建试剂盒(Clontech)。1μg纯化的mRNA用于第一链合成,接着进行PCR扩增。此PCR扩增后,得到1mg cDNA库。
实施例2克隆P.rhodozyma的部分hmc(3-羟-3-甲基戊二酰-CoA合酶)基因
为了克隆P.rhodozyma的部分hmc基因,使用简并的PCR法。根据来自与其它种的已知的HMG-CoA合酶基因的共有序列,如表1所示设计和合成了两个混合引物的核苷酸序列。
表1
用于克隆hmc基因的引物序列
Hmgsl  GGNAARTAYACNATHGGNNYTNGGNCA(有义引物)(SEQ IDNO:11)
Hmgs3  TANARNSNNSWNGTRTACATR TINCC(反义引物)(SEQ ID NO:12)CN=A,C,G或T,R=A或G,Y=C或T,H=A,T或C,S=C或G,W=A或T)
通过使用ExTaq(Takara Shuzo)作为DNA多聚酶和实施例1所得的cDNA库作为模板的95℃下30秒,50℃下30秒和72℃下15秒的25个循环的PCR反应后,将反应混合物进行琼脂糖凝胶电泳。回收具有所需的长度的PCR带并通过QIAquick(QIAGEN)按制造商的方法纯化,接着连接到pMOSBlue-T-载体(Amersham)上。感受态E.coli DH5α转化后,挑选出6个白色的菌落并用自动DNA分离系统分离质粒。测序后,发现有一个克隆的序列的推定氨基酸类似于已知的hmc基因。此分离的cDNA克隆称为pHMC 211并用于进一步研究。
实施例3  分离P.rhodozyma的基因组DNA
为了分离P.rhodozyma的基因组DNA,按制造商的方法使用QIAGEN基因组试剂盒。
首先,离心(1500×g,10分钟)收获100ml YPD培养基过夜培养物中P.rhodozyma ATCC 96594菌株的细胞并用TE缓冲液(10mMTris/HCl(pH8.0),含1mM EDTA)洗涤一次。悬浮于QIAGEN基因组试剂盒的8ml Y1缓冲液后,以2mg/ml的浓度加入溶细胞酶以酶解破裂细胞并将反应混合物在30℃下培育90分钟,然后进行下一步的抽提步骤。最后,得到20μg基因组DNA。
实施例4用pHMC 211作为探针的Southern印迹杂交
进行Sonthern印迹杂交以克隆含有P.rhodozyma的hmc基因的基因组片段。用EcoRI消化2μg基因组DNA并进行琼脂糖凝胶电泳,然后通过酸和碱处理。将变性的DNA通过电转移一小时转移到尼龙膜(Hybond N+,Amersham)。热处理固定(80℃,90分钟)转移到尼龙膜上的DNA。通过用DIG多引发法(multipriming)(Boehringer Manheim)标记模板DNA(EcoRI和SalI消化的pHMC 211)制备探针。用制造商的方法进行杂交。结果,在3.5-4.0kb的范围内见到了杂交带。
实施例5克隆含hmc基因的基因组片段
用EcoRI消化4μg基因组DNA并进行琼脂糖凝胶电泳。然后,按制造商的方法通过QIAEX II凝胶抽提试剂盒(QIAGEN)回收长度在3.0到5.0kb范围的DNA。在16℃过夜的条件下将纯化的DNA连接到1μg EcoRI消化的和CIAP(牛小肠碱性磷酸酶)处理的λZAPII(Stratagene),并通过Gigpack III gold包装抽提物(Stratagene)包装。将包装的抽提物感染到E.coliXL1Blue MRF′菌株并用注入到LB琼脂培养基上的NZY培养基覆盖。用EcoRI-和SalI-消化的pHMC 211作为探针筛选大约6000个噬斑。两个噬斑杂交到标记的探针并按制造商(Stratagene)的方法进行体内切除方案。限制性酶切和测序发现分离的质粒在相反方向上有彼此相同的片段。测序发现所得的EcoRI片段含有与pHMC 211克隆的相同的核苷酸序列。其中一个这样的质粒称为pHMC 526并用于进一步研究。测序pHMC 526的缺失衍生物以及用引物步移方案测序得到完整的核苷酸序列。pHMC 526的插入片段由3431个核苷酸组成,其含有10个完整和1个不完整的外显子和带有约1kb3′非翻译区的10个内含子。
实施例6克隆hmc基因的上游区域
由于pHMC 526不含hmc基因的5′端,所以通过用Genome Walker试剂盒(Clontech)进行hmc基因的5′附近区域的克隆。首先,合成序列如表2所示的PCR引物。
表2
用于克隆hmc基因的5′附近区域的引物序列
Hmc21;GAAGAACCCCATCAAAAGCCTCGA(一级引物)(SEQ ID NO:13)
Hmc22;AAAAGCCTCGAGATCCTTGTGAGCG(嵌套引物)(SEQ ID NO:14)
文库构建方法和PCR条件如制造商所述,用实施例3所得的基因组DNA作为PCR模板。回收在5′端(0.45kb)有EcoRV位点,以及在5′端(2.7kb)有PvuII位点的PCR片段并用E.coli DH5α作为宿主菌株将其克隆到pMOSBlue T-载体。测序两个构建体的各5个独立的克隆证实克隆了hmc基因的5′附近区域并发现了其3′端的EcoRI片段的小部分(0.1kb)。上述实验中通过PvuII构建体所得的克隆称为pHMCPv708并用于进一步研究。
接着,按上文实施例4所述方法进行Southem印迹分析,并测定了存在于3kb EcoRI片段中的hmc基因的5′附近区域。在λZAPII中构建2.5-3.5kb EcokI文库后,筛选600个噬斑并选出6个阳性克隆。测序这6个克隆表明其中的4个克隆具有如pHMCPv708的同样序列,而其中的一个称为pHMC723并用于进一步分析。
合成序列如表3所示的PCR引物以克隆位于P.rhodozyma染色体上的3.5kb和3.0kb EcoRI片段之间的小(0.1kb)EcoRI片段。
表3
用于克隆hmc基因的小EcoRI部分的引物序列
Hmc30;AGAAGCCAGAAGAGAAA(有义引物)(SEQ ID NO:15)
Hmc31;TCGTCGAGGAAAGTAGAT(反义引物)(SEQ ID NO:16)
PCR条件相同于实施例2所示。将扩增的片段(长度为0.1kb)克隆到pMOSBlue T-载体并转化E.coli DH5α。从5个独立的白色菌落制备质粒并进行测序。
从而,确定了该核苷酸序列(4.8kb)含有hmc基因(序列1)。编码区在2432bp中,其由11个外显子和10个内含子组成。内含子分散于全部编码区而没有5′或3′的倾向性。发现开放阅读框由467个氨基酸(序列6)组成,其序列严格地类似于源自其它物种的HMG-CoA合酶的已知的氨基酸序列(与Schizosaccharomyces pombe的HMG-CoA合酶有49.6%的相同性)。
实施例7在E.coli中表达hmc基因以及证实其酶活性
合成序列如表4所示的PCR引物以克隆hmc基因的cDNA片段。
表4
用于克隆hmc基因的cDNA的引物序列
Hmc25;GGTACCATATGTATCCTTCTACTACCGAAC(有义引物)(SEQ IDNO:17)
Hmc26;GCATGCGGATCCTCAAGCAGAAGGGACCTG(反义引物)(SEQ IDNO:18)
PCR条件如下:95℃,30秒;55℃,30秒以及72℃,3分钟;共25个循环。用0.1μg获自实施例2的cDNA库作模板,而Pfn聚合酶作为DNA聚合酶。回收所扩增的1.5kb片段并用完全平端化的克隆试剂盒(Novagen)按制造商的方法将其克隆到PT7Blue-3载体(Novagen)中。从E.coliDH5α转化体的白色菌落中筛选出六个独立克隆。限制性分析选出2个克隆用于进一步的测序筛选。一个克隆在280位有氨基酸取代(从甘氨酸到丙氨酸),而另一个在53位有取代(从丙氨酸到苏氨酸)。源自已知的hmc基因的氨基酸序列的排列表明在所有来自其它物种的序列中的280位的丙氨酸残基和甘氨酸残基依然存在,这个事实提示280位的氨基酸取代不影响其酶活性。选择此克隆(280位突变)作为随后表达实验的pHMC 731。
接着,将NdeI-和BamHI消化pHMC 731所得的1.5kb片段连接到用相同酶消化的pET 11c(Stratagene)并导入到E.coli DH5α中。限制性分析表明回收了具有正常结构(pHMC818)的质粒。然后,转化感受态的E.coliBL21(DE3)(pLysS)细胞(Stratagene),并选出具有正常结构的一个克隆用于进一步研究。
为了表达研究,在100ml含100μg/ml青霉素的LB培养基中于37℃下培养菌株BL21(pLysS)(pHMC 818)和载体对照菌株BL21(DE3)(pLysS)(pET 11c)直到600nm的OD达到0.8(约3小时)。然后,将该肉汤平均分成两部分,然后向其中的一部分加入1mM异丙基β-硫代吡喃半乳糖苷(IPTG)。再在37℃下继续培养4小时。从诱导的和非诱导的hmc克隆培养基以及载体对照培养基中取出25μl肉汤并进行十二烷基磺酸钠聚丙烯胺凝胶电泳(SDS-PAGE)分析。已表明大小类似于推定的核苷酸序列的分子量(50.8kDa)的蛋白质仅在诱导的带有pHMC 818的克隆中表达。离心(1500×g,10分钟)收获50ml肉汤中的细胞,洗涤一次,并悬浮于2ml hmc缓冲液(200m MTris-HCl(pH8.2))中。用弗氏压碎匀浆仪(Ohtake Works)以1500kgf/cm2破碎细胞得到粗裂解液。离心该粗裂解液,回收上清液并用作酶分析的粗抽提物。仅在诱导的pHMC 818克隆的裂解液中,旋转下得到白色颗粒并回收。按Stewart等(生物化学杂志,241(5),1212-1221,1996)的方法通过光度计检测进行3-羟-3-甲基戊二酰-CoA(HMG-CoA)合酶的酶分析。在全部粗提物中没检测到3-羟-3-甲基戊二酰-CoA合酶的活性。粗抽提物的SDS-PAGE分析表明在表达的肉汤中发现的表达蛋白带消失了。随后,将从诱导的pHMC 818克隆的粗裂解液中回收的白色颗粒用8M盐酸胍增溶,然后进行SDS-PAGE分析。在白色的颗粒中回收已表达的蛋白,并且提示表达的蛋白形成包涵体。
接着,进行了在较温和的条件的表达实验。细胞在28℃下在LB培养基中生长并通过加入0.1mM IPTG进行诱导。然后,在28℃再培养3.5小时并收获细胞。按相同于前述的方案制备粗提物。结果总结于表5。表明仅在带有hmc基因的重组菌株的诱导培养基中观察到HMG-CoA合酶活性,这提示克隆的hmc基因编码HMG-CoA合酶。
表5
hmc cDNA克隆的酶特征
    质粒     IPTG     HMG-CoA的μmol/分钟/mg-蛋白
    pHMC818     -+     00.146
    pET11c     -+     00
实施例8  克隆hmg(3-羟甲基-3-戊二酰-CoA还原酶)基因
hmg基因的克隆方案几乎相同于实施例2-7所示的hmc基因。首先,合成序列如表6所示的基于其它物种的HMG-CoA还原酶的共有序列的PCR引物。
表6
用于克隆hmg基因的引物序列
Red1;GCNTGYTGYGARAAYGTNATHGGNTAYATGCC(有义引物)(SEQ IDNO:19)
Red2;ATCCARTTDATNGCNGCNGGYTTYTTRTCNGT(反义引物)(SEQ IDNO:20)
(N=A,C,G或T;R=A或G,Y=C或T, H=A,T或C,D=A,G或T)
用ExTaq(Takara Shuzo)作为DNA聚合酶,95℃,30秒;54℃,30秒和72℃,30秒的25个循环后,琼脂糖凝胶电泳反应混合物。回收具有所需长度的PCR带并用按制造商的方法通过QIAquick(QIAGEN)纯化并连接到pUC57载体(MBI Fermentas)上。转化感受态的E.coli DH5α后,选出7个白色菌落并从那些转化体中分离质粒。测序发现所有的克隆均具有其推定的氨基酸序列类似于已知的HMG-CoA还原酶基因的序列。将其中的一个分离的cDNA克隆命名为pRED 1219并用于进一步的研究。
接着,用Genome Walker试剂盒(Clontech)克隆含有hmg基因的5′和3′-邻近区域的基因组片段。克隆了hrng基因的5′附近区域的2.5kb片段(pREDPVu 1226)和3’附近区域的4.0kb片段(pREDEVd 1226)。基于pREDPVu 1226插入片段的序列,合成了其序列如表7所示的PCR引物。
表7
用于克隆hmg基因的cDNA的引物序列
Red8;GGCCATTCCACACTTGATGCTCTGC(反义引物)(SEQ ID NO:21)
Red9;GGCCGATATCTTTATGGTCCT(有义引物)(SEQ ID NO:22)
然后,用Red 8和Red 9作为PCR引物以及实施例2制备的cDNA库克隆含有hmg cDNA序列的长部分的cDNA片段并将如此克隆的质粒称为pRED 107。PCR条件如下:94℃,30秒,55℃,30秒和72℃,1分钟;25个循环。
进行Sonthem印迹杂交以克隆含有P.rhodozyma的完整hmg基因的基因组序列。用DIG多引发法标记模板DNA,pRED 107制备探针。结果,标记的探针杂交到长度为12kb和4kb的两条带上。测序pREDPVu 1226发现在所克隆的hmg区域没有EcoRI位点。这提示另一种hmg基因(具有4kb的杂交的EcoRI)片段存在于如在其它生物体中发现的P.rhodozyma的基因组上。
接着,构建由λDASHII载体中的9-23kb的EcoRI片段组成的基因组文库。将包装的抽提物感染到E.coli XL1 Blue,MRA(P2)菌株(Stratagene)并用注入LB琼脂培养基的NZY培养基覆盖。用StuI-消化的pRED 107的0.6kb片段作为探针筛选5000个噬斑。4个噬斑与标记的探针杂交。然后,制备噬菌体裂解液并按制造商(Promega)所述的方法用Wizardλ纯化系统纯化DNA并用EcoRI消化以分离10kb EcoRI片段并克隆到EcoRI-消化的和CIAP处理的pBluescriptII KS-(Stratagene)中。选出11个白色菌落并用Red 9和-40通用引物(Pharmacia)进行菌落PCR。PCR反应前通过加热细胞悬浮液(其中挑出的菌落悬浮于10μl无菌水中,99℃,5分钟)制备菌落PCR的模板DNA(PCR条件:94℃,30秒;55℃,30秒;72℃,3分钟;25个循环)。一个菌落给出了4kb的阳性PCR带,这提示此克隆带有含有hmg基因的完整区域。制备此阳性克隆的质粒并命名为pRED 611。随后,测序pRED 611的缺失衍生物。通过结合获自缺失突变体的序列以及来自引物步移方法的序列,测定了包括P.rhodozyma的hmg基因的7285bp的核苷酸序列(序列号2)。P.rhodozyma的hmg基因由10个外显子和9个内含子构成。长度为1092个氨基酸的推定的氨基酸序列(序列7)表明与已知的HMG-CoA还原酶的广泛的同源性(与玉蜀黍黑粉菌的HMG-CoA还原酶有53.0%的相同性)。
实施9在E.coli中表达hmg基因的羧基末端区
一些物种的原核生物具有可溶的HMG-CoA还原酶或相关的蛋白(Lam等,生物化学杂志,267,5829-5834,1992)。然而,HMG-CoA在真核生物中通过氨基-末端膜区域结合到内质网(Skalnik等,生物化学杂志,263,6836-6841,1988)。在真菌(如酿酒酿母和黑粉菌,玉蜀黍黑粉菌)和动物中,该膜区域是大的和复杂的,包括七个或八个穿膜区段(Croxen等,微生物学,140,2363-2370,1994)。相对照地,植物HMG-CoA还原酶的膜区域仅含一个或二个穿膜区段(Nelson等,植物分子生物学,25,401-412,1994)。尽管穿膜区域的结构和序列不同,该催化区域的氨基酸序列在真核生物,古细菌和真细菌中是保守的。
Croxen等指出衍生于玉米真菌病原体,玉蜀黍黑粉菌的HMG-CoA还原酶的C末端区以活性形式在E.coli中表达(微生物学,140,2363-2370,(1994)。本发明人试图在E.coli中表达P.rhodozyma的HMG-CoA还原酶的C-末端区域以证实其酶活性。
首先,合成其序列如表8所示的PCR引物以克隆hmg基因的部分cDNA片段。有义引物序列对应于起始于第597个氨基酸(谷氨酸)残基的序列,而期望获得的蛋白质和cDNA的长度分别为496aa和1.5kb。
表8
用于克隆hmg基因的部分cDNA的引物序列
Red54;GGTACCGAAGAAATTATGAAGAGTGG(有义引物)(SEQ IN NO:23)
Red55;CTGCAGTCAGGCATCCACGTTCACAC(反义引物)(SEQ ID NO:24)
PCR条件如下:95℃,30秒;55℃,30秒和72℃,3分钟;25个循环。使用0.1μg实施例2所得的cDNA作为模板,ExTaq聚合酶作DNA聚合酶。回收所扩增的1.5kb片段并克隆到pMOSBlue T-载体(Novagen)中。从E.coli DHα5转化体的白色菌落中选出12个独立克隆并从中制备质粒。限制性分析的结果是选择了全部这些克隆用于进一步测序筛选。在全部编码序列中没有氨基酸取代的一个克隆被命名为pRED 908。
接着,将KpnI-和PstI消化pRED 908所得的1.5kb片段连接到用相同酶消化的pQE30(QIAGEN)上并导入E.coli KB822中。限制性分析表明回收了具有正确结构(pRED 1002)的质粒。然后,转化感受态的E.coli M15(pREP4)细胞(QIAGEN),并选出具有正确结构的一个克隆用于进一步研究。
为了表达研究,在100ml含25μg/ml卡那霉素和100μg/ml青霉素的LB培养基中于30℃下培养菌株M15(pREP4)(pRED 1002)和载体对照菌株M15(pREP4)(pQE 30)直到600nm的OD达到0.8(约5小时)。然后,将该肉汤平均分成两部分,然后向其中的一部分加入1mM异丙基β-硫代吡喃半乳糖苷(IPTG)。再在30℃下继续培养3.5小时。从诱导的和非诱导的hmc克隆培养基以及载体对照培养基中取出25μl肉汤并进行SDS-PAGE分析。已表明大小类似于推定的核苷酸序列的分子量(52.4Da)的蛋白质仅在诱导的带有pRED 1002的克隆中表达。离心(1500×g,10分钟)收获50ml肉汤中的细胞,洗涤一次,并悬浮于2ml hmc缓冲液(100mM磷酸钾缓冲液(pH7.0),含1mM EDTA和10mM二硫代苏糖醇)中。用弗氏压碎匀浆仪(Ohtake Works)以1500kgf/cm2破碎细胞得到粗裂解液。离心该粗裂解液,回收上清液并用作酶分析的粗抽提物。仅在诱导的pRED 1002克隆的裂解液中,旋转下得到白色颗粒并回收。按Servouse等(生物化学杂志,240,541-547,1986)的方法通过光度计检测进行3-羟-3-甲基戊二酰-CoA(HMG-CoA)合酶的酶分析。在全部粗提物中没检测到3-羟-3-甲基戊二酰-CoA合酶活性。粗抽提物的SDS-PAGE分析表明在表达的肉汤中发现的表达蛋白带消失了。随后,将从诱导的pRED 1002克隆的粗裂解液中回收的白色颗粒用等体积的20%SDS增溶,然后进行SDS-PAGE分析。在白色的颗粒中回收已表达的蛋白,并且提示表达的蛋白形成包涵体。
接着,进行了在较温和的条件的表达实验。细胞在28℃下在LB培养基中生长并通过加入0.1mM IPTG进行诱导。然后,在28℃再培养3.5小时并收获细胞。按相同于前述的方案制备粗提物。结果总结于表9。表明观察到30倍高的诱导,这提示克隆的hmc基因编码HMG-CoA合酶。
表9
hmg cDNA克隆的酶特征
    质粒     IPTG     NADPH的μmol/分钟/mg-蛋白
    pRED1002     -+     0.0020.059
    pQE30     -+     00
实施例10克隆甲羟戊酸激酶(mvk)基因
mvk基因的克隆方案几乎相同于实施例2-7所示的hmc基因。首先,合成序列如表10所示的基于其它物种的甲羟戊酸激酶的共有序列的PCR引物。
表10
用于克隆mvk基因的引物序列
Mk1;GCNCCNGGNAARGTNATHYTNTTYGGNGA(有义引物)(SEQ IDNO:25)
Mk2;CCCCANGTNSWNACNGCRTTRTCNACNCC(反义引物)(SEQ IDNO:26)
(N=A,C,G或T;R=A或G,Y=C或T,H=A,T或C,S=C或G,W=A或T)
用ExTaq作为DNA聚合酶,95℃,30秒;46℃,30秒和72℃,15秒的25个循环后,琼脂糖凝胶电泳反应混合物。回收其长度预计含有部分mvk基因的0.6kb PCR带并用按制造商的方法通过QIAquick(QIAGEN)纯化并连接到pMOSBlue T-载体。转化感受态的E.coli DH5α后,选出4个白色菌落并从那些转化体中分离质粒。测序发现其中的一个克隆具有其推定的氨基酸序列类似于已知的甲羟戊酸激酶基因的序列。将该cDNA克隆命名为pMKl28并用于进一步的研究。
接着,PCR克隆包括mvk基因的部分基因组克隆。合成序列如表11所示的基于pMK128的内部序列的PCR引物。
表11
用于克隆含mvk基因的基因组DNA的引物序列
Mk5;ACATGCTGTAGTCCATG`(有义引物)(SEQ ID NO:27)
Mk6;ACTCGGATTCCATGGA(反义引物)(SEQ ID NO:28)
PCR条件是:94℃,30秒;55℃,30秒;72℃,1分钟,25个循环。将所扩增的1.4kb片段克隆到pMOSBlue T-载体中。测序证实可得到具有典型的内含子结构的含mvk基因的基因组片段并命名该基因组克隆为pMK224。
进行Southem印迹杂交以克隆含有P.rhodozyma的完整mvk基因的基因组片段。通过用DIG多引发法标记模板DNA,用NcoI消化PMK 224来制备探针。按制造商的方法进行杂交。结果,标记的探针杂交到长度为6.5kb的带上。接着,在λZAPII载体中构建由5-7kb EcoRI片段构成的基因组文库。感染包装的抽提物到E.coli XL1Blue,MRF′株(Stratagene)并用注入到LB琼脂培养基上的NZY培养基覆盖。用0.8kb的NcoI消化的pMK224片段作为探针筛选大约5000个噬斑。七个噬斑杂交到标记的探针上。然后,按制造商(Stratagene)的方法制备噬菌体裂解液并用E coli XL1BlueMRF′和SOLR菌株进行体内切除。选出14个白色菌落并从中分离质粒。然后,用NcoI消化分离的质粒并用噬菌杂交的探针进行Southern印迹杂交。全部质粒的插入片段均杂交到探针,这提示可克隆含mvk基因的基因组片段。制备源自其中一个阳性克隆的质粒并命名为pMK701。用引物步移法测定了约3kb的序列并发现该mvk基因的5′端不包括在pMK701中。
接着合成具有序列TTGTTGTCGTAGCAGTGGGTGAGAG(序列29)的PCR引物以按制造商(Clontech)的方法用Genome Walker试剂盒克隆mvk基因的5′附近基因区域。扩增特定的1.4kb的PCR带并克隆λpMOSBlue T-载体。所选的全部DH5α转化体均具有期望长度的插入片段。随后的测序表明可克隆mvk基因的5′-附近区域。命名其中的一个克隆为pMKEVR 715并用于进一步研究。用实施例3制备的基因组DNA的Sonthem印迹杂交表明所标记的pMKE VR 715杂交到2.7kb的EcoRI带上。构建其中的长度从1.4到3.0kb的EcoRI片段被克隆入λZAPII的基因文库并用1.0kb的pMKEVR 715的EcoRI片段筛选。从5000个噬斑中筛选出14个阳性噬斑并用体内切除法从其中制备质粒。
合成源于pMKEVR 715的内序列的如表12所示的PCR引物以用菌落PCR筛选阳性克隆。
表12
用于克隆mvk基因的5′附近区域的PCR引物
Mk17;GGAAGAGGAAGAGAAAAG(有义引物)(SEQ ID NO:30)
Mk18;TTGCCGAACTCAATGTAG(反义引物)(SEQ ID NO:31)
PCR条件如下:94℃,30秒;50℃,30秒和72℃,15秒,25个循环。从除了一个克隆外的全部候选克隆得到了阳性的0.5kb。选择其中的一个克隆并命名为pMK 723以测定mvk基因的上游区序列。测序pMK 723的3’区域并结合pMK 701序列,测序了含mvk基因的4.8kb片段的基因组序列。mvk基因由4个内含子和5个外显子(序列3)组成。除了氨基端的4个氨基酸外的推定氨基酸序列(序列8)表现出与已知的甲羟戊酸激酶的广泛的同源性(与Rattus norvegicus的甲羟戊酸激酶有44.3%的相同性)。
实施例11  通过在氨基末端区域引入1个碱基表达mvk基因
虽然该氨基酸序列表现出与已知的甲羟戊酚激酶的显著的同源性,但没发现mvk基因的合适起始密码子。此结果提示该克隆的基因可能为甲羟戊酸激酶的假基因。为证实此推测,合成了序列如表13所示的PCR引物以及引入人工核苷酸,其能导致在氨基端的合适起始密码子的产生。
表13
用于将核苷酸引入到mvk基因中的PCR引物
Mk33;GGATCCATGAGAGCCCAAAAAGAAGA(有义引物)(SEQ IDNO:32)
Mk34;GTCGACTCAAGCAAAAGACCAACGAC(反义引物)(SEQ IDNO:33)
如此导入的人工氨基末端序列如下:NH2-Met-Arg-Ala-Gln。通过用ExTaq聚合酶作为DNA聚合酶,95℃,30秒;55℃,30秒和72℃,30秒;25个循环的PCR反应后,琼脂糖电泳该反应混合物。扩增了期望的1.4kb PCR带并克隆到pCR2.1 TOPO载体中。转化感受态E.coli TOP10细胞后,选出6个白色菌落并分离质粒。测序发现有一个克隆仅含一个氨基酸残基的改变(序列8中81位氨基酸残基处,Asp变成Gly)。命名此质粒为pMK11130#3334并用于进一步研究。然后,克隆pMK1130#3334的插入片段到pQE 30。命名此质粒为pMK1209#3334。转化表达的宿主M15(pREP4)后进行表达研究。将M15(pREP4)(pMK1209#3334)菌株和载体对照菌体(M15(pREP4)(pQE30))接种到含有100μg/ml氨苄青霉素的3ml的LB培养基中。37℃下培养3.75小时后,将所培养的肉汤分成两份。向一份中加入1mM IPTG并继续培养3小时。从50μl肉汤中离心收获细胞并进行SDS-PAGE分析。将具有期望的48.5kDa的分子量的蛋白通过加入IPTG到M15(pREP4)(pMK1209#3334)的培养物中而诱导,虽然在载体对照培养中没观察到诱导蛋白带(图2)。此结果提示甲羟戊酸激酶的活性形式可通过在氨基端人工加入一个核苷酸而被表达。
实施例12克隆甲羟戊酸磷酸脱羧酶(mpd)基因
mpd基因的克隆方案几乎相同于实施例2-7所示的hmc基因。首先,合成序列如表14所示的基于其它物种的HMG-CoA还原酶的共有序列的PCR引物。
表14
用于克隆mpd基因的引物序列
Mpd1;HTNAARTAYTTGGGNAARMGNGA(有义引物)(SEQ ID NO:34)
Mpd2;GCRTTNGGNCCNGCRTCRAANGTRTANGC(反义引物)(SEQ IDNO:35)
(N=A,C,G或T;R=A或G,Y=C或T,H=A,T或C,M=A或C)
用ExTaq作为DNA聚合酶,95℃,30秒;50℃,30秒和72℃,15秒的25个循环后,琼脂糖凝胶电泳反应混合物。回收其长度预计含有部分mpd基因的0.9kb PCR带并用按制造商的方法通过QIAquick纯化并连接到pMOSBlue T-载体上。转化感受态的E.coli DH5α后,选出6个白色菌落并分离质粒。6个克隆中的2个有期望长度的插入片段。测序发现其中的一个克隆具有其推定的氨基酸序列类似于已知的甲羟戊酸焦磷酸脱羧酶基因的序列。该cDNA克隆命名为pMPD129并用于进一步的研究。
接着,PCR克隆包括mpd基因的部分基因组。条件相同的部分cDNA片段的克隆的PCR表明得到了扩增的1.05kb片段并克隆到pMOSBlue T-载体中。测序证实可得到具有典型的内含子结构的含mpd基因的基因组片段并命名该基因组克隆为pMPD 220。
进行Southern印迹杂交以克隆含有P.rhodozyma的完整mpd基因的基因组片段。通过用DIG多引发法标记模板DNA,用KpnI消化pMPD 220来制备探针。按制造商的方法进行杂交。结果,标记的探针杂交到长度为7.5kb的带上。接着,在λZAPII载体中构建由6.5-9.0kb EcoRI片段构成的基因文库。感染包装的抽提物到E.coli XL1Blue,MRF′株(Stratagene)并用注入到LB琼脂培养基上的NZY培养基覆盖。用0.6kb的KpnI消化的pMPD220片段作为探针筛选大约6000个噬斑。四个噬斑杂交到标记的探针。然后,按制造商(Stratagene)的方法制备噬菌体裂解液并用E coli XL1Blue MRF′和SOLR菌株进行体内切除。各选出三个得自4个阳性噬斑的白色菌落并从中分离质粒。然后,对分离的质粒进行菌落PCR,方法如实施例8。合成基于pMPD129中发现的序列的如表14所示的PCR引物并用于菌落PCR。
表15
用于克隆基因组mpd克隆的菌落PCR的引物序列
Mpd7;CCGAACTCTCGCTCATCGCC(有义引物)(SEQ ID NO:36)
Mpd8;CAGATCAGCGCGTGGAGTGA(反义引物)(SEQ ID NO:37)
PCR条件几乎相同于克隆mvk基因的:94℃,30秒;50℃,30秒和72℃,10秒,25个循环。从除了一个克隆外的全部候选克隆得到了阳性的0.2kb PCR带。从其中一个阳性克隆中制备质粒并将其命名为pMPD701并且通过引物步移法测定了其大约3kb的序列(序列4)。存在由402aa(序列9)组成的ORF,其序列类似于已知的甲羟戊酸焦磷酸脱羧酶的序列(与粟酒裂殖糖酵母的甲羟戊酸焦磷酸脱羧酶有52.3%的相同性)。还测定了期望包括其启动子序列的0.4kb的5′附近区域。
实施例13法尼焦磷酸合酶(fps)基因
fps基因的克隆方案几乎相同于实施例2-7所示的hmc基因。首先,合成序列如表16所示的基于其它物种的fps基因的共有序列的PCR引物。
表16
用于克隆fps基因的引物序列
Fps1;CARGCNTAYTTYYTNGTNGCNGAYGA(有义引物)(SEQ ID NO:38)
Fps2;CAYTTRTTRTCYTGDATRTCNGTNCCDATYTT(反义引物)(SEQ IDNO:39)
(N=A,C,G或T;R=A或G,Y=C或T,D=A,G或T)
用ExTaq作为DNA聚合酶,95℃,30秒;54℃,30秒和72℃,30秒的25个循环后,琼脂糖凝胶电泳反应混合物。回收具有所需长度(0.5kb)的PCR带并用按制造商的方法通过QIAquick(QIAGEN)纯化并连接到pll(5)载体。转化感受态的E.coli DH5α后,选出6个白色菌落分离质粒。其中的一个具有所需长度的插入片段的质粒。结果发现此克隆具有其稳定的氨基酸序列类似于已知的法尼焦磷酸含酶基因的序列。将其中的一个分离的cDNA克隆命名为pFPS 107并用于进一步的研究。
接着,用相同于Fps1和Fps2的引物通过PCR克隆基因组片段。使用相同克隆部分cDNA的PCR条件。克隆了所得的1.0kb带并测序。此克隆含有与pFPS 107相同的序列以及一些典型的内含子片段。命名此质粒为pFPS113并用于进一步实验。
然后,用实施例8所述的方法克隆了含有fps基因的5′-和3′-附近区域。首先,合成了序列如表17所示的PCR引物。
表17
用于克隆fps基因的附近区域的引物序列
Fps7;ATCCTCATCCCGATGGGTGAATACT(有义于下游克隆)(SEQ IDNO:40)
Fps9;AGGAGCGGTCAACAGATCGATGAGC(反义于上游克隆)(SEQ IDNO:41)
分离所扩增的PCR带并克隆λpMOSBlue T-载体。测序发现克隆了长度为2.5kb的5′-附近区域以及长度为2.0kb的3′附近区域。分别命名这些质粒为pFPSSTu 117和pFPSSTd 117。测序两个质粒发现由带有8个内含子的1068bp组成的ORF。推定的氨基酸序列显示与源自其它物种的法尼焦磷酸合酶有广泛的同源性。基于序列测定,合成了序列如表17所示的两个PCR引物以克隆fps克隆和cDNA克隆以便在E.coli中的fps基因表达。
表18
用于cDNA和基因组fps克隆的引物序列
Fps27;GAATTCATATGTCCACTACGCCTGA(有义引物)(SEQ ID NO:42)
Fps28;GTCGACGGTACCTATCACTCCCGCC(反义引物)(SEQ ID NO:43)
PCR条件如下:94℃,30秒;50℃,30秒;72℃,30秒,25个循环。测序PCR所得的克隆,选出具有正确的序列的一个cDNA克隆并命名为pFPS 113。接着,进行Souther印迹杂交研究以克隆含有P.rhodozyma的完整的fps基因的基因组片段。用DIG多引发法标记模板DNA,pPFS 113制备探针。结果,标记的探针杂交到长度约为10kb的带上。
接着,在λDASHII载体中构建由9-15kb的EcRI片段组成的基因文库,将包装的抽提物感染到E.col XL1 Blue,MRA(P2)菌株(Stratagene)中并用注入LB琼脂培养基的NZY培养基覆盖。用SacI-消化的pFPS 113的0.6kb片段作为探针筛选10000个噬斑。8个噬斑与标记的探针杂交。然后,制备噬菌体裂解液(按制造商(Promega)所述的方法)。全部噬斑用FPS 27和FPS28引物进行噬斑PCR。PCR反应前通过99℃加热噬菌体颗粒5分钟制备噬斑PCR的模板DNA。PCR条件相同于前述的pFP 113克隆。所有噬斑均给出了2kb的阳性PCR带,这提示这些克隆带有含有fps基因的完整区域。用EcoRI消化带有fps基因的一个λDNA以分离10kb EcoRI片段并克隆到EcoRI消化和CIAP处理的pBluescriptII KS-(Stratagene)中。选出所转化的E.coli DH5α细胞的12个白色菌落并从中制备质粒,用相同于Fps 27和Fps 28的引物对以及PCR条件进行菌落PCR。从12个候选克隆的3个中得到了2kb的阳性带。克隆一个克隆并命名为pFPS 603。虽然有一些PCR错误,但已证实上文中测定于pFPSSTu117和pFPSStd 117序列的fps基因的序列几乎是正确的。最后,测定了含有P.rhodozyma(图3)的fps基因的4092bp的核苷酸序列,并发现了由带有8个内含子的365个氨基酸组成的ORF(序列5)。推定的氨基酸序列(序列10)表现出与已知的FPP合酶的广泛的同源性(与源自乳克鲁维氏酵母的FPP合酶有65%的相同性)。
序列表
(1)一般信息
(i)申请人:F.HOFFMANN-LAROCHE.AG
(ii)发明名称:改进的微生物学类胡萝卜素生产及其生物材料
(iii)序列数:43
(iv)通信地址
(A)收件人:
(B)街道:Grezacherstrasse 124
(C)城市:BASLE
(E)国家:SWITZERLAND
(F)邮编:CH-4002
(v)计算机可读形式
(A)媒介类型:软盘
(B)计算机:IBM PC兼容
(C)操作系统:PC-DOS/MS-DOS
(D)软件:PatentIn Release#1.0,Version#1.25
(vi)当前申请资料:
(A)申请号:
(B)申请日期:
(C)分类:
(ix)电讯信息:
(A)电话:061-688 25 11
(B)传真:061-688 13 95
(C)电传:962292/965542 hlr c
(2)序列1资料:
(i)序列特征:
(A)长度:6370bp
(B)类型:核苷酸
(C)链型:双链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1441..1466
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1467..1722
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1723..1813
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1814..1914
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1915..2535
(A)名称/关键词:内含子
(B)位置:2536..2621
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2622..2867
(A)名称/关键词:内含子
(B)位置:2868..2942
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2943..3897
(A)名称/关键词:内含子
(B)位置:3898..4030
(ix)特征:
(A)名称/关键词:外显子
(B)位置:4031..4516
(A)名称/关键词:内含子
(B)位置:4517..4616
(ix)特征:
(A)名称/关键词:外显子
(B)位置:4617..4909
(A)名称/关键词:内含子
(B)位置:4910..5007
(ix)特征:
(A)名称/关键词:外显子
(B)位置:5008..5081
(A)名称/关键词:内含子
(B)位置:5082..5195
(ix)特征:
(A)名称/关键词:外显子
(B)位置:5196..5446
(A)名称/关键词:内含子
(B)位置:5447..5523
(ix)特征:
(A)名称/关键词:外显子
(B)位置:5524..5756
(ix)特征:
(A)名称/关键词:poly A位点
(B)位置:6173
(Xi)序列描述:SEQ ID NO:1:
GGAAGACATG ATGGTGTGGG TGTGAGTATG AGCGTGAGCG TGGGTATGGG CCTGGGTGTG      60
GGTATGAGCG GTGGTGGTGA TGGATGGATG GGTGGGTGGC GTGGAGGGGT CCGTGCGGCA     120
AGATGTTTTC TCTGGGTAGG AGCGTTCTGC ATTGGGGCAG GAGAAAAAAT AGTGTGGTTA     180
CGGGAGATCG TGGTTACATC AAGCCATCGT CACTGTAAGG CTCTGTAAGG CTCGGTTGTT     240
AAGAAGGTAA CCAAGTGTAA TCACTTGGTT CGCGGGGTGA CACTTAGGCT CTGGCGATTA     300
ATATATCTGA AGCAGACCAA ACTATTAACA ATATACTTTT GGATAAGAGG TTTCAACAAG     360
AATCTCAGCT TGAGGAAAAC TCTTATCCAA GAAGGCGCGA GGGCGTCCCC GTTTTATATC     420
AGGACCCCTC GCGCATTTGG TCTGCCACTA AAGATATACA TATGACGAGC CTAGAGAGGC     480
TCGAGATCAC GAAAACTAAA AAGATGAAGC ATGAACCATG CAAACTAGAG CATGATGGAA     540
AATGGGCGAA GAGGCATAAG GGATGGAGGG AACGAATAGC CTGTAGGGGT AACCCACGTA     600
AGAGAACACG TGATACTTAA CCCGTATCCC TGACAGTCAC GGTGTTTCTT GAGAGTCAGT     660
AATGTCCAGC TGTGACCTCA CGTGACTAAA CCCGACACGT GTGCTTCGAC CGAGGTGGGA     720
CGATCTTTTT TTTGGGGGGA GAAACCGAGT GGGACGATAG AGAGGACTAC GGAGAACTGT     780
AGTGAATTGT AGTGCGCTCA CTACGGAGAG TTCTAGTTGA GCAAGCGATG TGATTTTCAA     840
TACAATCCCG GACTACAAGC TCTCTAATAG AGCTCTATAA TAGAAGGACA AAAGTCGTCC     900
CACTCCTATC TCCCGCGCGT TTTAATAGAG ACCGATTGTT TTTTTCCCTA ATGTTTTATT     960
TTCTTTCCCC GATCGGCTCA TTTTTCTTCT CTCCGCGTAT TCTTCACACA ACGCTCCCTC    1020
CGATCTTTTT TCTTCTTGTT CCTGTTCCTC TTCGTCTCCT TCCATTGTCT TCTTTCCTTC    1080
CTTCCTTCCT TCTTGCCTCT AGCCAGCTTC AACAGCGACG TCTCTCTCTC TCTGTGTGGT    1140
GATCTCCGAC TGTAGTGTCT CTCTCGGTCA CTTTCACGAA TCAACTTCGT TTCTTTTCTG    1200
ATCGATCGGT CGTCTTTCCC TCAATCCGTG CATACACTCA CACTTACACT CACACCCACA    1260
CACTCAAACA CGCTAAATAA TCAGATCCGT CTCCCCTTCT TGATCTCCTT CGGCTTAGGC    1320
AATGGCTTCC TTGTTCGGCC TCCGGCGGTC CTCAAACGAG CAGCCGCGCT CTCCTCTGCT    1380
CATCCAATCG AAGTCATCCT TTCTACCTTT GTCGTGGTCA CCTTGACGTA CTTTCAGTTG    1440
ATGTACACCA TCAAGCACAG TAATTTGTAC GTCCGATCAT CTATTTGTCG TGTTCTCCTT    1500
AGTCTCTTTC TCTTCCTCCT TTGTCTTTCG CGTCAGCGTG GCTGGATTTC CGTCTCCATG    1560
TCATTTCCCT TATTTCCTCT TCCTGTCATT TGTTCCTCTA CTTTTCTTTC TCTACCTCCT    1620
TTCCCTGTCG TTTGCTTTCC TTCGCCAGTT GACCACCGAT CCTCAGGATT CATGGCTAAC    1680
ATGCCCAACA CAAACTTGCA TATCATCTCT CTTCGTCCAC AGTCTTTCTC AGACGATTAG    1740
CACACAATCT ACCACCAGCT GGGTCGTCGA TGCGTTCTTC TCTTTGGGAT CCAGATACCT    1800
TGACCTCGCG AAGGTTAGTC AGTTGACCCT CTCATGCTTC TTTTCTCTCA GTCTTGTGTG    1860
TGCGCATATA CCCACTCATA GACATCTTCG TACGCTGCAC TTTCCCTCCC TTAGCAAGCA    1920
GACTCGGCCG ATATCTTTAT GGTCCTCCTC GGTTACGTCC TTATGCACGG CACATTCGTC    1980
CGACTGTTCC TCAACTTTCG TCGGATGGGC GCAAACTTTT GGCTGCCAGG CATGGTTCTT    2040
GTCTCGTCCT CCTTTGCCTT CCTCACCGCC CTCCTCGCCG CCTCGATCCT CAACGTTCCG    2100
ATCGACCCGA TCTGTCTCTC GGAAGCACTT CCCTTCCTCG TGCTCACCGT CGGATTTGAC    2160
AAGGACTTTA CCCTCGCAAA ATCTGTGTTC AGCTCCCCAG AAATCGCACC CGTCATGCTT    2220
AGACGAAAGC CGGTGATCCA ACCAGGAGAT GACGACGATC TCGAACAGGA CGAGCACAGC    2280
AGAGTGGCCG CCAACAAGGT TGACATTCAG TGGGCCCCTC CGGTCGCCGC CTCCCGTATC    2340
GTCATTGGCT CGGTCGAGAA GATCGGGTCC TCGATCGTCA GAGACTTTGC CCTCGAGGTC    2400
GCCGTCCTCC TTCTCGGAGC CGCCAGCGGG CTCGGCGGAC TCAAGGAGTT TTGTAAGCTC    2460
GCCGCGTTAA TTTTGGTGGC CGACTGCTGC TTCACCTTTA CCTTCTATGT CGCCATCCTC    2520
ACCGTCATGG TCGAGGTAAG CCTTTTCTTC AAGTTTCTTG CTGTCATTTT CCTTTCGACA    2580
CGTATGCTCA TCTTTCGTTT CCGTCTCTCT CACCTTTCCA GGTTCACCGA ATCAAGATCA    2640
TCCGGGGCTT CCGACCGGCC CACAATAACC GAACACCGAA TACTGTGCCC TCTACCCCTA    2700
CTATCGACGG TCAATCTACC AACAGATCCG GCATCTCGTC AGGGCCTCCG GCCCGACCGA    2760
CCGTGCCCGT GTGGAAGAAA GTCTGGAGGA AGCTCATGGG CCCAGAGATC GATTGGGCGT    2820
CCGAAGCTGA GGCTCGAAAC CCGGTTCCAA AGTTGAAGTT GCTCTTAGTA AGTAAACTTC    2880
CTTTGTTCTT CTCATCATTC TTTATCTCCG AATCCTGACG TCGGACCCTT CTCGATTCAA    2940
AGATCTTGGC CTTTCTTATC CTTCATATCC TCAACCTTTG CACGCCTCTG ACCGAGACCA    3000
CAGCTATCAA GCGATCGTCT AGCATACACC AGCCCATTTA TGCCGACCCT GCTCATCCGA    3060
TCGCACAGAC AAACACGACG CTCCATCGGG CGCACAGCCT AGTCATCTTT GATCAGTTCC    3120
TTAGTGACTG GACGACCATC GTCGGAGATC CAATCATGAG CAAGTGGATC ATCATCACCC    3180
TGGGCGTGTC CATCCTGCTG AACGGGTTCC TCCTAAAAGG GATCGCTTCT GGCTCTGCTC    3240
TCGGACCCGG TCGTGCCGGA GGAGGAGGAG CTGCCGCCGC CGCCGCCGTC TTGCTCGGAG    3300
CGTGGGAAAT CGTCGATTGG AACAATGAGA CAGAGACCTC AACGAACACT CCGGCTGGTC    3360
CACCCGGCCA CAAGAACCAG AATGTCAACC TCCGACTCAG TCTCGAGCGG GATACTGGTC    3420
TCCTCCGTTA CCAGCGTGAG CAGGCCTACC AGGCCCAGTC TCAGATCCTC GCTCCTATTT    3480
CACCGGTCTC TGTCGCGCCC GTCGTCTCCA ACGGTAACGG TAACGCATCG AAATCGATTG    3540
AGAAACCAAT GCCTCGTTTG GTGGTCCCTA ACGGACCAAG ATCCTTGCCT GAATCACCAC    3600
CTTCGACGAC AGAATCAACC CCGGTCAACA AGGTTATCAT CGGTGGACCG TCCGACAGGC    3660
CTGCCCTAGA CGGACTCGCC AATGGAAACG GTGCCGTCCC CCTTGACAAA CAAACTGTGC    3720
TTGGCATGAG GTCGATCGAA GAATGCGAAG AAATTATGAA GAGTGGTCTC GGGCCTTACT    3780
CACTCAACGA CGAAGAATTG ATTTTGTTGA CTCAAAAGGG AAAGATTCCG CCGTACTCGC    3840
TGGAAAAAGC ATTGCAGAAC TGTGAGCGGG CGGTCAAGAT TCGAAGGGCG GTTATCTGTA    3900
GGTCTTTTTC TCCTTTGAAT TTCAAGCCTT GGAGGAGAGG AAAGTGCTTC GGGGTACAAT    3960
ACAGGTTGTG CAAACAAACC AAGAGAAACT AAAGAAAACT TTCTTCTCCT CTCTCTCCCC    4020
TCGACGTCAG CCCGAGCATC CGTTACTAAG ACGCTGGAAA CCTCGGACTT GCCCATGAAG    4080
GATTACGACT ACTCGAAAGT GATGGGCGCA TGCTGTGAGA ACGTTGTCGG ATATATGCCT    4140
CTCCCTGTCG GAATCGCTGG TCCACTTAAC ATTGATGGCG AGGTCGTCCC CATCCCGATG    4200
GCCACCACCG AGGGAACTCT CGTGGCCTCG ACGTCGAGAG GTTGCAAAGC GCTCAACGCG    4260
GGTGGCGGAG TGACCACCGT CATCACCCAG GATGCGATGA CGAGAGGACC GGTGGTGGAT    4320
TTCCCTTCGG TCTCTCAGGC CGCACAGGCC AAACGATGGT TGGATTCGGT CGAAGGAATG    4380
GAGGTTATGG CCGCTTCGTT CAACTCGACT TCTAGATTCG CCAGGTTGCA GAGCATCAAG    4440
TGTGGAATGG CCGGCCGATC GCTATACATC CGTTTGGCGA CCAGTACCGG AGATGCGATG    4500
GGAATGAACA TGGCTGGTGA GTGCGACGAG TTTTCTTTGT TCTTCTTGTG CGGACCATGT    4560
TTTCTCATCC AGCCAATTCA TTCTTCATTC CTTCTCGGTG TTTGGCAACC TTTTAGGTAA    4620
AGGAACGGAG AAAGCTTTGG AAACCCTGTC CGAGTACTTC CCATCCATGC AGATCCTTGC    4680
TCTTTCTGGT AACTACTGTA TCGACAAGAA GCCTTCTGCC ATCAACTGGA TTGAGGGCCG    4740
TGGAAAGTCC GTGGTGGCCG AGTCGGTGAT CCCTGGAGCG ATCGTCAAGT CTGTCCTCAA    4800
GACAACGGTT GCGGATCTCG TCAACTTGAA CATTAAGAAA AACTTGATCG GAAGTGCCAT    4860
GGCAGGCAGC ATTGGAGGAT TCAACGCCCA CGCGTCGAAT ATTTTGACTG TGCGTACTTC    4920
TCTTTCCATA TTCGTCCTCG TTTAATTTCT TTTCTGTCCA GTCTTATGAC GTCTGATTGG    4980
TTCTTCTTTT CACCCACACA CATACAGTCA ATCTTCTTGG CTACAGGTCA GGATCCTGCA    5040
CAGAATGTGG AGTCCTCAAT GTGCATGACA TTGATGGAGG CGTACGTTTT TTGTTTTGTT    5100
TTCCTTCTTT TTCCATATGT TTCTACTTCT ACTTTCTTCC CGAGTCCGCC AAGCTGATAC    5160
CTTTATACGG TCCTTCTCTT TCTCATGACG AGTAGTGTGA ACGACGGAAA AGATCTACTC    5220
ATCACCTGCT CGATGCCGGC GATCGAGTGC GGAACGGTCG GTGGAGGAAC TTTCCTCCCT    5280
CCGCAAAACG CCTGTTTGCA GATGCTCGGT GTCGCAGGTG CCCATCCAGA TTCGCCCGGT    5340
CACAATGCTC GTCGACTAGC AAGAATCATC GCTGCCAGTG TGATGGCTGG AGAGTTGAGT    5400
TTGATGAGTG CTTTGGCCGC TGGTCATTTA ATCAAGGCCC ACATGAGTAA GTCTGCCACC    5460
TTTTGATAAT CAAAAGGGTC GTGGTACTGG TGTCACTGAC TGGTGACTCT TCCTGTCATG    5520
CAGAGCACAA TCGATCGACA CCTTCGACTC CTCTACCGGT CTCACCGTTG GCGACCCGAC    5580
CGAACACGCC GTCCCACCGG TCGATTGGAT TGCTCACACC GATGACGTCT TCCGCATCGG    5640
TCGCCTCGAT GTTCTCTGGG TTCGGTAGTC CGTCGACGAG CTCGCTCAAG ACGGTAGGTA    5700
GCATGGCTTG CGTCAGGGAA CGAGGGGACG AGACGAGTGT GAACGTGGAT GCCTGAACTG    5760
GGGACTCCCT TTTCTTGGTA TCCCTTCCGT TTTTCTTTCG GCCTTTGAAT CCTGTATTCT    5820
TGTCCGTTTT TTCATCTTCT CTTCCTGGTT CTCCTTCTCT CGTTCATCTG CAAAAACAAA    5880
ATTCAATCGC ATCGGTCTCT GGCATTCCAT TTGGGTTTCA AAATCAAATC AATCTCTATC    5940
TACTATCTCA AATATCTTTT TTTCATCTTT TGATTCATTT CTGTTGAAAA CTGTCTTGCC    6000
CTTCTCCTAC TTCTTATCTC TGCCTTCTTG CCAAAGTTCA ATTCGTTGTC CATCTGTGCA    6060
CTCTGATCTA TCAGTCTGTA TCAAGTACGC TCTTAAATCT GTAATTGGCT CTCGGAGGTG    6120
TCTCGTCATC TCACATATGG CTGGCGATAT GATGTGTCGG TTTCTTCCCC TCCAACAAAG    6180
GCGACGTGGC TCCTTCATCA ATCTTTGGCG CAAGCTCTCA AAATTCTCCA AAACGGCTGA    6240
CTAAGCAAGG TTTCCAAGTA CTCTCAAACC GAGCAAGGCC ATCCATCCTC AAATCAACTT    6300
GTGAAACCCT TTGTGGATAG ACCGTCCAAA CCGAGCTCTT CCCAATCTTC GCCTCCCCTT    6360
CTTCCTGCAG                                                           6370
(2)序列2资料:
(i)序列特征:
(A)长度:4775bp
(B)类型:核酸
(C)链型:双链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1305..1361
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1362..1504
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1505..1522
(A)名称/关键词:内含子
(B)位置:1523..1699
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1700..1826
(A)名称/关键词:内含子
(B)位置:1827..1920
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1921..2277
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2278..2351
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2352..2409
(A)名称/关键词:内含子
(B)位置:2410..2497
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2498..2504
(A)名称/关键词:内含子
(B)位置:2505..2586
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2587..2768
(A)名称/关键词:内含子
(B)位置:2769..2851
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2852..2891
(A)名称/关键词:内含子
(B)位置:2892..2985
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2986..3240
(A)名称/关键词:内含子
(B)位置:3241..3325
(ix)特征:
(A)名称/关键词:外显子
(B)位置:3326..3493
(A)名称/关键词:内含子
(B)位置:3494.3601
(ix)特征:
(A)名称/关键词:外显子
(B)位置:3602..3768
(ix)特征:
(A)名称/关键:polyA位点
(B)位置:4043
(xi)序列描述:SEQ ID NO:2:
CATCGAAGAG AGCGAAGTGA TTAGGGAAGC CGAAGAGGCA CTAACAACGT GGTTGTATAT      60
GTGTGTTTAT GAGTGTTATA TCGTCAAGAA CGAAGTCCAT TCATTTAGCT AGACAGGGAG     120
AGAGGGAGAA ACGTACGGGT TTACCCTATT GGACCAGTCT AAAGAGAGAA CGAGAGTTTT     180
TGGGTCGGTC ACCTGAAGAG TTTGAACCTC CACAAGTTTA TTCTAGATTA TTTCCGGGGG     240
TATGTGAAGG ATAATGTCAA ACTTTGTCCA GATTGAAGAA GGCAAGAAAG GAAAGGGGCG     300
AACGAGAGTA TCGTCCCATC TATGGGTGAC CAGTCGACCT TCTGCATCGG CGATCCCGAG     360
AATGGAAGGT TCCGATGGAT CAGAAGTAGG TTTCCTAAGC TCAAACATAG GTCATTGCGA     420
GTGAGATACA TATGCAGACT GATATGCTAG TCAAACCGAA CGAGATTTCT CTGTTTGCTT     480
TCAAAAAGAC GAACCAACCA TTTCATGTCC AAGATGGCAG GTCCTTCGAT TCTTTGAAGC     540
TCCTCCCTGA TGCGGACAGA AAAGAATAAA AAGTAGACAG ACTGTCAAGT CGACAGCGCA     600
AGTTTATCAA GCTGAGCGAG AAAACTCGAA CTTACATACC TTGGCCGTCA GTTCTGTAGA     660
CCAAGCATCG GCCTTTCCTC TTTGCGGCAG GTGTACGCGT TGGCTCACCA TCGTCACTCT     720
CGTCTCCTGA CCCGTTGCTT TCCTTGACAG CAGTCTGTTC CACAGGTTTC TCTAACTGAT     780
AGGTCCCAAC AGCAAAGATA TCTGGATGTC TATGTGAGAA CTCTACTGAG TCGGCAGAGT     840
ACACCGTATC GATATAGGCG AGTGAGGAAG CTTTGAAAGG TGAAGAAGTA GCGAAAGATC     900
ATCAGCGAAT GAGGACTATG ACAAAAAAGA AATTTTCGTA TAATCCACTG GACAAATCAC     960
CTTCCATCGT GTCCTCCAAG AGGGTTTCGT CTGAAACGTA AGGACGAGGT ATTGATAGAT    1020
GATTGACCTT GAGTACGCGG ATGGACAAGG AACGAGCCCA CTCCCAGGGC TATGTAACAC    1080
CACACGTGAC TCCACTTGAA TTGCGGCAGA TAAACGAAGT CTTACGATCG GACGACTTTG    1140
TAACCATTTA GTTATTTACC CGTCTTGTTT TCTTACTTTG ATCGTCCCAT TTTAGACACA    1200
AAAAAAGAAG CCAGAAGAGA AAAGAATAAA ACGTCTACCG TGTTCTCTCC GAATTCTTAC    1260
CACACCCACA AAACCATACA CAATCTCAAT CTAGATATCC AGTTATGTAC ACTTCTACTA    1320
CCGAACAGCG ACCCAAAGAT GTTGGAATTC TCGGTATGGA GGTATGTTGT TCAATTCTGT    1380
TTGTGTTCAA TCTTTAATCA TCTTTAGTCG ACTGACCGGT TCTTCCTTTT TTTTTCTTCA    1440
TCAAACAAAA CAACCCTTCT CGATTCATGT CATCTTTCTT TCCAATGCGC TACTCCTTCT    1500
GTAGATCTAC TTTCCTCGAC GAGTGCGTAA CTATTCTCTC TTCTGCATTC TCTCTCTATT    1560
CCCATGTTCG ATCCCTCGCC CTCATATGGG CGACTGTTTC ATCTCTTTTG CTTCCGTCCA    1620
TTCTTCTTTG ATCTTGTTCA TTTTCTACTA ATATCTCCCG ACGCGAAATA CAACACTGAC    1680
CGCGATTTCT CTCGATCAGG CCATCGCTCA CAAGGATCTC GAGGCTTTTG ATGGGGTTCC    1740
TTCCGGAAAG TACACCATCG GTCTCGGCAA CAACTTCATG GCCTTCACCG ACGACACTGA    1800
GGACATCAAC TCGTTCGCCT TGAACGGTCA GTCTCTTCCG TTTCAGCAAT CGACAGGAAA    1860
AAGGCCCAAG CGCATCTCAC TGACACCTTT CTCCGTTTTG CAATTCCATT TGATTGTTAG    1920
CTGTTTCCGG TCTTCTATCA AAGTACAACG TTGATCCCAA GTCAATCGGT CGAATTGATG    1980
TCGGAACTGA GTCCATCATT GACAAGTCCA AATCTGTCAA GACAGTCCTT ATGGACTTGT    2040
TCGAGTCCCA CGGCAACACA GATATTGAGG GTATCGACTC CAAGAATGCC TGCTACGGTT    2100
CTACCGCGGC CCTGTTCAAT GCCGTCAACT GGATCGAGTC ATCCTCTTGG GACGGAAGAA    2160
ATGCCATTGT CTTCTGCGGA GACATTGCCA TCTACGCCGA GGGTGCTGCC CGACCTGCCG    2220
GAGGTGCTGG TGCTTGCGCC ATCCTCATCG GACCCGACGC TCCCGTCGTC TTCGAGCGTG    2280
AGTTCCAATC CGTCATTTTC TTCCACGGCA GCGGCTGAAA CAACCCTTAT CCGTCATTCT    2340
CATCAATCTA GCCGTCCACG GAAACTTCAT GACCAACGCT TGGGACTTCT ACAAGCCTAA    2400
TCTTTCTTCG TATGTTCAAA TTTTGAAGTT TGCGCTTGGG AGAGTCTTAC ACTAATTCGG    2460
GGTGCTCGTA TCCTTCGAAT CGTTTGTTGC TTTATAGTGA ATACGTTCGT CTGCGCACCT    2520
CCTATATTTA GTTTTTGATC AAATATTGTC CATTGAATTA ACTCTGAAAC CTTCTCCTCC    2580
AAATAGCCCA TTGTCGATGG ACCTCTCTCC GTCACTTCCT ACGTCAACGC CATTGACAAG    2640
GCCTATGAAG CTTACCGAAC AAAGTATGCC AAGCGATTTG GAGGACCCAA GACTAACGGT    2700
GTCACCAACG GACACACCGA GGTTGCCGGT GTCAGTGCTG CGTCGTTCGA TTACCTTTTG    2760
TTCCACAGGT AAGCGTCATC TTCTGTATTC TCCTTAAATT CAACCGATCA ACGGAGTTAA    2820
TTCGTGTCAT CATATTATCT TGTTGGAACA GTCCTTACGG AAAGCAGGTT GTCAAAGGCC    2880
ACGGCCGACT TGTAAGCAGT CTTTTTGTAA CTCTTAGCTT GCAGATAAAA ACTTTTAGGT    2940
TTCTGGTACT CATTATTTAT GCATCTCTTG AATCACCTTA TCTAGTTGTA CAATGACTTC    3000
CGAAACAACC CCAACGACCC GGTTTTTGCT GAGGTGCCAG CCGAGCTTGC TACTTTGGAC    3060
ATGAAGAAAA GTCTTTCAGA CAAGAATGTC GAGAAATCTC TGATTGCTGC CTCCAAGTCT    3120
TCTTTCAACA AGCAGGTTGA GCCTGGAATG ACCACCGTCC GACAGCTCGG AAACTTGTAC    3180
ACCGCCTCTC TCTTCGGTGC TCTCGCAAGT TTGTTCTCTA ATGTTCCTGG TGACGAGCTC    3240
GTAAGTCTTG ATCTCTATCC CAATCATCTC TTCCTTATCA ATTGAACTGA ACTCTTTTCT    3300
TTAATGCTGG CTTTCTCTTG AACAGGTCGG CAAGCGCATT GCTCTCTACG CCTACGGATC    3360
TGGAGCTGCT GCTTCTTTCT ATGCTCTTAA GGTCAAGAGC TCAACCGCTT TCATCTCTGA    3420
GAAGCTTGAT CTCAACAACC GATTGAGCAA CATGAAGATT GTCCCCTGTG ATGACTTTGT    3480
CAAAGCTCTG AAGGTACGTT GGATAATGAC TTTTTTTGTG GACCGTGGTC TTTGTCAACC    3540
GCTAACAACC TTCTTGAATC GGTCTCTTTT GGTTTGAAAT TCGCTCGGCG CTTCGACACA    3600
GGTCCGAGAA GAGACTCACA ACGCCGTGTC ATATTCGCCC ATCGGTTCGC TTGACGATCT    3660
CTGGCCTGGA TCGTACTACT TGGGAGAGAT TGACAGCATG TGGCGTCGAC AGTACAAGCA    3720
GGTCCCTTCT GCTTGAACGG GATATTAAAA GTTTCAAAAG TTATGAAAGA GGTCGGCGAA    3780
GATTCAAAAT AAATAAATAT AACACCTTGC TTTTTGGCTT GTTTTCCTTC TTCACTCTCG    3840
TTTCCGATGT GTTTCCTCCG TTTCTTCCCT CTTTTGTTCC TTTTTCCTCC CTCTTTTGGT    3900
TACAATCTCT TTGGGTTTTA CAGGCTGGCA ATCTCTGTAC AATCTTCGTT CGCGTGATCC    3960
GACATAGATA CCGTTGTGGC ATACACCTTG CGTCTTACAT CTTTTGAGAG CTTCGGAGGT    4020
GATCTTGATG AAGAAAATTC ACCATTGACT CCCATCTCTT GAATGTCCTG ACTAAATTGA    4080
ATTGGAAGCA ACTTATATGA AGAGCAAATT GATGGATCCA GAAAGGAACA AGTCTAGAAA    4140
TCAGTGATTT GTGCGAAAAA TCAGCAAATG CCGCGCTGAG CCGCTCGCTG GGGAGTAGAC    4200
ATTGCCCATG CGCGTGATGT TGTCTGACCG TTCTCCTCCA TTCCCCCACT CTCAACCTTC    4260
CTCTCTTTGA GAATCGAAGA AGAAGGCGAA GAAAACCTGA CTTGATCCTT TACAGGGTGT    4320
TTCTTTTGTT CGTATCTGAG TTACTTTTCC TCCTTTCCTT CCTGCTTGAG TGAATGACTG    4380
ATCTGACTCC TCCGCCTACC TCGGCGACTG GGCTATATCT TGAGGATAGA ATATCCCCCT    4440
GACAATCCCA TTTCTCAAGA TTCTTTCAAA CAAGAAAACT AGTTCCAATC AATAGATCAT    4500
CTGATCAACC TTGTGTGAAC ATAATCATCT GCAGAAGCAC TGAACTGAGA AAGTCTTCCT    4560
CAGAGGAAAG AGAATACTAG ATAAGATCAT TCGGTTGGGA AGGTAAAGGA ATGAAGTCTG    4620
GTTCTGGGTT TAGCTCTGGT TCCGTAGGGG GTTCGACTAT AGTTTCTTCT GTTCGACTAG    4680
AAACAGGAGA AACCGTACAT GTAAATGGTA TGATATTCTT GTCTCTGTAT CATGTCCCGC    4740
TCATCTCTTT GTTTGCAAGT CACTCTGGAG AATTC                               4775
(2)序列3资料:
(i)序列特征:
(A)长度:4135bp
(B)类型:核酸
(C)链型:双链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1021..1124
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1125..1630
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1631..1956
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1957..2051
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2052..2366
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2367..2446
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2447..2651
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2652..2732
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2733..3188
(ix)特征:
(A)名称/关键词:polyA位点
(B)位置:3284
(xi)序列描述:SEQ ID NO:3:
ACTGACTCGG CTACCGGAAA ATATCTTTTC AGGACGCCTT GATCGTTTTG GACAACACCA      60
TGATGTCACC ATATCTTCAG CGGCCGTTGG AGCTAGGAGT AGACATTGTA TACGACTCTG     120
GAACAAAGTA TTTGAGTGGA CACCACGATC TCATGGCTGG TGTGATTACT ACTCGTACTG     180
AGGAGATTGG GAAGGTTCGT GCTTGCTTGC TTTGAATGTC GTGCCTAAAG CCATTGCCAT     240
AAGACAGAGT CTGATCTATG TCGTTTGCCT ACAACAGAGA ATGGCCTGGT TCCCAAATGC     300
TATGGGAAAT GCATTGTCTC CGTTCGACTC GTTCCTTCTT CTCCGAGGAC TCAAAACACT     360
TCCTCTCCGA CTGGACAAGC AGCAGGCCTC ATCTCACCTG ATCGCCTCGT ACTTACACAC     420
CCTCGGCTTT CTTGTTCACT ACCCCGGTCT GCCTTCTGAC CCTGGGTACG AACTTCATAA     480
CTCTCAGGCG AGTGGTGCAG GTGCCGTCAT GAGCTTTGAG ACCGGAGATA TCGCGTTGAG     540
TGAGGCCATC GTGGGCGGAA CCCGAGTTTG GGGAATCAGT GTCAGTTTCG GAGCCGTGAA     600
CAGTTTGATC AGCATGCCTT GTCTAATGAG GTTAGTTCTT ATGCCTTCTT TTCGCGCCTT     660
CTAAAATTTC TGGCTGACTA ATTGGGTCGG TCTTTCCGTT CTTGCATTTC AGTCACGCAT     720
CTATTCCTGC TCACCTTCGA GCCGAGCGAG GTCTCCCCGA ACATCTGATT CGACTGTGTG     780
TCGGTATTGA GGACCCTCAC GATTTGCTTG ATGATTTGGA GGCCTCTCTT GTGAACGCTG     840
GCGCAATCCG ATCAGTCTCT ACCTCAGATT CATCCCGACC GCTCACTCCT CCTGCCTCTG     900
ATTCTGCCTC GGACATTCAC TCCAACTGGG CCGTCGACCG AGCCAGACAG TTCGAGCGTG     960
TTAGGCCTTC TAACTCGACA GCCGGCGTCG AAGGACAGCT TGCCGAACTC AATGTAGACG    1020
ATGCAGCCAG ACTTGCGGGC GATGAGAGCC AAAAAGAAGA AATTCTTGTC AGTGCACCGG    1080
GAAAGGTCAT TCTGTTCGGC GAACATGCTG TAGGCCATGG TGTTGTGAGT GAGAAATGAA    1140
AGCTTTATGC TCTCATTGCA TCTTAACTTT TCCTCGCCTT TTTTGTTCTC TTCATCCCGT    1200
CTTGATTGTA GGGATGCCCC CCTTTGCCCC TTTCCCCTTC TTGCATCTGT CTATATTTCC    1260
TTATACATTT CGCTCTTAAG AGCGTCTAGT TGTACCTTAT AACAACCTTT GGTTTTAGCA    1320
TCCTTTGATT ATTCATTTCT CTCATCCTTC GGTCAGAGGC TTTCGGCCAT CTTTACGTCT    1380
GATTAGATTG TAATAGCAAG AACTATCTTG CTAAGCCTTT TCTCTTCCTC TTCCTCCTAT    1440
ATAAATCGAA TTCACTTTCG GACATGTTTA TTTTGGGGAA ATCATCAAGG GGTGGGGGGC    1500
CAATCCCGAC ACTAATTTTC TGCTCACGTC AAAACTCAGC GTTCAGAATC AGTCACTGAC    1560
CCTGATACGT GTCTCTATGT GTGTGGGTGT ACGTGCGAAT TGTGACTCGA CGTTCTACGC    1620
TTAAAAACAG ACCGGGATCG CTGCTTCCGT TGATCTTCGA TGCTACGCTC TTCTCTCACC    1680
CACTGCTACG ACAACAACAT CATCGTCGTT ATCGTCTACA AACATTACCA TCTCCCTAAC    1740
GGACCTGAAC TTTACGCAGT CTTGGCCTGT TGATTCTCTT CCTTGGTCAC TTGCGCCTGA    1800
CTGGACTGAG GCGTCTATTC CAGAATCTCT CTGCCCGACA TTGCTCGCCG AAATCGAAAG    1860
GATCGCTGGT CAAGGTGGAA ACGGAGGAGA AAGGGAGAAG GTGGCAACCA TGGCATTCTT    1920
GTATTTGTTG GTGCTATTGA GCAAAGGGAA GCCAAGGTAG GTTTTTTCTG TCTCTTCTTT    1980
TTGCCTATAA AGACTCTTAA CTGACGGAGA AAGTGTTGGG TTTCTTCCTT CGGGGGTTCA    2040
ATCAATTAAA GTGAGCCGTT CGAGTTGACG GCTCGATCTG CGCTTCCGAT GGGAGCTGGT    2100
CTGGGTTCAT CCGCCGCTCT ATCGACCTCT CTTGCCCTAG TCTTTCTTCT CCACTTTTCT    2160
CACCTCAGTC CAACGACGAC TGGCAGAGAA TCAACAATCC CGACGGCCGA CACAGAAGTA    2220
ATTGACAAAT GGGCGTTCTT AGCTGAAAAA GTCATCCATG GAAATCCGAG TGGGATTGAT    2280
AACGCGGTCA GTACGAGAGG AGGCGCTGTT GCTTTCAAAA GAAAGATTGA GGGAAAACAG    2340
GAAGGTGGAA TGGAAGCGAT CAAGAGGTAC GCAGACACGG TGCTTCATAT GCCATACTCC    2400
AGTCTGATTG ACCCATGATG AACGTCTTTC TACATTTCGA ATATAGCTTC ACATCCATTC    2460
GATTCCTCAT CACAGATTCT CGTATCGGAA GGGATACAAG ATCTCTCGTT GCAGGAGTGA    2520
ATGCTCGACT GATTCAGGAG CCAGAGGTGA TCGTCCCTTT GTTGGAAGCG ATTCAGCAGA    2580
TTGCCGATGA GGCTATTCGA TGCTTGAAAG ATTCAGAGAT GGAACGTGCT GTCATGATCG    2640
ATCGACTTCA AGTTAGTTCT TGTTCCTTTC AAGACTCTTT GTGACATTGT GTCTTATCCA    2700
TTTCATCTTC TTTTTTCTTC CTTCTTCTGC AGAACTTGGT CTCCGAGAAC CACGCACACC    2760
TAGCAGCACT TGGCGTGTCC CACCCATCCC TCGAAGAGAT TATCCGGATC GGTGCTGATA    2820
AGCCTTTCGA GCTTCGAACA AAGTTGACAG GCGCCGGTGG AGGTGGTTGC GCTGTAACCC    2880
TGGTGCCCGA TGGTAAAGTC TCTCCTTTTC TCTTCCGTCC AAGCGACACA TCTGACCGAT    2940
GCGCATCCTG TACTTTTGGT CAACCAGACT TCTCGACTGA AACCCTTCAA GCTCTTATGG    3000
AGACGCTCGT TCAATCATCG TTCGCCCCTT ATATTGCCCG AGTGGGTGGT TCAGGCGTCG    3060
GATTCCTTTC ATCAACTAAG GCCGATCCGG AAGATGGGGA GAACAGACTT AAAGATGGGC    3120
TGGTGGGAAC GGAGATTGAT GAGCTAGACA GATGGGCTTT GAAAACGGGT CGTTGGTCTT    3180
TTGCTTGAAC GAAAGATAGG AAACGGTGAT TAGGGTACAG ATCCTTTGCT GTCATTTTTA    3240
CAAACACTT  TCTTATGTCT TCATGACTCA ACGTATGCCC TCATCTCTAT CCATAGACAG    3300
CACGGTACCT CTCAGGTTTC AATACGTAAG CGTTCATCGA CAAAACATGC GGCACACGAA    3360
AACGAGTGGA TATAAGGGAG AAGAGAGATA TTAGAGCGAA AAAGAGAAGA GTGAGAGAGG    3420
AAAAAAATAA CCGAGAACAA CTTATTCCGG TTTGTTAGAA TCGAAGATCG AGAAATATGA    3480
AGTACATAGT ATAAAGTAAA GAAGAGAGGT TTACCTCAGA GGTGTGTACG AAGGTGAGGA    3540
CAGGTAAGAG GAATAATTGA CTATCGAAAA AAGAGAACTC AACAGAAGCA CTGGGATAAA    3600
GCCTAGAATG TAAGTCTCAT CGGTCCGCGA TGAAAGAGAA ATTGAAGGAA GAAAAAGCCC    3660
CCAGTAAACA ATCCAACCAA CCTCTTGGAC GATTGCGAAA CACACACACG CACGCGGACA    3720
TATTTCGTAC ACAAGGACGG GACATTCTTT TTTTATATCC GGGTGGGGAG AGAGAGGGTT    3780
ATAGAGGATG AATAGCAAGG TTGATGTTTT GTAAAAGGTT GCAGAAAAAG GAAAGTGAGA    3840
GTAGGAACAT GCATTAAAAA CCTGCCCAAA GCGATTTATA TCGTTCTTCT GTTTTCACTT    3900
CTTTCCGGGC GCTTTCTTAG ACCGCGGTGG TGAAGGGTTA CTCCTGCCAA CTAGAAGAAG    3960
CAACATGAGT CAAGGATTAG ATCATCACGT GTCTCATTTG ACGGGTTGAA AGATATATTT    4020
AGATACTAAC TGCTTCCCAC GCCGACTGAA AAGATGAATT GAATCATGTC GAGTGGCAAC    4080
GAACGAAAGA ACAAATAGTA AGAATGAATT ACTAGAAAAG ACAGAATGAC TAGAA         4135
(2)序列4资料:
(i)序列特征:
(A)长度:2767bp
(B)类型:核酸
(C)链型:双链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(ix)特征:
(A)名称/关键词:外显子
(B)位置:401..451
(ix)特征:
(A)名称/关键词:内含子
(B)位置:452..633
(ix)特征:
(A)名称/关键词:外显子
(B)位置:634..876
(ix)特征:
(A)名称/关键词:内含子
(B)位置:877..1004
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1005..1916
(ix)特征:
(A)名称/关键词:polyA位点
(B)位置:2217
(xi)序列描述:SEQ ID NO:4
GAATTCTTCC CGACTGGGCT GATCGACTTG ACTGGAAGAT CTAAGGCGGA GGGATGAAGG     60
AAGTAATTGG AGGGAATGAG GAAAAAAAAA GGCGAGGGAA CGCGGTCTTC TTTCCTGGCA    120
AGGCAATGTC GTGTATCTCT CTTGATTCTT TCGTTGTATC GACGGACCAC ACTCTTTTCG    180
AATGAATATC ACTATCGCAT CCAATGATCG CTATACATGG CATTTACATA TGCCAGACAT    240
CGCTGAGAAA GAGAGAACAT TCCTTTGGAA AAAGCCTACT GTGCCTGAAG TCAGGCTGAT    300
GTTGATTAAA CGTCTTTCCC CATCCTAAGC AGACAAACAA CTTCTTTTCG TTCAACACAC    360
CACCTCTCTC CGAAAAAGCT CTTCAATCCA GTCCATTAAG ATGGTTCATA TCGCTACTGC    420
CTCGGCTCCC GTTAACATTG CGTGTATCAA GGTCCGTCTG CATTGTGAAT GCTGCTCGTT    480
TGCCTTGTGT GCGTTTGGTG GATCTGAAAG AACCCTTGCT TGAACCATTC CATCTCTGCT    540
CTTTTTCTTC CTGTCCTTTC CTTTTTCTCA CGACAAAAAA ACCACCTGGA CCCTTTGTGT    600
TCCTTTCCAT TGGTGTTCAT ACACCTAACA CAGTACTGGG GTAAACGGGA TACCAAGTTG    660
ATTCTCCCTA CAAACTCCTC CTTGTCTGTC ACTCTCGACC AGGATCACCT CCGATCGACG    720
ACGTCTTCTG CTTGTGACGC CTCGTTCGAG AAGGATCGAC TTTGGCTTAA CGGGATCGAG    780
GAGGAGGTCA AGGCTGGTGG TCGGTTGGAT GTCTGCATCA AGGAGATGAA GAAGCTTCGA    840
GCGCAAGAGG AAGAGAAGGA TGCCGGTCTG GAGAAAGTGA GTTTTTCTCC TGTGTGCGTG    900
TGTACTCTGT ATAGGTACCG TTGACAGGAC AGTCTTTCTG AAGAGTTTGG ATCTTACTCT    960
TTTTTGGGGG GGTGGTGGTG TTTGAAATAA TGACCAAAAT AAAGCTCTCA TCTTTCAACG   1020
TGCACCTTGC GTCTTACAAC AACTTCCCGA CTGCCGCTGG ACTTGCTTCC TCCGCTTCCG   1080
GTCTAGCTGC GTTGGTCGCC TCGCTCGCCT CGCTCTACAA CCTCCCAACG AACGCATCCG   1140
AACTCTCGCT CATCGCCCGA CAAGGTTCTG GTTCTGCCTG CCGATCGCTC TTCGGCGGGT   1200
TCGTTGCTTG GGAACAGGGC AAGCTTTCCT CTGGAACCGA CTCGTTCGCT GTTCAGGTCG   1260
AGCCCAGGGA ACACTGGCCC TCACTCCACG CGCTGATCTG TGTAGTTTCC GACGAGAAAA   1320
AGACGACGGC CTCGACGGCA GGCATGCAAA CCACGGTGAA CACCTCGCCT TTGCTCCAAC   1380
ACCGAATCGA ACACGTCGTT CCAGCCCGGA TGGAGGCCAT CACCCAGGCG ATCCGGGCCA   1440
AGGATTTCGA CTCGTTCGCA AAGATCACCA TGAAGGACTC CAACCAGTTC CACGCCGTCT   1500
GCCTCGATTC GGAACCCCCG ATCTTTTACT TGAACGATGT CTCCCGATCG ATCATCCATC   1560
TCGTCACCGA GCTCAACAGA GTGTCCGTCC AGGCCGGCGG TCCCGTCCTT GCCGCCTACA   1620
CGTTCGACGC CGGGCCGAAC GCGGTGATCT ACGCCGAGGA ATCGTCCATG CCGGAGATCA   1680
TCAGGTTAAT CGAGCGGTAC TTCCCGTTGG GAACGGCTTT CGAGAACCCG TTCGGGGTTA   1740
ACACCGAAGG CGGTGATGCC CTGAGGGAAG GCTTTAACCA GAACGTCGCC CCGGTGTTCA   1800
GGAAGGGAAG CGTCGCCCGG TTGATTCACA CCCGGATCGG TGATGGACCC AGGACGTATG   1860
GCGAGGAGGA GAGCCTGATC GGCGAAGACG GTCTGCCAAA GGTCGTCAAG GCTTAGACTA   1920
TAGGTTGTTT CTTCTAAATT TGAGCCTTCC TCCCGCCTCC CTTCCACAAG CATAAAACAA   1980
AGGATAAACA AATGAATTAT CAAAATAACT ATAGGTTGTT TCTTCTAAAT TTGAGCCTTC   2040
CTCCCGCCTC CCTTCCACAA GCATAAAACA AAGGATAAAC AAATGAATTA TCAAAATAAA   2100
ATAAAAAGTC TGCCTTCTTT GTTTTGGAAT ACATCTTCTT TGGGACATGA CCCTTCTCCT   2160
TCTTTTCCGT ATACATCTTT TTGGGTATTT CATGGTGATC AAACAACATT GTGATCGAAA   2220
GCAGAGACGG CCATGGTGCT GGCTTTGAGC GTCTGGCGTT TTGTGTGTCC TGCACTTGAG   2280
CAACCCCAAG CTGACCGCTA GGAAAACTCA TTGATGTGAT TTATATCGTA CGATGAAAGA   2340
GAATAAAATG ATAGAAGAAC AAAGAAGAAC AAAGTAGAAG AACGTCTGAG AAGAAAGACA   2400
GGAAAATGAC ACGTACATAG TGTTCGATGA TGAATGATAT AATATTAAAT ATAAAATGAG   2460
GTAAACGTAT AGCATCACGG GATGAACGGA TGAACATGTA GTGGACAAGG TTGGGAAATA   2520
GGAATGTAGA ATCCAAGAAT CGTTGACTGA TGGACGGACG TATGTAAACA GGTACACCCC   2580
AAAGAAAAGA AAGAAAGAAA GAAAGAAAAC ACAAAGCCAA GGAAGTAAAG CAGATGGTCT   2640
TCTAAGAATA CGGCTTCAAA AAGACAGTGA ACACTCGTCG TCGAGGAATG ACAAGAAAAG   2700
TGAGAGACTA CGAAAGGAAG AAACCAAGAC GAAAAGAAGA ACGGAGATCG AACGGACAGA   2760
AATAAAG                                                             2767
(2)序列5资料:
(i)序列特征:
(A)长度:4092bp
(B)类型:核酸
(C)链型:双链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(ix)特征:
(A)名称/关键词:外显子
(B)位置:852..986
(ix)特征:
(A)名称/关键词:内含子
(B)位置:987..1173
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1174..1317
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1318..1468
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1469..1549
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1550..1671
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1672..1794
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1795..1890
(ix)特征:
(A)名称/关键词:外显子
(B)位置:1891..1979
(ix)特征:
(A)名称/关键词:内含子
(B)位置:1980..2092
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2093..2165
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2166..2250
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2251..2391
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2392..2488
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2489..2652
(ix)特征:
(A)名称/关键词:内含子
(B)位置:2653..2784
(ix)特征:
(A)名称/关键词:外显子
(B)位置:2785..2902
(ix)特征:
(A)名称/关键词:polyA位点
(B)位置:3024
(xi)序列描述:SEQ ID NO:5:
CGCCCGGTAT CTTGCCACAG ATGCCGCCGG AGTGTCTGGC GGAGTGCTAG GAACAACGTC      60
ATCTCCATCT GACGAGCAAG CGTACCACAA GCTAGCTCTT CGTCTGTCAG AAGGACATCC     120
ACGCACCTTC CTGGCCTTCG GGGATGGCAC CTTCTCGTCG ACTTCCCATG GCCGTGCCCC     180
TGGCCTTGTG AAGATACTGT TTGCCAAGCT GAGCGCCTCC CCGCTGCTCC AGGTCCGCAA     240
GGTCCGAGAG TATTGGACGT CGAAGATATG TTCAAAGTGT CAGGCGAGTT CTCGGGAGAA     300
AAAAAAAGCG TGGGCTCTGA AACAGTGTGG AAATGTCTAC AAAGTGAGCT GGATTTATTG     360
TGTGTGTATG TGTGTGTGTG TGTATGTTCT GTGTTGGTTG CTCACTGTAC TCTATGCTCT     420
CTCTTAGATT TGGGGAACAG TGCTGTGAAC GCGTCGCGAA ACATGCTGCA CCTAGCCCTT     480
CACCAGAAGG AGAACCAGAG GGCGGGAATG CTGGTGTCTG ACGCTGCTAC TGCTGCTACG     540
CTAGCCGCTG AGGCTGAGGC TGGCAGAAAC TAAATCCATG ACCCATCAGA TCTTGGTGAT     600
TCGTGGTCTG AGGACACCCA AGTCCAAAAG GGCTATATAT CGACCATCAT CCGTTGCGGT     660
CACTCAGTAG TAACTAAAGC TATACATAGG AATGTTCTGA ACTTGATAAC CCTAACACTA     720
CGAAAATATC TCGGAAAATA GATTAATTTC CTTCTCATCT CAAACAAAAG ACACAACACC     780
ATCAATCACG CTCCTTTCAC ACACTCTCCT TTTTGCTCTC TCGTTCGACA GAAAATAACA     840
TCAATAGCCA AATGTCCACT ACGCCTGAAG AGAAGAAAGC AGCTCGAGCA AAGTTCGAGG     900
CTGTCTTCCC GGTCATTGCC GATGAGATTC TCGATTATAT GAAGGGTGAA GGCATGCCTG     960
CCGAGGCTTT GGAATGGATG AACAAGGTTC GTCAAGGGTT TCTTCTTTAT TCTTCTGGTC    1020
TTTGTTTCGG TCGAACTGGC TTTCGAACTT GGCCTTGACC GGTTGGATCT CGGTTGTTGC    1080
GCCAAAACGA TGTCGAAGCA AAACTTACTC TTACCTGTTC GGTTTCCTTC CTTCCGACCT    1140
TCTCTCTACC CTTGCCTCCG ATCGGTCTTA TAGAACTTGT ACTACAACAC TCCCGGAGGA    1200
AAACTCAACC GAGGACTTTC CGTGGTGGAT ACTTATATCC TTCTCTCGCC TTCTGGAAAA    1260
GACATCTCGG AAGAAGAGTA CTTGAAGGCC GCTATCCTCG GTTGGTGTAT CGAGCTTGTA    1320
CGCGTTTTCT TCATTCACCT TTCTTTCTCG TCTTCTACTC TCTTCTCTCG AACTATCTTC    1380
CCTGCGTGTC ATCCTACACG AATCTTTATA CTTACATGTT GGAACATATG CCCTGTTCTT    1440
AATTCACCTC TTTTGTCTCG GATGGTAGCT CCAAGCTTAC TTCTTGGTGG CTGATGATAT    1500
GATGGACGCC TCAATCACCC GACGAGGCCA ACCCTGTTGG TACAAAGTTG TTAGTCCCTT    1560
CTTCTCTTTC TGTCCTCTTT CTTCTGAGCT ATGCCAATTC TTGATTGAAA TCGGTGGTGC    1620
CGTCCGGACT AATCCGTTTG TCGTTTTTAT CATATCTTCT TGCACAAACA GGAGGGAGTG    1680
TCTAACATTG CCATCAACGA CGCGTTCATG CTCGAGGGAG CTATCTACTT TTTGCTCAAG    1740
AAGCACTTCC GAAAGCAGAG CTACTATGTC GATCTGCTAG AGCTCTTCCA CGATGTTTGT    1800
CTCTATTTCT TTTCTTCCTC CCCTCAATAA ACTGTATTTG TGACCATTCT GGATCCTTTC    1860
CTGACGATGA ATCATTCTTC GGATGAGTAG GTTACTTTCC AAACCGAGTT GGGACAGCTC    1920
ATCGATCTGT TGACCGCTCC TGAGGATCAC GTCGATCTCG ACAAGTTCTC CCTTAACAAG    1980
TATGCCCGTC ATATATTCGT TTTGTTGCAT TCACGTCTGA TTGTCAGCTC CGATTATTGA    2040
CTCTGATGGT GATGGTATTG ACCACATCAT GCGATGTTTG ACTTTCTCGT AGGCACCACC    2100
TCATCGTTGT TTACAAGACC GCTTTCTATT CATTCTACCT TCCTGTCGCA CTCGCTATGC    2160
GAATGGTGGG TCTCTCTCTT CAACTGTTCT TCCTGATTTT CTTGACCATC TGTAACATAA    2220
ATCCTTGGAA TTTTGAACTC TATGTCATAG GTCGGCGTGA CAGATGAGGA GGCGTACAAG    2280
CTTGCGCTCT CGATCCTCAT CCCGATGGGT GAATACTTTC AAGTTCAGGA TGATGTGCTC    2340
GACGCGTTCG CTCCTCCGGA GATCCTTGGA AAGATCGGAA CCGACATCTT GGTGCGTTTT    2400
CGTTCCTTCC TTCTACGTTC TGTTTTCTAT CTTCTGACTC CCCGTCCATC ATTTATGCTT    2460
CTGTTAAAAC GTATTGAAAC ATCAAAAGGA CAACAAATGT TCATGGCCTA TCAACCTTGC    2520
ACTCTCTCTC GCCTCGCCCG CTCAGCGAGA GATTCTCGAT ACTTCGTACG GTCAGAAGAA    2580
CTCGGAGGCA GAGGCCAGAG TCAAGGCTCT GTACGCTGAG CTTGATATCC AGGGAAAGTT    2640
CAACGCTTAT GAGTATGTCA TCTTTTTTAA ATTTTCTAAT TTTCTTTTCA TCTCTTGTTC    2700
CCAAGAATTA TTTTGTGAAA GTTCTGGGAC TGAACATGGT GCATCCCTTT GGGTTCACTC    2760
CGCATATGTC TCCCGTTTGA ATAGGCAACA GAGTTACGAG TCGCTGAACA AGTTGATTGA    2820
CAGTATTGAC GAAGAGAAGA GTGGACTCAA GAAAGAAGTC TTCCACAGCT TCCTGGGTAA    2880
GGTCTATAAG CGAAGCAAGT AATTCTCCTC TTTATATGCA AAGGGAAGAT TTTGGCGGGA    2940
GTGATAGGTA GGAAGAGAAG GGAGGGTCAT ATTCATTAGG CATTTCTCTT GCAGATATAG    3000
ATGATCAAAA AGGGATATCG GTCCTCTTCT TTGTTCCGAA TACATAATAA GTCATACGAA    3060
GCCGAACATG ACAAAAGTGG TTCATGAGAT CAAACTTTTT GCATGATCTT CTGCGATTTT    3120
GTACAATTCT CTCGCATCCT ATTAGGATCG AACCAGGAGA AGATGAGAGA AGGAAACCCT    3180
CACCCCGTCA GATAACAAAC GAGAAGTCTC ATCACACACA CACACAGATG AAAGAGAAAA    3240
ATAAACTGAC GAGGATAACT TCCAATCCGA TTTTTCCAGC CCACGAACCT TCCTTGGTCC    3300
CCGCTCCGGT GCCTTCGAGT CCGATCAATG GGGCCCAAAC GCCTGAAGAT CCAAAGAACC    3360
CTTGTTGAGG TGTATTTCTC GTCTGAGCAA TCTTAGATCC TTCAATTTGC AGTCGCGCAT    3420
ATATACCATC AACATCATCG TCATCACCAT CATTGTCGTC CACAACAGCA CCGCAACGCC    3480
GTTAATGGCA GGGCTTGGAC AACTTGAGGC GGTTTCTAGC AGGTCGGACC GATTGGAGCT    3540
CGACCCAGGG TGCACATCAC CAAGACACAT TCTCCTTCAA ATGAGCGAAC AAGACATAAT    3600
GAGGGAAGTA GTACGCTATC GAACGTCTTC TCACATCCCG GGTTCTTGGC GTATCTTTTG    3660
GCGATTCTTT TTGTTGAAAT AGAAAATTGA AGAGAAAAAA AGAGATCCAC ATGATGAAGA    3720
ACGGCTCTGT AGATTCATGC TCGAAAGAAA GAAAGAAAGA AAAAGAGGGG AACGAACGGA    3780
TCTGAATCTG TGGCCAACCA AAAAGTAGGC ACAAAGATGA CAACAGCGCC CTCTTCGACA    3840
AGTCTTTGAA CTGCTTGTGG ATGAGACAAG TCCCAGCAGA TCAACATTCC TGCTTTACCC    3900
CATGGAGTAT CAAACACCTG AGAATAGGTC TTGCCCGGCT GTAGATAATC TCTGGACCGT    3960
CATATGCGCG AAACGATCAG TACGACCGAC TCTACTCGAA GTCGTCAAGA GCACGGACGA    4020
GAACGAAAAG AGGACAAACC GCTCTGGATG CCATAAATTT CTCTTCTCAT ACCTCTCCCA    4080
CCCACCCTCA GG                                                        4092
(2) 序列6资料:
(i)序列特征:
A)长度:1091aa
(B)类型:氨基酸
(D)拓扑结构:线性
(ii)分子类型:蛋白质
(iii)假拟结构:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(xi)序列描述:SEQ ID NO:6:
Met Tyr Thr Ile Lys His Ser Asn Phe Leu Ser Gln Thr Ile Ser Thr
1               5                   10                  15
Gln Ser Thr Thr Ser Trp Val Val Asp Ala Phe Phe Ser Leu Gly Ser
            20                  25                  30
Arg Tyr Leu Asp Leu Ala Lys Gln Ala Asp Ser Ala Asp Ile Phe Met
          35                  40                   45
Val Leu Leu Gly Tyr Val Leu Met His Gly Thr Phe Val Arg Leu Phe
    50                  55                  60
Leu Asn Phe Arg Arg Met Gly Ala Asn Phe Trp Leu Pro Gly Met Val
65                  70                  75                  80
Leu Val Ser Ser Ser Phe Ala Phe Leu Thr Ala Leu Leu Ala Ala Ser
                85                  90                  95
Ile Leu Asn Val Pro Ile Asp Pro Ile Cys Leu Ser Glu Ala Leu Pro
            100                 105                 110
Phe Leu Val Leu Thr Val Gly Phe Asp Lys Asp Phe Thr Leu Ala Lys
        115                 120                 125
Ser Val Phe Ser Ser Pro Glu Ile Ala Pro Val Met Leu Arg Arg Lys
    130                 135                 140
Pro Val Ile Gln Pro Gly Asp Asp Asp Asp Leu Glu Gln Asp Glu His
145                 150                 155                 160
Ser Arg Val Ala Ala Asn Lys Val Asp Ile Gln Trp Ala Pro Pro Val
                165                 170                 175
Ala Ala Ser Arg Ile Val Ile Gly Ser Val Glu Lys Ile Gly Ser Ser
            180                 185                 190
Ile Val Arg Asp Phe Ala Leu Glu Val Ala Val Leu Leu Leu Gly Ala
        195                 200                 205
Ala Ser Gly Leu Gly Gly Leu Lys Glu Phe Cys Lys Leu Ala Ala Leu
    210                 215                 220
Ile Leu Val Ala Asp Cys Cys Phe Thr Phe Thr Phe Tyr Val Ala Ile
225                 230                 235                 240
Leu Thr Val Met Val Glu Val His Arg Ile Lys Ile Ile Arg Gly Phe
                245                 250                 255
Arg Pro Ala His Asn Asn Arg Thr Pro Asn Thr Val Pro Ser Thr Pro
            260                 265                 270
Thr Ile Asp Gly Gln Ser Thr Asn Arg Ser Gly Ile Ser Ser Gly Pro
        275                 280                 285
Pro Ala Arg Pro Thr Val Pro Val Trp Lys Lys Val Trp Arg Lys Leu
    290                 295                 300
Met Gly Pro Glu Ile Asp Trp Ala Ser Glu Ala Glu Ala Arg Asn Pro
305                 310                 315                 320
Val Pro Lys Leu Lys Leu Leu Leu Ile Leu Ala Phe Leu Ile Leu His
                325                 330                 335
Ile Leu Asn Leu Cys Thr Pro Leu Thr Glu Thr Thr Ala Ile Lys Arg
            340                 345                 350
Ser Ser Ser Ile His Gln Pro Ile Tyr Ala Asp Pro Ala His Pro Ile
        355                 360                 365
Ala Gln Thr Asn Thr Thr Leu His Arg Ala His Ser Leu Val Ile Phe
    370                 375                 380
Asp Gln Phe Leu Ser Asp Trp Thr Thr Ile Val Gly Asp Pro Ile Met
385                 390                 395                 400
Ser Lys Trp Ile Ile Ile Thr Leu Gly Val Ser Ile Leu Leu Asn Gly
                405                 410                 415
Phe Leu Leu Lys Gly Ile Ala Ser Gly Ser Ala Leu Gly Pro Gly Arg
            420                 425                 430
Ala Gly Gly Gly Gly Ala Ala Ala Ala Ala Ala Val Leu Leu Gly Ala
        435                 440                 445
Trp Glu Ile Val Asp Trp Asn Asn Glu Thr Glu Thr Ser Thr Asn Thr
    450                 455                 460
Pro Ala Gly Pro Pro Gly His Lys Asn Gln Asn Val Asn Leu Arg Leu
465                 470                 475                 480
Ser Leu Glu Arg Asp Thr Gly Leu Leu Arg Tyr Gln Arg Glu Gln Ala
                485                 490                 495
Tyr Gln Ala Gln Ser Gln Ile Leu Ala Pro Ile Ser Pro Val Ser Val
            500                 505                 510
Ala Pro Val Val Ser Asn Gly Asn Gly Asn Ala Ser Lys Ser Ile Glu
        515                 520                 525
Lys Pro Met Pro Arg Leu Val Val Pro Asn Gly Pro Arg Ser Leu Pro
    530                 535                 540
Glu Ser Pro Pro Ser Thr Thr Glu Ser Thr Pro Val Asn Lys Val Ile
545                 550                 555                 560
Ile Gly Gly Pro Ser Asp Arg Pro Ala Leu Asp Gly Leu Ala Asn Gly
                565                 570                 575
Asn Gly Ala Val Pro Leu Asp Lys Gln Thr Val Leu Gly Met Arg Ser
            580                 585                 590
Ile Glu Glu Cys Glu Glu Ile Met Lys Ser Gly Leu Gly Pro Tyr Ser
        595                 600                 605
Leu Asn Asp Glu Glu Leu Ile Leu Leu Thr Gln Lys Gly Lys Ile Pro
    610                 615                 620
Pro Tyr Ser Leu Glu Lys Ala Leu Gln Asn Cys Glu Arg Ala Val Lys
625                 630                 635                 640
Ile Arg Arg Ala Val Ile Ser Arg Ala Ser Val Thr Lys Thr Leu Glu
                645                 650                 655
Thr Ser Asp Leu Pro Met Lys Asp Tyr Asp Tyr Ser Lys Val Met Gly
            660                 665                 670
Ala Cys Cys Glu Asn Val Val Gly Tyr Met Pro Leu Pro Val Gly Ile
        675                 680                 685
Ala Gly Pro Leu Asn Ile Asp Gly Glu Val Val Pro Ile Pro Met Ala
    690                 695                 700
Thr Thr Glu Gly Thr Leu Val Ala Ser Thr Ser Arg Gly Cys Lys Ala
705                 710                 715                 720
Leu Asn Ala Gly Gly Gly Val Thr Thr Val Ile Thr Gln Asp Ala Met
                725                 730                 735
Thr Arg Gly Pro Val Val Asp Phe Pro Ser Val Ser Gln Ala Ala Gln
            740                 745                 750
Ala Lys Arg Trp Leu Asp Ser Val Glu Gly Met Glu Val Met Ala Ala
        755                 760                 765
Ser Phe Asn Ser Thr Ser Arg Phe Ala Arg Leu Gln Ser Ile Lys Cys
    770                 775                 780
Gly Met Ala Gly Arg Ser Leu Tyr Ile Arg Leu Ala Thr Ser Thr Gly
785                 790                 795                 800
Asp Ala Met Gly Met Asn Met Ala Gly Lys Gly Thr Glu Lys Ala Leu
                805                 810                 815
Glu Thr Leu Ser Glu Tyr Phe Pro Ser Met Gln Ile Leu Ala Leu Ser
            820                 825                 830
Gly Asn Tyr Cys Ile Asp Lys Lys Pro Ser Ala Ile Asn Trp Ile Glu
        835                 840                 845
Gly Arg Gly Lys Ser Val Val Ala Glu Ser Val Ile Pro Gly Ala Ile
    850                 855                 860
Val Lys Ser Val Leu Lys Thr Thr Val Ala Asp Leu Val Asn Leu Asn
865                 870                 875                 880
Ile Lys Lys Asn Leu Ile Gly Ser Ala Met Ala Gly Ser Ile Gly Gly
                885                 890                 895
Phe Asn Ala His Ala Ser Asp Ile Leu Thr Ser Ile Phe Leu Ala Thr
            900                 905                 910
Gly Gln Asp Pro Ala Gln Asn Val Glu Ser Ser Met Cys Met Thr Leu
        915                 920                 925
Met Glu Ala Val Asn Asp Gly Lys Asp Leu Leu Ile Thr Cys Ser Met
    930                 935                 940
Pro Ala Ile Glu Cys Gly Thr Val Gly Gly Gly Thr Phe Leu Pro Pro
945                 950                 955                 960
Gln Asn Ala Cys Leu Gln Met Leu Gly Val Ala Gly Ala His Pro Asp
                965                 970                 975
Ser Pro Gly His Asn Ala Arg Arg Leu Ala Arg Ile Ile Ala Ala Ser
            980                 985                 990
Val Met Ala Gly Glu Leu Ser Leu Met Ser Ala Leu Ala Ala Gly His
        995                 1000                1005
Leu Ile Lys Ala His Met Lys His Asn Arg Ser Thr Pro Ser Thr Pro
    1010                1015                1020
Leu Pro Val Ser Pro Leu Ala Thr Arg Pro Asn Thr Pro Ser His Arg
1025                1030                1035                1040
Ser Ile Gly Leu Leu Thr Pro Met Thr Ser Ser Ala Ser Val Ala Ser
                1045                1050                1055
Met Phe Ser Gly Phe Gly Ser Pro Ser Thr Ser Ser Leu Lys Thr Val
            1060                1065                1070
Gly Ser Met Ala Cys Val Arg Glu Arg Gly Asp Glu Thr Ser Val Asn
        1075                1080                1085
Val Asp Ala
    1090
(2)序列7资料:
(i)序列特征:
(A)长度:467aa
(B)类型:氨基酸
(D)拓扑结构:线性
(ii)分子类型:蛋白质
(iii)假拟结构:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(xi)序列描述:SEQ ID NO:7:
Met Tyr Thr Ser Thr Thr Glu Gln Arg Pro Lys Asp Val Gly Ile Leu
1               5                   10                  15
Gly Met Glu Ile Tyr Phe Pro Arg Arg Ala Ile Ala His Lys Asp Leu
            20                  25                  30
Glu Ala Phe Asp Gly Val Pro Ser Gly Lys Tyr Thr Ile Gly Leu Gly
        35                  40                  45
Asn Asn Phe Met Ala Phe Thr Asp Asp Thr Glu Asp Ile Asn Ser Phe
    50                  55                  60
Ala Leu Asn Ala Val Ser Gly Leu Leu Ser Lys Tyr Asn Val Asp Pro
65                  70                  75                  80
Lys Ser Ile Gly Arg Ile Asp Val Gly Thr Glu Ser Ile Ile Asp Lys
                85                  90                  95
Ser Lys Ser Val Lys Thr Val Leu Met Asp Leu Phe Glu Ser His Gly
            100                 105                 110
Asn Thr Asp Ile Glu Gly Ile Asp Ser Lys Asn Ala Cys Tyr Gly Ser
        115                 120                 125
Thr Ala Ala Leu Phe Asn Ala Val Asn Trp Ile Glu Ser Ser Ser Trp
    130                 135                 140
Asp Gly Arg Asn Ala Ile Val Phe Cys Gly Asp Ile Ala Ile Tyr Ala
145                 150                 155                 160
Glu Gly Ala Ala Arg Pro Ala Gly Gly Ala Gly Ala Cys Ala Ile Leu
                165                 170                 175
Ile Gly Pro Asp Ala Pro Val Val Phe Glu Pro Val His Gly Asn Phe
            180                 185                 190
Met Thr Asn Ala Trp Asp Phe Tyr Lys Pro Asn Leu Ser Ser Glu Tyr
        195                 200                 205
Pro Ile Val Asp Gly Pro Leu Ser Val Thr Ser Tyr Val Asn Ala Ile
    210                 215                 220
Asp Lys Ala Tyr Glu Ala Tyr Arg Thr Lys Tyr Ala Lys Arg Phe Gly
225                 230                 235                 240
Gly Pro Lys Thr Asn Gly Val Thr Asn Gly His Thr Glu Val Ala Gly
                245                 250                 255
Val Ser Ala Ala Ser Phe Asp Tyr Leu Leu Phe His Ser Pro Tyr Gly
            260                 265                 270
Lys Gln Val Val Lys Gly His Gly Arg Leu Leu Tyr Asn Asp Phe Arg
        275                 280                 285
Asn Asn Pro Asn Asp Pro Val Phe Ala Glu Val Pro Ala Glu Leu Ala
    290                 295                 300
Thr Leu Asp Met Lys Lys Ser Leu Ser Asp Lys Asn Val Glu Lys Ser
305                 310                 315                 320
Leu Ile Ala Ala Ser Lys Ser Ser Phe Asn Lys Gln Val Glu Pro Gly
                325                 330                 335
Met Thr Thr Val Arg Gln Leu Gly Asn Leu Tyr Thr Ala Ser Leu Phe
            340                 345                 350
Gly Ala Leu Ala Ser Leu Phe Ser Asn Val Pro Gly Asp Glu Leu Val
        355                 360                 365
Gly Lys Arg Ile Ala Leu Tyr Ala Tyr Gly Ser Gly Ala Ala Ala Ser
    370                 375                 380
Phe Tyr Ala Leu Lys Val Lys Ser Ser Thr Ala Phe Ile Ser Glu Lys
385                 390                 395                 400
Leu Asp Leu Asn Asn Arg Leu Ser Asn Met Lys Ile Val Pro Cys Asp
                405                 410                 415
Asp Phe Val Lys Ala Leu Lys Val Arg Glu Glu Thr His Asn Ala Val
            420                 425                 430
Ser Tyr Ser Pro Ile Gly Ser Leu Asp Asp Leu Trp Pro Gly Ser Tyr
        435                 440                 445
Tyr Leu Gly Glu Ile Asp Ser Met Trp Arg Arg Gln Tyr Lys Gln Val
    450                 455                 460
Pro Ser Ala
465
(2)序列8资料:
(i)序列特征:
(A)长度:432aa
(B)类型:氨基酸
(D)拓扑结构:线性
(ii)分子类型:蛋白质
(iii)假拟结构:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(xi)序列描述:SEQ ID NO:8:
Lys Glu Glu Ile Leu Val Ser Ala Pro Gly Lys Val Ile Leu Phe Gly
1               5                   10                  15
Glu His Ala Val Gly His Gly Val Thr Gly Ile Ala Ala Ser Val Asp
            20                  25                  30
Leu Arg Cys Tyr Ala Leu Leu Ser Pro Thr Ala Thr Thr Thr Thr Ser
        35                  40                  45
Ser Ser Leu Ser Ser Thr Asn Ile Thr Ile Ser Leu Thr Asp Leu Asn
    50                  55                  60
Phe Thr Gln Ser Trp Pro Val Asp Ser Leu Pro Trp Ser Leu Ala Pro
65                  70                  75                  80
Asp Trp Thr Glu Ala Ser Ile Pro Glu Ser Leu Cys Pro Thr Leu Leu
                85                  90                  95
Ala Glu Ile Glu Arg Ile Ala Gly Gln Gly Gly Asn Gly Gly Glu Arg
            100                 105                 110
Glu Lys Val Ala Thr Met Ala Phe Leu Tyr Leu Leu Val Leu Leu Ser
        115                 120                 125
Lys Gly Lys Pro Ser Glu Pro Phe Glu Leu Thr Ala Arg Ser Ala Leu
    130                 135                 140
Pro Met Gly Ala Gly Leu Gly Ser Ser Ala Ala Leu Ser Thr Ser Leu
145                 150                 155                 160
Ala Leu Val Phe Leu Leu His Phe Ser His Leu Ser Pro Thr Thr Thr
                165                 170                 175
Gly Arg Glu Ser Thr Ile Pro Thr Ala Asp Thr Glu Val Ile Asp Lys
            180                 185                 190
Trp Ala Phe Leu Ala Glu Lys Val Ile His Gly Asn Pro Ser Gly Ile
        195                 200                 205
Asp Asn Ala Val Ser Thr Arg Gly Gly Ala Val Ala Phe Lys Arg Lys
    210                 215                 220
Ile Glu Gly Lys Gln Glu Gly Gly Met Glu Ala Ile Lys Ser Phe Thr
225                 230                 235                 240
Ser Ile Arg Phe Leu Ile Thr Asp Ser Arg Ile Gly Arg Asp Thr Arg
                245                 250                 255
Ser Leu Val Ala Gly Val Asn Ala Arg Leu Ile Gln Glu Pro Glu Val
            260                 265                 270
Ile Val Pro Leu Leu Glu Ala Ile Gln Gln Ile Ala Asp Glu Ala Ile
        275                 280                 285
Arg Cys Leu Lys Asp Ser Glu Met Glu Arg Ala Val Met Ile Asp Arg
    290                 295                 300
Leu Gln Asn Leu Val Ser Glu Asn His Ala His Leu Ala Ala Leu Gly
305                 310                 315                 320
Val Ser His Pro Ser Leu Glu Glu Ile Ile Arg Ile Gly Ala Asp Lys
                325                 330                 335
Pro Phe Glu Leu Arg Thr Lys Leu Thr Gly Ala Gly Gly Gly Gly Cys
            340                 345                 350
Ala Val Thr Leu Val Pro Asp Asp Phe Ser Thr Glu Thr Leu Gln Ala
        355                 360                 365
Leu Met Glu Thr Leu Val Gln Ser Ser Phe Ala Pro Tyr Ile Ala Arg
    370                 375                 380
Val Gly Gly Ser Gly Val Gly Phe Leu Ser Ser Thr Lys Ala Asp Pro
385                 390                 395                 400
Glu Asp Gly Glu Asn Arg Leu Lys Asp Gly Leu Val Gly Thr Glu Ile
                405                 410                 415
Asp Glu Leu Asp Arg Trp Ala Leu Lys Thr Gly Arg Trp Ser Phe Ala
            420                 425                 430
(2)序列9资料:
(i)序列特征:
(A)长度:401aa
(B)类型:氨基酸
(D)拓扑结构:线性
(ii)分子类型:蛋白质
(iii)假拟结构:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(xi)序列描述:SEQ ID NO:9:
Met Val His Ile Ala Thr Ala Ser Ala Pro Val Asn Ile Ala Cys Ile
1               5                   10                  15
Lys Tyr Trp Gly Lys Arg Asp Thr Lys Leu Ile Leu Pro Thr Asn Ser
            20                  25                  30
Ser Leu Ser Val Thr Leu Asp Gln Asp His Leu Arg Ser Thr Thr Ser
        35                  40                  45
Ser Ala Cys Asp Ala Ser Phe Glu Lys Asp Arg Leu Trp Leu Asn Gly
    50                  55                  60
Ile Glu Glu Glu Val Lys Ala Gly Gly Arg Leu Asp Val Cys Ile Lys
65                  70                  75                  80
Glu Met Lys Lys Leu Arg Ala Gln Glu Glu Glu Lys Asp Ala Gly Leu
                85                  90                  95
Glu Lys Leu Ser Ser Phe Asn Val His Leu Ala Ser Tyr Asn Asn Phe
            100                 105                 110
Pro Thr Ala Ala Gly Leu Ala Ser Ser Ala Ser Gly Leu Ala Ala Leu
        115                 120                 125
Val Ala Ser Leu Ala Ser Leu Tyr Asn Leu Pro Thr Asn Ala Ser Glu
    130                 135                 140
Leu Ser Leu Ile Ala Arg Gln Gly Ser Gly Ser Ala Cys Arg Ser Leu
145                 150                 155                 160
Phe Gly Gly Phe Val Ala Trp Glu Gln Gly Lys Leu Ser Ser Gly Thr
                165                 170                 175
Asp Ser Phe Ala Val Gln Val Glu Pro Arg Glu His Trp Pro Ser Leu
            180                 185                 190
His Ala Leu Ile Cys Val Val Ser Asp Glu Lys Lys Thr Thr Ala Ser
        195                 200                 205
Thr Ala Gly Met Gln Thr Thr Val Asn Thr Ser Pro Leu Leu Gln His
    210                 215                 220
Arg Ile Glu His Val Val Pro Ala Arg Met Glu Ala Ile Thr Gln Ala
225                 230                 235                 240
Ile Arg Ala Lys Asp Phe Asp Ser Phe Ala Lys Ile Thr Met Lys Asp
                245                 250                 255
Ser Asn Gln Phe His Ala Val Cys Leu Asp Ser Glu Pro Pro Ile Phe
            260                 265                 270
Tyr Leu Asn Asp Val Ser Arg Ser Ile Ile His Leu Val Thr Glu Leu
        275                 280                 285
Asn Arg Val Ser Val Gln Ala Gly Gly Pro Val Leu Ala Ala Tyr Thr
    290                 295                 300
Phe Asp Ala Gly Pro Asn Ala Val Ile Tyr Ala Glu Glu Ser Ser Met
305                 310                 315                 320
Pro Glu Ile Ile Arg Leu Ile Glu Arg Tyr Phe Pro Leu Gly Thr Ala
                325                 330                 335
Phe Glu Asn Pro Phe Gly Val Asn Thr Glu Gly Gly Asp Ala Leu Arg
            340                 345                 350
Glu Gly Phe Asn Gln Asn Val Ala Pro Val Phe Arg Lys Gly Ser Val
        355                 360                 365
Ala Arg Leu Ile His Thr Arg Ile Gly Asp Gly Pro Arg Thr Tyr Gly
    370                 375                 380
Glu Glu Glu Ser Leu Ile Gly Glu Asp Gly Leu Pro Lys Val Val Lys
385                 390                 395                 400
Ala
(2)序列10资料:
(i)序列特征:
(A)长度:355aa
(B)类型:氨基酸
(D)拓扑结构:线性
(ii)分子类型:蛋白质
(iii)假拟结构:无
(vi)原始来源:
(A)生物体:Phaffia rhodozyma
(B)菌株:ATCC96594
(xi)序列描述:SEQ ID NO:10:
Met Ser Thr Thr Pro Glu Glu Lys Lys Ala Ala Arg Ala Lys Phe Glu
1               5                   10                  15
Ala Val Phe Pro Val Ile Ala Asp Glu Ile Leu Asp Tyr Met Lys Gly
            20                  25                  30
Glu Gly Met Pro Ala Glu Ala Leu Glu Trp Met Asn Lys Asn Leu Tyr
        35                  40                  45
Tyr Asn Thr Pro Gly Gly Lys Leu Asn Arg Gly Leu Ser Val Val Asp
    50                  55                  60
Thr Tyr Ile Leu Leu Ser Pro Ser Gly Lys Asp Ile Ser Glu Glu Glu
65                  70                  75                  80
Tyr Leu Lys Ala Ala Ile Leu Gly Trp Cys Ile Glu Leu Leu Gln Ala
                85                  90                  95
Tyr Phe Leu Val Ala Asp Asp Met Met Asp Ala Ser Ile Thr Arg Arg
            100                 105                 110
Gly Gln Pro Cys Trp Tyr Lys Val Glu Gly Val Ser Asn Ile Ala Ile
        115                 120                 125
Asn Asn Ala Phe Met Leu Glu Gly Ala Ile Tyr Phe Leu Leu Lys Lys
    130                 135                 140
His Phe Arg Lys Gln Ser Tyr Tyr Val Asp Leu Leu Glu Leu Phe His
145                 150                 155                 160
Asp Val Thr Phe Gln Thr Glu Leu Gly Gln Leu Ile Asp Leu Leu Thr
                165                 170                 175
Ala Pro Glu Asp His Val Asp Leu Asp Lys Phe Ser Leu Asn Lys His
            180                 185                 190
His Leu Ile Val Val Tyr Lys Thr Ala Phe Tyr Ser Phe Tyr Leu Pro
        195                 200                 205
Val Ala Leu Ala Met Arg Met Val Gly Val Thr Asp Glu Glu Ala Tyr
    210                 215                 220
Lys Leu Ala Leu Ser Ile Leu Ile Pro Met Gly Glu Tyr Phe Gln Val
225                 230                 235                 240
Gln Asp Asp Val Leu Asp Ala Phe Arg Pro Pro Glu Ile Leu Gly Lys
                245                 250                 255
Ile Gly Thr Asp Ile Leu Asp Asn Lys Cys Ser Trp Pro Ile Asn Leu
            260                 265                 270
Ala Leu Ser Pro Ala Ser Pro Ala Gln Arg Glu Ile Leu Asp Thr Ser
        275                 280                 285
Tyr Gly Gln Lys Asn Ser Glu Ala Glu Ala Arg Val Lys Ala Leu Tyr
    290                 295                 300
Ala Glu Leu Asp Ile Gln Gly Lys Phe Asn Ala Tyr Glu Gln Gln Ser
305                 310                 315                 320
Tyr Glu Ser Leu Asn Lys Leu Ile Asp Ser Ile Asp Glu Glu Lys Ser
                325                 330                 335
Gly Leu Lys Lys Glu Val Phe His Ser Phe Leu Gly Lys Val Tyr Lys
            340                 345                 350
Arg Ser Lys
       355
(2)序列11资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:11
GGNAARTAYA CNATHGGNYT NGGNCA
(2)序列12资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:12
TANARNSWNS WNGTRTACAT RTTNCC
(2)序列13资料:
(i)序列特征:
(A)长度:24bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:13
GAAGAACCCC ATCAAAAGCC TCGA
(2)序列14资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:14
AAAAGCCTCG AGATCCTTGT GAGCG
(2)序列15资料:
(i)序列特征:
(A)长度:18bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:15
AGAAGCCAGA AGAGAAAA
(2)序列16资料:
(i)序列特征:
(A)长度:18bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:16
TCGTCGAGGA AAGTAGAT
(2)序列17资料:
(i)序列特征:
(A)长度:30bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:17
GGTACCATAT GTATCCTTCT ACTACCGAAC
(2)序列18资料:
(i)序列特征:
(A)长度:30bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:18
GCATGCGGAT CCTCAAGCAG AAGGGACCTG
(2)序列19资料:
(i)序列特征:
(A)长度:32bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:19
GCNTGYTGYG ARAAYGTNAT HGGNTAYATG CC
(2)序列20资料:
(i)序列特征:
(A)长度:32bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:20
ATCCARTTDA TNGCNGCNGG YTTYTTRTCN GT
(2)序列21资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:21
GGCCATTCCA CACTTGATGC TCTGC
(2)序列22资料:
(i)序列特征:
(A)长度:21bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:22
GGCCGATATC TTTATGGTCC T
(2)序列23资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:23
GGTACCGAAG AAATTATGAA GAGTGG
(2)序列24资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:24
CTGCAGTCAG GCATCCACGT TCACAC
(2)序列25资料:
(i)序列特征:
(A)长度:29bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:25
GCNCCNGGNA ARGTNATHYT NTTYGGNGA
(2)序列26资料:
(i)序列特征:
(A)长度:29bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:26
CCCCANGTNS WNACNGCRTT RTC NACNCC
(2)序列27资料:
(i)序列特征:
(A)长度:17bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:27
ACATGCTGTA GTCCATG
(2)序列28资料:
(i)序列特征:
(A)长度:16bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:28
ACTCGGATTC CATGGA
(2)序列29资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:29
TTGTTGTCGT AGCAGTGGGT GAGAG
(2)序列30资料:
(i)序列特征:
(A)长度:18bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:30
GGAAGAGGAA GAGAAAAG
(2)序列31资料:
(i)序列特征:
(A)长度:18bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:31
TTGCCGAACT CAATGTAG
(2)序列32资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:32
GGATCCATGA GAGCCCAAAA AGAAGA
(2)序列33资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:33
GTCGACTCAA GCAAAAGACC AACGAC
(2)序列34资料:
(i)序列特征:
(A)长度:23bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:34
HTNAARTAYT TGGGNAARMG NGA
(2)序列35资料:
(i)序列特征:
(A)长度:29bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:35
GCRTTNGGNC CNGCRTCRAA NGTRTANGC
(2)序列36资料:
(i)序列特征:
(A)长度:20bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:36
CCGAACTCTC GCTCATCGCC
(2)序列37资料:
(i)序列特征:
(A)长度:20bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:37
CAGATCAGCG CGTGGAGTGA
(2)序列38资料:
(i)序列特征:
(A)长度:26bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:38
CARGCNTAYT TYYTNGTNGC NGAYGA
(2)序列39资料:
(i)序列特征:
(A)长度:32bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:39
 CAYTTRTTRT CYTGDATRTC NGTNCCDATY TT
(2)序列40资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:40
ATCCTCATCC CGATGGGTGA ATACT
(2)序列41资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:41
AGGAGCGGTC AACAGATCGA TGAGC
(2)序列42资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:42
GAATTCATAT GTCCACTACG CCTGA
(2)序列43资料:
(i)序列特征:
(A)长度:25bp
(B)类型:核酸
(C)链型:单链
(D)拓扑结构:线性
(ii)分子类型:DNA(基因组)
(iii)假拟结构:无
(iv)反义:无
(xi)序列描述:SEQ ID NO:43
GTCGACGGTA CCTATCACTC CCGCC

Claims (9)

1.分离的DNA序列,其编码与甲羟戊酸途径或自异戊烯焦磷酸到法尼焦磷酸的途径有关的酶,其中优选所说的酶具有选自如下的活性:3-羟-3-甲基戊二酰-CoA合酶活性,3-羟-3-甲基戊二酰-CoA还原酶活性,甲羟戊酸激酶活性,甲羟戊酸焦磷酸脱羧酶活性和法尼焦磷酸合酶活性。
2.权利要求1的分离的DNA序列,特征为:
(a)所说DNA序列编码的所有酶具有选自序列6,7,8,9和10的氨基酸序列,或者
(b)所说的DNA编码所说的酶的变体,选自(i)等位基因变体,和(ii)具有一个或多个氨基酸加入,插入,缺失和/或取代并具有所宣称的酶活性的酶。
3.权利要求1-2中任一项的分离的DNA序列,其可以是衍生于Phaffiarhodozyma基因的并选自:(i)序列1,2,4或5所示的DNA序列;(ii)序列1,2,4或5所示的DNA的相等指导或等位基因变体;和(iii)带有一个或多个核苷酸的加入,插入,缺失和/或取代的序列1,2,4或5所示的DNA序列的并编码具有所说的酶活性的多肽的衍生物。
4.分离的DNA序列,选自:
(i)序列3代表的DNA序列;(ii)序列3所示DNA序列的相等指导或等位基因变体;以及(iii)编码具有甲羟戊酸激酶活性的多肽的带有一个或多个核苷酸加成,插入,缺失和/或取代的序列3所示的DNA序列的衍生物。
5.权利要求1的分离的DNA序列,选自:(i)在标准条件杂交于序列1-10所示的序列或其互补链或其片段的DNA序列,以及(ii)那些由于遗传密码子的简并性而不能如(i)所述进行杂交但编码具有完全同于序列1-10所示的氨基酸序列的或由(i)定义的DNA编码的多肽的DNA序列。
6.载体或质粒,含有权利要求1-5中任一项的DNA序列的载体或质粒。
7.被权利要求1-5中任一项的DNA序列或权利要求6的载体或质粒转化或转染的宿主细胞。
8.生产与甲羟戊酸途径或从异戊烯焦磷酸到法尼焦磷酸的途径相关的酶的方法,包括在有利于生产所说酶的条件下培养权利要求7所述的宿主细胞。
9.生产类异戊二烯或类胡萝卜素,优选变胞藻黄素的方法,包括在合适的条件下培养权利要求7的宿主细胞。
CNB2006100848321A 1998-05-06 1999-05-06 改进的类异戊二烯的生产 Expired - Fee Related CN100487120C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP98108210 1998-05-06
EP98108210.0 1998-05-06

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB991063678A Division CN1262648C (zh) 1998-05-06 1999-05-06 改进的类异戊二烯的生产

Publications (2)

Publication Number Publication Date
CN1970770A true CN1970770A (zh) 2007-05-30
CN100487120C CN100487120C (zh) 2009-05-13

Family

ID=8231884

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB991063678A Expired - Fee Related CN1262648C (zh) 1998-05-06 1999-05-06 改进的类异戊二烯的生产
CNB2006100848321A Expired - Fee Related CN100487120C (zh) 1998-05-06 1999-05-06 改进的类异戊二烯的生产

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CNB991063678A Expired - Fee Related CN1262648C (zh) 1998-05-06 1999-05-06 改进的类异戊二烯的生产

Country Status (11)

Country Link
US (3) US6284506B1 (zh)
JP (2) JP2000050884A (zh)
KR (1) KR100626511B1 (zh)
CN (2) CN1262648C (zh)
AU (1) AU762939B2 (zh)
BR (1) BR9901403A (zh)
CA (1) CA2270711A1 (zh)
CL (1) CL2009002108A1 (zh)
ID (1) ID23300A (zh)
NO (1) NO992165L (zh)
TW (1) TWI250210B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102453724A (zh) * 2007-06-21 2012-05-16 日立造船株式会社 编码杜仲的甲羟戊酸途径的酶的基因
CN102791848A (zh) * 2008-07-02 2012-11-21 丹尼斯科美国公司 用于在去偶联条件和/或安全操作范围下产生不含c5烃的异戊二烯的方法和组合物
US9751820B2 (en) 2009-12-18 2017-09-05 Danisco Us Inc. Purification of isoprene from renewable resources
CN114107340A (zh) * 2021-08-11 2022-03-01 昆明理工大学 一种甲羟戊酸激酶基因rkmk及其应用

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2292776A1 (en) 2000-07-31 2011-03-09 Danisco US Inc. Manipulation of genes of the mevalonate and isoprenoid pathways to create novel traits in transgenic organisms
CN100372939C (zh) * 2000-10-06 2008-03-05 札幌啤酒株式会社 法尼焦磷酸合酶蛋白质、核酸及其启动子区域
US6413758B1 (en) * 2000-10-20 2002-07-02 New England Biolabs, Inc. Method for cloning and expression of Bpml restriction endonuclease in E. coli
US6335190B1 (en) * 2000-10-20 2002-01-01 New England Biolabs, Inc. Method for cloning and producing the BsmI restriction endonuclease in E. coli
US7192751B2 (en) * 2001-12-06 2007-03-20 The Regents Of The University Of California Biosynthesis of amorpha-4,11-diene
US7172886B2 (en) * 2001-12-06 2007-02-06 The Regents Of The University Of California Biosynthesis of isopentenyl pyrophosphate
WO2003095651A1 (fr) * 2002-05-10 2003-11-20 Kyowa Hakko Kogyo Co., Ltd. Procede de production d'acide mevalonique
US8524397B1 (en) 2004-11-08 2013-09-03 Quallion Llc Battery having high rate and high capacity capabilities
EP1543143A2 (en) * 2002-09-27 2005-06-22 DSM IP Assets B.V. Astaxanthin production using fed-batch fermentation process by phaffia rhodozyma
US7632317B2 (en) * 2002-11-04 2009-12-15 Quallion Llc Method for making a battery
KR101190897B1 (ko) 2003-06-12 2012-10-12 디에스엠 아이피 어셋츠 비.브이. 피드백 내성 메발로네이트 키나아제
DE602005026692D1 (de) * 2004-12-14 2011-04-14 Dsm Ip Assets Bv Verbesserte mevalonatkinase
UA94038C2 (ru) 2005-03-18 2011-04-11 Майкробиа, Инк. Продуцирование каротиноидов в маслянистых дрожжах и грибах
WO2008042338A2 (en) 2006-09-28 2008-04-10 Microbia, Inc. Production of carotenoids in oleaginous yeast and fungi
KR100845582B1 (ko) * 2006-11-09 2008-07-11 부경대학교 산학협력단 이소프레노이드와 카로티노이드 생합성 유전자로 형질전환된 대장균 및 이를 이용한 아스타잔틴의 대량 생산방법
US8232431B2 (en) * 2008-09-22 2012-07-31 The Procter & Gamble Company Specific branched surfactants and consumer products
US8044249B2 (en) 2008-09-22 2011-10-25 The Procter & Gamble Company Specific branched aldehydes, alcohols, surfactants, and consumer products based thereon
NZ708078A (en) 2010-06-02 2017-01-27 Evolva Nutrition Inc Recombinant production of steviol glycosides
BR112014003037B1 (pt) 2011-08-08 2022-04-05 Evolva Sa Hospedeiro recombinante e método para produzir um glicosídeo de esteviol
JP2015226469A (ja) * 2012-09-24 2015-12-17 株式会社カネカ 新規dna、およびそれを利用したカロテノイドの製造方法
EP2954058B1 (en) 2013-02-06 2021-03-31 Evolva SA Methods for improved production of rebaudioside d and rebaudioside m
BR112015019160A2 (pt) 2013-02-11 2017-08-22 Dalgaard Mikkelsen Michael Produção de glicosídeos de esteviol em hospedeiros recombinantes
WO2014150171A1 (en) 2013-03-15 2014-09-25 The Procter & Gamble Company Specific unsaturated and branched functional materials for use in consumer products
JP6282813B2 (ja) * 2013-07-16 2018-02-21 住友ゴム工業株式会社 ヒドロキシメチルグルタリルCoAレダクターゼの発現をbZIP型転写因子により調整する方法、bZIP型転写因子をコードする遺伝子が導入されたイソプレノイド産生植物、及び該イソプレノイド産生植物を用いたポリイソプレノイドの製造方法
US10280406B2 (en) 2014-04-09 2019-05-07 Adeka Corporation Mutant enzyme and production method for terpenoid using said mutant enzyme
SG11201700651RA (en) 2014-08-11 2017-02-27 Evolva Sa Production of steviol glycosides in recombinant hosts
CN107109358B (zh) 2014-09-09 2022-08-02 埃沃尔瓦公司 在重组宿主中生产甜菊醇糖苷
WO2016120486A1 (en) 2015-01-30 2016-08-04 Evolva Sa Production of steviol glycosides in recombinant hosts
WO2016146711A1 (en) 2015-03-16 2016-09-22 Dsm Ip Assets B.V. Udp-glycosyltransferases
AU2016307066A1 (en) 2015-08-07 2018-02-08 Evolva Sa Production of steviol glycosides in recombinant hosts
WO2017178632A1 (en) 2016-04-13 2017-10-19 Evolva Sa Production of steviol glycosides in recombinant hosts
EP3458599A1 (en) 2016-05-16 2019-03-27 Evolva SA Production of steviol glycosides in recombinant hosts
US11396669B2 (en) 2016-11-07 2022-07-26 Evolva Sa Production of steviol glycosides in recombinant hosts
JP2021505154A (ja) 2017-12-07 2021-02-18 ザイマージェン インコーポレイテッド 発酵によって(6e)−8−ヒドロキシゲラニオールを生産するための設計された生合成経路
EP3728212A1 (en) 2017-12-21 2020-10-28 Zymergen Inc. Nepetalactol oxidoreductases, nepetalactol synthases, and microbes capable of producing nepetalactone
CN109777815B (zh) * 2019-03-28 2021-10-29 昆明理工大学 HMG-CoA合成酶基因RKHMGCS及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5460949A (en) 1990-11-15 1995-10-24 Amoco Corporation Method and composition for increasing the accumulation of squalene and specific sterols in yeast
JP2754975B2 (ja) 1991-10-01 1998-05-20 トヨタ自動車株式会社 ファルネシル二リン酸合成酵素およびそれをコードするdna配列
FR2687284B1 (fr) 1992-02-14 1995-06-23 Verneuil Rech Plante portant des genes codant pour des enzymes de la voie de biosynthese des phytosterols, et procede d'obtention.
NZ248628A (en) 1992-09-11 1996-02-27 Gist Brocades Nv Transformed phaffia (yeast) strains and methods and vectors used
ES2229288T3 (es) 1995-12-22 2005-04-16 Dsm Ip Assets B.V. Metodos mejorados para transformar cepas de phaffia, cepas de phaffia transformadas asi obtenidas y dna recombinante en dichos metodos.
JPH10248575A (ja) 1997-03-12 1998-09-22 Kirin Brewery Co Ltd カロチノイド生産の増量に有用な遺伝子、およびカロチノイドの製造法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102453724A (zh) * 2007-06-21 2012-05-16 日立造船株式会社 编码杜仲的甲羟戊酸途径的酶的基因
CN102453724B (zh) * 2007-06-21 2014-01-01 日立造船株式会社 编码杜仲的甲羟戊酸途径的酶的基因
CN102791848A (zh) * 2008-07-02 2012-11-21 丹尼斯科美国公司 用于在去偶联条件和/或安全操作范围下产生不含c5烃的异戊二烯的方法和组合物
US8906658B2 (en) 2008-07-02 2014-12-09 Danisco Us Inc. Compositions and methods for producing isoprene free of C5 hydrocarbons under decoupling conditions and/or safe operating ranges
US9249070B2 (en) 2008-07-02 2016-02-02 Danisco Us Inc. Compositions and methods for producing isoprene free of C5 hydrocarbons under decoupling conditions and/or safe operating ranges
US9777294B2 (en) 2008-07-02 2017-10-03 Danisco Us Inc. Compositions and methods for producing isoprene free of C5 hydrocarbons under decoupling conditions and/or safe operating ranges
US10774345B2 (en) 2008-07-02 2020-09-15 Danisco Us Inc. Compositions and methods for producing isoprene free of c5 hydrocarbons under decoupling conditions and/or safe operating ranges
US9751820B2 (en) 2009-12-18 2017-09-05 Danisco Us Inc. Purification of isoprene from renewable resources
CN114107340A (zh) * 2021-08-11 2022-03-01 昆明理工大学 一种甲羟戊酸激酶基因rkmk及其应用
CN114107340B (zh) * 2021-08-11 2023-04-21 昆明理工大学 一种甲羟戊酸激酶基因rkmk及其应用

Also Published As

Publication number Publication date
TWI250210B (en) 2006-03-01
AU2696299A (en) 1999-11-18
JP2010104378A (ja) 2010-05-13
CN1234445A (zh) 1999-11-10
ID23300A (id) 2000-04-05
US6284506B1 (en) 2001-09-04
US6872556B2 (en) 2005-03-29
US20030190734A1 (en) 2003-10-09
CN1262648C (zh) 2006-07-05
US20030054523A1 (en) 2003-03-20
CN100487120C (zh) 2009-05-13
CL2009002108A1 (es) 2010-04-09
KR100626511B1 (ko) 2006-09-20
KR19990088053A (ko) 1999-12-27
CA2270711A1 (en) 1999-11-06
NO992165D0 (no) 1999-05-04
BR9901403A (pt) 2000-10-17
JP2000050884A (ja) 2000-02-22
US6586202B2 (en) 2003-07-01
AU762939B2 (en) 2003-07-10
NO992165L (no) 1999-11-08

Similar Documents

Publication Publication Date Title
CN1970770A (zh) 改进的类异戊二烯的生产
KR101169824B1 (ko) 아이소프레노이드의 제조
CN107002109A (zh) 含氧萜烯的生产方法
NO334836B1 (no) Rekombinant organisme, vektor, fremgangsmåte for å lage organismen derav og fremgangsmåte for å produsere karotenoider.
EP0955363A2 (en) Dna sequences encoding enzymes involved in production of isoprenoids
CN101001947A (zh) 遗传修饰的宿主细胞及其用于生产类异戊二烯化合物的应用
PT2970934T (pt) Polipèptidos de valenceno sintase, moléculas de ácido nucleico que os codificam e suas utilizações
HUE033564T2 (hu) Eljárás (+)-zizaen elõállítására
US6821749B1 (en) Methods of producing carotenoids using DNA molecules encoding isopentenyl pyrophosphate isomerase
US10208326B2 (en) Methods and materials for biosynthesis of manoyl oxide
CA2298869C (en) Astaxanthin synthetase
CN106520712B (zh) β-胡萝卜素酮化酶突变体、重组表达载体、基因工程菌及其应用
CN110100003A (zh) 迈诺醇的生产
KR20200141734A (ko) 파이토플루엔 고생산성 재조합 미생물 및 이를 이용한 파이토플루엔의 제조방법
CN100425698C (zh) Acc基因
WO2009030654A1 (de) Mikrobiologische herstellung von isoprenoiden
CN116555238A (zh) SoSTPS1在作为倍半萜合酶中的应用
CN101487007B (zh) 成团泛菌β-胡萝卜素合成操纵子及其表达载体与应用
CN116445517A (zh) 一种分泌型糖蛋白及其在甾体激素细胞工厂中的应用
JP2001136992A (ja) カロチノイドの生成増大方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090513

Termination date: 20180506