JP2009540845A - 改善されたポリペプチド発現を達成する方法 - Google Patents

改善されたポリペプチド発現を達成する方法 Download PDF

Info

Publication number
JP2009540845A
JP2009540845A JP2009517099A JP2009517099A JP2009540845A JP 2009540845 A JP2009540845 A JP 2009540845A JP 2009517099 A JP2009517099 A JP 2009517099A JP 2009517099 A JP2009517099 A JP 2009517099A JP 2009540845 A JP2009540845 A JP 2009540845A
Authority
JP
Japan
Prior art keywords
codon
sequence
coding sequence
codon pair
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009517099A
Other languages
English (en)
Other versions
JP5250850B2 (ja
Inventor
ヨハネス, アンドリアス ルーボス,
ファン, ノエル ニコラス マリア エリザベス ペイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DSM IP Assets BV
Original Assignee
DSM IP Assets BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DSM IP Assets BV filed Critical DSM IP Assets BV
Publication of JP2009540845A publication Critical patent/JP2009540845A/ja
Application granted granted Critical
Publication of JP5250850B2 publication Critical patent/JP5250850B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/67General methods for enhancing the expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/80Vectors or expression systems specially adapted for eukaryotic hosts for fungi
    • C12N15/81Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2402Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing O- and S- glycosyl compounds (3.2.1)
    • C12N9/2405Glucanases
    • C12N9/2408Glucanases acting on alpha -1,4-glucosidic bonds
    • C12N9/2411Amylases
    • C12N9/2414Alpha-amylase (3.2.1.1.)
    • C12N9/2417Alpha-amylase (3.2.1.1.) from microbiological source
    • C12N9/242Fungal source
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/90Isomerases (5.)
    • C12N9/92Glucose isomerase (5.3.1.5; 5.3.1.9; 5.3.1.18)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Mycology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本発明は、所与の宿主細胞中での発現のためにタンパク質コード配列を最適化する方法に関する。本方法は、遺伝的アルゴリズムを当てはめて、所定のアミノ酸配列をコードする単一コドン適合および/またはコドンペア適合配列を最適化する。アルゴリズムでは、変異体コード配列が単一コドン適合および/またはコドンペア適合の最小値に達するまで、新しい配列変異体の生成および適合変異体の引き続く選択が反復される。本発明はまた、プロセッサーおよびメモリーを含んでなるコンピューターにも関し、プロセッサーはメモリーから読み取ってそれに書き込むように構成され、メモリーは単一コドン適合および/またはコドンペア適合の最適化のための遺伝的アルゴリズムを遂行する能力をプロセッサーに提供するように構成されたデータおよび命令を含んでなる。本発明はさらに、所定のアミノ酸配列のためのコード配列を含んでなる核酸と、このような核酸を含んでなる宿主細胞と、その中でこれらの宿主細胞が使用されるポリペプチドおよびその他の発酵産物を生成する方法とに関し、コード配列は本発明の方法において、特定の宿主のために単一コドン適合および/またはコドンペア適合について最適化される。
【選択図】図2

Description

発明の詳細な説明
[技術分野]
本発明は、ポリペプチドをコードするヌクレオチド配列をそれらのコドン使用、特に使用されるコドンペアについて改変し、ポリペプチドをコードするヌクレオチド配列の改善された発現および/またはポリペプチドの改善された生成を得る、宿主細胞中でポリペプチドを生成する方法に関する。
[背景技術]
本発明は、ポリペプチドを生成する改善された方法に関する。タンパク質を過剰発現および/または生成するための株を作り出す、多数のアプローチが適用されている。これとしては、限定されるものではないが、対象とするタンパク質(POI)をコードするマルチコピーの遺伝子がある株を作成すること、および強力プロモーターを適用することが挙げられる。
各特異的アミノ酸は、最低1つのコドン、最高6つのコドンによってコードされる。先行研究は、細胞のポリペプチドをコードする遺伝子中のコドン使用頻度が、種間で偏っていることを示している(Kanaya,S、Y.Yamada、Y.Kudo、およびT.Ikemura(1999年)「18種の単細胞生物でのコドン使用頻度およびtRNA遺伝子に関する研究および枯草菌(Bacillus subtilis)tRNAの定量化:多変量解析に基づくコドン使用頻度の遺伝子発現レベルおよび種特異的多様性(Studies of codon usage and tRNA genes at 18 unicellular organisms and quantification of Bacillus subtilis tRNAs: gene expression level and species−specific diversity of codon usage based on multivariate analysis)」Gene 238:143〜155頁)。以前の公報は、ポリペプチド生成を改善するための所与の宿主細胞のコドン使用最適化を開示する(例えば国際公開第97/11086号パンフレット参照)。より具体的には、国際公開第03/70957号パンフレットは、植物ポリペプチドを生成するための糸状菌中での最適化されたコドン使用について述べている。これらの「古典的」コドン最適化の全ての例で、天然コドンが参照遺伝子セットからの最も頻繁なコドンによって置換される一方で、各アミノ酸についてのコドン翻訳率は高くなるようにデザインされている(最適化されている)。
より最近では、国際公開第03/85114号パンフレットで、宿主生物の遺伝子中の全コドンの分布がタンパク質折りたたみに影響すると仮定して、これらを考慮に入れたコドン使用の調和について述べられている。
例えば枯草菌(Bacillus subtilis)(Kunstら、1997年)、バシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)、アスペルギルス・ニガー(Aspergillus niger)(Pelら、2007年、Nat Biotech.25:221〜231頁)、クリヴェロミセス・ラクチス(Kluyveromyces lactis)、サッカロミセス・セレヴィシエ(Saccharomyces cerevisiae)(http://www.yeastgenome.org/)、様々な植物ゲノム、マウス、ラット、およびヒトなど、近年の多くの生物の完全に配列決定されたゲノムが利用可能となり、それらの自然発現レベル(mRNAまたはタンパク質レベル)との関係で、遺伝子配列それ自体の異なる側面を分析する可能性が提供されてきた。その良い例が、コドン使用頻度(バイアス)分析と続く単一コドン最適化である。単一コドン最適化は、ここで本発明の主題であるコドンペア最適化とは対照的に、単一の独立した実体としてコドン最適化に着目した、コドン最適化またはコドン調和技術を指すものと理解されることに留意されたい。
単一コドン使用頻度(バイアス)が以前、詳細に研究されている(概要については、Gustafssonら、2004年、Trends Biotechnol.22:346〜353頁を参照されたい)のに対し、コドンペア使用頻度およびコドンペア最適化に関しては少数の報告しかない。
大腸菌(E.coli)中でのリボソームフレームシフトに対する少数の特異的コドンペアの効果は、例えばAGG−AGGコドンペア(Spanjaardおよびvan Duin、1988年、Proc.Natl.Acad.Sci.USA 85:7967〜7971頁;Gurvichら、2005年、J.Bacteriol.187:4023〜432頁)、およびUUU−YNN部位(SchwarzおよびCurran、1997年、Nucleic Acids Res.25:2005〜2011頁)について調査されている。
GutmanおよびHatfield(1989年、Proc.Natl.Acad.Sci USA86:3699〜3703頁)は、大腸菌(E.coli)のための全ての可能なコドンペアについてより大きな配列セットを分析し、コドンペアが一方向に偏っていることを見いだした。さらに彼らは、高度に発現する遺伝子中では、高度に過少に現われるペアが過剰に現れるもののほぼ2倍の頻度で使用されるのに対し、不十分に発現される遺伝子中では、過剰に現れるペアがより頻繁に使用されることを観察した。米国特許第5,082,767号明細書(HatfieldおよびGutman、1992年)は、大腸菌(E.coli)およびS.セレヴィシエ(cerevisiae)の例によって、生物中で相対的天然コドンペア形成優先度を判定し、前記コドンペア形成優先度に従って対象とする遺伝子のコドンペア形成を改変して、所定の様式で前記遺伝子の翻訳動態を変化させる方法を開示する。しかしそれらの方法においてHatfieldおよびGutmanは、隣接コドンの個々のペアのみを最適化する。さらに彼らの特許中(米国特許第5,082,767号明細書)では、その中でコドンペア形成が改変されて、ランダムコドンペア使用頻度と比較して、生物内でより豊富でありながらより過少に現れるコドンペアであるコドンペアの数が増大する改変配列によって、遺伝子の少なくとも一部の翻訳動態を増大させることが主張される。本発明は、その中でコドンペア形成が改変されて、ランダムコドンペア使用頻度と比較して、生物中でより過剰に現れるコドンペアであるコドンペアの数が増大する改変配列によって、翻訳を増大させる方法を開示する。
Mouraら(2005年、Genom Biology、6:R28)は、S.セレヴィシエ(cerevisiae)ORFeome全体を分析したが、約47%のコドンペアについて統計学的に有意なバイアスを見いだせなかった。それぞれの値は種間で異なり、コドンペア使用頻度の「種特異的フィンガープリント」と見なすことができる「コドン文脈マップ」がもたらされる。
Boychevaら(2003年、Bioinformatics 19(8):987〜998頁)は、大腸菌(E.coli)において、高度におよび不十分に発現される遺伝子中で、過剰におよび過少に現れるコドンペアを探すことで、仮説的減衰性および仮説的非減衰性と称される2セットのコドンペアを同定した。しかし彼らはこの知見を適用する方法を提案せず、それらの仮説についていかなる実験的証明を与えることもしなかった。これらの群は、高度に発現される遺伝子中で、高度に過少に現れるペアに対する非減衰効果を提案した、GutmanおよびHatfield(1989年、1992年、前出)によって定義されるものとは正反対に定義されることに留意されたい。
Buchan、Aucott、およびStanfield(2006年、Nucleic Acids Research 34(3):1015〜1027頁)は、コドンペアバイアスについてtRNA特性を分析した。
コドンペア使用頻度におけるバイアスとのかかわり合いで、Irwinら(1995年、J.Biol.Chem.270:22801〜22806頁)は、大腸菌(E.coli)において、高度に過少に現れるコドンペアを高度に過剰に現れるもので置換すると、合成速度が実際に相当低下し、わずかに過少に現れるコドンペアでより高度に過少に現れるものを置換すると、合成速度が増大することを実証した。これはタンパク質レベルに対する単一コドンバイアスの影響を考えると、予期されるものとはむしろ反対であるので、これはなかり注目に値する。
しかし上述のいずれの技術も、定義上コドンペアは重複し、したがって個々の各コドンペアの最適化は重複する上流および下流コドンペアのバイアスに影響するという事実を考慮して、全長コドン配列のコドンペア使用頻度をいかに最適化するかを開示していない。さらに引用した技術のいずれも単一コドンならびにコドンペアの双方の最適化を組み合わせる方法を開示していない。前記コドンペア重複を考慮したコドンペア最適化、および前記コドンペア最適化と単一コドン最適化の特定の組み合わせは、対象とするポリペプチドをコードするヌクレオチド配列の発現を大幅に改善し、および/または前記ポリペプチドの生成を改善するであろう。
したがってなおも当該技術分野において、宿主細胞中でのポリペプチド生成を改善するためにコード配列を最適化する新しい方法に対する必要性がある。
[発明の概要]
本発明の目的は、効率的な遺伝子転写およびタンパク質翻訳のために、コード配列を最適化する方法を提供することである。その趣旨で、本発明は、(a)所定のアミノ酸配列をコードする少なくとも1つのオリジナルコード配列を作り出すステップと、(b)この少なくとも1つのオリジナルコード配列中で、1つ以上のコドンを同義コドンによって置換することによって、この少なくとも1つのオリジナルコード配列から少なくとも1つの新たに作り出されたコード配列を作り出すステップと、(c)所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも1つを判定する適合関数を使用して、前記少なくとも1つのオリジナルコード配列の適合値および前記少なくとも1つの新たに作り出されたコード配列の適合値を判定するステップと、(d)前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも1つのオリジナルコード配列および前記少なくとも1つの新たに作り出されたコード配列中で、1つ以上の選択されるコード配列を選択するステップと、(e)操作b)からd)において前記1つ以上の選択されたコード配列を1つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作b)からd)を繰り返すステップを含んでなる、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチド配列を最適化する方法を提供する。
実施態様では、本発明は、単一コドン使用頻度、コドン調和、ジヌクレオチド使用頻度のような側面に対処し、そのコドンペアバイアスにかかわる。本方法は、MATLAB(http://www.mathworks.com/)で実行されてもよい、配列分析および配列最適化のための数学的アルゴリズムを使用する、コンピューター上で作動するコンピュータープログラムによって実施できる。
正のコドン最適化(例えば積極的な方法で遺伝子発現およびタンパク質生成を調節するための)に加えて、本発明はまた「不良」コドンペアに向けてコドンを適応させる方法(すなわち負のコドンペア最適化)も提供する。後者の方法は制御目的で、ならびに否定的な方法で遺伝子発現を調節するために有用である。
[図面の簡単な説明]
本発明の例示を意図するのみで、添付の特許請求の範囲とその等価物によって定義される範囲は限定しない、いくつかの図に言及して、本発明を例示する。
本発明の方法を実施できるコンピューター構成を示す。 本発明の実施態様のフローチャートを示す。 異なる生物中の3,721個のセンス:センスコドンペアについてコドンペアバイアス値の分布を示す。各ヒストグラムの右上隅の数字は、観察された分布の標準偏差であり、平均値(図示せず)は全ての生物で−0.06〜−0.01の間である。 様々な生物のコドンペアバイアス相関を示す。相関係数を各サブプロットの右上隅に示す。 A.ニガー(niger)のコドンバイアスマップを示す。バイアス値は−0.67〜0.54の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図5Aおよび5Cでは正の値、オリジナルでは緑色)、および−0.9(図5Bおよび5Dでは負の値、オリジナルでは赤色)の値を表す。図5AおよびBでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図5Cおよび5Dでは、横列は第1のソート基準として第3位のヌクレオチドの、第2のソート基準として中央位のヌクレオチドの、第3のソート処理基準として第1位のヌクレオチドのアルファベット順に従ってソートされている。 A.ニガー(niger)のコドンバイアスマップを示す。バイアス値は−0.67〜0.54の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図5Aおよび5Cでは正の値、オリジナルでは緑色)、および−0.9(図5Bおよび5Dでは負の値、オリジナルでは赤色)の値を表す。図5AおよびBでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図5Cおよび5Dでは、横列は第1のソート基準として第3位のヌクレオチドの、第2のソート基準として中央位のヌクレオチドの、第3のソート処理基準として第1位のヌクレオチドのアルファベット順に従ってソートされている。 A.ニガー(niger)のコドンバイアスマップを示す。バイアス値は−0.67〜0.54の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図5Aおよび5Cでは正の値、オリジナルでは緑色)、および−0.9(図5Bおよび5Dでは負の値、オリジナルでは赤色)の値を表す。図5AおよびBでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図5Cおよび5Dでは、横列は第1のソート基準として第3位のヌクレオチドの、第2のソート基準として中央位のヌクレオチドの、第3のソート処理基準として第1位のヌクレオチドのアルファベット順に従ってソートされている。 A.ニガー(niger)のコドンバイアスマップを示す。バイアス値は−0.67〜0.54の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図5Aおよび5Cでは正の値、オリジナルでは緑色)、および−0.9(図5Bおよび5Dでは負の値、オリジナルでは赤色)の値を表す。図5AおよびBでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図5Cおよび5Dでは、横列は第1のソート基準として第3位のヌクレオチドの、第2のソート基準として中央位のヌクレオチドの、第3のソート処理基準として第1位のヌクレオチドのアルファベット順に従ってソートされている。 枯草菌(B.subtilis)のコドンバイアスマップを示す。バイアス値は−0.97〜0.87の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図6Aでは正の値、オリジナルでは緑色)、および−0.9(図6Bでは負の値、オリジナルでは赤色)の値を表す。 枯草菌(B.subtilis)のコドンバイアスマップを示す。バイアス値は−0.97〜0.87の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図6Aでは正の値、オリジナルでは緑色)、および−0.9(図6Bでは負の値、オリジナルでは赤色)の値を表す。 大腸菌(E.coli)のコドンバイアスマップを示す。バイアス値は−0.97〜0.85の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図7Aでは正の値、オリジナルでは緑色)、および−0.9(図7Bでは負の値、オリジナルでは赤色)の値を表す。 大腸菌(E.coli)のコドンバイアスマップを示す。バイアス値は−0.97〜0.85の範囲であり、その他の生物ではそれらは±0.9(図3もまた参照されたい)をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、0.9(図7Aでは正の値、オリジナルでは緑色)、および−0.9(図7Bでは負の値、オリジナルでは赤色)の値を表す。 上の図5〜7に類似した、A.ニガー(niger)の479個の高度に転写される遺伝子のコドンバイアスマップを示す。これらのダイアグラム中の最も濃い黒色は、0.9(図8Aでは正の値、オリジナルでは緑色)、および−0.9(図8Bでは負の値、オリジナルでは赤色)の値を表す。この群における最大バイアス値は0.9l、最小バイアス値は−1であり、すなわちそれらの個々のコドンおよびコードされたアミノ酸ペアは発生するのに、いくつかの可能なコドンペアは全く生じない。これは完全ゲノム中の5,885,942個と比較して、より小さなサイズの188,067個のコドンペアの結果かもしれない。しかし主な理由は、高度に発現される遺伝子中の選択に起因する、このようなペアの真の過少出現である。 上の図5〜7に類似した、A.ニガー(niger)の479個の高度に転写される遺伝子のコドンバイアスマップを示す。これらのダイアグラム中の最も濃い黒色は、0.9(図8Aでは正の値、オリジナルでは緑色)、および−0.9(図8Bでは負の値、オリジナルでは赤色)の値を表す。この群における最大バイアス値は0.9l、最小バイアス値は−1であり、すなわちそれらの個々のコドンおよびコードされたアミノ酸ペアは発生するのに、いくつかの可能なコドンペアは全く生じない。これは完全ゲノム中の5,885,942個と比較して、より小さなサイズの188,067個のコドンペアの結果かもしれない。しかし主な理由は、高度に発現される遺伝子中の選択に起因する、このようなペアの真の過少出現である。 479個の高度に発現されるA.ニガー(niger)遺伝子の群中のバイアス(垂直軸)に対する全遺伝子中のバイアス(水平)の散布図を示す。停止コドンに関与しない3,721個の全コドンペアを示す。淡い灰色から黒色は、総ゲノム中のz−スコアの絶対値に応じて割り当てられ、すなわちプロット中の淡い点は全ての遺伝子中で有意なバイアスを有さず、サイズについても同様に高度に発現される群中の絶対z−スコアに応じて割り当てられ、すなわち非常に小さな点はそこで有意なバイアスを有さない(ここで|z−スコア|<1.9)。黒の実線は双方のバイアス値が等しい箇所を示し、破線は実際の相関(主成分分析により同定される)の最良の直線近似を示して、その傾きは約2.1である。 それらの転写レベルの対数と比較した、4,584個のA.ニガー(niger)遺伝子の適合値である。相関係数は−0.62である。 単一コドン対コドンペア最適化を示す。野性型(fitsc(gFUA)=0.165、fitcp(gFUA)=0.033)は、このプロットに適合しない(それははるか右上にくる)。cpiパラメーターが単一コドンとコドンペア適合との間の妥協点を決定することが明らかである。最適遺伝子は常に、fitscおよびfitcpについて最低値のものである。本発明者らは、単一コドン使用頻度またはコドンペア使用頻度のどちらがより重要であるかを未だに知らないので、したがって点位置を考慮すると、最良遺伝子がcpiのどの値に対して得られるのか明らかでない。しかし実施例は、単一コドン適合に加えてコドンペア適合が非常に重要であるという強力な証拠を提供し、それはcpiが少なくとも>0であるように選択すべきであることを意味する。 前述のFUAの(499個からの)最初の20個のコドンの配列の質を示す2つのダイアグラムを示す(実施例2もまた参照されたい)。黒色点が所望のコドン比を示すのに対し、×点は破線で結んで(全遺伝子中の)実際のコドンを示す。このとき単一コドン適合は、これらの破線長さの平均として解釈できる。(例えば(同義コドンを有さない)4および5位のTGGなどの所望の比率と実際の比率が等しいコドンでは、この「長さ」は0であることに留意されたい。「長さ」は決して負にならないことにもまた留意されたい)。次に黒色棒線は、隣接する2つのコドンによって形成されるペアの重みを示す。(棒線の下中央にある)黒色点は、同一ジペプチドをコードするあらゆるコドンペアの最小重みを示す。このときコドンペア適合は、これらの棒線の平均の高さである(ここで使用される高さは、十分負でありえることに留意されたい)。 配列番号6をもたらすamyB遺伝子を最適化するための本発明の記載されている遺伝的アルゴリズムアプローチを使用した、fitcombiの収束を示す。 説明上の理由から、例えば図15に示すような単一コドン分布ダイアグラムの一部を示す。2つのグラフは、フェニルアラニンをコードする2つの同義コドンUUU(上)およびUUC(下)の単一コドン使用頻度を示す。双方のグラフのX軸およびY軸は0%から100%に及ぶ。灰色のヒストグラムは、250個の高度に発現されるA.ニガー(niger)遺伝子の群の各アミノ酸について正規化した(同義コドン群)、コドン使用ヒストグラムであり、遺伝子は0%、>0〜<10%、10〜<20%、...、90〜<100%、100%を有する群に区分けされる。例えば高度に発現される遺伝子の50%はフェニルアラニンをコードするUUUコドン0%使用群に入り、よってUUCコドン100%使用群に入る。白色棒線はヒストグラムと同様の区分けの遺伝子A(この場合はWT amyB)のコドン使用を示し、したがって区分け20〜30%(20%、3/15個のコドンがUUU)の100%、よって区分け80〜<90%(80%、12/15個がUUC)の100%が遺伝子Aである。黒色棒線は、遺伝子B(この場合amyBのための単一コドン最適化変異体)に関する統計を示す。同様にして、全64個のコドンの統計を示す16×4グラフのマトリックスを作り出すことができる。例えば図15を参照されたい。 (パート1および2)単一コドン最適化されたamyB遺伝子(黒色)に対する野生型amyB遺伝子(白色)の単一コドン頻度を示す。灰色のヒストグラムは、A.ニガー(niger)中の250個の高度に発現される遺伝子の統計を示す。システイン(UGU/UGC)、ヒスチジン(CAU/CAC)、チロシン(UAU/UAC)、およびその他のためのもののような特定コドンが、真の改善を受けたことが明らかである。 (パート1および2)単一コドンおよびコドンペアの双方について最適化されたamyB遺伝子(黒色)に対する野生型amyB遺伝子(白色)の単一コドン頻度を示す。灰色のヒストグラムは、A.ニガー(niger)中の250個の高度に発現される遺伝子の統計を示す。これらのグラフが、図15に示される単一コドン最適化された遺伝子の状況と非常に良く似ていることは明らかである。 A.ニガー(niger)のWT amyB遺伝子に関する単一コドンおよびコドンペア統計の完全ダイアグラム(図18)の一部を示す。X軸には、1位で開始コドンATGから始まる遺伝子中の後続コドンがある。黒色点「・」は、その同義コドンに対するこの位置のコドンの標的単一コドン比率を示す。ATGではこれは1.0(100%)である。「×」印は表示遺伝子中の実際のコドン比率であり、点線は標的比と実際の比率と間の差を示す。コドンペア重みは−1〜1の間の値である。棒線が隣接するコドンの実際のコドンペア重みを示す一方、五芒星形は最適達成可能同義コドンペアの重みを示す(隣接ペアは考慮しない)。例えば第1の棒線は「ATG−GTC」の重みである−0.23であり、第2の棒線は「GTC−GCG」の重みである0.66である。 配列番号2(WT AmyB)の単一コドンおよびコドンペア統計を示す。 配列番号5(単一コドン最適化されたAmyB)の単一コドンおよびコドンペア統計を示す。 配列番号6(単一コドンおよびコドンペア最適化されたWT AmyB)の単一コドンおよびコドンペア統計を示す。 発現ベクターpGBFINFUA−1のプラスミドマップを示す。図21はまた、プラスミドpGBFINFUA−2およびpGBFINFUA−3の代表的なマップも提供する。全てのクローンは、pGBFIN−12(国際公開第99/32617号パンフレットで述べられている)発現ベクターが起源である。指し示されているのは、amyBプロモーターの変異配列に対するglaA隣接領域と、α−アミラーゼをコードするA.ニガー(niger)amyB cDNA配列である。大腸菌(E.coli)DNAは、A.ニガー(niger)株の形質転換に先だって、制限酵素NotIでの消化によって除去できる。 単一相同的組換えを通じた組み込みの略図を示す。発現ベクターは、選択可能なamdSマーカーと、amyB遺伝子を結ぶglaAプロモーターとを含んでなる。これらの特徴はglaA遺伝子座(それぞれ3’glaAおよび3’’glaA)の相同的な領域に隣接し、ゲノムのglaA遺伝子座での組み込みを指示する。 3つの異なるコンストラクトを発現するA.ニガー(niger)株のための培養ブロス中のα−アミラーゼ活性を示す。示されるのは、天然amyBコンストラクトを発現するA.ニガー(niger)株の培養ブロス中のα−アミラーゼ活性であり、本発明の方法に従って、(1)翻訳開始配列および翻訳終止配列が改変され(pGBFINFUA−1)、(2)翻訳開始配列、翻訳終止配列、および単一コドン使用頻度が改変され(pGBFINFUA−2)、(3)翻訳開始配列、翻訳終止配列、および単一コドン使用頻度およびコドンペア使用頻度が改変された(pGBFINFUA−3)。α−アミラーゼ活性は相対単位[AU]で示され、4日目における10株のFUA1群の6個の1コピー株の平均を100%に設定する。示した群あたり10個の形質転換体を独立して単離し、形質転換体に培養した。 (1および2)バシラス(Bacillus)種の単一コドン最適化について、単一コドン頻度を示す。下位グラフの説明は図14にある。灰色のヒストグラムは、枯草菌(B.subtilis)中の50個の最も高く発現される遺伝子のコドン分布を表す。テキストを参照されたい。黒色棒線は標的単一コドン頻度を示す。 配列番号14(1/3)、配列番号17(2/3)、および配列番号14(3/3)の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア+単一コドン(1/3)、単一コドン(2/3)、および負のコドンペア+単一コドン最適化(3/3)を使用して最適化された。グラフの説明については図17を参照されたい。 配列番号14(1/3)、配列番号17(2/3)、および配列番号14(3/3)の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア+単一コドン(1/3)、単一コドン(2/3)、および負のコドンペア+単一コドン最適化(3/3)を使用して最適化された。グラフの説明については図17を参照されたい。 配列番号14(1/3)、配列番号17(2/3)、および配列番号14(3/3)の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア+単一コドン(1/3)、単一コドン(2/3)、および負のコドンペア+単一コドン最適化(3/3)を使用して最適化された。グラフの説明については図17を参照されたい。 大腸菌(E.coli)/バシラス(Bacillus)シャトルベクターpBHA−12。多重クローニング部位(MCS)1および2が示される。 大腸菌(E.coli)/バシラス(Bacillus)シャトルベクターpBHA−12中の遺伝子のクローニングの例。図は、配列番号9のクローニングされた部分AおよびB(灰色矢印)を示す。1A部分のクローニング部位NdeIおよびBamHI、1B部分のクローニング部位SmaIおよびKpnIが示される。大腸菌(E.coli)部分はPvuIIを使用して切除した。
[発明の詳細な説明]
単一コドンバイアスに加えて、例えばジヌクレオチド、または特定の短いヌクレオチド配列の反復などのヌクレオチド配列中のその他の構造もまた、タンパク質発現に影響を及ぼしている可能性が高い(コドン使用頻度は結局の所、読み枠と一致したトリヌクレオチド配列中のパターンとして解釈できる)。この研究は、特定のコドンペアについて優先度を同定する方法、すなわちコドンがあたかも同定されたコドン使用比率に従って選択されるが、次に(アミノ酸配列について)遺伝子中に無作為に分布されるかのようにそれらが遺伝子中に出現するかどうか、またはあるコドンが特定コドンの隣により頻繁に、その他のコドンの隣により稀に出現するかどうかを同定する方法を提示する。
コドンペア分析はまた、その他の側面、すなわち読み枠境界周辺のジヌクレオチド使用頻度、およびコドンの隣の特定の単一ヌクレオチドについての可能な優先度もカバーする。本発明は、それによって配列決定された全ゲノムの全ての同定されたORF、または例えば高度に発現される遺伝子などの選択された遺伝子群のどちらかがインプットとして使用される、コドンペアバイアス表を特定宿主生物のために作り出す方法を開示する。本発明は、続いて、対応する対象とするタンパク質(POI)の発現を改善するために、対象とする遺伝子(GOI)中のコドンペア分布の最適化のために、このようにして同定されたコドンペアバイアス表を適用する方法を開示する。
単一コドン最適化は、対象とするタンパク質の発現レベルを改善するための良好な出発点を提供する。他の研究者らが、宿主生物の適応によって、低含量のtRNAのためのtRNA遺伝子の追加的コピーを挿入して、対象とする遺伝子中の拒否されたコドンの存在に起因する欠点を克服することを試みたのに対し(例えばどちらも大腸菌(E.coli)である、ストラタジーン(Stratagene)からのBL−21コドンプラス(CodonPlus)(商標)コンピテント細胞、およびノバジェン(Novagen)からのロゼッタ(Rosetta)(商標)宿主株)、本発明者らは対象とする遺伝子の適応それ自体に着目した。遺伝的配列中の望まれないコドンは、得られた配列の単一コドン分布が、以前同定された所望のコドン比率にできるだけ近くなるように、同義コドンによって置換された。
しかし最適化された遺伝子中の総コドン分布が選択基準であるため、このコドン調和は等しく「最適」である非常に多数の可能な遺伝子をなおも有するので、例えば特定酵素の制限部位の不在、またはフレームシフトを引き起こすことが知られているコドンペアなどのコドン配列のさらなる所望の特性を容易に考慮に入れることができる。一歩進めると、限られた範囲内でコドンペア使用頻度を最適化できる。しかし過少に現れる単一コドンからなる好ましいコドンペアがあるかもしれないので、例えば最も豊富なものの使用に向けて遺伝子のコドンペアを最適化すると、得られた配列の単一コドン使用頻度は最適に近くないかもしれないため、単一コドンおよびコドンペア最適化の間の均衡を見いださなくてはならない。本発明は、単一コドンおよびコドンペア最適化の双方の均衡を取れるようにする方法を開示する。コドンペア重複、および前記コドンペア最適化と単一コドン最適化との特定の組み合わせを考慮に入れたコドンペア最適化は、対象とするポリペプチドをコードするヌクレオチド配列の発現を大幅に改善し、および/または前記ポリペプチドの生成を改善する。
本発明の文脈で、ヌクレオチドコード配列またはコード配列は、ポリペプチドをコードするヌクレオチド配列と定義される。コード配列の境界は、一般に、mRNAの5’末端で読み取り枠の始まりに位置する開始コドン(通常、真核生物ではATGである一方、原核生物ではATG、CTG、GTG、TTGの1つであることができる)、およびmRNAの3’末端で読み取り枠のすぐ下流に位置する停止コドン(一般にTAA、TGA、TAGの1つであるが、この「普遍的」コーディングの例外も存在する)によって決まる。コード配列としては、限定されるものではないが、DNA、cDNA、RNA、および組み換え核酸(DNA、cDNA、RNA)配列(RNA中でウラシルUがデオキシヌクレオチドチミンTを置換することは当該技術分野でよく知られていることに留意されたい)が挙げられる。コード配列が真核生物細胞中での発現を意図するならば、ポリアデニル化シグナルおよび転写終止配列は、通常、コード配列の3’側に位置する。コード配列は、翻訳開始コード配列、および場合によりシグナル配列、および場合により1つ以上のイントロン配列を含んでなる。「コード配列」および「遺伝子」という用語は、厳密には同一の実体を指さないにもかかわらず、双方の用語はここで同義的に使用されることが多く、当業者は用語が全遺伝子を指すのか、またはそのコード配列のみを指すのかを文脈から理解するであろう。
[単一コドンおよび/またはコドンペア適合のための方法およびコンピューター構成]
高度に発現される遺伝子の単一コドン使用特性については、全遺伝子中と、一群の高度に発現される遺伝子中との単一コドン比率を「手動」比較することで、それらの発現レベルについて遺伝子を改善するためのいくつかの「所望コドン比率」がもたらされた。
次に遺伝子の単一コドン適合が、以下によって実施できる。(1)遺伝子中の実際の比率を計算して、その所望の比率が実際の比率よりも低いコドンを(例えば無作為に)繰り返し選択し、それを比率が低すぎる同義コドンによって置換する;または(2)「所望のコドン比率」を使用して各コドンの所望の数を計算し、同義コドン群を作成して、所定のアミノ酸をコードする同義の群から、遺伝子中の各位置についてコドンを(例えば無作為に)繰り返し選択し;方法(1)および/または(2)を使用して複数の変異体を作成し、追加的選択判定基準に基づいて最も妥当な遺伝子(例えば望まれるおよび望まれない制限部位および/または折りたたみエネルギー)を選択する。
けれどもこのアプローチは、第一に全コドンペアについてのバイアスデータの目視検査が複雑さの観点から全く不可能であること、第2に2つの関与コドンの少なくとも1つの置換を意味する1つのコドンペアの改変は、隣接するコドンペアの少なくとも1つにもまた影響することからコドンペア適合にはふさわしくなく、したがって「所望のコドンペア比率」は達成不能である。これに含意される制約のために、決定論的アプローチは複雑すぎて有望さが十分でないと見なされ、次に「遺伝的アルゴリズム」アプローチが選ばれた。
「遺伝的アルゴリズム」という用語は、遺伝子操作に関連しているようで意味が紛らわしいかもしれない。しかし「遺伝的アルゴリズム」は、多次元最適化問題の解を近似するのに使用されるコンピューター科学からのアプローチである(Michalewicz,Z.「遺伝的アルゴリズム+データ構造=進化プログラム(Genetic Algorithms+Data Structure=Evolution Programs)」Springer Verlag 1994年;David E.Goldberg「検索における遺伝的アルゴリズム、最適化および機械学習(Genetic Algorithms in Search,Optimization and Machine Learning)」Addison−Wesley、Reading,MA、1989年;http://en.wikipedia.org/wiki/Genetic_algorithm)。本発明では、「最良の」可能な遺伝子、すなわち対象とする特定のタンパク質のコード配列を選択する最適化問題を解決するのに、このアプローチを使用する。このアプローチでは、遺伝子中の各位置、すなわち各コドンは一次元と見なすことができ、値のセットは離散しており利用できる同義コドンによって決まる。
一般に遺伝的アルゴリズムでは、(その他の多数の方法アプローチも存在するが)最初に問題に対する可能な「解」のセットが、無作為に、または最初に提供された解のバリエーションによって作り出されることが多い。このセットは「母集団」と称され、その要素は「個体」または「染色体」であり、各次元のための座標を含有するベクトル(数学的意味での)によって大抵表される。遺伝的アルゴリズムは自然淘汰に関与する過程をモデルにしたので、用語の多くは遺伝学から借用される。しかしそれらは(この場合とは違って)大抵コンピューター科学の分野において、そしてそれに対して適用されるが、例えばタンパク質二次構造予測のため(Armanoら、2005年、BMC Bioinformatics 1(6)補遺4:S3頁;コンピューター内代謝経路網最適化のため(Patilら、2005年、BMC Bioinformatics 23(6):308頁);クラスター形成遺伝子発現データのため(Di Gesuら、2005年、BMC Bioinformatics 7(6):289頁)など、生物学的科学問題における遺伝的アルゴリズムの適用に対するいくつかの例もまた提示されている。
本例では、ベクターはコドンを含有する。その母集団から、既存個体の特定位置の改変(「突然変異」)によって、または別の個体からの別の部分(すなわち別の次元の座標)がある個体の部分(すなわち特定座標)の組み合わせ(「交叉」)によって、新しい個体が作り出される。次に(新しい個体はまた、最初の最適化問題の可能な解でもあるので)これらの個体がどれほど良いかを試験して、より良い(「最適」)個体を新しい個体(「次世代」)を作り出すための最初の母集団として再度選ぶ(例えば最良の10、20、30、40、50、60%を保持するが、例えばルーレット盤選択など、適合個体に向けた収束を得るため、子孫のためのサブセットを選択する多数のその他の可能性が存在する。Michalewicz,Z、1994年、を参照されたい)。最初の母集団から最良の個体が次世代に引き継がれるようにする場合、各母集団で可能な解の質が良くなり、または少なくとも同じままであることが確実になる。次に多数の世代(=反復;問題の複雑さ次第で数百から数千)についてこのアルゴリズムを実行することで、最適に近い解が得られると仮定される。母集団サイズと世代数の最適比、アルゴリズムが局所最適解から抜け出せなくなることをどのように防止するかなどのプロパティを含む遺伝的アルゴリズムは、コンピューター科学において詳しく研究されているが、これはここでは大した問題ではない。実際の最適化手順のためにこれらのパラメーターをどのように設定するかという情報については、実施例2におけるMATLABの遺伝的アルゴリズム実行の説明を参照されたい。
これは図2に言及して詳細に説明される。図2は、遺伝子最適化のための遺伝的アルゴリズムのフローチャートを示す。このような遺伝的アルゴリズムは、その例が最初に図1に言及して示され説明される、適切にプログラムされたコンピューター上で実施できる。図1は、本発明に従った方法を実行するのに使用できるコンピューター構成概要を示す。この構成は、算術演算を実行するためのプロセッサー1を含んでなる。
遺伝的アルゴリズムは無作為化ステップを伴うので(例えば無作為化選択判定基準および/または無作為化操作者選択および/または可能解の無作為化生成)、それらは一般に非決定性であることに留意されたいが、しかし決定論的に作動する例外も存在する。「遺伝的アルゴリズム」とは、可能解の群(母集団と称される)を扱うアルゴリズムのための一般的ツールであり、それは(新たに)作り出された解のスクリーニングおよび/または選択および/または除去、および/または(再)導入によって、1つまたは複数の目的を使用することで最適解に向けて推進される。この定義を考慮して、直線プログラミングおよび勾配アルゴリズムのような決定性アルゴリズムを使用した、最適解に向けた単一可能解の収束に基づく方法とは反対のアルゴリズムの類似クラスに属する、進化的プログラミング、進化的アルゴリズム、古典的な遺伝的アルゴリズム、実数コード遺伝的アルゴリズム、焼き鈍し法、antアルゴリズム、およびモンテカルロおよび走化性法としての方法についてもまた述べられている。さらに当業者は文脈から、別の独自の用語が同一クラスのアルゴリズムを指すかどうかを理解するであろう。さらに遺伝的アルゴリズムが好ましい方法であるが、本発明者らは、本発明内で述べられているような単一コドンおよび/またはコドンペア最適化問題を解決するために、遺伝的アルゴリズム以外のその他のあらゆる方法を除外しない。
プロセッサー1は、ハードディスク5、読み取り専用メモリー(ROM)7、電気的に消去可能なプログラマブル読み取り専用メモリー(EEPROM)9、およびランダムアクセスメモリー(RAM)11を含む複数のメモリー構成要素に接続される。これらのメモリータイプの全ては必ずしも提供されない。さらにこれらのメモリー構成要素は、プロセッサー1に必ずしも物理的に近く位置せず、プロセッサー1から遠く離れて位置してもよい。
プロセッサー1はまた、キーボード13およびマウス15のようなユーザーが命令、データを入力する手段にも接続される。タッチスクリーン、トラックボールおよび/または音声コンバーターなどの当業者に知られているその他の入力手段を提供してもよい。
プロセッサー1に接続する読取機構17が提供される。読取機構17は、フロッピーディスク19またはCD ROM21のようなデータ媒体からデータを読み取り、おそらくそれにデータを書き込むように構成される。当業者に知られているように、その他のデータ媒体は、テープ、DVD、メモリースティックなどであってもよい。
プロセッサー1はまた、紙に出力データを印刷するためのプリンター23にも接続し、ならびに例えばモニターまたはLCD(液晶ディスプレー)スクリーン、または当業者に知られているその他のあらゆるタイプのディスプレーなどのディスプレー3にも接続する。
プロセッサー1は、I/O手段25によって、例えば公衆交換電話網(PSTN)、ローカルエリアネットワーク(LAN)、広域ネットワーク(WAN)などの通信網27に接続してもよい。プロセッサー1は、ネットワーク27を通じてその他の通信装置と情報交換するように構成されてもよい。
データ媒体19、21は、本発明に従った方法を遂行する能力をプロセッサーに提供するように構成された、データおよび命令の形態のコンピュータープログラム製品を含んでなってもよい。しかしこのようなコンピュータープログラム製品は、代案としては電気通信ネットワーク27を通じてダウンロードされてもよい。
プロセッサー1は、スタンドアロンシステムとして、またはそれぞれより大きなコンピュータープログラムのサブタスクを実行するように構成された、複数の並列オペレーティングプロセッサーとして、またはいくつかのサブプロセッサーがある1つ以上のメインプロセッサーとして、実装されてもよい。本発明の機能の部分は、ネットワーク27を通じてプロセッサー1と通信する遠隔プロセッサーによって実施されてもよい。
ここで、プロセッサー1がそのメモリーに保存されたコンピュータープログラムを実行する際に、その上で実行されてもよい、図2の遺伝的アルゴリズムについて説明する。
操作32では、コンピューターは、所定のタンパク質をコードする1つ以上の遺伝子を作り出す。これはコンピューターのメモリーに保存された表から、その趣旨でデータを取り出すことで実行できる。このような遺伝子は、例えば次のようであってもよい。
アルゴリズムの目的のために、これらの作り出された遺伝子は、「オリジナル遺伝子」と称される。
操作32後、コンピュータープログラムは1回以上、操作34〜40を実行することで、1つ以上の反復ループを実行する。
操作34では、コンピュータープログラムは、新たに作り出された遺伝子がなおも所定のタンパク質をコードするように(交叉および突然変異過程)、オリジナル遺伝子の1つ以上のコドンを同義コドンで置換することで、新しい遺伝子を作り出す。それができるように、コンピューターのメモリーは、どのコドンがどのアミノ酸をコードするかを示すコドン使用頻度表を保存する(「汎用遺伝暗号」からの偏差が存在し、これが特定の宿主生物にあてはまるかどうかが考慮されることに留意されたい。例えばLaplazaら、2006年、Enzyme and Microbial Technology、38:741〜747頁を参照されたい)。当該技術分野でよく知られているように、タンパク質中のアミノ酸配列を知ることで、コンピュータープログラムは代案のコドンを表から選択できる。
操作32の例を使用して、新たに作り出された遺伝子は、次のようであってもよい(太字で示す)。
操作36では、オリジナルおよび新たに作り出された遺伝子をはじめとする全遺伝子の品質価値が、コドン適合およびコドンペア適合の少なくとも1つを判定する適合関数を使用して、コンピュータープログラムによって判定される。このような適合関数の例については、下で「コドンペアの最適化を実行する」の節において詳細に説明される。
操作38では、適合関数に基づいて最良の適合を示すいくつかの遺伝子を「育成過程」(交叉および突然変異)に加えるために選択し、適合関数に基づいて最悪の適合を示すいくつかの遺伝子を母集団から除去するために選択する。これらの数は所定の数であってもよく、または所定の適合改善量に左右されてもよい。これらの遺伝子の選択は決定性であるかもしれないが、一般に「最適遺伝子」が育成のために選択されて、反対のものが母集団から消去されるより高い見込み(change)を有する、確率論的過程が続く。この方法をルーレット盤選択と称する。
得られた育成のために選択される遺伝子は、例えば次のようであってもよい(選択されない遺伝子は取消線で示される)。
操作40では、コンピュータープログラムは、1つまたは複数の終結判定基準が満たされるかどうかを試験する。終結判定基準の1つは、所定の最大反復数であることが多い。代案の判定基準は、選択される遺伝子によって得られた適合値が、オリジナル遺伝子の適合値と比較して、少なくとも最小閾値分改善されたかどうかをチェックし、または選択される遺伝子によって得られた適合値が、n回の反復前に最良の適合がある遺伝子の適合値と比較して(好ましくは<10,100>の値であるnが選択される)、少なくとも最小閾値分改善されたかどうかをチェックする。総体的終結基準が満たされない場合、コンピュータープログラムは、選択された遺伝子を「オリジナル遺伝子」として扱いながら、操作34にジャンプして戻る。
操作40において、改善が最小閾値値未満であるとコンピュータープログラムが確立すれば、操作34〜38のさらなる繰り返しはほとんど意味をなさず、コンピュータープログラムは操作42を継続する。
実施された反復回数のようなあらゆるその他の適切な反復停止基準を操作40で使用して、反復操作34〜40を残して操作42を継続できるものと理解される。
操作42では、全ての選択される遺伝子中で最良の適合がある遺伝子が選択され、例えばモニターを通じて、またはプリンターによるプリントアウトを通じてユーザーに提示される。
遺伝的アルゴリズムを使用した遺伝子適合の場合、さもなければ別のコドンの1および2個のヌクレオチドの1つのヌクレオチドと組み合わせた際に、得られるアミノ酸配列が変化するかもしれないので、交叉が読み枠位置で常に確実に実施されるようにしなくてはならない。より良い収束のために、改変された変異演算子が提案され、この変異演算子には同義コドン置換のみが許されて、より良い単一コドンまたはより良いコドンペア使用の少なくとも1つがもたらされる。
したがってここでコドンペア最適化に関する重要な質問は、個体の質をいかにして測定するかである。このいわゆる適合関数が最適化される実際の関数であるので、それは遺伝的アルゴリズムの中心部分と見なすことができる。本発明では、好ましいアプローチは、各コドンペアに実数(重みと称される)を割り当てて、遺伝子中の重み平均をその「適合値」とすることであり、このようにして関数の最小化がもたらされる。
本説明において、発明者らは、最小化問題として、遺伝子を最適化する方法について述べる。これはどちらかと言えば恣意的アプローチである。関数fを最大化する場合、これが普遍性に対する制限にならないように−fの最小を求めた方がよいことに留意されたい。
したがって発現レベルについて良好であると見なされるコドンペアが低い重みを有し、悪いと見なされるペアは高い重みを有する、コドンペア重みを判定するための方法が同定されなくてはならない。
[遺伝子適応のためのコドンペア重み同定]
より高い転写/発現レベルに関連があり、コドンペア使用適応のための入力の役割を果たすかもしれないコドンペア重みを同定するために、ほとんどの発現遺伝子の転写レベルが知られているA.ニガー(niger)、転写レベルのデータが入手できた枯草菌(B.subtilis)、また300セットの高度に発現される遺伝子によってここで例示される、次の方法を適用してもよい。
前述の4,584個の実際に発現された遺伝子のセット(実施例1参照)について、GeneChipデータから抽出された完全な格付けが入手できたA.ニガー(niger)中で、各遺伝子の平均コドンペア重み(すなわちfitcp(g)値の同等物)を計算した。次に遺伝子を適合値(昇順)および発現レベル(降順)に従ってソートした。高度に発現される遺伝子は低いコドンペア適合値を有すると思われるので、理想的コドンペア重みを使用すると、これらの2つの格付けは等しくなり、したがってこれらの2つの格付けの比較は、適合関数で使用される重みの質に関する情報を提供できる(平凡なものの格付けよりも高度に発現される遺伝子の「正しい」格付けにわずかにより多くの注意が払われた)。さらに4,584個の遺伝子の格付けと、平均コドンペア重みの間の相関係数(各変数の標準偏差で除した共分散)を計算した。
(i)全ゲノムからのバイアス値、(ii)一群の高度に発現される遺伝子からのバイアス値、(iii)0に設定された特定の最小z−スコアを有さない全ての値のバイアス(それによって実施例1.1.4で述べられているようにz−スコアが判定される)、(iv)バイアス値の2乗または3乗、4乗、5乗以上(極めて好ましいまたは拒否されるコドンにより低い/より高い影響を与えるため)、(v)z−スコアそれ自体、(vi)バイアス値/z−スコアと高度に発現される群および全ゲノムとの差、および(vii)(i)〜(vi)の1つ以上の組み合わせよりなる群から選択される1つ以上をはじめとする、いくつかの可能な重みのセットを本発明の方法で使用してもよい。
好ましいコドンペアが恣意的に正の値で同定されるのに対し、遺伝的アルゴリズムは最小化を実施するので、遺伝的アルゴリズムではそれらの否定(negations)が使用されている。これは上述の全ての重みに当てはまる。
より好ましい重みマトリックスは、上述のようにして、全ゲノムのコドン比率を基準にして計算される期待値を使用して、高度に発現される群中でコドンペア「バイアス」を計算することで得られてもよい。

が、なおも全ゲノムデータセット中のcの単一コドン比率を指し、

が高度に発現される群中のペア(c,c)の出現率を指すのであれば、「合計期待値」

の計算は、

に相当し、したがって

である。
式中、w((c,c))は、コドンの配列g中のコドンペア(c,c)の重みと定義される。最適化関数は最小平均重みを求めるので、分子の2つの項はバイアス値のための式と比べて逆になっているが、これは符号を変える以外には発現レベルとの相関に影響しないことに留意されたい。
試験したその他の全ての重みのセットと異なり、より高度に発現される群中でより過少に現れるコドンが関与するコドンペアは、ここでわずかな不都合を被る。したがってこれらの重みは、高度に発現される群および全遺伝子の異なる単一コドンバイアスもまた反映する唯一のものである。これらの重みを使用することは、高度に発現される群中で実際には正のバイアスを有するが、(高度に発現される群中で)滅多に使われないコドンからなる、いくつかのコドンペアを拒否するリスクを伴う。しかし本発明者らの所望の単一コドン比率は、通常、高度発現する遺伝子群中のものとは同じでなく、これらよりも「極端」であるので、単一コドン最適化は、いずれにしてもこれらの過少に現れるものを置き換え、したがって本発明者らは、上述の重みがコドンペア最適化のために非常に都合よいと見なすことができる。したがってコドンペア重みはまた、限定的に単一コドンバイアスも反映するが、最適化のためには、単一コドン使用頻度は別個の追加的問題と見なされる。
[遺伝的アルゴリズムを使用した単一コドンおよびコドンペアの最適化]
本発明の方法では、好ましくは上で述べられているような遺伝的アルゴリズムを実行するようにプログラムされたコンピューター装置を使用して、コドンペア適合が実行され、または組み合わせた単一コドンおよびコドンペア適合が実行される。単一コドン適合のために遺伝的アルゴリズムを当てはめることもまた可能であり、本発明から除外されないが、ここで望まれないコドンは、隣接するコドンに関する制約なしに同義コドンによって置換でき、したがって遺伝的アルゴリズムを使用することは実際には必要でない。
コドンペアについては、望まれないコドンペアを置換する単一コドン変更は常に別のコドンペアを変更して、これは必ずしも改善でなく、隣接するコドンペア中の改悪を修正することは、次にまた別のペアを変更していくため、単一コドンを変更することは通常2つのコドンペアの重みを変更し、したがってコドンペア最適化は強く制約される。
変異演算子については、コードされたペプチド配列を変化させなかったコドン配列改変、および単一コドン適合およびコドンペア適合の少なくとも1つを改善したコドン配列改変のみが許され、すなわち変異演算子はコドンを変更する前に、(所望の単一コドン比率に従って)過少に現れる、またはそれが関与する2つのコドンペアがより良い重みを有するものであるのどちらかである、同義コドンを探す。2つのタイプの突然変異のどちらが実行されるかは、無作為に選択される。あらゆる単一コドンに前者の「変異」演算子を実施することは、いかなる遺伝的アルゴリズムも使用せず、単一コドン最適化された遺伝子を作り出すのに十分である。
遺伝子の質は、2つの側面、すなわち単一コドン「適合」およびコドンペア「適合」を考慮して判定される。後者は単に、コドン(または遺伝子)の配列g中の全コドンペアの重みの平均w((c(k)、c(k+1))である。すなわちgがここでもコドン配列を表す場合、|g|はその長さ(コドン数)、およびc(k)はそのk番目のコドンで、

である。
単一コドン適合は、あらゆるコドン出現回数について正規化した、遺伝子中の実際のコドン比率と標的コドン比率との差と定義される。単一コドン比率は実施例1.1.2で述べられているように定義され、判定されてもよい。

がコドンcの所望の比率(または頻度)であり、

が前と同じく遺伝子g中の実際の比率であれば、単一コドン適合は、

と定義される。
したがってfitscが最適配列が0に近くなると[0,1]中の値に達することができるのに対し、fitcpはここでもまた[−1,1]中に、重みによって制限される。
双方の側面を最適化するために、実施態様中で、組み合わせ適合関数が導入されている。
ここで「コドンペア重要性」を表すcpiは0を超える実数であり、組み合わせ適合に対して、2つの適合関数のどちらがより大きな影響を有するかを判定する。0に近いcpiでは、fitsc(g)がより良くなる(すなわちこれもまた0に近い)と分母は0に近づき、したがってfitsc(g)の小さな変化はfitcp(g)の小さな変化よりもfitcombi(g)に影響するのに対し、高いcpiでは、fitcp(g)のわずかな改善は、fitcombi(g)に対してfitsc(g)の中程度の改善よりも大きな影響を有するかもしれない。異なるcpiの値を使用して得られたfitcombi値は、比較できないことに留意されたい(0に近いcpiは−100に近いfitcombi値をもたらすかもしれないのに対し、cpi>0.2ではfitcombiは通常0〜−1の間である)。
実施態様では、gが、例えば制限部位、またはmRNA中に望まれない二次構造をもたらす配列などの特定の望まれない配列を含有する場合、「ペナルティ」が追加される。これは合成遺伝子を構築する場合に有用かもしれないが、それ自体は、単一コドンおよびコドンペア使用最適化に関係がない。改変適合関数は次のようになる。

式中、P(g)は、望まれない配列構造が遺伝子gの部分である場合、正の重みを作り出すペナルティ関数を表す。
本発明の実施態様では、ヌクレオチドおよびアミノ酸配列は、例えば紙上、または別の好ましくはコンピューター可読データ媒体のみに存在する理論的な配列であってもよく、またはそれらは実体的な物理的に作り出される実施態様として存在してもよいものと理解される。
したがって本発明の第1の態様は、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチドコード配列を最適化する方法に関する。本方法は、好ましくは、(a)所定のアミノ酸配列をコードする少なくとも1つのオリジナルコード配列を作り出すステップと、(b)この少なくとも1つのオリジナルコード配列中で、1つ以上のコドンを同義コドンによって置換することによって、この少なくとも1つのオリジナルコード配列から少なくとも1つの新たに作り出されたコード配列を作り出すステップと、(c)所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも1つを判定する適合関数を使用して、前記少なくとも1つのオリジナルコード配列の適合値および前記少なくとも1つの新たに作り出されたコード配列の適合値を判定するステップと、(d)前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも1つのオリジナル遺伝子および前記少なくとも1つの新たに作り出されたコード配列中で、1つ以上の選択されるコード配列を選択するステップと、(e)操作b)からd)において前記1つ以上の選択されたコード配列を1つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作b)からd)を繰り返すステップを含んでなる。
本発明の実施態様に従って、本方法は、好ましくは、(a)所定のアミノ酸配列をコードする少なくとも1つのオリジナルコード配列を作り出すステップと、(b)この少なくとも1つのオリジナルコード配列中で、1つ以上のコドンを同義コドンによって置換することによって、この少なくとも1つのオリジナルコード配列から少なくとも1つの新たに作り出されたコード配列を作り出すステップと、(c)所定の宿主細胞についてコドンペア適合を判定する適合関数を使用して、前記少なくとも1つのオリジナルコード配列の適合値および前記少なくとも1つの新たに作り出されたコード配列の適合値を判定するステップと、(d)前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも1つのオリジナル遺伝子および前記少なくとも1つの新たに作り出されたコード配列中で、1つ以上の選択されるコード配列を選択するステップと、(e)操作b)からd)において前記1つ以上の選択されたコード配列を1つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作b)からd)を繰り返すステップを含んでなる。
本発明の別の実施態様に従って、本方法は、好ましくは(a)所定のアミノ酸配列をコードする少なくとも1つのオリジナルコード配列を作り出すステップと、(b)この少なくとも1つのオリジナルコード配列中で、1つ以上のコドンを同義コドンによって置換することによって、この少なくとも1つのオリジナルコード配列から少なくとも1つの新たに作り出されたコード配列を作り出すステップと、(c)所定の宿主細胞について単一コドン適合およびコドンペア適合を判定する適合関数を使用して、前記少なくとも1つのオリジナルコード配列の適合値および前記少なくとも1つの新たに作り出されたコード配列の適合値を判定するステップと、(d)前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも1つのオリジナル遺伝子および前記少なくとも1つの新たに作り出されたコード配列中で、1つ以上の選択されるコード配列を選択するステップと、(e)操作b)からd)において前記1つ以上の選択されたコード配列を1つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作b)からd)を繰り返すステップを含んでなる。
本方法では、好ましくは所定の選択基準は、前記1つ以上の選択されるコード配列が、所定の基準に従って最良適合値を有するようなものである。本発明に従った方法は、操作e)後に、前記1つ以上の選択されるコード配列の中で最良の個々のコード配列を選択するステップをさらに含んでなってもよく、前記最良の個々のコード配列はその他の選択されるコード配列よりも良い適合値を有する。
本発明の方法では、前記所定の反復停止基準は、好ましくは、(a)前記選択されたコード配列の少なくとも1つが所定の閾値を超える最良適合値を有するかどうかの試験、(b)前記選択されたコード配列がいずれも所定の閾値未満の最良適合値を有さないかどうかの試験、(c)前記選択されたコード配列の少なくとも1つが、前記オリジナルコード配列中で所定の宿主細胞について関連する正のコドンペア重みがあるコドンペアの少なくとも30%を関連する負の重みがあるコドンペアに転換するかどうかの試験、(d)前記選択されたコード配列の少なくとも1つが、前記オリジナルコード配列中で所定の宿主細胞について0を超える関連する正の重みがあるコドンペアの少なくとも10、20、30、40、50、60、70、80または90%を0未満の関連する重みがあるコドンペアに転換するかどうかの試験の少なくとも1つである。
本発明の方法では、前記適合関数は好ましくは、

(式中、
gはコード配列、|g|はその長さ、g(k)はそのk番目のコドンを表し、

はコドンc(k)(付録2;CRベクター)の所望の比率であり、

はヌクレオチドコード配列g中の実際の比率である)によって単一コドン適合を定義する。
本発明の方法では、適合関数は好ましくは

(式中、
w((c(k)、c(k+1))はコード配列g中のコドンペア重みであり、|g|は前記ヌクレオチドコード配列の長さであり、c(k)は前記コード配列中のk番目のコドンである)によってコドンペア適合を定義する。
より好ましくは、本発明の方法では、適合関数が、

(式中、

であり、cpiは0以上の実数であり、fitcp(g)はコドンペア適合関数であり、fitsc(g)は単一コドン適合関数であり、w((c(k)、c(k+1))はコード配列g中のコドンペア重みであり(付録3;CPWマトリックス)、|g|は前記コード配列の長さであり、c(k)は前記コドン配列中のk番目のコドンであり、

は、コドンc(k)の所望の比率であり、

はコード配列g中の実際の比率である)によって定義される。好ましくはcpiは0〜10の間、より好ましくは0〜0.5の間、最も好ましくは約0.2である。
本発明の方法では、コドンペア重みw(付録3)は、停止コドンを含む64×64コドンペアマトリックスから得てもよい。停止:センスペアおよび停止:停止ペアの重みは、常に0であることに留意されたい。コドンペア重みwは、好ましくは、(a)タンパク質をコードするヌクレオチド配列の少なくとも5、10、20または80%が配列決定された、所定の宿主細胞のゲノム配列、(b)タンパク質をコードするヌクレオチド配列の少なくとも5、10、20または80%が配列決定された、所定の宿主細胞の近縁種のゲノム配列、(c)所定の宿主細胞の少なくとも200個のコード配列からなる、一群のヌクレオチド配列、および(d)所定の宿主細胞の近縁種の少なくとも200個のコード配列からなる、一群のヌクレオチド配列の少なくとも1つをインプットとして使用し、コンピューターベースの方法に基づいて計算される。近縁種とは、ここでその小サブユニットリボソームRNAのヌクレオチド配列が、所定の宿主細胞の小サブユニットリボソームRNAのヌクレオチド配列と少なくとも60、70、80,または90%の同一性を有する種を指すものと理解される(Wuytsら、2004年、Nucleic Acids Res.32:D101〜D103頁)。
コドンペア重みwは、停止コドンとして終結シグナルを含む可能な61×64コドンペアの全てについて必ずしも判定されないが、例えば停止コドンとして終結シグナルを含む可能な61×64コドンペアの少なくとも5%、10%、20%、50%、および好ましくは100%などのその一部のみについて判定されてもよい。
[高度に発現される遺伝子の選択(Selection highly expressed genes)]
コドンペア重みマトリックスおよび単一コドン目標比ベクトルを計算するために、規定の宿主細胞それ自体からのヌクレオチド配列のセット、近縁種からのヌクレオチド配列のセット、または双方の組み合わせを適用できる。ヌクレオチド配列のセットAは、「参照セット、全て(reference set all)」と称される。最も好ましくはこのセットは完全に配列決定された(>95%)生物の読み取り枠(ORF)のフルセットを含有する。
好ましい本発明の実施態様では、高度に発現される遺伝子または高度に発現されるタンパク質をコードする遺伝子によって過剰に現れるサブセットを含有する、サブセットBが選択される。このセットは、測定と、続くアレイ技術を使用したmRNAハイブリダイゼーションのような格付けとを使用して判定でき、例えばアフィメトリクス(Affymetrix)、Nimblegen、アジレント(Agilent)からのアレイ、またはあらゆるその他の参照セットAの供給元などがある。別の測定は、RT−PCR、タンパク質ゲル、MS−MS分析、または当業者に知られているあらゆるその他の測定技術であることができる。測定に基づいて格付けするのに加えて、バイオインフォマティクスツールを適用して、例えば最も偏っている遺伝子を選択することによって(Carboneら、2003年)、または広範な生物中で高度に発現されることが知られている遺伝子を選択することによって、一群の高度に発現される遺伝子を直接予測することもできる。これらとしては、特に、一次代謝に関与するリボソームタンパク質、解糖およびTCA回路遺伝子、転写および翻訳に関与する遺伝子などが挙げられる。
好ましくはコドンペア重みwは、所定の宿主細胞中の一群の高度に発現される遺伝子をインプットとして使用して、コンピューターベースの方法に基づいて計算される。高度に発現される遺伝子は、ここでそのmRNAが、細胞1個あたり少なくとも10、好ましくは20、より好ましくは50、より好ましくは100、より好ましくは500、最も好ましくは少なくとも1,000コピーのレベルで検出できる遺伝子を意味するものと理解される。例えばGygiらは、酵母細胞1個あたり約15,000個のmRNA分子を測定した。特異的mRNAの存在量は細胞1個あたり0.1〜470個の範囲内であると判定され(Gygi,S.P.、Y.Rochon、B.R.Franza、およびR.Aebersold(1999年)「酵母中のタンパク質とmRNA存在量の間の相関(Correlation between protein and mRNA abundance in yeast)」Mol.Cel.Biol.19(3):1720〜30頁)、または10分の1で細胞1個あたり0.01〜50個(Akashi,H.(2003年)「翻訳選択および酵母プロテオーム進化(Translational selection and yeast proteome evolution)」Genetics 164(4):1291〜1303頁)であった。
代案としては、所定の宿主細胞中の一群の高度に発現される遺伝子は、1000、500、400、300、または200または100個の最も豊富なmRNAまたはタンパク質を含んでなる群であってもよい。当業者は、最大で64個のみの目標値しか指定されないので、単一コドン比を計算するためには、高度に発現される遺伝子の群サイズが小さいかもしれないことを認識するであろう。ここで高度に発現される遺伝子の参照セットは、遺伝子1個程度に小さいかもしれないが、一般に1%のゲノムサイズを高度に発現される遺伝子の代表的セットと見なし、例えばCarbone,A.ら(2003年)「優勢なコドンバイアスの指標としてのコドン適合指数(Codon adaptation index as a measure of dominating codon bias)」Bioinformatics.19(16):2005〜15頁)を参照されたい。コドンペア重みマトリックスを計算するために、通常200〜500個の参照遺伝子セットで足り、これは2〜7%の細菌ゲノム(3000〜15000個の遺伝子)に一致する。
別の可能性は、文献から推定上高度に発現される遺伝子のサブセットを導き出すことである。例えばモデル生物である枯草菌(Bacillus subtilis)では、単一コドンバイアスに関するかなりの文献が存在する。枯草菌(B.subtilis)の最先端技術に関する優れた概要が、Kanayaら(1999年)の研究で提供される。本発明者らのアプローチ(実施例4を参照)では、本発明者らはデータをアフィメトリクス技術によって測定されるmRNAレベルに基づいて、高度に発現される群のサブセットに分類し、これらの配列をゲノムORFの全セットと比較した。文献で使用されているその他のオプションは、タンパク質発現データ、およびリボソームタンパク質、翻訳および転写、胞子形成、エネルギー代謝、および鞭毛システムに関与するタンパク質のような(期待)遺伝子の機能別カテゴリーである。(Kanayaら、1999年;KarlinおよびMrazek、2000年)。
実際、リボソームタンパク質中に、ならびにその他の指名された群中に、例えば高いコドンバイアスを見いだすことが多い。しかし一般に、後者の群中の全ての遺伝子が、このような挙動を示すわけではない。また本発明者らは、リボソームタンパク質が、低生育産生条件でいかに反応するかを知らない。したがって高度に発現される遺伝子のサブセットを誘導するための単刀直入な測定技術は、論理的であるように見える。次に本発明者らはトランスクリプトミクス(TX)および/またはプロテオミクス(PX)データを選択できた。双方について良い点と悪い点がある。TXは全ゲノム中の遺伝子のmRNAレベルについてかなりの全体像を提供するのに対し、PXデータは水溶性タンパク質の過剰出現のために偏っているかもしれない。TXデータが翻訳対象である利用できるmRNAの直接測定であるのに対し、タンパク質はその中で代謝回転もまた重要な役割を果たす蓄積過程の一部である。いずれにせよTXおよびPXデータは、高度に発現される遺伝子に相関することが示される(Gygiら、1999年)。別の興味深い研究は、平均コドン使用頻度からの偏差、およびリボソームタンパク質、および翻訳および転写プロセシング要因に関与するもの、およびシャペロン分解タンパク質との類似性による、高度に発現される(PHX)遺伝子の予測である(KarlinおよびMrazek、2000年)。特にバシラス(Bacillus)、大腸菌(E.coli)などのような迅速に生育する生物では、主要解糖遺伝子およびトリカルボン酸回路遺伝子が、上記の群に属することが分かっている。予測法は、mRNAデータおよびタンパク質発現における、既知の高度に発現される遺伝子と比較できる。
当業者は、それらのtRNAコード化遺伝子の含量および性質について改変された改変宿主細胞、すなわち既存のtRNA遺伝子の追加的コピーと、改変されて非天然アミノ酸またはその他の化合物を含むtunaをコードする遺伝子をはじめとする非天然tRNA遺伝子をはじめとする新しい(外来性)tRNA遺伝子とを含んでなる宿主細胞、ならびにその中で1つ以上のtRNA遺伝子が不活性化されまたは欠失している宿主細胞について、単一コドン重みおよびコドンペア重みwの双方を判定してもよいことを理解するであろう。
本発明の方法で、所定のアミノ酸配列をコードするオリジナルのコーディングヌクレオチド配列は、(a)所定のアミノ酸配列をコードする野生型ヌクレオチド配列、(b)それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、アミノ酸をコードする同義コドンから無作為に選択される、所定のアミノ酸配列の逆翻訳、および(c)それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、所定の宿主細胞または宿主細胞近縁種の単一コドンバイアスに従って選択される、所定のアミノ酸配列の逆翻訳から選択されてもよい。
[宿主細胞]
本発明の方法では、所定の宿主は、最適化されたヌクレオチドコード配列の発現による、対象とするポリペプチドの生成に適したあらゆる宿主細胞または生物であってもよい。したがって宿主細胞は原核または真核宿主細胞であってもよい。宿主細胞は、液体中でのまたは固体培地上での培養に適した宿主細胞であってもよい。代案としては宿主細胞は、(遺伝子導入)植物、動物またはヒトなどの多細胞組織および/または多細胞生物の一部である細胞であってもよい。
宿主細胞は、微生物または非微生物であってもよい。適切な非微生物宿主細胞としては、例えばCHO(チャイニーズハムスター卵巣)やBHK(幼若ハムスター腎臓)細胞などのハムスター細胞、マウス細胞(例えばNS0)、COSまたはVeroなどのサル細胞、PER.C6(商標)またはHEK−293細胞などのヒト細胞などの哺乳類宿主細胞と、またはショウジョウバエ(Drosophila)S2およびスポドプテラ(Spodoptera)Sf9またはSf21細胞などの昆虫細胞と、またはタバコ、トマト、ジャガイモ、ナタネ、キャベツ、エンドウマメ、小麦、トウモロコシ、米、セイヨウイチイ(Taxus brevifolia)などのイチイ(Taxus)種、シロイヌナズナ(Arabidopsis thaliana)などのアラビドプシス(Arabidopsis)種、およびタバコ(Nicotiana tabacum)などのタバコ(Nicotiana)種などの植物細胞とが挙げられる。このような非微生物細胞は、哺乳類またはヒトの治療法で使用するための哺乳類またはヒトタンパク質の生成に特に適する。
宿主細胞はまた、細菌または真菌細胞などの微生物宿主細胞であってもよい。適切な細菌宿主細胞としては、グラム陽性およびグラム陰性細菌の双方が挙げられる。適切な細菌宿主細胞の例としては、バシラス(Bacillus)、放線菌(Actinomycetes)、エシェリキア(Escherichia)、ストレプトミセス(Streptomyces)属からの細菌、ならびに乳酸桿菌(Lactobacillus)、連鎖球菌(Streptococcus)、ラクトコッカス(Lactococcus)、オエノコッカス(Oenococcus)、リューコノストック(Leuconostoc)、ペディオコッカス(Pediococcus)、カルノバクテリウム(Carnobacterium)、プロピオニバクテリウム(Propionibacterium)、腸球菌(Enterococcus)およびビフィドバクテリウム(Bifidobacterium)などの乳酸菌が挙げられる。特に好ましいのは、枯草菌(Bacillus subtilis)、バシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)、バシラス・リケニフォルミス(Bacillus licheniformis)、大腸菌(Escherichia coli)、ストレプトミセス・コエリカラー(Streptomyces coelicolor)、ストレプトミセス・クラブリゲルス(Streptomyces clavuligerus)、およびラクトバシラス・プランタルム(Lactobacillus Plantarum)、ラクトコッカス・ラクティス(Lactococcus lactis)である。
代案としては、宿主細胞は、酵母または糸状菌などの真核微生物であってもよい。宿主細胞として好ましい酵母は、サッカロミセス(Saccharomyces)、クリヴェロミセス(Kluyveromyces)、カンジダ(Candida)、ピチア(Pichia)、分裂酵母(Schizosaccharomyces)、ハンゼヌラ(Hansenula)、クロエケラ(Kloeckera)、シュワニオミセス(Schwanniomyces)、およびヤロウイア(Yarrowia)属に属する。特に好ましいのは、サッカロミセス・セレヴィシエ(Saccharomyces cerevisiae)、およびクリヴェロミセス・ラクチス(Kluyveromyces lactis)をはじめとするデバリオミセス(Debaryomyces)宿主細胞である。
より好ましい実施態様に従って、本発明の宿主細胞は、糸状菌細胞である。「糸状菌」は、真菌類(Eumycota)および卵菌(Oomycota)亜門の全ての線状体を含む(Hawksworthら、1995年、前出、によって定義される)。糸状菌は、キチン、セルロース、グルカン、キトサン、マンナン、およびその他の複合多糖から構成される菌糸壁によって特徴づけられる。栄養成長は菌糸伸長により、炭素異化作用は絶対好気性である。その株を本発明中の宿主細胞として使用してもよい糸状菌属としては、限定されるものではないが、アクレモニウム(Acremonium)、アスペルギルス(Aspergillus)、アウレオバシジウム(Aureobasidium)、クリプトコッカス(Cryptococcus)、フィロバシジウム(Filobasidium)、フザリウム(Fusarium)、フミコラ(Humicola)、マグナポルテ(Magnaporthe)、ケカビ(Mucor)、ミセリオフトラ(Myceliophthora)、ネオカリマスティクス(Neocallimastix)、ニューロスポラ(Neurospora)、ペシロミセス(Paecilomyces)、ペニシリウム(Penicillium)、ピロミセス(Piromyces)、スエヒロタケ(Schizophyllum)、クリソスポリウム(Chrysosporium)、タラロミセス(Talaromyces)、サーモアスクス(Thermoascus)、チエラビア(Thielavia)、トリポクラジウム(Tolypocladium)、およびトリコデルマ(Trichoderma)属の株が挙げられる。好ましくは糸状菌は、アスペルギルス・ニガー(Aspergillus niger)、コウジカビ(Aspergillus oryzae)、ショウユコウジカビ(Aspergillus sojae)、トリコデルマ・リーセイ(Trichoderma reesei)またはペニシリウム・クリソゲヌム(Penicillium chrysogenum)よりなる群から選択される種に属する。適切な宿主株の例としては、アスペルギルス・ニガー(Aspergillus niger)CBS513.88(Pelら、2007年、Nat Biotech.25:221〜231頁)、コウジカビ(Aspergillus oryzae)ATCC 20423、IFO 4177、ATCC 1011、ATCC 9576、ATCC 14488−14491、ATCC 11601、ATCC 12892、P.クリソゲヌム(chrysogenum)CBS 455.95、ペニシリウム・シトリヌム(Penicillium citrinum)ATCC 38065、ペニシリウム・クリソゲヌム(Penicillium chrysogenum)P2、アクレモニウム・クリソゲヌム(Acremonium chrysogenum) ATCC 36225またはATCC 48272、トリコデルマ・リーセイ(Trichoderma reesei)ATCC 26921またはATCC 56765またはATCC 26921、ショウユコウジカビ(Aspergillus sojae)ATCC 11906、クリソスポリウム・ラクノウエンス(Chrysosporium lucknowense)ATCC 44006、およびそれらの誘導体が挙げられる。
宿主細胞は、野性型糸状菌宿主細胞または変異体、突然変異体または遺伝子改変糸状菌宿主細胞であってもよい。このような改変糸状菌宿主細胞としては、例えばコウジカビ(Aspergillus oryzae)JaL125(国際公開第97/35956号パンフレットまたは欧州特許第429 490号明細書で述べられている)などのプロテアーゼレベルが低下しているプロテアーゼ欠損株;国際公開第96/14404号パンフレットで開示されているようなトリペプチジル−アミノペプチダーゼ欠損A.ニガー(niger)株などの宿主細胞;またはプロテアーゼ転写活性化因子(prtT)生成が低下している宿主細胞(国際公開第01/68864号パンフレット、米国特許出願公開第2004/0191864A1号明細書および国際公開第2006/040312号パンフレットで述べられている);3つのTAKAアミラーゼ遺伝子、2つのプロテアーゼ遺伝子、ならびに代謝産物シクロピアゾン酸およびコウジ酸を形成する能力が不活性化されているコウジカビ(Aspergillus oryzae)BECh2のような宿主株(BECh2については国際公開第00/39322号パンフレットで述べられている);野性型細胞と比較して上昇した小胞体ストレス応答(UPR)を含んでなり、対象とするポリペプチドの生成能力が増強された糸状菌宿主細胞(米国特許出願公開第2004/0186070A1号明細書、米国特許出願公開第2001/0034045A1号明細書、国際公開第01/72783A2号パンフレットおよび国際公開第2005/123763号パンフレットで述べられている);シュウ酸欠損表現型がある宿主細胞(国際公開第2004/070022A2号パンフレットおよび国際公開第2000/50576号パンフレットで述べられている);グルコアミラーゼ、中性α−アミラーゼA、中性α−アミラーゼB、α−1,6−トランスグルコシダーゼ、プロテアーゼ、セロビオ加水分解酵素および/またはシュウ酸加水分解酵素などの豊富な内在性ポリペプチドの発現が低下している宿主細胞(米国特許出願公開第2004/0191864A1号明細書で述べられている技術に従った遺伝子改変によって得られてもよい);相同的組換え効率が増大している宿主細胞(国際公開第2005/095624号パンフレットで述べられているように欠損hdfAまたはhdfB遺伝子を有する);およびこれらの改変のあらゆる可能な組み合わせを有する宿主細胞が挙げられる。
本発明の方法では、所定のアミノ酸配列は、前記所定の宿主細胞にとって異種の(対象とするポリペプチドの)アミノ酸配列であってもよく、またはそれは前記所定の宿主細胞に相同的な(対象とするポリペプチドの)アミノ酸配列であってもよい。
「異種」という用語は、核酸(DNAまたはRNA)またはタンパク質について使用される場合、それがその中に存在する生物、細胞、ゲノムまたはDNAもしくはRNA配列の一部として自然発生せず、またはその中でそれが自然に見られるのとは異なる細胞中に、またはゲノムまたはDNAもしくはRNA配列中の1つまたは複数の位置に見られる、核酸またはタンパク質を指す。異種の核酸またはタンパク質は、その中にそれが導入される細胞に内在性でないが、別の細胞から得られ、または合成的にまたは組み換え的に生成される。必ずしもそうでないが、一般にこのような核酸は、その中で核酸が発現される細胞によって常態では生成されないタンパク質をコードする。その中でそれが発現される細胞にとって異種または外来性として当業者が認識する、あらゆる核酸またはタンパク質が、ここで異種の核酸またはタンパク質という用語に包含される。異種という用語はまた、核酸またはアミノ酸配列の非自然的な組み合わせ、すなわち組み合わせた配列の少なくとも2つが互いに外来性である組み合わせにも当てはまる。
「相同的」という用語は、所与の(組み換え)核酸またはポリペプチド分子と、所与の宿主生物または宿主細胞との間の関係を示すために使用される場合、自然に核酸またはポリペプチド分子が、同一種、好ましくは同一変種または株の宿主細胞または生物によって生成されることを意味するものと理解される。
所定のアミノ酸配列は、商業的または工業的適用性または有用性を有するあらゆる対象とするポリペプチドの配列であってもよい。したがって対象とするポリペプチドは、抗体またはその一部、抗原、凝固因子、酵素、ホルモンまたはホルモン変異体、受容体またはその一部、調節タンパク質、構造的タンパク質、レポーター、または輸送タンパク質、細胞内タンパク質、分泌過程に関与するタンパク質、折りたたみ過程に関与するタンパク質、シャペロン、ペプチドアミノ酸輸送体、グリコシル化因子、転写因子であってもよい。好ましくは対象とするポリペプチドは、古典的分泌経路によって、非古典的分泌経路によって、または代案の分泌経路によって、宿主細胞の細胞外環境中に分泌される(国際公開第2006/040340号パンフレットで述べられている)。対象とするポリペプチドが酵素である場合、それは例えばオキシド還元酵素、基転移酵素、加水分解酵素、リアーゼ、イソメラーゼ、リガーゼ、カタラーゼ、セルラーゼ、キチナーゼ、クチナーゼ、デオキシリボヌクレアーゼ、デキストラナーゼ、エステラーゼであってもよい。より好ましい酵素としては、例えばエンドグルカナーゼ、β−グルカナーゼ、セロビオ加水分解酵素またはβ−グルコシダーゼ、ヘミセルラーゼなどのセルラーゼなどの、またはキシラナーゼ、キシロシダーゼ、マンナナーゼ、ガラクタナーゼ、ガラクトシダーゼ、ペクチンメチルエステラーゼ、ペクチンリアーゼ、ペクチン酸リアーゼ、エンドポリガラクツロナーゼ、エキソポリガラクツロナーゼ、ラムノガラクツロナーゼ、アラバナーゼ、アラビノフラノシダーゼ、アラビノキシラン加水分解酵素、ガラクツロナーゼ、リアーゼなどのペクチン分解酵素などの、またはデンプン分解酵素などのカルボヒドラーゼ;加水分解酵素、イソメラーゼ、またはリガーゼ、フィターゼなどのホスファターゼ、リパーゼなどのエステラーゼ、タンパク質分解酵素、オキシダーゼなどのオキシド還元酵素、基転移酵素、またはイソメラーゼ、フィターゼ、アミノペプチダーゼ、カルボキシペプチダーゼ、エンドプロテアーゼ、メタロプロテアーゼ、セリン−プロテアーゼ、カタラーゼ、キチナーゼ、クチナーゼ、シクロデキストリングリコシル基転移酵素、デオキシリボヌクレアーゼ、α−ガラクトシダーゼ、β−ガラクトシダーゼ、グルコアミラーゼ、α−グルコシダーゼ、β−グルコシダーゼ、ハロペルオキシダーゼ、インベルターゼ、ラッカーゼ、マンノシダーゼ、ムタナーゼ、ペルオキシダーゼ、ホスホリパーゼ、ポリフェノールオキシダーゼ、リボヌクレアーゼ、トランスグルタミナーゼ、グルコースオキシダーゼ、ヘキソースオキシダーゼ、およびモノオキシゲナーゼが挙げられる。いくつかの治療的関心のあるタンパク質としては、例えば抗体およびその断片、ヒトインシュリンおよびその類似体、ヒトラクトフェリンおよびその類似体、ヒト成長ホルモン、エリスロポエチン、組織プラスミノーゲン活性化因子(tPA)またはインスリノトロピンが挙げられる。ポリペプチドは、好ましくはクエン酸である代謝産物合成に関与してもよい。このようなポリペプチドとしては、例えばアコニット酸ヒドラターゼ、アコニターゼ、ヒドロキシラーゼ、6−ホスホフルクトキナーゼ、クエン酸シンターゼ、カルボキシホスホノエノールピルビン酸ホスホノムターゼ、グリコール酸還元酵素、グルコースオキシダーゼ前駆物質goxC、ヌクレオシド−ジホスフェート−糖エピメラーゼ、グルコースオキシダーゼ、マンガン−超酸化物−ジスムターゼ、クエン酸リアーゼ、ユビキノン還元酵素、キャリアタンパク質、クエン酸輸送体タンパク質、ミトコンドリア呼吸タンパク質、および金属輸送体タンパク質が挙げられる。
[コンピューター、プログラム、およびデータ媒体]
さらなる態様では、本発明は、プロセッサーおよびメモリーを含んでなるコンピューターに関し、プロセッサーは前記メモリーから読み取って、前記メモリーに書き込むように構成され、メモリーは、前記プロセッサーに本発明の方法を遂行する能力を提供するように構成された、データおよび命令を含んでなる。
別の態様では本発明は、プロセッサーもまた含んでなるコンピューターのメモリーにロードされるように構成されたデータおよび命令を含んでなるコンピュータープログラム製品に関し、プロセッサーは前記メモリーから読み取って、前記メモリーに書き込むように構成され、データおよび命令は前記プロセッサーに本発明の方法を遂行する能力を提供するように構成される。
本発明のさらに別の態様は、上で定義されるコンピュータープログラム製品と共に提供されるデータ媒体に関する。
[核酸分子]
本発明のさらなる態様は、所定のアミノ酸配列をコードするコード配列を含んでなる核酸分子に関する。コード配列は、好ましくは天然コード配列と似ていないヌクレオチド配列である。むしろ核酸分子中のコード配列は、自然界に見られない人工のヌクレオチド配列、すなわち改変された人造ヌクレオチド配列であり、それはここで定義される方法に従って、所定の宿主細胞のための単一コドンおよび/またはコドンペアバイアスの最適化方法に基づいて作り出され、続いて実体のある核酸分子として合成される。好ましくはコード配列は所定の宿主細胞に対して、少なくとも0.2未満、またはより好ましくは0.1未満、最も好ましくは0.02未満のfitsc(g)を有する。より好ましくは、コード配列は所定の宿主細胞に対して、少なくとも0未満のfitcp(g)を有する。最も好ましくはコード配列は所定の宿主細胞に対して、少なくとも−0.1未満、またはより好ましくは少なくとも−0.2未満のfitcp(g)を有する。好ましくは最適化された遺伝子g中のコドンペアの数は、特定の宿主生物について関連する負のコドンペアがある、少なくとも60、70、75、80、85%のコドンペア、最も好ましくは少なくとも90%のコドンペアを含有する。
コード配列によってコードされる所定のアミノ酸配列は、本明細書において上で定義されるあらゆる対象とするポリペプチドであってもよく、および所定の宿主細胞は、本明細書において上で定義されるあらゆる宿主細胞であってもよい。
核酸分子中で、コード配列は、好ましくは所定の宿主細胞中でのコード配列の発現を指示できる、発現制御配列と作動的に連結する。本発明の文脈で、制御配列は、一緒に存在する場合、コード配列と作動可能なように結合して、生成するポリペプチドをコードするヌクレオチド配列の発現に必要なまたは有利な全構成要素を含む、ヌクレオチド配列と定義される。各制御配列は、生成するポリペプチドをコードするヌクレオチド配列にとって、天然または外来性であってもよい。このような制御配列としては、限定されるものではないが、リーダー配列、ポリアデニル化配列、プロペプチド配列、プロモーター、翻訳開始配列、翻訳開始コード配列、翻訳転写ターミネーター、および転写ターミネーター配列が挙げられる。制御配列には、例えば制御配列と、ポリペプチドをコードするヌクレオチド配列のコード領域とのライゲーションを容易にする特異的制限部位を導入する目的で、リンカーが備わっていてもよい。
発現制御配列は通常最低限、プロモーターを含んでなる。本願明細書での用法では、「プロモーター」という用語は、遺伝子の転写開始部位の転写方向に対して上流に位置して、1つ以上の遺伝子転写を制御するために機能する核酸断片を指し、これはDNA−依存性RNAポリメラーゼ結合部位、転写開始部位、およびあらゆるその他のDNA配列の存在によって構造的に同定されるが、これらとしては、限定されるものではないが、転写因子結合部位、リプレッサーおよび活性化因子タンパク質結合部位、および直接または間接的に作用してプロモーターからの転写量を制御することが当業者に知られているあらゆるその他のヌクレオチド配列が挙げられる。「構成的」プロモーターは、ほとんどの環境および生育条件下で活性のプロモーターである。「誘導性」プロモーターは、環境または生育調節下で活性のプロモーターである。
発現制御配列などのDNAセグメントは、別のDNAセグメントとの機能的関係に置かれると「作動的に連結する」。例えばプロモーターまたはエンハンサーは、それが配列の転写を刺激するのであれば、コード配列と作動的に連結する。シグナル配列のためのDNAは、それがポリペプチドの分泌に関与するプレタンパク質として発現されるのであれば、ポリペプチドをコードするDNAと作動的に連結する。一般に作動的に連結するDNA配列は隣接し、シグナル配列の場合は隣接しておりまた読み取り相でもある。しかしエンハンサーは、それらがその転写を制御するコード配列と隣接する必要はない。連結は、当該技術分野で既知の手段による、都合よい制限部位における、またはアダプター、リンカーまたはPCR断片におけるライゲーションによって達成される。
適切なプロモーター配列の選択は、一般にDNAセグメント発現のために選択される宿主細胞に左右される。適切なプロモーターの例としては、当該技術分野でよく知られている原核および真核生物のプロモーターが挙げられる(例えばSambrookおよびRussell、2001年「分子クローニング:実験室マニュアル(Molecular Cloning:A Laboratory Manual)」(第3版)、Cold Spring Harbor Laboratory、Cold Spring Harbor Laboratory Press、New York)を参照されたい)。転写調節因子配列は、典型的に、宿主によって認識される異種のエンハンサーまたはプロモーターを含む。適切なプロモーターの選択は宿主に左右されるが、trp、lac、およびファージプロモーター、tRNAプロモーターおよび解糖作用酵素プロモーターなどのプロモーターが知られており利用できる(例えばSambrookおよびRussell、2001年、前出参照)。使用できる好ましい誘導性プロモーターの例は、デンプン−、銅−、オレイン酸−誘導性プロモーターである。糸状菌宿主細胞のための好ましいプロモーターとしては、例えばA.ニガー(niger)のグルコアミラーゼプロモーター、またはコウジカビ(A.oryzae)のTAKAアミラーゼプロモーター、および国際公開第2005/100573号パンフレットで述べられているプロモーターが挙げられる。
本発明のヌクレオチド配列は、シグナル配列を、またはむしろシグナルペプチド−コード領域をさらに含んでなってもよい。シグナル配列は、発現されたポリペプチドを細胞の分泌経路に誘導できる、ポリペプチドのアミノ末端に結合しているアミノ酸配列をコードする。シグナル配列は、通常約4〜15個のアミノ酸の疎水性コアを含有し、その直前には塩基性アミノ酸があることが多い。シグナルペプチドのカルボキシル末端には、単一の介在性アミノ酸によって隔てられる一対の小さな非荷電アミノ酸があり、それがシグナルペプチド切断部位を画定する。von Heijne,G.(1990年)J.Membrane Biol.115:195〜201頁。それらの全体的な構造的および機能的類似性にもかかわらず、天然シグナルペプチドは共通配列を有さない。適切なシグナルペプチドコード領域は、アスペルギルス(Aspergillus)種からのグルコアミラーゼまたはアミラーゼ遺伝子、リゾムコール(Rhizomucor)種からのリパーゼまたはプロテイナーゼ遺伝子、サッカロミセス・セレヴィシエ(Saccharomyces cerevisiae)からのα−因子のための遺伝子、バシラス(Bacillus)種からのアミラーゼまたはプロテアーゼ遺伝子、または子ウシプレプロキモシン遺伝子から得てもよい。しかし発現されるタンパク質を選択された宿主細胞の分泌経路に誘導できる、あらゆるシグナルペプチド−コード領域を本発明で使用してもよい。糸状菌宿主細胞のために好ましいシグナルペプチドコード領域は、コウジカビ(Aspergillus oryzae)TAKAアミラーゼ遺伝子(欧州特許第238 023号明細書)、アスペルギルス・ニガー(Aspergillus niger)中性アミラーゼ遺伝子、アスペルギルス・ニガー(Aspergillus niger)グルコアミラーゼ、リゾムコール・ミーヘイ(Rhizomucor miehei)アスパラギン酸プロテイナーゼ遺伝子、フミコラ・ラヌギノサ(Humicola lanuginosa)セルラーゼ遺伝子、フミコラ・インソレンス(Humicola insolens)セルラーゼ、フミコラ・インソレンス(Humicola insolens)クチナーゼ、カンジダ・アンタルクチカ(Candida antarctica)リパーゼB遺伝子またはリゾムコール・ミーヘイ(Rhizomucor miehei)リパーゼ遺伝子およびそれらの突然変異、切断、およびハイブリッドシグナル配列から得られるシグナルペプチドコード領域である。本発明の好ましい実施態様では、シグナル配列をコードするヌクレオチド配列は、所定の宿主のために単一コドンおよび/またはコドンペアバイアスについて最適化されたコード配列の不可分の一部である。
本発明の核酸分子内では、コード配列はさらに好ましくは翻訳開始配列と作動的に連結する。真核生物中では、イニシエーターATG−コドン前のヌクレオチド共通配列(6〜12個のヌクレオチド)は、この話題に関する最初の研究のためにコザック共通配列と称されることが多い(Kozak,M.(1987年)「699個の脊椎動物メッセンジャーRNAからの5’非コード配列の分析(an analysis of 5’−noncoding sequences from 699 vertebrate messenger RNAs)」Nucl.Acid Res.15(20):8125〜47頁)。コザックによって導き出された+4ヌクレオチドを含む、オリジナルコザック共通配列CCCGCCGCCrCC(ATG)Gは、高等真核生物における翻訳開始と関連付けられている。原核宿主細胞では、対応するシャイン・ダルガノ配列(AGGAGG)は、好ましくは原核生物mRNAの5’−非翻訳領域中に存在して、リボソームのための翻訳開始部位の役割を果たす。
本発明の文脈で、「翻訳開始配列」という用語は、ポリペプチドをコードするDNA配列の読み取り枠のイニシエーターまたは開始コドンのすぐ上流の10個のヌクレオチドと定義される。イニシエーターまたは開始コドンは、アミノ酸メチオニンをコードする。イニシエーターコドンは典型的にATGであるが、GTG、TTGまたはCTGなどのあらゆる機能性開始コドンであってもよい。
特に好ましい本発明の実施態様では、核酸分子は、真菌宿主細胞によって発現される所定のアミノ酸配列をコードするコード配列を含んでなり、すなわち所定の宿主細胞は好ましくは真菌であり、その中では糸状菌が最も好ましい。本発明に従って真菌中での発現のために最適化されたコード配列を含んでなる核酸分子は、次の要素の1つ以上をさらに含んでなってもよい。1)真菌コンセンサス翻訳開始配列、2)真菌翻訳イニシエーターコード配列、および3)真菌翻訳終止配列。
コンセンサス真菌翻訳開始配列は、ヌクレオチドのための次の曖昧コードを使用して、好ましくは5’−mwChkyCAmv−3’の配列によって定義される。m(A/C);r(A/G);w(A/T);s(C/G);y(C/T);k(G/T);v(A/C/G);h(A/C/T);d(A/G/T);b(C/G/T);n(A/C/G/T)。より好ましい実施態様に従って、配列は5’−mwChkyCAAA−3’、5’−mwChkyCACA−3’または5’−mwChkyCAAG−3’である。最も好ましくは翻訳開始共通配列は、5’−CACCGTCAAA−3’または5’−CGCAGTCAAG−3’である。
本発明の文脈で、「コンセンサス翻訳イニシエーターコード配列」という用語は、ここでコード配列の読み取り枠のイニシエーターコドンのすぐ下流のヌクレオチドと定義される(イニシエーターコドンは典型的にATGであるが、GTGなどのあらゆる機能性開始コドンであってもよい)。好ましい真菌コンセンサス翻訳イニシエーターコード配列は、ヌクレオチドのための次の曖昧コードを使用して、5’−GCTnCCyyC−3’のヌクレオチド配列を有する。y(C/T)およびn(A/C/G/T)。これは翻訳イニシエーターコード配列について16個の変異体をもたらし、その中で5’−GCTTCCTTC−3’が最も好ましい。コンセンサス翻訳イニシエーターコード配列を使用して、以下のアミノ酸が、言及されるアミノ酸位置に許容される。コードされるポリペプチド中の+2位にはアラニン、+3位にはアラニン、セリン、プロリン、またはスレオニン、および+4位にはフェニルアラニン、セリン、ロイシンまたはプロリン。好ましくは本発明では、コンセンサス翻訳イニシエーターコード配列は、生成するポリペプチドをコードする核酸配列にとって外来性であるが、コンセンサス翻訳イニシエーターは真菌宿主細胞に天然であってもよい。
本発明の文脈で、「翻訳終止配列」という用語は、読み取り枠またはコード配列の3’末端の翻訳停止コドンから始まる4つのヌクレオチドと定義される。好ましい真菌翻訳終止配列としては5’−TAAG−3’、5’−TAGA−3’、および5’−TAAA−3’が挙げられ、その中では5’−TAAA−3’が最も好ましい。
真菌宿主細胞中で発現される所定のアミノ酸配列をコードするコード配列は、少なくとも1、2、3、4または5つのオリジナルコドン、より好ましくはオリジナルコドンの少なくとも1%、2%、3%、4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%、または95%が同義コドンによって交換されて、同義コドンが天然コドンと同じアミノ酸をコードし、表Aに示すようにコドン使用頻度においてオリジナルコドンよりも高い頻度を有するように、さらに好ましくは単一コドン頻度について最適化される。
真菌宿主細胞中で発現される所定のアミノ酸配列をコードするなおもより好ましいコード配列は、少なくとも1、2、3、4または5つのオリジナルコドン、より好ましくはオリジナルコドンの少なくとも1%、2%、3%、4%、5%、10%、15%、20%、25%、50%、75%、80%、85%、90%、または95%が同義コドンで交換されて、同義コドンが、以下の最適百分率一覧を適用して、前記頻度の前記コドン百分率と、列挙された最適百分率との間の差の絶対値が改変後により小さくなるようにコドン頻度を変化させるように、さらに好ましくは単一コドン頻度について最適化される。TGCによってコードされるシステイン(100%);TTCによるフェニルアラニン(100%);CACによるヒスチジン(100%);AAGによるリジン(100%);AACによるアスパラギン(100%);CAGによるグルタミン(100%);TACによるチロシン(100%);GCT(38.0%)、GCC(50.7%)、またはGCG(11.3%)によるアラニン;GACによるアスパラギン酸(63.2%);GAGによるグルタミン酸(74.2%);GGT(49.0%)、GGC(35.9%)、GGA(15.1%)によるグリシン;ATT(26.7%)、ATC(73.3%)によるイソロイシン;TTG(12.7%)、CTT(17.4%)、CTC(38.7%)、CTG(31.2%)によるロイシン;CCT(35.6%)、CCC(64.4%)によるプロリン;CGT(49.1%)、CGC(50.9%)によるアルギニン;TCT(20.8%)、TCC(44.0%)、TCG(14.4%)、AGC(20.8%)によるセリン;ACT(29.7%)、ACC(70.3%)によるスレオニンおよび/またはGTT(27.4%)、GTC(54.5%)、GTG(18.1%)によるバリン;その他の全ての可能なアミノ酸をコードするコドン(0%)。
(所定の宿主細胞中での発現のために)本発明のコード配列を含んでなる上で定義される核酸分子は、通常、選択可能なマーカー、好ましくはゲノム中の所定部位における相同的組換えを通じた組み込みを容易にする複製起点および/または配列などの発現ベクター中に見られる要素をさらに含んでなってもよい。このようなさらなる要素は当該技術分野でよく知られており、ここでさらに詳述する必要はない。
さらなる態様では、本発明は、本明細書において上で定義される核酸分子を含んでなる宿主細胞に関する。宿主細胞は、好ましくは本明細書において上で定義される宿主細胞である。
なおもさらなる態様では、本発明は、所定のアミノ酸配列を有するポリペプチドを生成する方法に関する。本方法は、好ましくはポリペプチドの発現に寄与する条件下で、本明細書において上で定義される核酸分子を含んでなる宿主細胞を培養するステップと、場合によりポリペプチドを回収するステップを含んでなる。
また一方さらなる態様では、本発明は、細胞内および細胞外代謝産物の少なくとも1つを生成する方法に関する。本方法は、代謝産物生成に寄与する条件下で本明細書において上で定義される宿主細胞を培養するステップを含んでなる。好ましくは宿主中において、(本明細書において上で定義される核酸分子によってコードされる)所定のアミノ酸配列を有するポリペプチドが、代謝産物の生成に関与する。(一次または二次代謝産物、または双方の;細胞内、細胞外または双方の)代謝産物は、発酵過程において生成してもよいあらゆる発酵産物であってもよい。このような発酵産物としては、例えばリジン、グルタミン酸、ロイシン、スレオニン、トリプトファンなどのアミノ酸と、例えばアンピシリン、バシトラシン、セファロスポリン、エリスロマイシン、モネンシン、ペニシリン、ストレプトマイシン、テトラサイクリン、タイロシン、マクロライド、およびキノロンをはじめとする抗生物質が挙げられ、好ましい抗生物質はセファロスポリンおよびβ−ラクタムであり、例えば多価不飽和脂肪酸(PUFA)をはじめとする脂質および脂肪酸と、エタノール、プロパノールおよびブタノールなどのアルカノールと、1,3−プロパン−ジオール、ブタンジオール、グリセロールおよびキシリトールなどのポリオールと、アセトンなどのケトンと、アミンと、ジアミンと、エチレンと、カロチノイド、カロテン、アスタキサンチン、リコペン、ルテインなどのイソプレノイドと、アクリル酸と、コレステロールおよびエルゴステロールなどのステロールと、例えばビタミンA、B2、B12、C、D、E、およびKをはじめとするビタミンと、例えばグルカル酸、グルコン酸、グルタル酸、アジピン酸、コハク酸、酒石酸、シュウ酸、酢酸、乳酸、ギ酸、リンゴ酸、マレイン酸、マロン酸、クエン酸、フマル酸、イタコン酸、レブリン酸、キシロン酸、アコニット酸、アスコルビン酸、コウジ酸、およびコメル酸(comeric acid)をはじめとする有機酸が挙げられ、好ましい有機酸はクエン酸である。
この文献およびその特許請求の範囲のなかで、「含んでなる」という動詞およびその活用はその非限定的意味で使用され、単語に続く項目が含まれるが、特に言及されていない項目が除外されないことを意味する。さらに不定冠詞「a」または「an」による要素への言及は、文脈が明らかに要素の1つおよび1つのみがあることを必要としない限り、要素の2つ以上が存在する可能性を除外しない。したがって不定冠詞「a」または「an」は、通常「少なくとも1つ」を意味する。
[実施例]
[1.実施例1:コドンペアバイアスの分析]
[1.1 材料と方法]
[1.1.1 データおよびソフトウェア]
コドンペア分析は、全ゲノム配列データならびにそれらに由来する部分群中のコード配列(CDS)に対して実施してもよい(または例えばcDNA/ESTライブラリーのような部分的ゲノム配列、または近縁生物からの複数ゲノムからの部分的ゲノムデータでさえあってもよい)。本発明で使用されるツールは、FASTAファイルをインプットとしてを使用して、これらのデータを読み取る。全計算の大部分はザ・マス・ワークス・インコーポレーテッド(The MathWorks,Inc.、www.mathworks.com)からのMATLAB 7.01で実施されたが、得られた結果のいくつかの詳細な分析では、スポットファイア・インコーポレーテッド(Spotfire,Inc.)からのスポットファイアDecisionSite 8.0(http://www.spotfire.com/products/decisionsite.cfm)が使用された。
A.ニガー(niger)では、CBS513.88の全ゲノムのための予測されたcDNA配列があるFASTAファイル(Pelら、2007年、Nat Biotech.25:221〜231頁)および一群の479個の高度に発現される遺伝子を使用した。さらに通常、パイロット規模の発酵条件下では、A.ニガー(niger)中の>14,000遺伝子の半分以下が同時に発現されるので、このような条件を使用して得られた24個のGeneChipからのデータを使用して、様々な実験内で実際に発現された遺伝子のみを含む第2の遺伝子のセットを抽出し(Affymetrix MAS5.0配列分析ソフトウェアを使用して、少なくとも18個の「present」コールがある遺伝子のみを考慮した;このセットは4,584個の遺伝子を含んでなった)、(その時点ではその他のデータが入手できなかったため)それらを観察されたmRNAレベルに従って格付けしたので、あらゆるサイズの(おそらく)高度に発現される遺伝子のセットを容易に同定できる。この第2のセットは、データをそれらの発現レベルに応じて格付けできるように作り出された。
この分析のために、本発明者らは遺伝子の転写レベルを使用した。代案としてはまた、例えばタンパク質の二次元ゲル電気泳動法と、続く質量分析法による同定によって、定量的なタンパク質発現データを当てはめることもできる。しかしタンパク質の大きなセットに対してタンパク質を発現させることは、(例えばgenechipを使用した)mRNAレベルの判定と比較してなおも相当時間がかかる。したがってここで行ったのは、翻訳が実際に起きる前の翻訳に対するコドンバイアスの影響を研究することである。mRNAおよびタンパク質発現レベルの相関はかなり痕跡的ではあったものの、Gygiら(Yeast.Mol.Cel.Biol.19(3):1720〜30頁)は大腸菌(E.coli)中で、「タンパク質およびmRNA発現レベルとコドンバイアスとの相関」を実際に発見した。したがって「発現レベル」という用語は、実際に転写レベルに対する影響が判定された場合にのみ、本文中で使用される。
およそ4,000個の遺伝子を含有する生物である枯草菌(Bacillus subtilis)では、一群の300個の高度に発現される遺伝子が入手でき、分析された。この研究で考慮した全ての生物のゲノムの基本的特性の概要については、表1.1を参照されたい(しかしそれらの全てについて詳細に述べられているわけではない)。
各分析において、末端とは別の位置の1つ以上の停止コドンを含んだ(推定上の)遺伝子、および長さが3で割れない(すなわち配列決定中にフレームシフトが起きたかもしれない)配列は、無視した。また各遺伝子の最初の5つおよび最後の5つのコドンは、これらの部位がタンパク質結合および放出効率に関与するかもしれず、したがって配列のその他の部分とは異なる選択圧力を被り、そこのコドンおよびコドンペアバイアスは典型的でないかもしれないので、考慮しなかった。20個のコドンよりも短いORF(ORF=読み取り枠)もまた、分析から除外した。表1.1では、これは既に考慮されている。
[1.1.2 コドンペアの期待出現率]
コドンペア使用頻度を分析するために、最初に下で、nobs((c,c))によって示される各単一コドンおよび各コドンペアの出現率を数え、obsは観察されたことを表す。二重括弧は、「観察された数」すなわちnobsが、それ自体はペア(この場合はコドンペア、すなわち(c,c))である引数を単に1個有する関数であることを示すのに必要である。同じことは、下で定義するコドンペア上の全ての関数に当てはまる。添字i、j、およびまたkは1〜64であることができ、(それらのアルファベット順に従って)内部表現中のコドン数を示す。(c,c)はコドンペアを指し、cは左側コドン(すなわち6−ヌクレオチド配列の5’トリプレット)、cは右側コドンであり(すなわち3’−末端により近い)、ならびに

は、各コドンcに対する出現数である。
(式中、
下付文字scは単一コドンを示し、上付文字allは数が、単一遺伝子g中のコドン比率を指すのに使用される

とは対照的に、全ゲノムを指すことを示す。nobs((c,c))のようなコドンペアの関数は常に、全ゲノムまたはより大きな遺伝子群中の数を指す)。次に単一コドン比率(論文によってはこれらの比率はまた、頻度とも称されることに留意されたい。しかしコドン頻度はまた、全コドンの総数で除したコドン出現数を指すこともある)を計算する

(式中、
syn(c)は、cと同一のアミノ酸をコードし、したがってcと同義であるコドンのセットを指す)。したがって分数線の下側の合計の値は、全プロテオーム中のcによってコードされるアミノ酸出現数に等しい。ここで使用される最も重要な記号および式の簡潔な一覧については、付録1を参照されたい。
特定の主張されるコドンペア優先度が、単に個々のコドン優先度の結果であるのかどうかを明らかにするために、個々のコドン頻度を基準にして、各コドンペアに関する期待値を計算することが必要である。これらは、式、

を使用して計算され、上付文字ownは、後述するその他の方法を使用して得られたものから、値を区別するために使用される。この式の最後の因子中で、全同義コドンペア出現率の実際の数値が合計される。したがって予期される各コドンペアの量は、個々のコドン使用比率とそれぞれのアミノ酸ペアの出現数との積である。
GutmanおよびHatfield(1989年、Proc.Natl.Acad.Sci USA 86:3699〜3703頁)は、期待値を計算する別の方法を提案した。彼らの最初のアプローチは、各遺伝子について個々にコドン頻度を計算し(すなわち|g|で示される遺伝子g中のコドン総数によってg中のコドン量を除する)、次にこれらの値をペアワイズにその配列中のコドンペア数(|g|−1)で乗じることであった。
この式において「gh1」は、GutmanおよびHatfieldの方法1(1989年、前出)を指す。これは、各遺伝子について予期されるコドンペアの値(上式の総和演算記号の後ろの部分)をもたらし、次にそれを合計して、定義上は、同一ゲノムの異なる遺伝子中の単一コドン使用頻度における可能な偏差について調節されているが、アミノ酸ペア使用頻度の可能なバイアスを考慮していない最終期待値をもたらす。これは、特定のアミノ酸がその他のものよりも頻繁に隣り合わせる傾向があれば、または換言すれば、アミノ酸ペアの出現数が同一アミノ酸組成物についてのランダム配列中のものと類似していなければ、期待値もまた顕著に異なり、かなり稀に使用されるアミノ酸ペアをコードするコドンペアは高すぎる期待値を、より頻繁に使用されるアミノ酸ペアをコードするコドンペアは低すぎる期待値を有するであろうことを意味する。
GutmanおよびHatfield(1989年、前出)はまた、彼らの期待値をアミノ酸ペアバイアスについて正規化する方法も提案した。したがって彼らは、彼らの方法に従う期待アミノ酸ペア数と観察された数とを単に比較して、全ての影響を受けたコドンペアの期待値を適宜増減させ、前者と後者を一致させた。
この式において「gh2」は、GutmanおよびHatfieldの方法2(1989年、前出)を指す。
[1.1.3 コドンペアバイアスを計算する]
次に実際のコドンペアバイアスbias((c,c)が、期待コドンペア数と実際の(観察された)コドンペア数との間の差から得られる(期待値のための方法のいずれでも使用できる)。最初のアプローチは、それを単に

によって計算することであった。
このようにしてバイアス値は、期待のよりも何%多くまたは少なく頻繁に、コドンペアが実際に使用されたかを示す(すなわち100%で乗じた場合)。分析された遺伝子セット中で生じないアミノ酸ペアでは、式に従ったバイアス値は、全ての対応するコドンペアについて0/0である。その場合、これは0であると定義される。したがってバイアス値の下限が−1である一方、明確な上限はない。これはいくぶん非実用的であると見なされたので、代わりに

を使用し、式中、max(a,b)はaとbの2つの値のより大きな方を指し、それは常に(−1,1)中のバイアス値をもたらす。これは、バイアス値が−1であることができるが、+1であることはできないことを意味する。前者は、実際に生じるアミノ酸ペアをコードするのに、特定のコドンペアが全く使用されない場合に起きる。+1の値は到達できないが、これは、そうするとnexp((c,c))が0でなくてはならないが、これはnobs((c,c))もまた0である場合にのみ可能なためである。
上述の解釈は、バイアス値<0についてなおも有効である(これはnobs((c,c))<nexp((c,c))であることを意味し、したがって双方の式は同じ結果を有する)。nobs((c,c))>nexp((c,c))である場合、バイアス値(このときそれは>0)は、観察された値よりも期待値が何%低いかを示す(すなわちその場合、ベースラインが変化する)。
[1.1.4 バイアスの統計的有意性]
GutmanおよびHatfield(1989年、前出)はカイ二乗検定を使用して、それらの結果の統計的有意性を判定した。この検定を使用して、特定の仮説下で特定の観察結果が偶然起こることがどれほどありそうかをチェックする。コドンペアを調べる場合、この仮説は、コドンペア使用頻度は、独立した各コドンのランダム選択の結果であるというものである。この仮説を検証するために、χ2値が計算される。

(式中、CPは停止コドンを含まない全てのコドンペアのセットを指す)。次に自由度数は3720(6161−1)である。コドンペア選択がランダムであれば、χ2値はおよそ3720であり(自由度数に等しい)、標準偏差は2自由度の平方根に等しいことが予期される。
このようにして、観察されたバイアスの全体的な統計的有意性を検証できる。しかしまた、個々のコドンペアのバイアスの統計的有意性を推定することもできる。前に提案された期待値を計算する方法については、コドンペアの出現数が、ひと続きの独立したyes/no実験(yes:それぞれのアミノ酸ペアをコードするために、これらの2つのコドンが選択される;no:別のコドンペアが選択される)の結果であると見なされ、したがってそれは二項分布に従い、これは分析された遺伝子のセットが十分大きければ、正規分布によって近似できる。これはnp>4(式中、nは実験回数を、pは「yes」の確率を表し、これは期待値でもある)であれば、良好な近似と見なされる。したがって各コドンペアについて、標準偏差は、式、

に従って計算できる。
次にz−スコアとも称される標準得点を計算できる。
z−スコアの絶対値は、実際の(観察された)値が、期待値から標準偏差いくつ分離れているかを示す。正規分布を仮定すれば、全観察のおよそ95%は期待値から2標準偏差内であり、>99%は3標準偏差内である。
[1.2 結果]
[1.2.1 コドンペアバイアスの存在]
上の方法を使用して、本発明者らは有意なコドンペアバイアスが存在することを発見した。全ての調査した生物について、カイ二乗検定は自由度数より数倍高いχ2値を与え、したがって期待値を多くの標準偏差分超えた。個々のコドンペアのバイアスについては、酵母中で「コドンペアコンテキストの約47%が−3〜+3」標準偏差分、期待値から離れた区間内に入る(彼らは期待値を異なる方法で計算したが)というMouraらの発見が確認でき、それは本発明者らの分析においてz−スコアに相当する。全体的に、コドンペア使用頻度がランダムである場合にあるべきものよりも、z−スコアのかなり高いコドンペアが顕著により多かった。表1.2を参照されたく、ほぼ正規分布をもたらすランダム選択では、例えば全コドンペアの約5%のみが2を超えるまたは−2未満のz−スコアを有するべきであるが、選択された4種の生物の全ゲノム中では、これは実際には3分の2以上に当てはまる。
これらの値は、ゲノムサイズといくぶん相関性があることに留意されたく(比較するのは表1.1を参照されたい)、すなわちより大きなゲノムの生物は、より極端なz−スコアがあるコドンペアを有する傾向がある。より小さい出現数は(期待値と比較して)より高い標準偏差をもたらし、したがって結果の統計的有意性がより低いので、特により小さな遺伝子群(例えばA.ニガー(niger)中の479個の高度に発現される遺伝子)を分析すると、値はより低い(この例ではそれぞれ65.1%、37.2%、および19.7%)。これはコドンペア使用頻度が、単一コドン比率に従ったコドンのランダム選択の結果でないという結論をもたらす。
バイアス値の分布それ自体は、生物毎に異なる。これは、異なる生物中の3,721個のセンス:センスコドンペアに関するコドンペアバイアス値の分布を示す図3に言及して説明できる。図3の各ヒストグラムの右上隅の数は、観察された分布の標準偏差であり、平均値(図示せず)は全ての生物について−0.06〜−0.01の間である。図3に示すヒストグラムにおいて、試験された10種の生物の内、細菌大腸菌(E.coli)、枯草菌(B.subtilis)、バシラス・アミロリケファシエンス(B.amyloliquefaciens)、およびS.コエリカラー(coelicolor)が最も極端なコドンペアバイアスを有するのに対し、真菌A.ニガー(niger)、コウジカビ(A.oryzae)、A.テレウス(terreus)、A.ニデュランス(nidulans)、P.クリソゲヌム(chrysogenum)、および酵母S.セレヴィシエ(cerevisiae)およびK.ラクチス(lactis)中のバイアスは、極端さがより少ないことが分かる。
異なる生物のコドンペアバイアスを比較すると、別の興味深い観察を行うことができる。近縁生物からのバイアス値は、非近縁生物からのものよりも高い相関を示す。これは図4に言及して説明される。図4は、様々な生物のコドンペアバイアス中の相関を示す。相関係数は各サブプロットの右上隅に示される。この分析では、A.ニガー(niger)とP.クリソゲヌム(chrysogenum)との間に最も高い相関が、A.ニガー(niger)とコウジカビ(A.oryzae)との間に最も低い相関が観察でき、すなわち枯草菌(B.subtilis)とS.コエリカラー(coelicolor)との間には、事実上相関が観察できなかった。興味深いことに、負の相関は観察されなかった。これは、GC含量が高い生物(S.コエリカラー(coelicolor)など)は、大抵はATに富む生物(S.セレヴィシエ(cerevisiae)または極めてATに富んでいるわけではないが枯草菌(B.subtilis)など)でより少なく使用されるコドンを好むが、1種の生物で好ましいペアがもう1つの種で拒否されたり、その逆であったりする2種の生物はいないことを意味する。これは、ほとんど全ての単一コドンのバイアスが生物依存性でありながら、ほとんど全ての生物において好ましいおよび/または拒否されるいくつかのコドンペアがあることを意味するのかもしれない(例えばそれらが適合する構造のないフレームシフトまたはtRNAを引き起こす可能性のため)。
[1.2.2 コドンペアバイアス中のパターン]
観察されたコドンペアバイアスを視覚化するため、Mouraら(2005年)が行ったようにいわゆるマップを描くことができる(彼らはこれらのマップをマップを「コドン文脈マップ」と称する)。これは、各コドンペアに対する着色矩形からなり、横列がペアの第1のコドンを表して縦列がペアの第2のコドンを表す着色画像を参照して、最も容易に説明できる。赤色は負の、緑色は正のバイアスを示す。白色は0に等しいバイアスを実際に有するコドンペア(例えばアミノ酸ペアMet−Metをコードする唯一の方法であることから、ATG−ATGがこれに当てはまる)、および停止コドンを組み込んだペアを表わす。
しかし着色画像は、特許出願開示の一部であることができない。この実施例ではモノクロ視覚化のために、画像を2つの画像に分離する。図5AがA.ニガー(niger)に対する正のコドンペアを示すのに対し、図5BはA.ニガー(niger)に対するの負のコドンペアを示す(付録3、表C1もまた参照されたい)。コドンペアが偏っているほど、対応する矩形はより黒くなる。ここでのバイアス値は−0.67〜0.54の範囲である一方、その他の生物ではそれらは±0.9をわずかに超えさえするかもしれない(図3もまた参照されたい)。これらのダイアグラム中の最も濃い黒色(オリジナルの緑色(上部)および黒色(オリジナルの赤色(下部))は、それぞれ0.9および−0.9の値を表す(ここでは到達されていない;大抵、最大バイアスの絶対値は最小バイアスのそれよりもわずかに低い)。
さらに本発明者らはコドンペアバイアスの数値を含有する、付録3のCPWマトリックス表に言及し、そして本発明者らは着色画像のモノクロ例として図5に言及し、それによって当業者は付録3の表からの数値を使用して、着色バージョンを再構築してもよい。
これらのコドンペアマップに対する第1のアプローチは、横列および縦列をそれらのアルファベット順に従ってソートすることであった(これがそれらの内部表現の順序であるので)。そのマップ中では、対角線が赤色点よりもわずかにより多くの緑色点を含有するように見えることが分かり、これは多くのコドンがその隣接コドンと同じコドンに対する優先度を有することを示唆する。さらにほとんどの隣接する縦列がいくぶん類似するのに対し、隣接する横列はほとんど類似せず(データ示さず)、図5Aおよび5Bおよび付録3の表C1を参照されたい。しかしほとんどの横列は3つの別の列によって隔てられる横列と類似しており、すなわち4番目の横列毎にいくらかの類似性があった。
各4番目の横列の一般的な特質は、ペアの第1のコドンの最後のヌクレオチドであることから、第3位を第1の、中央位を第2のソート基準として、アルファベット順に従って横列をソートすることがより好ましい。次にA.ニガー(niger)のためのマップ(図5CおよびD、および付録3の表C1)から分かることは、1616コドンペアの各ブロックのほとんどの値が同じ色を有することから、バイアスが確かに主として第1の(5’)コドンの最後のヌクレオチドおよび第2の(3’)コドンの最初のヌクレオチドと相関するように見えることである。例えばアスペルギルス(Aspergillus)中で特定できる原則は、xxT−Axx(xはあらゆるヌクレオチドを指し、それぞれの位置にあるものは特定の法則にとって重要でないことを示す)のようなコドンペアが拒否されるのに対し(下左隅の赤色ブロック)、パターンxxA−Txxは、好ましいコドンを特徴づけることであり(右上隅の緑色ブロック)、ここでもコドンペアバイアスが方向性を持つことが示唆される。しかし全てのバイアスが、コドンペア「中央」の隣接する2つのヌクレオチド中のパターンのみで説明できるわけではない。例えばxxC−Axxコドンペア(最も左上から2つめののブロック参照)は、一般に好ましくも拒否されるわけでもないが、パターンxxC−AAxのペアに対する明らかな優先度がある(すぐ上で述べたブロック左側の4個の緑色縦列に留意されたい)。バイアスはまた、非隣接ヌクレオチドに左右されることもできる(例えば枯草菌(B.subtilis)中のCxA−Gxxペアの強力な拒否;図6Aおよび6Bおよび付録3の表C4参照)。不運なことにコドンペアバイアスは、常にこのような「単純な」パターンに起因するとは限らず(例えば図7AおよびBおよび付録3の表C5の大腸菌(E.coli)に関するかなり混沌としたマップを参照されたい)、スポットファイアDecisionSite 8.0(http://www.spotfire.com/products/decisionsite.cfm)を使用してクラスター分析を実施した場合でさえ、一般特性は見つけられず(データ示さず)、すなわち同定されたクラスターは、ほとんど関連のないコドンから構成された(すなわち同じ位置の共通ヌクレオチドはない)。
[1.2.3 バイアスおよび発現レベルの関係]
高度発現レベル(それらは転写レベルを調べることによってのみ同定されることから、より望ましくは推定上の高度発現レベル)があるA.ニガー(niger)遺伝子のバイアスマップを見ると(図8参照)、より大きな群、すなわちダイアグラム中のブロックの存在は、さほど明白でない(または換言すれば、上述のような単純な規則は全く存在しないかもしれない)。それにもかかわらず全コドンペアの3分の2はこの群中で36回以下生じるので、そして上述したように平均ではるかにより低いz−スコアのために、これはかなりの程度まで不規則変動に起因すると考えることができる。
図9は、A.ニガー(niger)の479個の高度に発現される遺伝子の群中のバイアス(垂直軸)に対する全遺伝子中のバイアス(水平)の散布図を示す。停止コドンを含まない全3,721個のコドンペアを示す。
淡い灰色から黒色への陰影付けは、総ゲノム中のz−スコアの絶対値に従って割り当てられ、すなわちプロット中の淡い点は全ての遺伝子中で有意なバイアスを有さない)、サイズもまた高度に発現される群中の絶対z−スコアに従い、すなわち非常に小さい点はそこで有意なバイアスを有さない(ここでは|z−スコア|<1.9)。黒色実線は双方のバイアス値が等しい箇所を示し、黒色破線は実際の相関(主成分分析によって同定される)の最良の直線近似を示し、その傾きは約2.1である。
高度に発現される群中および全ゲノム中の各コドンペアの2つのバイアス値を比較すると(図9の散布図参照)、ほとんどのペアでは、高度に転写される群中のバイアスはより極端であり、すなわちそれが0未満ならばより低く、それが正数ならばより高いが、ペアによってはバイアス値がかなり異なったり、符号が異なることすらあることが分かる。しかしこれらはほとんどが首位群中での出現数が少ないコドンペアであり、バイアスが高度に顕著なペア(青色の大きな丸)の大半は、双方の群中で同様のバイアスを有する(すなわちそれらは双方のバイアス値が等しい箇所を示す青線に近い)。
(A.ニガー(niger)または枯草菌(B.subtilis)のどちらについても)3つのヌクレオチドの内2つを共有するコドンの同様のバイアス差に関する特異的パターンは発見できず、すなわち上のものに類似しているバイアス差のプロット中には、バイアス差が同様であるより大きな群がない。
[1.3.遺伝子適応のためのコドンペア重み同定の詳細]
ここで、
1.遺伝子のフルセットに基づいて;1のサブセットに基づいて、
2.高度に発現される遺伝子の一部分として同定される、
記載されている方法(付録1:コドンペア重み−方法1配列群(またはゲノム))に従って、適応のためのコドンペア重みが判定できる。
さらに本発明者らは、コドンペア使用適応の改善された方法のために必要なより高い転写レベルと明らかに関連する、コドンペア重みを同定するために検索を開始し、次の方法が適用された。前述の4,584個の実際に発現された遺伝子のセットについて、GeneChipデータから抽出された完全な格付けが入手できたA.ニガー(niger)では(「材料と方法」中の「データ」参照)、各遺伝子の平均コドンペア重み(すなわちfitcp(g)値相当量)を計算した。次に適合値(昇順)および発現レベル(降順)に従って遺伝子をソートした。高度に発現される遺伝子は低いコドンペア適合値を有すると思われるので、これらの2つの格付けは理想的コドンペア重みを使用すれば等しくなり、したがってこれらの2つの格付けの比較は、適合関数で使用される重みの質に関する情報を提供できる(そこではあまり良くないものの格付けよりも、高度に発現される遺伝子の「正確な」格付けにわずかにより多くの注意が向けられた)。さらに4,584個の遺伝子の格付けと平均コドンペア重みの間の相関係数(各変数の標準偏差で除した共分散)を計算した。
次をはじめとする可能ないくつかの重みのセットを調べた。
i.全ゲノムからのバイアス値
ii.高度に発現される群のバイアス値
iii.0に設定された特定の最小z−スコアを有さない全ての値に関するバイアス
iv.高度に好ましいまたは拒否されるコドンにより低い/より高い影響を与えるために二乗した(およびその他の数で乗じた)バイアス値
v.それらの組み合わせ
vi.z−スコアそれ自体
vii.高度に発現される群および全ゲノムからのバイアス値/z−スコアの差
好ましいコドンペアは(かなり恣意的に)正の値で同定されたが、遺伝的アルゴリズム(GA)は最小化を実行するので、GAについてはそれらの否定が使用された。これは言及される全ての重みに当てはまる。
これらの内、「最良の」重みマトリックスは項目ii〜ivの組み合わせであることが判明したが、上述のように、全ゲノムのコドン比率に基づいて計算される期待値を使用して、高度に発現される群中でコドンペア「バイアス」を計算することで、さらにより良いものが得られた。図10は観察された相関を示す。
試験されたその他の全ての重みセットとは異なり、高度に発現される群中でより過少に現れるコドンに関与するコドンペアは、ここでわずかな不都合を被る。したがってこれらの重みは、高度に発現される群および全遺伝子の異なる単一コドンバイアスもまた反映する唯一のものである。これらの重みを使用することは、高度に発現される群中で実際には正のバイアスを有するが、(高度に発現される群中で)滅多に使用されないコドンからなる、いくつかのコドンペアを拒否する危険性を伴う。しかし本発明者らの所望する単一コドン比率は、通常高度発現がある遺伝子群中のものと同じではなくこれらよりも「極端な」ので、単一コドン最適化はいずれにしてもこれらの過少に現れるものを置き換え、したがって本発明者らは上述の重みが、コドンペア最適化のために非常に都合よいと見なすことができる。
結論として、遺伝子適応のための潜在的に改善されたコドンペア重みマトリックスが上述のように同定された。式は付録1:コドンペア重み−方法 参照群(またはゲノム)を伴う高度に発現される群、にある。
[1.4.コンピュータシミュレーションによる単一コドンおよびコドンペア最適化]
[1.4.1 材料と方法]
遺伝子を分析および最適化するために開発されたMATLABツールボックスは、それらの能力に応じて異なるディレクトリに整理されたいくつかの機能からなる。したがってそれらを使用するためには、それらを全てMATLAB環境に周知させることが必要である。これを行うには、ファイルメニューから「Set Path」を選択し、次に「Add with subfolders」をクリックして、ツールボックスがインストールされたパスを選択する(通常「Matlab−bio」と称される)。また分析すべきFASTAおよびその他のファイルの位置も追加する。全ての個々のMATLAB関数については「contents.m」で簡潔に述べられている(MATLAB環境において「help Matlab−bio」とタイプしてこのファイルを表示し、「help」に続けて関数の名称を使用してそれに関する詳細な情報を得る)。コドンペア使用頻度に着目した遺伝子最適化のために重要な2つの関数は、「fullanalysis」および「geneopt」である。
遺伝子を適応させたい生物の全ゲノムが例えば「Aniger_ORF.fasta」ファイルに位置して、その高度に発現される遺伝子の識別子が「an−high.txt」にある場合、「fullanalysis(’Aniger_ORF.fasta’,’an−high.txt’,’an’);」とタイプすれば、(i)全ゲノムのコドンペアバイアスマップ、(ii)第2のファイル中の遺伝子群のコドンペアバイアスマップ、および(iii)MATLAB作業空間内でのさらなる使用のためのいくつかの変数(すなわち一時的に保存されるデータのセット)が得られる。「fullanalysis」の第3のパラメーターは、これらの変数がどのように命名されるかだけを決定し、1つのゲノムのみを一度に分析するのであれば省略できる。言及される変数には、(i)全ゲノムのコドンペア使用頻度およびバイアスデータ(この例では「cpan」と称される)、(ii)第2のパラメーターによって規定される特別な遺伝子群のコドンペア使用頻度およびバイアスデータ(「cpans」と称される)、および(iii)遺伝的アルゴリズムのために使用できる標的単一コドン比率およびコドンペア重みを伴う構造がある。「fullanalysis(’Xyz_ORF.fasta’);」は、コドンペアバイアスマップのみを示し、それぞれのゲノムのバイアスデータを保存する。
第2のパラメーターは、遺伝子識別子(例えば低発現を伴う遺伝子セットまたは特定の共通機能がある遺伝子)を含むあらゆるファイルであってもよいが、それは常にこの(潜在的)パラメーターに関して、高度に発現される遺伝子セットのように取り扱われる(本例では「optparamforan」と称され、これは「特定生物のための最適化パラメーター(the optimization parameter for the specified organism)」を表す)。ここで単一コドン比率は、単に、

で計算され、これは許容可能な近似であることに留意されたい。所望の比率の基準をさらに改善するために、標的比率は、単一コドン分布の詳細を含むその他の方法(本文参照)によって同定した方がいいかもしれない。さらに、より高いコドンペア適合がある解を見つけるのにより大きな自由度をコドンペアアルゴリズムに与えるため、特定のバイアスが見られない場合は、標的比率は空白のままであってもよい。様々な宿主生物に対する、このような所定の単一コドン標的ベクターのいくつかが付録1にある。
遺伝的アルゴリズムのための所定の単一コドン標的比率を使用するためには、「optparamforan.cr=[」とタイプしてパラメーターのフィールド「cr」を変更し、次に単一コドン比率をペーストし(例えばExcelシートからコピーする;それらはコドンのアルファベット順であるべきことに留意されたい)、比率が64要素の横列として入手できるならば「];」とタイプし、またはそれらを縦列からコピーするのであれば「]’;」とタイプして改行キーを押す(後者の場合右角括弧に続く追加の一重引用符またはアポストロフィに留意されたい)。重要でないコドン比率、すなわち特定の標的比率が所望されないコドンには、「値」NaN(not a number)を割り当ててもよく、それらは単一コドン適合が計算される際に無視される。
最適化された遺伝子から特定の短い配列を除外するために、パラメーター「rs」を同様に設定し、そこでは例えば(改行なしで)「optparamforan.rs={’CTGCAG’’GCGGCGCC’};」のように、各配列を一重引用符によって囲まなくてはならず、全配列を一緒に中括弧で囲まなくてはならない。最後に、パラメーターのフィールドcpiが変更されて、組み合わせ適合関数中でより高い重要性を単一コドン最適化またはコドンペア最適化に与えるかもしれない(「結果および考察」中の下位セクション「コドンペア最適化を実行する」を参照されたい)。デフォルト値は0.2である。単一コドン最適化された遺伝子と比較して、コドンペア最適化された遺伝子に関する実験結果が、コドンペア最適化された遺伝子の改善をわずかしか見せない場合はこれをより低い値に設定し、逆の場合はより高いcpiの方がより良いかもしれない。
次に関数geneoptを使用して、遺伝的アルゴリズムを使用した実際の遺伝子最適化を実施できる。必要なパラメーターは、最適化する配列と、コドンペア重みを含有する構造と、上述のような標的比率および制限部位だけであり、したがって例えばgeneopt(‘MUVARNEQST’,optparamforan);を使用して、A.ニガー(niger)中での高度発現のために特定の(かなり短い)タンパク質配列を最適化できる;「」は得られた遺伝的配列が、末端に停止コドンを有すべきであることを示すのに使用される(しかしA.ニガー(niger)中の最適停止信号は四量体TAAAであると考えられるので、これは必要ではない)。最適化する配列は、一重引用符によって再度囲まなくてはならないことに留意されたい;配列が文字A、C、G、TまたはUのみを含有し、およびその長さが3の倍数であれば、それは自動的にヌクレオチド配列と見なされる。次に200個の母集団サイズで、遺伝的アルゴリズムを1000世代実行し、その内各80個(最良の79個および無作為抽出される1個)は世代のために保存され、使用されて新しい個体が作り出され、新しい個体の40%は交叉を使用して作り出され、60%は突然変異演算子を使用して作り出される。これらのデフォルト値は最適化のために非常に都合よいことが判明し、すなわちこれらのパラメーターの変更は、あったとしても非常にわずかな「より良い」遺伝子をもたらすに過ぎないが、例えば最適化のために顕著により長いまたは短い計算時間を用いなければならない場合には(約500コドンの遺伝子に対するgeneoptの平均的実行は、1.4GHzのPentium Mプロセッサー上で約15分かかる)、それらもまた変更することができる。例えばgeneopt(seq,optparamforan,[50 750 5 0 0.6])は、750世代の母集団の遺伝的アルゴリズムを計算し、そこでは50個体が新しい各世代のために保存され、250個が新たに作り出され(550;すなわち各世代で300個体が調べられる)、最良の個体のみが保存されて(無作為抽出なし)、遺伝子組み換えの60%が交叉演算子を使用して実施される。これらのパラメーターをどのように指定するかについてより詳しくは、help geneoptおよびhelp geneticalgorithmとタイプする。
ここでA.ニガー(niger)および枯草菌(B.subtilis)について、対応するFASTAファイルを分析してコドンペア重みを生じさせる手順を示して記述したが、これらの計算は以前の遺伝子最適化のために既に実施されているので、これらの2種の生物だけに関しては、これは必要でないことに留意されたい。より容易な使用のために、遺伝的アルゴリズムのそれぞれのパラメーターは保存されている(「load gadata_for_an」または「load gadata_for_bs」とそれぞれタイプする;そこでのパラメーターが単にan_paramおよびbs_paramと称されることに留意されたい。
[1.4.2 結果]
図11は、それぞれ異なるcpi値のための5つの最適化バージョンの適合値を示す(図11ダイアグラムの説明文を参照されたい)。タンパク質は、宿主A.ニガー(niger)のために最適化された真菌α−アミラーゼ(FUA;AmyBとも称される)である(実施例2参照)。さらに「純粋な」単一コドン最適化(右の黒色点)およびコドンペア最適化の結果が示される(左上の群)。最適化バージョンは、400個の母集団サイズについて遺伝的アルゴリズムを約1000世代実行して得られ、それは1.4GHzのPentium M上で各実行に約17分かかった。純粋な単一コドン最適化および純粋なコドンペア最適化には、その約60%の時間しかかからなかったことに留意されたい。
図11では、野性型(fitsc(gfua)=0.165、fitcp(gfua)=0.033)は、このプロット上にフィットしない(それは右上すぎる)。最適遺伝子は常に、fitscおよびfitcpの値が最も低いものである。本発明者らは単一コドン使用頻度がより重要なのか、またはコドンペア使用頻度がより重要なのかを未だに知らないので、点の位置を考えると、どのcpiの値について最も改善された遺伝子が得られたのか明らかでない。しかしcpi=0.2の場合に、偏りのない(fare)妥協点が出現するようである。
単一コドンおよびコドンペア使用頻度における改善は、この研究で提案されるいわゆる配列の質プロットにおいて視覚化できる。図12は前述のFUAの(499個の内)最初の20個のコドンの配列の質を示す、2つのダイアグラムを示す(実施例2もまた参照されたい)。
これらの配列の質ダイアグラムは、配列それ自体だけでなく、重みおよび所望の単一コドン比率のセット、ひいては生物にもまた左右されることに留意されたい。コドンバイアスが低いまたは皆無のコドンについては、標的単一コドン比率を「考慮外(don’t care)」と定義し、すなわち特定コドンの使用頻度をその同義コドンと比較して、発現について正または負であると考慮しないことができることにもまた留意されたい。その場合、遺伝子中のそれぞれのコドンの実際の比率について青い×印のみが示されて、単一コドン適合を計算する際に特定の位置は無視される(1.4.コンピュータシミュレーションによる単一コドンおよびコドンペア最適化を参照されたい)
[1.5 結論]
広範な生物において、コドンペア使用頻度と転写レベルとの有意な相関が確立されている。このバイアスは、読み枠部位周辺のジヌクレオチドバイアスだけでは説明できないことが実証された。特定コドンペアの優先度または拒否に関する可能な説明は全て翻訳に着目するので、どちらも、酵素群または少なくともそれらのより重要なものを産生する細胞の影響力を最小化するために、翻訳に影響する特徴と転写に影響するその他の特徴とに同時に作用する自然淘汰によって、引き起こされると推測される。
したがってポリペプチドコード配列中のコドンペア使用頻度を最適化することは、最適化のために単一コドン頻度のみが考慮される古典的な単一コドン最適化または単一コドン調和に加えて、改善された過剰発現を達成することと見なされる。同一遺伝子のコドンペア適合および単一コドン適合は、この例で調査した真菌宿主クラスおよび桿菌にはわずかにしか干渉せず、すなわちどちらも同時に実施でき、結果は野生型遺伝子よりも「より良い」単一コドン使用頻度および「より良い」コドンペア使用頻度を有し、他方を無視した場合、2つの側面のどちらもわずかしか改善できない。
FASTAファイルを読み取って、分析および最適化を実施するために、ユーザーフレンドリーなMATLAB関数がデザインされている。単一遺伝子のコドンペアバイアスおよびコドンペア使用頻度を視覚化する新しい方法もまた導入されており、実施例2および実施例4を参照されたい。最適化のためにデザインされた遺伝的アルゴリズムが、隣接するコドンペアの相互依存によって課せられる制約の効果的な取り扱いを可能にする一方で、配列の質の2つの側面(単一コドンおよびコドンペア適合)の1つを常に改善する特別にデザインされた突然変異演算子は、遺伝的アルゴリズムが最初の数世代後の組み換えステップで多数の可能な不良解を生じる特性のために、それに通常伴う効率の悪さを回避することを助ける。
適切なコドンペア使用頻度は酵素産生に影響し、それは続く実施例で実験的に示される。枯草菌(B.subtilis)中で発現される3つの遺伝子のコドンペア最適化変異体を調製し、その各1つを単一コドン使用頻度のみに適応した合成遺伝子と比較して、別の1つを推定上の正の重みの否定を使用した最適化過程を経ているが、なおも単一コドン使用頻度について以前と同様に最適化されている合成遺伝子と比較する。実施例4および実施例5を参照されたい。このようにして、ここで却下されたIrwinら(1995年)の過少に現れるコドンが翻訳を刺激する、という見解もまた試される。A.ニガー(niger)については、前述のamyBのコドンペア最適化バージョンを試験して、野生型および単一コドン調和がある合成遺伝子と比較する。実施例2および3を参照されたい。
[2.実施例2:A.ニガー(niger)中のアスペルギルス・ニガー(Aspergillus niger)真菌アミラーゼ酵素の産生を改善するための改善されたDNA配列を構築する本発明の方法の使用]
以下では本発明の方法を適用して、A.ニガー(niger)中の改善された発現のために、単一コドンおよび/またはコドンペア使用頻度が最適化されている、A.ニガー(niger)のAmyB(FUA)遺伝子のための新しいヌクレオチド配列をデザインする。この方法は、あらゆるヌクレオチド配列のコドンの使用頻度改善のために、同様に適用できる。
[2.1 序文]
コドン調和の手段による単一コドン最適化の概念は、本発明の出願人らによって以前に開発されて、本文中で報告されている(実施例3もまた参照されたい)。この実施例で本発明者らは、単一コドンおよびコドンペア使用頻度の双方について最適化された遺伝子をデザインするために、本発明の方法をどのように適用するかを示す。この特定例では、14,000個の遺伝子を含有する全A.ニガー(niger)ゲノムの高度に発現される遺伝子の2%および4%の2つのサブセットを当てはめることで作り出された、重みマトリックスが適用される。単一コドン使用頻度については、アルゴリズムは、表B.1(=表2.1の縦列3)によって定義されるような同義コドン頻度がある遺伝子に対し解を導く一方で、コドンペア使用頻度については、それはコドンペアの最適セットに向けて最適化し、それらの高頻度は関連する負の重みを有し(表C.2)、4%の高度に発現される遺伝子のセット中で、その期待値に対して過剰に現れるコドンペアである。特定宿主について高度に発現される遺伝子の定義された一覧がない場合は、(i)同様の宿主生物の重みマトリックスを当てはめ、例えばP.クリソゲヌム(chrysogenum)マトリックスはA.ニガー(niger)に当てはめることができ、または(ii)全ゲノム配列データまたはそのサブセットを当てはめ、良好であるが最適さに劣るマトリックスが得られることに留意されたい。
[2.2 材料と方法]
[2.2.1 A.ニガー(niger)α−アミラーゼAmyBをコードする野生型amyBコード配列]
α−アミラーゼタンパク質をコードするamyB遺伝子のDNA配列は、J.Biochem.Mol.Biol.37(4):429〜438頁(2004年)(Matsubara T.、Ammar Y.B.、Anindyawati T.、Yamamoto S.、Ito K.、Iizuka M.、Minamiura N.、「アスペルギルス・アワモリ(Aspergillus awamori)KT−11からの生デンプン消化α−アミラーゼの分子クローニングおよびヌクレオチド配列判定(Molecular cloning and determination of the nucleotide sequence of raw starch digesting alpha−amylase from Aspergillus awamori KT−11)」で開示されており、また登録番号AB083159の下にEMBLヌクレオチド配列データベースから検索できる(http://www.ebi.ac.uk/embl/index.html)。天然A.ニガー(niger)amyB遺伝子のゲノム配列を配列番号1として示す。amyBの対応するコーディング配列またはcDNA配列を配列番号2として示す。配列番号2の翻訳された配列には配列番号3を割り当て、これはA.ニガー(niger)α−アミラーゼタンパク質AmyBを表す。この配列はまたコウジカビ(A.oryzae)α−アミラーゼタンパク質との100%類似性も有する(Wirsel S.、Lachmund A.、Wildhardt G.、Ruttkowski E.、「同一イントロン−エクソン機構を示すコウジカビ(Aspergillus oryzae)の3つのα−アミラーゼ遺伝子(Three alpha−amylase genes of Aspergillus oryzae exhibit identical intron−exon organization)」、Mol.Microbiol.3:3〜14頁(1989年、UniProt登録番号P10529、P11763またはQ00250)。本発明の方法に従った最適化をamyB cDNA配列に対して実施した。
[2.3 デザイン手順]
最適化されたコーディングヌクレオチド配列の配列番号6は、記述したソフトウェア法を実行した結果である。適用したパラメーターは次のようであった。母集団サイズ=200、反復回数=1000、cpi=0.20、CPWマトリックス=「表C.2.CPW:アスペルギルス・ニガー(Aspergillus niger)−高度に発現される配列」、およびCRマトリックス=「表B.1縦列4:CR表ANS:アスペルギルス・ニガー(Aspergillus niger)−高度に発現される配列」。さらにPstI(CTGCAG)およびNotI(GCGGCGCC)部位の出現毎に+1のペナルティ値がfitcombiに加算される。
fitcombiのための最小値に向けた解の収束を図13に示す。配列番号6について得られた目標値を配列番号2および配列番号5の目標値と共に、表2.2に示す。図14は図15および16に示す遺伝子について単一コドン統計を説明し、表2.2は3つの配列中のコドンについて実際の値を与える。図18〜20は、3つの遺伝子変異体について単一コドンおよびコドンペア双方の統計を示す。このタイプのグラフについては、図17およびその説明で詳細に説明される。これらのグラフから、単一コドン統計は配列番号5および配列番号6について類似性が高いことが明らかである。しかし本発明の方法は、関連する負の重みs(wcp(g)≦0)がある93%対74%に改善されたコドンペア数があり、および−0.18から−0.34へのfitcpのさらなる低下もある遺伝子をもたらし、それらに付随するより負の重みを有するコドンペアのより最適な使用が示唆される。
[3.実施例3:A.ニガー(niger)中でアスペルギルス・ニガー(Aspergillus niger)真菌アミラーゼ酵素の改善された産生を提供するための改善されたDNA配列構築のための本発明の方法の試験]
以下で本発明の方法を適用して、A.ニガー(niger)のAmyB遺伝子の単一コドンおよびコドンペアの使用頻度を改善する。この方法は、あらゆるヌクレオチド配列のコドンの使用頻度改善および改善された発現のために、同様に適用できる。
[3.1 材料と方法]
[3.1.1 株]
WT 1:このA.ニガー(niger)株は野生型株として使用する。この株は寄託番号CBS513.88の下にCBSインスティテュートに寄託される。
WT 2:このA.ニガー(niger)株は、グルコアミラーゼ(glaA)をコードする遺伝子の欠失を含んでなるWT 1株である。WT 2は、欧州特許第0 635 574 B1号明細書で述べられている「MARKER−GENE FREE」アプローチを使用して構築される。この特許は、CBS 513.88のゲノム中のglaA特異的DNA配列をどのように欠失させるかを広範に述べている。手順は、最終的に外来性DNA配列を全く保有しない、MARKER−GENE FREE ΔglaA組み換えA.ニガー(niger)CBS 513.88株をもたらした。
WT 3:このA.ニガー(niger)株は、シュウ酸欠乏A.ニガー(niger)株をもたらす突然変異を含んでなるWT 2株である。WT 3は欧州特許第1590444号明細書で述べられている方法を使用して構築された。この特許出願は、シュウ酸欠乏A.ニガー(niger)株をどのようにスクリーニングするかを広範に述べている。欧州特許第1590444号明細書の実施例1および2の方法に従って、株WT3を構築し、株WT 3は欧州特許第1590444号明細書の突然変異株22である(欧州特許第1590444号明細書でFINALと命名された)。
WT 4:このA.ニガー(niger)株は、続く3つのステップ中でα−アミラーゼをコードする3つの遺伝子(amyB、amyBI、およびamyBII)の欠失を含んでなるWT 3株である。欠失ベクターの構築およびこれらの3つの遺伝子のゲノムの欠失については、国際公開第2005095624号パンフレットで詳細に述べられている。国際公開第2005095624号パンフレットで述べられているベクターpDEL−AMYA、pDEL−AMYBI、およびpDEL−AMYBIIは、欧州特許第0 635 574 B1号明細書で述べられているように「MARKER−GENE FREE」アプローチに従って使用されている。上述の手順は最終的に、外来性DNA配列を全く保有しない、シュウ酸欠乏MARKER−GENE FREE ΔglaA、ΔamyA、ΔamyBI、およびΔamyBIIアミラーゼ−陰性組み換えA.ニガー(niger)CBS513.88株をもたらした。したがってWT 4はWT 1と比較して、α−アミラーゼ発現についてより最適化されている。
[3.1.2 A.ニガー(niger)振盪フラスコ発酵]
国際公開第99/32617号パンフレットの実施例:「A.ニガー(niger)の振盪フラスコ発酵」セクションで述べられているように、20mlの前培養液中でA.ニガー(niger)株を前培養した。一晩の生育後、この培養の10mlをα−アミラーゼ発酵のための発酵培地1(FM1)に移した。一般に国際公開第99/32617号パンフレットで述べられているようにして、34℃および170rpmで、100mlの発酵ブロスを用いて指定日数にわたり、バッフル付き500mlフラスコ内で発酵を実施する。
このFM1培地は1リットルあたり次を含有する:52.570gグルコース、8.5gマルトース、25gカゼイン加水分解産物、12.5g酵母抽出物、1g KH2PO4、2g K2SO4、0.5g MgSO4.7H2O、0.03g ZnCl2、80.02g CaCl2、0.01g MnSO4.4H2O、0.3g FeSO4.7H2O、10ml Pen−Strep(インビトロジェン(Invitrogen)カタログ番号10378−016)、48g MES、4N H2SO4でpH5.6に調節。
[3.1.3 真菌α−アミラーゼ活性]
A.ニガー(niger)培養ブロス中のα−アミラーゼ活性を判定するために、メガザイム(Megazyme)社からのメガザイム穀物αアミラーゼキット(CERALPHA αアミラーゼ分析キット、カタログ参照番号K−CERA、2000〜2001年)を供給元のプロトコールに従って使用する。測定された活性は、過剰なグルコアミラーゼおよびα−グルコシダーゼの存在下における、非還元末端ブロック化p−ニトロフェニルマルトヘプタオシドの加水分解に基づく。形成されたp−ニトロフェノールの量は、サンプル中に存在するα−アミラーゼ活性の尺度である。
[3.2 A.ニガー(niger)α−アミラーゼAmyBをコードする野生型amyBコード配列のためのアスペルギルス(Aspergillus)発現コンストラクトの構築]
野生型amyB遺伝子のDNA配列については、2.2.1に述べられている。アスペルギルス(Aspergillus)種におけるA.ニガー(niger)amyBコンストラクトの発現を分析するために、pGBFINベースの発現コンストラクトを使用して、A.ニガー(niger)中でのαアミラーゼ酵素の過剰発現のために強力なamyBプロモーターを適用する(国際公開第99/32617号パンフレットで述べられているように)。PamyBのATG開始コドンを含むamyBプロモーターの翻訳開始配列は、どのATGが開始コドンとして選択されるか次第で、5’−GGCATTTATG ATG−3’または5’−GAAGGCATTT ATG−3’である。PamyBのこの翻訳開始配列は、下で作り出される全ての続くamyB発現コンストラクト中で、5’−CACCGTCAAA ATG−3’に改変された。
適切な制限部位を両端に導入して、発現ベクターがクローニングできるようにした。天然amyB遺伝子は「TGA」停止コドンを含有する。下で作られた全てのamyBコンストラクト中で、5’−TGA−3’翻訳終止配列を5’−TAAA−3’で置換し、PacI制限部位の5’−TTAATTAA−3’がそれに続いた。5’末端にXhoI部位を導入し、3’末端にPacI部位を導入した。したがって改変ゲノムamyBプロモーターおよびamyB cDNA配列を含んでなる断片を完全に合成してクローニングし、配列分析によって配列を確認した。
修飾翻訳開始配列があるα−アミラーゼプロモーターと、修飾翻訳終止配列があるamyB cDNA配列とを含んでなるこの断片をXhoIおよびPacIで消化し、XhoIおよびPacI消化pGBFIN−12ベクター(構造および配置は国際公開第99/32617号パンフレットで述べられている通り)に導入してpGBFINFUA−1を作り出した(図21)。導入されたPCR断片の配列を配列分析によって確認し、その配列を配列番号4に示す。
[3.3 A.ニガー(niger)中での発現のためのα−アミラーゼコード配列amyBの単一コドン使用頻度の改善]
A.ニガー(niger)のamyB遺伝子のコドン使用頻度を改善するために、単一コドン最適化法を下で適用した。天然amyBのヌクレオチドコード配列を配列番号2として示す。
A.ニガー(niger)の天然amyB遺伝子および合成最適化変異体のコドン使用頻度を下の表2.1に提供する。天然および単一コドン最適化合成amyB遺伝子については、各コドンの正確な数ならびにアミノ酸あたりの分布が提供される。さらに第3の縦列は、最適化の目標である提案される最適分布を提供する。
グループ1のアミノ酸では、1つの可能性のみがある。グループ1は、常にATGによってコードされるメチオニン、および常にTGGによってコードされるトリプトファンからなる。
グループ2のアミノ酸は、0%または100%の極端な頻度に従った最適化の対象であり、ストラテジーは明らかである。グループ2のアミノ酸の全てのコドンは、具体的に2つの可能なコドンの最適変異体に変更される。より具体的には、システインではコドンTGTがTGCによって、フェニルアラニンではTTTがTTCによって、ヒスチジンではCATがCACによって、リジンではAAAがAAGによって、アスパラギンではAATがAACによって、グルタミンではCAAがCAGによって、チロシンではTATがTACによって置換される。
グループ3のアミノ酸は、表3.1で示されるされるいくつかのコドンによってコードできる。各コドンは、好ましいコドン頻度内で存在する。アラニンではGCT、GCC、GCA、GCG;アスパラギン酸ではGAT、GAC;グルタミン酸ではGAA、GAG;グリシンではGGT、GGC、GGA、GGG;イソロイシンではATT、ATC、ATA;ロイシンではTTA、TTG、CTT、CTC、CTA、CTG;プロリンではCCT、CCC、CCA、CCG;アルギニンではCGT、CGC、CGA、CGG、AGA、AGG;セリンではTCT、TCC、TCA、TCG、AGT、AGC;スレオニンではACT、ACC、ACA、ACG;バリンではGTT、GTC、GTA、GTGが次の方法に従って最適化される。
グループ3アミノ酸(AA)およびそれらをコードするコドンでは、所与のコード配列中の各可能なコドンの最適出現率の計算は、次の方法に従って実行される。
i.グループ3のAAのそれぞれについて、所与の配列中でコードされる残基総数を合計する、縦列A1(表3.1)参照。
ii.各AAおよびそのAAをコードするコドンについて、そのAAの総数に表2.1中の最適コドン分布を乗じ、一般に小数を含有してもよい生(raw)コドン分布をもたらす、縦列A2(表3.2)参照。
iii.桁を除去することで生(raw)コドン分布(ii)の値を四捨五入し、四捨五入コドン分布をもたらす、縦列A3(表3.2)参照。
iv.各AAについて、四捨五入コドン分布(iii)中で表されるAA総数を合計する、縦列A4(表3.1)参照。
v.所与の配列中でコードされる残基総数(i)から四捨五入コドン分布中で表されるAA総数(iv)を減ずることで、四捨五入コドン分布中の各AAのそれぞれについて、残基の総欠損数を計算する、縦列A5(表3.1)参照。
vi.各コドンについて、減算により生(raw)コドン分布(ii)と四捨五入コドン分布(iii)との間の小数点差を計算する、縦列A6(表3.2)参照。
vii.各コドンについて、小数点差(vi)と表1中の最適コドン分布とを乗じて、各コドンに重み値を与える、縦列A7(表3.2)参照。
viii.各AAのそれぞれについて、欠損残基量(v)、最も高い重み値を有するコドンのそれぞれの量(vii)を選択する、縦列A8(表3.2)参照。
ix.各コドンについて、ポリペプチドをコードする所与の配列中の最終最適コドン分布の計算を、四捨五入コドン分布(iii)と欠損残基の選択された量(viii)とを合計して計算する、縦列A9(表3.2)参照。
続いて、オリジナルamyBペプチド中の各アミノ酸について、提案されるいくつかの同義コドンのランダム分布(表2.1)によって、完全に新しいヌクレオチドコード配列を作り出した。上述の過程に由来する合成amyB配列を配列番号5で示す。サイエンティフィック&エジュケーショナル・ソフトウェア(Scientific & Educational software)からのクローンマネージャ(Clone Manager)7プログラム(Sci.Ed.Central:バージョン7.02)を使用して、改変コード配列中の二次構造を可能な有害二次構造の出現についてチェックした。
[3.4 本発明の組み合わせた単一コドンおよびコドンペア法に従った、A.ニガー(niger)中での発現のためのα−アミラーゼコード配列amyBのコード配列最適化]
A.ニガー(niger)のamyB遺伝子コード配列の改善のために本発明の方法を適用した。実施例2で述べられている過程に由来する最適化されたamyB配列を配列番号6で示す。サイエンティフィック&エジュケーショナル・ソフトウェアからのクローンマネージャ7プログラム(Sci.Ed.Central:バージョン7.02)を使用して、改変コード配列中の二次構造を可能な有害二次構造の出現についてチェックした。
[3.5 実施例3.2および3.3で述べられているコード配列によってコードされる、A.ニガー(niger)α−アミラーゼAmyBを発現するための改変amyB発現ベクターの構築]
amyBプロモーターと、改変翻訳開始配列および改変翻訳停止配列がある野生型amyB cDNA配列とを含んでなる、pGBFINFUA−1のXhoI−PacI断片のDNA配列(図21)を配列番号4として示す。実施例1.2で述べられているように、α−アミラーゼをコードするamyB遺伝子のために、コドン最適化されたコード配列と組み合わさった、α−アミラーゼプロモーターの翻訳開始配列の変異体を含んでなるDNA配列を配列番号7として示す。実施例3.3で述べられているように、α−アミラーゼをコードするamyB遺伝子のために、本発明の組み合わせた単一コドンおよびコドンペア法に従って最適化されたコード配列と組み合わさった、α−アミラーゼプロモーターの翻訳開始配列の変異体を含んでなるDNA配列を配列番号8として示す。
発現ベクター中でこれらの改変配列変異体をクローニングするために、2つの合成遺伝子断片をXhoIおよびPacIで消化して、XhoIおよびPacI消化pGBFINFUA−1ベクターのより大きな断片中に導入し(図21)、変異体発現ベクターを作り出した。正しい断片の組み込みをチェックした後に、表3.3で下述するように、変異体発現コンストラクトをpGBFINFUA−2およびpGBFINFUA−3と命名した。
プラスミドpGBFINFUA−1〜pGBFINFUA−3のamyBコード配列の翻訳配列は、野生型A.ニガー(niger)α−アミラーゼ酵素を表す、配列番号3で示されるアミノ酸配列に従う。
[3.6 A.ニガー(niger)α−アミラーゼの改変pGBFINFUA−発現コンストラクトのA.ニガー(niger)中での発現]
上述のように調製したpGBFINFUA−1、−2、および−3発現コンストラクトを下述するように形質転換によって図22に示すストラテジーに従って、A.ニガー(niger)に導入した。
pGBFINFUA−1、−2、および−3ベクターの3つ(表3.3)をWT 4に導入するために、国際公開第98/46772号パンフレットおよび国際公開第99/32617号パンフレットで述べられているように、形質転換と続く形質転換体選択を実施した。手短に述べると、pGBFINFUA−コンストラクトの線状DNAを単離して使用し、A.ニガー(niger)を形質転換した。アセトアミド培地上で形質転換体を選択して、標準操作手順に従ってコロニーを純化した。PCRを使用して、コロニーをglaA遺伝子座における組み込み、およびコピー数ついて診断した。同様の推定コピー数(低コピー:1〜3)があるpGBFINFUA−1、−2、および−3コンストラクトそれぞれの独立した10個の形質転換体を選択し、例えばそれぞれFUA−1−1(第1のpGBFINFUA−1形質転換体のため)およびFUA−3−1(第1のpGBFINFUA−3形質転換体のため)などの形質転換プラスミド名を使って番号付けした。
選択されたFUA株およびA.ニガー(niger)WT 4を使用して、100mlの培地中で上述のような条件下における振盪フラスコ実験を実施した。3および4日間の発酵後に、サンプルを採取した。
3つの異なるA.ニガー(niger)FUA−形質転換体の全てで、α−アミラーゼ酵素の生成を測定した。図23から分かるように、本発明の方法に従ったコード配列の最適化は、単一コドン最適化と称される試験されたその他の方法と比較して、AmyB発現に対してより高い改善を示す。これらの数値は下の表3.4に要約される。
これらの結果は、発現コンストラクトおよび宿主が既に、例えば強力プロモーター、改善された翻訳開始配列、改善された翻訳停止配列、最適単一コドン使用頻度および/またはタンパク質発現のための改善された宿主などのいくつかのその他の最適化を有していても、本発明の方法を適用して宿主内のタンパク質発現を改善できることを明らかに示唆する。
[4.実施例4:バシラス(Bacillus)種:枯草菌(Bacillus subtilis)およびバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)中での3つの異種の酵素の発現のための改善されたDNA配列のデザイン]
[4.1.序文]
実施例4は、双方のバシラス(Bacillus)種、より具体的にはこの実施例の枯草菌(Bacillus subtilis)およびバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)中の異種タンパク質の(改善された)発現のための、この特許で述べられている本発明の方法の実験デザインおよび適用について述べている。好ましい発現宿主は、バシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)である。
枯草菌(Bacillus subtilis)ゲノムは、1997年に公開され、その他のバシラス(Bacillus)種が続いた(Kunst,F.ら、1997年「グラム陽性細菌枯草菌(Bacillus subtilis)の完全なゲノム配列(The complete genome sequence of the Gram−positive bacterium Bacillus subtilis)」Nature 390:249〜56頁;Rey,M.W.ら(2004年)「工業細菌バシラス・リケニフォルミス(Bacillus licheniformis)の完全なゲノム配列および近縁関係にあるバシラス(Bacillus)種との比較(Complete genome sequence of the industrial bacterium Bacillus licheniformis and comparisons with closely related Bacillus species)」Genome Biology 5:R77;Rasko D.A.ら(2005年)「バシラス・セレアス(Bacillus cereus)生物グループのゲノミクス(Genomics of the Bacillus cereus group of organisms)」FEMS Microbiology Reviews 29:303〜329頁)。
この例では、単一コドン頻度およびコドンペア重みを計算するための基準として枯草菌(B.subtilis)の全配列を選択した。GC含量およびtRNAの比較は、言及されるバシラス(Bacillus)種に対する同様の図式を提供した(上記参照)。これは、その他の近縁バシラス(Bacillus)種に同一統計が適用できることの示唆である。さらに実施例1(図4もまた参照されたい)から、近縁種が同様のコドンペア頻度を示すことが既に明らかであった。
図4(実施例1もまた参照されたい)では、枯草菌(B.subtilis)対B.アミロリケファシエンス(amyloliquefaciens)の全ゲノム統計に基づくコドンペア比較プロットを見ることができる。双方のデータセット間に良好な相関が観察される。さらにB.アミロリケファシエンス(amyloliquefaciens)中で良く受けいられる一方、枯草菌(B.subtilis)に対して高度に負の値を有するコドンペア組み合わせの下位グループがある(逆は観察されない)ので、B.アミロリケファシエンス(amyloliquefaciens)の方がより用途が広いようである。
[4.2.実験デザイン]
枯草菌(Bacillus subtilis)およびバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)双方の中での発現のために3つのタンパク質配列を選択した。
タンパク質1:バシラス・ステアロサーモフィラス(Bacillus stearothermophilus)からのキシロース(グルコース)イソメラーゼxylA(EC.5.3.1.5)
タンパク質2:ストレプトミセス・オリボクロモゲネス(Streptomyces olivochromogenes)からのキシロース(グルコース)イソメラーゼxylA(EC.5.3.1.5)
タンパク質3:サーモアナエロバクター・マトラニイ(Thermoanaerobacter mathranii)からのL−アラビノースイソメラーゼ(EC5.3.1.4)
表4.1は、上述の3つの遺伝子に適用された方法の概要を提供する。タンパク質1、タンパク質2、およびタンパク質3では、以前開発された単一コドン最適化に加えて、本発明の方法のコドンペア最適化を適用した。
対照として、タンパク質2に2つの追加的コンストラクトを含めることで、単一コドン最適化および負のコドンペア最適化の効果を実験的に試験した。不良コドンペアに向けて「最適化される」(すなわち負のコドンペア最適化)1つの変異体(配列番号18)、および単一コドン最適化のみがある第2の変異体(配列番号17)をデザインする。ストレプトミセス(Streptomyces)種は高度に異なるコドンペアバイアスを示すことから、タンパク質2を選択した。実施例1および図4を参照されたい。
全てのデザインされたB.アミロリケファシエンス(amyloliquefaciens)遺伝子は、NdeI(CATATG)およびBamHI(GGATTC)制限部位の出現を避けた。さらにそれらはクローニングベクターpBHA12の大腸菌(E.coli)部分を除去するための単一制限部位を含有した。
[4.3.単一コドン最適化]
単一コドン最適化のために、実施例3.3で述べられている方法を使用して、タンパク質1およびタンパク質2のために単一コドン最適化された変異体をデザインし、それぞれ配列番号16および配列番号17をもたらした。適用した単一コドン分布表(表4.2)は、6つの独立した発酵時間シリーズを使用した枯草菌(B.subtilis)168のための24個のAffymetrix GeneChipによる判定で、50個の最も高度に発現される遺伝子を使用して、判定した。全てのGeneChipは、それらの算術平均について正規化した。株操作において故意に過剰発現され、したがってそれらの測定される発現レベルがそれらのコドン使用頻度に相関できない遺伝子は、発現一覧から除いた。
単一コドン分布表4.2の判定は、50、100、200、400個の最高に発現される配列の、および全枯草菌(B.subtilis)配列のコドン頻度ヒストグラムの目視検査によって行った。最も高度に発現される遺伝子について0%または100%どちらかに向かう明らかな傾向がある場合、それぞれ0%および100%を割り当てた。割り当てのないその他のコドンでは、割り当てのあるコドンを除外して、平均使用頻度を計算し同義コドンのセットについて正規化した。得られた標的単一コドン頻度を表4.2の縦列3に示す。
[4.4.コドンペア最適化]
本発明の方法に従ってコドンペア最適化を実施した。最適化されたコーディングヌクレオチド配列である配列番号13〜15は、述べられているソフトウェア法を用いた操作の結果である。適用パラメーターは、次のとおりである:母集団サイズ=200;反復回数=1000;cpi=0.20、CPWマトリックス=「表C.4.CPW:枯草菌(Bacillus subtilis)−高度に発現される配列」、およびCRマトリックス=「表B.1の縦列5:CR表BAS:枯草菌(Bacillus subtilis)−高度に発現される配列」(表4.2にもある)、および表4.2中にあるような「考慮外(don’t care)」要素。さらにNdeI(CATATG)およびBamHI(GGATTC)制限部位の各出現について+1のペナルティ値がfitcombiに加算される。
最適化されたコーディングヌクレオチド配列である配列番号18は、述べられているソフトウェア法を用いた操作の結果である。適用パラメーターは、次のとおりである:母集団サイズ=200;反復回数=1000;cpi=0.20、CPWマトリックス=−1を乗じた「表C.4.CPW:枯草菌(Bacillus subtilis)−高度に発現される配列」(不良コドンペアに向けたコドンペア最適化を得るため)、およびCRマトリックス=「表B.1の縦列5:CR表BAS:枯草菌(Bacillus subtilis)−高度に発現される配列」(表4.2にもある)、および表4.2中にあるような「考慮外(don’t care)」要素。さらにNdeI(CATATG)およびBamHI(GGATTC)制限部位の各出現について+1のペナルティ値がfitcombiに加算される。
表4.2中の「考慮外(don’t care)」要素は、コドンバイアスを示さないコドンのために選択される。これは単一コドンバイアスグラフの目視検査によって行った。4.3を参照されたい。このような要素の使用は、最適化のコドンペア部分に追加的な自由度を提供する。
全ての最適化は、fitcombiの最小値に向けて収束する。配列番号13〜15および配列番号18について得られた目標値を、配列番号11、配列番号16および配列番号17について得られたものと共に表4.2に提供する。そのデータから、単一コドン統計は、配列番号14および配列番号15と比較して、配列番号16および配列番号17について類似性が高いことが明らかである。しかし本発明の方法は、関連する負の重みがある改善されたコドンペア数がある遺伝子をもたらし、それらに付随するより負の重みを有するコドンペアのより最適な使用が示唆される。表4.3を参照されたい。
fitcpの最大化を使用した「最適化」は、関連する正の重みがあるコドンペア数増大がある遺伝子をもたらし、それらに付随するより正の重みを有するコドンペアの使用増大を示唆し、したがって翻訳特徴に対する悪影響が予期される。配列番号18では(wcp(g)≦0)が24%であるのに対して、配列番号14では85%であり、fitcpもまた1.20から−1.43に増大する。
[5.実施例5:枯草菌(Bacillus subtilis)およびバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)中での3つの異種酵素発現のための本発明の方法の試験]
[5.1 序文]
実施例5は、枯草菌(Bacillus subtilis)およびバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)の双方の宿主細胞中での、3つの異種遺伝子の配列変異体による発現実験と結果について述べている。変異体は実施例4で述べられているように、本発明の方法に従って作られる。
[5.2 材料と方法]
[5.2.1 バシラス(Bacillus)増殖培地]
TY(perL):トリプトンペプトン16g、酵母抽出物ディフコ(Difco)10g、NaCl 5g。
[5.2.2 枯草菌(B.subtilis)の形質転換]
[培地]
2×Spizizen培地:28g KHPO;12g KHPO;4g (NHSO;2.3g Na−シトレート・2HO;0.4g MgSO・7HO;HOで900mlにして4NNaOHでpH7.0〜7.4に調節し、HOを添加して1リットルにする。
120℃で20分間オートクレーブ。
1×Spizizenプラス培地:50mlの2×Spizizen培地に50ml milliQ;1ml 50%グルコース、および100μlカザミノ酸(最終濃度20μg/ml)を添加する。
非選択的2×TY寒天プレートからの単一バシラス(Bacillus)コロニー(または極低温容器からのアリコート)を100ml振盪フラスコ内の10mlの2×TYブロスに接種した。細胞を37℃および±250rpmで恒温振盪機内で一晩生育させた。ODを600nmで測定して、OD600≒0.1.になるまで培養を1×Spizizenプラス培地で希釈した。培養OD600が0.4〜0.6になるまで、細胞を37℃および250〜300rpmで生育させた。培養を0.5%グルコースを添加した1×Spizizen培地(飢餓培地)で1:1に希釈して、それを37℃および250〜300rpmで90分間インキュベートした。培養を卓上用遠心分離機内で4500rpmで10分間遠心分離した。上清の90%を除去してペレットを残余容積中に懸濁させた。ユニバーサル(universal)内で、DNA(最大で20μl中に1〜5μg)と0.5mlのコンピテント細胞とを混合し、37℃で1時間、しっかりとした浸透(≒5/6)下で、回転振盪水浴内でインキュベートした。細胞を25−μg/mlカナマイシンを含有する選択的2×TY寒天プレート上に播種して(20〜200μl)、37℃で一晩インキュベートした。
[5.2.3 無細胞抽出物の調製]
1mlの培養から得られたペレットを10mM Thris−HCl(pH7.5)、10mM EDTA、F50mM NaCl、1mg/mlリゾチームおよびプロテアーゼ阻害剤(ロシュ(Roche)からの完全EDTAフリープロテアーゼ阻害剤カクテル)を含有する緩衝液A中に再懸濁した。プロトプラスト化のために、再懸濁したペレットを37℃で30分間インキュベートし、引き続いて次のように超音波処理した。30秒間、振幅10μm(3サイクル)、サイクル間に15秒間冷却。超音波処理後、細胞残骸を遠心分離(4℃で13000rpmで10分間)によって遠沈し、透明な溶解産物をさらなる分析のために使用した。
[5.2.4 バシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)および枯草菌(Bacillus subtilis)中での発現のためのグルコースイソメラーゼおよびL−アラビノースイソメラーゼをコードする遺伝子の選択、および合成遺伝子のデザイン]
選択された3つの酵素は、次のとおりである。
1.バシラス・ステアロサーモフィラス(Bacillus stearothermophilus)キシロースイソメラーゼ(P54272 Swissprot)、タンパク質配列番号9
2.ストレプトミセス・オリボクロモゲネス(Streptomyces olivochromogenes)キシロースイソメラーゼ(P15587 Swissprot)、タンパク質配列番号10
3.サーモアナエロバクター・マトラニイ(Thermoanaerobacter mathranii)L−アラビノースイソメラーゼ(AJ 582623.1 EMBL、および米国特許出願公開第2003/012971A1号明細書)、タンパク質配列番号11、ヌクレオチド配列番号12
上記のように選択された酵素は異なる微生物起源を有する。枯草菌(Bacillus subtilis)またはバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)中でこれらの酵素を過剰産生する目的で、本発明者らはバシラス(Bacillus)種中での発現に適するように、各タンパク質のためのヌクレオチド配列を最適化した。実施例4を参照されたい。
本発明者らは、前述の酵素をコードするヌクレオチド配列を最適化した。配列は配列番号13(バシラス・ステアロサーモフィラス(Bacillus stearothermophilus)グルコース(キシロース)イソメラーゼ)、配列番号14.(ストレプトミセス・オリボクロモゲネス(Streptomyces olivochromogenes)グルコース(キシロース)イソメラーゼ)、配列番号15.(サーモアナエロバクター・マトラニイ(Thermoanaerobacter mathranii)L−アラビノースイソメラーゼ)の下に配列一覧に列挙される。対照として、コドンペア最適化なしの単一コドン最適化がある1つの変異体、配列番号16〜17、および「負のコドンペア最適化」ありの単一コドン最適化がある変異体、配列番号18を作り出した。実施例4および表4.1を参照されたい。
[5.3 大腸菌(E.coli)/バシラス(Bacillus)シャトルベクター中でのグルコースイソメラーゼおよびL−アラビノースイソメラーゼをコードする遺伝子のクローニングおよび桿菌への形質転換]
桿菌中での選択された遺伝子の発現のために、本発明者らはpBHA12大腸菌(E.coli)/バシラス(Bacillus)シャッフルベクター(図26)を使用した。このベクターは本質的に発現ベクターpBHA−1(欧州特許第340878号明細書)に由来し、その中でバシラス・アミロリケファシエンス(Bacillus amyloliquefaciens)のamyQ遺伝子に由来するプロモーターがHpaIIプロモーターを置き換えている。pBHA12プラスミドは、2つの多重クローニング部位を含有する(図26)。全ての選択されたおよび最適化された遺伝子は、米国カリフォルニア州メンロパーク(Menlo Park,CA,U.S.A.)のDNA 2.0によって2つの断片(AおよびB)として合成的に作成された。遺伝子の5’末端に相当するA断片は、amyQプロモーターの後でクローニングした。多重クローニング部位1および2で直接クローニングができるようにするため、特異的制限エンドヌクレアーゼ部位によって双方の断片を延長した(図27参照)。断片Aの3’末端と断片Bの5’末端は、固有制限エンドヌクレアーゼ部位で重なり、それは枯草菌(Bacillus subtilis)(CBS 363.94)の形質転換に先だってベクターの大腸菌(E.coli)部分の切除および戻しライゲーションを可能にした。枯草菌(B.subtilis)のクローニングおよび形質転換手順では、大腸菌(E.coli)を中間宿主として使用した。大腸菌(E.coli)中での発現ベクターのクローニングおよび増殖中に起こり得る問題を避けるために、pBHA12中の二段階クローニングアプローチを選択した。表5.1では、断片AおよびBに付加された制限酵素認識部位が列挙され、ならびに戻しライゲーションを可能にし、ひいては完全な機能性遺伝子が再構築できるようにする固有制限部位も列挙される。A断片の全ての5’末端はNdeI部位(認識配列CATATG)を含有し、それらのそれぞれの開始コドン(ATG)で正確に開始する断片として、遺伝子クローニングを可能にする。
5つの遺伝子のAおよびB断片は、標準分子生物学的方法(SambrookおよびRussell「分子クローニング:実験室マニュアル(Molecular Cloning: A Laboratory Manual)」第3版、CSHL Press、Cold Spring Harbor,NY,2001年;およびAusubelら「最新分子生物学プロトコール(Current Protocols in Molecular Biology)」Wiley InterScience,NY,1995年)を使用して、図27で配列番号13について示すように、それぞれMCS1および2の2段階でクローニングした。形質転換は、インビトロジェンからの大腸菌(E.coli)TOP10中で、または後のステップでメチル化感応性制限エンドヌクレアーゼを使用する場合は、インビトロジェンからのINV110中で実施した。それぞれMacherey−Nagelおよびシグマ(Sigma)からのミニまたはミディプラスミド単離キットを使用して、発現コンストラクト毎に、いくつかの大腸菌(E.coli)アンピシリン抵抗性形質転換体を単離した。制限分析によって、pBHA12ベクター中の対応するAおよびB断片の正しいライゲーションを確認した。次のステップで遺伝子AおよびBの断片を含有したpBHA12プラスミドを固有の制限エンドヌクレアーゼ(表5.1参照)で消化して、ベクターの大腸菌(E.coli)部分を切除した。Macherey−Nagelからのゲル抽出キットを使用して、分断遺伝子を含有したベクターのバシラス(Bacillus)部分をアガロースゲルから単離して、戻しライゲートした。コンピテント細胞形質転換によって、ライゲーション混合物を枯草菌(B.subtilis)CBS363.94株に形質転換した。それぞれMacherey−Nagelおよびシグマからのミニまたはミディプラスミド単離キットを使用して、発現コンストラクト毎に、いくつかの枯草菌(B.subtilis)カナマイシン抵抗性形質転換体を単離した。大腸菌(E.coli)部分の切除、およびpBHA12ベクターのバシラス(Bacillus)部分の戻しライゲーション後に、制限分析によって、発現コンストラクトを正しいパターンについてチェックした。無細胞抽出物の分析のため、コンストラクト毎に3つの枯草菌(B.subtilis)形質転換体を選択した。
[5.4 桿菌中の過剰産生酵素の検出]
各コンストラクト毎に、3つの枯草菌(B.subtilis)形質転換体および3つのB.アミロリケファシエンス(amyloliquefaciens)形質転換体を使用して、対応するタンパク質−グルコースまたはL−アラビノースイソメラーゼの存在について無細胞抽出物を分析した。2×TY発酵培地を使用して株を生育させた。サンプル(1ml)を(振盪フラスコ内)発酵24時間で採取して、抽出緩衝液中のプロテアーゼ阻害剤を含む無細胞抽出物を調製した。インビトロジェンからのSDS−PAGE上で、13μlの無細胞抽出物を分析した。いくつかの形質転換体では、過剰発現タンパク質の期待Mwに対応する明確なバンドが検出された。バンドの視覚的比較を表5.2に提供する。本発明の方法が、コドンペア法の使用によって、バシラス・ステアロサーモフィラス(Bacillus stearothermophilus)キシロースイソメラーゼ、ストレプトミセス・オリボクロモゲネス(Streptomyces olivochromogenes)キシロースイソメラーゼおよびサーモアナエロバクター・マトラニイ(Thermoanaerobacter mathranii)L−アラビノースイソメラーゼについてタンパク質生成を改善することは明らかであり、すなわちこれはWT参照遺伝子または単一コドン最適化された変異体のどちらと比較しても改善されたタンパク質生成をもたらす。さらに単一コドン最適化と共に負のコドンペア最適化が適用される場合、生成物は検出されなかった。

REFERENCES
Boycheva, S., Chkodrov, G. & Ivanov, I. (2003). Codon pairs in the genome of Escherichia coli. Bioinformatics 19(8):987−998
Gurvich, O.L., Baranov, P.V., Gesteland, R.F., Atkins, J.F. (2005). Expression levels influence ribosomal frameshifting at the tandem rare arginine codons AGG_AGG and AGA_AGA. J. Bacteriol. 187:4023−4032.
Gustafsson, C., Govindarajan, S. & Minshull, J. (2004). Codon bias and heterologous protein expression. Trends Biotechnol. 22(7):346−353
Gutman, G.A. & Hatfield, G.W. (1989). Nonrandom utilization of codon pairs in Escherichia coli. PNAS 86:3699−3703
Gygi, S.P., Rochon, Y., Franza, B.R., & Aebersold, R. (1999). Correlation between protein and mRNA abundance in Yeast. Mol. Cel. Biol. 19(3):1720−30
Hatfield, G.W. & Gutman, G.A. (1992). Codon pair utilization. United States Patent No 5,082,767
Irwin, B., Heck, D. & Hatfield, G.W. (1995). Codon pair utilization biases influence translational elongation step times. J Biol Chem 270:22801−22806
Karlin et al. (2001). Characterization of highly expressed genes of four fast−growing bacteria. J. of Bacteriology 183(17):5025−39.
Kunst, F. et al. (1997). The complete genome sequence of the Gram−positive bacterium Bacillus subtilis. Nature 390:249−256
Lithwick, G. & Margalit, H. (2003). Hierarchy of sequence−dependent features associated with prokaryotic translation. Genome Res. 13(12): 2665−73.
Makrides, S.C. (1996). Strategies for achieving high−level expression of genes in Escherichia coli. Microbiol. Rev. 60:512−538
Moura, G. et al. (2005). Comparative context analysis of codon pairs on an ORFeome scale. Genome Biology 2005, 6:R28
Nevalainen, K.M.H., Te'o, V.S.J. & Bergquist, P.L. (2005). Heterologous protein expression in filamentous fungi. Trends Biotechnol. 2005 23(9):468−474
Pel, H.J., et al. (2007).Genome sequencing and analysis of the versatile cell factory Aspergillus niger CBS513.88. Nat Biotech. 2007 25(2): 221−231
Punt, P.J., van Biezen, N., Conesa, A., Albers, A., Mangnus, J. & van den Hondel, C. (2005). Filamentous fungi as cell factories for heterologous protein production. Trends Biotechnol. 20(5):200−206
Rocha, E.P.C., A. Danchin and A. Viari (1999). Translation in Bacillus subtilis: roles and trends of initiation and termination, insights from a genome analysis. NAR, 27(17):3567−76.Boycheva, S., Chkodrov, G. & Ivanov, I. (2003). Codon pairs in the genome of Escherichia coli. Bioinformatics 19(8):987−998
Schwartz, S. & Curran, J.F. (1997). Analyses of frameshifting at UUU−pyrimidine sites. NAR 25(10):2005−2011
Spanjaard, R.A. & van Duin, J. (1988). Translation of the sequence AGG−AGG yields 50% ribosomal frameshift. PNAS 85:7967−7971
[付録1:シンボルおよび式一覧]
単一コドン:

同一アミノ酸をコードするコドン:
syn(c
コドンcの出現数:
sc(c
コドンcの比率(そのシノニムと比較した):

コドンペア:
(c,c
コドンペア出現数(観察された数):
obs((c,c))
このコドンペアの期待数:

対応する標準偏差:

対応する標準得点(z−スコア):

コドンペアのためのバイアス係数:

合わせた「期待」値(重みのための):

コドンペア重み−方法 1配列グループ(またはゲノム):

コドンペア重み−方法 参照グループ(またはゲノム)を伴う高度に発現されるグループ:
[付録2:CRベクター]
表B.1:縦列中の次の生物のためのCRマトリックス値:(1)AN:A.ニガー(niger)全ゲノム−方法:統計学的分布、(2)ANS:A.ニガー(niger)250個の高度に発現される遺伝子−方法:目視検査、(3)AN_d:A.ニガー(niger)care−don’t care(0−1)ベクター、(4)BS:枯草菌(B.subtilis)全ゲノム−方法:統計学的分布、(5)BSS:枯草菌(B.subtilis)50個の高度に発現される遺伝子−方法:目視検査、(6)BS_d:枯草菌(B.subtilis)care−don’t care(0−1)ベクター、(7)EC:大腸菌(E.coli)全ゲノム4298個の配列−方法:統計学的分布、(8)ECS大腸菌(E.coli)Carboneら(2003年)からの100個の配列の高度に発現されるグループ−方法:目視検査、(9)EC_d:大腸菌(E.coli)care−don’t care(0−1)ベクター、(10)BA:B.アミロリケファシエンス(amyloliquefaciens)全ゲノム−方法:統計学的分布、(11)BAS:B.アミロリケファシエンス(amyloliquefaciens)50個の高度に発現される遺伝子−方法:目視検査、(12)BS_d:B.アミロリケファシエンス(amyloliquefaciens)care−don’t care(0−1)ベクター、(13)SC:S.セレヴィシエ(cerevisiae)全ゲノム−方法:統計学的分布、(14)SCS:S.セレヴィシエ(cerevisiae)200個の高度に発現される遺伝子−方法:目視検査、(15)SC_d:S.セレヴィシエ(cerevisiae)care−don’t care(0−1)ベクター、(16)SCO:S.コエリカラー(coelicolor)A3(2)全ゲノム−方法:統計学的分布。
注記:真菌微生物、より具体的にはP.クリソゲヌム(chrysogenum)、コウジカビ(A.oryzae)、A.テレウス(terreus)、A.ニデュランス(nidulans)、A.フミガーツス(fumigatus)、T.リーセイ(reesei)、N.フィシェリ(fischeri)では、A.ニガー(niger)配列を使用して生成されたCRベクターを適用し、酵母一般、より具体的には、K.ラクチス(lactis)およびS.ポンベ(pombe)では、S.セレヴィシエ(cerevisiae)配列を使用して生成されたCRベクターを適用し、ストレプトミセス(Streptomyces)種では、S.コエリカラー(coelicolor)A3(2)を使用して生成されたCRベクターを適用した。
[付録3:CPWマトリックス]

Claims (23)

  1. a)所定のアミノ酸配列をコードする少なくとも1つのオリジナルコード配列を作り出すステップと、
    b)この少なくとも1つのオリジナルコード配列中で、1つ以上のコドンを同義コドンによって置換することによって、この少なくとも1つのオリジナルコード配列から少なくとも1つの新たに作り出されたコード配列を作り出すステップと、
    c)所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも1つを判定する適合関数を使用して、前記少なくとも1つのオリジナルコード配列の適合値および前記少なくとも1つの新たに作り出されたコード配列の適合値を判定するステップと、
    d)前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも1つのオリジナルコード配列および前記少なくとも1つの新たに作り出されたコード配列中で、1つ以上の選択されるコード配列を選択するステップと、
    e)操作b)からd)において、前記1つ以上の選択されたコード配列を1つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作b)からd)を繰り返すステップと
    を含んでなる、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチドコード配列を最適化する方法。
  2. 前記所定の選択基準が、前記1つ以上の選択されるコード配列が所定の基準に従って最良適合値を有するような基準である、請求項1に記載の方法。
  3. 操作e)の後に、
    f)前記1つ以上の選択されるコード配列中で最良の個々のコード配列を選択するステップを含んでなり、前記最良の個々のコード配列がその他の選択されたコード配列よりも良い適合値を有する、請求項1または2に記載の方法。
  4. 前記所定の反復停止基準が、
    (a)前記選択されたコード配列の少なくとも1つが所定の閾値を超える最良適合値を有するかどうかの試験、
    (b)前記選択されたコード配列がいずれも前記所定の閾値未満の最良適合値を有さないかどうかの試験、
    (c)前記選択されたコード配列の少なくとも1つが、前記オリジナルコード配列中で所定の宿主細胞について関連する正のコドンペア重みがあるコドンペアの少なくとも30%を関連する負の重みがあるコドンペアに転換するかどうかの試験、
    (d)前記選択されたコード配列の少なくとも1つが、前記オリジナルコード配列中で所定の宿主細胞について0を超える関連する正の重みがあるコドンペアの少なくとも30%を0未満の関連する重みがあるコドンペアに転換するかどうかの試験
    の少なくとも1つである、請求項1〜3のいずれか一項に記載の方法。
  5. 前記適合関数が、

    (式中、
    gはコード配列、|g|はその長さ、g(k)はそのk番目のコドンを表し、

    はコドンc(k)の所望の比率であり、

    はヌクレオチドコード配列g中の実際の比率である)によって単一コドン適合を定義する、請求項1〜4のいずれか一項に記載の方法。
  6. 前記適合関数が、

    (式中、
    w((c(k)、c(k+1))はコード配列g中のコドンペア重みであり、|g|は前記ヌクレオチドコード配列の長さであり、c(k)は前記コード配列中のk番目のコドンである)によってコドンペア適合を定義する、請求項1〜4のいずれか一項に記載の方法。
  7. 前記適合関数が、

    (式中、

    であり、cpiは0を超える実数であり、fitcp(g)はコドンペア適合関数であり、fitsc(g)は単一コドン適合関数であり、w((c(k)、c(k+1))はコード配列g中のコドンペアの重みであり、|g|は前記コード配列の長さであり、c(k)は前記コドン配列中のk番目のコドンであり、

    は、コドンc(k)の所望の比率であり、

    はコード配列g中の実際の比率である)によって定義される、請求項1〜4のいずれか一項に記載の方法。
  8. cpiが10−4〜0.5の間である、請求項7に記載の方法。
  9. 前記コドンペア重みwが、停止コドンなしの61×61コドンペアマトリックス、または停止コドンを含めた61×64コドンペアマトリックスから測定され、前記コドンペア重みwが、
    (a)所定の宿主の少なくとも200個のコード配列からなる一群のヌクレオチド配列、
    (b)所定の宿主が属する種の少なくとも200個のコード配列からなる一群のヌクレオチド配列、
    (c)所定の宿主のゲノム配列中のタンパク質をコードするヌクレオチド配列の少なくとも5%からなる一群のヌクレオチド配列、
    (d)所定の宿主の近縁の属のゲノム配列中のタンパク質をコードするヌクレオチド配列の少なくとも5%からなる一群のヌクレオチド配列
    の少なくとも1つをインプットとして使用して、コンピューターベースの方法に基づいて計算される、請求項6〜8のいずれか一項に記載の方法。
  10. 前記コドンペア重みwが、停止コドンとしての終結シグナルを含めた可能な61×64コドンペアの少なくとも5%、10%、20%、50%、好ましくは100%について判定される、請求項9に記載の方法。
  11. 前記コドンペア重みwが、停止コドンなしの61×61コドンペアマトリックス、または停止コドンを含めた61×64コドンペアマトリックスから測定され、
    前記コドンペア重みwが、

    によって定義され、総合期待値

    が、

    によって定義され、

    は全ゲノムデータセット中の単一コドン比率cを示し、

    はそのmRNAが少なくとも細胞あたり20コピーのレベルで検出できる遺伝子である高度に発現される群中のペアの出現率(c,c)を示す、請求項6〜8のいずれか一項に記載の方法。
  12. 所定のアミノ酸配列をコードする前記オリジナルのコーディングヌクレオチド配列が、
    (a)前記所定のアミノ酸配列をコードする野生型ヌクレオチド配列、
    (b)それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、アミノ酸をコードする同義コドンから無作為に選択される、所定のアミノ酸配列の逆翻訳、
    (c)それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、所定の宿主細胞または宿主細胞の近縁種の単一コドンバイアスに従って選択される、所定のアミノ酸配列の逆翻訳
    から選択される、請求項1〜11のいずれか一項に記載の方法。
  13. 前記所定の宿主細胞が、微生物、好ましくはバシラス(Bacillus)、放線菌(Actinomycetes)、エシェリキア(Escherichia)、ストレプトミセス(Streptomyces)、アスペルギルス(Aspergillus)、ペニシリウム(Penicillium)、クリヴェロミセス(Kluyveromyces)、サッカロミセス(Saccharomyces)から選択される属の微生物の細胞である、請求項1〜12のいずれか一項に記載の方法。
  14. 前記所定の宿主細胞が、動物または植物細胞、好ましくはCHO、BHK、NS0、COS、Vero、PER.C6(商標)、HEK−293、ショウジョウバエ(Drosophila)S2、スポドプテラ(Spodoptera)Sf9、およびスポドプテラ(Spodoptera)Sf21から選択される細胞系の細胞である、請求項1〜12のいずれか一項に記載の方法。
  15. プロセッサーがメモリーから読み取ってメモリーに書き込むように構成され、前記メモリーが前記プロセッサーに請求項1〜14のいずれか一項に記載の方法を遂行する能力を提供するように構成されたデータおよび命令を含んでなる、プロセッサーおよびメモリーを含んでなるコンピューター。
  16. プロセッサーもまた含んでなるコンピューターのメモリー内にロードされるように構成された、データおよび命令を含んでなるコンピュータープログラム製品であって、前記プロセッサーが前記メモリーから読み取って前記メモリーに書き込むように構成され、前記データおよび命令が請求項1〜14のいずれか一項に記載の方法を遂行する能力を前記プロセッサーに提供するように構成された、コンピュータープログラム製品。
  17. 請求項16に記載のコンピュータープログラム製品を備えたデータ媒体。
  18. 所定のアミノ酸配列をコードするコード配列を含んでなり、コード配列が天然コード配列でなく、コード配列が所定の宿主細胞について少なくとも−0.1未満、好ましくは−0.2未満、より好ましくは−0.3未満のfitcp(g)を有する、核酸分子。
  19. 所定のアミノ酸配列をコードするコード配列を含んでなり、コード配列が天然コード配列でなく、コード配列が所定の宿主細胞について少なくとも−0.1未満、好ましくは−0.2未満のfitcp(g)を有し、所定の宿主細胞について少なくとも0.1未満のfitsci(g)を有する、核酸分子。
  20. コード配列が、所定の宿主細胞内でコード配列の発現を指示できる発現制御配列と作動的に連結する、請求項18または19に記載の核酸分子。
  21. 請求項20に記載の核酸分子を含んでなる宿主細胞。
  22. 請求項21に記載の宿主細胞をポリペプチド発現に寄与する条件下で培養するステップと、場合によりポリペプチドを回収するステップを含んでなる、所定のアミノ酸配列を有するポリペプチドを生成する方法。
  23. 請求項21に記載の宿主細胞を代謝産物の生成に寄与する条件下で培養するステップを含んでなり、それによって好ましくは所定のアミノ酸配列を有するポリペプチドが代謝産物の生成に関与する、細胞内および細胞外代謝産物の少なくとも1つを生成する方法。
JP2009517099A 2006-06-29 2007-06-15 改善されたポリペプチド発現を達成する方法 Expired - Fee Related JP5250850B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06076328 2006-06-29
EP06076328.1 2006-06-29
PCT/EP2007/055943 WO2008000632A1 (en) 2006-06-29 2007-06-15 A method for achieving improved polypeptide expression

Publications (2)

Publication Number Publication Date
JP2009540845A true JP2009540845A (ja) 2009-11-26
JP5250850B2 JP5250850B2 (ja) 2013-07-31

Family

ID=37199000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009517099A Expired - Fee Related JP5250850B2 (ja) 2006-06-29 2007-06-15 改善されたポリペプチド発現を達成する方法

Country Status (12)

Country Link
US (2) US8812247B2 (ja)
EP (2) EP2035561A1 (ja)
JP (1) JP5250850B2 (ja)
CN (1) CN101490262B (ja)
AU (1) AU2007263880A1 (ja)
BR (1) BRPI0713795B1 (ja)
CA (1) CA2657975A1 (ja)
DK (1) DK2423315T3 (ja)
EA (1) EA015925B1 (ja)
ES (1) ES2534282T3 (ja)
PL (1) PL2423315T3 (ja)
WO (1) WO2008000632A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011130677A (ja) * 2009-12-22 2011-07-07 National Institute Of Advanced Industrial Science & Technology 発現予測装置および発現予測方法
JP2020534794A (ja) * 2017-07-25 2020-12-03 ナンジンジンスールイ サイエンス アンド テクノロジー バイオロジー コーポレイションNanjingjinsirui Science & Technology Biology Corp. 免疫アルゴリズムに基づくコドン最適化方法

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10260805A1 (de) * 2002-12-23 2004-07-22 Geneart Gmbh Verfahren und Vorrichtung zum Optimieren einer Nucleotidsequenz zur Expression eines Proteins
WO2008019036A2 (en) * 2006-08-04 2008-02-14 Pharmathene Inc. Long half-life recombinant butyrylcholinesterase
EA018840B1 (ru) 2007-02-15 2013-11-29 ДСМ АйПи АССЕТС Б.В. Рекомбинантная клетка-хозяин для получения соединения, представляющего интерес
WO2009005564A2 (en) * 2007-06-29 2009-01-08 The Regents Of The University Of California Cellulose- and hemicellulose-degradation enzyme -encoding nucleotide sequences with refined translational kinetics and methods of making same
WO2009030254A1 (en) * 2007-09-04 2009-03-12 Curevac Gmbh Complexes of rna and cationic peptides for transfection and for immunostimulation
BRPI0819275B8 (pt) 2007-11-20 2022-07-19 Dsm Ip Assets Bv Célula eucariótica recombinante produtora de ácido succínico e processo para a preparação de ácido succínico
WO2009065777A1 (en) 2007-11-20 2009-05-28 Dsm Ip Assets B.V. Dicarboxylic acid production in a filamentous fungus
CN102016053A (zh) * 2008-02-15 2011-04-13 帝斯曼知识产权资产管理有限公司 生产二羧酸的方法
AU2009221104B2 (en) 2008-03-07 2014-07-31 Dsm Ip Assets B.V. A pentose sugar fermenting cell
WO2009109634A1 (en) * 2008-03-07 2009-09-11 Dsm Ip Assets B.V. A pentose sugar fermenting cell
TWI787575B (zh) 2008-03-11 2022-12-21 美商吉諾瑪蒂卡股份有限公司 由α-酮庚二酸製備6-胺己酸之技術
EP2252698B1 (en) 2008-03-11 2017-11-22 Genomatica, Inc. Adipate ester or thioester synthesis
EP2123767A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of epsilon-caprolactam via lysine cyclisation
EP2123768A1 (en) 2008-05-20 2009-11-25 DSM IP Assets B.V. Preparation of (Z)-6,7-dihydro-1H-azepin-2(5H)-one
EA018463B1 (ru) 2008-07-08 2013-08-30 ДСМ АйПи АССЕТС Б.В. ПОЛУЧЕНИЕ ДИКАРБОНОВЫХ КИСЛОТ ПРИ НИЗКИХ pH
WO2010102982A1 (en) 2009-03-10 2010-09-16 Dsm Ip Assets B.V. Method for improving the yield of a polypeptide
DK2406372T3 (da) 2009-03-10 2017-11-27 Dsm Ip Assets Bv Prægastrisk esterase og derivater deraf
EA201101311A1 (ru) 2009-03-11 2012-04-30 ДСМ АйПи АССЕТС Б.В. Получение альфа-кетопимелиновой кислоты
US9353387B2 (en) 2009-04-15 2016-05-31 Dsm Ip Assets B.V. Dicarboxylic acid production process
AU2010241099A1 (en) 2009-04-22 2011-10-27 Dsm Ip Assets B.V. Process for the production of a recombinant polypeptide of interest
UA108853C2 (uk) 2009-07-10 2015-06-25 Спосіб ферментації галактози
EP2456872B1 (en) 2009-07-22 2017-08-30 DSM IP Assets B.V. Improved host cell for the production of a compound of interest
JP5776907B2 (ja) 2009-07-24 2015-09-09 ディーエスエム アイピー アセッツ ビー.ブイ. N−アシル保護またはn−グアニジル保護1,4−ブタンジアミン前駆体を介する1,4−ブタンジアミンの調製方法
EP2470667B1 (en) 2009-08-27 2017-11-15 DSM IP Assets B.V. Dicarboxylic acid fermentation process
CN102549150A (zh) 2009-09-03 2012-07-04 帝斯曼知识产权资产管理有限公司 作为ssl替代品的烘焙酶组合物
WO2011064151A1 (en) 2009-11-24 2011-06-03 Dsm Ip Assets B.V. Process for the crystallization of succinic acid
EP2336310A1 (en) 2009-12-16 2011-06-22 Isobionics B.V. Valencene synthase
WO2011084145A2 (en) 2009-12-21 2011-07-14 Pharmathene, Inc. Recombinant butyrylcholinesterases and truncates thereof
WO2011100369A2 (en) * 2010-02-09 2011-08-18 The Trustees Of Columbia University In The City Of New York Methods for altering polypeptide expression and solubility
WO2011157717A1 (en) 2010-06-14 2011-12-22 Dsm Fine Chemicals Austria Nfg. Gmbh & Co Kg Novel polypeptides having nad(p)h oxidase activity and the use thereof
CA2803222A1 (en) 2010-07-01 2012-01-05 Dsm Ip Assets B.V. A method for the production of a compound of interest
CN103189519B (zh) 2010-07-14 2018-01-26 DPx控股有限公司 (r)‑选择性胺化
WO2012031911A2 (en) 2010-09-10 2012-03-15 Dsm Ip Assets B.V. Preparation of 6-aminocaproic acid from alpha-ketopimelic acid
WO2012031910A2 (en) 2010-09-10 2012-03-15 Dsm Ip Assets B.V. Method for preparing alpha-ketopimelic acid by c1-elongation
CN103228791B (zh) 2010-09-24 2016-06-15 帝斯曼知识产权资产管理有限公司 二羧酸生产工艺
EP2495304A1 (en) 2010-12-03 2012-09-05 DSM IP Assets B.V. Dicarboxylic acid production in a yeast cell
WO2012089613A1 (en) 2010-12-28 2012-07-05 Dsm Ip Assets B.V. Process to increase the production of a succinyl-coa derived compound
DK2683732T3 (en) 2011-03-11 2016-12-12 Dsm Ip Assets Bv Vector-host-system
US20140113338A1 (en) 2011-04-01 2014-04-24 Dsm Ip Assets B.V. Preparation of 5-formyl valeric acid from alpha-ketopimelic acid
EP2537926A1 (en) 2011-06-21 2012-12-26 Isobionics B.V. Valencene synthase
PL2726624T3 (pl) 2011-07-01 2017-06-30 Dsm Ip Assets B.V. Sposób wytwarzania kwasów dikarboksylowych komórki zatrudniających grzybiczych
CN103797112A (zh) * 2011-07-13 2014-05-14 阿梅蒂斯公司 用于异戊二烯生产的组合物和方法
WO2013007821A1 (en) 2011-07-14 2013-01-17 Dsm Ip Assets B.V. Screening method
AR087423A1 (es) 2011-08-04 2014-03-19 Dsm Ip Assets Bv Celula capaz de fermentar azucares pentosas
EP2554668A1 (en) 2011-08-04 2013-02-06 DSM IP Assets B.V. A pentose sugar fermenting cell
RU2645252C2 (ru) 2012-01-05 2018-02-19 Глюкос Финланд Ой Клетка нитчатых грибов с дефицитом протеаз и способы ее применения
EP2620496B1 (en) 2012-01-30 2015-06-03 DSM IP Assets B.V. Alpha-amylase
CN104245937B (zh) 2012-04-17 2021-09-21 弗·哈夫曼-拉罗切有限公司 使用修饰的核酸表达多肽的方法
US9695454B2 (en) 2012-05-23 2017-07-04 Glykos Finland Oy Production of fucosylated glycoproteins
US20150147365A1 (en) 2012-05-31 2015-05-28 Dsm Ip Assets B.V. Oral preparation
EP2875136B1 (en) 2012-07-18 2017-04-12 Isobionics B.V. Rhodobacter for preparing terpenoids
CN105308171B (zh) 2012-07-19 2019-03-08 帝斯曼知识产权资产管理有限公司 Agse缺陷菌株
EP2877576B1 (en) * 2012-07-24 2019-06-05 BP Corporation North America Inc. Xylose isomerases and their uses
IN2015DN01041A (ja) 2012-08-28 2015-06-26 Dsm Ip Assets Bv
WO2014033019A1 (en) 2012-08-28 2014-03-06 Dsm Ip Assets B.V. Yeast strains engineered to produce ethanol from acetate
US9951339B2 (en) 2012-09-19 2018-04-24 Dsm Ip Assets B.V. Cell modification method using essential genes as markers and optionally recycling these
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression
AR093025A1 (es) 2012-10-16 2015-05-13 Dsm Ip Assets Bv Celulas con conversion mejorada de pentosas
WO2014142647A1 (en) 2013-03-14 2014-09-18 Wageningen Universiteit Fungals strains with improved citric acid and itaconic acid production
KR20160035587A (ko) 2013-07-10 2016-03-31 노파르티스 아게 복수개의 프로테아제 결핍 사상형 진균 세포들 및 그의 이용방법
RS62189B1 (sr) 2013-08-26 2021-08-31 Biontech Research And Development Inc Nukleinske kiseline koje kodiraju humana antitela na sijalil-luis a
AR097480A1 (es) 2013-08-29 2016-03-16 Dsm Ip Assets Bv Células de levadura convertidoras de glicerol y ácido acético con una conversión de ácido acético mejorada
MX370305B (es) 2013-12-02 2019-12-09 Dsm Ip Assets Bv Proteína estructurante de hielo.
BR112016026789B1 (pt) 2014-05-19 2023-05-02 Dsm Ip Assets B.V Polipeptídeo com atividade de endoprotease específica de prolina, composição, ácido nucleico que codifica a referida endoprotease, vetor de expressão, célula hospedeira de microrganismo recombinante, método para a preparação de um polipeptídeo, processo para a preparação de um alimento ou produto para alimentação animal e uso de um polipeptídeo
WO2015177153A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
WO2015177152A1 (en) 2014-05-19 2015-11-26 Dsm Ip Assets B.V. Proline-specific endoprotease
CA2950602C (en) 2014-06-04 2021-07-20 MabVax Therapeutics, Inc. Human monoclonal antibodies to ganglioside gd2
CA2954974A1 (en) 2014-07-21 2016-01-28 Glykos Finland Oy Production of glycoproteins with mammalian-like n-glycans in filamentous fungi
EP3242949B1 (en) 2015-01-06 2021-11-03 DSM IP Assets B.V. A crispr-cas system for a yeast host cell
WO2016110511A1 (en) 2015-01-06 2016-07-14 Dsm Ip Assets B.V. A crispr-cas system for a lipolytic yeast host cell
US11396665B2 (en) 2015-01-06 2022-07-26 Dsm Ip Assets B.V. CRISPR-CAS system for a filamentous fungal host cell
EP3259361A1 (en) 2015-02-16 2017-12-27 DSM IP Assets B.V. Process for producing itaconic acid under anaerobic conditions
AR104205A1 (es) 2015-04-09 2017-07-05 Dsm Ip Assets Bv Fosfolipasa c
US20180160695A1 (en) 2015-06-02 2018-06-14 Dsm Ip Assets B.V. Use of ice structuring protein afp19 expressed in filamentous fungal strains for preparing food
US10724040B2 (en) 2015-07-15 2020-07-28 The Penn State Research Foundation mRNA sequences to control co-translational folding of proteins
WO2017050652A1 (en) 2015-09-25 2017-03-30 Dsm Ip Assets B.V. Asparaginase
EP4361240A2 (en) 2015-11-17 2024-05-01 DSM IP Assets B.V. Preparation of a stable beer
US10829748B2 (en) 2016-06-10 2020-11-10 Dsm Ip Assets B.V. Mutant lipase and use thereof
ES2899973T3 (es) 2016-07-13 2022-03-15 Dsm Ip Assets Bv Malato deshidrogenasas
CN109689856A (zh) 2016-07-13 2019-04-26 帝斯曼知识产权资产管理有限公司 用于海藻宿主细胞的CRISPR-Cas系统
WO2018019948A1 (en) 2016-07-29 2018-02-01 Dsm Ip Assets B.V. Polypeptides having cellulolytic enhancing activity and uses thereof
CN106650307B (zh) * 2016-09-21 2019-04-05 武汉伯远生物科技有限公司 一种基于密码子对使用频度的基因密码子优化方法
CN109715804A (zh) 2016-09-23 2019-05-03 帝斯曼知识产权资产管理有限公司 用于宿主细胞的指导rna表达系统
WO2018114912A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
EP3559221A1 (en) 2016-12-21 2019-10-30 DSM IP Assets B.V. Lipolytic enzyme variants
US10918113B2 (en) 2016-12-21 2021-02-16 Dsm Ip Assets B.V. Lipolytic enzyme variants
WO2018114938A1 (en) 2016-12-21 2018-06-28 Dsm Ip Assets B.V. Lipolytic enzyme variants
CN110088274A (zh) 2016-12-22 2019-08-02 帝斯曼知识产权资产管理有限公司 谷胱甘肽还原酶
WO2018148761A1 (en) * 2017-02-13 2018-08-16 The Regents Of The University Of Colorado, A Body Corporate Compositions, methods and uses for multiplexed trackable genomically-engineered polypeptides
NL2018457B1 (en) 2017-03-02 2018-09-21 Isobionics B V Santalene Synthase
WO2018166943A1 (en) 2017-03-13 2018-09-20 Dsm Ip Assets B.V. Zinc binuclear cluster transcriptional regulator-deficient strain
CN107353327A (zh) 2017-03-30 2017-11-17 南京百斯杰生物工程有限公司 植酸酶在黑曲霉中表达
US20200032252A1 (en) 2017-04-06 2020-01-30 Dsm Ip Assets B.V. Self-guiding integration construct (sgic)
NL2019473B1 (en) 2017-09-01 2019-03-11 Isobionics B V Terpene Synthase producing patchoulol and elemol, and preferably also pogostol
BR112020005972A2 (pt) 2017-09-26 2020-11-17 Bunge Global Innovation, Llc remoção enzimática de substratos de clorofila de óleos à base de triacilglicerol
CN111630069B (zh) 2017-10-13 2024-05-31 勃林格殷格翰国际有限公司 针对Thomsen-nouvelle(Tn)抗原的人抗体
EP3728603A2 (en) 2017-12-20 2020-10-28 DSM IP Assets B.V. A method for genome editing in a host cell
WO2019193102A1 (en) 2018-04-05 2019-10-10 Dsm Ip Assets B.V. Variant maltogenic alpha-amylase
EP3790969A1 (en) 2018-05-09 2021-03-17 DSM IP Assets B.V. Crispr transient expression construct (ctec)
WO2019219904A2 (en) 2018-05-18 2019-11-21 Dsm Ip Assets B.V. Mutant lipase and use thereof
CN112135903A (zh) 2018-05-18 2020-12-25 帝斯曼知识产权资产管理有限公司 突变体脂肪酶及其用途
US20210115418A1 (en) 2018-06-19 2021-04-22 Dsm Ip Assets B.V. Lipolytic enzyme variants
CN112513989B (zh) * 2018-07-30 2022-03-22 南京金斯瑞生物科技有限公司 密码子优化
CN112585687A (zh) * 2018-08-15 2021-03-30 齐默尔根公司 具有生物序列选择的生物可获取预测工具
WO2020099303A1 (en) 2018-11-15 2020-05-22 Dsm Ip Assets B.V. Improved production of riboflavin
EP3891281A1 (en) 2018-12-05 2021-10-13 DSM IP Assets B.V. Crispr guide-rna expression strategies for multiplex genome engineering
EP3946720A1 (en) 2019-03-27 2022-02-09 Bunge Global Innovation, LLC. Silica adsorbent treatment for removal of chlorophyll derivatives from triacylglycerol-based oils
WO2020198641A2 (en) * 2019-03-28 2020-10-01 Intellia Therapeutics, Inc. Polynucleotides, compositions, and methods for polypeptide expression
MX2021015193A (es) 2019-06-28 2022-01-18 Hoffmann La Roche Metodo para la produccion de un anticuerpo.
EP3766982A1 (en) 2019-07-18 2021-01-20 Delft Advanced Biofuels B.V. Integrated system for biocatalytically producing and recovering an organic substance
CN110491447B (zh) * 2019-08-05 2021-08-17 浙江省农业科学院 一种用于异源基因体外表达的密码子优化方法及应用
CN110873833B (zh) * 2019-12-10 2022-04-08 国网河南省电力公司洛阳供电公司 一种含分布式电源的配电网自适应故障区段定位方法
EP4117445A1 (en) 2020-03-10 2023-01-18 DSM IP Assets B.V. Lactose reduced dairy powder
EP4015626A1 (en) 2020-12-18 2022-06-22 Isobionics B.V. Enzymes and methods for fermentative production of monoterpene esters
CA3216308A1 (en) 2021-04-21 2022-10-27 Zhejiang University Negative-strand rna viral vector and plant genome editing method without transformation
WO2022263504A1 (en) 2021-06-17 2022-12-22 Dsm Ip Assets B.V. Improved bacillus host cell
EP4381085A2 (en) 2021-08-02 2024-06-12 Basf Se Novel production of aroma compounds with ionylideneethane synthases
AU2022392804A1 (en) 2021-11-19 2024-05-02 Mirobio Limited Engineered PD-1 antibodies and uses thereof
WO2023196866A1 (en) 2022-04-06 2023-10-12 Mirobio Limited Engineered cd200r antibodies and uses thereof
WO2023225459A2 (en) 2022-05-14 2023-11-23 Novozymes A/S Compositions and methods for preventing, treating, supressing and/or eliminating phytopathogenic infestations and infections
WO2023222614A1 (en) 2022-05-16 2023-11-23 Dsm Ip Assets B.V. Lipolytic enzyme variants
DE102022118459A1 (de) 2022-07-22 2024-01-25 Proteolutions UG (haftungsbeschränkt) Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus
CN117153253B (zh) * 2022-09-09 2024-05-07 南京金斯瑞生物科技有限公司 一种设计人源化抗体序列的方法
EP4365192A1 (en) 2022-11-04 2024-05-08 DSM IP Assets B.V. Microbial production of growth factors

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5082767A (en) * 1989-02-27 1992-01-21 Hatfield G Wesley Codon pair utilization
JP2001509388A (ja) * 1997-07-09 2001-07-24 ザ・ユニバーシティ・オブ・クイーンズランド 標的の細胞および組織においてタンパク質を選択的に発現するための核酸配列および方法
WO2003085114A1 (en) * 2002-04-01 2003-10-16 Walter Reed Army Institute Of Research Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK122686D0 (da) 1986-03-17 1986-03-17 Novo Industri As Fremstilling af proteiner
EP0340878B1 (en) 1988-05-06 2001-05-16 Aventis Pharma S.A. Process for the biochemical oxidation of steroids and genetically engineered cells to be used therefor
CA1333777C (en) 1988-07-01 1995-01-03 Randy M. Berka Aspartic proteinase deficient filamentous fungi
ATE238425T1 (de) 1993-07-23 2003-05-15 Dsm Nv Selektionmarker-genfreie rekombinante stämme: verfahren zur ihrer herstellung und die verwendung dieser stämme
US5795737A (en) 1994-09-19 1998-08-18 The General Hospital Corporation High level expression of proteins
DE69535696T2 (de) 1994-11-08 2009-02-05 Novozymes A/S Tripeptidyl-aminopeptidase
US5874304A (en) * 1996-01-18 1999-02-23 University Of Florida Research Foundation, Inc. Humanized green fluorescent protein genes and methods
EP0894126B1 (en) 1996-03-27 2006-02-01 Novozymes A/S Alkaline protease deficient filamentous fungi
WO1998046772A2 (en) 1997-04-11 1998-10-22 Dsm N.V. Gene conversion as a tool for the construction of recombinant industrial filamentous fungi
ES2287989T3 (es) 1997-12-22 2007-12-16 Dsm Ip Assets B.V. Clonacion de expresion en hongos filamentosos.
CN100529096C (zh) 1998-12-23 2009-08-19 诺维信公司 在曲霉属突变细胞中产生多肽的方法
CN1195058C (zh) 1999-02-22 2005-03-30 诺维信公司 草酰乙酸水解酶缺陷型真菌宿主细胞
DE60142226D1 (de) 2000-03-14 2010-07-08 Novozymes As Pilz transkriptionsaktivator zur verwendung in verfahren zur herstellung von polypeptiden
EP1266018B1 (en) 2000-03-24 2008-05-07 Genencor International, Inc. Production of secreted proteins by recombinant eukaryotic cells
WO2002064766A2 (en) 2000-12-22 2002-08-22 Janssen Pharmaceutica N.V. Bax-responsive genes for drug target identification in yeast and fungi
AU2002242025A1 (en) 2001-01-29 2002-08-12 Olga Kachurina Advanced composite ormosil coatings
EP1231272A3 (en) 2001-02-08 2002-11-13 Laboratorios Ovejero S.A. Procedure for obtaining bovine chymosin (rennin), curd
WO2003070957A2 (en) 2002-02-20 2003-08-28 Novozymes A/S Plant polypeptide production
CN1836033A (zh) 2003-02-05 2006-09-20 帝斯曼知识产权资产管理有限公司 草酸缺陷型Aspergillus Niger菌株生产多肽的用途
US7303877B2 (en) 2003-03-31 2007-12-04 Novozymes, Inc. Methods for producing biological substances in enzyme-deficient mutants of Aspergillus
DE602005023427D1 (de) 2004-04-02 2010-10-21 Dsm Ip Assets Bv Filamentöse pilzmutanten mit verbesserter homologer rekombinationseffizienz
WO2005100573A2 (en) 2004-04-16 2005-10-27 Dsm Ip Assets B.V. Fungal promoters for expressing a gene in a fungal cell
US7968312B2 (en) 2004-06-16 2011-06-28 Dsm Ip Assets B.V. Production of polypeptides by improved secretion
EP1799827A2 (en) 2004-10-12 2007-06-27 DSMIP Assets B.V. Fungal transcriptional activators useful in methods for producing a polypeptide
AU2005293578B2 (en) 2004-10-15 2010-10-21 Dsm Ip Assets B.V. Method for production of a compound in a eukaryotic cell
EP2410048B1 (en) 2005-01-24 2016-08-10 DSM IP Assets B.V. Method for producing a compound of interest in a filamentous fungal cell

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5082767A (en) * 1989-02-27 1992-01-21 Hatfield G Wesley Codon pair utilization
JP2001509388A (ja) * 1997-07-09 2001-07-24 ザ・ユニバーシティ・オブ・クイーンズランド 標的の細胞および組織においてタンパク質を選択的に発現するための核酸配列および方法
WO2003085114A1 (en) * 2002-04-01 2003-10-16 Walter Reed Army Institute Of Research Method of designing synthetic nucleic acid sequences for optimal protein expression in a host cell

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN5009009337; IRWIN B: 'Codon pair utilizaiton biases influence translational elongation step times.' J.BIOL.CHEM. V270 N39, 19950929, P22801-22806 *
JPN5009009338; BOYCHEVA S: 'Codon pairs in the genome of Escherichia coli.' BIOINFORMATICS V19 N8, 2003, P987-998 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011130677A (ja) * 2009-12-22 2011-07-07 National Institute Of Advanced Industrial Science & Technology 発現予測装置および発現予測方法
JP2020534794A (ja) * 2017-07-25 2020-12-03 ナンジンジンスールイ サイエンス アンド テクノロジー バイオロジー コーポレイションNanjingjinsirui Science & Technology Biology Corp. 免疫アルゴリズムに基づくコドン最適化方法

Also Published As

Publication number Publication date
AU2007263880A1 (en) 2008-01-03
PL2423315T3 (pl) 2015-06-30
BRPI0713795B1 (pt) 2018-03-20
WO2008000632A1 (en) 2008-01-03
US20140377800A1 (en) 2014-12-25
ES2534282T3 (es) 2015-04-21
EP2423315A1 (en) 2012-02-29
JP5250850B2 (ja) 2013-07-31
CN101490262B (zh) 2012-09-26
BRPI0713795A2 (pt) 2012-11-06
EP2035561A1 (en) 2009-03-18
US8812247B2 (en) 2014-08-19
EA200900096A1 (ru) 2009-06-30
EA015925B1 (ru) 2011-12-30
EP2423315B1 (en) 2015-01-07
DK2423315T3 (en) 2015-04-13
US20090286280A1 (en) 2009-11-19
CA2657975A1 (en) 2008-01-03
CN101490262A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
JP5250850B2 (ja) 改善されたポリペプチド発現を達成する方法
DK2406386T3 (en) PROCEDURE FOR IMPROVING THE YIELD OF A POLYPEPTIME
Vinck et al. Heterogenic expression of genes encoding secreted proteins at the periphery of Aspergillus niger colonies
AU2005293516B2 (en) Homologous amdS genes as selectable marker
US20220064228A1 (en) Methods For Increasing The Productivity Of A Filamentous Fungal Cell In The Production Of A Polypeptide
US20220025423A1 (en) Modified Filamentous Fungal Host Cells
EP2841589B1 (en) Polypeptide expression method
CN115725632B (zh) 一种Aomsn2过表达米曲霉工程菌及其构建方法与应用
US20220267783A1 (en) Filamentous fungal expression system
Class et al. Patent application title: Method for Achieving Improved Polypeptide Expression Inventors: Johannes Andries Roubos (Echt, NL) Johannes Andries Roubos (Echt, NL) Noël Nicolaas Maria Elisabeth Van Peij (Echt, NL)
JP6372792B2 (ja) 酵母における目的遺伝子の発現システム及びその利用
Khatun et al. Increase in rRNA content in a Saccharomyces cerevisiae suppressor strain from rrn10 disruptant by rDNA cluster duplication
JP4648038B2 (ja) 改変プロモーター
JP2010178705A (ja) 枯草菌変異株
JP2010193760A (ja) タンパク質又はポリペプチドの製造方法
JP5732209B2 (ja) 遺伝子発現方法
JP5847458B2 (ja) 改変rRNAオペロンを有する組換え微生物
Peña Systems Biology of Glucose Sensing and Repression in Aspergillus Niger: Lessons from Genomics and Transcriptomics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121121

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121129

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130118

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees