JP2009540845A

JP2009540845A - 改善されたポリペプチド発現を達成する方法

Info

Publication number: JP2009540845A
Application number: JP2009517099A
Authority: JP
Inventors: ヨハネス，アンドリアスルーボス，; ファン，ノエルニコラスマリアエリザベスペイ，
Original assignee: DSM IP Assets BV
Current assignee: DSM IP Assets BV
Priority date: 2006-06-29
Filing date: 2007-06-15
Publication date: 2009-11-26
Anticipated expiration: 2027-06-15
Also published as: AU2007263880A1; PL2423315T3; BRPI0713795B1; WO2008000632A1; US20140377800A1; ES2534282T3; EP2423315A1; JP5250850B2; CN101490262B; BRPI0713795A2; EP2035561A1; US8812247B2; EA200900096A1; EA015925B1; EP2423315B1; DK2423315T3; US20090286280A1; CA2657975A1; CN101490262A

Abstract

本発明は、所与の宿主細胞中での発現のためにタンパク質コード配列を最適化する方法に関する。本方法は、遺伝的アルゴリズムを当てはめて、所定のアミノ酸配列をコードする単一コドン適合および／またはコドンペア適合配列を最適化する。アルゴリズムでは、変異体コード配列が単一コドン適合および／またはコドンペア適合の最小値に達するまで、新しい配列変異体の生成および適合変異体の引き続く選択が反復される。本発明はまた、プロセッサーおよびメモリーを含んでなるコンピューターにも関し、プロセッサーはメモリーから読み取ってそれに書き込むように構成され、メモリーは単一コドン適合および／またはコドンペア適合の最適化のための遺伝的アルゴリズムを遂行する能力をプロセッサーに提供するように構成されたデータおよび命令を含んでなる。本発明はさらに、所定のアミノ酸配列のためのコード配列を含んでなる核酸と、このような核酸を含んでなる宿主細胞と、その中でこれらの宿主細胞が使用されるポリペプチドおよびその他の発酵産物を生成する方法とに関し、コード配列は本発明の方法において、特定の宿主のために単一コドン適合および／またはコドンペア適合について最適化される。
【選択図】図２

Description

発明の詳細な説明

［技術分野］
本発明は、ポリペプチドをコードするヌクレオチド配列をそれらのコドン使用、特に使用されるコドンペアについて改変し、ポリペプチドをコードするヌクレオチド配列の改善された発現および／またはポリペプチドの改善された生成を得る、宿主細胞中でポリペプチドを生成する方法に関する。

［背景技術］
本発明は、ポリペプチドを生成する改善された方法に関する。タンパク質を過剰発現および／または生成するための株を作り出す、多数のアプローチが適用されている。これとしては、限定されるものではないが、対象とするタンパク質（ＰＯＩ）をコードするマルチコピーの遺伝子がある株を作成すること、および強力プロモーターを適用することが挙げられる。

各特異的アミノ酸は、最低１つのコドン、最高６つのコドンによってコードされる。先行研究は、細胞のポリペプチドをコードする遺伝子中のコドン使用頻度が、種間で偏っていることを示している（Ｋａｎａｙａ，Ｓ、Ｙ．Ｙａｍａｄａ、Ｙ．Ｋｕｄｏ、およびＴ．Ｉｋｅｍｕｒａ（１９９９年）「１８種の単細胞生物でのコドン使用頻度およびｔＲＮＡ遺伝子に関する研究および枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）ｔＲＮＡの定量化：多変量解析に基づくコドン使用頻度の遺伝子発現レベルおよび種特異的多様性（ＳｔｕｄｉｅｓｏｆｃｏｄｏｎｕｓａｇｅａｎｄｔＲＮＡｇｅｎｅｓａｔ１８ｕｎｉｃｅｌｌｕｌａｒｏｒｇａｎｉｓｍｓａｎｄｑｕａｎｔｉｆｉｃａｔｉｏｎｏｆＢａｃｉｌｌｕｓｓｕｂｔｉｌｉｓｔＲＮＡｓ：ｇｅｎｅｅｘｐｒｅｓｓｉｏｎｌｅｖｅｌａｎｄｓｐｅｃｉｅｓ−ｓｐｅｃｉｆｉｃｄｉｖｅｒｓｉｔｙｏｆｃｏｄｏｎｕｓａｇｅｂａｓｅｄｏｎｍｕｌｔｉｖａｒｉａｔｅａｎａｌｙｓｉｓ）」Ｇｅｎｅ２３８：１４３〜１５５頁）。以前の公報は、ポリペプチド生成を改善するための所与の宿主細胞のコドン使用最適化を開示する（例えば国際公開第９７／１１０８６号パンフレット参照）。より具体的には、国際公開第０３／７０９５７号パンフレットは、植物ポリペプチドを生成するための糸状菌中での最適化されたコドン使用について述べている。これらの「古典的」コドン最適化の全ての例で、天然コドンが参照遺伝子セットからの最も頻繁なコドンによって置換される一方で、各アミノ酸についてのコドン翻訳率は高くなるようにデザインされている（最適化されている）。

より最近では、国際公開第０３／８５１１４号パンフレットで、宿主生物の遺伝子中の全コドンの分布がタンパク質折りたたみに影響すると仮定して、これらを考慮に入れたコドン使用の調和について述べられている。

例えば枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）（Ｋｕｎｓｔら、１９９７年）、バシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）、アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）（Ｐｅｌら、２００７年、ＮａｔＢｉｏｔｅｃｈ．２５：２２１〜２３１頁）、クリヴェロミセス・ラクチス（Ｋｌｕｙｖｅｒｏｍｙｃｅｓｌａｃｔｉｓ）、サッカロミセス・セレヴィシエ（Ｓａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ）（ｈｔｔｐ：／／ｗｗｗ．ｙｅａｓｔｇｅｎｏｍｅ．ｏｒｇ／）、様々な植物ゲノム、マウス、ラット、およびヒトなど、近年の多くの生物の完全に配列決定されたゲノムが利用可能となり、それらの自然発現レベル（ｍＲＮＡまたはタンパク質レベル）との関係で、遺伝子配列それ自体の異なる側面を分析する可能性が提供されてきた。その良い例が、コドン使用頻度（バイアス）分析と続く単一コドン最適化である。単一コドン最適化は、ここで本発明の主題であるコドンペア最適化とは対照的に、単一の独立した実体としてコドン最適化に着目した、コドン最適化またはコドン調和技術を指すものと理解されることに留意されたい。

単一コドン使用頻度（バイアス）が以前、詳細に研究されている（概要については、Ｇｕｓｔａｆｓｓｏｎら、２００４年、ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２２：３４６〜３５３頁を参照されたい）のに対し、コドンペア使用頻度およびコドンペア最適化に関しては少数の報告しかない。

大腸菌（Ｅ．ｃｏｌｉ）中でのリボソームフレームシフトに対する少数の特異的コドンペアの効果は、例えばＡＧＧ−ＡＧＧコドンペア（ＳｐａｎｊａａｒｄおよびｖａｎＤｕｉｎ、１９８８年、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ８５：７９６７〜７９７１頁；Ｇｕｒｖｉｃｈら、２００５年、Ｊ．Ｂａｃｔｅｒｉｏｌ．１８７：４０２３〜４３２頁）、およびＵＵＵ−ＹＮＮ部位（ＳｃｈｗａｒｚおよびＣｕｒｒａｎ、１９９７年、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２５：２００５〜２０１１頁）について調査されている。

ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄ（１９８９年、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．ＳｃｉＵＳＡ８６：３６９９〜３７０３頁）は、大腸菌（Ｅ．ｃｏｌｉ）のための全ての可能なコドンペアについてより大きな配列セットを分析し、コドンペアが一方向に偏っていることを見いだした。さらに彼らは、高度に発現する遺伝子中では、高度に過少に現われるペアが過剰に現れるもののほぼ２倍の頻度で使用されるのに対し、不十分に発現される遺伝子中では、過剰に現れるペアがより頻繁に使用されることを観察した。米国特許第５，０８２，７６７号明細書（ＨａｔｆｉｅｌｄおよびＧｕｔｍａｎ、１９９２年）は、大腸菌（Ｅ．ｃｏｌｉ）およびＳ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）の例によって、生物中で相対的天然コドンペア形成優先度を判定し、前記コドンペア形成優先度に従って対象とする遺伝子のコドンペア形成を改変して、所定の様式で前記遺伝子の翻訳動態を変化させる方法を開示する。しかしそれらの方法においてＨａｔｆｉｅｌｄおよびＧｕｔｍａｎは、隣接コドンの個々のペアのみを最適化する。さらに彼らの特許中（米国特許第５，０８２，７６７号明細書）では、その中でコドンペア形成が改変されて、ランダムコドンペア使用頻度と比較して、生物内でより豊富でありながらより過少に現れるコドンペアであるコドンペアの数が増大する改変配列によって、遺伝子の少なくとも一部の翻訳動態を増大させることが主張される。本発明は、その中でコドンペア形成が改変されて、ランダムコドンペア使用頻度と比較して、生物中でより過剰に現れるコドンペアであるコドンペアの数が増大する改変配列によって、翻訳を増大させる方法を開示する。

Ｍｏｕｒａら（２００５年、ＧｅｎｏｍＢｉｏｌｏｇｙ、６：Ｒ２８）は、Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）ＯＲＦｅｏｍｅ全体を分析したが、約４７％のコドンペアについて統計学的に有意なバイアスを見いだせなかった。それぞれの値は種間で異なり、コドンペア使用頻度の「種特異的フィンガープリント」と見なすことができる「コドン文脈マップ」がもたらされる。

Ｂｏｙｃｈｅｖａら（２００３年、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９（８）：９８７〜９９８頁）は、大腸菌（Ｅ．ｃｏｌｉ）において、高度におよび不十分に発現される遺伝子中で、過剰におよび過少に現れるコドンペアを探すことで、仮説的減衰性および仮説的非減衰性と称される２セットのコドンペアを同定した。しかし彼らはこの知見を適用する方法を提案せず、それらの仮説についていかなる実験的証明を与えることもしなかった。これらの群は、高度に発現される遺伝子中で、高度に過少に現れるペアに対する非減衰効果を提案した、ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄ（１９８９年、１９９２年、前出）によって定義されるものとは正反対に定義されることに留意されたい。

Ｂｕｃｈａｎ、Ａｕｃｏｔｔ、およびＳｔａｎｆｉｅｌｄ（２００６年、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ３４（３）：１０１５〜１０２７頁）は、コドンペアバイアスについてｔＲＮＡ特性を分析した。

コドンペア使用頻度におけるバイアスとのかかわり合いで、Ｉｒｗｉｎら（１９９５年、Ｊ．Ｂｉｏｌ．Ｃｈｅｍ．２７０：２２８０１〜２２８０６頁）は、大腸菌（Ｅ．ｃｏｌｉ）において、高度に過少に現れるコドンペアを高度に過剰に現れるもので置換すると、合成速度が実際に相当低下し、わずかに過少に現れるコドンペアでより高度に過少に現れるものを置換すると、合成速度が増大することを実証した。これはタンパク質レベルに対する単一コドンバイアスの影響を考えると、予期されるものとはむしろ反対であるので、これはなかり注目に値する。

しかし上述のいずれの技術も、定義上コドンペアは重複し、したがって個々の各コドンペアの最適化は重複する上流および下流コドンペアのバイアスに影響するという事実を考慮して、全長コドン配列のコドンペア使用頻度をいかに最適化するかを開示していない。さらに引用した技術のいずれも単一コドンならびにコドンペアの双方の最適化を組み合わせる方法を開示していない。前記コドンペア重複を考慮したコドンペア最適化、および前記コドンペア最適化と単一コドン最適化の特定の組み合わせは、対象とするポリペプチドをコードするヌクレオチド配列の発現を大幅に改善し、および／または前記ポリペプチドの生成を改善するであろう。

したがってなおも当該技術分野において、宿主細胞中でのポリペプチド生成を改善するためにコード配列を最適化する新しい方法に対する必要性がある。

［発明の概要］
本発明の目的は、効率的な遺伝子転写およびタンパク質翻訳のために、コード配列を最適化する方法を提供することである。その趣旨で、本発明は、（ａ）所定のアミノ酸配列をコードする少なくとも１つのオリジナルコード配列を作り出すステップと、（ｂ）この少なくとも１つのオリジナルコード配列中で、１つ以上のコドンを同義コドンによって置換することによって、この少なくとも１つのオリジナルコード配列から少なくとも１つの新たに作り出されたコード配列を作り出すステップと、（ｃ）所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも１つを判定する適合関数を使用して、前記少なくとも１つのオリジナルコード配列の適合値および前記少なくとも１つの新たに作り出されたコード配列の適合値を判定するステップと、（ｄ）前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも１つのオリジナルコード配列および前記少なくとも１つの新たに作り出されたコード配列中で、１つ以上の選択されるコード配列を選択するステップと、（ｅ）操作ｂ）からｄ）において前記１つ以上の選択されたコード配列を１つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作ｂ）からｄ）を繰り返すステップを含んでなる、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチド配列を最適化する方法を提供する。

実施態様では、本発明は、単一コドン使用頻度、コドン調和、ジヌクレオチド使用頻度のような側面に対処し、そのコドンペアバイアスにかかわる。本方法は、ＭＡＴＬＡＢ（ｈｔｔｐ：／／ｗｗｗ．ｍａｔｈｗｏｒｋｓ．ｃｏｍ／）で実行されてもよい、配列分析および配列最適化のための数学的アルゴリズムを使用する、コンピューター上で作動するコンピュータープログラムによって実施できる。

正のコドン最適化（例えば積極的な方法で遺伝子発現およびタンパク質生成を調節するための）に加えて、本発明はまた「不良」コドンペアに向けてコドンを適応させる方法（すなわち負のコドンペア最適化）も提供する。後者の方法は制御目的で、ならびに否定的な方法で遺伝子発現を調節するために有用である。

［図面の簡単な説明］
本発明の例示を意図するのみで、添付の特許請求の範囲とその等価物によって定義される範囲は限定しない、いくつかの図に言及して、本発明を例示する。

本発明の方法を実施できるコンピューター構成を示す。本発明の実施態様のフローチャートを示す。異なる生物中の３，７２１個のセンス：センスコドンペアについてコドンペアバイアス値の分布を示す。各ヒストグラムの右上隅の数字は、観察された分布の標準偏差であり、平均値（図示せず）は全ての生物で−０．０６〜−０．０１の間である。様々な生物のコドンペアバイアス相関を示す。相関係数を各サブプロットの右上隅に示す。Ａ．ニガー（ｎｉｇｅｒ）のコドンバイアスマップを示す。バイアス値は−０．６７〜０．５４の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図５Ａおよび５Ｃでは正の値、オリジナルでは緑色）、および−０．９（図５Ｂおよび５Ｄでは負の値、オリジナルでは赤色）の値を表す。図５ＡおよびＢでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図５Ｃおよび５Ｄでは、横列は第１のソート基準として第３位のヌクレオチドの、第２のソート基準として中央位のヌクレオチドの、第３のソート処理基準として第１位のヌクレオチドのアルファベット順に従ってソートされている。Ａ．ニガー（ｎｉｇｅｒ）のコドンバイアスマップを示す。バイアス値は−０．６７〜０．５４の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図５Ａおよび５Ｃでは正の値、オリジナルでは緑色）、および−０．９（図５Ｂおよび５Ｄでは負の値、オリジナルでは赤色）の値を表す。図５ＡおよびＢでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図５Ｃおよび５Ｄでは、横列は第１のソート基準として第３位のヌクレオチドの、第２のソート基準として中央位のヌクレオチドの、第３のソート処理基準として第１位のヌクレオチドのアルファベット順に従ってソートされている。Ａ．ニガー（ｎｉｇｅｒ）のコドンバイアスマップを示す。バイアス値は−０．６７〜０．５４の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図５Ａおよび５Ｃでは正の値、オリジナルでは緑色）、および−０．９（図５Ｂおよび５Ｄでは負の値、オリジナルでは赤色）の値を表す。図５ＡおよびＢでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図５Ｃおよび５Ｄでは、横列は第１のソート基準として第３位のヌクレオチドの、第２のソート基準として中央位のヌクレオチドの、第３のソート処理基準として第１位のヌクレオチドのアルファベット順に従ってソートされている。Ａ．ニガー（ｎｉｇｅｒ）のコドンバイアスマップを示す。バイアス値は−０．６７〜０．５４の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図５Ａおよび５Ｃでは正の値、オリジナルでは緑色）、および−０．９（図５Ｂおよび５Ｄでは負の値、オリジナルでは赤色）の値を表す。図５ＡおよびＢでは、横列および縦列は、コドンのアルファベット順に従ってソートされている。図５Ｃおよび５Ｄでは、横列は第１のソート基準として第３位のヌクレオチドの、第２のソート基準として中央位のヌクレオチドの、第３のソート処理基準として第１位のヌクレオチドのアルファベット順に従ってソートされている。枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）のコドンバイアスマップを示す。バイアス値は−０．９７〜０．８７の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図６Ａでは正の値、オリジナルでは緑色）、および−０．９（図６Ｂでは負の値、オリジナルでは赤色）の値を表す。枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）のコドンバイアスマップを示す。バイアス値は−０．９７〜０．８７の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図６Ａでは正の値、オリジナルでは緑色）、および−０．９（図６Ｂでは負の値、オリジナルでは赤色）の値を表す。大腸菌（Ｅ．ｃｏｌｉ）のコドンバイアスマップを示す。バイアス値は−０．９７〜０．８５の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図７Ａでは正の値、オリジナルでは緑色）、および−０．９（図７Ｂでは負の値、オリジナルでは赤色）の値を表す。大腸菌（Ｅ．ｃｏｌｉ）のコドンバイアスマップを示す。バイアス値は−０．９７〜０．８５の範囲であり、その他の生物ではそれらは±０．９（図３もまた参照されたい）をわずかに超えさえするかもしれない。これらのダイアグラム中の最も濃い黒色は、０．９（図７Ａでは正の値、オリジナルでは緑色）、および−０．９（図７Ｂでは負の値、オリジナルでは赤色）の値を表す。上の図５〜７に類似した、Ａ．ニガー（ｎｉｇｅｒ）の４７９個の高度に転写される遺伝子のコドンバイアスマップを示す。これらのダイアグラム中の最も濃い黒色は、０．９（図８Ａでは正の値、オリジナルでは緑色）、および−０．９（図８Ｂでは負の値、オリジナルでは赤色）の値を表す。この群における最大バイアス値は０．９ｌ、最小バイアス値は−１であり、すなわちそれらの個々のコドンおよびコードされたアミノ酸ペアは発生するのに、いくつかの可能なコドンペアは全く生じない。これは完全ゲノム中の５，８８５，９４２個と比較して、より小さなサイズの１８８，０６７個のコドンペアの結果かもしれない。しかし主な理由は、高度に発現される遺伝子中の選択に起因する、このようなペアの真の過少出現である。上の図５〜７に類似した、Ａ．ニガー（ｎｉｇｅｒ）の４７９個の高度に転写される遺伝子のコドンバイアスマップを示す。これらのダイアグラム中の最も濃い黒色は、０．９（図８Ａでは正の値、オリジナルでは緑色）、および−０．９（図８Ｂでは負の値、オリジナルでは赤色）の値を表す。この群における最大バイアス値は０．９ｌ、最小バイアス値は−１であり、すなわちそれらの個々のコドンおよびコードされたアミノ酸ペアは発生するのに、いくつかの可能なコドンペアは全く生じない。これは完全ゲノム中の５，８８５，９４２個と比較して、より小さなサイズの１８８，０６７個のコドンペアの結果かもしれない。しかし主な理由は、高度に発現される遺伝子中の選択に起因する、このようなペアの真の過少出現である。４７９個の高度に発現されるＡ．ニガー（ｎｉｇｅｒ）遺伝子の群中のバイアス（垂直軸）に対する全遺伝子中のバイアス（水平）の散布図を示す。停止コドンに関与しない３，７２１個の全コドンペアを示す。淡い灰色から黒色は、総ゲノム中のｚ−スコアの絶対値に応じて割り当てられ、すなわちプロット中の淡い点は全ての遺伝子中で有意なバイアスを有さず、サイズについても同様に高度に発現される群中の絶対ｚ−スコアに応じて割り当てられ、すなわち非常に小さな点はそこで有意なバイアスを有さない（ここで｜ｚ−スコア｜＜１．９）。黒の実線は双方のバイアス値が等しい箇所を示し、破線は実際の相関（主成分分析により同定される）の最良の直線近似を示して、その傾きは約２．１である。それらの転写レベルの対数と比較した、４，５８４個のＡ．ニガー（ｎｉｇｅｒ）遺伝子の適合値である。相関係数は−０．６２である。単一コドン対コドンペア最適化を示す。野性型（ｆｉｔ_ｓｃ（ｇ_ＦＵＡ）＝０．１６５、ｆｉｔ_ｃｐ（ｇ_ＦＵＡ）＝０．０３３）は、このプロットに適合しない（それははるか右上にくる）。ｃｐｉパラメーターが単一コドンとコドンペア適合との間の妥協点を決定することが明らかである。最適遺伝子は常に、ｆｉｔ_ｓｃおよびｆｉｔ_ｃｐについて最低値のものである。本発明者らは、単一コドン使用頻度またはコドンペア使用頻度のどちらがより重要であるかを未だに知らないので、したがって点位置を考慮すると、最良遺伝子がｃｐｉのどの値に対して得られるのか明らかでない。しかし実施例は、単一コドン適合に加えてコドンペア適合が非常に重要であるという強力な証拠を提供し、それはｃｐｉが少なくとも＞０であるように選択すべきであることを意味する。前述のＦＵＡの（４９９個からの）最初の２０個のコドンの配列の質を示す２つのダイアグラムを示す（実施例２もまた参照されたい）。黒色点が所望のコドン比を示すのに対し、×点は破線で結んで（全遺伝子中の）実際のコドンを示す。このとき単一コドン適合は、これらの破線長さの平均として解釈できる。（例えば（同義コドンを有さない）４および５位のＴＧＧなどの所望の比率と実際の比率が等しいコドンでは、この「長さ」は０であることに留意されたい。「長さ」は決して負にならないことにもまた留意されたい）。次に黒色棒線は、隣接する２つのコドンによって形成されるペアの重みを示す。（棒線の下中央にある）黒色点は、同一ジペプチドをコードするあらゆるコドンペアの最小重みを示す。このときコドンペア適合は、これらの棒線の平均の高さである（ここで使用される高さは、十分負でありえることに留意されたい）。配列番号６をもたらすａｍｙＢ遺伝子を最適化するための本発明の記載されている遺伝的アルゴリズムアプローチを使用した、ｆｉｔ_{ｃｏｍｂｉ}の収束を示す。説明上の理由から、例えば図１５に示すような単一コドン分布ダイアグラムの一部を示す。２つのグラフは、フェニルアラニンをコードする２つの同義コドンＵＵＵ（上）およびＵＵＣ（下）の単一コドン使用頻度を示す。双方のグラフのＸ軸およびＹ軸は０％から１００％に及ぶ。灰色のヒストグラムは、２５０個の高度に発現されるＡ．ニガー（ｎｉｇｅｒ）遺伝子の群の各アミノ酸について正規化した（同義コドン群）、コドン使用ヒストグラムであり、遺伝子は０％、＞０〜＜１０％、１０〜＜２０％、．．．、９０〜＜１００％、１００％を有する群に区分けされる。例えば高度に発現される遺伝子の５０％はフェニルアラニンをコードするＵＵＵコドン０％使用群に入り、よってＵＵＣコドン１００％使用群に入る。白色棒線はヒストグラムと同様の区分けの遺伝子Ａ（この場合はＷＴａｍｙＢ）のコドン使用を示し、したがって区分け２０〜３０％（２０％、３／１５個のコドンがＵＵＵ）の１００％、よって区分け８０〜＜９０％（８０％、１２／１５個がＵＵＣ）の１００％が遺伝子Ａである。黒色棒線は、遺伝子Ｂ（この場合ａｍｙＢのための単一コドン最適化変異体）に関する統計を示す。同様にして、全６４個のコドンの統計を示す１６×４グラフのマトリックスを作り出すことができる。例えば図１５を参照されたい。（パート１および２）単一コドン最適化されたａｍｙＢ遺伝子（黒色）に対する野生型ａｍｙＢ遺伝子（白色）の単一コドン頻度を示す。灰色のヒストグラムは、Ａ．ニガー（ｎｉｇｅｒ）中の２５０個の高度に発現される遺伝子の統計を示す。システイン（ＵＧＵ／ＵＧＣ）、ヒスチジン（ＣＡＵ／ＣＡＣ）、チロシン（ＵＡＵ／ＵＡＣ）、およびその他のためのもののような特定コドンが、真の改善を受けたことが明らかである。（パート１および２）単一コドンおよびコドンペアの双方について最適化されたａｍｙＢ遺伝子（黒色）に対する野生型ａｍｙＢ遺伝子（白色）の単一コドン頻度を示す。灰色のヒストグラムは、Ａ．ニガー（ｎｉｇｅｒ）中の２５０個の高度に発現される遺伝子の統計を示す。これらのグラフが、図１５に示される単一コドン最適化された遺伝子の状況と非常に良く似ていることは明らかである。Ａ．ニガー（ｎｉｇｅｒ）のＷＴａｍｙＢ遺伝子に関する単一コドンおよびコドンペア統計の完全ダイアグラム（図１８）の一部を示す。Ｘ軸には、１位で開始コドンＡＴＧから始まる遺伝子中の後続コドンがある。黒色点「・」は、その同義コドンに対するこの位置のコドンの標的単一コドン比率を示す。ＡＴＧではこれは１．０（１００％）である。「×」印は表示遺伝子中の実際のコドン比率であり、点線は標的比と実際の比率と間の差を示す。コドンペア重みは−１〜１の間の値である。棒線が隣接するコドンの実際のコドンペア重みを示す一方、五芒星形は最適達成可能同義コドンペアの重みを示す（隣接ペアは考慮しない）。例えば第１の棒線は「ＡＴＧ−ＧＴＣ」の重みである−０．２３であり、第２の棒線は「ＧＴＣ−ＧＣＧ」の重みである０．６６である。配列番号２（ＷＴＡｍｙＢ）の単一コドンおよびコドンペア統計を示す。配列番号５（単一コドン最適化されたＡｍｙＢ）の単一コドンおよびコドンペア統計を示す。配列番号６（単一コドンおよびコドンペア最適化されたＷＴＡｍｙＢ）の単一コドンおよびコドンペア統計を示す。発現ベクターｐＧＢＦＩＮＦＵＡ−１のプラスミドマップを示す。図２１はまた、プラスミドｐＧＢＦＩＮＦＵＡ−２およびｐＧＢＦＩＮＦＵＡ−３の代表的なマップも提供する。全てのクローンは、ｐＧＢＦＩＮ−１２（国際公開第９９／３２６１７号パンフレットで述べられている）発現ベクターが起源である。指し示されているのは、ａｍｙＢプロモーターの変異配列に対するｇｌａＡ隣接領域と、α−アミラーゼをコードするＡ．ニガー（ｎｉｇｅｒ）ａｍｙＢｃＤＮＡ配列である。大腸菌（Ｅ．ｃｏｌｉ）ＤＮＡは、Ａ．ニガー（ｎｉｇｅｒ）株の形質転換に先だって、制限酵素ＮｏｔＩでの消化によって除去できる。単一相同的組換えを通じた組み込みの略図を示す。発現ベクターは、選択可能なａｍｄＳマーカーと、ａｍｙＢ遺伝子を結ぶｇｌａＡプロモーターとを含んでなる。これらの特徴はｇｌａＡ遺伝子座（それぞれ３’ｇｌａＡおよび３’’ｇｌａＡ）の相同的な領域に隣接し、ゲノムのｇｌａＡ遺伝子座での組み込みを指示する。３つの異なるコンストラクトを発現するＡ．ニガー（ｎｉｇｅｒ）株のための培養ブロス中のα−アミラーゼ活性を示す。示されるのは、天然ａｍｙＢコンストラクトを発現するＡ．ニガー（ｎｉｇｅｒ）株の培養ブロス中のα−アミラーゼ活性であり、本発明の方法に従って、（１）翻訳開始配列および翻訳終止配列が改変され（ｐＧＢＦＩＮＦＵＡ−１）、（２）翻訳開始配列、翻訳終止配列、および単一コドン使用頻度が改変され（ｐＧＢＦＩＮＦＵＡ−２）、（３）翻訳開始配列、翻訳終止配列、および単一コドン使用頻度およびコドンペア使用頻度が改変された（ｐＧＢＦＩＮＦＵＡ−３）。α−アミラーゼ活性は相対単位［ＡＵ］で示され、４日目における１０株のＦＵＡ１群の６個の１コピー株の平均を１００％に設定する。示した群あたり１０個の形質転換体を独立して単離し、形質転換体に培養した。（１および２）バシラス（Ｂａｃｉｌｌｕｓ）種の単一コドン最適化について、単一コドン頻度を示す。下位グラフの説明は図１４にある。灰色のヒストグラムは、枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）中の５０個の最も高く発現される遺伝子のコドン分布を表す。テキストを参照されたい。黒色棒線は標的単一コドン頻度を示す。配列番号１４（１／３）、配列番号１７（２／３）、および配列番号１４（３／３）の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア＋単一コドン（１／３）、単一コドン（２／３）、および負のコドンペア＋単一コドン最適化（３／３）を使用して最適化された。グラフの説明については図１７を参照されたい。配列番号１４（１／３）、配列番号１７（２／３）、および配列番号１４（３／３）の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア＋単一コドン（１／３）、単一コドン（２／３）、および負のコドンペア＋単一コドン最適化（３／３）を使用して最適化された。グラフの説明については図１７を参照されたい。配列番号１４（１／３）、配列番号１７（２／３）、および配列番号１４（３／３）の単一コドンおよびコドンペア統計を示し、配列決定は、それぞれコドンペア＋単一コドン（１／３）、単一コドン（２／３）、および負のコドンペア＋単一コドン最適化（３／３）を使用して最適化された。グラフの説明については図１７を参照されたい。大腸菌（Ｅ．ｃｏｌｉ）／バシラス（Ｂａｃｉｌｌｕｓ）シャトルベクターｐＢＨＡ−１２。多重クローニング部位（ＭＣＳ）１および２が示される。大腸菌（Ｅ．ｃｏｌｉ）／バシラス（Ｂａｃｉｌｌｕｓ）シャトルベクターｐＢＨＡ−１２中の遺伝子のクローニングの例。図は、配列番号９のクローニングされた部分ＡおよびＢ（灰色矢印）を示す。１Ａ部分のクローニング部位ＮｄｅＩおよびＢａｍＨＩ、１Ｂ部分のクローニング部位ＳｍａＩおよびＫｐｎＩが示される。大腸菌（Ｅ．ｃｏｌｉ）部分はＰｖｕＩＩを使用して切除した。

［発明の詳細な説明］
単一コドンバイアスに加えて、例えばジヌクレオチド、または特定の短いヌクレオチド配列の反復などのヌクレオチド配列中のその他の構造もまた、タンパク質発現に影響を及ぼしている可能性が高い（コドン使用頻度は結局の所、読み枠と一致したトリヌクレオチド配列中のパターンとして解釈できる）。この研究は、特定のコドンペアについて優先度を同定する方法、すなわちコドンがあたかも同定されたコドン使用比率に従って選択されるが、次に（アミノ酸配列について）遺伝子中に無作為に分布されるかのようにそれらが遺伝子中に出現するかどうか、またはあるコドンが特定コドンの隣により頻繁に、その他のコドンの隣により稀に出現するかどうかを同定する方法を提示する。

コドンペア分析はまた、その他の側面、すなわち読み枠境界周辺のジヌクレオチド使用頻度、およびコドンの隣の特定の単一ヌクレオチドについての可能な優先度もカバーする。本発明は、それによって配列決定された全ゲノムの全ての同定されたＯＲＦ、または例えば高度に発現される遺伝子などの選択された遺伝子群のどちらかがインプットとして使用される、コドンペアバイアス表を特定宿主生物のために作り出す方法を開示する。本発明は、続いて、対応する対象とするタンパク質（ＰＯＩ）の発現を改善するために、対象とする遺伝子（ＧＯＩ）中のコドンペア分布の最適化のために、このようにして同定されたコドンペアバイアス表を適用する方法を開示する。

単一コドン最適化は、対象とするタンパク質の発現レベルを改善するための良好な出発点を提供する。他の研究者らが、宿主生物の適応によって、低含量のｔＲＮＡのためのｔＲＮＡ遺伝子の追加的コピーを挿入して、対象とする遺伝子中の拒否されたコドンの存在に起因する欠点を克服することを試みたのに対し（例えばどちらも大腸菌（Ｅ．ｃｏｌｉ）である、ストラタジーン（Ｓｔｒａｔａｇｅｎｅ）からのＢＬ−２１コドンプラス（ＣｏｄｏｎＰｌｕｓ）（商標）コンピテント細胞、およびノバジェン（Ｎｏｖａｇｅｎ）からのロゼッタ（Ｒｏｓｅｔｔａ）（商標）宿主株）、本発明者らは対象とする遺伝子の適応それ自体に着目した。遺伝的配列中の望まれないコドンは、得られた配列の単一コドン分布が、以前同定された所望のコドン比率にできるだけ近くなるように、同義コドンによって置換された。

しかし最適化された遺伝子中の総コドン分布が選択基準であるため、このコドン調和は等しく「最適」である非常に多数の可能な遺伝子をなおも有するので、例えば特定酵素の制限部位の不在、またはフレームシフトを引き起こすことが知られているコドンペアなどのコドン配列のさらなる所望の特性を容易に考慮に入れることができる。一歩進めると、限られた範囲内でコドンペア使用頻度を最適化できる。しかし過少に現れる単一コドンからなる好ましいコドンペアがあるかもしれないので、例えば最も豊富なものの使用に向けて遺伝子のコドンペアを最適化すると、得られた配列の単一コドン使用頻度は最適に近くないかもしれないため、単一コドンおよびコドンペア最適化の間の均衡を見いださなくてはならない。本発明は、単一コドンおよびコドンペア最適化の双方の均衡を取れるようにする方法を開示する。コドンペア重複、および前記コドンペア最適化と単一コドン最適化との特定の組み合わせを考慮に入れたコドンペア最適化は、対象とするポリペプチドをコードするヌクレオチド配列の発現を大幅に改善し、および／または前記ポリペプチドの生成を改善する。

本発明の文脈で、ヌクレオチドコード配列またはコード配列は、ポリペプチドをコードするヌクレオチド配列と定義される。コード配列の境界は、一般に、ｍＲＮＡの５’末端で読み取り枠の始まりに位置する開始コドン（通常、真核生物ではＡＴＧである一方、原核生物ではＡＴＧ、ＣＴＧ、ＧＴＧ、ＴＴＧの１つであることができる）、およびｍＲＮＡの３’末端で読み取り枠のすぐ下流に位置する停止コドン（一般にＴＡＡ、ＴＧＡ、ＴＡＧの１つであるが、この「普遍的」コーディングの例外も存在する）によって決まる。コード配列としては、限定されるものではないが、ＤＮＡ、ｃＤＮＡ、ＲＮＡ、および組み換え核酸（ＤＮＡ、ｃＤＮＡ、ＲＮＡ）配列（ＲＮＡ中でウラシルＵがデオキシヌクレオチドチミンＴを置換することは当該技術分野でよく知られていることに留意されたい）が挙げられる。コード配列が真核生物細胞中での発現を意図するならば、ポリアデニル化シグナルおよび転写終止配列は、通常、コード配列の３’側に位置する。コード配列は、翻訳開始コード配列、および場合によりシグナル配列、および場合により１つ以上のイントロン配列を含んでなる。「コード配列」および「遺伝子」という用語は、厳密には同一の実体を指さないにもかかわらず、双方の用語はここで同義的に使用されることが多く、当業者は用語が全遺伝子を指すのか、またはそのコード配列のみを指すのかを文脈から理解するであろう。

［単一コドンおよび／またはコドンペア適合のための方法およびコンピューター構成］
高度に発現される遺伝子の単一コドン使用特性については、全遺伝子中と、一群の高度に発現される遺伝子中との単一コドン比率を「手動」比較することで、それらの発現レベルについて遺伝子を改善するためのいくつかの「所望コドン比率」がもたらされた。

次に遺伝子の単一コドン適合が、以下によって実施できる。（１）遺伝子中の実際の比率を計算して、その所望の比率が実際の比率よりも低いコドンを（例えば無作為に）繰り返し選択し、それを比率が低すぎる同義コドンによって置換する；または（２）「所望のコドン比率」を使用して各コドンの所望の数を計算し、同義コドン群を作成して、所定のアミノ酸をコードする同義の群から、遺伝子中の各位置についてコドンを（例えば無作為に）繰り返し選択し；方法（１）および／または（２）を使用して複数の変異体を作成し、追加的選択判定基準に基づいて最も妥当な遺伝子（例えば望まれるおよび望まれない制限部位および／または折りたたみエネルギー）を選択する。

けれどもこのアプローチは、第一に全コドンペアについてのバイアスデータの目視検査が複雑さの観点から全く不可能であること、第２に２つの関与コドンの少なくとも１つの置換を意味する１つのコドンペアの改変は、隣接するコドンペアの少なくとも１つにもまた影響することからコドンペア適合にはふさわしくなく、したがって「所望のコドンペア比率」は達成不能である。これに含意される制約のために、決定論的アプローチは複雑すぎて有望さが十分でないと見なされ、次に「遺伝的アルゴリズム」アプローチが選ばれた。

「遺伝的アルゴリズム」という用語は、遺伝子操作に関連しているようで意味が紛らわしいかもしれない。しかし「遺伝的アルゴリズム」は、多次元最適化問題の解を近似するのに使用されるコンピューター科学からのアプローチである（Ｍｉｃｈａｌｅｗｉｃｚ，Ｚ．「遺伝的アルゴリズム＋データ構造＝進化プログラム（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓ＋ＤａｔａＳｔｒｕｃｔｕｒｅ＝ＥｖｏｌｕｔｉｏｎＰｒｏｇｒａｍｓ）」ＳｐｒｉｎｇｅｒＶｅｒｌａｇ１９９４年；ＤａｖｉｄＥ．Ｇｏｌｄｂｅｒｇ「検索における遺伝的アルゴリズム、最適化および機械学習（ＧｅｎｅｔｉｃＡｌｇｏｒｉｔｈｍｓｉｎＳｅａｒｃｈ，ＯｐｔｉｍｉｚａｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）」Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ、Ｒｅａｄｉｎｇ，ＭＡ、１９８９年；ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｇｅｎｅｔｉｃ＿ａｌｇｏｒｉｔｈｍ）。本発明では、「最良の」可能な遺伝子、すなわち対象とする特定のタンパク質のコード配列を選択する最適化問題を解決するのに、このアプローチを使用する。このアプローチでは、遺伝子中の各位置、すなわち各コドンは一次元と見なすことができ、値のセットは離散しており利用できる同義コドンによって決まる。

一般に遺伝的アルゴリズムでは、（その他の多数の方法アプローチも存在するが）最初に問題に対する可能な「解」のセットが、無作為に、または最初に提供された解のバリエーションによって作り出されることが多い。このセットは「母集団」と称され、その要素は「個体」または「染色体」であり、各次元のための座標を含有するベクトル（数学的意味での）によって大抵表される。遺伝的アルゴリズムは自然淘汰に関与する過程をモデルにしたので、用語の多くは遺伝学から借用される。しかしそれらは（この場合とは違って）大抵コンピューター科学の分野において、そしてそれに対して適用されるが、例えばタンパク質二次構造予測のため（Ａｒｍａｎｏら、２００５年、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１（６）補遺４：Ｓ３頁；コンピューター内代謝経路網最適化のため（Ｐａｔｉｌら、２００５年、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ２３（６）：３０８頁）；クラスター形成遺伝子発現データのため（ＤｉＧｅｓｕら、２００５年、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ７（６）：２８９頁）など、生物学的科学問題における遺伝的アルゴリズムの適用に対するいくつかの例もまた提示されている。

本例では、ベクターはコドンを含有する。その母集団から、既存個体の特定位置の改変（「突然変異」）によって、または別の個体からの別の部分（すなわち別の次元の座標）がある個体の部分（すなわち特定座標）の組み合わせ（「交叉」）によって、新しい個体が作り出される。次に（新しい個体はまた、最初の最適化問題の可能な解でもあるので）これらの個体がどれほど良いかを試験して、より良い（「最適」）個体を新しい個体（「次世代」）を作り出すための最初の母集団として再度選ぶ（例えば最良の１０、２０、３０、４０、５０、６０％を保持するが、例えばルーレット盤選択など、適合個体に向けた収束を得るため、子孫のためのサブセットを選択する多数のその他の可能性が存在する。Ｍｉｃｈａｌｅｗｉｃｚ，Ｚ、１９９４年、を参照されたい）。最初の母集団から最良の個体が次世代に引き継がれるようにする場合、各母集団で可能な解の質が良くなり、または少なくとも同じままであることが確実になる。次に多数の世代（＝反復；問題の複雑さ次第で数百から数千）についてこのアルゴリズムを実行することで、最適に近い解が得られると仮定される。母集団サイズと世代数の最適比、アルゴリズムが局所最適解から抜け出せなくなることをどのように防止するかなどのプロパティを含む遺伝的アルゴリズムは、コンピューター科学において詳しく研究されているが、これはここでは大した問題ではない。実際の最適化手順のためにこれらのパラメーターをどのように設定するかという情報については、実施例２におけるＭＡＴＬＡＢの遺伝的アルゴリズム実行の説明を参照されたい。

これは図２に言及して詳細に説明される。図２は、遺伝子最適化のための遺伝的アルゴリズムのフローチャートを示す。このような遺伝的アルゴリズムは、その例が最初に図１に言及して示され説明される、適切にプログラムされたコンピューター上で実施できる。図１は、本発明に従った方法を実行するのに使用できるコンピューター構成概要を示す。この構成は、算術演算を実行するためのプロセッサー１を含んでなる。

遺伝的アルゴリズムは無作為化ステップを伴うので（例えば無作為化選択判定基準および／または無作為化操作者選択および／または可能解の無作為化生成）、それらは一般に非決定性であることに留意されたいが、しかし決定論的に作動する例外も存在する。「遺伝的アルゴリズム」とは、可能解の群（母集団と称される）を扱うアルゴリズムのための一般的ツールであり、それは（新たに）作り出された解のスクリーニングおよび／または選択および／または除去、および／または（再）導入によって、１つまたは複数の目的を使用することで最適解に向けて推進される。この定義を考慮して、直線プログラミングおよび勾配アルゴリズムのような決定性アルゴリズムを使用した、最適解に向けた単一可能解の収束に基づく方法とは反対のアルゴリズムの類似クラスに属する、進化的プログラミング、進化的アルゴリズム、古典的な遺伝的アルゴリズム、実数コード遺伝的アルゴリズム、焼き鈍し法、ａｎｔアルゴリズム、およびモンテカルロおよび走化性法としての方法についてもまた述べられている。さらに当業者は文脈から、別の独自の用語が同一クラスのアルゴリズムを指すかどうかを理解するであろう。さらに遺伝的アルゴリズムが好ましい方法であるが、本発明者らは、本発明内で述べられているような単一コドンおよび／またはコドンペア最適化問題を解決するために、遺伝的アルゴリズム以外のその他のあらゆる方法を除外しない。

プロセッサー１は、ハードディスク５、読み取り専用メモリー（ＲＯＭ）７、電気的に消去可能なプログラマブル読み取り専用メモリー（ＥＥＰＲＯＭ）９、およびランダムアクセスメモリー（ＲＡＭ）１１を含む複数のメモリー構成要素に接続される。これらのメモリータイプの全ては必ずしも提供されない。さらにこれらのメモリー構成要素は、プロセッサー１に必ずしも物理的に近く位置せず、プロセッサー１から遠く離れて位置してもよい。

プロセッサー１はまた、キーボード１３およびマウス１５のようなユーザーが命令、データを入力する手段にも接続される。タッチスクリーン、トラックボールおよび／または音声コンバーターなどの当業者に知られているその他の入力手段を提供してもよい。

プロセッサー１に接続する読取機構１７が提供される。読取機構１７は、フロッピーディスク１９またはＣＤＲＯＭ２１のようなデータ媒体からデータを読み取り、おそらくそれにデータを書き込むように構成される。当業者に知られているように、その他のデータ媒体は、テープ、ＤＶＤ、メモリースティックなどであってもよい。

プロセッサー１はまた、紙に出力データを印刷するためのプリンター２３にも接続し、ならびに例えばモニターまたはＬＣＤ（液晶ディスプレー）スクリーン、または当業者に知られているその他のあらゆるタイプのディスプレーなどのディスプレー３にも接続する。

プロセッサー１は、Ｉ／Ｏ手段２５によって、例えば公衆交換電話網（ＰＳＴＮ）、ローカルエリアネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）などの通信網２７に接続してもよい。プロセッサー１は、ネットワーク２７を通じてその他の通信装置と情報交換するように構成されてもよい。

データ媒体１９、２１は、本発明に従った方法を遂行する能力をプロセッサーに提供するように構成された、データおよび命令の形態のコンピュータープログラム製品を含んでなってもよい。しかしこのようなコンピュータープログラム製品は、代案としては電気通信ネットワーク２７を通じてダウンロードされてもよい。

プロセッサー１は、スタンドアロンシステムとして、またはそれぞれより大きなコンピュータープログラムのサブタスクを実行するように構成された、複数の並列オペレーティングプロセッサーとして、またはいくつかのサブプロセッサーがある１つ以上のメインプロセッサーとして、実装されてもよい。本発明の機能の部分は、ネットワーク２７を通じてプロセッサー１と通信する遠隔プロセッサーによって実施されてもよい。

ここで、プロセッサー１がそのメモリーに保存されたコンピュータープログラムを実行する際に、その上で実行されてもよい、図２の遺伝的アルゴリズムについて説明する。

操作３２では、コンピューターは、所定のタンパク質をコードする１つ以上の遺伝子を作り出す。これはコンピューターのメモリーに保存された表から、その趣旨でデータを取り出すことで実行できる。このような遺伝子は、例えば次のようであってもよい。

アルゴリズムの目的のために、これらの作り出された遺伝子は、「オリジナル遺伝子」と称される。

操作３２後、コンピュータープログラムは１回以上、操作３４〜４０を実行することで、１つ以上の反復ループを実行する。

操作３４では、コンピュータープログラムは、新たに作り出された遺伝子がなおも所定のタンパク質をコードするように（交叉および突然変異過程）、オリジナル遺伝子の１つ以上のコドンを同義コドンで置換することで、新しい遺伝子を作り出す。それができるように、コンピューターのメモリーは、どのコドンがどのアミノ酸をコードするかを示すコドン使用頻度表を保存する（「汎用遺伝暗号」からの偏差が存在し、これが特定の宿主生物にあてはまるかどうかが考慮されることに留意されたい。例えばＬａｐｌａｚａら、２００６年、ＥｎｚｙｍｅａｎｄＭｉｃｒｏｂｉａｌＴｅｃｈｎｏｌｏｇｙ、３８：７４１〜７４７頁を参照されたい）。当該技術分野でよく知られているように、タンパク質中のアミノ酸配列を知ることで、コンピュータープログラムは代案のコドンを表から選択できる。

操作３２の例を使用して、新たに作り出された遺伝子は、次のようであってもよい（太字で示す）。

操作３６では、オリジナルおよび新たに作り出された遺伝子をはじめとする全遺伝子の品質価値が、コドン適合およびコドンペア適合の少なくとも１つを判定する適合関数を使用して、コンピュータープログラムによって判定される。このような適合関数の例については、下で「コドンペアの最適化を実行する」の節において詳細に説明される。

操作３８では、適合関数に基づいて最良の適合を示すいくつかの遺伝子を「育成過程」（交叉および突然変異）に加えるために選択し、適合関数に基づいて最悪の適合を示すいくつかの遺伝子を母集団から除去するために選択する。これらの数は所定の数であってもよく、または所定の適合改善量に左右されてもよい。これらの遺伝子の選択は決定性であるかもしれないが、一般に「最適遺伝子」が育成のために選択されて、反対のものが母集団から消去されるより高い見込み（ｃｈａｎｇｅ）を有する、確率論的過程が続く。この方法をルーレット盤選択と称する。

得られた育成のために選択される遺伝子は、例えば次のようであってもよい（選択されない遺伝子は取消線で示される）。

操作４０では、コンピュータープログラムは、１つまたは複数の終結判定基準が満たされるかどうかを試験する。終結判定基準の１つは、所定の最大反復数であることが多い。代案の判定基準は、選択される遺伝子によって得られた適合値が、オリジナル遺伝子の適合値と比較して、少なくとも最小閾値分改善されたかどうかをチェックし、または選択される遺伝子によって得られた適合値が、ｎ回の反復前に最良の適合がある遺伝子の適合値と比較して（好ましくは＜１０，１００＞の値であるｎが選択される）、少なくとも最小閾値分改善されたかどうかをチェックする。総体的終結基準が満たされない場合、コンピュータープログラムは、選択された遺伝子を「オリジナル遺伝子」として扱いながら、操作３４にジャンプして戻る。

操作４０において、改善が最小閾値値未満であるとコンピュータープログラムが確立すれば、操作３４〜３８のさらなる繰り返しはほとんど意味をなさず、コンピュータープログラムは操作４２を継続する。

実施された反復回数のようなあらゆるその他の適切な反復停止基準を操作４０で使用して、反復操作３４〜４０を残して操作４２を継続できるものと理解される。

操作４２では、全ての選択される遺伝子中で最良の適合がある遺伝子が選択され、例えばモニターを通じて、またはプリンターによるプリントアウトを通じてユーザーに提示される。

遺伝的アルゴリズムを使用した遺伝子適合の場合、さもなければ別のコドンの１および２個のヌクレオチドの１つのヌクレオチドと組み合わせた際に、得られるアミノ酸配列が変化するかもしれないので、交叉が読み枠位置で常に確実に実施されるようにしなくてはならない。より良い収束のために、改変された変異演算子が提案され、この変異演算子には同義コドン置換のみが許されて、より良い単一コドンまたはより良いコドンペア使用の少なくとも１つがもたらされる。

したがってここでコドンペア最適化に関する重要な質問は、個体の質をいかにして測定するかである。このいわゆる適合関数が最適化される実際の関数であるので、それは遺伝的アルゴリズムの中心部分と見なすことができる。本発明では、好ましいアプローチは、各コドンペアに実数（重みと称される）を割り当てて、遺伝子中の重み平均をその「適合値」とすることであり、このようにして関数の最小化がもたらされる。

本説明において、発明者らは、最小化問題として、遺伝子を最適化する方法について述べる。これはどちらかと言えば恣意的アプローチである。関数ｆを最大化する場合、これが普遍性に対する制限にならないように−ｆの最小を求めた方がよいことに留意されたい。

したがって発現レベルについて良好であると見なされるコドンペアが低い重みを有し、悪いと見なされるペアは高い重みを有する、コドンペア重みを判定するための方法が同定されなくてはならない。

［遺伝子適応のためのコドンペア重み同定］
より高い転写／発現レベルに関連があり、コドンペア使用適応のための入力の役割を果たすかもしれないコドンペア重みを同定するために、ほとんどの発現遺伝子の転写レベルが知られているＡ．ニガー（ｎｉｇｅｒ）、転写レベルのデータが入手できた枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）、また３００セットの高度に発現される遺伝子によってここで例示される、次の方法を適用してもよい。

前述の４，５８４個の実際に発現された遺伝子のセット（実施例１参照）について、ＧｅｎｅＣｈｉｐデータから抽出された完全な格付けが入手できたＡ．ニガー（ｎｉｇｅｒ）中で、各遺伝子の平均コドンペア重み（すなわちｆｉｔ_ｃｐ（ｇ）値の同等物）を計算した。次に遺伝子を適合値（昇順）および発現レベル（降順）に従ってソートした。高度に発現される遺伝子は低いコドンペア適合値を有すると思われるので、理想的コドンペア重みを使用すると、これらの２つの格付けは等しくなり、したがってこれらの２つの格付けの比較は、適合関数で使用される重みの質に関する情報を提供できる（平凡なものの格付けよりも高度に発現される遺伝子の「正しい」格付けにわずかにより多くの注意が払われた）。さらに４，５８４個の遺伝子の格付けと、平均コドンペア重みの間の相関係数（各変数の標準偏差で除した共分散）を計算した。

（ｉ）全ゲノムからのバイアス値、（ｉｉ）一群の高度に発現される遺伝子からのバイアス値、（ｉｉｉ）０に設定された特定の最小ｚ−スコアを有さない全ての値のバイアス（それによって実施例１．１．４で述べられているようにｚ−スコアが判定される）、（ｉｖ）バイアス値の２乗または３乗、４乗、５乗以上（極めて好ましいまたは拒否されるコドンにより低い／より高い影響を与えるため）、（ｖ）ｚ−スコアそれ自体、（ｖｉ）バイアス値／ｚ−スコアと高度に発現される群および全ゲノムとの差、および（ｖｉｉ）（ｉ）〜（ｖｉ）の１つ以上の組み合わせよりなる群から選択される１つ以上をはじめとする、いくつかの可能な重みのセットを本発明の方法で使用してもよい。

好ましいコドンペアが恣意的に正の値で同定されるのに対し、遺伝的アルゴリズムは最小化を実施するので、遺伝的アルゴリズムではそれらの否定（ｎｅｇａｔｉｏｎｓ）が使用されている。これは上述の全ての重みに当てはまる。

より好ましい重みマトリックスは、上述のようにして、全ゲノムのコドン比率を基準にして計算される期待値を使用して、高度に発現される群中でコドンペア「バイアス」を計算することで得られてもよい。

が、なおも全ゲノムデータセット中のｃ_ｋの単一コドン比率を指し、

が高度に発現される群中のペア（ｃ_ｉ，ｃ_ｊ）の出現率を指すのであれば、「合計期待値」

の計算は、

に相当し、したがって

である。

式中、ｗ（（ｃ_ｉ，ｃ_ｊ））は、コドンの配列ｇ中のコドンペア（ｃ_ｉ，ｃ_ｊ）の重みと定義される。最適化関数は最小平均重みを求めるので、分子の２つの項はバイアス値のための式と比べて逆になっているが、これは符号を変える以外には発現レベルとの相関に影響しないことに留意されたい。

試験したその他の全ての重みのセットと異なり、より高度に発現される群中でより過少に現れるコドンが関与するコドンペアは、ここでわずかな不都合を被る。したがってこれらの重みは、高度に発現される群および全遺伝子の異なる単一コドンバイアスもまた反映する唯一のものである。これらの重みを使用することは、高度に発現される群中で実際には正のバイアスを有するが、（高度に発現される群中で）滅多に使われないコドンからなる、いくつかのコドンペアを拒否するリスクを伴う。しかし本発明者らの所望の単一コドン比率は、通常、高度発現する遺伝子群中のものとは同じでなく、これらよりも「極端」であるので、単一コドン最適化は、いずれにしてもこれらの過少に現れるものを置き換え、したがって本発明者らは、上述の重みがコドンペア最適化のために非常に都合よいと見なすことができる。したがってコドンペア重みはまた、限定的に単一コドンバイアスも反映するが、最適化のためには、単一コドン使用頻度は別個の追加的問題と見なされる。

［遺伝的アルゴリズムを使用した単一コドンおよびコドンペアの最適化］
本発明の方法では、好ましくは上で述べられているような遺伝的アルゴリズムを実行するようにプログラムされたコンピューター装置を使用して、コドンペア適合が実行され、または組み合わせた単一コドンおよびコドンペア適合が実行される。単一コドン適合のために遺伝的アルゴリズムを当てはめることもまた可能であり、本発明から除外されないが、ここで望まれないコドンは、隣接するコドンに関する制約なしに同義コドンによって置換でき、したがって遺伝的アルゴリズムを使用することは実際には必要でない。

コドンペアについては、望まれないコドンペアを置換する単一コドン変更は常に別のコドンペアを変更して、これは必ずしも改善でなく、隣接するコドンペア中の改悪を修正することは、次にまた別のペアを変更していくため、単一コドンを変更することは通常２つのコドンペアの重みを変更し、したがってコドンペア最適化は強く制約される。

変異演算子については、コードされたペプチド配列を変化させなかったコドン配列改変、および単一コドン適合およびコドンペア適合の少なくとも１つを改善したコドン配列改変のみが許され、すなわち変異演算子はコドンを変更する前に、（所望の単一コドン比率に従って）過少に現れる、またはそれが関与する２つのコドンペアがより良い重みを有するものであるのどちらかである、同義コドンを探す。２つのタイプの突然変異のどちらが実行されるかは、無作為に選択される。あらゆる単一コドンに前者の「変異」演算子を実施することは、いかなる遺伝的アルゴリズムも使用せず、単一コドン最適化された遺伝子を作り出すのに十分である。

遺伝子の質は、２つの側面、すなわち単一コドン「適合」およびコドンペア「適合」を考慮して判定される。後者は単に、コドン（または遺伝子）の配列ｇ中の全コドンペアの重みの平均ｗ（（ｃ（ｋ）、ｃ（ｋ＋１））である。すなわちｇがここでもコドン配列を表す場合、｜ｇ｜はその長さ（コドン数）、およびｃ（ｋ）はそのｋ番目のコドンで、

である。

単一コドン適合は、あらゆるコドン出現回数について正規化した、遺伝子中の実際のコドン比率と標的コドン比率との差と定義される。単一コドン比率は実施例１．１．２で述べられているように定義され、判定されてもよい。

がコドンｃ_ｋの所望の比率（または頻度）であり、

が前と同じく遺伝子ｇ中の実際の比率であれば、単一コドン適合は、

と定義される。

したがってｆｉｔ_ｓｃが最適配列が０に近くなると［０，１］中の値に達することができるのに対し、ｆｉｔ_ｃｐはここでもまた［−１，１］中に、重みによって制限される。

双方の側面を最適化するために、実施態様中で、組み合わせ適合関数が導入されている。

ここで「コドンペア重要性」を表すｃｐｉは０を超える実数であり、組み合わせ適合に対して、２つの適合関数のどちらがより大きな影響を有するかを判定する。０に近いｃｐｉでは、ｆｉｔ_ｓｃ（ｇ）がより良くなる（すなわちこれもまた０に近い）と分母は０に近づき、したがってｆｉｔ_ｓｃ（ｇ）の小さな変化はｆｉｔ_ｃｐ（ｇ）の小さな変化よりもｆｉｔ_{ｃｏｍｂｉ}（ｇ）に影響するのに対し、高いｃｐｉでは、ｆｉｔ_ｃｐ（ｇ）のわずかな改善は、ｆｉｔ_{ｃｏｍｂｉ}（ｇ）に対してｆｉｔ_ｓｃ（ｇ）の中程度の改善よりも大きな影響を有するかもしれない。異なるｃｐｉの値を使用して得られたｆｉｔ_{ｃｏｍｂｉ}値は、比較できないことに留意されたい（０に近いｃｐｉは−１００に近いｆｉｔ_{ｃｏｍｂｉ}値をもたらすかもしれないのに対し、ｃｐｉ＞０．２ではｆｉｔ_{ｃｏｍｂｉ}は通常０〜−１の間である）。

実施態様では、ｇが、例えば制限部位、またはｍＲＮＡ中に望まれない二次構造をもたらす配列などの特定の望まれない配列を含有する場合、「ペナルティ」が追加される。これは合成遺伝子を構築する場合に有用かもしれないが、それ自体は、単一コドンおよびコドンペア使用最適化に関係がない。改変適合関数は次のようになる。

式中、Ｐ（ｇ）は、望まれない配列構造が遺伝子ｇの部分である場合、正の重みを作り出すペナルティ関数を表す。

本発明の実施態様では、ヌクレオチドおよびアミノ酸配列は、例えば紙上、または別の好ましくはコンピューター可読データ媒体のみに存在する理論的な配列であってもよく、またはそれらは実体的な物理的に作り出される実施態様として存在してもよいものと理解される。

したがって本発明の第１の態様は、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチドコード配列を最適化する方法に関する。本方法は、好ましくは、（ａ）所定のアミノ酸配列をコードする少なくとも１つのオリジナルコード配列を作り出すステップと、（ｂ）この少なくとも１つのオリジナルコード配列中で、１つ以上のコドンを同義コドンによって置換することによって、この少なくとも１つのオリジナルコード配列から少なくとも１つの新たに作り出されたコード配列を作り出すステップと、（ｃ）所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも１つを判定する適合関数を使用して、前記少なくとも１つのオリジナルコード配列の適合値および前記少なくとも１つの新たに作り出されたコード配列の適合値を判定するステップと、（ｄ）前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも１つのオリジナル遺伝子および前記少なくとも１つの新たに作り出されたコード配列中で、１つ以上の選択されるコード配列を選択するステップと、（ｅ）操作ｂ）からｄ）において前記１つ以上の選択されたコード配列を１つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作ｂ）からｄ）を繰り返すステップを含んでなる。

本発明の実施態様に従って、本方法は、好ましくは、（ａ）所定のアミノ酸配列をコードする少なくとも１つのオリジナルコード配列を作り出すステップと、（ｂ）この少なくとも１つのオリジナルコード配列中で、１つ以上のコドンを同義コドンによって置換することによって、この少なくとも１つのオリジナルコード配列から少なくとも１つの新たに作り出されたコード配列を作り出すステップと、（ｃ）所定の宿主細胞についてコドンペア適合を判定する適合関数を使用して、前記少なくとも１つのオリジナルコード配列の適合値および前記少なくとも１つの新たに作り出されたコード配列の適合値を判定するステップと、（ｄ）前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも１つのオリジナル遺伝子および前記少なくとも１つの新たに作り出されたコード配列中で、１つ以上の選択されるコード配列を選択するステップと、（ｅ）操作ｂ）からｄ）において前記１つ以上の選択されたコード配列を１つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作ｂ）からｄ）を繰り返すステップを含んでなる。

本発明の別の実施態様に従って、本方法は、好ましくは（ａ）所定のアミノ酸配列をコードする少なくとも１つのオリジナルコード配列を作り出すステップと、（ｂ）この少なくとも１つのオリジナルコード配列中で、１つ以上のコドンを同義コドンによって置換することによって、この少なくとも１つのオリジナルコード配列から少なくとも１つの新たに作り出されたコード配列を作り出すステップと、（ｃ）所定の宿主細胞について単一コドン適合およびコドンペア適合を判定する適合関数を使用して、前記少なくとも１つのオリジナルコード配列の適合値および前記少なくとも１つの新たに作り出されたコード配列の適合値を判定するステップと、（ｄ）前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも１つのオリジナル遺伝子および前記少なくとも１つの新たに作り出されたコード配列中で、１つ以上の選択されるコード配列を選択するステップと、（ｅ）操作ｂ）からｄ）において前記１つ以上の選択されたコード配列を１つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作ｂ）からｄ）を繰り返すステップを含んでなる。

本方法では、好ましくは所定の選択基準は、前記１つ以上の選択されるコード配列が、所定の基準に従って最良適合値を有するようなものである。本発明に従った方法は、操作ｅ）後に、前記１つ以上の選択されるコード配列の中で最良の個々のコード配列を選択するステップをさらに含んでなってもよく、前記最良の個々のコード配列はその他の選択されるコード配列よりも良い適合値を有する。

本発明の方法では、前記所定の反復停止基準は、好ましくは、（ａ）前記選択されたコード配列の少なくとも１つが所定の閾値を超える最良適合値を有するかどうかの試験、（ｂ）前記選択されたコード配列がいずれも所定の閾値未満の最良適合値を有さないかどうかの試験、（ｃ）前記選択されたコード配列の少なくとも１つが、前記オリジナルコード配列中で所定の宿主細胞について関連する正のコドンペア重みがあるコドンペアの少なくとも３０％を関連する負の重みがあるコドンペアに転換するかどうかの試験、（ｄ）前記選択されたコード配列の少なくとも１つが、前記オリジナルコード配列中で所定の宿主細胞について０を超える関連する正の重みがあるコドンペアの少なくとも１０、２０、３０、４０、５０、６０、７０、８０または９０％を０未満の関連する重みがあるコドンペアに転換するかどうかの試験の少なくとも１つである。

本発明の方法では、前記適合関数は好ましくは、

（式中、
ｇはコード配列、｜ｇ｜はその長さ、ｇ（ｋ）はそのｋ番目のコドンを表し、

はコドンｃ（ｋ）（付録２；ＣＲベクター）の所望の比率であり、

はヌクレオチドコード配列ｇ中の実際の比率である）によって単一コドン適合を定義する。

本発明の方法では、適合関数は好ましくは

（式中、
ｗ（（ｃ（ｋ）、ｃ（ｋ＋１））はコード配列ｇ中のコドンペア重みであり、｜ｇ｜は前記ヌクレオチドコード配列の長さであり、ｃ（ｋ）は前記コード配列中のｋ番目のコドンである）によってコドンペア適合を定義する。

より好ましくは、本発明の方法では、適合関数が、

（式中、

であり、ｃｐｉは０以上の実数であり、ｆｉｔ_ｃｐ（ｇ）はコドンペア適合関数であり、ｆｉｔ_ｓｃ（ｇ）は単一コドン適合関数であり、ｗ（（ｃ（ｋ）、ｃ（ｋ＋１））はコード配列ｇ中のコドンペア重みであり（付録３；ＣＰＷマトリックス）、｜ｇ｜は前記コード配列の長さであり、ｃ（ｋ）は前記コドン配列中のｋ番目のコドンであり、

は、コドンｃ（ｋ）の所望の比率であり、

はコード配列ｇ中の実際の比率である）によって定義される。好ましくはｃｐｉは０〜１０の間、より好ましくは０〜０．５の間、最も好ましくは約０．２である。

本発明の方法では、コドンペア重みｗ（付録３）は、停止コドンを含む６４×６４コドンペアマトリックスから得てもよい。停止：センスペアおよび停止：停止ペアの重みは、常に０であることに留意されたい。コドンペア重みｗは、好ましくは、（ａ）タンパク質をコードするヌクレオチド配列の少なくとも５、１０、２０または８０％が配列決定された、所定の宿主細胞のゲノム配列、（ｂ）タンパク質をコードするヌクレオチド配列の少なくとも５、１０、２０または８０％が配列決定された、所定の宿主細胞の近縁種のゲノム配列、（ｃ）所定の宿主細胞の少なくとも２００個のコード配列からなる、一群のヌクレオチド配列、および（ｄ）所定の宿主細胞の近縁種の少なくとも２００個のコード配列からなる、一群のヌクレオチド配列の少なくとも１つをインプットとして使用し、コンピューターベースの方法に基づいて計算される。近縁種とは、ここでその小サブユニットリボソームＲＮＡのヌクレオチド配列が、所定の宿主細胞の小サブユニットリボソームＲＮＡのヌクレオチド配列と少なくとも６０、７０、８０，または９０％の同一性を有する種を指すものと理解される（Ｗｕｙｔｓら、２００４年、ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．３２：Ｄ１０１〜Ｄ１０３頁）。

コドンペア重みｗは、停止コドンとして終結シグナルを含む可能な６１×６４コドンペアの全てについて必ずしも判定されないが、例えば停止コドンとして終結シグナルを含む可能な６１×６４コドンペアの少なくとも５％、１０％、２０％、５０％、および好ましくは１００％などのその一部のみについて判定されてもよい。

［高度に発現される遺伝子の選択（Ｓｅｌｅｃｔｉｏｎｈｉｇｈｌｙｅｘｐｒｅｓｓｅｄｇｅｎｅｓ）］
コドンペア重みマトリックスおよび単一コドン目標比ベクトルを計算するために、規定の宿主細胞それ自体からのヌクレオチド配列のセット、近縁種からのヌクレオチド配列のセット、または双方の組み合わせを適用できる。ヌクレオチド配列のセットＡは、「参照セット、全て（ｒｅｆｅｒｅｎｃｅｓｅｔａｌｌ）」と称される。最も好ましくはこのセットは完全に配列決定された（＞９５％）生物の読み取り枠（ＯＲＦ）のフルセットを含有する。

好ましい本発明の実施態様では、高度に発現される遺伝子または高度に発現されるタンパク質をコードする遺伝子によって過剰に現れるサブセットを含有する、サブセットＢが選択される。このセットは、測定と、続くアレイ技術を使用したｍＲＮＡハイブリダイゼーションのような格付けとを使用して判定でき、例えばアフィメトリクス（Ａｆｆｙｍｅｔｒｉｘ）、Ｎｉｍｂｌｅｇｅｎ、アジレント（Ａｇｉｌｅｎｔ）からのアレイ、またはあらゆるその他の参照セットＡの供給元などがある。別の測定は、ＲＴ−ＰＣＲ、タンパク質ゲル、ＭＳ−ＭＳ分析、または当業者に知られているあらゆるその他の測定技術であることができる。測定に基づいて格付けするのに加えて、バイオインフォマティクスツールを適用して、例えば最も偏っている遺伝子を選択することによって（Ｃａｒｂｏｎｅら、２００３年）、または広範な生物中で高度に発現されることが知られている遺伝子を選択することによって、一群の高度に発現される遺伝子を直接予測することもできる。これらとしては、特に、一次代謝に関与するリボソームタンパク質、解糖およびＴＣＡ回路遺伝子、転写および翻訳に関与する遺伝子などが挙げられる。

好ましくはコドンペア重みｗは、所定の宿主細胞中の一群の高度に発現される遺伝子をインプットとして使用して、コンピューターベースの方法に基づいて計算される。高度に発現される遺伝子は、ここでそのｍＲＮＡが、細胞１個あたり少なくとも１０、好ましくは２０、より好ましくは５０、より好ましくは１００、より好ましくは５００、最も好ましくは少なくとも１，０００コピーのレベルで検出できる遺伝子を意味するものと理解される。例えばＧｙｇｉらは、酵母細胞１個あたり約１５，０００個のｍＲＮＡ分子を測定した。特異的ｍＲＮＡの存在量は細胞１個あたり０．１〜４７０個の範囲内であると判定され（Ｇｙｇｉ，Ｓ．Ｐ．、Ｙ．Ｒｏｃｈｏｎ、Ｂ．Ｒ．Ｆｒａｎｚａ、およびＲ．Ａｅｂｅｒｓｏｌｄ（１９９９年）「酵母中のタンパク質とｍＲＮＡ存在量の間の相関（ＣｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｐｒｏｔｅｉｎａｎｄｍＲＮＡａｂｕｎｄａｎｃｅｉｎｙｅａｓｔ）」Ｍｏｌ．Ｃｅｌ．Ｂｉｏｌ．１９（３）：１７２０〜３０頁）、または１０分の１で細胞１個あたり０．０１〜５０個（Ａｋａｓｈｉ，Ｈ．（２００３年）「翻訳選択および酵母プロテオーム進化（Ｔｒａｎｓｌａｔｉｏｎａｌｓｅｌｅｃｔｉｏｎａｎｄｙｅａｓｔｐｒｏｔｅｏｍｅｅｖｏｌｕｔｉｏｎ）」Ｇｅｎｅｔｉｃｓ１６４（４）：１２９１〜１３０３頁）であった。

代案としては、所定の宿主細胞中の一群の高度に発現される遺伝子は、１０００、５００、４００、３００、または２００または１００個の最も豊富なｍＲＮＡまたはタンパク質を含んでなる群であってもよい。当業者は、最大で６４個のみの目標値しか指定されないので、単一コドン比を計算するためには、高度に発現される遺伝子の群サイズが小さいかもしれないことを認識するであろう。ここで高度に発現される遺伝子の参照セットは、遺伝子１個程度に小さいかもしれないが、一般に１％のゲノムサイズを高度に発現される遺伝子の代表的セットと見なし、例えばＣａｒｂｏｎｅ，Ａ．ら（２００３年）「優勢なコドンバイアスの指標としてのコドン適合指数（Ｃｏｄｏｎａｄａｐｔａｔｉｏｎｉｎｄｅｘａｓａｍｅａｓｕｒｅｏｆｄｏｍｉｎａｔｉｎｇｃｏｄｏｎｂｉａｓ）」Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．１９（１６）：２００５〜１５頁）を参照されたい。コドンペア重みマトリックスを計算するために、通常２００〜５００個の参照遺伝子セットで足り、これは２〜７％の細菌ゲノム（３０００〜１５０００個の遺伝子）に一致する。

別の可能性は、文献から推定上高度に発現される遺伝子のサブセットを導き出すことである。例えばモデル生物である枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）では、単一コドンバイアスに関するかなりの文献が存在する。枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）の最先端技術に関する優れた概要が、Ｋａｎａｙａら（１９９９年）の研究で提供される。本発明者らのアプローチ（実施例４を参照）では、本発明者らはデータをアフィメトリクス技術によって測定されるｍＲＮＡレベルに基づいて、高度に発現される群のサブセットに分類し、これらの配列をゲノムＯＲＦの全セットと比較した。文献で使用されているその他のオプションは、タンパク質発現データ、およびリボソームタンパク質、翻訳および転写、胞子形成、エネルギー代謝、および鞭毛システムに関与するタンパク質のような（期待）遺伝子の機能別カテゴリーである。（Ｋａｎａｙａら、１９９９年；ＫａｒｌｉｎおよびＭｒａｚｅｋ、２０００年）。

実際、リボソームタンパク質中に、ならびにその他の指名された群中に、例えば高いコドンバイアスを見いだすことが多い。しかし一般に、後者の群中の全ての遺伝子が、このような挙動を示すわけではない。また本発明者らは、リボソームタンパク質が、低生育産生条件でいかに反応するかを知らない。したがって高度に発現される遺伝子のサブセットを誘導するための単刀直入な測定技術は、論理的であるように見える。次に本発明者らはトランスクリプトミクス（ＴＸ）および／またはプロテオミクス（ＰＸ）データを選択できた。双方について良い点と悪い点がある。ＴＸは全ゲノム中の遺伝子のｍＲＮＡレベルについてかなりの全体像を提供するのに対し、ＰＸデータは水溶性タンパク質の過剰出現のために偏っているかもしれない。ＴＸデータが翻訳対象である利用できるｍＲＮＡの直接測定であるのに対し、タンパク質はその中で代謝回転もまた重要な役割を果たす蓄積過程の一部である。いずれにせよＴＸおよびＰＸデータは、高度に発現される遺伝子に相関することが示される（Ｇｙｇｉら、１９９９年）。別の興味深い研究は、平均コドン使用頻度からの偏差、およびリボソームタンパク質、および翻訳および転写プロセシング要因に関与するもの、およびシャペロン分解タンパク質との類似性による、高度に発現される（ＰＨＸ）遺伝子の予測である（ＫａｒｌｉｎおよびＭｒａｚｅｋ、２０００年）。特にバシラス（Ｂａｃｉｌｌｕｓ）、大腸菌（Ｅ．ｃｏｌｉ）などのような迅速に生育する生物では、主要解糖遺伝子およびトリカルボン酸回路遺伝子が、上記の群に属することが分かっている。予測法は、ｍＲＮＡデータおよびタンパク質発現における、既知の高度に発現される遺伝子と比較できる。

当業者は、それらのｔＲＮＡコード化遺伝子の含量および性質について改変された改変宿主細胞、すなわち既存のｔＲＮＡ遺伝子の追加的コピーと、改変されて非天然アミノ酸またはその他の化合物を含むｔｕｎａをコードする遺伝子をはじめとする非天然ｔＲＮＡ遺伝子をはじめとする新しい（外来性）ｔＲＮＡ遺伝子とを含んでなる宿主細胞、ならびにその中で１つ以上のｔＲＮＡ遺伝子が不活性化されまたは欠失している宿主細胞について、単一コドン重みおよびコドンペア重みｗの双方を判定してもよいことを理解するであろう。

本発明の方法で、所定のアミノ酸配列をコードするオリジナルのコーディングヌクレオチド配列は、（ａ）所定のアミノ酸配列をコードする野生型ヌクレオチド配列、（ｂ）それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、アミノ酸をコードする同義コドンから無作為に選択される、所定のアミノ酸配列の逆翻訳、および（ｃ）それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、所定の宿主細胞または宿主細胞近縁種の単一コドンバイアスに従って選択される、所定のアミノ酸配列の逆翻訳から選択されてもよい。

［宿主細胞］
本発明の方法では、所定の宿主は、最適化されたヌクレオチドコード配列の発現による、対象とするポリペプチドの生成に適したあらゆる宿主細胞または生物であってもよい。したがって宿主細胞は原核または真核宿主細胞であってもよい。宿主細胞は、液体中でのまたは固体培地上での培養に適した宿主細胞であってもよい。代案としては宿主細胞は、（遺伝子導入）植物、動物またはヒトなどの多細胞組織および／または多細胞生物の一部である細胞であってもよい。

宿主細胞は、微生物または非微生物であってもよい。適切な非微生物宿主細胞としては、例えばＣＨＯ（チャイニーズハムスター卵巣）やＢＨＫ（幼若ハムスター腎臓）細胞などのハムスター細胞、マウス細胞（例えばＮＳ０）、ＣＯＳまたはＶｅｒｏなどのサル細胞、ＰＥＲ．Ｃ６（商標）またはＨＥＫ−２９３細胞などのヒト細胞などの哺乳類宿主細胞と、またはショウジョウバエ（Ｄｒｏｓｏｐｈｉｌａ）Ｓ２およびスポドプテラ（Ｓｐｏｄｏｐｔｅｒａ）Ｓｆ９またはＳｆ２１細胞などの昆虫細胞と、またはタバコ、トマト、ジャガイモ、ナタネ、キャベツ、エンドウマメ、小麦、トウモロコシ、米、セイヨウイチイ（Ｔａｘｕｓｂｒｅｖｉｆｏｌｉａ）などのイチイ（Ｔａｘｕｓ）種、シロイヌナズナ（Ａｒａｂｉｄｏｐｓｉｓｔｈａｌｉａｎａ）などのアラビドプシス（Ａｒａｂｉｄｏｐｓｉｓ）種、およびタバコ（Ｎｉｃｏｔｉａｎａｔａｂａｃｕｍ）などのタバコ（Ｎｉｃｏｔｉａｎａ）種などの植物細胞とが挙げられる。このような非微生物細胞は、哺乳類またはヒトの治療法で使用するための哺乳類またはヒトタンパク質の生成に特に適する。

宿主細胞はまた、細菌または真菌細胞などの微生物宿主細胞であってもよい。適切な細菌宿主細胞としては、グラム陽性およびグラム陰性細菌の双方が挙げられる。適切な細菌宿主細胞の例としては、バシラス（Ｂａｃｉｌｌｕｓ）、放線菌（Ａｃｔｉｎｏｍｙｃｅｔｅｓ）、エシェリキア（Ｅｓｃｈｅｒｉｃｈｉａ）、ストレプトミセス（Ｓｔｒｅｐｔｏｍｙｃｅｓ）属からの細菌、ならびに乳酸桿菌（Ｌａｃｔｏｂａｃｉｌｌｕｓ）、連鎖球菌（Ｓｔｒｅｐｔｏｃｏｃｃｕｓ）、ラクトコッカス（Ｌａｃｔｏｃｏｃｃｕｓ）、オエノコッカス（Ｏｅｎｏｃｏｃｃｕｓ）、リューコノストック（Ｌｅｕｃｏｎｏｓｔｏｃ）、ペディオコッカス（Ｐｅｄｉｏｃｏｃｃｕｓ）、カルノバクテリウム（Ｃａｒｎｏｂａｃｔｅｒｉｕｍ）、プロピオニバクテリウム（Ｐｒｏｐｉｏｎｉｂａｃｔｅｒｉｕｍ）、腸球菌（Ｅｎｔｅｒｏｃｏｃｃｕｓ）およびビフィドバクテリウム（Ｂｉｆｉｄｏｂａｃｔｅｒｉｕｍ）などの乳酸菌が挙げられる。特に好ましいのは、枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）、バシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）、バシラス・リケニフォルミス（Ｂａｃｉｌｌｕｓｌｉｃｈｅｎｉｆｏｒｍｉｓ）、大腸菌（Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ）、ストレプトミセス・コエリカラー（Ｓｔｒｅｐｔｏｍｙｃｅｓｃｏｅｌｉｃｏｌｏｒ）、ストレプトミセス・クラブリゲルス（Ｓｔｒｅｐｔｏｍｙｃｅｓｃｌａｖｕｌｉｇｅｒｕｓ）、およびラクトバシラス・プランタルム（ＬａｃｔｏｂａｃｉｌｌｕｓＰｌａｎｔａｒｕｍ）、ラクトコッカス・ラクティス（Ｌａｃｔｏｃｏｃｃｕｓｌａｃｔｉｓ）である。

代案としては、宿主細胞は、酵母または糸状菌などの真核微生物であってもよい。宿主細胞として好ましい酵母は、サッカロミセス（Ｓａｃｃｈａｒｏｍｙｃｅｓ）、クリヴェロミセス（Ｋｌｕｙｖｅｒｏｍｙｃｅｓ）、カンジダ（Ｃａｎｄｉｄａ）、ピチア（Ｐｉｃｈｉａ）、分裂酵母（Ｓｃｈｉｚｏｓａｃｃｈａｒｏｍｙｃｅｓ）、ハンゼヌラ（Ｈａｎｓｅｎｕｌａ）、クロエケラ（Ｋｌｏｅｃｋｅｒａ）、シュワニオミセス（Ｓｃｈｗａｎｎｉｏｍｙｃｅｓ）、およびヤロウイア（Ｙａｒｒｏｗｉａ）属に属する。特に好ましいのは、サッカロミセス・セレヴィシエ（Ｓａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ）、およびクリヴェロミセス・ラクチス（Ｋｌｕｙｖｅｒｏｍｙｃｅｓｌａｃｔｉｓ）をはじめとするデバリオミセス（Ｄｅｂａｒｙｏｍｙｃｅｓ）宿主細胞である。

より好ましい実施態様に従って、本発明の宿主細胞は、糸状菌細胞である。「糸状菌」は、真菌類（Ｅｕｍｙｃｏｔａ）および卵菌（Ｏｏｍｙｃｏｔａ）亜門の全ての線状体を含む（Ｈａｗｋｓｗｏｒｔｈら、１９９５年、前出、によって定義される）。糸状菌は、キチン、セルロース、グルカン、キトサン、マンナン、およびその他の複合多糖から構成される菌糸壁によって特徴づけられる。栄養成長は菌糸伸長により、炭素異化作用は絶対好気性である。その株を本発明中の宿主細胞として使用してもよい糸状菌属としては、限定されるものではないが、アクレモニウム（Ａｃｒｅｍｏｎｉｕｍ）、アスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）、アウレオバシジウム（Ａｕｒｅｏｂａｓｉｄｉｕｍ）、クリプトコッカス（Ｃｒｙｐｔｏｃｏｃｃｕｓ）、フィロバシジウム（Ｆｉｌｏｂａｓｉｄｉｕｍ）、フザリウム（Ｆｕｓａｒｉｕｍ）、フミコラ（Ｈｕｍｉｃｏｌａ）、マグナポルテ（Ｍａｇｎａｐｏｒｔｈｅ）、ケカビ（Ｍｕｃｏｒ）、ミセリオフトラ（Ｍｙｃｅｌｉｏｐｈｔｈｏｒａ）、ネオカリマスティクス（Ｎｅｏｃａｌｌｉｍａｓｔｉｘ）、ニューロスポラ（Ｎｅｕｒｏｓｐｏｒａ）、ペシロミセス（Ｐａｅｃｉｌｏｍｙｃｅｓ）、ペニシリウム（Ｐｅｎｉｃｉｌｌｉｕｍ）、ピロミセス（Ｐｉｒｏｍｙｃｅｓ）、スエヒロタケ（Ｓｃｈｉｚｏｐｈｙｌｌｕｍ）、クリソスポリウム（Ｃｈｒｙｓｏｓｐｏｒｉｕｍ）、タラロミセス（Ｔａｌａｒｏｍｙｃｅｓ）、サーモアスクス（Ｔｈｅｒｍｏａｓｃｕｓ）、チエラビア（Ｔｈｉｅｌａｖｉａ）、トリポクラジウム（Ｔｏｌｙｐｏｃｌａｄｉｕｍ）、およびトリコデルマ（Ｔｒｉｃｈｏｄｅｒｍａ）属の株が挙げられる。好ましくは糸状菌は、アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）、コウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）、ショウユコウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｓｏｊａｅ）、トリコデルマ・リーセイ（Ｔｒｉｃｈｏｄｅｒｍａｒｅｅｓｅｉ）またはペニシリウム・クリソゲヌム（Ｐｅｎｉｃｉｌｌｉｕｍｃｈｒｙｓｏｇｅｎｕｍ）よりなる群から選択される種に属する。適切な宿主株の例としては、アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）ＣＢＳ５１３．８８（Ｐｅｌら、２００７年、ＮａｔＢｉｏｔｅｃｈ．２５：２２１〜２３１頁）、コウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）ＡＴＣＣ２０４２３、ＩＦＯ４１７７、ＡＴＣＣ１０１１、ＡＴＣＣ９５７６、ＡＴＣＣ１４４８８−１４４９１、ＡＴＣＣ１１６０１、ＡＴＣＣ１２８９２、Ｐ．クリソゲヌム（ｃｈｒｙｓｏｇｅｎｕｍ）ＣＢＳ４５５．９５、ペニシリウム・シトリヌム（Ｐｅｎｉｃｉｌｌｉｕｍｃｉｔｒｉｎｕｍ）ＡＴＣＣ３８０６５、ペニシリウム・クリソゲヌム（Ｐｅｎｉｃｉｌｌｉｕｍｃｈｒｙｓｏｇｅｎｕｍ）Ｐ２、アクレモニウム・クリソゲヌム（Ａｃｒｅｍｏｎｉｕｍｃｈｒｙｓｏｇｅｎｕｍ）ＡＴＣＣ３６２２５またはＡＴＣＣ４８２７２、トリコデルマ・リーセイ（Ｔｒｉｃｈｏｄｅｒｍａｒｅｅｓｅｉ）ＡＴＣＣ２６９２１またはＡＴＣＣ５６７６５またはＡＴＣＣ２６９２１、ショウユコウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｓｏｊａｅ）ＡＴＣＣ１１９０６、クリソスポリウム・ラクノウエンス（Ｃｈｒｙｓｏｓｐｏｒｉｕｍｌｕｃｋｎｏｗｅｎｓｅ）ＡＴＣＣ４４００６、およびそれらの誘導体が挙げられる。

宿主細胞は、野性型糸状菌宿主細胞または変異体、突然変異体または遺伝子改変糸状菌宿主細胞であってもよい。このような改変糸状菌宿主細胞としては、例えばコウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）ＪａＬ１２５（国際公開第９７／３５９５６号パンフレットまたは欧州特許第４２９４９０号明細書で述べられている）などのプロテアーゼレベルが低下しているプロテアーゼ欠損株；国際公開第９６／１４４０４号パンフレットで開示されているようなトリペプチジル−アミノペプチダーゼ欠損Ａ．ニガー（ｎｉｇｅｒ）株などの宿主細胞；またはプロテアーゼ転写活性化因子（ｐｒｔＴ）生成が低下している宿主細胞（国際公開第０１／６８８６４号パンフレット、米国特許出願公開第２００４／０１９１８６４Ａ１号明細書および国際公開第２００６／０４０３１２号パンフレットで述べられている）；３つのＴＡＫＡアミラーゼ遺伝子、２つのプロテアーゼ遺伝子、ならびに代謝産物シクロピアゾン酸およびコウジ酸を形成する能力が不活性化されているコウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）ＢＥＣｈ２のような宿主株（ＢＥＣｈ２については国際公開第００／３９３２２号パンフレットで述べられている）；野性型細胞と比較して上昇した小胞体ストレス応答（ＵＰＲ）を含んでなり、対象とするポリペプチドの生成能力が増強された糸状菌宿主細胞（米国特許出願公開第２００４／０１８６０７０Ａ１号明細書、米国特許出願公開第２００１／００３４０４５Ａ１号明細書、国際公開第０１／７２７８３Ａ２号パンフレットおよび国際公開第２００５／１２３７６３号パンフレットで述べられている）；シュウ酸欠損表現型がある宿主細胞（国際公開第２００４／０７００２２Ａ２号パンフレットおよび国際公開第２０００／５０５７６号パンフレットで述べられている）；グルコアミラーゼ、中性α−アミラーゼＡ、中性α−アミラーゼＢ、α−１，６−トランスグルコシダーゼ、プロテアーゼ、セロビオ加水分解酵素および／またはシュウ酸加水分解酵素などの豊富な内在性ポリペプチドの発現が低下している宿主細胞（米国特許出願公開第２００４／０１９１８６４Ａ１号明細書で述べられている技術に従った遺伝子改変によって得られてもよい）；相同的組換え効率が増大している宿主細胞（国際公開第２００５／０９５６２４号パンフレットで述べられているように欠損ｈｄｆＡまたはｈｄｆＢ遺伝子を有する）；およびこれらの改変のあらゆる可能な組み合わせを有する宿主細胞が挙げられる。

本発明の方法では、所定のアミノ酸配列は、前記所定の宿主細胞にとって異種の（対象とするポリペプチドの）アミノ酸配列であってもよく、またはそれは前記所定の宿主細胞に相同的な（対象とするポリペプチドの）アミノ酸配列であってもよい。

「異種」という用語は、核酸（ＤＮＡまたはＲＮＡ）またはタンパク質について使用される場合、それがその中に存在する生物、細胞、ゲノムまたはＤＮＡもしくはＲＮＡ配列の一部として自然発生せず、またはその中でそれが自然に見られるのとは異なる細胞中に、またはゲノムまたはＤＮＡもしくはＲＮＡ配列中の１つまたは複数の位置に見られる、核酸またはタンパク質を指す。異種の核酸またはタンパク質は、その中にそれが導入される細胞に内在性でないが、別の細胞から得られ、または合成的にまたは組み換え的に生成される。必ずしもそうでないが、一般にこのような核酸は、その中で核酸が発現される細胞によって常態では生成されないタンパク質をコードする。その中でそれが発現される細胞にとって異種または外来性として当業者が認識する、あらゆる核酸またはタンパク質が、ここで異種の核酸またはタンパク質という用語に包含される。異種という用語はまた、核酸またはアミノ酸配列の非自然的な組み合わせ、すなわち組み合わせた配列の少なくとも２つが互いに外来性である組み合わせにも当てはまる。

「相同的」という用語は、所与の（組み換え）核酸またはポリペプチド分子と、所与の宿主生物または宿主細胞との間の関係を示すために使用される場合、自然に核酸またはポリペプチド分子が、同一種、好ましくは同一変種または株の宿主細胞または生物によって生成されることを意味するものと理解される。

所定のアミノ酸配列は、商業的または工業的適用性または有用性を有するあらゆる対象とするポリペプチドの配列であってもよい。したがって対象とするポリペプチドは、抗体またはその一部、抗原、凝固因子、酵素、ホルモンまたはホルモン変異体、受容体またはその一部、調節タンパク質、構造的タンパク質、レポーター、または輸送タンパク質、細胞内タンパク質、分泌過程に関与するタンパク質、折りたたみ過程に関与するタンパク質、シャペロン、ペプチドアミノ酸輸送体、グリコシル化因子、転写因子であってもよい。好ましくは対象とするポリペプチドは、古典的分泌経路によって、非古典的分泌経路によって、または代案の分泌経路によって、宿主細胞の細胞外環境中に分泌される（国際公開第２００６／０４０３４０号パンフレットで述べられている）。対象とするポリペプチドが酵素である場合、それは例えばオキシド還元酵素、基転移酵素、加水分解酵素、リアーゼ、イソメラーゼ、リガーゼ、カタラーゼ、セルラーゼ、キチナーゼ、クチナーゼ、デオキシリボヌクレアーゼ、デキストラナーゼ、エステラーゼであってもよい。より好ましい酵素としては、例えばエンドグルカナーゼ、β−グルカナーゼ、セロビオ加水分解酵素またはβ−グルコシダーゼ、ヘミセルラーゼなどのセルラーゼなどの、またはキシラナーゼ、キシロシダーゼ、マンナナーゼ、ガラクタナーゼ、ガラクトシダーゼ、ペクチンメチルエステラーゼ、ペクチンリアーゼ、ペクチン酸リアーゼ、エンドポリガラクツロナーゼ、エキソポリガラクツロナーゼ、ラムノガラクツロナーゼ、アラバナーゼ、アラビノフラノシダーゼ、アラビノキシラン加水分解酵素、ガラクツロナーゼ、リアーゼなどのペクチン分解酵素などの、またはデンプン分解酵素などのカルボヒドラーゼ；加水分解酵素、イソメラーゼ、またはリガーゼ、フィターゼなどのホスファターゼ、リパーゼなどのエステラーゼ、タンパク質分解酵素、オキシダーゼなどのオキシド還元酵素、基転移酵素、またはイソメラーゼ、フィターゼ、アミノペプチダーゼ、カルボキシペプチダーゼ、エンドプロテアーゼ、メタロプロテアーゼ、セリン−プロテアーゼ、カタラーゼ、キチナーゼ、クチナーゼ、シクロデキストリングリコシル基転移酵素、デオキシリボヌクレアーゼ、α−ガラクトシダーゼ、β−ガラクトシダーゼ、グルコアミラーゼ、α−グルコシダーゼ、β−グルコシダーゼ、ハロペルオキシダーゼ、インベルターゼ、ラッカーゼ、マンノシダーゼ、ムタナーゼ、ペルオキシダーゼ、ホスホリパーゼ、ポリフェノールオキシダーゼ、リボヌクレアーゼ、トランスグルタミナーゼ、グルコースオキシダーゼ、ヘキソースオキシダーゼ、およびモノオキシゲナーゼが挙げられる。いくつかの治療的関心のあるタンパク質としては、例えば抗体およびその断片、ヒトインシュリンおよびその類似体、ヒトラクトフェリンおよびその類似体、ヒト成長ホルモン、エリスロポエチン、組織プラスミノーゲン活性化因子（ｔＰＡ）またはインスリノトロピンが挙げられる。ポリペプチドは、好ましくはクエン酸である代謝産物合成に関与してもよい。このようなポリペプチドとしては、例えばアコニット酸ヒドラターゼ、アコニターゼ、ヒドロキシラーゼ、６−ホスホフルクトキナーゼ、クエン酸シンターゼ、カルボキシホスホノエノールピルビン酸ホスホノムターゼ、グリコール酸還元酵素、グルコースオキシダーゼ前駆物質ｇｏｘＣ、ヌクレオシド−ジホスフェート−糖エピメラーゼ、グルコースオキシダーゼ、マンガン−超酸化物−ジスムターゼ、クエン酸リアーゼ、ユビキノン還元酵素、キャリアタンパク質、クエン酸輸送体タンパク質、ミトコンドリア呼吸タンパク質、および金属輸送体タンパク質が挙げられる。

［コンピューター、プログラム、およびデータ媒体］
さらなる態様では、本発明は、プロセッサーおよびメモリーを含んでなるコンピューターに関し、プロセッサーは前記メモリーから読み取って、前記メモリーに書き込むように構成され、メモリーは、前記プロセッサーに本発明の方法を遂行する能力を提供するように構成された、データおよび命令を含んでなる。

別の態様では本発明は、プロセッサーもまた含んでなるコンピューターのメモリーにロードされるように構成されたデータおよび命令を含んでなるコンピュータープログラム製品に関し、プロセッサーは前記メモリーから読み取って、前記メモリーに書き込むように構成され、データおよび命令は前記プロセッサーに本発明の方法を遂行する能力を提供するように構成される。

本発明のさらに別の態様は、上で定義されるコンピュータープログラム製品と共に提供されるデータ媒体に関する。

［核酸分子］
本発明のさらなる態様は、所定のアミノ酸配列をコードするコード配列を含んでなる核酸分子に関する。コード配列は、好ましくは天然コード配列と似ていないヌクレオチド配列である。むしろ核酸分子中のコード配列は、自然界に見られない人工のヌクレオチド配列、すなわち改変された人造ヌクレオチド配列であり、それはここで定義される方法に従って、所定の宿主細胞のための単一コドンおよび／またはコドンペアバイアスの最適化方法に基づいて作り出され、続いて実体のある核酸分子として合成される。好ましくはコード配列は所定の宿主細胞に対して、少なくとも０．２未満、またはより好ましくは０．１未満、最も好ましくは０．０２未満のｆｉｔ_ｓｃ（ｇ）を有する。より好ましくは、コード配列は所定の宿主細胞に対して、少なくとも０未満のｆｉｔ_ｃｐ（ｇ）を有する。最も好ましくはコード配列は所定の宿主細胞に対して、少なくとも−０．１未満、またはより好ましくは少なくとも−０．２未満のｆｉｔ_ｃｐ（ｇ）を有する。好ましくは最適化された遺伝子ｇ中のコドンペアの数は、特定の宿主生物について関連する負のコドンペアがある、少なくとも６０、７０、７５、８０、８５％のコドンペア、最も好ましくは少なくとも９０％のコドンペアを含有する。

コード配列によってコードされる所定のアミノ酸配列は、本明細書において上で定義されるあらゆる対象とするポリペプチドであってもよく、および所定の宿主細胞は、本明細書において上で定義されるあらゆる宿主細胞であってもよい。

核酸分子中で、コード配列は、好ましくは所定の宿主細胞中でのコード配列の発現を指示できる、発現制御配列と作動的に連結する。本発明の文脈で、制御配列は、一緒に存在する場合、コード配列と作動可能なように結合して、生成するポリペプチドをコードするヌクレオチド配列の発現に必要なまたは有利な全構成要素を含む、ヌクレオチド配列と定義される。各制御配列は、生成するポリペプチドをコードするヌクレオチド配列にとって、天然または外来性であってもよい。このような制御配列としては、限定されるものではないが、リーダー配列、ポリアデニル化配列、プロペプチド配列、プロモーター、翻訳開始配列、翻訳開始コード配列、翻訳転写ターミネーター、および転写ターミネーター配列が挙げられる。制御配列には、例えば制御配列と、ポリペプチドをコードするヌクレオチド配列のコード領域とのライゲーションを容易にする特異的制限部位を導入する目的で、リンカーが備わっていてもよい。

発現制御配列は通常最低限、プロモーターを含んでなる。本願明細書での用法では、「プロモーター」という用語は、遺伝子の転写開始部位の転写方向に対して上流に位置して、１つ以上の遺伝子転写を制御するために機能する核酸断片を指し、これはＤＮＡ−依存性ＲＮＡポリメラーゼ結合部位、転写開始部位、およびあらゆるその他のＤＮＡ配列の存在によって構造的に同定されるが、これらとしては、限定されるものではないが、転写因子結合部位、リプレッサーおよび活性化因子タンパク質結合部位、および直接または間接的に作用してプロモーターからの転写量を制御することが当業者に知られているあらゆるその他のヌクレオチド配列が挙げられる。「構成的」プロモーターは、ほとんどの環境および生育条件下で活性のプロモーターである。「誘導性」プロモーターは、環境または生育調節下で活性のプロモーターである。

発現制御配列などのＤＮＡセグメントは、別のＤＮＡセグメントとの機能的関係に置かれると「作動的に連結する」。例えばプロモーターまたはエンハンサーは、それが配列の転写を刺激するのであれば、コード配列と作動的に連結する。シグナル配列のためのＤＮＡは、それがポリペプチドの分泌に関与するプレタンパク質として発現されるのであれば、ポリペプチドをコードするＤＮＡと作動的に連結する。一般に作動的に連結するＤＮＡ配列は隣接し、シグナル配列の場合は隣接しておりまた読み取り相でもある。しかしエンハンサーは、それらがその転写を制御するコード配列と隣接する必要はない。連結は、当該技術分野で既知の手段による、都合よい制限部位における、またはアダプター、リンカーまたはＰＣＲ断片におけるライゲーションによって達成される。

適切なプロモーター配列の選択は、一般にＤＮＡセグメント発現のために選択される宿主細胞に左右される。適切なプロモーターの例としては、当該技術分野でよく知られている原核および真核生物のプロモーターが挙げられる（例えばＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ、２００１年「分子クローニング：実験室マニュアル（ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ）」（第３版）、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙ、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒＬａｂｏｒａｔｏｒｙＰｒｅｓｓ、ＮｅｗＹｏｒｋ）を参照されたい）。転写調節因子配列は、典型的に、宿主によって認識される異種のエンハンサーまたはプロモーターを含む。適切なプロモーターの選択は宿主に左右されるが、ｔｒｐ、ｌａｃ、およびファージプロモーター、ｔＲＮＡプロモーターおよび解糖作用酵素プロモーターなどのプロモーターが知られており利用できる（例えばＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ、２００１年、前出参照）。使用できる好ましい誘導性プロモーターの例は、デンプン−、銅−、オレイン酸−誘導性プロモーターである。糸状菌宿主細胞のための好ましいプロモーターとしては、例えばＡ．ニガー（ｎｉｇｅｒ）のグルコアミラーゼプロモーター、またはコウジカビ（Ａ．ｏｒｙｚａｅ）のＴＡＫＡアミラーゼプロモーター、および国際公開第２００５／１００５７３号パンフレットで述べられているプロモーターが挙げられる。

本発明のヌクレオチド配列は、シグナル配列を、またはむしろシグナルペプチド−コード領域をさらに含んでなってもよい。シグナル配列は、発現されたポリペプチドを細胞の分泌経路に誘導できる、ポリペプチドのアミノ末端に結合しているアミノ酸配列をコードする。シグナル配列は、通常約４〜１５個のアミノ酸の疎水性コアを含有し、その直前には塩基性アミノ酸があることが多い。シグナルペプチドのカルボキシル末端には、単一の介在性アミノ酸によって隔てられる一対の小さな非荷電アミノ酸があり、それがシグナルペプチド切断部位を画定する。ｖｏｎＨｅｉｊｎｅ，Ｇ．（１９９０年）Ｊ．ＭｅｍｂｒａｎｅＢｉｏｌ．１１５：１９５〜２０１頁。それらの全体的な構造的および機能的類似性にもかかわらず、天然シグナルペプチドは共通配列を有さない。適切なシグナルペプチドコード領域は、アスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）種からのグルコアミラーゼまたはアミラーゼ遺伝子、リゾムコール（Ｒｈｉｚｏｍｕｃｏｒ）種からのリパーゼまたはプロテイナーゼ遺伝子、サッカロミセス・セレヴィシエ（Ｓａｃｃｈａｒｏｍｙｃｅｓｃｅｒｅｖｉｓｉａｅ）からのα−因子のための遺伝子、バシラス（Ｂａｃｉｌｌｕｓ）種からのアミラーゼまたはプロテアーゼ遺伝子、または子ウシプレプロキモシン遺伝子から得てもよい。しかし発現されるタンパク質を選択された宿主細胞の分泌経路に誘導できる、あらゆるシグナルペプチド−コード領域を本発明で使用してもよい。糸状菌宿主細胞のために好ましいシグナルペプチドコード領域は、コウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）ＴＡＫＡアミラーゼ遺伝子（欧州特許第２３８０２３号明細書）、アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）中性アミラーゼ遺伝子、アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）グルコアミラーゼ、リゾムコール・ミーヘイ（Ｒｈｉｚｏｍｕｃｏｒｍｉｅｈｅｉ）アスパラギン酸プロテイナーゼ遺伝子、フミコラ・ラヌギノサ（Ｈｕｍｉｃｏｌａｌａｎｕｇｉｎｏｓａ）セルラーゼ遺伝子、フミコラ・インソレンス（Ｈｕｍｉｃｏｌａｉｎｓｏｌｅｎｓ）セルラーゼ、フミコラ・インソレンス（Ｈｕｍｉｃｏｌａｉｎｓｏｌｅｎｓ）クチナーゼ、カンジダ・アンタルクチカ（Ｃａｎｄｉｄａａｎｔａｒｃｔｉｃａ）リパーゼＢ遺伝子またはリゾムコール・ミーヘイ（Ｒｈｉｚｏｍｕｃｏｒｍｉｅｈｅｉ）リパーゼ遺伝子およびそれらの突然変異、切断、およびハイブリッドシグナル配列から得られるシグナルペプチドコード領域である。本発明の好ましい実施態様では、シグナル配列をコードするヌクレオチド配列は、所定の宿主のために単一コドンおよび／またはコドンペアバイアスについて最適化されたコード配列の不可分の一部である。

本発明の核酸分子内では、コード配列はさらに好ましくは翻訳開始配列と作動的に連結する。真核生物中では、イニシエーターＡＴＧ−コドン前のヌクレオチド共通配列（６〜１２個のヌクレオチド）は、この話題に関する最初の研究のためにコザック共通配列と称されることが多い（Ｋｏｚａｋ，Ｍ．（１９８７年）「６９９個の脊椎動物メッセンジャーＲＮＡからの５’非コード配列の分析（ａｎａｎａｌｙｓｉｓｏｆ５’−ｎｏｎｃｏｄｉｎｇｓｅｑｕｅｎｃｅｓｆｒｏｍ６９９ｖｅｒｔｅｂｒａｔｅｍｅｓｓｅｎｇｅｒＲＮＡｓ）」Ｎｕｃｌ．ＡｃｉｄＲｅｓ．１５（２０）：８１２５〜４７頁）。コザックによって導き出された＋４ヌクレオチドを含む、オリジナルコザック共通配列ＣＣＣＧＣＣＧＣＣｒＣＣ（ＡＴＧ）Ｇは、高等真核生物における翻訳開始と関連付けられている。原核宿主細胞では、対応するシャイン・ダルガノ配列（ＡＧＧＡＧＧ）は、好ましくは原核生物ｍＲＮＡの５’−非翻訳領域中に存在して、リボソームのための翻訳開始部位の役割を果たす。

本発明の文脈で、「翻訳開始配列」という用語は、ポリペプチドをコードするＤＮＡ配列の読み取り枠のイニシエーターまたは開始コドンのすぐ上流の１０個のヌクレオチドと定義される。イニシエーターまたは開始コドンは、アミノ酸メチオニンをコードする。イニシエーターコドンは典型的にＡＴＧであるが、ＧＴＧ、ＴＴＧまたはＣＴＧなどのあらゆる機能性開始コドンであってもよい。

特に好ましい本発明の実施態様では、核酸分子は、真菌宿主細胞によって発現される所定のアミノ酸配列をコードするコード配列を含んでなり、すなわち所定の宿主細胞は好ましくは真菌であり、その中では糸状菌が最も好ましい。本発明に従って真菌中での発現のために最適化されたコード配列を含んでなる核酸分子は、次の要素の１つ以上をさらに含んでなってもよい。１）真菌コンセンサス翻訳開始配列、２）真菌翻訳イニシエーターコード配列、および３）真菌翻訳終止配列。

コンセンサス真菌翻訳開始配列は、ヌクレオチドのための次の曖昧コードを使用して、好ましくは５’−ｍｗＣｈｋｙＣＡｍｖ−３’の配列によって定義される。ｍ（Ａ／Ｃ）；ｒ（Ａ／Ｇ）；ｗ（Ａ／Ｔ）；ｓ（Ｃ／Ｇ）；ｙ（Ｃ／Ｔ）；ｋ（Ｇ／Ｔ）；ｖ（Ａ／Ｃ／Ｇ）；ｈ（Ａ／Ｃ／Ｔ）；ｄ（Ａ／Ｇ／Ｔ）；ｂ（Ｃ／Ｇ／Ｔ）；ｎ（Ａ／Ｃ／Ｇ／Ｔ）。より好ましい実施態様に従って、配列は５’−ｍｗＣｈｋｙＣＡＡＡ−３’、５’−ｍｗＣｈｋｙＣＡＣＡ−３’または５’−ｍｗＣｈｋｙＣＡＡＧ−３’である。最も好ましくは翻訳開始共通配列は、５’−ＣＡＣＣＧＴＣＡＡＡ−３’または５’−ＣＧＣＡＧＴＣＡＡＧ−３’である。

本発明の文脈で、「コンセンサス翻訳イニシエーターコード配列」という用語は、ここでコード配列の読み取り枠のイニシエーターコドンのすぐ下流のヌクレオチドと定義される（イニシエーターコドンは典型的にＡＴＧであるが、ＧＴＧなどのあらゆる機能性開始コドンであってもよい）。好ましい真菌コンセンサス翻訳イニシエーターコード配列は、ヌクレオチドのための次の曖昧コードを使用して、５’−ＧＣＴｎＣＣｙｙＣ−３’のヌクレオチド配列を有する。ｙ（Ｃ／Ｔ）およびｎ（Ａ／Ｃ／Ｇ／Ｔ）。これは翻訳イニシエーターコード配列について１６個の変異体をもたらし、その中で５’−ＧＣＴＴＣＣＴＴＣ−３’が最も好ましい。コンセンサス翻訳イニシエーターコード配列を使用して、以下のアミノ酸が、言及されるアミノ酸位置に許容される。コードされるポリペプチド中の＋２位にはアラニン、＋３位にはアラニン、セリン、プロリン、またはスレオニン、および＋４位にはフェニルアラニン、セリン、ロイシンまたはプロリン。好ましくは本発明では、コンセンサス翻訳イニシエーターコード配列は、生成するポリペプチドをコードする核酸配列にとって外来性であるが、コンセンサス翻訳イニシエーターは真菌宿主細胞に天然であってもよい。

本発明の文脈で、「翻訳終止配列」という用語は、読み取り枠またはコード配列の３’末端の翻訳停止コドンから始まる４つのヌクレオチドと定義される。好ましい真菌翻訳終止配列としては５’−ＴＡＡＧ−３’、５’−ＴＡＧＡ−３’、および５’−ＴＡＡＡ−３’が挙げられ、その中では５’−ＴＡＡＡ−３’が最も好ましい。

真菌宿主細胞中で発現される所定のアミノ酸配列をコードするコード配列は、少なくとも１、２、３、４または５つのオリジナルコドン、より好ましくはオリジナルコドンの少なくとも１％、２％、３％、４％、５％、１０％、１５％、２０％、２５％、５０％、７５％、８０％、８５％、９０％、または９５％が同義コドンによって交換されて、同義コドンが天然コドンと同じアミノ酸をコードし、表Ａに示すようにコドン使用頻度においてオリジナルコドンよりも高い頻度を有するように、さらに好ましくは単一コドン頻度について最適化される。

真菌宿主細胞中で発現される所定のアミノ酸配列をコードするなおもより好ましいコード配列は、少なくとも１、２、３、４または５つのオリジナルコドン、より好ましくはオリジナルコドンの少なくとも１％、２％、３％、４％、５％、１０％、１５％、２０％、２５％、５０％、７５％、８０％、８５％、９０％、または９５％が同義コドンで交換されて、同義コドンが、以下の最適百分率一覧を適用して、前記頻度の前記コドン百分率と、列挙された最適百分率との間の差の絶対値が改変後により小さくなるようにコドン頻度を変化させるように、さらに好ましくは単一コドン頻度について最適化される。ＴＧＣによってコードされるシステイン（１００％）；ＴＴＣによるフェニルアラニン（１００％）；ＣＡＣによるヒスチジン（１００％）；ＡＡＧによるリジン（１００％）；ＡＡＣによるアスパラギン（１００％）；ＣＡＧによるグルタミン（１００％）；ＴＡＣによるチロシン（１００％）；ＧＣＴ（３８．０％）、ＧＣＣ（５０．７％）、またはＧＣＧ（１１．３％）によるアラニン；ＧＡＣによるアスパラギン酸（６３．２％）；ＧＡＧによるグルタミン酸（７４．２％）；ＧＧＴ（４９．０％）、ＧＧＣ（３５．９％）、ＧＧＡ（１５．１％）によるグリシン；ＡＴＴ（２６．７％）、ＡＴＣ（７３．３％）によるイソロイシン；ＴＴＧ（１２．７％）、ＣＴＴ（１７．４％）、ＣＴＣ（３８．７％）、ＣＴＧ（３１．２％）によるロイシン；ＣＣＴ（３５．６％）、ＣＣＣ（６４．４％）によるプロリン；ＣＧＴ（４９．１％）、ＣＧＣ（５０．９％）によるアルギニン；ＴＣＴ（２０．８％）、ＴＣＣ（４４．０％）、ＴＣＧ（１４．４％）、ＡＧＣ（２０．８％）によるセリン；ＡＣＴ（２９．７％）、ＡＣＣ（７０．３％）によるスレオニンおよび／またはＧＴＴ（２７．４％）、ＧＴＣ（５４．５％）、ＧＴＧ（１８．１％）によるバリン；その他の全ての可能なアミノ酸をコードするコドン（０％）。

（所定の宿主細胞中での発現のために）本発明のコード配列を含んでなる上で定義される核酸分子は、通常、選択可能なマーカー、好ましくはゲノム中の所定部位における相同的組換えを通じた組み込みを容易にする複製起点および／または配列などの発現ベクター中に見られる要素をさらに含んでなってもよい。このようなさらなる要素は当該技術分野でよく知られており、ここでさらに詳述する必要はない。

さらなる態様では、本発明は、本明細書において上で定義される核酸分子を含んでなる宿主細胞に関する。宿主細胞は、好ましくは本明細書において上で定義される宿主細胞である。

なおもさらなる態様では、本発明は、所定のアミノ酸配列を有するポリペプチドを生成する方法に関する。本方法は、好ましくはポリペプチドの発現に寄与する条件下で、本明細書において上で定義される核酸分子を含んでなる宿主細胞を培養するステップと、場合によりポリペプチドを回収するステップを含んでなる。

また一方さらなる態様では、本発明は、細胞内および細胞外代謝産物の少なくとも１つを生成する方法に関する。本方法は、代謝産物生成に寄与する条件下で本明細書において上で定義される宿主細胞を培養するステップを含んでなる。好ましくは宿主中において、（本明細書において上で定義される核酸分子によってコードされる）所定のアミノ酸配列を有するポリペプチドが、代謝産物の生成に関与する。（一次または二次代謝産物、または双方の；細胞内、細胞外または双方の）代謝産物は、発酵過程において生成してもよいあらゆる発酵産物であってもよい。このような発酵産物としては、例えばリジン、グルタミン酸、ロイシン、スレオニン、トリプトファンなどのアミノ酸と、例えばアンピシリン、バシトラシン、セファロスポリン、エリスロマイシン、モネンシン、ペニシリン、ストレプトマイシン、テトラサイクリン、タイロシン、マクロライド、およびキノロンをはじめとする抗生物質が挙げられ、好ましい抗生物質はセファロスポリンおよびβ−ラクタムであり、例えば多価不飽和脂肪酸（ＰＵＦＡ）をはじめとする脂質および脂肪酸と、エタノール、プロパノールおよびブタノールなどのアルカノールと、１，３−プロパン−ジオール、ブタンジオール、グリセロールおよびキシリトールなどのポリオールと、アセトンなどのケトンと、アミンと、ジアミンと、エチレンと、カロチノイド、カロテン、アスタキサンチン、リコペン、ルテインなどのイソプレノイドと、アクリル酸と、コレステロールおよびエルゴステロールなどのステロールと、例えばビタミンＡ、Ｂ２、Ｂ１２、Ｃ、Ｄ、Ｅ、およびＫをはじめとするビタミンと、例えばグルカル酸、グルコン酸、グルタル酸、アジピン酸、コハク酸、酒石酸、シュウ酸、酢酸、乳酸、ギ酸、リンゴ酸、マレイン酸、マロン酸、クエン酸、フマル酸、イタコン酸、レブリン酸、キシロン酸、アコニット酸、アスコルビン酸、コウジ酸、およびコメル酸（ｃｏｍｅｒｉｃａｃｉｄ）をはじめとする有機酸が挙げられ、好ましい有機酸はクエン酸である。

この文献およびその特許請求の範囲のなかで、「含んでなる」という動詞およびその活用はその非限定的意味で使用され、単語に続く項目が含まれるが、特に言及されていない項目が除外されないことを意味する。さらに不定冠詞「ａ」または「ａｎ」による要素への言及は、文脈が明らかに要素の１つおよび１つのみがあることを必要としない限り、要素の２つ以上が存在する可能性を除外しない。したがって不定冠詞「ａ」または「ａｎ」は、通常「少なくとも１つ」を意味する。

［実施例］
［１．実施例１：コドンペアバイアスの分析］
［１．１材料と方法］
［１．１．１データおよびソフトウェア］
コドンペア分析は、全ゲノム配列データならびにそれらに由来する部分群中のコード配列（ＣＤＳ）に対して実施してもよい（または例えばｃＤＮＡ／ＥＳＴライブラリーのような部分的ゲノム配列、または近縁生物からの複数ゲノムからの部分的ゲノムデータでさえあってもよい）。本発明で使用されるツールは、ＦＡＳＴＡファイルをインプットとしてを使用して、これらのデータを読み取る。全計算の大部分はザ・マス・ワークス・インコーポレーテッド（ＴｈｅＭａｔｈＷｏｒｋｓ，Ｉｎｃ．、ｗｗｗ．ｍａｔｈｗｏｒｋｓ．ｃｏｍ）からのＭＡＴＬＡＢ７．０１で実施されたが、得られた結果のいくつかの詳細な分析では、スポットファイア・インコーポレーテッド（Ｓｐｏｔｆｉｒｅ，Ｉｎｃ．）からのスポットファイアＤｅｃｉｓｉｏｎＳｉｔｅ８．０（ｈｔｔｐ：／／ｗｗｗ．ｓｐｏｔｆｉｒｅ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｄｅｃｉｓｉｏｎｓｉｔｅ．ｃｆｍ）が使用された。

Ａ．ニガー（ｎｉｇｅｒ）では、ＣＢＳ５１３．８８の全ゲノムのための予測されたｃＤＮＡ配列があるＦＡＳＴＡファイル（Ｐｅｌら、２００７年、ＮａｔＢｉｏｔｅｃｈ．２５：２２１〜２３１頁）および一群の４７９個の高度に発現される遺伝子を使用した。さらに通常、パイロット規模の発酵条件下では、Ａ．ニガー（ｎｉｇｅｒ）中の＞１４，０００遺伝子の半分以下が同時に発現されるので、このような条件を使用して得られた２４個のＧｅｎｅＣｈｉｐからのデータを使用して、様々な実験内で実際に発現された遺伝子のみを含む第２の遺伝子のセットを抽出し（ＡｆｆｙｍｅｔｒｉｘＭＡＳ５．０配列分析ソフトウェアを使用して、少なくとも１８個の「ｐｒｅｓｅｎｔ」コールがある遺伝子のみを考慮した；このセットは４，５８４個の遺伝子を含んでなった）、（その時点ではその他のデータが入手できなかったため）それらを観察されたｍＲＮＡレベルに従って格付けしたので、あらゆるサイズの（おそらく）高度に発現される遺伝子のセットを容易に同定できる。この第２のセットは、データをそれらの発現レベルに応じて格付けできるように作り出された。

この分析のために、本発明者らは遺伝子の転写レベルを使用した。代案としてはまた、例えばタンパク質の二次元ゲル電気泳動法と、続く質量分析法による同定によって、定量的なタンパク質発現データを当てはめることもできる。しかしタンパク質の大きなセットに対してタンパク質を発現させることは、（例えばｇｅｎｅｃｈｉｐを使用した）ｍＲＮＡレベルの判定と比較してなおも相当時間がかかる。したがってここで行ったのは、翻訳が実際に起きる前の翻訳に対するコドンバイアスの影響を研究することである。ｍＲＮＡおよびタンパク質発現レベルの相関はかなり痕跡的ではあったものの、Ｇｙｇｉら（Ｙｅａｓｔ．Ｍｏｌ．Ｃｅｌ．Ｂｉｏｌ．１９（３）：１７２０〜３０頁）は大腸菌（Ｅ．ｃｏｌｉ）中で、「タンパク質およびｍＲＮＡ発現レベルとコドンバイアスとの相関」を実際に発見した。したがって「発現レベル」という用語は、実際に転写レベルに対する影響が判定された場合にのみ、本文中で使用される。

およそ４，０００個の遺伝子を含有する生物である枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）では、一群の３００個の高度に発現される遺伝子が入手でき、分析された。この研究で考慮した全ての生物のゲノムの基本的特性の概要については、表１．１を参照されたい（しかしそれらの全てについて詳細に述べられているわけではない）。

各分析において、末端とは別の位置の１つ以上の停止コドンを含んだ（推定上の）遺伝子、および長さが３で割れない（すなわち配列決定中にフレームシフトが起きたかもしれない）配列は、無視した。また各遺伝子の最初の５つおよび最後の５つのコドンは、これらの部位がタンパク質結合および放出効率に関与するかもしれず、したがって配列のその他の部分とは異なる選択圧力を被り、そこのコドンおよびコドンペアバイアスは典型的でないかもしれないので、考慮しなかった。２０個のコドンよりも短いＯＲＦ（ＯＲＦ＝読み取り枠）もまた、分析から除外した。表１．１では、これは既に考慮されている。

［１．１．２コドンペアの期待出現率］
コドンペア使用頻度を分析するために、最初に下で、ｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））によって示される各単一コドンおよび各コドンペアの出現率を数え、ｏｂｓは観察されたことを表す。二重括弧は、「観察された数」すなわちｎ_ｏｂｓが、それ自体はペア（この場合はコドンペア、すなわち（ｃ_ｉ，ｃ_ｊ））である引数を単に１個有する関数であることを示すのに必要である。同じことは、下で定義するコドンペア上の全ての関数に当てはまる。添字ｉ、ｊ、およびまたｋは１〜６４であることができ、（それらのアルファベット順に従って）内部表現中のコドン数を示す。（ｃ_ｉ，ｃ_ｊ）はコドンペアを指し、ｃ_ｉは左側コドン（すなわち６−ヌクレオチド配列の５’トリプレット）、ｃ_ｊは右側コドンであり（すなわち３’−末端により近い）、ならびに

は、各コドンｃ_ｋに対する出現数である。
（式中、
下付文字ｓｃは単一コドンを示し、上付文字ａｌｌは数が、単一遺伝子ｇ中のコドン比率を指すのに使用される

とは対照的に、全ゲノムを指すことを示す。ｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））のようなコドンペアの関数は常に、全ゲノムまたはより大きな遺伝子群中の数を指す）。次に単一コドン比率（論文によってはこれらの比率はまた、頻度とも称されることに留意されたい。しかしコドン頻度はまた、全コドンの総数で除したコドン出現数を指すこともある）を計算する

（式中、
ｓｙｎ（ｃ_ｋ）は、ｃ_ｋと同一のアミノ酸をコードし、したがってｃ_ｋと同義であるコドンのセットを指す）。したがって分数線の下側の合計の値は、全プロテオーム中のｃ_ｉによってコードされるアミノ酸出現数に等しい。ここで使用される最も重要な記号および式の簡潔な一覧については、付録１を参照されたい。

特定の主張されるコドンペア優先度が、単に個々のコドン優先度の結果であるのかどうかを明らかにするために、個々のコドン頻度を基準にして、各コドンペアに関する期待値を計算することが必要である。これらは、式、

を使用して計算され、上付文字ｏｗｎは、後述するその他の方法を使用して得られたものから、値を区別するために使用される。この式の最後の因子中で、全同義コドンペア出現率の実際の数値が合計される。したがって予期される各コドンペアの量は、個々のコドン使用比率とそれぞれのアミノ酸ペアの出現数との積である。

ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄ（１９８９年、Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．ＳｃｉＵＳＡ８６：３６９９〜３７０３頁）は、期待値を計算する別の方法を提案した。彼らの最初のアプローチは、各遺伝子について個々にコドン頻度を計算し（すなわち｜ｇ｜で示される遺伝子ｇ中のコドン総数によってｇ中のコドン量を除する）、次にこれらの値をペアワイズにその配列中のコドンペア数（｜ｇ｜−１）で乗じることであった。

この式において「ｇｈ１」は、ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄの方法１（１９８９年、前出）を指す。これは、各遺伝子について予期されるコドンペアの値（上式の総和演算記号の後ろの部分）をもたらし、次にそれを合計して、定義上は、同一ゲノムの異なる遺伝子中の単一コドン使用頻度における可能な偏差について調節されているが、アミノ酸ペア使用頻度の可能なバイアスを考慮していない最終期待値をもたらす。これは、特定のアミノ酸がその他のものよりも頻繁に隣り合わせる傾向があれば、または換言すれば、アミノ酸ペアの出現数が同一アミノ酸組成物についてのランダム配列中のものと類似していなければ、期待値もまた顕著に異なり、かなり稀に使用されるアミノ酸ペアをコードするコドンペアは高すぎる期待値を、より頻繁に使用されるアミノ酸ペアをコードするコドンペアは低すぎる期待値を有するであろうことを意味する。

ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄ（１９８９年、前出）はまた、彼らの期待値をアミノ酸ペアバイアスについて正規化する方法も提案した。したがって彼らは、彼らの方法に従う期待アミノ酸ペア数と観察された数とを単に比較して、全ての影響を受けたコドンペアの期待値を適宜増減させ、前者と後者を一致させた。

この式において「ｇｈ２」は、ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄの方法２（１９８９年、前出）を指す。

［１．１．３コドンペアバイアスを計算する］
次に実際のコドンペアバイアスｂｉａｓ（（ｃ_ｉ，ｃ_ｊ）が、期待コドンペア数と実際の（観察された）コドンペア数との間の差から得られる（期待値のための方法のいずれでも使用できる）。最初のアプローチは、それを単に

によって計算することであった。

このようにしてバイアス値は、期待のよりも何％多くまたは少なく頻繁に、コドンペアが実際に使用されたかを示す（すなわち１００％で乗じた場合）。分析された遺伝子セット中で生じないアミノ酸ペアでは、式に従ったバイアス値は、全ての対応するコドンペアについて０／０である。その場合、これは０であると定義される。したがってバイアス値の下限が−１である一方、明確な上限はない。これはいくぶん非実用的であると見なされたので、代わりに

を使用し、式中、ｍａｘ（ａ，ｂ）はａとｂの２つの値のより大きな方を指し、それは常に（−１，１）中のバイアス値をもたらす。これは、バイアス値が−１であることができるが、＋１であることはできないことを意味する。前者は、実際に生じるアミノ酸ペアをコードするのに、特定のコドンペアが全く使用されない場合に起きる。＋１の値は到達できないが、これは、そうするとｎ_ｅｘｐ（（ｃ_ｉ，ｃ_ｊ））が０でなくてはならないが、これはｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））もまた０である場合にのみ可能なためである。

上述の解釈は、バイアス値＜０についてなおも有効である（これはｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））＜ｎ_ｅｘｐ（（ｃ_ｉ，ｃ_ｊ））であることを意味し、したがって双方の式は同じ結果を有する）。ｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））＞ｎ_ｅｘｐ（（ｃ_ｉ，ｃ_ｊ））である場合、バイアス値（このときそれは＞０）は、観察された値よりも期待値が何％低いかを示す（すなわちその場合、ベースラインが変化する）。

［１．１．４バイアスの統計的有意性］
ＧｕｔｍａｎおよびＨａｔｆｉｅｌｄ（１９８９年、前出）はカイ二乗検定を使用して、それらの結果の統計的有意性を判定した。この検定を使用して、特定の仮説下で特定の観察結果が偶然起こることがどれほどありそうかをチェックする。コドンペアを調べる場合、この仮説は、コドンペア使用頻度は、独立した各コドンのランダム選択の結果であるというものである。この仮説を検証するために、χ²値が計算される。

（式中、ＣＰは停止コドンを含まない全てのコドンペアのセットを指す）。次に自由度数は３７２０（６１^＊６１−１）である。コドンペア選択がランダムであれば、χ²値はおよそ３７２０であり（自由度数に等しい）、標準偏差は２^＊自由度の平方根に等しいことが予期される。

このようにして、観察されたバイアスの全体的な統計的有意性を検証できる。しかしまた、個々のコドンペアのバイアスの統計的有意性を推定することもできる。前に提案された期待値を計算する方法については、コドンペアの出現数が、ひと続きの独立したｙｅｓ／ｎｏ実験（ｙｅｓ：それぞれのアミノ酸ペアをコードするために、これらの２つのコドンが選択される；ｎｏ：別のコドンペアが選択される）の結果であると見なされ、したがってそれは二項分布に従い、これは分析された遺伝子のセットが十分大きければ、正規分布によって近似できる。これはｎ^＊ｐ＞４（式中、ｎは実験回数を、ｐは「ｙｅｓ」の確率を表し、これは期待値でもある）であれば、良好な近似と見なされる。したがって各コドンペアについて、標準偏差は、式、

に従って計算できる。

次にｚ−スコアとも称される標準得点を計算できる。

ｚ−スコアの絶対値は、実際の（観察された）値が、期待値から標準偏差いくつ分離れているかを示す。正規分布を仮定すれば、全観察のおよそ９５％は期待値から２標準偏差内であり、＞９９％は３標準偏差内である。

［１．２結果］
［１．２．１コドンペアバイアスの存在］
上の方法を使用して、本発明者らは有意なコドンペアバイアスが存在することを発見した。全ての調査した生物について、カイ二乗検定は自由度数より数倍高いχ²値を与え、したがって期待値を多くの標準偏差分超えた。個々のコドンペアのバイアスについては、酵母中で「コドンペアコンテキストの約４７％が−３〜＋３」標準偏差分、期待値から離れた区間内に入る（彼らは期待値を異なる方法で計算したが）というＭｏｕｒａらの発見が確認でき、それは本発明者らの分析においてｚ−スコアに相当する。全体的に、コドンペア使用頻度がランダムである場合にあるべきものよりも、ｚ−スコアのかなり高いコドンペアが顕著により多かった。表１．２を参照されたく、ほぼ正規分布をもたらすランダム選択では、例えば全コドンペアの約５％のみが２を超えるまたは−２未満のｚ−スコアを有するべきであるが、選択された４種の生物の全ゲノム中では、これは実際には３分の２以上に当てはまる。

これらの値は、ゲノムサイズといくぶん相関性があることに留意されたく（比較するのは表１．１を参照されたい）、すなわちより大きなゲノムの生物は、より極端なｚ−スコアがあるコドンペアを有する傾向がある。より小さい出現数は（期待値と比較して）より高い標準偏差をもたらし、したがって結果の統計的有意性がより低いので、特により小さな遺伝子群（例えばＡ．ニガー（ｎｉｇｅｒ）中の４７９個の高度に発現される遺伝子）を分析すると、値はより低い（この例ではそれぞれ６５．１％、３７．２％、および１９．７％）。これはコドンペア使用頻度が、単一コドン比率に従ったコドンのランダム選択の結果でないという結論をもたらす。

バイアス値の分布それ自体は、生物毎に異なる。これは、異なる生物中の３，７２１個のセンス：センスコドンペアに関するコドンペアバイアス値の分布を示す図３に言及して説明できる。図３の各ヒストグラムの右上隅の数は、観察された分布の標準偏差であり、平均値（図示せず）は全ての生物について−０．０６〜−０．０１の間である。図３に示すヒストグラムにおいて、試験された１０種の生物の内、細菌大腸菌（Ｅ．ｃｏｌｉ）、枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）、バシラス・アミロリケファシエンス（Ｂ．ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）、およびＳ．コエリカラー（ｃｏｅｌｉｃｏｌｏｒ）が最も極端なコドンペアバイアスを有するのに対し、真菌Ａ．ニガー（ｎｉｇｅｒ）、コウジカビ（Ａ．ｏｒｙｚａｅ）、Ａ．テレウス（ｔｅｒｒｅｕｓ）、Ａ．ニデュランス（ｎｉｄｕｌａｎｓ）、Ｐ．クリソゲヌム（ｃｈｒｙｓｏｇｅｎｕｍ）、および酵母Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）およびＫ．ラクチス（ｌａｃｔｉｓ）中のバイアスは、極端さがより少ないことが分かる。

異なる生物のコドンペアバイアスを比較すると、別の興味深い観察を行うことができる。近縁生物からのバイアス値は、非近縁生物からのものよりも高い相関を示す。これは図４に言及して説明される。図４は、様々な生物のコドンペアバイアス中の相関を示す。相関係数は各サブプロットの右上隅に示される。この分析では、Ａ．ニガー（ｎｉｇｅｒ）とＰ．クリソゲヌム（ｃｈｒｙｓｏｇｅｎｕｍ）との間に最も高い相関が、Ａ．ニガー（ｎｉｇｅｒ）とコウジカビ（Ａ．ｏｒｙｚａｅ）との間に最も低い相関が観察でき、すなわち枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）とＳ．コエリカラー（ｃｏｅｌｉｃｏｌｏｒ）との間には、事実上相関が観察できなかった。興味深いことに、負の相関は観察されなかった。これは、ＧＣ含量が高い生物（Ｓ．コエリカラー（ｃｏｅｌｉｃｏｌｏｒ）など）は、大抵はＡＴに富む生物（Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）または極めてＡＴに富んでいるわけではないが枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）など）でより少なく使用されるコドンを好むが、１種の生物で好ましいペアがもう１つの種で拒否されたり、その逆であったりする２種の生物はいないことを意味する。これは、ほとんど全ての単一コドンのバイアスが生物依存性でありながら、ほとんど全ての生物において好ましいおよび／または拒否されるいくつかのコドンペアがあることを意味するのかもしれない（例えばそれらが適合する構造のないフレームシフトまたはｔＲＮＡを引き起こす可能性のため）。

［１．２．２コドンペアバイアス中のパターン］
観察されたコドンペアバイアスを視覚化するため、Ｍｏｕｒａら（２００５年）が行ったようにいわゆるマップを描くことができる（彼らはこれらのマップをマップを「コドン文脈マップ」と称する）。これは、各コドンペアに対する着色矩形からなり、横列がペアの第１のコドンを表して縦列がペアの第２のコドンを表す着色画像を参照して、最も容易に説明できる。赤色は負の、緑色は正のバイアスを示す。白色は０に等しいバイアスを実際に有するコドンペア（例えばアミノ酸ペアＭｅｔ−Ｍｅｔをコードする唯一の方法であることから、ＡＴＧ−ＡＴＧがこれに当てはまる）、および停止コドンを組み込んだペアを表わす。

しかし着色画像は、特許出願開示の一部であることができない。この実施例ではモノクロ視覚化のために、画像を２つの画像に分離する。図５ＡがＡ．ニガー（ｎｉｇｅｒ）に対する正のコドンペアを示すのに対し、図５ＢはＡ．ニガー（ｎｉｇｅｒ）に対するの負のコドンペアを示す（付録３、表Ｃ１もまた参照されたい）。コドンペアが偏っているほど、対応する矩形はより黒くなる。ここでのバイアス値は−０．６７〜０．５４の範囲である一方、その他の生物ではそれらは±０．９をわずかに超えさえするかもしれない（図３もまた参照されたい）。これらのダイアグラム中の最も濃い黒色（オリジナルの緑色（上部）および黒色（オリジナルの赤色（下部））は、それぞれ０．９および−０．９の値を表す（ここでは到達されていない；大抵、最大バイアスの絶対値は最小バイアスのそれよりもわずかに低い）。

さらに本発明者らはコドンペアバイアスの数値を含有する、付録３のＣＰＷマトリックス表に言及し、そして本発明者らは着色画像のモノクロ例として図５に言及し、それによって当業者は付録３の表からの数値を使用して、着色バージョンを再構築してもよい。

これらのコドンペアマップに対する第１のアプローチは、横列および縦列をそれらのアルファベット順に従ってソートすることであった（これがそれらの内部表現の順序であるので）。そのマップ中では、対角線が赤色点よりもわずかにより多くの緑色点を含有するように見えることが分かり、これは多くのコドンがその隣接コドンと同じコドンに対する優先度を有することを示唆する。さらにほとんどの隣接する縦列がいくぶん類似するのに対し、隣接する横列はほとんど類似せず（データ示さず）、図５Ａおよび５Ｂおよび付録３の表Ｃ１を参照されたい。しかしほとんどの横列は３つの別の列によって隔てられる横列と類似しており、すなわち４番目の横列毎にいくらかの類似性があった。

各４番目の横列の一般的な特質は、ペアの第１のコドンの最後のヌクレオチドであることから、第３位を第１の、中央位を第２のソート基準として、アルファベット順に従って横列をソートすることがより好ましい。次にＡ．ニガー（ｎｉｇｅｒ）のためのマップ（図５ＣおよびＤ、および付録３の表Ｃ１）から分かることは、１６^＊１６コドンペアの各ブロックのほとんどの値が同じ色を有することから、バイアスが確かに主として第１の（５’）コドンの最後のヌクレオチドおよび第２の（３’）コドンの最初のヌクレオチドと相関するように見えることである。例えばアスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）中で特定できる原則は、ｘｘＴ−Ａｘｘ（ｘはあらゆるヌクレオチドを指し、それぞれの位置にあるものは特定の法則にとって重要でないことを示す）のようなコドンペアが拒否されるのに対し（下左隅の赤色ブロック）、パターンｘｘＡ−Ｔｘｘは、好ましいコドンを特徴づけることであり（右上隅の緑色ブロック）、ここでもコドンペアバイアスが方向性を持つことが示唆される。しかし全てのバイアスが、コドンペア「中央」の隣接する２つのヌクレオチド中のパターンのみで説明できるわけではない。例えばｘｘＣ−Ａｘｘコドンペア（最も左上から２つめののブロック参照）は、一般に好ましくも拒否されるわけでもないが、パターンｘｘＣ−ＡＡｘのペアに対する明らかな優先度がある（すぐ上で述べたブロック左側の４個の緑色縦列に留意されたい）。バイアスはまた、非隣接ヌクレオチドに左右されることもできる（例えば枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）中のＣｘＡ−Ｇｘｘペアの強力な拒否；図６Ａおよび６Ｂおよび付録３の表Ｃ４参照）。不運なことにコドンペアバイアスは、常にこのような「単純な」パターンに起因するとは限らず（例えば図７ＡおよびＢおよび付録３の表Ｃ５の大腸菌（Ｅ．ｃｏｌｉ）に関するかなり混沌としたマップを参照されたい）、スポットファイアＤｅｃｉｓｉｏｎＳｉｔｅ８．０（ｈｔｔｐ：／／ｗｗｗ．ｓｐｏｔｆｉｒｅ．ｃｏｍ／ｐｒｏｄｕｃｔｓ／ｄｅｃｉｓｉｏｎｓｉｔｅ．ｃｆｍ）を使用してクラスター分析を実施した場合でさえ、一般特性は見つけられず（データ示さず）、すなわち同定されたクラスターは、ほとんど関連のないコドンから構成された（すなわち同じ位置の共通ヌクレオチドはない）。

［１．２．３バイアスおよび発現レベルの関係］
高度発現レベル（それらは転写レベルを調べることによってのみ同定されることから、より望ましくは推定上の高度発現レベル）があるＡ．ニガー（ｎｉｇｅｒ）遺伝子のバイアスマップを見ると（図８参照）、より大きな群、すなわちダイアグラム中のブロックの存在は、さほど明白でない（または換言すれば、上述のような単純な規則は全く存在しないかもしれない）。それにもかかわらず全コドンペアの３分の２はこの群中で３６回以下生じるので、そして上述したように平均ではるかにより低いｚ−スコアのために、これはかなりの程度まで不規則変動に起因すると考えることができる。

図９は、Ａ．ニガー（ｎｉｇｅｒ）の４７９個の高度に発現される遺伝子の群中のバイアス（垂直軸）に対する全遺伝子中のバイアス（水平）の散布図を示す。停止コドンを含まない全３，７２１個のコドンペアを示す。

淡い灰色から黒色への陰影付けは、総ゲノム中のｚ−スコアの絶対値に従って割り当てられ、すなわちプロット中の淡い点は全ての遺伝子中で有意なバイアスを有さない）、サイズもまた高度に発現される群中の絶対ｚ−スコアに従い、すなわち非常に小さい点はそこで有意なバイアスを有さない（ここでは｜ｚ−スコア｜＜１．９）。黒色実線は双方のバイアス値が等しい箇所を示し、黒色破線は実際の相関（主成分分析によって同定される）の最良の直線近似を示し、その傾きは約２．１である。

高度に発現される群中および全ゲノム中の各コドンペアの２つのバイアス値を比較すると（図９の散布図参照）、ほとんどのペアでは、高度に転写される群中のバイアスはより極端であり、すなわちそれが０未満ならばより低く、それが正数ならばより高いが、ペアによってはバイアス値がかなり異なったり、符号が異なることすらあることが分かる。しかしこれらはほとんどが首位群中での出現数が少ないコドンペアであり、バイアスが高度に顕著なペア（青色の大きな丸）の大半は、双方の群中で同様のバイアスを有する（すなわちそれらは双方のバイアス値が等しい箇所を示す青線に近い）。

（Ａ．ニガー（ｎｉｇｅｒ）または枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）のどちらについても）３つのヌクレオチドの内２つを共有するコドンの同様のバイアス差に関する特異的パターンは発見できず、すなわち上のものに類似しているバイアス差のプロット中には、バイアス差が同様であるより大きな群がない。

［１．３．遺伝子適応のためのコドンペア重み同定の詳細］
ここで、
１．遺伝子のフルセットに基づいて；１のサブセットに基づいて、
２．高度に発現される遺伝子の一部分として同定される、
記載されている方法（付録１：コドンペア重み−方法１配列群（またはゲノム））に従って、適応のためのコドンペア重みが判定できる。

さらに本発明者らは、コドンペア使用適応の改善された方法のために必要なより高い転写レベルと明らかに関連する、コドンペア重みを同定するために検索を開始し、次の方法が適用された。前述の４，５８４個の実際に発現された遺伝子のセットについて、ＧｅｎｅＣｈｉｐデータから抽出された完全な格付けが入手できたＡ．ニガー（ｎｉｇｅｒ）では（「材料と方法」中の「データ」参照）、各遺伝子の平均コドンペア重み（すなわちｆｉｔｃｐ（ｇ）値相当量）を計算した。次に適合値（昇順）および発現レベル（降順）に従って遺伝子をソートした。高度に発現される遺伝子は低いコドンペア適合値を有すると思われるので、これらの２つの格付けは理想的コドンペア重みを使用すれば等しくなり、したがってこれらの２つの格付けの比較は、適合関数で使用される重みの質に関する情報を提供できる（そこではあまり良くないものの格付けよりも、高度に発現される遺伝子の「正確な」格付けにわずかにより多くの注意が向けられた）。さらに４，５８４個の遺伝子の格付けと平均コドンペア重みの間の相関係数（各変数の標準偏差で除した共分散）を計算した。

次をはじめとする可能ないくつかの重みのセットを調べた。
ｉ．全ゲノムからのバイアス値
ｉｉ．高度に発現される群のバイアス値
ｉｉｉ．０に設定された特定の最小ｚ−スコアを有さない全ての値に関するバイアス
ｉｖ．高度に好ましいまたは拒否されるコドンにより低い／より高い影響を与えるために二乗した（およびその他の数で乗じた）バイアス値
ｖ．それらの組み合わせ
ｖｉ．ｚ−スコアそれ自体
ｖｉｉ．高度に発現される群および全ゲノムからのバイアス値／ｚ−スコアの差

好ましいコドンペアは（かなり恣意的に）正の値で同定されたが、遺伝的アルゴリズム（ＧＡ）は最小化を実行するので、ＧＡについてはそれらの否定が使用された。これは言及される全ての重みに当てはまる。

これらの内、「最良の」重みマトリックスは項目ｉｉ〜ｉｖの組み合わせであることが判明したが、上述のように、全ゲノムのコドン比率に基づいて計算される期待値を使用して、高度に発現される群中でコドンペア「バイアス」を計算することで、さらにより良いものが得られた。図１０は観察された相関を示す。

試験されたその他の全ての重みセットとは異なり、高度に発現される群中でより過少に現れるコドンに関与するコドンペアは、ここでわずかな不都合を被る。したがってこれらの重みは、高度に発現される群および全遺伝子の異なる単一コドンバイアスもまた反映する唯一のものである。これらの重みを使用することは、高度に発現される群中で実際には正のバイアスを有するが、（高度に発現される群中で）滅多に使用されないコドンからなる、いくつかのコドンペアを拒否する危険性を伴う。しかし本発明者らの所望する単一コドン比率は、通常高度発現がある遺伝子群中のものと同じではなくこれらよりも「極端な」ので、単一コドン最適化はいずれにしてもこれらの過少に現れるものを置き換え、したがって本発明者らは上述の重みが、コドンペア最適化のために非常に都合よいと見なすことができる。

結論として、遺伝子適応のための潜在的に改善されたコドンペア重みマトリックスが上述のように同定された。式は付録１：コドンペア重み−方法参照群（またはゲノム）を伴う高度に発現される群、にある。

［１．４．コンピュータシミュレーションによる単一コドンおよびコドンペア最適化］
［１．４．１材料と方法］
遺伝子を分析および最適化するために開発されたＭＡＴＬＡＢツールボックスは、それらの能力に応じて異なるディレクトリに整理されたいくつかの機能からなる。したがってそれらを使用するためには、それらを全てＭＡＴＬＡＢ環境に周知させることが必要である。これを行うには、ファイルメニューから「ＳｅｔＰａｔｈ」を選択し、次に「Ａｄｄｗｉｔｈｓｕｂｆｏｌｄｅｒｓ」をクリックして、ツールボックスがインストールされたパスを選択する（通常「Ｍａｔｌａｂ−ｂｉｏ」と称される）。また分析すべきＦＡＳＴＡおよびその他のファイルの位置も追加する。全ての個々のＭＡＴＬＡＢ関数については「ｃｏｎｔｅｎｔｓ．ｍ」で簡潔に述べられている（ＭＡＴＬＡＢ環境において「ｈｅｌｐＭａｔｌａｂ−ｂｉｏ」とタイプしてこのファイルを表示し、「ｈｅｌｐ」に続けて関数の名称を使用してそれに関する詳細な情報を得る）。コドンペア使用頻度に着目した遺伝子最適化のために重要な２つの関数は、「ｆｕｌｌａｎａｌｙｓｉｓ」および「ｇｅｎｅｏｐｔ」である。

遺伝子を適応させたい生物の全ゲノムが例えば「Ａｎｉｇｅｒ＿ＯＲＦ．ｆａｓｔａ」ファイルに位置して、その高度に発現される遺伝子の識別子が「ａｎ−ｈｉｇｈ．ｔｘｔ」にある場合、「ｆｕｌｌａｎａｌｙｓｉｓ（’Ａｎｉｇｅｒ＿ＯＲＦ．ｆａｓｔａ’，’ａｎ−ｈｉｇｈ．ｔｘｔ’，’ａｎ’）；」とタイプすれば、（ｉ）全ゲノムのコドンペアバイアスマップ、（ｉｉ）第２のファイル中の遺伝子群のコドンペアバイアスマップ、および（ｉｉｉ）ＭＡＴＬＡＢ作業空間内でのさらなる使用のためのいくつかの変数（すなわち一時的に保存されるデータのセット）が得られる。「ｆｕｌｌａｎａｌｙｓｉｓ」の第３のパラメーターは、これらの変数がどのように命名されるかだけを決定し、１つのゲノムのみを一度に分析するのであれば省略できる。言及される変数には、（ｉ）全ゲノムのコドンペア使用頻度およびバイアスデータ（この例では「ｃｐａｎ」と称される）、（ｉｉ）第２のパラメーターによって規定される特別な遺伝子群のコドンペア使用頻度およびバイアスデータ（「ｃｐａｎｓ」と称される）、および（ｉｉｉ）遺伝的アルゴリズムのために使用できる標的単一コドン比率およびコドンペア重みを伴う構造がある。「ｆｕｌｌａｎａｌｙｓｉｓ（’Ｘｙｚ＿ＯＲＦ．ｆａｓｔａ’）；」は、コドンペアバイアスマップのみを示し、それぞれのゲノムのバイアスデータを保存する。

第２のパラメーターは、遺伝子識別子（例えば低発現を伴う遺伝子セットまたは特定の共通機能がある遺伝子）を含むあらゆるファイルであってもよいが、それは常にこの（潜在的）パラメーターに関して、高度に発現される遺伝子セットのように取り扱われる（本例では「ｏｐｔｐａｒａｍｆｏｒａｎ」と称され、これは「特定生物のための最適化パラメーター（ｔｈｅｏｐｔｉｍｉｚａｔｉｏｎｐａｒａｍｅｔｅｒｆｏｒｔｈｅｓｐｅｃｉｆｉｅｄｏｒｇａｎｉｓｍ）」を表す）。ここで単一コドン比率は、単に、

で計算され、これは許容可能な近似であることに留意されたい。所望の比率の基準をさらに改善するために、標的比率は、単一コドン分布の詳細を含むその他の方法（本文参照）によって同定した方がいいかもしれない。さらに、より高いコドンペア適合がある解を見つけるのにより大きな自由度をコドンペアアルゴリズムに与えるため、特定のバイアスが見られない場合は、標的比率は空白のままであってもよい。様々な宿主生物に対する、このような所定の単一コドン標的ベクターのいくつかが付録１にある。

遺伝的アルゴリズムのための所定の単一コドン標的比率を使用するためには、「ｏｐｔｐａｒａｍｆｏｒａｎ．ｃｒ＝［」とタイプしてパラメーターのフィールド「ｃｒ」を変更し、次に単一コドン比率をペーストし（例えばＥｘｃｅｌシートからコピーする；それらはコドンのアルファベット順であるべきことに留意されたい）、比率が６４要素の横列として入手できるならば「］；」とタイプし、またはそれらを縦列からコピーするのであれば「］’；」とタイプして改行キーを押す（後者の場合右角括弧に続く追加の一重引用符またはアポストロフィに留意されたい）。重要でないコドン比率、すなわち特定の標的比率が所望されないコドンには、「値」ＮａＮ（ｎｏｔａｎｕｍｂｅｒ）を割り当ててもよく、それらは単一コドン適合が計算される際に無視される。

最適化された遺伝子から特定の短い配列を除外するために、パラメーター「ｒｓ」を同様に設定し、そこでは例えば（改行なしで）「ｏｐｔｐａｒａｍｆｏｒａｎ．ｒｓ＝｛’ＣＴＧＣＡＧ’’ＧＣＧＧＣＧＣＣ’｝；」のように、各配列を一重引用符によって囲まなくてはならず、全配列を一緒に中括弧で囲まなくてはならない。最後に、パラメーターのフィールドｃｐｉが変更されて、組み合わせ適合関数中でより高い重要性を単一コドン最適化またはコドンペア最適化に与えるかもしれない（「結果および考察」中の下位セクション「コドンペア最適化を実行する」を参照されたい）。デフォルト値は０．２である。単一コドン最適化された遺伝子と比較して、コドンペア最適化された遺伝子に関する実験結果が、コドンペア最適化された遺伝子の改善をわずかしか見せない場合はこれをより低い値に設定し、逆の場合はより高いｃｐｉの方がより良いかもしれない。

次に関数ｇｅｎｅｏｐｔを使用して、遺伝的アルゴリズムを使用した実際の遺伝子最適化を実施できる。必要なパラメーターは、最適化する配列と、コドンペア重みを含有する構造と、上述のような標的比率および制限部位だけであり、したがって例えばｇｅｎｅｏｐｔ（‘ＭＵＶＡＲＮＥＱＳＴ^＊’，ｏｐｔｐａｒａｍｆｏｒａｎ）；を使用して、Ａ．ニガー（ｎｉｇｅｒ）中での高度発現のために特定の（かなり短い）タンパク質配列を最適化できる；「^＊」は得られた遺伝的配列が、末端に停止コドンを有すべきであることを示すのに使用される（しかしＡ．ニガー（ｎｉｇｅｒ）中の最適停止信号は四量体ＴＡＡＡであると考えられるので、これは必要ではない）。最適化する配列は、一重引用符によって再度囲まなくてはならないことに留意されたい；配列が文字Ａ、Ｃ、Ｇ、ＴまたはＵのみを含有し、およびその長さが３の倍数であれば、それは自動的にヌクレオチド配列と見なされる。次に２００個の母集団サイズで、遺伝的アルゴリズムを１０００世代実行し、その内各８０個（最良の７９個および無作為抽出される１個）は世代のために保存され、使用されて新しい個体が作り出され、新しい個体の４０％は交叉を使用して作り出され、６０％は突然変異演算子を使用して作り出される。これらのデフォルト値は最適化のために非常に都合よいことが判明し、すなわちこれらのパラメーターの変更は、あったとしても非常にわずかな「より良い」遺伝子をもたらすに過ぎないが、例えば最適化のために顕著により長いまたは短い計算時間を用いなければならない場合には（約５００コドンの遺伝子に対するｇｅｎｅｏｐｔの平均的実行は、１．４ＧＨｚのＰｅｎｔｉｕｍＭプロセッサー上で約１５分かかる）、それらもまた変更することができる。例えばｇｅｎｅｏｐｔ（ｓｅｑ，ｏｐｔｐａｒａｍｆｏｒａｎ，［５０７５０５００．６］）は、７５０世代の母集団の遺伝的アルゴリズムを計算し、そこでは５０個体が新しい各世代のために保存され、２５０個が新たに作り出され（５^＊５０；すなわち各世代で３００個体が調べられる）、最良の個体のみが保存されて（無作為抽出なし）、遺伝子組み換えの６０％が交叉演算子を使用して実施される。これらのパラメーターをどのように指定するかについてより詳しくは、ｈｅｌｐｇｅｎｅｏｐｔおよびｈｅｌｐｇｅｎｅｔｉｃａｌｇｏｒｉｔｈｍとタイプする。

ここでＡ．ニガー（ｎｉｇｅｒ）および枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）について、対応するＦＡＳＴＡファイルを分析してコドンペア重みを生じさせる手順を示して記述したが、これらの計算は以前の遺伝子最適化のために既に実施されているので、これらの２種の生物だけに関しては、これは必要でないことに留意されたい。より容易な使用のために、遺伝的アルゴリズムのそれぞれのパラメーターは保存されている（「ｌｏａｄｇａｄａｔａ＿ｆｏｒ＿ａｎ」または「ｌｏａｄｇａｄａｔａ＿ｆｏｒ＿ｂｓ」とそれぞれタイプする；そこでのパラメーターが単にａｎ＿ｐａｒａｍおよびｂｓ＿ｐａｒａｍと称されることに留意されたい。

［１．４．２結果］
図１１は、それぞれ異なるｃｐｉ値のための５つの最適化バージョンの適合値を示す（図１１ダイアグラムの説明文を参照されたい）。タンパク質は、宿主Ａ．ニガー（ｎｉｇｅｒ）のために最適化された真菌α−アミラーゼ（ＦＵＡ；ＡｍｙＢとも称される）である（実施例２参照）。さらに「純粋な」単一コドン最適化（右の黒色点）およびコドンペア最適化の結果が示される（左上の群）。最適化バージョンは、４００個の母集団サイズについて遺伝的アルゴリズムを約１０００世代実行して得られ、それは１．４ＧＨｚのＰｅｎｔｉｕｍＭ上で各実行に約１７分かかった。純粋な単一コドン最適化および純粋なコドンペア最適化には、その約６０％の時間しかかからなかったことに留意されたい。

図１１では、野性型（ｆｉｔ_ｓｃ（ｇ_ｆｕａ）＝０．１６５、ｆｉｔ_ｃｐ（ｇ_ｆｕａ）＝０．０３３）は、このプロット上にフィットしない（それは右上すぎる）。最適遺伝子は常に、ｆｉｔ_ｓｃおよびｆｉｔ_ｃｐの値が最も低いものである。本発明者らは単一コドン使用頻度がより重要なのか、またはコドンペア使用頻度がより重要なのかを未だに知らないので、点の位置を考えると、どのｃｐｉの値について最も改善された遺伝子が得られたのか明らかでない。しかしｃｐｉ＝０．２の場合に、偏りのない（ｆａｒｅ）妥協点が出現するようである。

単一コドンおよびコドンペア使用頻度における改善は、この研究で提案されるいわゆる配列の質プロットにおいて視覚化できる。図１２は前述のＦＵＡの（４９９個の内）最初の２０個のコドンの配列の質を示す、２つのダイアグラムを示す（実施例２もまた参照されたい）。

これらの配列の質ダイアグラムは、配列それ自体だけでなく、重みおよび所望の単一コドン比率のセット、ひいては生物にもまた左右されることに留意されたい。コドンバイアスが低いまたは皆無のコドンについては、標的単一コドン比率を「考慮外（ｄｏｎ’ｔｃａｒｅ）」と定義し、すなわち特定コドンの使用頻度をその同義コドンと比較して、発現について正または負であると考慮しないことができることにもまた留意されたい。その場合、遺伝子中のそれぞれのコドンの実際の比率について青い×印のみが示されて、単一コドン適合を計算する際に特定の位置は無視される（１．４．コンピュータシミュレーションによる単一コドンおよびコドンペア最適化を参照されたい）

［１．５結論］
広範な生物において、コドンペア使用頻度と転写レベルとの有意な相関が確立されている。このバイアスは、読み枠部位周辺のジヌクレオチドバイアスだけでは説明できないことが実証された。特定コドンペアの優先度または拒否に関する可能な説明は全て翻訳に着目するので、どちらも、酵素群または少なくともそれらのより重要なものを産生する細胞の影響力を最小化するために、翻訳に影響する特徴と転写に影響するその他の特徴とに同時に作用する自然淘汰によって、引き起こされると推測される。

したがってポリペプチドコード配列中のコドンペア使用頻度を最適化することは、最適化のために単一コドン頻度のみが考慮される古典的な単一コドン最適化または単一コドン調和に加えて、改善された過剰発現を達成することと見なされる。同一遺伝子のコドンペア適合および単一コドン適合は、この例で調査した真菌宿主クラスおよび桿菌にはわずかにしか干渉せず、すなわちどちらも同時に実施でき、結果は野生型遺伝子よりも「より良い」単一コドン使用頻度および「より良い」コドンペア使用頻度を有し、他方を無視した場合、２つの側面のどちらもわずかしか改善できない。

ＦＡＳＴＡファイルを読み取って、分析および最適化を実施するために、ユーザーフレンドリーなＭＡＴＬＡＢ関数がデザインされている。単一遺伝子のコドンペアバイアスおよびコドンペア使用頻度を視覚化する新しい方法もまた導入されており、実施例２および実施例４を参照されたい。最適化のためにデザインされた遺伝的アルゴリズムが、隣接するコドンペアの相互依存によって課せられる制約の効果的な取り扱いを可能にする一方で、配列の質の２つの側面（単一コドンおよびコドンペア適合）の１つを常に改善する特別にデザインされた突然変異演算子は、遺伝的アルゴリズムが最初の数世代後の組み換えステップで多数の可能な不良解を生じる特性のために、それに通常伴う効率の悪さを回避することを助ける。

適切なコドンペア使用頻度は酵素産生に影響し、それは続く実施例で実験的に示される。枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）中で発現される３つの遺伝子のコドンペア最適化変異体を調製し、その各１つを単一コドン使用頻度のみに適応した合成遺伝子と比較して、別の１つを推定上の正の重みの否定を使用した最適化過程を経ているが、なおも単一コドン使用頻度について以前と同様に最適化されている合成遺伝子と比較する。実施例４および実施例５を参照されたい。このようにして、ここで却下されたＩｒｗｉｎら（１９９５年）の過少に現れるコドンが翻訳を刺激する、という見解もまた試される。Ａ．ニガー（ｎｉｇｅｒ）については、前述のａｍｙＢのコドンペア最適化バージョンを試験して、野生型および単一コドン調和がある合成遺伝子と比較する。実施例２および３を参照されたい。

［２．実施例２：Ａ．ニガー（ｎｉｇｅｒ）中のアスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）真菌アミラーゼ酵素の産生を改善するための改善されたＤＮＡ配列を構築する本発明の方法の使用］
以下では本発明の方法を適用して、Ａ．ニガー（ｎｉｇｅｒ）中の改善された発現のために、単一コドンおよび／またはコドンペア使用頻度が最適化されている、Ａ．ニガー（ｎｉｇｅｒ）のＡｍｙＢ（ＦＵＡ）遺伝子のための新しいヌクレオチド配列をデザインする。この方法は、あらゆるヌクレオチド配列のコドンの使用頻度改善のために、同様に適用できる。

［２．１序文］
コドン調和の手段による単一コドン最適化の概念は、本発明の出願人らによって以前に開発されて、本文中で報告されている（実施例３もまた参照されたい）。この実施例で本発明者らは、単一コドンおよびコドンペア使用頻度の双方について最適化された遺伝子をデザインするために、本発明の方法をどのように適用するかを示す。この特定例では、１４，０００個の遺伝子を含有する全Ａ．ニガー（ｎｉｇｅｒ）ゲノムの高度に発現される遺伝子の２％および４％の２つのサブセットを当てはめることで作り出された、重みマトリックスが適用される。単一コドン使用頻度については、アルゴリズムは、表Ｂ．１（＝表２．１の縦列３）によって定義されるような同義コドン頻度がある遺伝子に対し解を導く一方で、コドンペア使用頻度については、それはコドンペアの最適セットに向けて最適化し、それらの高頻度は関連する負の重みを有し（表Ｃ．２）、４％の高度に発現される遺伝子のセット中で、その期待値に対して過剰に現れるコドンペアである。特定宿主について高度に発現される遺伝子の定義された一覧がない場合は、（ｉ）同様の宿主生物の重みマトリックスを当てはめ、例えばＰ．クリソゲヌム（ｃｈｒｙｓｏｇｅｎｕｍ）マトリックスはＡ．ニガー（ｎｉｇｅｒ）に当てはめることができ、または（ｉｉ）全ゲノム配列データまたはそのサブセットを当てはめ、良好であるが最適さに劣るマトリックスが得られることに留意されたい。

［２．２材料と方法］
［２．２．１Ａ．ニガー（ｎｉｇｅｒ）α−アミラーゼＡｍｙＢをコードする野生型ａｍｙＢコード配列］
α−アミラーゼタンパク質をコードするａｍｙＢ遺伝子のＤＮＡ配列は、Ｊ．Ｂｉｏｃｈｅｍ．Ｍｏｌ．Ｂｉｏｌ．３７（４）：４２９〜４３８頁（２００４年）（ＭａｔｓｕｂａｒａＴ．、ＡｍｍａｒＹ．Ｂ．、ＡｎｉｎｄｙａｗａｔｉＴ．、ＹａｍａｍｏｔｏＳ．、ＩｔｏＫ．、ＩｉｚｕｋａＭ．、ＭｉｎａｍｉｕｒａＮ．、「アスペルギルス・アワモリ（Ａｓｐｅｒｇｉｌｌｕｓａｗａｍｏｒｉ）ＫＴ−１１からの生デンプン消化α−アミラーゼの分子クローニングおよびヌクレオチド配列判定（Ｍｏｌｅｃｕｌａｒｃｌｏｎｉｎｇａｎｄｄｅｔｅｒｍｉｎａｔｉｏｎｏｆｔｈｅｎｕｃｌｅｏｔｉｄｅｓｅｑｕｅｎｃｅｏｆｒａｗｓｔａｒｃｈｄｉｇｅｓｔｉｎｇａｌｐｈａ−ａｍｙｌａｓｅｆｒｏｍＡｓｐｅｒｇｉｌｌｕｓａｗａｍｏｒｉＫＴ−１１）」で開示されており、また登録番号ＡＢ０８３１５９の下にＥＭＢＬヌクレオチド配列データベースから検索できる（ｈｔｔｐ：／／ｗｗｗ．ｅｂｉ．ａｃ．ｕｋ／ｅｍｂｌ／ｉｎｄｅｘ．ｈｔｍｌ）。天然Ａ．ニガー（ｎｉｇｅｒ）ａｍｙＢ遺伝子のゲノム配列を配列番号１として示す。ａｍｙＢの対応するコーディング配列またはｃＤＮＡ配列を配列番号２として示す。配列番号２の翻訳された配列には配列番号３を割り当て、これはＡ．ニガー（ｎｉｇｅｒ）α−アミラーゼタンパク質ＡｍｙＢを表す。この配列はまたコウジカビ（Ａ．ｏｒｙｚａｅ）α−アミラーゼタンパク質との１００％類似性も有する（ＷｉｒｓｅｌＳ．、ＬａｃｈｍｕｎｄＡ．、ＷｉｌｄｈａｒｄｔＧ．、ＲｕｔｔｋｏｗｓｋｉＥ．、「同一イントロン−エクソン機構を示すコウジカビ（Ａｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅ）の３つのα−アミラーゼ遺伝子（Ｔｈｒｅｅａｌｐｈａ−ａｍｙｌａｓｅｇｅｎｅｓｏｆＡｓｐｅｒｇｉｌｌｕｓｏｒｙｚａｅｅｘｈｉｂｉｔｉｄｅｎｔｉｃａｌｉｎｔｒｏｎ−ｅｘｏｎｏｒｇａｎｉｚａｔｉｏｎ）」、Ｍｏｌ．Ｍｉｃｒｏｂｉｏｌ．３：３〜１４頁（１９８９年、ＵｎｉＰｒｏｔ登録番号Ｐ１０５２９、Ｐ１１７６３またはＱ００２５０）。本発明の方法に従った最適化をａｍｙＢｃＤＮＡ配列に対して実施した。

［２．３デザイン手順］
最適化されたコーディングヌクレオチド配列の配列番号６は、記述したソフトウェア法を実行した結果である。適用したパラメーターは次のようであった。母集団サイズ＝２００、反復回数＝１０００、ｃｐｉ＝０．２０、ＣＰＷマトリックス＝「表Ｃ．２．ＣＰＷ：アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）−高度に発現される配列」、およびＣＲマトリックス＝「表Ｂ．１縦列４：ＣＲ表ＡＮＳ：アスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）−高度に発現される配列」。さらにＰｓｔＩ（ＣＴＧＣＡＧ）およびＮｏｔＩ（ＧＣＧＧＣＧＣＣ）部位の出現毎に＋１のペナルティ値がｆｉｔ_{ｃｏｍｂｉ}に加算される。

ｆｉｔ_{ｃｏｍｂｉ}のための最小値に向けた解の収束を図１３に示す。配列番号６について得られた目標値を配列番号２および配列番号５の目標値と共に、表２．２に示す。図１４は図１５および１６に示す遺伝子について単一コドン統計を説明し、表２．２は３つの配列中のコドンについて実際の値を与える。図１８〜２０は、３つの遺伝子変異体について単一コドンおよびコドンペア双方の統計を示す。このタイプのグラフについては、図１７およびその説明で詳細に説明される。これらのグラフから、単一コドン統計は配列番号５および配列番号６について類似性が高いことが明らかである。しかし本発明の方法は、関連する負の重みｓ（ｗ_ｃｐ（ｇ）≦０）がある９３％対７４％に改善されたコドンペア数があり、および−０．１８から−０．３４へのｆｉｔ_ｃｐのさらなる低下もある遺伝子をもたらし、それらに付随するより負の重みを有するコドンペアのより最適な使用が示唆される。

［３．実施例３：Ａ．ニガー（ｎｉｇｅｒ）中でアスペルギルス・ニガー（Ａｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒ）真菌アミラーゼ酵素の改善された産生を提供するための改善されたＤＮＡ配列構築のための本発明の方法の試験］
以下で本発明の方法を適用して、Ａ．ニガー（ｎｉｇｅｒ）のＡｍｙＢ遺伝子の単一コドンおよびコドンペアの使用頻度を改善する。この方法は、あらゆるヌクレオチド配列のコドンの使用頻度改善および改善された発現のために、同様に適用できる。

［３．１材料と方法］
［３．１．１株］
ＷＴ１：このＡ．ニガー（ｎｉｇｅｒ）株は野生型株として使用する。この株は寄託番号ＣＢＳ５１３．８８の下にＣＢＳインスティテュートに寄託される。

ＷＴ２：このＡ．ニガー（ｎｉｇｅｒ）株は、グルコアミラーゼ（ｇｌａＡ）をコードする遺伝子の欠失を含んでなるＷＴ１株である。ＷＴ２は、欧州特許第０６３５５７４Ｂ１号明細書で述べられている「ＭＡＲＫＥＲ−ＧＥＮＥＦＲＥＥ」アプローチを使用して構築される。この特許は、ＣＢＳ５１３．８８のゲノム中のｇｌａＡ特異的ＤＮＡ配列をどのように欠失させるかを広範に述べている。手順は、最終的に外来性ＤＮＡ配列を全く保有しない、ＭＡＲＫＥＲ−ＧＥＮＥＦＲＥＥ ΔｇｌａＡ組み換えＡ．ニガー（ｎｉｇｅｒ）ＣＢＳ５１３．８８株をもたらした。

ＷＴ３：このＡ．ニガー（ｎｉｇｅｒ）株は、シュウ酸欠乏Ａ．ニガー（ｎｉｇｅｒ）株をもたらす突然変異を含んでなるＷＴ２株である。ＷＴ３は欧州特許第１５９０４４４号明細書で述べられている方法を使用して構築された。この特許出願は、シュウ酸欠乏Ａ．ニガー（ｎｉｇｅｒ）株をどのようにスクリーニングするかを広範に述べている。欧州特許第１５９０４４４号明細書の実施例１および２の方法に従って、株ＷＴ３を構築し、株ＷＴ３は欧州特許第１５９０４４４号明細書の突然変異株２２である（欧州特許第１５９０４４４号明細書でＦＩＮＡＬと命名された）。

ＷＴ４：このＡ．ニガー（ｎｉｇｅｒ）株は、続く３つのステップ中でα−アミラーゼをコードする３つの遺伝子（ａｍｙＢ、ａｍｙＢＩ、およびａｍｙＢＩＩ）の欠失を含んでなるＷＴ３株である。欠失ベクターの構築およびこれらの３つの遺伝子のゲノムの欠失については、国際公開第２００５０９５６２４号パンフレットで詳細に述べられている。国際公開第２００５０９５６２４号パンフレットで述べられているベクターｐＤＥＬ−ＡＭＹＡ、ｐＤＥＬ−ＡＭＹＢＩ、およびｐＤＥＬ−ＡＭＹＢＩＩは、欧州特許第０６３５５７４Ｂ１号明細書で述べられているように「ＭＡＲＫＥＲ−ＧＥＮＥＦＲＥＥ」アプローチに従って使用されている。上述の手順は最終的に、外来性ＤＮＡ配列を全く保有しない、シュウ酸欠乏ＭＡＲＫＥＲ−ＧＥＮＥＦＲＥＥ ΔｇｌａＡ、ΔａｍｙＡ、ΔａｍｙＢＩ、およびΔａｍｙＢＩＩアミラーゼ−陰性組み換えＡ．ニガー（ｎｉｇｅｒ）ＣＢＳ５１３．８８株をもたらした。したがってＷＴ４はＷＴ１と比較して、α−アミラーゼ発現についてより最適化されている。

［３．１．２Ａ．ニガー（ｎｉｇｅｒ）振盪フラスコ発酵］
国際公開第９９／３２６１７号パンフレットの実施例：「Ａ．ニガー（ｎｉｇｅｒ）の振盪フラスコ発酵」セクションで述べられているように、２０ｍｌの前培養液中でＡ．ニガー（ｎｉｇｅｒ）株を前培養した。一晩の生育後、この培養の１０ｍｌをα−アミラーゼ発酵のための発酵培地１（ＦＭ１）に移した。一般に国際公開第９９／３２６１７号パンフレットで述べられているようにして、３４℃および１７０ｒｐｍで、１００ｍｌの発酵ブロスを用いて指定日数にわたり、バッフル付き５００ｍｌフラスコ内で発酵を実施する。

このＦＭ１培地は１リットルあたり次を含有する：５２．５７０ｇグルコース、８．５ｇマルトース、２５ｇカゼイン加水分解産物、１２．５ｇ酵母抽出物、１ｇＫＨ２ＰＯ４、２ｇＫ２ＳＯ４、０．５ｇＭｇＳＯ４．７Ｈ２Ｏ、０．０３ｇＺｎＣｌ２、８０．０２ｇＣａＣｌ２、０．０１ｇＭｎＳＯ４．４Ｈ２Ｏ、０．３ｇＦｅＳＯ４．７Ｈ２Ｏ、１０ｍｌＰｅｎ−Ｓｔｒｅｐ（インビトロジェン（Ｉｎｖｉｔｒｏｇｅｎ）カタログ番号１０３７８−０１６）、４８ｇＭＥＳ、４ＮＨ２ＳＯ４でｐＨ５．６に調節。

［３．１．３真菌α−アミラーゼ活性］
Ａ．ニガー（ｎｉｇｅｒ）培養ブロス中のα−アミラーゼ活性を判定するために、メガザイム（Ｍｅｇａｚｙｍｅ）社からのメガザイム穀物αアミラーゼキット（ＣＥＲＡＬＰＨＡ αアミラーゼ分析キット、カタログ参照番号Ｋ−ＣＥＲＡ、２０００〜２００１年）を供給元のプロトコールに従って使用する。測定された活性は、過剰なグルコアミラーゼおよびα−グルコシダーゼの存在下における、非還元末端ブロック化ｐ−ニトロフェニルマルトヘプタオシドの加水分解に基づく。形成されたｐ−ニトロフェノールの量は、サンプル中に存在するα−アミラーゼ活性の尺度である。

［３．２Ａ．ニガー（ｎｉｇｅｒ）α−アミラーゼＡｍｙＢをコードする野生型ａｍｙＢコード配列のためのアスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）発現コンストラクトの構築］
野生型ａｍｙＢ遺伝子のＤＮＡ配列については、２．２．１に述べられている。アスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）種におけるＡ．ニガー（ｎｉｇｅｒ）ａｍｙＢコンストラクトの発現を分析するために、ｐＧＢＦＩＮベースの発現コンストラクトを使用して、Ａ．ニガー（ｎｉｇｅｒ）中でのαアミラーゼ酵素の過剰発現のために強力なａｍｙＢプロモーターを適用する（国際公開第９９／３２６１７号パンフレットで述べられているように）。ＰａｍｙＢのＡＴＧ開始コドンを含むａｍｙＢプロモーターの翻訳開始配列は、どのＡＴＧが開始コドンとして選択されるか次第で、５’−ＧＧＣＡＴＴＴＡＴＧＡＴＧ−３’または５’−ＧＡＡＧＧＣＡＴＴＴＡＴＧ−３’である。ＰａｍｙＢのこの翻訳開始配列は、下で作り出される全ての続くａｍｙＢ発現コンストラクト中で、５’−ＣＡＣＣＧＴＣＡＡＡＡＴＧ−３’に改変された。

適切な制限部位を両端に導入して、発現ベクターがクローニングできるようにした。天然ａｍｙＢ遺伝子は「ＴＧＡ」停止コドンを含有する。下で作られた全てのａｍｙＢコンストラクト中で、５’−ＴＧＡ−３’翻訳終止配列を５’−ＴＡＡＡ−３’で置換し、ＰａｃＩ制限部位の５’−ＴＴＡＡＴＴＡＡ−３’がそれに続いた。５’末端にＸｈｏＩ部位を導入し、３’末端にＰａｃＩ部位を導入した。したがって改変ゲノムａｍｙＢプロモーターおよびａｍｙＢｃＤＮＡ配列を含んでなる断片を完全に合成してクローニングし、配列分析によって配列を確認した。

修飾翻訳開始配列があるα−アミラーゼプロモーターと、修飾翻訳終止配列があるａｍｙＢｃＤＮＡ配列とを含んでなるこの断片をＸｈｏＩおよびＰａｃＩで消化し、ＸｈｏＩおよびＰａｃＩ消化ｐＧＢＦＩＮ−１２ベクター（構造および配置は国際公開第９９／３２６１７号パンフレットで述べられている通り）に導入してｐＧＢＦＩＮＦＵＡ−１を作り出した（図２１）。導入されたＰＣＲ断片の配列を配列分析によって確認し、その配列を配列番号４に示す。

［３．３Ａ．ニガー（ｎｉｇｅｒ）中での発現のためのα−アミラーゼコード配列ａｍｙＢの単一コドン使用頻度の改善］
Ａ．ニガー（ｎｉｇｅｒ）のａｍｙＢ遺伝子のコドン使用頻度を改善するために、単一コドン最適化法を下で適用した。天然ａｍｙＢのヌクレオチドコード配列を配列番号２として示す。

Ａ．ニガー（ｎｉｇｅｒ）の天然ａｍｙＢ遺伝子および合成最適化変異体のコドン使用頻度を下の表２．１に提供する。天然および単一コドン最適化合成ａｍｙＢ遺伝子については、各コドンの正確な数ならびにアミノ酸あたりの分布が提供される。さらに第３の縦列は、最適化の目標である提案される最適分布を提供する。

グループ１のアミノ酸では、１つの可能性のみがある。グループ１は、常にＡＴＧによってコードされるメチオニン、および常にＴＧＧによってコードされるトリプトファンからなる。

グループ２のアミノ酸は、０％または１００％の極端な頻度に従った最適化の対象であり、ストラテジーは明らかである。グループ２のアミノ酸の全てのコドンは、具体的に２つの可能なコドンの最適変異体に変更される。より具体的には、システインではコドンＴＧＴがＴＧＣによって、フェニルアラニンではＴＴＴがＴＴＣによって、ヒスチジンではＣＡＴがＣＡＣによって、リジンではＡＡＡがＡＡＧによって、アスパラギンではＡＡＴがＡＡＣによって、グルタミンではＣＡＡがＣＡＧによって、チロシンではＴＡＴがＴＡＣによって置換される。

グループ３のアミノ酸は、表３．１で示されるされるいくつかのコドンによってコードできる。各コドンは、好ましいコドン頻度内で存在する。アラニンではＧＣＴ、ＧＣＣ、ＧＣＡ、ＧＣＧ；アスパラギン酸ではＧＡＴ、ＧＡＣ；グルタミン酸ではＧＡＡ、ＧＡＧ；グリシンではＧＧＴ、ＧＧＣ、ＧＧＡ、ＧＧＧ；イソロイシンではＡＴＴ、ＡＴＣ、ＡＴＡ；ロイシンではＴＴＡ、ＴＴＧ、ＣＴＴ、ＣＴＣ、ＣＴＡ、ＣＴＧ；プロリンではＣＣＴ、ＣＣＣ、ＣＣＡ、ＣＣＧ；アルギニンではＣＧＴ、ＣＧＣ、ＣＧＡ、ＣＧＧ、ＡＧＡ、ＡＧＧ；セリンではＴＣＴ、ＴＣＣ、ＴＣＡ、ＴＣＧ、ＡＧＴ、ＡＧＣ；スレオニンではＡＣＴ、ＡＣＣ、ＡＣＡ、ＡＣＧ；バリンではＧＴＴ、ＧＴＣ、ＧＴＡ、ＧＴＧが次の方法に従って最適化される。

グループ３アミノ酸（ＡＡ）およびそれらをコードするコドンでは、所与のコード配列中の各可能なコドンの最適出現率の計算は、次の方法に従って実行される。
ｉ．グループ３のＡＡのそれぞれについて、所与の配列中でコードされる残基総数を合計する、縦列Ａ１（表３．１）参照。
ｉｉ．各ＡＡおよびそのＡＡをコードするコドンについて、そのＡＡの総数に表２．１中の最適コドン分布を乗じ、一般に小数を含有してもよい生（ｒａｗ）コドン分布をもたらす、縦列Ａ２（表３．２）参照。
ｉｉｉ．桁を除去することで生（ｒａｗ）コドン分布（ｉｉ）の値を四捨五入し、四捨五入コドン分布をもたらす、縦列Ａ３（表３．２）参照。
ｉｖ．各ＡＡについて、四捨五入コドン分布（ｉｉｉ）中で表されるＡＡ総数を合計する、縦列Ａ４（表３．１）参照。
ｖ．所与の配列中でコードされる残基総数（ｉ）から四捨五入コドン分布中で表されるＡＡ総数（ｉｖ）を減ずることで、四捨五入コドン分布中の各ＡＡのそれぞれについて、残基の総欠損数を計算する、縦列Ａ５（表３．１）参照。
ｖｉ．各コドンについて、減算により生（ｒａｗ）コドン分布（ｉｉ）と四捨五入コドン分布（ｉｉｉ）との間の小数点差を計算する、縦列Ａ６（表３．２）参照。
ｖｉｉ．各コドンについて、小数点差（ｖｉ）と表１中の最適コドン分布とを乗じて、各コドンに重み値を与える、縦列Ａ７（表３．２）参照。
ｖｉｉｉ．各ＡＡのそれぞれについて、欠損残基量（ｖ）、最も高い重み値を有するコドンのそれぞれの量（ｖｉｉ）を選択する、縦列Ａ８（表３．２）参照。
ｉｘ．各コドンについて、ポリペプチドをコードする所与の配列中の最終最適コドン分布の計算を、四捨五入コドン分布（ｉｉｉ）と欠損残基の選択された量（ｖｉｉｉ）とを合計して計算する、縦列Ａ９（表３．２）参照。

続いて、オリジナルａｍｙＢペプチド中の各アミノ酸について、提案されるいくつかの同義コドンのランダム分布（表２．１）によって、完全に新しいヌクレオチドコード配列を作り出した。上述の過程に由来する合成ａｍｙＢ配列を配列番号５で示す。サイエンティフィック＆エジュケーショナル・ソフトウェア（Ｓｃｉｅｎｔｉｆｉｃ＆Ｅｄｕｃａｔｉｏｎａｌｓｏｆｔｗａｒｅ）からのクローンマネージャ（ＣｌｏｎｅＭａｎａｇｅｒ）７プログラム（Ｓｃｉ．Ｅｄ．Ｃｅｎｔｒａｌ：バージョン７．０２）を使用して、改変コード配列中の二次構造を可能な有害二次構造の出現についてチェックした。

［３．４本発明の組み合わせた単一コドンおよびコドンペア法に従った、Ａ．ニガー（ｎｉｇｅｒ）中での発現のためのα−アミラーゼコード配列ａｍｙＢのコード配列最適化］
Ａ．ニガー（ｎｉｇｅｒ）のａｍｙＢ遺伝子コード配列の改善のために本発明の方法を適用した。実施例２で述べられている過程に由来する最適化されたａｍｙＢ配列を配列番号６で示す。サイエンティフィック＆エジュケーショナル・ソフトウェアからのクローンマネージャ７プログラム（Ｓｃｉ．Ｅｄ．Ｃｅｎｔｒａｌ：バージョン７．０２）を使用して、改変コード配列中の二次構造を可能な有害二次構造の出現についてチェックした。

［３．５実施例３．２および３．３で述べられているコード配列によってコードされる、Ａ．ニガー（ｎｉｇｅｒ）α−アミラーゼＡｍｙＢを発現するための改変ａｍｙＢ発現ベクターの構築］
ａｍｙＢプロモーターと、改変翻訳開始配列および改変翻訳停止配列がある野生型ａｍｙＢｃＤＮＡ配列とを含んでなる、ｐＧＢＦＩＮＦＵＡ−１のＸｈｏＩ−ＰａｃＩ断片のＤＮＡ配列（図２１）を配列番号４として示す。実施例１．２で述べられているように、α−アミラーゼをコードするａｍｙＢ遺伝子のために、コドン最適化されたコード配列と組み合わさった、α−アミラーゼプロモーターの翻訳開始配列の変異体を含んでなるＤＮＡ配列を配列番号７として示す。実施例３．３で述べられているように、α−アミラーゼをコードするａｍｙＢ遺伝子のために、本発明の組み合わせた単一コドンおよびコドンペア法に従って最適化されたコード配列と組み合わさった、α−アミラーゼプロモーターの翻訳開始配列の変異体を含んでなるＤＮＡ配列を配列番号８として示す。

発現ベクター中でこれらの改変配列変異体をクローニングするために、２つの合成遺伝子断片をＸｈｏＩおよびＰａｃＩで消化して、ＸｈｏＩおよびＰａｃＩ消化ｐＧＢＦＩＮＦＵＡ−１ベクターのより大きな断片中に導入し（図２１）、変異体発現ベクターを作り出した。正しい断片の組み込みをチェックした後に、表３．３で下述するように、変異体発現コンストラクトをｐＧＢＦＩＮＦＵＡ−２およびｐＧＢＦＩＮＦＵＡ−３と命名した。

プラスミドｐＧＢＦＩＮＦＵＡ−１〜ｐＧＢＦＩＮＦＵＡ−３のａｍｙＢコード配列の翻訳配列は、野生型Ａ．ニガー（ｎｉｇｅｒ）α−アミラーゼ酵素を表す、配列番号３で示されるアミノ酸配列に従う。

［３．６Ａ．ニガー（ｎｉｇｅｒ）α−アミラーゼの改変ｐＧＢＦＩＮＦＵＡ−発現コンストラクトのＡ．ニガー（ｎｉｇｅｒ）中での発現］
上述のように調製したｐＧＢＦＩＮＦＵＡ−１、−２、および−３発現コンストラクトを下述するように形質転換によって図２２に示すストラテジーに従って、Ａ．ニガー（ｎｉｇｅｒ）に導入した。

ｐＧＢＦＩＮＦＵＡ−１、−２、および−３ベクターの３つ（表３．３）をＷＴ４に導入するために、国際公開第９８／４６７７２号パンフレットおよび国際公開第９９／３２６１７号パンフレットで述べられているように、形質転換と続く形質転換体選択を実施した。手短に述べると、ｐＧＢＦＩＮＦＵＡ−コンストラクトの線状ＤＮＡを単離して使用し、Ａ．ニガー（ｎｉｇｅｒ）を形質転換した。アセトアミド培地上で形質転換体を選択して、標準操作手順に従ってコロニーを純化した。ＰＣＲを使用して、コロニーをｇｌａＡ遺伝子座における組み込み、およびコピー数ついて診断した。同様の推定コピー数（低コピー：１〜３）があるｐＧＢＦＩＮＦＵＡ−１、−２、および−３コンストラクトそれぞれの独立した１０個の形質転換体を選択し、例えばそれぞれＦＵＡ−１−１（第１のｐＧＢＦＩＮＦＵＡ−１形質転換体のため）およびＦＵＡ−３−１（第１のｐＧＢＦＩＮＦＵＡ−３形質転換体のため）などの形質転換プラスミド名を使って番号付けした。

選択されたＦＵＡ株およびＡ．ニガー（ｎｉｇｅｒ）ＷＴ４を使用して、１００ｍｌの培地中で上述のような条件下における振盪フラスコ実験を実施した。３および４日間の発酵後に、サンプルを採取した。

３つの異なるＡ．ニガー（ｎｉｇｅｒ）ＦＵＡ−形質転換体の全てで、α−アミラーゼ酵素の生成を測定した。図２３から分かるように、本発明の方法に従ったコード配列の最適化は、単一コドン最適化と称される試験されたその他の方法と比較して、ＡｍｙＢ発現に対してより高い改善を示す。これらの数値は下の表３．４に要約される。

これらの結果は、発現コンストラクトおよび宿主が既に、例えば強力プロモーター、改善された翻訳開始配列、改善された翻訳停止配列、最適単一コドン使用頻度および／またはタンパク質発現のための改善された宿主などのいくつかのその他の最適化を有していても、本発明の方法を適用して宿主内のタンパク質発現を改善できることを明らかに示唆する。

［４．実施例４：バシラス（Ｂａｃｉｌｌｕｓ）種：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）およびバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）中での３つの異種の酵素の発現のための改善されたＤＮＡ配列のデザイン］
［４．１．序文］
実施例４は、双方のバシラス（Ｂａｃｉｌｌｕｓ）種、より具体的にはこの実施例の枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）およびバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）中の異種タンパク質の（改善された）発現のための、この特許で述べられている本発明の方法の実験デザインおよび適用について述べている。好ましい発現宿主は、バシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）である。

枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）ゲノムは、１９９７年に公開され、その他のバシラス（Ｂａｃｉｌｌｕｓ）種が続いた（Ｋｕｎｓｔ，Ｆ．ら、１９９７年「グラム陽性細菌枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）の完全なゲノム配列（ＴｈｅｃｏｍｐｌｅｔｅｇｅｎｏｍｅｓｅｑｕｅｎｃｅｏｆｔｈｅＧｒａｍ−ｐｏｓｉｔｉｖｅｂａｃｔｅｒｉｕｍＢａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）」Ｎａｔｕｒｅ３９０：２４９〜５６頁；Ｒｅｙ，Ｍ．Ｗ．ら（２００４年）「工業細菌バシラス・リケニフォルミス（Ｂａｃｉｌｌｕｓｌｉｃｈｅｎｉｆｏｒｍｉｓ）の完全なゲノム配列および近縁関係にあるバシラス（Ｂａｃｉｌｌｕｓ）種との比較（ＣｏｍｐｌｅｔｅｇｅｎｏｍｅｓｅｑｕｅｎｃｅｏｆｔｈｅｉｎｄｕｓｔｒｉａｌｂａｃｔｅｒｉｕｍＢａｃｉｌｌｕｓｌｉｃｈｅｎｉｆｏｒｍｉｓａｎｄｃｏｍｐａｒｉｓｏｎｓｗｉｔｈｃｌｏｓｅｌｙｒｅｌａｔｅｄＢａｃｉｌｌｕｓｓｐｅｃｉｅｓ）」ＧｅｎｏｍｅＢｉｏｌｏｇｙ５：Ｒ７７；ＲａｓｋｏＤ．Ａ．ら（２００５年）「バシラス・セレアス（Ｂａｃｉｌｌｕｓｃｅｒｅｕｓ）生物グループのゲノミクス（ＧｅｎｏｍｉｃｓｏｆｔｈｅＢａｃｉｌｌｕｓｃｅｒｅｕｓｇｒｏｕｐｏｆｏｒｇａｎｉｓｍｓ）」ＦＥＭＳＭｉｃｒｏｂｉｏｌｏｇｙＲｅｖｉｅｗｓ２９：３０３〜３２９頁）。

この例では、単一コドン頻度およびコドンペア重みを計算するための基準として枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）の全配列を選択した。ＧＣ含量およびｔＲＮＡの比較は、言及されるバシラス（Ｂａｃｉｌｌｕｓ）種に対する同様の図式を提供した（上記参照）。これは、その他の近縁バシラス（Ｂａｃｉｌｌｕｓ）種に同一統計が適用できることの示唆である。さらに実施例１（図４もまた参照されたい）から、近縁種が同様のコドンペア頻度を示すことが既に明らかであった。

図４（実施例１もまた参照されたい）では、枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）対Ｂ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）の全ゲノム統計に基づくコドンペア比較プロットを見ることができる。双方のデータセット間に良好な相関が観察される。さらにＢ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）中で良く受けいられる一方、枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）に対して高度に負の値を有するコドンペア組み合わせの下位グループがある（逆は観察されない）ので、Ｂ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）の方がより用途が広いようである。

［４．２．実験デザイン］
枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）およびバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）双方の中での発現のために３つのタンパク質配列を選択した。
タンパク質１：バシラス・ステアロサーモフィラス（Ｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ）からのキシロース（グルコース）イソメラーゼｘｙｌＡ（ＥＣ．５．３．１．５）
タンパク質２：ストレプトミセス・オリボクロモゲネス（Ｓｔｒｅｐｔｏｍｙｃｅｓｏｌｉｖｏｃｈｒｏｍｏｇｅｎｅｓ）からのキシロース（グルコース）イソメラーゼｘｙｌＡ（ＥＣ．５．３．１．５）
タンパク質３：サーモアナエロバクター・マトラニイ（Ｔｈｅｒｍｏａｎａｅｒｏｂａｃｔｅｒｍａｔｈｒａｎｉｉ）からのＬ−アラビノースイソメラーゼ（ＥＣ５．３．１．４）

表４．１は、上述の３つの遺伝子に適用された方法の概要を提供する。タンパク質１、タンパク質２、およびタンパク質３では、以前開発された単一コドン最適化に加えて、本発明の方法のコドンペア最適化を適用した。

対照として、タンパク質２に２つの追加的コンストラクトを含めることで、単一コドン最適化および負のコドンペア最適化の効果を実験的に試験した。不良コドンペアに向けて「最適化される」（すなわち負のコドンペア最適化）１つの変異体（配列番号１８）、および単一コドン最適化のみがある第２の変異体（配列番号１７）をデザインする。ストレプトミセス（Ｓｔｒｅｐｔｏｍｙｃｅｓ）種は高度に異なるコドンペアバイアスを示すことから、タンパク質２を選択した。実施例１および図４を参照されたい。

全てのデザインされたＢ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）遺伝子は、ＮｄｅＩ（ＣＡＴＡＴＧ）およびＢａｍＨＩ（ＧＧＡＴＴＣ）制限部位の出現を避けた。さらにそれらはクローニングベクターｐＢＨＡ１２の大腸菌（Ｅ．ｃｏｌｉ）部分を除去するための単一制限部位を含有した。

［４．３．単一コドン最適化］
単一コドン最適化のために、実施例３．３で述べられている方法を使用して、タンパク質１およびタンパク質２のために単一コドン最適化された変異体をデザインし、それぞれ配列番号１６および配列番号１７をもたらした。適用した単一コドン分布表（表４．２）は、６つの独立した発酵時間シリーズを使用した枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）１６８のための２４個のＡｆｆｙｍｅｔｒｉｘＧｅｎｅＣｈｉｐによる判定で、５０個の最も高度に発現される遺伝子を使用して、判定した。全てのＧｅｎｅＣｈｉｐは、それらの算術平均について正規化した。株操作において故意に過剰発現され、したがってそれらの測定される発現レベルがそれらのコドン使用頻度に相関できない遺伝子は、発現一覧から除いた。

単一コドン分布表４．２の判定は、５０、１００、２００、４００個の最高に発現される配列の、および全枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）配列のコドン頻度ヒストグラムの目視検査によって行った。最も高度に発現される遺伝子について０％または１００％どちらかに向かう明らかな傾向がある場合、それぞれ０％および１００％を割り当てた。割り当てのないその他のコドンでは、割り当てのあるコドンを除外して、平均使用頻度を計算し同義コドンのセットについて正規化した。得られた標的単一コドン頻度を表４．２の縦列３に示す。

［４．４．コドンペア最適化］
本発明の方法に従ってコドンペア最適化を実施した。最適化されたコーディングヌクレオチド配列である配列番号１３〜１５は、述べられているソフトウェア法を用いた操作の結果である。適用パラメーターは、次のとおりである：母集団サイズ＝２００；反復回数＝１０００；ｃｐｉ＝０．２０、ＣＰＷマトリックス＝「表Ｃ．４．ＣＰＷ：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）−高度に発現される配列」、およびＣＲマトリックス＝「表Ｂ．１の縦列５：ＣＲ表ＢＡＳ：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）−高度に発現される配列」（表４．２にもある）、および表４．２中にあるような「考慮外（ｄｏｎ’ｔｃａｒｅ）」要素。さらにＮｄｅＩ（ＣＡＴＡＴＧ）およびＢａｍＨＩ（ＧＧＡＴＴＣ）制限部位の各出現について＋１のペナルティ値がｆｉｔ_{ｃｏｍｂｉ}に加算される。

最適化されたコーディングヌクレオチド配列である配列番号１８は、述べられているソフトウェア法を用いた操作の結果である。適用パラメーターは、次のとおりである：母集団サイズ＝２００；反復回数＝１０００；ｃｐｉ＝０．２０、ＣＰＷマトリックス＝−１を乗じた「表Ｃ．４．ＣＰＷ：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）−高度に発現される配列」（不良コドンペアに向けたコドンペア最適化を得るため）、およびＣＲマトリックス＝「表Ｂ．１の縦列５：ＣＲ表ＢＡＳ：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）−高度に発現される配列」（表４．２にもある）、および表４．２中にあるような「考慮外（ｄｏｎ’ｔｃａｒｅ）」要素。さらにＮｄｅＩ（ＣＡＴＡＴＧ）およびＢａｍＨＩ（ＧＧＡＴＴＣ）制限部位の各出現について＋１のペナルティ値がｆｉｔ_{ｃｏｍｂｉ}に加算される。

表４．２中の「考慮外（ｄｏｎ’ｔｃａｒｅ）」要素は、コドンバイアスを示さないコドンのために選択される。これは単一コドンバイアスグラフの目視検査によって行った。４．３を参照されたい。このような要素の使用は、最適化のコドンペア部分に追加的な自由度を提供する。

全ての最適化は、ｆｉｔ_{ｃｏｍｂｉ}の最小値に向けて収束する。配列番号１３〜１５および配列番号１８について得られた目標値を、配列番号１１、配列番号１６および配列番号１７について得られたものと共に表４．２に提供する。そのデータから、単一コドン統計は、配列番号１４および配列番号１５と比較して、配列番号１６および配列番号１７について類似性が高いことが明らかである。しかし本発明の方法は、関連する負の重みがある改善されたコドンペア数がある遺伝子をもたらし、それらに付随するより負の重みを有するコドンペアのより最適な使用が示唆される。表４．３を参照されたい。

ｆｉｔ_ｃｐの最大化を使用した「最適化」は、関連する正の重みがあるコドンペア数増大がある遺伝子をもたらし、それらに付随するより正の重みを有するコドンペアの使用増大を示唆し、したがって翻訳特徴に対する悪影響が予期される。配列番号１８では（ｗ_ｃｐ（ｇ）≦０）が２４％であるのに対して、配列番号１４では８５％であり、ｆｉｔ_ｃｐもまた１．２０から−１．４３に増大する。

［５．実施例５：枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）およびバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）中での３つの異種酵素発現のための本発明の方法の試験］
［５．１序文］
実施例５は、枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）およびバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）の双方の宿主細胞中での、３つの異種遺伝子の配列変異体による発現実験と結果について述べている。変異体は実施例４で述べられているように、本発明の方法に従って作られる。

［５．２材料と方法］
［５．２．１バシラス（Ｂａｃｉｌｌｕｓ）増殖培地］
２^＊ＴＹ（ｐｅｒＬ）：トリプトンペプトン１６ｇ、酵母抽出物ディフコ（Ｄｉｆｃｏ）１０ｇ、ＮａＣｌ５ｇ。

［５．２．２枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）の形質転換］
［培地］
２×Ｓｐｉｚｉｚｅｎ培地：２８ｇＫ_２ＨＰＯ_４；１２ｇＫＨ_２ＰＯ_４；４ｇ（ＮＨ_４）_２ＳＯ_４；２．３ｇＮａ_３−シトレート・２Ｈ_２Ｏ；０．４ｇＭｇＳＯ_４・７Ｈ_２Ｏ；Ｈ_２Ｏで９００ｍｌにして４ＮＮａＯＨでｐＨ７．０〜７．４に調節し、Ｈ_２Ｏを添加して１リットルにする。

１２０℃で２０分間オートクレーブ。

１×Ｓｐｉｚｉｚｅｎプラス培地：５０ｍｌの２×Ｓｐｉｚｉｚｅｎ培地に５０ｍｌｍｉｌｌｉＱ；１ｍｌ５０％グルコース、および１００μｌカザミノ酸（最終濃度２０μｇ／ｍｌ）を添加する。

非選択的２×ＴＹ寒天プレートからの単一バシラス（Ｂａｃｉｌｌｕｓ）コロニー（または極低温容器からのアリコート）を１００ｍｌ振盪フラスコ内の１０ｍｌの２×ＴＹブロスに接種した。細胞を３７℃および±２５０ｒｐｍで恒温振盪機内で一晩生育させた。ＯＤを６００ｎｍで測定して、ＯＤ_６００≒０．１．になるまで培養を１×Ｓｐｉｚｉｚｅｎプラス培地で希釈した。培養ＯＤ_６００が０．４〜０．６になるまで、細胞を３７℃および２５０〜３００ｒｐｍで生育させた。培養を０．５％グルコースを添加した１×Ｓｐｉｚｉｚｅｎ培地（飢餓培地）で１：１に希釈して、それを３７℃および２５０〜３００ｒｐｍで９０分間インキュベートした。培養を卓上用遠心分離機内で４５００ｒｐｍで１０分間遠心分離した。上清の９０％を除去してペレットを残余容積中に懸濁させた。ユニバーサル（ｕｎｉｖｅｒｓａｌ）内で、ＤＮＡ（最大で２０μｌ中に１〜５μｇ）と０．５ｍｌのコンピテント細胞とを混合し、３７℃で１時間、しっかりとした浸透（≒５／６）下で、回転振盪水浴内でインキュベートした。細胞を２５−μｇ／ｍｌカナマイシンを含有する選択的２×ＴＹ寒天プレート上に播種して（２０〜２００μｌ）、３７℃で一晩インキュベートした。

［５．２．３無細胞抽出物の調製］
１ｍｌの培養から得られたペレットを１０ｍＭＴｈｒｉｓ−ＨＣｌ（ｐＨ７．５）、１０ｍＭＥＤＴＡ、Ｆ５０ｍＭＮａＣｌ、１ｍｇ／ｍｌリゾチームおよびプロテアーゼ阻害剤（ロシュ（Ｒｏｃｈｅ）からの完全ＥＤＴＡフリープロテアーゼ阻害剤カクテル）を含有する緩衝液Ａ中に再懸濁した。プロトプラスト化のために、再懸濁したペレットを３７℃で３０分間インキュベートし、引き続いて次のように超音波処理した。３０秒間、振幅１０μｍ（３サイクル）、サイクル間に１５秒間冷却。超音波処理後、細胞残骸を遠心分離（４℃で１３０００ｒｐｍで１０分間）によって遠沈し、透明な溶解産物をさらなる分析のために使用した。

［５．２．４バシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）および枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）中での発現のためのグルコースイソメラーゼおよびＬ−アラビノースイソメラーゼをコードする遺伝子の選択、および合成遺伝子のデザイン］
選択された３つの酵素は、次のとおりである。
１．バシラス・ステアロサーモフィラス（Ｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ）キシロースイソメラーゼ（Ｐ５４２７２Ｓｗｉｓｓｐｒｏｔ）、タンパク質配列番号９
２．ストレプトミセス・オリボクロモゲネス（Ｓｔｒｅｐｔｏｍｙｃｅｓｏｌｉｖｏｃｈｒｏｍｏｇｅｎｅｓ）キシロースイソメラーゼ（Ｐ１５５８７Ｓｗｉｓｓｐｒｏｔ）、タンパク質配列番号１０
３．サーモアナエロバクター・マトラニイ（Ｔｈｅｒｍｏａｎａｅｒｏｂａｃｔｅｒｍａｔｈｒａｎｉｉ）Ｌ−アラビノースイソメラーゼ（ＡＪ５８２６２３．１ＥＭＢＬ、および米国特許出願公開第２００３／０１２９７１Ａ１号明細書）、タンパク質配列番号１１、ヌクレオチド配列番号１２

上記のように選択された酵素は異なる微生物起源を有する。枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）またはバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）中でこれらの酵素を過剰産生する目的で、本発明者らはバシラス（Ｂａｃｉｌｌｕｓ）種中での発現に適するように、各タンパク質のためのヌクレオチド配列を最適化した。実施例４を参照されたい。

本発明者らは、前述の酵素をコードするヌクレオチド配列を最適化した。配列は配列番号１３（バシラス・ステアロサーモフィラス（Ｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ）グルコース（キシロース）イソメラーゼ）、配列番号１４．（ストレプトミセス・オリボクロモゲネス（Ｓｔｒｅｐｔｏｍｙｃｅｓｏｌｉｖｏｃｈｒｏｍｏｇｅｎｅｓ）グルコース（キシロース）イソメラーゼ）、配列番号１５．（サーモアナエロバクター・マトラニイ（Ｔｈｅｒｍｏａｎａｅｒｏｂａｃｔｅｒｍａｔｈｒａｎｉｉ）Ｌ−アラビノースイソメラーゼ）の下に配列一覧に列挙される。対照として、コドンペア最適化なしの単一コドン最適化がある１つの変異体、配列番号１６〜１７、および「負のコドンペア最適化」ありの単一コドン最適化がある変異体、配列番号１８を作り出した。実施例４および表４．１を参照されたい。

［５．３大腸菌（Ｅ．ｃｏｌｉ）／バシラス（Ｂａｃｉｌｌｕｓ）シャトルベクター中でのグルコースイソメラーゼおよびＬ−アラビノースイソメラーゼをコードする遺伝子のクローニングおよび桿菌への形質転換］
桿菌中での選択された遺伝子の発現のために、本発明者らはｐＢＨＡ１２大腸菌（Ｅ．ｃｏｌｉ）／バシラス（Ｂａｃｉｌｌｕｓ）シャッフルベクター（図２６）を使用した。このベクターは本質的に発現ベクターｐＢＨＡ−１（欧州特許第３４０８７８号明細書）に由来し、その中でバシラス・アミロリケファシエンス（Ｂａｃｉｌｌｕｓａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）のａｍｙＱ遺伝子に由来するプロモーターがＨｐａＩＩプロモーターを置き換えている。ｐＢＨＡ１２プラスミドは、２つの多重クローニング部位を含有する（図２６）。全ての選択されたおよび最適化された遺伝子は、米国カリフォルニア州メンロパーク（ＭｅｎｌｏＰａｒｋ，ＣＡ，Ｕ．Ｓ．Ａ．）のＤＮＡ２．０によって２つの断片（ＡおよびＢ）として合成的に作成された。遺伝子の５’末端に相当するＡ断片は、ａｍｙＱプロモーターの後でクローニングした。多重クローニング部位１および２で直接クローニングができるようにするため、特異的制限エンドヌクレアーゼ部位によって双方の断片を延長した（図２７参照）。断片Ａの３’末端と断片Ｂの５’末端は、固有制限エンドヌクレアーゼ部位で重なり、それは枯草菌（Ｂａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ）（ＣＢＳ３６３．９４）の形質転換に先だってベクターの大腸菌（Ｅ．ｃｏｌｉ）部分の切除および戻しライゲーションを可能にした。枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）のクローニングおよび形質転換手順では、大腸菌（Ｅ．ｃｏｌｉ）を中間宿主として使用した。大腸菌（Ｅ．ｃｏｌｉ）中での発現ベクターのクローニングおよび増殖中に起こり得る問題を避けるために、ｐＢＨＡ１２中の二段階クローニングアプローチを選択した。表５．１では、断片ＡおよびＢに付加された制限酵素認識部位が列挙され、ならびに戻しライゲーションを可能にし、ひいては完全な機能性遺伝子が再構築できるようにする固有制限部位も列挙される。Ａ断片の全ての５’末端はＮｄｅＩ部位（認識配列ＣＡＴＡＴＧ）を含有し、それらのそれぞれの開始コドン（ＡＴＧ）で正確に開始する断片として、遺伝子クローニングを可能にする。

５つの遺伝子のＡおよびＢ断片は、標準分子生物学的方法（ＳａｍｂｒｏｏｋおよびＲｕｓｓｅｌｌ「分子クローニング：実験室マニュアル（ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ）」第３版、ＣＳＨＬＰｒｅｓｓ、ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ，ＮＹ，２００１年；およびＡｕｓｕｂｅｌら「最新分子生物学プロトコール（ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ）」ＷｉｌｅｙＩｎｔｅｒＳｃｉｅｎｃｅ，ＮＹ，１９９５年）を使用して、図２７で配列番号１３について示すように、それぞれＭＣＳ１および２の２段階でクローニングした。形質転換は、インビトロジェンからの大腸菌（Ｅ．ｃｏｌｉ）ＴＯＰ１０中で、または後のステップでメチル化感応性制限エンドヌクレアーゼを使用する場合は、インビトロジェンからのＩＮＶ１１０中で実施した。それぞれＭａｃｈｅｒｅｙ−Ｎａｇｅｌおよびシグマ（Ｓｉｇｍａ）からのミニまたはミディプラスミド単離キットを使用して、発現コンストラクト毎に、いくつかの大腸菌（Ｅ．ｃｏｌｉ）アンピシリン抵抗性形質転換体を単離した。制限分析によって、ｐＢＨＡ１２ベクター中の対応するＡおよびＢ断片の正しいライゲーションを確認した。次のステップで遺伝子ＡおよびＢの断片を含有したｐＢＨＡ１２プラスミドを固有の制限エンドヌクレアーゼ（表５．１参照）で消化して、ベクターの大腸菌（Ｅ．ｃｏｌｉ）部分を切除した。Ｍａｃｈｅｒｅｙ−Ｎａｇｅｌからのゲル抽出キットを使用して、分断遺伝子を含有したベクターのバシラス（Ｂａｃｉｌｌｕｓ）部分をアガロースゲルから単離して、戻しライゲートした。コンピテント細胞形質転換によって、ライゲーション混合物を枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）ＣＢＳ３６３．９４株に形質転換した。それぞれＭａｃｈｅｒｅｙ−Ｎａｇｅｌおよびシグマからのミニまたはミディプラスミド単離キットを使用して、発現コンストラクト毎に、いくつかの枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）カナマイシン抵抗性形質転換体を単離した。大腸菌（Ｅ．ｃｏｌｉ）部分の切除、およびｐＢＨＡ１２ベクターのバシラス（Ｂａｃｉｌｌｕｓ）部分の戻しライゲーション後に、制限分析によって、発現コンストラクトを正しいパターンについてチェックした。無細胞抽出物の分析のため、コンストラクト毎に３つの枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）形質転換体を選択した。

［５．４桿菌中の過剰産生酵素の検出］
各コンストラクト毎に、３つの枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）形質転換体および３つのＢ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）形質転換体を使用して、対応するタンパク質−グルコースまたはＬ−アラビノースイソメラーゼの存在について無細胞抽出物を分析した。２×ＴＹ発酵培地を使用して株を生育させた。サンプル（１ｍｌ）を（振盪フラスコ内）発酵２４時間で採取して、抽出緩衝液中のプロテアーゼ阻害剤を含む無細胞抽出物を調製した。インビトロジェンからのＳＤＳ−ＰＡＧＥ上で、１３μｌの無細胞抽出物を分析した。いくつかの形質転換体では、過剰発現タンパク質の期待Ｍｗに対応する明確なバンドが検出された。バンドの視覚的比較を表５．２に提供する。本発明の方法が、コドンペア法の使用によって、バシラス・ステアロサーモフィラス（Ｂａｃｉｌｌｕｓｓｔｅａｒｏｔｈｅｒｍｏｐｈｉｌｕｓ）キシロースイソメラーゼ、ストレプトミセス・オリボクロモゲネス（Ｓｔｒｅｐｔｏｍｙｃｅｓｏｌｉｖｏｃｈｒｏｍｏｇｅｎｅｓ）キシロースイソメラーゼおよびサーモアナエロバクター・マトラニイ（Ｔｈｅｒｍｏａｎａｅｒｏｂａｃｔｅｒｍａｔｈｒａｎｉｉ）Ｌ−アラビノースイソメラーゼについてタンパク質生成を改善することは明らかであり、すなわちこれはＷＴ参照遺伝子または単一コドン最適化された変異体のどちらと比較しても改善されたタンパク質生成をもたらす。さらに単一コドン最適化と共に負のコドンペア最適化が適用される場合、生成物は検出されなかった。

ＲＥＦＥＲＥＮＣＥＳ
Ｂｏｙｃｈｅｖａ，Ｓ．，Ｃｈｋｏｄｒｏｖ，Ｇ．＆Ｉｖａｎｏｖ，Ｉ．（２００３）．ＣｏｄｏｎｐａｉｒｓｉｎｔｈｅｇｅｎｏｍｅｏｆＥｓｃｈｅｒｉｃｈｉａｃｏｌｉ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９（８）：９８７−９９８
Ｇｕｒｖｉｃｈ，Ｏ．Ｌ．，Ｂａｒａｎｏｖ，Ｐ．Ｖ．，Ｇｅｓｔｅｌａｎｄ，Ｒ．Ｆ．，Ａｔｋｉｎｓ，Ｊ．Ｆ．（２００５）．ＥｘｐｒｅｓｓｉｏｎｌｅｖｅｌｓｉｎｆｌｕｅｎｃｅｒｉｂｏｓｏｍａｌｆｒａｍｅｓｈｉｆｔｉｎｇａｔｔｈｅｔａｎｄｅｍｒａｒｅａｒｇｉｎｉｎｅｃｏｄｏｎｓＡＧＧ＿ＡＧＧａｎｄＡＧＡ＿ＡＧＡ．Ｊ．Ｂａｃｔｅｒｉｏｌ．１８７：４０２３−４０３２．
Ｇｕｓｔａｆｓｓｏｎ，Ｃ．，Ｇｏｖｉｎｄａｒａｊａｎ，Ｓ．＆Ｍｉｎｓｈｕｌｌ，Ｊ．（２００４）．Ｃｏｄｏｎｂｉａｓａｎｄｈｅｔｅｒｏｌｏｇｏｕｓｐｒｏｔｅｉｎｅｘｐｒｅｓｓｉｏｎ．ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２２（７）：３４６−３５３
Ｇｕｔｍａｎ，Ｇ．Ａ．＆Ｈａｔｆｉｅｌｄ，Ｇ．Ｗ．（１９８９）．ＮｏｎｒａｎｄｏｍｕｔｉｌｉｚａｔｉｏｎｏｆｃｏｄｏｎｐａｉｒｓｉｎＥｓｃｈｅｒｉｃｈｉａｃｏｌｉ．ＰＮＡＳ８６：３６９９−３７０３
Ｇｙｇｉ，Ｓ．Ｐ．，Ｒｏｃｈｏｎ，Ｙ．，Ｆｒａｎｚａ，Ｂ．Ｒ．，＆Ａｅｂｅｒｓｏｌｄ，Ｒ．（１９９９）．ＣｏｒｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｐｒｏｔｅｉｎａｎｄｍＲＮＡａｂｕｎｄａｎｃｅｉｎＹｅａｓｔ．Ｍｏｌ．Ｃｅｌ．Ｂｉｏｌ．１９（３）：１７２０−３０
Ｈａｔｆｉｅｌｄ，Ｇ．Ｗ．＆Ｇｕｔｍａｎ，Ｇ．Ａ．（１９９２）．Ｃｏｄｏｎｐａｉｒｕｔｉｌｉｚａｔｉｏｎ．ＵｎｉｔｅｄＳｔａｔｅｓＰａｔｅｎｔＮｏ５，０８２，７６７
Ｉｒｗｉｎ，Ｂ．，Ｈｅｃｋ，Ｄ．＆Ｈａｔｆｉｅｌｄ，Ｇ．Ｗ．（１９９５）．Ｃｏｄｏｎｐａｉｒｕｔｉｌｉｚａｔｉｏｎｂｉａｓｅｓｉｎｆｌｕｅｎｃｅｔｒａｎｓｌａｔｉｏｎａｌｅｌｏｎｇａｔｉｏｎｓｔｅｐｔｉｍｅｓ．ＪＢｉｏｌＣｈｅｍ２７０：２２８０１−２２８０６
Ｋａｒｌｉｎｅｔａｌ．（２００１）．Ｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｈｉｇｈｌｙｅｘｐｒｅｓｓｅｄｇｅｎｅｓｏｆｆｏｕｒｆａｓｔ−ｇｒｏｗｉｎｇｂａｃｔｅｒｉａ．Ｊ．ｏｆＢａｃｔｅｒｉｏｌｏｇｙ１８３（１７）：５０２５−３９．
Ｋｕｎｓｔ，Ｆ．ｅｔａｌ．（１９９７）．ＴｈｅｃｏｍｐｌｅｔｅｇｅｎｏｍｅｓｅｑｕｅｎｃｅｏｆｔｈｅＧｒａｍ−ｐｏｓｉｔｉｖｅｂａｃｔｅｒｉｕｍＢａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ．Ｎａｔｕｒｅ３９０：２４９−２５６
Ｌｉｔｈｗｉｃｋ，Ｇ．＆Ｍａｒｇａｌｉｔ，Ｈ．（２００３）．Ｈｉｅｒａｒｃｈｙｏｆｓｅｑｕｅｎｃｅ−ｄｅｐｅｎｄｅｎｔｆｅａｔｕｒｅｓａｓｓｏｃｉａｔｅｄｗｉｔｈｐｒｏｋａｒｙｏｔｉｃｔｒａｎｓｌａｔｉｏｎ．ＧｅｎｏｍｅＲｅｓ．１３（１２）：２６６５−７３．
Ｍａｋｒｉｄｅｓ，Ｓ．Ｃ．（１９９６）．Ｓｔｒａｔｅｇｉｅｓｆｏｒａｃｈｉｅｖｉｎｇｈｉｇｈ−ｌｅｖｅｌｅｘｐｒｅｓｓｉｏｎｏｆｇｅｎｅｓｉｎＥｓｃｈｅｒｉｃｈｉａｃｏｌｉ．Ｍｉｃｒｏｂｉｏｌ．Ｒｅｖ．６０：５１２−５３８
Ｍｏｕｒａ，Ｇ．ｅｔａｌ．（２００５）．ＣｏｍｐａｒａｔｉｖｅｃｏｎｔｅｘｔａｎａｌｙｓｉｓｏｆｃｏｄｏｎｐａｉｒｓｏｎａｎＯＲＦｅｏｍｅｓｃａｌｅ．ＧｅｎｏｍｅＢｉｏｌｏｇｙ２００５，６：Ｒ２８
Ｎｅｖａｌａｉｎｅｎ，Ｋ．Ｍ．Ｈ．，Ｔｅ'ｏ，Ｖ．Ｓ．Ｊ．＆Ｂｅｒｇｑｕｉｓｔ，Ｐ．Ｌ．（２００５）．Ｈｅｔｅｒｏｌｏｇｏｕｓｐｒｏｔｅｉｎｅｘｐｒｅｓｓｉｏｎｉｎｆｉｌａｍｅｎｔｏｕｓｆｕｎｇｉ．ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２００５２３（９）：４６８−４７４
Ｐｅｌ，Ｈ．Ｊ．，ｅｔａｌ．（２００７）．ＧｅｎｏｍｅｓｅｑｕｅｎｃｉｎｇａｎｄａｎａｌｙｓｉｓｏｆｔｈｅｖｅｒｓａｔｉｌｅｃｅｌｌｆａｃｔｏｒｙＡｓｐｅｒｇｉｌｌｕｓｎｉｇｅｒＣＢＳ５１３．８８．ＮａｔＢｉｏｔｅｃｈ．２００７２５（２）：２２１−２３１
Ｐｕｎｔ，Ｐ．Ｊ．，ｖａｎＢｉｅｚｅｎ，Ｎ．，Ｃｏｎｅｓａ，Ａ．，Ａｌｂｅｒｓ，Ａ．，Ｍａｎｇｎｕｓ，Ｊ．＆ｖａｎｄｅｎＨｏｎｄｅｌ，Ｃ．（２００５）．Ｆｉｌａｍｅｎｔｏｕｓｆｕｎｇｉａｓｃｅｌｌｆａｃｔｏｒｉｅｓｆｏｒｈｅｔｅｒｏｌｏｇｏｕｓｐｒｏｔｅｉｎｐｒｏｄｕｃｔｉｏｎ．ＴｒｅｎｄｓＢｉｏｔｅｃｈｎｏｌ．２０（５）：２００−２０６
Ｒｏｃｈａ，Ｅ．Ｐ．Ｃ．，Ａ．ＤａｎｃｈｉｎａｎｄＡ．Ｖｉａｒｉ（１９９９）．ＴｒａｎｓｌａｔｉｏｎｉｎＢａｃｉｌｌｕｓｓｕｂｔｉｌｉｓ：ｒｏｌｅｓａｎｄｔｒｅｎｄｓｏｆｉｎｉｔｉａｔｉｏｎａｎｄｔｅｒｍｉｎａｔｉｏｎ，ｉｎｓｉｇｈｔｓｆｒｏｍａｇｅｎｏｍｅａｎａｌｙｓｉｓ．ＮＡＲ，２７（１７）：３５６７−７６．Ｂｏｙｃｈｅｖａ，Ｓ．，Ｃｈｋｏｄｒｏｖ，Ｇ．＆Ｉｖａｎｏｖ，Ｉ．（２００３）．ＣｏｄｏｎｐａｉｒｓｉｎｔｈｅｇｅｎｏｍｅｏｆＥｓｃｈｅｒｉｃｈｉａｃｏｌｉ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９（８）：９８７−９９８
Ｓｃｈｗａｒｔｚ，Ｓ．＆Ｃｕｒｒａｎ，Ｊ．Ｆ．（１９９７）．ＡｎａｌｙｓｅｓｏｆｆｒａｍｅｓｈｉｆｔｉｎｇａｔＵＵＵ−ｐｙｒｉｍｉｄｉｎｅｓｉｔｅｓ．ＮＡＲ２５（１０）：２００５−２０１１
Ｓｐａｎｊａａｒｄ，Ｒ．Ａ．＆ｖａｎＤｕｉｎ，Ｊ．（１９８８）．ＴｒａｎｓｌａｔｉｏｎｏｆｔｈｅｓｅｑｕｅｎｃｅＡＧＧ−ＡＧＧｙｉｅｌｄｓ５０％ｒｉｂｏｓｏｍａｌｆｒａｍｅｓｈｉｆｔ．ＰＮＡＳ８５：７９６７−７９７１

［付録１：シンボルおよび式一覧］
単一コドン：
ｃ_ｉ
同一アミノ酸をコードするコドン：
ｓｙｎ（ｃ_ｉ）
コドンｃ_ｉの出現数：
ｎ_ｓｃ（ｃ_ｉ）
コドンｃ_ｋの比率（そのシノニムと比較した）：

コドンペア：
（ｃ_ｉ，ｃ_ｊ）
コドンペア出現数（観察された数）：
ｎ_ｏｂｓ（（ｃ_ｉ，ｃ_ｊ））
このコドンペアの期待数：

対応する標準偏差：

対応する標準得点（ｚ−スコア）：

コドンペアのためのバイアス係数：

合わせた「期待」値（重みのための）：

コドンペア重み−方法１配列グループ（またはゲノム）：

コドンペア重み−方法参照グループ（またはゲノム）を伴う高度に発現されるグループ：

［付録２：ＣＲベクター］
表Ｂ．１：縦列中の次の生物のためのＣＲマトリックス値：（１）ＡＮ：Ａ．ニガー（ｎｉｇｅｒ）全ゲノム−方法：統計学的分布、（２）ＡＮＳ：Ａ．ニガー（ｎｉｇｅｒ）２５０個の高度に発現される遺伝子−方法：目視検査、（３）ＡＮ＿ｄ：Ａ．ニガー（ｎｉｇｅｒ）ｃａｒｅ−ｄｏｎ’ｔｃａｒｅ（０−１）ベクター、（４）ＢＳ：枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）全ゲノム−方法：統計学的分布、（５）ＢＳＳ：枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）５０個の高度に発現される遺伝子−方法：目視検査、（６）ＢＳ＿ｄ：枯草菌（Ｂ．ｓｕｂｔｉｌｉｓ）ｃａｒｅ−ｄｏｎ’ｔｃａｒｅ（０−１）ベクター、（７）ＥＣ：大腸菌（Ｅ．ｃｏｌｉ）全ゲノム４２９８個の配列−方法：統計学的分布、（８）ＥＣＳ大腸菌（Ｅ．ｃｏｌｉ）Ｃａｒｂｏｎｅら（２００３年）からの１００個の配列の高度に発現されるグループ−方法：目視検査、（９）ＥＣ＿ｄ：大腸菌（Ｅ．ｃｏｌｉ）ｃａｒｅ−ｄｏｎ’ｔｃａｒｅ（０−１）ベクター、（１０）ＢＡ：Ｂ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）全ゲノム−方法：統計学的分布、（１１）ＢＡＳ：Ｂ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）５０個の高度に発現される遺伝子−方法：目視検査、（１２）ＢＳ＿ｄ：Ｂ．アミロリケファシエンス（ａｍｙｌｏｌｉｑｕｅｆａｃｉｅｎｓ）ｃａｒｅ−ｄｏｎ’ｔｃａｒｅ（０−１）ベクター、（１３）ＳＣ：Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）全ゲノム−方法：統計学的分布、（１４）ＳＣＳ：Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）２００個の高度に発現される遺伝子−方法：目視検査、（１５）ＳＣ＿ｄ：Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）ｃａｒｅ−ｄｏｎ’ｔｃａｒｅ（０−１）ベクター、（１６）ＳＣＯ：Ｓ．コエリカラー（ｃｏｅｌｉｃｏｌｏｒ）Ａ３（２）全ゲノム−方法：統計学的分布。

注記：真菌微生物、より具体的にはＰ．クリソゲヌム（ｃｈｒｙｓｏｇｅｎｕｍ）、コウジカビ（Ａ．ｏｒｙｚａｅ）、Ａ．テレウス（ｔｅｒｒｅｕｓ）、Ａ．ニデュランス（ｎｉｄｕｌａｎｓ）、Ａ．フミガーツス（ｆｕｍｉｇａｔｕｓ）、Ｔ．リーセイ（ｒｅｅｓｅｉ）、Ｎ．フィシェリ（ｆｉｓｃｈｅｒｉ）では、Ａ．ニガー（ｎｉｇｅｒ）配列を使用して生成されたＣＲベクターを適用し、酵母一般、より具体的には、Ｋ．ラクチス（ｌａｃｔｉｓ）およびＳ．ポンベ（ｐｏｍｂｅ）では、Ｓ．セレヴィシエ（ｃｅｒｅｖｉｓｉａｅ）配列を使用して生成されたＣＲベクターを適用し、ストレプトミセス（Ｓｔｒｅｐｔｏｍｙｃｅｓ）種では、Ｓ．コエリカラー（ｃｏｅｌｉｃｏｌｏｒ）Ａ３（２）を使用して生成されたＣＲベクターを適用した。

［付録３：ＣＰＷマトリックス］

Claims

ａ）所定のアミノ酸配列をコードする少なくとも１つのオリジナルコード配列を作り出すステップと、
ｂ）この少なくとも１つのオリジナルコード配列中で、１つ以上のコドンを同義コドンによって置換することによって、この少なくとも１つのオリジナルコード配列から少なくとも１つの新たに作り出されたコード配列を作り出すステップと、
ｃ）所定の宿主細胞について単一コドン適合およびコドンペア適合の少なくとも１つを判定する適合関数を使用して、前記少なくとも１つのオリジナルコード配列の適合値および前記少なくとも１つの新たに作り出されたコード配列の適合値を判定するステップと、
ｄ）前記適合値が高いほど選択される確率が高くなるような所定の選択基準に従って、前記少なくとも１つのオリジナルコード配列および前記少なくとも１つの新たに作り出されたコード配列中で、１つ以上の選択されるコード配列を選択するステップと、
ｅ）操作ｂ）からｄ）において、前記１つ以上の選択されたコード配列を１つ以上のオリジナルコード配列として処理しながら、所定の反復停止基準が満たされるまで操作ｂ）からｄ）を繰り返すステップと
を含んでなる、それによって所定の宿主細胞内での発現のためにコード配列が最適化される、所定のアミノ酸配列をコードするヌクレオチドコード配列を最適化する方法。
前記所定の選択基準が、前記１つ以上の選択されるコード配列が所定の基準に従って最良適合値を有するような基準である、請求項１に記載の方法。
操作ｅ）の後に、
ｆ）前記１つ以上の選択されるコード配列中で最良の個々のコード配列を選択するステップを含んでなり、前記最良の個々のコード配列がその他の選択されたコード配列よりも良い適合値を有する、請求項１または２に記載の方法。
前記所定の反復停止基準が、
（ａ）前記選択されたコード配列の少なくとも１つが所定の閾値を超える最良適合値を有するかどうかの試験、
（ｂ）前記選択されたコード配列がいずれも前記所定の閾値未満の最良適合値を有さないかどうかの試験、
（ｃ）前記選択されたコード配列の少なくとも１つが、前記オリジナルコード配列中で所定の宿主細胞について関連する正のコドンペア重みがあるコドンペアの少なくとも３０％を関連する負の重みがあるコドンペアに転換するかどうかの試験、
（ｄ）前記選択されたコード配列の少なくとも１つが、前記オリジナルコード配列中で所定の宿主細胞について０を超える関連する正の重みがあるコドンペアの少なくとも３０％を０未満の関連する重みがあるコドンペアに転換するかどうかの試験
の少なくとも１つである、請求項１〜３のいずれか一項に記載の方法。
前記適合関数が、

（式中、
ｇはコード配列、｜ｇ｜はその長さ、ｇ（ｋ）はそのｋ番目のコドンを表し、

はコドンｃ（ｋ）の所望の比率であり、

はヌクレオチドコード配列ｇ中の実際の比率である）によって単一コドン適合を定義する、請求項１〜４のいずれか一項に記載の方法。
前記適合関数が、

（式中、
ｗ（（ｃ（ｋ）、ｃ（ｋ＋１））はコード配列ｇ中のコドンペア重みであり、｜ｇ｜は前記ヌクレオチドコード配列の長さであり、ｃ（ｋ）は前記コード配列中のｋ番目のコドンである）によってコドンペア適合を定義する、請求項１〜４のいずれか一項に記載の方法。
前記適合関数が、

（式中、

であり、ｃｐｉは０を超える実数であり、ｆｉｔ_ｃｐ（ｇ）はコドンペア適合関数であり、ｆｉｔ_ｓｃ（ｇ）は単一コドン適合関数であり、ｗ（（ｃ（ｋ）、ｃ（ｋ＋１））はコード配列ｇ中のコドンペアの重みであり、｜ｇ｜は前記コード配列の長さであり、ｃ（ｋ）は前記コドン配列中のｋ番目のコドンであり、

は、コドンｃ（ｋ）の所望の比率であり、

はコード配列ｇ中の実際の比率である）によって定義される、請求項１〜４のいずれか一項に記載の方法。
ｃｐｉが１０^−４〜０．５の間である、請求項７に記載の方法。
前記コドンペア重みｗが、停止コドンなしの６１×６１コドンペアマトリックス、または停止コドンを含めた６１×６４コドンペアマトリックスから測定され、前記コドンペア重みｗが、
（ａ）所定の宿主の少なくとも２００個のコード配列からなる一群のヌクレオチド配列、
（ｂ）所定の宿主が属する種の少なくとも２００個のコード配列からなる一群のヌクレオチド配列、
（ｃ）所定の宿主のゲノム配列中のタンパク質をコードするヌクレオチド配列の少なくとも５％からなる一群のヌクレオチド配列、
（ｄ）所定の宿主の近縁の属のゲノム配列中のタンパク質をコードするヌクレオチド配列の少なくとも５％からなる一群のヌクレオチド配列
の少なくとも１つをインプットとして使用して、コンピューターベースの方法に基づいて計算される、請求項６〜８のいずれか一項に記載の方法。
前記コドンペア重みｗが、停止コドンとしての終結シグナルを含めた可能な６１×６４コドンペアの少なくとも５％、１０％、２０％、５０％、好ましくは１００％について判定される、請求項９に記載の方法。
前記コドンペア重みｗが、停止コドンなしの６１×６１コドンペアマトリックス、または停止コドンを含めた６１×６４コドンペアマトリックスから測定され、
前記コドンペア重みｗが、

によって定義され、総合期待値

が、

によって定義され、

は全ゲノムデータセット中の単一コドン比率ｃ_ｋを示し、

はそのｍＲＮＡが少なくとも細胞あたり２０コピーのレベルで検出できる遺伝子である高度に発現される群中のペアの出現率（ｃ_ｉ，ｃ_ｊ）を示す、請求項６〜８のいずれか一項に記載の方法。
所定のアミノ酸配列をコードする前記オリジナルのコーディングヌクレオチド配列が、
（ａ）前記所定のアミノ酸配列をコードする野生型ヌクレオチド配列、
（ｂ）それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、アミノ酸をコードする同義コドンから無作為に選択される、所定のアミノ酸配列の逆翻訳、
（ｃ）それによって所定のアミノ酸配列中のアミノ酸位置のためのコドンが、所定の宿主細胞または宿主細胞の近縁種の単一コドンバイアスに従って選択される、所定のアミノ酸配列の逆翻訳
から選択される、請求項１〜１１のいずれか一項に記載の方法。
前記所定の宿主細胞が、微生物、好ましくはバシラス（Ｂａｃｉｌｌｕｓ）、放線菌（Ａｃｔｉｎｏｍｙｃｅｔｅｓ）、エシェリキア（Ｅｓｃｈｅｒｉｃｈｉａ）、ストレプトミセス（Ｓｔｒｅｐｔｏｍｙｃｅｓ）、アスペルギルス（Ａｓｐｅｒｇｉｌｌｕｓ）、ペニシリウム（Ｐｅｎｉｃｉｌｌｉｕｍ）、クリヴェロミセス（Ｋｌｕｙｖｅｒｏｍｙｃｅｓ）、サッカロミセス（Ｓａｃｃｈａｒｏｍｙｃｅｓ）から選択される属の微生物の細胞である、請求項１〜１２のいずれか一項に記載の方法。
前記所定の宿主細胞が、動物または植物細胞、好ましくはＣＨＯ、ＢＨＫ、ＮＳ０、ＣＯＳ、Ｖｅｒｏ、ＰＥＲ．Ｃ６（商標）、ＨＥＫ−２９３、ショウジョウバエ（Ｄｒｏｓｏｐｈｉｌａ）Ｓ２、スポドプテラ（Ｓｐｏｄｏｐｔｅｒａ）Ｓｆ９、およびスポドプテラ（Ｓｐｏｄｏｐｔｅｒａ）Ｓｆ２１から選択される細胞系の細胞である、請求項１〜１２のいずれか一項に記載の方法。
プロセッサーがメモリーから読み取ってメモリーに書き込むように構成され、前記メモリーが前記プロセッサーに請求項１〜１４のいずれか一項に記載の方法を遂行する能力を提供するように構成されたデータおよび命令を含んでなる、プロセッサーおよびメモリーを含んでなるコンピューター。
プロセッサーもまた含んでなるコンピューターのメモリー内にロードされるように構成された、データおよび命令を含んでなるコンピュータープログラム製品であって、前記プロセッサーが前記メモリーから読み取って前記メモリーに書き込むように構成され、前記データおよび命令が請求項１〜１４のいずれか一項に記載の方法を遂行する能力を前記プロセッサーに提供するように構成された、コンピュータープログラム製品。
請求項１６に記載のコンピュータープログラム製品を備えたデータ媒体。
所定のアミノ酸配列をコードするコード配列を含んでなり、コード配列が天然コード配列でなく、コード配列が所定の宿主細胞について少なくとも−０．１未満、好ましくは−０．２未満、より好ましくは−０．３未満のｆｉｔ_ｃｐ（ｇ）を有する、核酸分子。
所定のアミノ酸配列をコードするコード配列を含んでなり、コード配列が天然コード配列でなく、コード配列が所定の宿主細胞について少なくとも−０．１未満、好ましくは−０．２未満のｆｉｔ_ｃｐ（ｇ）を有し、所定の宿主細胞について少なくとも０．１未満のｆｉｔ_ｓｃｉ（ｇ）を有する、核酸分子。
コード配列が、所定の宿主細胞内でコード配列の発現を指示できる発現制御配列と作動的に連結する、請求項１８または１９に記載の核酸分子。
請求項２０に記載の核酸分子を含んでなる宿主細胞。
請求項２１に記載の宿主細胞をポリペプチド発現に寄与する条件下で培養するステップと、場合によりポリペプチドを回収するステップを含んでなる、所定のアミノ酸配列を有するポリペプチドを生成する方法。
請求項２１に記載の宿主細胞を代謝産物の生成に寄与する条件下で培養するステップを含んでなり、それによって好ましくは所定のアミノ酸配列を有するポリペプチドが代謝産物の生成に関与する、細胞内および細胞外代謝産物の少なくとも１つを生成する方法。