JP2015524658A

JP2015524658A - 分岐したコドン最適化された大きな繰り返しｄｎａ配列を設計するための方法

Info

Publication number: JP2015524658A
Application number: JP2015523191A
Authority: JP
Inventors: ジェイ．メルロ，ドナルド; ラリヌア，イグナシオ; ベヴァン，スコット
Original assignee: ダウアグロサイエンシィズエルエルシー
Priority date: 2012-07-16
Filing date: 2013-07-16
Publication date: 2015-08-27
Also published as: BR112015000982A2; CA2879199C; CN104937101B; AU2013290374A1; EP2872630B1; AR091774A1; US20150175672A1; CN104937101A; IL236734A0; AU2013290374B2; WO2014014950A1; CA2879199A1; ZA201500638B; IN2015DN00849A; US10793612B2; HK1211053A1; IL236734B; EP2872630A4; EP2872630A1; KR20150032334A

Abstract

本開示は、ポリペプチドのアミノ酸繰り返し領域をコードする合成核酸配列を設計するための方法に関する。本開示は、アミノ酸繰り返し領域を含む所望のポリペプチドを発現するためのこのような配列の使用およびこのような配列を含む有機体にも関する。

Description

本開示は、概して、遺伝子発現を最適化するための方法に関する。具体的な実施形態では、本開示は、アミノ酸繰り返しドメインを有する遺伝子産物の発現を最適化するための方法に関する。

関連出願の相互参照
本出願は、「PROCESS FOR DESIGNING DIVERGED, CODON-OPTIMIZED LARGE REPEATED DNA SEQUENCES」について、２０１２年７月１６日に出願された米国特許仮出願第６１／６７２，１１４号の出願日の利益を主張する。

化学的なＤＮＡ合成技術の利点は、遺伝子合成の合計費用を、その天然ソースからの遺伝子をクローニングする試みより、多くの場合、コスト優位性を有するレベルにしてきた。このため、有用なタンパク質をコードする合成ＤＮＡ配列のコンピュータを利用した設計は、植物の形質転換の分野およびバイオテクノロジーの他の領域において、ますます重要となってきている。

遺伝情報は、コドンと呼ばれる３つのヌクレオチドの単位からなる。６４通りの可能性のあるコドンが存在し、それぞれ、２０個のアミノ酸の１つまたは翻訳の終了（「ストップコドン」）を特定する。したがって、少なくとも一部のコドンは余分である。広範な大多数の有機体により使用されるコードシステムにおいて、２つのアミノ酸が、それぞれ、１種類のコドンによりコードされる。一方、全ての他のアミノ酸は、３種類のストップコドンと共に、２、３、４または６種類のコドンにより、別々にコードされる。２、３または４種類のコドンにより表されるアミノ酸について、前記コドンは、３番目のヌクレオチド位置において互いに異なる。２種類のコドンにより表されるアミノ酸について、前記３番目の位置は、両方の場合において、プリン（Ａ、Ｇ）またはピリミジン（Ｃ、Ｔ）のいずれかである。６種類のコドンにより表される３種類のアミノ酸（Ａｒｇ、ＬｅｕおよびＳｅｒ）について、それぞれが、前記３番目の位置が異なることによるこのパターンに従う４種類のコドンの１つのブロックを有し、２種類のコドンの更なる１つのセットがこれに加わる。ＡｒｇおよびＬｅｕはそれぞれ、１番目および２番目のヌクレオチド位置における変更により、互いに異なる２つのコドンブロックにより表される。セリン（Ｓｅｒ）の前記２種類のコドン表示は、前記３番目のヌクレオチド位置においてのみ、Ａｒｇの前記２種類のコドンブロックのそれと異なる。

特定のアミノ酸について、所定の有機体は、前記可能性のあるコドンを等しくは使用しない。各有機体は、コドン利用におけるバイアスを有する。前記コドン利用におけるバイアスのパターンは、ゲノム全体を通して、有機体とその近縁種とについて区別される。例えば、Ｓｔｒｅｐｔｏｍｙｃｅｓ種において、頻繁なコドンは、概して、前記３番目のヌクレオチド位置において、ＧまたはＣを含む。レアコドンは、概して、前記３番目の位置において、ＡまたはＴを含む。他の有機体では、ＡまたはＴが、前記３番目の位置において好ましい。特定種内で、その独自のコドンバイアスを有する遺伝子カテゴリーが区別され得る。Ｅ．ｃｏｌｉでは、例えば、大まかに３つの分類の遺伝子が存在し、それぞれ、区別可能なコドン利用特徴を有する。１つの分類は、多量に発現されている重要なタンパク質に豊富である。第２分類は、比較的低レベルに発現されているタンパク質を含む。第３分類は、おそらく他の種から最近獲得してきたタンパク質を含む。

ほとんどの合成遺伝子の設計戦略において、そのプロセスは、前記合成遺伝子が発現されるであろう宿主の遺伝子のコドン組成に対して、合成遺伝子のコドン組成を合致させることを試みる。例えば、米国特許出願公開第２００７／０２９２９１８号明細書を参照のこと。このような戦略は、一部の状況において、前記宿主における前記合成遺伝子の向上した発現をもたらし得る。例えば、酵母におけるコドン最適化は、例えば、アミノアシル−ｔＲＮＡおよびＡＴリッチ配列における転写終了を制限する作用を最少化するために、異種遺伝子の転写物の翻訳を顕著に改善し得る。例えば、Daly and Hearn (2004) J. Mol. Recognition 18:119-38を参照のこと。

しかしながら、ある種のコドン最適化についての必要性にわたる当分野における一般的合意にも関わらず、実務家は、最適化に使用されるべき一般戦略に同意しない。いくらか好ましい１つの戦略は、異種遺伝子の設計中に、発現宿主種での頻繁なコドンの使用を最大化することである。他に好ましい第２の戦略は、特定のコドンに関して最も重視することにより、発現宿主において、頻繁に生じるコドン対の使用を最大化することである。第３の戦略は、新種における新たなコード配列のコドン利用を元の種における参照コード配列のコドン利用に似せることである。この第３の戦略は、転写物であるＲＮＡ分子の適切な二次構造を確保するための、レアコドンについての可能性のある要求の認識に重きを置く。更なる戦略は、異種遺伝子のコドン組成を、新たな宿主の発現遺伝子のコドン組成全体に似せることである。さらに、異種配列において同じ頻繁に生じるコドンを単に繰り返し使用することが、レアコドンを選択するのと同じ効果を実際に有することが期待される。例えば、対応するｔＲＮＡの過剰使用は、ｔＲＮＡの利用性を制限するであろう。宿主有機体における発現用の遺伝子配列のコドンを最適化することを試みる人は、特定の方法論に到達するために、これらの戦略とその根底にある懸念とのバランスを取らなければならない。

酵母および他の真核細胞（例えば、チャイニーズハムスター卵巣細胞（ＣＨＯ）の細胞、ヒト胚性網膜芽（ＨＥＲ）細胞およびヒト胚性腎（ＨＥＫ）細胞）に加えて、数多くの細菌が、異種性の組換えタンパク質の調製用の宿主細胞として使用されてきた。数多くの細菌系の１つの著しい不利益は、ヒトの遺伝子において好ましくない、そのレアコドンの使用である。これらのレアコドンの使用は、異なるコドン利用優先性を反映する組換え異種遺伝子、例えば、ヒトの遺伝子の発現の遅延および低下をもたらし得る。Sorensen et al. (2003) J. Chromatography B 786:207-14。この不利益を克服することを試みるために、核酸配列は、例えば、組換え異種ポリペプチド変異体をコードするように修飾され得る。この場合、前記核酸配列の特定のコドンは、特定の宿主に好ましいコドンに変更されており、向上されたレベルの発現をもたらし得る。例えば、Haas et al. (1996) Curr. Biol. 6:315；および、Yang et al. (1996) Nucleic Acids Res. 24:4592を参照のこと。さらに、設計プロセスの反復性は、種々の配列モチーフ、例えば、最終的なＤＮＡ配列に由来する、イントロンスプライシング認識部位、ｍＲＮＡ不安定性決定子、非常に安定したステム−ループ構造および制限酵素認識部位の除去を可能にする。例えば、ＧＥＮＥＳＣＲＩＰＴ（商標）製品のインサートを参照のこと。さらに、異種のコード配列におけるレアコドンを使用する影響をいくらか克服するために、稀なｔＲＮＡをコードする遺伝子を宿主有機体において発現させることができる。上記Sorensen et al. (2003)。

異種的に発現されたタンパク質をコードするヌクレオチド配列を最適化する方法は、発現収率を改善するための重要な工程であり得る。しかしながら、複数の可能性のある問題により、特定遺伝子の発現についてのコドン最適化の有用性が制限される。例えば、コドン最適化された転写物の二次構造は、前記転写物の翻訳を制限し得る。Griswold et al. (2003) Protein Expression and Purification 27:134-42。さらに、異種発現用の合成配列において望ましくは避けられる数多くの配列モチーフ、例えば、Ｔ７プロモータの制御下における遺伝子についてのＥ．ｃｏｌｉにおけるクラスＩおよびＩＩの転写末端部位；シャイン−ダルガーノ様配列；可能性のあるスプライシングシグナル；ポリアデニル化シグナル；およびリボソームフレームシフトおよびリボソームポーズを促進する配列が存在する。Welch et al. (2010) J. R. Soc. Interface 6:S467-76。

多くのタンパク質の配列は、アミノ酸繰り返しパターン、例えば、１つのアミノ酸繰り返しおよびタンデムなオリゴペプチド繰り返しを含む。Katti et al. (2000) Protein Science 9:1203-9。単純なヌクレオチド配列繰り返しは、ＤＮＡの二次構造、例えば、ヘアピンまたはスリップ鎖の形成による不等交差または複製エラーから生じる。Pearson and Sinden (1998) Curr. Opin. Struct. Biol. 8:321-30。コード領域におけるヌクレオチド配列繰り返しは、タンパク質の構造および機能に顕著に影響し得る、１つのアミノ酸繰り返しまたはタンデムなオリゴペプチド繰り返しに翻訳され得る。全てのタンパク質の１４％が、原核性タンパク質においてよりも真核性タンパク質で多く表れるアミノ酸繰り返しを有する、顕著な内部アミノ酸繰り返しを含むことが推測されている。Marcotte et al. (1999) J. Mol. Biol. 293:151-60。グルタミン、アラニン、グリシン、グルタミン酸およびセリンの繰り返しは、最も一般的な１つのアミノ酸繰り返しである。一方、非常に疎水性のアミノ酸の長いタンデムな繰り返しは、稀である。上記Katti et al. (2000); Green and Wang (1994) Proc. Natl. Acad. Sci. USA 91:4298-302。

１つのアミノ酸繰り返しを含むタンパク質は、転写調節タンパク質を含む。上記Katti et al. (2000)。タンデムなオリゴペプチド繰り返しを含むタンパク質としては、特定の寄生原生動物由来の抗原性タンパク質、構造タンパク質（例えば、プロリンリッチ植物細胞壁構造タンパク質、ケラチン、トリコヒアリン、トロポエラスチン、カイコガのフィブロイン、ショウジョウバエの唾液接着タンパク質、酵母の細胞壁タンパク質、上皮ムチンおよび軟骨特異的アグリカンコアタンパク質）、皮膚の表皮ケラチノサイトタンパク質、インボルクリン、ロリクリン、レペチン（repetin）、コーニフィンおよび哺乳類の神経軸索の神経フィラメントトリプレット−Ｈタンパク質があげられる。同文献。天然由来のタンパク質に加えて、繰り返しを含む一部の合成ポリペプチドは、各種の用途における製造および使用に望ましい場合がある。例えば、米国特許出願公開第２００９／００９３６２１号明細書を参照のこと。

（特許文献１）米国特許出願公開第２００７／０２９２９１８号明細書
（特許文献２）米国特許出願公開第２００９／００９３６２１号明細書

（非特許文献１）Daly and Hearn (2004) J. Mol. Recognition 18:119-38
（非特許文献２）Sorensen et al. (2003) J. Chromatography B 786:207-14
（非特許文献３）Haas et al. (1996) Curr. Biol. 6:315
（非特許文献４）Yang et al. (1996) Nucleic Acids Res. 24:4592
（非特許文献５）Griswold et al. (2003) Protein Expression and Purification 27:134-42
（非特許文献６）Welch et al. (2010) J. R. Soc. Interface 6:S467-76
（非特許文献７）Katti et al. (2000) Protein Science 9:1203-9
（非特許文献８）Pearson and Sinden (1998) Curr. Opin. Struct. Biol. 8:321-30
（非特許文献９）Marcotte et al. (1999) J. Mol. Biol. 293:151-60
（非特許文献１０）Green and Wang (1994) Proc. Natl. Acad. Sci. USA 91:4298-302

本願明細書において、少なくとも１つの繰り返しアミノ酸配列領域を含むポリペプチドをコードする合成核酸分子を設計するために使用され得る方法が記載される。繰り返しアミノ酸配列領域は、例えば、１つのアミノ酸繰り返しまたはタンデムなオリゴペプチド繰り返しであり得る。実施形態では、複数の実質的に分岐した合成核酸配列が、所定の遺伝子設計パラメータの制限内で設計され得る。合成核酸配列は、例えば、宿主有機体における核酸配列の異種発現を最適化するために、参照核酸配列から設計され得る。または、合成核酸配列は、所望のポリペプチドをコードするように、新たに設計され得る。ポリペプチド設計の総説については、例えば、Protein Design, Eds. Raphael Guerois and Manuela Lopez de la Paz, 2006, Humana Press, Totowa, N.Jを参照のこと。

実施形態において、前記方法は、少なくとも１つのアミノ酸繰り返し領域を含むポリペプチドをコードする核酸配列を提供する工程を含み得る。一部の実施形態では、少なくとも１つのアミノ酸繰り返し領域を含むポリペプチドをコードする核酸配列は、有機体において、少なくとも１つのアミノ酸繰り返し領域を含むポリペプチドをコードする核酸配列を決定することにより（例えば、前記核酸配列をクローニングすることにより、または、配列データベースからの配列を抽出することにより）提供され得る。具体的な実施形態では、ついで、前記ポリペプチドのアミノ酸繰り返し領域をコードする少なくとも１つの核酸配列は、前記提供された核酸配列から、それぞれ別々の配列として抽出され得る。

一部の実施形態では、アミノ酸繰り返し領域をコードする抽出された核酸配列は、所定のパラメータに基づいて、コード配列を最適化することが可能なコンピュータで実行されるソフトウェアプログラム内にインポート（例えば、個々にインポート）され得る。具体的な実施形態では、前記コンピュータで実行されるソフトウェアプログラムは、ＯＰＴＧＥＮＥ（商標）（ＯｃｉｍｕｍＢｉｏｓｏｌｕｔｉｏｎｓから入手可能）であり得る。ついで、サンプルアミノ酸繰り返し配列が、抽出された各核酸配列から、例えば、標準的な遺伝情報を参照することにより推測され得る。具体的な実施形態では、サンプルアミノ酸繰り返し配列は、抽出された各核酸配列から、例えば、コンピュータで実行されるソフトウェアプログラムより推測され得る。更なる実施形態では、サンプルアミノ酸繰り返し配列は、例えば、コンピュータで実行されるソフトウェアプログラム内に、所望の前記ポリペプチドにおけるアミノ酸繰り返し領域のアミノ酸配列をインポートすることにより、コンピュータで実行されるソフトウェアプログラム内に直接インポートされ得る。

他の実施形態では、サンプルアミノ酸繰り返し配列は、（例えば、遺伝情報の余剰および適切なコドン利用テーブルに基づく前記サンプルアミノ酸繰り返し配列由来の前記アミノ酸繰り返し領域をコードする、複数の異なるサンプルコドン最適化核酸配列を独立して推測することにより、）前記アミノ酸繰り返し領域をコードする、複数のサンプルコドン最適化核酸配列を推測するために使用され得る。コンピュータで実行されるソフトウェアプログラムを使用する実施形態では、アミノ酸繰り返し領域をコードするサンプルコドン最適化核酸配列は、それぞれ、テキストファイル内にエクスポートされることができ、または、その他の方法で実務家用に記録されることができる。合成核酸分子が少なくとも１つの繰り返しアミノ酸配列領域を含む参照核酸分子を最適化するために設計される実施形態では、サンプルアミノ酸繰り返し配列を推測する工程および前記アミノ酸繰り返し領域をコードするサンプルコドン最適化核酸配列を推測する工程が、前記参照核酸分子によりコードされるポリペプチドのアミノ酸繰り返し領域のそれぞれおよび全てについて行われ得る。

更なる実施形態では、アミノ酸繰り返し領域をコードするサンプルコドン最適化核酸配列は、配列相同性により整列され得る。具体的な実施形態では、前記参照核酸分子における繰り返しアミノ酸配列領域の全てについて取得されたアミノ酸繰り返し領域をコードするサンプルコドン最適化核酸配列は全て、配列相同性により互いに整列され得る。特定の実施形態では、前記サンプルコドン最適化核酸配列は、ＣＬＵＳＴＡＬＷ（商標）プログラム、Ｍｅｇａ３．１を使用して整列され得る。近隣結合ツリーは、前記整列されたサンプル配列について構築され得る。前記アミノ酸繰り返し領域をコードする１つのサンプルコドン最適化核酸配列が、前記近隣結合ツリーの深く分岐したセクションからの各繰り返しアミノ酸配列領域について選択され得る。

これらおよび更なる実施形態では、繰り返しアミノ酸配列についての選択されたコード配列は、発現最適化核酸配列を産生するために、所望のポリペプチドをコードするコドン最適化核酸配列内に包含され得る。具体的な実施形態では、前記選択されたコード配列は、完全なポリペプチドコード配列用の正しい読み枠を維持するように、前記所望のポリペプチドにおいて対応するアミノ酸繰り返し単位についての所望の位置に包含され得る。一部の実施形態では、更なる分析が、例えば、望ましくない核酸モチーフ（例えば、それから転写されたＲＮＡ分子において望ましくない二次構造を形成する核酸モチーフ）が存在しないことを確認するため、制限酵素認識部位が存在しないことを確認するため、および／または、コドンおよび配列の多様性を確保するために、コドン最適化配列に行われ得る。

一部の実施形態では、本発明の方法は、異種性または内在性の所望のポリペプチドをコードする合成核酸配列を設計するために使用され得る。一部のこれらの実施形態では、前記合成核酸配列は、例えば、発現宿主のコドン利用を反映するためのコドン最適化により、宿主有機体における発現に最適化され得る。具体的な実施形態では、植物細胞；例えば、Ｂｒａｓｓｉｃａｎａｐｕｓにおける異種発現に最適化された合成核酸配列が設計される。更なる実施形態では、細菌の宿主細胞；例えば、Ｐｓｅｕｄｏｍｏｎａｓｆｌｕｏｒｅｓｃｅｎｓにおける異種発現に最適化された合成核酸配列が設計される。これらおよび他の実施形態では、本発明の設計方法は、アミノ酸繰り返し領域を含む所望の新規なポリペプチドをコードする合成核酸配列を設計するために使用され得る。

前述および他の特徴は、複数の実施形態の下記の詳細な説明および添付の図面を参照して、より明らかとなるであろう。

アミノ酸繰り返しドメインおよび隣接するＰｒｏ−Ａｌａ繰り返しの相対位置を含む、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡによりコードされるタンパク質のグラフ表示を含む。繰り返し１から９は、本願明細書において、繰り返しＡからＩと呼ばれる場合があることに留意されたい。この場合、繰り返し１は、繰り返しＡと、繰り返し２は、繰り返しＢ等と呼ばれる場合がある。

ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの１０か所のＰｒｏ−Ａｌａ繰り返しのアミノ酸配列を含む。

Ｓｃｈｉｚｏｃｈｙｔｒｉｕｍ種（アメリカ培養細胞系統保存機関番号ＡＴＣＣ＿２０８８８）ＰＵＦＡＯＲＦＡの９つのオリゴペプチド繰り返しドメインのアミノ酸配列の（ＶｅｃｔｏｒＮＴＩ（商標）ソフトウェアスイートにおける）ＣＬＵＳＴＡＬＷ（商標）アライメントを含む。

ＰＵＦＡＯＲＦＡの９つのアミノ酸繰り返しドメインそれぞれをコードする天然ＳｃｈｉｚｏｃｈｙｔｒｉｕｍのＤＮＡ配列の（ＶｅｃｔｏｒＮＴＩ（商標）ソフトウェアスイートにおける）ＣＬＵＳＴＡＬＷ（商標）アライメントを含む。前記アライメントは、前記ＤＮＡ配列が１００％相同、かつ８９．７％同一であることを説明する。図４のつづき。

プログラムインターフェースの再現を含む。偏りのない標準的な遺伝情報を使用する、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの繰り返し１（配列番号１１）のアミノ酸配列の逆翻訳から導出されたコンピュータ生成配列の一部が、チャートのトップラインに示される。その配列は、配列番号２９としてさらに開示される。前記チャートの２番目のラインには、前記トップラインの配列によりコードされたアミノ酸配列が示される。このため、前記アミノ酸配列は、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡ繰り返し１（配列番号１１）の一部を提供し、配列番号３０において説明される。残りのラインは、Ｂｒａｓｓｉｃａｎａｐｕｓの標準的な遺伝情報およびコドン利用バイアスを使用する、ライン２の複数の逆翻訳を示す。３番目から１２番目のラインは、「ｒｐｔ１ｎａｐ１」から「ｒｐｔ１ｎａｐ１０」をそれぞれ示す。これらのヌクレオチド配列（それぞれ配列番号３１から４０）は、Ｂ．ｎａｐｕｓの標準的な遺伝情報およびコドン利用バイアスを使用する、配列番号３０の逆翻訳から取得された。

ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡ繰り返し１−９についての、９０個のＢｒａｓｓｉｃａｎａｐｕｓコドン最適化配列の配列アライメントを行う、ＣＬＵＳＴＡＬＷ（商標）プログラム、Ｍｅｇａ３．１から出力された近隣結合ツリーを含む。各繰り返し１−９は、記号（例えば、ｒｐｔＡ、ｒｐｔＢ、ｒｐｔＣ、ｒｐｔＤ、ｒｐｔＥ、ｒｐｔＦ、ｒｐｔＧ、ｒｐｔＨ、ｒｐｔＩ）により指定され、Ｂ．ｎａｐｕｓ−バイアス配列の各反復は、数字（例えば、ｎａｐ１、ｎａｐ２、ｎａｐ３、ｎａｐ４、ｎａｐ５、ｎａｐ６、ｎａｐ７、ｎａｐ８、ｎａｐ９、ｎａｐ１０）により指定される。この実施例で選択された分岐した配列は、矢印により印がされ、明確性のために、前記選択された分岐した配列の記号指定は、図の右側に付されている（例えば、ｒｐｔＢｎａｐ１０は、Ｂ１０と指定される。）。

ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡにおける繰り返しの選択されたＢｒａｓｓｉｃａｎａｐｕｓのコドン最適化配列のＳｍｉｔｈ−Ｗａｓｓｅｒｍａｎ相同性を含む。

ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの９つの繰り返しドメインそれぞれをコードする再設計された（分岐した）ＤＮＡ配列の（ＶＥＣＴＯＲＮＴＩ（商標）ソフトウェアスイートにおける）ＣＬＵＳＴＡＬＷ（商標）アライメントを含む。前記アライメントは、前記ＤＮＡ配列が９３．１％相同であり、かつ６１．７％同一であることを説明する。図８のつづき。

配列表
添付の配列表に列記された核酸配列は、３７Ｃ．Ｆ．Ｒ．§１．８２２において規定されたように、ヌクレオチド塩基についての標準的な文字省略を使用して示される。各核酸配列の一方の鎖のみが示されるが、相補鎖が、表示された鎖に対する任意の言及により含まれると理解される。特に示さない限り、核酸は、左から右に、５’から３’方向で記載される。

アミノ酸は、本願明細書において、それらの一般的に公知の３文字表記、または、ＩＵＰＡＣ−ＩＵＢＢｉｏｃｈｅｍｉｃａｌＮｏｍｅｎｃｌａｔｕｒｅＣｏｍｍｉｓｓｉｏｎにより推奨される１文字表記のいずれかにより言及され得る。アミノ酸配列は、左から右に、アミノ方向からカルボキシ方向で記載される。添付の配列表において、
配列番号１−１０は、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの、１０通りのＰｒｏ−Ａｌａ繰り返しのアミノ酸配列を示す。
配列番号１１−１９は、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの、９つのオリゴペプチド繰り返し領域のアミノ酸配列を示す。
配列番号２０−２８は、ＰＵＦＡＯＲＦＡの９つのオリゴペプチド繰り返し領域をそれぞれコードする、天然Ｓｃｈｉｚｏｃｈｙｔｒｉｕｍのヌクレオチド配列を示す。
配列番号２９は、偏りのない標準的な遺伝情報を使用するＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡ繰り返し１のアミノ酸配列の逆翻訳による、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡ繰り返し１の一部をコードするＤＮＡ配列を示す。
配列番号３０は、配列番号２９によりコードされ、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡ繰り返し１の一部を提供するアミノ酸配列を示す。
配列番号３１−４０は、Ｂｒａｓｓｉｃａｎａｐｕｓの前記標準的な遺伝情報およびコドン利用バイアスを使用する、配列番号３０の逆翻訳により取得されたヌクレオチド配列を示す。
配列番号４１−４９は、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡＯＲＦＡの９つの繰り返しドメインそれぞれをコードする、例示となる合成ＤＮＡ配列を示す。
配列番号５０は、３つのアミノ酸配列の３つの繰り返しを含む、例示となるタンデムなオリゴペプチド繰り返しを示す。
配列番号５１は、例示となる不完全なポリグルタミン繰り返しを示す。

Ｉ．複数の実施形態の概観
コードされたポリペプチドが繰り返しアミノ酸ドメインを含む場合、宿主有機体における発現用のコード配列の最適化中に問題が生じ得る。細菌宿主においてクローニングされたＤＮＡ内において、近接して配置された、高い相同性のヌクレオチド配列の大きな領域が、不安定性に寄与し得る。小さくとも、５０塩基のみの完全な繰り返しが、Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉにおける組換えのための基質であり得る。さらに、これらの配列は、前記大きな繰り返しが転写されたｍＲＮＡに存在する場合、発現における問題をもたらし得る。例えば、ポリグルタミン繰り返しを含む転写物は、不安定である。（ＣＡＧ）_ｎ：（ＣＴＧ）_ｎの繰り返しが、複製エラー、修復エラーまたは組換えをもたらす二次ＤＮＡ構造をとり得るためである。上記Pearson and Sinden (1998)。ポリアラニン繰り返しも、転写の不安定性をもたらし得る。Muragaki et al. (1996) Science 272:548-51。

前述の概説において、コドン組成およびモチーフ回避の二重の制限は、遺伝子設計の問題を起こす。各個々の繰り返し配列エレメントの設計は、繰り返し配列の不安定性問題を回避するために十分分岐された、前記繰り返しについてのＤＮＡ配列の設計に挑戦しながら、全体として遺伝子に使用される同じコドン組成およびモチーフ回避テーブルに一致しなければならないためである。遺伝子設計法は、複数の大きなアミノ酸繰り返しについての新たなコドンバイアスＤＮＡ配列の開発を調整するために準備されていない。個々の繰り返しにおける全てのコドン選択は、高度に関連するＤＮＡ配列を生成するのを回避するために、他の繰り返しに対応するコード領域における同じ位置においてなされるコドン選択と絶えず釣り合わなければならない。

合成核酸分子における高度に繰り返された配列領域の存在は、遺伝子合成および完成した合成分子の配列検証における技術的な困難性も生じさせる。これらの問題は、繰り返しアミノ酸ドメインが、ただ数個のアミノ酸残基より大きい場合、特に急性であり得る。本発明の一部の実施形態では、これらの問題は、アミノ酸繰り返し領域をコードする、分岐されたコドン最適化核酸配列を設計するための方法により解決され得る。本願明細書に記載された方法の具体的な実施形態は、繰り返しアミノ酸ドメインを含むポリペプチドをコードする任意のコドン最適化ＤＮＡ配列の設計に広く適用可能である。
ＩＩ．略語
ｄｓＤＮＡ二本鎖ＤＮＡ
ｓｓＤＮＡ一本鎖ＤＮＡ
ＮＣＢＩ国立バイオテクノロジー情報センター
ＰＣＡポリメラーゼサイクルアッセンブリ
ＰＣＲポリメラーゼ連鎖反応

ＩＩＩ．用語
単数形「ａ」、「ａｎ」、「ｔｈｅ」の使用は、特に断らない限り、複数の指示対象を含む。例えば、「ポリヌクレオチド（ａｐｏｌｙｎｕｃｌｅｏｔｉｄｅ）」への言及は、複数のポリヌクレオチドを含み、「基質（ａｓｕｂｓｔｒａｔｅ）」への言及は、複数のこのような基質を含み、「変異体（ａｖａｒｉａｎｔ）」への言及は、複数のこのような変異体を含む等である。

値の範囲が列記された場合、その範囲の列記された上限と下限との間に各介在する整数値およびそれらの各分数も、このような値間の各部分範囲と共に、具体的に開示されていると理解されたい。任意の範囲の上限および下限は、前記範囲に独立して含まれることができ、または、前記範囲から除かれることができる。範囲のいずれか、範囲のいずれでもないまたは範囲の両方が含まれる場合、各範囲も、本発明に包含される。記載された値が固有の範囲を有する場合（例えば、成分が０から１００％の濃度で存在し得る場合、または、水溶液のｐＨが１から１４の範囲であり得る場合）、それらの固有の範囲は、具体的に開示されている。

値が明確に列記されている場合、前記列記された値と同じ分量または量周囲の値も、本発明の範囲内であることを理解されたい。組み合わせが開示されている場合、その組み合わせの要素の各部分的組み合わせも、具体的に開示されており、本発明の範囲内である。逆に、異なる要素または要素群は、個々に開示されており、それらの組み合わせも開示されている。発明の任意の構成要素は、複数の代替手段を有するように開示されている。各代替手段が単独で、または、他の代替手段との任意の組み合わせにおいて除外される発明の例示も、本願明細書に開示されている（本発明の２つまたはそれ以上の構成要素は、このような除外を有することができ、このような除外を有する構成要素の全ての組み合わせは、本願明細書に開示されている。）。

特に提供されない限り、本願明細書で使用された全ての技術的および科学的用語は、遺伝学、バイオインフォマティックスおよび遺伝子設計の当業者により共通して理解されるのと同じ意味を有する。本開示に使用される多くの用語を含む一般的な辞書は、Singleton et al. (1994) Dictionary of Microbiology and Molecular Biology, 2nd Ed., John Wiley and Sons, New York；および、Hale and Marham (1991) The Harper Collins Dictionary of Biology, Harper Perennial, New Yorkである。本願明細書に記載されたものと類似または同等の任意の方法および材料が、本発明の実施形態の実用化または試験に使用され得るが、特定の方法および材料が、本願明細書に開示されたものにより例示される。

アミノ酸繰り返し：本願明細書で使用する時、「アミノ酸繰り返し」の用語は、同じ１つまたはそれ以上のアミノ酸の繰り返し単位を含むポリペプチド内のアミノ酸配列を意味する。例えば、「アミノ酸繰り返し」は、１つのアミノ酸繰り返し（例えば、Ａｌａ−Ａｌａ−Ａｌａ）およびタンデムなオリゴペプチド繰り返し（例えば、Ａｌａ−Ｇｌｕ−Ｐｒｏ−Ａｌａ−Ｇｌｕ−Ｐｒｏ−Ａｌａ−Ｇｌｕ−Ｐｒｏ（配列番号５０））の両方を意味する。アミノ酸繰り返しは、ポリペプチドにおいて繰り返される任意の長さのものである。例えば、１つのアミノ酸繰り返しは、（数多くの回数が繰り返された）長さが１つの残基であり得る。一方、タンデムなオリゴペプチド繰り返しは、例えば、２アミノ酸長から約１００アミノ酸長、またはそれ以上であり得る。具体的な例では、オリゴペプチド繰り返しは、長さが約１０、約２０、約３０、約４０、約５０、約６０、約６５、約７０、約８０、約９０、約１００または約１１０個のアミノ酸；例えば、長さが８５個のアミノ酸であり得る。

「アミノ酸繰り返し単位」の用語は、アミノ酸繰り返しを構築する連続的なアミノ酸を意味する。アミノ酸繰り返し単位における全てのアミノ酸が、前記繰り返しのパターン全体によるその位置において予測されるアミノ酸である必要はない。例えば、ポリグルタミンのアミノ酸繰り返し単位は、「Ｇｌｎ−Ｇｌｎ−Ｇｌｎ−Ａｌａ−Ｇｌｎ」（配列番号５１）の配列を含み得る。前記配列全体は、前記連続配列にアラニンが存在するにも関わらず、ポリグルタミン繰り返しであると考えられ得る。

コドン利用バイアス：本願明細書で使用する時、「コドン利用バイアス」または単に「コドン利用」の用語は、有機体内のアミノ酸をコードする、（他の同義コドンと対照的に、）特定のコドンの高頻度の優先使用を意味する。コドン利用バイアスは、例えば、同じアミノ酸をコードする他のコドンと比較された場合、特定のコドンが特定の有機体のゲノムにおいて使用される割合の定量的測定として表現され得る。

コドン利用バイアスを決定するための種々の方法は、当業者に公知である。一部の実施形態では、コドン利用バイアスは、コドン適応指標（ＣＡＩ）法により決定され得る。前記方法は、基本的には、高発現遺伝子の既定義のセットのコドン利用に対する遺伝子のコドン利用の距離の測定である。Sharp and Li (1987) Nucleic Acids Res. 15:1281-95。コドン利用バイアスを決定するための別の方法としては、ＭＩＬＣ（長さおよび組成に応じた測定）（Supek and Vlahovicek (2005) BMC Bioinformatics 6:182）および相対的な同義コドン利用（ＲＳＣＵ）があげられる。ＲＳＣＵは、そのアミノ酸についての全ての同義コドンの等しい利用から期待された頻度で割った特定のコドンの観察頻度である。Sharp et al. (1986) Nucleic Acids Res. 14:5125-43。１．０に近いＲＳＣＵ値は、特定のコドンについてのバイアスが無いことを示す。一方、１．０からのかい離は、コドン利用バイアスを反映する。

したがって、コドン利用バイアスは、前記同じアミノ酸をコードするコドン（「同義コドン」）使用の相対的な頻度を含む。バイアスは、自然に生じ得る。例えば、有機体のゲノムにおける前記コドンバイアスは、その有機体における全遺伝子内の同義コドンの相対的な使用全体を反映する。バイアスは、コンピュータアルゴリズムにも使用され得る。この場合、例えば、それは、異なる同義コドンがポリヌクレオチド配列の設計に使用するために選択される相対頻度を決定するために使用され得る。同様に、ヌクレオチド配列内のポリペプチドをコードするために使用される任意の配列エレメントの「相対」頻度は、その配列エレメントが前記ポリペプチドの特徴をコードするために使用される頻度を、その配列エレメントによりコードされ得た特徴の所定の読み枠におけるポリペプチド内での発生数により割ったものである。

コドン利用バイアスは、特定の発現宿主有機体についてのコドン利用テーブルからも推測され得る。コドン利用テーブルは、多くの発現宿主有機体について既に入手可能である。例えば、Nakamura et al. (2000) Nucleic Acids Res. 28:292（コドン利用データベース−kazusa.or.jp/codonにおいて利用可能なアップデート版）を参照のこと。コドン利用テーブルが利用できない場合、それは、公衆の有機体遺伝情報データベース、例えば、ＮＣＢＩにより維持されているもの（ncbi.nlm.nih.gov/sites/genomeから入手可能）から構築され得る。一部の実施形態では、コドン利用テーブルは、特定の発現宿主有機体から取得されたコード領域のセットから構築され得る。一部の例では、コード領域のセットは、特定の発現宿主有機体から取得された、少なくとも１００個、少なくとも２００個、少なくとも３００個、少なくとも４００個、少なくとも５００個、少なくとも５５０個、少なくとも６００個またはそれ以上のコード領域を含む。

「コドン利用テーブル」または「コドンバイアステーブル」または「コドン頻度テーブル」の用語は、互換的に使用され、各コドンが、その有機体内の特定の分類の遺伝子内または１つまたはそれ以上の合成ポリヌクレオチド内で、特定の有機体におけるそのアミノ酸をコードするために使用され得る頻度で、特定のアミノ酸をコードするために使用され得る各コドンを相関させるテーブルを説明する。

絶対コドン頻度：本願明細書で使用する時、「絶対コドン頻度」の用語は、コドンが所定の読み枠（例えば、所望のポリペプチドをコードするために使用される読み枠）におけるポリヌクレオチドまたはポリヌクレオチドのセット内のコドン（例えば、同義コドンおよび同義でないコドンの両方）の総数に対して現れる頻度を意味する。同様に、ポリヌクレオチド内のポリペプチドをコードするために使用される任意の配列エレメントの「絶対」頻度は、その配列エレメントが前記ポリペプチドの特徴（例えば、アミノ酸、アミノ酸ペア等）をコードするのに使用される頻度であり、前記配列エレメントによりコードされ得たものと同じサイズの特徴のポリペプチド内での発生数で割られる。

コドンスペース：本願明細書で使用する時、「コドンスペース」の用語は、前記ポリペプチド内のアミノ酸をコードするために使用されるコドンを変更することにより、特定のポリペプチドをコードするために使用され得る、可能性のある全てのポリヌクレオチド配列を意味する。

コドン置換：本願明細書で使用する時、「コドン置換」の用語は、コードされたポリペプチドのアミノ酸配列を変化させることなく、コードされたポリペプチドの１つまたはそれ以上のアミノ酸をコードする１つまたはそれ以上のコドンを変化させることによる、ヌクレオチドコード配列を変化させることを意味する。

コドン最適化：本願明細書で使用する時、「コドン最適化」の用語は、既存のコード配列を修飾し、または、第１の例においてコード配列を設計し、例えば、前記コード配列から転写された転写物であるＲＮＡ分子の発現宿主細胞または有機体における翻訳を改善し、または、コード配列の転写を改善するために使用される方法を意味する。コドン最適化は、制限されず、前記発現宿主有機体のコドン優位性を満たすために、前記コード配列についてのコドンを選択することを含む方法を含む。コドン最適化は、例えば、「コドン調和」とも呼ばれる場合がある方法も含む。この場合、ソース有機体における低利用コドンとして認識されるコドン配列のコドンは、新たな発現宿主における低利用として認識されるコドンに変更される。この方法は、発現されたポリペプチドが翻訳／伸長中に自然で、適切なポーズを導入することにより正常にフォールドするのを手助けし得る。Birkholtz et al. (2008) Malaria J. 7:197-217。

修飾：本願明細書で使用する時、「修飾」もしくは「変異」またはそれらの任意の形式は、修飾、変異、置き換え、欠失、置換、除去、変更または形質転換することを意味する。

近隣結合ツリー：本願明細書で使用する時、「近隣結合ツリー」の用語は、系統樹の構築に使用されるボトムアップ式のクラスタリング法を意味する。例示では、アルゴリズム（例えば、ＣＬＵＳＴＡＬ（商標）アルゴリズム）が、例えば、Ｎｅｅｄｌｅｍａｎ−Ｗｕｎｓｃｈアルゴリズムにより算出される通りの配列間のペアの距離から、ツリーを形成する。このツリー（「ガイドツリー」）は、前記ツリーにおける複数の配列を整列させるためのガイドとして使用され得る。近隣結合ツリーの構築および解釈に対する検討は、Kumir and Gadagker, (2000) J. Molec. Evol. 51:544-53に見出され得る。

系統樹は、当業者に公知の方法、例えば、配列間の「距離」のマトリクスに基づく、ＳａｉｔｏｕａｎｄＮｅｉの近隣結合法により、複数のアライメントから算出され得る。これらの距離は、「マルチヒット」について補正され得る。この補正は、進化中に生じた各位置における実際の差異数の平均差異数による過小評価を少なくとも部分的に補正するために、距離を伸長する。近隣結合ツリーおよびそれを構築する方法に関する詳細な情報は、例えば、Kao (Ed.) Encyclopedia of Algorithms (2008), Springer, New Yorkに見出され得る。

核酸分子：本願明細書で使用する時、「核酸分子」の用語は、ヌクレオチドの高分子形態を意味する。前記ポリマー形態は、ＲＮＡ、ｃＤＮＡ、ゲノムＤＮＡのセンス鎖およびアンチセンス鎖の両方、ならびに、合成形態および上記の混合ポリマーを含み得る。ヌクレオチドは、リボヌクレオチド、デオキシリボヌクレオチドまたはヌクレオチドのいずれかの種類の修飾形態を意味し得る。本願明細書で使用する時、「核酸分子」は、「核酸」および「ポリヌクレオチド」と同義である。核酸分子は、特に断らない限り、通常、長さが少なくとも１０塩基である。前記用語は、ＤＮＡの一本鎖および二本鎖の形態を含む。核酸分子は、天然由来および／または非天然由来のヌクレオチド結合により互いに結合された、天然由来および修飾されたヌクレオチドのいずれかまたは両方を含み得る。

核酸分子は、当業者に直ちに理解されるであろうように、化学的もしくは生化学的に修飾されてもよいし、または、非天然もしくは誘導体化されたヌクレオチド塩基を含んでもよい。このような修飾としては、例えば、標識、メチル化、１つまたはそれ以上の天然由来のヌクレオチドの類似体による置換、ヌクレオチド間修飾（例えば、非電荷結合：例えば、メチルホスホネート、ホスホトリエステル、ホスホルアミデート、カルバメート等；荷電結合：例えば、ホスホロチオエート、ホスホロジチオエート等；ペンダント部分：例えば、ペプチド；挿入分子：例えば、アクリジン、プソラレン等；キレート剤；アルキル化剤；および修飾結合：例えば、アルファアノマー核酸等）があげられる。「核酸分子」の用語は、任意のトポロジー構造、例えば、一本鎖、二本鎖、部分二重鎖、三重鎖、ヘアピン、サークル等ならびにパドロック構造等も含む。

タンパク質／ポリペプチド：「タンパク質」および「ポリペプチド」の用語は、本願明細書において、互換的に使用される。前記用語は、ペプチド結合を介して結合されたアミノ酸の連続的な分子鎖を意味する。前記用語は、生成物の特定の長さを意味しない。したがって、「ペプチド」、「オリゴペプチド」および「タンパク質」は、ポリペプチドの定義内に含まれる。前記用語は、ｉｎｖｉｖｏまたはｉｎｖｉｔｒｏにおいてなされたポリペプチドの同時翻訳および／または翻訳後の修飾を含むポリペプチドを含む。前記修飾としては、例えば、制限されず、グリコシル化、アセチル化、リン酸化、ＰＥＧ化および硫酸化があげられる。さらに、タンパク質フラグメント、類似体（例えば、遺伝情報によりコードされないアミノ酸：例えば、ホモシステイン、オルニチン、ｐ−アセチルフェニルアラニン、Ｄ−アミノ酸およびクレアチン）、天然または人工の変異体、変異型、融合タンパク質、誘導体化残基（例えば、アミン基のアルキル化、カルボキシル基のアセチル化またはエステル化）ならびに前述のいずれかの組み合わせが、前記ポリペプチドの意味内に含まれる。

典型的には、タンパク質は、機能を有する。ただし、タンパク質は、機能的な活性を有しない、オリゴペプチドおよびより小さい連続的なアミノ酸配列も包含する。機能性タンパク質の非限定的な例示としては、受容体、受容体リガンド、サイトカイン、抗体、免疫調節分子、シグナル伝達分子、蛍光タンパク質、殺虫活性もしくは殺生物活性を有するタンパク質および酵素があげられる。有用な一般分類の酵素としては、制限されず、プロテアーゼ、セルラーゼ、オキシドレダクターゼ、リパーゼ、リアーゼ、リガーゼ、ヘミセルラーゼ、ラッカーゼ、アミラーゼ、グルコアミラーゼ、エステラーゼ、デヒドロゲナーゼ、ラクターゼ、ポリガラクツロナーゼ、ガラクトシダーゼ、リグニナーゼ、オキシダーゼ、ペルオキシダーゼ、トランスフェラーゼ、グルコースイソメラーゼ、ニトリラーゼ、ヒドロキシラーゼ、ヒドロラーゼ、ポリメラーゼおよびデポリメラーゼがあげられる。酵素に加えて、本願明細書に開示された合成核酸分子によりコードされ得るタンパク質としては、制限されず、転写因子、抗体、受容体、増殖因子（ＰＤＧＦ、ＥＧＦ、ＦＧＦ、ＳＣＦ、ＨＧＦ、ＴＧＦ、ＴＮＦ、インスリン、ＩＧＦ、ＬＩＦ、オンコスタチン、ＣＳＦ等のいずれか）、免疫モジュレータ、ペプチドホルモン、サイトカイン、インテグリン、インターロイキン、接着分子、血液凝固調節性分子、プロテアーゼ阻害剤、アンジオスタチン、デフェンシン、分化抗原のクラスター、インターフェロン、ケモカイン、感染性ウイルスおよび有機体由来のものを含む抗原、ガン遺伝子産物、トロンボポイエチン、エリスロポイエチン、組織プラスミノーゲンアクチベータならびに、臨床、診断もしくは獣医環境で使用するのが望ましい任意の他の生物学的に活性なタンパク質があげられる。これらのタンパク質は全て、（例えば、例示となるアミノ酸配列により）文献において十分規定されており、本願明細書においてそのように規定されている。このようなタンパク質の欠失変異体、このようなタンパク質の個々のドメイン、このようなタンパク質から形成された融合タンパク質およびこのようなタンパク質の混合物も含まれる。

配列同一性：本願明細書で使用する時、２つの核酸またはポリペプチド配列の文脈における「配列同一性」または「同一性」の用語は、特定の比較ウインドウにわたる最大対応について整列された場合に同じである、前記２つの配列における残基を意味し得る。

本願明細書で使用する時、「配列同一性の割合」の用語は、比較ウインドウにわたる、２つの最適に整列された配列（例えば、核酸配列およびアミノ酸配列）を比較することにより決定された値を意味し得る。この場合、前記比較ウインドウにおける前記配列の一部は、前記２つの配列の最適なアライメント用の、（付加または欠失を含まない）参照配列と比較した場合、付加または欠失（すなわち、ギャップ）を含み得る。前記割合は、同一のヌクレオチドまたはアミノ酸の残基が両方の配列に生じる位置の数を決定して、マッチした位置の数を算出し、前記マッチした位置の数を、前記比較ウインドウにおける位置の総数で割り、その結果に１００を掛けて、配列同一性の割合を算出することにより算出される。

具体的な実施形態では、核酸コード配列は、配列同一性を決定するために比較され得る。これらおよび他の実施形態では、コード配列は、付加または欠失（すなわち、ギャップ）を許容することなく整列され得る。

比較のために配列を整列させるための方法は、当分野において周知である。種々のプログラムおよびアライメントアルゴリズムは、例えば、Smith and Waterman (1981) Adv. Appl. Math. 2:482；Needleman and Wunsch (1970) J. Mol. Biol. 48:443；Pearson and Lipman (1988) Proc. Natl. Acad. Sci. U.S.A. 85:2444；Higgins and Sharp (1988) Gene 73:237-44；Higgins and Sharp (1989) CABIOS 5:151-3；Corpet et al. (1988) Nucleic Acids Res. 16:10881-90；Huang et al. (1992) Comp. Appl. Biosci. 8:155-65；Pearson et al. (1994) Methods Mol. Biol. 24:307-31；Tatiana et al. (1999) FEMS Microbiol. Lett. 174:247-50に記載されている。配列アライメント法および相同性算出の詳細な考察は、例えば、Altschul et al. (1990) J. Mol. Biol. 215:403-10に見出され得る。または、比較のための配列の最適なアライメントは、バイオインフォマティックソフトウェアのＬＡＳＥＲＧＥＮＥ（商標）スイーツにおけるＭＥＧＡＬＩＧＮ（商標）プログラム（ＤＮＡＳＴＡＲ，Ｉｎｃ）を使用し、デフォルトパラメータを使用して行われ得る。このプログラムは、下記の参考文献に記載された複数のアライメントスキームを具体化する。Dayhoff (1978) A model of evolutionary change in proteins - Matrices for detecting distant relationships. In Dayhoff (ed.) Atlas of Protein Sequence and Structure, National Biomedical Research Foundation, Washington D.C. Vol. 5, Suppl. 3, pp. 345 358；Hein (1990) Methods Enzymol. 183:626-45；上記Higgins and Sharp (1989)； Myers and Muller (1988) CABIOS 4:11-7；Robinson (1971) Comb. Theor 11:105；Santou and Nes (1987) Mol. Biol. Evol. 4:406-25；Sneath and Sokal (1973) Numerical Taxonomy--the Principles and Practice of Numerical Taxonomy, Freeman Press, San Francisco, Calif.；および、Wilbur and Lipman (1983) Proc. Natl. Acad. Sci. USA 80:726-30。

ＮＣＢＩ基礎局所アライメント検索ツール（ＢＬＡＳＴ（商標）；Altschul et al. (1990)）は、複数の配列分析プログラムと共に使用するために、複数のソース、例えば、ＮＣＢＩ（Ｂｅｔｈｅｓｄａ，ＭＤ）から、および、インターネット上で利用可能である。このプログラムを使用する配列同一性の決定方法の説明は、ＢＬＡＳＴ（商標）についての「ｈｅｌｐ」セクションに基づいて、インターネット上で利用可能である。核酸配列の比較のために、ＢＬＡＳＴ（商標）（Ｂｌａｓｔｎ）プログラムの「Ｂｌａｓｔ２配列」機能が、デフォルトパラメータに設定されたデフォルトＢＬＯＳＵＭ６２マトリクスを使用して使用され得る。参照配列に対するさらに大きな類似性を有する核酸配列は、この方法により評価された場合、大きな割合の同一性を示すであろう。

合成：本願明細書で使用する時、ヌクレオチド配列（または、合成ヌクレオチド配列を含む核酸分子）に対する言及において、「合成」の用語は、例えば、所望のコードされたポリペプチドを発現させる目的で、（例えば、ｉｎｓｉｌｉｃｏにおいて）設計された配列を意味する。「合成ヌクレオチド」の用語は、遺伝子合成の当業者に公知のｉｎｖｉｔｒｏもしくはｉｎｖｉｖｏにおける方法により、または、ｉｎｖｉｔｒｏもしくはｉｎｖｉｖｏにおける方法の組み合わせにより、化学的に合成されたオリゴヌクレオチドによる核酸分子の製造の生成物も含む。

ＩＶ．アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列
この開示は、分岐したコドン最適化核酸配列を設計するための方法を提供する。一部の実施形態では、本発明の方法は、所望のポリペプチドをコードする核酸配列を設計するために使用され得る。この場合、前記所望のポリペプチドは、少なくとも１つのアミノ酸繰り返し領域を含む。特定の実施形態では、前記所望のポリペプチドは、複数のアミノ酸繰り返し領域を含み得る。各アミノ酸繰り返し領域は、１つまたはそれ以上のアミノ酸繰り返し単位を含み得る。本発明の方法により設計された分岐したコドン最適化核酸配列を含む配列によりコードされたポリペプチドは、一部の実施形態では、例えば、長さが１０から３００個のアミノ酸のアミノ酸繰り返し領域を含み得る。実施形態において、本発明の使用は、アミノ酸繰り返し領域を含むポリペプチドをコードする合成ヌクレオチド配列に通常関連する特定の問題を回避する。一部の実施形態では、開示された方法の使用により回避される問題は、転写物の不安定性；異種遺伝子の不安定性；比較的低い発現；非効率な遺伝子合成；および、非効率な遺伝子配列決定を含み得る。

一部の実施形態では、核酸分子のコード領域のみが、本開示に基づく方法を使用して設計される。ただし、一部の実施形態では、上流、下流またはコード配列（例えば、イントロン）内のいずれかに、特定の非コード配列を含むのが望ましい場合がある。したがって、一部の実施形態では、記載された合成コード配列を含む核酸分子に含まれる任意の非コード配列の配列は、本開示の方法に考慮され得る。

一部の実施形態では、少なくとも１つのアミノ酸繰り返し単位を含むポリペプチドをコードする合成核酸配列が提供される。所望のポリペプチドをコードする分岐したコドン最適化核酸配列を設計するための方法は、一般的には、発現された所望のポリペプチドまたは遺伝子産物により開始する。または、前記方法は、公知または未知の機能を有する遺伝子または核酸配列により開始してもよい。例えば、前記方法は、ポリペプチドを発現するために、例えば、前記核酸配列によりコードされたポリペプチドの機能を研究するために、合成核酸配列を設計するために使用され得る。一部の実施形態では、所望のポリペプチドは、所望の参照アミノ酸配列、例えば、参照タンパク質または参照タンパク質ドメインを設計し、または、同所望の参照アミノ酸配列から派生され得る。他の実施形態では、所望のポリペプチドは、例えば、特定のアミノ酸配列を有する分子について期待された特定の生化学的または生物物理学的特徴を取得するために、または、所望の活性についてスクリーニングされた分子を取得するために、新たに設計され得る。実施形態において、分岐したコドン最適化核酸配列は、所望の任意のポリペプチドの全部または一部をコードするように設計され得る。

本発明の方法は、当業者に公知の各種の理由、例えば、発現を向上させる、発現される核酸配列を新たな宿主細胞または有機体に適合させる、ならびに、機能性および／または非機能性の変異を、コードされたポリペプチド内に導入するために、合成核酸配列を設計するために使用され得る。典型的には、参照アミノ酸配列が天然由来の遺伝子産物または天然由来の遺伝子産物の一部（例えば、単離されたタンパク質ドメイン）である実施形態では、前記参照アミノ酸配列をコードする天然由来の核酸配列が、例えば、ゲノムデータベースを検索するか、または、ソースゲノムからクローニングすることにより取得され得る。多くの場合、このような核酸配列のホモログまたはオルソログも、他の有機体のゲノムに見出され得る。実施形態において、所望のポリペプチドの全部または一部をコードする分岐したコドン最適化核酸配列は、任意の参照ポリペプチドをコードする配列を設計し、または、同配列から派生され得る。具体的な実施形態では、前記参照ポリペプチドおよび前記所望のポリペプチドは、少なくとも１つのアミノ酸繰り返し領域を含む。

一部の実施形態では、開示された方法は、コードされたポリペプチドの一次構造が非電荷であるように、合成核酸分子におけるヌクレオチド配列の最適化を含む。前記コードされたポリペプチドの構造は、前記ポリペプチドのアミノ酸配列により、最も広い範囲に対して決定される。したがって、コードされたポリペプチドについての所望の構造は、遺伝情報および標準的なコドン利用の縮重により決定されるそのヌクレオチドコード配列における制限を設ける。本発明の特定の実施形態では、合成核酸分子は、前記核酸分子が、所望のポリペプチドの全部または一部（例えば、アミノ酸繰り返し領域）をコードするコドンスペースから選択された特定の分岐したコドン最適化配列を含むように、ｉｎｓｉｌｉｃｏにおいて設計され得る。選択された特定の配列の包含は、アミノ酸繰り返しドメインを含むポリペプチドをコードするヌクレオチド配列に関連する特定の問題を回避することができ、例えば、発現宿主有機体のコドン利用バイアスに対する言及によりほとんどコドン最適化されていない配列と比較した場合、１つまたはそれ以上の所望の特性（例えば、向上した発現）を達成することができる。

一部の実施形態では、ついで、前記所望のポリペプチドのアミノ酸繰り返し領域をコードする核酸配列は、それぞれ、前記所望のタンパク質全体をコードする核酸配列から、別々の配列として抽出され得る。前記抽出された配列は、コドン最適化ヌクレオチド配列のセット；例えば、前記所望のポリペプチドのアミノ酸繰り返し領域をそれぞれコードするヌクレオチド配列のセットを設計するために使用され得る。ついで、前記コドン最適化ヌクレオチド配列のセットは、分岐したコドン最適化ヌクレオチド配列を設計するために使用され得る。各種の要因が、コドン最適化ヌクレオチド配列が設計される際に考慮され得る。これらの要因は、発現宿主有機体のコドン利用バイアスを含み得る。

各種の方法が、所定のパラメータに基づいて、核酸分子のコード配列（例えば、所望のポリペプチドにおけるアミノ酸繰り返し領域をコードするヌクレオチド配列）を最適化するために、当業者に利用可能である。例えば、当業者は、例えば、発現宿主有機体のコドン利用バイアスにより良好に一致させる精査により、コード配列を最適化し得る。より一般的には、コンピュータで実行されるソフトウェアプログラムが、コード配列を最適化するために使用され得る。このようなソフトウェアプログラムは、所望のコードされたポリペプチドの発現に影響を及ぼし得る要因、転写物の翻訳開始の速度に影響を及ぼし得る要因および前記コードされたポリペプチドまたはその前駆体の翻訳伸長の速度に影響を及ぼし得る要因を含む群から選択される要因を最適化する、１つまたはそれ以上のアルゴリズムを含み得る。このようなソフトウェアプログラムの具体的な例としては、制限されず、ＯＰＴＧＥＮＥ（商標）（ＯｃｉｍｕｍＢｉｏｓｏｌｕｔｉｏｎｓ）、ＡｃｃｅｌｒｙｓＧＣＧ（商標）（ＡｃｃｅｌｒｙｓＳｏｆｔｗａｒｅ，Ｉｎｃ．）、ＯＰＴＩＭＩＺＥＲ（商標）（genomes.urv.es/OPTIMIZERにおいてワールドワイドウェブ上で公衆に利用可能）およびＯＰＴＩＭＵＭＧＥＮＥ（商標）（ＧｅｎＳｃｒｉｐｔ）があげられる。

一部の実施形態では、所望のポリペプチドのアミノ酸繰り返し領域をそれぞれコードする抽出された配列は、まず、前記抽出された配列（例えば、ｉｎｓｉｌｉｃｏ翻訳）によりコードされるアミノ酸配列を推測することにより、コドン最適化され得る。更なる実施形態では、アミノ酸繰り返し領域のアミノ酸配列は、コドン最適化核酸配列を取得するために直接使用され得る。具体的な実施形態では、（核酸配列から推測されたか、または、直接提供されたかどうかに関わらず）各アミノ酸繰り返し領域のアミノ酸配列は、アミノ酸繰り返し領域をコードするコドン最適化核酸配列（例えば、ｉｎｓｉｌｉｃｏ逆翻訳）を、例えば、所定のパラメータに基づいてコード配列を最適化可能なコンピュータで実行されるソフトウェアプログラムを使用することにより推測するために使用され得る。特定の例では、コドン最適化核酸配列は、発現宿主有機体についての、標準的な遺伝情報および適切なコドン利用バイアステーブルを使用して推測され得る。一部の実施形態では、各アミノ酸繰り返し領域をコードする複数のコドン最適化核酸配列を推測するのが望ましい場合がある。このため、具体的な例では、１つのアミノ酸繰り返し領域は、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０またはそれ以上のアミノ酸繰り返し領域をコードするコドン最適化核酸配列のセットを推測するために使用され得る。一部の実施形態では、前記アミノ酸繰り返し領域をコードする推測されたコドン最適化核酸配列は、コンピュータで実行されるソフトウェアプログラムによるテキストファイル内にエクスポートされることができ、または、その他の方法で実務家用に記録されることができる。例えば、コンピュータで実行されるソフトウェアプログラムは、１つのアミノ酸繰り返し領域をコードする推測されたコドン最適化核酸配列のセット全体についての対応する数のテキストファイル内にエクスポートされてもよい。

一部の実施形態では、アミノ酸繰り返し領域をコードする前記推測されたコドン最適化核酸配列は、配列相同性により整列され得る。具体的な例では、所望のポリペプチドの類似するアミノ酸繰り返し領域の全てに対応する推測されたコドン最適化核酸配列の全セットにおける各配列は、互いに全て整列される。このため、１０個のコドン最適化核酸配列それぞれが推測されるための、類似の繰り返しとして特定される１０個の領域を有するポリペプチドは、１００個の核酸配列のアライメントにより、設計方法のこの段階において提供され得る。具体的な例では、前記推測されたコドン最適化核酸配列は、タンパク質コード領域のセグメントに対応する。前記アライメントは、許容される「ギャップ」を含まずに行われ得る。

一部の実施形態では、推測されたコドン最適化核酸配列は、コンピュータで実行されるソフトウェアプログラム（例えば、ＣＬＵＳＴＡＬＷ（商標）Ｍｅｇａ３．１；www.megasoftware.net/において利用可能）を使用して整列され得る。前記推測された配列のアライメント中または同アライメント後に、アルゴリズム（例えば、ＣＬＵＳＴＡＬ（商標）アルゴリズム）は、当業者に公知の方法により、近隣結合ツリーを構築し得る。

具体的な実施形態では、近隣結合ツリーは、所望のポリペプチドにおけるアミノ酸繰り返し領域用の特定の分岐したコドン最適化核酸配列を選択するために使用され得る。一部の実施形態では、前記特定の分岐したコドン最適化核酸配列は、具体的なアミノ酸繰り返し領域に対応する推測されたコドン最適化核酸配列のセットから選択され得る。他の実施形態では、近隣結合ツリーは、所望のポリペプチドにおける各アミノ酸繰り返し領域用の特定の分岐したコドン最適化核酸配列を選択するために使用され得る。具体的な例では、具体的なアミノ酸繰り返し領域に対応する前記推測されたコドン最適化核酸配列のセットの１つは、最も深く分岐した前記近隣結合ツリーのセクションから選択される。前記選択された配列は、分岐したコドン最適化核酸配列である。

前述に基づいて、本発明の方法は、所望のポリペプチドにおけるアミノ酸繰り返し領域をコードする、１つの分岐したコドン最適化核酸配列を提供するために使用され得る。具体的な例では、方法は、１つの分岐したコドン最適化核酸配列のセットを提供するために使用され得る。そのそれぞれは、所望のポリペプチドの異なるアミノ酸繰り返し領域をコードする。例えば、１つの分岐したコドン最適化核酸配列のセットは、所望のポリペプチドにおけるアミノ酸繰り返し領域のそれぞれまたは全てが、同じものをコードする１つの分岐したコドン最適化核酸配列により表されるように提供され得る。

一部の実施形態では、アミノ酸繰り返しドメインをコードする、選択された分岐したコドン最適化核酸配列は、前記選択された分岐したコドン最適化核酸配列が、前記所望のポリペプチド全体をコードする最適化された核酸配列における具体的な繰り返しについての適切な位置に包含され、一方、前記所望のポリペプチドについての正確な読み枠が維持されるように、所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。例えば、所望のポリペプチドの異なるアミノ酸繰り返し領域それぞれをコードする１つの分岐したコドン最適化核酸配列のセットの全メンバーは、前記セットの全メンバーが、所望のポリペプチドの配列全体における特定の繰り返しについてのその正確な位置において包含されるように、前記所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。具体的な例では、所望のポリペプチドのアミノ酸繰り返しのそれぞれおよび全部を提供するセットにおける全ての分岐した１つのコドン最適化核酸配列は、前記配列における特定の繰り返しについてのその正確な位置において前記所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。このため、本発明の一部の実施形態は、所望のポリペプチドをコードする合成核酸配列を産生するために使用され得る。この場合、前記ポリペプチドの全アミノ酸繰り返し領域は、分岐したコドン最適化核酸配列によりコードされる。

多くの実施形態では、最適化されたポリペプチドをコードする核酸配列全体が望ましくあり得る。さらに、所望のポリペプチドをコードする配列を含む核酸分子の非コード領域が最適化され得る。このため、本発明は、一部の実施形態では、所望のポリペプチドをコードする最適化された配列を含む合成核酸分子も含む。この場合、前記最適化された配列は、先に説明されたように、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む。前記核酸配列の最適化は、外来タンパク質を産生する宿主の能力を改善する工程、および、発現構築物の効率的な設計および構築において研究者を補助する工程を含み得る。最適化戦略は、例えば、翻訳開始領域の修飾、ｍＲＮＡ構造エレメントの変異および異なるコドンバイアスの使用を含み得る。

当業者に利用可能な任意の方法は、所定のパラメータに基づいて、核酸配列（例えば、所望のペプチドのアミノ酸繰り返し領域をコードするヌクレオチド配列）を最適化するために使用され得る。例えば、ソフトウェアプログラム、例えば、制限されず、ＯＰＴＧＥＮＥ（商標）（ＯｃｉｍｕｍＢｉｏｓｏｌｕｔｉｏｎｓ）、ＡＣＣＥＬＲＹＳＧＣＧ（商標）（ＡｃｃｅｌｒｙｓＳｏｆｔｗａｒｅ，Ｉｎｃ．）、ＯＰＴＩＭＩＺＥＲ（商標）（genomes.urv.es/OPTIMIZERにおいてワールドワイドウェブ上で公衆に利用可能）およびＯＰＴＩＭＵＭＧＥＮＥ（商標）（ＧｅｎＳｃｒｉｐｔ）が使用され得る。核酸配列（例えば、所望のポリペプチドをコードするヌクレオチド配列）の最適化中に考慮され得る要因は、制限されず、所望のコードされたポリペプチドの発現に影響を及ぼし得る要因；転写物の翻訳開始の速度に影響を及ぼし得る要因；および前記コードされたポリペプチドまたはその前駆体の翻訳伸長の速度に影響を及ぼし得る要因を含み得る。コドン最適化配列のセットを設計する間に考慮されるこれらの要因の選択は、当業者の裁量内である。

核酸配列によりコードされる前記所望のポリペプチドの発現に影響を及ぼし得る要因は、前記ポリペプチドのアミノ酸をコードするために選択された具体的なコドンにより影響を受け得る。テンプレート核酸配列からのｍＲＮＡの産生速度に影響を及ぼす要因は、転写に使用されるＲＮＡポリメラーゼの種類；発現系に存在するＲＮＡポリメラーゼレベル；および、使用される転写プロモータ配列を含み得る。前記ｍＲＮＡレベルは、ｍＲＮＡの分解速度によっても影響を受け得る。次に、前記ｍＲＮＡの分解速度は、ｍＲＮＡ不安定化モチーフ；ＲＮＡｓｅ認識配列；ｍＲＮＡ二次構造；およびポリＡ付加シグナルにより影響を受け得る。前記ｍＲＮＡレベルは、翻訳開始部位、リボソーム結合部位、開始コドンおよび／またはコード配列の最初の１０−５０コドン（または、オープンリーディングフレーム内もしくは同フレーム後のどこか）におけるｍＲＮＡの構造；前記オープンリーディングフレーム前もしくは同フレーム内に存在する転写終了モチーフ；ならびに、転写された配列、例えば、ｍＲＮＡスプライシングおよび／または核外移行を方向付けし、変更し、または、修飾するもの内のシグナルによっても影響を受け得る。テンプレート配列からのｍＲＮＡ産生の速度に影響を及ぼす要因の具体的な例は、ヌクレオチド繰り返し誘導ポリメラーゼスリッページである。ヌクレオチド繰り返し誘引ポリメラーゼスリッページは、フレームシフト変異をもたらし得るＤＮＡポリメラーゼのスリッページまたはスタッタリングを引き起こすことが示されてきたヌクレオチド配列繰り返しを含む。このようなヌクレオチド繰り返しも、ＲＮＡポリメラーゼのスリッページを引き起こし得る。例えば、高いＧ＋Ｃ含量バイアスを有する有機体において、より高い度合いのＧまたはＣのヌクレオチド繰り返しが存在し得る。したがって、ＲＮＡポリメラーゼスリッページを誘導する可能性を低下させる１つの方法は、ＧまたはＣヌクレオチドの伸長された繰り返しを変化させることを含む。

特定の転写物についての翻訳開始の速度に影響を及ぼし得る要因としては、リボソーム結合部位の配列；前記リボソーム結合部位の上流の配列；開始コドン周囲の配列（例えば、Ｋｏｚａｋコンセンサス配列）；内部リボソーム進入部位の存在、相対位置および配列；前記リボソーム進入部位（または前記リボソーム結合部位またはｍＲＮＡの５’末端）と開始コドンとの間の配列および距離；翻訳開始部位におけるｍＲＮＡの構造；前記リボソーム結合部位におけるｍＲＮＡの構造；前記開始コドンにおけるｍＲＮＡの構造；コード配列の最初の１０−５０コドン周囲のｍＲＮＡの構造；最初の１０−２０コドンの配列；前記最初の１０−２０コドンのＧＣバイアス；前記開始コドンに隣接するコドンにおいて使用されるコドン；前記開始コドンの配列（ＡＵＧ、ＵＵＧまたはＧＵＧ）：リボソーム濃度；発現誘導前の増殖条件；発現中の増殖条件；発現誘導前の温度；ならびに発現中の温度があげられる。

特定の転写物についての翻訳開始の速度に影響を及ぼし得る要因の具体例としては、交互の翻訳開始および干渉ｍＲＮＡの二次構造があげられる。交互の翻訳開始は、リボソーム結合部位（ＲＢＳ）として機能し得る１つ以上のモチーフを不注意に含む合成ポリヌクレオチド配列において起こり得る。これらの部位は、遺伝子内部位からのトランケートタンパク質の翻訳の開始をもたらし得る。精製中に除去するのを困難にし得る、トランケートタンパク質を産生する可能性を低下させる１つの方法は、最適化されたポリヌクレオチド配列からの推定の内部ＲＢＳ配列を修飾する工程を含む。干渉二次構造は、前記ＲＢＳ配列または開始コドンを隔離することができ、タンパク質発現の低下に相関している。ステム−ループ構造も、転写停止および転写減衰に関与し得る。このため、最適化されたポリヌクレオチド配列は、改善された転写および翻訳を可能にするために、ヌクレオチド配列の前記ＲＢＳおよび遺伝子コード領域における最少二次構造を含み得る。

翻訳伸長の速度に影響を及ぼし得る要因は、荷電したｔＲＮＡのレベルを含む（Elf et al. (2003) Science 300:1718-22）。前記レベルは、ｔＲＮＡ濃度、ｔＲＮＡの荷電割合およびアミノ酸利用性により決まる。例えば、宿主有機体のコドン利用バイアスに基づくレア（または好ましくない）コドンにより引き起こされる翻訳停止は、異種タンパク質の発現速度を低下させ得る。レアコドン誘導翻訳停止は、前記宿主有機体においてほとんど使用されず、利用可能なｔＲＮＡプールにおけるその不足により、タンパク質翻訳にネガティブな作用を有し得る所望のポリヌクレオチドにおけるコドンの存在を含む。これらの要因は、リボソームｔＲＮＡ選択の速度（デコード速度）も含む。前記速度は、コドン−アンチコドン相互作用の強度；先行コドン（Ｐ−部位コドン）；前記先行コドンの揺らぎ塩基；読まれたコドンの揺らぎ塩基により決まる。リボソームフィデリティに影響を及ぼし得る要因は、リボソームフレームシフト、例えば、ホモポリマーストレッチ、Ｇ／Ｃアイランド、Ａ／Ｔアイランドおよび停止位置近くのホモポリマーストレッチに影響を及ぼすものを含む。さらに、一部のポリペプチドは、リボソーム出口チャネルに妨害され得る。前記妨害は、前記ポリペプチドにおける最初の１０−２０アミノ酸の配列によりある程度決まる。前述を考慮して、宿主有機体における最適な翻訳を改善する１つの方法は、合成核酸配列において修飾されるレア宿主コドンをもたらし得るコドン最適化を行う工程を含む。

（間接的であるにも関わらず）異種タンパク質発現に影響を及ぼし得る別の分類の核酸配列エレメントは、制限部位を含む。このため、核酸配列の最適化は、例えば、宿主発現ベクター内の転写ユニットのその後のサブクローニングと干渉し得る制限部位の修飾を含み得る。

核酸配列の全部または一部は最適化され得る。一部の例では、発現の所望の調節は、遺伝子全体を本質的に最適化することにより達成され得る。他の例では、所望の調節は、遺伝子の全てではないが最適部により達成され得る。さらに、任意のコード配列のコドン利用は、所望の特性、例えば、特定の発現宿主細胞における高レベルの発現を達成するために調節され得る。このような最適化のための開始点は、前記発現宿主のコドン利用バイアス、または、共通および非共通のコドンの混合物を含むコード配列に基づいて、共通して使用されるか、または、好ましいコドンのみからなるコード配列であり得る。核酸配列を最適化することは、遺伝子発現またはタンパク質産生に、ネガティブまたはポジティブに影響を及ぼし得る。例えば、レアコドンまたは好ましくないコドンをより共通したコドンにより置き換えることは、前記置き換えられたコドンを含む配列から転写されたｍＲＮＡ分子の半減期に影響を及ぼす場合があるか、または、その翻訳と干渉する二次構造を導入することによりその構造を変化させる場合がある。したがって、特定の例では、最適化された配列をさらに変化させる必要がある場合がある。

一部の実施形態内では、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む合成核酸配列は、２つまたはそれ以上の最適化された配列を含み得る。例えば、このような配列は、本願明細書に記載された複数のポリペプチドを含むか、または、本願明細書に記載された少なくとも１つのポリペプチドおよび関連しない配列を含む融合ポリペプチドをコードし得る。融合ポリペプチドは、両コンポーネントポリペプチドの少なくとも１つの生物学的活性を保持する１つの融合ポリペプチドへの翻訳を許容するように、標準的な技術、例えば、化学的なコンジュゲートを使用して調製され得る。ペプチドリンカー配列は、各ポリペプチドが適切な二次および三次構造にフォールドするのを確保するのに十分な距離により、融合ポリペプチドのポリペプチドコンポーネントを分離するために使用され得る。このようなペプチドリンカー配列は、当分野において周知の標準的な技術を使用して、前記融合ポリペプチド内に包含され得る。

アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む合成核酸配列は、例えば、組換えポリペプチドを産生し、新たな発現系を開発し、他の核酸配列のそれと発現特性を比較するための各種の用途における使用、ならびに、診断用途のために発現され得る。

Ｖ．分岐したコドン最適化核酸配列の発現
本開示は、細胞の細胞質および／または周辺質におけるアミノ酸繰り返しを含む所望のポリペプチドを製造する方法を提供する。一部の実施形態は、宿主有機体（例えば、細菌宿主有機体）における異種発現に最適化された合成核酸配列を使用する。アミノ酸繰り返し領域を含むポリペプチドをコードする最適化された合成核酸配列は、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含み得る。具体的な実施形態では、このような最適化された合成核酸配列は、発現ベクター内にライゲーションされ得る。前記最適化された核酸配列を含む発現ベクターは、（例えば、形質転換により）発現宿主細胞内に導入され得る。この場合、ポリペプチドは、前記最適化された合成核酸配列から発現される。

所望のポリペプチドをコードする合成核酸配列を含む核酸分子は、当業者に公知の方法により製造され得る。例えば、一部の実施形態では、所望の核酸配列の比較的短いセグメントが、確かに合成され、続けて、濃縮され得る。ＤＮＡ合成の分野における進歩は、より長い核酸配列および比較的より短い核酸セグメントの確かな合成を可能にしてきた。合成技術は、３００塩基以上の合理的に正確なオリゴヌクレオチド合成を可能にする。このため、一部の実施形態では、より長い配列が、濃縮が必要とされ得ないように合成され得る。しかしながら、合成の化学的に製造されたオリゴヌクレオチドは、典型的には、長さが２０と１００ｂｐとの間である。一部の実施形態では、合成遺伝子または遺伝子フラグメントは、最終的な所望の配列をコードするように設計された、合成的に変異し、オーバーラップしたセンスおよびアンチセンスのオリゴマー（例えば、長さが９０−１１０ｂｐ）のアニーリングおよび伸長による段階的な方法におけるＰＣＲを使用して調製され得る。

オリゴヌクレオチド製造は、固相合成としてのホスホルアミダイトプロトコルにより行われるオリゴ合成を含み得る。簡潔に、５’−Ｏ−ジメトキシトリチル（ＤＭＴ）基により保護されたその５’−ＯＨ官能基を有する第１のヌクレオチドが、固相としてのポリスチレンビーズに結合され得る。次に、前記ＤＭＴ基が、酸処理により除去されて、遊離した５’−ＯＨ基を生じ得る。ついで、選択肢のホスホルアミダイトが添加され、弱酸性条件において、反応性の中間体に変換され、前記遊離した５’−ＯＨに結合され、新たな亜リン酸結合を産生し得る。これらの反応は、テトラヒドロフランまたはジメチルスルホキシドにおいて行われ得る。前記添加されたヌクレオチドの５’−ＯＨが保護されたままである場合、１つのヌクレオチドのみが、伸長中の鎖に付加される。反応しない５’−ＯＨ基は、それらが、合成プロセスに加わり続け、欠失を含むオリゴヌクレオチドを生成し得ないように、キャップされ得る。これは、酢酸および１−メチルイミダゾールによる処理後のアセチル化により達成され得る。最終的に、水およびヨウ素が、前記亜リン酸結合をホスホジエステル結合に酸化するために添加され得る。工程間において、前記製造システムは、適切な溶媒による洗浄により調節され得る。必要に応じてこの一連の工程を繰り返した後、前記オリゴヌクレオチドは、最終的に、カラムから開裂され、高温において水酸化アンモニウムにより処理されて、全ての残った保護基を除去し得る。このプロセスは、例えば、ＮＩＭＢＬＥＧＥＮ（商標）（Ｆｅｂｉｔ，Ｇｅｒｍａｎｙ）により提供された、フォトリソグラフィーアプローチの使用により、より効率的になされ得る。

短いオリゴヌクレオチドが固体合成により製造された後に、前記オリゴヌクレオチドは、例えば、約５００ｂｐのサイズに、より大きなＤＮＡフラグメントへとアッセンブリされ得る。これは、典型的には、各種の酵素支援法の１つにより達成される。例えば、短いオーバーラップしたオリゴヌクレオチドペアは、より長いｄｓＤＮＡ分子を、Ｋｌｅｎｏｗ伸長反応を介して生成するために使用され得る。対応するオリゴヌクレオチドは、混合され、ハイブリダイズされ、ついで、ＰＣＡによりより長いアッセンブリに変換され得る。ＰＣＡ反応において、標的二本鎖ＤＮＡフラグメントを共に表す全てのオリゴヌクレオチドが存在する。融解および再ハイブリダイゼーションが繰り返されることにより、前記オリゴヌクレオチドは、特定の集合が所望の長さに達するまで、より長いセクションに段階的に伸長される。この反応が、過剰の末端オリゴヌクレオチドを含まずに行われるため、増幅反応ではないことに留意する。むしろ、全ての全長フラグメントは、オリゴヌクレオチドおよびその伸長からなることにより、ポリメラーゼ作用によるエラーを導入する機会を低下させる。ＰＣＡに対する別の方法は、ポリメラーゼアセンブリ多重化（ＰＡＭ）である。この場合、末端プライマーが、前記オリゴヌクレオチドの特定の部分集合のみが増幅されるように、オリゴヌクレオチドのプールに添加される。ＰＡＭ反応の第２ラウンドにおいて、複数のオリゴヌクレオチドは、プライマーの新たなセットを使用することにより、１つのＤＮＡ分子に組み換えられ得る。

大きなオリゴヌクレオチド（例えば、ＰＣＡ、ＰＭＡ等により製造されたオリゴヌクレオチド）は、例えば、制限消化およびライゲーションにより、さらにより大きなＤＮＡ分子内にアッセンブリされ得る。

各種の発現系が、本発明の最適化された核酸配列からのポリペプチドの発現に使用され得る。一部の実施形態では、発現系は、例えば、制限されず、細菌の発現系、例えば、Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ、Ｓａｌｍｏｎｅｌｌａ種、Ｂａｃｉｌｌｕｓ種、Ｓｔｒｅｐｔｏｍｙｃｅｓ種、Ｐｓｅｕｄｏｍｏｎａｓ種（例えば、Ｐ．ｆｌｕｏｒｅｓｃｅｎｓ）、Ｒａｌｓｔｏｎｉａｅｕｔｒｏｐｈａ、Ｃｈｌａｍｙｄｏｍｏｎａｓ種；酵母の発現系、例えば、Ｓａｃｃｈａｒｏｍｙｃｅｓ、Ｐｉｃｈｉａ、ＫｌｅｂｓｉｅｌｌａおよびＣａｎｄｉｄａ種、Ｓ．ｃｅｒｅｖｉｓｉａｅ、Ｐ．ｐａｓｔｏｒｉｓ、Ｐ．ｍｅｔｈａｎｏｌｉｃａおよびＫ．ｌａｃｔｉｓ；真菌の発現系、例えば、ＣｒｙｐｔｏｓｐｏｒｉｄｉｕｍおよびＴｒｉｃｈｏｄｅｒｍａ種；糸状菌のタンパク質産生系；原生動物の発現系、例えば、ＰｌａｓｍｏｄｉｕｍｆａｌｃｉｐａｒｕｍおよびＬｅｉｓｈｍａｎｉａ；モデル有機体、例えば、Ｃａｅｎｏｒｈａｂｄｉｔｉｓｅｌｅｇａｎｓ、ＤｒｏｓｏｐｈｉｌａｍｅｌａｎｏｇａｓｔｅｒおよびＸｅｎｏｐｕｓｌａｅｖｉｓ；植物、例えば、ダイズ、インゲンマメ、トウモロコシ、綿花、タバコおよびシロイヌナズナ；哺乳類の組織培養発現系、例えば、ＣＯＳ細胞、チャイニーズハムスター卵巣細胞および線維芽細胞、例えば、３Ｔ３細胞；アデノウイルスに感染した細胞株；昆虫細胞株、例えば、バキュロウイルスを増殖させるためのＳｐｏｄｏｐｔｅｒａ種由来のもの；生きた細胞の抽出物、例えば、Ｅ．ｃｏｌｉの抽出物、小麦胚芽抽出物、ウサギの網状芽赤血球ライゼートから調製されたｉｎｖｉｔｒｏ発現系；ならびに、精製された個々の成分のアッセンブリにより調製されたｉｎｖｉｔｒｏ発現系であり得る。

アミノ酸繰り返し領域を含む所望のポリペプチドが原核細胞または発現系において発現される実施形態では、前記所望のポリペプチドをコードする最適化された核酸配列は、まず、原核生物のベクター内に、複製起点および都合の良い制限部位を有するベクターを直線化することによりクローニングされ得る。前記ベクターは、前記核酸配列の挿入用のポリリンカーを含み得る。前記ベクターは、選択用のマーカー遺伝子も有し得る。前記マーカー遺伝子は、抗生物質耐性を付与してもよく、または、別の分別特性（例えば、発色団または蛍光体の形成）を提供してもよい。マーカー支援型選択に使用され得る幅広い各種の抗生剤（例えば、テトラサイクリン、クロラムフェニコール、アクチノマイシン、ネオマイシン、アンピシリン、ヒグロマイシン、重金属等）が存在する。他のマーカーとしては、β−ガラクトシダーゼがあげられる。β−ガラクトシダーゼは、発現された場合、基材であるＸ−ｇａｌを変換して、青色を呈する。数多くのベクターが、細菌におけるクローニング用に市販されており、これらのベクターは、当業者に周知である。一部の実施形態では、ついで、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む１つまたはそれ以上の最適化された合成核酸配列を含む原核生物のベクターは、任意の都合の良い手段、例えば、制限されず、リン酸カルシウム沈殿ＤＮＡ、融合、トランスフェクションおよびコンジュゲーションにより、適切なクローニング宿主内に導入され得る。ついで、前記細胞は、適切な選択栄養培地において増殖され得る。生き残った細胞が、収集、溶解され、プラスミドが単離され得る。

原核生物の発現ベクターは、通常、エピソームメンテナンス用の適切な発現宿主において機能する複製起点および選択用マーカーを有することにより特徴付けられ得る。融合していないベクターまたは構築物について、前記複製起点は、通常、マルチコピー、例えば、平均で少なくとも５つのコピーを提供するであろう。前記発現ベクターは、典型的には、前記発現宿主において機能するプロモータも有するであろう。数多くのプロモータが利用可能であり、具体的なプロモータが、例えば、高レベルの誘導性または構成型のいずれかの転写を提供し得る。一部の実施形態では、有用であり得る例示となるプロモータとしては、制限されず、β−ラクタマーゼ；α−ガラクトシダーゼ；λＰ_ＬもしくはλＰ_Ｒプロモータ；ｔｒｐＥプロモータ；ｔｒｐ−ｌａｃプロモータ；Ｔ７プロモータ（特に、遺伝子９および１０）；ならびに、ｃＩ^ｔｓがあげられる

最適化された配列を含む核酸分子、例えば、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列は、ハイブリダイゼ―ション、例えば、ライゲーションにより、直線化されたベクターと組み合わせられ得る。前記最適化された配列が開始コドンを有さない場合、このようなコドンが追加され得る。一部の実施形態では、核酸分子は、プロモータの転写制御下において、前記ベクター中に（適切な読み枠中に）存在するコード配列内に挿入され得る。シグナル配列は、周辺部空間内におけるポリペプチド産物の分泌を可能にするために、コード配列の５’末端に含まれ得る。一般的には、前記産物は、細胞内で産生されるであろう。

ベクターに代えて、ＤＮＡ構築物が、発現宿主の形質転換に使用され得る。この場合、前記構築物は、前記発現宿主のゲノム内に組み込まれ得る。前記構築物は、エピソームメンテナンスを提供する複製起点を欠く場合がある。構築物は、少なくとも転写および翻訳開始および終了領域を含み得る。アミノ酸繰り返し領域を含むポリペプチドをコードする最適化された配列は、その調節制御下において、開始領域と終了領域との間に位置し得る。構築物は、選択マーカーおよび／または他の機能性配列、例えば、制限されず、前記宿主ゲノム内への組み込み用の相同性配列；ＰＣＲプライマーにハイブリダイズする配列；および制限部位をさらに含み得る。

一部の実施形態では、発現宿主は、植物細胞、例えば、植物の組織培養物または植物全体における植物細胞等であり得る。本発明の実施形態は、任意の組織または、それらが見出される箇所、例えば、制限されず、胚、分裂組織細胞、癒合組織、花粉、葉、葯、根、根冠、花、種子、さや、茎および組織培養物由来の植物細胞を含み得る。本発明の合成の最適化された核酸配列は、適切なベクター内に包含され、当業者に公知の任意の方法により植物細胞内に導入され得る。例えば、核酸分子は、植物細胞内に、例えば、制限されず、ウイルスベクターによるトランスフェクション、プラスミドベクターによる形質転換、エレクトロポレーション（Fromm et al. (1986) Nature 319:791-3）、リポフェクション（Felgner et al. (1987) Proc. Natl. Acad. Sci. USA 84:7413-7）、マイクロインジェクション（Mueller et al. (1978) Cell 15:579-85）、Ａｇｒｏｂａｃｔｅｒｉｕｍ媒介性移行（Fraley et al. (1983) Proc. Natl. Acad. Sci. USA 80:4803-7）、直接的なＤＮＡ取り込みおよび微粒子銃（Klein et al. (1987) Nature 327:70）等の方法により導入され得る。

一部の実施形態では、核酸分子は、（例えば、ナノ粒子銃により）植物細胞の特定部分内に導入され得る。核酸分子が導入され得る植物細胞の特定部分の例としては、制限されず、細胞質、核、液胞膜、プラスチド、エチオプラスト、クロモプラスト、ロイコプラスト、エライオプラスと、プロテイノプラスト、アミロプラスト、クロロプラストおよび二重膜の空洞があげられる。

細胞の形質転換（例えば、植物細胞の形質転換）は、特定の細胞において機能するであろう発現ベクターの構築を含み得る。このようなベクターは、調節エレメント（例えば、プロモータ）の制御下における、または、同エレメントに操作可能に結合された、遺伝子を含むＤＮＡを含み得る。前記発現ベクターは、１つまたはそれ以上のこのような操作可能に結合された遺伝子／調節エレメントの組み合わせを含み得る。前記ベクターは、単独で、または、植物細胞の遺伝材料内に導入遺伝子を包含させるための、本願明細書に記載された形質転換法を使用して形質転換された細胞を提供するための他のプラスミドとの組み合わせで、使用され得るプラスミドの形式であり得る。

植物細胞発現ベクターは、マーカーを含む形質転換細胞が、ネガティブ選択（すなわち、選択マーカー遺伝子を含まない細胞の増殖を阻害すること）、または、ポジティブ選択（すなわち、前記遺伝子マーカーによりコードされた産物についてスクリーニングすること）のいずれかにより回収されるのを可能にする調節エレメント（例えば、プロモータ）に操作可能に結合された、少なくとも１つの遺伝子マーカーを含み得る。植物の形質転換に適した多くの選択性マーカー遺伝子が、形質転換の分野において周知であり、例えば、抗生物質または除草剤であり得る選択的薬剤を代謝的に解毒する酵素をコードする遺伝子、または、阻害剤に非感受性である変異したターゲットをコードする遺伝子を含む。数種類のポジティブ選択法も、当分野において公知である。一部の実施形態では、植物の形質転換に適した選択性のマーカー遺伝子は、植物調節シグナルの制御下におけるネオマイシンホスホトランスフェラーゼＩＩ（ｎｐｔＩＩ）遺伝子（前記遺伝子は、カナマイシンに対する耐性を付与する（例えば、Fraley et al. (1983) Proc. Natl. Acad. Sci. U.S.A. 80:4803を参照のこと。）。）；ヒグロマイシンホスホトランスフェラーゼ遺伝子（前記遺伝子は、抗生物質であるヒグロマイシンに対する耐性を付与する（例えば、Van den Elzen et al. (1985) Plant Mol. Biol., 5:299を参照のこと。）。）；抗生物質に対する耐性を付与する細菌起源のマーカー遺伝子、例えば、ゲンタマイシンアセチルトランスフェラーゼ、ストレプトマイシンホスホトランスフェラーゼ、アミノグリコシド−３’−アデニルトランスフェラーゼおよびブレオマイシン耐性決定遺伝子（Hayford et al. (1988) Plant Physiol. 86:1216；Jones et al. (1987) Mol. Gen. Genet. 210:86；Svab et al. (1990) Plant Mol. Biol. 14:197；およびHille et al. (1986) Plant Mol. Biol. 7:171を参照のこと。）；除草剤、例えば、グリホサート、グルホシネートまたはブロモキシニルに対する耐性を付与するマーカー遺伝子（Comai et al. (1985) Nature 317:741-744；Gordon-Kamm et al. (1990) Plant Cell 2:603-618；およびStalker et al. (1988) Science 242:419-423を参照のこと。）；非細菌起源のマーカー遺伝子、例えば、マウスのジヒドロ葉酸還元酵素、植物の５−エノルピルビルシキメート−３−リン酸合成酵素および植物のアセトラクテート合成酵素（Eichholtz et al. (1987) Somatic Cell Mol. Genet. 13:67；Shah et al. (1986) Science 233:478；およびCharest et al. (1990) Plant Cell Rep. 8:643を参照のこと。）を含み得る。

植物の形質転換に適した別の分類のマーカー遺伝子は、毒性物質、例えば、抗生物質に対する耐性について、形質転換された細胞の直接的な遺伝子選択をするよりもむしろ、推定的に形質転換された植物細胞のスクリーニングを必要とする。これらの遺伝子は、特定の組織における遺伝子の発現の空間パターンを定量化または可視化するために特に有用であり得る。それらは、多くの場合、レポータ遺伝子と呼ばれる。それらが、遺伝子発現の研究用の遺伝子または遺伝子調節配列に融合され得るためである。形質転換された細胞をスクリーニングするために一般的に使用される遺伝子としては、β−グルクロニダーゼ（ＧＵＳ）、β−ガラクトシダーゼ、ルシフェラーゼおよびクロラムフェニコールアセチルトランスフェラーゼがあげられる。Jefferson (1987) Plant Mol. Biol. Rep. 5:387；Teeri et al. (1989) EMBO J. 8:343；Koncz et al. (1987) Proc. Natl. Acad. Sci. U.S.A. 84:131；およびDeBlock et al. (1984) EMBO J. 3:1681を参照のこと。植物組織の破壊を必要としないｉｎｖｉｖｏにおけるＧＵＳ活性を可視化するための方法が利用可能である。Molecular Probes publication 2908 (1993) IMAGENE GREEN（商標）, pp. 1-4；およびNaleway et al. (1991) J. Cell Biol. 115:151。蛍光タンパク質をコードする遺伝子（例えば、ＧＦＰ、ＥＧＦＰ、ＥＢＦＰ、ＥＣＦＰおよびＹＦＰ）は、原核細胞および真核細胞における遺伝子発現用のマーカーとしても使用されてきた。Chalfie et al. (1994) Science 263:802を参照のこと。このため、蛍光タンパク質および蛍光タンパク質の変異は、スクリーニングマーカーとして使用され得る。

植物の発現ベクターに含まれるコード配列の発現は、調節エレメント、例えば、プロモータを含むヌクレオチド配列により駆動され得る。植物細胞において有用な複数種類のプロモータは、形質転換の分野において、現在周知である。同様に、他の調節エレメントが、単独またはこのようなプロモータとの組み合わせにおいて使用され得る。

「プロモータ」の用語は、転写開始から上流にあることができ、ＲＮＡポリメラーゼおよび転写を開始するための他のタンパク質の認識および結合に関与し得るＤＮＡの領域を意味する。「植物プロモータ」は、植物細胞において転写を開始可能なプロモータであり得る。発生制御下におけるプロモータの例としては、特定の細胞、例えば、葉、根、種子、繊維、木質部の導管、仮道管または厚壁において優先的に転写を開始するプロモータがあげられる。このようなプロモータは、「組織好適」と呼ばれる。特定の組織においてのみ転写を開始するプロモータは、「組織特異的」と呼ばれる。「細胞種特異的」なプロモータは、１つまたはそれ以上の器官における特定の細胞種、例えば、根または葉における導管細胞での発現を主に駆動する。「誘導性」プロモータは、環境制御下においてであり得るプロモータである。誘導性プロモータによる転写に影響を及ぼし得る環境条件の例としては、制限されず、嫌気条件または光の存在があげられる。組織特異的、組織好適、細胞種特異的および誘導性のプロモータは、「非構成型」プロモータの分類を構成する。「構成型」プロモータは、ほとんどの環境条件ならびにほとんどの組織および細胞種において活性であり得るプロモータである。

誘導性プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合され得る。場合により、誘導性プロモータは、シグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。前記シグナル配列をコードするヌクレオチド配列は、細胞における発現のための本発明のヌクレオチド配列に操作可能に結合され得る。誘導性プロモータに操作可能に結合されたヌクレオチド配列の転写速度は、誘導剤に対する反応において向上し得る。任意の誘導性プロモータが、本発明において使用され得る。Ward et al. (1993) Plant Mol. Biol. 22:361-366を参照のこと。例示となる誘導性プロモータとしては、制限されず、銅に反応するＡＣＥＩ系由来のもの（Mett et al. (1993) Proc. Natl. Acad. Sci. U.S.A. 90:4567-71）；ベンゼンスルホンアミド除草剤解毒剤に反応するトウモロコシ由来のＩｎ２遺伝子（Hershey et al. (1991) Mol. Gen Genetics 227:229-37；およびGatz et al. (1994) Mol. Gen. Genetics 243:32-8）ならびに、Ｔｎ１０由来のＴｅｔリプレッサ（Gatz et al. (1991) Mol. Gen. Genetics 227:229-37）があげられる。特に有用な誘導性プロモータは、植物が通常反応しない誘導剤に反応するプロモータであり得る。例示となる誘導性プロモータは、ステロイドホルモン遺伝子由来の誘導性プロモータであり得る。その転写活性は、糖質コルチコイドステロイドホルモンにより誘導され得る。Schena et al. (1991) Proc. Natl. Acad. Sci. U.S.A. 88:10421-5。

または、構成型プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合されてもよいし、または、前記構成型プロモータは、細胞における発現のための本発明のヌクレオチド配列に操作可能に結合され得るシグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。種々の構成型プロモータが、本発明に使用され得る。例示となる構成型プロモータとしては、制限されず、植物ウイルス由来のプロモータ、例えば、ＣａＭＶ由来の３５Ｓプロモータ（Odell et al. (1985) Nature 313:810-2）；コメのアクチン遺伝子由来のプロモータ（McElroy et al. (1990) Plant Cell 2:163-71）；ユビキチン（Christensen et al. (1989) Plant Mol. Biol. 12:619-32；およびChristensen et al. (1992) Plant Mol. Biol. 18:675-89）；ｐＥＭＵ（Last et al. (1991) Theor. Appl. Genet. 81:581-8）；ＭＡＳ（Velten et al. (1984) EMBO J. 3:2723-30）およびトウモロコシのＨ３ヒストン（Lepetit et al. (1992) Mol. Gen. Genetics 231:276-85；およびAtanassova et al. (1992) Plant Journal 2(3):291-300）があげられる。ＡＬＳプロモータである、ＢｒａｓｓｉｃａｎａｐｕｓＡＬＳ３の構造遺伝子に対するＸｂａ１／ＮｃｏＩフラグメント５’（または、前記Ｘｂａ１／ＮｃｏＩフラグメントに対するヌクレオチド配列類似性）は、特に有用な構成型プロモータを提供する。国際公開第９６／３０５３０号を参照のこと。

または、組織特異的プロモータが、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合され得る。場合により、前記組織特異的プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に連結され得るシグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。組織特異的プロモータに操作可能に結合された本発明の最適化されたヌクレオチド配列により形質転換された植物は、特定の組織において、排他的または優先的に前記ヌクレオチド配列のタンパク質産物を産生し得る。任意の組織特異的または組織好適プロモータが、本発明に使用され得る。例示となる組織特異的または組織好適プロモータとしては、制限されず、種子好適プロモータ、例えば、ファセオリン遺伝子由来のもの（Murai et al. (1983) Science 23:476-82；および、Sengupta-Gopalan et al. (1985) Proc. Natl. Acad. Sci. U.S.A. 82:3320-4）；葉特異的および光誘導性プロモータ、例えば、ｃａｂまたはルビスコ由来のもの（Simpson et al. (1985) EMBO J. 4(11):2723-9；およびTimko et al. (1985) Nature 318:579-82）；別の特異的プロモータ、例えば、ＬＡＴ５２由来のもの（Twell et al. (1989) Mol. Gen. Genetics 217:240-5）；花粉特異的プロモータ、例えば、Ｚｍ１３由来のもの（Guerrero et al. (1993) Mol. Gen. Genetics 244:161-168)；ならびに、小胞子好適プロモータ、例えば、ａｐｇ由来のもの（Twell et al. (1993) Sex. Plant Reprod. 6:217-224）があげられる。

本発明の最適化されたヌクレオチド配列から発現されたポリペプチドの細胞内区画、クロロプラスト、液胞、ペルオキシソーム、グリオキシソーム、細胞壁もしくはミトコンドリアへの輸送またはアポプラスト内への分泌は、前記ポリペプチドをコードする配列の５’および／または３’領域に、シグナル配列をコードするヌクレオチド配列を操作可能に結合させることにより達成され得る。構造遺伝子の５’および／または３’末端における配列のターゲッティングは、タンパク質合成および前記コードされたタンパク質が最終的に区画化され得る処理中に決定し得る。または、細胞内区画ターゲッティングタンパク質は、所望の分子によりコートされたナノ粒子を所望の細胞内区画に向かわせるために、ナノ粒子に直接的に結合され得る。多くのシグナル配列が当分野において公知である。例えば、Becker et al. (1992) Plant Mol. Biol. 20:49；Close, P. S. (1993) Master’s Thesis, Iowa State University；Knox et al. (1987) Plant Mol. Biol. 9:3-17；Lerner et al. (1989) Plant Physiol. 91:124-129；Fontes et al. (1991) Plant Cell 3:483-496：Matsuoka et al. (1991) Proc. Natl. Acad. Sci. U.S.A. 88:834；Gould et al. (1989) J. Cell. Biol. 108:1657；Creissen et al. (1991) Plant J. 2:129；Kalderon et al. (1984) Cell 39:499-509；およびSteifel et al. (1990) Plant Cell 2:785-793を参照のこと。

前述の観点において、本発明の実施形態に使用するための発現宿主は、単細胞の原核生物または真核生物でもよいが、多細胞生物でもよいことが理解されるであろう。前記発現宿主は、例えば、細菌；藻類；菌類（例えば、酵母）；昆虫細胞；植物細胞（例えば、トウモロコシ、ダイズおよびＢｒａｓｓｉｃａｎａｐｕｓ）；動物細胞；バキュロウイルス；哺乳類の組織培養物；植物の組織培養物および植物全体（例えば、Ｂ．ｎａｐｕｓ）を含む群から選択され得る。前記発現宿主が多細胞生物（例えば、植物）である実施形態では、ベクターまたはＤＮＡ構築物は、前記多細胞生物の１つまたはそれ以上の細胞内に導入され、その中で発現され得る。一部の例では、有機体全体が、導入されたベクターまたはＤＮＡ構築物を含む多細胞生物の１つまたはそれ以上の細胞から産生され得る。例えば、所望の核酸分子により形質転換された植物細胞から植物全体を再生し、その後そのゲノム内に前記核酸分子が組み込まれている植物を選択する方法は、当分野において公知である。

導入されたベクターまたはＤＮＡ構築物を含む発現宿主細胞は、培養（例えば、発酵）において適切な培地中で増殖され得る。前記細胞が適切な密度に増殖された後、前記細胞は、収集され、溶解され得る。発現産物は、物理的および化学的特性に基づいて単離され得る。一部の実施形態では、発現産物は、水性媒体において中程度の温度で不溶性でもよく、または、穏やかに上昇した温度での界面活性剤抽出により精製されてもよい。米国特許第５，２３５，０４１号明細書を参照のこと。適切な方法で、ついで、粗製または精製された発現産物は、その意図した目的に使用され得る。

本発明の実施形態は、所望の任意のポリペプチドの発現を可能にする。一部の例では、前記所望のポリペプチド自体は、塗工（例えば、ポリマー）に望ましくあり得る。他の例では、前記所望のポリペプチドは、更なる望ましいポリペプチド、小分子または他の物質（例えば、酵素）を産生するか、または、前記宿主に所望の表現型を導入するために、前記宿主において発現され得る。具体的な例では、所望のポリペプチドは、前記発現宿主の細胞において通常見出されないタンパク質；農学的遺伝子産物；害虫もしくは疾患に対する耐性を付与するポリペプチド；Ｂａｃｉｌｌｕｓｔｈｕｒｉｎｇｉｅｎｓｉｓのタンパク質；レクチン；ビタミン結合タンパク質（例えば、アビジン）；酵素阻害剤；昆虫特異的ホルモンもしくはフェロモン；特定の有機体に特異的なペプチドもしくはニューロペプチド；毒液；モノテルペン、セスキテルペン、ステロイド、ヒドロキサム酸、フェニルプロパノイド誘導体もしくは他の非タンパク質分子の高度集積を担う酵素；生物学的に活性な分子の修飾、例えば、翻訳後修飾に関与する酵素（例えば、オメガ−３脂肪酸合成に関与する酵素）；シグナル形質導入分子もしくはシグナル形質導入を刺激する分子（例えば、カルモジュリン）；疎水性移動ペプチド；膜透過酵素；トランスポータもしくはチャネル；チャネルフォーマもしくはチャネルブロッカ；ウイルス侵入タンパク質もしくはそれから誘導された複合毒素；抗体もしくは免疫毒素（例えば、ウイルス特異的抗体）；発生停止タンパク質；除草剤、抗カビ剤もしくは他の有害な小分子に対する耐性を付与するポリペプチド；足場タンパク質；ならびに、特定の機能（アミノ酸繰り返し領域に起因する機能、例えば、結合特性または物理特性）を有するように設計された合成ポリペプチドであり得る。一部の実施形態では、所望のポリペプチドは、天然由来が適切であり得る。他の実施形態では、所望のポリペプチドは、天然には通常見出されないポリペプチドであり得る。

一部の実施形態では、種々のパラメータを使用する配列最適化により生成された２種類またはそれ以上の候補配列（例えば、そのコドン利用が異なる配列）が生成されることができ、それらが、所望の特性を有するのかを決定するために試験されることができる。候補配列は、例えば、調節エレメント、例えば、サイレンサまたはエンハンサの存在について調査するか、または、コドン利用の変化によりこのような調節エレメントに変換され得るコード配列の領域の存在について調査するために評価され得る。更なる評価基準は、特定のヌクレオチド（例えば、Ａ、Ｃ、ＧまたはＵ、特定のアミノ酸についてのコドンバイアス）についての富化もしくは減少、または、特定のｍＲＮＡの二次もしくは三次構造の有無を含み得る。更なる発現用の候補配列に対する調節は、このような評価基準に基づいてなされ得る。

有望な候補配列は、実験的に構築および評価をされ得る。複数の候補が、互いに独立して評価されてもよく、または、前記プロセスは、ほとんどの前記有望な候補を新たな開始点として使用するか、もしくは、新たなハイブリッドを産生するために、２つまたはそれ以上の候補の領域を組み合わせるかのいずれかにより反復され得る。修飾および評価の更なるラウンドが望ましくあり得る。

ＶＩ．分岐したコドン最適化核酸配列を含む遺伝子組換え有機体
この開示は、分岐したコドン最適化核酸配列を含む遺伝子組換え有機体も提供する。一部の実施形態では、このような有機体は、アミノ酸繰り返し領域を含む所望のポリペプチドをコードする合成の最適化核酸配列を含み得る。アミノ酸繰り返し領域を含む所望のポリペプチドをコードする合成の最適化核酸配列は、先に説明されたように、前記有機体に適した調節配列（例えば、プロモータ）に操作可能に結合され得る。具体的な実施形態では、前記有機体は、前記所望のポリペプチドを発現し得る。特定の実施形態では、所望のポリペプチドは、最適化されていない同じポリペプチドをコードする核酸配列により発現されたそれの、少なくとも１０５％、１１０％、１５０％、２００％、５００％、１，０００％、５，０００％またはさらに１０，０００％のレベルで、本発明の最適化された核酸配列から発現され得る

一部の実施形態では、分岐したコドン最適化核酸配列を含む遺伝子組換え有機体は、遺伝子組換え植物である。この場合、前記遺伝子組換え植物の少なくとも一部の細胞は、１つまたはそれ以上の本発明の合成の最適化された核酸を含む。一例の実施形態では、本発明の核酸配列および選択マーカーを含むプラスミドは、例えば、本願明細書において先に列挙された方法のいずれかにより、植物細胞内に導入される。前記核酸配列および／または前記選択マーカーが安定して組み込まれた安定した形質転換体は、このような植物細胞から選択され得る。一部の実施形態では、前記核酸配列を含む植物細胞（例えば、選択された安定した形質転換体）は、前記核酸配列を含む新たな植物細胞を産生するために播種され得る。本発明の核酸配列を含む植物細胞は、植物全体を再生するために使用され得る再生可能な細胞であり得る。このような植物細胞およびそれから生成された植物全体は、前記核酸分子によりコードされたアミノ酸繰り返し領域を含む所望のポリペプチドを発現し得る。

これらおよび更なる実施形態では、（例えば、組織培養に使用するための）本発明の合成の最適化された核酸配列を含む再生可能な植物細胞を形成する方法が提供され得る。組織培養は、再生可能な細胞と実質的に同じ遺伝子型を有する植物を再生可能であり得る。このような組織培養物における再生可能な細胞は、胚、プロトプラスト、分裂組織細胞、癒合組織、花粉、葉、葯、根、根冠、花、種子、さやまたは茎であり得る。本発明の一部の実施形態は、本発明の組織培養物から再生された植物を提供する。

本発明は、本発明の合成の最適化された核酸配列を含む安定化された植物株を生成するための方法も提供する。前記方法では、前記安定化された植物株の細胞は、前記核酸配列によりコードされるアミノ酸繰り返し領域を含む所望のポリペプチドを発現し得る。安定化された植物株を生成する方法は、当業者に公知であり、制限されず、自系接合、戻し交雑、ハイブリッド産生および個体群に対する交雑等の技術を含み得る。本発明の合成の最適化された核酸配列を含む全ての植物および植物細胞は、本発明の範囲内である。このような植物および植物細胞は、自然には存在せず、それらは、例えば、本願明細書において開示された方法に基づいて最適化されていない同じアミノ酸繰り返し含有ポリペプチドをコードする核酸配列を含む植物または植物細胞と比較した場合、所望のポリペプチドの有利な発現特性を示し得る。本発明の核酸配列を含む植物細胞は、優れたまたは望ましい特徴を有する初代（Ｆ１）ハイブリッド細胞、種子および／または植物を産生するために、他の異なる植物細胞との交雑に使用され得る。

具体的な実施形態では、本発明の合成の最適化された核酸配列は、遺伝子組換えＢｒａｓｓｉｃａｎａｐｕｓ植物を産生するために使用される。更なる実施形態では、本発明の合成の最適化された核酸配列を使用して産生された遺伝子組換え植物は、例えば、制限されず、タバコ、ニンジン、トウモロコシ、カノーラ、ナタネ、綿花、パーム、ピーナッツ、ダイズ、サトウキビ、Ｏｒｙｚａ種、Ａｒａｂｉｄｏｐｓｉｓ種およびＲｉｃｉｎｕｓ種であり得る。

本発明の更なる実施形態は、細菌宿主において、合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を提供する。異種細菌ベース発現系を使用して発現され得るアミノ酸繰り返し領域を含む組換えタンパク質をコードする合成の最適化された核酸配列も含まれる。一部の例は、細菌宿主細胞の細胞質における合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を含む。更なる実施形態は、細菌宿主細胞の周辺部における合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を含む。

一部の実施形態では、細菌宿主細胞は、Ｅ．ｃｏｌｉ細胞またはＰｓｅｕｄｏｍｏｎａｓ細胞の適切な個体群から選択され得る。具体的な実施形態では、前記宿主細胞は、Ｐｓｅｕｄｏｍｏｎａｄａｌｅｓ種のプロテオバクテリアのいずれかであり得る。宿主細胞は、Ｐｓｅｕｄｏｍｏｎａｄａｃｅａｅファミリーのプロテオバクテリアのいずれかであり得る。具体的な実施形態では、前記宿主細胞は、下記：グラム陰性プロテオバクテリア・サブグループ１、２、３、５、７、１２、１５、１７、１８または１９の１つまたはそれ以上から選択され得る。

具体的な例は、ｐｓｅｕｄｏｍｏｎａｄまたはそれに密接に関連する細菌における所望のこのようなポリペプチドの異種発現を含む。本願明細書で使用する時、Ｐｓｅｕｄｏｍｏｎａｄおよび密接に関連する細菌は、「グラム（−）プロテオバクテリア・サブグループ１」として、本願明細書に規定されたグループと同一の広がりをもつ。「グラム（−）プロテオバクテリア・サブグループ１」は、より具体的には、R. E. Buchanan and N. E. Gibbons (eds.) (1974), Bergey’s Manual of Determinative Bacteriology, pp. 217-289, 8th Ed., The Williams & Wilkins Co., Baltimore, Md., USAにより「Gram-Negative Aerobic Rods and Cocci」と名付けられた分類「パート」に属するとして記載された、ファミリーおよび／または属に属するグループのプロテオバクテリアとして規定される。細菌宿主細胞は、グラム陰性プロテオバクテリア・サブグループ１８から選択され得る。前記サブグループは、全ての亜種、変異体、株およびＰｓｅｕｄｏｍｏｎａｓｆｌｕｏｒｅｓｃｅｎｓ種の他の亜種単位、例えば、（丸括弧に示されたＡＴＣＣまたは他の寄託番号の例示となる株を含む）下記：次亜種１もしくは次亜種Ｉとも呼ばれるＰ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ａ（ＡＴＣＣ１３５２５）；次亜種２もしくは次亜種ＩＩとも呼ばれるＰ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ｂ（ＡＴＣＣ１７８１６）；次亜種３もしくは次亜種ＩＩＩとも呼ばれるＰ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ｃ（ＡＴＣＣ１７４００）；次亜種４もしくは次亜種ＩＶとも呼ばれるＰ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ｆ（ＡＴＣＣ１２９８３）；次亜種５もしくは次亜種Ｖとも呼ばれるＰ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ｇ（ＡＴＣＣ１７５１８）；Ｐ．ｆｌｕｏｒｅｓｃｅｎｓ次亜種ＶＩ；Ｐ．ｆｌｕｏｒｅｓｃｅｎｓＰｆ０−１；Ｐ．ｆｌｕｏｒｅｓｃｅｎｓＰｆ−５（ＡＴＣＣＢＡＡ−４７７）；Ｐ．ｆｌｕｏｒｅｓｃｅｎｓＳＢＷ２５；およびＰ．ｆｌｕｏｒｅｓｃｅｎｓ亜種．ｃｅｌｌｕｌｏｓａ（ＮＣＩＭＢ１０４６２）に属するものとして規定される。細菌宿主細胞は、グラム陰性プロテオバクテリア・サブグループ１９からも選択され得る。前記サブグループは、Ｐ．ｆｌｕｏｒｅｓｃｅｎｓ遺伝因子型Ａ、例えば、Ｐ．ｆｌｕｏｒｅｓｃｅｎｓ株ＭＢ１０１の全ての株のグループおよびその派生体として規定される。

本発明の合成の最適化された核酸配列は、当業者に公知の任意の方法、例えば、形質転換により、細菌宿主細胞内に導入され得る。本発明の核酸配列による細菌宿主細胞の形質転換は、当分野において公知の任意の形質転換法を使用して行われることができ、前記細菌宿主細胞は、インタクトな細胞またはプロトプラスト（すなわち、例えば、サイトプラスト）として形質転換され得る。形質転換法としては、ポレーション法（例えば、エレクトロポレーション、プロトプラスト融合、細菌コンジュゲーションおよび二価カチオン処理、例えば、塩化カルシウム処理もしくはＣａＣｌ_２／Ｍｇ^２＋処理）ならびに当分野における他の公知の方法があげられる。例えば、Morrison (1977) J. Bacteriol. 132:349-51；Clark-Curtiss and Curtiss, (1983) Methods in Enzymology 101:347-62；Sambrook et al. (1989) Molecular Cloning, A Laboratory Manual, 2nd ed.；Kriegler (1990) Gene Transfer and Expression；A Laboratory Manual；およびAusubel et al. (eds.) (1994) Current Protocols in Molecular Biology。

下記実施例は、特定の具体的な特徴および／または実施形態を例証するために提供される。前記実施例は、例示された特定の特徴または実施形態に、本開示を限定すると解釈されるべきではない。

実施例１：大きな繰り返しＤＮＡ配列を含むコード配列のコドン最適化
アミノ酸繰り返し領域を含むポリペプチドをコードする核酸配列の最適化を実証するために、Ｂｒａｓｓｉｃａｎａｐｕｓ最適化コード領域を、Ｓｃｈｉｚｏｃｈｙｔｒｉｕｍ多不飽和脂肪酸（ＰＵＦＡ）合成酵素の「ＯＲＦＡ」によりコードされるタンパク質について設計した。

ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡ合成酵素の「ＯＲＦＡ」によりコードされるタンパク質の構造を、図１に示す。前記タンパク質は、１７から２９個のアミノ酸のサイズの範囲の、１０か所の繰り返し「Ｐｒｏ−Ａｌａ」ドメイン（配列番号１−１０および図２）を含む。前記繰り返しＰｒｏ−Ａｌａドメインの間には（図１を参照のこと。）、８７個のアミノ酸を含む９つのより長い繰り返し配列ドメインが散在している（配列番号１１−１９および図３）。これらの繰り返しのアミノ酸配列は、４つの位置のみにおいて変異し、前記変異位置のそれぞれにおいて、２つのアミノ酸選択のみが存在する。前記９つの繰り返しのアミノ酸配列のＣＬＵＳＴＡＬＷ（商標）分析（図３）は、１００％の相同性値および９５．４％の同一性値を生じさせた。ＤＮＡレベルにおいて、前記９つの繰り返しをコードする天然のＳｈｉｚｏｃｈｙｔｒｉｕｍ配列は、１００％の相同性および８９．７％の同一性であり、各繰り返しをコードする２６１塩基における２７部位のみにおいて変異している（図４）。２７個の変化の内２３個は、「サイレントな」差異である。前記差異において、同じアミノ酸用の同義のコドンは、互換性である。標準的な遺伝子設計法は、このサイズの複数の繰り返しについての新たなコドンバイアスＤＮＡ配列の開発を容易に調整できない。非常に関連するＤＮＡ配列の生成を回避するために、他の８つの繰り返しにおける同じ位置においてなされたコドン選択を有する、個々の繰り返しにおける全てのコドン選択を継続的に保たなければならないためである。

８７残基繰り返しのそれぞれについて、同じアミノ酸配列をコードする、４．５×１０^４３通りより多い可能性のあるＤＮＡ配列が存在する。この数を、前記配列における各アミノ酸についての同義のコドン数の積として算出した（図３におけるアライメントのボトムライン）。このため、同一にコードするＤＮＡ配列を生成するために利用可能な非常に大きなコドンスペースが存在する。各個々の繰り返しについての複数の配列設計を、（ｉｎｓｉｌｉｃｏにおいて）生成した。その後、全ての配列バージョンを、バルクにおいて比較して、前記繰り返しをコードする高く分岐した配列を提供するセットを特定した。

まず、各繰り返しアミノ酸ドメインをコードする天然のＤＮＡ配列を、図４に図示したように、別々の配列として抽出した。ついで、前記個々の繰り返しＤＮＡ配列を、ＯＰＴＧＥＮＥ（商標）遺伝子設計プログラム（ＯｃｉｍｕｍＢｉｏｓｏｌｕｔｉｏｎｓ）内に、別々の配列としてインポートした。工程３−５を、各個々の配列について、続けて別々に行った。

工程３：個々のＤＮＡ配列を、標準的な遺伝情報を使用して翻訳した。

工程４：個々のＤＮＡ配列から翻訳されたアミノ酸配列を、標準的な遺伝情報およびＢ．ｎａｐｕｓのコドンバイアステーブルを使用して逆翻訳した。５３０個のＢ．ｎａｐｕｓタンパク質コード領域に適合したバイアスコドンテーブルを使用した。各生成された配列に、（「ｎａｐｕｓ」についての）「ｎａｐ」のコード名を付け、バージョン数を加えた。例えば、繰り返し１の例において、第１の逆翻訳されたコドンバイアス配列を、「ｒｐｔ１ｎａｐ１」と名付けた。この具体的な例証において、このプロセスを１０回行って、図５に示すように、繰り返し１のタンパク質配列をコードする、１０個のＤＮＡ配列バージョンを生成した。１０回より多い（または、より少ない）反復が行われ得た。図５は、繰り返し１の最初の１７個のアミノ酸についての１０回の反復において生成された、実質的な配列多様性を図示する。

工程５：コドン最適化コード領域の前記１０通りの配列バージョンを、対応する数のテキストファイル内にエクスポートした。

工程３−５を、他の繰り返し配列ドメインのそれぞれについて行った。例えば、この例証では、合計９０個の「ｎａｐ」配列バージョンを、（各繰り返しエレメントについて１０個）生成した。ついで、前記９０個の配列ファイルを、（www.megasoftware.net/にアクセスされる）ＣＬＵＳＴＡＬＷ（商標）プログラムＭｅｇａ３．１内にインポートした。複数の配列アライメントを、９０個全ての配列をインプットとして使用して行った。これらの配列がタンパク質コード領域のセグメントであるため、前記アライメントを、許容されるギャップを含まずに行った。

ＣＬＵＳＴＡＬＷ（商標）アライメント後に、近隣結合ツリーを構築し、可視化した。前記タンパク質における９つの繰り返しドメインのそれぞれについての１０個のコドン最適化配列の１つを選択した。各選択された配列バージョンを、深く分岐したツリーのセクションから選択した。図６。９０個の総配列から、各繰り返しエレメントについての１つの配列のみを選択した。

前記各繰り返しドメインについての選択された配列を、各具体的な繰り返しについての適切な部位においてタンパク質全体をコードするコドン最適化ＤＮＡ配列内に包含させた。正しい読み枠を維持することに注意を払った。別々に設計された分岐した繰り返しエレメントを含むコドン最適化配列全体の最終的な分析を、望ましくないモチーフ、制限酵素認識部位等が存在しないことを確保するために行った。コドン最適化配列全体の最終的な分析後に、そのコドンおよび配列多様性を維持することを確保するために前記繰り返しエレメントをコードする配列における変化を導入する際に、注意を払った。

この実施例では、前記選択した配列が最も高く分岐した可能性でありそうもない。１）各繰り返しドメインの１０個の配列反復のみを行い、２）前記配列を目視で取り上げたためである。ただし、前記選択した配列は、最適な配列（すなわち、最も高く分岐した可能性）に近いことは確かである。それらを、前記近隣結合ツリーの最も深い分岐から選択した（すなわち、それらが、この配列セットにおいて互いに最も離れて関連する）ためである。Ｓｍｉｔｈ−Ｗａｓｓｅｒｍａｎグローバルアライメントを、全てのペアワイズ組み合わせについて行った。相当性の範囲は、７６−７７％の予想中央値を伴って、７４−８１％であった。図７。前記９つの繰り返しドメインについての前記選択した９個の新たに設計された分岐したコード領域（配列番号４１−４９）のＣＬＵＳＴＡＬＷ（商標）アライメントを、図８に示す。全体として、それらは、（天然の配列について、１００％相同であり、８９．７％同一であるのと比較して、）９３．１％相同であり、６１．７％同一である。

実施例２：大きな繰り返しＤＮＡ配列を含む最適化されたコード配列の発現
実施例１において設計された最適化されたコード配列全体についてのＤＮＡ配列を、標準的な業界の実務に基づいて、商業的なベンダーにより合成する。

前記最適化されたコード配列全体からなる合成オリゴヌクレオチド分子を、Ｂ．ｎａｐｕｓ細胞内に導入し、例えば、適切なベクター内でのオリゴヌクレオチドのライゲーションおよびその後のＡｇｒｏｂａｃｔｅｒｉｕｍ媒介性形質転換により、前記最適化されたコード配列を含むＢ．ｎａｐｕｓ細胞を産生する。

前記最適化されたコード領域を含むＢ．ｎａｐｕｓ細胞は、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡ合成酵素ＯＲＦＡの天然コード配列を含むＢ．ｎａｐｕｓ細胞においてより高いレベルで、ＳｃｈｉｚｏｃｈｙｔｒｉｕｍＰＵＦＡ合成酵素ＯＲＦＡによりコードされたタンパク質を発現する。

実施例３：大きな繰り返しＤＮＡ配列を含む最適化されたコード配列を含むＢ．ｎａｐｕｓ植物
実施例２において産生した、分岐したコドン最適化アミノ酸繰り返し領域を含む最適化されたコード配列を含むＢ．ｎａｐｕｓ細胞を、Ｂ．ｎａｐｕｓ植物を再生するために使用する。ついで、Ｂ．ｎａｐｕｓ植物を播種し、前記最適化されたコード配列を含む子孫を産生する。

本発明は、種々の修飾および改変の形態に影響を受ける場合があるが、特定の実施形態が、図面における例示により示され、本願明細書において詳細に記載されてきた。ただし、本発明は、開示された特定の形態に限定されることを意図していないことが理解されるべきである。むしろ、本発明は、以下に添付の特許請求の範囲およびその法的均等物により規定された本発明の範囲内にある全ての修飾、均等物および変形に及ぶものである。

Claims

合成核酸分子を取得するための方法であって、
（ｉ）ポリペプチドのアミノ酸繰り返し領域由来のアミノ酸配列を提供する工程；
（ｉｉ）前記アミノ酸配列をそれぞれコードする複数のサンプルコドン最適化核酸配列を推測する工程；
（ｉｉｉ）前記複数のサンプルコドン最適化核酸配列を、配列相同性により整列させ、前記複数のサンプルコドン最適化核酸配列を含む近隣結合ツリーを構築する工程；
（ｉｖ）前記複数のサンプルコドン最適化核酸配列の１つのみを選択する工程；ならびに、
（ｖ）前記選択されたサンプルコドン最適化核酸配列を含む核酸分子を取得する工程を含む、
方法。
前記ポリペプチドのアミノ酸繰り返し領域由来のアミノ酸配列が、ポリペプチド由来の前記アミノ酸繰り返し領域をコードする核酸配列を提供し、前記提供された核酸配列からアミノ酸配列を推測することにより提供される、請求項１に記載の方法。
前記アミノ酸繰り返し領域をコードする核酸配列が、有機体からクローニングされる、請求項２に記載の方法。
前記アミノ酸配列をそれぞれコードする複数のサンプルコドン最適化核酸配列を推測する工程が、有機体のコドン利用バイアスを使用する工程を含む、請求項１に記載の方法。
前記選択されたサンプルコドン最適化核酸配列が、前記近隣結合ツリーの深く分岐したセクションから選択される、請求項１に記載の方法。
前記ポリペプチドが、有機体において発現される、請求項１に記載の方法。
前記ポリペプチドが、有機体において発現されることが公知でない合成ポリペプチドである、請求項１に記載の方法。
所望のポリペプチドをコードする核酸配列内に、前記選択されたサンプルコドン最適化核酸配列を包含する工程をさらに含み、前記包含工程において、取得された核酸分子が、前記選択されたサンプルコドン最適化核酸配列を含む所望のポリペプチドをコードする核酸配列を含む、請求項１に記載の方法。
前記所望のポリペプチドが、前記アミノ酸繰り返し領域配列が提供された前記ポリペプチドと同じアミノ酸配列を有する、請求項８に記載の方法。
前記選択されたサンプルコドン最適化核酸配列を含む所望のポリペプチドをコードする核酸配列自体が最適化されている、請求項８に記載の方法。
前記所望のポリペプチドが、複数のアミノ酸繰り返し領域を含み、（ｉ）から（ｉｖ）が、前記所望のポリペプチドにおける前記複数のアミノ酸繰り返し領域の少なくともいくつかについて独立して行われる、請求項８に記載の方法。
（ｉ）から（ｉｖ）が、前記所望のポリペプチドにおける前記複数のアミノ酸繰り返し領域それぞれについて独立して行われる、請求項１１に記載の方法。
前記取得された核酸分子が、少なくとも１つの調節エレメントに操作可能に結合された、所望のポリペプチドをコードする核酸配列を含む、請求項８に記載の方法。
前記核酸分子が、宿主有機体内への導入に適している、請求項８に記載の方法。
前記核酸分子が、宿主有機体内への導入に適している、請求項１３に記載の方法。
前記核酸分子が、発現ベクターである、請求項１５に記載の方法。
請求項８に記載の方法により取得された核酸分子。
遺伝子組換え有機体を製造するための方法であって、請求項１７に記載の核酸分子を、宿主有機体内に導入する工程を含む、
方法。
前記宿主有機体が、植物である、請求項１８に記載の方法。
前記宿主有機体が、Ｂｒａｓｓｉｃａｎａｐｕｓである、請求項１９に記載の方法。
前記宿主有機体が、酵母、藻類および原核生物からなる群から選択される、請求項１８に記載の方法。
請求項１８に記載の方法により製造された遺伝子組換え有機体。
請求項１９に記載の方法により取得された遺伝子組換え植物。
組換えタンパク質を製造するための方法であって、請求項１７に記載の核酸分子を細胞内に導入する工程を含み、前記所望のポリペプチドが、前記細胞内で発現される、
方法。
さらに、前記所望のポリペプチドを単離する工程を含む、請求項２４に記載の方法。