配列表
添付の配列表に列記された核酸配列は、37C.F.R.§1.822において規定されたように、ヌクレオチド塩基についての標準的な文字省略を使用して示される。各核酸配列の一方の鎖のみが示されるが、相補鎖が、表示された鎖に対する任意の言及により含まれると理解される。特に示さない限り、核酸は、左から右に、5’から3’方向で記載される。
アミノ酸は、本願明細書において、それらの一般的に公知の3文字表記、または、IUPAC−IUB Biochemical Nomenclature Commissionにより推奨される1文字表記のいずれかにより言及され得る。アミノ酸配列は、左から右に、アミノ方向からカルボキシ方向で記載される。添付の配列表において、
配列番号1−10は、Schizochytrium PUFA ORFAの、10通りのPro−Ala繰り返しのアミノ酸配列を示す。
配列番号11−19は、Schizochytrium PUFA ORFAの、9つのオリゴペプチド繰り返し領域のアミノ酸配列を示す。
配列番号20−28は、PUFA ORFAの9つのオリゴペプチド繰り返し領域をそれぞれコードする、天然Schizochytriumのヌクレオチド配列を示す。
配列番号29は、偏りのない標準的な遺伝情報を使用するSchizochytrium PUFA ORFA繰り返し1のアミノ酸配列の逆翻訳による、Schizochytrium PUFA ORFA繰り返し1の一部をコードするDNA配列を示す。
配列番号30は、配列番号29によりコードされ、Schizochytrium PUFA ORFA繰り返し1の一部を提供するアミノ酸配列を示す。
配列番号31−40は、Brassica napusの前記標準的な遺伝情報およびコドン利用バイアスを使用する、配列番号30の逆翻訳により取得されたヌクレオチド配列を示す。
配列番号41−49は、Schizochytrium PUFA ORFAの9つの繰り返しドメインそれぞれをコードする、例示となる合成DNA配列を示す。
配列番号50は、3つのアミノ酸配列の3つの繰り返しを含む、例示となるタンデムなオリゴペプチド繰り返しを示す。
配列番号51は、例示となる不完全なポリグルタミン繰り返しを示す。
I.複数の実施形態の概観
コードされたポリペプチドが繰り返しアミノ酸ドメインを含む場合、宿主有機体における発現用のコード配列の最適化中に問題が生じ得る。細菌宿主においてクローニングされたDNA内において、近接して配置された、高い相同性のヌクレオチド配列の大きな領域が、不安定性に寄与し得る。小さくとも、50塩基のみの完全な繰り返しが、Escherichia coliにおける組換えのための基質であり得る。さらに、これらの配列は、前記大きな繰り返しが転写されたmRNAに存在する場合、発現における問題をもたらし得る。例えば、ポリグルタミン繰り返しを含む転写物は、不安定である。(CAG)n:(CTG)nの繰り返しが、複製エラー、修復エラーまたは組換えをもたらす二次DNA構造をとり得るためである。上記Pearson and Sinden (1998)。ポリアラニン繰り返しも、転写の不安定性をもたらし得る。Muragaki et al. (1996) Science 272:548-51。
前述の概説において、コドン組成およびモチーフ回避の二重の制限は、遺伝子設計の問題を起こす。各個々の繰り返し配列エレメントの設計は、繰り返し配列の不安定性問題を回避するために十分分岐された、前記繰り返しについてのDNA配列の設計に挑戦しながら、全体として遺伝子に使用される同じコドン組成およびモチーフ回避テーブルに一致しなければならないためである。遺伝子設計法は、複数の大きなアミノ酸繰り返しについての新たなコドンバイアスDNA配列の開発を調整するために準備されていない。個々の繰り返しにおける全てのコドン選択は、高度に関連するDNA配列を生成するのを回避するために、他の繰り返しに対応するコード領域における同じ位置においてなされるコドン選択と絶えず釣り合わなければならない。
合成核酸分子における高度に繰り返された配列領域の存在は、遺伝子合成および完成した合成分子の配列検証における技術的な困難性も生じさせる。これらの問題は、繰り返しアミノ酸ドメインが、ただ数個のアミノ酸残基より大きい場合、特に急性であり得る。本発明の一部の実施形態では、これらの問題は、アミノ酸繰り返し領域をコードする、分岐されたコドン最適化核酸配列を設計するための方法により解決され得る。本願明細書に記載された方法の具体的な実施形態は、繰り返しアミノ酸ドメインを含むポリペプチドをコードする任意のコドン最適化DNA配列の設計に広く適用可能である。
II.略語
dsDNA 二本鎖DNA
ssDNA 一本鎖DNA
NCBI 国立バイオテクノロジー情報センター
PCA ポリメラーゼサイクルアッセンブリ
PCR ポリメラーゼ連鎖反応
III.用語
単数形「a」、「an」、「the」の使用は、特に断らない限り、複数の指示対象を含む。例えば、「ポリヌクレオチド(a polynucleotide)」への言及は、複数のポリヌクレオチドを含み、「基質(a substrate)」への言及は、複数のこのような基質を含み、「変異体(a variant)」への言及は、複数のこのような変異体を含む等である。
値の範囲が列記された場合、その範囲の列記された上限と下限との間に各介在する整数値およびそれらの各分数も、このような値間の各部分範囲と共に、具体的に開示されていると理解されたい。任意の範囲の上限および下限は、前記範囲に独立して含まれることができ、または、前記範囲から除かれることができる。範囲のいずれか、範囲のいずれでもないまたは範囲の両方が含まれる場合、各範囲も、本発明に包含される。記載された値が固有の範囲を有する場合(例えば、成分が0から100%の濃度で存在し得る場合、または、水溶液のpHが1から14の範囲であり得る場合)、それらの固有の範囲は、具体的に開示されている。
値が明確に列記されている場合、前記列記された値と同じ分量または量周囲の値も、本発明の範囲内であることを理解されたい。組み合わせが開示されている場合、その組み合わせの要素の各部分的組み合わせも、具体的に開示されており、本発明の範囲内である。逆に、異なる要素または要素群は、個々に開示されており、それらの組み合わせも開示されている。発明の任意の構成要素は、複数の代替手段を有するように開示されている。各代替手段が単独で、または、他の代替手段との任意の組み合わせにおいて除外される発明の例示も、本願明細書に開示されている(本発明の2つまたはそれ以上の構成要素は、このような除外を有することができ、このような除外を有する構成要素の全ての組み合わせは、本願明細書に開示されている。)。
特に提供されない限り、本願明細書で使用された全ての技術的および科学的用語は、遺伝学、バイオインフォマティックスおよび遺伝子設計の当業者により共通して理解されるのと同じ意味を有する。本開示に使用される多くの用語を含む一般的な辞書は、Singleton et al. (1994) Dictionary of Microbiology and Molecular Biology, 2nd Ed., John Wiley and Sons, New York;および、Hale and Marham (1991) The Harper Collins Dictionary of Biology, Harper Perennial, New Yorkである。本願明細書に記載されたものと類似または同等の任意の方法および材料が、本発明の実施形態の実用化または試験に使用され得るが、特定の方法および材料が、本願明細書に開示されたものにより例示される。
アミノ酸繰り返し:本願明細書で使用する時、「アミノ酸繰り返し」の用語は、同じ1つまたはそれ以上のアミノ酸の繰り返し単位を含むポリペプチド内のアミノ酸配列を意味する。例えば、「アミノ酸繰り返し」は、1つのアミノ酸繰り返し(例えば、Ala−Ala−Ala)およびタンデムなオリゴペプチド繰り返し(例えば、Ala−Glu−Pro−Ala−Glu−Pro−Ala−Glu−Pro(配列番号50))の両方を意味する。アミノ酸繰り返しは、ポリペプチドにおいて繰り返される任意の長さのものである。例えば、1つのアミノ酸繰り返しは、(数多くの回数が繰り返された)長さが1つの残基であり得る。一方、タンデムなオリゴペプチド繰り返しは、例えば、2アミノ酸長から約100アミノ酸長、またはそれ以上であり得る。具体的な例では、オリゴペプチド繰り返しは、長さが約10、約20、約30、約40、約50、約60、約65、約70、約80、約90、約100または約110個のアミノ酸;例えば、長さが85個のアミノ酸であり得る。
「アミノ酸繰り返し単位」の用語は、アミノ酸繰り返しを構築する連続的なアミノ酸を意味する。アミノ酸繰り返し単位における全てのアミノ酸が、前記繰り返しのパターン全体によるその位置において予測されるアミノ酸である必要はない。例えば、ポリグルタミンのアミノ酸繰り返し単位は、「Gln−Gln−Gln−Ala−Gln」(配列番号51)の配列を含み得る。前記配列全体は、前記連続配列にアラニンが存在するにも関わらず、ポリグルタミン繰り返しであると考えられ得る。
コドン利用バイアス:本願明細書で使用する時、「コドン利用バイアス」または単に「コドン利用」の用語は、有機体内のアミノ酸をコードする、(他の同義コドンと対照的に、)特定のコドンの高頻度の優先使用を意味する。コドン利用バイアスは、例えば、同じアミノ酸をコードする他のコドンと比較された場合、特定のコドンが特定の有機体のゲノムにおいて使用される割合の定量的測定として表現され得る。
コドン利用バイアスを決定するための種々の方法は、当業者に公知である。一部の実施形態では、コドン利用バイアスは、コドン適応指標(CAI)法により決定され得る。前記方法は、基本的には、高発現遺伝子の既定義のセットのコドン利用に対する遺伝子のコドン利用の距離の測定である。Sharp and Li (1987) Nucleic Acids Res. 15:1281-95。コドン利用バイアスを決定するための別の方法としては、MILC(長さおよび組成に応じた測定)(Supek and Vlahovicek (2005) BMC Bioinformatics 6:182)および相対的な同義コドン利用(RSCU)があげられる。RSCUは、そのアミノ酸についての全ての同義コドンの等しい利用から期待された頻度で割った特定のコドンの観察頻度である。Sharp et al. (1986) Nucleic Acids Res. 14:5125-43。1.0に近いRSCU値は、特定のコドンについてのバイアスが無いことを示す。一方、1.0からのかい離は、コドン利用バイアスを反映する。
したがって、コドン利用バイアスは、前記同じアミノ酸をコードするコドン(「同義コドン」)使用の相対的な頻度を含む。バイアスは、自然に生じ得る。例えば、有機体のゲノムにおける前記コドンバイアスは、その有機体における全遺伝子内の同義コドンの相対的な使用全体を反映する。バイアスは、コンピュータアルゴリズムにも使用され得る。この場合、例えば、それは、異なる同義コドンがポリヌクレオチド配列の設計に使用するために選択される相対頻度を決定するために使用され得る。同様に、ヌクレオチド配列内のポリペプチドをコードするために使用される任意の配列エレメントの「相対」頻度は、その配列エレメントが前記ポリペプチドの特徴をコードするために使用される頻度を、その配列エレメントによりコードされ得た特徴の所定の読み枠におけるポリペプチド内での発生数により割ったものである。
コドン利用バイアスは、特定の発現宿主有機体についてのコドン利用テーブルからも推測され得る。コドン利用テーブルは、多くの発現宿主有機体について既に入手可能である。例えば、Nakamura et al. (2000) Nucleic Acids Res. 28:292(コドン利用データベース−kazusa.or.jp/codonにおいて利用可能なアップデート版)を参照のこと。コドン利用テーブルが利用できない場合、それは、公衆の有機体遺伝情報データベース、例えば、NCBIにより維持されているもの(ncbi.nlm.nih.gov/sites/genomeから入手可能)から構築され得る。一部の実施形態では、コドン利用テーブルは、特定の発現宿主有機体から取得されたコード領域のセットから構築され得る。一部の例では、コード領域のセットは、特定の発現宿主有機体から取得された、少なくとも100個、少なくとも200個、少なくとも300個、少なくとも400個、少なくとも500個、少なくとも550個、少なくとも600個またはそれ以上のコード領域を含む。
「コドン利用テーブル」または「コドンバイアステーブル」または「コドン頻度テーブル」の用語は、互換的に使用され、各コドンが、その有機体内の特定の分類の遺伝子内または1つまたはそれ以上の合成ポリヌクレオチド内で、特定の有機体におけるそのアミノ酸をコードするために使用され得る頻度で、特定のアミノ酸をコードするために使用され得る各コドンを相関させるテーブルを説明する。
絶対コドン頻度:本願明細書で使用する時、「絶対コドン頻度」の用語は、コドンが所定の読み枠(例えば、所望のポリペプチドをコードするために使用される読み枠)におけるポリヌクレオチドまたはポリヌクレオチドのセット内のコドン(例えば、同義コドンおよび同義でないコドンの両方)の総数に対して現れる頻度を意味する。同様に、ポリヌクレオチド内のポリペプチドをコードするために使用される任意の配列エレメントの「絶対」頻度は、その配列エレメントが前記ポリペプチドの特徴(例えば、アミノ酸、アミノ酸ペア等)をコードするのに使用される頻度であり、前記配列エレメントによりコードされ得たものと同じサイズの特徴のポリペプチド内での発生数で割られる。
コドンスペース:本願明細書で使用する時、「コドンスペース」の用語は、前記ポリペプチド内のアミノ酸をコードするために使用されるコドンを変更することにより、特定のポリペプチドをコードするために使用され得る、可能性のある全てのポリヌクレオチド配列を意味する。
コドン置換:本願明細書で使用する時、「コドン置換」の用語は、コードされたポリペプチドのアミノ酸配列を変化させることなく、コードされたポリペプチドの1つまたはそれ以上のアミノ酸をコードする1つまたはそれ以上のコドンを変化させることによる、ヌクレオチドコード配列を変化させることを意味する。
コドン最適化:本願明細書で使用する時、「コドン最適化」の用語は、既存のコード配列を修飾し、または、第1の例においてコード配列を設計し、例えば、前記コード配列から転写された転写物であるRNA分子の発現宿主細胞または有機体における翻訳を改善し、または、コード配列の転写を改善するために使用される方法を意味する。コドン最適化は、制限されず、前記発現宿主有機体のコドン優位性を満たすために、前記コード配列についてのコドンを選択することを含む方法を含む。コドン最適化は、例えば、「コドン調和」とも呼ばれる場合がある方法も含む。この場合、ソース有機体における低利用コドンとして認識されるコドン配列のコドンは、新たな発現宿主における低利用として認識されるコドンに変更される。この方法は、発現されたポリペプチドが翻訳/伸長中に自然で、適切なポーズを導入することにより正常にフォールドするのを手助けし得る。Birkholtz et al. (2008) Malaria J. 7:197-217。
修飾:本願明細書で使用する時、「修飾」もしくは「変異」またはそれらの任意の形式は、修飾、変異、置き換え、欠失、置換、除去、変更または形質転換することを意味する。
近隣結合ツリー:本願明細書で使用する時、「近隣結合ツリー」の用語は、系統樹の構築に使用されるボトムアップ式のクラスタリング法を意味する。例示では、アルゴリズム(例えば、CLUSTAL(商標)アルゴリズム)が、例えば、Needleman−Wunschアルゴリズムにより算出される通りの配列間のペアの距離から、ツリーを形成する。このツリー(「ガイドツリー」)は、前記ツリーにおける複数の配列を整列させるためのガイドとして使用され得る。近隣結合ツリーの構築および解釈に対する検討は、Kumir and Gadagker, (2000) J. Molec. Evol. 51:544-53に見出され得る。
系統樹は、当業者に公知の方法、例えば、配列間の「距離」のマトリクスに基づく、Saitou and Neiの近隣結合法により、複数のアライメントから算出され得る。これらの距離は、「マルチヒット」について補正され得る。この補正は、進化中に生じた各位置における実際の差異数の平均差異数による過小評価を少なくとも部分的に補正するために、距離を伸長する。近隣結合ツリーおよびそれを構築する方法に関する詳細な情報は、例えば、Kao (Ed.) Encyclopedia of Algorithms (2008), Springer, New Yorkに見出され得る。
核酸分子:本願明細書で使用する時、「核酸分子」の用語は、ヌクレオチドの高分子形態を意味する。前記ポリマー形態は、RNA、cDNA、ゲノムDNAのセンス鎖およびアンチセンス鎖の両方、ならびに、合成形態および上記の混合ポリマーを含み得る。ヌクレオチドは、リボヌクレオチド、デオキシリボヌクレオチドまたはヌクレオチドのいずれかの種類の修飾形態を意味し得る。本願明細書で使用する時、「核酸分子」は、「核酸」および「ポリヌクレオチド」と同義である。核酸分子は、特に断らない限り、通常、長さが少なくとも10塩基である。前記用語は、DNAの一本鎖および二本鎖の形態を含む。核酸分子は、天然由来および/または非天然由来のヌクレオチド結合により互いに結合された、天然由来および修飾されたヌクレオチドのいずれかまたは両方を含み得る。
核酸分子は、当業者に直ちに理解されるであろうように、化学的もしくは生化学的に修飾されてもよいし、または、非天然もしくは誘導体化されたヌクレオチド塩基を含んでもよい。このような修飾としては、例えば、標識、メチル化、1つまたはそれ以上の天然由来のヌクレオチドの類似体による置換、ヌクレオチド間修飾(例えば、非電荷結合:例えば、メチルホスホネート、ホスホトリエステル、ホスホルアミデート、カルバメート等;荷電結合:例えば、ホスホロチオエート、ホスホロジチオエート等;ペンダント部分:例えば、ペプチド;挿入分子:例えば、アクリジン、プソラレン等;キレート剤;アルキル化剤;および修飾結合:例えば、アルファアノマー核酸等)があげられる。「核酸分子」の用語は、任意のトポロジー構造、例えば、一本鎖、二本鎖、部分二重鎖、三重鎖、ヘアピン、サークル等ならびにパドロック構造等も含む。
タンパク質/ポリペプチド:「タンパク質」および「ポリペプチド」の用語は、本願明細書において、互換的に使用される。前記用語は、ペプチド結合を介して結合されたアミノ酸の連続的な分子鎖を意味する。前記用語は、生成物の特定の長さを意味しない。したがって、「ペプチド」、「オリゴペプチド」および「タンパク質」は、ポリペプチドの定義内に含まれる。前記用語は、in vivoまたはin vitroにおいてなされたポリペプチドの同時翻訳および/または翻訳後の修飾を含むポリペプチドを含む。前記修飾としては、例えば、制限されず、グリコシル化、アセチル化、リン酸化、PEG化および硫酸化があげられる。さらに、タンパク質フラグメント、類似体(例えば、遺伝情報によりコードされないアミノ酸:例えば、ホモシステイン、オルニチン、p−アセチルフェニルアラニン、D−アミノ酸およびクレアチン)、天然または人工の変異体、変異型、融合タンパク質、誘導体化残基(例えば、アミン基のアルキル化、カルボキシル基のアセチル化またはエステル化)ならびに前述のいずれかの組み合わせが、前記ポリペプチドの意味内に含まれる。
典型的には、タンパク質は、機能を有する。ただし、タンパク質は、機能的な活性を有しない、オリゴペプチドおよびより小さい連続的なアミノ酸配列も包含する。機能性タンパク質の非限定的な例示としては、受容体、受容体リガンド、サイトカイン、抗体、免疫調節分子、シグナル伝達分子、蛍光タンパク質、殺虫活性もしくは殺生物活性を有するタンパク質および酵素があげられる。有用な一般分類の酵素としては、制限されず、プロテアーゼ、セルラーゼ、オキシドレダクターゼ、リパーゼ、リアーゼ、リガーゼ、ヘミセルラーゼ、ラッカーゼ、アミラーゼ、グルコアミラーゼ、エステラーゼ、デヒドロゲナーゼ、ラクターゼ、ポリガラクツロナーゼ、ガラクトシダーゼ、リグニナーゼ、オキシダーゼ、ペルオキシダーゼ、トランスフェラーゼ、グルコースイソメラーゼ、ニトリラーゼ、ヒドロキシラーゼ、ヒドロラーゼ、ポリメラーゼおよびデポリメラーゼがあげられる。酵素に加えて、本願明細書に開示された合成核酸分子によりコードされ得るタンパク質としては、制限されず、転写因子、抗体、受容体、増殖因子(PDGF、EGF、FGF、SCF、HGF、TGF、TNF、インスリン、IGF、LIF、オンコスタチン、CSF等のいずれか)、免疫モジュレータ、ペプチドホルモン、サイトカイン、インテグリン、インターロイキン、接着分子、血液凝固調節性分子、プロテアーゼ阻害剤、アンジオスタチン、デフェンシン、分化抗原のクラスター、インターフェロン、ケモカイン、感染性ウイルスおよび有機体由来のものを含む抗原、ガン遺伝子産物、トロンボポイエチン、エリスロポイエチン、組織プラスミノーゲンアクチベータならびに、臨床、診断もしくは獣医環境で使用するのが望ましい任意の他の生物学的に活性なタンパク質があげられる。これらのタンパク質は全て、(例えば、例示となるアミノ酸配列により)文献において十分規定されており、本願明細書においてそのように規定されている。このようなタンパク質の欠失変異体、このようなタンパク質の個々のドメイン、このようなタンパク質から形成された融合タンパク質およびこのようなタンパク質の混合物も含まれる。
配列同一性:本願明細書で使用する時、2つの核酸またはポリペプチド配列の文脈における「配列同一性」または「同一性」の用語は、特定の比較ウインドウにわたる最大対応について整列された場合に同じである、前記2つの配列における残基を意味し得る。
本願明細書で使用する時、「配列同一性の割合」の用語は、比較ウインドウにわたる、2つの最適に整列された配列(例えば、核酸配列およびアミノ酸配列)を比較することにより決定された値を意味し得る。この場合、前記比較ウインドウにおける前記配列の一部は、前記2つの配列の最適なアライメント用の、(付加または欠失を含まない)参照配列と比較した場合、付加または欠失(すなわち、ギャップ)を含み得る。前記割合は、同一のヌクレオチドまたはアミノ酸の残基が両方の配列に生じる位置の数を決定して、マッチした位置の数を算出し、前記マッチした位置の数を、前記比較ウインドウにおける位置の総数で割り、その結果に100を掛けて、配列同一性の割合を算出することにより算出される。
具体的な実施形態では、核酸コード配列は、配列同一性を決定するために比較され得る。これらおよび他の実施形態では、コード配列は、付加または欠失(すなわち、ギャップ)を許容することなく整列され得る。
比較のために配列を整列させるための方法は、当分野において周知である。種々のプログラムおよびアライメントアルゴリズムは、例えば、Smith and Waterman (1981) Adv. Appl. Math. 2:482;Needleman and Wunsch (1970) J. Mol. Biol. 48:443;Pearson and Lipman (1988) Proc. Natl. Acad. Sci. U.S.A. 85:2444;Higgins and Sharp (1988) Gene 73:237-44;Higgins and Sharp (1989) CABIOS 5:151-3;Corpet et al. (1988) Nucleic Acids Res. 16:10881-90;Huang et al. (1992) Comp. Appl. Biosci. 8:155-65;Pearson et al. (1994) Methods Mol. Biol. 24:307-31;Tatiana et al. (1999) FEMS Microbiol. Lett. 174:247-50に記載されている。配列アライメント法および相同性算出の詳細な考察は、例えば、Altschul et al. (1990) J. Mol. Biol. 215:403-10に見出され得る。または、比較のための配列の最適なアライメントは、バイオインフォマティックソフトウェアのLASERGENE(商標)スイーツにおけるMEGALIGN(商標)プログラム(DNASTAR,Inc)を使用し、デフォルトパラメータを使用して行われ得る。このプログラムは、下記の参考文献に記載された複数のアライメントスキームを具体化する。Dayhoff (1978) A model of evolutionary change in proteins - Matrices for detecting distant relationships. In Dayhoff (ed.) Atlas of Protein Sequence and Structure, National Biomedical Research Foundation, Washington D.C. Vol. 5, Suppl. 3, pp. 345 358;Hein (1990) Methods Enzymol. 183:626-45;上記Higgins and Sharp (1989); Myers and Muller (1988) CABIOS 4:11-7;Robinson (1971) Comb. Theor 11:105;Santou and Nes (1987) Mol. Biol. Evol. 4:406-25;Sneath and Sokal (1973) Numerical Taxonomy--the Principles and Practice of Numerical Taxonomy, Freeman Press, San Francisco, Calif.;および、Wilbur and Lipman (1983) Proc. Natl. Acad. Sci. USA 80:726-30。
NCBI基礎局所アライメント検索ツール(BLAST(商標);Altschul et al. (1990))は、複数の配列分析プログラムと共に使用するために、複数のソース、例えば、NCBI(Bethesda,MD)から、および、インターネット上で利用可能である。このプログラムを使用する配列同一性の決定方法の説明は、BLAST(商標)についての「help」セクションに基づいて、インターネット上で利用可能である。核酸配列の比較のために、BLAST(商標)(Blastn)プログラムの「Blast2配列」機能が、デフォルトパラメータに設定されたデフォルトBLOSUM62マトリクスを使用して使用され得る。参照配列に対するさらに大きな類似性を有する核酸配列は、この方法により評価された場合、大きな割合の同一性を示すであろう。
合成:本願明細書で使用する時、ヌクレオチド配列(または、合成ヌクレオチド配列を含む核酸分子)に対する言及において、「合成」の用語は、例えば、所望のコードされたポリペプチドを発現させる目的で、(例えば、in silicoにおいて)設計された配列を意味する。「合成ヌクレオチド」の用語は、遺伝子合成の当業者に公知のin vitroもしくはin vivoにおける方法により、または、in vitroもしくはin vivoにおける方法の組み合わせにより、化学的に合成されたオリゴヌクレオチドによる核酸分子の製造の生成物も含む。
IV.アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列
この開示は、分岐したコドン最適化核酸配列を設計するための方法を提供する。一部の実施形態では、本発明の方法は、所望のポリペプチドをコードする核酸配列を設計するために使用され得る。この場合、前記所望のポリペプチドは、少なくとも1つのアミノ酸繰り返し領域を含む。特定の実施形態では、前記所望のポリペプチドは、複数のアミノ酸繰り返し領域を含み得る。各アミノ酸繰り返し領域は、1つまたはそれ以上のアミノ酸繰り返し単位を含み得る。本発明の方法により設計された分岐したコドン最適化核酸配列を含む配列によりコードされたポリペプチドは、一部の実施形態では、例えば、長さが10から300個のアミノ酸のアミノ酸繰り返し領域を含み得る。実施形態において、本発明の使用は、アミノ酸繰り返し領域を含むポリペプチドをコードする合成ヌクレオチド配列に通常関連する特定の問題を回避する。一部の実施形態では、開示された方法の使用により回避される問題は、転写物の不安定性;異種遺伝子の不安定性;比較的低い発現;非効率な遺伝子合成;および、非効率な遺伝子配列決定を含み得る。
一部の実施形態では、核酸分子のコード領域のみが、本開示に基づく方法を使用して設計される。ただし、一部の実施形態では、上流、下流またはコード配列(例えば、イントロン)内のいずれかに、特定の非コード配列を含むのが望ましい場合がある。したがって、一部の実施形態では、記載された合成コード配列を含む核酸分子に含まれる任意の非コード配列の配列は、本開示の方法に考慮され得る。
一部の実施形態では、少なくとも1つのアミノ酸繰り返し単位を含むポリペプチドをコードする合成核酸配列が提供される。所望のポリペプチドをコードする分岐したコドン最適化核酸配列を設計するための方法は、一般的には、発現された所望のポリペプチドまたは遺伝子産物により開始する。または、前記方法は、公知または未知の機能を有する遺伝子または核酸配列により開始してもよい。例えば、前記方法は、ポリペプチドを発現するために、例えば、前記核酸配列によりコードされたポリペプチドの機能を研究するために、合成核酸配列を設計するために使用され得る。一部の実施形態では、所望のポリペプチドは、所望の参照アミノ酸配列、例えば、参照タンパク質または参照タンパク質ドメインを設計し、または、同所望の参照アミノ酸配列から派生され得る。他の実施形態では、所望のポリペプチドは、例えば、特定のアミノ酸配列を有する分子について期待された特定の生化学的または生物物理学的特徴を取得するために、または、所望の活性についてスクリーニングされた分子を取得するために、新たに設計され得る。実施形態において、分岐したコドン最適化核酸配列は、所望の任意のポリペプチドの全部または一部をコードするように設計され得る。
本発明の方法は、当業者に公知の各種の理由、例えば、発現を向上させる、発現される核酸配列を新たな宿主細胞または有機体に適合させる、ならびに、機能性および/または非機能性の変異を、コードされたポリペプチド内に導入するために、合成核酸配列を設計するために使用され得る。典型的には、参照アミノ酸配列が天然由来の遺伝子産物または天然由来の遺伝子産物の一部(例えば、単離されたタンパク質ドメイン)である実施形態では、前記参照アミノ酸配列をコードする天然由来の核酸配列が、例えば、ゲノムデータベースを検索するか、または、ソースゲノムからクローニングすることにより取得され得る。多くの場合、このような核酸配列のホモログまたはオルソログも、他の有機体のゲノムに見出され得る。実施形態において、所望のポリペプチドの全部または一部をコードする分岐したコドン最適化核酸配列は、任意の参照ポリペプチドをコードする配列を設計し、または、同配列から派生され得る。具体的な実施形態では、前記参照ポリペプチドおよび前記所望のポリペプチドは、少なくとも1つのアミノ酸繰り返し領域を含む。
一部の実施形態では、開示された方法は、コードされたポリペプチドの一次構造が非電荷であるように、合成核酸分子におけるヌクレオチド配列の最適化を含む。前記コードされたポリペプチドの構造は、前記ポリペプチドのアミノ酸配列により、最も広い範囲に対して決定される。したがって、コードされたポリペプチドについての所望の構造は、遺伝情報および標準的なコドン利用の縮重により決定されるそのヌクレオチドコード配列における制限を設ける。本発明の特定の実施形態では、合成核酸分子は、前記核酸分子が、所望のポリペプチドの全部または一部(例えば、アミノ酸繰り返し領域)をコードするコドンスペースから選択された特定の分岐したコドン最適化配列を含むように、in silicoにおいて設計され得る。選択された特定の配列の包含は、アミノ酸繰り返しドメインを含むポリペプチドをコードするヌクレオチド配列に関連する特定の問題を回避することができ、例えば、発現宿主有機体のコドン利用バイアスに対する言及によりほとんどコドン最適化されていない配列と比較した場合、1つまたはそれ以上の所望の特性(例えば、向上した発現)を達成することができる。
一部の実施形態では、ついで、前記所望のポリペプチドのアミノ酸繰り返し領域をコードする核酸配列は、それぞれ、前記所望のタンパク質全体をコードする核酸配列から、別々の配列として抽出され得る。前記抽出された配列は、コドン最適化ヌクレオチド配列のセット;例えば、前記所望のポリペプチドのアミノ酸繰り返し領域をそれぞれコードするヌクレオチド配列のセットを設計するために使用され得る。ついで、前記コドン最適化ヌクレオチド配列のセットは、分岐したコドン最適化ヌクレオチド配列を設計するために使用され得る。各種の要因が、コドン最適化ヌクレオチド配列が設計される際に考慮され得る。これらの要因は、発現宿主有機体のコドン利用バイアスを含み得る。
各種の方法が、所定のパラメータに基づいて、核酸分子のコード配列(例えば、所望のポリペプチドにおけるアミノ酸繰り返し領域をコードするヌクレオチド配列)を最適化するために、当業者に利用可能である。例えば、当業者は、例えば、発現宿主有機体のコドン利用バイアスにより良好に一致させる精査により、コード配列を最適化し得る。より一般的には、コンピュータで実行されるソフトウェアプログラムが、コード配列を最適化するために使用され得る。このようなソフトウェアプログラムは、所望のコードされたポリペプチドの発現に影響を及ぼし得る要因、転写物の翻訳開始の速度に影響を及ぼし得る要因および前記コードされたポリペプチドまたはその前駆体の翻訳伸長の速度に影響を及ぼし得る要因を含む群から選択される要因を最適化する、1つまたはそれ以上のアルゴリズムを含み得る。このようなソフトウェアプログラムの具体的な例としては、制限されず、OPTGENE(商標)(Ocimum Biosolutions)、Accelrys GCG(商標)(Accelrys Software,Inc.)、OPTIMIZER(商標)(genomes.urv.es/OPTIMIZERにおいてワールドワイドウェブ上で公衆に利用可能)およびOPTIMUMGENE(商標)(GenScript)があげられる。
一部の実施形態では、所望のポリペプチドのアミノ酸繰り返し領域をそれぞれコードする抽出された配列は、まず、前記抽出された配列(例えば、in silico翻訳)によりコードされるアミノ酸配列を推測することにより、コドン最適化され得る。更なる実施形態では、アミノ酸繰り返し領域のアミノ酸配列は、コドン最適化核酸配列を取得するために直接使用され得る。具体的な実施形態では、(核酸配列から推測されたか、または、直接提供されたかどうかに関わらず)各アミノ酸繰り返し領域のアミノ酸配列は、アミノ酸繰り返し領域をコードするコドン最適化核酸配列(例えば、in silico逆翻訳)を、例えば、所定のパラメータに基づいてコード配列を最適化可能なコンピュータで実行されるソフトウェアプログラムを使用することにより推測するために使用され得る。特定の例では、コドン最適化核酸配列は、発現宿主有機体についての、標準的な遺伝情報および適切なコドン利用バイアステーブルを使用して推測され得る。一部の実施形態では、各アミノ酸繰り返し領域をコードする複数のコドン最適化核酸配列を推測するのが望ましい場合がある。このため、具体的な例では、1つのアミノ酸繰り返し領域は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれ以上のアミノ酸繰り返し領域をコードするコドン最適化核酸配列のセットを推測するために使用され得る。一部の実施形態では、前記アミノ酸繰り返し領域をコードする推測されたコドン最適化核酸配列は、コンピュータで実行されるソフトウェアプログラムによるテキストファイル内にエクスポートされることができ、または、その他の方法で実務家用に記録されることができる。例えば、コンピュータで実行されるソフトウェアプログラムは、1つのアミノ酸繰り返し領域をコードする推測されたコドン最適化核酸配列のセット全体についての対応する数のテキストファイル内にエクスポートされてもよい。
一部の実施形態では、アミノ酸繰り返し領域をコードする前記推測されたコドン最適化核酸配列は、配列相同性により整列され得る。具体的な例では、所望のポリペプチドの類似するアミノ酸繰り返し領域の全てに対応する推測されたコドン最適化核酸配列の全セットにおける各配列は、互いに全て整列される。このため、10個のコドン最適化核酸配列それぞれが推測されるための、類似の繰り返しとして特定される10個の領域を有するポリペプチドは、100個の核酸配列のアライメントにより、設計方法のこの段階において提供され得る。具体的な例では、前記推測されたコドン最適化核酸配列は、タンパク質コード領域のセグメントに対応する。前記アライメントは、許容される「ギャップ」を含まずに行われ得る。
一部の実施形態では、推測されたコドン最適化核酸配列は、コンピュータで実行されるソフトウェアプログラム(例えば、CLUSTALW(商標)Mega3.1;www.megasoftware.net/において利用可能)を使用して整列され得る。前記推測された配列のアライメント中または同アライメント後に、アルゴリズム(例えば、CLUSTAL(商標)アルゴリズム)は、当業者に公知の方法により、近隣結合ツリーを構築し得る。
具体的な実施形態では、近隣結合ツリーは、所望のポリペプチドにおけるアミノ酸繰り返し領域用の特定の分岐したコドン最適化核酸配列を選択するために使用され得る。一部の実施形態では、前記特定の分岐したコドン最適化核酸配列は、具体的なアミノ酸繰り返し領域に対応する推測されたコドン最適化核酸配列のセットから選択され得る。他の実施形態では、近隣結合ツリーは、所望のポリペプチドにおける各アミノ酸繰り返し領域用の特定の分岐したコドン最適化核酸配列を選択するために使用され得る。具体的な例では、具体的なアミノ酸繰り返し領域に対応する前記推測されたコドン最適化核酸配列のセットの1つは、最も深く分岐した前記近隣結合ツリーのセクションから選択される。前記選択された配列は、分岐したコドン最適化核酸配列である。
前述に基づいて、本発明の方法は、所望のポリペプチドにおけるアミノ酸繰り返し領域をコードする、1つの分岐したコドン最適化核酸配列を提供するために使用され得る。具体的な例では、方法は、1つの分岐したコドン最適化核酸配列のセットを提供するために使用され得る。そのそれぞれは、所望のポリペプチドの異なるアミノ酸繰り返し領域をコードする。例えば、1つの分岐したコドン最適化核酸配列のセットは、所望のポリペプチドにおけるアミノ酸繰り返し領域のそれぞれまたは全てが、同じものをコードする1つの分岐したコドン最適化核酸配列により表されるように提供され得る。
一部の実施形態では、アミノ酸繰り返しドメインをコードする、選択された分岐したコドン最適化核酸配列は、前記選択された分岐したコドン最適化核酸配列が、前記所望のポリペプチド全体をコードする最適化された核酸配列における具体的な繰り返しについての適切な位置に包含され、一方、前記所望のポリペプチドについての正確な読み枠が維持されるように、所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。例えば、所望のポリペプチドの異なるアミノ酸繰り返し領域それぞれをコードする1つの分岐したコドン最適化核酸配列のセットの全メンバーは、前記セットの全メンバーが、所望のポリペプチドの配列全体における特定の繰り返しについてのその正確な位置において包含されるように、前記所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。具体的な例では、所望のポリペプチドのアミノ酸繰り返しのそれぞれおよび全部を提供するセットにおける全ての分岐した1つのコドン最適化核酸配列は、前記配列における特定の繰り返しについてのその正確な位置において前記所望のポリペプチド全体をコードする最適化された核酸配列内に包含され得る。このため、本発明の一部の実施形態は、所望のポリペプチドをコードする合成核酸配列を産生するために使用され得る。この場合、前記ポリペプチドの全アミノ酸繰り返し領域は、分岐したコドン最適化核酸配列によりコードされる。
多くの実施形態では、最適化されたポリペプチドをコードする核酸配列全体が望ましくあり得る。さらに、所望のポリペプチドをコードする配列を含む核酸分子の非コード領域が最適化され得る。このため、本発明は、一部の実施形態では、所望のポリペプチドをコードする最適化された配列を含む合成核酸分子も含む。この場合、前記最適化された配列は、先に説明されたように、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む。前記核酸配列の最適化は、外来タンパク質を産生する宿主の能力を改善する工程、および、発現構築物の効率的な設計および構築において研究者を補助する工程を含み得る。最適化戦略は、例えば、翻訳開始領域の修飾、mRNA構造エレメントの変異および異なるコドンバイアスの使用を含み得る。
当業者に利用可能な任意の方法は、所定のパラメータに基づいて、核酸配列(例えば、所望のペプチドのアミノ酸繰り返し領域をコードするヌクレオチド配列)を最適化するために使用され得る。例えば、ソフトウェアプログラム、例えば、制限されず、OPTGENE(商標)(Ocimum Biosolutions)、ACCELRYS GCG(商標)(Accelrys Software,Inc.)、OPTIMIZER(商標)(genomes.urv.es/OPTIMIZERにおいてワールドワイドウェブ上で公衆に利用可能)およびOPTIMUMGENE(商標)(GenScript)が使用され得る。核酸配列(例えば、所望のポリペプチドをコードするヌクレオチド配列)の最適化中に考慮され得る要因は、制限されず、所望のコードされたポリペプチドの発現に影響を及ぼし得る要因;転写物の翻訳開始の速度に影響を及ぼし得る要因;および前記コードされたポリペプチドまたはその前駆体の翻訳伸長の速度に影響を及ぼし得る要因を含み得る。コドン最適化配列のセットを設計する間に考慮されるこれらの要因の選択は、当業者の裁量内である。
核酸配列によりコードされる前記所望のポリペプチドの発現に影響を及ぼし得る要因は、前記ポリペプチドのアミノ酸をコードするために選択された具体的なコドンにより影響を受け得る。テンプレート核酸配列からのmRNAの産生速度に影響を及ぼす要因は、転写に使用されるRNAポリメラーゼの種類;発現系に存在するRNAポリメラーゼレベル;および、使用される転写プロモータ配列を含み得る。前記mRNAレベルは、mRNAの分解速度によっても影響を受け得る。次に、前記mRNAの分解速度は、mRNA不安定化モチーフ;RNAse認識配列;mRNA二次構造;およびポリA付加シグナルにより影響を受け得る。前記mRNAレベルは、翻訳開始部位、リボソーム結合部位、開始コドンおよび/またはコード配列の最初の10−50コドン(または、オープンリーディングフレーム内もしくは同フレーム後のどこか)におけるmRNAの構造;前記オープンリーディングフレーム前もしくは同フレーム内に存在する転写終了モチーフ;ならびに、転写された配列、例えば、mRNAスプライシングおよび/または核外移行を方向付けし、変更し、または、修飾するもの内のシグナルによっても影響を受け得る。テンプレート配列からのmRNA産生の速度に影響を及ぼす要因の具体的な例は、ヌクレオチド繰り返し誘導ポリメラーゼスリッページである。ヌクレオチド繰り返し誘引ポリメラーゼスリッページは、フレームシフト変異をもたらし得るDNAポリメラーゼのスリッページまたはスタッタリングを引き起こすことが示されてきたヌクレオチド配列繰り返しを含む。このようなヌクレオチド繰り返しも、RNAポリメラーゼのスリッページを引き起こし得る。例えば、高いG+C含量バイアスを有する有機体において、より高い度合いのGまたはCのヌクレオチド繰り返しが存在し得る。したがって、RNAポリメラーゼスリッページを誘導する可能性を低下させる1つの方法は、GまたはCヌクレオチドの伸長された繰り返しを変化させることを含む。
特定の転写物についての翻訳開始の速度に影響を及ぼし得る要因としては、リボソーム結合部位の配列;前記リボソーム結合部位の上流の配列;開始コドン周囲の配列(例えば、Kozakコンセンサス配列);内部リボソーム進入部位の存在、相対位置および配列;前記リボソーム進入部位(または前記リボソーム結合部位またはmRNAの5’末端)と開始コドンとの間の配列および距離;翻訳開始部位におけるmRNAの構造;前記リボソーム結合部位におけるmRNAの構造;前記開始コドンにおけるmRNAの構造;コード配列の最初の10−50コドン周囲のmRNAの構造;最初の10−20コドンの配列;前記最初の10−20コドンのGCバイアス;前記開始コドンに隣接するコドンにおいて使用されるコドン;前記開始コドンの配列(AUG、UUGまたはGUG):リボソーム濃度;発現誘導前の増殖条件;発現中の増殖条件;発現誘導前の温度;ならびに発現中の温度があげられる。
特定の転写物についての翻訳開始の速度に影響を及ぼし得る要因の具体例としては、交互の翻訳開始および干渉mRNAの二次構造があげられる。交互の翻訳開始は、リボソーム結合部位(RBS)として機能し得る1つ以上のモチーフを不注意に含む合成ポリヌクレオチド配列において起こり得る。これらの部位は、遺伝子内部位からのトランケートタンパク質の翻訳の開始をもたらし得る。精製中に除去するのを困難にし得る、トランケートタンパク質を産生する可能性を低下させる1つの方法は、最適化されたポリヌクレオチド配列からの推定の内部RBS配列を修飾する工程を含む。干渉二次構造は、前記RBS配列または開始コドンを隔離することができ、タンパク質発現の低下に相関している。ステム−ループ構造も、転写停止および転写減衰に関与し得る。このため、最適化されたポリヌクレオチド配列は、改善された転写および翻訳を可能にするために、ヌクレオチド配列の前記RBSおよび遺伝子コード領域における最少二次構造を含み得る。
翻訳伸長の速度に影響を及ぼし得る要因は、荷電したtRNAのレベルを含む(Elf et al. (2003) Science 300:1718-22)。前記レベルは、tRNA濃度、tRNAの荷電割合およびアミノ酸利用性により決まる。例えば、宿主有機体のコドン利用バイアスに基づくレア(または好ましくない)コドンにより引き起こされる翻訳停止は、異種タンパク質の発現速度を低下させ得る。レアコドン誘導翻訳停止は、前記宿主有機体においてほとんど使用されず、利用可能なtRNAプールにおけるその不足により、タンパク質翻訳にネガティブな作用を有し得る所望のポリヌクレオチドにおけるコドンの存在を含む。これらの要因は、リボソームtRNA選択の速度(デコード速度)も含む。前記速度は、コドン−アンチコドン相互作用の強度;先行コドン(P−部位コドン);前記先行コドンの揺らぎ塩基;読まれたコドンの揺らぎ塩基により決まる。リボソームフィデリティに影響を及ぼし得る要因は、リボソームフレームシフト、例えば、ホモポリマーストレッチ、G/Cアイランド、A/Tアイランドおよび停止位置近くのホモポリマーストレッチに影響を及ぼすものを含む。さらに、一部のポリペプチドは、リボソーム出口チャネルに妨害され得る。前記妨害は、前記ポリペプチドにおける最初の10−20アミノ酸の配列によりある程度決まる。前述を考慮して、宿主有機体における最適な翻訳を改善する1つの方法は、合成核酸配列において修飾されるレア宿主コドンをもたらし得るコドン最適化を行う工程を含む。
(間接的であるにも関わらず)異種タンパク質発現に影響を及ぼし得る別の分類の核酸配列エレメントは、制限部位を含む。このため、核酸配列の最適化は、例えば、宿主発現ベクター内の転写ユニットのその後のサブクローニングと干渉し得る制限部位の修飾を含み得る。
核酸配列の全部または一部は最適化され得る。一部の例では、発現の所望の調節は、遺伝子全体を本質的に最適化することにより達成され得る。他の例では、所望の調節は、遺伝子の全てではないが最適部により達成され得る。さらに、任意のコード配列のコドン利用は、所望の特性、例えば、特定の発現宿主細胞における高レベルの発現を達成するために調節され得る。このような最適化のための開始点は、前記発現宿主のコドン利用バイアス、または、共通および非共通のコドンの混合物を含むコード配列に基づいて、共通して使用されるか、または、好ましいコドンのみからなるコード配列であり得る。核酸配列を最適化することは、遺伝子発現またはタンパク質産生に、ネガティブまたはポジティブに影響を及ぼし得る。例えば、レアコドンまたは好ましくないコドンをより共通したコドンにより置き換えることは、前記置き換えられたコドンを含む配列から転写されたmRNA分子の半減期に影響を及ぼす場合があるか、または、その翻訳と干渉する二次構造を導入することによりその構造を変化させる場合がある。したがって、特定の例では、最適化された配列をさらに変化させる必要がある場合がある。
一部の実施形態内では、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む合成核酸配列は、2つまたはそれ以上の最適化された配列を含み得る。例えば、このような配列は、本願明細書に記載された複数のポリペプチドを含むか、または、本願明細書に記載された少なくとも1つのポリペプチドおよび関連しない配列を含む融合ポリペプチドをコードし得る。融合ポリペプチドは、両コンポーネントポリペプチドの少なくとも1つの生物学的活性を保持する1つの融合ポリペプチドへの翻訳を許容するように、標準的な技術、例えば、化学的なコンジュゲートを使用して調製され得る。ペプチドリンカー配列は、各ポリペプチドが適切な二次および三次構造にフォールドするのを確保するのに十分な距離により、融合ポリペプチドのポリペプチドコンポーネントを分離するために使用され得る。このようなペプチドリンカー配列は、当分野において周知の標準的な技術を使用して、前記融合ポリペプチド内に包含され得る。
アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む合成核酸配列は、例えば、組換えポリペプチドを産生し、新たな発現系を開発し、他の核酸配列のそれと発現特性を比較するための各種の用途における使用、ならびに、診断用途のために発現され得る。
V.分岐したコドン最適化核酸配列の発現
本開示は、細胞の細胞質および/または周辺質におけるアミノ酸繰り返しを含む所望のポリペプチドを製造する方法を提供する。一部の実施形態は、宿主有機体(例えば、細菌宿主有機体)における異種発現に最適化された合成核酸配列を使用する。アミノ酸繰り返し領域を含むポリペプチドをコードする最適化された合成核酸配列は、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含み得る。具体的な実施形態では、このような最適化された合成核酸配列は、発現ベクター内にライゲーションされ得る。前記最適化された核酸配列を含む発現ベクターは、(例えば、形質転換により)発現宿主細胞内に導入され得る。この場合、ポリペプチドは、前記最適化された合成核酸配列から発現される。
所望のポリペプチドをコードする合成核酸配列を含む核酸分子は、当業者に公知の方法により製造され得る。例えば、一部の実施形態では、所望の核酸配列の比較的短いセグメントが、確かに合成され、続けて、濃縮され得る。DNA合成の分野における進歩は、より長い核酸配列および比較的より短い核酸セグメントの確かな合成を可能にしてきた。合成技術は、300塩基以上の合理的に正確なオリゴヌクレオチド合成を可能にする。このため、一部の実施形態では、より長い配列が、濃縮が必要とされ得ないように合成され得る。しかしながら、合成の化学的に製造されたオリゴヌクレオチドは、典型的には、長さが20と100bpとの間である。一部の実施形態では、合成遺伝子または遺伝子フラグメントは、最終的な所望の配列をコードするように設計された、合成的に変異し、オーバーラップしたセンスおよびアンチセンスのオリゴマー(例えば、長さが90−110bp)のアニーリングおよび伸長による段階的な方法におけるPCRを使用して調製され得る。
オリゴヌクレオチド製造は、固相合成としてのホスホルアミダイトプロトコルにより行われるオリゴ合成を含み得る。簡潔に、5’−O−ジメトキシトリチル(DMT)基により保護されたその5’−OH官能基を有する第1のヌクレオチドが、固相としてのポリスチレンビーズに結合され得る。次に、前記DMT基が、酸処理により除去されて、遊離した5’−OH基を生じ得る。ついで、選択肢のホスホルアミダイトが添加され、弱酸性条件において、反応性の中間体に変換され、前記遊離した5’−OHに結合され、新たな亜リン酸結合を産生し得る。これらの反応は、テトラヒドロフランまたはジメチルスルホキシドにおいて行われ得る。前記添加されたヌクレオチドの5’−OHが保護されたままである場合、1つのヌクレオチドのみが、伸長中の鎖に付加される。反応しない5’−OH基は、それらが、合成プロセスに加わり続け、欠失を含むオリゴヌクレオチドを生成し得ないように、キャップされ得る。これは、酢酸および1−メチルイミダゾールによる処理後のアセチル化により達成され得る。最終的に、水およびヨウ素が、前記亜リン酸結合をホスホジエステル結合に酸化するために添加され得る。工程間において、前記製造システムは、適切な溶媒による洗浄により調節され得る。必要に応じてこの一連の工程を繰り返した後、前記オリゴヌクレオチドは、最終的に、カラムから開裂され、高温において水酸化アンモニウムにより処理されて、全ての残った保護基を除去し得る。このプロセスは、例えば、NIMBLEGEN(商標)(Febit,Germany)により提供された、フォトリソグラフィーアプローチの使用により、より効率的になされ得る。
短いオリゴヌクレオチドが固体合成により製造された後に、前記オリゴヌクレオチドは、例えば、約500bpのサイズに、より大きなDNAフラグメントへとアッセンブリされ得る。これは、典型的には、各種の酵素支援法の1つにより達成される。例えば、短いオーバーラップしたオリゴヌクレオチドペアは、より長いdsDNA分子を、Klenow伸長反応を介して生成するために使用され得る。対応するオリゴヌクレオチドは、混合され、ハイブリダイズされ、ついで、PCAによりより長いアッセンブリに変換され得る。PCA反応において、標的二本鎖DNAフラグメントを共に表す全てのオリゴヌクレオチドが存在する。融解および再ハイブリダイゼーションが繰り返されることにより、前記オリゴヌクレオチドは、特定の集合が所望の長さに達するまで、より長いセクションに段階的に伸長される。この反応が、過剰の末端オリゴヌクレオチドを含まずに行われるため、増幅反応ではないことに留意する。むしろ、全ての全長フラグメントは、オリゴヌクレオチドおよびその伸長からなることにより、ポリメラーゼ作用によるエラーを導入する機会を低下させる。PCAに対する別の方法は、ポリメラーゼアセンブリ多重化(PAM)である。この場合、末端プライマーが、前記オリゴヌクレオチドの特定の部分集合のみが増幅されるように、オリゴヌクレオチドのプールに添加される。PAM反応の第2ラウンドにおいて、複数のオリゴヌクレオチドは、プライマーの新たなセットを使用することにより、1つのDNA分子に組み換えられ得る。
大きなオリゴヌクレオチド(例えば、PCA、PMA等により製造されたオリゴヌクレオチド)は、例えば、制限消化およびライゲーションにより、さらにより大きなDNA分子内にアッセンブリされ得る。
各種の発現系が、本発明の最適化された核酸配列からのポリペプチドの発現に使用され得る。一部の実施形態では、発現系は、例えば、制限されず、細菌の発現系、例えば、Escherichia coli、Salmonella種、Bacillus種、Streptomyces種、Pseudomonas種(例えば、P.fluorescens)、Ralstonia eutropha、Chlamydomonas種;酵母の発現系、例えば、Saccharomyces、Pichia、KlebsiellaおよびCandida種、S.cerevisiae、P.pastoris、P.methanolicaおよびK.lactis;真菌の発現系、例えば、CryptosporidiumおよびTrichoderma種;糸状菌のタンパク質産生系;原生動物の発現系、例えば、Plasmodium falciparumおよびLeishmania;モデル有機体、例えば、Caenorhabditis elegans、Drosophila melanogasterおよびXenopus laevis;植物、例えば、ダイズ、インゲンマメ、トウモロコシ、綿花、タバコおよびシロイヌナズナ;哺乳類の組織培養発現系、例えば、COS細胞、チャイニーズハムスター卵巣細胞および線維芽細胞、例えば、3T3細胞;アデノウイルスに感染した細胞株;昆虫細胞株、例えば、バキュロウイルスを増殖させるためのSpodoptera種由来のもの;生きた細胞の抽出物、例えば、E.coliの抽出物、小麦胚芽抽出物、ウサギの網状芽赤血球ライゼートから調製されたin vitro発現系;ならびに、精製された個々の成分のアッセンブリにより調製されたin vitro発現系であり得る。
アミノ酸繰り返し領域を含む所望のポリペプチドが原核細胞または発現系において発現される実施形態では、前記所望のポリペプチドをコードする最適化された核酸配列は、まず、原核生物のベクター内に、複製起点および都合の良い制限部位を有するベクターを直線化することによりクローニングされ得る。前記ベクターは、前記核酸配列の挿入用のポリリンカーを含み得る。前記ベクターは、選択用のマーカー遺伝子も有し得る。前記マーカー遺伝子は、抗生物質耐性を付与してもよく、または、別の分別特性(例えば、発色団または蛍光体の形成)を提供してもよい。マーカー支援型選択に使用され得る幅広い各種の抗生剤(例えば、テトラサイクリン、クロラムフェニコール、アクチノマイシン、ネオマイシン、アンピシリン、ヒグロマイシン、重金属等)が存在する。他のマーカーとしては、β−ガラクトシダーゼがあげられる。β−ガラクトシダーゼは、発現された場合、基材であるX−galを変換して、青色を呈する。数多くのベクターが、細菌におけるクローニング用に市販されており、これらのベクターは、当業者に周知である。一部の実施形態では、ついで、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列を含む1つまたはそれ以上の最適化された合成核酸配列を含む原核生物のベクターは、任意の都合の良い手段、例えば、制限されず、リン酸カルシウム沈殿DNA、融合、トランスフェクションおよびコンジュゲーションにより、適切なクローニング宿主内に導入され得る。ついで、前記細胞は、適切な選択栄養培地において増殖され得る。生き残った細胞が、収集、溶解され、プラスミドが単離され得る。
原核生物の発現ベクターは、通常、エピソームメンテナンス用の適切な発現宿主において機能する複製起点および選択用マーカーを有することにより特徴付けられ得る。融合していないベクターまたは構築物について、前記複製起点は、通常、マルチコピー、例えば、平均で少なくとも5つのコピーを提供するであろう。前記発現ベクターは、典型的には、前記発現宿主において機能するプロモータも有するであろう。数多くのプロモータが利用可能であり、具体的なプロモータが、例えば、高レベルの誘導性または構成型のいずれかの転写を提供し得る。一部の実施形態では、有用であり得る例示となるプロモータとしては、制限されず、β−ラクタマーゼ;α−ガラクトシダーゼ;λPLもしくはλPRプロモータ;trpEプロモータ;trp−lacプロモータ;T7プロモータ(特に、遺伝子9および10);ならびに、cItsがあげられる
最適化された配列を含む核酸分子、例えば、アミノ酸繰り返し領域をコードする分岐したコドン最適化核酸配列は、ハイブリダイゼ―ション、例えば、ライゲーションにより、直線化されたベクターと組み合わせられ得る。前記最適化された配列が開始コドンを有さない場合、このようなコドンが追加され得る。一部の実施形態では、核酸分子は、プロモータの転写制御下において、前記ベクター中に(適切な読み枠中に)存在するコード配列内に挿入され得る。シグナル配列は、周辺部空間内におけるポリペプチド産物の分泌を可能にするために、コード配列の5’末端に含まれ得る。一般的には、前記産物は、細胞内で産生されるであろう。
ベクターに代えて、DNA構築物が、発現宿主の形質転換に使用され得る。この場合、前記構築物は、前記発現宿主のゲノム内に組み込まれ得る。前記構築物は、エピソームメンテナンスを提供する複製起点を欠く場合がある。構築物は、少なくとも転写および翻訳開始および終了領域を含み得る。アミノ酸繰り返し領域を含むポリペプチドをコードする最適化された配列は、その調節制御下において、開始領域と終了領域との間に位置し得る。構築物は、選択マーカーおよび/または他の機能性配列、例えば、制限されず、前記宿主ゲノム内への組み込み用の相同性配列;PCRプライマーにハイブリダイズする配列;および制限部位をさらに含み得る。
一部の実施形態では、発現宿主は、植物細胞、例えば、植物の組織培養物または植物全体における植物細胞等であり得る。本発明の実施形態は、任意の組織または、それらが見出される箇所、例えば、制限されず、胚、分裂組織細胞、癒合組織、花粉、葉、葯、根、根冠、花、種子、さや、茎および組織培養物由来の植物細胞を含み得る。本発明の合成の最適化された核酸配列は、適切なベクター内に包含され、当業者に公知の任意の方法により植物細胞内に導入され得る。例えば、核酸分子は、植物細胞内に、例えば、制限されず、ウイルスベクターによるトランスフェクション、プラスミドベクターによる形質転換、エレクトロポレーション(Fromm et al. (1986) Nature 319:791-3)、リポフェクション(Felgner et al. (1987) Proc. Natl. Acad. Sci. USA 84:7413-7)、マイクロインジェクション(Mueller et al. (1978) Cell 15:579-85)、Agrobacterium媒介性移行(Fraley et al. (1983) Proc. Natl. Acad. Sci. USA 80:4803-7)、直接的なDNA取り込みおよび微粒子銃(Klein et al. (1987) Nature 327:70)等の方法により導入され得る。
一部の実施形態では、核酸分子は、(例えば、ナノ粒子銃により)植物細胞の特定部分内に導入され得る。核酸分子が導入され得る植物細胞の特定部分の例としては、制限されず、細胞質、核、液胞膜、プラスチド、エチオプラスト、クロモプラスト、ロイコプラスト、エライオプラスと、プロテイノプラスト、アミロプラスト、クロロプラストおよび二重膜の空洞があげられる。
細胞の形質転換(例えば、植物細胞の形質転換)は、特定の細胞において機能するであろう発現ベクターの構築を含み得る。このようなベクターは、調節エレメント(例えば、プロモータ)の制御下における、または、同エレメントに操作可能に結合された、遺伝子を含むDNAを含み得る。前記発現ベクターは、1つまたはそれ以上のこのような操作可能に結合された遺伝子/調節エレメントの組み合わせを含み得る。前記ベクターは、単独で、または、植物細胞の遺伝材料内に導入遺伝子を包含させるための、本願明細書に記載された形質転換法を使用して形質転換された細胞を提供するための他のプラスミドとの組み合わせで、使用され得るプラスミドの形式であり得る。
植物細胞発現ベクターは、マーカーを含む形質転換細胞が、ネガティブ選択(すなわち、選択マーカー遺伝子を含まない細胞の増殖を阻害すること)、または、ポジティブ選択(すなわち、前記遺伝子マーカーによりコードされた産物についてスクリーニングすること)のいずれかにより回収されるのを可能にする調節エレメント(例えば、プロモータ)に操作可能に結合された、少なくとも1つの遺伝子マーカーを含み得る。植物の形質転換に適した多くの選択性マーカー遺伝子が、形質転換の分野において周知であり、例えば、抗生物質または除草剤であり得る選択的薬剤を代謝的に解毒する酵素をコードする遺伝子、または、阻害剤に非感受性である変異したターゲットをコードする遺伝子を含む。数種類のポジティブ選択法も、当分野において公知である。一部の実施形態では、植物の形質転換に適した選択性のマーカー遺伝子は、植物調節シグナルの制御下におけるネオマイシンホスホトランスフェラーゼII(nptII)遺伝子(前記遺伝子は、カナマイシンに対する耐性を付与する(例えば、Fraley et al. (1983) Proc. Natl. Acad. Sci. U.S.A. 80:4803を参照のこと。)。);ヒグロマイシンホスホトランスフェラーゼ遺伝子(前記遺伝子は、抗生物質であるヒグロマイシンに対する耐性を付与する(例えば、Van den Elzen et al. (1985) Plant Mol. Biol., 5:299を参照のこと。)。);抗生物質に対する耐性を付与する細菌起源のマーカー遺伝子、例えば、ゲンタマイシンアセチルトランスフェラーゼ、ストレプトマイシンホスホトランスフェラーゼ、アミノグリコシド−3’−アデニルトランスフェラーゼおよびブレオマイシン耐性決定遺伝子(Hayford et al. (1988) Plant Physiol. 86:1216;Jones et al. (1987) Mol. Gen. Genet. 210:86;Svab et al. (1990) Plant Mol. Biol. 14:197;およびHille et al. (1986) Plant Mol. Biol. 7:171を参照のこと。);除草剤、例えば、グリホサート、グルホシネートまたはブロモキシニルに対する耐性を付与するマーカー遺伝子(Comai et al. (1985) Nature 317:741-744;Gordon-Kamm et al. (1990) Plant Cell 2:603-618;およびStalker et al. (1988) Science 242:419-423を参照のこと。);非細菌起源のマーカー遺伝子、例えば、マウスのジヒドロ葉酸還元酵素、植物の5−エノルピルビルシキメート−3−リン酸合成酵素および植物のアセトラクテート合成酵素(Eichholtz et al. (1987) Somatic Cell Mol. Genet. 13:67;Shah et al. (1986) Science 233:478;およびCharest et al. (1990) Plant Cell Rep. 8:643を参照のこと。)を含み得る。
植物の形質転換に適した別の分類のマーカー遺伝子は、毒性物質、例えば、抗生物質に対する耐性について、形質転換された細胞の直接的な遺伝子選択をするよりもむしろ、推定的に形質転換された植物細胞のスクリーニングを必要とする。これらの遺伝子は、特定の組織における遺伝子の発現の空間パターンを定量化または可視化するために特に有用であり得る。それらは、多くの場合、レポータ遺伝子と呼ばれる。それらが、遺伝子発現の研究用の遺伝子または遺伝子調節配列に融合され得るためである。形質転換された細胞をスクリーニングするために一般的に使用される遺伝子としては、β−グルクロニダーゼ(GUS)、β−ガラクトシダーゼ、ルシフェラーゼおよびクロラムフェニコールアセチルトランスフェラーゼがあげられる。Jefferson (1987) Plant Mol. Biol. Rep. 5:387;Teeri et al. (1989) EMBO J. 8:343;Koncz et al. (1987) Proc. Natl. Acad. Sci. U.S.A. 84:131;およびDeBlock et al. (1984) EMBO J. 3:1681を参照のこと。植物組織の破壊を必要としないin vivoにおけるGUS活性を可視化するための方法が利用可能である。Molecular Probes publication 2908 (1993) IMAGENE GREEN(商標), pp. 1-4;およびNaleway et al. (1991) J. Cell Biol. 115:151。蛍光タンパク質をコードする遺伝子(例えば、GFP、EGFP、EBFP、ECFPおよびYFP)は、原核細胞および真核細胞における遺伝子発現用のマーカーとしても使用されてきた。Chalfie et al. (1994) Science 263:802を参照のこと。このため、蛍光タンパク質および蛍光タンパク質の変異は、スクリーニングマーカーとして使用され得る。
植物の発現ベクターに含まれるコード配列の発現は、調節エレメント、例えば、プロモータを含むヌクレオチド配列により駆動され得る。植物細胞において有用な複数種類のプロモータは、形質転換の分野において、現在周知である。同様に、他の調節エレメントが、単独またはこのようなプロモータとの組み合わせにおいて使用され得る。
「プロモータ」の用語は、転写開始から上流にあることができ、RNAポリメラーゼおよび転写を開始するための他のタンパク質の認識および結合に関与し得るDNAの領域を意味する。「植物プロモータ」は、植物細胞において転写を開始可能なプロモータであり得る。発生制御下におけるプロモータの例としては、特定の細胞、例えば、葉、根、種子、繊維、木質部の導管、仮道管または厚壁において優先的に転写を開始するプロモータがあげられる。このようなプロモータは、「組織好適」と呼ばれる。特定の組織においてのみ転写を開始するプロモータは、「組織特異的」と呼ばれる。「細胞種特異的」なプロモータは、1つまたはそれ以上の器官における特定の細胞種、例えば、根または葉における導管細胞での発現を主に駆動する。「誘導性」プロモータは、環境制御下においてであり得るプロモータである。誘導性プロモータによる転写に影響を及ぼし得る環境条件の例としては、制限されず、嫌気条件または光の存在があげられる。組織特異的、組織好適、細胞種特異的および誘導性のプロモータは、「非構成型」プロモータの分類を構成する。「構成型」プロモータは、ほとんどの環境条件ならびにほとんどの組織および細胞種において活性であり得るプロモータである。
誘導性プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合され得る。場合により、誘導性プロモータは、シグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。前記シグナル配列をコードするヌクレオチド配列は、細胞における発現のための本発明のヌクレオチド配列に操作可能に結合され得る。誘導性プロモータに操作可能に結合されたヌクレオチド配列の転写速度は、誘導剤に対する反応において向上し得る。任意の誘導性プロモータが、本発明において使用され得る。Ward et al. (1993) Plant Mol. Biol. 22:361-366を参照のこと。例示となる誘導性プロモータとしては、制限されず、銅に反応するACEI系由来のもの(Mett et al. (1993) Proc. Natl. Acad. Sci. U.S.A. 90:4567-71);ベンゼンスルホンアミド除草剤解毒剤に反応するトウモロコシ由来のIn2遺伝子(Hershey et al. (1991) Mol. Gen Genetics 227:229-37;およびGatz et al. (1994) Mol. Gen. Genetics 243:32-8)ならびに、Tn10由来のTetリプレッサ(Gatz et al. (1991) Mol. Gen. Genetics 227:229-37)があげられる。特に有用な誘導性プロモータは、植物が通常反応しない誘導剤に反応するプロモータであり得る。例示となる誘導性プロモータは、ステロイドホルモン遺伝子由来の誘導性プロモータであり得る。その転写活性は、糖質コルチコイドステロイドホルモンにより誘導され得る。Schena et al. (1991) Proc. Natl. Acad. Sci. U.S.A. 88:10421-5。
または、構成型プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合されてもよいし、または、前記構成型プロモータは、細胞における発現のための本発明のヌクレオチド配列に操作可能に結合され得るシグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。種々の構成型プロモータが、本発明に使用され得る。例示となる構成型プロモータとしては、制限されず、植物ウイルス由来のプロモータ、例えば、CaMV由来の35Sプロモータ(Odell et al. (1985) Nature 313:810-2);コメのアクチン遺伝子由来のプロモータ(McElroy et al. (1990) Plant Cell 2:163-71);ユビキチン(Christensen et al. (1989) Plant Mol. Biol. 12:619-32;およびChristensen et al. (1992) Plant Mol. Biol. 18:675-89);pEMU(Last et al. (1991) Theor. Appl. Genet. 81:581-8);MAS(Velten et al. (1984) EMBO J. 3:2723-30)およびトウモロコシのH3ヒストン(Lepetit et al. (1992) Mol. Gen. Genetics 231:276-85;およびAtanassova et al. (1992) Plant Journal 2(3):291-300)があげられる。ALSプロモータである、Brassica napus ALS3の構造遺伝子に対するXba1/NcoIフラグメント5’(または、前記Xba1/NcoIフラグメントに対するヌクレオチド配列類似性)は、特に有用な構成型プロモータを提供する。国際公開第96/30530号を参照のこと。
または、組織特異的プロモータが、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に結合され得る。場合により、前記組織特異的プロモータは、細胞における発現のための本発明の最適化されたヌクレオチド配列に操作可能に連結され得るシグナル配列をコードするヌクレオチド配列に操作可能に結合され得る。組織特異的プロモータに操作可能に結合された本発明の最適化されたヌクレオチド配列により形質転換された植物は、特定の組織において、排他的または優先的に前記ヌクレオチド配列のタンパク質産物を産生し得る。任意の組織特異的または組織好適プロモータが、本発明に使用され得る。例示となる組織特異的または組織好適プロモータとしては、制限されず、種子好適プロモータ、例えば、ファセオリン遺伝子由来のもの(Murai et al. (1983) Science 23:476-82;および、Sengupta-Gopalan et al. (1985) Proc. Natl. Acad. Sci. U.S.A. 82:3320-4);葉特異的および光誘導性プロモータ、例えば、cabまたはルビスコ由来のもの(Simpson et al. (1985) EMBO J. 4(11):2723-9;およびTimko et al. (1985) Nature 318:579-82);別の特異的プロモータ、例えば、LAT52由来のもの(Twell et al. (1989) Mol. Gen. Genetics 217:240-5);花粉特異的プロモータ、例えば、Zm13由来のもの(Guerrero et al. (1993) Mol. Gen. Genetics 244:161-168);ならびに、小胞子好適プロモータ、例えば、apg由来のもの(Twell et al. (1993) Sex. Plant Reprod. 6:217-224)があげられる。
本発明の最適化されたヌクレオチド配列から発現されたポリペプチドの細胞内区画、クロロプラスト、液胞、ペルオキシソーム、グリオキシソーム、細胞壁もしくはミトコンドリアへの輸送またはアポプラスト内への分泌は、前記ポリペプチドをコードする配列の5’および/または3’領域に、シグナル配列をコードするヌクレオチド配列を操作可能に結合させることにより達成され得る。構造遺伝子の5’および/または3’末端における配列のターゲッティングは、タンパク質合成および前記コードされたタンパク質が最終的に区画化され得る処理中に決定し得る。または、細胞内区画ターゲッティングタンパク質は、所望の分子によりコートされたナノ粒子を所望の細胞内区画に向かわせるために、ナノ粒子に直接的に結合され得る。多くのシグナル配列が当分野において公知である。例えば、Becker et al. (1992) Plant Mol. Biol. 20:49;Close, P. S. (1993) Master’s Thesis, Iowa State University;Knox et al. (1987) Plant Mol. Biol. 9:3-17;Lerner et al. (1989) Plant Physiol. 91:124-129;Fontes et al. (1991) Plant Cell 3:483-496:Matsuoka et al. (1991) Proc. Natl. Acad. Sci. U.S.A. 88:834;Gould et al. (1989) J. Cell. Biol. 108:1657;Creissen et al. (1991) Plant J. 2:129;Kalderon et al. (1984) Cell 39:499-509;およびSteifel et al. (1990) Plant Cell 2:785-793を参照のこと。
前述の観点において、本発明の実施形態に使用するための発現宿主は、単細胞の原核生物または真核生物でもよいが、多細胞生物でもよいことが理解されるであろう。前記発現宿主は、例えば、細菌;藻類;菌類(例えば、酵母);昆虫細胞;植物細胞(例えば、トウモロコシ、ダイズおよびBrassica napus);動物細胞;バキュロウイルス;哺乳類の組織培養物;植物の組織培養物および植物全体(例えば、B.napus)を含む群から選択され得る。前記発現宿主が多細胞生物(例えば、植物)である実施形態では、ベクターまたはDNA構築物は、前記多細胞生物の1つまたはそれ以上の細胞内に導入され、その中で発現され得る。一部の例では、有機体全体が、導入されたベクターまたはDNA構築物を含む多細胞生物の1つまたはそれ以上の細胞から産生され得る。例えば、所望の核酸分子により形質転換された植物細胞から植物全体を再生し、その後そのゲノム内に前記核酸分子が組み込まれている植物を選択する方法は、当分野において公知である。
導入されたベクターまたはDNA構築物を含む発現宿主細胞は、培養(例えば、発酵)において適切な培地中で増殖され得る。前記細胞が適切な密度に増殖された後、前記細胞は、収集され、溶解され得る。発現産物は、物理的および化学的特性に基づいて単離され得る。一部の実施形態では、発現産物は、水性媒体において中程度の温度で不溶性でもよく、または、穏やかに上昇した温度での界面活性剤抽出により精製されてもよい。米国特許第5,235,041号明細書を参照のこと。適切な方法で、ついで、粗製または精製された発現産物は、その意図した目的に使用され得る。
本発明の実施形態は、所望の任意のポリペプチドの発現を可能にする。一部の例では、前記所望のポリペプチド自体は、塗工(例えば、ポリマー)に望ましくあり得る。他の例では、前記所望のポリペプチドは、更なる望ましいポリペプチド、小分子または他の物質(例えば、酵素)を産生するか、または、前記宿主に所望の表現型を導入するために、前記宿主において発現され得る。具体的な例では、所望のポリペプチドは、前記発現宿主の細胞において通常見出されないタンパク質;農学的遺伝子産物;害虫もしくは疾患に対する耐性を付与するポリペプチド;Bacillus thuringiensisのタンパク質;レクチン;ビタミン結合タンパク質(例えば、アビジン);酵素阻害剤;昆虫特異的ホルモンもしくはフェロモン;特定の有機体に特異的なペプチドもしくはニューロペプチド;毒液;モノテルペン、セスキテルペン、ステロイド、ヒドロキサム酸、フェニルプロパノイド誘導体もしくは他の非タンパク質分子の高度集積を担う酵素;生物学的に活性な分子の修飾、例えば、翻訳後修飾に関与する酵素(例えば、オメガ−3脂肪酸合成に関与する酵素);シグナル形質導入分子もしくはシグナル形質導入を刺激する分子(例えば、カルモジュリン);疎水性移動ペプチド;膜透過酵素;トランスポータもしくはチャネル;チャネルフォーマもしくはチャネルブロッカ;ウイルス侵入タンパク質もしくはそれから誘導された複合毒素;抗体もしくは免疫毒素(例えば、ウイルス特異的抗体);発生停止タンパク質;除草剤、抗カビ剤もしくは他の有害な小分子に対する耐性を付与するポリペプチド;足場タンパク質;ならびに、特定の機能(アミノ酸繰り返し領域に起因する機能、例えば、結合特性または物理特性)を有するように設計された合成ポリペプチドであり得る。一部の実施形態では、所望のポリペプチドは、天然由来が適切であり得る。他の実施形態では、所望のポリペプチドは、天然には通常見出されないポリペプチドであり得る。
一部の実施形態では、種々のパラメータを使用する配列最適化により生成された2種類またはそれ以上の候補配列(例えば、そのコドン利用が異なる配列)が生成されることができ、それらが、所望の特性を有するのかを決定するために試験されることができる。候補配列は、例えば、調節エレメント、例えば、サイレンサまたはエンハンサの存在について調査するか、または、コドン利用の変化によりこのような調節エレメントに変換され得るコード配列の領域の存在について調査するために評価され得る。更なる評価基準は、特定のヌクレオチド(例えば、A、C、GまたはU、特定のアミノ酸についてのコドンバイアス)についての富化もしくは減少、または、特定のmRNAの二次もしくは三次構造の有無を含み得る。更なる発現用の候補配列に対する調節は、このような評価基準に基づいてなされ得る。
有望な候補配列は、実験的に構築および評価をされ得る。複数の候補が、互いに独立して評価されてもよく、または、前記プロセスは、ほとんどの前記有望な候補を新たな開始点として使用するか、もしくは、新たなハイブリッドを産生するために、2つまたはそれ以上の候補の領域を組み合わせるかのいずれかにより反復され得る。修飾および評価の更なるラウンドが望ましくあり得る。
VI.分岐したコドン最適化核酸配列を含む遺伝子組換え有機体
この開示は、分岐したコドン最適化核酸配列を含む遺伝子組換え有機体も提供する。一部の実施形態では、このような有機体は、アミノ酸繰り返し領域を含む所望のポリペプチドをコードする合成の最適化核酸配列を含み得る。アミノ酸繰り返し領域を含む所望のポリペプチドをコードする合成の最適化核酸配列は、先に説明されたように、前記有機体に適した調節配列(例えば、プロモータ)に操作可能に結合され得る。具体的な実施形態では、前記有機体は、前記所望のポリペプチドを発現し得る。特定の実施形態では、所望のポリペプチドは、最適化されていない同じポリペプチドをコードする核酸配列により発現されたそれの、少なくとも105%、110%、150%、200%、500%、1,000%、5,000%またはさらに10,000%のレベルで、本発明の最適化された核酸配列から発現され得る
一部の実施形態では、分岐したコドン最適化核酸配列を含む遺伝子組換え有機体は、遺伝子組換え植物である。この場合、前記遺伝子組換え植物の少なくとも一部の細胞は、1つまたはそれ以上の本発明の合成の最適化された核酸を含む。一例の実施形態では、本発明の核酸配列および選択マーカーを含むプラスミドは、例えば、本願明細書において先に列挙された方法のいずれかにより、植物細胞内に導入される。前記核酸配列および/または前記選択マーカーが安定して組み込まれた安定した形質転換体は、このような植物細胞から選択され得る。一部の実施形態では、前記核酸配列を含む植物細胞(例えば、選択された安定した形質転換体)は、前記核酸配列を含む新たな植物細胞を産生するために播種され得る。本発明の核酸配列を含む植物細胞は、植物全体を再生するために使用され得る再生可能な細胞であり得る。このような植物細胞およびそれから生成された植物全体は、前記核酸分子によりコードされたアミノ酸繰り返し領域を含む所望のポリペプチドを発現し得る。
これらおよび更なる実施形態では、(例えば、組織培養に使用するための)本発明の合成の最適化された核酸配列を含む再生可能な植物細胞を形成する方法が提供され得る。組織培養は、再生可能な細胞と実質的に同じ遺伝子型を有する植物を再生可能であり得る。このような組織培養物における再生可能な細胞は、胚、プロトプラスト、分裂組織細胞、癒合組織、花粉、葉、葯、根、根冠、花、種子、さやまたは茎であり得る。本発明の一部の実施形態は、本発明の組織培養物から再生された植物を提供する。
本発明は、本発明の合成の最適化された核酸配列を含む安定化された植物株を生成するための方法も提供する。前記方法では、前記安定化された植物株の細胞は、前記核酸配列によりコードされるアミノ酸繰り返し領域を含む所望のポリペプチドを発現し得る。安定化された植物株を生成する方法は、当業者に公知であり、制限されず、自系接合、戻し交雑、ハイブリッド産生および個体群に対する交雑等の技術を含み得る。本発明の合成の最適化された核酸配列を含む全ての植物および植物細胞は、本発明の範囲内である。このような植物および植物細胞は、自然には存在せず、それらは、例えば、本願明細書において開示された方法に基づいて最適化されていない同じアミノ酸繰り返し含有ポリペプチドをコードする核酸配列を含む植物または植物細胞と比較した場合、所望のポリペプチドの有利な発現特性を示し得る。本発明の核酸配列を含む植物細胞は、優れたまたは望ましい特徴を有する初代(F1)ハイブリッド細胞、種子および/または植物を産生するために、他の異なる植物細胞との交雑に使用され得る。
具体的な実施形態では、本発明の合成の最適化された核酸配列は、遺伝子組換えBrassica napus植物を産生するために使用される。更なる実施形態では、本発明の合成の最適化された核酸配列を使用して産生された遺伝子組換え植物は、例えば、制限されず、タバコ、ニンジン、トウモロコシ、カノーラ、ナタネ、綿花、パーム、ピーナッツ、ダイズ、サトウキビ、Oryza種、Arabidopsis種およびRicinus種であり得る。
本発明の更なる実施形態は、細菌宿主において、合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を提供する。異種細菌ベース発現系を使用して発現され得るアミノ酸繰り返し領域を含む組換えタンパク質をコードする合成の最適化された核酸配列も含まれる。一部の例は、細菌宿主細胞の細胞質における合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を含む。更なる実施形態は、細菌宿主細胞の周辺部における合成の最適化された核酸配列由来のアミノ酸繰り返し領域を含む所望のポリペプチドの異種発現を含む。
一部の実施形態では、細菌宿主細胞は、E.coli細胞またはPseudomonas細胞の適切な個体群から選択され得る。具体的な実施形態では、前記宿主細胞は、Pseudomonadales種のプロテオバクテリアのいずれかであり得る。宿主細胞は、Pseudomonadaceaeファミリーのプロテオバクテリアのいずれかであり得る。具体的な実施形態では、前記宿主細胞は、下記:グラム陰性プロテオバクテリア・サブグループ1、2、3、5、7、12、15、17、18または19の1つまたはそれ以上から選択され得る。
具体的な例は、pseudomonadまたはそれに密接に関連する細菌における所望のこのようなポリペプチドの異種発現を含む。本願明細書で使用する時、Pseudomonadおよび密接に関連する細菌は、「グラム(−)プロテオバクテリア・サブグループ1」として、本願明細書に規定されたグループと同一の広がりをもつ。「グラム(−)プロテオバクテリア・サブグループ1」は、より具体的には、R. E. Buchanan and N. E. Gibbons (eds.) (1974), Bergey’s Manual of Determinative Bacteriology, pp. 217-289, 8th Ed., The Williams & Wilkins Co., Baltimore, Md., USAにより「Gram-Negative Aerobic Rods and Cocci」と名付けられた分類「パート」に属するとして記載された、ファミリーおよび/または属に属するグループのプロテオバクテリアとして規定される。細菌宿主細胞は、グラム陰性プロテオバクテリア・サブグループ18から選択され得る。前記サブグループは、全ての亜種、変異体、株およびPseudomonas fluorescens種の他の亜種単位、例えば、(丸括弧に示されたATCCまたは他の寄託番号の例示となる株を含む)下記:次亜種1もしくは次亜種Iとも呼ばれるP.fluorescens遺伝因子型A(ATCC 13525);次亜種2もしくは次亜種IIとも呼ばれるP.fluorescens遺伝因子型B(ATCC 17816);次亜種3もしくは次亜種IIIとも呼ばれるP.fluorescens遺伝因子型C(ATCC 17400);次亜種4もしくは次亜種IVとも呼ばれるP.fluorescens遺伝因子型F(ATCC 12983);次亜種5もしくは次亜種Vとも呼ばれるP.fluorescens遺伝因子型G(ATCC 17518);P.fluorescens次亜種VI;P.fluorescens Pf0−1;P.fluorescens Pf−5(ATCC BAA−477);P.fluorescens SBW25;およびP.fluorescens亜種.cellulosa(NCIMB 10462)に属するものとして規定される。細菌宿主細胞は、グラム陰性プロテオバクテリア・サブグループ19からも選択され得る。前記サブグループは、P.fluorescens遺伝因子型A、例えば、P.fluorescens株MB101の全ての株のグループおよびその派生体として規定される。
本発明の合成の最適化された核酸配列は、当業者に公知の任意の方法、例えば、形質転換により、細菌宿主細胞内に導入され得る。本発明の核酸配列による細菌宿主細胞の形質転換は、当分野において公知の任意の形質転換法を使用して行われることができ、前記細菌宿主細胞は、インタクトな細胞またはプロトプラスト(すなわち、例えば、サイトプラスト)として形質転換され得る。形質転換法としては、ポレーション法(例えば、エレクトロポレーション、プロトプラスト融合、細菌コンジュゲーションおよび二価カチオン処理、例えば、塩化カルシウム処理もしくはCaCl2/Mg2+処理)ならびに当分野における他の公知の方法があげられる。例えば、Morrison (1977) J. Bacteriol. 132:349-51;Clark-Curtiss and Curtiss, (1983) Methods in Enzymology 101:347-62;Sambrook et al. (1989) Molecular Cloning, A Laboratory Manual, 2nd ed.;Kriegler (1990) Gene Transfer and Expression;A Laboratory Manual;およびAusubel et al. (eds.) (1994) Current Protocols in Molecular Biology。
下記実施例は、特定の具体的な特徴および/または実施形態を例証するために提供される。前記実施例は、例示された特定の特徴または実施形態に、本開示を限定すると解釈されるべきではない。
実施例1:大きな繰り返しDNA配列を含むコード配列のコドン最適化
アミノ酸繰り返し領域を含むポリペプチドをコードする核酸配列の最適化を実証するために、Brassica napus最適化コード領域を、Schizochytrium多不飽和脂肪酸(PUFA)合成酵素の「ORFA」によりコードされるタンパク質について設計した。
Schizochytrium PUFA合成酵素の「ORFA」によりコードされるタンパク質の構造を、図1に示す。前記タンパク質は、17から29個のアミノ酸のサイズの範囲の、10か所の繰り返し「Pro−Ala」ドメイン(配列番号1−10および図2)を含む。前記繰り返しPro−Alaドメインの間には(図1を参照のこと。)、87個のアミノ酸を含む9つのより長い繰り返し配列ドメインが散在している(配列番号11−19および図3)。これらの繰り返しのアミノ酸配列は、4つの位置のみにおいて変異し、前記変異位置のそれぞれにおいて、2つのアミノ酸選択のみが存在する。前記9つの繰り返しのアミノ酸配列のCLUSTALW(商標)分析(図3)は、100%の相同性値および95.4%の同一性値を生じさせた。DNAレベルにおいて、前記9つの繰り返しをコードする天然のShizochytrium配列は、100%の相同性および89.7%の同一性であり、各繰り返しをコードする261塩基における27部位のみにおいて変異している(図4)。27個の変化の内23個は、「サイレントな」差異である。前記差異において、同じアミノ酸用の同義のコドンは、互換性である。標準的な遺伝子設計法は、このサイズの複数の繰り返しについての新たなコドンバイアスDNA配列の開発を容易に調整できない。非常に関連するDNA配列の生成を回避するために、他の8つの繰り返しにおける同じ位置においてなされたコドン選択を有する、個々の繰り返しにおける全てのコドン選択を継続的に保たなければならないためである。
87残基繰り返しのそれぞれについて、同じアミノ酸配列をコードする、4.5×1043通りより多い可能性のあるDNA配列が存在する。この数を、前記配列における各アミノ酸についての同義のコドン数の積として算出した(図3におけるアライメントのボトムライン)。このため、同一にコードするDNA配列を生成するために利用可能な非常に大きなコドンスペースが存在する。各個々の繰り返しについての複数の配列設計を、(in silicoにおいて)生成した。その後、全ての配列バージョンを、バルクにおいて比較して、前記繰り返しをコードする高く分岐した配列を提供するセットを特定した。
まず、各繰り返しアミノ酸ドメインをコードする天然のDNA配列を、図4に図示したように、別々の配列として抽出した。ついで、前記個々の繰り返しDNA配列を、OPTGENE(商標)遺伝子設計プログラム(Ocimum Biosolutions)内に、別々の配列としてインポートした。工程3−5を、各個々の配列について、続けて別々に行った。
工程3:個々のDNA配列を、標準的な遺伝情報を使用して翻訳した。
工程4:個々のDNA配列から翻訳されたアミノ酸配列を、標準的な遺伝情報およびB.napusのコドンバイアステーブルを使用して逆翻訳した。530個のB.napusタンパク質コード領域に適合したバイアスコドンテーブルを使用した。各生成された配列に、(「napus」についての)「nap」のコード名を付け、バージョン数を加えた。例えば、繰り返し1の例において、第1の逆翻訳されたコドンバイアス配列を、「rpt1 nap1」と名付けた。この具体的な例証において、このプロセスを10回行って、図5に示すように、繰り返し1のタンパク質配列をコードする、10個のDNA配列バージョンを生成した。10回より多い(または、より少ない)反復が行われ得た。図5は、繰り返し1の最初の17個のアミノ酸についての10回の反復において生成された、実質的な配列多様性を図示する。
工程5:コドン最適化コード領域の前記10通りの配列バージョンを、対応する数のテキストファイル内にエクスポートした。
工程3−5を、他の繰り返し配列ドメインのそれぞれについて行った。例えば、この例証では、合計90個の「nap」配列バージョンを、(各繰り返しエレメントについて10個)生成した。ついで、前記90個の配列ファイルを、(www.megasoftware.net/にアクセスされる)CLUSTALW(商標)プログラムMega3.1内にインポートした。複数の配列アライメントを、90個全ての配列をインプットとして使用して行った。これらの配列がタンパク質コード領域のセグメントであるため、前記アライメントを、許容されるギャップを含まずに行った。
CLUSTALW(商標)アライメント後に、近隣結合ツリーを構築し、可視化した。前記タンパク質における9つの繰り返しドメインのそれぞれについての10個のコドン最適化配列の1つを選択した。各選択された配列バージョンを、深く分岐したツリーのセクションから選択した。図6。90個の総配列から、各繰り返しエレメントについての1つの配列のみを選択した。
前記各繰り返しドメインについての選択された配列を、各具体的な繰り返しについての適切な部位においてタンパク質全体をコードするコドン最適化DNA配列内に包含させた。正しい読み枠を維持することに注意を払った。別々に設計された分岐した繰り返しエレメントを含むコドン最適化配列全体の最終的な分析を、望ましくないモチーフ、制限酵素認識部位等が存在しないことを確保するために行った。コドン最適化配列全体の最終的な分析後に、そのコドンおよび配列多様性を維持することを確保するために前記繰り返しエレメントをコードする配列における変化を導入する際に、注意を払った。
この実施例では、前記選択した配列が最も高く分岐した可能性でありそうもない。1)各繰り返しドメインの10個の配列反復のみを行い、2)前記配列を目視で取り上げたためである。ただし、前記選択した配列は、最適な配列(すなわち、最も高く分岐した可能性)に近いことは確かである。それらを、前記近隣結合ツリーの最も深い分岐から選択した(すなわち、それらが、この配列セットにおいて互いに最も離れて関連する)ためである。Smith−Wassermanグローバルアライメントを、全てのペアワイズ組み合わせについて行った。相当性の範囲は、76−77%の予想中央値を伴って、74−81%であった。図7。前記9つの繰り返しドメインについての前記選択した9個の新たに設計された分岐したコード領域(配列番号41−49)のCLUSTALW(商標)アライメントを、図8に示す。全体として、それらは、(天然の配列について、100%相同であり、89.7%同一であるのと比較して、)93.1%相同であり、61.7%同一である。
実施例2:大きな繰り返しDNA配列を含む最適化されたコード配列の発現
実施例1において設計された最適化されたコード配列全体についてのDNA配列を、標準的な業界の実務に基づいて、商業的なベンダーにより合成する。
前記最適化されたコード配列全体からなる合成オリゴヌクレオチド分子を、B.napus細胞内に導入し、例えば、適切なベクター内でのオリゴヌクレオチドのライゲーションおよびその後のAgrobacterium媒介性形質転換により、前記最適化されたコード配列を含むB.napus細胞を産生する。
前記最適化されたコード領域を含むB.napus細胞は、Schizochytrium PUFA合成酵素ORFAの天然コード配列を含むB.napus細胞においてより高いレベルで、Schizochytrium PUFA合成酵素ORFAによりコードされたタンパク質を発現する。
実施例3:大きな繰り返しDNA配列を含む最適化されたコード配列を含むB.napus植物
実施例2において産生した、分岐したコドン最適化アミノ酸繰り返し領域を含む最適化されたコード配列を含むB.napus細胞を、B.napus植物を再生するために使用する。ついで、B.napus植物を播種し、前記最適化されたコード配列を含む子孫を産生する。
本発明は、種々の修飾および改変の形態に影響を受ける場合があるが、特定の実施形態が、図面における例示により示され、本願明細書において詳細に記載されてきた。ただし、本発明は、開示された特定の形態に限定されることを意図していないことが理解されるべきである。むしろ、本発明は、以下に添付の特許請求の範囲およびその法的均等物により規定された本発明の範囲内にある全ての修飾、均等物および変形に及ぶものである。