JP2013509198A

JP2013509198A - 細菌メタ構造および使用方法

Info

Publication number: JP2013509198A
Application number: JP2012537150A
Authority: JP
Inventors: ベルンハルトパールソン; ビョン‐クワンチョ
Original assignee: THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Current assignee: THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Priority date: 2009-10-30
Filing date: 2010-10-29
Publication date: 2013-03-14
Also published as: WO2011053864A2; EP2494052A2; EP2494052A4; WO2011053864A3; US20120302450A1

Abstract

本発明は、高スループット技術によりもたらされた複数のゲノム規模の情報を統合することにより細菌メタ構造を決定する方法を提供する。メタ構造は、遺伝子およびタンパク質発現の至適化による細菌株の合理的な設計を可能にする、普遍的な代謝工学プラットフォームを構成する。

Description

発明の分野
本発明は全体として、細菌ゲノムの組織構造を決定すること、そして、より詳細には、組織要素を同定ための遺伝子情報フローに基づいて、複数のゲノム規模での測定を反復的に統合し、そしてそれをゲノム配列上にマッピングする方法に関する。

背景情報
過去十年間で、細菌の全ゲノム配列の決定、ならびに、その遺伝子発現状態（トランスクリプトーム）およびタンパク質含量（プロテオーム）の描写においてかなり進歩した。しかしながら、これらの進歩にも拘らず、このようなデータに基づく細菌ゲノムの詳細な組織構造は完全には解明されていない。細菌ゲノムの組織構造の理解は、全体または全ゲノムレベルでの遺伝子情報の流れを規定するため、根本的に重要である。組織構造は、全ての遺伝的および調節要素の配列位置、ならびに、それらがどのように発現され得且つ使用され得るかの見地から理解される。この情報全体は、ゲノムの「メタ構造」と名付けられている。これは微生物の組立、機能および工学を理解する基盤となる。

予想に反し、細菌ゲノムは種々の構造および機能要素に高度に組織されていることが証明されつつある。これらの組織要素は、これらに限定される訳ではないが、プロモーター、転写スタート部位（TSS）、オープンリーディングフレーム（ORF）、調節非コード化領域、非翻訳領域（UTR）および転写単位を含む。転写単位（TU）は、1つのプロモーターから単一のmRNAに転写される1つまたはそれ以上のORFを有すると定義される。

1990年代中頃の最初の全ゲノム配列の論文により、原理的には単一の生物中の複雑な生物過程に関係する全ての遺伝子産物を同定することが可能となった。実際には、15年近く後、配列情報のみを用いてそのような同定を達成することが困難であることが証明された。全遺伝子産物を同定、より一般的には、それらの細胞内での場所およびそれらのゲノムとの相互作用（例えば、調節配列に結合する転写因子）を決定するためには、従って、複数の同時のゲノム規模の測定が必要とされる。

ゲノムの組織構造を確立することは困難な仕事である。複数の原核生物のトランスクリプトームおよびプロテオームの詳細分析は、ゲノムの情報内容および構造が以前に考えられていたよりも一層複雑であり、そして、ゲノム規模での転写および翻訳における細胞構成要素の役割を明らかにする過程が始まったばかりであることを示唆する。

本発明は、複数のゲノム規模測定が細菌ゲノムの組織構造を決定するために使用され得るという発見に基づく。従って、本発明は、組織要素を同定し、そしてそれをゲノム配列上にマッピングするために、遺伝情報フローに基づいて複数のゲノム規模の測定を反復的に統合する方法を提供する。本方法には、生物のメタ構造を検討しながら決定するための、データ生成工程およびデータ統合工程が含まれる。

図1に体系的な反復統合過程のフローチャートが供される。ワークフローに基づき再統合された、RNAポリメラーゼ結合領域、転写物、転写スタート部位（TSS）およびペプチドを含む、複数の高スループット（HT）技術プラットフォームにより生成されたゲノム全域にわたるデータが描写される。

異なる条件下で生育された細胞から生成されたHTデータを用いた反復データ統合過程により、メタ構造の解明のための基礎が形成され、そしてモジュール型ゲノムモデルへと導かれた。この過程で生成される情報は、（RBR）RNAポリメラーゼ結合領域（S,静止マップ；D,動的マップ）、（RTS）RNAP-誘導転写セグメント（RTS）、（pORF）潜在的ORFである。次いでこれらのデータ全てが、規定される手順により統合され、検討されている生物中のゲノムのメタ構造が生成される。

一態様において、本発明は、微生物ゲノムのメタ構造を決定する方法を提供する。本方法は次の工程を含む：（a）複数の異なるオーミクスデータタイプの生成、（b）生化学的に構成されたセッティングへの体系的な統合、ならびに、（c）転写スタート部位、翻訳スタート部位、RNAポリメラーゼの結合部位および主要調節タンパク質を見出すことによるメタ構造の決定。メタ構造は、オペロン、サブオペロン、代替RNAポリメラーゼ結合部位、低分子RNAおよび非コード領域を含む、沢山の遺伝的要素およびゲノム特性要素を含む。重要なことに、メタ構造により、配列に基づくアノテーションの手法の重要な修正がもたらされる。メタ構造は、微生物の組立、機能および工学を理解する基盤となる。設計された細菌株は、化学物質、抗生物質、治療的タンパク質、ヌクレオチドおよびペプチドである、商業的価値のある化学的実体を作出することができる。メタ構造により導かれて体系的に設計された細菌細胞は、適応進化アプローチおよび／またはコンピューターによる至適化過程を用いて至適化され得る。

一態様において、方法には次の工程が含まれる：（a）標的生物の完全ゲノム配列を得る工程；（b）生物よりゲノム全域にわたるRNAポリメラーゼの結合を得る工程；（c）生物よりRNAの転写を得る工程；（d）生物よりRNA分子の5'末端配列を得る工程；（e）生物より単離された総タンパク質からプロテオミクスデータを得る工程；（f）生物の一連の培養条件下で（b）から（e）に記載のデータを得る工程；および（g）標的生物のためのメタ構造を組み立てるために、（a）のDNA配列上に（f）に記載のデータセットを反復的にマッピングする工程。別の態様において、方法はさらに、ゲノム全域にわたるRNAポリメラーゼの結合およびRNAの転写から転写境界を得ること、RNA分子の5'末端配列を各転写境界に対応付けること、および、オープンリーディングフレームを各転写境界に対応付け、それにより当該標的生物についてゲノム規模でモジュール単位を同定することを含む。さらに別の態様において、方法はさらに、RNA発現レベルのDNAゲノム配列中の変化点を決定すること、変化点に基づきモジュール単位をTUに結びつけること、該結びつけたモジュール単位中のリードモジュール単位についてのTSSデータを用いてTUのスタート点を決定すること、および、該培養条件下のTUのスタート点および末端を定めるために、上記決定を用い、それによりある培養条件下における当該標的生物について、ゲノム規模でTUを決定することを含む。

ある態様では、標的生物は全ての細菌または古細菌であり得る。ゲノム全域にわたるRNAポリメラーゼの結合を得る例示的な方法は、これらに限定されないが、マイクロアレイと組み合わせたクロマチン免疫沈降、および免疫沈降されたDNAのディープシークエンシングを含む。RNAの転写物を得る例示的な方法は、これらに限定されないが、タイル状発現アレイの使用および／または単離されたRNAのディープシークエンシングの使用を含む。ある態様では、RNA分子の5'末端配列はRNAのディープシークエンシングにより得られる。ある態様では、総タンパク質からのプロテオミクスデータは質量分析により得られる。ある態様では、オープンリーディングフレームの一覧は該プロテオミクスデータから得られる。ある態様では、培養条件は、酸素レベル、栄養レベル、温度、圧力、光、金属、その他の化学物質、およびその他の環境刺激からなる群より選択される。

別の態様では、本発明は、生物全体の環境下で培養条件特異的な様式でタンパク質を産生するように機能する、調整可能なプロモーターを設計する方法を提供する。本方法は、同じ遺伝子を含むが異なるスタート部位を含む複数のTUを同定すること、培養条件特異的な様式で使用されるスタート部位特徴に基づき当該TUの1つを選択すること、スタート部位自体およびUTR配列およびそれに伴う調節機能に基づき該スタート部位特徴を選択し、それにより選択された培養条件下で特定のタンパク質を産生するために標的遺伝子を発現することを含む。一態様において、タンパク質は、選択された細胞培養条件下で産生されることが望まれるTUのモジュールユニット中に導入された異種タンパク質である。別の態様において、特定の特徴のUTRが所望のモジュール単位中の遺伝子の上流に、選択された細胞培養条件下でコードされるタンパク質が産生されるように導入される。

別の態様では、本発明は、TU中のタンパク質の発現レベルを特定するためのレポーターベクターのライブラリーを提供する。ライブラリーは、当該標的生物のメタ構造由来のTSSおよび5'UTR、ならびに、検出可能なタンパク質産物を産生するレポーター遺伝子により規定される複数の異なるプラスミドを含む。一態様において、ライブラリー中の特定のプラスミドを抱える株の単離およびクローニングを可能にするために、選択可能なマーカー遺伝子が導入される。別の態様では、プラスミド上に構成される各選択された転写単位中に異なるレポーター遺伝子がある。

図1は、体系的な反復統合過程のフローチャートを示す。図2は、RNAP-結合マップおよびRNAP-結合領域（RBR）中での転写結果の統合を示す。図3は、トランスクリプトームシグナルがバイナリコール（binary call）に変換され、RBRと統合され、RNAP-誘導転写セグメント、即ち、RTS（RNAP誘導転写セグメント）が得られたことを示す。図4は、200bpのウィンドウの大きさおよび60％のカットオフを用いて、TSSの読み（read）をRTSにマッピングすることによりTSSを決定することを示す。図5は、1つのRTS中にいくつのORFがあるのかを調べることについて示され、ペプチド読みが、現行のゲノムアノテーションとは独立して決定されたpORF上にマッピングされた。RTSは複数のpORFを含み得る。図6は、シグマ因子のゲノム規模の調節ネットワークを示す。図7は、TUの決定および代替的TSSの使用を示す。（a）モジュール単位（MU）は、条件依存的様式でアセンブルされ、その結果異なるTUが得られる。対数増殖期条件下では、モジュール単位FWD-1（thrA含有）およびFWD-2（thrBC含有）は一緒に転写され、連続したTU（TSS情報に基づきTU-1、2、3）を形成する。しかしながら、定常期増殖期はモジュールFWD-1およびFWD-2の転写を別々に引き起こし、付加的なTU（TU-4）を示す。TU-5を授けるモジュールFWD-3は対数期および定常期で同じように使われる。転写プロファイル中の点線は、転写の変化点を示す。定常期における変化点（星）により1つの追加のTUが決定した（TU-4）。（b）MUの差次的使用の原因となる調節要素は、対数および定常期夫々におけるプロモーター領域（i、ii）および制御領域（iii）内でのσ⁷⁰およびσ^Sホロ酵素（Eσ⁷⁰およびEσ^S）占有の解明により測定された。σ⁷⁰およびσ^Sホロ酵素の有意な占有選好により回旋状のTU構造が確認された。図8は、stpA遺伝子およびlivKHMGFオペロンが複数の実験的に確認されたTSSを有することを示す。転写因子Lrpにより高度に活性化されるstpAプロモーターについて優性なTSS（2,796,558）が検出された。従って、他の2つの実験的に確認されたTSS（2,796,578および2,796,600）は、この生育条件下ではより少なくしか使用されない可能性がある。転写因子LrpはさらにlivKプロモーターの1つのTSS（3,595,778）を抑制する。別の以前確認されたTSS（3,595,753）が優性なTSSであることが観察された。図9は、UP要素、-35および-10領域、＋1（TSS）、リボソーム結合部位（RBS）および転写スタート部位コドン（ATG）を含む、遺伝子の典型的な上流領域を示す。図10は、ライブラリーのためのプラスミドマップを示す。図11は、設計された株を構築するための全体的なスキームを示す。図12は、野生型株が至適性を獲得するための方針を示す。図13は、RNAポリメラーゼ結合の静止および動的マップを示す。RNAポリメラーゼの結合位置の決定はほぼ条件依存的であった。異なる条件下でRNAポリメラーゼの異なる結合レベルが観察されたものの、結合位置（即ち、プロモーター領域）はほぼ同一であった。（a、b）異なる生育条件（対数期、赤；熱ショック、灰色；定常期、オレンジ）下でのRNAポリメラーゼ（RNAP）結合の例。動的マップでは対数期細胞または対数期および熱ショック細胞の領域はRNAP結合を示さなかったものの、RNAP結合は静止マップにより決定した。差次的結合の領域は強調されている。（c）対数期およびロイシン条件の静止RNAP結合マップ。差次的RNAP結合レベルが観察されたが、RNAPの結合位置はほぼ同一であった。図14は、RNAP誘導転写セグメント（RTS）の変化点アルゴリズムおよびランニングウィンドウ（running window）手法との比較を示す。RNAポリメラーゼ結合領域（RBR）のバイナリ転写コール（binary transcript call; BT）への統合によりRTSが得られた。2つの実験的に得られたゲノムの全域にわたるデータセットの統合に基づくRTSで、変化点アルゴリズム（CP）およびランニングウィンドウ手法（RW）と比較された時に最も良い結果が得られた。全てのデータについて代表する二つの例（a、b）は、CPを用いた転写断片の決定では、非常に多くの断片が得られる（非常に感度が良い）のに対し、RWでは非常に少ない断片が得られた（より感度が低い）ことを示す。図15は、反復的統合によるゲノムカバー率および精度の増加を示す。種々の生育条件由来の転写物のRNAポリメラーゼ結合領域（RBR）との反復的統合により、ゲノムカバー率および精度が上昇した（a、b、c）。所望の遺伝子は赤色で強調される。種々の生育条件（対数期、熱ショック、定常期が示される）からのデータの統合はまた、定常生育期のyjcC（b）およびybaE（c）ならびに熱ショック細胞からのsoxR（b）等の条件特異的転写物の決定を可能にした。図16は新しい転写物の発見を示す。新しい転写物は、RNAP誘導転写セグメント（RTS）が得られる、RNAポリメラーゼ結合領域（RBR）のバイナリ転写コール（BT）の体系的且つ反復的統合により決定された。新規転写物（赤色で強調）は反対鎖（a、b）上と同じく遺伝子間領域（c、d）で発見された。図17は、組織構成要素の解明のための分子生物学ツールボックスのフローチャートを示す。種々のゲノム規模の方法がメタ構造を決定するために展開され且つ開発された。ここで図示される方法は、（a）転写プロファイリング、（b）転写スタート部位（TSS）プロファイリング、（c）クロマチン免疫沈降を組み合せたマイクロアレイ（ChIP-チップ）および（d）プロテオミクスを含む。図18は重なり合うpORFを示す。（a）重なり合うpORFが見出された領域中のペプチド検出の頻度、（b）mRNA転写プロファイルに基づく、重なり合うpORFの翻訳方向性の調査。矢印はpORFとして検出された偽陽性を示す。図19は、正確なおよび不正確な境界のpORFからのユニークなペプチドの数を示す。確認されたORF（EcoGeneより）にマッピングされた803個のpORFの内、総数507個のpORFが正確な翻訳スタート／停止位置（黒丸）を示した。一致しない翻訳スタート位置のpORF（296個のpORF）はペプチドカバー率が乏しかった（白丸）。このカバー率の限界のため、より包括的且つ正確なORFマップをゲノム規模で得るために、付加的な方法（例えば、N末端改変を加えたプロテオミクス）が適用されねばならない。図20は代替的TSSの使用を示す。（a）serA遺伝子、serC-aroAオペロン、およびgltBDFオペロンは、複数の実験的に確認されたTSSを有する。優性TSS（3,056,478）が、転写因子Lrpにより高度に活性化されるserAプロモーターについて検出された。別の実験的に確認されたTSS（3,056,571）は、この生育条件下ではより少なくしか利用されない可能性がある。転写因子Lrpはまた、本研究において優性なTSSとして検出された、serCプロモーターについて実験的に確認された1つのTSS（956,818）を活性化する。さらに、別のTSS（956,802）がserCプロモーターのところで見付かった。gltBプロモーターのところの別の以前に確認されたTSS（3,352,531）は、Lrp結合シグナルを持つ、優性TSSとして検出された。（b）転写因子Lrpにより制御されるTSSの一覧。種々のプロモーター領域における代替的TSSがLrpにより調節されることが観察された。図21は種々の機能カテゴリーの5'UTRの長さを示す。（a）5'UTRの分布は〜36bpの最大平均長を示す；（b）5'UTR長の比較（塩基対による）では、異なる機能カテゴリー間で差異が示されなかった。

発明の詳細な説明
本発明は、高スループット技術によりもたらされた複数のゲノム規模の情報を統合することにより、細菌ゲノムの新規メタ構造を提供する。細菌ゲノムのメタ構造は、プロモーター、転写スタート部位（TSS）および終止部位、オープンリーディングフレーム（ORF）、調節非コード化領域（RNR）、非翻訳領域（UTR）、ならびに転写単位（TU）を含む。これら全ての要素がゲノム規模で測定され、且つ的確に統合されたものがゲノムのメタ構造に含まれる。

本発明の方法を記載する前に、特定の記載された構成要素、方法および実験条件が変更し得るものなので、本発明がこれらに限定されないということが理解されるべきである。また、本発明の範囲は添付の特許請求の範囲のみにより限定されるので、本明細書中に使用される用語が特定の態様を説明する目的のみのためのものであり、そして、限定することを目的としていないことが理解されるべきである。

本明細書および添付の特許請求の範囲において使用されるように、単数形「ひとつの（a）」、「ひとつの（an）」および「その（the）」は、文脈が明らかにそうでないと規定していない限り、複数形への言及を含む。従って、例えば、「その方法」という言及は、この開示等々を読むことにより当業者に明らかとなるであろう、ここに記載される型の1つ若しくはそれ以上の方法、および／または工程を含む。

そうでないと規定されない限り、本明細書で使用される全ての技術的および科学的用語は、本発明が属する技術の通常の技能の者により一般に理解されるのと同じ意味を有する。本明細書で記載されたものと類似または同等のいずれの方法および材料も本発明の実施または試験において使用し得るが、好ましい方法および材料がこれから記載される。

本明細書で使用されるように、「ゲノム」という用語は生物の遺伝的な情報の全体を指す。それは、DNAまたは、多くの型のウイルスにおいてはRNA中にコードされる。ゲノムはDNAの遺伝子および非コード配列の両方を含む。従って、「遺伝子」とは、機能的ポリペプチド鎖またはRNA分子をコードする一続きのDNAを指す。遺伝子は、スタートコドンおよび停止コドンにより限定される。コドンとは、特定のアミノ酸をコードする核酸中の3つの隣接するヌクレオチドの配列である。本明細書で使用されるように、「遺伝的」という用語は、DNAヌクレオチドの配列中にコードされる遺伝性の情報を指す。よって、「遺伝的特徴付け」という用語は、DNA中にコードされる情報のシークエンシング、遺伝子型同定、比較、マッピングまたはその他の分析を意味することを意図する。遺伝的特徴付けの範囲（例えば、程度、規模等々）は、全ての遺伝的要素（既知または未知）の包括的評価が同時に評価され得るよう、実質的にゲノム規模である。実質的に、包括的な評価は理想的には、生物のゲノムの完全なゲノム規模の再シークエンシングを含む。過度の配列反復領域のため等によって、完全なゲノムシークエンシングが可能でない場合、記載される方法においてゲノム配列の包括的なドラフトを使用できる。

本明細書で使用されるように、「遺伝的基礎」という用語は特定の観察結果の根本的な遺伝的またはゲノム的な原因を指す。この用語にはまた、その観察結果の発生の最も重要な理由が含まれる。

本明細書で使用されるように「個別のゲノム領域」はゲノムの連続する領域または部分を意味することを意図する。ゲノムまたはその一部は、分析のためにいくつもの異なる個別のゲノム領域に断片化できる。一態様において、個別のゲノム領域は、1つまたはそれ以上のプローブ配列を含むゲノムの領域として定義される。別の態様では、個別のゲノム領域は、約10,000、5,000、4,000、3,000、2,000または1,000個より少ない塩基対により分離される2つまたはそれ以上のプローブ配列を含むゲノムの領域として定義され得る。「タイル化」は、アレイを製造するのに使用されるプローブを作出するのに使用される適当なプローブ配列を決定するために、特定の個別のゲノム領域を枠（フレーム）単位の様式でゲノム配列に沿って移動することにより分析することを伴う過程を指す。種々の態様において、ゲノム領域は異なる大きさのオリゴヌクレオチド配列によってタイル化され得る。例えば、オリゴヌクレオチド配列の長さは約15〜20、20〜25、25〜30、30〜35、35〜40、40〜45、45〜50、50〜55、55〜60、60〜65、65〜70、70〜75、75〜80、80〜85、85〜90、90〜95または95〜100塩基対であり得る。さらに、各枠の大きさは領域をタイル化するのに使用されたオリゴヌクレオチドの長さにより決定され得、そして、枠ごとのシフトの枠は特定の塩基対数でゲノム領域の領域で重なり合っていても、または飛ばされていてもよい。よって、種々の態様において、領域内のプローブ配列を決定するために、タイル化過程において約1〜25、25〜50、50〜75、75〜100または100よりも多い塩基対がスキップされてもよい。例示的な態様において、ゲノム領域のタイル化は、約50塩基対のオリゴヌクレオチドを、約35塩基対離して使用して行われる。

本明細書で使用されるように、「DNA」または「デオキシリボ核酸」という用語は、全ての公知の生きた生物の発生および機能において使用されている遺伝的指示を含む核酸を指す。DNA分子の主な役割は情報の長期貯蔵である。

本明細書で使用されるように、「RNA」または「リボ核酸」という用語は、ヌクレオチド単位の長鎖からなる分子を指す。RNAは非常にDNAに似ているが、幾つかの重要な構造上の詳細が異なっている：細胞中、RNAは通常一本鎖であるのに対し、DNAは通常二本鎖である；RNAヌクレオチドはリボソームを含むのに対し、DNAはデオキシリボース（1個の酸素原子を欠くリボースの一種）を含む；そして、RNAは、DNA中に存在するチミンではなく、塩基ウラシルを有する。RNAはDNAからRNAポリメラーゼと呼ばれる酵素により転写され、そして通常さらに他の酵素により加工される。

本明細書で使用されるように、「RNAポリメラーゼ」（RNAP）という用語は、RNAを産生する酵素を指す。細胞中、RNAPは、DNA遺伝子を鋳型としてRNA鎖を構築するのに必要とされ、この過程は転写と呼ばれる。

本明細書で使用されるように、「5'-末端」という用語は、その末端にデオキシリボースまたはリボースの糖鎖中に5番目の炭素を有する、DNAまたはRNA鎖の末端を示す。

複雑な生物のゲノムはその長さに沿ってGC含量が異なっていることが知られている。即ち、ヌクレオチドAおよびTに対するヌクレオチドGおよびCの局所的割合が異なっている。GC含量の変化はしばしば急激なものであり、明確な領域を生じる。このような急激な変化はここで「変化点」と呼ばれる。

本明細書で使用されるように、「メタ構造」という用語は、これに限定されないが、所望の生物のプロモーター、転写スタート（TSS）および終止部位、オープンリーディングフレーム（ORF）、調節非コード領域（RNR）、非翻訳領域（UTR）ならびに転写単位（TU）等のゲノムの構成要素を指す。

本明細書で使用されるように、「オープンリーディングフレーム」（ORF）は、潜在的にタンパク質をコードし得る塩基の配列を含む生物のゲノムの一部分を指す。ORFのスタートおよび停止末端は、mRNAの末端と等しくはないが、通常mRNAの中に含まれる。「遺伝子」中では、ORFは、スタートコード配列（開始コドン）および停止コード配列（終止コドン）の間に位置する。

本明細書で使用されるように、「転写単位」（TU）は、プロモーター部位、5'非翻訳（5'-UTR）配列、転写終結因子、3'非翻訳（3'-UTR）配列、および、RNA分子（mRNA、tRNA、rRNA、雑多なRNAであり得る）に翻訳され得る一続きのDNAからなる、一続きのDNAを指す。遺伝子またはオペロンは異なるプロモーターにより制御され得、ゆえに、異なるTUが得られる。さらに、オペロン長は転写終止シグナルに依存して異なり得、異なるTUをもたらす。

本明細書で使用されるように、「転写スタート部位」（TSS）は転写が始まるゲノム位置を指す。公知の遺伝子については、RNA転写のスタート部位を決定するために、プライマー伸張を使用することができる。この技術は、遺伝子の5'末端に近い領域に対して相補的な、放射標識したプライマー（通常20〜50ヌクレオチドの長さ）を必要とする。プライマーはRNAにアニーリングされ、そして、RNAの5'末端に到達するまでRNAに対して相補的なcDNAを合成するために逆転写酵素が使用される。ゲル上の配列の長さがスタート部位から放射標識されたプライマーまでの距離を表すので、産物をポリアクリルアミドゲル上で流すことによりTSSを決定することが可能である。コード領域のスタートコドン（通常AUG）のヌクレオチド1個前で転写は終わる。このような転写の領域を規定する位置は「転写境界」と呼ばれる。

本明細書で使用されるように、「再シークエンシング（re-sequencing）」または「再シークエンシング（resequencing）」は、既に完全に決定された参考配列を用いて、生物のゲノムの配列を決定する技術を指す。再シークエンシングが、生物の完全ゲノム、および、選択の結果としての生物の遺伝的変化を含むのに十分な大きさのゲノムの一部の両方について行われ得るということが理解されるべきである。

本明細書で使用されるように、「遺伝物質」という用語は、一つの世代から次の世代へとわたって受け渡される生物中のDNAを指す。通常、遺伝物質は生物のゲノムを指す。細胞小器官またはプラスミド等の染色体外のDNAもまた、生物の特性を決定する「遺伝物質」の一部であり得る。本明細書で使用されるように、遺伝子またはゲノムと関連して使用される場合の「調節領域」は、遺伝子発現を制御するDNA配列を指す。本明細書で使用されるように、「遺伝子産物」は、遺伝子の発現の結果である、RNAまたはタンパク質のどちらかである生化学的物質を指す。従って、遺伝子産物の量の測定は時々、遺伝子がどれくらい活性であるのかを推測するために使用される。

本明細書で使用されるように、「遺伝的変化」または「遺伝的適応」という用語は、生物のゲノム内での1つまたはそれ以上の変異を指す。本明細書で使用されるように、「変異」という用語は、二つの関連する生物のDNAヌクレオチドの配列中の違いを指し、例えば、置換、欠失、挿入および再配置、または、可動性の遺伝要素が動くことを含む。「導入」という用語は、本明細書で使用されるように、生物等のその他の何かに遺伝的変化等の何かを入れることを指す。よって、「変異誘発」という用語は、生物中への遺伝的変化の導入を意味することが意図される。

「ポリペプチド」、「ペプチド」および「タンパク質」という用語は本明細書で交換可能に使用され、ペプチド結合または改変ペプチド結合により互いに連結された2つまたはそれ以上のアミノ酸残基を指す。これらの用語は、1つまたはそれ以上のアミノ酸残基が対応する天然起源アミノ酸および天然起源アミノ酸ポリマーの人工的な化学擬態物であるアミノ酸ポリマー、改変残基を含むもの、ならびに、非天然起源アミノ酸ポリマーに適用される。「ポリペプチド」は通常ペプチド、オリゴペプチドまたはオリゴマーと呼ばれる短い鎖、および、一般にタンパク質と呼ばれるより長い鎖の両方を指す。ポリペプチドは遺伝子によりコードされる20のアミノ酸以外のアミノ酸を含み得る。同様に、「タンパク質」は少なくとも2つの共有結合されたアミノ酸を指し、タンパク質、ポリペプチド、オリゴペプチドおよびペプチドを含む。タンパク質は、天然起源アミノ酸およびペプチド結合、または合成ペプチド擬態構造から作られてい得る。従って、「アミノ酸」または「ペプチド残基」は、本明細書で使用されるように、天然起源および合成アミノ酸の両方を意味する。例えば、ホモ-フェニルアラニン、シトルリンおよびノレロイシンは本発明の目的のためのアミノ酸であると判断される。「アミノ酸」はまた、プロリンおよびヒドロキシプロリン等のイミノ酸残基を含む。側鎖は（R）または（S）配置のどちらかであり得る。従って、「プロテオミクス」という用語は本明細書で使用されるように、タンパク質、特にその構造および機能の大規模研究を指す。

本明細書で使用されるように、「質量分析」という用語は、荷電された粒子の質量電荷比を測定する分析技術を指す。この技術の例示的用途は、これに限定されないが、粒子の質量の決定、試料または分子の元素組成の決定、ならびに、ペプチドおよびその他の化学化合物等の分子の化学構造の推定を含む。原理として、この技術は、荷電された分子または分子断片を生じさせるための化学化合物の電離、および、その質量電荷比の測定からなる。

本明細書で使用されるように、「ChIP-オン-チップ」または「ChIP-チップ」は、クロマチン免疫沈降（「ChIP」）をマイクロアレイ技術（「チップ」）と結び付ける技術を指す。正規のChIPと同様、ChIP-オン-チップは、インビボでのタンパク質およびDNAの間の相互作用を調べるために使用される。特に、シストローム、ゲノム全域にわたるDNA結合タンパク質のための結合部位の全体を同定することを可能にする。ほぼ全ての所望のタンパク質についての結合部位の位置を決定するために全ゲノム分析を行うことができる。

本明細書で使用されるように、「タイル化アレイ」という用語は、プローブがゲノム全体またはゲノムの連続的な領域をカバーするように設計された短い断片である、マイクロアレイのサブタイプを指す。プローブの長さおよび間隔に依存して、異なる解像程度が達成され得る。単一のアレイのフィーチャー（feature）の数は10,000から6,000,000よりも大きい範囲にわたり得、各フィーチャーは1つのプローブの何百万ものコピーを含む。遺伝子発現をみるために設計された典型的なDNAマイクロアレイは、各公知または予測される遺伝子について数個のプローブを使用する。対照的に、タイル化アレイは、以前に未同定である遺伝子を依然として組み込むことができるので、遺伝子発現を偏りなく見ることができる。

本明細書で使用されるように、「ディープシークエンシング」という用語は、実験または計器運転毎に膨大な数の配列結果読みを生じる次世代シークエンシング技術を指す。これらの配列を基礎とした手法は、ゲノム全域にわたるトランスクリプトーム研究（遺伝子発現の研究）およびエピゲノミクス（クロマチン構成および力学の研究）についてのマイクロアレイに基づく手法を超えて、例えば、複雑な中間クローニングおよびマイクロアレイ構築工程を避けること、ならびに大量の配列を迅速に生じる能力等の、幾つかの明瞭な利点を有する。これらの手法を用いて、mRNA試料から得られたcDNA分子を直接的にシークエンシングし、そして、転写物量を評価するために単純に各遺伝子の対応する分子数を数えることにより遺伝子発現は分析される。「ディープシークエンシング」という用語に含まれる例示的な技術は、限定されないが、大規模並列処理特徴シークエンシング（MPSS）、合成時シークエンシング（SBS）、454Life Science社製SBSピロシークエンシング方法、Applied Biosystem社製ライゲーションシステムによるSOLiDシークエンシング、およびHelicos Bioscience社製単分子合成プラットフォームを含む。

本明細書で使用されるように、「選択された環境」、「条件（condition）」または「条件（conditions）」は、生物を生存のために遺伝的に適応、進化、変化または変異させるいずれの外部特性をも指す。例示的な「条件」または「環境」は、これに限定されないが、特定の培地、容量、容器、温度、混合、通気、重力、電磁場、細胞密度、pH、栄養、リン酸源、窒素源、1つまたはそれ以上の生物との共生、および、1つの生物種のまたは複数の生物種との相互作用（即ち、混合種個体群）を含む。さらに「条件」または「環境」として含まれるのは、重金属、抗生物質および塩素付加化合物等の生物にとって有毒な物質である。生物は定常的な存在ではないため、時間もまた「条件」として考慮され得ることが理解されるべきである。従って、長期間（例えば、数日、数週間、数ヶ月、数年）にわたって生育された培養は、その遺伝的適応の間、異なる株を作り出すかもしれない。例示的な期間は4から180日である。

本明細書で使用されるように、「クローン」という用語は、単一の細胞、または、単一の細胞由来の細胞の母集団を指す。クローンは、たった一つの遺伝子型を有するか、または、以前単一の遺伝子型を有していた細胞からなることが知られている。「母集団」は一群の個体または細胞を意味することを意図している。「混合種集団」は従って複数種からの一群の細胞、または天然起源生物の集合的なゲノムを指す。

本明細書で使用されるように、「培地」または「培地群」という用語は、生物が晒されるかまたはアクセスできるようにされた化学環境を指す。生物は、培地中に浸漬されているか、または、培地に物理的に近接しているかのどちらかであり得る。培地は典型的には、生物の生長または維持に寄与し得る付加的な栄養素および／または化学物質を加えた水から構成される。成分は、精製された化学物質（即ち、「限定」培地）、または、乳若しくは血から作られた抽出物等の化学物質の複合的な特徴付けられていない混合物であり得る。標準培地は実験室において広く使われている。細菌の生育のための培地の例は、これに限定されないが、LBおよびM9最小培地を含む。「最小」という用語は、培地との関連で使用される場合、生物の生育を支えるが、可能な限り単純な化学化合物からなる培地を指す。例えば、M9最小培地は、水に溶解され、そして滅菌された次の成分から構成される：48mM Na₂HPO₄、22mM KH₂PO₄、9mM NaCl、19mM NH₄Cl、2mM MgSO₄、0.1mM CaCl₂、0.2% 炭素およびエネルギー源（例えば、グルコース）。

本明細書で使用されるように、「培養」という用語は、容器または囲い中の、生存可能な生物の少なくとも一つの細胞または個体を含む培地であって、通常、その生物が生育することができる培地を指す。本明細書で使用されるように、「継続培養」という用語は、新しい培地が、培地が除去される速度と同等なある速度で添加される液体培地を意味することが意図される。逆に、「バッチ培養」は本明細書で使用されるように、新しい培地が添加も除去もされない、固定された大きさまたは容量の培養を意味することが意図される。

「生物」という用語は、天然起源生物、および、遺伝的改変生物等の非天然起源生物の両方を指す。生物はウイルス、単一細胞生物、または多細胞生物であり得、そして、真核生物または原核生物のどちらかであり得る。さらに、生物は動物、植物、原生生物、真菌または細菌であり得る。例示的な生物は、これに限定されないが、単一細胞の原核微生物の大きな一群を含む細菌生物、および、単一細胞微生物の一群を含む古細菌生物を含む。古細菌および細菌は大きさおよび形状が非常に類似している。しかしながら、古細菌は真核生物のそれとより密接に関連する遺伝子および幾つかの代謝経路、特に転写および翻訳に関係する酵素を有する。

当技術分野において公知のように、ゲノム配列上の要素を見出すために生物情報学およびコンピューターによる方法が使用されている。しかしながら、今日使用されているアルゴリズムは、参照生物において実験的に決定された情報に基づいている。このようなアルゴリズムの実行からの出力は従って、1つまたはそれ以上の参照ゲノムからの情報の外挿に基づく予測である。このような予測は正確であるかも、またはそうでないかも知れず、本明細書で記載されるように、メタ構造の決定は、メタ構造が組み立てられたゲノムについて情報が直接測定され且つ決定されるため、このような潜在的に不正確な配列に基づく解釈の修正につながる。

従って、標的細菌生物のためのメタ構造は、遺伝子およびタンパク質発現の至適化によって、合理的な設計を可能にする普遍的な代謝工学プラットフォームである。設計された細菌株は、化学物質、抗生物質、治療的タンパク質、ヌクレオチドおよびペプチドのような商業的価値のある化学的実体を作出することができる。メタ構造により誘導される計画的に設計された細菌株は、適応進化手法および／またはコンピューターによる至適化過程（参照として本明細書に組み入れられる米国特許第7,127,379号参照）を用いて至適化され得る。さらに、本発明により提供されるのは、プロモーターならびにレポーター遺伝子を含み、各プロモーターが、条件特異的代替的転写スタート部位およびその他のプロモーター要素に相当する核酸を含む、レポーターDNAベクターライブラリーである。レポーターシステムは、商業的に価値のある化学的本体の生産者としての新規細菌株をスクリーニングするための「ライブラリーキット」を提供する。

従って、本発明は、標的生物のためのメタ構造を組み立てる方法を提供する。本方法には、普遍的な代謝工学プラットフォームとして細菌ゲノムのメタ構造を決定するための、遺伝的情報の流れに基づいた、RNAポリメラーゼ結合位置、mRNA転写物量、5'配列およびタンパク質への翻訳のような複数のゲノム規模の測定の反復的統合が含まれる。一態様において、本発明は、標的生物のメタ構造を組み立てるために、標的生物の全ゲノム配列の獲得、生物からゲノム全域にわたるRNAポリメラーゼの結合の獲得、生物からRNAの転写の獲得、生物のRNA分子の5'末端配列の獲得、生物から単離された総タンパク質からのプロテオミクスデータの獲得、生物の一連の培養条件下において上記で獲得されるデータの獲得、および、一連の培養条件からのデータの標的生物のDNA配列上への反復的なマッピングを含む。

メタ構造は、代替的TSSおよび5'UTRと共に、実験的に確認されたゲノム規模の転写単位、ならびに、それらを用いて細菌細胞の生化学的反応ネットワークを設計する方法を提供する。原核生物および真核生物系の両方において、遺伝子発現のレベルは、特定の生育条件下では、プロモーター中の代替的TSSおよび5'UTRの配列の使用と緊密に結び付けられている。従って、本発明により提供される方法により、転写単位の選択されたTSSおよび／または5'UTRの欠失および／または改変を用いて、生化学的反応ネットワークを設計するために標的遺伝子発現のレベルを調節する、調整可能（オン／オフ）プロモーターを産生できる。本発明と比較して、調整可能という効果は、転写単位中の遺伝子の慣用の欠失および／または過剰発現によっては作り出すことができない。代替的TSSおよび／または5'UTRの改変により、所望の調節可能または調整可能なプロモーターが産生される。

一般に、調節可能なプロモーターは、化合物の生産するための標的の生育条件下において、ガラクトース、ドキシサイクリンまたは熱等の、高価であるか、毒性であるか、または使用の困難な誘導因子を必要とした。本発明は、作り変えられた天然プロモーター（即ち、標的プロモーター領域中の選択されたTSSの欠失または変更）の使用を提供するので、プロモーターを所望の生育条件で制御することができる。従って、遺伝子発現の至適条件は追加の外来誘導因子なしで達成できる。

慣用の遺伝子欠失および／または過剰発現方法により得られる設計された株は、条件必須遺伝子の欠損のため複数の条件下で生理的に不安定であり得る。しかしながら、本発明により達成された設計された株は、このような条件必須遺伝子を代替のTSSの使用により発現できるので、顕著に安定である。さらに、設計された株は、株が進化するように、細胞を十分な期間培養することにより、所望の性能に至適化することができる。この方法により、調節可能、調整可能または制御可能なプロモーターを有する、設計された生化学的反応ネットワークを発現する生理的に安定な細菌株が得られる。現在、商業的価値のある化学的実体の生産株として新規な細菌株を設計するために、代替TSSのゲノム規模での組織的使用は利用できない。

少なくとも1つの所望の遺伝子およびそれに作動可能に連結されたプロモーターを各々のベクターが含み、各プロモーターが、野生型プロモーターに対してランダムに変異された配列の核酸を含む発現ベクター群、ならびに、それを含む細胞群が報告されている。遺伝子発現、タンパク質発現の調節の至適化、または、至適化された遺伝子若しくはタンパク質輸送において本発明のベクターまたは細胞を利用する方法が記載された（WO 2007／079428, A2；Alperら（2005年）PNAS, 102: 12678-12683）。

従って、別の態様において、本発明はベクターを含むレポーター株ライブラリーを提供する。各ベクターは、その配列が1つのレポーター遺伝子（例えば、蛍光遺伝子またはガラクトシダーゼ遺伝子）、抗生物質耐性遺伝子、マルチクローニング部位および特異的なプロモーターを示す、核酸を含む。プロモーターは、単一の代替TSSおよび5'UTRを含む。ライブラリー中の各ベクターは、標的培養条件下での所望のレベルでのレポーター遺伝子発現を提供する。従って、所望の遺伝子のより高い発現レベルの株が、特定の培養条件においてこれらのベクターから取得される。

本発明の一態様により、複数の高スループットのゲノム規模の測定を統合する方法が提供される（図1）。本発明のこの態様の方法を使用して、特定の生育環境についてゲノム規模のモジュール単位を得ることができる。

本発明の別の態様は、ゲノム規模のTUを得る方法を提供する。オペロンはネスト状のTUを許容しないので、オペロンの古典的な定義とモジュール単位は異なっている。結果として、モジュール単位の条件依存的組合せから得られる細菌ゲノムのTU構造が決定された。一般に、細菌ゲノム中のTUは、単一のmRNA転写物を合成するために、1つのプロモーターから転写される複数のORFを有すると定義される。概念的に、単一のTU内の複数のモジュール単位の発現レベルは、示差的mRNA分解がないと仮定して、その間で発現ギャップがなく一定のままである。

本発明の別の態様は、調整可能／制御可能／調節可能なプロモーターを設計する方法を提供する。標的遺伝子発現のレベルを調節する調整可能（オン／オフ）プロモーターの例がここに記載される。

シグマ因子の条件的使用−転写単位は、代替的シグマ因子の使用により、条件依存的な様式で転写され得る。シグマ因子のゲノム規模での配置マップは、調整可能／制御可能／調節可能なプロモーターを設計するための基本的情報を提供する。例えば、大腸菌中の全てのシグマ因子のゲノム規模での配置が本発明において決定された。本発明において見出されたプロモーターの数は1,527（rpoD）、1,364（rpoS）、539（rpoH）、161（rpoN）、64（rpoE）、78（fliA）、および2（fecI）である（図6）。例えば、thrLABCオペロンは、荷電イソロイシル-およびスレオニル-tRNAの可用性により調整される転写源弱により調節されている。しかしながら、本発明で見出された追加のプロモーターは、thrBの前に位置し、定常増殖期に単独にthrBCを調節する。このプロモーターは、定常増殖期において、σ^Sホロ酵素により条件的に活性化される（図7）。この発見に基づき、6つの条件下（対数期、定常期、緩やかな熱ショック、激しい熱ショック、グルタミン、および鉄条件）で働く天然の調整可能／制御可能／調節可能なプロモーターが設計できる。

代替TSSの条件的使用−転写単位は代替的TSSの使用により条件依存的な様式で転写され得る。代替的TSSの使用は、ユニークなRNAアダプターおよび大規模のシークエンシングを用いる新規5'-RACE-seq方法により決定され得る。例えば、大腸菌ゲノム中で4,133個のTSSが決定された。プロモーターの35％が複数のTSSを含み、大腸菌転写単位の大部分についての代替的TSSの存在を示す。例えば、H-NS様DNA結合タンパク質およびロイシンABCトランスポーター複合体をコードするstpA遺伝子およびlivKHMGFオペロンは共に複数の実験的に確認されたTSSを有する。stpAプロモーターの場合、転写因子Lrpにより高度に活性化される、優勢的TSS（2,796,558）が検出された。2つの別のTSS（2,796,578および2,796,600）は従って、生育条件下ではより少なくしか使用されない可能性がある。他方、livKHMGFオペロンのプロモーター領域中に、確認済みのTSSが2つ観察された。TSS（3,595,753）がオペロンを転写するのに優勢的に使用されるのに対し、転写因子Lrpは明らかに他方のTSS（3,595,778）を抑制する（図8）。この発見に基づき、3つの条件（対数期、定常期、および緩やかな熱ショック条件）下で働く天然の調整可能／制御可能／調節可能なプロモーターを、選択された代替TSSの欠失および／または変更を用いて設計できる。

5'UTRの使用−5'UTR領域は、各TSSおよび転写単位中の最初の遺伝子の転写スタート部位の間のDNA配列として定義された（図9）。天然の調整可能／制御可能／調節可能なプロモーターは、5'UTR配列の欠失および／または変更を用いて設計できる。例えば、大腸菌5'UTRの平均長は36bp程度であった。TSSの大半（〜93％）は、転写スタート部位から300bp以内であった。本発明の別の態様は、プロモーターを設計するのに使用できる、ゲノム規模のコアプロモーター要素（例えば、-10（または伸張された-10）、-35およびスペーサー領域）を提供する。

本発明の別の態様は、標的遺伝子の所望レベルの発現のための、代替シグマ因子、代替TSSまたは5'UTRの至適用途を得るためのレポーターベクターライブラリーを提供する。

ベクターの構築−各ベクターは、少なくとも1つのレポーター遺伝子（例えば、緑色蛍光タンパク質、lacZ等々）、抗生物質遺伝子（アンピシリン、カナマイシンまたはクロラムフェニコール耐性）、複製起点、T7プライミング部位、およびそれに作動可能に連結されたプロモーターを含み、各プロモーターは、天然プロモーターから増幅された配列の核酸を含む（図10）。プロモーター配列は、適当な条件下での遺伝子（または転写単位）の転写に重要なDNA配列である。プロモーター配列は、各ベクター中に単一の転写スタート部位および5'UTRを示すように、部位特異的突然変異により変異され得る。ベクターライブラリーは、エシェリシア、サルモネラ、バチルス、シュードモナス、ヘリコバクター、ストレプトマイセス、ストレプトコッカス、ラクトバチルス、ジオバクター、テルモトガ、ビブリオ、エルシニアまたはその他の原核細胞からの代替シグマ因子、代替TSSまたは5'UTRの情報から誘導され得る。例えば、少なくとも4,661個のベクターを、ここに記載される大腸菌のシグマ因子、転写スタート部位および5'UTRの情報から構築することができる。

ベクターの評価−各ベクターは、レポーター遺伝子から得られるメッセンジャーRNAおよびタンパク質のレベルの見地から、ある培養条件下のそのプロモーター強度および翻訳効率について評価できる。培養条件は、酸素レベル、栄養レベル、温度、圧力、光、金属、その他の化学物質、またはその他の環境刺激であり得る。レポーター遺伝子のメッセンジャーRNAのレベルは、定量的PCR（qPCR）、オリゴヌクレオチドマイクロアレイプラットフォーム、微小流体（microfludic）プラットフォーム、サンガーシークエンシングプラットフォーム、または大規模シークエンシングプラットフォームにより測定できる。レポーター遺伝子の翻訳レベルは、蛍光レベルまたはβガラクトシダーゼ活性により測定できる。ある培養条件下のプロモーター強度および翻訳効率の評価に基づき、調整可能／制御可能／調節可能な条件を決定できる。

本発明の別の態様は、調整可能／制御可能／調節可能なプロモーターを用いて（即ち、シグマ因子、代替TSSまたは5'UTR配列の使用）、生化学的反応ネットワークを設計する方法を提供する。シグマ因子、代替TSSまたは5'UTRを細菌細胞の生化学的反応ネットワークを設計するための使用の例がここに記載される（図11参照）。

生化学的反応ネットワーク中の遺伝子または転写単位の選択−生化学的反応ネットワークの性能はしばしば、ネットワーク内の幾つかの遺伝子の発現レベルに依存する。至適化方法を用いて、ある培養条件下の生化学的反応ネットワークの至適または準至適機能を決定できる。単一の遺伝子、複数の遺伝子、単一の転写単位、または複数の転写単位を除去または付加することにより、生化学的反応ネットワークを再構築できる。同じ至適化方法を用いて、生化学的反応ネットワークの至適または準至適特性を再計算できる。生化学的反応ネットワークを至適または準至適な状態へ変化させる遺伝子または転写単位のセットは、その再計算から選択できる。

シグマ因子、TSSまたは5'UTRの選択−シグマ因子相互作用ネットワークから、ハウスキーピングシグマ因子または代替シグマ因子を、至適または準至適生化学反応ネットワーク特性を得るために選択できる。レポーターベクターライブラリーから、代替TSSまたは5'UTR配列を、至適または準至適生化学反応ネットワーク特性を得るために選択できる。選択されたシグマ因子、TSSまたは5'UTR配列を用いて、ゲノム中の選択された遺伝子または転写単位の天然プロモーターを遺伝的に操作できる。代わりに、天然ゲノムの操作に代えて、代替TSSおよび5'UTR配列を含むベクターを至適または準至適生化学反応ネットワーク特性を獲得するために使用できる。

本発明の別の態様は、ある期間細胞を生育することを利用して、設計された株を所望の性能に至適化する方法を提供する（図12）。細胞を十分な期間培養することにより、細胞を所望の性能に進化させることが可能となる。この適応進化過程自身により、至適な設計を達成するための最も良い動態パラメータのセットを決定できるかもしれないので、調整可能／制御可能／調節可能なプロモーターの使用は適応進化過程を促進するであろう。

続いての実施例は本発明を説明することを意図しているが、限定することは意図していない。

実施例1
メタ構造決定
特定の状況がどのように処理されるかを記載することにより、この実施例は使用される詳細な手順を示す。

株および培地−大腸菌MG1655細胞は、定常期実験（OD_600nm〜1.5）を除いて、対数期中期（OD_600nm〜0.6）に収穫した。大腸菌株のグリセロールストックをM9完全またはW2最小培地（窒素制限条件のため）に接種し、そして、恒常的な攪拌を伴い、37℃で一晩培養した。培養は、新規最小培地中に1:100で希釈され、そしてその後、37℃で適切な細胞密度まで培養された。熱ショック実験のため、細胞を37℃で対数期中期まで生育し、そして、培養の半分をコントロールとして採取した。残りの培養は、予熱した（50℃）培地に移し、そして10分間培養した。窒素制限条件のため、最小培地中の塩化アンモニウムをグルタミン（2g/L）で置換した。リファンピシン処理細胞のため、メタノールに溶解したリファンピシンを150μg/mLの最終濃度で添加し、そして続いて20分攪拌した。リファンピシンの阻害効果を確認するため、細胞密度を600nmで観察することにより培養をモニタリングした。

ChIP-チップ−適切な細胞密度の細胞を室温で25分間、1％ホルムアルデヒドにより処理して架橋した。未使用のホルムアルデヒドの最終濃度125mMグリシンによる室温5分間でのクエンチングに続いて、架橋した細胞を収穫し、そして50mL の氷冷TBS（トリス緩衝食塩水）で3回洗浄した。洗浄した細胞を、50mM Tris-HCl（pH7.5）、100mM NaCl、1mM EDTA、1μg/mL RNaseA、プロテアーゼ阻害カクテル（Sigma）および1kU Ready-Lyse（商標）リゾチーム（Epicentre）から構成される0.5mLの溶解バッファーに再懸濁した。細胞を室温で30分間培養し、そしてその後、プロテアーゼ阻害カクテルを含む0.5mLの2×IPバッファーで処理した。溶解物をその後、クロマチン複合体をMisonixソニケーター3000（出力レベル=2.5）を用いて断片化するため、4回、各々氷浴中20秒間超音波処理した。超音波処理過程の結果得られるDNAの大きさの範囲は300〜1000bpであった。6μLのマウス抗体（NT63, Neoclone）をRNAポリメラーゼβサブユニット（RpoB）およびDNAのクロマチン複合体を免疫沈降させるために用いた。コントロール（モックIP）のため、2μgの通常マウスIgG（Upstate）を細胞抽出物中に添加した。残りのChIP-チップ過程は以前記載されたように行われた。ChIP-チップ分析を行うために使用した高密度オリゴヌクレオチドタイル化アレイは、25bpの間隔で離される（2つのプローブ間で25bpの重なり）、大腸菌ゲノムをわたる371,034個のオリゴヌクレオチドプローブからなっていた（NimbleGen）。ハイブリダイゼーションおよび洗浄工程後、AxonGenePix4000Bスキャナー上でアレイをスキャンし、そして、NimbleScan（商標）2.4ソフトウェア（NimbleGen）を用いて、特色をペアフォーマットとして抽出した。

qPCR−マイクロアレイハイブリダイゼーション前にRNAP-結合領域の増幅をモニターするため、以前特徴付けられたRNAP-結合領域に対して、定量的リアルタイムPCR（qPCR）をiCycler（商標）（Bio-Rad）およびSYBRグリーン（Qiagen）を用いて三連で行った。qPCR条件は次の通りであった：25μL SYBR、1μL各プライマー（10pM）、1μL IPまたはモックIP DNA、および22μL ddH₂O。試料を、LightCycler（Bio-Rad）上で、繰り返し94℃で15秒間、52℃で30秒間、および72℃で30秒間に付した（総計40サイクル）。iCycler（商標）iQオプティカルシステムソフトウェア（Bio-Rad）により自動的にサイクル閾値（threshold cycle（Ct） value）を計算した。各試料についての正規化Ct（ΔCt）値を、IP-DNAのCt値からモックIP DNAについて得られたCt値を引くことにより計算した（ΔCt=Ct_IP−Ct_mock）。相対的遺伝子発現レベルを測定するためにIP DNAに代えて合成されたcDNAを用いた。

RNAP結合領域の同定−RNAP結合領域を同定するために、NimbleScan（商標）ソフトウェアに組み込まれたピーク探索アルゴリズムを使用した。ChIP-チップデータの加工は3つの工程で行った：正規化、IP/モックIP比計算（2を底とした対数）、および、富化された領域の同定。正規化および対数比計算のため、分類された生データの平均を取り、そして1の中央値に対して縮尺された参照分布に対して、全てのアレイからのシグナル強度をマッピングした。ChIP-チップデータセットは、強い生の再現性を示した（ペアワイズピアソン係数≧0.96）。三連試料からの各対数比データセットを、ソフトウェアを用いてRNAP結合領域を同定するために使用した（スライディングウィンドウの幅＝300bp）。この分析の結果は結合位置（即ち、単一の結合ピーク）ではなく結合領域であった。これらの領域の中央位置をその後、不必要なノイズによるスキュー位置を検出するのを避けるために計算した。中央位置は必ずしもマイクロアレイのプローブ位置と一致しないため、至近のプローブ位置を中央位置として対応付けた。RNAP結合領域の同定の手法は、最初に各データセットの結合位置を決定し、そしてその後、6つのデータセットのうちの少なくとも5つの結合位置を、結合領域を定義するために組み合わせるというものであった。ChIP-チップ実験は通常、複数の複写物を用いて行われ、そして、その後結合事象情報について分析される富化シグナルを生じさせるために、これらの複写物を平均化することが一般的である。異なる複写物がしばしば、分子結合活性における瑣末ではない差異を反映し、そして、正規化することにより強い富化シグナルを消滅させるか、または、いずれの個々の複製物によっても裏付けられない結合事象位置が示されることが観察された。従って、まず個々、そしてその後合わせて複製物を正規化した後、ベースライン補正を計算し、そして、1つについての富化シグナルが非富化プローブの平均値と対応するように、各複製物についてのオフセットの形で適用した。全ての生および加工シグナルは、生ChIP-チップデータセットの加工に使用したインハウスPerlおよびRスクリプトと共に、オンラインでsystembiology.ucsd.edu/publicationsから入手可能である。

トランスクリプトーム分析−総RNA試料を、RNeasy Plus Miniキット（Qiagen）を製造者の指示に従って用いて単離した。続いて、20μgの精製総RNA試料を、1,500U SuperScriptII逆転写酵素（Invitrogen）、30U SUPERase-In（Ambion）、750ngランダムプライマー、4mMアミノアリールdUTPを含む10mM dNTP混合物、10mM DTTおよび8μg/mLアクチノマイシンDを用いて逆転写した。アクチノマイシンDはcDNA合成の間のアンチセンス転写人工産物を除くために用いた。アミノアリール標識cDNAをQIAquick PCR精製カラム（Qiagen）により精製した。アミノアリール残基を保護するため、PEならびにPB緩衝液を用いる代わりに各々リン酸洗浄（5mM KPO₄および80％エタノール）ならびに溶解緩衝液（4mM KPO₄）を用いた。Cy5標識cDNAを得るために、アミノアリール標識cDNAを続いてCy5 Monoreactive染料（Amersham）とインキュベートした。1μgのcDNA当たり各0.3U RNase不含DNaseI（Epicentre）によりcDNA試料を断片化し、その後、それを精製し、そして高密度オリゴヌクレオチドタイル化マイク後アレイ上にハイブリダイズした。ハイブリダイゼーションおよび洗浄工程後、アレイをAxonGenePix4000Bスキャナー上でスキャニングし、そしてNimbleScanソフトウェアを用いて特徴を抽出した。三連実験から得られたペアファイルは、その後、NimbleScanの「堅牢マルチチップ平均（Robust Multichip Average; RMA）分析」機能を用いて正規化した。

RNAP誘導転写セグメントの決定−正規化に続いて、バックグラウンドレベルよりも強く発現されるプローブを決定するために「転写検出（TranscriptionDetector; TD）」アルゴリズムを採用した。バックグラウンドレベルを決定するため、非特異的バックグラウンドハイブリダイゼーションを示すネガティブコントロールプローブを個々のプローブの発現の有意性を評価するために選択した（p値計算）。ネガティブコントロールプローブは中央シグナル強度に基づきランダムに選択した。ネガティブコントロールプローブの目的は、バックグラウンドの非結合プローブシグナルを推定することである。これは、ネガティブコントロールプローブのヌクレオチド配列がゲノムのどの領域とも合わず、そのためネガティブコントロールプローブとのハイブリダイゼーションが起こらない筈だからである。ゲノムの全てがいずれの条件でも発現する訳ではない、そして、細胞中に相補的転写物が存在しないプローブがあるとの示唆から、アレイ上にネガティブコントロールプローブを欠くということは、ネガティブコントロールプローブとして効率的に働くプローブがあると推論された。

これらのプローブは、ゲノムの多くが特定の条件で発現されるよりも発現されていないと仮定して同定された。この仮定のもと、中央プローブ値は富化されていないプローブに対応する。バックグラウンドシグナルについてさらにより低い値を用いた場合には非常に僅かにしか結果は変化しなかったが、（もっと）より高い値が使用された場合には顕著に変化した。これらの観察は、非結合プローブ値が間違いなく推定されたことを示唆した。マイクロアレイシグナルは、1（バックグラウンド以上に発現したプローブ）および0（バックグラウンド）として二元無／有信号に変換された。しかしながら、TDアルゴリズムから二元無／有信号では孤立有信号がしばしば観察された。孤立有信号はTDアルゴリズムからの偽陽性である可能性が高いため、逆鎖からの有信号に基づき手動で孤立信号を除去した（即ち、逆鎖から濃密信号がある場合、鎖の孤立信号を除去した）。その後、二つのRNAP結合領域の間の第一および最後の有信号のゲノム座標を、RNAP誘導転写セグメントのスタートおよび末端ゲノム座標に対応付けた。しかしながら、幾つかの場合、RNAP結合領域に中央プローブ値を対応付けたため、RNAP結合領域は、第一の発現プローブの正確な位置を選択することができなかった。従って、最初のプローブ位置は手動によりRNAP誘導転写セグメントに対応付けられた。少数の（2％未満）転写された領域がRNAP結合領域を欠いた（全部で98個のRNAP誘導転写セグメント）。長いRNAP誘導転写セグメントおよび逆鎖の別のRNAP誘導転写セグメントが検出された可能性は低い。理論に縛られることなく、これらのケースは低い遺伝子発現およびRNAP結合領域の検出の失敗によると判断された。従って、RNAP誘導転写セグメントは手動により2つのセグメントに分離された。しかしながら、異なる生育条件を適用した場合にこれらの領域の発現が増加するかもしれないと期待された。RNAP結合領域の固定の強度閾値（有／無信号）およびゲノム座標を実行することにより、区分毎の一定発現セグメント（即ち、RNAP誘導転写セグメント）のゲノム規模の要約が、そのゲノム座標および潜在的プロモーター領域と共に得られた。

転写スタート部位（TSS）のゲノム規模での決定−総RNA試料を上記のように単離した。単離された総RNA試料からmRNAを富化するため、MICROBExpress（商標）キット（Ambion）を製造者の指示に従って用いてリボソームRNA（rRNA）を除去した。5'-RNAアダプター

をmRNAの5'末端に連結するため、富化したmRNA試料を100μMのアダプターおよび4UのT4 RNAリガーゼ（NEB）とインキュベートした。cDNAをその後、アダプターを連結したmRNA試料から、3'-アダプター配列

で伸張したランダムプライマーを用いて合成した。mRNA試料をその後、cDNA試料を得るために上記のように逆転写した。cDNA試料を、1μL cDNA、10μL Phusion HFバッファー（NEB）、1μL dNTP（10mM）、1μL SYBRグリーン（Qiagen）、0.5μL HotStart Phusion（NEB）、ならびに、5pmolプライマー混合物

の混合物を用いて増幅した。PCR混合物は98℃で30秒間変性し、そして、98℃で10秒間、57℃で20秒間、および72℃で20秒間循環させた。増幅はLightCycler（BioRad）上でモニターし、そして飽和点の初めで止めた。増幅されたDNAの100bpおよび200bpの間の断片をその後、6％TBEゲルから電気泳動後に抽出した。ゲルのスライスを2容量のEBバッファー（Qiagen）および1/10容量の3M酢酸ナトリウム（pH5.2）中に溶解した。増幅したDNAをエタノール沈降させ、そしてEBバッファー中に再懸濁した。DNAライブラリーを1μgまでの最終総量まで、できるだけ少ないPCRのサイクルで増幅するために第二のPCR増幅を行った。最終増幅されたDNAライブラリーをQIAquick PCR精製カラムを用いて精製し、そして、35μlのEBバッファーに溶解した。試料をその後NanoDrop100分光光度計上で定量した。

配列データ加工およびマッピング−Illumina Genome Analyzerから得られた配列読みが3'末端に向かってより誤りが増えたので、全ての読みを25bpに切り詰めた。これらの切り詰めた読みをその後、大腸菌MG1655 ゲノム（NC_000913）上に、次の引数でBLATを用いて整列させた：ステップサイズ=1、タイルサイズ=12、ミンマッチ（minmatch）=1。1つのゲノム位置にのみ整列される読みのみを残した。最終的に、これらのユニークに整列された読みの5'末端のゲノム座標をTSSと定義し、その後、それらを次の抽出条件でRNAP誘導転写セグメントの5'末端上にマッピングした：ウィンドウサイズ=200bp、カットオフ=60％。

潜在的ORF（pORF）の予測およびそれらのRNAP誘導転写セグメント上へのマッピング−対数期、熱ショック条件および定常期下で生育した細胞を用いて、プロテオミクスデータを上記のようにLC-FTICR質量分析を利用して得た。MS/MSスペクトルをストップからストップまで（stop-to-stop）のペプチドデータベースに対して適合させるために、これらのプロテオミクスデータをSEQUESTで分析した。このデータベースを作出するため、大腸菌のゲノム配列（NC_000913）をストップからストップまでの断片に、全6つの転写フレーム中の2つの隣接する停止コドンを判断して計算的に分割し、そして、ペプチドに翻訳した。ペプチドをその後、ゲノム位置およびフレーム情報を維持した10マーのオリゴペプチドに分断した。プロテオミクス分析により、現在アノテーションされているORFの〜59％をカバーする、総数54,549個のペプチドがもたらされた。大腸菌ゲノム中の全ての潜在的ORF（pORF）を予測するために、全ゲノムにわたる全ての停止コドン（TAG、TAAおよびTGA）を同定し、そしてその後、2つの隣接する停止コドンの間の同じフレーム内の最初にあるスタートコドン（ATG、GTGまたはTTG）を対応付けた（最も伸張可能なORF）。この過程により、総数156,781個の最も伸張可能なORFが、全6個の翻訳フレーム中の439,680個のスタートコドンおよび359,212個の停止コドンからもたらされた（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ上の表7（本明細書中においてその全体が参照として組み入れられる）参照）。これらを作るに当たり、スタートコドン選好および最も伸張可能なORFの長さが考慮されなかったことに注意すべきである。ORFの機能分類において、アノテーションされたタンパク質のカバー率（〜52％）は仮説のタンパク質（〜35％）よりも高かった。最後に、プロテオミクスデータ（本研究および公開されているソース）からの少なくとも1つのペプチド（フレーム内）を含む最も伸張可能なORFを予備的pORFと判断した。いずれの最も伸張可能ORFにもマッピングされなかったので、総数にして131個のペプチド（〜0.3％）が除かれた。質量分析によりユニークなものとしてこの131個のペプチドは獲得されたが、ユニークなペプチド中の偽陽性の存在も考慮されるべきである。従って、マッピングされたユニークなペプチドの除かれた観察数、および、マッピングされなかったものの除かれた観察数の間の差異を調査した。マッピングされなかったペプチドの除かれた観察数（最大〜37カウント）は、マッピングされたもの（最大〜63,000カウント）より有意に低く、これらが測定誤差である可能性が高いことが示唆された（即ち、質量分析における偽陽性）。この分析により3,247個の予備的pORFがもたらされた。しかしながら、異なる翻訳フレームからの複数のpORFがしばしば大きく重なり合っていることが観察された。よって、重なり合うpORFにマッピングされるペプチドが比較され、真実のpORFが、高頻度のペプチド検出で複数のペプチドを含むことが示唆された。別の判定基準として、重なり合うpORFの翻訳の方向性（即ち、翻訳鎖）を推測するために、mRNA転写プロファイルを用いた。このストリンジェント分析（stringent analysis）により総数790個のユニークなペプチドが除かれた。総数921個のペプチド（mORFマッピングから131ペプチド＋上記ストリンジェント試験から790ペプチド）が偽陽性と判断され、偽陽性発見率（FDR）が<2％であることが示唆された。この分析により2,542個のpORF（FDR<2％）がもたらされた。同じTU中のpORFを決定するため、各pORFをそのゲノム位置を用いてRNAP誘導転写セグメントにマッピングした。

転写単位の決定−転写単位（TU）を決定するため、モジュール単位を最初に、変化点検出アルゴリズムにより得られた中止点結果に基づいてアセンブルした。現在のアノテーションから得られた総数61個のモジュール単位（<2％）はいかなる実験的に決定された組織構成成分をも欠く。これらのモジュール単位は、その組織構成成分を決定するのに特定の生育条件が必要であることを示唆する。例えば、1つのモジュール単位は、ラムノースを環境要因として要求するラムノース代謝に関連する代謝酵素をコードするrhaオペロンを含む。

実施例2
大腸菌K-12 MG1655のメタ構造決定
この実施例は、大腸菌K-12 MG1655ゲノムのメタ構造を決定するためのデータ統合および分析について解説する。

ゲノム規模でのRNAポリメラーゼ結合領域の決定−第一の工程は、転写過程による遺伝情報のメッセンジャーRNA（mRNA）への転写の流れについての描写を確立することである。この過程は外部シグナルに応じて広く調節されているが、mRNAは基本的には、まずはプロモーター領域に結合するRNAポリメラーゼ（RNAP）により合成される。そこで、プロモーター領域から生じる連続的な転写物のセグメントを決定するために、RNAP結合領域およびmRNA転写物存在量を統合した。ゲノム規模でRNAP結合領域を同定するため、リファンピシリンの存在下または不在下、複数の生育条件の元で生育された大腸菌K-12 MG1655に対してChIP-チップ法を採用した。RNAPβサブユニットに特異的な抗体を用いて、RNAPを伴うDNA断片を取得し、それをその後蛍光標識し、そして、全大腸菌ゲノムに対応する高密度オリゴヌクレオチドタイル化マイクロアレイに対してハイブリダイズさせた。リファンピシリン処理なしのRNAP結合領域の動的マップに対して、リファンピシリン処理により、ゲノム規模のRNAP結合領域の静的マップが作られた。この静的マップから、必然的にゲノム規模のプロモーター領域を示す、総数1,511個および1,444個のRNAP結合領域を各々、順方向および逆方向鎖から同定した（図2；例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表1参照）。表1は、RNAポリメラーゼ結合領域（RBR）についてのゲノム規模の決定からのデータを提供する。「静的」および「動的」は、各々、リファンピシリン処理有りおよび無しのRNAポリメラーゼChIP-チップ実験を示す。カラム3〜7の値は各々、対数期（log）、熱ショック（熱）、定常期（stat）およびグルタミン（gln）生育条件下でのRNAポリメラーゼの結合レベル（log2値）を示す。興味深いことに、リファンピシリン処理細胞から得られたRNAP結合領域の位置は、使用された実験条件と殆ど無関係であった。この観察は、インビボの転写においてランダムバーストを起こすことが知られている、リプレッサーおよび制御領域の間の確率的相互作用のためかもしれない。動的マップはそれに対して、環境条件に対応したRNAPのゲノム規模の再配列に対応する、ゲノム全体にわたる差次的RNAP結合を示す。現在の大腸菌ゲノムのアノテーション（総数4,505個の遺伝子）を考慮すると、1.5個の遺伝子につき平均1つのRNAP結合領域が決定された。

RNAP結合領域およびトランスクリプトームデータの統合−第二の工程において、複数の生育条件下のトランスクリプトームをプロファイリングするためにタイル化マイクロアレイを用いて、大腸菌ゲノム全体にわたるmRNA転写物の発現レベルについての包括的情報を得た。これらの生育条件は、対数期、熱ショック、定常期、および異なる窒素源を含んでいた。非特異的バックグラウンドハイブリダイゼーションを示すネガティブコントロールプローブは、中央シグナル強度に基づいてランダムに選択した（図3中破線として描かれる）。マイクロアレイシグナルを続いて、プローブの有り（バックグラウンド以上に発現するプローブ）および無し（バックグラウンド）を示す二元シグナルに変換した。複数の生育条件から得た転写データを段階的手法により累積的に加算した。統合のこれらのラウンドにより、現在アノテーションされるゲノムの73.0％、80.2％、86.8％および87.4％が各々カバーされることとなった（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表2参照）。表2は発現プロファイルの統合分析データを提供する。「総プローブ」は、ORF領域内の総プローブ数を指す。「発現されたプローブ」は、転写決定アルゴリズムにより決定された。「プローブ密度（％）」は、ORF領域内の発現されたプローブおよび総プローブの間の比を示す。略語：R1、対数期；R2、対数期＋熱ショック条件；R3、対数期＋熱ショック条件＋定常期；R4、対数期＋熱ショック条件＋定常期＋グルタミン成長期；P、有り；A、無し；U、特徴付けられていない遺伝子。

最後の反復結果（即ち、4つの生育条件からのマイクロアレイ結果の累積統合）は、バックグラウンドレベルより高く検出された118,767個のプローブを示す（偽発見率（FDR）閾値=0.05）（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表1参照）。総数567個の遺伝子（12.6％）がFDR閾値以下となり、409個が特徴づけらられていない、そして158個が現在公知の遺伝子からなっていた。公知遺伝子の内の幾つか、rhaBADM、tynA、およびspeF等は、特定の生育条件下のみで機能し、そしてそのため使用された条件下では検出されそうにもない（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表2参照）。さらに、これまでにORFとしてはアノテーションされていなかった総数〜140kbもの転写が検出された。

現在のゲノムアノテーションには依存しない連続的な転写セグメント（即ち、RNAP誘導転写セグメント）のマップを得るために、RNAP結合領域およびトランスクリプトームデータが統合された。二元シグナル（即ち、有り（1）または無し（0）信号）をその後、上で決定されたRNAP結合領域により分断される一定のシグナルのセグメントに区分した（図3）。変化点検出アルゴリズムおよびランニングウィンドウ手法と比べて、RNAP誘導転写セグメント方法、即ち、二元転写シグナルをRNAP結合情報と統合することは、無関係の転写物のアセンブルを回避し、そして、さらなるTU決定に大きな利益となる。

平均長さ1.3kbの総数1,364個および1,321個のセグメントが、各々、順方向および逆方向鎖についての累積反復により決定された（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表3参照）。表3は、RNAP誘導転写セグメント（RTS）の反復決定データを提供する。略語：R1、対数期；R2、対数期＋熱ショック条件；R3、対数期＋熱ショック条件＋定常期；R4、対数期＋熱ショック条件＋定常期＋グルタミン生育条件；Len、長さ（bp）；Den、密度（％）。これらのうち、総数98個のセグメントがRNAP結合なしで決定された。セグメントのゲノムカバー率は〜81％であり、平均プローブ密度は各セグメントにつき〜83％であった。セグメントの境界精度およびプローブ密度は、各反復に従い増加した（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表3参照）。総数253個のセグメントが、先立つORFアノテーションのないゲノムの領域中に決定され、これには、82個の遺伝子間領域のセグメント、147個のアノテーションされた鎖の逆側のセグメント、そして、24個の遺伝子内領域のセグメントが含まれた。

転写スタート部位の決定−第三の工程において、RNAP誘導転写セグメントは、ゲノム全域にわたるTSSデータと統合された（図4）。ユニークなRNAアダプターおよび大規模シークエンシングを用いた、新規に開発された改変5'-RACE法によりTSSを決定した。3つの累積反復により、〜30×ゲノム長（〜133Mb生配列データ）に対応する平均長30bpの＞440万配列の読みがもたらされた。各ゲノム位置に合う読みの数を決定するため、配列の読みを参照大腸菌ゲノム（NC_000913）上に戻しマッピングした。配列読みのおよそ64％が、1つのゲノム領域に唯1つマッピングし、残りの読みは反復配列にマッピングされるか、または、質が低かった。ゲノムへの読みのマッピングにより、最初の反復から3,969個のTSS、連続的累積反復から4,062および4,133個のTSSが決定できた（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表4参照）。表4は、RTS上にマッピングする転写スタート部位（TSS）、ゲノム規模の決定のデータを提供する。各プロモーター領域（総数2,955個）は平均1.6TSSであった。確認のため、現在確認済みのTSSに対してデータを比較し、そして、確認済みTSSの内87％（1,252個中1,089個）が本研究で得られたTSSと合致することが見出された（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表5参照）。表5は以前より知られるTSSの本研究で得られたTSSに対する比較データを提供する。

確認済みTSSの13％（146個のTUに対応）が本研究で検出されなかったのは、低いmRNA発現レベルおよび条件特異的なTSSの使用のためかもしれない。例えば、嫌気性生育条件下で発現された硝酸塩／亜硝酸塩交換輸送体をコードする遺伝子であるnarKについて確認済みのTSSは本研究では検出されなかった。これは、適用された条件下でのこの遺伝子のバックグラウンドに近いmRNAレベルにより説明され得る。別の例は、アミノ酸生合成に関係するアセト乳酸合成酵素をコードするilvIHオペロンである。ilvIHオペロンは実験的に確認された4つのTSSを有する。これらの内、本明細書で記載される生育条件下で転写因子Lrpにより高度に制御される、1つのTSSのみが検出された。他方、TSSの〜2％（4,133個中97個）が弱く転写される遺伝子からのものであり、そして、RNAP誘導転写セグメントの〜5％（2,685個中145個）がTSSを欠くことが見出された。その結果、TSSのRNAP誘導転写セグメントとの統合により、総数4,036個ものTSS随伴転写セグメントを決定できた。

潜在的タンパク質コードORFの同定−第4の工程において、ゲノム規模でペプチドを同定するための高スループットプロテオミクス手法を用いて、各RNAP誘導転写セグメント内にある潜在的タンパク質コードORF（pORF）の数に取り組んだ。この手法は、フーリエ変換イオンサイクロトロン共鳴質量分析（LC-FTICR-MS）に組み合わせた液体クロマトグラフィー、ならびに、精密質量および時間タグ（AMTタグ）に基づいていた。プロテオミクス分析により、大腸菌ゲノムのストップからストップまでのデータベースに基づき、総数54,549個のペプチドがもたらされた（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表6参照）。表6は、対数期、熱ショック、定常期生育条件（本研究）、および、一般に入手できる源から得られたゲノム規模のプロテオミクスデータを提供する。

現在のアノテーションに依存することなくプロテオミクスデータからpORFを予測するため、全6個の可能な翻訳フレームから組み立てられた最大に伸張可能なORF足場（即ち、停止コドンから最も遠いスタートコドンまで）上にペプチドのゲノム位置をマッピングした（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表7参照）。従って、表7は、全6個の可能な翻訳フレームから予測された最大に伸張可能なORFを提供する。この分析により、2,542個のpORF（FDR<2％）がもたらされた（図5、例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表8参照）。表8は、最大に伸張可能なORGおよびプロテオミクスデータセットの潜在的ORFについてのゲノム全域にわたる決定データを提供する。これらの内、2,525個のpORF（〜99％）が現在アノテーションされているORF（〜59％カバー度）に対してマッピングされた（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表8参照）。興味深いことに、翻訳停止の位置の＞99％が現在アノテーションされているORFと正確に一致したが、しかしながら、たった64％の転写スタート位置しか適合しなかった。

翻訳スタートおよび停止位置の精度を調べるため、pORFを、翻訳境界の確認された総数888個のORFと比較した。2,525個のpORFの内、803個のpORFが確認済みORFにマッピングされた。これらの803個のpORFの全ての翻訳停止位置が正確に確認済みのものと適合した。しかしながら、499個のpORFのみ（精度＝〜62％）しか同一の翻訳スタート位置を示さなかった（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表9参照）。表9はpORFの境界精度データを提供する。境界精度を調べるため、pORFを、そのN末端配列により翻訳境界が確認されたORF（EcoGeneより）と比較した。803個のpORFが同定され、そして、確認済みORFに対してマッピングされ（〜89％）、その内499個のpORFが同一の5'および3'境界を示した（精度＝〜62％）。見出された最も近いペプチド（npORF）から選択された翻訳スタートコドンについて検討したところ、507個のpORF（精度＝〜63％）が確認済みORFと適合した。pORF内の観察されたペプチドと最も近い翻訳スタートコドンを検討しても、確認済みORFと適合する精度は増加しなかった（507個のpORF）。適合しない翻訳スタート位置のpORF（296個のpORF）はペプチドカバー率が低かった。全体として、プロテオゲノミクスマッピング手法はORFのゲノム規模での決定を可能にしたが、しかしながら、ペプチドカバー率が限定されるため、より包括的且つ正確なORFマップを得るためには、追加の方法、例えば、N末端改変を加えたプロテオミクスを適用する必要がある。

総数2,385個のpORFが、上で同定されたRNAP誘導転写セグメントにマッピングにより転写の直接的な証拠を示した（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表10参照）。さらに、ゲノム領域中に、以前にアノテーションされていない17個のpORFが同定された。これらの内、12個のpORFのmRNA転写物がトランスクリプトーム解析により確認され、現在のゲノムアノテーションと比較して、追加のORFを示唆した（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表10参照）。表10はpORFのRTSに対するマッピングデータを提供する。現在のゲノムアノテーションは、未だに「予測」、即ち、実験的確証が全くないとして分類される2,087個の遺伝子座を含む。これらの予測遺伝子座の42％以上（878）がpORF上にマッピングされ、適用された生育条件下でそれらがタンパク質へと翻訳されることが示唆された（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表9参照）。

メタ構造の特徴の分析：転写単位構造の決定−組織構成要素を用いることにより、大腸菌ゲノムの潜在的転写単位に相当する3,138個のモジュール単位を明らかにした。各モジュール単位は（i）プロモーター領域、（ii）転写スタート部位（TSS）、（iii）転写領域、および（iv）pORFおよび現在アノテーションされているORFについての情報からなるORF、を含む（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表11参照）。表11は、潜在的な転写単位（MU）に相当するモジュール単位（MU）のゲノム規模の決定を提供する。オペロンはネステッドTUについては示さないので、このデータに基づいて定義されるモジュール単位は古典的なオペロンの定義とは異なっている。大腸菌ゲノムの転写単位（TU）構造がモジュール単位の条件依存的組合せ結果であることが続いて決定された。一般に、細菌ゲノム中のTUは、1つのプロモーターから単一のmRNA転写物を合成するために転写される、複数のORFを有すると定義される。概念としては、差次的mRNA分解がないと仮定すれば、単一のTU内の複数のモジュール単位の発現レベルは、その間に発現ギャップがないと一定のままである。

これらの判定基準は、TU構造をゲノム規模で変化点検出アルゴリズムを用いて決定するためにモジュール単位をアセンブルすることを可能にした。一つのTUは、一連の連続したモジュール単位からそれらの転写終結位置に基づいて同定することができる。他方、単一のモジュール単位から、それが複数のTSSを含んでいる場合に複数のTUを得ることができる（図7）。総数、4,661個のTUが決定され、内3,946個（〜86％）が完全に全ての組織構成要素により支持される（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表12参照）。表12は、転写単位構造および5'UTR長の計算についての決定からのデータを提供する。これは、実験的に確認された875個のTUと比べて＞530％の増加に相当する（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表13参照）。表13は、以前に実験的に決定されたTUに対するTUの比較データを提供する。同定されたTSSを欠くため、72個のTU（〜8％）がこの実験では決定されなかったが、総数1,786個のTU（〜72％）がコンピューターにより予測されたTUと一致した（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表14参照）。4,661個のTUの各々は、平均1.1個のモジュール単位を含み、最も大きいTU（TU-0061）は16個のORFと同等な9個のモジュール単位を含む（例えば、現在10/29/10のsystemsbiology.ucsd.edu/tablesにおけるワールドワイドウェブ（本明細書中においてその全体が参照として組み入れられる）の表12参照）。総数3,010個のTU（〜65％）はモノシストロン性であるのに対し、1,652個のTUが複数のORFを含む（ポリシストロン性）。398個のTU（〜9％）は、互いに入れ子状（ネステッド）になっている複数のモジュール単位を含み、回旋状ゲノム構造を示す（図7）。これらのネステッドTU構造はそのため、ゲノムの大きさを増加させることなく細菌ゲノムの発現状態の可撓性を増加させるかもしれない。

総合すると、示された広範囲にわたる実験結果は、細菌ゲノムの組織構成要素がどのように実験的に得られるかを示す。構成要素の決定は、複数のゲノム規模での測定、および、それらの反復且つ組織的統合を必要とする（図1）。大腸菌K-12 MG1655ゲノムについての組織構成要素の決定は、この広く研究されているゲノムの知識および理解を顕著に増進する。ここで開発され、そして実施された過程は他の原核生物に適用できる。結果はゲノムの実験的アノテーションであり、そして、転写および翻訳制御ネットワークを構築できる足場を提供する。

本発明は上記実施例に言及して記載されたが、改変およびバリエーションが本発明の精神および範囲内に包含されることが理解される。従って、本発明は続いての特許請求の範囲のみにより限定される。

Claims

（a）標的生物の全ゲノム配列を得る工程；
（b）該生物よりゲノム全域にわたるRNAポリメラーゼの結合を得る工程；
（c）該生物よりRNAの転写を得る工程；
（d）該生物よりRNA分子の5'末端配列を得る工程；
（e）該生物より単離された総タンパク質からプロテオミクスデータを得る工程；
（f）該生物の一連の培養条件下で、（b）から（e）に記載のデータを得る工程；および
（g）該標的生物のためのメタ構造を組み立てるために、（a）のDNA配列上に（f）に記載のデータセットを反復的にマッピングする工程
を含む、標的生物のためのメタ構造を組み立てる方法。
標的生物が細菌生物である、請求項1記載の方法。
標的生物が古細菌生物である、請求項1記載の方法。
ゲノム全域にわたるRNAポリメラーゼの結合が、マイクロアレイと組み合わせたクロマチン免疫沈降により得られる、請求項1記載の方法。
ゲノム全域にわたるRNAポリメラーゼの結合が、免疫沈降されたDNAのディープシークエンシングにより得られる、請求項1記載の方法。
RNAの転写が、タイル状発現アレイを用いて得られる、請求項1記載の方法。
RNAの転写が、単離されたRNAのディープシークエンシングを用いて得られる、請求項1記載の方法。
RNA分子の5'末端配列がRNAのディープシークエンシングにより得られる、請求項1記載の方法。
総タンパク質からのプロテオミクスデータが質量分析により得られる、請求項1記載の方法。
オープンリーディングフレームの一覧が前記プロテオミクスデータから得られる、請求項1記載の方法。
培養条件が、酸素レベル、栄養レベル、温度、圧力、光、金属、その他の化学物質およびその他の環境刺激からなる群より選択される、請求項1記載の方法。
（a）ゲノム全域にわたるRNAポリメラーゼの結合およびRNAの転写から転写境界を得る工程；
（b）RNA分子の5'末端配列を各転写境界に対応付ける工程；ならびに
（c）オープンリーディングフレームを各転写境界に対応付ける工程
をさらに含み、それにより該標的生物についてゲノム規模でモジュール単位を同定する、請求項1記載の方法。
（a）RNA発現レベルのDNAゲノム配列中の変化点を決定する工程；
（b）変化点に基づきモジュール単位を転写単位に結びつける工程；
（c）該結びつけたモジュール単位中のリードモジュール単位についてのTSSデータを用いて転写単位のスタート点を決定する工程；および
（d）該培養条件下の転写単位のスタート点および末端を定めるために、（a）〜（c）を用いる工程
をさらに含み、それにより、ある培養条件下の該標的生物についてゲノム規模で転写単位を決定する、請求項11記載の方法。