JP2004536368A

JP2004536368A - 天然状態のアンサンブルにおけるアミノ酸の熱力学的傾向：折りたたみ認識に関する関係

Info

Publication number: JP2004536368A
Application number: JP2002562693A
Authority: JP
Inventors: ヒルサー、ヴィンス; フォックス、ロバート、オー．
Original assignee: ボードオブレジェンツ，ザユニバーシティーオブテキサスシステム
Priority date: 2001-01-16
Filing date: 2002-01-16
Publication date: 2004-12-02
Also published as: EP1373886A2; WO2002062730A3; WO2002062730A2; US20020193566A1; AU2002251964A1; CA2434945A1

Abstract

本発明は、タンパク質内の熱力学的環境の相違の決定に使用されるシステムおよびコンピュータベースの方法に関する。この方法を使用して、タンパク質のデータベースを構築し、前記データベースを使用して、特定の標的折りたたみに相当する正確な配列を同定することができる。

Description

【技術分野】
【０００１】
I ．発明の分野
本発明は、構造生物学の分野に関する。より詳細には、本発明は、タンパク質データベースおよび三次元タンパク質構造のコード化に必要な全ての熱力学的情報を含むタンパク質データベースの開発方法に関する。
【背景技術】
【０００２】
本出願は、2001年1 月16日に提出された米国特許仮出願第60／261 ，733 号の優先権を主張する。
【０００３】
本明細書中に記載の研究は、合衆国政府からの助成金によって援助されている。合衆国政府は、本発明において一定の権利を有し得る。
【０００４】
II．関連技術
タンパク質構造は、溶媒環境中でのその全体的な自由エネルギーの最小状態を見出すアミノ酸鎖の結果であると長い間考えられている（Anfinsen、1973）。近年、このいわゆる「熱力学支配」に対するいくつかの例外が発見されている（例として、タンパク質の折りたたみが「速度支配」下で起こり得ること（Baker ら、1992、Cohen 、1999）およびタンパク質がアミノ酸配列中に完全に含まれない情報を必要とすること（例えば、シャペロン支援折りたたみ（Feldman ＆ Frydman 、2000；Fink、1999））が含まれる）。熱力学支配は、正確な折りたたみのためのデフォルト挙動として広く受け入れられているが（Jackson 、1998）、熱力学支配に関与する力の詳細な理解およびどのようにして原子の相互作用がアミノ酸配列の折りたたみおよび天然の構造の安定性に関連するのかについては依然として理解するのが困難である。
【０００５】
タンパク質折りたたみが進歩しているにもかかわらず、障害物によって正確な構造予測アルゴリズムの作成が妨げられている。正確な構造予測アルゴリズムの開発における障害物とは、所与のタンパク質分子の異なる高次構造の自由エネルギーの計算に適切なポテンシャルを欠くことであった。1992年に、高圧液体クロマトグラフィー（HPLC）を使用して、アミノ酸側鎖間の対合相互作用のエネルギーを定量した（Pochapsky and Gopen 、1992）。さらに、Pochapsky は、1999年に、HPLCを使用して、アミノ酸側鎖間の熱力学的相互作用をさらに研究した。HPLC用の固定相が調製された。疎水性および両親媒性アミノ酸の分析物の側鎖の機能模倣を使用した微粒子シリカゲルの誘導化によってこの相が調製された（Pereira de Araujoら、1999）。したがって、HPLC法のこの変形形態により、異なる誘導化微粒子シリカゲルを使用して相互作用のエントロピーおよび自由エネルギーを比較する。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
本発明は、アミノ酸残基の型によりタンパク質の天然の折りたたみ構造における熱力学的環境の優先度が異なるかどうかおよび熱力学情報のみをベースにした（系統だった構造の拘束から独立している）スコア行列を使用して特定の標的折りたたみに相当する正確な配列を同定することができるかどうかについて初めて取り組むためのコンピュータベースのアルゴリズムを使用する。COREX アルゴリズム（Hilser ＆ Freire、1996）を使用したタンパク質データベースのためにタンパク質内の場所による安定性の相違を決定する固有のアプローチによってこれを行う。COREX アルゴリズムにより、テンプレートとして高分解能の構造を使用して状態のアンサンブルが得られる。アンサンブルの異なる状態の相対的確率に基づいて、異なるタンパク質領域が他のタンパク質より安定であることが見出される。したがって、COREX アルゴリズムは、折りたたみの残基特異的自由エネルギーにアクセスできるようにする。
【課題を解決するための手段】
【０００７】
本発明の1 つの実施形態は、三次元タンパク質構造のコード化に必要な全ての熱力学的情報を含むタンパク質データベースを開発するシステムおよび方法に関する。
【０００８】
本発明の別の実施形態は、タンパク質折りたたみの公知の残基特異的自由エネルギーを有する非相同タンパク質を含むタンパク質データベースを含む。特定の実施形態では、前記データベースは、球状タンパク質を含む。
【０００９】
本発明のさらなる実施形態では、データベースを、式：
【００１０】
【数１】

によるj が非折りたたみ高次構造である全状態の確率の合計に対する残基j が折りたたみ高次構造であるアンサンブルにおける全状態の確率の合計の比率から安定度定数を決定する工程を含む計算方法によって決定する。
【００１１】
本発明の別の特定の実施形態は、前記残基の安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される3 つの熱力学的分類群の少なくとも1 つに割り当てることを含む。
【００１２】
特定の実施形態では、安定性熱力学的分類群は、高安定性、中程度の安定性、および低安定性を含む。より詳細には、高安定性に分類される残基は、フェニルアラニン、トリプトファン、およびチロシンを含む。低安定性に分類される残基は、グリシンおよびプロリンを含む。中程度の安定性に分類される残基は、アスパラギンおよびグルタミン酸を含む。
【００１３】
なおさらに、エンタルピー熱力学的分類群は、高エンタルピーおよび低エンタルピーを含む。エンタルピーは、極性成分と無極性成分との寄与率を含む。
【００１４】
別の特定の実施形態では、エントロピー熱力学的分類群は、高エントロピーおよび低エントロピーを含む。エントロピーは、極性成分と無極性成分との寄与率を含む。
【００１５】
更なる実施形態では、残基の安定度定数を、HHH 、MHH 、LHH 、HHL 、MHL 、LHL 、HLL 、MLL 、LLL 、HLH 、MLH 、およびLLH からなる群から選択される12種の熱力学的分類に割り当てる。
【００１６】
本発明の別の態様は、タンパク質の高分解能構造を入力する工程と、各タンパク質の全ての可能な組み合わせにおいて一組の所定の折りたたみ単位の非折りたたみの組み合わせによって、徐々に異なる高次構造状態のアンサンブルを獲得する工程と、前記各高次構造状態の確率を決定する工程と、前記各高次構造状態の残基特異的自由エネルギーを計算する工程と、安定度定数を安定性、エンタルピー、およびエントロピーからなる群から選択される少なくとも1 つの熱力学的分類群に分類する工程とを含む、タンパク質データベースの開発方法である。特に、タンパク質データベースは、球状タンパク質および非相同タンパク質を含む。
【００１７】
特定の実施形態では、獲得工程は、タンパク質の全配列上にウィンドウのブロックを置いて前記ウィンドウのブロックを一度に1 残基ずつスライドさせることによって前記タンパク質を折りたたみ単位に分ける工程を含む。
【００１８】
さらに特定の実施形態では、決定工程は、前記アンサンブルにおける高次構造の各状態の自由エネルギーを決定する工程と、各状態のボルツマン重率：
【００１９】
【数２】

を決定する工程と、式：
【００２０】
【数３】

を使用して各状態の確率を決定する工程とを含む。
【００２１】
特定の実施形態では、計算工程が、式：
【００２２】
【数４】

を使用して特定の残基が折りたたまれた全微視的状態と特定の残基が折りたたまれていない全微視的状態との間のエネルギーの相違を決定する工程を含む。
【００２３】
本発明の別の実施形態は、既知のタンパク質構造に対応する異なる熱力学的環境におけるアミノ酸残基の分布を決定する工程を含むタンパク質折りたたみの同定方法である。特に、アミノ酸残基分布の決定は、熱力学情報由来のスコア行列を構築する工程を含む。スコア行列は、安定性、エンタルピー、およびエントロピーからなる群から選択されるCOREX の熱力学的情報に由来する。
【００２４】
本発明の上記の実施形態を、コンピュータベースのシステムとして容易に実行することができる。このようなコンピュータベースのシステムの1 つの実施形態には、1 つまたは複数のタンパク質の高分解能構造データの入力を受信するコンピュータプログラムが含まれる。コンピュータベースのプログラムは、このデータを使用してタンパク質のアミノ酸熱力学的分類を決定する。次いで、これらのアミノ酸熱力学分類を、データベースに格納することができる。このシステムのデータベースは、好ましくは、アミノ酸名またはアミノ酸の略語の値を格納するための１つまたは複数のフィールドと、特定のアミノ酸の熱力学的分類のための数値を格納するための1 つ以上の分類フィールドとをもつデータ構造体を有する。さらに、このデータ構造体は、特定のアミノ酸の熱力学的分類のための各数値の合計を示す値を格納するためのフィールドを有し得る。
【００２５】
本発明の1 つの実施形態では、コンピュータベースのプログラムは、タンパク質の高分解能構造を入力する工程と、各タンパク質の全ての可能な組み合わせにおいて一組の所定の折りたたみ単位の非折りたたみとの組み合わせによって、徐々に異なる高次構造状態のアンサンブルを獲得する工程と、前記各高次構造状態の確率を決定する工程と、前記各高次構造状態の残基特異的自由エネルギーを計算する工程と、安定度定数を熱力学的分類群に分類する工程とを含むタンパク質の熱力学的分類を得るための処理を実行する。さらに、コンピュータベースのプログラムは、計算したアンサンブルにおける各高次構造状態の自由エネルギーを決定し、ボルツマン重率を決定し、次いで、各状態の確率を決定するための確率決定モジュールを有し得る。
【００２６】
さらに、本発明のコンピュータベースのプログラムは、画面または印刷物に1 つまたは複数の画像レポートを得るための表示／レポーティングモジュールを有し得る。これらのいくつかのレポートには、前記アミノ酸熱力学的分類に基づいた三次元タンパク質構造の表示、平均的な側鎖表面露出の正規化頻度に対するCOREX の安定性データの正規化頻度の散布図、およびタンパク質のアミノ酸の熱力学的環境を表示するチャートが含まれる。
【００２７】
本発明の別の態様は、これらのプログラムを、コンピュータ読取可能な媒体上のコンピュータ実行命令として格納することができることである。
【００２８】
上記は、以下の本発明の詳細な説明をより理解することができるように本発明の特徴および技術的利点を幾分広範に概説した。本発明の特許請求の範囲の主題を形成する本発明のさらなる特徴および利点を、以下に記載する。開示の概念および特定の実施形態を、本発明同一の目的を果たすための他の構造の改変またはデザインの基本として容易に使用することができることが当業者に認識される。このような均等な構成は添付の特許請求の範囲に記載の本発明の精神および範囲を逸脱しないことも当業者は認識すべきである。その構成および操作方法の両方に関して、さらなる目的および利点と共に本発明の特徴と考えられる新規の特徴は、添付の図面と併せて考慮した場合に以下の説明からより理解される。しかし、各図は、例示および説明のみを目的として提供し、本発明を制限するための定義となることを意図しない。
【００２９】
以下の図面は、本明細書の一部を形成し、本発明の一定の態様をさらに示すために含まれる。本発明は、本明細書中に記載の特定の実施形態の詳細な説明と共に1 つまたは複数のこれらの図面を参照してより理解することができる。
【発明を実施するための最良の形態】
【００３０】
本発明の範囲および精神を逸脱することなく、本出願で開示の発明に対する種々の実施形態および修正形態を行うことができることが当業者に容易に自明である。
【００３１】
本明細書中で使用される、「a 」または「an」は、1 つまたは複数を意味し得る。本明細書中で使用されるように、特許請求の範囲では、用語「含む」と共に使用される場合、「a 」または「an」は、1 つまたは1 つを超えることを意味し得る。本明細書中で使用される、「別の」は、少なくとも2 番目またはそれ以上を意味し得る。
【００３２】
本明細書中で使用される、「高次構造」は、共有結合を破壊することなく相互に交換することができる原子の種々の重ね合わせることができない三次元配置をいう。
【００３３】
本明細書中で使用される、用語「配置」は、原子が同一のキラリティーを有するタンパク質分子の異なる高次構造をいう。
【００３４】
本明細書中で使用される、用語「データベース」は、コンピュータで容易に検索されるように割り付けられたデータの集合体をいう。データは、既存のデータセットと容易に比較する様式でも格納されている。
【００３５】
本明細書中で使用される、用語「エンタルピー」は、内部相互作用のエンタルピーおよび疎水性エントロピーにより好ましいタンパク質折りたたみに変化させ、それによりエンタルピーが球状タンパク質の熱力学的安定性における熱力学的成分である熱力学的状態または環境をいう。エンタルピーは、極性と無極性の寄与率
【００３６】
【数５】

である。
【００３７】
本明細書中で使用される、用語「エントロピー」は、高次構造のエントロピーによりタンパク質折りたたみに対する作用を変化させる熱力学的状態または環境をいう。エントロピーは、全溶媒和自由エネルギーに対する高次構造エントロピーの比
【００３８】
【数６】

である。
【００３９】
本明細書中で使用される、用語「球状タンパク質」は、そのポリペプチド鎖が緻密な構造に折りたたまれたタンパク質をいう。緻密な構造は、繊維タンパク質の伸長したフィラメント形態と異なる。当業者は、球状タンパク質は二次構造エレメント（例えば、ヘリックス、βシート、または特定の配列中で折りたたまれた不規則な領域）を含む三次構造を有することを十分に理解している。球状タンパク質には、ミオグロビンが含まれるが、これらに限定されない。
【００４０】
本明細書中で使用される、用語「ペプチド」は、その物理的性質がそのアミノ酸残基の合計から予想される性質である、定義された配列を有するアミノ酸の鎖をいう。
【００４１】
本明細書中で使用される、用語「ポリアミノ酸」は、一般に1 つまたは複数のアミノ酸の非特異的重合に起因する種々の長さの無作為な配列をいう。
【００４２】
本明細書中で使用される、用語「タンパク質」は、通常、定義された配列および長さならびに三次元構造のアミノ酸の鎖をいう。タンパク質を産生する重合反応により、各アミノ酸から1 分子の水が喪失し、タンパク質はしばしばアミノ酸残基から構成されると言われている。天然のタンパク質分子は、20個ほどの異なる型のアミノ酸（そのそれぞれが特有の側鎖を含む）を含み得る。
【００４３】
本明細書中で使用される、用語「タンパク質折りたたみ」は、各アミノ酸を配列中の他のアミノ酸と比較して特定の位置に拘束する構造を形成するためのタンパク質の組織化をいう。当業者は、タンパク質のこの組織化の型は、二次、三次、および四次構造を含むことを十分に理解している。
【００４４】
本明細書中で使用される、用語「熱力学的環境」は、タンパク質の折りたたみ過程に寄与する種々の熱力学的成分をいう。例えば、安定性、エントロピー、およびエンタルピー熱力学的環境は、タンパク質の折りたたみに寄与する。当業者は、用語「熱力学的環境」、「熱力学的分類」、または「熱力学的成分」は交換可能であることを十分に理解している。
【００４５】
タンパク質構造には階層が存在する。一次構造は、タンパク質中のアミノ酸残基の特定の配列および起こり得る任意の翻訳後共有結合修飾を含む共有結合構造である。二次構造は、ポリペプチド骨格の局所的高次構造である。タンパク質二次構造のヘリックス、シート、およびターンは共に、タンパク質の三次元構造を形成する。内部表面（タンパク質が通常見出される水性環境から離れている）および外部表面（水性環境に極めて接近している）を有することで多数のタンパク質の三次元構造を特徴付けることができる。多数の天然タンパク質の研究によって、研究者らは、疎水性残基（トリプトファン、フェニルアラニン、チロシン、ロイシン、イソロイシン、バリン、またはメチオニンなど）がタンパク質分子の内部表面上に最も頻繁に見出されることを発見した。それに対して、親水性残基（アスパラギン酸、アスパラギン、グルタミン酸、グルタミン、リジン、アルギニン、ヒスチジン、セリン、トレオニン、グリシン、およびプロリンなど）は、タンパク質の外部表面上に最も頻繁に見出される。アミノ酸であるアラニン、グリシン、セリン、およびトレオニンは、タンパク質の内部および外部両表面上に等しい頻度で認められる。
【００４６】
本発明の実施形態は、タンパク質折りたたみの既知の残基特異的自由エネルギーを有する非相同性タンパク質を含むタンパク質データベースである。
【００４７】
当業者は、タンパク質の性質はそのポテンシャルエネルギー面によって支配されることを認識している。タンパク質は、折りたたまれた規則正しい状態と折りたたまれていない不規則な状態との間の動的平衡において存在する。この平衡は、部分的にタンパク質構造を安定化する傾向があるアミノ酸残基の側鎖と分子の無作為化を促進する傾向がある熱力学的力との間の相互作用を反映する。
【００４８】
本発明は、式：
【００４９】
【数７】

によるj が非折りたたみ高次構造である全状態の確率の合計に対する残基j が折りたたみ高次構造であるアンサンブルにおける全状態の確率の合計の比率から安定度定数を決定する工程を含む計算方法を使用する。
【００５０】
当業者は、各位置についての安定度定数が定義されているにもかかわらず、各残基で得られた値はその残基のエネルギーに寄与しないことを認識している。安定度定数は、概してアンサンブルの性質である。それぞれ部分的に折りたたまれていない微視的状態について、これと完全に折りたたまれた基準状態との間のエネルギーの相違を、各微視的状態で折りたたまれてない折りたたみ単位を含む全アミノ酸のエネルギー寄与にタンパク質上の露出したさらなる（相補的）表面に会合したエネルギー寄与を加えることによって決定する（図1B）。したがって、安定度定数により、表面領域、極性、およびパッキングが暗に考慮された各残基の平均熱力学的環境が得られる。したがって、安定度定数により、これらの各静的な構造の特性が各位置でのエネルギー的影響力により重きが置かれる熱力学的測定基準が得られる。
【００５１】
残基の安定度定数を、高、中程度、および低からなる群から選択される3 つの安定性分類に割り当てる。詳細には、高安定性に分類される残基には、フェニルアラニン、トリプトファン、およびチロシンが含まれる。低安定性に分類される残基には、グリシンおよびプロリンが含まれる。中程度の安定性に分類される残基には、アスパラギンおよびグルタミン酸が含まれる。
【００５２】
本発明では、高、中程度、および低の分類を、選択したデータベース中の各タンパク質のlnκf 値の検査に基づいて決定する。したがって、当業者は、3 つの分類が相対的であり、データベースのために選択したタンパク質に応じて変化し得ることを認識している。当業者は、これらの分類を、種々の他のパラメータ（例えば、エンタルピーおよびエントロピーが含まれるが、これらに限定されない）によって下位分類することができることを認識している。したがって、構造中の任意の所与の位置を、2 つまたはそれ以上のパラメータ（例えば、低安定性（lnκf ）および高エンタルピーが含まれるが、これらに限定されない）で示すことができる。さらに、さらなるパラメータを使用して、エンタルピーおよびエントロピーのカテゴリーをさらに分類することができる（高次構造エントロピー、溶媒エントロピー、極性エンタルピー、無極性エンタルピー、極性エントロピー、または無極性エントロピーが含まれるが、これらに限定されない）。したがって、構造中の任意の所与の位置は、分類上の記載（低安定性、高無極性エンタルピー、高極性エンタルピー、中程度の高次構造エントロピー、および高無極性エントロピーが含まれるが、これらに限定されない）を有し得る。当業者は、これらの分類により所与のタンパク質配列または所与のタンパク質配列の一部についての正確なタンパク質折りたたみの同定においてより良好に解決し、したがってより良好に実行することが可能であることを認識している。さらに、当業者は、タンパク質折りたたみは、シート、ヘリックス、およびターンを含むタンパク質の二次構造をいうことを認識している。
【００５３】
本発明の別の特定の実施形態は、残基の安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される3 つの熱力学的分類群の少なくとも1 つに割り当てることを含む。
【００５４】
本発明の特定の実施形態は、球状タンパク質および非相同タンパク質を含むデータベースを提供する。当業者は、球状タンパク質を使用してタンパク質折りたたみを研究することを認識している。本発明の計算方法を、種々の球状タンパク質（グルタコルチコイド受容体様DNA 結合ドメイン、ヒストン、アシルキャリアタンパク質類、抗LPS 因子／RecAドメイン、ラムダリプレッサー様DNA 結合ドメイン、EFハンド類、インスリン様細菌Ig／アルブミン結合、バレルサンドイッチハイブリッド、NTP ヒドロラーゼを含むp −ループ、RINGフィンガードメインC3HC4 、クラムビン類、リボゾームタンパク質L7／12 C末端フラグメント、シトクロムc 、SAM ドメイン類、KHドメイン、RNA ポリメラーゼサブユニットH 、β−グラスプ（beta-grasp）（ユビキチン類）、ルブレドキシン類、HiPiP 、アナフィロトキシン（補体系）、フェロドキシン類、OB折りたたみ（OB fold ）、ミッドカイン、HMG ボックス、サポシン、HPr タンパク質、ノッチン（knottins）、HIV −1Nefタンパク質フラグメント、ニワトリビリン由来の熱安定性サブドメイン、SIS ／NS1 RNA 結合ドメイン、SH3 様バレル、DNA トポイソメラーゼI ドメイン、IL8 類、de novo でデザインした一本鎖3 ヘリックスバンドル、αアミラーゼインヒビターテンダミスタット（tendamistat ）、セリンプロテアーゼインヒビター（プロテアーゼインヒビター）のCI2 ファミリー、原生動物フェロモンタンパク質、ConA様レシチン／グルコアナーゼ（glucoanases ）、オボムコイド／PCI −1 様インヒビター、βクリップ、ヘビ毒類、およびBPTI類が含まれるが、これらに限定されない）に使用することができることが意図される。他の球状タンパク質を、タンパク質データバンクから選択することができる。
【００５５】
当業者は、本発明は小分子タンパク質に制限されないことを認識している。当業者は、本発明で使用した計算方法をより大きなタンパク質に使用することができることを認識している。したがって、本発明で使用することができるタンパク質はサイズに制限されない。
【００５６】
本発明の別の実施形態は、タンパク質の高分解能構造を入力する工程と、各タンパク質の全ての可能な組み合わせにおいて一組の所定の折りたたみ単位の非折りたたみとの組み合わせによって、徐々に異なる高次構造状態のアンサンブルを獲得する工程と、前記各高次構造状態の確率を決定する工程と、前記各高次構造状態の残基特異的自由エネルギーを計算する工程と、安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される少なくとも1 つの熱力学的環境に分類する工程とを含む、タンパク質データベースの開発方法である。
【００５７】
特定の実施形態では、獲得工程は、タンパク質の全配列上にウィンドウのブロックを置いて前記ウィンドウのブロックを一度に1 残基ずつスライドさせることによって前記タンパク質を折りたたみ単位に分ける工程を含む。
【００５８】
当業者は、タンパク質の所与の数の折りたたみ単位への分割は分配であることを認識している。したがって、部分的に折りたたまれた状態の数を最大にするために、異なるタンパク質を分析に使用した。分配を、タンパク質の全配列上にウィンドウのブロックを置くことによって定義することができる。折りたたみ単位を、特定の二次構造エレメントと同時に存在するかどうかに関係なくウィンドウの位置によって定義する。ウィンドウの全ブロックを一度に1 残基ずつスライドさせることによって、タンパク質の異なる分配が得られる。2 つの連続する分配について、各折りたたみ単位の最初および最後のアミノ酸を、1 残基シフトする。全分配組が終了するまでこの手順を繰り返す。特定の実施形態では、5 〜8 アミノ酸残基のウィンドウを使用する。当業者は、COREX アルゴリズムを使用して約10⁵個の部分的に折りたたまれた高次構造を作製することができることを認識している。この値を、ウィンドウのサイズおよびタンパク質のサイズの増減によって変化させることができる。例えば、タンパク質λ6 −85、キモトリプシンインヒビター2 、およびバルナーゼについて、5 、5 、8 のウィンドウサイズおよびアミノ酸残基により、それぞれ2 ．6 ×10⁵、0 ．4 ×10⁵、および1 ．1 ×10⁵個の部分的に折りたたまれた高次構造が得られる。
【００５９】
さらなる実施形態では、決定工程は、アンサンブルにおける高次構造の各状態の自由エネルギーを決定する工程と、各状態のボルツマン重率：
【００６０】
【数８】

を決定する工程と、式：
【００６１】
【数９】

を使用して各状態の確率を決定する工程とを含む。
【００６２】
さらに、計算工程は、式：
【００６３】
【数１０】

を使用して特定の残基が折りたたまれた全微視的状態とこのような全非折りたたみ状態との間のエネルギーの相違を決定する工程を含む。
【００６４】
当業者は、COREX アルゴリズムにより高分解能結晶学的構造またはNMR 構造から多数のタンパク質の部分的に折りたたまれた状態が得られることを認識している（Hilser ＆ Freire、1996；Hilser ＆ Freire、1997、およびHilserら、1997）。このアルゴリズムでは、高分解能構造をテンプレートとして使用して、タンパク質の部分的に折りたたまれた状態のアンサンブルを近づける。したがって、タンパク質は、異なる折りたたみ単位から構成されると考えられる。部分的に折りたたまれた状態を、全ての可能な組み合わせにおけるこれらの単位の折りたたみおよび非折りたたみによって作製する。COREX アルゴリズムには以下の2 つの基本的想定が存在する：（1 ）部分的に折りたたまれた状態における折りたたみ領域は天然に類似すること；および（2 ）非折りたたみ領域を、構造が全く無いまたは構造を欠くと仮定すること。熱力学量（例えば、ΔH 、ΔS 、ΔCp、およびΔG ）、分配関数、および各状態の確率（Ｐ_i）を、エネルギー論の経験的なパラメータ表示を使用して評価する（Murphy ＆ Freire、1992；Gomez ら、1995；Hilserら、1996；Lee ら、1994；D'Aquinoら、1996；およびLuque ら、1996）。
【００６５】
なおさらに、当業者は、残基特異的平衡は、アミド水素置換実験から実験的に得られた因子（例えば、水素保護因子）と量的に一致することを認識している（Hilser ＆ Freire、1996；Hilser ＆ Freire、1997、およびHilserら、1997）。
【００６６】
当業者は、残基の安定度定数が全残基について定義した純粋な熱力学量である一方で、保護因子は熱力学的に寄与せず、残基のサブセットを定義することを十分に理解している。
【００６７】
本発明の別の実施形態は、既知のタンパク質構造に対応する異なる熱力学的環境におけるアミノ酸残基の分布を決定する工程を含むタンパク質折りたたみの同定方法である。より詳細には、アミノ酸残基分布の決定は、熱力学情報由来のスコア行列を構築する工程を含む。特に、スコア行列は、安定性、エンタルピー、およびエントロピーなどのCOREX 熱力学的情報に由来する。したがって、COREX 由来の熱力学記述子を使用して、特定の折りたたみに対応する配列を同定することができる。
【００６８】
当業者は、COREX アルゴリズムによりタンパク質の天然の状態におけるエネルギー変数の評価手段が得られることを認識し、アミノ酸配列とタンパク質構造との間の関係の解明にこの情報を使用している。したがって、COREX アルゴリズムによって得られた熱力学的情報は、二次構造分類より卓越したタンパク質の基本的記述子を示す。
【００６９】
タンパク質折りたたみを、最も基本的な分子部分の1 つとみなすことができる。当業者は、タンパク質折りたたみに関する性質を、2 つの部分（内因性および外因性）に分けることができることを認識している。内因的性質は、各折りたたみ（例えば、その配列、三次元構造、および機能）に関する。外因的性質は、他の全ての折りたたみの状況における折りたたみ（例えば、多数のゲノム中でのその存在および他の折りたたみと比較した発現レベル）に関する。
【００７０】
さらに、当業者は、当該分野で周知の他の方法を使用してタンパク質データベース（例えば、Monte Carlo サンプリング法が含まれるが、これに限定されない）を開発することができることを十分に理解している。Monte Carlo サンプリング法は、当該分野で周知であり、且つ使用されている（Pan ら、2000）。
【００７１】
［実施例］
以下の実施例は、本発明の好ましい実施形態を示すことを含む。当業者は、以下の実施例で開示された技術は、本発明の実施において十分に機能するよう本発明者らによって発見された技術を示しており、その実施のための好ましい様式を構成するとみなすことができると認識すべきである。しかし、本開示に照らして、当業者は、開示しており、本発明の概念、精神、および範囲を逸脱することなく類似の結果がさらに得られる特定の実施形態の多数の変更形態を得ることができると認識すべきである。
【実施例１】
【００７２】
データセットで使用するタンパク質の選択
生物学的基準および計算上の基準を基本として、Protein Data Bankから44個のタンパク質（全部で2922残基）（表1 ）のデータベースを選択した。2 つの生物学的基準は、タンパク質が球状であることおよびSCOP（Murzinら、1995）で確認したところそれぞれの他のセットのメンバーと非相同性であることであった。第1 の計算基準は、CPU 時間およびデータ保存は鎖の長さに伴って指数関数的に増加する網羅的なCOREX 計算が必要であるので、タンパク質が小さいこと（約90残基未満）であった。第2 の計算基準は、COREX エネルギー関数が非タンパク質原子のエネルギー寄与を計算するようにパラメータ化されていないので、構造がリガンド、金属、補因子をほとんど欠くことであった。データベースは、24個のX 線構造（分解能範囲は、2 ．60〜1 ．00Å（中央値は1 ．65Å））から構成される。20個のNMR 構造によりデータベースが完成した。上記のセット中に含まれない50個のタンパク質（全部で3304残基）の独立データベースを、PDBSelect データベース（Hobohm ＆ Sander、1996）から作製した。図7 に示すように、この第2 のデータベースをコントロールとして使用して、第1 のデータベースから得た結果をチェックした。
【００７３】
【表１−１】

【００７４】
【表１−２】

【実施例２】
【００７５】
計算の詳細
44個の非相同タンパク質のデータベース（表1 ）を、COREX アルゴリズムを使用して分析した。データベース中の各タンパク質上の5 残基のウィンドウサイズでCOREX アルゴリズム（Hilser ＆ Freire、1996）を実行した。最小ウィンドウサイズを4 に設定し、模擬温度は25℃であった。
【００７６】
簡単に述べれば、COREX により、テンプレートとして各タンパク質の高分解能構造（Hilser ＆ Freire、1996）を使用して部分的非おりたたみ微小状態のアンサンブルを作製した。所定の折りたたみ単位セット（すなわち、残基1 〜5 は第1 の折りたたみ単位中に存在し、残基6 〜10は第2 の折りたたみ単位中に存在するなど）を組み合わせて折りたたまないことによってこれを容易にした。折りたたみ単位の境界でのインクリメンタルシフトにより、所与の折りたたみ単位サイズについて部分的に折りたたまれていない種の網羅的列挙が行われた。オボムコイドの第3 ドメイン（OM3 ）（データベース中のタンパク質の1 つ）（PDB アクセッションコード2ovo）についての全手順を、図1Aに図示する。
【００７７】
アンサンブル中の各微小状態i について、ギブス自由エネルギーを以前に記載のように表面積ベースのパラメータ化から計算した（D'Aquino、1996；Gomez 、1995；Xie 、1994；Baldwin 、1986；Lee 、1994；Habermann 、1996）。各微小状態のボルツマン重率［すなわち、Ｋ_i＝ｅｘｐ（−ΔＧ_i／ＲＴ）］を使用して、その確率：
【００７８】
【数１１】

を計算した。
【００７９】
式中、分母の総和は全微小状態である。式1 で計算した確率から、タンパク質中の各残基についての重要な平衡の統計記述子を評価した。残基の安定度定数（κ_f,j）として定義したこの量は、j が非折りたたみ高次構造である全状態の確率の合計（ΣP _nf,j）に対する特定の残基j が折りたたみ高次構造であるアンサンブルにおける全状態の確率の合計（ΣP _fj）の比率であった：
【００８０】
【数１２】

安定度定数から、残基特異的自由エネルギーは、
【００８１】
【数１３】

と記載された。
【００８２】
式3 は、特定の残基が折りたたまれた全微視的状態と折りたたまれていない全微視的状態との間のエネルギーの相違を反映する。
【００８３】
完全に折りたたまれた構造に対する各微小状態ｉのギブスエネルギーを、式4 ：
ΔGi＝ΔHi，溶媒和−Ｔ（ΔSi，溶媒和＋ＷΔSi，高次構造） (4)
を使用して計算した。
【００８４】
式中、熱量エンタルピーおよび溶媒和のエントロピーを、極性および無極性表面露出からパラメータ化し、以前に記載のように（Hilser ＆ Freire、1996）高次構造エントロピーを決定した。各タンパク質の最大安定性を、式4 のその高次構造エントロピー因子W の調整によって約6 ．2kcal ／mol （最大lnκ_f＝10．4 ）の共通の任意の値に正規化した。正規化に必要な平均エントロピー因子は、44個のタンパク質に関して0 ．81±0 ．19（平均±ｓ．ｄ．）であった。これは、安定なタンパク質の高次構造エントロピーの調整により構造中の高安定性および低安定性領域の相対パターンは変化しないという経験的所見であった。
【実施例３】
【００８５】
水素交換保護因子に対する残基安定度定数の比較
プロトンを交換する残基の水素交換保護因子の予想を、P _f,j値およびP _f,cx,j値のアンサンブルの計算によって行った。
【００８６】
簡単に述べれば、任意の所与の残基j の保護因子を、残基j が開いている状態の確率の合計に対する残基j が閉じている状態の確率の合計の比：
【００８７】
【数１４】

と定義した。
【００８８】
保護因子の統計的定義は、安定度定数と同一の形態であり（式（2 ））、折りたたみ確率に関して以下のように示した：
【００８９】
【数１５】

修正項P _f,xc,jは、残基j が折りたたまれているが、交換可能である全ての状態の確率の合計であった。
【００９０】
図２は、OM3 の経験的値を使用したCOREX データから予想した水素交換保護因子の比較を示す。保護因子の位置および相対的規模におけるこのタンパク質および他のタンパク質の安定度定数との一致により、計算した天然状態のアンサンブルが実際のアンサンブルを良好に記述することが示唆される（Hilser ＆ Freire、1996）。結果として、当然、特定のタンパク質の残基安定度定数によりこの構造中の各残基の熱力学的環境が良好に記述される。
【００９１】
図２のさらなる調査により、残基安定度定数のパターンにおける別の重要な特徴が明らかとなった。すなわち、OM3 のαヘリックス1 で認められるように、安定度定数は所与の二次構造エレメントを通して有意に変化した。保護因子（および安定度定数）は、ヘリックス1 のN 末端領域で高いが、ヘリックスが長くなるにつれて減少した。これは、二次構造または他の構造分類が熱力学的分類と必ずしも一致しないことを示した。この結果は、異なる環境におけるアミノ酸の分類性に対して潜在的に重要な結果を有する。例えば、OM3 では、異なる構造環境下に2 つのトレオニン残基が存在し、Thr47 はαヘリックス1 に続くループの一部であり、Thr49 はβストランド3 の一部であった。2 つのトレオニン残基が異なる構造環境であるにもかかわらず、安定度定数およびより重要には実験的保護因子により、第一次近似に対して、同一の熱力学的環境を共有することが示された。
【実施例４】
【００９２】
残基の安定度定数のビン化
各タンパク質のlnκ_fデータの調査により、これらには以下の3 つの安定性クラスが存在することが示された：高安定性、中程度の安定性、および低安定性。各安定性クラスのカットオフを、データベース中のほぼ同数の残基が各クラスに分類されるように調整した（表2 ）。低安定性のカテゴリーをlnκ_f≦3 ．99と定義し、中程度の安定性のカテゴリーを3 ．99＜lnκ_f≦7 ．14と定義し、高安定性のカテゴリーをlnκ_f＞7 ．14と定義した。これらの各安定性カテゴリーの関数としてのアミノ酸型の統計を表にまとめ（表2 ）、これらの数を正規化したヒストグラムを、図3A〜図3Tに示す。
【００９３】
【表２】

3 つの安定性環境を通して一定のアミノ酸のヒストグラムは著しい非対称の形態をとり、これらの非対称は全て3 つの無作為なデータセットの平均の標準偏差の十分に外であった。例えば、高安定性環境において芳香族アミノ酸Phe 、Trp 、およびTyr がもっとも認められ、低安定性環境においてGly およびPro が圧倒的に認められた。それに対して、Ala 、Met 、およびSer などの他の残基は、無作為なデータと有意に異ならない分布を示した。
【００９４】
酸性残基Asp およびGlu が中程度の安定性の環境において見出される傾向がわずかにあるが、わずかに類似の化学的特徴を有するいくつかのアミノ酸対が安定性環境において異なって区分されることが認められた。例えば、塩基性残基Arg およびLys は、反対の安定性の特徴を示した：安定性クラスが増加するにつれてArg 数が増加するが、安定性クラスの関数としてLys 数は減少した。高安定性環境において、Asn の頻度は低いが、Gln の頻度は高かった。Ser の分布は無作為なデータと有意に異ならないが、Thr は低安定性環境において出現頻度が高く、高安定性環境において頻度が低かった。いくらか驚いたことに、脂肪族アミノ酸Ile 、Leu 、およびVal は、おそらく低安定性環境をわずかに嫌う以外は一般的なパターンを示さなかった。
【実施例５】
【００９５】
平均の天然状態の側鎖領域の露出表面積の計算
5 個の残基のウィンドウサイズについての残基j の平均側鎖領域の露出表面積ASA _average,jを、式7 ：
【００９６】
【数１６】

を使用して計算した。
【００９７】
各タンパク質中の最初および最後の2 残基について式7 を定義していないので、これらの4 残基をビン化において無視した。各側鎖領域クラスのカットオフを、各クラスにほぼ同数の残基が分類されるように調整した。低露出カテゴリーをASA _average,j≦43．31Å²と定義し、中程度の露出カテゴリーを43．31Å²＜ASA _average,j≦59．86Å²と定義し、高露出カテゴリーをASA _average,j＞59．86Å²と定義した。
【００９８】
図4 に示すように、COREX 安定性環境において見出されたアミノ酸の頻度は、露出表面領域環境におけるアミノ酸の頻度と相関しなかった。COREX アルゴリズムで計算した熱力学的情報では構造の静的性質は簡単にモニターされないが、その代わりに全体としての天然状態のアンサンブルの性質をつかんでいることを示唆しているので、これは重要であった。
【実施例６】
【００９９】
ランダムデータセット
データベース中の44個の非相同タンパク質由来のCOREX とDSSPデータセットとを比較するために、計算した安定性および二次構造データの無作為化（すなわち、シャフリング）によってコントロールデータセットを構築した。したがって、ランダムデータセットは、実際のデータセットと同一のアミノ酸組成、高、中程度、および低安定性の計数、および二次構造の型を含んでいた。しかし、残基型または二次構造クラスとの間の任意の相関性は、おそらく無作為化によって破壊されていた。異なる各残基型のカウント数によるデータの内部変化を評価するために、3 つの無作為化データセット由来の結果を平均化し、標準偏差を計算し、これらのデータを図3A〜図3Tにプロットする。
【実施例７】
【０１００】
スコア行列の構築
下記およびBowie ら、1991に記載のように、構造環境k における残基型j が発見されるロッグオッズ（log-odds）確率としてスコア行列を計算した。行列スコアS _j,kを、
【０１０１】
【数１７】

と定義する。
【０１０２】
式8 では、P _j｜k は、安定性クラスk において型j が発見される確率（すなわち、安定性クラスk 中の残基型j のカウント数を残基型j の全カウント数で割ったもの）であり、P _kは安定性環境k におけるデータベース中で任意の残基が発見される確率（すなわち、アミノ酸型に無関係の安定性クラスk 中の残基数をアミノ酸型に無関係の全データベース中の全残基数で割ったもの）であった。構造環境を、標的のPDB エントリーで与えられるように、COREX 安定性情報（高、中程度、または低lnκ_f）またはDSSP二次構造（α、β、またはその他）のいずれかで説明した。折りたたみ認識標的をデータベースから取り出し、残りの43個のタンパク質を使用してスコアを計算した；したがって、標的に関する情報は決してスコア行列に含まれなかった。表3Aおよび3B中の値は、44個の全ての各スコア行列の平均±標準偏差である。
【０１０３】
【表３】

44個の全標的タンパク質を平均したCOREX 安定性および二次構造由来のスコア行列を、それぞれ表3Aおよび3Bに示す。安定性行列スコアは、図3A〜図3Tに示すヒストグラムに忠実に反映された；例えば、Gly およびPro は高安定性環境で不利に記録されたが、低安定性環境で有利に記録された。同様に、二次構造行列スコアは二次構造の性質の直感的概念に従った；例えば、Ala はヘリックス環境では正に記録され、芳香族はβ環境では正に記録され、Gly およびPro はαおよびβ環境では負に記録された。両行列の標準偏差は、一般に、スコアの規模と比較して小さく、これは、スコアがデータベースからの任意の1 つのタンパク質の除去に影響を受けないことを示唆している。
【実施例８】
【０１０４】
折りたたみ認識の詳細
折りたたみ認識実験は、Eisenberg and co−workers （Gribskovら、1987；Bowie ら、1991）によって開発されたプロフィール法に基づいた。
【０１０５】
簡単に述べれば、本方法は、既知の構造のデータベース分析由来の構造環境スコアに関して標的タンパク質の各残基の位置を特徴付けた。得られた標的タンパク質のプロフィールを、配列とプロフィールとの間のスコアを最大にすることによってアミノ酸配列のライブラリーの各メンバーに最適に整列させた。以下の2 つの構造環境のスコアリングスキームを開発した：一方は計算されたCOREX 安定性に基づくものであり、他方は各標的タンパク質のPDB ファイルに含まれるDSSP二次構造（Kabsch ＆ Sander、1983）に基づくものである。各スコアリングスキームは、20種のアミノ酸の関数として以下の3 つの次元を有していた：COREX スコアリングについては高、中程度、および低安定性ならびに二次構造スコアリングについてはα、β、およびその他。以下の2 つのアラインメントアルゴリズムを使用した：PROFILESEARCH ソフトウェアパッケージ(Bowieら、1991) で実行されるローカルスキーム（Smith ＆ Waterman、1981）およびグローバルスキーム。グローバルアラインメントスキームは、ギャップを許容せずに標的プロフィールの第1 の位置とアミノ酸配列の第1 の残基を単純に対合した。標的をスレディングするアミノ酸配列リストはPDB 由来の単量体構造に対応する各標的と同一の長さの配列のみを含むのでこのスキームが可能であった。各標的についての同一の長さの全配列数は、標的あたり6 〜35個の範囲（平均19±8 配列）であった（表1 ）。ローカルアルゴリズムについてはギャップオープニングおよび伸長ペナルティーを至適化しなかった；全ての場合、これらは、PROFILESEARCH パッケージ0 ．1 および0 ．05でそれぞれ与えられたデフォルトであった。
【０１０６】
折りたたみ認識実験の結果を、図5A、図5B、図5C、および図5Dに示し、少なくとも3 つの結論をこのデータから得た。第1 に、スコア行列は、構造標的のそのアミノ酸配列へのマッチングにおける無作為化データセットよりも良好に実行されるCOREX 安定性またはDSSP二次構造データのいずれかから構成されていた。図5A、図5B、図5C、および図5Dでは、COREX データの結果を、ランキングの左側（成功）にスタックし、無作為化データを配列データセットサイズの中央値付近の最大値（19配列の平均サイズは約10）を使用してベル型分布に近づける。第2 に、COREX およびDSSPスコア行列のために、グローバルアルゴリズム（全アミノ酸配列を考慮する）を、ローカルアルゴリズム（一般に、配列サブセットのみをアラインメントする）よりも有意に良好に行った。第3 に、最も首尾の良いビンに分類される全標的数は、COREX 安定性および二次構造行列の両方に類似し、これにより、COREX 安定性の性質のみが二次構造の性質に匹敵する情報量を含むことが示唆された。
【０１０７】
本発明で使用したローカルアラインメントアルゴリズムは配列に対するプロフィールの完全なアラインメントに戻ることなくスコアを計算するので、非構造的に有意なローカルアラインメントからハイスコアを得ることができる。言い換えれば、構造内の正確な位置に各アミノ酸を置くことなくその対応する標的構造に対して正確な配列を十分にスコアリングすることが可能である。グローバルスキームではミスアラインメントは認められなかったので、同一の長さのアミノ酸配列と併せたグローバルアラインメントの使用により、この問題が部分的に解消された。
【実施例９】
【０１０８】
COREX 安定性に基づく首尾の良いアラインメント
構造的に有意なローカルアラインメントの範囲を評価するために、アラインメント行列のトレースバックを保存したPROFILESEARCH のソースコードを部分的に修正した。折りたたみ認識ランキングで不十分にスコアリングされた標的に関して、対応する配列のローカルアラインメントは有意でない場合があることが認められた。しかし、トップの2 つのビンにスコアリングした配列は、ローカルアルゴリズムのルールのために配列の残基の全てが全スコアに寄与しなくともその標的プロフィールを用いて完全且つ正確にアラインメントされることがしばしば見出された。標的プロテインG （1igd）、DNA トポイソメラーゼI （1vcc）、およびtendamistat （2ait）についてのCOREX 安定性データのみを基本とした首尾の良いアラインメントの3 つの例を、図6A、6B、6C、表4A、4B、4Cに示す。標的についての配列情報を使用しなかったという事実およびスコアリングにアミノ酸配列のサブセットのみを使用したという事実にもかかわらず、ローカルアルゴリズムを使用して計算したアルゴリズムは正確であった。さらに、配列の全長より累積3D−1D行列スコアが着実に増加するので、これらの例の成功は、配列の小フラグメントのみによるのではないことに注目すべきである。
【０１０９】
【表４Ａ−１】

【０１１０】
【表４Ａ−２】

【０１１１】
【表４Ｂ−１】

【０１１２】
【表４Ｂ−２】

【０１１３】
【表４Ｃ−１】

【０１１４】
【表４Ｃ−２】

【実施例１０】
【０１１５】
COREX を使用したアンサンブルの状態
81個のタンパク質（全部で5849残基）のデータベース（表5 ）を、実施例1 に先に記載の生物学的基準および計算上の基準に基づいてProtein Data Bank（Baldwin and Rose、1999）から選択した。
【０１１６】
次に、データベース中の各タンパク質上の5 残基のウィンドウサイズでCOREX アルゴリズム（Hilser ＆ Freire、1996）を実行した。最小ウィンドウサイズを4 に設定し、模擬温度は25℃であった。COREX アルゴリズムにより、実施例2 に類似のテンプレートとして各タンパク質の高分解能構造（Hilser ＆ Freire、1996）を使用して部分的非折りたたみ微小状態のアンサンブルを作製した。所定の折りたたみ単位セット（すなわち、残基1 〜5 は第1 の折りたたみ単位中に存在し、残基6 〜10は第2 の折りたたみ単位中に存在するなど）を組み合わせて折りたたまないことによってこれを容易にした。折りたたみ単位の境界でのインクリメンタルシフトにより、所与の折りたたみ単位サイズについて部分的に折りたたまれていない種の網羅的列挙が行われた（Hilser ＆ Freire、1996；Wrabl ら、2001）。
【０１１７】
次に、実施例2 に先に記載のように完全に折りたたまれた基準状態に対する各状態についてのギブス自由エネルギー（ΔG _i）を、表面積および高次構造エントロピーベースのパラメータ化から計算した（Wrabl ら、2001）。したがって、各状態のΔG _iは無極性および極性表面積の溶媒和の相違ならびに各状態と基準の状態との間の高次構造エントロピーの相違から得られる。したがって、自由エネルギーのその成分条件への分割により、式：
【０１１８】
【数１８】

が得られる。
【０１１９】
式9 を示す場合、成分に寄与する異なる値により類似の大きさのΔG _iを得ることができ、これは、異なる状態が類似の安定性を有することができるが、その安定性を達成する機構が異なると示唆される。
【０１２０】
【表５−１】

【０１２１】
【表５−２】

【０１２２】
【表５−３】

【０１２３】
【表５−４】

【実施例１１】
【０１２４】
表面積の計算
溶媒和の熱量エンタルピーおよびエントロピーを、極性および無極性表面露出からパラメータ化した（Hilser ＆ Freire、1996）。COREX は、各微小状態の相対的無極性および極性自由エネルギーの計算に経験的パラメータ化を使用する。
【０１２５】
【数１９】

【０１２６】
【数２０】

各微小状態についての高次構造エントロピー（ΔS _j,conf）の計算に使用した3 つの主な成分は以下であった：(1 )ΔS _bu→_ex（タンパク質内面に埋没した側鎖のその表面への移動に関連するエントロピーの変化）；（2 ）ΔS _ex→_u（ペプチド骨格が折りたたまれていない場合に表面露出側鎖によって増加するエントロピーの変化）；および（3 ）ΔS _bb（非折りたたみの際に骨格自体によって増加するエントロピーの変化）（Hilser ＆ Freire、1996）。折りたたみ認識計算のために、全タンパク質の総（ΔS _j,conf）を、残基特異的熱力学パラメータへの非折りたたみ状態の寄与を排除するためのスケール因子と掛ける。
【０１２７】
次に、残基の安定度定数（κ_f）を、実施例2 と同様に計算した。残基の安定度定数は、残基j が非折りたたみ（すなわち、折りたたまれていない）高次構造である全状態の確率の合計（P _nfj）に対する特定の残基j が折りたたまれた高次構造であるアンサンブル中の全状態の確率の合計の比である。
【０１２８】
次いで、式2 を使用して、タンパク質折りたたみの残基特異的自由エネルギー（ΔG _f,j＝−RTlnκ_f,j）を定義し、これを展開して、（ΔG _f,j＝RTlnQ _nf,j−RTlnQ _f,j）（式中、Q _nf,jおよびQ _f,jは、残基j がそれぞれ非折りたたみおよび折りたたみである状態の下位分配関数である）を得た。したがって、残基特異的自由エネルギーにより、各残基が折りたたまれた下位アンサンブルと非折りたたみ下位アンサンブルとの間のエネルギーの相違が得られる。言い換えれば、残基の安定度定数は、各アミノ酸をタンパク質の安定性に寄与させない。むしろ、その位置で認められた安定性に対するタンパク質中の全アミノ酸の寄与を暗に考慮するそのタンパク質領域の相対的安定性が得られる。
【０１２９】
図8 に示すように、安定度定数により、タンパク質構造内の安定性における領域の相違について残基特異的に説明される。折りたたみ認識の観点からのこの量の重要性は2 倍である。第1 に、安定度定数を、天然状態の水素交換実験から得た保護因子と直接比較して、実験的に裏付けられたアンサンブルの残基特異的説明がなされる。第2 に、アミノ酸が高、中程度、および低安定性の環境を通して無作為に分布するので、残基の位置の関数としての安定度定数により、三次元構造が都合よく1 次元表示される。
【実施例１２】
【０１３０】
さらなる熱力学行列式の同定
第1 に、式9 および実施例10に記載のように、アンサンブルにおける各微小状態i のΔG _iは、溶媒和および高次構造エントロピー項からなる。式9 を、エンタルピー成分およびエントロピーの項に書き直す。
【０１３１】
【数２１】

式12中の各溶媒和項を、無極性および極性表面積に基づいた寄与にさらに展開した。
【０１３２】
【数２２】

しかし、各状態の無極性および極性領域の同一の値を、エンタルピーおよびエントロピー計算における各項に使用した。したがって、所与の領域型についてのエンタルピーおよびエントロピー項についての絶対値を、定数k₁（無極性領域）およびk₂（極性領域）に関連させて、以下の式を得た。
【０１３３】
【数２３】

領域型をグループ化し、単純化して以下の式が得られる。
【０１３４】
【数２４】

式15により、所与の自由エネルギーおよび高次構造エントロピーについて、各状態の極性と無極性との比から極性および無極性表面の溶媒和自由エネルギーに対する相対的寄与が確認されることが明らかとなった。
【０１３５】
したがって、極性および無極性の溶媒和の残基特異的寄与に到達するために、所与の熱力学的パラメータ（すなわち、エンタルピーまたはエントロピー）により、アンサンブル中の全状態の集団加重寄与を示す平均過剰量が考慮される。例えば、平均過剰エンタルピーおよびエントロピーを以下のように定義した。
【０１３６】
【数２５】

【０１３７】
【数２６】

したがって、式16A および16B から得られた極性および無極性エンタルピーの残基特異的記述子を定義した。エンタルピーの極性成分を、残基j が折りたたまれた下位アンサンブル由来の平均過剰極性エンタルピー（＜ΔH _pol,f,j＞）と残基j が折りたたまれていない下位アンサンブル由来の平均過剰極性エンタルピー（＜ΔH _pol,nf,j＞）との間の相違と定義した。
【０１３８】
【数２７】

式中、
【０１３９】
【数２８】

【０１４０】
【数２９】

式18および19の総計は、残基j がそれぞれ折りたたみおよび非折りたたみである下位アンサンブルのみを超え、パラメータQ _f,jおよびQ _nf,jはこれらの下位アンサンブルの下位分配関数であることに留意することが重要である。同一の理由によって、残基j のエンタルピーに対する残基特異的無極性成分および残基j の残基特異的高次構造エントロピーを、以下のように定義した。
【０１４１】
【数３０】

【０１４２】
【数３１】

残基安定度定数の場合のように、残基特異的ΔH _apol,j、ΔH _pol,j、およびΔS _conf,jの表現によって残基j の全ての各熱力学的性質への寄与は得られない。その代わりに、式17、20、および21は、その残基の平均的な熱力学的環境を反映し、アンサンブルの全状態への全アミノ酸の寄与を暗に説明する。
【実施例１３】
【０１４３】
残基特異的熱力学的環境
各残基の全安定度定数への溶媒和および高次構造エントロピーの寄与の相違を体系的に説明するために、式2 、17、20、および21を使用して、熱力学的環境を経験的に定義した。図9A〜図9Cに示すように、以下の3 つの熱力学的次元を考慮した：安定性（κ_fj）、エンタルピー（H _ratio,j）、およびエントロピー（S _ratio,j）。第1 の次元は、式2 によって定義された安定度定数の分類（図8Aおよび図8B）を使用する。安定度定数の特定の値を高次構造エントロピーまたは溶媒関連現象から得ることができるので、全溶媒和自由エネルギーに対する高次構造エントロピーの比が得られる第2 の次元を使用した。
【０１４４】
【数３２】

式中、ΔG _solv,jは、式17〜21と同様に計算した全残基特異的溶媒和成分である。最後に、全溶媒和成分は極性または無極性の寄与から得ることができるので、式17および20に記載の極性エンタルピーと無極性エンタルピーとの比が得られる第3 の次元を組み込んだ。
【０１４５】
【数３３】

したがって、分析した81個のタンパク質 (表5)を構成する残基を、熱力学的三次元空間内に無作為でなく分配した。残基の非無作為分布により、安定性データを3 つのカテゴリーに分配し、エンタルピーデータを2 つのカテゴリーに分配し、エントロピーデータを2 つのカテゴリーに分配することによって残基特異的データを12種の熱力学的カテゴリーに経験的に分配した（図9A〜図9C）。
【実施例１４】
【０１４６】
熱力学的環境のビン化
データベース中の5849個の各残基を、その安定性値（κ_fj）、エンタルピー値（H _ratio,j）、およびエントロピー値（S _ratio,j）に基づいて12種の熱力学的環境クラスの1 つにビン化した。これらの熱力学的環境を、以下の略語で示す：LLL 、LLH 、LHL 、LHH 、MLL 、MLH 、MHL 、MHH 、HLL 、HLH 、HHL 、HHH 。例えば、LMH 熱力学的環境中の残基を、低（L ）安定性（κ_fj）クラス、中程度（M ）のエンタルピー（H _ratio,j）クラス、および高（H ）エントロピー（S _ratio,j）クラスにビン化した。各熱力学クラスのカットオフを、以下のように定義した。
安定性（κ_fj）クラス（L 、M 、またはH ）
【０１４７】
【数３４】

【０１４８】
【数３５】

【０１４９】
【数３６】

エンタルピー（H _ratio,j）クラス（L またはH ）
【０１５０】
【数３７】

【０１５１】
【数３８】

エントロピー（S _ratio,j）（L またはH ）
【０１５２】
【数３９】

【０１５３】
【数４０】

上記の開発によって導かれた81タンパク質のCOREX データベースから抽出した種々の熱力学パラメータの関数としてのアミノ酸型の分離の目視検査により、安定性、エンタルピー、およびエントロピーの一般的分類が熱力学的空間に合理的に分類されることが示唆された（図9 に示す）。スレディング計算で使用される12種の残基特異的熱力学的環境のための正確なカットオフを、全ての可能な網羅的グリッド検索によって自動的に決定した。カットオフの各試験セットの有用性を、タンパク質データベース中の8 標的の一定のサブセットおよび、Z スコアおよび各標的のパーセンタイルを最大にしたカットオフの記録セットのスレディングによるカットオフ空間の荒い検索から最初に決定した。次いで、最良のカットオフセットについてのより細かいグリッド検索（カットオフの各試験セットのための20個の標的のサブセットに対するスレディング）によって、本研究で示したスレディング実験で使用される至適化されたカットオフセットが得られた。α／βスレディング計算に同一のカットオフを使用した（すなわち、α／β実験のスコアリングのために特別な至適化を行わなかった）。
【０１５４】
各熱力学的環境の関数としてのアミノ酸型の統計を表にまとめ（表6 ）、各熱力学的環境に存在するアミノ酸型のログオッズ確率を計算した。得られたヒストグラム（図10）により、熱力学的環境内でのアミノ酸の非ランダム分布が明らかとなった。例えば、MLL 環境下でのIle 、Phe 、およびVal などの疎水性残基の頻度は低く、Asp 、Gln 、およびLys などの極性および荷電アミノ酸のこの環境での頻度は高い。しかし、塩基性アミノ酸Arg およびLys はMHL 環境で出現するには性質が非常に異なるので、これらの分布は側鎖の化学的性質に基づいて合理化することができるとは限らない。この後者の所見は、アンサンブル由来のエネルギーが各側鎖の性質のみによってコード化されない平均化した三次エンタルピーおよびエントロピー情報を含むという事実を反映しているに違いない。
【０１５５】
【表６】

【実施例１５】
【０１５６】
折りたたみ認識の詳細
12種の熱力学的環境内でのアミノ酸分布に基づいた簡単な折りたたみ認識実験を行った。
【０１５７】
簡単に述べれば、プロファイリング法を使用して、データベース中の81個の各タンパク質の熱力学的環境プロフィールを作製した（Bowie ら、1991；Gribskovら、1987）。（3777おとり配列に加えて）データベース中で使用した天然の構造をコード化する81個のアミノ酸配列（表5 ）を、81種の標的熱力学的環境プロフィールに対してそれぞれスレディングした。Protein Data Bankからおとり配列を入手し、この配列は35〜100 残基の範囲の「折りたたみ可能な」タンパク質をコード化する全配列を含む。
【０１５８】
次に、データベース中の各タンパク質についての3D−1Dスコア行列を計算し、このスコア行列データは単純に熱力学的環境クラスの1 つにおけるアミノ酸型を発見するログオッズ確率である（以下の式30）。次いで、得られた標的タンパク質のプロフィールを、PROFILESEARCH （Bowie ら、1991）で実行されるSmith −Watermanアルゴリズム（Smith ＆ Waterman、1981）に基づいたローカルアラインメントアルゴリズムを使用した配列とプロフィールとの間スコアの最大化によってアミノ酸配列（すなわち、3858個のおとり配列）の各ライブラリーメンバーに対して最適にアラインメントを行った。ローカルアルゴリズムのためのギャップオープニングおよび伸長ペナルティーを至適化しなかった；全ての場合、これらはそれぞれPROFILESEARCH パッケージの5 ．00および0 ．05で与えられたデフォルト値であった。式（30）から得られた各スレディング用のZ スコアをPROFILESEARCH から計算した。
【０１５９】
【数４１】

式30では、配列i に対応する構造に対してスレディングした場合、s は配列i のPROFILESEARCH スレディングスコアであり、＜S ＞は配列i に対応する構造に対してスレディングしたデータベース中の全ての配列（配列i と同一の長さ）の平均スレディングスコアであり、σは配列i に対応する構造に対してスレディングしたデータベース中の全ての配列（配列i と同一の長さ）のスコアの標準偏差であった。したがって、Z スコアは、配列i をその標的に対してスコアリングした平均を超える標準偏差の数値であった。
【０１６０】
対応する熱力学的環境プロフィール（図10）および1 ．76〜12．23の範囲での首尾の良いスレディングのためのZ スコア（同一の長さの全鎖の平均スコアを超えてスコアリングされた特定の配列の標準偏差の数値）に対してスレディングした場合、正確な配列のほぼ3 ／4 （60／81）が上位5 パーセンタイルでスコアリングされた（表7 ）。
【０１６１】
【表７】

【実施例１６】
【０１６２】
スコア行列の構築
下記のように、構造環境k 中の残基型j を発見するログオッズ確率として、スコア行列を計算した（Wrabl ら、2001；Bowie ら、1991）。行列スコアS _j,kを以下のように定義した。
【０１６３】
【数４２】

P _j｜_kは安定性クラスκ中のj 型残基を発見する確率（すなわち、安定性クラスk 中の残基型j のカウント数を残基型j の総カウント数で割ったもの）であり、P κは安定性環境κにおけるデータベース中の任意の残基を発見する確率（すなわち、アミノ酸型に無関係の安定性クラスκ中の残基数を全データベース中の総残基数で割ったもの）である。使用した構造環境は、上記の12種のCOREX 熱力学的環境（LHH 、LHL 、LLH 、LLL 、MHH 、MHL 、MLH 、MLL 、HHH 、HHL 、HLH 、HLL ）の1 つであった。折りたたみ認識標的をデータベースから除去し、残りの80個のタンパク質を使用して確率を計算した。したがって、標的に関する情報は、スコア行列中に全く含まれなかった。
【実施例１７】
【０１６４】
熱力学情報は、二次構造情報よりも基本的である
二次構造は、タンパク質折りたたみの分析および分類に有用であるにもかかわらず、タンパク質構造の根底にある物理化学を説明するための容易に報告可能な所見がほとんど存在しない。実際、水素結合および疎水性効果などの局所的および三次相互作用によって与えられる熱力学的安定性によって改変されるφ／ψ空間を分割する骨格／側鎖のファンデルワールス斥力の表示として二次構造をみなすことができる（Srinivasan ＆ Rose、1999；Baldwin ＆Rose、1999）。タンパク質構造のエネルギーの任意の合理的な説明は、アミノ酸の二次構造性質および折りたたみの二次構造分類から独立したこれらの現実を反映することができるに違いない。
【０１６５】
COREX エネルギー関数が絶対的方法においてのみ特定の相互作用を説明するにもかかわらず、COREX の計算結果によりタンパク質折りたたみの構造決定への二次構造のより深い洞察が可能である。例えば、図9Cでは、その天然の折りたたみに対してスレディングした全αタンパク質および全βタンパク質の熱力学的環境プロフィールを比較した。二色に色分けされた構造の観察により、異なる熱力学的環境が二次構造の1 つの型にわたり、異なる型の二次構造エレメントにおいて同一の熱力学的環境が見出されることが明らかとなった。
【０１６６】
したがって、元のデータベース（表5 ）由来のタンパク質サブセットに対してスレディング手順を繰り返して二次構造を分類して、COREX によって計算した熱力学的環境が構造分類を超えるタンパク質の基本的な性質を示す確率を決定した。
【０１６７】
第1 に、「全α」タンパク質であるSCOPデータベースによって分類された表5 中の31個のタンパク質から分類表を構築した。第2 に、表5 由来の12個の「全β」タンパク質を、「全α」タンパク質のみ由来のスコア表を使用してスレディングした。言い換えれば、全αタンパク質由来の熱力学的環境についてのアミノ酸の性質を使用して、全βタンパク質について折りたたみ認識実験を行った。80％を超える（10／12）標的について、天然の全β構造に適応することが公知の配列は、3858個のおとり配列の上位5 ％にスコアリングされた（図12）。
【０１６８】
この結果は、COREX 計算由来のエネルギー情報がタンパク質二次構造から独立していることの明確な証明であった。
【０１６９】
本明細書中に記載の全ての特許および刊行物は、本発明に属する当業者のレベルを示す。全ての特許および刊行物は、各刊行物が参考として援用されることを特別且つ個別に示すのと同一の範囲で本明細書中で参考として援用される。
【０１７０】
Altschul et al., 1997, Nuc Acid Res 25:3389-3402.
Anfinsen CB. 1973, Science 181:223-230.
Bai & Englander, 1996, Proteins 24:145-151.
Baker et al., 1992, Nature 356:263-265.
Baldwin RL. 1986, Proc Natl Acad Sci USA 83:8069-8072.
Bowie et al., 1991, Science 253:164-170.
Chamberlain et al., 1996, Nat Struct Biol 3:782-788.
Cohen FE. 1999, J Mol Biol 293:313-320.
D'Aquino et al., 1996, Proteins 22:404-412.
Feldman & Frydman J. 2000, Curr Opin Struct Biol 10:26-33.
Fink AL. 1999, Physiol Rev 79:425-449.
Gomez et al., 1995, Proteins 22:404-412.
Gribskov et al., 1987, Proc Natl Acad Sci USA 84:4355-4358.
Habermann & Murphy. 1996, Prot Sci 5:1229-1239.
Hilser & Freire. 1996, J Mol Biol 262:756-772.
Hilser et al., 1998, Proc Natl Acad Sci USA 95:9903-9908.
Hobohm & Sander. 1994, Prot Sci 3:522-524.
Huyghues-Despointers et al., 1999, Biochem 38:16481-16490.
Jackson, 1998, Fold Des 3:R81-91.
Jaravine et al., 2000, Prot Sci 9:290-301.
Jones et al., 1999. Proteins Suppl 3:104-111.
Kabsch & Sander. 1983. Biopolymers 22:2577-2637.
Kuroda & Kim. 2000. J Mol Biol 298:493-501.
Lee et al., 1994. Proteins 20:68-84.
Llinas et al, 1999. Nat Struct Biol 6:1072-1078.
Murzin et al., 1995. J Mol Biol 247:536-540.
Pan et al., 2000. Proc Natl Acad Sci USA 97:12020-12025.
Park et al., 1998. J Mol Biol 284:1201-1210.
Pereira et al., 1999, Biophys. J. 76:2319-2328.
Pochapsky & Gopen. 1992. Protein Sci. 1:786-795.
Rice & Eisenberg. 1997. J Mol Biol 267:1026-1038.
Sadqi et al., 1999. Biochem 38:8899-8906.
Smith & Waterman. 1981. J Mol Biol 147:195-197.
Swint-Kruse & Robertson. 1996. Biochem 35:171-180.
Xie & Freire. 1994. J Mol Biol 242:62-80.
Wrabl, et al., Protein Sci 10(5) 1032-45. 。
【０１７１】
本発明およびその利点を詳細に記載しているが、添付の特許請求の範囲で定義の本発明の精神および範囲を逸脱することなく種々の変更形態、置換形態、および修正形態を実施することができると理解すべきである。さらに、本発明の範囲は、本明細書中に記載のプロセス、機械類、製造、材料の組成、手段、方法、および工程についての特定の実施形態に制限されることを意図しない。当業者は、本発明の開示から、既存または後に開発される実質的に同一の機能を果たすか本明細書中に記載の対応する実施形態と実質的に同一の結果を達成するプロセス、機械類、製造、材料の組成、手段、方法、またはは工程を本発明にしたがって使用することができる。したがって、添付の特許請求の範囲は、このようなプロセス、機械類、製造、材料の組成、手段、方法、またはは工程の範囲内に含まれる。
【図面の簡単な説明】
【０１７２】
【図１】オボムコイドの第3 ドメインOM3 （2ovo）の結晶構造に適用したCOREX アルゴリズムの略図である。図1Aは、COREX アルゴリズムの分割ストラテジーをまとめている。図1Bは、微視的状態32のエネルギーに寄与する溶媒露出表面積（ASA ）を示す。
【図２】オボムコイドの第3 ドメイン（2ovo）の実験値を使用したCOREX データから予想される水素交換保護因子の比較である。白抜きの垂直方向のバーは推定値を示し、黒塗りの垂直方向のバーは実験値を示す（Swint −Kruse ＆ Robertson 、1996）。実線は、lnκf 値を示す。実験条件に適合させるためにCOREX 計算の模擬温度を30℃に設定した。二次構造を、ラベルした水平線で示す。アスタリスクは、テキストに記載のThr47 およびThr49 の位置を示す。
【図３】アミノ酸型の関数としてのCOREX 安定性データの正規化頻度を示す図である。図3Aは、アミノ酸アラニンの関数としてのデータを示す。図3Bは、アミノ酸アルギニンの関数としてのデータを示す。図3Cは、アミノ酸アスパラギンの関数としてのデータを示す。図3Dは、アミノ酸アスパラギン酸の関数としてのデータを示す。図3Eは、アミノ酸システインの関数としてのデータを示す。図3Fは、アミノ酸グルタミンの関数としてのデータを示す。図3Gは、アミノ酸グルタミン酸の関数としてのデータを示す。図3Hは、アミノ酸グリシンの関数としてのデータを示す。図3Iは、アミノ酸ヒスチジンの関数としてのデータを示す。図3Jは、アミノ酸イソロイシンの関数としてのデータを示す。図3Kは、アミノ酸ロイシンの関数としてのデータを示す。図3Lは、アミノ酸リジンの関数としてのデータを示す。図3Mは、アミノ酸メチオニンの関数としてのデータを示す。図3Nは、アミノ酸フェニルアラニンの関数としてのデータを示す。図3Oは、アミノ酸プロリンの関数としてのデータを示す。図3Pは、アミノ酸セリンの関数としてのデータを示す。図3Qは、アミノ酸トレオニンの関数としてのデータを示す。図3Rは、アミノ酸トリプトファンの関数としてのデータを示す。図3Sは、アミノ酸チロシンの関数としてのデータを示す。図3Tは、アミノ酸バリンの関数としてのデータを示す。各ヒストグラムでは、低安定性のビンを左に示し、中程度の安定性のビンを中央に示し、高安定性のビンを右に示す。各ヒストグラムで使用したデータを、表2 に記載の2922残基データセットから得た。
【図４】平均側鎖露出表面積への正規化頻度に対するCOREX 安定性データの正規化頻度の散布図である。天然構造中の平均側鎖露出を、COREX アルゴリズムの基本に類似の5 残基のウィンドウの移動の使用によって計算した。次いで、これらの値を、高、中程度、および低露出表面積にビン化した。
【図５】44個の標的のCOREX 安定性およびDSSP二次構造のスコア行列の折りたたみ認識の結果のまとめを示す。黒のバーは実際のデータ（lnκf または二次構造のいずれか）を示し、縞模様のバーは3 つの無作為なデータセットの平均を示す。図5Aは、lnκf スコア行列のローカルアラインメントアルゴリズムを示す。図5Bは、lnκf スコア行列のグローバルアラインメントアルゴリズムを示す。図5Cは、二次構造スコア行列のローカルアラインメントアルゴリズムを示す。図5Dは、二次構造スコア行列のグローバルアラインメントアルゴリズムを示す。
【図６】3 つの標的についての首尾の良いローカルアラインメントの例を示す。標的1igd（プロテインG ）の結果を図6Aに示し、標的1vcc（DNA トポイソメラーゼI ）の結果を図6Bに示し、標的2ait（tendamistat ）の結果を図6Cに示す。黒色の細線は、タンパク質標的についてのCOREX 計算した安定性データ（lnκf ）を示す。黒色の太線でつながれた黒丸は、各残基が寄与する累積行列スコアに相当する。ローカルアラインメントアルゴリズムの規則により最終的なスコアに寄与しないスコア（Smith ＆Waterman、1981）を、太い破線でつながれた白抜きの丸として示す。
【図７】本研究で使用した44個のタンパク質のデータベース由来の安定性データと50個のタンパク質の独立したデータベース由来の安定性データとの間の相関関係を示す図である。x 軸上のデータを、図3A〜図3T中の正規化ヒストグラムから得ている。y 軸上のデータは、元のデータベースに含まれない50個のPDB 構造由来の3304残基の独立したデータベースの同一のCOREX 分析に由来する。白丸は、His の値（両データベースで統計値の低い残基型）を示す。破線は、完全な相関性を示す。
【図８】細菌冷ショックタンパク質cspA（PDB 1mjc）のCOREX 計算の結果を示す。図8Aは、cspAの残基数の関数としての計算した熱力学的安定性（lnκ_fj）のプロットを示す。模擬温度は、25℃であった。相対的に高い、中程度、および低い安定性領域を、それぞれ、濃い灰色、薄い灰色、および黒色で示す。プログラムDSSP（Kabsch and Sander、1983）で定義した二次構造エレメントを標識する。図8Bは、1mjc結晶構造中の各残基の計算した相対安定性を示す。所与の二次構造エレメントを種々の安定性領域を有するように予想し、分子のほとんどの安定領域がしばしば（しかし必ずではない）疎水性コア内に存在することに留意のこと。
【図９】熱力学的環境に関するタンパク質構造の説明を示す。図9Aは、本明細書中で使用した熱力学的環境分類スキームを示す。COREX アルゴリズムの出力に由来する3 つの量（安定性（κ_fj）、エンタルピー比（H _{ratio, j}）、およびエントロピー比（S _{ratio, j}））は、各残基の熱力学的環境を説明する。図9Bは、この概略的に記載したタンパク質エネルギー位相空間中のこの分類スキームによって定義された12種の熱力学的環境を示す。各立方体は、一定の安定性、エンタルピー、およびエントロピーの特徴によって支配される領域を示す。本明細書中で使用したタンパク質構造中の残基の各位置は、この位相空間内のどこかに存在する。図9Cは、種々の二次構造の型および量を有する3 つのタンパク質における熱力学的環境（図9B）の分布の例を示す。二次構造エレメントは固有の熱力学的環境を示さないことに留意のこと。
【図１０】12種のタンパク質構造の熱力学的環境に関するアミノ酸型の3D−1Dスコアを示す。各パネルの三文字略語は、熱力学的環境の安定性、エンタルピー、およびエントロピーの記述子を示す。安定性は、高、中程度、および低に分類される。エントロピーおよびエンタルピーは、高および低に分類される。図10A は、低安定性、高極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるLHH を示す。図10B は、低安定性、高極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力的環境であるLHL を示す。図10C は、低安定性、低極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるLLH を示す。図10D は、低安定性、低極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるLLL を示す。図10E は、中程度の安定性、高極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるMHH を示す。図10F は、中程度の安定性、高極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるMHL を示す。図10G は、中程度の安定性、低極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるMLH を示す。図10H は、中程度安定性、低極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるMLL を示す。図10I は、高安定性、高極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるHHH を示す。図10J は、高安定性、高極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるHHL を示す。図10K は、高安定性、低極性／無極性エンタルピー比、および高い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるHLH を示す。図10L は、高安定性、低極性／無極性エンタルピー比、および低い高次構造エントロピー／ギブス溶媒和エネルギー比のタンパク質熱力学的環境であるHLL を示す。
【図１１】タンパク質構造由来の熱力学的情報から構成されるスコア行列を使用した81個のタンパク質標的についての折りたたみ認識の結果を示す。水平軸は、標的構造に対応する配列の標的構造に対するスコアのパーセンタイルのランクを示す。例えば、標的冷ショックタンパク質（PDB 1mjc）に対応する配列に、冷ショックタンパク質の熱力学的プロフィールに対する3858個の配列の157 番目に高いスコアを与えた。この結果を、図11中の5 パーセンタイルのビン中の冷ショックタンパク質の配列に配置した。その各熱力学的プロフィールを用いてアラインメントを行った場合、大部分（44／81）の配列が、データベース中の3858個のうちの99％より良好にスコアリングされた。
【図１２】31個の全αタンパク質構造由来の熱力学的情報から構成されるスコア行列を使用した12個の全βタンパク質標的の折りたたみ認識の結果を示す。水平軸は、標的構造に対応する配列の標的構造に対するスコアのパーセンタイルのランクを示す。例えば、全β標的tendamistat （PDB 1hoe）に対応する配列に、tendamistat の熱力学的プロフィールに対する3858個の配列の26番目に高いスコアを与えた。この結果を、図5 中の5 パーセンタイルのビン中のtendamistat 配列に配置した。β標的に対応する12個全ての配列が、データベース中の3858個のうちの90％よりもその各標的に対してより良好にスコアリングされた。

Claims

公知の折りたたみの残基特異的自由エネルギーを有する非相同タンパク質を含むタンパク質データベース。
前記非相同タンパク質が球状タンパク質である、請求項１に記載のデータベース。
前記データベースが、式：

によるj が非折りたたみ高次構造である全状態の確率の合計に対する残基j が折りたたみ高次構造であるアンサンブルにおける全状態の確率の合計の比率から安定度定数を決定する工程を含む計算方法によって決定される、請求項１に記載のデータベース。
前記残基の安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される少なくとも1 つの熱力学的分類群に割り当てる、請求項３に記載のデータベース。
前記安定性分類群が、高安定性、中程度の安定性、および低安定性を含む、請求項４に記載のデータベース。
前記高安定性に分類される残基が、フェニルアラニン、トリプトファン、またはチロシンを含む、請求項５に記載のデータベース。
前記低安定性に分類される残基が、グリシンまたはプロリンを含む、請求項５に記載のデータベース。
前記中程度の安定性に分類される残基が、アスパラギンまたはグルタミン酸を含む、請求項５に記載のデータベース。
前記エンタルピー分類群が、高エンタルピーまたは低エンタルピーを含む、請求項４に記載のデータベース。
前記エントロピー分類群が、高エントロピーまたは低エントロピーを含む、請求項４に記載のデータベース。
前記残基の安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される3 種の熱力学的分類群に割り当てる、請求項３に記載のデータベース。
前記残基の安定度定数を、HHH 、MHH 、LHH 、HHL 、MHL 、LHL 、HLL 、MLL 、LLL 、HLH 、MLH 、およびLLH からなる群から選択される12種の熱力学的分類に割り当てる、請求項３に記載のデータベース。
タンパク質の高分解能構造を入力する工程と、
各タンパク質の全ての可能な組み合わせにおいて一組の所定の折りたたみ単位の非折りたたみの組み合わせによって、徐々に異なる高次構造状態のアンサンブルを獲得する工程と、
前記各高次構造状態の確率を決定する工程と、
前記各高次構造状態の残基特異的自由エネルギーを計算する工程と、
安定度定数を熱力学的分類群に分類する工程とを含む、タンパク質データベースの開発方法。
前記安定度定数を、安定性、エンタルピー、およびエントロピーからなる群から選択される少なくとも1 つの熱力学的分類群に割り当てる、請求項１３に記載の方法。
前記タンパク質データベースが非相同タンパク質を含む、請求項１３に記載の方法。
前記獲得工程が、タンパク質の全配列上にウィンドウのブロックを置いて前記ウィンドウのブロックを一度に1 残基ずつスライドさせることによって前記タンパク質を折りたたみ単位に分ける工程を含む、請求項１３に記載の方法。
前記決定工程が、前記アンサンブルにおける高次構造の各状態の自由エネルギーを決定する工程と、各状態のボルツマン重率：

を決定する工程と、式：

を使用して各状態の確率を決定する工程とを含む、請求項１３に記載の方法。
前記計算工程が、式：

を使用して特定の残基が折りたたまれた全微視的状態と特定の残基が折りたたまれていない全微視的状態との間のエネルギーの相違を決定する工程を含む、請求項１３に記載の方法。
既知のタンパク質構造に対応する異なる熱力学的環境におけるアミノ酸残基の分布を決定する工程を含む、タンパク質折りたたみの同定方法。
前記熱力学的環境が、安定性、エンタルピー、およびエントロピーからなる群から選択される、請求項１９に記載の方法。
前記アミノ酸残基分布の決定が、熱力学情報由来のスコア行列を構築する工程を含む、請求項１９に記載の方法。
前記スコア行列が、COREX の安定性、エンタルピー、またはエントロピー情報に由来する、請求項２１に記載の方法。
タンパク質データのデータ構造体を有するタンパク質データベースと、前記データ構造体がタンパク質のアミノ酸についての熱力学的分類のデータフィールドを含むことと、
前記データベースのタンパク質折りたたみデータを同定するためのコンピュータベースのプログラムとを含んでなり、前記プログラムが、
1 つまたは複数のタンパク質の高分解能構造データを受信するための入力モジュールと、
1 つまたは複数のタンパク質のアミノ酸熱力学的分類を決定し、前記アミノ酸熱力学的分類を前記タンパク質データベースの前記データフィールドに格納するための処理モジュールとを有する、タンパク質データベースを開発し、タンパク質折りたたみを同定するシステム。
前記処理モジュールが、
徐々に異なる高次構造状態のアンサンブルの獲得と、
前記各高次構造状態の確率の決定と、
前記各高次構造状態の残基特異的自由エネルギーの計算と、
安定度定数の熱力学的分類群への分類とに適合している、請求項２３に記載のシステム。
前記コンピュータベースのプログラムが、アンサンブル中の各高次構造状態の自由エネルギーの決定と、ボルツマン重率の決定と、前記各状態の確率の決定とのための確率決定モジュールをさらに含む、請求項２４に記載のシステム。
前記コンピュータプログラムが、画面または印刷物に1 つまたは複数の画像レポートを得るための表示モジュールをさらに含む、請求項２４に記載のシステム。
前記1 つまたは複数の画像レポートが、前記アミノ酸熱力学的分類に基づいた三次元タンパク質構造の表示である、請求項２６に記載のシステム。
前記1 つまたは複数の画像レポートが、平均側鎖表面露出の正規化頻度に対するCOREX の安定性データの正規化頻度の散布図である、請求項２６に記載のシステム。
前記1 つまたは複数の画像レポートが、タンパク質のアミノ酸の熱力学的環境を表示するチャートである、請求項２６に記載のシステム。
請求項１３に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
請求項１６に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
請求項１７に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
請求項１８に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
請求項１９に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
請求項２２に記載の工程を実施するためのコンピュータ実行命令を有する、コンピュータ読取可能な媒体。
熱力学的分類群を定義する情報を格納するデータ構造体を有するデータベースであって、前記データベースが、
アミノ酸名またはアミノ酸の略語の値を格納するためのフィールドと、
特定のアミノ酸の熱力学的分類のための数値を示す値を格納するための1 つまたは複数の分類フィールドとを含む、データベース。
前記データベースが、特定のアミノ酸の各熱力学的分類のための各数値の合計を示す値を格納するための全フィールドをさらに有する、請求項３６に記載のデータベース。
前記タンパク質データベースが球状タンパク質を含む、請求項１３に記載の方法。