JP2004258814A

JP2004258814A - タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体

Info

Publication number: JP2004258814A
Application number: JP2003046597A
Authority: JP
Inventors: Hideaki Umeyama; 秀明梅山; Yoshiaki Watanabe; 佳晃渡辺; Mitsuo Iwadate; 満雄岩舘; Mayuko Shitaka; 真由子志鷹
Original assignee: IN-SILICO SCIENCE Inc; In Silico Sciences Inc
Current assignee: IN-SILICO SCIENCE Inc; In Silico Sciences Inc
Priority date: 2003-02-24
Filing date: 2003-02-24
Publication date: 2004-09-16
Anticipated expiration: 2023-02-24
Also published as: JP4368594B2

Abstract

【課題】リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することを課題とする。
【解決手段】本発明は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、タンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関し、特に、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を構築するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体に関する。
【０００２】
【従来の技術】
多くの生物種において、全ゲノム配列解析が進められて、その配列情報がデータベース化されている（例えば、非特許文献１参照）。ゲノム配列より、遺伝子の機能を特定、予測することがある程度可能であるが、配列情報のみでは機能を予測できない遺伝子が非常に多く存在する。また、遺伝子は、そのＤＮＡ配列からアミノ酸配列に翻訳されたタンパク質が実際に機能を担っている。
【０００３】
多くのタンパク質は、種々のホルモンやペプチド、タンパク質、農薬、医薬品などの化合物等といったリガンドと相互作用することにより、生体内で機能を発揮する。多くのタンパク質とリガンドとの相互作用の共通の性質は、タンパク質とリガンドとの相補性のある立体構造であり、各タンパク質の特異的な立体構造の特徴がリガンドとの相互作用の強さ、相互作用するリガンドの機能を決定していると考えられる。
【０００４】
リガンドが結合したタンパク質の立体構造を解明する試みは構造生物学において構造決定の主力とされるＸ線結晶構造解析、ＮＭＲを適用して行われ、多くの複合体の構造が解析されてきている。しかし、ゲノム解析から推定されるタンパク質の数は多く、加えてリガンドの種類も多いと予想されるため、すべてのタンパク質とリガンドの組み合わせについての複合体をＸ線結晶構造解析などの実験的手法により解明することは極めて困難である。そこで、目的とするタンパク質とアミノ酸配列の相同性の高い立体構造既知のタンパク質を探し出し、目的タンパク質の機能を予測することが行われている。
【０００５】
アミノ酸配列から立体構造を作成する方法として、ホモロジーモデリング法が広く知られている。これは、任意のアミノ酸配列（目的アミノ酸配列）が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質（参照タンパク質）をプロテイン・データ・バンクＰＤＢのような立体構造データベースから検索し、目的アミノ酸配列と類似配列の間のアライメント（配列を並置したもの）を与えた後、アライメント情報を基に、参照タンパク質の３次元座標から目的アミノ酸配列上のアミノ酸ごとの３次元座標を作成する手法である。
【０００６】
従来のホモロジーモデリング法としては、例えばＦＡＭＳ等が挙げられる（例えば、非特許文献２参照）。
【０００７】
ここで、このホモロジー法は次の４つのステップよりなる計算科学的手法である。
【０００８】
（ステップ１）任意のアミノ酸配列（目的アミノ酸配列）が与えられたとき、目的アミノ酸配列と類似の配列を有するタンパク質（参照タンパク質）をプロテイン・データ・バンクＰＤＢのような立体構造データベースから検索（ホモロジー検索）し、目的アミノ酸配列と類似配列の間のアライメント（配列を並置したもの）を与える。このデータベース検索とアライメントを行うためには、ＦＡＳＴＡ、ＰＳＩ−ＢＬＡＳＴ、ＬＩＢＲＡ等のコンピュータソフトがある。
【０００９】
ＦＡＳＴＡは２０種類の天然アミノ酸を意味する２０種のアルファベット文字配列のマッチングを行うプログラムであり、高ホモロジー（アミノ酸の一致度約３０％以上、ＦＡＳＴＡのｅ値では約０．０１以下に相当）の参照タンパク質に対して立体構造構築をすると、信頼性の高いモデルが構築出来るとされている。
【００１０】
一方、ＰＳＩ−ＢＬＡＳＴでは、同じように文字配列のマッチングを行うが、文字が一致しているか否かの情報ではなく、プロファイルと呼ばれる文字の一致の度合いを類縁タンパク質の文字配列上部位ごとの置換行列として算出し、更に繰り返し計算を行うことによりアライメントを最適化する性質を持っている。
【００１１】
また、ＬＩＢＲＡは３Ｄ−１Ｄ法（ｔｈｒｅａｄｉｎｇ法ともいう）に基づくプログラムであり、既知立体構造をプローブにして類似配列を検索するため、ＦＡＳＴＡやＰＳＩ−ＢＬＡＳＴとは検索アルゴリズムが明らかに異なる。そのため、ＦＡＳＴＡやＰＳＩ−ＢＬＡＳＴとは異なる種類の配列間類似性を指摘できる場合がある。
【００１２】
（ステップ２）上述したＦＡＳＴＡ、ＰＳＩ−ＢＬＡＳＴ、ＬＩＢＲＡなどにより算出したアライメントを用いれば、目的アミノ酸配列と類似配列間のアミノ酸ごとの対応関係が決まるので、この関係に基づき、参照タンパク質の３次元座標から目的アミノ酸配列上のアミノ酸ごとの３次元座標を作成する。
【００１３】
（ステップ３）目的アミノ酸配列側に対応するアミノ酸が存在しない場合には、参照タンパク質側のその位置のアミノ酸座標は用いず、逆に、参照タンパク質側に対応するアミノ酸が存在しない場合には、その位置の目的アミノ酸配列上のアミノ酸座標は、予め用意しておいたタンパク質断片座標データベースから適切なものを検索して作成する。
【００１４】
（ステップ４）上述した（ステップ２）および（ステップ３）によるタンパク質座標の構築では、アミノ酸残基間に構造的に不適切な隙間や衝突や歪みが生じることがあるので、エネルギー極小化計算により、これらの構造的な歪みを解消する。
【００１５】
従来のモデリングソフトによっては、（ステップ４）の構造的な歪みの解消をスムーズに行うため、（ステップ２）〜（ステップ４）の計算及び検索処理をタンパク質全原子に対して同時に行うのではなく、例えばシュミレーティッドアニーリング法（ＳＡ法）、分子力学計算、モンテカルロ法などを用いて段階的に行うものもある。
【００１６】
「ＳＡ法」とは、或る系の状態ｘに対して摂動を与え、新しい状態ｘ’を得たとき、新しい状態でのエネルギー値Ｅ（ｘ’）が旧状態のエネルギー値Ｅ（ｘ）より小さければ高い確率で、大きければ低い確率で新状態ｘ’への遷移を行うことにより、局所最小点に捉えることなくエネルギーＥの大或的最小点を発見しようというものである。即ち、先ずタンパク質の骨格を形成するα炭素原子について、次いでα炭素原子を含む主鎖原子について、ＳＡ法によるエネルギー極小化を行い、最後に側鎖を含むタンパク質全体についてＳＡ法によるエネルギー極小化を行うものである。
【００１７】
「分子力学計算」とは、系のポテンシャルエネルギーＥを座標の関数として表し、主に最大傾斜法または共役勾配法等のエネルギー極小化計算によって、ポテンシャルエネルギーＥの下がるべき座標変化を計算する方法である。
【００１８】
「モンテカルロ法」とは、統計力学に基づいた確立論的エネルギー最適化計算法である。
【００１９】
以上により、目的アミノ酸配列に対するアライメントが得られれば、その立体構造を予測構築することができる。ホモロジーモデリング法により立体構造が未知のタンパク質の立体構造を精度良く予測することができる。
【００２０】
【非特許文献１】
ＧｅｒａｒｄｏＪｉｍｅｎｅｚ−Ｓａｎｃｈｅｚ，Ｎａｔｕｒｅ４０９，８５３ − ８５５（２００１）
【非特許文献２】
Ｋ．ＯｇａｔａａｎｄＨ．Ｕｍｅｙａｍａ，ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＧｒａｐｈｉｃｓａｎｄＭｏｄｅｌｉｎｇ１８，２５８−２７２
【００２１】
【発明が解決しようとする課題】
しかしながら、従来法では、タンパク質とリガンドとの相互作用を考慮せずに、立体構造を構築していくため、作成された立体構造において、リガンドとの結合する部分が塞がれていることが多いという問題点を有していた。特に、医薬品などタンパク質の立体構造を利用して分子設計を行うには上記の欠点は重大である。その原因としては、従来のホモロジーモデリング法のアルゴリズムの中ではタンパク質とリガンドとの相互作用を計算していないためである。
【００２２】
従来この欠点を取り除く方法としては、コンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法が数多く知られている。その多くは、既存タンパク質の立体構造を用いて、あるいはホモロジーモデリング等によりタンパク質の立体構造を作成後、リガンドが結合するタンパク質部分を探索し、その部分にリガンドをあてはめ、分子力学法および分子動力学法等を用いてリガンドとタンパク質との相互作用エネルギーを最適化していく方法である。
【００２３】
しかしながら、この方法では、リガンドが結合するタンパク質部分の推定が困難である状況に加えて、グローバルミニマムを探索するためには膨大な計算時間と資源が必要なため、ゲノムワイドな産業利用には適さないなどの問題点を有していた。
【００２４】
また、こうした方法の多くは取り扱うリガンドの各原子に電価など物理化学的なパラメータを与えなければならず、リガンドの種類に制限があるという問題点も有していた。
【００２５】
また、分子力学法および分子動力学法等を用いてコンピュータ上でタンパク質とリガンドとのドッキングシミュレーションを行う方法によって、グローバルミニマムを探索し、リガンドが結合した状態でのタンパク質の立体構造の構築がなされたとしても、精度の高い予測構造を得ることができない場合も多い。その原因としては、タンパク質の立体構造は柔軟であり、リガンドと結合するとそれとよく結合するようタンパク質の立体構造が変化する物理化学的性質をシミュレーション中に充分に反映していないためである。ここで、タンパク質の立体構造が柔軟であり、立体構造が変化する動的な性質のことをタンパク質の「動的挙動」という。
【００２６】
これらの原因により、リガンドが結合した状態での単数鎖を含む複数鎖の予測精度の低いタンパク質立体構造を構築した場合、この構造データを利用した農薬、医薬品等の分子設計に悪影響を与えることになる。
【００２７】
本発明は上記問題点に鑑みてなされたもので、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することのできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することを目的としている。
【００２８】
【課題を解決するための手段】
このような目的を達成するため、請求項１に記載のタンパク質構造予測装置は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段と、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段とを備えたことを特徴とする。
【００２９】
この装置によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法（例えばＦＡＭＳなど）を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【００３０】
すなわち、本装置は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【００３１】
また、本装置におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【００３２】
また、請求項２に記載のタンパク質構造予測装置は、請求項１に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および／または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段を備えたことを特徴とする。
【００３３】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【００３４】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【００３５】
また、これにより、従来法では取り扱うことが極めて困難であった例えばＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【００３６】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【００３７】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【００３８】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【００３９】
また、請求項３に記載のタンパク質構造予測装置は、請求項１に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段をさらに備えたことを特徴とする。
【００４０】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばＣαからなる部分構造や主鎖やＣβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【００４１】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク（ＰＤＢ）などの既存のデータベースを用いてもよい。ここで、ＰＤＢ中には、タンパク質の立体構造以外にＤＮＡや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がＤＮＡや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【００４２】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【００４３】
また、請求項４に記載のタンパク質構造予測装置は、請求項３に記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段をさらに備えたことを特徴とする。
【００４４】
これは拡張型ホモロジーモデリング手段の一例を一層具体的に示すものである。この装置によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【００４５】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【００４６】
また、請求項５に記載のタンパク質構造予測装置は、請求項２から４のいずれか一つに記載のタンパク質構造予測装置において、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および／または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【００４７】
これは動的性質パラメータの一例を一層具体的に示すものである。この装置によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【００４８】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【００４９】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Ｗｉｌｓｏｎ，Ｅ．Ｂ．，Ｄｅｃｉｕｓ，Ｊ．Ｃ．，ａｎｄＣｒｏｓｓ，Ｐ．Ｃ．１９５５．ＭｏｌｅｃｕｌａｒＶｉｂｒａｔｉｏｎ．ＭｃＧｒａｗ−Ｈｉｌｌ．などに記載された方法を用いてもよい。
【００５０】
また、本装置においては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【００５１】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばＤＳＳＰ、ＳＴＲＩＤＥ等が挙げられるが、他の方法においても適応可能である。ＤＳＳＰの詳細は、Ｋａｂｓｃｈ，Ｗ．＆Ｓａｎｄｅｒ，Ｃ．（１９８３）Ｄｉｃｔｉｏｎａｒｙｏｆｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅ：ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｏｆｈｙｄｒｏｇｅｎ−ｂｏｎｄｅｄａｎｄｇｅｏｍｅｔｒｉｃａｌｆｅａｔｕｒｅｓ．Ｂｉｏｐｏｌｉｍｅｒｓ，２２：２５７７−２６３７などに記載されている。また、ＳＴＲＩＤＥの詳細は、Ｆｒｉｓｈｍａｎ，Ｄ＆Ａｒｇｏｓ，Ｐ．（１９９５）Ｋｎｏｗｌｅｄｇｅ−ｂａｓｅｄｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅａｓｓｉｇｎｍｅｎｔ．Ｐｒｏｔｅｉｎｓ：ｓｔｒｕｃｔｕｒｅ，ｆｕｎｃｔｉｏｎａｎｄｇｅｎｅｔｉｃｓ，２３，５６６−５７９などに記載されている。
【００５２】
また、請求項６に記載のタンパク質構造予測装置は、請求項１から５のいずれか一つに記載のタンパク質構造予測装置において、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段をさらに備えたことを特徴とする。
【００５３】
この装置によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「Ｕ」の後に、アラビア数字又はアラビア数字の数だけのＺを、以下に示すように付加する。
（あるタンパク質鎖のアミノ酸配列）Ｕアラビア数字（又はアラビア数字の数のＺ）（別のタンパク質鎖のアミノ酸配列）
【００５４】
ここで、「Ｕ」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Ｚ」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「Ｕ」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【００５５】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【００５６】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【００５７】
また、一つのタンパク質の配列の終了を意味するＵや加えるリガンドの存在の数を示す文字（一つのタンパク質の配列の終了を意味するＵの後のアラビア数字又はアラビア数字の数のＺ）はアミノ酸を表す１文字コード以外は別の文字を利用することできる。
【００５８】
また、請求項７に記載のタンパク質構造予測装置は、請求項２から６のいずれか一つに記載のタンパク質構造予測装置において、上記拡張型ホモロジーモデリング手段は、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算手段、
【数３】

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化パラメータ
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離
をさらに備えたことを特徴とする。
【００５９】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。この装置によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Ｕ_{ｌｉｇａｎｄ}の当該計算が行われるようになる。
【００６０】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Ｋ_{ｌｉｇａｎｄ} ＝１０、ε^＊＝０．１５、ｒ^＊＝２．０８
（Ｃα座標の最適化を行う際は、ε^＊＝０．０４６、ｒ^＊＝１．９Ｘｒ_ｉ，ｊ＋１．９）
【００６１】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のＦＡＭＳにおいては上記関数は存在せず、この方法では、Ｃα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のＦＡＭＳに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【００６２】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【００６３】
また、請求項８に記載のタンパク質構造予測装置は、請求項２から７のいずれか一つに記載のタンパク質構造予測装置において、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いて行う最適化手段、をさらに備えたことを特徴とする。
【００６４】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。この装置によれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、（４）のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いる。
【００６５】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）は以下の式により求める。
【数４】

Ｕ_ｐｏｓはタンパク質の原子位置に関するエネルギーを指標とする関数。
Ｋ_ｐｏｓはタンパク質の原子位置に関する関数の比例定数。（０＜Ｋ_ｐｏｓ＜１）
Ｘ_ｉは目的タンパク質のｉ残基目の座標。
Ｘ_ｉ ^＊は参照タンパク質のｉ残基目の座標。
【００６６】
また、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）は以下の式により求める。
【数５】

Ｓｉはｉ番目残基のゆらぎの値を反映したパラメータ。ＳｉはＴｉの値が大きいと小さくなる揺らぎに対応した定数。
ＭはＫ_ｐｏｓを０〜１までの値にする調整因子。
【００６７】
ここで、各原子ｉにおいて正の値を持つＳｉは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとＫ_ｐｏｓは小さい値となる。
【００６８】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【００６９】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数６】

ΔＹ_ｉはモンテカルロ法において目的タンパク質のｉ残基目の座標に加える摂動（Å）。
Ｘ_ｉ ^ｐｒｅは摂動を加える前の目的タンパク質のｉ残基目の座標。
Ｘ_ｉ ^ｐｏｓ _ｔは摂動を加えた後の目的タンパク質のｉ残基目の座標。
【００７０】
ΔＹ_ｉは加える摂動に関する関数で以下の式に従う。
【数７】

Ｔｉはｉ番目残基のゆらぎの大きさ。
ＰはΔＹ_ｉのノルム（ベクトルの大きさ）を０より大きく５より小さい値にするよう調整しながら発生する乱数。
【００７１】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔＹ_ｉのノルムは大きくてもよく、従って、Ｋ_ｐｏｓは小さい値となる。
【００７２】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【００７３】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Ｃα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のＦＡＭＳに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、ＳＡ法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【００７４】
また、請求項９に記載のタンパク質構造予測装置は、請求項１から８のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標取得手段は、上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および／または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【００７５】
これはリガンド座標取得手段の一例を一層具体的に示すものである。この装置によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、ＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【００７６】
また、請求項１０に記載のタンパク質構造予測装置は、請求項１から９のいずれか一つに記載のタンパク質構造予測装置において、上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第１機能推定手段をさらに備えたことを特徴とする。
【００７７】
この装置によれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のＰＤＢの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【００７８】
また、請求項１１に記載のタンパク質構造予測装置は、請求項１から１０のいずれか一つに記載のタンパク質構造予測装置において、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第２機能推定手段をさらに備えたことを特徴とする。
【００７９】
この装置によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【００８０】
また、請求項１２に記載のタンパク質構造予測装置は、請求項１から１１のいずれか一つに記載のタンパク質構造予測装置において、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第３機能推定手段をさらに備えたことを特徴とする。
【００８１】
この装置によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【００８２】
また、請求項１３に記載のタンパク質構造予測装置は、請求項１から１２のいずれか一つに記載のタンパク質構造予測装置において、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【００８３】
これはリガンドの一例を一層具体的に示すものである。この装置によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【００８４】
また、本発明はプログラムに関するものであり、請求項１４に記載のタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラムは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【００８５】
このプログラムによれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法（例えばＦＡＭＳなど）を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【００８６】
また、本プログラムにおけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【００８７】
また、請求項１５に記載のプログラムは、請求項１４に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および／または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップを含むことを特徴とする。
【００８８】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法において、立体構造の構築に際し、単鎖及び複数鎖タンパク質の構築の際に用いた全体のエネルギーの指標となる目的関数として、リガンドの原子種類に依存しない単純で取り扱い易い平均化された「平均化パラメータ」を使用して計算された相互作用関数を加え、さらに、タンパク質の動的な性質を反映した「動的性質パラメータ」を使用して、ホモロジーモデリング時に参照するタンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する。
【００８９】
これにより、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができる。
【００９０】
また、これにより、従来法では取り扱うことが極めて困難であった例えばＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になる。
【００９１】
また、これにより、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となる。
【００９２】
また、これにより、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現する。
【００９３】
なお、このリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。また、リガンドとして全ての物質を取り扱うことができ、原理的にはその数に制限はない。
【００９４】
また、請求項１６に記載のプログラムは、請求項１４に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップをさらに含むことを特徴とする。
【００９５】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばＣαからなる部分構造や主鎖やＣβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができる。
【００９６】
なお、タンパク質の立体構造データベースとして例えばプロテイン・データ・バンク（ＰＤＢ）などの既存のデータベースを用いてもよい。ここで、ＰＤＢ中には、タンパク質の立体構造以外にＤＮＡや金属、薬物といった、構成原子がアミノ酸以外のリガンド分子が当該タンパク質と複合体を形成している状態で、またはタンパク質が複数含まれていて複合体を形成している状態で、立体構造が登録されている。こうしたデータベースは例えばタンパク質がＤＮＡや金属、薬物との複合体形成の有無、タンパク質が複合体であるか否かで区別したデータベースを作成し、目的タンパク質中のリガンド有無によりデータベースを使い分けて使用している。
【００９７】
このように、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができる。
【００９８】
また、請求項１７に記載のプログラムは、請求項１６に記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップをさらに含むことを特徴とする。
【００９９】
これは拡張型ホモロジーモデリングステップの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになる。
【０１００】
ここで、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができる。こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができる。
【０１０１】
また、請求項１８に記載のプログラムは、請求項１５から１７のいずれか一つに記載のプログラムにおいて、上記動的性質パラメータは、上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および／または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであることを特徴とする。
【０１０２】
これは動的性質パラメータの一例を一層具体的に示すものである。このプログラムによれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用する。
【０１０３】
ここで、パラメータとして取り入れるタンパク質の動的な性質は、例えば、基準振動計算法から得られる分子が時間的にピコオーダーの振動を主とする長周期の熱ゆらぎの大きさをタンパク質を構成している各原子ごとに数値化して割り当てることで、取得することができる。
【０１０４】
基準振動計算法を用いてのゆらぎの大きさを算出する方法は限定しないが、一例として、Ｗｉｌｓｏｎ，Ｅ．Ｂ．，Ｄｅｃｉｕｓ，Ｊ．Ｃ．，ａｎｄＣｒｏｓｓ，Ｐ．Ｃ．１９５５．ＭｏｌｅｃｕｌａｒＶｉｂｒａｔｉｏｎ．ＭｃＧｒａｗ−Ｈｉｌｌ．などに記載された方法を用いてもよい。
【０１０５】
また、本プログラムにおいては基準振動計算方法の代用として、参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータを用いている。例えばαへリックスを構成している部分はゆらぎの大きさが大きく、その部分は大きい数値のパラメータとして、ループを構成している部分はゆらぎの大きさが小さく、その部分は小さい数値のパラメータとして各原子に割り当てることで取得することができる。
【０１０６】
ここで、参照タンパク質の二次構造判定を行うソフトウェアとしては、例えばＤＳＳＰ、ＳＴＲＩＤＥ等が挙げられるが、他の方法においても適応可能である。ＤＳＳＰの詳細は、Ｋａｂｓｃｈ，Ｗ．＆Ｓａｎｄｅｒ，Ｃ．（１９８３）Ｄｉｃｔｉｏｎａｒｙｏｆｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅ：ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｏｆｈｙｄｒｏｇｅｎ−ｂｏｎｄｅｄａｎｄｇｅｏｍｅｔｒｉｃａｌｆｅａｔｕｒｅｓ．Ｂｉｏｐｏｌｉｍｅｒｓ，２２：２５７７−２６３７などに記載されている。また、ＳＴＲＩＤＥの詳細は、Ｆｒｉｓｈｍａｎ，Ｄ＆Ａｒｇｏｓ，Ｐ．（１９９５）Ｋｎｏｗｌｅｄｇｅ−ｂａｓｅｄｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅａｓｓｉｇｎｍｅｎｔ．Ｐｒｏｔｅｉｎｓ：ｓｔｒｕｃｔｕｒｅ，ｆｕｎｃｔｉｏｎａｎｄｇｅｎｅｔｉｃｓ，２３，５６６−５７９などに記載されている。
【０１０７】
また、請求項１９に記載のプログラムは、請求項１４から１８のいずれか一つに記載のプログラムにおいて、上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加する配列修正ステップをさらに含むことを特徴とする。
【０１０８】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正する。
例えば、一つのタンパク質の配列の終了を意味する「Ｕ」の後に、アラビア数字又はアラビア数字の数だけのＺを、以下に示すように付加する。
（あるタンパク質鎖のアミノ酸配列）Ｕアラビア数字（又はアラビア数字の数のＺ）（別のタンパク質鎖のアミノ酸配列）
【０１０９】
ここで、「Ｕ」がタンパク質鎖の配列の終了を意味する終止記号であり、アラビア数字またはアラビア数字の数の「Ｚ」はリガンド存在記号である。このように複数の特別文字をリガンドの結合したタンパク質の終止記号「Ｕ」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるようになる。
【０１１０】
このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができる。
【０１１１】
また、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができる。
【０１１２】
また、一つのタンパク質の配列の終了を意味するＵや加えるリガンドの存在の数を示す文字（一つのタンパク質の配列の終了を意味するＵの後のアラビア数字又はアラビア数字の数のＺ）はアミノ酸を表す１文字コード以外は別の文字を利用することできる。
【０１１３】
また、請求項２０に記載のプログラムは、請求項１５から１９のいずれか一つに記載のプログラムにおいて、上記拡張型ホモロジーモデリングステップは、上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算ステップ、
【数８】

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化パラメータ
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離
をさらに含むことを特徴とする。
【０１１４】
これは平均化パラメータを使用した相互作用関数の一例を一層具体的に示すものである。このプログラムによれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Ｕ_{ｌｉｇａｎｄ}の当該計算が行われるようになる。
【０１１５】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Ｋ_{ｌｉｇａｎｄ} ＝１０、ε^＊＝０．１５、ｒ^＊＝２．０８
（Ｃα座標の最適化を行う際は、ε^＊＝０．０４６、ｒ^＊＝１．９Ｘｒ_ｉ，ｊ＋１．９）
【０１１６】
これにより、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。例えば、従来のＦＡＭＳにおいては上記関数は存在せず、この方法では、Ｃα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のＦＡＭＳに使用されている各目的関数に、上記の新しい相互作用関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。
【０１１７】
この相互作用関数は物理化学でよく知られている関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【０１１８】
また、請求項２１に記載のプログラムは、請求項１５から２０のいずれか一つに記載のプログラムにおいて、上記目的関数調整部は、上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いて行う最適化ステップ、をさらに含むことを特徴とする。
【０１１９】
これはタンパク質立体構造の最適化の一例を一層具体的に示すものである。このプログラムによれば、参照するタンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、モデルタンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、以下の計算式からなるタンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、（４）のタンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いる。
【０１２０】
タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）は以下の式により求める。
【数９】

Ｕ_ｐｏｓはタンパク質の原子位置に関するエネルギーを指標とする関数。
Ｋ_ｐｏｓはタンパク質の原子位置に関する関数の比例定数。（０＜Ｋ_ｐｏｓ＜１）
Ｘ_ｉは目的タンパク質のｉ残基目の座標。
Ｘ_ｉ ^＊は参照タンパク質のｉ残基目の座標。
【０１２１】
また、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）は以下の式により求める。
【数１０】

Ｓｉはｉ番目残基のゆらぎの値を反映したパラメータ。ＳｉはＴｉの値が大きいと小さくなる揺らぎに対応した定数。
ＭはＫ_ｐｏｓを０〜１までの値にする調整因子。
【０１２２】
ここで、各原子ｉにおいて正の値を持つＳｉは、タンパク質のポテンシャルエネルギーが極小であるときの各原子の周辺のポテンシャルエネルギーの勾配に対応する数字であり、勾配が緩やかな時には小さい値となる。即ちゆらぎが大きいとＫ_ｐｏｓは小さい値となる。
【０１２３】
上式に示した値は規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
【０１２４】
モンテカルロ法における摂動の大きさは、以下の式により求める。
【数１１】

ΔＹ_ｉはモンテカルロ法において目的タンパク質のｉ残基目の座標に加える摂動（Å）。
Ｘ_ｉ ^ｐｒｅは摂動を加える前の目的タンパク質のｉ残基目の座標。
Ｘ_ｉ ^ｐｏｓ _ｔは摂動を加えた後の目的タンパク質のｉ残基目の座標。
【０１２５】
ΔＹ_ｉは加える摂動に関する関数で以下の式に従う。
【数１２】

Ｔｉはｉ番目残基のゆらぎの大きさ。
ＰはΔＹ_ｉのノルム（ベクトルの大きさ）を０より大きく５より小さい値にするよう調整しながら発生する乱数。
【０１２６】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔＹ_ｉのノルムは大きくてもよく、従って、Ｋ_ｐｏｓは小さい値となる。
【０１２７】
上式に記した規定値、又式は変更可能な値、関数であり、本請求項の範囲を制限するものではない。
【０１２８】
これにより、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができる。この手法では、Ｃα原子の構築と最適化のプロセス、主鎖原子の構築と最適化のプロセス、側鎖原子の構築と最適のプロセスにおいて従来法のＦＡＭＳに使用されている各目的関数に、上記の定数や関数を加えてある部分が拡張型ホモロジーモデリング法において新規に訂正された部分である。こうした訂正は例えば、ＳＡ法においては、タンパク質の立体構造のポテンシャルの勾配をゆらぎを反映して状態にして極小点を探索することに相当し、グローバルミニマムを探索する関数であれば、同様に適応可能であり、ホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【０１２９】
また、請求項２２に記載のプログラムは、請求項１４から２１のいずれか一つに記載のプログラムにおいて、上記リガンド座標取得ステップは、上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および／または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得することを特徴とする。
【０１３０】
これはリガンド座標取得ステップの一例を一層具体的に示すものである。このプログラムによれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、ＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができる。
【０１３１】
また、請求項２３に記載のプログラムは、請求項１４から２２のいずれか一つに記載のプログラムにおいて、上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第１機能推定ステップをさらに含むことを特徴とする。
【０１３２】
このプログラムによれば、拡張型ホモロジーモデリングの手法において、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のＰＤＢの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができる。
【０１３３】
また、請求項２４に記載のプログラムは、請求項１４から２３のいずれか一つに記載のプログラムにおいて、上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第２機能推定ステップをさらに含むことを特徴とする。
【０１３４】
このプログラムによれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができる。
【０１３５】
また、請求項２５に記載のプログラムは、請求項１４から２４のいずれか一つに記載のプログラムにおいて、新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第３機能推定ステップをさらに含むことを特徴とする。
【０１３６】
このプログラムによれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができる。
【０１３７】
また、請求項２６に記載のプログラムは、請求項１４から２５のいずれか一つに記載のプログラムにおいて、上記リガンドが上記目的タンパク質以外のタンパク質であることを特徴とする。
【０１３８】
これはリガンドの一例を一層具体的に示すものである。このプログラムによれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるようになる。
【０１３９】
また、本発明は記録媒体に関するものであり、請求項２７に記載の記録媒体は、上記請求項１４から２６のいずれか一つに記載されたプログラムを記録したことを特徴とする。
【０１４０】
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、請求項１４から２６のいずれか一つに記載されたプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。
【０１４１】
また、本発明はタンパク質構造予測方法に関するものであり、請求項２８に記載のタンパク質構造予測方法は、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップとを含むことを特徴とする。
【０１４２】
この方法によれば、任意の目的タンパク質のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法（例えばＦＡＭＳなど）を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができる。
【０１４３】
すなわち、本本法は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【０１４４】
また、本方法におけるリガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能である。
【０１４５】
また、本発明はアミノ酸配列データベースシステムに関するものであり、請求項２９に記載のアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うことを特徴とする
【０１４６】
このアミノ酸配列データベースシステムによれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができる。
【０１４７】
すなわち、本発明のアミノ酸配列データベースシステムの入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字（リガンド存在記号）で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【０１４８】
【発明の実施の形態】
以下に、本発明にかかるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【０１４９】
［本発明の概要］
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。
【０１５０】
まず以下に本発明の概要について説明する。ここで、好適かつ代表的な例としてホモロジーモデリング法（特に本発明者らにより開発されたＦＡＭＳ等）を中心に説明するが、代表的な例として説明するものであり、本発明はこれに限定されるものではない。
【０１５１】
本発明は、北里大学薬学部生物分子設計学教室（梅山秀明教授）で開発した蛋白質自動モデリングシステム（ＦＡＭＳ：Ｋ．ＯｇａｔａａｎｄＨ．Ｕｍｅｙａｍａ，ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＧｒａｐｈｉｃｓａｎｄＭｏｄｅｌｉｎｇ１８，２５８−２７２，２０００）の適用範囲を拡張するものである。以下、本発明の概要をさらに詳細に説明する。
【０１５２】
本発明は、リガンドが結合した状態での単鎖を含む複数鎖蛋白質を単純化のため全立体構造作成過程において、リガンドを原子種類に依存しない剛体として取り扱い、該当タンパク質の動的挙動を反映したパラメータと関数を用いて最適化することで、該当タンパク質とリガンドとの相互作用計算を考慮した立体構造予測を行うことができる。これにより従来法に比較して、より信頼性の高い、かつ医薬品設計等に適したタンパク質の立体構造を世界中で解析されている大量のゲノム配列に関しても対応するスピードで構築することができる。
【０１５３】
本発明においては、リガンドとして取り扱うことのできる分子は、その種類や数を限定しないため、蛋白質、ペプチド、ＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なすことができる。これにより、例えば、複数鎖もしくは単数鎖タンパク質とＤＮＡとの複合体、薬物と複数鎖もしくは単数鎖タンパク質複合体といった立体構造構築を構築することができ、従来法より適応範囲を大幅に拡大することができる。また、リガンドを別途、分子力学法または分子動力学法といった計算手法を用いて設計し、この方法に適応することで、具体的に農薬、医薬品等の分子設計を行うことができる。
【０１５４】
本発明のリガンドの立体構造座標の入力形式は、従来法の入力ファイル形式に工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に加えるリガンドの存在とその数を文字で表記し、プログラム起動時にリガンド座標のファイル名の指定する。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【０１５５】
本発明の該当タンパク質の動的挙動を反映したパラメータと関数を用いてのタンパク質立体構造の最適化方法は、タンパク質とリガンドとの相互作用計算以外にも適応でき、リガンドを含まないタンパク質の立体構造作成においても適応可能であり、この方法よって最適化された立体構造は従来法と比べて、タンパク質の動的挙動といった物理化学的性質を取り入れている点において、より精度の高い立体構造を作成することもできる。
【０１５６】
さらには、本発明の最適化方法を、例えば抗体−抗体といった立体構造が既存のタンパク質に適応した場合、抗原−抗体反応におけるタンパク質表面に局在する抗原部位の機能情報として、構造変化と相互作用との関係を得ることができ、機能の理解を迅速かつ正確に行うための手助けとなる。このことは、例えばこうした構造変化座標から得られる情報を利用した医薬設計等に応用するうえで、大変重要な情報となる。
【０１５７】
尚、本発明のタンパク質の立体構造構築方法において、その基本骨格は、タンパク質の経験的なモデリング法、特にホモロジーモデリング法或いはスレッディング法を利用するものであり、その際Ｘ線結晶構造解析等により、タンパク質の立体構造として３次元座標が決定されたものを参照すべき鋳型に用いる。但し、モデリングの対象となる目的タンパク質と参照タンパク質との間で、アミノ酸配列のホモロジーは必ずしも高いことを必要とせず、例えばＥ−Ｖａｌｕｅといった規定の条件を満たす全てのタンパク質を参照タンパク質として用いることができる。また、例えば、リガンドとタンパク質との相互作用界面に関してモデリングするので良ければ、必ずしも、立体構造全体について参照し得る実験構造が存在することを必要としない。
【０１５８】
本明細書において幾つかの用語を使用するが、特に明記しない限り、次の意味を有する。
【０１５９】
「目的タンパク質」とは、Ｘ線結晶解析やＮＭＲ解析等により完全な立体構造が決定されておらず、本発明において立体構造構築の対象とするタンパク質を意味する。このタンパク質のアミノ酸配列を「目的アミノ酸配列」と称することがある。この目的タンパク質には、部分構造は解析されているが完全な立体構造が得られていないもの、また、既に機能が特定されているもの、機能が推定されているもの、アミノ酸配列は決定されているが機能は全く不明のものも含まれる。
【０１６０】
「参照タンパク質」とはその立体構造の詳細がＸ線結晶解析やＮＭＲ解析により既に決定されており、アライメントや原子座標の最適化のために参照するタンパク質を意味する。
【０１６１】
「アライメント」とは、２種類以上のタンパク質のアミノ酸配列があった場合、相互の対応関係をつけることを意味し、その方法は以下の各ステップの説明において詳述する。
【０１６２】
「原子座標」とは、三次元空間上で立体構造を記述するものである。それは空間上のある点を原点とする互いに垂直な三方向の相対的な距離であり、タンパク質中に存在する水素原子を除く原子一つあたりに３個の数字からなるベクトル量である。
【０１６３】
図１は、本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【０１６４】
図１に示す通り、この方法においては、先ず、ステップ１０において、立体構造未知のタンパク質のアミノ酸配列（以下、「目的アミノ酸配列」と呼ぶ場合がある）を用意する。
【０１６５】
ステップ２０において、ＦＡＳＴＡまたはＰＳＩ−ＢＬＡＳＴまたはＬＩＢＲＡを用いて立体構造データベースの中から参照するタンパク質構造を選定し、選定された構造のアミノ酸配列とのアライメント（並置）を行う。
【０１６６】
ステップ３０において、検索結果から同一起源の複数の参照タンパク質のアミノ酸配列を選択する。
【０１６７】
ステップ４０において、目的タンパク質に結合するリガンドの座標をリガンド立体構造データベースより選択し、取得する。
【０１６８】
ステップ５０において、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Ｚ」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Ｚ」を加える。タンパク質が複数鎖の場合は各アミノ酸配列末尾に「Ｕ」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Ｚ」文字を「Ｕ」の後に加える。同じく目的アミノ酸配列の対応する位置に「Ｕ」を区切り文字として、「Ｚ」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【０１６９】
ステップ６０において、ステップ３０で定められた参照タンパク質の動的挙動を表すパラメータを基準振動計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【０１７０】
ステップ７０において、アライメントの情報に基づいて、アミノ酸中の構成原子の一つであるＣα原子についてステップ３０において定められた参照構造から座標をリガンドの有無によって振り分けられたデータベース、参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースから取得し、ステップ６０において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数（Ｅ_Ｃα）に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数（Ｅ_Ｃα）を最小化するようにＣαの原子座標を最適化する。
【０１７１】
ステップ８０において、ステップ７０で得られたＣα座標に主鎖原子座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ６０において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数（Ｅｍａｉｎ）に定数としてセッティングを行い、シミュレーティッドアニーリング法によって目的関数（Ｅｍａｉｎ）を最小化するように主鎖原子座標を最適化する。
【０１７２】
ステップ９０において、ステップ８０で得られた主鎖原子座標に側鎖座標をリガンドの有無によって振り分けられたデータベースさらには参照タンパク質の動的な性質を反映して参照タンパク質の構造変位を行ったデータベースより付加し、ステップ６０において取得したパラメータを後述する種々のポテンシャル項の和からなる目的関数（Ｅｓｉｄｅ）に定数としてセッティングを行い、ステップ７０と同様のシミュレーティッドアニーリング法によって立体構造の構築を行う。ステップ１００において、出来上がったモデルの立体構造上の妥当性を検査し、最終構造に至る。
【０１７３】
本発明では、従来は単数鎖もしくは複数鎖の参照構造を用いた構造最適化しかできなかったステップ７０、８０及び９０を修正し、かつステップ６０を加えることで、リガンドが結合した状態での単数鎖を含む複数鎖の立体構造にも対応できるようにしたことが従来のＦＡＭＳと異なる点である。
【０１７４】
［システム構成］
まず、本システムの構成について説明する。図２は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、タンパク質構造予測装置１００と、アミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム２００とを、ネットワーク３００を介して通信可能に接続して構成されている。
【０１７５】
図２においてネットワーク３００は、タンパク質構造予測装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネット等である。
【０１７６】
図２において外部システム２００は、ネットワーク３００を介して、タンパク質構造予測装置１００と相互に接続され、利用者に対してアミノ酸配列情報や構造情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。
【０１７７】
ここで、外部システム２００は、ＷＥＢサーバやＡＳＰサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。また、外部システム２００の各機能は、外部システム２００のハードウェア構成中のＣＰＵ、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。
【０１７８】
図２において１００は、概略的に、タンパク質構造予測装置１００の全体を統括的に制御するＣＰＵ等の制御部１０２、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフェース部１０４、入力装置１１２や出力装置１１４に接続される入出力制御インターフェース部１０８、および、各種のデータベースやテーブルなどを格納する記憶部１０６を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、このタンパク質構造予測装置１００は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク３００に通信可能に接続されている。
【０１７９】
記憶部１０６に格納される各種のデータベースやテーブル（アミノ酸配列データファイル１０６ａ〜リガンド座標データファイル１０６ｃ）は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【０１８０】
これら記憶部１０６の各構成要素のうち、アミノ酸配列データファイル１０６ａは、アミノ酸配列を格納したデータベースである。アミノ酸配列データファイル１０６ａは、インターネットを経由してアクセスする外部のアミノ酸配列データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの配列情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【０１８１】
このアミノ酸配列データファイル１０６ａに格納される情報は、タンパク質を一意に識別するための識別情報、タンパク質の各種の属性に関する属性情報、アミノ酸配列データ（なお、後述する配列修正部１０２ｄの処理により、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加され、および／または、リガンドの存在を示すリガンド存在記号を付加された修正配列であってもよい）等を相互に関連付けて構成されている。
【０１８２】
また、タンパク質構造データファイル１０６ｂは、タンパク質の立体構造に関する立体構造情報等を格納するタンパク質構造データ格納手段である。タンパク質構造データファイル１０６ｂは、インターネットを経由してアクセスする外部のタンパク質構造データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの構造情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【０１８３】
このタンパク質構造データファイル１０６ｂに格納される情報は、タンパク質や複合体を一意に識別するための識別情報、タンパク質や複合体の各種の属性に関する属性情報、タンパク質や複合体の立体構造データ等を相互に関連付けて構成されている。
【０１８４】
また、リガンド座標データファイル１０６ｃは、リガンドの座標に関するリガンド座標情報等を格納するリガンド座標データ格納手段である。リガンド座標データファイル１０６ｃは、インターネットを経由してアクセスする外部のリガンド座標データベースであってもよく、また、これらのデータベースをコピーしたり、オリジナルの座標情報を格納したり、さらに独自のアノテーション情報等を付加したりして作成したインハウスデータベースであってもよい。
【０１８５】
このリガンド座標データファイル１０６ｃに格納される情報は、リガンドを一意に識別するための識別情報、リガンドの各種の属性に関する属性情報、リガンド座標データ等を相互に関連付けて構成されている。
【０１８６】
また、図２において、通信制御インターフェース部１０４は、タンパク質構造予測装置１００とネットワーク３００（またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部１０４は、他の端末と通信回線を介してデータを通信する機能を有する。
【０１８７】
また、図２において、入出力制御インターフェース部１０８は、入力装置１１２や出力装置１１４の制御を行う。ここで、出力装置１１４としては、モニタ（家庭用テレビを含む）の他、スピーカを用いることができる（なお、以下においては出力装置１１４をモニタとして記載する場合がある）。また、入力装置１１２としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。
【０１８８】
また、図２において、制御部１０２は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部１０２は、機能概念的に、目的アミノ酸配列取得部１０２ａ、リガンド座標取得部１０２ｂ、拡張型ホモロジーモデリング部１０２ｃ、配列修正部１０２ｄ、第１機能推定部１０２ｅ、第２機能推定部１０２ｆ、および、第３機能推定部１０２ｇを備えて構成されている。
【０１８９】
このうち、目的アミノ酸配列取得部１０２ａは、構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段である。
【０１９０】
また、リガンド座標取得部１０２ｂは、目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段である。
【０１９１】
ここで、リガンド座標取得部１０２ｂは、参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）（外部システム２００の提供する外部データベースの一種）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および／または、既存のリガンドデータベース（外部システム２００の提供する外部データベースの一種）から検索したリガンド座標から当該リガンドの立体構造座標を取得してもよい。
【０１９２】
また、拡張型ホモロジーモデリング部１０２ｃは、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、目的タンパク質とリガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段である。
【０１９３】
ここで、図３は、拡張型ホモロジーモデリング部１０２ｃの構成の一例を示すブロック図である。拡張型ホモロジーモデリング部１０２ｃは、図３に示すように、目的関数調整部１０２ｈ、参照タンパク質検索部１０２ｉ、参照タンパク質構造変更部１０２ｊ、相互作用関数計算部１０２ｋを含んで構成される。
【０１９４】
図３において、目的関数調整部１０２ｈは、目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および／または、目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段である。
【０１９５】
ここで、図４は、目的関数調整部１０２ｈの構成の一例を示すブロック図である。目的関数調整部１０２ｈは、図４に示すように、最適化部１０２ｍを含んで構成される。
【０１９６】
図４において、最適化部１０２ｍは、参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いて行う最適化手段である。
【０１９７】
再び図３に戻り、参照タンパク質検索部１０２ｉは、リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベース（例えば、ＰＤＢなどの外部システム２００の提供する外部データベースや、内部のアミノ酸配列データファイル１０６ａまたはタンパク質構造データファイル１０６ｂ）から参照タンパク質を検索する参照タンパク質検索手段である。
【０１９８】
また、参照タンパク質構造変更部１０２ｊは、参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段である。また、参照タンパク質構造変更部１０２ｊは、この変化させた座標をタンパク質構造データファイル１０６ｂに格納する手段である。
【０１９９】
また、相互作用関数計算部１０２ｋは、平均化パラメータを使用した目的タンパク質とリガンドとの相互作用関数を以下の計算式により計算する相互作用関数計算手段である。
【数１３】

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化パラメータ
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離
【０２００】
再び図２に戻り、配列修正部１０２ｄは、目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段である。また、配列修正部１０２ｄは、修正された修正配列をアミノ酸配列データファイル１０６ａに格納する修正配列格納手段である。
【０２０１】
また、第１機能推定部１０２ｅは、参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第１機能推定手段である。
【０２０２】
また、第２機能推定部１０２ｆは、リガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第２機能推定手段である。
【０２０３】
また、第３機能推定部１０２ｇは、新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第３機能推定手段である。
【０２０４】
なお、これら各部によって行なわれる処理の詳細については、後述する。
【０２０５】
［システムの処理］
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に再び図１〜図４を参照して詳細に説明する。
【０２０６】
以下、図１に示すフローチャートの各ステップについて、図２〜図４を参照して更に詳細に説明する。
【０２０７】
（ステップ１０：構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得）
先ず、タンパク質構造予測装置１００は、目的アミノ酸配列取得部１０２ａの処理により、アミノ酸配列データファイル１０６ａまたは外部システム２００の外部データベースを参照して、構造未知の目的タンパク質（単数を含む複数鎖から成る、リガンドが結合した状態での立体構造予測対象タンパク質）のアミノ酸配列を取得する（ステップＳＡ−１）。ここで、目的タンパク質のアミノ酸配列を「目的アミノ酸配列」という。
【０２０８】
ここで用いられる目的タンパク質のアミノ酸配列としては、データベースに登録されているもの、配列が始めて解析されたもの等如何なる由来の配列であってもよい。また部分構造のみが解析されているタンパク質の配列も完全な立体構造の情報を得るために、本発明における立体構造の構築対象とすることができる。
【０２０９】
また、目的タンパク質のアミノ酸配列を用意するために用いられるデータベースとしては、例えば、”ＡｎＩｎｔｅｒｎｅｔｒｅｖｉｅｗ：ｔｈｅｃｏｍｐｌｅｔｅｎｅｕｒｏｓｃｉｅｎｔｉｓｔｓｃｏｕｒｓｔｈｅＷｏｒｌｄＷｉｄｅＷｅｂ．” ＢｌｏｏｍＦＥ，Ｓｃｉｅｎｃｅ１９９６；２７４（５２９０）：１１０４−９に詳細が記載されているＧＣＲＤｂ（ＴｈｅＧ−ｐｒｏｔｅｉｎ−ｃｏｕｐｌｅｄＲｅｃｅｐｔｏｒＤａｔａｂａｓｅ）：ＨＹＰＥＲＬＩＮＫ ”ｈｔｔｐ：／／ｗｗｗ．ｇｃｒｄｂ．ｕｔｈｓｃｓａ．ｅｄｕ／” ｈｔｔｐ：／／ｗｗｗ．ｇｃｒｄｂ．ｕｔｈｓｃｓａ．ｅｄｕ／、ＧＰＣＲＤＢ：ＨＹＰＥＲＬＩＮＫ ”ｈｔｔｐ：／／ｗｗｗ．ｇｐｃｒ．ｏｒｇ／７ｔｍ／” ｈｔｔｐ：／／ｗｗｗ．ｇｐｃｒ．ｏｒｇ／７ｔｍ／、ＥｘＰＡＳｙ：ＨＹＰＥＲＬＩＮＫ ”ｈｔｔｐ：／／ｗｗｗ．ｅｘｐａｓｙ．ｃｈ／ｃｇｉ−ｂｉｎ／ｓｍ−ｇｐｃｒ．ｐｌ” ｈｔｔｐ：／／ｗｗｗ．ｅｘｐａｓｙ．ｃｈ／ｃｇｉ−ｂｉｎ／ｓｍ−ｇｐｃｒ．ｐｌ、ＯＲＤＢ：ＨＹＰＥＲＬＩＮＫ ”ｈｔｔｐ：／／ｙｃｍｉ．ｍｅｄ．ｙａｌｅ．ｅｄｕ／ｓｅｎｓｅｌａｂ／ｏｒｄｂ／” ｈｔｔｐ：／／ｙｃｍｉ．ｍｅｄ．ｙａｌｅ．ｅｄｕ／ｓｅｎｓｅｌａｂ／ｏｒｄｂ／、ＧｅｎｅＢａｎｋ：ＨＹＰＥＲＬＩＮＫ ”ｆｔｐ：／／ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｅｎｂａｎｋ／ｇｅｎｏｍｅｓ／” ｆｔｐ：／／ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｇｅｎｂａｎｋ／ｇｅｎｏｍｅｓ／、ＰＩＲ：ｈｔｔｐ：／／ｗｗｗ−ｎｂｒｆ．ｇｅｏｒｇｅｔｏｗｎ．ｅｄｕ／ｐｉｒ／（ＮａｔｉｏｎａｌＢｉｏｍｅｄｉｃａｌＲｅｓｅａｒｃｈＦｏｕｎｄａｔｉｏｎ（ＮＢＲＦ））、ＳｗｉｓｓＰｌｏｔ：ｈｔｔｐ：／／ｗｗｗ．ｅｘｐａｓｙ．ｃｈ／ｓｐｒｏｔ／ｓｐｒｏｔ−ｔｏｐ．ｈｔｍｌ（ＳｗｉｓｓＩｎｓｔｉｔｕｔｅｏｆＢｉｏｉｎｆｏｒｍａｔｉｃｓ（ＳＩＢ），ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ（ＥＢＩ））、ＴｒＥＭＢＬ（ＵＲＬ及び管理者ともにＳｗｉｓｓＰｌｏｔと同じ）、ＴｒＥＭＢＬＮＥＷ（ＵＲＬ及び管理者ともにＳｗｉｓｓＰｌｏｔと同じ）、ＤＡＤ：ｆｔｐ：／／ｆｔｐ．ｄｄｂｊ．ｎｉｇ．ａｃ．ｊｐ（日本ＤＮＡデータバンク）等のデータベースに登録されているヒト（Ｈ．ｓａｐｉｅｎｓ）、ショウジョウバエ（Ｄ．ｍｅｌａｎｏｇａｓｔｅｒ）、線虫（Ｃ．ｅｌａｇａｎｓ）、酵母（Ｓ．ｃｅｒｅｖｉｓｉａｅ）、シロイヌナズナ（Ａ．ｔｈａｌｉａｎａ）等を挙げることができる。これらのデータベースは単なる例示であり、タンパク質のアミノ酸配列が登録されているものであれば如何なるデータベースを用いることもできる。
【０２１０】
（ステップ２０：ＦＡＳＴＡ，ＰＳＩ−ＢＬＡＳＴ，ＬＩＢＲＡ等のアライメントソフトによる参照アミノ酸配列のデータベース検索及び配列アライメント）
ついで、タンパク質構造予測装置１００は、参照タンパク質検索部１０２ｉの処理により、ステップ１０において取得された目的アミノ酸配列に対して、参照タンパク質のアミノ酸配列とアライメントを行う。ここで、参照タンパク質のアミノ酸配列を「参照アミノ酸配列」という。
【０２１１】
アライメントを行うソフトウエアとしては、例えばＦＡＳＴＡもしくはＰＳＩ−ＢＬＡＳＴ（Ｐｏｓｉｔｉｏｎ−ＳｐｅｃｉｆｉｃＩｔｅｒａｔｅｄＢＬＡＳＴ）もしくはＬＩＢＲＡを使うのが好ましい。
【０２１２】
ＦＡＳＴＡは目的アミノ酸配列と一致度の高い配列を立体構造データベースから探索し、最終的な目的アミノ酸配列と参照タンパク質との一致度をｅ値として算出するプログラムである。ＦＡＳＴＡの詳細は”Ｅｆｆｅｃｔｉｖｅｐｒｏｔｅｉｎｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｓｏｎ．” ＰｅａｒｓｏｎＷＲ，（１９９６）ＭｅｔｈｏｄｓＥｎｚｙｍｏｌ；２６６：２２７−５８に記載されている。
【０２１３】
ＰＳＩ−ＢＬＡＳＴはプロファイルアライメントを行うようにプログラムされている。ＰＳＩ−ＢＬＡＳＴの詳細は、”ＭａｔｃｈｉｎｇａｐｒｏｔｅｉｎｓｅｑｕｅｎｃｅａｇａｉｎｓｔａｃｏｌｌｅｃｔｉｏｎｏｆＰＳＩ−ＢＬＡＳＴ−ｃｏｎｓｔｒｕｃｔｅｄｐｏｓｉｔｉｏｎ−ｓｐｅｃｉｆｉｃｓｃｏｒｅｍａｔｒｉｃｅｓ．” ＳｃｈａｆｆｅｒＡＡ，ＷｏｌｆＹＩ，ＰｏｎｔｉｎｇＣＰ，ＫｏｏｎｉｎＥＶ，ＡｒａｖｉｎｄＬａｎｄＡｌｔｓｃｈｕｌＳＦ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ１９９９，１２，１０００−１１に記載されている。
【０２１４】
プロファイルアライメントを実行するＰＳＩ−ＢＬＡＳＴは配列の類似度を検出することについて、現時点で最高の性能を備えたツールである。このプログラムは、プロファイルのデータベース中の有意なアライメント関係のみから情報を引き出し、アミノ酸配列の部位特異的スコア行列を作成する。次にプログラム内部では目的タンパク質の配列の替わりに作成された部位特異的スコア行列と一致度の高い配列をデータベースから探索し、その部位特異的スコア行列はより有意なアライメントが検出されなくなるまで回数を重ねる毎に逐次更新されてゆく。そして最終的な部位特異的スコア行列と参照タンパク質との一致度をＥｖａｌｕｅとして算出する。Ｅｖａｌｕｅとは配列間の適合の間に存在するランダムなバックグラウンドノイズを定量的に記述したものである。それは二つの配列がどれだけマッチしているかを示すものでもありスコアに対し指数関数的に減少する性質を持ち、結果の有意な閾値を設定する方法として有用である。
【０２１５】
本発明においては、そのアライメントが、通常９８％以上、好ましくは９９％以上の信頼性を持つとき、目的タンパク質の立体構造を作成するように判断するのが適当である。ＰＳＩ−ＢＬＡＳＴにおいては、Ｅｖａｌｕｅが、統計的に通常０．１以下、好ましくは０．０１以下の値を持つときがそれに相当する。
【０２１６】
これらにより立体構造データベースＰＤＢから参照タンパク質をホモロジー検索し、検索された参照アミノ酸配列と目的アミノ酸配列との配列アライメントを行う。
【０２１７】
ここで参照タンパク質は、例えば、立体構造データベースから取得される配列と座標のデータベースであるプロテインデータバンク（ＰＤＢ）等の公共データベースから得られるものである。
【０２１８】
なお、ＰＤＢのデータベースには２００２年２月現在で２６２４３個の立体構造が登録されているが、９５％以上の配列の一致度があるものは同じカテゴリーと判断し、カテゴリー中からもっとも長い配列のものを、更に同じ長さの場合はＸ線の分解能の最も高い構造をそのカテゴリーの代表とした。本発明で用いた立体構造データベースはこの代表を集めたデータベースである。本発明時点においては、３９２２個の代表構造をＰＤＢデータベースとして用いている。
【０２１９】
（ステップ３０：検索結果から、目的タンパク質と同一起源の参照タンパク質のアミノ酸配列を選択）
ついで、タンパク質構造予測装置１００は、参照タンパク質検索部１０２ｉの処理により、ホモロジー検索の結果から、目的アミノ酸配列に対して複数の同一起源である参照タンパク質のアミノ酸配列とのアライメント結果を選択する。
【０２２０】
（ステップ４０：リガンド座標の選択と取得）
ついで、タンパク質構造予測装置１００は、リガンド座標取得部１０２ｂの処理により、目的タンパク質と結合するリガンドを選択し、当該リガンドの立体構造座標を取得する。
【０２２１】
当該リガンドおよびその座標は、ステップ３０により選択した参照タンパク質と結合した場合のデータから選択することが好ましいが、別途、分子力学法または分子動力学法を用いてリガンド座標を作成し用いてもよく、さらに既存のリガンドデータベースから取得したリガンド座標を用いてもよい。
【０２２２】
また、選択するリガンドの種類、数は限定しない。
【０２２３】
（ステップ５０：配列アライメントの修正：単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号（例えば「Ｕ」）と、リガンドの存在を示すリガンド存在記号（例えば「Ｚ」）を付加）
ついで、タンパク質構造予測装置１００は、配列修正部１０２ｄの処理により、単数鎖を含む複数鎖の各アミノ酸配列末尾に終止記号（例えば「Ｕ」）と、リガンドの存在を示すリガンド存在記号（例えば「Ｚ」）を付加する。
【０２２４】
すなわち、ステップ３０により、目的アミノ酸配列が同一起源の単数または複数のタンパク質鎖とアライメントされた場合、従来はリガンドの存在を考慮せずモデリングを行っていたが、本発明では、単数鎖の場合は、参照タンパク質のアミノ酸配列にリガンドの存在を示し、その種類と数を表す「Ｚ」という文字を配列をアミノ酸配列末尾に加え、同じく目的タンパク質のアミノ配列末尾に「Ｚ」を加える。
【０２２５】
タンパク質が複数鎖の場合は各アミノ酸配列末尾に、一方単数鎖の場合はアミノ酸配列の末尾に「Ｕ」という文字を区切りに入れ、リガンドの存在を示し、種類と数を表す「Ｚ」文字を「Ｕ」の後に加える。同じく目的アミノ酸配列の対応する位置に「Ｕ」を区切り文字として、「Ｚ」をリガンドの存在を示す記号として入れることで配列アライメントを修正する。
【０２２６】
以下に、配列アライメントの修正の一例を以下に示す。
【０２２７】
（第１の例）
複数鎖（２つ）の参照タンパク質の第１タンパク鎖について、一つのリガンドが結合している場合には、「ＵＺ」又は「Ｕ１（ここで「１」はリガンド存在記号「Ｚ」の数を示す）」として記述する。なお、以下の例において、『Ａ・・・Ａ』の部分は第１タンパク鎖のアミノ酸配列を、また、『Ｒ・・・・Ｒ』の部分は第２タンパク鎖のアミノ酸配列を示している。
＞目的タンパク質
ＡＡＡＡＡＡＡＡＡＡＡＡＡＡＡＵＺＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
＞参照タンパク質
ＡＡＡＡＡＡＡＡＡＡＶＶＡＡＡＵＺＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
【０２２８】
ここで、（Ｕ）は最後のタンパク質鎖の後のＵは省略も可能を意味する。
【０２２９】
（第２の例）
複数鎖（２つ）の参照タンパク質の第１タンパク鎖について、二つのリガンドが結合している場合には、「ＵＺＺ」又は「Ｕ２（ここで「２」はリガンド存在記号「Ｚ」の数を示す）」として記述する。
＞目的タンパク質
ＡＡＡＡＡＡＡＡＡＡＡＡＡＡＡＵＺＺＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
＞参照タンパク質
ＡＡＡＡＡＡＡＡＡＡＶＶＡＡＡＵＺＺＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
【０２３０】
ここで、（Ｕ）は最後のタンパク質鎖の後のＵは省略も可能を意味する。
【０２３１】
（第３の例）
複数鎖（２つ）の参照タンパク質の第２タンパク鎖について、リガンドが２つ結合している場合には、「ＵＺＺ」又は「Ｕ２（ここで「２」はリガンド存在記号「Ｚ」の数を示す）」として記述する。
＞目的タンパク質
ＡＡＡＡＡＡＡＡＡＡＡＡＡＡＡＵＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＵＺＺ
＞参照タンパク質
ＡＡＡＡＡＡＡＡＡＡＶＶＡＡＡＵＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＵＺＺ
【０２３２】
（第４の例）：なお、リガンドの無いときの複数鎖タンパク質モデリングの場合は、以下のように記述する。
＞目的タンパク質
ＡＡＡＡＡＡＡＡＡＡＡＡＡＡＡＵＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
＞参照タンパク質
ＡＡＡＡＡＡＡＡＡＡＶＶＡＡＡＵＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲＲ（Ｕ）
【０２３３】
ここで、（Ｕ）は最後のタンパク質鎖の後のＵは省略も可能を意味する。
【０２３４】
このようにリガンドが結合した状態での単数鎖を含む複数鎖の全てのタンパク質を同時にモデリングするためのアライメントを準備する。
【０２３５】
（ステップ６０：目的タンパク質の動的挙動を表すパラメータの取得）
まず、タンパク質構造予測装置１００は、目的関数調整部１０２ｈの処理により、ステップ３０で定められた参照タンパク質の動的挙動を表すパラメータを基準振動解析法による計算結果のデータベースもしくは二次構造判定計算をおこない取得する。
【０２３６】
まず、目的関数調整部１０２ｈによる、基準振動解析法によるタンパク質の動的挙動を表すパラメータ取得方法について下記に示す。
【０２３７】
「基準振動解析法」とは、ポテンシャルエネルギーを変位の二次関数として近似し、運動方程式を厳密に解き、最適化構造の周りの微小な振動を解析する方法を意味する。解くべき運動方程式は下記式（１）または（２）である。
【数１４】

である。
【０２３８】
また、ω_ｋは固有値、Ｕ_ｉｋは固有ベクトルであり、δ_ｉｊはクロネッカーのデルタである。ＴｉｊとＶ_ｉｊはそれぞれ運動エネルギーＥ_ｋとポテンシャルエネルギーＶに関係し、下記式（３）および（４）の通りである。
【数１５】

【０２３９】
ここで、ｑ_ｉは振動の自由度に対応した座標、ｑ_ｉ ^０は最適化座標、はｑ_ｉの時間による微分である。Ａ_ｊｋは集団運動Ｑ_ｋと個々の原子運動ｑ_ｊを結ぶ係数であり、下記式（５）の通りである。
【数１６】

である。
ここで、α_ｋとδ_ｋは初期条件で定められる。
【０２４０】
上記した基準振動解析法の詳細はＷｉｌｓｏｎ，Ｅ．Ｂ．，Ｄｅｃｉｕｓ，Ｊ．Ｃ．，ａｎｄＣｒｏｓｓ，Ｐ．Ｃ．１９５５．ＭｏｌｅｃｕｌａｒＶｉｂｒａｔｉｏｎ．ＭｃＧｒａｗ−Ｈｉｌｌ．に記載されている。
参照タンパク質に対して、上記で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値での各Ｃα原子の位置ゆらぎを計算し、このゆらぎの値をＣαが含まれるアミノ酸のゆらぎの値とする。目的タンパク質の各アミノ酸のゆらぎの値は、ステップ５０におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質のゆらぎの値として参照タンパク質と同一のものを当てはめておく。ゆらぎの値を求められなかったものについては、予め設定しておいた値をあてはめる。こうして得た目的タンパク質の各アミノ酸のゆらぎの値を目的タンパク質の動的な挙動を表すパラメータとする。
【０２４１】
次に、目的関数調整部１０２ｈによる、二次構造判定計算によるタンパク質の動的挙動を表すパラメータ取得方法について下記にしめす。
【０２４２】
二次構造判定はタンパク質の立体構造座標から計算される。ソフトウェアとしては、例えば、「ＤＳＳＰ（Ｄｉｃｔｉｏｎａｒｙｏｆｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅｏｆｐｒｏｔｅｉｎ）」、「ＳＴＲＩＤＥ（Ｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅａｓｓｉｇｎｍｅｎｔｆｒｏｍａｔｏｍｉｃｃｏｏｒｄｉｎａｔｅ）」等が好ましいが、基本的にはタンパク質の主鎖のねじれ角と水素結合パターンから判別される方法を用いる。
【０２４３】
ここで、「ＤＳＳＰ」とは、ＰＤＢ書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。ＤＳＳＰの詳細は、Ｋａｂｓｃｈ，Ｗ．＆Ｓａｎｄｅｒ，Ｃ．（１９８３）Ｄｉｃｔｉｏｎａｒｙｏｆｐｒｏｔｅｉｎｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅ：ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｏｆｈｙｄｒｏｇｅｎ−ｂｏｎｄｅｄａｎｄｇｅｏｍｅｔｒｉｃａｌｆｅａｔｕｒｅｓ．Ｂｉｏｐｏｌｉｍｅｒｓ，２２：２５７７−２６３７に記載されている。
【０２４４】
また、「ＳＴＲＩＤＥ」とは、ＰＤＢ書式のファイルを入力ファイルとして、主鎖の水素結合パターンと、内部回転角等を解析しαへリックスとβシートとを判定するソフトウェアである。ＳＴＲＩＤＥの詳細は、Ｆｒｉｓｈｍａｎ，Ｄ＆Ａｒｇｏｓ，Ｐ．（１９９５）Ｋｎｏｗｌｅｄｇｅ−ｂａｓｅｄｓｅｃｏｎｄａｒｙｓｔｒｕｃｔｕｒｅａｓｓｉｇｎｍｅｎｔ．Ｐｒｏｔｅｉｎｓ：ｓｔｒｕｃｔｕｒｅ，ｆｕｎｃｔｉｏｎａｎｄｇｅｎｅｔｉｃｓ，２３，５６６−５７９に記載されている。
【０２４５】
参照タンパク質に対して、上記ソフトウェア等を用いて、二次構造計算を行い、各アミノ酸がとるαへリックス構造、βシート構造、ループ構造を判定する。目的タンパク質の各アミノ酸の二次構造は、ステップ５０におけるアライメントを利用して、目的アミノ酸配列と参照配列の比較から対応するアミノ酸残基ペアにおいて、目的タンパク質の二次構造判定として参照タンパク質と同一のものを当てはめておく。二次構造判定を求められなかったものについては、予め設定しておいた結果をあてはめる。こうして得た目的タンパク質の各アミノ酸の二次構造判定結果を目的タンパク質の動的な挙動を表すパラメータとする。
【０２４６】
また、上記の目的タンパク質の動的挙動を表すパラメータとしては、参照タンパク質の基準振動解析法より取得した結果を用いることが好ましく、当該計算結果は別途データベースとして保存されているものを使用する。二次構造判定計算結果は、好ましくは、基準振動解析が行われていない参照タンパク質を用いる際に基準振動解析計算の代用として使用する。
【０２４７】
（ステップ７０：目的タンパク質のＣα原子の初期座標の構築及び最適化）
ついで、タンパク質構造予測装置１００は、拡張型ホモロジーモデリング部１０２ｃの処理により、ステップ４０による配列アライメントの結果を受けて、目的アミノ酸配列について、参照アミノ酸配列と比較して挿入および欠損のあるアミノ酸残基についての情報を得る。
【０２４８】
そして、タンパク質構造予測装置１００は、拡張型ホモロジーモデリング部１０２ｃの処理により、配列アライメントにおいて連続して三残基以上のアミノ酸が対応しているギャップの無い領域を選び出し、その領域においては、これらの残基ペアにおいて、目的タンパク質のＣα原子は参照タンパク質と同一のものを用いる。もしくは、タンパク質構造予測装置１００は、参照タンパク質構造変更部１０２ｊの処理により、ステップ６０で行った参照タンパク質の基準振動解析計算結果から得られる固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造（構造変位立体構造）をもとめ、目的タンパク質のＣα座標として当てはめておく。
【０２４９】
このようにしてＣα原子が求められなかった場合には、ＰＤＢから予め作成した、リガンドの有無により分けた、Ｃα原子からなるペプチド断片のデータベース（Ｋ．ＯｇａｔａａｎｄＨ．Ｕｍｅｙａｍａ，ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＧｒａｐｈｉｃｓａｎｄＭｏｄｅｌｉｎｇ１８，
２５８−２７２，２０００参照）から座標を当てはめる。
【０２５０】
配列アライメントにおいてリガンドの存在を示す「Ｚ」が記述してある場合は、リガンドを有するＰＤＢの登録複合体構造データから作成した断片データベースを用い、「Ｚ」が記述してない場合はリガンドを有さないＰＤＢの構造データから作成した断片データベースを用いる。
【０２５１】
本明細書において「Ｃα原子」は、各アミノ酸の骨格の中心となる炭素原子を意味する。
【０２５２】
また、「Ｃβ原子」は、Ｃα原子の側鎖側に結合する炭素原子を意味する。
【０２５３】
また、「Ｃ原子」とは、Ｃα原子に結合するカルボニル基の炭素原子を意味する。
【０２５４】
次に、参照タンパク質構造変更部１０２ｊによる、参照タンパク質の基準振動解析計算結果から得られる参照タンパク質の構造変位立体構造座標を生成する方法を示す。その詳細は、先に出願されたＰＣＴ出願ＷＯ０２／０５７９５４号の明細書に詳細に記載されている。
【０２５５】
上記式（１）〜（５）で得られた固有値、固有ベクトルを用いて、ある温度・ある固有値でのＣα原子の「位置ゆらぎ」を計算する。ここで、固有値の数と等しい位置ゆらぎが得られる。参照タンパク質のＣα原子の温度因子を位置ゆらぎに換算し、各Ｃα原子について基準振動解析法の位置ゆらぎとの比を計算し、平均の比を求める。この平均の比は、使用した固有値の数だけあり、この比を掛けたこの固有値に属する固有ベクトルを参照タンパク質の原子座標に加え、この変位させた原子座標からなる立体構造を変位立体構造の１つとする。さらに平均の比を２倍して同様に参照タンパク質の変位立体構造を作成する。固有ベクトルには順・逆の方向があり、固有ベクトルに−１を掛けた逆方向にも同様に変化させる。すなわち、変位構造には使用した固有値の数の４倍だけある。算出する式は下記式（６）〜（１０）のとおりである。
【０２５６】
温度因子と位置ゆらぎの関係は下記式（６）のとおりである。
【数１７】

ここで、ＢｉはＰＤＢファイルから得られる原子の温度因子であり、πは円周率、Ｄｉは位置ゆらぎに相当する。
【０２５７】
基準振動法から得られる位置ゆらぎとＰＤＢファイルの温度因子を換算した位置ゆらぎの比は下記式（７）のとおりである。
【数１８】

ここでＦｉ^ｖは基準振動解析法から得られるｖ番目の固有値に対するｉ番目の原子の位置ゆらぎである。
【０２５８】
比の平均は下記式（８）のとおりである。
【数１９】

ここでＮは原子数であり、和は原子に対して行う。Ｍ^ｖはｖ番目の固有値に対する平均の比である。
【０２５９】
参照タンパク質立体構造の変位構造原子座標は下記式（９）および（１０）のとおりである。
【数２０】

ここで、Ｃ_ｉｋ ^０は参照タンパク質の原子座標、Ｖ_ｉｋ ^ｖはｖ番目の固有値に属する固有ベクトル成分をあらわす。
【０２６０】
参照タンパク質変位座標はＰＤＢに登録されている座標に対して行い、データベースを作成して使用する。
【０２６１】
目的タンパク質のＣα原子構築には、上記で作成したデータベースを全て用いるが、ステップ４０で選択したリガンドと目的タンパク質との立体的な衝突が少ない座標を用いることが好ましい。
【０２６２】
（ステップ７０（１）：Ｃα原子のシミュレーティッドアニーリング法による最適化）
ついで、タンパク質構造予測装置１００は、目的関数調整部１０２ｈの処理により、上記ステップ７０で作成されたＣα原子について、シミュレーティッドアニーリングのプロセスを用いて参照タンパク質の座標から構成される関数を用いて最適化する。
【０２６３】
この目的関数は下記式（１１）のとおりである。従来法と本発明の重要な違いの１つは、（１１）式中のステップ４０で取得したリガンドと、目的タンパク質との相互作用ポテンシャルであるＵ_{ｌｉｇａｎｄ}を新たに加え、Ｃα原子の位置に関するポテンシャルであるＵ_ｐｏｓとＵ_{ｌｉｇａｎｄ}を、ステップ５０で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数２１】

【０２６４】
Ｅ_ｌｅｎは、配列上隣り合う残基のＣα原子間の距離に関するもので下記式（１２）のように設定される。
【数２２】

【０２６５】
ここでＤ_{ｉ，ｉ＋１}は残基ｉと残基ｉ＋１のＣα間距離である。Ｋ_ｌは定数であり２と設定される。但し、１番目のタンパク質鎖のＣ末端残基ｋ_１と２番目のタンパク質鎖のＮ末端残基ｋ_{１＋１}の間には化学結合が存在しないので、ｉ＝ｋ_１の場合はＥ_ｌｅｎの計算に含めない。同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、ｉ＝ｋ_Ｎの場合はＥ_ｌｅｎの計算に含めない（以下、このような操作を相互作用の切断と呼ぶ。）。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ５０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２６６】
次に、Ｅ_ａｎｇはＣα原子の結合角の関数であり下記式（１３）のとおりである。
【数２３】

【０２６７】
ここで、 θ_ｉ（ｒａｄ）はｉ，ｉ＋１，ｉ＋２番目の残基Ｃα原子の角度である。θ_０はＰＤＢのＸ線構造から（１００／１８０）π（ｒａｄ）と設定される。Ｋ_ａは定数であり
１とする。但し、結合角のポテンシャルＥ_ａｎｇについてもＥ_ｌｅｎと同様の切断操作を行う。即ち、ｉ＝ｋ_Ｎ −１及びｉ＝ｋ_Ｎの場合は、Ｅ_ａｎｇの計算に含めない。この切断操作の範囲とｋ_１からｋ_Ｍ−１までの残基番号の指定はＥ_ｌｅｎの場合と同様に行う。
【０２６８】
次にＥ_ｖｄｗはＣα原子間のファンデルワールスポテンシャルで、下記式（１４）のとおりである。
【数２４】

【０２６９】
但し、１番目のタンパク質鎖のＣ末端残基ｋ_１と２番目のタンパク質鎖のＮ末端残基ｋ_１＋１の間には化学結合が存在しないので、ｉ＝Ｕ_１−１ならｊ＞ｉ＋１，ｉ＝Ｕ_１ならｊ＞ｉという条件でＥ_ｖｄｗの計算を行わなければならない。同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、ｉ＝Ｕ_Ｎ−１ならｊ＞ｉ＋１，ｉ＝ＵＵ_Ｎならｊ＞ｉという条件で同様にＥ_ｖｄｗの計算を行わなければならない。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ５０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２７０】
次に、Ｅ_ｓｓは対となってＳ−Ｓ結合を構成するＣｙｓ残基のＣα原子間の距離に関するもので下記式（１５）のように設定される。
【数２５】

【０２７１】
ここでＤ_ｉ ^ＳＳは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するＣｙｓ残基のペア同士のＣα間距離である。本発明では、残基番号ｉには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のＥ_ｓｓを従来法のポテンシャル関数で扱うことができる。Ｋ_ＳＳは定数であり５と設定される。
【０２７２】
次に、Ｕ_ｐｏｓ，はＣα原子の位置に関する関数であり、下記式（１６）のとおりである。
【数２６】

【０２７３】
ここで、Ｕ_ｐｏｓはタンパク質の原子位置に関するエネルギーを指標とする関数であり、Ｋ_ｐｏｓはタンパク質の原子位置に関する関数の比例定数である（０＜Ｋ_ｐｏｓ＜１）。
【０２７４】
また、Ｘ_ｉは目的タンパク質のｉ残基目の座標であり、Ｘ_ｉ ^＊は参照タンパク質のｉ残基目の座標である。
【０２７５】
タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）は、下記式（１７）のように設定される。
【数２７】

Ｓｉはｉ番目残基のゆらぎの値を反映したパラメータであり、ＳｉはＴｉの値が大きいと小さくなる揺らぎに対応した定数である。
ＭはＫ_ｐｏｓを０〜１までの値にする調整因子である。
【０２７６】
また、モンテカルロ法における摂動の大きさは、下記式（１８）のように設定される。
【数２８】

ここで、ΔＹ_ｉはモンテカルロ法において目的タンパク質のｉ残基目の座標に加える摂動（Å）である。
Ｘ_ｉ ^ｐｒｅは摂動を加える前の目的タンパク質のｉ残基目の座標である。
Ｘ_ｉ ^ｐｏｓ _ｔは摂動を加えた後の目的タンパク質のｉ残基目の座標である。
【０２７７】
ΔＹ_ｉは加える摂動に関する関数で、以下の式（１９）に従う。
【数２９】

Ｔｉはｉ番目残基のゆらぎの大きさである。
ＰはΔＹ_ｉのノルム（ベクトルの大きさ）を０より大きく５より小さい値にするよう調整しながら発生する乱数である。
【０２７８】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔＹ_ｉのノルムは大きくてもよく、従って、Ｋ_ｐｏｓは小さい値となる。
【０２７９】
上記式（１７）、（１９）において、ステップ６０で取得した参照タンパク質の動的な性質を表すパラメータをＳ_ｉ、Ｔ_ｉにセットする。
【０２８０】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはＫｐｏｓが０に近づくように、ΔＹＹが５に近づくようにする。一方、ゆらぎの値が小さいアミノ酸残基にはＫｐｏｓが１に近づくように、ΔＹが０に近づくようにＳｉとＭ、ＰとＴに値をセットする。
【０２８１】
また、二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはＫｐｏｓが０に近づくように、ΔＹが５に近づくようにする。一方、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはＫｐｏｓが１に近づくように、ΔＹが０に近づくようにＳｉとＭとＰとＴｉに値をセットする。
【０２８２】
また、Ｕ_{ｌｉｇａｎｄ}は、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式（２０）のとおりである。
【数３０】

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数を表す。
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化されたパラメータである。
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離である。
【０２８３】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
ε^＊＝０．０４６、ｒ^＊＝１．９Ｘｒ_ｉ，ｊ＋１．９
Ｃα原子は式（１１）に従って、シミュレーティッドアニーリング法を用いて最適化される。この最適化の段階でＣα原子の摂動は１．０ Å以内になるように設定する。またこのアニーリングの段階は全てのＣα原子について例えば１００回づつ計算される。そして、温度に相当するパラメータは、例えば２５から０．５回ごとに０．０１減らすようし、そのパラメータは以後一定とする。
【０２８４】
この大きな２つの段階、構造情報の取得とＣα原子の構築は例えば１０回繰り返され、最小の目的関数値をもつＣα原子の座標が最適解として算出される。
【０２８５】
（ステップ８０：主鎖原子座標の構築及び最適化）
ついで、タンパク質構造予測装置１００は、拡張型ホモロジーモデリング部１０２ｃの処理により、ステップ７０（１）のＣαの原子座標に主鎖の他の原子を付加し、シミュレーティッドアニーリング法によって目的関数を最小化するようにする。
【０２８６】
まず、Ｃα原子の立体的な重ねあわせを行い、Ｃαの原子間距離が２．５Å以下の残基が取り上げられる。Ｃαを除く主鎖の原子座標はＣα原子間距離が最小になるように参照タンパク質の座標から取得しモデル構造とする。
【０２８７】
参照タンパク質の中に相当する残基が無い場合、主鎖の原子座標はリガンドの有無によりわけたデータベースを用いて、例えば目的タンパク質中のリガンドを含まれている場合は、リガンドがある場合のデータベース中の相当する４残基のタンパク質断片から作成される。
【０２８８】
目的タンパク質中にリガンドがない場合は、リガンドがない４残基のタンパク質断片のデータベースを使用する。この過程の中で、残基ｉの主鎖原子はｉ−１番目からｉ＋２番目までのＣα原子間の最小のｒｍｓｄ値を持つ残基から選ばれる。その際Ｎ末端の残基では、Ｃα原子座標の重ね合わせ範囲がｉ番目からｉ＋３番目までとなり、Ｃ末端の残基およびそのひとつ前の残基では同様にｉ−３番目からｉ番目までおよびｉ−２番目からｉ＋１番目までとなる。
【０２８９】
主鎖原子の目的関数を基にシミュレーティッドアニーリング法によって主鎖原子座標が最適化される。目的関数は下記式（２１）のとおりである。従来法と本発明の重要な違いの１つは、（２１）式中のステップ４０で取得したリガンドと目的タンパク質との相互作用ポテンシャルであるＵ_{ｌｉｇａｎｄ}を新たに加え、Ｃα原子の位置に関するポテンシャルであるＵ_ｐｏｓとＵ_{ｌｉｇａｎｄ}をステップ５０で所得した参照タンパク質の動的な性質を表すパラメータによって下記のように修正した点である。
【数３１】

【０２９０】
Ｅ_ｂｏｎｄは下記式（２２）のとおりである。
【数３２】

ｉ＝Ｕ_{Ｎ（Ｎ＝１，，Ｍ−１）} かつｂ_ｉ＝Ｄ_{Ｃｉ，Ｎｉ＋１}ならｂ_ｉ − ｂ_ｉ ^０＝０（２２）
【０２９１】
ここでｂ_ｉ ^０は、標準の結合長であり、それぞれの化学結合の種類によって異なる。Ｋ_ｂは定数であり２２５とする。Ｅ_ｂｏｎｄの計算に関しても、ＣαにおけるＥ_ｌｅｎの計算と同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、Ｅ_ｂｏｎｄの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ４０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２９２】
Ｅ_ａｎｇは結合角の関数で、下記式（２３）のとおりである。
【数３３】

【０２９３】
ここでθ_ｉ ^０は、標準の結合角であり、それぞれの結合角の種類によって異なる。Ｋ_ａは定数で４５と設定される。Ｅ_ａｎｇの計算に関しても、Ｅ_ｂｏｎｄの計算と同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、Ｅ_ａｎｇの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ４０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２９４】
Ｅ_ｔｏｒは主鎖のねじれ角のものであり、下記式（２４）のとおりである。
【数３４】

ｉ＝Ｕ_{Ｎ（Ｎ＝１，，Ｍ−１）}なら ψ_Ｉ− ψ_ｉ ^０＝ ω_ｉ −ω_ｉ ^０＝ φ_ｉ＋１− φ_ｉ＋１ ^０＝０（２４）
【０２９５】
ここでφ_ｉ ^０とψ_ｉ ^０はＲａｍａｃｈａｎｄｒａｎマップ上での最も近いねじれ角のφ_ｉおよびψ_ｉとする。またω_ｉ ^０は０としてｃｉｓ−Ｐｒｏ残基の場合のみπ（ｒａｄ）とする。Ｋ_ｔおよびＫωは定数であり、それぞれ１０および５０とする。Ｅ_ｔｏｒの計算に関しても、Ｅ_ａｎｇの計算と同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、Ｅ_ｔｏｒの計算に含めずに、相互作用の切断を行う。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ４０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２９６】
Ｅ_{ｎｏｎ−ｂｏｎｄ}は非結合の相互作用の関数で、下記式（２５）のとおりである。
【数３５】

【０２９７】
ここでε_ｉｊとｒ_ｉｊ＊は定数で原子の種類によって異なる。Ｋ_ｎｏｎは定数で０．２５とし、カットオフ値は８Åとする。Ｅ_{ｎｏｎ−ｂｏｎｄ}の計算に関しても、ＣαにおけるＥ_ｖｄＷの計算と同様に、Ｎ番目のタンパク質鎖のＣ末端残基ｋ_ＮとＮ＋１番目のタンパク質鎖のＮ末端残基ｋ_Ｎ＋１の間には化学結合が存在しないので、ｉ＝Ｕ_{Ｎ（Ｎ＝１，，Ｍ−１）} のときは［ｒ_{Ｎｉ，Ｎｉ＋１}；ｒ_Ｃα_{ｉ，Ｎｉ＋１}；ｒ_Ｃα_ｉ，Ｃα_ｉ＋１；ｒ_{Ｃｉ，Ｎｉ＋１}；ｒ_Ｃｉ，Ｃα_ｉ＋１；ｒ_Ｃｉ，Ｃβ_ｉ＋１；ｒ_{Ｃｉ，Ｃｉ＋１}；ｒ_{Ｏｉ，Ｎｉ＋１} ；ｒ_Ｏｉ，Ｃα_ｉ＋１］に属するｒ_ｉｊが８Å以下であれば、新たにＥ_{ｎｏｎ−ｂｏｎｄ}の計算に含めなければならない。タンパク質鎖の総数がＭである場合には、この操作はＮ＝１からＭ−１まで行い、ｋ_１からｋ_Ｍ−１までの残基番号は、ステップ４０で作成されたアライメント中の区切り文字Ｕ_１からＵ_Ｍ−１までのＵの位置によって指定することができる。
【０２９８】
Ｅ_ＳＳはＣｙｓ残基が生成するジスルフィド結合の関数で、下記式（２６）のとおりである。
【数３６】

ここでＤ_ｉ ^Ｃ ^αおよびＤ_ｉ ^Ｃ ^βは、タンパク質鎖内およびタンパク質鎖間でジスルフィド結合を形成するＣｙｓ残基のペア同士のＣα間およびＣβ間距離である。本発明では、残基番号ｉには全タンパク質鎖にわたる通し番号を用いるため、タンパク質鎖間のＥ_ｓｓを従来法のポテンシャル関数で扱うことができる。Ｋ^ＳＳ _ＣαおよびＫ^ＳＳ _Ｃ _βは定数であり、７．５である。
【０２９９】
Ｅ_ｃｈｉはＣαのキラリティーに関するものであり、下記式（２７）のとおりである。
【数３７】

ここでτ_ｉはＮ−Ｃα−Ｃβ−Ｃで定められるねじれ角でありＫ_ｃｈｉは５０とする。
【０３００】
Ｅ_ｈｙｄｒはホモロガスなタンパク質中で保存された主鎖の水素結合に関するもので、下記式（２８）のとおり定められる。
【数３８】

【０３０１】
水素結合は、Ｎ原子とＯ原子の距離が２．９± ０．５ Åにあるときに設定される。複数の参照タンパク質中で水素結合があるか否かを判定するときは、７５％以上の参照蛋白が存在すると認めた場合に水素結合ありと判定する。Ｋ_ｈｙｄｒは定数であり０．６である。
【０３０２】
Ｕ_ｐｏｓは原子の位置に関する関数で、下記式（２９）のとおりである。
【数３９】

Ｕ_ｐｏｓはタンパク質の原子位置に関するエネルギーを指標とする関数である。
Ｋ_ｐｏｓはタンパク質の原子位置に関する関数の比例定数である（０＜Ｋ_ｐｏｓ＜１）。
Ｘ_ｉは目的タンパク質のｉ残基目の座標である。
Ｘ_ｉ ^＊は参照タンパク質のｉ残基目の座標である。
【０３０３】
また、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）は、下記式（３０）により設定される。
【数４０】

Ｓｉはｉ番目残基のゆらぎの値を反映したパラメータである。
ＳｉはＴｉの値が大きいと小さくなる揺らぎに対応した定数である。
ＭはＫ_ｐｏｓを０〜１までの値にする調整因子である。
【０３０４】
また、モンテカルロ法における摂動の大きさは、下記式（３１）により設定される。
【数４１】

ΔＹ_ｉはモンテカルロ法において目的タンパク質のｉ残基目の座標に加える摂動（Å）である。
Ｘ_ｉ ^ｐｒｅは摂動を加える前の目的タンパク質のｉ残基目の座標である。
Ｘ_ｉ ^ｐｏｓ _ｔは摂動を加えた後の目的タンパク質のｉ残基目の座標である。
【０３０５】
ΔＹ_ｉは加える摂動に関する関数であり、以下式（３２）に従う。
【数４２】

Ｔｉはｉ番目残基のゆらぎの大きさである。
ＰはΔＹ_ｉのノルム（ベクトルの大きさ）を０より大きく５より小さい値にするよう調整しながら発生する乱数である。
【０３０６】
ここで、ゆらぎが大きいと、該原子の周辺ポテンシャルエネルギーの勾配は小さく、加える摂動ΔＹ_ｉのノルムは大きくてもよく、従って、Ｋ_ｐｏｓは小さい値となる。
【０３０７】
上記式（３０）、（３２）において、ステップ６０で取得した参照タンパク質の動的な性質を表すパラメータをＳ_ｉ、Ｔ_ｉにセットする。
【０３０８】
具体例を挙げると、基準振動解析法によって動的な性質を表すゆらぎの値のパラメータを用いた場合は、まず、目的タンパク質の各アミノ酸のゆらぎの値の大きさに従い、ゆらぎの値が大きいアミノ酸残基にはＫｐｏｓが０に近づくように、ΔＹが５に近づくように、ゆらぎの値が小さいアミノ酸残基にはＫｐｏｓが１に近づくように、ΔＹが０に近づくようにＳｉとＭ、ＰとＴに値をセットする。二次構造判定を用いた場合は、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造であると判定されたアミノ酸残基にはＫｐｏｓが０に近づくように、ΔＹが５に近づくように、目的タンパク質のアミノ酸残基がαへリックス、もしくはβシート構造以外と判定されたアミノ酸残基にはＫｐｏｓが１に近づくように、ΔＹが０に近づくようにＳｉとＭ、ＰとＴｉに値をセットする。
【０３０９】
Ｕ_{ｌｉｇａｎｄ}は、リガンドと目的タンパク質との相互作用ポテンシャルに関する関数であり、下記式（３３）のとおりである。
【数４３】

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数を表す。
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化されたパラメータである。
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離である。
【０３１０】
以下に規定値を示すが、変更可能な値であり、本請求項の範囲を制限するものではない。
Ｋ_{ｌｉｇａｎｄ} ＝１０、ε^＊＝０．１５、ｒ^＊＝２．０８
【０３１１】
次にＣβを含む主鎖原子の最適化がシミュレーテッドアニーリングによって行われる。このアニーリングの過程で主鎖とＣβの原子の摂動が初期の位置に対して１．０Å以内になるようにする。このアニーリングの段階は主鎖とＣβの原子に対して例えば２００回行われる。温度に相当するパラメータは例えば５０もしくは２５から始まり一回毎に０．５倍にしてゆき０．０１になるまで続け、その後一定値とする。
【０３１２】
主鎖の立体配置を幅広くサンプリングするために、本発明の方法では、好ましくは上記の方法を例えば６回行い、最小の目的関数値を持つ主鎖の原子座標を最適解とする。そして、温度に相当するパラメータは、例えば、はじめの２回は５０からスタートして３回目から２５からスタートすることとする。
【０３１３】
（ステップ９０：側鎖原子座標の構築及び最適化）
ついで、タンパク質構造予測装置１００は、拡張型ホモロジーモデリング部１０２ｃの処理により、側鎖原子座標の構築及び最適化を実行する。ここで、側鎖の構築は、大きく２段階に分かれており、「構造保存部位の側鎖構築」（スッテプ９０（１）と「全体の側鎖構築」（スッテプ９０（２））に分けられる。従来法との違いは、側鎖のデータベースとして、リガンドの有無により分けたデータベースを、目的タンパク質中でのリガンドの有無により使い分ける点である。
【０３１４】
（ステップ９０（１）：構造保存部位の側鎖構築）
算出された主鎖原子に対して、以前の研究における方法を用いてホモロガスなタンパク質から側鎖のねじれ角を得る。この方法の詳細は、”Ｔｈｅｒｏｌｅｏｆｐｌａｙｅｄｂｙｅｎｖｉｒｏｎｍｅｎｔａｌｒｅｓｉｄｕｅｓｉｎｓｉｄｅ−ｃｈａｉｎｔｏｒｓｉｏｎａｌａｎｇｌｅｓｗｉｔｈｉｎｈｏｍｏｌｏｇｏｕｓｆａｍｉｌｉｅｓｏｆｐｒｏｔｅｉｎｓ：Ａｎｅｗｍｅｔｈｏｄｏｆｓｉｄｅｃｈａｉｎｍｏｄｅｌｉｎｇ．” ＯｇａｔａＫａｎｄＵｍｅｙａｍａＨ，Ｐｒｏｔ．Ｓｔｒｕｃｔ．Ｆｕｎｃｔ．Ｇｅｎｅｔ．１９９８，３１，２５５−３６９に記載されている。
【０３１５】
この方法の中でホモロガスなタンパク質の中で保存されている側鎖の割合を算出し、この情報を基にして側鎖のモデリングを行う。側鎖の保存された部位の側鎖の原子座標は固定した主鎖原子に対して置かれる。
【０３１６】
例えば、ホモロガスなタンパク質中でアルギニン残基のχ１角が保存されていれば、Ｃγ原子の座標を置くことができ、Ｐｈｅ残基でχ^１とχ^２角が保存されていれば、全ての側鎖原子を置くことができる。
【０３１７】
式（２１）を用いたシミュレーティッドアニーリングの最適化の過程は、主鎖とＣβの原子のみ行われて、原子の摂動は例えば１．０Å以内となるようにした。この主鎖とＣβの原子のアニーリングの段階は例えば２００回行われる。そして、温度に相当するパラメータは例えば２５からスタートして一回毎に０．５倍にしてゆき０．０１になるまで小さくなるようにする。式（２１）の中のＥ_{ｎｏｎ−ｂｏｎｄ}は主鎖原子と部分的に作成された側鎖原子について行われる。そのとき側鎖原子の座標は最適化の過程を通じて保存されるようにする。
【０３１８】
構造の情報であるＭ_ｉと水素結合のＮ−Ｏのペアは最適化の過程で用いられる。主鎖原子の配置を得るために、上記プロセスを３回繰り返し、目的関数の最小の主鎖原子の座標を算出構造とする。
【０３１９】
（ステップ９０（２）：全体の側鎖の構築）
側鎖の構築は固定した主鎖およびＣβ原子のもとで行う。これは上記したＯｇａｔａＫａｎｄＵｍｅｙａｍａＨ，Ｐｒｏｔ．Ｓｔｒｕｃｔ．Ｆｕｎｃｔ．Ｇｅｎｅｔ．１９９８，３１，２５５−３６９に開示されている研究成果をもって行われ、それを用いることにより短時間で正確なモデルを与えることができる。
【０３２０】
次に主鎖構造は低温におけるモンテカルロ法によって最適化され、温度は例えば０．００１に設定され式（２１）の目的関数Ｅ_{ｎｏｎ−ｂｏｎｄ}を用い、全ての主鎖と側鎖の原子で計算される。
【０３２１】
そして、Ｎ、Ｃα、Ｃ、Ｃβ原子の最適化の過程で側鎖のねじれ角を最適化された状態を保つように側鎖の座標を再配置する。原子の摂動は例えば０．５Å以内とする。次に側鎖は削除され、上記の側鎖構築が繰り返される。このプロセスは例えば２．４Åの原子同士のぶつかり合いがなくなり、且つＮ−Ｃα−Ｃβ−Ｃのねじれ角が例えば−１２０±１５°の範囲に収まるまで繰り返される。
【０３２２】
（ステップ１００：最終構造の構築：立体構造予測）
ついで、タンパク質構造予測装置１００は、拡張型ホモロジーモデリング部１０２ｃの処理により、出来上がったモデルにおいて、リガンドと目的タンパク質との間に例えば２．１Åの原子同士のぶつかり合いがあった場合、ステップ５０〜９０を前回とは異なる条件のもと行う。
【０３２３】
上記の通りステップ５０において得られたアライメントを基に、ステップ６０−９０において新たに開発したｌｉｇａｎｄＦＡＭＳ等のモデリングソフトを用いて立体構造を構築し、モデルが完成する。
【０３２４】
上記ステップ６０−９０で示す方法を「ｌｉｇａｎｄＦＡＭＳ」と称する。一方、本発明の基本となす従来型のホモロジーモデリングソフトを「ＦＡＭＳ」と称し、その詳細はＫｏｊｉＯｇａｔａａｎｄＨｉｄｅａｋｉＵｍｅｙａｍａ， ”Ａｎａｕｔｏｍａｔｉｃｈｏｍｏｌｏｇｙｍｏｄｅｌｉｎｇｍｅｔｈｏｄｃｏｎｓｉｓｔｉｎｇｏｆｄａｔａｂａｓｅｓｅａｒｃｈｅｓａｎｄｓｉｍｕｌａｔｅｄａｎｎｅａｌｉｎｇ” ＪｏｕｒｎａｌｏｆＭｏｌｅｃｕｌａｒＧｒａｐｈｉｃｓａｎｄＭｏｄｅｌｉｎｇ１８，２５８−２７２，２０００に記載されている。
【０３２５】
本発明によれば、リガンドが結合した状態での単鎖を含む複数鎖から成る立体構造未知のタンパク質（これをコードする遺伝子を含む）の立体構造予測に関して、従来では天然アミノ酸以外には対応できなかったホモロジーモデリング法に対して、リガンド原子をも扱えるような関数、データベースを導入して、さらにリガンドの存在を入力ファイルに加えるといった工夫をし、全立体構造を高速に構築できるシステムを作成した。
【０３２６】
その結果、従来法では取り扱うことが困難であった例えばＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築するというように立体構造構築の適応範囲を大幅に拡大するとともに、信頼性の高い立体構造情報を得ることができる。
【０３２７】
さらに、入力ファイルにリガンド情報を付け加えることで、アミノ酸配列を利用したホモロジー（参照タンパク質と目的タンパク質とのホモロジーを含む）とこれに結合するリガンドとの関係が解析しやすくなるため、ゲノム配列解析、ＤＮＡチップを用いた発現プロファイリング解析、プロテオーム解析などで興味深い遺伝子・タンパク質が見つかった場合に、そのタンパク質の立体構造を基準とした機能予測を行うことも従来法よりも効率的になる。
【０３２８】
また、タンパク質の機能部位を従来法に比べて精度よく予測するので、より効率的・効果的に新規医薬品を設計するための情報を取得できる。
【０３２９】
［実施例］
以下に、本発明のタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を用いた具体的なタンパク質の構造予測の例について、詳細に説明する。
【０３３０】
［Ｂａｔｉｍａｓｔａｔが結合した状態のマトリックスメタロプロアーゼ−１２のモデリング例］
まず、Ｂａｔｉｍａｓｔａｔが結合した状態のマトリックスメタロプロアーゼ−１２のモデリング例の処理の詳細について図５〜図１０を参照して説明する。マトリックスメタロプロテアーゼ（以下ＭＭＰと略す）には、多くのファミリーが存在し、立体構造も多く解析されている。そのうち、ＭＭＰ−１２はＢａｔｉｍａｓｔａｔと呼ばれる薬剤と結合し、その立体構造が知られている。ここで、Ｂａｔｉｍａｓｔａｔが結合した状態でのＭＭＰ−１２の立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造構築した。作成された立体構造は、既存立体構造さらには従来法（ＦＡＭＳ）で作成した構造と比較した。
【０３３１】
ＭＭＰ−１２のアミノ酸１次配列は、Ｓｗｉｓｓ−Ｐｒｏｔより取得した（エントリ名ＭＭ１２＿ＨＵＭＡＮ，アクセッション番号Ｐ３９９００）。
【０３３２】
ここで、図５は、ＨＵＭＡＮ由来のＭＭＰ−１２の全アミノ酸配列を示す図である（配列表の配列番号１参照。）。図５に示すとおり４７０残基で下線部分１０６〜２６３番目の１５８残基がＢａｔｉｍａｓｔａｔが結合した状態でのＭＭＰ−１２の立体構造が解析されている（ＰＤＢＩＤ：１ＪＫ３、Ｌａｎｇ，Ｒ．，Ｋｏｃｏｕｒｅｋ，Ａ．，Ｂｒａｕｎ，Ｍ．，Ｔｓｃｈｅｓｃｈｅ，Ｈ．，Ｈｕｂｅｒ，Ｒ．，Ｂｏｄｅ，Ｗ．，Ｍａｓｋｏｓ，Ｋ．：ＳｕｂｓｔｒａｔｅＳｐｅｃｉｆｉｃｉｔｙＤｅｔｅｒｍｉｎａｎｔｓｏｆＨｕｍａｎＭａｃｒｏｐｈａｇｅＥｌａｓｔａｓｅ（Ｍｍｐ−１２）Ｂａｓｅｄｏｎｔｈｅ１．１ＡＣｒｙｓｔａｌＳｔｒｕｃｔｕｒｅＪ．Ｍｏｌ．Ｂｉｏｌ．３１２ｐｐ．７３１（２００１））。
【０３３３】
そこで、この１５８残基をクエリーとして、２００１年１１月時点のＰＩＲをモチーフプロファイルとし、ＰＤＢのタンパク質アミノ酸配列データベース（２００２年４月時点）の３９０１２配列に対してＰＳＩ−ＢＬＡＳＴ検索を行った。Ｅ−ｖａｌｕｅが０．００１以下の条件で実施した結果、１０２個の相同配列とのアライメントを取得した。この中でＭＭＰファミリーでリガンドにＢｒｉｍａｓｔａｔが含まれている１ＭＭＢ（ＰＤＢＩＤ）を参照タンパク質として選択しているアライメントを選択し、１ＭＭＢの座標中のＢａｔｉｍａｓｔａｔをリガンド座標として採用した。ホモロジーは５３％であった。
【０３３４】
ここで、図６は、クエリー配列と参照タンパク質（１ＭＭＢ）とのアライメントの表示例を示す図である（配列表の配列番号２および配列番号３参照。）。このアライメントを入力ファイル形式でリガンドの存在を示すＺを加え、図７のような入力ファイル形式にする。
【０３３５】
ここで、図７は、入力ファイル形式の一例を示す図である（配列表の配列番号４および配列番号５参照。）。
【０３３６】
また、図７の「Ｚ」が示すところのリガンド座標（Ｂｒｉｍａｓｔａｔ）は以下のとおりである。

【０３３７】
そして、モデリングを行った結果作成したモデルをグラフィックで表示する。
ここで、図８は、Ｂａｔｉｍａｓｔａｔ（ＢａｌｌａｎｄＳｔｉｃｋ）が結合した状態でのＭＭＰ−１２の立体構造モデルの一例を示す図である。
【０３３８】
そして、作成したモデルをＸ線結晶構造（ＰＤＢＩＤ：１ＪＫ３）と重ねあわせ、Ｂａｔｉｍａｓｔａｔが結合している部分付近をグラフィックで表示する。ここで、図９は、Ｂａｔｉｍａｓｔａｔ（ＢａｌｌａｎｄＳｔｉｃｋ）が結合した状態でのＭＭＰ−１２の立体構造を比較の一例を示す図である。図９においてｇｒｅｙで示した部分が目的タンパク質であり、ｄａｒｋｇｒｅｙで示した部分が１ＪＫ３である。
【０３３９】
次に、図７のアライメントを用いて、従来法（ＦＡＭＳ）でモデリングを行い、図９と同様にＸ線結晶構造（ＰＤＢＩＤ：１ＪＫ３）と重ねあわせた。ここで、従来法および本発明法でのモデルとＸ線結晶構造（１ＪＫ３）とのＢａｔｉｍａｓｔａｔが結合している部分の根平均二乗変位（ＲＳＭＤ）を計算し、比較を行った。ＲＳＭＤ値は小さいほど、１ＪＫ３との誤差が少ないことを示している。
【０３４０】
ここで、図１０は、ＭＭＰ−１２のＢｔｉｍａｓｔａｔ結合部分におけるＸ線構造解析立体構造（１ＪＫ３）と、従来法および拡張型法での立体構造モデルとのＲＳＭＤの比較結果（単位；Å）の一覧を示す図である。
【０３４１】
図１０に示すように、本発明によると、従来法に比べて、リガンドを加えることにより、モデル中でリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができたことがわかる。
【０３４２】
［ＤＮＡが結合した状態でのＴＡＴＡ−Ｂｏｘ−ＢｉｎｄｉｎｇＰｒｏｔｅｉｎのモデリング例］
次に、ＤＮＡが結合した状態でのＴＡＴＡ−Ｂｏｘ−ＢｉｎｄｉｎｇＰｒｏｔｅｉｎのモデリング例の処理の詳細について図１１〜図１６を参照して説明する。ＤＮＡの転写にはＲＮＡポリメラーゼの他に一群の普遍的転写因子が必要である。これらの因子のいくつかは転写開始の前段階においてプロモーター部位のＤＮＡ上で複合体を形成し、ＲＮＡポリメラーゼを引き寄せる。この複合体はＴＦＩＩＢとＴＡＴＡ−ｂｏｘ結合タンパク質（ＴＡＴＡ−ｂｏｘｂｉｎｄｉｎｇｐｒｏｔｅｉｎ；ＴＢＰ）およびＴＡＴＡ−ＤＮＡから構成されている。
【０３４３】
ＤＮＡが結合した状態でのＴＢＰとの複合体はいくつか構造解析されているが、このうちＮｉｋｏｌｏｖらの報告したＴＢＰとＤＮＡ断片との複合体（Ｎｉｋｏｌｏｖ，Ｄ．Ｂ．，Ｃｈｅｎ，Ｈ．，Ｈａｌａｙ，Ｅ．Ｄ．，Ｈｏｆｆｍａｎ，Ａ．，Ｒｏｅｄｅｒ，Ｒ．Ｇ．，Ｂｕｒｌｅｙ，Ｓ．Ｋ．：ＣｒｙｓｔａｌｓｔｒｕｃｔｕｒｅｏｆａｈｕｍａｎＴＡＴＡｂｏｘ−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎ／ＴＡＴＡｅｌｅｍｅｎｔｃｏｍｐｌｅｘ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ９３ｐｐ．４８６２（１９９６））に関して立体構造が未知であると仮定し、発明実施の形態で詳述した方法に従って立体構造を構築した。
【０３４４】
ＴＢＰのアミノ酸１次配列は、Ｓｗｉｓｓ−Ｐｒｏｔより取得した（エントリ名ＴＦ２Ｄ＿ＨＵＭＡＮ，アクセッション番号Ｐ２０２２６）。ここで、図１１は、ＨＵＭＡＮ由来のＴＢＰの全アミノ酸配列を示す図である（配列表の配列番号６参照。）。図１１に示すとおり３３９残基で下線部分１５５〜３３３番目の１７８残基がＤＮＡ断片が結合した状態でのＴＢＰの立体構造が解析されている（ＰＤＢＩＤ：１ＣＤＷ）。
【０３４５】
そこで、この１７８残基をクエリーとして、２００１年１１月時点のＰＩＲをモチーフプロファイルとし、ＰＤＢのタンパク質アミノ酸配列データベース（２００２年４月時点）のうち転写因子関連を集めた５４４配列に対してＰＳＩ−ＢＬＡＳＴ検索を行った。Ｅ−ｖａｌｕｅが０．００１以下の条件で実施した結果、１４個の相同配列とのアライメントを取得した。この中で参照タンパク質座標中にＤＮＡ断片がが含まれている１Ｄ３Ｕ（ＰＤＢＩＤ）のアライメントを選択した。さらに１Ｄ３Ｕの座標中のＤＮＡ断片をリガンド座標として採用した。ホモロジーは３８％であった。
【０３４６】
ここで、図１２は、クエリー配列と参照タンパク質（１Ｄ３Ｕ）とのアライメントの一例を示す図である（配列表の配列番号７および配列番号８参照。）。
【０３４７】
そして、上記アライメントを入力ファイル形式でリガンドの存在を示すＺを加え、図１３の様にする。ここで、図１３は、入力ファイル形式の一例を示す図である（配列表の配列番号９および配列番号１０参照。）。
【０３４８】
図１３において、「Ｚ」が示すところのリガンド座標（ＤＮＡ断片）は以下のとおりである。

【０３４９】
そして、モデリングを行った結果作成したモデルを以下にグラフィックで表示する。ここで、図１４は、ＤＮＡ断片（ｇｒｅｙａｒｒｏｗ）が結合した状態でのＴＢＰ（ｄａｒｋｇｒａｙ）の立体構造モデルの一例を示す図である。
【０３５０】
そして、作成したモデルをＸ線結晶構造（ＰＤＢＩＤ：１ＣＤＷ）と重ねあわせ、ＤＮＡが結合している部分付近をグラフィックで表示する。ここで、図１５は、ＤＮＡ断片（ｂｒａｃｋａｒｒｏｗ）が結合した状態でのＴＢＰの立体構造の比較の一例を示す図である。図１５において、ｇｒｅｙ部分が目的タンパク質を示し、ｄａｒｋｇｒｅｙ部分が１ＣＤＷを示している。
【０３５１】
そして、図１３のアライメントを用いて、従来法（ＦＡＭＳ）でモデリングを行い、図１５と同様にＸ線結晶構造（ＰＤＢＩＤ：１ＣＤＷ）と重ねあわせた。ここで、従来法および本発明法でのモデルとＸ線結晶構造（１ＣＤＷ）とのＤＮＡ断片が結合している部分の根平均二乗変位（ＲＳＭＤ）を計算し、比較を行った。ＲＳＭＤ値は小さいほど、１ＣＤＷとの誤差が少ないことを示している。
【０３５２】
ここで、図１６は、ＴＢＰのＤＮＡ断片結合部分におけるＸ線構造解析立体構造（１ＣＤＷ）と従来法および拡張型法での立体構造モデルとのＲＳＭＤの比較結果（単位；Å）の一覧を示す図である。
【０３５３】
このように、本発明は、従来手法と比較して、ＤＮＡといった物質もリガンドとして加えることで複合体の立体構造を構築することができ、モデル中ではリガンド結合部分が明確にわかり、かつ結合部分に関しては立体構造を精度よくモデリングすることができることがわかる。
【０３５４】
［インフルエンザウィルス（ヘマグルチニン）の立体構造構築］
次に、インフルエンザウィルス（ヘマグルチニン）の立体構造構築処理の詳細について図１７〜図２３を参照して説明する。インフルエンザは、インフルエンザウイルスにより引き起こされる病気である。インフルエンザウイルスは極めて変異しやすいために、その連続進化過程において動物や、時としてヒトに世界的大流行を引き起こす。インフルエンザウイルスにはＡ、ＢおよびＣ型があり、これらはいずれもシアル酸およびその誘導体を含む糖鎖をレセプターとして認識している。
【０３５５】
インフルエンザウイルス膜には２種のスパイク（ウイルスの細胞膜外表面に突き出ている）糖タンパク質が存在する。うち一つはヘマグルチニン（ｈｅｍａｇｇｌｕｔｉｎｉｎ：ＨＡ）であり、ウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する上で必須であり、ウイルス感染を進める役目をしている。現在までに報告されているインフルエンザウイルスのヘマグルチニンには１５種類あり、ヒトではＨ１，Ｈ２，Ｈ３，Ｈ５の４種類が確認されている。また、ウマではＨ３，Ｈ７、アザラシでは、Ｈ４，Ｈ７、トリでは１５種類すべてのヘマグルチニンが確認されている。
【０３５６】
ヘマグルチニンに立体構造はいくつか知られているが、このうちの一つで、Ｄ．Ｃ．Ｗｉｌｅｙらの報告したトリのＨ５およびブタのＨ９のヘマグルチニンとシアル酸およびその誘導体を含む糖鎖レセプターの類似化合物との複合体の立体構造はヘマグルチニンと糖鎖レセプターとの結合様式解明に示唆を与えた（Ｐｒｏｃ．Ｎａｔ．Ａｃａｄ．Ｓｃｉ．ＵＳＡ９８ｐｐ．１１１８１（２００１））。ＰＤＢには４種類の蛋白質立体構造（１ＪＳＨ、１ＪＳＩ、１ＪＳＮ、１ＪＳＯ）として登録されている。
【０３５７】
本実施例では、１ＪＳＨを用いて、タンパク質アミノ酸配列データベースから構造、機能にほぼ同一と考えられるタンパク質を選択し、糖鎖レセプターの類似化合物との複合体の立体構造を構築した。
【０３５８】
１ＪＳＨには、ＨＡ１、ＨＡ２の２つのポリペプチド鎖と、５つの糖類、さらに糖鎖レセプターの類似化合物が含まれている。
【０３５９】
１ＪＳＨのＨＡ１のアミノ酸配列は３１７残基であり、図１７の通りである。ここで、図１７は、１ＪＳＨのＨＡ１のアミノ酸配列を示す図である（配列表の配列番号１１参照。）。
【０３６０】
この３１７残基の配列をクエリーとして、２００２年５月時点のＰＩＲをモチーフプロファイルとし、ＳｗｉｓｓＰｒｏｔ，ＴＲＥＭＢＬ，等のタンパク質アミノ酸配列データベース（いずれも２００２年７月時点）の３８２３６１配列に対してＰＳＩ−ＢＬＡＳＴ検索を行った。Ｅ−ｖａｌｕｅが０．０１以下の条件で実施した結果、５００個の相同配列とのアライメントを取得した。ＰＳＩ−ＢＬＡＳＴにおいては、Ｅ−Ｖａｌｕｅが統計的に通常０．１以下、好ましくは０．０１以下の値をもつときは、目的タンパク質は参照タンパク質のようなある機能をもったタンパク質ファミリーであるとして立体構造を作成するように判断するのが適当である。
【０３６１】
１ＪＳＨのＨＡ２のアミノ酸配列は１６０残基であり、図１８の通りである。ここで、図１８は、１ＪＳＨのＨＡ２のアミノ酸配列を示す図である（配列表の配列番号１２参照。）。
【０３６２】
この１６０残基の配列をクエリーとして、２００２年５月時点のＰＩＲをモチーフプロファイルとし、ＳｗｉｓｓＰｒｏｔ，ＴＲＥＭＢＬ，等のタンパク質アミノ酸配列データベース（いずれも２００２年７月時点）の３８２３６１配列に対してＰＳＩ−ＢＬＡＳＴ検索を行った。Ｅ−ｖａｌｕｅが０．０１以下の条件で実施した結果、１３個の相同配列とのアライメントを取得した。
【０３６３】
こうして選択した相同配列とアライメントに対して、一例としてＨＡ１をクエリーとしたアライメントからはＴＲＥＭＢＬデータベース中のＩＤ「Ｑ９Ｑ０Ｉ０」を選択し、ＨＡ２をクエリーとしたアライメントからはＧｅｎＰｅＰｔＰｒｏｔｅｉｎデータベース中のＩＤ「ＣＡＡ２４２９１ｘ１」を選択し、さらに１ＪＳＨ中の５つの糖と糖鎖レセプターの類似化合物をリガンドとしてモデリングを行った。アライメントは図１９および図２０に示す通りである。ここで、図１９は、クエリー配列（ＨＡ１）と目的タンパク質とのアライメントの一例を示す図であり（配列表の配列番号１３および配列番号１４参照。）、また、図２０は、クエリー配列（ＨＡ２）と目的タンパク質とのアライメントの一例を示す図である（配列表の配列番号１５および配列番号１６参照。）。
【０３６４】
上記アライメントを入力ファイル形式でタンパク鎖の終端を示す「Ｕ」とリガンドの存在を示す「Ｚ」を加え、図２１のような入力ファイル形式にする。ここで、図２１は、入力ファイル形式の一例を示す図である。図２１の「ｑ９ｐ０」のアミノ酸配列が目的タンパク質名を表す。
【０３６５】
また、図２１において、「Ｚ」が示すところのリガンド座標（５つの糖および糖鎖レセプターの類似化合物）は以下のとおりである。

【０３６６】
そして、モデリングを行った結果作成したモデルをグラフィック表示する。ここで、図２２は、「Ｑ９Ｑ０Ｉ０」（ｇｒｅｙ）／「ＣＡＡ２４２９１ｘ１」（ｄａｒｋｇｒｅｙ）／糖、糖レセプター類似化合物（ｂａｌｌａｎｄｓｔｉｃｋ）複合体のモデルの一例を示す図である。
【０３６７】
さらに、機能解析に重要な「Ｑ９Ｑ０Ｉ０」と糖鎖レセプター類似化合物との結合部分の拡大図を図２３に示す。ここで、図２３は、「Ｑ９Ｑ０Ｉ０」（ｇｒｅｙ）と糖鎖レセプター類似化合物（ｂｌａｃｋ）との結合部分の拡大図の一例を示す図である。
【０３６８】
このように、目的タンパク質が複合体を形成している場合においても、タンパク質鎖の分かれ目を表す「Ｕ」とリガンド「Ｚ」を用いることで、ファンデルワールス衝突を考慮した立体構造を作成することができる。さらに、本実施例で用いたヘマグルチニンと糖鎖レセプターの類似化合物との複合体の立体構造モデルを用いることにより、結合部分の相互作用様式がより明解となり、インフルエンザウイルスが宿主細胞膜上のガングリオシドやシアル酸含有糖タンパク質受容体へ結合する機構の解明や医薬品設計に重要な情報を得ることができる。
【０３６９】
［代謝型グルタミン酸レセプターファミリーのモデリング例］
次に、代謝型グルタミン酸レセプターファミリーのモデリングの処理の詳細について図２４〜図２７を参照して説明する。
【０３７０】
従来法による複数鎖を有するタンパク質の立体構造構築方法においては、任意のアミノ酸配列を有する複数鎖の目的タンパク質を「ＦＡＭＳ」のようなホモロジーモデリング法による単数鎖のタンパク質の立体構造構築方法に修正を加えて、複数鎖を有するタンパク質を単数鎖のタンパク質のように扱いながら立体構造を構築していく方法が挙げられる。
【０３７１】
しかしながら、この手法による複数鎖のタンパク質の立体構造構築では、アルゴリズムの制限により、例えば１残基のみのアミノ酸を取り扱う場合では立体構造構築の精度が下がり難しいということが経験的に分っている。そこで、本実施例では、グルタミン酸レセプターにおいて、機能的に意味のある一残基のグルタミン酸をリガンドとして扱い、グルタミン酸レセプターのダイマーにグルタミン酸（アミノ酸一残基）が結合した複合体モデルを構築し、本発明方法により従来法よりも精度が高い立体構造モデルを構築でき、本発明法が進歩性、新規性を有するということを示す。
【０３７２】
ラット由来の代謝型グルタミン酸受容体タイプＩ蛋白質（Ｍｅｔａｂｏｔｒｏｐｉｃｇｌｕｔａｍａｔｅｒｅｃｅｐｔｏｒ１）のアミノ酸１次配列は、Ｓｗｉｓｓ−Ｐｒｏｔより取得した（エントリ名ＭＧＲ１＿ＲＡＴ，アクセッション番号Ｐ２３３８５）。図２４は、ラット由来の代謝型グルタミン酸受容体タイプＩの全アミノ酸配列を示す図である（配列表の配列番号１７参照。）。
【０３７３】
これは図２４に示すとおり、全体が１１９９残基で、前半の下線で示した４７７残基中、４４８〜４５６番目の残基同士が接触部位となり２量体（ホモダイマー）となり、グルタミン酸受容体部分を形成していることが、森川らによるＸ線構造解析の結果、明らかとなっている。グルタミン酸受容体部分を形成していることが、森川らによるＸ線構造解析の結果、明らかとなっている（Ｋｕｎｉｓｈｉｍａ，Ｎ．，Ｓｈｉｍａｄａ，Ｙ．，Ｔｓｕｊｉ，Ｙ．，Ｓａｔｏ，Ｔ．，Ｙａｍａｍｏｔｏ，Ｍ．，Ｋｕｍａｓａｋａ，Ｔ．，Ｎａｋａｎｉｓｈｉ，Ｓ．，Ｊｉｎｇａｍｉ，Ｈ．，Ｍｏｒｉｋａｗａ，Ｋ．：ＳｔｒｕｃｔｕｒａｌＢａｓｉｓｏｆＧｌｕｔａｍａｔｅＲｅｃｏｇｎｉｔｉｏｎｂｙａＤｉｍｅｒｉｃＭｅｔａｂｏｔｒｏｐｉｃＧｌｕｔａｍａｔｅＲｅｃｅｐｔｏｒＮａｔｕｒｅ４０７ｐｐ．９７１（２０００））。ＰＤＢには３種類の蛋白質立体構造（１ＥＷＫ，１ＥＷＴ，１ＥＷＶ）として登録されている。
【０３７４】
うち、１ＥＷＫはリガンドとして機能的に意味のあるグルタミン酸（アミノ酸一残基）が含まれているが、４７７残基中１２５〜１５３残基部分欠損部分があり、複合体の立体構造としては不完全である。
【０３７５】
そこで、この１１９９残基をクエリーとして、２００１年１１月時点のＰＩＲをモチーフプロファイルとし、ＰＩＲ，ＳｗｉｓｓＰｒｏｔ，ＴＲＥＭＢＬ，ＴＲＥＭＢＬ＿ＮＥＷ，ＧｅｎＰｅｐｔ等のタンパク質アミノ酸配列データベース（いずれも２００１年１１月時点）の７７４８０４配列に対してＰＳＩ−ＢＬＡＳＴ検索を行った。Ｅ−ｖａｌｕｅが０．００１以下の条件で実施した結果、１４５０９個の相同配列とのアライメントを取得した。そのうちＥ−ｖａｌｕｅが０となるものが７０ある（ホモロジーは２３〜１００％）。これらは、機能的にほぼ同一と見てよい。この中で同じＲＡＴ由来のレセプターでＳｗｉｓｓＰｒｏｔ中のエントリー名「ＭＧＲ５＿ＲＡＴ」アクセッション番号「Ｐ３１４２４」のモデリングを行った。ホモロジーは６２．２％であった。
【０３７６】
ここで、図２５は、アライメントの一例を示す図である（配列表の配列番号１８および配列番号１９参照。）。図２５のアライメント中でＰＤＢの１ＥＷＫの座標が存在する部分に関して「Ｐ３１４２４」のホモダイマーとアミノ酸一残基のグルタミン酸との複合体のモデリングを行った。アライメントを修正し、入力ファイル形式は、鎖の分かれ（終端）を示す「Ｕ」と機能的に意味のあるアミノ酸一残基のグルタミン酸をリガンドとして、その存在を表す「Ｚ」を加えて、図２６に示す入力ファイルを作成した。図２６は、入力ファイル形式の一例を示す図である。
【０３７７】
図２６において、「Ｚ」が示すところのリガンド座標（グルタミン酸）は以下のとおりである。

【０３７８】
そして、モデリングを行った結果、作成したモデルを図２７に示すようにグラフィックで表示した。ここで、図２７は、「ＭＧＲ５＿ＲＡＴ」（Ａ鎖：ｇｒｅｙ、Ｂ鎖：ｄａｒｋｇｒｅｙ）のダイマー／グルタミン酸（ｂａｌｌａｎｄｓｔｉｃｋ）複合体のモデルの一例を示す図である。
【０３７９】
このように、本発明方法により、機能的に意味のあるアミノ酸一残基のグルタミン酸とグルタミン酸レセプターのダイマーとの複合体モデルを構築することができる。
【０３８０】
一方、アミノ酸一残基のグルタミン酸をタンパク質鎖として扱い、上記入力ファイル中で「Ｚ」の代わりに「ＥＵ」と置き換えモデリングを行うことを試みたが、アルゴリズム上の制限により、立体構造の構築が出来なかった。さらに、上記入力ファイル中で「Ｚ」を除いて、立体構造を構築した場合は、機能的に重要なアミノ酸一残基のグルタミン酸を含まない、「ＭＧＲ５＿ＲＡＴ」のホモダイマーのみの立体構造を構築することが出来た。
【０３８１】
以上のことから、従来法では取り扱うことが難しいと考えられる、例えば１残基からなるのアミノ酸分子をリガンドとして取り扱うことで、本発明法は、従来法よりも精度の向上した、進歩性、新規性を有する複合体モデルを構築することができることが分った。
【０３８２】
［他の実施の形態］
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。
【０３８３】
例えば、タンパク質構造予測装置１００を、アミノ酸配列データベースシステムとして構成してもよい。すなわち、このアミノ酸配列データベースシステムは、アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し（上述した実施形態のアミノ酸配列データファイル１０６ａが該当する。）、上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行う（上述した実施形態の拡張型ホモロジーモデリング部１０２ｃの処理が該当する。）。このことで、自動的な立体構造構築を可能とし、網羅的に立体構造を構築することができる。更に作成された立体構造を閲覧する際、入力ファイルのみからリガンドの性質を知ることができる、また、作成された立体構造をファイルに保存する際、例えばリガンド毎にディレクトリーを作成し、その中に立体構造を納入することで整理を行うことができるなど、立体構造の選択、移動といった作業の効率化を実現する。
【０３８４】
また、タンパク質構造予測装置１００がスタンドアローンの形態で処理を行う場合を一例に説明したが、タンパク質構造予測装置１００とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。
【０３８５】
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。
【０３８６】
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。
【０３８７】
また、タンパク質構造予測装置１００に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
【０３８８】
例えば、タンパク質構造予測装置１００の各部または各装置が備える処理機能、特に制御部１０２にて行なわれる各処理機能については、その全部または任意の一部を、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）および当該ＣＰＵにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じてタンパク質構造予測装置１００に機械的に読み取られる。
【０３８９】
すなわち、ＲＯＭまたはＨＤなどの記憶部１０６などには、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）と協働してＣＰＵに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、ＲＡＭ等にロードされることによって実行され、ＣＰＵと協働して制御部１０２を構成する。また、このコンピュータプログラムは、タンパク質構造予測装置１００に対して任意のネットワーク３００を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。
【０３９０】
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるＲＯＭ、ＲＡＭ、ＨＤ等の任意の「固定用の物理媒体」、あるいは、ＬＡＮ、ＷＡＮ、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。
【０３９１】
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。
【０３９２】
記憶部１０６に格納される各種のファイル、データベース等（アミノ酸配列データファイル１０６ａ〜リガンド座標データファイル１０６ｃ）は、ＲＡＭ、ＲＯＭ等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。
【０３９３】
また、タンパク質構造予測装置１００は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。
【０３９４】
さらに、タンパク質構造予測装置１００等の分散・統合の具体的形態は明細書および図面に示すものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる（例えば、グリッド・コンピューティングなど）。例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をＣＧＩ（ＣｏｍｍｏｎＧａｔｅｗａｙＩｎｔｅｒｆａｃｅ）を用いて実現してもよい。
【０３９５】
また、ネットワーク３００は、タンパク質構造予測装置１００と外部システム２００とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、ＬＡＮ（有線／無線の双方を含む）や、ＶＡＮや、パソコン通信網や、公衆電話網（アナログ／デジタルの双方を含む）や、専用回線網（アナログ／デジタルの双方を含む）や、ＣＡＴＶ網や、ＩＭＴ２０００方式、ＧＳＭ方式またはＰＤＣ／ＰＤＣ―Ｐ方式等の携帯回線交換網／携帯パケット交換網や、無線呼出網や、Ｂｌｕｅｔｏｏｔｈ等の局所無線網や、ＰＨＳ網や、ＣＳ、ＢＳまたはＩＳＤＢ等の衛星通信網等のうちいずれかを含んでもよい。すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。
【０３９６】
【発明の効果】
以上詳細に説明したように、本発明によれば、従来のホモロジーモデリング法の適用範囲を、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースなどを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算などを用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築するので、従来のホモロジーモデリング法（例えばＦＡＭＳなど）を用いる従来型の単数鎖を含む複数鎖モデリングでは知られておらず、また示唆もされていない手法で、新規にホモロジーモデリング手法の適応範囲を拡張し、リガンドが結合した状態での単数鎖を含む複数鎖タンパク質の立体構造を構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０３９７】
また、本発明によれば、リガンドが結合した状態での単数鎖を含む複数鎖のタンパク質の立体構造構築手法はホモロジーモデリング法に代表される経験的モデリング法以外にも非経験的モデリング法にも適応可能であるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０３９８】
また、本発明によれば、タンパク質の全立体構造の構築と最適化を同時に行い、通常は厳密に取り扱われるリガンド原子の種類を考慮せずに済むリガンドの実在を考慮することで、リガンドが結合したタンパク質のモデル構造の妥当性を向上させると同時に、平均化されたパラメータの使用によって多種多様なリガンドが結合したタンパク質のモデル構造の計算過程の単純化・効率化を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０３９９】
また、本発明によれば、従来法では取り扱うことが極めて困難であった例えばＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質と単数鎖を含む複数鎖タンパク質との複合体の立体構造を構築することが可能になるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４００】
また、本発明によれば、従来法でのタンパク質立体構造の構築方法の適応範囲を大幅に拡大するとともに、農薬、医薬品といった分子設計、タンパク質の機能解析を行う上で大変重要な情報である当該アミノ酸配列が生体内で機能するために関与する全て物質を含んだ状態での完全な複合体の立体構造構築が可能となるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０１】
また、本発明によれば、全立体構造作成時にタンパク質の動的な性質をホモロジーモデリング法のアルゴリズムに取り込むことで、特に例えば農薬、医薬品を代表とする、さらには金属、ホルモンといったタンパク質の機能に大変重要であるリガンドとタンパク質との相互作用解析において精度の高い全立体構造を提供することを実現するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０２】
また、本発明によれば、拡張型ホモロジーモデリングの手法を用いる際に、参照タンパク質が例えばリガンドの有無で分けた立体構造データベースから検索され、目的タンパク質構築の際には、例えばＣαからなる部分構造や主鎖やＣβからなる部分構造は、リガンドの有無により分けた立体構造データベースをから検索されるので、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０３】
また、本発明によれば、参照タンパク質の立体構造データベースをリガンドの有無などにより複数用意して使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成することを実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０４】
また、本発明によれば、参照タンパク質の立体構造の基準振動計算後、該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用することにより、ホモロジーモデリングによって作成されるタンパク質のモデルの特にリガンド結合部位の構造の精度を向上させることができるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０５】
また、本発明によれば、基準振動計算後に該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から該タンパク質の固有の振動方向に変化させた座標はデータベースとして保存され、参照タンパク質のコード番号を基に検索することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０６】
また、本発明によれば、こうした参照タンパク質の立体構造データベースを複数用意し、使用することは従来法では行っておらず、例えばリガンドの有無によるタンパク質の立体構造の変化をよく反映し、精度よく立体構造を作成する等を実現することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０７】
また、本発明によれば、参照タンパク質の原子の位置のエネルギーの指標となる目的関数を用いての最適化の際に、タンパク質の動的な性質を反映したパラメータとして、タンパク質の動的挙動を該参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、もしくはその代用として参照タンパク質の二次構造判定結果から得られるαへリックスやβシートの立体構造のゆらぎにくさのデータをその目的関数に取り込んでリガンドが結合したタンパク質のモデル作成に使用するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０８】
また、本発明によれば、拡張型ホモロジーモデリングの手法において、加えるリガンドの立体構造座標の入力形式を、プログラム起動時にリガンド座標のファイル名の指定することに工夫を加えて、参照タンパク質と目的タンパク質との配列アライメントの書式中に、一つのタンパク質鎖の配列の終了を意味する文字などの「終止記号」を付加し、リガンドの結合するタンパク質の配列の後に、加えるリガンドの存在を示す文字などの「リガンド存在記号」を付加して配列を修正するタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４０９】
また、本発明によれば、複数の特別文字をリガンドの結合したタンパク質の終止記号「Ｕ」の後に書きいれることで、複数のタンパク鎖からなるタンパク質の配列の切れ目とリガンドの存在を示し、単鎖を含めた複数鎖からなるタンパク質や実験的に決定できるタンパク質領域を含む見かけ上複数鎖を含めた全てのタンパク質の全立体構造構築を全自動で行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１０】
また、本発明によれば、このように入力ファイルに工夫を加えることで、入力ファイルを操作することのみでリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築が可能となり、例えば大量のアミノ酸配列に対して、リガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造構築を行う場合、当該入力ファイルを使用したプログラムを別途作成することで自動的処理を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１１】
さらに、本発明によれば、作成したリガンドが結合した状態の単鎖を含む複数鎖タンパク質の立体構造に関して、例えばリガンドの有無やリガンドの種類ごとにディレクトリーを区別し整理、検索を行う場合などに、入力ファイルを用いたプログラムを作成することで処理することができ、大量のタンパク質の立体構造処理を自動的にかつ効率的に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１２】
さらに、本発明によれば、一つのタンパク質の配列の終了を意味するＵや加えるリガンドの存在の数を示す文字（一つのタンパク質の配列の終了を意味するＵの後のアラビア数字又はアラビア数字の数のＺ）はアミノ酸を表す１文字コード以外は別の文字を利用することできるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１３】
さらに、本発明によれば、リガンドの原子種類に依存しない単純で取り扱い易い平均化されたパラメータを使用したモデルタンパク質とリガンドとの相互作用関数がこの計算式からなり、立体構造構築における全てのプロセスでリガンドとの相互作用エネルギーの指標Ｕ_{ｌｉｇａｎｄ}の当該計算が行われるようになるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１４】
さらに、本発明によれば、リガンドと目的タンパク質との相互作用を反映させてリガンドが結合した状態での単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１５】
さらに、本発明によれば、動的性質パラメータを使用し、タンパク質の立体構造の動的な性質を適切に反映させて単鎖を含む複数鎖タンパク質の立体構造構築を行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１６】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標が、参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、さらには既存のリガンドデータベースから検索したリガンド座標の少なくとも一つを用いることにより、使用するリガンドの種類や数を限定せず、蛋白質、ペプチド、ＤＮＡ、薬剤成分、金属、イオン、糖類、核酸成分、ホルモンを含む全ての物質を当該リガンドと見なして、広範囲のリガンドつきのたんぱく質の全立体構造を同時に、単純化した計算過程の効率的な計算方法を利用して構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１７】
さらに、本発明によれば、入力ファイルのリガンドの立体構造座標として機能既知の参照タンパク質のＰＤＢの中のリガンド座標をそのまま使用することにより、タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする目的タンパク質が、機能既知の該リガンドと相互作用すると判断することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１８】
さらに、本発明によれば、入力ファイルとして使用するリガンド座標を選択する際に、数多くのリガンドの立体構造座標が含まれるデータベースからリガンドを選択し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の該タンパク質と該リガンドが相互作用すると判断することにより、リガンドの機能推定をタンパク質の構築と同時に行うことができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４１９】
さらに、本発明によれば、入力ファイルとして新規なアミノ酸配列およびリガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、該タンパク質と該リガンドが相互作用し、それらタンパク質とリガンドとの両方が共通な機能を有すると判断する、新規な分子の設計方法を提供することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４２０】
さらに、本発明によれば、リガンドを別のタンパク質とみなすことにより、当該別のタンパク質を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、目的タンパク質と別のタンパク質との相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築することができるタンパク質構造予測装置、タンパク質構造予測方法、プログラム、および、記録媒体を提供することができる。
【０４２１】
さらに、本発明によれば、任意のアミノ酸配列が与えられた場合において、従来のホモロジーモデリング法の適用範囲を、入力ファイルにリガンドの立体構造座標を単鎖を含む複数鎖タンパク質の立体構造の構築の際に使われるタンパク質のアミノ酸の入力ファイルにさらに終端記号とリガンドを表す文字記号を加え、立体構造の構築過程でタンパク質とリガンドとの相互作用計算を行いながら、側鎖に対しては実験構造を参考にしたデータベースを用いて、又、主鎖には側鎖と同様なデータベースとシュミレーティッドアニーリングのような分子動力学計算を用いて、タンパク質の立体構造が構築できるようにすることで拡張し、全自動または手動的にリガンドが、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態でのタンパク質の全立体構造を同時に構築することができるアミノ酸配列データベースシステムを提供することができる。
【０４２２】
【配列表】

【図面の簡単な説明】
【図１】本発明による複数鎖から成るタンパク質の立体構造構築法の一例を示すフローチャートである。
【図２】本発明が適用される本システムの構成の一例を示すブロック図である。
【図３】拡張型ホモロジーモデリング部１０２ｃの構成の一例を示すブロック図である。
【図４】目的関数調整部１０２ｈの構成の一例を示すブロック図である。
【図５】ＨＵＭＡＮ由来のＭＭＰ−１２の全アミノ酸配列を示す図である。
【図６】クエリー配列と参照タンパク質（１ＭＭＢ）とのアライメントの表示例を示す図である。
【図７】入力ファイル形式の一例を示す図である。
【図８】Ｂａｔｉｍａｓｔａｔ（ＢａｌｌａｎｄＳｔｉｃｋ）が結合した状態でのＭＭＰ−１２の立体構造モデルの一例を示す図である。
【図９】Ｂａｔｉｍａｓｔａｔ（ＢａｌｌａｎｄＳｔｉｃｋ）が結合した状態でのＭＭＰ−１２の立体構造を比較の一例を示す図である。
【図１０】ＭＭＰ−１２のＢｔｉｍａｓｔａｔ結合部分におけるＸ線構造解析立体構造（１ＪＫ３）と、従来法および拡張型法での立体構造モデルとのＲＳＭＤの比較結果（単位；Å）の一覧を示す図である。
【図１１】ＨＵＭＡＮ由来のＴＢＰの全アミノ酸配列を示す図である。
【図１２】クエリー配列と参照タンパク質（１Ｄ３Ｕ）とのアライメントの一例を示す図である。
【図１３】入力ファイル形式の一例を示す図である。
【図１４】ＤＮＡ断片（ｇｒｅｙａｒｒｏｗ）が結合した状態でのＴＢＰ（ｄａｒｋｇｒａｙ）の立体構造モデルの一例を示す図である。
【図１５】ＤＮＡ断片（ｂｒａｃｋａｒｒｏｗ）が結合した状態でのＴＢＰの立体構造の比較の一例を示す図である。
【図１６】ＴＢＰのＤＮＡ断片結合部分におけるＸ線構造解析立体構造（１ＣＤＷ）と従来法および拡張型法での立体構造モデルとのＲＳＭＤの比較結果（単位；Å）の一覧を示す図である。
【図１７】１ＪＳＨのＨＡ１のアミノ酸配列を示す図である。
【図１８】１ＪＳＨのＨＡ２のアミノ酸配列を示す図である。
【図１９】クエリー配列（ＨＡ１）と目的タンパク質とのアライメントの一例を示す図である。
【図２０】クエリー配列（ＨＡ２）と目的タンパク質とのアライメントの一例を示す図である。
【図２１】入力ファイル形式の一例を示す図である。
【図２２】「Ｑ９Ｑ０Ｉ０」（ｇｒｅｙ）／「ＣＡＡ２４２９１ｘ１」（ｄａｒｋｇｒｅｙ）／糖、糖レセプター類似化合物（ｂａｌｌａｎｄｓｔｉｃｋ）複合体のモデルの一例を示す図である。
【図２３】「Ｑ９Ｑ０Ｉ０」（ｇｒｅｙ）と糖鎖レセプター類似化合物（ｂｌａｃｋ）との結合部分の拡大図の一例を示す図である。
【図２４】ラット由来の代謝型グルタミン酸受容体タイプＩの全アミノ酸配列を示す図である。
【図２５】アライメントの一例を示す図である。
【図２６】入力ファイル形式の一例を示す図である。
【図２７】「ＭＧＲ５＿ＲＡＴ」（Ａ鎖：ｇｒｅｙ、Ｂ鎖：ｄａｒｋｇｒｅｙ）のダイマー／グルタミン酸（ｂａｌｌａｎｄｓｔｉｃｋ）複合体のモデルの一例を示す図である。
【符号の説明】
１００タンパク質構造予測装置
１０２制御部
１０２ａ目的アミノ酸配列取得部
１０２ｂリガンド座標取得部
１０２ｃ拡張型ホモロジーモデリング部
１０２ｄ配列修正部
１０２ｅ第１機能推定部
１０２ｆ第２機能推定部
１０２ｇ第３機能推定部
１０２ｈ目的関数調整部
１０２ｉ参照タンパク質検索部
１０２ｊ参照タンパク質構造変更部
１０２ｋ相互作用関数計算部
１０２ｍ最適化部
１０４通信制御インターフェース部
１０６記憶部
１０６ａアミノ酸配列データファイル
１０６ｂタンパク質構造データファイル
１０６ｃリガンド座標データファイル
１０８入出力制御インターフェース部
１１２入力装置
１１４出力装置
２００外部システム
３００ネットワーク

Claims

構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得手段と、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得手段と、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリング手段と、
を備えたことを特徴とするタンパク質構造予測装置。
上記拡張型ホモロジーモデリング手段は、
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および／または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整手段、
を備えたことを特徴とする請求項１に記載のタンパク質構造予測装置。
上記拡張型ホモロジーモデリング手段は、
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索手段、
をさらに備えたことを特徴とする請求項１に記載のタンパク質構造予測装置。
上記拡張型ホモロジーモデリング手段は、
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更手段、
をさらに備えたことを特徴とする請求項３に記載のタンパク質構造予測装置。
上記動的性質パラメータは、
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および／または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項２から４のいずれか一つに記載のタンパク質構造予測装置。
上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加する配列修正手段、
をさらに備えたことを特徴とする請求項１から５のいずれか一つに記載のタンパク質構造予測装置。
上記拡張型ホモロジーモデリング手段は、
上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算手段、

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化パラメータ
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離
をさらに備えたことを特徴とする請求項２から６のいずれか一つに記載のタンパク質構造予測装置。
上記目的関数調整部は、
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いて行う最適化手段、
をさらに備えたことを特徴とする請求項２から７のいずれか一つに記載のタンパク質構造予測装置。
上記リガンド座標取得手段は、
上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および／または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項１から８のいずれか一つに記載のタンパク質構造予測装置。
上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第１機能推定手段、
をさらに備えたことを特徴とする請求項１から９のいずれか一つに記載のタンパク質構造予測装置。
上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第２機能推定手段、
をさらに備えたことを特徴とする請求項１から１０のいずれか一つに記載のタンパク質構造予測装置。
新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第３機能推定手段、
をさらに備えたことを特徴とする請求項１から１１のいずれか一つに記載のタンパク質構造予測装置。
上記リガンドが上記目的タンパク質以外のタンパク質であること、
を特徴とする請求項１から１２のいずれか一つに記載のタンパク質構造予測装置。
構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むタンパク質構造予測方法をコンピュータに実行させることを特徴とするプログラム。
上記拡張型ホモロジーモデリングステップは、
上記目的タンパク質の立体構造の構築の際に全体エネルギーの指標となる目的関数として、上記リガンドの原子種類に依存しない平均化パラメータを使用して計算された相互作用関数、および／または、上記目的タンパク質の動的な性質を反映した動的性質パラメータを使用して、ホモロジーモデリング時に参照する上記参照タンパク質の原子の位置に拘束するエネルギーの指標となる目的関数を調整する目的関数調整ステップ、
を含むことを特徴とする請求項１４に記載のプログラム。
上記拡張型ホモロジーモデリングステップは、
上記リガントと複合体を形成している状態の立体構造データを持つタンパク質の立体構造データベースから参照タンパク質を検索する参照タンパク質検索ステップ、
をさらに含むことを特徴とする請求項１４に記載のプログラム。
上記拡張型ホモロジーモデリングステップは、
上記参照タンパク質の立体構造について基準振動計算を行った後、当該参照タンパク質の立体構造をポテンシャルエネルギーが極小の状態から当該タンパク質の固有の振動方向に変化させた座標を新しい参照タンパク質の立体構造として使用する参照タンパク質構造変更ステップ、
をさらに含むことを特徴とする請求項１６に記載のプログラム。
上記動的性質パラメータは、
上記目的タンパク質の動的挙動を上記参照タンパク質の基準振動解析の計算から得られる常温付近のゆらぎのデータ、および／または、上記参照タンパク質の二次構造判定結果から得られる各二次構造のゆらぎにくさのデータであること、
を特徴とする請求項１５から１７のいずれか一つに記載のプログラム。
上記目的アミノ酸配列および上記参照アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加する配列修正ステップ、
をさらに含むことを特徴とする請求項１４から１８のいずれか一つに記載のプログラム。
上記拡張型ホモロジーモデリングステップは、
上記平均化パラメータを使用した上記目的タンパク質と上記リガンドとの上記相互作用関数を以下の計算式により計算する相互作用関数計算ステップ、

Ｕ_{ｌｉｇａｎｄ}はリガンドとタンパク質の相互作用関数
Ｋ_{ｌｉｇａｎｄ} 、ε^＊、ｒ^＊はリガンドの原子種類に依存しない平均化パラメータ
ｒ_ｉ，ｊはｉ番目のリガンド原子とｊ番目のタンパク質原子間の距離
をさらに備えたことを特徴とする請求項１５から１９のいずれか一つに記載のプログラム。
上記目的関数調整部は、
上記参照タンパク質の原子の位置に拘束するエネルギー指標の目的関数（Ｕ_ｐｏｓ）に対して、タンパク質立体構造の最適化を行う際に、上記目的タンパク質の原子の位置をエネルギー的に安定な点をめざしてランダムに移動するためにモンテカルロ法を採用し、タンパク質の原子位置に関する関数の比例定数（Ｋ_ｐｏｓ）、および、上記参照タンパク質の位置からモンテカルロ法におけるモデルタンパク質の原子位置の微小の移動に対応する摂動の大きさ（ΔＹｉ）に、タンパク質のゆらぎにあたるやわらかさを指標としたパラメータに依存した定数（Ｔｉ）を用いて行う最適化ステップ、
をさらに含むことを特徴とする請求項１５から２０のいずれか一つに記載のプログラム。
上記リガンド座標取得ステップは、
上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標、分子力学法または分子動力学法を用いて作成されたリガンド座標、および／または、既存のリガンドデータベースから検索したリガンド座標から当該リガンドの立体構造座標を取得すること、
を特徴とする請求項１４から２１のいずれか一つに記載のプログラム。
上記参照タンパク質のプロテイン・データ・バンク（ＰＤＢ）の中に含まれるリガンド座標から当該リガンドの立体構造座標を取得した場合に、上記目的タンパク質モデル構造として妥当な全立体構造が構築された場合、入力ファイルのアミノ酸配列を構成要素とする上記目的タンパク質が、機能既知の該リガンドと相互作用すると判断する第１機能推定ステップ、
をさらに含むことを特徴とする請求項１４から２２のいずれか一つに記載のプログラム。
上記リガンド座標を選択する際に、数多くの上記リガンドの立体構造座標が含まれるデータベースから上記リガンドを選択し、上記タンパク質のモデル構造として妥当な全立体構造が構築された場合、機能既知の当該タンパク質と当該リガンドとが相互作用すると判断する第２機能推定ステップ、
をさらに含むことを特徴とする請求項１４から２３のいずれか一つに記載のプログラム。
新規な上記アミノ酸配列および上記リガンド座標、もしくはどちらか一方が新規であるものを使用し、タンパク質のモデル構造として妥当な全立体構造が構築された場合、当該タンパク質と当該リガンドが相互作用し、当該タンパク質と当該リガンドの両方が共通な機能を有すると判断する第３機能推定ステップ、
をさらに含むことを特徴とする請求項１４から２４のいずれか一つに記載のプログラム。
上記リガンドが上記目的タンパク質以外のタンパク質であること、
を特徴とする請求項１４から２５のいずれか一つに記載のプログラム。
上記請求項１４から２６のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
構造未知の目的タンパク質のアミノ酸配列である目的アミノ酸配列を取得する目的アミノ酸配列取得ステップと、
上記目的タンパク質と結合させるリガンドを選択し、当該リガンドの立体構造座標を取得するリガンド座標取得ステップと、
リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での上記目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングステップと、
を含むことを特徴とするタンパク質構造予測方法。
アミノ酸配列について、各タンパク鎖のアミノ酸配列の末尾に終止記号を付加し、および／または、リガンドの存在を示すリガンド存在記号を付加した修正配列を格納し、
上記修正配列を用いて、リガンド分子を構成する原子が電気的極性を持たない平均的な原子半径を持つ剛体として結合した状態での目的タンパク質の全立体構造を、上記目的タンパク質と上記リガンドとの相互作用計算を行いながら、ホモロジーモデリング手法を用いて構築する拡張型ホモロジーモデリングを行うこと、
を特徴とするアミノ酸配列データベースシステム。