JP4282484B2

JP4282484B2 - タンパク質立体構造予測装置及びその予測方法

Info

Publication number: JP4282484B2
Application number: JP2003555389A
Authority: JP
Inventors: 広太酒井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-12-10
Filing date: 2002-12-10
Publication date: 2009-06-24
Anticipated expiration: 2022-12-10
Also published as: AU2002354462A1; EP1455281B1; EP1455281A1; DE60227986D1; KR100879438B1; JPWO2003054743A1; US20050069954A1; WO2003054743A1; CN1602487A; EP1455281A4; CN100501726C; KR20040062985A

Description

技術分野
本発明はタンパク質立体構造予測装置及びその予測方法に関し、特にアミノ酸配列に基づいて前記アミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測装置及びその予測方法に関する。
背景技術
タンパク質は、２０種類のアミノ酸がペプチド結合によって結合したポリペプチドである。このポリペプチドは、生体内等では巧妙に折り畳まれているのが普通で、アミノ酸が配列された直鎖状のポリペプチドが折り畳まれることによりタンパク質の複雑な立体構造が形成される。
ここで、直鎖状のポリペプチドを形成するアミノ酸の配列をタンパク質の１次配列と言う。これは、どのようなアミノ酸がどのような順序でペプチド結合しているかを示したもので、この配列によりタンパク質を構成しているアミノ酸残基の種類や並び方が決められる。
また、ポリペプチド鎖は、近くにあるアミノ酸残基同士が水素結合して安定化した一定の構造を作り出す。これを２次構造と言う。この２次構造には、αヘリックス、βシート、ターンがある。以下、２次構造について図面を用いて説明する。図３１は、αヘリックスを示す図、図３２は、βシートを示す図である。αヘリックス（１ａ、１ｂ）は、図３１に示すようにらせん構造であることからこう呼ばれる。また、βシートは、図３２に示すようにβストランド（２ａ，２ｂ）とよばれる鎖が２本以上並びシート（紙、面）のような形状に見えることからこう呼ばれる。αヘリックスあるいはβシートを繋ぐ部分をターンと言い、図３１の例ではターン３はαヘリックス１ａとαヘリックス１ｂを繋ぎ、図３２の例ではβストランド２ａとβストランド２ｂを繋いでいる。
さらに、これらの２次構造が複雑に組み合わさり、ポリペプチド全体が折り畳まれ、最終的にタンパク質固有の全体構造が完成する。これを３次構造（以下、立体構造とする）と言う。αヘリックスやβシートなどの局所的な２次構造がターンによって繋がれ、ここで曲げられ、多様な立体構造が形成される。図３１の例では、αヘリックス１ａとαヘリックス１ｂがターン３によって繋がれ、１８０度曲げられることによって逆平行に並ぶ構造が形成されている。
ところで、タンパク質の立体構造は、そのタンパク質がその機能を発現するかどうかと密接に関連しており、タンパク質の機能を理解するためには、その立体構造を知ることが重要である。このため、薬理学、生化学等のタンパク質を利用・研究する分野において、Ｘ線回折やＮＭＲ（核磁気共鳴）を用いてタンパク質の立体構造の解析が行なわれてきた。しかしながら、このような解析技術には多大な費用と時間がかかるという問題があった。
一方、このような解析技術の進歩により多くの立体構造が決定された結果、構造の類似性を示すタンパク質が発見されたことから、これまでに得られた立体構造情報に基づいてタンパク質の立体構造を予測する様々な手法が考案されてきた。このような状況にあって、現在、特に注目されているのは、ホモロジーモデリングという方法である。例えば、リー・Ｒ．（Ｌｅｅ，Ｒ．）著，“ＰｒｏｔｅｉｎＭｏｄｅｌＢｕｉｌｄｉｎｇｕｓｉｎｇＳｔｒｕｃｔｕｒａｌＨｏｍｏｌｏｇｙ”，ネイチャー（Ｎａｔｕｒｅ，３５６），１９９２年，ｐ．５４３−５４４参照。ホモロジーモデリング法では、一次配列が似ていれば立体構造も似ているということを前提として解析を行なう。立体構造が既知のタンパク質が登録された立体構造データベースを検索し、構造予測を行なうタンパク質のアミノ酸の一次配列が立体構造既知のタンパク質のアミノ酸配列と類似性があればその立体構造を取得し、これを用いてモデリングしながら所望のアミノ酸配列の立体構造を予測する。
しかし、従来のホモロジーモデリング法を用いたタンパク質の立体構造予測では、立体構造既知のタンパク質と類似するアミノ酸配列を持たないタンパク質の立体構造が予測できないという問題がある。
上記説明のように、ホモロジーモデリング法では、アミノ酸配列が類似している場合にはその立体構造も類似していると予測されることに基づいて、立体構造が未知のタンパク質の立体構造を予測している。このため、アミノ酸配列の類似した立体構造既知のタンパク質が存在しないと立体構造を予測することができない。例えば、まったく新規のアミノ酸配列が見つかった場合には、そのタンパク質の立体構造を予測することは不可能であった。
近年、タンパク質の２次構造の予測精度は、以前に比べて改善されており、この予測に基づいて立体構造を予測する場合、αヘリックス、βストランドはその構造により規定することができる。しかしながら、上記説明のようにβストランドからβシートに移行するとき、αヘリックスとαヘリックスとを繋ぐとき、あるいはαヘリックスとβシートとを繋ぐとき、接続部分にターンという構造を取る必要がでてくる。ところが、ターンに関する定義は自由度が高く、規定することは非常に困難である。このため、タンパク質の立体構造を予測する現行のモデリングソフトでは、ターンについて規定することや、その構造を再現することはまだできていない。
発明の開示
本発明はこのような点に鑑みてなされたものであり、ターンを規定することによってタンパク質の立体構造を予測するタンパク質立体構造予測装置及びその予測方法を提供することを目的とする。
本発明では上記課題を解決するために、図１に示すようなタンパク質立体構造予測装置が提供される。本発明に係る立体構造予測装置では、タンパク質の１次配列であるアミノ酸配列が読み込まれ、アミノ酸配列と、そのアミノ酸配列に基づいて予測される局所的な２次構造情報とが、立体構造予測部２００に入力される。立体構造予測部２００では、ターン形成部算出手段２１０は、２次構造情報に基づいて、ターンを形成するアミノ酸配列を抽出し、ここに含まれるアミノ酸の個数を算出して２次構造情報とともにターン予測手段２２０へ送る。ターン予測手段２２０は、算出されたターンを構成するアミノ酸の個数と、２次構造情報と、に応じて得られる存在確率の高いターンに関するターン構造情報を取得し、ターン構造情報に基づいてターン部を再現する。ターンの構造は、形成されるターンを２次構造とターンを構成するアミノ酸の個数とに応じていくつかのパターンに分類できることが見いだされており、ターン構造情報はこの分類ごとに得られた存在確率の高いターンの構造に関する情報である。ゆえに、ターン構造情報を用いて存在確率の高いターンを再現することができる。立体構造再現手段２４０は、再現されたターン部を用いてタンパク質全体の立体構造を再現し、所定の形式の再現情報を生成する。
また、上記課題を解決するために、２次構造情報及びターンを形成するアミノ酸の個数に応じて、立体構造既知のタンパク質についての立体構造情報より抽出される存在確率の高いターンに関するターン構造情報を予め取得し、所定の記憶手段に格納しておき、所望のタンパク質のアミノ酸配列とその２次構造情報とが取得されると、２次構造情報に基づいてターンを形成する前記アミノ酸の個数を算出し、２次構造情報及びターンを形成するアミノ酸の個数に基づいてターン構造情報を検索して対応する前記ターン構造情報を抽出し、抽出されたターン構造情報に基づいて再現されるターン部用いてタンパク質全体の立体構造を再現した再現情報を生成するタンパク質立体構造予測方法が提供される。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
発明を実施するための最良の形態
以下、本発明の実施の形態を図面を参照して説明する。図１は、本発明の一実施の形態であるタンパク質立体構造予測装置の構成図である。
本発明に係るタンパク質立体構造予測装置は、タンパク質の１次配列としてタンパク質のアミノ酸配列（以下、アミノ酸シークエンスとする）を読み込むアミノ酸シークエンス読み込み部１１０、アミノ酸シークエンスを記憶したアミノ酸シークエンスデータベース（以下、アミノ酸シークエンスＤＢとする）１２０、１次配列であるアミノ酸シークエンスに基づいて２次構造を予測する２次構造予測部１３０、タンパク質の２次構造に関する情報を記憶したタンパク質２次構造データベース（以下、タンパク質２次構造ＤＢとする）１４０、タンパク質の立体構造を予測する立体構造予測部２００及び再現した立体構造を表示する表示部３１０から構成される。
アミノ酸シークエンス読み込み部１１０は、タンパク質を構成するアミノ酸の１次配列であるアミノ酸シークエンスを、アミノ酸シークエンスＤＢ１２０等から読み込む。ここでの読み込みの方法は特に限定されない。例えば、通信ネットワークにより接続するアミノ酸シークエンスＤＢ１２０から所望のアミノ酸シークエンスをダウンロードする方法等がある。もちろん、利用者がキーボード等の入力装置からアミノ酸シークエンスを入力したり、フレキシブルディスク等の記録媒体に記録されたアミノ酸シークエンスを読み込ませたりしてもよい。
アミノ酸シークエンスＤＢ１２０は、タンパク質のアミノ酸シークエンスが登録・管理されたデータベースであり、キーワード等で検索することにより所望のアミノ酸シークエンス情報を引き出すことができる。アミノ酸シークエンスＤＢ１２０は、装置内に組み込まれていても、通信回線等により外部に設けられていてもよい。また、登録されたアミノ酸シークエンスを保存管理する公的機関等のデータバンクであってもよい。
２次構造予測部１３０は、アミノ酸シークエンス読み込み部１１０が読み込んだアミノ酸シークエンスに対応する２次構造予測である２次構造情報を取得する。例えば、タンパク質の２次構造が登録されたタンパク質２次構造ＤＢ１４０を検索し、１次配列に対応する２次構造情報を読み出す。あるいは、Ｇａｉｎｉｅｒ−Ｒｏｂｓｏｎ法等を用いて２次構造を予測して２次構造情報を生成するとしても良い。２次構造情報は、アミノ酸シークエンス情報とともに立体構造予測部２００へ送られる。
タンパク質２次構造ＤＢ１４０は、タンパク質の２次構造を予測した２次構造情報が記録されたデータベースであり、キーワード等で検索することにより所望のタンパク質の２次構造情報を引き出すことができる。タンパク質２次構造ＤＢ１４０は、アミノ酸シークエンスＤＢ１２０と同様に、任意の形態で存在する。
立体構造予測部２００は、アミノ酸シークエンス情報と２次構造情報とに基づいてタンパク質の立体構造を予測する機能を有し、予測した立体構造を再現するための再現情報を生成する。再現情報は、再現情報を利用するものに合わせた任意の形式で出力される。例えば、表示部３１０に出力する場合、再現された立体構造を表示するための座標等の表示に関する形式で出力される。また、分子動力学シミュレーションや分子軌道法による分子挙動シミュレーションに用いる入力構造として利用される場合、利用するシミュレーションソフトに応じた形式で出力される。立体構造の予測処理については後述する。
表示部３１０は、再現情報に基づいて、タンパク質の立体構造を３次元で表示する。
ここで、立体構造予測部２００について詳しく説明する前に、タンパク質の表示及びタンパク質の立体構造を決めるパラメータについて図面を用いて説明する。図２はポリペプチドを示した図、図３はタンパク質の立体構造を決めるパラメータを示した図である。アミノ酸は、１つの炭素Ｃαにカルボキシル基（−ＣＯＯＨ）とアミノ基（−ＮＨ_２）が結合したもので、図２に示したように、アミノ基とカルボキシル基から水を取り去ることによってできる（−ＣＯ−ＮＨ−）結合をペプチド結合と言う。アミノ酸がペプチド結合によって多数繋がったものがポリペプチドである。Ｒは側鎖、Ｒ以外の部分は主鎖といわれる。以下のタンパク質の立体構造を表す図面では、図２に示したポリペプチドの主鎖の部分をリボンまたはひもなどの形状で表す。また、βストランドはＮ末端からＣ末端に向かう方向を矢印で表す。ところで、ポリペプチドの主鎖を構成する６原子は、図３に示したように同一平面上に存在する。従って、タンパク質の立体構造は、１アミノ酸あたりＮ−ＣαとＣα−Ｏの２つの結合する角度によって決まることになる。この２つの２面角はそれぞれファイ（φ）、プサイ（ψ）と呼ばれる。
図１に戻って、立体構造予測部２００について説明する。立体構造予測部２００は、ターンを形成するアミノ酸の個数を算出するターン形成部算出手段２１０、２面角φとψを割り付ける２面角割り付け手段であるφ、ψ割り付け手段２２１とターン方向を算出するターン方向算出手段２２２とから成るターン予測手段２２０、ターンの構造に関するターン情報を記録したターン情報データベース（以下、ターン情報ＤＢとする）２３０、及び立体構造を再現する立体構造再現手段２４０から構成される。
ターン形成部算出手段２１０は、２次構造に基づいて、ターンを形成するターン形成部のアミノ酸シークエンスを抽出し、そのアミノ酸個数（以下、残基数とする）を算出する。
ターン予測手段２２０は、ターン形成部算出手段２１０の算出したターンを形成する残基数と２次構造情報とに基づいてターンを再現する。
ターン予測手段２２０のφ、ψ割り付け手段２２１は、ターン形成部算出手段２１０が算出した残基数に応じて、ターン情報ＤＢ２３０に登録されている存在確率の高いターンの構造に関するターン構造情報を取得し、これに基づいて２面角であるφとψを割り付ける。
ターン予測手段２２０のターン方向算出手段２２２は、ターン及びターンを挟む２次構造に応じて規定されるターン方向をターン情報ＤＢ２３０より検索し、これに基づいてターンの方向を決める。以下、ターンの方向を右ターンと左ターンとで表す。左ターンは、ペプチド鎖の伸張方向に対してターンの最初の残基のＣαの側鎖が９０度方向にあるときのターンの最後の残基のＣαに対して２７０度の方向にあるものをいう。また、右ターンは、ペプチド鎖の伸張方向に対してターンの最初の残基のＣαの側鎖が９０度方向にあるときのターンの最後の残基のＣαに対して９０度の方向にあるものをいう。
ターン情報ＤＢ２３０には、２次構造とターンを形成するアミノ酸の個数に応じて得られる存在確率の高いターンの構造に関するターン構造情報が、２次構造とターンを形成する残基数に関連付けて記憶されている。上記の説明のように、ポリペプチドの構造は、１アミノ酸あたり２つのパラメータ（φとψ）に支配されている。本発明の発明者は、構造既知のタンパク質の立体構造を解析することにより、βストランドに出現するターンについて、ターンを形成する残基数ごとに存在確率の高いφとψの角度を規定した。また、本発明者によって、ターンの方向については、ターンに至るまでのβストランドを形成する残基数が奇数個か偶数個かで、それぞれ左ターンか右ターンかに分類できるということが見いだされた。さらに、αヘリックスをターンさせる場合には、αヘリックスとαヘリックスの間に挿入されるターン部の残基数が奇数個か偶数個かで、それぞれ逆方向を向く１８０度ターンか同方向を向くターンかに分類できるということも見いだされた。これらに基づいて、２次構造及びターンを形成する残基数に応じて得られる存在確率の高いターンの構造に関するターン構造情報（φとψ、ターンの方向等）が作成される。ターン構造情報は構造既知のタンパク質を解析して得られるため、予めターン構造情報を作成し、データベースとして登録しておくことが望ましい。ターン情報ＤＢ２３０では、このターン構造情報を保存・管理している。
立体構造再現手段２４０は、再現されたターンと２次構造情報とに基づいてタンパク質の立体構造を再現し、所定の形式の再現情報を生成する。再現情報は、再現情報を利用するものに合致する任意の形式で出力される。この場合、表示部３１０のため、立体構造を３次元座標に割り付けた再現情報が生成される。
このような構成のタンパク質立体構造予測装置の動作について説明する。
アミノ酸シークエンス読み込み部１１０は、アミノ酸シークエンスが記録・保存されたアミノ酸シークエンスＤＢ１２０から立体構造を予測するタンパク質のアミノ酸シークエンスを読み込み、次の２次構造予測部１３０へ送る。２次構造予測部１３０では、読み込まれたアミノ酸シークエンスの２次構造がタンパク質２次構造ＤＢ１４０に記憶されているかどうかを検索し、記憶されている場合には、これを読み込む。また、記憶されていない場合、あるいは必要に応じて、Ｇａｉｎｉｅｒ−Ｒｏｂｓｏｎ法等を用いて２次構造を予測する。２次構造に関する２次構造情報は、立体構造予測部２００へ送られる。
アミノ酸シークエンスＤＢ１２０に格納されるアミノ酸シークエンス及びタンパク質２次構造ＤＢ１４０に格納される２次構造情報について具体例で説明する。図４はアミノ酸シークエンスとその２次構造情報の一例である。図４はＰＤＢ形式であるが、１次配列と２次構造とを並列に記載する並列形式など、他の形式であっても良い。アミノ酸シークエンス１２１は、アミノ酸の配列を示しており、個々のアルファベットはアミノ酸の種類を表している。また、２次構造情報１４１は、アミノ酸シークエンス１２１の２次構造を示しており、ＨＥＬＩＸはαヘリックス構造、ＳＨＥＥＴはβシート構造、ＴＵＲＮはターンが、アミノ酸シークエンス１２１に出現する位置を示している。
立体構造予測部２００では、ターン形成部算出手段２１０は、ターンを形成するターン形成部の残基数を算出する。ターン予測手段２２０では、ターンの残基数と２次構造情報とを用いてターンを再現する。ターン情報ＤＢ２３０には、予め、２次構造と残基数に応じて得られた存在確率の高いターンの構造に関するターン構造情報が登録されている。図５はターン構造情報の一例であり、図６はターン構造情報に登録された２面角のパターンの一例である。
図５に示したように、ターン構造情報は、ターンが出現する箇所ごとに、ターンが形成する２面角（φとψ）、ターンの方向に関する規定などが登録されている。以下、βストランドとβストランドの間に出現するターンをβストランド構造のターン、αヘリックスとαヘリックスとの間に出現するターンをαヘリックス構造のターンと呼ぶこととする。２面角は、ターンを形成する残基数によって選択可能なパターンが規定されている。
本発明の実施の形態では、βストランド構造のターンにより１８０度曲げられる１８０度ターンを形成する残基数について、後述する立体構造解析に得られたφとψが登録されている。パターン１、２は、残基数が２で構成された１８０度ターンにおいて、最も存在確率の高いφとψの値である。パターン３、４、５は、残基数が３で構成された１８０度ターン（それぞれの残基の間は９０度でターンする）において、最も存在確率の高いφとψの値である。同様にパターン６は、残基数が４で構成された１８０度ターン（それぞれの残基の間は６０度でターンする）において、最も存在確率の高いφとψの値である。また、３残基以上で構成されるターンでは、ターンを形成する最初の残基と最後の残基によりβストランドとβストランドを１８０度ターンさせ、ターンを形成する中間の残基が直鎖状に繋がるというモデルを考えることもできる。以下、このようなターンを直鎖モデルと呼ぶこととする。パターン７、８は、直鎖モデルにより構成された１８０度ターンにおいて、最も存在確率の高いφとψの値である。
また、αヘリックス構造のターンの２面角は、ターンを形成する残基数によらず所定のφとψ（パターン９）をとることが規定される。各パターンのφとψ値は、図６に示したようにそれぞれ登録されている。
一方、ターンの方向は、βストランド構造のターンでは、ターンの前、すなわちターンに至る間でのβストランドの残基数が奇数の場合には左ターン、偶数の場合には右ターンをとることが規定されている。また、αヘリックス構造のターンでは、ターンを形成する残基数が奇数の場合にはαヘリックスとαヘリックスが逆方向を向くようにターンし、偶数の場合には同方向を向くようにターンすることが規定されている。
このように、２次構造情報に基づいてターン構造情報から２面角とターンの方向に関する規定情報を抽出することができる。なお、図示していないが、βストランドとαヘリックスとの間に出現するターンなどについても、同様にターン構造情報が登録されている。
ターン予測手段２２０のφ、ψ割り付け手段２２１では、２次構造情報及び残基数に基づいてターン情報ＤＢ２３０を検索し、存在確率の高い２面角を取得する。続く、ターン方向算出手段２２２でも同様に、２次構造情報及び残基数に基づいてターン情報ＤＢ２３０を検索し、ターンの方向を決定する。
例えば、βストランド構造のターンの場合、ターンの残基数に応じてφとψが規定され、ターンに至るまでのβストランドの残基数に応じて左ターンと右ターンに振り分けられる。また、αヘリックス構造のターンの場合、所定のφとψが規定され、ターンの残基数が奇数であればαヘリックスが逆方向を向くターン（１８０度ターン）、偶数であればαヘリックスが同方向を向くターンに振り分けられる。αヘリックスとβシートとの間のターンについても、同様の手順でφとψが規定され、ターンの方向が決まる。このようにして、ターン情報ＤＢ２３０の情報に基づいてターンの構造が規定される。立体構造再現手段２４０は、２次構造情報と規定されたターンに基づいて、立体構造を再現し、所定の形式の再現情報を生成する。
上記の説明のように、ターンを再現することによってタンパク質の立体構造を予測することが可能となる。特に、ホモロジーモデリング法と異なり、構造未知のタンパク質の立体構造を予測することもできる。予測された立体構造は、分子動力学シミュレーションや、分子軌道法による分子挙動シミュレーションの入力構造として利用することができる。
次に、本発明のタンパク質立体構造予測方法について説明する。図７は、本発明の一実施の形態であるタンパク質立体構造予測手順全体のフローチャートである。図１と同じものには同じ番号を付し、説明は省略する。
［ステップＳ０１］まず、アミノ酸シークエンスＤＢ１２０より、１次配列であるアミノ酸シークエンスの読み込みが行なわれる。例えば、図４のアミノ酸シークエンス１２１が読み込まれる。
［ステップＳ０２］次に、そのアミノ酸シークエンスの２次構造情報が存在するか否かがチェックされ、存在する場合はステップＳ０３へ処理を進め、存在しない場合はステップＳ０４へ処理を進める。
［ステップＳ０３］２次構造情報がタンパク質２次構造ＤＢ１４０に存在する場合には、このデータベースからタンパク質の２次構造に関する情報が読み込まれる。例えば、図４の２次構造情報１４１が読み込まれる。
［ステップＳ０４］２次構造情報が存在しない場合には、例えば、Ｇａｒｎｉｅｒ−Ｒｏｂｓｏｎ法等により、タンパク質の２次構造予測が行なわれ、２次構造情報が生成される。
［ステップＳ０５］この情報に基づいてαヘリックスの構造情報が作成される。
［ステップＳ０６］さらに、同様にしてβストランドの構造情報が作成される。
ここまでの処理により、最終的にαヘリックス及びβストランドの立体構造を再現する際に必要な３次元座標情報が生成される。αヘリックス及びβストランドの３次元座標情報の生成には、よく知られている処理手順を適宜用いる。
［ステップＳ０７］次に、２次構造情報に基づいて、ターン再現処理が行なわれる。ターン再現処理の詳細については後述するが、ターン再現処理により、立体構造を再現する際に必要な３次元座標情報が生成される。
上記の説明の手順を実行することにより、αヘリックス構造、βストランド構造及びターン構造の３次元座標情報が生成されたことになり、これらを合わせた立体構造情報４００が出力される。
続いて、ターン再現処理について説明する。図８は、ターン再現処理手順のフローチャートである。図１と同じものには同じ番号を付し、説明は省略する。
ターン再現処理は、所望のタンパク質の２次構造情報が生成、あるいは読み込まれた後に起動される。
［ステップＳ７０１］２次構造情報に基づいて、何個のアミノ酸でターンするかが算出される。これにより、ターンを形成する残基数が算出される。
［ステップＳ７０２］続いて、ターンが出現する構造がチェックされる。βストランド構造のターンの場合、ステップＳ７０３へ処理を進め、αヘリックス構造のターンの場合ステップＳ７０５へ処理を進める。それ以外のターン構造の場合も同様に分岐して処理を行なうが、ここでの説明は省略する。
［ステップＳ７０３］ βストランド構造のターンの場合、ステップＳ７０１で算出されたターンを形成する残基数に基づいてターン情報ＤＢ２３０からφとψを検索し、選択されたパターンのφとψを割り付ける。例えば、図４に示した２次構造情報１４１のβシート（６２−６７）とβシート（７０−７５）との間のターン（６８、６９）は、ターンの残基数が２であるので、ターン構造情報の残基数２に対応するφとψが検索される。ここで、（）内は、２次構造情報１４１に記載されたアミノ酸の位置を表す。
［ステップＳ７０４］ステップＳ７０３に続いて、２次構造情報からターンに至る間でのβストランドの残基数を算出し、算出された残基数に基づいてターン情報ＤＢ２３０を検索し、ターンの方向を決定する。例えば、ステップＳ７０３の例の場合、βシート（６２−６７）の残基数は偶数であるので、右ターンが規定される。また、ターンの方向は、βストランドの残基数が奇数か偶数かにより左ターンか右ターンかが規定されるので、ターン情報ＤＢ２３０を用いず、ターン方向の振り分けをプログラムで行なうようにしてもよい。ステップＳ７０３、７０４によりβストランド構造における２面角とターンの方向が決定されたので、処理をステップＳ７０６へ進める。
［ステップＳ７０５］ αヘリックス構造のターンの場合、ステップＳ７０１で算出されたターンを形成する残基数に基づいてターン情報ＤＢ２３０を検索し、ターンの方向を決定する。例えば、図４に示した２次構造情報１４１の場合、αヘリックス（２−２８）とαヘリックス（３３−５４）の間のターン（２９−３２）の残基数は偶数であるので、αヘリックス（２−２８）とαヘリックス（３３−５４）は同方向に並ぶと規定される。また、対応するφとψもターン情報ＤＢ２３０より抽出される。βストランドと同様、ターンの方向は、ターンの残基数が奇数か偶数かにより逆方向か同方向かが規定されるので、ターン情報ＤＢ２３０を用いず、ターン方向の振り分けをプログラムで行なうようにしてもよい。これによりβストランド構造のターンにおける２面角とターンの方向が決定されたので、処理をステップＳ７０６へ進める。
［ステップＳ７０６］これまでの処理により得られたφとψの値、及びターン方向に基づいて、３次元座標（立体構造）の各原子への割り付けが行なわれ、ターン構造が３次元座標に割り付けられる。
［ステップＳ７０７］３次元座標に割り付けられたターン構造を所定の出力形式に合わせた３次元座標情報を生成して出力する。
ここで、ステップＳ７０３におけるβストランド構造のターンのφとψの割り付け処理について、さらに詳しく説明する。図９は、βストランド構造のターン再現処理手順のフローチャートである。検出されたターンがβストランド構造である場合に、処理が起動される。
［ステップＳ７０３１］ターンを直鎖モデルで予測するかどうかを判断する。例えば、ターンを形成する残基数が５を超えた場合には、直鎖モデルを用いる等の条件を予め設定しておき、この条件に従って判断する。直鎖モデルを用いない場合はステップＳ７０３２に処理を進め、用いる場合はステップＳ７０３３へ処理を進める。
［ステップＳ７０３２］直鎖モデルを用いない場合、ターンを形成する残基数に応じてターン情報ＤＢに登録されたパターンを選択し、そのφとψを割り付け、処理を終了する。
［ステップＳ７０３３］直鎖モデルの場合、ターンを形成する残基数が奇数であるかどうかを調べる。奇数の場合にはステップＳ７０３４を実行し、偶数であれば実行しない。
［ステップＳ７０３４］ターンを形成する残基数が奇数の場合、残基数を１プラスする。これは、ターンを構成する残基は、ジグザグ状に並ぶため、奇数では直鎖状の構造を取れないためである。
［ステップＳ７０３５］ターンを形成する最初の残基と最後の残基にパターン７またはパターン８に登録されたφとψを割り付ける。
［ステップＳ７０３６］ターンを形成する最初の残基と最後の残基を除く、中間に位置する残基について、これらの残基が直鎖状に配置されるようなφとψを割り付ける。
このような処理により、βストランド構造のターンが何残基でターンする場合でも、ターン構造を予測することが可能となる。
以上の手順により生成された３次元座標情報に基づいて、表示部３１０においてタンパク質の立体構造の表示が行なわれる。図１０は、本発明の実施の形態であるタンパク質立体構造予測装置及びその予測方法によるタンパク質の立体構造表示の一例である。上記説明の図面と同様、矢印で表された部分がβストランド、らせんで表された部分がαヘリックス、これらを繋ぐ部分がターンである。
このように、ターン構造情報を参照してφとψを規定することによって、存在確率の高いターンを予測することにより、従来自由度が高く規定が困難であったターンを再現することができる。本発明の立体構造予測方法では、ターン構造の規定を２次構造情報と、２次構造に応じて規定されるターン構造が登録されたターン構造情報とに基づいてターン構造の予測を行なっているため、立体構造未知のアミノ酸配列を持つタンパク質の立体構造を予測することも可能である。
上記の説明では、アミノ酸シークエンスにターンが出現するごとに、ターンの構造を解析するとしたが、それぞれのタイプごとにターンを再現していくとすることもできる。図１１は、本発明の他の実施の形態のターン再現処理手順のフローチャートである。
図８の場合と同様に、２次構造情報が生成された後、処理が起動される。
［ステップＳ７１１］読み込まれた２次構造情報からβストランド構造のターンのうち、２残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報ＤＢ２３０から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
［ステップＳ７１２］読み込まれた２次構造情報からβストランド構造のターンのうち、３残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報ＤＢ２３０から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
［ステップＳ７１３］読み込まれた２次構造情報からβストランド構造のターンのうち、４残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報ＤＢ２３０から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
［ステップＳ７１４］読み込まれた２次構造情報からαヘリックス構造のターン部分を抽出し、抽出されたターンに対応するφとψをターン情報ＤＢ２３０から検索し、ターンの残基数に基づいてターン方向を決定する処理を行なう。
このような処理手順によってもターン構造を予測することが可能である。ここでは簡単のため、直鎖モデルを用いた処理を省いたが、例えば、ステップＳ７１３とステップＳ７１４の間に、残基数が５残基以上の場合の処理として処理を追加することもできる。
なお、上記の説明のターン情報ＤＢ２３０に登録されたターン構造情報は、立体構造既知のタンパク質を立体構造解析することにより得ることができる。特に本発明の発明者は、従来自由度が高く規定が困難であったβストランドとβストランドの間に出現するβストランド構造のターンの２面角とターンの方向、及びαヘリックスとαヘリックスの間に出現するαヘリックス構造のターンの方向についての規定を立体構造解析により見出すことに成功した。
ここで、本発明の発明者が行なった構造既知のタンパク質の立体構造解析について説明する。始めにβストランド構造のターンについて説明し、続いてαヘリックス構造のターンについて説明する。
βストランド構造のターンは、例えば、βストランドがβシートに移行する場合には１８０度ターンで折り畳まれることになる。この場合、ターンには、少なくとも２つのアミノ酸残基が必要である。図１２は、本発明に係るタンパク質の立体構造解析で用いたターンのタイプの分類である。（Ａ）はターンが２残基、（Ｂ）はターンが３残基、（Ｃ）はターンが４残基で構成されるタイプを示している。図では、ターンを構成する残基をｔｎ（ｎ＝１、２、・・・）で示している。この図は、ターンの分類を説明するための図で、実際の構造を表しているわけではない。通常のターンは、この程度の残基数で構成されることが多いので、２残基、３残基及び４残基についての立体構造解析を行ない、存在確率の高いφとψを導き出せば、βストランド構造の大部分のターン構造を予測することが可能になる。また、３残基以上で形成されるターンについては直鎖モデルで予測可能であることは説明したが、これは（Ａ）で示した２残基ターンの最初の残基ｔ１と最後の残基ｔ２の間に、直鎖状に残基が繋がるというモデルとなる。
それぞれの場合について行なった立体構造解析について説明する。
立体構造解析のため、まず、タンパク質の立体構造データが登録・管理されているタンパク質立体構造データバンク、例えば、米国ＰＤＢ運営グループＲＣＳＢ（ＲｅｓｅａｒｃｈＣｏｒａｂｏｒａｔｅｌｙｆｏｒＳｔｒｕｃｔｕａｌＢｉｏｉｎｆｏｍａｔｉｃｓ）によって運営されているＰＤＢ（ＰｒｏｅｔｉｎＤａｔａＢａｎｋ）から、βストランド構造を豊富に持つβストランドに富んだ（以下、これをβストランドリッチと呼ぶ）タンパク質を“ｐｏｒｉｎ”というキーワードを元に検索した。ＰＤＢサイトへはインターネット等を経由してアクセスし、所望のデータを検索した。これにより、“ｐｏｒｉｎ”という言葉をキーワードとして１３８個の検索例が検索された。
続いて、それぞれのタイプのターンについての解析が行なわれる。図からわかるように、（Ａ）は、２残基で１８０度ターンを行なっている。以下、このタイプをβストランド１８０度ターンと呼ぶ。（Ｂ）は、３残基で１８０度ターン、すなわち１残基で９０度ターンを行なっており、以下、このタイプをβストランド９０度ターンと呼ぶ。（Ｃ）は、４残基で１８０度ターン、すなわち１残基で６０度ターンを行なっており、以下、このタイプをβストランド６０度ターンと呼ぶ。
２残基で構成される１８０度ターンの場合について説明する。（Ａ）の２残基（βストランド１８０度）ターンの場合、検索例の中から実際に２残基で１８０度ターンを行なっている部分を検索した。検索を行なう場合、例えば、構造はＰｒｏｔｅｉｎＡｄｖｉｓｅｒｆｏｒＷｉｎ（ＦＱＳ）によって調べ、そのφとψの角度についてはフリーソフトＤＳＳＰによって調べる。ここでは、２残基で１８０度ターンを行なっている部分が５９例検出された。続いて、５９例のφとψの角度に基づいて、ラマチャンドラン（Ｒａｍａｃｈａｎｄｒａｎ）・プロットを書いた。ラマチャンドラン・プロットは、横軸にφ、縦軸にψをとった平面上に、１つ１つのアミノ酸についての２面角データをプロットしたものである。実際のタンパク質は、立体障害のため、許容される２面角の範囲が限られている。ラマチャンドラン・プロットを書くことにより、その許容範囲を知ることができる。
図１３は、βストランド１８０度ターンにおける１残基目のラマチャンドラン・プロットである。また、図１４は、βストランド１８０度ターンにおける２残基目のラマチャンドラン・プロットである。これらは、縦軸にφ、横軸にψを取った平面上に、検索された５９例のターンの１残基目と２残基目のアミノ酸についてのφとψの角度データをプロットしたものである。このようにして得られたプロットは特定の領域に集中していることがわかる。実際の立体構造では、この領域のφとψの組み合わせがとられる。
φとψの角度の分布をよりはっきりさせるため、１残基目と２残基目で角度の分布図を書く。図１５は、βストランド１８０度ターンにおける１残基目のφとψの角度の分布図である。分布図は、−１８０度から１８０度まで１０度ずつに区切り、その中に含まれる角度φ、ψの全体を１としたときの存在確率をグラフに表している。これによると、１８０度ターンをなす第１残基のφは、−６０度と８０度近傍に分布することがわかる。一方、１８０度ターンをなす第１残基のψは、−１２０度と１２０度近傍に分布することがわかる。また、図１６は、βストランド１８０度ターンにおける２残基目のφとψの角度の分布図である。同様に、１８０度ターンをなす第２残基のφは、−９０度と９０度近傍に分布し、ψは０度近傍に分布することがわかる。こうして分布図より、βストランド１８０度ターンにおける存在確率が高いφとψの角度が得られる。
図１７は、立体構造解析により得られたβストランド１８０度ターンにおける代表的な２面角の角度とターン方向の結果を示している。
結果Ａは、１残基目のφが−６０．０度、ψが１２０．０度、２残基目のφが９０．０度、ψが０．０度をとり、ターンまでのβストランドの残基数が５で左ターンが起きることを示している。図１５及び図１６から、このようなφとψの組み合わせの存在確率が高いことが判明している。また、結果Ｂは、φとψの組み合わせは結果Ａと同じであるが、ターンまでの残基数が６で右ターンが起きることを示している。結果Ｃは、１残基目のφが８０．０度、ψが−１２０．０度、２残基目のφが−９０．０度、ψが−１０．０度近傍をとり、ターンまでのβストランドの残基数が５で左ターンが起きることを示している。結果Ｄは、φとψの組み合わせは、結果Ｃと同じであるが、ターンまでの残基数が６で右ターンが起きることを示している。
また、本発明の発明者は、このようにして得られた解析結果を分析することによって、βストランドとβストランドとの間のターンでは、ターンに至るまでのβストランドを形成する残基が奇数個か偶数個かで、それぞれ左ターンか右ターンかに分類されることを見出した。
このようにして規定されたφとψのパターンは、ターン情報ＤＢ２３０に記憶しておき、ターン予測手段２２０が検索して読み出し、ターンを再現する際に利用する。
解析結果により得られた存在確率の高い２面角をとる立体構造を本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。
図１８は、βストランド１８０度ターンの第１の立体構造表示例である。これは、図１７に示した結果Ｃの２面角及びターンまでの残基数データで表される立体構造を表示している。矢印で表した部分がβストランド部分、それを繋ぐ部分がターン部分を示している。これは、左ターンの一例である。
同様に、図１９は、βストランド１８０度ターンの第２の立体構造表示例である。これは、図１７に示した結果Ｄの２面角及びターンまでの残基数データで表される立体構造を表示している。φとψは、図１８と同じであるが、右ターンが起きている。
ターン構造情報としてデータベースに登録する場合には、分布図より得られたφとψの角度を本発明のタンパク質立体構造予測方法を用いたモデリングソフトで再現し、実際にターンを表示ソフトで確認する。このようにして、ターンを行なう角度を微調整し、登録する角度を決定する。
３残基で構成される９０度ターンの場合について説明する。（Ｂ）のβストランド９０度ターンの場合、１３８個の検索例の中から実際に１残基で９０度ターンを行なっている部分を検索する。（Ａ）βストランド１８０度ターンの場合と同様の手法で、１残基で９０度ターンを行なっている部分が３６５例検出された。続いて、３６５例のφとψの角度に基づいて、ラマチャンドラン・プロットを書く。さらに、φとψの角度の分布を明確にするため、角度の分布図を書く。図２０は、９０度ターンにおける１残基目のφとψの角度の分布図である。分布図は、（Ａ）βストランド１８０度ターンの場合と同様に描かれている。これによると、９０度ターンをなす第１残基のφは、−６０度から８０度近傍、及び９０度近傍に分布することがわかる。一方、９０度ターンをなす第１残基のψは、−１０度と１３０度近傍に分布することがわかる。こうして分布図より、９０度ターンにおける存在確率が高いφとψの角度が得られる。
図２１は、立体構造解析により得られたβストランド９０度ターンにおける代表的な２面角の角度とターン方向の結果を示している。結果Ｅは、１残基目のφが−５９．９度、ψが１２０．０度をとり、ターンまでの残基数が５で左ターンが起きることが示されている。結果Ｆは、１残基目のφが−７９．９度、ψが−１０．１度をとり、ターンまでの残基数が５の奇数で左ターンが起きることが示されている。さらに、結果Ｇは、１残基目のφが９０．０度、ψが−１０．０度度、ターンまでの残基数が６で右ターンが起きることを示している。
上記の説明のβストランド１８０度ターンの場合と同様に、解析結果により得られた存在確率の高い２面角をとる立体構造を本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。
図２２は、βストランド９０度ターンの第１の立体構造表示例である。これは、結果Ｅにより得られたφとψを用いて、左ターンのターン部分を示した表示画面の例である。また、図２３は、βストランド９０度ターンの第２の立体構造表示例である。これは、結果Ｇにより得られたφとψを用いた右ターンのターン部分を示した表示画面の例である。
４残基で構成されるβストランド６０度ターンの場合について説明する。（Ｃ）のβストランド６０度ターンの場合、１３８個の検索例の中から実際に１残基で６０度ターンを行なっている部分を検索する。（Ａ）βストランド１８０度ターンの場合と同様の手法で、１残基で６０度ターンを行なっている部分が２７３例検出された。続いて、２７３例のφとψの角度に基づいて、ラマチャンドラン・プロットを書く。次に、φとψの角度の分布を明確にするため、角度の分布図を書く。
図２４は、βストランド６０度ターンにおける１残基目のφとψの角度の分布図である。分布図は、（Ａ）βストランド１８０度ターンの場合と同様に描かれている。これによると、６０度ターンをなす第１残基のφは、１５０度近傍に分布することがわかる。一方、６０度ターンをなす第１残基のψは、−７５度近傍に分布することがわかる。こうして分布図より、６０度ターンにおける存在確率が高いφとψの角度が得られる。
図２５は、立体構造解析により得られたβストランド６０度ターンにおける存在確率の高いφとψの角度である。結果Ｈは、１残基目のφが−７５．０度、ψが１５０．０度をとり、ターンまでの残基数が５の奇数で左ターンが起きることが示している。結果Ｉは、φとψの組み合わせは、パターン１と同じで、ターンまでの残基数が６で右ターンが起きることが示している。
続いて、解析結果により得られた存在確率の高い２面角をとる立体構造を本発明にかかるタンパク質立体構造予測装置を用いて表示した例を示す。
図２６は、βストランド６０度ターンの第１の立体構造表示例である。これは、結果Ｈにより得られたφとψを用いてβストランド６０度左ターンのターン部分を示した表示画面の例である。また、図２７は、βストランド６０度ターンの第２の立体構造表示例である。これは、結果Ｉにより得られたφとψを用いてβストランド６０度右ターンのターン部分を示した表示画面の例である。
直鎖モデルの場合について説明する。本発明の発明者は、上記説明のβストランド構造のターンの構造に関する解析を行なったのと同様の手法で、立体構造解析を行なった。直鎖モデルの場合、（Ａ）２残基１８０度ターンと同様にターンは最初の残基（２残基の場合のｔ１）と、最後の残基（２残基の場合のｔ２）によってターンが形成される。そして、中間の残基は直鎖状に配置される。図２８は、立体構造解析により得られた直鎖モデルにおける存在確率の高いφとψの角度である。結果Ｊは、１残基目のφが−６０．０度、ψが１２０．０度、２残基目のφが９０．０度、ψが０．０度をとり、ターンまでのβストランドの残基数が５で左ターンが起きることを示している。また、結果Ｋは、φとψの組み合わせは結果Ｊと同じであるが、ターンまでの残基数が６で右ターンが起きることを示している。結果Ｌは、１残基目のφが８０．０度、ψが−１２０．０度、２残基目のφが−９０．０度、ψが−１０．０度近傍をとり、ターンまでのβストランドの残基数が５で左ターンが起きることを示している。結果Ｍは、φとψの組み合わせは、結果Ｌと同じであるが、ターンまでの残基数が６で右ターンが起きることを示している。
αヘリックス１８０度ターンの場合について説明する。本発明の発明者は、上記説明のβストランド構造のターンの構造に関する解析を行なったのと同様の手法で、αヘリックス構造の１８０度ターンの立体構造解析を行なった。その結果、αヘリックスを１８０度ターンさせようとするときに、その曲げたい第１のαヘリックスと第２のαヘリックスの間にβシートの残基を奇数個、偶数個入れることにより、次のような結果を得ることが見いだされた。
残基数が奇数個の場合：第１のαヘリックスと第２のαヘリックスとは逆方向を向く（１８０度ターン）。
残基数が偶数個の場合：第１のαヘリックスと第２のαヘリックスとは同方向を向く。
実際のαヘリックスでのターンを形成する残基数はいろいろであるが、この関係でターンが起こることがわかっていれば、αヘリックス構造のターン構造を予測し、再現することが可能である。αヘリックス構造のターンを、このような規則を用いて予測する本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。図２９は、αヘリックス構造のターンの第１の立体構造表示例である。これは、ターンを形成する残基数が奇数個の場合のαヘリックスとターンを示している。残基数が奇数個であるので、αヘリックス同士が逆方向を向く１８０度ターンが形成されている。また、図３０は、αヘリックス構造のターンの第２の立体構造表示例である。これは、ターンを形成する残基数が偶数個の場合のαヘリックスとターンを示している。残基数が偶数個であるので、αヘリックス同士が同じ方向を向くターンが形成されている。
上記の説明は、ターン情報ＤＢ２３０に登録するターン構造情報のパターンの一例を示したものであり、本発明はこれに限定されない。また、ターン情報ＤＢ２３０に登録するターン構造情報のパターンは任意であり、複数のパターンを登録しておき任意に選択するようにしても良いし、適当な１つを選び登録しておき、これを使用するようにしても良い。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、タンパク質立体構造予測装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。光磁気記録媒体には、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｋ）などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上説明したように本発明のタンパク質立体構造予測装置では、タンパク質の１次配列であるアミノ酸配列を読み込んで２次構造を予測、あるいはデータベースより２次構造を取得し、予測された２次構造に基づいてターンを形成するアミノ酸の個数を算出し、２次構造とアミノ酸の個数とに応じて得られる存在確率の高いターン構造を取得し、ターンを再現し、立体構造を予測する。
このように、２次構造とターンを形成するアミノ酸の個数とに応じて得られる存在確率の高いターン構造に基づいてターンを予測することにより、従来自由度が高く規定が困難であったターンを再現することができる。この結果、構造未知のアミノ酸配列を有するタンパク質であっても立体構造を予測することが可能となる。
また、本発明のタンパク質立体構造予測プログラムをコンピュータに実行させることにより、コンピュータが、タンパク質のアミノ酸配列を読み込み、２次構造情報を取得する。次に、２次構造情報に基づいてターンを形成するアミノ酸の個数を算出し、算出されたアミノ酸の個数と２次構造情報とによって、存在確率の高いターンのターン構造情報を取得してターンを予測・再現し、タンパク質の立体構造を予測する。
このように、２次構造より求められるターンを形成するアミノ酸の個数及び２次構造とに応じて、存在確率の高いターンのターン構造情報を取得し、ターンを予測する。これにより、従来自由度が高く規定が困難であったターンを予測・再現することができる。この結果、構造未知のアミノ酸配列を有するタンパク質であっても立体構造を予測することが可能となる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。
【図面の簡単な説明】
図１は、本発明の一実施の形態であるタンパク質立体構造予測装置の構成図である。
図２は、ポリペプチドを示した図である。
図３は、タンパク質の立体構造を決めるパラメータを示した図である。
図４は、アミノ酸シークエンスとその２次構造情報の一例である。
図５は、ターン構造情報の一例である。
図６は、ターン構造情報に登録された２面角のパターンの一例である。
図７は、本発明の一実施の形態であるタンパク質立体構造予測手順全体のフローチャートである。
図８は、ターン再現処理手順のフローチャートである。
図９は、βストランド構造のターン再現処理手順のフローチャートである。
図１０は、本発明の実施の形態であるタンパク質立体構造予測装置及びその予測方法によるタンパク質の立体構造表示の一例である。
図１１は、本発明の他の実施の形態のターン再現処理手順のフローチャートである。
図１２は、本発明に係るタンパク質の立体構造解析で用いたターンのタイプの分類である。
図１３は、βストランド１８０度ターンにおける１残基目のラマチャンドラン・プロットである。
図１４は、βストランド１８０度ターンにおける２残基目のラマチャンドラン・プロットである。
図１５は、βストランド１８０度ターンにおける１残基目のφとψの角度の分布図である。
図１６は、βストランド１８０度ターンにおける２残基目のφとψの角度の分布図である。
図１７は、立体構造解析により得られたβストランド１８０度ターンにおける代表的な２面角の角度とターン方向の結果を示している。
図１８は、βストランド１８０度ターンの第１の立体構造表示例である。
図１９は、βストランド１８０度ターンの第２の立体構造表示例である。
図２０は、９０度ターンにおける１残基目のφとψの角度の分布図である。
図２１は、立体構造解析により得られたβストランド９０度ターンにおける代表的な２面角の角度とターン方向の結果を示している。
図２２は、βストランド９０度ターンの第１の立体構造表示例である。
図２３は、βストランド９０度ターンの第２の立体構造表示例である。
図２４は、βストランド６０度ターンにおける１残基目のφとψの角度の分布図である。
図２５は、立体構造解析により得られたβストランド６０度ターンにおける存在確率の高いφとψの角度である。
２６は、βストランド６０度ターンの第１の立体構造表示例である。
図２７は、βストランド６０度ターンの第２の立体構造表示例である。
図２８は、立体構造解析により得られた直鎖モデルにおける存在確率の高いφとψの角度である。
図２９は、αヘリックス構造のターンの第１の立体構造表示例である。
図３０は、αヘリックス構造のターンの第２の立体構造表示例である。
図３１は、αヘリックスを示す図である。
図３２は、βシートを示す図である。

Claims

アミノ酸配列に基づいてアミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測装置において、
タンパク質を構成するアミノ酸の１次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、任意のアミノ酸配列を読み込むアミノ酸配列読み込み手段と、
アミノ酸配列の２次構造と、２次構造がアミノ酸配列に出現する位置と、を対応づけて２次構造情報として記憶したタンパク質２次構造データベースから、前記読み込まれたアミノ酸配列に対応する２次構造情報を取得する２次構造予測手段と、
立体構造既知のタンパク質を解析して得られた、ターンを挟む２次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の２面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記２次構造予測手段で取得された前記２次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の２面角とターンの方向を再現するターン予測手段と、
再現されたターン部のターンを形成する前記アミノ酸の２面角と前記ターンの方向を用いて前記読み込まれたアミノ酸配列を有するタンパク質の立体構造を再現した再現情報を生成する立体構造再現手段と、
を有することを特徴とするタンパク質立体構造予測装置。
前記アミノ酸配列読み込み手段は、アミノ酸配列が記憶された前記アミノ酸配列データベースから前記任意のアミノ酸配列を読み込むかわりに、入力手段からのアミノ酸配列の入力により読み込むことを特徴とする請求項１記載のタンパク質立体構造予測装置。
前記２次構造予測手段は、前記タンパク質２次構造データベースから前記２次構造情報を取得するかわりに、前記読み込まれたアミノ酸配列を基に２次構造を予測して前記２次構造情報を生成することを特徴とする請求項１または２記載のタンパク質立体構造予測装置。
前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成するアミノ酸同士が所定の角度のターンを形成することによってβストランドの１８０度ターンを形成する場合に存在確率の高い２面角がアミノ酸の個数に応じて記憶されていることを特徴とする請求項１から３記載のタンパク質立体構造予測装置。
前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成する最初のアミノ酸と最後のアミノ酸によってβストランドの１８０度ターンが形成され、前記最初のアミノ酸と前記最後のアミノ酸を除くアミノ酸が直鎖状に繋がる構造を有するターンにおいて存在確率の高い２面角が前記アミノ酸の個数に応じて記憶されていることを特徴とする請求項１から３記載のタンパク質立体構造予測装置。
前記ターン予測手段は、ターンがβストランドとβストランドとの間に出現する場合に、前記ターンに至る間でのβストランドが奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項１から５記載のタンパク質立体構造予測装置。
前記ターン予測手段は、ターンがαへリックスとαへリックスとの間に出現する場合に、前記ターンを形成するアミノ酸が奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項１から５記載のタンパク質立体構造予測装置。
アミノ酸配列に基づいて前記アミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測方法において、
アミノ酸配列読み込み手段が、タンパク質を構成するアミノ酸の１次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、任意のアミノ酸配列を読み込む手順と、
２次構造予測手段が、アミノ酸配列の２次構造と、２次構造がアミノ酸配列に出現する位置と、を対応づけて２次構造情報として記憶したタンパク質２次構造データベースから、前記読み込まれたアミノ酸配列に対応する２次構造情報を取得する手順と、
ターン予測手段が、立体構造既知のタンパク質を解析して得られた、ターンを挟む２次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の２面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記２次構造予測手段で取得された前記２次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の２面角とターンの方向を再現する手順と、
立体構造再現手段が、再現されたターン部のターンを形成する前記アミノ酸の２面角と前記ターンの方向を用いて前記読み込まれたアミノ酸配列を有するタンパク質の立体構造を再現した再現情報を生成する手順と、
を有することを特徴とするタンパク質立体構造予測方法。
前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成するアミノ酸同士が所定の角度のターンを形成することによってβストランドの１８０度ターンを形成する場合に存在確率の高い２面角がアミノ酸の個数に応じて記憶されており、
前記ターン予測手段は、前記２次構造情報及び前記ターンを形成するアミノ酸の個数に基づいて前記ターン構造情報を検索する、
ことを特徴とする請求項８記載のタンパク質立体構造予測方法。
前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成する最初のアミノ酸と最後のアミノ酸によってβストランドの１８０度ターンが形成され、前記最初のアミノ酸と前記最後のアミノ酸を除くアミノ酸が直鎖状に繋がる構造を有するターンにおいて存在確率の高い２面角が前記アミノ酸の個数に応じて記憶されており、
前記ターン予測手段は、前記２次構造情報及び前記ターンを形成するアミノ酸の個数に基づいて前記ターン構造情報を検索する、
ことを特徴とする請求項８記載のタンパク質立体構造予測方法。
前記ターン予測手段が、ターンがβストランドとβストランドとの間に出現する場合に、前記ターンに至る間でのβストランドが奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項８記載のタンパク質立体構造予測方法。
前記ターン予測手段が、ターンがαへリックスとαへリックスとの間に出現する場合に、前記ターンを形成するアミノ酸が奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項８記載のタンパク質立体構造予測方法。
コンピュータによってアミノ酸配列に基づいてアミノ酸により構成されるタンパク質の立体構造を予測するためのプログラムであって、
コンピュータを、
タンパク質を構成するアミノ酸の１次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、アミノ酸配列を読み込むアミノ酸配列読み込み手段、
アミノ酸配列の２次構造と、２次構造がアミノ酸配列に出現する位置と、を対応づけて２次構造情報として記憶したタンパク質２次構造データベースから、前記読み込まれたアミノ酸配列に対応する２次構造情報を取得する２次構造予測手段、
立体構造既知のタンパク質を解析して得られた、ターンを挟む２次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の２面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記２次構造予測手段で取得された前記２次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の２面角とターンの方向を再現するターン予測手段、
再現されたターン部のターンを形成する前記アミノ酸の２面角と前記ターンの方向を用いて前記タンパク質の立体構造を再現した再現情報を生成する立体構造再現手段、
として機能させることを特徴とするプログラム。