JP4282484B2 - タンパク質立体構造予測装置及びその予測方法 - Google Patents

タンパク質立体構造予測装置及びその予測方法 Download PDF

Info

Publication number
JP4282484B2
JP4282484B2 JP2003555389A JP2003555389A JP4282484B2 JP 4282484 B2 JP4282484 B2 JP 4282484B2 JP 2003555389 A JP2003555389 A JP 2003555389A JP 2003555389 A JP2003555389 A JP 2003555389A JP 4282484 B2 JP4282484 B2 JP 4282484B2
Authority
JP
Japan
Prior art keywords
turn
amino acid
protein
acid sequence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003555389A
Other languages
English (en)
Other versions
JPWO2003054743A1 (ja
Inventor
広太 酒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2003054743A1 publication Critical patent/JPWO2003054743A1/ja
Application granted granted Critical
Publication of JP4282484B2 publication Critical patent/JP4282484B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Peptides Or Proteins (AREA)

Description

技術分野
本発明はタンパク質立体構造予測装置及びその予測方法に関し、特にアミノ酸配列に基づいて前記アミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測装置及びその予測方法に関する。
背景技術
タンパク質は、20種類のアミノ酸がペプチド結合によって結合したポリペプチドである。このポリペプチドは、生体内等では巧妙に折り畳まれているのが普通で、アミノ酸が配列された直鎖状のポリペプチドが折り畳まれることによりタンパク質の複雑な立体構造が形成される。
ここで、直鎖状のポリペプチドを形成するアミノ酸の配列をタンパク質の1次配列と言う。これは、どのようなアミノ酸がどのような順序でペプチド結合しているかを示したもので、この配列によりタンパク質を構成しているアミノ酸残基の種類や並び方が決められる。
また、ポリペプチド鎖は、近くにあるアミノ酸残基同士が水素結合して安定化した一定の構造を作り出す。これを2次構造と言う。この2次構造には、αヘリックス、βシート、ターンがある。以下、2次構造について図面を用いて説明する。図31は、αヘリックスを示す図、図32は、βシートを示す図である。αヘリックス(1a、1b)は、図31に示すようにらせん構造であることからこう呼ばれる。また、βシートは、図32に示すようにβストランド(2a,2b)とよばれる鎖が2本以上並びシート(紙、面)のような形状に見えることからこう呼ばれる。αヘリックスあるいはβシートを繋ぐ部分をターンと言い、図31の例ではターン3はαヘリックス1aとαヘリックス1bを繋ぎ、図32の例ではβストランド2aとβストランド2bを繋いでいる。
さらに、これらの2次構造が複雑に組み合わさり、ポリペプチド全体が折り畳まれ、最終的にタンパク質固有の全体構造が完成する。これを3次構造(以下、立体構造とする)と言う。αヘリックスやβシートなどの局所的な2次構造がターンによって繋がれ、ここで曲げられ、多様な立体構造が形成される。図31の例では、αヘリックス1aとαヘリックス1bがターン3によって繋がれ、180度曲げられることによって逆平行に並ぶ構造が形成されている。
ところで、タンパク質の立体構造は、そのタンパク質がその機能を発現するかどうかと密接に関連しており、タンパク質の機能を理解するためには、その立体構造を知ることが重要である。このため、薬理学、生化学等のタンパク質を利用・研究する分野において、X線回折やNMR(核磁気共鳴)を用いてタンパク質の立体構造の解析が行なわれてきた。しかしながら、このような解析技術には多大な費用と時間がかかるという問題があった。
一方、このような解析技術の進歩により多くの立体構造が決定された結果、構造の類似性を示すタンパク質が発見されたことから、これまでに得られた立体構造情報に基づいてタンパク質の立体構造を予測する様々な手法が考案されてきた。このような状況にあって、現在、特に注目されているのは、ホモロジーモデリングという方法である。例えば、リー・R.(Lee,R.)著,“Protein Model Building using Structural Homology”,ネイチャー(Nature,356),1992年,p.543−544参照。ホモロジーモデリング法では、一次配列が似ていれば立体構造も似ているということを前提として解析を行なう。立体構造が既知のタンパク質が登録された立体構造データベースを検索し、構造予測を行なうタンパク質のアミノ酸の一次配列が立体構造既知のタンパク質のアミノ酸配列と類似性があればその立体構造を取得し、これを用いてモデリングしながら所望のアミノ酸配列の立体構造を予測する。
しかし、従来のホモロジーモデリング法を用いたタンパク質の立体構造予測では、立体構造既知のタンパク質と類似するアミノ酸配列を持たないタンパク質の立体構造が予測できないという問題がある。
上記説明のように、ホモロジーモデリング法では、アミノ酸配列が類似している場合にはその立体構造も類似していると予測されることに基づいて、立体構造が未知のタンパク質の立体構造を予測している。このため、アミノ酸配列の類似した立体構造既知のタンパク質が存在しないと立体構造を予測することができない。例えば、まったく新規のアミノ酸配列が見つかった場合には、そのタンパク質の立体構造を予測することは不可能であった。
近年、タンパク質の2次構造の予測精度は、以前に比べて改善されており、この予測に基づいて立体構造を予測する場合、αヘリックス、βストランドはその構造により規定することができる。しかしながら、上記説明のようにβストランドからβシートに移行するとき、αヘリックスとαヘリックスとを繋ぐとき、あるいはαヘリックスとβシートとを繋ぐとき、接続部分にターンという構造を取る必要がでてくる。ところが、ターンに関する定義は自由度が高く、規定することは非常に困難である。このため、タンパク質の立体構造を予測する現行のモデリングソフトでは、ターンについて規定することや、その構造を再現することはまだできていない。
発明の開示
本発明はこのような点に鑑みてなされたものであり、ターンを規定することによってタンパク質の立体構造を予測するタンパク質立体構造予測装置及びその予測方法を提供することを目的とする。
本発明では上記課題を解決するために、図1に示すようなタンパク質立体構造予測装置が提供される。本発明に係る立体構造予測装置では、タンパク質の1次配列であるアミノ酸配列が読み込まれ、アミノ酸配列と、そのアミノ酸配列に基づいて予測される局所的な2次構造情報とが、立体構造予測部200に入力される。立体構造予測部200では、ターン形成部算出手段210は、2次構造情報に基づいて、ターンを形成するアミノ酸配列を抽出し、ここに含まれるアミノ酸の個数を算出して2次構造情報とともにターン予測手段220へ送る。ターン予測手段220は、算出されたターンを構成するアミノ酸の個数と、2次構造情報と、に応じて得られる存在確率の高いターンに関するターン構造情報を取得し、ターン構造情報に基づいてターン部を再現する。ターンの構造は、形成されるターンを2次構造とターンを構成するアミノ酸の個数とに応じていくつかのパターンに分類できることが見いだされており、ターン構造情報はこの分類ごとに得られた存在確率の高いターンの構造に関する情報である。ゆえに、ターン構造情報を用いて存在確率の高いターンを再現することができる。立体構造再現手段240は、再現されたターン部を用いてタンパク質全体の立体構造を再現し、所定の形式の再現情報を生成する。
また、上記課題を解決するために、2次構造情報及びターンを形成するアミノ酸の個数に応じて、立体構造既知のタンパク質についての立体構造情報より抽出される存在確率の高いターンに関するターン構造情報を予め取得し、所定の記憶手段に格納しておき、所望のタンパク質のアミノ酸配列とその2次構造情報とが取得されると、2次構造情報に基づいてターンを形成する前記アミノ酸の個数を算出し、2次構造情報及びターンを形成するアミノ酸の個数に基づいてターン構造情報を検索して対応する前記ターン構造情報を抽出し、抽出されたターン構造情報に基づいて再現されるターン部用いてタンパク質全体の立体構造を再現した再現情報を生成するタンパク質立体構造予測方法が提供される。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。
発明を実施するための最良の形態
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明の一実施の形態であるタンパク質立体構造予測装置の構成図である。
本発明に係るタンパク質立体構造予測装置は、タンパク質の1次配列としてタンパク質のアミノ酸配列(以下、アミノ酸シークエンスとする)を読み込むアミノ酸シークエンス読み込み部110、アミノ酸シークエンスを記憶したアミノ酸シークエンスデータベース(以下、アミノ酸シークエンスDBとする)120、1次配列であるアミノ酸シークエンスに基づいて2次構造を予測する2次構造予測部130、タンパク質の2次構造に関する情報を記憶したタンパク質2次構造データベース(以下、タンパク質2次構造DBとする)140、タンパク質の立体構造を予測する立体構造予測部200及び再現した立体構造を表示する表示部310から構成される。
アミノ酸シークエンス読み込み部110は、タンパク質を構成するアミノ酸の1次配列であるアミノ酸シークエンスを、アミノ酸シークエンスDB120等から読み込む。ここでの読み込みの方法は特に限定されない。例えば、通信ネットワークにより接続するアミノ酸シークエンスDB120から所望のアミノ酸シークエンスをダウンロードする方法等がある。もちろん、利用者がキーボード等の入力装置からアミノ酸シークエンスを入力したり、フレキシブルディスク等の記録媒体に記録されたアミノ酸シークエンスを読み込ませたりしてもよい。
アミノ酸シークエンスDB120は、タンパク質のアミノ酸シークエンスが登録・管理されたデータベースであり、キーワード等で検索することにより所望のアミノ酸シークエンス情報を引き出すことができる。アミノ酸シークエンスDB120は、装置内に組み込まれていても、通信回線等により外部に設けられていてもよい。また、登録されたアミノ酸シークエンスを保存管理する公的機関等のデータバンクであってもよい。
2次構造予測部130は、アミノ酸シークエンス読み込み部110が読み込んだアミノ酸シークエンスに対応する2次構造予測である2次構造情報を取得する。例えば、タンパク質の2次構造が登録されたタンパク質2次構造DB140を検索し、1次配列に対応する2次構造情報を読み出す。あるいは、Gainier−Robson法等を用いて2次構造を予測して2次構造情報を生成するとしても良い。2次構造情報は、アミノ酸シークエンス情報とともに立体構造予測部200へ送られる。
タンパク質2次構造DB140は、タンパク質の2次構造を予測した2次構造情報が記録されたデータベースであり、キーワード等で検索することにより所望のタンパク質の2次構造情報を引き出すことができる。タンパク質2次構造DB140は、アミノ酸シークエンスDB120と同様に、任意の形態で存在する。
立体構造予測部200は、アミノ酸シークエンス情報と2次構造情報とに基づいてタンパク質の立体構造を予測する機能を有し、予測した立体構造を再現するための再現情報を生成する。再現情報は、再現情報を利用するものに合わせた任意の形式で出力される。例えば、表示部310に出力する場合、再現された立体構造を表示するための座標等の表示に関する形式で出力される。また、分子動力学シミュレーションや分子軌道法による分子挙動シミュレーションに用いる入力構造として利用される場合、利用するシミュレーションソフトに応じた形式で出力される。立体構造の予測処理については後述する。
表示部310は、再現情報に基づいて、タンパク質の立体構造を3次元で表示する。
ここで、立体構造予測部200について詳しく説明する前に、タンパク質の表示及びタンパク質の立体構造を決めるパラメータについて図面を用いて説明する。図2はポリペプチドを示した図、図3はタンパク質の立体構造を決めるパラメータを示した図である。アミノ酸は、1つの炭素Cαにカルボキシル基(−COOH)とアミノ基(−NH)が結合したもので、図2に示したように、アミノ基とカルボキシル基から水を取り去ることによってできる(−CO−NH−)結合をペプチド結合と言う。アミノ酸がペプチド結合によって多数繋がったものがポリペプチドである。Rは側鎖、R以外の部分は主鎖といわれる。以下のタンパク質の立体構造を表す図面では、図2に示したポリペプチドの主鎖の部分をリボンまたはひもなどの形状で表す。また、βストランドはN末端からC末端に向かう方向を矢印で表す。ところで、ポリペプチドの主鎖を構成する6原子は、図3に示したように同一平面上に存在する。従って、タンパク質の立体構造は、1アミノ酸あたりN−CαとCα−Oの2つの結合する角度によって決まることになる。この2つの2面角はそれぞれファイ(φ)、プサイ(ψ)と呼ばれる。
図1に戻って、立体構造予測部200について説明する。立体構造予測部200は、ターンを形成するアミノ酸の個数を算出するターン形成部算出手段210、2面角φとψを割り付ける2面角割り付け手段であるφ、ψ割り付け手段221とターン方向を算出するターン方向算出手段222とから成るターン予測手段220、ターンの構造に関するターン情報を記録したターン情報データベース(以下、ターン情報DBとする)230、及び立体構造を再現する立体構造再現手段240から構成される。
ターン形成部算出手段210は、2次構造に基づいて、ターンを形成するターン形成部のアミノ酸シークエンスを抽出し、そのアミノ酸個数(以下、残基数とする)を算出する。
ターン予測手段220は、ターン形成部算出手段210の算出したターンを形成する残基数と2次構造情報とに基づいてターンを再現する。
ターン予測手段220のφ、ψ割り付け手段221は、ターン形成部算出手段210が算出した残基数に応じて、ターン情報DB230に登録されている存在確率の高いターンの構造に関するターン構造情報を取得し、これに基づいて2面角であるφとψを割り付ける。
ターン予測手段220のターン方向算出手段222は、ターン及びターンを挟む2次構造に応じて規定されるターン方向をターン情報DB230より検索し、これに基づいてターンの方向を決める。以下、ターンの方向を右ターンと左ターンとで表す。左ターンは、ペプチド鎖の伸張方向に対してターンの最初の残基のCαの側鎖が90度方向にあるときのターンの最後の残基のCαに対して270度の方向にあるものをいう。また、右ターンは、ペプチド鎖の伸張方向に対してターンの最初の残基のCαの側鎖が90度方向にあるときのターンの最後の残基のCαに対して90度の方向にあるものをいう。
ターン情報DB230には、2次構造とターンを形成するアミノ酸の個数に応じて得られる存在確率の高いターンの構造に関するターン構造情報が、2次構造とターンを形成する残基数に関連付けて記憶されている。上記の説明のように、ポリペプチドの構造は、1アミノ酸あたり2つのパラメータ(φとψ)に支配されている。本発明の発明者は、構造既知のタンパク質の立体構造を解析することにより、βストランドに出現するターンについて、ターンを形成する残基数ごとに存在確率の高いφとψの角度を規定した。また、本発明者によって、ターンの方向については、ターンに至るまでのβストランドを形成する残基数が奇数個か偶数個かで、それぞれ左ターンか右ターンかに分類できるということが見いだされた。さらに、αヘリックスをターンさせる場合には、αヘリックスとαヘリックスの間に挿入されるターン部の残基数が奇数個か偶数個かで、それぞれ逆方向を向く180度ターンか同方向を向くターンかに分類できるということも見いだされた。これらに基づいて、2次構造及びターンを形成する残基数に応じて得られる存在確率の高いターンの構造に関するターン構造情報(φとψ、ターンの方向等)が作成される。ターン構造情報は構造既知のタンパク質を解析して得られるため、予めターン構造情報を作成し、データベースとして登録しておくことが望ましい。ターン情報DB230では、このターン構造情報を保存・管理している。
立体構造再現手段240は、再現されたターンと2次構造情報とに基づいてタンパク質の立体構造を再現し、所定の形式の再現情報を生成する。再現情報は、再現情報を利用するものに合致する任意の形式で出力される。この場合、表示部310のため、立体構造を3次元座標に割り付けた再現情報が生成される。
このような構成のタンパク質立体構造予測装置の動作について説明する。
アミノ酸シークエンス読み込み部110は、アミノ酸シークエンスが記録・保存されたアミノ酸シークエンスDB120から立体構造を予測するタンパク質のアミノ酸シークエンスを読み込み、次の2次構造予測部130へ送る。2次構造予測部130では、読み込まれたアミノ酸シークエンスの2次構造がタンパク質2次構造DB140に記憶されているかどうかを検索し、記憶されている場合には、これを読み込む。また、記憶されていない場合、あるいは必要に応じて、Gainier−Robson法等を用いて2次構造を予測する。2次構造に関する2次構造情報は、立体構造予測部200へ送られる。
アミノ酸シークエンスDB120に格納されるアミノ酸シークエンス及びタンパク質2次構造DB140に格納される2次構造情報について具体例で説明する。図4はアミノ酸シークエンスとその2次構造情報の一例である。図4はPDB形式であるが、1次配列と2次構造とを並列に記載する並列形式など、他の形式であっても良い。アミノ酸シークエンス121は、アミノ酸の配列を示しており、個々のアルファベットはアミノ酸の種類を表している。また、2次構造情報141は、アミノ酸シークエンス121の2次構造を示しており、HELIXはαヘリックス構造、SHEETはβシート構造、TURNはターンが、アミノ酸シークエンス121に出現する位置を示している。
立体構造予測部200では、ターン形成部算出手段210は、ターンを形成するターン形成部の残基数を算出する。ターン予測手段220では、ターンの残基数と2次構造情報とを用いてターンを再現する。ターン情報DB230には、予め、2次構造と残基数に応じて得られた存在確率の高いターンの構造に関するターン構造情報が登録されている。図5はターン構造情報の一例であり、図6はターン構造情報に登録された2面角のパターンの一例である。
図5に示したように、ターン構造情報は、ターンが出現する箇所ごとに、ターンが形成する2面角(φとψ)、ターンの方向に関する規定などが登録されている。以下、βストランドとβストランドの間に出現するターンをβストランド構造のターン、αヘリックスとαヘリックスとの間に出現するターンをαヘリックス構造のターンと呼ぶこととする。2面角は、ターンを形成する残基数によって選択可能なパターンが規定されている。
本発明の実施の形態では、βストランド構造のターンにより180度曲げられる180度ターンを形成する残基数について、後述する立体構造解析に得られたφとψが登録されている。パターン1、2は、残基数が2で構成された180度ターンにおいて、最も存在確率の高いφとψの値である。パターン3、4、5は、残基数が3で構成された180度ターン(それぞれの残基の間は90度でターンする)において、最も存在確率の高いφとψの値である。同様にパターン6は、残基数が4で構成された180度ターン(それぞれの残基の間は60度でターンする)において、最も存在確率の高いφとψの値である。また、3残基以上で構成されるターンでは、ターンを形成する最初の残基と最後の残基によりβストランドとβストランドを180度ターンさせ、ターンを形成する中間の残基が直鎖状に繋がるというモデルを考えることもできる。以下、このようなターンを直鎖モデルと呼ぶこととする。パターン7、8は、直鎖モデルにより構成された180度ターンにおいて、最も存在確率の高いφとψの値である。
また、αヘリックス構造のターンの2面角は、ターンを形成する残基数によらず所定のφとψ(パターン9)をとることが規定される。各パターンのφとψ値は、図6に示したようにそれぞれ登録されている。
一方、ターンの方向は、βストランド構造のターンでは、ターンの前、すなわちターンに至る間でのβストランドの残基数が奇数の場合には左ターン、偶数の場合には右ターンをとることが規定されている。また、αヘリックス構造のターンでは、ターンを形成する残基数が奇数の場合にはαヘリックスとαヘリックスが逆方向を向くようにターンし、偶数の場合には同方向を向くようにターンすることが規定されている。
このように、2次構造情報に基づいてターン構造情報から2面角とターンの方向に関する規定情報を抽出することができる。なお、図示していないが、βストランドとαヘリックスとの間に出現するターンなどについても、同様にターン構造情報が登録されている。
ターン予測手段220のφ、ψ割り付け手段221では、2次構造情報及び残基数に基づいてターン情報DB230を検索し、存在確率の高い2面角を取得する。続く、ターン方向算出手段222でも同様に、2次構造情報及び残基数に基づいてターン情報DB230を検索し、ターンの方向を決定する。
例えば、βストランド構造のターンの場合、ターンの残基数に応じてφとψが規定され、ターンに至るまでのβストランドの残基数に応じて左ターンと右ターンに振り分けられる。また、αヘリックス構造のターンの場合、所定のφとψが規定され、ターンの残基数が奇数であればαヘリックスが逆方向を向くターン(180度ターン)、偶数であればαヘリックスが同方向を向くターンに振り分けられる。αヘリックスとβシートとの間のターンについても、同様の手順でφとψが規定され、ターンの方向が決まる。このようにして、ターン情報DB230の情報に基づいてターンの構造が規定される。立体構造再現手段240は、2次構造情報と規定されたターンに基づいて、立体構造を再現し、所定の形式の再現情報を生成する。
上記の説明のように、ターンを再現することによってタンパク質の立体構造を予測することが可能となる。特に、ホモロジーモデリング法と異なり、構造未知のタンパク質の立体構造を予測することもできる。予測された立体構造は、分子動力学シミュレーションや、分子軌道法による分子挙動シミュレーションの入力構造として利用することができる。
次に、本発明のタンパク質立体構造予測方法について説明する。図7は、本発明の一実施の形態であるタンパク質立体構造予測手順全体のフローチャートである。図1と同じものには同じ番号を付し、説明は省略する。
[ステップS01] まず、アミノ酸シークエンスDB120より、1次配列であるアミノ酸シークエンスの読み込みが行なわれる。例えば、図4のアミノ酸シークエンス121が読み込まれる。
[ステップS02] 次に、そのアミノ酸シークエンスの2次構造情報が存在するか否かがチェックされ、存在する場合はステップS03へ処理を進め、存在しない場合はステップS04へ処理を進める。
[ステップS03] 2次構造情報がタンパク質2次構造DB140に存在する場合には、このデータベースからタンパク質の2次構造に関する情報が読み込まれる。例えば、図4の2次構造情報141が読み込まれる。
[ステップS04] 2次構造情報が存在しない場合には、例えば、Garnier−Robson法等により、タンパク質の2次構造予測が行なわれ、2次構造情報が生成される。
[ステップS05] この情報に基づいてαヘリックスの構造情報が作成される。
[ステップS06] さらに、同様にしてβストランドの構造情報が作成される。
ここまでの処理により、最終的にαヘリックス及びβストランドの立体構造を再現する際に必要な3次元座標情報が生成される。αヘリックス及びβストランドの3次元座標情報の生成には、よく知られている処理手順を適宜用いる。
[ステップS07] 次に、2次構造情報に基づいて、ターン再現処理が行なわれる。ターン再現処理の詳細については後述するが、ターン再現処理により、立体構造を再現する際に必要な3次元座標情報が生成される。
上記の説明の手順を実行することにより、αヘリックス構造、βストランド構造及びターン構造の3次元座標情報が生成されたことになり、これらを合わせた立体構造情報400が出力される。
続いて、ターン再現処理について説明する。図8は、ターン再現処理手順のフローチャートである。図1と同じものには同じ番号を付し、説明は省略する。
ターン再現処理は、所望のタンパク質の2次構造情報が生成、あるいは読み込まれた後に起動される。
[ステップS701] 2次構造情報に基づいて、何個のアミノ酸でターンするかが算出される。これにより、ターンを形成する残基数が算出される。
[ステップS702] 続いて、ターンが出現する構造がチェックされる。βストランド構造のターンの場合、ステップS703へ処理を進め、αヘリックス構造のターンの場合ステップS705へ処理を進める。それ以外のターン構造の場合も同様に分岐して処理を行なうが、ここでの説明は省略する。
[ステップS703] βストランド構造のターンの場合、ステップS701で算出されたターンを形成する残基数に基づいてターン情報DB230からφとψを検索し、選択されたパターンのφとψを割り付ける。例えば、図4に示した2次構造情報141のβシート(62−67)とβシート(70−75)との間のターン(68、69)は、ターンの残基数が2であるので、ターン構造情報の残基数2に対応するφとψが検索される。ここで、()内は、2次構造情報141に記載されたアミノ酸の位置を表す。
[ステップS704] ステップS703に続いて、2次構造情報からターンに至る間でのβストランドの残基数を算出し、算出された残基数に基づいてターン情報DB230を検索し、ターンの方向を決定する。例えば、ステップS703の例の場合、βシート(62−67)の残基数は偶数であるので、右ターンが規定される。また、ターンの方向は、βストランドの残基数が奇数か偶数かにより左ターンか右ターンかが規定されるので、ターン情報DB230を用いず、ターン方向の振り分けをプログラムで行なうようにしてもよい。ステップS703、704によりβストランド構造における2面角とターンの方向が決定されたので、処理をステップS706へ進める。
[ステップS705] αヘリックス構造のターンの場合、ステップS701で算出されたターンを形成する残基数に基づいてターン情報DB230を検索し、ターンの方向を決定する。例えば、図4に示した2次構造情報141の場合、αヘリックス(2−28)とαヘリックス(33−54)の間のターン(29−32)の残基数は偶数であるので、αヘリックス(2−28)とαヘリックス(33−54)は同方向に並ぶと規定される。また、対応するφとψもターン情報DB230より抽出される。βストランドと同様、ターンの方向は、ターンの残基数が奇数か偶数かにより逆方向か同方向かが規定されるので、ターン情報DB230を用いず、ターン方向の振り分けをプログラムで行なうようにしてもよい。これによりβストランド構造のターンにおける2面角とターンの方向が決定されたので、処理をステップS706へ進める。
[ステップS706] これまでの処理により得られたφとψの値、及びターン方向に基づいて、3次元座標(立体構造)の各原子への割り付けが行なわれ、ターン構造が3次元座標に割り付けられる。
[ステップS707] 3次元座標に割り付けられたターン構造を所定の出力形式に合わせた3次元座標情報を生成して出力する。
ここで、ステップS703におけるβストランド構造のターンのφとψの割り付け処理について、さらに詳しく説明する。図9は、βストランド構造のターン再現処理手順のフローチャートである。検出されたターンがβストランド構造である場合に、処理が起動される。
[ステップS7031] ターンを直鎖モデルで予測するかどうかを判断する。例えば、ターンを形成する残基数が5を超えた場合には、直鎖モデルを用いる等の条件を予め設定しておき、この条件に従って判断する。直鎖モデルを用いない場合はステップS7032に処理を進め、用いる場合はステップS7033へ処理を進める。
[ステップS7032] 直鎖モデルを用いない場合、ターンを形成する残基数に応じてターン情報DBに登録されたパターンを選択し、そのφとψを割り付け、処理を終了する。
[ステップS7033] 直鎖モデルの場合、ターンを形成する残基数が奇数であるかどうかを調べる。奇数の場合にはステップS7034を実行し、偶数であれば実行しない。
[ステップS7034] ターンを形成する残基数が奇数の場合、残基数を1プラスする。これは、ターンを構成する残基は、ジグザグ状に並ぶため、奇数では直鎖状の構造を取れないためである。
[ステップS7035] ターンを形成する最初の残基と最後の残基にパターン7またはパターン8に登録されたφとψを割り付ける。
[ステップS7036] ターンを形成する最初の残基と最後の残基を除く、中間に位置する残基について、これらの残基が直鎖状に配置されるようなφとψを割り付ける。
このような処理により、βストランド構造のターンが何残基でターンする場合でも、ターン構造を予測することが可能となる。
以上の手順により生成された3次元座標情報に基づいて、表示部310においてタンパク質の立体構造の表示が行なわれる。図10は、本発明の実施の形態であるタンパク質立体構造予測装置及びその予測方法によるタンパク質の立体構造表示の一例である。上記説明の図面と同様、矢印で表された部分がβストランド、らせんで表された部分がαヘリックス、これらを繋ぐ部分がターンである。
このように、ターン構造情報を参照してφとψを規定することによって、存在確率の高いターンを予測することにより、従来自由度が高く規定が困難であったターンを再現することができる。本発明の立体構造予測方法では、ターン構造の規定を2次構造情報と、2次構造に応じて規定されるターン構造が登録されたターン構造情報とに基づいてターン構造の予測を行なっているため、立体構造未知のアミノ酸配列を持つタンパク質の立体構造を予測することも可能である。
上記の説明では、アミノ酸シークエンスにターンが出現するごとに、ターンの構造を解析するとしたが、それぞれのタイプごとにターンを再現していくとすることもできる。図11は、本発明の他の実施の形態のターン再現処理手順のフローチャートである。
図8の場合と同様に、2次構造情報が生成された後、処理が起動される。
[ステップS711] 読み込まれた2次構造情報からβストランド構造のターンのうち、2残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報DB230から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
[ステップS712] 読み込まれた2次構造情報からβストランド構造のターンのうち、3残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報DB230から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
[ステップS713] 読み込まれた2次構造情報からβストランド構造のターンのうち、4残基でターンが行なわれているものを抽出し、抽出されたターンに対応するφとψをターン情報DB230から検索し、ターンに至るβストランドの残基数に基づいてターン方向を決定する処理を行なう。
[ステップS714] 読み込まれた2次構造情報からαヘリックス構造のターン部分を抽出し、抽出されたターンに対応するφとψをターン情報DB230から検索し、ターンの残基数に基づいてターン方向を決定する処理を行なう。
このような処理手順によってもターン構造を予測することが可能である。ここでは簡単のため、直鎖モデルを用いた処理を省いたが、例えば、ステップS713とステップS714の間に、残基数が5残基以上の場合の処理として処理を追加することもできる。
なお、上記の説明のターン情報DB230に登録されたターン構造情報は、立体構造既知のタンパク質を立体構造解析することにより得ることができる。特に本発明の発明者は、従来自由度が高く規定が困難であったβストランドとβストランドの間に出現するβストランド構造のターンの2面角とターンの方向、及びαヘリックスとαヘリックスの間に出現するαヘリックス構造のターンの方向についての規定を立体構造解析により見出すことに成功した。
ここで、本発明の発明者が行なった構造既知のタンパク質の立体構造解析について説明する。始めにβストランド構造のターンについて説明し、続いてαヘリックス構造のターンについて説明する。
βストランド構造のターンは、例えば、βストランドがβシートに移行する場合には180度ターンで折り畳まれることになる。この場合、ターンには、少なくとも2つのアミノ酸残基が必要である。図12は、本発明に係るタンパク質の立体構造解析で用いたターンのタイプの分類である。(A)はターンが2残基、(B)はターンが3残基、(C)はターンが4残基で構成されるタイプを示している。図では、ターンを構成する残基をtn(n=1、2、・・・)で示している。この図は、ターンの分類を説明するための図で、実際の構造を表しているわけではない。通常のターンは、この程度の残基数で構成されることが多いので、2残基、3残基及び4残基についての立体構造解析を行ない、存在確率の高いφとψを導き出せば、βストランド構造の大部分のターン構造を予測することが可能になる。また、3残基以上で形成されるターンについては直鎖モデルで予測可能であることは説明したが、これは(A)で示した2残基ターンの最初の残基t1と最後の残基t2の間に、直鎖状に残基が繋がるというモデルとなる。
それぞれの場合について行なった立体構造解析について説明する。
立体構造解析のため、まず、タンパク質の立体構造データが登録・管理されているタンパク質立体構造データバンク、例えば、米国PDB運営グループRCSB(Research Coraborately for Structual Bioinfomatics)によって運営されているPDB(Proetin Data Bank)から、βストランド構造を豊富に持つβストランドに富んだ(以下、これをβストランドリッチと呼ぶ)タンパク質を“porin”というキーワードを元に検索した。PDBサイトへはインターネット等を経由してアクセスし、所望のデータを検索した。これにより、“porin”という言葉をキーワードとして138個の検索例が検索された。
続いて、それぞれのタイプのターンについての解析が行なわれる。図からわかるように、(A)は、2残基で180度ターンを行なっている。以下、このタイプをβストランド180度ターンと呼ぶ。(B)は、3残基で180度ターン、すなわち1残基で90度ターンを行なっており、以下、このタイプをβストランド90度ターンと呼ぶ。(C)は、4残基で180度ターン、すなわち1残基で60度ターンを行なっており、以下、このタイプをβストランド60度ターンと呼ぶ。
2残基で構成される180度ターンの場合について説明する。(A)の2残基(βストランド180度)ターンの場合、検索例の中から実際に2残基で180度ターンを行なっている部分を検索した。検索を行なう場合、例えば、構造はProtein Adviser for Win(FQS)によって調べ、そのφとψの角度についてはフリーソフトDSSPによって調べる。ここでは、2残基で180度ターンを行なっている部分が59例検出された。続いて、59例のφとψの角度に基づいて、ラマチャンドラン(Ramachandran)・プロットを書いた。ラマチャンドラン・プロットは、横軸にφ、縦軸にψをとった平面上に、1つ1つのアミノ酸についての2面角データをプロットしたものである。実際のタンパク質は、立体障害のため、許容される2面角の範囲が限られている。ラマチャンドラン・プロットを書くことにより、その許容範囲を知ることができる。
図13は、βストランド180度ターンにおける1残基目のラマチャンドラン・プロットである。また、図14は、βストランド180度ターンにおける2残基目のラマチャンドラン・プロットである。これらは、縦軸にφ、横軸にψを取った平面上に、検索された59例のターンの1残基目と2残基目のアミノ酸についてのφとψの角度データをプロットしたものである。このようにして得られたプロットは特定の領域に集中していることがわかる。実際の立体構造では、この領域のφとψの組み合わせがとられる。
φとψの角度の分布をよりはっきりさせるため、1残基目と2残基目で角度の分布図を書く。図15は、βストランド180度ターンにおける1残基目のφとψの角度の分布図である。分布図は、−180度から180度まで10度ずつに区切り、その中に含まれる角度φ、ψの全体を1としたときの存在確率をグラフに表している。これによると、180度ターンをなす第1残基のφは、−60度と80度近傍に分布することがわかる。一方、180度ターンをなす第1残基のψは、−120度と120度近傍に分布することがわかる。また、図16は、βストランド180度ターンにおける2残基目のφとψの角度の分布図である。同様に、180度ターンをなす第2残基のφは、−90度と90度近傍に分布し、ψは0度近傍に分布することがわかる。こうして分布図より、βストランド180度ターンにおける存在確率が高いφとψの角度が得られる。
図17は、立体構造解析により得られたβストランド180度ターンにおける代表的な2面角の角度とターン方向の結果を示している。
結果Aは、1残基目のφが−60.0度、ψが120.0度、2残基目のφが90.0度、ψが0.0度をとり、ターンまでのβストランドの残基数が5で左ターンが起きることを示している。図15及び図16から、このようなφとψの組み合わせの存在確率が高いことが判明している。また、結果Bは、φとψの組み合わせは結果Aと同じであるが、ターンまでの残基数が6で右ターンが起きることを示している。結果Cは、1残基目のφが80.0度、ψが−120.0度、2残基目のφが−90.0度、ψが−10.0度近傍をとり、ターンまでのβストランドの残基数が5で左ターンが起きることを示している。結果Dは、φとψの組み合わせは、結果Cと同じであるが、ターンまでの残基数が6で右ターンが起きることを示している。
また、本発明の発明者は、このようにして得られた解析結果を分析することによって、βストランドとβストランドとの間のターンでは、ターンに至るまでのβストランドを形成する残基が奇数個か偶数個かで、それぞれ左ターンか右ターンかに分類されることを見出した。
このようにして規定されたφとψのパターンは、ターン情報DB230に記憶しておき、ターン予測手段220が検索して読み出し、ターンを再現する際に利用する。
解析結果により得られた存在確率の高い2面角をとる立体構造を本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。
図18は、βストランド180度ターンの第1の立体構造表示例である。これは、図17に示した結果Cの2面角及びターンまでの残基数データで表される立体構造を表示している。矢印で表した部分がβストランド部分、それを繋ぐ部分がターン部分を示している。これは、左ターンの一例である。
同様に、図19は、βストランド180度ターンの第2の立体構造表示例である。これは、図17に示した結果Dの2面角及びターンまでの残基数データで表される立体構造を表示している。φとψは、図18と同じであるが、右ターンが起きている。
ターン構造情報としてデータベースに登録する場合には、分布図より得られたφとψの角度を本発明のタンパク質立体構造予測方法を用いたモデリングソフトで再現し、実際にターンを表示ソフトで確認する。このようにして、ターンを行なう角度を微調整し、登録する角度を決定する。
3残基で構成される90度ターンの場合について説明する。(B)のβストランド90度ターンの場合、138個の検索例の中から実際に1残基で90度ターンを行なっている部分を検索する。(A)βストランド180度ターンの場合と同様の手法で、1残基で90度ターンを行なっている部分が365例検出された。続いて、365例のφとψの角度に基づいて、ラマチャンドラン・プロットを書く。さらに、φとψの角度の分布を明確にするため、角度の分布図を書く。図20は、90度ターンにおける1残基目のφとψの角度の分布図である。分布図は、(A)βストランド180度ターンの場合と同様に描かれている。これによると、90度ターンをなす第1残基のφは、−60度から80度近傍、及び90度近傍に分布することがわかる。一方、90度ターンをなす第1残基のψは、−10度と130度近傍に分布することがわかる。こうして分布図より、90度ターンにおける存在確率が高いφとψの角度が得られる。
図21は、立体構造解析により得られたβストランド90度ターンにおける代表的な2面角の角度とターン方向の結果を示している。結果Eは、1残基目のφが−59.9度、ψが120.0度をとり、ターンまでの残基数が5で左ターンが起きることが示されている。結果Fは、1残基目のφが−79.9度、ψが−10.1度をとり、ターンまでの残基数が5の奇数で左ターンが起きることが示されている。さらに、結果Gは、1残基目のφが90.0度、ψが−10.0度度、ターンまでの残基数が6で右ターンが起きることを示している。
上記の説明のβストランド180度ターンの場合と同様に、解析結果により得られた存在確率の高い2面角をとる立体構造を本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。
図22は、βストランド90度ターンの第1の立体構造表示例である。これは、結果Eにより得られたφとψを用いて、左ターンのターン部分を示した表示画面の例である。また、図23は、βストランド90度ターンの第2の立体構造表示例である。これは、結果Gにより得られたφとψを用いた右ターンのターン部分を示した表示画面の例である。
4残基で構成されるβストランド60度ターンの場合について説明する。(C)のβストランド60度ターンの場合、138個の検索例の中から実際に1残基で60度ターンを行なっている部分を検索する。(A)βストランド180度ターンの場合と同様の手法で、1残基で60度ターンを行なっている部分が273例検出された。続いて、273例のφとψの角度に基づいて、ラマチャンドラン・プロットを書く。次に、φとψの角度の分布を明確にするため、角度の分布図を書く。
図24は、βストランド60度ターンにおける1残基目のφとψの角度の分布図である。分布図は、(A)βストランド180度ターンの場合と同様に描かれている。これによると、60度ターンをなす第1残基のφは、150度近傍に分布することがわかる。一方、60度ターンをなす第1残基のψは、−75度近傍に分布することがわかる。こうして分布図より、60度ターンにおける存在確率が高いφとψの角度が得られる。
図25は、立体構造解析により得られたβストランド60度ターンにおける存在確率の高いφとψの角度である。結果Hは、1残基目のφが−75.0度、ψが150.0度をとり、ターンまでの残基数が5の奇数で左ターンが起きることが示している。結果Iは、φとψの組み合わせは、パターン1と同じで、ターンまでの残基数が6で右ターンが起きることが示している。
続いて、解析結果により得られた存在確率の高い2面角をとる立体構造を本発明にかかるタンパク質立体構造予測装置を用いて表示した例を示す。
図26は、βストランド60度ターンの第1の立体構造表示例である。これは、結果Hにより得られたφとψを用いてβストランド60度左ターンのターン部分を示した表示画面の例である。また、図27は、βストランド60度ターンの第2の立体構造表示例である。これは、結果Iにより得られたφとψを用いてβストランド60度右ターンのターン部分を示した表示画面の例である。
直鎖モデルの場合について説明する。本発明の発明者は、上記説明のβストランド構造のターンの構造に関する解析を行なったのと同様の手法で、立体構造解析を行なった。直鎖モデルの場合、(A)2残基180度ターンと同様にターンは最初の残基(2残基の場合のt1)と、最後の残基(2残基の場合のt2)によってターンが形成される。そして、中間の残基は直鎖状に配置される。図28は、立体構造解析により得られた直鎖モデルにおける存在確率の高いφとψの角度である。結果Jは、1残基目のφが−60.0度、ψが120.0度、2残基目のφが90.0度、ψが0.0度をとり、ターンまでのβストランドの残基数が5で左ターンが起きることを示している。また、結果Kは、φとψの組み合わせは結果Jと同じであるが、ターンまでの残基数が6で右ターンが起きることを示している。結果Lは、1残基目のφが80.0度、ψが−120.0度、2残基目のφが−90.0度、ψが−10.0度近傍をとり、ターンまでのβストランドの残基数が5で左ターンが起きることを示している。結果Mは、φとψの組み合わせは、結果Lと同じであるが、ターンまでの残基数が6で右ターンが起きることを示している。
αヘリックス180度ターンの場合について説明する。本発明の発明者は、上記説明のβストランド構造のターンの構造に関する解析を行なったのと同様の手法で、αヘリックス構造の180度ターンの立体構造解析を行なった。その結果、αヘリックスを180度ターンさせようとするときに、その曲げたい第1のαヘリックスと第2のαヘリックスの間にβシートの残基を奇数個、偶数個入れることにより、次のような結果を得ることが見いだされた。
残基数が奇数個の場合:第1のαヘリックスと第2のαヘリックスとは逆方向を向く(180度ターン)。
残基数が偶数個の場合:第1のαヘリックスと第2のαヘリックスとは同方向を向く。
実際のαヘリックスでのターンを形成する残基数はいろいろであるが、この関係でターンが起こることがわかっていれば、αヘリックス構造のターン構造を予測し、再現することが可能である。αヘリックス構造のターンを、このような規則を用いて予測する本発明に係るタンパク質立体構造予測装置を用いて表示した例を示す。図29は、αヘリックス構造のターンの第1の立体構造表示例である。これは、ターンを形成する残基数が奇数個の場合のαヘリックスとターンを示している。残基数が奇数個であるので、αヘリックス同士が逆方向を向く180度ターンが形成されている。また、図30は、αヘリックス構造のターンの第2の立体構造表示例である。これは、ターンを形成する残基数が偶数個の場合のαヘリックスとターンを示している。残基数が偶数個であるので、αヘリックス同士が同じ方向を向くターンが形成されている。
上記の説明は、ターン情報DB230に登録するターン構造情報のパターンの一例を示したものであり、本発明はこれに限定されない。また、ターン情報DB230に登録するターン構造情報のパターンは任意であり、複数のパターンを登録しておき任意に選択するようにしても良いし、適当な1つを選び登録しておき、これを使用するようにしても良い。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、タンパク質立体構造予測装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto−Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
以上説明したように本発明のタンパク質立体構造予測装置では、タンパク質の1次配列であるアミノ酸配列を読み込んで2次構造を予測、あるいはデータベースより2次構造を取得し、予測された2次構造に基づいてターンを形成するアミノ酸の個数を算出し、2次構造とアミノ酸の個数とに応じて得られる存在確率の高いターン構造を取得し、ターンを再現し、立体構造を予測する。
このように、2次構造とターンを形成するアミノ酸の個数とに応じて得られる存在確率の高いターン構造に基づいてターンを予測することにより、従来自由度が高く規定が困難であったターンを再現することができる。この結果、構造未知のアミノ酸配列を有するタンパク質であっても立体構造を予測することが可能となる。
また、本発明のタンパク質立体構造予測プログラムをコンピュータに実行させることにより、コンピュータが、タンパク質のアミノ酸配列を読み込み、2次構造情報を取得する。次に、2次構造情報に基づいてターンを形成するアミノ酸の個数を算出し、算出されたアミノ酸の個数と2次構造情報とによって、存在確率の高いターンのターン構造情報を取得してターンを予測・再現し、タンパク質の立体構造を予測する。
このように、2次構造より求められるターンを形成するアミノ酸の個数及び2次構造とに応じて、存在確率の高いターンのターン構造情報を取得し、ターンを予測する。これにより、従来自由度が高く規定が困難であったターンを予測・再現することができる。この結果、構造未知のアミノ酸配列を有するタンパク質であっても立体構造を予測することが可能となる。
上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。
【図面の簡単な説明】
図1は、本発明の一実施の形態であるタンパク質立体構造予測装置の構成図である。
図2は、ポリペプチドを示した図である。
図3は、タンパク質の立体構造を決めるパラメータを示した図である。
図4は、アミノ酸シークエンスとその2次構造情報の一例である。
図5は、ターン構造情報の一例である。
図6は、ターン構造情報に登録された2面角のパターンの一例である。
図7は、本発明の一実施の形態であるタンパク質立体構造予測手順全体のフローチャートである。
図8は、ターン再現処理手順のフローチャートである。
図9は、βストランド構造のターン再現処理手順のフローチャートである。
図10は、本発明の実施の形態であるタンパク質立体構造予測装置及びその予測方法によるタンパク質の立体構造表示の一例である。
図11は、本発明の他の実施の形態のターン再現処理手順のフローチャートである。
図12は、本発明に係るタンパク質の立体構造解析で用いたターンのタイプの分類である。
図13は、βストランド180度ターンにおける1残基目のラマチャンドラン・プロットである。
図14は、βストランド180度ターンにおける2残基目のラマチャンドラン・プロットである。
図15は、βストランド180度ターンにおける1残基目のφとψの角度の分布図である。
図16は、βストランド180度ターンにおける2残基目のφとψの角度の分布図である。
図17は、立体構造解析により得られたβストランド180度ターンにおける代表的な2面角の角度とターン方向の結果を示している。
図18は、βストランド180度ターンの第1の立体構造表示例である。
図19は、βストランド180度ターンの第2の立体構造表示例である。
図20は、90度ターンにおける1残基目のφとψの角度の分布図である。
図21は、立体構造解析により得られたβストランド90度ターンにおける代表的な2面角の角度とターン方向の結果を示している。
図22は、βストランド90度ターンの第1の立体構造表示例である。
図23は、βストランド90度ターンの第2の立体構造表示例である。
図24は、βストランド60度ターンにおける1残基目のφとψの角度の分布図である。
図25は、立体構造解析により得られたβストランド60度ターンにおける存在確率の高いφとψの角度である。
26は、βストランド60度ターンの第1の立体構造表示例である。
図27は、βストランド60度ターンの第2の立体構造表示例である。
図28は、立体構造解析により得られた直鎖モデルにおける存在確率の高いφとψの角度である。
図29は、αヘリックス構造のターンの第1の立体構造表示例である。
図30は、αヘリックス構造のターンの第2の立体構造表示例である。
図31は、αヘリックスを示す図である。
図32は、βシートを示す図である。

Claims (13)

  1. アミノ酸配列に基づいてアミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測装置において、
    タンパク質を構成するアミノ酸の1次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、任意のアミノ酸配列を読み込むアミノ酸配列読み込み手段と、
    アミノ酸配列の2次構造と、2次構造がアミノ酸配列に出現する位置と、を対応づけて2次構造情報として記憶したタンパク質2次構造データベースから、前記読み込まれたアミノ酸配列に対応する2次構造情報を取得する2次構造予測手段と、
    立体構造既知のタンパク質を解析して得られた、ターンを挟む2次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の2面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記2次構造予測手段で取得された前記2次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の2面角とターンの方向を再現するターン予測手段と、
    再現されたターン部のターンを形成する前記アミノ酸の2面角と前記ターンの方向を用いて前記読み込まれたアミノ酸配列を有するタンパク質の立体構造を再現した再現情報を生成する立体構造再現手段と、
    を有することを特徴とするタンパク質立体構造予測装置。
  2. 前記アミノ酸配列読み込み手段は、アミノ酸配列が記憶された前記アミノ酸配列データベースから前記任意のアミノ酸配列を読み込むかわりに、入力手段からのアミノ酸配列の入力により読み込むことを特徴とする請求項1記載のタンパク質立体構造予測装置。
  3. 前記2次構造予測手段は、前記タンパク質2次構造データベースから前記2次構造情報を取得するかわりに、前記読み込まれたアミノ酸配列を基に2次構造を予測して前記2次構造情報を生成することを特徴とする請求項1または2記載のタンパク質立体構造予測装置。
  4. 前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成するアミノ酸同士が所定の角度のターンを形成することによってβストランドの180度ターンを形成する場合に存在確率の高い2面角がアミノ酸の個数に応じて記憶されていることを特徴とする請求項1から3記載のタンパク質立体構造予測装置。
  5. 前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成する最初のアミノ酸と最後のアミノ酸によってβストランドの180度ターンが形成され、前記最初のアミノ酸と前記最後のアミノ酸を除くアミノ酸が直鎖状に繋がる構造を有するターンにおいて存在確率の高い2面角が前記アミノ酸の個数に応じて記憶されていることを特徴とする請求項1から3記載のタンパク質立体構造予測装置。
  6. 前記ターン予測手段は、ターンがβストランドとβストランドとの間に出現する場合に、前記ターンに至る間でのβストランドが奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項1から5記載のタンパク質立体構造予測装置。
  7. 前記ターン予測手段は、ターンがαへリックスとαへリックスとの間に出現する場合に、前記ターンを形成するアミノ酸が奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項1から5記載のタンパク質立体構造予測装置。
  8. アミノ酸配列に基づいて前記アミノ酸により構成されるタンパク質の立体構造を予測するタンパク質立体構造予測方法において、
    アミノ酸配列読み込み手段が、タンパク質を構成するアミノ酸の1次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、任意のアミノ酸配列を読み込む手順と、
    2次構造予測手段が、アミノ酸配列の2次構造と、2次構造がアミノ酸配列に出現する位置と、を対応づけて2次構造情報として記憶したタンパク質2次構造データベースから、前記読み込まれたアミノ酸配列に対応する2次構造情報を取得する手順と、
    ターン予測手段が、立体構造既知のタンパク質を解析して得られた、ターンを挟む2次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の2面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記2次構造予測手段で取得された前記2次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の2面角とターンの方向を再現する手順と、
    立体構造再現手段が、再現されたターン部のターンを形成する前記アミノ酸の2面角と前記ターンの方向を用いて前記読み込まれたアミノ酸配列を有するタンパク質の立体構造を再現した再現情報を生成する手順と、
    を有することを特徴とするタンパク質立体構造予測方法。
  9. 前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成するアミノ酸同士が所定の角度のターンを形成することによってβストランドの180度ターンを形成する場合に存在確率の高い2面角がアミノ酸の個数に応じて記憶されており、
    前記ターン予測手段は、前記2次構造情報及び前記ターンを形成するアミノ酸の個数に基づいて前記ターン構造情報を検索する、
    ことを特徴とする請求項8記載のタンパク質立体構造予測方法。
  10. 前記ターン情報データベースには、ターンがβストランドとβストランドとの間に出現し、かつ、前記ターンを構成する最初のアミノ酸と最後のアミノ酸によってβストランドの180度ターンが形成され、前記最初のアミノ酸と前記最後のアミノ酸を除くアミノ酸が直鎖状に繋がる構造を有するターンにおいて存在確率の高い2面角が前記アミノ酸の個数に応じて記憶されており、
    前記ターン予測手段は、前記2次構造情報及び前記ターンを形成するアミノ酸の個数に基づいて前記ターン構造情報を検索する、
    ことを特徴とする請求項8記載のタンパク質立体構造予測方法。
  11. 前記ターン予測手段が、ターンがβストランドとβストランドとの間に出現する場合に、前記ターンに至る間でのβストランドが奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項8記載のタンパク質立体構造予測方法。
  12. 前記ターン予測手段が、ターンがαへリックスとαへリックスとの間に出現する場合に、前記ターンを形成するアミノ酸が奇数個であるか偶数個であるかに応じてターンの方向を規定することを特徴とする請求項8記載のタンパク質立体構造予測方法。
  13. コンピュータによってアミノ酸配列に基づいてアミノ酸により構成されるタンパク質の立体構造を予測するためのプログラムであって、
    コンピュータを、
    タンパク質を構成するアミノ酸の1次配列であるアミノ酸配列が記憶されたアミノ酸配列データベースから、アミノ酸配列を読み込むアミノ酸配列読み込み手段、
    アミノ酸配列の2次構造と、2次構造がアミノ酸配列に出現する位置と、を対応づけて2次構造情報として記憶したタンパク質2次構造データベースから、前記読み込まれたアミノ酸配列に対応する2次構造情報を取得する2次構造予測手段、
    立体構造既知のタンパク質を解析して得られた、ターンを挟む2次構造とターンを形成するアミノ酸の個数とターンを形成するアミノ酸の2面角とターン方向とを対応づけてターン構造情報として記憶したターン情報データベースから、前記2次構造予測手段で取得された前記2次構造情報のターンに関するターン構造情報を取得し、前記ターン構造情報に基づいてターン部のターンを形成するアミノ酸の2面角とターンの方向を再現するターン予測手段、
    再現されたターン部のターンを形成する前記アミノ酸の2面角と前記ターンの方向を用いて前記タンパク質の立体構造を再現した再現情報を生成する立体構造再現手段
    として機能させることを特徴とするプログラム。
JP2003555389A 2001-12-10 2002-12-10 タンパク質立体構造予測装置及びその予測方法 Expired - Fee Related JP4282484B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001375857 2001-12-10
JP2001375857 2001-12-10
PCT/JP2002/012942 WO2003054743A1 (en) 2001-12-10 2002-12-10 Apparatus for predicting stereostructure of protein and prediction method

Publications (2)

Publication Number Publication Date
JPWO2003054743A1 JPWO2003054743A1 (ja) 2005-04-28
JP4282484B2 true JP4282484B2 (ja) 2009-06-24

Family

ID=19184160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003555389A Expired - Fee Related JP4282484B2 (ja) 2001-12-10 2002-12-10 タンパク質立体構造予測装置及びその予測方法

Country Status (8)

Country Link
US (1) US20050069954A1 (ja)
EP (1) EP1455281B1 (ja)
JP (1) JP4282484B2 (ja)
KR (1) KR100879438B1 (ja)
CN (1) CN100501726C (ja)
AU (1) AU2002354462A1 (ja)
DE (1) DE60227986D1 (ja)
WO (1) WO2003054743A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100592086B1 (ko) * 2004-07-16 2006-06-21 아주대학교산학협력단 적응적인 가중치 보팅 알고리즘을 적용한 단백질 이차구조 예측 방법
CN101647022B (zh) * 2007-01-31 2012-07-18 麦科罗医药科技(武汉)有限公司 描述蛋白质的构象和根据折叠、整体形状与结构序列对其进行评价的方法、系统及装置
CN101294970B (zh) * 2007-04-25 2012-12-05 中国医学科学院基础医学研究所 蛋白质三维结构的预测方法
US7983887B2 (en) 2007-04-27 2011-07-19 Ut-Battelle, Llc Fast computational methods for predicting protein structure from primary amino acid sequence
CN101408911B (zh) * 2008-07-15 2010-06-09 北京科技大学 一类蛋白质二级结构智能预测模型构造技术
KR101091785B1 (ko) * 2010-04-07 2011-12-08 숭실대학교산학협력단 알파탄소의 좌표정보를 이용한 단백질 2차 구조 판별장치 및 방법
US20130338932A1 (en) * 2012-06-13 2013-12-19 Agilent Technologies, Inc. Computational method for mapping peptides to proteins using sequencing data
CN104395900B (zh) 2013-03-15 2017-08-25 北京未名博思生物智能科技开发有限公司 序列比对的空间计数运算方法
WO2015199162A1 (ja) * 2014-06-25 2015-12-30 国立研究開発法人科学技術振興機構 膜タンパク質の熱安定化変異体予測装置、熱安定化変異体予測方法、および、プログラム
CN109448784B (zh) * 2018-08-29 2021-05-18 浙江工业大学 一种基于二面角信息辅助能量函数选择的蛋白质结构预测方法
CN109300501B (zh) * 2018-09-20 2021-02-02 国家卫生健康委科学技术研究所 蛋白质三维结构预测方法及用其构建的预测云平台
EP4002383A3 (en) 2020-11-13 2022-08-03 Tokyo Institute of Technology Information processing device, information processing method, recording medium recording information processing program, and information processing system
JP7057003B1 (ja) 2021-02-26 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
JP7057004B1 (ja) 2021-03-05 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265030A (en) * 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
CA2359889A1 (en) * 1999-01-27 2000-08-03 The Scripps Research Institute Protein modeling tools
US20030083821A1 (en) * 2001-09-28 2003-05-01 Hannah Eric C. Fast secondary structure discovery method for protein folding

Also Published As

Publication number Publication date
AU2002354462A1 (en) 2003-07-09
EP1455281B1 (en) 2008-07-30
EP1455281A1 (en) 2004-09-08
DE60227986D1 (de) 2008-09-11
KR100879438B1 (ko) 2009-01-20
JPWO2003054743A1 (ja) 2005-04-28
US20050069954A1 (en) 2005-03-31
WO2003054743A1 (en) 2003-07-03
CN1602487A (zh) 2005-03-30
EP1455281A4 (en) 2007-07-11
CN100501726C (zh) 2009-06-17
KR20040062985A (ko) 2004-07-09

Similar Documents

Publication Publication Date Title
JP4282484B2 (ja) タンパク質立体構造予測装置及びその予測方法
Melo et al. Statistical potentials for fold assessment
Skolnick et al. Ab initio protein structure prediction via a combination of threading, lattice folding, clustering, and structure refinement
Shatsky et al. FlexProt: alignment of flexible protein structures without a predefinition of hinge regions
Shao et al. Predicting interresidue contacts using templates and pathways
de Brevern et al. Extension of a local backbone description using a structural alphabet: a new approach to the sequence‐structure relationship
Orengo CORA—topological fingerprints for protein structural families
Hu et al. TargetCrys: protein crystallization prediction by fusing multi-view features with two-layered SVM
Taylor Protein structure comparison using SAP
Verbitsky et al. Flexible structural comparison allowing hinge‐bending, swiveling motions
Comin et al. PROuST: a comparison method of three-dimensional structures of proteins using indexing techniques
Pierri et al. Lattices for ab initio protein structure prediction
Tao et al. Docking cyclic peptides formed by a disulfide bond through a hierarchical strategy
Wells et al. Chainsaw: protein domain segmentation with fully convolutional neural networks
Ison et al. Proteins and their shape strings
Wang et al. Inferring protein-protein interactions using a hybrid genetic algorithm/support vector machine method
Pandey et al. B-factor prediction in proteins using a sequence-based deep learning model
Can et al. Protein structure alignment and fast similarity search using local shape signatures
JP2007505372A (ja) アミノ酸配列の立体構造を確定し、分析する方法
Dong et al. Prediction of protein local structures and folding fragments based on building‐block library
WO2024082306A1 (en) Message passing graph neural network with vector-scalar message passing and run-time geometric computation
Banavar et al. Anisotropic effective interactions in a coarse‐grained tube picture of proteins
US20230253076A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
EP1098257A2 (en) Structural local alignment method using a double dynamic programming algorithm
Cline Protein sequence alignment reliability: prediction and measurement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090317

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090317

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120327

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130327

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140327

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees