JP2004220571A

JP2004220571A - タンパク質立体構造予測システム

Info

Publication number: JP2004220571A
Application number: JP2003406776A
Authority: JP
Inventors: Kentaro Tomii; 健太郎富井
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2002-12-26
Filing date: 2003-12-05
Publication date: 2004-08-05
Anticipated expiration: 2023-12-05
Also published as: US7243051B2; JP4231922B2; GB0513701D0; WO2004059557A1; GB2411655A; US20050267687A1; AU2003292697A1

Abstract

【課題】タンパク質の立体構造予測に好適に使用できる、タンパク質プロファイル行列間の類似性評価システムの提供。
【解決手段】タンパク質プロファイル行列間の類似性を評価するシステムであって、プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、(a) 入力プロファイル行列と、対象プロファイル行列の２つのプロファイル行列を用意する手段と、(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、(c) 前記相関係数からなるスコア行列を作成する手段とを含むシステムにより、上記課題を解決する。
【選択図】図２

Description

本発明は、タンパク質プロファイル行列間の類似性を評価するシステムに関するものであり、より詳しくは、タンパク質の立体構造予測に好適に使用されるタンパク質プロファイル行列間の類似性の評価システムに関する。

自然界にあるタンパク質は進化の過程で選択され、特定の機能を発現するに至ったが、このタンパク質の機能はその立体構造に依存することが知られている。したがって、タンパク質の立体構造が予測できれば、その機能を予測することが可能となる。

従来、未だ何の知見も得られていないタンパク質を調べるに際し、既に立体構造が知られているタンパク質との類似性をコンピュータによって測定することにより、タンパク質の立体構造を推論ないし予測する手法が望まれていた。このような手法の１つとして、タンパク質プロファイル行列同士を比較する方法が、有力な手法として知られている（Rychlewski L, Jaroszewski L, Li W, Godzik A. Protein Sci (2000) Feb;9(2):232-41：非特許文献１）。

ここで、タンパク質プロファイル行列とは、関連するタンパク質（タンパク質ファミリーなど）におけるアミノ酸種の出現頻度を、そのアミノ酸残基位置毎に数値化して行列としたものである。この行列は、通常、以下の手順で作成される。すなわち、まず、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントが与えられると、マルチプルアライメントの各アミノ酸残基位置における２０種のアミノ酸の各種類の出現数が計算される。続いて、これらの数を規格化することによって、出現確率に転換される。この時、与えられたマルチプルアラインメントに含まれるメンバー内での相互のアミノ酸配列類似性に応じた重みが考慮された上で出現数が補正され、プロファイル行列が作成される。

ここで、マルチプルアライメントとは、生物学的に相互に関連しあう複数のタンパク質のアミノ酸配列を、対応すると考えられるアミノ酸残基を揃えて並置したものをいう。マルチプルアライメントは、例えば、ある一配列を入力値として、既存のプログラムであるPSI-BLAST(Altschul et al., Nucleic Acids Res. (1997) 25(17):3389-3402：非特許文献２)を用いて、配列データベースに検索をかけることや、生物学的に相互に関連しあう複数のタンパク質のアミノ酸配列の一群を入力値として、これも既存のプログラムであるCLUSTALW(Higgins D., Thompson J., Gibson T.Thompson J.D., Higgins D.G., Gibson T.J.(1994). Nucleic Acids Res. 22:4673-4680：非特許文献３)を用いることで容易に作成することができる。また、立体構造比較などの結果から作成することも可能である。

表１は、アミノ酸配列の長さ（アミノ酸残基数）がｎであるタンパク質を基準として作成されたマルチプルアライメントを模式的に示したものである。なお、表１中、第１列目は個々のタンパク質の名称であり、第１行目の「１〜ｎ」は、マルチプルアライメントにおけるアミノ酸残基位置を示す。また、表１中のアルファベットはアミノ酸種を１文字標記したものである。

表１の例では、例示されたアミノ酸残基位置のすべてにアミノ酸が配置されているが、アミノ酸残基位置に対応するアミノ酸残基がないとされた場合は、「・（ドット）」としてギャップを示すこともできる。表２は、表１で得られた長さがｎであるマルチプルアライメントにしたがって作成されたプロファイル行列を模式的に示したものである。表２中、第１列目はアミノ酸種（ギャップを含んでいてもよい）であり、第１行目の「１〜ｎ」は、プロファイル行列におけるアミノ酸残基位置を示す。

プロファイル行列中の各列は、関連する複数のタンパク質における、各アミノ酸残基位置の全アミノ酸種の確率分布を表すことになる。表３は、表２に示されたプロファイル行列のうち、残基位置が「２」であるプロファイルカラムを模式的に示したものである。

すなわち、表２で示されるプロファイル行列では、残基位置が２におけるアラニン（Ａ）の補正された出現確率は０．００であり、メチオニン（Ｍ）の補正された出現確率は０．４１ということになる。

従来、２つのプロファイル行列や２つのアミノ酸配列を比較及び／又は揃えるために、ダイナミックプログラミング（Needleman SB, Wunsch CD, J Mol Biol. (1970) Mar;48(3):443-53 ：非特許文献４）が使用されてきた。アラインメントを作成する時に、比較される２つのアミノ酸配列や２つのプロファイル行列中のどの残基又はプロファイルカラムを対応付させるか（そこでは残基とギャップとの対応付も含まれる）決定する必要があるが、その対応付のさせ方は非常に多数考えられる。ダイナミックプログラミングは、その中から類似性スコアが最大となるような対応付を自動的に効率良く見出すアルゴリズムである。そしてまた、その対応付の結果それ自体が最終的に得たいアラインメントである。

ダイナミックプログラミングでは、通常のアミノ酸配列比較の場合は、比較される２つのアミノ酸配列、および、比較したい２つのアミノ酸配列の各々の残基ペアに対する類似性スコア（類似の度合いを示す点数）から構成されるスコア行列、プロファイル行列比較の場合は、比較される２つの代表アミノ酸配列と、比較したい２つのプロファイル行列の、各々のプロファイルカラムのペアに対する類似性スコアから構成されるスコア行列の入力を要求する。これらを入力することによって、ダイナミックプログラミングは、通常のアミノ酸配列比較の場合は、比較されるアミノ酸配列対のアラインメントとその最終スコア（類似性スコアが最大となるような最適パスを見つけることにより得られたスコア値）、プロファイル行列比較の場合は、比較される代表アミノ酸配列のアラインメント、およびその最終スコアが出力される。

したがって、ダイナミックプログラミングを使用する手法によりプロファイル行列を比較するためには、比較したい２つのプロファイル行列の類似性を精度よく評価したスコア行列を作成する必要がある。

２つのプロファイル間の類似の程度を示すスコア行列を算出する方法として、Rychlewskiらが開発した手法が知られている（Rychlewski et al. (2000), 9:p232-241）。これは、比較したいプロファイルカラムペア間の類似性スコアを、２つのプロファイルカラムを内積したものと定義づけて算出することにより、比較したい２つのプロファイル行列間のスコア行列を作成するものである。

たとえば、２つのプロファイル行列、Ｘ＝ｘ_１ｘ_２…ｘ_ｐ…ｘ_ｎ（ただし、ｘ_ｐはアミノ酸残基位置ｐにおけるプロファイルカラム）およびＹ＝ｙ_１ｙ_２…ｙ_ｑ…ｙ_ｍ（ただし、ｙ_ｑはアミノ酸残基位置ｑにおけるプロファイルカラム）が与えられたとき、ｎ行ｍ列のスコア行列の要素である、類似性スコアＤ_ｑｐ（プロファイルカラムｘ_ｐおよびプロファイルカラムｙ_ｑ間の類似性スコア）は、下記の式によって与えられる。

［式中、ｘ_ｐａ＝プロファイルカラムｘ_ｐの要素
ｙ_ｑａ＝プロファイルカラムｙ_ｑの要素
ｊ＝プロファイルカラムの要素数（通常２０）である。］

当該手法によれば、比較したい２つのプロファイルカラム間において、共にアミノ酸置換が激しくない出現残基種が非常に限られている場合には、内積した値も高い数値となるため、高い類似性スコアが与えられる事になる。このように出現残基種が非常に限られておりアミノ酸変異が激しくない高度に保存されている残基位置は、生体内での機能的あるいは、物理化学的要請から高度に保存された箇所と考えられ、生物学的にも重要な位置であると考えられている。上記手法では、このような領域はその類似性を精度良く評価することができると考えられる。

しかしながら、上記手法では、こうした出現残基種が限られた位置を精度良く評価することができる可能性があるものの、生物学的に重要な位置であっても、モチ−フ内に存在する非保存位置や、タンパク質立体構造上露出していることが重要で極性のみが重大な意義を占める位置、あるいはその逆に埋没部分に位置し疎水性のみが保存されている位置など、アミノ酸置換が激しく生起していてもその置換パターンに共通性があると考えられるような領域に関して精度良く評価することができないという問題があった。

さらに、スコア行列の各要素（類似性スコア）の平均値は負の値である事、標準偏差もほぼ一定値である事が望まれるため、類似性スコアに対して正規化処理を施さなければならず、煩雑であるという問題もあった。

従って、プロファイル行列間において、保存領域のみならず、非保存領域の類似性も評価もできる、高精度かつ簡便な手法の開発が望まれていた。
Rychlewski L,Jaroszewski L, Li W, Godzik A. Protein Sci 2000 Feb;9(2):232-41 Altschul et al., NucleicAcids Res. (1997) 25(17):3389-3402 Higgins D., Thompson J.,Gibson T.Thompson J.D., Higgins D.G., Gibson T.J.(1994). Nucleic Acids Res.22:4673-4680 Needleman SB, Wunsch CD, J Mol Biol. 1970 Mar;48(3):443-53

本発明は、タンパク質の立体構造を予測するための、タンパク質プロファイル行列同士の類似性を評価するシステムを提供することを目的とする。

すなわち、本発明は、次のようなタンパク質プロファイル行列間の類似性評価システム、タンパク質立体構造の予測システム、コンピュータをそれらシステムとして機能させるためのプログラム、そのプログラムを記録したコンピュータ読み取り可能な記録媒体等を提供する。

（１）タンパク質の立体構造を予測するための、タンパク質プロファイル行列間の類似性を評価するシステムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段：
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の２つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むシステム。

（２）（１）記載のシステムにより作成されたスコア行列を用いることを特徴とするタンパク質立体構造の予測システム。

（３）コンピュータを、タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムとして機能させるためのプログラムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段：
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の２つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むプログラム。

（４）上記（３）記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

（５）タンパク質プロファイル行列間の類似性を評価する方法であって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価方法は、以下のステップ：
(a) 入力プロファイル行列と、対象プロファイル行列の２つのプロファイル行列を用意するステップと、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出するステップと、
(c) 前記相関係数からなるスコア行列を作成するステップと
を含む方法。

（６）前記対象プロファイル行列が、立体構造が既知である複数のタンパク質に基づいて作成されるプロファイル行列であり、前記入力プロファイル行列が、立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成されるプロファイル行列である上記（５）記載の類似性評価方法。

（７）上記（５）又は（６）で得られたスコア行列を用いることを特徴とするタンパク質立体構造の予測方法。

本発明により、タンパク質プロファイル行列間の類似性を簡便かつ精度よく評価することができる。本発明により得られたスコア行列は、タンパク質立体構造を予測するのに好適に使用される。

以下、本発明を詳細に説明する。

１．類似度評価システム
図１は、本発明の一実施形態において使用されるハードウエア構成を示す図である。

図１に示すように、本発明の類似性評価システムは、CPU101、ROM102、RAM103、入力部104、情報通信送信/受信部105、出力部106、ハードディスクドライブ(HDD)107及びCD-ROMドライブ108等を備える。

CPU101は、情報記憶手段（例えば磁気的及び／又は光学的記録媒体）に記憶されているプログラムに従って、類似性評価システム全体を制御する。そして、入力部104などから受け取った情報を出力部106に供給する。また、ネットワーク回線109を通じて受け取った情報に基づいて評価処理を実行することもできる。入力部104は、キーボードやマウス等であり、評価処理を実行する上で必要な条件又はデータを入力するときに操作される。ROM102は、本発明の類似性評価システムの動作に必要な処理を命令するプログラム等を格納する。RAM103は、類似性評価システムにおける処理を実行する上で必要なデータを一時的に格納する。

送信／受信部105は、CPU101の命令に基づいて、ネットワーク回線109等との間で情報通信（データの送受信処理）を実行するものであり、例えばモデム、ルーター等が例示される。出力部106は、入力手段104から入力されたプロファイルデータ、その他各種条件等を、CPU101からの命令に基づいて情報表示処理する（例えば表示画面、プリンタ）。CD-ROMドライブ108は、CPU101の指示に基づいて、CD-ROMに格納されている類似性評価システムを機能させるためのプログラム又はデータ等を読み出し、例えばRAM103に格納する。CD-ROMの代わりに記録媒体として書き換え可能なCD-R、CD-RWを用いることもできる。その場合には、CD-ROMドライブ108の代わりにCD-R又はCD-RW用ドライブを設ける。また、上記媒体の他に、DVD、MOとそれらの媒体を用い、それに対応するドライブを備える構成としてもよい。

コンピュータに本発明の類似性評価システムを機能させるためのプログラムは、例えばC言語等で書くことができる。従って、このソフトウエアはWindows（登録商標）95/98/2000、Linux（登録商標）、UNIX（登録商標）等の各種オペレーティングシステムで作動させることが可能である。

図２は、本発明のプロファイル行列間類似性評価システムを含む処理手順の一例を示すフローチャートである。
図２に示すように、本発明にかかる類似性評価システムでは、まず、比較したい２つのプロファイル行列（入力プロファイル行列と対象プロファイル行列）を用意し、続いてそれらの類似性を評価し、必要に応じて評価結果を出力する。以下、各処理について詳細に説明する。

（ａ）プロファイル行列の用意（Ｓ１０）
プロファイル行列を用意するステップでは、比較したい２つのプロファイル行列が用意（抽出）される（Ｓ１１、Ｓ１２）。ここで、２つのプロファイル行列のうち、一方（対象プロファイル行列）は、立体構造が既知である複数のタンパク質に基づいて作成されたプロファイル行列（図２中、長さｍ）である。他方（入力プロファイル行列）は、立体構造を予測したいタンパク質（立体構造は未知であると既知であるとを問わない）を含む複数のタンパク質に基づいて作成されたプロファイル行列（図２中、長さｎ）であることが好ましい。

プロファイル行列の作成方法としては、上述した従来知られている方法を採用することができ、特に制限はない。たとえば、ある一配列を入力値として、既存のプログラムであるPSI-BLASTを用いて、配列データベースに検索をかけてマルチプルアライメントを作成し、このマルチプルアライメントに基づいてプロファイル行列を作成してもよい。また、生物学的に相互に関連しあう複数のタンパク質のアミノ酸配列の一群を入力値として、既存のプログラムであるCLUSTALWを用いてマルチプルアライメントを作成し、当該マルチプルアライメントに基づいてプロファイル行列を作成してもよい。また、予め作成されたマルチプルアライメントを入力値とし、このマルチプルアライメントに基づいて作成してもよい。

ここで、プロファイル行列は、ある代表アミノ酸配列の全配列に基づいて作成されていてもよく、また、代表配列中のモチーフ領域等、一部の領域に基づいて作成されていてもよい。また、マルチプルアライメントを作成する際に、経験的に導出されたギャップペナルティーを導入してもよい。
また、必要に応じて、プロファイル行列として、アミノ酸種の出現頻度を、アミノ酸種のランダム出現頻度で割った行列（ＰＳＳＭ：Gribskov, M., et al., (1987) Proc. Natl. Acad. Sci. USA, 84, 4355-4358）を用いてもよい。

入力プロファイル行列は、たとえば、立体構造を予測したいタンパク質を代表アミノ酸配列として、この配列に基づいて作成することができる。また、対象プロファイル行列については、たとえば、ＳＣＯＰ(Murzin et al., J. Mol. Biol. 247(4):536-540 (1995))やＣＡＴＨ(Orengo et al., Structure 5(8):1093-1108 (1997))といったタンパク質構造分類データベースから取得したタンパク質のアミノ酸配列を代表配列とし、この配列に基づいて作成することができる。こうして得られた対象プロファイル行列は、代表配列ごとに予め作成しておき、対象プロファイル行列データベースとして保持しておくことが好ましい。

（ｂ）相関係数の算出（プロファイル行列の比較評価）（Ｓ２０）
続いて、プロファイル行列の類似性評価ステップでは、上記のステップで用意した入力プロファイル行列の各プロファイルカラムと、対象プロファイル行列の各プロファイルカラムとの間の類似性を、各カラムペア毎に評価をする。

図３は、各プロファイルカラムペア毎に類似性を評価し、スコア行列を作成するステップを模式的に示した図である。
本発明において、プロファイルカラム間の類似性は、プロファイルカラム間の相関係数を算出することによって行う。

たとえば、入力プロファイル行列をＸ＝ｘ_１ｘ_２…ｘ_ｐ…ｘ_ｎ（ただし、ｘ_ｐはアミノ酸残基位置ｐにおけるプロファイルカラム）とし、対象プロファイル行列をＹ＝ｙ_１ｙ_２…ｙ_ｑ…ｙ_ｍ（ただし、ｙ_ｑはアミノ酸残基位置ｑにおけるプロファイルカラム）としたときに、プロファイルカラムｘ_ｐおよびｙ_ｑ間の類似性スコアｃ_ｑｐは、下記の式によって与えられる。

本発明では、プロファイルカラム間の類似性をプロファイルカラム間の相関係数によって評価する。このため、プロファイルカラム間の相関の程度によって、類似性スコアが＋１から−１の値をとることになる。たとえば、２つのプロファイルカラム中の要素間に相関がある場合、即ちアミノ酸置換パターンの傾向に類似性が有る場合には、相関係数は＋１に近い数値を取ることになる。また、２つのプロファイルカラムの各要素が互いにランダムな値を取っている場合、即ちアミノ酸置換パターンの傾向に相関が無い場合、相関係数は０になり、アミノ酸置換パターンの傾向が全く反対の場合、相関係数は−１になり、アミノ酸置換パターンの傾向性の類似−非類似を非常に自然な形で表現する事が出来る。

したがって、本発明では、アミノ酸残基の保存性が高い保存領域のような相関が高い領域では、高い類似性スコアが得られるため、保存領域の類似性を精度よく評価することができる。

また、本発明によれば、アミノ酸残基の保存性だけではなく、内積によって類似性を評価する従来の方法（Rychlewski et alら）では不可能であった領域に関する類似性評価、たとえば、モチ−フ内に存在する非保存位置や、タンパク質立体構造上露出していることが重要で極性のみが重大な意義を占める位置、あるいはその逆に埋没部分に位置し疎水性のみが保存されている位置といった、激しいアミノ酸置換があるもののその置換パターンに共通性があると考えられる領域についての類似性をより精度良く評価することが可能である。

例えば、あるzinc fingerモチーフを有する２つのプロファイル行列を比較した場合を考えたとする。そのモチーフは
C-[DES]-x-C-x(3)-I
と表記される。これは、1, 4, 8番目の残基にそれぞれC, C, Iの残基が保存されており、2番目の残基では、D又は E又は Sが出現し、3番目および、5, 6, 7番目の残基では保存残基が特に無いことが表されている。内積によって類似性を評価する従来の方法では、この場合、1, 2, 4, 8番目の残基位置では、高い数値を与えるが、その他の位置では低い数値しか与えない。したがって、内積によって類似性を評価する従来の方法は、モチーフの一部については類似性を評価しているものの、モチーフ全体の類似性については精度よく評価なされていないということになる。

しかしながら、本発明によれば、1, 2, 4, 8番目の残基位置に高い数値を与えるだけでなく、3, 5, 6, 7番目の残基位置においても、保存残基が特に無いという置換パターンの類似性を評価することが可能で、これら残基位置でも高い数値を与える。したがって、本発明によれば、モチーフ全体としてのパターン情報の全てを評価することが可能となる。
なお、本発明における類似性評価システムは、モチーフ領域に限られず、立体構造を予測したいタンパク質の配列全体に適用することができる。すなわち、ギャップペナルティを導入して得られたプロファイル行列間の類似性評価にも、好適に適用することができる。

さらに、本発明によれば、スコア行列の各要素（類似性スコア）の平均値および標準偏差がほぼ一定値をとるため、類似性スコアに対する煩雑な正規化処理を施す必要がないというメリットもある。

（ｃ）スコア行列の作成
プロファイルカラム間の相関係数（類似性スコア）は、各プロファイルカラムの全部又は一部の組合せについて算出され、これに基づいてスコア行列が作成される。スコア行列は、類似性スコアが各プロファイルカラムの全組合せについて算出された場合は、入力プロファイル行列の長さを行とし、対象プロファイル行列の長さを列とする行列であり、類似性スコアが各プロファイルカラムの一部の組合せについて算出された場合は、その組合せの数に応じた行と列を持つ行列となる。

図２の例では、類似性スコアは各プロファイルカラムの全組合せについて算出されており、入力プロファイル行列の長さがｎ、対象プロファイル行列の長さがｍであることから、類似性スコアはｍ×ｎ個生成される（Ｓ２２）。したがって、スコア行列はｎ行ｍ列となる。スコア行列は、比較したいプロファイル行列の長さ、及び算出される類似性スコアの数に応じた行列を予め定義し（Ｓ２１）、定義された行列の各カラムに、各プロファイルカラム間の相関係数を入力することにより作成することができる（Ｓ２３）。

本発明で得られたスコア行列によって、２つのプロファイル行列の最終スコア（行列間の類似性）を精度よく算出することができる。最終スコアは既知の手法により作成することができる。たとえば、図２の例では、比較されるプロファイル行列のそれぞれの代表アミノ酸配列と、本発明によって得られたこれらのプロファイル行列間のスコア行列を入力値として、ダイナミックプログラミングを用いて最適パスを算出する（Ｓ２４）ことによって最終スコアを求めることができる（Ｓ２５）。

以上の操作を、対象プロファイル行列データベースに保持してある対象プロファイル行列のすべてに対して行うことが好ましい。

２．タンパク質立体構造の予測（Ｓ３０）
対象プロファイル行列ごとに得られた最終スコアは、タンパク質立体構造を予測するのに好適に使用される。たとえば、以下の既知の手順にしたがって処理をされる。

(1) 入力値
まず、予測対象配列を含む入力プロファイル行列と、立体構造が既知である代表アミノ酸配列を含む対象プロファイル行列との最終スコア、および各代表配列の長さが入力される。このとき、対象プロファイル行列データベース中にＮ本の既知代表配列があれば、Ｎ個の最終スコアと配列長が入力されることになる。

(2) 最終スコアの長さ依存性の補正
予測対象配列を含む入力プロファイル行列と、各既知代表配列を含む対象プロファイル行列との最終スコアは、代表配列長に依存した関係が認められる為、次のような統計処理を行う。まず、Ｘ軸に各代表配列の長さの自然対数をとった値、Ｙ軸に予測対象配列を含む入力プロファイル行列と各既知代表配列を含むプロファイル行列との最終スコアをプロットし、異常なはずれ値を除いて回帰直線を引く。各長さ（即ちＸ軸でのある値）における平均値は回帰直線で表されるものとみなし、予測対象配列を含む入力プロファイル行列と各既知代表配列を含む対象プロファイル行列との最終スコアは、平均値からのずれで評価される。通常良く使用されるように、標準偏差を単位として、そのずれの度合いが測定される。

(3) ソート
平均値からのずれが（高得点側に）大きいもの程類似性が有るとみなされる。それ故、平均値からのずれが（高得点側に）大きい順にソートされ、予測構造の候補とされる。

(4) 予測構造としてのアライメントとスコア出力
上でソートされた順に予測構造の候補として出力される。結果全てを出力するのは無意味なため、予測精度を考慮し経験的に求められた閾値以上の平均値からのずれを有する結果のみを出力する。この時、予測精度の指標として、標準偏差を単位として計算される平均値からのずれの度合いが表示される。

予測対象配列を含む入力プロファイル行列と、各既知代表配列を含む対象プロファイル行列とのアラインメントおよび最終スコアの結果は、ダイナミックプログラミングを用いて逐次計算された際のものを出力する。各既知代表配列は立体構造既知なので、このアラインメント出力が立体構造予測結果に相当する。

３．コンピュータプログラム
本発明は、コンピュータを、タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムとして機能させるためのプログラムをも提供する。本発明のコンピュータプログラムは、以下の手段：
(a) 入力プロファイル行列と、対象プロファイル行列の２つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むものである。
本発明のプログラムには、上記必須の手段以外に、汎用のプログラムとして通常備えられる汎用手段を含んでもよい。そのような手段としては、各種データの格納手段、情報の送受信手段、ディスプレイ、プリンター等の表示・出力手段等を挙げることができる。

４．コンピュータ用記録媒体
本発明のプログラムは、コンピュータ読み取り可能な記録媒体又はコンピュータに接続しうる記憶手段に保存することができる。本発明のプログラムを含有するコンピュータ用記録媒体又は記憶手段も本発明に含まれる。記録媒体又は記憶手段としては、磁気的媒体（フレキシブルディスク、ハードディスクなど）、光学的媒体（CD、DVDなど）、磁気光学的媒体（MO、MD）などが挙げられる。

以下、実施例により本発明をさらに具体的に説明する。但し、本発明はこれら実施例に限定されるものではない。

実施例１
(1) 対象プロファイル行列データベースの構築
構造分類データベースＳＣＯＰ(URL:http://scop.mrc-lmb.cam.ac.uk/scop/)release1.59 に基づく分類から、代表配列を取得した。その中から、単独ドメインを有し解像度2.5Å以内の構造データを有するタンパク質のアミノ酸配列９４８本を選択した。９４８本の代表配列各々に対してPSI-BLASTとアミノ酸配列データベース(ＮＲＤＢ:ftp://ftp.ncbi.nlm.nih.govより取得)を用いて対象プロファイル行列を構築し、対象プロファイル行列データベースを完成させた。

ここで使用した「ＮＲＤＢ」には、現在知られているほぼ大部分のタンパク質アミノ酸配列が含まれている。PSI-BLASTを使うことで、このＮＲＤＢから各代表配列に生物学的に関連あると考えられる配列を自動的に収集し、さらにプロファイル行列も作成することが出来る。

(2) 入力プロファイル行列の作成
本発明にかかるシステムによって正しい構造予測がなされているかどうかを調べるため、予測対象配列として構造が既に知られている配列、すなわち、対象プロファイル行列を作成する際に使用した上記９４８本の代表配列を使用した。入力プロファイル行列は、これらの予測対象配列を順次使用して、対象プロファイル行列の場合と同様の操作、すなわち、PSI-BLASTとアミノ酸配列データベース(NRDB)を用いて構築した。

(3) 各プロファイル行列間の比較
続いて、上記で構築された予測対象配列（本実施例では９４８本の各代表配列）を含む入力プロファイル行列と、対象プロファイル行列データベース中の対象プロファイル行列との比較が順次なされた。この際、プロファイル行列間のスコア行列の各要素（類似性スコア）は、相関係数を用いて計算された。
こうして得られたプロファイル行列間のスコア行列を入力値として、ダイナミックプログラミングによってプロファイル行列間の最終スコアとアラインメントが出力された。

各入力プロファイル行列に対して、以上の操作を対象プロファイル行列データベースに構築されたすべての対象プロファイル行列について行った。

(4) 最終処理及び結果出力
評価の出力は、既に説明した方法に従って、９４８予測について各々結果出力を行った。すなわち、入力プロファイル行列と対象プロファイル行列との各最終スコアおよび各代表配列の長さを入力し、最終スコアの長さ依存性の補正を行った。続いて、平均値からのずれが（高得点側に）大きい順にソートし、ソートされた順に予測構造の候補として出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図４に示した。

比較例１
実施例１で取得した９４８本の代表配列を用いて、配列類似性検索として一般的に用いられているＰＳＩ−ＢＬＡＳＴを用いて構造予測を行った。すなわち、９４８本の代表配列各々に対してPSI-BLASTとアミノ酸配列データベース(ＮＲＤＢ:ftp://ftp.ncbi.nlm.nih.govより取得)を用いて構築したプロファイル行列を入力値とし、９４８本の代表配列に対して類似性検索を行い、予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図４に示した。

比較例２
実施例１で取得した９４８本の代表配列を用いて、配列類似性検索として一般的に用いられているＩＭＰＡＬＡ(Schaffer, A. A., Wolf, Y. I., Ponting, C. P., Koonin, E. V., Aravind, L., and Altschul, S. F. (1999) Bioinformatics. 015:1000-1011）を用いて構造予測を行った。すなわち、９４８本の代表配列を入力値とし、９４８本の代表配列各々に対して予め作成し構築したプロファイル行列データベース（実施例１で構築した対象プロファイル行列データベースを使用した）に対して類似性検索を行い、予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図４に示した。

図４から、比較例１および２の手法に比べて、信頼度０．９８以降において、本発明にかかる実施例１が常に感度で勝っていることが示される。

比較例３
プロファイル行列間のスコア行列の各要素（類似性スコア）を、内積法（Rychlewski et al. (2000), 9:p232-241)を用いて計算した以外は実施例１と同様の手法で予測構造の候補を出力した。
こうして出力された予測構造の候補と、既にわかっている正しい予測構造とを比較することにより、予測結果の信頼度と感度を算出し、この結果を図５に示した。

実施例２
(1) 対象プロファイル行列データベースの構築
配列は、構造分類データベースSCOP(URL:http://scop.mrc-lmb.cam.ac.uk/scop/)
release1.59に基づく分類から、お互いの同一残基率が40%未満であるドメイン単位の代表配列4381本を、SCOPの配列データベースであるASTRAL(http://astral.stanford.edu/)データベースから取得した。更に、タンパク質立体構造データベースPDB(URL:http: //www.rcsb.org/pdb/)に登録されているが、SCOPに未登録であるものであって、ASTRALから取得した上記4381本の配列と非類似のものを下記（Ａ）〜（Ｄ）の要領で取得し、代表配列に加えた。このようにして選択されたアミノ酸配列各々に対して、下記（Ａ）〜（Ｄ）の要領でPSI-BLASTとＮＲＤＢを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースを完成させた。

（Ａ）対象プロファイル行列データベースＡの構築
2002年5月18日時点でのPDB中のアミノ酸配列をSCOPrelease1.59の分類に基づく代表配列に対してBLASTP(Altschul et al., Nucleic Acids Res. (1997) 25(17): 3389-3402：非特許文献２)をかけ、期待値が0.00001以上のものを選んだ。さらにそれらを配列のクラスタリングを行うプログラムであるblastclustにかけ、互いの同一残基率が40%未満となるように配列248本を選択した。このようにして選択された配列と、SCOPrelease1.59の分類に基づく代表配列4381本との合計4629本の配列各々に対して、PSI-BLASTと2002年5月18日時点のＮＲＤＢを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースＡを完成させた。

（Ｂ）対象プロファイル行列データベースＢの構築
2002年6月23日時点でのPDBと2002年5月18日時点でのPDB中のアミノ酸配列の差分を上記（Ａ）で作成した代表配列に対してBLASTPをかけ、期待値が0.00001以上のものを選んだ。さらにそれらをblastclustにかけ、互いの同一残基率が40%未満となるように配列49本を選択した。このようにして選択された配列と、上記（Ａ）で作成した代表配列との合計4678本の配列各々に対して、PSI-BLASTと2002年6月17日時点のＮＲＤＢを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースＢを完成させた。

（Ｃ）対象プロファイル行列データベースＣの構築
2002年7月14日時点でのPDBと2002年6月23日時点でのPDB中のアミノ酸配列の差分を上記（Ｂ）で作成した代表配列に対してBLASTPをかけ、期待値が0.00001以上のものを選んだ。さらにそれらをblastclustにかけ、互いの同一残基率が40%未満となるように配列23を選択した。このようにして選択された配列と、上記（Ｂ）で作成した代表配列との合計4701本の配列各々に対して、PSI-BLASTと2002年7月9日時点のＮＲＤＢを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースＣを完成させた。

（Ｄ）対象プロファイル行列データベースＤの構築
上記（Ｃ）で作成した代表配列の合計4701本の配列各々に対して、PSI-BLASTと2002年8月6日時点のＮＲＤＢを用いて対象プロファイル行列を構築し、対象プロファイル行列データベースＤを完成させた。

(2) 入力プロファイル行列の作成
配列は、隔年で行われる世界的規模で行われる構造予測コンテストの2002年度大会であるCASP5/CAFASP3(URL:http://predictioncenter.llnl.gov/casp5/)において、構造認識部門（通常の配列解析手法では立体構造既知であるタンパク質と明白な配列類似性を有さないが、その構造が（実際に解かれてみると）既知立体構造との構造類似性を有する、即ち類似性検索が困難なタンパク質に関する予測する部門）において出題された配列、すなわち、現在通常の配列解析手法（例えば、PSI-BLASTなど）では、立体構造既知であるタンパク質と明白な配列類似性を有さないタンパク質であり、かつ、その構造が（実際に解かれてみると）既知立体構造との構造類似性が明らかになったアミノ酸配列を用いた。具体的には、URL:http://www.cs.bgu.ac.il/~dfischer/CAFASP3/targets.htmlにおいて、下記のターゲット番号が付されたアミノ酸配列２２本を用いた。

T0130、T0132、T0134、T0135、T0136、T0138、T0146、T0147、T0148、T0156、T0157、T0159、T0162、T0168、T0170、T0172、T0173、T0174、T0186、T0187、T0191、T0193

これら22本の配列各々に対して、PSI-BLASTとＮＲＤＢを用いて入力プロファイル行列を構築し、入力プロファイル行列データベースを完成させた。
なお、ＮＲＤＢとしては、2002年5月18日時点、2002年6月17日時点、2002年7月9日時点、及び2002年8月6日時点のものの計４種類を使用し、得られた入力プロファイル行列データベースを、それぞれ、「入力プロファイル行列データベースＡ」、「入力プロファイル行列データベースＢ」、「入力プロファイル行列データベースＣ」、及び「入力プロファイル行列データベースＤ」とした。

(3) 各プロファイル行列間の比較
続いて、上記で構築された予測対象配列を含む入力プロファイル行列データベースＡの入力プロファイル行列と、対象プロファイル行列データベースＡ中の対象プロファイル行列との比較を、実施例１の「(3)各プロファイル行列間の比較」と同様の手順で行った（比較Ａ）。
同様の操作を、入力プロファイル行列データベースＢと対象プロファイル行列データベースＢに対して、入力プロファイル行列データベースＣと対象プロファイル行列データベースＣに対して、及び、入力プロファイル行列データベースＤと対象プロファイル行列データベースＤに対して、それぞれ行った（比較Ｂ，Ｃ，Ｄ）。

(4) 最終処理及び結果出力
評価の出力は、既に説明した方法に従って22予測について各々結果出力を行った。即ち、各データベースの組合せ（比較Ａ〜Ｄ）においてそれぞれ得られた、入力プロファイル行列と対象プロファイル行列との各最終スコアおよび、各代表配列の長さを入力し、最終スコアの長さ依存性を補正した。続いて平均値からのずれが、（高得点側に）大きい順にソートし、ソートされた順に上位10個までを予測構造の候補として22本の配列各々に対して出力した（出力Ａ〜Ｄ）。
こうして出力された予測構造の候補と、コンテストの予測構造投稿期間の後に公開された実験により解かれた立体構造とを比較することで、予測結果の正確さが測定された。予測構造評価方法の一つは、予測構造と正解構造の重ね合わせを行い、対応残基が3Åより短い距離にある残基数を出力Ａ〜Ｄについて積算すること（sum値）により行われた。22のタンパク質を構造ドメイン単位（全部で３４ドメイン）で眺めた結果によれば、構造予測コンテストCASP5/CAFASP3における上記構造認識部門において22本の配列各々に対して上位1個の予測を考慮した時、本手法のsum値は「５７７」であり、これは、配列情報を用いた他のいかなる手法よりも優れているものであった。
また、ある閾値を設定してある入力（予測対象）配列に対する予測の成否を観測した場合でも、22本の配列各々に対して上位1個の予測を考慮した時本手法は、予測が成功したと判断される個数を出力Ａ〜Ｄについて積算したもの（correct値）において、「９」と高く、配列情報を用いた他のいかなる手法よりも優れていることが示された。

本発明の一実施形態において使用されるハードウエア構成を示す図である。本発明のプロファイル行列間類似性評価システムを含む処理手順の一例を示すフローチャートである。本発明のプロファイル行列間類似性評価システムにおいて、各プロファイルカラムペア毎に類似性を評価し、スコア行列を作成するステップを示す図である。実施例１、比較例１及び比較例２において出力された予測結果の信頼度と感度とをプロットした図である。実施例１及び比較例３において出力された予測結果の信頼度と感度とをプロットした図である。

符号の説明

101：CPU、
102：ROM、 103：RAM、 104：入力部、105：送信/受信部、
106：出力部、 107：HDD、 108：CD-ROMドライブ、109：ネットワーク回線

Claims

タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段：
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の２つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むシステム。
請求項１記載のシステムにより作成されたスコア行列を用いることを特徴とするタンパク質立体構造の予測システム。
コンピュータを、タンパク質の立体構造を予測するためのタンパク質プロファイル行列間の類似性を評価するシステムとして機能させるためのプログラムであって、
前記プロファイル行列は、関連する複数のタンパク質のアミノ酸配列を多重並置させたマルチプルアライメントにおいて、各アミノ酸残基位置におけるアミノ酸種毎の出現確率を備えたプロファイルカラムの群から構成され、
前記類似性評価システムは、以下の手段：
(a) 立体構造を予測したいタンパク質を含む複数のタンパク質に基づいて作成される入力プロファイル行列と、立体構造が既知である複数のタンパク質に基づいて作成される対象プロファイル行列の２つのプロファイル行列を用意する手段と、
(b) 前記入力プロファイル行列の各プロファイルカラムと、前記対象プロファイル行列の各プロファイルカラムとの間の相関係数を、各プロファイルカラムの全部又は一部の組合せについて算出する手段と、
(c) 前記相関係数からなるスコア行列を作成する手段と
を含むプログラム。
請求項３記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。