JPH10185925A

JPH10185925A - ダブル・ダイナミック・プログラミングによる構造アライメント方法

Info

Publication number: JPH10185925A
Application number: JP8340727A
Authority: JP
Inventors: Hiroyuki Fuji; 博幸藤
Original assignee: SEIBUTSU BUNSHI KOGAKU KENKYUS; SEIBUTSU BUNSHI KOGAKU KENKYUSHO KK
Current assignee: SEIBUTSU BUNSHI KOGAKU KENKYUS; SEIBUTSU BUNSHI KOGAKU KENKYUSHO KK
Priority date: 1996-12-20
Filing date: 1996-12-20
Publication date: 1998-07-14
Also published as: EP0849690A2; EP0849690A3; US6125331A

Abstract

(57)【要約】【課題】精度を保つとともに、より簡易な手法で、時
間短縮を実現し得るダブル・ダイナミック・プログラミ
ングによる構造アライメント方法を提供する。【解決手段】まず、距離カットオフ近似を実施し（ス
テップＳ１）、ΔＮカットオフ近似を実施する（ステッ
プＳ２）。そこで、前記二つの近似を用いてアライメン
トを作成し（ステップＳ３）、次に、得られた近似解の
ε−サブオプティマル領域を決定する（ステップＳ
４）。更に、ε−サブオプティマル領域内の残基対に適
用される全構造環境でのＤＤＰを実施する（ステップＳ
５）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、蛋白質の構造や機
能、また分子進化の情報を得るための、蛋白質の構造の
比較解析を行うダブル・ダイナミック・プログラミング
による構造アライメント方法に関する。

【０００２】

【従来の技術】蛋白質は２０種類のアミノ酸が一次元的
に連なって構成される生体高分子であり、この配列が折
り畳ってある立体構造を形成することにより、生体中に
おいて酵素活性、細胞骨格、輸送など種々の働きを示す
機能単位となって、生命現象を支えている。

【０００３】実際、生物ゲノムにコードされている遺伝
情報の大部分は蛋白質に関する情報である。近年のＤＮ
Ａ塩基配列決定技術や蛋白質立体構造決定技術の進歩に
伴い、莫大な量の蛋白質のアミノ酸配列、あるいは立体
構造のデータが急速に蓄積されてきている。

【０００４】これらのデータの管理や解析のために、コ
ンピュータが分子生物学に導入され、コンピュティショ
ナルモレキュラバイオロジィ（計算分子生物学：ｃ
ｏｍｐｕｔａｔｉｏｎａｌｍｏｌｅｃｕｌａｒｂｉ
ｏｌｏｇｙ）あるいは、バイオインフォーマティックス
（生命情報科学：ｂｉｏｉｎｆｏｒｍａｔｉｃｓ）と呼
ばれる、情報科学と分子生命科学との境界領域が発達し
てきている。

【０００５】これらの分野において、アミノ酸配列や立
体構造の座標データから、その蛋白質の構造的あるいは
機能的性質を抽出する有効な手段の一つが比較解析であ
る。祖先遺伝子を共有していたり、共通の機能的な制約
が働いている場合には、蛋白質のアミノ酸配列や立体構
造が類似することが知られている。逆に、類似配列や類
似構造を比較し、それら類似分子間の不変量あるいは変
化規則を探ることから、それらの蛋白質の構造や機能、
また分子進化の情報を得ることができる。比較解析の重
要な基盤技術の一つがアライメント（ａｌｉｇｎｍｅｎ
ｔ）である。２種類の類似配列あるいは類似構造がある
時、配列上あるいは構造上等価なアミノ酸残基を対応づ
けて並置し、対応するものがない残基にはギャップと呼
ばれる空記号を対応させる操作がアライメントである。

【０００６】現在、（１）配列対配列、（２）配列対構
造、（３）構造対構造の３種類のアライメントがある。
配列対配列のタイプのアライメント（１）は、配列解析
の主要な技法として広く利用されている。配列対構造の
タイプのアライメント（２）は、比較的近年にいたって
提案された手法であり、ある配列を与えられた構造に対
してフィットさせるものであるが、残基レベルの対応や
予測精度の面において、まだ問題が多い。

【０００７】上記（１）、（２）ともに、酸基対残基の
アライメントの形成のためには、後述のダイナミック・
プログラミング（ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉ
ｎｇ：ＤＰ）と呼ばれるアルゴリズムを利用しているも
のが多い。構造対構造のタイプのアライメント（３）
は、やはり近年に提案された手法であるが、構造データ
解析の基盤技術として、今後その重要性が増してくるも
のと思われる。

【０００８】構造対構造のタイプのアライメント（３）
は、構造アライメント（ｓｔｒｕｃｔｕｒａｌａｌｉ
ｇｎｍｅｎｔ）と呼ばれており、例えば、図２５に示さ
れる。なお、図２５（ａ）は蛋白質（Ｐｒｏｔｅｉｎ）
Ａの構造、図２５（ｂ）は蛋白質（Ｐｒｏｔｅｉｎ）Ｂ
の構造を示しており、蛋白質（Ｐｒｏｔｅｉｎ）Ａは、
Ａ−Ｃ−Ｅ−Ｌ−Ｓ−Ｉ−Ｓ−Ｒ−Ｎ−Ｙ−Ｄ−Ｔ−Ｉ
−Ｐ−Ｄ、蛋白質（Ｐｒｏｔｅｉｎ）Ｂは、Ｖ−Ａ−Ｓ
−Ｑ−Ｉ−Ｇ−Ｗ−Ｄ−Ｅ−Ｄ−Ｉ−Ｈ−Ｌ−Ｅ−Ｐ−
Ｉ−Ｇ−Ｅ−Ｓの構造をしている。

【０００９】構造アライメントの構築には、上記（１）
や（２）で述べたＤＰに基づくものを始め、いくつかの
手法が提案されてきている。それらの手法の共通の問題
点の一つとして、構造アライメント構築には演算時間が
かかることがあげられる。ここでは、テーラーとオレン
ゴ（Ｔａｙｌｏｒ＆Ｏｒｅｎｇｏ）によって、１９８９
年に開発されたダブル・ダイナミック・プログラミング
〔ｄｏｕｂｌｅ・ｄｙｎａｍｉｃ・ｐｒｏｇｒａｍｍｉ
ｎｇ（ＤＤＰ）〕に、近似を導入することにより、構造
アライメントを短時間で構築する技術を開発した。

【００１０】ＤＤＰは、上記（１）や（２）のタイプの
アライメントに用いられているＤＰを拡張した技術であ
る。ＤＤＰ理解のため、まず、図２６を参照しながらＤ
Ｐについて説明する。いま、２本のアミノ酸配列を比較
する場合を考える。ＤＰを行うためには、図２６に示す
ように、二次元行列Ｄを用意する必要がある。

【００１１】２本の配列の内一方の各残基は二次元行列
Ｄの各行に、また他方の配列の各残基は各列に対応す
る。Ｄの各要素は、図２６に示した漸化式Ｄ（ｉ，ｊ）
を解くことにより、順次決定することができる。Ｄ
（ｉ，ｊ）＝ｍａｘ｛ｓ（ｉ，ｊ）＋Ｄ（ｉ−１，ｊ−
１），Ｄ（ｉ−１，ｊ）−β，Ｄ（ｉ，ｊ−１）−β｝
ここで、βはギャップ・ペナルティである。

【００１２】この場合、式中のｓ（ｉ，ｊ）は、残基ｉ
と残基ｊの類似度であり、スコアテーブル（ｓｃｏｒｅ
ｔａｂｌｅ）と呼ばれるアミノ酸間の類似度のテーブ
ルから値がとられる。これは、二つのアミノ酸が類似し
ている程、大きな値をとるような数値の集合である。ま
た、Ｍａｘ操作の三つの引き数は、ギャップを入れず
に対角線方向の残基同士からつながる、対応する行に
ギャップを挿入、対応する列にギャップを挿入、の三
操作に対応している。これは、行列上は、対角線方向、
水平方向、垂直方向への１残基分の移動を意味してい
る。

【００１３】したがって、Ｍａｘ操作の際、どの引き数
が選ばれたかを記憶しておけば、後述のバックトラッキ
ングが容易に行える。各要素に対応して、操作を覚える
ために、Ｄと同じサイズのパス行列と呼ばれる二次元配
列が用いられている。図中の漸化式を解くことにより、
類似度が行列の左上から右下方向へと足しこまれる。要
素が全て決定された後に、右下の行及び列の各要素中の
最大値を有するものを探し出す。その場所から、パス行
列を利用してバックトラッキングを行うことにより、配
列間の類似度が最大になるようなパス、すなわちアライ
メントが与えられる。この時、最大類似度は配列間の類
似性が高ければ高い程大きくなる。また、この計算の時
間計算量はＯ（Ｌ²Ｍ＋ＬＭ²）である。ここで、Ｌ，
Ｍは配列の長さを示す。

【００１４】ＤＤＰは、基本的にはＤＰと同じ手法であ
る（図２７）。ただし、この時には配列の代わりに二つ
の立体構造を考える。これらの構造の各残基は、同様に
二次元行列Ｄの行及び列に対応する。配列アライメント
の場合と同様に漸化式を解くが、この場合のｓ（ｉ，
ｊ）はアミノ酸残基の類似度ではなく残基ｉ及びｊの構
造的環境（ｓｔｒｕｃｔｕｒａｌｅｎｖｉｒｏｎｍｅ
ｎｔ）の類似性を表す。

【００１５】図２８は蛋白質中の残基ｉの構造的環境の
定義を示している。残基ｉのβ炭素から、他の全ての残
基のβ炭素へのベクトルを考え、それらのベクトルのＮ
端からＣ端方向へと順序つけられた集合を、残基ｉの構
造的環境とする。すなわち、構造的環境とは、蛋白質中
における残基ｉの他の残基に対する相対的位置を意味す
る。

【００１６】それでは、二つの構造的環境が与えられた
時、その類似性は、どのようにして評価するか、その手
法について説明する。テーラーとオレンゴは、ここでも
ＤＰを利用している。図２９に示すように、構造的環境
を構成する各ベクトルを、二次元行列Ｄの各行および各
列に対応させ、残基ｉとｊが並置されるという条件のも
とで漸化式を解く。

【００１７】この時、ｓ（ｉ，ｊ）は図２９に示すよう
に二つのベクトルの類似度として計算される。すると、
配列アライメントの説明で述べたように、行列Ｄの右下
の要素中の最大スコアを見いだせる。配列アライメント
の場合、この最大スコアは、二つの配列の類似度を表し
ていた。類推により、構造的環境の比較においては、最
大スコアは二つの構造的環境の類似性を示している。こ
の値を図２７に示すｓ（ｉ，ｊ）として利用する。

【００１８】図３０は構造アライメントの手法をまとめ
たものである。この図に示すように、残基対残基のアラ
イメントを作成するためＤＰが行われる。この時のｓ
（ｉ，ｊ）は、構造的環境の類似度として、やはりＤＰ
で求められる。すなわち、構造的環境のアライメントの
ために、二つの異なるステップでＤＰが用いられてお
り、このため、この方法はＤＤＰと呼ばれている。

【００１９】ここで、各残基の対応をつけるためのＤＰ
は、図３０（ａ）に示すように、アッパーレベル（ｕｐ
ｐｅｒ−ｌｅｖｅｌ）ＤＰ、構造的環境比較のためのＤ
Ｐは、図３０（ｂ）に示すように、ローワーレベル（ｌ
ｏｗｅｒｌｅｖｅｌ）ＤＰと呼ばれる。この時の時間
計算量は、Ｏ（Ｌ³Ｍ²＋Ｌ²Ｍ³）となり、構造アラ
イメントが、配列アライメントに対して時間を要するこ
とがわかる。

【００２０】この計算量は、ギャップペナルティの与え
方によっては、ある程度抑えることができるが、それで
も構造的環境の大きな制約条件となっている。このた
め、テーラーとオレンゴは、彼等の開発した手法に様々
な改良を施している。それについて、図３１を参照しな
がら説明する。

【００２１】まず、図３１に示すように、彼等は窓（ｗ
ｉｎｄｏｗ）を導入し、比較する残基対を制限した。次
に、彼等は、窓（ｗｉｎｄｏｗ）中の類似した表面積と
二面角を有する残基対のみにＤＤＰを適用した。すなわ
ち、図３１（ａ）に示すように、アッパーレベルマトリ
ックスに窓（ｗｉｎｄｏｗ）を導入し、図３１（ｂ）に
示すように、類似した表面積及び二面角での残基対の選
択を行い、図３１（ｃ）に示すように、これらの性質の
類似した残基対のみにＤＤＰを適用する。

【００２２】最も近年のアプローチでは、まず、二次構
造をアライメントして、並置された二次構造内部で類似
した表面積と二面角を有する残基対のみにＤＤＰを適用
した。

【００２３】

【発明が解決しようとする課題】このように、テーラー
とオレンゴによる構造アライメント方法での主要な演算
時間短縮のための戦略は、残基対の選択にある。その方
法により、演算時間の短縮は実現できるが、表面積や二
面角の演算、また、二次構造の同定とそのアライメント
など、実際の構造アライメントの前処理が複雑で時間を
とられてしまう。

【００２４】本発明は、上記問題点を除去し、精度を保
つとともに、より簡易な手法で、時間短縮を実現し得る
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法を提供することを目的とする。

【００２５】

【課題を解決するための手段】本発明は、上記目的を達
成するために、〔１〕ダブル・ダイナミック・プログラミングによる構
造アライメント方法において、蛋白質中の残基ｉの側鎖
を中心としてその側鎖の中心間距離が所定距離ｒ以内に
ある残基のみを、残基ｉの構造的環境の構成要素とする
距離カットオフ近似を行う工程と、前記距離カットオフ
近似による類似した局所環境をもつ残基対のみを選択的
に比較する、ΔＮカットオフ近似を行う工程とを施すよ
うにしたものである。

【００２６】〔２〕上記〔１〕記載のダブル・ダイナミ
ック・プログラミングによる構造アライメント方法にお
いて、前記所定距離ｒを１０〜１５Å、ΔＮを１０に設
定するようにしたものである。〔３〕上記〔１〕記載のダブル・ダイナミック・プログ
ラミングによる構造アライメント方法により決定された
ε−サブオプティマル領域（ε−ｓｕｂｏｐｔｉｍａｌ
ｒｅｇｉｏｎ）内の残基対のみに限って、近似を導入
しないでダブル・ダイナミック・プログラミングを行う
工程とを施すようにしたものである。

【００２７】上記のように構成したので、精度を保つと
ともに、より簡易な手法で、時間短縮を実現し得るダブ
ル・ダイナミック・プログラミングによる構造アライメ
ント方法を提供することができる。

【００２８】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。まず、本発明の
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法について詳細に説明する。本発明の方法で
は２種類の近似の導入を行う。また、こられの近似のも
とで、必要に応じてアライメントの精度を保つため、２
段階アライメントの手法を用いたプログラムを開発し
た。

【００２９】（Ａ）距離カットオフ近似（Ｄｉｓｔａｎ
ｃｅＣｕｔｏｆｆＡｐｐｒｏｘｉｍａｔｉｏｎ）テーラーとオレンゴ等は、ある蛋白質中の残基の構造的
環境を表現する際に、その蛋白質中の他のすべての残基
を利用した。このため、ローワーレベルＤＰの一つ一つ
に、その配列アライメントと同じ計算（演算）量が要求
され、時間がかかる。

【００３０】本発明では、距離カットオフ近似の導入に
より、ローワーレベルＤＰの演算時間の短縮を行った。
図１に距離カットオフの概念がまとめられている。図１
において、１００は残基ｉの側鎖を中心とした半径ｒの
球である。この球１００の中心を、残基ｉの側鎖の中心
におく。この場合、側鎖の中心間距離がｒ以内にある残
基のみを、残基ｉの構造的環境の構成要素とする。この
近似的な構造的環境を局所環境（ｌｏｃａｌｅｎｖｉ
ｒｏｎｍｅｎｔ）と呼ぶ。局所環境は、側鎖の中心間の
距離の集合によって表現される。局所環境間の類似性
は、オリジナルＤＤＰの場合と同様、ＤＰによって演算
される。これが本手法におけるローワーレベルＤＰとな
る。球の半径ｒをカットオフ距離と呼ぶ。

【００３１】（Ｂ）ΔＮカットオフ近似（ΔＮｃｕｔ
ｏｆｆＡｐｐｒｏｘｉｍａｔｉｏｎ）二つの局所環境について見ると、もし、この二つが類似
していれば、それらを構成する残基の数もまた、類似す
るものと期待される。ΔＮカットオフ近似は、このよう
な考えに立って導入された。

【００３２】図２に、その方法がまとめられている。蛋
白質Ａの残基ｉの局所環境は、それぞれ残基ｉに対して
Ｎ端にある残基と、Ｃ端にある残基に分割され、それぞ
れの個数をＮｎ（ｉ，Ａ），Ｎｃ（ｉ，Ａ）で表す。同
様に、蛋白質Ｂの残基ｊの局所環境についても、Ｎｎ
（ｊ，Ｂ），Ｎｃ（ｊ，Ｂ）が定義できる。

【００３３】残基ｉ，ｊ間の局所環境の比較に際して、
まず、Ｎｎ（ｉ，Ａ）とＮｎ（ｊ，Ｂ）およびＮｃ
（ｉ，Ａ）とＮｃ（ｊ，Ｂ）が比較される。もし、どち
らか一方でも、その差が与えられ、閾値（ｔｈｒｅｓｈ
ｏｌｄ）ΔＮ以上であれば、その局所環境は似ていない
とみなして、ローワーレベルＤＰをスキップし、アッパ
ーレベルＤＰでのｓ（ｉ，ｊ）＝０．０とする。そうで
なければ、ｓ（ｉ，ｊ）は、ローワーレベルＤＰで演算
される。これにより、類似した局所環境をもつ残基対の
みを選択的に比較できる。

【００３４】（Ｃ）２段階アライメント（２−Ｓｔｅｐ
Ａｌｉｇｎｍｅｎｔ）先述の二つの近似の導入により、演算時間は短縮され、
それなりの効果があげられるが、アライメントの精度は
低下する。そこで、図３に示すような方法で、近似によ
るアライメントをもとにアライメントを作成し直すこと
により、精度を保つようにした。

【００３５】ここに、本発明のダブル・ダイナミック・
プログラミングによる構造アライメントのフローは、図
３に示すように、（１）まず、距離カットオフ近似を実施する（ステップ
Ｓ１）。（２）次に、ΔＮカットオフ近似を実施する（ステップ
Ｓ２）。（３）そこで、上記（１）、（２）の近似を用いて、ア
ライメントを作成する（ステップＳ３）。

【００３６】（４）次に、得られた近似解のε−サブオ
プティマル領域を決定する（ステップＳ４）。（５）ε−サブオプティマル領域内の残基対に適用され
る全構造環境でのＤＤＰを実施する（ステップＳ５）。
図４および図５にε−サブオプティマル領域の説明がな
されている。

【００３７】最適なアライメントは、図４に示すよう
に、二次元行列Ｄの中の右下方要素中、最大値を有する
ものからのトレースバックにより得られた。当然のこと
ながら、他の右下方要素は最大値より低い値を有してお
り、またそこからトレースバックすることにより、多数
の可能な他のアライメント（パス）が得られる。サブオ
プティマル領域とは、最大値からεの範囲内のスコアを
有するパスの集合であり、広く広がった領域はアライメ
ントの信頼性が低く、ほぼユニークにパスが決定されて
いるところでは、アライメントの信頼性は高いと考えら
れる。近似導入によって得られたアライメントは、近似
を用いないで得られたアライメントに類似していたの
で、近似を用いないアライメントのためのパスは、近似
アライメントのパスの近傍にあることが期待され、それ
はεを適当にとれば、ε−サブオプティマル領域に含ま
れると考えられる。

【００３８】そこで、図５に示すように、決定されたε
−サブオプティマル領域内の残基対のみに限って、近似
を導入しないで〔Ｎｏｄｉｓｔａｎｃｅｃｕｔｆ
ｆ、Ｎｏ ΔＮｃｕｔｏｆｆ、ここでは、全構造環境
（ＦｕｌｌＳｔｒｕｃｔｕｒａｌＥｎｖｉｒｏｎｍ
ｅｎｔ（ＦＳＥ）と記述〕ＤＤＰを適用した。ε−サブ
オプティマル領域の決定には、Ｖｉｎｇｒｏｎ＆Ａｒｇ
ｏｓのアルゴリズムを使用した。

【００３９】また、通常の配列解析の場合と異なり、ｓ
（ｉ，ｊ）の値がカットオフ距離によって変化するた
め、εを定数として与えることが困難であったため、近
似アライメント演算時のｓ（ｉ，ｊ）の標準偏差（σ）
を求め、εの単位として採用した。本発明の適用の結果
とその考察を行う。

【００４０】近似の導入の効果と適切なカットオフ距離
およびΔＮの組み合わせの決定近似の導入の効果は、ア
ライメントの精度と演算時間の２点について調査され
た。テーブル１に示す４対の蛋白質に本手法を適用し
て、その結果を調べた。図６〜図９は、近似とアライメ
ント精度を調査したものである。アライメントの精度
は、距離ＲＭＳＤ（ルート・ミーン・スクェア・ディス
タンス）によって計測された。縦軸が距離ＲＭＳＤを表
し、横軸はカットオフ距離である。ΔＮの値によって、
プロットを結ぶ線の種類が変えてある。また、この計測
は、カットオフ距離が５〜２０Åまでは１Å毎に、それ
以降は５Å毎に計測した。図中一番右端のプロットに対
応するカットオフ距離は、全分子が距離カットオフの球
に収まるようなサイズにとられている（すなわち、距離
カットオフなし）。

【００４１】これらの図に示すように、いずれの蛋白質
でも、ΔＮの値によらず、カットオフ距離が５〜１５Å
までは、ほぼ同じようなプロットが得られている。カッ
トオフ距離の増加に伴い、まず急激に距離ＲＭＳＤが減
少し、その後、１０〜１５Åまでは、ゆっくりと減少す
る。しかし、１０〜１５Åまでの距離ＲＭＳＤは、ＦＳ
ＥのもとでＤＤＰを適用した場合の距離ＲＭＳＤに近い
値を持っていた。

【００４２】また、１５Å以降でのＲＭＳＤは、ΔＮカ
ットオフが導入されない場合には、蛋白によらず、ゆっ
くりと減少するという傾向を示した。ところが、ΔＮカ
ットオフの導入により、プロットの挙動は蛋白ごとに大
きく変化した。あるものは、ゆっくりと減少し、ΔＮカ
ットオフを導入しない場合と同じ挙動を示したのに対
し、他のものは急激にＲＭＳＤが増加した。

【００４３】原因として、カットオフ距離が増加した場
合、挿入や欠失に関連する残基が多く含まれることにな
るため、構造的に等価な残基であっても、ΔＮカットオ
フによってｓ（ｉ，ｊ）が正しく評価されないためであ
ると考えられる（図１０参照）。いずれにせよ、カット
オフ距離を１０〜１５Å以内に抑えれば、このような効
果は抑えられ、しかもアライメント精度も平均的には高
いものが得られると期待される。

【００４４】このような選択は、演算時間の観点からも
支持される（図１１〜図１４）。これらの図では縦軸は
中央処理装置の処理時間（ＣＰＵタイム）、横軸はカッ
トオフ距離である。ＣＰＵタイムはカットオフ距離の増
加に伴い演算時間は増加する。ΔＮカットオフの導入に
より、演算時間の減少がみられる。またΔＮが小さいほ
ど演算時間も短縮された。図中右端のプロットに対応す
るカットオフ距離は先述の通りであるので、ΔＮカット
オフを導入しない場合の実線中の右端のプロットはＦＳ
ＥでＤＤＰを適用した場合のＣＰＵタイムに対応する。
このＣＰＵタイムとの比較により、二つの近似によっ
て、演算時間が劇的に減少していることがわかる。

【００４５】これらの結果を考慮し、距離カットオフ
は、１０〜１５Å内の適当な値に設定し、ΔＮは１０に
設定すると、時間、精度をほぼ満足するアライメントが
得られると期待される。図１５〜図２１は、カット距離
を１２Å、ΔＮは１０としてテーブル１（図１５）の四
つのケースに適用した場合のアライメントを示してい
る。すなわち、ケース１〔β−蛋白質７ｆａｂｌ，７
ｆａｂｈ（図１６参照）〕、ケース２〔β−蛋白質１
ｍｕｐ，１ｅｐｂ（図１７参照）〕、ケース３〔α−蛋
白質１ｍｂｃ，１ｇｄｉ（図１８参照）、ケース４
〔α−蛋白質１ｍｂｃ，１ｃｐｃ（図１９参照）〕、
テーブル２（図２０）は、そのアライメントの、ＣＰＵ
タイム，ＲＭＳＤ，ＦＳＥのもとでＤＤＰを適用した場
合のアライメントに対する一致性（ｉｄｅｎｔｉｔｙ）
を示している。参考のため、ＦＳＥでＤＤＰを適用した
場合のＣＰＵ−ｔｉｍｅおよび、ＲＳＭＤが示されてい
る。ＦＳＥでＤＤＰを適用したアライメントが、構造ア
ライメントとして正解である保証はないが、一般的にそ
のＲＭＳＤは低く、また二次構造が適切にアライメント
されていることが多いことから、ここではこれを仮の正
解として参照することにした。テーブル２（図２０）に
示すように、近似の導入により演算時間は短縮された
が、アライメントの精度は落ちてしまった。

【００４６】２段階アライメントの効果テーラーとオレンゴ等も、選択残基のみへのＤＤＰの適
用では、アライメント精度が落ちることから、スコアに
関して上位２０個のパスを選び、それに再度ＤＤＰを適
用することを試みている。本発明も、その手法になら
い、アライメント精度を落とさないために、２段階での
アライメントを試みた。テーブルの４つのケースについ
て、アライメントを行った結果がテーブル３（図２１）
に示されている。このとき、最初の近似アライメント
は、カットオフ距離を１２Å、ΔＮは１０として求め
た。また、サブオプティマル領域のためのεは２σとし
た。演算時間は、近似演算よりもやや増加したが、得ら
れたアライメントは、ＦＳＥでＤＤＰを適用したもの
と、等価が極めて近いものとなった。

【００４７】上記から明らかなように、二つの手法は、
目的に応じて使い分けていくことにより、効果的な活用
が期待される。精度よりも演算速度が重視されるような
研究（例えばデータベース検索やマルチプルアライメン
トのためのガイドツリー（ｇｕｉｄｅ−ｔｒｅｅ）の構
築のためには、二つの近似を導入したアライメントで十
分だと考えられる。

【００４８】一方、厳密な残基対残基の対応が要求され
るような研究では、２段アライメントを利用すれば良
い。先に述べたようにＤＰは、配列解析の分野で多様な
拡張がなされており、本発明の手法もそれにならうこと
により、さらなる発展が期待される。以上のような方法
により、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るが、その方法を整理するとともに、そ
の実施するハード面から説明する。

【００４９】図２２は本発明のダブル・ダイナミック・
プログラミングによる構造アライメントのハード的構成
図（その１）、図２３はそのダブル・ダイナミック・プ
ログラミングによる構造アライメントのハード的構成図
（その２−１）、図２４はそのダブル・ダイナミック・
プログラミングによる構造アライメントのハード的構成
図（その２−２）である。

【００５０】図２２において、１は蛋白質立体構造座標
データ入力部、２は座標データの残基対の側鎖の中心間
距離への変換部、３は距離カットオフ近似による局所環
境構築部、４は残基アライメントのための高レベルＤＰ
マッチング部、５は比較マトリクスの各要素の決定部、
６は局所環境比較部であり、この局所環境比較部６で
は、ΔＮカットオフ条件を判断して、Ｙｅｓの場合に
は、局所環境類似度を０．０に設定し、Ｎｏの場合に
は、局所環境類似度は低レベルＤＰで演算する。７は低
レベルＤＰ用漸化式適用部、８は高レベルＤＰ用漸化式
適用部、９はバックトラッキングによるアライメント構
築部、１０はアライメント出力部である。

【００５１】そこで、ダブル・ダイナミック・プログラ
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部１から
蛋白質立体構造座標データが入力され、座標データの残
基対の側鎖の中心間距離への変換部２で座標データの残
基対の側鎖の中心間距離が求められ、距離カットオフ近
似による局所環境構築部３で距離カットオフ近似による
局所環境構築される。

【００５２】また、残基アライメントのための高レベル
ＤＰマッチング部４においては、比較マトリクスの各要
素の決定部５において、局所環境比較部６による局所環
境比較が行われる。つまり、ΔＮカットオフ条件を判断
して、Ｙｅｓの場合には、局所環境類似度を０．０に設
定し、Ｎｏの場合には、局所環境類似度は低レベルＤＰ
で演算し、次いで、低レベルＤＰ用漸化式適用部７で低
レベルＤＰ用漸化式の適用を実行する。更に、高レベル
ＤＰ用漸化式適用部８で高レベルＤＰ用漸化式の適用を
実行する。次いで、バックトラッキングによるアライメ
ント構築部９においてバックトラッキングによるアライ
メントの構築を行う。

【００５３】最後に、そのアライメントの結果をアライ
メント出力部１０より出力する。図２３及び図２４にお
いて、１１は蛋白質立体構造座標データ入力部、１２は
座標データの残基対の側鎖の中心間距離への変換部、１
３は距離カットオフ近似による局所環境構築部、１４は
近似アライメントのための高レベルＤＰマッチング部、
１５は比較マトリクスの各要素の決定部、１６は局所環
境比較部である。

【００５４】この局所環境比較部１６では、ΔＮカット
オフ条件を判断して、Ｙｅｓの場合には、局所環境類似
度を０．０に設定し、Ｎｏの場合には、局所環境類似度
は低レベルＤＰで演算する。１７は低レベルＤＰ用漸化
式適用部、１８は高レベルＤＰ用漸化式適用部、１９は
構造環境類似度の標準偏差演算部、２０はε−サブオプ
ティマル領域決定部、２１は近似によらない構造環境決
定部、２２は残基アライメントのための高レベルＤＰマ
ッチング部、２３はε−サブオプティマル領域の各要素
の決定部、２４は構造環境比較部、２５は低レベルＤＰ
用漸化式適用部、２６は高レベルＤＰ用漸化式適用部、
２７はバックトラッキングによるアライメント構築部、
２８はアライメント出力部である。

【００５５】そこで、ダブル・ダイナミック・プログラ
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部１１か
ら蛋白質立体構造座標データが入力され、座標データの
残基対の側鎖の中心間距離への変換部１２で座標データ
の残基対の側鎖の中心間距離が求められ、距離カットオ
フ近似による局所環境構築部１３で距離カットオフ近似
による局所環境構築される。

【００５６】なお、座標データの残基対の側鎖の中心間
距離への変換部１２での処理が済むと、近似によらない
構造環境決定部２１において、近似によらない構造環境
の決定を行い、残基アライメントのための高レベルＤＰ
マッチング部２２における処理を行うようにしてもよ
い。また、近似アライメントのための高レベルＤＰマッ
チング部１４においては、比較マトリクスの各要素の決
定部１５において、局所環境比較部１６による局所環境
比較が行われる。つまり、ΔＮカットオフ条件を判断し
て、Ｙｅｓの場合には、局所環境類似度を０．０に設定
し、Ｎｏの場合には、局所環境類似度は低レベルＤＰで
演算し、次いで、低レベルＤＰ用漸化式適用部１７で低
レベルＤＰ用漸化式の適用を実行する。更に、高レベル
ＤＰ用漸化式適用部１８により高レベルＤＰ用漸化式の
適用を実行する。次いで、ε−サブオプティマル領域の
決定部２０でε−サブオプティマル領域の決定を行う。

【００５７】一方、局所環境比較部１６において、局所
環境が比較されると、構造環境類似度の標準偏差演算部
１９で構造環境類似度の標準偏差の演算を行う。次い
で、ε−サブオプティマル領域決定部２０でε−サブオ
プティマル領域の決定を行う。ε−サブオプティマル領
域の決定が行われると、残基アライメントのための高レ
ベルＤＰマッチング部２２においては、ε−サブオプテ
ィマル領域の各要素の決定部２３において、構造環境比
較部２４で構造環境の比較を行い、次いで、低レベルＤ
Ｐ用漸化式適用部２５で低レベルＤＰ用漸化式の適用を
実行する。更に、高レベルＤＰ用漸化式適用部２６によ
り高レベルＤＰ用漸化式の適用を実行する。次に、バッ
クトラッキングによるアライメント構築部２７において
バックトラッキングによるアライメントの構築を行う。

【００５８】最後に、そのアライメントの結果をアライ
メント出力部２８より出力する。なお、本発明は上記実
施例に限定されるものではなく、本発明の趣旨に基づい
て種々の変形が可能であり、これらを本発明の範囲から
排除するものではない。

【００５９】

【発明の効果】以上、詳細に説明したように、本発明に
よれば、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るダブル・ダイナミック・プログラミン
グによる構造アライメント方法を提供することができ
る。

【図面の簡単な説明】

【図１】本発明に係る距離カットオフの概念を示す図で
ある。

【図２】本発明に係るΔＮカットオフ近似の概念を示す
図である。

【図３】本発明の２段階アライメントのフローチャート
である。

【図４】ε−サブオプティマル領域の説明図である。

【図５】全構造環境を有するＤＤＰ演算の適用を示す図
である。

【図６】近似とアライメント精度の調査結果を示す図
（その１）である。

【図７】近似とアライメント精度の調査結果を示す図
（その２）である。

【図８】近似とアライメント精度の調査結果を示す図
（その３）である。

【図９】近似とアライメント精度の調査結果を示す図
（その４）である。

【図１０】カットオフ距離の大小を示す図である。

【図１１】カットオフ距離と演算時間の関係を示す図
（その１）である。

【図１２】カットオフ距離と演算時間の関係を示す図
（その２）である。

【図１３】カットオフ距離と演算時間の関係を示す図
（その３）である。

【図１４】カットオフ距離と演算時間の関係を示す図
（その４）である。

【図１５】カットオフ距離を１２Å、ΔＮを１０とする
場合の４つのケースを示す図である。

【図１６】ケース１〔β−蛋白質７ｆａｂｌ，７ｆａ
ｂｈ〕を示す図である。

【図１７】ケース２〔β−蛋白質１ｍｕｐ，１ｅｐ
ｂ〕を示す図である。

【図１８】ケース３〔α−蛋白質１ｍｂｃ，１ｇｄ
ｉ〕を示す図である。

【図１９】ケース４〔α−蛋白質１ｍｂｃ，１ｃｐ
ｃ〕を示す図である。

【図２０】本発明のアライメントの、ＣＰＵｔｉｍ
ｅ，ＲＭＳＤ，ＦＳＥのもとでＤＤＰを適用した場合の
アライメントに対する一致性を示す図である。

【図２１】図１６〜図１９のテーブルの４つのケースに
ついて、アライメントを行った結果を示す図である。

【図２２】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
（その１）である。

【図２３】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
（その２−１）である。

【図２４】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
（その２−２）である。

【図２５】従来の蛋白質の構造アラインメント例を示す
図である。

【図２６】二次元マトリックスＤＰのための漸化式の説
明図である。

【図２７】テーラーとオレンゴによる構造的アライメン
ト（１９８９）の説明図である。

【図２８】蛋白質中の残基ｉの構造的環境の定義の説明
図である。

【図２９】残基ｉとｊの構造的環境間の類似性を示す図
である。

【図３０】ダブル・ダイナミック・プログラミングの説
明図である。

【図３１】テーラーとオレンゴによるコンピュティショ
ナル時間の低減方法の説明図である。

【符号の説明】

１，１１蛋白質立体構造座標データ入力部２，１２座標データの残基対の側鎖の中心間距離へ
の変換部３，１３距離カットオフ近似による局所環境構築部４，２２残基アライメントのための高レベルＤＰマ
ッチング部５，１５比較マトリクスの各要素の決定部６，１６局所環境比較部７，１７，２５低レベルＤＰ用漸化式適用部８，１８，２６高レベルＤＰ用漸化式適用部９，２７バックトラッキングによるアライメント構
築部１０，２８アライメント出力部１４近似アライメントのための高レベルＤＰマッチ
ング部１９構造環境類似度の標準偏差演算部２０ ε−サブオプティマル領域決定部２１近似によらない構造環境決定部２３ ε−サブオプティマル領域の各要素の決定部２４構造環境比較部１００残基ｉの側鎖を中心とした半径ｒの球

Claims

【特許請求の範囲】

【請求項１】ダブル・ダイナミック・プログラミング
による構造アライメント方法において、（ａ）蛋白質中の残基ｉの側鎖を中心として該側鎖の中
心間距離が所定距離ｒ以内にある残基のみを該残基ｉの
構造的環境の構成要素とする距離カットオフ近似を行う
工程と、（ｂ）前記距離カットオフ近似により類似した局所環境
をもつ残基対のみを選択的に比較するΔＮカットオフ近
似を行う工程とを施すことを特徴とするダブル・ダイナ
ミック・プログラミングによる構造アライメント方法。
【請求項２】請求項１記載のダブル・ダイナミック・
プログラミングによる構造アライメント方法において、
前記所定距離ｒを１０〜１５Å、ΔＮを１０に設定する
ことを特徴とするダブル・ダイナミック・プログラミン
グによる構造アライメント方法。
【請求項３】請求項１記載のダブル・ダイナミック・
プログラミングによる構造アライメント方法に、更に、
決定されたε−サブオプティマル領域内の残基対のみに
限って、近似を導入しないでダブル・ダイナミック・プ
ログラミングを行う工程とを施すことを特徴とするダブ
ル・ダイナミック・プログラミングによる構造アライメ
ント方法。