JP2001134574A

JP2001134574A - ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法

Info

Publication number: JP2001134574A
Application number: JP31734299A
Authority: JP
Inventors: Takaaki Hiroike; 隆明廣池; Hiroyuki Fuji; 博幸藤
Original assignee: Biomolecular Engineering Research Institute
Current assignee: Biomolecular Engineering Research Institute
Priority date: 1999-11-08
Filing date: 1999-11-08
Publication date: 2001-05-18
Also published as: EP1098257A2

Abstract

(57)【要約】【課題】従来の方法で解析できた、全体の構造は似て
いないが局所的に類似構造を持つ様な蛋白質だけではな
く、サーキュラーパーミュテーションの関係にある蛋白
質でも、適切にアラインメントできるダブル・ダイナミ
ック・プログラミング・アルゴリズムによる構造局所ア
ラインメント方法を提供する。【解決手段】Ｎ末端側とＣ末端側の構造が入れ替わっ
ても構造環境の表現が変化しない様にするための、ダブ
ル・ダイナミック・プログラミング・アルゴリズムによ
る構造局所アラインメント方法において、構造環境を求
める残基ｉに対して、Ｎ末端側に存在する残基へのベク
トルとＣ末端側に存在する残基へのベクトルに分けて求
め、Ｃ末端側の残基へのベクトルを残基番号順に並べ、
次いで、Ｎ末端側の残基へのベクトルを残基番号順に並
べる。この操作を行うことにより、Ｎ末端とＣ末端の配
列の入れ替わりに影響を受けない環境を構築することが
できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、蛋白質の構造や機
能、または分子進化の情報を得ることを目的に、蛋白質
の立体構造の比較解析を行うダブル・ダイナミック・プ
ログラミング・アルゴリズムを用いた構造局所アライン
メント方法に関するものである。

【０００２】

【従来の技術】従来、このような分野の先行技術に関す
る参考文献としては、以下のようなものがあった。

【０００３】（１）Ｃ．Ａ．Ｏｒｅｎｇｏ＆Ｗ．
Ｒ．Ｔａｙｌｏｒ：Ｊ．Ｍｏｌ．Ｂｉｏｌ．１９９３，
２３３，４８８−４９７（２）Ｔ．Ｆ．Ｓｍｉｔｈ＆Ｍ．Ｓ．Ｗａｔｅｒｍ
ａｎ：Ｊ．Ｍｏｌ．Ｂｉｏｌ．（１９８１），１４７，
１９５−１９７（３）Ｔｏｈ，Ｈ．ＣＡＢＩＯＳ（１９９７），１
３，３８７−３９６近年の蛋白質の一次構造決定技術と立体構造決定技術の
進歩に伴って、膨大な量の蛋白質の配列データと立体構
造データが急速に蓄積されている。これら大量の情報を
背景に、情報解析の手法によって生命を理解しようとい
う研究が進歩しつつある。

【０００４】特に、医療分野ではこれら膨大な情報を利
用して医療品開発の効率化を行う動きがある。実験技術
上、蛋白質のアミノ酸配列を決定することは比較的簡単
かつ迅速に行えるが、その蛋白質が医療品開発のターゲ
ットになり得るかどうかの情報、つまり、創薬に必要な
生体内での機能解析やその蛋白質に対するアゴニスト、
アンタゴニストなどの分子情報を得るためには多大の労
力と時間が必要となる。そこで、例えば疾患部位に特異
的に発現している機能未知の蛋白質を発見した場合、デ
ータベースを使って、既に機能が知られている蛋白質と
アミノ酸配列を比較し、類似のアミノ酸配列を持つ蛋白
質の機能から目的の蛋白質の機能を推定することが試み
られている。そして、その推定によって蛋白質の機能確
認をする為の実験系の設計やアンタゴニスト、アゴニス
トのスクリーニング系の選択が可能となる。また、その
蛋白質機能から疾患にどの様なメカニズムで関与するの
かを考察することが、医療品開発のターゲットとして適
切であるかどうか、診断薬としての開発の是非などの判
断につながる。

【０００５】一方、立体構造が知られていない蛋白質に
対して、立体構造が既知で、しかも類似アミノ酸配列を
持つ蛋白質を配列の比較解析から得ることができれば、
その蛋白質の立体構造を鋳型にして、目的蛋白質の立体
構造をモデリングすることができる。そして、そのモデ
ルを利用することにより、理論的薬物設計をすることが
できる。しかし、最近になり、配列の類似性が低くても
類似の立体構造と類似の機能を持つ蛋白質の存在が知ら
れるようになった。

【０００６】そこで、配列レベルの比較、つまり配列と
蛋白質機能の関係の理解だけではなく、立体構造レベル
での比較、つまり立体構造と蛋白質機能の関係を調べる
必要性が出てきている。

【０００７】比較解析の重要な基盤技術の一つにアライ
ンメントと呼ばれるのがある。一般にアミノ酸配列間や
核酸塩基配列間でのアラインメントを配列アラインメン
トと言うのに対し、立体構造レベルでのアラインメント
を構造アラインメントと言う。アラインメントを行うと
は、２種類の類似配列あるいは類似構造が存在する時、
配列上、あるいは構造上、等価な残基を対応づけて並置
し、対応するものがない残基にはギャップと呼ばれる空
記号を対応させる操作を行うことを言う。

【０００８】一方、アラインメントには蛋白質全体を比
較するグローバルアラインメントと、類似している部分
だけを選び出し、アラインメントをする局所アラインメ
ントがある。蛋白質全体に渡って類似していればグロー
バルアラインメントで比較解析を行うことができるが、
全域的な類似性がなく、しかも、部分的に類似した部分
が存在する場合は、局所アラインメントを適用する必要
がある。部分的な類似構造を見い出す意義は、次の様に
考えられる。

【０００９】（１）同一機能を持った蛋白質同士は、全
体の相同性が低い場合でも、機能に関与している部分の
相同性は比較的高い。

【００１０】（２）大きな蛋白質では、一つの機能を有
する構造（機能ドメイン）が複数組み合わさって一つの
蛋白質が構成されていることが多い。

【００１１】（３）一つの機能ドメインの中でも、サー
キュラーパーミュテーションが発生すると、Ｎ端末側と
Ｃ端末側の配列が入れ替わった蛋白質が生じる。これら
の場合、全域的な構造の比較よりも、むしろ部分的な構
造の比較解析に意味を持ち、部分的な類似性を理解する
ことで、その蛋白質の構造と機能についての関係や進化
の起源を知ることができる。

【００１２】本発明に係る構造局所アラインメントと
は、前述した立体構造レベルでの比較解析の必要性に答
える為のアラインメントで、その基本的な方法論は、１
９９３年にオレンゴとテイラー（Ｃ．Ａ．Ｏｒｅｎｇｏ
＆Ｗ．Ｒ．Ｔａｙｌｏｒ）により、ダブル・ダイナ
ミック・プログラミング・アルゴリズムを用いて開発さ
れた（Ｊ．Ｍｏｌ．Ｂｉｏｌ．１９９３，２３３，４８
８−４９７）。ダブル・ダイナミック・プログラミング
・アルゴリズムとは、ダイナミック・プログラミング・
アルゴリズムという２つの蛋白質の間の最適な配列アラ
インメントを得るための代表的なアルゴリズムを、立体
構造を取り扱うことができるように拡張したアルゴリズ
ムである。

【００１３】ダブル・ダイナミック・プログラミング・
アルゴリズムを説明する為に、まずその原形となった局
所配列アラインメントの為のダイナミック・プログラミ
ング・アルゴリズム〔Ｔ．Ｆ．Ｓｍｉｔｈ＆Ｍ．
Ｓ．Ｗａｔｅｒｍａｎ：Ｊ．Ｍｏｌ．Ｂｉｏｌ．（１９
８１），１４７，１９５−１９７〕について説明する。

【００１４】ダイナミック・プログラミング・アルゴリ
ズムを行う為には、図３７に示すように２次元のマトリ
ックスを用意し、マトリックスの行の側に蛋白質Ａのア
ミノ酸配列を、列の側に蛋白質Ｂのアミノ酸配列を並べ
る。そして、以下に示す式（１）により、蛋白質Ａと蛋
白質Ｂの一方の末端残基対から、順次、他方の末端へ向
けてマトリックス内の各要素の値（Ｄ_i,j）を求めて行
く。

【００１５】Ｅ_i,j＝Ｍａｘ（Ｄ_i,j-1−ａ，Ｅ_i,j-1−ｂ）Ｆ_i,j＝Ｍａｘ（Ｄ_i-1,j−ａ，Ｆ_i-1,j−ｂ）Ｄ_i,j＝Ｍａｘ（Ｓ_i,j＋Ｄ_i-1,j-1，Ｅ_i,j，Ｆ_i,j，０） …（１）ここでＳ_i,jはアミノ酸残基ｉ，ｊの物理化学的性質の
類似度、ａはオープンギャップペナルティー、ｂはイク
ステンションギャップペナルティーである。

【００１６】上記式（１）の意味する所は、４つの引き
数、Ｓ_i,j＋Ｄ_i-1,j-1、Ｅ_i,j、Ｆ_i,j、０の中で最
大値をＤ_i,jとして採用することである。ここで、ａ，
ｂはギャップペナルティーと呼ばれる任意の定数で、前
者は最初のギャップとなる場合に与えるペナルティー値
（オープンギャップペナルティー）で、後者は連続して
ギャップを与える時に与えるペナルティー値（イクステ
ンションギャップペナルティー）である。Ｓ_i,jは正お
よび負の値からなり、スコアテーブルと呼ばれる各アミ
ノ酸同士の類似度を示した表から値を得ることができ
る。

【００１７】代表的なスコアテーブルにＤａｙｈｏｆｆ
のスコアテーブル（図３９）があるが、これは、物理化
学的性質のよく似たアミノ酸対に大きな正の値を与え、
似ていないアミノ酸対に小さな負の値を与えた数値表で
ある。つまり、Ｓ_i,jはスコアテーブルの値を用いて２
つの蛋白質配列間のアミノ酸残基の類似性を表してい
る。

【００１８】最大値Ｄ_i,jがＳ_i,j＋Ｄ_i-1,j-1の場合
は、アミノ酸残基ｉとｊを残基対としてアラインメント
するのが、最もスコアが高くなることを示しており、図
３８のマトリックス中でＤ_i-1,j-1からＤ_i,jへ対角線
方向へパス（図３８の漸化式説明図の矢印→に相当す
る）ができる。Ｅ_i,j，Ｆ_i,jが選択された場合は、残
基ｉとギャップ、あるいは、残基ｊとギャップを対応さ
せてアラインメントすることを示し、平行又は垂直にパ
スができる。

【００１９】また、Ｅ_i,j＝Ｍａｘ（Ｄ_i,j-1−ａ，Ｅ
_i,j-1−ｂ）及びＦ_i,j＝Ｍａｘ（Ｄ_i-1,j−ａ，Ｆ
_i-1,j−ｂ）は、それぞれギャップペナルティーとして
オープンギャップペナルティーとイクステンションギャ
ップペナルティーのどちらを採用すべきかを判断してい
る。

【００２０】オープンギャップペナルティーの場合は図
３８においてＤ_i,j-1又はＤ_i-1,jからＤ_i,jにパスが
でき、イクステンションギャップペナルティーの場合
は、Ｅ _i,j-1又はＦ_i-1,jが示しているパスのスタート
となる残基対からＤ_i,jへパスが伸びてきていることを
示す。

【００２１】また、Ｍａｘ操作のゼロの項により、Ｄ
_i,jが負値になる場合はＤ_i,jにはゼロが入れられ、そ
れ以上パスは作られないようにしている。このＭａｘ操
作のゼロの項により、Ｄ_i,jがゼロとなる任意の点から
アラインメントを始めることができ、複数の局所アライ
ンメントを得ることが可能となる。

【００２２】上記式（１）を計算していく際に、Ｍａｘ
の操作でスコア（Ｄ_i,j）とともに、どのパスが選択さ
れたのかを記憶しておく。次に、すべての残基について
上記漸化式（１）の計算を行った後、バックトラッキン
グと呼ばれる操作を行う。つまり、最大のスコア値を示
す残基ｉと残基ｊの対から、上記式（１）でＭａｘ値が
選ばれたパスに従って、バックトラッキングしていくこ
とにより局所アラインメントを求めることができるわけ
である。そして、Ｍａｘがゼロになった所で、バックト
ラッキングが終わる。

【００２３】更に、次に大きなスコア値を与える残基対
から再びバックトラッキングを行ううことによって二本
目の局所アラインメントが行える（図４０参照）。３本
目以降同様にしてアラインメントを得ることができる。
この考え方を進めたアルゴリズムが、スミスとウオータ
ーマンが開発した局所配列アラインメントの為のダイナ
ミック・プログラミング・アルゴリズムである。

【００２４】本発明に係る構造局所アラインメントに対
する基本的な方法論は、上述したスミスとウオーターマ
ンの局所アラインメントの方法論を用いたダイナミック
・プログラミング・アルゴリズムと本質的には同じアル
ゴリズムである。つまり、ダイナミック・プログラミン
グ・アルゴリズムの際に、図３７，図３８のＳ_i,jの値
として利用してきたアミノ酸類似度を示すスコアテーブ
ル（図３９参照）の代わりに、比較する２つの蛋白質の
各アミノ酸残基の構造上の類似度を与えることが出来れ
ば、そのまま上記式（１）のアルゴリズムを用いて構造
局所アラインメントを得ることが可能となる。そこで、
テイラーとオレンゴは、構造上の類似性を表す値として
構造環境（Ｓｔｒｕｃｔｕｒａｌｅｎｖｉｒｏｎｍｅ
ｎｔ）を提案した（図４１参照）。

【００２５】蛋白質Ａ中の残基ｉの構造環境は、残基ｉ
の特定の原子（Ｃβ）から他の全てのアミノ酸残基の特
定の原子（Ｃβ）へのベクトル（もしくは距離）として
求め、残基番号順に並べた集合として表す。つまり、残
基ｉの構造環境とは、蛋白質Ａ中の他のすべてのアミノ
酸残基に対して残基ｉが相対的にどのような位置にある
かを示している。そして、蛋白質Ａと蛋白質Ｂにそれぞ
れ存在する残基ｉと残基ｊの構造的な類似度は、残基ｉ
と残基ｊの構造環境の類似度として求めることができ
る。

【００２６】ここで、構造環境とは１次元のベクトルデ
ータの集合であることから、残基ｉと残基ｊの構造環境
の類似度は、配列間の類似度を求める問題と同様に扱う
ことができる。そこで、テイラーとオレンゴはダイナミ
ック・プログラミング・アルゴリズムを用いて、蛋白質
Ａと蛋白質Ｂのそれぞれの残基対に対する構造環境のグ
ローバルアラインメントスコアを残基ｉと残基ｊの構造
環境の類似度Ｓ_i,jとすることを提案している（図４１
参照）。

【００２７】そして、以上のようにして求めたＳ_i,j値
を利用して上記式（１）を解くことにより、構造局所ア
ラインメントを得ることができる。これまで説明してき
たように、構造環境の類似度を求める時（低次ＤＰ）、
構造局所アラインメントを解く時（高次ＤＰ）の２回に
わたってダイナミック・プログラミング・アルゴリズム
を用いるので、この構造アラインメントに対する方法論
をダブル・ダイナミック・プログラミング・アルゴリズ
ムと言う。

【００２８】図４２に構造局所アラインメントのイメー
ジ図を示しているが、アラインメントされたパスの周り
は、パスをたどって行くと、もとのアラインメントに合
流するようなものが多く存在する。そのため、図４０に
示すように、二本目以降の局所アラインメントを得る際
に、最初に得られたアラインメントに由来するパスに合
流するようなＤ_i,jを排除するために、高次ＤＰで得ら
れたスコアに対して、既にアラインメントされたパスの
周囲に対応する残基対のスコアをゼロにしていくような
操作を入れる。以上がテイラーとオレンゴが開発したダ
ブル・ダイナミック・プログラミング・アルゴリズムを
用いた構造局所アラインメントである。

【００２９】

【発明が解決しようとする課題】このように、オレンゴ
とテイラーの開発したダブル・ダイナミック・プログラ
ミング・アルゴリズムにより、配列レベルではなく蛋白
質の立体構造レベルでの局所アラインメントが可能にな
ったわけであるが、サーキュラーパーミュテーションの
関係にある蛋白質同士では正確なアラインメントが得ら
れないという問題がある。

【００３０】サーキュラーパーミュテーションとは、図
１に示すように、遺伝子重複により生じた２つの同じ配
列をもつ遺伝子が、融合し、さらに両端が欠失すること
により、Ｎ末端側とＣ末端側の配列が入れ代わった構造
の蛋白質を発現することを言う。特に、Ｎ末端のアミノ
酸残基とＣ末端のアミノ酸残基の空間的な距離が近い
と、もとの構造とサーキュラーパーミュテーションを起
こした構造では全体的には違いが生じることもなく、機
能も保持される。

【００３１】図２にグルカナーゼのサーキュラーパーミ
ュテーションの例を示したが、立体的にほぼ同一の構造
を取っていることが分かる。グルカナーゼの例は人工的
にサーキュラーパーミュテーションを起こした例である
が、自然界にも人間のグルタチオン合成酵素とバクテリ
アのグルタチオン合成酵素〔ＴｈｅＥＭＢＯＪｏｕ
ｒｎａｌ１９９９１８（１２）：３２０４−３２１
３〕、アルドラーゼとトランスアルドラーゼ〔Ｓｔｒｕ
ｃｔｕｒｅ１９９６Ｊｕｎ１５；４（６）：７１
５−２４〕、ＦＭＮ−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎ
とＦＡＤｂｉｎｄｉｎｇｄｏｍａｉｎ〔ＮａｔＳ
ｔｒｕｃｔＢｉｏｌ１９９８Ｆｅｂ；５（２）：
１０１〕などがサーキュラーパーミュテーションの例と
考えられている。

【００３２】オレンゴとテイラーの開発した構造局所ア
ラインメント法に存在する問題は、サーキュラーパーミ
ュテーションの関係にある蛋白質同士では、立体構造的
に同一部分に相当する各アミノ酸残基を構造環境で表現
しても、図３で示すように異なったものとなり、立体構
造的な類似度が低く判断されることである。つまり、構
造環境を構築する際に、構成するベクトルをＮ末端残基
に対するものからＣ末端残基に向けて、残基番号順に並
べる為に、残基番号順序に依存した構造環境が構築され
る。その為にＮ末端側とＣ末端側のアミノ酸配列が入れ
替わった構造を持つサーキュラーパーミュテーションの
関係にある蛋白質では、類似構造部分の構造環境が正確
に評価されないと考えられる。

【００３３】図３について詳細に説明すると、２つの蛋
白質Ａ，Ｂはサーキュラーパーミュテーションの関係に
あるとする。同じ数字で表した残基は、類似構造部分に
対応したアミノ酸残基を表している。テイラーとオレン
ゴの方法では、蛋白質Ａの残基ｉの構造環境の構成要素
は１，２，３，４，５，６，７，８，９，１０の順で並
ぶのに対し、対応する蛋白質Ｂの残基ｉの構造環境の構
成要素は６，７，８，９，１０，１，２，３，４，５の
順で並ぶ。

【００３４】このようなサーキュラーパーミュテーショ
ンの関係にある蛋白質は、一方のＮ末端側と他方のＣ末
端側、あるいはその逆が類似構造として局所的にアライ
ンメントされることが期待され、局所アラインメントで
しか取り扱えない問題である。しかし、上述したよう
に、サーキュラーパーミュテーションの関係にある蛋白
質については構造局所アラインメントの方法には問題が
存在する。

【００３５】本発明は、上記状況に鑑みて、サーキュラ
ーパーミュテーションの関係にある蛋白質でも、適切に
アラインメントできるダブル・ダイナミック・プログラ
ミング・アルゴリズムによる構造局所アラインメント方
法を提供することを目的とする。

【００３６】

【課題を解決するための手段】本発明は、上記目的を達
成する為に、〔１〕Ｎ末端側とＣ末端側の構造が入れ替わっても構造
環境の表現が変化しない様にするために、ダブル・ダイ
ナミック・プログラミング・アルゴリズムによる構造局
所アラインメント方法において、以下の工程を施した。

【００３７】（ａ）各アミノ酸残基に対し、このアミノ
酸残基中の原子（ＣαもしくはＣβ）から、他のすべて
のアミノ酸残基の原子（ＣαもしくはＣβ）へ向けての
ベクトルとして構造環境を求める工程と、（ｂ）前記
（ａ）工程において構造環境を求める際、アミノ酸残基
ｉの構造環境は、Ｎ末端アミノ酸残基へのベクトルから
ｉ−１番目のアミノ酸残基へ向けてのベクトルまでを残
基番号順に並べたＮ末端側ベクトルの集合と、ｉ＋１番
目のアミノ酸残基へのベクトルからＣ末端のアミノ酸へ
向けてのベクトルまでを残基番号順に並べたＣ末端側ベ
クトルの集合に分ける工程と、（ｃ）最初にＣ末端側ベ
クトルの集合、次いでＮ末端側ベクトルの集合が並ぶよ
うに構造環境を再構築する工程と、（ｄ）前記（ｃ）工
程で作成した構造環境を用いてダブル・ダイナミック・
プログラミング・アルゴリズムにより１本目の構造局所
アラインメントを得る工程と、（ｅ）前記１本目の構造
局所アラインメントが得られた後、そのパス上の残基対
から前後５〜１０残基幅で構造環境の類似度（Ｓ_i,j）
を取り得ない値に再設定する工程と、（ｆ）前記（ｅ）
工程で再設定した構造環境の類似度を用いて、通常取り
得ない値に再設定されたＳ_i,j値を持つ残基対部分はス
キップしながら高次ＤＰを再度計算した後、バックトラ
ッキングすることにより、２本目の構造局所アラインメ
ントを得る工程と、（ｇ）最大スコアが設定値以下に到
達するまで上記（ｅ）工程及び（ｆ）工程の操作を繰り
返すことにより、更に他の構造局所アラインメントを得
る工程とを施すことを特徴とする。

【００３８】〔２〕上記〔１〕記載のダブル・ダイナミ
ック・プログラミング・アルゴリズムによる構造局所ア
ラインメント方法において、計算時間を短縮する操作と
して、蛋白質の局所構造を構造環境として考慮する距離
カットオフの導入と、アラインメントの精度向上を考慮
して蛋白質の２次構造の情報の導入を可能としたことを
特徴とする。

【００３９】以上の操作を行うことで、サーキュラーパ
ーミュテーションの関係にある蛋白質同士でも構造局所
アラインメントを与える方法を提供することができる。

【００４０】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。まず、本発明の
ダブル・ダイナミック・プログラミング・アルゴリズム
による構造局所アラインメント方法について、詳細に述
べる。

【００４１】ここで、構造局所アラインメントのサーキ
ュラーパーミュテーションに対する問題は、構造環境を
構築する際に、構成するベクトルを蛋白質のＮ末端残基
に対するものからＣ末端残基に対するものに向けて、残
基番号順に並べる為に、配列の順序依存性が構造環境に
生じると考えた。そこで、サーキュラーパーミュテーシ
ョンが起きても影響の受けにくいものへ構造環境を再構
築することを考えた。

【００４２】そこで、（１）構造環境を求める残基ｉに対して、Ｎ末端側に存
在する残基へのベクトルとＣ末端側に存在する残基への
ベクトルに分けて求める。

【００４３】（２）図４に示すように、Ｃ末端側の残基
へのベクトルを残基番号順に並べ、次いで、Ｎ末端側の
残基へのベクトルを残基番号順に並べる。

【００４４】ここで、図４を参照しながら従来の方法と
本発明の方法とについて詳細に説明する。

【００４５】従来の方法では、蛋白質Ａの残基ｉの構造
的環境の構成要素は、１，２，３，４，５，６，７，
８，９，１０の順で並ぶのに対し、本発明の方法によれ
ば、蛋白質Ａの残基ｉの構造的環境の構成要素は９，１
０，１，２，３，４，５，６，７，８の順で並ぶ。

【００４６】また、蛋白質Ｂの残基ｉの構造的環境の構
成要素は従来の方法では、６，７，８，９，１０，１，
２，３，４，５の順で並ぶのに対し、本発明の方法によ
れば、蛋白質Ｂの残基ｉの構造的環境の構成要素はＮ末
端とＣ末端の配列の入れ替わりに影響を受けない環境で
ある、９，１０，１，２，３，４，５，６，７，８の順
で並ぶ。

【００４７】この操作を行うことにより、図４に示すよ
うに、Ｎ末端とＣ末端の配列の入れ替わりに影響を受け
ない環境を構築できると考えた。

【００４８】テイラーとオレンゴは、複数の局所アライ
ンメントを効率良く得る為に、高次ＤＰのマトリックス
中をバックトラッキングをする際、既にアラインメント
に用いたパスの周囲の残基対の値をゼロにして、違う場
所の局所アラインメントを効率良く見つけることができ
るようにしている（図４１参照）。

【００４９】しかし、上記の方法では非常に良く似た構
造が存在する場合、他の類似構造を検出できなくなるこ
とがあった。つまり、良く似た構造中の残基対には非常
に大きなスコア値が与えられる。構造アラインメントの
場合は、イクステンションギャップペナルティーはゼロ
もしくはゼロ近傍の値にするのが好ましいが、イクステ
ンションギャップペナルティーがゼロ近傍の値とする
と、ギャップペナルティーはａ＋ｂ^*（Ｋ−１）の式
（図３７参照）で与えられることから分かるように、ギ
ャップの長さが幾ら長くなってもペナルティーの値は大
きくならない。

【００５０】そこで、非常に良く似た構造が存在する場
合は、良く似た構造中の残基対ｘ，ｙには非常に大きな
スコア値Ｄｘ，ｙが与えられ、その値が殆ど減衰するこ
となしにイクステンションギャップ由来の項のＥ，Ｆ値
として漸化式に入れられる。そして、比較的大きなＳ
ｉ，ｊ値を持つ部位があっても、Ｄ_x,y−〔ａ＋ｂ×
（ｋ−１）〕＞Ｓ_i,j＋Ｄ_i-1,j-1となり、Ｅ_i,jまた
はＦ_i,jが選ばれ、ギャップにより前に検出されたアラ
インメントへ合流する。

【００５１】そこで、本発明では、アラインメントする
際にバックトラッキングした残基対の周囲の残基対のＳ
_i,j値、つまり高次ＤＰを行う為のマトリックス（ＬＭ
ｔｘ）中の対応する残基対の値を、通常取り得ない値
（非常に小さな負の値）に再設定した。そして、次のア
ラインメントを求める際には、その部分は考慮せずに高
次ＤＰを行った。

【００５２】このようにして、既にアラインメントされ
た残基対からのパスを発生させないようにして、高次Ｄ
Ｐを再計算する為に、前のアラインメントに合流するパ
スはすべて消失した。このことにより、前に検出された
局所アラインメントのスコアの大きさに影響されず、次
のアラインメントを検出できることが可能になった。そ
の他、本プログラムには、計算速度を速める為に構造環
境成分として考慮する残基の空間的な制約条件（距離カ
ットオフ）や、２つの構造を比較する際の、構造環境を
表す成分数の差の制約（ΔＮカットオフ条件）〔Ｔｏｈ
Ｈ，ＣＡＢＩＯＳ（１９９７），３９６，１３，３８
７〕を取り入れられるように設計した。

【００５３】距離カットオフとは蛋白立体構造中の各ア
ミノ酸残基の環境をその残基からのカットオフ距離内の
球内残基のみに対する相対的位置で表現するという近似
である。一方、ΔＮカットオフとは比較する蛋白質中の
残基の局所構造が類似していれば、構造環境を表す残基
数も同程度の数になるという仮定に基づき、残基数の差
がカットオフ値より大きい場合は、局所構造が類似して
いないと見なし、構造環境の類似度の計算を省略すると
いう近似である。また、αヘリックスとβストランドの
ように異なる２次構造同士が対になるようなアラインメ
ントを避ける為のペナルティーと２次構造部分の途中で
ギャップが入り難くする為のペナルティーを導入できる
ようにした。

【００５４】次に具体的なアラインメント結果を示す。

【００５５】始めに、従来の方法でも正確なアラインメ
ントを得ることのできる構造局所アラインメントの計算
例として、サーキュラーパーミュテーションとは関係の
ない、全体的な立体構造は類似していないが、局所的に
類似構造を持つ蛋白質の構造局所アラインメントを行っ
た。

【００５６】図６は本発明の再構築した構造環境と従来
の構造環境を比較する為の計算に用いた、類似の局所構
造を持つ蛋白質の一覧を示す図である。蛋白質の名前と
プロテインデータバンク中での記号を示す。そして、図
７〜図１５に図６に示した蛋白質の構造局所アラインメ
ントの結果を従来の構造環境と本発明に係る再構築した
構造環境とを比較して示した。

【００５７】図７はＨＩＶ−１プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメントを示す図
であり、アラインメントスコアの高いもの２つのアライ
ンメントを表示したものである。図７（ａ）はＨＩＶ−
１プロテアーゼとアスパラギン酸プロテアーゼの立体構
造を示す図、図７（ｂ）は本発明の再構築した構造環境
を使用したアラインメント例を示す図、図７（ｃ）は従
来の構造環境を使用したアラインメント例を示す図であ
る。

【００５８】また、図８は様々な距離カットオフ、ΔＮ
カットオフ設定下のＨＩＶ−１プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメント結果を示
したものである。図８（ａ）は本発明の再構築した構造
環境を使用した例を示す図、図８（ｂ）は従来の構造環
境を使用した例を示す図である。

【００５９】アスパラギン酸プロテアーゼはＨＩＶ−１
プロテアーゼと類似した構造を持つドメイン２個からな
り、構造局所アラインメントすると２つの局所アライン
メントが得られることが期待される。縦軸は検出された
ドメイン数である。

【００６０】更に、図９は様々な距離カットオフ、ΔＮ
カットオフ設定下のＨＩＶ−１プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメントを得るの
に要したＣＰＵ時間を示したものである。図９（ａ）は
本発明の再構築した構造環境を使用した例を示す図、図
９（ｂ）は従来の構造環境を使用した例を示す図であ
る。

【００６１】図１０はＣｙｃｌｏｏｘｙｇｅｎａｓｅと
Ｅ−ｓｅｌｅｃｔｉｎの構造局所アラインメントを示し
た図である。図１０（ａ）はＣｙｃｌｏｏｘｙｇｅｎａ
ｓｅとＥ−ｓｅｌｅｃｔｉｎの立体構造を示す図、図１
０（ｂ）は本発明の再構築した構造環境を使用した例を
示す図、図１０（ｃ）は従来の構造環境を使用した例を
示す図である。

【００６２】図１１は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＣｙｃｌｏｏｘｙｇｅｎａｓｅとＥ−ｓ
ｅｌｅｃｔｉｎの構造局所アラインメント結果を示した
図である。図１１（ａ）は本発明の再構築した構造環境
を使用した場合のアラインメント結果を示す図、図１１
（ｂ）は従来の構造環境を使用した場合のアラインメン
ト結果を示す図である。

【００６３】それぞれＥＧＦドメイン一つを持ち、構造
局所アラインメントすると１つの局所アラインメントが
得られることが期待される。縦軸は検出されたドメイン
数である。

【００６４】図１２は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＣｙｃｌｏｏｘｙｇｅｎａｓｅとＥ−ｓ
ｅｌｅｃｔｉｎの構造局所アラインメントを得るのに要
したＣＰＵ時間を示したものである。図１２（ａ）は本
発明の再構築した構造環境を使用した場合のアラインメ
ント計算時間を示す図、図１２（ｂ）は従来の構造環境
を使用した場合のアラインメント計算時間を示す図であ
る。

【００６５】図１３はＩｍｍｕｎｏｇｌｏｂｕｌｉｎ
Ｆａｂ同士の構造局所アラインメントを示した図であ
り、同じもの同士を比較している為に、最高スコアには
全配列を一致させたアラインメントが得られるので、そ
れを除いたものを２つ示した。図１３（ａ）はＩｍｍｕ
ｎｏｇｌｏｂｕｌｉｎＦａｂの立体構造を示す図、図
１３（ｂ）は本発明の再構築した構造環境を使用した例
を示す図、図１３（ｃ）は従来の構造環境を使用した例
を示す図である。

【００６６】図１４はＩｍｍｕｎｏｇｌｏｂｕｌｉｎ
Ｆａｂ同士の構造局所アラインメントにおける様々な距
離カットオフ、ΔＮカットオフ設定下の構造局所アライ
ンメント結果を示す。図１４（ａ）は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図１４（ｂ）は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。

【００６７】一分子内に類似構造を２つ持っているの
で、２つの構造局所アラインメントが得られることが期
待される。縦軸は検出されたドメイン数である。

【００６８】図１５はＩｍｍｕｎｏｇｌｏｂｕｌｉｎ
Ｆａｂ同士の構造局所アラインメントにおける様々な距
離カットオフ、ΔＮカットオフ設定下の構造局所アライ
ンメントを得るのに要したＣＰＵ時間を示したものであ
る。図１５（ａ）は本発明の再構築した構造環境を使用
した場合のアラインメント計算時間を示す図、図１５
（ｂ）は従来の構造環境を使用した場合のアラインメン
ト計算時間を示す図である。

【００６９】図７〜図１５に示すように、サーキュラー
パーミュテーションの関係にない蛋白質の例では、従来
の構造環境と本発明の再構築した構造環境の間でアライ
ンメント結果の大きな差異はなかった。このことによ
り、サーキュラーパーミュテーションの関係にない蛋白
質であっても本発明の再構築した構造環境を用いて正確
にアラインメントを得ることができることが分かる。従
来の構造環境、本発明の再構築した構造環境ともに、計
算速度を速める為の近似である距離カットオフ、ΔＮカ
ットオフのうち、距離カットオフは構造局所アラインメ
ントでも非常に効果的に働き、カットオフ距離１０〜２
０Åでアラインメント精度を損なわず、大幅な計算速度
の短縮につながった。

【００７０】しかし、ΔＮカットオフを導入すると、カ
ットオフ距離値の設定に大きくアラインメント結果が影
響され、ΔＮカットオフ近似は局所アラインメントには
適しないことが分かった。これは、類似構造が局所に限
られる場合、カットオフ距離を小さく取る場合には、近
距離の局所構造だけの構造環境を構築する為に、類似構
造部分の構造環境を構成する残基数もほぼ同じになる
が、カットオフ距離を大きく取ると、近距離の局所構造
は似ているにもかかわらず、遠距離の類似していない構
造部分までの残基を構造環境として構築する為に、その
構成ベクトル数が大きく異なったものとなる。

【００７１】そして、その結果、ΔＮカットオフ条件に
より、その構造部分は始めから類似していないと判断さ
れ、低次ＤＰ計算がスキップされてしまうことが原因で
あると解釈できる。

【００７２】以上のアラインメント結果から、サーキュ
ラーパーミュテーションとは関係のない通常の蛋白質に
対する構造局所アラインメントは、本発明の再構築した
構造環境も、従来の構造環境と同等の精度のアラインメ
ントが得られることが分かった。

【００７３】次に、サーキュラーパーミュテーションの
関係にある蛋白質の例を用いてその構造局所アラインメ
ントの際に顕著な本発明に係る構造環境の再構築の効果
を説明する。

【００７４】アラインメントスコアは配列の長さに依存
しない値にするために、それぞれのスコアをアラインメ
ントされた配列の長さで割ったものをアラインメントス
コア値とし、その値の大きい順にアラインメントをソー
トしたものをアラインメント結果とした。結果の解釈と
して、サーキュラーパーミュテーションに由来する配列
の一方を最高スコアで検出できた場合にサーキュラーパ
ーミュテーションに由来するアラインメントを一つ検出
できたと判断した。そして、もう一方の配列を２番目の
スコアで検出できた時にサーキュラーパーミュテーショ
ンに由来するアラインメントが両方得られたと判断し
た。

【００７５】図１７〜図３６に、本発明の再構築した構
造環境を用いて構造局所アラインメントを行った結果と
従来の構造環境を用いた場合の結果とを比較した図を示
す。

【００７６】図１６はそのアラインメントの計算に用い
た蛋白質の一覧である。図１７〜図２０，図２１〜図２
４でアラインメントに用いられた蛋白質は人工的にサー
キュラーパーミュテーションの関係にある蛋白質が作ら
れ、その立体構造がＸ線結晶解析によって解かれたもの
である〔図１７〜図２０：Ｐｒｏｔｅｉｎｓ１９９８
Ｆｅｂ１；３０（２）：１５５−６７，図２１〜図
２４：ＰｒｏｔｅｉｎＳｃｉ１９９８Ａｐｒ．７
（４）：８４８−５９〕。

【００７７】図１７及び図２１は、距離カットオフ及び
ΔＮカットオフを入れずに構造局所アラインメントを行
った場合のアラインメントを示している。

【００７８】アラインメントはスコア値を配列の長さに
依存しない値にする為に、高次ＤＰのスコアの大きい順
にバックトラッキングして各アラインメントを求めた
後、それぞれのスコアをアラインメントされた配列の長
さで割り、その値の大きい順にソートしたものをアライ
ンメント結果とした。

【００７９】以下、図面毎に詳細に説明する。

【００８０】図１７は距離・カットオフ、ΔＮカットオ
フは考慮しない場合のβ−ＧｌｕｃａｎａｓｅとＣｉｒ
ｃｕｌａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓ
ｅの構造局所アラインメントの結果を示したものであ
る。図１７（ａ）はβ−ＧｌｕｃａｎａｓｅとＣｉｒｃ
ｕｌａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅ
の立体構造を示す図、図１７（ｂ）は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図１７（ｃ）は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。

【００８１】図１８はカットオフ・距離を２０Å、ΔＮ
カットオフを２０に設定した場合のβ−Ｇｌｕｃａｎａ
ｓｅとＣｉｒｃｕｌａｒｌｙｐｅｒｍｕｔｅｄｇｌ
ｕｃａｎａｓｅのアラインメント結果を示す図であり、
図１８（ａ）はβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌ
ａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの立
体構造を示す図、図１８（ｂ）は本発明の再構築した構
造環境を使用した場合のアラインメント結果を示す図、
図１８（ｃ）は従来の構造環境を使用した場合のアライ
ンメント結果を示す図である。

【００８２】図１９は様々な距離カットオフ、ΔＮカッ
トオフ設定下のβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌ
ａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの構
造局所アラインメント結果を示したものである。縦軸は
検出されたサーキュラーパーミュテーションに由来する
アラインメント数である。図１９（ａ）は本発明の再構
築した構造環境を使用した場合のアラインメント結果を
示す図、図１９（ｂ）は従来の構造環境を使用した場合
のアラインメント結果を示す図である。

【００８３】図２０は様々な距離カットオフ、ΔＮカッ
トオフ設定下のβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌ
ａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの構
造局所アラインメントを得るのに要したＣＰＵ時間を示
したものである。図２０（ａ）は本発明の再構築した構
造環境を使用した場合のアラインメントの計算時間を示
す図、図２０（ｂ）は従来の構造環境を使用した場合の
アラインメントの計算時間を示す図である。

【００８４】図２１は距離・カットオフ、ΔＮカットオ
フを考慮しない場合のＡｖｉｄｉｎとＣｉｒｃｕｌａｒ
ｌｙｐｅｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの
構造局所アラインメントの結果を示した図である。図２
１（ａ）はＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙｐｅ
ｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの立体構造を
示す図、図２１（ｂ）は本発明の再構築した構造環境を
使用した場合を示す図、図２１（ｃ）は従来の構造環境
を使用した場合のアラインメント結果を示す図である。

【００８５】図２２はカットオフ・距離を２０Å、ΔＮ
カットオフを２０に設定した場合のＡｖｉｄｉｎとＣｉ
ｒｃｕｌａｒｌｙｐｅｒｍｕｔｅｄｓｔｒｅｐｔａ
ｖｉｄｉｎの構造局所アラインメントの結果を示した図
である。図２２（ａ）はＡｖｉｄｉｎとＣｉｒｃｕｌａ
ｒｌｙｐｅｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎ
の立体構造を示す図、図２２（ｂ）は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図２２（ｃ）は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。

【００８６】図２３は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙ
ｐｅｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの構造局
所アラインメント結果を示したものである。縦軸は検出
されたサーキュラーパーミュテーションに由来するアラ
インメント数である。図２３（ａ）は、本発明の再構築
した構造環境を使用した場合のアラインメント結果を示
す図、図２３（ｂ）は従来の構造環境を使用した場合の
アラインメント結果を示す図である。

【００８７】図２４は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙ
ｐｅｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの構造局
所アラインメントを得るのに要したＣＰＵ時間を示した
ものである。図２４（ａ）は本発明の再構築した構造環
境を使用した場合のアラインメント計算時間を示す図、
図２４（ｂ）は従来の構造環境を使用した場合のアライ
ンメント計算時間を示す図である。

【００８８】図２５〜図２８は、Ｐｈｔｈａｌａｔｅ
ｄｉｏｘｙｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦＭＮ
−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎの構造局所アライン
メントの結果を示したものである。

【００８９】図２５は距離・カットオフ、ΔＮカットオ
フを考慮しない場合のＰｈｔｈａｌａｔｅｄｉｏｘｙ
ｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄ
ｉｎｇｐｒｏｔｅｉｎの構造局所アラインメントの結
果を示す図である。図２５（ａ）はＰｈｔｈａｌａｔｅ
ｄｉｏｘｙｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦＭ
Ｎ−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎの立体構造を示す
図、図２５（ｂ）は本発明の再構築した構造環境を使用
した場合のアラインメント結果を示す図、図２５（ｃ）
は従来の構造環境を使用した場合のアラインメント結果
を示す図である。

【００９０】図２６はカットオフ・距離を１５Å、ΔＮ
カットオフを５０に設定した場合のＰｈｔｈａｌａｔｅ
ｄｉｏｘｙｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦＭ
Ｎ−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎの構造局所アライ
ンメントの結果を示した図である。図２６（ａ）はＰｈ
ｔｈａｌａｔｅｄｉｏｘｙｇｅｎａｓｅｒｅｄｕｃ
ｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇｐｒｏｔｅｉｎの
立体構造を示す図、図２６（ｂ）は本発明の再構築した
構造環境を使用した場合のアラインメント結果を示す
図、図２６（ｃ）は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。

【００９１】図２７は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＰｈｔｈａｌａｔｅｄｉｏｘｙｇｅｎａ
ｓｅｒｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇ
ｐｒｏｔｅｉｎの構造局所アラインメント結果を示した
ものである。縦軸は検出されたサーキュラーパーミュテ
ーションに由来するアラインメント数である。図２７
（ａ）は本発明の再構築した構造環境を使用した場合の
アラインメント結果を示す図、図２７（ｂ）は従来の構
造環境を使用した場合のアラインメント結果を示す図で
ある。

【００９２】図２８は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＰｈｔｈａｌａｔｅｄｉｏｘｙｇｅｎａ
ｓｅｒｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇ
ｐｒｏｔｅｉｎの構造局所アラインメントを得るのに要
したＣＰＵ時間を示した図である。図２８（ａ）は本発
明の再構築した構造環境を使用した場合のアラインメン
ト計算時間を示す図、図２８（ｂ）は従来の構造環境を
使用した場合のアラインメント計算時間を示す図であ
る。

【００９３】図２９は距離・カットオフ、ΔＮカットオ
フを考慮しない場合のＨｕｍａｎグルタチオン合成酵素
と大腸菌グルタチオン合成酵素の構造局所アラインメン
トの結果を示す図であり、図２９（ａ）はＨｕｍａｎグ
ルタチオン合成酵素と大腸菌グルタチオン合成酵素の立
体構造を示す図、図２９（ｂ）は本発明の再構築した構
造環境を使用した例を示す図、図２９（ｃ）は従来の構
造環境を使用した例を示す図である。

【００９４】図３０はカットオフ・距離を５０Å、ΔＮ
カットオフを考慮しない場合のＨｕｍａｎグルタチオン
合成酵素と大腸菌グルタチオン合成酵素の構造局所アラ
インメントを示す図であり、図３０（ａ）はＨｕｍａｎ
グルタチオン合成酵素と大腸菌グルタチオン合成酵素を
示す図、図３０（ｂ）は本発明の再構築した構造環境を
使用した場合を示す図、図３０（ｃ）は従来の構造環境
を使用した場合のアラインメント結果を示す図である。

【００９５】図３１は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＨｕｍａｎグルタチオン合成酵素と大腸
菌グルタチオン合成酵素の構造局所アラインメント結果
を示した図である。図３１（ａ）は本発明の再構築した
構造環境を使用した場合のアラインメント結果を示す
図、３１（ｂ）は従来の構造環境を使用した場合のアラ
インメント結果を示す図である。

【００９６】図３２は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＨｕｍａｎグルタチオン合成酵素と大腸
菌グルタチオン合成酵素の構造局所アラインメントを得
るのに要したＣＰＵ時間を示した図である。図３２
（ａ）は本発明の再構築した構造環境を使用した場合の
アラインメントの計算時間を示す図、３２（ｂ）は従来
の構造環境を使用した場合のアラインメントの計算時間
を示す図である。

【００９７】図３３は距離・カットオフ、ΔＮカットオ
フを考慮しない場合のＴｒａｎｓａｌｄｏｌａｓｅとＦ
ｒｕｃｔｏｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅａ
ｌｄｏａｓｅの構造局所アラインメントの結果を示した
図である。得られたアラインメントの中、サーキュラー
パーミュテーション由来のアラインメントを載せたもの
である。図３３（ａ）はＴｒａｎｓａｌｄｏｌａｓｅと
Ｆｒｕｃｔｏｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅ
ａｌｄｏａｓｅの模式図、図３３（ｂ）は本発明の再構
築した構造環境を使用した場合のアラインメント結果を
示す図、図３３（ｃ）は従来の構造環境を使用した場合
のアラインメント結果を示す図である。

【００９８】図３４はカットオフ・距離を２０Å、ΔＮ
カットオフを２０に設定した場合のＴｒａｎｓａｌｄｏ
ｌａｓｅとＦｒｕｃｔｏｓｅ−１，６−ｂｉｓｐｈｏｓ
ｐｈａｔｅａｌｄｏａｓｅの構造局所アラインメントの
結果を示した図である。図３４（ａ）はＴｒａｎｓａｌ
ｄｏｌａｓｅとＦｒｕｃｔｏｓｅ−１，６−ｂｉｓｐｈ
ｏｓｐｈａｔｅａｌｄｏａｓｅを示す図、図３４（ｂ）
は本発明の再構築した構造環境を使用した場合のアライ
ンメント結果を示す図、図３４（ｃ）は従来の構造環境
を使用した場合のアラインメント結果を示す図である。

【００９９】図３５は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＴｒａｎｓａｌｄｏｌａｓｅとＦｒｕｃ
ｔｏｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅａｌｄｏ
ａｓｅの構造局所アラインメント結果を示したものであ
る。縦軸は検出されたサーキュラーパーミュテーション
に由来するアラインメント数である。図３５（ａ）は、
本発明の再構築した構造環境を使用した場合のアライン
メント結果を示す図、図３５（ｂ）は従来の構造環境を
使用した場合のアラインメント結果を示す図である。

【０１００】図３６は様々な距離カットオフ、ΔＮカッ
トオフ設定下のＴｒａｎｓａｌｄｏｌａｓｅとＦｒｕｃ
ｔｏｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅａｌｄｏ
ａｓｅの構造局所アラインメントを得るのに要したＣＰ
Ｕ時間を示したものである。図３６（ａ）は本発明の再
構築した構造環境を使用した場合のアラインメント計算
時間を示す図、図３６（ｂ）は従来の構造環境を使用し
た場合のアラインメント計算時間を示す図である。

【０１０１】サーキュラーパーミュテーションの関係に
ある蛋白質同士の立体構造が極めて類似している場合、
本発明の構造環境、及び従来の構造環境、どちらを用い
てアラインメントを行った場合でも、最大スコア及び２
番目の大きさを持つスコアのアラインメントは、サーキ
ュラーパーミュテーションに由来する配列であった。

【０１０２】しかし、スコア値を見ると、本発明の構造
環境を用いた場合、グルカナーゼのケースで、上位２個
のスコアが１２．１４及び１０．８９、３番目のスコア
が１．６５、ストレプトアビジンのケースで、上位２個
のスコアが５．１３及び４．４０、３番目が１．４９と
なっていることから明らかなように、サーキュラーパー
ミュテーションに由来する非常に類似した構造を他の部
分とスコア的に明確に区別したのに対し、従来の構造環
境を用いた場合、グルカナーゼのケースで、上位２個の
スコアが１２．０５及び７．１２、３番目のスコアが
０．７５、ストレプトアビジンのケースで、上位２個の
スコアが３．９７及び１．８７で３番目が１．１３とな
り、サーキュラーパーミュテーションに由来する２個の
スコアと他の部分との差が小さくなった。

【０１０３】図１７〜図１８及び図２１〜図２２の上部
に載せた分子グラフィックスを見れば判るように、サー
キュラーパーミュテーションに由来する２ヶの配列の立
体構造は非常に類似しており、構造局所アラインメント
を行えば、上位２個のアラインメントスコアが同等の大
きな値を持つことが予想され、本発明の再構築した構造
環境を用いたアラインメントが正確な結果を得ていると
言える。

【０１０４】さらに、距離カットオフ及びΔＮカットオ
フを入れアラインメントを行った例を示すと、本発明の
構造環境を用いた場合、グルカナーゼの例（図１８参
照）でサーキュラーパーミュテーションに由来するアラ
インメントスコアは最大及び２番目の値を持ち（１０．
６、９．２７）、３番目のスコア１．０３と明確に区別
可能であった。

【０１０５】ストレプトアビジンの例（図２２参照）で
も、サーキュラーパーミュテーションに由来するアライ
ンメントスコアは最大及び２番目の値、４．３８、３．
５４で３番目のスコア１．７８と区別できた。それに対
し、従来の構造環境を用いた場合、サーキュラーパーミ
ュテーションに由来する構造をアラインメント自体でき
なかった。

【０１０６】図１９，図２０、図２３，図２４に、様々
なカットオフ値でのアラインメント結果とその計算時間
を従来の構造環境、本発明に係る構造環境についてまと
めたグラフを示す。図１９〜図２０，図２３〜図２４の
例では全体の構造が極めて類似しているにもかかわら
ず、従来の構造環境を用いるとΔＮカットオフの導入は
困難であり、構造環境の類似性が正しく表現できていな
いことが示された。

【０１０７】それに対し、本発明の構造環境を用いると
全体の構造環境の類似性を正確に表しており、ΔＮカッ
トオフの導入をしても十分な精度でアラインメントが可
能であった。計算時間を考えると、通常の蛋白質の時と
同様、１０〜２０Åのカットオフ距離を設定するのが、
アラインメント精度を損なわず短時間で計算できる条件
であることがわかる。

【０１０８】図２５〜図２８，図２９〜図３２、図３３
〜図３６は、お互いにサーキュラーパーミュテーション
の関係にあると考えられており〔図２５〜図２８：Ｎａ
ｔＳｔｒｕｃｔＢｉｏｌ（１９９８）Ｆｅｂ：５
（２）：１０１、図２９〜図３２：ＴｈｅＥＭＢＯ
Ｊｏｕｒｎａｌ（１９９９）１８（１２）：３２０４−
３２１３、図３３〜図３６：Ｓｔｒｕｃｔｕｒｅ１９
９６Ｊｕｎ１５：４（６）：７１５−２４〕、構造
的にはかなり違っているようなケースについての構造局
所アラインメント結果を示した。

【０１０９】図２５〜図２８に示したＰｈｔｈａｌａｔ
ｅｄｉｏｘｙｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦ
ＭＮｂｉｎｄｉｎｇｐｒｏｔｅｉｎの例では、配列
の長さも大きく異なり、一見、かなり構造が異なって見
えるが、再構築した構造環境を用いれば、サーキュラー
パーミュテーションに由来するアラインメントを両方検
出することができた。つまり、全体の構造がかなり異な
っていても、その中から似た立体構造部分のみ選び出
し、さらにサーキュラーパーミュテーションを検出でき
たことを示している。

【０１１０】これに対し、従来の構造環境を用いた方法
では、距離カットオフ及びΔＮカットオフを考慮せずに
アラインメントを行っても、一方が１番目に検出できた
ものの、他方は検出できなかった。人工的に作製された
例（図１７〜図２０，図２１〜図２４）の様に構造的に
極めて酷似している場合には、従来の構造環境でアライ
ンメントを行っても、カットオフを入れなければ、サー
キュラーパーミュテーションの検出は可能であったが、
構造が酷似していない場合（図２５〜図２８参照）は、
再構築した構造環境を用いなければならないことが分か
る。

【０１１１】図２７から、配列の長さが異なり、サーキ
ュラーパーミュテーションに由来する類似部分が局所に
限られる場合は、前の通常蛋白質の構造局所アラインメ
ントの時に述べた同じ理由でΔＮカットオフの導入は不
適当であることが言える。

【０１１２】図２９〜図３０にグルタチオン合成酵素の
例を示す。人間のグルタチオン合成酵素とバクテリアの
グルタチオン合成酵素はサーキュラーパーミュテーショ
ンの関係にあることが最近発表されている。本発明に係
わる再構築した構造環境を用いたアラインメント結果を
見ると，距離カットオフ、ΔＮカットオフを導入しない
場合でサーキュラーパーミュテーションに由来するアラ
インメントの一方が検出することができたが、他方は３
番目のスコアとして得られ、検出には失敗した。しか
し、距離カットオフを５０Åに設定するとサーキュラー
パーミュテーションに由来するアラインメント配列と違
うアラインメント配列の順位が入れ替わり、他方のアラ
インメントも見かけ上は検出できた。カットオフを導入
しない場合に２番目のスコアで検出された十数残基の短
い配列は、従来の構造環境でも本発明の構造環境でも、
様々なカットオフ条件で上位のスコアで検出されてお
り、サーキュラーパーミュテーションとは関係ない部分
で、類似構造が存在した為と考えられる。本発明のスコ
アの付け方では、配列の長さに依存しないように配列の
長さでアラインメントスコアを割っている為に、小さな
局所の類似構造を高く見積もりすぎている可能性があ
る。一方、従来の構造環境を用いた場合は、すべてのカ
ットオフ条件でサーキュラーパーミュテーションに由来
するアラインメントの一方はまったく検出されなかっ
た。

【０１１３】さらに、図３３〜図３６のアルドラーゼと
トランスアルドラーゼのように、２次構造の対応までか
なり異なっているサーキュラーパーミュテーションの例
についても、本発明である再構築した構造環境を用いて
アラインメントを行うと、最大スコアにサーキュラーパ
ーミュテーションに由来する一方のアラインメントを正
確に検出することができた。

【０１１４】これに対し、従来の構造環境ではサーキュ
ラーパーミュテーションに由来するアラインメントは最
高スコアとしてはアラインメントされなかった。

【０１１５】以上の内容をまとめると、従来の構造環境
と比較して、サーキュラーパーミュテーションの関係に
ある蛋白質でも本発明に係る再構築した構造環境を使用
して局所アラインメントを行うと正確にアラインメント
を得ることができ、計算時間の短縮を行うのに、カット
オフ距離１０〜３５Åの設定が有効である。比較する蛋
白質の配列の長さが大きく異なるような変異がある場合
はΔＮカットオフ設定は不適切である。

【０１１６】上記した方法により、本発明によれば、サ
ーキュラーパーミュテーションの関係にある蛋白質同士
でも、正確にアラインメントができる構造局所アライン
メントを実施し得るが、図５を用いてその方法を整理す
るとともに、その実施するハード面から説明する。

【０１１７】図５は本発明のダブル・ダイナミック・プ
ログラミング・アルゴリズムによる構造局所アラインメ
ントのハード的構成図である。図５において、１は蛋白
質立体構造座標データ入力部、２は座標データの各残基
対を結ぶベクトル計算部、３は構造環境構築部、４はサ
ーキュラーパーミュテーションを考慮する為の構造環境
の再構築部、５は構造環境比較の為の低次ＤＰ漸化式適
用部、６は残基アラインメントの為の高次ＤＰ漸化式適
用部、７は漸化式で得られた各スコアを高いものの順に
並べるソーティング部、８は最高スコアの残基対からの
バックトラッキングにより、局所アラインメントを構築
するアラインメント構築部、９は既にアラインメントさ
れた残基対周辺のＬＭｔｒ値を次からの高次ＤＰに使用
しないように通常取り得ない値に変更するＬＭｔｘ値再
設定部、スコア判定部１０はアラインメント作業の終了
を判定する部、１１は局所アラインメントの結果出力
部、１２は高次ＤＰを繰り返す方法を取らずにテイラー
らの方法でバックトラッキングを行うためのＵＭｔｘ値
再設定部である。

【０１１８】本発明に係るダブル・ダイナミック・プロ
グラミング・アルゴリズムによる構造局所アラインメン
トは、矢印で示すように実行される。つまり、蛋白質立
体構造座標データ入力部１から蛋白質立体構造座標デー
タが入力され、座標データの残基対の特定原子のベクト
ルへの計算部２で座標データの残基対間のベクトルが求
められ、構造環境構築部３で構造環境が構築される。

【０１１９】距離カットオフ近似〔ＴｏｈＨ，ＣＡＢ
ＩＯＳ１３，３８７−３９６（１９９７）〕を導入する
際は、この構造環境構築部３においてカットオフ近似を
考慮して構造環境が構築される。サーキュラーパーミュ
テーションを考慮する場合、構造環境の再構築部４で構
造環境の再構築を行う。

【０１２０】低次ＤＰ漸化式適用部５では、まず、異な
る２次構造同士のアラインメントを避ける為に、異なる
２次構造に属する残基対については、低次ＤＰの計算を
行わずスキップして構造環境の類似度はゼロに設定す
る。

【０１２１】そして、その他の残基対に対し、必要に応
じ、ΔＮカットオフ条件〔ＴｏｈＨ，ＣＡＢＩＯＳ１
３，３８７−３９６（１９９７）〕等を考慮しながら低
次ＤＰ用漸化式を計算することにより、２個の蛋白質の
残基間の構造環境の比較を行う。

【０１２２】次に、高次ＤＰ漸化式適用部６で高次ＤＰ
漸化式を適用する。ここでは、必要に応じ、２次構造の
途中でギャップが入り難くする為にペナルティーの値を
変更するなどの操作を加えることができる。

【０１２３】次いで、ソーティング部７で６の漸化式で
得られたスコアを高い順に並べ直し、バックトラッキン
グによる局所アラインメント構築部８で、最高スコアを
持つ残基対からバックトラッキングを行いアラインメン
トの構築を行う。バックトラッキングをする際に、ＬＭ
ｔｘ値再設定部９において、ＬＭｔｒの値のうち、バッ
クトラックされた軌跡に沿った一定の幅内の残基対に相
当する部分を通常取り得ない負値に再設定する。

【０１２４】次に、高次ＤＰを行う際、この負値を目印
に計算をスキップさせることにより、計算時間の短縮と
共に、既にバックトラッキングされたアラインメントか
ら伸びるパスが消え、前のアラインメントに影響を受け
ずに、新たな局所アラインメントを得ることができる。

【０１２５】次に、ＬＭｔｘの値が再設定されたら、そ
のＬＭｔｘを用いて高レベルＤＰ用漸化式適用部６に戻
り、高次ＤＰ用漸化式の適用から再計算を始める。

【０１２６】これを繰り返すことにより、複数の局所ア
ラインメントを得ることができる。スコア判定部１０は
２本目以降の局所アラインメントで現在得られている高
次ＤＰの最大スコアの値を見て、設定値より小さくなる
所で、アラインメント作業の終了を判定する。最後に局
所アラインメントの結果出力部１１により結果を出力す
る。

【０１２７】図５において、１２はテイラーとオレンゴ
が行ったダブル・ダイナミックプログラミング・アルゴ
リズムで採用されたバックトラッキングの方法と同じも
ので、ＵＭｔｒの値を既にアラインメントされた残基対
から一定幅内に相当する部分を通常取り得ない負値に再
設定する。そして、そのＵＭｔｒを用いてバックトラッ
キングによるアラインメント構築部８へ戻り、バックト
ラッキングを繰り返し局所アラインメントを複数得る。

【０１２８】なお、本発明は上記実施例に限定されるも
のではなく、本発明の趣旨に基づいて種々の変形が可能
であり、これらを本発明の範囲から排除するものではな
い。

【０１２９】

【発明の効果】以上、詳細に説明したように、本発明に
よれば、サーキュラーパーミュテーションの関係にある
蛋白質同士でも正確にアラインメントできる構造局所ア
ラインメント方法を提供することができる。

【図面の簡単な説明】

【図１】サーキュラーパーミュテーションの説明図であ
る。

【図２】グルカナーゼのサーキュラーパーミュテーショ
ンの例を示した図である。

【図３】サーキュラーパーミュテーションの関係にあ
る、２つの蛋白質の構造環境の違いを示す図である。

【図４】本発明に係る構造環境の再構築の概念を示した
図である。

【図５】本発明に係るダブル・ダイナミック・プログラ
ミング・アルゴリズムによる構造局所アラインメントの
ハード的構成図である。

【図６】本発明に係る再構築した構造環境と従来の構造
環境を比較する為の計算に用いた、類似の局所構造を持
つ蛋白質の一覧表を示す図である。

【図７】構造局所アラインメントの結果を従来の構造環
境と本発明の再構築した構造環境とを比較した、ＨＩＶ
−１プロテアーゼとアスパラギン酸プロテアーゼの構造
局所アラインメントを示す図である。

【図８】様々な距離カットオフ、ΔＮカットオフ設定下
のＨＩＶ−１プロテアーゼとアスパラギン酸プロテアー
ゼの構造局所アラインメント結果を示した図である。

【図９】様々な距離カットオフ、ΔＮカットオフ設定下
のＨＩＶ−１プロテアーゼとアスパラギン酸プロテアー
ゼの構造局所アラインメントを得るのに要したＣＰＵ時
間を示す図である。

【図１０】ＣｙｃｌｏｏｘｙｇｅｎａｓｅとＥ−ｓｅｌ
ｅｃｔｉｎの構造局所アラインメントを示したものであ
る。

【図１１】様々な距離カットオフ、ΔＮカットオフ設定
下のＣｙｃｌｏｏｘｙｇｅｎａｓｅとＥ−ｓｅｌｅｃｔ
ｉｎの構造局所アラインメント結果を示した図である。

【図１２】様々な距離カットオフ、ΔＮカットオフ設定
下のＣｙｃｌｏｏｘｙｇｅｎａｓｅとＥ−ｓｅｌｅｃｔ
ｉｎの構造局所アラインメントを得るのに要したＣＰＵ
時間を示す図である。

【図１３】ＩｍｍｕｎｏｇｌｏｂｕｌｉｎＦａｂ同士
の構造局所アラインメントを示した図である。

【図１４】ＩｍｍｕｎｏｇｌｏｂｕｌｉｎＦａｂ同士
の構造局所アラインメントにおける様々な距離カットオ
フ、ΔＮカットオフ設定下の構造局所アラインメント結
果を示す図である。

【図１５】ＩｍｍｕｎｏｇｌｏｂｕｌｉｎＦａｂ同士
の構造局所アラインメントにおける様々な距離カットオ
フ、ΔＮカットオフ設定下の構造局所アラインメントを
得るのに要したＣＰＵ時間を示した図である。

【図１６】サーキュラーパーミュテーションの関係にあ
る蛋白質同士の構造局所アラインメント計算に用いた蛋
白質の名前とプロテインデータバンクでの記号名を示す
図である。

【図１７】距離・カットオフ、ΔＮカットオフを考慮し
ない場合のβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌａｒ
ｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの構造局
所アラインメントの結果を示した図である。

【図１８】カットオフ・距離を２０Å、ΔＮカットオフ
を２０に設定した場合のβ−ＧｌｕｃａｎａｓｅとＣｉ
ｒｃｕｌａｒｌｙｐｅｒｍｕｔｅｄｇｌｕｃａｎａ
ｓｅの構造局所アラインメントの結果を示した図であ
る。

【図１９】様々な距離カットオフ、ΔＮカットオフ設定
下のβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌａｒｌｙ
ｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの構造局所アラ
インメント結果を示した図である。

【図２０】様々な距離カットオフ、ΔＮカットオフ設定
下のβ−ＧｌｕｃａｎａｓｅとＣｉｒｃｕｌａｒｌｙ
ｐｅｒｍｕｔｅｄｇｌｕｃａｎａｓｅの構造局所アラ
インメントを得るのに要したＣＰＵ時間を示した図であ
る。

【図２１】距離・カットオフ、ΔＮカットオフを考慮し
ない場合のＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙｐｅ
ｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの構造局所ア
ラインメントの結果を示した図である。

【図２２】カットオフ・距離を２０Å、ΔＮカットオフ
を２０に設定した場合のＡｖｉｄｉｎとＣｉｒｃｕｌａ
ｒｌｙｐｅｒｍｕｔｅｄｓｔｒｅｐｔａｖｉｄｉｎ
の構造局所アラインメントの結果を示した図である。

【図２３】様々な距離カットオフ、ΔＮカットオフ設定
下のＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙｐｅｒｍｕ
ｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの構造局所アライン
メント結果を示した図である。

【図２４】様々な距離カットオフ、ΔＮカットオフ設定
下のＡｖｉｄｉｎとＣｉｒｃｕｌａｒｌｙｐｅｒｍｕ
ｔｅｄｓｔｒｅｐｔａｖｉｄｉｎの構造局所アライン
メントを得るのに要したＣＰＵ時間を示した図である。

【図２５】距離・カットオフ、ΔＮカットオフを考慮し
ない場合のＰｈｔｈａｌａｔｅｄｉｏｘｙｇｅｎａｓｅ
ｒｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇｐｒ
ｏｔｅｉｎの構造局所アラインメントの結果を示した図
である。

【図２６】カットオフ・距離を１５Å、ΔＮカットオフ
を５０に設定した場合のＰｈｔｈａｌａｔｅｄｉｏｘ
ｙｇｅｎａｓｅｒｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎ
ｄｉｎｇｐｒｏｔｅｉｎの構造局所アラインメントの
結果を示した図である。

【図２７】様々な距離カットオフ、ΔＮカットオフ設定
下のＰｈｔｈａｌａｔｅｄｉｏｘｙｇｅｎａｓｅｒ
ｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇｐｒｏｔ
ｅｉｎの構造局所アラインメント結果を示した図であ
る。

【図２８】様々な距離カットオフ、ΔＮカットオフ設定
下のＰｈｔｈａｌａｔｅｄｉｏｘｙｇｅｎａｓｅｒ
ｅｄｕｃｔａｓｅとＦＭＮ−ｂｉｎｄｉｎｇｐｒｏｔ
ｅｉｎの構造局所アラインメントを得るのに要したＣＰ
Ｕ時間を示した図である。

【図２９】距離・カットオフ、ΔＮカットオフを考慮し
ない場合のＨｕｍａｎグルタチオン合成酵素と大腸菌グ
ルタチオン合成酵素の構造局所アライメントの結果を示
した図である。

【図３０】カットオフ・距離を５０Å、ΔＮカットオフ
を考慮しない場合のＨｕｍａｎグルタチオン合成酵素と
大腸菌グルタチオン合成酵素の構造局所アライメントの
結果を示した図である。

【図３１】様々な距離カットオフ、ΔＮカットオフ設定
下のＨｕｍａｎグルタチオン合成酵素と大腸菌グルタチ
オン合成酵素の構造局所アラインメント結果を示した図
である。

【図３２】様々な距離カットオフ、ΔＮカットオフ設定
下のＨｕｍａｎグルタチオン合成酵素と大腸菌グルタチ
オン合成酵素の構造局所アラインメントを得るのに要し
たＣＰＵ時間を示した図である。

【図３３】距離・カットオフ、ΔＮカットオフを考慮し
ない場合のＴｒａｎｓａｌｄｏｌａｓｅとＦｒｕｃｔｏ
ｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅａｌｄｏａｓ
ｅの構造局所アラインメントの結果を示した図である。

【図３４】カットオフ・距離を２０Å、ΔＮカットオフ
を２０に設定した場合のＴｒａｎｓａｌｄｏｌａｓｅと
Ｆｒｕｃｔｏｓｅ−１，６−ｂｉｓｐｈｏｓｐｈａｔｅ
ａｌｄｏａｓｅの構造局所アラインメントの結果を示し
た図である。

【図３５】様々な距離カットオフ、ΔＮカットオフ設定
下のＴｒａｎｓａｌｄｏｌａｓｅとＦｒｕｃｔｏｓｅ−
１，６−ｂｉｓｐｈｏｓｐｈａｔｅａｌｄｏａｓｅの構
造局所アラインメント結果を示した図である。

【図３６】様々な距離カットオフ、ΔＮカットオフ設定
下のＴｒａｎｓａｌｄｏｌａｓｅとＦｒｕｃｔｏｓｅ−
１，６−ｂｉｓｐｈｏｓｐｈａｔｅａｌｄｏａｓｅの構
造局所アラインメントを得るのに要したＣＰＵ時間を示
した図である。

【図３７】ダイナミック・プログラミング・アルゴリズ
ムを行うための２次元マトリックスとダイナミック・プ
ログラミングのアルゴリズムの説明図である。

【図３８】ダイナミック・プログラミング・アルゴリズ
ムを行うための２次元マトリックスの説明図である。

【図３９】スコアテーブルの例を示した図である。

【図４０】ダイナミック・プログラミング・アルゴリズ
ムを用いた局所アラインメントの概念図である。

【図４１】ダブル・ダイナミック・プログラミング・ア
ルゴリズムの説明図である。

【図４２】テーラとオレンゴが行った、効率的に複数の
アラインメントを行う為の処理を示した図である。

【符号の説明】

１蛋白質立体構造座標データ入力部２座標データの各残基対を結ぶベクトル計算部３構造環境構築部４サーキュラーパーミュテーションを考慮する為の
構造環境の再構築部５低次ＤＰ漸化式適用部６高次ＤＰ漸化式適用部７ソーティング部８アラインメント構築部９ＬＭｔｘ値再設定部１０スコア判定部１１局所アラインメント結果出力部１２ＵＭｔｘ値再設定部

Claims

【特許請求の範囲】

【請求項１】Ｎ末端側とＣ末端側の構造が入れ替わっ
ても構造環境の表現が変化しないようにするための、ダ
ブル・ダイナミック・プログラミング・アルゴリズムに
よる構造局所アラインメント方法において、（ａ）２つ
の蛋白質の構造の類似性を評価する際に、各アミノ酸残
基に対し、該アミノ酸残基中の原子（ＣαもしくはＣ
β）から、他のすべてのアミノ酸残基の原子（Ｃαもし
くはＣβ）へ向けてのベクトルとして構造環境を求める
工程と、（ｂ）前記（ａ）工程において構造環境を求め
る際、アミノ酸残基ｉの構造環境は、Ｎ末端アミノ酸残
基へのベクトルからｉ−１番目のアミノ酸残基へ向けて
のベクトルまでを残基番号順に並べたＮ末端側ベクトル
の集合と、ｉ＋１番目のアミノ酸残基へのベクトルから
Ｃ末端アミノ酸へ向けてのベクトルまでを残基番号順に
並べたＣ末端側ベクトルの集合に分ける工程と、（ｃ）
最初にＣ末端側ベクトルの集合、次いでＮ末端側ベクト
ルの集合が並ぶように構造環境を再構築する工程と、
（ｄ）前記（ｃ）工程で作成した構造環境を用いてダブ
ル・ダイナミック・プログラミング・アルゴリズムによ
り１本目の構造局所アラインメントを得る工程と、
（ｅ）前記１本目の構造局所アラインメントが得られた
後、そのパス上の残基対から前後５〜１０残基幅で構造
環境の類似度（Ｓ_i,j）を取り得ない値に再設定する工
程と、（ｆ）前記（ｅ）工程で再設定した構造環境の類
似度を用いて、通常取り得ない値に再設定されたＳ_i,j
値を持つ残基対部分はスキップしながら高次ＤＰを再度
計算した後、バックトラッキングすることにより、２本
目の構造局所アラインメントを得る工程と、（ｇ）最大
スコアが設定値以下に到達するまで上記（ｅ）工程及び
（ｆ）工程の操作を繰り返すことにより、更に他の構造
局所アラインメントを得る工程とを施すことを特徴とす
るダブル・ダイナミック・プログラミング・アルゴリズ
ムによる構造局所アラインメント方法。
【請求項２】請求項１記載のダブル・ダイナミック・
プログラミング・アルゴリズムによる構造局所アライン
メント方法において、計算時間を短縮する操作として、
蛋白質の局所構造を構造環境として考慮する距離カット
オフの導入と、アラインメントの精度向上を考慮して蛋
白質の２次構造の情報の導入を可能としたことを特徴と
するダブル・ダイナミック・プログラミング・アルゴリ
ズムによる構造局所アラインメント方法。