JP2001134574A - ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法 - Google Patents

ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法

Info

Publication number
JP2001134574A
JP2001134574A JP31734299A JP31734299A JP2001134574A JP 2001134574 A JP2001134574 A JP 2001134574A JP 31734299 A JP31734299 A JP 31734299A JP 31734299 A JP31734299 A JP 31734299A JP 2001134574 A JP2001134574 A JP 2001134574A
Authority
JP
Japan
Prior art keywords
structural
alignment
local alignment
residue
structural environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP31734299A
Other languages
English (en)
Inventor
Takaaki Hiroike
隆明 廣池
Hiroyuki Fuji
博幸 藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomolecular Engineering Research Institute
Original Assignee
Biomolecular Engineering Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomolecular Engineering Research Institute filed Critical Biomolecular Engineering Research Institute
Priority to JP31734299A priority Critical patent/JP2001134574A/ja
Priority to EP00309830A priority patent/EP1098257A2/en
Publication of JP2001134574A publication Critical patent/JP2001134574A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Landscapes

  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 従来の方法で解析できた、全体の構造は似て
いないが局所的に類似構造を持つ様な蛋白質だけではな
く、サーキュラーパーミュテーションの関係にある蛋白
質でも、適切にアラインメントできるダブル・ダイナミ
ック・プログラミング・アルゴリズムによる構造局所ア
ラインメント方法を提供する。 【解決手段】 N末端側とC末端側の構造が入れ替わっ
ても構造環境の表現が変化しない様にするための、ダブ
ル・ダイナミック・プログラミング・アルゴリズムによ
る構造局所アラインメント方法において、構造環境を求
める残基iに対して、N末端側に存在する残基へのベク
トルとC末端側に存在する残基へのベクトルに分けて求
め、C末端側の残基へのベクトルを残基番号順に並べ、
次いで、N末端側の残基へのベクトルを残基番号順に並
べる。この操作を行うことにより、N末端とC末端の配
列の入れ替わりに影響を受けない環境を構築することが
できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、蛋白質の構造や機
能、または分子進化の情報を得ることを目的に、蛋白質
の立体構造の比較解析を行うダブル・ダイナミック・プ
ログラミング・アルゴリズムを用いた構造局所アライン
メント方法に関するものである。
【0002】
【従来の技術】従来、このような分野の先行技術に関す
る参考文献としては、以下のようなものがあった。
【0003】(1)C.A.Orengo & W.
R.Taylor:J.Mol.Biol.1993,
233,488−497 (2)T.F.Smith & M.S.Waterm
an:J.Mol.Biol.(1981),147,
195−197 (3)Toh,H.CABIOS (1997),1
3,387−396 近年の蛋白質の一次構造決定技術と立体構造決定技術の
進歩に伴って、膨大な量の蛋白質の配列データと立体構
造データが急速に蓄積されている。これら大量の情報を
背景に、情報解析の手法によって生命を理解しようとい
う研究が進歩しつつある。
【0004】特に、医療分野ではこれら膨大な情報を利
用して医療品開発の効率化を行う動きがある。実験技術
上、蛋白質のアミノ酸配列を決定することは比較的簡単
かつ迅速に行えるが、その蛋白質が医療品開発のターゲ
ットになり得るかどうかの情報、つまり、創薬に必要な
生体内での機能解析やその蛋白質に対するアゴニスト、
アンタゴニストなどの分子情報を得るためには多大の労
力と時間が必要となる。そこで、例えば疾患部位に特異
的に発現している機能未知の蛋白質を発見した場合、デ
ータベースを使って、既に機能が知られている蛋白質と
アミノ酸配列を比較し、類似のアミノ酸配列を持つ蛋白
質の機能から目的の蛋白質の機能を推定することが試み
られている。そして、その推定によって蛋白質の機能確
認をする為の実験系の設計やアンタゴニスト、アゴニス
トのスクリーニング系の選択が可能となる。また、その
蛋白質機能から疾患にどの様なメカニズムで関与するの
かを考察することが、医療品開発のターゲットとして適
切であるかどうか、診断薬としての開発の是非などの判
断につながる。
【0005】一方、立体構造が知られていない蛋白質に
対して、立体構造が既知で、しかも類似アミノ酸配列を
持つ蛋白質を配列の比較解析から得ることができれば、
その蛋白質の立体構造を鋳型にして、目的蛋白質の立体
構造をモデリングすることができる。そして、そのモデ
ルを利用することにより、理論的薬物設計をすることが
できる。しかし、最近になり、配列の類似性が低くても
類似の立体構造と類似の機能を持つ蛋白質の存在が知ら
れるようになった。
【0006】そこで、配列レベルの比較、つまり配列と
蛋白質機能の関係の理解だけではなく、立体構造レベル
での比較、つまり立体構造と蛋白質機能の関係を調べる
必要性が出てきている。
【0007】比較解析の重要な基盤技術の一つにアライ
ンメントと呼ばれるのがある。一般にアミノ酸配列間や
核酸塩基配列間でのアラインメントを配列アラインメン
トと言うのに対し、立体構造レベルでのアラインメント
を構造アラインメントと言う。アラインメントを行うと
は、2種類の類似配列あるいは類似構造が存在する時、
配列上、あるいは構造上、等価な残基を対応づけて並置
し、対応するものがない残基にはギャップと呼ばれる空
記号を対応させる操作を行うことを言う。
【0008】一方、アラインメントには蛋白質全体を比
較するグローバルアラインメントと、類似している部分
だけを選び出し、アラインメントをする局所アラインメ
ントがある。蛋白質全体に渡って類似していればグロー
バルアラインメントで比較解析を行うことができるが、
全域的な類似性がなく、しかも、部分的に類似した部分
が存在する場合は、局所アラインメントを適用する必要
がある。部分的な類似構造を見い出す意義は、次の様に
考えられる。
【0009】(1)同一機能を持った蛋白質同士は、全
体の相同性が低い場合でも、機能に関与している部分の
相同性は比較的高い。
【0010】(2)大きな蛋白質では、一つの機能を有
する構造(機能ドメイン)が複数組み合わさって一つの
蛋白質が構成されていることが多い。
【0011】(3)一つの機能ドメインの中でも、サー
キュラーパーミュテーションが発生すると、N端末側と
C端末側の配列が入れ替わった蛋白質が生じる。これら
の場合、全域的な構造の比較よりも、むしろ部分的な構
造の比較解析に意味を持ち、部分的な類似性を理解する
ことで、その蛋白質の構造と機能についての関係や進化
の起源を知ることができる。
【0012】本発明に係る構造局所アラインメントと
は、前述した立体構造レベルでの比較解析の必要性に答
える為のアラインメントで、その基本的な方法論は、1
993年にオレンゴとテイラー(C.A.Orengo
& W.R.Taylor)により、ダブル・ダイナ
ミック・プログラミング・アルゴリズムを用いて開発さ
れた(J.Mol.Biol.1993,233,48
8−497)。ダブル・ダイナミック・プログラミング
・アルゴリズムとは、ダイナミック・プログラミング・
アルゴリズムという2つの蛋白質の間の最適な配列アラ
インメントを得るための代表的なアルゴリズムを、立体
構造を取り扱うことができるように拡張したアルゴリズ
ムである。
【0013】ダブル・ダイナミック・プログラミング・
アルゴリズムを説明する為に、まずその原形となった局
所配列アラインメントの為のダイナミック・プログラミ
ング・アルゴリズム〔T.F.Smith & M.
S.Waterman:J.Mol.Biol.(19
81),147,195−197〕について説明する。
【0014】ダイナミック・プログラミング・アルゴリ
ズムを行う為には、図37に示すように2次元のマトリ
ックスを用意し、マトリックスの行の側に蛋白質Aのア
ミノ酸配列を、列の側に蛋白質Bのアミノ酸配列を並べ
る。そして、以下に示す式(1)により、蛋白質Aと蛋
白質Bの一方の末端残基対から、順次、他方の末端へ向
けてマトリックス内の各要素の値(Di,j )を求めて行
く。
【0015】 Ei,j = Max(Di,j-1 −a,Ei,j-1 −b) Fi,j = Max(Di-1,j −a,Fi-1,j −b) Di,j = Max(Si,j +Di-1,j-1 ,Ei,j ,Fi,j ,0) …(1) ここでSi,j はアミノ酸残基i,jの物理化学的性質の
類似度、aはオープンギャップペナルティー、bはイク
ステンションギャップペナルティーである。
【0016】上記式(1)の意味する所は、4つの引き
数、Si,j +Di-1,j-1 、Ei,j 、Fi,j 、0の中で最
大値をDi,j として採用することである。ここで、a,
bはギャップペナルティーと呼ばれる任意の定数で、前
者は最初のギャップとなる場合に与えるペナルティー値
(オープンギャップペナルティー)で、後者は連続して
ギャップを与える時に与えるペナルティー値(イクステ
ンションギャップペナルティー)である。Si,j は正お
よび負の値からなり、スコアテーブルと呼ばれる各アミ
ノ酸同士の類似度を示した表から値を得ることができ
る。
【0017】代表的なスコアテーブルにDayhoff
のスコアテーブル(図39)があるが、これは、物理化
学的性質のよく似たアミノ酸対に大きな正の値を与え、
似ていないアミノ酸対に小さな負の値を与えた数値表で
ある。つまり、Si,j はスコアテーブルの値を用いて2
つの蛋白質配列間のアミノ酸残基の類似性を表してい
る。
【0018】最大値Di,j がSi,j +Di-1,j-1 の場合
は、アミノ酸残基iとjを残基対としてアラインメント
するのが、最もスコアが高くなることを示しており、図
38のマトリックス中でDi-1,j-1 からDi,j へ対角線
方向へパス(図38の漸化式説明図の矢印→に相当す
る)ができる。Ei,j ,Fi,j が選択された場合は、残
基iとギャップ、あるいは、残基jとギャップを対応さ
せてアラインメントすることを示し、平行又は垂直にパ
スができる。
【0019】また、Ei,j =Max(Di,j-1 −a,E
i,j-1 −b)及びFi,j =Max(Di-1,j −a,F
i-1,j −b)は、それぞれギャップペナルティーとして
オープンギャップペナルティーとイクステンションギャ
ップペナルティーのどちらを採用すべきかを判断してい
る。
【0020】オープンギャップペナルティーの場合は図
38においてDi,j-1 又はDi-1,jからDi,j にパスが
でき、イクステンションギャップペナルティーの場合
は、E i,j-1 又はFi-1,j が示しているパスのスタート
となる残基対からDi,j へパスが伸びてきていることを
示す。
【0021】また、Max操作のゼロの項により、D
i,j が負値になる場合はDi,j にはゼロが入れられ、そ
れ以上パスは作られないようにしている。このMax操
作のゼロの項により、Di,j がゼロとなる任意の点から
アラインメントを始めることができ、複数の局所アライ
ンメントを得ることが可能となる。
【0022】上記式(1)を計算していく際に、Max
の操作でスコア(Di,j )とともに、どのパスが選択さ
れたのかを記憶しておく。次に、すべての残基について
上記漸化式(1)の計算を行った後、バックトラッキン
グと呼ばれる操作を行う。つまり、最大のスコア値を示
す残基iと残基jの対から、上記式(1)でMax値が
選ばれたパスに従って、バックトラッキングしていくこ
とにより局所アラインメントを求めることができるわけ
である。そして、Maxがゼロになった所で、バックト
ラッキングが終わる。
【0023】更に、次に大きなスコア値を与える残基対
から再びバックトラッキングを行ううことによって二本
目の局所アラインメントが行える(図40参照)。3本
目以降同様にしてアラインメントを得ることができる。
この考え方を進めたアルゴリズムが、スミスとウオータ
ーマンが開発した局所配列アラインメントの為のダイナ
ミック・プログラミング・アルゴリズムである。
【0024】本発明に係る構造局所アラインメントに対
する基本的な方法論は、上述したスミスとウオーターマ
ンの局所アラインメントの方法論を用いたダイナミック
・プログラミング・アルゴリズムと本質的には同じアル
ゴリズムである。つまり、ダイナミック・プログラミン
グ・アルゴリズムの際に、図37,図38のSi,j の値
として利用してきたアミノ酸類似度を示すスコアテーブ
ル(図39参照)の代わりに、比較する2つの蛋白質の
各アミノ酸残基の構造上の類似度を与えることが出来れ
ば、そのまま上記式(1)のアルゴリズムを用いて構造
局所アラインメントを得ることが可能となる。そこで、
テイラーとオレンゴは、構造上の類似性を表す値として
構造環境(Structural environme
nt)を提案した(図41参照)。
【0025】蛋白質A中の残基iの構造環境は、残基i
の特定の原子(Cβ)から他の全てのアミノ酸残基の特
定の原子(Cβ)へのベクトル(もしくは距離)として
求め、残基番号順に並べた集合として表す。つまり、残
基iの構造環境とは、蛋白質A中の他のすべてのアミノ
酸残基に対して残基iが相対的にどのような位置にある
かを示している。そして、蛋白質Aと蛋白質Bにそれぞ
れ存在する残基iと残基jの構造的な類似度は、残基i
と残基jの構造環境の類似度として求めることができ
る。
【0026】ここで、構造環境とは1次元のベクトルデ
ータの集合であることから、残基iと残基jの構造環境
の類似度は、配列間の類似度を求める問題と同様に扱う
ことができる。そこで、テイラーとオレンゴはダイナミ
ック・プログラミング・アルゴリズムを用いて、蛋白質
Aと蛋白質Bのそれぞれの残基対に対する構造環境のグ
ローバルアラインメントスコアを残基iと残基jの構造
環境の類似度Si,j とすることを提案している(図41
参照)。
【0027】そして、以上のようにして求めたSi,j
を利用して上記式(1)を解くことにより、構造局所ア
ラインメントを得ることができる。これまで説明してき
たように、構造環境の類似度を求める時(低次DP)、
構造局所アラインメントを解く時(高次DP)の2回に
わたってダイナミック・プログラミング・アルゴリズム
を用いるので、この構造アラインメントに対する方法論
をダブル・ダイナミック・プログラミング・アルゴリズ
ムと言う。
【0028】図42に構造局所アラインメントのイメー
ジ図を示しているが、アラインメントされたパスの周り
は、パスをたどって行くと、もとのアラインメントに合
流するようなものが多く存在する。そのため、図40に
示すように、二本目以降の局所アラインメントを得る際
に、最初に得られたアラインメントに由来するパスに合
流するようなDi,j を排除するために、高次DPで得ら
れたスコアに対して、既にアラインメントされたパスの
周囲に対応する残基対のスコアをゼロにしていくような
操作を入れる。以上がテイラーとオレンゴが開発したダ
ブル・ダイナミック・プログラミング・アルゴリズムを
用いた構造局所アラインメントである。
【0029】
【発明が解決しようとする課題】このように、オレンゴ
とテイラーの開発したダブル・ダイナミック・プログラ
ミング・アルゴリズムにより、配列レベルではなく蛋白
質の立体構造レベルでの局所アラインメントが可能にな
ったわけであるが、サーキュラーパーミュテーションの
関係にある蛋白質同士では正確なアラインメントが得ら
れないという問題がある。
【0030】サーキュラーパーミュテーションとは、図
1に示すように、遺伝子重複により生じた2つの同じ配
列をもつ遺伝子が、融合し、さらに両端が欠失すること
により、N末端側とC末端側の配列が入れ代わった構造
の蛋白質を発現することを言う。特に、N末端のアミノ
酸残基とC末端のアミノ酸残基の空間的な距離が近い
と、もとの構造とサーキュラーパーミュテーションを起
こした構造では全体的には違いが生じることもなく、機
能も保持される。
【0031】図2にグルカナーゼのサーキュラーパーミ
ュテーションの例を示したが、立体的にほぼ同一の構造
を取っていることが分かる。グルカナーゼの例は人工的
にサーキュラーパーミュテーションを起こした例である
が、自然界にも人間のグルタチオン合成酵素とバクテリ
アのグルタチオン合成酵素〔The EMBO Jou
rnal 1999 18(12):3204−321
3〕、アルドラーゼとトランスアルドラーゼ〔Stru
cture 1996 Jun 15;4(6):71
5−24〕、FMN−binding protein
とFAD binding domain〔Nat S
truct Biol 1998 Feb;5(2):
101〕などがサーキュラーパーミュテーションの例と
考えられている。
【0032】オレンゴとテイラーの開発した構造局所ア
ラインメント法に存在する問題は、サーキュラーパーミ
ュテーションの関係にある蛋白質同士では、立体構造的
に同一部分に相当する各アミノ酸残基を構造環境で表現
しても、図3で示すように異なったものとなり、立体構
造的な類似度が低く判断されることである。つまり、構
造環境を構築する際に、構成するベクトルをN末端残基
に対するものからC末端残基に向けて、残基番号順に並
べる為に、残基番号順序に依存した構造環境が構築され
る。その為にN末端側とC末端側のアミノ酸配列が入れ
替わった構造を持つサーキュラーパーミュテーションの
関係にある蛋白質では、類似構造部分の構造環境が正確
に評価されないと考えられる。
【0033】図3について詳細に説明すると、2つの蛋
白質A,Bはサーキュラーパーミュテーションの関係に
あるとする。同じ数字で表した残基は、類似構造部分に
対応したアミノ酸残基を表している。テイラーとオレン
ゴの方法では、蛋白質Aの残基iの構造環境の構成要素
は1,2,3,4,5,6,7,8,9,10の順で並
ぶのに対し、対応する蛋白質Bの残基iの構造環境の構
成要素は6,7,8,9,10,1,2,3,4,5の
順で並ぶ。
【0034】このようなサーキュラーパーミュテーショ
ンの関係にある蛋白質は、一方のN末端側と他方のC末
端側、あるいはその逆が類似構造として局所的にアライ
ンメントされることが期待され、局所アラインメントで
しか取り扱えない問題である。しかし、上述したよう
に、サーキュラーパーミュテーションの関係にある蛋白
質については構造局所アラインメントの方法には問題が
存在する。
【0035】本発明は、上記状況に鑑みて、サーキュラ
ーパーミュテーションの関係にある蛋白質でも、適切に
アラインメントできるダブル・ダイナミック・プログラ
ミング・アルゴリズムによる構造局所アラインメント方
法を提供することを目的とする。
【0036】
【課題を解決するための手段】本発明は、上記目的を達
成する為に、 〔1〕N末端側とC末端側の構造が入れ替わっても構造
環境の表現が変化しない様にするために、ダブル・ダイ
ナミック・プログラミング・アルゴリズムによる構造局
所アラインメント方法において、以下の工程を施した。
【0037】(a)各アミノ酸残基に対し、このアミノ
酸残基中の原子(CαもしくはCβ)から、他のすべて
のアミノ酸残基の原子(CαもしくはCβ)へ向けての
ベクトルとして構造環境を求める工程と、(b)前記
(a)工程において構造環境を求める際、アミノ酸残基
iの構造環境は、N末端アミノ酸残基へのベクトルから
i−1番目のアミノ酸残基へ向けてのベクトルまでを残
基番号順に並べたN末端側ベクトルの集合と、i+1番
目のアミノ酸残基へのベクトルからC末端のアミノ酸へ
向けてのベクトルまでを残基番号順に並べたC末端側ベ
クトルの集合に分ける工程と、(c)最初にC末端側ベ
クトルの集合、次いでN末端側ベクトルの集合が並ぶよ
うに構造環境を再構築する工程と、(d)前記(c)工
程で作成した構造環境を用いてダブル・ダイナミック・
プログラミング・アルゴリズムにより1本目の構造局所
アラインメントを得る工程と、(e)前記1本目の構造
局所アラインメントが得られた後、そのパス上の残基対
から前後5〜10残基幅で構造環境の類似度(Si,j
を取り得ない値に再設定する工程と、(f)前記(e)
工程で再設定した構造環境の類似度を用いて、通常取り
得ない値に再設定されたSi,j 値を持つ残基対部分はス
キップしながら高次DPを再度計算した後、バックトラ
ッキングすることにより、2本目の構造局所アラインメ
ントを得る工程と、(g)最大スコアが設定値以下に到
達するまで上記(e)工程及び(f)工程の操作を繰り
返すことにより、更に他の構造局所アラインメントを得
る工程とを施すことを特徴とする。
【0038】〔2〕上記〔1〕記載のダブル・ダイナミ
ック・プログラミング・アルゴリズムによる構造局所ア
ラインメント方法において、計算時間を短縮する操作と
して、蛋白質の局所構造を構造環境として考慮する距離
カットオフの導入と、アラインメントの精度向上を考慮
して蛋白質の2次構造の情報の導入を可能としたことを
特徴とする。
【0039】以上の操作を行うことで、サーキュラーパ
ーミュテーションの関係にある蛋白質同士でも構造局所
アラインメントを与える方法を提供することができる。
【0040】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。まず、本発明の
ダブル・ダイナミック・プログラミング・アルゴリズム
による構造局所アラインメント方法について、詳細に述
べる。
【0041】ここで、構造局所アラインメントのサーキ
ュラーパーミュテーションに対する問題は、構造環境を
構築する際に、構成するベクトルを蛋白質のN末端残基
に対するものからC末端残基に対するものに向けて、残
基番号順に並べる為に、配列の順序依存性が構造環境に
生じると考えた。そこで、サーキュラーパーミュテーシ
ョンが起きても影響の受けにくいものへ構造環境を再構
築することを考えた。
【0042】そこで、 (1)構造環境を求める残基iに対して、N末端側に存
在する残基へのベクトルとC末端側に存在する残基への
ベクトルに分けて求める。
【0043】(2)図4に示すように、C末端側の残基
へのベクトルを残基番号順に並べ、次いで、N末端側の
残基へのベクトルを残基番号順に並べる。
【0044】ここで、図4を参照しながら従来の方法と
本発明の方法とについて詳細に説明する。
【0045】従来の方法では、蛋白質Aの残基iの構造
的環境の構成要素は、1,2,3,4,5,6,7,
8,9,10の順で並ぶのに対し、本発明の方法によれ
ば、蛋白質Aの残基iの構造的環境の構成要素は9,1
0,1,2,3,4,5,6,7,8の順で並ぶ。
【0046】また、蛋白質Bの残基iの構造的環境の構
成要素は従来の方法では、6,7,8,9,10,1,
2,3,4,5の順で並ぶのに対し、本発明の方法によ
れば、蛋白質Bの残基iの構造的環境の構成要素はN末
端とC末端の配列の入れ替わりに影響を受けない環境で
ある、9,10,1,2,3,4,5,6,7,8の順
で並ぶ。
【0047】この操作を行うことにより、図4に示すよ
うに、N末端とC末端の配列の入れ替わりに影響を受け
ない環境を構築できると考えた。
【0048】テイラーとオレンゴは、複数の局所アライ
ンメントを効率良く得る為に、高次DPのマトリックス
中をバックトラッキングをする際、既にアラインメント
に用いたパスの周囲の残基対の値をゼロにして、違う場
所の局所アラインメントを効率良く見つけることができ
るようにしている(図41参照)。
【0049】しかし、上記の方法では非常に良く似た構
造が存在する場合、他の類似構造を検出できなくなるこ
とがあった。つまり、良く似た構造中の残基対には非常
に大きなスコア値が与えられる。構造アラインメントの
場合は、イクステンションギャップペナルティーはゼロ
もしくはゼロ近傍の値にするのが好ましいが、イクステ
ンションギャップペナルティーがゼロ近傍の値とする
と、ギャップペナルティーはa+b* (K−1)の式
(図37参照)で与えられることから分かるように、ギ
ャップの長さが幾ら長くなってもペナルティーの値は大
きくならない。
【0050】そこで、非常に良く似た構造が存在する場
合は、良く似た構造中の残基対x,yには非常に大きな
スコア値Dx,yが与えられ、その値が殆ど減衰するこ
となしにイクステンションギャップ由来の項のE,F値
として漸化式に入れられる。そして、比較的大きなS
i,j値を持つ部位があっても、Dx,y −〔a+b×
(k−1)〕>Si,j +Di-1,j-1 となり、Ei,j また
はFi,j が選ばれ、ギャップにより前に検出されたアラ
インメントへ合流する。
【0051】そこで、本発明では、アラインメントする
際にバックトラッキングした残基対の周囲の残基対のS
i,j 値、つまり高次DPを行う為のマトリックス(LM
tx)中の対応する残基対の値を、通常取り得ない値
(非常に小さな負の値)に再設定した。そして、次のア
ラインメントを求める際には、その部分は考慮せずに高
次DPを行った。
【0052】このようにして、既にアラインメントされ
た残基対からのパスを発生させないようにして、高次D
Pを再計算する為に、前のアラインメントに合流するパ
スはすべて消失した。このことにより、前に検出された
局所アラインメントのスコアの大きさに影響されず、次
のアラインメントを検出できることが可能になった。そ
の他、本プログラムには、計算速度を速める為に構造環
境成分として考慮する残基の空間的な制約条件(距離カ
ットオフ)や、2つの構造を比較する際の、構造環境を
表す成分数の差の制約(ΔNカットオフ条件)〔Toh
H,CABIOS(1997),396,13,38
7〕を取り入れられるように設計した。
【0053】距離カットオフとは蛋白立体構造中の各ア
ミノ酸残基の環境をその残基からのカットオフ距離内の
球内残基のみに対する相対的位置で表現するという近似
である。一方、ΔNカットオフとは比較する蛋白質中の
残基の局所構造が類似していれば、構造環境を表す残基
数も同程度の数になるという仮定に基づき、残基数の差
がカットオフ値より大きい場合は、局所構造が類似して
いないと見なし、構造環境の類似度の計算を省略すると
いう近似である。また、αヘリックスとβストランドの
ように異なる2次構造同士が対になるようなアラインメ
ントを避ける為のペナルティーと2次構造部分の途中で
ギャップが入り難くする為のペナルティーを導入できる
ようにした。
【0054】次に具体的なアラインメント結果を示す。
【0055】始めに、従来の方法でも正確なアラインメ
ントを得ることのできる構造局所アラインメントの計算
例として、サーキュラーパーミュテーションとは関係の
ない、全体的な立体構造は類似していないが、局所的に
類似構造を持つ蛋白質の構造局所アラインメントを行っ
た。
【0056】図6は本発明の再構築した構造環境と従来
の構造環境を比較する為の計算に用いた、類似の局所構
造を持つ蛋白質の一覧を示す図である。蛋白質の名前と
プロテインデータバンク中での記号を示す。そして、図
7〜図15に図6に示した蛋白質の構造局所アラインメ
ントの結果を従来の構造環境と本発明に係る再構築した
構造環境とを比較して示した。
【0057】図7はHIV−1プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメントを示す図
であり、アラインメントスコアの高いもの2つのアライ
ンメントを表示したものである。図7(a)はHIV−
1プロテアーゼとアスパラギン酸プロテアーゼの立体構
造を示す図、図7(b)は本発明の再構築した構造環境
を使用したアラインメント例を示す図、図7(c)は従
来の構造環境を使用したアラインメント例を示す図であ
る。
【0058】また、図8は様々な距離カットオフ、ΔN
カットオフ設定下のHIV−1プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメント結果を示
したものである。図8(a)は本発明の再構築した構造
環境を使用した例を示す図、図8(b)は従来の構造環
境を使用した例を示す図である。
【0059】アスパラギン酸プロテアーゼはHIV−1
プロテアーゼと類似した構造を持つドメイン2個からな
り、構造局所アラインメントすると2つの局所アライン
メントが得られることが期待される。縦軸は検出された
ドメイン数である。
【0060】更に、図9は様々な距離カットオフ、ΔN
カットオフ設定下のHIV−1プロテアーゼとアスパラ
ギン酸プロテアーゼの構造局所アラインメントを得るの
に要したCPU時間を示したものである。図9(a)は
本発明の再構築した構造環境を使用した例を示す図、図
9(b)は従来の構造環境を使用した例を示す図であ
る。
【0061】図10はCyclooxygenaseと
E−selectinの構造局所アラインメントを示し
た図である。図10(a)はCyclooxygena
seとE−selectinの立体構造を示す図、図1
0(b)は本発明の再構築した構造環境を使用した例を
示す図、図10(c)は従来の構造環境を使用した例を
示す図である。
【0062】図11は様々な距離カットオフ、ΔNカッ
トオフ設定下のCyclooxygenaseとE−s
electinの構造局所アラインメント結果を示した
図である。図11(a)は本発明の再構築した構造環境
を使用した場合のアラインメント結果を示す図、図11
(b)は従来の構造環境を使用した場合のアラインメン
ト結果を示す図である。
【0063】それぞれEGFドメイン一つを持ち、構造
局所アラインメントすると1つの局所アラインメントが
得られることが期待される。縦軸は検出されたドメイン
数である。
【0064】図12は様々な距離カットオフ、ΔNカッ
トオフ設定下のCyclooxygenaseとE−s
electinの構造局所アラインメントを得るのに要
したCPU時間を示したものである。図12(a)は本
発明の再構築した構造環境を使用した場合のアラインメ
ント計算時間を示す図、図12(b)は従来の構造環境
を使用した場合のアラインメント計算時間を示す図であ
る。
【0065】図13はImmunoglobulin
Fab同士の構造局所アラインメントを示した図であ
り、同じもの同士を比較している為に、最高スコアには
全配列を一致させたアラインメントが得られるので、そ
れを除いたものを2つ示した。図13(a)はImmu
noglobulin Fabの立体構造を示す図、図
13(b)は本発明の再構築した構造環境を使用した例
を示す図、図13(c)は従来の構造環境を使用した例
を示す図である。
【0066】図14はImmunoglobulin
Fab同士の構造局所アラインメントにおける様々な距
離カットオフ、ΔNカットオフ設定下の構造局所アライ
ンメント結果を示す。図14(a)は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図14(b)は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。
【0067】一分子内に類似構造を2つ持っているの
で、2つの構造局所アラインメントが得られることが期
待される。縦軸は検出されたドメイン数である。
【0068】図15はImmunoglobulin
Fab同士の構造局所アラインメントにおける様々な距
離カットオフ、ΔNカットオフ設定下の構造局所アライ
ンメントを得るのに要したCPU時間を示したものであ
る。図15(a)は本発明の再構築した構造環境を使用
した場合のアラインメント計算時間を示す図、図15
(b)は従来の構造環境を使用した場合のアラインメン
ト計算時間を示す図である。
【0069】図7〜図15に示すように、サーキュラー
パーミュテーションの関係にない蛋白質の例では、従来
の構造環境と本発明の再構築した構造環境の間でアライ
ンメント結果の大きな差異はなかった。このことによ
り、サーキュラーパーミュテーションの関係にない蛋白
質であっても本発明の再構築した構造環境を用いて正確
にアラインメントを得ることができることが分かる。従
来の構造環境、本発明の再構築した構造環境ともに、計
算速度を速める為の近似である距離カットオフ、ΔNカ
ットオフのうち、距離カットオフは構造局所アラインメ
ントでも非常に効果的に働き、カットオフ距離10〜2
0Åでアラインメント精度を損なわず、大幅な計算速度
の短縮につながった。
【0070】しかし、ΔNカットオフを導入すると、カ
ットオフ距離値の設定に大きくアラインメント結果が影
響され、ΔNカットオフ近似は局所アラインメントには
適しないことが分かった。これは、類似構造が局所に限
られる場合、カットオフ距離を小さく取る場合には、近
距離の局所構造だけの構造環境を構築する為に、類似構
造部分の構造環境を構成する残基数もほぼ同じになる
が、カットオフ距離を大きく取ると、近距離の局所構造
は似ているにもかかわらず、遠距離の類似していない構
造部分までの残基を構造環境として構築する為に、その
構成ベクトル数が大きく異なったものとなる。
【0071】そして、その結果、ΔNカットオフ条件に
より、その構造部分は始めから類似していないと判断さ
れ、低次DP計算がスキップされてしまうことが原因で
あると解釈できる。
【0072】以上のアラインメント結果から、サーキュ
ラーパーミュテーションとは関係のない通常の蛋白質に
対する構造局所アラインメントは、本発明の再構築した
構造環境も、従来の構造環境と同等の精度のアラインメ
ントが得られることが分かった。
【0073】次に、サーキュラーパーミュテーションの
関係にある蛋白質の例を用いてその構造局所アラインメ
ントの際に顕著な本発明に係る構造環境の再構築の効果
を説明する。
【0074】アラインメントスコアは配列の長さに依存
しない値にするために、それぞれのスコアをアラインメ
ントされた配列の長さで割ったものをアラインメントス
コア値とし、その値の大きい順にアラインメントをソー
トしたものをアラインメント結果とした。結果の解釈と
して、サーキュラーパーミュテーションに由来する配列
の一方を最高スコアで検出できた場合にサーキュラーパ
ーミュテーションに由来するアラインメントを一つ検出
できたと判断した。そして、もう一方の配列を2番目の
スコアで検出できた時にサーキュラーパーミュテーショ
ンに由来するアラインメントが両方得られたと判断し
た。
【0075】図17〜図36に、本発明の再構築した構
造環境を用いて構造局所アラインメントを行った結果と
従来の構造環境を用いた場合の結果とを比較した図を示
す。
【0076】図16はそのアラインメントの計算に用い
た蛋白質の一覧である。図17〜図20,図21〜図2
4でアラインメントに用いられた蛋白質は人工的にサー
キュラーパーミュテーションの関係にある蛋白質が作ら
れ、その立体構造がX線結晶解析によって解かれたもの
である〔図17〜図20:Proteins 1998
Feb 1;30(2):155−67,図21〜図
24:ProteinSci 1998 Apr.7
(4):848−59〕。
【0077】図17及び図21は、距離カットオフ及び
ΔNカットオフを入れずに構造局所アラインメントを行
った場合のアラインメントを示している。
【0078】アラインメントはスコア値を配列の長さに
依存しない値にする為に、高次DPのスコアの大きい順
にバックトラッキングして各アラインメントを求めた
後、それぞれのスコアをアラインメントされた配列の長
さで割り、その値の大きい順にソートしたものをアライ
ンメント結果とした。
【0079】以下、図面毎に詳細に説明する。
【0080】図17は距離・カットオフ、ΔNカットオ
フは考慮しない場合のβ−GlucanaseとCir
cularly permuted glucanas
eの構造局所アラインメントの結果を示したものであ
る。図17(a)はβ−GlucanaseとCirc
ularly permuted glucanase
の立体構造を示す図、図17(b)は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図17(c)は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。
【0081】図18はカットオフ・距離を20Å、ΔN
カットオフを20に設定した場合のβ−Glucana
seとCircularly permuted gl
ucanaseのアラインメント結果を示す図であり、
図18(a)はβ−GlucanaseとCircul
arly permuted glucanaseの立
体構造を示す図、図18(b)は本発明の再構築した構
造環境を使用した場合のアラインメント結果を示す図、
図18(c)は従来の構造環境を使用した場合のアライ
ンメント結果を示す図である。
【0082】図19は様々な距離カットオフ、ΔNカッ
トオフ設定下のβ−GlucanaseとCircul
arly permuted glucanaseの構
造局所アラインメント結果を示したものである。縦軸は
検出されたサーキュラーパーミュテーションに由来する
アラインメント数である。図19(a)は本発明の再構
築した構造環境を使用した場合のアラインメント結果を
示す図、図19(b)は従来の構造環境を使用した場合
のアラインメント結果を示す図である。
【0083】図20は様々な距離カットオフ、ΔNカッ
トオフ設定下のβ−GlucanaseとCircul
arly permuted glucanaseの構
造局所アラインメントを得るのに要したCPU時間を示
したものである。図20(a)は本発明の再構築した構
造環境を使用した場合のアラインメントの計算時間を示
す図、図20(b)は従来の構造環境を使用した場合の
アラインメントの計算時間を示す図である。
【0084】図21は距離・カットオフ、ΔNカットオ
フを考慮しない場合のAvidinとCircular
ly permuted streptavidinの
構造局所アラインメントの結果を示した図である。図2
1(a)はAvidinとCircularly pe
rmuted streptavidinの立体構造を
示す図、図21(b)は本発明の再構築した構造環境を
使用した場合を示す図、図21(c)は従来の構造環境
を使用した場合のアラインメント結果を示す図である。
【0085】図22はカットオフ・距離を20Å、ΔN
カットオフを20に設定した場合のAvidinとCi
rcularly permuted strepta
vidinの構造局所アラインメントの結果を示した図
である。図22(a)はAvidinとCircula
rly permuted streptavidin
の立体構造を示す図、図22(b)は本発明の再構築し
た構造環境を使用した場合のアラインメント結果を示す
図、図22(c)は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。
【0086】図23は様々な距離カットオフ、ΔNカッ
トオフ設定下のAvidinとCircularly
permuted streptavidinの構造局
所アラインメント結果を示したものである。縦軸は検出
されたサーキュラーパーミュテーションに由来するアラ
インメント数である。図23(a)は、本発明の再構築
した構造環境を使用した場合のアラインメント結果を示
す図、図23(b)は従来の構造環境を使用した場合の
アラインメント結果を示す図である。
【0087】図24は様々な距離カットオフ、ΔNカッ
トオフ設定下のAvidinとCircularly
permuted streptavidinの構造局
所アラインメントを得るのに要したCPU時間を示した
ものである。図24(a)は本発明の再構築した構造環
境を使用した場合のアラインメント計算時間を示す図、
図24(b)は従来の構造環境を使用した場合のアライ
ンメント計算時間を示す図である。
【0088】図25〜図28は、Phthalate
dioxygenase reductaseとFMN
−binding proteinの構造局所アライン
メントの結果を示したものである。
【0089】図25は距離・カットオフ、ΔNカットオ
フを考慮しない場合のPhthalate dioxy
genase reductaseとFMN−bind
ing proteinの構造局所アラインメントの結
果を示す図である。図25(a)はPhthalate
dioxygenase reductaseとFM
N−binding proteinの立体構造を示す
図、図25(b)は本発明の再構築した構造環境を使用
した場合のアラインメント結果を示す図、図25(c)
は従来の構造環境を使用した場合のアラインメント結果
を示す図である。
【0090】図26はカットオフ・距離を15Å、ΔN
カットオフを50に設定した場合のPhthalate
dioxygenase reductaseとFM
N−binding proteinの構造局所アライ
ンメントの結果を示した図である。図26(a)はPh
thalate dioxygenase reduc
taseとFMN−binding proteinの
立体構造を示す図、図26(b)は本発明の再構築した
構造環境を使用した場合のアラインメント結果を示す
図、図26(c)は従来の構造環境を使用した場合のア
ラインメント結果を示す図である。
【0091】図27は様々な距離カットオフ、ΔNカッ
トオフ設定下のPhthalatedioxygena
se reductaseとFMN−binding
proteinの構造局所アラインメント結果を示した
ものである。縦軸は検出されたサーキュラーパーミュテ
ーションに由来するアラインメント数である。図27
(a)は本発明の再構築した構造環境を使用した場合の
アラインメント結果を示す図、図27(b)は従来の構
造環境を使用した場合のアラインメント結果を示す図で
ある。
【0092】図28は様々な距離カットオフ、ΔNカッ
トオフ設定下のPhthalatedioxygena
se reductaseとFMN−binding
proteinの構造局所アラインメントを得るのに要
したCPU時間を示した図である。図28(a)は本発
明の再構築した構造環境を使用した場合のアラインメン
ト計算時間を示す図、図28(b)は従来の構造環境を
使用した場合のアラインメント計算時間を示す図であ
る。
【0093】図29は距離・カットオフ、ΔNカットオ
フを考慮しない場合のHumanグルタチオン合成酵素
と大腸菌グルタチオン合成酵素の構造局所アラインメン
トの結果を示す図であり、図29(a)はHumanグ
ルタチオン合成酵素と大腸菌グルタチオン合成酵素の立
体構造を示す図、図29(b)は本発明の再構築した構
造環境を使用した例を示す図、図29(c)は従来の構
造環境を使用した例を示す図である。
【0094】図30はカットオフ・距離を50Å、ΔN
カットオフを考慮しない場合のHumanグルタチオン
合成酵素と大腸菌グルタチオン合成酵素の構造局所アラ
インメントを示す図であり、図30(a)はHuman
グルタチオン合成酵素と大腸菌グルタチオン合成酵素を
示す図、図30(b)は本発明の再構築した構造環境を
使用した場合を示す図、図30(c)は従来の構造環境
を使用した場合のアラインメント結果を示す図である。
【0095】図31は様々な距離カットオフ、ΔNカッ
トオフ設定下のHumanグルタチオン合成酵素と大腸
菌グルタチオン合成酵素の構造局所アラインメント結果
を示した図である。図31(a)は本発明の再構築した
構造環境を使用した場合のアラインメント結果を示す
図、31(b)は従来の構造環境を使用した場合のアラ
インメント結果を示す図である。
【0096】図32は様々な距離カットオフ、ΔNカッ
トオフ設定下のHumanグルタチオン合成酵素と大腸
菌グルタチオン合成酵素の構造局所アラインメントを得
るのに要したCPU時間を示した図である。図32
(a)は本発明の再構築した構造環境を使用した場合の
アラインメントの計算時間を示す図、32(b)は従来
の構造環境を使用した場合のアラインメントの計算時間
を示す図である。
【0097】図33は距離・カットオフ、ΔNカットオ
フを考慮しない場合のTransaldolaseとF
ructose−1,6−bisphosphatea
ldoaseの構造局所アラインメントの結果を示した
図である。得られたアラインメントの中、サーキュラー
パーミュテーション由来のアラインメントを載せたもの
である。図33(a)はTransaldolaseと
Fructose−1,6−bisphosphate
aldoaseの模式図、図33(b)は本発明の再構
築した構造環境を使用した場合のアラインメント結果を
示す図、図33(c)は従来の構造環境を使用した場合
のアラインメント結果を示す図である。
【0098】図34はカットオフ・距離を20Å、ΔN
カットオフを20に設定した場合のTransaldo
laseとFructose−1,6−bisphos
phatealdoaseの構造局所アラインメントの
結果を示した図である。図34(a)はTransal
dolaseとFructose−1,6−bisph
osphatealdoaseを示す図、図34(b)
は本発明の再構築した構造環境を使用した場合のアライ
ンメント結果を示す図、図34(c)は従来の構造環境
を使用した場合のアラインメント結果を示す図である。
【0099】図35は様々な距離カットオフ、ΔNカッ
トオフ設定下のTransaldolaseとFruc
tose−1,6−bisphosphatealdo
aseの構造局所アラインメント結果を示したものであ
る。縦軸は検出されたサーキュラーパーミュテーション
に由来するアラインメント数である。図35(a)は、
本発明の再構築した構造環境を使用した場合のアライン
メント結果を示す図、図35(b)は従来の構造環境を
使用した場合のアラインメント結果を示す図である。
【0100】図36は様々な距離カットオフ、ΔNカッ
トオフ設定下のTransaldolaseとFruc
tose−1,6−bisphosphatealdo
aseの構造局所アラインメントを得るのに要したCP
U時間を示したものである。図36(a)は本発明の再
構築した構造環境を使用した場合のアラインメント計算
時間を示す図、図36(b)は従来の構造環境を使用し
た場合のアラインメント計算時間を示す図である。
【0101】サーキュラーパーミュテーションの関係に
ある蛋白質同士の立体構造が極めて類似している場合、
本発明の構造環境、及び従来の構造環境、どちらを用い
てアラインメントを行った場合でも、最大スコア及び2
番目の大きさを持つスコアのアラインメントは、サーキ
ュラーパーミュテーションに由来する配列であった。
【0102】しかし、スコア値を見ると、本発明の構造
環境を用いた場合、グルカナーゼのケースで、上位2個
のスコアが12.14及び10.89、3番目のスコア
が1.65、ストレプトアビジンのケースで、上位2個
のスコアが5.13及び4.40、3番目が1.49と
なっていることから明らかなように、サーキュラーパー
ミュテーションに由来する非常に類似した構造を他の部
分とスコア的に明確に区別したのに対し、従来の構造環
境を用いた場合、グルカナーゼのケースで、上位2個の
スコアが12.05及び7.12、3番目のスコアが
0.75、ストレプトアビジンのケースで、上位2個の
スコアが3.97及び1.87で3番目が1.13とな
り、サーキュラーパーミュテーションに由来する2個の
スコアと他の部分との差が小さくなった。
【0103】図17〜図18及び図21〜図22の上部
に載せた分子グラフィックスを見れば判るように、サー
キュラーパーミュテーションに由来する2ヶの配列の立
体構造は非常に類似しており、構造局所アラインメント
を行えば、上位2個のアラインメントスコアが同等の大
きな値を持つことが予想され、本発明の再構築した構造
環境を用いたアラインメントが正確な結果を得ていると
言える。
【0104】さらに、距離カットオフ及びΔNカットオ
フを入れアラインメントを行った例を示すと、本発明の
構造環境を用いた場合、グルカナーゼの例(図18参
照)でサーキュラーパーミュテーションに由来するアラ
インメントスコアは最大及び2番目の値を持ち(10.
6、9.27)、3番目のスコア1.03と明確に区別
可能であった。
【0105】ストレプトアビジンの例(図22参照)で
も、サーキュラーパーミュテーションに由来するアライ
ンメントスコアは最大及び2番目の値、4.38、3.
54で3番目のスコア1.78と区別できた。それに対
し、従来の構造環境を用いた場合、サーキュラーパーミ
ュテーションに由来する構造をアラインメント自体でき
なかった。
【0106】図19,図20、図23,図24に、様々
なカットオフ値でのアラインメント結果とその計算時間
を従来の構造環境、本発明に係る構造環境についてまと
めたグラフを示す。図19〜図20,図23〜図24の
例では全体の構造が極めて類似しているにもかかわら
ず、従来の構造環境を用いるとΔNカットオフの導入は
困難であり、構造環境の類似性が正しく表現できていな
いことが示された。
【0107】それに対し、本発明の構造環境を用いると
全体の構造環境の類似性を正確に表しており、ΔNカッ
トオフの導入をしても十分な精度でアラインメントが可
能であった。計算時間を考えると、通常の蛋白質の時と
同様、10〜20Åのカットオフ距離を設定するのが、
アラインメント精度を損なわず短時間で計算できる条件
であることがわかる。
【0108】図25〜図28,図29〜図32、図33
〜図36は、お互いにサーキュラーパーミュテーション
の関係にあると考えられており〔図25〜図28:Na
tStruct Biol(1998)Feb:5
(2):101、図29〜図32:The EMBO
Journal(1999)18(12):3204−
3213、図33〜図36:Structure 19
96 Jun 15:4(6):715−24〕、構造
的にはかなり違っているようなケースについての構造局
所アラインメント結果を示した。
【0109】図25〜図28に示したPhthalat
e dioxygenase reductaseとF
MN binding proteinの例では、配列
の長さも大きく異なり、一見、かなり構造が異なって見
えるが、再構築した構造環境を用いれば、サーキュラー
パーミュテーションに由来するアラインメントを両方検
出することができた。つまり、全体の構造がかなり異な
っていても、その中から似た立体構造部分のみ選び出
し、さらにサーキュラーパーミュテーションを検出でき
たことを示している。
【0110】これに対し、従来の構造環境を用いた方法
では、距離カットオフ及びΔNカットオフを考慮せずに
アラインメントを行っても、一方が1番目に検出できた
ものの、他方は検出できなかった。人工的に作製された
例(図17〜図20,図21〜図24)の様に構造的に
極めて酷似している場合には、従来の構造環境でアライ
ンメントを行っても、カットオフを入れなければ、サー
キュラーパーミュテーションの検出は可能であったが、
構造が酷似していない場合(図25〜図28参照)は、
再構築した構造環境を用いなければならないことが分か
る。
【0111】図27から、配列の長さが異なり、サーキ
ュラーパーミュテーションに由来する類似部分が局所に
限られる場合は、前の通常蛋白質の構造局所アラインメ
ントの時に述べた同じ理由でΔNカットオフの導入は不
適当であることが言える。
【0112】図29〜図30にグルタチオン合成酵素の
例を示す。人間のグルタチオン合成酵素とバクテリアの
グルタチオン合成酵素はサーキュラーパーミュテーショ
ンの関係にあることが最近発表されている。本発明に係
わる再構築した構造環境を用いたアラインメント結果を
見ると,距離カットオフ、ΔNカットオフを導入しない
場合でサーキュラーパーミュテーションに由来するアラ
インメントの一方が検出することができたが、他方は3
番目のスコアとして得られ、検出には失敗した。しか
し、距離カットオフを50Åに設定するとサーキュラー
パーミュテーションに由来するアラインメント配列と違
うアラインメント配列の順位が入れ替わり、他方のアラ
インメントも見かけ上は検出できた。カットオフを導入
しない場合に2番目のスコアで検出された十数残基の短
い配列は、従来の構造環境でも本発明の構造環境でも、
様々なカットオフ条件で上位のスコアで検出されてお
り、サーキュラーパーミュテーションとは関係ない部分
で、類似構造が存在した為と考えられる。本発明のスコ
アの付け方では、配列の長さに依存しないように配列の
長さでアラインメントスコアを割っている為に、小さな
局所の類似構造を高く見積もりすぎている可能性があ
る。一方、従来の構造環境を用いた場合は、すべてのカ
ットオフ条件でサーキュラーパーミュテーションに由来
するアラインメントの一方はまったく検出されなかっ
た。
【0113】さらに、図33〜図36のアルドラーゼと
トランスアルドラーゼのように、2次構造の対応までか
なり異なっているサーキュラーパーミュテーションの例
についても、本発明である再構築した構造環境を用いて
アラインメントを行うと、最大スコアにサーキュラーパ
ーミュテーションに由来する一方のアラインメントを正
確に検出することができた。
【0114】これに対し、従来の構造環境ではサーキュ
ラーパーミュテーションに由来するアラインメントは最
高スコアとしてはアラインメントされなかった。
【0115】以上の内容をまとめると、従来の構造環境
と比較して、サーキュラーパーミュテーションの関係に
ある蛋白質でも本発明に係る再構築した構造環境を使用
して局所アラインメントを行うと正確にアラインメント
を得ることができ、計算時間の短縮を行うのに、カット
オフ距離10〜35Åの設定が有効である。比較する蛋
白質の配列の長さが大きく異なるような変異がある場合
はΔNカットオフ設定は不適切である。
【0116】上記した方法により、本発明によれば、サ
ーキュラーパーミュテーションの関係にある蛋白質同士
でも、正確にアラインメントができる構造局所アライン
メントを実施し得るが、図5を用いてその方法を整理す
るとともに、その実施するハード面から説明する。
【0117】図5は本発明のダブル・ダイナミック・プ
ログラミング・アルゴリズムによる構造局所アラインメ
ントのハード的構成図である。図5において、1は蛋白
質立体構造座標データ入力部、2は座標データの各残基
対を結ぶベクトル計算部、3は構造環境構築部、4はサ
ーキュラーパーミュテーションを考慮する為の構造環境
の再構築部、5は構造環境比較の為の低次DP漸化式適
用部、6は残基アラインメントの為の高次DP漸化式適
用部、7は漸化式で得られた各スコアを高いものの順に
並べるソーティング部、8は最高スコアの残基対からの
バックトラッキングにより、局所アラインメントを構築
するアラインメント構築部、9は既にアラインメントさ
れた残基対周辺のLMtr値を次からの高次DPに使用
しないように通常取り得ない値に変更するLMtx値再
設定部、スコア判定部10はアラインメント作業の終了
を判定する部、11は局所アラインメントの結果出力
部、12は高次DPを繰り返す方法を取らずにテイラー
らの方法でバックトラッキングを行うためのUMtx値
再設定部である。
【0118】本発明に係るダブル・ダイナミック・プロ
グラミング・アルゴリズムによる構造局所アラインメン
トは、矢印で示すように実行される。つまり、蛋白質立
体構造座標データ入力部1から蛋白質立体構造座標デー
タが入力され、座標データの残基対の特定原子のベクト
ルへの計算部2で座標データの残基対間のベクトルが求
められ、構造環境構築部3で構造環境が構築される。
【0119】距離カットオフ近似〔Toh H,CAB
IOS13,387−396(1997)〕を導入する
際は、この構造環境構築部3においてカットオフ近似を
考慮して構造環境が構築される。サーキュラーパーミュ
テーションを考慮する場合、構造環境の再構築部4で構
造環境の再構築を行う。
【0120】低次DP漸化式適用部5では、まず、異な
る2次構造同士のアラインメントを避ける為に、異なる
2次構造に属する残基対については、低次DPの計算を
行わずスキップして構造環境の類似度はゼロに設定す
る。
【0121】そして、その他の残基対に対し、必要に応
じ、ΔNカットオフ条件〔TohH,CABIOS 1
3,387−396(1997)〕等を考慮しながら低
次DP用漸化式を計算することにより、2個の蛋白質の
残基間の構造環境の比較を行う。
【0122】次に、高次DP漸化式適用部6で高次DP
漸化式を適用する。ここでは、必要に応じ、2次構造の
途中でギャップが入り難くする為にペナルティーの値を
変更するなどの操作を加えることができる。
【0123】次いで、ソーティング部7で6の漸化式で
得られたスコアを高い順に並べ直し、バックトラッキン
グによる局所アラインメント構築部8で、最高スコアを
持つ残基対からバックトラッキングを行いアラインメン
トの構築を行う。バックトラッキングをする際に、LM
tx値再設定部9において、LMtrの値のうち、バッ
クトラックされた軌跡に沿った一定の幅内の残基対に相
当する部分を通常取り得ない負値に再設定する。
【0124】次に、高次DPを行う際、この負値を目印
に計算をスキップさせることにより、計算時間の短縮と
共に、既にバックトラッキングされたアラインメントか
ら伸びるパスが消え、前のアラインメントに影響を受け
ずに、新たな局所アラインメントを得ることができる。
【0125】次に、LMtxの値が再設定されたら、そ
のLMtxを用いて高レベルDP用漸化式適用部6に戻
り、高次DP用漸化式の適用から再計算を始める。
【0126】これを繰り返すことにより、複数の局所ア
ラインメントを得ることができる。スコア判定部10は
2本目以降の局所アラインメントで現在得られている高
次DPの最大スコアの値を見て、設定値より小さくなる
所で、アラインメント作業の終了を判定する。最後に局
所アラインメントの結果出力部11により結果を出力す
る。
【0127】図5において、12はテイラーとオレンゴ
が行ったダブル・ダイナミックプログラミング・アルゴ
リズムで採用されたバックトラッキングの方法と同じも
ので、UMtrの値を既にアラインメントされた残基対
から一定幅内に相当する部分を通常取り得ない負値に再
設定する。そして、そのUMtrを用いてバックトラッ
キングによるアラインメント構築部8へ戻り、バックト
ラッキングを繰り返し局所アラインメントを複数得る。
【0128】なお、本発明は上記実施例に限定されるも
のではなく、本発明の趣旨に基づいて種々の変形が可能
であり、これらを本発明の範囲から排除するものではな
い。
【0129】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、サーキュラーパーミュテーションの関係にある
蛋白質同士でも正確にアラインメントできる構造局所ア
ラインメント方法を提供することができる。
【図面の簡単な説明】
【図1】サーキュラーパーミュテーションの説明図であ
る。
【図2】グルカナーゼのサーキュラーパーミュテーショ
ンの例を示した図である。
【図3】サーキュラーパーミュテーションの関係にあ
る、2つの蛋白質の構造環境の違いを示す図である。
【図4】本発明に係る構造環境の再構築の概念を示した
図である。
【図5】本発明に係るダブル・ダイナミック・プログラ
ミング・アルゴリズムによる構造局所アラインメントの
ハード的構成図である。
【図6】本発明に係る再構築した構造環境と従来の構造
環境を比較する為の計算に用いた、類似の局所構造を持
つ蛋白質の一覧表を示す図である。
【図7】構造局所アラインメントの結果を従来の構造環
境と本発明の再構築した構造環境とを比較した、HIV
−1プロテアーゼとアスパラギン酸プロテアーゼの構造
局所アラインメントを示す図である。
【図8】様々な距離カットオフ、ΔNカットオフ設定下
のHIV−1プロテアーゼとアスパラギン酸プロテアー
ゼの構造局所アラインメント結果を示した図である。
【図9】様々な距離カットオフ、ΔNカットオフ設定下
のHIV−1プロテアーゼとアスパラギン酸プロテアー
ゼの構造局所アラインメントを得るのに要したCPU時
間を示す図である。
【図10】CyclooxygenaseとE−sel
ectinの構造局所アラインメントを示したものであ
る。
【図11】様々な距離カットオフ、ΔNカットオフ設定
下のCyclooxygenaseとE−select
inの構造局所アラインメント結果を示した図である。
【図12】様々な距離カットオフ、ΔNカットオフ設定
下のCyclooxygenaseとE−select
inの構造局所アラインメントを得るのに要したCPU
時間を示す図である。
【図13】Immunoglobulin Fab同士
の構造局所アラインメントを示した図である。
【図14】Immunoglobulin Fab同士
の構造局所アラインメントにおける様々な距離カットオ
フ、ΔNカットオフ設定下の構造局所アラインメント結
果を示す図である。
【図15】Immunoglobulin Fab同士
の構造局所アラインメントにおける様々な距離カットオ
フ、ΔNカットオフ設定下の構造局所アラインメントを
得るのに要したCPU時間を示した図である。
【図16】サーキュラーパーミュテーションの関係にあ
る蛋白質同士の構造局所アラインメント計算に用いた蛋
白質の名前とプロテインデータバンクでの記号名を示す
図である。
【図17】距離・カットオフ、ΔNカットオフを考慮し
ない場合のβ−GlucanaseとCircular
ly permuted glucanaseの構造局
所アラインメントの結果を示した図である。
【図18】カットオフ・距離を20Å、ΔNカットオフ
を20に設定した場合のβ−GlucanaseとCi
rcularly permuted glucana
seの構造局所アラインメントの結果を示した図であ
る。
【図19】様々な距離カットオフ、ΔNカットオフ設定
下のβ−GlucanaseとCircularly
permuted glucanaseの構造局所アラ
インメント結果を示した図である。
【図20】様々な距離カットオフ、ΔNカットオフ設定
下のβ−GlucanaseとCircularly
permuted glucanaseの構造局所アラ
インメントを得るのに要したCPU時間を示した図であ
る。
【図21】距離・カットオフ、ΔNカットオフを考慮し
ない場合のAvidinとCircularly pe
rmuted streptavidinの構造局所ア
ラインメントの結果を示した図である。
【図22】カットオフ・距離を20Å、ΔNカットオフ
を20に設定した場合のAvidinとCircula
rly permuted streptavidin
の構造局所アラインメントの結果を示した図である。
【図23】様々な距離カットオフ、ΔNカットオフ設定
下のAvidinとCircularly permu
ted streptavidinの構造局所アライン
メント結果を示した図である。
【図24】様々な距離カットオフ、ΔNカットオフ設定
下のAvidinとCircularly permu
ted streptavidinの構造局所アライン
メントを得るのに要したCPU時間を示した図である。
【図25】距離・カットオフ、ΔNカットオフを考慮し
ない場合のPhthalatedioxygenase
reductaseとFMN−binding pr
oteinの構造局所アラインメントの結果を示した図
である。
【図26】カットオフ・距離を15Å、ΔNカットオフ
を50に設定した場合のPhthalate diox
ygenase reductaseとFMN−bin
ding proteinの構造局所アラインメントの
結果を示した図である。
【図27】様々な距離カットオフ、ΔNカットオフ設定
下のPhthalate dioxygenase r
eductaseとFMN−binding prot
einの構造局所アラインメント結果を示した図であ
る。
【図28】様々な距離カットオフ、ΔNカットオフ設定
下のPhthalate dioxygenase r
eductaseとFMN−binding prot
einの構造局所アラインメントを得るのに要したCP
U時間を示した図である。
【図29】距離・カットオフ、ΔNカットオフを考慮し
ない場合のHumanグルタチオン合成酵素と大腸菌グ
ルタチオン合成酵素の構造局所アライメントの結果を示
した図である。
【図30】カットオフ・距離を50Å、ΔNカットオフ
を考慮しない場合のHumanグルタチオン合成酵素と
大腸菌グルタチオン合成酵素の構造局所アライメントの
結果を示した図である。
【図31】様々な距離カットオフ、ΔNカットオフ設定
下のHumanグルタチオン合成酵素と大腸菌グルタチ
オン合成酵素の構造局所アラインメント結果を示した図
である。
【図32】様々な距離カットオフ、ΔNカットオフ設定
下のHumanグルタチオン合成酵素と大腸菌グルタチ
オン合成酵素の構造局所アラインメントを得るのに要し
たCPU時間を示した図である。
【図33】距離・カットオフ、ΔNカットオフを考慮し
ない場合のTransaldolaseとFructo
se−1,6−bisphosphatealdoas
eの構造局所アラインメントの結果を示した図である。
【図34】カットオフ・距離を20Å、ΔNカットオフ
を20に設定した場合のTransaldolaseと
Fructose−1,6−bisphosphate
aldoaseの構造局所アラインメントの結果を示し
た図である。
【図35】様々な距離カットオフ、ΔNカットオフ設定
下のTransaldolaseとFructose−
1,6−bisphosphatealdoaseの構
造局所アラインメント結果を示した図である。
【図36】様々な距離カットオフ、ΔNカットオフ設定
下のTransaldolaseとFructose−
1,6−bisphosphatealdoaseの構
造局所アラインメントを得るのに要したCPU時間を示
した図である。
【図37】ダイナミック・プログラミング・アルゴリズ
ムを行うための2次元マトリックスとダイナミック・プ
ログラミングのアルゴリズムの説明図である。
【図38】ダイナミック・プログラミング・アルゴリズ
ムを行うための2次元マトリックスの説明図である。
【図39】スコアテーブルの例を示した図である。
【図40】ダイナミック・プログラミング・アルゴリズ
ムを用いた局所アラインメントの概念図である。
【図41】ダブル・ダイナミック・プログラミング・ア
ルゴリズムの説明図である。
【図42】テーラとオレンゴが行った、効率的に複数の
アラインメントを行う為の処理を示した図である。
【符号の説明】
1 蛋白質立体構造座標データ入力部 2 座標データの各残基対を結ぶベクトル計算部 3 構造環境構築部 4 サーキュラーパーミュテーションを考慮する為の
構造環境の再構築部 5 低次DP漸化式適用部 6 高次DP漸化式適用部 7 ソーティング部 8 アラインメント構築部 9 LMtx値再設定部 10 スコア判定部 11 局所アラインメント結果出力部 12 UMtx値再設定部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 N末端側とC末端側の構造が入れ替わっ
    ても構造環境の表現が変化しないようにするための、ダ
    ブル・ダイナミック・プログラミング・アルゴリズムに
    よる構造局所アラインメント方法において、(a)2つ
    の蛋白質の構造の類似性を評価する際に、各アミノ酸残
    基に対し、該アミノ酸残基中の原子(CαもしくはC
    β)から、他のすべてのアミノ酸残基の原子(Cαもし
    くはCβ)へ向けてのベクトルとして構造環境を求める
    工程と、(b)前記(a)工程において構造環境を求め
    る際、アミノ酸残基iの構造環境は、N末端アミノ酸残
    基へのベクトルからi−1番目のアミノ酸残基へ向けて
    のベクトルまでを残基番号順に並べたN末端側ベクトル
    の集合と、i+1番目のアミノ酸残基へのベクトルから
    C末端アミノ酸へ向けてのベクトルまでを残基番号順に
    並べたC末端側ベクトルの集合に分ける工程と、(c)
    最初にC末端側ベクトルの集合、次いでN末端側ベクト
    ルの集合が並ぶように構造環境を再構築する工程と、
    (d)前記(c)工程で作成した構造環境を用いてダブ
    ル・ダイナミック・プログラミング・アルゴリズムによ
    り1本目の構造局所アラインメントを得る工程と、
    (e)前記1本目の構造局所アラインメントが得られた
    後、そのパス上の残基対から前後5〜10残基幅で構造
    環境の類似度(Si,j )を取り得ない値に再設定する工
    程と、(f)前記(e)工程で再設定した構造環境の類
    似度を用いて、通常取り得ない値に再設定されたSi,j
    値を持つ残基対部分はスキップしながら高次DPを再度
    計算した後、バックトラッキングすることにより、2本
    目の構造局所アラインメントを得る工程と、(g)最大
    スコアが設定値以下に到達するまで上記(e)工程及び
    (f)工程の操作を繰り返すことにより、更に他の構造
    局所アラインメントを得る工程とを施すことを特徴とす
    るダブル・ダイナミック・プログラミング・アルゴリズ
    ムによる構造局所アラインメント方法。
  2. 【請求項2】 請求項1記載のダブル・ダイナミック・
    プログラミング・アルゴリズムによる構造局所アライン
    メント方法において、計算時間を短縮する操作として、
    蛋白質の局所構造を構造環境として考慮する距離カット
    オフの導入と、アラインメントの精度向上を考慮して蛋
    白質の2次構造の情報の導入を可能としたことを特徴と
    するダブル・ダイナミック・プログラミング・アルゴリ
    ズムによる構造局所アラインメント方法。
JP31734299A 1999-11-08 1999-11-08 ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法 Withdrawn JP2001134574A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP31734299A JP2001134574A (ja) 1999-11-08 1999-11-08 ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法
EP00309830A EP1098257A2 (en) 1999-11-08 2000-11-06 Structural local alignment method using a double dynamic programming algorithm

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31734299A JP2001134574A (ja) 1999-11-08 1999-11-08 ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法

Publications (1)

Publication Number Publication Date
JP2001134574A true JP2001134574A (ja) 2001-05-18

Family

ID=18087163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31734299A Withdrawn JP2001134574A (ja) 1999-11-08 1999-11-08 ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法

Country Status (2)

Country Link
EP (1) EP1098257A2 (ja)
JP (1) JP2001134574A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005034004A1 (ja) * 2003-09-30 2006-12-14 日本電気株式会社 生体高分子の同定を支援するシステム、方法およびプログラム
JP2008225689A (ja) * 2007-03-09 2008-09-25 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7553930B2 (en) 2003-01-06 2009-06-30 Xencor, Inc. BAFF variants and methods thereof
CA2542353A1 (en) 2003-10-10 2005-04-21 Xencor, Inc. Protein based tnf-alpha variants for the treatment of tnf-alpha related disorders

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005034004A1 (ja) * 2003-09-30 2006-12-14 日本電気株式会社 生体高分子の同定を支援するシステム、方法およびプログラム
JP2008225689A (ja) * 2007-03-09 2008-09-25 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム

Also Published As

Publication number Publication date
EP1098257A2 (en) 2001-05-09

Similar Documents

Publication Publication Date Title
Pearce et al. Deep learning techniques have significantly impacted protein structure prediction and protein design
Wang et al. Analysis of deep learning methods for blind protein contact prediction in CASP12
Zhou et al. Rapid search for tertiary fragments reveals protein sequence–structure relationships
Cowtan The Buccaneer software for automated model building. 1. Tracing protein chains
KR101337094B1 (ko) 염기 서열 정렬 장치 및 그 방법
Lapidoth et al. Abdesign: A n algorithm for combinatorial backbone design guided by natural conformations and sequences
Dunbrack Jr et al. Backbone-dependent rotamer library for proteins application to side-chain prediction
Hallen et al. Dead‐end elimination with perturbations (DEEPer): A provable protein design algorithm with continuous sidechain and backbone flexibility
Jones Interactive electron-density map interpretation: from INTER to O
MacLeod et al. Deduction of probable events of lateral gene transfer through comparison of phylogenetic trees by recursive consolidation and rearrangement
Voshall et al. Next-generation transcriptome assembly: strategies and performance analysis
JPH05189518A (ja) 論理ネットワークを最適化する方法および装置
Jin et al. Antibody-antigen docking and design via hierarchical structure refinement
van Beusekom et al. Homology-based loop modeling yields more complete crystallographic protein structures
Chen et al. Automation and assessment of de novo modeling with Pathwalking in near atomic resolution cryoEM density maps
Jin et al. Antibody-antigen docking and design via hierarchical equivariant refinement
Galaktionov et al. Ab initio modeling of small, medium, and large loops in proteins
JP2001134574A (ja) ダブル・ダイナミック・プログラミング・アルゴリズムによる構造局所アラインメント方法
Xia et al. Identifying essential pairwise interactions in elastic network model using the alpha shape theory
KR20040062985A (ko) 단백질의 입체 구조 예측 장치 및 예측 방법
JP6094667B2 (ja) 化合物設計プログラム、化合物設計装置および化合物設計方法
Chen et al. Prediction of disulfide connectivity from protein sequences
Ochagavia et al. Progressive combinatorial algorithm for multiple structural alignments: application to distantly related proteins
Comin et al. PROuST: a comparison method of three-dimensional structures of proteins using indexing techniques
Zheng et al. Reconciliation of gene and species trees with polytomies

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070109