JPH10185925A - ダブル・ダイナミック・プログラミングによる構造アライメント方法 - Google Patents
ダブル・ダイナミック・プログラミングによる構造アライメント方法Info
- Publication number
- JPH10185925A JPH10185925A JP8340727A JP34072796A JPH10185925A JP H10185925 A JPH10185925 A JP H10185925A JP 8340727 A JP8340727 A JP 8340727A JP 34072796 A JP34072796 A JP 34072796A JP H10185925 A JPH10185925 A JP H10185925A
- Authority
- JP
- Japan
- Prior art keywords
- alignment
- approximation
- residue
- distance
- structural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
Landscapes
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
(57)【要約】
【課題】 精度を保つとともに、より簡易な手法で、時
間短縮を実現し得るダブル・ダイナミック・プログラミ
ングによる構造アライメント方法を提供する。 【解決手段】 まず、距離カットオフ近似を実施し(ス
テップS1)、ΔNカットオフ近似を実施する(ステッ
プS2)。そこで、前記二つの近似を用いてアライメン
トを作成し(ステップS3)、次に、得られた近似解の
ε−サブオプティマル領域を決定する(ステップS
4)。更に、ε−サブオプティマル領域内の残基対に適
用される全構造環境でのDDPを実施する(ステップS
5)。
間短縮を実現し得るダブル・ダイナミック・プログラミ
ングによる構造アライメント方法を提供する。 【解決手段】 まず、距離カットオフ近似を実施し(ス
テップS1)、ΔNカットオフ近似を実施する(ステッ
プS2)。そこで、前記二つの近似を用いてアライメン
トを作成し(ステップS3)、次に、得られた近似解の
ε−サブオプティマル領域を決定する(ステップS
4)。更に、ε−サブオプティマル領域内の残基対に適
用される全構造環境でのDDPを実施する(ステップS
5)。
Description
【0001】
【発明の属する技術分野】本発明は、蛋白質の構造や機
能、また分子進化の情報を得るための、蛋白質の構造の
比較解析を行うダブル・ダイナミック・プログラミング
による構造アライメント方法に関する。
能、また分子進化の情報を得るための、蛋白質の構造の
比較解析を行うダブル・ダイナミック・プログラミング
による構造アライメント方法に関する。
【0002】
【従来の技術】蛋白質は20種類のアミノ酸が一次元的
に連なって構成される生体高分子であり、この配列が折
り畳ってある立体構造を形成することにより、生体中に
おいて酵素活性、細胞骨格、輸送など種々の働きを示す
機能単位となって、生命現象を支えている。
に連なって構成される生体高分子であり、この配列が折
り畳ってある立体構造を形成することにより、生体中に
おいて酵素活性、細胞骨格、輸送など種々の働きを示す
機能単位となって、生命現象を支えている。
【0003】実際、生物ゲノムにコードされている遺伝
情報の大部分は蛋白質に関する情報である。近年のDN
A塩基配列決定技術や蛋白質立体構造決定技術の進歩に
伴い、莫大な量の蛋白質のアミノ酸配列、あるいは立体
構造のデータが急速に蓄積されてきている。
情報の大部分は蛋白質に関する情報である。近年のDN
A塩基配列決定技術や蛋白質立体構造決定技術の進歩に
伴い、莫大な量の蛋白質のアミノ酸配列、あるいは立体
構造のデータが急速に蓄積されてきている。
【0004】これらのデータの管理や解析のために、コ
ンピュータが分子生物学に導入され、コンピュティショ
ナル モレキュラ バイオロジィ(計算分子生物学:c
omputational molecular bi
ology)あるいは、バイオインフォーマティックス
(生命情報科学:bioinformatics)と呼
ばれる、情報科学と分子生命科学との境界領域が発達し
てきている。
ンピュータが分子生物学に導入され、コンピュティショ
ナル モレキュラ バイオロジィ(計算分子生物学:c
omputational molecular bi
ology)あるいは、バイオインフォーマティックス
(生命情報科学:bioinformatics)と呼
ばれる、情報科学と分子生命科学との境界領域が発達し
てきている。
【0005】これらの分野において、アミノ酸配列や立
体構造の座標データから、その蛋白質の構造的あるいは
機能的性質を抽出する有効な手段の一つが比較解析であ
る。祖先遺伝子を共有していたり、共通の機能的な制約
が働いている場合には、蛋白質のアミノ酸配列や立体構
造が類似することが知られている。逆に、類似配列や類
似構造を比較し、それら類似分子間の不変量あるいは変
化規則を探ることから、それらの蛋白質の構造や機能、
また分子進化の情報を得ることができる。比較解析の重
要な基盤技術の一つがアライメント(alignmen
t)である。2種類の類似配列あるいは類似構造がある
時、配列上あるいは構造上等価なアミノ酸残基を対応づ
けて並置し、対応するものがない残基にはギャップと呼
ばれる空記号を対応させる操作がアライメントである。
体構造の座標データから、その蛋白質の構造的あるいは
機能的性質を抽出する有効な手段の一つが比較解析であ
る。祖先遺伝子を共有していたり、共通の機能的な制約
が働いている場合には、蛋白質のアミノ酸配列や立体構
造が類似することが知られている。逆に、類似配列や類
似構造を比較し、それら類似分子間の不変量あるいは変
化規則を探ることから、それらの蛋白質の構造や機能、
また分子進化の情報を得ることができる。比較解析の重
要な基盤技術の一つがアライメント(alignmen
t)である。2種類の類似配列あるいは類似構造がある
時、配列上あるいは構造上等価なアミノ酸残基を対応づ
けて並置し、対応するものがない残基にはギャップと呼
ばれる空記号を対応させる操作がアライメントである。
【0006】現在、(1)配列対配列、(2)配列対構
造、(3)構造対構造の3種類のアライメントがある。
配列対配列のタイプのアライメント(1)は、配列解析
の主要な技法として広く利用されている。配列対構造の
タイプのアライメント(2)は、比較的近年にいたって
提案された手法であり、ある配列を与えられた構造に対
してフィットさせるものであるが、残基レベルの対応や
予測精度の面において、まだ問題が多い。
造、(3)構造対構造の3種類のアライメントがある。
配列対配列のタイプのアライメント(1)は、配列解析
の主要な技法として広く利用されている。配列対構造の
タイプのアライメント(2)は、比較的近年にいたって
提案された手法であり、ある配列を与えられた構造に対
してフィットさせるものであるが、残基レベルの対応や
予測精度の面において、まだ問題が多い。
【0007】上記(1)、(2)ともに、酸基対残基の
アライメントの形成のためには、後述のダイナミック・
プログラミング(dynamic programmi
ng:DP)と呼ばれるアルゴリズムを利用しているも
のが多い。構造対構造のタイプのアライメント(3)
は、やはり近年に提案された手法であるが、構造データ
解析の基盤技術として、今後その重要性が増してくるも
のと思われる。
アライメントの形成のためには、後述のダイナミック・
プログラミング(dynamic programmi
ng:DP)と呼ばれるアルゴリズムを利用しているも
のが多い。構造対構造のタイプのアライメント(3)
は、やはり近年に提案された手法であるが、構造データ
解析の基盤技術として、今後その重要性が増してくるも
のと思われる。
【0008】構造対構造のタイプのアライメント(3)
は、構造アライメント(structural ali
gnment)と呼ばれており、例えば、図25に示さ
れる。なお、図25(a)は蛋白質(Protein)
Aの構造、図25(b)は蛋白質(Protein)B
の構造を示しており、蛋白質(Protein)Aは、
A−C−E−L−S−I−S−R−N−Y−D−T−I
−P−D、蛋白質(Protein)Bは、V−A−S
−Q−I−G−W−D−E−D−I−H−L−E−P−
I−G−E−Sの構造をしている。
は、構造アライメント(structural ali
gnment)と呼ばれており、例えば、図25に示さ
れる。なお、図25(a)は蛋白質(Protein)
Aの構造、図25(b)は蛋白質(Protein)B
の構造を示しており、蛋白質(Protein)Aは、
A−C−E−L−S−I−S−R−N−Y−D−T−I
−P−D、蛋白質(Protein)Bは、V−A−S
−Q−I−G−W−D−E−D−I−H−L−E−P−
I−G−E−Sの構造をしている。
【0009】構造アライメントの構築には、上記(1)
や(2)で述べたDPに基づくものを始め、いくつかの
手法が提案されてきている。それらの手法の共通の問題
点の一つとして、構造アライメント構築には演算時間が
かかることがあげられる。ここでは、テーラーとオレン
ゴ(Taylor&Orengo)によって、1989
年に開発されたダブル・ダイナミック・プログラミング
〔double・dynamic・programmi
ng(DDP)〕に、近似を導入することにより、構造
アライメントを短時間で構築する技術を開発した。
や(2)で述べたDPに基づくものを始め、いくつかの
手法が提案されてきている。それらの手法の共通の問題
点の一つとして、構造アライメント構築には演算時間が
かかることがあげられる。ここでは、テーラーとオレン
ゴ(Taylor&Orengo)によって、1989
年に開発されたダブル・ダイナミック・プログラミング
〔double・dynamic・programmi
ng(DDP)〕に、近似を導入することにより、構造
アライメントを短時間で構築する技術を開発した。
【0010】DDPは、上記(1)や(2)のタイプの
アライメントに用いられているDPを拡張した技術であ
る。DDP理解のため、まず、図26を参照しながらD
Pについて説明する。いま、2本のアミノ酸配列を比較
する場合を考える。DPを行うためには、図26に示す
ように、二次元行列Dを用意する必要がある。
アライメントに用いられているDPを拡張した技術であ
る。DDP理解のため、まず、図26を参照しながらD
Pについて説明する。いま、2本のアミノ酸配列を比較
する場合を考える。DPを行うためには、図26に示す
ように、二次元行列Dを用意する必要がある。
【0011】2本の配列の内一方の各残基は二次元行列
Dの各行に、また他方の配列の各残基は各列に対応す
る。Dの各要素は、図26に示した漸化式D(i,j)
を解くことにより、順次決定することができる。D
(i,j)=max{s(i,j)+D(i−1,j−
1),D(i−1,j)−β,D(i,j−1)−β}
ここで、βはギャップ・ペナルティである。
Dの各行に、また他方の配列の各残基は各列に対応す
る。Dの各要素は、図26に示した漸化式D(i,j)
を解くことにより、順次決定することができる。D
(i,j)=max{s(i,j)+D(i−1,j−
1),D(i−1,j)−β,D(i,j−1)−β}
ここで、βはギャップ・ペナルティである。
【0012】この場合、式中のs(i,j)は、残基i
と残基jの類似度であり、スコアテーブル(score
table)と呼ばれるアミノ酸間の類似度のテーブ
ルから値がとられる。これは、二つのアミノ酸が類似し
ている程、大きな値をとるような数値の集合である。ま
た、Max操作の三つの引き数は、ギャップを入れず
に対角線方向の残基同士からつながる、対応する行に
ギャップを挿入、対応する列にギャップを挿入、の三
操作に対応している。これは、行列上は、対角線方向、
水平方向、垂直方向への1残基分の移動を意味してい
る。
と残基jの類似度であり、スコアテーブル(score
table)と呼ばれるアミノ酸間の類似度のテーブ
ルから値がとられる。これは、二つのアミノ酸が類似し
ている程、大きな値をとるような数値の集合である。ま
た、Max操作の三つの引き数は、ギャップを入れず
に対角線方向の残基同士からつながる、対応する行に
ギャップを挿入、対応する列にギャップを挿入、の三
操作に対応している。これは、行列上は、対角線方向、
水平方向、垂直方向への1残基分の移動を意味してい
る。
【0013】したがって、Max操作の際、どの引き数
が選ばれたかを記憶しておけば、後述のバックトラッキ
ングが容易に行える。各要素に対応して、操作を覚える
ために、Dと同じサイズのパス行列と呼ばれる二次元配
列が用いられている。図中の漸化式を解くことにより、
類似度が行列の左上から右下方向へと足しこまれる。要
素が全て決定された後に、右下の行及び列の各要素中の
最大値を有するものを探し出す。その場所から、パス行
列を利用してバックトラッキングを行うことにより、配
列間の類似度が最大になるようなパス、すなわちアライ
メントが与えられる。この時、最大類似度は配列間の類
似性が高ければ高い程大きくなる。また、この計算の時
間計算量はO(L2 M+LM2 )である。ここで、L,
Mは配列の長さを示す。
が選ばれたかを記憶しておけば、後述のバックトラッキ
ングが容易に行える。各要素に対応して、操作を覚える
ために、Dと同じサイズのパス行列と呼ばれる二次元配
列が用いられている。図中の漸化式を解くことにより、
類似度が行列の左上から右下方向へと足しこまれる。要
素が全て決定された後に、右下の行及び列の各要素中の
最大値を有するものを探し出す。その場所から、パス行
列を利用してバックトラッキングを行うことにより、配
列間の類似度が最大になるようなパス、すなわちアライ
メントが与えられる。この時、最大類似度は配列間の類
似性が高ければ高い程大きくなる。また、この計算の時
間計算量はO(L2 M+LM2 )である。ここで、L,
Mは配列の長さを示す。
【0014】DDPは、基本的にはDPと同じ手法であ
る(図27)。ただし、この時には配列の代わりに二つ
の立体構造を考える。これらの構造の各残基は、同様に
二次元行列Dの行及び列に対応する。配列アライメント
の場合と同様に漸化式を解くが、この場合のs(i,
j)はアミノ酸残基の類似度ではなく残基i及びjの構
造的環境(structural environme
nt)の類似性を表す。
る(図27)。ただし、この時には配列の代わりに二つ
の立体構造を考える。これらの構造の各残基は、同様に
二次元行列Dの行及び列に対応する。配列アライメント
の場合と同様に漸化式を解くが、この場合のs(i,
j)はアミノ酸残基の類似度ではなく残基i及びjの構
造的環境(structural environme
nt)の類似性を表す。
【0015】図28は蛋白質中の残基iの構造的環境の
定義を示している。残基iのβ炭素から、他の全ての残
基のβ炭素へのベクトルを考え、それらのベクトルのN
端からC端方向へと順序つけられた集合を、残基iの構
造的環境とする。すなわち、構造的環境とは、蛋白質中
における残基iの他の残基に対する相対的位置を意味す
る。
定義を示している。残基iのβ炭素から、他の全ての残
基のβ炭素へのベクトルを考え、それらのベクトルのN
端からC端方向へと順序つけられた集合を、残基iの構
造的環境とする。すなわち、構造的環境とは、蛋白質中
における残基iの他の残基に対する相対的位置を意味す
る。
【0016】それでは、二つの構造的環境が与えられた
時、その類似性は、どのようにして評価するか、その手
法について説明する。テーラーとオレンゴは、ここでも
DPを利用している。図29に示すように、構造的環境
を構成する各ベクトルを、二次元行列Dの各行および各
列に対応させ、残基iとjが並置されるという条件のも
とで漸化式を解く。
時、その類似性は、どのようにして評価するか、その手
法について説明する。テーラーとオレンゴは、ここでも
DPを利用している。図29に示すように、構造的環境
を構成する各ベクトルを、二次元行列Dの各行および各
列に対応させ、残基iとjが並置されるという条件のも
とで漸化式を解く。
【0017】この時、s(i,j)は図29に示すよう
に二つのベクトルの類似度として計算される。すると、
配列アライメントの説明で述べたように、行列Dの右下
の要素中の最大スコアを見いだせる。配列アライメント
の場合、この最大スコアは、二つの配列の類似度を表し
ていた。類推により、構造的環境の比較においては、最
大スコアは二つの構造的環境の類似性を示している。こ
の値を図27に示すs(i,j)として利用する。
に二つのベクトルの類似度として計算される。すると、
配列アライメントの説明で述べたように、行列Dの右下
の要素中の最大スコアを見いだせる。配列アライメント
の場合、この最大スコアは、二つの配列の類似度を表し
ていた。類推により、構造的環境の比較においては、最
大スコアは二つの構造的環境の類似性を示している。こ
の値を図27に示すs(i,j)として利用する。
【0018】図30は構造アライメントの手法をまとめ
たものである。この図に示すように、残基対残基のアラ
イメントを作成するためDPが行われる。この時のs
(i,j)は、構造的環境の類似度として、やはりDP
で求められる。すなわち、構造的環境のアライメントの
ために、二つの異なるステップでDPが用いられてお
り、このため、この方法はDDPと呼ばれている。
たものである。この図に示すように、残基対残基のアラ
イメントを作成するためDPが行われる。この時のs
(i,j)は、構造的環境の類似度として、やはりDP
で求められる。すなわち、構造的環境のアライメントの
ために、二つの異なるステップでDPが用いられてお
り、このため、この方法はDDPと呼ばれている。
【0019】ここで、各残基の対応をつけるためのDP
は、図30(a)に示すように、アッパーレベル(up
per−level)DP、構造的環境比較のためのD
Pは、図30(b)に示すように、ローワーレベル(l
ower level)DPと呼ばれる。この時の時間
計算量は、O(L3 M2 +L2 M3 )となり、構造アラ
イメントが、配列アライメントに対して時間を要するこ
とがわかる。
は、図30(a)に示すように、アッパーレベル(up
per−level)DP、構造的環境比較のためのD
Pは、図30(b)に示すように、ローワーレベル(l
ower level)DPと呼ばれる。この時の時間
計算量は、O(L3 M2 +L2 M3 )となり、構造アラ
イメントが、配列アライメントに対して時間を要するこ
とがわかる。
【0020】この計算量は、ギャップペナルティの与え
方によっては、ある程度抑えることができるが、それで
も構造的環境の大きな制約条件となっている。このた
め、テーラーとオレンゴは、彼等の開発した手法に様々
な改良を施している。それについて、図31を参照しな
がら説明する。
方によっては、ある程度抑えることができるが、それで
も構造的環境の大きな制約条件となっている。このた
め、テーラーとオレンゴは、彼等の開発した手法に様々
な改良を施している。それについて、図31を参照しな
がら説明する。
【0021】まず、図31に示すように、彼等は窓(w
indow)を導入し、比較する残基対を制限した。次
に、彼等は、窓(window)中の類似した表面積と
二面角を有する残基対のみにDDPを適用した。すなわ
ち、図31(a)に示すように、アッパーレベルマトリ
ックスに窓(window)を導入し、図31(b)に
示すように、類似した表面積及び二面角での残基対の選
択を行い、図31(c)に示すように、これらの性質の
類似した残基対のみにDDPを適用する。
indow)を導入し、比較する残基対を制限した。次
に、彼等は、窓(window)中の類似した表面積と
二面角を有する残基対のみにDDPを適用した。すなわ
ち、図31(a)に示すように、アッパーレベルマトリ
ックスに窓(window)を導入し、図31(b)に
示すように、類似した表面積及び二面角での残基対の選
択を行い、図31(c)に示すように、これらの性質の
類似した残基対のみにDDPを適用する。
【0022】最も近年のアプローチでは、まず、二次構
造をアライメントして、並置された二次構造内部で類似
した表面積と二面角を有する残基対のみにDDPを適用
した。
造をアライメントして、並置された二次構造内部で類似
した表面積と二面角を有する残基対のみにDDPを適用
した。
【0023】
【発明が解決しようとする課題】このように、テーラー
とオレンゴによる構造アライメント方法での主要な演算
時間短縮のための戦略は、残基対の選択にある。その方
法により、演算時間の短縮は実現できるが、表面積や二
面角の演算、また、二次構造の同定とそのアライメント
など、実際の構造アライメントの前処理が複雑で時間を
とられてしまう。
とオレンゴによる構造アライメント方法での主要な演算
時間短縮のための戦略は、残基対の選択にある。その方
法により、演算時間の短縮は実現できるが、表面積や二
面角の演算、また、二次構造の同定とそのアライメント
など、実際の構造アライメントの前処理が複雑で時間を
とられてしまう。
【0024】本発明は、上記問題点を除去し、精度を保
つとともに、より簡易な手法で、時間短縮を実現し得る
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法を提供することを目的とする。
つとともに、より簡易な手法で、時間短縮を実現し得る
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法を提供することを目的とする。
【0025】
【課題を解決するための手段】本発明は、上記目的を達
成するために、 〔1〕ダブル・ダイナミック・プログラミングによる構
造アライメント方法において、蛋白質中の残基iの側鎖
を中心としてその側鎖の中心間距離が所定距離r以内に
ある残基のみを、残基iの構造的環境の構成要素とする
距離カットオフ近似を行う工程と、前記距離カットオフ
近似による類似した局所環境をもつ残基対のみを選択的
に比較する、ΔNカットオフ近似を行う工程とを施すよ
うにしたものである。
成するために、 〔1〕ダブル・ダイナミック・プログラミングによる構
造アライメント方法において、蛋白質中の残基iの側鎖
を中心としてその側鎖の中心間距離が所定距離r以内に
ある残基のみを、残基iの構造的環境の構成要素とする
距離カットオフ近似を行う工程と、前記距離カットオフ
近似による類似した局所環境をもつ残基対のみを選択的
に比較する、ΔNカットオフ近似を行う工程とを施すよ
うにしたものである。
【0026】〔2〕上記〔1〕記載のダブル・ダイナミ
ック・プログラミングによる構造アライメント方法にお
いて、前記所定距離rを10〜15Å、ΔNを10に設
定するようにしたものである。 〔3〕上記〔1〕記載のダブル・ダイナミック・プログ
ラミングによる構造アライメント方法により決定された
ε−サブオプティマル領域(ε−suboptimal
region)内の残基対のみに限って、近似を導入
しないでダブル・ダイナミック・プログラミングを行う
工程とを施すようにしたものである。
ック・プログラミングによる構造アライメント方法にお
いて、前記所定距離rを10〜15Å、ΔNを10に設
定するようにしたものである。 〔3〕上記〔1〕記載のダブル・ダイナミック・プログ
ラミングによる構造アライメント方法により決定された
ε−サブオプティマル領域(ε−suboptimal
region)内の残基対のみに限って、近似を導入
しないでダブル・ダイナミック・プログラミングを行う
工程とを施すようにしたものである。
【0027】上記のように構成したので、精度を保つと
ともに、より簡易な手法で、時間短縮を実現し得るダブ
ル・ダイナミック・プログラミングによる構造アライメ
ント方法を提供することができる。
ともに、より簡易な手法で、時間短縮を実現し得るダブ
ル・ダイナミック・プログラミングによる構造アライメ
ント方法を提供することができる。
【0028】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照しながら詳細に説明する。まず、本発明の
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法について詳細に説明する。本発明の方法で
は2種類の近似の導入を行う。また、こられの近似のも
とで、必要に応じてアライメントの精度を保つため、2
段階アライメントの手法を用いたプログラムを開発し
た。
て図面を参照しながら詳細に説明する。まず、本発明の
ダブル・ダイナミック・プログラミングによる構造アラ
イメント方法について詳細に説明する。本発明の方法で
は2種類の近似の導入を行う。また、こられの近似のも
とで、必要に応じてアライメントの精度を保つため、2
段階アライメントの手法を用いたプログラムを開発し
た。
【0029】(A)距離カットオフ近似(Distan
ce Cutoff Approximation) テーラーとオレンゴ等は、ある蛋白質中の残基の構造的
環境を表現する際に、その蛋白質中の他のすべての残基
を利用した。このため、ローワーレベルDPの一つ一つ
に、その配列アライメントと同じ計算(演算)量が要求
され、時間がかかる。
ce Cutoff Approximation) テーラーとオレンゴ等は、ある蛋白質中の残基の構造的
環境を表現する際に、その蛋白質中の他のすべての残基
を利用した。このため、ローワーレベルDPの一つ一つ
に、その配列アライメントと同じ計算(演算)量が要求
され、時間がかかる。
【0030】本発明では、距離カットオフ近似の導入に
より、ローワーレベルDPの演算時間の短縮を行った。
図1に距離カットオフの概念がまとめられている。図1
において、100は残基iの側鎖を中心とした半径rの
球である。この球100の中心を、残基iの側鎖の中心
におく。この場合、側鎖の中心間距離がr以内にある残
基のみを、残基iの構造的環境の構成要素とする。この
近似的な構造的環境を局所環境(local envi
ronment)と呼ぶ。局所環境は、側鎖の中心間の
距離の集合によって表現される。局所環境間の類似性
は、オリジナルDDPの場合と同様、DPによって演算
される。これが本手法におけるローワーレベルDPとな
る。球の半径rをカットオフ距離と呼ぶ。
より、ローワーレベルDPの演算時間の短縮を行った。
図1に距離カットオフの概念がまとめられている。図1
において、100は残基iの側鎖を中心とした半径rの
球である。この球100の中心を、残基iの側鎖の中心
におく。この場合、側鎖の中心間距離がr以内にある残
基のみを、残基iの構造的環境の構成要素とする。この
近似的な構造的環境を局所環境(local envi
ronment)と呼ぶ。局所環境は、側鎖の中心間の
距離の集合によって表現される。局所環境間の類似性
は、オリジナルDDPの場合と同様、DPによって演算
される。これが本手法におけるローワーレベルDPとな
る。球の半径rをカットオフ距離と呼ぶ。
【0031】(B)ΔNカットオフ近似(ΔN cut
off Approximation) 二つの局所環境について見ると、もし、この二つが類似
していれば、それらを構成する残基の数もまた、類似す
るものと期待される。ΔNカットオフ近似は、このよう
な考えに立って導入された。
off Approximation) 二つの局所環境について見ると、もし、この二つが類似
していれば、それらを構成する残基の数もまた、類似す
るものと期待される。ΔNカットオフ近似は、このよう
な考えに立って導入された。
【0032】図2に、その方法がまとめられている。蛋
白質Aの残基iの局所環境は、それぞれ残基iに対して
N端にある残基と、C端にある残基に分割され、それぞ
れの個数をNn(i,A),Nc(i,A)で表す。同
様に、蛋白質Bの残基jの局所環境についても、Nn
(j,B),Nc(j,B)が定義できる。
白質Aの残基iの局所環境は、それぞれ残基iに対して
N端にある残基と、C端にある残基に分割され、それぞ
れの個数をNn(i,A),Nc(i,A)で表す。同
様に、蛋白質Bの残基jの局所環境についても、Nn
(j,B),Nc(j,B)が定義できる。
【0033】残基i,j間の局所環境の比較に際して、
まず、Nn(i,A)とNn(j,B)およびNc
(i,A)とNc(j,B)が比較される。もし、どち
らか一方でも、その差が与えられ、閾値(thresh
old)ΔN以上であれば、その局所環境は似ていない
とみなして、ローワーレベルDPをスキップし、アッパ
ーレベルDPでのs(i,j)=0.0とする。そうで
なければ、s(i,j)は、ローワーレベルDPで演算
される。これにより、類似した局所環境をもつ残基対の
みを選択的に比較できる。
まず、Nn(i,A)とNn(j,B)およびNc
(i,A)とNc(j,B)が比較される。もし、どち
らか一方でも、その差が与えられ、閾値(thresh
old)ΔN以上であれば、その局所環境は似ていない
とみなして、ローワーレベルDPをスキップし、アッパ
ーレベルDPでのs(i,j)=0.0とする。そうで
なければ、s(i,j)は、ローワーレベルDPで演算
される。これにより、類似した局所環境をもつ残基対の
みを選択的に比較できる。
【0034】(C)2段階アライメント(2−Step
Alignment) 先述の二つの近似の導入により、演算時間は短縮され、
それなりの効果があげられるが、アライメントの精度は
低下する。そこで、図3に示すような方法で、近似によ
るアライメントをもとにアライメントを作成し直すこと
により、精度を保つようにした。
Alignment) 先述の二つの近似の導入により、演算時間は短縮され、
それなりの効果があげられるが、アライメントの精度は
低下する。そこで、図3に示すような方法で、近似によ
るアライメントをもとにアライメントを作成し直すこと
により、精度を保つようにした。
【0035】ここに、本発明のダブル・ダイナミック・
プログラミングによる構造アライメントのフローは、図
3に示すように、 (1)まず、距離カットオフ近似を実施する(ステップ
S1)。 (2)次に、ΔNカットオフ近似を実施する(ステップ
S2)。 (3)そこで、上記(1)、(2)の近似を用いて、ア
ライメントを作成する(ステップS3)。
プログラミングによる構造アライメントのフローは、図
3に示すように、 (1)まず、距離カットオフ近似を実施する(ステップ
S1)。 (2)次に、ΔNカットオフ近似を実施する(ステップ
S2)。 (3)そこで、上記(1)、(2)の近似を用いて、ア
ライメントを作成する(ステップS3)。
【0036】(4)次に、得られた近似解のε−サブオ
プティマル領域を決定する(ステップS4)。 (5)ε−サブオプティマル領域内の残基対に適用され
る全構造環境でのDDPを実施する(ステップS5)。
図4および図5にε−サブオプティマル領域の説明がな
されている。
プティマル領域を決定する(ステップS4)。 (5)ε−サブオプティマル領域内の残基対に適用され
る全構造環境でのDDPを実施する(ステップS5)。
図4および図5にε−サブオプティマル領域の説明がな
されている。
【0037】最適なアライメントは、図4に示すよう
に、二次元行列Dの中の右下方要素中、最大値を有する
ものからのトレースバックにより得られた。当然のこと
ながら、他の右下方要素は最大値より低い値を有してお
り、またそこからトレースバックすることにより、多数
の可能な他のアライメント(パス)が得られる。サブオ
プティマル領域とは、最大値からεの範囲内のスコアを
有するパスの集合であり、広く広がった領域はアライメ
ントの信頼性が低く、ほぼユニークにパスが決定されて
いるところでは、アライメントの信頼性は高いと考えら
れる。近似導入によって得られたアライメントは、近似
を用いないで得られたアライメントに類似していたの
で、近似を用いないアライメントのためのパスは、近似
アライメントのパスの近傍にあることが期待され、それ
はεを適当にとれば、ε−サブオプティマル領域に含ま
れると考えられる。
に、二次元行列Dの中の右下方要素中、最大値を有する
ものからのトレースバックにより得られた。当然のこと
ながら、他の右下方要素は最大値より低い値を有してお
り、またそこからトレースバックすることにより、多数
の可能な他のアライメント(パス)が得られる。サブオ
プティマル領域とは、最大値からεの範囲内のスコアを
有するパスの集合であり、広く広がった領域はアライメ
ントの信頼性が低く、ほぼユニークにパスが決定されて
いるところでは、アライメントの信頼性は高いと考えら
れる。近似導入によって得られたアライメントは、近似
を用いないで得られたアライメントに類似していたの
で、近似を用いないアライメントのためのパスは、近似
アライメントのパスの近傍にあることが期待され、それ
はεを適当にとれば、ε−サブオプティマル領域に含ま
れると考えられる。
【0038】そこで、図5に示すように、決定されたε
−サブオプティマル領域内の残基対のみに限って、近似
を導入しないで〔No distance cutf
f、No ΔN cutoff、ここでは、全構造環境
(Full Structural Environm
ent(FSE)と記述〕DDPを適用した。ε−サブ
オプティマル領域の決定には、Vingron&Arg
osのアルゴリズムを使用した。
−サブオプティマル領域内の残基対のみに限って、近似
を導入しないで〔No distance cutf
f、No ΔN cutoff、ここでは、全構造環境
(Full Structural Environm
ent(FSE)と記述〕DDPを適用した。ε−サブ
オプティマル領域の決定には、Vingron&Arg
osのアルゴリズムを使用した。
【0039】また、通常の配列解析の場合と異なり、s
(i,j)の値がカットオフ距離によって変化するた
め、εを定数として与えることが困難であったため、近
似アライメント演算時のs(i,j)の標準偏差(σ)
を求め、εの単位として採用した。本発明の適用の結果
とその考察を行う。
(i,j)の値がカットオフ距離によって変化するた
め、εを定数として与えることが困難であったため、近
似アライメント演算時のs(i,j)の標準偏差(σ)
を求め、εの単位として採用した。本発明の適用の結果
とその考察を行う。
【0040】近似の導入の効果と適切なカットオフ距離
およびΔNの組み合わせの決定近似の導入の効果は、ア
ライメントの精度と演算時間の2点について調査され
た。テーブル1に示す4対の蛋白質に本手法を適用し
て、その結果を調べた。図6〜図9は、近似とアライメ
ント精度を調査したものである。アライメントの精度
は、距離RMSD(ルート・ミーン・スクェア・ディス
タンス)によって計測された。縦軸が距離RMSDを表
し、横軸はカットオフ距離である。ΔNの値によって、
プロットを結ぶ線の種類が変えてある。また、この計測
は、カットオフ距離が5〜20Åまでは1Å毎に、それ
以降は5Å毎に計測した。図中一番右端のプロットに対
応するカットオフ距離は、全分子が距離カットオフの球
に収まるようなサイズにとられている(すなわち、距離
カットオフなし)。
およびΔNの組み合わせの決定近似の導入の効果は、ア
ライメントの精度と演算時間の2点について調査され
た。テーブル1に示す4対の蛋白質に本手法を適用し
て、その結果を調べた。図6〜図9は、近似とアライメ
ント精度を調査したものである。アライメントの精度
は、距離RMSD(ルート・ミーン・スクェア・ディス
タンス)によって計測された。縦軸が距離RMSDを表
し、横軸はカットオフ距離である。ΔNの値によって、
プロットを結ぶ線の種類が変えてある。また、この計測
は、カットオフ距離が5〜20Åまでは1Å毎に、それ
以降は5Å毎に計測した。図中一番右端のプロットに対
応するカットオフ距離は、全分子が距離カットオフの球
に収まるようなサイズにとられている(すなわち、距離
カットオフなし)。
【0041】これらの図に示すように、いずれの蛋白質
でも、ΔNの値によらず、カットオフ距離が5〜15Å
までは、ほぼ同じようなプロットが得られている。カッ
トオフ距離の増加に伴い、まず急激に距離RMSDが減
少し、その後、10〜15Åまでは、ゆっくりと減少す
る。しかし、10〜15Åまでの距離RMSDは、FS
EのもとでDDPを適用した場合の距離RMSDに近い
値を持っていた。
でも、ΔNの値によらず、カットオフ距離が5〜15Å
までは、ほぼ同じようなプロットが得られている。カッ
トオフ距離の増加に伴い、まず急激に距離RMSDが減
少し、その後、10〜15Åまでは、ゆっくりと減少す
る。しかし、10〜15Åまでの距離RMSDは、FS
EのもとでDDPを適用した場合の距離RMSDに近い
値を持っていた。
【0042】また、15Å以降でのRMSDは、ΔNカ
ットオフが導入されない場合には、蛋白によらず、ゆっ
くりと減少するという傾向を示した。ところが、ΔNカ
ットオフの導入により、プロットの挙動は蛋白ごとに大
きく変化した。あるものは、ゆっくりと減少し、ΔNカ
ットオフを導入しない場合と同じ挙動を示したのに対
し、他のものは急激にRMSDが増加した。
ットオフが導入されない場合には、蛋白によらず、ゆっ
くりと減少するという傾向を示した。ところが、ΔNカ
ットオフの導入により、プロットの挙動は蛋白ごとに大
きく変化した。あるものは、ゆっくりと減少し、ΔNカ
ットオフを導入しない場合と同じ挙動を示したのに対
し、他のものは急激にRMSDが増加した。
【0043】原因として、カットオフ距離が増加した場
合、挿入や欠失に関連する残基が多く含まれることにな
るため、構造的に等価な残基であっても、ΔNカットオ
フによってs(i,j)が正しく評価されないためであ
ると考えられる(図10参照)。いずれにせよ、カット
オフ距離を10〜15Å以内に抑えれば、このような効
果は抑えられ、しかもアライメント精度も平均的には高
いものが得られると期待される。
合、挿入や欠失に関連する残基が多く含まれることにな
るため、構造的に等価な残基であっても、ΔNカットオ
フによってs(i,j)が正しく評価されないためであ
ると考えられる(図10参照)。いずれにせよ、カット
オフ距離を10〜15Å以内に抑えれば、このような効
果は抑えられ、しかもアライメント精度も平均的には高
いものが得られると期待される。
【0044】このような選択は、演算時間の観点からも
支持される(図11〜図14)。これらの図では縦軸は
中央処理装置の処理時間(CPUタイム)、横軸はカッ
トオフ距離である。CPUタイムはカットオフ距離の増
加に伴い演算時間は増加する。ΔNカットオフの導入に
より、演算時間の減少がみられる。またΔNが小さいほ
ど演算時間も短縮された。図中右端のプロットに対応す
るカットオフ距離は先述の通りであるので、ΔNカット
オフを導入しない場合の実線中の右端のプロットはFS
EでDDPを適用した場合のCPUタイムに対応する。
このCPUタイムとの比較により、二つの近似によっ
て、演算時間が劇的に減少していることがわかる。
支持される(図11〜図14)。これらの図では縦軸は
中央処理装置の処理時間(CPUタイム)、横軸はカッ
トオフ距離である。CPUタイムはカットオフ距離の増
加に伴い演算時間は増加する。ΔNカットオフの導入に
より、演算時間の減少がみられる。またΔNが小さいほ
ど演算時間も短縮された。図中右端のプロットに対応す
るカットオフ距離は先述の通りであるので、ΔNカット
オフを導入しない場合の実線中の右端のプロットはFS
EでDDPを適用した場合のCPUタイムに対応する。
このCPUタイムとの比較により、二つの近似によっ
て、演算時間が劇的に減少していることがわかる。
【0045】これらの結果を考慮し、距離カットオフ
は、10〜15Å内の適当な値に設定し、ΔNは10に
設定すると、時間、精度をほぼ満足するアライメントが
得られると期待される。図15〜図21は、カット距離
を12Å、ΔNは10としてテーブル1(図15)の四
つのケースに適用した場合のアライメントを示してい
る。すなわち、ケース1〔β−蛋白質 7fabl,7
fabh(図16参照)〕、ケース2〔β−蛋白質 1
mup,1epb(図17参照)〕、ケース3〔α−蛋
白質 1mbc,1gdi(図18参照)、ケース4
〔α−蛋白質 1mbc,1cpc(図19参照)〕、
テーブル2(図20)は、そのアライメントの、CPU
タイム,RMSD,FSEのもとでDDPを適用した場
合のアライメントに対する一致性(identity)
を示している。参考のため、FSEでDDPを適用した
場合のCPU−timeおよび、RSMDが示されてい
る。FSEでDDPを適用したアライメントが、構造ア
ライメントとして正解である保証はないが、一般的にそ
のRMSDは低く、また二次構造が適切にアライメント
されていることが多いことから、ここではこれを仮の正
解として参照することにした。テーブル2(図20)に
示すように、近似の導入により演算時間は短縮された
が、アライメントの精度は落ちてしまった。
は、10〜15Å内の適当な値に設定し、ΔNは10に
設定すると、時間、精度をほぼ満足するアライメントが
得られると期待される。図15〜図21は、カット距離
を12Å、ΔNは10としてテーブル1(図15)の四
つのケースに適用した場合のアライメントを示してい
る。すなわち、ケース1〔β−蛋白質 7fabl,7
fabh(図16参照)〕、ケース2〔β−蛋白質 1
mup,1epb(図17参照)〕、ケース3〔α−蛋
白質 1mbc,1gdi(図18参照)、ケース4
〔α−蛋白質 1mbc,1cpc(図19参照)〕、
テーブル2(図20)は、そのアライメントの、CPU
タイム,RMSD,FSEのもとでDDPを適用した場
合のアライメントに対する一致性(identity)
を示している。参考のため、FSEでDDPを適用した
場合のCPU−timeおよび、RSMDが示されてい
る。FSEでDDPを適用したアライメントが、構造ア
ライメントとして正解である保証はないが、一般的にそ
のRMSDは低く、また二次構造が適切にアライメント
されていることが多いことから、ここではこれを仮の正
解として参照することにした。テーブル2(図20)に
示すように、近似の導入により演算時間は短縮された
が、アライメントの精度は落ちてしまった。
【0046】2段階アライメントの効果 テーラーとオレンゴ等も、選択残基のみへのDDPの適
用では、アライメント精度が落ちることから、スコアに
関して上位20個のパスを選び、それに再度DDPを適
用することを試みている。本発明も、その手法になら
い、アライメント精度を落とさないために、2段階での
アライメントを試みた。テーブルの4つのケースについ
て、アライメントを行った結果がテーブル3(図21)
に示されている。このとき、最初の近似アライメント
は、カットオフ距離を12Å、ΔNは10として求め
た。また、サブオプティマル領域のためのεは2σとし
た。演算時間は、近似演算よりもやや増加したが、得ら
れたアライメントは、FSEでDDPを適用したもの
と、等価が極めて近いものとなった。
用では、アライメント精度が落ちることから、スコアに
関して上位20個のパスを選び、それに再度DDPを適
用することを試みている。本発明も、その手法になら
い、アライメント精度を落とさないために、2段階での
アライメントを試みた。テーブルの4つのケースについ
て、アライメントを行った結果がテーブル3(図21)
に示されている。このとき、最初の近似アライメント
は、カットオフ距離を12Å、ΔNは10として求め
た。また、サブオプティマル領域のためのεは2σとし
た。演算時間は、近似演算よりもやや増加したが、得ら
れたアライメントは、FSEでDDPを適用したもの
と、等価が極めて近いものとなった。
【0047】上記から明らかなように、二つの手法は、
目的に応じて使い分けていくことにより、効果的な活用
が期待される。精度よりも演算速度が重視されるような
研究(例えばデータベース検索やマルチプルアライメン
トのためのガイドツリー(guide−tree)の構
築のためには、二つの近似を導入したアライメントで十
分だと考えられる。
目的に応じて使い分けていくことにより、効果的な活用
が期待される。精度よりも演算速度が重視されるような
研究(例えばデータベース検索やマルチプルアライメン
トのためのガイドツリー(guide−tree)の構
築のためには、二つの近似を導入したアライメントで十
分だと考えられる。
【0048】一方、厳密な残基対残基の対応が要求され
るような研究では、2段アライメントを利用すれば良
い。先に述べたようにDPは、配列解析の分野で多様な
拡張がなされており、本発明の手法もそれにならうこと
により、さらなる発展が期待される。以上のような方法
により、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るが、その方法を整理するとともに、そ
の実施するハード面から説明する。
るような研究では、2段アライメントを利用すれば良
い。先に述べたようにDPは、配列解析の分野で多様な
拡張がなされており、本発明の手法もそれにならうこと
により、さらなる発展が期待される。以上のような方法
により、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るが、その方法を整理するとともに、そ
の実施するハード面から説明する。
【0049】図22は本発明のダブル・ダイナミック・
プログラミングによる構造アライメントのハード的構成
図(その1)、図23はそのダブル・ダイナミック・プ
ログラミングによる構造アライメントのハード的構成図
(その2−1)、図24はそのダブル・ダイナミック・
プログラミングによる構造アライメントのハード的構成
図(その2−2)である。
プログラミングによる構造アライメントのハード的構成
図(その1)、図23はそのダブル・ダイナミック・プ
ログラミングによる構造アライメントのハード的構成図
(その2−1)、図24はそのダブル・ダイナミック・
プログラミングによる構造アライメントのハード的構成
図(その2−2)である。
【0050】図22において、1は蛋白質立体構造座標
データ入力部、2は座標データの残基対の側鎖の中心間
距離への変換部、3は距離カットオフ近似による局所環
境構築部、4は残基アライメントのための高レベルDP
マッチング部、5は比較マトリクスの各要素の決定部、
6は局所環境比較部であり、この局所環境比較部6で
は、ΔNカットオフ条件を判断して、Yesの場合に
は、局所環境類似度を0.0に設定し、Noの場合に
は、局所環境類似度は低レベルDPで演算する。7は低
レベルDP用漸化式適用部、8は高レベルDP用漸化式
適用部、9はバックトラッキングによるアライメント構
築部、10はアライメント出力部である。
データ入力部、2は座標データの残基対の側鎖の中心間
距離への変換部、3は距離カットオフ近似による局所環
境構築部、4は残基アライメントのための高レベルDP
マッチング部、5は比較マトリクスの各要素の決定部、
6は局所環境比較部であり、この局所環境比較部6で
は、ΔNカットオフ条件を判断して、Yesの場合に
は、局所環境類似度を0.0に設定し、Noの場合に
は、局所環境類似度は低レベルDPで演算する。7は低
レベルDP用漸化式適用部、8は高レベルDP用漸化式
適用部、9はバックトラッキングによるアライメント構
築部、10はアライメント出力部である。
【0051】そこで、ダブル・ダイナミック・プログラ
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部1から
蛋白質立体構造座標データが入力され、座標データの残
基対の側鎖の中心間距離への変換部2で座標データの残
基対の側鎖の中心間距離が求められ、距離カットオフ近
似による局所環境構築部3で距離カットオフ近似による
局所環境構築される。
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部1から
蛋白質立体構造座標データが入力され、座標データの残
基対の側鎖の中心間距離への変換部2で座標データの残
基対の側鎖の中心間距離が求められ、距離カットオフ近
似による局所環境構築部3で距離カットオフ近似による
局所環境構築される。
【0052】また、残基アライメントのための高レベル
DPマッチング部4においては、比較マトリクスの各要
素の決定部5において、局所環境比較部6による局所環
境比較が行われる。つまり、ΔNカットオフ条件を判断
して、Yesの場合には、局所環境類似度を0.0に設
定し、Noの場合には、局所環境類似度は低レベルDP
で演算し、次いで、低レベルDP用漸化式適用部7で低
レベルDP用漸化式の適用を実行する。更に、高レベル
DP用漸化式適用部8で高レベルDP用漸化式の適用を
実行する。次いで、バックトラッキングによるアライメ
ント構築部9においてバックトラッキングによるアライ
メントの構築を行う。
DPマッチング部4においては、比較マトリクスの各要
素の決定部5において、局所環境比較部6による局所環
境比較が行われる。つまり、ΔNカットオフ条件を判断
して、Yesの場合には、局所環境類似度を0.0に設
定し、Noの場合には、局所環境類似度は低レベルDP
で演算し、次いで、低レベルDP用漸化式適用部7で低
レベルDP用漸化式の適用を実行する。更に、高レベル
DP用漸化式適用部8で高レベルDP用漸化式の適用を
実行する。次いで、バックトラッキングによるアライメ
ント構築部9においてバックトラッキングによるアライ
メントの構築を行う。
【0053】最後に、そのアライメントの結果をアライ
メント出力部10より出力する。図23及び図24にお
いて、11は蛋白質立体構造座標データ入力部、12は
座標データの残基対の側鎖の中心間距離への変換部、1
3は距離カットオフ近似による局所環境構築部、14は
近似アライメントのための高レベルDPマッチング部、
15は比較マトリクスの各要素の決定部、16は局所環
境比較部である。
メント出力部10より出力する。図23及び図24にお
いて、11は蛋白質立体構造座標データ入力部、12は
座標データの残基対の側鎖の中心間距離への変換部、1
3は距離カットオフ近似による局所環境構築部、14は
近似アライメントのための高レベルDPマッチング部、
15は比較マトリクスの各要素の決定部、16は局所環
境比較部である。
【0054】この局所環境比較部16では、ΔNカット
オフ条件を判断して、Yesの場合には、局所環境類似
度を0.0に設定し、Noの場合には、局所環境類似度
は低レベルDPで演算する。17は低レベルDP用漸化
式適用部、18は高レベルDP用漸化式適用部、19は
構造環境類似度の標準偏差演算部、20はε−サブオプ
ティマル領域決定部、21は近似によらない構造環境決
定部、22は残基アライメントのための高レベルDPマ
ッチング部、23はε−サブオプティマル領域の各要素
の決定部、24は構造環境比較部、25は低レベルDP
用漸化式適用部、26は高レベルDP用漸化式適用部、
27はバックトラッキングによるアライメント構築部、
28はアライメント出力部である。
オフ条件を判断して、Yesの場合には、局所環境類似
度を0.0に設定し、Noの場合には、局所環境類似度
は低レベルDPで演算する。17は低レベルDP用漸化
式適用部、18は高レベルDP用漸化式適用部、19は
構造環境類似度の標準偏差演算部、20はε−サブオプ
ティマル領域決定部、21は近似によらない構造環境決
定部、22は残基アライメントのための高レベルDPマ
ッチング部、23はε−サブオプティマル領域の各要素
の決定部、24は構造環境比較部、25は低レベルDP
用漸化式適用部、26は高レベルDP用漸化式適用部、
27はバックトラッキングによるアライメント構築部、
28はアライメント出力部である。
【0055】そこで、ダブル・ダイナミック・プログラ
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部11か
ら蛋白質立体構造座標データが入力され、座標データの
残基対の側鎖の中心間距離への変換部12で座標データ
の残基対の側鎖の中心間距離が求められ、距離カットオ
フ近似による局所環境構築部13で距離カットオフ近似
による局所環境構築される。
ミングによる構造アライメントは、矢印のように実行さ
れる。つまり、蛋白質立体構造座標データ入力部11か
ら蛋白質立体構造座標データが入力され、座標データの
残基対の側鎖の中心間距離への変換部12で座標データ
の残基対の側鎖の中心間距離が求められ、距離カットオ
フ近似による局所環境構築部13で距離カットオフ近似
による局所環境構築される。
【0056】なお、座標データの残基対の側鎖の中心間
距離への変換部12での処理が済むと、近似によらない
構造環境決定部21において、近似によらない構造環境
の決定を行い、残基アライメントのための高レベルDP
マッチング部22における処理を行うようにしてもよ
い。また、近似アライメントのための高レベルDPマッ
チング部14においては、比較マトリクスの各要素の決
定部15において、局所環境比較部16による局所環境
比較が行われる。つまり、ΔNカットオフ条件を判断し
て、Yesの場合には、局所環境類似度を0.0に設定
し、Noの場合には、局所環境類似度は低レベルDPで
演算し、次いで、低レベルDP用漸化式適用部17で低
レベルDP用漸化式の適用を実行する。更に、高レベル
DP用漸化式適用部18により高レベルDP用漸化式の
適用を実行する。次いで、ε−サブオプティマル領域の
決定部20でε−サブオプティマル領域の決定を行う。
距離への変換部12での処理が済むと、近似によらない
構造環境決定部21において、近似によらない構造環境
の決定を行い、残基アライメントのための高レベルDP
マッチング部22における処理を行うようにしてもよ
い。また、近似アライメントのための高レベルDPマッ
チング部14においては、比較マトリクスの各要素の決
定部15において、局所環境比較部16による局所環境
比較が行われる。つまり、ΔNカットオフ条件を判断し
て、Yesの場合には、局所環境類似度を0.0に設定
し、Noの場合には、局所環境類似度は低レベルDPで
演算し、次いで、低レベルDP用漸化式適用部17で低
レベルDP用漸化式の適用を実行する。更に、高レベル
DP用漸化式適用部18により高レベルDP用漸化式の
適用を実行する。次いで、ε−サブオプティマル領域の
決定部20でε−サブオプティマル領域の決定を行う。
【0057】一方、局所環境比較部16において、局所
環境が比較されると、構造環境類似度の標準偏差演算部
19で構造環境類似度の標準偏差の演算を行う。次い
で、ε−サブオプティマル領域決定部20でε−サブオ
プティマル領域の決定を行う。ε−サブオプティマル領
域の決定が行われると、残基アライメントのための高レ
ベルDPマッチング部22においては、ε−サブオプテ
ィマル領域の各要素の決定部23において、構造環境比
較部24で構造環境の比較を行い、次いで、低レベルD
P用漸化式適用部25で低レベルDP用漸化式の適用を
実行する。更に、高レベルDP用漸化式適用部26によ
り高レベルDP用漸化式の適用を実行する。次に、バッ
クトラッキングによるアライメント構築部27において
バックトラッキングによるアライメントの構築を行う。
環境が比較されると、構造環境類似度の標準偏差演算部
19で構造環境類似度の標準偏差の演算を行う。次い
で、ε−サブオプティマル領域決定部20でε−サブオ
プティマル領域の決定を行う。ε−サブオプティマル領
域の決定が行われると、残基アライメントのための高レ
ベルDPマッチング部22においては、ε−サブオプテ
ィマル領域の各要素の決定部23において、構造環境比
較部24で構造環境の比較を行い、次いで、低レベルD
P用漸化式適用部25で低レベルDP用漸化式の適用を
実行する。更に、高レベルDP用漸化式適用部26によ
り高レベルDP用漸化式の適用を実行する。次に、バッ
クトラッキングによるアライメント構築部27において
バックトラッキングによるアライメントの構築を行う。
【0058】最後に、そのアライメントの結果をアライ
メント出力部28より出力する。なお、本発明は上記実
施例に限定されるものではなく、本発明の趣旨に基づい
て種々の変形が可能であり、これらを本発明の範囲から
排除するものではない。
メント出力部28より出力する。なお、本発明は上記実
施例に限定されるものではなく、本発明の趣旨に基づい
て種々の変形が可能であり、これらを本発明の範囲から
排除するものではない。
【0059】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るダブル・ダイナミック・プログラミン
グによる構造アライメント方法を提供することができ
る。
よれば、精度を保つとともに、より簡易な手法で、時間
短縮を実現し得るダブル・ダイナミック・プログラミン
グによる構造アライメント方法を提供することができ
る。
【図1】本発明に係る距離カットオフの概念を示す図で
ある。
ある。
【図2】本発明に係るΔNカットオフ近似の概念を示す
図である。
図である。
【図3】本発明の2段階アライメントのフローチャート
である。
である。
【図4】ε−サブオプティマル領域の説明図である。
【図5】全構造環境を有するDDP演算の適用を示す図
である。
である。
【図6】近似とアライメント精度の調査結果を示す図
(その1)である。
(その1)である。
【図7】近似とアライメント精度の調査結果を示す図
(その2)である。
(その2)である。
【図8】近似とアライメント精度の調査結果を示す図
(その3)である。
(その3)である。
【図9】近似とアライメント精度の調査結果を示す図
(その4)である。
(その4)である。
【図10】カットオフ距離の大小を示す図である。
【図11】カットオフ距離と演算時間の関係を示す図
(その1)である。
(その1)である。
【図12】カットオフ距離と演算時間の関係を示す図
(その2)である。
(その2)である。
【図13】カットオフ距離と演算時間の関係を示す図
(その3)である。
(その3)である。
【図14】カットオフ距離と演算時間の関係を示す図
(その4)である。
(その4)である。
【図15】カットオフ距離を12Å、ΔNを10とする
場合の4つのケースを示す図である。
場合の4つのケースを示す図である。
【図16】ケース1〔β−蛋白質 7fabl,7fa
bh〕を示す図である。
bh〕を示す図である。
【図17】ケース2〔β−蛋白質 1mup,1ep
b〕を示す図である。
b〕を示す図である。
【図18】ケース3〔α−蛋白質 1mbc,1gd
i〕を示す図である。
i〕を示す図である。
【図19】ケース4〔α−蛋白質 1mbc,1cp
c〕を示す図である。
c〕を示す図である。
【図20】本発明のアライメントの、CPU tim
e,RMSD,FSEのもとでDDPを適用した場合の
アライメントに対する一致性を示す図である。
e,RMSD,FSEのもとでDDPを適用した場合の
アライメントに対する一致性を示す図である。
【図21】図16〜図19のテーブルの4つのケースに
ついて、アライメントを行った結果を示す図である。
ついて、アライメントを行った結果を示す図である。
【図22】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
(その1)である。
グラミングによる構造アライメントのハード的構成図
(その1)である。
【図23】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
(その2−1)である。
グラミングによる構造アライメントのハード的構成図
(その2−1)である。
【図24】本発明にかかるダブル・ダイナミック・プロ
グラミングによる構造アライメントのハード的構成図
(その2−2)である。
グラミングによる構造アライメントのハード的構成図
(その2−2)である。
【図25】従来の蛋白質の構造アラインメント例を示す
図である。
図である。
【図26】二次元マトリックスDPのための漸化式の説
明図である。
明図である。
【図27】テーラーとオレンゴによる構造的アライメン
ト(1989)の説明図である。
ト(1989)の説明図である。
【図28】蛋白質中の残基iの構造的環境の定義の説明
図である。
図である。
【図29】残基iとjの構造的環境間の類似性を示す図
である。
である。
【図30】ダブル・ダイナミック・プログラミングの説
明図である。
明図である。
【図31】テーラーとオレンゴによるコンピュティショ
ナル時間の低減方法の説明図である。
ナル時間の低減方法の説明図である。
1,11 蛋白質立体構造座標データ入力部 2,12 座標データの残基対の側鎖の中心間距離へ
の変換部 3,13 距離カットオフ近似による局所環境構築部 4,22 残基アライメントのための高レベルDPマ
ッチング部 5,15 比較マトリクスの各要素の決定部 6,16 局所環境比較部 7,17,25 低レベルDP用漸化式適用部 8,18,26 高レベルDP用漸化式適用部 9,27 バックトラッキングによるアライメント構
築部 10,28 アライメント出力部 14 近似アライメントのための高レベルDPマッチ
ング部 19 構造環境類似度の標準偏差演算部 20 ε−サブオプティマル領域決定部 21 近似によらない構造環境決定部 23 ε−サブオプティマル領域の各要素の決定部 24 構造環境比較部 100 残基iの側鎖を中心とした半径rの球
の変換部 3,13 距離カットオフ近似による局所環境構築部 4,22 残基アライメントのための高レベルDPマ
ッチング部 5,15 比較マトリクスの各要素の決定部 6,16 局所環境比較部 7,17,25 低レベルDP用漸化式適用部 8,18,26 高レベルDP用漸化式適用部 9,27 バックトラッキングによるアライメント構
築部 10,28 アライメント出力部 14 近似アライメントのための高レベルDPマッチ
ング部 19 構造環境類似度の標準偏差演算部 20 ε−サブオプティマル領域決定部 21 近似によらない構造環境決定部 23 ε−サブオプティマル領域の各要素の決定部 24 構造環境比較部 100 残基iの側鎖を中心とした半径rの球
Claims (3)
- 【請求項1】 ダブル・ダイナミック・プログラミング
による構造アライメント方法において、 (a)蛋白質中の残基iの側鎖を中心として該側鎖の中
心間距離が所定距離r以内にある残基のみを該残基iの
構造的環境の構成要素とする距離カットオフ近似を行う
工程と、 (b)前記距離カットオフ近似により類似した局所環境
をもつ残基対のみを選択的に比較するΔNカットオフ近
似を行う工程とを施すことを特徴とするダブル・ダイナ
ミック・プログラミングによる構造アライメント方法。 - 【請求項2】 請求項1記載のダブル・ダイナミック・
プログラミングによる構造アライメント方法において、
前記所定距離rを10〜15Å、ΔNを10に設定する
ことを特徴とするダブル・ダイナミック・プログラミン
グによる構造アライメント方法。 - 【請求項3】 請求項1記載のダブル・ダイナミック・
プログラミングによる構造アライメント方法に、更に、
決定されたε−サブオプティマル領域内の残基対のみに
限って、近似を導入しないでダブル・ダイナミック・プ
ログラミングを行う工程とを施すことを特徴とするダブ
ル・ダイナミック・プログラミングによる構造アライメ
ント方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8340727A JPH10185925A (ja) | 1996-12-20 | 1996-12-20 | ダブル・ダイナミック・プログラミングによる構造アライメント方法 |
US08/992,176 US6125331A (en) | 1996-12-20 | 1997-12-17 | Structural alignment method making use of a double dynamic programming algorithm |
EP97310365A EP0849690A3 (en) | 1996-12-20 | 1997-12-19 | Structural alignment method making use of a double dynamic programming algorithm |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8340727A JPH10185925A (ja) | 1996-12-20 | 1996-12-20 | ダブル・ダイナミック・プログラミングによる構造アライメント方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10185925A true JPH10185925A (ja) | 1998-07-14 |
Family
ID=18339740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8340727A Withdrawn JPH10185925A (ja) | 1996-12-20 | 1996-12-20 | ダブル・ダイナミック・プログラミングによる構造アライメント方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6125331A (ja) |
EP (1) | EP0849690A3 (ja) |
JP (1) | JPH10185925A (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6917882B2 (en) * | 1999-01-19 | 2005-07-12 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US7024312B1 (en) * | 1999-01-19 | 2006-04-04 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
AU3210100A (en) | 1999-01-19 | 2000-08-01 | Maxygen, Inc. | Methods for making character strings, polynucleotides and polypeptides having desired characteristics |
US6961664B2 (en) | 1999-01-19 | 2005-11-01 | Maxygen | Methods of populating data structures for use in evolutionary simulations |
US7430477B2 (en) * | 1999-10-12 | 2008-09-30 | Maxygen, Inc. | Methods of populating data structures for use in evolutionary simulations |
US20050026145A1 (en) * | 2001-07-24 | 2005-02-03 | Pang Phillip S. | Computational method for predicting intramolecular and intermolecular biopolymer interactions |
US6968275B1 (en) | 2002-02-22 | 2005-11-22 | Hewlett-Packard Development Company, L.P. | Pipelined digital circuit for determining the conformational energy of a folded protein |
EP1369807A1 (en) * | 2002-06-06 | 2003-12-10 | Centre National De La Recherche Scientifique (Cnrs) | Process for identifying similar 3d substructures onto 3d atomic structures |
US7247782B2 (en) * | 2003-01-08 | 2007-07-24 | Hennings Mark R | Genetic music |
EP3625254B1 (en) | 2017-07-31 | 2023-12-13 | F. Hoffmann-La Roche AG | Three-dimensional structure-based humanization method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993001484A1 (en) * | 1991-07-11 | 1993-01-21 | The Regents Of The University Of California | A method to identify protein sequences that fold into a known three-dimensional structure |
US5878373A (en) * | 1996-12-06 | 1999-03-02 | Regents Of The University Of California | System and method for determining three-dimensional structure of protein sequences |
-
1996
- 1996-12-20 JP JP8340727A patent/JPH10185925A/ja not_active Withdrawn
-
1997
- 1997-12-17 US US08/992,176 patent/US6125331A/en not_active Expired - Fee Related
- 1997-12-19 EP EP97310365A patent/EP0849690A3/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP0849690A2 (en) | 1998-06-24 |
EP0849690A3 (en) | 2000-01-26 |
US6125331A (en) | 2000-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fechteler et al. | Prediction of protein three-dimensional structures in insertion and deletion regions: a procedure for searching data bases of representative protein fragments using geometric scoring criteria | |
Schuler et al. | A workbench for multiple alignment construction and analysis | |
George et al. | SnapDRAGON: a method to delineate protein structural domains from sequence data | |
George et al. | Protein domain identification and improved sequence similarity searching using PSI‐BLAST | |
Hu et al. | Mining Protein Contact Maps. | |
JPH10185925A (ja) | ダブル・ダイナミック・プログラミングによる構造アライメント方法 | |
D'yachkov et al. | A construction of pooling designs with some happy surprises | |
Stultz et al. | Predicting protein structure with probabilistic models | |
KR100879438B1 (ko) | 단백질의 입체 구조 예측 장치 및 예측 방법 | |
Johnson et al. | [34] Discrimination of common protein folds: Application of protein structure to sequence/structure comparisons | |
Ochagavia et al. | Progressive combinatorial algorithm for multiple structural alignments: application to distantly related proteins | |
JP2004259119A (ja) | 塩基配列のスクリーニングを行うためのコンピュータ・システム、そのための方法、該方法をコンピュータに対して実行させるためのプログラムおよび該プログラムを記憶したコンピュータ可読な記録媒体 | |
Ye et al. | A segment alignment approach to protein comparison | |
Sternberg | PROMOT: a FORTRAN program to scan protein sequences against a library of known motifs | |
Penner et al. | An algebro-topological description of protein domain structure | |
CN106295243B (zh) | 一种蛋白质-rna复合物结构预测方法 | |
Kuziemko et al. | Using structure to explore the sequence alignment space of remote homologs | |
Eidhammer et al. | Protein structure comparison and structure patterns–an algorithmic approach | |
Spang et al. | Sequence database search using jumping alignments. | |
US6047109A (en) | Methods and systems for re-evaluating assembly consensus sequences | |
Orengo | A review of methods for protein structure comparison | |
CA2537872A1 (en) | Methods for establishing and analyzing the conformation of amino acid sequences | |
Anselmi et al. | Identification of protein domains on topological basis | |
Edgar et al. | Simultaneous sequence alignment and tree construction using hidden Markov models | |
KR20080019857A (ko) | 단백질의 아미노산 서열로부터 삼차 구조를 예측하기 위한장치 및 이의 예측 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20040302 |