JP3235763B2 - 共通構造抽出装置 - Google Patents

共通構造抽出装置

Info

Publication number
JP3235763B2
JP3235763B2 JP01080595A JP1080595A JP3235763B2 JP 3235763 B2 JP3235763 B2 JP 3235763B2 JP 01080595 A JP01080595 A JP 01080595A JP 1080595 A JP1080595 A JP 1080595A JP 3235763 B2 JP3235763 B2 JP 3235763B2
Authority
JP
Japan
Prior art keywords
common
unit
point
dimensional
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01080595A
Other languages
English (en)
Other versions
JPH07287717A (ja
Inventor
聖一 相川
史子 松澤
真弓 冨川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP01080595A priority Critical patent/JP3235763B2/ja
Priority to US08/390,862 priority patent/US6453064B1/en
Publication of JPH07287717A publication Critical patent/JPH07287717A/ja
Application granted granted Critical
Publication of JP3235763B2 publication Critical patent/JP3235763B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】(目次) 産業上の利用分野 従来の技術(図79) 発明が解決しようとする課題 課題を解決するための手段(図1) 作用(図1) 実施例 (A)本実施例の基本的な構成の説明(図2〜図4,図
80) (B)本実施例の基本的な動作の説明(図5〜図44) (C)本実施例の装置を適用したシステムの説明(図4
5〜図78) (D)本実施例の効果の説明 発明の効果
【0002】
【産業上の利用分野】本発明は、順序付けられた点集合
により形成された二つの立体構造から共通構造を抽出す
る共通構造抽出装置に関し、特に、複数の立体構造を持
つ物質から類似する共通部分を抽出・検索する装置に関
する。物理,化学等の分野では新しい(未知の)物質の
性質を調べたり、新しい物質を人工的に創製するため
に、分子構造を分析し、物質の持つ機能の発現メカニズ
ムの解明が行なわれている。
【0003】これまでの研究成果により、物質の持つ機
能と立体構造との間には密接な関係があることが知られ
ており、構造的に類似した部分(あるいは特異的な部
分)が物質の機能に大きく関与すると考えられている。
そこで、X線結晶解析やNMR(Nuclear Magnetic Reso
nance;核磁気共鳴)等の手法で物質の立体構造を決定
し、その結果明らかになった立体構造のデータベース化
がはかられている。
【0004】研究者はそのようなデータベースから立体
構造中の類似部分を抽出したり検索する場合、一連の面
倒な作業を行なう必要があったが、自動的に抽出および
検索することができれば、これら一連の作業の負担を軽
減することができる。
【0005】
【従来の技術】近年、新規物質の解明,創製や既知の物
質の機能改変を行なうため、X線結晶解析やNMR等の
手法で目的とする物質の立体構造を決定し、決定された
立体構造をデータベースに蓄積する作業が進められてい
る。その代表的なデータベースとしてタンパク質,リボ
核酸(RNA)等の立体構造を登録したプロテイン・デ
ータ・バンク(PDB:Protein Data Bank)が世界的に
普及している。また、化学物質が登録されているデータ
ベースとしては、ケンブリッジ・ストラクチャー・デー
タベース(CSD:Cambridge Structural Database)が
知られている。
【0006】タンパク質は、複数のアミノ酸がペプチド
結合によって一本の鎖のように連結し、この鎖が生体内
で折たたまることによって立体構造を形成し、各種の機
能を発現している。各アミノ酸は、N(窒素)末端から
C(炭素)末端に向けて1から順に番号付けることによ
って表現される。これらの番号は、アミノ酸番号,アミ
ノ酸残基番号など等と呼ばれている。
【0007】タンパク質は、通常、20種あまりのアミ
ノ酸から成り、αヘリックス構造をなす部分,ジクザグ
の直線的に伸びたベータ構造の部分,無秩序なランダム
コイル構造(糸巻き構造)の部分を各種の割合で含んで
安定的に配置される。また、各アミノ酸は、その種類に
応じて複数の原子により構成される。従って、PDBに
は、タンパク質の名前,管理番号,タンパク質を形成す
るアミノ酸番号,各アミノ酸を構成する各原子の種類と
三次元座標等の情報が登録されている。
【0008】これまでの研究成果により、物質の立体構
造とその機能との間には密接な関係があることが知られ
ており、機能と構造との関係を解明するための作業が進
められている。その中でも、同じ機能を持つ物質間で構
造的に類似した部分(あるいは特異的な部分)が物質の
機能に大きく関与すると考えられるため、立体構造中に
共通に存在する類似な構造を捜し出すことは必要不可欠
である。
【0009】しかし、現状では、物質の立体構造の三次
元座標から直接特徴的な部分を取り出す手法が無いた
め、研究者が、各立体構造を3D(3次元)グラフィッ
クシステムで表示することにより人手で特徴的な部分を
探している。一般に、物質には定まった向きの決め方が
無く、一方の物質を基準としてもう一方の物質を回転さ
せながら特徴的な部分を探し出すため、これらの作業に
はかなりの時間を要している。
【0010】研究者が類似な立体構造を探す際、物質の
立体構造の類似性の尺度としてrmsd(root mean squ
are distance) 値を使用している。このrmsd値は、
互いに対応付けられた物質の構成要素間の平均二乗距離
の平方根を表す値である。経験的には、物質間のrms
d値が1Å(オングストローム)以下の場合は、それら
の物質はきわめて類似していると考えられている。
【0011】図79(A)〜(D)により、rmsd値
の一般的な算出手法を説明する。例えば、図79(A)
に示すような点集合P={p1 ,p2 …,pi …,
N}で表される物質Aと、図79(B)に示すような
点集合T={t1 ,t2 …,tj …,tN }で表される
物質Bとがあるものとする。これらの物質Aと物質Bを
構成する要素(点)を、図79(C)に示すように互い
に対応付け、対応付けられた要素間のrmsd値が最小
になるように、図79(D)に示すごとく物質Bを回転
あるいは移動させて物質Aに重ね合わせる。rmsd値
は、対応付ける点の数をN、回転行列をU、対応付けら
れた各点の重みをwk とすると、次式で算出される。
【0012】
【数1】
【0013】なお、この対応付けられた点同士間でrm
sd値を最小化する物質の回転,移動を求める手法はカ
ブシュ(Kabsh)等により提案され、現在広く利用されて
いる。しかし、この手法は同数の点同士を比較するた
め、一方の物質中のどの構成要素を他方の物質のどの構
成要素に対応付けるとrmsd値が最小になるかは、研
究者が試行錯誤しながら求めているのが現状である。
【0014】また、新しい物質を創製するためには、既
存の物質を調べる必要がある。例えば、ある物質の耐熱
性を強化したい場合には、耐熱性の強い物質に共通する
構造を探し出し、そのような構造を新たに作成する物質
に付加することによって機能の強化がはかられていく。
従って、データベースの中から必要な構造を検索する機
能が必要になるが、前述の理由により同様にコンピュー
タグラフィックシステムを用いて研究者が試行錯誤しな
がら構造をデータベースから探し出しているのが現状で
ある。
【0015】さらに、近年、タンパク質の設計,改良に
おいても類似構造の重要性が認識されている。その例の
一つとして、Human Lysozyme(HL)の機能の改良実験
がある。カルシウムイオンを結合する活性を持たないタ
ンパク質HLの立体構造中に、カルシウムイオンを結合
するタンパク質αラクトアルブミン(Lactalbumin)と類
似な構造が存在することが分かった。
【0016】そこで、HL中の該当部分のアミノ酸の種
類を遺伝子組み替え操作で置換する実験を行なった結
果、カルシウムイオンと結合するようになったという報
告がある〔Kuroki,R. et. al. Proc.Natl.Acad.Sci.US
A, 86,6903-6907,(1989) 〕。この例からも分かるよう
に、構造の類似性に着目することにより、タンパク質の
設計,改良を行なう上で非常に重要な情報が得られる。
【0017】本発明の出願人は、立体構造を形成する点
集合,順序関係のある点集合および部分的に対応付けら
れた点集合同士をrmsd値が最適な値になるように重
ね合わせることや、タンパク質の立体構造データベース
から類似性の高い構造を探し出すことを目的とした発明
「立体構造処理装置」を提案している(特願平4−33
1703号,平成4年12月11日出願;特開平6−1
80737号公報参照)。
【0018】上述した既出願の発明によれば、点集合で
表す一定個数の3次元座標の点の組み合わせが検索キー
(プローブ)として用意され、この点集合に対してデー
タベースに格納された複数の物質の各立体構造を表す点
集合について検索を行ない、プローブとなる点集合と同
じまたは類似の構造が、物質の立体構造の中の一部の構
造としてそなえられているかどうか検索するものであ
る。
【0019】そのために、二つの点集合の各要素を対応
付ける際に、対象をずらして対応付けたり、木構造によ
り点の対応付けの組み合わせを作る等の方法が用いられ
る。そして、幾何学的な関係による候補(対応が付いた
と判定する点)の絞り込み、所定の閾値条件による候補
の絞り込み、または点の属性による候補の絞り込み等を
行ない、これらを満たす要素の組み合わせを生成する。
この後、生成された組み合わせの中で各点間の距離の平
均(rmsd値に対応)が小さくなる点集合間の対応付
けを探し出すことにより、二つの立体構造の最も一致す
る重ね合わせのための位置と方向を算出し、算出された
重ね合わせの結果を検索結果として出力することを基本
とする。
【0020】上記の幾何学的な関係による候補の絞り込
みは、下記項目〜に記載するような手法にて行なわ
れ、また、上記の所定の閾値条件による候補の絞り込み
は、下記項目に記載するような手法にて行なわれ、上
記の点の属性による候補の絞り込みは、下記項目に記
載するような手法にて行なわれる。 距離関係による候補の絞り込み:対応付けを行なう時
に、点集合A内の一つの要素と該要素に近接するs個の
要素との間に成り立つ距離関係と、点集合B内の一つの
要素と該要素に近接するs個の要素との間の距離関係と
が許容誤差内の関係にある点集合のみを選択して、候補
を絞り込む。
【0021】角度による候補の絞り込み:点集合Aの
一つの要素と該要素に近接するs個の要素との間に成り
立つ角度に対し、点集合B内の一つの要素と該要素に近
接するs個の要素との間に成り立つ角度が許容誤差範囲
内である点のみを選択して、候補を絞り込む。 重心からの距離および角度による候補の絞り込み:選
択した点間で重心を算出し、前記,と同様の手法で
重心についての距離,角度を比較することにより候補を
絞り込む。
【0022】閾値条件による候補の絞り込み:所定の
閾値を設定し、候補の持つ属性値が閾値よりも大きい時
には探索の枝刈りを行なう。この場合、nil(対応す
る点が存在しない点)の数を制限して、点集合Aと点集
合Bとの各要素間の対応付けの際に、nilの総数があ
る閾値以上になると、それを組み合わせの候補から外し
て無駄な候補の生成を避ける。また、点集合Aの要素a
i に点集合Bの要素b j を対応付けた時に全点間のrm
sd値が極端に悪くなる場合にはそれを候補から除外す
るのが望ましいので、rmsd値用の閾値を設けてお
き、rmsd値が閾値以下ならばその点を候補とし、r
msd値が閾値を超えるならばその点を候補から除外す
ることにより、対応付ける点の候補を効率良く絞り込
む。
【0023】点の属性による候補の絞り込み:各点の
属性として、例えば原子,原子団,分子の種類や、親水
性,疎水性,電荷の正負等を挙げることができる。これ
らが一致するかどうかを調べることにより、候補に加え
るか否かを判定する。
【0024】
【発明が解決しようとする課題】上述したように、物質
の構成要素の対応付けを自動化することができれば、デ
ータベースから同じ機能を持つ物質間に共通に存在する
類似構造を検索して抽出することができるが、従来のC
SDや、PDBを利用して物質の立体構造を解析する場
合には、大量のデータからの構造的な検索・比較を手作
業で行なっているため、多くの時間や労力を要し、作業
者の負担となっていた。
【0025】また、上記の先に出願された立体構造処理
装置では、予め構造が分かっている一定規模の点集合か
らなる部分構造が、他の物質の立体構造の中に共通構造
として存在するかどうかを検索することができる。しか
し、機能が似ていて共通構造を持つ二つの立体構造を全
体として重ね合わせた時に立体構造全体のどの部分が共
通構造であるかを抽出することは、検索のキーとなる部
分(プローブ)が未知であるため、上記の先に出願され
た立体構造処理装置によっては困難であるという課題が
ある。
【0026】部分対応付けを行なって重ね合わせた時に
構造的に似ている共通構造を抽出することができれば、
一方の立体構造の持つ機能と同じ機能を、他の立体構造
を持つ物質も有していることが分かる。さらに、機能が
類似していること等により共通の部分構造を持つことが
分かっている立体構造の間で複数の共通構造がある場
合、どの部分が中心となる(核となる)のか分からない
ことがある。その場合、重ね合わせの中心となる部分構
造(キーとなる構造)を誤って判断すると、その部分構
造を核として重ね合わせた時に、実際には類似な共通構
造が存在していてもその共通構造を検出することができ
ない。そのため、中心となる共通構造を的確に判別する
ことが課題となっている。
【0027】本発明は、このような課題に鑑み創案され
たもので、立体構造中の類似部分を計算機で自動的に抽
出できるようにすることによってコンピュータグラフィ
ックシステムにおける立体構造の重ね合わせ表示の自動
化やデータベースからの類似立体構造の検索等を可能に
して、共通構造の検索・抽出作業に要する時間,人員や
コストの削減をはかり、共通構造の検索・抽出作業の効
率化をはかった共通構造抽出装置を提供することを目的
とする。
【0028】
【課題を解決するための手段】図1は本発明の原理ブロ
ック図で、この図1において、1は本発明の共通構造抽
出装置で、この共通構造抽出装置1は、それぞれ立体構
造を形成する順序付けられた二つの点集合A,Bから、
これら二つの点集合A,Bの間で共通する部分の点集合
を、二つの立体構造間の共通構造として抽出するもので
ある。
【0029】そして、共通構造抽出装置1は、全体構造
重合部10,共通部分長さ算出部11,累積距離算出部
12および共通部分抽出部13を有して構成されてい
る。ここで、全体構造重合部10は、二つの点集合A,
Bを部分的に対応付けるべく予め既知のデータとして与
えられる部分対応付け情報SA,SBに基づいて、二つ
の点集合A,Bの全体を平行移動/回転移動させて重ね
合わせるものである。
【0030】共通部分長さ算出部11は、全体構造重合
部10により重ね合わされた二つの点集合A,Bの共通
部分として対になる点(集合要素)の数を共通部分長さ
(要素数)として算出するものである。累積距離算出部
12は、全体構造重合部10により重ね合わされた二つ
の点集合A,Bの共通部分として対になる点間の距離を
累積した累積距離情報を算出するものである。
【0031】共通部分抽出部13は、共通部分長さ算出
部11により算出された共通部分長さが最長で、且つ、
累積距離算出部12により算出された累積距離情報が最
小になる二つの点集合A,Bの共通部分を、共通構造と
して抽出するものである。そして、二つの点集合A,B
の共通部分として対になる点間の距離に基づくコスト関
数を導入するとともに、二つの点集合A,Bの共通部分
として同一の最長共通部分長さを有する複数の経路が存
在する場合に累積距離算出部12が累積距離情報を算出
すべく各経路を成す点を順次探索する際、各経路を成す
点が順次探索される都度、当該点でのコスト関数の値を
算出するコスト関数演算部をそなえる。このとき、累積
距離算出部12、ある点を探索した時に、当該点にお
いてコスト関数演算部により算出されたコスト関数の新
値と、当該点において以前にコスト関数演算部により算
出されたコスト関数の旧値とを比較し、新値が旧値以上
である場合には、当該経路についての探索を中止して次
の経路の探索へ移行する一方、新値が旧値よりも小さい
場合には、当該経路についての探索を継続して実行する
ことにより、該前記同一の最長共通部分長さを有する複
数の経路の中から、前記コスト関数の値が最小になる経
路が共通構造として抽出される(請求項1)。なお、前
記コスト関数としては、各経路の始点から探索点までの
各点において対になる点間の距離の二乗値を累積加算す
るものを用いることができる(請求項2)。また、本発
明の共通構造抽出装置は、部分対応付け情報として予め
与えられる既知のデータを用いて共通部分抽出部13に
より共通構造が抽出された後、抽出された共通構造を部
分対応付け情報として用い、全体構造重合部10,共通
部分構造長さ算出部11,累積距離算出部12および共
通部分抽出部13による一連の処理を、二つの点集合
A,Bの共通部分として対になる点の数に変化がなくな
るまで再帰的に繰り返して最適な共通構造を抽出するよ
うに構成する(請求項3,4)。このとき、全体構造重
合部10は、部分対応付け情報SA,SBにより対応付
けられる二つの点集合A,Bにおける部分集合の重心を
それぞれ算出する重心算出部と、この重心算出部により
算出された二つの重心が一致するように二つの点集合
A,Bを平行移動する平行移動部と、二つの点集合A,
Bにおける部分集合を重ね合わせるために必要な前記重
心まわりの回転角を算出する回転角算出部と、この回転
角算出部により算出された回転角に基づいて一方の点集
合の全体を回転することにより二つの点集合A,Bの全
体を重ね合わせる回転重合部とにより構成することがで
きる(請求項5)。
【0032】また、共通部分長さ算出部11は、全体構
造重合部10により重ね合わされた二つの点集合A,B
の共通部分として対応付けられる可能性のある点の組合
せを格納する対応テーブルを作成する対応テーブル作成
部と、この対応テーブル作成部により作成された対応テ
ーブルに基づいて二つの点集合A,Bの共通部分として
対応付けられる点集合において対になる点の数を最長共
通部分長さとして算出する最長共通部分長さ算出部とに
より構成することができる(請求項)。
【0033】さらに、累積距離算出部12は、全体構造
重合部10により重ね合わされた二つの点集合A,Bの
共通部分として対になる点間の距離についての平均二乗
値の平方根を、累積距離情報として算出するように構成
することができる(請求項7)。
【0034】
【0035】
【0036】また、二つの点集合A,Bのうちの一方の
点集合をその順序に従って先頭から順に一定個数の部分
集合に分割し、各部分集合に類似する点集合を二つの点
集合A,Bのうちの他方の点集合から類似構造として検
索する類似構造検索部をそなえ、この類似構造検索部に
より検索された類似構造を、部分対応付け情報として用
い、共通構造を抽出するように構成してもよい(請求項
8)。
【0037】さらに、二つの点集合A,Bから、これら
の二つの点集合A,Bを適切に重ね合わせるための核と
なる点集合を核構造として抽出する核構造抽出部をそな
え、この核構造抽出部が、二つの点集合A,Bのうちの
一方の点集合を、その順序に従って先頭の点から1点ず
つずらしながら一定の長さのセグメントに分割し、分割
された各セグメントに類似する点集合を、二つの点集合
A,Bのうちの他方の点集合から類似構造として検索
し、検索された類似構造のうち最も類似するものを核構
造として選択し、その核構造を部分対応付け情報として
出力するように構成してもよい(請求項9)。
【0038】この場合、核構造抽出部は、二つの点集合
A,B間に存在する類似構造の分布を把握すべく、二つ
の点集合A,Bを成す各点をその順序に従ってそれぞれ
行と列とに割り当てるとともに、検索された類似構造
の、二つの点集合A,B上でのそれぞれの位置に応じた
行および列の交点上に所定データを設定することにより
類似構造マップを作成し、その類似構造マップを参照し
て核構造を抽出することもできる(請求項10)。
【0039】また、共通部分抽出部13により抽出され
た共通構造に基づいて、二つの点集合A,Bによりそれ
ぞれ形成される二つの立体構造を重ね合わせて表示する
表示部をそなえてもよく(請求項11)、この場合、表
示部が、二つの立体構造を3次元グラフィックとして表
示するように構成する(請求項12)。さらに、共通部
分抽出部13により抽出された共通構造を構成する二つ
の点集合A,Bの各点に関する情報を、各点集合A,B
における順序に従って並置した状態で出力するアライメ
ント出力部(請求項13)や、共通部分抽出部13によ
り抽出された共通構造を三次元座標情報として出力する
モデル構造出力部(請求項14)をそなえて構成しても
よい。
【0040】ところで、二つの点集合A,Bのうちの一
方の点集合に関する情報として部分構造情報を入力する
データ入力部と、二つの点集合A,Bのうちの他方の点
集合に関する情報として立体構造に関する情報を予め格
納する立体構造データベースと、データ入力部から入力
された部分構造情報に類似する立体構造を立体構造デー
タベースから類似構造として検索する類似構造検索部
と、この類似構造検索部により検索された類似構造に関
する情報と当該類似構造を部分対応付け情報として用い
て共通部分抽出部13により抽出された共通構造に関す
る情報とを出力する類似構造出力部とをそなえて構成す
ることもできる(請求項15)。
【0041】また、二つの点集合A,Bのうちの一方の
点集合に関する情報として既知の機能を有する部分構造
に関する情報を入力するデータ入力部と、二つの点集合
A,Bのうちの他方の点集合に関する情報として立体構
造に関する情報を予め格納する立体構造データベース
と、ある機能とその機能に関連する立体構造との関係を
格納する機能部位データベースと、データ入力部から入
力された既知の機能を有する部分構造に類似する立体構
造を立体構造データベースから類似構造として検索する
類似構造検索部と、この類似構造検索部により検索され
た類似構造に関する情報,当該類似構造を前記部分対応
付け情報として用いて共通部分抽出部13により抽出さ
れた共通構造に関する情報および所定機能に関する情報
を機能部位データベースに出力して登録する機能部位デ
ータベース作成部とをそなえて構成してもよい(請求項
16)。
【0042】さらに、二つの点集合A,Bのうちの一方
の点集合に関する情報として未知の機能を有する対象立
体構造に関する情報を入力するデータ入力部と、ある機
能とその機能に関連する立体構造との関係を格納する機
能部位データベースと、この機能部位データベースに格
納された立体構造に類似する構造をデータ入力部から入
力された対象立体構造から検索する類似構造検索部と、
この類似構造検索部により検索された類似構造を部分対
応付け情報として用いて共通部分抽出部13により抽出
された共通構造に基づいて対象立体構造の有する機能と
その機能に関連する構造とを特定して出力する機能部位
出力部とをそなえて構成することもできる(請求項1
7)。
【0043】またさらに、前記核構造抽出部により抽出
された核構造を部分対応付け情報として用いて共通部分
抽出部13により抽出された共通構造について当該共通
構造を成す二つの点集合A,Bの類似性を判定する類似
性判定部と、この類似性判定部により当該共通構造を成
す二つの点集合A,Bの類似性が高いと判定された場合
に当該共通構造を表示する表示部とをそなえて構成して
もよい(請求項18)。
【0044】さらにまた、二つの点集合A,Bのうちの
一方の点集合に関する情報として既知の機能を有する立
体構造に関する情報を入力するとともに二つの点集合
A,Bのうちの他方の点集合に関する情報として未知の
機能を有する立体構造に関する情報とを入力するデータ
入力部と、ある機能とその機能に関連する立体構造との
関係を格納する機能部位データベースと、データ入力部
から入力された既知の機能を有する立体構造と未知の機
能を有する立体構造とについて前記核構造抽出部により
抽出された核構造を部分対応付け情報として用いて共通
部分抽出部13により抽出された共通構造に基づいて機
能部位データベースを参照し未知の機能を有する立体構
造についての機能予測を行なう機能予測部と、この機能
予測部により予測された未知の機能を有する立体構造の
機能部位を表示する表示部とをそなえて構成することも
できる(請求項19)。
【0045】なお、前記立体構造は、物質の立体構造
(請求項20)やタンパク質の立体構造(請求項21)
とすることができる。このとき、物質の立体構造を形成
する点集合は、当該物質を構成する分子もしくは原子を
点とみなし、所定配列に従う分子もしくは原子の順序集
合として捉えられるものであり、タンパク質の立体構造
を形成する点集合は、当該タンパク質を構成するアミノ
酸を点とみなし、アミノ酸の配列番号に従うアミノ酸の
順序集合として捉えられるものである。
【0046】
【作用】図1にて上述した本発明の共通構造抽出装置で
は、二つの点集合A,Bの全体が、全体構造重合部10
により部分対応付け情報に基づいて平行移動/回転移動
されて重ね合わせられ、共通部分長さ算出部11により
算出された共通部分長さが最長で、且つ、累積距離算出
部12により算出された累積距離情報が最小になる二つ
の点集合A,Bの共通部分が、共通部分抽出部13によ
り抽出される。
【0047】従って、二つの立体構造間の共通構造の部
分を、計算機を用いて自動的に抽出することができる。
また、立体構造の一部の構造が機能的に分かっている時
にその部分を重ね合わせの場所(部分対応付け情報)と
して用いて二つの立体構造の重ね合わせを行ない、その
重ね合わせ箇所以外の部分構造について類似な構造を有
しているかについて予測・判定することができる(請求
項1〜)。
【0048】また、累積距離算出部12により、累積距
離情報を算出すべく各経路を成す点を順次探索する際、
各経路を成す点を順次探索する都度、当該点においてコ
スト関数演算部により算出されたコスト関数の新値と、
当該点において以前にコスト関数演算部により算出され
たコスト関数の旧値とが比較され、新値が旧値よりも小
さい場合のみ当該経路についての探索が継続される。従
って、他の経路として探索済の点を新たに探索した場
合、累積距離情報が最小にならないと予測される経路に
ついては直ちに探索を中断して、次の経路の探索に移行
し、無駄な探索を行なうのを防止することができる(請
求項)。
【0049】一方、共通構造抽出装置1による一連の処
理を、二つの点集合A,Bの共通部分を成す点の数に変
化がなくなるまで再帰的に繰り返すことにより、共通部
分として最適なものを抽出することができる(請求項
3,4)。また、二つの共通構造について機能的に分か
っている部分が無い場合または共通な部分構造が分から
ない場合、つまり部分対応付け情報が予め明確になって
いない場合、類似構造検索部により二つの点集合A,B
における類似構造が検索され、その類似構造が部分対応
付け情報として用いられるので、部分対応付け情報を自
動的に確定して、共通構造の抽出を行なうことができる
(請求項8)。
【0050】同様に部分対応付け情報が予め明確になっ
ていない場合、核構造抽出部により重ね合わせの中心と
なる核構造が効率的に抽出され、その核構造が部分対応
付け情報として用いられるので、部分対応付け情報を自
動的かつ効率的に確定して、共通構造の抽出を行なうこ
とができる(請求項9,10)。また、表示部により二
つの立体構造を重ね合わせた状態が自動的に表示され、
オペレータ等は、その表示部を参照するだけで、その二
つの立体構造の共通構造や特異的な構造を判別すること
ができる(請求項11,12)。
【0051】同様に、アライメント出力部により共通構
造に関する情報を自動的に出力したり(請求項13)、
モデル構造出力部により共通構造の三次元座標情報を自
動的に出力したりすることで、オペレータ等は、その出
力結果を参照するだけで、その二つの立体構造の共通構
造や特異的な構造を判別することができる(請求項1
4)。
【0052】ところで、本発明の共通構造抽出装置1
は、前述したデータ入力部,立体構造データベース,類
似構造検索部および類似構造出力部をそなえることによ
り、立体構造検索装置としての機能を提供することがで
きる。つまり、類似構造検索部により、データ入力部か
らの部分構造情報に類似する立体構造が立体構造データ
ベースから類似構造として検索され、類似構造出力部に
より、その類似構造に関する情報と当該類似構造を部分
対応付け情報として用いて抽出された共通構造に関する
情報とが自動的に出力される(請求項15)。
【0053】また、本発明の共通構造抽出装置1は、前
述したデータ入力部,立体構造データベース,機能部位
データベース,類似構造検索部および機能部位データベ
ース作成部をそなえることにより、機能部位データベー
ス生成装置としての機能を提供することができる。つま
り、類似構造検索部により、データ入力部からの既知の
機能を有する部分構造に類似する立体構造が立体構造デ
ータベースから類似構造として検索され、機能部位デー
タベース作成部により、その類似構造に関する情報,当
該類似構造を前記部分対応付け情報として用いて抽出さ
れた共通構造に関する情報および所定機能に関する情報
が機能部位データベースに自動的に出力され登録される
(請求項16)。
【0054】さらに、本発明の共通構造抽出装置1は、
前述したデータ入力部,機能部位データベース,類似構
造検索部および機能部位出力部をそなえることにより、
機能予測装置としての機能を提供することができる。つ
まり、類似構造検索部により、機能部位データベースに
格納された立体構造に類似する構造がデータ入力部から
の対象立体構造から検索され、機能部位出力部により、
検索された類似構造を部分対応付け情報として用いて抽
出された共通構造に基づいて、対象立体構造の有する機
能とその機能に関連する構造とが特定されて自動的に出
力される(請求項17)。
【0055】またさらに、類似性判定部により、核構造
抽出部により抽出された核構造を部分対応付け情報とし
て用いて抽出された共通構造についてその類似性を判定
し、その判定結果を表示部に表示することで、オペレー
タ等は、その表示部を参照するだけで、共通構造の類似
性を把握することができる(請求項18)。さらにま
た、本発明の共通構造抽出装置1は、前述したデータ入
力部,機能部位データベース,核構造抽出部,機能予測
部および表示部をそなえることにより、核構造抽出を用
いた機能予測装置としての機能を提供することができ
る。つまり、核構造抽出部により、データ入力部からの
既知の機能を有する立体構造と未知の機能を有する立体
構造とについて核構造が抽出され、機能予測部により、
その核構造を部分対応付け情報として用いて抽出された
共通構造に基づいて機能部位データベースが参照され、
未知の機能を有する立体構造についての機能予測が行な
われる。そして、その予測結果が表示部に自動的に表示
されるので、オペレータ等は、その表示部を参照するだ
けで、未知の機能を有する立体構造の機能を把握するこ
とができる(請求項19)。
【0056】なお、抽出対象の立体構造を、物質の立体
構造やタンパク質の立体構造とすることで、その立体構
造の検索や、立体構造の類似性に基づく機能予測等を行
なうことが可能になる(請求項20,21)。
【0057】
【実施例】以下、図面を参照して本発明の実施例を説明
する。 (A)本実施例の基本的な構成の説明 まず、図2〜図4により、本実施例の共通構造抽出装置
の基本的な構成について説明する。図2は本発明の一実
施例としての共通構造抽出装置の基本構成を示すブロッ
ク図、図3は本実施例の共通構造抽出装置に付設される
類似構造検索部の構成を示すブロック図、図4は本実施
例の共通構造抽出装置に付設される核構造抽出部の構成
を示すブロック図である。
【0058】図2において、1は共通構造抽出部1Aを
有する本実施例の共通構造抽出装置で、図1にて説明し
たものと同様、共通構造抽出部1Aは、それぞれ立体構
造を形成する順序付けられた二つの点集合A,Bから、
これら二つの点集合A,Bの間で共通する部分の点集合
を、二つの立体構造間の共通構造として抽出するもので
あり、全体構造重合部10,共通部分長さ算出部11,
累積距離算出部12および共通部分抽出部13を有して
構成されている。
【0059】ここで、全体構造重合部10は、二つの点
集合A,Bを部分的に対応付ける部分対応付け情報S
A,SBに基づいて、二つの点集合A,Bの全体を平行
移動/回転移動させて重ね合わせるものであり、本実施
例の全体構造重合部10は、重心算出部10a,平行移
動部10b,回転角算出部10cおよび回転重合部10
dを有して構成されている。
【0060】重心算出部10aは、部分対応付け情報S
A,SBにより対応付けられる二つの点集合A,Bにお
ける部分集合の重心をそれぞれ算出するものであり、平
行移動部10bは、重心算出部10aにより算出された
二つの重心が一致するように二つの点集合A,Bを平行
移動するものである。また、回転角算出部10cは、二
つの点集合A,Bにおける部分集合を重ね合わせるため
に必要な前記重心まわりの回転角を算出するものであ
り、回転重合部10dは、回転角算出部10cにより算
出された回転角に基づいて一方の点集合の全体を回転す
ることにより二つの点集合A,Bの全体を重ね合わせる
ものである。
【0061】また、共通部分長さ算出部11は、図5に
より後述するごとく対応テーブル作成部11aおよびL
CS算出部11bを有して構成されるもので、全体構造
重合部10により重ね合わされた二つの点集合A,Bの
共通部分として対になる点(集合要素)の数を共通部分
長さ(要素数)として算出するものである。さらに、累
積距離算出部12は、全体構造重合部10により重ね合
わされた二つの点集合A,Bの共通部分として対になる
点間の距離についての平均二乗値の平方根(以下、rm
sd値という)を、累積距離情報として算出するもので
ある。
【0062】そして、共通部分抽出部13は、共通部分
長さ算出部11により算出された共通部分長さが最長
で、且つ、累積距離算出部12により算出されたrms
d値が最小になる二つの点集合A,Bの共通部分を、共
通構造として抽出するものである。一方、本実施例の累
積距離算出部12には、図15〜図30によりその動作
を詳述するコスト関数演算部12aがそなえられてい
る。本実施例では、二つの点集合A,Bの共通部分とし
て同一の最長共通部分長さを有する複数の経路が存在す
る場合に累積距離算出部12がrmsd値を算出すべく
各経路を成す点を順次探索する際、各経路を成す点が順
次探索される都度、当該点でのコスト関数の値がコスト
関数演算部12aにより算出されるようになっている。
ここで、コスト関数としては、各経路の始点から探索点
までの各点において対になる点間の距離の二乗値を累積
加算したものとする。
【0063】そして、本実施例の累積距離算出部12
は、ある点を探索した時に、当該点においてコスト関数
演算部12aにより算出されたコスト関数の新値と、当
該点において以前にコスト関数演算部12aにより算出
されたコスト関数の旧値とを比較し、新値が旧値以上で
ある場合には、当該経路についての探索を中止して次の
経路の探索へ移行する一方、新値が旧値よりも小さい場
合には、当該経路についての探索を継続して実行するよ
うになっている。
【0064】なお、本実施例の共通構造抽出装置1は、
共通部分抽出部13により抽出された共通構造を部分対
応付け情報として用い、全体構造重合部10,共通部分
構造長さ算出部11,累積距離算出部12および共通部
分抽出部13による一連の処理を、二つの点集合A,B
の共通部分として対になる点の数に変化がなくなるまで
再帰的に繰り返して最適な共通構造を抽出するように構
成されている。
【0065】また、図3において、2は一方の点集合A
の構成要素(部分構造)により他方の点集合Bを順次検
索する類似構造検索部で、二つの点集合A,Bについて
の部分対応付け情報が予め明確になっていない場合に
は、この類似構造検索部2による検索結果が、部分対応
付け情報として共通構造抽出部1Aへ出力されるように
なっている。
【0066】この類似構造検索部2は、二つの立体構造
を表す点集合A,Bを入力されると、一方の点集合Aを
点の順序関係に従った一定の構成要素(部分集合)毎に
分割し、各構成要素に類似するもの(類似構造)を他方
の点集合Bから検索するものである。また、類似構造検
索部2は構成要素検索部2aを有しており、この構成要
素検索部2aが、分割された各構成要素をプローブ(検
索キー)として、点集合Bの全体について類似構造を検
索する機能を果たしている。このとき、類似性の判断
は、前述した幾何学的な関係,閾値条件,または点の属
性等に基づいて、対応すべき二つの点についての対応関
係の有無を判定して行なっている。そして、構成要素検
索部2aにより検索された類似構造が、部分対応付け情
報として共通構造抽出部1Aに与えられるようになって
いる。
【0067】さらに、図4において、3は二つの点集合
A,Bについての部分対応付け情報が予め明確になって
いない場合にこれらの二つの点集合A,Bを適切に重ね
合わせるための核となる点集合を核構造として抽出する
核構造抽出部で、この核構造抽出部3は、セグメント分
割部3a,セグメント検索部3b,類似性判別部3cお
よび核構造選択部3dを有して構成されている。
【0068】ここで、セグメント分割部3aは、一方の
点集合Aを、その順序に従って先頭の点から1点ずつず
らしながら一定の長さ(L)で分割してセグメント化す
るものであり、セグメント検索部3bは、セグメント分
割部3aにより分割された各セグメントに類似する点集
合をプローブ(検索キー)として、他方の点集合Bから
類似構造を検索するものである。
【0069】また、類似性判別部3cは、セグメント検
索部3bにより検索された類似構造の類似性を判別する
ものであり、核構造選択部3dは、類似性判別部3cに
よる類似性判別結果に従って、検索された類似構造のう
ち最も類似するものを核構造として選択し、その核構造
を部分対応付け情報として共通構造抽出部1Aへ出力す
るものである。
【0070】なお、核構造抽出部3による核構造抽出手
順の詳細については、図31〜図44により後述する。
また、図2〜図4に示した本実施例の各構成要素は、入
出力部,CPU,メモリ,データベース(後述する立体
構造等のデータを保持するもの)を有し、情報処理機能
をそなえた装置(全体的なシステム構成については後述
する)により実現される。
【0071】(B)本実施例の基本的な動作の説明 上述した本実施例の共通構造抽出装置1では、三次元空
間に配置される点集合からなる二つの立体構造につい
て、部分的に対応付けることができることが分かってい
る部分対応付け情報に基づいて全体構造を重ね合わせ、
重なり合う共通部分の長さ〔点(要素)の数〕を算出
し、さらに最長かつ最小のrmsd値をもつ共通部分の
点集合を、二つの立体構造間の共通構造として抽出して
いる。ここで抽出された共通構造は、点集合AとBによ
り表される二つの立体構造がそなえる共通な構造(部分
対応付け情報で表す構造を除く)を表し、共通な構造を
持つことにより両者の立体構造は共通な機能を持つこと
が予測される。
【0072】また、類似構造検索部2を用いることによ
り、二つの立体構造の点集合A,Bにおいて、一方の点
集合Aの構成要素をプローブ(検索キー)とし、他方の
点集合B(ターゲット)について類似構造を検索し、検
索された類似構造を部分対応付け情報として用い、上述
と同様の手順(詳細手順は後述)で共通構造を抽出す
る。そして、同様の検索・抽出処理を、一方の点集合A
を分割して得られた核構成要素毎に順次繰り返すること
により、二つの立体構造間の共通構造が自動抽出され
る。
【0073】つまり、点集合Aの全ての構成要素につい
て点集合Bを検索し、点集合Aの構成要素と類似な構造
を点集合Bの成す構造から検索する。複数個の類似構造
が検索されると、最も類似性の高いものを選択する。こ
のような検索処理により類似構造が得られると、その類
似構造を部分対応付け情報として共通構造抽出部1Aへ
供給する。共通構造抽出部1Aにおいては、全体構造重
合部10により二つの点集合A,Bの全体が部分対応付
け情報を基準にして重ね合わせられ、共通部分の抽出が
行なわれるが、その抽出処理は点集合Aの各構成要素に
ついて順に行なわれ、全ての組み合わせの中から最長と
なる構造が抽出される。
【0074】さらに、二つの立体構造の重ね合わせの中
心となる共通部分(核構造)が分かっていない場合に
は、核構造抽出部3により、一方の立体構造をセグメン
ト化して他方の立体構造からセグメントと類似した構造
を検索して対応づけることにより、中心となる核構造が
抽出される。この核構造抽出部3により、二つの立体構
造を表す点集合A,Bの重ね合わせの中心となる構造
(核構造)を抽出する場合、セグメント分割部3aによ
り、一方の点集合Aを一定の長さ(L)で分割してセグ
メント化する。次に、セグメント検索部3bにより立体
構造を構成する要素(点)の順序を考慮し、分割された
セグメントの構造に類似した構造を他方の立体構造(点
集合B)から検索する。
【0075】そして、類似性判別部3cにより、各セグ
メントに対応した点集合Bの類似構造(検索結果)に対
し、検索のキーとなるセグメントを含む立体構造(点集
合A)と検索された類似構造を含む立体構造(点集合
B)とを総合して類似性を判別し、両立体構造の核構造
を順次形成する。全セグメントについての核構造が得ら
れると、核構造選択部3dにより核構造が一定長以上の
ものを選択し、その核構造を部分対応付け情報として用
いて共通構造抽出部1Aによる処理を行なう。複数の核
構造が選択されるた場合には、各核構造について共通構
造抽出処理を行なう。
【0076】(B1)順序付けられた点集合の定義 以下に、本実施例の動作をより詳細に説明するが、ここ
で、まず以下の説明で使用する立体構造を表す順序付け
られた点集合について定義する。二つの立体構造は、各
々、点集合A={a1 ,a2 ,…,ai ,…,aNA
(1≦i≦NA)と、点集合B={b1 ,b2 ,…,b
j ,…,bNB}(1≦j≦NB)とにより形成され、各
点(各要素)は、ai =(xi ,yi ,zi ),bj=(x
j ,yj ,zj ) からなる三次元座標で表される。な
お、NA,NBはそれぞれ点集合A,Bにおける全要素
の数である。
【0077】点集合Aでは、a1 <a2 <…<aNA(ま
たはa1 >a2 >…>aNA)なる順序関係が成り立ち、
同様に点集合Bでもb1 <b2 <…<bNB(またはb1
>b 2 >…>bNB)なる順序関係が成り立つものとす
る。このような点集合としては、例えば、各種のタンパ
ク質の立体構造を表す点集合(アミノ酸を点とみなした
集合)等がある。
【0078】(B2)全体構造の重ね合わせ そして、図2に示す本実施例の共通構造抽出部1Aにお
いて、共通構造の抽出を行なう場合、二つの立体構造を
表す点集合A,Bについて予め既知のデータとして部分
的に共通な構造が分かっている場合、全体構造重合部1
0は、その部分対応付け情報(点集合A,Bに対応して
それぞれSA,SBとする)に基づき、順序付けられた
二つの点集合A,Bの全体を重ね合わせる。なお、部分
対応付け情報は、順序付けられた点集合A,Bの部分集
合により構成される。
【0079】ここで、点集合A,Bの部分対応付け情報
SA,SBは、それぞれ、M個の点から成る部分集合S
A={ama(1) ,ama(2) …,ama(M) },SB={b
mb(1 ) ,bmb(2) …,bmb(M) }として表される、順序
付けられた点集合とする〔1≦ma(1) <ma(2) <…<ma
(M) ≦NA,1≦mb(1) <mb(2) <…<mb(M) ≦N
B〕。
【0080】また、これらの二つの部分集合SA,SB
の各要素は、先頭から順に対応付けられているものとす
る。即ち、ama(1) とbmb(1) ,ama(2) とbmb(2)
…,ama(M) とbmb(M) がそれぞれ対応付けられてい
る。この時、各部分集合SA,SBの要素間では、点集
合A,Bの順序関係に基づいて順序関係が成り立ち、順
序関係が逆転するような対応関係は許されないものとす
る。
【0081】上述のごとく指定された対応付け情報S
A,SBに基づいて、全体構造重合部10により、二つ
の点集合A,Bの各要素が最も多くの部分で重なるよう
に回転角を算出し、算出した回転角に基づいて点集合を
回転させ、二つの点集合A,Bの全体を重ね合わせる
が、その手順〜を以下に説明する。 重心算出部10aにより、部分対応付け情報SA,S
Bに基づいて各部分集合の重心GSA,GSBを算出する。
【0082】重心算出部10aで算出した重心GSA
SBを三次元座標系の原点とするように、平行移動部1
0bにより、点集合A,Bを平行移動し、これらの重心
SA,GSBを一致させる。この際、部分対応付け情報S
A,SBを構成する各点の座標も平行移動される。 部分対応付け情報SA,SBを最適に重ね合わせる回
転角Uを、回転角算出部10cにより算出する。ここで
は、部分対応付け情報SAを回転し、部分対応付け情報
SBに最適に重ね合わせるものとする。回転角Uを算出
する手法としては、従来から知られた手法を利用する
〔例えば、Wolfgang Kabsh et.al. Acta Cryst.(1976).
A32,922 に記載されている〕。
【0083】回転角算出部10cにより算出した回転
角Uに基づいて、回転重合部10dにより点集合Aを回
転させる。この時、部分対応付け情報SAを構成する各
点の座標も回転させる。この時点で、二つの点集合A,
Bは、部分対応付け情報SA,SBに基づいて空間的に
重ね合わされた状態になる。このようにして、最適な回
転角Uで、二つの点集合A,Bの全体構造が重ね合わさ
れると、次に、共通部分長さ算出部11により、重ね合
わされた点どうしの距離に基づいて空間的に隣接する点
どうしを識別し、共通部分の長さ〔共通構造を成す点
(要素)の数〕を算出するとともに、累積距離算出部1
2により、共通構造のrmsd値を算出する。そして、
共通部分の長さ〔最長共通構造長さ:LCS(Longest C
ommon Structure)〕およびrmsd値に基づいて、共通
部分抽出部13により共通構造の抽出が行なわれる。
【0084】(B3)最長共通構造長さ(LCS)の算出 共通部分長さ算出部11の構成例を図5に示し、また、
共通部分長さ算出部11,累積距離算出部12および共
通部分抽出部13の動作を、図6〜図14により説明す
る。図5に示すように、本実施例の共通構造抽出部1A
における共通部分長さ算出部11は、対応テーブル作成
部11aおよびLCS算出部(最長共通部分長さ算出
部)11bを有して構成されている。
【0085】ここで、対応テーブル作成部11aは、全
体構造重合部10により重ね合わされた二つの点集合
A,Bの共通部分として対応付けられる可能性のある点
の組合せを格納する対応テーブルを作成するもので、よ
り具体的には、全体構造重合部10により重ね合わせた
点どうしの距離を考慮して、図7〜図9にて後述する手
順に従い、図11〜図14に示すような対応テーブルを
作成するものである。
【0086】また、LCS算出部11bは、対応テーブ
ル作成部11aにより作成された対応テーブルに基づい
て、二つの点集合A,Bの共通部分として対応付けられ
る点集合において対になる点の数(要素数)を最長共通
構造長さとして算出するものである。さて、二つの点集
合A,Bを重ね合わされた部分(共通部分)の中で、所
定の閾値ERROR 以下の距離に位置する点集合A(プロー
ブ)の要素ai と点集合B(ターゲット)の要素bj
を点対とすると、全ての点対に対して以下の計算スキー
マを適用することによって、最長共通部分の長さ(LC
S)が算出される。
【0087】下記関数LCS(i,j)は、点集合A中
の1〜i番目までの点と、点集合B中の1〜j番目まで
の点とから構成される最長共通部分の長さとする。従っ
て、LCS(NA,NB)は、二つの点集合A,Bの全
体での最長共通部分の長さを表すことになる。ここで、
全ての点対は、予めiまたはjの大きさの順にソートさ
れているものとする。以下では、便宜上、iの順番にソ
ートされているものと考える。
【0088】
【数2】
【0089】上記計算スキーマでは、i0 <iかつj0
<jなる点対(i0 ,j0 )が存在しない場合、その点
対(i,j)の最長共通部分の長さLCS(i,j)は
1になる。また、i0 <iかつj0 <jなる点対
(i0 ,j0 )が存在する場合、その点対の中で最長共
通部分の長さが最大となる点対(i0 ,j0 )の長さL
CS(i0 ,j0 )に1を加算したものが、最長共通部
分の長さLCS(i,j)になる。
【0090】(b1)対応テーブルの作成 対応テーブルの作成に際して、重ね合わされた点集合
A,Bの点対の距離をdistance(ai ,bj ) とする。この
距離distance(ai ,bj ) が、指定された閾値ERROR 以内
の点対は隣接するものと考え、点集合A,B間で空間的
に隣接する点対を登録した対応テーブルを作成する。
【0091】図6に対応テーブルの構成を示す。ここ
で、対応テーブルに登録されているデータのエントリ数
を“max ”とする。この“max ”は、点集合Bに隣接す
る点を持つ点集合Aの要素数である。そして、対応テー
ブルの各エントリに登録されるデータの各要素は (i,j,
d,c,p)で表される。
【0092】ここで、iは点集合Aの要素の添字で、点
対を成す点集合Aの要素がi番目の点ai であることを
示す。同様に、jは点集合Bの要素の添字で、点ai
点対を成す点集合Bの要素がj番目の点bj であること
を示す。また、dは点ai と点bj との間の距離(各点
i ,bj の三次元座標から算出されるもの)、cはコ
スト関数演算部12aにより算出される累積コスト値で
ある。この累積コスト値cの初期値としては、∞(無限
大値)、即ち実際のコスト値に対して充分に大きな値が
設定されている。この累積コスト値cの演算について
は、図15〜図30により後述する。
【0093】さらに、pは次の要素へのポインタで、次
の要素が存在しない場合、このポインタpには“NULL”
が格納される。上述のような対応テーブルに対して、対
応テーブル作成部11aにより初期値を設定するための
手順(初期テーブル作成手順)を、図7に示すフローチ
ャート(ステップS1〜S14)に従って説明する。
【0094】なお、図7において、“index ”はエント
リ番号〔図6におけるk(=0〜max-1)〕、“NULL”
は、前述した通り、各エントリ(点集合Aの各要素に対
応)に対応する点集合Bの要素として次に続く要素が無
い場合にポインタpの部分に格納されるデータである。
また、“first ”は、最初は“TRUE”に設定されるが、
各エントリに対し点集合Aの要素に対応する点集合Bの
要素(両者間の距離dがERROR 以内の要素)が一つでも
見つかってポインタpが更新されると“FALSE ”に変更
されて、そのエントリにおける要素が設定されたことを
表すものである。
【0095】初期テーブル作成に際しては、図7に示す
ように、まず、i=0,j=0,index (エントリ番号
k)=0に設定し(ステップS1)、点集合Aの要素の
添字iが点集合Aの要素数NAよりも小さいか否かを判
定する(ステップS2)。i<NAであれば、初期デー
タを登録すべき領域(エントリ)を指定する“next”と
して“ table〔index 〕”を設定するとともに、“firs
t ”として前述の通り“TRUE”を設定する(ステップS
3)。
【0096】ついで、点集合Bの要素の添字jが点集合
Bの要素数NBよりも小さいか否かを判定する(ステッ
プS4)。j<NBであれば、点ai と点bj との間の
距離d=distance(ai ,bj ) を算出し(ステップS
5)、その距離dが所定の閾値ERROR 以内かどうかを判
定する(ステップS6)。d≦ERROR であれば、“nex
t”により指定される対応テーブルのエントリ番号“ind
ex ”の領域“ table〔index 〕”に格納されている末
尾の要素であるポインタを、(i,j,d,∞,NULL)を格納デ
ータとする要素を指すように更新する(ステップS
7)。
【0097】この後、“first ”の設定が“TRUE”であ
るか否かを判定し(ステップS8)、“first =TRUE”
であれば、“first ”を“FALSE ”に設定してから(ス
テップS9)、点集合Bの要素の添字jに1だけ加算し
(ステップS10)、ステップS4へ戻る。なお、ステ
ップS6にてd>ERROR と判定された場合や、ステップ
S8にて“first ≠TRUE”と判定された場合にも、ステ
ップS10による処理の後、ステップS4へ戻る。
【0098】ステップS4にてj≧NBと判定された場
合には、“first ”の設定が“FALSE ”であるか否かを
判定し(ステップS11)、“first =FALSE ”である
場合には、エントリ番号“index ”に1だけ加算する
(ステップS12)。これにより、次のエントリへの初
期データ登録に移行することになり、点集合Aの要素の
添字iに1だけ加算してから(ステップS13)、ステ
ップS2へ戻る。
【0099】また、ステップS11にて“first ≠FALS
E ”つまり“first =TRUE”と判定された場合には、要
素ai に対応する点集合Bの要素が一つも見つかってい
ない状態であるので、エントリ番号の更新処理(ステッ
プS12)を行なうことなく、ステップS13に移行
し、点集合Aの要素の添字iに1だけ加算してから、ス
テップS2へ戻る。
【0100】ステップS2にてi≧NAと判定された場
合には、点集合Aの全ての要素についての登録を終了し
たものと判断し、“max =index ”と設定して(ステッ
プS14)、初期テーブル作成処理を終了する。このよ
うな図7に示すアルゴリズムにより、図6に示す対応テ
ーブルに初期データを設定した初期テーブルが作成さ
れ、各エントリ毎に点集合Aの各要素に対応して一定距
離内に存在する点集合Bの一つまたは複数の要素が、エ
ントリ順に設定されることになる。
【0101】図10に、順序付けられた二つの点集合の
具体的な配置例を示し、図11に、図10に示す二つの
点集合について作成された初期テーブルの例を示す。図
10に示す例では、一方の点集合P(プローブ;前記点
集合Aに対応)={P1,P2,P3,P4,P5}
と、他方の点集合T(ターゲット;前記点集合Bに対
応)={T1,T2,T3,T4,T5,T6,T7}
とを重ね合わせた状態が示されている。そして、点P1
から所定の閾値ERROR 以内の範囲には点集合Tの要素は
存在せず、点P2から所定の閾値ERROR 以内の範囲には
点T1が存在し、点P3から所定の閾値ERROR 以内の範
囲には点T1,T2が存在し、点P4から所定の閾値ER
ROR 以内の範囲には点T5,T6が存在し、点P5から
所定の閾値ERROR 以内の範囲には点T6,T7が存在す
るものとする。
【0102】この図10に示すような二つの点集合P,
Tについて、図7に示す手順で初期テーブルを作成する
と、図11に示すような初期テーブル(各点の隣接関係
を表す対応テーブルの初期状態)が作成されることにな
る。この図11において、各エントリに距離dとして設
定される値は、例えば、D21=0.3,D31=1.
0,D32=0.5,D45=0.4,D46=1.
2,D56=0.6,D57=1.4とする。また、各
エントリには、累積コスト値c(C21,C31,C3
2,C45,C46,C56,C57)の初期値とし
て、全て∞(充分に大きな値)が設定される。
【0103】(b2)最長共通部分の長さの算出 上述のごとく初期テーブルが作成されると、図5のLC
S算出部11bは、作成した対応テーブルを初期状態か
ら更新しながら、LCS(Longest Common Structure;
対応付けられた点集合の要素数)を算出する。LCS算
出部11bによるLCS算出手順を、図8に示すフロー
チャート(ステップS15〜S24)および図9に示す
フローチャート(ステップS25〜S33)に従って説
明する。
【0104】なお、図8は、対応テーブルの更新による
LCS算出手順を説明するためのフローチャートであ
り、図9は、LCS算出に際して必要となる関数“chec
k pair(k,i,j) ”のアルゴリズム(対応する要素の探索
処理)を説明するためのフローチャートである。また、
図中、kは図6にて前述したエントリ番号、“parent”
は対応テーブルのk番目のエントリへのポインタが格納
される領域である。
【0105】図8に示すアルゴリズムでは、エントリ番
号k=1からmax-1 までの各要素に対して以下の処理を
施すことによってLCSを算出する。まず、初期値とし
てlcs =0およびk=1を設定し(ステップS15)、
エントリ番号kが“max ”(対応テーブルに登録されて
いるデータのエントリ数)よりも小さいか否かを判定す
る(ステップS16)。
【0106】k≧max であれば、処理を終了するが、k
<max であれば、対応テーブル中のk番目のエントリの
先頭要素へのポインタを領域parentへ格納し、その代わ
りに対応テーブルのk番目のエントリには要素が無いこ
とを表す“NULL”を設定する〔ステップS17;図12
(a),図13(a),図14(a) 参照〕。そして、領域parent
のポインタが指すデータが“NULL”であるか否かを判定
し(ステップS18)、“parent=NULL”であれば、エ
ントリ番号kに1だけ加算してから(ステップS1
9)、ステップS16に戻る一方、“parent≠NULL”で
あれば、領域parentのポインタが指す要素を先頭から順
に取り出し、エントリ番号k0=k−1番目の各要素に
対し以下の処理を行なう。なお、領域parentのポインタ
が指す要素の値を(i,j,d,c,p)とする。
【0107】即ち、対応テーブルのエントリ番号k0
(k0≧0)番目の要素を先頭から順に参照し、エント
リ番号k0から0までの間で、領域parentのポインタが
指す要素の添字i,jよりも小さい値の添字を持ち、且
つ、最大のエントリ番号k0を持つ要素を検索し、対応
する要素が存在するか否かを、関数check pairによりチ
ェックする(ステップS20)。
【0108】このチェックでは、対応する要素の探索を
行なう関数check pair(k,i,j)が実行され、そのアルゴ
リズムを図9に示す。関数check pair(k,i,j)によるチ
ェックの開始時には、関数check pair(k,i,j)のkとし
てk0を設定してから(ステップS25)、k0≧0で
あるか否かを判定する(ステップS26)。k0<0で
あれば、関数check pair(k-1,i,j)の値として−1をス
テップS20へ返す(ステップS27)。
【0109】一方、k0≧0であれば、対応テーブルの
k0番目のエントリの先頭要素へのポインタを領域next
に格納する(ステップS28)。このとき、領域nextの
ポインタが指す要素の値を(pi,pj,pd,pc,pp)とする。そ
して、領域nextのポインタが指すデータが“NULL”であ
るか否かを判定し(ステップS29)、“next=NULL”
であれば、k0から1だけ減算してから(ステップS3
0)、ステップS26に戻る一方、“next≠NULL”であ
れば、pi<i且つpj<jであるか否かを判定する(ステ
ップS31)。
【0110】このステップS31の条件を満たす場合に
は、その時のk0を関数check pair(k-1,i,j)の値とし
てステップS20へ返す一方(ステップS32)、ステ
ップS31の条件が満たされない場合には、次の要素へ
のポインタppを領域nextに格納してから(ステップS3
3)、ステップS29に戻る。図9にて上述した手順に
よれば、対応要素が検索されると、対応テーブルのk0
+1番目のエントリの要素の最後に、領域parentのポイ
ンタが指す要素を追加する。つまり、対応テーブルのk
0+1番目のエントリの要素の末尾に登録されている要
素のポインタを、(i,j,d,c,NULL)をを格納データとする
要素を指すように更新する(図8のステップS21)。
【0111】また、対応要素がなければ、k0番目のエ
ントリにおける次の要素を取り出して、同様の処理を繰
り返し行なう。もし、k0番目のエントリに該当する要
素がなければ、対応テーブルのk0−1番目のエントリ
に対して同様の処理を繰り返し行なう。ステップS26
でk0<0と判定された場合には、関数check pair(k-
1,i,j)の値として−1が出力されるので、ステップS
21の処理により、対応テーブルの0番目のエントリの
末尾に要素が追加されることになる。
【0112】そして、ステップS21の処理を終了した
時点で、k0+1>lcs であるか否かを判定し(ステッ
プS22)、k0+1≦lcs である場合には、領域pare
ntのポインタが現在指している要素におけるポインタp
を、領域parentに格納し(ステップS23)、ステップ
S18に戻り上述と同様の処理を繰り返し行なう。一
方、ステップS22でk0+1>lcs と判定された場合
には、要素を登録した最大のエントリ番号をlcs に格納
する。つまり、lcs =k0+1とする(ステップS2
4)。
【0113】この時点で、lcs は対応テーブルで要素が
登録されているエントリ番号の最大値を示しているの
で、実際のLCS(最大共通構造長さ,対応付けられた
点集合の要素数)は、lcs に1だけ加算したものとなる
(LCS=lcs +1)。図10に示すような二つの点集
合P,Tについて作成された初期テーブル(図11参
照)に対し、図8,図9にて説明した処理を順次実行し
た結果を、図12〜図14に示す。
【0114】図12(a),(b) では、k=1の場合の処理
が示されており、図12(a) に示すように、k=1のエ
ントリにおける要素を領域parentに格納して、上述の処
理を行なうことで、結果として図12(b) に示すように
対応テーブルの更新が行なわれる。つまり、k=1のエ
ントリにおける最初の要素がk=0のエントリの末尾に
追加されている。
【0115】同様に、図13(a),(b) では、k=2の場
合の処理が示されており、図13(a) に示すように、k
=2のエントリにおける要素を領域parentに格納して、
上述の処理を行なうことで、結果として図13(b) に示
すように対応テーブルの更新が行なわれる。実際には、
図13(a),(b) に示す例では、更新前と更新後との変化
はない。
【0116】同様に、図14(a),(b) では、k=3の場
合の処理が示されており、図14(a) に示すように、k
=3のエントリにおける要素を領域parentに格納して、
上述の処理を行なうことで、結果として図14(b) に示
すように対応テーブルの更新が行なわれる。実際には、
図14(a),(b) に示す例でも、更新前と更新後との変化
はない。
【0117】なお、図12〜図14に示す対応テーブル
では、累積コスト値に対する処理は何も行なわないの
で、その累積コスト値の表示は省略されている。そし
て、図10〜図14に示す例では、最終的にk=3のエ
ントリまで要素が格納されていることから、前述したlc
s の値は3であり、最長共通構造長さLCSは4(=lc
s +1)となり、この値がLCS算出部11bから出力
される。
【0118】(B4)共通構造(最長共通部分)の抽出処理 LCS算出部11bによりLCSを算出するために作成
・更新された図14に示す最終的な対応テーブルは、lc
s 番目のエントリに登録されている要素から逆順に、lc
s-1,lcs-2,…,0番目のエントリにおける要素により構
成される要素数lcs +1個の最長共通部分が存在するこ
とを示している。
【0119】そこで、図2に示す本実施例の累積距離算
出部12(コスト関数演算部12a)および共通部分抽
出部13では、図15〜図17に示すアルゴリズムに基
づいて対応テーブルを探索し、順序関係を満たす最長の
共通部分で、且つ、rmsd値が最小の組合せを検出し
ている。rmsd値は、対応テーブルの各要素に登録さ
れている距離dk の平均二乗距離の平方根であり、次式
により算出される。
【0120】
【数3】
【0121】以下に、本実施例における最長共通部分抽
出手順を、図15に示すフローチャート(ステップS3
4〜S39)に従って説明する。なお、図16は、図1
5に示す処理において実行される関数“align(i,j,k,su
m)”の処理内容を説明するためのフローチャート(ステ
ップS40〜S50)、図17は、図16に示す処理に
おいて実行される関数“look for pair(temp,i,j,su
m)”の処理内容を説明するためのフローチャート(ス
テップS51〜S55)である。
【0122】図15に示すように、最長共通部分の抽出
に際しては、まず、例えば図14に示すように作成・更
新された対応テーブルのlcs 番目のエントリに登録され
ている先頭要素へのポインタを、領域rootに格納する
(ステップS34)。そして、領域rootのポインタが指
すデータが“NULL”であるか否かを判定し(ステップS
35)、“root=NULL”であれば、後述する配列best c
a,best cb,best cd に格納されている値を表示して(ス
テップS39)、処理を終了する。
【0123】なお、配列best ca には、点集合A(点集
合P)における最長共有部分の添字iが格納され、配列
best cb には、点集合B(点集合T)における最長共有
部分の添字jが格納され、配列best cd には、点ai
点bj との間の距離が格納される。一方、ステップS3
5で“root≠NULL”であると判定された場合には、領域
rootのポインタが指す要素の値(i,j,d,c,p)における累
積コスト値cを更新するとともに、その要素の各値を各
配列および変数に格納する(ステップS36)。つま
り、c=d2 ,ca k =i,cb k =j,cd k =d,
sum =d2 と設定する。
【0124】この後、図16に示すフローチャートに従
って処理される関数align(i,j,lcs-1,sum)を実行し、残
りの最長共有部分を決定する(ステップS37)。ここ
で、図16により関数align(i,j,k,sum)の処理内容を説
明する。図16に示すように、まず、k(=lcs-1)<0
であるか否かを判定する(ステップS40)。
【0125】k<0であれば、rmsd値を、 sum/(l
cs+1) 1/2 により算出し(ステップS41)、そのrm
sd値が変数best rmsd(最小のrmsd値)よりも小さ
いか否かを判定する(ステップS42)。best rmsd ≦
rmsdであれば、関数align(i,j,k,sum)の処理を終了する
一方、best rmsd >rmsdであれば、変数best sum(最小
のsum)として今回のsum を設定するとともに、変数best
rmsd として、ステップS41にて算出されたrmsd
値を設定する。また、0≦k≦lcs に対して、配列best
ca k ,best cb k として、ca k ,cb k を設定する
(ステップS43)。
【0126】一方、ステップS40でk≧0であると判
定された場合には、今回のsum が現在の変数best sumよ
りも小さいか否かを判定する(ステップS44)。sum
≧best sumであれば、関数align(i,j,k,sum)の処理を終
了する。また、ステップS44でsum <best sumであれ
ると判定された場合には、対応テーブルのk番目のエン
トリの先頭要素へのポインタを、領域tempに格納してか
ら(ステップS45)、図17に示すフローチャートに
従って処理される関数look for pair(temp,i,j,sum)を
実行し、その関数による処理結果を領域elemに設定する
(ステップS46)。
【0127】図17により関数look for pair(temp,i,
j,sum)の処理内容を説明する。このとき、領域tempの
ポインタが指す要素の値を(ti,tj,td,tc,tp)とする。図
17に示すように、まず、領域tempのポインタが指すデ
ータが“NULL”であるか否かを判定し(ステップS5
1)、“temp=NULL”であれば、“NULL”を関数look f
or pair(temp,i,j,sum)の値としてステップS46へ返
す(ステップS52)。
【0128】これに対し、ステップS51で“temp≠NU
LL”であると判定された場合には、ti<i,tj<jであ
り且つtc>sum+td2 であるか否かを判定する(ステップ
S53)。ステップS53の条件を満たしている場合に
は、“temp”を関数look for pair(temp,i,j,sum)の値
としてステップS46へ返す一方(ステップS54)、
ステップS53の条件が満たされていない場合には、領
域tempに現在格納されているポインタが指す要素のもつ
次の要素へのポインタtpを、領域tempに格納してから
(ステップS55)、ステップS51に戻る。
【0129】このようにして得られた関数look for pai
r(temp,i,j,sum)の値が領域elemに設定されると、図1
6に示すように、領域elemのデータが“NULL”であるか
否かを判定し(ステップS47)、“elem=NULL”であ
れば、関数align(i,j,k,sum)の処理を終了する。ステッ
プS47で“elem≠NULL”であると判定された場合(つ
まり“elem=temp”)には、領域elemのポインタが指す
要素の値(pi,pj,pd,pc,pp)の累積コスト値pcを更新する
とともに、各値を一時記憶領域に保存する(ステップS
48)。つまり、pc=sum +pd2 ,ca k =pi,cb k
=pj,cd k =pdと設定する。
【0130】この後、関数align(i,j,k-1,sum)を実行
し、残りの最長共有部分を決定してから(ステップS4
9)、領域elemに現在格納されているポインタが指す要
素のもつ次の要素へのポインタppを、領域tempに格納し
てから(ステップS50)、ステップS46に戻る。関
数align(i,j,k,sum)について、上述のような処理を行な
い、その処理を終了すると、図15のステップS37か
らステップS38へ移行し、領域rootに現在格納されて
いるポインタが指す要素のもつ次の要素へのポインタp
を、領域rootに格納してから(ステップS38)、ステ
ップS35に戻る。
【0131】そして、最終的に、ステップS35にて
“root=NULL”であると判定された時に、配列best ca,
best cb,best cd に格納されている値が、最長共有部分
として表示・抽出されることになる(ステップS3
9)。次に、図15〜図17にて上述した本実施例の最
長共通部分抽出処理について、より簡単に説明する。対
応テーブルはネットワーク構造であるため、最長共通部
分を探索する際には、同一要素を何度もノードとして巡
回することになる。しかし、最長共通部分の探索に際し
ては、rmsd値が最小となる経路を選択すればよいた
め、これまでに各ノード(要素)を巡回した際の各要素
間の距離の二乗和を累積コスト値c(コスト関数)とす
ると、新たに探索する経路の累積コスト値がこれまでの
累積コスト値よりも小さくなる場合のみ探索を行なえば
よいことになる。
【0132】そこで、本実施例では、対応テーブルにお
ける経路の探索では、最長共有部分を形成する各要素の
累積コスト値cをコスト関数演算部12aにて算出する
ことにより、新たに探索する経路の累積コスト値がこれ
までの累積コスト値よりも小さくなる場合(図17のス
テップS53でYES判定の場合)のみ経路探索を継続
し、同一ノードの重複巡回という無駄な探索を防止し
て、最長共通部分(共通構造)の抽出処理の高速化を実
現している。
【0133】図14に示す最終的な対応テーブルに対
し、図15〜図17にて上述した最長共通部分の抽出処
理を行なった具体例を図18〜図28に示す。図18
は、図14の対応テーブルに、各要素の距離および累積
コスト値として、前述した具体的な初期値を設定した初
期状態を示している。そして、図19に示すように、k
=3のエントリにおける先頭要素から、最長共有部分の
探索を開始する。このとき、その要素の累積コスト値C
56として、∞に代えて点対P5,T6間の距離D56
(=0.6)の二乗値0.36を格納する。
【0134】図20に示すように、k=3のエントリに
おける点対P5,T6を含む要素から、k=2のエント
リにおける先頭要素を探索する。その先頭要素における
点対P4,T5の添字は、それぞれ点対P5,T6の添
字よりも小さい。また、点対P4,T5間の距離D45
(=0.4)の二乗値0.16と、一つ前の要素までの
累積コスト値0.36とを加算し、累積コスト値0.5
2を算出する。そして、今回算出された累積コスト値
0.52と、現在累積コスト値C45として格納されて
いる∞とを比較すると、明らかに累積コスト値0.52
の方が小さいので、今回算出された累積コスト値0.5
2を新たな累積コスト値C45として格納する。
【0135】同様に、図21に示すように、k=2のエ
ントリにおける点対P4,T5を含む要素から、k=1
のエントリにおける先頭要素を探索する。その先頭要素
における点対P3,T2の添字は、それぞれ点対P4,
T5の添字よりも小さい。また、点対P3,T2間の距
離D32(=0.5)の二乗値0.25と、一つ前の要
素までの累積コスト値0.52とを加算し、累積コスト
値0.77を算出する。そして、今回算出された累積コ
スト値0.77と、現在累積コスト値C32として格納
されている∞とを比較すると、明らかに累積コスト値
0.77の方が小さいので、今回算出された累積コスト
値0.77を新たな累積コスト値C32として格納す
る。
【0136】同様に、図22に示すように、k=1のエ
ントリにおける点対P3,T2を含む要素から、k=0
のエントリにおける先頭要素を探索する。その先頭要素
における点対P2,T1の添字は、それぞれ点対P3,
T2の添字よりも小さい。また、点対P2,T1間の距
離D21(=0.3)の二乗値0.09と、一つ前の要
素までの累積コスト値0.77とを加算し、累積コスト
値0.86を算出する。そして、今回算出された累積コ
スト値0.86と、現在累積コスト値C21として格納
されている∞とを比較すると、明らかに累積コスト値
0.86の方が小さいので、今回算出された累積コスト
値0.86を新たな累積コスト値C21として格納す
る。
【0137】次に、図23に示すように、k=1のエン
トリにおける点対P3,T2を含む要素から、k=0の
エントリにおける2番目の要素を探索する。その2番目
の要素における点P3は、一つ前の要素の点P3と一致
しているため、当該探索経路は不適なものと判断され
る。そして、図24に示すように、k=3のエントリに
おける点対P5,T6を含む要素から、k=2のエント
リにおける2番目の要素を探索する。その2番目の要素
における点T6は、一つ前の要素の点T6と一致してい
るため、当該探索経路は不適なものと判断される。
【0138】以上の処理により、k=3のエントリにお
ける先頭要素を始点とする探索は終了し、次に、図25
に示すように、k=3のエントリにおける2番目の要素
を起点として、最長共有部分の探索を開始する。このと
き、その要素の累積コスト値C57として、∞に代えて
点対P5,T7間の距離D57(=1.4)の二乗値
1.96を格納する。
【0139】図26に示すように、k=3のエントリに
おける点対P5,T7を含む要素から、k=2のエント
リにおける先頭要素を探索する。その先頭要素における
点対P4,T5の添字は、それぞれ点対P5,T7の添
字よりも小さい。また、点対P4,T5間の距離D45
(=0.4)の二乗値0.16と、一つ前の要素までの
累積コスト値1.96とを加算し、累積コスト値2.1
2を算出する。そして、今回算出された累積コスト値
2.12と、現在累積コスト値C45として格納されて
いる0.52とを比較すると、明らかに今回算出された
累積コスト値2.12の方が大きいので、当該探索経路
は不適なものと判断される。
【0140】図27に示すように、k=3のエントリに
おける点対P5,T7を含む要素から、k=2のエント
リにおける2番目の要素を探索する。その2番目の要素
における点対P4,T6の添字は、それぞれ点対P5,
T7の添字よりも小さい。また、点対P4,T6間の距
離D46(=1.2)の二乗値1.44と、一つ前の要
素までの累積コスト値1.96とを加算し、累積コスト
値3.4を算出する。そして、今回算出された累積コス
ト値3.4と、現在累積コスト値C46として格納され
ている∞とを比較すると、明らかに累積コスト値3.4
の方が小さいので、今回算出された累積コスト値3.4
を新たな累積コスト値C46として格納する。
【0141】図28に示すように、k=2のエントリに
おける点対P4,T6を含む要素から、k=1のエント
リにおける先頭要素を探索する。その先頭要素における
点対P3,T2の添字は、それぞれ点対P4,T6の添
字よりも小さい。また、点対P3,T2間の距離D32
(=0.5)の二乗値0.25と、一つ前の要素までの
累積コスト値3.4とを加算し、累積コスト値3.65
を算出する。そして、今回算出された累積コスト値3.
65と、現在累積コスト値C32として格納されている
0.77とを比較すると、明らかに今回算出された累積
コスト値3.65の方が大きいので、当該探索経路は不
適なものと判断される。
【0142】図29は、図18〜図28により上述した
具体的な処理手順を一つの木構造にまとめて図示したも
のである。図14に示すごとく得られた対応テーブルか
らは、LCS=4の最長共通部分の組合せを3通り抽出
することができる(図30参照)。その3通りの点対の
組合せは、(P5,T6)-(P4,T5)-(P3,T2)-(P2,T1) ;(P
5,T7)-(P4,T5)-(P3,T2)-(P2,T1) ;(P5,T7)-(P4,T6)-
(P3,T2)-(P2,T1) である。
【0143】しかし、本実施例の最長共通部分抽出処理
では、コスト関数(点対間の距離の二乗和)を導入する
ことにより、最適化探索が行なわれ、コスト関数の値
(累積コスト値)が最小になる組合せ(経路)、つまり
はrmsd値が最小になる組合せが、上記3通りの組合
せの中から最長共通部分(共通構造)として抽出される
ことになる。
【0144】上述のようなコスト関数を導入しない場
合、つまり全解探索を行なった場合には、図30に示す
ように、LCS=4の最長共通部分の組合せを3通り全
て抽出した後、各組合せ毎にrmsd値を算出し、その
rmsd値が最小になるものを選択・抽出しなければな
らないので、前記最適化探索を行なう場合に比べて、処
理時間は極めて長くなる。
【0145】なお、図29,図30において、◎は適切
な経路として選択された点対を表し、×は不適な経路と
判断された点対を表している。 (B5)共通構造の自動抽出 次に、本実施例における共通構造の自動抽出処理(図3
に示す類似構造検索部2の機能)について説明する。
【0146】順序付けられた点集合A,Bにおいて、点
集合Aの構成要素をプローブ(検索キー)として、点集
合Bから共通構造を抽出する。その抽出処理に際して
は、点集合Aの順序関係に基づいて、先頭から順にL個
の要素(部分集合)を取り出し、各部分集合の類似構造
を点集合Bから検索する。この検索手法としては、本出
願人が先に出願した前記発明(特開平6−180737
号)に記載されたものと同様の技術が用いられる。
【0147】そして、検索された類似構造を部分対応付
け情報として用い、図5〜図29にて上述した手法によ
り最長共通部分を抽出し、全ての組み合わせの中で最長
となる構造が、点集合A,B間の最長共通部分つまり共
通構造となる。以下に、その共通構造の自動抽出手順を
示す。即ち、点集合Aを要素ai (1≦i≦NA)とし
た場合、i=1,L+1,2L+1,…,NA−L+1
(NAはLの倍数とする)について、順次下記の処理
,を繰り返し行なう。
【0148】点集合Aの部分集合{ ai ,…,
ai+L-1 }をプローブとして用い、そのプローブに類似
する構造(類似構造)を点集合Bから検索する。 による検索結果を部分対応付け情報として用い、点
集合A,B間の最長共通部分を抽出する。 上述した,の処理を、全要素に対して繰り返し適用
することにより、最長の共通部分(最適な共通構造)を
決定することができる。
【0149】(B6)核構造抽出 次に、図4に示した核構造抽出部3の動作について、図
31〜図44を参照しながら説明する。この核構造抽出
部3による核構造抽出処理は、二つの点集合(各点は順
序付けられた三次元座標)からなる立体構造について、
核構造(二つの点集合を適切に重ね合わせるための核と
なる点集合)を抽出する処理である。なお、以下の説明
では、二つの立体構造が、それぞれ点集合A,Bからな
るタンパク質PA,PBであるものとして説明するが、
立体座標を持つ二つの点集合であれば同様の処理により
核構造抽出を行なえることは言うまでもない。また、立
体構造がタンパク質である場合、点集合A,Bは、それ
ぞれ、タンパク質PA,PBを構成するアミノ酸を点と
みなし、そのアミノ酸の配列番号に従うアミノ酸の順序
集合として捉えられる。
【0150】本実施例における核構造抽出処理の手順
(アルゴリズム)を、図31に示すフローチャート(ス
テップS61〜S70)に従って説明する。基本的な手
順としては、セグメント分割部3aにより、タンパク質
PAを成す点集合Aを、一定の長さLの複数のセグメン
トに分割しておいてから、セグメント検索部3bによ
り、タンパク質PAのセグメントを先頭から一つずつ取
り出し、そのセグメントを検索キーとしてタンパク質P
Bに対し、後述する検索処理(ステップS63)を行な
う。
【0151】図31中において、“start ”は、タンパ
ク質PBについて前回に検索された核構造B0の最後の
要素(点)の番号に1を加算した値を表し、“no seg”
は、タンパク質PAの分割されたセグメントの中で現在
のプローブ(検索キー)となるセグメントの番号を示
す。図31に示す処理は各セグメント毎に開始され、前
のサイクルで既に核構造B0が得られている場合は、核
構造B0の最後の要素の次の要素を検索開始位置“star
t ”とする(ステップS61)。なお、核構造B0が得
られていない場合には、“start =1”となる。
【0152】そして、プローブセグメントの番号“no s
eg”がセグメントの総数よりも小さく、且つ、検索開始
位置を示す番号“start ”がタンパク質PBの最後の要
素を示す番号よりも小さいか否かを判定する(ステップ
S62)。これらの条件をいずれも満たす場合には、検
索処理が実行される(ステップS63)。このステップ
S63における検索処理のアルゴリズムを、図32に示
すフローチャート(ステップS71〜S79)に従って
説明する。図32に示すように、この検索処理では、ま
ず、番号iとして前述した検索開始位置を示す番号“st
art ”を設定し(ステップS71)、その番号iを、点
集合Bの要素(点)を指定する番号kとして設定してか
ら(ステップS72)、点集合Bの点B(k)〔前述し
たbk に対応する要素〕が制約条件を満たすか否かを判
定する(ステップS73)。
【0153】制約条件を満たす場合には、点B(k)
を、現在プローブとして選択されているセグメント(L
個の要素からなる点集合Aの部分集合)と対応付ける
(ステップS74)。この対応付けは、点B(k)と点
集合Aのセグメントの要素との幾何学的な関係,閾値条
件等を考慮することによって行なわれる。そして、番号
kがi+(L−1)以下であるか否かを判定して(ステ
ップS75)、k≦i+(L−1)であれば、番号kに
1を加算し(ステップS76)、ステップS73に戻
る。
【0154】これらのステップS73〜S76による処
理を繰り返すことで、点B(i)を始点とする点集合B
のL個の要素について、点集合Aのセグメントの要素と
の対応付けが行なわれる。ステップS73にて点B
(k)が制約条件を満たさないと判定された場合には、
番号iに1を加算してから(ステップS79)、ステッ
プS72に戻って、点集合Bの始点要素を一つだけずら
して点集合Aのセグメントとの対応付けを行なう。
【0155】ステップS75でk>i+(L−1)と判
定された場合には、点B(i)を始点とする点集合Bの
L個の要素が点集合AのセグメントのL個の要素と対応
付けられたことになるので、その点B(i)を、位置リ
ストとして用意された領域に加える(ステップS7
7)。この後、点B(i+L−1)がタンパク質PBの
最後の要素であるか否かを判定し(ステップS78)、
最後の要素でなければ、ステップS79に戻り、前述と
同様の処理を繰り返す一方、最後の要素であれば、今回
の点集合Aのセグメントについての検索処理を終了し、
図31のステップS64へ移行する。
【0156】上述した図32に示す検索処理により、タ
ンパク質PBを構成する点集合Bから構成要素順序に従
ってL個ずつ要素が選択され、点集合BのL個の要素と
点集合Aのセグメントの各要素との対応付けが行なわれ
る。そして、点集合Aのセグメントの全ての要素と点集
合BのL個の要素とが対応付けられた場合(類似構造が
検索された場合)、点集合Aのセグメントの最初の要素
と対応付けられた点集合Bの要素B(i)が位置リスト
として用意された領域に加えられる。
【0157】さて、ステップS63による検索処理を終
了すると、その検索処理により類似構造が検索されたか
否かを判定し(ステップS64)、類似構造が検索され
ている場合つまり位置リストに点集合Bの要素が記録さ
れている場合には、その位置リストに記録された全類似
構造に基づいて、立体構造の類似性を調べる。即ち、今
までに得られた核構造A0,核構造B0と、今回検索キ
ーとしたセグメントと、それに対応する類似構造とを合
わせて、立体構造の類似性を、類似性判別部3cにより
調べる。このとき、予め設定したrmsd値の閾値条件
を考慮するほか、核構造A0とセグメントとを合わせた
構造を構成する点集合と、核構造B0とセグメントに対
応する類似構造(点集合Bの部分集合)とを合わせた構
造を構成する点集合との幾何学的な関係を考慮する(ス
テップS65)。
【0158】そして、ステップS65による類似性の調
査結果に基づいて、rmsd値の閾値条件や幾何学的関
係が満たされたか否かを判定し(ステップS66)、こ
れらの条件が満たされている場合には、今回のセグメン
トと、このセグメントに対応する点集合Bにおける類似
構造とを、核構造選択部3dにより選択して、それぞれ
核構造A0,核構造B0に付け加え(ステップS6
7)、次のセグメントによる核構造抽出処理へ移行すべ
く、プローブセグメントの番号“no seg”に1を加算し
てから(ステップS68)、ステップS61に戻り、前
述と同様の処理を繰り返す。
【0159】なお、ステップS64で類似構造が検索さ
れていないと判定された場合や、ステップS66で所定
条件が満たされていないと判定された場合には、直ちに
ステップS68へ移行し、次のセグメントによる核構造
抽出処理を行なう。最後のセグメントまで核構造抽出処
理を行なった場合や、検索開始位置がタンパク質PBの
最後の要素になった場合には、前述したステップS62
での条件が満たされなくなり、ステップS69へ移行す
る。
【0160】このステップS69では、抽出された核構
造の長さが一定値以上であるか否かが判定され、一定値
以上でなければ処理を終了する一方、一定値以上であれ
ば、その核構造を部分対応付け情報として用い、図2〜
図30により前述した共通構造抽出処理を実行する(ス
テップS70)。複数の核構造が得られた場合には、そ
れぞれの核構造について共通構造抽出処理が実行される
ことになる。
【0161】図31,図32にて説明した核構造抽出処
理について、その具体例を図33〜図38に示す。ま
ず、図33に示すように、タンパク質PA(24個の点
からなる点集合A)を一定の長さL(=6)の4つのセ
グメントに分割し、各セグメントに1〜4の番号(前述
した“no seg”)を付す。なお、タンパク質PAの点集
合Aは、このタンパク質PAを構成するアミノ酸の配列
番号1〜24にて示される各要素(点)から構成され、
セグメント1には配列番号1〜6の要素が含まれ、セグ
メント2には配列番号7〜12の要素が含まれ、セグメ
ント3には配列番号13〜18の要素が含まれ、セグメ
ント4には配列番号19〜24の要素が含まれる。
【0162】このように分割されたタンパク質PAの各
セグメントをキーとして用い、タンパク質PBから類似
な構造を検索する。なお、図34〜図38の各図におい
て、(A)はタンパク質PAの構造を示し、(B)はタ
ンパク質PBの構造を示している。最初に、図34
(A),(B)に示すように、タンパク質PAのセグメ
ント1に類似する構造を、タンパク質PBから検索す
る。このとき、図34(B)に示すように、タンパク質
PBを構成するアミノ酸の配列番号1〜6の要素が、セ
グメント1の類似構造1として検索されたものとする
と、下記の通り、セグメント1を構成するアミノ酸の配
列番号を核構造A0に登録するとともに、類似構造1を
構成するアミノ酸の配列番号を核構造B0に登録する。
【0163】核構造A0={1,2,3,4,5,6 } 核構造B0={1,2,3,4,5,6 } 次に、図35(A),(B)に示すように、タンパク質
PAのセグメント2に類似する構造を、タンパク質PB
から検索する。この場合は、図35(B)に示すよう
に、セグメント2に類似する構造がタンパク質PBから
検索されないので、核構造A0,B0の内容は、図34
(A) ,(B)にて説明したものと同様である。
【0164】ついで、図36(A),(B)に示すよう
に、タンパク質PAのセグメント3に類似する構造を、
タンパク質PBから検索し、図36(B)に示すよう
に、タンパク質PBを構成するアミノ酸の配列番号15
〜20の要素が、セグメント3の類似構造2として検索
されたものとする。このとき、核構造A0,B0が既に
登録されているので、セグメント3と核構造A0とを合
わせた構造と、類似構造2と核構造B0とを合わせた構
造との類似性を調べる(図31のステップS65の処
理)。
【0165】この類似性の判断の結果、rmsd値の閾
値条件とそれぞれの構造を構成する点集合の幾何学的条
件とが満たされていれば、セグメント3および類似構造
2をそれぞれ核構造A0と核構造B0にそれぞれ加え
る。この結果、各核構造A0,B0は下記の通りにな
り、これらの核構造A0,B0をそれぞれ図37
(A),(B)に図形的に表示する。
【0166】 核構造A0={1,2,3,4,5,6,13,14,15,16,17,18 } 核構造B0={1,2,3,4,5,6,15,16,17,18,19,20 } そして、最後に、図38(A),(B)に示すように、
タンパク質PAのセグメント4に類似する構造を、タン
パク質PBから検索する。この場合は、図38(B)に
示すように、セグメント4に類似する構造がタンパク質
PBから検索されないので、核構造A0,B0の内容は
変化しない。これにより、最後のセグメントによる検索
処理が終了したので、最終的に求められた核構造は上記
の通りである。
【0167】(B7)類似構造マップの作成 図31,図32により上述した核構造抽出処理では、セ
グメントに類似する構造として検索された核構造A0,
B0は、上記の通り、各要素を表す番号の集合として抽
出されているが、以下に、二つの立体構造の類似構造
(核構造を含む)の関係を表示する類似構造マップを作
成し、その類似構造マップを用いて核構造を抽出する場
合について、図39〜図44を参照しながら説明する。
【0168】まず、本実施例における類似構造マップ作
成処理の手順(アルゴリズム)を、図39に示すフロー
チャート(ステップS79〜S87)に従って説明す
る。この図39により説明する手順では、共通構造抽出
の対象となる2つのタンパク質PAおよびタンパク質P
Bを構成する要素の数(アミノ酸の数)を、それぞれ
m,nとする。また、セグメント化を開始する位置を
“start ”、類似構造の存在位置を記憶する二次元配列
(類似構造マップ)を“position[m][n]”とす
る。
【0169】図39に示すように、まず、二次元配列
“position[m][n]”を0、セグメント化開始位置
“start ”を1に初期化してから(ステップS79)、
セグメント化開始位置start の要素から、タンパク質P
Aを一定の長さLのセグメントに分割する(ステップS
80)。このとき、分割されたセグメントの総数を“se
g max ”として登録する。
【0170】そして、セグメントを指定する番号iに1
を設定し(ステップS81)、i番目のセグメントを検
索のキーとして(ステップS82)、検索処理が実行さ
れる(ステップS83)。このステップS83における
検索処理のアルゴリズムを、図40に示すフローチャー
ト(ステップS88〜S98)に従って説明する。図4
0に示すように、この検索処理も、図32にて説明した
検索処理とほぼ同様に実行され、まず、番号iとして1
を設定し(ステップS88)、その番号iを、点集合B
の要素(点)を指定する番号kとして設定してから(ス
テップS89)、点集合Bの点B(k)が制約条件を満
たすか否かを判定する(ステップS90)。
【0171】制約条件を満たす場合には、点B(k)
を、現在プローブとして選択されているセグメント(L
個の要素からなる点集合Aの部分集合)と対応付ける
(ステップS91)。この対応付けは、点B(k)と点
集合Aのセグメントの要素との幾何学的な関係,閾値条
件等を考慮することによって行なわれる。そして、番号
kがi+(L−1)以下であるか否かを判定して(ステ
ップS92)、k≦i+(L−1)であれば、番号kに
1を加算し(ステップS93)、ステップS90に戻
る。
【0172】これらのステップS90〜S93による処
理を繰り返すことで、点B(i)を始点とする点集合B
のL個の要素について、点集合Aのセグメントの要素と
の対応付けが行なわれる。ステップS90にて点B
(k)が制約条件を満たさないと判定された場合には、
番号iに1を加算してから(ステップS98)、ステッ
プS89に戻って、点集合Bの始点要素を一つだけずら
して点集合Aのセグメントとの対応付けを行なう。
【0173】ステップS92でk>i+(L−1)と判
定された場合には、点B(i)を始点とする点集合Bの
L個の要素が点集合AのセグメントのL個の要素と対応
付けられたことになる。この場合、番号jに1を設定し
(ステップS94)、ステップS90〜S93の処理に
よって点集合Aのセグメントに対応付けられたL個の点
B(k)〔i≦k≦i+(L−1)〕と、点集合Aのセ
グメントのL個の要素との対応関係を、1つずつ二次元
配列“position[A][B]”上に登録する(ステップ
S95)。
【0174】つまり、図41により後述するごとく、二
次元配列“position[A][B]”上で、点集合Aのセ
グメントに対応付けられたL個の点B(k)の位置(配
列番号)と、点集合AのセグメントのL個の要素の位置
(配列番号)との交点上に所定データ“1”を設定す
る。なお、このとき、1つの対応関係を登録すると番号
jに1を加算し、その番号jがL以下か否かを判定し
(ステップS96)、j≦Lであれば、ステップS95
に戻る。ステップS95,S96の処理を繰り返すこと
により、今回対応付けられたL対の要素の対応関係が、
二次元配列“position[A][B]”上に登録される。
【0175】この後、点B(i+L−1)がタンパク質
PBの最後の要素であるか否かを判定し(ステップS9
7)、最後の要素でなければ、ステップS98に戻り、
前述と同様の処理を繰り返す一方、最後の要素であれ
ば、今回の点集合Aのセグメントについての検索処理を
終了し、図39のステップS84へ移行する。上述した
図40に示す検索処理により、タンパク質PBを構成す
る点集合Bから構成要素順序に従ってL個ずつ要素が選
択され、点集合BのL個の要素と点集合Aのセグメント
の各要素との対応付けが行なわれる。そして、点集合A
のセグメントの全ての要素と点集合BのL個の要素とが
対応付けられた場合(類似構造が検索された場合)、点
集合Aのセグメントの各要素と、点集合Aの要素に対応
付けられた点集合Bの要素B(i)との対応関係が二次
元配列“position[A][B]”上に登録される。つま
り、その対応関係に応じて、類似構造の分布を記録する
類似構造マップ上の二次元配列位置(position) [タン
パク質PAの要素位置],[タンパク質PBの要素位
置]に“1”が設定される。
【0176】さて、ステップS83による検索処理を終
了すると、セグメント指定番号iに1を加算し(ステッ
プS84)、新たな番号iがセグメントの総数“seg ma
x ”以下であるか否かを判定し(ステップS85)、i
≦seg max であれば、ステップS82に戻り、点集合A
の次のセグメントについて、図40にて前述した通りの
検索処理を実行する。
【0177】一方、ステップS85にてi>seg max と
判定された場合には、今回、セグメント化開始位置star
t を始点として分割された全てのセグメントについての
検索処理を終了したものと判断して、セグメント化開始
位置“start ”に1を加算し(ステップS86)、新た
なセグメント化開始位置“start ”がL以下であるか否
かを判定する(ステップS87)。
【0178】start >Lである場合には、類似構造マッ
プ作成処理を終了するが、start ≦Lであれば、ステッ
プS80に戻って、前述と同様の処理を繰り返し実行す
る。つまり、セグメント開始位置“start ”を1つだけ
ずらして、セグメントの分割を行なって、類似構造の抽
出,類似構造マップの作成を実行する。このような処理
を行なうことで、図31,図32にて説明した核構造抽
出処理のように分割したセグメント〔切り初め位置(セ
グメント化開始位置)が固定〕を用いる場合よりも精密
に、点集合A,B間の対応付けを行なうことができる。
【0179】次に、図39,図40により上述した手順
で作成された類似構造マップの具体例を図41(A),
(B)に示す。図41(A)は類似構造マップを初期化
した状態を示すもので、この図41(A)に示すよう
に、本実施例の類似構造マップでは、タンパク質PAを
構成するアミノ酸配列番号が行方向(長さm)に設定さ
れ、タンパク質PBを構成するアミノ酸配列番号が列方
向(長さn)に設定されている。そして、初期化状態で
は、二次元配列“position[m][n]”は全て“0”
に設定されている。
【0180】タンパク質PAおよびタンパク質PBが図
33〜図38により前述した構造をそなえている場合
に、図39,図40にて説明した類似構造マップ作成処
理を行なった結果、作成される類似構造マップを図41
(B)に示す。即ち、最初にタンパク質PAのセグメン
ト1(アミノ酸配列番号1〜6)に対してタンパク質P
Bのアミノ酸番号1〜6が類似構造1として対応付けら
れ、図41(B)に示すように、セグメント1と類似構
造1とのアミノ酸配列番号の対応する位置(交点上)に
“1”が設定される。
【0181】この後、タンパク質PAのセグメントの切
り初めを1つずつずらして対応付けを行なうことによ
り、図36に示した例と同様に、セグメント3と類似構
造2とが対応付けられ、図41(B)に示すように、セ
グメント3と類似構造2とのアミノ酸配列番号の対応す
る位置(交点上)に“1”が設定される。なお、図41
(B)中の空欄には“0”が設定されている。
【0182】(B8)類似構造マップに基づいた核構造抽出 図39,図40に示した手順により類似構造マップが作
成されると、以下のようにして、核構造の抽出が行なわ
れる。本実施例における類似構造マップに基づいた核構
造抽出処理の手順(アルゴリズム)を、図42に示すフ
ローチャート(ステップS101〜S109)に従って
説明する。
【0183】ここで、共通構造抽出の対象となる二つの
タンパク質を、タンパク質PAおよびタンパク質PBと
し、これらのタンパク質PA,PBの立体構造を最も良
く重ね合わせるための中心となる構造をそれぞれ核構造
A0,核構造B0とし、類似構造部位のうちタンパク質
PA,PBの構造をそれぞれ類似構造A1,B1とす
る。また、類似構造の分布を記録する二次元配列を“po
sition[m][n]”とし、この二次元配列“position
[m][n]”の探索開始位置を“a start”,“b s
tart”とする。
【0184】図42に示すように、まず、探索開始位置
“a start”,“b start”が、それぞれ、タンパク質
PA,PBの最後の要素であるか否かを判定し(ステッ
プS101)、いずれの探索開始位置“a start”,
“b start”もタンパク質PA,PBの最後の要素でな
ければ、類似部位探索処理を実行する(ステップS10
2)。
【0185】このステップS102における類似部位探
索処理のアルゴリズムを、図43に示すフローチャート
(ステップS111〜S120)に従って説明する。こ
こで、類似部位のうち、タンパク質PAの構造の類似部
位をA[k]、タンパク質PBの類似部位をB[m]と
する。また、前述した通り、類似構造の分布を記録する
二次元配列は“position[m][n]”とし、その探索
開始位置は“a start”,“b start”とする。
【0186】図43に示すように、この類似部位探索処
理では、まず、k=1,m=1に初期設定し(ステップ
S111)、番号iとしてタンパク質PAの探索開始位
置“a start”を設定してから(ステップS112)、
その番号iがタンパク質PAの最後の要素であるか否か
を判定する(ステップS113)。番号iがタンパク質
PAの最後の要素であれば、類似部位探索処理を終了
し、図42のステップS103へ移行する。一方、番号
iがタンパク質PAの最後の要素でなければ、番号jと
してタンパク質PBの探索開始位置“b start”を設定
する(ステップS114)。
【0187】そして、番号jがタンパク質PBの最後の
要素であるか否かを判定し(ステップS115)、番号
jがタンパク質PAの最後の要素であれば、番号iに1
を加算してから(ステップS116)、ステップS11
3に戻る一方、番号jがタンパク質PBの最後の要素で
なければ、類似構造マップ(二次元配列)の“position
[i], [j]”(最初は1行目の1列)が“1”か否
かを判別する(ステップS117)。
【0188】二次元配列“position[i], [j]”が
“1”でなければ即ち“0”であれば、ステップS11
5に戻る一方、二次元配列“position[i], [j]”
が“1”であれば、タンパク質PA,PBの類似部位と
してそれぞれA[k]=i,B[m]=jを設定し、番
号k,m,i,jにそれぞれ1を加算し(ステップS1
19)、次の配列位置(前の位置の1行下で1列右の位
置)である“position[i], [j]”が“1”か否か
を判別する(ステップS120)。
【0189】そして、ステップS120による判別の結
果、“position[i], [j]”が“1”であればステ
ップS119に戻って上述と同様にして類似部位を探索
し、“1”でなければ即ち“0”であれば、類似部位探
索処理を終了し、図42のステップS103へ移行す
る。さて、ステップS102による類似部位探索処理を
終了すると、その処理の結果得られた類似構造A1,B
1と、今までに得られた核構造A,Bとをそれぞれ合わ
せて、立体構造の類似性を調べる。その際、予め設定し
たrmsd値の閾値条件を考慮するほか、核構造A0と
類似構造A1とを合わせた構造を構成する点集合と、核
構造B0と類似構造B1とを合わせた構造を構成する点
集合との幾何学的関係を考慮する(ステップS10
3)。
【0190】そして、ステップS103による類似性の
調査結果に基づいて、rmsd値の閾値条件や幾何学的
関係が満たされたか否かを判定し(ステップS10
4)、これらの条件が満たされている場合には、類似構
造A1,B1をそれぞれ核構造A0,B0に付け加える
(ステップS105)。この後、探索開始位置“a sta
rt”,“b start”として、それぞれ核構造A0,B0
の最後の要素の次の要素を設定してから(ステップS1
06)、ステップS101に戻り、前述と同様の処理を
繰り返す。
【0191】一方、ステップS104にて所定条件が満
たされていないと判定された場合には、類似構造A1,
B1を核構造A0,B0に加えることなく、タンパク質
PAの探索開始位置“a start”として類似構造A1の
最初の要素を設定するとともに、タンパク質PBの探索
開始位置“b start”として類似構造B1の2番目の要
素を設定してから(ステップS107)、ステップS1
01に戻り、前述と同様の処理を繰り返す。
【0192】上述の処理を繰り返し行ない、ステップS
101で探索開始位置“a start”,“b start”がタ
ンパク質PA,PBの最後の要素であると判定された場
合には、抽出された核構造の長さが一定値以上であるか
否かが判定され(ステップS108)、一定値以上でな
ければ処理を終了する一方、一定値以上であれば、その
核構造を部分対応付け情報として用い、図2〜図30に
より前述した共通構造抽出処理を実行する(ステップS
109)。複数の核構造が得られた場合には、それぞれ
の核構造について共通構造抽出処理が実行されることに
なる。
【0193】(B9)幾何学的な関係による候補の絞り込み 上述した核構造抽出処理(図31,図42等)におい
て、幾何学的な関係に基づいて点集合A,Bの要素を対
応付けることにより、無駄な組み合わせの生成を防止す
ることができ、効率良く点集合A,Bを対応させること
ができる。以下に、この幾何学的な制約について説明す
る。
【0194】要素の対応付けを行なう際に、点集合A内
の要素ai と近接するs個(1≦s≦i−1)の点間に
成り立つ距離関係|ai −ai-s |と、点集合B内の要
素b j (1≦s≦j−1)と近接するs個の要素間の距
離関係|bj −bj-s |との差が許容誤差範囲Δd以内
(||ai −ai-s |−|bj −bj-s ||≦Δd)で
ある点のみを選択し、対応付けることによって対応付け
る候補を絞り込むことができる。
【0195】図44(A),(B)に、点集合A内の要
素ai に対応する点集合B内の点b j を選択する場合に
幾何学的な関係による候補の絞り込みを適用した例を示
す。図44(A)に示す点集合Aでは、その点集合A内
の要素ai と近接するs=2個の点ai-1 , ai-2 との
間に成り立つ距離関係はそれぞれ|ai −ai-1 |=
2.0,|ai −ai-2 |=3.0である。
【0196】そして、図44(B)に示す点集合Bの中
から要素ai に対応する点を対応付ける際に、その点集
合B内の候補となる要素bp ,bq と近接する2個の要
素b j-1 ,bj-2 との間の距離関係|bj −bj-s |を
求め、図44(A)に示した距離関係|ai −ai-1
=2.0,|ai −ai-2 |=3.0との差が許容誤差
範囲Δd=0.5以内になる点のみを選択し、候補の絞
り込みを行なう。
【0197】図44(B)に示す例では、|bq −b
j-1 |=2.8,|bq −bj-2 |=5.5;|bp
j-1 |=2.2,|bp −bj-2 |=3.3であるた
め、幾何学的関係として、対応する点相互間の距離を比
較した結果、点bp のみが、前記許容誤差範囲Δd=
0.5以内という条件を見たし、要素ai に対応する点
j の候補として絞り込まれる。
【0198】(B10) 閾値条件による候補の絞り込み また、上述した核構造抽出処理(図31,図42等)の
処理において、適当な閾値を予め設定しておき、候補の
持つ属性値が閾値よりも大きい場合に、その候補を除外
することにより、点集合A,Bの対応付けを効率良く行
なうことができる。
【0199】例えば、rmsd値の制限により候補の絞
り込みを行なう。つまり、点集合Aの要素ai に点集合
Bの要素bj を対応付けることによって、これまでに対
応付けられた全点間のrmsd値が極端に悪くなる場合
には、点bj を対応付けの候補から除外することが望ま
しい。そこで、要素ai に要素bj を対応付けた場合の
全点間のrmsd値を算出し、rmsd値が所定の閾値
以下ならば点bj を対応付けの候補とする一方、rms
d値が所定の閾値を超える場合には、点bj を対応付け
の候補から除外することによって、対応付ける点の候補
を効率良く絞り込んで生成することができる。
【0200】(C)本実施例の装置を適用したシステム
の説明 まず、図80により、本実施例の共通構造抽出装置を実
現するための計算機システムの構成例を説明する。図8
0において、100はCPU、101はCPU100の
処理動作に際してワークエリア等として用いられるRA
M、102は後述する共通構造抽出処理のために必要な
プログラムや各種データを格納するROMである。
【0201】103は後述するデータ入力部(キーボー
ド,マウス等)51との間のインターフェイス処理を行
なうインターフェイス部、104は後述するディスプレ
イ62(62a〜62c)における表示状態を制御する
表示制御部、105は上述したCPU100,RAM1
01,ROM102,インターフェイス部103および
表示制御部104の相互間を接続するバスである。
【0202】また、バス105には、後述するデータベ
ース(DB)52,54,63が接続されており、CP
U100からバス105を介してデータベース52,5
4,63におけるデータの検索を行なえるようになって
いる。そして、CPU100は、ROM102に格納さ
れたプログラム(ソフトウエア)を実行することによ
り、後述する類似構造検索部53,共通構造抽出部5
5,核構造抽出部64,類似性判定部65,機能予測部
67等としての機能を果たすものである。従って、図8
0に示すような計算機システムにより、本実施例の共通
構造抽出装置を実現することができる。
【0203】さて、図45は、前述した本実施例による
共通構造抽出部および類似構造検索部を用いて構成され
るシステムの構成を示すブロック図である。以下の説明
では、共通構造を抽出すべき立体構造として、タンパク
質の立体構造を対象とする。ただし、基本的には、抽出
対象となる立体構造は、立体座標をもつ構造であれば特
に限定されない。例えば、リボ核酸(RNA)等の立体
構造も、順序付けられた点集合と考えられるので、その
ような構造における共通部分抽出にも本手法をそのまま
適用することができるほか、一般の分子構造についても
本手法を適用することができる。
【0204】なお、実際の演算に際しては、タンパク質
を構成する各アミノ酸のα炭素(Cα)の座標をアミノ
酸の位置として使用し、アミノ酸残基番号(アミノ酸配
列番号)としてPDB(Protein Data Bank)に登録され
ているCαの通し番号を使用する。このため、アミノ酸
配列番号は、本来のアミノ酸残基番号と異なる場合があ
る。
【0205】図45に示すシステムは、実際には情報処
理装置を用いて構成され、図示しないCPU,メモリ
(データおよびプログラムを格納)のほか、入出力装置
(各種のデータを入力するためのキーボード,マウス等
や、立体構造の三次元表示,タンパク質のアミノ酸のア
ライメント表示,テキストデータ表示等を行なうための
ディスプレイ,プリンタ等),データベース52,54
を構成するファイル記憶装置等を有して構成されてい
る。そして、図45により後述する本システムの各構成
部分の機能は、CPUと各構成部分がそなえる制御処理
(アルゴリズム)とにより実行することができる。
【0206】このシステム構成の各部分を組み合わせる
ことにより、次の項目〜の機能をそなえる各共通構
造抽出装置(各装置の詳細な構成および動作は後述す
る)を個別に構成することができる。同様に、これら
〜の複数の機能を組み合わせた装置を構成することが
できることも明らかである。 立体構造表示を行なう共通構造抽出装置 アラインメント表示を行なう共通構造抽出装置 モデリング支援を行なう共通構造抽出装置 立体構造検索を行なう共通構造抽出装置 機能部位データベースの生成を行なう共通構造抽出装
置 機能予測を行なう共通構造抽出装置 図45において、50a〜50eはそれぞれ用途に対応
して入力される各種の入力データで、具体的には、共通
構造抽出対象となる二つの物質(タンパク質)P,Tの
名称や、部分対応付け情報,部分構造情報,立体構造の
データなどである。
【0207】51は入力データ50a〜50eを入力す
るためのデータ入力部で、これらの入力データ50a〜
50eを各構成部分へ供給するインタフェースとして機
能するもので、実際にはキーボード,マウス等により構
成される。52は物質の立体構造のデータ(例えば、各
種のタンパク質を構成するアミノ酸基の三次元座標デー
タ等)を予め格納する立体構造データベース、53は二
つの物質(タンパク質)の間の類似構造を検索する類似
構造検索部で、この類似構造検索部53は、図3におい
て符号2を付して前述したものと同一機能を果たすもの
である。
【0208】54は物質の機能とその機能に関連する立
体構造(機能部位)とを予め登録された機能部位データ
ベース、55は図2,図5〜図30において符号1Aを
付して前述したものと同一機能を果たす共通構造抽出部
である。また、56は共通構造抽出部55により抽出し
た共通構造を表示すべくその表示データを出力する共通
構造出力部(立体構造表示装置用)、57は物質の立体
構造(共通構造抽出部55により抽出した共通構造)を
構成する要素の配列(アライメント)データを出力する
アライメント出力部(アライメント装置用)、58は共
通構造抽出部55により抽出した共通構造を三次元座標
情報として出力するモデル構造出力部(モデリング支援
装置用)である。
【0209】59は類似構造検索部53による検索結果
と共通構造抽出部55による抽出結果とに基づいて類似
な構造の属性,rmsd値および最長共通部分の長さを
出力する類似構造出力部(立体構造検索装置用)、60
は機能部位データベース作成部(機能部位データベース
生成装置用)であり、この機能部位データベース作成部
60は、類似構造検索部53による検索結果と共通構造
抽出部55による抽出結果とに基づいて、物質の機能と
その機能に関連する立体構造(機能部位)とを機能部位
データベース63に出力して登録するものである。
【0210】なお、機能部位データベース作成部60に
よりデータを登録する機能部位データベース63は、前
述した機能部位データベース54と別個のものとして説
明しているが、これらの機能部位データベース54,6
3は、同一のものとし、機能部位データベース作成部6
0により作成された機能部位データベース63をそのま
ま機能部位データベース54として使用できるように構
成してもよい。
【0211】61は機能予測装置用の機能部位出力部で
あり、この機能部位出力部61は、共通構造抽出部55
による抽出結果に基づき、未知の機能を有する立体構造
について、その立体構造の有する機能とその機能に関連
する構造(機能部位)とを特定して出力するものであ
る。62a〜62cはいずれも本実施例の装置により抽
出された立体構造に関する情報を表示するためのディス
プレイ(表示部)である。
【0212】例えば、ディスプレイ62aは、共通構造
出力部56,モデル構造出力部58や類似構造出力部5
9からのデータを受けて、物質の立体構造,モデル構
造,類似構造等を三次元グラフィックとして表示するも
のである。また、ディスプレイ62bは、アライメント
出力部57からの配列データを受けて、物質の立体構
造,モデル構造,類似構造等を配列表示(アライメント
表示;立体構造を構成する各点に関する情報を、配列順
序に従って並置した状態で表示)するものである。
【0213】さらに、ディスプレイ62cは、機能部位
出力部61からのデータを受けて、タンパク質の機能部
位のテキスト表示を行なうものである。なお、これらの
ディスプレイ62a〜62cは、それぞれ別個のものと
として説明しているが、同一のものとして構成してもよ
い。以下に、図45に示すシステム中の構成要素を組み
合わせて実現される各種装置(〜にて前述した装
置)の構成例について、図46〜図63を参照しながら
説明する。
【0214】(C1)立体構造表示を行なう共通構造抽出装
置(アライメント表示を行なう共通構造抽出装置,モデ
リング支援を行なう共通構造抽出装置) 一般に、物質の構造と機能との関係を分析する際には、
各物質の構造を重ね合わせ、共通な構造や特異的な構造
を判別しながら分析作業を進めるため、各物質を簡単に
重ね合わせて共通構造を表示することが可能な装置が必
要である。
【0215】本実施例では、このような装置を図46に
示すごとく構成することができる。この図46は、立体
構造表示を行なう共通構造抽出装置として機能する構成
部分を抽出して示すブロック図である。この立体構造表
示を行なう装置の主要部の構成は、アライメント表示や
モデリング支援を行なう装置と同じであるので、図46
には、アライメント表示を行なう共通構造抽出装置およ
びモデリング支援を行なう共通構造抽出装置も合わせて
図示されている。
【0216】以下に、立体構造表示を行なう装置として
動作する図46に示す装置の主要部の機能や動作につい
て詳細に説明する。データ入力部51には、入力データ
50a〜50cを入力するためのインタフェースがそな
えられ、このデータ入力部51から、重ね合わせて共通
構造を抽出すべき物質P,Tの名称が入力データ50
a,50bとして入力されるとともに、重ね合わせを行
なう位置を指定する部分対応付け情報が入力データ50
cとして入力され、これらの入力データ50a〜50c
が共通構造抽出部55へ送られる。
【0217】立体構造データベース52には、物質の立
体構造に関する情報として、物質の名称や、物質を構成
する原子の種類(タンパク質であればアミノ酸の種類)
や、原子,アミノ酸の三次元座標等が格納されている。
そして、共通構造抽出部55では、データ入力部51か
ら入力された二つの物質P,Tの名称に対応する物質の
立体構造(三次元座標)を、立体構造データベース52
から取り出し、部分対応付け情報に基づいてこれら二つ
の立体構造(点集合)を重ね合わせ、その中から最長
で、且つrmsd値が最小となる共通構造を、図2,図
5〜図30により説明した手順で抽出し、その抽出結果
を共通構造出力部56に送る。その抽出処理では、タン
パク質を構成するアミノ酸の配列順序に基づいて、タン
パク質の立体構造を、順序付けられた点集合とみなし、
上述した処理により共通構造を抽出する。
【0218】共通構造出力部56は、共通構造抽出部5
5により抽出した結果に基づいて、共通構造を3次元グ
ラフィックで表示すべく、表示データを作成し、ディス
プレイ62a上に表示させる。このとき、ディスプレイ
62a上では、二つの点集合によりそれぞれ形成される
二つの立体構造が重ね合わされて表示される。また、デ
ィスプレイ62a上で、これらの立体構造を回転させな
がら見ることによって、どの部分がどのように重なって
いるか、また立体構造中のどの部分が共通構造を形成し
ているかを視覚的に判別することができる。
【0219】ところで、図46に示す構成の装置を、ア
ライメント表示を行なう共通構造抽出装置として用いる
場合、共通構造出力部56の代わりに、点線で示すアラ
イメント出力部57を設ける。このアライメント出力部
57は、共通構造抽出部55により抽出した共通構造に
対応するアミノ酸に関する情報を、配列順序に従って並
置した形式でディスプレイ62bに出力するもので、デ
ィスプレイ62b上でその配列表示が行なわれる。
【0220】また、図46に示す構成の装置を、モデリ
ング支援を行なう共通構造抽出装置として用いる場合、
共通構造出力部56やアライメント出力部57の代わり
に、点線で示すモデル構造出力部58を設ける。このモ
デル構造出力部58は、共通構造抽出部55により抽出
した共通構造を三次元座標情報としてディスプレイ62
a,62bへ出力し、ディスプレイ62a,62b上で
その三次元座標情報が表示され、タンパク質の三次元モ
デルの作成を共通構造の抽出により支援することができ
る。
【0221】なお、上述した例では、配列表示や三次元
座標情報をディスプレイ62a,62b上に表示する場
合について説明しているが、これらのデータを、プリン
タ等により印字して表示出力するようにしてもよい。次
に、上述した立体構造表示(アライメント表示,モデリ
ング支援)を行なう装置により共通構造の抽出を行なっ
た具体例について、図47〜図58を参照しながら説明
する。
【0222】図47はタンパク質の一つであるトリプシ
ン(PDBでのファイル名は4PTPの立体構造を示
し、図48はアルファ・リティック・プロテアーゼ(al
pha-lytic protease:PDBでのファイル名は2AL
P) の立体構造を示す。これらのトリプシンとアルファ
・リティック・プロテアーゼとは、ポリペプチド鎖を分
解するという共通の機能を有するタンパク質であるが、
アミノ酸配列の相同性(ホモロジー)が低く、また全体
構造も異なるものである。これまでの研究成果から、活
性中心は、ヒスチジン(H),アスパラギン酸(D)お
よびセリン(S)から形成されることが知られている
(これらの構造は触媒トライアードと呼ばれている)。
【0223】そこで、トリプシンとアルファ・リティッ
ク・プロテアーゼとの活性中心の構造を比較するため、
図46に示す本実施例の装置を用いて、トリプシンのヒ
スチジンの周辺構造を中心にしてこれらのタンパク質の
共通構造を表示させることにする。まず、トリプシンの
ヒスチジン活性部位に類似する構造をアルファ・リティ
ック・プロテアーゼから検索し、検索された類似構造を
部分対応付け情報として用い共通構造を共通構造抽出部
55により抽出する。この抽出処理に際して使用する部
分対応付け情報を図50に示す。
【0224】この図50や、後述するアライメント表示
状態を示す図において、“<target>”に対応する位置
には、検索対象のタンパク質の構造のアミノ酸配列が表
示され、例えばK,G,F,V…の各アルファベット一
文字でぞれぞれ種類の異なるアミノ酸が表現されてい
る。そして、“(serial)”に対応する位置には、各アミ
ノ酸に付与されアミノ酸配列番号(図50に示す例で
は、29,30 …,37) が表示される。また、“<target
>”の場合と同様に、“<probe >”に対応する位置に
は、検索キーとなるタンパク質の構造のアミノ酸配列が
表示されるとともに、“(serial)”に対応する位置に、
各アミノ酸の配列番号が表示される。
【0225】図50に示すような部分対応付け情報に基
づいて、トリプシンの立体構造とアルファ・リティック
・プロテアーゼの立体構造とを重ね合わせ、共通構造抽
出部55により抽出された共通構造をアミノ酸配列を並
置した形式(アライメント形式)で表示した具体例を、
図51,図52に示す。これらの図51,図52におい
て、各アミノ酸が表示位置の下方において、“(distanc
e)”に対応する位置に表示される数値は、アミノ酸(C
α)間の距離を表し、図中の下線部分は触媒トライアー
ドの部分を表している。
【0226】抽出された触媒トライアードの構造を図4
9に示す。この図49において、N(窒素)端からC
(炭素)端への方向を矢印で示し、短い線はα炭素(C
α)と側鎖のβ炭素(Cβ)との位置を表している。ま
た、各タンパク質の全体構造における触媒トライアード
の位置が、図47,図48においては太線で表示されて
いる。
【0227】このようにヒスチジン(H)を中心に重ね
合わせた結果、他の触媒部位であるアスパラギン酸
(D),セリン(S)も共通構造として抽出されること
から、これらのタンパク質の配列の類似性は低いが、立
体構造的には同じ構造の触媒トライアードを有し、ポリ
ペプチド鎖を分解するメカニズムも類似していることが
予測される。実際に、その予測結果は生化学的な実験結
果と一致することが分かった。
【0228】これにより、アミノ酸配列の相同性も低
く、かつ全体構造も異なる場合でも、タンパク質の機能
に関する構造は保存されていることが分かる。また、活
性中心の一部分の構造が分かれば、その他の活性中心を
形成する構造も本装置により判別することができる。一
方、モデル構造出力部58をそなえて構成される、モデ
リング支援を行なう共通構造抽出装置は、立体構造が未
知のタンパク質(対象タンパク質)の立体構造を予測す
る装置として使用される。立体構造を予測するために現
在採用されている手法は、ホモロジー(相同性)モデリ
ングと呼ばれ、対象タンパク質のアミノ酸配列と相同性
が高く、かつ立体構造が既知のタンパク質(参照タンパ
ク質)を探し出し、参照タンパク質間で共通に保存され
ている構造を核構造とし、残りの構造をエネルギー計算
やコンホメーションの類似性から予測してモデリングを
行なう。参照タンパク質のアミノ酸配列との相同性は経
験的には50%以上とされている。
【0229】このようなモデリングシステムにおいて、
重要となるのが核構造の決定方法であるが、核構造は、
図3により上述した共通構造抽出の技術を使用するか、
図3および図31〜図44により上述した核構造抽出の
技術を使用して決定することができる。モデリングの具
体例を以下に説明する。図47に示したトリプシンと、
このトリプシンとアミノ酸配列の類似性が高い図53に
示すような立体構造を持つタンパク質エラスターゼ(P
DBでのファイル名は3EST)とから共通構造を抽出
した例を、図54〜図58に示す。図54はエラスター
ゼの立体構造を示し、図55はトリプシンとエラスター
ゼとの共通構造を示し、図56〜図58はトリプシンと
エラスターゼとの全体構造上の共通構造の位置をアライ
メント形式で表示した例を示す。
【0230】なお、図56〜図58に示す表示例では、
ユーザが構造の対応付け情報を与えて、その情報に基づ
いて算出した結果が示されており、この手法(マニュア
ル方式)によれば、ユーザの望んだ通りに、二つの立体
構造を重ね合わせることができる。また、後述する図6
7〜図69に示す表示例も、トリプシンとエラスターザ
との全体構造上の共通構造の位置をアライメント形式で
表示したものであるが、この表示例では、核構造抽出の
技術を使用して共通構造を抽出した結果が示されてい
る。
【0231】この図56〜図58に示す例では、前述し
た類似構造検索の技術によりトリプシンとタンパク質エ
ラスターゼとの活性中心であるヒスチジン活性部位に類
似する構造をエラスターゼから検索し、その検索結果を
部分対応付け情報として指定し、共通構造を抽出してい
る。また、ここに示す例では、対応付ける点どうしの距
離(distance)の閾値ERROR を1.5オングストローム
とした時、rmsd値が0.78オングストロームで1
71残基から構成される核構造を抽出することができ
(図58の最下部の表示参照)、双方の活性中心が一致
するという結果が得られた。
【0232】図54〜図58には、便宜上、アライメン
ト形式および3次元グラフィックで共通構造を表示した
例が示されているが、実際のモデリング支援を行なう装
置では、構築したモデルに対して最終的にエネルギー計
算による構造の精緻化が行なわれるため、抽出された共
通構造は、モデル構造出力部58により三次元座標で出
力される。
【0233】(C2)立体構造検索を行なう共通構造抽出装
置(機能部位データベース生成を行なう共通構造抽出装
置) さて、一般に、新薬の開発のように新しい機能を持つ物
質を開発したり、既に存在する物質の機能の強化をはか
るためには、物質の機能とその物質の構造との相関関係
を解明することが必要不可欠である。このような作業を
進めるに当たっては、類似な立体構造を持つ物質を多数
参照する必要が生じる。
【0234】そのため、立体構造データベース52から
立体構造の類似した物質を簡単に取り出すことの可能
な、立体構造検索を行なう装置が必要になる。また、こ
のような装置により、機能に関連する立体構造を収集し
て機能部位データベース63を作成することができる。
本実施例では、このような装置を図59に示すごとく構
成することができる。この図59は、立体構造検索を行
なう共通構造抽出装置として機能する構成部分を抽出し
て示すブロック図である。この立体構造検索を行なう装
置の主要部の構成は、機能部位データベース生成を行な
う装置と同じであるので、図59には、機能部位データ
ベース生成を行なう共通構造抽出装置も合わせて図示さ
れている。
【0235】以下に、立体構造検索を行なう装置として
動作する図59に示す装置の主要部の機能や動作につい
て詳細に説明する。データ入力部51には、入力データ
50a,50bを入力するためのインタフェースがそな
えられ、このデータ入力部51から、立体構造検索の対
象となる物質Pの名称が入力データ50aとして入力さ
れるとともに、物質P中でプローブ(検索キー)として
使用する構造の位置を表す部分構造情報が入力データ5
0dとして入力され、これらの入力データ50a,50
dが共通構造抽出部55へ送られる。
【0236】また、立体構造データベース52には、図
47により前述した立体構造表示を行なう共通構造抽出
装置にそなえられるものと同様の情報が格納されてい
る。類似構造検索部53では、プローブとして指定され
た物質(タンパク質)の部分構造情報に類似する構造を
持つ物質を立体構造データベース52から検索し、その
検索の結果得られた、類似構造を持つタンパク質が、共
通構造抽出部55に送られる。このとき、類似性の尺度
としてはrmsd値を使用する。
【0237】共通構造抽出部55は、類似構造検索部5
3の検索結果である物質の立体構造とプローブの物質の
立体構造とを入力され、部分構造情報を部分対応付け情
報として使用し、各物質の立体構造(三次元座標)から
最長共通部分の長さを算出し、その算出結果を類似構造
出力部59に送る。共通構造抽出部55での抽出処理に
際しては、タンパク質を構成するアミノ酸の配列順序に
基づいてタンパク質の立体構造を順序付けられた点集合
とみなし、上述した処理により共通構造の最長の長さを
算出する。
【0238】そして、類似構造出力部59により、類似
構造検索部53による検索結果と共通構造抽出部55に
よる抽出結果とに基づいて、類似する構造のアミノ酸残
基番号,アミノ酸の種類,rmsd値および最長共通部
分の長さが出力される。ところで、図59に示す立体構
造検索を行なう共通構造抽出装置を、機能部位データベ
ース生成装置として構成するには、類似構造出力部59
の代わりに、点線で示す機能部位データベース作成部6
0を設ける。この機能部位データベース作成部60は、
前述した通り、類似構造検索部53による検索結果と共
通構造抽出部55による抽出結果とに基づいて、物質の
機能とその機能に関連する立体構造(機能部位)とを機
能部位データベース63に対し出力して登録するもので
ある。
【0239】このような立体構造検索を行なう共通構造
抽出装置による検索の具体例を以下に説明する。上述し
た立体構造表示を行なう装置の場合と同様、トリプシン
のヒスチジン活性部位(図47)をプローブとしてこれ
と類似な構造をアルファ・リティックプロテアーゼ(図
48)から検索した結果を図60に示す。
【0240】この図60から分かるように、この場合、
rmsd値が1.5オングストローム以下の構造が
(1)〜(4)の4件検索され、そのうちの2件
(1),(2)は各々rmsd値が0.769,0.4
83であり、プローブとした構造に極めて類似する構造
であった。本実施例では、各検索結果として、最長共通
部分の長さLCS(図60中では“lcs ”として表記)
も合わせて出力されており、この最長共通部分の長さL
CSを参照することにより、立体構造全体の一致状態を
判断することができる。
【0241】図60に示す例について最長共通部分の長
さLCSを参照すると、rmsd値=0.769の構造
(1)はlcs =10で、プローブの構造の長さ(アミノ
酸の個数)が9であることから、一部分しか一致してい
ないのに対して、rmsd値=0.483の構造(2)
はlcs =72で、全体的にもかなり一致する構造である
ことが分かる。
【0242】また、検索された構造のアミノ酸配列を比
較すると、トリプシンの活性中心であるヒスチジン
(H)に対応するアミノ酸の種類がヒスチジンである構
造は、rmsd値=0.483の構造(2)のみである
ことからも、この構造(2)が有意な類似構造であるこ
とが分かる。このように立体構造検索を行なう共通構造
抽出装置を使用すれば、プローブとなる物質の立体構造
を指定して物質の立体構造を格納した立体構造データベ
ース52から類似構造を検索できるとともに、最長共通
部分の長さLCSを参照することにより、プローブとし
たタンパク質と検索されたタンパク質との間で検索され
た構造以外の部分における類似性も判別できる。このた
め、局所的にのみ類似しているものか、または全体的に
も類似しているものかを簡単に判別でき、偶然に一致し
た構造を排除することができ、作業を効率化することが
できる。
【0243】(C3)機能予測を行なう共通構造抽出装置 一般に、タンパク質が、ある機能を発現する場合、その
タンパク質は、その機能に特異的な立体構造を持ってい
ると考えられている。従って、機能とその機能に関連す
る特異的な立体構造との関係を保持するデータベースと
して機能部位データベース54,63を作成しておき、
X線結晶解析やNMR等の手法で新規物質の立体構造が
決定された際に、その立体構造と機能部位データベース
54,63に登録されている構造とを照合することによ
って、新規物質がどのような機能を持っており、その機
能は立体構造中のどの部分(これを機能部位と呼ぶ)に
位置するかを予測することができる。
【0244】図61は、このような機能予測を行なう共
通構造として機能する構成部分を抽出して示すブロック
図である。以下に、機能予測を行なう装置として動作す
る図61に示す装置の主要部の機能や動作について詳細
に説明する。データ入力部51には、入力データ50e
を入力するためのインタフェースがそなえられ、このデ
ータ入力部51から、新規物質の立体構造のデータが入
力データ50eとして入力され、この入力データ50e
が類似構造検索部53へ送られる。
【0245】機能部位データベース54には、物質の機
能と、その機能に特異的な立体構造(機能部位)に関す
る情報とが予め格納されており、より具体的には、機能
の名称,その機能に特異的な立体構造を構成する原子の
三次元座標等が格納されている。そして、類似構造検索
部53は、機能部位データベース54に登録されている
各機能部位に類似する構造を新規物質の立体構造から検
索し、その検索結果を共通構造抽出部55に送る。この
とき、類似性の尺度としてはrmsd値を使用する。
【0246】また、共通構造抽出部55では、プローブ
として使用した機能部位の構造と類似構造検索部53で
検索された構造とを部分対応付け情報として用い、各物
質の立体構造(三次元座標)に基づいて、最長な共通構
造の長さを算出し、その算出結果を類似構造出力部59
に送る。この共通構造抽出部55による抽出処理は、タ
ンパク質を構成するアミノ酸の配列順序に基づいてタン
パク質の立体構造を順序付けられた点集合とみなし、図
2,図5〜図30により説明した手順で行なわれる。
【0247】さらに、機能部位出力部61により、共通
構造抽出部55からの抽出結果に基づいて、機能部位デ
ータベース54に登録されている機能名と、その機能名
に対応する機能部位のアミノ酸配列名およびアミノ酸残
基番号とが出力されるとともに、類似性の尺度としてr
msd値が出力され、これらの情報がディスプレイ62
c上に表示される。
【0248】このような機能予測を行なう共通構造抽出
装置による予測動作の具体例を以下に説明する。タンパ
ク質のラスプロテイン(ras protein : PDBでのファ
イル名は5P21)のGTP(グアノシン3リン酸)の
リン酸結合部位(アミノ酸残基番号10〜17)とMg
2+結合部位(アミノ酸残基番号56〜58)とに類似す
る構造を、タンパク質アデニル酸キナーゼ(adenylate
kinase:PDBでのファイル名は3ADK)から検索し
た結果、アデニル酸キナーゼのアミノ酸残基番号15〜
22および92〜94が、上記2つの機能部位にそれぞ
れ類似する構造であることが分かった。
【0249】これらの結果に基づいて、ラスプロテイン
とアデニル酸キナーゼとから共通構造を抽出した結果を
図62,図63に示す。これらの図62,図63により
明らかなように、機能部位データベース54に登録され
ている機能部位に類似する構造を持ち、且つ、全体とし
て67残基にわたって共通な構造が存在することが分か
る。従って、これらのタンパク質間の類似性は偶然とは
考えにくく、むしろ同じ機構で基質を結合することが示
唆される。
【0250】なお、図62の上部には、部分対応付け情
報として用いられる、前述した2つの機能部位の構造
と、対応する点間の距離および部分対応付け情報につい
てのrmsd値(0.600)とが示されている。ま
た、図62の部分対応付け情報の表示部分の下方から図
63には、ラスプロテインとアデニル酸キナーゼとの共
通構造の抽出結果が表示されている。図63の下方に
は、類似構造となる残基の数67と、この共通構造全体
についてのrmsd値1.659とが表示されている。
【0251】一方、これまでの実験結果からアデニル酸
キナーゼはATP(アデノシン3リン酸)と結合し、且
つ、その結合の際にはMg2+が介在することが知られて
いる。既にリン酸結合部位は同定されており、本実施例
の機能予測による上記の予測結果と一致する。ただし、
Mg2+の結合部位は同定されておらず、現在実験が進め
られているが、例えば、遺伝子組み替え操作によって上
述したアスパラギン酸を他のアミノ酸に置換した変異体
を作成し、Mg2+介在下でのATP結合能(活性)を測
定することによって、上述の予測結果の実証が可能であ
る。
【0252】このように、本実施例の機能予測を行なう
装置を使用すれば、既知の立体構造および実験によって
同定された機能部位との類似性に基づいて、新規に決定
された構造の機能およびその機能部位を予測することが
できる。このため、従来試行錯誤しながら進められてき
たタンパク質の機能の解明や、改良の作業に対して、そ
の機能を予め予測し、その予測結果を実験によって証明
するという研究開発サイクルを確立でき、作業の効率化
をはかることができる。
【0253】(C4)核構造抽出を用いた共通構造抽出装置 上述した項目(C1)〜(C3)の各装置は、二つの立体構造間
で予め既知の部分対応付け情報を用い、その他の部分に
おける共通構造を抽出する装置(図46に示す立体構造
表示を行なう共通構造抽出装置)や、二つの立体構造の
類似構造を類似構造検索部53により検索し、得られた
類似構造を部分対応付け情報として用い、その他の部分
における共通構造を抽出する装置(図59に示す立体構
造検索を行なう共通構造抽出装置,図61に示す機能予
測を行なう共通構造抽出装置)である。
【0254】これらの装置のうち図59および図61に
示す装置における類似構造検索部53は、二つの立体構
造の重ね合わせの中心となる核構造が分からない場合に
は、検索された類似構造(類似の程度に対応して複数存
在する)を部分対応付け情報として用い、共通構造抽出
部56により試行錯誤的に共通構造を抽出することにな
るが、重ね合わせの中心となる核構造を抽出する技術を
使用することにより、共通機能および共通構造が分から
ない二つの立体構造について共通構造抽出,類似構造検
索および機能予測を効率よく行なえる装置を構成するこ
とができる。なお、核構造抽出の詳細な手順等について
は、図4および図31〜図44により前述した通りであ
る。
【0255】この核構造抽出を用いた共通構造抽出装置
について、以下、図64〜図76を参照しながら説明す
る。図64は本実施例における核構造抽出を用いた共通
構造抽出装置の構成を示すブロック図である。この図6
4に示す共通構造抽出装置において、立体構造データベ
ース52,データ入力部51,共通構造抽出部55,共
通構造出力部56およびディスプレイ62(グラフィッ
ク表示および配列表示の両方または、何れか一方を表示
する表示部)は、図45に示すシステム(図46,図5
9,図61に示す装置を含むシステム)にそなえられる
ものと同様構成である。
【0256】図64に示す共通構造抽出装置と図45に
示すシステムとで異なる点は、図4および図31〜図4
4により上述した核構造抽出処理を実行する核構造抽出
部64がそなえられた点のみである。以下、立体構造の
物質が、三次元座標の点集合により構成されるタンパク
質である場合を例として説明する。このように核構造抽
出部54をそなえた装置の動作を説明すると、まず、ユ
ーザが、入力データ50fとして共通構造抽出の対象と
なる物質A,物質Bの名称を入力コマンドに基づいて入
力する。データ入力部51は、入力コマンドに基づい
て、立体構造データベース52に登録されている各物質
A,Bの立体構造データを読み込んで、核構造抽出部6
4に送る。
【0257】核構造抽出部64は、前述した通り、一方
の立体構造をセグメント化し、タンパク質を構成するア
ミノ酸配列順序に基づいて、他方の立体構造と空間的に
対応付けて、二つの立体構造を適切に重ね合わせるため
の中心となる核構造を抽出し、その抽出結果(核構造)
を共通構造抽出部55へ送る。共通構造抽出部55は、
核構造抽出部64により抽出された核構造に基づいて、
二つの立体構造を重ね合わせることにより二つの構造に
存在する共通構造を抽出する。
【0258】そして、核構造抽出部64からの核構造に
基づいて抽出され共通構造は、共通構造出力部56によ
り、セグメント化したタンパク質のアミノ酸名およびア
ミノ酸配列番号に対して、他方のタンパク質の共通部分
のアミノ酸名およびアミノ酸配列番号をアライメント形
式で出力され、ディスプレイ62上で表示される。な
お、同時に、抽出され共通構造の類似性の尺度としてr
msd値もディスプレイ62上に表示される。
【0259】図64に示す核構造抽出を用いた共通構造
抽出装置による抽出動作の例を、図65,図66により
説明する。図65はタンパク質のトリプシンのアミノ酸
配列を示し、図66はエラスターゼのアミノ酸配列であ
り、それぞれの立体構造の表示は図47,図53に示さ
れている。なお、図65,図66に示すアミノ酸残基番
号(図中、左側に表示される“Serial No.”1,21,
41,61…)は、PDBに記載されているアミノ酸に
対して単純に1から番号を割りふったものなので、本来
のアミノ酸配列番号とは異なっており、この点は以降の
例についても同様である。また、図65,図66の下側
に表示された“Missing residues”よりも下方には、ア
ミノ酸が存在することが分かっているが、その立体構造
上の座標位置がX線解析等により分からないアミノ酸残
基番号が表示されている。
【0260】図65,図66に示すタンパク質はセリン
プロテアーゼと呼ばれるタンパク質分解酵素の仲間で、
活性部位にヒスチジン,セリン,アスパラギン酸が必要
不可欠な要素である。これらの酵素の基質特異性は全く
ことなるが、構造および触媒等の点で類似していること
から進化的に一群の酵素であると考えられている。これ
らのトリプシンとエラスターゼとについて、核構造抽出
部64により核構造を抽出して、これを部分対応付け情
報として用い共通構造抽出部55により共通構造を抽出
した結果を、図67〜図69に示し、図70に、抽出さ
れた共通構造のグラフィック表示状態を示す。
【0261】なお、この図67〜図69に示す例は、前
述した図56〜図58に示す例とは処理方法が異なり、
計算機により核構造抽出が行なわれ、重ね合わせに使用
する対応付け情報が異なるため、抽出結果も異なってい
る。また、図70では、二つのタンパク質の立体構造を
重ね合わせて、共通部分を太線で表わしている。図67
〜図69を参照すると、トリプシンの持つ3つの活性中
心である40残基目のヒスチジン,84残基目のアスパ
ラギン酸,177残基目のセリンに対して、それぞれ、
エラスターゼの45残基目のヒスチジン,93残基目の
アスパラギン酸,188残基目のセリンが対応付けられ
たことが分かる。これらの結果は、生化学的な実験で得
られた結果と合致している。
【0262】このように、核構造抽出を用いた共通構造
抽出装置によって共通構造抽出の対象となる二つの立体
構造を指定することにより、自動的に核構造を抽出する
ことができるため、共通構造を抽出する際に、重ね合わ
せのための中心となる活性中心などの構造が分からない
タンパク質からも共通構造を抽出することが可能とな
る。
【0263】図64に示した構成は、立体構造データベ
ース52に格納された二つの立体構造から共通構造を取
り出した結果を、グラフィック表示することにより立体
構造表示装置として使用することができる。また、図4
5に示す構成は、モデリング支援を行なう共通構造抽出
装置として使用することができる。モデリングの代表的
手法である相同性モデリングでは、タンパク質のファミ
リー要素間の構造と配列の類似性に基づいて、構造が未
知のタンパク質の立体構造を予測することができる。こ
の手法では、目的とするタンパク質の構造を構築するた
めに少なくとも、一つの構造が既知の参照タンパク質が
必要である。しかし、単一の参照タンパク質を用いた場
合、制度の高いモデリングを行なうことができず、既知
の立体構造の類似性を有効に利用することが必要になっ
てきた。
【0264】このモデリング支援を行なう装置では、複
数の参照タンパク質の間で構造的に保存されている共通
構造を抽出することにより、制度の高いモデリングを行
なうことができる。さらに、上記図45の構成は立体構
造のアライメント表示を行なう共通構造抽出装置として
使用することができる。新しく解析されたタンパク質の
機能や構造を調べるには、既知のタンパク質との比較が
必要となる。立体構造のアライメント表示を行なう装置
では、二つの立体構造に共通な構造を抽出し、抽出され
た部分をアライメントとして表示する。
【0265】図71は本実施例における核構造抽出を用
いた類似構造検索を行なう共通構造抽出装置の構成を示
すブロック図である。この図71において、立体構造デ
ータベース52,データ入力部51,核構造抽出部6
4,共通構造抽出部55,およびディスプレイ62は、
図64に示す装置にそなえられるものと同様構成であ
る。
【0266】ただし、図71に示す装置には、類似性判
定部65および判定結果出力部66が新たにそなえられ
ている。ここで、類似性判定部65は、共通構造抽出部
55で共通構造として抽出された構造を構成する残基数
と二つの立体構造を構成する残基数の平均との比が、設
定された値以上かどうかによって二つの立体構造(共通
部分)の類似性を判定するものである。
【0267】また、判定結果出力部66は、類似性判定
部65により二つの立体構造(共通部分)の類似性が高
いと判定された場合、抽出された共通構造を、一方のタ
ンパク質のアミノ酸名およびアミノ酸配列番号に対し
て、他方のタンパク質の共通部分のアミノ酸名およびア
ミノ酸配列番号を並置する形式で出力し、ディスプレイ
62上で表示させるものである。なお、同時に、抽出さ
れた共通構造の類似性の尺度としてrmsd値もディス
プレイ62上に表示されるようになっている。
【0268】図71にて上述した装置の動作を説明する
と、まず、ユーザが、入力データ50gとして、類似構
造検索の対象となる物質Aを入力コマンドにより入力す
る。データ入力部51は、入力された物質Aの立体構造
およびデータベース52に登録されている立体構造のデ
ータを一つずつ読み込み、それぞれについて核構造抽出
部64に送る。
【0269】核構造抽出部64は、一方の立体構造をセ
グメント化し、タンパク質を構成するアミノ酸配列順序
に基づいて他方の立体構造と空間的に対応付けてゆくこ
とにより、二つの立体構造を重ね合わせるための中心と
なる核構造を抽出する。共通構造抽出部55は、抽出さ
れた核構造に基づいて二つの立体構造を重ね合わせるこ
とにより、二つの立体構造に共通に存在する立体構造を
抽出する。
【0270】そして、抽出された共通構造の類似性を、
類似構造判定部65により判定し、二つの立体構造(共
通部分)の類似性が高いと判定された場合、抽出された
共通構造が、判定結果出力部66からディスプレイ62
へ出力されて、このディスプレイ62上で表示される。
図72は本実施例における核構造抽出による機能予測を
行なう共通構造抽出装置の構成を示すブロック図であ
る。
【0271】この図72において、立体構造データベー
ス52,データ入力部51,機能部位データベース54
は図45に示す同一符号を付して説明した部分と同一の
ものである。図72に示す装置では、機能予測部67お
よび予測結果出力部68が新たにそなえられている。な
お、図72に示す装置では、前述した共通構造抽出部5
5および核構造抽出部64としての機能が、機能予測部
67に含まれているものとする。
【0272】ここで、機能予測部67は、既知の機能を
有する立体構造と未知の機能を有する立体構造とについ
て、核構造抽出部64としての機能により核構造を抽出
し、その核構造を部分対応付け情報として用いながら共
通構部分出部55としての機能により共通構造を抽出
し、その共通構造に基づき機能部位データベース54の
情報を参照して、所定機能を果たす機能部位が、未知の
機能を有する立体構造に含まれているか否かを判断し、
その立体構造の機能予測を行なうものである。
【0273】また、予測結果出力部68は、機能予測部
67により予測された結果を、予測機能に対応する機能
部位についてのアミノ酸名およびアミノ酸配列番号とし
て出力し、これらの情報をディスプレイ62上に表示さ
せるものである。この図72に示す機能予測を行なう共
通構造抽出装置は、図61により上述したように、機能
が解明されているタンパク質と未知のタンパク質との共
通構造を抽出して、未知のタンパク質の機能や立体構造
中の機能部位を予測するものであり、データ入力部51
に機能が未知である物質Aを指定する入力データ50h
が入力コマンドにより入力されると、機能予測部67が
動作を開始するようになっている。
【0274】この機能予測部67の動作を、図73に示
すフローチャート(ステップS121〜S127)に従
って説明する。ここで、図73において、タンパク質P
Aの機能は未知であり、タンパク質PBi は、機能部位
データベース54にi番目(1≦i≦N)のデータとし
て登録された機能既知のものである。また、共通構造の
長さの基準をL、機能部位を格納する領域“site”とし
て示す。
【0275】図73に示すように、まず、機能部位デー
タベース54における機能既知のタンパク質PBi を指
定する番号iに1を設定して初期化を行なってから(ス
テップS121)、立体構造データベース52から機能
が既知のi番目のタンパク質PBi を取り込むととも
に、このタンパク質PBi の機能部位の範囲(ST)を
領域“site”に読み込むためのID(機能部位の名称、
即ち機能部位データベース54におけるエントリ番号)
を機能部位データベース54から読み込む(ステップS
122)。
【0276】次に、タンパク質PAとタンパク質PBi
との共通構造を抽出する(ステップS123)。この共
通構造の抽出処理に際しては、前述した通り、核構造抽
出処理(セグメント化により類似構造を検索する処理)
により求めた核構造が部分対応付け情報として用いら
れ、その核構造を中心とした重ね合わせを行なう。そし
て、共通構造抽出処理により求められた共通構造の長さ
が一定の長さL(セグメントの長さ)よりも長く、且
つ、共通構造の中に機能部位が含まれているか否か判断
し(ステップS124)、このような条件を満たす場合
には、タンパク質PBiのIDおよび求められた共通構
造を出力し(ステップS125)、番号iに1を加算し
て(ステップS126)、機能部位データベース54に
登録されている次のタンパク質PBi について同様の処
理を行なう。
【0277】このステップS122〜S126による処
理は、ステップS127にてi>Nと判定されるまで、
つまり機能部位データベース54に登録されている全て
のタンパク質と、タンパク質PAとの共通構造抽出処理
を終了するまで繰り返し行なわれる。なお、機能データ
ベース54に登録されるタンパク質PBi のデータは、
例えば図74に示すようなものである。図74では、例
えば、“ID”の項目に機能部位の名称が登録され、“S
T”の項目にこのタンパク質PBi の機能部位の範囲が
アミノ酸残基番号により登録されている。
【0278】以下に、核構造抽出による機能予測を行な
う共通構造抽出装置の具体的な動作例について、図75
〜図78を参照しながら説明する。図75(A)はλフ
ァージCroタンパク質のアミノ酸配列を示し、図75
(B)はλファージCroタンパク質の立体構造を示し
ている。また、図76(A)はλファージリプレッサー
のアミノ酸配列を示し、図76(B)はλファージリプ
レッサーの立体構造を示している。
【0279】λファージCroタンパク質にはDNAが
結合し、その結合部位はアミノ酸残基番号16〜35で
あることが知られている。λファージCroタンパク質
とλファージリプレッサーとから共通構造を抽出した結
果をアライメント形式で表示した例を図77に示し、そ
のグラフィック表示例を図78に示す。図77に示すよ
うに、λファージCroタンパク質のアミノ酸残基番号
16〜35に対して、1残基だけ対応付けられていない
アミノ酸が存在してはいるが、λファージリプレッサの
アミノ酸残基番号28〜47のアミノ酸が対応付けられ
たことが分かる。また、λファージリプレッサーもDN
Aと結合することが知られており、上述した結果は、生
化学的な実験で得られた結果と合致するものである。
【0280】このように、図72に示す装置を用いて、
機能が既知の物質の立体構造と未知の機能をもつの物質
の立体構造との共通構造を抽出することにより、新規物
質の持つ機能を予測することができる。 (D)本実施例の効果の説明 このように、本実施例の共通構造抽出装置によれば、部
分対応付けができる複数の立体構造を重ね合わせて、他
に存在する共通構造を正確に且つ迅速に抽出することが
でき、グラフィックシステムによる共通構造の表示,立
体構造データベース52からの類似な立体構造の検索,
構造の類似性に基づく機能予測等を行なうことが可能に
なる。
【0281】従って、タンパク質等の物質の機能の解明
や機能強化のための改良に当たり、従来研究者が試行錯
誤しながら進めてきた作業が、構造に基づく機能を予測
しその予測結果を実験によって実証するという研究開発
サイクルとして確立・実行されるので、その作業を大幅
に効率化することができる。また、核構造抽出の技術に
より、二つの立体構造に対して重ね合わせの中心となる
核構造を自動的に抽出し、得られた核構造に基づいて共
通構造を抽出することで、上記と同様にタンパク質等の
物質の立体構造と機能の解明や予測等の作業の効率化に
大きく寄与する。
【0282】さらに、本実施例では、コスト関数の導入
により、タンパク質等の物質の共通構造の抽出処理時に
無駄な検索処理を行なうのを防止でき、共通構造の抽出
処理を極めて効率よく実行でき、さらには広範囲に亘っ
て共通構造を抽出でき抽出精度の向上にも大きく寄与す
る。以下に、本実施例で、コスト関数の導入による最適
化探索手法を採用したことによる効果を、より詳細に説
明する。
【0283】共通構造の抽出処理に際しては、対応付け
る点間の距離の閾値“ERROR ”の大きさに比例して、一
つの点に対応付く点の数が増加し、その結果、最長共通
部分を形成する要素の組合せ数が指数関数的に増加す
る。そこで、本発明の共通構造抽出装置では、図15〜
図30にて説明した累積コストによる最適化探索手法を
導入することによって、探索処理の高速化をはかり、閾
値“ERROR ”の値に関係なく、最長共通部分を算出でき
るように改良されている。
【0284】下記の表1および表2に、種々の閾値“ER
ROR ”に対する、累積コストによる最適化探索手法を導
入した場合としない場合とでの計算時間と、算出された
共通構造の長さとを示す。表1には、トリプシン(4P
TP;図47参照)とエラスターゼ(3EST;図53
参照)との共通構造を抽出した際に、最適化探索を行な
った場合の処理実行時間と、最適化探索を行なわずに全
解探索を行なう場合の処理実行時間と、抽出される最長
共通部分の長さとが、種々の閾値“ERROR ”毎に示され
ている。この表1に示す例では、全体構造の類似性が高
い二つの立体構造間の共通構造を抽出している。
【0285】また、表2には、ラスプロテイン(5P2
1)とアデニル酸キナーゼ(3ADK)との共通構造を
抽出した際に、最適化探索を行なった場合の処理実行時
間と、最適化探索を行なわずに全解探索を行なう場合の
処理実行時間と、抽出される最長共通部分の長さとが、
種々の閾値“ERROR ”毎に示されている。この表2に示
す例では、全体構造の類似性が低い二つの立体構造間の
共通構造を抽出している。
【0286】
【表1】
【0287】
【表2】
【0288】これらの表1,表2を参照して明らかなよ
うに、最適化探索を行なわずに全解探索を行なった場
合、閾値“ERROR ”の増加に伴って計算時間が指数関数
的に増加するのに対して、最適化探索を行なった場合に
は、閾値“ERROR ”の増加に関係なく、一定時間で計算
を終了することができる。また、最適化探索を行なわず
に全解探索を行なった場合、全体構造の類似性が高けれ
ば閾値“ERROR ”=4.0Åが抽出処理の限界であり、
全体構造の類似性が低ければ閾値“ERROR ”=3.0Å
が抽出処理の限界であったが、最適化探索を行なうこと
により、より大きな閾値“ERROR ”で抽出処理を行なう
ことが可能になり、広範囲に亘る共通構造を抽出でき、
抽出精度が大幅に向上することになる。
【0289】なお、上述した実施例では、共通構造がタ
ンパク質である場合について説明したが、本発明は、こ
れに限定されるものではなく、共通構造の抽出対象とな
る立体構造は、立体座標をもつ構造であれば特に限定さ
れず、順序付けられた点集合と見なすことのできる、R
NA等の立体構造や一般の分子構造等についても本手法
を適用し、上記実施例と同様の作用効果を得ることがで
きる。
【0290】ただし、立体構造が物質である場合には、
当該物質を構成する分子もしくは原子を点とみなし、そ
の立体構造を、所定配列に従う分子もしくは原子の順序
集合として捉える。
【0291】
【発明の効果】以上詳述したように、本発明の共通構造
抽出装置によれば、部分的に対応付けすることのできる
二つの立体構造を重ね合わせて、他に存在する共通構造
を正確に且つ迅速に抽出できるので、二つの立体構造に
おける類似構造や構造に基づく機能などの解明作業に要
する時間,人員やコストが削減され、その作業の効率化
に大きく寄与する(請求項1〜)。
【0292】また、コスト関数を導入することにより、
共通構造の抽出処理時に無駄な検索処理を行なうのを防
止できるので、共通構造の抽出処理を極めて効率よく実
行することができる(請求項)。一方、共通構造
抽出のための一連の処理を再帰的に繰り返すことによ
り、最適な共通部分を抽出でき、二つの立体構造におけ
る全ての共通部分を確実に抽出することができる(請求
3,4)。
【0293】また、二つの共通構造の部分対応付け情報
が予め明確になっていなくても、二つの共通構造の類似
構造の検索あるいは核構造の抽出を行ない、共通構造を
正確に且つ迅速に抽出できるので、複数の立体構造にお
ける類似構造や構造に基づく機能などの解明作業の効率
化に大きく寄与する(請求項8〜10)。さらに、二つ
の立体構造の重ね合わせた状態の表示や、共通構造に関
する情報のアライメント出力や、共通構造の三次元座標
情報の出力を行なうことにより、オペレータ等は、二つ
の立体構造の共通構造や特異的な構造を容易に判別で
き、共通構造についての解明作業の効率化に大きく寄与
する(請求項11〜14)。
【0294】ところで、本発明の共通構造抽出装置によ
れば、二つの立体構造における類似構造に関する情報と
その類似構造を部分対応付け情報として用いて抽出され
た共通構造に関する情報とを自動的に出力する立体構造
検索装置としての機能を提供でき、二つの立体構造にお
ける類似構造や構造に基づく機能などの解明作業の効率
化に大きく寄与する(請求項15)。
【0295】また、本発明の共通構造抽出装置によれ
ば、二つの立体構造の共通部分を抽出する機能を用いて
機能部位データベースを作成する機能部位データベース
生成装置としての機能を提供でき、未知の機能を有する
立体構造の機能を解明する際に必要になる機能部位デー
タベースを容易に作成することができ、立体構造の機能
の解明作業の効率化に大きく寄与する(請求項16)。
【0296】さらに、本発明の共通構造抽出装置によれ
ば、二つの立体構造の共通部分を抽出する機能を用いて
未知の機能を有する立体構造の機能を予測する機能予測
装置としての機能を提供でき、立体構造の機能の解明作
業の効率化に大きく寄与する(請求項17)。またさら
に、核構造に基づいて抽出された共通構造の類似性を表
示することにより、オペレータ等は、共通構造の類似性
を把握して、立体構造の機能の解明等に際しての各種判
断に生かすことができる(請求項18)。
【0297】さらにまた、本発明の共通構造抽出装置に
よれば、二つの立体構造の核構造を抽出して未知の機能
を有する立体構造の機能を予測する機能予測装置として
の機能を提供でき、立体構造の機能の解明作業の効率化
に大きく寄与する(請求項19)。なお、抽出対象の立
体構造を、物質の立体構造やタンパク質の立体構造とす
ることで、各種物質やタンパク質の立体構造の検索や、
その立体構造の類似性に基づく機能予測等が可能にな
り、各種物質やタンパク質の機能の解明作業の効率化に
大きく寄与する(請求項20,21)。
【0298】上述した本発明の共通構造抽出装置による
総合的な効果について以下に説明する。つまり、本発明
の共通構造抽出装置によれば、部分対応付けができる複
数の立体構造を重ね合わせて、他に存在する共通構造を
正確に且つ迅速に抽出することができ、グラフィックシ
ステムによる共通構造の表示,データベースからの類似
な立体構造の検索,構造の類似性に基づく機能予測等を
行なうことが可能になる。
【0299】従って、物質(タンパク質)の機能の解明
や機能強化のための改良に当たって、従来研究者が試行
錯誤しながら進めてきた作業を、構造に基づく機能を予
測しその予測結果を実験によって実証するという研究開
発サイクルとして確立・実行できるので、その作業を大
幅に効率化することができる。また、本発明の核構造抽
出の技術により、二つの立体構造に対して重ね合わせの
中心となる核構造を自動的に抽出し、得られた核構造に
基づいて共通構造を抽出することで、上記と同様に物質
(タンパク質)の立体構造と機能の解明や予測等の作業
の効率化に大きく寄与する。
【0300】さらに、コスト関数の導入により、物質
(タンパク質)の共通構造の抽出処理時に無駄な検索処
理を行なうのを防止でき、共通構造の抽出処理を極めて
効率よく実行でき、さらには広範囲に亘って共通構造を
抽出でき抽出精度の向上にも大きく寄与する。
【図面の簡単な説明】
【図1】本発明の原理ブロック図である。
【図2】本発明の一実施例としての共通構造抽出装置の
基本構成を示すブロック図である。
【図3】本実施例の共通構造抽出装置に付設される類似
構造検索部の構成を示すブロック図である。
【図4】本実施例の共通構造抽出装置に付設される核構
造抽出部の構成を示すブロック図である。
【図5】本実施例の共通構造抽出装置における共通部分
長さ算出部の構成を示すブロック図である。
【図6】本実施例における対応テーブルの構成を示す図
である。
【図7】本実施例における初期テーブル作成手順を説明
するためのフローチャートである。
【図8】本実施例における対応テーブルの更新によるL
CS算出手順を説明するためのフローチャートである。
【図9】本実施例における対応要素の探索処理を説明す
るためのフローチャートである。
【図10】順序付けられた二つの点集合の具体的な配置
例を示す図である。
【図11】図10に示す点集合について作成された初期
テーブルの例を示す図である。
【図12】(a),(b)は対応テーブルの更新例を示
す図である。
【図13】(a),(b)は対応テーブルの更新例を示
す図である。
【図14】(a),(b)は対応テーブルの更新例を示
す図である。
【図15】本実施例における最長共通部分抽出手順を説
明するためのフローチャートである。
【図16】本実施例の最長共通部分抽出処理に際して実
行される関数“align ”の処理内容を説明するためのフ
ローチャートである。
【図17】本実施例の最長共通部分抽出処理に際して実
行される関数“look for pair ”の処理内容を説明する
ためのフローチャートである。
【図18】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図19】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図20】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図21】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図22】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図23】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図24】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図25】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図26】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図27】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図28】本実施例の最長共通部分抽出処理の具体例を
説明すべく、対応テーブル上での探索状態を示す図であ
る。
【図29】本実施例の最長共通部分抽出処理(最適化探
索)の具体例を一つの木構造にまとめて示す図である。
【図30】全解探索による最長共通部分抽出処理の具体
例を一つの木構造にまとめて示す図である。
【図31】本実施例における核構造抽出処理の手順を説
明するためのフローチャートである。
【図32】本実施例の核構造抽出処理に際して実行され
る検索処理の手順を説明するためのフローチャートであ
る。
【図33】本実施例の核構造抽出処理の具体例を示す図
である。
【図34】(A),(B)は本実施例の核構造抽出処理
の具体例を示す図である。
【図35】(A),(B)は本実施例の核構造抽出処理
の具体例を示す図である。
【図36】(A),(B)は本実施例の核構造抽出処理
の具体例を示す図である。
【図37】(A),(B)は本実施例の核構造抽出処理
の具体例を示す図である。
【図38】(A),(B)は本実施例の核構造抽出処理
の具体例を示す図である。
【図39】本実施例における類似構造マップ作成処理の
手順を説明するためのフローチャートである。
【図40】本実施例の類似構造マップ作成処理に際して
実行される検索処理の手順を説明するためのフローチャ
ートである。
【図41】(A),(B)は本実施例の類似構造マップ
作成処理により作成された類似構造マップの具体例を示
す図である。
【図42】本実施例における類似構造マップに基づいた
核構造抽出処理の手順を説明するためのフローチャート
である。
【図43】本実施例の類似構造マップに基づいた核構造
抽出処理に際して実行される類似部位探索処理の手順を
説明するためのフローチャートである。
【図44】(A),(B)は幾何学的な関係(n点間の
距離関係)による候補の絞り込みを説明するための図で
ある。
【図45】本実施例による共通構造抽出部および類似構
造検索部を用いて構成されるシステムの構成を示すブロ
ック図である。
【図46】立体構造表示を行なう共通構造抽出装置とし
て機能する構成部分を抽出して示すブロック図である。
【図47】トリプシン(4PTP) の立体構造を示す図
である。
【図48】アルファ・リティック・プロテアーゼ(2A
LP) の立体構造を示す図である。
【図49】抽出された触媒トライアードの構造を示す図
である。
【図50】抽出処理に際して使用する部分対応付け情報
を示す図である。
【図51】抽出された共通構造をアライメント形式で表
示した例を示す図である。
【図52】抽出された共通構造をアライメント形式で表
示した例を示す図である。
【図53】エラスターゼの立体構造を示す図である。
【図54】トリプシンとエラスターゼとの共通構造を示
す図である。
【図55】トリプシンとエラスターゼとの共通構造(全
体構造上の位置)を示す図である。
【図56】トリプシンとエラスターゼとの共通構造をア
ライメント形式で表示した例を示す図である。
【図57】トリプシンとエラスターゼとの共通構造をア
ライメント形式で表示した例を示す図である。
【図58】トリプシンとエラスターゼとの共通構造をア
ライメント形式で表示した例を示す図である。
【図59】立体構造検索を行なう共通構造抽出装置とし
て機能する構成部分を抽出して示すブロック図である。
【図60】トリプシンのヒスチジン活性部位をプローブ
として用い、その類似構造をアルファ・リティック・プ
ロテアーゼから検索した結果を示す図である。
【図61】機能予測を行なう共通構造抽出装置として機
能する構成部分を抽出して示すブロック図である。
【図62】ラスプロテインとアデニル酸キナーゼとから
共通構造を抽出した結果を、アライメント形式で表示し
た例を示す図である。
【図63】ラスプロテインとアデニル酸キナーゼとから
共通構造を抽出した結果を、アライメント形式で表示し
た例を示す図である。
【図64】本実施例における核構造抽出を用いた共通構
造抽出装置の構成を示すブロック図である。
【図65】タンパク質のトリプシンのアミノ酸配列を示
す図である。
【図66】エラスターゼのアミノ酸配列を示す図であ
る。
【図67】核構造抽出結果を用いてトリプシンとエラス
ターゼとの共通構造を抽出した結果を、アライメント形
式で表示した例を示す図である。
【図68】核構造抽出結果を用いてトリプシンとエラス
ターゼとの共通構造を抽出した結果を、アライメント形
式で表示した例を示す図である。
【図69】核構造抽出結果を用いてトリプシンとエラス
ターゼとの共通構造を抽出した結果を、アライメント形
式で表示した例を示す図である。
【図70】核構造抽出結果を用いてトリプシンとエラス
ターゼとから抽出された共通構造のグラフィック表示状
態を示す図である。
【図71】本実施例における核構造抽出を用いた類似構
造検索を行なう共通構造抽出装置の構成を示すブロック
図である。
【図72】本実施例における核構造抽出による機能予測
を行なう共通構造抽出装置の構成を示すブロック図であ
る。
【図73】本実施例の機能予測部の動作を説明するため
のフローチャートである。
【図74】本実施例の機能部位データベースの登録例を
示す図である。
【図75】(A)はλファージCroタンパク質のアミ
ノ酸配列を示す図、(B)はλファージCroタンパク
質の立体構造を示す図である。
【図76】(A)はλファージリプレッサーのアミノ酸
配列を示す図、(B)はλファージリプレッサーの立体
構造を示す図である。
【図77】λファージCroタンパク質とλファージリ
プレッサーとの共通構造の抽出結果を、アライメント形
式で表示した例を示す図である。
【図78】λファージCroタンパク質とλファージリ
プレッサーとの共通構造の抽出結果のグラフィック表示
状態を示す図である。
【図79】(A)〜(D)はrmsd値の一般的な算出
手法を示す図である。
【図80】本実施例の共通構造抽出装置を実現するため
の計算機システムの構成例を示すブロック図である。
【符号の説明】
1 共通構造抽出装置 1A 共通構造抽出部 2 類似構造検索部 2a 構成要素検索部 3 核構造抽出部 3a セグメント分割部 3b セグメント検索部 3c 類似性判別部 3d 核構造選択部 10 全体構造重合部 10a 重心算出部 10b 平行移動部 10c 回線角算出部 10d 回転重合部 11 共通部分長さ算出部 11a 対応テーブル作成部 11b LCS算出部(最長共通部分長さ算出部) 12 累積距離算出部 12a コスト関数演算部 13 共通部分抽出部 50a〜50h 入力データ 51 データ入力部 52 立体構造データベース 53 類似構造検索部 54 機能部位データベース 55 共通構造抽出部 56 共通構造出力部 57 アライメント出力部 58 モデル構造出力部 59 類似構造出力部 60 機能部位データベース作成部 61 機能部位出力部 62,62a〜62c ディスプレイ(表示部) 63 機能部位データベース 64 核構造抽出部 65 類似性判定部 66 判定結果出力部 67 機能予測部 68 予測結果出力部 100 CPU 101 RAM 102 ROM 103 インターフェイス部 104 表示制御部 105 バス
フロントページの続き (56)参考文献 特開 昭62−44897(JP,A) 特開 平5−219932(JP,A) 特開 昭63−259598(JP,A) 特開 平4−45781(JP,A) ALEXANDROV,N.N.e t.al ”Common Spati al Arrangements of Backbone Fragment s in Homologous an d Non−homologous P roteins”Journal of MOLECULAR BIOLOG Y,Vol.225,No.1,pp.5 −9,1992(平4−5−5) 板井「コンピュータを用いた医薬分子 設計の現状」,薬学図書館,Vol. 36,No.1,1991年,p.10−23 G Vriend and C Sa nder,”Detection of Common Three−Dime nsional Substructu res in Proteins”,P ROTEINS: Structur e,Function and Gen etics,Vol.11,No.1, 1991年,p.52−58 板井、富岡,「リードジェネレーショ ンを指向したコンピューターグラフィッ クス」,現代化学増刊,Vol.13, 1987年,p.57−72 富岡,板井「分子設計と分子モデリン グ」PIXEL,No.64,1988,p. 64,65,43(昭63−1−1) AKUTSU,T.,”PROTEI X:An Inteeeractive Database System f or Three Dimension al Protein Structu res”,Proceedings o f Genome Informati cs Workshop IV,1993, p.430−443(平5−12−13) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/50 JICSTファイル(JOIS)

Claims (21)

    (57)【特許請求の範囲】
  1. 【請求項1】 それぞれ立体構造を形成する順序付けら
    れた二つの点集合から、該二つの点集合の間で共通する
    部分の点集合を、二つの該立体構造間の共通構造として
    抽出する共通構造抽出装置であって、 該二つの点集合を部分的に対応付けるべく予め既知のデ
    ータとして与えられる部分対応付け情報に基づいて、該
    二つの点集合の全体を平行移動/回転移動させて重ね合
    わせる全体構造重合部と、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対になる点の数を共通部分長さとして
    算出する共通部分長さ算出部と、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対になる点間の距離を累積した累積距
    離情報を算出する累積距離算出部と、 該共通部分長さ算出部により算出された共通部分長さが
    最長で、且つ、該累積距離算出部により算出された累積
    距離情報が最小になる該二つの点集合の共通部分を、共
    通構造として抽出する共通部分抽出部とがそなえられ、 該二つの点集合の共通部分として対になる点間の距離に
    基づくコスト関数を導入するとともに、 該二つの点集合の共通部分として同一の最長共通部分長
    さを有する複数の経路が存在する場合に該累積距離算出
    部が前記累積距離情報を算出すべく各経路を成す点を順
    次探索する際、各経路を成す点が順次探索される都度、
    当該点での前記コスト関数の値を算出するコスト関数演
    算部をそなえ、 該累積距離算出部が、ある点を探索した時に、当該点に
    おいて該コスト関数演算部により算出された前記コスト
    関数の新値と、当該点において以前に該コスト関数演算
    部により算出された前記コスト関数の旧値とを比較し
    記新値が前記旧値以上である場合には、当該経路につ
    いての探索を中止して次の経路の探索へ移行する一方
    記新値が前記旧値よりも小さい場合には、当該経路に
    ついての探索を継続して実行することにより、該前記同
    一の最長共通部分長さを有する複数の経路の中から、前
    記コスト関数の値が最小になる経路が共通構造として抽
    出されることを特徴とする、共通構造抽出装置。
  2. 【請求項2】 前記コスト関数が、各経路の始点から探
    索点までの各点において対になる点間の距離の二乗値を
    累積加算するものであることを特徴とする、請求項1記
    載の共通構造抽出装置。
  3. 【請求項3】 該共通部分抽出部により抽出された共通
    構造を前記部分対応付け情報として用い、 該全体構造重合部,該共通部分長さ算出部,該累積距離
    算出部および該共通部分抽出部による一連の処理を、該
    二つの点集合の共通部分として対になる点の数に変化が
    なくなるまで再帰的に繰り返して最適な共通構造を抽出
    ることを特徴とする、請求項1もしくは請求項2に
    載の共通構造抽出装置。
  4. 【請求項4】 それぞれ立体構造を形成する順序付けら
    れた二つの点集合から、該二つの点集合の間で共通する
    部分の点集合を、二つの該立体構造間の共通構造として
    抽出する共通構造抽出装置であって、 該二つの点集合を部分的に対応付ける部分対応付け情報
    に基づいて、該二つの点集合の全体を平行移動/回転移
    動させて重ね合わせる全体構造重合部と、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対になる点の数を共通部分長さとして
    算出する共通部分長さ算出部と、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対になる点間の距離を累積した累積距
    離情報を算出する累積距離算出部と、 該共通部分長さ算出部により算出された共通部分長さが
    最長で、且つ、該累積距離算出部により算出された累積
    距離情報が最小になる該二つの点集合の共通部分を、共
    通構造として抽出する共通部分抽出部とがそなえられ、前記部分対応付け情報として予め与えられる既知のデー
    タを用いて 該共通部分抽出部により共通構造が抽出され
    た後、抽出された当該共通構造を前記部分対応付け情報
    として用い、 該全体構造重合部,該共通部分長さ算出部,該累積距離
    算出部および該共通部分抽出部による一連の処理を、該
    二つの点集合の共通部分として対になる点の数に変化が
    なくなるまで再帰的に繰り返して最適な共通構造を抽出
    することを特徴とする、共通構造抽出装置。
  5. 【請求項5】 該全体構造重合部が、 該部分対応付け情報により対応付けられる該二つの点集
    合における部分集合の重心をそれぞれ算出する重心算出
    部と、 該重心算出部により算出された二つの該重心が一致する
    ように該二つの点集合を平行移動する平行移動部と、 該二つの点集合における部分集合を重ね合わせるために
    必要な該重心まわりの回転角を算出する回転角算出部
    と、 該回転角算出部により算出された該回転角に基づいて一
    方の点集合の全体を回転することにより、該二つの点集
    合の全体を重ね合わせる回転重合部とをそなえて構成さ
    れてい ることを特徴とする、請求項1〜請求項4のいず
    れか一項に記載の共通構造抽出装置。
  6. 【請求項6】 該共通部分長さ算出部が、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対応付けられる可能性のある点の組合
    せを格納する対応テーブルを作成する対応テーブル作成
    部と、 該対応テーブル作成部により作成された対応テーブルに
    基づいて、該二つの点集合の共通部分として対応付けら
    れる点集合において対になる点の数を、最長共通部分長
    さとして算出する最長共通部分長さ算出部とをそなえて
    構成されていることを特徴とす る、請求項1〜請求項4
    のいずれか一項に記載の共通構造抽出装置。
  7. 【請求項7】 該累積距離算出部が、 該全体構造重合部により重ね合わされた該二つの点集合
    の共通部分として対になる点間の距離についての平均二
    乗値の平方根を、前記累積距離情報として算出す ること
    を特徴とする、請求項1〜請求項4のいずれか一項に
    載の共通構造抽出装置。
  8. 【請求項8】 該二つの点集合のうちの一方の点集合を
    その順序に従って先頭から順に一定個数の部分集合に分
    割して、各部分集合に類似する点集合を、該二つの点集
    合のうちの他方の点集合から類似構造として検索する類
    似構造検索部をそなえ、 該類似構造検索部により検索された類似構造を、前記部
    分対応付け情報として用い、前記共通構造を抽出するこ
    とを特徴とする、請求項1〜請求項7のいずれかに記載
    の共通構造抽出装置。
  9. 【請求項9】 該二つの点集合から、該二つの点集合を
    適切に重ね合わせるための核となる点集合を核構造とし
    て抽出する核構造抽出部をそなえ、 該核構造抽出部が、 該二つの点集合のうちの一方の点集合を、その順序に従
    って先頭の点から1点ずつずらしながら一定の長さのセ
    グメントに分割し、分割された各セグメントに類似する
    点集合を、該二つの点集合のうちの他方の点集合から類
    似構造として検索し、検索された該類似構造のうち最も
    類似するものを核構造として選択し、該選択した核構造
    を前記部分対応付け情報として出力することを特徴とす
    る、請求項1〜請求項7のいずれかに記載の共通構造抽
    出装置。
  10. 【請求項10】 該核構造抽出部が、 該二つの点集合間に存在する類似構造の分布を把握すべ
    く、該二つの点集合を成す各点をその順序に従ってそれ
    ぞれ行と列とに割り当てるとともに、検索された該類似
    構造の、該二つの点集合上でのそれぞれの位置に応じた
    行および列の交点上に所定データを設定することにより
    類似構造マップを作成し、 該類似構造マップを参照して前記核構造を抽出すること
    を特徴とする、請求項9記載の共通構造抽出装置。
  11. 【請求項11】 該共通部分抽出部により抽出された前
    記共通構造に基づいて、該二つの点集合によりそれぞれ
    形成される二つの立体構造を重ね合わせて表示する表示
    部をそなえたことを特徴とする、請求項1〜請求項10
    のいずれかに記載の共通構造抽出装置。
  12. 【請求項12】 該表示部が、前記二つの立体構造を3
    次元グラフィックとして表示することを特徴とする、請
    求項11記載の共通構造抽出装置。
  13. 【請求項13】 該共通部分抽出部により抽出された前
    記共通構造を構成する該二つの点集合の各点に関する情
    報を、各点集合における順序に従って並置した状態で出
    力するアライメント出力部をそなえたことを特徴とす
    る、請求項1〜請求項10のいずれかに記載の共通構造
    抽出装置。
  14. 【請求項14】 該共通部分抽出部により抽出された前
    記共通構造を三次元座標情報として出力するモデル構造
    出力部をそなえたことを特徴とする、請求項1〜請求項
    10のいずれかに記載の共通構造抽出装置。
  15. 【請求項15】 該二つの点集合のうちの一方の点集合
    に関する情報として、部分構造情報を入力するデータ入
    力部と、 該二つの点集合のうちの他方の点集合に関する情報とし
    て、立体構造に関する情報を予め格納する立体構造デー
    タベースと、 該データ入力部から入力された前記部分構造情報に類似
    する立体構造を、該立体構造データベースから類似構造
    として検索する類似構造検索部と、 該類似構造検索部により検索された類似構造に関する情
    報と、当該類似構造を前記部分対応付け情報として用い
    て該共通部分抽出部により抽出された前記共通構造に関
    する情報とを出力する類似構造出力部とをそなえたこと
    を特徴とする、請求項1〜請求項7のいずれかに記載の
    共通構造抽出装置。
  16. 【請求項16】 該二つの点集合のうちの一方の点集合
    に関する情報として、既知の機能を有する部分構造に関
    する情報を入力するデータ入力部と、 該二つの点集合のうちの他方の点集合に関する情報とし
    て、立体構造に関する情報を予め格納する立体構造デー
    タベースと、 ある機能とその機能に関連する立体構造との関係を格納
    する機能部位データベースと、 該データ入力部から入力された前記既知の機能を有する
    部分構造に類似する立体構造を、該立体構造データベー
    スから類似構造として検索する類似構造検索部と、 該類似構造検索部により検索された類似構造に関する情
    報と、当該類似構造を前記部分対応付け情報として用い
    て該共通部分抽出部により抽出された前記共通構造に関
    する情報と、前記所定機能に関する情報とを、該機能部
    位データベースに出力して登録する機能部位データベー
    ス作成部とをそなえたことを特徴とする、請求項1〜請
    求項7のいずれかに記載の共通構造抽出装置。
  17. 【請求項17】 該二つの点集合のうちの一方の点集合
    に関する情報として、未知の機能を有する対象立体構造
    に関する情報を入力するデータ入力部と、 ある機能とその機能に関連する立体構造との関係を格納
    する機能部位データベースと、 該機能部位データベースに格納された立体構造に類似す
    る構造を、該データ入力部から入力された前記対象立体
    構造から検索する類似構造検索部と、 該類似構造検索部により検索された類似構造を前記部分
    対応付け情報として用いて該共通部分抽出部により抽出
    された、前記対象立体構造と該機能部位データベースに
    格納された立体構造との共通構造に基づいて、前記対象
    立体構造の有する機能とその機能に関連する構造とを特
    定して出力する機能部位出力部とをそなえたことを特徴
    とする、請求項1〜請求項7のいずれかに記載の共通構
    造抽出装置。
  18. 【請求項18】 該核構造抽出部により抽出された核構
    造を前記部分対応付け情報として用いて該共通部分抽出
    部により抽出された前記共通構造について、当該共通構
    造を成す該二つの点集合の類似性を判定する類似性判定
    部と、 該類似性判定部により当該共通構造を成す該二つの点集
    合の類似性が高いと判定された場合に当該共通構造を表
    示する表示部とをそなえたことを特徴とする、請求項9
    または請求項10に記載の共通構造抽出装置。
  19. 【請求項19】 該二つの点集合のうちの一方の点集合
    に関する情報として既知の機能を有する立体構造に関す
    る情報を入力するとともに、該二つの点集合のうちの他
    方の点集合に関する情報として未知の機能を有する立体
    構造に関する情報とを入力するデータ入力部と、 ある機能とその機能に関連する立体構造との関係を格納
    する機能部位データベースと、 該データ入力部から入力された前記既知の機能を有する
    立体構造と前記未知の機能を有する立体構造とについ
    て、該核構造抽出部により抽出された核構造を前記部分
    対応付け情報として用いて該共通構部分出部により抽出
    された前記共通構造に基づいて該機能部位データベース
    を参照し、前記未知の機能を有する立体構造についての
    機能予測を行なう機能予測部と、 該機能予測部により予測された、前記未知の機能を有す
    る立体構造の機能部位を表示する表示部とをそなえたこ
    とを特徴とする、請求項9または請求項10に記載の共
    通構造抽出装置。
  20. 【請求項20】 前記立体構造が物質の立体構造であ
    り、前記の各点集合が、当該物質を構成する分子もしく
    は原子を点とみなし、所定配列に従う該分子もしくは該
    原子の順序集合として捉えられるものであることを特徴
    とする、請求項1〜請求項19のいずれかに記載の共通
    構造抽出装置。
  21. 【請求項21】 前記立体構造がタンパク質の立体構造
    であり、前記の各点集合が、当該タンパク質を構成する
    アミノ酸を点とみなし、該アミノ酸の配列番号に従う該
    アミノ酸の順序集合として捉えられるものであることを
    特徴とする、請求項1〜請求項19のいずれかに記載の
    共通構造抽出装置。
JP01080595A 1994-02-28 1995-01-26 共通構造抽出装置 Expired - Lifetime JP3235763B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP01080595A JP3235763B2 (ja) 1994-02-28 1995-01-26 共通構造抽出装置
US08/390,862 US6453064B1 (en) 1994-02-28 1995-02-17 Common structure extraction apparatus

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP6-30157 1994-02-28
JP3015794 1994-02-28
JP01080595A JP3235763B2 (ja) 1994-02-28 1995-01-26 共通構造抽出装置

Publications (2)

Publication Number Publication Date
JPH07287717A JPH07287717A (ja) 1995-10-31
JP3235763B2 true JP3235763B2 (ja) 2001-12-04

Family

ID=26346141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01080595A Expired - Lifetime JP3235763B2 (ja) 1994-02-28 1995-01-26 共通構造抽出装置

Country Status (2)

Country Link
US (1) US6453064B1 (ja)
JP (1) JP3235763B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370479B1 (en) * 1992-02-06 2002-04-09 Fujitsu Limited Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US7912689B1 (en) 1999-02-11 2011-03-22 Cambridgesoft Corporation Enhancing structure diagram generation through use of symmetry
US7295931B1 (en) 1999-02-18 2007-11-13 Cambridgesoft Corporation Deriving fixed bond information
US7295523B1 (en) * 1999-05-24 2007-11-13 Massachusetts Institute Of Technology System and method for resource discovery
US6728779B1 (en) * 1999-12-01 2004-04-27 Lucent Technologies Inc. Method and apparatus for exchanging routing information in a packet-based data network
EP1259907A2 (en) * 2000-02-29 2002-11-27 Cambridgesoft Corporation Managing chemical information and commerce
US7272509B1 (en) 2000-05-05 2007-09-18 Cambridgesoft Corporation Managing product information
US7356419B1 (en) 2000-05-05 2008-04-08 Cambridgesoft Corporation Deriving product information
JP2003196640A (ja) * 2001-12-14 2003-07-11 Ge Medical Systems Global Technology Co Llc 画像処理方法および装置
US20050158742A1 (en) * 2002-05-22 2005-07-21 Fujitsu Limited Method for analyzing genome
WO2003098471A1 (fr) * 2002-05-22 2003-11-27 Fujitsu Limited Procede d'analyse du genome
US20050136457A1 (en) * 2002-05-22 2005-06-23 Fujitsu Limited Method for analyzing genome
EP1369807A1 (en) * 2002-06-06 2003-12-10 Centre National De La Recherche Scientifique (Cnrs) Process for identifying similar 3d substructures onto 3d atomic structures
JP4532860B2 (ja) * 2003-07-24 2010-08-25 独立行政法人科学技術振興機構 三次元構造データベースから特定のリガンドが結合した生体高分子を検索する検索方法、検索装置、検索プログラム及び記録媒体
WO2005034004A1 (ja) * 2003-09-30 2005-04-14 Nec Corporation 生体高分子の同定を支援するシステム、方法およびプログラム
US7315639B2 (en) * 2004-03-03 2008-01-01 Mevis Gmbh Method of lung lobe segmentation and computer system
KR100598606B1 (ko) * 2004-12-06 2006-07-07 한국전자통신연구원 단백질 구조 검색 시스템 및 단백질 구조 검색 방법
US7764849B2 (en) * 2006-07-31 2010-07-27 Microsoft Corporation User interface for navigating through images
US7712052B2 (en) 2006-07-31 2010-05-04 Microsoft Corporation Applications of three-dimensional environments constructed from images
KR101626989B1 (ko) * 2010-02-01 2016-06-13 삼성전자주식회사 통신 시스템에서 기지국 식별자 할당 방법 및 장치
US11164325B2 (en) * 2020-02-06 2021-11-02 Tianzhi Yang Generating and evaluating mappings between spatial point sets

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6244897A (ja) * 1985-08-22 1987-02-26 Nec Corp 文字認識装置
US4881175A (en) * 1986-09-02 1989-11-14 Genex Corporation Computer based system and method for determining and displaying possible chemical structures for converting double- or multiple-chain polypeptides to single-chain polypeptides
JPS63259598A (ja) * 1987-04-16 1988-10-26 松下電器産業株式会社 音声認識装置
US5025388A (en) * 1988-08-26 1991-06-18 Cramer Richard D Iii Comparative molecular field analysis (CoMFA)
US5265030A (en) * 1990-04-24 1993-11-23 Scripps Clinic And Research Foundation System and method for determining three-dimensional structures of proteins
US5058200A (en) * 1990-06-04 1991-10-15 General Electric Company Transmitter location searching system
JPH0445781A (ja) * 1990-06-13 1992-02-14 Fujitsu Ltd タンパク質構造比較装置
WO1993001484A1 (en) * 1991-07-11 1993-01-21 The Regents Of The University Of California A method to identify protein sequences that fold into a known three-dimensional structure
JPH05219932A (ja) * 1992-02-06 1993-08-31 Fujitsu Ltd 遺伝子情報検査装置
US5568384A (en) * 1992-10-13 1996-10-22 Mayo Foundation For Medical Education And Research Biomedical imaging and analysis

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
AKUTSU,T.,"PROTEIX:An Inteeeractive Database System for Three Dimensional Protein Structures",Proceedings of Genome Informatics Workshop IV,1993,p.430−443(平5−12−13)
ALEXANDROV,N.N.et.al "Common Spatial Arrangements of Backbone Fragments in Homologous and Non−homologous Proteins"Journal of MOLECULAR BIOLOGY,Vol.225,No.1,pp.5−9,1992(平4−5−5)
G Vriend and C Sander,"Detection of Common Three−Dimensional Substructures in Proteins",PROTEINS: Structure,Function and Genetics,Vol.11,No.1,1991年,p.52−58
富岡,板井「分子設計と分子モデリング」PIXEL,No.64,1988,p.64,65,43(昭63−1−1)
板井、富岡,「リードジェネレーションを指向したコンピューターグラフィックス」,現代化学増刊,Vol.13,1987年,p.57−72
板井「コンピュータを用いた医薬分子設計の現状」,薬学図書館,Vol.36,No.1,1991年,p.10−23

Also Published As

Publication number Publication date
JPH07287717A (ja) 1995-10-31
US6453064B1 (en) 2002-09-17

Similar Documents

Publication Publication Date Title
JP3235763B2 (ja) 共通構造抽出装置
Tsai et al. A dataset of protein–protein interfaces generated with a sequence-order-independent comparison technique
Morris et al. Using autodock for ligand‐receptor docking
Saladin et al. PEP-SiteFinder: a tool for the blind identification of peptide binding sites on protein surfaces
Mah et al. In silico SNP analysis and bioinformatics tools: a review of the state of the art to aid drug discovery
EP0848067A2 (en) Computer-aided techniques for analyzing biological sequences
Shatsky et al. FlexProt: alignment of flexible protein structures without a predefinition of hinge regions
US20020052882A1 (en) Method and apparatus for visualizing complex data sets
Rose et al. Computational design strategies for combinatorial libraries
Hippe et al. ZoomQA: residue-level protein model accuracy estimation with machine learning on sequential and 3D structural features
Ogiwara et al. Construction and analysis of a profile library characterizing groups of structurally known proteins
Thong et al. Synthesis of distillation sequences for separating multicomponent azeotropic mixtures
Medina‐Franco et al. Progress in the visualization and mining of chemical and target spaces
JP3867863B2 (ja) 立体構造処理装置
Schächter Protein-interaction networks: from experiments to analysis
Thomas et al. In silico protein engineering: Methods and Tools
JP3856242B2 (ja) 立体構造処理装置
Schächter Bioinformatics of large-scale protein interaction networks
US6994965B2 (en) Method for displaying results of hybridization experiment
CA2537872A1 (en) Methods for establishing and analyzing the conformation of amino acid sequences
Zurkowski et al. RNAhugs web server for customized 3D RNA structure alignment
Liu et al. Sequence similarity alignment algorithm in bioinformatics: Techniques and challenges
KR100882899B1 (ko) 복제 실험 및 염료 교환 실험의 신뢰도 검증 방법, 유효유전자 검색 방법, 이에스티 기능 검색 방법, 실험용프라이머 정보를 제공하는 데이터베이스 구축 방법 및 그기록매체
Schwarz et al. rboAnalyzer: a software to improve characterization of non-coding RNAs from sequence database search output
WO2002005209A2 (en) Method and apparatus for visualizing complex data sets

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010911

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080928

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080928

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090928

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090928

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100928

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110928

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120928

Year of fee payment: 11