JP2002537605A

JP2002537605A - マッチングエンジン

Info

Publication number: JP2002537605A
Application number: JP2000600198A
Authority: JP
Inventors: ターナー、マイケル; ザネリ、ポール; モス、サイモン
Original assignee: ピーシー・マルチメディア・リミテッド
Priority date: 1999-02-19
Filing date: 2000-02-16
Publication date: 2002-11-05
Also published as: BR0008956A; GB9903697D0; WO2000049527A1; US20050246317A1; CN1129081C; AU2678600A; EP1155375A1; CN1342291A

Abstract

(57)【要約】データセットからの１または複数の項目と問合せ項目との間の最良の一致または最良の一致の組を特定するための方法。この方法は、（i）前記データセットにおける各項目のデータ表現を提供する過程と、（ii）前記問合わせ項目の問合わせ表現を提供する過程と、（iii）変換空間を確定する過程と、（iv）変換空間全体にわたる多数の領域のそれぞれについて、その領域における任意の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限を決定する過程と、（v）閾値確率を決定する過程と、（vi）各領域の前記確率の上限と前記閾値確率とを比較する過程と、（vii）解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有する領域を決定する過程とを有する。

Description

【発明の詳細な説明】

【０００１】（技術分野）本発明はマッチングエンジンに関するものであり、特に、データセットにおけ
る１又は複数の項目と問合せ項目との間の最良の一致又は一致の組を特定するた
めのエンジンに関するものである。

【０００２】（背景技術）現在、多くのマッチング技術が存在する。これらの現在の技術は、大きく２つ
の種類、即ち傾斜法（gradient-based method）と悉皆走査法（exhaustive sear
ch）に分けることができる。前者の例としては、勾配法（gradient descent）、
シミュレーテッドアニーリング法（simulated annealing）、弛緩ラベリング法
（relaxation labelling）、ニューラルネットワーク法（neural networks）、
及び遺伝的アルゴリズム等が挙げられる。これらの技術は全て、初めに２、３の
最良推定一致解を求め、次にそれらの精度を高めて、より良い解を得るものであ
る。

【０００３】第２のカテゴリは悉皆走査技術であり、この技術では、解空間を粗くサンプリ
ングすることによって多数の一致解をその調べ、最良の解を選択する。悉皆走査
技術の一例として、幾何学的ハッシングと称する高速アクセス法が挙げられる。

【０００４】上述の両カテゴリの技術に関連する問題がある。両技術は実施に時間がかかり
、非トリビアルな一致問題に対してはよい結果が提供できない。このよい結果が
提供できないことについては多くの理由がある。傾斜法は、主として良い初期解
、即ち初期推定一致または変換が得られるか否かに左右される。しかし、良い一
致を得ることはこの技術の目指す最終的な目標であるから、良い初期解が常に得
られるけではない。悉皆走査法は、解空間が走査される際の分解能に依存してい
る。一致をとるため、解空間はノードの数のべき乗であり、このため、実用的な
時間内で良い解が求められる可能性は非常に低い。

【０００５】（発明の開示）本発明の第１の側面によれば、データセットからの１または複数の項目と問合
せ項目との間の最良の一致または最良の一致の組を特定するための方法であって
、前記データセットにおける各項目のデータ表現を提供する過程と、前記問合わせ項目の問合わせ表現を提供する過程と、パラメータ表示した変換空間を提供する過程と、変換空間全体にわたる多数の領域のそれぞれについて、その領域における任意
の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限を決定
する過程と、閾値確率を決定する過程と、各領域の前記確率の上限と前記閾値確率とを比較する過程と、解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有する領域
を決定する過程とを有することを特徴とする方法が提供される。

【０００６】本発明のマッチングエンジン方法は、一致問題に対するより良い解、即ち類似
の特徴を有するオブジェクトの特定につながるプロセスを提供する。この方法は
、その空間の重複する複数の大きい領域について確率の上限を得ることによって
解の地平（solution horizon）の全ての上限をスケッチング(sketch)し、空間全
体がカバーされることを確実にする過程を含む。この粗いスケッチングを行うこ
とにより、解空間の確率の非常に低い領域を除去し、閾値を計算し、且つその閾
値より低い空間の領域を除去することにより新たな上限をスケッチングし直すこ
とが可能となる。このスケッチング及び除去プロセスは、一致問題に対する様々
な良い解を更に良いものにしてゆくべく反復することができる。

【０００７】一旦、データセットからの項目と問合せ項目間の一致の確率が解領域を特定す
ることによって決定されると、前記データセットからの項目は、確率の高い一致
として、或いはなお基準に基づいていないものの何れかとして特定され得る。次
に、データセットからの残りの項目を評価して、全データセットからの最良の一
致データ項目又は最良の一致データ項目の組の何れかを特定することができる。

【０００８】解の地平についての判断はもはや強制されないが、処理が進行するにつれ自然
に生じてくる。本発明は、従来型の方法と比較して多数の利点を提供する。この
方法は、判断にか先延ばしし、かつ厳格でないものにして（soften）、プロセス
の初期における多くの解釈を維持し、後の処理のために残しておくことを可能に
する。試行の回数は劇的に少なくなり、処理に必要なリソースが少なくて済む。
この方法では、次数が増加するにつれてスケッチングされる領域のサイズを大き
くすることが容易であるため、高次の複雑なデータを取り扱う困難をなくすこと
ができる。この方法は、確率理論によって支持された強力な理論的枠組みを有す
る。

【０００９】更に、この方法は、１つのモジュール内でより良好な処理能力を提供するのみ
ならず、全体としてシステム内での処理能力を一段と向上させることができる。
従来においては、システムの処理は、モジュールのシーケンスにより最良の推定
解をわたすことからなるものであった。即ち、或るモジュールからの最良の推定
解の出力はその隣のモジュールに対する入力を形成していた。この最良の推定解
は、多くの場合実際の最良解でないことから、誤りが伝搬・増殖して、後の段階
でその誤りを修正することができない。本発明によれば、最良の推定解ではなく
、全ての可能性のある解（即ち閾値より高いもの）が計算のリソースを損なうこ
となくモジュール間で渡される。追加の情報が与えられて解が排除されることが
生ずるのは処理の後段になってからである。この結果、この方法を利用したシス
テムから様々な良い解が得られることになる。

【００１０】この方法は、その解の領域群を複数の解の領域にわたる更に別の領域群に小分
割する過程と、新たな上限を決定する過程と、新たな閾値確率を決定する過程と、新たな解領域群を決定する過程とを含み得る。確率の高い解を含む解空間の解
領域におけるステッチング及び除去プロセスを反復することにより、変換空間に
おける全ての確率の高い解がより正確に特定され得ることになる。

【００１１】この方法は、問合せ項目とデータセット項目との間の最良の一致を含む変換空
間の領域を特定するべく上記の過程を反復する過程を含み得る。上記過程を反復
することにより、この方法によって、最良の解を含む領域を特定するか、又はこ
の方法の終了基準に応じて最良の解を含む解の領域の組を特定することができる
。

【００１２】この方法は、そのデータセットにおける一個の項目に適用でき、また、そのデ
ータセットにおける各項目のそれぞれに対して、若しくはそのデータセットから
選択された項目のサブセット（部分集合）に対して実施することができる。

【００１３】この方法は、解領域の上限の全てが閾値確率を超えた時に終了し得る。閾値は
、残りの解の領域についての決定プロセスを再スタートするために発見的に高め
ることができ、或いは解表現を従来通りの方法で記録及び／または処理すること
ができる。この方法は、局所的な最大値を求めるべく傾斜法による技術を適用す
る過程を含み得る。その解領域が確率の高い解のみを含んでいることから、この
処理は最終段階に行うことができる。

【００１４】データ表現はデータ項目の位相幾何学的表現（topological representation）
であり得、問合せ表現は問合せ項目の位相幾何学的表現であり得る。データ項目
及び問合せ項目の空間的または位相幾何学的表現を用いる場合、マッチング方法
はパターン認識の一種でなければならない。

【００１５】データ項目及び問合せ項目の位相幾何学的表現は、ノードの測定値ベクトルの
組を含み得、各ノード測定値ベクトルは、その項目を確定するノード群の位相幾
何学的構成のノードと関連付けられている。検索されるデータ項目及び一致がと
られる問合せ項目は、位相幾何学的又は空間的に構成されたノードの組によって
確定される、それらの特性を有し得る。次に各項目に対するノード測定値ベクト
ルの組は、そのマッチング方法において用いられるその項目の表現を提供する。
次に、基本的にパターン認識により一致が達成される。この方法は、通常、コン
ピュータメモリに保持され得るマッチングパターンに適用可能である。

【００１６】前記上限は、ベイズの確率理論を用いて決定され得る。

【００１７】本発明の更に別の側面によれば、電子的データ処理装置を含む、データセット
からの項目または項目群の間の一致を特定するためのマッチングエンジンであっ
て、前記電子的データ処理装置が、前記データセットにおける各項目のデータ表現の組を格納するメモリと、前記問合せ項目の問合せ表現を入力するための入力と、プロセッサとを有し、前記プロセッサが、パラメータ表示した変換空間を定義するための手段と、前記変換空間全体にわたる変換空間の複数の重複する領域を生成するための手
段と、各領域について、その領域の任意の変換の下での前記問合せ表現とデータ表現
との間の一致の確率の上限を決定するための手段と、確率閾値を決定するための手段と、各領域について前記確率の上限と前記閾値確率とを比較する比較手段と、前記確率閾値より大きい確率の上限を有する解領域を特定するための手段と、前記問合せ項目とメモリ内の前記データセットの項目との間の一致を特定する
解領域から得られた情報を格納するための手段とを含む。

【００１８】本発明の更に別の側面によれば、コンピュータ上で走らされた時、本発明の第
１の側面を実行するコンピュータプログラムが提供される。本発明の更に別の側
面によれば、コンピュータにロードされた時に本発明の第２の側面によるマッチ
ングエンジンを提供するコンピュータプログラムが提供される。

【００１９】本発明の更に別の側面によれば、データセットからの項目または項目群を特定
するためのコンピュータプログラムコードであって、前記コードは、前記データセットにおける各項目のデータ表現を提供する機能と、問合せ項目の問合せ表現を提供する機能と、パラメータ表示した変換空間を定義する機能と、前記変換空間全体にわたる変換空間の複数の重複する領域のそれぞれについて
、その領域における任意の変換の下での前記問合せ表現とデータ表現との間の一
致の確率の上限を決定する機能と、確立閾値を決定する機能と各領域の確率の上限と前記確率閾値とを比較する機能と、前記データベース項目を前記問合せ項目に一致させる解を含む解領域群を特定
するべく、前記閾値確率より高い確率の上限を有する解領域を決定する機能とを
実行する命令群を含むことを特徴するコンピュータプログラムコードが提供され
る。

【００２０】本発明の更に別の側面によれば、上述の本発明の側面によるコンピュータプロ
グラムコードを記憶させた、コンピュータで読出し可能な媒体が提供される。こ
の媒体は、固定的、半固定的、または一時的記憶装置又はメモリ装置であり得、
または線を介して転送若しくは無線で転送される電気的信号であり得る。

【００２１】（発明の詳細な説明）以下、添付の図面を参照しつつ、単なる例示である本発明の実施例について詳
細に説明する。

【００２２】一例として、幾つかの類似性の特徴を最大限にする、分子間の自動的なマッチ
ングの問題に関連して説明する。これは創薬プロセスにおいて重要な問題である
。化学者は、挙動が既知である「問合せ分子」を有し、それを用いてデータベー
ス内において類似の分子を検索しようとする。これは、最適化の問題、即ち問合
せ項目と多数の一致可能性のある分子及びそれらのアライメント情報からの項目
（分子）のデータべースとの最良のアライメント（一致、変換）を見つけ出す問
題と考えることができる。問合せ項目の分子及びデータベースの分子項目は、そ
れらの表面上に規則的な間隔でノードを配置することによってパターンとして表
現でき、且つ（分子の特性、例えば空間的及び静電的情報を含む）測定値ベクト
ルを各ノードと結びつけることができる。従って、結局はパターンマッチングの
問題となる。

【００２３】この文脈において、用語「ノード」は、関連する測定値ベクトルを有する、離
散的な標識を付されたオブジェクトを意味するものと考えられる。更に、用語「
測定値ベクトル」は、例えば空間的位置の特徴及び座標系におけるその値を有し
得る、特徴を表す値の組のリストを意味するものと考えられる。

【００２４】ここで、例として挙げた問題についてより詳細に説明するが、明確に説明する
ため、一度に一個のデータベース項目に対してその問合せ項目との一致を調べる
問題のみを取り扱うものとする。但し、一個の項目の場合について説明すれば理
解されるように、本発明は、複数のデータベース項目に対して同時に問合せ項目
との一致を調べるためにも利用できることに注意されたい。

【００２５】図１は、この問題に対する解の面（solution surface）の一連のスケッチを示
したものである。Ｘ軸は、問合せ分子とデータベース内の分子との可能なアライ
メントを表し、Ｙ軸は、全ての異なるアライメントに対する類似性または一致の
良さを表す。曲線上の各点は、可能な変換の下でのデータベースの分子に対する
問合せ分子の一致の良さを表す（即ち曲線は、一方を他方に対して回転又は平行
移動させた時の分子の特性間の類似性をスケッチングしたものと考えられる）。
曲線の山と谷は、それぞれ二つの分子構造の間の良い一致と悪い一致とを表し、
目標は最も高いピークを見つけだすことである。

【００２６】前に述べたように、最適化のための従来の技術は、大きく２つの種類、即ち悉
皆走査及び傾斜法に分けることができる。例えば幾何学的ハッシング（geometri
c hashing）及びノーモン投影（gnomonic projection）のような悉皆走査技術で
は、解の面上で飛び飛びに走査することによってピークを特定することを試みる
。特定され得る良い解の数はステップ分解能と正比例する。ステップの増分を限
りなく０に近づけることにより全ての良い解を見いだすことは理論的には可能で
あるが、実際上は、これを行うと、処理を行うリソースに対する要求（一般的に
はプロセッサ速度及びメモリ容量）がそれに応じて指数関数的に増加することに
なる。スピードと解及び結果の質との間には好ましくないトレードオフの関係が
存在する。

【００２７】従来、傾斜法は悉皆法技術の代替手段に過ぎなかった。傾斜法の例としては、
勾配法（gradient descent）、シミュレーテッドアニーリング法（simulated an
nealing）、ニューラルネットワーク法（neural networks）、ＥＭ（期待値最大
化）アルゴリズム、及び理論的アルゴリズム（ＧＡｓ）等が上げられる。各ステ
ップにおいて、局所的なピークを昇順にならべてその位置を特定するルーチンが
稼動される。１つのピークを見いだすと、そのルーチンは次のステップに移り、
そのプロセスが反復される。しかし、この方法には、悉皆走査技術と同様に解の
質が処理速度に応じて決まるという限界がある。詳述すると、見いだされる解の
質は、解の地平上のどの場所においてステップを開始するかに応じて決まる。良
い解を求めることができるのは、妥当な解が予め分かっている場合のみで、通常
このようなことはない。処理は通常幾つかのランダムな位置で開始され、結果的
にあまり良い解が得られない。

【００２８】全ての創薬技術は、悉皆走査又は傾斜法に基づいているため、発見プロセスに
おいて時間がかかりコストがかさむ。処理能力が低いことは、適切な活性を有す
る化合物を見いだすまでの、実験とコンピュータによる解析との間で多数の処理
サイクルが必要であることを意味するからである。

【００２９】本発明は、創薬プロセスのスピードを速めるための技術に於ける一段の変化を
もたらす。詳述すると、本発明は、大きい３Ｄ化学データベースに保持された分
子の検索及び比較のためのエンジンを提供する。実際上、このエンジンは、同一
のハードウェア上で動作する従来型の市販のパッケージソフトより１５００倍高
速で解析を実行することが分かった。これによって、数日かかっていた大型デー
タベースの検索を数秒で行うことが可能となり、デスクトップコンピュータ上で
の真にインタラクティブなコンピュータによるドラッグデザインの道が開けるこ
とになる。

【００３０】更に、本発明は、実験で試験される分子の組としてより良いものを特定すると
いう点でより良質の解析を提供する。このことによって、創薬プロセスに於いて
必要となる処理サイクルの数が少なくなり、より高速かつよりコスト当たりの効
率の高い創薬が可能となる。

【００３１】本発明は、高速で良好な処理能力を提供する新規なマッチング方法を提供する
。この方法は、４つの重要な因子に基づくパターン認識のための新たな方法に基
づいている。マッチングの問題は、２つのパターンに於けるノード間の最良の変
換の組を見出す問題として定式化される。この方法で用いられる計算は、ベイズ
の確率理論によって裏付けられる。この方法は、全ての可能な解が調べられるこ
とを要求する点で全体論的（hilistic）である。データ処理はリソースによって
実施（resource-driven）されるが、行われ得る計算はオペレータが決定する動
作速度とメモリ容量に規制される。

【００３２】後者の２つの考慮すべき点のために、指数関数的な数の解をいかに高速で効率
的に見出すかという難問が生じ得る。この問題は、全ての可能な解の組の中の少
ない数の（一般的には重複する）サブセット（部分集合）つまり領域に解をまと
め、且つ各領域即ちサブセットを評価することによって解決される。１つの領域
に対して多数の推定を行うことができ、処理リソースの規制に合わせた効果的な
ストラテジーが、１つの領域つまりサブセットに含められる解についての上限及
び下限のスコア（確率）を得ることで処理速度と正確さのトレードオフを許容す
る。

【００３３】これらの条件の下で、とるべき最適なストラテジーは、下限の最大値より上限
が低くなるような領域を除去することである。このことによって、最適解が保持
されることが保証される。この処理を反復して行うことにより、最適度が低い解
を排除して解空間の中の最適解のありそうな領域に絞っていくことが可能となる
。残った解は、処理の規制条件が許す範囲で、処理が進行するにつれてより詳細
に再検査され得る。このプロセスは、全ての上限が下限閾値を超えた時に終了す
る。この時、下限を発見的に高くして除去プロセスを再度開始するか、或いは残
りの変換を従来通りの方法で記録・処理することができる。一般的には、勾配法
を用いることができる。残った領域は目的のピークを含んでいるからである。一
旦、問合せ分子とその分子との間の一致が評価されると、データベース内の他の
分子もそれらの一致の良さを評価するべく処理することができる。

【００３４】本発明の方法についてより詳細に説明する前に、図１Ａ乃至図１Ｄを参照する
と、本発明の方法の特徴が概略的に図解されている。図１Ａに於いて、Ｙ軸は一
致の良さ即ち一致の確率を表す。Ｘ軸は分子間の全ての許容される変換の組（例
えば回転、変形等）を表す。問合せ分子と比較されるデータベース内の分子即ち
データセットは、データ表現として表現される。曲線１００は、異なる変換の下
でのデータベース分子の表現と問合せ分子の表現との間の一致度を表示する。こ
の問題は、特定の方式で任意の可能な解を除去することなく可能な解を表現する
曲線に於けるピークを特定するを目的とする。

【００３５】初めに、変換の組を、全体で変換空間全体にわたる領域Ａ〜Ｈに分割する。こ
れらの領域のそれぞれについて、その領域に於ける任意の変換の下での問合せ表
現とデータ表現との間の一致の確率の上限を、ベイズの確率理論を用いて計算す
る。これら計算の結果は線１１０として示されている。次に、破線１２０によっ
て示されるような、閾値確率を計算する。この場合ではサブセットＡ、Ｃ、Ｅ、
Ｆ、及びＨが相当する、閾値１２０より低い確率上限１１０を有する領域を取り
除く。解のサブセットＢ、Ｄ、及びＧ内には利用可能なより良い一致が存在する
ことが明らかだからである。

【００３６】次に、図１Ｂに示すように、変換領域Ｂ、Ｄ、及びＧを更に小さい領域、即ち
Ｂ^Ｉ、Ｂ^ＩＩ、及びＢ^ＩＩＩ、Ｄ^Ｉ、Ｄ^ＩＩ、Ｄ^ＩＩＩ、及びＤ^ＩＩＩＩ、及び
Ｇ^Ｉに細分する。問合せ表現との一致の確率の新たな上限が、図面の線１２２、
１２４、及び１２６に示すように各領域に対して決定される。次に線１２８に示
すような新たな確率閾値が計算される。同様に、閾値より低くなる領域は解空間
から除去され、更なる処理のために解領域Ｂ^Ｉ、Ｂ^ＩＩ、及びＤ^ＩＩＩのみが残
される。この段階で処理を終了し、解領域Ｂ^Ｉ、Ｂ^ＩＩ、及びＤ^ＩＩＩに含まれ
る分子によって特定される一致及びその変換を含む解を保存して、最も良い一致
を示す解を含む領域の組を得ることができる。次にその分子は、幾つかの別の一
致の基準に応じて許容される一致を提供するものとして特定され得る。

【００３７】或いは、図１Ｃに示すように、このプロセスを更に反復することができる。サ
ブセットＢ^ＩＩＩＩ及びＤ^Ｖに対する更なる確率の上限１２０及び１３２を計算
し、新たに導き出された確率閾値と比較して、解領域Ｂ^ＩＩＩＩを特定する。最
終ステップに於いては、勾配法を用いて、問合せ分子に対して最良の一致を与え
るものとして特定された対応する変換を有する局所的に最良の解表現Ｂ^Ｖを見出
す。次いで、データベース内の残りの分子との一致を個別に評価することができ
る。

【００３８】上の説明から、本発明が、多数のデータベース項目に対する問合せ項目の一致
を同時にとることについても適用できることは理解されよう。この場合の解の面
は個々のデータベース項目の解の面の連結であるに過ぎない。単に、上述のもの
と同じ手順が、連結された解の面の全体にわたってスケッチング及び除去プロセ
スを適用する処理を加えて用いられる。複数のデータベース項目に対する問合せ
項目の一致を同時に取ることが、コンピュータのリソースのより効率的な利用に
なっている場合には、より効率的な方法が得られることになる。

【００３９】ここで、前記方法によってマッチングされるパターンを与える分子の特徴を表
現するノードの空間的配置の利用について述べる。Ｎ個のノードの組で標識付け
されたパターンを考える。そのノードは、関連する測定値ベクトルの組、x={x₁,
．．．, x_N}を有する。

【００４０】そのパターンを第２のパターンに対して一致をとるために、第１のパターンに
おけるノードを第２のパターンにマッピングするw={w₁, ．．．, w_N}で表される
変換の全体的な組を考える。前述の第１の条件から、その目的は、最適なグロー
バル解、即ちこのパターンにおけるノードから第２のパターンへの最適な変換の
組を探すことであり、ここで、第２及び第３の条件から全体論的な確率論的アプ
ローチが用いられ、これには以下を必要とする。 w=arg max _?eW P(W=?|x) (1) ここで、Wはwに対する可能な解空間である。換言すれば、全ての解空間が考慮さ
れ、何処で或いは何回サーチするかについての事前仮定（priori assumptions）
は設けない。

【００４１】直接的に最適解を捜し出すこと、即ち積極的に解をサーチする或いはW内で解
の不完全性をなくすことによって最適解を捜し出すことを目的とせず、勾配法に
基づく或いは悉皆型サーチ技術のアプローチであることに留意されたい。むしろ
、その方法はWから不適当な解を除去することによって同様の目的を間接的に達
成する。そのようにすることによって、第３の条件によって要求されるように全
ての解空間が暗黙的に調査される。これは以下のように実行される。

【００４２】一般に独立した各個別の解の調査は計算では処理し難いので、解が一斉に収集
される。これは、個々の変換w_i=aを含む全ての解、即ちノードiに対する変換はw _i =aに固定される（より正確にはその近傍に固定される）が他の全てのノードの
変換は変化し得るような全ての解を考慮することによって実行される。これらの
解の何れか１つについての最も小さい上側の境界（即ち、解空間の領域）は次の
ようになる。 U(w_i=a)=max _w'eW' P(w_i=a,w'|x) (2) ここで、w'は検討中のものを除く全てのノードにおける変換を表し、W'は、この
組に対する全ての可能な変換の空間である。

【００４３】上側の境界確率が幾つかの既知の下側の境界値Lより小さい領域は全て最適解
を含まない。従って、これらの領域は検討から除外することができる。よって、
或る反復時間nにおけるルールは以下のようになる。 U⁽ⁿ⁾(w_i=a)＜L⁽ⁿ⁾ の場合変換w_i=aを含む領域は除外する (3) これはその方法の要所であり、解空間の領域の確率における上側の境界が計算
され得る（始めに解空間の全体がカバーされ、図１Ａに示すような上側の境界が
生じ得る）。次に各領域或いはサブセットが、下側の境界の閾値と比較され得る
。上側の境界が閾値以下に下がる場合、その領域には良好な解が含まれないので
除外することができる。

【００４４】上側の境界の計算は依然として定められておらず、一般に計算的に高価であり
得る。計算の実際的な方法を提供するために、或る解は、一定の時間において計
算され得るG⁽ⁿ⁾(w_i=a)＞= U⁽ⁿ⁾(w_i=a)のような式G⁽ⁿ⁾(w_i=a)の数量を確認するた
めのものである。換言すれば、最も小さい上側の境界Uを計算するよりも、幾つ
かの上側の境界Gが計算される。従って、計算リソースによって処理が進められ
、リアルタイムの結果を与えるのに用いられ得る計算的に扱いやすい方法が提供
される。その方法は、Gが可能な限りUに接近した場合に、許容された計算リソー
スの最適な利用を提供し得る。除外ルールは以下のようになる。 G⁽ⁿ⁾(w_i=a)＜L⁽ⁿ⁾の場合変換w_i=aを含む領域は除外する (4) G⁽ⁿ⁾は、ベイズの確率理論を不等式のルールと組合せることによって評価される
。その式は、計算リソースの必要条件を適応させるために、反復サイクルにおい
て変化し得る。例えば、処理の始めにおいてG⁽ⁿ⁾が粗雑かつ迅速に評価され、粗
雑な上側の境界（図１Ａ）を提供し、G⁽ⁿ⁾＞= U⁽ⁿ⁾に従うとすれば、不適切な解
のみが除外され得る。

【００４５】これによってリソースが解放され、残存する解空間或いは解サブセットは必要
に応じてより詳細に調査され得る。また、或る領域の除外が次のタイムステップ
において重複する領域に対して計算される境界に作用するのでシステムにおける
干渉はより少なく、より小さい上側の境界を次の反復において計算することが可
能となる。

【００４６】僅かな解のみが残存する処理の終了に向けて、第４の条件が破られないことを
前提としてG⁽ⁿ⁾がL⁽ⁿ⁾に接近するように、より複雑化され且つ計算的に強力なG⁽ ⁿ⁾ を計算する手段が用いられ得る。

【００４７】処理は閾値を下回る解が無くなるまで継続され得る。

【００４８】如何なる場合でも、閾値を発見的に増大させることによって処理を再び開始す
ることができ、或いは、残存する変換が幾つかの方法で記録されて処理され得る
。

【００４９】本質的に、Gは解表面をスケッチするために計算され、それは閾値Lと比較され
て空間の重要でない領域が除外さる。そのような全体論的スケッチ及び除外プロ
セスを用いる他の方法は知られていない。

【００５０】これまで論じられた方法の例は、１又はそれ以上の問合せ或いはリード化合物
を用いた化学的データベースからの生物活性な化合物の検索である。出発点は、
問合せ及びデータベースの化合物をパターンとして表すことであり、各々は空間
的又は位相的に配置されたノードのセットによって識別され、各ノードは関連す
る測定ベクトルを有する。

【００５１】最初にU(w_i=a)が定められ、次にG(w_i=a)を生成するために不等式が導入される
。

【００５２】式(2)における上側の境界確率が展開され得る。ベイズのルールを式(2)に適用
することによって以下の式が得られる。 U(w_i=a)=max _w'eW'ｐ(x|w_i=a,w')P(w_i=a,w')/ｐ(x) (5) 変換w={w₁, ．．．, w_N}を条件とした場合に、測定ベクトルx={x₁, ．．．, x_N}
が独立である非制限的な仮定をすることによって以下の式が得られる。 U(w_i=a)=p(x_i|w_i=a)P(w_i=a)max _w'eW'ｐ_j!=ip(x_j|w_j)P(w'|w_i=a,)/p(x
(6) 計算の複雑性を低減するために不等式を導入する。オプションは以下のようにな
る。 max_aeA,beBP(a,b)＜=max_aeAP(a)max _beBP(b) (7) これによって、 U(w_i=a)＜= p(x_i|w_i=a) P(w_i=a) (8) ｐ_j!=imax_βeWjp(x_j|w_j=β)P(w_j=β|w_i=a)/p(x)=G⁽ⁿ⁾(w_i=a) ここで、W_jはノードjに対する可能性な変換のセットであり、それによって指数
からO(N²)へ上側の境界の計算の複雑性が低減される。必要に応じて複雑性を増
大又は減少させるために、ここで別の不等式を適用することが可能である。

【００５３】式(4)と同等のものは以下の通りである。 G⁽ⁿ⁾(w_i=a)＜L⁽ⁿ⁾の場合リストW⁽ⁿ⁺¹⁾から変換w_i=aを除外する (9) ここで、G⁽ⁿ⁾(w_i=a)は式(8)で与えられる。対数を用いて、除外ルールは以下のようになる。 S⁽ⁿ⁾(w_i=a)＜log L⁽ⁿ⁾の場合リストW⁽ⁿ⁺¹⁾から変換w_i=aを除外する (10) ここで、S⁽ⁿ⁾(w_i=a)は以下で与えられる。 S⁽ⁿ⁾(w_i=a)=log (p(x_i|w_i=a)P(w_i=a))+ (11) S_j!=imax_βeWj ⁽ⁿ⁾log p(x_j|w_j=β)P(w_j=β|w_i=a)-c ここで、c=log p(x)は定数であり、そのアルゴリズムは同時又は非同時的に全て
のノードにおいて全ての候補の変換に適用され得る。

【００５４】この方法の応用には、式(11)において分布及び優先度(priors)のためのモデル
を必要とする。分子マッチングの用途の場合、或る別法ではそれらの中央からゼ
ロの高さを有する直線的分布である。この場合、個々の変換に対するサポートは
、以下のようになる。 S⁽ⁿ⁾(w_i=a)=kS_j!=imax_βeWj ⁽ⁿ⁾ h(w_i=a, w_j=β) (12) n＞0の場合、kは定数であり、データと互換性のない全ての解は、始めに削除さ
れている。ここで、h(w_i=a, w_j=β)はバイナリーの適合性の測度(binary compat
ibility measure)であり、時間nにおいてノードiにおける変換aがノードjにおけ
る解βと矛盾しない場合に単純に始まる。従って、S⁽ⁿ⁾(w_i=a)は主としてノード
iにおける検討中の変換と矛盾のないノードの数をカウントする。

【００５５】そのプロシージャは、(12)におけるアルゴリズムを幾何学的ハッシングと組合
せ得る。それは、データベースの化合物がハッシュテーブルにエンコードされる
記憶段階、並びに問合せの化合物が、そのテーブルにアクセスするために用いら
れて領域が調査されるリコール段階を含む。最後に、クラスタ化或いはサーチ段
階が、残存領域を厳密に解析するために加えられ得る。

【００５６】その方法がコンピュータプログラムとして具現化される場合には、次のような
機能がサポートされる。

【００５７】以下のステップは、各データベースの化合物の記憶を含む。即ち、データベースの化合物ノード、並びにノード位置及びノーマルを含むそれらの測
定ベクトルを生成し；重心-位置-ノーマルトリプレットを用いる各ポイントのフレームを生成し；このフレームをワールドフレームと整列させ、化合物をハッシュテーブルに化合
物-ノード-変換トリプレットとして格納する。

【００５８】以下のステップは、再現（再呼出し）に於いて用いられるものである。即ち、オブジェクトモード、それらの位置、及びノーマルを規定する問合わせ化合物
を生成し；重心−位置−ノーマルトリプレットを用いて各ノードについてのフレームを生
成し；このフレームと全体フレームに対して一致を取り、ハッシュテーブルにアクセ
スし、アクセスされた変換を各ノードに割当て；変換マトリクスを回転パラメータに変換して、ハッシュテーブルに格納し；式（１２）及び（１０）のスケッチ及び除去手順を用いて、確率の低い回転解
を除去し；残りの解をまとめて、化合物を重畳することによってそれぞれに対する類似性
インデックススコアを得る。

【００５９】異なる用途に対する上述のステップの変更は、モデリングのレベルで生ずる。
この変更は、想定される分散の形態についての変更、または用いられる測定対象
の特徴についての変更の何れかであり得る。例えば、分子マッチングに於いては
直線的分散が用いられてきたが、この用途及び他の用途では、ガウス分布が適切
であり得、例えば曲率情報を用いることができる。

【００６０】図２を参照すると、本発明の或る側面のソフトウェアによるインプリメンテー
ションの概略的な流れ図２００が示されている。初めにステップ２１０において
、データベースからデータ分子が選択される。次にこのデータ分子が上述のよう
なノード測定値ベクトルの組の形でその分子２２０のデータ表現に変換される。
次にステップ２３０に於いて、同様にノード測定値ベクトルの組の形態で問合せ
分子の表現が生成される。このステップはその後の実行に於いては反復される必
要はなく、一旦生成された問合せ表現は必要に応じて再度使用するために格納し
ておくことができる。次にステップ２４０に於いて、問合せ表現とデータ表現と
の間の一致が、変換空間に於ける可能な解領域を特定するように問合せ表現とデ
ータ表現との間の可能な変換を見つけ出すことによって決定される。このステッ
プは、上述のようにただ１つの最良の一致が決定されるか、或いは最良の一致の
組が決定されるように反復される（２４５）。

【００６１】次に最良の一致又は最良の一致の組に対して一致の基準を適用し、問合せ項目
とデータ項目の一致が十分に良い一致であるか否かを決定することができる（２
５０）。問合せ項目とデータ項目の一致が十分に良い一致である場合には、デー
タ項目の表示及び一致の良さが更なる参照又は処理のために格納される（２６０
）。次にデータベース内の残りの項目が、データベースの全体又は選択された部
分が検索されるまで問合せ項目２７０と比較され得る。こうして、問合せ化合物
と十分に一致するデータベース化合物を特定する結果が出力され得る（２８０）
。全ての試行された一致の結果が格納され、一致の良さの順番に配列され、可能
性のある化合物の序列が特定され得る。

【００６２】異なるモデルの下で異なる測定値を用いることで、本発明のマッチングエンジ
ンのための様々な用途が考えられる。各用途は、複雑なパターンのマッチングの
問題をその中心に有している。このマッチングエンジンを用いて、ビジュアルデ
ータセット、例えば医療におけるイメージ解析、目視検査及びビデオ又は映画か
らの３D映像の再構築及びビデオ又は映画に於ける３Dオブジェクトモニタリング
に於いて特徴（項目）を特定することができる。ビジュアルデータの用途では、
ビジュアル信号の完全なデータセットが検索されて、ビデオ信号に提示されたパ
ターンと検索されるべき特徴のパターンとの一致をとることによってビデオ信号
に於ける特徴を特定することができる。この方法は全体的であり、全データセッ
トをカバーすることから、ビデオ信号における定義が失われることはない。

【００６３】例えば、このマッチングエンジンを用いて、ビデオ信号のストリームに於ける
特定の物品、例えばマグカップを特定することができる。この場合、マグカップ
が、それに対する位相幾何学的問合せ表現が生成される問合せ項目となる。デー
タ項目は、ビデオフレームのスチールである。次に、ビデオスチールの映像に於
けるマグカップの位置が、マグカップの表現の１つの可能な変換を考え、次いで
ビデオスチールに於けるマグカップを特定することによりビデオスチールデータ
項目を検索することによってマッチングエンジンによって特定され得る。この場
合、ビデオスチールイメージのシーケンスは、ビデオイメージに於けるマグカッ
プの可能な位置を特定するためにエンジンによって検索され得るデータベース項
目である。人体又は組織の特徴を探し当てるべく医療用のイメージ（映像又は超
音波の両方）に於けるパターンを特定するマッチングエンジンの利用方法も、こ
の例から明らかであろう。

【００６４】このマッチングエンジンは、理解されるように、ＤＮＡ及びタンパク質配列の
一致を調べる分野にもその用途を有し得る。このマッチングエンジンは、例えば
音声認識のような時系列分析の分野にも、現在データセットと旧データセットに
於けるパターンの一致をとり、それらの一致と既存のテキストとの相関をとるこ
とによって適用することができる。

【００６５】この方法は、コンピュータプログラムとしてのインプリメンテーションに特に
適しており、また適切にプログラムされた電子データ処理装置は上述のようなパ
ターンマッチング方法を実行することができる検索エンジンを提供するというこ
とは理解されよう。ここに説明した方法を実現するコンピュータプログラムの詳
細は、コンピュータプログラムの分野の当業者の能力の範囲で考えられるもので
あり、従ってここでは詳細に説明しない。

【図面の簡単な説明】

【図１】Ａ、Ｂ、Ｃ、及びＤよりなり、それぞれが本発明による方法の各段階を示す一
連の解空間を示す図。

【図２】ソフトウェアによる本発明の実施例を示す概略的な流れ図。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者ザネリ、ポールイギリス国ヨーク・ワイオー23 １ディーダブリュ・サウスバンク・アーガイルストリート 33 (72)発明者モス、サイモンイギリス国ヨーク・ワイオー10 １エヌエル・スカークロフトロード・ソープストリート 22 Ｆターム(参考） 5B056 BB64 BB65 5B075 PQ36 PR06 QM08 UU18 5L096 DA02 GA30 GA51 HA08 JA03

Claims

【特許請求の範囲】

【請求項１】データセットからの１または複数の項目と問合せ項目との
間の最良の一致または最良の一致の組を特定するための方法であって、（i）前記データセットにおける各項目のデータ表現を提供する過程と、（ii）前記問合わせ項目の問合わせ表現を提供する過程と、（iii）変換空間を確定する過程と、（iv）変換空間全体にわたる多数の領域のそれぞれについて、その領域におけ
る任意の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限
を決定する過程と、（v）閾値確率を決定する過程と、（vi）各領域の前記確率の上限と前記閾値確率とを比較する過程と、（vii）解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有
する領域を決定する過程とを有することを特徴とする方法。
【請求項２】その解の領域群を複数の解の領域にわたる更に別の領域群
に小分割する過程と、新たな上限を決定する過程と、新たな閾値確率を決定する過程と、新たな解領域群を決定する過程とを更に含むことを特徴とする請求項１に記載
の方法。
【請求項３】最良の一致解を含む解領域か、最良の一致解の組を含む解
領域の組を特定するべく請求項２に記載の過程を反復する過程を更に含むことを
特徴とする請求項２に記載の方法。
【請求項４】データ表現がデータ項目の位相幾何学的表現（topologica
l representation）であり、問合せ表現は問合せ項目の位相幾何学的表現である
ことを特徴とする請求項１に記載の方法。
【請求項５】データ項目及び問合せ項目の位相幾何学的表現がノード測
定値ベクトルの組を含み、各ノード測定値ベクトルは、その項目を確定するノー
ド群の位相幾何学的構成のノードと関連付けられていることを特徴とする請求項
４に記載の方法。
【請求項６】前記上限が、ベイズの確率理論を用いて決定されることを
特徴とする請求項１に記載の方法。
【請求項７】電子的データ処理装置を含む、データセットからの項目ま
たは項目群を特定するためのマッチングエンジンであって、前記電子的データ処理装置が、前記データセットにおける各項目のデータ表現を格納するメモリと、前記問合せ項目の問合せ表現を入力するための入力と、プロセッサとを有し、前記プロセッサが、変換空間を定義するための手段と、前記変換空間全体わたる変換空間の複数の領域を生成するための手段と、各領域について、その領域の任意の変換の下での前記問合せ表現とデータ表現
との間の一致の確率の上限を決定するための手段と、確率閾値を決定するための手段と、各領域について前記確率の上限と前記閾値確率とを比較する比較手段と、前記確率閾値より大きい確率の上限を有する解領域を特定するための手段と、前記問合せ項目とメモリ内の前記データセットの項目との間の一致を特定する
情報をメモリに記憶させるための手段とを含むことを特徴とｓるうマッチングエ
ンジン。
【請求項８】コンピュータ上で走らされた時、請求項１に記載の方法を
実行するコンピュータプログラム。
【請求項９】データセットからの項目または項目群を特定するためのコ
ンピュータプログラムコードであって、（i）前記データセットにおける各項目のデータ表現の組を提供する機能と、（ii）前記問合せ項目の問合せ表現を提供する機能と、（iii）変換空間を定義する機能と、（iv）前記変換空間にわたる変換空間の複数の領域のそれぞれについて、その領
域における任意の変換の下での前記問合せ表現と前記データ表現との間の一致の
確率の上限を決定する機能と、（v）確率閾値を決定する機能と（vi）各領域の確率の上限と前記確率閾値とを比較する機能と、（vii）解領域群を特定するべく、前記確率閾値より高い確率の上限を有する解
領域を決定する機能とを実行する命令を含むことを特徴するコンピュータプログ
ラムコード。
【請求項１０】請求項９に記載のコンピュータプログラムコードを記憶
するコンピュータが読出し可能な媒体。