JP2002537605A - マッチングエンジン - Google Patents

マッチングエンジン

Info

Publication number
JP2002537605A
JP2002537605A JP2000600198A JP2000600198A JP2002537605A JP 2002537605 A JP2002537605 A JP 2002537605A JP 2000600198 A JP2000600198 A JP 2000600198A JP 2000600198 A JP2000600198 A JP 2000600198A JP 2002537605 A JP2002537605 A JP 2002537605A
Authority
JP
Japan
Prior art keywords
probability
solution
item
query
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000600198A
Other languages
English (en)
Inventor
ターナー、マイケル
ザネリ、ポール
モス、サイモン
Original Assignee
ピーシー・マルチメディア・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピーシー・マルチメディア・リミテッド filed Critical ピーシー・マルチメディア・リミテッド
Publication of JP2002537605A publication Critical patent/JP2002537605A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

(57)【要約】 データセットからの1または複数の項目と問合せ項目との間の最良の一致または最良の一致の組を特定するための方法。この方法は、(i)前記データセットにおける各項目のデータ表現を提供する過程と、(ii)前記問合わせ項目の問合わせ表現を提供する過程と、(iii)変換空間を確定する過程と、(iv)変換空間全体にわたる多数の領域のそれぞれについて、その領域における任意の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限を決定する過程と、(v)閾値確率を決定する過程と、(vi)各領域の前記確率の上限と前記閾値確率とを比較する過程と、(vii)解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有する領域を決定する過程とを有する。

Description

【発明の詳細な説明】
【0001】 (技術分野) 本発明はマッチングエンジンに関するものであり、特に、データセットにおけ
る1又は複数の項目と問合せ項目との間の最良の一致又は一致の組を特定するた
めのエンジンに関するものである。
【0002】 (背景技術) 現在、多くのマッチング技術が存在する。これらの現在の技術は、大きく2つ
の種類、即ち傾斜法(gradient-based method)と悉皆走査法(exhaustive sear
ch)に分けることができる。前者の例としては、勾配法(gradient descent)、
シミュレーテッドアニーリング法(simulated annealing)、弛緩ラベリング法
(relaxation labelling)、ニューラルネットワーク法(neural networks)、
及び遺伝的アルゴリズム等が挙げられる。これらの技術は全て、初めに2、3の
最良推定一致解を求め、次にそれらの精度を高めて、より良い解を得るものであ
る。
【0003】 第2のカテゴリは悉皆走査技術であり、この技術では、解空間を粗くサンプリ
ングすることによって多数の一致解をその調べ、最良の解を選択する。悉皆走査
技術の一例として、幾何学的ハッシングと称する高速アクセス法が挙げられる。
【0004】 上述の両カテゴリの技術に関連する問題がある。両技術は実施に時間がかかり
、非トリビアルな一致問題に対してはよい結果が提供できない。このよい結果が
提供できないことについては多くの理由がある。傾斜法は、主として良い初期解
、即ち初期推定一致または変換が得られるか否かに左右される。しかし、良い一
致を得ることはこの技術の目指す最終的な目標であるから、良い初期解が常に得
られるけではない。悉皆走査法は、解空間が走査される際の分解能に依存してい
る。一致をとるため、解空間はノードの数のべき乗であり、このため、実用的な
時間内で良い解が求められる可能性は非常に低い。
【0005】 (発明の開示) 本発明の第1の側面によれば、データセットからの1または複数の項目と問合
せ項目との間の最良の一致または最良の一致の組を特定するための方法であって
、 前記データセットにおける各項目のデータ表現を提供する過程と、 前記問合わせ項目の問合わせ表現を提供する過程と、 パラメータ表示した変換空間を提供する過程と、 変換空間全体にわたる多数の領域のそれぞれについて、その領域における任意
の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限を決定
する過程と、 閾値確率を決定する過程と、 各領域の前記確率の上限と前記閾値確率とを比較する過程と、 解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有する領域
を決定する過程とを有することを特徴とする方法が提供される。
【0006】 本発明のマッチングエンジン方法は、一致問題に対するより良い解、即ち類似
の特徴を有するオブジェクトの特定につながるプロセスを提供する。この方法は
、その空間の重複する複数の大きい領域について確率の上限を得ることによって
解の地平(solution horizon)の全ての上限をスケッチング(sketch)し、空間全
体がカバーされることを確実にする過程を含む。この粗いスケッチングを行うこ
とにより、解空間の確率の非常に低い領域を除去し、閾値を計算し、且つその閾
値より低い空間の領域を除去することにより新たな上限をスケッチングし直すこ
とが可能となる。このスケッチング及び除去プロセスは、一致問題に対する様々
な良い解を更に良いものにしてゆくべく反復することができる。
【0007】 一旦、データセットからの項目と問合せ項目間の一致の確率が解領域を特定す
ることによって決定されると、前記データセットからの項目は、確率の高い一致
として、或いはなお基準に基づいていないものの何れかとして特定され得る。次
に、データセットからの残りの項目を評価して、全データセットからの最良の一
致データ項目又は最良の一致データ項目の組の何れかを特定することができる。
【0008】 解の地平についての判断はもはや強制されないが、処理が進行するにつれ自然
に生じてくる。本発明は、従来型の方法と比較して多数の利点を提供する。この
方法は、判断にか先延ばしし、かつ厳格でないものにして(soften)、プロセス
の初期における多くの解釈を維持し、後の処理のために残しておくことを可能に
する。試行の回数は劇的に少なくなり、処理に必要なリソースが少なくて済む。
この方法では、次数が増加するにつれてスケッチングされる領域のサイズを大き
くすることが容易であるため、高次の複雑なデータを取り扱う困難をなくすこと
ができる。この方法は、確率理論によって支持された強力な理論的枠組みを有す
る。
【0009】 更に、この方法は、1つのモジュール内でより良好な処理能力を提供するのみ
ならず、全体としてシステム内での処理能力を一段と向上させることができる。
従来においては、システムの処理は、モジュールのシーケンスにより最良の推定
解をわたすことからなるものであった。即ち、或るモジュールからの最良の推定
解の出力はその隣のモジュールに対する入力を形成していた。この最良の推定解
は、多くの場合実際の最良解でないことから、誤りが伝搬・増殖して、後の段階
でその誤りを修正することができない。本発明によれば、最良の推定解ではなく
、全ての可能性のある解(即ち閾値より高いもの)が計算のリソースを損なうこ
となくモジュール間で渡される。追加の情報が与えられて解が排除されることが
生ずるのは処理の後段になってからである。この結果、この方法を利用したシス
テムから様々な良い解が得られることになる。
【0010】 この方法は、その解の領域群を複数の解の領域にわたる更に別の領域群に小分
割する過程と、 新たな上限を決定する過程と、 新たな閾値確率を決定する過程と、 新たな解領域群を決定する過程とを含み得る。確率の高い解を含む解空間の解
領域におけるステッチング及び除去プロセスを反復することにより、変換空間に
おける全ての確率の高い解がより正確に特定され得ることになる。
【0011】 この方法は、問合せ項目とデータセット項目との間の最良の一致を含む変換空
間の領域を特定するべく上記の過程を反復する過程を含み得る。上記過程を反復
することにより、この方法によって、最良の解を含む領域を特定するか、又はこ
の方法の終了基準に応じて最良の解を含む解の領域の組を特定することができる
【0012】 この方法は、そのデータセットにおける一個の項目に適用でき、また、そのデ
ータセットにおける各項目のそれぞれに対して、若しくはそのデータセットから
選択された項目のサブセット(部分集合)に対して実施することができる。
【0013】 この方法は、解領域の上限の全てが閾値確率を超えた時に終了し得る。閾値は
、残りの解の領域についての決定プロセスを再スタートするために発見的に高め
ることができ、或いは解表現を従来通りの方法で記録及び/または処理すること
ができる。この方法は、局所的な最大値を求めるべく傾斜法による技術を適用す
る過程を含み得る。その解領域が確率の高い解のみを含んでいることから、この
処理は最終段階に行うことができる。
【0014】 データ表現はデータ項目の位相幾何学的表現(topological representation)
であり得、問合せ表現は問合せ項目の位相幾何学的表現であり得る。データ項目
及び問合せ項目の空間的または位相幾何学的表現を用いる場合、マッチング方法
はパターン認識の一種でなければならない。
【0015】 データ項目及び問合せ項目の位相幾何学的表現は、ノードの測定値ベクトルの
組を含み得、各ノード測定値ベクトルは、その項目を確定するノード群の位相幾
何学的構成のノードと関連付けられている。検索されるデータ項目及び一致がと
られる問合せ項目は、位相幾何学的又は空間的に構成されたノードの組によって
確定される、それらの特性を有し得る。次に各項目に対するノード測定値ベクト
ルの組は、そのマッチング方法において用いられるその項目の表現を提供する。
次に、基本的にパターン認識により一致が達成される。この方法は、通常、コン
ピュータメモリに保持され得るマッチングパターンに適用可能である。
【0016】 前記上限は、ベイズの確率理論を用いて決定され得る。
【0017】 本発明の更に別の側面によれば、電子的データ処理装置を含む、データセット
からの項目または項目群の間の一致を特定するためのマッチングエンジンであっ
て、 前記電子的データ処理装置が、 前記データセットにおける各項目のデータ表現の組を格納するメモリと、 前記問合せ項目の問合せ表現を入力するための入力と、 プロセッサとを有し、 前記プロセッサが、 パラメータ表示した変換空間を定義するための手段と、 前記変換空間全体にわたる変換空間の複数の重複する領域を生成するための手
段と、 各領域について、その領域の任意の変換の下での前記問合せ表現とデータ表現
との間の一致の確率の上限を決定するための手段と、 確率閾値を決定するための手段と、 各領域について前記確率の上限と前記閾値確率とを比較する比較手段と、 前記確率閾値より大きい確率の上限を有する解領域を特定するための手段と、 前記問合せ項目とメモリ内の前記データセットの項目との間の一致を特定する
解領域から得られた情報を格納するための手段とを含む。
【0018】 本発明の更に別の側面によれば、コンピュータ上で走らされた時、本発明の第
1の側面を実行するコンピュータプログラムが提供される。本発明の更に別の側
面によれば、コンピュータにロードされた時に本発明の第2の側面によるマッチ
ングエンジンを提供するコンピュータプログラムが提供される。
【0019】 本発明の更に別の側面によれば、データセットからの項目または項目群を特定
するためのコンピュータプログラムコードであって、前記コードは、 前記データセットにおける各項目のデータ表現を提供する機能と、 問合せ項目の問合せ表現を提供する機能と、 パラメータ表示した変換空間を定義する機能と、 前記変換空間全体にわたる変換空間の複数の重複する領域のそれぞれについて
、その領域における任意の変換の下での前記問合せ表現とデータ表現との間の一
致の確率の上限を決定する機能と、 確立閾値を決定する機能と 各領域の確率の上限と前記確率閾値とを比較する機能と、 前記データベース項目を前記問合せ項目に一致させる解を含む解領域群を特定
するべく、前記閾値確率より高い確率の上限を有する解領域を決定する機能とを
実行する命令群を含むことを特徴するコンピュータプログラムコードが提供され
る。
【0020】 本発明の更に別の側面によれば、上述の本発明の側面によるコンピュータプロ
グラムコードを記憶させた、コンピュータで読出し可能な媒体が提供される。こ
の媒体は、固定的、半固定的、または一時的記憶装置又はメモリ装置であり得、
または線を介して転送若しくは無線で転送される電気的信号であり得る。
【0021】 (発明の詳細な説明) 以下、添付の図面を参照しつつ、単なる例示である本発明の実施例について詳
細に説明する。
【0022】 一例として、幾つかの類似性の特徴を最大限にする、分子間の自動的なマッチ
ングの問題に関連して説明する。これは創薬プロセスにおいて重要な問題である
。化学者は、挙動が既知である「問合せ分子」を有し、それを用いてデータベー
ス内において類似の分子を検索しようとする。これは、最適化の問題、即ち問合
せ項目と多数の一致可能性のある分子及びそれらのアライメント情報からの項目
(分子)のデータべースとの最良のアライメント(一致、変換)を見つけ出す問
題と考えることができる。問合せ項目の分子及びデータベースの分子項目は、そ
れらの表面上に規則的な間隔でノードを配置することによってパターンとして表
現でき、且つ(分子の特性、例えば空間的及び静電的情報を含む)測定値ベクト
ルを各ノードと結びつけることができる。従って、結局はパターンマッチングの
問題となる。
【0023】 この文脈において、用語「ノード」は、関連する測定値ベクトルを有する、離
散的な標識を付されたオブジェクトを意味するものと考えられる。更に、用語「
測定値ベクトル」は、例えば空間的位置の特徴及び座標系におけるその値を有し
得る、特徴を表す値の組のリストを意味するものと考えられる。
【0024】 ここで、例として挙げた問題についてより詳細に説明するが、明確に説明する
ため、一度に一個のデータベース項目に対してその問合せ項目との一致を調べる
問題のみを取り扱うものとする。但し、一個の項目の場合について説明すれば理
解されるように、本発明は、複数のデータベース項目に対して同時に問合せ項目
との一致を調べるためにも利用できることに注意されたい。
【0025】 図1は、この問題に対する解の面(solution surface)の一連のスケッチを示
したものである。X軸は、問合せ分子とデータベース内の分子との可能なアライ
メントを表し、Y軸は、全ての異なるアライメントに対する類似性または一致の
良さを表す。曲線上の各点は、可能な変換の下でのデータベースの分子に対する
問合せ分子の一致の良さを表す(即ち曲線は、一方を他方に対して回転又は平行
移動させた時の分子の特性間の類似性をスケッチングしたものと考えられる)。
曲線の山と谷は、それぞれ二つの分子構造の間の良い一致と悪い一致とを表し、
目標は最も高いピークを見つけだすことである。
【0026】 前に述べたように、最適化のための従来の技術は、大きく2つの種類、即ち悉
皆走査及び傾斜法に分けることができる。例えば幾何学的ハッシング(geometri
c hashing)及びノーモン投影(gnomonic projection)のような悉皆走査技術で
は、解の面上で飛び飛びに走査することによってピークを特定することを試みる
。特定され得る良い解の数はステップ分解能と正比例する。ステップの増分を限
りなく0に近づけることにより全ての良い解を見いだすことは理論的には可能で
あるが、実際上は、これを行うと、処理を行うリソースに対する要求(一般的に
はプロセッサ速度及びメモリ容量)がそれに応じて指数関数的に増加することに
なる。スピードと解及び結果の質との間には好ましくないトレードオフの関係が
存在する。
【0027】 従来、傾斜法は悉皆法技術の代替手段に過ぎなかった。傾斜法の例としては、
勾配法(gradient descent)、シミュレーテッドアニーリング法(simulated an
nealing)、ニューラルネットワーク法(neural networks)、EM(期待値最大
化)アルゴリズム、及び理論的アルゴリズム(GAs)等が上げられる。各ステ
ップにおいて、局所的なピークを昇順にならべてその位置を特定するルーチンが
稼動される。1つのピークを見いだすと、そのルーチンは次のステップに移り、
そのプロセスが反復される。しかし、この方法には、悉皆走査技術と同様に解の
質が処理速度に応じて決まるという限界がある。詳述すると、見いだされる解の
質は、解の地平上のどの場所においてステップを開始するかに応じて決まる。良
い解を求めることができるのは、妥当な解が予め分かっている場合のみで、通常
このようなことはない。処理は通常幾つかのランダムな位置で開始され、結果的
にあまり良い解が得られない。
【0028】 全ての創薬技術は、悉皆走査又は傾斜法に基づいているため、発見プロセスに
おいて時間がかかりコストがかさむ。処理能力が低いことは、適切な活性を有す
る化合物を見いだすまでの、実験とコンピュータによる解析との間で多数の処理
サイクルが必要であることを意味するからである。
【0029】 本発明は、創薬プロセスのスピードを速めるための技術に於ける一段の変化を
もたらす。詳述すると、本発明は、大きい3D化学データベースに保持された分
子の検索及び比較のためのエンジンを提供する。実際上、このエンジンは、同一
のハードウェア上で動作する従来型の市販のパッケージソフトより1500倍高
速で解析を実行することが分かった。これによって、数日かかっていた大型デー
タベースの検索を数秒で行うことが可能となり、デスクトップコンピュータ上で
の真にインタラクティブなコンピュータによるドラッグデザインの道が開けるこ
とになる。
【0030】 更に、本発明は、実験で試験される分子の組としてより良いものを特定すると
いう点でより良質の解析を提供する。このことによって、創薬プロセスに於いて
必要となる処理サイクルの数が少なくなり、より高速かつよりコスト当たりの効
率の高い創薬が可能となる。
【0031】 本発明は、高速で良好な処理能力を提供する新規なマッチング方法を提供する
。この方法は、4つの重要な因子に基づくパターン認識のための新たな方法に基
づいている。マッチングの問題は、2つのパターンに於けるノード間の最良の変
換の組を見出す問題として定式化される。この方法で用いられる計算は、ベイズ
の確率理論によって裏付けられる。この方法は、全ての可能な解が調べられるこ
とを要求する点で全体論的(hilistic)である。データ処理はリソースによって
実施(resource-driven)されるが、行われ得る計算はオペレータが決定する動
作速度とメモリ容量に規制される。
【0032】 後者の2つの考慮すべき点のために、指数関数的な数の解をいかに高速で効率
的に見出すかという難問が生じ得る。この問題は、全ての可能な解の組の中の少
ない数の(一般的には重複する)サブセット(部分集合)つまり領域に解をまと
め、且つ各領域即ちサブセットを評価することによって解決される。1つの領域
に対して多数の推定を行うことができ、処理リソースの規制に合わせた効果的な
ストラテジーが、1つの領域つまりサブセットに含められる解についての上限及
び下限のスコア(確率)を得ることで処理速度と正確さのトレードオフを許容す
る。
【0033】 これらの条件の下で、とるべき最適なストラテジーは、下限の最大値より上限
が低くなるような領域を除去することである。このことによって、最適解が保持
されることが保証される。この処理を反復して行うことにより、最適度が低い解
を排除して解空間の中の最適解のありそうな領域に絞っていくことが可能となる
。残った解は、処理の規制条件が許す範囲で、処理が進行するにつれてより詳細
に再検査され得る。このプロセスは、全ての上限が下限閾値を超えた時に終了す
る。この時、下限を発見的に高くして除去プロセスを再度開始するか、或いは残
りの変換を従来通りの方法で記録・処理することができる。一般的には、勾配法
を用いることができる。残った領域は目的のピークを含んでいるからである。一
旦、問合せ分子とその分子との間の一致が評価されると、データベース内の他の
分子もそれらの一致の良さを評価するべく処理することができる。
【0034】 本発明の方法についてより詳細に説明する前に、図1A乃至図1Dを参照する
と、本発明の方法の特徴が概略的に図解されている。図1Aに於いて、Y軸は一
致の良さ即ち一致の確率を表す。X軸は分子間の全ての許容される変換の組(例
えば回転、変形等)を表す。問合せ分子と比較されるデータベース内の分子即ち
データセットは、データ表現として表現される。曲線100は、異なる変換の下
でのデータベース分子の表現と問合せ分子の表現との間の一致度を表示する。こ
の問題は、特定の方式で任意の可能な解を除去することなく可能な解を表現する
曲線に於けるピークを特定するを目的とする。
【0035】 初めに、変換の組を、全体で変換空間全体にわたる領域A〜Hに分割する。こ
れらの領域のそれぞれについて、その領域に於ける任意の変換の下での問合せ表
現とデータ表現との間の一致の確率の上限を、ベイズの確率理論を用いて計算す
る。これら計算の結果は線110として示されている。次に、破線120によっ
て示されるような、閾値確率を計算する。この場合ではサブセットA、C、E、
F、及びHが相当する、閾値120より低い確率上限110を有する領域を取り
除く。解のサブセットB、D、及びG内には利用可能なより良い一致が存在する
ことが明らかだからである。
【0036】 次に、図1Bに示すように、変換領域B、D、及びGを更に小さい領域、即ち
、BII、及びBIII、D、DII、DIII、及びDIIII、及び
に細分する。問合せ表現との一致の確率の新たな上限が、図面の線122、
124、及び126に示すように各領域に対して決定される。次に線128に示
すような新たな確率閾値が計算される。同様に、閾値より低くなる領域は解空間
から除去され、更なる処理のために解領域B、BII、及びDIIIのみが残
される。この段階で処理を終了し、解領域B、BII、及びDIIIに含まれ
る分子によって特定される一致及びその変換を含む解を保存して、最も良い一致
を示す解を含む領域の組を得ることができる。次にその分子は、幾つかの別の一
致の基準に応じて許容される一致を提供するものとして特定され得る。
【0037】 或いは、図1Cに示すように、このプロセスを更に反復することができる。サ
ブセットBIIII及びDに対する更なる確率の上限120及び132を計算
し、新たに導き出された確率閾値と比較して、解領域BIIIIを特定する。最
終ステップに於いては、勾配法を用いて、問合せ分子に対して最良の一致を与え
るものとして特定された対応する変換を有する局所的に最良の解表現Bを見出
す。次いで、データベース内の残りの分子との一致を個別に評価することができ
る。
【0038】 上の説明から、本発明が、多数のデータベース項目に対する問合せ項目の一致
を同時にとることについても適用できることは理解されよう。この場合の解の面
は個々のデータベース項目の解の面の連結であるに過ぎない。単に、上述のもの
と同じ手順が、連結された解の面の全体にわたってスケッチング及び除去プロセ
スを適用する処理を加えて用いられる。複数のデータベース項目に対する問合せ
項目の一致を同時に取ることが、コンピュータのリソースのより効率的な利用に
なっている場合には、より効率的な方法が得られることになる。
【0039】 ここで、前記方法によってマッチングされるパターンを与える分子の特徴を表
現するノードの空間的配置の利用について述べる。N個のノードの組で標識付け
されたパターンを考える。そのノードは、関連する測定値ベクトルの組、x={x1,
..., xN}を有する。
【0040】 そのパターンを第2のパターンに対して一致をとるために、第1のパターンに
おけるノードを第2のパターンにマッピングするw={w1, ..., wN}で表される
変換の全体的な組を考える。前述の第1の条件から、その目的は、最適なグロー
バル解、即ちこのパターンにおけるノードから第2のパターンへの最適な変換の
組を探すことであり、ここで、第2及び第3の条件から全体論的な確率論的アプ
ローチが用いられ、これには以下を必要とする。 w=arg max ?eW P(W=?|x) (1) ここで、Wはwに対する可能な解空間である。換言すれば、全ての解空間が考慮さ
れ、何処で或いは何回サーチするかについての事前仮定(priori assumptions)
は設けない。
【0041】 直接的に最適解を捜し出すこと、即ち積極的に解をサーチする或いはW内で解
の不完全性をなくすことによって最適解を捜し出すことを目的とせず、勾配法に
基づく或いは悉皆型サーチ技術のアプローチであることに留意されたい。むしろ
、その方法はWから不適当な解を除去することによって同様の目的を間接的に達
成する。そのようにすることによって、第3の条件によって要求されるように全
ての解空間が暗黙的に調査される。これは以下のように実行される。
【0042】 一般に独立した各個別の解の調査は計算では処理し難いので、解が一斉に収集
される。これは、個々の変換wi=aを含む全ての解、即ちノードiに対する変換はw i =aに固定される(より正確にはその近傍に固定される)が他の全てのノードの
変換は変化し得るような全ての解を考慮することによって実行される。これらの
解の何れか1つについての最も小さい上側の境界(即ち、解空間の領域)は次の
ようになる。 U(wi=a)=max w'eW' P(wi=a,w'|x) (2) ここで、w'は検討中のものを除く全てのノードにおける変換を表し、W'は、この
組に対する全ての可能な変換の空間である。
【0043】 上側の境界確率が幾つかの既知の下側の境界値Lより小さい領域は全て最適解
を含まない。従って、これらの領域は検討から除外することができる。よって、
或る反復時間nにおけるルールは以下のようになる。 U(n)(wi=a)<L(n) の場合 変換wi=aを含む領域は除外する (3) これはその方法の要所であり、解空間の領域の確率における上側の境界が計算
され得る(始めに解空間の全体がカバーされ、図1Aに示すような上側の境界が
生じ得る)。次に各領域或いはサブセットが、下側の境界の閾値と比較され得る
。上側の境界が閾値以下に下がる場合、その領域には良好な解が含まれないので
除外することができる。
【0044】 上側の境界の計算は依然として定められておらず、一般に計算的に高価であり
得る。計算の実際的な方法を提供するために、或る解は、一定の時間において計
算され得るG(n)(wi=a)>= U(n)(wi=a)のような式G(n)(wi=a)の数量を確認するた
めのものである。換言すれば、最も小さい上側の境界Uを計算するよりも、幾つ
かの上側の境界Gが計算される。従って、計算リソースによって処理が進められ
、リアルタイムの結果を与えるのに用いられ得る計算的に扱いやすい方法が提供
される。その方法は、Gが可能な限りUに接近した場合に、許容された計算リソー
スの最適な利用を提供し得る。除外ルールは以下のようになる。 G(n)(wi=a)<L(n)の場合 変換wi=aを含む領域は除外する (4) G(n)は、ベイズの確率理論を不等式のルールと組合せることによって評価される
。その式は、計算リソースの必要条件を適応させるために、反復サイクルにおい
て変化し得る。例えば、処理の始めにおいてG(n)が粗雑かつ迅速に評価され、粗
雑な上側の境界(図1A)を提供し、G(n)>= U(n)に従うとすれば、不適切な解
のみが除外され得る。
【0045】 これによってリソースが解放され、残存する解空間或いは解サブセットは必要
に応じてより詳細に調査され得る。また、或る領域の除外が次のタイムステップ
において重複する領域に対して計算される境界に作用するのでシステムにおける
干渉はより少なく、より小さい上側の境界を次の反復において計算することが可
能となる。
【0046】 僅かな解のみが残存する処理の終了に向けて、第4の条件が破られないことを
前提としてG(n)がL(n)に接近するように、より複雑化され且つ計算的に強力なG( n) を計算する手段が用いられ得る。
【0047】 処理は閾値を下回る解が無くなるまで継続され得る。
【0048】 如何なる場合でも、閾値を発見的に増大させることによって処理を再び開始す
ることができ、或いは、残存する変換が幾つかの方法で記録されて処理され得る
【0049】 本質的に、Gは解表面をスケッチするために計算され、それは閾値Lと比較され
て空間の重要でない領域が除外さる。そのような全体論的スケッチ及び除外プロ
セスを用いる他の方法は知られていない。
【0050】 これまで論じられた方法の例は、1又はそれ以上の問合せ或いはリード化合物
を用いた化学的データベースからの生物活性な化合物の検索である。出発点は、
問合せ及びデータベースの化合物をパターンとして表すことであり、各々は空間
的又は位相的に配置されたノードのセットによって識別され、各ノードは関連す
る測定ベクトルを有する。
【0051】 最初にU(wi=a)が定められ、次にG(wi=a)を生成するために不等式が導入される
【0052】 式(2)における上側の境界確率が展開され得る。ベイズのルールを式(2)に適用
することによって以下の式が得られる。 U(wi=a)=max w'eW'p(x|wi=a,w')P(wi=a,w')/p(x) (5) 変換w={w1, ..., wN}を条件とした場合に、測定ベクトルx={x1, ..., xN}
が独立である非制限的な仮定をすることによって以下の式が得られる。 U(wi=a)=p(xi|wi=a)P(wi=a)max w'eW'j!=ip(xj|wj)P(w'|wi=a,)/p(x
(6) 計算の複雑性を低減するために不等式を導入する。オプションは以下のようにな
る。 maxaeA,beBP(a,b)<=maxaeAP(a)max beBP(b) (7) これによって、 U(wi=a)<= p(xi|wi=a) P(wi=a) (8) pj!=imaxβeWjp(xj|wj=β)P(wj=β|wi=a)/p(x)=G(n)(wi=a) ここで、Wjはノードjに対する可能性な変換のセットであり、それによって指数
からO(N2)へ上側の境界の計算の複雑性が低減される。必要に応じて複雑性を増
大又は減少させるために、ここで別の不等式を適用することが可能である。
【0053】 式(4)と同等のものは以下の通りである。 G(n)(wi=a)<L(n)の場合 リストW(n+1)から変換wi=aを除外する (9) ここで、G(n)(wi=a)は式(8)で与えられる。 対数を用いて、除外ルールは以下のようになる。 S(n)(wi=a)<log L(n)の場合 リストW(n+1)から変換wi=aを除外する (10) ここで、S(n)(wi=a)は以下で与えられる。 S(n)(wi=a)=log (p(xi|wi=a)P(wi=a))+ (11) Sj!=imaxβeWj (n)log p(xj|wj=β)P(wj=β|wi=a)-c ここで、c=log p(x)は定数であり、そのアルゴリズムは同時又は非同時的に全て
のノードにおいて全ての候補の変換に適用され得る。
【0054】 この方法の応用には、式(11)において分布及び優先度(priors)のためのモデル
を必要とする。分子マッチングの用途の場合、或る別法ではそれらの中央からゼ
ロの高さを有する直線的分布である。この場合、個々の変換に対するサポートは
、以下のようになる。 S(n)(wi=a)=kSj!=imaxβeWj (n) h(wi=a, wj=β) (12) n>0の場合、kは定数であり、データと互換性のない全ての解は、始めに削除さ
れている。ここで、h(wi=a, wj=β)はバイナリーの適合性の測度(binary compat
ibility measure)であり、時間nにおいてノードiにおける変換aがノードjにおけ
る解βと矛盾しない場合に単純に始まる。従って、S(n)(wi=a)は主としてノード
iにおける検討中の変換と矛盾のないノードの数をカウントする。
【0055】 そのプロシージャは、(12)におけるアルゴリズムを幾何学的ハッシングと組合
せ得る。それは、データベースの化合物がハッシュテーブルにエンコードされる
記憶段階、並びに問合せの化合物が、そのテーブルにアクセスするために用いら
れて領域が調査されるリコール段階を含む。最後に、クラスタ化或いはサーチ段
階が、残存領域を厳密に解析するために加えられ得る。
【0056】 その方法がコンピュータプログラムとして具現化される場合には、次のような
機能がサポートされる。
【0057】 以下のステップは、各データベースの化合物の記憶を含む。即ち、 データベースの化合物ノード、並びにノード位置及びノーマルを含むそれらの測
定ベクトルを生成し; 重心-位置-ノーマルトリプレットを用いる各ポイントのフレームを生成し; このフレームをワールドフレームと整列させ、化合物をハッシュテーブルに化合
物-ノード-変換トリプレットとして格納する。
【0058】 以下のステップは、再現(再呼出し)に於いて用いられるものである。即ち、 オブジェクトモード、それらの位置、及びノーマルを規定する問合わせ化合物
を生成し; 重心−位置−ノーマルトリプレットを用いて各ノードについてのフレームを生
成し; このフレームと全体フレームに対して一致を取り、ハッシュテーブルにアクセ
スし、アクセスされた変換を各ノードに割当て; 変換マトリクスを回転パラメータに変換して、ハッシュテーブルに格納し; 式(12)及び(10)のスケッチ及び除去手順を用いて、確率の低い回転解
を除去し; 残りの解をまとめて、化合物を重畳することによってそれぞれに対する類似性
インデックススコアを得る。
【0059】 異なる用途に対する上述のステップの変更は、モデリングのレベルで生ずる。
この変更は、想定される分散の形態についての変更、または用いられる測定対象
の特徴についての変更の何れかであり得る。例えば、分子マッチングに於いては
直線的分散が用いられてきたが、この用途及び他の用途では、ガウス分布が適切
であり得、例えば曲率情報を用いることができる。
【0060】 図2を参照すると、本発明の或る側面のソフトウェアによるインプリメンテー
ションの概略的な流れ図200が示されている。初めにステップ210において
、データベースからデータ分子が選択される。次にこのデータ分子が上述のよう
なノード測定値ベクトルの組の形でその分子220のデータ表現に変換される。
次にステップ230に於いて、同様にノード測定値ベクトルの組の形態で問合せ
分子の表現が生成される。このステップはその後の実行に於いては反復される必
要はなく、一旦生成された問合せ表現は必要に応じて再度使用するために格納し
ておくことができる。次にステップ240に於いて、問合せ表現とデータ表現と
の間の一致が、変換空間に於ける可能な解領域を特定するように問合せ表現とデ
ータ表現との間の可能な変換を見つけ出すことによって決定される。このステッ
プは、上述のようにただ1つの最良の一致が決定されるか、或いは最良の一致の
組が決定されるように反復される(245)。
【0061】 次に最良の一致又は最良の一致の組に対して一致の基準を適用し、問合せ項目
とデータ項目の一致が十分に良い一致であるか否かを決定することができる(2
50)。問合せ項目とデータ項目の一致が十分に良い一致である場合には、デー
タ項目の表示及び一致の良さが更なる参照又は処理のために格納される(260
)。次にデータベース内の残りの項目が、データベースの全体又は選択された部
分が検索されるまで問合せ項目270と比較され得る。こうして、問合せ化合物
と十分に一致するデータベース化合物を特定する結果が出力され得る(280)
。全ての試行された一致の結果が格納され、一致の良さの順番に配列され、可能
性のある化合物の序列が特定され得る。
【0062】 異なるモデルの下で異なる測定値を用いることで、本発明のマッチングエンジ
ンのための様々な用途が考えられる。各用途は、複雑なパターンのマッチングの
問題をその中心に有している。このマッチングエンジンを用いて、ビジュアルデ
ータセット、例えば医療におけるイメージ解析、目視検査及びビデオ又は映画か
らの3D映像の再構築及びビデオ又は映画に於ける3Dオブジェクトモニタリング
に於いて特徴(項目)を特定することができる。ビジュアルデータの用途では、
ビジュアル信号の完全なデータセットが検索されて、ビデオ信号に提示されたパ
ターンと検索されるべき特徴のパターンとの一致をとることによってビデオ信号
に於ける特徴を特定することができる。この方法は全体的であり、全データセッ
トをカバーすることから、ビデオ信号における定義が失われることはない。
【0063】 例えば、このマッチングエンジンを用いて、ビデオ信号のストリームに於ける
特定の物品、例えばマグカップを特定することができる。この場合、マグカップ
が、それに対する位相幾何学的問合せ表現が生成される問合せ項目となる。デー
タ項目は、ビデオフレームのスチールである。次に、ビデオスチールの映像に於
けるマグカップの位置が、マグカップの表現の1つの可能な変換を考え、次いで
ビデオスチールに於けるマグカップを特定することによりビデオスチールデータ
項目を検索することによってマッチングエンジンによって特定され得る。この場
合、ビデオスチールイメージのシーケンスは、ビデオイメージに於けるマグカッ
プの可能な位置を特定するためにエンジンによって検索され得るデータベース項
目である。人体又は組織の特徴を探し当てるべく医療用のイメージ(映像又は超
音波の両方)に於けるパターンを特定するマッチングエンジンの利用方法も、こ
の例から明らかであろう。
【0064】 このマッチングエンジンは、理解されるように、DNA及びタンパク質配列の
一致を調べる分野にもその用途を有し得る。このマッチングエンジンは、例えば
音声認識のような時系列分析の分野にも、現在データセットと旧データセットに
於けるパターンの一致をとり、それらの一致と既存のテキストとの相関をとるこ
とによって適用することができる。
【0065】 この方法は、コンピュータプログラムとしてのインプリメンテーションに特に
適しており、また適切にプログラムされた電子データ処理装置は上述のようなパ
ターンマッチング方法を実行することができる検索エンジンを提供するというこ
とは理解されよう。ここに説明した方法を実現するコンピュータプログラムの詳
細は、コンピュータプログラムの分野の当業者の能力の範囲で考えられるもので
あり、従ってここでは詳細に説明しない。
【図面の簡単な説明】
【図1】 A、B、C、及びDよりなり、それぞれが本発明による方法の各段階を示す一
連の解空間を示す図。
【図2】 ソフトウェアによる本発明の実施例を示す概略的な流れ図。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW (72)発明者 ザネリ、ポール イギリス国ヨーク・ワイオー23 1ディー ダブリュ・サウスバンク・アーガイルスト リート 33 (72)発明者 モス、サイモン イギリス国ヨーク・ワイオー10 1エヌエ ル・スカークロフトロード・ソープストリ ート 22 Fターム(参考) 5B056 BB64 BB65 5B075 PQ36 PR06 QM08 UU18 5L096 DA02 GA30 GA51 HA08 JA03

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 データセットからの1または複数の項目と問合せ項目との
    間の最良の一致または最良の一致の組を特定するための方法であって、 (i)前記データセットにおける各項目のデータ表現を提供する過程と、 (ii)前記問合わせ項目の問合わせ表現を提供する過程と、 (iii)変換空間を確定する過程と、 (iv)変換空間全体にわたる多数の領域のそれぞれについて、その領域におけ
    る任意の変換の下でのデータ表現と前記問合わせ表現との間の一致の確率の上限
    を決定する過程と、 (v)閾値確率を決定する過程と、 (vi)各領域の前記確率の上限と前記閾値確率とを比較する過程と、 (vii)解領域を特定するべく、前記閾値確率より大きい前記確率の上限を有
    する領域を決定する過程とを有することを特徴とする方法。
  2. 【請求項2】 その解の領域群を複数の解の領域にわたる更に別の領域群
    に小分割する過程と、 新たな上限を決定する過程と、 新たな閾値確率を決定する過程と、 新たな解領域群を決定する過程とを更に含むことを特徴とする請求項1に記載
    の方法。
  3. 【請求項3】 最良の一致解を含む解領域か、最良の一致解の組を含む解
    領域の組を特定するべく請求項2に記載の過程を反復する過程を更に含むことを
    特徴とする請求項2に記載の方法。
  4. 【請求項4】 データ表現がデータ項目の位相幾何学的表現(topologica
    l representation)であり、問合せ表現は問合せ項目の位相幾何学的表現である
    ことを特徴とする請求項1に記載の方法。
  5. 【請求項5】 データ項目及び問合せ項目の位相幾何学的表現がノード測
    定値ベクトルの組を含み、各ノード測定値ベクトルは、その項目を確定するノー
    ド群の位相幾何学的構成のノードと関連付けられていることを特徴とする請求項
    4に記載の方法。
  6. 【請求項6】 前記上限が、ベイズの確率理論を用いて決定されることを
    特徴とする請求項1に記載の方法。
  7. 【請求項7】 電子的データ処理装置を含む、データセットからの項目ま
    たは項目群を特定するためのマッチングエンジンであって、 前記電子的データ処理装置が、 前記データセットにおける各項目のデータ表現を格納するメモリと、 前記問合せ項目の問合せ表現を入力するための入力と、 プロセッサとを有し、 前記プロセッサが、 変換空間を定義するための手段と、 前記変換空間全体わたる変換空間の複数の領域を生成するための手段と、 各領域について、その領域の任意の変換の下での前記問合せ表現とデータ表現
    との間の一致の確率の上限を決定するための手段と、 確率閾値を決定するための手段と、 各領域について前記確率の上限と前記閾値確率とを比較する比較手段と、 前記確率閾値より大きい確率の上限を有する解領域を特定するための手段と、 前記問合せ項目とメモリ内の前記データセットの項目との間の一致を特定する
    情報をメモリに記憶させるための手段とを含むことを特徴とsるうマッチングエ
    ンジン。
  8. 【請求項8】 コンピュータ上で走らされた時、請求項1に記載の方法を
    実行するコンピュータプログラム。
  9. 【請求項9】 データセットからの項目または項目群を特定するためのコ
    ンピュータプログラムコードであって、 (i)前記データセットにおける各項目のデータ表現の組を提供する機能と、 (ii)前記問合せ項目の問合せ表現を提供する機能と、 (iii)変換空間を定義する機能と、 (iv)前記変換空間にわたる変換空間の複数の領域のそれぞれについて、その領
    域における任意の変換の下での前記問合せ表現と前記データ表現との間の一致の
    確率の上限を決定する機能と、 (v)確率閾値を決定する機能と (vi)各領域の確率の上限と前記確率閾値とを比較する機能と、 (vii)解領域群を特定するべく、前記確率閾値より高い確率の上限を有する解
    領域を決定する機能とを実行する命令を含むことを特徴するコンピュータプログ
    ラムコード。
  10. 【請求項10】 請求項9に記載のコンピュータプログラムコードを記憶
    するコンピュータが読出し可能な媒体。
JP2000600198A 1999-02-19 2000-02-16 マッチングエンジン Pending JP2002537605A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9903697.2 1999-02-19
GBGB9903697.2A GB9903697D0 (en) 1999-02-19 1999-02-19 A computer-based method for matching patterns
PCT/GB2000/000492 WO2000049527A1 (en) 1999-02-19 2000-02-16 Matching engine

Publications (1)

Publication Number Publication Date
JP2002537605A true JP2002537605A (ja) 2002-11-05

Family

ID=10848010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000600198A Pending JP2002537605A (ja) 1999-02-19 2000-02-16 マッチングエンジン

Country Status (8)

Country Link
US (1) US20050246317A1 (ja)
EP (1) EP1155375A1 (ja)
JP (1) JP2002537605A (ja)
CN (1) CN1129081C (ja)
AU (1) AU2678600A (ja)
BR (1) BR0008956A (ja)
GB (1) GB9903697D0 (ja)
WO (1) WO2000049527A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001233861A1 (en) * 2000-02-16 2001-08-27 P C Multimedia Limited Identification of structure in time series data
EP1182579A1 (de) * 2000-08-26 2002-02-27 Michael Prof. Dr. Clausen Verfahren und System zur Erstellung geeigneter Indizes zur verbesserten Suche in Datenbanken, vorzugsweise in Bild-, Ton- oder Multimediadatenbanken
WO2007075842A2 (en) * 2005-12-19 2007-07-05 Bass Object Technologies, Inc. System and method for a dating game of love and marriage
IN2012DN01817A (ja) * 2009-07-01 2015-06-05 Fresenius Med Care Hldg Inc
DK177161B1 (en) * 2010-12-17 2012-03-12 Concurrent Vision Aps Method and device for finding nearest neighbor
CA2825524C (en) 2011-01-31 2021-03-23 Fresenius Medical Care Holdings, Inc. Preventing over-delivery of drug
US9589058B2 (en) 2012-10-19 2017-03-07 SameGrain, Inc. Methods and systems for social matching
CN105302858B (zh) * 2015-09-18 2019-02-05 北京国电通网络技术有限公司 一种分布式数据库系统的跨节点查询优化方法及系统
CN108073641B (zh) * 2016-11-18 2020-06-16 华为技术有限公司 查询数据表的方法和装置
CN107789056B (zh) * 2017-10-19 2021-04-13 青岛大学附属医院 一种医学影像匹配融合方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5465321A (en) * 1993-04-07 1995-11-07 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Hidden markov models for fault detection in dynamic systems
US5701256A (en) * 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
US6865524B1 (en) * 1997-01-08 2005-03-08 Trilogy Development Group, Inc. Method and apparatus for attribute selection
US6820071B1 (en) * 1997-01-16 2004-11-16 Electronic Data Systems Corporation Knowledge management system and method
US6571251B1 (en) * 1997-12-30 2003-05-27 International Business Machines Corporation Case-based reasoning system and method with a search engine that compares the input tokens with view tokens for matching cases within view
US6374251B1 (en) * 1998-03-17 2002-04-16 Microsoft Corporation Scalable system for clustering of large databases
US7117518B1 (en) * 1998-05-14 2006-10-03 Sony Corporation Information retrieval method and apparatus
US6601058B2 (en) * 1998-10-05 2003-07-29 Michael Forster Data exploration system and method

Also Published As

Publication number Publication date
BR0008956A (pt) 2002-02-13
GB9903697D0 (en) 1999-04-14
WO2000049527A1 (en) 2000-08-24
US20050246317A1 (en) 2005-11-03
CN1129081C (zh) 2003-11-26
AU2678600A (en) 2000-09-04
EP1155375A1 (en) 2001-11-21
CN1342291A (zh) 2002-03-27

Similar Documents

Publication Publication Date Title
JP6966875B2 (ja) 画像検索装置及びプログラム
Ting et al. Overcoming key weaknesses of distance-based neighbourhood methods using a data dependent dissimilarity measure
KR100483321B1 (ko) 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
US7877414B2 (en) Method and apparatus for representing and searching for an object using shape
US5799312A (en) Three-dimensional affine-invariant hashing defined over any three-dimensional convex domain and producing uniformly-distributed hash keys
US7813531B2 (en) Methods and apparatus for clustering templates in non-metric similarity spaces
JP5193518B2 (ja) パターン探索装置及びその方法
JP2002513979A (ja) 多次元空間において近接データを表すシステム、方法、およびコンピュータプログラムプロダクト
US20050246317A1 (en) Matching engine
WO2013051619A1 (ja) 類似性検出装置及び指向性近傍検出方法
CN112328891A (zh) 训练搜索模型的方法、搜索目标对象的方法及其装置
CN111460234A (zh) 图查询方法、装置、电子设备及计算机可读存储介质
JP3559007B2 (ja) 直線基準の映像整合方法
CN111274332A (zh) 一种基于知识图谱的专利智能检索方法及系统
Zhang et al. Dynamic time warping under product quantization, with applications to time-series data similarity search
CN113705276A (zh) 模型构建方法、模型构建装置、计算机设备及介质
CN115205956A (zh) 左右眼检测模型训练方法、识别左右眼的方法及装置
CN114997366A (zh) 基于图神经网络的蛋白质结构模型质量评估方法
Xu et al. Dynamic learning from multiple examples for semantic object segmentation and search
Yang et al. Adaptive density peak clustering for determinging cluster center
JP4550398B2 (ja) 一連の画像に現れる物体の動きを表現する方法、一連の画像中の画像における物体の選択を識別する方法、画像に対応する信号を処理することによって一連の画像を探索する方法、及び装置
Böhm et al. Querying objects modeled by arbitrary probability distributions
Karna et al. Bootstrap-CURE clustering: An investigation of impact of shrinking on clustering performance
CN112579841B (zh) 一种多模态数据库建立方法、检索方法及系统
CN116959589A (zh) 蛋白质索引的生成方法、蛋白质片段的查询方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100113

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511