JP2000099632A - 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000099632A
JP2000099632A JP10272911A JP27291198A JP2000099632A JP 2000099632 A JP2000099632 A JP 2000099632A JP 10272911 A JP10272911 A JP 10272911A JP 27291198 A JP27291198 A JP 27291198A JP 2000099632 A JP2000099632 A JP 2000099632A
Authority
JP
Japan
Prior art keywords
search
cluster
pattern
learning
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10272911A
Other languages
English (en)
Other versions
JP3903610B2 (ja
Inventor
Tsuguaki Ryu
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP27291198A priority Critical patent/JP3903610B2/ja
Priority to US09/387,850 priority patent/US6338062B1/en
Publication of JP2000099632A publication Critical patent/JP2000099632A/ja
Application granted granted Critical
Publication of JP3903610B2 publication Critical patent/JP3903610B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 高速、高精度のパターン検索を行う。 【解決手段】 検索辞書作成手段11は、学習パターン
を複数のクラスタに分類するための検索辞書を作成す
る。至近クラスタ検出手段12は、検索辞書にもとづい
て、クラスタの中から、入力された検索パターンと至近
のクラスタを検出する。学習パターン検出手段13は、
至近クラスタCに属しているすべての学習パターンを検
索パターンqと比較して、検索パターンqと所定の距離
を持つ学習パターンpを検出する。検索範囲決定手段1
4は、学習パターン検出手段13で検出された学習パタ
ーンp及び検索情報を用いて、検索範囲を決定する。検
索手段15は、検索範囲に属しているすべての学習パタ
ーンの中から検索パターンqの検索を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は検索装置、検索方法
及び検索プログラムを記録したコンピュータ読み取り可
能な記録媒体に関し、特にパターン検索を行う検索装
置、パターン検索を行う検索方法及びコンピュータにパ
ターン検索を実行させる検索プログラムを記録したコン
ピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】パターン検索及び構造検索技術は、文
字、音声、画像のパターンや化合物分子構造、RNAの
二次構造等をコンピュータを用いて検索する技術であ
り、近年の多様化、複雑化した情報化社会の発展に伴っ
て、より高速、高精度に検索しようとする要望が高まっ
ている。
【0003】また、完全に一致するパターンや構造を検
索しようとするだけでなく、もっとも類似したパターン
や構造を検索したいという場合がある。例えば、情報化
学分野には、化合物の構造がよく似ていると性質がよく
似ているではないかという構造・活性問題が古くから研
究されており、このような場合、数百万の化合物分子構
造を効率よく分類したり、類似構造を効率よく検索した
いという強い要望がある。
【0004】パターン検索の分野では、パターンの特徴
量を用いて、パターン間の距離または類似度を定義し、
その距離または類似度を用いて入力未知パターン(以
降、検索パターン)をすべての被検索パターン(以降、
学習パターン)と比較して、検索パターンを推定する総
当たり検索法が知られている。
【0005】ところが、総当たり検索法では、パターン
間の距離または類似度の計算には非常に手間がかかるの
で、すべての大量な学習パターンと比較すると、莫大な
時間がかかるという大きな欠点がある。
【0006】このため、従来では、あらかじめ学習パタ
ーン間の距離を求め、学習パターンをいくつかのクラス
タに分類して検索を行う大分類検索法が広く用いられて
いる。
【0007】例えば、特開平6−251156号公報で
は、パターン間の距離を用いて、学習パターンをいくつ
かのクラスタに分類し、検索パターンの特徴量を変換し
ながら、各クラスタの代表と比較して、一番近いクラス
タを求める。
【0008】そして、求められたクラスタに属している
すべての学習パターンを検索パターンと比較して、検索
パターンを推定している。一方、情報化学分野で、新し
い化合物を合成するとき、設計された分子構造とよく似
ているもの、または部分的によく似ているものを検索す
る場合、化合物分子構造間の距離または類似度をどのよ
うに定義するか、化合物分子構造をどのように表現する
か、化合物をどのように分類するか、どのように類似構
造を検索するか、が問題になってくる。
【0009】特開平7−28844号公報では、物質の
立体構造を点集合で表現し、2つの立体構造を重ねあわ
せることにより、構造間の距離を計算する。そして、類
似構造を検索するとき、幾何学的な関係による候補を絞
り込んで、検索範囲を縮小しながら検索している。
【0010】
【発明が解決しようとする課題】しかし、上記のような
従来の大分類検索法では、検索速度は速くはなるが、検
索精度が悪いといった問題があった。
【0011】図18は大分類検索法の精度上の問題点を
示す図である。(A)はクラスタが重なる場合、(B)
はクラスタが重ならない場合を示している。(A)に示
す検索では、まず、入力パターンqとクラスタ代表との
距離が、最も短いクラスタとして、クラスタAが求まっ
たとする(すなわち、図でD1<D2)。
【0012】そして、クラスタA内の複数の学習パター
ンと入力パターンqとの距離を比較する。すると、最も
短い距離d1である学習パターンaが類似パターンとし
て求まる。
【0013】ところが、入力パターンqとクラスタ代表
との距離がクラスタAよりも長いクラスタであるクラス
タBに対し、クラスタB内の学習パターンbとの距離d
2の方が、距離d1よりも短い。すなわち、この学習パ
ターンbが、実際には入力パターンqに最も類似してい
るパターンである。
【0014】(B)の場合も同様に、検索パターンqと
クラスタAの距離D1の方がクラスタBとの距離D2よ
り短いが、類似パターンは学習パターンaではなく、実
際にはクラスタB内にある学習パターンbが、検索パタ
ーンqと最も類似する類似パターンとなる(d2<d1
より)。
【0015】したがって、大分類検索法の検索精度は、
学習パターン間の距離の定義とその計算方法、学習パタ
ーン自身の表現方法及び学習パターンをクラスタに分類
する際の分類方法に強く依存しており、もっとも類似な
パターンを確実に検索できる保証がないといった問題が
あった。
【0016】また、上記の従来技術では、入力パターン
の特徴量を変換したり、物質の立体構造の特性を利用し
たりして、精度の向上を図ろうとしているが、いずれに
しろ、パターンの距離や表現方法及び分類方法に依存し
ているため、検索精度の信頼性が十分に高いものとはい
えなかった。
【0017】本発明はこのような点に鑑みてなされたも
のであり、パターンの距離や表現方法及び分類方法に依
存せず、高速、高精度の検索を行う検索装置を提供する
ことを目的とする。
【0018】また、本発明の他の目的は、パターンの距
離や表現方法及び分類方法に依存せず、高速、高精度の
検索を行う検索方法を提供することである。さらに、本
発明の他の目的は、パターンの距離や表現方法及び分類
方法に依存せず、高速、高精度の検索を行う検索プログ
ラムを記録したコンピュータ読み取り可能な記録媒体を
提供することである。
【0019】
【課題を解決するための手段】本発明では上記課題を解
決するために、パターン検索を行う検索装置において、
学習パターンを複数のクラスタに分類するための検索辞
書を作成する検索辞書作成手段と、前記検索辞書にもと
づいて、前記クラスタの中から、入力された検索パター
ンと至近のクラスタを検出する至近クラスタ検出手段
と、至近クラスタに属しているすべての学習パターンを
前記検索パターンと比較して、前記検索パターンと所定
の距離を持つ学習パターンを検出する学習パターン検出
手段と、前記学習パターン検出手段で検出された前記学
習パターン及び前記検索辞書を用いて、検索範囲を決定
する検索範囲決定手段と、前記検索範囲に属しているす
べての学習パターンの中から前記検索パターンの検索を
行う検索手段と、を有することを特徴とする検索装置が
提供される。
【0020】ここで、検索辞書作成手段は、学習パター
ンを複数のクラスタに分類するための検索辞書を作成す
る。至近クラスタ検出手段は、検索辞書にもとづいて、
クラスタの中から、入力された検索パターンと至近のク
ラスタを検出する。学習パターン検出手段は、至近クラ
スタに属しているすべての学習パターンを検索パターン
と比較して、検索パターンと所定の距離を持つ学習パタ
ーンを検出する。検索範囲決定手段は、学習パターン検
出手段で検出された学習パターン及び検索情報を用い
て、検索範囲を決定する。検索手段は、検索範囲に属し
ているすべての学習パターンの中から検索パターンの検
索を行う。
【0021】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は本発明の検索装置の原理を
示す図である。検索装置1は、パターン(構造を含む)
検索及び類似パターン検索を行う。
【0022】検索辞書作成手段11は、構造上または性
質上パターン間の相違を表す尺度としての距離、または
パターンがどのぐらい似ているかを表す尺度としての類
似度等の情報にもとづき、学習パターンを複数のクラス
タに分類するための検索辞書を作成する。検索辞書の詳
細については後述する。
【0023】至近クラスタ検出手段12は、検索辞書に
もとづいて、クラスタの中から、入力された検索パター
ンqと最も近い至近クラスタCを検出する。学習パター
ン検出手段13は、至近クラスタCに属しているすべて
の学習パターンを検索パターンqと比較して、検索パタ
ーンqと所定の距離(以降、最小距離とする)を持つ学
習パターンpを検出する。
【0024】検索範囲決定手段14は、学習パターン検
出手段13で検出された学習パターンp及び検索辞書を
用いて、検索範囲を決定する。すなわち、学習パターン
pと検索パターンqとの距離、検索辞書に格納されてい
るクラスタ間の距離、クラスタの半径等を用いて検索範
囲(図の斜線部)を決める。詳細は後述する。
【0025】検索手段15は、検索範囲に属しているす
べての学習パターンの中から検索パターンqのパターン
検索及び類似パターン検索を行う。次に検索装置1の動
作概要について説明する。図2〜図4は至近クラスタ検
出手段12の動作を説明する図である。
【0026】図2の多次元空間上に複数のクラスタと検
索パターンqが示されている。まず、多次元空間の中心
にあるクラスタC1と検索パターンqの距離daを求め
る。そして、距離daの2倍の距離2daを半径に持つ
円Eaを最初のクラスタ比較範囲とし、この円Ea内に
ある複数のクラスタから、至近クラスタを求めていく。
【0027】円Eaを求めた後、検索辞書に格納された
クラスタ比較順番(検索パターンqと比較していく際の
クラスタの比較順序であり、クラスタC1との距離が短
い順に検索パターンqとクラスタとを比較していく。図
ではクラスタC1との距離が短い順にC2、C3〜C6
を付してある)にもとづいて、検索パターンqと円Ea
内のクラスタの距離を求め、そのとき前回に求めた距離
よりも小さい場合にはクラスタ比較範囲を小さくしてい
く。
【0028】例えば、次のクラスタC2と検索パターン
qとの距離を求め、その距離がクラスタC1と検索パタ
ーンqとの距離よりも短ければ、クラスタ比較範囲とな
る円を小さくし、その範囲内でまた比較順番にもとづい
たクラスタとの距離をさらに求め、順次、クラスタ比較
範囲を小さくしていく。
【0029】図3はクラスタ比較範囲を小さくしている
途中段階を示している。クラスタC6と検索パターンq
の距離dbを求める。そして、距離2dbを半径に持つ
円Ebをクラスタ比較範囲とし、この円Eb内にあるク
ラスタから、至近クラスタを求めていく。
【0030】図4は至近クラスタを求めた図である。上
記のようにクラスタ比較範囲を小さくしていき、最終的
に円Ec内のクラスタC6を至近クラスタとして検出し
ている。
【0031】このようにクラスタ比較範囲を次第に小さ
くしていくことで、検索パターンqと最も距離の近い至
近クラスタを効率よく高速に検出することができる。次
に学習パターン検出手段13と検索範囲決定手段14の
動作について説明する。図5は学習パターン検出手段1
3と検索範囲決定手段14の動作を説明する図である。
【0032】学習パターン検出手段13は、至近クラス
タCMinClassが求まった後、至近クラスタCMinClass
属しているすべての学習パターンと、検索パターンqと
を比較して、距離が最短の学習パターンPMinClassを求
める。
【0033】また、クラスタCMinClassと検索パターン
qとの距離と、学習パターン検出手段13で求めた学習
パターンPMinClassと検索パターンqとの距離と、から
なる半径Rを持つ円Edが求まる。
【0034】次に検索範囲決定手段14は、円Edと重
なるクラスタがあるかどうかを判断する。クラスタ間の
距離などの検索に必要な情報は、検索辞書に格納されて
いるため既知である。
【0035】したがって、図ではクラスタCk が円Ed
と重ならないことが判断でき、検索範囲対象外となる。
また、クラスタCh が円Edと重なることを認識する。
検索範囲決定手段14は、次に円Ee(検索パターンq
と学習パターンPMinC lass間の距離を半径に持つ円)と
重なるクラスタがあるかどうかを判断する。クラスタC
h は、円Edと重なるが円Eeとは重ならないため、検
索範囲対象外とし、円Edと円Eeに重なるクラスタC
i を選択する。
【0036】ここで、円Eeに重なるクラスタCi の領
域は、領域Saのみであるが、多次元空間に配置されて
いるパターンを考えているので、領域Saを含む図の斜
線部分Sbが最終的な検索範囲として求まる。
【0037】その後、検索手段15では、この検索範囲
Sbに属しているすべての学習パターンの中から検索パ
ターンqの検索を行うことになる。なお、至近クラスタ
の検出や検索範囲決定等の動作のアルゴリズムについて
は、数式を用いて詳細に後述する。
【0038】以上説明したように、本発明の検索装置1
では、検索辞書をあらかじめ作成しておき、検索辞書に
もとづいて、入力された検索パターンと最も近い至近ク
ラスタを検出し、検索パターンと至近クラスタ内で最小
距離を持つ学習パターンを検出する。
【0039】そして、検出した学習パターン及び検索辞
書を用いて、検索範囲を段階的に決定していって、最終
的に求めたその検索範囲内で検索を行う構成とした。し
たがって、従来のようにパターン間の距離の定義とその
計算方法、パターン表現方法及びパターンのクラスタ分
類方法を設定して、これらの方法に依存した形で検索を
行うのではないので、検索速度及び検索精度が向上し、
信頼性の高い検索を行うことが可能になる。
【0040】次に本発明の検索装置1の詳細構成につい
て図6、7を用いて説明する。図6は検索装置1の構成
を示す図である。検索パターン情報格納手段17は、検
索パターンの情報を格納している。検索パターンの情報
は、検索パターンの名前と検索パターンの構造データか
ら構成される。
【0041】パターンの構造データは、パターンの表現
方法により異なる。例えば、特徴量でパターンを表現す
る場合は、特徴量がパターンの構造データとして格納さ
れる。
【0042】また、グラフ理論上のグラフでパターンを
表現する場合は、パターンに対応している重み付きグラ
フが、パターンの構造データとして格納される。なお、
パターン自身がパターンの構造データとして格納されて
も構わない。
【0043】検索辞書格納手段11aは、検索辞書作成
手段11で作成された検索辞書を格納する。図7は検索
辞書内の検索辞書データを示す図である。図に示すよう
に検索辞書データ100は階層構造になっている。
【0044】検索辞書データ100は、すべてのクラス
タ間の距離101、検索パターンと至近クラスタを求め
るときのクラスタの比較順番102及び各クラスタの情
報から構成されている。
【0045】各クラスタの情報103は、クラスタ1〜
クラスタnのデータから構成される。それぞれは、クラ
スタ代表の構造データ104、クラスタの半径105、
クラスタに属している学習パターンの数106、クラス
タに属している複数の学習パターン情報107−1〜1
07−mから構成されている。
【0046】例えば、学習パターン情報107−1は、
学習パターン1の名前107a、学習パターン1の構造
データ107b、学習パターン1とクラスタ代表間の距
離107cから構成されている。学習パターン情報10
7−2〜107−mも構成は同様である。
【0047】メモリM1は、検索パターン情報格納手段
17から読み出された1つの検索パターンの名前と構造
データを格納する。メモリM2〜M4は、クラスタ代表
の構造データ104、クラスタの半径105、クラスタ
に属している学習パターンの数106を格納する。メモ
リM5は、学習パターン情報107−1〜107−mを
格納している。
【0048】メモリM6、M7は、それぞれ検索パター
ンと最も近い至近クラスタの情報(クラスタの番号と距
離) 、検索パターンと最も類似な学習パターンの情報
(学習パターンの名前と距離) を格納する。
【0049】至近クラスタ検出手段12は、検索辞書格
納手段11aに格納された検索辞書を用いて、メモリM
1に格納された検索パターンと最も近い至近クラスタを
求め、その結果をメモリM6に記憶させる。
【0050】学習パターン検出手段13は、メモリM6
に記憶されている至近クラスタに属しているすべての学
習パターンをメモリM1に格納されている検索パターン
と比較して、距離が最短の学習パターンを求め、求めた
学習パターンの名前とその最小距離をメモリM7に格納
させる。
【0051】検索範囲決定手段14は、検索辞書に格納
しているクラスタ間の距離、クラスタの半径及びメモリ
M7に格納されている最小距離を用いて検索範囲を決め
る。検索手段15は、検索範囲決定手段14で求められ
た検索範囲に属しているすべての学習パターンを、メモ
リM1に格納している検索パターンと比較して、最も類
似なパターンを検索する。
【0052】記憶手段16は、検索手段15で検索され
た類似パターンの名前と構造データを格納する。次に検
索装置1の装置適用例として、情報端末装置に適用させ
た場合の装置構成について説明する。図8は検索装置1
を情報端末装置に適用させた場合の装置構成を示す図で
ある。
【0053】情報端末装置2は、キーボード21、外部
記憶装置22、ディスプレイ23、プロセッサ部24か
ら構成される。キーボート21は、ユーザが操作を指示
するための入力装置であり、その他の入力装置が付加さ
れていてもよい。
【0054】外部記憶装置22は、検索パターンの構造
データ、検索辞書、検索結果及びソフトウェアを格納す
る。また、検索パターン情報格納手段17と検索辞書格
納手段11aをこの外部記憶装置22の一部として構成
することができる。さらに、記憶手段16によって検索
された、類似パターンの名前と構造データを格納しても
よい。
【0055】外部記憶装置22の具体例として、例えば
ハードディスクなどで構成することができる。ディスプ
レイ23は、ユーザに対するメッセージや検索パターン
のデータ、検索の結果などを表示するための出力装置で
ある。
【0056】プロセッサ部24は、外部記憶装置22に
格納されているソフトウェアなどに従って、実際の処理
を行う。プロセッサ部24は、具体的にはマイクロプロ
セッサやパーソナルコンピュータなどのコンピュータシ
ステムで構成することができる。
【0057】そして、至近クラスタ検出手段12、学習
パターン検出手段13、検索範囲決定手段14及び検索
手段15は、このプロセッサ部24の上で動作するソフ
トウェアによって構成することができる。
【0058】次に本発明の検索装置1の動作をさらに詳
細に説明する。まず、検索パターン情報格納手段17に
格納されている検索パターンについて説明する。検索パ
ターン情報格納手段17に格納されている検索パターン
の構造データは、パターンの表現方法、距離の定義とそ
の計算法により異なる。
【0059】例えば、文字パターン、音声パターン、指
紋パターン、顔パターンの場合は、各パターンの特徴量
が検索パターンの構造データとして格納される。化合物
分子構造、RNAの二次構造の場合は、重み付きグラフ
で表現でき、それぞれの重み付きグラフが検索パターン
の構造データとして格納される。
【0060】線図形パターンの場合は、線図形の輪郭線
データや、線図形自身のデータなどが検索パターンの構
造データとして格納される。パターンの構造データは、
そのパターンに対する表現方法、距離の定義とその計算
法に関係する。具体的には例えば、文字パターンに対し
て、ペリフェラル特徴量のユークリッド距離は、パター
ンpi の特徴を(pi1, pi2, …, pim) で表現する
と、パターンpi とパターンpj の間のユークリッド距
離は次の式(1)で計算される。
【0061】
【数1】 次に検索辞書格納手段11aで学習パターンを格納する
際の学習パターンの分類方法について説明する。検索辞
書格納手段11aは、図7で説明したような検索辞書を
格納する。
【0062】学習パターンの分類方法については、一般
に公表されているパターンの分類方法の中から、処理す
るパターンに対応している任意の分類方法を選択でき
る。例えば、文字パターンに対して、最長距離クラスタ
リング法がある。最長距離クラスタリング法は、クラス
タ間の距離を各クラスタ内の任意の2つのパターン間の
距離の中で最長な距離によって定義し、この距離が最小
となる2つのクラスタを統合する。2つのクラスタCi
とCj 間の距離は式(2)で定義される。
【0063】
【数2】 d(Ci , Cj )={max d(pi , pj )|pi ∈Ci , pj ∈Cj } …(2) 次に検索辞書格納手段11aに格納されているクラスタ
の代表を求める方法について説明する。クラスタの代表
を求める方法について、特徴量でパターンを表現する場
合は、クラスタに属しているすべての学習パターンの特
徴量の各次元の平均値を求め、求められた特徴量の平均
値をそのクラスタの代表とする。
【0064】また、特徴量以外の方法でパターンを表現
する場合は、クラスタに属しているすべての学習パター
ンについて、各学習パターン間の距離を計算し、該当す
るクラスタ内にあるすべての学習パターン間の距離の和
が最小になる学習パターンをそのクラスタの代表とす
る。
【0065】次に検索辞書格納手段11aに格納されて
いるクラスタの半径を求める方法について説明する。ク
ラスタの半径を求める方法について、クラスタに属して
いるすべての学習パターンと該当するクラスタ代表の間
の距離を計算し、その中で最大の距離をクラスタの半径
とする。そして、クラスタ代表間の距離をクラスタ間の
距離とし、パターンとクラスタ間の距離をパターンとク
ラスタ代表間の距離とする。
【0066】次に検索辞書格納手段11aに格納されて
いる検索パターンと最も近い至近クラスタを求めるとき
のクラスタの比較順番について説明する。検索パターン
と最も近い至近クラスタを求めるときのクラスタの比較
順番について、特徴量でパターンを表現する場合は、す
べてのクラスタ代表について、それらの特徴量の各次元
の平均値を求め、求められた特徴量の平均値と最も近い
クラスタを最初に比較するクラスタとする。
【0067】特徴量以外の方法でパターンを表現する場
合は、すべてのクラスタとの距離の和が最小になるクラ
スタを最初に比較するクラスタとする。そして、最初に
比較するクラスタと他のクラスタ間の距離を上昇順でソ
ートして、ソートされた順番をその後のクラスタの比較
順番とする。
【0068】次に至近クラスタ検出手段12について説
明する。至近クラスタ検出手段12は、検索辞書を用い
て、メモリM1に格納されている検索パターンと最も近
い至近クラスタを求める部分である。
【0069】検索パターンと最も近い至近クラスタを求
めるとき、検索パターンをすべてのクラスタと比較する
のではなく、クラスタが比較範囲に含まれているかどう
かを判定しながら最も近いクラスタを求めていく。
【0070】クラスタの判定順番は検索辞書に格納され
ているクラスタの比較順番である。つまり、学習パター
ンのサンプルからなる多次元空間上の中心(例えば、図
2で説明したクラスタC1)と近い距離の順(例えば、
図2で説明したクラスタC2〜C6の順)にクラスタを
比較する。そうすることにより、クラスタの比較回数が
少なくなり、最も近い至近クラスタを高速に求めること
ができる。
【0071】具体的には、クラスタの比較範囲の初期値
を検索辞書にあるすべてのクラスタに設定する。検索辞
書に格納されているクラスタの比較順番で1つのクラス
タを選択して、選択されたクラスタがクラスタ比較範囲
に含まれているかどうかを判定する。
【0072】含まれている場合は、クラスタの代表と検
索パターンの間の距離を計算し、検索パターンと近いク
ラスタを求める。その後、現段階で求められた検索パタ
ーンとクラスタ間の最小距離及び検索辞書に格納されて
いるクラスタ間の距離を用いて次に比較するクラスタの
比較範囲を決める。式(3)にクラスタが比較範囲に含
まれているかどかを判定する条件を示す。
【0073】
【数3】 D(CMinClass, CS(i))<2*DMinC …(3) ここで、CMinClassは現段階で求められた最も近いクラ
スタを表す。DMinCは検索パターンとクラスタC
MinClassの間の距離を表し、初期値を最大値と設定す
る。ここでの最大値はコンピュータ上でDMinC変数の型
が表現できる値の範囲の上限である。S(i)は検索辞書に
格納されているクラスタの比較順番に第i番のクラスタ
の番号を表す。
【0074】式(3)を満たさないクラスタは検索パタ
ーンとの間の距離が、DMinCより大きいので、比較する
必要がない。このようにして、検索パターンとクラスタ
の比較を繰り返すことにより、DMi nCは小さくなり、従
って、式(3)を満たすクラスタの集合は小さくなる。
【0075】従って、検索パターンと最も近いクラスタ
を高速に求めることができる。そして、求められた至近
クラスタの番号とその最小距離をメモリM6に格納させ
る。図9、図10は至近クラスタ検出手段12の動作を
説明する図である。最初、図9に示すように、検索パタ
ーンqとクラスタCS(1)の間の距離を計算して、その距
離をDMinCに格納し、MinClass=S(1) になる。
【0076】この時、式(3)を満たすクラスタの集合
は点線円E1に含まれているクラスタである。つまり、
次の比較範囲は点線円E1に含まれているクラスタとな
る。図10は検索パターンqとクラスタCS(k)を比較し
た後、式(3)を満たすクラスタの集合(点線円E2に
含まれているクラスタ) を示している。
【0077】次に学習パターン検出手段13及び検索範
囲決定手段14の動作について説明する。図11は学習
パターン検出手段13と検索範囲決定手段14の動作を
説明する図である。
【0078】学習パターン検出手段13は、至近クラス
タ検出手段12で求められた至近クラスタCMinClass
属しているすべての学習パターンと検索パターンとを比
較して、距離が最も小さい学習パターンPMinClassを求
める。そして、求められた最小距離をメモリM7に格納
して、DMinPで表す。
【0079】図11に示すように、至近クラスタ検出手
段12と学習パターン検出手段13で求められた結果、
MinCとDMinPにより検索範囲は、点線円E3に含まれ
ている学習パターンと考えられる。
【0080】したがって、検索範囲決定手段14は、ま
ず、クラスタの検索範囲を求め、次にクラスタの検索範
囲にあるクラスタに属している学習パターンを検索する
必要があるかどうかを判定する。
【0081】続いて、検索する必要があるクラスタに属
している最終的な学習パターンの検索範囲を決める。そ
の後、検索手段15が検索パターンと最も類似な学習パ
ターンをこの学習パターンの検索範囲の中から検索す
る。クラスタの検索範囲は、次の式(4)を満たすクラ
スタの集合である。
【0082】
【数4】 D(CMinClass, Ci )<D(q, CMinClass)+DMinP+Ri …(4) ここで、Ri はクラスタCi の半径を表す。式(4)を
満たさないということは、図11に示す点線円E3の外
側にあることを意味している。
【0083】点線円E3の外側にあるクラスタ(図のC
k )は、このクラスタに属している学習パターンと検索
パターンqとの間の距離はDMinPより大きいことは明ら
かなので、検索する必要がない。
【0084】図11に示すクラスタCi とCh は式
(4)を満たす。式(4)を満たすクラスタがどのぐら
い検索パターンqと離れているか、そのクラスタに属し
ている学習パターンを検索する必要があるかどうか、つ
まり、そのクラスタが点線円E4と重なっているかどう
かを判定するために、検索パターンqと式(4)を満た
すクラスタCi 間の距離D(q, Ci )を計算する。
【0085】その距離が次の式(5)を満たすなら、そ
のクラスタが点線円E4と重なっているので、そのクラ
スタに属している学習パターンを検索する必要がある。
【0086】
【数5】 D(q, Ci )<DMinP+Ri …(5) 式(4)を満たして式(5)を満たさないということ
は、図11に示す点線円E3と重なっているが、点線円
E4と重なっていないことを意味している。
【0087】このようなクラスタ(図のCh )に属して
いる学習パターンと検索パターンqの間の距離はDMinP
より大きいので、検索する必要がない。したがって、図
11に示すクラスタCi は式(4)と式(5)を満たす
クラスタである。
【0088】また、求められた式(4)と式(5)を満
たすクラスタに属しているすべての学習パターンを検索
する必要がない。つまり、点線円E4に含まれる可能性
がある学習パターンだけ検索すればよい。
【0089】次の式(6)を満たす学習パターンpは点
線円E4に含まれる可能性があるため、検索する必要が
ある。
【0090】
【数6】 D(p, Ci )>D(q, Ci )−DMinP …(6) 図11に示すクラスタCi は式(4)と式(5)を満た
すクラスタであり、クラスタCi の斜線部分は式(6)
を満たす学習パターンを含む部分である。
【0091】このように、最終的に検索範囲を求めて、
検索手段15が、この検索範囲内で、検索を実行する。
次に至近クラスタ検出手段12の動作をフローチャート
を用いて説明する。図12は至近クラスタ検出手段12
の動作手順を示すフローチャートである。
【0092】至近クラスタ検出手段12は、検索辞書を
用いて、メモリM1に格納されている検索パターンqと
最も近いクラスタを求める部分である。 〔S1〕クラスタの比較順番i=1、検索パターンと最
も近いクラスタの番号MinClass=S(i)、検
索パターンと最も近いクラスタの間の距離DMinC=最大
値、クラスタの数nを設定する。ここで、S(i)は検
索辞書に格納されているクラスタの比較順番iのクラス
タ番号を表す。最大値はコンピュータ上にDMinC変数の
型が表現できる値の範囲の上限である。 〔S2〕クラスタCS(i)は式(3)を満たすかどうかを
判定する。すなわち、検索パターンをCS(i)と比較する
必要があるかどうかを判定する。式(3)を満たす場合
はステップS3へ、満たさない場合ステップS6へ行
く。 〔S3〕検索パターンqとクラスタCS(i)の間の距離を
計算する。 〔S4〕ステップS3で求めた距離を、現段階で求めら
れた最小距離と比較し、小さい場合はステップS5へ、
そうでなければステップS6へ行く。 〔S5〕検索パターンと最も近いクラスタの名前、検索
パターンと最も近いクラスタ間の距離を書き直す。 〔S6〕次に比較するクラスタを設定する。 〔S7〕クラスタが全部処理されたかどうかを判定す
る。全部処理されていない場合はステップS2へ戻り、
全部処理された場合は終了する。
【0093】次に学習パターン検出手段13の動作をフ
ローチャートを用いて説明する。図13は学習パターン
検出手段13の動作手順を示すフローチャートである。
学習パターン検出手段13は、検索パターンと最も近い
クラスタCMinClassに属している学習パターンの中に、
検索パターンqとの距離が最も小さい学習パターンを求
める部分である。 〔S11〕学習パターンの番号i=1、学習パターンと
検索パターンの間の距離DMinP=最大値を設定する。 〔S12〕検索パターンqとクラスタCMinClassに属し
ている学習パターンpiの間の距離D(q, pi )を計
算する。 〔S13〕ステップS12で求めた距離とDMinPとを比
較し、DMinPより小さい場合はステップS14へ、そう
でなければステップS15へ行く。 〔S14〕DMinPと学習パターンの名前を書き直す。 〔S15〕学習パターンの番号に1を増やす。 〔S16〕すべての学習パターンが処理されたかどうか
を判定する。すべて処理されていない場合はステップS
12へ戻る。全部処理された場合は終了する。
【0094】次に検索範囲決定手段14と検索手段15
の動作をフローチャートを用いて説明する。図14、図
15は検索範囲決定手段14と検索手段15の動作手順
を示すフローチャートである。
【0095】検索範囲決定手段14は検索範囲を決め、
検索手段15はその範囲内にある学習パターンと検索パ
ターンとを比較して、最も類似な学習パターンを検索す
る部分である。 〔S21〕クラスタの番号i=1、クラスタの数nを設
定する。 〔S22〕クラスタCi がCMinClassであるかどうかを
判定する。CMinClassであれば、ステップS33へ、そ
うでなければステップS23へ行く。 〔S23〕このクラスタが式(4)を満たすかどうかを
判定する。満たす場合はステップS24へ、満たさない
場合はステップS33へ行く。 〔S24〕検索パターンqとクラスタCi の間の距離D
(q, Ci )を計算する。 〔S25〕ステップS24の距離が式(5)を満たすか
どうかを判定する。満たす場合はステップS26へ、満
たさなければステップS33へ行く。 〔S26〕学習パターンの番号j=1、クラスタCi
属している学習パターンの数mを設定する。 〔S27〕学習パターンpj が式(6)を満たすかどう
かを判定する。つまり、pj を検索する必要があるかど
うかを判定する。式(6)を満たす場合はステップS2
8へ、満たさない場合はステップS31へ行く。 〔S28〕検索パターンqとpj の間の距離を計算す
る。 〔S29〕ステップS28で求めた距離が最小かどうか
を判定する。最小ならばステップS30へ、そうでなけ
ればステップS31へ行く。 〔S30〕DMinPと類似パターンの名前を書き直す。 〔S31〕学習パターンの番号を1増やす。 〔S32〕Ci に属しているすべての学習パターンが全
部処理されなかったら、ステップS27に戻る。全部処
理されたら、ステップS33へ行く。 〔S33〕クラスタの番号を増やす。 〔S34〕全部のクラスタが処理されたら終了、そうで
はなければステップS22へ戻る。
【0096】次に本発明の検索装置1を用いて、具体的
に文字パターンを検索した際の検索速度及び検索精度に
ついて説明する。文字パターンは、紙に印刷された文字
画像をスキャナでコンピュータに入力されたものであ
る。
【0097】また、2次ペリフェラル特徴量で文字パタ
ーンを表現し、文字パターン間のユークリッド距離で文
字パターン間の相違を表す。3355個の文字パターン
を最長距離法によって500クラスタまでクラスタリン
グし、クラスタの一部分を図16のように示す。図16
は文字パターンのクラスタの一部分を示す図である。
【0098】そして、各クラスタの代表、半径、クラス
タ間の距離を求め、検索辞書を作成する。この検索辞書
を用いて、総当り法と本発明の検索装置1で10065
個の未学習パターン(検索パターン)を検索した。
【0099】その結果は、総当たり法の場合が検索精度
が100%、検索速度が3355回、本発明の検索装置
1では検索精度が100%、検索速度が815.90回
であった。
【0100】このように、検索精度はいずれも100%
であるが、本発明での検索速度は総当り法の4.11倍
速くなった。なお、検索精度と検索速度の定義は次の式
(7)と式(8)で定義される。
【0101】
【数7】 検索精度={(検索結果=総当たり法の検索結果)の個数÷(総検索文字 パターン数)}×100% …(7)
【0102】
【数8】 検索速度=(パターンを検索する時の距離の計算回数の和)÷(総検索文 字パターン数) …(8) 以上説明したように、本発明によれば、検索パターンと
最も類似なパターンを高速、正確に検索できる。特に、
本発明の検索装置1の検索精度は、パターンの表現方
法、パターン間の距離の定義とその計算法、パターンの
分類方法に依存しない。
【0103】したがって、パターン認識分野における未
知パターンを完全に認識できない問題を部分的に解決す
ることや、大量の構造を持つデータの中から構造データ
を高速に検索する問題、または類似な構造を持つデータ
を高速に検索する問題等を解決することが可能になる。
【0104】次に本発明の検索方法について説明する。
図17は本発明の検索方法の処理手順を示すフローチャ
ートである。 〔S41〕学習パターンを複数のクラスタに分類するた
めの検索辞書を作成する。 〔S42〕検索辞書にもとづいて、クラスタの中から、
入力された検索パターンと至近のクラスタを検出する。 〔S43〕至近クラスタに属しているすべての学習パタ
ーンを検索パターンと比較して、検索パターンと最小距
離を持つ学習パターンを検出する。 〔S44〕学習パターン及び検索辞書を用いて、検索範
囲を決定する。 〔S45〕検索範囲に属しているすべての学習パターン
の中から検索パターンの検索を行う。
【0105】以上説明したように、本発明の検索方法
は、学習パターンを複数のクラスタに分類するための検
索辞書を作成し、検索辞書にもとづいて、入力された検
索パターンと至近の至近クラスタを検出し、検索パター
ンと至近クラスタ内で最小距離を持つ学習パターンを検
出し、検出した学習パターン及び検索辞書を用いて、検
索範囲を決定して検索を行う方法とした。
【0106】これにより、パターンの距離や表現方法及
び分類方法に依存せず、高速、高精度の検索を行うこと
が可能になる。また、以上説明したような検索装置1及
び検索方法の機能を実現するためのコンピュータプログ
ラムは、半導体メモリや磁気記録媒体などの記録媒体に
記述させることができる。
【0107】これにより、市場に流通させる場合に、C
D−ROMやフロッピーディスク等の可搬型記録媒体に
プログラムを格納して流通させたり、ネットワークを介
して接続されたコンピュータの記憶装置に格納してお
き、ネットワークを通じて他のコンピュータに転送する
こともできる。
【0108】なお、コンピュータで実行する際には、コ
ンピュータ内のハードディスク装置等にプログラムを格
納しておき、メインメモリにロードして実行する。
【0109】
【発明の効果】以上説明したように、本発明の検索装置
は、学習パターンを複数のクラスタに分類するための検
索辞書を作成し、検索辞書にもとづいて、入力された検
索パターンと最も近い至近クラスタを検出し、検索パタ
ーンと至近クラスタ内で所定の距離を持つ学習パターン
を検出し、検出した学習パターン及び検索辞書を用い
て、検索範囲を決定して検索を行う構成とした。これに
より、パターン間の距離や表現方法及び分類方法に依存
せず、高速、高精度の検索を行うことが可能になる。
【図面の簡単な説明】
【図1】 本発明の検索装置の原理を示す図である。
【図2】 至近クラスタ検出手段の動作を説明する図で
ある。
【図3】 至近クラスタ検出手段の動作を説明する図で
ある。
【図4】 至近クラスタ検出手段の動作を説明する図で
ある。
【図5】 学習パターン検出手段と検索範囲決定手段の
動作を説明する図である。
【図6】 検索装置の構成を示す図である。
【図7】 検索辞書内の検索辞書データを示す図であ
る。
【図8】 検索装置を情報端末装置に適用させた場合の
装置構成を示す図である。
【図9】 至近クラスタ検出手段の動作を説明する図で
ある。
【図10】 至近クラスタ検出手段の動作を説明する図
である。
【図11】 学習パターン検出手段と検索範囲決定手段
の動作を説明する図である。
【図12】 至近クラスタ検出手段の動作手順を示すフ
ローチャートである。
【図13】 学習パターン検出手段の動作手順を示すフ
ローチャートである。
【図14】 検索範囲決定手段と検索手段の動作手順を
示すフローチャートである。
【図15】 検索範囲決定手段と検索手段の動作手順を
示すフローチャートである。
【図16】 文字パターンのクラスタの一部分を示す図
である。
【図17】 本発明の検出方法の処理手順を示すフロー
チャートである。
【図18】 大分類検索法の精度上の問題点を示す図で
ある。(A)はクラスタが重なる場合を示す図である。
(B)はクラスタが重ならない場合を示す図である。
【符号の説明】
1 検索装置 11 検索辞書作成手段 12 至近クラスタ検出手段 13 学習パターン検出手段 14 検索範囲決定手段 15 検索手段 C 至近クラスタ p 学習パターン q 検索パターン
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年7月13日(1999.7.1
3)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0061
【補正方法】変更
【補正内容】
【0061】
【数1】 次に検索辞書格納手段11aで学習パターンを格納する
際の学習パターンの分類方法について説明する。検索辞
書格納手段11aは、図7で説明したような検索辞書を
格納する。 ─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成11年9月8日(1999.9.8)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】請求項1
【補正方法】変更
【補正内容】
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】請求項2
【補正方法】変更
【補正内容】
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】請求項18
【補正方法】変更
【補正内容】
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】請求項20
【補正方法】変更
【補正内容】
【手続補正5】
【補正対象書類名】明細書
【補正対象項目名】0019
【補正方法】変更
【補正内容】
【0019】
【課題を解決するための手段】本発明では上記課題を解
決するために、パターン検索を行う検索装置において、
学習パターンを複数のクラスタに分類して検索辞書を作
成する検索辞書作成手段と、前記検索辞書にもとづい
て、前記クラスタの中から、入力された検索パターンと
至近のクラスタを検出する至近クラスタ検出手段と、至
近クラスタに属しているすべての学習パターンを前記検
索パターンと比較して、前記検索パターンと所定の距離
を持つ学習パターンを検出する学習パターン検出手段
と、前記学習パターン検出手段で検出された前記学習パ
ターン及び前記検索辞書を用いて、検索範囲を決定する
検索範囲決定手段と、前記検索範囲に属しているすべて
の学習パターンの中から前記検索パターンの検索を行う
検索手段と、を有することを特徴とする検索装置が提供
される。
【手続補正6】
【補正対象書類名】明細書
【補正対象項目名】0020
【補正方法】変更
【補正内容】
【0020】ここで、検索辞書作成手段は、学習パター
ンを複数のクラスタに分類して検索辞書を作成する。至
近クラスタ検出手段は、検索辞書にもとづいて、クラス
タの中から、入力された検索パターンと至近のクラスタ
を検出する。学習パターン検出手段は、至近クラスタに
属しているすべての学習パターンを検索パターンと比較
して、検索パターンと所定の距離を持つ学習パターンを
検出する。検索範囲決定手段は、学習パターン検出手段
で検出された学習パターン及び検索情報を用いて、検索
範囲を決定する。検索手段は、検索範囲に属しているす
べての学習パターンの中から検索パターンの検索を行
う。
【手続補正7】
【補正対象書類名】明細書
【補正対象項目名】0022
【補正方法】変更
【補正内容】
【0022】検索辞書作成手段11は、構造上または性
質上パターン間の相違を表す尺度としての距離、または
パターンがどのぐらい似ているかを表す尺度としての類
似度等の情報にもとづき、学習パターンを複数のクラス
タに分類して検索辞書を作成する。検索辞書の詳細につ
いては後述する。
【手続補正8】
【補正対象書類名】明細書
【補正対象項目名】0071
【補正方法】変更
【補正内容】
【0071】具体的には、クラスタの比較範囲の初期値
を検索辞書にあるすべてのクラスタ設定する。検索辞
書に格納されているクラスタの比較順番で1つのクラス
タを選択して、選択されたクラスタがクラスタ比較範囲
に含まれているかどうかを判定する。
【手続補正9】
【補正対象書類名】明細書
【補正対象項目名】0104
【補正方法】変更
【補正内容】
【0104】次に本発明の検索方法について説明する。
図17は本発明の検索方法の処理手順を示すフローチャ
ートである。 〔S41〕学習パターンを複数のクラスタに分類して
索辞書を作成する。 〔S42〕検索辞書にもとづいて、クラスタの中から、
入力された検索パターンと至近のクラスタを検出する。 〔S43〕至近クラスタに属しているすべての学習パタ
ーンを検索パターンと比較して、検索パターンと最小距
離を持つ学習パターンを検出する。 〔S44〕学習パターン及び検索辞書を用いて、検索範
囲を決定する。 〔S45〕検索範囲に属しているすべての学習パターン
の中から検索パターンの検索を行う。
【手続補正10】
【補正対象書類名】明細書
【補正対象項目名】0105
【補正方法】変更
【補正内容】
【0105】以上説明したように、本発明の検索方法
は、学習パターンを複数のクラスタに分類して検索辞書
を作成し、検索辞書にもとづいて、入力された検索パタ
ーンと至近の至近クラスタを検出し、検索パターンと至
近クラスタ内で最小距離を持つ学習パターンを検出し、
検出した学習パターン及び検索辞書を用いて、検索範囲
を決定して検索を行う方法とした。
【手続補正11】
【補正対象書類名】明細書
【補正対象項目名】0109
【補正方法】変更
【補正内容】
【0109】
【発明の効果】以上説明したように、本発明の検索装置
は、学習パターンを複数のクラスタに分類して検索辞書
を作成し、検索辞書にもとづいて、入力された検索パタ
ーンと最も近い至近クラスタを検出し、検索パターンと
至近クラスタ内で所定の距離を持つ学習パターンを検出
し、検出した学習パターン及び検索辞書を用いて、検索
範囲を決定して検索を行う構成とした。これにより、パ
ターン間の距離や表現方法及び分類方法に依存せず、高
速、高精度の検索を行うことが可能になる。
【手続補正12】
【補正対象書類名】図面
【補正対象項目名】図13
【補正方法】変更
【補正内容】
【図13】

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 パターン検索を行う検索装置において、 学習パターンを複数のクラスタに分類するための検索辞
    書を作成する検索辞書作成手段と、 前記検索辞書にもとづいて、前記クラスタの中から、入
    力された検索パターンと至近のクラスタを検出する至近
    クラスタ検出手段と、 至近クラスタに属しているすべての学習パターンを前記
    検索パターンと比較して、前記検索パターンと所定の距
    離を持つ学習パターンを検出する学習パターン検出手段
    と、 前記学習パターン検出手段で検出された前記学習パター
    ン及び前記検索辞書を用いて、検索範囲を決定する検索
    範囲決定手段と、 前記検索範囲に属しているすべての学習パターンの中か
    ら前記検索パターンの検索を行う検索手段と、 を有することを特徴とする検索装置。
  2. 【請求項2】 前記検索辞書作成手段は、前記学習パタ
    ーン間の距離により、すべての前記学習パターンをいく
    つかのクラスタに分類し、前記クラスタの代表、前記ク
    ラスタの半径、前記クラスタ間同士の距離、前記学習パ
    ターンまたは前記検索パターンと前記クラスタ間の距離
    及び前記至近クラスタを検出するときの前記クラスタの
    比較順番を求めて、前記検索辞書を作成することを特徴
    とする請求項1記載の検索装置。
  3. 【請求項3】 前記検索辞書作成手段は、前記クラスタ
    の代表を求める際に、特徴量でパターンを表現する場合
    は、前記クラスタに属しているすべての前記学習パター
    ンの前記特徴量の各次元の平均値を求め、求められた前
    記平均値を前記クラスタの代表とすることを特徴とする
    請求項2記載の検索装置。
  4. 【請求項4】 前記検索辞書作成手段は、前記クラスタ
    の代表を求める際に、特徴量以外でパターンを表現する
    場合は、前記クラスタに属しているすべての前記学習パ
    ターンについて、各学習パターン間の距離を計算して、
    前記クラスタに属しているすべての前記学習パターンと
    の距離の和が最小になる学習パターンを前記クラスタの
    代表とすることを特徴とする請求項2記載の検索装置。
  5. 【請求項5】 前記検索辞書作成手段は、前記クラスタ
    の半径を求める際に、前記クラスタに属しているすべて
    の前記学習パターンと前記クラスタの代表間の距離を計
    算し、最大距離を前記クラスタの半径とすることを特徴
    とする請求項2記載の検索装置。
  6. 【請求項6】 前記検索辞書作成手段は、前記クラスタ
    間同士の距離を求める際に、前記クラスタの代表間の距
    離を前記クラスタ間同士の距離とすることを特徴とする
    請求項2記載の検索装置。
  7. 【請求項7】 前記検索辞書作成手段は、前記学習パタ
    ーンまたは前記検索パターンと前記クラスタ間の距離を
    求める際に、前記学習パターンまたは前記検索パターン
    と前記クラスタ代表間の距離を、前記学習パターンまた
    は前記検索パターンと前記クラスタ間の距離とすること
    を特徴とする請求項2記載の検索装置。
  8. 【請求項8】 前記検索辞書作成手段は、前記至近クラ
    スタを検出するときの前記クラスタの比較順番を求める
    際に、特徴量でパターンを表現する場合は、すべての前
    記クラスタの代表について、前記クラスタの代表の前記
    特徴量の各次元の平均値を求め、求められた前記平均値
    と近傍のクラスタを最初に比較するように、比較順番を
    求めることを特徴とする請求項2記載の検索装置。
  9. 【請求項9】 前記検索辞書作成手段は、前記至近クラ
    スタを検出するときの前記クラスタの比較順番を求める
    際に、特徴量以外でパターンを表現する場合は、すべて
    の前記クラスタ間の距離の和が最小になるクラスタを最
    初に比較するクラスタとし、最初に比較する前記クラス
    タと他のクラスタ間の距離を上昇順でソートして、ソー
    トされた順番を比較順番とすることを特徴とする請求項
    2記載の検索装置。
  10. 【請求項10】 前記検索辞書作成手段は、階層構造か
    らなり、すべての前記クラスタ間の距離、前記クラスタ
    の比較順番及び各クラスタの情報を上位の階層に持ち、
    前記クラスタの情報は、前記クラスタの代表の構造デー
    タ、前記クラスタの半径、前記クラスタに属している学
    習パターンの数及び前記クラスタに属している学習パタ
    ーン情報から構成されることを特徴とする請求項2記載
    の検索装置。
  11. 【請求項11】 前記検索辞書作成手段は、前記学習パ
    ターン情報として、前記学習パターンの名前、前記学習
    パターンの構造データ及び前記学習パターンと前記クラ
    スタの代表の間の距離から構成されることを特徴とする
    請求項10記載の検索装置。
  12. 【請求項12】 前記至近クラスタ検出手段は、前記検
    索辞書に格納されている前記クラスタの比較順番で前記
    クラスタを選択し、前記クラスタの代表と前記検索パタ
    ーンの間の距離を計算し、前記検索パターンと近傍のク
    ラスタを求めて、クラスタの比較範囲を縮小していくこ
    とを特徴とする請求項1記載の検索装置。
  13. 【請求項13】 前記至近クラスタ検出手段は、前記ク
    ラスタの比較範囲を求める際に、前記検索辞書に格納さ
    れているクラスタ比較順番iのクラスタ番号をS(i)、検
    出途中段階での前記検索パターンとの距離が最小である
    クラスタをC MinClass、前記検索辞書に格納されている
    MinClassとクラスタCS(i)間の距離をD
    (CMinClass, CS(i))、検出途中段階で求められた検
    索パターンとCMinC lass間の距離をDMinCとした場合
    に、 D(CMinClass, CS(i))<2*DMinC を満たす、すべてのクラスタを前記クラスタの比較範囲
    とすることを特徴とする請求項12記載の検索装置。
  14. 【請求項14】 前記検索範囲決定手段は、クラスタの
    検索範囲、前記クラスタの検索範囲にあるクラスタに属
    している学習パターンの検索をする必要があるかどうか
    の判定及び検索する必要があるクラスタに属している前
    記学習パターンの検索範囲、を求めることを特徴とする
    請求項1記載の検索装置。
  15. 【請求項15】 前記検索範囲決定手段は、前記クラス
    タの検索範囲を求める際に、クラスタCMinClassとクラ
    スタCi 間の距離をD(CMinClass, Ci )、検索パタ
    ーンqとCMinClass間の距離をD(q, CMinClass)、
    検索途中段階で求められた前記検索パターンと前記学習
    パターン間の最小距離をDMinP、前記検索辞書に格納さ
    れているクラスタCi の半径をRi とした場合に、 D(CMinClass, Ci )<D(q, CMinClass)+D
    MinP+Ri を満たす、すべてのクラスタを前記クラスタの検索範囲
    とすることを特徴とする請求項14記載の検索装置。
  16. 【請求項16】 前記検索範囲決定手段は、前記クラス
    タの検索範囲にあるクラスタに属している学習パターン
    を検索する必要があるかどうかを判定する際に、検索パ
    ターンqと前記クラスタの検索範囲にあるクラスタCi
    間の距離D(q, Ci )を計算した場合に、 D(q, Ci )<DMinP+Ri を満たす場合は、前記クラスタに属している学習パター
    ンを検索する必要があると判定することを特徴とする請
    求項14記載の検索装置。
  17. 【請求項17】 前記検索範囲決定手段は、前記学習パ
    ターンの検索範囲を求める際に、前記検索辞書に格納さ
    れているクラスタCi に属している学習パターンpとク
    ラスタCi の代表間の距離をD(p, Ci )とした場合
    に、 D(p, Ci )>D(q, Ci )−DMinP を満たす、すべての学習パターンを検索範囲とすること
    を特徴とする請求項14記載の検索装置。
  18. 【請求項18】 パターン検索を行う検索方法におい
    て、 学習パターンを複数のクラスタに分類するための検索辞
    書を作成し、 前記検索辞書にもとづいて、前記クラスタの中から、入
    力された検索パターンと至近のクラスタを検出し、 至近クラスタに属しているすべての学習パターンを前記
    検索パターンと比較して、前記検索パターンと所定の距
    離を持つ学習パターンを検出し、 前記学習パターン及び前記検索辞書を用いて、検索範囲
    を決定し、 前記検索範囲に属しているすべての学習パターンの中か
    ら前記検索パターンの検索を行うことを特徴とする検索
    方法。
  19. 【請求項19】 前記至近クラスタの検出の際には、前
    記検索辞書に格納されている前記クラスタの比較順番で
    前記クラスタを選択し、前記クラスタの代表と前記検索
    パターンの間の距離を計算し、前記検索パターンと近傍
    のクラスタを求めて、クラスタの比較範囲を縮小してい
    くことを特徴とする請求項18記載の検索方法。
  20. 【請求項20】 コンピュータにパターン検索を実行さ
    せる検索プログラムを記録したコンピュータ読み取り可
    能な記録媒体において、 学習パターンを複数のクラスタに分類するための検索辞
    書を作成する検索辞書作成手段、 前記検索辞書にもとづいて、前記クラスタの中から、入
    力された検索パターンと至近のクラスタを検出する至近
    クラスタ検出手段、 至近クラスタに属しているすべての学習パターンを前記
    検索パターンと比較して、前記検索パターンと所定の距
    離を持つ学習パターンを検出する学習パターン検出手
    段、 前記学習パターン検出手段で検出された前記学習パター
    ン及び前記検索辞書を用いて、検索範囲を決定する検索
    範囲決定手段、 前記検索範囲に属しているすべての学習パターンの中か
    ら前記検索パターンの検索を行う検索手段、 としてコンピュータを機能させることを特徴とする検索
    プログラムを記録したコンピュータ読み取り可能な記録
    媒体。
JP27291198A 1998-09-28 1998-09-28 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP3903610B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP27291198A JP3903610B2 (ja) 1998-09-28 1998-09-28 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US09/387,850 US6338062B1 (en) 1998-09-28 1999-09-01 Retrieval system, retrieval method and computer readable recording medium that records retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27291198A JP3903610B2 (ja) 1998-09-28 1998-09-28 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2000099632A true JP2000099632A (ja) 2000-04-07
JP3903610B2 JP3903610B2 (ja) 2007-04-11

Family

ID=17520482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27291198A Expired - Fee Related JP3903610B2 (ja) 1998-09-28 1998-09-28 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
US (1) US6338062B1 (ja)
JP (1) JP3903610B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507830B1 (en) * 1998-11-04 2003-01-14 Fuji Xerox Co., Ltd. Retrieval system, retrieval method and computer readable recording medium that records retrieval program
JP2012234446A (ja) * 2011-05-06 2012-11-29 Fujitsu Ltd 情報処理装置、情報処理システムおよび検索方法
KR101903522B1 (ko) * 2015-11-25 2018-11-23 한국전자통신연구원 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US20050171948A1 (en) * 2002-12-11 2005-08-04 Knight William C. System and method for identifying critical features in an ordered scale space within a multi-dimensional feature space
US7610313B2 (en) * 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
GB2418038A (en) * 2004-09-09 2006-03-15 Sony Uk Ltd Information handling by manipulating the space forming an information array
CN1755796A (zh) * 2004-09-30 2006-04-05 国际商业机器公司 文本到语音转换中基于统计技术的距离定义方法和系统
WO2006061843A2 (en) * 2004-12-08 2006-06-15 B-Obvious Ltd. Bidirectional data transfer optimization and content control for networks
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) * 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
JP5123870B2 (ja) * 2009-02-10 2013-01-23 キヤノン株式会社 画像処理方法および画像処理装置およびプログラム
US8572084B2 (en) * 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA2772082C (en) 2009-08-24 2019-01-15 William C. Knight Generating a reference set for use during document review
US9183261B2 (en) 2012-12-28 2015-11-10 Shutterstock, Inc. Lexicon based systems and methods for intelligent media search
US9183215B2 (en) 2012-12-29 2015-11-10 Shutterstock, Inc. Mosaic display systems and methods for intelligent media search
US9836551B2 (en) * 2013-01-08 2017-12-05 International Business Machines Corporation GUI for viewing and manipulating connected tag clouds
WO2017210618A1 (en) 2016-06-02 2017-12-07 Fti Consulting, Inc. Analyzing clusters of coded documents
US10169330B2 (en) * 2016-10-31 2019-01-01 Accenture Global Solutions Limited Anticipatory sample analysis for application management

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60159970A (ja) * 1984-01-30 1985-08-21 Hitachi Ltd 情報蓄積検索方式
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
JPH05120324A (ja) * 1991-10-30 1993-05-18 Sharp Corp 言語処理方式
JPH06251156A (ja) 1993-02-26 1994-09-09 Canon Inc パターン認識装置
JP3867863B2 (ja) 1993-07-13 2007-01-17 富士通株式会社 立体構造処理装置
JP3453422B2 (ja) * 1994-02-10 2003-10-06 キヤノン株式会社 文字パターンのユーザ辞書への登録方法及び該ユーザ辞書を有する文字認識装置
JP3974946B2 (ja) * 1994-04-08 2007-09-12 オリンパス株式会社 画像分類装置
JP3986098B2 (ja) * 1994-08-16 2007-10-03 富士通株式会社 文字列検索方法及び文字列検索装置
JP3469345B2 (ja) * 1995-03-16 2003-11-25 株式会社東芝 画像のファイリング装置及びファイリング方法
US5796926A (en) * 1995-06-06 1998-08-18 Price Waterhouse Llp Method and apparatus for learning information extraction patterns from examples
US6085190A (en) * 1996-11-15 2000-07-04 Digital Vision Laboratories Corporation Apparatus and method for retrieval of information from various structured information
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6507830B1 (en) * 1998-11-04 2003-01-14 Fuji Xerox Co., Ltd. Retrieval system, retrieval method and computer readable recording medium that records retrieval program
JP2012234446A (ja) * 2011-05-06 2012-11-29 Fujitsu Ltd 情報処理装置、情報処理システムおよび検索方法
KR101903522B1 (ko) * 2015-11-25 2018-11-23 한국전자통신연구원 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치

Also Published As

Publication number Publication date
JP3903610B2 (ja) 2007-04-11
US6338062B1 (en) 2002-01-08

Similar Documents

Publication Publication Date Title
JP2000099632A (ja) 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3088171B2 (ja) 自己組織型パタ−ン分類システム及び分類方法
Fischer et al. Bagging for path-based clustering
CN110188223B (zh) 图像处理方法、装置及计算机设备
US9910829B2 (en) Automatic document separation
Calvo-Zaragoza et al. Improving kNN multi-label classification in Prototype Selection scenarios using class proposals
JP5565190B2 (ja) 学習モデル作成プログラム、画像識別情報付与プログラム、学習モデル作成装置及び画像識別情報付与装置
US20110249899A1 (en) Recognition device, recognition method, and program
JP2005505866A (ja) 文字認識
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
JP3903613B2 (ja) 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Inkeaw et al. Recognition-based character segmentation for multi-level writing style
Luqman et al. Subgraph spotting through explicit graph embedding: An application to content spotting in graphic document images
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JPH1131226A (ja) 情報処理方法及び装置
JP3537949B2 (ja) パターン認識装置及び同装置における辞書修正方法
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN115203408A (zh) 一种多模态试验数据智能标注方法
JPH05314320A (ja) 認識距離の差と候補順を利用した認識結果の評価方式
JP2000090117A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JP7228542B2 (ja) 学習プログラム、学習装置および学習方法
CN111191689B (zh) 样本数据的处理方法和装置
JP4086376B2 (ja) データ処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
JP2001118073A (ja) パターン認識装置及び認識方法
JP3998290B2 (ja) 文字認識装置及び文字認識方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140119

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees