JP2007079616A - 情報検索装置、情報検索装置の制御方法、及び制御プログラム - Google Patents

情報検索装置、情報検索装置の制御方法、及び制御プログラム Download PDF

Info

Publication number
JP2007079616A
JP2007079616A JP2005262653A JP2005262653A JP2007079616A JP 2007079616 A JP2007079616 A JP 2007079616A JP 2005262653 A JP2005262653 A JP 2005262653A JP 2005262653 A JP2005262653 A JP 2005262653A JP 2007079616 A JP2007079616 A JP 2007079616A
Authority
JP
Japan
Prior art keywords
search
image
information
text
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005262653A
Other languages
English (en)
Inventor
Tomonori Kudou
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005262653A priority Critical patent/JP2007079616A/ja
Publication of JP2007079616A publication Critical patent/JP2007079616A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 入力された画像にテキストブロックや画像ブロックがある場合に効率良く検索を行う装置、方法、プログラムを提供する。
【解決手段】 入力された画像のテキストブロック数や画像ブロック数によりレイアウト検索、画像検索、テキスト検索の順序を決め、検索対象を順次絞り込むことによって、検索の高速化を図る。
【選択図】 図4

Description

複数の情報から所定の情報を検索する情報検索装置等に関し、特に、複数の検索モードが存在する情報検索装置等に関する。
近年、大量の文書データを扱う機会が増加し、また写真や図などの画像を含む文書も増加している。所望の文書データを検索する手段も多種多様になってきている。単純なキーワード検索(キーワードを指示し、それが出現するか否かで検索を行う)だけでは、ユーザの要求を十分に満たさなくなってきているためである。
そこで、文書データを検索する手段して、キーワード間の関係や構文情報の類似度を用いたもの、文書の内容を特徴付ける文書ベクトルを用いたものなどが新たに実現されている。さらには、内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量を値とすることでベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求めるものも考案されている。またこのように複数の検索エンジンを切り替えて検索したり、複数のエンジンの検索結果から総合的に検索したりするものも考案されている。
また、第1の検索エンジンの検索結果から第2の検索エンジンの検索対象範囲を絞り込み検索時間を短縮していた。
従来、イメージデータからテキストデータとイメージ特徴情報とを取得し、検索手順を切り替える手法がある(例えば、[特許文献1]参照)。
特開2004−334334号公報
しかしながら、上記従来の情報検索装置では、次のような問題点があった。
このように複数の検索エンジンを組み込んだシステムでは、それぞれ検索のエンジンで検索し、検索結果から総合的に検索した場合、検索時間が増大する。
また、検索対象範囲の絞り込みも、状況によって第1の検索エンジンを先に実行したほうが早く絞り込める場合と第2の検索エンジンを先に実行したほうが早く絞り込める場合があるため、最適な検索パフォーマンスを発揮できなかった。
本発明は上記従来の問題点に鑑み、状況により検索する検索方法の順序を動的に決定することにより、高速で高精度の検索結果を得ることができる情報検索装置等を提供することを目的とする。
上記課題を解決するため、本願の情報検索装置は以下の構成を備える。即ち、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、文書画像入力手段と、文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析手段と、クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定手段と、前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索手段と、前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索手段と、前記検索結果から検索対象範囲を絞り込む手段と、前記検索結果を出力する検索結果出力手段。
上記課題を解決するため、本願の情報検索装置の制御方法は以下の構成を備える。即ち、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、文書画像入力行程と、文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析行程と、クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定行程と、前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索行程と、前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索行程と、前記検索結果から検索対象範囲を絞り込む行程と、前記検索結果を出力する検索結果出力行程。
上記課題を解決するため、本願のプログラムは以下の構成を備える。即ち、情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムであって、文書画像入力ステップと、文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析ステップと、クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定ステップと、前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索ステップと、前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索ステップと、前記検索結果から検索対象範囲を絞り込むステップと、前記検索結果を出力する検索結果出力ステップ。
以上詳述したように本発明によれば、情報検索において、複数の検索方法の実行順序を最適化することで高精度でかつ高速に検索できる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効果的に検索することが可能になる。
<実施形態1>
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の実施形態1に係る情報検索装置の構成を示すブロック図である。
この情報検索装置は、以下のように構成される。プログラムに従って処理を実行する中央処理装置1。検索対象となる文書やアノテーション付き画像等のほか、プログラムや辞書の納まっているデータベース等の記憶装置2。処理を操作するキーボードやマウス等の入力装置3。検索結果を表示する表示装置4。FD(フロッピー(登録商標)ディスク)、CD−ROM、ROM等のメディア及び磁気テープ等の記録媒体に記憶されたプログラムやデータ等を記憶装置2に読み取る記憶媒体読取装置5。画像をスキャンし、画像を取得するスキャナー等の画像読取装置6。
[検索動作の概要説明]
次に、本実施形態の検索動作の概要を説明する。
図4は、検索処理を示すフローチャートである。文書画像を取得する画像取得処理(ステップS401)と、文書画像を解析する文書画像解析処理(ステップS402)とで取得した画像を解析する。検索順序決定処理(ステップS403)と、検索方法判定処理(ステップS404)とで、検索処理の順序を決定し取得画像に対して用いる検索方法を判定する。検索1処理(ステップS405)と、検索2処理(ステップS406)と、検索対象絞り込み処理(ステップS407)とで、検索対象を絞り込みつつ効率良く検索を行う。検索結果を出力する検索結果出力処理(ステップS408)では、検索結果を出力する。検索処理は2段階だけでなく、1段階で終わることも3段階以上になることもある。閾値以下に絞り込まれれば1段階で終わることも可能である。
ここで、画像取得処理(ステップS401)は、画像読取装置6で文書画像をスキャンし、文書画像を取得する処理である。文書画像解析処理(ステップS402)は、ステップS401で得られた文書画像から写真画像ブロックとテキストブロックと等を分割して解析する処理である。検索順序決定処理(ステップS403)は、ステップS402で得られた画像ブロックとテキストブロックとの個数や面積などや蓄積された情報によって検索方法の順序を決定する処理である。検索方法判定処理(ステップS404)は、ステップS403で決定された検索順序を判定する処理である。検索1処理(ステップS405)は、ステップS402で得られた解析結果をクエリーとして検索を行う第1の検索処理である。検索2処理(ステップS406)は、ステップS402で得られた解析結果をクエリーとして検索を行う第2の検索処理である。検索結果絞り込み処理(ステップS407)は、ステップS405やステップS406で検索された検索結果から検索対象を限定する処理である。検索結果出力処理(ステップS405)は、最後に実行されたステップS405やステップS406で得られた検索結果から図12に示すように検索結果リストを一致度の高い順に表示装置4に一覧表示する。または、記憶装置2に格納する処理である。
図5は、図1の記憶装置2に登録されている検索対象のインデキシング処理を示すフローチャートである。
このインデキシング処理は画像取得処理(ステップS501)と、文書画像解析処理(ステップS502)と、検索1、2エンジンのインデキシング処理(ステップS503、ステップS504)とで構成されている。
ここで、文書画像取得処理(ステップS501)は、文書画像を図1の記憶装置2に登録するときに、画像読取装置6で文書画像をスキャンし文書画像を取得する処理である。文書画像解析処理(ステップS502)は、ステップS501で得られた文書画像から写真画像ブロックやテキストブロック等を分割して解析する処理である。検索1エンジンのインデキシング処理(ステップS503)は、検索1エンジンに対してステップS502で取得したデータから作成したインデックスを記憶装置2に格納する処理である。検索2エンジンのインデキシング処理(ステップS504)は、検索2エンジンに対してステップS502で取得したデータから作成したインデックスを記憶装置2に格納する処理である。
図11は、図4のステップS404の検索方法の1例として概念検索を詳細化したフローチャートである。
この概念検索は、クエリー言語解析結果取得処理(ステップS111)と、クエリーベクトル生成処理(ステップS112)と、類似度算出処理(ステップS113)とから構成される。
ここで、クエリー言語解析結果取得処理(ステップS111)は、クエリー言語解析結果を取得する処理である。クエリーベクトル生成処理(ステップS112)は、ステップS111で取得した解析結果からクエリーベクトルの生成する処理である。類似度算出処理(ステップS113)は、ステップS112で得られたクエリーベクトルと登録時に記憶装置2に格納された文書毎の文書ベクトルと比較して類似度を算出し検索結果としてリストアップする処理である。
図10は、図5のステップS505の例として概念検索のインデキシング登録処理を詳細化したフローチャートである。
この概念検索のインデキシング登録処理は、言語解析結果取得処理(ステップS101)と、文書ベクトル生成処理(ステップS102)と、インデックス登録処理(ステップS103)とで構成されている。
ここで、言語解析結果取得処理(ステップS101)は、登録文書の言語解析結果を取得する処理である。文書ベクトル生成処理(ステップS102)は、ステップS101で抽出された単語から辞書を検索し、単語毎の次元別の特徴量を得て、その総和から文書ベクトルを生成する処理である。インデックス登録処理(ステップS103)は、ステップS102で得られた文書ベクトルを登録文書の内容または文書識別子とともに記憶装置2に登録する処理である。
[検索動作の具体的な説明]
次に、上述した各フローチャートで説明した処理で実現される本実施形態の検索動作について、表示例を参照しつつ具体的に説明する。
I.検索
検索の詳細について、図8のデータ例と図4のフローチャートを参照して説明する。
文書画像取得処理(ステップS401)では、画像読取装置6で図8(a)や図8(b)のような文書画像を取得する。次に文書画像解析処理(ステップS402)では、ステップS401で取得した文書画像のブロックを認識しOCRかける。それによりテキストブロックや写真のブロック、イラストのブロック等を取得する。次に、検索順序決定処理(ステップS403)は、ステップS402で得られた解析結果や蓄積された情報から検索順序決定を行う。
例えば、画像ブロックの面積の和とテキストブロックの面積の和を比較し、大きいほうから実行する。図8(a)の場合、画像面積の方が大きいため、検索2(画像検索)、検索1(テキスト検索)の順に実行する。次に検索方法判定処理(ステップS404)は、ステップS403で決定した順序から次にどの検索を実行するかを判定する。図8(a)の場合、はじめに、ステップS406の検索2(画像検索)、次にステップS405の検索1(テキスト検索)、次に検索終了を判定する。次に検索2処理(ステップS406:画像検索)では、ステップS402で得られた画像ブロックを検索要求として記憶装置2に格納されている複数の文書を対象に類似している文書を検索する。次に検索対象絞り込み処理(ステップS407)では検索結果を次の検索対象に設定する。次に検索方法判定処理でステップS405に進む。次に検索1処理(ステップS405:テキスト検索)では、ステップS402で得られたブロックを検索要求として、ステップS407で絞り込まれた検索範囲に対して記憶装置2に格納されている文書を対象に類似文書を検索する。次に検索結果表示処理(ステップS408)は、最後の検索結果(この場合ステップS405のテキスト検索)で得られた検索結果から図12に示すように検索結果リストを一致度の高い順に表示装置4に一覧表示する。または、記憶装置2に格納する処理である。
図8(b)が入力された場合は、テキストブロックの面積が画像ブロックの面積より大きいため、テキスト検索、画像検索の順に検索する。
検索では検索対象の数が小さければ、検索速度が速くなる。つまりなるべく早い段階で検索対象が絞り込まれれば、全体としての検索速度が向上する。従って検索順序最適化では、検索結果数が小さいと見込まれる検索を早い段階で実行することが重要となる。そのため、検索順序を決定するためには解析結果から得られる画像ブロックとテキストブロックの個数、面積などから検索結果を予想し、検索方法の特性など考慮し最適化しなければならない。
II.概念検索
次に、概念検索の詳細について、図11のフローチャートを参照して説明する。
まず、クエリー言語処理結果取得処理(ステップS111)で、クエリーに含まれる単語を取得する。次のクエリーベクトル生成処理(ステップS112)では、文書ベクトル生成と同様に基本ベクトル辞書によりクエリーのベクトルを生成する。そして、類似度算出処理(ステップS113)では、クエリーの特徴ベクトルとそれぞれの文書ベクトルの類似度を実際に算出する。
III.概念検索登録処理
次に、概念検索登録処理の詳細について、図13及び図14のデータ例と図10のフローチャートを参照して説明する。
文書は図1の記憶装置2に登録される段階で、まず言語解析結果取得処理(図10のステップS101)を実行し、登録文書に含まれる単語を取得する。次に文書ベクトル生成処理(ステップS102)で、文書内に出現する単語から基本ベクトル辞書を用いて文書ベクトルが算出される。
図13は、基本ベクトル辞書の構成を示した図である。同図に示すように、基本ベクトル辞書は、単語毎にベクトル表現時のそれぞれの次元(Dim.)に応対した特徴量が格納されている。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。「単語1」の「Dim.01」の特徴量は0であり、「Dim.02」の特徴量は23であることが分かる。
このように辞書から1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれぐらい特徴付ける可能性があるかを示す値と解釈することが可能である。文書を構成するすべての単語から得られた分類基準別(次元別)の特徴量から、文書全体の特徴量が分類基準を次元とするベクトルで表現される。得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
その後のインデックス登録処理(ステップS103)では、文書ベクトルを図14に示すようなインデックスに格納する。「文書ID=6947」の文書ベクトルの「Dim.01」の特徴量は、0.183であり、「Dim.02」の特徴量は、0.214であることが分かる。
IV.画像検索
以下の例では色に着目した画像特徴量として、赤(R)、緑(G)、青(B)の三色を採用し、3次元の色空間での処理を用いて説明する。
先ず画像登録の際に行う処理を説明する。図15は本実施形態による画像登録処理の手順を表すフローチャートである。まず、ステップS2101において、ユーザーインターフェースを介しての指示により、画像を読み込み、画像メモリに保持する。次に、ステップS2102において、この画像を複数のブロックに分割する。本実施形態では、画像を縦横の複数ブロックに分割する。図16は本実施形態による画像のブロック分割例を示す図である。同図に示されるように、本実施形態では、3×3の計9個に画像を分割するものとする。次にステップS2103において、分割された各ブロックの特徴量を算出し、得られた特徴量を次の手順でラベル化する。
図17は本実施形態による多次元特徴量空間を説明する図である。図17に示すように、多次元特徴量空間(RGBカラー空間)を複数のブロック(色ブロック)、即ちセル(色セル)に分割し、夫々のセル(色セル)に対して通し番号でユニークなラベルを付与する。ここで、多次元特徴用空間(RGBカラー空間)を複数のブロックに分けたのは微妙な特徴量(色)の違いを吸収するためである。
なお、多次元特徴量空間に関しては、画像特徴量をそのまま用いるものではなく各パラメータを平均と分散を実験によって求め規格化(正規化)した後、例えば、主成分分析等の直交変換を行い、意味のある次元にしたものを用いることが考えられる。なお、「意味のある次元」とは、主成分分析において、寄与率が大きな主成分軸で構成される次元である。
ステップS2103は、ステップS2102で得られた各分割ブロックに対して、定められた画像特徴量計算処理を行い、上記多次元特徴量空間上のどのセルに属するかを求め、対応するラベルを求める。この処理を全てのブロックに対して行う。すなわち、分割画像ブロックに対して、全ての画素がどの色セルに属するかの計算処理を行い、もっとも頻度の多い色セルのラベルをその分割画像ブロックのパラメータラベル(カラーラベル)として決定し、この処理を全てのブロックに対して行う。
以上のようにして各ブロックに対してパラメータラベルが付与されると、ステップS2104において、各ブロックに付与されたパラメータラベルを所定のブロック順序で並べることにより、パラメータラベル列(以下、ラベル列とする)が生成される。図18はラベル列を生成する際のブロック順序例を説明する図である。同図の分割画像ブロックの升にある数字に従って上記のパラメータラベルを並べ、ラベル列を作る。
ここで、図18の(a)では、分割ブロックを右上から左下方向への斜め方向へスキャンしている。これは、比較する画像のアングルの微妙な違い、ずれの影響を少なくするために類似検索対象物体に沿ってなるべく多く連続したラベル列を高い期待値で得るためである。この結果、後で述べるパターンマッチング部の作用とあいまって、上下左右のどちらのずれに対しても影響の少ないラベル列同士の比較が可能となる。
なお、本実施形態に適用可能なスキャンの方法としては、
・水平方向(左から右へのスキャンを上から下へ行う、左から右へのスキャンを下から上へ行う等、4通りのスキャン方法が考えられる)、
・垂直方向(上から下へのスキャンを左から右へ行う等、4通りのスキャン方法が考えられる)、
・斜め方向(四隅の各始点について2方向の斜めスキャンがあり、図18の(a)〜(c)を含む8通りのスキャン方法がある)、
・ジグザグスキャン(JPEG等において採用されているスキャン方法であり、四隅の各始点について2通りのジグザグスキャンがあり、合計8通りのスキャンがある)、等があげられる。本実施形態では以下の観点から採用すべきスキャン方法を決定する。すなわち、
(1)本実施形態ではラベル列同士の時系列的な比較であり、この順序に逆転が生じることは好ましくない。よって、すべての画像を所定のスキャン方法でスキャンしてラベル列化を行う必要がある。
(2)位置の近いブロックはラベル列中においても近くに位置することが望ましい。
(3)検索したい物体に引っ掛かるブロックのラベルが出来る限り早く現れ、且つ長く続くことがマッチングを行いやすくする。
(4)物体が動いたり、アングルが変わったりしても、ラベルの並びが極端に変わらないようにする。
という条件を満足するスキャン方法を採用する。特に、着目物体の多くが画像中央であることを仮定すると、着目物体を含むブロックが出来るだけスキャンの早いうちに現れ、長く物体をスキャンする期待値が高い方法として、本実施形態では斜め方向のスキャンを採用している。なお、本実施形態では、図18の(a)のような右上から左下方向への斜めスキャンを採用するが、当然、図18の(b)のような例や図18の(c)の様なスキャン方法を採用してもよい。
続いてステップS2105において、以上のようにして得たラベル列や画像データを画像蓄積部、画像管理DB、ラベル列インデックスに格納する。すなわち、ステップS2101で読み込んだ画像データに対して画像IDを取得し、これらをペアにして画像蓄積部に格納する。そして、当該画像IDに対応付けて図19に示す画像管理DBレコードを生成し、これを画像管理DBに登録する。更に、ステップS2106において、ラベル列を検索キーとし、画像ID群を可変長レコードに納めるレコード(図20のラベル系列インデックス)を作成し、ラベル列インデックスに登録する。ここで、当該ラベル列が未登録であれば、新たなレコードを生成してラベル列IDを付与し、当該ラベル列及び画像IDを登録する。一方、当該ラベル列が既に登録されていれば、画像ID群に当該画像IDを追加登録することになる。このようなラベル系列インデックスを用いることにより、ラベル列が与えられた場合にそれに対応する画像IDが高速に得られることになる。以上が画像登録時に行われる処理である。
[類似画像検索処理]
次に図21のフローチャートに従って類似画像検索の処理を説明する。図21は類似画像検索の処理手順を説明するフローチャートである。なお、本実施形態では、予め初期化時において、ラベル系列インデックスから、既に登録されている画像のラベル列群を得て、各ラベル成分をキーとするラベル成分インデックスファイルを生成し、ラベル列インデックスに格納しておく。なお、ここでいう初期化時とは、システムの立ち上げ時或いはアプリケーションの起動時のいずれでも良い。また、新規の画像登録があり、これを画像DBに登録した場合にも、このラベル成分インデックスの生成を行う。図22は、ラベル成分インデックスのデータ構成例を示す図である。図22に示すように、ラベル成分インデックスには、各ラベル成分毎に、そのラベルを内部に持つラベル列へのアドレス群(列ID群)を有する。なお、このラベル成分インデックスファイルは画像の登録及び削除、変更を反映する必要が生じるまで、作成し直す必要はない。
まず、ステップS2701において、ユーザーインターフェースから類似検索元画像が指定される。すると、ステップS2702において、指定された類似検索元画像の画像IDが取得され、更に画像管理DBから当該元画像のラベル列(本例ではカラーラベル列)が取得される。
次にステップS2703において、ラベル成分インデックスファイルを参照し、類似検索元画像のラベル列とある程度以上同一のラベルを含むラベル列群(ラベル系列インデックス中のラベル列)を取得する。これは登録した画像の全てのラベル列との比較を行うと処理が遅くなるので、予め似ているものに絞った後に、類似検索元画像のラベル列と一対一で比較するようにし、処理速度を改善するためである。予め似ているものには、類似検索元画像のラベル列と所定数以上の同一のラベルを含むラベル列群が例としてあげられる。もちろん、処理が遅くなっても良ければ、登録した画像の全てのラベル列との比較を行い、精度の高い検索を行ってもよい(この場合、ステップS2703は省略される)。
次に、ステップS2704において、ステップS2703で取得した各ラベル列と類似検索元画像のラベル列とを比較し、その類似度を算出する。そして、類似検索元画像のラベル列に最も近いラベル列から順にその類似度とともに検索結果として出力する。
ここで、ラベル列同士の類似比較(類似度の算出)を行う方法について述べる。
図23はラベル列を比較し類似度を求める際に用いるラベル間のペナルティマトリックスの一例を示す図である。マトリクス中の値が小さい程類似していることになる。例えば、ラベル2とラベル6のペナルティは「7」である。また、同じラベル同士のペナルティは当然のことながら「0」となっている。本マトリクスの使用目的はラベルの類似に応じた距離判定を行うことにある。すなわち、本実施形態では、特徴量空間としてRGBカラー空間を用いているので、色の類似に応じた距離判定が行えることになる。
例えば、ラベル間のパターンマッチングの際に隣接するセル同士ではペナルティ(距離)を小さくし、遠いものには大きなペナルティを与えるために図23に示すようなラベル間でのペナルティマトリックスを導入する。ステップS2704ではこのペナルティマトリックスを考慮し、ラベル列同士を比較するが、その際に、オートマトン等のラベルシーケンスを曖昧に比較できるマッチングを行うようにしてもよい。このような曖昧化の手法を用いることにより、余分なラベルの付加、ラベルの欠落や同じラベルの繰り返しに対しては低いペナルティが与えられる。さらに、ラベル間のペナルティには図23のカラーラベル間のペナルティマトリックスを用いてラベル列同士の距離計算を行うことで、曖昧なパターンマッチングが行えるようになる。オートマトンでは、各シンボル間の距離(ペナルティー)が多値で表される。なお、比較するラベル位置を前後曖昧に移動することが出来、トータルの距離が最小(類似度が最大)となるようなラベル列の比較を実現するための手法として、上述のオートマトンの他に、DPマッチングがある。音声認識などに用いられる手法である。この手法も実施形態に好適に適用できるものである。
更に、上述の曖昧なパターンマッチングに加えて、図18の(a)〜(c)のブロック順序の規則を併用する。比較する画像のアングルの微妙な違いやずれの影響を少なく、上下左右のどちらのずれに対しても影響の少ないカラーラベル列同士の比較を行うことが可能となる。すなわち、DPマッチングやファジー非決定性オートマトンは、ラベル列の前後の曖昧さを許容するマッチングであり、画像の位置ずれの影響を吸収する性質を有する。また、アングルの違い等により物体の位置が変わり、ブロックによって切りとられる物体の位置が変わることにより、ブロックの色合いも微妙に異なることが予想されるが、この違いは上述のペナルティーマトリクスにより吸収されることになる。このように、DPマッチング或いはファジーオートマトンによる曖昧さを許容するマッチングと、ペナルティーマトリクスによる特徴量の曖昧さの許容との相乗効果によって、上下左右のずれに対して影響の少ないマッチングを可能としている。更に、図18(a)〜(c)のような斜めスキャンにより、物体の位置の変化によるラベル位置の変化が低減されるので、より効果的にマッチング時の物体のずれの影響を低減できる。
次に、ステップS2705において、ラベル系列インデックから類似度の高いラベル列をキーとして検索を行い、対応する画像IDを取得する。以下、類似度の高い順に出力された各ラベル列に対してこの処理を繰り返し、結果として類似する画像の画像ID群を得る。そして、ステップS2706において、画像管理DBを参照して、画像ID群の各画像IDについてフルパスのファイル名を取得し、これをユーザに提示する。
以上のような処理により、画像のアングルが変ったり、物体の位置が変ったり、あるいは撮影条件が変わったりすることによって生じる、色のある程度の違い等を吸収するなど、ロバストな類似画像検索を高速に行うことが可能となる。
なお、上記実施形態においては、自然画像検索を行う例を説明したが、本発明はCGやCAD等の人工的な画像の検索にも適応可能な技術であることは当業者には明らかである。
また、上記実施形態では画像特徴量として色情報を選んだが、本発明はこれに限られるものではなく、その他の画像パラメータを画像分割ブロックごとに求めることで実施することも可能である。
また、本実施形態では1つの特徴量での認識の例を挙げたが、その他の特徴量での検索結果との論理演算を行うことにより、複数の特徴量からの高速な検索を行うことも可能である。
また、ブロック化できない1つの画像に対して1つのパラメータを加味した類似検索の場合には、本発明で得られる類似度(ペナルティの総和を用いて作る)を1つの新たなる特徴量として、統計的な距離尺度に基づく検索を行うことも可能である。また、上記実施形態では、類似度が所定値を越える類似画像を検索結果として得るが、類似度の高い画像から順に前もって指定された個数の画像を検索結果として出力するようにしてもよいことはいうまでもない。
このように本実施形態によれば、情報検索において、複数の検索方法の実行順序を最適化することで先の検索方法の実行により検索結果数を絞り込み、後の検索方法の実行では絞り込まれた少ない検索対象を高精度でかつ高速に検索できる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効果的に検索することが可能になる。
<実施形態2>
図1は、本発明の実施形態2に係る情報検索装置の構成を示すブロック図である。本発明の実施形態1と同じである。
<検索動作の概要説明>
次に、本実施形態の検索動作の概要を説明する。
<検索動作の具体的な説明>
次に、上述した各フローチャートで説明した処理で実現される本実施形態の検索動作について、表示例を参照しつつ具体的に説明する。検索について、図9のデータ例と図6のフローチャートを参照して説明する。
文書画像取得処理(ステップS601)で画像読取装置6で図9(a)や(b)のような文書画像を取得する。次に文書画像解析処理(ステップS602)では、ステップS601で取得した文書画像のブロックを認識しOCRにかける。それによりテキストブロックや写真のブロック、イラストのブロック等を取得する。次に、検索順序最適化処理(ステップS603)は、ステップS602で得られた解析結果や蓄積された情報から最適な検索方法の選択や順序を決定し、最適化を行う。
例えば、画像ブロックの面積の和とテキストブロックの面積の和を比較し、大きいほうから実行する。図9(a)の場合、まず検索速度の速い検索N(レイアウト検索)、画像面積の方が大きいまた蓄積されている情報が画像のほうが少ないため、検索2(画像検索)、次に検索1(テキスト検索)の順に実行する。蓄積されている情報が比較的少ないため、さらに詳細な検索は行わない。次に検索方法判定処理(ステップS604)は、ステップS603で決定した順序から次にどの検索を実行するかを判定する。図9(a)の場合、はじめに、ステップS609の検索N(レイアウト検索)、次にステップS606の検索2(画像検索)、次にステップS605の検索1(テキスト検索)、次に検索終了を判定する。次に検索N処理(ステップS609:レイアウト検索)では、ステップS602で得られたレイアウト情報を検索要求として記憶装置2に格納されている複数の文書を対象に類似しているレイアウトの文書を検索する。次に検索順序補正(ステップS610)では、検索結果から検索方法の選択、順序決定が正しいか検証、補正をする。次に検索対象絞り込み処理(ステップS607)では検索結果を次の検索対象に設定する。次に検索方法判定処理でステップS606に進む。次に検索2処理(ステップS606:画像検索)では、ステップS602で得られた画像ブロックを検索要求として記憶装置2に格納されている複数の文書を対象に類似している文書を検索する。次に検索順序補正(ステップS610)では、検索結果から検索方法の選択、順序決定が正しいか検証、補正をする。次に検索対象絞り込み処理(ステップS607)では検索結果を次の検索対象に設定する。次に検索方法判定処理でステップS605に進む。次に検索1処理(ステップS605:テキスト検索)では、ステップS602で得られたブロックを検索要求として、ステップS607で絞り込まれた検索範囲に対して記憶装置2に格納されている文書を対象に類似文書を検索する。次に検索順序補正(ステップS610)では、検索結果から検索方法の選択、順序決定が正しいか検証、補正をする。次に検索結果表示処理(ステップS608)は、最後の検索結果(この場合ステップS406のテキスト検索)で得られた検索結果から図12に示すように検索結果リストを一致度の高い順に表示装置4に一覧表示する。または、記憶装置2に格納する処理である。
図9(b)が入力された場合は、検索N処理(ステップS609:レイアウト検索)、検索1処理(ステップS605:テキスト検索)、検索2処理(ステップS606:画像検索)、蓄積されている情報がかなり多くなっているため、さらにテキスト詳細検索、画像詳細検索の順に検索する。
検索では検索対象の数が小さければ、検索速度が速くなる。つまりなるべく早い段階で検索対象が絞り込まれれば、全体としての検索速度が向上する。したがって検索順序最適化では、絞込みが有効と見込まれる検索を早い段階で実行することが重要となる。そのため、蓄積されている情報の傾向や解析結果から得られるレイアウト情報や画像ブロックとテキストブロックの個数、面積などから検索結果を予想し、検索方法の特性など考慮し検索順序を最適化しなければならない。
また、本発明は、上述した実施形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給する。そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれる。その後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部または全部を行う。その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
本発明の第1実施形態に係る情報検索装置の構成を示すブロック図である。 本発明の第1実施形態に係る情報検索装置の適用構成を示すブロック図である。 本発明の第1実施形態に係る情報検索装置のインターネットでの適用を示すブロック図である。 第1実施形態に係る情報検索手順を示すフローチャートである。 第1実施形態に係るインデキシング手順を示すフローチャートである。 第2実施形態に係る情報検索手順を示すフローチャートである。 第2実施形態に係るインデキシング手順を示すフローチャートである。 第1実施形態に係るデータを示す図である。 第2実施形態に係るデータを示す図である。 第1実施形態に係る類似検索の1例である概念検索を登録処理を詳細化したフローチャートである。 第1実施形態に係る類似検索の1例である概念検索を詳細化したフローチャートである。 第1実施形態に係る検索結果の例である。 第1実施形態に係る類似検索の1例である概念検索のデータ例を示す図である。 第1実施形態に係る類似検索の1例である概念検索のデータ例を示す図である。 第1実施形態に係る画像検索の登録フローチャートである。 第1実施形態に係る画像検索の画像例である。 第1実施形態に係る画像検索のデータ例を示す図である。 第1実施形態に係る画像検索のデータ例を示す図である。 第1実施形態に係る画像検索のデータ例を示す図である。 第1実施形態に係る画像検索のデータ例を示す図である。 第1実施形態に係る画像検索手順を示すフローチャートである。 第1実施形態に係る画像検索のデータ例を示す図である。 第1実施形態に係る画像検索のデータ例を示す図である。
符号の説明
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 記憶媒体読取装置
6 画像読取装置

Claims (9)

  1. 情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
    文書画像入力手段と、
    文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析手段と、
    クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定手段と、
    前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索手段と、
    前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索手段と、
    前記検索結果から検索対象範囲を絞り込む手段と、
    前記検索結果を出力する検索結果出力手段とを備えたことを特徴とする情報検索装置。
  2. テキスト検索と画像検索の順序を決定する条件がクエリー文書画像の画像ブロック個数である請求項1記載の情報検索装置。
  3. テキスト検索と画像検索の順序を決定する条件がクエリー文書画像のテキストブロック個数である請求項1記載の情報検索装置。
  4. テキスト検索と画像検索の順序を決定する条件がクエリー文書画像のテキスト文字数である請求項1記載の情報検索装置。
  5. テキスト検索と画像検索の順序を決定する条件が保持されている文書画像のテキストブロック総数である請求項1記載の情報検索装置。
  6. テキスト検索と画像検索の順序を決定する条件が保持されている文書画像の画像ブロック総数である請求項1記載の情報検索装置。
  7. テキスト検索と画像検索の順序を決定する条件が保持されている文書画像の文字総数である請求項1記載の情報検索装置。
  8. 情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置において、
    文書画像入力行程と、
    文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析行程と、
    クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定行程と、
    前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索行程と、
    前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索行程と、
    前記検索結果から検索対象範囲を絞り込む行程と、
    前記検索結果を出力する検索結果出力行程とを備えたことを特徴とする情報検索装置の制御方法。
  9. 情報を複数保持する情報保持手段中から所定の情報を検索する情報検索装置の制御方法を実行するための制御プログラムであって、
    文書画像入力ステップと、
    文書画像に含まれる部分画像とテキストとそのレイアウトを取得する画像解析ステップと、
    クエリー文書画像のテキストブロックと画像ブロックの面積比からテキスト検索と画像検索の順序を決定する検索順序決定ステップと、
    前記情報保持手段中の検索対象範囲から類似したテキストを含む情報を検索するテキスト検索ステップと、
    前記情報保持手段中の検索対象範囲から類似した部分画像を含む情報を検索する画像検索ステップと、
    前記検索結果から検索対象範囲を絞り込むステップと、
    前記検索結果を出力する検索結果出力ステップとを備えたことを特徴とする制御プログラム。
JP2005262653A 2005-09-09 2005-09-09 情報検索装置、情報検索装置の制御方法、及び制御プログラム Withdrawn JP2007079616A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005262653A JP2007079616A (ja) 2005-09-09 2005-09-09 情報検索装置、情報検索装置の制御方法、及び制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005262653A JP2007079616A (ja) 2005-09-09 2005-09-09 情報検索装置、情報検索装置の制御方法、及び制御プログラム

Publications (1)

Publication Number Publication Date
JP2007079616A true JP2007079616A (ja) 2007-03-29

Family

ID=37939898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005262653A Withdrawn JP2007079616A (ja) 2005-09-09 2005-09-09 情報検索装置、情報検索装置の制御方法、及び制御プログラム

Country Status (1)

Country Link
JP (1) JP2007079616A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287438A (ja) * 2007-05-16 2008-11-27 Canon Inc 画像処理装置及び画像検索方法
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
JP2016024527A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及び自動ページ差し替え方法
JP2022517835A (ja) * 2019-05-06 2022-03-10 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287438A (ja) * 2007-05-16 2008-11-27 Canon Inc 画像処理装置及び画像検索方法
US8644621B2 (en) 2007-05-16 2014-02-04 Canon Kabushiki Kaisha Image processing apparatus and image retrieval method
WO2009048149A1 (ja) * 2007-10-11 2009-04-16 Nec Corporation 電子文書の同等判定システムおよび同等判定方法
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2016024527A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及び自動ページ差し替え方法
US9569146B2 (en) 2014-07-17 2017-02-14 Fujifilm Corporation Information processor and automatic page replacement method
JP2022517835A (ja) * 2019-05-06 2022-03-10 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器
JP7163504B2 (ja) 2019-05-06 2022-10-31 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器

Similar Documents

Publication Publication Date Title
US6584223B1 (en) Image search apparatus and method
AU2012261715B2 (en) Method, apparatus and system for generating a feature vector
US6400853B1 (en) Image retrieval apparatus and method
JP3077765B2 (ja) 語彙辞書の検索範囲を削減するシステム及び方法
Andoni et al. Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions
US7257567B2 (en) Document retrieving method and apparatus
US7620247B2 (en) Image processing apparatus, image processing method, program, and storage medium
US5943443A (en) Method and apparatus for image based document processing
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
US6178417B1 (en) Method and means of matching documents based on text genre
US20070065045A1 (en) Information management apparatus, information management method, and computer program product
US5999653A (en) Fast techniques for searching images using the Hausdorff distance
JP3952592B2 (ja) 画像検索装置及び方法
US7724956B2 (en) Systems and methods for identifying characters and words in a document
KR101685472B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 기억 매체
JP3754791B2 (ja) 画像検索装置及び方法
Wang et al. Chinese document image retrieval system based on proportion of black pixel area in a character image
JP2007079616A (ja) 情報検索装置、情報検索装置の制御方法、及び制御プログラム
JP3720573B2 (ja) 画像検索装置及び方法
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
JP2012043437A (ja) 画像処理方法及び画像処理装置
JP3720538B2 (ja) 画像検索装置及び方法
JPH09198404A (ja) 文書処理方法及び装置
JP2001134593A (ja) 近傍データ検索方法及び装置及び近傍データ検索プログラムを格納した記憶媒体
KR100349673B1 (ko) 고차원 영상특징량의 대표값을 이용한 영상 검색 방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20081202