JP4641414B2

JP4641414B2 - 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体

Info

Publication number: JP4641414B2
Application number: JP2004354702A
Authority: JP
Inventors: 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-12-07
Filing date: 2004-12-07
Publication date: 2011-03-02
Anticipated expiration: 2024-12-07
Also published as: EP1669908A2; EP1669908B1; US7508998B2; EP1669908A3; US20060120627A1; DE602005015534D1; JP2006163841A

Description

本発明は文書画像を検索する画像検索技術に関するものである。

従来より、所定の文書画像と同一または類似の文書画像をＤＢ（データベース）の中から高速に検索するための画像検索技術が提案されている。例えば、下記特許文献１では、文書画像より複数の部分領域を抽出し、当該抽出された部分領域の個数を絞込条件として、領域個数の一致する文書画像について、その特徴量を用いて類似度の算出を行うよう構成することで検索の高速化を実現している。
特開２００１−３１９２３１号公報

しかしながら、上記従来技術に記載した検索方法の場合、部分領域の個数のみを絞込条件としているため、十分な絞り込みができない場合がある。そこで、適正な数にまで絞り込みをかけ、検索の更なる高速化を実現するために、部分領域の個数のみならず部分領域の特徴量等も絞込条件に含めることが望まれる。

しかし、絞り込みにあたり部分領域のすべての特徴量をメモリ上に常駐させることとすると、システムコストの上昇につながり妥当ではない。一方、かかる問題を回避すべく、各文書画像の有する全特徴量をＨＤＤ（ハードディスクドライブ）に保存することとすると、ファイルアクセスに時間がかかり耐えがたい画像検索時間となってしまう。同様に、全特徴量をＤＢにて管理し、ＤＢから所望の文書画像の特徴量を直接参照するように構成した場合でも、データベーストランザクションに時間がかかるほか、ＨＤＤからデータを読み込むための処理時間もかかるため、現実的ではない。したがって、適正な数への絞り込みを実現するよう、最適な特徴量のみを用いるとともに、かかる絞り込み処理を高速かつ低コストで実現することが望まれている。

さらに、上記特許文献１のように、画像検索を行うにあたり、領域個数の一致する文書画像を対象に特徴量の比較を行うこととすると、文書画像から部分領域を抽出する際に過剰に抽出したり、あるいは部分領域の抽出漏れにより、的確な画像検索ができなくなってしまう場合がある。このため、絞込条件に用いる特徴量等には柔軟性を持たせることも必要である。

本発明は、上記課題に鑑みてなされたものであり、所定の文書画像と同一または類似の文書画像を検索するにあたり、的確な検索結果を高速に得ることが可能な画像検索装置を低コストで実現することを目的とする。

上記の目的を達成するために本発明に係る文書画像検索装置は以下のような構成を備える。即ち、
保存された複数の登録文書画像の中から、クエリ文書画像に類似する文書画像を検索する文書画像検索装置であって、
文書画像を構成する複数の部分領域を抽出する抽出手段と、
前記抽出手段により抽出された各部分領域の属性を判定する判定手段と、
前記判定手段により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する算出手段と、
前記登録文書画像について前記算出手段により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存する保存手段と、
前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像を検索する第１検索手段と、
前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第１検索手段で検索した登録文書画像の中から検索する第２検索手段とを有することを特徴とする。

本発明によれば、所定の文書画像と同一または類似の文書画像を検索するにあたり、的確な検索結果を高速に得ることが可能な画像検索装置を低コストで実現することができる。

はじめに本発明の各実施形態の概要について説明する。以下に説明する各実施形態の画像検索装置による画像検索処理は、絞込条件として、文書画像に含まれる部分領域の個数の他、部分領域の重心位置のブロック（位置を表す識別子）を用いることとしている点に特徴がある。このように、部分領域の個数に加え、部分領域の重心位置のブロックを用いることにより、適正な数の絞り込みを行うことが可能となる。

また、絞り込みにあたっては、部分領域の個数と部分領域の重心位置のブロックとをインデックスとして、当該インデックスに一致する部分領域の特徴量のみをメモリ上に読み込む構成としている点に特徴がある。このように、ＤＢ化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、ＨＤＤ上に記憶された特徴量を逐次読み込んだり、ＤＢに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。

さらに、従来は、文書画像に含まれる部分領域の個数が一致するもののみに絞り込んでいたために、部分領域の抽出漏れがあった場合に、的確な画像検索を行うことができなくなってしまっていたところ、以下に説明する第４、５、６の実施形態にかかる画像検索装置によれば、このような場合であっても、漏れなく絞り込むことが可能なように構成されている。具体的には、部分領域の個数に許容値を設け（算出された類似度に閾値を設け）、適正な数に絞り込まれなかった場合に、許容値を変更し再度絞り込みを行うよう、再帰的な処理を取り入れている。また、部分領域の重心位置のブロックについても、完全に一致する場合のみならず、近傍のブロックも含めるよう構成している。

また、絞り込み時の漏れをなくすべく、各絞込条件（部分領域の個数、部分領域の重心位置のブロック）に許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた部分領域の特徴量（各部分領域の重心位置座標、大きさ、アスペクト比）について許容範囲内にあることを条件として更に絞り込むこととしている。このように、２段階で絞り込みを行うことにより、更に適正な数に絞り込むことが可能となる。

なお、以下の各実施形態のうち、第１の実施形態では、画像検索を行うにあたり文書画像に含まれる画像領域を用いる場合について、また、第２の実施形態では、文書画像に含まれる文字領域を用いる場合についてそれぞれ説明する。また、第３の実施形態では、第１および第２の実施形態の変形例について説明する。

さらに、第４の実施形態では、画像検索を行うにあたり、文書画像に含まれる画像領域と文字領域の両方を用いる場合について、第５、６の実施形態では、第４の実施形態の変形例についてそれぞれ説明する。

＜第１の実施形態＞
１．画像検索装置のハードウェア構成
図１は本発明の各実地形態に共通する画像検索装置（１００）の構成例を示す図である。同図において、１０１はＣＰＵであり、本発明にかかる画像検索方法を実現するための各種演算・制御を実行する。１０２はＲＯＭであり、画像検索装置１００の立ち上げ時に実行するブートプログラムや各種の固定データを格納する。１０３はＲＡＭであり、ＣＰＵ１０１が処理するための制御プログラムを格納すると共に、ＣＰＵ１０１が各種制御を実行する際の作業領域を提供する。例えば、ＲＡＭ１０３は本発明の画像検索方法を実現するためのプログラムとして、領域分割部や領域類似比較部、検索結果総合判定部などが記憶されるほか、文書画像を入力する際には当該文書画像を一時的に格納するための画像メモリとして使用される。

１０４はキーボード、１０５はマウスであり、ユーザによる処理モードの指定等の各種入力操作環境を提供する。

１０６は外部記憶装置であり、ハードディスクやフロッピー(登録商標)ディスク、ＣＤ−ＲＯＭ等で構成され、例えば、以下に説明する画像管理ＤＢや画像領域管理ＤＢの他、文書画像を格納するスペースとしても用いられる。１０７は表示装置であり、画像検索結果の表示等を行う。

１０８はネットワークインターフェースであり、ネットワーク上の各機器との通信を行う際に用いられる。１０９はインターフェース、１１０はイメージスキャナやデジタルカメラなどの画像入力装置である。また、１１１は上記の各構成を接続するバスである。

２．画像検索装置の機能ブロック構成
図２は画像検索装置１００の有する画像登録・類似画像検索機能の構成を示すブロック図である。同図において、２０１はユーザインターフェース部であり、表示装置１０７、キーボード１０４及びマウス１０５を用いてユーザからの各種操作入力を検出し、画像登録処理または類似画像検索処理のいずれを実行するかを判断する。

２０２は登録画像入力部であり、画像入力装置１１０を介して登録する文書画像（登録文書画像）の入力を行う。２０３は画像記憶制御部であり、登録画像入力部２０２により入力された登録文書画像をＲＡＭ１０３上の画像メモリへ一時的に記憶するとともに、画像格納部２１４として機能する外部記憶装置１０６に当該登録文書画像を格納する。また、あわせて画像管理ＤＢ２１５として機能する外部記憶装置１０６に当該登録文書画像の格納アドレスを記憶する。

２０４は領域分割部であり、ＲＡＭ１０３上の画像メモリに一時的に記憶された登録文書画像を複数の部分領域に分割する。２０５は領域特徴抽出部であり、領域分割部２０４にて分割された各部分領域について特徴量の抽出を行う。２０６は特徴量更新部であり、領域特徴抽出部２０５において抽出された各部分領域の特徴量を、画像管理ＤＢ２１５および画像領域管理ＤＢ２１６として機能する外部記憶装置１０６に格納する。

２０７は検索元画像入力部であり、画像入力装置１１０を介して検索元となる文書画像（検索元文書画像）の入力を行う。２０８は画像一時記憶部であり、検索元画像入力部２０７により入力された検索元文書画像をＲＡＭ１０３上の画像メモリへ一時的に記憶する。２０９は領域分割部であり、ＲＡＭ１０３上の画像メモリに一時的に記憶された検索元文書画像を複数の部分領域に分割する。２１０は領域特徴抽出部であり、領域分割部２０９にて分割された各部分領域について特徴量の抽出を行う。

２１１は領域類似比較部であり、検索元文書画像の各部分領域の特徴量と、外部記憶装置１０６内の画像管理ＤＢ２１５および画像領域管理ＤＢ２１６に格納された登録文書画像の各部分領域から抽出した特徴量とを比較し、検索元文書画像の部分領域に対して類似する登録文書画像の部分領域についての検索結果を得る。

２１２は検索結果総合判定部であり、領域類似比較部２１１において得られた登録文書画像の部分領域についての検索結果を用い、類似する登録文書画像の最終決定を行う。２１３は検索結果表示部であり、検索結果総合判定部２１２にて最終決定された検索結果を表示装置１０７に表示する。以下、本実施形態にかかる画像検索装置１００における画像登録処理及び類似画像検索処理について更に詳しく説明する。

３．画像登録処理
３．１画像登録処理全体の流れ
はじめに、画像登録処理により各ＤＢ（画像管理ＤＢ２１５、画像領域管理ＤＢ２１６）に格納されるデータについて説明する。

画像登録処理により登録文書画像として登録される画像は複数の部分領域（画像領域および文字領域）が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として色特徴情報が求められ、これらは登録文書画像と対応付けて画像管理ＤＢ２１５、画像領域管理ＤＢ２１６に格納される。画像管理ＤＢ２１５、画像領域管理ＤＢ２１６の各ＤＢに格納されるデータの具体例は図１０乃至１２に示す通りである。図１０は画像管理ＤＢ２１５に格納されるデータの具体例を、図１１、図１２は画像領域管理ＤＢ２１６に格納されるデータの具体例をそれぞれ示している。

次に画像登録処理により、各ＤＢを生成するまでの処理の流れを図３を用いて説明する。図３は、画像登録処理の流れを示すフローチャートである。ステップＳ３０１では登録画像入力部２０２が画像入力装置１１０を介して登録文書画像を入力する。更に画像記憶制御部２０３が当該入力された登録文書画像のＩＤを発行し、画像管理ＤＢ２１５内の登録文書画像ＩＤフィールド（図１０の１００１）に当該登録文書画像のＩＤを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド（図１０の１００２）に記憶したうえで、画像格納部２１４へ当該登録文書画像をファイルとして格納する。

ステップＳ３０２では、領域分割部２０４が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数（Ｎ個）を得る。なお、部分領域とその属性の抽出とは、例えば、図４に示す登録文書画像４０１が入力された場合に、当該登録文書画像４０１を、各オブジェクト毎の部分領域として認識し、該部分領域各々について文字（ＴＥＸＴ）／図画（ＰＩＣＴＵＲＥ）／写真（ＰＨＯＴＯ）／線（ＬＩＮＥ）／表（ＴＡＢＬＥ）等の属性を判定し（図４の４０２参照）、異なる属性を持つ部分領域を抽出することをいう。

ステップＳ３０３では、領域特徴量抽出部２０５が部分領域個数カウンタＩおよび画像領域個数カウンタＪを０にリセットする。さらに、ステップＳ３０４では、部分領域個数カウンタＩが部分領域個数Ｎより小さいか否かを判定する。ステップＳ３０４にて部分領域個数カウンタＩが部分領域個数Ｎより小さいと判定された場合には、ステップＳ３０５以下の処理に進む。このように、ステップＳ３０５以下の処理は、部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域が無くなるまで繰り返す。

部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域がなくなったら、ステップＳ３１２に進み、特徴量更新部２０６が画像管理ＤＢ２１５内の画像領域数フィールド１００３に画像領域個数カウンタＪの値を記憶するとともに、当該登録文書画像に含まれる画像領域ＩＤ群を画像領域ＩＤフィールド１００４に記憶し、処理を終了する。

一方、ステップＳ３０４でＩ＜Ｎであると判定され、未処理の部分領域があると判断された場合には、ステップＳ３０５において領域特徴抽出部２０５が当該Ｉ番目の部分領域の属性が画像領域であるか否かを判断する。ステップＳ３０５で画像領域であると判断された場合には、ステップＳ３０６において画像領域個数カウンタＪを１つ増加させ、ステップＳ３０７に進む。

ステップＳ３０７では、当該Ｉ番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比ならびに「部分領域の内容に関する情報」として色特徴情報を抽出する。

ステップＳ３０８では、特徴量更新部２０６がユニークな画像領域ＩＤを発行する。さらにステップＳ３０９では、登録文書画像の画像領域の性質を反映したインデックス（画像領域インデックス）を決定する。本実施形態では、画像領域インデックスは、
・文書画像形状（縦長、横長、正方形）（１１０１）
・文書画像が含む画像領域の個数（１１０２）
・画像領域の重心位置ブロック（１１０３）
の組み合わせとする。

さらに、ステップＳ３１０では、特徴量更新部２０６が画像領域管理ＤＢ２１６内に重心位置座標（１２０３）、登録文書画像に対する大きさ（１２０２）、アスペクト比（１２０１）、ならびに色特徴情報（１２０４）を画像領域ＩＤ（１２０５）と対応付けて記憶する。ステップＳ３１１では、部分領域個数カウンタＩを１つ増加させ、再びステップＳ３０４に戻る。

他方、ステップＳ３０５においてＩ番目の部分領域の属性が画像領域でないと判断された場合にはステップＳ３１１に進み、部分領域個数カウンタＩを１つ増加させ、再びステップＳ３０４へ戻る。

３．２部分領域の抽出処理（ステップＳ３０２）の詳細
次に図３のステップＳ３０２における部分領域の抽出処理の詳細について説明する。部分領域の抽出にあたっては、まず、入力された登録文書画像を白黒に二値化し、輪郭線追跡を行い、黒画素輪郭で囲まれる画素の部分領域を抽出する。面積の大きい黒画素の部分領域については、内部にある白画素に対しても輪郭線追跡を行い、白画素の部分領域を抽出し、さらに一定面積以上の白画素の部分領域の内部からは再帰的に黒画素の部分領域を抽出する。

このようにして得られた黒画素の部分領域を、大きさおよび形状で分類し、異なる属性を持つ領域へと分類していく。たとえば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素群とし、さらに近接する文字が整列良く配され、グループ化可能な部分領域を文字領域、扁平な部分領域を線領域、一定大きさ以上でかつ四角系の白画素群を整列よく内包する黒画素群が占める部分領域を表領域、不定形の画素が散在している部分領域を写真領域、それ以外の任意形状の部分領域を図画領域、などとする。なお、部分領域抽出処理（ステップＳ３０２）では、不定形の画素が散在している写真領域であって、且つその領域が矩形状のものを画像領域として扱うものとする。

部分領域抽出処理（ステップＳ３０２）が実行されることにより、各部分領域を表現する座標とその部分領域の属性（画像領域であるか文字領域であるか）が抽出結果として出力される。

３．３画像領域のインデックス決定処理（ステップＳ３０９）の詳細
次に図３のステップＳ３０９における画像領域インデックス決定処理のうち、画像領域の重心位置ブロック（１１０３）を求める処理の詳細について説明する。図７は、画像領域インデックス決定処理のうち、画像領域の重心位置ブロック（１１０３）を求める処理の流れを示すフローチャートである。

ステップＳ７０１では、登録文書画像の大きさと登録文書画像中の画像領域個数と着目画像領域（Ｉ番目の画像領域）の大きさと重心位置座標とをそれぞれ取得する。ステップＳ７０２では、図８のように登録文書画像を４×４＝１６個の複数のブロックへと分割し、画像領域の重心が存在するブロックを求める（図８中の各分割ブロック内に記載された数値は、分割ブロックのＩＤ）。

ステップＳ７０３では画像領域の重心が分割ブロックの境界上に位置するか否かを判定し、画像領域の重心が分割ブロックの境界上にないと判定された場合には、ステップＳ７０６に進み、当該重心がある分割ブロックを選択する。一方、重心が分割ブロックの境界上にあると判定された場合には、ステップＳ７０４にて境界に接する分割ブロックのうち分割ブロックＩＤの最も若い分割ブロックを選択する。

ステップＳ７０５では、ステップＳ７０４またはＳ７０６にて選択された分割ブロックのＩＤを結果として出力する。

図８は、登録文書画像が２つの画像領域（８０１、８０２）を有する例を示しており、右下の画像領域８０１の重心は分割ブロックＩＤ１１と１２の境界上にある。したがって、分割ブロックＩＤ１１が結果として出力される。また、左上の画像領域８０２の重心は分割ブロックＩＤ６にある。したがって、分割ブロックＩＤ６が結果として出力される。

なお、参考までに、図９に縦長のビジネス文書画像１万件についての画像領域の重心位置の分布を求めた結果を示す。図９はビジネス文書画像に含まれる画像領域個数ごとにわけて統計をとったものであり、各画像領域数ごとに４×４のブロックのどこに重心があるかを示している。例えば、図９（Ａ）は、ビジネス文書画像内に含まれる画像領域の数が１の文書画像２９７２個（つまり、画像領域の数も２９７２個になる）を対象に、重心位置の分布の統計をとったものである。同図（Ａ）によれば、２９７２個の画像領域のうち、６１個の画像領域は、左上のブロック（分割ブロックＩＤ＝１）に重心がある。以下同様に、文書画像に含まれる画像領域数を１、２、３、４、５、６、７、８、９、１０ならびに１１以上の１１階級に量子化して統計をとっている。

図９（Ａ）〜（Ｋ）によれば、画像領域のインデックス決定処理（ステップＳ３０９）にて生成される画像領域インデックス（文書画像形状、画像領域の個数、画像領域の重心位置ブロック）は、比較的偏りの無いサイズに散らばり、絞り込みをする際のインデックスとしては良質なインデックスであることがわかる。

３．４記憶処理（ステップＳ３１０）の詳細
次に図３のステップＳ３１０における記憶処理の詳細について説明する。図１１に画像領域管理ＤＢに記憶されるデータの構成を示す。１レコードは文書形状（１１０１）、文書画像内の画像領域数（１１０２）、画像領域の重心位置ブロック（１１０３）、画像領域ＩＤリスト（１１０４）、画像領域の特徴量リスト（１１０５）から成っており、文書形状（１１０１）と文書画像内の画像領域数（１１０２）と画像領域の重心位置ブロック（１１０３）の組み合わせをキーとして画像領域ＩＤリスト（１１０４）および画像領域の特徴量リスト（１１０５）が得られるようになっている。

画像領域の特徴量リスト（１１０５）は、各画像領域の特徴量が画像領域ＩＤリスト（１１０４）にある画像領域ＩＤ順に並んだ配列データであり、画像領域の特徴量リストに含まれる各画像領域ＩＤに対応して図１２に示すようにアスペクト比（１２０１）、大きさ（１２０２）、重心位置座標（１２０３）、色特徴情報（１２０４）が格納されている。

また、重心位置座標（１２０３）とは登録文書画像の縦および横を１とした場合の相対的（０≦Ｘ≦１）位置座標と定義し、画像領域の大きさ（１２０２）とは登録文書画像の面積を１とした場合の画像領域の面積と定義し、アスペクト比（１２０１）とは画像領域の横の画素数に対する縦の画素数の比と定義する。

色特徴情報（１２０４）とは登録文書画像を図５の例の様に縦横にブロック分割を行い、その分割ブロックに属する画素のＲＧＢチャネルの平均値を求め、図６で示す様な走査順で配列として保持するものである。図６では表現の制約上３×３の９ブロックに関する走査順を示している。

４．類似画像検索処理
４．１類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図１３Ａおよび図１３Ｂは、類似画像検索処理の流れを示すフローチャートである。特に、図１３ＡのステップＳ１３０１からステップＳ１３０７までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。

他方、図１３ＢのステップＳ１３０８からステップＳ１３２４までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。

ステップＳ１３０１では、検索元画像入力部２０７の制御のもと、画像入力装置１１０を介して検索元文書画像を入力し、画像一時記憶部２０８によりＲＡＭ１０３上の画像メモリへ当該検索元文書画像を一時的に記憶する。

ステップＳ１３０２では、領域分割部２０９が検索元文書画像を複数の部分領域（文字領域および画像領域）へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する（リーディングオーダを付与する）。これは検索元文書画像の各部分領域に対応する情報を管理するためである。

ステップＳ１３０３では、領域特徴抽出部２１０にて、部分領域個数Ｎ、画像領域個数Ｊｑ、検索元文書画像に含まれる各画像領域の重心位置座標、大きさ、アスペクト比ならびに色特徴情報を抽出し、ＲＡＭ１０３上のワーク領域にこれらを一時的に記憶する。

上記ステップＳ１３０２およびステップＳ１３０３の処理は、基本的に図３の画像登録処理と同様の処理であり、図１０、図１１および図１２の各ＤＢへ登録する代わりに、検索元文書画像解析結果としてＲＡＭ１０３上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。

ステップＳ１３０４では、領域類似比較部２１１が検索元文書画像の各画像領域の重心近傍の分割ブロックを決定する。そして、ステップＳ１３０３における検索元文書画像の形状判断結果および抽出された画像領域個数Ｊｑ、ならびに当該決定された分割ブロックに基づいて、画像領域管理ＤＢ２１６の画像領域インデックス（図１１）を参照し、一致する場合には当該画像領域ＩＤと各画像領域の特徴量（アスペクト比、大きさ、重心位置座標）を、検索元文書画像の画像領域のリーディングオーダに対応付けてＲＡＭ１０３のメモリ上へ読み込む。

ステップＳ１３０５では上記メモリ上にリーディングオーダに対応付けて読み込まれた各画像領域の特徴量（アスペクト比、大きさ、重心位置座標）と、検索元文書画像の画像領域の重心位置座標、大きさ、アスペクト比とを比較し、許容範囲にある画像領域を絞り込む。また、絞り込んだ画像領域ＩＤを検索元文書画像に含まれる画像領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の画像領域全てに対して行う。

ステップＳ１３０６では、上記ステップＳ１３０５で絞り込んだ画像領域ＩＤ群を図１０の登録文書画像ＩＤフィールド１００１を参照して登録文書画像ＩＤに変換し、これを新たに記憶する。これを画像領域群全てに対して行う。

ステップＳ１３０７では、ステップＳ１３０６で得た登録文書画像ＩＤ群どうしの論理積をとることにより、検索元文書画像の全ての画像領域に対応する画像領域を持つ登録文書画像を絞り込み、その登録文書画像ＩＤ群（個数Ｌ）を登録文書画像ＩＤリストとして新たに記憶する。以上が類似画像検索処理におけるプリサーチ処理についての説明である。

次に、図１３Ｂを用いて特徴量の詳細比較ならびに類似度算出の処理について説明する。まず、ステップＳ１３０８では、処理済みプリサーチデータカウンタｉを０にセットし、ステップＳ１３０９では、プリサーチ処理の結果得られた登録文書画像ＩＤ群の個数Ｌと比較を行い、プリサーチデータカウンタｉが個数Ｌより小さいか否かを判定する。ステップＳ１３０９において、プリサーチデータカウンタｉが個数Ｌより小さいと判定された場合には、ステップＳ１３１０に進む。

ステップＳ１３１０では処理済み画像領域カウンタｊおよび画像領域累積類似度Ｓｕｍ＿Iを０にリセットする。ステップＳ１３１１では、ステップＳ１３０７で記憶された登録文書画像ＩＤリストのｉ番目の登録文書画像ＩＤであるＤｉを取得する。

ステップＳ１３１２からステップＳ１３１５では、検索元文書画像の全画像領域と登録文書画像Ｄｉの全画像領域の類似比較を行い、画像領域累積類似度Ｓｕｍ＿Ｉを得る。画像領域同士の類似比較については後で詳しく説明を行う。

ステップＳ１３１２では、処理済み画像領域カウンタｊと画像領域個数Ｊｑとを比較することで、未比較の画像領域が有るかどうかをチェックする。処理済み画像領域カウンタｊが画像領域個数Ｊｑより小さく、未比較の画像領域があると判断された場合には、ステップＳ１３１３に進み、画像管理ＤＢ２１５内のデータ（図１０）を参照し、登録文書画像ＩＤがＤｉの登録文書画像に含まれる未比較の画像領域ＩＤを読み出す。そしてステップＳ１３０５で読み込んだリーディングオーダｊに対応する画像領域ＩＤ群の中から、当該読み出した画像領域ＩＤと一致するものを探し、当該画像領域の特徴量を読み出す。

続いてステップＳ１３１４では、検索元文書画像のリーディングオーダｊの画像領域の特徴量と上記ステップＳ１３１３で得た画像領域の特徴量の類似度演算を行い、画像領域累積類似度Ｓｕｍ＿Ｉに加算する。ステップＳ１３１５では、処理済み画像領域カウンタｊをインクリメントする。

ステップＳ１３１２において未比較の画像領域が無いと判断されるまで、ステップＳ１３１２からステップＳ１３１５までの処理を繰り返し、未比較の画像領域が無いと判断された場合には、ステップＳ１３１６へ進み、登録文書画像ＩＤがＤｉの登録文書画像の総合類似度として、

を計算した後、登録文書画像ＩＤと対応づけて当該総合類似度を記憶する。

ステップＳ１３１７では処理済みプリサーチデータカウンタｉをインクリメントし、再びステップＳ１３０９に戻る。ステップＳ１３０９では、プリサーチ処理により絞り込まれた登録文書画像群のすべてと比較を行っていないと判断した場合には、再び、ステップＳ１３１０からステップＳ１３１７の処理を行う。

一方、プリサーチ処理により絞り込まれた全ての登録文書画像群と比較を行ったと判断した場合には、ステップＳ１３１８に進み、ステップＳ１３１６にて記憶したＬ個の登録文書画像ＩＤに対する総合類似度Ｓｉｍ＿ｉの降順で登録文書画像ＩＤをソートし、検索結果とする。また、ステップＳ１３１９では、図１８に示すように検索された登録文書画像をサムネール画像により検索結果一覧として表示する。また、あわせて総合類似度も表示する。

４．２画像領域重心近傍の分割ブロックの決定処理（ステップＳ１３０４）の詳細
次に類似画像検索処理における画像領域重心近傍の分割ブロック決定処理（ステップＳ１３０４）の詳細について説明する。画像領域重心近傍の分割ブロックの決定方法に関しては幾つかの方法がある。

最もシンプルな方法は、画像領域インデックスを参照し、登録文書画像の各画像領域のうち検索元文書画像の画像領域の重心を含む分割ブロックを求める方法である。

しかし、この方法では登録文書画像と検索元文書画像とが非常に類似していたとしても、文書画像間の位置のずれにより、重心位置がブロック分割境界ぎりぎりで異なるブロックに重心があると判断された場合、検索できなくなってしまう（検索漏れが生じてしまう）という問題がある。

そこで本実施形態では、検索元文書画像の画像領域に掛かる分割ブロックの全てを対象とし、当該分割ブロックのいずれかに重心が有る画像領域について画像領域インデックスを参照しながら求めることとし、これにより検索の漏れを極めて少なくしている。この方法によれば、図１４Ａの例では、分割ブロック１、２、５、６に重心があるものを求め、図１４Ｂの例では１、２、３、５、６、７、９、１０、１１に重心があるものを求める。

しかし、この方法の場合、図１４Ａの例の分割ブロック１や、図１４Ｂの例の分割ブロック１、３、９、１１のように、参照価値の低い分割ブロックまで参照してしまう可能性を有している。そこで、本実施形態では、更に、検索元文書画像の画像領域に掛かる分割ブロックのうち、画像領域が掛かる部分の面積が分割ブロック面積に対して所定の割合以上である場合を対象とすることで、ある程度のノイズを減じることとした。

なお、この割合を分割ブロックの２５％にすると図１４Ａの例の分割ブロック１や、図１４Ｂの例の分割ブロック１、３、９、１１のような参照価値の低い分割ブロックを参照することはなくなるが、図１４Ｃのような極めて大きな領域の例では全分割ブロックを参照してしまうことになる。

そこで、本実施形態では、更に、図１４Ｃのように部分領域が大きい場合にも適正な分割ブロックのみを参照できるようにした。部分領域が大きい場合でも適正な分割ブロックのみを参照することができるように分割ブロックを決定するためのアルゴリズムについて図１５のフローチャートを用いて説明する。

ステップＳ１５０１では、検索元文書画像の着目する画像領域の重心位置を求め、ステップＳ１５０２では、当該重心位置が分割ブロックの境界上にあるかどうかを判断する。ステップＳ１５０２において重心位置が分割ブロックの境界上にあると判断された場合には、ステップＳ１５０３に進み、境界に接する分割ブロックをインデックス参照ブロックリスト（画像領域重心近傍の分割ブロックとして決定された分割ブロックを記載したリスト）に記憶するとともに処理リストに記憶し、後段のステップＳ１５０５以降のループ処理の処理対象の分割ブロックとして準備する。

他方、ステップＳ１５０２にて部分領域の重心位置が境界上に無いと判断された場合には、重心の存在する分割ブロックをインデックス参照ブロックリストに記憶するとともに処理リストに記憶し、後段のステップＳ１５０５以降のループ処理の処理対象の分割ブロックとして準備する。

ステップＳ１５０５では、処理リストに未処理の分割ブロックがあるかどうかを判断し、未処理の分割ブロックがあると判断された場合にはステップＳ１５０６にて重心位置に最も近い水平境界線Ｌ１を求め、その距離を分割ブロックの横サイズＢＷで割ることにより正規化距離Ｄ１を得る（図１４Ｄ参照）。

次いで、ステップＳ１５０７では、重心位置に最も近い鉛直境界線Ｌ２を求め、その距離を分割ブロックの縦サイズＢＨで割ることにより正規化距離Ｄ２を得る。更に、ステップＳ１５０８では、重心位置に最も近い水平境界線Ｌ１と重心位置に最も近い鉛直境界線Ｌ２の交点との正規化距離Ｄ３をＤ１とＤ２とから得る（図１４Ｄ参照）。

ステップＳ１５０９では、Ｄ１が第一の閾値ＴｈＸ以下であるか否かを判断し、Ｄ１が第一の閾値ＴｈＸ以下であると判断された場合には、ステップＳ１５１０において重心の存在する分割ブロックのＬ１を境に水平方向に隣接する分割ブロックをインデックス参照ブロックリストに加える。一方、Ｄ１が第一の閾値ＴｈＸより大きいと判断された場合には、インデックス参照ブロックリストへの追加は行わない。

ステップＳ１５１１では、Ｄ２が第二の閾値ＴｈＹ以下であるか否かを判断し、Ｄ２が第２の閾値ＴｈＹ以下であると判断された場合には、重心の存在する分割ブロックのＬ２を境に水平方向に隣接する分割ブロックをインデックス参照ブロックリストへ加える。一方、Ｄ２が第２の閾値ＴｈＹより大きいと判断された場合には、インデックス参照ブロックリストへの追加は行わない。

更にステップＳ１５１３では、Ｄ１が第一の閾値ＴｈＸ以下で且つＤ２が第二の閾値ＴｈＹ以下であるか否かを判断し、Ｄ１が第一の閾値以下で且つ第二の閾値以下であると判断された場合には、ステップＳ１５１４に進む。ステップＳ１５１４では、Ｌ１とＬ２の交点に対して重心のある分割ブロックと斜め対象の位置にある分割ブロックとを更にインデックス参照ブロックリストに加える。一方、Ｄ１が第一の閾値ＴｈＸ以下でないか、あるいは第二の閾値ＴｈＹ以下でない場合には、インデックス参照ブロックリストへの追加は行わない。上述したインデックス参照ブロックリストへの追加処理においては、当然重複した分割ブロックの追加は行わない。

ステップＳ１５１５では、次の処理対象の分割ブロックを処理リストから決定する。ステップＳ１５０５において未処理の分割ブロックがあればステップＳ１５０６からステップＳ１５１５までの処理を繰り返してインデックス参照ブロックリストへの追加を行っていき、ステップＳ１５０５において未処理の分割ブロックが無いと判断された場合には、ステップＳ１５１６において累計したインデックス参照ブロックリストを決定する。

４．３領域類似比較処理（ステップＳ１３１４）の詳細
次に類似画像検索処理における領域類似比較処理（ステップＳ１３１４）の詳細について説明する。

はじめに、検索元文書画像の着目する画像領域と登録文書画像の画像領域の類似比較処理について図１６のフローチャートを用いて説明する。

まず、ステップＳ１６０１では、検索元文書画像の着目する画像領域の重心位置座標と大きさとアスペクト比と色特徴情報とを読み込む。ステップＳ１６０２では、登録文書画像における画像領域の重心位置座標と大きさとアスペクト比と色特徴情報とを読み込む。

ステップＳ１６０３ではアスペクト比の差異を求め、ステップＳ１６０４ではアスペクト比の差異が閾値以下であるか否かを判断する。ステップＳ１６０４にてアスペクト比の差異が閾値以下であると判断された場合には、ステップＳ１６０５に進む。一方、アスペクト比の差異が閾値よりも大きいと判断された場合にはステップＳ１６０９へ進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ１６０５では重心位置座標の差異を求め、ステップＳ１６０６では、重心位置座標の差異が閾値以下であるか否かを判断する。ステップＳ１６０６にて、重心位置座標の差異が閾値以下であると判断された場合には、ステップＳ１６０７に進む。一方、重心位置座標の差異が閾値よりも大きいと判断された場合にはステップＳ１６０９へ進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ１６０７では、文書画像に対する大きさの差異を求め、ステップＳ１６０８では大きさの差異が閾値以下であるか否かを判断する。ステップＳ１６０８にて大きさの差異が閾値以下であると判断された場合には、ステップＳ１６１０に進む。一方、大きさの差異が閾値よりも大きいと判断された場合にはステップＳ１６０９へ進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ１６１０では、上記アスペクト比の差異、重心位置座標の差異および大きさの差異に基づいて、類似度からの減点割合Ｒｐを設定する。ここで、検索元文書画像の着目する画像領域のアスペクト比をＡｓｐ０、重心位置座標を（Ｇｘ０、Ｇｙ０）、大きさをＳ０とする。また、登録文書画像の画像領域のアスペクト比をＡｓｐ１、重心位置を（Ｇｘ１、Ｇｙ１）、大きさをＳ１とする。

更に、実験により正解と認められるデータセットを用いて正解と認められるアスペクト比の差異、重心位置座標の差異および大きさの差異の分散を、それぞれＤ＿ＡＳＰ、Ｄ＿Ｇ、Ｄ＿Ｓとし、アスペクト比の差異、重心位置座標の差異および大きさの差異の類似度に与える寄与係数をそれぞれα１、α２、α３とすると、減点割合Ｒｐは、

と表現できる。

そしてステップＳ１６１１において、色特徴情報を比較し各画像領域間の累積距離を得る。色特徴情報とは文書画像の各画像領域を図５の例では縦横に同じブロック数で分割を行い、その分割ブロックに属する画素のＲＧＢチャネルの平均値を求め、図６で示すような走査順で配列として保持するものである。図６では表現の制約上３×３の９ブロックに関する走査順を示している。

そして、比較の際にはこの並び替えた配列のもと対応する分割ブロックの色特徴情報を下記要領で処理する。

具体的には、検索元文書画像の画像領域の着目ブロックの色平均値を（Ｒ０、Ｇ０、Ｂ０）、登録文書画像の画像領域の着目ブロックの色平均値を（Ｒ１、Ｇ１、Ｂ１)、着目ブロック間の類似距離をｄとすると、

と表すことができ、これを画像領域内の対応する全ブロックに対して計算し累積距離Ｄを算出する。

そして、類似度Ｓは、図１７のグラフの累積距離Ｄが０の時に類似度が１００となるような非線形特性を持つ累積距離←→類似度テーブルを通して得ることができる。

そして、最後にステップＳ１６１２においてステップＳ１６１０で求めた減点割合を用い、

の要領で画像領域累積類似度Ｓｕｍ＿Ｉを得る。

以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる画像領域の個数の他、画像領域の重心位置のブロックＩＤを用いることとした。このように、画像領域の個数に加え、画像領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。

また、絞り込みにあたっては、画像領域の個数と画像領域の重心位置のブロックＩＤとをインデックスとして、当該インデックスに一致する画像領域の特徴量のみをメモリ上に読み込む構成とした。このようにＤＢ化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、ＨＤＤ上に記憶された特徴量を逐次読み込んだり、ＤＢに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。

また、絞り込み時の漏れをなくすべく、絞込条件である画像領域の重心位置のブロックＩＤに許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた画像領域の特徴量（各画像領域の重心位置座標、大きさ、アスペクト比）について許容範囲内にあることを条件として更に絞り込むこととしている。このように、２段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。

また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる画像領域の重心位置座標、大きさ、アスペクト比、ならびに色特徴情報を用いることとした。

このように、類似度算出にあたってもＤＢ化された特定の特徴量のみを読み込む構成としたことにより、メモリ上に全特徴量を置く従来方式と比して、検索速度を低下させることなくメモリ消費量を大幅に削減することが可能となる。

＜第２の実施形態＞
上記第１の実施形態では、画像領域をベースとした類似画像検索処理の例を示したが、本発明は特にこれに限られるものではなく、文字領域をベースとした画像検索も可能である。この場合、領域類似比較処理において用いる画像領域の特徴量を文字領域内の文字列に置き換え、画像領域の特徴量比較処理を文字領域の文字列比較処理に置き換える。また、文字領域の文字列比較処理に関しては、検索元文書画像の着目する部分領域が文字領域の場合に、登録文書画像の文字領域とのみ比較を行うが、その際ＯＣＲを経て得たテキストデータ（領域内文字情報）とアスペクト比と文書画像に対する大きさおよび重心位置座標を用いる。以下に詳細を説明する。

１．画像検索装置のハードウェア構成
本実施形態にかかる画像検索装置のハードウェア構成は上記第１の実施形態と同様であるため、説明は省略する。

２．画像検索装置の機能ブロック構成
図１９は本実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。なお、上記第１の実施形態と同様のブロックについては同一の参照番号を付すものとし、ここでは説明は省略する。図２との差異は、画像領域管理ＤＢ２１６の代わりに配された１９０１に示す文字領域管理ＤＢであり、特徴量更新部２０６により各文字領域の特徴量が格納される。

３．画像登録処理
３．１画像登録処理全体の流れ
はじめに画像登録処理により各ＤＢ（画像管理ＤＢ２１５、文字領域管理ＤＢ１９０１）に格納されるデータについて説明する。

画像登録処理により登録文書画像として登録される画像は複数の部分領域（画像領域および文字領域）が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として領域内文字情報が求められ、これらは登録文書画像と対応づけて画像管理ＤＢ２１５、文字領域管理ＤＢ１９０１に格納される。画像管理ＤＢ２１５、文字領域管理ＤＢ１９０１の各ＤＢに格納されるデータの具体例は図２１乃至２３に示す通りである。図２１は画像管理ＤＢ２１５に格納されるデータの具体例を、図２２、２３は文字領域管理ＤＢ１９０１に格納されるデータの具体例をそれぞれ示している。

次に画像登録処理により、各ＤＢを生成するまでの処理の流れを図２０を用いて説明する。図２０は、画像登録処理の流れを示すフローチャートである。ステップＳ２００１では登録画像入力部２０２が画像入力装置１１０を介して登録文書画像を入力する。そして画像記憶制御部２０３が当該入力された登録文書画像のＩＤを発行し、画像管理ＤＢ２１５内の登録文書画像ＩＤフィールド（図２１の２１０１）に当該登録文書画像のＩＤを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド（図２１の２１０２）に記憶したうえで、画像格納部２１４へ当該登録文書画像をファイルとして格納する。

ステップＳ２００２では、領域分割部２０４が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数（Ｎ個）を得る。なお、部分領域とその属性の抽出については、上記第１の実施形態において図４を用いて説明済みであるため、ここでは詳細は省略する。

ステップＳ２００３では、領域特徴量抽出部２０５が部分領域個数カウンタＩおよび文字領域個数カウンタＫを０にリセットする。さらに、ステップＳ２００４では、部分領域個数カウンタＩが部分領域個数Ｎより小さいか否かを判定する。ステップＳ２００４にて部分領域個数カウンタＩが部分領域個数Ｎより小さいと判定された場合には、ステップＳ２００５以下の処理に進む。このように、ステップＳ２００５以下の処理は、部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域が無くなるまで繰り返す。

部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域がなくなったら、ステップＳ２０１２に進み、特徴量更新部２０６が画像管理ＤＢ２１５内の文字領域数フィールド２１０３に文字領域個数カウンタＫの値を記憶するとともに、当該登録文書画像に含まれる文字領域ＩＤ群を文字領域ＩＤフィールド２１０４に記憶し、処理を終了する。

一方、ステップＳ２００４でＩ＜Ｎであると判定され、未処理の部分領域があると判断された場合には、ステップＳ２００５において領域特徴抽出部２０５が当該Ｉ番目の部分領域の属性が文字領域であるか否かを判断する。ステップＳ２００５で文字領域であると判断された場合には、ステップＳ２００６において文字領域個数カウンタＫを１つ増加させ、ステップＳ２００７に進む。

ステップＳ２００７では、当該Ｉ番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として領域内文字情報を抽出する。

ステップＳ２００８では、特徴量更新部２０６がユニークな文字領域ＩＤを発行する。さらにステップＳ２００９では、登録文書画像の文字領域の性質を反映したインデックス（文字領域インデックス）を決定する。本実施形態では、文字領域インデックスは、
・文書画像形状（縦長、横長、正方形）（２２０１）
・文書画像が含む文字領域の個数（２２０２）
・文字領域の重心位置ブロック（２２０３）
の組み合わせとする。

さらに、ステップＳ２０１０では、特徴量更新部２０６が画像領域管理ＤＢ２１６内に重心位置座標（２３０３）、登録文書画像に対する大きさ（２３０２）、アスペクト比（２３０１）、ならびに領域内文字情報（２３０４）を文字領域ＩＤ（２３０５）と対応付けて記憶する。ステップＳ２０１１では、部分領域個数カウンタＩを１つ増加させ、再びステップＳ２００４に戻る。

他方、ステップＳ２００５においてＩ番目の部分領域の属性が文字領域でないと判断された場合にはステップＳ２０１１に進み、部分領域個数カウンタＩを１つ増加させ、再びステップＳ２００４へ戻る。

４．類似画像検索処理
４．１類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図２４Ａおよび図２４Ｂは、類似画像検索処理の流れを示すフローチャートである。特に、図２４ＡのステップＳ２４０１からステップＳ２４０７までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。

他方、図２４ＢのステップＳ２４０８からステップＳ２４２４までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。

ステップＳ２４０１では、検索元画像入力部２０７の制御のもと、画像入力装置１１０を介して検索元文書画像を入力し、画像一時記憶部２０８によりＲＡＭ１０３上の画像メモリへ検索元文書画像を一時的に記憶する。

ステップＳ２４０２では、領域分割部２０９が検索元文書画像を複数の部分領域（文字領域および画像領域）へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する（リーディングオーダを付与する）。これは検索元文書画像の各部分領域に対応する情報を管理するためである。

ステップＳ２４０３では、領域特徴抽出部２１０にて、部分領域個数Ｎ、文字領域個数Ｋｑ、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報を抽出し、ＲＡＭ１０３上のワーク領域にこれらを一時的に記憶する。

上記ステップＳ２４０２およびステップＳ２４０３の処理は、基本的に図２０の画像登録処理と同様の処理であり、図２１、図２２および図２３の各ＤＢへ登録する代わりに、検索元文書画像解析結果としてＲＡＭ１０３上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。

ステップＳ２４０４では、領域類似比較部２１１が検索元文書画像の各画像領域の重心近傍の分割ブロックを決定する。そしてステップＳ２４０３における検索元文書画像の形状判断の結果および抽出された画像領域個数Ｋｑ、ならびに当該決定された分割ブロックに基づいて、文字領域管理ＤＢ１９０１の文字領域インデックス（図２２）を参照し、一致する場合には当該文字領域ＩＤと各文字領域の特徴量（アスペクト比、大きさ、重心位置座標）を、検索元文書画像の文字領域のリーディングオーダに対応付けてＲＡＭ１０３のメモリ上へ読み込む。

ステップＳ２４０５では上記メモリ上にリーディングオーダに対応付けて読み込まれた各文字領域の特徴量（アスペクト比、大きさ、重心位置座標）と、検索元文書画像の文字領域の重心位置座標、大きさ、アスペクト比と比較し、許容範囲にある文字領域を絞り込む。また、絞り込んだ文字領域ＩＤを検索元文字領域画像に含まれる文字領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の文字領域全てに対して行う。

ステップＳ２４０６では、上記ステップＳ２４０５で絞り込んだ文字領域ＩＤ群を図２３の登録文書画像ＩＤフィールド２１０１を参照して登録文書画像ＩＤに変換し、これを新たに記憶する。これを文字領域群全てに対して行う。

ステップＳ２４０７では、ステップＳ２４０６で得た登録文書画像ＩＤ群どうしの論理積をとることにより、検索元文書画像の全ての文字領域に対応する文字領域を持つ登録文書画像を絞り込み、その登録文書画像ＩＤ群（個数Ｌ）を登録文書画像ＩＤリストとして新たに記憶する。以上が類似画像検索処理におけるプリサーチ処理についての説明である。

次に、図２４Ｂを用いて特徴量の詳細比較ならびに類似度算出の処理について説明する。まず、ステップＳ２４０８では、処理済みプリサーチデータカウンタｉを０にセットし、ステップＳ２４０９では、プリサーチ処理の結果得られた登録文書画像ＩＤ群の個数Ｌと比較を行い、プリサーチデータカウンタｉが個数Ｌより小さいか否かを判定する。ステップＳ２４０９において、プリサーチデータカウンタｉが個数Ｌより小さいと判定された場合には、ステップＳ２４１０に進む。

ステップＳ２４１０では処理済み画像領域カウンタｊおよび文字領域累積類似度Ｓｕｍ＿Ｔを０にリセットする。ステップＳ２４１１では、ステップＳ２４０７で記憶された登録文書画像ＩＤリストのｉ番目の登録文書画像ＩＤであるＤｉを取得する。

ステップＳ２４１２からステップＳ２４１５では、検索元文書画像の全文字領域と登録文書画像Ｄｉの全文字領域の類似比較を行い、文字領域累積類似度Ｓｕｍ＿Ｔを得る。文字領域同士の類似比較については後で詳しく説明を行う。

ステップＳ２４１２では、処理済み文字領域カウンタｋと文字領域個数Ｊｑとを比較することで、未比較の文字領域が有るかどうかをチェックする。処理済み文字領域カウンタｋが文字領域個数Ｋｑより小さく、未比較の文字領域があると判断された場合には、ステップＳ２４１３に進み、画像管理ＤＢ２１５内のデータ（図２１）を参照し、登録文書画像ＩＤがＤｉの登録文書画像に含まれる未比較の文字領域ＩＤを読み出す。そしてステップＳ２４０５で読み込んだリーディングオーダｋに対応する文字領域ＩＤ群の中から、当該読み出した文字領域ＩＤと一致するものを探し、当該文字領域の特徴量を読み出す。

続いてステップＳ２４１４では、検索元文書画像のリーディングオーダｋの文字領域の特徴量と上記ステップＳ２４１３で得た文字領域の特徴量の類似度演算を行い、Ｓｕｍ＿Ｔに加算する。ステップＳ２４１５では、処理済み文字領域カウンタｋをインクリメントする。

ステップＳ２４１２において未比較の文字領域が無いと判断されるまで、ステップＳ２４１２からステップＳ２４１５までの処理を繰り返し、未比較の文字領域が無いと判断された場合には、ステップＳ２４１６へ進み、登録文書画像ＩＤがＤｉの登録文書画像の総合類似度として、

ステップＳ２４１７では処理済みプリサーチデータカウンタｉをインクリメントし、再びステップＳ２４０９に戻る。ステップＳ２４０９では、プリサーチ処理により絞り込まれた登録文書画像群のすべてと比較を行っていないと判断した場合には、再び、ステップＳ２４１０からステップＳ２４１７の処理を行う。

一方、プリサーチ処理により絞り込まれた全ての登録文書画像群と比較を行ったと判断した場合には、ステップＳ２４１８に進み、ステップＳ２４１６にて記憶したＬ個の登録文書画像ＩＤに対する総合類似度Ｓｉｍ＿ｉの降順で登録文書画像ＩＤをソートし、検索結果とする。また、ステップＳ２４１９では、図１８に示すように検索された登録文書画像のサムネール画像により検索結果一覧として表示する。また、あわせて総合類似度も表示する。

４．２領域類似比較処理（ステップＳ２４１４）の詳細
次に検索元文書画像の着目する文字領域と登録文書画像の文字領域の類似比較処理について図２５のフローチャートを用いて説明する。

まず、ステップＳ２５０１では、検索元文書画像の着目する画像領域の重心位置座標と大きさとアスペクト比と領域内文字情報とを読み込み、ステップＳ２５０２では、登録文書画像の文字領域の重心位置座標と大きさとアスペクト比と領域内文字情報とを読み込む。

ステップＳ２５０３ではアスペクト比の差異を求め、ステップＳ２５０４ではアスペクト比の差異が閾値以下であるか否かを判断する。ステップＳ２５０４にてアスペクト比の差異が閾値以下であると判断された場合には、ステップＳ２５０５に進む。一方、アスペクト比の差異が閾値よりも大きいと判断された場合にはステップＳ２５０９に進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ２５０５では重心位置座標の差異を求め、ステップＳ２５０６では、重心位置座標の差異が閾値以下であるか否かを判断する。ステップＳ２５０６にて、重心位置座標の差異が閾値以下であると判断された場合には、ステップＳ２５０７に進む。一方、重心位置座標の差異が閾値よりも大きいと判断された場合にはステップＳ２５０９へ進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ２５０７では、文書画像に対する大きさの差異を求め、ステップＳ２５０８では大きさの差異が閾値以下であるか否かを判断する。ステップＳ２５０８にて大きさの差異が閾値以下であると判断された場合には、ステップＳ２５１０に進む。一方、大きさの差異が閾値よりも大きいと判断された場合にはステップＳ２５０９へ進み、類似比較処理を行わず類似度０％と出力する。

ステップＳ２５１０では、上記アスペクト比の差異、重心位置座標の差異および大きさの差異に基づいて、類似度からの減点割合Ｒｐを設定する。ここで、検索元文書画像の着目する文字領域のアスペクト比をＡｓｐ０、重心位置座標を（Ｇｘ０、Ｇｙ０）、大きさをＳ０とする。また、登録文書画像の文字領域のアスペクト比をＡｓｐ１、重心位置座標を（Ｇｘ１、Ｇｙ１）、大きさをＳ１とする。

なお、上記第１の実施形態と同様、重心位置座標は文書画像の縦および横を１とした場合の相対的（０≦Ｘ≦１）位置座標と定義し、文字領域の大きさとは文書画像の面積を１とした場合の文字領域の面積と定義し、アスペクト比とは文字領域の横の画素数に対する縦の画素数の比と定義する。

と表現できる。

そしてステップＳ２５１１において、領域内文字情報を比較し各文字領域間の類似度を得る。

ここで、図２６を用いて各文字領域間の類似度を求めるための処理の流れについて説明する。ステップＳ２６０１では検索元文書画像の文字領域の領域内文字数Ｍと文字配列Ｓｔｒ１［Ｍ］を得る。ステップＳ２６０２では登録文書画像の文字領域の領域内文字数Ｎと文字配列Ｓｔｒ２[Ｎ]を得る。

ステップＳ２６０３では、Ｓｔｒ１［Ｍ］を参照するための配列要素番号Ｉ、Ｓｔｒ２［Ｎ］を参照するための配列要素番号Ｊ、類似距離Ｄｉｓｔを０リセットする。Ｓｔｒ１［０］は検索元文書画像の文字領域の先頭文字となる。

ステップＳ２６０４では、Ｉ番目の検索元文書画像の文字Ｓｔｒ１［Ｉ］とＪ番目の登録文書画像の文字Ｓｔｒ２［Ｊ］とを比較し、同一であればステップＳ２６０５においてＩおよびＪを１つ増加させ、検索元文書画像と登録文書画像の文字をそれぞれ１文字進め、ステップＳ２６０７に進む。

他方、ステップＳ２６０４でＳｔｒ１［Ｉ］とＳｔｒ２［Ｊ］が異なる場合には、ステップＳ２６０６にてＩのみを１つ増加させ、即ち検索元文書画像の文字のみを１文字進め、類似距離Ｄｉｓｔを１つ増加させ、ステップＳ２６０７に進む。

ステップＳ２６０７では、Ｉ＜Ｍ且つＪ＜Ｎ、即ち参照する文字が制限範囲であるかどうかをチェックし、この条件を満たす場合には再びステップＳ２６０４に戻り文字の比較を行う。一方、ステップＳ２６０７でＮＯの場合には、下式７に従って正規化類似距離を得る。

式７によれば、検索元文書画像の文字列と登録文書画像の文字列とが同一であればＤｎｏｒｍ＝０となり、登録文書画像の文字列に検索元文書画像の文字列に無い文字が存在すれば存在するほどＤｎｏｒｍの値は大きくなる。また、検索元文書画像の文字列と登録文書画像の文字列の長さが異なる場合に、未比較文字の長さが長いほどＤｎｏｒｍの値が大きくなる。

更に、正規化類似距離Ｄｎｏｒｍを得て、これを図２７のような非線形特性をもつ距離を類似度へ変換するテーブルを参照して類似度Ｓを得る。そして、最後にステップＳ２５１１においてステップＳ２５１０で求めた減点割合を用い、

の要領で文字領域累積類似度Ｓｕｍ＿Ｔを得る。

以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる文字領域の個数の他、文字領域の重心位置のブロックＩＤを用いることとした。このように、文字領域の個数に加え、文字領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。

また、絞り込みにあたっては、文字領域の個数と文字領域の重心位置のブロックＩＤとをインデックスとして、当該インデックスに一致する文字領域の特徴量のみをメモリ上に読み込む構成とした。このようにＤＢ化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、ＨＤＤ上に記憶された特徴量を逐次読み込んだり、ＤＢに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。

また、絞り込み時の漏れをなくすべく、絞込条件である文字領域の重心位置のブロックＩＤに許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた文字領域の特徴量（各文字領域の重心位置座標、大きさ、アスペクト比）について許容範囲内にあることを条件として更に絞り込むこととしている。このように、２段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。

また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる文字領域の重心位置座標、大きさ、アスペクト比、ならびに領域内文字情報を用いることとした。

＜第３の実施形態＞
上記第１及び第２の実施形態では検索元文書画像を検索クエリとして与える場合について述べたが、本発明はこれに限られず、既に登録された登録文書画像を検索クエリとして与えることも可能である。その場合、図１５ＡのステップＳ１５０１およびステップＳ１５０２およびステップＳ１５０３が登録文書画像の画像領域個数Ｎ、画像領域個数Ｊｑ、登録文書画像に含まれる画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報とをＤＢから読み出すように構成することで実現することができる。

＜第４の実施形態＞
上記第１の実施形態では画像領域に基づいて、上記第２の実施形態では文字領域に基づいてそれぞれ画像登録・類似画像検索処理を行うこととしたが、本発明はこれに限られず、画像領域と文字領域の両方を用いて画像登録・類似画像検索処理を行うこともできる。以下に詳細を説明する。

２．画像検索装置の機能ブロック構成
図２８は本実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。なお、上記第１の実施形態と同様のブロックについては同一の参照番号を付すものとし、ここでは説明は省略する。図２との差異は、１９０１に示す文字領域管理ＤＢが追加された点であり、同ＤＢには、特徴量更新部２０６により、各部分領域のうち文字領域の特徴量が格納される。

３．画像登録処理
３．１画像登録処理全体の流れ
はじめに画像登録処理により各ＤＢ（画像管理ＤＢ２１５、画像領域管理ＤＢ２１６、文字領域管理ＤＢ１９０１）に格納されるデータについて説明する。

画像登録処理により登録文書画像として登録される画像は複数の部分領域（画像領域と文字領域）が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として色特徴情報（または領域内文字情報）が求められ、これらは登録文書画像と対応づけて画像管理ＤＢ２１５、画像領域管理ＤＢ２１６、文字領域管理ＤＢ１９０１にそれぞれ格納される。画像管理ＤＢ２１５、画像領域管理ＤＢ２１６、文字領域管理ＤＢ１９０１の各ＤＢに格納されるデータの具体例は図３０乃至３４に示す通りである。

図３０は画像管理ＤＢ２１５に格納されるデータの具体例を、図３１、３２は画像領域管理ＤＢ２１６に格納されるデータの具体例を、図３３、図３４は文字領域管理ＤＢ１９０１に格納されるデータの具体例をそれぞれ示している。

次に画像登録処理により、各ＤＢを生成するまでの処理の流れを図２９を用いて説明する。図２９は、画像登録処理の流れを示すフローチャートである。ステップＳ２９０１では登録画像入力部２０２が画像入力装置１１０を介して登録文書画像を入力する。そして画像記憶制御部２０３が当該入力された登録文書画像のＩＤを発行し、画像管理ＤＢ２１５内の登録文書画像ＩＤフィールド（図３０の３００１）に当該登録文書画像のＩＤを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド（図３０の３００２）に記憶したうえで、画像格納部２１４へ当該登録文書画像をファイルとして格納する。

ステップＳ２９０２では、領域分割部２０４が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数（Ｎ個）を得る。なお、部分領域とその属性の抽出については、上記第１の実施形態において図４を用いて説明済みであるため、ここでは詳細は省略する。

ステップＳ２９０３では、領域特徴量抽出部２０５が部分領域個数カウンタＩ、画像領域個数カウンタＪおよび文字領域個数カウンタＫを０にリセットする。さらに、ステップＳ２９０４では、部分領域個数カウンタＩが部分領域個数Ｎより小さいか否かを判定する。ステップＳ２９０４にて部分領域個数カウンタＩが部分領域個数Ｎより小さいと判定された場合には、ステップＳ２９０５以下の処理に進む。このように、ステップＳ２９０５以下の処理は、部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域が無くなるまで繰り返す。

部分領域個数カウンタＩが部分領域個数Ｎと等しくなり、未処理の部分領域がなくなったら、ステップＳ２９１７に進み、特徴量更新部２０６が画像管理ＤＢ２１５内の画像領域数フィールド３００３に、画像領域個数カウンタＪの値を、文字領域数フィールド３００４に文字領域個数カウンタＫの値をそれぞれ記憶するとともに、当該登録文書画像に含まれる画像領域ＩＤ群を画像領域ＩＤフィールド３００５に、文字領域ＩＤ群を文字領域ＩＤフィールド３００６に記憶し、処理を終了する。

一方、ステップＳ２９０４でＩ＜Ｎであると判定され、未処理の部分領域があると判断された場合には、ステップＳ２９０５において領域特徴量抽出部２０５が当該Ｉ番目の部分領域の属性が画像領域であるか否かを判断する。ステップＳ２９０５で画像領域であると判断された場合には、ステップＳ２９０６において画像領域個数カウンタＪを１つ増加させ、ステップＳ２９０７に進む。

ステップＳ２９０７では、当該Ｉ番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として色特徴情報を抽出する。

ステップＳ２９０８では、特徴量更新部２０６がユニークな画像領域ＩＤを発行する。さらにステップＳ２９０９では、登録文書画像の画像領域の性質を反映したインデックス（画像領域インデックス）を決定する。本実施形態では、画像領域インデックスは、
・文書画像形状（縦長、横長、正方形）（３１０１）
・文書画像が含む画像領域の個数（３１０２）
・画像領域の重心位置ブロック（３１０３）
の組み合わせとする。

さらに、ステップＳ２９１０では、特徴量更新部２０６が画像領域管理ＤＢ２１６内に重心位置座標（３２０３）、登録文書画像に対する大きさ（３２０２）、アスペクト比（３２０１）、ならびに色特徴情報（３２０４）を画像領域ＩＤ（３００５）と対応付けて記憶する。ステップＳ２９１１では、部分領域個数カウンタＩを１つ増加させ、再びステップＳ２９０４に戻る。

他方、ステップＳ２９０５においてＩ番目の部分領域の属性が画像領域でないと判断された場合にはステップＳ２９１１に進み、ステップＳ２９１１において文字領域個数カウンタＫを１つ増加させ、ステップＳ２９１２に進む。

ステップＳ２９１２では、当該Ｉ番目「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として領域内文字情報を抽出する。

ステップＳ２９１３では、特徴量更新部２０６がユニークな文字領域ＩＤを発行する。さらにステップＳ２９１４では、登録文書画像の文字領域の性質を反映したインデックス（文字領域インデックス）を決定する。本実施形態では、文字領域インデックスは、
・文書画像形状（縦長、横長、正方形）（３３０１）
・文書画像が含む文字領域の個数（３３０２）
・文字領域の重心位置ブロック（３３０３）
の組み合わせとする。

さらに、ステップＳ２９１５では、特徴量更新部２０６が画像領域管理ＤＢ２１６内に重心位置座標（３４０３）、登録文書画像に対する大きさ（３４０２）、アスペクト比（３４０１）、ならびに領域内文字情報（３４０４）を文字領域ＩＤ（３００６）と対応付けて記憶する。ステップＳ２９１６では、部分領域個数カウンタＩを１つ増加させ、再びステップＳ２９０４に戻る。

４．類似画像検索処理
４．１類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図３５Ａおよび図３５Ｂは、類似画像検索処理の流れを示すフローチャートである。特に図３５ＡのステップＳ３５０１からステップＳ３５１３までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理を再帰的に行う場合の処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。

他方、図３５ＢのステップＳ３５１４からステップＳ３５２９までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。

ステップＳ３５０１では、検索元画像入力部２０７の制御のもと、画像入力装置１１０を介して検索元文書画像を入力し、画像一時記憶部２０８によりＲＡＭ１０３上の画像メモリへ当該検索元文書画像を一時的に記憶する。

ステップＳ３５０２では、領域分割部２０９が検索元文書画像を複数の部分領域（文字領域および画像領域）へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する（リーディングオーダを付与する）。これは検索元文書画像の各部分領域に対応する情報を管理するためである。

ステップＳ３５０３では、領域特徴抽出部２１０にて、検索元文書画像の形状判断を行うとともに、部分領域個数Ｎ、画像領域個数Ｊｑ、文字領域個数Ｋｑ、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報、各画像領域の重心位置座標、大きさ、アスペクト比ならびに色特徴情報を抽出し、ＲＡＭ１０３上のワーク領域にこれらを一時記憶する。

上記ステップＳ３５０２およびステップＳ３５０３の処理は、基本的に図２９の画像登録時の処理と同様であり、図３０、図３１、図３２、図３３および図３４の各ＤＢへ登録する代わりに、検索元文書画像解析結果としてＲＡＭ１０３上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。

ステップＳ３５０４では、画像領域個数Ｊｑから画像領域個数許容範囲最大値Ｍ＿Ｉ＿ＭＡＸを求める。これは例えば画像領域個数Ｊｑに対して予め決めた割合で算出されるものとする。同様に、ステップＳ３５０５にて文字領域個数Ｋｑから文字領域個数許容範囲最大値Ｍ＿Ｔ＿ＭＡＸを求める。

ステップＳ３５０６では、画像領域個数許容範囲Ｍ＿Ｉと文字領域個数許容範囲Ｍ＿Ｔを０に初期化し、ステップＳ３５０７では、図３６のプリサーチ処理（詳細は後述）を呼ぶが、初回は画像領域、文字領域ともに個数が同一の検索を行う。

ステップＳ３５０８では、ステップＳ３５０７のプリサーチ処理の結果、ヒット数Ｌが０より大きいか判断し、大きければ図３５Ｂの特徴量の詳細比較処理に進む。

一方、ステップＳ３５０８にてヒット数Ｌが０以下の場合にはステップＳ３５０９にて領域個数許容範囲Ｍ＿ＩおよびＭ＿Ｔがともに領域個数許容範囲最大値に達していないかを確認し、ともに達している場合には、プリサーチの処理でヒットが無くとも図３５Ｂの特徴量詳細比較処理に進む（この場合、ヒット数０という結果になる）。

一方、ステップＳ３５０９にて領域個数許容範囲Ｍ＿ＩおよびＭ＿Ｔがともに領域個数許容範囲最大値に達していない場合には、ステップＳ３５１０にて画像領域個数許容範囲Ｍ＿Ｉが領域個数許容範囲最大値Ｍ＿Ｉ＿ＭＡＸに達していないかを確認し、達していなければステップＳ３５１１にて画像領域個数許容範囲Ｍ＿Ｉを１インクリメントした後ステップＳ３５１２に進み、達していればステップＳ３５１２に進む。

同様に、ステップＳ３５１２にて文字領域個数許容範囲Ｍ＿Ｔが領域個数許容範囲最大値Ｍ＿Ｔ＿ＭＡＸに達していないかを確認し、達していなければステップＳ３５１３にて文字領域個数許容範囲Ｍ＿Ｔを１インクリメントした後、再びステップＳ３５０７のプリサーチ処理を行い、達していれば直接ステップＳ３５０７のプリサーチ処理を行う。

そして、ステップＳ３５０８でプリサーチ処理の結果がヒット数Ｌ＞０となったと判断されるか、或いはステップＳ３５０９にて画像領域・文字領域ともに領域個数許容範囲最大値に達してしまうかのどちらかの条件を満たすまで再帰的にステップＳ３５０７からステップＳ３５１３までの処理を行う。

次に図３５Ｂを用いて特徴量詳細比較処理のフローを説明する。まず、ステップＳ３５１４において処理済みプリサーチデータカウンタｉを０にセットし、ステップＳ３５１５においてプリサーチ処理のヒット数Ｌと比較を行い、これを超えていなければ特徴量詳細比較処理のステップＳ３５１６へと進む。

ステップＳ３５１６では処理済み画像領域カウンタｊ、処理済み文字領域カウンタｋ、画像領域累積類似度Ｓｕｍ＿Ｉ、文字領域累積類似度Ｓｕｍ＿Ｔを０にリセットする。そしてステップＳ３５１３で記憶された登録文書画像ＩＤリストのｉ番目の登録文書画像ＩＤであるＤｉを取得する。

そしてステップＳ３５１８からステップＳ３５２１の処理で検索元文書画像の全画像領域と登録文書画像Ｄｉの全画像領域の類似比較を行い、画像領域累積類似度Ｓｕｍ＿Ｉを得る。

ステップＳ３５１８では未比較の画像領域が有るかどうかをチェックし、未比較の画像領域が無い場合にはステップＳ３５２２の文字領域比較へ分岐し、未比較の画像領域がある場合にはステップＳ３５１９にて図３０の画像管理ＤＢから登録文書画像ＩＤがＤｉの登録文書画像に含まれる未比較の画像領域ＩＤを読み出す。そしてステップＳ３６０３で読み込んだリーディングオーダｊに対応する画像領域ＩＤ群の中から、当該読み出した画像領域ＩＤと一致するものを探し、当該画像領域の特徴量を読み出す。

ステップＳ３５２０では、一致するものがあったかどうか判断し、一致するものがある場合にはステップＳ３５２１で検索元文書画像のリーディングオーダｊの画像領域の特徴量と上記ステップＳ３５１９で得た画像領域の特徴量との類似度演算を行い、画像領域累積類似度Ｓｕｍ＿Ｉに加算する。ステップＳ３５２２では処理済み画像領域カウンタｊをインクリメントする。

一方、ステップＳ３５２０にて一致するものがなかった場合には、ステップＳ３５２３で似ているか似ていないか微妙なデフォルトの類似度をＳｕｍ＿Ｉに加算し、ステップＳ３５２２で処理済み画像領域カウンタｊをインクリメントする。

ステップＳ３５１９からステップＳ３５２３の処理を未比較の画像領域が無くなるまで繰り返し、未比較の画像領域が無い場合にはステップＳ３５２４の文字領域の比較処理へ進む。

ステップＳ３５２４からステップＳ３５２９の処理では、検索元文書画像の全文字領域と登録文書画像Ｄｉの全文字領域の類似比較を行い、文字領域累積類似度Ｓｕｍ＿Ｔを得る。

ステップＳ３５２４では未比較の文字領域が有るかどうかをチェックし、未比較の文字領域がある場合には、ステップＳ３５２５にて図３０の画像管理ＤＢから登録文書画像Ｄｉの登録文書画像に含まれる未比較の文字領域ＩＤを読み出す。そして、ステップＳ３５０８で読み込んだリーディングオーダｋに対応する文字領域ＩＤ群の中から、当該読みだした文字領域ＩＤと一致するものを探し、当該文字領域の特徴量を読み出す。

ステップＳ３５２６では、一致するものがあったかどうか判断し、一致するものがある場合にはステップＳ３５２７で検索元文書画像のリーディングオーダｋの文字領域の特徴量と上記ステップＳ３５２２で得た特徴量との類似度演算を行い、Ｓｕｍ＿Ｔに加算し、ステップＳ３５２８で処理済み文字領域カウンタｋをインクリメントする。

一方、ステップＳ３５２６にて一致するものがなかった場合にはステップＳ３５２９で似ているか似ていないか微妙なデフォルトの類似度をＳｕｍ＿Ｔに加算し、ステップＳ３５２８で処理済み文字領域カウンタｋをインクリメントする。

ステップＳ３５２４からステップＳ３５２８の処理を未比較の文字領域が無くなるまで繰り返し、未比較の文字領域が無い場合にはステップＳ３５２４からステップＳ３５３０へ分岐し、登録文書画像Ｄｉの総合類似度として

を計算する。計算された総合類似度は登録文書画像ＩＤと対応づけて記憶し、ステップＳ３５３１にて処理済みプリサーチデータカウンタｉをインクリメントし、再びステップＳ３５１５に戻る。

ステップＳ３５１５において処理済みプリサーチデータカウンタｉがプリサーチ処理のヒット数Ｌより小さい場合には（プリサーチ処理でヒットした登録文書画像の全てと比較を行っていないと判断した場合には）、再び、ステップＳ３５１６からステップＳ３５３１の処理を行う。一方、プリサーチ処理でヒットした登録文書画像の全てと比較を行ったと判断した場合には、ステップＳ３５３２に進み、ステップＳ３５３０にて記憶したＬ個の登録文書画像ＩＤについて総合類似度Ｓｉｍ＿ｉの降順でソートしたものを検索結果とし、ステップＳ３５３３にて当該検索された登録文書画像のサムネール画像を一覧表示する。また、あわせて総合類似度も表示する。

４．２プリサーチ処理
次に図３６のプリサーチ処理について説明する。同図のフローチャートにおいて、ステップＳ３６０２からステップＳ３６０６が画像領域に関する絞り込み処理であり、ステップＳ３６０７からステップＳ３６１１が文字領域に関する絞り込み処理であり、ステップＳ３６１２がこれらの処理結果の論理積演算を行い画像領域と文字領域の両方の条件を満たすプリサーチ結果をまとめる処理である。

ステップＳ３６０１では、プリサーチ処理の条件である画像領域個数Ｊｑ、画像領域個数許容範囲Ｍ＿Ｉ、文字領域個数Ｋｑ、文字領域個数許容範囲Ｍ＿Ｔ、検索元文書画像が含む文字領域群の重心位置座標と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報を受け取る。

ステップＳ３６０２では、画像領域個数Ｊｑ＝０であるか否かを判断し、画像領域個数Ｊｑ＝０の場合（すなわち、画像領域がない場合）には、ステップＳ３６０７に進む。一方、画像領域個数Ｊｑ＝０ではなく画像領域が存在すると判断された場合には、ステップＳ３６０３に進む。

ステップＳ３６０３では各画像領域の重心近傍の分割ブロックを決定する。そして、文書画像の形状判断の結果および抽出された画像領域個数Ｊｑ、ならびに当該決定された分割ブロックに基づいて図３１を参照し、一致する場合には当該画像領域ＩＤと各画像領域の特徴量を、検索元文書画像の画像領域のリーディングオーダに対応付けてメモリ上へ読み込む。

ステップＳ３６０４では上記メモリ上にリーディングオーダに対応付けて読み込まれた各画像領域の特徴量（アスペクト比、大きさ、重心位置座標）と、検索元文書画像の画像領域の重心位置座標、大きさ、アスペクト比とを比較し、許容範囲にある画像領域を絞り込む。また、絞り込んだ画像領域ＩＤを検索元文書画像に含まれる画像領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の画像領域全てに対して行う。

ステップＳ３６０５では、上記ステップＳ３６０４で絞り込んだ画像領域ＩＤ群を図３０の登録文書画像ＩＤフィールドを参照して登録文書画像ＩＤに変換し、これを新たに記憶する。これを画像領域群全てに対して行う。

ステップＳ３６０６では、ステップＳ３６０５で得た登録文書画像ＩＤ群どうしの論理積をとることにより、検索元文書画像の全ての画像領域に対応する画像領域を持つ登録文書画像を絞り込み、その登録文書画像ＩＤ群を登録文書画像ＩＤリストとして新たに記憶する。

ステップＳ３６０７からステップＳ３６１１が文字領域に関する絞り込み処理であり、上記の画像領域に対する絞り込み処理ステップＳ３６０２からステップＳ３６０６と同様の処理であり説明は割愛する。

ステップＳ３６１２では、各文字領域の登録文書画像ＩＤの論理積をとり、全文字領域が存在する登録文書画像ＩＤ群に絞り込み、これと先のステップＳ３６０６で記憶してある登録文書画像ＩＤ群との論理積をとることにより画像領域条件と文字領域条件を共に満たす登録文書画像ＩＤを絞り込み、その登録文書画像個数Ｌを得る。

以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる部分領域として、画像領域、文字領域の各々の個数、ならびに画像領域の重心位置のブロックＩＤ、文字領域の重心位置のブロックＩＤを用いることとした。このように、画像領域及び文字領域の個数と、画像領域および文字領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。

また、絞り込みにあたっては、画像領域の個数、文字領域の個数、画像領域の重心位置のブロックＩＤ、文字領域の重心位置のブロックＩＤとをインデックスとして、当該インデックスに一致する画像領域または文字領域の特徴量のみをメモリ上に読み込む構成とした。このようにＤＢ化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、ＨＤＤ上に記憶された特徴量を逐次読み込んだり、ＤＢに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。

また、絞り込み時の漏れをなくすべく、絞込条件である画像領域および文字領域の重心位置のブロックＩＤに許容値を持たせる一方で、適正な数に絞り込まれるようにすべく、絞込条件に一致しメモリに読み込まれた画像領域の特徴量（各画像領域の重心位置座標、大きさ、アスペクト比）について許容範囲内にあることを条件として更に絞り込むこととした。このように、２段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。

また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる画像領域および文字領域の重心位置座標、大きさ、アスペクト比、ならびに色特徴情報、領域内文字情報を用いた点に特徴がある。

更に、本実施形態によれば、プリサーチ処理により絞り込まれた結果、登録文書画像の個数が少なくとも、１つ以上となるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げる再帰的な構成とすることにより、検索能力の向上を図ることが可能となる。

＜第５の実施形態＞
上記第４の実施形態では、プリサーチ処理により絞り込まれた結果、登録文書画像の個数が少なくとも１つ以上となるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げる構成としたが、本発明はこれに限られず、類似画像検索処理において所定の閾値以上の総合類似度が得られるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げるようにしてもよい。

図３７に特徴量の詳細比較を行い、類似度を算出した結果、得られた総合類似度の最も高いものが閾値に達しない場合に、再度Ｍを増加して再帰的な検索処理を行い、閾値以上の総合類似度の検索結果を得る処理のフローを示す。

この処理は上記第４の実施形態における再帰的なプリサーチ処理に代わり、プリサーチ処理と特徴量の詳細比較処理の両方の処理を再帰的に行い、その検索結果を再帰処理の制御に用いた応用と考えて良い。

ステップＳ３５０１では、検索元画像入力部２０７の制御のもと、画像入力装置１１０を介して検索元文書画像を入力し、画像一時記憶部２０８によりＲＡＭ１０３上の画像メモリへ当該検索元文書画像を一時記憶する。

ステップＳ３５０２では、領域分割部２０９が検索元文書画像を複数の部分領域（文字領域および画像領域）を抽出し、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する（リーディングオーダを付与する）。これは検索元文書画像の各部分領域に対応する情報を管理するためである。

ステップＳ３５０３では、領域特徴抽出部２１０にて、部分領域個数Ｎ、画像領域個数Ｊｑ、文字領域個数Ｋｑ、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報、各画像領域の重心位置座標、大きさ、アスペクト比、色特徴情報を抽出し、ＲＡＭ１０３上のワーク領域にこれらを一時記憶する。

上記ステップＳ３５０２およびステップＳ３５０３の処理は、基本的に図２９の画像登録処理と同様の処理であり、図３０、図３１、図３２、図３３および図３４の各ＤＢへ登録する代わりに、検索元文書画像解析結果としてＲＡＭ１０３上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。

ステップＳ３５０４では、画像領域個数Ｊｑから画像領域個数許容範囲最大値Ｍ＿Ｉ＿ＭＡＸを求める。これは例えば画像領域個数に対して予め決めた割合で算出するものとする。同様に、ステップＳ３５０５では文字領域個数Ｊｑから文字領域個数許容範囲最大値Ｍ＿Ｔ＿ＭＡＸを求める。

ステップＳ３５０６では、画像領域個数許容範囲Ｍ＿Ｉと文字領域個数許容範囲Ｍ＿Ｔを０に初期化し、ステップＳ３７０１では、図３６のプリサーチ処理を行う。ここで、図３６のプリサーチ処理、ならびに次いで行われる図３５Ｂの特徴量の詳細比較処理については、初回は画像領域、文字領域がともに個数が同一の検索を行うこととなる。

なお、図３６の処理フローに関しては上記第４の実施形態にて説明済みであり、図３５Ｂの処理フローについても上記第４の実施形態の処理フローとほぼ同じ内容なので説明を割愛する。

ステップＳ３７０２では、ステップＳ３７０１における処理の結果、総合類似度の最大値が閾値より大きいか判断し、大きければステップＳ３７０３に進み、検索結果一覧表示を行う。

ステップＳ３７０２にて総合類似度の最大値が閾値より小さいと判断された場合には、ステップＳ３５０９にて画像領域個数許容範囲Ｍ＿Ｉおよび文字領域個数許容範囲Ｍ＿Ｔがともに領域個数許容範囲最大値（Ｍ＿Ｉ＿ＭＡＸ、Ｍ＿Ｔ＿ＭＡＸ）に達していないかを確認し、ともに達している場合にはステップＳ３７０４にて類似するものが無い旨を表示する。

ステップＳ３５０９において、画像領域個数許容範囲Ｍ＿Ｉまたは文字領域個数許容範囲Ｍ＿Ｔのいずれかが領域個数許容範囲最大値に達していた場合には、ステップＳ３５１０にて文字領域個数許容範囲Ｍ＿Ｉが画像領域個数許容範囲最大値Ｍ＿Ｉ＿ＭＡＸに達していないかを確認し、達していなければステップＳ３５１１にて１インクリメントした後、ステップＳ３５１２に進む。一方、達していれば直接ステップＳ３５１２に進む。

同様に、ステップＳ３５１２では、文字領域個数許容範囲Ｍ＿Ｔが文字領域個数許容範囲最大値に達していないかを確認し、達していなければステップＳ３５１３にて１インクリメントした後、再びステップＳ３７０１に戻る。一方、達していれば、直接ステップＳ３５０７に戻る。

そして、ステップＳ３７０２で総合類似度の最大値が閾値より大きい結果が見つかるか、或いはステップＳ３５０９にて画像領域・文字領域ともに領域個数許容範囲最大値に達してしまうかのいずれかの条件を満たすまで再帰的にステップＳ３７０１からＳ３５１３までの処理が行われる。

＜第６の実施形態＞
上記第４および第５の実施形態では文字領域と画像領域の両方を考慮した検索についての実施形態を挙げたが、当然、ユーザが選択することにより、文字領域のみ或いは画像領域のみを考慮した検索を行うようにすることも可能である。

これを簡便に実現するためには上記第４或いは第５の実施形態の構成のままで、領域特徴抽出部２０５における抽出結果をマスキングし文字領域のみ或いは画像領域のみを出力するようにすれば良い。

具体的には画像登録処理の際、図２８のステップＳ２８０２の領域特徴抽処理において抽出結果をマスキングすれば、抽出結果として反映されたものしか検索できない。

また、類似画像検索の際、領域特徴抽出処理である図３６のステップＳ３６０１において抽出結果をマスキング、例えば画像領域抽出結果を破棄すれば文字領域だけを考慮した検索が可能であり、逆に文字領域抽出結果を破棄すれば画像領域だけを考慮した検索が可能となる。

もちろん、図３６のステップＳ３６０２〜ステップＳ３６０６を取り除けば文字領域のみ考慮した検索、或いはステップＳ３６０７〜ステップＳ３６１１を取り除けば画像領域のみ考慮した検索となるが、これは実装マターの話であって、簡便のため説明は割愛する。

いずれにしても、上記第４および第５の実施形態の場合、文字領域或いは画像領域のどちらか片方でも文字領域と画像領域の両方でもどちらでも適応可能である。

＜第７の実施形態＞
上記第４乃至第６の実施形態では検索元文書画像を検索クエリとして与える場合について述べたが、本発明はこれに限られず、既に登録された登録文書画像を検索クエリとして与えることも可能である。その場合、図３５ＡのステップＳ３５０１およびステップＳ３５０２およびステップＳ３５０３が登録検索元文書画像の部分領域個数Ｎ、画像領域個数Ｊｑ、文字領域個数Ｋｑ、登録文書画像に含まれる文字領域群の重心位置座標と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報をＤＢから読み出すように構成することで実現することができる。

また、上記第４乃至第６の実施形態では、各部分領域に対して算出した類似度の平均を取り総合類似度としたが、類似度の平均或いは重み付けの平均をとることも可能である。

実現方法としては、予め検索条件として文字領域の重みγと画像領域の重みβをユーザが指定し、文字領域の正規化重みＷＴ＝γ／（γ＋β）、画像領域の正規化重みＷＩ＝β／（γ＋β）を各類似度に乗じて平均を算出することにより重み付け平均をとると良い。

そして、総合類似度ＦｉｎａｌＳｉｍは、文字領域個数Ｍ、ｉ番目の文字領域の類似度ＳＴｉ、Ｗｉ、および画像領域個数Ｎ、ｊ番目の文字領域の類似度ＳＩｊを用いて下式で表現できる。

また、画像領域における色特徴情報の比較精度と文字領域における領域内文字情報の比較精度の差は、特に文字領域内の文字数に依存するところが大きい。そこで、文字領域中のテキストデータの量が少ない場合には情報量が少ないということで文字領域に対する類似度の重みを減じると自動的に最適な重み付けが可能となる。

その実現のためには、例えば、画像領域と同等な類似度精度を得られる経験的な文字数閾値ζを用い、ｉ番目の文字領域中の文字数ｎの場合の重みＷｉは、例えば下式で表現できる。

この場合、総合類似度ＦｉｎａｌＳｉｍは、文字領域個数Ｍ、ｉ番目の文字領域の類似度ＳＴｉ、Ｗｉ、および画像領域個数Ｎ、ｊ番目の文字領域の類似度ＳＩｊを用いて下式で表現できる。

＜他の実施形態＞
なお、本発明は、複数の機器（例えばホストコンピュータ、インタフェース機器、リーダなど）から構成されるシステムあるいは統合装置に適用しても、ひとつの機器からなる装置に適用してもよい。

また、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、本発明の目的が達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読み出したプログラムコードを実行することによって、前述した実施形態の機能が実現される他、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体から、そのプログラムをパソコン通信など通信ラインを介して要求者にそのプログラムを配信する場合にも適用できることは言うまでもない。

本発明の各実地形態に共通する画像検索装置の構成例を示す図である。本発明の第１の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。画像登録処理の流れを示すフローチャートである。登録文書画像の一例を示す図である。色特徴情報について説明するための図である。色特徴情報について説明するための図である。画像領域インデックス決定処理のうち、画像領域の重心位置ブロックを求める処理の流れを示すフローチャートである。ブロック分割された登録文書画像において、画像領域の重心位置を示す図である。縦長のビジネス文書画像１万件について画像領域の重心位置の分布を求めた結果を示す図である。画像管理ＤＢに格納されるデータの具体例を示す図である。画像領域管理ＤＢに格納されるデータの具体例を示す図である。画像領域管理ＤＢに格納されるデータの具体例を示す図である。類似画像検索処理（プリサーチ処理）の流れを示すフローチャートである。類似画像検索処理（特徴量の詳細比較ならびに類似度算出処理）の流れを示すフローチャートである。分割ブロックにおける画像領域の重心位置の一例を示す図である。分割ブロックにおける画像領域の重心位置の一例を示す図である。分割ブロックにおける画像領域の重心位置の一例を示す図である。部分領域の重心の存在する分割ブロックと、該分割ブロックに隣接する分割ブロックとの距離の算出方法を説明するための図である。画像領域インデックスを参照すべき分割ブロック群を決定するための処理の流れを示すフローチャートである。画像領域比較処理の流れを示すフローチャートである。画像領域比較処理で用いる類似距離を類似度へ変換する関数の特性の一例を示す図である。検索結果表示画面の一例を示す図である。本発明の第２の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。画像登録処理の流れを示すフローチャートである。画像管理ＤＢに格納されるデータの具体例を示す図である。文字領域管理ＤＢに格納されるデータの具体例を示す図である。文字領域管理ＤＢに格納されるデータの具体例を示す図である。類似画像検索処理（プリサーチ処理）の流れを示すフローチャートである。類似画像検索処理（特徴量の詳細比較ならびに類似度算出処理）の流れを示すフローチャートである。文字領域比較処理の流れを示すフローチャートである。文字領域の類似度算出処理の流れを示すフローチャートである。文字領域比較処理で用いる類似距離を類似度へ変換する関数の特性の一例を示す図である。本発明の第４の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。画像登録処理の流れを示すフローチャートである。画像管理ＤＢに格納されるデータの具体例を示す図である。画像領域ＤＢに格納されるデータの具体例を示す図である。画像領域ＤＢに格納されるデータの具体例を示す図である。文字領域管理ＤＢに格納されるデータの具体例を示す図である。文字領域管理ＤＢに格納されるデータの具体例を示す図である。類似画像検索処理の流れを示すフローチャートである。類似画像検索処理の流れを示すフローチャートである。プリサーチ処理の流れを示すフローチャートである。類似検索処理の流れを示すフローチャートである。

Claims

保存された複数の登録文書画像の中から、クエリ文書画像に類似する文書画像を検索する文書画像検索装置であって、
文書画像を構成する複数の部分領域を抽出する抽出手段と、
前記抽出手段により抽出された各部分領域の属性を判定する判定手段と、
前記判定手段により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する算出手段と、
前記登録文書画像について前記算出手段により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存する保存手段と、
前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像を検索する第１検索手段と、
前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第１検索手段で検索した登録文書画像の中から検索する第２検索手段と
を有することを特徴とする文書画像検索装置。
前記着目領域は前記判定手段によって前記属性が画像であると判定された画像領域であることを特徴とする請求項１に記載の文書画像検索装置。
前記保存手段はハードディスクドライブであって、前記第２検索手段は前記ハードディスクドライブに保存された特徴量のうち、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像の着目領域の特徴量のみをメモリに読み込むことを特徴とする請求項１または２に記載の文書画像検索装置。
前記部分領域の特徴量は、少なくとも、各部分領域のアスペクト比、大きさ、重心位置座標のいずれかを含むことを特徴とする請求項１乃至３のいずれか１項に記載の文書画像検索装置。
前記部分領域の重心の位置とは、画像を複数のブロックに分割した場合において、各部分領域の重心がいずれのブロック上に位置しているかを示す識別子であることを特徴とする請求項１乃至４のいずれか１項に記載の文書画像検索装置。
前記算出手段を用いて算出された、前記クエリ文書画像に含まれる同一属性の部分領域の重心の位置に基づいて、前記保存手段に保存されたインデックスを参照するにあたっては、該各部分領域の重心がいずれのブロック上に位置しているかを示す識別子のほか、該各部分領域の重心が位置しているブロックの近傍に位置するブロックを示す識別子を用いて参照することを特徴とする請求項５に記載の文書画像検索装置。
前記第２検索手段は、前記第１検索手段により検索された各登録文書画像に含まれる各着目領域と前記クエリ文書画像に含まれる各着目領域との各類似度の平均値を、該登録文書画像と該クエリ文書画像との総合類似度として出力することを特徴とする請求項１乃至６のいずれか１項に記載の文書画像検索装置。
前記着目領域は文字領域であり、前記第２検索手段は前記第１検索手段により検索された各登録文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報と、前記クエリ文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報とを用いて、該各登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との類似度をそれぞれ算出することを特徴とする請求項１に記載の文書画像検索装置。
前記着目領域が画像領域であった場合、前記第２検索手段は、前記第１検索手段により検索された各登録文書画像に含まれる各画像領域のアスペクト比、大きさ、重心位置座標ならびに色特徴情報と、前記クエリ文書画像に含まれる各画像領域のアスペクト比、大きさ、重心位置座標ならびに色特徴情報とを用いて、該各登録文書画像に含まれる各画像領域と前記クエリ文書画像に含まれる各画像領域との類似度をそれぞれ算出し、
前記着目領域が文字領域であった場合、前記第２検索手段は、前記第１検索手段により検索された各登録文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報と、前記クエリ文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報とを用いて、該各登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との類似度をそれぞれ算出することを特徴とする請求項１に記載の文書画像検索装置。
前記第２検索手段は、前記第１検索手段により検索された各登録文書画像に含まれる各画像領域と前記クエリ文書画像に含まれる各画像領域との各類似度の平均値と、前記各登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との各類似度の平均値とを算出し、両平均値に重み付けした後、該登録文書画像と該クエリ文書画像との総合類似度として出力することを特徴とする請求項９に記載の文書画像検索装置。
前記保存手段はインデックスとして各登録文書画像の文書形状を更に有し、前記第１検索手段は保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置と文書形状とに一致する登録文書画像を検索することを特徴とする請求項１乃至１０のいずれか１項に記載の文書画像検索装置。
保存された複数の登録文書画像の中から、クエリ文書画像に類似する画像を検索する画像検索方法であって、
画像を構成する複数の部分領域を抽出する抽出工程と、
前記抽出工程により抽出された各部分領域の属性を判定する判定工程と、
前記判定工程により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する第１の算出工程と、
前記登録文書画像について前記算出工程により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存手段に保存する保存工程と、
前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出工程を用いて算出された着目領域の個数と該着目領域の重心の位置とに一致する登録文書画像を検索する第１検索工程と、
前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第１検索工程で検索した登録文書画像の中から検索する第２検索工程と
を有することを特徴とする文書画像検索方法。
請求項１２に記載の文書画像検索方法をコンピュータによって実現させるための制御プログラム。
請求項１２に記載の文書画像検索方法をコンピュータによって実現させるための制御プログラムを格納する記憶媒体。