JP4641414B2 - 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 - Google Patents

文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 Download PDF

Info

Publication number
JP4641414B2
JP4641414B2 JP2004354702A JP2004354702A JP4641414B2 JP 4641414 B2 JP4641414 B2 JP 4641414B2 JP 2004354702 A JP2004354702 A JP 2004354702A JP 2004354702 A JP2004354702 A JP 2004354702A JP 4641414 B2 JP4641414 B2 JP 4641414B2
Authority
JP
Japan
Prior art keywords
image
document image
area
region
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004354702A
Other languages
English (en)
Other versions
JP2006163841A5 (ja
JP2006163841A (ja
Inventor
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004354702A priority Critical patent/JP4641414B2/ja
Priority to US11/291,981 priority patent/US7508998B2/en
Priority to DE602005015534T priority patent/DE602005015534D1/de
Priority to EP05257528A priority patent/EP1669908B1/en
Publication of JP2006163841A publication Critical patent/JP2006163841A/ja
Publication of JP2006163841A5 publication Critical patent/JP2006163841A5/ja
Application granted granted Critical
Publication of JP4641414B2 publication Critical patent/JP4641414B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本発明は文書画像を検索する画像検索技術に関するものである。
従来より、所定の文書画像と同一または類似の文書画像をDB(データベース)の中から高速に検索するための画像検索技術が提案されている。例えば、下記特許文献1では、文書画像より複数の部分領域を抽出し、当該抽出された部分領域の個数を絞込条件として、領域個数の一致する文書画像について、その特徴量を用いて類似度の算出を行うよう構成することで検索の高速化を実現している。
特開2001−319231号公報
しかしながら、上記従来技術に記載した検索方法の場合、部分領域の個数のみを絞込条件としているため、十分な絞り込みができない場合がある。そこで、適正な数にまで絞り込みをかけ、検索の更なる高速化を実現するために、部分領域の個数のみならず部分領域の特徴量等も絞込条件に含めることが望まれる。
しかし、絞り込みにあたり部分領域のすべての特徴量をメモリ上に常駐させることとすると、システムコストの上昇につながり妥当ではない。一方、かかる問題を回避すべく、各文書画像の有する全特徴量をHDD(ハードディスクドライブ)に保存することとすると、ファイルアクセスに時間がかかり耐えがたい画像検索時間となってしまう。同様に、全特徴量をDBにて管理し、DBから所望の文書画像の特徴量を直接参照するように構成した場合でも、データベーストランザクションに時間がかかるほか、HDDからデータを読み込むための処理時間もかかるため、現実的ではない。したがって、適正な数への絞り込みを実現するよう、最適な特徴量のみを用いるとともに、かかる絞り込み処理を高速かつ低コストで実現することが望まれている。
さらに、上記特許文献1のように、画像検索を行うにあたり、領域個数の一致する文書画像を対象に特徴量の比較を行うこととすると、文書画像から部分領域を抽出する際に過剰に抽出したり、あるいは部分領域の抽出漏れにより、的確な画像検索ができなくなってしまう場合がある。このため、絞込条件に用いる特徴量等には柔軟性を持たせることも必要である。
本発明は、上記課題に鑑みてなされたものであり、所定の文書画像と同一または類似の文書画像を検索するにあたり、的確な検索結果を高速に得ることが可能な画像検索装置を低コストで実現することを目的とする。
上記の目的を達成するために本発明に係る文書画像検索装置は以下のような構成を備える。即ち、
保存された複数の登録文書画像の中から、クエリ文書画像に類似する文書画像を検索する文書画像検索装置であって、
文書画像を構成する複数の部分領域を抽出する抽出手段と、
前記抽出手段により抽出された各部分領域の属性を判定する判定手段と、
前記判定手段により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する算出手段と、
前記登録文書画像について前記算出手段により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存する保存手段と、
前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像検索する第1検索手段と、
前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第1検索手段で検索した登録文書画像の中から検索する第2検索手段とを有することを特徴とする。
本発明によれば、所定の文書画像と同一または類似の文書画像を検索するにあたり、的確な検索結果を高速に得ることが可能な画像検索装置を低コストで実現することができる。
はじめに本発明の各実施形態の概要について説明する。以下に説明する各実施形態の画像検索装置による画像検索処理は、絞込条件として、文書画像に含まれる部分領域の個数の他、部分領域の重心位置のブロック(位置を表す識別子)を用いることとしている点に特徴がある。このように、部分領域の個数に加え、部分領域の重心位置のブロックを用いることにより、適正な数の絞り込みを行うことが可能となる。
また、絞り込みにあたっては、部分領域の個数と部分領域の重心位置のブロックとをインデックスとして、当該インデックスに一致する部分領域の特徴量のみをメモリ上に読み込む構成としている点に特徴がある。このように、DB化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、HDD上に記憶された特徴量を逐次読み込んだり、DBに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。
さらに、従来は、文書画像に含まれる部分領域の個数が一致するもののみに絞り込んでいたために、部分領域の抽出漏れがあった場合に、的確な画像検索を行うことができなくなってしまっていたところ、以下に説明する第4、5、6の実施形態にかかる画像検索装置によれば、このような場合であっても、漏れなく絞り込むことが可能なように構成されている。具体的には、部分領域の個数に許容値を設け(算出された類似度に閾値を設け)、適正な数に絞り込まれなかった場合に、許容値を変更し再度絞り込みを行うよう、再帰的な処理を取り入れている。また、部分領域の重心位置のブロックについても、完全に一致する場合のみならず、近傍のブロックも含めるよう構成している。
また、絞り込み時の漏れをなくすべく、各絞込条件(部分領域の個数、部分領域の重心位置のブロック)に許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた部分領域の特徴量(各部分領域の重心位置座標、大きさ、アスペクト比)について許容範囲内にあることを条件として更に絞り込むこととしている。このように、2段階で絞り込みを行うことにより、更に適正な数に絞り込むことが可能となる。
なお、以下の各実施形態のうち、第1の実施形態では、画像検索を行うにあたり文書画像に含まれる画像領域を用いる場合について、また、第2の実施形態では、文書画像に含まれる文字領域を用いる場合についてそれぞれ説明する。また、第3の実施形態では、第1および第2の実施形態の変形例について説明する。
さらに、第4の実施形態では、画像検索を行うにあたり、文書画像に含まれる画像領域と文字領域の両方を用いる場合について、第5、6の実施形態では、第4の実施形態の変形例についてそれぞれ説明する。
<第1の実施形態>
1.画像検索装置のハードウェア構成
図1は本発明の各実地形態に共通する画像検索装置(100)の構成例を示す図である。同図において、101はCPUであり、本発明にかかる画像検索方法を実現するための各種演算・制御を実行する。102はROMであり、画像検索装置100の立ち上げ時に実行するブートプログラムや各種の固定データを格納する。103はRAMであり、CPU101が処理するための制御プログラムを格納すると共に、CPU101が各種制御を実行する際の作業領域を提供する。例えば、RAM103は本発明の画像検索方法を実現するためのプログラムとして、領域分割部や領域類似比較部、検索結果総合判定部などが記憶されるほか、文書画像を入力する際には当該文書画像を一時的に格納するための画像メモリとして使用される。
104はキーボード、105はマウスであり、ユーザによる処理モードの指定等の各種入力操作環境を提供する。
106は外部記憶装置であり、ハードディスクやフロッピー(登録商標)ディスク、CD−ROM等で構成され、例えば、以下に説明する画像管理DBや画像領域管理DBの他、文書画像を格納するスペースとしても用いられる。107は表示装置であり、画像検索結果の表示等を行う。
108はネットワークインターフェースであり、ネットワーク上の各機器との通信を行う際に用いられる。109はインターフェース、110はイメージスキャナやデジタルカメラなどの画像入力装置である。また、111は上記の各構成を接続するバスである。
2.画像検索装置の機能ブロック構成
図2は画像検索装置100の有する画像登録・類似画像検索機能の構成を示すブロック図である。同図において、201はユーザインターフェース部であり、表示装置107、キーボード104及びマウス105を用いてユーザからの各種操作入力を検出し、画像登録処理または類似画像検索処理のいずれを実行するかを判断する。
202は登録画像入力部であり、画像入力装置110を介して登録する文書画像(登録文書画像)の入力を行う。203は画像記憶制御部であり、登録画像入力部202により入力された登録文書画像をRAM103上の画像メモリへ一時的に記憶するとともに、画像格納部214として機能する外部記憶装置106に当該登録文書画像を格納する。また、あわせて画像管理DB215として機能する外部記憶装置106に当該登録文書画像の格納アドレスを記憶する。
204は領域分割部であり、RAM103上の画像メモリに一時的に記憶された登録文書画像を複数の部分領域に分割する。205は領域特徴抽出部であり、領域分割部204にて分割された各部分領域について特徴量の抽出を行う。206は特徴量更新部であり、領域特徴抽出部205において抽出された各部分領域の特徴量を、画像管理DB215および画像領域管理DB216として機能する外部記憶装置106に格納する。
207は検索元画像入力部であり、画像入力装置110を介して検索元となる文書画像(検索元文書画像)の入力を行う。208は画像一時記憶部であり、検索元画像入力部207により入力された検索元文書画像をRAM103上の画像メモリへ一時的に記憶する。209は領域分割部であり、RAM103上の画像メモリに一時的に記憶された検索元文書画像を複数の部分領域に分割する。210は領域特徴抽出部であり、領域分割部209にて分割された各部分領域について特徴量の抽出を行う。
211は領域類似比較部であり、検索元文書画像の各部分領域の特徴量と、外部記憶装置106内の画像管理DB215および画像領域管理DB216に格納された登録文書画像の各部分領域から抽出した特徴量とを比較し、検索元文書画像の部分領域に対して類似する登録文書画像の部分領域についての検索結果を得る。
212は検索結果総合判定部であり、領域類似比較部211において得られた登録文書画像の部分領域についての検索結果を用い、類似する登録文書画像の最終決定を行う。213は検索結果表示部であり、検索結果総合判定部212にて最終決定された検索結果を表示装置107に表示する。以下、本実施形態にかかる画像検索装置100における画像登録処理及び類似画像検索処理について更に詳しく説明する。
3.画像登録処理
3.1 画像登録処理全体の流れ
はじめに、画像登録処理により各DB(画像管理DB215、画像領域管理DB216)に格納されるデータについて説明する。
画像登録処理により登録文書画像として登録される画像は複数の部分領域(画像領域および文字領域)が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として色特徴情報が求められ、これらは登録文書画像と対応付けて画像管理DB215、画像領域管理DB216に格納される。画像管理DB215、画像領域管理DB216の各DBに格納されるデータの具体例は図10乃至12に示す通りである。図10は画像管理DB215に格納されるデータの具体例を、図11、図12は画像領域管理DB216に格納されるデータの具体例をそれぞれ示している。
次に画像登録処理により、各DBを生成するまでの処理の流れを図3を用いて説明する。図3は、画像登録処理の流れを示すフローチャートである。ステップS301では登録画像入力部202が画像入力装置110を介して登録文書画像を入力する。更に画像記憶制御部203が当該入力された登録文書画像のIDを発行し、画像管理DB215内の登録文書画像IDフィールド(図10の1001)に当該登録文書画像のIDを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド(図10の1002)に記憶したうえで、画像格納部214へ当該登録文書画像をファイルとして格納する。
ステップS302では、領域分割部204が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数(N個)を得る。なお、部分領域とその属性の抽出とは、例えば、図4に示す登録文書画像401が入力された場合に、当該登録文書画像401を、各オブジェクト毎の部分領域として認識し、該部分領域各々について文字(TEXT)/図画(PICTURE)/写真(PHOTO)/線(LINE)/表(TABLE)等の属性を判定し(図4の402参照)、異なる属性を持つ部分領域を抽出することをいう。
ステップS303では、領域特徴量抽出部205が部分領域個数カウンタIおよび画像領域個数カウンタJを0にリセットする。さらに、ステップS304では、部分領域個数カウンタIが部分領域個数Nより小さいか否かを判定する。ステップS304にて部分領域個数カウンタIが部分領域個数Nより小さいと判定された場合には、ステップS305以下の処理に進む。このように、ステップS305以下の処理は、部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域が無くなるまで繰り返す。
部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域がなくなったら、ステップS312に進み、特徴量更新部206が画像管理DB215内の画像領域数フィールド1003に画像領域個数カウンタJの値を記憶するとともに、当該登録文書画像に含まれる画像領域ID群を画像領域IDフィールド1004に記憶し、処理を終了する。
一方、ステップS304でI<Nであると判定され、未処理の部分領域があると判断された場合には、ステップS305において領域特徴抽出部205が当該I番目の部分領域の属性が画像領域であるか否かを判断する。ステップS305で画像領域であると判断された場合には、ステップS306において画像領域個数カウンタJを1つ増加させ、ステップS307に進む。
ステップS307では、当該I番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比ならびに「部分領域の内容に関する情報」として色特徴情報を抽出する。
ステップS308では、特徴量更新部206がユニークな画像領域IDを発行する。さらにステップS309では、登録文書画像の画像領域の性質を反映したインデックス(画像領域インデックス)を決定する。本実施形態では、画像領域インデックスは、
・文書画像形状(縦長、横長、正方形)(1101)
・文書画像が含む画像領域の個数(1102)
・画像領域の重心位置ブロック(1103)
の組み合わせとする。
さらに、ステップS310では、特徴量更新部206が画像領域管理DB216内に重心位置座標(1203)、登録文書画像に対する大きさ(1202)、アスペクト比(1201)、ならびに色特徴情報(1204)を画像領域ID(1205)と対応付けて記憶する。ステップS311では、部分領域個数カウンタIを1つ増加させ、再びステップS304に戻る。
他方、ステップS305においてI番目の部分領域の属性が画像領域でないと判断された場合にはステップS311に進み、部分領域個数カウンタIを1つ増加させ、再びステップS304へ戻る。
3.2 部分領域の抽出処理(ステップS302)の詳細
次に図3のステップS302における部分領域の抽出処理の詳細について説明する。部分領域の抽出にあたっては、まず、入力された登録文書画像を白黒に二値化し、輪郭線追跡を行い、黒画素輪郭で囲まれる画素の部分領域を抽出する。面積の大きい黒画素の部分領域については、内部にある白画素に対しても輪郭線追跡を行い、白画素の部分領域を抽出し、さらに一定面積以上の白画素の部分領域の内部からは再帰的に黒画素の部分領域を抽出する。
このようにして得られた黒画素の部分領域を、大きさおよび形状で分類し、異なる属性を持つ領域へと分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素群とし、さらに近接する文字が整列良く配され、グループ化可能な部分領域を文字領域、扁平な部分領域を線領域、一定大きさ以上でかつ四角系の白画素群を整列よく内包する黒画素群が占める部分領域を表領域、不定形の画素が散在している部分領域を写真領域、それ以外の任意形状の部分領域を図画領域、などとする。なお、部分領域抽出処理(ステップS302)では、不定形の画素が散在している写真領域であって、且つその領域が矩形状のものを画像領域として扱うものとする。
部分領域抽出処理(ステップS302)が実行されることにより、各部分領域を表現する座標とその部分領域の属性(画像領域であるか文字領域であるか)が抽出結果として出力される。
3.3 画像領域のインデックス決定処理(ステップS309)の詳細
次に図3のステップS309における画像領域インデックス決定処理のうち、画像領域の重心位置ブロック(1103)を求める処理の詳細について説明する。図7は、画像領域インデックス決定処理のうち、画像領域の重心位置ブロック(1103)を求める処理の流れを示すフローチャートである。
ステップS701では、登録文書画像の大きさと登録文書画像中の画像領域個数と着目画像領域(I番目の画像領域)の大きさと重心位置座標とをそれぞれ取得する。ステップS702では、図8のように登録文書画像を4×4=16個の複数のブロックへと分割し、画像領域の重心が存在するブロックを求める(図8中の各分割ブロック内に記載された数値は、分割ブロックのID)。
ステップS703では画像領域の重心が分割ブロックの境界上に位置するか否かを判定し、画像領域の重心が分割ブロックの境界上にないと判定された場合には、ステップS706に進み、当該重心がある分割ブロックを選択する。一方、重心が分割ブロックの境界上にあると判定された場合には、ステップS704にて境界に接する分割ブロックのうち分割ブロックIDの最も若い分割ブロックを選択する。
ステップS705では、ステップS704またはS706にて選択された分割ブロックのIDを結果として出力する。
図8は、登録文書画像が2つの画像領域(801、802)を有する例を示しており、右下の画像領域801の重心は分割ブロックID11と12の境界上にある。したがって、分割ブロックID11が結果として出力される。また、左上の画像領域802の重心は分割ブロックID6にある。したがって、分割ブロックID6が結果として出力される。
なお、参考までに、図9に縦長のビジネス文書画像1万件についての画像領域の重心位置の分布を求めた結果を示す。図9はビジネス文書画像に含まれる画像領域個数ごとにわけて統計をとったものであり、各画像領域数ごとに4×4のブロックのどこに重心があるかを示している。例えば、図9(A)は、ビジネス文書画像内に含まれる画像領域の数が1の文書画像2972個(つまり、画像領域の数も2972個になる)を対象に、重心位置の分布の統計をとったものである。同図(A)によれば、2972個の画像領域のうち、61個の画像領域は、左上のブロック(分割ブロックID=1)に重心がある。以下同様に、文書画像に含まれる画像領域数を1、2、3、4、5、6、7、8、9、10ならびに11以上の11階級に量子化して統計をとっている。
図9(A)〜(K)によれば、画像領域のインデックス決定処理(ステップS309)にて生成される画像領域インデックス(文書画像形状、画像領域の個数、画像領域の重心位置ブロック)は、比較的偏りの無いサイズに散らばり、絞り込みをする際のインデックスとしては良質なインデックスであることがわかる。
3.4 記憶処理(ステップS310)の詳細
次に図3のステップS310における記憶処理の詳細について説明する。図11に画像領域管理DBに記憶されるデータの構成を示す。1レコードは文書形状(1101)、文書画像内の画像領域数(1102)、画像領域の重心位置ブロック(1103)、画像領域IDリスト(1104)、画像領域の特徴量リスト(1105)から成っており、文書形状(1101)と文書画像内の画像領域数(1102)と画像領域の重心位置ブロック(1103)の組み合わせをキーとして画像領域IDリスト(1104)および画像領域の特徴量リスト(1105)が得られるようになっている。
画像領域の特徴量リスト(1105)は、各画像領域の特徴量が画像領域IDリスト(1104)にある画像領域ID順に並んだ配列データであり、画像領域の特徴量リストに含まれる各画像領域IDに対応して図12に示すようにアスペクト比(1201)、大きさ(1202)、重心位置座標(1203)、色特徴情報(1204)が格納されている。
また、重心位置座標(1203)とは登録文書画像の縦および横を1とした場合の相対的(0≦X≦1)位置座標と定義し、画像領域の大きさ(1202)とは登録文書画像の面積を1とした場合の画像領域の面積と定義し、アスペクト比(1201)とは画像領域の横の画素数に対する縦の画素数の比と定義する。
色特徴情報(1204)とは登録文書画像を図5の例の様に縦横にブロック分割を行い、その分割ブロックに属する画素のRGBチャネルの平均値を求め、図6で示す様な走査順で配列として保持するものである。図6では表現の制約上3×3の9ブロックに関する走査順を示している。
4.類似画像検索処理
4.1 類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図13Aおよび図13Bは、類似画像検索処理の流れを示すフローチャートである。特に、図13AのステップS1301からステップS1307までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。
他方、図13BのステップS1308からステップS1324までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。
ステップS1301では、検索元画像入力部207の制御のもと、画像入力装置110を介して検索元文書画像を入力し、画像一時記憶部208によりRAM103上の画像メモリへ当該検索元文書画像を一時的に記憶する。
ステップS1302では、領域分割部209が検索元文書画像を複数の部分領域(文字領域および画像領域)へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する(リーディングオーダを付与する)。これは検索元文書画像の各部分領域に対応する情報を管理するためである。
ステップS1303では、領域特徴抽出部210にて、部分領域個数N、画像領域個数Jq、検索元文書画像に含まれる各画像領域の重心位置座標、大きさ、アスペクト比ならびに色特徴情報を抽出し、RAM103上のワーク領域にこれらを一時的に記憶する。
上記ステップS1302およびステップS1303の処理は、基本的に図3の画像登録処理と同様の処理であり、図10、図11および図12の各DBへ登録する代わりに、検索元文書画像解析結果としてRAM103上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。
ステップS1304では、領域類似比較部211が検索元文書画像の各画像領域の重心近傍の分割ブロックを決定する。そして、ステップS1303における検索元文書画像の形状判断結果および抽出された画像領域個数Jq、ならびに当該決定された分割ブロックに基づいて、画像領域管理DB216の画像領域インデックス(図11)を参照し、一致する場合には当該画像領域IDと各画像領域の特徴量(アスペクト比、大きさ、重心位置座標)を、検索元文書画像の画像領域のリーディングオーダに対応付けてRAM103のメモリ上へ読み込む。
ステップS1305では上記メモリ上にリーディングオーダに対応付けて読み込まれた各画像領域の特徴量(アスペクト比、大きさ、重心位置座標)と、検索元文書画像の画像領域の重心位置座標、大きさ、アスペクト比とを比較し、許容範囲にある画像領域を絞り込む。また、絞り込んだ画像領域IDを検索元文書画像に含まれる画像領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の画像領域全てに対して行う。
ステップS1306では、上記ステップS1305で絞り込んだ画像領域ID群を図10の登録文書画像IDフィールド1001を参照して登録文書画像IDに変換し、これを新たに記憶する。これを画像領域群全てに対して行う。
ステップS1307では、ステップS1306で得た登録文書画像ID群どうしの論理積をとることにより、検索元文書画像の全ての画像領域に対応する画像領域を持つ登録文書画像を絞り込み、その登録文書画像ID群(個数L)を登録文書画像IDリストとして新たに記憶する。以上が類似画像検索処理におけるプリサーチ処理についての説明である。
次に、図13Bを用いて特徴量の詳細比較ならびに類似度算出の処理について説明する。まず、ステップS1308では、処理済みプリサーチデータカウンタiを0にセットし、ステップS1309では、プリサーチ処理の結果得られた登録文書画像ID群の個数Lと比較を行い、プリサーチデータカウンタiが個数Lより小さいか否かを判定する。ステップS1309において、プリサーチデータカウンタiが個数Lより小さいと判定された場合には、ステップS1310に進む。
ステップS1310では処理済み画像領域カウンタjおよび画像領域累積類似度Sum_Iを0にリセットする。ステップS1311では、ステップS1307で記憶された登録文書画像IDリストのi番目の登録文書画像IDであるDiを取得する。
ステップS1312からステップS1315では、検索元文書画像の全画像領域と登録文書画像Diの全画像領域の類似比較を行い、画像領域累積類似度Sum_Iを得る。画像領域同士の類似比較については後で詳しく説明を行う。
ステップS1312では、処理済み画像領域カウンタjと画像領域個数Jqとを比較することで、未比較の画像領域が有るかどうかをチェックする。処理済み画像領域カウンタjが画像領域個数Jqより小さく、未比較の画像領域があると判断された場合には、ステップS1313に進み、画像管理DB215内のデータ(図10)を参照し、登録文書画像IDがDiの登録文書画像に含まれる未比較の画像領域IDを読み出す。そしてステップS1305で読み込んだリーディングオーダjに対応する画像領域ID群の中から、当該読み出した画像領域IDと一致するものを探し、当該画像領域の特徴量を読み出す。
続いてステップS1314では、検索元文書画像のリーディングオーダjの画像領域の特徴量と上記ステップS1313で得た画像領域の特徴量の類似度演算を行い、画像領域累積類似度Sum_Iに加算する。ステップS1315では、処理済み画像領域カウンタjをインクリメントする。
ステップS1312において未比較の画像領域が無いと判断されるまで、ステップS1312からステップS1315までの処理を繰り返し、未比較の画像領域が無いと判断された場合には、ステップS1316へ進み、登録文書画像IDがDiの登録文書画像の総合類似度として、
Figure 0004641414
を計算した後、登録文書画像IDと対応づけて当該総合類似度を記憶する。
ステップS1317では処理済みプリサーチデータカウンタiをインクリメントし、再びステップS1309に戻る。ステップS1309では、プリサーチ処理により絞り込まれた登録文書画像群のすべてと比較を行っていないと判断した場合には、再び、ステップS1310からステップS1317の処理を行う。
一方、プリサーチ処理により絞り込まれた全ての登録文書画像群と比較を行ったと判断した場合には、ステップS1318に進み、ステップS1316にて記憶したL個の登録文書画像IDに対する総合類似度Sim_iの降順で登録文書画像IDをソートし、検索結果とする。また、ステップS1319では、図18に示すように検索された登録文書画像をサムネール画像により検索結果一覧として表示する。また、あわせて総合類似度も表示する。
4.2 画像領域重心近傍の分割ブロックの決定処理(ステップS1304)の詳細
次に類似画像検索処理における画像領域重心近傍の分割ブロック決定処理(ステップS1304)の詳細について説明する。画像領域重心近傍の分割ブロックの決定方法に関しては幾つかの方法がある。
最もシンプルな方法は、画像領域インデックスを参照し、登録文書画像の各画像領域のうち検索元文書画像の画像領域の重心を含む分割ブロックを求める方法である。
しかし、この方法では登録文書画像と検索元文書画像とが非常に類似していたとしても、文書画像間の位置のずれにより、重心位置がブロック分割境界ぎりぎりで異なるブロックに重心があると判断された場合、検索できなくなってしまう(検索漏れが生じてしまう)という問題がある。
そこで本実施形態では、検索元文書画像の画像領域に掛かる分割ブロックの全てを対象とし、当該分割ブロックのいずれかに重心が有る画像領域について画像領域インデックスを参照しながら求めることとし、これにより検索の漏れを極めて少なくしている。この方法によれば、図14Aの例では、分割ブロック1、2、5、6に重心があるものを求め、図14Bの例では1、2、3、5、6、7、9、10、11に重心があるものを求める。
しかし、この方法の場合、図14Aの例の分割ブロック1や、図14Bの例の分割ブロック1、3、9、11のように、参照価値の低い分割ブロックまで参照してしまう可能性を有している。そこで、本実施形態では、更に、検索元文書画像の画像領域に掛かる分割ブロックのうち、画像領域が掛かる部分の面積が分割ブロック面積に対して所定の割合以上である場合を対象とすることで、ある程度のノイズを減じることとした。
なお、この割合を分割ブロックの25%にすると図14Aの例の分割ブロック1や、図14Bの例の分割ブロック1、3、9、11のような参照価値の低い分割ブロックを参照することはなくなるが、図14Cのような極めて大きな領域の例では全分割ブロックを参照してしまうことになる。
そこで、本実施形態では、更に、図14Cのように部分領域が大きい場合にも適正な分割ブロックのみを参照できるようにした。部分領域が大きい場合でも適正な分割ブロックのみを参照することができるように分割ブロックを決定するためのアルゴリズムについて図15のフローチャートを用いて説明する。
ステップS1501では、検索元文書画像の着目する画像領域の重心位置を求め、ステップS1502では、当該重心位置が分割ブロックの境界上にあるかどうかを判断する。ステップS1502において重心位置が分割ブロックの境界上にあると判断された場合には、ステップS1503に進み、境界に接する分割ブロックをインデックス参照ブロックリスト(画像領域重心近傍の分割ブロックとして決定された分割ブロックを記載したリスト)に記憶するとともに処理リストに記憶し、後段のステップS1505以降のループ処理の処理対象の分割ブロックとして準備する。
他方、ステップS1502にて部分領域の重心位置が境界上に無いと判断された場合には、重心の存在する分割ブロックをインデックス参照ブロックリストに記憶するとともに処理リストに記憶し、後段のステップS1505以降のループ処理の処理対象の分割ブロックとして準備する。
ステップS1505では、処理リストに未処理の分割ブロックがあるかどうかを判断し、未処理の分割ブロックがあると判断された場合にはステップS1506にて重心位置に最も近い水平境界線L1を求め、その距離を分割ブロックの横サイズBWで割ることにより正規化距離D1を得る(図14D参照)。
次いで、ステップS1507では、重心位置に最も近い鉛直境界線L2を求め、その距離を分割ブロックの縦サイズBHで割ることにより正規化距離D2を得る。更に、ステップS1508では、重心位置に最も近い水平境界線L1と重心位置に最も近い鉛直境界線L2の交点との正規化距離D3をD1とD2とから得る(図14D参照)。
ステップS1509では、D1が第一の閾値ThX以下であるか否かを判断し、D1が第一の閾値ThX以下であると判断された場合には、ステップS1510において重心の存在する分割ブロックのL1を境に水平方向に隣接する分割ブロックをインデックス参照ブロックリストに加える。一方、D1が第一の閾値ThXより大きいと判断された場合には、インデックス参照ブロックリストへの追加は行わない。
ステップS1511では、D2が第二の閾値ThY以下であるか否かを判断し、D2が第2の閾値ThY以下であると判断された場合には、重心の存在する分割ブロックのL2を境に水平方向に隣接する分割ブロックをインデックス参照ブロックリストへ加える。一方、D2が第2の閾値ThYより大きいと判断された場合には、インデックス参照ブロックリストへの追加は行わない。
更にステップS1513では、D1が第一の閾値ThX以下で且つD2が第二の閾値ThY以下であるか否かを判断し、D1が第一の閾値以下で且つ第二の閾値以下であると判断された場合には、ステップS1514に進む。ステップS1514では、L1とL2の交点に対して重心のある分割ブロックと斜め対象の位置にある分割ブロックとを更にインデックス参照ブロックリストに加える。一方、D1が第一の閾値ThX以下でないか、あるいは第二の閾値ThY以下でない場合には、インデックス参照ブロックリストへの追加は行わない。上述したインデックス参照ブロックリストへの追加処理においては、当然重複した分割ブロックの追加は行わない。
ステップS1515では、次の処理対象の分割ブロックを処理リストから決定する。ステップS1505において未処理の分割ブロックがあればステップS1506からステップS1515までの処理を繰り返してインデックス参照ブロックリストへの追加を行っていき、ステップS1505において未処理の分割ブロックが無いと判断された場合には、ステップS1516において累計したインデックス参照ブロックリストを決定する。
4.3 領域類似比較処理(ステップS1314)の詳細
次に類似画像検索処理における領域類似比較処理(ステップS1314)の詳細について説明する。
はじめに、検索元文書画像の着目する画像領域と登録文書画像の画像領域の類似比較処理について図16のフローチャートを用いて説明する。
まず、ステップS1601では、検索元文書画像の着目する画像領域の重心位置座標と大きさとアスペクト比と色特徴情報とを読み込む。ステップS1602では、登録文書画像における画像領域の重心位置座標と大きさとアスペクト比と色特徴情報とを読み込む。
ステップS1603ではアスペクト比の差異を求め、ステップS1604ではアスペクト比の差異が閾値以下であるか否かを判断する。ステップS1604にてアスペクト比の差異が閾値以下であると判断された場合には、ステップS1605に進む。一方、アスペクト比の差異が閾値よりも大きいと判断された場合にはステップS1609へ進み、類似比較処理を行わず類似度0%と出力する。
ステップS1605では重心位置座標の差異を求め、ステップS1606では、重心位置座標の差異が閾値以下であるか否かを判断する。ステップS1606にて、重心位置座標の差異が閾値以下であると判断された場合には、ステップS1607に進む。一方、重心位置座標の差異が閾値よりも大きいと判断された場合にはステップS1609へ進み、類似比較処理を行わず類似度0%と出力する。
ステップS1607では、文書画像に対する大きさの差異を求め、ステップS1608では大きさの差異が閾値以下であるか否かを判断する。ステップS1608にて大きさの差異が閾値以下であると判断された場合には、ステップS1610に進む。一方、大きさの差異が閾値よりも大きいと判断された場合にはステップS1609へ進み、類似比較処理を行わず類似度0%と出力する。
ステップS1610では、上記アスペクト比の差異、重心位置座標の差異および大きさの差異に基づいて、類似度からの減点割合Rpを設定する。ここで、検索元文書画像の着目する画像領域のアスペクト比をAsp0、重心位置座標を(Gx0、Gy0)、大きさをS0とする。また、登録文書画像の画像領域のアスペクト比をAsp1、重心位置を(Gx1、Gy1)、大きさをS1とする。
更に、実験により正解と認められるデータセットを用いて正解と認められるアスペクト比の差異、重心位置座標の差異および大きさの差異の分散を、それぞれD_ASP、D_G、D_Sとし、アスペクト比の差異、重心位置座標の差異および大きさの差異の類似度に与える寄与係数をそれぞれα1、α2、α3とすると、減点割合Rpは、
Figure 0004641414
と表現できる。
そしてステップS1611において、色特徴情報を比較し各画像領域間の累積距離を得る。色特徴情報とは文書画像の各画像領域を図5の例では縦横に同じブロック数で分割を行い、その分割ブロックに属する画素のRGBチャネルの平均値を求め、図6で示すような走査順で配列として保持するものである。図6では表現の制約上3×3の9ブロックに関する走査順を示している。
そして、比較の際にはこの並び替えた配列のもと対応する分割ブロックの色特徴情報を下記要領で処理する。
具体的には、検索元文書画像の画像領域の着目ブロックの色平均値を(R0、G0、B0)、登録文書画像の画像領域の着目ブロックの色平均値を(R1、G1、B1)、着目ブロック間の類似距離をdとすると、
Figure 0004641414
と表すことができ、これを画像領域内の対応する全ブロックに対して計算し累積距離Dを算出する。
そして、類似度Sは、図17のグラフの累積距離Dが0の時に類似度が100となるような非線形特性を持つ累積距離←→類似度テーブルを通して得ることができる。
そして、最後にステップS1612においてステップS1610で求めた減点割合を用い、
Figure 0004641414
の要領で画像領域累積類似度Sum_Iを得る。
以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる画像領域の個数の他、画像領域の重心位置のブロックIDを用いることとした。このように、画像領域の個数に加え、画像領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。
また、絞り込みにあたっては、画像領域の個数と画像領域の重心位置のブロックIDとをインデックスとして、当該インデックスに一致する画像領域の特徴量のみをメモリ上に読み込む構成とした。このようにDB化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、HDD上に記憶された特徴量を逐次読み込んだり、DBに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。
また、絞り込み時の漏れをなくすべく、絞込条件である画像領域の重心位置のブロックIDに許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた画像領域の特徴量(各画像領域の重心位置座標、大きさ、アスペクト比)について許容範囲内にあることを条件として更に絞り込むこととしている。このように、2段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。
また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる画像領域の重心位置座標、大きさ、アスペクト比、ならびに色特徴情報を用いることとした。
このように、類似度算出にあたってもDB化された特定の特徴量のみを読み込む構成としたことにより、メモリ上に全特徴量を置く従来方式と比して、検索速度を低下させることなくメモリ消費量を大幅に削減することが可能となる。
<第2の実施形態>
上記第1の実施形態では、画像領域をベースとした類似画像検索処理の例を示したが、本発明は特にこれに限られるものではなく、文字領域をベースとした画像検索も可能である。この場合、領域類似比較処理において用いる画像領域の特徴量を文字領域内の文字列に置き換え、画像領域の特徴量比較処理を文字領域の文字列比較処理に置き換える。また、文字領域の文字列比較処理に関しては、検索元文書画像の着目する部分領域が文字領域の場合に、登録文書画像の文字領域とのみ比較を行うが、その際OCRを経て得たテキストデータ(領域内文字情報)とアスペクト比と文書画像に対する大きさおよび重心位置座標を用いる。以下に詳細を説明する。
1.画像検索装置のハードウェア構成
本実施形態にかかる画像検索装置のハードウェア構成は上記第1の実施形態と同様であるため、説明は省略する。
2.画像検索装置の機能ブロック構成
図19は本実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。なお、上記第1の実施形態と同様のブロックについては同一の参照番号を付すものとし、ここでは説明は省略する。図2との差異は、画像領域管理DB216の代わりに配された1901に示す文字領域管理DBであり、特徴量更新部206により各文字領域の特徴量が格納される。
3.画像登録処理
3.1 画像登録処理全体の流れ
はじめに画像登録処理により各DB(画像管理DB215、文字領域管理DB1901)に格納されるデータについて説明する。
画像登録処理により登録文書画像として登録される画像は複数の部分領域(画像領域および文字領域)が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として領域内文字情報が求められ、これらは登録文書画像と対応づけて画像管理DB215、文字領域管理DB1901に格納される。画像管理DB215、文字領域管理DB1901の各DBに格納されるデータの具体例は図21乃至23に示す通りである。図21は画像管理DB215に格納されるデータの具体例を、図22、23は文字領域管理DB1901に格納されるデータの具体例をそれぞれ示している。
次に画像登録処理により、各DBを生成するまでの処理の流れを図20を用いて説明する。図20は、画像登録処理の流れを示すフローチャートである。ステップS2001では登録画像入力部202が画像入力装置110を介して登録文書画像を入力する。そして画像記憶制御部203が当該入力された登録文書画像のIDを発行し、画像管理DB215内の登録文書画像IDフィールド(図21の2101)に当該登録文書画像のIDを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド(図21の2102)に記憶したうえで、画像格納部214へ当該登録文書画像をファイルとして格納する。
ステップS2002では、領域分割部204が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数(N個)を得る。なお、部分領域とその属性の抽出については、上記第1の実施形態において図4を用いて説明済みであるため、ここでは詳細は省略する。
ステップS2003では、領域特徴量抽出部205が部分領域個数カウンタIおよび文字領域個数カウンタKを0にリセットする。さらに、ステップS2004では、部分領域個数カウンタIが部分領域個数Nより小さいか否かを判定する。ステップS2004にて部分領域個数カウンタIが部分領域個数Nより小さいと判定された場合には、ステップS2005以下の処理に進む。このように、ステップS2005以下の処理は、部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域が無くなるまで繰り返す。
部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域がなくなったら、ステップS2012に進み、特徴量更新部206が画像管理DB215内の文字領域数フィールド2103に文字領域個数カウンタKの値を記憶するとともに、当該登録文書画像に含まれる文字領域ID群を文字領域IDフィールド2104に記憶し、処理を終了する。
一方、ステップS2004でI<Nであると判定され、未処理の部分領域があると判断された場合には、ステップS2005において領域特徴抽出部205が当該I番目の部分領域の属性が文字領域であるか否かを判断する。ステップS2005で文字領域であると判断された場合には、ステップS2006において文字領域個数カウンタKを1つ増加させ、ステップS2007に進む。
ステップS2007では、当該I番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として領域内文字情報を抽出する。
ステップS2008では、特徴量更新部206がユニークな文字領域IDを発行する。さらにステップS2009では、登録文書画像の文字領域の性質を反映したインデックス(文字領域インデックス)を決定する。本実施形態では、文字領域インデックスは、
・文書画像形状(縦長、横長、正方形)(2201)
・文書画像が含む文字領域の個数(2202)
・文字領域の重心位置ブロック(2203)
の組み合わせとする。
さらに、ステップS2010では、特徴量更新部206が画像領域管理DB216内に重心位置座標(2303)、登録文書画像に対する大きさ(2302)、アスペクト比(2301)、ならびに領域内文字情報(2304)を文字領域ID(2305)と対応付けて記憶する。ステップS2011では、部分領域個数カウンタIを1つ増加させ、再びステップS2004に戻る。
他方、ステップS2005においてI番目の部分領域の属性が文字領域でないと判断された場合にはステップS2011に進み、部分領域個数カウンタIを1つ増加させ、再びステップS2004へ戻る。
4.類似画像検索処理
4.1 類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図24Aおよび図24Bは、類似画像検索処理の流れを示すフローチャートである。特に、図24AのステップS2401からステップS2407までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。
他方、図24BのステップS2408からステップS2424までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。
ステップS2401では、検索元画像入力部207の制御のもと、画像入力装置110を介して検索元文書画像を入力し、画像一時記憶部208によりRAM103上の画像メモリへ検索元文書画像を一時的に記憶する。
ステップS2402では、領域分割部209が検索元文書画像を複数の部分領域(文字領域および画像領域)へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する(リーディングオーダを付与する)。これは検索元文書画像の各部分領域に対応する情報を管理するためである。
ステップS2403では、領域特徴抽出部210にて、部分領域個数N、文字領域個数Kq、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報を抽出し、RAM103上のワーク領域にこれらを一時的に記憶する。
上記ステップS2402およびステップS2403の処理は、基本的に図20の画像登録処理と同様の処理であり、図21、図22および図23の各DBへ登録する代わりに、検索元文書画像解析結果としてRAM103上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。
ステップS2404では、領域類似比較部211が検索元文書画像の各画像領域の重心近傍の分割ブロックを決定する。そしてステップS2403における検索元文書画像の形状判断の結果および抽出された画像領域個数Kq、ならびに当該決定された分割ブロックに基づいて、文字領域管理DB1901の文字領域インデックス(図22)を参照し、一致する場合には当該文字領域IDと各文字領域の特徴量(アスペクト比、大きさ、重心位置座標)を、検索元文書画像の文字領域のリーディングオーダに対応付けてRAM103のメモリ上へ読み込む。
ステップS2405では上記メモリ上にリーディングオーダに対応付けて読み込まれた各文字領域の特徴量(アスペクト比、大きさ、重心位置座標)と、検索元文書画像の文字領域の重心位置座標、大きさ、アスペクト比と比較し、許容範囲にある文字領域を絞り込む。また、絞り込んだ文字領域IDを検索元文字領域画像に含まれる文字領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の文字領域全てに対して行う。
ステップS2406では、上記ステップS2405で絞り込んだ文字領域ID群を図23の登録文書画像IDフィールド2101を参照して登録文書画像IDに変換し、これを新たに記憶する。これを文字領域群全てに対して行う。
ステップS2407では、ステップS2406で得た登録文書画像ID群どうしの論理積をとることにより、検索元文書画像の全ての文字領域に対応する文字領域を持つ登録文書画像を絞り込み、その登録文書画像ID群(個数L)を登録文書画像IDリストとして新たに記憶する。以上が類似画像検索処理におけるプリサーチ処理についての説明である。
次に、図24Bを用いて特徴量の詳細比較ならびに類似度算出の処理について説明する。まず、ステップS2408では、処理済みプリサーチデータカウンタiを0にセットし、ステップS2409では、プリサーチ処理の結果得られた登録文書画像ID群の個数Lと比較を行い、プリサーチデータカウンタiが個数Lより小さいか否かを判定する。ステップS2409において、プリサーチデータカウンタiが個数Lより小さいと判定された場合には、ステップS2410に進む。
ステップS2410では処理済み画像領域カウンタjおよび文字領域累積類似度Sum_Tを0にリセットする。ステップS2411では、ステップS2407で記憶された登録文書画像IDリストのi番目の登録文書画像IDであるDiを取得する。
ステップS2412からステップS2415では、検索元文書画像の全文字領域と登録文書画像Diの全文字領域の類似比較を行い、文字領域累積類似度Sum_Tを得る。文字領域同士の類似比較については後で詳しく説明を行う。
ステップS2412では、処理済み文字領域カウンタkと文字領域個数Jqとを比較することで、未比較の文字領域が有るかどうかをチェックする。処理済み文字領域カウンタkが文字領域個数Kqより小さく、未比較の文字領域があると判断された場合には、ステップS2413に進み、画像管理DB215内のデータ(図21)を参照し、登録文書画像IDがDiの登録文書画像に含まれる未比較の文字領域IDを読み出す。そしてステップS2405で読み込んだリーディングオーダkに対応する文字領域ID群の中から、当該読み出した文字領域IDと一致するものを探し、当該文字領域の特徴量を読み出す。
続いてステップS2414では、検索元文書画像のリーディングオーダkの文字領域の特徴量と上記ステップS2413で得た文字領域の特徴量の類似度演算を行い、Sum_Tに加算する。ステップS2415では、処理済み文字領域カウンタkをインクリメントする。
ステップS2412において未比較の文字領域が無いと判断されるまで、ステップS2412からステップS2415までの処理を繰り返し、未比較の文字領域が無いと判断された場合には、ステップS2416へ進み、登録文書画像IDがDiの登録文書画像の総合類似度として、
Figure 0004641414
を計算した後、登録文書画像IDと対応づけて当該総合類似度を記憶する。
ステップS2417では処理済みプリサーチデータカウンタiをインクリメントし、再びステップS2409に戻る。ステップS2409では、プリサーチ処理により絞り込まれた登録文書画像群のすべてと比較を行っていないと判断した場合には、再び、ステップS2410からステップS2417の処理を行う。
一方、プリサーチ処理により絞り込まれた全ての登録文書画像群と比較を行ったと判断した場合には、ステップS2418に進み、ステップS2416にて記憶したL個の登録文書画像IDに対する総合類似度Sim_iの降順で登録文書画像IDをソートし、検索結果とする。また、ステップS2419では、図18に示すように検索された登録文書画像のサムネール画像により検索結果一覧として表示する。また、あわせて総合類似度も表示する。
4.2 領域類似比較処理(ステップS2414)の詳細
次に検索元文書画像の着目する文字領域と登録文書画像の文字領域の類似比較処理について図25のフローチャートを用いて説明する。
まず、ステップS2501では、検索元文書画像の着目する画像領域の重心位置座標と大きさとアスペクト比と領域内文字情報とを読み込み、ステップS2502では、登録文書画像の文字領域の重心位置座標と大きさとアスペクト比と領域内文字情報とを読み込む。
ステップS2503ではアスペクト比の差異を求め、ステップS2504ではアスペクト比の差異が閾値以下であるか否かを判断する。ステップS2504にてアスペクト比の差異が閾値以下であると判断された場合には、ステップS2505に進む。一方、アスペクト比の差異が閾値よりも大きいと判断された場合にはステップS2509に進み、類似比較処理を行わず類似度0%と出力する。
ステップS2505では重心位置座標の差異を求め、ステップS2506では、重心位置座標の差異が閾値以下であるか否かを判断する。ステップS2506にて、重心位置座標の差異が閾値以下であると判断された場合には、ステップS2507に進む。一方、重心位置座標の差異が閾値よりも大きいと判断された場合にはステップS2509へ進み、類似比較処理を行わず類似度0%と出力する。
ステップS2507では、文書画像に対する大きさの差異を求め、ステップS2508では大きさの差異が閾値以下であるか否かを判断する。ステップS2508にて大きさの差異が閾値以下であると判断された場合には、ステップS2510に進む。一方、大きさの差異が閾値よりも大きいと判断された場合にはステップS2509へ進み、類似比較処理を行わず類似度0%と出力する。
ステップS2510では、上記アスペクト比の差異、重心位置座標の差異および大きさの差異に基づいて、類似度からの減点割合Rpを設定する。ここで、検索元文書画像の着目する文字領域のアスペクト比をAsp0、重心位置座標を(Gx0、Gy0)、大きさをS0とする。また、登録文書画像の文字領域のアスペクト比をAsp1、重心位置座標を(Gx1、Gy1)、大きさをS1とする。
なお、上記第1の実施形態と同様、重心位置座標は文書画像の縦および横を1とした場合の相対的(0≦X≦1)位置座標と定義し、文字領域の大きさとは文書画像の面積を1とした場合の文字領域の面積と定義し、アスペクト比とは文字領域の横の画素数に対する縦の画素数の比と定義する。
更に、実験により正解と認められるデータセットを用いて正解と認められるアスペクト比の差異、重心位置座標の差異および大きさの差異の分散を、それぞれD_ASP、D_G、D_Sとし、アスペクト比の差異、重心位置座標の差異および大きさの差異の類似度に与える寄与係数をそれぞれα1、α2、α3とすると、減点割合Rpは、
Figure 0004641414
と表現できる。
そしてステップS2511において、領域内文字情報を比較し各文字領域間の類似度を得る。
ここで、図26を用いて各文字領域間の類似度を求めるための処理の流れについて説明する。ステップS2601では検索元文書画像の文字領域の領域内文字数Mと文字配列Str1[M]を得る。ステップS2602では登録文書画像の文字領域の領域内文字数Nと文字配列Str2[N]を得る。
ステップS2603では、Str1[M]を参照するための配列要素番号I、Str2[N]を参照するための配列要素番号J、類似距離Distを0リセットする。Str1[0]は検索元文書画像の文字領域の先頭文字となる。
ステップS2604では、I番目の検索元文書画像の文字Str1[I]とJ番目の登録文書画像の文字Str2[J]とを比較し、同一であればステップS2605においてIおよびJを1つ増加させ、検索元文書画像と登録文書画像の文字をそれぞれ1文字進め、ステップS2607に進む。
他方、ステップS2604でStr1[I]とStr2[J]が異なる場合には、ステップS2606にてIのみを1つ増加させ、即ち検索元文書画像の文字のみを1文字進め、類似距離Distを1つ増加させ、ステップS2607に進む。
ステップS2607では、I<M且つJ<N、即ち参照する文字が制限範囲であるかどうかをチェックし、この条件を満たす場合には再びステップS2604に戻り文字の比較を行う。一方、ステップS2607でNOの場合には、下式7に従って正規化類似距離を得る。
Figure 0004641414
式7によれば、検索元文書画像の文字列と登録文書画像の文字列とが同一であればDnorm=0となり、登録文書画像の文字列に検索元文書画像の文字列に無い文字が存在すれば存在するほどDnormの値は大きくなる。また、検索元文書画像の文字列と登録文書画像の文字列の長さが異なる場合に、未比較文字の長さが長いほどDnormの値が大きくなる。
更に、正規化類似距離Dnormを得て、これを図27のような非線形特性をもつ距離を類似度へ変換するテーブルを参照して類似度Sを得る。そして、最後にステップS2511においてステップS2510で求めた減点割合を用い、
Figure 0004641414
の要領で文字領域累積類似度Sum_Tを得る。
以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる文字領域の個数の他、文字領域の重心位置のブロックIDを用いることとした。このように、文字領域の個数に加え、文字領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。
また、絞り込みにあたっては、文字領域の個数と文字領域の重心位置のブロックIDとをインデックスとして、当該インデックスに一致する文字領域の特徴量のみをメモリ上に読み込む構成とした。このようにDB化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、HDD上に記憶された特徴量を逐次読み込んだり、DBに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。
また、絞り込み時の漏れをなくすべく、絞込条件である文字領域の重心位置のブロックIDに許容値を持たせる一方で、絞込条件に一致し、メモリに読み込まれた文字領域の特徴量(各文字領域の重心位置座標、大きさ、アスペクト比)について許容範囲内にあることを条件として更に絞り込むこととしている。このように、2段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。
また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる文字領域の重心位置座標、大きさ、アスペクト比、ならびに領域内文字情報を用いることとした。
このように、類似度算出にあたってもDB化された特定の特徴量のみを読み込む構成としたことにより、メモリ上に全特徴量を置く従来方式と比して、検索速度を低下させることなくメモリ消費量を大幅に削減することが可能となる。
<第3の実施形態>
上記第1及び第2の実施形態では検索元文書画像を検索クエリとして与える場合について述べたが、本発明はこれに限られず、既に登録された登録文書画像を検索クエリとして与えることも可能である。その場合、図15AのステップS1501およびステップS1502およびステップS1503が登録文書画像の画像領域個数N、画像領域個数Jq、登録文書画像に含まれる画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報とをDBから読み出すように構成することで実現することができる。
<第4の実施形態>
上記第1の実施形態では画像領域に基づいて、上記第2の実施形態では文字領域に基づいてそれぞれ画像登録・類似画像検索処理を行うこととしたが、本発明はこれに限られず、画像領域と文字領域の両方を用いて画像登録・類似画像検索処理を行うこともできる。以下に詳細を説明する。
1.画像検索装置のハードウェア構成
本実施形態にかかる画像検索装置のハードウェア構成は上記第1の実施形態と同様であるため、説明は省略する。
2.画像検索装置の機能ブロック構成
図28は本実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。なお、上記第1の実施形態と同様のブロックについては同一の参照番号を付すものとし、ここでは説明は省略する。図2との差異は、1901に示す文字領域管理DBが追加された点であり、同DBには、特徴量更新部206により、各部分領域のうち文字領域の特徴量が格納される。
3.画像登録処理
3.1 画像登録処理全体の流れ
はじめに画像登録処理により各DB(画像管理DB215、画像領域管理DB216、文字領域管理DB1901)に格納されるデータについて説明する。
画像登録処理により登録文書画像として登録される画像は複数の部分領域(画像領域と文字領域)が抽出され、「各部分領域に関する特徴量」としてアスペクト比と、登録文書画像に対する大きさおよび重心位置座標とが求められ、更に「各部分領域の内容に関する特徴量」として色特徴情報(または領域内文字情報)が求められ、これらは登録文書画像と対応づけて画像管理DB215、画像領域管理DB216、文字領域管理DB1901にそれぞれ格納される。画像管理DB215、画像領域管理DB216、文字領域管理DB1901の各DBに格納されるデータの具体例は図30乃至34に示す通りである。
図30は画像管理DB215に格納されるデータの具体例を、図31、32は画像領域管理DB216に格納されるデータの具体例を、図33、図34は文字領域管理DB1901に格納されるデータの具体例をそれぞれ示している。
次に画像登録処理により、各DBを生成するまでの処理の流れを図29を用いて説明する。図29は、画像登録処理の流れを示すフローチャートである。ステップS2901では登録画像入力部202が画像入力装置110を介して登録文書画像を入力する。そして画像記憶制御部203が当該入力された登録文書画像のIDを発行し、画像管理DB215内の登録文書画像IDフィールド(図30の3001)に当該登録文書画像のIDを記憶し、登録文書画像の格納先をフルパスのファイル名フィールド(図30の3002)に記憶したうえで、画像格納部214へ当該登録文書画像をファイルとして格納する。
ステップS2902では、領域分割部204が当該登録文書画像から部分領域とその属性を抽出し、また抽出した部分領域の個数(N個)を得る。なお、部分領域とその属性の抽出については、上記第1の実施形態において図4を用いて説明済みであるため、ここでは詳細は省略する。
ステップS2903では、領域特徴量抽出部205が部分領域個数カウンタI、画像領域個数カウンタJおよび文字領域個数カウンタKを0にリセットする。さらに、ステップS2904では、部分領域個数カウンタIが部分領域個数Nより小さいか否かを判定する。ステップS2904にて部分領域個数カウンタIが部分領域個数Nより小さいと判定された場合には、ステップS2905以下の処理に進む。このように、ステップS2905以下の処理は、部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域が無くなるまで繰り返す。
部分領域個数カウンタIが部分領域個数Nと等しくなり、未処理の部分領域がなくなったら、ステップS2917に進み、特徴量更新部206が画像管理DB215内の画像領域数フィールド3003に、画像領域個数カウンタJの値を、文字領域数フィールド3004に文字領域個数カウンタKの値をそれぞれ記憶するとともに、当該登録文書画像に含まれる画像領域ID群を画像領域IDフィールド3005に、文字領域ID群を文字領域IDフィールド3006に記憶し、処理を終了する。
一方、ステップS2904でI<Nであると判定され、未処理の部分領域があると判断された場合には、ステップS2905において領域特徴量抽出部205が当該I番目の部分領域の属性が画像領域であるか否かを判断する。ステップS2905で画像領域であると判断された場合には、ステップS2906において画像領域個数カウンタJを1つ増加させ、ステップS2907に進む。
ステップS2907では、当該I番目の「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として色特徴情報を抽出する。
ステップS2908では、特徴量更新部206がユニークな画像領域IDを発行する。さらにステップS2909では、登録文書画像の画像領域の性質を反映したインデックス(画像領域インデックス)を決定する。本実施形態では、画像領域インデックスは、
・文書画像形状(縦長、横長、正方形)(3101)
・文書画像が含む画像領域の個数(3102)
・画像領域の重心位置ブロック(3103)
の組み合わせとする。
さらに、ステップS2910では、特徴量更新部206が画像領域管理DB216内に重心位置座標(3203)、登録文書画像に対する大きさ(3202)、アスペクト比(3201)、ならびに色特徴情報(3204)を画像領域ID(3005)と対応付けて記憶する。ステップS2911では、部分領域個数カウンタIを1つ増加させ、再びステップS2904に戻る。
他方、ステップS2905においてI番目の部分領域の属性が画像領域でないと判断された場合にはステップS2911に進み、ステップS2911において文字領域個数カウンタKを1つ増加させ、ステップS2912に進む。
ステップS2912では、当該I番目「部分領域に関する特徴量」として重心位置座標、登録文書画像に対する大きさ、アスペクト比を、「部分領域の内容に関する情報」として領域内文字情報を抽出する。
ステップS2913では、特徴量更新部206がユニークな文字領域IDを発行する。さらにステップS2914では、登録文書画像の文字領域の性質を反映したインデックス(文字領域インデックス)を決定する。本実施形態では、文字領域インデックスは、
・文書画像形状(縦長、横長、正方形)(3301)
・文書画像が含む文字領域の個数(3302)
・文字領域の重心位置ブロック(3303)
の組み合わせとする。
さらに、ステップS2915では、特徴量更新部206が画像領域管理DB216内に重心位置座標(3403)、登録文書画像に対する大きさ(3402)、アスペクト比(3401)、ならびに領域内文字情報(3404)を文字領域ID(3006)と対応付けて記憶する。ステップS2916では、部分領域個数カウンタIを1つ増加させ、再びステップS2904に戻る。
4.類似画像検索処理
4.1 類似画像検索処理全体の流れ
次に類似画像検索処理の流れについて説明する。図35Aおよび図35Bは、類似画像検索処理の流れを示すフローチャートである。特に図35AのステップS3501からステップS3513までは、検索元文書画像に基づいて登録文書画像の絞り込みを行うプリサーチ処理を再帰的に行う場合の処理の流れを示しており、本発明の特徴である特徴量管理機能を生かし、高速検索を省メモリで実現している。
他方、図35BのステップS3514からステップS3529までは、プリサーチ処理により絞り込まれた登録文書画像に対して、特徴量の詳細比較を行い、類似度を算出する処理の流れを示している。
ステップS3501では、検索元画像入力部207の制御のもと、画像入力装置110を介して検索元文書画像を入力し、画像一時記憶部208によりRAM103上の画像メモリへ当該検索元文書画像を一時的に記憶する。
ステップS3502では、領域分割部209が検索元文書画像を複数の部分領域(文字領域および画像領域)へと分割を行い、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する(リーディングオーダを付与する)。これは検索元文書画像の各部分領域に対応する情報を管理するためである。
ステップS3503では、領域特徴抽出部210にて、検索元文書画像の形状判断を行うとともに、部分領域個数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報、各画像領域の重心位置座標、大きさ、アスペクト比ならびに色特徴情報を抽出し、RAM103上のワーク領域にこれらを一時記憶する。
上記ステップS3502およびステップS3503の処理は、基本的に図29の画像登録時の処理と同様であり、図30、図31、図32、図33および図34の各DBへ登録する代わりに、検索元文書画像解析結果としてRAM103上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。
ステップS3504では、画像領域個数Jqから画像領域個数許容範囲最大値M_I_MAXを求める。これは例えば画像領域個数Jqに対して予め決めた割合で算出されるものとする。同様に、ステップS3505にて文字領域個数Kqから文字領域個数許容範囲最大値M_T_MAXを求める。
ステップS3506では、画像領域個数許容範囲M_Iと文字領域個数許容範囲M_Tを0に初期化し、ステップS3507では、図36のプリサーチ処理(詳細は後述)を呼ぶが、初回は画像領域、文字領域ともに個数が同一の検索を行う。
ステップS3508では、ステップS3507のプリサーチ処理の結果、ヒット数Lが0より大きいか判断し、大きければ図35Bの特徴量の詳細比較処理に進む。
一方、ステップS3508にてヒット数Lが0以下の場合にはステップS3509にて領域個数許容範囲M_IおよびM_Tがともに領域個数許容範囲最大値に達していないかを確認し、ともに達している場合には、プリサーチの処理でヒットが無くとも図35Bの特徴量詳細比較処理に進む(この場合、ヒット数0という結果になる)。
一方、ステップS3509にて領域個数許容範囲M_IおよびM_Tがともに領域個数許容範囲最大値に達していない場合には、ステップS3510にて画像領域個数許容範囲M_Iが領域個数許容範囲最大値M_I_MAXに達していないかを確認し、達していなければステップS3511にて画像領域個数許容範囲M_Iを1インクリメントした後ステップS3512に進み、達していればステップS3512に進む。
同様に、ステップS3512にて文字領域個数許容範囲M_Tが領域個数許容範囲最大値M_T_MAXに達していないかを確認し、達していなければステップS3513にて文字領域個数許容範囲M_Tを1インクリメントした後、再びステップS3507のプリサーチ処理を行い、達していれば直接ステップS3507のプリサーチ処理を行う。
そして、ステップS3508でプリサーチ処理の結果がヒット数L>0となったと判断されるか、或いはステップS3509にて画像領域・文字領域ともに領域個数許容範囲最大値に達してしまうかのどちらかの条件を満たすまで再帰的にステップS3507からステップS3513までの処理を行う。
次に図35Bを用いて特徴量詳細比較処理のフローを説明する。まず、ステップS3514において処理済みプリサーチデータカウンタiを0にセットし、ステップS3515においてプリサーチ処理のヒット数Lと比較を行い、これを超えていなければ特徴量詳細比較処理のステップS3516へと進む。
ステップS3516では処理済み画像領域カウンタj、処理済み文字領域カウンタk、画像領域累積類似度Sum_I、文字領域累積類似度Sum_Tを0にリセットする。そしてステップS3513で記憶された登録文書画像IDリストのi番目の登録文書画像IDであるDiを取得する。
そしてステップS3518からステップS3521の処理で検索元文書画像の全画像領域と登録文書画像Diの全画像領域の類似比較を行い、画像領域累積類似度Sum_Iを得る。
ステップS3518では未比較の画像領域が有るかどうかをチェックし、未比較の画像領域が無い場合にはステップS3522の文字領域比較へ分岐し、未比較の画像領域がある場合にはステップS3519にて図30の画像管理DBから登録文書画像IDがDiの登録文書画像に含まれる未比較の画像領域IDを読み出す。そしてステップS3603で読み込んだリーディングオーダjに対応する画像領域ID群の中から、当該読み出した画像領域IDと一致するものを探し、当該画像領域の特徴量を読み出す。
ステップS3520では、一致するものがあったかどうか判断し、一致するものがある場合にはステップS3521で検索元文書画像のリーディングオーダjの画像領域の特徴量と上記ステップS3519で得た画像領域の特徴量との類似度演算を行い、画像領域累積類似度Sum_Iに加算する。ステップS3522では処理済み画像領域カウンタjをインクリメントする。
一方、ステップS3520にて一致するものがなかった場合には、ステップS3523で似ているか似ていないか微妙なデフォルトの類似度をSum_Iに加算し、ステップS3522で処理済み画像領域カウンタjをインクリメントする。
ステップS3519からステップS3523の処理を未比較の画像領域が無くなるまで繰り返し、未比較の画像領域が無い場合にはステップS3524の文字領域の比較処理へ進む。
ステップS3524からステップS3529の処理では、検索元文書画像の全文字領域と登録文書画像Diの全文字領域の類似比較を行い、文字領域累積類似度Sum_Tを得る。
ステップS3524では未比較の文字領域が有るかどうかをチェックし、未比較の文字領域がある場合には、ステップS3525にて図30の画像管理DBから登録文書画像Diの登録文書画像に含まれる未比較の文字領域IDを読み出す。そして、ステップS3508で読み込んだリーディングオーダkに対応する文字領域ID群の中から、当該読みだした文字領域IDと一致するものを探し、当該文字領域の特徴量を読み出す。
ステップS3526では、一致するものがあったかどうか判断し、一致するものがある場合にはステップS3527で検索元文書画像のリーディングオーダkの文字領域の特徴量と上記ステップS3522で得た特徴量との類似度演算を行い、Sum_Tに加算し、ステップS3528で処理済み文字領域カウンタkをインクリメントする。
一方、ステップS3526にて一致するものがなかった場合にはステップS3529で似ているか似ていないか微妙なデフォルトの類似度をSum_Tに加算し、ステップS3528で処理済み文字領域カウンタkをインクリメントする。
ステップS3524からステップS3528の処理を未比較の文字領域が無くなるまで繰り返し、未比較の文字領域が無い場合にはステップS3524からステップS3530へ分岐し、登録文書画像Diの総合類似度として
Figure 0004641414
を計算する。計算された総合類似度は登録文書画像IDと対応づけて記憶し、ステップS3531にて処理済みプリサーチデータカウンタiをインクリメントし、再びステップS3515に戻る。
ステップS3515において処理済みプリサーチデータカウンタiがプリサーチ処理のヒット数Lより小さい場合には(プリサーチ処理でヒットした登録文書画像の全てと比較を行っていないと判断した場合には)、再び、ステップS3516からステップS3531の処理を行う。一方、プリサーチ処理でヒットした登録文書画像の全てと比較を行ったと判断した場合には、ステップS3532に進み、ステップS3530にて記憶したL個の登録文書画像IDについて総合類似度Sim_iの降順でソートしたものを検索結果とし、ステップS3533にて当該検索された登録文書画像のサムネール画像を一覧表示する。また、あわせて総合類似度も表示する。
4.2 プリサーチ処理
次に図36のプリサーチ処理について説明する。同図のフローチャートにおいて、ステップS3602からステップS3606が画像領域に関する絞り込み処理であり、ステップS3607からステップS3611が文字領域に関する絞り込み処理であり、ステップS3612がこれらの処理結果の論理積演算を行い画像領域と文字領域の両方の条件を満たすプリサーチ結果をまとめる処理である。
ステップS3601では、プリサーチ処理の条件である画像領域個数Jq、画像領域個数許容範囲M_I、文字領域個数Kq、文字領域個数許容範囲M_T、検索元文書画像が含む文字領域群の重心位置座標と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報を受け取る。

ステップS3602では、画像領域個数Jq=0であるか否かを判断し、画像領域個数Jq=0の場合(すなわち、画像領域がない場合)には、ステップS3607に進む。一方、画像領域個数Jq=0ではなく画像領域が存在すると判断された場合には、ステップS3603に進む。
ステップS3603では各画像領域の重心近傍の分割ブロックを決定する。そして、文書画像の形状判断の結果および抽出された画像領域個数Jq、ならびに当該決定された分割ブロックに基づいて図31を参照し、一致する場合には当該画像領域IDと各画像領域の特徴量を、検索元文書画像の画像領域のリーディングオーダに対応付けてメモリ上へ読み込む。
ステップS3604では上記メモリ上にリーディングオーダに対応付けて読み込まれた各画像領域の特徴量(アスペクト比、大きさ、重心位置座標)と、検索元文書画像の画像領域の重心位置座標、大きさ、アスペクト比とを比較し、許容範囲にある画像領域を絞り込む。また、絞り込んだ画像領域IDを検索元文書画像に含まれる画像領域のリーディングオーダに対応付けて記憶する。これを検索元文書画像の画像領域全てに対して行う。
ステップS3605では、上記ステップS3604で絞り込んだ画像領域ID群を図30の登録文書画像IDフィールドを参照して登録文書画像IDに変換し、これを新たに記憶する。これを画像領域群全てに対して行う。
ステップS3606では、ステップS3605で得た登録文書画像ID群どうしの論理積をとることにより、検索元文書画像の全ての画像領域に対応する画像領域を持つ登録文書画像を絞り込み、その登録文書画像ID群を登録文書画像IDリストとして新たに記憶する。
ステップS3607からステップS3611が文字領域に関する絞り込み処理であり、上記の画像領域に対する絞り込み処理ステップS3602からステップS3606と同様の処理であり説明は割愛する。
ステップS3612では、各文字領域の登録文書画像IDの論理積をとり、全文字領域が存在する登録文書画像ID群に絞り込み、これと先のステップS3606で記憶してある登録文書画像ID群との論理積をとることにより画像領域条件と文字領域条件を共に満たす登録文書画像IDを絞り込み、その登録文書画像個数Lを得る。
以上の説明から明らかなように、本実施形態にかかる画像検索装置の画像検索処理は、絞込条件として、文書画像に含まれる部分領域として、画像領域、文字領域の各々の個数、ならびに画像領域の重心位置のブロックID、文字領域の重心位置のブロックIDを用いることとした。このように、画像領域及び文字領域の個数と、画像領域および文字領域の重心位置のブロックを用いることにより、適正な数にまで絞り込みを行うことが可能となる。
また、絞り込みにあたっては、画像領域の個数、文字領域の個数、画像領域の重心位置のブロックID、文字領域の重心位置のブロックIDとをインデックスとして、当該インデックスに一致する画像領域または文字領域の特徴量のみをメモリ上に読み込む構成とした。このようにDB化された特定の特徴量のみを読み込んで類似度を算出する構成とすることにより、HDD上に記憶された特徴量を逐次読み込んだり、DBに記憶管理した特徴量を個別に直接参照したりする従来方式に比べ、はるかに検索速度が速く、しかもメモリ上に全特徴量を置く従来方式と比しても、検索速度をあまり低下させることなくメモリ消費量を大幅に削減することが可能となる。
また、絞り込み時の漏れをなくすべく、絞込条件である画像領域および文字領域の重心位置のブロックIDに許容値を持たせる一方で、適正な数に絞り込まれるようにすべく、絞込条件に一致しメモリに読み込まれた画像領域の特徴量(各画像領域の重心位置座標、大きさ、アスペクト比)について許容範囲内にあることを条件として更に絞り込むこととした。このように、2段階で絞り込みを行うことにより、漏れをなくしつつ適正な数に絞り込むことが可能となる。
また、本実施形態にかかる画像検索装置の画像検索処理は、上記絞り込まれた文書画像を対象に特徴量を比較し類似度の算出を行うにあたり、文書画像に含まれる画像領域および文字領域の重心位置座標、大きさ、アスペクト比、ならびに色特徴情報、領域内文字情報を用いた点に特徴がある。
このように、類似度算出にあたってもDB化された特定の特徴量のみを読み込む構成としたことにより、メモリ上に全特徴量を置く従来方式と比して、検索速度を低下させることなくメモリ消費量を大幅に削減することが可能となる。
更に、本実施形態によれば、プリサーチ処理により絞り込まれた結果、登録文書画像の個数が少なくとも、1つ以上となるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げる再帰的な構成とすることにより、検索能力の向上を図ることが可能となる。
<第5の実施形態>
上記第4の実施形態では、プリサーチ処理により絞り込まれた結果、登録文書画像の個数が少なくとも1つ以上となるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げる構成としたが、本発明はこれに限られず、類似画像検索処理において所定の閾値以上の総合類似度が得られるように、画像領域個数許容範囲、文字領域個数許容範囲を拡げるようにしてもよい。
図37に特徴量の詳細比較を行い、類似度を算出した結果、得られた総合類似度の最も高いものが閾値に達しない場合に、再度Mを増加して再帰的な検索処理を行い、閾値以上の総合類似度の検索結果を得る処理のフローを示す。
この処理は上記第4の実施形態における再帰的なプリサーチ処理に代わり、プリサーチ処理と特徴量の詳細比較処理の両方の処理を再帰的に行い、その検索結果を再帰処理の制御に用いた応用と考えて良い。
ステップS3501では、検索元画像入力部207の制御のもと、画像入力装置110を介して検索元文書画像を入力し、画像一時記憶部208によりRAM103上の画像メモリへ当該検索元文書画像を一時記憶する。
ステップS3502では、領域分割部209が検索元文書画像を複数の部分領域(文字領域および画像領域)を抽出し、所定の規則に基づき画像領域および文字領域別に部分領域の並び順を決定しこれを数字で管理する(リーディングオーダを付与する)。これは検索元文書画像の各部分領域に対応する情報を管理するためである。
ステップS3503では、領域特徴抽出部210にて、部分領域個数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像に含まれる各文字領域の重心位置座標、大きさ、アスペクト比ならびに領域内文字情報、各画像領域の重心位置座標、大きさ、アスペクト比、色特徴情報を抽出し、RAM103上のワーク領域にこれらを一時記憶する。
上記ステップS3502およびステップS3503の処理は、基本的に図29の画像登録処理と同様の処理であり、図30、図31、図32、図33および図34の各DBへ登録する代わりに、検索元文書画像解析結果としてRAM103上のワーク領域に一時記憶するだけの違いであるため、詳細説明は割愛する。
ステップS3504では、画像領域個数Jqから画像領域個数許容範囲最大値M_I_MAXを求める。これは例えば画像領域個数に対して予め決めた割合で算出するものとする。同様に、ステップS3505では文字領域個数Jqから文字領域個数許容範囲最大値M_T_MAXを求める。
ステップS3506では、画像領域個数許容範囲M_Iと文字領域個数許容範囲M_Tを0に初期化し、ステップS3701では、図36のプリサーチ処理を行う。ここで、図36のプリサーチ処理、ならびに次いで行われる図35Bの特徴量の詳細比較処理については、初回は画像領域、文字領域がともに個数が同一の検索を行うこととなる。
なお、図36の処理フローに関しては上記第4の実施形態にて説明済みであり、図35Bの処理フローについても上記第4の実施形態の処理フローとほぼ同じ内容なので説明を割愛する。
ステップS3702では、ステップS3701における処理の結果、総合類似度の最大値が閾値より大きいか判断し、大きければステップS3703に進み、検索結果一覧表示を行う。
ステップS3702にて総合類似度の最大値が閾値より小さいと判断された場合には、ステップS3509にて画像領域個数許容範囲M_Iおよび文字領域個数許容範囲M_Tがともに領域個数許容範囲最大値(M_I_MAX、M_T_MAX)に達していないかを確認し、ともに達している場合にはステップS3704にて類似するものが無い旨を表示する。
ステップS3509において、画像領域個数許容範囲M_Iまたは文字領域個数許容範囲M_Tのいずれかが領域個数許容範囲最大値に達していた場合には、ステップS3510にて文字領域個数許容範囲M_Iが画像領域個数許容範囲最大値M_I_MAXに達していないかを確認し、達していなければステップS3511にて1インクリメントした後、ステップS3512に進む。一方、達していれば直接ステップS3512に進む。
同様に、ステップS3512では、文字領域個数許容範囲M_Tが文字領域個数許容範囲最大値に達していないかを確認し、達していなければステップS3513にて1インクリメントした後、再びステップS3701に戻る。一方、達していれば、直接ステップS3507に戻る。
そして、ステップS3702で総合類似度の最大値が閾値より大きい結果が見つかるか、或いはステップS3509にて画像領域・文字領域ともに領域個数許容範囲最大値に達してしまうかのいずれかの条件を満たすまで再帰的にステップS3701からS3513までの処理が行われる。
<第6の実施形態>
上記第4および第5の実施形態では文字領域と画像領域の両方を考慮した検索についての実施形態を挙げたが、当然、ユーザが選択することにより、文字領域のみ或いは画像領域のみを考慮した検索を行うようにすることも可能である。
これを簡便に実現するためには上記第4或いは第5の実施形態の構成のままで、領域特徴抽出部205における抽出結果をマスキングし文字領域のみ或いは画像領域のみを出力するようにすれば良い。
具体的には画像登録処理の際、図28のステップS2802の領域特徴抽処理において抽出結果をマスキングすれば、抽出結果として反映されたものしか検索できない。
また、類似画像検索の際、領域特徴抽出処理である図36のステップS3601において抽出結果をマスキング、例えば画像領域抽出結果を破棄すれば文字領域だけを考慮した検索が可能であり、逆に文字領域抽出結果を破棄すれば画像領域だけを考慮した検索が可能となる。
もちろん、図36のステップS3602〜ステップS3606を取り除けば文字領域のみ考慮した検索、或いはステップS3607〜ステップS3611を取り除けば画像領域のみ考慮した検索となるが、これは実装マターの話であって、簡便のため説明は割愛する。
いずれにしても、上記第4および第5の実施形態の場合、文字領域或いは画像領域のどちらか片方でも文字領域と画像領域の両方でもどちらでも適応可能である。
<第7の実施形態>
上記第4乃至第6の実施形態では検索元文書画像を検索クエリとして与える場合について述べたが、本発明はこれに限られず、既に登録された登録文書画像を検索クエリとして与えることも可能である。その場合、図35AのステップS3501およびステップS3502およびステップS3503が登録検索元文書画像の部分領域個数N、画像領域個数Jq、文字領域個数Kq、登録文書画像に含まれる文字領域群の重心位置座標と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置座標と大きさとアスペクト比と色特徴情報をDBから読み出すように構成することで実現することができる。
また、上記第4乃至第6の実施形態では、各部分領域に対して算出した類似度の平均を取り総合類似度としたが、類似度の平均或いは重み付けの平均をとることも可能である。
実現方法としては、予め検索条件として文字領域の重みγと画像領域の重みβをユーザが指定し、文字領域の正規化重みWT=γ/(γ+β)、画像領域の正規化重みWI=β/(γ+β)を各類似度に乗じて平均を算出することにより重み付け平均をとると良い。
そして、総合類似度FinalSimは、文字領域個数M、i番目の文字領域の類似度STi、Wi、および画像領域個数N、j番目の文字領域の類似度SIjを用いて下式で表現できる。
Figure 0004641414
また、画像領域における色特徴情報の比較精度と文字領域における領域内文字情報の比較精度の差は、特に文字領域内の文字数に依存するところが大きい。そこで、文字領域中のテキストデータの量が少ない場合には情報量が少ないということで文字領域に対する類似度の重みを減じると自動的に最適な重み付けが可能となる。
その実現のためには、例えば、画像領域と同等な類似度精度を得られる経験的な文字数閾値ζを用い、i番目の文字領域中の文字数nの場合の重みWiは、例えば下式で表現できる。
Figure 0004641414
この場合、総合類似度FinalSimは、文字領域個数M、i番目の文字領域の類似度STi、Wi、および画像領域個数N、j番目の文字領域の類似度SIjを用いて下式で表現できる。
Figure 0004641414
<他の実施形態>
なお、本発明は、複数の機器(例えばホストコンピュータ、インタフェース機器、リーダなど)から構成されるシステムあるいは統合装置に適用しても、ひとつの機器からなる装置に適用してもよい。
また、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することによって、前述した実施形態の機能が実現される他、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体から、そのプログラムをパソコン通信など通信ラインを介して要求者にそのプログラムを配信する場合にも適用できることは言うまでもない。
本発明の各実地形態に共通する画像検索装置の構成例を示す図である。 本発明の第1の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。 画像登録処理の流れを示すフローチャートである。 登録文書画像の一例を示す図である。 色特徴情報について説明するための図である。 色特徴情報について説明するための図である。 画像領域インデックス決定処理のうち、画像領域の重心位置ブロックを求める処理の流れを示すフローチャートである。 ブロック分割された登録文書画像において、画像領域の重心位置を示す図である。 縦長のビジネス文書画像1万件について画像領域の重心位置の分布を求めた結果を示す図である。 画像管理DBに格納されるデータの具体例を示す図である。 画像領域管理DBに格納されるデータの具体例を示す図である。 画像領域管理DBに格納されるデータの具体例を示す図である。 類似画像検索処理(プリサーチ処理)の流れを示すフローチャートである。 類似画像検索処理(特徴量の詳細比較ならびに類似度算出処理)の流れを示すフローチャートである。 分割ブロックにおける画像領域の重心位置の一例を示す図である。 分割ブロックにおける画像領域の重心位置の一例を示す図である。 分割ブロックにおける画像領域の重心位置の一例を示す図である。 部分領域の重心の存在する分割ブロックと、該分割ブロックに隣接する分割ブロックとの距離の算出方法を説明するための図である。 画像領域インデックスを参照すべき分割ブロック群を決定するための処理の流れを示すフローチャートである。 画像領域比較処理の流れを示すフローチャートである。 画像領域比較処理で用いる類似距離を類似度へ変換する関数の特性の一例を示す図である。 検索結果表示画面の一例を示す図である。 本発明の第2の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。 画像登録処理の流れを示すフローチャートである。 画像管理DBに格納されるデータの具体例を示す図である。 文字領域管理DBに格納されるデータの具体例を示す図である。 文字領域管理DBに格納されるデータの具体例を示す図である。 類似画像検索処理(プリサーチ処理)の流れを示すフローチャートである。 類似画像検索処理(特徴量の詳細比較ならびに類似度算出処理)の流れを示すフローチャートである。 文字領域比較処理の流れを示すフローチャートである。 文字領域の類似度算出処理の流れを示すフローチャートである。 文字領域比較処理で用いる類似距離を類似度へ変換する関数の特性の一例を示す図である。 本発明の第4の実施形態にかかる画像検索装置の有する画像登録・類似画像検索機能の構成を示すブロック図である。 画像登録処理の流れを示すフローチャートである。 画像管理DBに格納されるデータの具体例を示す図である。 画像領域DBに格納されるデータの具体例を示す図である。 画像領域DBに格納されるデータの具体例を示す図である。 文字領域管理DBに格納されるデータの具体例を示す図である。 文字領域管理DBに格納されるデータの具体例を示す図である。 類似画像検索処理の流れを示すフローチャートである。 類似画像検索処理の流れを示すフローチャートである。 プリサーチ処理の流れを示すフローチャートである。 類似検索処理の流れを示すフローチャートである。

Claims (14)

  1. 保存された複数の登録文書画像の中から、クエリ文書画像に類似する文書画像を検索する文書画像検索装置であって、
    文書画像を構成する複数の部分領域を抽出する抽出手段と、
    前記抽出手段により抽出された各部分領域の属性を判定する判定手段と、
    前記判定手段により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する算出手段と、
    前記登録文書画像について前記算出手段により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存する保存手段と、
    前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像検索する第1検索手段と、
    前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第1検索手段で検索した登録文書画像の中から検索する第2検索手段と
    を有することを特徴とする文書画像検索装置。
  2. 前記着目領域は前記判定手段によって前記属性が画像であると判定された画像領域であることを特徴とする請求項1に記載の文書画像検索装置。
  3. 前記保存手段はハードディスクドライブであって、前記第2検索手段は前記ハードディスクドライブに保存された特徴量のうち、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置とに一致する登録文書画像の着目領域の特徴量のみをメモリに読み込むことを特徴とする請求項1または2に記載の文書画像検索装置。
  4. 前記部分領域の特徴量は、少なくとも、各部分領域のアスペクト比、大きさ、重心位置座標のいずれかを含むことを特徴とする請求項1乃至3のいずれか1項に記載の文書画像検索装置。
  5. 前記部分領域の重心の位置とは、画像を複数のブロックに分割した場合において、各部分領域の重心がいずれのブロック上に位置しているかを示す識別子であることを特徴とする請求項1乃至4のいずれか1項に記載の文書画像検索装置。
  6. 前記算出手段を用いて算出された、前記クエリ文書画像に含まれる同一属性の部分領域の重心の位置に基づいて、前記保存手段に保存されたインデックスを参照するにあたっては、該各部分領域の重心がいずれのブロック上に位置しているかを示す識別子のほか、該各部分領域の重心が位置しているブロックの近傍に位置するブロックを示す識別子を用いて参照することを特徴とする請求項に記載の文書画像検索装置。
  7. 前記第2検索手段は、前記第1検索手段により検索された各登録文書画像に含まれる各着目領域と前記クエリ文書画像に含まれる各着目領域との各類似度の平均値を、該登録文書画像と該クエリ文書画像との総合類似度として出力することを特徴とする請求項1乃至6のいずれか1項に記載の文書画像検索装置。
  8. 前記着目領域は文字領域であり、前記第2検索手段は前記第1検索手段により検索された各登録文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報と、前記クエリ文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報とを用いて、該登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との類似度をそれぞれ算出することを特徴とする請求項に記載の文書画像検索装置。
  9. 前記着目領域が画像領域であった場合、前記第2検索手段は、前記第1検索手段により検索された各登録文書画像に含まれる各画像領域のアスペクト比、大きさ、重心位置座標ならびに色特徴情報と、前記クエリ文書画像に含まれる各画像領域のアスペクト比、大きさ、重心位置座標ならびに色特徴情報とを用いて、該登録文書画像に含まれる各画像領域と前記クエリ文書画像に含まれる各画像領域との類似度をそれぞれ算出し、
    前記着目領域が文字領域であった場合、前記第2検索手段は、前記第1検索手段により検索された各登録文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報と、前記クエリ文書画像に含まれる各文字領域のアスペクト比、大きさ、重心位置座標ならびに領域内文字情報とを用いて、該登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との類似度をそれぞれ算出することを特徴とする請求項1に記載の文書画像検索装置。
  10. 前記第2検索手段は、前記第1検索手段により検索された各登録文書画像に含まれる各画像領域と前記クエリ文書画像に含まれる各画像領域との各類似度の平均値と、前記登録文書画像に含まれる各文字領域と前記クエリ文書画像に含まれる各文字領域との各類似度の平均値とを算出し、両平均値に重み付けした後、該登録文書画像と該クエリ文書画像との総合類似度として出力することを特徴とする請求項9に記載の文書画像検索装置。
  11. 前記保存手段はインデックスとして各登録文書画像の文書形状を更に有し、前記第1検索手段は保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出手段により算出された着目領域の個数と着目領域の重心の位置と文書形状とに一致する登録文書画像を検索することを特徴とする請求項1乃至10のいずれか1項に記載の文書画像検索装置。
  12. 保存された複数の登録文書画像の中から、クエリ文書画像に類似する画像を検索する画像検索方法であって、
    画像を構成する複数の部分領域を抽出する抽出工程と、
    前記抽出工程により抽出された各部分領域の属性を判定する判定工程と、
    前記判定工程により前記属性が所定の属性であると判定された着目領域について、該着目領域の個数と、該着目領域の重心の位置と、該着目領域の特徴量とを算出する第1の算出工程と、
    前記登録文書画像について前記算出工程により算出された前記着目領域の個数と、前記着目領域の重心の位置と、前記着目領域の特徴量とを、前記登録文書画像に対応づけてインデックスとして保存手段に保存する保存工程と、
    前記保存手段に保存されたインデックスの中から、前記クエリ文書画像について前記算出工程を用いて算出された着目領域の個数と該着目領域の重心の位置とに一致する登録文書画像を検索する第1検索工程と、
    前記クエリ文書画像の着目領域の特徴量に類似する特徴量を有する文書画像を、前記第1検索工程で検索した登録文書画像の中から検索する第2検索工程と
    を有することを特徴とする文書画像検索方法。
  13. 請求項12に記載の文書画像検索方法をコンピュータによって実現させるための制御プログラム。
  14. 請求項12に記載の文書画像検索方法をコンピュータによって実現させるための制御プログラムを格納する記憶媒体。
JP2004354702A 2004-12-07 2004-12-07 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 Expired - Fee Related JP4641414B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2004354702A JP4641414B2 (ja) 2004-12-07 2004-12-07 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体
US11/291,981 US7508998B2 (en) 2004-12-07 2005-12-02 Image search apparatus, image search method, program, and storage medium
DE602005015534T DE602005015534D1 (de) 2004-12-07 2005-12-07 Bildsuchvorrichtung, Bildsuchverfahren, Programm und Speichermedium
EP05257528A EP1669908B1 (en) 2004-12-07 2005-12-07 Image search apparatus, image search method, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004354702A JP4641414B2 (ja) 2004-12-07 2004-12-07 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体

Publications (3)

Publication Number Publication Date
JP2006163841A JP2006163841A (ja) 2006-06-22
JP2006163841A5 JP2006163841A5 (ja) 2008-01-31
JP4641414B2 true JP4641414B2 (ja) 2011-03-02

Family

ID=35911087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004354702A Expired - Fee Related JP4641414B2 (ja) 2004-12-07 2004-12-07 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体

Country Status (4)

Country Link
US (1) US7508998B2 (ja)
EP (1) EP1669908B1 (ja)
JP (1) JP4641414B2 (ja)
DE (1) DE602005015534D1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4235604B2 (ja) * 2004-11-22 2009-03-11 キヤノン株式会社 画像処理装置、画像処理方法、ならびにプログラム
JP4137096B2 (ja) * 2005-07-13 2008-08-20 キヤノン株式会社 画像データ検索システム、画像データ検索装置、画像データ検索方法、コンピュータプログラム、及び記憶媒体
JP4757001B2 (ja) * 2005-11-25 2011-08-24 キヤノン株式会社 画像処理装置、画像処理方法
US20070226321A1 (en) * 2006-03-23 2007-09-27 R R Donnelley & Sons Company Image based document access and related systems, methods, and devices
JP4850652B2 (ja) * 2006-10-13 2012-01-11 キヤノン株式会社 画像検索装置及びその制御方法、プログラム、記憶媒体
JP4823049B2 (ja) * 2006-12-18 2011-11-24 シャープ株式会社 文書画像検索装置及びプログラム
JP5268274B2 (ja) 2007-03-30 2013-08-21 キヤノン株式会社 検索装置、方法、プログラム
US7949191B1 (en) * 2007-04-04 2011-05-24 A9.Com, Inc. Method and system for searching for information on a network in response to an image query sent by a user from a mobile communications device
JP5096776B2 (ja) * 2007-04-04 2012-12-12 キヤノン株式会社 画像処理装置及び画像検索方法
JP4989308B2 (ja) * 2007-05-16 2012-08-01 キヤノン株式会社 画像処理装置及び画像検索方法
JP5139716B2 (ja) * 2007-05-16 2013-02-06 キヤノン株式会社 画像検索装置及び画像検索方法
US8351706B2 (en) 2007-07-24 2013-01-08 Sharp Kabushiki Kaisha Document extracting method and document extracting apparatus
US8166004B2 (en) * 2007-08-24 2012-04-24 Opnet Technologies, Inc. Verifying data consistency among structured files
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
US8136034B2 (en) * 2007-12-18 2012-03-13 Aaron Stanton System and method for analyzing and categorizing text
WO2009087815A1 (ja) * 2008-01-09 2009-07-16 Nec Corporation 類似文書検索システム、類似文書検索方法および記録媒体
US8190622B2 (en) * 2008-01-11 2012-05-29 UberMedia, Inc. Data picker application
JP4539756B2 (ja) * 2008-04-14 2010-09-08 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5132440B2 (ja) * 2008-06-23 2013-01-30 キヤノン株式会社 画像処理装置及び画像処理方法
KR100889026B1 (ko) * 2008-07-22 2009-03-17 김정태 이미지를 이용한 검색 시스템
WO2010071617A1 (en) * 2008-12-15 2010-06-24 Thomson Licensing Method and apparatus for performing image processing
EP2199952A1 (en) * 2008-12-22 2010-06-23 Nederlandse Organisatie voor toegepast-natuurwetenschappelijk Onderzoek TNO Method and apparatus for identifying combinations of matching regions in images.
US20120242817A1 (en) * 2008-12-30 2012-09-27 Ebm Technologies Incorporated System and method for identifying a pathological tissue image
US20100166303A1 (en) * 2008-12-31 2010-07-01 Ali Rahimi Object recognition using global similarity-based classifier
RU2012105677A (ru) * 2009-08-06 2013-09-20 Алд Софтвеа Лтд. Способ и система для поиска изображения
US9336241B2 (en) 2009-08-06 2016-05-10 A.L.D Software Ltd Method and system for image search
JP5507962B2 (ja) * 2009-11-05 2014-05-28 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
FR2953312B1 (fr) * 2009-12-02 2011-11-18 Sagem Comm Procede de generation d'un resultat d'une recherche effectuee au moyen d'un moteur de recherche
US8600165B2 (en) * 2010-02-12 2013-12-03 Xerox Corporation Optical mark classification system and method
JP5495934B2 (ja) 2010-05-18 2014-05-21 キヤノン株式会社 画像処理装置、その処理方法及びプログラム
JP5410372B2 (ja) * 2010-06-14 2014-02-05 日本電信電話株式会社 コンテンツ検索装置及び方法及びプログラム
US20120170855A1 (en) * 2010-07-21 2012-07-05 Panasonic Corporation Image management device, image management method, program, recording medium, and image management integrated circuit
EP2625655A4 (en) * 2010-10-06 2014-04-16 Planet Data Solutions SYSTEM AND METHOD FOR INDEXING ELECTRONIC DETECTION DATA
JP5167442B2 (ja) 2011-02-17 2013-03-21 三洋電機株式会社 画像識別装置およびプログラム
JP5853470B2 (ja) 2011-07-29 2016-02-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5842441B2 (ja) 2011-07-29 2016-01-13 ブラザー工業株式会社 画像処理装置およびプログラム
JP5776419B2 (ja) * 2011-07-29 2015-09-09 ブラザー工業株式会社 画像処理装置、画像処理プラグラム
JP5796392B2 (ja) 2011-07-29 2015-10-21 ブラザー工業株式会社 画像処理装置、および、コンピュータプラグラム
JP5857704B2 (ja) * 2011-12-13 2016-02-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP2013207402A (ja) * 2012-03-27 2013-10-07 Nippon Hoso Kyokai <Nhk> 画像符号化装置及びプログラム
JP2014127186A (ja) * 2012-12-27 2014-07-07 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
KR101447820B1 (ko) * 2013-05-08 2014-10-13 중앙대학교 산학협력단 이미지 처리방법 및 이를 활용한 이미지 처리시스템
JP5967036B2 (ja) * 2013-08-22 2016-08-10 富士ゼロックス株式会社 画像検索システム、情報処理装置及びプログラム
US8965117B1 (en) * 2013-12-17 2015-02-24 Amazon Technologies, Inc. Image pre-processing for reducing consumption of resources
US10394882B2 (en) * 2014-02-19 2019-08-27 International Business Machines Corporation Multi-image input and sequenced output based image search
US9965547B2 (en) * 2014-05-09 2018-05-08 Camelot Uk Bidco Limited System and methods for automating trademark and service mark searches
KR20160038563A (ko) * 2014-09-30 2016-04-07 삼성전자주식회사 하나 이상의 이미지들을 추천하는 방법 및 그를 위한 전자 장치
US10372981B1 (en) * 2015-09-23 2019-08-06 Evernote Corporation Fast identification of text intensive pages from photographs
EP3358814B1 (en) * 2015-09-30 2021-10-27 Kyocera Document Solutions Inc. Document reading device and image forming device
US11238362B2 (en) * 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions
CN107766563B (zh) * 2017-11-07 2020-05-12 Oppo广东移动通信有限公司 更新数据的方法、装置、存储介质及电子设备
CN107958252A (zh) * 2017-11-23 2018-04-24 深圳码隆科技有限公司 一种商品识别方法和设备
US11496678B1 (en) * 2019-11-26 2022-11-08 ShotSpotz LLC Systems and methods for processing photos with geographical segmentation
US11816146B1 (en) 2019-11-26 2023-11-14 ShotSpotz LLC Systems and methods for processing media to provide notifications
US11868395B1 (en) 2019-11-26 2024-01-09 ShotSpotz LLC Systems and methods for linking geographic segmented areas to tokens using artwork
US11763586B2 (en) * 2021-08-09 2023-09-19 Kyocera Document Solutions Inc. Method and system for classifying document images
CN116188804B (zh) * 2023-04-25 2023-07-04 山东大学 一种基于transformer的孪生网络目标搜索系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001525959A (ja) * 1997-05-16 2001-12-11 ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク 画像検索方法及びシステム
JP2004265384A (ja) * 2003-01-31 2004-09-24 Canon Inc 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5159667A (en) * 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
WO1999017250A1 (en) 1997-10-01 1999-04-08 Island Graphics Corporation Image comparing system
US6584223B1 (en) * 1998-04-02 2003-06-24 Canon Kabushiki Kaisha Image search apparatus and method
US7075683B1 (en) * 1999-02-15 2006-07-11 Canon Kabushiki Kaisha Dynamic image digest automatic editing system and dynamic image digest automatic editing method
JP3937687B2 (ja) 2000-05-09 2007-06-27 キヤノン株式会社 画像処理装置及び画像処理方法、記録媒体
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
US6922485B2 (en) * 2001-12-06 2005-07-26 Nec Corporation Method of image segmentation for object-based image retrieval
JP2004030122A (ja) * 2002-06-25 2004-01-29 Fujitsu Ltd 図面検索支援装置および図面検索方法
JP4318465B2 (ja) * 2002-11-08 2009-08-26 コニカミノルタホールディングス株式会社 人物検出装置および人物検出方法
JP2004240750A (ja) * 2003-02-06 2004-08-26 Canon Inc 画像検索装置
JP4235604B2 (ja) * 2004-11-22 2009-03-11 キヤノン株式会社 画像処理装置、画像処理方法、ならびにプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001525959A (ja) * 1997-05-16 2001-12-11 ザ トラスティーズ オブ コロンビア ユニヴァーシティ イン ザ シティ オブ ニューヨーク 画像検索方法及びシステム
JP2004265384A (ja) * 2003-01-31 2004-09-24 Canon Inc 画像処理システム及び情報処理装置、並びに制御方法及びコンピュータプログラム及びコンピュータ可読記憶媒体
JP2004355370A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書処理装置

Also Published As

Publication number Publication date
EP1669908A2 (en) 2006-06-14
EP1669908B1 (en) 2009-07-22
US7508998B2 (en) 2009-03-24
EP1669908A3 (en) 2007-04-25
US20060120627A1 (en) 2006-06-08
DE602005015534D1 (de) 2009-09-03
JP2006163841A (ja) 2006-06-22

Similar Documents

Publication Publication Date Title
JP4641414B2 (ja) 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体
EP0947937B1 (en) Image search apparatus and method
EP1516264B1 (en) Image retrieval by generating a descriptor for each spot of an image the cells of which having visual characteristics within a selected tolerance
US6556710B2 (en) Image searching techniques
JP4579404B2 (ja) 画像処理方法及びその装置
US6522782B2 (en) Image and text searching techniques
EP1227430B1 (en) System and method for determining image similarity
EP1387303A2 (en) Image classification method and image feature space displaying method
US6915011B2 (en) Event clustering of images using foreground/background segmentation
JP4340367B2 (ja) 画像分類装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US7065521B2 (en) Method for fuzzy logic rule based multimedia information retrival with text and perceptual features
US20100034470A1 (en) Image and website filter using image comparison
US20110188713A1 (en) Facial image recognition and retrieval
US20070214114A1 (en) Projecting queries and images into a similarity space
Yang Content-based image retrieval: a comparison between query by example and image browsing map approaches
JP4374902B2 (ja) 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
Theoharatos et al. A generic scheme for color image retrieval based on the multivariate Wald-Wolfowitz test
US6522780B1 (en) Indexing of images and/or text
Ngu et al. Combining multi-visual features for efficient indexing in a large image database
Song et al. Analyzing scenery images by monotonic tree
JP2014211730A (ja) 画像検索システム、画像検索装置および画像検索方法
US6522779B2 (en) Representing an image with a posterized joint histogram
Shrivastava et al. An integrated approach for image retrieval using local binary pattern
CN112182264A (zh) 地标信息的确定方法、装置、设备及可读存储介质
US6671402B1 (en) Representing an image with weighted joint histogram

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071207

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20071207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees