JP4366119B2 - 文書処理装置 - Google Patents
文書処理装置 Download PDFInfo
- Publication number
- JP4366119B2 JP4366119B2 JP2003152833A JP2003152833A JP4366119B2 JP 4366119 B2 JP4366119 B2 JP 4366119B2 JP 2003152833 A JP2003152833 A JP 2003152833A JP 2003152833 A JP2003152833 A JP 2003152833A JP 4366119 B2 JP4366119 B2 JP 4366119B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- area
- character
- registered
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Description
【発明の属する技術分野】
本発明は、文書を検索するために検索対象を絞り込むための処理に関するものである。
【0002】
【従来の技術】
従来、処理負荷の重い条件で検索処理を行う前に、処理負荷の軽い条件で予め検索対象を絞り込むプリサーチに関する技術がいくつか提案されている。
【0003】
特許公報1は予めデータベース内の文書をその領域数と共に保存しておき、入力画像を領域分割して領域の数を算出し、まず領域の数が一致するもので検索対象を絞り込み、それから特徴量の比較を行うものであり、非常に軽い処理で絞込みが行える。
【0004】
【特許文献1】
特開2001−319231号公報
【0005】
【発明が解決しようとする課題】
しかしながら、業務文書の増加などで肥大化するデータベースを検索するためには、上記従来技術による絞込みでは不十分であり、更に高精度な絞込み技術が求められている。また上記従来技術では領域分割処理における領域検出し損ねや領域の過検出に対する配慮が見られないため、検索漏れが生じてしまう恐れがあった。
【0006】
【課題を解決するための手段】
上記課題を解決するために、本発明の文書処理装置は、検索元の文書画像から文字領域と画像領域とを抽出し、当該抽出された文字領域については該文字領域の個数、外形特徴量およびOCR処理により得られる文字情報を求め、当該抽出された画像領域については該画像領域の個数、外形特徴量および色特徴情報を求める領域分割手段と、前記領域分割手段で求めた前記文字領域の個数と前記画像領域の個数とに基づいて文字領域の個数に関する第1許容範囲と画像領域の個数に関する第2許容範囲とを求め、更に、データベースに登録されている複数の登録画像の中から、前記第1許容範囲内の個数の文字領域と前記第2許容範囲内の個数の画像領域とが含まれている登録画像全てを選択する画像選択手段と、前記領域分割手段で求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較した結果に基づいて、前記比較元の文書画像に類似する登録画像を検索結果として出力する第1出力手段とを有することを特徴とする。
【0009】
【発明の実施の形態】
以下本発明の一実施例について、文書検索を実行する文書処理装置の説明を詳細に行う。
【0010】
〔装置構成〕
本願発明の実施の形態について説明する。図1は本願発明にかかる文書処理装置の構成例を示す図である。
【0011】
同図において、101はCPUであり、本実施の検索方法を用いた検索装置における各種演算・制御を実行する。102はROMであり、装置の立ち上げ時に実行するブートプログラムや各種の固定データを格納する。103はRAMであり、CPU101が処理するための制御プログラムを格納すると共に、CPU101が各種制御を実行する際の作業領域を提供する。例えば、RAM103は本発明の処理を行うプログラム103本体を格納するほか、領域分割モジュールや領域比較モジュールや検索結果総合判定モジュールなどを記憶するほか、画像入力を行う際の画像を一時格納する画像メモリとしても使用する。
【0012】
104はキーボード、105はマウスであり、ユーザによる処理モード指定等の各種入力操作環境を提供する。106は外部記憶装置であり、ハードディスクやフロッピー(登録商標)ディスク、CD−ROM等で構成され、例えば、以下に説明する画像管理DBや画像領域管理DBや文字領域管理DBや画像データを蓄積するスペースとして用いる。107は液晶ディスプレイやCRT等の表示装置である。108はネットワークインターフェースであり、ネットワーク上の各機器との通信を可能とする。109はインターフェース、110はイメージスキャナやデジタルカメラなどの画像入力装置である。また、111は上記の各構成を接続するバスである。
【0013】
図2は本実施の形態の画像検索処理装置の類似比較機能の構成を示すブロック図である。
【0014】
同図において、201はユーザインターフェース部であり、表示装置107、キーボード104及びマウス105を用いてユーザからの各種操作入力を検出し、画像登録処理か類似画像検索処理であるかの処理分岐も行う。
【0015】
202は画像入力手段であり、画像入力のための画像入力装置110による画像の取り込みを行う。203は画像記憶制御手段であり、画像入力手段で得た画像データをRAM103上の画像メモリへ一時記憶するとともに外部記憶装置106における画像蓄積手段へ記憶し、外部記憶装置106における画像管理DBへも格納アドレスを記憶する。
【0016】
204では画像メモリ上の画像を複数の部分領域に分割し、領域特徴抽出手段205において各部分領域の特徴抽出を行い、インデックス更新手段206により、外部記憶装置106における画像管理DB、画像領域管理DBおよび文字領域管理DBに対して各部分領域から抽出した特徴情報を記憶する。
【0017】
検索元画像入力手段207では検索元となる画像データを画像入力装置110から取り込み、画像一時記憶手段208ではRAM103上の画像メモリにそれを一時記憶する。なお、本実施例では検索条件として入力した入力画像を、検索元画像と記載する。209では画像メモリ上の検索元画像を複数の部分領域に分割し、領域特徴抽出手段210において各部分領域の特徴抽出を行い、領域類似比較手段211において、検索元画像の各部分領域の特徴と外部記憶装置106における画像管理DB、画像領域管理DBおよび文字領域管理DBに対して各部分領域から抽出した特徴情報を比較し、検索元画像の部分領域に対する類似する既登録画像の部分領域の結果を得て、検索結果総合判定手段212においてその既登録画像の部分領域の結果を用い、類似する既登録画像の最終決定を行い、213の検索結果表示手段において表示装置107に検索結果を表示する。
【0018】
次に、本実施例の処理を登録処理、検索処理別に詳しく説明する。
【0019】
〔登録処理〕
まず、画像登録時に文書画像を複数の画像領域と文字領域へ分割を行い領域の外形特徴量、としてアスペクト比と文書画像に対する大きさおよび重心位置を求め、更に領域内容に関する特徴を求めこれらを画像と対応付けて図7の画像管理DB、図8画像領域管理DBおよび図9文字領域管理DBへ記憶格納する。
【0020】
図3に登録処理におけるインデックス生成処理のフローを示す。
【0021】
まず画像入力手段202での処理であるが、S301において画像入力装置110から文書画像を得て、更に画像記憶制御手段203において文書画像のIDを発行し、図7の文書画像IDフィールドに文書画像のIDを記憶し、文書画像の格納先をフルパスのファイル名フィールドに記憶し、画像蓄積手段へ文書画像をファイルとして記憶する。なお、外部記憶装置106内の電子データを登録する場合は、その電子データをラスタ画像に変換して画像蓄積手段へ記憶すればよい。ラスタ画像への変換は、登録対象の電子データを生成したアプリケーション自身あるいは付加ソフトウェアが有するラスタデータ化機能を利用して実現しても良い。
【0022】
次に、領域分割手段204における処理の説明である。S302では画像から部分領域とその属性を抽出し、またその個数N個を得る。部分領域と属性は、図4に示すように、左側の文書画像を、右に示すように各オブジェクト毎の塊として認識し、該ブロック各々を文字/図画/写真/線/表等の属性に判定することで抽出する。
【0023】
上記処理の具体的な実施例を以下に説明する。先ず、入力画像を白黒に二値化し、輪郭線追跡をおこなって黒画素輪郭で囲まれる画素の塊を抽出する。面積の大きい黒画素の塊については、内部にある白画素に対しても輪郭線追跡をおこない白画素の塊を抽出、さらに一定面積以上の白画素の塊の内部からは再帰的に黒画素の塊を抽出する。
【0024】
このようにして得られた黒画素の塊を、大きさおよび形状で分類し、異なる属性を持つ領域へ分類していく。たとえば、縦横比が1に近く、大きさが一定の範囲のものを文字相当の画素塊とし、さらに近接する文字が整列良くグループ化可能な部分を文字領域、扁平な画素塊を線領域、一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲を表領域、不定形の画素塊が散在している領域を写真領域、それ以外の任意形状の画素塊を図画領域、などとする。
【0025】
ここでは、不定形の画素塊が散在している写真領域で且つその領域が矩形状のものを画像領域とし、領域を表現する座標とその領域の属性、即ち画像領域であるか文字領域であるかを抽出結果として出力する。
【0026】
ついで領域特徴抽出手段205およびインデックス更新手段206における処理の説明を行う。
【0027】
S303で、処理済の部分領域個数カウンタI、文字領域個数カウンタJおよび画像領域個数カウンタKを0にリセットし、S304でカウンタIが部分領域個数Nより小さい場合にS305以下の処理を行い、S304のIがNより小さくない、即ち未処理の部分領域が無くなった時点でS314において図7文書画像管理DBの処理中の文書画像に対応するレコードへ、文字領域個数カウンタJ、画像領域個数カウンタK、処理中の文書画像が含む画像領域のID群および処理中の文書画像が含む文字領域のID群を記憶した後処理を終了する。
【0028】
S304でI<N即ち未処理の部分領域があると判断した場合には、S305においてこの部分領域が画像領域であるか或いは文字領域であるかを判断し、文字領域であればS306において、文字領域個数カウンタを1つ増加させ、S307においてその領域の重心位置、文書画像に対する大きさ、アスペクト比を求め、更にその領域に対してOCR処理を行い領域の内容を表す情報としての領域内文字情報を抽出し、S308において画像領域インデックスにおいてユニークな画像領域IDを発行し、S309において画像領域インデックスへ画像領域IDと重心位置、文書画像に対する大きさ、アスペクト比と領域内文字情報を対応付けて記憶し、再びS304の未処理の部分領域判断へ戻る。
【0029】
図8に文字領域管理DBのデータスキーマを示す。発行した文字領域IDに関連つけてそのアスペクト比、大きさ、重心位置、領域内文字情報および画像領域を含む文書画像のIDを1レコードに記憶する。
【0030】
他方、S305においてこの部分領域が文字領域でないと判断すれば、S310において画像領域個数カウンタを1つ増加させ、S311においてその領域の重心位置、文書画像に対する大きさ、アスペクト比と領域の内容を表す情報としての色特徴情報を抽出し、S312において画像領域インデックスにおいてユニークな画像領域IDを発行し、S313において画像領域インデックスへ画像領域IDと重心位置、文書画像に対する大きさ、アスペクト比と色特徴情報を対応付けて記憶し、S315において領域個数カウンタを1つ増加させ、再びS304の未処理の部分領域判断へ戻る。
【0031】
図9に文字領域管理DBのデータスキーマを示す。発行した画像領域IDに関連つけてそのアスペクト比、大きさ、重心位置、色特徴情報および画像領域を含む文書画像のIDを1レコードに記憶する。
【0032】
重心位置とは文書画像の縦および横を1とした場合の相対的(0≦X≦1)位置座標と定義し、文書の大きさとは文書画像の面積を1とした場合の面積と定義し、アスペクト比とは横の画素数に対する縦の画素数の比と定義する。
【0033】
色特徴情報とは画像を図5の例の様に縦横にブロック分割を行い、そのブロックに属する画素のRGBチャネルの平均値を求め、図6で示す様な走査順で配列として保持するものである。図6では表現の制約上3x3の9ブロックに関する走査順を示している。
【0034】
領域内文字情報とは領域内の文字画像をOCRによりテキストデータへ変換したものである。文字種が判断できる場合には、文字種を記憶しても良い。
【0035】
〔検索処理〕
画像検索時の処理として完全一致モード検索と文書画像を複数の部分領域へ分割する際に発生する領域検出し損ねや領域の過検出に対応する部分一致モード検索の2つのモードがある。ユーサーインターフェース201において、完全一致モード検索か部分一致モード検索か、或いは後述の完全一致モード検索と部分一致モード検索を組み合わせて用いるハイブリッド方式であるかを選択する。デフォルト状態で完全一致モード検索か部分一致モード検索の2つの良さを兼ね備えたハイブリッド方式をデフォルト選択としておき、もし厳密な検索が好みであれば、完全一致モード検索を選択する様なユーザインターフェースが好ましい。
【0036】
また、本実施例では、DBに登録していない検索元文書画像を指定して検索を行う場合の処理を説明する。
【0037】
<完全一致モード検索>
図10の処理フローを用いて完全一致モード検索の処理の説明を行う。
【0038】
検索元画像入力手段207の制御のもと画像入力装置110を用いS1001において検索元文書画像を得てこれを画像一時記憶手段によりRAM103上の画像メモリへ検索元文書画像を一時記憶する。
【0039】
領域分割手段209に関しては、S1002において検索元文書画像を複数文字領域および画像領域へ分割を行い、領域特徴抽出手段210に関しては、総領域数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像が含む文字領域群の重心位置と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置と大きさとアスペクト比と色特徴情報を抽出し、RAM103上のワーク領域にこれらを一時記憶する。
【0040】
このsS1002の処理は基本的に図3の画像登録時の処理と同様であり、図7、図8および図9のDBへ登録をせず検索元文書画像解析結果としてRAM103上のワーク領域に一時記憶するだけの違いなので詳細説明は割愛する。
【0041】
次に、領域類似比較手段211における処理の説明を行う。
【0042】
完全一致検索の場合には、検索元文書画像の含む画像領域の個数と同数の画像領域を持ち且つ検索元文書画像の含む文字領域の個数と同数の文字領域を持つ登録文書画像群を求める事前比較処理を行い、それらの登録文書画像群に含まれる画像領域および文字領域だけに対して類似度を算出すると極めて効率が良い。そこで、S1003において、図7のDBから画像領域個数フィールドおよび文字領域個数フィールドを参照し、画像領域個数がJqであり且つ文字領域個数がKqである文書画像ID群を求める。
【0043】
更にS1004において、上記文書画像ID群に含まれる画像領域の画像領域ID群の論理和を取り比較対象画像領域ID群を生成し、同様に上記文書画像ID群に含まれる文字領域の文字領域ID群の論理和を取り比較対象文字領域ID群を生成する。
【0044】
S1005において、領域個数カウンタI、文字領域個数カウンタJおよび画像領域個数カウンタKを0にリセットする。S1006において、領域個数カウンタIと総領域数の比較を行い、未処理の領域があればS1007に分岐する。
【0045】
S1007ではI番目の領域が文字領域であるか画像領域であるかを判断し、文字領域であればS1008においてJ番目の文字領域の重心位置と文書画像に対する大きさとアスペクト比とOCRにより文字情報を、図8のDBを参照し比較対象文字領域ID群の物と類似比較を行い、閾値以上の類似度の文字領域ID群と類似度を一時記憶する。
【0046】
この領域どうしの類似度算出は部分一致モード検索と共通なので、後で詳しく述べる。
【0047】
S1009において、図8のDBを参照し上記文字領域ID群を文書画像ID群へ変換し、文書画像ID群とそれに対応する類似度として一時記憶し直す。
【0048】
S1010において、文字領域個数カウンタJを1増加する。
【0049】
もしS1007でI番目の領域が文字領域でない場合には画像領域として扱い、S1011においてK番目の画像領域の重心位置と文書画像に対する大きさとアスペクト比と色特徴情報を、図9のDBを参照し比較対象画像領域ID群の物と類似比較を行い、閾値以上の類似度の画像領域ID群と類似度を一時記憶する。
【0050】
この領域どうしの類似度算出は部分一致モード検索と共通なので、後で詳しく述べる。
【0051】
S1012において、図8のDBを参照し上記画像領域ID群を文書画像ID群へ変換し、文書画像ID群とそれに対応する類似度として一時記憶し直す。
【0052】
S1013において、画像領域個数カウンタKを1増加する。
【0053】
S1016において、領域個数カウンタIを1増加する。
【0054】
以上の処理において、検索元文書画像の各部分領域に類似する画像領域および文字領域を持つ文書画像ID群とその領域の類似度の対が得られる。そして、S1006において、領域個数カウンタIと総領域数の比較を行い、未処理の領域が無くなればS1014に分岐する。
【0055】
検索結果総合判断手段212においてS1014の処理を行う。
【0056】
S1014では、検索元文書画像の各部分領域に類似する画像領域および文字領域を持つ文書画像ID群の論理積を取り、検索元文書画像の各部分領域に類似する画像領域および文字領域をある類似度以上で全て持つ検索結果文書画像ID群が得られる。
【0057】
他方、検索結果文書画像ID群に対する類似度は、論理積を取る前の検索元文書画像の各部分領域に類似する画像領域および文字領域を持つ文書画像ID群に対応する類似度を参照して、検索結果文書画像IDに対応するものの平均を取ることにより得られ、この平均類似度を類似度の降順でソートして類似比較結果とする。
【0058】
最後に、検索結果表示手段213における処理s1015を行う。
【0059】
最後にS1015において、図19に示す様に検索された画像サムネール画像を用い検索一覧表示を行い、類似度も合わせて表示する。
【0060】
またS1003およびS1004の処理においては図7のフィールドを探索する代わりに、図11の文字領域個数から文書画像ID群および文字領域ID群を簡便に検索可能なインデックスおよび図12の画像領域個数から文書画像ID群をおよび画像領域ID群簡便に検索可能なインデックスを用いることでより高速な処理が可能となる。
【0061】
<部分一致モード検索>
部分一致モード検索の特徴は、検索元画像の部分領域群のうち「類似する領域を予め指定された割合を含む部分一致した既登録文書画像を求める」ところにある。
【0062】
図13の処理フローを用いて部分一致モード検索の処理の説明を行う。
【0063】
検索元画像入力手段207の制御のもと画像入力装置110を用いS1301において検索元文書画像を得てこれを画像一時記憶手段208によりRAM103上の画像メモリへ検索元文書画像を一時記憶する。
【0064】
更にS1301においてユーザインターフェース201において含むべき割合を得るが、これはユーサーがユーザインターフェース201により予め指定したものでも、プログラムに予めセットされたものでも構わない。
【0065】
含むべき割合とは「類似する領域を予め指定された割合を含む部分一致した既登録文書画像を求める」の割合のことである。
【0066】
例えば、画像領域のみ10個持つ文書画像を検索元文書画像とした場合、含むべき割合が90%の場合は許容範囲が10%となり1個の許容数を許すことになる。従って、領域個数で言えば9個から11個が許容範囲となり、この許容範囲の個数の画像領域を含む文書画像を検索対象とする事になる。画像が少ない場合もあるので、小数点以下切り上げとしても良い。また、含むべき割合でなく、はじめから許容数1などとして設定しても構わない。
【0067】
次に述べるのは、領域分割手段209および領域特徴抽出手段210における処理である。
【0068】
S1302において検索元文書画像を文字領域および画像領域へ分割を行い、総領域数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像が含む文字領域群の重心位置と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置と大きさとアスペクト比と色特徴情報を抽出する。
【0069】
このS1302の処理は基本的に図3の画像登録時の処理と同様であり、図7、図8および図9のDBへ登録をせず検索元文書画像解析結果としてメモリ上へ一時記憶するだけの違いなので詳細説明は割愛する。
【0070】
更に、以下に述べるのは領域特徴比較手段211にて行われる処理でである。
【0071】
部分一致検索の場合には、検索元文書画像の含む画像領域の個数と指定された許容範囲の個数の画像領域を持ち且つ検索元文書画像の含む文字領域の個数と指定された許容範囲の個数の文字領域を持つ登録文書画像群を求める事前比較処理を行い、それらの登録文書画像群に含まれる画像領域および文字領域だけに対して類似度を算出すると極めて効率が良い。
【0072】
そこで、S1303において、図7のDBから画像領域個数フィールドおよび文字領域個数フィールドを参照し、画像領域個数が検索元文書画像の含む画像領域個数Jqの許容範囲の文書画像ID群を求め同様に図7のDBから文字領域個数が検索元文書画像の含む文字領域個数Kqの許容範囲の文書画像ID群を求め、両者の論理積を取り比較対象の文書画像ID群を得る。このように許容範囲を考慮することで、領域分割の際に領域検出し損ねや領域の過検出があった場合でも、検索漏れを防ぐことができる。
【0073】
更にS1304において、上記文書画像ID群に含まれる画像領域の画像領域ID群の論理和を取り比較対象画像領域ID群を生成し、同様に上記文書画像ID群に含まれる文字領域の文字領域ID群の論理和を取り比較対象文字領域ID群を生成する。
【0074】
S1305において、領域個数カウンタI、文字領域個数カウンタJおよび画像領域個数カウンタKを0にリセットする。
【0075】
S1306において、領域個数カウンタIと総領域数の比較を行い、未処理の領域があればS1307に分岐する。
【0076】
S1307ではI番目の領域が文字領域であるか画像領域であるかを判断し、文字領域であればS1308においてJ番目の文字領域の重心位置と文書画像に対する大きさとアスペクト比とOCRにより文字情報を、図8のDBを参照し比較対象文字領域ID群の物と類似比較を行い、閾値以上の類似度の文字領域ID群と類似度を一時記憶する。
【0077】
この領域どうしの類似度算出は完全一致モード検索と共通なので、後で詳しく述べる。
【0078】
S1309において、図8のDBを参照し上記文字領域ID群を文書画像ID群へ変換し、文書画像ID群とそれに対応する類似度として一時記憶し直す。
【0079】
S1310において、文字領域個数カウンタJを1増加する。
【0080】
もしS1307でI番目の領域が文字領域でない場合には画像領域として扱い、S1311においてK番目の画像領域の重心位置と文書画像に対する大きさとアスペクト比と色特徴情報を、図9のDBを参照し比較対象画像領域ID群の物と類似比較を行い、閾値以上の類似度の画像領域ID群と類似度を一時記憶する。
【0081】
この領域どうしの類似度算出は部分一致モード検索と共通なので、後で詳しく述べる。
【0082】
S1312において、図8のDBを参照し上記画像領域ID群を文書画像ID群へ変換し、文書画像ID群とそれに対応する類似度として一時記憶し直す。
【0083】
S1313において、画像領域個数カウンタKを1増加する。
【0084】
S1316において、領域個数カウンタIを1増加する。
【0085】
以上の処理において、検索元文書画像の各部分領域に類似する画像領域および文字領域を持つ文書画像ID群とその領域の類似度の対が得られる。
【0086】
そして、S1306において、領域個数カウンタIと総領域数の比較を行い、未処理の領域が無くなればS1314に分岐する。
【0087】
検索結果総合判定手段212においてS1314の処理が行われる。
【0088】
S1314では、部分一致検索を実現するために、各領域に対応する文書画像ID群の論理和を取り得られた文書画像ID群を総合的な類似度を算出する対象文書画像のIDとする。
【0089】
着目した文書画像IDに対して、検索元文書画像の各画像領域および文字領域に対する類似度を累積してゆきこれを検索元文書画像の総領域数で割ることにより平均類似度を算出するが部分一致のため、必ずしも検索元文書画像の各画像領域および文字領域に対する類似度が得られている訳ではない。
【0090】
そこで、対応する類似度が算出されていないものに関しては、類似しているとも類似してないとも取れない差し障りの無いデフォルトの類似度で補完を行う。
【0091】
この様にして得た平均類似度を用い、平均類似度の降順で文書画像ID群をソートして類似比較結果とする。
【0092】
最後に、検索結果表示手段213における処理s1015を行う。
【0093】
最後にS1015において、図19に示す様に検索された画像サムネール画像を用い検索一覧表示を行い、類似度も合わせて表示する。
【0094】
また、先の完全一致検索と同様、S1303およびS1304の処理においては図7のフィールドを探索する代わりに、図11の文字領域個数から文書画像ID群および文字領域ID群を簡便に検索可能なインデックスおよび図12の画像領域個数から文書画像ID群をおよび画像領域ID群簡便に検索可能なインデックスを用いることでより高速な処理が可能となる。
【0095】
〔領域類似比較処理211の説明〕
完全一致モード検索における処理フロー図10のS1011および部分一致モード検索における処理フロー図13のS1311の画像領域の類似度を求める方法と、完全一致モード検索における処理フロー図10のS1008および部分一致モード検索における処理フロー図13のS1308の文字領域の類似度を求める方法について詳しく説明を行う。
【0096】
これまでの説明どおり、部分領域は少なくとも画像領域と文字領域に分別し、画像領域の場合には領域の内容に関する特徴に色等に関する画像特徴量を用い、或いは文字領域の場合にはOCRで得るテキストデータ情報や文字種や文字の色等を用いるが、比較処理は同じ属性の領域しか比較を行わない。
【0097】
<画像領域の比較>
はじめに、検索元文書画像の着目する画像領域と比較先画像領域の類似比較処理について図14の処理フローを用いて説明する。
【0098】
まずS1401において、検索元着目画像領域の重心位置と大きさとアスペクト比と色特徴情報を読み込み、S1402において次いで比較先画像領域の重心位置と大きさとアスペクト比と色特徴情報を読み込む。
【0099】
S1403においてアスペクト比の差異を求め、S1404でアスペクト比の差異は閾値以下か判断し、閾値以下であればS1405に分岐し、閾値よりも大きい場合にはS1409へ分岐し類似比較処理を行わず類似度0%と出力する。
【0100】
S1405において重心位置の差異を求め、S1406で重心位置の差異は閾値以下か判断し、閾値以下であればS1407に分岐し、閾値よりも大きい場合にはS1409へ分岐し類似比較処理を行わず類似度0%と出力する。
【0101】
S1407において文書に対する大きさの差異を求め、S1408で大きさの差異は閾値以下か判断し、閾値以下であればS1410に分岐し、閾値よりも大きい場合にはS1409へ分岐し類似比較処理を行わず類似度0%と出力する。
【0102】
S1410では、上記アスペクト比の差異、重心位置の差異および大きさの差異を元に後で求める類似度からの減点割合Rpを設定する。
【0103】
なお、画像領域を比較する際に文書画像IDごとに比較を行う構成とし、入力画像の1つの画像領域に対して、外形特徴量が類似する画像領域をもたない文書画像については、検索対象外として比較先文書画像から外してもよい。
【0104】
検索元文書画像の着目する画像領域のアスペクト比をAsp0、重心位置を(Gx0,Gy0)および大きさをS0とする。
【0105】
比較先画像領域のアスペクト比、重心位置および大きさAsp1、重心位置を(Gx1,Gy1)および大きさをS1とする。
【0106】
尚、先の登録処理の説明で、重心位置とは文書画像の縦および横を1とした場合の相対的(0≦X≦1)位置座標と定義し、文書の大きさとは文書画像の面積を1とした場合の面積と定義し、アスペクト比とは横の画素数に対する縦の画素数の比と定義してある。
【0107】
更に、実験により正解と認められるデータセットを用いて正解と認められるアスペクト比の差異、重心位置の差異および大きさの差異の分散それぞれD_ASP,D_G、D_Sとし、アスペクト比の差異、重心位置の差異および大きさの差異の類似度に与える寄与係数をそれぞれα1、α2、α3とすると、
Rp=α1*abs(Asp1−Asp0)/D_ASP+α2*sqrt((Gx1−Gx0)*Gx1−Gx0)+(Gy1−Gy0)*(Gy1−Gy0))/D_G+α2*abs(S1−S0)/D_S (式1)
と表現できる。
【0108】
そしてS1411において、色特徴情報を比較し類似度を得る。
【0109】
色特徴情報とは画像を図5の例では様に縦横に同じブロック数で分割を行い、そのブロックに属する画素のRGBチャネルの平均値を求め、図6で示す様な走査順で配列として保持するものである。図6では表現の制約上3x3の9ブロックに関する走査順を示している。
【0110】
そして、比較の際にはこの並び替えた特徴量において対応する分割ブロックの色特徴量を下記要領で処理すればよい。
【0111】
検索元画像領域の着目ブロックの色平均値(R0,G0,B0)、比較先画像領域の着目ブロックの色平均値(R1,G1,B1)、着目ブロック間の類似距離dとすると、
d=sqrt((R0−R1)*(R0−1)+(G0−G1)*(G0−G1)+(B0−B1)*(B0−B1)) (式2)
と表すことが出来、これを対応する全ブロックに対して計算し累積距離Dsumを算出する。
【0112】
そして類似度Simは図15のグラフの様なDsumが0の時に類似度が100となるような非線形特性を持つ累積距離⇔類似度テーブルを通して得ることが出来る。
【0113】
そして、最後にS1412においてS1410で求めた減点割合を用い、
Sim_Total=Sim*(1−Rp) (式3)
の要領で画像領域の比較類似度をSim_Totalを得る。
【0114】
<文字領域の比較>
他方、検索元文書画像の着目する部分領域が文字領域の場合には文字の部分領域とのみ比較を行うが、その際OCRを経て得たテキストデータとアスペクト比と文書画像に対する大きさおよび重心位置を用いる。
【0115】
検索元文書画像の着目する文字領域と比較先文字領域の類似比較処理について図16の処理フローを用いて説明する。
【0116】
まずS1601において、検索元着目画像領域の重心位置と大きさとアスペクト比と領域内文字情報を読み込み、S1602において次いで比較先画像領域の重心位置と大きさとアスペクト比と領域内文字情報を読み込む。
【0117】
S1603においてアスペクト比の差異を求め、S1604でアスペクト比の差異は閾値以下か判断し、閾値以下であればS1605に分岐し、閾値よりも大きい場合にはS1609へ分岐し類似比較処理を行わず類似度0%と出力する。
【0118】
S1605において重心位置の差異を求め、S1606で重心位置の差異は閾値以下か判断し、閾値以下であればS1607に分岐し、閾値よりも大きい場合にはS1609へ分岐し類似比較処理を行わず類似度0%と出力する。S1407において文書に対する大きさの差異を求め、S1608で大きさの差異は閾値以下か判断し、閾値以下であればS1610に分岐し、閾値よりも大きい場合にはS1609へ分岐し類似比較処理を行わず類似度0%と出力する。
【0119】
S1610では、上記アスペクト比の差異、重心位置の差異および大きさの差異を元に後で求める類似度からの減点割合Rpを設定する。
【0120】
なお、文字領域を比較する際に文書画像IDごとに比較を行う構成とし、入力画像の1つの文字領域に対して、外形特徴量が類似する文字領域をもたない文書画像については、検索対象外として比較先文書画像から外してもよい。
【0121】
検索元文書画像の着目する画像領域のアスペクト比をAsp0、重心位置を(Gx0,Gy0)および大きさをS0とし、比較先画像領域のアスペクト比、重心位置および大きさAsp1、重心位置を(Gx1,Gy1)および大きさをS1とする。
【0122】
尚、先の登録処理の説明で、重心位置とは文書画像の縦および横を1とした場合の相対的(0≦X≦1)位置座標と定義し、文書の大きさとは文書画像の面積を1とした場合の面積と定義し、アスペクト比とは横の画素数に対する縦の画素数の比と定義してある。
【0123】
更に、実験により正解と認められるデータセットを用いて正解と認められるアスペクト比の差異、重心位置の差異および大きさの差異の分散それぞれD_ASP,D_G、D_Sとし、アスペクト比の差異、重心位置の差異および大きさの差異の類似度に与える寄与係数をそれぞれα1、α2、α3とすると、
Rp=α1*abs(Asp1−Asp0)/D_ASP+α2*sqrt((Gx1−Gx0)*Gx1−Gx0)+(Gy1−Gy0)*(Gy1−Gy0))/D_G+α2*abs(S1−S0)/D_S (式4)
と表現できる。
【0124】
そしてS1611において、領域内文字情報を比較し類似度を得る。
【0125】
図17を用いてその類似度を求める処理のフローを説明する。
【0126】
S1701では検索元文字領域の領域内文字数Mと文字配列Str1[M]を得る。
【0127】
S1702では比較先文字領域の領域内文字数Nと文字配列Str2[N]を得る。
【0128】
S1703では、Str1[M]を参照するための配列要素番号I、Str2[N]を参照するための配列要素番号J、類似距離Distを0リセットする。但し、配列要素番号は0オリジンとする。
【0129】
即ち、Str1[0]は検索元文字領域の先頭文字となる。
【0130】
S1704では、I番目の検索元文字Str1[I]とJ番目の比較先文字Str2[J]を比較し、もし同一であればS1705においてIおよびJを1増加し検索元と比較先文字をそれぞれ1文字進め、S1707に進む。
【0131】
他方、S1704でStr1[I]とStr2[J]が異なる場合には、S1706にてIのみを1増加、即ち検索元文字のみを1文字進め、類似距離Distを1増加し、S1707に進む。
【0132】
S1707では、I<M且つJ<N、即ち参照する文字が制限範囲であるかどうかをチェックしており、この条件を満たす場合には再びS1704に戻り文字の比較を行う。
【0133】
S1707でNOの場合には、下式5に従って正規化類似距離を得る。
【外1】
【0134】
式5によれば、検索元文字列と比較先文字列が同一であればDnorm=0となり、比較先文字列の比較元文字列に無い文字が存在すれば存在ずるほどDnormの値は大きくなる。
また、検索元文字列と比較先文字列の長さが異なる場合に、未比較文字の長さが長いほどDnormの値が大きくなる。
【0135】
更に、正規化類似距離Dnormを得て、これを図18の様な非線形特性をもつ距離を類似度へ変換するテーブルを参照して類似度Simを得る。
【0136】
そして、最後にS1612においてS1610で求めた減点割合を用い、
Sim_Total=Sim*(1−Rp) (式6)
の要領で文字領域の比較類似度をSim_Totalを得る。
【0137】
〔完全一致モード検索と部分一致モード検索のコンビネーションによるロバスト処理〕
先に、画像検索時の処理として2つのモードが考えられ、1つは完全一致モード検索であり、他方は文書画像を複数の部分領域へ分割する際に発生する領域検出し損ねや領域の過検出に対応する部分一致モード検索であると述べたが、まず完全一致モード検索で処理を行いその結果該当するものが無い場合に、指定した「含むべき割合」で部分一致モード検索を行い、更にその結果該当するものが無い場合には部分一致の「含むべき割合」を減らして制限を緩くして部分一致モード検索で処理行い、定められた「含むべき割合」の下限値に達する再帰的に部分一致モード検索で処理を行う事により、検索精度を保ち且つ検索漏れを低減することが可能である。その処理を図20のフローを用い説明する。
【0138】
まず、S2001にて、検索元文書画像と類似度の閾値と部分一致モード検索許容範囲の限界値を与える。そしてS2002において検索条件の最も厳しい図10の完全一致モード検索のうち検索結果一覧表示S1015を除く部分を実行する。
【0139】
S2003にて、S2002の検索結果と類似度の閾値の閾値を比較し、類似度の閾値以上の検索結果が得られているかをチェックし、得られていればS2004にて類似度の降順で文書画像IDをソートし類似度を対した検索結果を出力する。
【0140】
他方、S2003において類似度の閾値以上の検索結果が得られて無いと判断した場合には、S2005において部分一致モード検索の「含むべき割合」を下げる。当然S2005に初回に来た場合に例外処理として初期設定の「含むべき割合」を設定しても良い。
【0141】
そして、S2006において、含むべき割合が下限値以上か判断し条件を満たす場合にはS2007にて図13の部分一致モード検索のうち検索結果一覧表示S1015を除く部分を実行する。
【0142】
その結果、S2003に戻り、部分一致モード検索結果と類似度の閾値の閾値を比較し、類似度の閾値以上の検索結果が得られているかをチェックし、得られていればS2004にて類似度の降順で文書画像IDをソートし類似度を対した検索結果を出力する。
【0143】
もし、類似度の閾値以上の検索結果が得られていなければS2005の処理に戻り、S2003で類似度閾値以上のヒットが見つかるか或いはS2006にて「含むべき割合」が下限値を下回るまで再帰的処理を行う。そして、S2006にて含むべき割合が下限値を下回った場合にはS2008にて検索結果にヒット無しを設定し終了する。
【0144】
図21にユーザインターフェース201で表示する検索方式を選択する画面の一例を示す。図21ではデフォルト状態であり上記コンビネーション方式をデフォルト選択としてあり、もし厳密な検索が好みであれば完全一致モード検索を選択する事が可能である。もちろん、部分一致モード検索も選択肢として表示してよいが上記コンビネーション方式が部分一致モード検索の最適な利用法であるので必ずしも選択肢とし無くとも良い。
【0145】
なお、本実施例では領域を文字領域と画像領域に分割した例のみを説明したが、本発明はこれに限定されるものではない。文字、図画、写真、線、表などに分割し、それぞれの数に基づいて検索対象を絞り込んでもよい。
【0146】
(他の実施例)
本実施例では検索元画像を検索クエリとして与える例を述べたが、当然、既登録画像を検索クエリとして与えることも可能である。
【0147】
その場合、完全一致モード検索の処理で図10のS1001およびS1002が登録済みの検索元画像の総領域数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像が含む文字領域群の重心位置と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置と大きさとアスペクト比と色特徴情報をDBから読み出す処理と読み替えるだけで良い。
【0148】
又、部分一致モード検索の処理も図13のS1301およびS1302は部分一致検索の許容範囲の指定と、登録済みの検索元画像の総領域数N、画像領域個数Jq、文字領域個数Kq、検索元文書画像が含む文字領域群の重心位置と大きさとアスペクト比と領域内文字情報、画像領域群の重心位置と大きさとアスペクト比と色特徴情報をDBから読み出す処理と読み替えるだけで良い。
【0149】
ところで、部分一致検索では検索結果が含むべき割合を指定して検索を行うが、画像領域と文字領域に対する「含むべき割合」は同じ値であっても異なる値でも良い。例えば、文字領域の領域検出精度が画像領域の検出精度より高い場合には文字領域に対する「含むべき割合」は画像領域の「含むべき割合」よりも高い値とすべきである。
【0150】
また、本実施例では、完全一致モード検索の処理で図10のS1001および部分一致モード検索の処理も図13のS1301において、各部分領域に対して算出した類似度の平均を取り総合類似度としたが、類似度の平均或いは重み付け平均を取る事も可能である。
【0151】
実現方法としては、予め検索条件として文字領域と画像領域の重視の重みγおよびβをユーザへ指定させ、文字領域の正規化重みWT=γ/(γ+β)、画像領域の正規化重みWI=β/(γ+β)を各類似度に乗じて平均を算出する事により重み付け平均を取ると良い。
【0152】
そして、総合類似度FinalSimは、文字領域個数M、i番目の文字領域の類似度STi、Wi、および画像領域個数N、j番目の文字領域の類似度SIjを用いて下式で表現できる。
【外2】
【0153】
また、画像領域における色特徴比較の精度と文字領域における領域内文字情報の比較における精度の差は、特に文字領域内の文字数に依存する所が大きく、文字領域中のテキストデータの量が少ない場合には情報量が少ないということで文字領域に対する類似度の重みを減じると自動的に最適な重み付けが可能となる。
【0154】
その実現のためには、例えば、画像領域と同等な類似度精度を得られる経験的な文字数閾値ζを用い、i番目の文字領域中の文字数nの場合の重みWiは例えば下式で表現できる。
【外3】
【0155】
そして、総合類似度FinalSimは、文字領域個数M、i番目の文字領域の類似度STi、Wi、および画像領域個数N、j番目の文字領域の類似度SIjを用いて下式で表現できる。
【外4】
【0156】
【発明の効果】
以上、本発明によれば、属性毎の部分領域の数を考慮することで、より高精度な絞込みを実現することができる。
【図面の簡単な説明】
【図1】本発明の実施例におけるシステム構成図である。
【図2】本発明の実施例におけるシステムブロック図である。
【図3】本発明の実施例における登録処理のフローである。
【図4】本発明の実施例における部分領域画像抽出の例である。
【図5】本発明の実施例における画像特徴量抽出のための分割ブロックの例である。
【図6】本発明の実施例における画像特徴量抽出のための分割ブロックの特徴量走査順番の例である。
【図7】本発明の実施例における画像管理DBのデータスキーマの例である。
【図8】本発明の実施例における画像領域管理DBのデータスキーマの例である。
【図9】本発明の実施例における文字領域管理DBのデータスキーマの例である。
【図10】本発明の実施例における完全一致モード検索の処理フローである。
【図11】本発明の実施例における画像領域個数から文書画像IDなどを求めるインデックスの例である。
【図12】本発明の実施例における文字領域個数から文書画像IDなどを求めるインデックスの例である。
【図13】本発明の実施例における部分一致モード検索の処理フローである。
【図14】本発明の実施例における画像領域比較処理のフローである。
【図15】本発明の実施例における画像領域比較処理で用いる類似距離を類似度へ変換する関数の特性の例である。
【図16】本発明の実施例における文字領域比較処理のフローである。
【図17】本発明の実施例における文字列比較処理のフローである。
【図18】本発明の実施例における文字領域比較処理で用いる文字列比較処理で得た類似距離を類似度へ変換する関数の特性の例である。
【図19】本発明の実施例における検索結果表示画面の例である。
【図20】本発明の実施例における完全一致モード検索と部分一致モード検索のコンビネーションによるロバスト処理のフローである。
【図21】本発明の実施例における検索モード選択の例である。
Claims (8)
- 検索元の文書画像から文字領域と画像領域とを抽出し、当該抽出された文字領域については該文字領域の個数、外形特徴量およびOCR処理により得られる文字情報を求め、当該抽出された画像領域については該画像領域の個数、外形特徴量および色特徴情報を求める領域分割手段と、
前記領域分割手段で求めた前記文字領域の個数と前記画像領域の個数とに基づいて文字領域の個数に関する第1許容範囲と画像領域の個数に関する第2許容範囲とを求め、更に、データベースに登録されている複数の登録画像の中から、前記第1許容範囲内の個数の文字領域と前記第2許容範囲内の個数の画像領域とが含まれている登録画像全てを選択する画像選択手段と、
前記領域分割手段で求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較した結果に基づいて、前記比較元の文書画像に類似する登録画像を検索結果として出力する第1出力手段と
を有することを特徴とする文書処理装置。 - 前記第1出力手段は、前記領域分割手段で求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較することにより、各文字領域の類似度と各画像領域の類似度とを求め、更に、当該求めた各文字領域の類似度と各画像領域の類似度とに基づいて前記前記画像選択手段で選択された登録画像それぞれに対する平均類似度を算出し、当該算出した平均類似度に基づいて前記比較元の文書画像に類似する登録画像を検索結果として出力することを特徴とする請求項1に記載の文書処理装置。
- 前記第1出力手段は、前記文字領域の類似度を求める際は、まず前記領域分割手段で求めた前記文字領域の外形特徴量と前記画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量との差異が所定閾値以下であるか否か判定し、所定閾値以下であると判定した場合は、更に前記領域分割手段で求めた前記文字領域の文字情報と前記画像選択手段で選択された各登録画像に含まれる文字領域の文字情報とを比較することにより前記文字領域の類似度を算出する一方、所定閾値以下でないと判定した場合は前記文字領域の類似度を0とし、
前記画像領域の類似度を求める際は、まず前記領域分割手段で求めた前記画像領域の外形特徴量と前記画像選択手段で選択された各登録画像に含まれる画像領域の外形特徴量との差異が所定閾値以下であるか否か判定し、所定閾値以下であると判定した場合は、更に前記領域分割手段で求めた画像領域の色特徴情報と前記画像選択手段で選択された各登録画像に含まれる画像領域の色特徴情報とを比較することにより前記画像領域の類似度を算出する一方、所定閾値以下でないと判定した場合は前記画像領域の類似度を0とする
ことを特徴とする請求項2に記載の文書処理装置。 - 前記第1出力手段は、更に、前記比較元の文書画像に類似する登録画像を得られたか判定し、得られていると判定した場合は、前記類似する登録画像を前記検索結果として出力する一方、得られていないと判定した場合は、前記第1許容範囲と前記第2許容範囲とを広げるための値を設定して、前記類似する登録画像が得られるか前記第1許容範囲と第2許容範囲を広げるための前記値が所定値に達するまで再帰的に前記画像選択手段および前記第1出力手段による処理を行うことを特徴とする請求項1記載の文書処理装置。
- 前記データベースに登録されている複数の登録画像の中から、前記領域分割手段で求めた前記文字領域と前記画像領域それぞれの個数と同数の文字領域および画像領域が含まれている登録画像全てを選択する完全一致画像選択手段と、
前記領域分割手段で求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記完全一致画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較した結果に基づいて、前記比較元の文書画像に類似する登録画像を出力する第2出力手段と、を更に備え、
前記画像選択手段と前記第1出力手段とによる処理は、前記第2出力手段において前記比較元の文書画像に類似する登録画像が得られなかった場合に実行されることを特徴とする請求項1に記載の文書処理装置。 - 前記外形特徴量とは、アスペクト比と大きさと重心位置であることを特徴とする請求項1乃至5のいずれかに記載の文書処理装置。
- 文書処理装置の領域分割手段が、検索元の文書画像から文字領域と画像領域とを抽出し、当該抽出された文字領域については該文字領域の個数、外形特徴量およびOCR処理により得られる文字情報を求め、当該抽出された画像領域については該画像領域の個数、外形特徴量および色特徴情報を求める領域分割ステップと、
前記文書処理装置の画像選択手段が、前記領域分割ステップで求めた前記文字領域の個数と前記画像領域の個数とに基づいて文字領域の個数に関する第1許容範囲と画像領域の個数に関する第2許容範囲とを求め、更に、データベースに登録されている複数の登録画像の中から、前記第1許容範囲内の個数の文字領域と前記第2許容範囲内の個数の画像領域とが含まれている登録画像全てを選択する画像選択ステップと、
前記文書処理装置の出力手段が、前記領域分割ステップで求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記画像選択ステップで選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較した結果に基づいて、前記比較元の文書画像に類似する登録画像を検索結果として出力する出力ステップと
を有することを特徴とする文書処理方法。 - コンピュータを、
検索元の文書画像から文字領域と画像領域とを抽出し、当該抽出された文字領域については該文字領域の個数、外形特徴量およびOCR処理により得られる文字情報を求め、当該抽出された画像領域については該画像領域の個数、外形特徴量および色特徴情報を求める領域分割手段、
前記領域分割手段で求めた前記文字領域の個数と前記画像領域の個数とに基づいて文字領域の個数に関する第1許容範囲と画像領域の個数に関する第2許容範囲とを求め、更に、データベースに登録されている複数の登録画像の中から、前記第1許容範囲内の個数の文字領域と前記第2許容範囲内の個数の画像領域とが含まれている登録画像全てを選択する画像選択手段、
前記領域分割手段で求めた前記文字領域の外形特徴量および文字情報ならびに前記画像領域の外形特徴量および色特徴情報と、前記画像選択手段で選択された各登録画像に含まれる文字領域の外形特徴量および文字情報ならびに画像領域の外形特徴量および色特徴情報とを比較した結果に基づいて、前記比較元の文書画像に類似する登録画像を検索結果として出力する第1出力手段、
として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152833A JP4366119B2 (ja) | 2003-05-29 | 2003-05-29 | 文書処理装置 |
US10/854,267 US7233945B2 (en) | 2003-05-29 | 2004-05-27 | Document processing apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003152833A JP4366119B2 (ja) | 2003-05-29 | 2003-05-29 | 文書処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004355370A JP2004355370A (ja) | 2004-12-16 |
JP4366119B2 true JP4366119B2 (ja) | 2009-11-18 |
Family
ID=33447805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003152833A Expired - Fee Related JP4366119B2 (ja) | 2003-05-29 | 2003-05-29 | 文書処理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7233945B2 (ja) |
JP (1) | JP4366119B2 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10324189A1 (de) * | 2003-05-28 | 2004-12-16 | Robert Bosch Gmbh | Verfahren zur Steuerung des Zugriffs auf eine Ressource einer Applikation in einer Datenverarbeitungseinrichtung |
JP4235604B2 (ja) * | 2004-11-22 | 2009-03-11 | キヤノン株式会社 | 画像処理装置、画像処理方法、ならびにプログラム |
JP4641414B2 (ja) * | 2004-12-07 | 2011-03-02 | キヤノン株式会社 | 文書画像検索装置、文書画像検索方法、プログラム、記憶媒体 |
JP2007034847A (ja) * | 2005-07-28 | 2007-02-08 | Canon Inc | 検索装置及び検索方法 |
JP4705430B2 (ja) * | 2005-07-29 | 2011-06-22 | チームラボ株式会社 | 距離の概念に基づく言語処理装置 |
JP4700452B2 (ja) * | 2005-09-16 | 2011-06-15 | 株式会社リコー | 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体 |
JP4757001B2 (ja) * | 2005-11-25 | 2011-08-24 | キヤノン株式会社 | 画像処理装置、画像処理方法 |
JP2008102907A (ja) * | 2006-09-19 | 2008-05-01 | Sharp Corp | 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
JP4850652B2 (ja) * | 2006-10-13 | 2012-01-11 | キヤノン株式会社 | 画像検索装置及びその制御方法、プログラム、記憶媒体 |
JP4310356B2 (ja) * | 2006-11-13 | 2009-08-05 | シャープ株式会社 | 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及び記録媒体 |
US8320683B2 (en) * | 2007-02-13 | 2012-11-27 | Sharp Kabushiki Kaisha | Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus |
JP5096776B2 (ja) * | 2007-04-04 | 2012-12-12 | キヤノン株式会社 | 画像処理装置及び画像検索方法 |
US20090024597A1 (en) * | 2007-04-13 | 2009-01-22 | Iac Search & Media, Inc. | Forming web search queries from browsing annotated images |
JP5139716B2 (ja) * | 2007-05-16 | 2013-02-06 | キヤノン株式会社 | 画像検索装置及び画像検索方法 |
JP4989308B2 (ja) * | 2007-05-16 | 2012-08-01 | キヤノン株式会社 | 画像処理装置及び画像検索方法 |
JP4970301B2 (ja) * | 2008-02-08 | 2012-07-04 | シャープ株式会社 | 画像処理方法、画像処理装置、画像読取装置、画像形成装置、画像処理システム、プログラムおよび記録媒体 |
JP5386976B2 (ja) * | 2008-12-25 | 2014-01-15 | 日本電気株式会社 | 類似度計算装置、類似度計算方法およびプログラム |
JP2011141664A (ja) * | 2010-01-06 | 2011-07-21 | Canon Inc | 文書比較装置、文書比較方法、及びプログラム |
JP5495934B2 (ja) | 2010-05-18 | 2014-05-21 | キヤノン株式会社 | 画像処理装置、その処理方法及びプログラム |
JP5071539B2 (ja) * | 2010-09-13 | 2012-11-14 | コニカミノルタビジネステクノロジーズ株式会社 | 画像検索装置、画像読取装置、画像検索システム、データベース生成方法およびデータベース生成プログラム |
US9026536B2 (en) * | 2010-10-17 | 2015-05-05 | Canon Kabushiki Kaisha | Systems and methods for cluster comparison |
JP2013149061A (ja) * | 2012-01-19 | 2013-08-01 | Nec Corp | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム |
CN106485193A (zh) * | 2015-09-02 | 2017-03-08 | 富士通株式会社 | 文档图像的方向检测装置及方法 |
WO2017158800A1 (ja) * | 2016-03-17 | 2017-09-21 | 株式会社Pfu | モバイル端末、画像処理方法、および、プログラム |
CN107679024B (zh) * | 2017-09-11 | 2023-04-18 | 畅捷通信息技术股份有限公司 | 识别表格的方法、系统、计算机设备、可读存储介质 |
JP7013182B2 (ja) * | 2017-09-21 | 2022-01-31 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10198695A (ja) | 1997-01-13 | 1998-07-31 | Sharp Corp | 情報処理装置 |
US6253201B1 (en) | 1998-06-23 | 2001-06-26 | Philips Electronics North America Corporation | Scalable solution for image retrieval |
US6721449B1 (en) * | 1998-07-06 | 2004-04-13 | Koninklijke Philips Electronics N.V. | Color quantization and similarity measure for content based image retrieval |
US6496594B1 (en) * | 1998-10-22 | 2002-12-17 | Francine J. Prokoski | Method and apparatus for aligning and comparing images of the face and body from different imagers |
JP3738631B2 (ja) * | 1999-09-27 | 2006-01-25 | 三菱電機株式会社 | 画像検索システムおよび画像検索方法 |
JP3937687B2 (ja) | 2000-05-09 | 2007-06-27 | キヤノン株式会社 | 画像処理装置及び画像処理方法、記録媒体 |
FR2825814B1 (fr) * | 2001-06-07 | 2003-09-19 | Commissariat Energie Atomique | Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique |
EP1559273A4 (en) * | 2002-10-31 | 2007-05-02 | Korea Electronics Telecomm | NONLINEAR QUANTIZATION AND SIMILAR COMPARISON METHOD FOR RECALLING VIDEOS RATES WITH SINGLE PICTURES |
-
2003
- 2003-05-29 JP JP2003152833A patent/JP4366119B2/ja not_active Expired - Fee Related
-
2004
- 2004-05-27 US US10/854,267 patent/US7233945B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004355370A (ja) | 2004-12-16 |
US20040243602A1 (en) | 2004-12-02 |
US7233945B2 (en) | 2007-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366119B2 (ja) | 文書処理装置 | |
US11853377B2 (en) | Image searching method and apparatus | |
US7925650B2 (en) | Image management methods, image management systems, and articles of manufacture | |
JP4579404B2 (ja) | 画像処理方法及びその装置 | |
Chu et al. | Image retrieval based on a multi-integration features model | |
US11704357B2 (en) | Shape-based graphics search | |
US9002120B2 (en) | Interactive image selection method | |
JP2001511930A (ja) | イメージ検索システム | |
CN103366178A (zh) | 一种用于对目标图像进行颜色分类的方法与设备 | |
JP2002537604A (ja) | ドキュメントの類似性探索 | |
JP4674257B2 (ja) | 画像分類装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US8401312B2 (en) | Method and a system for organizing an image database | |
Bhardwaj et al. | Palette power: Enabling visual search through colors | |
RU2510935C2 (ru) | Способ индексации и поиска цифровых изображений | |
Kim et al. | Classification and indexing scheme of large-scale image repository for spatio-temporal landmark recognition | |
Bakić et al. | Inria IMEDIA2's participation at ImageCLEF 2012 plant identification task | |
Singh et al. | Reverse image search improved by deep learning | |
Rivera-Rubio et al. | Small hand-held object recognition test (short) | |
CN113469019B (zh) | 一种景观图像特征值计算方法、装置、设备及存储介质 | |
WO2010087451A1 (ja) | 画像表示装置、画像表示方法、および画像表示プログラム | |
Mumar | Image retrieval using SURF features | |
Ali | Content-based image classification and retrieval: A rule-based system using rough sets framework | |
Aparna | Retrieval of digital images based on multi-feature similarity using genetic algorithm | |
Hoshino et al. | Inferencing the best AI service using Deep Neural Networks | |
Nakagawa et al. | Combining words and object-based visual features in image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090804 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090824 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120828 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130828 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |