JP3937687B2 - Image processing apparatus, image processing method, and recording medium - Google Patents

Image processing apparatus, image processing method, and recording medium Download PDF

Info

Publication number
JP3937687B2
JP3937687B2 JP2000136158A JP2000136158A JP3937687B2 JP 3937687 B2 JP3937687 B2 JP 3937687B2 JP 2000136158 A JP2000136158 A JP 2000136158A JP 2000136158 A JP2000136158 A JP 2000136158A JP 3937687 B2 JP3937687 B2 JP 3937687B2
Authority
JP
Japan
Prior art keywords
image
region
registered
area
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000136158A
Other languages
Japanese (ja)
Other versions
JP2001319231A (en
Inventor
正己 久貝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000136158A priority Critical patent/JP3937687B2/en
Publication of JP2001319231A publication Critical patent/JP2001319231A/en
Application granted granted Critical
Publication of JP3937687B2 publication Critical patent/JP3937687B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、画像の処理に関し、特に、画像のファイリング及びファイリングされた画像の検索に関する。
【0002】
【従来の技術】
従来、文書等を含む画像を蓄積するイメージファイリングシステムにおいては、イメージスキャナで取り込んだ画像に検索用のキーワードのインデックスを付加して蓄積し、検索時の便宜を図っていた。
【0003】
【発明が解決しようとする課題】
しかし、従来のファイリングシステムにおいては、新たに登録しようとする画像が、既に登録、蓄積された登録画像と二重に登録されないようにするためには、蓄積してある登録画像を、キーワード検索したり、すべての登録画像を一覧表示するなどして手作業で探し出し、新たに登録しようとする画像との一致を人間が目でみて確認しなければならなず、手間がかかった。このため、二重登録を許してしまうような事態も生じていた。
【0004】
すなわち、従来のファイリングシステムにおいては、新たな画像と近似するか又は一致する登録画像の検索機能が、ユーザにおいて使い勝手のよいものではなかった。
【0005】
従って、本発明の目的は、新たな画像と近似するか又は一致する画像を好適に検索し得る画像処理装置及び画像処理方法、記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
発明によれば、予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索する画像処理装置であって、前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶した記憶手段と、前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理手段と、記処理手段により得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索手段と、前記第1検索候補となった前記登録画像の中から、前記処理手段により得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索手段と、前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索手段と、を備えたことを特徴とする画像処理装置が提供される。
【0009】
また、本発明によれば、予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索する画像処理方法であって、前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶手段に記憶する記憶工程と、前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理工程と、記処理工程において得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索工程と、前記第1検索候補となった前記登録画像の中から、前記処理工程において得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索工程と、前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索工程と、を含むことを特徴とする画像処理方法が提供される。
【0011】
また、本発明によれば、予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索するために、コンピュータを、前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶した記憶手段、前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理手段、記処理手段により得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索手段、前記第1検索候補となった前記登録画像の中から、前記処理手段により得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索手段、前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索手段、として機能させるプログラムを記録した記録媒体が提供される。
【0012】
【発明の実施の形態】
以下、本発明の好適な実施の形態について、添付図面を参照して説明する。
【0013】
図6は、本発明の一実施形態に係るイメージファイリングシステムが実現されるハードウェアの一例を示した図である。図6に示すように、本システムは、一般的なコンピュータシステム上で実現可能である。
【0014】
図6において、600はアドレス信号を伝えたり、データを伝達させるバス、601は制御を行うCPU、602はBIOSやOSをブートするためのプログラムを記憶するROM、603はOSや各種プログラムをロードしたり作業領域に使用するRAMである。
【0015】
また、604は画像データベースを蓄積したり、OSや各種プログラムを記憶したり、あるいは作業データの一時ファイルを記憶する外部記憶装置、605は、文書画像や各種メッセージなどを表示するディスプレイ、606はイメージスキャナインターフェースであり、607は文書を読み込み文書画像にするイメージスキャナである。
【0016】
図1は、新たな画像の登録処理を説明するフローチャートである。以下、本実施形態において、説明の便宜上、新たに登録するために与えられた画像を入力画像と称し、既に登録され、蓄積された画像を登録画像と称する。
【0017】
入力画像は、例えば、イメージスキャナ607によって文書等が読み込まれ、カラー画像、または、白黒多値画像または二値画像として外部記憶装置604等に記憶される。
【0018】
また、入力画像は、アプリケーションソフトで作られた文書データをビットマップ形式等の画像に変換することによっても得られる。
【0019】
図8は、アプリケーションソフトで作られた文書データの場合、それをビットマップ形式の画像に変換するステップを説明している。
【0020】
ステップS802では、入力された文書データを(ステップS801)、ワープロソフト等のアプリケーションソフト(例えばMicrosoft社のWord、一太郎:共に登録商標)がGDI形式803に変換する(ステップS803)。
【0021】
そして、ステップS804では、プリンタドライバないしFAXドライバなどが、ビットマップ形式の画像に変換する(ステップS805)。
【0022】
次に、図1に戻り、ステップS101では、入力画像に対して領域分割処理を実行する。領域分割処理とは、画像を、その内容の種別に従ったブロック(領域)に分割する処理である。例えば、画像中のテキスト部分、イメージ部分、表部分等の種別に従ったブロックに分割する処理である。このような領域分割処理の具体的内容は種々提案されており、例えば、特開平06−068301号公報等において開示されている。
【0023】
図7は、領域分割処理を行った一例を示す図である。図7において、701は画像全体、702,703,704は、テキストブロック、705,706はイメージブロックを示している。なお、ブロック703と704の中の太線は文字列を簡略化して表したものである。図7の例では、ブロックの種類を、テキストとイメージとの二種類に分けているが、ブロックの種類をもっと多くの種類に細分してもよいことはいうまでもない。
【0024】
入力画像を領域分割した結果は、図1の11のブロック情報としてRAM603に記憶される。図4はこのブロック情報を説明した図である。
【0025】
ブロック情報は、ブロック情報ヘッダと、領域分割された各ブロックのブロック情報データ1〜ブロック情報データnからなる。
【0026】
ブロック情報ヘッダには、例えば、総ブロック数、テキストブロック数、イメージブロック数、判別不能なブロック数、に係る情報が含まれる。また、各ブロック情報データには、例えば、ブロックID、ブロック種別、ブロックの座標情報、ブロックの横幅、ブロックの高さ、に係る情報が含まれる。なお、本実施形態では、ブロックの座標情報として、ブロックの中心の座標を用いるが、中心以外の座標(例えば、ブロック左上頂点の座標)を用いてもよい。図4の下方に示したプログラムは、ブロック情報ヘッダ及びブロック情報データの内容についてC言語で記述したプログラムの例を示している。
【0027】
以下、領域分割してできる各ブロックを、B1,B2,B3,…,Bnとする。上述した通り、ブロックは、テキストブロックとイメージブロックに区別され、また、ブロックBiの中心座標をCX(Bi),CY(Bi)とする。
【0028】
そして、テキストブロックを、その中心座標CX(Bi)を第1キー、その中心座標CY(Bi)を第2キーとしてソートする。ソートされた結果のテキストブロックをTB1,TB2,…,TBmとする。
【0029】
同様にイメージブロックをソートし、ソートされた結果を、IB1,IB2,…,IBkとする。図4のブロック情報データには、テキストブロックをTB1,TB2,…,TBm、イメージブロックIB1,IB2,…,Ibkの順に記録される。
【0030】
そして、外部記憶装置604に蓄積、構成されている画像データベースに、入力画像は登録画像としてブロック情報11と対にして記憶保管されるとともに、その記憶位置を一時的にRAM603に記憶する。
【0031】
画像データベースには、図3で示されているページテーブルが記憶されている。図3においてページIDは登録画像を一意的に決定できる番号であり、例えば登録画像を登録した順番につけた順序番号である。図3でm,kは、それぞれ各登録画像を領域分割して抽出したテキストブロックの個数とイメージブロックの個数とを示している。図において、インスタンスポインタは、対応する登録画像とブロック情報の対が記録されている外部記憶装置604内の記録位置を示している。
【0032】
ステップS102では、まず、今回登録した画像についてのページIDと,テキストブロック及びイメージブロックの個数m+k,イメージブロックの個数k、インスタンスポインタをページテーブルに追加記録する。次に、ステップS103では、このテーブルを、m+kを第1キー、kを第2キーとしてソートする。
【0033】
このようにして、入力画像は登録画像として保存される。しかし、入力画像が既存の登録画像と同一である場合には、二重登録を防止する必要がある。また、既存の登録画像と著しく近似する場合は、ユーザにおいてその登録を希望しない場合もある。そこで、本システムでは、図2のフローチャートに従って二重登録を防止する登録処理がなされる。
【0034】
ステップS202では、入力画像に対して、領域分割処理を実行する。この処理は、図1の場合と同じである。その結果、図4に示すようなブロック情報が得られる。
【0035】
ステップS203では、入力画像のテキストブロック数m、イメージブロック数kとから、総ブロック数m+k=nを計算し、ページテーブルを参照して総ブロック数nと一致する登録画像を第1の検索候補として絞り込みを行う。なお、第1の検索候補が一つしかない場合等には、これを最終的な候補としてもよい。
【0036】
ステップS204では、これら第1の検索候補の各登録画像と入力画像との間の一致度を求める。本実施形態では、各登録画像と入力画像との一致度として、各ブロックの大きさ、位置に基づき、両者の距離を求める。ここでは、登録画像と入力画像との距離を以下のようにして求める。
【0037】
入力画像について、上述した方法でソートされたテキストブロックを、
TB’1,TB’2,…,TB’m’
イメージブロックを
IB’1,IB’2,…,IB’k’
また、登録画像のテキストブロックを、
TB1,TB2,…TBm
イメージブロックを
IB1,IB2,…IBk
とする。更に、テキストブロックTBiの幅、高さを、W(TBi),H(TBi)、イメージブロックIBjの幅、高さを、W(IBj),H(IBj)と表す。
【0038】
2つの画像の距離Dは、以下のように計算される。
【0039】
【数1】

Figure 0003937687
【0040】
ここで、級数の項数mtは、
mt=min(m,m’)
である。
【0041】
【数2】
Figure 0003937687
【0042】
ここで、級数の項数kiは、
ki=min(k,k’)
である。そして、
D=Dt+αDi
として距離D(以下、第1識別関数と呼ぶ。)を計算する。ここで、αは画像の識別がもっともよくなるようにあらかじめ実験的に決めておいた定数である。一般に、テキストブロックよりイメージブロックのほうが精度よく求められると考えられるので、例えば、経験的に2ぐらいの値にしておいてもよい。つまり、DiのほうがDtよりも識別に有効に働くわけである。
【0043】
このようにして、第1の検索候補に係る各登録画像と入力画像との距離Dを求めたら、距離Dの小さいほうからいくつかの登録画像を選ぶことにより、検索候補を絞り込む。たとえば、距離Dの小さいほうから3つだけを選ぶ、あるいは、第1検索候補の数がある割合(たとえば1/5)に減るように距離Dの小さいほうから選ぶことにより絞込みを行う。こうして絞り込みを行い、第2の検索候補とする。この第2の検索候補の集合をS2とする。
【0044】
なお、この段階で、距離Dが最小な登録画像を1つだけに絞り込み、これを最終候補としてもよい。
【0045】
次にステップS205では次のようにさらに絞り込みを行う。
【0046】
この集合S2のなかから、入力画像にもっとも近いものを以下のように選び出す。上記検索では、双方の対応するブロックについて、ブロック位置とブロックサイズを比較し、距離計算を行った。今度は、各対応するブロックの中身の比較をして、さらに距離計算を行う。それには、テキストブロック同士の比較とイメージブロック同士の比較がある。入力画像と登録画像との対応するテキストブロックをTXTB2,TXTBとする。対応付けは、ブロックの中心のX座標を第1キー、Y座標を第2キーとしてソートした場合に同順位にあるブロックを対応させることで行う。これらのテキストブロックを2値化してOCR(光学的文字認識)を行えば文字列が得られる。そしてTXTB2の文字列とTXTBの文字列をDPマッチング(Dynamic Programming:動的計画法)の手法で比較することにより、
TXTB2にあって、TXTBにない文字の個数:n1
TXTB2になくて、TXTBにある文字の個数:n2
TXTB2とTXTBと対応する文字列が異なっている文字の個数:n32,n3(n32は、TXTB2のほうの文字数、n3はTXTBのほうの文字数である)
が求められる。DPマッチングは、例えば、情報科学講座「音声認識」(新美康永著、共立出版)の107ページにも開示されている公知の技術である。
【0047】
図5は、TXTB2とTXTBの各文字列をDPマッチングした例の説明図である。図で各文字列は太線で表されている。Eの部分は、文字列が一致した部分、Xの部分は上記1(TXTB2にあって、TXTBにない文字)の部分、Yの部分は上記2(TXTB2になくて、TXTBにある文字)の部分、Zの部分は上記3(TXTB2とTXTBと対応する文字列が異なっている文字)の部分である。
【0048】
この結果、2つのテキストブロックTXTB2とTXTBの距離を次のように計算できる。
【0049】
D(TXTB2,TXTB)=(n1+n2+n32+n3)/NC
ここで、NCはTXTB2の文字数とTXTBの文字数の合計である。
【0050】
このようにして、対応するテキストブロックについて距離が求まる。また、入力画像と登録画像との間で、テキストブロック数が一致しない場合も考えられる。たとえば、入力画像のほうがテキストブロック数が多くて、TXTB2に対応する登録画像のテキストブロックがないならば、距離は1となる。このようにして、すべてのテキストブロックについて求まった距離を合計したものをテキストブロック距離と呼ぶことにする。
【0051】
今度は、イメージブロックについて入力画像と登録画像との比較である。入力画像のイメージブロックIMGB2と登録画像のイメージブロックIMGBが対応するものとする。対応付けは、ブロックの中心のX座標を第1キー、Y座標を第2キーとしてソートした場合に同順位にあるブロックを対応させることで行う。IMGB2を二値化してできる画像について、全画素数に対する黒画素数の比(すなわち、黒画素数÷全画素数)ratio(IMGB2)を求める。同様にして、ratio(IMGB)を求める。
【0052】
|ratio(IMGB2)−ratio(IMGB)|
をIMGB2とIMGBとの距離とする。対応するイメージブロックがない場合は、距離は最大値の1とする。そして、全イメージブロックについての距離の合計値をイメージブロック距離と呼ぶことにする。
【0053】
さて、入力画像と登録画像との詳細識別距離dを
d=テキストブロック距離+β×イメージブロック距離
で求める。ここで、βは前に述べたαと同様で、イメージブロック距離にかける重みづけファクターである。画像の識別がうまくいくように実験的にβをもとめるのが望ましいが、イメージブロックのほうがテキストブロックよりも精度良く抽出できる(つまり信頼性が高い)ので、おおまかに1より大きい値(たとえば2)にしてもよい。上記dを第2識別関数と呼ぶ。
【0054】
さて、集合S2のすべての登録画像と入力画像との詳細識別距離dを求め、ステップS206では、最小の詳細識別距離d0について、所定の値δと比較する。δよりd0が小さければ、このd0を与える集合S2の登録画像を入力画像と一致する登録画像だと判定する。
【0055】
ここで、δはあらかじめの実験で求める値である。たとえば、ひとつの画像を条件を変えてイメージスキャナで何回も読み込んでできる1000個の画像のものと、ある条件で読み込んだ画像との詳細距離(1000個ある)をもとめ、この1000個の数値の最大値をδとする。
【0056】
ステップS206で一致するものがあれば入力画像は画像データベースには登録しない。一致するものがなければ、ステップS207へ進む。
【0057】
ステップS207は、図1で説明したS102からS103までの文書登録処理とまったく同じである。
【0058】
以上、本発明の好適な実施形態について説明したが、上述した第1及び第2識別関数は、登録画像と入力画像との距離を計算するものとしたが、距離ではなく類似度を計算してもよい。例えば、距離の逆数を計算すれば、すなわち類似度となることは明白である。識別関数を類似度とした場合は、候補の選択は、類似度の大きいものから順番に絞り込むことになる。
【0059】
また、上記実施形態は、画像の二重登録を避けるためのものであったが、同様の処理を応用して他の用途、例えば、画像検索装置としても用いることができる。画像の検索を行う場合、入力画像に対してステップS202乃至S206の処理を施すことにより、一致する登録画像をデータベースから探し出すことができるので、その後、一致する登録画像を取り出す処理を行うことにより、画像検索が可能となる。
【0060】
たとえば、文書画像を検索したい場合、手元に探し出したい文書画像とほとんど同じであるが、少し違っている文書画像があり、原本の文書画像をデータベースから取り出したいという用途がある。この場合、データベースが前記実施形態のように構成されていれば、手元にある文書画像ともっとも似通った文書画像の検索を、手作業によらず、行うことができる。このような用途としては、手元の文書画像は原本を何回もコピーしたものによるものであるために、印刷状態が悪くなったものであった場合、原本から再び印刷状態の良好な文書を取り出したいというケースがある。
【0061】
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0062】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0063】
【発明の効果】
以上、本発明によれば、新たな画像と近似するか又は一致する画像を好適に検索することができる。
【図面の簡単な説明】
【図1】新たな画像の登録処理を説明するフローチャートである。
【図2】二重登録を防止しつつ新たな画像の登録処理を説明するフローチャートである。
【図3】ページテーブルの説明図である。
【図4】ブロック情報の説明図である。
【図5】テキストブロックのDPマッチングの説明図である。
【図6】本発明の一実施形態に係るイメージファイリングシステムが実現されるハードウェアの一例を示した図である。
【図7】領域分割処理を行った一例を示す図である。
【図8】文書データから入力画像を得る場合の処理のフローチャートである。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to image processing, and more particularly to image filing and filing image retrieval.
[0002]
[Prior art]
Conventionally, in an image filing system for storing images including documents and the like, an index of a search keyword is added to and stored in an image captured by an image scanner for convenience during a search.
[0003]
[Problems to be solved by the invention]
However, in the conventional filing system, in order to prevent an image to be newly registered from being registered twice with an already registered and accumulated registered image, a keyword search is performed on the accumulated registered image. In addition, all the registered images must be displayed in a list and searched manually, and humans have to visually confirm the match with the image to be newly registered, which is troublesome. For this reason, there was a situation that allowed double registration.
[0004]
That is, in the conventional filing system, the search function for a registered image that approximates or coincides with a new image is not user-friendly.
[0005]
Accordingly, an object of the present invention is to provide an image processing apparatus and image processing method that obtained by suitably searches an image or matches approximate the new image, a recording medium.
[0007]
[Means for Solving the Problems]
According to the present invention, in advance from among the registered plurality of registered images, an image processing apparatus for searching a registered image that approximates or matches the input image, area dividing process for the registration picture image and the number of the area obtained by performing the position of each region and the size of each region and the region type of each region, and storing means for storing with the reference image, the area dividing process in respect to the input image by executing the obtaining the number of regions included in the input image and the position of each region and the size of each region and the region type of each area processing unit and pre Symbol processing the input image obtained by the means A first search unit that searches the storage unit as a first search candidate for the registered image that matches the number of regions included in the number of regions, and the registered image that is the first search candidate. Obtained by the processing means A second search means for searching the registered image having the position and size of the region, which is similar to the position and size of each region included in the input image, as a second search candidate; For the registered image, the character recognition result obtained by character recognition of the region in which the region type is text in the input image, and the region in which the region type in the target registered image is text Is compared with the character recognition result obtained by character recognition, and the similarity with respect to the text is calculated, and the image feature amount extracted from the region in which the region type in the input image is an image and the registration of the target By comparing the image feature amount extracted from the region where the region type in the image is an image, the similarity degree regarding the image is calculated, and further, the calculated text is related. The registered image that is the second search candidate based on the obtained overall similarity is obtained by adding and weighting a predetermined weight to the similarity and the similarity related to the image. And a third search means for determining a registered image similar to the input image .
[0009]
Further, according to the present invention, from among a plurality of registered images registered in advance, an image processing method of searching a registered image that approximates or matches the input image, for the registration picture image area A storage step of storing the number of regions obtained by executing the division process, the position of each region, the size of each region, and the region type of each region in a storage unit together with the registered image; and for the input image Te by performing region segmentation processing, a processing step of obtaining a number of areas contained within the input image and the position of each region and the size of each region and the region type of each region, obtained in the previous SL process A first search step of searching the storage means as a first search candidate for the number of regions included in the input image and the number of regions that match, and the first search candidate From the registered images, A second search step for searching as a second search candidate the registered image having a region position and size similar to the position and size of each region included in the input image obtained in a logical step; Character recognition results obtained by character recognition of an area in which the area type in the input image is text for the registered image that is the second search candidate, and the area type in the target registered image The image feature amount extracted from the region in which the region type in the input image is calculated while calculating the similarity with respect to the text by comparing the character recognition result obtained by character recognition of the region in which the character is text Is compared with the image feature amount extracted from the region whose image type is the image in the registered image of the object, and the similarity with respect to the image is calculated. The total similarity is obtained by adding a predetermined weight to the similarity relating to the text and the similarity relating to the image, and the second search candidate is obtained based on the obtained overall similarity. And a third search step of determining a registered image similar to the input image from the registered images .
[0011]
Further, according to the present invention, from among a plurality of registered images registered in advance, in order to find the registered image that approximates or matches the input image, a computer, area division for the registration picture image and the number of the area obtained by executing the process and the position of each region and the size of each region and the region type of each region, storing means for storing with the reference image, the area dividing process in respect to the input image by executing the processing means for obtaining and the input region contained in the image number and position and the area of each region size and the region region class, prior Symbol processing the input image obtained by the means First search means for searching the storage means as a first search candidate for the registered image having the same number of areas as the number of areas included , from among the registered images that have become the first search candidate, Obtained by processing means Second search means for searching the registered image having the position and size of the region similar to the position and size of each region included in the input image as a second search candidate; For the registered image, the character recognition result obtained by character recognition of the region in which the region type is text in the input image, and the region in which the region type in the target registered image is text Is compared with the character recognition result obtained by character recognition, and the similarity with respect to the text is calculated, and the image feature amount extracted from the region in which the region type in the input image is an image and the registration of the target By comparing the image feature amount extracted from the region where the region type in the image is an image, the similarity degree regarding the image is calculated, and further, the calculated text is related. The registered image that is the second search candidate based on the obtained overall similarity is obtained by adding and weighting a predetermined weight to the similarity and the similarity related to the image. A recording medium recording a program that functions as third search means for determining a registered image similar to the input image is provided.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described with reference to the accompanying drawings.
[0013]
FIG. 6 is a diagram illustrating an example of hardware in which an image filing system according to an embodiment of the present invention is realized. As shown in FIG. 6, this system can be realized on a general computer system.
[0014]
In FIG. 6, 600 is a bus for transmitting address signals and data, 601 is a CPU for controlling, 602 is a ROM for storing programs for booting BIOS and OS, 603 is for loading OS and various programs. Or RAM used for the work area.
[0015]
Reference numeral 604 denotes an external storage device that stores an image database, stores an OS and various programs, or stores temporary files of work data. 605 is a display that displays document images and various messages. 606 is an image. A scanner interface 607 is an image scanner which reads a document and converts it into a document image.
[0016]
FIG. 1 is a flowchart for explaining a new image registration process. Hereinafter, in this embodiment, for convenience of explanation, an image given for new registration is referred to as an input image, and an image that has already been registered and accumulated is referred to as a registered image.
[0017]
As the input image, for example, a document or the like is read by the image scanner 607 and stored in the external storage device 604 or the like as a color image, a monochrome multi-value image, or a binary image.
[0018]
The input image can also be obtained by converting document data created by application software into an image of a bitmap format or the like.
[0019]
FIG. 8 illustrates a step of converting document data created by application software into a bitmap format image.
[0020]
In step S802, the input document data (step S801) is converted into GDI format 803 by application software such as word processing software (for example, Microsoft Word, Ichitaro: both are registered trademarks) (step S803).
[0021]
In step S804, a printer driver or a FAX driver converts the image into a bitmap format image (step S805).
[0022]
Next, returning to FIG. 1, in step S <b> 101, region division processing is executed on the input image. The area dividing process is a process of dividing an image into blocks (areas) according to the type of contents. For example, it is a process of dividing into blocks according to the type of text portion, image portion, table portion, etc. in the image. Various specific contents of such area division processing have been proposed, and are disclosed in, for example, Japanese Patent Laid-Open No. 06-068301.
[0023]
FIG. 7 is a diagram illustrating an example in which the region division processing is performed. In FIG. 7, reference numeral 701 denotes an entire image, reference numerals 702, 703, and 704 denote text blocks, and reference numerals 705 and 706 denote image blocks. The bold lines in the blocks 703 and 704 are simplified representations of character strings. In the example of FIG. 7, the types of blocks are divided into two types, text and image, but it goes without saying that the types of blocks may be subdivided into more types.
[0024]
The result of area division of the input image is stored in the RAM 603 as the block information 11 in FIG. FIG. 4 is a diagram illustrating this block information.
[0025]
The block information includes a block information header and block information data 1 to block information data n of each block divided into regions.
[0026]
The block information header includes, for example, information related to the total number of blocks, the number of text blocks, the number of image blocks, and the number of blocks that cannot be determined. Each block information data includes, for example, information related to a block ID, a block type, block coordinate information, a block width, and a block height. In this embodiment, the coordinates of the center of the block are used as the block coordinate information, but coordinates other than the center (for example, the coordinates of the upper left vertex of the block) may be used. The program shown in the lower part of FIG. 4 shows an example of a program in which the contents of the block information header and the block information data are described in C language.
[0027]
In the following, each block formed by dividing the area is referred to as B1, B2, B3,. As described above, a block is classified into a text block and an image block, and the center coordinates of the block Bi are CX (Bi) and CY (Bi).
[0028]
The text blocks are sorted with the center coordinate CX (Bi) as the first key and the center coordinate CY (Bi) as the second key. The text blocks resulting from the sorting are denoted by TB1, TB2,.
[0029]
Similarly, the image blocks are sorted, and the sorted result is defined as IB1, IB2,. In the block information data of FIG. 4, text blocks are recorded in the order of TB1, TB2,..., TBm, and image blocks IB1, IB2,.
[0030]
The input image is stored and stored as a registered image in a pair with the block information 11 in the image database stored and configured in the external storage device 604, and the storage position is temporarily stored in the RAM 603.
[0031]
In the image database, the page table shown in FIG. 3 is stored. In FIG. 3, the page ID is a number that can uniquely determine a registered image, and is, for example, a sequence number given in the order in which the registered images are registered. In FIG. 3, m and k respectively indicate the number of text blocks and the number of image blocks extracted by dividing each registered image into regions. In the figure, the instance pointer indicates a recording position in the external storage device 604 where a pair of a corresponding registered image and block information is recorded.
[0032]
In step S102, first, the page ID, the number m + k of text blocks and image blocks, the number k of image blocks, and the instance pointer are additionally recorded in the page table for the currently registered image. In step S103, the table is sorted with m + k as the first key and k as the second key.
[0033]
In this way, the input image is saved as a registered image. However, when the input image is the same as an existing registered image, it is necessary to prevent double registration. In addition, in the case of remarkably approximating an existing registered image, the user may not desire the registration. Therefore, in this system, registration processing for preventing double registration is performed according to the flowchart of FIG.
[0034]
In step S202, an area division process is performed on the input image. This process is the same as in the case of FIG. As a result, block information as shown in FIG. 4 is obtained.
[0035]
In step S203, the total number of blocks m + k = n is calculated from the number of text blocks m and the number of image blocks k of the input image, and a registered image that matches the total number of blocks n is referred to as the first search candidate by referring to the page table. Narrow down as If there is only one first search candidate, this may be the final candidate.
[0036]
In step S204, the degree of coincidence between each registered image of the first search candidate and the input image is obtained. In the present embodiment, as the degree of coincidence between each registered image and the input image, the distance between the two is obtained based on the size and position of each block. Here, the distance between the registered image and the input image is obtained as follows.
[0037]
For the input image, the text blocks sorted by the method described above are
TB'1, TB'2, ..., TB'm '
IB'1, IB'2, ..., IB'k '
In addition, the text block of the registered image
TB1, TB2, ... TBm
IB1, IB2, ... IBk
And Further, the width and height of the text block TBi are represented as W (TBi) and H (TBi), and the width and height of the image block IBj are represented as W (IBj) and H (IBj).
[0038]
The distance D between the two images is calculated as follows.
[0039]
[Expression 1]
Figure 0003937687
[0040]
Here, the series term mt is
mt = min (m, m ′)
It is.
[0041]
[Expression 2]
Figure 0003937687
[0042]
Here, the series term ki is
ki = min (k, k ′)
It is. And
D = Dt + αDi
The distance D (hereinafter referred to as the first discriminant function) is calculated as follows. Here, α is a constant experimentally determined in advance so that the image can be best identified. In general, it is considered that an image block is more accurately obtained than a text block. For example, a value of about 2 may be set empirically. That is, Di works more effectively for identification than Dt.
[0043]
When the distance D between each registered image related to the first search candidate and the input image is obtained in this way, the search candidates are narrowed down by selecting several registered images from the smaller distance D. For example, narrowing down is performed by selecting only three from the smaller distance D, or selecting from the smaller distance D so that the number of first search candidates decreases to a certain ratio (for example, 1/5). In this way, narrowing down is performed as a second search candidate. This second set of search candidates is defined as S2.
[0044]
At this stage, the registered image with the smallest distance D may be narrowed down to one, and this may be the final candidate.
[0045]
In step S205, further narrowing is performed as follows.
[0046]
From this set S2, the one closest to the input image is selected as follows. In the above search, for both corresponding blocks, the block position and the block size were compared, and the distance was calculated. This time, the contents of each corresponding block are compared, and further distance calculation is performed. There are comparisons between text blocks and image blocks. The text blocks corresponding to the input image and the registered image are denoted as TXTB2 and TXTB. The association is performed by associating blocks having the same rank when sorting with the X coordinate of the center of the block as the first key and the Y coordinate as the second key. A character string can be obtained by binarizing these text blocks and performing OCR (optical character recognition). Then, by comparing the TXTB2 character string and the TXTB character string using the DP matching (Dynamic Programming) technique,
Number of characters in TXTB2 but not in TXTB: n1
Number of characters in TXTB but not in TXTB2: n2
Number of characters with different character strings corresponding to TXTB2 and TXTB: n32, n3 (n32 is the number of characters in TXTB2 and n3 is the number of characters in TXTB)
Is required. DP matching is a well-known technique that is also disclosed on page 107 of the information science course "voice recognition" (by Yasunaga Niimi, Kyoritsu Shuppan).
[0047]
FIG. 5 is an explanatory diagram of an example in which each character string of TXTB2 and TXTB is DP-matched. In the figure, each character string is represented by a bold line. The E part is the part where the character strings match, the X part is the part 1 (characters in TXTB2 and not in TXTB), and the Y part is the part 2 (characters in TXTB, not TXTB2) The part Z is the part 3 (characters having different character strings corresponding to TXTB2 and TXTB).
[0048]
As a result, the distance between the two text blocks TXTB2 and TXTB can be calculated as follows.
[0049]
D (TXTB2, TXTB) = (n1 + n2 + n32 + n3) / NC
Here, NC is the total number of TXTB2 characters and TXTB characters.
[0050]
In this way, the distance is determined for the corresponding text block. Further, there may be a case where the number of text blocks does not match between the input image and the registered image. For example, if the input image has more text blocks and there is no registered image text block corresponding to TXTB2, the distance is 1. Thus, the sum of the distances obtained for all the text blocks is referred to as a text block distance.
[0051]
This time, it is a comparison between the input image and the registered image for the image block. Assume that the image block IMGB2 of the input image corresponds to the image block IMGB of the registered image. The association is performed by associating blocks having the same rank when sorting with the X coordinate of the center of the block as the first key and the Y coordinate as the second key. For an image obtained by binarizing IMGB2, a ratio of the number of black pixels to the total number of pixels (that is, the number of black pixels / total number of pixels) ratio (IMGB2) is obtained. Similarly, ratio (IMGB) is obtained.
[0052]
| Ratio (IMGB2) -ratio (IMGB) |
Is the distance between IMGB2 and IMGB. If there is no corresponding image block, the distance is the maximum value of 1. The total value of the distances for all image blocks is referred to as an image block distance.
[0053]
Now, a detailed identification distance d between the input image and the registered image is obtained by d = text block distance + β × image block distance. Here, β is the same as α described above, and is a weighting factor applied to the image block distance. It is desirable to experimentally obtain β so that the image can be easily identified. However, since an image block can be extracted more accurately than a text block (ie, more reliable), a value roughly larger than 1 (for example, 2) It may be. Said d is called a 2nd discriminant function.
[0054]
Now, the detailed identification distance d between all registered images in the set S2 and the input image is obtained, and in step S206, the minimum detailed identification distance d0 is compared with a predetermined value δ. If d0 is smaller than δ, it is determined that the registered image of the set S2 giving this d0 is a registered image that matches the input image.
[0055]
Here, δ is a value obtained by a prior experiment. For example, the number of 1000 images that can be read many times with an image scanner under different conditions and the detailed distance (1000 images) between the image read under a certain condition is obtained. Is the maximum value of δ.
[0056]
If there is a match in step S206, the input image is not registered in the image database. If there is no match, the process proceeds to step S207.
[0057]
Step S207 is exactly the same as the document registration process from S102 to S103 described in FIG.
[0058]
The preferred embodiment of the present invention has been described above. The first and second discrimination functions described above calculate the distance between the registered image and the input image, but calculate the similarity instead of the distance. Also good. For example, it is obvious that the reciprocal of the distance is calculated, that is, the similarity is obtained. When the discrimination function is the similarity, the selection of candidates is narrowed down in descending order of the similarity.
[0059]
Moreover, although the said embodiment was for avoiding double registration of an image, it can be used also as another use, for example, an image search apparatus, applying the same process. When searching for an image, by performing the processing of steps S202 to S206 on the input image, it is possible to search for a matching registered image from the database. Image search is possible.
[0060]
For example, when searching for a document image, there is a document image that is almost the same as the document image to be found at hand, but is slightly different, and the original document image is to be retrieved from the database. In this case, if the database is configured as in the above-described embodiment, it is possible to search for a document image that is most similar to the document image at hand, regardless of manual operation. In such a case, since the original document image is a copy of the original many times, if the print state has deteriorated, a document with a good print state is taken out from the original again. There is a case of wanting.
[0061]
An object of the present invention is to supply a storage medium (or recording medium) that records a program code of software that implements the functions of the above-described embodiments to a system or apparatus, and to perform a computer (or CPU or CPU) of the system or apparatus. Needless to say, this can also be achieved by the MPU) reading and executing the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. Further, by executing the program code read by the computer, not only the functions of the above-described embodiments are realized, but also an operating system (OS) running on the computer based on the instruction of the program code. It goes without saying that a case where the function of the above-described embodiment is realized by performing part or all of the actual processing and the processing is included.
[0062]
Furthermore, after the program code read from the storage medium is written into a memory provided in a function expansion card inserted into the computer or a function expansion unit connected to the computer, the function is determined based on the instruction of the program code. It goes without saying that the CPU or the like provided in the expansion card or the function expansion unit performs part or all of the actual processing and the functions of the above-described embodiments are realized by the processing.
[0063]
【The invention's effect】
As described above, according to the present invention can be suitably search to Rukoto an image or matches approximate the new image.
[Brief description of the drawings]
FIG. 1 is a flowchart illustrating a new image registration process.
FIG. 2 is a flowchart illustrating a new image registration process while preventing double registration.
FIG. 3 is an explanatory diagram of a page table.
FIG. 4 is an explanatory diagram of block information.
FIG. 5 is an explanatory diagram of DP matching of a text block.
FIG. 6 is a diagram illustrating an example of hardware for realizing an image filing system according to an embodiment of the present invention.
FIG. 7 is a diagram illustrating an example in which region division processing is performed.
FIG. 8 is a flowchart of processing when an input image is obtained from document data.

Claims (15)

予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索する画像処理装置であって、
前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶した記憶手段と、
前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理手段と、
記処理手段により得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索手段と、
前記第1検索候補となった前記登録画像の中から、前記処理手段により得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索手段と、
前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索手段と、
を備えたことを特徴とする画像処理装置。
An image processing apparatus that searches for a registered image that approximates or matches an input image that has been input from a plurality of registered images that are registered in advance,
A storage means for a number of the resulting area and position of each region and the size of each region and the region type of each region, stored along with the reference image by performing the area dividing process for the registration picture image,
By performing the region segmentation processing to the input image, and processing means for obtaining a region of the size and the area of the position and the area of the number and the area of the region contained in the input image type,
The number of areas contained within the resulting the input image by the pre-Symbol processing means, a first retrieving means for retrieving the registered image number of regions matches the first search candidates from the storage means,
The position and size of a region similar to the position and size of each region included in the input image obtained by the processing means from the registered images that are the first search candidates. Second search means for searching for registered images as second search candidates;
Character recognition results obtained by character recognition of an area in which the area type in the input image is text for the registered image that is the second search candidate, and the area type in the target registered image The image feature amount extracted from the region in which the region type in the input image is calculated while calculating the similarity with respect to the text by comparing the character recognition result obtained by character recognition of the region in which the character is text Is compared with the image feature amount extracted from the region whose image type is the image in the target registered image, and the similarity regarding the image is calculated, and the similarity regarding the calculated text and the image A total weight is obtained by adding a predetermined weight to the degree of similarity to determine the total similarity, and based on the obtained total similarity, the first Third search means for determining image similar to the input image from among the registered images that have searched candidate,
An image processing apparatus comprising:
前記領域種別がイメージである領域から抽出する画像特徴量は、当該イメージである領域を2値化して算出される、当該イメージ領域における全画素数に対する黒画素数の比であることを特徴とする請求項に記載の画像処理装置。 The image feature amount extracted from the area whose area type is an image is a ratio of the number of black pixels to the total number of pixels in the image area, which is calculated by binarizing the area corresponding to the image. The image processing apparatus according to claim 1 . 前記第3検索手段で前記入力画像に類似すると判定された前記登録画像が存在しなかった場合、当該入力画像を新たな登録画像として前記記憶手段に記憶する一方、前記第3検索手段で前記入力画像に類似すると判定された前記登録画像が存在した場合、当該入力画像を前記登録画像として前記記憶手段に記憶しない登録手段を備えたことを特徴とする請求項1に記載の画像処理装置。If the registered image determined to be similar to the input image by the third search means does not exist, the input image is stored in the storage means as a new registered image, while the input by the third search means The image processing apparatus according to claim 1, further comprising: a registration unit that does not store the input image as the registered image in the storage unit when the registered image determined to be similar to an image exists. 前記重み付けでは、前記イメージに関する類似度に対する重みの方が、前記テキストに関する類似度に対する重みよりも大きいことを特徴とする請求項1に記載の画像処理装置。The image processing apparatus according to claim 1, wherein in the weighting, a weight with respect to the similarity with respect to the image is larger than a weight with respect to the similarity with respect to the text. 前記第2検索手段は、前記領域種別がイメージである領域の位置及び大きさに関する類似度の重みを、前記領域種別がテキストである領域の位置及び大きさに関する類似度の重みよりも大きくして前記第2検索候補を検索することを特徴とする請求項1に記載の画像処理装置。The second search means sets the similarity weight related to the position and size of the area where the area type is an image to be larger than the similarity weight related to the position and size of the area where the area type is text. The image processing apparatus according to claim 1, wherein the second search candidate is searched. 予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索する画像処理方法であって、
前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶手段に記憶する記憶工程と、
前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理工程と、
記処理工程において得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索工程と、
前記第1検索候補となった前記登録画像の中から、前記処理工程において得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索工程と、
前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索工程と、
を含むことを特徴とする画像処理方法。
An image processing method for searching for a registered image that approximates or matches an input image input from a plurality of registered images registered in advance,
Wherein a number of the area obtained by for the registered image image to perform region segmentation process and the position of each region and the size of each region and the region type of each region, stored in the storage means together with the registered image storage Process,
By performing the region segmentation processing to the input image, a processing step of obtaining a region of the size and the area of the position and the area of the number and the area of the region contained in the input image type,
The number of areas included in the pre-Symbol processing the input image obtained in step, a first retrieval step of retrieving the registered image number of regions matches the first search candidates from the storage means,
The position and size of the region similar to the position and size of each region included in the input image obtained in the processing step from the registered image that is the first search candidate. A second search step of searching for a registered image as a second search candidate;
Character recognition results obtained by character recognition of an area in which the area type in the input image is text for the registered image that is the second search candidate, and the area type in the target registered image The image feature amount extracted from the region in which the region type in the input image is calculated while calculating the similarity with respect to the text by comparing the character recognition result obtained by character recognition of the region in which the character is text Is compared with the image feature amount extracted from the region whose image type is the image in the target registered image, and the similarity regarding the image is calculated, and the similarity regarding the calculated text and the image A total weight is obtained by adding a predetermined weight to the degree of similarity to determine the total similarity, and based on the obtained total similarity, the first A third search step of determining image similar to the input image from among the registered images that have searched candidate,
An image processing method comprising:
前記領域種別がイメージである領域から抽出する画像特徴量は、当該イメージである領域を2値化して算出される、当該イメージ領域における全画素数に対する黒画素数の比であることを特徴とする請求項に記載の画像処理方法。 The image feature amount extracted from the area whose area type is an image is a ratio of the number of black pixels to the total number of pixels in the image area, which is calculated by binarizing the area corresponding to the image. The image processing method according to claim 6 . 前記第3検索工程で前記入力画像に類似すると判定された前記登録画像が存在しなかった場合、当該入力画像を新たな登録画像として前記記憶手段に記憶する一方、前記第3検索工程で前記入力画像に類似すると判定された前記登録画像が存在した場合、当該入力画像を前記登録画像として前記記憶手段に記憶しない登録工程を備えたことを特徴とする請求項6に記載の画像処理方法。If the registered image determined to be similar to the input image in the third search step does not exist, the input image is stored in the storage unit as a new registered image, while the input is performed in the third search step. The image processing method according to claim 6, further comprising a registration step of not storing the input image as the registered image in the storage unit when the registered image determined to be similar to an image exists. 前記重み付けでは、前記イメージに関する類似度に対する重みの方が、前記テキストに関する類似度に対する重みよりも大きいことを特徴とする請求項6に記載の画像処理方法。The image processing method according to claim 6, wherein in the weighting, a weight with respect to the similarity with respect to the image is larger than a weight with respect to the similarity with respect to the text. 前記第2検索工程では、前記領域種別がイメージである領域の位置及び大きさに関する類似度の重みを、前記領域種別がテキストである領域の位置及び大きさに関する類似度の重みよりも大きくして前記第2検索候補を検索することを特徴とする請求項6に記載の画像処理方法。In the second search step, the similarity weight related to the position and size of the region where the region type is an image is set larger than the similarity weight related to the position and size of the region where the region type is text. The image processing method according to claim 6, wherein the second search candidate is searched. 予め登録された複数の登録画像の中から、入力された入力画像に近似又は一致する登録画像を検索するために、コンピュータを、
前記登録画像に対して領域分割処理を実行することにより得られた領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを、当該登録画像と共に記憶した記憶手段、
前記入力画像に対し領域分割処理を実行することにより、当該入力画像内に含まれる領域の数と各領域の位置と各領域の大きさと各領域の領域種別とを得る処理手段、
記処理手段により得られた前記入力画像内に含まれる領域の数と、領域の数が一致する前記登録画像を前記記憶手段から第1の検索候補として検索する第1検索手段、
前記第1検索候補となった前記登録画像の中から、前記処理手段により得られた、前記入力画像内に含まれる各領域の位置及び大きさに類似する、領域の位置及び大きさを有する前記登録画像を第2検索候補として検索する第2検索手段、
前記第2検索候補となった前記登録画像を対象として、前記入力画像内の前記領域種別 がテキストである領域を文字認識して得た文字認識結果と、前記対象の登録画像内の前記領域種別がテキストである領域を文字認識して得た文字認識結果とを比較することにより、テキストに関する類似度を算出するとともに、前記入力画像内の前記領域種別がイメージである領域から抽出した画像特徴量と前記対象の登録画像内の前記領域種別がイメージである領域から抽出した画像特徴量とを比較することにより、イメージに関する類似度を算出し、更に、当該算出されたテキストに関する類似度とイメージに関する類似度とに対して、予め定めた重み付けをおこなって加算することにより総合類似度を求め、当該求めた総合類似度に基づいて前記第2検索候補となった前記登録画像の中から前記入力画像に類似する登録画像を判定する第3検索手段、
として機能させるプログラムを記録した記録媒体。
In order to search for a registered image that approximates or matches the input image input from a plurality of registered images registered in advance,
Storage means for the the number of the area obtained by for the registered image image to perform region segmentation process and the position of each region and the size of each region and the region type of each region, stored along with the reference image,
Wherein by executing the input image for a region division processing, processing means for obtaining the size and area of each region of the position and the area of the number and the area of the region contained in the input image type,
First searching means for searching a number of areas contained within the resulting the input image by the pre-Symbol processing means, the registered image number of regions matches the first search candidates from the storage means,
The position and size of a region similar to the position and size of each region included in the input image obtained by the processing means from the registered images that are the first search candidates. Second search means for searching for registered images as second search candidates;
Character recognition results obtained by character recognition of an area in which the area type in the input image is text for the registered image that is the second search candidate, and the area type in the target registered image The image feature amount extracted from the region in which the region type in the input image is calculated while calculating the similarity with respect to the text by comparing the character recognition result obtained by character recognition of the region in which the character is text Is compared with the image feature amount extracted from the region whose image type is the image in the target registered image, and the similarity regarding the image is calculated, and the similarity regarding the calculated text and the image A total weight is obtained by adding a predetermined weight to the degree of similarity to determine the total similarity, and based on the obtained total similarity, the first Third search means for determining image similar to the input image from among the registered images that have searched candidate,
A recording medium that records a program that functions as a computer.
前記領域種別がイメージである領域から抽出する画像特徴量は、当該イメージである領域を2値化して算出される、当該イメージ領域における全画素数に対する黒画素数の比であることを特徴とする請求項11に記載の記録媒体。 The image feature amount extracted from the area whose area type is an image is a ratio of the number of black pixels to the total number of pixels in the image area, which is calculated by binarizing the area corresponding to the image. The recording medium according to claim 11 . 前記プログラムが、コンピュータを、前記第3検索手段で前記入力画像に類似すると判定された前記登録画像が存在しなかった場合、当該入力画像を新たな登録画像として前記記憶手段に記憶する一方、前記第3検索手段で前記入力画像に類似すると判定された前記登録画像が存在した場合、当該入力画像を前記登録画像として前記記憶手段に記憶しない登録手段として機能させるプログラムを含むことを特徴とする請求項11に記載の記録媒体。The program stores the input image as a new registered image in the storage unit when the registered image determined to be similar to the input image by the third search unit does not exist. And a program for causing the input image to function as a registration unit that is not stored in the storage unit as the registration image when there is the registration image determined to be similar to the input image by a third search unit. Item 12. The recording medium according to Item 11. 前記重み付けでは、前記イメージに関する類似度に対する重みの方が、前記テキストに関する類似度に対する重みよりも大きいことを特徴とする請求項11に記載の記録媒体。The recording medium according to claim 11, wherein, in the weighting, a weight for the similarity regarding the image is larger than a weight for the similarity regarding the text. 前記第2検索手段は、前記領域種別がイメージである領域の位置及び大きさに関する類似度の重みを、前記領域種別がテキストである領域の位置及び大きさに関する類似度の重みよりも大きくして前記第2検索候補を検索することを特徴とする請求項11に記載の記録媒体。The second search means sets the similarity weight related to the position and size of the area where the area type is an image to be larger than the similarity weight related to the position and size of the area where the area type is text. The recording medium according to claim 11, wherein the second search candidate is searched.
JP2000136158A 2000-05-09 2000-05-09 Image processing apparatus, image processing method, and recording medium Expired - Fee Related JP3937687B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000136158A JP3937687B2 (en) 2000-05-09 2000-05-09 Image processing apparatus, image processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000136158A JP3937687B2 (en) 2000-05-09 2000-05-09 Image processing apparatus, image processing method, and recording medium

Publications (2)

Publication Number Publication Date
JP2001319231A JP2001319231A (en) 2001-11-16
JP3937687B2 true JP3937687B2 (en) 2007-06-27

Family

ID=18644145

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000136158A Expired - Fee Related JP3937687B2 (en) 2000-05-09 2000-05-09 Image processing apparatus, image processing method, and recording medium

Country Status (1)

Country Link
JP (1) JP3937687B2 (en)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004334339A (en) 2003-04-30 2004-11-25 Canon Inc Information processor, information processing method, and storage medium, and program
JP2004348706A (en) * 2003-04-30 2004-12-09 Canon Inc Information processing device, information processing method, storage medium, and program
JP4366119B2 (en) 2003-05-29 2009-11-18 キヤノン株式会社 Document processing device
JP4333350B2 (en) 2003-12-04 2009-09-16 コニカミノルタホールディングス株式会社 Image management apparatus, image management method, and program
JP4569162B2 (en) * 2004-04-30 2010-10-27 コニカミノルタビジネステクノロジーズ株式会社 Image processing method, image processing program, and image processing apparatus
JP4641414B2 (en) 2004-12-07 2011-03-02 キヤノン株式会社 Document image search apparatus, document image search method, program, and storage medium
JP4561474B2 (en) * 2005-05-24 2010-10-13 株式会社日立製作所 Electronic document storage system
JP4721111B2 (en) 2005-11-24 2011-07-13 富士ゼロックス株式会社 Image processing apparatus, image processing system, image processing program, and image processing method
JP4830721B2 (en) * 2006-08-29 2011-12-07 富士ゼロックス株式会社 Information processing apparatus and program
JP5502346B2 (en) * 2009-03-09 2014-05-28 富士フイルム株式会社 Case image registration device, method and program, and case image search device, method, program and system
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
JP5071539B2 (en) 2010-09-13 2012-11-14 コニカミノルタビジネステクノロジーズ株式会社 Image search apparatus, image reading apparatus, image search system, database generation method, and database generation program
CN114359533B (en) * 2021-11-18 2022-11-04 珠海读书郎软件科技有限公司 Page number identification method based on page text and computer equipment

Also Published As

Publication number Publication date
JP2001319231A (en) 2001-11-16

Similar Documents

Publication Publication Date Title
JP2957375B2 (en) Data processing system and method for correcting character recognition errors in digital images of document format
US7664783B2 (en) File management program, data structure, and file management device
JP3937687B2 (en) Image processing apparatus, image processing method, and recording medium
US5524065A (en) Method and apparatus for pattern recognition
JP5033724B2 (en) Document search apparatus, image forming apparatus, and document search system
EP2172856A2 (en) Image processing apparatus, image processing method and program
US9430716B2 (en) Image processing method and image processing system
JP2004334334A (en) Document retrieval system, document retrieval method, and storage medium
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
JP2000112995A (en) Document retrieval method, device therefor and recording medium
US6718075B1 (en) Image search method and apparatus
US5905811A (en) System for indexing document images
JPH10289240A (en) Image processor and its control method
JP2007199749A (en) Image retrieval method and image retrieval device
JP4135659B2 (en) Format conversion device and file search device
US6996293B1 (en) Reduced image forming method and apparatus
US5909680A (en) Document categorization by word length distribution analysis
US20050117803A1 (en) Document recognition device, document recognition method and program, and storage medium
KR100957508B1 (en) System and method for recognizing optical characters
JP2005208977A (en) Document filing device and method
JP2586372B2 (en) Information retrieval apparatus and information retrieval method
JP7026386B2 (en) Form image processing system, form image processing method, and form image processing program
KR19990016894A (en) How to search video database
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
JP3902825B2 (en) Document search system and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040614

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040614

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040614

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070319

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110406

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120406

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130406

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140406

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees