JP2015191308A - 文書画像の照合装置及び照合プログラム並びに文書画像検索装置 - Google Patents

文書画像の照合装置及び照合プログラム並びに文書画像検索装置 Download PDF

Info

Publication number
JP2015191308A
JP2015191308A JP2014066552A JP2014066552A JP2015191308A JP 2015191308 A JP2015191308 A JP 2015191308A JP 2014066552 A JP2014066552 A JP 2014066552A JP 2014066552 A JP2014066552 A JP 2014066552A JP 2015191308 A JP2015191308 A JP 2015191308A
Authority
JP
Japan
Prior art keywords
image
document image
document
similarity
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014066552A
Other languages
English (en)
Inventor
山本 直史
Tadashi Yamamoto
直史 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2014066552A priority Critical patent/JP2015191308A/ja
Publication of JP2015191308A publication Critical patent/JP2015191308A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】照合する2つの文書画像が拡大または縮小の関係にある場合やスキューの関係にある場合でも、高速に類似度を計算できるようにする。【解決手段】装置は、例えばスキャナから取り込まれた第1の文書画像及び第1の文書画像の元画像候補として文書データベースから抽出される電子化された第2の文書画像の解像度をそれぞれ低解像度に変換する。措置は、低解像度に変換された第1の文書画像及び第2の文書画像をそれぞれ複数の部分領域に分割する。装置は、第1の文書画像と第2の文書画像とについて、それぞれ対応する部分領域毎に相互相関計算を行って領域毎の類似度を算出する。装置は、領域毎の類似度から第1の文書画像と第2の文書画像との画像全体の類似度を算出する。【選択図】 図11

Description

本発明の実施形態は、電子化された文書画像の検索装置及びこの検索装置に組み込まれる文書画像の照合装置、並びにコンピュータを照合装置として機能させるための照合プログラムに関する。
近年、情報処理に係るハードウェアおよびソフトウェアの発達に伴い、文書画像を電子的に作成し、電子ファイルとして記憶媒体に保存する環境が整いつつある。それに伴い、記憶媒体に保存されている大量の電子ファイル化された文書画像の中から所望の文書画像を簡易に検索するシステムの構築が要望されている。
一般に、電子ファイルを検索するためには検索のためのキーが必要となる。文書画像を検索する場合、検索のキーとしてテキスト情報を用いるのが主流である。しかし、会議資料のような文書画像は、テキスト情報だけでなく写真や図表等のイメージも含まれることが多い。イメージを検索のキーとして文書画像を検索できたならば、検索の幅が広がる。
イメージを検索のキーとして文書画像を検索するためには、2つの文書画像同士を照合して類似度を算出する必要がある。文書画像の照合方法としては、従来から相互相関法が知られている。相互相関法は、2つの文書画像に対して相対位置をずらしながら対応する画素値の差分の二乗和を算出して類似度を求める方式である。このため、一方の文書画像が拡大または縮小されていたり、2つの文書画像が回転の位置関係にあったりした場合には、相互相関法は対応できない。また相互相関法は、画像の画素数に比例して計算量が増えるだけでなく、ずらし量の範囲に比例しても計算量が増える。このため、画像の解像度が高い場合やずらしの探索範囲が広い場合に、相互相関法は計算量が膨大になるため、高速に処理できない。
特開2012‐068138号公報
一実施形態が解決しようとする課題は、照合する2つの文書画像が拡大または縮小の関係にある場合やスキューの関係にある場合でも、高速に類似度を計算できるようにすることにある。
一実施形態において、文書画像の照合装置は、解像度変換手段と、分割手段と、領域類似度演算手段と、画像類似度演算手段とを含む。解像度変換手段は、画像取込手段により取り込まれた第1の文書画像及び第1の文書画像の元画像候補として文書データベースから抽出される電子化された第2の文書画像の解像度をそれぞれ低解像度に変換する。分割手段は、低解像度に変換された第1の文書画像及び第2の文書画像をそれぞれ複数の部分領域に分割する。領域類似度演算手段は、第1の文書画像と第2の文書画像とについて、それぞれ対応する部分領域毎に相互相関計算を行って領域毎の類似度を算出する。画像類似度演算手段は、領域毎の類似度から第1の文書画像と第2の文書画像との画像全体の類似度を算出する。
文書画像検索装置の概略構成を示すブロック図。 文書データベースに保存されるデータファイルのデータ構造を示す模式図。 文書画像検索装置のハードウェア構成を示すブロック図。 検索セクションの具体的な処理手順を示す流れ図。 問合せ画像の一例を示す図。 図5の問合せ画像に対する明度のヒストグラムの一例を示す図。 図5の問合せ画像に対する横方向の射影濃度分布及び縦方向の射影濃度分布と、各濃度分布統計量の算出結果を示す図。 濃度分布統計量にしたがって問合せ画像を分割する一例を示す図。 問合せ画像を分割閾値で9分割した際の分割領域毎の濃度比率特徴量の一例を示す図。 画像の位置ずれと相対位置行列との関係を説明するために用いる具体例を示す図。 照合処理の手順を示す流れ図。 マッチング処理の手順を示す流れ図。 図10に示す比較画像と問合せ画像に対する変換比較画像と変換問合せ画像の一例を示す図。 図13に示した部分画像に対するずれベクトルと中心点の位置ベクトルの一例を示す図。 相対位置行列の更新を説明するための模式図。 追記領域抽出処理の詳細を示すブロック図。
以下、文書画像検索装置及びこの検索装置に用いられる文書画像の照合装置の実施形態について、図面を用いて説明する。
[文書画像検索装置の構成]
図1は、文書画像検索装置1の概略構成を示すブロック図である。文書画像検索装置1は、文書データベース11と検索処理部12とを備える。文書データベース11は、文書画像の元となる電子化された文書画像のデータを格納してなるデータファイル2(図2を参照)を多数保存する。
データファイル2のデータ構造を図2に示す。図2に示すように、データファイル2は、文書ファイル21に、頁別のサムネール画像22と、同じく頁別の特徴量データ23とを付加させた構造となっている。文書ファイル21は、電子化された文書画像のデータを格納する電子データファイルである。データのファイル形式は任意である。例えばワード、PDF、JPEG,パワーポイント等、文書画像のデータに適合した形式のファイルであればよい。
サムネール画像22は、文書ファイル21に格納されるデータにより再現される文書画像を、例えば50dpi(dot per inch)程度の粗い画素密度で表現したビットマップデータである。文書画像のデータが複数頁に跨る場合には、頁毎にサムネール画像22が生成され、文書ファイル21に付加される。
特徴量データ23は、文書ファイル21に格納されるデータにより再現される文書画像の特徴量を示すデータである。例えば、濃度比率特徴量、濃度分布統計量、規格化濃度画像等が特徴量データ23として活用される。これらの特徴量データ23の詳細については後述する。文書画像のデータが複数頁に跨る場合には、頁毎に特徴量データ23が生成され、文書ファイル21に付加される。
検索処理部12は、問合せ画像の入力セクション121、候補画像の検索セクション122、候補画像の出力セクション123、候補画像選択入力の受付セクション124及び確定画像の送信セクション125を含む。検索処理部12は、LAN(Local Area Network)、インターネット等のネットワークを介して、ユーザ端末3とデータ通信を行うことができる。ユーザ端末3は、例えば画像読取手段であるスキャナを接続した情報処理端末である。ユーザ端末3は、例えば撮影手段であるカメラを備えた携帯型の通信端末であってもよい。
入力セクション121は、ユーザ端末3から問合せ画像を入力する。問合せ画像は、ユーザ端末3において、紙等の印刷媒体に印刷された文書画像を撮影またはスキャンして得られるデータである。問合せ画像は、ユーザ端末3からネットワークを経由して文書画像検索装置1に送られてくる。USBメモリ等の可搬型記憶媒体に格納された問合せ画像のデータを、記憶媒体インターフェースを介して入力セクション121が取り込んでもよい。入力セクション121は、入力された問合せ画像のデータを、所定のメモリ領域に書き込む。
検索セクション122は、問合せ画像の元となる電子化された文書画像のデータを格納してなるデータファイル2を、文書データベース11から検索する。検索の手順については後述する。検索セクション122は、問合せ画像に類似する文書画像のデータを格納してなるデータファイル2を2以上検索する場合もある。
出力セクション123は、検索セクション122において複数のデータファイル2が検索された場合、各データファイル2から頁別サムネール画像22を抽出する。出力セクション123は、ネットワークを経由してユーザ端末3に頁別サムネール画像22のデータを送信する。
ユーザ端末3は、少なくとも入力デバイスと表示デバイスとを備える。ユーザ端末3は、頁別サムネール画像22のデータを受信すると、そのサムネール画像(候補画像)の一覧を表示デバイスに表示する。ユーザは、複数のサムネール画像の中から問合せ画像の元となる文書画像に対応したサムネール画像を選択する。ユーザは、入力デバイスを用いてどのサムネール画像を選択したのかを入力する。
受付セクション124は、ユーザ端末3においてサムネール画像が選択されるのを待機する。サムネール画像が選択された場合、受付セクション124は、そのサムネール画像が格納されるデータファイル2を、問合せ画像の元となる文書画像のデータを格納してなるデータファイル2として確定する。
送信セクション125は、問合せ画像の元となる文書画像のデータを格納してなるデータファイル2から文書ファイル21を抽出する。検索セクション122において唯一のデータファイル2が特定された場合、送信セクション125は、そのデータファイル2から文書ファイル21を抽出する。検索セクション122において複数のデータファイル2が検索された場合、送信セクション125は、受付セクション124において確定されたデータファイル2から文書ファイル21を抽出する。送信セクション125は、ネットワークを経由して文書ファイル21をユーザ端末3に送信する。
ユーザ端末3は、文書画像検索装置1から文書ファイル21を受信すると、その文書ファイル21に格納されているデータから再現される文書画像を表示デバイスに表示する。ユーザ端末3は、表示デバイスに表示した文書画像をプリントアウトする機能を有していてもよい。またユーザ端末3は、表示デバイスに表示した文書画像をネットワークを通じて他の端末に送信出力してもよい。
なお、文書画像検索装置1によっては検索機能を使用するためにユーザ認証や課金のアカウントなどの情報の入力が必要な場合も考えられる。しかし、この点については本実施形態と関係しないので、ここでの説明は省略する。
図3は、文書画像検索装置1のハードウェア構成を示すブロック図である。文書画像検索装置1は、CPU(Central Processing Unit)41、ROM(Read Only Memory)42、RAM(Random Access Memory)43、補助記憶デバイス44、コンソール45、スキャナ46及び通信インターフェース47を備え、これらをシステムバス48で接続する。
CPU41は、コンピュータの中枢部分に相当する。CPU41は、オペレーティングシステムやアプリケーションプログラムに従って、文書画像検索装置1としての各種の機能を実現するべく各部を制御する。
ROM42は、上記コンピュータの主記憶部分に相当する。ROM42は、上記のオペレーティングシステムやアプリケーションプログラムを記憶する。ROM42は、CPU41が各部を制御するための処理を実行する上で必要なデータを記憶する場合もある。
RAM43は、上記コンピュータの主記憶部分に相当する。RAM43は、CPU41が処理を実行する上で必要なデータを記憶する。またRAM43は、CPU41によって情報が適宜書き換えられるワークエリアとしても利用される。
補助記憶デバイス44は、上記コンピュータの補助記憶部分に相当する。補助記憶デバイス44は、例えばEEPROM(Electric Erasable Programmable Read-Only Memory)、HDD(Hard Disc Drive)、あるいはSSD(Solid State Drive)などである。補助記憶デバイス44は、CPU41が各種の処理を行う上で使用するデータや、CPU41での処理によって生成されたデータを保存する。補助記憶デバイス44は、上記のアプリケーションプログラムを記憶する場合もある。
補助記憶デバイス44は、文書画像検索装置1に内蔵されていてもよいし、外付けされていてもよい。補助記憶デバイス44は、文書データベース11として機能する。
コンソール45は、コンピュータに指示を与える入力デバイスと、情報を表示する表示デバイスとを有する。コンソール45は、図示しない信号入出力回路を介してシステムバス48に接続される。
スキャナ46は、紙などの印刷媒体に印刷された文書画像をスキャンして電子的に読み取る。スキャナ46は、図示しない信号入出力回路を介してシステムバス48に接続される。
通信インターフェース47は、所定のネットワークを介して接続されたユーザ端末3との間で行われるデータ通信をコントロールする。
[文書画像検索装置の機能説明]
文書画像検索装置1は、文書データベース11にデータファイル2を登録する機能を有する。データファイル2の登録方法は、特に限定されない。例えば、コンソール45の操作により電子的に作成された文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。スキャナ46で光学的に読み取られた文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。外部のユーザ端末で作成された文書画像から文書画像検索装置1がデータファイル2を生成し、文書データベース11に登録してもよい。この場合、文書画像は、外部のユーザ端末からネットワークを介して文書画像検索装置1にダウンロードされてもよいし、メモリカードなどの記憶媒体から文書画像検索装置1に読み込まれてもよい。
文書画像検索装置1は、文書画像の頁毎に、サムネール画像22と特徴量データ23とを生成する。そして文書画像検索装置1は、文書画像を格納した文書ファイル21にサムネール画像22と特徴量データ23とを付加してデータファイル2を生成し、文書データベース11に登録する。
なお、本実施形態では、文書データベース11が補助記憶デバイス44上で構成されるものとして説明を続けるが、これに限るものではない。例えば通信インターフェース47を介してアクセスできるネットワーク上の記憶装置に文書データベース11を構成してもよい。また、サムネール画像22と特徴量データ23とは補助記憶デバイス44が記憶し、文書ファイル21はネットワーク上の記憶装置が記憶するというように、データファイル2を分けて記憶してもよい。
文書画像検索装置1は、ユーザ端末3から、紙等の印刷媒体に印刷された文書画像を撮影またはスキャンして得られる問合せ画像を受信すると、文書データベース2を検索して、その問合せ画像の元となる文書画像のデータが格納されたデータファイル2を特定し、そのデータファイル2のデータをユーザ端末3に送信する機能を有する。データファイル2のデータは、文書ファイル21のデータだけでもよい。データファイル2そのものをユーザ端末3に送信してもよい。この機能は、入力セクション121、検索セクション122及び送信セクション125によって実現される。
文書データベース2を検索した結果、問合せ画像の元となる文書画像に類似した画像のデータファイル2を複数検出した場合、文書画像検索装置1は、この類似画像を候補画像としてユーザに選択を促す。そしてユーザによって選択された候補画像のデータファイル2を、問合せ画像の元となる文書画像のデータが格納されたデータファイル2として特定し、そのデータファイル2のデータをユーザ端末3に送信する機能を有する。データファイル2のデータは、文書ファイル21のデータだけでもよい。データファイル2そのものをユーザ端末3に送信してもよい。この機能は、出力セクション123、受付セクション124及び送信セクション125によって実現される。
[検索セクション122の詳細説明]
図4は、検索セクション122の具体的な処理手順を示す流れ図である。この処理は、CPU41が、ROM42または補助記憶デバイス44に格納されるアプリケーションプログラムの1つである照合プログラムにしたがって実行する。なお、図4に示すとともに以下に説明する処理の内容は一例であって、同様な結果を得ることが可能な様々な処理を適宜に利用できる。
・Act1.歪補正処理
照合プログラムは、入力セクション121を介して問合せ画像50(図5を参照)が入力されると起動する。問合せ画像50の一例を図5に示す。問合せ画像50は、文書画像の所望の頁をカメラで撮影した画像若しくはスキャナでスキャンした画像である。以下では、この問合せ画像50を用いた場合について説明する。
照合プログラムが起動すると、CPU21は、Act1として、問合せ画像50に対して歪補正処理を行う。この処理は、問合せ画像50の縦および横の方向を元の文書と同じ方向に合わせるための処理である。印刷物をスキャナで読取る場合、印刷物を原稿台へ斜めに置いたり、印刷物を搬送する際の機械的なずれにより、斜めに傾いて読み取られたりする可能性がある。また、デジタルカメラなどで印刷物を撮影する場合、カメラの光軸と印刷物の向きやその距離に応じてさらに高次の歪みが発生する。この歪は一般に射影変換で表され、印刷物上の長方形が一般的な四角形に変換される。このように歪んだ問合せ画像を元の画像と同じ向きになるように補正する。文書画像は縦、横方向の直線成分を多くもっているので、これらの直線成分を検出して、これが縦横の直線に戻るように逆射影変換を行うことによって補正する。
・Act2.濃度信号への変換
歪補正処理が終了すると、CPU41は、Act2として、歪補正された問合せ画像50を濃度信号に変換する。濃度信号は、下地部分すなわち何も印刷されていない紙の部分で“0”となり、インクが濃い部分ほど大きな値をとる信号である。
先ずCPU41は、カラー画像のRGB信号をモノクロ画像の信号に変換する。本実施形態では、明度Yを用いてRGB信号をモノクロ画像の信号に変換する。RGB値から明度Yを算出する演算式は、(1)式となる。
CPU41は、問合せ画像50の全画素(x,y)について(1)式を演算して、画素毎に明度Y(x,y)を算出する。画素毎に明度Y(x,y)を算出したならば、CPU41は、明度Y(x,y)のヒストグラムを作成する。
ヒストグラム60の一例を図6に示す。ヒストグラム60は、問合せ画像50の画素毎の明度Y(x,y)の分布を示す。図6に示すように、ヒストグラム60には、頻度が高い部分(ピーク値)が少なくとも1か所存在する。CPU41は、この頻度が高いピーク値のなかで、明度Y(x,y)が最も高いピーク値を下地領域の色情報、すなわち明度値Y0とする。またCPU41は、このヒストグラム60において、明度Y(x,y)が最も小さい値を最小明度値Yminとする。
CPU41は、問合せ画像の画素毎に、明度値Y0と最小明度値Yminとを用いて、(2)式により濃度信号D(x,y)を計算する。なお、(2)式において、Y(x,y)は、画素(x,y)の色情報(明度値)である。すなわち(2)式は、下地領域の色情報[明度値Y0]と当該画素(x,y)の色情報[明度値Y(x,y)]との間の距離[Y0−Y(x,y)]を求め、この距離を当該画素(x,y)の濃度信号D(x,y)として算出する演算式である。
この計算により、明度Y(x,y)が下地部分と同じまたは高い画素(x,y)は0となり、明度Y(x,y)が画像内で最小の画素(x,y)は1となるように、濃度信号D(x,y)が規格化される。
ところで、印刷物の文書画像をカメラで撮影する場合には、照明やカメラの光学系に起因する照度ムラを生じる可能性がある。照度ムラの程度によっては照度ムラの補正を行う必要がある。この補正も、Act2の処理で行う。
照度ムラの補正方法としては、以下の方法がある。例えば、文書画像を撮影する前に一様な色の物を文書画像と同じ位置において撮影し、得られた画像データを用いて補正する方法がある。あるいは、撮影画像をメッシュ状の領域に分割し、領域毎に下地部分の有無を判定する。そして、下地部分がある領域については下地部分の明度値Y0を用い、下地部分がない領域については周辺の領域の下地部分を用いて補正する方法がある。
・Act3.濃度分布統計量の計算
問合せ画像50の信号を濃度信号に変換し終えると、CPU41は、Act3として問合せ画像50の濃度分布統計量を計算する。濃度分布統計量は、問合せ画像50の特徴量を示すデータであり、具体的には、問合せ画像50の横方向(x方向)における濃度分布の重心位置μx及び標準偏差σxと、縦方向(y方向)における濃度分布の重心位置μy及び標準偏差σyである。
先ずCPU41は、問合せ画像50の濃度信号について、それぞれ横方向に並ぶ全画素の濃度値を加算した射影濃度と縦方向に並ぶ全画素の濃度値を加算した射影濃度とを求める。本実施形態では、横方向に並ぶ全画素の射影濃度をf(y)とし、縦方向に並ぶ全画素の射影濃度をg(x)とする。CPU41は、(3)式により射影濃度f(y)と射影濃度g(x)とを算出する。
次にCPU41は、横方向における射影濃度f(y)の分布と、縦方向における射影濃度g(x)の分布とから、(4)式により横方向の射影濃度f(y)の分布に対する重心位置μx及び標準偏差σxと、縦方向の射影濃度f(y)の分布に対する重心位置μy及び標準偏差σyとを算出する。
(4)式により算出される横方向の重心位置μx及び標準偏差σxと、縦方向の重心位置μy及び標準偏差σyとが、濃度信号の横方向及び縦方向における射影濃度の分布を表す統計量である。問合せ画像50に対する横方向及び縦方向における射影濃度の分布と、各濃度分布統計量(μx,σx,μy,σy)の算出結果の一例とを図7に示す。
・Act4.画像の分割
横方向及び縦方向の濃度分布統計量(μx,σx,μy,σy)を算出し終えると、CPU41は、Act4として問合せ画像50を複数の領域に分割する。本実施形態では、図8に示すように、縦、横それぞれの方向に2本ずつの分割線(図中一点鎖線)で、問合せ画像50をマトリクス状に九つの領域A1,A2,A3,…,A9に分割する。分割線の位置Thx1、Thx2、Thy1,Thy2は、重心位置μx,μyを中心に標準偏差σx,σyの0.8倍をプラスマイナスした値である。以後、分割線の位置を分割閾値Thx1、Thx2、Thy1,Thy2と称する。分割閾値Thx1、Thx2、Thy1,Thy2は、(5)式で算出される
ここで、濃度分布統計量(μx,σx,μy,σy)を用いて分割閾値Thx1、Thx2、Thy1,Thy2を決定する理由について説明する。文書画像を分割する場合、単純には、文書画像全体の外形の位置を基準に分割閾値を決める方法が考えられる。しかし、このような方法で分割閾値を決めるためには、文書画像の縁の位置が分かっていることが前提となる。例えば、定型の用紙に印刷された文書画像をフラットベッドスキャナでスキャニングする場合には、文書画像の縁の位置が一義的に定まるので問題はない。
しかし、例えば紙送り式のスキャナで文書画像を読み取る際に読取スキューが発生した場合、スキュー補正しても文書画像の縁の位置は必ずしも一致しない。また、文書画像をデジタルカメラ等で撮影する場合には、カメラから被写体である文書画像までの距離や相対位置のずれ等の撮影条件によって、撮影画像に含まれる文書画像の倍率やポジションが変化する。このため、文書画像の縁の位置は不明である。したがって、文書画像全体の外形の位置を基準に分割閾値を決める方法は適用できない。
本実施形態は、問合せ画像50の下地部分における濃度信号を0に正規化する。このため、どのような撮影条件で文書画像を撮影しても、射影濃度分布の重心位置μx,μyは相対的に等しくなる。また、撮影倍率が変わっても、射影濃度分布の標準偏差σx,σyは相対的に同じである。したがって、濃度分布統計量(μx,σx,μy,σy)を用いることで、撮影条件の変動等に関わらず分割閾値Thx1、Thx2、Thy1,Thy2を文書画像に対して相対的に決まった位置に設定できる。
・Act5.濃度比率特徴量の計算
問合せ画像50を複数(本実施形態では九つ)の領域A1,A2,A3,…,A9に分割したならば、CPU41は、Act5として濃度比率特徴量Qを計算する。濃度比率特徴量Qは、問合せ画像50の特徴量を示すデータである。
先ずCPU41は、分割領域A1,A2,A3,…,A9毎に、濃度信号の総和S1,S2,S3,….S9を計算する。総和S1は、分割領域A1に存在する各画素の濃度信号の総和であり、総和S2は、分割領域A2に存在する各画素の濃度信号の総和である。他の総和S3,….S9についても同様である。
分割領域A1,A2,A3,…,A9毎に、濃度信号の総和S1,S2,S3,….S9を算出したならば、CPU41は、(6)式の上段の演算式のように、総和S1,S2,S3,….S9を合算して、総和合算値Sallを計算する。そしてCPU41は、(6)式の下段の演算式のように、分割領域A1,A2,A3,…,A9毎に、その領域の濃度信号の総和S1,S2,S3,….S9を総和合算値Sallで除算して、濃度比率特徴量B1,B2,B3,….B9を算出する。
濃度比率特徴量B1,B2,B3,….B9は、各分割領域A1,A2,A3,…,A9における濃度信号の総和S1,S2,S3,….S9の比率である。本実施形態では、濃度比率特徴量B1,B2,B3,….B9を総称する場合に濃度比率特徴量Bと表す。つまり、濃度比率特徴量Bは、{Bi:1≦i≦9}を意味する。濃度比率特徴量Bは、濃度が高い領域ほど値が大きくなる。
問合せ画像50を分割閾値Thx1、Thx2、Thy1,Thy2で9分割した際の分割領域A1,A2,A3,…,A9毎の濃度比率特徴量B1,B2,B3,….B9を図9に示す。すなわち、分割領域A1の濃度比率特徴量B1は0.09であり、分割領域A2の濃度比率特徴量B2は0.11である。他の分割領域A3,…,A9の濃度比率特徴量B3,….B9も、図示のとおりである。
濃度比率特徴量Bの分布は、文書画像の全体的な濃度の分布を表す。すなわち濃度比率特徴量Bは、文書画像に応じた値となる。このため、類似した文書画像同士は、濃度比率特徴量Bが近似する。ただし、濃度の分布だけを見ているので、濃度比率特徴量Bが近いからといって文書画像同士が必ずしも類似しているとは限らない。それでも、この濃度比率特徴量Bを用いることで、2つの文書画像が類似していないということは判断できる。つまり、問合せ画像50に対して類似していない文書画像のデータファイル2を検索対象から排除することができる。
上述したように濃度比率特徴量Bは、文書画像の射影計算、重心・標準偏差等の統計計算、及び領域内濃度信号の総和の計算といったきわめて簡易な計算で求めることができる。したがって、濃度比率特徴量Bを用いた文書画像同士の類似性判断処理は、高速に処理できる。また、濃度比率特徴量Bは、問合せ画像50のサイズや傾きなどによらず一定である。このため、濃度比率特徴量Bを用いた文書画像同士の類似性判断処理は、信頼性が高い。
・Act6.粗候補画像の選定
問合せ画像50の濃度比率特徴量Bを算出したならば、CPU41は、Act6としてこの濃度比率特徴量Bを用いて問合せ画像50に類似した候補画像の選定を行う。
先ずCPU41は、問合せ画像50の濃度比率特徴量B(Bi:1≦i≦9)と、文書データベース11に登録されているすべてのデータファイル2の濃度比率特徴量BD(BDi:1≦i≦9)との距離Lを(7)式により計算する。すなわちCPU41は、分割領域A1,A2,A3,…,A9毎の濃度比率特徴量B1,B2,B3,….B9と濃度比率特徴量BD1,BD2,BD3,….BD9との差の二乗和の平方根を距離Lとして算出する。
濃度比率特徴量Bと濃度比率特徴量BDとの距離Lを算出したならば、CPU41は、この距離Lを所定の閾値Lthと比較する。そして、距離Lが閾値Lth以下であればCPU41は、その濃度比率特徴量BDを有するデータファイル2に格納される文書画像のデータは、問合せ画像50に類似する候補画像のデータとして抽出する。
同一文書画像のデータでも、印刷の汚れや書込み、撮影時のノイズ、歪補正の補正誤差、歪補正の補正誤差に起因する重心位置計算誤差等の要因により、濃度比率特徴量Bは変動する。問合せ画像50の濃度比率特徴量Bが変動したことによって、候補画像として抽出されるべきデータファイル2の文書画像が候補から外れてしまうことがある。このような不具合を解消するために、距離Lに対してしきい値Lthを設定する必要がある。
本願発明者は、濃度比率特徴量Bの変動量を実験的に測定したところ、最大で0.04程度であった。そこで本実施形態では、最大変動量の2倍のマージンを取り、しきい値Lthを0.08とする。このように、濃度比率特徴量Bの最大変動量に対して2倍の値をしきい値Lthとして設定することにより、濃度比率特徴量Bの変動が候補画像の選定に影響を及ぼさなくなる。
また本願発明者は、多数の文書画像についてそれぞれ濃度比率特徴量Bを算出し、さらに異なる画像間の濃度比率特徴量Bの距離Lを算出して、距離Lの頻度を求めた。その結果、約98%の異なる画像の組み合わせにおいて、濃度比率特徴量Bの距離Lが0.1以上となることが判明した。したがって、しきい値Lthを0.1よりも小さい0.08に設定することによって、約98%の画像の組み合わせを除外できるので、文書データベース11に登録されている文書画像の中の約2%に候補画像を絞り込むことができる。
・Act7.照合処理
Act6の処理では、問合せ画像50と文書データベースに登録されている各文書画像との濃度比率特徴量B間の距離Lのみによって候補画像を選定する。このため、全く類似していない文書画像も候補画像として選定される可能性がある。そこでCPU41は、Act7として問合せ画像50と各候補画像とについて照合し、候補画像が類似画像であるか否かを判定する。具体的にはCPU41は、問合せ画像50と各候補画像間の類似度を計算し、類似度の高い画像を最終候補画像として抽出する。以下、この照合処理について、詳細に説明する。なお、説明の便宜上、問合せ画像50と照合する候補画像を比較画像51(図10を参照)と称する。
はじめに、類似度の算出方法について説明する。本実施形態は、問合せ画像50と比較画像51との画素毎の濃度信号の差分の総和によって類似度を算出する。詳しくは、比較画像51の濃度信号をP(x,y)、問合せ画像50の濃度信号をQ(x,y)とした場合、CPU41は、濃度信号P(x,y)と濃度信号Q(x,y)との差分の二乗和を求める。
問合せ画像50は、カメラで撮像され、若しくはスキャナでスキャンされた画像である。このため、デバイス(カメラ,スキャナ)の特性や、画像信号の処理過程によっては、問合せ画像50の濃度が文書データベース11上の元画像とずれる可能性がある。濃度にずれを生じた場合、2つの画像の形状が全く一致していても差分の二乗和は0にならない。このためCPU41は、問合せ画像50及び比較画像51のそれぞれについて、濃度の総和で規格化してから差分をとる。ここで類似度は、値が大きいほど差異が小さくなると定義した方が扱いやすい。そこで、類似度を(8)式のように定義する。すなわち本実施形態では、濃度信号P(x,y)と濃度信号Q(x,y)との差分の二乗和を1から減算した値を類似度Aと定義する。
また、問合せ画像50を撮像若しくはスキャンするときの条件によっては、問合せ画像50と元画像との間に幾何学的な位置ずれを生じる可能性がある。幾何学的な位置ずれとは、平行移動、回転、相似拡大または縮小等である。幾何学的な位置ずれが生じた場合には、この位置ずれを考慮せずに濃度信号P(x,y)と濃度信号Q(x,y)との差分の二乗和を求めても、正しい結果(類似度)が得られない。
位置関係が未知な2つの画像の類似度を調べる方法として相互相関法が知られている。相互相関法は、(9)式のように2つの画像の相対位置を変えながら類似度A(xd,yd)を算出する方法である。(9)式において、パラメータ(xd,yd)は、相対位置を表す。
(9)式により各相対位置の類似度A(xd,yd)が算出されると、相互相関法では、(10)式により、各相対位置の類似度A(xd,yd)が最大となる最大類似度Amaxを求める。
(10)式により求まる最大類似度Amaxが、2つの画像の類似度となる。類似度Amaxは、[0≦Amax≦1]の範囲をとる。すなわち、2つの画像が全く同じ若しくは比例関係にある場合に、類似度Amaxは最大値1となる。そして、2つの画像の類似性が低くなればなるほど、類似度Amaxは小さい値をとる。この関係は、2つの画像に平行移動の位置ずれがあっても変わらない。したがって、相互相関法を用いることによって、2つの画像に平行移動の位置ずれがあっても類似度を求めることができる。しかし、相互相関法には、下記の問題点a,b,cがある。
a.相互相関演算は画像の全画素について計算を行うために、計算量が画素数に比例して膨大になる。
b.画像の相対位置ずれ量が大きいと、パラメータ(xd,yd)の探索範囲を広くとる必要があり、計算量がさらに膨大となる。
c.平行移動して比較するだけの相互相関法では、問合せ画像が文書データベース11の元画像に対して倍率が異なっていたり、回転していたりすると、類似度を正しく求められない。この点は、相互相関演算で平行移動ずれ以外の条件も変えて計算すれば解決できる。しかし、条件が増える分、計算量が指数関数的に増大するので、実用的でない。
本実施形態では、上記の問題点を解決するために、以下のように処理を行うこととした。先ず、文書画像検索装置1は、2つの画像(問合せ画像50と比較画像51)を低解像度に変換する。次に、文書画像検索装置1は、2つの画像50,51をそれぞれ複数の部分領域に分割する。そして文書画像検索装置1は、対応する部分領域同士についてマッチング処理を行って、部分領域毎に類似度を求める。文書画像検索装置1は、部分領域毎の類似度から画像全体の類似度を求める。
また文書画像検索装置1は、各部分領域の位置ずれ量やその分布により、画像全体の位置関係を計算する。そして文書画像検索装置1は、前段で求めた位置関係のパラメータにより、回転や倍率誤差を含めた位置の補正を行う。その後、文書画像検索装置1は、さらに解像度を上げて、同様に部分領域でのマッチング処理を繰り返す。
このようなマッチング処理の繰返しにより、回転や倍率誤差も補正できる。したがって、上記問題点cは解決する。また、低解像度では1画素のサイズが大きいため、画素数換算でみると探索範囲は小さい。しかも順次、位置ずれ量を補正しながらマッチング処理を繰り返すため、2段目以降でも探索範囲を小さくできる。したがって、上記問題点bも解決する。さらに、マッチング処理の繰り返しが進むにつれて解像度を上げていくので、計算量が増加する。しかし、本来、類似度の低い画像は1段目のマッチング処理で類似度が低い結果が出ると考えられる。このため、大部分の候補画像は、計算量の小さい1段目のマッチング処理で排除されて、高解像度でのマッチング処理まで進む候補画像は少ない。よって、問題点aも解決される。
[相対位置行列の説明]
前述したとおり、文書画像検索装置1では、2つの画像(問合せ画像50と比較画像51)について部分領域の相互相関をとり、各部分領域の移動量から2つの画像50,51間の位置関係を求める。本実施形態では、2つの画像50,51間の位置関係を表すのに、相対位置行列を用いる。そこで次に、相対位置行列について簡単に説明する。
相対位置行列を説明するにあたり、2つの画像、すなわち第1の画像と、この第1の画像に平行移動、相似拡大または縮小、回転などの変換をかけた第2画像とを考える。第1の画像の画素(x,y)に対応する第2の画像の画素を(x’,y’)とすると、画素(x,y)と画素(x’,y’)との位置関係は、(11)式で表される。
(11)式において、θは回転の角度、rは拡大・縮小の倍率、sx,syは平行移動の成分を表す。(11)式は、同次座標系を用いることにより、(12)式のように行列Tの乗算式にまとめられる。
同次座標系とは、座標を表す2次元ベクトルに、x成分及びy成分の他に定数1を要素として追加した3次元のベクトルである。このベクトルにより、平行移動も含めた変換を1つの行列乗算式で表現できる。また、数式が簡潔になる。このため、相対位置行列では、この同次座標系の表現を用いる。この表現を、第1の画像に対する第2の画像の相対位置行列と称する。第2の画像に対する第1の画像の相対位置行列は、行列Tの逆行列T-1となる。本実施形態では、比較画像51に対する問合せ画像50の相対位置行列を、以下、問合せ相対位置行列と称する。
画像の位置ずれと相対位置行列との関係を図10の具体例を用いて説明する。図10において、画像51は、xy座標軸上に表現された比較画像であり、画像50は、問合せ画像である。図10では、説明の便宜上、座標系の原点Oを比較画像51の中央部にとっている。原点Oは、比較画像51の中央部に限定されない。原点Oは、比較画像51の例えば左下隅でもよい。
比較画像51において、原点OからX軸の正方向に+Dだけずれた点をA、原点OからY軸の正方向に+Dだけずれた点をBとする。この場合、原点Oの(X,Y)座標値は(0,0)となり、点Aの(X,Y)座標値は(D,0)となり、点Bの(X,Y)座標値は(0,D)となる。
比較画像51上の3点O,A,Bに対応した問合せ画像50の3点をO’、A’、B’とする。この場合、図10に示すように、点O’の座標を(sx,sy)とすると、この座標(sx,sy)は、原点Oの平行移動量を示す。また、点O’から点A’までの線分O’A’の長さL1’と、原点Oから点Aまでの線分OAの長さL1との比r=L1’/L1は、相似拡大または縮小の倍率を示す。この比rは、点O’から点B’までの線分O’B’の長さL2’と、原点Oから点Bまでの線分OBの長さL2との比(L2’/L2)とも等しい。また、線分O’A’とX軸とのなす角θは、回転成分を示す。これらの値により、比較画像51上の任意の画素(x,y)と、問合せ画像50上の対応する画素(x’、y’)との関係は、(12)式のように一意に決まる。
[照合処理の説明]
次に、照合処理(Act7)の手順について、図11を用いて具体的に説明する。図11は、CPU41が実行する照合処理の手順を示す流れ図である。照合処理に入ると、CPU41は先ず、候補画像の中から比較画像51を選択する(Act11)。次にCPU41は、問合せ相対位置行列の初期値T0を決める(Act12)。
照合処理では、問合せ相対位置行列を用いて、問合せ画像50を比較画像51に近い位置に変換してから、相互相関によるマッチング処理を行う。この場合において、相対位置行列の近似的な値を用いると、相互相関の探索範囲を小さくでき、ひいては処理時間を短縮できる。
相対位置行列の要素である相対位置は、回転、相似拡大または縮小、平行移動の3要素からなる。ここで、回転については、すでに歪補正処理(Act1)により0または十分小さい角度になっているので、回転角θの初期値は0とする。平行移動と相似拡大または縮小については、Act3の処理で求めた濃度分布統計量(μx,σx,μy,σy)を用いて近似値を求める。
比較画像51の濃度分布統計量の重心位置をμx,μy、標準偏差をσx,σyとし、問合せ画像50の濃度分布統計量の重心位置をμx’,μy'、標準偏差をσx’、σy’とする。標準偏差は、相似拡大または縮小の倍率に比例する。そこで、比較画像50に対する問合せ画像51の平行移動量を(sx0,sy0)、相似拡大または縮小の倍率をr0とすると、標準偏差をσx,σy及び標準偏差をσx’、σy’の関係は、(13)式で示される。
また、比較画像51の重心位置μx,μyと、問合せ画像50の重心位置μx‘,μy’とは、画像上のほぼ対応する点となる。したがって、重心位置μx,μyと重心位置μx‘,μy’との関係は、(14)式で示される。
(13)式と(14)式とから、(15)式が得られる。
ここで、相似拡大または縮小の倍率r0 は、2通りの式で表される。本実施形態では、2通りの式で表される倍率r0の平均値を倍率r0の近似値として用いる。すなわち倍率r0は、(16)式で示される。
以上により、問合せ相対位置行列の初期値T0は、(17)式で示される。
なお、問合せ画像50の濃度分布統計量は、Act3の処理で求めた値を用いる。比較画像51の濃度分布統計量は、事前に計算されて文書データベース11に格納されているので、文書データベース11の値を用いる。
[マッチング処理の説明]
問合せ相対位置行列の初期値T0を決めたならば、CPU41は、第1のマッチング処理を行う(Act13)。図12は、第1のマッチング処理の手順を示す流れ図である。なお、前述したようにマッチング処理は、解像度を順次高くしながら3回繰り返す。第2及び第3のマッチング処理も、解像度のパラメータが異なるだけで、第1のマッチング処理と同様な手順で処理する。したがって、第2,第3のマッチング処理についてf、図12を用いて詳しい説明は省略する。
・Act31.変換比較画像を生成
マッチング処理に入ると、先ずCPU41は、比較画像51に対して既定の倍率Rで解像度変換を行い、低解像度の比較画像51を生成する(解像度変換手段)。この解像度変換後の比較画像51を変換比較画像51R1と称する。1回目のマッチング処理(第1のマッチング処理)では、倍率Rを“1/9”とする。
ここで、説明の便宜上、比較画像51をP(x,y)、変換比較画像51R1をP’(x’,y’)とする。なお、以下の説明では、比較画像の符号として「51」と「P(x,y)」とが混在するが、同じものを指す。同様に、変換比較画像の符号として「51R1」と「P’(x’,y’)」とが混在するが、同じものを指す。
解像度の変換には投影法(または画素平均法)を用いる。投影法とは、画像の縮小や解像度の低減を行う場合に変換後の画像の画素に相当する元画像のすべての画素の値を用いて変換後の画素値を用いる方式である。投影法の計算式は、(18)式で示される。
因みに、解像度変換の別方法として、線形補間法や最近傍法があるが、これらの方法は、縮小の場合には線が掠れるなどの画質劣化が生じる。このため本実施形態では、投影法を用いる。
比較画像P(x,y)に対する変換比較画像P’(x’,y’)の相対位置行列TPP’は、定義により(19)式で示される。
・Act32.変換問合せ画像を生成
次にCPU41は、問合せ画像50に対して解像度変換を行い、低解像度の変換問合せ画像50R1を作成する(解像度変換手段)。変換問合せ画像50R1は変換比較画像51R1と同じ位置になるように問合せ画像50を変換したものである。
ここで、説明の便宜上、問合せ画像50をQ(x,y)、変換問合せ画像50R1をQ’(x’,y’)とする。なお、以下の説明では、問合せ画像の符号として「50」と「Q(x,y)」とが混在するが、同じものを指す。同様に、変換問合せ画像の符号として「50R1」と「Q’(x’,y’)」とが混在するが、同じものを指す。
問合せ画像Q(x,y)から変換問合せ画像Q’(x’,y’)への相対位置行列をTQQ’ とすると、この相対位置行列TQQ’は、問合せ画像Q(x,y)から比較画像P(x,y)への相対位置行列と比較画像P(x,y)から変換比較画像P’(x’,y’)への相対位置行列との積となる。すなわち、(20)式で示される。
(20)式の行列演算式を用いて座標変換を行えば、変換問合せ画像Q’(x’,y’)が得られる。すなわち、変換問合せ画像Q’(x’,y’)の値を求めるには、変換問合せ画像Q’(x’,y’)の座標の同次ベクトル(x,y,1)に相対位置行列TQQ’の逆行列を掛ける。この演算により得られるベクトル(x’,y’,1)は、対応する問合せ画像Q(x,y)の座標位置となるので、この位置の画素値を求めればよい。
変換問合せ画像Q’(x’,y’)の座標(x’,y’)は、一般に整数にはならずに小数の端数が生ずる。しかし、四捨五入により最近傍の1画素の値を座標(x’,y’)として用いてもよいし、周囲の4画素の画素値から線形補間などで座標(x’,y’)を求めてもよい。
図10に示す比較画像51と問合せ画像50に対する変換比較画像51R1と変換問合せ画像50R1の例を図13の(a)、(b)に示す。
・Act33.変換画像を部分領域に分割
CPU41は、図13に示すように、変換比較画像51R1および変換問合せ画像50R1を、それぞれ9つの部分領域に分割する。ここで、それぞれの部分領域をP1,P2,P3,…,P9、Q1,Q2,Q3,…,Q9とする。また、それぞれの画像の対応する領域(たとえばP1とQ1)の全体画像に対する位置とサイズはそれぞれ同じにする。さらに、中央の部分領域P4,Q4に対して他の部分領域が点対称になるように配置する。これは、後に述べるように相互位置行列の計算を簡易にするためである(分割手段)。
図13において、破線で囲まれた領域が変換比較画像51R1および変換問合せ画像50R1の部分領域P1,P2,P3,…,P9、Q1,Q2,Q3,…,Q9となる。変換比較画像51R1および変換問合せ画像50R1は解像度を落としているため、画素サイズが大きい。このため、相互相関をとる場合の探索範囲を小さくできる。また、画像がぼけるため、倍率や回転の量が小さければ部分領域内では平行移動の成分が大きくなる。このため、平行移動だけでも類似度が高くなる。
・Act34.部分領域毎の相互相関計算
CPU41は、変換比較画像51R1および変換問合せ画像50R1の各部分領域P1,P2,P3,…,P9、Q1,Q2,Q3,…,Q9について、それぞれ対応する領域毎に相互相関計算を行う。相互相関の計算式は、(21)式に示される。
相互相関計算は、2つの領域を相対的に平行移動させ、その相対位置を変えて類似度を計算する。類似度Aは0≦A≦1の範囲の値をとる。類似度Aは、画像同士が近いほど類似度が高くなり、完全に同じ場合には値1となる。この類似度が最大となる最大類似度Amaxの相対位置を求めることにより、2つの領域の位置ずれ量及びずれ方向を求めることができる。この位置ずれ量及びずれ方向をずれベクトルと称する。
(21)式において、パラメータxd,ydは、相対位置パラメータである。相対位置パラメータxd,ydは、例えば、(-3≦xd≦3, -3≦yd≦3)の範囲の値をとる。領域をiとしたとき、この領域iのずれベクトルは(xd i,yd i)で示される。また、そのときの最大類似度は、Amaxiで示される。
CPU41は、他の8つの領域の組についても同様に相関計算を行い、それぞれの部分領域でのずれベクトル(xd i,yd i)とそのときの最大類似度Amaxを求める(領域類似度演算手段)。
・Act35.画像全体の類似度を計算
CPU41は、9つの各部分領域P1,P2,P3,…,P9、Q1,Q2,Q3,…,Q9の各類似度Amax iから画像全体の類似度を計算する。本実施形態では、(22)式に示すように、各類似度Amax iの平均値Amax_ave を全体画像の類似度、すなわち全体類似度とする(全体類似度判定手段)。
なお、本実施形態では、各類似度Amax iの平均値Amax_ave を全体類似度としたが、全体類似度の算出方法は、これ限定されるものではない。分割領域によっては、原稿内容の濃度の総量が極端に異なる場合がある。このような場合には、濃さの小さい部分領域の重みを小さくした方が実感の類似度に近くなる。そこで例えば、比較画像の濃度平均値Psumで重みづけした類似度を全体類似度と計算してもよい。
・Act36.類似比較処理
CPU41は、Act35の処理で得られた全体類似度Amax_aveを、所定の閾値ThrA1と比較する。そして、全体類似度Amax_aveが閾値ThrA1以下の場合、CPU41は、画像全体としての類似度が低いためこの比較画像51は問合せ画像50とは類似しないと判定する(Act36にてNO:判定手段)。この場合、CPU41は、マッチング処理を終了する。
全体類似度Amax_aveが閾値ThrA1よりも大きい場合、CPU41は、比較画像51は問合せ画像50に類似すると判定する(Act36にてYES:判定手段)。この場合、CPU41は、Act37及びAct38の処理を実行して、マッチング処理を終了する。
・Act37.相対位置行列を計算
CPU41は、9つのずれベクトル(xd i,yd i)を用いて変換比較画像P’(x’,y’)に対する変換問合せ画像Q’(x’,y’)の相対位置行列の計算を行う。Act34の処理で得られた各部分領域iのずれベクトルをdiと称する。このベクトルdiは、近似的に各部分領域iの中心点のずれベクトルと考えられる。部分領域の中心点の位置ベクトルをpiとする。本実施形態では、画像の中心を座標原点O(0,0)においているので、中央の部分領域p5の中心は原点O(0,0)となる。
図13に示した各部分領域に対するずれベクトルdiと中心点の位置ベクトルpiの例を図14に示す。なお、実際のずれベクトルdiの長さは領域のサイズに比べて短い。しかし、わかりやすくするために、図14では、ずれベクトルdiを実際の長さより拡大して表記している。
変換比較画像P’(x’,y’)と変換問合せ画像Q’(x’,y’)との位置関係は、平行移動、相似拡大または縮小、回転の組合せよりなると考えられる。これらの平行移動量を(sx’,sy’)、相似拡大または縮小の倍率をr’、回転角をθ’とする。これら平行移動量(sx’,sy’)、相似拡大または縮小の倍率r’、及び、回転角θ’は、位置ベクトルpiとずれベクトルdiとから、以下のように計算できる。
すなわち、原点の平行移動量(sx’,sy’)は、(23)式に示すように、9つのずれベクトルdiの平均値dmとなる。
また、相似拡大または縮小の倍率をr’とすると、「di-dm=r’・pi」の方程式が成立するはずである。しかし、ずれベクトルdiには誤差が入るため、(24)式に示すように、両辺に位置ベクトルpiを掛けてiについての和をとる。
ここで、中央以外の部分領域は、中央の部分領域に対して点対称になるようにとっているため、「Σpi =0」となる。したがって、相似拡大または縮小の倍率r’は、次の(25)式で示される。
上記と同様に、回転角をθ’とすると、(26)式が成立する。(26)式において、「×」はベクトルの外積を表す。
(26)式の両辺についてiの総和をとると、(27)式となる。
(27)式により、sx’、sy’、r’、θ’の推定値が得られる。この推定値sx’、sy’、r’、θ’により、相対位置行列T’は(28)式で示される。
・Act38.相対位置行列を修正
本実施形態では、問合せ画像Q(x,y)から相対位置行列Tを用いて変換比較画像P’(x’,y’)と同じ位置になるように変換問合せ画像Q’(x’,y’)に変換する。したがって、最初の相対位置行列Tが正確ならば、変換比較画像P’(x’,y’)と変換問合せ画像Q’(x’,y’)との間の相対位置行列T’は、恒等行列となるはずである。換言すれば、相対位置行列T’が恒等行列でなかった場合には、最初の相対位置行列Tに誤差があったことになる。この誤差は、相対位置行列T’を用いて修正することができる。この考えに基づいて、CPU41は、相対位置行列Tの修正・更新を行う。
この処理は、図15の更新の模式図を用いて説明する。図15において、画像間の矢印は、矢印の上に表記されている行列が始点の画像に対する終点の画像の相対位置行列であること表している。Act32の処理で説明したように、変換比較画像P’(x’,y’)は、比較画像P(x,y)を倍率R1で縮小したものであるから、比較画像P(x,y)に対する変換比較画像P’(x’,y’)の相対位置行列はTRとなる。相対位置行列TRは、(29)式で示される。
変換問合せ画像Q’(x’,y’)は、Act33の処理で説明したように、問合せ画像Q(x,y)を相対位置行列TQQ’で変換したものである。このため、この相対位置行列TQQ’が問合せ画像Q’(x’,y’)に対する変換問合せ画像Q’(x’,y’)の相対位置行列である。
また、Act37の処理では、変換比較画像P’(x’,y’)に対する変換問合せ画像Q’(x’,y’)の相対位置行列T’を求めた。この処理を参考にすると、比較画像P(x,y)に対する問合せ画像Q(x,y)の相対位置行列T1は、(30)式で示される。
このように、CPU41は、マッチング処理を行うことにより、2つの画像50,51の類似度と相対位置行列の両方を求めることができる。ここで、第1のマッチング処理を低解像度で行っているのは、計算量の低減のためである。先ず、低解像度画像で類似度と相対位置行列とを計算することにより、画像の画素数が小さくでき、相互相関計算の計算量を低減することができる。また、低解像度画像であるため1画素の大きさが大きい。このため、相対位置パラメータxd,ydの範囲を小さくすることができる。この点からも、計算量を小さくできる効果を奏する。また、元画像の類似度が高い場合は、後述のように第2、第3のマッチング処理を行う。その場合、トータルの計算量はそれほど小さくはならないが、類似度の低い比較画像は、計算量の小さい第1のマッチング処理で照合処理が完了するため、トータルの計算量は小さいものとなる。
図11の説明に戻る。
第1のマッチング処理が終了すると、CPU41は、比較画像51が問合せ画像50に対して類似度の高い類似画像であるか否かを判定する(Act14)。類似画像でないと判定した場合(Act14にてNO)、CPU41は、Act22の処理に進む。
類似画像であると判定した場合には(Act14にてYES)、CPU41は、第2のマッチング処理を行う。
第1のマッチング処理では、低い解像度で類似度および相対位置パラメータの計算を行っているため、類似度の精度の高い判定ができない。また、相対位置パラメータの精度も十分ではない。このため、さらに高精度での類似度判定と相対位置パラメータの更新のために第2のマッチング処理を行う(Act15)。
第2のマッチング処理では、縮小倍率Rを1/3とする。また、相対位置パラメータxd,ydの範囲を、第1のマッチング処理より狭くして、(-2≦xd≦2, -2≦yd≦2)とする。この値にした理由は、前段の第1のマッチング処理と第2のマッチング処理との解像度の縮小率の比率が「3」であり、第1のマッチング処理での相対位置パラメータxd,ydが第2の解像度の画像上での3画素以内の精度となっていると考えられるからである。解像度の縮小率の比率が大きい場合には、その値に応じてこの範囲を広げることが好ましい。
第2のマッチング処理が終了すると、CPU41は、比較画像51が問合せ画像50に対して類似度の高い類似画像であるか否かを判定する(Act16)。類似画像でないと判定した場合(Act16にてNO)、CPU41は、Act22の処理に進む。
類似画像であると判定した場合には(Act16にてYES)、CPU41は、第3のマッチング処理を行う(Act17)。第3のマッチング処理では、第2のマッチング処理よりも解像度を上げる。例えば、比較画像の原解像度すなわち変換倍率Rを「1」として、マッチング処理を行う。そしてCPU41は、第1または第2のマッチング処理と同様に、類似度の計算し、相対位置行列を更新する。この相対位置行列が最終的な相対位置行列となる。
第3のマッチング処理が終了すると、CPU41は、比較画像51が問合せ画像50に対して類似度の高い類似画像であるか否かを判定する(Act18)。類似画像でないと判定した場合(Act18にてNO)、CPU41は、Act22の処理に進む。
類似画像であると判定した場合には(Act18にてYES)、CPU41は、最終的な類似度判定処理を行う(Act19)。この処理は、例えば第3のマッチング処理で更新した相対位置行列を用いて問合せ画像50を変換し、得られた変換問合せ画像51R1と比較画像51との類似度を計算する。すなわち、部分領域への分割は行わず、画像全体領域で類似度を計算する。
この処理で得られた最終的な類似度Aを所定の閾値と比較し、比較画像51が問合せ画像50と同じであるかどうかの最終判定を行う(Act20)。類似度が所定の閾値に満たない場合(Act20にてNO)、CPU41は、Act22の処理に進む。
類似度が所定の閾値以上である場合には(Act20にてYES)、CPU41は、比較画像51を最終候補画像として抽出する(Act21:検出手段)。その後、CPU22は、Act22の処理に進む。因みに、類似度の閾値は0.8〜0.9程度が妥当である。たたし、後述するように問合せ画像に手書きの追記がある画像も考慮する場合には、これより低い値にすることが望ましい。
Act22では、CPU41は、未選択の候補画像の有無を判定する。未選択の候補画像有りの場合には(Act22にてYES)、CPU41は、Act11の処理に戻る。そしてCPU41は、未選択の候補画像の中から比較画像を選択して,Act12〜Act22の処理を再度繰り返す。
Act22にて未選択の候補画像無しと判定した場合には(Act22にてNO)、CPU41として、候補画像を出力する(Act23)。例えばCPU41は、すべての最終候補画像を類似度の高い順に並べて、検索結果としてユーザ端末3に出力する。この出力により、ユーザ端末3では、ディスプレイに最終候補画像が類似度の高い順に表示される。
検察結果の出力方式は、上記実施形態に限定されるものではない。例えば、ユーザ端末3にて設定された最大候補画像数までを類似度の高い順に出力するといった方法をとってもよい。
以上で、Act7の照合処理は終了する。照合処理が終了すると、CPU41は、追記領域の抽出処理を実行する(Act8)。
・Act8.追記領域の抽出
CPU41は、最終候補画像について、追記画像部分の抽出を行う。すなわち、問合せ画像50が印刷物に手書きなどのメモを記入した画像であった場合に、メモ書きの部分を抽出する。抽出した追記画像は、最終候補画像とリンクさせて保存する。こうすることにより、仮に、問合せ画像とした原稿を破棄してしまっても、文書データベース11上にある元画像と抽出した追記画像部分とにより、元の原稿を容易に再現することができる。
なお、本処理の説明では、最終候補画像が1つに絞られていること、及び、何も印刷されていない用紙の白地の領域にメモが追記されていることを前提に説明する。
図16は、追記領域抽出処理の詳細を示すブロック図である。追記領域抽出処理は、第1の二値化処理61、第1の膨張処理62、第1の位置合わせ処理63、第2の二値化処理64、第2の膨張処理65、差分処理66、第2の位置合わせ処理67及びマスク処理68からなる。各処理61〜68は、CPU41、ROM42、RAM43のコンピュータ部と、このコンピュータに追記領域抽出処理を実現させるためのプログラムとによって実現される。
第1の二値化処理61は、(31)式に示すように、最終候補画像の各画素の濃度信号P(x,y)を画素毎に閾値ThDで2値化する。閾値ThDは下地の部分と印刷されている部分が分割できるように下地の濃度よりやや高目の値に設定する。2値化した結果として、濃度が閾値以上の画素値を1、閾値以下の画素値を0とする二値化画像の濃度信号Pb(x,y)を得る。
第1の膨張処理62は、第1の二値化処理61で得られた2値化画像の濃度信号Pb(x,y)に、膨張処理をかける。膨張処理は、二値化画像の画素値が1の画素およびそれに隣接する8画素(x+1,y),(x+1,y+1),(x,y+1),(x-1,y+1),(x-1,y),(x-1,y-1),(x,y-1),(x+1,y-1)の画素値を1とし、それ以外の画素値を0とする。その結果を膨張画像の濃度信号Pf(x,y)として表す。
第1の位置合わせ処理63は、問合せ画像の各画素の濃度信号Q(x,y)が最終候補画像と同じ位置になるように、相対位置パラメータを用いて濃度信号Q(x,y)を変換する。そして、変換後画像の濃度信号Q4(x,y)を得る。
第2の二値化処理64は、変換後画像の各画素の濃度信号Q4(x,y)を画素毎に閾値ThD2で2値化する。この処理も、第1の二値化処理61と同様に下地部分を抽出するものであり、2値化した結果として、濃度が閾値以上の画素値を1、閾値以下の画素値を0とする二値化画像の濃度信号Qb(x,y)を得る。
第2の膨張処理65は、第2の二値化処理64で得られた二値化画像の濃度信号Qb(x,y)に対して第1の膨張処理62と同様の膨張処理を施し、その結果を膨張画像の濃度信号Qf(x,y)として表す。
差分処理66は、第1の膨張処理62で得られた膨張画像の濃度信号Pf(x,y)と第2の膨張処理65で得られた膨張画像の濃度信号Qf(x,y)とから、(32)式により、差分領域画像の濃度信号D(x,y)を計算する。
差分領域画像の濃度信号D(x,y)は、膨張画像の濃度信号Pf(x,y)が0すなわち下地で、膨張画像の濃度信号Qf(x,y)が1すなわち非下地の画素のみ1、それ以外の画素は0になる。ここで、値が1の画素が追記領域である。
第2の位置合わせ処理67は、問合せ画像の原信号Qo(x,y)が最終候補画像と同じ位置になるように、相対位置パラメータを用いて原信号Qo(x,y)を変換する。そして、変換後画像の濃度信号Qof(x,y)を得る。
マスク処理68は、変換後画像の濃度信号Qof(x,y)に対して差分領域画像の濃度信号D(x,y)をマスク処理する。マスク処理は、(33)式に示すように、濃度信号D(x,y)が1の画素では濃度信号Qof(x,y)の値をそのままにし、濃度信号D(x,y)が0の画素では濃度信号Qof(x,y)の値を白下地と等価な画素値とする。
このような追記画像抽出処理によって、手書き領域では問合せ画像の画素値と同じ、それ以外の領域では白地と同じ色の画素値となり、手書き領域だけ抽出したような画像が得られる。
以上説明したように、本実施形態によれば、問合せ画像が元画像に対して幾何学的なずれを生じている場合でも、そのずれを補正して2つの画像を照合することができる。したがって、精度よく2つの画像の類似度を算出することができる。
しかも、相関的なずれの範囲を小さくし、かつ画像の解像度も落として類似度を算出するので、類似度算出に必要な計算量を小さくできる。その結果、2つの画像の類似性を高速に判定できる効果を奏する。
なお、本発明は、前記実施形態に限定されるものではない。
例えば前記実施形態は、マッチング処理の段数を3段として説明したが、段数は3段に限定されるものではなく、2段でも、また4段以上でもよい。段数を増やすと、マッチング処理の回数は増えるが、次段のマッチングとの間での解像度比率が小さくなるだけであるので、トータルとしての計算量は3段の場合と大きく変わることはない。
また、前記実施形態では、Act33の分割処理において変換比較画像51R1および変換問合せ画像50R1をそれぞれ9つの部分領域に分割したが、分割領域数は9に限定されるものではない。各画像の対応する領域の全体画像に対する位置とサイズが同じであり、かつ中央の部分領域に対して他の部分領域が点対称になるように配置されれば、分割数は問わない。
この他、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…文書画像検索装置、2…データファイル、11…文書データベース、12…検索処理部、50…文書画像、121…入力セクション、122…検索セクション、123…出力セクション、124…受付セクション、125…送信セクション。

Claims (6)

  1. 画像取込手段により取り込まれた第1の文書画像及び前記第1の文書画像の元画像候補として文書データベースから抽出される電子化された第2の文書画像の解像度をそれぞれ低解像度に変換する解像度変換手段と、
    前記解像度変換手段により低解像度に変換された第1の文書画像及び第2の文書画像をそれぞれ複数の部分領域に分割する分割手段と、
    前記第1の文書画像と前記第2の文書画像とについて、それぞれ対応する部分領域毎に相互相関計算を行って領域毎の類似度を算出する領域類似度演算手段と、
    前記領域類似度演算手段により算出される領域毎の類似度から前記第1の文書画像と前記第2の文書画像との画像全体の類似度を算出する画像類似度演算手段と、
    を具備したことを特徴とする文書画像の照合装置。
  2. 前記解像度変換手段,分割手段,演算手段及び判定手段を有するマッチング処理を、前記解像度変換手段により変換される解像度を上げながら複数回繰り返すことを特徴とする請求項1記載の文書画像の照合装置。
  3. 前記分割手段は、前記第1の文書画像と前記第2の文書画像とについて、対応する領域の全体画像に対する位置とサイズが同じであり、かつ中央の部分領域に対して他の部分領域が点対称になるように分割することを特徴とする請求項1または2記載の文書画像の照合装置。
  4. 画像取込手段により取り込まれた第1の文書画像及び前記第1の文書画像の元画像候補として文書データベースから抽出される電子化された第2の文書画像の解像度をそれぞれ低解像度に変換する解像度変換手段と、
    前記解像度変換手段により低解像度に変換された第1の文書画像及び第2の文書画像をそれぞれ複数の部分領域に分割する分割手段と、
    前記第1の文書画像と前記第2の文書画像とについて、それぞれ対応する部分領域毎に相互相関計算を行って領域毎の類似度を算出する領域類似度演算手段と、
    前記領域類似度演算手段により算出される領域毎の類似度から前記第1の文書画像と前記第2の文書画像との画像全体の類似度を算出する全体類似度演算手段と、
    前記全体類似度演算手段により算出される全体類似度を所定の閾値と比較して前記第2の文書画像が前記第1の文書画像に類似しているか否かを判定する判定手段と、
    前記判定手段により前記第1の文書画像に類似していると判定された前記第2の文書画像を前記文書データベースから検出する検出する検出手段と、
    を具備したことを特徴とする文書画像検索装置。
  5. 前記検出手段により前記文書データベースから検出された前記第2の文書画像と前記第1の文書画像とのそれぞれの濃度信号について位置合わせを行った後に差分をとり、この差分信号を前記第1の文書画像の原信号に対してマスク処理を施して、前記第1の文書画像から追記画像を抽出する抽出手段、
    をさらに具備したことを特徴とする請求項4記載の文書画像検索装置。
  6. 画像取込手段により取り込んだ第1の文書画像を入力可能なコンピュータに、
    前記第1の文書画像及び前記第1の文書画像の元画像候補として文書データベースから抽出される電子化された第2の文書画像の解像度をそれぞれ低解像度に変換する機能、
    前記低解像度に変換された第1の文書画像及び第2の文書画像をそれぞれ複数の部分領域に分割する機能、
    前記第1の文書画像と前記第2の文書画像とについて、それぞれ対応する部分領域毎に相互相関計算を行って領域毎の類似度を算出する機能、及び
    前記領域毎の類似度から前記第1の文書画像と前記第2の文書画像との画像全体の類似度を算出する機能、
    を実現させるための照合プログラム。
JP2014066552A 2014-03-27 2014-03-27 文書画像の照合装置及び照合プログラム並びに文書画像検索装置 Pending JP2015191308A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014066552A JP2015191308A (ja) 2014-03-27 2014-03-27 文書画像の照合装置及び照合プログラム並びに文書画像検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014066552A JP2015191308A (ja) 2014-03-27 2014-03-27 文書画像の照合装置及び照合プログラム並びに文書画像検索装置

Publications (1)

Publication Number Publication Date
JP2015191308A true JP2015191308A (ja) 2015-11-02

Family

ID=54425776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014066552A Pending JP2015191308A (ja) 2014-03-27 2014-03-27 文書画像の照合装置及び照合プログラム並びに文書画像検索装置

Country Status (1)

Country Link
JP (1) JP2015191308A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019106832A1 (ja) * 2017-12-01 2019-06-06 株式会社Pfu 画像処理装置、特徴量生成方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019106832A1 (ja) * 2017-12-01 2019-06-06 株式会社Pfu 画像処理装置、特徴量生成方法及びプログラム

Similar Documents

Publication Publication Date Title
US10289924B2 (en) System and method for scanned document correction
JP6354589B2 (ja) 物体識別装置、方法及びプログラム
JP4847592B2 (ja) 歪み文書画像を補正する方法及びシステム
CN110400278B (zh) 一种图像颜色和几何畸变的全自动校正方法、装置及设备
US8351707B2 (en) Image processing apparatus, image forming apparatus, image processing system, and image processing method
CN103177249B (zh) 图像处理装置和图像处理方法
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
JP5387193B2 (ja) 画像処理システム、画像処理装置およびプログラム
WO2014160433A2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
WO2004051575A1 (ja) 特徴領域抽出装置、特徴領域抽出方法および特徴領域抽出プログラム
JP2007265389A (ja) 画像処理装置および画像処理プログラム
JP2009232085A (ja) 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記憶媒体
US8757491B2 (en) Image processing device, image processing method, and computer-readable recording medium storing image processing program
JP2008059546A (ja) 画像処理装置、画像読取装置、画像形成装置、画像処理方法、コンピュータプログラム、及び記録媒体
US9430457B2 (en) Ambiguity reduction for image alignment applications
JP2009015820A (ja) 画像処理装置、画像形成装置、画像送信装置、画像読取装置、画像処理システム、画像処理方法、画像処理プログラムおよびその記録媒体
JP2007241356A (ja) 画像処理装置および画像処理プログラム
US9131193B2 (en) Image-processing device removing encircling lines for identifying sub-regions of image
JP4487000B2 (ja) 画像処理装置、画像形成装置、画像処理方法、画像処理システム、画像処理プログラムおよびその記録媒体
JP4867620B2 (ja) 画像処理装置及び画像処理プログラム
JP2015191308A (ja) 文書画像の照合装置及び照合プログラム並びに文書画像検索装置
CN115410191A (zh) 文本图像识别方法、装置、设备和存储介质
US8391647B1 (en) Pixel replacement
US11960967B2 (en) Information processing system, area determination method, and medium
JP2015192213A (ja) 文書画像の特徴量検出装置及び特徴量検出プログラム並びに文書画像検索装置