JP4323178B2 - Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method - Google Patents

Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method Download PDF

Info

Publication number
JP4323178B2
JP4323178B2 JP2003025136A JP2003025136A JP4323178B2 JP 4323178 B2 JP4323178 B2 JP 4323178B2 JP 2003025136 A JP2003025136 A JP 2003025136A JP 2003025136 A JP2003025136 A JP 2003025136A JP 4323178 B2 JP4323178 B2 JP 4323178B2
Authority
JP
Japan
Prior art keywords
code string
string data
packet length
image
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003025136A
Other languages
Japanese (ja)
Other versions
JP2004234564A (en
Inventor
豊 佐野
章雄 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003025136A priority Critical patent/JP4323178B2/en
Publication of JP2004234564A publication Critical patent/JP2004234564A/en
Application granted granted Critical
Publication of JP4323178B2 publication Critical patent/JP4323178B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、検索対象制限装置、画像処理装置、プログラム、記憶媒体及び検索対象制限方法に関する。
【0002】
【従来の技術】
画像入力技術およびその出力技術の進歩により、画像に対して高精細化の要求が、近年非常に高まっている。例えば、画像入力装置として、デジタルカメラ(Digital Camera)を例にあげると、300万以上の画素数を持つ高性能な電荷結合素子(CCD:Charge Coupled Device)の低価格化が進み、普及価格帯の製品においても広く用いられるようになってきた。そして、このピクセル数の増加傾向は、なおしばらくは続くと言われている。
【0003】
一方、画像出力・表示装置に関しても、例えば、レーザプリンタ、インクジェットプリンタ、昇華型プリンタ等のハード・コピー分野における製品、そして、CRTやLCD(液晶表示デバイス)、PDP(プラズマ表示デバイス)等のフラットパネルディスプレイのソフト・コピー分野における製品の高精細化・低価格化は目を見張るものがある。
【0004】
こうした高性能・低価格な画像入出力製品の市場投入効果によって、高精細画像の大衆化が始まっており、今後はあらゆる場面で、高精細画像の需要が高まると予想されている。実際、パーソナルコンピュータ(Personal Computer)やインターネットをはじめとするネットワークに関連する技術の発達は、こうしたトレンドをますます加速させている。特に最近は、携帯電話やノートパソコン等のモバイル機器の普及速度が非常に大きく、高精細な画像を、あらゆる地点から通信手段を用いて伝送あるいは受信する機会が急増している。
【0005】
これらを背景に、高精細画像の取扱いを容易にする画像圧縮伸長技術に対する高性能化あるいは多機能化の要求は、今後ますます強くなっていくことは必至と思われる。
【0006】
そこで、近年においては、こうした要求を満たす画像圧縮方式の一つとして、高圧縮率でも高画質な画像を復元可能なJPEG2000という新しい方式が規格化されつつある。かかるJPEG2000においては、画像を矩形領域(タイル)に分割することにより、少ないメモリ環境下で圧縮伸長処理を行うことが可能である。すなわち、個々のタイルが圧縮伸長プロセスを実行する際の基本単位となり、圧縮伸長動作はタイル毎に独立に行うことができる。
【0007】
一般に、紙文書(原稿)を電子化して保存するような場合には、以下に示すような処理を順番に実行することになる。まず、紙文書(原稿)をスキャナやデジタルスチルカメラ等の画像入力装置を使用して一枚ずつ読み込む。次いで、読み込んだ画像データをJPEGやJPEG2000等の符号化データに画像圧縮装置を使用して変換する。最後に、圧縮処理した符号化データを記憶装置に記憶保存する。
【0008】
ところで、このような手順により記憶装置に記憶保存された符号化データに対し、文字認識を行うOCR(Optical Character Reader)処理等の画像処理が施される場合がある。このOCR処理としては様々な手法が考えられているが、基本的には、符号化データを復号した文書画像中から文字画像(2値化画像)を切り出し、切り出された文字画像を、文字画像と文字コードとの組みを予め記憶した辞書ファイルと比較(パターンマッチング)し、相違度の小さい文字画像又は類似度の大きな文字画像に組み合わされた文字コードをOCR処理結果として出力するものである。
【0009】
【発明が解決しようとする課題】
しかしながら、前述したようなOCR処理においては、文書画像中から文字画像(2値化画像)を切り出すために、符号化された周波数変換係数値を復号化し、さらに、逆量子化する、という複雑な処理が必要であるため、処理時間が長くなることから、処理速度の高速化が望まれている。
【0010】
本発明の目的は、文字検索を短時間で実行することができる検索対象制限装置、画像処理装置、プログラム、記憶媒体及び検索対象制限方法を提供することである。
【0011】
【課題を解決するための手段】
請求項1記載の発明の検索対象制限装置は、記憶部と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析手段と、前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出手段と、前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限手段と、を備える。
【0012】
したがって、画像データの所定領域を矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成した符号列データの構文の解析結果に基づいて読み取られたパケット長に基づき、入力された現ページとしての文書画像の所定領域に係る符号列データと参照ページとしての文書画像の所定領域に係る符号列データとの変化の度合いを示す類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外される。これにより、符号列データを復号化し逆量子化するという複雑な処理を経ることなく類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外されるので、文字検索を短時間で実行することが可能になる。
また、参照ページと現ページとの所定領域についての類似度が、画像データの所定領域についての現ページと参照ページとの周波数変換係数値の符号量であるパケット長を比較することにより検出される。これにより、参照ページと現ページとの所定領域についての類似度の検出に際し、符号化された周波数変換係数値を復号化し、更に逆量子化するという複雑な処理が不要となるので、参照ページと現ページとの所定領域についての類似度を高速、かつ、正確に求めることが可能になる。
【0013】
請求項2記載の発明は、請求項1記載の検索対象制限装置において、前記構文解析手段における構文解析条件を指定する条件指定手段を備える。
【0014】
したがって、例えば、構文解析条件として矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域等を任意に指定することにより、類似度の精度と検出処理速度をユーザの望みに応じて最適化することが可能になる。
【0016】
したがって、参照ページと現ページとの所定領域についての類似度が、画像データの所定領域についての現ページと参照ページとの周波数変換係数値の符号量であるパケット長を比較することにより検出される。これにより、参照ページと現ページとの所定領域についての類似度の検出に際し、符号化された周波数変換係数値を復号化し、更に逆量子化するという複雑な処理が不要となるので、参照ページと現ページとの所定領域についての類似度を高速、かつ、正確に求めることが可能になる。
【0017】
請求項記載の発明は、請求項1または2に記載の検索対象制限装置において、前記検索対象制限手段は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換える。
【0018】
したがって、現ページの所定領域に係る符号列データを文字検索の対象から除外することが可能になる。
【0019】
請求項5記載の発明は、請求項3に記載の検索対象制限装置において、前記検索対象制限手段は、所定領域に係る符号列データのペイロード部のデータを削除する。
【0020】
したがって、現ページの所定領域に係る符号列データを文字検索の対象から除外することが可能になる。
【0021】
請求項記載の発明は、請求項記載の検索対象制限装置において、前記検索対象制限手段によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成手段を備える。
【0022】
したがって、汎用のデコーダで、新たに生成した符号列データを伸長することが可能となる。
【0023】
請求項記載の発明は、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルである。
【0024】
したがって、周波数変換として離散ウェーブレット変換を用いることが可能になる。
【0025】
請求項記載の発明は、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトである。
【0026】
したがって、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することが可能になる。また、検出単位をタイルよりも小さな画像領域にすることが可能になる。
【0027】
請求項記載の発明は、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックである。
【0028】
したがって、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することが可能になる。また、検出単位をタイルよりも小さな画像領域にすることが可能になる。
【0029】
請求項記載の発明の画像処理装置は、請求項1ないしのいずれか一記載の検索対象制限装置と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化した符号列データを伸長する画像伸長装置と、この画像伸長装置により伸長された文書画像に対して文字認識を行うOCR(Optical Character Reader)処理を実行するOCR処理装置と、このOCR処理装置によるOCR処理結果として出力された文字コードの中から所望の文字を検索する文字検索装置と、を備える。
【0030】
したがって、請求項1ないし9のいずれか一記載の発明と同様の作用を奏する画像処理装置を提供することが可能になる。
【0031】
請求項10記載の発明のプログラムは、コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、記憶部と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析機能と、前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出機能と、前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限機能と、を実行させる。
【0032】
したがって、画像データの所定領域を矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成した符号列データの構文の解析結果に基づいて読み取られたパケット長に基づき、入力された現ページとしての文書画像の所定領域に係る符号列データと参照ページとしての文書画像の所定領域に係る符号列データとの変化の度合いを示す類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外される。これにより、符号列データを復号化し逆量子化するという複雑な処理を経ることなく類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外されるので、文字検索を短時間で実行することが可能になる。
また、参照ページと現ページとの所定領域についての類似度が、画像データの所定領域についての現ページと参照ページとの周波数変換係数値の符号量であるパケット長を比較することにより検出される。これにより、参照ページと現ページとの所定領域についての類似度の検出に際し、符号化された周波数変換係数値を復号化し、更に逆量子化するという複雑な処理が不要となるので、参照ページと現ページとの所定領域についての類似度を高速、かつ、正確に求めることが可能になる。
【0033】
請求項11記載の発明は、請求項10記載のプログラムにおいて、前記構文解析機能における構文解析条件を指定する条件指定機能を前記コンピュータに実行させる。
【0034】
したがって、例えば、構文解析条件として矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域等を任意に指定することにより、類似度の精度と検出処理速度をユーザの望みに応じて最適化することが可能になる。
【0037】
請求項12記載の発明は、請求項10または11に記載のプログラムにおいて、前記検索対象制限機能は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換える。
【0038】
したがって、現ページの所定領域に係る符号列データを文字検索の対象から除外することが可能になる。
【0039】
請求項13記載の発明は、請求項10または11に記載のプログラムにおいて、前記検索対象制限機能は、所定領域に係る符号列データのペイロード部のデータを削除する。
【0040】
したがって、現ページの所定領域に係る符号列データを文字検索の対象から除外することが可能になる。
【0041】
請求項14記載の発明は、請求項11記載のプログラムにおいて、前記検索対象制限機能によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成機能を前記コンピュータに実行させる。
【0042】
したがって、汎用のデコーダで、新たに生成した符号列データを伸長することが可能となる。
【0043】
請求項15記載の発明は、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルである。
【0044】
したがって、周波数変換として離散ウェーブレット変換を用いることが可能になる。
【0045】
請求項16記載の発明は、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトである。
【0046】
したがって、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することが可能になる。また、検出単位をタイルよりも小さな画像領域にすることが可能になる。
【0047】
請求項17記載の発明は、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックである。
【0048】
したがって、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することが可能になる。また、検出単位をタイルよりも小さな画像領域にすることが可能になる。
【0049】
請求項18記載の発明の記憶媒体は、請求項10ないし17のいずれか一記載のプログラムを記憶している。
【0050】
したがって、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることにより、請求項11ないし19のいずれか一記載の発明と同様の作用を得ることが可能になる。
【0051】
請求項19記載の発明の検索対象制限方法は、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力工程と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析工程と、前記構文解析工程により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として記憶手段に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶手段により保存された前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出工程と、前記類似度検出工程により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限工程と、を含む。
【0052】
したがって、画像データの所定領域を矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成した符号列データの構文の解析結果に基づいて読み取られたパケット長に基づき、入力された現ページとしての文書画像の所定領域に係る符号列データと参照ページとしての文書画像の所定領域に係る符号列データとの変化の度合いを示す類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外される。これにより、符号列データを復号化し逆量子化するという複雑な処理を経ることなく類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外されるので、文字検索を短時間で実行することが可能になる。
【0053】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図17に基づいて説明する。
【0054】
最初に、本発明の前提となる「階層符号化アルゴリズム」及び「JPEG2000アルゴリズム」の概要について説明する。
【0055】
図1は、JPEG2000方式の基本となる階層符号化アルゴリズムを実現するシステムの機能ブロック図である。このシステムは、色空間変換・逆変換部101、2次元ウェーブレット変換・逆変換部102、量子化・逆量子化部103、エントロピー符号化・復号化部104、タグ処理部105の各機能ブロックにより構成されている。
【0056】
このシステムが従来のJPEGアルゴリズムと比較して最も大きく異なる点の一つは変換方式である。JPEGでは離散コサイン変換(DCT:Discrete Cosine Transform)を用いているのに対し、この階層符号化アルゴリズムでは、2次元ウェーブレット変換・逆変換部102において、離散ウェーブレット変換(DWT:Discrete Wavelet Transform)を用いている。DWTはDCTに比べて、高圧縮領域における画質が良いという長所を有し、この点が、JPEGの後継アルゴリズムであるJPEG2000でDWTが採用された大きな理由の一つとなっている。
【0057】
また、他の大きな相違点は、この階層符号化アルゴリズムでは、システムの最終段に符号形成を行うために、タグ処理部105の機能ブロックが追加されていることである。このタグ処理部105で、画像の圧縮動作時には圧縮データが符号列データとして生成され、伸長動作時には伸長に必要な符号列データの解釈が行われる。そして、符号列データによって、JPEG2000は様々な便利な機能を実現できるようになった。例えば、ブロック・ベースでのDWTにおけるオクターブ分割に対応した任意の階層(デコンポジション・レベル)で、静止画像の圧縮伸長動作を自由に停止させることができるようになる(後述する図3参照)。
【0058】
原画像の入出力部分には、色空間変換・逆変換101が接続される場合が多い。例えば、原色系のR(赤)/G(緑)/B(青)の各コンポーネントからなるRGB表色系や、補色系のY(黄)/M(マゼンタ)/C(シアン)の各コンポーネントからなるYMC表色系から、YUVあるいはYCbCr表色系への変換又は逆変換を行う部分がこれに相当する。
【0059】
次に、JPEG2000アルゴリズムについて説明する。
【0060】
カラー画像は、一般に、図2に示すように、原画像の各コンポーネント111(ここではRGB原色系)が、矩形をした領域によって分割される。この分割された矩形領域は、一般にブロックあるいはタイルと呼ばれているものであるが、JPEG2000では、タイルと呼ぶことが一般的であるため、以下、このような分割された矩形領域をタイルと記述することにする(図2の例では、各コンポーネント111が縦横4×4、合計16個の矩形のタイル112に分割されている)。このような個々のタイル112(図2の例で、R00,R01,…,R15/G00,G01,…,G15/B00,B01,…,B15)が、画像データの圧縮伸長プロセスを実行する際の基本単位となる。従って、画像データの圧縮伸長動作は、コンポーネント毎、また、タイル112毎に、独立に行われる。
【0061】
画像データの符号化時には、各コンポーネント111の各タイル112のデータが、図1の色空間変換・逆変換部101に入力され、色空間変換を施された後、2次元ウェーブレット変換部102で2次元ウェーブレット変換(順変換)が施されて、周波数帯に空間分割される。
【0062】
図3には、デコンポジション・レベル数が3の場合の、各デコンポジション・レベルにおけるサブバンドを示している。すなわち、原画像のタイル分割によって得られたタイル原画像(0LL)(デコンポジション・レベル0)に対して、2次元ウェーブレット変換を施し、デコンポジション・レベル1に示すサブバンド(1LL,1HL,1LH,1HH)を分離する。そして引き続き、この階層における低周波成分1LLに対して、2次元ウェーブレット変換を施し、デコンポジション・レベル2に示すサブバンド(2LL,2HL,2LH,2HH)を分離する。順次同様に、低周波成分2LLに対しても、2次元ウェーブレット変換を施し、デコンポジション・レベル3に示すサブバンド(3LL,3HL,3LH,3HH)を分離する。図3では、各デコンポジション・レベルにおいて符号化の対象となるサブバンドを、網掛けで表してある。例えば、デコンポジション・レベル数を3としたとき、網掛けで示したサブバンド(3HL,3LH,3HH,2HL,2LH,2HH,1HL,1LH,1HH)が符号化対象となり、3LLサブバンドは符号化されない。
【0063】
次いで、指定した符号化の順番で符号化の対象となるビットが定められ、図1に示す量子化・逆量子化部103で対象ビット周辺のビットからコンテキストが生成される。
【0064】
この量子化の処理が終わったウェーブレット係数は、個々のサブバンド毎に、「プレシンクト」と呼ばれる重複しない矩形に分割される。これは、インプリメンテーションでメモリを効率的に使うために導入されたものである。図4に示したように、一つのプレシンクトは、空間的に一致した3つの矩形領域からなっている。更に、個々のプレシンクトは、重複しない矩形の「コード・ブロック」に分けられる。これは、エントロピー・コーディングを行う際の基本単位となる。
【0065】
ウェーブレット変換後の係数値は、そのまま量子化し符号化することも可能であるが、JPEG2000では符号化効率を上げるために、係数値を「ビットプレーン」単位に分解し、画素あるいはコード・ブロック毎に「ビットプレーン」に順位付けを行うことができる。
【0066】
ここで、図5はビットプレーンに順位付けする手順の一例を示す説明図である。図5に示すように、この例は、原画像(32×32画素)を16×16画素のタイル4つで分割した場合で、デコンポジション・レベル1のプレシンクトとコード・ブロックの大きさは、各々8×8画素と4×4画素としている。プレシンクトとコード・ブロックの番号は、ラスター順に付けられており、この例では、プレンシクトが番号0から3まで、コード・ブロックが番号0から3まで割り当てられている。タイル境界外に対する画素拡張にはミラーリング法を使い、可逆(5,3)フィルタでウェーブレット変換を行い、デコンポジション・レベル1のウェーブレット係数値を求めている。
【0067】
また、タイル0/プレシンクト3/コード・ブロック3について、代表的な「レイヤ」構成の概念の一例を示す説明図も図5に併せて示す。変換後のコード・ブロックは、サブバンド(1LL,1HL,1LH,1HH)に分割され、各サブバンドにはウェーブレット係数値が割り当てられている。
【0068】
レイヤの構造は、ウェーブレット係数値を横方向(ビットプレーン方向)から見ると理解し易い。1つのレイヤは任意の数のビットプレーンから構成される。この例では、レイヤ0,1,2,3は、各々、1,3,1,3のビットプレーンから成っている。そして、LSB(Least Significant Bit:最下位ビット)に近いビットプレーンを含むレイヤ程、先に量子化の対象となり、逆に、MSB(Most Significant Bit:最上位ビット)に近いレイヤは最後まで量子化されずに残ることになる。LSBに近いレイヤから破棄する方法はトランケーションと呼ばれ、量子化率を細かく制御することが可能である。
【0069】
図1に示すエントロピー符号化・復号化部104では、コンテキストと対象ビットから確率推定によって、各コンポーネント111のタイル112に対する符号化を行う。こうして、原画像の全てのコンポーネント111について、タイル112単位で符号化処理が行われる。最後にタグ処理部105は、エントロピー符号化・復号化部104からの全符号化データを1本の符号列データに結合するとともに、それにタグを付加する処理を行う。
【0070】
図6には、この符号列データの1フレーム分の概略構成を示している。この符号列データの先頭と各タイルの符号データ(bit stream)の先頭にはヘッダ(メインヘッダ(Main header)、タイル境界位置情報等であるタイルパートヘッダ(tile part header))と呼ばれるタグ情報が付加され、その後に、各タイルの符号化データが続く。なお、メインヘッダ(Main header)には、符号化パラメータや量子化パラメータが記述されている。そして、符号列データの終端には、再びタグ(end of codestream)が置かれる。また、図7は、符号化されたウェーブレット係数値が収容されたパケットをサブバンド毎に表わしたコード・ストリーム構造を示すものである。図7に示すように、タイルによる分割処理を行っても、あるいはタイルによる分割処理を行わなくても、同様のパケット列構造を持つことになる。
【0071】
一方、符号化データの復号化時には、画像データの符号化時とは逆に、各コンポーネント111の各タイル112の符号列データから画像データを生成する。この場合、タグ処理部105は、外部より入力した符号列データに付加されたタグ情報を解釈し、符号列データを各コンポーネント111の各タイル112の符号列データに分解し、その各コンポーネント111の各タイル112の符号列データ毎に復号化処理(伸長処理)を行う。このとき、符号列データ内のタグ情報に基づく順番で復号化の対象となるビットの位置が定められるとともに、量子化・逆量子化部103で、その対象ビット位置の周辺ビット(既に復号化を終えている)の並びからコンテキストが生成される。エントロピー符号化・復号化部104で、このコンテキストと符号列データから確率推定によって復号化を行い、対象ビットを生成し、それを対象ビットの位置に書き込む。このようにして復号化されたデータは周波数帯域毎に空間分割されているため、これを2次元ウェーブレット変換・逆変換部102で2次元ウェーブレット逆変換を行うことにより、画像データの各コンポーネントの各タイルが復元される。復元されたデータは色空間変換・逆変換部101によって元の表色系の画像データに変換される。
【0072】
以上が、「JPEG2000アルゴリズム」の概要である。
【0073】
以下、本発明の実施の一形態について説明する。なお、ここでは、JPEG2000を代表とする画像圧縮伸長技術に関する例について説明するが、言うまでもなく、本発明は以下の説明の内容に限定されるものではない。
【0074】
本実施の形態のサーバコンピュータ及びクライアントコンピュータは、そのコンピュータにインストールされるか、あるいは解釈されて実行される画像処理プログラムによって動作制御されて画像処理を実行する。本実施の形態では、そのような画像処理プログラムを記憶する記憶媒体も紹介する。
【0075】
図8は、本実施の形態におけるシステム構築例を示す模式図である。
【0076】
本実施の形態の画像データ処理システムでは、画像処理装置であるサーバコンピュータ2にLAN(Local Area Network)等のネットワーク3を介してクライアントコンピュータ4が複数台接続されたサーバクライアントシステム1を想定する。このサーバクライアントシステム1は、スキャナやデジタルカメラ等の画像入力装置5及びプリンタ等の画像出力装置6をネットワーク3上でシェアし得る環境が整えられている。また、ネットワーク3上には、マルチファンクションペリフェラルと称されるMFP7が接続され、このMFP7が画像入力装置5や画像出力装置6として機能するように環境が構築されていても良い。
【0077】
このようなサーバクライアントシステム1は、例えばイントラネット8を介して別のサーバクライアントシステム1とのデータ通信可能に構築され、インターネット通信網9を介して外部環境とデータ通信可能に構築されている。
【0078】
サーバコンピュータ2は、文書管理サーバ2aとデータ変換サーバ2bとで構成されている。文書管理サーバ2aは、各種文書の画像イメージを画像データとして記憶する文書管理機能を発揮するものである。データ変換サーバ2bは、例えば画像データにOCR(Optical Character Reader)処理を施してテキストデータを抽出する等のデータ変換機能を発揮するものである。
【0079】
以下においては、本発明の特長的な機能を発揮する画像処理装置であるサーバコンピュータ2(特に、データ変換サーバ2b)について説明する。
【0080】
図9は、本実施の形態における画像処理装置としてのサーバコンピュータ2のモジュール構成図である。サーバコンピュータ2は、情報処理を行うCPU(Central Processing Unit)11、情報を格納するROM(Read Only Memory)12及びRAM(Random Access Memory)13等の一次記憶装置14、後述する圧縮符号を記憶する記憶部であるHDD(Hard Disk Drive)15等の二次記憶装置16、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置17、ネットワーク3を介して画像入力装置5や外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース18、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置19、並びに操作者がCPU11に命令や情報等を入力するためのキーボード20、マウス等のポインティングディバイス21等から構成されており、これらの各部間で送受信されるデータをバスコントローラ22が調停して動作する。
【0081】
このようなサーバコンピュータ2では、ユーザが電源を投入するとCPU11がROM12内のローダーというプログラムを起動させ、HDD15よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM13に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
【0082】
ここで、サーバコンピュータ2は、アプリケーションプログラムとして、画像処理プログラムをHDD15に記憶している。この意味で、HDD15は、画像処理プログラムを記憶する記憶媒体として機能する。
【0083】
また、一般的には、サーバコンピュータ2のHDD15等の二次記憶装置16にインストールされる動作プログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等に記録され、この記録された動作プログラムがHDD15等の二次記憶装置16にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体も、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムは、例えばネットワークインターフェース18を介して外部から取り込まれ、HDD15等の二次記憶装置16にインストールされても良い。
【0084】
サーバコンピュータ2は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、CPU11が各種の演算処理を実行して各部を集中的に制御する。サーバコンピュータ2のCPU11が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
【0085】
ここで、サーバコンピュータ2のCPU11が実行する各種の演算処理により実現される機能について説明する。図10に示すように、画像処理装置であるサーバコンピュータ2のデータ変換サーバ2bは、後段の文字検索に係る検索対象を制限させるための検索対象制限装置31と、符号化データを復号する画像伸長装置32と、符号化データを復号(伸長)した文書画像に基づいて文字認識を行うOCR処理装置33と、OCR処理結果として出力された文字コードに基づいて所望の文字を検索する文字検索装置34と、の各機能をCPU11が実行する各種の演算処理により実現する。
【0086】
画像伸長装置32は、周波数変換にDCTを使ったJPEG、あるいは周波数変換にDWTを使ったJPEG2000アルゴリズムによって圧縮符号化された符号化データを復号(伸長)する。本実施の形態における画像伸長装置32は、JPEG2000アルゴリズムによって圧縮符号化された符号化データを「JPEG2000アルゴリズム」に従って復号(伸長)する。なお、「JPEG2000アルゴリズム」に従った復号(伸長)処理については、図1で示した空間変換・逆変換部101、2次元ウェーブレット変換・逆変換部102、量子化・逆量子化部103、エントロピー符号化・復号化部104、タグ処理部105の説明において前述したので、ここでの説明は省略する。
【0087】
OCR処理装置33は、符号化データを復号した文書画像中から文字画像(2値化画像)を切り出し、切り出された文字画像を、文字画像と文字コードとの組みを予め記憶した辞書ファイルと比較(パターンマッチング)し、相違度の小さい文字画像又は類似度の大きな文字画像に組み合わされた文字コードをOCR処理結果として出力する。
【0088】
文字検索装置34は、OCR処理結果として出力された文字コードの中から所望の文字を検索する。
【0089】
次に、検索対象制限装置31について説明する。検索対象制限装置31は、図11に示すように、符号列の入力を受け付ける符号列入力手段41、構文解析手段42、検索対象制限手段43、類似度検出手段44、抽出条件指定手段45、符号列作成手段46、符号列を出力する符号列出力手段47の各種手段から構成される。これらの各種手段は、前述の画像処理プログラムにしたがってCPU11が行う処理により実現している。なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種手段の機能を実現するようにするのが望ましい。
【0090】
構文解析手段42は、符号列入力手段41を介して入力された符号列データの構文すなわちヘッダ部に記述されているデータを解読し、類似度検出手段44に「ヘッダ部情報」を出力するものである。ここで、図12は構文解析手段42によるヘッダ部情報の読み取りを示す説明図である。図12に示すように、ペイロード部のデータ量、すなわち、「パケット長」は、周波数変換係数値の数の和(周波数変換係数値の符号量)であって、ヘッダ部に記述されている。ここでは、周波数変換係数値はウェーブレット係数値である。そして、構文解析手段42は、このヘッダ部情報を読み取って類似度検出手段44に対して出力する。
【0091】
抽出条件指定手段45は、類似度検出手段44に対して必要十分な情報だけを提供すべく、符号列入力手段41を介して入力された符号列データについての矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域を各々指定する条件指定手段として機能するものである。このように符号列データについて、矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域を任意に指定することにより、類似度の精度と検出処理速度を、ユーザの望みに応じて最適化することが可能である。すなわち、類似度の検出精度と検出処理速度の間にあるトレード・オフ関係を考慮に入れて、高速化を重視する場合には、小さな矩形領域の、輝度成分の低域サブバンドだけに注目すればよい。逆に、正確な類似度が必要な場合は、注目する矩形領域の面積を大きくし、サブバンドを高域まで調べればよい。
【0092】
類似度検出手段44は、概略的には、入力された現ページとしての文書画像に係る符号列データのヘッダ部情報と、事前に記憶してある参照ページとしての文書画像に係る符号列データのヘッダ部情報を各々比較し、現ページと参照ページとの変化の度合いを示す類似度を検出するものである。
【0093】
ここで、類似度検出手段44による現ページと参照ページとの類似度について説明する。ここでは、ペイロード部のデータ量、すなわち、「パケット長」に基づいて現ページと参照ページとの類似度を検出する手法について説明する。ここで、図13は類似度検出手段44の構成を示す機能ブロック図である。図13に示すように、ヘッダ部情報を受け取った類似度検出手段44は、そのヘッダ部情報から入力原稿のパケット長データを読み取る(パケット長読取手段44a)。そして、所定の文書画像についてのパケット長データを参照ページのパケット長データとして記憶しておく(パケット長記憶手段44b)。現ページと参照ページとの類似度は、符号量の変化量、すなわち、パケット長の変化量に現れることから、現ページと参照ページとの間におけるパケット長の差分を求めることにより(差分検出手段44c)、現ページと参照ページとの類似度を検出することができる。
【0094】
ここで、図14は符号量差と類似度との関係を示す説明図である。図14に示すように、類似度は符号量差(パケット長の差分値)の絶対値が小さいほど大きくなることがわかる。すなわち、符号量差(パケット長の差分値)に関して、現ページと参照ページとの間で変化が無い、あるいは非常に少ない場合は、現ページと参照ページとの間の類似度は非常に高いとみなすことができる。逆に、符号量差(パケット長の差分値)の差の絶対値が大きい場合は、現ページと参照ページとの類似度が小さい、あるいは、書類の種類が異なる、とみなすことができる。
【0095】
検索対象制限手段43は、類似度検出手段44から受け取った「現ページと参照ページとの類似度」に基づいて、文字検索装置34における文字検索を行うか否かを決定するものである。ここで、図15は検索対象制限手段43の構成を示す機能ブロック図である。図15に示すように、符号列データ及び「現ページと参照ページとの類似度」を受け取った検索対象制限手段43は、受け取った「現ページと参照ページとの類似度」とユーザが設定した閾値とを比較し、現ページと参照ページとが類似であるか否かを判定する(制限対象決定手段43a)。
【0096】
受け取った「現ページと参照ページとの類似度」が閾値以下であった場合、すなわち、現ページと参照ページとが類似である場合には、受け取った符号列データはスイッチ43b及びヘッダ書換手段43cをそのまま通過し、受け取った符号列データはそのまま符号列データとして使われる。
【0097】
一方、受け取った「パケット長」が閾値を超えた場合、すなわち、現ページと参照ページとが類似でない場合には、受け取った符号列データはスイッチ43bにおいて遮断され、ヘッダ書換手段43cで符号列データのヘッダ部の情報が書き換えられる。ヘッダ書換手段43cにおいては、文字検索装置34における文字検索時にこのパケットを無視するように、符号列データのヘッダ部の情報が書き換えられる。なお、このように符号列データのヘッダ部の情報を書き換えるのではなく、符号データのペイロード部のデータを削除するようにしても良い。
【0098】
符号列作成手段46は、検索対象制限手段43により符号列データのヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整えるものである。こうすることにより、汎用のデコーダで、新たに生成した符号列データを伸長することが可能となる。
【0099】
以上説明したような検索対象制限装置31による検索対象制限処理について図16を参照しつつ更に詳細に説明する。一般に、同一の書類における各文書(原稿)においては、図16に示すように、同一内容のヘッダ(フッタ)が連続することになる。OCR処理装置33におけるOCR処理及び文字検索装置34における文字検索については、このようなヘッダ(フッタ)も対象となることから、書類の枚数が多数のページに及ぶ場合には、このようなヘッダ(フッタ)が検索処理速度に大きな影響を与えることになる。
【0100】
そこで、本実施の形態の画像処理装置であるサーバコンピュータ2のデータ変換サーバ2bにおいては、同一内容のヘッダ(フッタ)であれば現ページと参照ページとの間の類似度は非常に高いとみなすことができることから、検索対象制限装置31による検索対象制限処理によって最初に現われるヘッダ(フッタ)だけを残す、あるいは認識するようにし、それ以降に現われた同一内容のヘッダ(フッタ)については、削除、あるいは無視するようにすることで、検索処理速度の高速化を図ろうとするものである。図16に示す例では、参照ページを直前のページにしているが、複数の参照ページを持ってもよいし、途中で変更してもかまわない。
【0101】
ただし、このように現ページと参照ページとの間でヘッダ(フッタ)の類似度を検出する為には、ヘッダ部情報を読み取る「類似度検出用の領域」を矩形領域単位で予め指定しておくことが前提である。なお、符号列がJPEG2000フォーマットである場合、「類似度検出用の領域」を構成する矩形領域として、タイル、プレシンクトあるいはコード・ブロックを用いることができる。ここでは、図17に示すように、タイルで構成された「類似度検出用の領域」が、ヘッダを含むように指定されている。ヘッダが既に現われたかどうかの判定精度や、それに要する時間は、矩形領域、サブバンド、色成分を指定することにより、調整することができる。
【0102】
なお、検索の精度をより向上させるためには、全画像領域を読み込んだ現ページの符号データから、ページ間の位置ずれを除去し、また、ページ外縁部の汚れやパンチ穴等の不要情報を取り除いておくことが望ましい。
【0103】
ここに、画像データの所定領域を矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成した符号列データの構文の解析結果に基づいて読み取られたパケット長に基づき、入力された現ページとしての文書画像の所定領域に係る符号列データと参照ページとしての文書画像の所定領域に係る符号列データとの変化の度合いを示す類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外される。これにより、符号列データを復号化し逆量子化するという複雑な処理を経ることなく類似度が検出され、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データが文字検索の対象から除外されるので、文字検索を短時間で実行することが可能になる。
【0104】
なお、本実施の形態においては、原画像にタイル分割処理を施した場合について説明したが、これに限るものではない。原画像に対してタイル分割を行わない場合でも、プレシンクトやコード・ブロックを矩形領域として利用すれば、タイル分割を行った場合と同様に、参照ページと現ページとの類似度を検出することが可能である。
【0105】
【発明の効果】
請求項1記載の発明の検索対象制限装置によれば、記憶部と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析手段と、前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出手段と、前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外するので、文字検索を短時間で実行することができる。また、参照ページと現ページとの所定領域についての類似度を高速、かつ、正確に求めることができる。
【0106】
請求項2記載の発明によれば、請求項1記載の検索対象制限装置において、前記構文解析手段における構文解析条件を指定する条件指定手段を備えることにより、例えば、構文解析条件として矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域等を任意に指定することで、類似度の精度と検出処理速度をユーザの望みに応じて最適化することができる。
【0108】
請求項記載の発明によれば、請求項1または2に記載の検索対象制限装置において、前記検索対象制限手段は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換えることにより、現ページの所定領域に係る符号列データを文字検索の対象から除外することができる。
【0109】
請求項記載の発明によれば、請求項1または2に記載の検索対象制限装置において、前記検索対象制限手段は、所定領域に係る符号列データのペイロード部のデータを削除することにより、現ページの所定領域に係る符号列データを文字検索の対象から除外することができる。
【0110】
請求項記載の発明によれば、請求項記載の検索対象制限装置において、前記検索対象制限手段によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成手段を備えることにより、汎用のデコーダで、新たに生成した符号列データを伸長することができる。
【0111】
請求項記載の発明は、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルであることにより、周波数変換として離散ウェーブレット変換を用いることができる。
【0112】
請求項記載の発明によれば、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトであることにより、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することができ、また、検出単位をタイルよりも小さな画像領域にすることができる。
【0113】
請求項記載の発明によれば、請求項1ないしのいずれか一記載の検索対象制限装置において、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックであることにより、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することができ、また、検出単位をタイルよりも小さな画像領域にすることができる。
【0114】
請求項記載の発明の画像処理装置によれば、請求項1ないしのいずれか一記載の検索対象制限装置と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化した符号列データを伸長する画像伸長装置と、この画像伸長装置により伸長された文書画像に対して文字認識を行うOCR(Optical Character Reader)処理を実行するOCR処理装置と、このOCR処理装置によるOCR処理結果として出力された文字コードの中から所望の文字を検索する文字検索装置と、を備えることにより、請求項1ないし9のいずれか一記載の発明と同様の作用効果を奏する画像処理装置を提供することができる。
【0115】
請求項10記載の発明のプログラムによれば、コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、記憶部と、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析機能と、前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出機能と、前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外するので、文字検索を短時間で実行することができる。また、参照ページと現ページとの所定領域についての類似度を高速、かつ、正確に求めることができる。
【0116】
請求項11記載の発明によれば、請求項10記載のプログラムにおいて、前記構文解析機能における構文解析条件を指定する条件指定機能を前記コンピュータに実行させることにより、例えば、構文解析条件として矩形領域の面積、コンポーネント(色成分)の数、サブバンドの帯域等を任意に指定することで、類似度の精度と検出処理速度をユーザの望みに応じて最適化することができる。
【0118】
請求項12記載の発明によれば、請求項10または11に記載のプログラムにおいて、前記検索対象制限機能は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換えることにより、現ページの所定領域に係る符号列データを文字検索の対象から除外することができる。
【0119】
請求項13記載の発明によれば、請求項10または11に一記載のプログラムにおいて、前記検索対象制限機能は、所定領域に係る符号列データのペイロード部のデータを削除することにより、現ページの所定領域に係る符号列データを文字検索の対象から除外することができる。
【0120】
請求項14記載の発明によれば、請求項11に記載のプログラムにおいて、前記検索対象制限機能によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成機能を前記コンピュータに実行させることにより、汎用のデコーダで、新たに生成した符号列データを伸長することができる。
【0121】
請求項15記載の発明によれば、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルである。ことにより、周波数変換として離散ウェーブレット変換を用いることができる。
【0122】
請求項16記載の発明によれば、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトであることにより、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することができ、また、検出単位をタイルよりも小さな画像領域にすることができる。
【0123】
請求項17記載の発明によれば、請求項10ないし14のいずれか一記載のプログラムにおいて、分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックであることにより、タイル分割をしない場合(全画像領域=タイル)にも、タイル単位と同じように、参照ページと現ページとの所定領域についての類似度を検出することができ、また、検出単位をタイルよりも小さな画像領域にすることができる。
【0124】
請求項18記載の発明の記憶媒体によれば、請求項10ないし17のいずれか一記載のプログラムを記憶していることにより、この記憶媒体に記憶されたプログラムをコンピュータに読み取らせることで、請求項11ないし19のいずれか一記載の発明と同様の作用効果を得ることができる。
【0125】
請求項19記載の発明の検索対象制限方法は、画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力工程と、入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析工程と、前記構文解析工程により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として記憶手段に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶手段により保存された前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出工程と、前記類似度検出工程により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限工程と、を含み、画像データの所定領域を矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成した符号列データの構文の解析結果に基づいて読み取られたパケット長に基づき、入力された現ページとしての文書画像の所定領域に係る符号列データと参照ページとしての文書画像の所定領域に係る符号列データとの変化の度合いを示す類似度を検出し、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外することにより、符号列データを復号化し逆量子化するという複雑な処理を経ることなく類似度を検出し、この類似度に応じて入力された現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外するので、文字検索を短時間で実行することができる。
【図面の簡単な説明】
【図1】本発明の前提となるJPEG2000方式の基本となる階層符号化アルゴリズムを実現するシステムの機能ブロック図である。
【図2】原画像の各コンポーネントの分割された矩形領域を示す説明図である。
【図3】デコンポジション・レベル数が3の場合の、各デコンポジション・レベルにおけるサブバンドを示す説明図である。
【図4】プレシンクトを示す説明図である。
【図5】ビットプレーンに順位付けする手順の一例を示す説明図である。
【図6】符号列データの1フレーム分の概略構成を示す説明図である。
【図7】符号化されたウェーブレット係数値が収容されたパケットをサブバンド毎に表わしたコード・ストリーム構造を示す説明図である。
【図8】本発明の実施の一形態のシステム構築例を示す模式図である。
【図9】画像処理装置としてのクライアントコンピュータのモジュール構成図である。
【図10】画像処理装置の構成を示す機能ブロック図である。
【図11】検索対象制限装置の構成を示す機能ブロック図である。
【図12】構文解析手段によるヘッダ部情報の読み取りを示す説明図である。
【図13】類似度検出手段の構成を示す機能ブロック図である。
【図14】符号量差と類似度との関係を示す説明図である。
【図15】検索対象制限手段の構成を示す機能ブロック図である。
【図16】検索対象制限装置による検索対象制限処理について例示的に示す説明図である。
【図17】「類似度検出用の領域」を示す説明図である。
【符号の説明】
2 画像処理装置
15 記憶媒体
31 検索対象制限装置
32 画像伸長装置
33 OCR処理装置
34 文字検索装置
42 構文解析手段
43 検索対象制限手段
44 類似度検出手段
44a パケット長読取手段
44b パケット長記憶手段
44c 差分検出手段
45 条件指定手段
46 符号列作成手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a search target restriction device, an image processing device, a program, a storage medium, and a search target restriction method.
[0002]
[Prior art]
Due to advances in image input technology and output technology, the demand for higher definition of images has increased greatly in recent years. For example, taking a digital camera as an example of an image input device, the price of a high-performance charge coupled device (CCD) having a number of pixels of 3 million or more has progressed, and the spread price range has increased. It has come to be widely used in products. And it is said that this increasing trend in the number of pixels will continue for a while.
[0003]
On the other hand, with regard to image output / display devices, for example, products in the hard copy field such as laser printers, ink jet printers, sublimation printers, and flats such as CRTs, LCDs (liquid crystal display devices), and PDPs (plasma display devices). The high definition and low price of products in the soft copy field of panel displays are remarkable.
[0004]
Due to the market launch of these high-performance, low-priced image input / output products, high-definition images have become popular, and it is expected that demand for high-definition images will increase in all situations. In fact, the development of technologies related to networks such as personal computers and the Internet is accelerating these trends. In particular, recently, mobile devices such as mobile phones and notebook personal computers have become very popular, and opportunities for transmitting or receiving high-definition images from any point using communication means are rapidly increasing.
[0005]
Against this background, it is inevitable that the demand for higher performance or higher functionality for image compression / decompression technology that facilitates the handling of high-definition images will become stronger in the future.
[0006]
Thus, in recent years, a new method called JPEG2000, which can restore high-quality images even at a high compression rate, is being standardized as one of image compression methods that satisfy these requirements. In JPEG2000, it is possible to perform compression / decompression processing in a small memory environment by dividing an image into rectangular regions (tiles). That is, each tile becomes a basic unit for executing the compression / decompression process, and the compression / decompression operation can be performed independently for each tile.
[0007]
In general, when a paper document (original) is stored electronically, the following processes are executed in order. First, a paper document (original) is read one by one using an image input device such as a scanner or a digital still camera. Next, the read image data is converted into encoded data such as JPEG or JPEG2000 using an image compression apparatus. Finally, the compressed encoded data is stored in the storage device.
[0008]
By the way, image processing such as OCR (Optical Character Reader) processing for character recognition may be performed on the encoded data stored and saved in the storage device by such a procedure. Various methods are considered for this OCR processing. Basically, a character image (binarized image) is cut out from a document image obtained by decoding encoded data, and the cut character image is converted into a character image. Are compared with a dictionary file stored in advance (pattern matching), and a character code combined with a character image with a small difference or a character image with a large similarity is output as an OCR processing result.
[0009]
[Problems to be solved by the invention]
However, in the OCR process as described above, in order to cut out a character image (binarized image) from a document image, the encoded frequency transform coefficient value is decoded and further inversely quantized. Since the processing is necessary, the processing time becomes long, so that it is desired to increase the processing speed.
[0010]
An object of the present invention is to provide a search target restriction device, an image processing device, a program, a storage medium, and a search target restriction method capable of executing a character search in a short time.
[0011]
[Means for Solving the Problems]
  The search object restriction device of the invention according to claim 1 is:A storage unit and a code string input unit that receives input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area, and hierarchically compressing and encoding the pixel values And the enteredParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.Parsing means,AboveParsing meansThe packet length is read from the header information acquired by the above, and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, and newly input The packet length is read from the code string data of the document image as the current page, and a difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit is used as a similarity.Similarity detection means to detect and detected by the similarity detection meansWhen the similarity is less than or equal to a predetermined threshold,Search object restriction means for excluding code string data relating to a predetermined area of the document image as the current page from character search objects.
[0012]
  Therefore, a predetermined area of image data is input based on the packet length read based on the analysis result of the syntax of the code string data created by frequency-converting the pixel value for each rectangular area and hierarchically compressing and encoding. Similarity indicating the degree of change between the code string data relating to the predetermined area of the document image as the current page and the code string data relating to the predetermined area of the document image as the reference page is detected, and input according to the similarity Code string data relating to a predetermined area of the document image as the current page is excluded from the character search target. Thereby, the similarity is detected without going through a complicated process of decoding and dequantizing the code string data, and the code string data relating to a predetermined region of the document image as the current page input according to the similarity Is excluded from the character search target, it is possible to execute the character search in a short time.
Also, the similarity between the reference page and the current page for the predetermined area is detected by comparing the packet length, which is the code amount of the frequency conversion coefficient value between the current page and the reference page for the predetermined area of the image data. . As a result, when detecting the similarity between the reference page and the predetermined area for the predetermined area, a complicated process of decoding and further dequantizing the encoded frequency transform coefficient value is not required. It becomes possible to quickly and accurately determine the degree of similarity with respect to a predetermined area with the current page.
[0013]
According to a second aspect of the present invention, in the search target restriction device according to the first aspect, the apparatus further comprises a condition designating unit for designating a syntax analysis condition in the syntax analysis unit.
[0014]
Therefore, for example, by specifying arbitrarily the area of the rectangular area, the number of components (color components), the subband bandwidth, etc. as the parsing conditions, the accuracy of the similarity and the detection processing speed are optimized according to the user's desire. It becomes possible to become.
[0016]
Accordingly, the similarity between the reference page and the current page for the predetermined area is detected by comparing the packet length, which is the code amount of the frequency conversion coefficient value between the current page and the reference page for the predetermined area of the image data. . As a result, when detecting the similarity between the reference page and the predetermined area for the predetermined area, a complicated process of decoding and further dequantizing the encoded frequency transform coefficient value is not required. It becomes possible to quickly and accurately determine the degree of similarity with respect to a predetermined area with the current page.
[0017]
  Claim3The described invention is claimed.1 or 2In the search target restriction device described in the above, the search target restriction means rewrites the information in the header part of the code string data so as to ignore the packet constituting the code string data related to the predetermined area at the time of character search.
[0018]
Therefore, it is possible to exclude code string data relating to a predetermined area of the current page from the character search target.
[0019]
  The invention according to claim 5Claim 3In the described search target restriction device, the search target restriction unit deletes data in a payload portion of code string data relating to a predetermined area.
[0020]
Therefore, it is possible to exclude code string data relating to a predetermined area of the current page from the character search target.
[0021]
  Claim5The described invention is claimed.3The search object restriction device described above further comprises code string creating means for arranging the code string data in which the information in the header portion is rewritten by the search object restriction means into code string data in a standard format.
[0022]
Therefore, the newly generated code string data can be decompressed by a general-purpose decoder.
[0023]
  Claim6The invention described in claim 1 to claim 15In the search target restriction device according to any one of the above, the rectangular area that is a division unit is a tile in the “JPEG2000 algorithm”.
[0024]
Therefore, discrete wavelet transform can be used as frequency transform.
[0025]
  Claim7The invention described in claim 1 to claim 15In the search target restriction device according to any one of the above, the rectangular area that is a division unit is a precinct in the “JPEG2000 algorithm”.
[0026]
Accordingly, even when tile division is not performed (all image areas = tiles), it is possible to detect the similarity of a predetermined area between the reference page and the current page in the same manner as the tile unit. Further, the detection unit can be an image area smaller than the tile.
[0027]
  Claim8The invention described in claim 1 to claim 15In the search target restriction device according to any one of the above, the rectangular area that is a division unit is a code block in the “JPEG2000 algorithm”.
[0028]
Accordingly, even when tile division is not performed (all image areas = tiles), it is possible to detect the similarity of a predetermined area between the reference page and the current page in the same manner as the tile unit. Further, the detection unit can be an image area smaller than the tile.
[0029]
  Claim9The image processing apparatus according to the present invention is the first aspect.8The search target restriction device according to any one of the above, and image decompression that divides image data into one or a plurality of rectangular regions, and frequency-converts pixel values for each rectangular region and decompresses code string data that is hierarchically compressed and encoded A device, an OCR processing device that performs OCR (Optical Character Reader) processing for character recognition on a document image expanded by the image expansion device, and a character code output as an OCR processing result by the OCR processing device. A character search device for searching for a desired character from the inside.
[0030]
Therefore, it is possible to provide an image processing apparatus that exhibits the same operation as that of any one of the first to ninth aspects.
[0031]
  Claim10The program of the described invention is a program that is installed in a computer, or is interpreted and executed.A storage unit and a code string input unit that receives input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area, and hierarchically compressing and encoding the pixel values And the enteredParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.A parsing function,AboveParsing meansThe packet length is read from the header information acquired by the above, and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, and newly input The packet length is read from the code string data of the document image as the current page, and a difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit is used as a similarity.A similarity detection function to detect and detected by the similarity detection meansWhen the similarity is less than or equal to a predetermined threshold,And a search target restriction function for excluding code string data relating to a predetermined area of the document image as the current page from a character search target.
[0032]
  Therefore, a predetermined area of image data is input based on the packet length read based on the analysis result of the syntax of the code string data created by frequency-converting the pixel value for each rectangular area and hierarchically compressing and encoding. Similarity indicating the degree of change between the code string data relating to the predetermined area of the document image as the current page and the code string data relating to the predetermined area of the document image as the reference page is detected, and input according to the similarity Code string data relating to a predetermined area of the document image as the current page is excluded from the character search target. Thereby, the similarity is detected without going through a complicated process of decoding and dequantizing the code string data, and the code string data relating to a predetermined region of the document image as the current page input according to the similarity Is excluded from the character search target, it is possible to execute the character search in a short time.
Also, the similarity between the reference page and the current page for the predetermined area is detected by comparing the packet length, which is the code amount of the frequency conversion coefficient value between the current page and the reference page for the predetermined area of the image data. . As a result, when detecting the similarity between the reference page and the predetermined area for the predetermined area, a complicated process of decoding and further dequantizing the encoded frequency transform coefficient value is not required. It becomes possible to quickly and accurately determine the degree of similarity with respect to a predetermined area with the current page.
[0033]
  Claim11The described invention is claimed.10In the described program, the computer is caused to execute a condition specifying function for specifying a syntax analysis condition in the syntax analysis function.
[0034]
Therefore, for example, by specifying arbitrarily the area of the rectangular area, the number of components (color components), the subband bandwidth, etc. as the parsing conditions, the accuracy of the similarity and the detection processing speed are optimized according to the user's desire. It becomes possible to become.
[0037]
  Claim12The described invention is claimed.10 or 11In the described program, the search target restriction function rewrites information in the header portion of the code string data so as to ignore a packet constituting the code string data related to the predetermined area during character search.
[0038]
Therefore, it is possible to exclude code string data relating to a predetermined area of the current page from the character search target.
[0039]
  Claim13The described invention is claimed.10 or 11In the described program, the search target restriction function deletes data in a payload portion of code string data relating to a predetermined area.
[0040]
Therefore, it is possible to exclude code string data relating to a predetermined area of the current page from the character search target.
[0041]
  Claim14The described invention is claimed.11In the program described above, the computer is caused to execute a code string creation function that arranges code string data in which information in the header portion is rewritten by the search target restriction function into code string data in a standard format.
[0042]
Therefore, the newly generated code string data can be decompressed by a general-purpose decoder.
[0043]
  Claim15The described invention is claimed.10 to 14In the program described in any one of the above, the rectangular area that is a division unit is a tile in the “JPEG2000 algorithm”.
[0044]
Therefore, discrete wavelet transform can be used as frequency transform.
[0045]
  Claim16The described invention is claimed.10 to 14In the program described in any one of the above, the rectangular area that is a division unit is a precinct in the “JPEG2000 algorithm”.
[0046]
Therefore, even when tile division is not performed (all image areas = tiles), it is possible to detect the similarity of a predetermined area between the reference page and the current page in the same manner as the tile unit. Further, the detection unit can be an image area smaller than the tile.
[0047]
  Claim17The described invention is claimed.10 to 14In the program described in any one of the above, the rectangular area which is a division unit is a code block in the “JPEG2000 algorithm”.
[0048]
Accordingly, even when tile division is not performed (all image areas = tiles), it is possible to detect the similarity of a predetermined area between the reference page and the current page in the same manner as the tile unit. Further, the detection unit can be an image area smaller than the tile.
[0049]
  Claim18The storage medium of the described invention is the claim.10 to 17Is stored.
[0050]
Therefore, by causing a computer to read the program stored in the storage medium, it is possible to obtain the same operation as that of the invention according to any one of claims 11 to 19.
[0051]
  Claim19The search object restriction method of the described invention is:A code string input step for receiving input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area and hierarchically compressing and encoding the pixel values; SaidParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.The parsing process;AboveParsing processThe packet length is read from the header information acquired by the above-described method, and the read one packet length is stored in the storage means as the packet length of the document image as the reference page to be compared, and the newly input current The packet length is read from the code string data of the document image as a page, and a difference value between the packet length and the packet length of the document image as the reference page stored by the storage unit is used as a similarity.Detected by the similarity detection step to detect and the similarity detection stepWhen the similarity is less than or equal to a predetermined threshold,A search target restriction step of excluding code string data relating to a predetermined area of the document image as the current page from the character search target.
[0052]
Therefore, a predetermined area of image data is input based on the packet length read based on the analysis result of the syntax of the code string data created by frequency-converting the pixel value for each rectangular area and hierarchically compressing and encoding. Similarity indicating the degree of change between the code string data relating to the predetermined area of the document image as the current page and the code string data relating to the predetermined area of the document image as the reference page is detected, and input according to the similarity Code string data relating to a predetermined area of the document image as the current page is excluded from the character search target. Thereby, the similarity is detected without going through a complicated process of decoding and dequantizing the code string data, and the code string data relating to a predetermined region of the document image as the current page input according to the similarity Is excluded from the character search target, it is possible to execute the character search in a short time.
[0053]
DETAILED DESCRIPTION OF THE INVENTION
An embodiment of the present invention will be described with reference to FIGS.
[0054]
First, an outline of the “hierarchical encoding algorithm” and the “JPEG2000 algorithm” which are the premise of the present invention will be described.
[0055]
FIG. 1 is a functional block diagram of a system that implements a hierarchical encoding algorithm that is the basis of the JPEG2000 system. This system includes color space transform / inverse transform unit 101, two-dimensional wavelet transform / inverse transform unit 102, quantization / inverse quantization unit 103, entropy encoding / decoding unit 104, and tag processing unit 105. It is configured.
[0056]
One of the biggest differences between this system and the conventional JPEG algorithm is the conversion method. In JPEG, discrete cosine transform (DCT) is used. In this hierarchical coding algorithm, the two-dimensional wavelet transform / inverse transform unit 102 uses discrete wavelet transform (DWT). ing. DWT has the advantage of better image quality in the high compression region than DCT, and this is one of the main reasons why DWT is adopted in JPEG2000, which is a successor algorithm of JPEG.
[0057]
Another major difference is that in this hierarchical encoding algorithm, a functional block of the tag processing unit 105 is added in order to perform code formation at the final stage of the system. The tag processing unit 105 generates compressed data as code string data during an image compression operation, and interprets code string data necessary for decompression during the decompression operation. And JPEG2000 can realize various convenient functions by code string data. For example, the compression / decompression operation of a still image can be freely stopped at an arbitrary layer (decomposition level) corresponding to octave division in block-based DWT (see FIG. 3 described later).
[0058]
In many cases, color space conversion / inverse conversion 101 is connected to the input / output portion of the original image. For example, the RGB color system composed of R (red) / G (green) / B (blue) components of the primary color system and the Y (yellow) / M (magenta) / C (cyan) components of the complementary color system This corresponds to the part that performs conversion or reverse conversion from the YMC color system consisting of the above to the YUV or YCbCr color system.
[0059]
Next, the JPEG2000 algorithm will be described.
[0060]
As shown in FIG. 2, in a color image, each component 111 (RGB primary color system here) of an original image is generally divided by a rectangular area. This divided rectangular area is generally called a block or a tile. In JPEG2000, it is generally called a tile. Therefore, such a divided rectangular area is hereinafter referred to as a tile. (In the example of FIG. 2, each component 111 is divided into a total of 16 rectangular tiles 112, 4 × 4 in length and breadth). When such individual tiles 112 (R00, R01,..., R15 / G00, G01,..., G15 / B00, B01,..., B15 in the example of FIG. 2) execute the image data compression / decompression process. It becomes the basic unit. Therefore, the compression / decompression operation of the image data is performed independently for each component and for each tile 112.
[0061]
At the time of encoding image data, the data of each tile 112 of each component 111 is input to the color space conversion / inverse conversion unit 101 in FIG. A dimensional wavelet transform (forward transform) is applied to divide the space into frequency bands.
[0062]
FIG. 3 shows subbands at each decomposition level when the number of decomposition levels is three. In other words, the tile original image (0LL) (decomposition level 0) obtained by tile division of the original image is subjected to two-dimensional wavelet transform, and the subbands (1LL, 1HL, 1LH shown in the decomposition level 1) , 1HH). Subsequently, the low-frequency component 1LL in this hierarchy is subjected to two-dimensional wavelet transformation to separate the subbands (2LL, 2HL, 2LH, 2HH) indicated by the decomposition level 2. Similarly, the low-frequency component 2LL is also subjected to two-dimensional wavelet transform to separate subbands (3LL, 3HL, 3LH, 3HH) shown in the decomposition level 3. In FIG. 3, the subbands to be encoded at each decomposition level are indicated by shading. For example, when the number of decomposition levels is 3, the subbands (3HL, 3LH, 3HH, 2HL, 2LH, 2HH, 1HL, 1LH, 1HH) indicated by shading are the encoding targets, and the 3LL subband is encoded. It is not converted.
[0063]
Next, the bits to be encoded are determined in the specified encoding order, and the context is generated from the bits around the target bits by the quantization / inverse quantization unit 103 shown in FIG.
[0064]
The wavelet coefficients that have undergone the quantization process are divided into non-overlapping rectangles called “precincts” for each subband. This was introduced to use memory efficiently in implementation. As shown in FIG. 4, one precinct consists of three rectangular regions that are spatially coincident. Further, each precinct is divided into non-overlapping rectangular “code blocks”. This is the basic unit for entropy coding.
[0065]
The coefficient values after wavelet transform can be quantized and encoded as they are, but in JPEG2000, in order to increase the encoding efficiency, the coefficient values are decomposed into “bit plane” units, and each pixel or code block is divided. Ranking can be performed on “bitplanes”.
[0066]
Here, FIG. 5 is an explanatory diagram showing an example of a procedure for ranking the bit planes. As shown in FIG. 5, this example is a case where the original image (32 × 32 pixels) is divided into four 16 × 16 pixel tiles, and the size of the precinct and code block at the composition level 1 is Each is 8 × 8 pixels and 4 × 4 pixels. The numbers of the precinct and the code block are assigned in raster order. In this example, the number of assigns is assigned from numbers 0 to 3, and the code block is assigned from numbers 0 to 3. A mirroring method is used for pixel expansion outside the tile boundary, wavelet transform is performed with a reversible (5, 3) filter, and a wavelet coefficient value of decomposition level 1 is obtained.
[0067]
An explanatory diagram showing an example of the concept of a typical “layer” configuration for tile 0 / precinct 3 / code block 3 is also shown in FIG. The converted code block is divided into subbands (1LL, 1HL, 1LH, 1HH), and wavelet coefficient values are assigned to the subbands.
[0068]
The layer structure is easy to understand when the wavelet coefficient values are viewed from the horizontal direction (bit plane direction). One layer is composed of an arbitrary number of bit planes. In this example, layers 0, 1, 2, and 3 are made up of bit planes of 1, 3, 1, and 3, respectively. A layer including a bit plane close to LSB (Least Significant Bit) is subject to quantization first. Conversely, a layer close to MSB (Most Significant Bit) is quantized to the end. It will remain without being. A method of discarding from a layer close to the LSB is called truncation, and the quantization rate can be finely controlled.
[0069]
The entropy encoding / decoding unit 104 illustrated in FIG. 1 performs encoding on the tile 112 of each component 111 by probability estimation from the context and the target bit. In this way, encoding processing is performed in units of tiles 112 for all components 111 of the original image. Finally, the tag processing unit 105 performs a process of combining all the encoded data from the entropy encoding / decoding unit 104 into one code string data and adding a tag thereto.
[0070]
FIG. 6 shows a schematic configuration for one frame of the code string data. Tag information called a header (main header, tile part header which is tile boundary position information, etc.) is provided at the head of the code string data and the head of the code data (bit stream) of each tile. Appended, followed by the encoded data for each tile. In the main header, coding parameters and quantization parameters are described. A tag (end of codestream) is placed again at the end of the code string data. FIG. 7 shows a code stream structure in which packets containing encoded wavelet coefficient values are represented for each subband. As shown in FIG. 7, the same packet string structure is obtained regardless of whether the tile division process is performed or the tile division process is not performed.
[0071]
On the other hand, when the encoded data is decoded, the image data is generated from the code string data of each tile 112 of each component 111, contrary to the case of encoding the image data. In this case, the tag processing unit 105 interprets tag information added to the code string data input from the outside, decomposes the code string data into code string data of each tile 112 of each component 111, and Decoding processing (decompression processing) is performed for each code string data of each tile 112. At this time, the position of the bit to be decoded is determined in the order based on the tag information in the code string data, and the quantization / inverse quantization unit 103 determines the peripheral bits (that have already been decoded) of the target bit position. Context is generated from the sequence of The entropy encoding / decoding unit 104 performs decoding by probability estimation from the context and code string data, generates a target bit, and writes it in the position of the target bit. Since the data decoded in this way is spatially divided for each frequency band, the two-dimensional wavelet transform / inverse transform unit 102 performs two-dimensional wavelet inverse transform on each of the components of the image data. The tile is restored. The restored data is converted to original color system image data by the color space conversion / inverse conversion unit 101.
[0072]
The above is the outline of the “JPEG2000 algorithm”.
[0073]
Hereinafter, an embodiment of the present invention will be described. Although an example relating to an image compression / decompression technique represented by JPEG2000 will be described here, it goes without saying that the present invention is not limited to the contents of the following description.
[0074]
The server computer and the client computer of the present embodiment execute image processing by being controlled by an image processing program that is installed in the computer or interpreted and executed. In this embodiment, a storage medium for storing such an image processing program is also introduced.
[0075]
FIG. 8 is a schematic diagram showing an example of system construction in the present embodiment.
[0076]
The image data processing system according to the present embodiment assumes a server client system 1 in which a plurality of client computers 4 are connected to a server computer 2 that is an image processing apparatus via a network 3 such as a LAN (Local Area Network). The server client system 1 has an environment in which an image input device 5 such as a scanner or a digital camera and an image output device 6 such as a printer can be shared on the network 3. Further, an MFP 7 called a multifunction peripheral may be connected on the network 3, and an environment may be constructed so that the MFP 7 functions as the image input device 5 or the image output device 6.
[0077]
Such a server client system 1 is constructed so as to be capable of data communication with another server client system 1 via, for example, an intranet 8 and constructed so as to be capable of data communication with an external environment via an Internet communication network 9.
[0078]
The server computer 2 includes a document management server 2a and a data conversion server 2b. The document management server 2a exhibits a document management function for storing image images of various documents as image data. The data conversion server 2b exhibits a data conversion function such as, for example, performing OCR (Optical Character Reader) processing on image data to extract text data.
[0079]
Hereinafter, the server computer 2 (particularly, the data conversion server 2b) that is an image processing apparatus that exhibits the characteristic functions of the present invention will be described.
[0080]
FIG. 9 is a module configuration diagram of the server computer 2 as the image processing apparatus according to the present embodiment. The server computer 2 stores a central processing unit (CPU) 11 that performs information processing, a primary storage device 14 such as a ROM (Read Only Memory) 12 and a RAM (Random Access Memory) 13 that store information, and a compression code that will be described later. A secondary storage device 16 such as an HDD (Hard Disk Drive) 15 as a storage unit; a removable disk device 17 such as a CD-ROM drive for storing information, distributing information to the outside, and obtaining information from the outside; A network interface 18 for communicating information with the image input device 5 and other external computers via the network 3, a CRT (Cathode Ray Tube) or LCD (Liquid Crystal) for displaying processing progress and results to the operator A display device 19 such as a display), a keyboard 20 for an operator to input commands and information to the CPU 11, and a mouse. And the like, and the bus controller 22 operates by arbitrating data transmitted and received between these units.
[0081]
In such a server computer 2, when the user turns on the power, the CPU 11 activates a program called a loader in the ROM 12, reads a program for managing the hardware and software of the computer called the operating system from the HDD 15 into the RAM 13, and this operating system Start up. Such an operating system starts a program, reads information, and performs storage according to a user operation. As typical operating systems, Windows (registered trademark), UNIX (registered trademark), and the like are known. An operation program running on these operating systems is called an application program.
[0082]
Here, the server computer 2 stores an image processing program in the HDD 15 as an application program. In this sense, the HDD 15 functions as a storage medium that stores the image processing program.
[0083]
In general, an operation program installed in the secondary storage device 16 such as the HDD 15 of the server computer 2 is recorded on an optical information recording medium such as a CD-ROM or DVD-ROM, a magnetic medium such as an FD, or the like. The recorded operation program is installed in the secondary storage device 16 such as the HDD 15. For this reason, portable storage media such as optical information recording media such as CD-ROM and magnetic media such as FD can also be storage media for storing image processing programs. Furthermore, the image processing program may be imported from the outside via, for example, the network interface 18 and installed in the secondary storage device 16 such as the HDD 15.
[0084]
In the server computer 2, when an image processing program operating on the operating system is started, the CPU 11 executes various arithmetic processes according to the image processing program and controls each unit intensively. Of the various types of arithmetic processing executed by the CPU 11 of the server computer 2, characteristic processing of the present embodiment will be described below.
[0085]
Here, functions realized by various arithmetic processes executed by the CPU 11 of the server computer 2 will be described. As shown in FIG. 10, the data conversion server 2b of the server computer 2, which is an image processing device, includes a search target limiting device 31 for limiting search targets related to character search in the subsequent stage, and image decompression for decoding encoded data. A device 32; an OCR processing device 33 that performs character recognition based on a document image obtained by decoding (decompressing) encoded data; and a character search device 34 that searches for a desired character based on a character code output as an OCR processing result. These functions are realized by various arithmetic processes executed by the CPU 11.
[0086]
The image decompression device 32 decodes (decompresses) encoded data that has been compression-encoded by JPEG using DCT for frequency conversion or JPEG2000 algorithm using DWT for frequency conversion. The image expansion apparatus 32 according to the present embodiment decodes (decompresses) encoded data compressed and encoded by the JPEG2000 algorithm according to the “JPEG2000 algorithm”. Note that the decoding (decompression) processing according to the “JPEG2000 algorithm” includes the spatial transform / inverse transform unit 101, the two-dimensional wavelet transform / inverse transform unit 102, the quantization / inverse quantization unit 103, and the entropy shown in FIG. Since the encoding / decoding unit 104 and the tag processing unit 105 have been described above, the description thereof is omitted here.
[0087]
The OCR processing device 33 cuts out a character image (binarized image) from the document image obtained by decoding the encoded data, and compares the cut out character image with a dictionary file in which a combination of the character image and the character code is stored in advance. (Pattern matching), and a character code combined with a character image with a small difference or a character image with a large similarity is output as an OCR processing result.
[0088]
The character search device 34 searches for a desired character from the character code output as the OCR processing result.
[0089]
Next, the search target restriction device 31 will be described. As shown in FIG. 11, the search target restriction device 31 includes a code string input means 41 that accepts input of a code string, a syntax analysis means 42, a search target restriction means 43, a similarity detection means 44, an extraction condition designation means 45, a code It is comprised from the various means of the sequence preparation means 46 and the code sequence output means 47 which outputs a code sequence. These various means are realized by processing performed by the CPU 11 in accordance with the above-described image processing program. In addition, when real-time property is regarded as important, it is necessary to speed up the processing. For this purpose, it is desirable to separately provide a logic circuit (not shown) and realize the functions of various means by the operation of the logic circuit.
[0090]
The syntax analysis means 42 decodes the syntax of the code string data input via the code string input means 41, that is, the data described in the header part, and outputs "header part information" to the similarity detection means 44 It is. Here, FIG. 12 is an explanatory diagram showing the reading of the header information by the syntax analysis means 42. As shown in FIG. 12, the data amount of the payload part, that is, the “packet length” is the sum of the number of frequency conversion coefficient values (the code amount of the frequency conversion coefficient value) and is described in the header part. Here, the frequency conversion coefficient value is a wavelet coefficient value. Then, the syntax analysis means 42 reads this header part information and outputs it to the similarity detection means 44.
[0091]
The extraction condition designating unit 45 provides only the necessary and sufficient information to the similarity detection unit 44, and the area, component (color component) of the rectangular region for the code string data input via the code string input unit 41. ) And a subband band, each of which functions as a condition designating unit. In this way, by specifying the area of the rectangular area, the number of components (color components), and the band of the subband for the code string data, the accuracy of the similarity and the detection processing speed are optimized according to the user's desire. It is possible to In other words, when considering the trade-off relationship between the detection accuracy of the similarity and the detection processing speed, and focusing on high speed, pay attention only to the low frequency subband of the luminance component in the small rectangular area. That's fine. Conversely, when accurate similarity is required, the area of the rectangular region of interest is increased, and the subbands are examined up to the high frequency range.
[0092]
The similarity detection means 44 generally includes the header part information of the code string data related to the input document image as the current page and the code string data related to the document image as the reference page stored in advance. The header part information is compared with each other, and the similarity indicating the degree of change between the current page and the reference page is detected.
[0093]
Here, the similarity between the current page and the reference page by the similarity detection unit 44 will be described. Here, a method for detecting the similarity between the current page and the reference page based on the data amount of the payload portion, that is, the “packet length” will be described. Here, FIG. 13 is a functional block diagram showing the configuration of the similarity detection means 44. As shown in FIG. 13, the similarity detection unit 44 that has received the header part information reads the packet length data of the input document from the header part information (packet length reading unit 44a). Then, the packet length data for the predetermined document image is stored as the packet length data of the reference page (packet length storage means 44b). Since the similarity between the current page and the reference page appears in the change amount of the code amount, that is, the change amount of the packet length, the difference between the current page and the reference page is obtained (difference detection means). 44c), the similarity between the current page and the reference page can be detected.
[0094]
Here, FIG. 14 is an explanatory diagram showing the relationship between the code amount difference and the similarity. As shown in FIG. 14, it can be seen that the degree of similarity increases as the absolute value of the code amount difference (packet length difference value) decreases. That is, regarding the code amount difference (difference value of packet length), if there is no change or very little between the current page and the reference page, the similarity between the current page and the reference page is very high. Can be considered. Conversely, when the absolute value of the difference in code amount difference (packet length difference value) is large, it can be considered that the similarity between the current page and the reference page is small, or the types of documents are different.
[0095]
The search target restriction unit 43 determines whether or not to perform a character search in the character search device 34 based on the “similarity between the current page and the reference page” received from the similarity detection unit 44. Here, FIG. 15 is a functional block diagram showing the configuration of the search target restricting means 43. As shown in FIG. 15, the search target restricting means 43 that has received the code string data and the “similarity between the current page and the reference page” sets the received “similarity between the current page and the reference page” by the user. The threshold value is compared to determine whether the current page and the reference page are similar (restriction target determining means 43a).
[0096]
When the received “similarity between the current page and the reference page” is equal to or less than the threshold value, that is, when the current page and the reference page are similar, the received code string data is stored in the switch 43b and the header rewriting means 43c. The received code string data is used as it is as code string data.
[0097]
On the other hand, when the received “packet length” exceeds the threshold value, that is, when the current page and the reference page are not similar, the received code string data is blocked by the switch 43b, and the header rewriting means 43c performs the code string data. The header part information is rewritten. In the header rewriting means 43c, the information in the header portion of the code string data is rewritten so that this packet is ignored during character search in the character search device 34. Instead of rewriting the information in the header part of the code string data in this way, the data in the payload part of the code data may be deleted.
[0098]
The code string creating means 46 prepares the code string data in which the information of the header part of the code string data has been rewritten by the search target restricting means 43 into standard format code string data. By doing so, it is possible to decompress the newly generated code string data with a general-purpose decoder.
[0099]
The search object restriction processing by the search object restriction device 31 as described above will be described in more detail with reference to FIG. Generally, in each document (original) in the same document, headers (footers) having the same contents are continuous as shown in FIG. For the OCR processing in the OCR processing device 33 and the character search in the character search device 34, such a header (footer) is also an object. Therefore, when the number of documents reaches a large number of pages, such a header ( The footer has a great influence on the search processing speed.
[0100]
Therefore, in the data conversion server 2b of the server computer 2 that is the image processing apparatus of the present embodiment, if the header (footer) has the same contents, the similarity between the current page and the reference page is considered to be very high. Therefore, only the header (footer) that appears first by the search object restriction process by the search object restriction device 31 is left or recognized, and the header (footer) that appears after that is deleted, Alternatively, the search processing speed is increased by ignoring it. In the example illustrated in FIG. 16, the reference page is the previous page, but a plurality of reference pages may be provided or may be changed in the middle.
[0101]
However, in order to detect the similarity of the header (footer) between the current page and the reference page in this way, a “similarity detection area” for reading the header information is designated in advance in units of rectangular areas. It is a premise. When the code string is in the JPEG2000 format, tiles, precincts, or code blocks can be used as the rectangular areas constituting the “similarity detection area”. Here, as shown in FIG. 17, the “similarity detection area” composed of tiles is designated to include a header. The determination accuracy of whether or not the header has already appeared and the time required for the determination can be adjusted by designating the rectangular area, subband, and color component.
[0102]
In order to further improve the accuracy of the search, the positional deviation between pages is removed from the code data of the current page in which the entire image area has been read, and unnecessary information such as dirt on the outer edge of the page and punch holes are removed. It is desirable to remove it.
[0103]
Here, based on the packet length read based on the analysis result of the syntax of the code string data created by frequency-converting the pixel value of each predetermined area of the image data and performing hierarchical compression coding A similarity indicating the degree of change between the code string data relating to the predetermined area of the document image as the current page and the code string data relating to the predetermined area of the document image as the reference page is detected, and according to the similarity Code string data relating to a predetermined region of the input document image as the current page is excluded from character search targets. Thereby, the similarity is detected without going through a complicated process of decoding and dequantizing the code string data, and the code string data relating to a predetermined region of the document image as the current page input according to the similarity Is excluded from the character search target, it is possible to execute the character search in a short time.
[0104]
In the present embodiment, the case where the tile division process is performed on the original image has been described. However, the present invention is not limited to this. Even when tile division is not performed on the original image, if a precinct or a code block is used as a rectangular area, the similarity between the reference page and the current page can be detected as in the case of tile division. Is possible.
[0105]
【The invention's effect】
  According to the search object restriction device of the invention of claim 1,A storage unit and a code string input unit that receives input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area, and hierarchically compressing and encoding the pixel values And the enteredParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.Parsing means,AboveParsing meansThe packet length is read from the header information acquired by the above, and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, and newly input The packet length is read from the code string data of the document image as the current page, and a difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit is used as a similarity.Similarity detection means to detect and detected by the similarity detection meansWhen the similarity is less than or equal to a predetermined threshold,Since the character string data relating to the predetermined area of the document image as the current page is excluded from the character search target, the character search can be executed in a short time.Further, the similarity between the reference page and the current page with respect to a predetermined area can be obtained at high speed and accurately.
[0106]
According to a second aspect of the present invention, in the search target restricting device according to the first aspect, by providing the condition specifying means for specifying the syntax analysis condition in the syntax analysis means, for example, the area of the rectangular area as the syntax analysis condition By arbitrarily designating the number of components (color components), subband bands, etc., the accuracy of the similarity and the detection processing speed can be optimized according to the user's desire.
[0108]
  Claim3According to the described invention, claim 1Or 2In the search target restriction device described above, the search target restriction unit rewrites the information of the header portion of the code string data so as to ignore the packet constituting the code string data related to the predetermined area at the time of character search, Code string data relating to a predetermined area of the current page can be excluded from character search targets.
[0109]
  Claim4According to the described invention, claim 1Or 2In the described search target restriction device, the search target restriction means excludes the code string data related to the predetermined area of the current page from the character search target by deleting the data of the payload portion of the code string data related to the predetermined area. can do.
[0110]
  Claim5According to the described invention, the claims3In the search target restriction device described above, a general-purpose decoder is newly provided with a code string creation unit that arranges code string data in which information in the header part has been rewritten by the search target restriction unit into standard format code string data. The generated code string data can be expanded.
[0111]
  Claim6The invention described in claim 1 to claim 15In the search target restriction device according to any one of the above, the rectangular area that is a division unit is a tile in the “JPEG2000 algorithm”, so that discrete wavelet transform can be used as frequency transform.
[0112]
  Claim7According to the described invention, claims 1 to5In the search target restriction device according to any one of the above, the rectangular area that is a division unit is the same as the tile unit even when tile division is not performed (all image areas = tiles) because it is a precinct in the “JPEG2000 algorithm” As described above, the similarity between the reference page and the current page in the predetermined area can be detected, and the detection unit can be an image area smaller than the tile.
[0113]
  Claim8According to the described invention, claims 1 to5In the search target restriction device according to any one of the above, the rectangular area that is a division unit is a code block in the “JPEG2000 algorithm”, and therefore, when tile division is not performed (all image areas = tiles) Similarly to the above, it is possible to detect the similarity between the reference page and the current page for a predetermined area, and the detection unit can be an image area smaller than the tile.
[0114]
  Claim9According to the image processing apparatus of the invention described in claims 1 to8The search target restriction device according to any one of the above, and image decompression that divides image data into one or a plurality of rectangular regions, and frequency-converts pixel values for each rectangular region and decompresses code string data that is hierarchically compressed and encoded A device, an OCR processing device that performs OCR (Optical Character Reader) processing for character recognition on a document image expanded by the image expansion device, and a character code output as an OCR processing result by the OCR processing device. By providing a character search device for searching for a desired character from the inside, it is possible to provide an image processing device that exhibits the same effects as the invention according to any one of claims 1 to 9.
[0115]
  According to the program of the invention described in claim 10, the program is installed in a computer or interpreted and executed, andA storage unit and a code string input unit that receives input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area, and hierarchically compressing and encoding the pixel values And the enteredParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.A parsing function,AboveParsing meansThe packet length is read from the header information acquired by the above, and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, and newly input The packet length is read from the code string data of the document image as the current page, and a difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit is used as a similarity.A similarity detection function to detect and detected by the similarity detection meansWhen the similarity is less than or equal to a predetermined threshold,Since the character string data relating to the predetermined area of the document image as the current page is excluded from the character search target, the character search can be executed in a short time.Further, the similarity between the reference page and the current page with respect to a predetermined area can be obtained at high speed and accurately.
[0116]
  Claim11According to the described invention, the claims10In the described program, by causing the computer to execute a condition specifying function for specifying a parsing condition in the parsing function, for example, the area of the rectangular area, the number of components (color components), the subband By arbitrarily designating a band or the like, the accuracy of the similarity and the detection processing speed can be optimized according to the desire of the user.
[0118]
  Claim12According to the described invention, the claims10 or 11In the program described above, the search target restriction function rewrites the information in the header portion of the code string data so as to ignore the packet that configures the code string data related to the predetermined area during character search. The code string data relating to the predetermined area can be excluded from the character search target.
[0119]
  Claim13According to the described invention, claim 10 is provided.Or 11In the program according to one aspect, the search target restriction function excludes code string data related to a predetermined area of the current page from character search targets by deleting data in a payload portion of the code string data related to the predetermined area. Can do.
[0120]
  Claim14According to the described invention, the claims11In the program described above, a general-purpose decoder is used to execute a code string creation function for adjusting the code string data in which the header part information has been rewritten by the search target restriction function into a standard-format code string data. The generated code string data can be expanded.
[0121]
  Claim15According to the described invention, the claims10 to 14In the program described in any one of the above, the rectangular area that is a division unit is a tile in the “JPEG2000 algorithm”. Thus, discrete wavelet transform can be used as frequency transform.
[0122]
  Claim16According to the described invention, the claims10 to 14In the program described in any one of the above, even if the tile area is a precinct in the “JPEG2000 algorithm” and the tile division is not performed (all image areas = tiles), The similarity between the reference page and the current page in a predetermined area can be detected, and the detection unit can be an image area smaller than the tile.
[0123]
  Claim17According to the described invention, the claims10 to 14In the program described in any one of the above, the rectangular area that is a division unit is a code block in the “JPEG2000 algorithm”, and therefore, even when tile division is not performed (all image areas = tiles), the same as the tile unit In addition, the similarity between the reference page and the current page in a predetermined area can be detected, and the detection unit can be an image area smaller than the tile.
[0124]
  Claim18According to the storage medium of the described invention, the claim10 to 17By storing the program according to any one of the above, and causing the computer to read the program stored in the storage medium, the same effects as the invention according to any one of claims 11 to 19 are obtained. be able to.
[0125]
  Claim19The search object restriction method of the described invention is:A code string input step for receiving input of code string data generated by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area and hierarchically compressing and encoding the pixel values; SaidParse code string data syntaxTo obtain header information in which the packet length of the packet constituting the code string data relating to the predetermined area is described.The parsing process;AboveParsing processThe packet length is read from the header information acquired by the above-described method, and the read one packet length is stored in the storage means as the packet length of the document image as the reference page to be compared, and the newly input current The packet length is read from the code string data of the document image as a page, and a difference value between the packet length and the packet length of the document image as the reference page stored by the storage unit is used as a similarity.Detected by the similarity detection step to detect and the similarity detection stepWhen the similarity is less than or equal to a predetermined threshold,A search object restriction step of excluding code string data relating to a predetermined area of the document image as the current page from a character search target, and by converting the pixel value of the predetermined area of the image data to a rectangular area by frequency conversion hierarchically Based on the packet length read based on the analysis result of the syntax of the code string data created by compression encoding, the code string data relating to a predetermined area of the input document image as the current page and the document as the reference page The similarity indicating the degree of change from the code string data related to the predetermined area of the image is detected, and the code string data related to the predetermined area of the document image as the current page input according to the similarity is subjected to character search. The similarity is detected without going through a complicated process of decoding and dequantizing the code string data, and the current page input according to the similarity is detected. The code string data according to a predetermined region of the document image of Te case is excluded from an object of the character search, it is possible to perform character search in a short time.
[Brief description of the drawings]
FIG. 1 is a functional block diagram of a system that realizes a hierarchical encoding algorithm that is the basis of the JPEG2000 system that is a premise of the present invention.
FIG. 2 is an explanatory diagram showing a divided rectangular area of each component of the original image.
FIG. 3 is an explanatory diagram showing subbands at each decomposition level when the number of decomposition levels is 3. FIG.
FIG. 4 is an explanatory diagram showing a precinct.
FIG. 5 is an explanatory diagram showing an example of a procedure for ranking bit planes;
FIG. 6 is an explanatory diagram illustrating a schematic configuration of one frame of code string data.
FIG. 7 is an explanatory diagram showing a code stream structure representing a packet containing encoded wavelet coefficient values for each subband.
FIG. 8 is a schematic diagram showing a system construction example according to an embodiment of the present invention.
FIG. 9 is a module configuration diagram of a client computer as an image processing apparatus.
FIG. 10 is a functional block diagram illustrating a configuration of an image processing apparatus.
FIG. 11 is a functional block diagram illustrating a configuration of a search target restriction device.
FIG. 12 is an explanatory diagram illustrating reading of header part information by a syntax analysis unit.
FIG. 13 is a functional block diagram showing a configuration of similarity detection means.
FIG. 14 is an explanatory diagram illustrating a relationship between a code amount difference and a similarity.
FIG. 15 is a functional block diagram showing a configuration of a search target restriction unit.
FIG. 16 is an explanatory diagram exemplarily showing search target restriction processing by the search target restriction device;
FIG. 17 is an explanatory diagram showing a “similarity detection area”;
[Explanation of symbols]
2 Image processing device
15 storage media
31 Search target restriction device
32 Image decompression device
33 OCR processing equipment
34 Character search device
42 Syntax analysis means
43 Search target restriction means
44 Similarity detection means
44a Packet length reading means
44b Packet length storage means
44c Difference detection means
45 Condition specifying means
46 Code string creation means

Claims (19)

記憶部と、
画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、
入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析手段と、
前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出手段と、
前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限手段と、を備える検索対象制限装置。
A storage unit;
Code string input means for receiving input of code string data created by dividing image data into one or a plurality of rectangular areas, and frequency-converting and hierarchically compressing and encoding pixel values for each of the rectangular areas;
A syntax analysis means for analyzing the syntax of the input code string data and obtaining header information in which packet lengths of packets constituting the code string data relating to the predetermined area are described ;
The packet length is read from the header information acquired by the syntax analysis unit , and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, The packet length is read from the code string data of the document image as the current page input to the page, and the difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit Similarity detection means for detecting as a similarity,
Search target limiting means for excluding code string data relating to a predetermined area of the document image as the current page from character search targets when the similarity detected by the similarity detection means is equal to or less than a predetermined threshold. And a search target limiting device.
前記構文解析手段における構文解析条件を指定する条件指定手段を備える請求項1記載の検索対象制限装置。  The search object restriction device according to claim 1, further comprising condition specifying means for specifying a syntax analysis condition in the syntax analysis means. 前記検索対象制限手段は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換える請求項1または2に記載の検索対象制限装置。The search object restriction unit according to claim 1 or 2, wherein the search object restriction unit rewrites information in a header portion of code string data so as to ignore a packet constituting the code string data related to the predetermined area during character search. apparatus. 前記検索対象制限手段は、所定領域に係る符号列データのペイロード部のデータを削除する請求項1または2に一記載の検索対象制限装置。The search target limiting means, search target limiting device according to claim 1 or 2 to one described to remove data in the payload portion of the code stream according to the predetermined region. 前記検索対象制限手段によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成手段を備える請求項3に記載の検索対象制限装置。The search target restriction device according to claim 3, further comprising: a code string creating unit that arranges the code string data in which information in the header part is rewritten by the search target restriction unit into a standard format code string data. 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルである請求項1ないしのいずれか一記載の検索対象制限装置。Rectangular area is a divided unit is "JPEG2000 algorithm" search target restriction apparatus as claimed in 5 claims 1 a tile in. 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトである請求項1ないしのいずれか一記載の検索対象制限装置。Rectangular area is a divided unit is "JPEG2000 algorithm" search target restriction apparatus as claimed in 5 claims 1 a precinct in. 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックである請求項1ないしのいずれか一記載の検索対象制限装置。Rectangular area is a division unit, the search target restriction apparatus as claimed in 5 claims 1 a code block in the "JPEG2000 algorithm". 請求項1ないしのいずれか一記載の検索対象制限装置と、
画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化した符号列データを伸長する画像伸長装置と、
この画像伸長装置により伸長された文書画像に対して文字認識を行うOCR(Optical Character Reader)処理を実行するOCR処理装置と、
このOCR処理装置によるOCR処理結果として出力された文字コードの中から所望の文字を検索する文字検索装置と、を備える画像処理装置。
The search object restriction device according to any one of claims 1 to 8 ,
An image decompression device that divides image data into one or a plurality of rectangular regions, decompresses code string data that is subjected to frequency conversion of pixel values for each rectangular region and hierarchically compression-encoded, and
An OCR processing device for performing OCR (Optical Character Reader) processing for character recognition on a document image expanded by the image expansion device;
An image processing device comprising: a character search device that searches for a desired character from character codes output as a result of OCR processing by the OCR processing device.
コンピュータにインストールされるか、あるいは解釈されて実行されるプログラムであって、前記コンピュータに、
記憶部と、
画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力手段と、
入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析機能と、
前記構文解析手段により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として前記記憶部に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶部に保存されている前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出機能と、
前記類似度検出手段により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限機能と、
を実行させるコンピュータに読取り可能なプログラム。
A program that is installed on a computer or that is interpreted and executed on the computer,
A storage unit;
Code string input means for receiving input of code string data created by dividing image data into one or a plurality of rectangular areas, and frequency-converting and hierarchically compressing and encoding pixel values for each of the rectangular areas;
A syntax analysis function for analyzing the syntax of the input code string data and obtaining header information in which packet lengths of packets constituting the code string data related to the predetermined area are described ;
The packet length is read from the header information acquired by the syntax analysis unit , and the read one packet length is stored in the storage unit as the packet length of the document image as a reference page to be compared, The packet length is read from the code string data of the document image as the current page input to the page, and the difference value between the packet length and the packet length of the document image as the reference page stored in the storage unit A similarity detection function for detecting as a similarity,
A search target restriction function for excluding code string data related to a predetermined area of the document image as the current page from a character search target when the similarity detected by the similarity detection means is not more than a predetermined threshold. When,
A program that can be read by a computer.
前記構文解析機能における構文解析条件を指定する条件指定機能を前記コンピュータに実行させる請求項10記載のプログラム。11. The program according to claim 10, which causes the computer to execute a condition specifying function for specifying a syntax analysis condition in the syntax analysis function. 前記検索対象制限機能は、文字検索の際に所定領域に係る符号列データを構成するパケットを無視するように、符号列データのヘッダ部の情報を書き換える請求項10または11に記載のプログラム。The program according to claim 10 or 11, wherein the search target restriction function rewrites information in a header portion of code string data so as to ignore a packet constituting the code string data related to a predetermined area during character search. 前記検索対象制限機能は、所定領域に係る符号列データのペイロード部のデータを削除する請求項10または11に記載のプログラム。The program according to claim 10 or 11, wherein the search target restriction function deletes data in a payload portion of code string data relating to a predetermined area. 前記検索対象制限機能によりヘッダ部の情報が書き換えられた符号列データを標準形式の符号列データに整える符号列作成機能を前記コンピュータに実行させる請求項11に記載のプログラム。12. The program according to claim 11, which causes the computer to execute a code string creation function that arranges code string data in which information in a header part is rewritten by the search target restriction function into code string data in a standard format. 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるタイルである請求項10ないし14のいずれか一記載のプログラム。The program according to any one of claims 10 to 14 , wherein the rectangular area as a division unit is a tile in the "JPEG2000 algorithm". 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるプレシンクトである請求項10ないし14のいずれか一記載のプログラム。15. The program according to claim 10 , wherein the rectangular area as a division unit is a precinct in the “JPEG2000 algorithm”. 分割単位である矩形領域は、「JPEG2000アルゴリズム」におけるコード・ブロックである請求項10ないし14のいずれか一記載のプログラム。15. The program according to claim 10 , wherein the rectangular area as a division unit is a code block in the “JPEG2000 algorithm”. 請求項10ないし17のいずれか一記載のプログラムを記憶している記憶媒体。A storage medium storing the program according to any one of claims 10 to 17 . 画像データについて1又は複数の矩形領域に分割し当該矩形領域毎に画素値を周波数変換し階層的に圧縮符号化することにより作成された符号列データの入力を受け付ける符号列入力工程と、
入力された前記符号列データの構文を解析して、所定領域に係る符号列データを構成するパケットのパケット長が記述されたヘッダ情報を取得する構文解析工程と、
前記構文解析工程により取得された前記ヘッダ情報から前記パケット長を読み取り、読み取った一の前記パケット長を比較の対象となる参照ページとしての文書画像の前記パケット長として記憶手段に保存し、新たに入力された現ページとしての文書画像の前記符号列データから前記パケット長を読み取り、当該パケット長と、前記記憶手段により保存された前記参照ページとしての文書画像の前記パケット長との差分値を類似度として検出する類似度検出工程と、
前記類似度検出工程により検出された前記類似度が、所定の閾値以下である場合に、前記現ページとしての文書画像の所定領域に係る符号列データを文字検索の対象から除外する検索対象制限工程と、を含む検索対象制限方法。
A code string input step for receiving input of code string data created by dividing image data into one or a plurality of rectangular areas, frequency-converting pixel values for each rectangular area, and hierarchically compressing and encoding;
By analyzing the syntax of the inputted code string data, and parsing steps packet length of packets constituting code string data to obtain the header information described in accordance with the predetermined region,
The packet length is read from the header information acquired by the syntax analysis step , and the read one packet length is stored in the storage means as the packet length of the document image as a reference page to be compared, and newly The packet length is read from the code string data of the input document image as the current page, and the difference value between the packet length and the packet length of the document image as the reference page stored by the storage unit is similar. A similarity detection step to detect as a degree;
Search target restriction step of excluding code string data related to a predetermined region of the document image as the current page from a character search target when the similarity detected by the similarity detection step is equal to or less than a predetermined threshold And a search target limiting method including:
JP2003025136A 2003-01-31 2003-01-31 Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method Expired - Fee Related JP4323178B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003025136A JP4323178B2 (en) 2003-01-31 2003-01-31 Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003025136A JP4323178B2 (en) 2003-01-31 2003-01-31 Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method

Publications (2)

Publication Number Publication Date
JP2004234564A JP2004234564A (en) 2004-08-19
JP4323178B2 true JP4323178B2 (en) 2009-09-02

Family

ID=32953493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003025136A Expired - Fee Related JP4323178B2 (en) 2003-01-31 2003-01-31 Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method

Country Status (1)

Country Link
JP (1) JP4323178B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8810562B2 (en) * 2009-05-19 2014-08-19 Advanced Micro Devices, Inc. Hierarchical lossless compression
WO2017104699A1 (en) * 2015-12-15 2017-06-22 日本電信電話株式会社 Image difference detection device, method for detecting image difference, and computer program

Also Published As

Publication number Publication date
JP2004234564A (en) 2004-08-19

Similar Documents

Publication Publication Date Title
JP4064196B2 (en) Client computer, server computer, program, storage medium, image data processing system, and image data processing method
JP4111268B2 (en) Thumbnail image display method, server computer, client computer, and program
JP4111926B2 (en) Image processing apparatus, program, storage medium, and image transmission method
JP2004194152A (en) Image processing apparatus, program, storage medium, and image editing method
JP2004221836A (en) Image processor, program, storage medium, and code expanding method
US20030068089A1 (en) Image processing system processing code data
US7627185B2 (en) Hierarchically compressing and coding and storing image data
JP3952459B2 (en) Image processing apparatus, program, storage medium, and image processing method
JP2004214828A (en) Image processing apparatus, image processing method, computer program for image processing, and storage medium for storing the image processing computer program
JP2004242290A (en) Image processing apparatus and image processing method, image edit processing system, image processing program, and storage medium
JP2004221633A (en) Image processing apparatus, image processing program, and storage medium
US8081093B2 (en) Code transforming apparatus and code transforming method
US20050207659A1 (en) Image-processing apparatus, program, and recording medium
JP4323178B2 (en) Search object restriction device, image processing apparatus, program, storage medium, and search object restriction method
JP4723543B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP4280508B2 (en) Misalignment correction apparatus, image processing apparatus, program, storage medium, and misalignment correction method
JP4052952B2 (en) Image processing apparatus, image processing method, program, and storage medium
JP3961966B2 (en) Unnecessary part removing apparatus, image processing apparatus, program, storage medium, and unnecessary part removing method
JP4093870B2 (en) Image processing apparatus, program, and storage medium
JP4010957B2 (en) Image processing apparatus, program, storage medium, and image forming apparatus
JP3987425B2 (en) Image decompression apparatus, program, storage medium, and image decompression method
JP2004064180A (en) Image processor, program, and storing medium
JP4374063B2 (en) Image processing apparatus, program, and storage medium
JP2005223407A (en) Image processing apparatus and program
JP2004201048A (en) Image information processing method

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051116

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090602

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090604

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4323178

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120612

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130612

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees