JP4052952B2 - 画像処理装置、画像処理方法、プログラム及び記憶媒体 - Google Patents
画像処理装置、画像処理方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP4052952B2 JP4052952B2 JP2003016324A JP2003016324A JP4052952B2 JP 4052952 B2 JP4052952 B2 JP 4052952B2 JP 2003016324 A JP2003016324 A JP 2003016324A JP 2003016324 A JP2003016324 A JP 2003016324A JP 4052952 B2 JP4052952 B2 JP 4052952B2
- Authority
- JP
- Japan
- Prior art keywords
- image processing
- resolution
- unit
- image
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Compression Of Band Width Or Redundancy In Fax (AREA)
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、画像処理装置、画像処理方法、プログラム及び記憶媒体に関する。
【0002】
【従来の技術】
画像入力技術およびその出力技術の進歩により、画像に対して高精細化の要求が、近年非常に高まっている。例えば、画像入力装置として、デジタルカメラ(Digital Camera)を例にあげると、300万以上の画素数を持つ高性能な電荷結合素子(CCD:Charge Coupled Device)の低価格化が進み、普及価格帯の製品においても広く用いられるようになってきた。そして、このピクセル数の増加傾向は、なおしばらくは続くと言われている。
【0003】
一方、画像出力・表示装置に関しても、例えば、レーザプリンタ、インクジェットプリンタ、昇華型プリンタ等のハード・コピー分野における製品、そして、CRTやLCD(液晶表示デバイス)、PDP(プラズマ表示デバイス)等のフラットパネルディスプレイのソフト・コピー分野における製品の高精細化・低価格化は目を見張るものがある。
【0004】
こうした高性能・低価格な画像入出力製品の市場投入効果によって、高精細画像の大衆化が始まっており、今後はあらゆる場面で、高精細画像の需要が高まると予想されている。実際、パーソナルコンピュータ(Personal Computer)やインターネットをはじめとするネットワークに関連する技術の発達は、こうしたトレンドをますます加速させている。特に最近は、携帯電話やノートパソコン等のモバイル機器の普及速度が非常に大きく、高精細な画像を、あらゆる地点から通信手段を用いて伝送あるいは受信する機会が急増している。
【0005】
これらを背景に、高精細画像の取扱いを容易にする画像圧縮伸長技術に対する高性能化あるいは多機能化の要求は、今後ますます強くなっていくことは必至と思われる。
【0006】
そこで、近年においては、こうした要求を満たす画像圧縮方式の一つとして、高圧縮率でも高画質な画像を復元可能なJPEG2000という新しい方式が規格化されつつある。かかるJPEG2000においては、画像を矩形領域(タイル)に分割することにより、少ないメモリ環境下で圧縮伸長処理を行うことが可能である。すなわち、個々のタイルが圧縮伸長プロセスを実行する際の基本単位となり、圧縮伸長動作はタイル毎に独立に行うことができる。
【0007】
一般に、紙文書(原稿)を電子化して保存するような場合には、以下に示すような処理を順番に実行することになる。まず、紙文書(原稿)をスキャナやデジタルスチルカメラ等の画像入力装置を使用して一枚ずつ読み込む。次いで、読み込んだ画像データをJPEGやJPEG2000等の圧縮符号に画像圧縮装置を使用して変換する。最後に、圧縮処理した圧縮符号を記憶装置に記憶保存する。
【0008】
ところで、このような手順により記憶装置に記憶保存された圧縮符号に対し、文字認識処理を行うOCR(Optical Character Reader)処理等の画像処理が施される場合がある。このような画像処理においては、画像処理品質を高品質に維持すべく、処理に供される画像の解像度を予め指定するようにしたものがある。例えば、特許文献1には、文字の種類や文字の大きさから最適な解像度を決定して文字認識処理を行うようにした技術が開示されている。
【0009】
【特許文献1】
特開2002-24766公報
【0010】
【発明が解決しようとする課題】
ところが、画像データからレイアウト情報等も再現したHTML形式ファイルやワープロ形式ファイルを生成するような場合には、文字認識処理のみならず、画像中から文字領域と文字領域以外の領域とを識別する領域識別処理や、ファイルにタイトル付けを行うためのタイトル抽出処理等の各種の画像処理が必要になってくる。そのため、文字認識処理に適した高解像度の画像を用いた場合には、文字認識処理においては精度の高い文字認識処理結果を得ることができるが、領域識別処理やタイトル抽出処理においては高い解像度の画像が必要とされないことから、無駄な処理が発生して処理速度が低下するという問題が生じる。また、領域識別処理やタイトル抽出処理に適した低解像度の画像を用いた場合には、処理速度の高速化を図ることはできるが、文字認識処理においては文字認識の精度が低下するという問題が生じてしまう。
【0011】
本発明の目的は、各種の画像処理における画像処理品質を高品質に維持しつつ、各種画像処理の処理速度の高速化を図ることができる画像処理装置、画像処理方法、プログラムおよび記憶媒体を提供することである。
【0012】
【課題を解決するための手段】
本発明の画像処理装置は、画像データを1又は複数に分割した矩形領域毎に画素値を離散ウェーブレット変換して階層的に圧縮符号化された圧縮符号を用い、画像処理を行う画像処理装置であって、画像処理毎に対応する画像処理手段に対し、前記画像処理手段毎に規定された解像度に係る階層の圧縮符号を選択して提供する解像度選択手段を有し、前記規定された解像度は、文字認識処理を行う文字認識手段、タイトル抽出処理を行うタイトル抽出手段、及び、領域識別処理を行う領域識別手段に対応する順に高い。
【0013】
したがって、画像処理を行う各種の画像処理手段に対し、各画像処理に用いるのに適した解像度に係る階層の圧縮符号が提供されることにより、各種の画像処理における画像処理品質を高品質に維持しつつ、各種画像処理の処理速度の高速化を図ることが可能になる。
【0014】
本発明の画像処理方法は、画像データを1又は複数に分割した矩形領域毎に画素値を離散ウェーブレット変換して階層的に圧縮符号化された圧縮符号を用い、画像処理を行う画像処理方法であって、画像処理を行う複数の画像処理手段に対し、前記画像処理手段毎に規定された解像度に係る階層の圧縮符号を選択して提供する解像度選択ステップを有し、前記規定された解像度は、文字認識処理を行う文字認識手段、タイトル抽出処理を行うタイトル抽出手段、及び、領域識別処理を行う領域識別手段に対応する順に高い。
【0015】
本発明のプログラムは、本発明の画像処理方法をコンピュータに実行させるプログラムである。
【0016】
本発明の記憶媒体は、本発明のプログラムを記憶したコンピュータ読み取り可能な記憶媒体である。
【0036】
【発明の実施の形態】
本発明の実施の一形態を図1ないし図13に基づいて説明する。
【0037】
最初に、本発明の前提となる「階層符号化アルゴリズム」及び「JPEG2000アルゴリズム」の概要について説明する。
【0038】
図1は、JPEG2000方式の基本となる階層符号化アルゴリズムを実現するシステムの機能ブロック図である。このシステムは、色空間変換・逆変換部101、2次元ウェーブレット変換・逆変換部102、量子化・逆量子化部103、エントロピー符号化・復号化部104、タグ処理部105の各機能ブロックにより構成されている。
【0039】
このシステムが従来のJPEGアルゴリズムと比較して最も大きく異なる点の一つは変換方式である。JPEGでは離散コサイン変換(DCT:Discrete Cosine Transform)を用いているのに対し、この階層符号化アルゴリズムでは、2次元ウェーブレット変換・逆変換部102において、離散ウェーブレット変換(DWT:Discrete Wavelet Transform)を用いている。DWTはDCTに比べて、高圧縮領域における画質が良いという長所を有し、この点が、JPEGの後継アルゴリズムであるJPEG2000でDWTが採用された大きな理由の一つとなっている。
【0040】
また、他の大きな相違点は、この階層符号化アルゴリズムでは、システムの最終段に符号形成を行うために、タグ処理部105の機能ブロックが追加されていることである。このタグ処理部105で、画像の圧縮動作時には圧縮データが圧縮符号として生成され、伸長動作時には伸長に必要な圧縮符号の解釈が行われる。そして、圧縮符号によって、JPEG2000は様々な便利な機能を実現できるようになった。例えば、ブロック・ベースでのDWTにおけるオクターブ分割に対応した任意の階層(デコンポジション・レベル)で、静止画像の圧縮伸長動作を自由に停止させることができるようになる(後述する図3参照)。
【0041】
原画像の入出力部分には、色空間変換・逆変換101が接続される場合が多い。例えば、原色系のR(赤)/G(緑)/B(青)の各コンポーネントからなるRGB表色系や、補色系のY(黄)/M(マゼンタ)/C(シアン)の各コンポーネントからなるYMC表色系から、YUVあるいはYCbCr表色系への変換又は逆変換を行う部分がこれに相当する。
【0042】
次に、JPEG2000アルゴリズムについて説明する。
【0043】
カラー画像は、一般に、図2に示すように、原画像の各コンポーネント111(ここではRGB原色系)が、矩形をした領域によって分割される。この分割された矩形領域は、一般にブロックあるいはタイルと呼ばれているものであるが、JPEG2000では、タイルと呼ぶことが一般的であるため、以下、このような分割された矩形領域をタイルと記述することにする(図2の例では、各コンポーネント111が縦横4×4、合計16個の矩形のタイル112に分割されている)。このような個々のタイル112(図2の例で、R00,R01,…,R15/G00,G01,…,G15/B00,B01,…,B15)が、画像データの圧縮伸長プロセスを実行する際の基本単位となる。従って、画像データの圧縮伸長動作は、コンポーネント毎、また、タイル112毎に、独立に行われる。
【0044】
画像データの符号化時には、各コンポーネント111の各タイル112のデータが、図1の色空間変換・逆変換部101に入力され、色空間変換を施された後、2次元ウェーブレット変換部102で2次元ウェーブレット変換(順変換)が施されて、周波数帯に空間分割される。
【0045】
図3には、デコンポジション・レベル数が3の場合の、各デコンポジション・レベルにおけるサブバンドを示している。すなわち、原画像のタイル分割によって得られたタイル原画像(0LL)(デコンポジション・レベル0)に対して、2次元ウェーブレット変換を施し、デコンポジション・レベル1に示すサブバンド(1LL,1HL,1LH,1HH)を分離する。そして引き続き、この階層における低周波成分1LLに対して、2次元ウェーブレット変換を施し、デコンポジション・レベル2に示すサブバンド(2LL,2HL,2LH,2HH)を分離する。順次同様に、低周波成分2LLに対しても、2次元ウェーブレット変換を施し、デコンポジション・レベル3に示すサブバンド(3LL,3HL,3LH,3HH)を分離する。図3では、各デコンポジション・レベルにおいて符号化の対象となるサブバンドを、網掛けで表してある。例えば、デコンポジション・レベル数を3としたとき、網掛けで示したサブバンド(3HL,3LH,3HH,2HL,2LH,2HH,1HL,1LH,1HH)が符号化対象となり、3LLサブバンドは符号化されない。
【0046】
次いで、指定した符号化の順番で符号化の対象となるビットが定められ、図1に示す量子化・逆量子化部103で対象ビット周辺のビットからコンテキストが生成される。
【0047】
この量子化の処理が終わったウェーブレット係数は、個々のサブバンド毎に、「プレシンクト」と呼ばれる重複しない矩形に分割される。これは、インプリメンテーションでメモリを効率的に使うために導入されたものである。図4に示したように、一つのプレシンクトは、空間的に一致した3つの矩形領域からなっている。更に、個々のプレシンクトは、重複しない矩形の「コード・ブロック」に分けられる。これは、エントロピー・コーディングを行う際の基本単位となる。
【0048】
ウェーブレット変換後の係数値は、そのまま量子化し符号化することも可能であるが、JPEG2000では符号化効率を上げるために、係数値を「ビットプレーン」単位に分解し、画素あるいはコード・ブロック毎に「ビットプレーン」に順位付けを行うことができる。
【0049】
ここで、図5はビットプレーンに順位付けする手順の一例を示す説明図である。図5に示すように、この例は、原画像(32×32画素)を16×16画素のタイル4つで分割した場合で、デコンポジション・レベル1のプレシンクトとコード・ブロックの大きさは、各々8×8画素と4×4画素としている。プレシンクトとコード・ブロックの番号は、ラスター順に付けられており、この例では、プレンシクトが番号0から3まで、コード・ブロックが番号0から3まで割り当てられている。タイル境界外に対する画素拡張にはミラーリング法を使い、可逆(5,3)フィルタでウェーブレット変換を行い、デコンポジション・レベル1のウェーブレット係数値を求めている。
【0050】
また、タイル0/プレシンクト3/コード・ブロック3について、代表的な「レイヤ」構成の概念の一例を示す説明図も図5に併せて示す。変換後のコード・ブロックは、サブバンド(1LL,1HL,1LH,1HH)に分割され、各サブバンドにはウェーブレット係数値が割り当てられている。
【0051】
レイヤの構造は、ウェーブレット係数値を横方向(ビットプレーン方向)から見ると理解し易い。1つのレイヤは任意の数のビットプレーンから構成される。この例では、レイヤ0,1,2,3は、各々、1,3,1,3のビットプレーンから成っている。そして、LSB(Least Significant Bit:最下位ビット)に近いビットプレーンを含むレイヤ程、先に量子化の対象となり、逆に、MSB(Most Significant Bit:最上位ビット)に近いレイヤは最後まで量子化されずに残ることになる。LSBに近いレイヤから破棄する方法はトランケーションと呼ばれ、量子化率を細かく制御することが可能である。
【0052】
図1に示すエントロピー符号化・復号化部104では、コンテキストと対象ビットから確率推定によって、各コンポーネント111のタイル112に対する符号化を行う。こうして、原画像の全てのコンポーネント111について、タイル112単位で符号化処理が行われる。最後にタグ処理部105は、エントロピー符号化・復号化部104からの全符号化データを1本の符号列データに結合するとともに、それにタグを付加する処理を行う。
【0053】
図6には、この符号列データの1フレーム分の概略構成を示している。この符号列データの先頭と各タイルの符号データ(bit stream)の先頭にはヘッダ(メインヘッダ(Main header)、タイル境界位置情報等であるタイルパートヘッダ(tile part header))と呼ばれるタグ情報が付加され、その後に、各タイルの符号化データが続く。なお、メインヘッダ(Main header)には、符号化パラメータや量子化パラメータが記述されている。そして、符号列データの終端には、再びタグ(end of codestream)が置かれる。また、図7は、符号化されたウェーブレット係数値が収容されたパケットをサブバンド毎に表わしたコードストリーム構造を示すものである。図7に示すように、タイルによる分割処理を行っても、あるいはタイルによる分割処理を行わなくても、同様のパケット列構造を持つことになる。
【0054】
一方、符号化データの復号化時には、画像データの符号化時とは逆に、各コンポーネント111の各タイル112の符号列データから画像データを生成する。この場合、タグ処理部105は、外部より入力した符号列データに付加されたタグ情報を解釈し、符号列データを各コンポーネント111の各タイル112の符号列データに分解し、その各コンポーネント111の各タイル112の符号列データ毎に復号化処理(伸長処理)を行う。このとき、符号列データ内のタグ情報に基づく順番で復号化の対象となるビットの位置が定められるとともに、量子化・逆量子化部103で、その対象ビット位置の周辺ビット(既に復号化を終えている)の並びからコンテキストが生成される。エントロピー符号化・復号化部104で、このコンテキストと符号列データから確率推定によって復号化を行い、対象ビットを生成し、それを対象ビットの位置に書き込む。このようにして復号化されたデータは周波数帯域毎に空間分割されているため、これを2次元ウェーブレット変換・逆変換部102で2次元ウェーブレット逆変換を行うことにより、画像データの各コンポーネントの各タイルが復元される。復元されたデータは色空間変換・逆変換部101によって元の表色系の画像データに変換される。
【0055】
以上が、「JPEG2000アルゴリズム」の概要である。
【0056】
以下、本発明の実施の一形態について説明する。なお、ここでは、JPEG2000を代表とする画像圧縮伸長技術に関する例について説明するが、言うまでもなく、本発明は以下の説明の内容に限定されるものではない。
【0057】
本実施の形態のサーバコンピュータ及びクライアントコンピュータは、そのコンピュータにインストールされるか、あるいは解釈されて実行される画像処理プログラムによって動作制御されて各種の画像処理を実行する。本実施の形態では、そのような画像処理プログラムを記憶する記憶媒体も紹介する。
【0058】
図8は、本実施の形態におけるシステム構築例を示す模式図である。
【0059】
本実施の形態の画像データ処理システムでは、画像処理装置であるサーバコンピュータ2にLAN(Local Area Network)等のネットワーク3を介してクライアントコンピュータ4が複数台接続されたサーバクライアントシステム1を想定する。このサーバクライアントシステム1は、スキャナやデジタルカメラ等の画像入力装置5及びプリンタ等の画像出力装置6をネットワーク3上でシェアし得る環境が整えられている。また、ネットワーク3上には、マルチファンクションペリフェラルと称されるMFP7が接続され、このMFP7が画像入力装置5や画像出力装置6として機能するように環境が構築されていても良い。
【0060】
このようなサーバクライアントシステム1は、例えばイントラネット8を介して別のサーバクライアントシステム1とのデータ通信可能に構築され、インターネット通信網9を介して外部環境とデータ通信可能に構築されている。
【0061】
サーバコンピュータ2は、文書管理サーバ2aとデータ変換サーバ2bとで構成されている。文書管理サーバ2aは、各種文書の画像イメージを画像データとして記憶する文書管理機能を発揮するものである。データ変換サーバ2bは、例えば画像データからテキストデータを抽出するOCR(Optical Character Reader)処理等の各種のデータ変換機能を発揮するものである。
【0062】
以下においては、本発明の特長的な機能を発揮する画像処理装置であるサーバコンピュータ2(特に、データ変換サーバ2b)について説明する。
【0063】
図9は、本実施の形態における画像処理装置としてのサーバコンピュータ2のモジュール構成図である。サーバコンピュータ2は、情報処理を行うCPU(Central Processing Unit)11、情報を格納するROM(Read Only Memory)12及びRAM(Random Access Memory)13等の一次記憶装置14、後述する圧縮符号を記憶する記憶部であるHDD(Hard Disk Drive)15等の二次記憶装置16、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置17、ネットワーク3を介して画像入力装置5や外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース18、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置19、並びに操作者がCPU11に命令や情報等を入力するためのキーボード20、マウス等のポインティングディバイス21等から構成されており、これらの各部間で送受信されるデータをバスコントローラ22が調停して動作する。
【0064】
本実施の形態においては、サーバコンピュータ2のHDD15に圧縮符号化された画像データが記憶保持される。なお、サーバコンピュータ2のHDD15に記憶保持されている画像データは、「JPEG2000アルゴリズム」に従って生成された圧縮符号である。より具体的には、圧縮符号は、図10に示すような矩形領域(タイル)に分割された分割画像を圧縮符号化して一次元に並べることにより、図11に示すような構成になる。図11において、SOCは、コードストリームの開始を示すマーカセグメントである。また、MHは、メインヘッダであり、コードストリーム全体に共通する値を格納している。コードストリーム全体に共通する値としては、例えばタイル横量、タイル縦量、画像横量、画像縦量などが記録されている。MHに続くデータは、各タイルを符号化したデータであり、図11では図10に示すタイルの番号に従って主走査方向/副走査方向に各タイルを圧縮したデータが並べられている。圧縮符号の最後にあるEOCマーカは、圧縮符号の最後であることを示すマーカセグメントである。
【0065】
また、図12は「JPEG2000アルゴリズム」に従って生成された圧縮符号の解像度モデルを示す説明図である。図12に示すように、「JPEG2000アルゴリズム」に従って生成された圧縮符号においては、一つの画像ファイル内で低解像度データと高解像度データとに分けることが可能になっている。なお、図12では2種類の解像度だけを示しているが、実際には、全てのデータを1とすると、DWTにおけるオクターブ分割に対応した任意の階層(デコンポジション・レベル)に応じて、1/2,1/4,1/8,1/16,・・・,1/2nと複数の低解像度部分に係る圧縮符号を抽出することが可能である。
【0066】
このようなサーバコンピュータ2では、ユーザが電源を投入するとCPU11がROM12内のローダーというプログラムを起動させ、HDD15よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM13に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
【0067】
ここで、サーバコンピュータ2は、アプリケーションプログラムとして、画像処理プログラムをHDD15に記憶している。この意味で、HDD15は、画像処理プログラムを記憶する記憶媒体として機能する。
【0068】
また、一般的には、サーバコンピュータ2のHDD15等の二次記憶装置16にインストールされる動作プログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等に記録され、この記録された動作プログラムがHDD15等の二次記憶装置16にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体も、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムは、例えばネットワークインターフェース18を介して外部から取り込まれ、HDD15等の二次記憶装置16にインストールされても良い。
【0069】
サーバコンピュータ2は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、CPU11が各種の演算処理を実行して各部を集中的に制御する。サーバコンピュータ2のCPU11が実行する各種の演算処理のうち、本実施の形態の特長的な処理について以下に説明する。
【0070】
ここで、サーバコンピュータ2のCPU11が実行する各種の演算処理により実現される機能について説明する。図13に示すように、画像処理装置であるサーバコンピュータ2のデータ変換サーバ2bにおいては、本実施の形態の特徴的な機能を発揮する解像度選択手段である解像度選択部31、及び各種の画像処理機能を行う画像処理手段である領域識別部32、2値化部33、文字認識部34、タイトル抽出部35が、CPU11が実行する各種の演算処理により実現されている。なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種機能を実現するようにするのが望ましい。
【0071】
領域識別部32、2値化部33、文字認識部34、タイトル抽出部35については、周知の画像処理を実行するものであるため、簡単に説明する。
【0072】
領域識別部32は、領域識別手段として機能するものであって、圧縮符号を復号した画像中から文字領域と文字領域以外の領域(写真や図など)とを識別する。2値化部33は、領域識別部32により識別された文字領域の画像を2値画像として切り出す。そして、このようにして切り出された2値画像は、文字認識部34に送られる。文字認識部34は、文字認識手段として機能するものであって、いわゆるOCR(Optical Character Reader)処理を実行するものである。文字認識部34は、切り出された2値画像を、文字画像と文字コードとの組みを予め記憶した辞書ファイルと比較(パターンマッチング)し、相違度の小さい文字画像又は類似度の大きな文字画像に組み合わされた文字コードをOCR処理結果として出力する。
【0073】
また、タイトル抽出部35は、タイトル抽出手段として機能するものであって、圧縮符号を復号した画像中からタイトル領域を抽出するとともに、当該タイトル領域の文字を認識して抽出する。タイトル領域の文字認識は、文字認識部34と同様に、いわゆるOCR(Optical Character Reader)処理により実行される。
【0074】
以上のような各部の処理を経ることで、画像データからレイアウト情報等も再現したHTML形式ファイルやワープロ形式ファイルが生成される。また、このファイルには、タイトル抽出部35より抽出されたタイトルが付けられている。
【0075】
ところで、文字認識部34においては、400dpi程度の高い解像度の画像が必要とされる。また、領域識別部32においては、100dpi程度の低い解像度の画像でも処理が可能とされている。ただし、領域識別処理の中において、表抽出処理や傾き角度検出処理を行う場合には罫線情報を用いることから、比較的高い解像度の画像が必要となる。さらに、タイトル抽出部35においては、タイトル文字のような大きな文字を抽出することから、200dpi程度の低い解像度の画像でも処理が可能とされている。
【0076】
そこで、本実施の形態においては、各部(領域識別部32、2値化部33、文字認識部34、タイトル抽出部35)における処理に用いるのに最適な解像度を予め規定しておき、解像度選択部31によって、この最適な解像度の画像を選択するようにしたものである。具体的には、解像度選択部31は、直交変換にDWTを使ったJPEG2000アルゴリズムによって圧縮符号化された圧縮符号から、各部(領域識別部32、2値化部33、文字認識部34、タイトル抽出部35)における処理に用いるのに適した解像度の圧縮符号を選択する。「JPEG2000アルゴリズム」によれば、図3や図7等で前述したように、解像度に関してサブバンド階層構造を有することになる。そこで、本実施の形態の解像度選択部31においては、「JPEG2000アルゴリズム」の離散ウェーブレット変換処理によるサブバンド構造を利用し、各部(領域識別部32、2値化部33、文字認識部34、タイトル抽出部35)における処理に用いるのに適した解像度の圧縮符号を選択することが可能になっている。
【0077】
したがって、本実施の形態においては、解像度選択部31は、領域識別部32に対しては100dpiの低解像度画像に係る圧縮符号を選択して提供し、2値化部33及び文字認識部34に対しては400dpiの高解像度画像に係る圧縮符号を選択して提供し、タイトル抽出部35に対しては200dpiの低解像度画像に係る圧縮符号を選択して提供する。
【0078】
ここに、画像処理を行う各種の画像処理手段に対し、各画像処理に用いるのに適した解像度に係る階層の圧縮符号を提供するようにしたことにより、各種の画像処理における画像処理品質を高品質に維持しつつ、各種画像処理の処理速度の高速化を図ることができる。
【0079】
なお、本実施の形態においては、CPU11が実行する各種の演算処理により実現される各種の画像処理機能を行う画像処理手段として、領域識別部32、2値化部33、文字認識部34、タイトル抽出部35を説明したが、これに限るものではない。例えば、傾き角度検出機能や表抽出機能等を実現するものにも適用することができる。
本実施の形態によれば、画像データを1又は複数に分割した矩形領域毎に画素値を離散ウェーブレット変換して階層的に圧縮符号化された圧縮符号を用い、各種の画像処理を行う画像処理装置において、画像処理を行う各種の画像処理手段に対し、各画像処理に応じて予め規定された解像度に係る階層の圧縮符号を選択して提供する解像度選択手段を備え、画像処理を行う各種の画像処理手段に対し、各画像処理に用いるのに適した解像度に係る階層の圧縮符号を提供するようにしたことにより、各種の画像処理における画像処理品質を高品質に維持しつつ、各種画像処理の処理速度の高速化を図ることができる。
本実施の形態によれば、請求項1記載の画像処理装置において、前記解像度選択手段は、前記画像処理手段の一つが文字認識処理を行う文字認識手段である場合には、高解像度に係る階層の圧縮符号を選択して前記文字認識手段に提供することにより、いわゆるOCR(Optical Character Reader)処理である文字認識処理においては、高い解像度の画像が必要とされることから、高解像度に係る階層の圧縮符号を選択することで、精度の高い文字認識処理結果を得ることができる。
本実施の形態において、前記解像度選択手段は、前記画像処理手段の一つが領域識別処理を行う領域識別手段である場合には、低解像度に係る階層の圧縮符号を選択して前記領域識別手段に提供することにより、画像中から文字領域と文字領域以外の領域とを識別する領域識別処理においては、高い解像度の画像が必要とされないことから、低解像度に係る階層の圧縮符号を選択することで、領域識別処理結果の精度を維持しつつ、高速な処理を可能にすることができる。
本実施の形態において、前記解像度選択手段は、前記画像処理手段の一つがタイトル抽出処理を行うタイトル抽出手段である場合には、低解像度に係る階層の圧縮符号を選択して前記タイトル抽出手段に提供することにより、画像中からそのタイトル文字を抽出するタイトル抽出処理においては、タイトル文字のような大きな文字を抽出するために高い解像度の画像が必要とされないことから、低解像度に係る階層の圧縮符号を選択することで、タイトル抽出処理結果の精度を維持しつつ、高速な処理を可能にすることができる。
【0080】
【発明の効果】
各種の画像処理における画像処理品質を高品質に維持しつつ、各種画像処理の処理速度の高速化を図ることができる。
【図面の簡単な説明】
【図1】本発明の前提となるJPEG2000方式の基本となる階層符号化アルゴリズムを実現するシステムの機能ブロック図である。
【図2】原画像の各コンポーネントの分割された矩形領域を示す説明図である。
【図3】デコンポジション・レベル数が3の場合の、各デコンポジション・レベルにおけるサブバンドを示す説明図である。
【図4】プレシンクトを示す説明図である。
【図5】ビットプレーンに順位付けする手順の一例を示す説明図である。
【図6】符号列データの1フレーム分の概略構成を示す説明図である。
【図7】符号化されたウェーブレット係数値が収容されたパケットをサブバンド毎に表わしたコードストリーム構造を示す説明図である。
【図8】本発明の実施の一形態のシステム構築例を示す模式図である。
【図9】画像処理装置としてのサーバコンピュータのモジュール構成図である。
【図10】二次元に分割された分割画像の一例を示す説明図である。
【図11】その分割画像に基づいて「JPEG2000アルゴリズム」に従って生成された圧縮符号を示す説明図である。
【図12】「JPEG2000アルゴリズム」に従って生成された圧縮符号の解像度モデルを示す説明図である。
【図13】画像処理プログラムに基づいてCPUが実行する処理により実現される機能を示す機能ブロック図である。
【符号の説明】
2 画像処理装置
15 記憶媒体
31 解像度選択手段
32 画像処理手段、領域識別手段
33 画像処理手段
34 画像処理手段、文字認識手段
35 画像処理手段、タイトル抽出手段
Claims (6)
- 画像データを1又は複数に分割した矩形領域毎に画素値を離散ウェーブレット変換して階層的に圧縮符号化された圧縮符号を用い、画像処理を行う画像処理装置であって、
画像処理毎に対応する画像処理手段に対し、前記画像処理手段毎に規定された解像度に係る階層の圧縮符号を選択して提供する解像度選択手段を有し、
前記規定された解像度は、文字認識処理を行う文字認識手段、タイトル抽出処理を行うタイトル抽出手段、及び、領域識別処理を行う領域識別手段に対応する順に高い画像処理装置。 - 前記圧縮符号は、離散ウェーブレット変換によって生成される変換係数のうち、縦方向低周波横方向低周波成分に対して再帰的に離散ウェーブレット変換を繰り返すオクターブ分割に対応する階層毎に圧縮符号化され、前記階層が該階層毎に対応する複数のパケットから成る圧縮符号であり、
前記解像度選択手段は、前記オクターブ分割による階層に対応する、前記画像データの2のべき乗分の1毎の解像度に対応するパケットを、選択する請求項1記載の画像処理装置。 - 前記タイトル抽出手段に対応する解像度に対応する階層は、前記文字認識手段に対応する解像度に対応する階層より解像度が1つ低い階層であり、前記領域識別手段に対応する解像度に対応する階層は、前記タイトル抽出手段に対応する解像度に対応する階層より解像度が1つ低い階層である請求項2記載の画像処理装置。
- 画像データを1又は複数に分割した矩形領域毎に画素値を離散ウェーブレット変換して階層的に圧縮符号化された圧縮符号を用い、画像処理を行う画像処理方法であって、
画像処理を行う複数の画像処理手段に対し、前記画像処理手段毎に規定された解像度に係る階層の圧縮符号を選択して提供する解像度選択ステップを有し、
前記規定された解像度は、文字認識処理を行う文字認識手段、タイトル抽出処理を行うタイトル抽出手段、及び、領域識別処理を行う領域識別手段に対応する順に高い画像処理方法。 - 請求項4記載の画像処理方法をコンピュータに実行させるプログラム。
- 請求項5記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003016324A JP4052952B2 (ja) | 2003-01-24 | 2003-01-24 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003016324A JP4052952B2 (ja) | 2003-01-24 | 2003-01-24 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004229095A JP2004229095A (ja) | 2004-08-12 |
JP4052952B2 true JP4052952B2 (ja) | 2008-02-27 |
Family
ID=32903815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003016324A Expired - Fee Related JP4052952B2 (ja) | 2003-01-24 | 2003-01-24 | 画像処理装置、画像処理方法、プログラム及び記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4052952B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5137759B2 (ja) | 2008-09-18 | 2013-02-06 | キヤノン株式会社 | 画像処理装置 |
CN116110056B (zh) * | 2022-12-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 信息抽取方法及装置、电子设备和存储介质 |
-
2003
- 2003-01-24 JP JP2003016324A patent/JP4052952B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004229095A (ja) | 2004-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4064196B2 (ja) | クライアントコンピュータ、サーバコンピュータ、プログラム、記憶媒体、画像データ処理システム及び画像データ処理方法 | |
JP4111926B2 (ja) | 画像処理装置、プログラム、記憶媒体及び画像送信方法 | |
JP4111268B2 (ja) | サムネイル画像の表示方法、サーバコンピュータ、クライアントコンピュータ及びプログラム | |
JP4128438B2 (ja) | 画像処理装置、プログラム、記憶媒体及び画像編集方法 | |
JP4093405B2 (ja) | 画像処理装置、プログラム及び記憶媒体 | |
US7526134B2 (en) | Image processing apparatus, program, recording medium, and data decompression method | |
US7627185B2 (en) | Hierarchically compressing and coding and storing image data | |
US20030068089A1 (en) | Image processing system processing code data | |
US7526133B2 (en) | Image processing apparatus, image processing program, and storage medium | |
JP2004242290A (ja) | 画像処理装置および画像処理方法、画像編集処理システム、画像処理プログラム及び記憶媒体 | |
US20040161156A1 (en) | Image processing apparatus, method, program and medium storing image processing program | |
JP4723543B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JP4052952B2 (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JP4014085B2 (ja) | 画像処理装置、プログラム及び記憶媒体 | |
JP4489474B2 (ja) | 画像処理装置、プログラムおよび記録媒体 | |
JP4323178B2 (ja) | 検索対象制限装置、画像処理装置、プログラム、記憶媒体及び検索対象制限方法 | |
JP4280508B2 (ja) | 位置ずれ補正装置、画像処理装置、プログラム、記憶媒体及び位置ずれ補正方法 | |
JP3961966B2 (ja) | 不要部除去装置、画像処理装置、プログラム、記憶媒体及び不要部除去方法 | |
JP4093870B2 (ja) | 画像処理装置、プログラムおよび記憶媒体 | |
JP4374063B2 (ja) | 画像処理装置、プログラム及び記憶媒体 | |
JP4010957B2 (ja) | 画像処理装置、プログラム、記憶媒体および画像形成装置 | |
JP2004056648A (ja) | 画像処理装置、文書管理システム、プログラム及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041008 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051116 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20051021 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20060905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070803 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071204 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101214 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111214 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121214 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131214 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |