以下、本発明の実施の形態を、図面を参照して詳細に説明する。
図1は、本発明の実施形態にかかる画像処理装置を含む画像処理システムの全体構成を示すブロック図である。本画像処理システムは、画像処理装置1と、スキャナ2と、ファイルサーバ3とを備え、これらはコンピュータネットワーク4を介して相互に通信可能に接続されている。なお、コンピュータネットワークに接続される機器の種類および台数は、図1に示す例に限定されない。
図2は、本実施形態にかかる画像処理装置1の構成を示すブロック図である。図2において、画像処理装置1は、制御部101、記憶部102、操作部103、入力インタフェース部104、出力インタフェース部105、領域分離部106、画像処理部108、文書ファイル作成部109およびファイル形式変換部110を備えており、これらは信号をやり取りするためのバス111を介して相互に接続されている。
制御部101はCPUであり、プログラムにしたがって上記各部の制御や各種の演算処理等を行う。記憶部102は、予め各種プログラムやパラメータを格納しておくROM、作業領域として一時的にプログラムやデータを記憶するRAM、各種プログラムやパラメータを格納し、または画像処理により得られた画像データ等を一時的に保存するために使用されるハードディスク等からなる。
操作部103は、各種項目の設定、または動作開始の指示を行うためのキーや操作パネル等から構成される。図3に示すように、設定可能な項目としては、画像データの送信先、出力ファイル形式、原稿モード、スキャン条件、スキャン後処理等が挙げられる。
入力インタフェース部104は、画像データなどのデータや命令等を受信するためのインタフェースであり、出力インタフェース部105は、出力ファイルなどのデータや命令等を送信するためのインタフェースである。
領域分離部106は、画像データから、写真領域、図形領域、および文字領域を分離する。画像処理部108は、写真領域処理部108a、図形領域処理部108bおよび文字領域処理部108cからなる。各領域処理部108a〜108cは、領域分離部106によりそれぞれ抽出された文字領域、図形領域、および写真領域に対して、当該領域の種類に応じた適切な画像処理を施す。
文書ファイル作成部109は、写真領域処理部108a、図形領域処理部108b、および文字領域処理部108cからそれぞれ送られる処理後の画像が含まれる各領域を合成して、内部ファイル形式により文書ファイルを作成する。ファイル形式変換部110は、内部ファイル形式により作成した文書ファイルを設定された出力ファイル形式に変換する。なお、出力ファイル形式としては、各種文書作成ソフトの文書形式や、ポストスクリプト(登録商標)、PDF、JPEG、TIFF等の汎用フォーマットが挙げられる。
スキャナ2は、原稿を読み取って画像データを取得し、得られた画像データを画像処理装置に送信する。
ファイルサーバ3はコンピュータであり、コンピュータネットワーク4を介して受信したファイルを格納し、また転送要求に応じて格納したファイルをコンピュータネットワーク上の他の機器に転送する。
コンピュータネットワーク4は、イーサネット(登録商標)、トークンリング、FDDI等の規格によりコンピュータや周辺機器、ネットワーク機器等を接続したLANや、LAN同士を専用線で接続したWAN等からなる。
次に、図4を参照して、本実施形態の画像処理装置1における処理の手順について説明する。なお、図4のフローチャートにより示されるアルゴリズムは、画像処理装置1の記憶部102にプログラムとして記憶されており、制御部101によって実行される。
まず、ステップS101では、各種項目の設定が行われる。すなわち、画像データの送信先、出力ファイル形式、原稿モード、スキャン条件、およびスキャン後処理についての設定が行われる。ここで、画像データの送信先の設定は、画像出力先装置のIPアドレス、ホスト名、メールアドレス等が入力されることにより行われる。出力ファイル形式の設定は、画像出力先装置に送信する出力ファイルのファイル形式が選択されることにより行われる。
原稿モードの設定は、写真画像が含まれる写真領域、図形画像が含まれる図形領域、および文字画像が含まれる文字領域のうちで、どの領域の画像を優先するかが選択されることにより行われる。ここで、写真画像とは、写真や絵柄などの連続的に変化する階調のある画像をいう。また、図形画像とは、線やベタ絵などのたとえばパソコンで作成された画像をいう。
図3に示すように、本実施形態では、ユーザは、操作部103を通して、原稿の内容に応じて、最も優先して処理したい領域(第1優先領域)と、2番目に優先して処理したい領域(第2優先領域)とを選択することができる。なお、ユーザによる第1優先領域および/または第2優先領域の選択が行われない場合には、所定のデフォルト値にしたがって領域の優先順位が決定される。
スキャン条件の設定は、スキャン領域、スキャン解像度、カラー/モノクロ等が指定されることにより行われる。スキャン後処理の設定は、文字認識処理、ベクタ変換処理、画像圧縮方法、減色方法、出力解像度等が指定されることにより行われる。
ステップS102では、画像処理の開始命令があるまで待機する。開始命令は、ユーザが操作部103のたとえばスタートキーを操作することにより行われる。
ステップS103では、スキャナ2に対して、出力インタフェース部105を介して原稿読み取り命令が送信される。ここで、スキャナ2は、画像処理装置1から原稿読み取り命令を受信すると、所定の位置にセットされた原稿を読み取って画像データを取得し、得られた画像データを画像処理装置1に送信する。
ステップS104では、スキャナ2から、入力インタフェース部104を介して画像データが受信されるまで待機する。ここで、スキャナ2から画像データが受信されると、受信した画像データ(RGB画像データ)は記憶部102に保存される。
図5は、受信した画像データの一例を模式的に示す図である。図5に示される画像データは、写真画像PI1〜PI4、図形画像GI1〜GI3、文字画像CI1〜CI6、および下地Uから構成される。図示のように、写真画像PI1の中に図形画像GI3および文字画像CI1、CI3が配置されており、また、図形画像GI2の中に写真画像PI3、PI4および文字画像CI5、CI6が配置されている。ここで、下地とは、画像データにおける写真領域、図形領域、および文字領域以外の部分をいい、たとえば元の原稿の印刷されていない用紙の色が残っている部分に対応する画像データの部分をいう。
なお、画像処理の開始命令はコンピュータネットワーク4上の他の機器から、またはスキャナ2から入力されてもよい。
ステップS105では、領域分離部106により、スキャナ2から受信した画像データ、つまり処理しようとする画像データから、写真領域、図形領域、および文字領域が分離される。本実施形態では、領域分離部106は、操作部103を通したユーザによる選択によって設定された原稿モードにしたがって、画像データから第1優先領域を最先に抽出し、当該画像データから第1優先領域が抽出されて残ったデータから、残りの2つの領域を分離する。さらに、第2優先領域が選択されている場合には、画像データから第1優先領域が抽出されて残ったデータから、第2優先領域を先に抽出することによって残りの2つの領域を分離する。ここで、3種類の領域別に各画像が作成され、それぞれの領域は、各画像を含んだ領域として抽出される。この領域分離処理の手順についての詳細は後述する。
ステップS106では、ステップS105において分離された写真領域に対して、写真領域に適応した処理が行われる。すなわち、写真領域処理部108aにより、写真領域内の写真画像は、たとえば、解像度変換が行われた後、カラー画像の非可逆圧縮処理が行われて、位置情報とともに記憶部102に保存される。
ステップS107では、ステップS105において分離された図形領域に対して、図形領域に適応した処理が行われる。すなわち、図形画像処理部108bにより、図形領域内の図形画像は、たとえば、スムージング処理、減色処理等が施された後、カラー画像の可逆圧縮処理が行われて、位置情報とともに記憶部102に保存される。
ステップS108では、ステップS105において分離された文字領域に対して、文字領域に適応した処理が行われる。すなわち、文字画像処理部108cにより、文字領域内の文字画像は、たとえば、2値化された後、1ビットデータの可逆圧縮処理が施されて、色情報、位置情報とともに記憶部102に保存される。
ステップS109では、文書ファイル作成部109により、写真領域処理部108a、図形領域処理部108b、および文字領域処理部108cからそれぞれ送られた処理後の画像を含む上記3つの領域が合成されて、文書ファイルが作成される。
領域の合成は、たとえば図6(A)に示すように、メモリ上に写真領域600、図形領域700、および文字領域800を出力することにより行われる。ここで、図6(B)に示すように、写真領域600内の写真画像600a以外の部分、図形領域700内の図形画像700a以外の部分、文字領域800内の文字画像800a以外の部分がそれぞれマスク部600b〜800bに指定される。なお、各領域600〜800は、画像600a〜800aについての外接矩形で与えられる。マスク部は、メモリ上に先に記憶されている情報を有効とするためのマスク処理が行われる部分である。まず、写真領域600と図形領域700とがマスク処理されて配置され、その後に、文字領域800がマスク処理されて配置される。すべての領域についてマスク処理を行う理由は、各領域内の画像が矩形である場合のみならず、他の領域の画像が中に入り込むような形状である場合を許容しているからである。こうして、図6(A)に示すように、3つの領域内の画像が相互に欠損することなくメモリ上に出力されて、領域の合成が完了する。
文字領域を他の領域よりも後で配置する理由は、後述するように、領域分離処理の際に文字領域を抽出した後、文字画像が存在していた部分を元の画像データの背景部で補間する補間処理が行われているためである。つまり、文字領域を他の領域よりも先に配置すると、後で配置される領域内における補間された部分によって文字画像が隠されてしまうことを防止するためである。なお、図形領域を抽出した後、図形画像が存在していた部分に対しても補間処理が行われる場合には、写真領域、図形領域、文字領域の順番でメモリ上に出力される。
ステップS110では、ファイル形式変換部110により、ステップS109で作成された文書ファイルが、設定された出力ファイル形式に変換される。
ステップS111では、ステップS110で得られた出力ファイルが、出力インタフェース部105およびコンピュータネットワーク4を介してファイルサーバ3に送信される。
本実施形態では、ファイルサーバ3は、コンピュータネットワーク4を介して画像処理装置1から出力ファイルを受信すると、受信したファイルから文字画像および図形画像を展開し、文字画像に対して文字認識処理を施して文字コードデータに変換し、図形画像に対してベクタ変換処理を施してベクタデータに変換し、変換後の各データを写真画像とともに再度合成して、所定のファイル形式に変換して得られた文書ファイルをハードディスク等の記憶装置の所定のディレクトリに格納する。そして、コンピュータネットワーク4上の他の機器から当該ファイルの転送要求があると、格納した前記ファイルをコンピュータネットワーク4を介して前記他の機器に転送する。
次に、本実施形態における画像処理装置1の画像処理の特徴である図4に示したステップS105の領域分離処理の手順について、さらに詳細に説明する。
図7〜図12は、原稿モードに応じた領域分離処理の手順を示すフローチャートである。図4のステップS101において設定される原稿モードは、全部で6種類ある。すなわち、原稿モードは、第1優先領域および第2優先領域が、それぞれ写真領域および図形領域である第1モード(図7参照)と、それぞれ写真領域および文字領域である第2モード(図8参照)と、それぞれ図形領域および写真領域である第3モード(図9参照)と、それぞれ図形領域および文字領域である第4モード(図10参照)と、それぞれ文字領域および写真領域である第5モード(図11参照)と、それぞれ文字領域および図形領域である第6モード(図12参照)とからなる。
図7〜図12の各領域分離処理は、2値化による領域分割、第1写真/図形領域抽出、エッジによる領域分割、第2写真/図形領域抽出、写真/図形領域抽出、および文字領域抽出という、各モードで内容が共通する処理ブロックを含んでいる。つまり、各領域分離処理は、原稿モードに応じて優先される領域がそれぞれ異なり、領域の優先度にしたがって、領域の抽出順がそれぞれ異なる。たとえば第1モードの場合、領域の優先度は、高い方から写真領域、図形領域、文字領域の順となり、領域の抽出順もこれと同じである。
以下、領域分離処理における各処理ブロックの内容について詳細に説明する。ここでは、例として図7の第1モードの処理順序と同じ順序で、各処理ブロックの内容について具体的な説明を行う。
(2値化による領域分割)
まず、図13を参照して、2値化による領域分割の手順について説明する。
たとえば図5に示される受信した画像データに基づいて、明度からなる画像、つまり明度画像が作成される(ステップS301)。次に、明度画像から下地が除去され(ステップS302)、スムージングフィルタを使用するスムージング処理が行われる(ステップS303)。下地およびノイズが除去された明度画像は、下地の明度レベル(以下、「下地レベル」という。)で、2値化処理される(ステップS304)。これにより、図14に示すように、下地以外の領域を黒く塗り潰した2値画像が得られる。この2値画像に対して、たとえば2次微分フィルタであるラプラシアンフィルタを使用することにより、エッジ検出が行われる(ステップS305)。続いて、モフォロジー処理の一種であるクロージング(膨張・侵食)処理を実行することにより、エッジが補間され、エッジから構成される画像、つまりエッジ画像が得られる(ステップS306、図15参照)。図15のエッジ画像は、図14の2値画像の輪郭線に相当する。
このように下地レベルで2値化して得られた2値画像の輪郭線を検出することによって、相互に接する複数の領域がある場合にはこれらの領域を一つにまとめた形で、領域の分割が行われる。第1〜第4モードにおいては、図14および図15に示すような4つの大きな領域と文字領域とが得られる。ただし、文字領域が優先される第5および第6モードにおいては、2値化による領域分割よりも前に文字領域の抽出が行われるので、4つの大きな領域のみが得られる。
(第1写真/図形領域抽出)
次に、図16および図17を参照して、第1写真/図形領域抽出の手順について説明する。
第1写真/図形領域抽出に関する処理は、下地レベルで2値化して得られた2値画像の輪郭線によって区画された各領域(図15の閉曲線で囲まれた領域)に対してそれぞれ実行される。まず、図15のエッジ画像のエッジの位置に基づいて、第1方向、たとえば主走査方向に関するエッジ間線分の位置が検出される(ステップS401)。そして、注目エッジ間線分の位置に対応する明度画像の画素を使用して、たとえば図18に示すようなヒストグラム(第1ヒストグラム)が作成される(ステップS402)。また、第1ヒストグラムに対して、平均値フィルタ(|1|0|1|)を使用するスムージング処理を行うことによって、たとえば図19に示すような第2ヒストグラムが作成される(ステップS403)。続いて、下記の式にしたがって、階調毎に第1ヒストグラムHist1と第2ヒストグラムHist2の差を算出し、その合計を特徴量とする(ステップS404)。なお、明度は、8ビットデータで表され、256階調を有する。
次いで、注目エッジ間線分に位置する総画素数N1と所定の定数T1との比率R1(=N1/T1)が、算出される(ステップS405)。定数T1は、写真領域と図形領域とを分離するための第1のパラメータである。続いて、閾値である比率R1と特徴量とが比較される(ステップS406)。特徴量が、比率R1より大きいと判断される場合(ステップS406:NO)、第1方向に関するエッジ間線分に位置する画素の全ては、図形領域に属しているとみなされ、番号を割り当てる処理であるラベリングが実行され、ラベリングデータが生成される(ステップS407)。すなわち、各画素に対して領域判定の結果をラベリングする。具体的には、領域判定の結果が画素位置と対応して保存される。一方、特徴量が、比率R1以下であると判断される場合(ステップS406:YES)、第1方向に関するエッジ間線分に位置する画素の全ては、写真領域に属しているとみなされ、ラベリングデータが生成される(ステップS408)。続いて、注目エッジ間線分が、第1方向に関する最終エッジ間線分であるか否かが判断される(ステップS409)。注目エッジ間線分が、最終エッジ間線分でないと判断される場合(ステップS409:NO)、ステップS402に戻って、上記処理が繰り返される。
次に、図15のエッジ画像に基づいて、第1方向と直交する方向である第2方向、たとえば副走査方向に関するエッジ間線分の位置が検出される(ステップS410)。そして、ステップS407およびS408で作成されたラベリングデータに基づいて、注目エッジ間線分に位置する総画素数N2と写真領域に属する画素数N3との比率R2(=N3/N2)が、算出される(ステップS411)。続いて、比率R2と閾値である所定の定数T2とが比較される(ステップS412)。定数T2は、写真領域と図形領域とを分離するための第2のパラメータである。比率R2が、定数T2よりも小さいと判断される場合(ステップS412:NO)、第2方向に関する注目エッジ間線分に存在している画素の全てが、図形領域に属するとみなされ、ラベリングし直される(ステップS413)。一方、比率R2が、定数T2以上と判断される場合(ステップS412:YES)、第2方向に関する注目エッジ間線分に位置する画素の全てが、写真領域に属すると見なされ、ラベリングし直される(ステップS414)。続いて、注目エッジ間線分が、第2方向に関する最終エッジ間線分であるか否かが判断される(ステップS415)。注目エッジ間線分が、最終エッジ間線分でないと判断される場合(ステップS415:NO)、ステップS411に戻って、上記処理が繰り返される。
次に、2値化による領域分割により得られた一つの領域内で、写真領域に属するとラベリングされた画素の数N5と図形領域に属するとラベリングされた画素の数N4とが比較される(ステップS416)。N5<N4と判断される場合(ステップS416:NO)、当該領域は図形領域と判定される(ステップS417)。一方、N5≧N4と判断される場合(ステップS416:YES)、当該領域は写真領域と判定される(ステップS418)。そして、写真領域または図形領域のうち優先度が高い方の領域の判定が確定されるとともに、当該領域内の画素の全てが、優先度が高い方の領域に属するとみなされ、ラベリングし直されて、画像データから抽出される(ステップS419)。ここで、位置データに基づいて領域の輪郭を追跡することによって領域の外接矩形が算出され、外接矩形内の座標位置に対応していて当該領域に属するとラベリングされた画素を含む矩形領域が、画像データから抽出される。
このように第1写真/図形領域抽出においては、2値化による領域分割が行われて得られた領域に対して、領域の境界であるエッジの間の画像特徴量を算出することにより、当該領域が写真領域であるか図形領域であるかが判定される。そして、写真領域の方が図形領域よりも優先度が高い場合(第1、第2、および第5モード)、写真領域が確定され、当該領域が矩形領域の形で抽出される。一方、図形領域の方が写真領域よりも優先度が高い場合(第3、第4、および第6モード)、図形領域が確定され、当該領域が矩形領域の形で抽出される。
本実施形態では、上記のように、図形領域の明度分布はある程度均一である一方で、写真領域の明度分布は分散しているという特徴に基づいて、写真領域であるかまたは図形領域であるかが判定される。ただし、領域の判定方法は、これに限定されるものではなく、たとえば明度画像から抽出される周波数成分を特徴量として用いて領域の判定を行ってもよい。
(エッジによる領域分割)
次に、図20を参照して、エッジによる領域分割の手順について説明する。
エッジによる領域分割は、第1写真/図形領域抽出によって写真領域または図形領域のうち優先度が高い方の領域が抽出されて残ったデータに対して、実行される。
まず、画像データにおけるR成分画像、G成分画像、およびB成分画像のそれぞれに対して、たとえばラプラシアンフィルタなどのエッジ検出フィルタを使用することにより、エッジ検出が行われる(ステップS501〜S503)。続いて、検出されたR成分画像、G成分画像、およびB成分画像の各エッジの和集合を得るためのOR処理が行われ(ステップS504)、さらにエッジの途切れをなくすために、クロージング処理が行われる(ステップS505)。ここで、第1〜第4モードの場合、文字領域の抽出がまだ行われていない段階であるため、文字画像のエッジも検出されてしまう。しかし、たとえば、領域の外接矩形の大きさ(縦および横寸法)が所定の閾値より小さく、外接矩形の大きさに対する領域内部の有効画素数の割合が所定の閾値より小さい場合、当該領域は、エッジによる領域分割の対象から除外される。これにより、文字画像のエッジは、領域の境界とはみなされなくなる。
図21は、エッジによる領域分割によって得られた領域の一例を模式的に示す図であって、(A)は、第1、第2、または第5モードの場合、(b)は、第3、第4、または第6モードの場合を示す。ここで、図21(A)では、第1写真/図形領域抽出によって、図形領域よりも先に写真領域が既に抽出されている。つまり、図21(B)に示す領域P1(領域G3を含む)、および領域P2は、図21(A)においては写真領域として抽出済みである。また、図21(B)では、第1写真/図形領域抽出によって、写真領域よりも先に図形領域が既に抽出されている。つまり、図21(A)に示す領域G1、および領域G2(領域P3、P4を含む)は、図21(B)においては写真領域として抽出済みである。
このようにエッジによる領域分割は、第1写真/図形領域抽出によって写真領域または図形領域のうち優先度の高い方の領域が抽出されて残ったデータの中に、優先度の高い方の領域が優先度の低い方の領域上に重なった状態でまだ残っている場合、あるいは優先度が高い方の領域が優先度の低い方の領域の内部に含まれた状態でまだ残っている場合に、当該優先度が高い方の領域をさらに抽出するために行われる。つまり、上記エッジを検出することによって、より細かい領域分割が行われる。
(第2写真/図形領域抽出)
次に、第2写真/図形領域抽出の手順について説明する。第2写真/図形領域抽出は、図21に示されるエッジによる領域分割によって得られた領域に対して、前述した第1写真/図形領域抽出と同様の処理が再度行われる。これにより、第1、第2、および第5モードの場合、第1写真/図形領域抽出によっては写真領域として抽出されなかった図形領域中の写真領域が抽出される。たとえば図21(A)では、領域P3、P4が写真領域として追加的に抽出される。また、第3、第4、および第6モードの場合、第1写真/図形領域抽出によっては図形領域として抽出されなかった写真領域中の図形領域が抽出される。たとえば図21(B)では、領域G3が図形領域として追加的に抽出される。
なお、図7〜図12に示される第2写真/図形領域抽出の終了後に行われる写真/図形領域抽出においては、図21に示されるエッジによる領域分割によって得られた領域のうち、第2写真/図形領域抽出によって抽出されずに残った領域が抽出される。
(文字領域抽出)
次に、図22を参照して、文字領域抽出の手順について説明する。
ここでは、説明を簡単にするため、たとえば図23に示される画像データに対して、文字領域抽出に関する処理が行われる場合について説明する。
まず、画像データに対して、領域統合処理が行われる(ステップS601)。この処理は、たとえば背景画像上の文字画像、あるいは画素値が異なる文字画像を含む文字領域をも抽出するための処理である。具体的には、まず、画像データのうち明度画像に対して、スムージング処理が施された後、変動閾値による2値化を行うことにより、エッジ画像が作成される。変動閾値による2値化処理とは、具体的には、たとえば図24に示すように、5×5ブロック内の四隅に位置する画素の階調値の最大値からオフセット値を減算した値を閾値として注目画素を2値化する処理である。続いて、得られたエッジ画像の主走査方向の黒画素の間隔を計測し、所定間隔以下である黒画素間の白画素を全て黒画素で置換して主走査方向に黒画素を連結した連結エッジ画像を作成する。さらに、得られた連結エッジ画像の副走査方向に対しても、同様の処理が繰り返され、主副走査方向に黒画素を連結した連結エッジ画像が得られる。このようにして、画像処理装置1は、近隣の黒画素を連結し、画像データ中で孤立している個々の文字画像を1つの領域として統合することにより、ある程度まとまった文字列ごとに1つの領域として抽出することが可能となるものである。
次に、領域抽出処理が行われる(ステップS602)。この処理は、連結した黒画素のまとまりを1領域として別々に抽出する処理である。具体的には、まず、得られた連結エッジ画像に対し、連結した黒画素ごとにラベリングが施される。ラベリングと同時に、同一ラベルの連結した黒画素ごとの外接矩形の位置情報(幅、高さ、および座標)が検出され、ラベリング画像が作成される。続いて、ラベリング時に検出された外接矩形とラベル番号とに基づいて、ラベリング画像から当該外接矩形で囲まれる領域が局所領域として抽出される。ここで、同一ラベル番号の画素だけを含む外接矩形を抽出することにより、外接矩形同士が重なり合ったレイアウトの画像も分離して抽出することが可能となる。図25は、変動閾値による2値化処理および黒画素の連結処理を施して得られた連結エッジ画像と、連結エッジ画像データから得られたラベリング画像において同一ラベルの連結した黒画素ごとに求めた外接矩形とを示す図である。
次に、ステップS602において抽出された各局所領域に属する画像の斜め方向エッジ成分が特徴量として抽出され(S603)、斜め方向エッジ成分の含有率が所定範囲内にある局所領域が、文字領域と判別される(S604)。文字領域は、図形、写真、罫線等の他の領域と比較して、小さい領域内に斜め方向エッジ成分を多く含んでいる。したがって、文字領域特有の周波数成分として斜め方向エッジ成分を抽出し局所領域における含有率を求めることにより、当該局所領域が文字領域であるか否かが判定され得る。かかる斜め方向エッジ成分の抽出は、2×2DCT(離散コサイン変換)によって得られた周波数成分のうち高周波成分を抽出する処理と同等である。すなわち、局所領域内の画像に対して2×2マトリクスによるDCTを施し、得られた周波数成分のうちの高周波成分を「0」として逆DCT変換を行うことにより、高周波成分を除去した復元画像が得られる。そして、原画像と復元画像との差分を取り出すことにより、原画像の高周波成分のみが抽出され得る。ここで、図26に示すフィルタ処理を施すことにより高速な処理が可能である。図27は、抽出された高周波成分を2値化して得られた斜め方向エッジ成分画像の一例を示す図である。所領局域は、大体において単語単位となっている。このため、所領局域が文字領域である場合、局所領域内の斜め方向エッジ成分の含有率、すなわち、局所領域の面積に対する当該局所領域に属する図27の黒画素総数の比率は所定範囲内となる(約0.2〜20%)。したがって、当該比率が上記範囲内である局所領域が文字領域と判別される。
次に、文字画像作成処理が行われる(ステップS605)。すなわち、ステップS604において文字領域と判別された局所領域内における元の画像データ(スキャナ2から受信した画像データ)を2値化することによって文字部とその背景部とが区別され、文字部のみからなる文字画像が作成される。2値化する際に使用される閾値は、文字領域ごとに設定される。文字領域ごとの閾値の設定方法としては、例えば以下の方法を用いることができる。まず、文字領域ごとに、当該文字領域内の画像データの明度画像を用いて、図28(A)に示すような明度ヒストグラムを作成する。続いて、明度ヒストグラムを当該文字領域内の画素数に対する百分率に変換して二次微分を行い、二次微分の結果が所定値以上であれば「1」、それ以外は「0」を出力することによって、図28(B)に示すようなピーク検出用ヒストグラムを作成し、ピークを検出する。そして、検出されたピーク数が2以上のときは両端のピークの中心値、ピーク数が1のときは当該ピークと前記明度ヒストグラムの左右立ち上がり値(図28(A)における「Left」および「Right」の値)の平均値、ピーク数が0のときは前記明度ヒストグラムの前記左右立ち上がり値の中心値を閾値と決定する。このように、文字領域内の明度ヒストグラムのピーク数によって異なる2値化閾値を用いるため、たとえば背景画像上の文字画像や反転文字画像等も、画像が欠けることなく2値化可能となる。
次に、画像補間処理が行われる(ステップS606)。すなわち、元の画像データから、文字部のみからなる文字画像が除去され、除去後の部分が、その文字画像の背景画素で補間される。ここで、文字画像の背景画素は、ステップS605において文字領域ごとに2値化して得られた画像から特定することができる。補間に使用される背景画素の値は、元のRGB画像データにおける文字画像の背景に相当する画素のRGBごとの平均値を算出することにより与えられる。
このように、画像処理装置1は、近隣の黒画素を連結することにより近接する領域を統合して、統合された領域を抽出し、文字らしさを表す特徴量を算出して、この特徴量を用いて抽出された各領域が文字領域であるか否かを判別し、続いて、文字領域と判別された領域内の画像データから文字部のみからなる文字画像を作成する。そして、文字部のみからなる文字画像を除去した後の部分を背景画素で補間する。
この文字領域抽出においては、文字画像が写真画像または図形画像の上に重なっている場合であっても、文字領域の確実な抽出が可能である。ただし、文字領域よりも写真領域または図形領域が優先される原稿モードが設定されている場合、写真画像または図形画像の上に重なっている文字画像は、写真領域または図形領域の一部として先に抽出されることになる。
上述のようにして、図7〜図12に示す設定された原稿モードに応じた領域抽出順序で、スキャナから受信した画像データから、写真領域、図形領域、および文字領域が分離される。
本実施形態によれば、画像データから写真領域、図形領域、および文字領域を分離する際に、各領域の抽出順を設定することができ、これにより、どの領域を優先して抽出するかを制御することが可能となる。したがって、優先度の高い領域は、その中に他の領域を含んでいても当該他の領域を包含した状態で優先的に抽出され、また、他の領域の中に含まれていても優先的に抽出される。このように、優先度の高い領域は、他の領域よりも先に抽出されるため他の領域と誤判別されて抽出されることがなくなり、当該領域に対して不適切な処理が施されて画像が劣化することが防止される。
図29〜図34は、図5の画像データから、それぞれ第1〜第6モードの領域分離処理によって分離された写真領域、図形領域、および文字領域を示す図であって、(A)は最先に抽出された領域、(B)は2番目に抽出された領域、(C)は3番目に抽出された領域を示す。
第1優先領域が写真領域である場合(第1および第2モード)、図29(A)および図30(A)に示すように、受信した画像データから、写真領域が最先に抽出された後に、残ったデータから図形領域と文字領域とが分離されるため、写真領域は、他の領域の分離処理の影響を受けて当該他の領域に付随して抽出されることがなくなる。これにより、写真領域は、他の領域と誤判別されることなく確実に抽出され得る。したがって、写真領域を高画質で再現することを主目的とする場合、より多くの写真領域を確実に抽出して、当該領域に対して適切な処理を実行することができる。換言すれば、たとえば写真領域内のある部分が文字領域と誤判別され、後工程において文字領域に適応した2値化処理が行われてしまうことを防止することができる。また、たとえば写真領域内のある部分が図形領域と誤判別され、後工程において図形領域に適応した減色処理が行われて単一色で塗り潰されてしまうことを防止することができる。つまり、写真領域に対して不適切な処理が施されて写真画像が劣化することが防止される。また、写真領域を優先して抽出することにより、元の画像データの内容が維持される利点がある。すなわち、図形領域または文字領域であるにもかかわらず当該領域を写真領域と誤判別したとしても、画像として再現できるため当該領域の内容が維持される。
さらに、写真領域抽出後の画像データから、文字領域よりも先に図形領域を抽出する場合(第1モード)、図形領域内のある部分が文字領域と誤判別され、後工程において文字領域に適応した処理が行われてしまうことを防止することができる。したがって、写真画像および図形画像に対する劣化が少なくなる。また、写真領域抽出後の画像データから、図形領域よりも先に文字領域を抽出する場合(第2モード)、図形領域内の文字画像を抽出することが可能となる。したがって、写真画像および文字画像に対する劣化が少なくなる。
第1優先領域が図形領域である場合(第3および第4モード)、図31(A)および図32(A)に示すように、受信した画像データから、図形領域が最先に抽出された後に、残ったデータから写真領域と文字領域とが分離されるため、図形領域は、他の領域の分離処理の影響を受けて当該他の領域に付随して抽出されることがなくなる。これにより、図形領域は、他の領域と誤判別されることなく確実に抽出され得る。したがって、ベクタ変換処理などの図形領域に適応した処理を施すことを主目的とする場合、より多くの図形領域を確実に抽出して、当該領域に対して適切な処理を実行することができる。換言すれば、たとえば写真領域の中に図形領域が重なって配置されている場合、全体が写真領域と誤判別されJPEG圧縮されてしまってノイズが発生することを防止することができる。また、たとえば文字画像と間違いやすい図形画像を含む領域が文字領域と誤判別されてしまって当該領域に対して文字領域に適応した処理である2値化処理、さらには文字認識処理が実行されることを防止することができる。つまり、図形領域に対して不適切な処理が施されて図形画像が劣化することが防止される。
さらに、図形領域抽出後の画像データから、文字領域よりも先に写真領域を抽出する場合(第3モード)、写真領域内のある部分が文字領域と誤判別され、後工程において文字領域に適応した処理が行われてしまうことを防止することができる。したがって、図形画像および写真画像に対する劣化が少なくなる。また、図形領域抽出後の画像データから、写真領域よりも先に文字領域を抽出する場合(第4モード)、写真領域内の文字画像を抽出することが可能となる。したがって、図形画像および文字画像を劣化させることなく、写真画像に対して非可逆の圧縮処理を行うことができる。
第1優先領域が文字領域である場合(第5および第6モード)、図33(A)および図34(A)に示すように、受信した画像データから、文字領域が最先に抽出された後に、残ったデータから写真領域と図形領域とが分離されるため、文字領域は、他の領域の分離処理の影響を受けて当該他の領域に付随して抽出されることがなくなる。これにより、文字領域は、他の領域と誤判別されることなく確実に抽出され得る。したがって、文字認識処理などの文字領域に適応した処理を施すことを主目的とする場合、より多くの文字領域を確実に抽出して、当該領域に対して適切な処理を実行することができる。換言すれば、たとえば画像データ中で文字画像が写真画像または図形画像の上に重なっている場合、文字領域が判別されないで全体が写真領域または図形領域と判別されて抽出されてしまって、文字画像に対する文字認識処理を十分に実行できないばかりか、文字画像に対して不適切な処理が施されることを防止することができる。
さらに、文字領域抽出後の画像データから、図形領域よりも先に写真領域を抽出する場合(第5モード)、たとえば図形領域に内包されている写真領域を抽出することが可能である。したがって、文字画像および写真画像に対する劣化が少なくなる。また、文字領域抽出後の画像データから、写真領域よりも先に図形領域を抽出する場合(第6モード)、たとえば写真領域に内包されている図形領域を抽出することが可能である。したがって、文字画像および図形画像を劣化させることなく、写真画像に対して非可逆の圧縮処理を行うことができる。
本発明は、上述した実施の形態のみに限定されるものではなく、特許請求の範囲内において、種々改変することができる。
本発明の画像処理装置は、上記実施形態で示した態様以外に、スキャナ、パソコン、ワークステーション、サーバ等のコンピュータ、デジタル複写機、ファクシミリ装置、およびMFP(multi-function peripheral)等の機器にも応用することができる。
また、上記実施形態では、ファイルサーバ3が、画像処理装置1から受信したファイルから文字画像および図形画像を展開して、それぞれ文字認識処理およびベクタ変換処理を施す構成とされているが、これらの処理は画像処理装置1により行われてもよい。また、図7〜図12の各領域分離処理における個々の処理ブロックの内容は適宜変更が可能である。
また、上記実施形態では、画像処理装置1は、写真領域、図形領域、および文字領域のうちで画像データの内容に応じて優先的に抽出される領域を設定する構成とされているが、本発明はこれに限定されない。本発明による画像処理装置では、あらかじめ最先に抽出される領域が固定されていてもよく、たとえば図形領域が最先に抽出される領域として固定され得る。また、本発明による画像処理装置では、あらかじめ領域の抽出順が固定されていてもよく、たとえば図形領域、写真領域および文字領域の順、あるいは図形領域、文字領域および写真領域の順が領域の抽出順として固定され得る。
本発明による画像処理装置および画像処理方法は、上記各手順を実行するための専用のハードウエア回路によっても、また、上記各手順を記述した所定のプログラムをCPUが実行することによっても実現することができる。後者により本発明を実現する場合、画像処理装置を動作させる上記所定のプログラムは、フレキシブルディスクやCD−ROM等のコンピュータ読取可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピュータ読取可能な記録媒体に記録されたプログラムは、通常、ハードディスク等に転送され記憶される。また、このプログラムは、たとえば、単独のアプリケーションソフトとして提供されてもよいし、画像処理装置の一機能としてその装置のソフトウエアに組み込んでもよい。