JP4411244B2

JP4411244B2 - 画像処理装置、画像処理方法、プログラム

Info

Publication number: JP4411244B2
Application number: JP2005124985A
Authority: JP
Inventors: 玲司三沢
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-04-22
Filing date: 2005-04-22
Publication date: 2010-02-10
Anticipated expiration: 2025-04-22
Also published as: JP2006304063A

Description

本発明は、文書画像の領域判定を好適に行うことができる画像処理装置、画像処理方法、プログラムに関する。

近年、カラープリンタやカラースキャナ等の普及により、カラー化された文書が増え、これをスキャンにより取り込んで電子ファイルとして保存したり、インターネット等を介して第三者等に送付する機会が増えてきている。しかし、フルカラーデータのままでは記憶装置や回線への負荷が大きいため、圧縮処理等の方法で取り扱うデータ量を小さくする必要がある。

従来、カラー画像を圧縮する方法として、例えば、誤差拡散等で擬似階調を持った２値画像にして圧縮する方法、ＪＰＥＧ形式で圧縮する方法、８ビットのパレットカラーに変換を行ってＺＩＰ圧縮やＬＺＷ圧縮をする方法等があった。また、領域判定とＭＭＲによる２値圧縮とＺＩＰによる可逆圧縮と、ＪＰＥＧによる非可逆圧縮との組み合わせにより、通常の文字領域については高い品位が得られる圧縮方法等があった（例えば、特許文献１及び特許文献２参照）。

また、従来、文書画像処理に関する技術としては、文書を光学的に入力し、文字を認識してテキストコードを出力する光学的文字認識装置（ＯＣＲ）の技術が存在する（例えば、特許文献３参照）。

ＯＣＲでは、濃度射影（ヒストグラム）により文字行を切り出し（抽出）、さらに１文字単位の文字ブロック切り出し（抽出）を行う。文字ブロックの切り出しに際しては、文字行方向に濃度射影を取り、濃度射影値の変化に基づいて文字行を分離し、さらに、各文字行について、文字行と垂直方向に濃度射影を取ることで個々の文字ブロックを抽出する。また必要に応じて、標準的な文字サイズや文字ピッチの推定値、および行と垂直方向に濃度射影値等の情報を用いて、１文字単位の文字画像となる、最終的な文字ブロックを切り出す。切り出された文字ブロックは、縦横寸法の正規化を行った後に、所定の特徴データ抽出の処理が施される。特徴データが抽出された個々の文字ブロックは、予め求められている標準パタンとの類似度が計算され、最も類似度の高い文字が認識結果とされる。標準パタンの集合は認識辞書と呼ばれる。
特開２００２−０７７６３３号公報特開２００４−１２８８８０号公報特開２００３−３４６０８３号公報

特許文献１や特許文献２に記載の方法によれば、領域判定とＭＭＲによる２値圧縮とＺＩＰによる可逆圧縮と、ＪＰＥＧによる非可逆圧縮との組み合わせにより、通常の文字領域については高い品位が得られる。しかし、領域判定の結果において、文字ではない領域（写真領域など、以下、非文字）を文字であると誤判断する場合もあり、その際は逆に大きな画質劣化を生じるという問題があった。

また、ＯＣＲ処理においては、文字ブロックとして切り出した領域が非文字であった場合、非文字に対して文字認識を行うことになる。非文字に対して文字認識を行ってしまうと、全体の処理速度を低下させてしまう他、意味のないテキストコードが認識結果の出力データに含まれてしまう場合もあり好ましくないという問題があった。

本発明は、このような事情を考慮してなされたものであり、抽出した領域に対して、文字と非文字の属性判断を良好に行うことができる画像処理装置、画像処理方法、コンピュータプログラムを提供することを目的とする。

上記課題を解決する為に、本発明の画像処理装置は、多値文書画像を２値化することにより、２値画像を生成する２値化手段と、前記２値化手段で生成された２値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段と、前記判定対象領域の２値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第１の細線化画像を得る第１細線化手段と、前記判定対象領域の２値画像に対して、横方向に連結する黒画素（以下、横方向連結黒画素という。）を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素（以下、縦方向連結黒画素という。）を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第２の細線化画像を得る第２細線化手段と、前記第１細線化手段で得た第１の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第１の色分散値を算出する第１色分散値算出手段と、前記第２細線化手段で得た第２の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第２の色分散値を算出する第２色分散値算出手段と、前記算出した第１の色分散値が予め設定された第１の閾値より小さく、且つ前記算出した第２の色分散値が予め設定された第２の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第１の色分散値が前記第１の閾値以上であるか、前記算出した第２の色分散値が前記第２の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段とを有することを特徴とする。

上記課題を解決する為に、本発明の画像処理方法は、２値化手段が、多値文書画像を２値化することにより、２値画像を生成する２値化ステップと、領域抽出手段が、前記２値化ステップで生成された２値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出ステップと、第１細線化手段が、前記判定対象領域の２値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第１の細線化画像を得る第１細線化ステップと、第２細線化手段が、前記判定対象領域の２値画像に対して、横方向に連結する黒画素（以下、横方向連結黒画素という。）を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素（以下、縦方向連結黒画素という。）を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第２の細線化画像を得る第２細線化ステップと、第１色分散値算出手段が、前記第１細線化ステップで得た第１の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第１の色分散値を算出する第１色分散値算出ステップと、第２色分散値算出手段が、前記第２細線化ステップで得た第２の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第２の色分散値を算出する第２色分散値算出ステップと、領域判定手段が、前記算出した第１の色分散値が予め設定された第１の閾値より小さく、且つ前記算出した第２の色分散値が予め設定された第２の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第１の色分散値が前記第１の閾値以上であるか、前記算出した第２の色分散値が前記第２の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定ステップとを有することを特徴とする。

本発明によれば、文字と非文字の領域判定を精度良く実行することが可能となる。したがって、この領域判定結果を圧縮技術に適用すると、良好な画質が得られると共に、圧縮効率を向上させることが可能となる。また、ＯＣＲ技術に対して適用すると、処理速度の向上と共に、意味のないテキストコードを出力してしまうことを抑え、認識率を向上させることが可能となる。

（実施例１）
以下の実施の形態では、例えばカラー複写機に搭載可能な、カラー画像の圧縮技術において本発明の領域判定技術を適用する例を説明する。尚、カラー複写機の機能としては、例えば、カラーコピー機能、カラープリント機能及びカラースキャナ機能があるが、本実施形態で説明する領域判定技術は、このうちカラーコピー機能及びカラースキャナ機能で適用可能である。具体的には、カラー原稿を読み取ることにより得られたカラー画像データを圧縮する際に用いられる圧縮技術に適用できる。また、カラースキャナ機能としては、例えば、カラー原稿を読み取ることにより得られたカラー画像データを圧縮して外部へ送信するデータ送信機能及び同カラー画像データを圧縮して複写機内部の記憶手段に記憶する保存機能がある。

以下、図面を参照して、本発明を好適な実施形態に従って詳細に説明する。

図１は本発明の実施例によるシステム構成を示す概略図であり、ネットワーク通信機能を備えた複合機（ＭＦＰ）１０１とホストコンピュータ（以下、ＰＣ）１０２が、ネットワーク１０３等の伝送媒体で接続された環境を示す図である。

また、点線１０４〜１０５は、処理／制御の流れを示すものとし、以下順に説明を行う。１０４は、ユーザがＭＦＰ１０１のスキャナより紙文書を読み込ませる処理を示す。その際、ユーザは、後述するＭＦＰ１０１のユーザーインターフェース（図２の２０３）より、送信する宛先（例えば、ＰＣ１０２）、各種送信設定（例えば、解像度、圧縮率）、データ書式（例えば、ＪＰＥＧ、ＴＩＦＦ、ＰＤＦ、ＰＤＦ高圧縮、ＰＤＦ（ＯＣＲ結果付き））を予め指定する。本実施例では、カラー画像の圧縮技術において本発明の領域判定方法を用いる例を説明するため、データ書式としてＰＤＦ高圧縮を指定した場合について説明を行う。ＰＤＦ高圧縮の技術詳細については後述する。１０５は、指定された送信設定及びデータ書式に基づいて、ＭＦＰ１０１の後述するソフトウェアあるいはハードウェア機能を利用してデータを生成し、指定された宛先に送信する処理を示す。ここで、ＰＣ１０２へ送信された画像は、ＰＤＦなどのファイルフォーマットで送信されることになるので、ＰＣ１０２の有する汎用的なビューアで閲覧可能である。

次に、図１におけるＭＦＰ１０１のハードウェアの詳細構成について図２を用いて説明する。

ＭＦＰ１０１は、画像入力デバイスであるスキャナ部２０１、画像出力デバイスであるプリンタ部２０２、ＣＰＵやメモリ等で構成される制御ユニット（ＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）２０４、ユーザーインターフェースである操作部２０３等を有する。制御ユニット２０４は、スキャナ部２０１、プリンタ部２０２、操作部２０３と接続し、一方では、ＬＡＮ２１９や一般の電話回線網である公衆回線（ＷＡＮ）２２０と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。ＣＰＵ２０５はシステム全体を制御するコントローラである。ＲＡＭ２０６はＣＰＵ２０５が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ＲＯＭ２１０はブートＲＯＭであり、システムのブートプログラムが格納されている。ＨＤＤ２１１はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部Ｉ／Ｆ２０７は操作部（ＵＩ）２０３とのインターフェース部で、操作部２０３に表示するための画像データを操作部２０３に対して出力する。また、操作部２０３から本画像処理装置の使用者が入力した情報を、ＣＰＵ２０５に伝える役割をする。ネットワーク（Ｎｅｔｗｏｒｋ）２０８は本画像処理装置をＬＡＮ２１９に接続し、パケット形式の情報の入出力を行う。モデム（ＭＯＤＥＭ）２０９は本画像処理装置を公衆回線２２０に接続し、情報の復調・変調を行い入出力を行う。以上のデバイスがシステムバス２２１上に配置される。

イメージバスインターフェース（ＩｍａｇｅＢｕｓＩ／Ｆ）２１２はシステムバス２２１と画像データを高速で転送する画像バス２２２とを接続し、データ構造を変換するバスブリッジである。画像バス２２２は、例えば、ＰＣＩバスやＩＥＥＥ１３９４で構成される。

画像バス２２２上には以下のデバイスが配置される。ラスターイメージプロセッサ（ＲＩＰ）２１３はＰＤＬコードを解析し、ビットマップイメージに展開する。デバイスＩ／Ｆ部２１４は、信号線２２３を介して画像入出力デバイスであるスキャナ部２０１、信号線２２４を介してプリンタ部２０２、をそれぞれ制御ユニット２０４に接続し、画像データの同期系／非同期系の変換を行う。スキャナ画像処理部２１５は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部２１６は、プリンタ部２０２に出力すべきプリント出力画像データに対して、プリンタ部２０２に応じた補正、解像度変換等を行う。画像回転部２１７は入力された画像データの回転を行い出力する。画像圧縮部２１８は、多値画像データに対してはＪＰＥＧ圧縮伸長処理、または、デバイス固有の圧縮伸長処理を行い、２値画像画像データに対してはＪＢＩＧ、ＭＭＲ、ＭＨの圧縮伸長処理を行う。以上が図１におけるＭＦＰ１０１のハードウェアの詳細構成である。

次に、図２における制御ユニット２０４に実装されるソフトウェア構成について図３を用いて説明する。３０１はユーザーインターフェース（以下、ＵＩ）であり、オペレータが操作部２０３を用いてＭＦＰに対する各種操作・設定を行う際の、機器とユーザ操作との仲介を行うモジュールである。本モジュールは、オペレータの操作に従い、後述の各種モジュールに入力情報を転送して処理の依頼、或いはデータの設定等を行う。

３０２はアドレスブック（Ａｄｄｒｅｓｓ−Ｂｏｏｋ）、即ちデータの送付先、通信先等を管理するデータベースモジュールである。アドレスブック３０２の内容は操作部２０３からの操作を、ＵＩ３０１で検知し、データの追加、削除、取得が行われ、オペレータの操作により後述の各モジュールにデータの送付・通信先情報を与えるものとして使用されるものである。

３０３はＷｅｂサーバモジュール（Ｗｅｂ−Ｓｅｒｖｅｒモジュール）であり、Ｗｅｂクライアント（例えば、ＰＣ１０２）からの要求により、本ＭＦＰの管理情報を通知するために使用される。この管理情報は、後述の統合送信部（Ｕｎｉｖｅｒｓａｌ−Ｓｅｎｄモジュール）３０４、後述のリモートコピースキャンモジュール（Ｒｅｍｏｔｅ−Ｃｏｐｙ−Ｓｃａｎモジュール）３０９、後述のリモートコピープリントモジュール（Ｒｅｍｏｔｅ−Ｃｏｐｙ−Ｐｒｉｎｔモジュール）３１０、後述の制御ＡＰＩ（Ｃｏｎｔｒｏｌ−ＡＰＩ）３１８を介して読み取られ、後述のＨＴＴＰモジュール３１２、ＴＣＰ／ＩＰ通信モジュール３１６、ネットワークドライバ（Ｎｅｔｗｏｒｋ−Ｄｒｉｖｅｒ）３１７を介してＷｅｂクライアントに通知される。Ｗｅｂサーバモジュール３０３はＷｅｂクライアントに渡すべき情報を、ＨＴＭＬ形式等のいわゆるＷｅｂページ（ホームページ）形式のデータとして作成する。必要に応じてＪａｖａ（登録商標）やＣＧＩプログラム等が用いられる。

３０４は統合送信部（Ｕｎｉｖｅｒｓａｌ−Ｓｅｎｄモジュール）、即ちデータの配信を司るモジュールであり、ＵＩ３０１を介してオペレータによって指定されたデータを、指示された通信（出力）先に配布するものである。また、オペレータにより、本ＭＦＰのスキャナ機能を使用して配布データの生成が指示された場合は、後述の制御ＡＰＩ３１８を介して本ＭＦＰのスキャナ２０１を動作させ、データの生成を行う。

３０５は統合送信部３０４内で出力先にプリンタが指定された際に実行されるモジュールである。３０６は統合送信部３０４内で通信先にＥ−ｍａｉｌアドレスが指定された際に実行されるモジュールである。３０７は統合送信部３０４内で出力先にデータベースが指定された際に実行されるモジュールである。３０８は統合送信部３０４内で出力先に本ＭＦＰと同様のＭＦＰが指定された際に実行されるモジュールである。

３０９はリモートコピースキャン（Ｒｅｍｏｔｅ−Ｃｏｐｙ−Ｓｃａｎ）モジュールであり、ＭＦＰ１０１のスキャナ機能を使用してスキャナ２０１で読み取った画像情報の出力先をネットワーク等で接続された他のＭＦＰのプリンタで出力し、本ＭＦＰ１０１単体で実現しているコピー機能と同等の処理を行うモジュールである。３１０はリモートコピープリント（Ｒｅｍｏｔｅ−Ｃｏｐｙ−Ｐｒｉｎｔ）モジュールであり、ネットワーク等で接続された他のＭＦＰのスキャナで読み取った画像情報を入力元として得られた画像情報をＭＦＰ１０１のプリンタ機能を使用して出力することにより、同様にＭＦＰ１０１単体で実現しているコピー機能と同等の処理を行うモジュールである。ボックスモジュール３１１はスキャン画像もしくはＰＤＬプリント画像をＨＤＤに格納し、格納した画像のプリンタ機能による印刷、統合送信（Ｕｎｉｖｅｒｓａｌ−Ｓｅｎｄ）機能による送信、ＨＤＤに格納した文書の削除、グルーピング（個別ＢＯＸへの格納）、ＢＯＸ間移動、ＢＯＸ間コピーなどの管理機能を提供する。なお、ボックスモジュール３１１は、ＨＴＴＰモジュール３１２及びＴＣＰ／ＩＰモジュール３１６によって通信機能が提供される。

３１２はＨＴＴＰモジュールであり、本ＭＦＰがＨＴＴＰにより通信する際に使用され、後述のＴＣＰ／ＩＰ通信モジュール３１６により前述のＷｅｂサーバモジュール３０３、Ｗｅｂプルプリントモジュール３１１に通信機能を提供する。３１３はｌｐｒモジュールであり、後述のＴＣＰ／ＩＰ通信モジュール３１６により前述の統合送信部３０４内のプリンタモジュール３０５に通信機能を提供するものである。３１４はＳＭＴＰモジュールであり、後述のＴＣＰ／ＩＰ通信モジュール３１６により統合送信部３０４内のＥ−ｍａｉｌモジュール３０６に通信機能を提供する。３１５はＳＬＭ、即ちＳａｌｕｔａｔｉｏｎ−Ｍａｎａｇｅｒモジュールであり、後述のＴＣＰ／ＩＰ通信３１６モジュールにより前述の統合送信部３０４内のデータベースモジュール３１７、ＤＰモジュール３１８、及びリモートコピースキャンモジュール３０９、リモートコピープリントモジュール３１０に通信機能を提供する。

３１６はＴＣＰ／ＩＰ通信モジュールであり、後述のネットワークドライバ３１６を用いて、前述の各種モジュールにネットワーク通信機能を提供する。３１７はネットワークドライバであり、ネットワークに物理的に接続される部分を制御するものである。

３１８は制御ＡＰＩであり、統合送信部３０４等の上流モジュールに対し、後述のジョブマネージャ（Ｊｏｂ−Ｍａｎａｇｅｒ）３１９等の下流モジュールとのインターフェイスを提供するものであり、上流及び下流のモジュール間の依存関係を軽減し、それぞれの流用性を高めるものである。３１９はジョブマネージャであり、前述の各種モジュールより制御ＡＰＩ３１８を介して指示される処理を解釈し、後述の各モジュール（３２０、３２４、３２６）に指示を与えるものである。また、ジョブマネージャ３１９は、ＦＡＸジョブの制御も含め本ＭＦＰ内で実行される種々のジョブを一元管理するものである。

３２０はコーデックマネージャ（ＣＯＤＥＣ−Ｍａｎａｇｅｒ）であり、ジョブマネージャ３１９が指示する処理の中でデータの各種圧縮・伸長を管理・制御するものである。３２１はＦＢＥエンコーダモジュール（ＦＢＥ−Ｅｎｃｏｄｅｒ）であり、ジョブマネージャ３１９、後述のスキャンマネージャ（Ｓｃａｎ−Ｍａｎａｇｅｒ）３２４により実行されるスキャン処理により読み込まれたデータをＦＢＥフォーマットにより圧縮するものである。３２２はＪＰＥＧコーデックモジュール（ＪＰＥＧ−ＣＯＤＥＣ）であり、ジョブマネージャ３１９、スキャンマネージャ３２４により実行されるスキャン処理、及びプリントマネージャ（Ｐｒｉｎｔ−Ｍａｎａｇｅｒ）３２６により実行される印刷処理において、読み込まれたデータのＪＰＥＧ圧縮及び印刷データのＪＰＥＧ展開処理を行うものである。３２３はＭＭＲコーデック（ＭＭＲ−ＣＯＤＥＣ）であり、ジョブマネージャ３１９、スキャンマネージャ３２４により実行されるスキャン処理、及びプリントマネージャ３２６により実行される印刷処理において、スキャナから読み込まれたデータのＭＭＲ圧縮及びプリンタへ出力すべき印刷データのＭＭＲ伸長処理を行うものである。

３２４はスキャンマネージャ（Ｓｃａｎ−Ｍａｎａｇｅｒ）であり、ジョブマネージャ３１９が指示するスキャン処理を管理・制御するものである。３２５はＳＣＳＩドライバであり、スキャンマネージャ３２４と本ＭＦＰが内部的に接続しているスキャナ部２０１との通信を行うものである。３２６はプリントマネージャ（Ｐｒｉｎｔ−Ｍａｎａｇｅｒ）であり、ジョブマネージャ３１９が指示する印刷処理を管理・制御するものである。３２７はエンジンインターフェース（Ｅｎｇｉｎｅ−Ｉ／Ｆ）であり、プリントマネージャ３２６とプリンタ部２０２とのＩ／Ｆを提供する。３２８はパラレルポートドライバであり、Ｗｅｂプルプリント３１１がパラレルポートを介して不図示の出力機器にデータを出力する際のＩ／Ｆを提供する。

次にＡｄｄｒｅｓｓ−Ｂｏｏｋ３０２の詳細について説明する。このＡｄｄｒｅｓｓ−Ｂｏｏｋ３０２は、ＭＦＰ１０１内の不揮発性の記憶装置（不揮発性メモリやハードディスクなど）に保存されており、この中には、ネットワークに接続された他の機器の特徴が記載されている。例えば、以下に列挙するようなものが含まれている。
・機器の正式名やエイリアス名，
・機器のネットワークアドレス，
・機器の処理可能なネットワークプロトコル，
・機器の処理可能なドキュメントフォーマット，
・機器の処理可能な圧縮タイプ，
・機器の処理可能なイメージ解像度，
・プリンタ機器の場合の給紙可能な紙サイズや給紙段情報，
・サーバ（コンピュータ）機器の場合のドキュメントを格納可能なフォルダ名
以下に説明する各アプリケーションは、上記Ａｄｄｒｅｓｓ−Ｂｏｏｋ３０２に記載された情報により配信先の特徴を判別することが可能となる。

このＡｄｄｒｅｓｓ−Ｂｏｏｋ３０２を参照して、ＭＦＰ１０１はデータを送信することができる。例えば、リモートコピーアプリケーションは、配信先に指定された機器の処理可能な解像度情報を前記Ａｄｄｒｅｓｓ−Ｂｏｏｋ３０２より判別し、それに従い、スキャナにより読み込まれた画像２値画像を公知のＭＭＲ圧縮を用いて圧縮し、それを公知のＴＩＦＦ（ＴａｇｇｅｄＩｍａｇｅＦｉｌｅＦｏｒｍａｔ）化し、ＳＬＭ３０３に通して、ネットワーク上のプリンタ機器に送信する。ＳＬＭ３０３については、詳細には説明しないが、公知のＳａｌｕｔａｔｉｏｎ−Ｍａｎａｇｅｒ）と呼ばれる機器制御情報などを含んだネットワークプロトコルの一種である。

次に、図１におけるホストコンピュータ１０２のハードウェア構成について図４を用いて説明する。ホストコンピュータ１０２ついては、一般的なパーソナルコンピュータの構成、機能を有しており、周辺機器であるモニタ４０１、キーボード・マウス４０２と、ホストコンピュータ１０２全体を制御する中央処理装置ＣＰＵ４０３、アプリケーションやデータを記憶するハードディスク４０５、メモリ４０６等からなる。また、ネットワーク・インターフェース４０６を介してネットワーク１０３等の伝送媒体に接続されている。

次に、前述したＰＤＦ高圧縮に関して、図５及び図６を用いて説明する。

ここでいうＰＤＦ高圧縮とは、カラー画像の圧縮技術であり、領域判定を行い、各領域の属性に応じて、ＭＭＲによる２値圧縮とＪＰＥＧによる非可逆圧縮とを適応的に変えて圧縮することにより、圧縮率を高くできるとともに、文字領域については高い品位が得られる圧縮方法である。

多値画像である入力画像（５０１）は、２値化部（５０２）で２値化され、２値画像（５０３）が生成される。領域判定部（５０４）は、２値画像（５０３）を入力とし、例えば、所定値の画素（例えば、黒画素）の輪郭線追跡等により画素塊を取得し、当該画素塊の大きさや位置に基づいてグループ化していくことにより領域を形成し、当該形成された領域内の画素塊の大きさや並び方などに基づいて文字領域を判別して、文字領域情報を生成する。文字領域情報は、文字領域の位置や大きさを示す情報である。また、領域判定部（５０４）が文字領域を判定することで、それ以外の部分は、写真やイラストや背景等の自然（階調）画像を示す写真領域として判定する。文字切り出し部（５０５）は、領域判定部（５０４）により、文字領域と判定した領域に対して、文字領域内における各文字（単位文字領域）を文字切り矩形として切り出し、文字切り矩形情報を生成する。文字切り矩形情報は、文字きり矩形の位置や大きさを示す情報である。文字領域情報、及び文字切り矩形情報は、文字領域情報（５０６）として情報管理されるものとする。また、２値画像（５０３）を入力とし、領域判定部（５０４）により文字領域と判定された領域について、文字領域毎の２値画像である部分２値画像（５０７）を生成する。

一方で、入力画像（５０１）は、縮小部（５１２）により縮小（又は低解像度化）され、縮小多値画像（５１３）が生成される。代表色抽出部（５１０）は、部分２値画像（５０７）を入力とし、文字領域情報（５０６）及び縮小多値画像（５１３）を参照しながら、文字切り矩形の代表色を算出し、その結果を文字色情報（５１１）として情報管理する（尚、この処理の詳細については、特許文献２参照）。文字領域穴埋め部（５１４）は、縮小多値画像（５１３）を入力とし、文字領域情報（５０６）及び部分２値画像（５０７）を参照しながら、縮小多値画像（５１３）の各文字領域あるいは文字切り矩形を、その周辺色で塗り潰す処理を行う（尚、この処理の詳細については、特許文献１参照）。

以上の処理の後、部分２値画像（５０７）は各々、ＭＭＲ圧縮部（５０８）により圧縮コード１（５０９）として圧縮される。また、文字領域穴埋め部（５１４）にて穴埋めされた穴埋め多値画像は、ＪＰＥＧ圧縮部（５１５）により圧縮コード２（５１６）として圧縮される。

このようにして、各構成要素から得られる文字領域情報（５０６）、圧縮コード１（５０９）、文字色情報（５１１）、圧縮コード２（５１６）のデータ群を結合した圧縮データ（５１７）が生成される。この圧縮データ（５１７）を、更に、ＰＤＦなどで可逆圧縮することにより、ＰＤＦ高圧縮データが生成される。

図６は、前述したように生成された圧縮データ（５１７）を伸長する概略構成を示す図である。ＭＭＲ伸長部（６０１）は圧縮コード１（５０９）を入力とし、ＭＭＲ伸長処理を行い、部分２値画像（６０２）を生成する。ＪＰＥＧ伸長部（６０５）は圧縮コード２（５１６）を入力し、ＪＰＥＧ伸長処理を行い、さらに拡大部（６０６）で拡大処理を行うことで、多値画像（６０７）を生成する。合成部（６０３）は文字領域情報（５０６）を参照しながら、文字色情報（５１１）を部分２値画像（６０２）の黒画素に割り当て、その文字色が割り当てられた部分２値画像を多値画像（６０７）の上に合成して表示する。この際、部分２値画像（６０２）の白画素は透明色が割り当てられており、多値画像（６０７）を透過する。

このように、画像伸長装置は、画像圧縮装置により生成された圧縮データを伸長し、画像を復元する。

図７は、図５及び図６で使用、または生成される画像の概略図を示す。

７０１は、入力画像（５０１）を示す。７０２は、２値画像（５０３）を示す。

７０３は、領域判定部（５０４）により、文字領域、写真領域に領域判定された結果を示す。ここで、７０４及び７０６は文字領域と判定され、７０５は写真領域として判定されたものとする。

７０７、７０８は、領域判定部（５０４）により文字領域と判定された領域の部分２値画像（５０７）を示す。

７０９は、文字切り出し部（５０５）により切り出された文字切り矩形の概略図を示す。７１０は、文字領域７０４の文字切り矩形であり、７１１、７１２は、文字領域７０６の文字切り矩形である。ここで、７１１、７１２に示すように文字領域内の文字切り矩形の中に、文字と写真が混在することがある。例えば、特許文献１のように画素の集まりを位置の近さやサイズの一致に基づいてグループ化した場合、文字サイズに近い写真領域が文字領域内に混在する場合がある。これらの矩形全てを文字として扱うと、７１２のような本来写真として扱うべき矩形は、２値画像として処理が行われるため、情報の欠落が生じる。仮に文字領域内の文字切り矩形を全て文字として扱った場合に生成される圧縮データ（５１７）または、ＰＤＦ高圧縮データを７１３に示す。ここで、７１４に示すように本来階調や色を有する写真領域が文字領域として扱われて２値化されてしまい、情報欠落が生じることになる。

これらの問題点を解決するために、本発明では、図８に示すように領域判定部２（８０１）を更に設け、文字切り矩形の領域判定を行う。その他の構成要素は図５と同様である。

次に、図９のフローチャートを用いて本発明のポイントである領域判定部２（８０１）の説明を行う。ここで、図９のフローチャートは、図８の処理の一部であるため、図８を適宜参照する。また、領域判定部２（８０１）は、図９の９１７の破線で囲われる９０７〜９１２の処理を示す。

まず、ステップ９０１にて、入力画像（５０１）に対して２値化部（５０２）により２値化を行う。

次に、ステップ９０２にて、２値画像（５０３）に対して領域判定部（５０４）により、領域判定を行う。ステップ９０２での領域判定は、例えば、２値画像において輪郭線追跡を行うことによって画素塊を取得し、近くの画素塊同士をグループ化することにより分割されてしまっている文字や文字行が結合されることになる。このグループ化によって形成された領域に含まれる画素塊の大きさや位置関係などに基づいて、当該領域が１又は複数の文字を含む文字領域かどうかの判定が行われる。

次に、ステップ９０３にて、領域数のカウンタであるｎを初期化する。次に、ステップ９０４にて、注目領域が文字領域と判定された領域である場合は、ステップ９０５へ、非文字領域と判定された領域である場合は、ステップ９１２へ進む。

ステップ９０５では、文字切り出し部（５０５）にて文字切り出しを行う。例えば、水平方向にヒストグラムを取って文字行を切り出し、各文字行の垂直方向のヒストグラムを取って文字矩形を切り出すことができる。

ステップ９０６にて、文字切り矩形数のカウンタであるｍを初期化する。

次に、領域判定部２（８０１）において、まず、ステップ９０７にて、ステップ９０５で切り出された文字切り矩形の細線化（１）を行う。

ここで、細線化（１）の処理について具体的に説明する。

細線化（１）は、入力の２値画像の文字切り矩形の領域に対して細線化を行う処理である。細線化方法は、まず、横に連結する黒画素を検出し、左右両端の１画素づつを削除する（白画素に置き換える）。次に、縦に連結する黒画素を検出し、上下両端の１画素づつを削除する。例えば、図１４に示す２値画像１４０１は、横に連結する黒画素の検出及び左右両端の１画素の削除により、１４０２に示す画像となる。次に、縦に連結する黒画素の検出及び上下両端の１画素の削除により、１４０３に示す画像となる。このようにして生成された細線化後の画像は、後述する色分散値を算出する際に使用するための一時的なものであるため、テンポラリの記憶領域に保存される。

また、図１１の１１０１のような２値画像の文字切り矩形が入力された場合に、細線化処理（１）した後の画像を１１０４に示す。１１０１は、入力の２値画像の文字切り矩形であり、文字“Ｐ”が四角枠で囲われている。四角枠の幅は、１１０２に示すように２画素幅であり、文字“Ｐ”の太さは、１１０３に示す画素幅である。１１０４は、細線化後の画像であり、細線化を行うと、周囲の四角枠は１１０５に示すように削除され、文字“Ｐ”は、１１０６に示す画素幅となる。

次に、ステップ９０８にて、ステップ９０５で切り出された文字切り矩形の細線化（２）を行う。

ここで、細線化（２）の処理について具体的に説明する。

細線化（２）は、細線化（１）と同様に、入力された２値画像の文字切り矩形の領域に対して細線化を行う処理である。細線化（２）では、連結する黒画素を検出し、連結画素数にもとづいて削除する画素数を切り替える点が細線化（１）と異なる。以下に、連結画素数と削除画素数の関係を示す。
０≦連結画素数≦２：削除しない。
３≦連結画素数≦６：両端１画素削除
７≦連結画素数：両端２画素削除
例えば、図１４に示す２値画像１４０１に細線化（２）の処理を行うと、上述した連結画素数と削除画素数の関係に基づいて、横に連結する黒画素の検出及び左右両端の画素の削除により、１４０４に示す画像となる。次に、縦に連結する黒画素の検出及び上下両端の画素の削除により、１４０５に示す画像となる。このようにして生成された細線化後の画像は、テンポラリの記憶領域に保存される。また、図１１の１１０１のような文字切り矩形に、細線化処理（２）を行った後の画像を図１１の１１０７に示す。細線化（２）では、四角枠は、１１０８に示すように削除されず、文字“Ｐ”は、１１０９に示す画素幅となる。

以上のように、ステップ９０７、ステップ９０８にて、細線化（１）、細線化（２）が行われる。なお、ステップ９０７とステップ９０８とを並列に実行することができれば処理時間が短縮されるようになるが、順番に処理を実行するようにしても構わない。

次に、ステップ９０９にて、前述した細線化（１）、細線化（２）で得られた各々の画像に対して、色分散値（ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２）それぞれを算出する。

ここで、色分散について具体的に説明する。本実施例における色分散は、文字切り矩形内の色が、単一色（例えば、黒や赤）であるか複数色（例えば、黒と赤が混在）であるかを判定するための基準として用いる。例えば、色分散値が小さい場合は、単一色である可能性が高いと判定し、色分散値が大きい場合は、複数色であると判定できる。本実施例では、文字切り矩形内の色が、色分散値の大きさを文字か写真という判定の基準に用いており、これは、文字は単一色である場合が多く、写真（自然画やイラスト）は複数色である場合が多いという経験則によるものである。

次に、色分散値の算出方法について具体的に説明する。色情報は、縮小多値画像（５１３）または、２値化処理前の入力画像（５０１）の色（例ＲＧＢ値の各８ｂｉｔ）を参照する。さらに、好ましくは、ＲＧＢ値を輝度、輝度色差情報に変換した値（例えば、ＹＣｂＣｒ値の各８ｂｉｔ）を参照する。ここでは、例としてＹＣｂＣｒ値のＣｂ値の色分散値を算出する。ＲＧＢからＹＣｂＣｒへの変換方法については、公知であるため、説明を省略する。

まず、細線化（１）で得られる細線化画像１１０４の黒画素の位置に対応する縮小多値画像（５１３）の色（Ｃｂ値）に基づいて、Ｃｂ値と出現頻度の分布図を生成する。例えば、図１２は、図１１の黒画素を画素単位で表した図であるが、１２０１の画素のＣｂ値、１２０２の画素のＣｂ値を順に参照し、分布図を生成する。このように生成された分布図にもとづいて分散値を算出する。

分散は、一般的に知られるｖａｒｉａｎｃｅであり、下記の式で求められる。
・ｖａｒｉａｎｃｅ（分散）：Σ（Ｃｂ（ｉ）−ｍ）^２／ｎ
・ｎ：データ数（文字切り矩形内の黒画素数）
・Ｃｂ（ｉ）：文字切り矩形内の黒画素と位置的に対応する縮小多値画像のＣｂ値
・ｍ（平均）：ΣＣｂ（ｉ）／ｎ
以上のようにして色分散値が算出される。ここで、細線化（１）、細線化（２）で得られた各々の画像に対する色分散値を夫々、ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２とする。また、ここでは、例として、Ｃｂ値の色分散値を算出しているが、Ｃｒ値、Ｒ、Ｇ、Ｂ値にもとづいて色分散値を算出しても構わない。また、色分散値の算出後は、前述したテンポラリの記憶領域を初期化する。

次に、色分散を細線化画像より算出する理由について説明する。前述したように、色分散は、縮小多値画像（５１３）または、２値化処理前の入力画像（５０１）を参照する。細線化は、この時、参照するカラー多値画像の品位による影響を軽減させるために行う。即ち、カラー多値画像が圧縮や色ずれ等の要因により劣化している場合、文字切り矩形内の文字の本来の色分散値に影響を与えてしまうためである。

次に、色分散を２種類の細線化画像より算出する理由について説明する。以下、細線化（１）、及び細線化（２）より色分散を算出する場合の長所、短所について述べる。
（Ａ）細線化（１）より色分散を算出する場合
・長所：文字切り矩形内の文字、または写真の本来の色分散値、即ち精度の高い色分散値が得られる（但し、短所で述べる例外を除く）。
・短所：２画素幅の黒画素は、削除されてしまうため、２画素幅を多くもつ画像の色分散値の精度が低い。

ここで、細線化（１）より色分散を算出する場合の長所について、図１４を用いて具体的に説明する。前述したように１４０３は、１４０１に対して細線化（１）を行った場合の画像、１４０５は、１４０１に対して細線化（２）を行った場合の画像である。ここで、細線化（１）の場合の１４０３は、画像の芯（内部）しか残らないため、カラー多値画像の品位による影響を受けにくい。一方、細線化（２）の場合の１４０５は、画像の芯以外の部分も残るため、これらの影響を受けやすい。
（Ｂ）細線化（２）より色分散を算出する場合
・長所：（Ａ）に比べて、２画素幅を多くもつ写真の精度の高い色分散値が得られる。
・短所：（Ａ）に比べて、色分散値の精度が低い。

ここで、細線化（２）より色分散を算出する場合の長所について、図１３を用いて具体的に説明する。１３０１は、カラー多値画像であり、赤色丸枠の中に黒（グラデーション）の携帯が描かれている。１３０２は、１３０１を２値化した２値画像であり、丸枠は２画素幅の黒画素であることを示している。１３０３は、１３０２に対して細線化（１）を行った場合の画像、１３０４は、１３０２に対して細線化（２）を行った場合の画像である。ここで、細線化（１）の場合の１３０３は、丸枠の部分が削除されてしまうため、色分散値は小さくなる。細線化（２）の場合の１３０４は、丸枠の部分が残り、色分散値は大きくなる。従って、細線化（１）だけでは、該矩形を写真と判定できない場合があるため、細線化（２）が必要となる。

次に、ステップ９１０にて、色分散値（ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２）と予め設定された閾値（ｔｈ１、ｔｈ２）を比較する。ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２のいずれも閾値よりも小さい場合は、ステップ９１１にてＴＥＸＴと判断され、いずれかが閾値よりも大きい場合は、ステップ９１２にてＩＭＡＧＥと判断される。次に、ステップ９１３にて、文字切り矩形数のカウンタｍと文字切り矩形数Ｍの比較を行い、全ての文字切り矩形に対してステップ９０７〜９１２が終了するとステップ９１４へ進み、一方、未処理の文字切り矩形がある場合は、ステップ９１５にてカウンタｍを増やして次の文字切り矩形に対して処理を行う。また、ステップ９１４にて、領域数のカウンタｎと領域数Ｎの比較を行い、全ての領域に対する処理が終了すると本処理を終了し、未処理の領域がある場合は、ステップ９１６にてカウンタｎを増やして次の領域の処理を行う。

このように、領域判定部２（８０１）では、文字領域における文字切り矩形がＴＥＸＴであるかＩＭＡＧＥであるかの判定を色分散値を用いて行う。

例えば、入力画像（５０１）が図７の７０１である場合、領域判定部２（８０１）で判定された結果の概略図を図１０の１００１に示す。また、図８の８０２は、この結果にもとづいて、領域が文字領域かつ領域判定部２（８０１）の結果がＴＥＸＴである文字切り矩形領域を用いて部分２値画像を生成することを示している。例えば、入力画像（５０１）が図７の７０１であった場合に生成されるテキスト領域の部分２値画像の概略図を１００２に示す。領域判定部２の処理を行った場合、ＴＥＸＴ７１１とＩＭＡＧＥ７１２とが識別されるので、生成される圧縮データ（５１７）またはＰＤＦ高圧縮データを再生すると、１００３のようになる。

以上のように、領域判定部２（８０１）において、２種類の細線化手法による文字切り矩形の色分散値にもとづいて、文字切り矩形が文字か写真かを精度良く判定することができる。この判定結果を圧縮に適用することにより、良好な画質の圧縮データ（５１７）または、ＰＤＦ高圧縮データを得ることが可能となる。

（実施例２）
実施例１では、２種類の細線化手法による文字切り矩形の色分散値を計算した後に、文字切り矩形が文字か写真かを判定する場合について説明した。実施例２では、さらに、第一の細線化手法による文字切り矩形の色分散値にもとづいて、第二の細線化手法による文字切り矩形の色分散値の算出を行うかどうか判断する。

以下、実施例２における領域判定方法について図１５のフローチャートを用いて説明する。

図１５は、実施例１で使用した図９の９１７に対応する領域判定部２（８０１）である。まず、ステップ１５０１にて、実施例１で前述した細線化（１）を行う。次に、ステップ１５０２にて色分散値（ＣｏｌｏｒＳｔｄ＿１）を算出する。次に、ステップ１５０３にて、色分散値（ＣｏｌｏｒＳｔｄ＿１）と予め設定された第１の閾値ｔｈ１を比較する。ここで、閾値よりも小さい場合は、ステップ１５０４に進み、閾値よりも大きい場合は、ステップ１５０８にてＩＭＡＧＥと判断される。ステップ１５０４では、実施例１で前述した細線化（２）を行う。次に、ステップ１５０５にて色分散値（ＣｏｌｏｒＳｔｄ＿２）を算出する。次に、ステップ１５０６にて、色分散値（ＣｏｌｏｒＳｔｄ＿２）と予め設定された第２の閾値ｔｈ２を比較する。ここで、閾値よりも小さい場合は、ステップ１５０７にて、ＴＥＸＴと判断される。閾値よりも大きい場合は、ステップ１５０８にてＩＭＡＧＥと判断される。

以上のように、第一の細線化手法による文字切り矩形の色分散値にもとづいて、第二の細線化手法による文字切り矩形の色分散値の算出を行うかどうか判断することにより、実施例１と同様の精度を保ちつつ、より高速な領域判定が可能となる。

（実施例３）
実施例１〜２では、画像の圧縮技術において本領域判定方法を用いる例を説明した。実施例３では、光学的文字認識装置（ＯＣＲ）技術を用いる際に、本領域判定方法を用いる例を説明する。

前述したように、ＯＣＲ処理では、文書画像に対して濃度射影（ヒストグラム）を取ることにより文字行を切り出し（抽出）、さらに１文字単位の文字ブロック切り出し（抽出）を行う。そして、個々の文字ブロックから特徴データを抽出して、標準パタンとの類似度が計算され、最も類似度の高い文字を認識結果として出力する。即ち、文字ブロック切り出し（抽出）処理までは、実施例１の図９で前述したように、２値化、領域判定、文字切り出しを行うことを意味する。また、前述したように、文字切り矩形が非文字である場合、非文字に対して文字認識を行ってしまうと、全体の処理速度を低下させてしまう他、意味のないテキストコードを出力してしまう場合もあり好ましくない。

ここで、実施例３では、ＯＣＲ処理を行う前に、予め文字切り矩形の領域判定を行うことで、文字か非文字かを判定しておき、文字と判定された場合のみＯＣＲ処理を行うことでこれらの問題を解決する。この処理を図１６のフローチャートに示す。図１６において、９０１〜９１６の処理部分は、実施例１で前述した図９と同様であるため、説明を省略する。ステップ９１０にて、色分散値（ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２）と予め設定された閾値（ｔｈ１、ｔｈ２）を比較し、ＣｏｌｏｒＳｔｄ＿１、ＣｏｌｏｒＳｔｄ＿２のいずれも閾値よりも小さい場合は、ステップ９１１にてＴＥＸＴと判断されるため、ステップ１６０１にてＯＣＲ処理を行い、文字認識結果を出力する。また、いずれかが閾値よりも大きい場合は、ステップ９１０にてＩＭＡＧＥと判断されるため、ＯＣＲ処理は行わない。

以上のように、ＯＣＲ技術を用いる際、不要なＯＣＲ処理を行わないため、処理速度の向上が図られ、また、意味のないテキストコードを出力してしまうことを抑えることが可能となる。

（実施例４）
本発明は、複数の機器（例えばホストコンピュータ、インターフェース機器、リーダ、プリンタなど）から構成されるシステムに適用しても、一つの機器からなる装置（例えば、複写機、ファクシミリ装置など）に適用してもよい。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された拡張機能ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードに指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

以上のように、本発明によれば、領域判定精度を向上させることが可能となる。また文字と非文字の好適な領域判定を実行することができるので、良好な画質が得られると共に、圧縮効率を向上させることが可能となる。また、ＯＣＲ技術を用いる際、処理速度の向上と共に、意味のないテキストコードを出力してしまうことを抑え、認識率を向上させることが可能となる。

本実施例１におけるシステムの概略図本実施例１におけるＭＦＰのハードウェア構成本実施例１におけるＭＦＰのソフトウェア構成本実施例１におけるＰＣのハードウェア構成画像圧縮装置のブロック図１画像伸長装置のブロック図入力画像〜出力画像のサンプル本発明における画像圧縮装置のブロック図２本実施例１における領域判定のフローチャート本実施例１における入力画像〜出力画像のサンプル２細線化、色分散の説明図１細線化、色分散の説明図２細線化、色分散の説明図３細線化の説明図本実施例２における領域判定のフローチャート本実施例３における領域判定のフローチャート

Claims

多値文書画像を２値化することにより、２値画像を生成する２値化手段と、
前記２値化手段で生成された２値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段と、
前記判定対象領域の２値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第１の細線化画像を得る第１細線化手段と、
前記判定対象領域の２値画像に対して、横方向に連結する黒画素（以下、横方向連結黒画素という。）を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素（以下、縦方向連結黒画素という。）を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第２の細線化画像を得る第２細線化手段と、
前記第１細線化手段で得た第１の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第１の色分散値を算出する第１色分散値算出手段と、
前記第２細線化手段で得た第２の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第２の色分散値を算出する第２色分散値算出手段と、
前記算出した第１の色分散値が予め設定された第１の閾値より小さく、且つ前記算出した第２の色分散値が予め設定された第２の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第１の色分散値が前記第１の閾値以上であるか、前記算出した第２の色分散値が前記第２の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段と
を有することを特徴とする画像処理装置。
前記領域抽出手段は、
前記２値画像から画素塊を抽出し、当該抽出した画素塊の大きさと位置関係とに基づいて、前記２値画像内から文字領域候補を判定し、
更に、当該判定された文字領域候補において水平方向のヒストグラムと垂直方向のヒストグラムとを取ることによって切り出した矩形領域を、前記判定対象領域として抽出することを特徴とする請求項１に記載の画像処理装置。
前記第２細線化手段は、前記横方向連結黒画素と前記縦方向連結黒画素とのそれぞれに対して、連結黒画素の数が２以下の場合は削除を行わず、連結黒画素の数が３乃至６の場合は両端１画素を削除し、連結黒画素の数が７以上の場合は両端２画素を削除することを特徴とする請求項１に記載の画像処理装置。
前記領域判定手段により文字と判定された領域の２値画像に対して第１の圧縮処理を施し、非文字と判定された領域の多値画像に対して第２の圧縮処理を施すことにより、前記文書画像の圧縮データを得る圧縮手段を、更に有することを特徴とする請求項１乃至３のいずれかに記載の画像処理装置。
前記領域判定手段により文字と判定された領域から代表色を算出する代表色算出手段を更に有する画像処理装置であって、
前記圧縮データには、前記第１の圧縮処理により得られる第１圧縮コードと、前記第２の圧縮処理により得られる第２圧縮コードと、前記代表色算出手段で得られる代表色の情報とが含まれることを特徴とする請求項４に記載の画像処理装置。
前記第２の圧縮処理を施す対象の画像は、前記文書画像において前記文字領域と判定された領域の部分を周囲の色で埋めることにより生成された文書画像であることを特徴とする請求項４または５のいずれかに記載の画像処理装置。
前記領域判定手段で文字と判定された領域に対して、文字認識処理を実行する文字認識処理手段を更に備えることを特徴とする請求項１乃至６のいずれかに記載の画像処理装置。
前記多値文書画像を縮小して縮小多値画像を生成する縮小手段を更に有し、
前記第１色分散値算出手段では、前記第１の細線化画像に含まれる黒画素の位置に対応する前記縮小多値画像の画素に基づいて、前記第１の色分散値を算出し、
前記第２色分散値算出手段では、前記第２の細線化画像に含まれる黒画素の位置に対応する前記縮小多値画像の画素に基づいて、前記第２の色分散値を算出する際ことを特徴とする請求項１に記載の画像処理装置。
２値化手段が、多値文書画像を２値化することにより、２値画像を生成する２値化ステップと、
領域抽出手段が、前記２値化ステップで生成された２値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出ステップと、
第１細線化手段が、前記判定対象領域の２値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第１の細線化画像を得る第１細線化ステップと、
第２細線化手段が、前記判定対象領域の２値画像に対して、横方向に連結する黒画素（以下、横方向連結黒画素という。）を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素（以下、縦方向連結黒画素という。）を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第２の細線化画像を得る第２細線化ステップと、
第１色分散値算出手段が、前記第１細線化ステップで得た第１の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第１の色分散値を算出する第１色分散値算出ステップと、
第２色分散値算出手段が、前記第２細線化ステップで得た第２の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第２の色分散値を算出する第２色分散値算出ステップと、
領域判定手段が、前記算出した第１の色分散値が予め設定された第１の閾値より小さく、且つ前記算出した第２の色分散値が予め設定された第２の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第１の色分散値が前記第１の閾値以上であるか、前記算出した第２の色分散値が前記第２の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定ステップと
を有することを特徴とする画像処理方法。
コンピュータを、
多値文書画像を２値化することにより、２値文書画像を生成する２値化手段、
前記２値化手段で生成された２値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段、
前記判定対象領域の２値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第１の細線化画像を得る第１細線化手段、
前記判定対象領域の２値画像に対して、横方向に連結する黒画素（以下、横方向連結黒画素という。）を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素（以下、縦方向連結黒画素という。）を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第２の細線化画像を得る第２細線化手段、
前記第１細線化手段で得た第１の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第１の色分散値を算出する第１色分散値算出手段、
前記第２細線化手段で得た第２の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第２の色分散値を算出する第２色分散値算出手段、
前記算出した第１の色分散値が予め設定された第１の閾値より小さく、且つ前記算出した第２の色分散値が予め設定された第２の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第１の色分散値が前記第１の閾値以上であるか、前記算出した第２の色分散値が前記第２の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段、
として機能させるためのコンピュータプログラム。
請求項１０に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。