JP6923037B2

JP6923037B2 - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP6923037B2
Application number: JP2020073667A
Authority: JP
Inventors: 卓治鎌田; 大内　敏; 敏大内; 作山　宏幸; 宏幸作山; 真也伊藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-07-24
Filing date: 2020-04-16
Publication date: 2021-08-18
Anticipated expiration: 2036-07-06
Also published as: JP2020114028A; JP2017118480A; JP6693310B2

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

高圧縮と高画質とを両立させる画像圧縮技術として、高圧縮ＰＤＦ（Portable Document Format）と呼ばれる技術が知られている。高圧縮ＰＤＦは、多値画像を、文字領域の画像（以下、「文字画像」と呼ぶ）と、文字領域以外の画像（以下、「背景画像」と呼ぶ）とに分離し、それぞれの画像に適した画像処理および圧縮を施した後に、１つの画像ファイルにまとめる技術である。

多値画像から文字画像と背景画像とを適切に分離するには、多値画像から文字を精度よく検出する必要がある。多値画像から文字を検出する方法としては、例えば、文字が線画として表現されることが多いことに着目し、局所的な分析により文字のエッジを検出する方法が知られている（例えば、特許文献１を参照）。また、文字が行を構成していることが多いことに着目し、大局的な分析により文字行の抽出を行って、文字行に含まれる文字領域を検出する方法が知られている（例えば、特許文献２を参照）。

しかし、これらの方法は、文字の種類によっては精度よく文字を検出できない場合がある。例えば、局所的な分析により文字のエッジを検出する方法では、太文字、白色文字、色地上文字などに対して、文字の内部領域を適切に検出できなかったり、逆に文字エッジに隣接する背景部分を文字と誤検出したりすることがしばしば生じる。また、大局的な分析により文字領域を検出する方法では、例えば、コントラストの低い文字を適切に検出できない、あるいはコントラストの低い文字を検出しようとすると背景との区別が難しくなるといった問題がある。このため、多値画像から文字をより精度よく検出できる技術が望まれている。

上述した課題を解決するために、本発明は、多値画像から圧縮画像ファイルを生成する画像処理装置であって、前記多値画像から文字のエッジを検出する第１の検出部と、前記第１の検出部の検出結果を用いて、前記多値画像に含まれる文字のエッジを強調したエッジ強調画像を生成するエッジ強調部と、前記エッジ強調画像から文字領域を検出する第２の検出部と、前記圧縮画像ファイルの生成に関する複数のモードの中から、一のモードの選択を受け付ける受付部と、前記多値画像を文字画像と背景画像とに分離する分離部であって、前記複数のモードのうち第１のモードの選択を受け付けた場合は、前記第１の検出部の検出結果に基づいて前記多値画像を第１の文字画像と第１の背景画像とに分離し、前記複数のモードのうち第２のモードの選択を受け付けた場合は、少なくとも前記第２の検出部の検出結果に基づいて前記多値画像を第２の文字画像と第２の背景画像とに分離する分離部と、分離された前記第１の文字画像及び背景画像、又は分離された前記第２の文字画像及び背景画像を用いて、前記多値画像に対応する圧縮画像ファイル生成する生成部と、を備える。

本発明によれば、多値画像から文字を高精度に検出できるという効果を奏する。

図１は、第１実施形態の画像処理装置のハードウェア構成例を示すブロック図である。図２は、第１実施形態の画像処理装置の機能的な構成例を示すブロック図である。図３は、第１実施形態の画像処理装置による動作の流れを説明するフローチャートである。図４は、第１の検出部による処理の一例を説明するフローチャートである。図５は、第２の検出部による処理の一例を説明するフローチャートである。図６は、文字領域検出結果の具体例を説明する図である。図７は、分離部による処理の一例を説明するフローチャートである。図８は、色地上文字を判定する方法の一例を説明する図である。図９は、色地上文字を判定する方法の他の例を説明する図である。図１０は、白色文字を判定する方法の一例を説明する図である。図１１は、白色文字を判定する方法の他の例を説明する図である。図１２は、実施形態の画像処理装置による効果の一例を説明する図である。図１３は、第３変形例の画像処理装置の機能的な構成例を示すブロック図である。図１４は、第４変形例の画像処理装置の機能的な構成例を示すブロック図である。図１５は、第２実施形態の複合機のハードウェア構成例を示すブロック図である。図１６は、第２実施形態の複合機の機能的な構成例を示すブロック図である。図１７は、ユーザによる動作モードの選択を受け付ける操作画面の一例を示す図である。図１８は、動作モードと文字検出動作との対応関係を定めた関係テーブルの一例を示す図である。図１９は、動作モードの選択に加えて処理速度の選択を受け付ける操作画面の一例を示す図である。図２０は、動作モードと処理速度との組み合わせに対する文字検出動作の対応関係を定めた関係テーブルの一例を示す図である。図２１は、第３実施形態の複合機の機能的な構成例を示すブロック図である。図２２は、第３実施形態における第１の検出部の構成例を示すブロック図である。図２３は、Ｍ×Ｍ画素からなるマトリックスの画素比較方向を示す図である。図２４は、Ｎ×Ｎ画素からなるブロックの一例を示す図である。図２５は、注目ブロックと周囲ブロックの関係を示す図である。図２６は、色判定部の構成例を示すブロック図である。図２７は、色処理／ＵＣＲ部の構成例を示すブロック図である。図２８は、第１変形例の複合機の機能的な構成例を示すブロック図である。図２９は、文字領域補正部の構成例を示すブロック図である。図３０は、マスク補正回路が用いるマスクの一例を示す図である。

以下に添付図面を参照しながら、本発明に係る画像処理装置、画像処理方法およびプログラムの具体的な実施形態について詳しく説明する。以下で示す実施形態は、例えばフルカラーで表現される多値画像の高圧縮ＰＤＦファイルを生成する画像処理装置への適用例である。ただし、本発明はこの例に限らず、多値画像を文字画像と背景画像とに分離する処理を行う様々な画像処理装置に対して有効に適用可能である。

［第１実施形態］
＜画像処理装置の構成＞
図１は、本実施形態の画像処理装置１のハードウェア構成例を示すブロック図である。画像処理装置１は、ハードウェアとして、例えばＰＣ（パーソナルコンピュータ）などのコンピュータシステムを用いることができる。すなわち、画像処理装置１は、例えば図１に示すように、ＣＰＵ１０１などのプロセッサと、ＲＡＭ１０２、ＲＯＭ１０３、ＨＤＤ１０４などの記憶装置と、ＬＡＮなどのネットワークに接続する通信インタフェースであるネットワークＩ／Ｆ１０５とを備え、これらがバス１１０を介して接続された構成とされる。

本実施形態の画像処理装置１は、例えば、ネットワークに接続されたスキャナやホストコンピュータから処理対象の多値画像をネットワークＩ／Ｆ１０５を介して取得する。そして、画像処理装置１は、この多値画像を処理することで高圧縮ＰＤＦファイルを生成し、生成した高圧縮ＰＤＦファイルをＨＤＤ１０４に蓄積したり、ネットワークＩ／Ｆ１０５を介してネットワークに接続されたホストコンピュータに送信したりする。多値画像から高圧縮ＰＤＦファイルを生成する機能は、例えば、ＣＰＵ１０１が、ＲＡＭ１０２をワークエリアとして利用し、ＲＯＭ１０３やＨＤＤ１０４などに格納された所定のプログラムを実行することにより実現される。

なお、本実施形態の画像処理装置１は、例えばコピー機や複合機など、スキャナを備える画像形成装置の一機能として実現することもできる。この場合、図１に示すようなコンピュータシステムを画像形成装置が備える。そして、例えば、画像形成装置内部のＣＰＵ１０１が、ＲＡＭ１０２をワークエリアとして利用し、ＲＯＭ１０３やＨＤＤ１０４などに格納された所定のプログラムを実行することにより、スキャナエンジンによる原稿の読み取り、あるいはネットワークを介して取得した多値画像から高圧縮ＰＤＦファイルを生成する機能が実現される。

図２は、本実施形態の画像処理装置１の機能的な構成例を示すブロック図である。画像処理装置１は、多値画像から高圧縮ＰＤＦファイルを生成するための機能的な構成要素として、例えば図２に示すように、第１の検出部１１と、エッジ強調部１２と、第２の検出部１３と、分離部１４と、ファイル生成部１５とを備える。本実施形態の画像処理装置１では、処理対象として取得された多値画像Ｉｍ１が第１の検出部１１、エッジ強調部１２および分離部１４に入力され、この多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍがファイル生成部１５から出力される。

第１の検出部１１は、入力した多値画像Ｉｍ１に対して文字のエッジを検出する処理を行い、その結果（以下、「文字エッジ検出結果」と呼ぶ）を出力する。この第１の検出部１１が行う処理は、例えば特許文献１に記載された方法と同様に、多値画像Ｉｍ１に対する局所的な分析により、多値画像Ｉｍ１に含まれる文字のエッジ（線画）を検出する処理である。この処理は、小文字やコントラストの低い文字を効率よく検出できる反面、太文字の内部領域を検出できない、色地上文字や白色文字の検出において誤検出が生じやすいといった特性がある。したがって、処理対象の多値画像Ｉｍ１に太文字、色地上文字、白色文字などが含まれている場合、第１の検出部１１が出力する文字エッジ検出結果には、太文字の内部領域の検出漏れ、色地上文字や白色文字のエッジ周辺における誤検出などが生じ得る。

ここで文字エッジ検出結果とは、例えば、第１の検出部１１により文字のエッジとして検出された画素群の多値画像Ｉｍ１における座標位置を表す座標データである。この文字エッジ検出結果は、エッジ強調部１２と分離部１４とに入力される。なお、第１の検出部１１による処理の詳細は後述する。

エッジ強調部１２は、第１の検出部１１から入力した文字エッジ検出結果を用いて、処理対象の多値画像Ｉｍ１に含まれる文字のエッジを強調する処理を行い、文字のエッジが強調された多値画像（以下、「エッジ強調画像」と呼ぶ）Ｉｍ２を出力する。このエッジ強調画像Ｉｍ２は、第２の検出部１３に入力される。

第２の検出部１３は、エッジ強調部１２から入力したエッジ強調画像Ｉｍ２に対して文字領域を検出する処理を行い、その結果（以下、「文字領域検出結果」と呼ぶ）を出力する。この第２の検出部１３による処理は、例えば特許文献２に記載された方法と同様に、大局的な分析によりエッジ強調画像Ｉｍ２から文字行を抽出し、文字行に含まれる文字領域を検出する処理である。この処理は、太文字、色地上文字、白色文字などを精度よく検出できる反面、コントラストの低い灰文字などを正しく検出するのが難しいといった特性がある。したがって、処理対象の多値画像Ｉｍ１に灰文字などが含まれている場合、第２の検出部１３が出力する文字領域検出結果には、灰文字の検出漏れなどが生じ得る。

ここで文字領域検出結果とは、例えば、第２の検出部１３により文字領域として検出された画素群の多値画像Ｉｍ１における座標位置を表す座標データである。この文字領域検出結果は、分離部１４に入力される。なお、第２の検出部１３による処理の詳細は後述する。

分離部１４は、第１の検出部１１から入力した文字エッジ検出結果と、第２の検出部１３から入力した文字領域検出結果とを用いて、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する。具体的には分離部１４は、例えば、文字領域検出結果と多値画像Ｉｍ１とを用いて、多値画像Ｉｍ１における色地上文字の領域および白色文字の領域を検出し、文字エッジ検出結果に色地上文字のエッジあるいは白色文字のエッジとして検出している部分があればそれを除去する。そして、分離部１４は、色地上文字のエッジや白色文字のエッジを除去した文字エッジ検出結果と文字領域検出結果とのＯＲ演算により両者を統合（マージ）し、統合した検出結果が示す多値画像Ｉｍ１における画像領域を抜き出したものを文字画像Ｉｍ３とする。また、分離部１４は、多値画像Ｉｍ１と文字画像Ｉｍ３との差分を背景画像Ｉｍ４とする。これら文字画像Ｉｍ３および背景画像Ｉｍ４は、ファイル生成部１５に入力される。

なお、本実施形態では、多値画像Ｉｍ１に色地上文字の領域と白色文字の領域の双方が含まれている場合に、分離部１４がこれら色地上文字の領域と白色文字の領域双方の領域を検出し、文字エッジ検出結果から色地上文字のエッジと白色文字のエッジの双方を除去するものとするが、これに限らない。分離部１４は、多値画像Ｉｍ１に含まれる色地上文字の領域のみを検出し、文字エッジ検出結果から色地上文字のエッジのみを除去するような構成であってもよいし、多値画像Ｉｍ１に含まれる白色文字の領域のみを検出し、文字エッジ検出結果から白色文字のエッジのみを除去するような構成であってもよい。

ファイル生成部１５は、分離部１４から入力した文字画像Ｉｍ３と背景画像Ｉｍ４とを互いに異なる方式で圧縮した後に統合し、多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍを生成する。具体的にはファイル生成部１５は、例えば、文字画像Ｉｍ３に対しては、色数を限定する減色処理を行った上でＭＭＲなどの符号化方式による圧縮を行う。一方、背景画像Ｉｍ４に対しては、ダウンサンプリングによるデータ量削減を行った上でＪＰＥＧなどの符号化方式による圧縮を行う。そして、圧縮された文字画像Ｉｍ３と圧縮された背景画像Ｉｍ４とを、例えばＰＤＦ形式で１つの画像ファイル上で統合することで、多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍを生成する。

なお、文字画像Ｉｍ３や背景画像Ｉｍ４を圧縮する方式は上記の例に限定されるものではなく、文字画像Ｉｍ３や背景画像Ｉｍ４のそれぞれに対して適した方式で圧縮が行われればよい。また、圧縮された文字画像Ｉｍ３と圧縮された背景画像Ｉｍ４とを統合する画像ファイルの形式もＰＤＦ形式に限定されるものではなく、例えばＪＰＭ形式など、背景と前景とを重ね合わせて１つの画像とする様々な形式を利用することができる。

ファイル生成部１５により生成された高圧縮ＰＤＦファイルＦＩｍは、上述したように、例えば、ＨＤＤ１０４に蓄積される、あるいは、ネットワークＩ／Ｆ１０５を介してネットワークに接続されたホストコンピュータなどに送信される。

＜画像処理装置の動作＞
次に、以上のように構成される本実施形態の画像処理装置１の動作の概要を説明する。図３は、本実施形態の画像処理装置１による動作の流れを説明するフローチャートである。

本実施形態の画像処理装置１の動作が開始されると、まず、ステップＳ１において、処理対象となる多値画像Ｉｍ１が取得される。この多値画像Ｉｍ１は、第１の検出部１１、エッジ強調部１２および分離部１４に入力される。

次に、ステップＳ２において、ステップＳ１で取得した多値画像Ｉｍ１に対して、第１の検出部１１による処理が行われる。そして、第１の検出部１１が出力する文字エッジ検出結果が、エッジ強調部１２と分離部１４とに入力される。

次に、ステップＳ３において、エッジ強調部１２により、ステップＳ２の文字エッジ検出結果を用いて、ステップＳ１で取得した多値画像Ｉｍ１に含まれる文字のエッジを強調する処理が行われ、エッジ強調画像Ｉｍ２が生成される。このエッジ強調画像Ｉｍ２は、第２の検出部１３に入力される。

次に、ステップＳ４において、ステップＳ３で生成されたエッジ強調画像Ｉｍ２に対して、第２の検出部１３による処理が行われる。そして、第２の検出部１３が出力する文字領域検出結果が、分離部１４に入力される。

次に、ステップＳ５において、分離部１４により、ステップＳ２の文字エッジ検出結果とステップＳ４の文字領域検出結果とを用いて、ステップＳ１で取得した多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する処理が行われる。これら文字画像Ｉｍ３および背景画像Ｉｍ４は、ファイル生成部１５に入力される。

次に、ステップＳ６において、ファイル生成部１５により、ステップＳ５で生成された文字画像Ｉｍ３と背景画像Ｉｍ４に対し、それぞれに適した画像処理および圧縮が行われた後、１つの画像ファイルへの統合が行われ、ステップＳ１で取得した多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍが生成される。

そして最後に、ステップＳ７において、ステップＳ６で生成された高圧縮ＰＤＦファイルＦＩｍがファイル生成部１５から出力され、例えばＨＤＤ１０４に蓄積される、あるいは、ネットワークＩ／Ｆ１０５を介してネットワークに接続されたホストコンピュータなどに送信される。

＜第１の検出部による処理の具体例＞
次に、第１の検出部１１による処理の具体例について、図４を参照して説明する。図４は、第１の検出部１１による処理の一例を説明するフローチャートである。

第１の検出部１１による処理は、上述したように、局所的な分析により多値画像Ｉｍ１に含まれる文字のエッジを検出する処理であり、例えば特許文献１に記載の技術を利用して、多値画像Ｉｍ１に含まれる線画を文字のエッジとして検出することで実現できる。

第１の検出部１１は、まず、処理対象の多値画像Ｉｍ１に対して、フィルタリングによるＭＴＦ補正を行う（ステップＳ１０１）。ＭＴＦ補正は、次の３値化の精度を高めるために実施される前処理である。このＭＴＦ補正用のフィルタには、例えば特許文献１に記載のものを用いることができる。

次に、第１の検出部１１は、ＭＴＦ補正された多値画像Ｉｍ１に対し３値化を実施して（ステップＳ１０２）、多値画像Ｉｍ１を黒画素、白画素、灰色画素に分ける。

次に、第１の検出部１１は、例えば特許文献１に記載されているように、黒連結画素や白連結画素のパターンマッチングにより多値画像Ｉｍ１から黒線画や白線画を抽出することで、多値画像Ｉｍ１に含まれる文字のエッジを検出する（ステップＳ１０３）。このとき、ステップＳ１０２の３値化における閾値を適切に設定することで、多値画像Ｉｍ１に灰文字が含まれている場合でも、その灰文字のエッジを適切に検出することができる。

そして、第１の検出部１１は、ステップＳ１０３の処理結果を文字エッジ検出結果として出力し（ステップＳ１０４）、一連の処理を終了する。

＜第２の検出部による処理の具体例＞
次に、第２の検出部１３による処理の具体例について、図５を参照して説明する。図５は、第２の検出部１３による処理の一例を説明するフローチャートである。

第２の検出部１３による処理は、上述したように、大局的な分析により画像から文字領域を検出する処理であり、例えば特許文献２に記載の技術を利用して、エッジ強調画像Ｉｍ２から文字行を抽出し、文字行から文字領域を検出することで実現できる。ここで、本実施形態の画像処理装置１では、処理対象となる多値画像Ｉｍ１に対して第２の検出部１３による処理を行うのではなく、第１の検出部１１の処理結果である文字エッジ検出結果を用いてエッジ強調部１２により生成されたエッジ強調画像Ｉｍ２に対して、第２の検出部１３による処理を行う。したがって、多値画像Ｉｍ１からそのまま文字領域を検出する場合と比較して、文字領域の検出精度が高い。

第２の検出部１３は、まず、エッジ強調部１２により生成されたエッジ強調画像Ｉｍ２に対して２値化を実施する（ステップＳ２０１）。ここでの２値化は背景よりも低輝度（例えば黒）の文字行を抽出するための処理であり、低輝度の文字行を背景と区別できる適切な閾値が設定される。また、背景との分離精度を高めるために動的閾値２値化を用いてもよい。

次に、第２の検出部１３は、例えば特許文献２に記載されているように、ステップＳ２０１で得られた２値化画像から、水平方向に並ぶ黒画素のランと垂直方向に並ぶ黒画素のランを連結して連結成分を取得する（ステップＳ２０２）。

次に、第２の検出部１３は、ステップＳ２０２で取得した連結成分のうち、サイズが小さい文字（以下、「小文字」と呼ぶ）と推定される連結成分を除去する（ステップＳ２０３）。この処理は、次の文字行の抽出における計算量を削減するための処理である。すなわち、文字行の抽出は、取得した連結成分を種々の条件に従って文字行として統合していく処理となるが、小文字と推定される連結成分が多数含まれている場合、連結成分の統合において組み合わせのパターンが膨大となり、計算量が著しく増加する。一方、多値画像Ｉｍ１に含まれる低輝度（例えば黒）の小文字は、第１の検出部１１により検出されて文字エッジ検出結果として出力される可能性が高く、第２の検出部１３による検出対象から除外しても検出漏れが生じないと想定される。そこで、本実施形態では、低輝度の小文字と推定される連結成分を除去した上で次の文字行の抽出を行うことで、計算量の削減を図るようにしている。なお、低輝度の小文字かどうかの判断は、例えば、ステップＳ２０２で２値化画像から取得される連結成分の外接矩形の大きさが所定値以下であり、かつ、その連結成分の近傍に外接矩形が所定値を超える連結成分が存在しないといった基準に従って行えばよい。

次に、第２の検出部１３は、ステップＳ２０２で取得され、ステップＳ２０３で除去されなかった連結成分を、例えば特許文献２に記載の方法により統合して、背景よりも低輝度の文字行を抽出する（ステップＳ２０４）。

次に、第２の検出部１３は、エッジ強調部１２により生成されたエッジ強調画像Ｉｍ２に対して、再度、２値化を実施する（ステップＳ２０５）。ここでの２値化は背景よりも高輝度（例えば白）の文字行を抽出するための処理であり、高輝度の文字行を背景と区別できる適切な閾値が設定される。また、背景との分離精度を高めるために動的閾値２値化を用いてもよい。

次に、第２の検出部１３は、例えば特許文献２に記載されているように、ステップＳ２０５で得られた２値化画像から、水平方向に並ぶ白画素のランと垂直方向に並ぶ白画素のランを連結して連結成分を取得する（ステップＳ２０６）。

次に、第２の検出部１３は、ステップＳ２０６で取得された連結成分を、例えば特許文献２に記載の方法により統合して、背景よりも高輝度の文字行を抽出する（ステップＳ２０７）。

次に、第２の検出部１３は、ステップＳ２０４で抽出した文字行とステップＳ２０７で抽出した文字行とで、エッジ強調画像Ｉｍ２における位置が重なる文字行があるかどうかを判断する（ステップＳ２０８）。そして、重なる文字行があれば（ステップＳ２０８：Ｙｅｓ）、それらの文字行の外接矩形のサイズを比較して、外接矩形のサイズが小さい方の文字行を削除する（ステップＳ２０９）。

次に、第２の検出部１３は、以上の処理によりエッジ強調画像Ｉｍ２から抽出された文字行に含まれる文字を文字領域として検出する（ステップＳ２１０）。そして、第２の検出部１３は、ステップＳ２１０の処理結果を文字領域検出結果として出力し（ステップＳ２１１）、一連の処理を終了する。

図６は、第２の検出部１３による処理によって得られる文字領域検出結果の具体例を説明する図である。この図６では、エッジ強調画像Ｉｍ２から黒文字の文字領域「あいうえお」が検出される例を示している。

図５のステップＳ２０１の処理により、図６の６０１のような２値化画像が得られたとする。この２値化画像に対して図５のステップＳ２０２の処理を行うと、図６の６０２で示す連結成分が取得される。そして、図５のステップＳ２０３の処理により、小文字の連結成分が除去されて、図６の６０３のような連結成分が残る。この連結成分を対象として図５のステップＳ２０４の処理を行うことで、図６の６０４のように、文字行が抽出される。そして、図５のステップＳ２１０の処理によって、図６の６０５のように、文字行に含まれる「あいうえお」の文字領域が検出され、文字領域検出結果として出力される。

＜分離部による処理の具体例＞
次に、分離部１４による処理の具体例について、図７を参照して説明する。図７は、分離部１４による処理の一例を説明するフローチャートである。

分離部１４による処理は、上述したように、第１の検出部１１による文字エッジ検出結果と、第２の検出部１３による文字領域検出結果とを用いて、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する処理である。ここで、本実施形態の画像処理装置１では、分離部１４が、まず、多値画像Ｉｍ１における色地上文字の領域および白色文字の領域を検出して、文字エッジ検出結果に色地上文字のエッジあるいは白色文字のエッジとして検出している部分があればそれを除去する。これにより、第１の検出部１１の処理では誤検出が生じやすい色地上文字や白色文字のエッジを除去して、文字エッジ検出結果の信頼性を高めることができる。そして、信頼性が向上した文字エッジ検出結果と文字領域検出結果とを統合し、統合した検出結果を用いて多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離することで、画像の分離精度を高めることができる。

分離部１４は、まず、第２の検出部１３から入力した文字領域検出結果と多値画像Ｉｍ１とを用いて、多値画像Ｉｍ１に色地上文字が含まれているかどうかを判定する（ステップＳ３０１）。

図８は、色地上文字を判定する方法の一例を説明する図である。この図８では、黄色地上に黒文字「あいうえお」が存在する例を示し、図８の８０１は、第２の検出部１３により抽出された「あいうえお」を含む文字行の外接矩形の多値画像Ｉｍ１における位置を表し、図８の８０２は、第２の検出部１３により検出された文字領域「あいうえお」を表している。

分離部１４は、図８の８０１で示す多値画像Ｉｍ１上の外接矩形から図８の８０２で示す文字領域「あいうえお」を除去することにより、図８の８０３で示すように、文字領域「あいうえお」の下地領域を抽出することができる。そして、この下地領域の色が有彩色かどうかを判定することで、多値画像Ｉｍ１に色地上文字が含まれているかどうかを判定することができる。図８の例では、下地領域の色が黄色であるため、多値画像Ｉｍ１に色地上文字が含まれていると判定されることになる。

図９は、色地上文字を判定する方法の他の例を説明する図であり、矩形に近い文字が色地上文字かどうかを判定する方法を示している。この図９では、黄色地上に黒文字の長音符「ー」が存在する例を示し、図９の９０１は、第２の検出部１３により抽出された「ー」を含む文字行の外接矩形の多値画像Ｉｍ１における位置を表し、図９の９０２は、第２の検出部１３により検出された文字領域「ー」を表している。

この図９の例のように、第２の検出部１３により検出された文字領域が矩形に近い場合、図８に示した方法で文字領域の下地領域を適切に抽出することができない。そこで、分離部１４は、第２の検出部１３により検出された文字領域が矩形に近い場合は、図９の９０３に示すように、文字領域に近い周辺領域を判定の対象とし、この周辺領域の色が有彩色かどうかを判定することで、多値画像Ｉｍ１に色地上文字が含まれているかどうかを判定する。図９の例では、周辺領域の色が黄色であるため、多値画像Ｉｍ１に色地上文字が含まれていると判定されることになる。

分離部１４は、ステップＳ３０１で多値画像Ｉｍ１に色地上文字が含まれていると判定した場合（ステップＳ３０１：Ｙｅｓ）、第１の検出部１１による文字エッジ検出結果を多値画像Ｉｍ１と照合して、文字エッジ検出結果に色地上文字のエッジを検出している部分が含まれていればその色地上文字のエッジを除去する（ステップＳ３０２）。一方、多値画像Ｉｍ１に色地上文字が含まれていなければ（ステップＳ３０１：Ｎｏ）、ステップＳ３０３に進む。

次に、分離部１４は、第２の検出部１３から入力した文字領域検出結果と多値画像Ｉｍ１とを用いて、多値画像Ｉｍ１に白色文字が含まれているかどうかを判定する（ステップＳ３０３）。

図１０は、白色文字を判定する方法の一例を説明する図である。この図１０では、黒色地上に白色文字の「あいうえお」が存在する例を示し、図１０の１００１は、第２の検出部１３により検出された文字領域「あいうえお」の多値画像Ｉｍ１における位置を表している。

分離部１４は、図１０の１００１で示す多値画像Ｉｍ１上の文字領域「あいうえお」から、図１０の１００２に示すように、文字の内部領域を抽出する。そして、抽出した文字の内部領域の色が白色かどうかを判定することで、多値画像Ｉｍ１に白色文字が含まれているかどうかを判定することができる。ここで、文字の内部領域を判定の対象とするのは、文字のエッジを文字色の判定の対象に含めると、文字のエッジに下地の色が混在している場合に文字色を正しく判定できないためである。図１０の例では、文字の内部領域の色が白色であるため、多値画像Ｉｍ１に白色文字が含まれていると判定されることになる。

図１１は、白色文字を判定する方法の他の例を説明する図であり、判定対象となる文字が細い文字の場合の判定方法を示している。この図１１では、黒色地上に細い白色文字の「あいうえお」が存在する例を示し、図１１の１１０１は、第２の検出部１３により抽出された「あいうえお」を含む文字行の外接矩形の多値画像Ｉｍ１における位置を表し、図１１の１１０２は、第２の検出部１３により検出された文字領域「あいうえお」を表している。

この図１１の例のように、第２の検出部１３により検出された文字領域が細い文字である場合、図１０に示した例のように文字の内部領域を適切に抽出することができない。そこで、分離部１４は、第２の検出部１３により検出された文字領域が細い文字の場合は、図１１の１１０１で示す多値画像Ｉｍ１上の外接矩形から図１１の１１０２で示す文字領域「あいうえお」を除去することにより、図１１の１１０３で示すように、文字領域「あいうえお」の下地領域を抽出する。そして、この下地領域の色と文字領域の色とを用いて、文字領域の色が下地領域の色と同系色でかつ下地領域よりも高輝度であるかどうかを判定することで、多値画像Ｉｍ１に白色文字が含まれているかどうかを判定する。ここで、文字領域の色が下地領域の色と同系色であることを条件の一つとしているのは、文字のエッジに下地の色が混在していても文字色が白色かどうかを判定できるようにするためである。図１１の例では、文字領域の色（白色）が下地領域の色（黒色）と同系色でかつ下地領域よりも高輝度であるため、多値画像Ｉｍ１に白色文字が含まれていると判定されることになる。

分離部１４は、ステップＳ３０３で多値画像Ｉｍ１に白色文字が含まれていると判定した場合（ステップＳ３０３：Ｙｅｓ）、第１の検出部１１による文字エッジ検出結果を多値画像Ｉｍ１と照合して、文字エッジ検出結果に白色文字のエッジを検出している部分が含まれていればその白色文字のエッジを除去する（ステップＳ３０４）。一方、多値画像Ｉｍ１に白色文字が含まれていなければ（ステップＳ３０３：Ｎｏ）、ステップＳ３０５に進む。

次に、分離部１４は、第１の検出部１１による文字エッジ検出結果から色地上文字のエッジや白色文字のエッジを除去した文字エッジ検出結果と、第２の検出部１３による文字領域検出結果とのＯＲ演算により両者を統合する。そして、分離部１４は、統合した検出結果が示す画像領域を多値画像Ｉｍ１から抽出することで、文字画像Ｉｍ３を生成する（ステップＳ３０５）。また、分離部１４は、ステップＳ３０５で生成した文字画像Ｉｍ３と多値画像Ｉｍ１との差分を、背景画像Ｉｍ４として生成する（ステップＳ３０６）。

そして、分離部１４は、ステップＳ３０５およびステップＳ３０６で生成した文字画像Ｉｍ３および背景画像Ｉｍ４を出力し（ステップＳ３０７）、一連の処理を終了する。

＜実施形態の効果＞
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の画像処理装置１は、局所的な分析により文字のエッジを検出する第１の検出部１１と、大局的な分析により文字領域を検出する第２の検出部１３とを備え、これら第１の検出部１１による文字エッジ検出結果と第２の検出部１３による文字領域検出結果とを複合的に用いて、最終的に処理対象の多値画像Ｉｍ１に含まれる文字領域を検出するようにしている。したがって、本実施形態の画像処理装置１によれば、処理対象の多値画像Ｉｍ１が様々な種類の文字を含む場合であっても、この多値画像Ｉｍ１から文字を高精度に検出することができる。

特に、本実施形態の画像処理装置１では、エッジ強調部１２が、第１の検出部１１による文字エッジ検出結果を用いて多値画像Ｉｍ１に含まれる文字のエッジを強調することで、エッジ強調画像Ｉｍ２を生成する。そして、第２の検出部１３は、このエッジ強調部１２により生成されたエッジ強調画像Ｉｍ２から文字領域を検出するようにしている。したがって、第２の検出部１３による文字領域の検出精度を高めることができる。

また、本実施形態の画像処理装置１では、分離部１４が、第１の検出部１１による文字エッジ検出結果と第２の検出部１３による文字領域検出結果とを統合し、統合した検出結果を用いて、処理対象の多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離するようにしている。したがって、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに精度よく分離することができる。

また、本実施形態の画像処理装置１では、分離部１４が、第１の検出部１１による文字エッジ検出結果から色地上文字や白色文字のエッジを除去した上で第２の検出部１３による文字領域検出結果と統合するようにしている。したがって、第１の検出部１１による文字エッジ検出結果に色地上文字や白色文字のエッジ周辺での誤検出が含まれている場合であっても、この誤検出の影響によって文字画像Ｉｍ３の精度が低下する不都合を有効に抑制することができる。

また、本実施形態の画像処理装置１では、第２の検出部１３が、エッジ強調画像Ｉｍ２から取得した連結成分のうち、小文字と推定される連結成分を除去した上で文字行への統合を行うようにしている。したがって、文字行の抽出にかかる計算量を削減して、第２の検出部１３の処理負荷を軽減することができる。

図１２は、本実施形態の画像処理装置１による効果の一例を説明する図であり、処理対象の多値画像Ｉｍ１から生成される文字画像Ｉｍ３と背景画像Ｉｍ４の具体例を示している。図１２の１２０１は、第１の検出部１１の処理により得られる文字エッジ検出結果の具体例を示し、図１２の１２０２は、第２の検出部１３の処理により得られる文字領域検出結果の具体例を示している。

図１２の例で示すように、処理対象の多値画像Ｉｍ１に太文字が含まれている場合、第１の検出部１１は太文字の内部領域を適切に検出できないため、文字エッジ検出結果１２０１は、太文字の内部領域に抜けが生じている。また、処理対象の多値画像Ｉｍ１に色地上文字や白色文字が含まれている場合（図１２では色地上文字かつ白色文字が多値画像Ｉｍ１に含まれている例を示している）、第１の検出部１１は色地上文字や白色文字の検出において誤検出が生じやすいため、文字エッジ検出結果１２０１には、白色文字（色地上文字）のエッジ近傍に誤検出が含まれている。また、処理対象の多値画像Ｉｍ１に灰文字が含まれている場合、第２の検出部１３は低コントラストの文字を適切に検出できないため、文字領域検出結果１２０２には、灰文字の文字領域が含まれていない。

しかし、本実施形態の画像処理装置１では、第１の検出部１１による文字エッジ検出結果１２０１から色地上文字や白色文字のエッジ部分を除去した上で第２の検出部１３による文字領域検出結果１２０２と統合し、統合した検出結果が示す画像領域を多値画像Ｉｍ１から抽出することで、文字画像Ｉｍ３を生成する。そして、この文字画像Ｉｍ３と多値画像Ｉｍ１との差分を背景画像Ｉｍ４として生成する。このため、図１２の例で示すように、処理対象の多値画像Ｉｍ１に太文字、色地上文字、白色文字、灰文字などの様々な種類の文字が含まれている場合であっても、この多値画像Ｉｍ１から文字を高精度に検出して、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに精度よく分離することができる。

＜第１変形例＞
なお、以上説明した第１実施形態においては、第２の検出部１３が文字行の抽出を行う際に、小文字と推定される連結成分を除去した上で残った連結成分を文字行として統合するようにしている。しかし、このような小文字と推定される連結成分を除去することなく、取得されたすべての連結成分を対象として、文字行への統合を行うように構成してもよい。この場合、小文字と推定される連結成分を除去する場合と比べて第２の検出部１３による処理負荷は増大するが、多値画像Ｉｍ１に含まれる小文字をより精度よく検出することが可能になる。

＜第２変形例＞
また、上述した第１実施形態においては、分離部１４が、第１の検出部１１による文字エッジ検出結果から色地上文字や白色文字のエッジ部分を除去した上で第２の検出部１３による文字領域検出結果１２０２と統合するようにしている。しかし、このような色地上文字や白色文字のエッジ部分の除去を行わずに、文字エッジ検出結果と文字領域検出結果との統合を行うように構成してもよい。この場合、統合した検出結果に第１の検出部１１による誤検出の影響が残る可能性があるが、分離部１４での処理負荷を軽減して処理時間の短縮を図ることができる。

＜第３変形例＞
また、上述した第１実施形態においては、第１の検出部１１による文字エッジ検出結果を、エッジ強調部１２によるエッジ強調画像Ｉｍ２の生成と、分離部１４による文字画像Ｉｍ３の生成との双方に用いるようにしている。しかし、第１の検出部１１による文字エッジ検出結果をエッジ強調画像Ｉｍ２の生成のみに用い、文字画像Ｉｍ３の生成には用いないように構成してもよい。

図１３は、本変形例の画像処理装置１’の機能的な構成例を示すブロック図である。図１３に示すように、本変形例の画像処理装置１’では、第１の検出部１１による文字エッジ検出結果がエッジ強調部１２にのみ入力され、分離部１４には入力されない。したがって、分離部１４は、第１の検出部１１による文字エッジ検出結果と第２の検出部１３による文字領域検出結果との統合は行わず、第２の検出部１３による文字領域検出結果が示す画像領域を多値画像Ｉｍ１から抽出することで、文字画像Ｉｍ３を生成する。

本変形例のように、分離部１４が第２の検出部１３による文字領域検出結果のみを用いて文字画像Ｉｍ３を生成する構成であっても、第２の検出部１３による文字領域の検出は、第１の検出部１１による文字エッジ検出結果を用いてエッジ強調部１２が生成するエッジ強調画像Ｉｍ２を対象として行われるため、文字領域を精度よく検出することができ、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに精度よく分離することができる。

＜第４変形例＞
また、上述した第１実施形態においては、第１の検出部１１による文字エッジ検出結果を、エッジ強調部１２によるエッジ強調画像Ｉｍ２の生成と、分離部１４による文字画像Ｉｍ３の生成との双方に用いるようにしている。しかし、第１の検出部１１による文字エッジ検出結果を文字画像Ｉｍ３の生成のみに用い、エッジ強調画像Ｉｍ２の生成は行わないように構成してもよい。

図１４は、本変形例の画像処理装置１’’の機能的な構成例を示すブロック図である。図１４に示すように、本変形例の画像処理装置１’’では、エッジ強調部１２が設けられておらず、第１の検出部１１による文字エッジ検出結果が分離部１４のみに入力される。したがって、第２の検出部１３は、上述した実施形態のようにエッジ強調画像Ｉｍ２を対象として文字領域を検出する処理を行うのではなく、多値画像Ｉｍ１を対象として文字領域を検出する処理を行う。

本変形例のように、第２の検出部１３が多値画像Ｉｍ１を対象として文字領域を検出する処理を行う構成であっても、分離部１４において第１の検出部１１による文字エッジ検出結果と第２の検出部１３による文字領域検出結果とが統合され、統合された検出結果を用いて多値画像Ｉｍ１に含まれる文字領域が最終的に特定されるので、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに精度よく分離することができる。

＜補足説明＞
上述した第１実施形態および変形例において説明した画像処理装置１の機能的な構成要素（第１の検出部１１、エッジ強調部１２、第２の検出部１３、分離部１４およびファイル生成部１５）は、上述したように、例えば図１に示したハードウェアとソフトウェア（プログラム）との協働により実現することができる。この場合、上記プログラムは、画像処理装置１にインストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録して提供される。また、上記プログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由で画像処理装置１にダウンロードさせることにより提供するように構成してもよい。さらに、上記プログラムを、インターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、上記プログラムを、例えば画像処理装置１内のＲＯＭ１０３やＨＤＤ１０４などに予め組み込んで提供するようにしてもよい。

また、上述した第１実施形態および変形例において説明した画像処理装置１の機能的な構成要素は、その一部または全部を、例えばＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェアを用いて実現することもできる。

また、上述した第１実施形態および変形例では、画像処理装置１を単体の装置として実現する例を想定したが、画像処理装置１の機能的な構成要素を物理的に分離した複数の装置に分散して設け、これら複数の装置の連携により、画像処理装置１としての動作が実現されるように構成してもよい。

［第２実施形態］
次に、第２実施形態について説明する。本実施形態は、大局的な分析により文字領域を検出する第２の検出部１３による処理を実行するか否かを、ユーザにより選択された動作モードに応じて切り替え可能とした例である。本実施形態では、上述の画像処理装置としての機能を、複合機（ＭＦＰ：Multifunction Peripheral／Printer）において実現した例を挙げる。この複合機では、局所的な分析により文字のエッジを検出する第１の検出部１１がＡＳＩＣなどのハードウェア実装により実現され、大局的な分析により文字領域を検出する第２の検出部１３がソフトウェア実装により実現されているものとする。

上述した第１実施形態では、第１の検出部１１による処理と第２の検出部１３による処理とを組み合わせることで、処理対象の多値画像Ｉｍ１から文字を高精度に検出し、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する際の分離性能を高めている。この方法は、文字画質を重視するユーザからは高い満足度が得られる反面、処理に要する時間が比較的長くなるため、生産性を重視するユーザにとっては不満の残るものとなる懸念がある。特に、大局的な分析により文字領域を検出する第２の検出部１３はハードウェア実装が難しく、ソフトウェア実装により実現されるのが一般的である。このため、第２の検出部１３の処理には比較的長い時間を要することとなり、生産性を重視するユーザが不満を抱く要因となる。

そこで、本実施形態では、例えば「標準モード」と「文字優先モード」（あるいは「絵柄優先モード」と「文字優先モード」）といったように、ユーザが選択可能な動作モードを用意する。そして、ユーザにより選択された動作モードに応じて、第２の検出部１３による処理を実行するか否か、つまり、第２の検出部１３をアクティブにするかノンアクティブにするかを切り替えるようにしている。上記の例では、ユーザにより「標準モード」が選択された場合は第２の検出部１３がノンアクティブとされ、ユーザにより「文字優先モード」が選択された場合は第２の検出部１３がアクティブとされる。

なお、第１の検出部１１はハードウェア実装されるため高速処理が可能である。このため、ユーザにより選択された動作モードに関わらず、第１の検出部１１による処理は常に実行されるものとする。上記の例では、ユーザにより「標準モード」が選択された場合は第１の検出部１１がアクティブ、第２の検出部１３がノンアクティブとされ、ユーザにより「文字優先モード」が選択された場合は第１の検出部１１と第２の検出部１３の双方がアクティブとされる。

図１５は、本実施形態の複合機２００のハードウェア構成例を示すブロック図である。本実施形態の複合機２００は、例えば図１５に示すように、コントローラ２１０と、オペレーションパネル２２０と、ＦＣＵ（Facsimile Control Unit）２３０と、ＵＳＢ（Universal Serial Bus）デバイス２４０と、ＭＬＢ（Media Link Board）２５０と、スキャナエンジン２６０と、プロッタエンジン２７０とを備える。

オペレーションパネル２２０は、複合機２００を使用するユーザが各種の設定入力を行ったり、ユーザに提示する各種情報を表示したりするユーザインタフェースである。上述のユーザによる動作モードの選択は、例えば、このオペレーションパネル２２０を用いて行われる。

ＦＣＵ２３０は、複合機２００のファクシミリ機能を制御する制御ユニットである。ＵＳＢデバイス２４０は、ＵＳＢにより複合機２００に接続される機器である。ＭＬＢ２５０は、画像データのフォーマット変換を行う変換ボードである。スキャナエンジン２６０は原稿の読み取りを行うエンジンであり、プロッタエンジン２７０は印刷を行うエンジンである。本実施形態では、スキャナエンジン２６０による原稿の読み取りによって、処理対象の多値画像Ｉｍ１が取得されるものとする。

コントローラ２１０は、複合機２００の動作を制御する制御装置である。コントローラ２１０は、図１５に示すように、ＣＰＵ２１１と、システムメモリ２１２と、ＨＤＤ（Hard Disk Drive）２１３と、ＰＨＹ２１４と、ＡＳＩＣ２１５とを含む。オペレーションパネル２２０は、コントローラ２１０のＡＳＩＣ２１５に接続されている。また、ＦＣＵ２３０、ＵＳＢデバイス２４０、ＭＬＢ２５０、スキャナエンジン２６０およびプロッタエンジン２７０は、データ転送バス２８０を介してコントローラ２１０のＡＳＩＣ２１５に接続されている。

本実施形態の複合機２００では、上述の画像処理装置としての機能が、主にコントローラ２１０によって実現される。すなわち、図２に示した第１実施形態の画像処理装置１の機能的な構成要素のうち、第１の検出部１１およびエッジ強調部１２は、例えば、コントローラ２１０のＡＳＩＣ２１５により実現される。また、第２の検出部１３、分離部１４およびファイル生成部１５は、例えば、コントローラ２１０のＣＰＵ２１１がシステムメモリ２１２を利用して所定のプログラム（ソフトウェア）を実行することにより実現される。

図１６は、本実施形態の複合機２００の機能的な構成例を示すブロック図である。本実施形態の複合機２００は、例えば図１６に示すように、第１の処理部３１０と、第２の処理部３２０と、切り替え部３３０とを備える。

第１の処理部３１０は、コントローラ２１０のＡＳＩＣ２１５により実現される機能モジュールであり、第１の検出部１１およびエッジ強調部１２を含む。第１の検出部１１およびエッジ強調部１２は、上述した第１実施形態と同様である。すなわち、第１の検出部１１は、処理対象の多値画像Ｉｍ１（本実施形態ではスキャナエンジン２６０の読み取り画像）に対して、例えば図４に示した処理を実行することにより、多値画像Ｉｍ１に含まれる文字のエッジを検出する。また、エッジ強調部１２は、第１の検出部１１による文字エッジ検出結果を用いて多値画像Ｉｍ１に含まれる文字のエッジを強調する処理を行って、エッジ強調画像Ｉｍ２を生成する。

第２の処理部３２０は、コントローラ２１０のＣＰＵ２１１がシステムメモリ２１２を利用して所定のプログラム（ソフトウェア）を実行することにより実現される機能モジュールであり、第２の検出部１３、分離部１４およびファイル生成部１５を含む。第２の検出部１３、分離部１４およびファイル生成部１５は、上述した第２実施形態と同様である。すなわち、第２の検出部１３は、エッジ強調画像Ｉｍ２に対して例えば図５に示した処理を実行することにより、処理対象の多値画像Ｉｍ１に含まれる文字領域を検出する。また、分離部１４は、第１の検出部１１による文字エッジ検出結果と、第２の検出部１３による文字領域検出結果とを用いて、例えば図７に示した処理を実行することにより、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する。また、ファイル生成部１５は、分離部１４により多値画像Ｉｍ１から分離された文字画像Ｉｍ３と背景画像Ｉｍ４とを互いに異なる方式で圧縮した後に統合し、多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍを生成する。

ただし、本実施形態では、第２の検出部１３による処理を実行するか否か、つまり、第２の検出部１３をアクティブにするかノンアクティブにするかが、切り替え部３３０によって切り替えられる。そして、分離部１４は、第２の検出部１３がアクティブの場合は第１実施形態と同様の処理を行うが、第２の検出部１３がノンアクティブの場合は、第１の検出部１１による文字エッジ検出結果のみに基づいて、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する。

第１の処理部３１０から第２の処理部３２０へのデータの受け渡しは、ＨＤＤ２１３（記憶部）を介して行われる。すなわち、第１の処理部３１０から第２の処理部３２０へ受け渡すデータ（処理対象の多値画像Ｉｍ１、エッジ強調部１２により生成されたエッジ強調画像Ｉｍ２および第１の検出部１１による文字エッジ検出結果）は、ＨＤＤ２１３に一旦格納される。そして、第２の処理部３２０の第２の検出部１３および分離部１４は、必要なデータをＨＤＤ２１３から随時読み出して上述の処理を行う。この際、ＨＤＤ２１３の容量を有効利用するために、ＨＤＤ２１３に格納するデータに対して任意の圧縮処理を行い、ＨＤＤ２１３から圧縮データを読み出して復号処理を行う構成とする。

以上のように、ＨＤＤ２１３を介して第１の処理部３１０から第２の処理部３２０へのデータの受け渡しを行うことにより、ＨＤＤ２１３を、第１の処理部３１０の処理速度と第２の処理部３２０の処理速度との速度差を吸収するバッファとして機能させることができる。すなわち、ＡＳＩＣ２１５を用いたハードウェア実装により実現される第１の処理部３１０の処理速度と比較して、ソフトウェア実装により実現される第２の処理部３２０の処理速度は長くなる。このため、第１の処理部３１０の処理速度と第２の処理部３２０の処理速度との速度差を吸収するバッファがないと、例えば、多数ページからなる原稿をスキャナエンジン２６０で読み取って高圧縮ＰＤＦファイルＦＩｍを生成するジョブの実行時などに、先行するページに対する第２の処理部３２０の処理が終わるまで後続するページに対する第１の処理部３１０の処理を実行できない。その結果、スキャナエンジン２６０による原稿の読み取りに時間がかかり、複合機２００の設置場所にユーザを長時間待機させることになる。これに対して、第１の処理部３１０の処理速度と第２の処理部３２０の処理速度との速度差をＨＤＤ２１３により吸収する構成とすることにより、スキャナエンジン２６０による原稿の読み取りを短時間で行って、ユーザを複合機２００の設置場所から早期に解放することができる。

切り替え部３３０は、ユーザにより選択された動作モードに応じて、第２の検出部１３による処理を実行するか否か、つまり、第２の検出部１３をアクティブにするかノンアクティブにするかを切り替える。ユーザによる動作モードの選択は、例えばオペレーションパネル２２０に表示される操作画面を通じて行われる。

図１７は、ユーザによる動作モードの選択を受け付ける操作画面の一例を示す図である。この図１７に示す操作画面１７０は、スキャナジョブの実行時にオペレーションパネル２２０に表示される画面であり、動作モード選択領域１７１に、ユーザがタッチ操作可能な「標準モード」ボタン１７２と「文字優先モード」ボタン１７３とが設けられている。この操作画面１７０上でユーザが「標準モード」ボタン１７２をタッチすると、動作モードとして「標準モード」を指定するモード選択信号がオペレーションパネル２２０から切り替え部３３０に伝達される。一方、操作画面１７０上でユーザが「文字優先モード」ボタン１７３をタッチすると、動作モードとして「文字優先モード」を指定するモード選択信号がオペレーションパネル２２０から切り替え部３３０に送られる。

切り替え部３３０は、オペレーションパネル２２０から伝達されたモード選択信号に基づいて、ユーザにより選択された動作モードを判断する。そして、切り替え部３３０は、例えば、動作モードと文字検出動作との対応関係を定めた関係テーブルを参照して、第２の検出部１３による処理を実行するか否かを決定する。

図１８は、動作モードと文字検出動作との対応関係を定めた関係テーブルの一例を示す図である。この図１８に示す関係テーブルＴ１は、動作モードとして「標準モード」が選択された場合は第１の検出部１１をアクティブ、第２の検出部１３をノンアクティブとし、動作モードとして「文字優先モード」が選択された場合は、第１の検出部１１と第２の検出部１３の双方をアクティブとすることを示している。

切り替え部３３０は、第２の検出部１３による処理を実行すると決定した場合は、第２の処理部３２０に対して第２の検出部１３をアクティブにする制御信号を送り、第２の検出部１３による処理を実行しないと決定した場合は、第２の処理部３２０に対して第２の検出部１３をノンアクティブにする制御信号を送る。これにより、ユーザにより選択された動作モードに応じて、第２の検出部１３のアクティブ／ノンアクティブが切り替えられる。

以上説明したように、本実施形態では、ユーザにより選択された動作モードに応じて、比較的処理時間のかかる第２の検出部１３による処理を実行するか否かを切り替えるようにしている。したがって、本実施形態によれば、高圧縮ＰＤＦファイルＦＩｍを生成する際に両立が困難な処理速度（あるいは生産性）と文字の分離性能（あるいは文字部の高画質化）のどちらを優先するかを、ユーザの希望に沿って選択することができ、ユーザの不満を緩和することができる。

＜第１変形例＞
なお、上述した第２実施形態においては、動作モードとして「標準モード」が選択された場合に、第１の検出部１１をアクティブ、第２の検出部１３をノンアクティブとしているが、動作モードとして「標準モード」が選択された場合に、第１の検出部１１と第２の検出部１３の双方をノンアクティブとしてもよい。この場合は、多値画像Ｉｍ１から文字が検出されないため分離部１４による処理も実行されず、多値画像Ｉｍ１に含まれる文字と背景とで圧縮方式は共通となる。

本変形例を実施するためには、例えばオペレーションパネル２２０を用いたユーザの所定操作などに応じて、例えば図１８に示したような関係テーブルＴ１のうち、「標準モード」に対応する第１の検出部１１の状態をアクティブからノンアクティブに変更すればよい。なお、このような関係テーブルＴ１の変更は、一般ユーザが行えるようにしてもよいし、例えば管理者などの特定のユーザのみが行えるようにしてもよい。

本変形例では、「標準モード」が選択された場合に、文字の画質が低下する懸念はあるものの、絵柄において文字ではない部分が文字と誤って検出されることがなくなる。このため、絵柄の画質を重視するユーザにとっては「標準モード」を選択することで、好ましい結果が得られることになる。

＜第２変形例＞
また、上述した第２実施形態においては、動作モードに関わらず、ＨＤＤ２１３に格納するデータの圧縮処理およびＨＤＤ２１３から読み出したデータの復号処理を行うようにしているが、動作モードとして「標準モード」が選択された場合はこのような圧縮／復号処理を行わない構成としてもよい。

動作モードとして「標準モード」を選択するユーザは、文字の分離性能（あるいは文字部の高画質化）よりも、処理速度（あるいは生産性）や絵柄の画質を重視するユーザであることが想定される。ＨＤＤ２１３に格納するデータの圧縮処理およびＨＤＤ２１３から読み出したデータの復号処理は、上述したように、ＨＤＤ２１３の容量を有効利用する上で有用な処理ではあるが、処理速度（あるいは生産性）を重視するユーザにとっては、このような圧縮／復号処理による処理時間の増大が、不満の要因となる懸念がある。また、圧縮／復号処理の方式によっては絵柄の画質劣化を伴う場合もあり、絵柄の画質を重視するユーザに不満を抱かせる懸念がある。

本変形例では、動作モードとして「標準モード」が選択された場合は、ＨＤＤ２１３に格納するデータの圧縮処理およびＨＤＤ２１３から読み出したデータの復号処理を行わない構成とすることで、「標準モード」を選択するユーザの上述した不満を緩和することができる。また、動作モードとして「標準モード」が選択された場合は、ＨＤＤ２１３に格納するデータの圧縮処理およびＨＤＤ２１３から読み出したデータの復号処理を行わないことに加え、あるいは、圧縮／復号処理を行わないことに代えて、ＨＤＤ２１３に対するデータの格納や読み出しをページ単位で行うことも有効である。

＜第３変形例＞
また、上述した第２実施形態においては、ユーザにより選択された動作モードに応じて第２の検出部１３による処理を実行するか否かを切り替えるようにしているが、動作モードに加えて処理速度をユーザが選択できるようにして、ユーザにより選択された動作モードと処理速度との組み合わせに応じて、第２の検出部１３による処理を実行するか否かを切り替える構成としてもよい。

図１９は、動作モードの選択に加えて処理速度の選択を受け付ける操作画面の一例を示す図である。この図１９に示す操作画面１９０は、図１７に示した操作画面１７０に対して、動作モードごとに処理速度を選択できるチェックボックス１９１，１９２が追加された構成である。

この図１９に示す操作画面１９０において、「標準モード」に対応するチェックボックス１９１はデフォルト設定では「中速」が選択された状態となっている。このデフォルト設定の状態でユーザが「標準モード」ボタン１７２をタッチして「標準モード」を選択すると、上述したように、第１の検出部１１がアクティブで第２の検出部１３がノンアクティブとなる。これに対し、ユーザが「標準モード」に対応するチェックボックス１９１で「低速」を選択し、「標準モード」ボタン１７２をタッチして「標準モード」を選択すると、例えば、第１の検出部１１と第２の検出部１３の双方がアクティブとなる。また、ユーザが「標準モード」に対応するチェックボックス１９１で「高速」を選択し、「標準モード」ボタン１７２をタッチして「標準モード」を選択すると、例えば、第１の検出部１１と第２の検出部１３の双方がノンアクティブとなる。

また、図１９に示す操作画面１９０において、「文字優先モード」に対応するチェックボックス１９２はデフォルト設定では「低速」が選択された状態となっている。このデフォルト設定の状態でユーザが「文字優先モード」ボタン１７３をタッチして「文字優先モード」を選択すると、上述したように、第１の検出部１１と第２の検出部１３の双方がアクティブとなる。これに対し、ユーザが「文字優先モード」に対応するチェックボックス１９２で「中速」を選択し、「文字優先モード」ボタン１７３をタッチして「文字優先モード」を選択すると、例えば、第１の検出部１１がアクティブで第２の検出部１３がノンアクティブとなる。また、ユーザが「文字優先モード」に対応するチェックボックス１９２で「高速」を選択し、「文字優先モード」ボタン１７３をタッチして「文字優先モード」を選択すると、例えば、第１の検出部１１と第２の検出部１３の双方がノンアクティブとなる。

以上は、単純に、ユーザが選択する処理速度が「高速」であれば第１の検出部１１と第２の検出部１３の双方をノンアクティブとし、ユーザが選択する処理速度が「中速」であれば第１の検出部１１をアクティブ、第２の検出部１３をノンアクティブとし、ユーザが選択する処理速度が「低速」であれば第１の検出部１１と第２の検出部１３の双方をアクティブとする例である。しかし、動作モードと処理速度との組み合わせに対する文字検出動作の対応関係を定めた関係テーブルに従って、第１の検出部１１と第２の検出部１３のアクティブ／ノンアクティブを切り替えるようにしてもよい。

図２０は、動作モードと処理速度との組み合わせに対する文字検出動作の対応関係を定めた関係テーブルの一例を示す図である。この図２０に示す関係テーブルＴ２は、動作モードとして「標準モード」が選択され、処理速度として「低速」が選択された場合、処理速度として「中速」が選択された場合と同様に、第１の検出部１１をアクティブ、第２の検出部１３をノンアクティブとすることを示している。この例では、絵柄の画質を重視するユーザが「標準モード」を選択することを想定し、動作モードとして「標準モード」が選択され、処理速度として「低速」が選択された場合は、例えば絵柄の解像度を制御して絵柄先鋭度を高くする処理を行う。このため、第２の検出部１３をノンアクティブとすることで文字の検出に要する時間は短縮されるが、トータルの処理時間は長くなる。

また、図２０に示す関係テーブルＴ２は、動作モードとして「文字優先モード」が選択され、処理速度として「高速」が選択された場合、処理速度として「中速」が選択された場合と同様に、第１の検出部１１をアクティブ、第２の検出部１３をノンアクティブとすることを示している。この例では、「文字優先モード」を選択するユーザは、高速といえども文字の画質をある程度は確保したいと望むことを想定し、動作モードとして「文字優先モード」が選択され、処理速度として「高速」が選択された場合は、第１の検出部１１をアクティブにしてある程度の文字の画質を確保しつつ、例えば絵柄の解像度を低くすることにより処理速度の高速化を図り、トータルの処理時間を短くする。

本変形例では、ユーザにより選択された動作モードと処理速度との組み合わせに応じて、第２の検出部１３による処理を実行するか否かを切り替える構成としているので、ユーザの意向をより忠実に反映させた処理が可能となる。

＜その他の変形例＞
上述した第１実施形態の第１変形例乃至第４変形例は、第２実施形態においても適用可能である。

［第３実施形態］
次に、第３実施形態について説明する。本実施形態は、第２実施形態と同様に、上述の画像処理装置としての機能を複合機において実現した例であり、スキャナエンジン２６０の読み取り画像を処理対象の多値画像Ｉｍ１とする。ただし、本実施形態では、スキャナエンジン２６０の読み取り画像を元に高圧縮ＰＤＦファイルＦＩｍを生成する用途（以下、この用途で画像処理を行う場合を「ファイル生成時」と呼ぶ）だけでなく、スキャナエンジン２６０の読み取り画像を元にプロッタエンジン２７０（図１５参照）がカラー画像を記録媒体に記録する用途（以下、この用途で画像処理を行う場合を「コピー再生時」と呼ぶ）も想定する。そして、本実施形態では、ファイル生成時とコピー再生時とで、第１の検出部１１による処理を切り替えるようにしている。ファイル生成時かコピー再生時かの判断は、例えば、ユーザがオペレーションパネル２２０を用いてジョブの設定を行うことで出力されるジョブ設定信号に基づいて判断できる。

第１の検出部１１は、上述したように、処理対象の多値画像Ｉｍ１を３値化することによって得られる黒画素や白画素の連続性、パターンを利用して、文字を構成するエッジを検出する。したがって、第１の検出部１１によるエッジの検出精度は、多値画像Ｉｍ１を３値化する際に用いる閾値によって制御できる。ここで、ファイル生成時には、上述したように、多値画像Ｉｍ１に含まれる灰文字などの低コントラスト文字のエッジも適切に検出できるようにするために、３値化の閾値として、エッジの検出精度が高くなる閾値を設定することが望まれる。一方、コピー再生時には、ファイル生成時と同じ閾値を用いて多値画像Ｉｍ１を３値化すると、画質の観点から絵柄として扱う方が望ましい部分も文字のエッジとして検出される問題がある。例えば、コピー再生時には黒文字の領域を黒（Ｋ）単色で再生するが、新聞の文字のように比較的濃度の高い背景の中の文字を黒単色で再生すると、文字周辺の背景とのギャップが大きくなり、画質劣化の要因となる。また、絵柄の中には局所的にコントラストが非常に高いエッジ部分は少ないものの、低コントラストのエッジ部分は多く存在する。このため、コピー再生時にファイル生成時と同じ閾値を用いて多値画像Ｉｍ１を３値化すると、画質劣化の要因となる。

そこで、本実施形態では、第１の検出部１１による処理の切り替えの一例として、多値画像Ｉｍ１を３値化する際に用いる閾値をファイル生成時とコピー再生時とで切り替えることにより、ファイル生成時には第１の検出部１１によるエッジ検出精度をコピー生成時よりも高くし、コピー再生時には第１の検出部１１によるエッジ検出精度をファイル生成時よりも低くするようにしている。つまり、ファイル生成時にはエッジを検出し易くなるように３値化の閾値を設定し、コピー再生時にはファイル生成時と比較してエッジを検出しにくくなるように３値化の閾値を設定する。これにより、３値化の閾値を固定とした場合にはトレードオフの関係となるファイル生成時の効率的な圧縮と、コピー再生時の高画質化とを両立させることができる。

また、本実施形態では、コピー再生時での処理を考慮して、第１の検出部１１の構成が上述の第１実施形態や第２実施形態とは若干異なる。すなわち、本実施形態における第１の検出部１１は、上述の第１実施形態や第２実施形態と同様の方法によるエッジ検出に加えて、注目画素が白背景画素であるかの判定と、注目画素が網点を構成する画素であるかの判定とを行い、これらの判定結果を総合的に判断することにより、処理対象の多値画像Ｉｍ１から文字のエッジを検出する。また、本実施形態では、第１の検出部１１による処理と併せて、注目画素が有彩ブロックの画素か無彩ブロックの画素かの判定（色判定）も行う。そして、コピー再生時には、これら第１の検出部１１の判定結果と色判定の結果とに基づいて、処理対象の多値画像Ｉｍ１をプロッタエンジン２７０が処理できる画像信号に変換する処理が行われる。

以下、本実施形態の複合機の構成例について説明する。なお、以下では、上述の第１実施形態や第２実施形態と共通もしくは対応する構成要素には同一の符号を付し、重複した説明を適宜省略する。また、本実施形態の複合機のハードウェア構成は、上述の第２実施形態の複合機２００と同様の構成（図１５参照）をそのまま採用できるため、説明を省略する。

図２１は、本実施形態の複合機２００Ａの機能的な構成例を示すブロック図である。本実施形態の複合機２００Ａでは、図２１に示すように、第１の処理部３１０が、第１の検出部１１とエッジ強調部１２に加えて、ガンマ補正部３１１と、色判定部３１２と、データインタフェース部３１３と、色処理／ＵＣＲ部３１４と、プリンタ補正部３１５とを備える。

ガンマ補正部３１１は、処理対象の多値画像Ｉｍ１（スキャナエンジン２６０の読み取り画像）に対し、色ごとの階調バランスを整えるために各色信号に一次変換処理（ガンマ補正）を施す。本実施形態では、処理対象の多値画像Ｉｍ１がＲＧＢ各色８ビットで表現されるＲＧＢ画像信号であり、ガンマ補正部３１１による変換後の信号は濃度リニア（白が信号値０）のＲＧＢ画像信号であるものとする。ガンマ補正部３１１によってガンマ補正が施された多値画像Ｉｍ１は、第１の検出部１１、エッジ強調部１２、色判定部３１２およびデータインタフェース部３１３に送られる。

図２２は、本実施形態における第１の検出部１１の構成例を示すブロック図である。本実施形態における第１の検出部１１は、図２２に示すように、エッジ検出回路４０１と、白背景検出回路４０２と、網点検出回路４０３と、総合判定回路４０４とを備える。

エッジ検出回路４０１は、上述の第１実施形態や第２実施形態における第１の検出部１１と同様の方法により、ガンマ補正後の多値画像Ｉｍ１から文字のエッジを検出する。すなわち、エッジ検出回路４０１は、ガンマ補正後の多値画像Ｉｍ１（濃度リニア）を２つの閾値（ｔｈ＿ｗとｔｈ＿ｂ：ｔｈ＿ｗ＜ｔｈ＿ｂ）で３値化することにより、黒画素、白画素、灰色画素に分ける。そして、黒連結画素や白連結画素のパターンマッチングにより多値画像Ｉｍ１から黒線画や白線画を抽出することで、多値画像Ｉｍ１に含まれる文字のエッジを検出する。

このとき、エッジ検出回路４０１は、オペレーションパネル２２０から入力されるジョブ設定信号Ｙに基づき、ファイル生成時かコピー再生時かを判断する。そして、エッジ検出回路４０１は、ファイル生成時とコピー再生時とで、ガンマ補正後の多値画像Ｉｍ１を３値化する際に用いる閾値ｔｈ＿ｗ，ｔｈ＿ｂを切り替える。例えば、コピー再生時に用いる高濃度側の閾値ｔｈ＿ｂをｔｈ＿ｂ０、ファイル生成時に用いる高濃度側の閾値ｔｈ＿ｂをｔｈ＿ｂ１としたときに、ｔｈ＿ｂ１＜ｔｈ＿ｂ０となるように、高濃度側の閾値ｔｈ＿ｂを切り替える。これにより、ファイル生成時には低コントラストのエッジを文字のエッジとして検出し易くなり、コピー再生時には低コントラストのエッジを文字のエッジとして検出しにくくなる。また、コピー再生時に用いる低濃度側の閾値ｔｈ＿ｗをｔｈ＿ｗ０、ファイル生成時に用いる低濃度側の閾値ｔｈ＿ｗをｔｈ＿ｗ１としたときに、ｔｈ＿ｗ１＞ｔｈ＿ｗ０となるように、低濃度側の閾値ｔｈ＿ｗを切り替える。これにより、ファイル生成時には濃度が比較的高い背景の中のエッジを文字のエッジとして検出し易くなり、コピー再生時には濃度が比較的高い背景の中のエッジを文字のエッジとして検出しにくくなる。なお、３値化の閾値ｔｈ＿ｗ，ｔｈ＿ｂの切り替えは、高濃度側の閾値ｔｈ＿ｂと低濃度側の閾値ｔｈ＿ｗのいずれか一方のみで行うようにしてもよいし、双方で行うようにしてもよい。

エッジ検出回路４０１は、以上の処理により多値画像Ｉｍ１に含まれる文字のエッジを検出し、その結果を総合判定回路４０４に出力する。エッジ検出回路４０１の出力は１画素１ビットであり、検出された文字のエッジをアクティブとする。

白背景検出回路４０２は、ガンマ補正後の多値画像Ｉｍ１に対して、白背景か非白背景かの判定を行い、その結果を総合判定回路４０４に出力する。白背景検出回路４０２は、例えば、ガンマ補正後の多値画像Ｉｍ１を所定の閾値で２値化して白画素と黒画素に切り分けた後、注目画素の左右あるいは上下両方向に白画素が存在する場合に、白背景と判定する。このとき、左右上下の参照領域のサイズを制御することにより、所望の線幅以下の文字のエッジは白背景として判定し、所望の線幅を超える文字のエッジは非白背景として判定することができる。白背景検出回路４０２の出力は、白背景をアクティブとする。

網点検出回路４０３は、ガンマ補正後の多値画像Ｉｍ１の各画素に対して、網点判定（画像中の山／谷ピーク画素の繰り返しパターンにより判定）し、その結果を総合判定回路４０４に出力する。

より詳細には、網点検出回路４０３は、ガンマ補正後の多値画像Ｉｍ１の各画素に対して、予め定めたＭ×Ｍ画素からなるマトリックス、例えば、図２３（ａ）〜（ｃ）に示す如き３×３画素サイズのマトリックス（Ｍ＝３）、４×４画素サイズのマトリックス（Ｍ＝４）あるいは５×５画素サイズのマトリックス（Ｍ＝５）を順次適用し、当該マトリックスの中心画素ｍ_０（図２３（ａ）〜（ｃ）参照）が濃度変化の山または谷を示す極点であるか否かを周囲の画素ｍ_１〜ｍ_ｉとの濃度関係から検出する。加えて、網点検出回路４０３は、Ｎ×Ｎ画素（但し、Ｎ＞Ｍ）からなるブロックＢ、例えば図２４に示すような９×９画素サイズ（Ｎ＝９）からなるブロックＢを単位として画像を分割する。

そして、網点検出回路４０３は、ブロックごとに山を示す極点画素数と谷を示す極点画素数とをそれぞれ計数し、計数値の大きい側の極点画素数を当該ブロックの極点画素数として決定する。その後、網点検出回路４０３は、図２５に示す注目ブロックＢ_０の極点画素数Ｐ０と、これを囲む上下左右斜めの各周囲ブロックＢ_１〜Ｂ_８の各極点画素数Ｐとの関係から当該注目ブロックＢ_０の中心画素ｎ_０（図２４参照）、あるいは当該注目ブロックＢ_０内の全ての画素ｎ_０〜ｎ_８０が網点領域に属するか否かを判定する。網点検出回路４０３の出力は、網点領域をアクティブとする。

総合判定回路４０４は、エッジ検出回路４０１の判定結果と、白背景検出回路４０２の判定結果と、網点検出回路４０３の判定結果とを総合的に判断して、注目画素が文字であるか否かを示す判定結果（文字／非文字［絵柄］）Ｘ１を出力する。すなわち、総合判定回路４０４は、注目画素がエッジ検出回路４０１でアクティブ、白背景検出回路４０２でアクティブ、網点検出回路４０３でノンアクティブの場合に、注目画素を文字とする判定結果Ｘ１を出力する。ファイル生成時には、この総合判定回路４０４が出力する判定結果Ｘ１が、上述した第１実施形態および第２実施形態における文字エッジ検出結果に相当する。総合判定回路４０４が出力する判定結果Ｘ１は、エッジ強調部１２およびデータインタフェース部３１３に送られる。なお、ファイル生成時は、総合判定回路４０４が出力する判定結果Ｘ１に代えて、エッジ検出結果４０１の出力を文字エッジ検出結果として利用する構成としてもよい。

エッジ強調部１２は、第１の検出部１１の総合判定回路４０４の判定結果Ｘ１を用い、多値画像Ｉｍ１に含まれる文字のエッジを強調する処理を行って、エッジ強調画像Ｉｍ２を生成する。エッジ強調部１２により生成されたエッジ強調画像Ｉｍ２は、データインタフェース部３１３に送られる。

色判定部３１２は、ガンマ補正後の多値画像Ｉｍ１について、注目の画素ブロック（４×４画素）が有彩色ブロックであるか、あるいは無彩色ブロックであるかを判定する。図２６は、色判定部３１２の構成例を示すブロック図である。色判定部３１２は、例えば図２６に示すように、最大値算出部４１１と、第１の比較部４１２と、有彩画素カウンタ４１３と、第２の比較部４１４とを備える。

最大値算出部４１１は、ガンマ補正後の多値画像Ｉｍ１の画素ごとに、ＲＧＢの差の絶対値の最大値ｄ［ｉ，ｊ］（＝ΔＲＧＢ）を算出する。

第１の比較部４１２は、最大値算出部４１１が算出した最大値ｄ［ｉ，ｊ］を所定の画素判定閾値ｔｈ＿ｐｉｘと比較する。そして、最大値ｄ［ｉ，ｊ］が画素判定閾値ｔｈ＿ｐｉｘを超える画素を有彩画素、最大値ｄ［ｉ，ｊ］が画素判定閾値ｔｈ＿ｐｉｘ以下の画素を無彩画素と判定する。

有彩画素カウンタ４１３は、ガンマ補正後の多値画像Ｉｍ１に含まれる所定画素数（例えば４ライン×４画素）の画素ブロックごとに、当該画素ブロックに含まれる有彩画素の数Ｃ１をカウントする。

第２の比較部４１４は、有彩画素カウンタ４１３がカウントした画素ブロック内の有彩画素の数Ｃ１を所定のブロック判定閾値ｔｈ＿ｂｌｃと比較する。そして、有彩画素の数Ｃ１がブロック判定閾値ｔｈ＿ｂｌｃを超える画素ブロックを有彩ブロック、有彩画素の数Ｃ１がブロック判定閾値ｔｈ＿ｂｌｃ以下の画素ブロックを無彩ブロックと判定し、判定結果（有彩色／無彩色）Ｘ２を出力する。第２の比較部４１４が出力する判定結果Ｘ２は、データインタフェース部３１３に送られる。

データインタフェース部３１３は、ファイル生成時に、ガンマ補正後の多値画像Ｉｍ１、第１の検出部１１の判定結果Ｘ１（文字エッジ検出結果に相当）、エッジ強調部１２により生成されたエッジ強調画像Ｉｍ２、および色判定部３１２の判定結果Ｘ２をＨＤＤ２１３に一時保存する際のＨＤＤ管理インタフェースである。ファイル生成時には、上述の第２実施形態と同様に、第２の処理部３２０の第２の検出部１３および分離部１４が、必要なデータをＨＤＤ２１３から随時読み出して上述の処理を行う。そして、ファイル生成部１５が、分離部１４により多値画像Ｉｍ１から分離された文字画像Ｉｍ３と背景画像Ｉｍ４とを互いに異なる方式で圧縮した後に統合し、多値画像Ｉｍ１に対応する高圧縮ＰＤＦファイルＦＩｍを生成する。

一方、コピー再生時には、ガンマ補正後の多値画像Ｉｍ１、第１の検出部１１の判定結果Ｘ１および色判定部３１２の判定結果Ｘ２が、データインタフェース部３１３を介して、色処理／ＵＣＲ部３１４に送られる。

色処理／ＵＣＲ部３１４は、画素あるいは画素ブロックごとの判定結果Ｘ１，Ｘ２に基づいて色処理やＵＣＲ処理を選択し、ガンマ補正後の多値画像Ｉｍ１（ＲＧＢ画像信号）をプロッタエンジン２７０が処理できる画像信号に変換する。

図２７は、色処理／ＵＣＲ部３１４の構成例を示すブロック図である。色処理／ＵＣＲ部３１４は、例えば図２７に示すように、第１の色処理部４２１と、ＵＣＲ部４２２と、第２の色処理部４２３と、セレクタ４２４とを備える。データインタフェース部３１３から画素ごとに出力されるガンマ補正後の多値画像Ｉｍ１（ＲＧＢ画像信号）は、第１の色処理部４２１と第２の色処理部４２３とに並列に入力される。

第１の色処理部４２１は、非黒文字用の色再現処理を行う。第１の色処理部４２１は、処理対象の多値画像Ｉｍ１に忠実な色再現を実現するために、例えば下記式（１）に示すような３×３のマトリクス演算によりＲＧＢ→ＣＭＹの変換を行う。この際、色再現の精度向上のために、例えばＲＧＢ空間を分割してそれぞれの領域ごとにマトリクス演算を行うようにしてもよい。

ＵＣＲ部４２２は、第１の色処理部４２１の色再現処理により得られたＣＭＹから、下記式（２）〜（５）に従って、墨信号生成および墨信号への置き換えを行う。ＵＣＲ部４２２の処理により得られたｃ，ｍ，ｙ，Ｂｋ画像信号はセレクタ４２４に入力される。なお、下記式（２）のαは０〜１．０の値をとる調整パラメータである。
Ｂｋ＝α×ｍｉｎ（Ｃ，Ｍ，Ｙ）・・・（２）
ｃ＝Ｃ−Ｂｋ・・・（３）
ｍ＝Ｍ−Ｂｋ・・・（４）
ｙ＝Ｙ−Ｂｋ・・・（５）

一方、第２の色処理部４２３は、黒文字用の色再現処理を行う。第２の色処理部４２３の色再現処理は、例えばＲＧＢ画像信号から輝度相当の信号（Ｂｋ０画像信号）を算出する処理である。第２の色処理部４２３の処理により得られたＢｋ０画像信号（Ｃ＝Ｍ＝Ｙ＝０）は、セレクタ４２４に入力される。

セレクタ４２４は、データインタフェース部３１３から出力される判定結果Ｘ１，Ｘ２に基づいて、非黒文字用のｃ，ｍ，ｙ，Ｂｋ画像信号、あるいは黒文字用のＢｋ０画像信号を選択して、プリンタ補正部３１５に出力する。すなわち、セレクタ４２４は、注目画素が判定結果Ｘ１により文字であり、かつ、判定結果Ｘ２により無彩色であれば、Ｂｋ０画像信号を選択してプリンタ補正部３１５に出力する。一方、注目画素が判定結果Ｘ１により火文字である、または判定結果Ｘ２により有彩色であれば、ｃ，ｍ，ｙ，Ｂｋ画像信号を選択してプリンタ補正部３１５に出力する。

プリンタ補正部３１５は、色処理／ＵＣＲ部３１４から出力される画像信号に対してプロッタエンジン２７０の固有の特性に応じたガンマ補正処理やディザ処理を施して、プロッタエンジン２７０に出力する。転写印字ユニットであるプロッタエンジン２７０は、プリンタ補正部３１５から出力される画像信号に基づいて、トナーやインクなどの記録材を記録媒体に付着させる。これにより、処理対象の多値画像Ｉｍ１（スキャナエンジン２６０の読み取り画像）に応じたカラー画像が記録媒体に記録される。

以上説明したように、本実施形態では、ファイル生成時とコピー再生時とで第１の検出部１１による処理を切り替えるようにしている。より具体的には、ファイル生成時とコピー再生時とで、エッジ検出回路４０１で実施する３値化の閾値を切り替えるようにしている。したがって、本実施形態によれば、３値化の閾値を固定とした場合にはトレードオフの関係となるファイル生成時の効率的な圧縮と、コピー再生時の高画質化とを両立させることができる。

＜第１変形例＞
なお、以上説明した第３実施形態においては、ファイル生成時に、第２の処理部３２０の分離部１４が第１の検出部１１の判定結果Ｘ１（文字エッジ検出結果に相当）と、第２の検出部１３による文字領域検出結果とを用いて、多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離するものとしている。しかし、分離部１４による処理に、第１の検出部１１の判定結果Ｘ１をそのまま用いるのではなく、この判定結果Ｘ１を補正した上で用いるように構成してもよい。

図２８は、本変形例の複合機２００Ａ’の機能的な構成例を示すブロック図である。図２８に示すように、本変形例の複合機２００Ａ’では、第２の処理部３２０に文字領域補正部３２１が追加されている。それ以外は上述の第３実施形態の構成（図２１参照）と同様である。

第１の検出部１１の判定結果Ｘ１を補正したい理由としては、例えば以下の点が挙げられる。すなわち、第１の検出部１１の判定結果Ｘ１は文字のエッジを検出した結果であるが、ファイル生成時の効率的な圧縮を考えると、文字のエッジだけでなく文字の内部の領域も文字として扱うことが望ましい。一方、文字の背景は文字近傍の背景とその周囲とで、それぞれに利用する圧縮方式によってはテクスチャ差が目立ってしまう。したがって、文字の背景は非文字（絵柄）に再判定するように、第１の検出部１１の判定結果Ｘ１を補正することが望ましい。なお、文字の内部の領域は第２の検出部１３での大局的な分析により文字として検出できる構成としているが、第１の検出部１１の判定結果Ｘ１を補正することにより、第２の検出部１３の検出漏れを補う効果もある。

図２９は、文字領域補正部３２１の構成例を示すブロック図である。文字領域補正部３２１は、例えば図２９に示すように、輝度信号算出回路４３１と、２値化回路４３２と、ラインバッファ４３３と、マスク補正回路４３４とを備える。

輝度信号算出回路４３１は、ガンマ補正後の多値画像Ｉｍ１（ＲＧＢ画像信号）の画素ごとに、下記式（６）に従って、輝度信号相当の信号Ｌを算出する。なお、下記式（６）のａ，ｂ，ｃは、予め実験により求めた係数である。
Ｌ＝ａ×Ｒ＋ｂ×Ｇ＋ｃ×Ｂ・・・（６）

２値化回路４３２は、輝度信号算出回路４３１により算出された信号Ｌに対し、所定の閾値ｔｈ＿Ｌにて２値化（Ｌ≧ｔｈ＿Ｌ→黒画素、Ｌ＜ｔｈ＿Ｌ→白画素）処理を行う。ラインバッファ４３３は、２値化回路４３２の処理結果を保持して、マスク補正回路４３４での処理に必要な情報をマスク補正回路４３４に入力する。

マスク補正回路４３４は、注目画素が黒画素であって、かつ、注目画素を中心とした７×７のマスクの中に、第１の検出部１１の判定結果Ｘ１がアクティブとなっている画素が１つでも存在すれば、注目画素に対する判定結果Ｘ１をアクティブとし、そうでなければノンアクティブに判定し直す。図３０は、マスク補正回路４３４が用いるマスクの一例を示す図である。この図３０に示すマスクの中心の画素（図中のハッチングを付した画素）が、注目画素である。

以上のような文字領域補正部３２１の処理により、第１の検出部１１の判定結果Ｘ１は、文字の内部をアクティブとし、文字の背景をノンアクティブとするように補正される。そして、分離部１４が多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する処理を行う際に、この文字領域補正部３２１により補正された判定結果Ｘ１を用いることで、分離部１４による分離性能をさらに向上させることができる。

＜第２変形例＞
また、上述した第３実施形態では、ファイル生成時とコピー再生時とで第１の検出部１１の処理を切り替える一例として、第１の検出部１１のエッジ検出回路４０１における３値化の閾値を切り替える例を説明した。しかし、この３値化の閾値の切り替えだけでなく、他の方法により第１の検出部１１の処理を切り替える構成としてもよい。例えば、ファイル生成時とコピー再生時とで、第１の検出部１１に入力する多値画像Ｉｍ１の信号を切り替えるようにしてもよい。

具体的には、例えばコピー再生時には、第１の検出部１１による処理の効率化のため、ガンマ補正後の多値画像Ｉｍ１であるＲＧＢ画像信号のＧ信号を第１の検出部１１に入力する。これに対し、ファイル生成時には、ガンマ補正後の多値画像Ｉｍ１であるＲＧＢ画像信号から上記式（６）に従って輝度信号相当の信号Ｌを算出し、この信号Ｌを第１の検出部１１に入力する。第１の検出部１１による処理をＧ信号に基づいて行う場合は処理を効率化できる反面、緑色部分に対するレスポンスが低いため、緑文字のエッジを検出しにくくなる。これに対し、輝度信号相当の信号Ｌに基づいて第１の検出部１１による処理を行うようにすれば、緑文字のエッジを検出し易くなる。

また、緑文字のエッジだけでなく、黄色文字のエッジも積極的に検出したい場合には、ファイル生成時に輝度信号相当の信号Ｌに代えて、ＲＧＢの最大値ｍａｘ（Ｒ，Ｇ，Ｂ）を第１の検出部１１に入力する構成としてもよい。

＜第３変形例＞
また、上述の第３実施形態では、第１の検出部１１の白背景検出回路４０２や網点検出回路４０３を文字エッジの検出のみに用いる構成としている。しかし、白背景検出回路４０２の出力や網点検出回路４０３の出力を分離部１４での処理、つまり多値画像Ｉｍ１を文字画像Ｉｍ３と背景画像Ｉｍ４とに分離する際に利用する構成としてもよい。また、白背景検出回路４０２の出力や網点検出回路４０３の出力に基づいて、ファイル生成部１５が画像を圧縮する際の圧縮方式を切り替える構成としてもよい。このような構成を実現するには、白背景検出回路４０２の出力や網点検出回路４０３の出力を、第１の検出部１１の判定結果Ｘ１とは独立してデータインタフェース部３１３に送り、ＨＤＤ２１３に一時保存すればよい。

＜その他の変形例＞
上述した第１実施形態乃至第３実施形態とそれらの変形例は、適宜、組み合わせて実施することができる。例えば、第１実施形態または第２実施形態の構成において、第３実施形態のようにファイル生成時かコピー再生時かによって第１の検出部１１による処理（例えば３値化の閾値）を切り替えるようにしてもよい。

以上、本発明の具体的な実施形態および変形例について説明したが、上述した実施形態は本発明の一適用例を示したものである。本発明は、上述した実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で様々な変形や変更を加えて具体化することができる。

１画像処理装置
１１第１の検出部
１２エッジ強調部
１３第２の検出部
１４分離部
１５ファイル生成部
２００複合機
２１３ＨＤＤ
３３０切り替え部
Ｉｍ１多値画像
Ｉｍ２エッジ強調画像
Ｉｍ３文字画像
Ｉｍ４背景画像
ＦＩｍ高圧縮ＰＤＦファイル

特許第３０８８０１０号公報特許第４４７１２０２号公報

Claims

多値画像から圧縮画像ファイルを生成する画像処理装置であって、
前記多値画像から文字のエッジを検出する第１の検出部と、
前記第１の検出部の検出結果を用いて、前記多値画像に含まれる文字のエッジを強調したエッジ強調画像を生成するエッジ強調部と、
前記エッジ強調画像から文字領域を検出する第２の検出部と、
前記圧縮画像ファイルの生成に関する複数のモードの中から、一のモードの選択を受け付ける受付部と、
前記多値画像を文字画像と背景画像とに分離する分離部であって、前記複数のモードのうち第１のモードの選択を受け付けた場合は、前記第１の検出部の検出結果に基づいて前記多値画像を第１の文字画像と第１の背景画像とに分離し、前記複数のモードのうち第２のモードの選択を受け付けた場合は、少なくとも前記第２の検出部の検出結果に基づいて前記多値画像を第２の文字画像と第２の背景画像とに分離する分離部と、
分離された前記第１の文字画像及び背景画像、又は分離された前記第２の文字画像及び背景画像を用いて、前記多値画像に対応する圧縮画像ファイル生成する生成部と、
を備える画像処理装置。
ネットワークインターフェースを更に有し、
前記多値画像は、前記ネットワークインターフェースを介して入力される
請求項１に記載の画像処理装置。
前記生成部で生成された圧縮画像ファイルを前記ネットワークインターフェースを介して送信する
請求項２に記載の画像処理装置。
スキャナをさらに有し、
前記多値画像は、前記スキャナで読み取られた画像である
請求項１乃至３のいずれか一項に記載の画像処理装置。
前記受付部は、前記複数のモードの中から一のモードの選択を受け付ける選択画面を介して、前記一のモードの選択を受け付ける
請求項１乃至４のいずれか一項に記載の画像処理装置。
前記選択画面を表示する表示部をさらに有する
請求項５に記載の画像処理装置。
前記圧縮画像ファイルは、高圧縮ＰＤＦファイルである
請求項１乃至６のいずれか一項に記載の画像処理装置。
多値画像から圧縮画像ファイルを生成するコンピュータを、
前記多値画像から文字のエッジを検出する第１の検出部と、
前記第１の検出部の検出結果を用いて、前記多値画像に含まれる文字のエッジを強調したエッジ強調画像を生成するエッジ強調部と、
前記エッジ強調画像から文字領域を検出する第２の検出部と、
前記圧縮画像ファイルの生成に関する複数のモードの中から、一のモードの選択を受け付ける受付部と、
前記多値画像を文字画像と背景画像とに分離する分離部であって、前記複数のモードのうち第１のモードの選択を受け付けた場合は、前記第１の検出部の検出結果に基づいて前記多値画像を第１の文字画像と第１の背景画像とに分離し、前記複数のモードのうち第２のモードの選択を受け付けた場合は、少なくとも前記第２の検出部の検出結果に基づいて前記多値画像を第２の文字画像と第２の背景画像とに分離する分離部と、
分離された前記第１の文字画像及び背景画像、又は分離された前記第２の文字画像及び背景画像を用いて、前記多値画像に対応する圧縮画像ファイル生成する生成部、
として機能させるためのプログラム。
前記コンピュータは、
ネットワークインターフェースを更に有し、
前記多値画像は、前記ネットワークインターフェースを介して入力される
請求項８に記載のプログラム。
前記生成部で生成された圧縮画像ファイルを前記ネットワークインターフェースを介して送信する
請求項９に記載のプログラム。
前記コンピュータは、
スキャナをさらに有し、
前記多値画像は、前記スキャナで読み取られた画像である
請求項８乃至１０のいずれか一項に記載のプログラム。
前記受付部は、前記複数のモードの中から一のモードの選択を受け付ける選択画面を介して、前記一のモードの選択を受け付ける
請求項８乃至１１のいずれか一項に記載のプログラム。
前記コンピュータは、
前記選択画面を表示する表示部をさらに有する
請求項１２に記載のプログラム。
前記圧縮画像ファイルは、高圧縮ＰＤＦファイルである
請求項８乃至１３のいずれか一項に記載のプログラム。
多値画像から圧縮画像ファイルを生成する画像処理方法であって、
第１の検出部が、前記多値画像から文字のエッジを検出するステップと、
エッジ強調部が、前記第１の検出部の検出結果を用いて、前記多値画像に含まれる文字のエッジを強調したエッジ強調画像を生成するステップと、
第２の検出部が、前記エッジ強調画像から文字領域を検出するステップと、
受付部が、前記圧縮画像ファイルの生成に関する複数のモードの中から、一のモードの選択を受け付けるステップと、
分離部が、前記多値画像を文字画像と背景画像とに分離する分離部であって、前記複数のモードのうち第１のモードの選択を受け付けた場合は、前記第１の検出部の検出結果に基づいて前記多値画像を第１の文字画像と第１の背景画像とに分離し、前記複数のモードのうち第２のモードの選択を受け付けた場合は、少なくとも前記第２の検出部の検出結果に基づいて前記多値画像を第２の文字画像と第２の背景画像とに分離するステップと、
生成部が、分離された前記第１の文字画像及び背景画像、又は分離された前記第２の文字画像及び背景画像を用いて、前記多値画像に対応する圧縮画像ファイル生成するステップと、
を備える画像処理方法。