JP4411244B2 - 画像処理装置、画像処理方法、プログラム - Google Patents

画像処理装置、画像処理方法、プログラム Download PDF

Info

Publication number
JP4411244B2
JP4411244B2 JP2005124985A JP2005124985A JP4411244B2 JP 4411244 B2 JP4411244 B2 JP 4411244B2 JP 2005124985 A JP2005124985 A JP 2005124985A JP 2005124985 A JP2005124985 A JP 2005124985A JP 4411244 B2 JP4411244 B2 JP 4411244B2
Authority
JP
Japan
Prior art keywords
pixels
image
value
character
black pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005124985A
Other languages
English (en)
Other versions
JP2006304063A (ja
Inventor
玲司 三沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005124985A priority Critical patent/JP4411244B2/ja
Publication of JP2006304063A publication Critical patent/JP2006304063A/ja
Application granted granted Critical
Publication of JP4411244B2 publication Critical patent/JP4411244B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書画像の領域判定を好適に行うことができる画像処理装置、画像処理方法、プログラムに関する。
近年、カラープリンタやカラースキャナ等の普及により、カラー化された文書が増え、これをスキャンにより取り込んで電子ファイルとして保存したり、インターネット等を介して第三者等に送付する機会が増えてきている。しかし、フルカラーデータのままでは記憶装置や回線への負荷が大きいため、圧縮処理等の方法で取り扱うデータ量を小さくする必要がある。
従来、カラー画像を圧縮する方法として、例えば、誤差拡散等で擬似階調を持った2値画像にして圧縮する方法、JPEG形式で圧縮する方法、8ビットのパレットカラーに変換を行ってZIP圧縮やLZW圧縮をする方法等があった。また、領域判定とMMRによる2値圧縮とZIPによる可逆圧縮と、JPEGによる非可逆圧縮との組み合わせにより、通常の文字領域については高い品位が得られる圧縮方法等があった(例えば、特許文献1及び特許文献2参照)。
また、従来、文書画像処理に関する技術としては、文書を光学的に入力し、文字を認識してテキストコードを出力する光学的文字認識装置(OCR)の技術が存在する(例えば、特許文献3参照)。
OCRでは、濃度射影(ヒストグラム)により文字行を切り出し(抽出)、さらに1文字単位の文字ブロック切り出し(抽出)を行う。文字ブロックの切り出しに際しては、文字行方向に濃度射影を取り、濃度射影値の変化に基づいて文字行を分離し、さらに、各文字行について、文字行と垂直方向に濃度射影を取ることで個々の文字ブロックを抽出する。また必要に応じて、標準的な文字サイズや文字ピッチの推定値、および行と垂直方向に濃度射影値等の情報を用いて、1文字単位の文字画像となる、最終的な文字ブロックを切り出す。切り出された文字ブロックは、縦横寸法の正規化を行った後に、所定の特徴データ抽出の処理が施される。特徴データが抽出された個々の文字ブロックは、予め求められている標準パタンとの類似度が計算され、最も類似度の高い文字が認識結果とされる。標準パタンの集合は認識辞書と呼ばれる。
特開2002−077633号公報 特開2004−128880号公報 特開2003−346083号公報
特許文献1や特許文献2に記載の方法によれば、領域判定とMMRによる2値圧縮とZIPによる可逆圧縮と、JPEGによる非可逆圧縮との組み合わせにより、通常の文字領域については高い品位が得られる。しかし、領域判定の結果において、文字ではない領域(写真領域など、以下、非文字)を文字であると誤判断する場合もあり、その際は逆に大きな画質劣化を生じるという問題があった。
また、OCR処理においては、文字ブロックとして切り出した領域が非文字であった場合、非文字に対して文字認識を行うことになる。非文字に対して文字認識を行ってしまうと、全体の処理速度を低下させてしまう他、意味のないテキストコードが認識結果の出力データに含まれてしまう場合もあり好ましくないという問題があった。
本発明は、このような事情を考慮してなされたものであり、抽出した領域に対して、文字と非文字の属性判断を良好に行うことができる画像処理装置、画像処理方法、コンピュータプログラムを提供することを目的とする。
上記課題を解決する為に、本発明の画像処理装置は、多値文書画像を2値化することにより、2値画像を生成する2値化手段と、前記2値化手段で生成された2値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段と、前記判定対象領域の2値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第1の細線化画像を得る第1細線化手段と、前記判定対象領域の2値画像に対して、横方向に連結する黒画素(以下、横方向連結黒画素という。)を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素(以下、縦方向連結黒画素という。)を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第2の細線化画像を得る第2細線化手段と、前記第1細線化手段で得た第1の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第1の色分散値を算出する第1色分散値算出手段と、前記第2細線化手段で得た第2の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第2の色分散値を算出する第2色分散値算出手段と、前記算出した第1の色分散値が予め設定された第1の閾値より小さく、且つ前記算出した第2の色分散値が予め設定された第2の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第1の色分散値が前記第1の閾値以上であるか、前記算出した第2の色分散値が前記第2の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段とを有することを特徴とする。
上記課題を解決する為に、本発明の画像処理方法は、2値化手段が、多値文書画像を2値化することにより、2値画像を生成する2値化ステップと、領域抽出手段が、前記2値化ステップで生成された2値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出ステップと、第1細線化手段が、前記判定対象領域の2値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第1の細線化画像を得る第1細線化ステップと、第2細線化手段が、前記判定対象領域の2値画像に対して、横方向に連結する黒画素(以下、横方向連結黒画素という。)を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素(以下、縦方向連結黒画素という。)を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第2の細線化画像を得る第2細線化ステップと、第1色分散値算出手段が、前記第1細線化ステップで得た第1の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第1の色分散値を算出する第1色分散値算出ステップと、第2色分散値算出手段が、前記第2細線化ステップで得た第2の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第2の色分散値を算出する第2色分散値算出ステップと、領域判定手段が、前記算出した第1の色分散値が予め設定された第1の閾値より小さく、且つ前記算出した第2の色分散値が予め設定された第2の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第1の色分散値が前記第1の閾値以上であるか、前記算出した第2の色分散値が前記第2の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定ステップとを有することを特徴とする。
本発明によれば、文字と非文字の領域判定を精度良く実行することが可能となる。したがって、この領域判定結果を圧縮技術に適用すると、良好な画質が得られると共に、圧縮効率を向上させることが可能となる。また、OCR技術に対して適用すると、処理速度の向上と共に、意味のないテキストコードを出力してしまうことを抑え、認識率を向上させることが可能となる。
(実施例1)
以下の実施の形態では、例えばカラー複写機に搭載可能な、カラー画像の圧縮技術において本発明の領域判定技術を適用する例を説明する。尚、カラー複写機の機能としては、例えば、カラーコピー機能、カラープリント機能及びカラースキャナ機能があるが、本実施形態で説明する領域判定技術は、このうちカラーコピー機能及びカラースキャナ機能で適用可能である。具体的には、カラー原稿を読み取ることにより得られたカラー画像データを圧縮する際に用いられる圧縮技術に適用できる。また、カラースキャナ機能としては、例えば、カラー原稿を読み取ることにより得られたカラー画像データを圧縮して外部へ送信するデータ送信機能及び同カラー画像データを圧縮して複写機内部の記憶手段に記憶する保存機能がある。
以下、図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
図1は本発明の実施例によるシステム構成を示す概略図であり、ネットワーク通信機能を備えた複合機(MFP)101とホストコンピュータ(以下、PC)102が、ネットワーク103等の伝送媒体で接続された環境を示す図である。
また、点線104〜105は、処理/制御の流れを示すものとし、以下順に説明を行う。104は、ユーザがMFP101のスキャナより紙文書を読み込ませる処理を示す。その際、ユーザは、後述するMFP101のユーザーインターフェース(図2の203)より、送信する宛先(例えば、PC102)、各種送信設定(例えば、解像度、圧縮率)、データ書式(例えば、JPEG、TIFF、PDF、PDF高圧縮、PDF(OCR結果付き))を予め指定する。本実施例では、カラー画像の圧縮技術において本発明の領域判定方法を用いる例を説明するため、データ書式としてPDF高圧縮を指定した場合について説明を行う。PDF高圧縮の技術詳細については後述する。105は、指定された送信設定及びデータ書式に基づいて、MFP101の後述するソフトウェアあるいはハードウェア機能を利用してデータを生成し、指定された宛先に送信する処理を示す。ここで、PC102へ送信された画像は、PDFなどのファイルフォーマットで送信されることになるので、PC102の有する汎用的なビューアで閲覧可能である。
次に、図1におけるMFP101のハードウェアの詳細構成について図2を用いて説明する。
MFP101は、画像入力デバイスであるスキャナ部201、画像出力デバイスであるプリンタ部202、CPUやメモリ等で構成される制御ユニット(Controller Unit)204、ユーザーインターフェースである操作部203等を有する。制御ユニット204は、スキャナ部201、プリンタ部202、操作部203と接続し、一方では、LAN219や一般の電話回線網である公衆回線(WAN)220と接続することで、画像情報やデバイス情報の入出力を行うコントローラである。CPU205はシステム全体を制御するコントローラである。RAM206はCPU205が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。ROM210はブートROMであり、システムのブートプログラムが格納されている。HDD211はハードディスクドライブで、システム制御ソフトウェア、画像データを格納する。操作部I/F207は操作部(UI)203とのインターフェース部で、操作部203に表示するための画像データを操作部203に対して出力する。また、操作部203から本画像処理装置の使用者が入力した情報を、CPU205に伝える役割をする。ネットワーク(Network)208は本画像処理装置をLAN219に接続し、パケット形式の情報の入出力を行う。モデム(MODEM)209は本画像処理装置を公衆回線220に接続し、情報の復調・変調を行い入出力を行う。以上のデバイスがシステムバス221上に配置される。
イメージバスインターフェース(Image Bus I/F)212はシステムバス221と画像データを高速で転送する画像バス222とを接続し、データ構造を変換するバスブリッジである。画像バス222は、例えば、PCIバスやIEEE1394で構成される。
画像バス222上には以下のデバイスが配置される。ラスターイメージプロセッサ(RIP)213はPDLコードを解析し、ビットマップイメージに展開する。デバイスI/F部214は、信号線223を介して画像入出力デバイスであるスキャナ部201、信号線224を介してプリンタ部202、をそれぞれ制御ユニット204に接続し、画像データの同期系/非同期系の変換を行う。スキャナ画像処理部215は、入力画像データに対し補正、加工、編集を行う。プリンタ画像処理部216は、プリンタ部202に出力すべきプリント出力画像データに対して、プリンタ部202に応じた補正、解像度変換等を行う。画像回転部217は入力された画像データの回転を行い出力する。画像圧縮部218は、多値画像データに対してはJPEG圧縮伸長処理、または、デバイス固有の圧縮伸長処理を行い、2値画像画像データに対してはJBIG、MMR、MHの圧縮伸長処理を行う。以上が図1におけるMFP101のハードウェアの詳細構成である。
次に、図2における制御ユニット204に実装されるソフトウェア構成について図3を用いて説明する。301はユーザーインターフェース(以下、UI)であり、オペレータが操作部203を用いてMFPに対する各種操作・設定を行う際の、機器とユーザ操作との仲介を行うモジュールである。本モジュールは、オペレータの操作に従い、後述の各種モジュールに入力情報を転送して処理の依頼、或いはデータの設定等を行う。
302はアドレスブック(Address−Book)、即ちデータの送付先、通信先等を管理するデータベースモジュールである。アドレスブック302の内容は操作部203からの操作を、UI301で検知し、データの追加、削除、取得が行われ、オペレータの操作により後述の各モジュールにデータの送付・通信先情報を与えるものとして使用されるものである。
303はWebサーバモジュール(Web−Serverモジュール)であり、Webクライアント(例えば、PC102)からの要求により、本MFPの管理情報を通知するために使用される。この管理情報は、後述の統合送信部(Universal−Sendモジュール)304、後述のリモートコピースキャンモジュール(Remote−Copy−Scanモジュール)309、後述のリモートコピープリントモジュール(Remote−Copy−Printモジュール)310、後述の制御API(Control−API)318を介して読み取られ、後述のHTTPモジュール312、TCP/IP通信モジュール316、ネットワークドライバ(Network−Driver)317を介してWebクライアントに通知される。Webサーバモジュール303はWebクライアントに渡すべき情報を、HTML形式等のいわゆるWebページ(ホームページ)形式のデータとして作成する。必要に応じてJava(登録商標)やCGIプログラム等が用いられる。
304は統合送信部(Universal−Sendモジュール)、即ちデータの配信を司るモジュールであり、UI301を介してオペレータによって指定されたデータを、指示された通信(出力)先に配布するものである。また、オペレータにより、本MFPのスキャナ機能を使用して配布データの生成が指示された場合は、後述の制御API318を介して本MFPのスキャナ201を動作させ、データの生成を行う。
305は統合送信部304内で出力先にプリンタが指定された際に実行されるモジュールである。306は統合送信部304内で通信先にE−mailアドレスが指定された際に実行されるモジュールである。307は統合送信部304内で出力先にデータベースが指定された際に実行されるモジュールである。308は統合送信部304内で出力先に本MFPと同様のMFPが指定された際に実行されるモジュールである。
309はリモートコピースキャン(Remote−Copy−Scan)モジュールであり、MFP101のスキャナ機能を使用してスキャナ201で読み取った画像情報の出力先をネットワーク等で接続された他のMFPのプリンタで出力し、本MFP101単体で実現しているコピー機能と同等の処理を行うモジュールである。310はリモートコピープリント(Remote−Copy−Print)モジュールであり、ネットワーク等で接続された他のMFPのスキャナで読み取った画像情報を入力元として得られた画像情報をMFP101のプリンタ機能を使用して出力することにより、同様にMFP101単体で実現しているコピー機能と同等の処理を行うモジュールである。ボックスモジュール311はスキャン画像もしくはPDLプリント画像をHDDに格納し、格納した画像のプリンタ機能による印刷、統合送信(Universal−Send)機能による送信、HDDに格納した文書の削除、グルーピング(個別BOXへの格納)、BOX間移動、BOX間コピーなどの管理機能を提供する。なお、ボックスモジュール311は、HTTPモジュール312及びTCP/IPモジュール316によって通信機能が提供される。
312はHTTPモジュールであり、本MFPがHTTPにより通信する際に使用され、後述のTCP/IP通信モジュール316により前述のWebサーバモジュール303、Webプルプリントモジュール311に通信機能を提供する。313はlprモジュールであり、後述のTCP/IP通信モジュール316により前述の統合送信部304内のプリンタモジュール305に通信機能を提供するものである。314はSMTPモジュールであり、後述のTCP/IP通信モジュール316により統合送信部304内のE−mailモジュール306に通信機能を提供する。315はSLM、即ちSalutation−Managerモジュールであり、後述のTCP/IP通信316モジュールにより前述の統合送信部304内のデータベースモジュール317、DPモジュール318、及びリモートコピースキャンモジュール309、リモートコピープリントモジュール310に通信機能を提供する。
316はTCP/IP通信モジュールであり、後述のネットワークドライバ316を用いて、前述の各種モジュールにネットワーク通信機能を提供する。317はネットワークドライバであり、ネットワークに物理的に接続される部分を制御するものである。
318は制御APIであり、統合送信部304等の上流モジュールに対し、後述のジョブマネージャ(Job−Manager)319等の下流モジュールとのインターフェイスを提供するものであり、上流及び下流のモジュール間の依存関係を軽減し、それぞれの流用性を高めるものである。319はジョブマネージャであり、前述の各種モジュールより制御API318を介して指示される処理を解釈し、後述の各モジュール(320、324、326)に指示を与えるものである。また、ジョブマネージャ319は、FAXジョブの制御も含め本MFP内で実行される種々のジョブを一元管理するものである。
320はコーデックマネージャ(CODEC−Manager)であり、ジョブマネージャ319が指示する処理の中でデータの各種圧縮・伸長を管理・制御するものである。321はFBEエンコーダモジュール(FBE−Encoder)であり、ジョブマネージャ319、後述のスキャンマネージャ(Scan−Manager)324により実行されるスキャン処理により読み込まれたデータをFBEフォーマットにより圧縮するものである。322はJPEGコーデックモジュール(JPEG−CODEC)であり、ジョブマネージャ319、スキャンマネージャ324により実行されるスキャン処理、及びプリントマネージャ(Print−Manager)326により実行される印刷処理において、読み込まれたデータのJPEG圧縮及び印刷データのJPEG展開処理を行うものである。323はMMRコーデック(MMR−CODEC)であり、ジョブマネージャ319、スキャンマネージャ324により実行されるスキャン処理、及びプリントマネージャ326により実行される印刷処理において、スキャナから読み込まれたデータのMMR圧縮及びプリンタへ出力すべき印刷データのMMR伸長処理を行うものである。
324はスキャンマネージャ(Scan−Manager)であり、ジョブマネージャ319が指示するスキャン処理を管理・制御するものである。325はSCSIドライバであり、スキャンマネージャ324と本MFPが内部的に接続しているスキャナ部201との通信を行うものである。326はプリントマネージャ(Print−Manager)であり、ジョブマネージャ319が指示する印刷処理を管理・制御するものである。327はエンジンインターフェース(Engine−I/F)であり、プリントマネージャ326とプリンタ部202とのI/Fを提供する。328はパラレルポートドライバであり、Webプルプリント311がパラレルポートを介して不図示の出力機器にデータを出力する際のI/Fを提供する。
次にAddress−Book302の詳細について説明する。このAddress−Book302は、MFP101内の不揮発性の記憶装置(不揮発性メモリやハードディスクなど)に保存されており、この中には、ネットワークに接続された他の機器の特徴が記載されている。例えば、以下に列挙するようなものが含まれている。
・機器の正式名やエイリアス名,
・機器のネットワークアドレス,
・機器の処理可能なネットワークプロトコル,
・機器の処理可能なドキュメントフォーマット,
・機器の処理可能な圧縮タイプ,
・機器の処理可能なイメージ解像度,
・プリンタ機器の場合の給紙可能な紙サイズや給紙段情報,
・サーバ(コンピュータ)機器の場合のドキュメントを格納可能なフォルダ名
以下に説明する各アプリケーションは、上記Address−Book302に記載された情報により配信先の特徴を判別することが可能となる。
このAddress−Book302を参照して、MFP101はデータを送信することができる。例えば、リモートコピーアプリケーションは、配信先に指定された機器の処理可能な解像度情報を前記Address−Book302より判別し、それに従い、スキャナにより読み込まれた画像2値画像を公知のMMR圧縮を用いて圧縮し、それを公知のTIFF(Tagged Image File Format)化し、SLM303に通して、ネットワーク上のプリンタ機器に送信する。SLM303については、詳細には説明しないが、公知のSalutation−Manager)と呼ばれる機器制御情報などを含んだネットワークプロトコルの一種である。
次に、図1におけるホストコンピュータ102のハードウェア構成について図4を用いて説明する。ホストコンピュータ102ついては、一般的なパーソナルコンピュータの構成、機能を有しており、周辺機器であるモニタ401、キーボード・マウス402と、ホストコンピュータ102全体を制御する中央処理装置CPU403、アプリケーションやデータを記憶するハードディスク405、メモリ406等からなる。また、ネットワーク・インターフェース406を介してネットワーク103等の伝送媒体に接続されている。
次に、前述したPDF高圧縮に関して、図5及び図6を用いて説明する。
ここでいうPDF高圧縮とは、カラー画像の圧縮技術であり、領域判定を行い、各領域の属性に応じて、MMRによる2値圧縮とJPEGによる非可逆圧縮とを適応的に変えて圧縮することにより、圧縮率を高くできるとともに、文字領域については高い品位が得られる圧縮方法である。
多値画像である入力画像(501)は、2値化部(502)で2値化され、2値画像(503)が生成される。領域判定部(504)は、2値画像(503)を入力とし、例えば、所定値の画素(例えば、黒画素)の輪郭線追跡等により画素塊を取得し、当該画素塊の大きさや位置に基づいてグループ化していくことにより領域を形成し、当該形成された領域内の画素塊の大きさや並び方などに基づいて文字領域を判別して、文字領域情報を生成する。文字領域情報は、文字領域の位置や大きさを示す情報である。また、領域判定部(504)が文字領域を判定することで、それ以外の部分は、写真やイラストや背景等の自然(階調)画像を示す写真領域として判定する。文字切り出し部(505)は、領域判定部(504)により、文字領域と判定した領域に対して、文字領域内における各文字(単位文字領域)を文字切り矩形として切り出し、文字切り矩形情報を生成する。文字切り矩形情報は、文字きり矩形の位置や大きさを示す情報である。文字領域情報、及び文字切り矩形情報は、文字領域情報(506)として情報管理されるものとする。また、2値画像(503)を入力とし、領域判定部(504)により文字領域と判定された領域について、文字領域毎の2値画像である部分2値画像(507)を生成する。
一方で、入力画像(501)は、縮小部(512)により縮小(又は低解像度化)され、縮小多値画像(513)が生成される。代表色抽出部(510)は、部分2値画像(507)を入力とし、文字領域情報(506)及び縮小多値画像(513)を参照しながら、文字切り矩形の代表色を算出し、その結果を文字色情報(511)として情報管理する(尚、この処理の詳細については、特許文献2参照)。文字領域穴埋め部(514)は、縮小多値画像(513)を入力とし、文字領域情報(506)及び部分2値画像(507)を参照しながら、縮小多値画像(513)の各文字領域あるいは文字切り矩形を、その周辺色で塗り潰す処理を行う(尚、この処理の詳細については、特許文献1参照)。
以上の処理の後、部分2値画像(507)は各々、MMR圧縮部(508)により圧縮コード1(509)として圧縮される。また、文字領域穴埋め部(514)にて穴埋めされた穴埋め多値画像は、JPEG圧縮部(515)により圧縮コード2(516)として圧縮される。
このようにして、各構成要素から得られる文字領域情報(506)、圧縮コード1(509)、文字色情報(511)、圧縮コード2(516)のデータ群を結合した圧縮データ(517)が生成される。この圧縮データ(517)を、更に、PDFなどで可逆圧縮することにより、PDF高圧縮データが生成される。
図6は、前述したように生成された圧縮データ(517)を伸長する概略構成を示す図である。MMR伸長部(601)は圧縮コード1(509)を入力とし、MMR伸長処理を行い、部分2値画像(602)を生成する。JPEG伸長部(605)は圧縮コード2(516)を入力し、JPEG伸長処理を行い、さらに拡大部(606)で拡大処理を行うことで、多値画像(607)を生成する。合成部(603)は文字領域情報(506)を参照しながら、文字色情報(511)を部分2値画像(602)の黒画素に割り当て、その文字色が割り当てられた部分2値画像を多値画像(607)の上に合成して表示する。この際、部分2値画像(602)の白画素は透明色が割り当てられており、多値画像(607)を透過する。
このように、画像伸長装置は、画像圧縮装置により生成された圧縮データを伸長し、画像を復元する。
図7は、図5及び図6で使用、または生成される画像の概略図を示す。
701は、入力画像(501)を示す。702は、2値画像(503)を示す。
703は、領域判定部(504)により、文字領域、写真領域に領域判定された結果を示す。ここで、704及び706は文字領域と判定され、705は写真領域として判定されたものとする。
707、708は、領域判定部(504)により文字領域と判定された領域の部分2値画像(507)を示す。
709は、文字切り出し部(505)により切り出された文字切り矩形の概略図を示す。710は、文字領域704の文字切り矩形であり、711、712は、文字領域706の文字切り矩形である。ここで、711、712に示すように文字領域内の文字切り矩形の中に、文字と写真が混在することがある。例えば、特許文献1のように画素の集まりを位置の近さやサイズの一致に基づいてグループ化した場合、文字サイズに近い写真領域が文字領域内に混在する場合がある。これらの矩形全てを文字として扱うと、712のような本来写真として扱うべき矩形は、2値画像として処理が行われるため、情報の欠落が生じる。仮に文字領域内の文字切り矩形を全て文字として扱った場合に生成される圧縮データ(517)または、PDF高圧縮データを713に示す。ここで、714に示すように本来階調や色を有する写真領域が文字領域として扱われて2値化されてしまい、情報欠落が生じることになる。
これらの問題点を解決するために、本発明では、図8に示すように領域判定部2(801)を更に設け、文字切り矩形の領域判定を行う。その他の構成要素は図5と同様である。
次に、図9のフローチャートを用いて本発明のポイントである領域判定部2(801)の説明を行う。ここで、図9のフローチャートは、図の処理の一部であるため、図を適宜参照する。また、領域判定部2(801)は、図9の917の破線で囲われる907〜912の処理を示す。
まず、ステップ901にて、入力画像(501)に対して2値化部(502)により2値化を行う。
次に、ステップ902にて、2値画像(503)に対して領域判定部(504)により、領域判定を行う。ステップ902での領域判定は、例えば、2値画像において輪郭線追跡を行うことによって画素塊を取得し、近くの画素塊同士をグループ化することにより分割されてしまっている文字や文字行が結合されることになる。このグループ化によって形成された領域に含まれる画素塊の大きさや位置関係などに基づいて、当該領域が1又は複数の文字を含む文字領域かどうかの判定が行われる。
次に、ステップ903にて、領域数のカウンタであるnを初期化する。次に、ステップ904にて、注目領域が文字領域と判定された領域である場合は、ステップ905へ、非文字領域と判定された領域である場合は、ステップ912へ進む。
ステップ905では、文字切り出し部(505)にて文字切り出しを行う。例えば、水平方向にヒストグラムを取って文字行を切り出し、各文字行の垂直方向のヒストグラムを取って文字矩形を切り出すことができる。
ステップ906にて、文字切り矩形数のカウンタであるmを初期化する。
次に、領域判定部2(801)において、まず、ステップ907にて、ステップ905で切り出された文字切り矩形の細線化(1)を行う。
ここで、細線化(1)の処理について具体的に説明する。
細線化(1)は、入力の2値画像の文字切り矩形の領域に対して細線化を行う処理である。細線化方法は、まず、横に連結する黒画素を検出し、左右両端の1画素づつを削除する(白画素に置き換える)。次に、縦に連結する黒画素を検出し、上下両端の1画素づつを削除する。例えば、図14に示す2値画像1401は、横に連結する黒画素の検出及び左右両端の1画素の削除により、1402に示す画像となる。次に、縦に連結する黒画素の検出及び上下両端の1画素の削除により、1403に示す画像となる。このようにして生成された細線化後の画像は、後述する色分散値を算出する際に使用するための一時的なものであるため、テンポラリの記憶領域に保存される。
また、図11の1101のような2値画像の文字切り矩形が入力された場合に、細線化処理(1)した後の画像を1104に示す。1101は、入力の2値画像の文字切り矩形であり、文字“P”が四角枠で囲われている。四角枠の幅は、1102に示すように2画素幅であり、文字“P”の太さは、1103に示す画素幅である。1104は、細線化後の画像であり、細線化を行うと、周囲の四角枠は1105に示すように削除され、文字“P”は、1106に示す画素幅となる。
次に、ステップ908にて、ステップ905で切り出された文字切り矩形の細線化(2)を行う。
ここで、細線化(2)の処理について具体的に説明する。
細線化(2)は、細線化(1)と同様に、入力された2値画像の文字切り矩形の領域に対して細線化を行う処理である。細線化(2)では、連結する黒画素を検出し、連結画素数にもとづいて削除する画素数を切り替える点が細線化(1)と異なる。以下に、連結画素数と削除画素数の関係を示す。
0≦連結画素数≦2:削除しない。
3≦連結画素数≦6:両端1画素削除
7≦連結画素数:両端2画素削除
例えば、図14に示す2値画像1401に細線化(2)の処理を行うと、上述した連結画素数と削除画素数の関係に基づいて、横に連結する黒画素の検出及び左右両端の画素の削除により、1404に示す画像となる。次に、縦に連結する黒画素の検出及び上下両端の画素の削除により、1405に示す画像となる。このようにして生成された細線化後の画像は、テンポラリの記憶領域に保存される。また、図11の1101のような文字切り矩形に、細線化処理(2)を行った後の画像を図11の1107に示す。細線化(2)では、四角枠は、1108に示すように削除されず、文字“P”は、1109に示す画素幅となる。
以上のように、ステップ907、ステップ908にて、細線化(1)、細線化(2)が行われる。なお、ステップ907とステップ908とを並列に実行することができれば処理時間が短縮されるようになるが、順番に処理を実行するようにしても構わない。
次に、ステップ909にて、前述した細線化(1)、細線化(2)で得られた各々の画像に対して、色分散値(ColorStd_1、ColorStd_2)それぞれを算出する。
ここで、色分散について具体的に説明する。本実施例における色分散は、文字切り矩形内の色が、単一色(例えば、黒や赤)であるか複数色(例えば、黒と赤が混在)であるかを判定するための基準として用いる。例えば、色分散値が小さい場合は、単一色である可能性が高いと判定し、色分散値が大きい場合は、複数色であると判定できる。本実施例では、文字切り矩形内の色が、色分散値の大きさを文字か写真という判定の基準に用いており、これは、文字は単一色である場合が多く、写真(自然画やイラスト)は複数色である場合が多いという経験則によるものである。
次に、色分散値の算出方法について具体的に説明する。色情報は、縮小多値画像(513)または、2値化処理前の入力画像(501)の色(例RGB値の各8bit)を参照する。さらに、好ましくは、RGB値を輝度、輝度色差情報に変換した値(例えば、YCbCr値の各8bit)を参照する。ここでは、例としてYCbCr値のCb値の色分散値を算出する。RGBからYCbCrへの変換方法については、公知であるため、説明を省略する。
まず、細線化(1)で得られる細線化画像1104の黒画素の位置に対応する縮小多値画像(513)の色(Cb値)に基づいて、Cb値と出現頻度の分布図を生成する。例えば、図12は、図11の黒画素を画素単位で表した図であるが、1201の画素のCb値、1202の画素のCb値を順に参照し、分布図を生成する。このように生成された分布図にもとづいて分散値を算出する。
分散は、一般的に知られるvarianceであり、下記の式で求められる。
・variance(分散):Σ(Cb(i)−m)/n
・n:データ数(文字切り矩形内の黒画素数)
・Cb(i):文字切り矩形内の黒画素と位置的に対応する縮小多値画像のCb値
・m(平均):ΣCb(i)/n
以上のようにして色分散値が算出される。ここで、細線化(1)、細線化(2)で得られた各々の画像に対する色分散値を夫々、ColorStd_1、ColorStd_2とする。また、ここでは、例として、Cb値の色分散値を算出しているが、Cr値、R、G、B値にもとづいて色分散値を算出しても構わない。また、色分散値の算出後は、前述したテンポラリの記憶領域を初期化する。
次に、色分散を細線化画像より算出する理由について説明する。前述したように、色分散は、縮小多値画像(513)または、2値化処理前の入力画像(501)を参照する。細線化は、この時、参照するカラー多値画像の品位による影響を軽減させるために行う。即ち、カラー多値画像が圧縮や色ずれ等の要因により劣化している場合、文字切り矩形内の文字の本来の色分散値に影響を与えてしまうためである。
次に、色分散を2種類の細線化画像より算出する理由について説明する。以下、細線化(1)、及び細線化(2)より色分散を算出する場合の長所、短所について述べる。
(A)細線化(1)より色分散を算出する場合
・長所:文字切り矩形内の文字、または写真の本来の色分散値、即ち精度の高い色分散値が得られる(但し、短所で述べる例外を除く)。
・短所:2画素幅の黒画素は、削除されてしまうため、2画素幅を多くもつ画像の色分散値の精度が低い。
ここで、細線化(1)より色分散を算出する場合の長所について、図14を用いて具体的に説明する。前述したように1403は、1401に対して細線化(1)を行った場合の画像、1405は、1401に対して細線化(2)を行った場合の画像である。ここで、細線化(1)の場合の1403は、画像の芯(内部)しか残らないため、カラー多値画像の品位による影響を受けにくい。一方、細線化(2)の場合の1405は、画像の芯以外の部分も残るため、これらの影響を受けやすい。
(B)細線化(2)より色分散を算出する場合
・長所:(A)に比べて、2画素幅を多くもつ写真の精度の高い色分散値が得られる。
・短所:(A)に比べて、色分散値の精度が低い。
ここで、細線化(2)より色分散を算出する場合の長所について、図13を用いて具体的に説明する。1301は、カラー多値画像であり、赤色丸枠の中に黒(グラデーション)の携帯が描かれている。1302は、1301を2値化した2値画像であり、丸枠は2画素幅の黒画素であることを示している。1303は、1302に対して細線化(1)を行った場合の画像、1304は、1302に対して細線化(2)を行った場合の画像である。ここで、細線化(1)の場合の1303は、丸枠の部分が削除されてしまうため、色分散値は小さくなる。細線化(2)の場合の1304は、丸枠の部分が残り、色分散値は大きくなる。従って、細線化(1)だけでは、該矩形を写真と判定できない場合があるため、細線化(2)が必要となる。
次に、ステップ910にて、色分散値(ColorStd_1、ColorStd_2)と予め設定された閾値(th1、th2)を比較する。ColorStd_1、ColorStd_2のいずれも閾値よりも小さい場合は、ステップ911にてTEXTと判断され、いずれかが閾値よりも大きい場合は、ステップ912にてIMAGEと判断される。次に、ステップ913にて、文字切り矩形数のカウンタmと文字切り矩形数Mの比較を行い、全ての文字切り矩形に対してステップ907〜912が終了するとステップ914へ進み、一方、未処理の文字切り矩形がある場合は、ステップ915にてカウンタmを増やして次の文字切り矩形に対して処理を行う。また、ステップ914にて、領域数のカウンタnと領域数Nの比較を行い、全ての領域に対する処理が終了すると本処理を終了し、未処理の領域がある場合は、ステップ916にてカウンタnを増やして次の領域の処理を行う。
このように、領域判定部2(801)では、文字領域における文字切り矩形がTEXTであるかIMAGEであるかの判定を色分散値を用いて行う。
例えば、入力画像(501)が図7の701である場合、領域判定部2(801)で判定された結果の概略図を図10の1001に示す。また、図8の802は、この結果にもとづいて、領域が文字領域かつ領域判定部2(801)の結果がTEXTである文字切り矩形領域を用いて部分2値画像を生成することを示している。例えば、入力画像(501)が図7の701であった場合に生成されるテキスト領域の部分2値画像の概略図を1002に示す。領域判定部2の処理を行った場合、TEXT711とIMAGE712とが識別されるので、生成される圧縮データ(517)またはPDF高圧縮データを再生すると、1003のようになる。
以上のように、領域判定部2(801)において、2種類の細線化手法による文字切り矩形の色分散値にもとづいて、文字切り矩形が文字か写真かを精度良く判定することができる。この判定結果を圧縮に適用することにより、良好な画質の圧縮データ(517)または、PDF高圧縮データを得ることが可能となる。
(実施例2)
実施例1では、2種類の細線化手法による文字切り矩形の色分散値を計算した後に、文字切り矩形が文字か写真かを判定する場合について説明した。実施例2では、さらに、第一の細線化手法による文字切り矩形の色分散値にもとづいて、第二の細線化手法による文字切り矩形の色分散値の算出を行うかどうか判断する。
以下、実施例2における領域判定方法について図15のフローチャートを用いて説明する。
図15は、実施例1で使用した図9の917に対応する領域判定部2(801)である。まず、ステップ1501にて、実施例1で前述した細線化(1)を行う。次に、ステップ1502にて色分散値(ColorStd_1)を算出する。次に、ステップ1503にて、色分散値(ColorStd_1)と予め設定された第1の閾値th1を比較する。ここで、閾値よりも小さい場合は、ステップ1504に進み、閾値よりも大きい場合は、ステップ1508にてIMAGEと判断される。ステップ1504では、実施例1で前述した細線化(2)を行う。次に、ステップ1505にて色分散値(ColorStd_2)を算出する。次に、ステップ1506にて、色分散値(ColorStd_2)と予め設定された第2の閾値th2を比較する。ここで、閾値よりも小さい場合は、ステップ1507にて、TEXTと判断される。閾値よりも大きい場合は、ステップ1508にてIMAGEと判断される。
以上のように、第一の細線化手法による文字切り矩形の色分散値にもとづいて、第二の細線化手法による文字切り矩形の色分散値の算出を行うかどうか判断することにより、実施例1と同様の精度を保ちつつ、より高速な領域判定が可能となる。
(実施例3)
実施例1〜2では、画像の圧縮技術において本領域判定方法を用いる例を説明した。実施例3では、光学的文字認識装置(OCR)技術を用いる際に、本領域判定方法を用いる例を説明する。
前述したように、OCR処理では、文書画像に対して濃度射影(ヒストグラム)を取ることにより文字行を切り出し(抽出)、さらに1文字単位の文字ブロック切り出し(抽出)を行う。そして、個々の文字ブロックから特徴データを抽出して、標準パタンとの類似度が計算され、最も類似度の高い文字を認識結果として出力する。即ち、文字ブロック切り出し(抽出)処理までは、実施例1の図9で前述したように、2値化、領域判定、文字切り出しを行うことを意味する。また、前述したように、文字切り矩形が非文字である場合、非文字に対して文字認識を行ってしまうと、全体の処理速度を低下させてしまう他、意味のないテキストコードを出力してしまう場合もあり好ましくない。
ここで、実施例3では、OCR処理を行う前に、予め文字切り矩形の領域判定を行うことで、文字か非文字かを判定しておき、文字と判定された場合のみOCR処理を行うことでこれらの問題を解決する。この処理を図16のフローチャートに示す。図16において、901〜916の処理部分は、実施例1で前述した図9と同様であるため、説明を省略する。ステップ910にて、色分散値(ColorStd_1、ColorStd_2)と予め設定された閾値(th1、th2)を比較し、ColorStd_1、ColorStd_2のいずれも閾値よりも小さい場合は、ステップ911にてTEXTと判断されるため、ステップ1601にてOCR処理を行い、文字認識結果を出力する。また、いずれかが閾値よりも大きい場合は、ステップ910にてIMAGEと判断されるため、OCR処理は行わない。
以上のように、OCR技術を用いる際、不要なOCR処理を行わないため、処理速度の向上が図られ、また、意味のないテキストコードを出力してしまうことを抑えることが可能となる。
(実施例4)
本発明は、複数の機器(例えばホストコンピュータ、インターフェース機器、リーダ、プリンタなど)から構成されるシステムに適用しても、一つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された拡張機能ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードに指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
以上のように、本発明によれば、領域判定精度を向上させることが可能となる。また文字と非文字の好適な領域判定を実行することができるので、良好な画質が得られると共に、圧縮効率を向上させることが可能となる。また、OCR技術を用いる際、処理速度の向上と共に、意味のないテキストコードを出力してしまうことを抑え、認識率を向上させることが可能となる。
本実施例1におけるシステムの概略図 本実施例1におけるMFPのハードウェア構成 本実施例1におけるMFPのソフトウェア構成 本実施例1におけるPCのハードウェア構成 画像圧縮装置のブロック図1 画像伸長装置のブロック図 入力画像〜出力画像のサンプル 本発明における画像圧縮装置のブロック図2 本実施例1における領域判定のフローチャート 本実施例1における入力画像〜出力画像のサンプル2 細線化、色分散の説明図1 細線化、色分散の説明図2 細線化、色分散の説明図3 細線化の説明図 本実施例2における領域判定のフローチャート 本実施例3における領域判定のフローチャート

Claims (11)

  1. 多値文書画像を2値化することにより、2値画像を生成する2値化手段と、
    前記2値化手段で生成された2値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段と、
    前記判定対象領域の2値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第1の細線化画像を得る第1細線化手段と、
    前記判定対象領域の2値画像に対して、横方向に連結する黒画素(以下、横方向連結黒画素という。)を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素(以下、縦方向連結黒画素という。)を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第2の細線化画像を得る第2細線化手段と、
    前記第1細線化手段で得た第1の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第1の色分散値を算出する第1色分散値算出手段と、
    前記第2細線化手段で得た第2の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第2の色分散値を算出する第2色分散値算出手段と、
    前記算出した第1の色分散値が予め設定された第1の閾値より小さく、且つ前記算出した第2の色分散値が予め設定された第2の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第1の色分散値が前記第1の閾値以上であるか、前記算出した第2の色分散値が前記第2の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段と
    を有することを特徴とする画像処理装置。
  2. 前記領域抽出手段は、
    前記2値画像から画素塊を抽出し、当該抽出した画素塊の大きさと位置関係とに基づいて、前記2値画像内から文字領域候補を判定し、
    更に、当該判定された文字領域候補において水平方向のヒストグラムと垂直方向のヒストグラムとを取ることによって切り出した矩形領域を、前記判定対象領域として抽出することを特徴とする請求項1に記載の画像処理装置。
  3. 前記第2細線化手段は、前記横方向連結黒画素と前記縦方向連結黒画素とのそれぞれに対して、連結黒画素の数が2以下の場合は削除を行わず、連結黒画素の数が3乃至6の場合は両端1画素を削除し、連結黒画素の数が7以上の場合は両端2画素を削除することを特徴とする請求項に記載の画像処理装置。
  4. 前記領域判定手段により文字と判定された領域の2値画像に対して第1の圧縮処理を施し、非文字と判定された領域の多値画像に対して第2の圧縮処理を施すことにより、前記文書画像の圧縮データを得る圧縮手段を、更に有することを特徴とする請求項1乃至のいずれかに記載の画像処理装置。
  5. 前記領域判定手段により文字と判定された領域から代表色を算出する代表色算出手段を更に有する画像処理装置であって、
    前記圧縮データには、前記第1の圧縮処理により得られる第1圧縮コードと、前記第2の圧縮処理により得られる第2圧縮コードと、前記代表色算出手段で得られる代表色の情報とが含まれることを特徴とする請求項に記載の画像処理装置。
  6. 前記第2の圧縮処理を施す対象の画像は、前記文書画像において前記文字領域と判定された領域の部分を周囲の色で埋めることにより生成された文書画像であることを特徴とする請求項4または5のいずれかに記載の画像処理装置。
  7. 前記領域判定手段で文字と判定された領域に対して、文字認識処理を実行する文字認識処理手段を更に備えることを特徴とする請求項1乃至のいずれかに記載の画像処理装置。
  8. 前記多値文書画像を縮小して縮小多値画像を生成する縮小手段を更に有し、
    前記第1色分散値算出手段では、前記第1の細線化画像に含まれる黒画素の位置に対応する前記縮小多値画像の画素に基づいて、前記第1の色分散値を算出し、
    前記第2色分散値算出手段では、前記第2の細線化画像に含まれる黒画素の位置に対応する前記縮小多値画像の画素に基づいて、前記第2の色分散値を算出する際ことを特徴とする請求項1に記載の画像処理装置。
  9. 2値化手段が、多値文書画像を2値化することにより、2値画像を生成する2値化ステップと、
    領域抽出手段が、前記2値化ステップで生成された2値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出ステップと、
    第1細線化手段が、前記判定対象領域の2値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第1の細線化画像を得る第1細線化ステップと、
    第2細線化手段が、前記判定対象領域の2値画像に対して、横方向に連結する黒画素(以下、横方向連結黒画素という。)を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素(以下、縦方向連結黒画素という。)を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第2の細線化画像を得る第2細線化ステップと、
    第1色分散値算出手段が、前記第1細線化ステップで得た第1の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第1の色分散値を算出する第1色分散値算出ステップと、
    第2色分散値算出手段が、前記第2細線化ステップで得た第2の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第2の色分散値を算出する第2色分散値算出ステップと、
    領域判定手段が、前記算出した第1の色分散値が予め設定された第1の閾値より小さく、且つ前記算出した第2の色分散値が予め設定された第2の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第1の色分散値が前記第1の閾値以上であるか、前記算出した第2の色分散値が前記第2の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定ステップと
    を有することを特徴とする画像処理方法。
  10. コンピュータを、
    多値文書画像を2値化することにより、2値文書画像を生成する2値化手段
    前記2値化手段で生成された2値画像から、文字と非文字が混在する判定対象領域を抽出する領域抽出手段
    前記判定対象領域の2値画像に対して、横方向に連結する黒画素の左右両端の所定数の画素を削除し、且つ縦方向に連結する黒画素の上下両端の所定数の画素を削除することにより、細線化された第1の細線化画像を得る第1細線化手段
    前記判定対象領域の2値画像に対して、横方向に連結する黒画素(以下、横方向連結黒画素という。)を検出して、当該検出した横方向連結黒画素の数が所定の値以下の場合は当該横方向連結黒画素の左右両端の画素の削除は行わず、前記横方向連結黒画素の数が前記所定の値より多い場合は当該横方向連結黒画素の左右両端の所定数の画素を削除する処理と、縦方向に連結する黒画素(以下、縦方向連結黒画素という。)を検出して、当該検出した縦方向連結黒画素の数が所定の値以下の場合は当該縦方向連結黒画素の上下両端の画素の削除は行わず、前記縦方向連結黒画素の数が前記所定の値より多い場合は当該縦方向連結黒画素の上下両端の所定数の画素を削除する処理と、を実行することにより、細線化された第2の細線化画像を得る第2細線化手段
    前記第1細線化手段で得た第1の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第1の色分散値を算出する第1色分散値算出手段
    前記第2細線化手段で得た第2の細線化画像に含まれる黒画素の位置に対応する前記多値文書画像の画素に基づいて、第2の色分散値を算出する第2色分散値算出手段
    前記算出した第1の色分散値が予め設定された第1の閾値より小さく、且つ前記算出した第2の色分散値が予め設定された第2の閾値より小さい場合は、当該判定対象領域を文字と判定し、前記算出した第1の色分散値が前記第1の閾値以上であるか、前記算出した第2の色分散値が前記第2の閾値以上である場合は、当該判定対象領域を非文字と判定する領域判定手段、
    として機能させるためのコンピュータプログラム。
  11. 請求項10に記載のコンピュータプログラムを格納した、コンピュータ読み取り可能な記憶媒体。
JP2005124985A 2005-04-22 2005-04-22 画像処理装置、画像処理方法、プログラム Active JP4411244B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005124985A JP4411244B2 (ja) 2005-04-22 2005-04-22 画像処理装置、画像処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005124985A JP4411244B2 (ja) 2005-04-22 2005-04-22 画像処理装置、画像処理方法、プログラム

Publications (2)

Publication Number Publication Date
JP2006304063A JP2006304063A (ja) 2006-11-02
JP4411244B2 true JP4411244B2 (ja) 2010-02-10

Family

ID=37471800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005124985A Active JP4411244B2 (ja) 2005-04-22 2005-04-22 画像処理装置、画像処理方法、プログラム

Country Status (1)

Country Link
JP (1) JP4411244B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5407582B2 (ja) * 2009-06-22 2014-02-05 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP7185451B2 (ja) * 2018-09-10 2022-12-07 キヤノン株式会社 画像処理装置と画像処理方法、及びプログラム

Also Published As

Publication number Publication date
JP2006304063A (ja) 2006-11-02

Similar Documents

Publication Publication Date Title
JP4227569B2 (ja) 画像処理システム、画像処理装置の制御方法、プログラム及び記録媒体
US8331671B2 (en) Image processing apparatus and image encoding method related to non-photo image regions
JP4753638B2 (ja) 文書圧縮方法、文書を圧縮するためのシステム、及び画像処理装置
US7133559B2 (en) Image processing device, image processing method, image processing program, and computer readable recording medium on which image processing program is recorded
JP4579759B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2009005312A (ja) 画像処理装置及び画像処理方法及びコンピュータプログラム及び記憶媒体
JP4663682B2 (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
US8175397B2 (en) Device adaptively switching image processes in accordance with characteristic of object included in image
JP4442701B2 (ja) 領域判別方法、画像圧縮方法、画像圧縮装置、およびコンピュータプログラム
JP4411244B2 (ja) 画像処理装置、画像処理方法、プログラム
US8284459B2 (en) Image processing apparatus and image processing method
US8654404B2 (en) Image processing apparatus, image processing method and memory medium
US20080112014A1 (en) Image forming apparatus and image processing method
JP3960210B2 (ja) 画像処理装置
JP3882657B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP6631037B2 (ja) 画像処理装置、画像形成装置、画像処理方法、画像形成装置用プログラム、および、画像形成装置用プログラムを記録した記録媒体
JP3882603B2 (ja) 画像処理装置、画像処理方法、画像処理プログラムおよび画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2010288144A (ja) 画像処理装置及び画像処理装置の制御方法及びプログラム及び記憶媒体
US20090316998A1 (en) Outlining method for properly representing curved line and straight line, and image compression method using the same
JP2009188682A (ja) 画像処理システム、送信装置、出力装置、および画像処理方法
JP2007235367A (ja) 画像処理装置、画像処理方法、情報処理装置、プログラム、および記録媒体
JP2009135791A (ja) 画像処理システム
JP2008236393A (ja) 画像形成装置および画像データの補正方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080407

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090930

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091116

R150 Certificate of patent or registration of utility model

Ref document number: 4411244

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121120

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131120

Year of fee payment: 4