JP2010044517A - 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体 - Google Patents

画像処理装置、画像処理方法、画像処理プログラム及び記録媒体 Download PDF

Info

Publication number
JP2010044517A
JP2010044517A JP2008207277A JP2008207277A JP2010044517A JP 2010044517 A JP2010044517 A JP 2010044517A JP 2008207277 A JP2008207277 A JP 2008207277A JP 2008207277 A JP2008207277 A JP 2008207277A JP 2010044517 A JP2010044517 A JP 2010044517A
Authority
JP
Japan
Prior art keywords
character line
color
image
range
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008207277A
Other languages
English (en)
Inventor
Masaru Sekiguchi
優 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008207277A priority Critical patent/JP2010044517A/ja
Publication of JP2010044517A publication Critical patent/JP2010044517A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】有彩色画像における文字行の抽出処理を好適に実行すること。
【解決手段】カラー画像から文字行を取得する画像処理装置であって、入力されたカラー画像に含まれる文字行の範囲を示す文字行範囲を決定し、決定された文字行範囲に基づいてカラー画像から文字行を取得する行候補判定部127を備え、行候補判定部は、カラー画像において認識されたカラー文字行データと、カラー画像に基づく二値画像において認識されたモノクロ文字行データとに応じて文字行範囲を決定することを特徴とする。
【選択図】図3

Description

本発明は、画像処理装置、画像処理方法、画像処理プログラム及び記録媒体に関し、特に、有彩色の画像情報に含まれる文字列の行の抽出処理に関する。
近年、情報の電子化が推進される傾向にある。情報の電子化の一態様として、文章を含む画像をスキャン等によって取得し、その画像に表示されている文字を文字情報として認識する処理がある。このような処理は、OCR(Optical Character Recognition:光学文字認識)と呼ばれている。
複数行からなる文章を含む画像に対してOCR処理を実行する場合、OCR処理を実行する前段階の処理として、文字行領域を抽出する処理が必要となる。このような文字行領域を抽出する方法としては、例えば夫々の文字を連結して行を抽出する方法がある。また、他の方法としては、入力された文章画像を二値化した上で論理和縮小し、縮小された画像に含まれる連結成分の縦横比を判定することにより、行を抽出する方法が提案されている(例えば、特許文献1及び特許文献2参照)。
特開平5−314309号公報 特開平9−44594号公報
上述したような文字行領域の抽出処理に際しては、誤検出の問題がある。誤検出の例としては、文字以外の領域が文字領域として抽出される場合や、文字領域が文字領域として抽出されない場合等がある。例えば、特許文献1の方法を用いる場合において、入力された画像が有彩色の画像であり、文字を表示する背景色と文字色とが共に濃度の高い色である場合、上記二値化処理によって背景及び文字が黒画素になってしまう。この場合、背景と文字とを区別することが不可能であり、文字行の抽出を好適に実行することができない。尚、有彩色の画像とは、明度、再度及び色相の情報を有するカラー画像である。
上述したような誤検出の問題は、例えば文章のタイトルやロゴ等、多様な文字色、背景色を有するデザイン性の高い文字において特に顕著である。本発明は、上記実情を考慮してなされたものであり、有彩色画像における文字行の抽出処理を好適に実行することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、カラー画像から文字行を取得する画像処理装置であって、前記カラー画像を入力する画像入力部と、入力された前記カラー画像に含まれる文字行の範囲を示す文字行範囲を決定する文字行決定部と、決定された前記文字行範囲に基づいて前記カラー画像から文字行を取得する文字行取得部とを備え、前記文字行決定部は、前記カラー画像において認識されたカラー文字行データと、前記カラー画像に基づく二値画像において認識されたモノクロ文字行データとに応じて前記文字行範囲を決定することを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の画像処理装置において、前記文字行決定部は、前記カラー画像において連続する複数の画素であって色彩の類似している複数の画素の集合である連続画素を構成する連結成分構成手段と、前記構成された連続画素において近傍に配置されている複数の連続画素であって形態的一致点を有する複数の連続画素の集合である連続画素集合を構成する連続画素集合構成手段とを有し、前記カラー画像において前記構成した連続画素集合が表示されている範囲に基づいて前記カラー文字行データを生成することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の画像処理装置において、前記連結成分構成手段は、前記カラー画像において連続する2つの画素の輝度の差に基づいて前記2つの画素の色彩の類似を判断することを特徴とする。
また、請求項4に記載の発明は、請求項2または3に記載の画像処理装置において、前記連結成分構成手段は、前記カラー画像において連続する2つの画素の色相及び彩度の差に基づいて前記2つの画素の色彩の類似を判断することを特徴とする。
また、請求項5に記載の発明は、請求項2乃至4いずれか1項に記載の画像処理装置において、前記連続画素集合構成手段は、前記構成された連続画素の外接矩形の形態に基づいて前記形態的一致点を判断することを特徴とする。
また、請求項6に記載の発明は、請求項2乃至5いずれか1項に記載の画像処理装置において、前記連続画素集合構成手段は、前記近傍に配置されている2つの連続画素の幅、高さ及び面積のうち少なくとも一つの差に基づいて前記形態的一致点を判断することを特徴とする。
また、請求項7に記載の発明は、請求項1乃至6いずれか1項に記載の画像処理装置において、前記文字行決定部は、前記二値画像において文字行と判断される範囲の外接矩形に基づいて前記モノクロ文字行データを生成し、前記カラー画像において文字行と判断される範囲の外接矩形に基づいて前記カラー文字行データを生成し、前記モノクロ文字行データ及び前記カラー文字行データの外接矩形の幅、高さ及び面積のうちすくなくとも1つの比較結果に基づいて前記文字行範囲を決定することを特徴とする。
また、請求項8に記載の発明は、請求項7に記載の画像処理装置において、前記文字行決定部は、前記モノクロ文字行データに含まれる範囲であって前記カラー文字行データの範囲外の範囲を前記決定する文字行範囲から除外することを特徴とする。
また、請求項9に記載の発明は、請求項7または8に記載の画像処理装置において、前記文字行決定部は、前記モノクロ文字行データの範囲の面積と前記カラー文字行データの範囲の面積との比が所定の範囲内である場合、前記モノクロ文字行データの範囲を前記文字行範囲として決定することを特徴とする。
また、請求項10に記載の発明は、請求項7乃至9いずれか1項に記載の画像処理装置において、前記文字行決定部は、前記モノクロ文字行データの範囲の位置と前記カラー文字行データの範囲の位置との差が所定の範囲内である場合、前記モノクロ文字行データの範囲を前記文字行範囲として決定することを特徴とする。
また、請求項11に記載の発明は、請求項7乃至10いずれか1項に記載の画像処理装置において、前記文字行決定部は、前記モノクロ文字行データの範囲外の範囲であって前記カラー文字行の範囲に含まれる範囲を前記文字行範囲として決定する事を特徴とする。
また、請求項12に記載の発明は、カラー画像から文字行を取得する画像処理方法であって、前記カラー画像を入力し、入力された前記カラー画像において認識されたカラー文字行データと、前記カラー画像データに基づく二値画像において認識されたモノクロ文字行データとに応じて前記カラー画像に含まれる文字行の範囲を示す文字行範囲を決定し、決定された前記文字行範囲に基づいて前記カラー画像から文字行を取得することを特徴とする。
また、請求項13に記載の発明は、画像処理プログラムであって、請求項12に記載の画像処理方法を情報処理装置に実行させることを特徴とする。
また、請求項14に記載の発明は、記録媒体であって、請求項13に記載の画像処理プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする。
本発明によれば、有彩色画像における文字行の抽出処理を好適に実行することが可能となる。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
本実施形態においては、入力された画像に含まれる文字行領域を抽出する画像処理装置として、スキャナ、プリンタ及び複写機としての機能を有する複合機としての画像処理装置を例として説明する。本実施形態に係る画像処理装置は、スキャン動作によって取得した画像情報を取得する。そして、取得した画像情報を解析し、文字行領域を抽出する。本実施形態においては、画像処理装置による画像情報の解析及び文字行領域の抽出処理が要旨となる。
図1は、本実施形態に係る画像処理装置1のハードウェア構成を示すブロック図である。図1に示すように、本実施形態に係る画像処理装置1は、一般的なサーバやPC(Personal Computer)等の情報処理端末と同様の構成を含む。即ち、本実施形態に係る画像処理装置1は、CPU(Central Processing Unit)10、RAM(Random Access Memory)20、エンジン30、HDD(Hard Disk Drive)40、ROM(Read Only Memory)50、NVRAM(Non―Volatile Random Access Memory)60及びI/F70がバスBを介して接続されている。また、I/F70にはLCD(Liquid Crystal Display)80及び操作部90が接続されている。
CPU10は演算手段であり、画像処理装置1全体の動作を制御する。RAM20は、情報の高速な読み書きが可能な揮発性の記憶媒体であり、CPU10が情報を処理する際の作業領域として用いられる。エンジン30は、スキャナやプリンタ等の画像処理機能を実行する画像処理エンジンである。HDD40は、磁気記録媒体を用いた大容量記憶装置である。ROM50は、読み出し専用の不揮発性記憶媒体であり、ファームウェア等のプログラムが格納されている。
NVRAM60は、情報の読み書きが可能な不揮発性の記憶媒体であり、OS(Operating System)や各種の制御プログラム、アプリケーション・プログラム及びアプリケーション・プログラムの動作パラメータの情報等が格納される。I/F70は、バスBと各種のハードウェアやネットワーク等を接続し制御する。LCD80は、ユーザが画像処理装置1の状態を確認するための視覚的ユーザインタフェースである。操作部90は、キーボードやマウス等、ユーザが画像処理装置1に情報を入力するためのユーザインタフェースである。
このようなハードウェア構成において、ROM50やNVRAM60若しくはHDD40や図示しない光学ディスク等の記憶媒体に格納されたプログラムがRAM20に読み出され、RAM20に読み出されたプログラムに従ってCPU10が動作することにより、ソフトウェア制御部が構成される。このようにして構成されたソフトウェア制御部と、ハードウェアとの組み合わせによって、本実施形態に係る画像処理装置1の機能を実現する機能ブロックが構成される。
図2は、本実施形態に係る画像処理装置1の機能構成を示すブロック図である。図2に示すように、本実施例に係る画像処理装置1は、コントローラ100、ADF(Auto Document Feeder:原稿自動搬送装置)101、スキャナユニット102、排紙トレイ103、ネットワークI/F104、ディスプレイパネル105及び行情報記憶部106を有する。
また、コントローラ100は、主制御部111、エンジン制御部112、入出力制御部113、画像処理部114及び行抽出制御部120を有する。尚、図2においては、電気的接続を実線の矢印で示しており、用紙の流れを破線の矢印で示している。コントローラ100は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより実現される。
ネットワークI/F104は、画像処理装置1がクライアント端末等の他の機器と通信する際のインタフェースである。ネットワークI/F104は、図1に示すI/F70によって実現される。クライアント端末が送信した印刷ジョブは、ネットワークI/F104を介してコントローラ100に入力され、コントローラ100の制御に従って印刷ジョブに基づいた画像形成処理が実行される。
ディスプレイパネル105は、画像処理装置1の状態を視覚的に表示する出力インタフェースであると共に、タッチパネルとしてユーザが画像処理装置1を直接操作する際の入力インタフェースでもある。ディスプレイパネル105は、図1に示すLCD80及び操作部90によって実現される。行情報記憶部106は、行抽出制御部120が行抽出処理を実行する際に処理する情報を一時的に記憶する記憶部である。行情報記憶部106は、図1に示すHDD40やNVRAM60等の不揮発性の記憶媒体によって実現される。
主制御部111は、コントローラ100に含まれる各部を制御する役割を担い、コントローラ100の各部に命令を与える。エンジン制御部112は、スキャナユニット102を制御若しくは駆動する駆動手段としての役割を担う。入出力制御部113は、ネットワークI/F104を介して入力される情報を主制御部111に入力する。また、入出力制御部113は、主制御部111の命令に従い、ネットワークI/F104を介してネットワークに接続された他の装置に情報を送信する。
画像処理部114は、スキャナユニット102から入力される撮像データを処理し、画像データを生成する。この画像データとは、本実施形態において行情報を抽出する対象の画像の情報(以降、対象画像情報とする)である。画像処理部114によって生成された対象画像情報は、主制御部111によってHDD40に格納される。
行抽出制御部120は、主制御部111の制御に従い、画像処理部114によって生成された対象画像情報から文字列によって構成される行を抽出する処理を実行する。行抽出制御部120は、行抽出処理を実行する際、行情報記憶部106に一時的に情報を記憶しながら処理を実行する。
画像処理装置1が一般的なスキャナとして動作する場合、まず入出力制御部113がスキャン実行指示を受信する。スキャン実行指示は、ユーザによるディスプレイパネル105の操作若しくはネットワークI/F104を介して外部のホスト装置からのコマンドによって入力される。このようなスキャン実行指示の入力により、入出力制御部113が主制御部111にスキャン実行信号を送信する。主制御部111は、入出力制御部113から受信したスキャン実行信号に基づき、エンジン制御部112を制御する。
エンジン制御部112は、ADF101を駆動し、ADF101にセットされた撮像対象原稿をスキャナユニット102に搬送する。また、エンジン制御部112は、スキャナユニット102を駆動し、ADF101から搬送される原稿を撮像する。また、ADF101に原稿がセットされておらず、スキャナユニット102に直接原稿がセットされた場合、スキャナユニット102は、エンジン制御部112の制御に従い、セットされた原稿を撮像する。即ち、スキャナユニット102が撮像部として動作する。
撮像動作においては、スキャナユニット102に含まれるCCD等の撮像素子が原稿を光学的に走査し、光学情報に基づいて生成された撮像情報が生成される。スキャナユニット102は、少なくとも2色以上の色成分によって構成される撮像情報を生成する。本実施形態に係るスキャナユニット102は、RGB(Red−Green−Blue)の3色の色成分によって構成される撮像情報を生成する。
エンジン制御部112は、スキャナユニット102が生成した撮像情報を画像処理部114に転送する。画像処理部114は、主制御部111の制御に従い、エンジン制御部112から受信した撮像情報に基づいて画像情報を生成する。上述したように、本実施形態に係る撮像情報は、RGBの3色の色成分によって構成されている。従って、画像処理部114は、3色の色成分から成る画像情報を生成する。
画像処理部114が生成した画像情報は、主制御部111によってHDD40に一時的に保持される。HDD40に保持された画像情報は、ユーザの指示に応じてそのままHDD40に格納され若しくは入出力制御部113及びネットワークI/F104を介して外部の情報端末に送信される。
このような画像処理装置1において、上述したように、本実施形態の要旨は、行抽出制御部120による行情報の抽出処理にある。本実施形態に係る行抽出制御部120について、図3を参照して更に詳細に説明する。
図3は、本実施形態に係る行抽出制御部120の詳細及び行抽出制御部120と主制御部111、行情報記憶部106との接続関係を示すブロック図である。図3に示すように、本実施形態に係る行抽出制御部120は、二値画像処理部120a及び多色画像処理部120bを有する。二値画像処理部120aは、従来通りの行抽出処理を実行する。多色画像処理部120bは、本実施形態の要旨の一つであり、HLS(Hue:色相、Lightness:明度、Saturation:彩度)信号を用いた行抽出処理を実行する。
二値画像処理部120aは、変換画像生成部121、白黒連結成分生成部122及び行候補抽出部123を有する。多色画像処理部120bは、色情報取得部124、色彩連結成分生成部125、グループ化処理部126及び行候補判定部127を有する。本実施形態に係る行抽出制御部120は、図1に示すRAM20にロードされたプログラムに従ってCPU10が動作することにより構成される。主制御部111は、画像処理部114によって生成された対象画像情報を変換画像生成部121及び色情報取得部124に入力する。これにより、二値画像処理部120a及び多色画像処理部120bが、夫々の処理を実行する。変換画像生成部121及び色情報取得部124が画像入力部として機能する。
上述したように、本実施形態に係る画像処理部114が生成する画像情報は3色の色成分によって構成されている。従って、主制御部111が変換画像生成部121及び色情報取得部124に入力する対象画像情報は、3色の色成分によって構成されているカラー画像の情報、即ち有彩色画像情報である。ここで、カラー画像とは、輝度、色相及び彩度の情報を含む有彩色画像である。即ち、モノクロ画像のような二値画像若しくはグレースケール画像のような明度情報のみを有する無彩色画像は除外される。
変換画像生成部121は、主制御部111から取得したカラーの対象画像情報の形式を、二値画像処理部120aが処理する形式に変換する。本実施形態に係る二値画像処理部120aが処理する画像情報の形式は、白黒の二値画像である。即ち、変換画像生成部121が、無彩色画像情報生成部として機能する。また、本実施形態に係る二値画像処理部120aは、解像度の変更により縮小された対象画像情報を処理する。
即ち、変換画像生成部121は、入力された対象画像情報を二値化し、白黒の二値画像の情報(以降、二値画像情報とする)、即ち、無彩色画像情報を生成する。変換画像生成部121による二値画像への変換処理は、既存の処理方法を適用することが可能であるため、詳細な説明を省略する。また、変換画像生成部121は、二値化して生成した二値画像情報を縮小し、二値縮小画像情報を生成する。変換画像生成部121は、二値画像情報の解像度を低減することにより、上記縮小処理を実行する。
上記縮小処理において、変換画像生成部121は、8×8画素、16×16画素等、縦横複数行列の画素を1画素に集約する。また、変換画像生成部121は、上記集約処理において、論理和縮小を行なう。即ち、集約する縦横複数行列の画素に1つでも黒画素があれば、黒画素として集約する。変換画像生成部121による縮小処理の例について、図4(a)、図4(b)に示す。
図4(a)は、二値画像情報によって表示される画像の一部として、“アイ”という文字の画像を示す図である。変換画像生成部121は、図4(a)に示される破線で区切られている範囲を一の画素とするように論理和縮小を行なう。図4(b)は、変換画像生成部121が論理和縮小を実行した後の二値縮小画像の一部を示す図である。図4(b)に示すように、論理和縮小の効果によって、“ア”と“イ”とが連続したドットパターンを構成している。これにより、後述する白黒連結成分生成部122の処理が好適に実行される。
尚、上記説明においては、変換画像生成部121が、二値化、縮小の順に処理を実行する例を説明している。これに限らず、変換画像生成部121は、縮小、二値化の順に処理を実行することも可能である。
白黒連結成分生成部122は、変換画像生成部121が生成した二値画像情報に基づき、黒画素連結成分情報を生成する。この黒画素連結成分情報とは、白黒の画素によって構成される二値画像において、黒画素が連続する部分を示す情報である。図5に、黒画素連結成分情報に含まれる情報の例を示す。図5に示すように、黒画素連結成分情報は、夫々の黒画素連結成分を識別する連結成分IDと、夫々の黒画素連結成分に含まれる黒画素を特定する情報とが関連付けられた情報である。
図5に示すように本実施形態においては、夫々の画素をX方向及びY方向の座標で示す。尚、図5に示す画素の座標は、変換画像生成部121によって縮小された画像における座標である。例えば、図5に示す連結成分ID“001”の連結成分であれば、“(X11、Y11)”、“(X12、Y12)” 、“(X13、Y13)”で示される画素を含む。
図4(a)、(b)において説明したように、変換画像生成部121による論理和縮小処理により、同一の文字行に属する隣接する文字は、連続するドットパターンを構成する。従って、白黒連結成分生成部122は、夫々の文字行を1つの連結成分として認識する。結果的に、1つの黒画素連結成分情報は、1つの文字行に含まれる文字を構成する画素を特定する情報を、包含画素の情報として含む。
行候補抽出部123は、白黒連結成分生成部122によって生成された黒画素連結成分情報に基づき、行候補情報を生成する。行候補情報とは、対象画像情報が表示する画像において夫々の文字行が表示されている範囲を示す情報である。この行候補情報は、無彩色画像に基づいて抽出された文字行の範囲、即ち、無彩色文字行範囲である。また、白黒連結成分生成部122及び行候補抽出部123が連動して、無彩色文字行抽出部として機能する。図6に、行候補情報に含まれる情報の例を示す。図6に示すように、行候補情報は、夫々の文字行を識別する文字行IDと、夫々の文字行が表示されている範囲を示す座標の情報とが関連付けられた情報である。
行候補抽出部123は、黒画素連結成分情報を参照し、夫々の黒画素連結成分を構成する黒画素の外接矩形を上記文字行の範囲として認識する。行候補抽出部123は、上記認識した外接矩形の対向する頂点の座標を、図6に示す文字行範囲の座標として抽出する。上述したように、1つの連結成分は、1つの文字行に含まれる文字を構成する画素を含む。従って、夫々の黒画素連結成分の外接矩形を抽出することにより、夫々の文字行の範囲を抽出することができる。行候補抽出部123は、生成した行候補情報を行情報記憶部106に記憶させる。
色情報取得部124は、主制御部111から取得したカラーの対象画像情報の画素を解析し、夫々の画素を構成する情報としてHLS形式の情報を生成する。上述したように、対象画像情報はRGB形式の情報によって生成されている。色情報取得部123は、RGB形式をHLS形式に変換することによって、HLS形式の情報を取得する。HLS形式の情報は、RGB形式の情報に基づき、以下の式(1)〜(5)によって求められる。ここで、C1は、赤色差情報、C2は、青色差情報である。
Figure 2010044517
色情報取得部124による処理により、HLS形式の対象画像情報が生成される。色彩連結成分生成部125は、色情報取得部124が生成したHLS形式の対象画像情報に基づき、色彩連結成分情報を生成する。この色彩連結成分情報とは、カラーの対象画像情報において、色味が近い画素が連続する部分を示す情報である。即ち、色彩連結成分情報は、連続画素として用いられる。また、色彩連結成分生成部125が、連結成分構成手段として機能する。色彩連結成分情報は、図5において説明した黒画素連結成分情報と同様の情報を有する。尚、色彩連結成分情報を構成する包含画素の情報は、対象画像情報における座標の情報である。
図7を参照して、色彩連結成分生成部125による色彩連結成分情報の生成動作について説明する。図7は、色彩連結成分生成部125による色彩情報の解析及び色彩連結成分情報の生成動作を示すフローチャートである。図7に示すように、色彩連結成分生成部125は、まず、対象画像情報を構成する画素から解析対象とする画素(以降、対象画素とする)を1つ選択する(S701)。次に、色彩連結成分生成部125は、対象画素に隣接する画素(以降、隣接画素とする)を1つ特定する(S702)。図8に対象画素と隣接画素との関係を示す。
次に、色彩連結成分生成部125は、対象画素と隣接画素との輝度(L)の差(La)を求める。求めた輝度の差(La)が所定の閾値(Lh)よりも低い場合(S703/YES)、色彩連結成分生成部125は、隣接画素を対象画素に連結する連結画素として認識する(S706)。他方、求めた輝度の差(La)が所定の閾値(Lh)以上である場合(S703/NO)、色彩連結成分生成部125は、色相(H)の解析処理(S704)に進む。
色相(H)の解析処理において、色彩連結成分生成部125は、対象画素と隣接画素との色相(H)の差(Ha)を求める。求めた色相の差(Ha)が所定の閾値(Hh)よりも低い場合(S704/YES)、色彩連結成分生成部125は、彩度(S)の解析処理(S705)に進む。求めた色相の差(Ha)が所定の閾値(Hh)以上である場合(S704/NO)、色彩連結成分生成部125は、隣接画素は対象画素に連結しない非連結画素として認識する(S707)。
彩度(S)の解析処理において、色彩連結成分生成部125は、対象画素と隣接画素との彩度(S)の差(Sa)を求める。求めた彩度の差(Sa)が所定の閾値(Sh)よりも低い場合(S705/YES)、色彩連結成分生成部125は、隣接画素を対象画素に連結する連結画素として認識する(S706)。求めた彩度の差(Sa)が所定の閾値(Sh)以上である場合(S705/NO)、色彩連結成分生成部125は、隣接画素は対象画素に連結しない非連結画素として認識する(S707)。
色彩連結成分生成部125は、S706若しくはS707の処理を終えると、対象画素に隣接する全ての画素について上記解析処理が完了するまで、S702からの処理を繰り返す(S708/NO)。対象画素に隣接する全ての画素について上記解析処理が完了すると、(S708/YES)、色彩連結成分生成部125は、対象画像情報を構成する全ての画素を対象画素として選択したか判断する(S709)。
対象画素を構成する全ての画素について上記解析処理が完了していなければ(S709/NO)、色彩連結成分生成部125は、S701からの処理を繰り返す。対象画素を構成する全ての画素について上記解析処理が完了していれば(S709/YES)、色彩連結成分生成部125は、処理を終了する。このような処理により、色彩連結成分生成部125による色彩連結成分情報の生成処理が完了する。
色彩連結成分生成部125による色彩情報の解析態様について、図9を参照して示す。図9は、対象画像情報によって表示される画像の一部として、背景90の上に“あい”という文字の画像を示す図である。図9においては、“あ”の文字を文字91とし、“い”の文字を文字92とする。また、“い”の文字92は、文字片92a、文字片92bから成るものとする。図9に示すように、文字91及び文字92の色は、比較的濃度の高い色である。他方、背景90の色は、比較的濃度の低い色である。
図9に示す例の場合、色彩連結成分生成部125は、図7の処理により、文字91、文字片92a及び文字片92bを構成する画素と背景を構成する画素とは非連結画素であると認識する。他方、文字91を構成する画素、文字片92aを構成する画素及び文字片92bを構成する画素は、夫々連結成分であると認識する。即ち、図9の例において、色彩連結成分生成部125は、文字91を構成する画素の群、文字片92aを構成する画素の群及び文字片92bを構成する画素の群の、3つの連結成分を抽出し、色彩連結成分情報を生成する。即ち、色彩連結成分生成部125は、1つの文字もしくは文字を構成する文字片を1つの連結成分として抽出する。このような処理の結果、図10に示すように、色彩連結成分情報が生成される。本実施形態においては、図7のS703、S704及びS705の処理により、コントラストの高い文字を色彩連結成分として抽出することが可能となる。
グループ化処理部126は、色彩連結成分生成部125によって生成された色彩連結成分情報に基づき、色彩連結成分同士をグループ化してグループ化情報を生成する。上述したように、色彩連結成分情報における1つの色彩連結成分は、1つの文字若しくは文字を構成する文字片である。グループ化処理部126は、同一の文字行に属すると判断される色彩連結成分同士をグループ化してグループ化情報を生成する。
即ち、グループ化情報とは、1つの文字行に属する文字若しくは文字片を構成する色彩連結成分の集合を特定する情報である。換言すると、グループ化情報は、近傍に配置されている複数の連続画素であって形態的一致点を有するものの集合である連続画素集合として用いられる。従って、グループ化処理部126は、連続画素集合構成手段として機能する。また、グループ化情報とは、色彩情報に基づいて生成された行候補情報と言える。図11に、グループ化情報に含まれる情報の例を示す。
図11に示すように、グループ化情報は、夫々のグループを識別するグループIDと、夫々のグループに含まれる色彩連結成分を特定する情報とが関連付けられた情報である。グループ化情報は、色彩連結成分を特定する情報として、図10に示す色彩連結成分情報における連結成分IDを用いている。
図12を参照して、グループ化処理部126によるグループ化情報の生成動作について説明する。図12は、グループ化処理部126による連結成分の解析及びグループ化情報の生成動作を示すフローチャートである。図12に示すように、グループ化処理部126は、まず、色彩連結成分情報に含まれる色彩連結成分から解析対象とする連結成分(以降、対象連結成分とする)を1つ選択する(S1201)。次に、グループ化処理部126は、対象連結成分の近傍に配置されている連結成分(以降、近傍連結成分とする)を1つ特定する(S1202)。この近傍連結成分とは、例えば、図9に示す文字91と文字片92a、文字片92aと文字片92bのように、隣接して配置されている連結成分である。
次に、グループ化処理部126は、対象連結成分と近傍連結成分との一致度を算出する。ここで、算出される一致度とは、双方の連結成分の幅、高さ、面積の一致度である。算出した一致度が所定の閾値以上であれば(S1203/YES)、グループ化処理部126は、対象連結成分と近傍連結成分とをグループ化する(S1204)。S1204において、対象連結成分と近傍連結成分とがグループ化されると、グループ化処理部126は、対象連結成分の近傍に配置されている連結成分に加えて、グループ化された近傍連結成分の近傍に配置されている連結成分もS1202における選択対象とする。
他方、S1203の判断において、一致度が所定の閾値未満である場合(S1203/NO)、そのまま次の処理に進む。S1203にて閾値未満と判断された場合、若しくはS1204のグループ化処理が完了した後、グループ化処理部126は、選択対象である連結成分の全てについてS1203の処理が完了するまで、S1202からの処理を繰り返す(S1205/NO)。選択対象である連結成分の全てについてS1203の処理が完了した後(S1205/YES)、グループ化処理部126は、色彩連結成分情報に含まれる全ての連結成分について、上記解析処理が完了するまで、S1201からの処理を繰り返す(S1206/NO)。全ての連結成分について上記解析処理が完了すると(S1206/YES)、グループ化処理部126は、処理を終了する。
行候補判定部127は、図10に示す色彩連結成分情報及び図11に示すグループ化情報を参照し、行候補抽出部123によって行情報記憶部106に格納された行候補情報の取捨選択や修正等の処理を行なう。行候補判定部127は、色彩連結成分情報及びグループ化情報を取得すると、上記処理の実行に際して、夫々のグループ毎に、含まれる色彩連結成分を全て含む外接矩形(以降、グループ外接矩形とする)を抽出する。
例えば、図9の例の場合、行候補判定部127は、破線93のような外接矩形をグループ外接矩形として抽出する。上述したように、グループ化情報とは、1つの文字行に属する文字若しくは文字片を構成する色彩連結成分を特定する情報である。従って、グループ外接矩形とは、対象画像情報の色彩情報に基づいて認識された文字行の外接矩形である。換言すると、グループ外接矩形は、有彩色画像に基づいて抽出された文字行の範囲、即ち、有彩色文字行範囲である。従って、色彩連結成分生成部125、グループ化処理部126及び行候補判定部127が有彩色文字行抽出部として機能する。
行候補判定部127は、外接矩形を抽出すると、図13に示すような、グループ表示範囲情報を生成する。このグループ表示範囲情報は、図13に示すように、各グループIDと、各グループに含まれる全色彩連結成分の外接矩形の範囲を示す座標の情報とが関連付けられた情報である。図13に示すグループ表示範囲情報は、図6に示す行候補情報に対応する情報である。行候補判定部127は、行候補情報とグループ表示範囲情報とを比較することにより、行候補情報の取捨選択を行なう。即ち、行候補判定部127が、文字行決定部及び文字行取得部として機能する。
図14(a)〜(e)は、行候補判定部127による行候補情報とグループ表示範囲情報との比較処理の態様を示す図である。図14においては、行候補情報に含まれる外接矩形の範囲を二値化矩形14aで示す。また、グループ表示範囲情報に含まれる外接矩形の範囲を色彩矩形14bで示す。
行候補判定部127は、二値化矩形14aと色彩矩形14bとが重複する割合を算出する。例えば、二値化矩形14aの面積よりも色彩矩形14bの面積の方が大きい場合、二値化矩形14aと色彩矩形14bとの一致度は以下の式(6)によって求めることができる。
Figure 2010044517
他方、色彩矩形14bの面積よりも二値化矩形14aの面積の方が大きい場合、式(6)の分母が“二値化矩形14aの面積”になる。式(6)により求めた“一致度”が所定の閾値以上である場合、行候補判定部127は、二値化矩形14aが示す行候補を文字行として採用する。ここで、上記閾値としては、例えば0.8〜0.9程度の値を指定することができる。即ち、色彩矩形14bの面積と二値化矩形14aの面積との比較において、一方の面積が他方の面積80%〜90%程度である場合に、両矩形が一致すると判断する。図14(a)は、上記“一致度”が所定の閾値以上である場合を示す図である。
他方、上記“一致度”が所定の閾値未満である場合、行候補判定部127は、その態様に応じて様々な処理を行なう。図14(b)は、二値化矩形14aの面積と色彩矩形14bの面積との差が大きい場合を示す図である。この場合、図14(b)の場合、行候補判定部127は、色彩矩形14bによって示される文字行を正式な文字行として決定し、取得する。
また、行候補判定部127は、上述した面積の一致度に加えて、二値化矩形14aと色彩矩形14bとの位置の差を判断することもできる。位置の差を判断する場合、行候補判定部127は、図6に示す行候補情報に含まれる文字行範囲を確定するための座標と、図13に示すグループ表示範囲情報に含まれるグループ表示範囲を画定するための座標との距離に基づいて差を算出する。例えば、図6に示すID“001”の文字行と図13に示すID“001”のグループとが対応する文字列である場合、位置の差は、例えば以下の式(7)で求めることができる。
Figure 2010044517
式(7)を用いて求められた位置の差は、二値化矩形14a及び色彩矩形14bを画定するための2つの座標の差の平均値である。この他、上記位置の差は、二値化矩形14a及び色彩矩形14bの中心点の座標の差によっても求められる。この場合、位置の差は、以下の式(8)で求めることができる。
Figure 2010044517
行候補抽出部127は、位置の差を用いて判断する場合、上記求めた位置の差が所定の範囲内であるか否かを判断する。例えば、行候補抽出部127は、実際の長さにして1cm程度の長さを上記所定の範囲として用いることができる。また、行候補抽出部127は、二値化矩形14a及び色彩矩形14bの面積による判断及び位置の差による判断を併用しても良い。行候補抽出部127は、面積及び位置の双方を判断対象とすることにより、様々な判断が可能となる。例えば、図14(c)は、二値化矩形14aの中に複数の色彩矩形14bが含まれる場合を示す図である。この場合、行候補判定部127は、二値化矩形14aが示す行候補に替えて、色彩矩形14bによって示される夫々の文字行を最終的な文字行として採用する。
図14(d)は、二値化矩形14aの範囲と色彩矩形14bとの範囲の一部が重複しており、重複していない範囲の方が大きい場合を示す図である。この場合、行候補判定部127は、重複する範囲のみを正式な文字行として採用する。若しくは、業候補判定部127は、重複する範囲が狭い場合、該当する二値化矩形14aを行候補から除外する。
図14(e)は、二値化矩形14aに色彩矩形14bと重複する範囲がない場合を示す図である。この場合、行候補判定部127は、該当する二値化矩形14aを行候補から除外する。
このような処理により、行候補判定部127は、行情報記憶部106に記憶された行候補情報を取捨選択若しくは修正し、正式な文字行情報を生成する。行候補判定部127は、生成した文字行情報を主制御部111に送信する。これにより、行抽出制御部120による行抽出処理が完了する。
以上、説明したように、本実施形態に係る画像処理装置1においては、業抽出制御部120が、二値化及び縮小処理により生成された行候補情報を、色彩情報に基づいて生成された行候補情報に基づいて取捨選択若しくは修正する。これにより、タイトル文字やロゴ等、色彩の付された文字であって、コントラストの低い文字は、文字行から除外される。従って、誤検出の少ない、好適な文字行抽出処理を実行することが可能と成る。
尚、上記の説明においては、二値画像処理部120aが、二値化及び論理和縮小した画像情報に基づいて行候補情報を生成する例を説明した。しかしながら、上述したように、二値画像処理部120aが実行するのは従来の行抽出処理である。即ち、二値画像やグレースケール等、色彩情報を含まない一次元の色情報による画像情報に基づいた行抽出処理であれば良い。
本発明の実施形態に係る画像処理装置のハードウェア構成を示すブロック図である。 本発明の実施形態に係る画像処理装置の機能構成を示すブロック図である。 本発明の実施形態に係る行抽出制御部の機能構成を示すブロック図である。 本発明の実施形態に係る変換画像生成部による処理態様を示す図である。 本発明の実施形態に係る黒画素連結成分情報に含まれる情報の例を示す図である。 本発明の実施形態に係る行候補情報に含まれる情報の例を示す図である。 本発明の実施形態に係る色彩連結成分生成部の動作を示すフローチャートである。 本発明の実施形態に係る対象画素と隣接画素との関係を示す図である。 本発明の実施形態に係る色彩連結成分生成部による処理態様を示す図である。 本発明の実施形態に係る色彩連結成分情報に含まれる情報の例を示す図である。 本発明の実施形態に係るグループ化情報に含まれる情報の例を示す図である。 本発明の実施形態に係るグループ化処理部の動作を示すフローチャートである。 本発明の実施形態に係るグループ表示範囲情報に含まれる情報の例を示す図である。 本発明の実施形態に係る行候補判定部による処理態様を示す図である。
符号の説明
1 画像処理装置
10 CPU
20 RAM
30 エンジン
40 ROM
50 NVRAM
60 I/F
70 LCD
80 操作部
100 コントローラ
101 ADF
102 スキャナユニット
103 排紙トレイ
104 ネットワークI/F
105 ディスプレイパネル
106 行情報記憶部
111 主制御部
112 エンジン制御部
113 入出力制御部
114 画像処理装置
120 情報挿入制御部
121 入力情報取得部
122 文字情報認識部
123 情報挿入処理部
124 出力情報生成部

Claims (14)

  1. カラー画像から文字行を取得する画像処理装置であって、
    前記カラー画像を入力する画像入力部と、
    入力された前記カラー画像に含まれる文字行の範囲を示す文字行範囲を決定する文字行決定部と、
    決定された前記文字行範囲に基づいて前記カラー画像から文字行を取得する文字行取得部とを備え、
    前記文字行決定部は、前記カラー画像において認識されたカラー文字行データと、前記カラー画像に基づく二値画像において認識されたモノクロ文字行データとに応じて前記文字行範囲を決定することを特徴とする、画像処理装置。
  2. 前記文字行決定部は、
    前記カラー画像において連続する複数の画素であって色彩の類似している複数の画素の集合である連続画素を構成する連結成分構成手段と、
    前記構成された連続画素において近傍に配置されている複数の連続画素であって形態的一致点を有する複数の連続画素の集合である連続画素集合を構成する連続画素集合構成手段とを有し、
    前記カラー画像において前記構成した連続画素集合が表示されている範囲に基づいて前記カラー文字行データを生成することを特徴とする、請求項1に記載の画像処理装置。
  3. 前記連結成分構成手段は、前記カラー画像において連続する2つの画素の輝度の差に基づいて前記2つの画素の色彩の類似を判断することを特徴とする、請求項2に記載の画像処理装置。
  4. 前記連結成分構成手段は、前記カラー画像において連続する2つの画素の色相及び彩度の差に基づいて前記2つの画素の色彩の類似を判断することを特徴とする、請求項2または3に記載の画像処理装置。
  5. 前記連続画素集合構成手段は、前記構成された連続画素の外接矩形の形態に基づいて前記形態的一致点を判断することを特徴とする、請求項2乃至4いずれか1項に記載の画像処理装置。
  6. 前記連続画素集合構成手段は、前記近傍に配置されている2つの連続画素の幅、高さ及び面積のうち少なくとも一つの差に基づいて前記形態的一致点を判断することを特徴とする、請求項2乃至5いずれか1項に記載の画像処理装置。
  7. 前記文字行決定部は、
    前記二値画像において文字行と判断される範囲の外接矩形に基づいて前記モノクロ文字行データを生成し、
    前記カラー画像において文字行と判断される範囲の外接矩形に基づいて前記カラー文字行データを生成し、
    前記モノクロ文字行データ及び前記カラー文字行データの外接矩形の幅、高さ及び面積のうちすくなくとも1つの比較結果に基づいて前記文字行範囲を決定することを特徴とする、請求項1乃至6いずれか1項に記載の画像処理装置。
  8. 前記文字行決定部は、前記モノクロ文字行データに含まれる範囲であって前記カラー文字行データの範囲外の範囲を前記決定する文字行範囲から除外することを特徴とする、請求項7に記載の画像処理装置。
  9. 前記文字行決定部は、前記モノクロ文字行データの範囲の面積と前記カラー文字行データの範囲の面積との比が所定の範囲内である場合、前記モノクロ文字行データの範囲を前記文字行範囲として決定することを特徴とする、請求項7または8に記載の画像処理装置。
  10. 前記文字行決定部は、前記モノクロ文字行データの範囲の位置と前記カラー文字行データの範囲の位置との差が所定の範囲内である場合、前記モノクロ文字行データの範囲を前記文字行範囲として決定することを特徴とする、請求項7乃至9いずれか1項に記載の画像処理装置。
  11. 前記文字行決定部は、前記モノクロ文字行データの範囲外の範囲であって前記カラー文字行の範囲に含まれる範囲を前記文字行範囲として決定する事を特徴とする、請求項7乃至10いずれか1項に記載の画像処理装置。
  12. カラー画像から文字行を取得する画像処理方法であって、
    前記カラー画像を入力し、
    入力された前記カラー画像において認識されたカラー文字行データと、前記カラー画像データに基づく二値画像において認識されたモノクロ文字行データとに応じて前記カラー画像に含まれる文字行の範囲を示す文字行範囲を決定し、
    決定された前記文字行範囲に基づいて前記カラー画像から文字行を取得することを特徴とする、画像処理方法。
  13. 請求項12に記載の画像処理方法を情報処理装置に実行させることを特徴とする画像処理プログラム。
  14. 請求項13に記載の画像処理プログラムを情報処理装置が読み取り可能な形式で記録したことを特徴とする記録媒体。
JP2008207277A 2008-08-11 2008-08-11 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体 Pending JP2010044517A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008207277A JP2010044517A (ja) 2008-08-11 2008-08-11 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008207277A JP2010044517A (ja) 2008-08-11 2008-08-11 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体

Publications (1)

Publication Number Publication Date
JP2010044517A true JP2010044517A (ja) 2010-02-25

Family

ID=42015866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008207277A Pending JP2010044517A (ja) 2008-08-11 2008-08-11 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP2010044517A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040236A (zh) * 2020-09-04 2020-12-04 维沃移动通信有限公司 图像处理方法、处理装置、以及图像显示方法、显示装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112040236A (zh) * 2020-09-04 2020-12-04 维沃移动通信有限公司 图像处理方法、处理装置、以及图像显示方法、显示装置
CN112040236B (zh) * 2020-09-04 2022-02-18 维沃移动通信有限公司 图像处理方法、处理装置、以及图像显示方法、显示装置

Similar Documents

Publication Publication Date Title
US11574489B2 (en) Image processing system, image processing method, and storage medium
US10477063B2 (en) Character detection and binarization
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP6743092B2 (ja) 画像処理装置、画像処理の制御方法、及びプログラム
JP2010218420A (ja) 文字認識装置、画像読取装置、およびプログラム
JP2008252862A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US8229214B2 (en) Image processing apparatus and image processing method
JP2006277398A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
US9277074B2 (en) Image processing apparatus, method, and medium determining whether image data of a page to be processed is blank and contains a foreground object and transmitting the foreground object obtained by removing a background object
US8274515B2 (en) Vector image generation method, image processing apparatus, and computer-readable storage medium for computer program
JP5335581B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
US20230062113A1 (en) Information processing apparatus, information processing method and non-transitory storage medium
JP2010044517A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
US8295602B2 (en) Image processing apparatus and image processing method
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6974791B2 (ja) 画像処理装置、および、コンピュータプログラム
JP2021141383A (ja) コンピュータプログラム、画像処理装置、および、画像を表示するための表示方法
JP5517028B2 (ja) 画像処理装置
JP6055952B1 (ja) 画像検査装置、画像検査方法、およびプログラム
JP4228905B2 (ja) 画像処理装置及びプログラム
JP4810995B2 (ja) 画像処理装置、方法及びプログラム
US11948342B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium for determining extraction target pixel
JP6905210B2 (ja) 画像処理装置、および、コンピュータプログラム
JP4973603B2 (ja) 画像処理装置および画像処理プログラム