JP2006092050A - 画像処理装置 - Google Patents

画像処理装置 Download PDF

Info

Publication number
JP2006092050A
JP2006092050A JP2004274300A JP2004274300A JP2006092050A JP 2006092050 A JP2006092050 A JP 2006092050A JP 2004274300 A JP2004274300 A JP 2004274300A JP 2004274300 A JP2004274300 A JP 2004274300A JP 2006092050 A JP2006092050 A JP 2006092050A
Authority
JP
Japan
Prior art keywords
character
colors
background
pixel
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004274300A
Other languages
English (en)
Other versions
JP4631371B2 (ja
Inventor
Masayuki Hisatake
真之 久武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004274300A priority Critical patent/JP4631371B2/ja
Publication of JP2006092050A publication Critical patent/JP2006092050A/ja
Application granted granted Critical
Publication of JP4631371B2 publication Critical patent/JP4631371B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Color Image Communication Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 多色表現された文字画像に対応した処理を行うことのできる画像処理装置を提供する。
【解決手段】 処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む文字領域を画定し、各文字領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定し、各文字領域の背景部分となる画素の色数を背景色数として判定し、判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供される画像処理装置である。
【選択図】 図1

Description

本発明は、画像データから文字部分と絵柄部分とを分離して所定処理を行う画像処理装置に関する。
ラスタ画像のデータ(以下、区別するべき場合を除いて単に「画像データ」と呼ぶ)には、文字(テキスト)部分や、自然画の部分(絵柄部分)など、互いに性状の異なる多くの画像要素が含まれ得る。こうした画像要素は、その性状の相違から、例えば圧縮処理において異なる方式での圧縮が適していたりするなど、画像要素ごとに異なる画像処理を行うことが好ましい場合が多い。
そこで従来から、いわゆるT/I分離と呼ばれる画像処理が研究・開発されている。従来、T/I分離の方法としては、例えば処理対象画像を二値化し、黒画素の連続する領域を画定し、当該画定した領域のサイズが予め定めたしきい値を下回る場合に当該領域に含まれる黒画素が文字を表すものと判定する方法等がある(特許文献1)。
また、こうして文字部分として判定された領域については、当該領域に含まれる画素値に基づいてそれらの画素の代表的な色を決定し、各文字を構成する画素の値を当該代表的な色の値に設定することで圧縮率をさらに高めているものがある(特許文献2)。
特開2003−8909号公報(段落番号0026を参照) 特開2002−165105号公報 特開2002−175532号公報
ところが、文字部分として判定される領域全体について、一つの色を決定する上記方法では、例えば文字画像にグラデーション処理が施され、文字が多色で表現されている場合には、当該表現が失われることになる。
一方で、文字が多色で表現されている場合に当該文字部分を分離しない場合は、圧縮率が低下するなど、T/I分離処理の効果が十分に発揮されない。
本発明は上記実情に鑑みて為されたもので、多色表現された文字画像に対応した処理を行うことのできる画像処理装置を提供することをその目的の一つとする。
上記従来例の問題点を解決するための本発明は、画像処理装置であって、処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する手段と、各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する文字色数判定手段と、各領域の背景部分となる画素の色数を背景色数として判定する背景色数判定手段と、を含み、前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴としている。
またここで、前記所定処理として、前記判定された文字色数が所定N色以下である場合は、前記画素塊を表すマスク画像と当該画素塊に含まれる色に基づいて定められた代表色情報とを出力し、前記判定された文字色数が前記所定N色を超えており、かつ前記背景色数が所定M色以下である場合は、前記画素塊を表すマスク画像を反転して、背景部分を表すマスク画像を生成し、当該背景部分を表すマスク画像と、背景に含まれる色に基づいて定められた代表色情報とを出力することとしてもよい。
さらに、前記判定された文字色数が前記所定N色を超えており、かつ前記背景色数が所定M色以下である場合は、前記画素塊を表すマスク画像の有意画素を膨張する処理を行い、当該膨張処理後の当該マスク画像を反転して背景部分を表すマスク画像を生成し、当該背景部分を表すマスク画像と、背景に含まれる色に基づいて定められた代表色情報とを出力することとしてもよい。
また、本発明の一態様に係る画像処理方法は、処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する工程と、各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する工程と、各領域の背景部分となる画素の色数を背景色数として判定する工程と、を含み、前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴としている。
さらに本発明の別の態様に係るプログラムは、コンピュータに、処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する手順と、各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する手順と、各領域の背景部分となる画素の色数を背景色数として判定する手順と、を実行させ、前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴としている。
本発明の実施の形態に係る画像処理装置は、図1に示すように、制御部11と記憶部12と画像入力部13と画像出力部14とを含んで構成されている。制御部11は、記憶部12に格納されているプログラムに従って動作しており、後に説明する各画像処理を遂行する。この画像処理の内容については、後に詳しく述べる。
記憶部12は、制御部11によって実行されるプログラムを保持している。またこの記憶部12は、制御部11の処理の過程で生成される各種データ等を格納するワークメモリとしても動作する。具体的にこの記憶部12は、コンピュータ可読な記録媒体と当該記録媒体に対してデータを書き込み、又は当該記録媒体からデータを読み出す装置(例えばハードディスク装置やメモリ装置)として実装できる。
画像入力部13は、例えばスキャナであり、原稿を光学的に読み取って得られた画像データを制御部11に出力する。ここではこの画像入力部13が出力する画像データにおいて、各画素の値がRGB(赤、緑、青)の色空間で表現されているとする。画像出力部14は、制御部11から入力される指示に従って画像データを出力するもので、例えば画像形成部(プリンタ等)に出力し、又はネットワークを介して外部の装置に送信する等の処理を行うものである。
次に制御部11の処理の内容について説明する。本実施の形態の制御部11は、図2に機能的に示すように、画像入力部13から入力される画像データを処理対象として、この処理対象となった画像データに対して、所定前処理を行う前処理部21と、文字画像部分を抽出する文字抽出部22と、色数判定部23と、代表色決定部24と、マスク画像生成部25と、後処理部26と、フォーマット部27とを含んで構成されている。
以下、これら各部について具体的に説明する。前処理部21では、画像入力部13から入力される画像データ(処理対象画像データ)の各画素の値をRGBからYCbCr(輝度と色差とからなる値)に変換する。具体的には、次の(1)式を用いて変換を行うことができる。なお、ここではRGBの各成分の値は0x00(「0x」は16進数であることを示す)から0xFFまでの値であるとしている。また、この前処理部21では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。
Figure 2006092050
文字抽出部22は、前処理部21が出力する画像データから文字と判断される画素塊を含む領域を特定する。具体的に本実施の形態では、この文字抽出部22は、レイアウト解析の処理により文字部分を特定する。
ここでレイアウト解析処理の処理内容について説明する。文字抽出部22は図3に機能的に示すように、二値化処理部41と、連結画素抽出部42と、基本矩形画定部43と、第1セパレータ検出部44と、行矩形画定部45と、第2セパレータ検出部46と、文字領域画定部47と、ノイズ判定部48と、文字部分特定部49とを含んで構成される。
二値化処理部41は、前処理部21が出力するYCbCr色空間で表現された画像データ(元の画像データ)のうち、絵柄候補領域画定情報で画定される領域内の部分的な画像データ(絵柄候補部分データ)を処理対象として、この処理対象となった絵柄候補部分データを二値化して、二値化絵柄候補部分データを生成する。
連結画素抽出部42は、二値化絵柄候補部分データに対してラベリング処理を行い、所定の条件(例えば黒画素である等の条件)を満足する画素値の画素が連続する部分からなる複数の画素群(連結画素群)を特定する。
基本矩形画定部43は、連結画素抽出部42が特定した連結画素群に関する矩形(例えば連結画素群に外接する矩形)を基本矩形として画定し、各連結画素群についての基本矩形の座標情報(当該矩形を画定するための座標情報)を生成する。そして、各基本矩形ごとに固有の識別子を発行し、当該識別子と基本矩形の座標情報とを関連づけて基本矩形データベースとして記憶部12に格納する。
第1セパレータ検出部44は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を左から右へと1ライン走査し、ついで一つ下のラインについて同様に走査する順(すなわちラスタスキャン順)で、各画素を走査する。そして上記ラベリング処理における所定の条件を満足しない画素値の画素(例えば白画素)が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を(水平方向の)第1セパレータとして検出する。第1セパレータ検出部44は、ここで検出された第1セパレータを特定する情報(連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
また、この第1セパレータ検出部44は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素をラスタスキャン順に走査していき、上記ラベリング処理における所定の条件を満足しない画素値の画素(例えば白画素)が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を(垂直方向の)第1セパレータとして検出する。そして当該第1セパレータを特定する情報(連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
これらの処理において、水平方向閾値や垂直方向閾値は、ユーザが任意に定め得る。水平方向閾値は多段組のレイアウトにおいて各段を分かつための閾値であり、垂直方向閾値は2行以上の文字列を含む文書から、各行を分かつための閾値である。またユーザの設定によるだけでなく、水平方向閾値は基本矩形の幅の統計値(平均)などに基づく所定関数値として、また垂直方向閾値は基本矩形の高さの統計値(平均)などに基づく所定関数値としてそれぞれ定めてもよい。
具体的に第1セパレータは、図4(a)に示すような状態で検出されることになる。なお、図4(a)では各第1セパレータが相互に隣接して検出された結果として、一つの第1セパレータ領域(斜線部分)のように示されている。
行矩形画定部45は、記憶部12に格納されている基本矩形の一つを注目基本矩形として選択する。そして、記憶部12に格納されている基本矩形であって、いままでに注目基本矩形として選択されていない基本矩形を処理対象基本矩形として順次選択しながら、次の処理を行う。
まず行矩形画定部45は、注目基本矩形の中心座標(座標情報が対角位置にある各頂点の座標を表している場合、その中点座標)から、処理対象基本矩形の中心座標へのベクトルを算出する。さらに行矩形画定部45は、ベクトルの大きさ(各成分の二乗和の平方根)から注目基本矩形と処理対象基本矩形との距離を算出する。そして、この算出した距離が予め定めた距離閾値以下となっている場合は、上記算出したベクトルが、検出された第1セパレータのいずれかと交差するか否かを調べる。この処理は2つの線分が交差するか否かを調べる処理として広く知られたものを用いることができる。ここで、上記算出したベクトルが、検出された第1セパレータのいずれとも交差しない場合、注目基本矩形の識別子に、当該処理対象基本矩形の識別子を関連づけて基本矩形関係データベースとして記憶部12に格納する。
行矩形画定部45は記憶部12に格納されている基本矩形について順次注目基本矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた基本矩形関係データベースを参照しながら連鎖的に互いに関連する一連の基本矩形群(複数あってもよい)を特定し、特定された基本矩形群に含まれる基本矩形に外接する矩形を行矩形として画定する(例えば図4(b))。
例えば基本矩形関係データベース内において、識別子が「1」の基本矩形と識別子が「2」の基本矩形とが関連づけられ、また識別子が「2」の基本矩形と識別子が「3」の基本矩形とが関連づけられている場合、行矩形画定部45は、これらの結果を統合して識別子「1」と「2」と「3」との各基本矩形を一連の基本矩形群として特定する。そして基本矩形群に含まれる基本矩形のうち、その座標情報のx(水平方向)の値の最大値と最小値とを抽出し、同じようにy(垂直方向)の値の最大値と最小値とを抽出する。そして、抽出されたxの最小値とyの最小値とを組とした第一座標と、xの最大値とyの最大値とを組とした第二座標とを、それぞれ左上座標,右下座標とする行矩形を画定する。つまり、行矩形は、この2つの座標値を含む座標情報によって画定される。
行矩形画定部45は、こうして画定した各行矩形についてそれぞれ固有の識別子を発行し、各識別子とその行矩形の座標情報と当該行矩形に含まれる基本矩形群を特定する情報(各基本矩形の識別子のリストなど)とを関連づけて行矩形データベースとして記憶部12に格納する。
第2セパレータ検出部46は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、ラスタスキャン順に、各画素を走査する。そして連結画素抽出部42でのラベリング処理における所定の条件を満足する画素値の画素(例えば黒画素)が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を(水平方向の)第2セパレータとして検出し、当該第2セパレータを特定する情報(連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
また、この第2セパレータ検出部46は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素をラスタスキャン順に走査していき、連結画素抽出部42でのラベリング処理における所定の条件を満足する画素値の画素(例えば黒画素)が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を(垂直方向の)第2セパレータとして検出し、当該第2セパレータを特定する情報(連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
これらの処理において、水平方向閾値や垂直方向閾値は、ユーザが任意に定め得る。水平方向閾値は多段組のレイアウトにおいて各段を分かつための閾値であり、垂直方向閾値は2行以上の文字列を含む文書から、各行を分かつための閾値である。またユーザの設定によるだけでなく、水平方向閾値は基本矩形の幅の統計値(平均)などに基づく所定関数値として、また垂直方向閾値は基本矩形の高さの統計値(平均)などに基づく所定関数値としてそれぞれ定めてもよい。
文字領域画定部47は、行矩形画定部45が画定した行矩形の一つを注目行矩形として選択する。そして文字領域画定部47は、記憶部12に格納されている行矩形であって、いままでに注目行矩形として選択されていない行矩形を処理対象行矩形として順次選択しながら、次の処理を行う。
すなわち、注目行矩形の各頂点の座標と処理対象行矩形の対応する頂点の座標とを結ぶ線分、及び注目行矩形と処理対象行矩形の各辺とによって画定される多角形領域を生成し、この多角形領域と第2セパレータ(の領域)とが交差(領域同士が少なくとも一部で重なり合う)するか否かを調べる。この処理は2つの領域が交差するか否かを調べる処理として広く知られたものを用いることができる。
ここで多角形領域と第2セパレータとが交差していない場合、注目行矩形の識別子と処理対象行矩形の識別子とを関連づけて行矩形関係データベースとして記憶部12に格納する。
文字領域画定部47は記憶部12に格納されている行矩形について順次注目行矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた行矩形関係データベースを参照しながら連鎖的に互いに関連する一連の行矩形群(複数あってもよい)を特定し、特定された行矩形群に含まれる行矩形に外接する矩形を文字領域として画定する。
例えば行矩形関係データベース内において、識別子が「1」の行矩形と識別子が「2」の行矩形とが関連づけられ、また識別子が「2」の行矩形と識別子が「3」の行矩形とが関連づけられている場合、行矩形画定部45は、これらの結果を統合して識別子「1」と「2」と「3」との各行矩形を一連の行矩形群として特定する。そして行矩形群に含まれる行矩形のうち、その座標情報のx(水平方向)の値の最大値と最小値とを抽出し、同じようにy(垂直方向)の値の最大値と最小値とを抽出する。そして、抽出されたxの最小値とyの最小値とを組とした第一座標と、xの最大値とyの最大値とを組とした第二座標とを、それぞれ左上座標,右下座標とする文字領域の矩形を画定する。つまり、文字領域は、この2つの座標値を含む座標情報によって画定される。
文字領域画定部47は、こうして画定した文字領域についてそれぞれ固有の識別子を発行し、各識別子とその文字領域の座標情報と当該文字領域に含まれる行矩形群を特定する情報(各行矩形の識別子のリストなど)とを関連づけて文字領域データベースとして記憶部12に格納する。
ノイズ判定部48は、文字領域画定部47によって画定された文字領域のそれぞれについて文字が含まれているか否かを確認する、ノイズ判定処理を行う。ここでノイズ判定処理は、行矩形の数、又は各行矩形の性状を表す情報に基づいて、各行矩形に文字が含まれているか否かを判断する第1ノイズ判定処理と、行矩形に関係する基本矩形に関する情報に基づいて、当該行矩形に文字が含まれているか否かを判断する第2ノイズ処理とを含む。
具体的にノイズ判定部48の処理は、図5に示すような処理として行われる。まずノイズ判定部48は記憶部12に格納された文字領域のうち、未だ注目文字領域として選択されていないものを注目文字領域として選択する(S11)。そして注目文字領域に含まれる行矩形の数を調べ、これが2以上か(すなわち、当該文字領域が複数行からなるか)否かを判断する(S12)。ここで、行矩形の数が2以上であれば(Yesならば)、注目文字領域に含まれる各行矩形の幅と高さ、並びにそれらの平均や標準偏差など、ばらつきを検定するための統計量を演算する(S13)。そして、これらの統計量に基づいて各行矩形の幅や高さのばらつきが所定のしきい値より大きいか否かを比較する(S14)。この比較は例えば標準偏差が、予め定めたしきい値を超えるか否かの比較とすることができる。そしてこの処理S14によって、ばらつきが大きいと判断される場合(Yesの場合)、注目文字領域には文字は含まれないと判断して、記憶部12の文字領域データベースから、注目文字領域を削除して(S15)、処理S18に移行する。これら処理S12からS15の処理が、第1ノイズ判定処理に相当する。すなわちここでは行矩形の性状を表す情報として各行矩形の幅や高さ、並びにそれらの統計量が用いられている。
一方、処理S14において、ばらつきが小さいと判断される場合(Noの場合)には、注目文字領域に含まれる各行矩形に対して行内判定処理(第2ノイズ判定処理)を行う(S16)。この処理S16の具体的内容については後述する。そしてこの処理S16においてノイズ(文字が含まれていない)と判定された行の数と注目文字領域に含まれる行矩形の数との比に基づいて、ノイズと判定された行の数が、注目文字領域に含まれる行矩形の数に比して所定比率以上となっているか否かを判断し(S17)、所定比率以上であるときに、注目文字領域には文字は含まれないと判断して、処理S15に移行する。
また、処理S17において、所定比率未満である場合は、未だ注目文字領域となっていない文字領域が記憶部12の文字領域データベースにあるか否かを調べ(S18)、未選択の文字領域があれば、処理S11に戻って処理を続ける。さらに処理S18において、未選択の文字領域がないならば(すべての文字領域について処理を行ったならば)、ノイズ判定の処理を終了する。
さらに処理S12において行矩形の数が1つであれば(Noならば)、処理S16に移行して処理を続ける。この場合、当該単一の行矩形について文字が含まれているか否かを判断し、文字が含まれていれば(この場合は処理S17の比率は「0」となる)、注目文字領域には文字が含まれると判断され、当該単一の行矩形内に文字が含まれていないならば(この場合は処理S17の比率は「1」となる)、注目文字領域には文字が含まれないと判断される。
ここで、処理S16における具体的処理(第2ノイズ判定処理)の内容について説明する。この処理ではノイズ判定部48は、図6に示すように、処理の対象となった各行矩形の一つを注目行矩形として選択し(S21)、記憶部12に格納されている行矩形データベースを参照して、当該注目行矩形に含まれる基本矩形の数をカウントする(S22)。そしてカウントの結果、基本矩形の数が「1」である場合と、「2」である場合と、「3」以上である場合とに分岐して(S23)、基本矩形の数が「1」である場合は、注目行矩形に含まれる基本矩形の識別子のリストを取得し、このリストに含まれる基本矩形の座標情報を記憶部12の基本矩形データベースから読出して、このリストに含まれる基本矩形の幅及び高さとその積(つまり面積)を演算する。そしてこの面積が予め定められた面積しきい値以下であるか否かを判断し(S25)、面積しきい値以下である場合は、注目行矩形には文字が含まれないと判断して、当該結果を記憶部12に格納する(S26)。そして未だ注目行矩形として選択されていない行矩形があるか否かを調べ(S27)、未選択の行矩形があれば、当該未選択の行矩形の一つを注目行矩形として選択するべく処理S21に戻って処理を続ける。一方、処理S27において未選択の行矩形がなければ、処理を終了して図5の処理に戻る。
さらに処理S22におけるカウント値が「2」である場合、各基本矩形の面積を演算し、また、これらの基本矩形間の距離を演算する。基本矩形間の距離は、例えば基本矩形の中心同士の距離として演算できる。そして、距離が予め定めた距離しきい値より大きいか、または2つの基本矩形の面積の比が予め定めた面積比しきい値より大きいかを判断し(S31)、距離が予め定めた距離しきい値より大きいか、または2つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理S26に移行して(X)処理を続ける。
さらに、処理S22におけるカウント値が「3」以上である場合には、カウント値(基本矩形の数)が所定最大数を超えているか否かを判断し(S32)、この所定最大数を超える場合は、注目行矩形には文字が含まれないと判断して処理S26に移行する(X)。これは、一行内に例えば100字を超える文字を含めることは通常あり得ないことなどに配慮したものであり、固定値として定めておいてもよいし、注目行矩形の幅に基づいて調整してもよい。また処理S32において基本矩形の数が所定最大数を超えていない場合は、さらに各基本矩形の面積を演算して、演算された面積の最大値が、所定最大面積値を超えているか否かを判断する(S34)。ここで所定最大面積値を超えていると判断される場合は、注目行矩形には文字が含まれないと判断して処理S26に移行する(X)。この最大面積値も、固定値として定めてもよいし、注目行矩形の幅や高さの少なくとも一方(例えばそれらのうち小さい方)に基づいて調整してもよい。
さらに処理S34において所定最大面積値を超えていないと判断される場合、さらに2つの基本矩形の組み合せ(任意に取り出された少なくとも一つの組み合せ)について、各組み合せに係る2つの基本矩形の面積比が予め定めた面積比しきい値より大きいかを判断し(S35)、2つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理S26に移行して処理を続ける(X)。
この処理S35において2つの基本矩形の面積の比が予め定めた面積比しきい値より大きくない場合は、注目行矩形内に文字が含まれると判断して、その判断結果を記憶部12に格納し、処理S27に移行する。
なお、処理S25において、面積が面積しきい値を超える場合、並びに、処理S31において、距離が予め定めた距離しきい値以下であり、かつ2つの基本矩形の面積の比が予め定めた面積比しきい値以下である場合には、処理S32(または処理S34)以下に移行して処理を続けることとする。
また、処理S35においては各組み合せについて処理を行っているが、処理負荷を軽減するためには、例えば各基本矩形の面積の平均値(平均面積)や、最小値(最小面積)・最大値(最大面積)を演算し、平均面積と最小面積、平均面積と最大面積との比、あるいは最小面積と最大面積との比と、上記面積比しきい値との比較を行ってもよい。
このように、ノイズ判定部48は、各行矩形について、そこに含まれる基本矩形の性状(面積、面積比、距離など)に基づき、各行矩形に真に文字が含まれているか否かを再確認する。
なお、ノイズ判定部48の第1ノイズ判定処理は、ここで述べた例に限られない。例えばここでは行矩形の性状として各行矩形の幅や高さを用いていたが、これらとともに、またはこれらに代えて、行矩形の座標情報(の平均値や標準偏差などの統計量)を用いてもよい。これによると、文字領域内に含まれる行矩形の位置がばらついている場合などに、当該文字領域には文字が含まれていない(ノイズである)と判断して、記憶部12の文字領域データベースから、注目文字領域を削除することとなる。
文字部分特定部49は、ノイズ判定部48の処理を経た文字領域データベースを記憶部12から読出して、当該文字領域データベースに含まれる文字領域(文字領域の座標情報そのもの)、または当該文字領域内の黒画素部分(文字領域の座標情報と、黒画素部分からなるビットマップ情報)を文字部分として特定し、当該文字部分を特定する情報(文字部分特定情報)を記憶部12に格納する。制御部11は、この時点で記憶部12に格納されている、基本矩形関係データベースや行矩形関係データベースを削除してもよい。
このように、本実施の形態における文字抽出部22は、文字から行、行から領域へと段階的に文字領域を画定し、当該画定した文字領域内の行の状態に基づいて文字列が含まれているかを判断し、文字列が含まれていないと判断される場合には、さらに行内(文字単位)の状態に基づいて文字が含まれているかを判断することとしている。尤も、本実施の形態におけるレイアウト処理はこれに限られるものではなく、その他広く知られたレイアウト処理を用いても構わない。
本実施形態において特徴的なことの一つは、いわゆるT/I分離処理においてレイアウト解析を用いて文字部分を抽出することとしていることである。これによって文字部分の抽出精度を向上させることができる。
文字抽出部22は、文字部分特定部49にて特定した文字部分について、それぞれ固有の領域識別子(以下、ラベルデータと呼ぶ)を生成し、このラベルデータと、対応する文字領域を画定するための座標情報(頂点座標の情報等)とを関連づけて記憶部12に文字領域データベースとして格納する。
色数判定部23は、記憶部12の文字領域データベースに格納されている文字領域の各々について、同一の色の部分を特定するマスク画像データを生成する。
本実施の形態における色数判定部23は、図7に示すように、文字色数判定部51と、背景色数判定部52とを含んで構成されている。
文字色数判定部51は、記憶部12に格納された文字領域の座標情報を参照し、それらを順次注目文字領域として選択しながら、注目文字領域内の基本矩形に含まれる有意画素(文字画像部分を表す画素塊群)に対応する、元画像データの画素値に基づいて文字色数をカウントする。
具体的にこの文字色数判定部51は、元画像データのうち注目文字領域内の有意画素に対応する値のヒストグラム(発生頻度)を生成する。そしてこのヒストグラムにおいて所定しきい値を超える頻度で出現する画素値を特定し、当該特定した画素値の数(文字部分の画素値の数)をカウントする。
同様に背景色数判定部52は、注目文字領域に含まれる有意画素以外の画素に対応する、元画像データの画素値に基づいて背景色数をカウントする。具体的にこの背景色数判定部52は、注目文字領域内の有意画素以外の画素に対応する、元画像データの画素の値のヒストグラム(発生頻度)を生成する。そしてこのヒストグラムにおいて所定しきい値を超える頻度で出現する画素値を特定し、当該特定した画素値の数(背景部分の画素値の数)をカウントする。
代表色決定部24は、図8に示すように、文字代表色決定部53と、背景代表色決定部54とを含んで構成されている。文字代表色決定部53は、文字色数判定部51によって判定された文字色数が所定の整数N(例えばN=1)以下であるか否かを調べ、文字色数が所定数N以下である場合は、注目文字領域に含まれる有意画素に対応する元画像データの画素値に基づいて文字代表色を決定する。
背景代表色決定部54は、背景色数判定部52によって判定された背景色数が所定の整数M(例えばM=1)以下であるか否かを調べ、背景色数が所定数M以下である場合は、注目文字領域に含まれる有意画素以外の画素に対応する元画像データの画素値に基づいて背景代表色を決定する。
なお、これらにおける代表画素値の決定方法は、色数判定の処理と同様に、元画像データのうち、対象となる画素値のヒストグラム(発生頻度)を生成し、このヒストグラムにおける際頻値を代表画素値として決定すればよい。
マスク画像生成部25は、文字色数判定部51によって判定された文字色数が所定の整数N(例えばN=1)以下であるか否かを調べ、文字色数が所定数N以下である場合は、注目文字領域に含まれる有意画素部分をマスク画像として抽出して出力する。また、この場合は、当該マスク画像に対応する代表色として文字代表色決定部53が出力する文字代表色の情報を選択的に出力する。
また、文字色数判定部51によって判定された文字色数が所定の整数Nを超えていれば、背景色数判定部52によって判定された背景色数が所定の整数M(例えばM=1)以下であるか否かを調べ、背景色数が所定数M以下である場合は、マスク画像を反転し、注目文字領域内で文字画像以外の部分(すなわち背景部分)を表すマスク画像を生成する。そして、マスク画像生成部25は、当該背景部分のマスク画像を出力する。また、この場合は、当該マスク画像に対応する代表色として背景代表色決定部54が出力する文字代表色の情報を選択的に出力する。
ここでマスク画像生成部25は、マスク画像を判定する際には、注目文字領域に含まれる各画素塊(有意画素)を膨張する処理を行う。すなわち有意画素に対して隣接する画素を有意画素とする。そして当該膨張処理後の当該マスク画像を反転して背景部分を表すマスク画像を生成してもよい。
なお、生成した各マスク画像には、対応する(そのマスク画像に対応する画素が含まれている)文字領域を画定する座標情報を関連付けて出力する。
後処理部26は、マスク画像生成部25が生成したマスク画像の入力を受け入れる。そして、後処理部26は、元の画像データのうちマスク画像によって特定される画素を除去(所定の値に設定)する。後処理部26は、画素を除去した後の画像データの各画素をラスタスキャン順に走査して、注目画素として選択する。そして注目画素が除去された画素(上記所定の値に設定されている画素)でなければ、当該注目画素の画素値をそのままとするとともに、当該注目画素の画素値を直前画素値として記憶部12のワークメモリに記憶する。なお、既に他の画素値が直前画素値として記憶されている場合は、その記憶内容に上書きする。
また注目画素が除去された画素である場合、当該注目画素の画素値を、記憶している直前画素値に設定する。これにより除去された部分の画素値が、ラスタスキャン順に直前画素値と同一になり、多くの圧縮処理において圧縮効率を向上させることができるようになる。そしてこの処理を行った後の画像データを背景部データとして記憶部12に格納する。
フォーマット部27は、背景部データと、マスク画像と、それに関連して出力される代表色の情報とに基づいて、元の画像データを再現するためのデータを生成する。例えばこのデータはPDF(Portable Document Format)として記述することができる。
具体的に、フォーマット部27は、まず背景部データを描画する指示を記述する。そして、生成された各マスク画像について、それに関連して出力される代表色の情報と注目文字領域を画定する座標情報とを参照し、当該注目文字領域である矩形内部を当該代表色で塗りつぶした画像を描画する指示を記述する。そして、この指示により描画された矩形状から、対応するマスク画像部分(マスク画像内の有意画素に対応する画素)を抽出する指示と、当該抽出した部分を、背景部データ上、上記参照した座標情報で定められる位置に透過合成(マスク画像内の有意画素外に対応する画素は背景部データの画素値とし、マスク画像内の有意画素に対応する画素については抽出して得た上記代表色の画素値とする合成方式)する指示と、を記述する。
このようにしているので、本実施の形態の画像処理装置によると、処理対象の画像に、単色で表現された文字が含まれているときには、当該文字部分をマスク画像として抽出する(図9(a))。そして当該抽出したマスク画像と、その文字部分の色を表す情報と、マスク画像部分を除去して穴埋処理した背景部データとを含むデータを生成する。
一方、処理対象の画像に含まれる文字部分がグラデーション処理されているなど、多色で表現されているときには、当該文字部分を含む領域(文字領域)の背景部分の色数を調べ、当該背景部分の色数が1色であれば、当該背景部分を表すマスク画像を生成する(図9(b))。そして、そして当該抽出した背景部分のマスク画像と、その背景部分の色を表す情報と、マスク画像部分を除去して穴埋処理した背景部データとを含むデータを生成する。つまりこの場合は、多色表現される文字部分は背景部データに含まれたままとなる。
なお、本実施の形態の説明では、一行分の文字列を含む行矩形をさらに連結した文字領域を対象として、各マスク画像を生成する処理を行っているが、行矩形ごとに処理してもよい。
また、文字部分も、その背景部分も多色で表現されている場合は、これらの処理をせずに、当該部分を背景部データとして処理してもよい。このようにすると、例えば各マスク画像をランレングス圧縮し、背景部データをJPEG等で圧縮することで、圧縮効率を向上できる。
このように本実施の形態によると、多色表現された文字画像に対応した処理を行うことができる。
本発明の実施の形態に係る画像処理装置の一例を表す構成ブロック図である。 本発明の実施の形態に係る画像処理装置の制御部によって実行される処理内容を表す機能ブロック図である。 文字抽出部22の処理内容例を表す機能ブロック図である。 文字抽出部22の処理例を表す説明図である。 文字抽出部22の処理例を表すフローチャート図である。 文字抽出部22の処理例を表すフローチャート図である。 色数判定部23の処理内容例を表す機能ブロック図である。 代表色決定部24の処理例を表す説明図である。 生成されるマスク画像の例を表す説明図である。
符号の説明
11 制御部、12 記憶部、13 画像入力部、14 画像出力部、21 前処理部、22 文字抽出部、23 色数判定部、24 代表色決定部、25 マスク画像生成部、26 後処理部、27 フォーマット部、41 二値化処理部、42 連結画素抽出部、43 基本矩形画定部、44 第1セパレータ検出部、45 行矩形画定部、46 第2セパレータ検出部、47 文字領域画定部、48 ノイズ判定部、49 文字部分特定部、51 文字色数判定部、52 背景色数判定部、53 文字代表色決定部、54 背景代表色決定部。

Claims (5)

  1. 処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する手段と、
    各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する文字色数判定手段と、
    各領域の背景部分となる画素の色数を背景色数として判定する背景色数判定手段と、
    を含み、
    前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴とする画像処理装置。
  2. 請求項1に記載の画像処理装置であって、
    前記所定処理として、前記判定された文字色数が所定N色以下である場合は、前記画素塊を表すマスク画像と当該画素塊に含まれる色に基づいて定められた代表色情報とを出力し、
    前記判定された文字色数が前記所定N色を超えており、かつ前記背景色数が所定M色以下である場合は、前記画素塊を表すマスク画像を反転して、背景部分を表すマスク画像を生成し、当該背景部分を表すマスク画像と、背景に含まれる色に基づいて定められた代表色情報とを出力する
    ことを特徴とする画像処理装置。
  3. 請求項2に記載の画像処理装置であって、
    前記判定された文字色数が前記所定N色を超えており、かつ前記背景色数が所定M色以下である場合は、前記画素塊を表すマスク画像の有意画素を膨張する処理を行い、当該膨張処理後の当該マスク画像を反転して背景部分を表すマスク画像を生成し、当該背景部分を表すマスク画像と、背景に含まれる色に基づいて定められた代表色情報とを出力することを特徴とする画像処理装置。
  4. 処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する工程と、
    各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する工程と、
    各領域の背景部分となる画素の色数を背景色数として判定する工程と、
    を含み、
    前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴とする画像処理方法。
  5. コンピュータに、
    処理対象となった画像データの少なくとも一部から文字と判断される画素塊を少なくとも一つ含む領域を画定する手順と、
    各領域に含まれる、前記文字と判断される画素塊の色数を文字色数として判定する手順と、
    各領域の背景部分となる画素の色数を背景色数として判定する手順と、
    を実行させ、
    前記判定によって得られた文字色数と背景色数との情報が、所定の画像処理に供されることを特徴とするプログラム。
JP2004274300A 2004-09-22 2004-09-22 画像処理装置 Expired - Fee Related JP4631371B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004274300A JP4631371B2 (ja) 2004-09-22 2004-09-22 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004274300A JP4631371B2 (ja) 2004-09-22 2004-09-22 画像処理装置

Publications (2)

Publication Number Publication Date
JP2006092050A true JP2006092050A (ja) 2006-04-06
JP4631371B2 JP4631371B2 (ja) 2011-02-16

Family

ID=36232986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004274300A Expired - Fee Related JP4631371B2 (ja) 2004-09-22 2004-09-22 画像処理装置

Country Status (1)

Country Link
JP (1) JP4631371B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7699001B2 (en) * 2005-04-13 2010-04-20 Man Roland Druckmaschinen Ag Apparatus for pressing a covering onto a printing-unit cylinder for a rotary press
CN101089930B (zh) * 2006-04-28 2010-06-23 索尼株式会社 加亮控制装置、显示装置、控制方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261833A (ja) * 1998-03-11 1999-09-24 Fuji Xerox Co Ltd 画像処理装置、画像送信装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11261833A (ja) * 1998-03-11 1999-09-24 Fuji Xerox Co Ltd 画像処理装置、画像送信装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7699001B2 (en) * 2005-04-13 2010-04-20 Man Roland Druckmaschinen Ag Apparatus for pressing a covering onto a printing-unit cylinder for a rotary press
CN101089930B (zh) * 2006-04-28 2010-06-23 索尼株式会社 加亮控制装置、显示装置、控制方法

Also Published As

Publication number Publication date
JP4631371B2 (ja) 2011-02-16

Similar Documents

Publication Publication Date Title
US6865290B2 (en) Method and apparatus for recognizing document image by use of color information
US20180020118A1 (en) Image processing apparatus, method, and storage medium
US8611658B2 (en) Image processing apparatus and image processing method
JP4821869B2 (ja) 文字認識装置、画像読取装置、およびプログラム
US8675256B2 (en) Image processing apparatus, image processing method, and storage medium
JP4423333B2 (ja) 背景領域特定方法、背景領域特定システム、背景色決定方法、制御プログラム、および、記録媒体
JP4370950B2 (ja) 画像処理装置
JP4631371B2 (ja) 画像処理装置
JP4396331B2 (ja) 画像処理装置
JP4217969B2 (ja) 画像処理装置及びプログラム
JP2005275854A (ja) 画像処理装置、画像処理方法、画像処理プログラムおよびこのプログラムを記憶した記録媒体
JP4227530B2 (ja) 画像処理装置および画像処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム
JP4228905B2 (ja) 画像処理装置及びプログラム
JP4259310B2 (ja) 画像処理装置及びプログラム
JP5104528B2 (ja) 画像処理装置および画像処理プログラム
JP6091400B2 (ja) 画像処理装置
JP4507656B2 (ja) 画像処理装置
JP2005210650A (ja) 画像処理装置
JP4311183B2 (ja) 画像処理装置及びプログラム
JP4193687B2 (ja) 画像処理装置及びプログラム
JP4186832B2 (ja) 画像処理装置
JP2005190010A (ja) 画像処理装置
JP2005217983A (ja) 画像処理装置
JP4182873B2 (ja) 画像処理装置及びプログラム
JP4329564B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070817

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071112

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101019

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees