JP2005217983A - 画像処理装置 - Google Patents
画像処理装置 Download PDFInfo
- Publication number
- JP2005217983A JP2005217983A JP2004024823A JP2004024823A JP2005217983A JP 2005217983 A JP2005217983 A JP 2005217983A JP 2004024823 A JP2004024823 A JP 2004024823A JP 2004024823 A JP2004024823 A JP 2004024823A JP 2005217983 A JP2005217983 A JP 2005217983A
- Authority
- JP
- Japan
- Prior art keywords
- value
- character
- image data
- pixel
- rectangle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Color Image Communication Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
【課題】 地色に近い輝度の文字画像等についても抽出できる画像処理装置を提供する。
【解決手段】 処理対象となる画像データを二値化する画像処理装置であって、処理対象の画像データの各画素値を、処理対象の画像データに関して定められる地色からの色空間上での距離値に変換し、この距離値に関して定められたしきい値に基づいて画像データを二値化する画像処理装置である。
【選択図】 図1
【解決手段】 処理対象となる画像データを二値化する画像処理装置であって、処理対象の画像データの各画素値を、処理対象の画像データに関して定められる地色からの色空間上での距離値に変換し、この距離値に関して定められたしきい値に基づいて画像データを二値化する画像処理装置である。
【選択図】 図1
Description
本発明は、画像データから文字部分を特定する画像処理装置に関する。
ラスタ画像のデータ(以下、区別するべき場合を除いて単に「画像データ」と呼ぶ)には、文字(テキスト)部分や、自然画の部分(絵柄部分)など、互いに性状の異なる多くの画像要素が含まれ得る。こうした画像要素は、その性状の相違から、例えば圧縮処理において異なる方式での圧縮が適していたりするなど、画像要素ごとに異なる画像処理を行うことが好ましい場合が多い。
そこで従来から、いわゆるT/I分離と呼ばれる画像処理が研究・開発されている。従来、T/I分離の方法としては、例えば処理対象画像を二値化し、黒画素の連続する領域を画定し、当該画定した領域のサイズが予め定めたしきい値を下回る場合に当該領域に含まれる黒画素が文字を表すものと判定する方法等がある(特許文献1)。
特開2003−8909号公報(段落番号0026を参照)
特開2002−175532号公報
ところが、上記従来の画像処理方法の対象となる画像データが白地に黄色の文字を含むなど、地色と近い輝度で文字が描画されている場合、当該文字の画素値が二値化処理時に地色と同じ値に変換されてしまい、文字の抽出ができないという問題点があった。
本発明は上記実情に鑑みて為されたもので、地色に近い輝度の文字画像等についても抽出できる画像処理装置を提供することをその目的の一つとする。
上記従来例の問題点を解決するための本発明は、処理対象となる画像データを二値化する画像処理装置であって、前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する変換手段と、前記距離値に関して定められたしきい値に基づいて画像データを二値化する手段と、を含むことを特徴としている。
また前記変換手段は、地色の座標点Oから変換の対象となる注目画素値の座標点PへのベクトルOPを延長し、色空間の外縁との交点座標Qを決定し、OP間のユークリッド距離を、OQ間のユークリッド距離で除した値を前記距離値として、注目画素値を当該距離値に変換することとしてもよい。
さらに前記変換手段は、地色を原点とする色空間上での距離値に変換する手段であって、地色の座標点Oから変換の対象となる注目画素値の座標点PへのベクトルOPの各成分の絶対値のうち最大の値を前記距離値として決定し、注目画素値を当該距離値に変換することとしてもよい。
また、上記従来例の問題点を解決するための本発明は、処理対象となる画像データを二値化する画像処理方法であって、前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する工程と、前記距離値に関して定められたしきい値に基づいて画像データを二値化する工程と、を含むことを特徴としている。
さらに上記従来例の問題点を解決するための本発明は、処理対象となる画像データを二値化する画像処理プログラムであって、コンピュータに、前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する手順と、前記距離値に関して定められたしきい値に基づいて画像データを二値化する手順と、を含むことを特徴としている。
本発明の実施の形態に係る画像処理装置は、図1に示すように、制御部11と記憶部12と画像入力部13と画像出力部14とを含んで構成されている。制御部11は、記憶部12に格納されているプログラムに従って動作しており、後に説明する各画像処理を遂行する。この画像処理の内容については、後に詳しく述べる。
記憶部12は、制御部11によって実行されるプログラムを保持している。またこの記憶部12は、制御部11の処理の過程で生成される各種データ等を格納するワークメモリとしても動作する。具体的にこの記憶部12は、コンピュータ可読な記録媒体と当該記録媒体に対してデータを書き込み、又は当該記録媒体からデータを読み出す装置(例えばハードディスク装置やメモリ装置)として実装できる。
画像入力部13は、例えばスキャナであり、原稿を光学的に読み取って得られた画像データを制御部11に出力する。ここではこの画像入力部13が出力する画像データにおいて、各画素の値がRGB(赤、緑、青)の色空間で表現されているとする。画像出力部14は、制御部11から入力される指示に従って画像データを出力するもので、例えば画像形成部(プリンタ等)に出力し、又はネットワークを介して外部の装置に送信する等の処理を行うものである。
次に制御部11の処理の内容について説明する。本実施の形態の制御部11は、図2に機能的に示すように、画像入力部13から入力される画像データを処理対象として、この処理対象となった画像データに対して、所定前処理を行う前処理部21と、絵柄部分の候補となる部分(絵柄候補部分)を特定する絵柄候補部分特定処理部22と、文字線画を抽出する文字線画抽出処理部23と、レイアウト処理を遂行するレイアウト処理部24と、同一色領域分離部25と、穴埋処理部26と、圧縮処理部27とを含んで構成されている。
以下、これら各部について具体的に説明する。
[1.前処理部]
この前処理部21では、画像入力部13から入力される画像データ(処理対象画像データ)の各画素の値をRGBからYCbCr(輝度と色差とからなる値)に変換する。具体的には、次の(1)式を用いて変換を行うことができる。なお、ここではRGBの各成分の値は0x00(「0x」は16進数であることを示す)から0xFFまでの値であるとしている。また、この前処理部21では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。
この前処理部21では、画像入力部13から入力される画像データ(処理対象画像データ)の各画素の値をRGBからYCbCr(輝度と色差とからなる値)に変換する。具体的には、次の(1)式を用いて変換を行うことができる。なお、ここではRGBの各成分の値は0x00(「0x」は16進数であることを示す)から0xFFまでの値であるとしている。また、この前処理部21では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。
[2.絵柄候補領域特定処理部]
絵柄候補部分特定処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データから絵柄の領域と推定される領域を、絵柄候補領域として特定する処理を行う。具体的に、この絵柄候補部分特定処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データを記憶部12にコピーして格納する。そして、当該コピーされた画像データ(絵柄領域特定画像データと呼ぶ)の各画素の値を参照しながら、当該画素値の輝度成分と、予め定めた二値化しきい値とを比較して、輝度成分が二値化しきい値以上の画素を黒画素(値「1」)、輝度成分が二値化しきい値未満の画素を白画素(値「0」)としていき、当該絵柄領域特定画像データを二値画像データに変換する。
絵柄候補部分特定処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データから絵柄の領域と推定される領域を、絵柄候補領域として特定する処理を行う。具体的に、この絵柄候補部分特定処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データを記憶部12にコピーして格納する。そして、当該コピーされた画像データ(絵柄領域特定画像データと呼ぶ)の各画素の値を参照しながら、当該画素値の輝度成分と、予め定めた二値化しきい値とを比較して、輝度成分が二値化しきい値以上の画素を黒画素(値「1」)、輝度成分が二値化しきい値未満の画素を白画素(値「0」)としていき、当該絵柄領域特定画像データを二値画像データに変換する。
次に絵柄候補部分特定処理部22は、この二値画像データ中から、黒画素が連結している領域(連結領域)を抽出する。この連結領域の抽出は、ラベリング処理として広く知られた処理を用いることができる。ラベリング処理を用いる場合、各連結領域には互いに異なるラベル識別子を付して、記憶部12に格納しておく。次に、この連結領域の各々について、その所定のスケール特徴量を演算する。ここでスケール特徴量には、連結領域に関係して定められる矩形の面積などを含む。そして、このスケール特徴量に基づいて各連結領域が絵柄候補領域であるか否かを判定する。具体的な例を挙げると、文字であれば一般的なドキュメントで利用されるフォントサイズの最小値(例えば6ポイント)に相当する面積(いわば最小面積)未満の領域(小領域)は、文字を含まない、絵柄の領域と判定できるので、こうした小領域を除去する。また一般的なドキュメントでは、フォントサイズの大きさも例えば24ポイントを超えることは稀となる。そこで、この一般的なドキュメントで利用される最大のフォントサイズに相当する面積(いわば最大面積)以上の場合、文字は含まれない(つまり絵柄領域)と判断する。
絵柄候補部分特定処理部22は、各連結領域ごとの判定結果を参照して、二値化した絵柄領域特定画像データのうち、絵柄領域でないと判定された連結領域に含まれる黒画素を白画素に設定する。こうして非絵柄領域と背景とが白画素となっている絵柄領域特定画像データが生成される。
次に絵柄候補部分特定処理部22は、絵柄部分の境界に連結している白画素を、所定の値(白、黒以外の任意の色)で塗りつぶす。ここでは、広く知られているような、閉じた領域(閉曲線で囲まれた内部又は外部)を塗つぶす処理を用いる。
そして絵柄候補部分特定処理部22は、上記所定の値で塗潰されなかった画素の色を黒に設定する。この処理によって黒画素に設定された部分を絵柄候補領域として記憶部12に格納する。
[3.文字線画抽出処理部]
文字線画抽出処理部23は、前処理部21が出力するYCbCr色空間で表現された画像データから文字線画部分を抽出する処理を行う。この処理は図3に示すように、機能的には画素値変換部31と、二値化処理部32と、文字線画部分特定部33とを含んで構成される。
文字線画抽出処理部23は、前処理部21が出力するYCbCr色空間で表現された画像データから文字線画部分を抽出する処理を行う。この処理は図3に示すように、機能的には画素値変換部31と、二値化処理部32と、文字線画部分特定部33とを含んで構成される。
画素値変換部31は、前処理部21が出力するYCbCr色空間で表現された画像データの各画素を注目画素として順次選択し、この注目画素の画素値を次に述べる方法で距離値に変換する。すなわち画素値変換部31は前処理部21が出力するYCbCr色空間で表現された画像データについて地色を定める。ここで地色は、画像データの四隅近傍の複数の画素値の最頻値などとして定める。
次に画素値変換部31は、この地色から注目画素の画素値との色空間上での距離値を演算する。説明を簡単にするため、図4(a)に示すように2次元の色空間(ξ,η)上での距離値は、地色の座標点O(ξO,ηO)と、注目画素の画素値に相当する座標点P(ξP,ηP)とに基づいてユークリッド距離
としてもよい。
また図4(b)に示すように、地色の座標点O(ξO,ηO)から、注目画素の画素値に相当する座標点P(ξP,ηP)へのベクトルを延長して、色空間の外縁との交点座標Q(ξQ,ηQ)を定め、このOP間のユークリッド距離を、OQ間のユークリッド距離で除した値(以下、相対距離という)
を距離値として定義してもよい。
なお、地色を原点とする色空間を定め、0≦ξ≦1,0≦η≦1とすると、色空間の外縁は、ξ=1、η=1の各直線で画定される。ここで地色Oから注目画素の画素値Pへと引いたベクトルを延長した上記外縁との交点Qは、
となる。従って、このとき相対距離は、
である(図5)。つまり、地色を原点とし、0≦ξ≦1,0≦η≦1とする色空間を定めて、当該色空間上で画素値を距離値に変換するときには、地色の座標点Oから変換の対象となる注目画素値の座標点PへのベクトルOPの各成分の絶対値のうち最大の値を距離値として決定すればよい。
画素値変換部31は、前処理部21が出力するYCbCr色空間で表現された画像データの各画素をこの距離値に変換した距離値マップを記憶部12に格納する。
二値化処理部32は、上記距離値に関して定められたしきい値に基づいて、距離値マップから二値化画像データを生成する。ここで二値化の方法は、特許文献2に開示されている方法を採用することができる。すなわち距離値マップ上で、各画素に対応する値を順次注目画素として選択し、注目画素近傍の画素値の平均値に基づいて局所的な二値化しきい値を定め、当該局所的な二値化しきい値よりも当該注目画素の画素値が大きい場合に注目画素を白画素、小さい場合に注目画素を黒画素と設定した二値化画像データが生成される。
なお、特許文献2の例では、二値化しきい値として平均値に所定値を加算した値としているが、本実施の形態のように距離値とした場合は、加算する所定値を特許文献2に開示の場合よりも小さくしてもよい。さらに、特許文献2に開示の方法では、ラベリング処理により得た連結画素成分の平均画素値を算出するとともに、当該連結画素成分の周辺の画素値を取得し、平均値から所定範囲内にある周辺画素数をカウントして、このカウント値が所定数以上であれば、当該連結画素成分を従属成分としてラベルから除外する処理(従属成分除外処理)を行っているが、この平均値からの所定範囲の値や、カウント値と比較する所定数を特許文献2に開示の場合よりも小さくしてもよい。
文字線画部分特定部33は、この二値化画像データから黒画素の連結している部分を連結画素として抽出し、その外接矩形を画定する。この外接矩形が文字線画に外接する矩形の候補となる。文字線画抽出部処理部23は、これら画定した外接矩形の情報に基づいて、個々の文字や、線画部分についてそれらを取囲む矩形(文字線画外接矩形)の座標情報を生成し、記憶部12に格納する。
なお、ここで述べた距離値への変換と、二値化の方法とは、それぞれ文字線画の抽出だけでなく、低輝度の画素を含む画像データから当該画素で構成される画像データを含む部分を抽出する処理などに有効である。
[4.レイアウト処理部]
レイアウト処理部24は、絵柄候補部分特定処理部22が生成した絵柄候補領域画定情報と、文字線画抽出処理部23が生成した文字線画外接矩形の座標情報とを記憶部12から読み出す。
レイアウト処理部24は、絵柄候補部分特定処理部22が生成した絵柄候補領域画定情報と、文字線画抽出処理部23が生成した文字線画外接矩形の座標情報とを記憶部12から読み出す。
レイアウト処理部24は、この絵柄候補領域画定情報によって画定される絵柄候補領域と、文字線画外接矩形の座標情報で画定される文字線画の領域とのそれぞれに対して互いに異なる判定条件を用いてレイアウト解析を行う。
具体的に本実施の形態においては、記憶部12から読出した絵柄候補領域画定情報によって画定される絵柄候補領域においてレイアウト解析処理を行い、当該絵柄候補領域の中からさらに文字部分の抽出を試みる。そして、抽出された文字部分を除く部分を絵柄領域として画定し、後段の処理に供する。
ここでレイアウト解析処理の処理内容について説明する。レイアウト処理部24は図6に機能的に示すように、二値化処理部41と、連結画素抽出部42と、基本矩形画定部43と、第1セパレータ検出部44と、行矩形画定部45と、第2セパレータ検出部46と、文字領域画定部47と、ノイズ判定部48と、文字部分特定部49とを含んで構成される。
二値化処理部41は、前処理部21が出力するYCbCr色空間で表現された画像データ(元の画像データ)のうち、絵柄候補領域画定情報で画定される領域内の部分的な画像データ(絵柄候補部分データ)を処理対象として、この処理対象となった絵柄候補部分データを二値化して、二値化絵柄候補部分データを生成する。
連結画素抽出部42は、二値化絵柄候補部分データに対してラベリング処理を行い、所定の条件(例えば黒画素である等の条件)を満足する画素値の画素が連続する部分からなる複数の画素群(連結画素群)を特定する。
基本矩形画定部43は、連結画素抽出部42が特定した連結画素群に関する矩形(例えば連結画素群に外接する矩形)を基本矩形として画定し、各連結画素群についての基本矩形の座標情報(当該矩形を画定するための座標情報)を生成する。そして、各基本矩形ごとに固有の識別子を発行し、当該識別子と基本矩形の座標情報とを関連づけて基本矩形データベースとして記憶部12に格納する。
第1セパレータ検出部44は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を左から右へと1ライン走査し、一つ下のラインについて同様に(すなわちラスタスキャン順に)走査していき、上記ラベリング処理における所定の条件を満足しない画素値の画素(例えば白画素)が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を(水平方向の)第1セパレータとして検出し、当該第1セパレータを特定する情報(連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
また、この第1セパレータ検出部44は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素をの画素を上から下へと1ライン走査し、一つ右のラインについて同様に走査していき、上記ラベリング処理における所定の条件を満足しない画素値の画素(例えば白画素)が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を(垂直方向の)第1セパレータとして検出し、当該第1セパレータを特定する情報(連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
これらの処理において、水平方向閾値や垂直方向閾値は、ユーザが任意に定め得る。水平方向閾値は多段組のレイアウトにおいて各段を分かつための閾値であり、垂直方向閾値は2行以上の文字列を含む文書から、各行を分かつための閾値である。またユーザの設定によるだけでなく、水平方向閾値は基本矩形の幅の統計値(平均)などに基づく所定関数値として、また垂直方向閾値は基本矩形の高さの統計値(平均)などに基づく所定関数値としてそれぞれ定めてもよい。
具体的に第1セパレータは、図7(a)に示すような状態で検出されることになる。なお、図7(a)では各第1セパレータが相互に隣接して検出された結果として、一つの第1セパレータ領域のように示されている。
行矩形画定部45は、記憶部12に格納されている基本矩形の一つを注目基本矩形として選択する。そして、記憶部12に格納されている基本矩形であって、いままでに注目基本矩形として選択されていない基本矩形を処理対象基本矩形として順次選択しながら、次の処理を行う。
すなわち、注目基本矩形の中心座標(座標情報が対角位置にある各頂点の座標を表している場合、その中点座標)から、処理対象基本矩形の中心座標へのベクトルを算出する。さらに行矩形画定部45は、ベクトルの大きさ(各成分の二乗和の平方根)から注目基本矩形と処理対象基本矩形との距離を算出する。そして、この算出した距離が予め定めた距離閾値以下となっている場合は、上記算出したベクトルが、検出された第1セパレータのいずれかと交差するか否かを調べる。この処理は2つの線分が交差するか否かを調べる処理として広く知られたものを用いることができる。ここで、上記算出したベクトルが、検出された第1セパレータのいずれとも交差しない場合、注目基本矩形の識別子に、当該処理対象基本矩形の識別子を関連づけて基本矩形関係データベースとして記憶部12に格納する。
行矩形画定部45は記憶部12に格納されている基本矩形について順次注目基本矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた基本矩形関係データベースを参照しながら連鎖的に互いに関連する一連の基本矩形群(複数あってもよい)を特定し、特定された基本矩形群に含まれる基本矩形に外接する矩形を行矩形として画定する(例えば図7(b))。
例えば基本矩形関係データベース内において、識別子が「1」の基本矩形と識別子が「2」の基本矩形とが関連づけられ、また識別子が「2」の基本矩形と識別子が「3」の基本矩形とが関連づけられている場合、行矩形画定部45は、これらの結果を統合して識別子「1」と「2」と「3」との各基本矩形を一連の基本矩形群として特定する。そして基本矩形群に含まれる基本矩形のうち、その座標情報のx(水平方向)の値の最大値と最小値とを抽出し、同じようにy(垂直方向)の値の最大値と最小値とを抽出する。そして、抽出されたxの最小値とyの最小値とを組とした第一座標と、xの最大値とyの最大値とを組とした第二座標とを、それぞれ左上座標,右下座標とする行矩形を画定する。つまり、行矩形は、この2つの座標値を含む座標情報によって画定される。
行矩形画定部45は、こうして画定した各行矩形についてそれぞれ固有の識別子を発行し、各識別子とその行矩形の座標情報と当該行矩形に含まれる基本矩形群を特定する情報(各基本矩形の識別子のリストなど)とを関連づけて行矩形データベースとして記憶部12に格納する。
第2セパレータ検出部46は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を左から右へと1ライン走査し、一つ下のラインについて同様に(すなわちラスタスキャン順に)走査していき、連結画素抽出部42でのラベリング処理における所定の条件を満足する画素値の画素(例えば黒画素)が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を(水平方向の)第2セパレータとして検出し、当該第2セパレータを特定する情報(連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
また、この第2セパレータ検出部46は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素をの画素を上から下へと1ライン走査し、一つ右のラインについて同様に走査していき、連結画素抽出部42でのラベリング処理における所定の条件を満足する画素値の画素(例えば黒画素)が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を(垂直方向の)第2セパレータとして検出し、当該第2セパレータを特定する情報(連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい)を生成して記憶部12に格納する。
これらの処理において、水平方向閾値や垂直方向閾値は、ユーザが任意に定め得る。水平方向閾値は多段組のレイアウトにおいて各段を分かつための閾値であり、垂直方向閾値は2行以上の文字列を含む文書から、各行を分かつための閾値である。またユーザの設定によるだけでなく、水平方向閾値は基本矩形の幅の統計値(平均)などに基づく所定関数値として、また垂直方向閾値は基本矩形の高さの統計値(平均)などに基づく所定関数値としてそれぞれ定めてもよい。
文字領域画定部47は、行矩形画定部45が画定した行矩形の一つを注目行矩形として選択する。そして文字領域画定部47は、記憶部12に格納されている行矩形であって、いままでに注目行矩形として選択されていない行矩形を処理対象行矩形として順次選択しながら、次の処理を行う。
すなわち、注目行矩形の各頂点の座標と処理対象行矩形の対応する頂点の座標とを結ぶ線分、及び注目行矩形と処理対象行矩形の各辺とによって画定される多角形領域を生成し、この多角形領域と第2セパレータ(の領域)とが交差(領域同士が少なくとも一部で重なり合う)するか否かを調べる。この処理は2つの領域が交差するか否かを調べる処理として広く知られたものを用いることができる。
ここで多角形領域と第2セパレータとが交差していない場合、注目行矩形の識別子と処理対象行矩形の識別子とを関連づけて行矩形関係データベースとして記憶部12に格納する。
文字領域画定部47は記憶部12に格納されている行矩形について順次注目行矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた行矩形関係データベースを参照しながら連鎖的に互いに関連する一連の行矩形群(複数あってもよい)を特定し、特定された行矩形群に含まれる行矩形に外接する矩形を文字領域として画定する。
例えば行矩形関係データベース内において、識別子が「1」の行矩形と識別子が「2」の行矩形とが関連づけられ、また識別子が「2」の行矩形と識別子が「3」の行矩形とが関連づけられている場合、行矩形画定部45は、これらの結果を統合して識別子「1」と「2」と「3」との各行矩形を一連の行矩形群として特定する。そして行矩形群に含まれる行矩形のうち、その座標情報のx(水平方向)の値の最大値と最小値とを抽出し、同じようにy(垂直方向)の値の最大値と最小値とを抽出する。そして、抽出されたxの最小値とyの最小値とを組とした第一座標と、xの最大値とyの最大値とを組とした第二座標とを、それぞれ左上座標,右下座標とする文字領域の矩形を画定する。つまり、文字領域は、この2つの座標値を含む座標情報によって画定される。
文字領域画定部47は、こうして画定した文字領域についてそれぞれ固有の識別子を発行し、各識別子とその文字領域の座標情報と当該文字領域に含まれる行矩形群を特定する情報(各行矩形の識別子のリストなど)とを関連づけて文字領域データベースとして記憶部12に格納する。
ノイズ判定部48は、文字領域画定部47によって画定された文字領域のそれぞれについて文字が含まれているか否かを確認する、ノイズ判定処理を行う。ここでノイズ判定処理は、行矩形の数、又は各行矩形の性状を表す情報に基づいて、各行矩形に文字が含まれているか否かを判断する第1ノイズ判定処理と、行矩形に関係する基本矩形に関する情報に基づいて、当該行矩形に文字が含まれているか否かを判断する第2ノイズ処理とを含む。
具体的にノイズ判定部48の処理は、図8に示すような処理として行われる。まずノイズ判定部48は記憶部12に格納された文字領域のうち、未だ注目文字領域として選択されていないものを注目文字領域として選択する(S11)。そして注目文字領域に含まれる行矩形の数を調べ、これが2以上か(すなわち、当該文字領域が複数行からなるか)否かを判断する(S12)。ここで、行矩形の数が2以上であれば(Yesならば)、注目文字領域に含まれる各行矩形の幅と高さ、並びにそれらの平均や標準偏差など、ばらつきを検定するための統計量を演算する(S13)。そして、これらの統計量に基づいて各行矩形の幅や高さのばらつきが所定のしきい値より大きいか否かを比較する(S14)。この比較は例えば標準偏差が、予め定めたしきい値を超えるか否かの比較とすることができる。そしてこの処理S14によって、ばらつきが大きいと判断される場合(Yesの場合)、注目文字領域には文字は含まれないと判断して、記憶部12の文字領域データベースから、注目文字領域を削除して(S15)、処理S18に移行する。これら処理S12からS15の処理が、第1ノイズ判定処理に相当する。すなわちここでは行矩形の性状を表す情報として各行矩形の幅や高さ、並びにそれらの統計量が用いられている。
一方、処理S14において、ばらつきが小さいと判断される場合(Noの場合)には、注目文字領域に含まれる各行矩形に対して行内判定処理(第2ノイズ判定処理)を行う(S16)。この処理S16の具体的内容については後述する。そしてこの処理S16においてノイズ(文字が含まれていない)と判定された行の数と注目文字領域に含まれる行矩形の数との比に基づいて、ノイズと判定された行の数が、注目文字領域に含まれる行矩形の数に比して所定比率以上となっているか否かを判断し(S17)、所定比率以上であるときに、注目文字領域には文字は含まれないと判断して、処理S15に移行する。
また、処理S17において、所定比率未満である場合は、未だ注目文字領域となっていない文字領域が記憶部12の文字領域データベースにあるか否かを調べ(S18)、未選択の文字領域があれば、処理S11に戻って処理を続ける。さらに処理S18において、未選択の文字領域がないならば(すべての文字領域について処理を行ったならば)、ノイズ判定の処理を終了する。
さらに処理S12において行矩形の数が1つであれば(Noならば)、処理S16に移行して処理を続ける。この場合、当該単一の行矩形について文字が含まれているか否かを判断し、文字が含まれていれば(この場合は処理S17の比率は「0」となる)、注目文字領域には文字が含まれると判断され、当該単一の行矩形内に文字が含まれていないならば(この場合は処理S17の比率は「1」となる)、注目文字領域には文字が含まれないと判断される。
ここで、処理S16における具体的処理(第2ノイズ判定処理)の内容について説明する。この処理ではノイズ判定部48は、図9に示すように、処理の対象となった各行矩形の一つを注目行矩形として選択し(S21)、記憶部12に格納されている行矩形データベースを参照して、当該注目行矩形に含まれる基本矩形の数をカウントする(S22)。そしてカウントの結果、基本矩形の数が「1」である場合と、「2」である場合と、「3」以上である場合とに分岐して(S23)、基本矩形の数が「1」である場合は、注目行矩形に含まれる基本矩形の識別子のリストを取得し、このリストに含まれる基本矩形の座標情報を記憶部12の基本矩形データベースから読出して、このリストに含まれる基本矩形の幅及び高さとその積(つまり面積)を演算する。そしてこの面積が予め定められた面積しきい値以下であるか否かを判断し(S25)、面積しきい値以下である場合は、注目行矩形には文字が含まれないと判断して、当該結果を記憶部12に格納する(S26)。そして未だ注目行矩形として選択されていない行矩形があるか否かを調べ(S27)、未選択の行矩形があれば、当該未選択の行矩形の一つを注目行矩形として選択するべく処理S21に戻って処理を続ける。一方、処理S27において未選択の行矩形がなければ、処理を終了して図8の処理に戻る。
さらに処理S22におけるカウント値が「2」である場合、各基本矩形の面積を演算し、また、これらの基本矩形間の距離を演算する。基本矩形間の距離は、例えば基本矩形の中心同士の距離として演算できる。そして、距離が予め定めた距離しきい値より大きいか、または2つの基本矩形の面積の比が予め定めた面積比しきい値より大きいかを判断し(S31)、距離が予め定めた距離しきい値より大きいか、または2つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理S26に移行して(X)処理を続ける。
さらに、処理S22におけるカウント値が「3」以上である場合には、カウント値(基本矩形の数)が所定最大数を超えているか否かを判断し(S32)、この所定最大数を超える場合は、注目行矩形には文字が含まれないと判断して処理S26に移行する(X)。これは、一行内に例えば100字を超える文字を含めることは通常あり得ないことなどに配慮したものであり、固定値として定めておいてもよいし、注目行矩形の幅に基づいて調整してもよい。また処理S32において基本矩形の数が所定最大数を超えていない場合は、さらに各基本矩形の面積を演算して、演算された面積の最大値が、所定最大面積値を超えているか否かを判断する(S34)。ここで所定最大面積値を超えていると判断される場合は、注目行矩形には文字が含まれないと判断して処理S26に移行する(X)。この最大面積値も、固定値として定めてもよいし、注目行矩形の幅や高さの少なくとも一方(例えばそれらのうち小さい方)に基づいて調整してもよい。
さらに処理S34において所定最大面積値を超えていないと判断される場合、さらに2つの基本矩形の組み合せ(任意に取り出された少なくとも一つの組み合せ)について、各組み合せに係る2つの基本矩形の面積比が予め定めた面積比しきい値より大きいかを判断し(S35)、2つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理S26に移行して処理を続ける(X)。
この処理S35において2つの基本矩形の面積の比が予め定めた面積比しきい値より大きくない場合は、注目行矩形内に文字が含まれると判断して、その判断結果を記憶部12に格納し、処理S27に移行する。
なお、処理S25において、面積が面積しきい値を超える場合、並びに、処理S31において、距離が予め定めた距離しきい値以下であり、かつ2つの基本矩形の面積の比が予め定めた面積比しきい値以下である場合には、処理S32(または処理S34)以下に移行して処理を続けることとする。
また、処理S35においては各組み合せについて処理を行っているが、処理負荷を軽減するためには、例えば各基本矩形の面積の平均値(平均面積)や、最小値(最小面積)・最大値(最大面積)を演算し、平均面積と最小面積、平均面積と最大面積との比、あるいは最小面積と最大面積との比と、上記面積比しきい値との比較を行ってもよい。
このように、ノイズ判定部48は、各行矩形について、そこに含まれる基本矩形の性状(面積、面積比、距離など)に基づき、各行矩形に真に文字が含まれているか否かを再確認する。
なお、ノイズ判定部48の第1ノイズ判定処理は、ここで述べた例に限られない。例えばここでは行矩形の性状として各行矩形の幅や高さを用いていたが、これらとともに、またはこれらに代えて、行矩形の座標情報(の平均値や標準偏差などの統計量)を用いてもよい。これによると、図10に示すように、文字領域内に含まれる行矩形の位置がばらついている場合などに、当該文字領域には文字が含まれていない(ノイズである)と判断して、記憶部12の文字領域データベースから、注目文字領域を削除することとなる。
文字部分特定部49は、ノイズ判定部48の処理を経た文字領域データベースを記憶部12から読出して、当該文字領域データベースに含まれる文字領域(文字領域の座標情報そのもの)、または当該文字領域内の黒画素部分(文字領域の座標情報と、黒画素部分からなるビットマップ情報)を文字部分として特定し、当該文字部分を特定する情報(文字部分特定情報)を記憶部12に格納する。制御部11は、この時点で記憶部12に格納されている、基本矩形関係データベースや行矩形関係データベースを削除してもよい。
このように、本実施の形態におけるレイアウト処理部24は、文字から行、行から領域へと段階的に文字領域を画定し、当該画定した文字領域内の行の状態に基づいて文字列が含まれているかを判断し、文字列が含まれていないと判断される場合には、さらに行内(文字単位)の状態に基づいて文字が含まれているかを判断することとしている。尤も、本実施の形態におけるレイアウト処理はこれに限られるものではなく、その他広く知られたレイアウト処理を用いても構わない。
本実施形態において特徴的なことの一つは、いわゆるT/I分離処理においてレイアウト解析を用いて文字部分を抽出することとしていることである。これによって絵柄候補領域に含まれる文字部分もレイアウト解析処理によって抽出されることとなり、文字部分の抽出精度を向上させることができる。
一方、レイアウト処理部24は、文字線画として画定された部分(文字線画外接矩形)内についても、レイアウト解析処理を行う。そしてレイアウト処理部24は、当該レイアウト解析処理の結果として得られたレイアウト枠(少なくとも各文字に外接する矩形(基本矩形)を含む)を定め、これらレイアウト枠の情報(座標情報など)を記憶部12に格納する。
なお、文字線画外接矩形内においても、上記基本矩形を水平または垂直方向に関係づけて得られる行矩形を画定し、この行矩形の座標情報などを記憶部12に併せて格納してもよい。
制御部11のレイアウト処理部24は、記憶部12に格納された文字部分特定情報と、文字線画外接矩形(またはそれに対するレイアウト処理結果としてのレイアウト枠)とを参照し、処理対象となった画像データ全体について、画像データ内で文字を含む矩形領域の座標情報を生成する。具体的にレイアウト処理部24は、文字部分特定情報の座標情報で画定される矩形と、文字線画外接矩形情報(またはそれに対するレイアウト処理結果としてのレイアウト枠)で画定される矩形とを結合して、文字線画領域を生成する。すなわち、本実施の形態では絵柄候補領域の画定と、文字線画領域の画定とを別々に行っているため、絵柄候補領域内にも文字線画領域として特定された領域が存在し得る。このためここでこれらの領域を結合して、重複領域を一つの文字線画領域とする。
そしてレイアウト処理部24は、結合後の各文字線画部分について固有の領域識別子(以下、ラベルデータと呼ぶ)を生成し、このラベルデータと、対応する文字線画領域を画定するための座標情報(頂点座標の情報等)とを関連づけて記憶部12に文字線画領域データベースとして格納する。
[5.同一色領域分離部]
同一色領域分離部25は、記憶部12の文字線画領域データベースに格納されている文字線画領域の各々について、同一の色の文字線画部分のみからなる領域に分割する処理を行う。同一色領域分離部25は、レイアウト処理の過程で記憶部12に格納された基本矩形(絵柄候補領域と文字線画領域との双方から画定された矩形)の座標情報を読み出す。そして、処理対象となっている画像データ(元画像データ)のうち、この座標情報で画定される各基本矩形内に含まれる画素値のうち代表値(代表色)の候補を決定する。
同一色領域分離部25は、記憶部12の文字線画領域データベースに格納されている文字線画領域の各々について、同一の色の文字線画部分のみからなる領域に分割する処理を行う。同一色領域分離部25は、レイアウト処理の過程で記憶部12に格納された基本矩形(絵柄候補領域と文字線画領域との双方から画定された矩形)の座標情報を読み出す。そして、処理対象となっている画像データ(元画像データ)のうち、この座標情報で画定される各基本矩形内に含まれる画素値のうち代表値(代表色)の候補を決定する。
ここで代表値の候補の決定方法としては、基本矩形内の画素値のヒストグラムを演算して、そのメディアン値を代表値(代表色)の候補として決定する方法などがある。このとき基本矩形内の画素値がばらついている場合に配慮して、平滑化処理を行ってからヒストグラムを演算する。ここで平滑化処理としては、各基本矩形内の各画素を順次注目画素として特定し、注目画素の値とそれに隣接する画素の値との平均値を注目画素の値とする処理などがある。
なお平滑化処理の際に、基本矩形内で文字を構成する画素(例えば二値化処理により黒画素となる部分)のみを注目画素として選択してもよい。また平滑化の処理において、平均値を演算する際は当該文字を構成する画素の値のみを参照して平均値を演算することとしてもよい。これにより、文字以外の部分の画素値を参照することにより、文字の代表色が背景色に影響されることが防止される。
本実施の形態において特徴的なことの一つは、ここで決定した代表値について補正を行うことである。すなわち、本実施の形態の同一色領域分離部25は、決定した代表値の候補についてその輝度を補正して、補正後の値を代表値として決定する。ここで輝度の補正は、例えば図10に示すようなトーンカーブ(補正関数)を用いて補正することができる。この図10に示すトーンカーブは、入力値(補正前の代表値候補の輝度)が最小値MINから第1しきい値TH1までに対する出力値(補正後の値、つまり代表値として決定される値の輝度)が最小値MINであり、第2しきい値TH2(ただしTH2>TH1)から、最大値MAXまでに対する出力値が最大値MAXであるように設定されている。また、このトーンカーブは、入力値が最大値MAXと最小値MINとの間の中央の値MID(例えば最大値が「255」であり最小値が「0」であるときにはMIDは「128」となる)であるときに、これに対する出力値が略MIDとなるように設定されてもよい。
つまり同一色領域分離部25は、代表値の候補(本実施の形態ではYCbCrで表されることとしている)の輝度成分(Y)について、図10のトーンカーブによる補正を行って、代表値の輝度(Y′)を決定し、このY′と、代表値の候補の色差成分Cb,Crとによって特定される値を代表値として決定する。
なお、代表値候補がRGBなど、輝度成分を含まない色空間で表現されている場合は、L*a*b*や、YCbCrなど、輝度成分を含む色空間の値に変換してから上記処理を行うこととすればよい。
さらに、ここでは輝度のみを補正したが、色差成分についても補正を行ってもよい。具体的に同一色領域分離部25は、代表値候補の各色差成分が所定の条件を満足しているときに、当該代表色候補値の輝度成分値に関する階調数を低減する補正を行い、当該補正後の値を代表値として決定してもよい。
具体的には、図11に示すように、L*a*bの色空間で表現された代表値候補の色差成分(a*、b*)が、それぞれ対応する色差成分の値域の中心値からの所定範囲内(図11のTHa,THbで画定される円の内部)にあるとの条件を満足している場合に、例えば256階調で表現された輝度成分Lを4階調または8階調など所定階調に低減する。この場合、色差成分の値を上記中心値に設定してもよい。ここで、各成分ごとの所定範囲THa,THbは、同じ値であってもよいし、異なる値であってもよい。
この処理により、特に文字色がグレー(黒を含む)である場合に、その文字色の本来の色を再現した代表値が設定される。例えば文字色が黒であるときに色差成分と輝度成分とは本来「0」であるが、スキャナの特性や、元の画像データのエンコード形式(例えばJPEGなど)の特性によっては、色差成分が「0」でなくなってしまったり、輝度成分が「0」でなくなってしまう場合がある。そこでここで示した色差成分に関する処理を行うことで、代表値を本来の黒色とすることができるようになる。
このように本実施の形態によれば、処理対象となった画像データ内に画定される注目画像領域としての基本矩形や行矩形内の画素値に基づいて当該注目画像領域の代表色候補を決定し、その輝度を補正して、代表色を決定することとしている。
なお、ここでは平滑化処理を行った後で、補正処理を行って代表値を決定しているが、この処理順序を逆にして各画素について上記補正処理を行った後で、各画素値の平滑化処理を行ってヒストグラムを演算し、代表値を決定してもよい。なお、ここでは文字の場合を説明したが、線画についても同様の処理が行われることとなる。
こうした平滑化と補正の処理によって、本実施の形態においては、文字や線画を構成する画素値にばらつきがあっても、当該ばらつきの影響を軽減して、元の画像データの色と違和感のない代表色を決定することができる。
つまり、同一色領域分離部25は、基本矩形や線画の外接矩形(以下基本矩形等という)ごとに代表色を決定するとともに、各基本矩形等内の当該代表色部分を黒画素に、それ以外の部分を白画素に設定した二値化画像を生成する。そして当該二値化画像をラスタスキャン順に走査しながら、この二値化画像に対してMMR(Modified Modified Read)などのランレングス圧縮を行って、文字線画圧縮データを生成する。そして同一色領域分離部25は、この決定した代表色の情報(画素値)と基本矩形等の座標情報と当該基本矩形等に関する文字線画圧縮データとを関連づけて、文字線画プレーンデータとして記憶部12に格納する。また、この代表色の情報は、画素値そのものではなく、各画素値を表す識別子の情報(以下、カラータグと呼ぶ)として保持してもよい。
また、同一の行矩形や文字領域に含まれ、かつ代表色の差が予め定めた値未満である複数の基本矩形がある場合は、当該複数の基本矩形を互いに関連づけて同一色行矩形又は同一色文字領域を画定してもよい。
[6.穴埋処理部]
穴埋処理部26は、元の画像データのうち、絵柄候補領域に相当する領域を抽出し、この領域内からレイアウト処理部24の処理で検出された文字の画素(文字を構成する画素)を除去して、絵柄部分画像データを生成する。
穴埋処理部26は、元の画像データのうち、絵柄候補領域に相当する領域を抽出し、この領域内からレイアウト処理部24の処理で検出された文字の画素(文字を構成する画素)を除去して、絵柄部分画像データを生成する。
そして、この絵柄部分画像データの各画素をラスタスキャン順に走査し、走査により選択される注目画素が除去された画素でなければ、当該注目画素の画素値をそのままとするとともに、当該注目画素の画素値を直前画素値として記憶部12のワークメモリに記憶する。なお、既に他の画素値が直前画素値として記憶されている場合は、その記憶内容に上書きする。
また、走査により選択される注目画素が除去された画素である場合、当該注目画素の画素値を、記憶している直前画素値に設定する。これにより除去された部分の画素値が、ラスタスキャン順に直前画素値と同一になり、多くの圧縮処理において圧縮効率を向上させることができるようになる。
そしてこの処理を行った後の絵柄部分画像データを絵柄プレーンデータとして記憶部12に格納する。
[7.圧縮処理部]
圧縮処理部27は、記憶部12に格納されている絵柄プレーンデータを、JPEG圧縮し、圧縮絵柄プレーンデータを生成する。また、この圧縮処理部27は、記憶部12に格納されている文字線画プレーンデータと、この圧縮絵柄プレーンデータとを連結して一連のデータを生成する。
圧縮処理部27は、記憶部12に格納されている絵柄プレーンデータを、JPEG圧縮し、圧縮絵柄プレーンデータを生成する。また、この圧縮処理部27は、記憶部12に格納されている文字線画プレーンデータと、この圧縮絵柄プレーンデータとを連結して一連のデータを生成する。
具体的にこの一連のデータとしては、PDF(Portable Document
Format)データとすることができる。すなわち、圧縮絵柄プレーンデータを伸長して生成したビットマップ(絵柄プレーンデータのビットマップ)を生成させる指示と、当該絵柄プレーンデータのビットマップ上に文字線画プレーンデータに含まれる各文字や線画を描画させる指示とを含むPDFデータとする。
Format)データとすることができる。すなわち、圧縮絵柄プレーンデータを伸長して生成したビットマップ(絵柄プレーンデータのビットマップ)を生成させる指示と、当該絵柄プレーンデータのビットマップ上に文字線画プレーンデータに含まれる各文字や線画を描画させる指示とを含むPDFデータとする。
ここで文字線画プレーンデータに含まれる各文字や線画を描画させる指示は、文字線画圧縮データと、これに関連する代表色の情報と基本矩形等の座標情報との組を一つずつ読み出し、それぞれの組について、文字線画圧縮データを伸長して二値化画像を生成し、この二値化画像の黒画素の色を代表色に設定し、絵柄プレーンデータのビットマップ上において、上記基本矩形等の座標情報として設定された位置に透過合成する指示である。ここで透過合成とは、二値化画像のうち黒画素(代表色に設定された画素)以外の画素については上書きせず、代表色に設定された画素のみを上書きすることをいう。
圧縮処理部27は、この生成したPDFデータを記憶部12に格納し、または画像出力部14にこのPDFデータを出力して、外部の装置に送出させる。
[動作]
本実施の形態の画像処理装置は、上述の構成を有しているので、次のように動作する。ここでは図12(a)に示すような文字部分(T1,T2)と、写真部分(P)と、線画部分としての地図部分(M)とを含むドキュメントが画像入力部13から入力され、このドキュメントの画像データを処理対象とする場合を例として説明する。この図12(a)の例においては写真部分(P)内に文字部分の一部(T2)が重ね合わせられている。また地図部分(M)には、道路線図と文字とが入組んでいる。なお、ここでは便宜的に白黒で示しているが、実際には地図部分の道路線図と文字とは互いに異なる色で表され、写真はカラーで構わない。
本実施の形態の画像処理装置は、上述の構成を有しているので、次のように動作する。ここでは図12(a)に示すような文字部分(T1,T2)と、写真部分(P)と、線画部分としての地図部分(M)とを含むドキュメントが画像入力部13から入力され、このドキュメントの画像データを処理対象とする場合を例として説明する。この図12(a)の例においては写真部分(P)内に文字部分の一部(T2)が重ね合わせられている。また地図部分(M)には、道路線図と文字とが入組んでいる。なお、ここでは便宜的に白黒で示しているが、実際には地図部分の道路線図と文字とは互いに異なる色で表され、写真はカラーで構わない。
前処理部21は、この画像データの画素値を所定色空間(YCbCr)の値に変換する。絵柄候補部分特定処理部22は、この画像データ(元の画像データ)を二値化処理し、その小領域を除去して文字部分(T1)や線図(M)を除去した画像データを生成する(図12(b))。このとき、文字や道路線図のほとんどが除去されるが(部分的に残存しても構わない)、写真部分に重ね合わせられた文字は、そのまま絵柄候補部分として特定された状態となる。
文字線画抽出処理部23は、画像データの地色を基準色として、画像データを構成する画素ごとに、この基準色から各画素の画素値までの色空間上の距離値を算出して、画素値を距離値に変換したデータを生成する。そして、この距離値のデータから、所定の参照範囲内に属する距離値から代表値を算出し、この代表値に基づいて定まるしきい値より大きいか否かにより距離値のデータから、二値化画像データを生成する(特許文献2に開示の方法)。そして、この二値化画像データ内の連結画素に外接する矩形を画定し、例えば、そのうち所定のサイズ範囲にある矩形を選択して、当該選択した矩形を文字線画部分として抽出する(図12(c))。
レイアウト処理部24は、絵柄候補部分内でレイアウト解析処理を行い、絵柄候補部分内に残存する文字部分(T2)を抽出する。同一色領域分離部25は、文字線画抽出処理部23やレイアウト処理部24で抽出された文字部分や線図部分について、その代表色を定める。本実施の形態において特徴的なことの一つは、ここで元の画像データが画像入力部13での読取誤差や元の画像データのエンコードの特性(例えばJPEGエンコードにおけるモスキートノイズ)によって本来一色であった文字線画部分に複数の色が混ざり合う場合があることに配慮し、これらの画素を平滑化し、さらに輝度成分について暗いものをより暗く、明るい部分をより明るくする補正を行うことである。この補正を平滑化処理とともに行うことで、平滑化処理によって輝度部分に生じる変動を抑制し、文字や線画の代表色と元の画像データにおける色と違和感のないように設定できるようになる。なお、色差成分も併せて補正することとしてもよい。
こうして制御部11は、各文字・線画部分(T1,T2,M)のそれぞれについてその領域を画定する座標情報と、その領域内部の画素の代表色を表す情報と、その領域内部で代表色とするべき部分を特定する二値ビットマップデータの圧縮画像とを組とした文字線画プレーンデータを生成する。
穴埋処理部26は、絵柄候補部分から、それに内在していた文字部分(T2)を除去した画像データを生成する(図12(d))。なお、本来は文字部分T2の文字形状通りに白抜きとなるのであるが、図12(d)では図面を見やすくするため当該文字形状を含む矩形部分を白抜きにして図示している。また、図12(d)、(e)は絵柄画像部分のみを図示している。そして穴埋処理部26が当該除去された画素の値を、スキャンライン順で最近傍の画素値(除去されていない画素値)に設定して(図12(e))、絵柄プレーンデータを生成する。
圧縮処理部27は、絵柄プレーンデータについてJPEG圧縮を行い、文字線画プレーンデータと組み合せてPDFデータを生成し、これを画像出力部14に出力する。画像出力部14は、このPDFデータを外部の装置に出力する。
ここで圧縮処理部27は、絵柄プレーンデータについてJPEG圧縮の前に画像のサイズを縮小する処理(縮小処理)を行って圧縮率をより向上させることとしてもよい。
11 制御部、12 記憶部、13 画像入力部、14 画像出力部、21 前処理部、22 絵柄候補部分特定処理部、23 文字線画抽出処理部、24 レイアウト処理部、25 同一色領域分離部、26 穴埋処理部、27 圧縮処理部、31 画素値変換部、32,41 二値化処理部、33 文字線画部分特定部、42 連結画素抽出部、43 基本矩形画定部、44 第1セパレータ検出部、45 行矩形画定部、46 第2セパレータ検出部、47 文字領域画定部、48 ノイズ判定部、49 文字部分特定部。
Claims (5)
- 処理対象となる画像データを二値化する画像処理装置であって、
前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する変換手段と、
前記距離値に関して定められたしきい値に基づいて画像データを二値化する手段と、
を含むことを特徴とする画像処理装置。 - 請求項1に記載の画像処理装置において、
前記変換手段は、地色の座標点Oから変換の対象となる注目画素値の座標点PへのベクトルOPを延長し、色空間の外縁との交点座標Qを決定し、OP間のユークリッド距離を、OQ間のユークリッド距離で除した値を前記距離値として、注目画素値を当該距離値に変換する
ことを特徴とする画像処理装置。 - 請求項1に記載の画像処理装置において、
前記変換手段は、地色を原点とする色空間上での距離値に変換する手段であって、
地色の座標点Oから変換の対象となる注目画素値の座標点PへのベクトルOPの各成分の絶対値のうち最大の値を前記距離値として決定し、注目画素値を当該距離値に変換する
ことを特徴とする画像処理装置。 - 処理対象となる画像データを二値化する画像処理方法であって、
前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する工程と、
前記距離値に関して定められたしきい値に基づいて画像データを二値化する工程と、
を含むことを特徴とする画像処理方法。 - 処理対象となる画像データを二値化する画像処理プログラムであって、
コンピュータに、
前記処理対象の画像データの各画素値を、前記処理対象の画像データに関して定められる地色からの色空間上での距離値に変換する手順と、
前記距離値に関して定められたしきい値に基づいて画像データを二値化する手順と、
を含むことを特徴とする画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004024823A JP2005217983A (ja) | 2004-01-30 | 2004-01-30 | 画像処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004024823A JP2005217983A (ja) | 2004-01-30 | 2004-01-30 | 画像処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005217983A true JP2005217983A (ja) | 2005-08-11 |
Family
ID=34907390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004024823A Pending JP2005217983A (ja) | 2004-01-30 | 2004-01-30 | 画像処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005217983A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015211471A (ja) * | 2014-04-24 | 2015-11-24 | 富士通株式会社 | 画像処理装置及び方法 |
CN112651896A (zh) * | 2020-12-30 | 2021-04-13 | 成都星时代宇航科技有限公司 | 有效矢量范围确定方法、装置、电子设备及可读存储介质 |
-
2004
- 2004-01-30 JP JP2004024823A patent/JP2005217983A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015211471A (ja) * | 2014-04-24 | 2015-11-24 | 富士通株式会社 | 画像処理装置及び方法 |
CN112651896A (zh) * | 2020-12-30 | 2021-04-13 | 成都星时代宇航科技有限公司 | 有效矢量范围确定方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10455117B2 (en) | Image processing apparatus, method, and storage medium | |
US6865290B2 (en) | Method and apparatus for recognizing document image by use of color information | |
US7133565B2 (en) | Image processing apparatus and method | |
JP5337563B2 (ja) | 帳票認識方法および装置 | |
JP6743092B2 (ja) | 画像処理装置、画像処理の制御方法、及びプログラム | |
JP4423333B2 (ja) | 背景領域特定方法、背景領域特定システム、背景色決定方法、制御プログラム、および、記録媒体 | |
JP6370080B2 (ja) | 画像処理装置、画像処理方法及びプログラム。 | |
JP4370950B2 (ja) | 画像処理装置 | |
JP4217969B2 (ja) | 画像処理装置及びプログラム | |
JP4396331B2 (ja) | 画像処理装置 | |
JP4182891B2 (ja) | 画像処理装置 | |
JP4259310B2 (ja) | 画像処理装置及びプログラム | |
JP4507656B2 (ja) | 画像処理装置 | |
JP2005217983A (ja) | 画像処理装置 | |
KR102377056B1 (ko) | 이미지 위조 탐지 장치 및 방법 | |
JP4311183B2 (ja) | 画像処理装置及びプログラム | |
JP4193687B2 (ja) | 画像処理装置及びプログラム | |
JP4227530B2 (ja) | 画像処理装置および画像処理方法およびコンピュータが読み取り可能なプログラムを格納した記憶媒体およびプログラム | |
JP4228905B2 (ja) | 画像処理装置及びプログラム | |
JP4631371B2 (ja) | 画像処理装置 | |
JP4182873B2 (ja) | 画像処理装置及びプログラム | |
JP4329564B2 (ja) | 画像処理装置 | |
JP2005190010A (ja) | 画像処理装置 | |
JP4186832B2 (ja) | 画像処理装置 | |
JP5069599B2 (ja) | 映像変換装置、映像変換方法および映像変換プログラム |