JP2005236697A

JP2005236697A - 画像処理装置

Info

Publication number: JP2005236697A
Application number: JP2004043708A
Authority: JP
Inventors: Toshiya Koyama; 俊哉小山
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-02-19
Filing date: 2004-02-19
Publication date: 2005-09-02
Anticipated expiration: 2024-02-19
Also published as: JP4329564B2

Abstract

【課題】元の画像データにおける色の再現性を高めた画像処理装置を提供する。
【解決手段】処理対象となった画像データの少なくとも一部から個々の文字と判断される画素塊を含む基本領域を画定し、画定された基本領域ごとに当該基本領域に含まれる色数を判定し、判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択し、処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定して、当該各処理対象基本領域ごとに決定された代表画素値を用いて、画像データのうち、当該処理対象基本領域内の画素値を限定色化する画像処理装置。
【選択図】図１

Description

本発明は、画像データから文字部分と絵柄部分とを分離して所定処理を行う画像処理装置に関する。

ラスタ画像のデータ（以下、区別するべき場合を除いて単に「画像データ」と呼ぶ）には、文字（テキスト）部分や、自然画の部分（絵柄部分）など、互いに性状の異なる多くの画像要素が含まれ得る。こうした画像要素は、その性状の相違から、例えば圧縮処理において異なる方式での圧縮が適していたりするなど、画像要素ごとに異なる画像処理を行うことが好ましい場合が多い。

そこで従来から、いわゆるＴ／Ｉ分離と呼ばれる画像処理が研究・開発されている。従来、Ｔ／Ｉ分離の方法としては、例えば処理対象画像をニ値化し、黒画素の連続する領域を画定し、当該画定した領域のサイズが予め定めたしきい値を下回る場合に当該領域に含まれる黒画素が文字を表すものと判定する方法等がある（特許文献１）。

また、こうして文字部分として判定された領域については、当該領域に含まれる画素値に基づいてそれらの画素の代表的な色を決定し、各文字を構成する画素の値を当該代表的な色の値に設定することで圧縮率をさらに高めているものがある（特許文献２）。
特開２００３−８９０９号公報（段落番号００２６を参照）特開２００２−１６５１０５号公報特開２００２−１７５５３２号公報

ところが、文字部分として判定される領域全体について、一つの色を決定する上記方法では、例えば殆ど黒文字である中に、強調したい文字だけを赤色文字で表した場合に、全体を構成する画素の殆どが黒色であるために代表的な色が黒色と決定され、上記赤色文字までが黒色に設定されてしまう。

また、グラデーション文字など、１文字の中で複数の色が用いられている場合に、当該グラデーションが失われてしまうという問題点もある。

本発明は上記実情に鑑みて為されたもので、元の画像データにおける色の再現性を高めた画像処理装置を提供することをその目的の一つとする。

上記従来例の問題点を解決するための本発明は、画像処理装置であって、処理対象となった画像データの少なくとも一部から個々の文字と判断される画素塊を含む基本領域を画定する手段と、前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する色数判定手段と、判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する対象選択手段と、前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する代表値決定手段と、を含み、当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴としている。

このように、各基本領域について色数に基づいて処理対象とするか否かが定められるので、グラデーション文字などが限定色化されないように設定できる。

またここで前記基本領域の水平又は垂直方向の配列を含む行領域を画定する手段と、前記行領域ごとに、当該行領域に含まれ、同一の代表画素値が決定された処理対象基本領域を関連づけた色別行領域を生成する手段をさらに含み、各色別行領域ごとに、当該色別行領域内の画素値をＮ色以下に限定色化することで、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することとしてもよい。

さらに、複数の前記基本領域を含む文字領域を画定する手段と、前記文字領域について、同一の代表画素値が決定された処理対象基本領域を関連づけた色別文字領域を生成する手段をさらに含み、各色別文字領域ごとに、当該色別文字領域内の画素値をＮ色以下に限定色化することで、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することとしてもよい。

これにより、色別に文字を含む領域が決定され、元の画像データにおける色の再現性を高めることができる。

さらに、本発明の一態様に係る画像処理方法は、処理対象となった画像データの少なくとも一部に対して、画素塊を特定し、個々の文字と判断される画素塊を含む基本領域を画定する工程と、前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する色数判定工程と、判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する対象選択工程と、前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する代表値決定工程と、を含み、当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴としている。

さらに、本発明の一態様に係るデータ構造は、処理対象となった画像データの少なくとも一部において特定された画素塊について、個々の文字と判断される複数の画素塊を含む領域を画定する情報と、前記領域を画定する情報の一つに関連づけられ、当該領域に含まれる画素のうち、その値が一つの代表値に関連づけられる画素ごとに、当該代表値と当該画素を再現する情報とを関連づけた情報を含む色別領域情報と、を含むことを特徴としている。

さらに、本発明の別の態様に係るプログラムは、コンピュータに、処理対象となった画像データの少なくとも一部に対して、画素塊を特定し、個々の文字と判断される画素塊を含む基本領域を画定する手順と、前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する手順と、判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する手順と、前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する手順と、を実行させ、当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化させることを特徴としている。

本発明の実施の形態に係る画像処理装置は、図１に示すように、制御部１１と記憶部１２と画像入力部１３と画像出力部１４とを含んで構成されている。制御部１１は、記憶部１２に格納されているプログラムに従って動作しており、後に説明する各画像処理を遂行する。この画像処理の内容については、後に詳しく述べる。

記憶部１２は、制御部１１によって実行されるプログラムを保持している。またこの記憶部１２は、制御部１１の処理の過程で生成される各種データ等を格納するワークメモリとしても動作する。具体的にこの記憶部１２は、コンピュータ可読な記録媒体と当該記録媒体に対してデータを書き込み、又は当該記録媒体からデータを読み出す装置（例えばハードディスク装置やメモリ装置）として実装できる。

画像入力部１３は、例えばスキャナであり、原稿を光学的に読み取って得られた画像データを制御部１１に出力する。ここではこの画像入力部１３が出力する画像データにおいて、各画素の値がＲＧＢ（赤、緑、青）の色空間で表現されているとする。画像出力部１４は、制御部１１から入力される指示に従って画像データを出力するもので、例えば画像形成部（プリンタ等）に出力し、又はネットワークを介して外部の装置に送信する等の処理を行うものである。

次に制御部１１の処理の内容について説明する。本実施の形態の制御部１１は、図２に機能的に示すように、画像入力部１３から入力される画像データを処理対象として、この処理対象となった画像データに対して、所定前処理を行う前処理部２１と、絵柄部分の候補となる部分（絵柄候補部分）を特定する絵柄候補部分特定処理部２２と、文字線画を抽出する文字線画抽出処理部２３と、レイアウト処理を遂行するレイアウト処理部２４と、同一色領域分離部２５と、穴埋処理部２６と、圧縮処理部２７とを含んで構成されている。

以下、これら各部について具体的に説明する。

［１．前処理部］
この前処理部２１では、画像入力部１３から入力される画像データ（処理対象画像データ）の各画素の値をＲＧＢからＹＣｂＣｒ（輝度と色差とからなる値）に変換する。具体的には、次の（１）式を用いて変換を行うことができる。なお、ここではＲＧＢの各成分の値は0x00（「0x」は１６進数であることを示す）から0xFFまでの値であるとしている。また、この前処理部２１では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。

［２．絵柄候補領域特定処理部］
絵柄候補部分特定処理部２２は、前処理部２１が出力するＹＣｂＣｒ色空間で表現された画像データから絵柄の領域と推定される領域を、絵柄候補領域として特定する処理を行う。具体的に、絵柄候補部分特定処理部２２の処理方法は、種々の方法があるので、以下そのうちの代表的な２つの方法の例について説明する。

絵柄候補部分特定処理部２２は、図３（ａ）に示すように、二値化処理部３１と、連結画素抽出部３２と、特徴量算出部３３と、属性判定部３４と、非絵柄領域処理部３５と、背景領域塗潰部３６と、絵柄候補領域作成部３７とを含んで構成される。

二値化処理部３１は、前処理部２１が出力するＹＣｂＣｒ色空間で表現された画像データを記憶部１２にコピーして格納する。そして、当該コピーされた画像データ（絵柄領域特定画像データ）の各画素の値を参照しながら、当該画素値の輝度成分と、予め定めた二値化しきい値とを比較して、輝度成分が二値化しきい値以上の画素を黒画素（値「１」）、輝度成分が二値化しきい値未満の画素を白画素（値「０」）としていき、当該絵柄領域特定画像データを二値画像データに変換する。

連結画素抽出部３２は、二値画像データ中から、黒画素が連結している領域（連結領域）を抽出する。この連結領域の抽出は、ラベリング処理として広く知られた処理を用いることができる。ラベリング処理を用いる場合、各連結領域には互いに異なるラベル識別子を付して、記憶部１２に格納しておく。

特徴量算出部３３は、連結画素抽出部３２によって抽出された連結領域の各々について、その所定のスケール特徴量を演算する。ここでスケール特徴量には、連結領域に関係して定められる矩形の面積や、当該矩形内での黒画素の密度（矩形内の黒画素の数を矩形内の全画素の数で除したもの）などを含む。例えば特徴量算出部３３は次のように処理を行う。すなわち特徴量算出部３３は、各連結領域ごとの関係領域として、各連結領域に外接する矩形（外接矩形）を画定する。具体的に外接矩形は、連結領域に含まれる画素のうち、そのＸ座標が最小のもの（絵柄領域特定画像データ中で最も左にあるもの）の当該Ｘ座標をＸminとし、同じくＹ座標が最小のもの（絵柄領域特定画像データ中で最も上にあるもの）の当該Ｙ座標をＹminとし、以下同様にＸ座標が最大のものと、Ｙ座標が最大のものとにおける、Ｘ座標とＹ座標とのそれぞれをＸmax、Ｙmaxとして、（Ｘmin，Ｙmin）から（Ｘmax，Ｙmax）までの線を対角線とする矩形を外接矩形と定める。そして当該外接矩形の面積Ａを、（Ｘmax‐Ｘmin）×（Ｙmax‐Ｙmin）として演算する。なお、この面積Ａは、当該外接矩形に含まれる全画素の数にも等しい。一方、特徴量算出部３３は、当該外接矩形内の黒画素の数をカウントし、その数を上記全画素の数（すなわち面積Ａの値）で除して密度Ｄを求める。

こうして特徴量算出部３３は、各連結領域について、これら外接矩形の面積Ａ（面積特徴量に相当する）と、黒画素密度Ｄ（密度特徴量に相当する）とを、当該連結領域のスケール特徴量として算出する。そして、各連結領域の識別子（例えばラベル識別子）とそのスケール特徴量とを関連づけて、記憶部１２にスケール特徴量データベースとして格納しておく。

属性判定部３４は、記憶部１２に格納されたスケール特徴量データベースを参照しながら、各連結領域が絵柄候補領域であるか否かを判定する。具体的な例を挙げると、この属性判定部３４は、文字であれば一定以上のサイズがあり、その内部の黒画素密度は比較的小さいはずであるとの前提に基づく処理を行う。つまり、一般的なドキュメントで利用されるフォントサイズの最小値（例えば６ポイント）に相当する面積（いわば最小面積）未満の領域（小領域）は、文字を含まない、絵柄の領域と判定できるので、こうした小領域を除去することで文字部分を特定できる。

また、文字は基本的に線からなるので、複雑な文字であっても領域内の画素のうち一定割合以上が黒画素となることはない。そこで、最小面積より大きい面積を有する矩形であっても、その内部で黒画素の数の占める割合（つまり黒画素密度）が比較的大きい場合に、絵柄であると判定できる。

さらに、本実施の形態では、例えば一般的なドキュメントで利用されるフォントサイズの最大値（例えば２４ポイント）に相当する面積（いわば最大面積）以上の場合、文字は含まれないと基本的に判断できる。しかしながら、こうした領域は絵柄だけでなく線図（グラフなど）である場合もある。そこで、ここでも黒画素密度を利用して、最大面積より大きい面積を有する矩形のうち、黒画素密度が比較的大きい場合に限り、絵柄であると判定する。なぜならば、グラフなどの線図は、線を用いて構成されるので黒画素の密度は比較的低くなると推定されるからである。

つまり、本実施の形態では、各連結領域ごとに、その面積特徴量が予め定めた複数の等級のいずれに属するかを判断し、各等級について予め定められた密度しきい値のうち、当該面積特徴量が属する等級に係る密度しきい値と密度特徴量とを比較して、絵柄であるか否かを表す情報（本発明にいう分類情報）を生成する。

具体的に本実施の形態の属性判定部３４は、上記最小面積を表す第１の面積しきい値α１と、最大面積を表す第２の面積しきい値α２（ただし、α１＜α２）並びに、第１、第２の密度しきい値（ρ１，ρ２）を予め定めておき、これらのしきい値を用いて、次のように判定する。

すなわち属性判定部３４は、図４に示すように、スケール特徴量データベースに含まれる連結領域のうち、この処理で未だ選択されていない連結領域の一つを注目領域として選択する（Ｓ１）。そしてこの注目領域に関連づけられたスケール特徴量を読み出して、当該スケール特徴量に含まれる面積Ａが、第１の面積しきい値α１未満となっているか否か（Ａ＜α１か否か）を調べる（Ｓ２）。ここで、Ａ＜α１であれば、注目領域を絵柄領域として判定し、注目領域の識別子（例えばラベル識別子）と、その判定結果（絵柄領域である旨を表す情報）とを関連づけて記憶部１２に格納し（Ｓ３）、スケール特徴量データベース内にこの処理で未だ選択されていない連結領域があるか否かを調べて（Ｓ４）、未選択の連結領域があれば（Ｙｅｓならば）、処理Ｓ１に戻って処理を続ける。また、処理Ｓ４において、未選択の連結領域がなければ（Ｎｏならば）、つまりすべての連結領域について判定を終了したならば、処理を終了する。

また、処理Ｓ２において、Ａ＜α１でなければ、続いて注目領域の面積Ａが第２の面積しきい値α２を越えているか否か（Ａ＞α２であるか否か）を調べ（Ｓ５）、Ａ＞α２であれば、注目領域のスケール特徴量の一つである黒画素密度Ｄが、第１の密度しきい値ρ１未満であるか否か（Ｄ＜ρ１か否か）を調べ（Ｓ６）、Ｄ＜ρ１であれば、注目領域が非絵柄領域である判定して、注目領域の識別子（例えばラベル識別子）と、その判定結果（非絵柄領域である旨を表す情報）とを関連づけて記憶部１２に格納し（Ｓ７）、処理Ｓ４に移行する（Ｙ）。さらに処理Ｓ６において、Ｄ＜ρ１でなければ、処理Ｓ３に移行（Ｘ）して（つまり絵柄領域と判定して）処理を続ける。

また、処理Ｓ５において、Ａ＞α２でなければ、注目領域のスケール特徴量の一つである黒画素密度Ｄが、第２の密度しきい値ρ２未満であるか否か（Ｄ＜ρ２か否か）を調べ（Ｓ８）、Ｄ＜ρ２であれば、処理Ｓ７に移行（Ｚ）して（つまり非絵柄領域と判定して）処理を続け、Ｄ＜ρ２でなければ、処理Ｓ３に移行（Ｘ）して（つまり絵柄領域と判定して）処理を続ける。なお、第１，第２の密度しきい値ρ１，ρ２は、それぞれ実験によって線画等を抽出するのに適した値と、文字等を抽出するのに適した値とに定める。

また、面積特徴量又は面積しきい値の少なくとも一方を、処理対象となっている画像データの解像度に基づいて補正してもよい。例えば面積しきい値α１，α２が解像度ｒ０で設定された値である場合において、処理対象となった画像データの解像度がｒであったとき、第１の面積しきい値α１を（ｒ／ｒ０）×（ｒ／ｒ０）×α１に補正し、第２の面積しきい値α２を（ｒ／ｒ０）×（ｒ／ｒ０）×α２に補正する。

非絵柄領域処理部３５は、属性判定部３４によって生成されて記憶部１２に格納されている、各連結領域ごとの判定結果を参照して、絵柄領域特定画像データのうち、非絵柄領域と判定された連結領域に含まれる黒画素を白画素に変換して、非絵柄領域と背景とが白画素となっている絵柄領域特定画像データを生成する。

背景領域塗潰部３６は、非絵柄領域と背景とが白画素となっている絵柄領域特定画像データに対して、絵柄部分の境界と連結している白画素を、所定の値（白、黒以外の任意の色）で塗りつぶす。ここでは、広く知られているような、閉じた領域（閉曲線で囲まれた内部又は外部）を塗つぶす処理を用いる。絵柄候補領域作成部３７は、背景領域塗潰部３６によって所定の値で塗潰されなかった画素の色を黒に設定する。この絵柄候補領域作成部３７によって黒画素に設定された部分を絵柄候補領域として扱うことになる。

この、小領域除去の方法による絵柄候補部分特定処理部２２の動作について説明する。以下、図５（ａ）に示す画像データを処理対象とする場合を例として説明する。なお、図示の都合上、図５（ａ）においては、全体を線図で示しているが、図５（ａ）には、写真部分Ｐと、テキスト部分Ｔと、線図部分Ｇと、地図などの図版部分Ｍとが含まれているものとする。また、地図Ｍ内には、地図を構成する線分と一部重なり合う文字等が記述されている場合がある（Ｘ）。例えば道路名を示す文字などは、他の道路と重なり合って示されていることも多い。

絵柄候補部分特定処理部２２がこれを二値化処理して（図５（ｂ））、連結画素を抽出し、各連結画素についての特徴量に基づき小領域除去の処理を行う。すると絵柄領域特定画像データは、図５（ｃ）に示すように、テキスト部分（Ｔ）が除かれた状態となる。なお図５においては線図部分Ｇの黒画素密度が比較的高いので、当該線図部分Ｇは除去されずに残存した状態となっている。また、地図部分Ｍ内において線分と重なり合っている文字は、当該重なり合う線分と一体として連結画素として抽出されてしまう。このためこの連結画素を囲む矩形の面積が大きくなり、小領域として除去されず、残存することとなる（図５（ｃ）のＸ）。

絵柄候補部分特定処理部２２は、背景となっている白画素部分Ｂを所定の色で塗潰し（図５（ｄ））、さらにこの所定の色で塗潰された部分以外の部分を黒画素とする。ここで背景となっている部分を塗潰す方法としては、画像データの四隅（左上、右上、左下、右下の四隅）から線分によって仕切られない領域を塗潰す、一般的なペイント処理を利用する方法を採ることができる。そして絵柄候補部分特定処理部２２は、上記所定の色部分を白画素に戻す。すると、図５（ｅ）に示すように、絵柄候補となる部分が黒画素となり、それ以外の部分が白画素となっているような絵柄領域特定画像データが得られることとなる。

また、絵柄候補部分特定処理部２２は、非絵柄領域処理部３５によって絵柄領域特定画像データのうち、非絵柄領域と判定された連結領域に含まれる黒画素を白画素に変換した後の絵柄領域特定画像データに対して、膨張収縮処理を行ってもよい。すなわち、図３（ｂ）に示すように、絵柄候補部分特定処理部２２による処理は機能的に、二値化処理部３１と、連結画素抽出部３２と、特徴量算出部３３と、属性判定部３４と、非絵柄領域処理部３５と、膨張収縮部３８と、背景領域塗潰部３６と、絵柄候補領域作成部３７とを含んで構成されてもよい。

ここで膨張収縮部３８は、非絵柄領域処理部３５によって絵柄領域特定画像データのうち、非絵柄領域と判定された連結領域に含まれる黒画素を白画素に変換した後の絵柄領域特定画像データに含まれる画素を順次注目画素として選択する。

そして膨張収縮部３８は、注目画素の近傍（上下左右の画素からなる４近傍または、周辺８画素の８近傍）に黒画素が一つでもあれば、当該注目画素を黒画素とする処理（膨張処理）を行って、黒画素部分を膨張させて、次の注目画素を選択する。この選択順序は、上から下へとラインを走査し、ライン内は左から右へと走査する順序（いわゆるラスタスキャン順）とすればよい。

膨張収縮部３８は、すべての画素に対する膨張処理を完了すると、再び、各画素を順次注目画素として選択しながら収縮処理を開始する。収縮処理では、注目画素の近傍（４近傍または８近傍）に白画素が一つでもあれば、注目画素を白画素とする。そして、全画素について収縮処理が完了すると、膨張収縮部３８の処理を終了する。

この場合、背景領域塗潰部３６は、膨張収縮部３８によって処理された後の絵柄領域特定画像データに対して、絵柄部分の境界と連結している背景部分の白画素を、所定の値（白、黒以外の任意の色）で塗りつぶすことになる。

このように膨張収縮処理を行うことによって、網点の領域が背景領域と区別されて絵柄領域として認識され易くなる。

本実施の形態では、この絵柄領域候補を特定する処理において文字部分を絵柄と誤判定しても、後に行われるレイアウト処理によって文字部分がさらに抽出されるので、絵柄候補領域の抽出精度が比較的低くても構わない。

なお、ここまでの説明では、背景領域塗潰部３６は、背景部分を所定の色で塗り潰すこととしているが、これに代えて次のようにしてもよい。すなわち、連結領域の抽出にラベリング処理を用いている場合に、当該抽出の際に得られた最大のラベルの値より大きい値（例えば最大のラベル値に１を加えた値）のラベル（背景特定ラベル）を背景部分の画素のラベルに置換えて設定していくこととしてもよい。この場合、絵柄候補領域作成部３７は、当該背景特定ラベルが付されていない画素を黒画素に設定することで、図５（ｅ）に示した絵柄領域特定画像データを生成してもよい。

制御部１１は、特定された絵柄候補領域の各々を規定する座標情報（以下、絵柄候補領域画定情報と呼ぶ）を記憶部１２に格納する。

［３．文字線画抽出処理部］
文字線画抽出処理部２３は、前処理部２１が出力するＹＣｂＣｒ色空間で表現された画像データから文字線画部分を抽出する処理を行う。この処理は、例えば特許文献３に開示されている通りの処理を用いることができる。

そして文字線画抽出部処理部２３は、個々の文字や、線画部分についてそれらを取囲む矩形（文字線画外接矩形）の座標情報を記憶部１２に格納する。

［４．レイアウト処理部］
レイアウト処理部２４は、絵柄候補部分特定処理部２２が生成した絵柄候補領域画定情報と、文字線画抽出処理部２３が生成した文字線画外接矩形の座標情報とを記憶部１２から読み出す。

レイアウト処理部２４は、この絵柄候補領域画定情報によって画定される絵柄候補領域と、文字線画外接矩形の座標情報で画定される文字線画の領域とのそれぞれに対して互いに異なる判定条件を用いてレイアウト解析を行う。

具体的に本実施の形態においては、記憶部１２から読出した絵柄候補領域画定情報によって画定される絵柄候補領域においてレイアウト解析処理を行い、当該絵柄候補領域の中からさらに文字部分の抽出を試みる。そして、抽出された文字部分を除く部分を絵柄領域として画定し、後段の処理に供する。

ここでレイアウト解析処理の処理内容について説明する。レイアウト処理部２４は図６に機能的に示すように、二値化処理部４１と、連結画素抽出部４２と、基本矩形画定部４３と、第１セパレータ検出部４４と、行矩形画定部４５と、第２セパレータ検出部４６と、文字領域画定部４７と、ノイズ判定部４８と、文字部分特定部４９とを含んで構成される。

二値化処理部４１は、前処理部２１が出力するＹＣｂＣｒ色空間で表現された画像データ（元の画像データ）のうち、絵柄候補領域画定情報で画定される領域内の部分的な画像データ（絵柄候補部分データ）を処理対象として、この処理対象となった絵柄候補部分データを二値化して、二値化絵柄候補部分データを生成する。

連結画素抽出部４２は、二値化絵柄候補部分データに対してラベリング処理を行い、所定の条件（例えば黒画素である等の条件）を満足する画素値の画素が連続する部分からなる複数の画素群（連結画素群）を特定する。

基本矩形画定部４３は、連結画素抽出部４２が特定した連結画素群に関する矩形（例えば連結画素群に外接する矩形）を基本矩形として画定し、各連結画素群についての基本矩形の座標情報（当該矩形を画定するための座標情報）を生成する。そして、各基本矩形ごとに固有の識別子を発行し、当該識別子と基本矩形の座標情報とを関連づけて基本矩形データベースとして記憶部１２に格納する。

第１セパレータ検出部４４は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を左から右へと１ライン走査し、一つ下のラインについて同様に（すなわちラスタスキャン順に）走査していき、上記ラベリング処理における所定の条件を満足しない画素値の画素（例えば白画素）が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を（水平方向の）第１セパレータとして検出し、当該第１セパレータを特定する情報（連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい）を生成して記憶部１２に格納する。

また、この第１セパレータ検出部４４は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素をの画素を上から下へと１ライン走査し、一つ右のラインについて同様に走査していき、上記ラベリング処理における所定の条件を満足しない画素値の画素（例えば白画素）が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を（垂直方向の）第１セパレータとして検出し、当該第１セパレータを特定する情報（連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい）を生成して記憶部１２に格納する。

これらの処理において、水平方向閾値や垂直方向閾値は、ユーザが任意に定め得る。水平方向閾値は多段組のレイアウトにおいて各段を分かつための閾値であり、垂直方向閾値は２行以上の文字列を含む文書から、各行を分かつための閾値である。またユーザの設定によるだけでなく、水平方向閾値は基本矩形の幅の統計値（平均）などに基づく所定関数値として、また垂直方向閾値は基本矩形の高さの統計値（平均）などに基づく所定関数値としてそれぞれ定めてもよい。

具体的に第１セパレータは、図７（ａ）に示すような状態で検出されることになる。なお、図７（ａ）では各第１セパレータが相互に隣接して検出された結果として、一つの第１セパレータ領域のように示されている。

行矩形画定部４５は、記憶部１２に格納されている基本矩形の一つを注目基本矩形として選択する。そして、記憶部１２に格納されている基本矩形であって、いままでに注目基本矩形として選択されていない基本矩形を処理対象基本矩形として順次選択しながら、次の処理を行う。

すなわち、注目基本矩形の中心座標（座標情報が対角位置にある各頂点の座標を表している場合、その中点座標）から、処理対象基本矩形の中心座標へのベクトルを算出する。さらに行矩形画定部４５は、ベクトルの大きさ（各成分の二乗和の平方根）から注目基本矩形と処理対象基本矩形との距離を算出する。そして、この算出した距離が予め定めた距離閾値以下となっている場合は、上記算出したベクトルが、検出された第１セパレータのいずれかと交差するか否かを調べる。この処理は２つの線分が交差するか否かを調べる処理として広く知られたものを用いることができる。ここで、上記算出したベクトルが、検出された第１セパレータのいずれとも交差しない場合、注目基本矩形の識別子に、当該処理対象基本矩形の識別子を関連づけて基本矩形関係データベースとして記憶部１２に格納する。

行矩形画定部４５は記憶部１２に格納されている基本矩形について順次注目基本矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた基本矩形関係データベースを参照しながら連鎖的に互いに関連する一連の基本矩形群（複数あってもよい）を特定し、特定された基本矩形群に含まれる基本矩形に外接する矩形を行矩形として画定する（例えば図７（ｂ））。

例えば基本矩形関係データベース内において、識別子が「１」の基本矩形と識別子が「２」の基本矩形とが関連づけられ、また識別子が「２」の基本矩形と識別子が「３」の基本矩形とが関連づけられている場合、行矩形画定部４５は、これらの結果を統合して識別子「１」と「２」と「３」との各基本矩形を一連の基本矩形群として特定する。そして基本矩形群に含まれる基本矩形のうち、その座標情報のｘ（水平方向）の値の最大値と最小値とを抽出し、同じようにｙ（垂直方向）の値の最大値と最小値とを抽出する。そして、抽出されたｘの最小値とｙの最小値とを組とした第一座標と、ｘの最大値とｙの最大値とを組とした第二座標とを、それぞれ左上座標，右下座標とする行矩形を画定する。つまり、行矩形は、この２つの座標値を含む座標情報によって画定される。

行矩形画定部４５は、こうして画定した各行矩形についてそれぞれ固有の識別子を発行し、各識別子とその行矩形の座標情報と当該行矩形に含まれる基本矩形群を特定する情報（各基本矩形の識別子のリストなど）とを関連づけて行矩形データベースとして記憶部１２に格納する。

第２セパレータ検出部４６は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を左から右へと１ライン走査し、一つ下のラインについて同様に（すなわちラスタスキャン順に）走査していき、連結画素抽出部４２でのラベリング処理における所定の条件を満足する画素値の画素（例えば黒画素）が、予め定めた水平方向閾値より多く連続している場合に、当該連続画素部分を（水平方向の）第２セパレータとして検出し、当該第２セパレータを特定する情報（連続画素部分の左端画素の座標と右端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい）を生成して記憶部１２に格納する。

また、この第２セパレータ検出部４６は、処理対象となっている絵柄候補部分データの左上端の画素を初期位置として、各画素を上から下へと１ライン走査し、一つ右のラインについて同様に走査していき、連結画素抽出部４２でのラベリング処理における所定の条件を満足する画素値の画素（例えば黒画素）が、予め定めた垂直方向閾値より多く連続している場合に、当該連続画素部分を（垂直方向の）第２セパレータとして検出し、当該第２セパレータを特定する情報（連続画素部分の上端画素の座標と下端画素の座標など、ここで座標は、元の画像データ上の座標であってもよいし、絵柄候補部分データ上のローカルな座標であってもよい）を生成して記憶部１２に格納する。

文字領域画定部４７は、行矩形画定部４５が画定した行矩形の一つを注目行矩形として選択する。そして文字領域画定部４７は、記憶部１２に格納されている行矩形であって、いままでに注目行矩形として選択されていない行矩形を処理対象行矩形として順次選択しながら、次の処理を行う。

すなわち、注目行矩形の各頂点の座標と処理対象行矩形の対応する頂点の座標とを結ぶ線分、及び注目行矩形と処理対象行矩形の各辺とによって画定される多角形領域を生成し、この多角形領域と第２セパレータ（の領域）とが交差（領域同士が少なくとも一部で重なり合う）するか否かを調べる。この処理は２つの領域が交差するか否かを調べる処理として広く知られたものを用いることができる。

ここで多角形領域と第２セパレータとが交差していない場合、注目行矩形の識別子と処理対象行矩形の識別子とを関連づけて行矩形関係データベースとして記憶部１２に格納する。

文字領域画定部４７は記憶部１２に格納されている行矩形について順次注目行矩形として選択しながら上記処理を行う。そしてこの処理の結果として得られた行矩形関係データベースを参照しながら連鎖的に互いに関連する一連の行矩形群（複数あってもよい）を特定し、特定された行矩形群に含まれる行矩形に外接する矩形を文字領域として画定する。

例えば行矩形関係データベース内において、識別子が「１」の行矩形と識別子が「２」の行矩形とが関連づけられ、また識別子が「２」の行矩形と識別子が「３」の行矩形とが関連づけられている場合、行矩形画定部４５は、これらの結果を統合して識別子「１」と「２」と「３」との各行矩形を一連の行矩形群として特定する。そして行矩形群に含まれる行矩形のうち、その座標情報のｘ（水平方向）の値の最大値と最小値とを抽出し、同じようにｙ（垂直方向）の値の最大値と最小値とを抽出する。そして、抽出されたｘの最小値とｙの最小値とを組とした第一座標と、ｘの最大値とｙの最大値とを組とした第二座標とを、それぞれ左上座標，右下座標とする文字領域の矩形を画定する。つまり、文字領域は、この２つの座標値を含む座標情報によって画定される。

文字領域画定部４７は、こうして画定した文字領域についてそれぞれ固有の識別子を発行し、各識別子とその文字領域の座標情報と当該文字領域に含まれる行矩形群を特定する情報（各行矩形の識別子のリストなど）とを関連づけて文字領域データベースとして記憶部１２に格納する。

ノイズ判定部４８は、文字領域画定部４７によって画定された文字領域のそれぞれについて文字が含まれているか否かを確認する、ノイズ判定処理を行う。ここでノイズ判定処理は、行矩形の数、又は各行矩形の性状を表す情報に基づいて、各行矩形に文字が含まれているか否かを判断する第１ノイズ判定処理と、行矩形に関係する基本矩形に関する情報に基づいて、当該行矩形に文字が含まれているか否かを判断する第２ノイズ処理とを含む。

具体的にノイズ判定部４８の処理は、図８に示すような処理として行われる。まずノイズ判定部４８は記憶部１２に格納された文字領域のうち、未だ注目文字領域として選択されていないものを注目文字領域として選択する（Ｓ１１）。そして注目文字領域に含まれる行矩形の数を調べ、これが２以上か（すなわち、当該文字領域が複数行からなるか）否かを判断する（Ｓ１２）。ここで、行矩形の数が２以上であれば（Ｙｅｓならば）、注目文字領域に含まれる各行矩形の幅と高さ、並びにそれらの平均や標準偏差など、ばらつきを検定するための統計量を演算する（Ｓ１３）。そして、これらの統計量に基づいて各行矩形の幅や高さのばらつきが所定のしきい値より大きいか否かを比較する（Ｓ１４）。この比較は例えば標準偏差が、予め定めたしきい値を超えるか否かの比較とすることができる。そしてこの処理Ｓ１４によって、ばらつきが大きいと判断される場合（Ｙｅｓの場合）、注目文字領域には文字は含まれないと判断して、記憶部１２の文字領域データベースから、注目文字領域を削除して（Ｓ１５）、処理Ｓ１８に移行する。これら処理Ｓ１２からＳ１５の処理が、第１ノイズ判定処理に相当する。すなわちここでは行矩形の性状を表す情報として各行矩形の幅や高さ、並びにそれらの統計量が用いられている。

一方、処理Ｓ１４において、ばらつきが小さいと判断される場合（Ｎｏの場合）には、注目文字領域に含まれる各行矩形に対して行内判定処理（第２ノイズ判定処理）を行う（Ｓ１６）。この処理Ｓ１６の具体的内容については後述する。そしてこの処理Ｓ１６においてノイズ（文字が含まれていない）と判定された行の数と注目文字領域に含まれる行矩形の数との比に基づいて、ノイズと判定された行の数が、注目文字領域に含まれる行矩形の数に比して所定比率以上となっているか否かを判断し（Ｓ１７）、所定比率以上であるときに、注目文字領域には文字は含まれないと判断して、処理Ｓ１５に移行する。

また、処理Ｓ１７において、所定比率未満である場合は、未だ注目文字領域となっていない文字領域が記憶部１２の文字領域データベースにあるか否かを調べ（Ｓ１８）、未選択の文字領域があれば、処理Ｓ１１に戻って処理を続ける。さらに処理Ｓ１８において、未選択の文字領域がないならば（すべての文字領域について処理を行ったならば）、ノイズ判定の処理を終了する。

さらに処理Ｓ１２において行矩形の数が１つであれば（Ｎｏならば）、処理Ｓ１６に移行して処理を続ける。この場合、当該単一の行矩形について文字が含まれているか否かを判断し、文字が含まれていれば（この場合は処理Ｓ１７の比率は「０」となる）、注目文字領域には文字が含まれると判断され、当該単一の行矩形内に文字が含まれていないならば（この場合は処理Ｓ１７の比率は「１」となる）、注目文字領域には文字が含まれないと判断される。

ここで、処理Ｓ１６における具体的処理（第２ノイズ判定処理）の内容について説明する。この処理ではノイズ判定部４８は、図９に示すように、処理の対象となった各行矩形の一つを注目行矩形として選択し（Ｓ２１）、記憶部１２に格納されている行矩形データベースを参照して、当該注目行矩形に含まれる基本矩形の数をカウントする（Ｓ２２）。そしてカウントの結果、基本矩形の数が「１」である場合と、「２」である場合と、「３」以上である場合とに分岐して（Ｓ２３）、基本矩形の数が「１」である場合は、注目行矩形に含まれる基本矩形の識別子のリストを取得し、このリストに含まれる基本矩形の座標情報を記憶部１２の基本矩形データベースから読出して、このリストに含まれる基本矩形の幅及び高さとその積（つまり面積）を演算する。そしてこの面積が予め定められた面積しきい値以下であるか否かを判断し（Ｓ２５）、面積しきい値以下である場合は、注目行矩形には文字が含まれないと判断して、当該結果を記憶部１２に格納する（Ｓ２６）。そして未だ注目行矩形として選択されていない行矩形があるか否かを調べ（Ｓ２７）、未選択の行矩形があれば、当該未選択の行矩形の一つを注目行矩形として選択するべく処理Ｓ２１に戻って処理を続ける。一方、処理Ｓ２７において未選択の行矩形がなければ、処理を終了して図８の処理に戻る。

さらに処理Ｓ２２におけるカウント値が「２」である場合、各基本矩形の面積を演算し、また、これらの基本矩形間の距離を演算する。基本矩形間の距離は、例えば基本矩形の中心同士の距離として演算できる。そして、距離が予め定めた距離しきい値より大きいか、または２つの基本矩形の面積の比が予め定めた面積比しきい値より大きいかを判断し（Ｓ３１）、距離が予め定めた距離しきい値より大きいか、または２つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理Ｓ２６に移行して（Ｘ）処理を続ける。

さらに、処理Ｓ２２におけるカウント値が「３」以上である場合には、カウント値（基本矩形の数）が所定最大数を超えているか否かを判断し（Ｓ３２）、この所定最大数を超える場合は、注目行矩形には文字が含まれないと判断して処理Ｓ２６に移行する（Ｘ）。これは、一行内に例えば１００字を超える文字を含めることは通常あり得ないことなどに配慮したものであり、固定値として定めておいてもよいし、注目行矩形の幅に基づいて調整してもよい。また処理Ｓ３２において基本矩形の数が所定最大数を超えていない場合は、さらに各基本矩形の面積を演算して、演算された面積の最大値が、所定最大面積値を超えているか否かを判断する（Ｓ３４）。ここで所定最大面積値を超えていると判断される場合は、注目行矩形には文字が含まれないと判断して処理Ｓ２６に移行する（Ｘ）。この最大面積値も、固定値として定めてもよいし、注目行矩形の幅や高さの少なくとも一方（例えばそれらのうち小さい方）に基づいて調整してもよい。

さらに処理Ｓ３４において所定最大面積値を超えていないと判断される場合、さらに２つの基本矩形の組み合せ（任意に取り出された少なくとも一つの組み合せ）について、各組み合せに係る２つの基本矩形の面積比が予め定めた面積比しきい値より大きいかを判断し（Ｓ３５）、２つの基本矩形の面積の比が予め定めた面積比しきい値より大きい場合は、処理Ｓ２６に移行して処理を続ける（Ｘ）。

この処理Ｓ３５において２つの基本矩形の面積の比が予め定めた面積比しきい値より大きくない場合は、注目行矩形内に文字が含まれると判断して、その判断結果を記憶部１２に格納し、処理Ｓ２７に移行する。

なお、処理Ｓ２５において、面積が面積しきい値を超える場合、並びに、処理Ｓ３１において、距離が予め定めた距離しきい値以下であり、かつ２つの基本矩形の面積の比が予め定めた面積比しきい値以下である場合には、処理Ｓ３２（または処理Ｓ３４）以下に移行して処理を続けることとする。

また、処理Ｓ３５においては各組み合せについて処理を行っているが、処理負荷を軽減するためには、例えば各基本矩形の面積の平均値（平均面積）や、最小値（最小面積）・最大値（最大面積）を演算し、平均面積と最小面積、平均面積と最大面積との比、あるいは最小面積と最大面積との比と、上記面積比しきい値との比較を行ってもよい。

このように、ノイズ判定部４８は、各行矩形について、そこに含まれる基本矩形の性状（面積、面積比、距離など）に基づき、各行矩形に真に文字が含まれているか否かを再確認する。

なお、ノイズ判定部４８の第１ノイズ判定処理は、ここで述べた例に限られない。例えばここでは行矩形の性状として各行矩形の幅や高さを用いていたが、これらとともに、またはこれらに代えて、行矩形の座標情報（の平均値や標準偏差などの統計量）を用いてもよい。これによると、文字領域内に含まれる行矩形の位置がばらついている場合などに、当該文字領域には文字が含まれていない（ノイズである）と判断して、記憶部１２の文字領域データベースから、注目文字領域を削除することとなる。

文字部分特定部４９は、ノイズ判定部４８の処理を経た文字領域データベースを記憶部１２から読出して、当該文字領域データベースに含まれる文字領域（文字領域の座標情報そのもの）、または当該文字領域内の黒画素部分（文字領域の座標情報と、黒画素部分からなるビットマップ情報）を文字部分として特定し、当該文字部分を特定する情報（文字部分特定情報）を記憶部１２に格納する。制御部１１は、この時点で記憶部１２に格納されている、基本矩形関係データベースや行矩形関係データベースを削除してもよい。

このように、本実施の形態におけるレイアウト処理部２４は、文字から行、行から領域へと段階的に文字領域を画定し、当該画定した文字領域内の行の状態に基づいて文字列が含まれているかを判断し、文字列が含まれていないと判断される場合には、さらに行内（文字単位）の状態に基づいて文字が含まれているかを判断することとしている。尤も、本実施の形態におけるレイアウト処理はこれに限られるものではなく、その他広く知られたレイアウト処理を用いても構わない。

本実施形態において特徴的なことの一つは、いわゆるＴ／Ｉ分離処理においてレイアウト解析を用いて文字部分を抽出することとしていることである。これによって絵柄候補領域に含まれる文字部分もレイアウト解析処理によって抽出されることとなり、文字部分の抽出精度を向上させることができる。

一方、レイアウト処理部２４は、文字線画として画定された部分（文字線画外接矩形）内についても、レイアウト解析処理を行う。そしてレイアウト処理部２４は、当該レイアウト解析処理の結果として得られたレイアウト枠（少なくとも各文字に外接する矩形（基本矩形）を含む）を定め、これらレイアウト枠の情報（座標情報など）を記憶部１２に格納する。

なお、文字線画外接矩形内においても、上記基本矩形を水平または垂直方向に関係づけて得られる行矩形を画定し、この行矩形の座標情報などを記憶部１２に併せて格納してもよい。

制御部１１のレイアウト処理部２４は、記憶部１２に格納された文字部分特定情報と、文字線画外接矩形（またはそれに対するレイアウト処理結果としてのレイアウト枠）とを参照し、処理対象となった画像データ全体について、画像データ内で文字を含む矩形領域の座標情報を生成する。具体的にレイアウト処理部２４は、文字部分特定情報の座標情報で画定される矩形と、文字線画外接矩形情報（またはそれに対するレイアウト処理結果としてのレイアウト枠）で画定される矩形とを結合して、文字線画領域を生成する。すなわち、本実施の形態では絵柄候補領域の画定と、文字線画領域の画定とを別々に行っているため、絵柄候補領域内にも文字線画領域として特定された領域が存在し得る。このためここでこれらの領域を結合して、重複領域を一つの文字線画領域とする。

そしてレイアウト処理部２４は、結合後の各文字線画部分について固有の領域識別子（以下、ラベルデータと呼ぶ）を生成し、このラベルデータと、対応する文字線画領域を画定するための座標情報（頂点座標の情報等）とを関連づけて記憶部１２に文字線画領域データベースとして格納する。

［５．同一色領域分離部］
同一色領域分離部２５は、記憶部１２の文字線画領域データベースに格納されている文字線画領域の各々について、同一の色の文字線画部分のみからなる領域に分割する処理を行う。同一色領域分離部２５は、レイアウト処理の過程で記憶部１２に格納された基本矩形（絵柄候補領域と文字線画領域との双方から画定された矩形）の座標情報を読み出す。そして、処理対象となっている画像データ（元画像データ）のうち、この座標情報で画定される各基本矩形内に含まれる画素値のうち代表値（代表色）の候補を決定する。

本実施の形態における同一色領域分離部２５は、図１０に示すように、色数判定部５１と、第１代表色決定部５２と、第２代表色決定部５３と、限定色化部５４とを含んで構成されている。

色数判定部５１は、記憶部１２に格納された基本矩形（本発明の基本領域に相当する）の座標情報を参照し、それらを順次注目基本矩形として選択しながら、元画像データのうち注目基本矩形内の画素値に基づいて色数をカウントする。具体的にこの色数判定部５１は、元画像データのうち注目基本矩形内の文字部分の画素値のヒストグラム（発生頻度）を生成し、このヒストグラムにおいて所定しきい値（例えば注目基本矩形内の文字部分の画素数の１／３など）を超える頻度で出現する画素値の数をカウントする。

第１代表色決定部５２は、色数判定部５１によってカウントされた色数が所定の整数Ｎ（例えばＮ＝１）以下であるか否かを調べ、色数が所定数Ｎ以下である場合は、注目基本矩形を処理対象として、当該注目基本矩形の画素値に基づいて少なくとも一つの代表画素値を決定する。

またこの第１代表色決定部５２は、色数が所定数Ｎ以下でない場合は、注目基本矩形を処理対象としないこととなる。この場合、同一色領域分離部２５は、当該注目基本矩形の部分を文字線画領域データベースから除去する処理を行って、当該注目基本矩形内の画素を絵柄として扱うこととしてもよい。

なお、代表画素値の決定方法は、色数判定部５１における色数判定の処理と同様に、元画像データのうち注目基本矩形内の文字部分の画素値のヒストグラム（発生頻度）を生成し、このヒストグラムにおいて所定しきい値（例えば注目基本矩形内の文字部分の画素数の１／３など）を超える頻度で出現する画素値を代表画素値として決定し、注目基本矩形を特定する情報（注目基本矩形に固有に発行された識別子）に関連づけて決定した代表画素値を代表画素値データベースとして記憶部１２に格納する。

このように、各基本矩形内の色数に基づいて処理対象とするか否かが定められるので、グラデーション文字などが限定色化されることがない。

第２代表色決定部５３は、記憶部１２に格納されている行矩形データベースを参照して、各行矩形を順次、注目行矩形として選択する。そして注目行矩形に含まれる少なくとも一つの基本矩形の識別子を取り出し、取り出した各識別子に関連づけられた代表画素値を代表画素値データベースから読出す。

以下、ｉ番目の基本矩形についての代表画素値Ｐをａ，ｂ，ｃの３値で張られる色成分（ａ，ｂ，ｃはＬ＊ａ＊ｂ＊やＲＧＢ等の色成分のどれであってもよい）を用いてＰｉ（Ｐｉａ，Ｐｉｂ，Ｐｉｃ）と表現する。また、元の画像データにおいて当該基本矩形内の画素値の各色成分の標準偏差σｉ（σｉａ，σｉｂ，σｉｃ）を演算する。

第２代表色決定部５３は、ｉ番目の基本矩形とｊ（ｉとｊとは互いに等しくないものとする）番目の基本矩形についてのこれらの値、Ｐｉ，σｉ，Ｐｊ，σｊに基づいて色空間内に形成される２つの所定幾何形状を生成し、この２つの幾何形状が色空間上で交差しているか（重なり合う部分があるか）否かによってｉ番目の基本矩形についての代表画素値と、ｊ番目の基本矩形についての代表画素値が同じ色であるか否かを判断する。この幾何形状の交差の有無が本発明の所定均一色条件に相当する。

具体的には、幾何形状として直方体や楕円球を用いることができる。すなわち、直方体（Ｐｉａ±α×σｉａ，Ｐｉｂ±α×σｉｂ，Ｐｉｃ±α×σｉｃ）と、（Ｐｊａ±α×σｊａ，Ｐｊｂ±α×σｊｂ，Ｐｊｃ±α×σｊｃ）とが重なり合う場合に、ｉ番目の基本矩形についての代表画素値と、ｊ番目の基本矩形についての代表画素値が同じ色であると判断してもよい。また、Ｐｉを中心としてσｉの各値を径とする楕円球と、Ｐｊを中心としてσｊの各値を径とする楕円球とが重なり合う場合に、ｉ番目の基本矩形についての代表画素値と、ｊ番目の基本矩形についての代表画素値が同じ色であると判断してもよい。

さらに、標準偏差を演算する際に、色成分（ａ，ｂ，ｃ）に代えて、広く知られた主成分分析によって得られる３つの軸（ａ′，ｂ′，ｃ′）を各成分として、これらの軸方向の標準偏差を演算し、直方体（Ｐｉａ′±α×σｉａ′，Ｐｉｂ′±α×σｉｂ′，Ｐｉｃ′±α×σｉｃ′）と、（Ｐｊａ′±α×σｊａ′，Ｐｊｂ′±α×σｊｂ′，Ｐｊｃ′±α×σｊｃ′）とが重なり合う場合に、ｉ番目の基本矩形についての代表画素値と、ｊ番目の基本矩形についての代表画素値が同じ色であると判断してもよい。

これらにおいてαは、均一色との判定のされ易さを表すパラメータであり、例えば比較の対照となる基本矩形間の距離に応じて変化させてもよい（例えば隣接する基本矩形においてはαの値を大きくして、均一色と判定のされ易くするなど）し、予め定めた一定値としてもよい。

第２代表色決定部５３は、注目行矩形内から取り出した２つの基本矩形の組み合せについて、上記処理によって互いに均一の色であると判断される基本矩形群を少なくとも一つ特定する。そして、特定した基本矩形群ごとに、それらの基本矩形群に含まれる画素を抽出して当該抽出した画素からなる色別行領域を生成する。これにより、行矩形内の画素であって、一つの代表値に関連づけられる画素ごとに、当該代表値と当該画素を再現する情報とを関連づけた情報を含む色別行領域情報が生成され、注目行矩形の識別子に関連づけて記憶部１２に格納される。

限定色化部５４は、記憶部１２に格納されている色別行領域情報ごとに、各色別行領域内の画素値をＮ色以下に限定色化して各画素値を設定する。

次に、図１１を参照しながら、同一色領域分離部２５の動作を説明する。ここでは具体的に図１１（ａ）に示すような２行に配列された文字領域であって、各行の先頭にグラデーションがかけられた円が含まれ、文字の一部に赤色文字（破線で仮想的に囲んだ部分）が含まれるものとする。図１１（ａ）では、各行について行矩形が画定されている状態が示されている。

色数判定部５１は、各文字についての色数を判定する。グラデーションがかけられた円については、複数色が含まれると判定され、他の文字部分については、黒又は赤色の一色と判定される。第１代表色決定部５２は、グラデーションがかけられた円については処理対象から除外し、黒色文字については黒色の代表色を決定し、赤色文字については赤色の代表色を決定する。なお、この第１代表色決定部５２の決定する代表色は、例えば同じ黒色と決定される色であっても、画素値自体は異なっていてもよい。

第２代表色決定部５３は、各行矩形内で、黒色と決定された文字についての基本矩形について、これらの基本矩形内の画素（黒画素）を含んでなる色別行矩形（図１１（ｂ）の（イ），（ハ））と、赤色と決定された文字についての基本矩形について、これらの基本矩形内の画素（赤画素）を含んでなる色別行矩形（図１１（ｂ）の（ロ），（ニ））を生成する。

そして限定色化部５４が、各色別行矩形について当該色別行矩形内の画素値に基づいてＮ色（第１代表色決定部５２が用いる色数Ｎと同一の値）以下の限定色を定める。例えば黒画素を含んでなる色別行矩形については黒色に相当する一つの画素値を限定色として定め、赤画素を含んでなる色別行矩形については赤色に相当する一つの画素値を限定色として定める。また、各色別行矩形内の画素のうち限定色として定められる画素を黒色画素とし、それ以外の画素を白色画素として二値化しておく。これにより、画像データのうち、基本領域内の画素値が限定色化された状態となる。

また、色別行矩形内の二値化画像をラスタスキャン順に走査しながら、この二値化画像に対してＭＭＲ（Modified Modified Read）などのランレングス圧縮を行って、文字線画圧縮データを生成する。そして同一色領域分離部２５は、行矩形の識別子と、当該行矩形に含まれる画素によって得られた色別行矩形とを関連づけ、さらに各色別行矩形とそれについて定めた限定色の情報とを関連づけて、文字線画プレーンデータとして記憶部１２に格納する。また、この限定色の情報は、画素値そのものではなく、各画素値を表す識別子の情報（以下、カラータグと呼ぶ）として保持してもよい。

なお、基本矩形内の画素値がばらついている場合に配慮して、第１代表色決定部５２は、平滑化処理を行ってから代表画素値を決定してもよい。ここで平滑化処理としては、各基本矩形内の各画素を順次注目画素として特定し、注目画素の値とそれに隣接する画素の値との平均値を注目画素の値とする処理などがある。

さらにこの平滑化処理の際に、基本矩形内で文字を構成する画素（例えば二値化処理により黒画素となる部分）のみを注目画素として選択してもよい。また平滑化の処理において、平均値を演算する際は当該文字を構成する画素の値のみを参照して平均値を演算することとしてもよい。これにより、文字以外の部分の画素値を参照することにより、文字の代表色が背景色に影響されることが防止される。

ここで平滑化処理してから決定した代表値について補正を行ってもよい。すなわち、本実施の形態の同一色領域分離部２５は、決定した代表値の候補についてその輝度を補正して、補正後の値を代表値として決定する。ここで輝度の補正は、例えば図１２に示すようなトーンカーブ（補正関数）を用いて補正することができる。この図１２に示すトーンカーブは、入力値（補正前の代表値候補の輝度）が最小値ＭＩＮから第１しきい値ＴＨ１までに対する出力値（補正後の値、つまり代表値として決定される値の輝度）が最小値ＭＩＮであり、第２しきい値ＴＨ２（ただしＴＨ２＞ＴＨ１）から、最大値ＭＡＸまでに対する出力値が最大値ＭＡＸであるように設定されている。また、このトーンカーブは、入力値が最大値ＭＡＸと最小値ＭＩＮとの間の中央の値ＭＩＤ（例えば最大値が「２５５」であり最小値が「０」であるときにはＭＩＤは「１２８」となる）であるときに、これに対する出力値が略ＭＩＤとなるように設定されてもよい。

つまり同一色領域分離部２５は、代表値の候補（本実施の形態ではＹＣｂＣｒで表されることとしている）の輝度成分（Ｙ）について、図１２のトーンカーブによる補正を行って、代表値の輝度（Ｙ′）を決定し、このＹ′と、代表値の候補の色差成分Ｃｂ，Ｃｒとによって特定される値を代表値として決定する。

なお、代表値候補がＲＧＢなど、輝度成分を含まない色空間で表現されている場合は、Ｌ＊ａ＊ｂ＊や、ＹＣｂＣｒなど、輝度成分を含む色空間の値に変換してから上記処理を行うこととすればよい。

さらに、ここでは輝度のみを補正したが、色差成分についても補正を行ってもよい。具体的に同一色領域分離部２５は、代表値候補の各色差成分が所定の条件を満足しているときに、当該代表色候補値の輝度成分値に関する階調数を低減する補正を行い、当該補正後の値を代表値として決定してもよい。

具体的には、図１３に示すように、Ｌ＊ａ＊ｂの色空間で表現された代表値候補の色差成分（ａ＊、ｂ＊）が、それぞれ対応する色差成分の値域の中心値からの所定範囲内（図１３のＴＨａ，ＴＨｂで画定される円の内部）にあるとの条件を満足している場合に、例えば２５６階調で表現された輝度成分Ｌを４階調または８階調など所定階調に低減する。この場合、色差成分の値を上記中心値に設定してもよい。ここで、各成分ごとの所定範囲ＴＨａ，ＴＨｂは、同じ値であってもよいし、異なる値であってもよい。

この処理により、特に文字色がグレー（黒を含む）である場合に、その文字色の本来の色を再現した代表値が設定される。例えば文字色が黒であるときに色差成分と輝度成分とは本来「０」であるが、スキャナの特性や、元の画像データのエンコード形式（例えばＪＰＥＧなど）の特性によっては、色差成分が「０」でなくなってしまったり、輝度成分が「０」でなくなってしまう場合がある。そこでここで示した色差成分に関する処理を行うことで、代表値を本来の黒色とすることができるようになる。

このように本実施の形態によれば、処理対象となった画像データ内に画定される注目画像領域としての基本矩形や行矩形内の画素値に基づいて当該注目画像領域の代表色候補を決定し、その輝度を補正して、代表色を決定することとしている。

なお、ここでは平滑化処理を行った後で、補正処理を行って代表値を決定しているが、この処理順序を逆にして各画素について上記補正処理を行った後で、各画素値の平滑化処理を行ってヒストグラムを演算し、代表値を決定してもよい。なお、ここでは文字の場合を説明したが、線画についても同様の処理が行われることとなる。

こうした平滑化と補正の処理によって、本実施の形態においては、文字や線画を構成する画素値にばらつきがあっても、当該ばらつきの影響を軽減して、元の画像データの色と違和感のない代表色を決定することができる。

さらに、ここまでの説明では行矩形ごと、かつ代表色ごとに限定色化処理を行っているが、色別行矩形ごとに定められた限定色について、さらに上記第２代表色決定部５３におけるのと同様の処理によって互いに均一色と判断される限定色に関連づけられている色別行矩形内の画素を抽出し、当該抽出した画素を含み、文字線画部分を画定する矩形と同一サイズの矩形を、色別文字線画部分データとして生成して、これについてさらに限定色を定めてもよい。すなわち、第２代表色決定部５３と限定色化部５４との間に、第３代表色決定部を設け、行単位で決定した代表色を用いて、文字線画部分の矩形を単位として代表色を再決定するようにしても構わない。

また、色別行矩形を生成する代りに、第２代表色決定部５３が直接、一つの文字線画部分に含まれる基本矩形であって、互いに均一色と判断される代表画素値に関連づけられている基本矩形内の画素を抽出し、当該抽出した画素を含み、文字線画部分を画定する矩形と同一サイズの矩形を、色別文字線画部分データとして生成して、これについて限定色を定めてもよい。

これら色別文字線画部分データを生成する場合は、当該色別文字線画部分データの元となった文字線画部分の識別子と、それぞれ限定色を特定する情報に関連づけられた色別文字線画部分データ（内部の画素値は二値化し、ＭＭＲ符号化してもよい）とを、文字線画プレーンデータとして生成することになる。

［６．穴埋処理部］
穴埋処理部２６は、元の画像データのうち、絵柄候補領域に相当する領域を抽出し、この領域内からレイアウト処理部２４の処理で検出された文字の画素（文字を構成する画素）を除去して、絵柄部分画像データを生成する。

そして、この絵柄部分画像データの各画素をラスタスキャン順に走査し、走査により選択される注目画素が除去された画素でなければ、当該注目画素の画素値をそのままとするとともに、当該注目画素の画素値を直前画素値として記憶部１２のワークメモリに記憶する。なお、既に他の画素値が直前画素値として記憶されている場合は、その記憶内容に上書きする。

また、走査により選択される注目画素が除去された画素である場合、当該注目画素の画素値を、記憶している直前画素値に設定する。これにより除去された部分の画素値が、ラスタスキャン順に直前画素値と同一になり、多くの圧縮処理において圧縮効率を向上させることができるようになる。

そしてこの処理を行った後の絵柄部分画像データを絵柄プレーンデータとして記憶部１２に格納する。

［７．圧縮処理部］
圧縮処理部２７は、記憶部１２に格納されている絵柄プレーンデータを、ＪＰＥＧ圧縮し、圧縮絵柄プレーンデータを生成する。また、この圧縮処理部２７は、記憶部１２に格納されている文字線画プレーンデータと、この圧縮絵柄プレーンデータとを連結して一連のデータを生成する。

具体的にこの一連のデータとしては、ＰＤＦ（Portable Document Format）データとすることができる。すなわち、圧縮絵柄プレーンデータを伸長して生成したビットマップ（絵柄プレーンデータのビットマップ）を生成させる指示と、当該絵柄プレーンデータのビットマップ上に文字線画プレーンデータに含まれる各文字や線画を描画させる指示とを含むＰＤＦデータとする。

ここで文字線画プレーンデータに含まれる各文字や線画を描画させる指示は、文字線画圧縮データと、これに関連する代表色の情報と基本矩形等の座標情報との組を一つずつ読み出し、それぞれの組について、文字線画圧縮データを伸長して二値化画像を生成し、この二値化画像の黒画素の色を代表色に設定し、絵柄プレーンデータのビットマップ上において、上記基本矩形等の座標情報として設定された位置に透過合成する指示である。ここで透過合成とは、二値化画像のうち黒画素（代表色に設定された画素）以外の画素については上書きせず、代表色に設定された画素のみを上書きすることをいう。

圧縮処理部２７は、この生成したＰＤＦデータを記憶部１２に格納し、または画像出力部１４にこのＰＤＦデータを出力して、外部の装置に送出させる。

［動作］
本実施の形態の画像処理装置は、上述の構成を有しているので、次のように動作する。ここでは図１４（ａ）に示すような文字部分（Ｔ１，Ｔ２）と、写真部分（Ｐ）と、線画部分としての地図部分（Ｍ）とを含むドキュメントが画像入力部１３から入力され、このドキュメントの画像データを処理対象とする場合を例として説明する。この図１４（ａ）の例においては写真部分（Ｐ）内に文字部分の一部（Ｔ２）が重ね合わせられている。また地図部分（Ｍ）には、道路線図と文字とが入組んでいる。なお、ここでは便宜的に白黒で示しているが、実際には地図部分の道路線図と文字とは互いに異なる色で表され、写真はカラーで構わない。

前処理部２１は、この画像データの画素値を所定色空間（ＹＣｂＣｒ）の値に変換する。絵柄候補部分特定処理部２２は、この画像データ（元の画像データ）を二値化処理し、その小領域を除去して文字部分（Ｔ１）や線図（Ｍ）を除去した画像データを生成する（図１４（ｂ））。このとき、文字や道路線図のほとんどが除去されるが（部分的に残存しても構わない）、写真部分に重ね合わせられた文字は、そのまま絵柄候補部分として特定された状態となる。

文字線画抽出処理部２３は、元の画像データを二値化し、小領域部分を特定するなどの方法で文字線画部分を抽出する。この際において、元の画像データを複数の領域に分割し、分割して得られた各領域ごとに二値化のしきい値を適応的に定める方法（特許文献３に開示の方法など）によって二値化を行うことで、地図等着色された部分からも文字の抽出を可能としている（図１４（ｃ））。

レイアウト処理部２４は、絵柄候補部分内でレイアウト解析処理を行い、絵柄候補部分内に残存する文字部分（Ｔ２）を抽出する。同一色領域分離部２５は、文字線画抽出処理部２３やレイアウト処理部２４で抽出された文字部分や線図部分について、その代表色を定める。本実施の形態において特徴的なことの一つは、ここで文字部分の代表色が、個々の文字から段階的に、行矩形を経て文字部分全体へとレイアウト解析処理において得られた領域の包含関係に従って定められ、代表色別に矩形内の画素を再現する情報（ビットマップそのものや、ビットマップの圧縮結果など）が生成されることである。

すなわち、本実施の形態では、制御部１１は、個々の文字と判断される複数の画素塊を含む領域（少なくとも文字部分（Ｔ１，Ｔ２）に相当する領域）を画定する情報がレイアウト解析処理によって生成され、当該生成された領域を画定する情報の一つに関連づけられ、当該領域に含まれる画素のうち、その値が一つの代表値に関連づけられる画素ごとに、当該代表値と当該画素を再現する情報とを関連づけた情報を含む色別領域情報とを含んでなるデータが文字線画プレーンデータとして生成される。またこの際に、所定数以上の複数の色からなる文字部分（例えばグラデーションが付された文字など）については限定色化処理が行われず、例えば文字部分からも排除されて、後に絵柄領域として扱われるように設定する。なお線画部分（Ｍ）については、その領域を画定する座標情報を別途生成してもよい。

穴埋処理部２６は、絵柄候補部分から、それに内在していた文字部分（Ｔ２）を除去した画像データを生成する（図１４（ｄ））。なお、本来は文字部分Ｔ２の文字形状通りに白抜きとなるのであるが、図１４（ｄ）では図面を見やすくするため当該文字形状を含む矩形部分を白抜きにして図示している。また、図１４（ｄ）、（ｅ）は絵柄画像部分のみを図示している。そして穴埋処理部２６が当該除去された画素の値を、スキャンライン順で最近傍の画素値（除去されていない画素値）に設定して（図１４（ｅ））、絵柄プレーンデータを生成する。

圧縮処理部２７は、絵柄プレーンデータについてＪＰＥＧ圧縮を行い、文字線画プレーンデータと組み合せてＰＤＦデータを生成し、これを画像出力部１４に出力する。画像出力部１４は、このＰＤＦデータを外部の装置に出力する。

ここで圧縮処理部２７は、絵柄プレーンデータについてＪＰＥＧ圧縮の前に画像のサイズを縮小する処理（縮小処理）を行って圧縮率をより向上させることとしてもよい。

本発明の実施の形態に係る画像処理装置の一例を表す構成ブロック図である。本発明の実施の形態に係る画像処理装置の制御部によって実行される処理内容を表す機能ブロック図である。絵柄候補部分特定処理部２２の処理内容例を表す機能ブロック図である。属性判定部３４の処理例を表すフローチャート図である。絵柄候補部分特定処理部２２の処理例を表す説明図である。レイアウト処理部２４の処理内容例を表す機能ブロック図である。レイアウト処理部２４の処理例を表す説明図である。ノイズ判定部４８の処理例を表すフローチャート図である。ノイズ判定部４８の処理例を表すフローチャート図である。同一色領域分離部２５の処理内容例を表す機能ブロック図である。同一色領域分離部２５の処理例を表す説明図である。同一色領域分離部２５において利用されるトーンカーブの例を表す説明図である。同一色領域分離部２５における補正処理の処理条件を表す説明図である。本発明の実施の形態に係る画像処理装置の処理例を表す説明図である。

符号の説明

１１制御部、１２記憶部、１３画像入力部、１４画像出力部、２１前処理部、２２絵柄候補部分特定処理部、２３文字線画抽出処理部、２４レイアウト処理部、２５同一色領域分離部、２６穴埋処理部、２７圧縮処理部、３１，４１二値化処理部、３２，４２連結画素抽出部、３３特徴量算出部、３４属性判定部、３５非絵柄領域処理部、３６背景領域塗潰部、３７絵柄候補領域作成部、３８膨張収縮部、４３基本矩形画定部、４４第１セパレータ検出部、４５行矩形画定部、４６第２セパレータ検出部、４７文字領域画定部、４８ノイズ判定部、４９文字部分特定部、５１色数判定部、５２第１代表色決定部、５３第２代表色決定部、５４限定色化部。

Claims

処理対象となった画像データの少なくとも一部から個々の文字と判断される画素塊を含む基本領域を画定する手段と、
前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する色数判定手段と、
判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する対象選択手段と、
前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する代表値決定手段と、
を含み、
当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴とする画像処理装置。
請求項１に記載の画像処理装置において、
前記基本領域の水平又は垂直方向の配列を含む行領域を画定する手段と、
前記行領域ごとに、当該行領域に含まれ、互いに所定均一色条件を満足する代表画素値が決定された処理対象基本領域について、当該処理対象基本領域内の画素を抽出して、当該抽出した画素からなる色別行領域を生成する手段をさらに含み、
各色別行領域ごとに、当該色別行領域内の画素値をＮ色以下に限定色化することで、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴とする画像処理装置。
請求項１に記載の画像処理装置において、
複数の前記基本領域を含む文字領域を画定する手段と、
前記文字領域について、同一の代表画素値が決定された処理対象基本領域内の画素を抽出して、当該抽出した画素からなる色別文字領域を生成する手段をさらに含み、
各色別文字領域ごとに、当該色別文字領域内の画素値をＮ色以下に限定色化することで、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴とする画像処理装置。
処理対象となった画像データの少なくとも一部から個々の文字と判断される画素塊を含む基本領域を画定する工程と、
前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する色数判定工程と、
判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する対象選択工程と、
前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する代表値決定工程と、
を含み、
当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化することを特徴とする画像処理方法。
処理対象となった画像データの少なくとも一部において特定された画素塊について、個々の文字と判断される複数の画素塊を含む領域を画定する情報と、
前記領域を画定する情報の一つに関連づけられ、当該領域に含まれる画素のうち、その値が一つの代表値に関連づけられる画素ごとに、当該代表値と当該画素を再現する情報とを関連づけた情報を含む色別領域情報と、
を含むデータ構造。
コンピュータに、
処理対象となった画像データの少なくとも一部から個々の文字と判断される画素塊を含む基本領域を画定する手順と、
前記画定された基本領域ごとに当該基本領域に含まれる色数を判定する手順と、
判定した色数が所定数Ｎ以下である基本領域を処理対象基本領域として選択する手順と、
前記処理対象基本領域について、当該領域内の画素値に基づいて少なくとも１つの代表画素値を決定する手順と、
を実行させ、
当該各処理対象基本領域ごとに決定された代表画素値を用いて、前記画像データのうち、当該処理対象基本領域内の画素値を限定色化させることを特徴とする画像処理プログラム。