JP2012022575A

JP2012022575A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2012022575A
Application number: JP2010161000A
Authority: JP
Inventors: Koji Maekawa; 浩司前川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-07-15
Filing date: 2010-07-15
Publication date: 2012-02-02
Anticipated expiration: 2030-07-15
Also published as: JP5675194B2

Abstract

【課題】文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う。
【解決手段】入力画像から文字領域を抽出し、歪みを補正する。複数の歪み補正後の文字領域に関する情報を用いて歪み補正後の文字領域に対する補正量を決定し、補正を行う。
【選択図】図２

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関するものである。

近年、デジタルカメラの高性能化によって、デジタルカメラの用途が広がっている。例えば、オフィスユースとしては、ホワイトボードなどに記録された会議記録の取り込み、文書などの紙資料の一次保存のための取り込み、及び撮影したパネルやスライドの再利用を目的とした文字オブジェクトの取り込みのために利用されている。その他、撮影画像の電子ファイル化など、様々な用途にデジタルカメラは利用されるようになった。

このような状況の中、デジタルカメラで取り込んだ紙文書の撮影画像を補正する技術として特許文献１に記載されているようなものがある。この技術によれば、入力画像から文書画像領域の切り出しを行ない、歪み補正画像を生成する。生成した歪み補正画像の輝度情報を元に画像種類の判定を行い、当該判定結果に基づいて明度補正などの画像効果パラメータを適切に選択し、画像補正を行なう。

特開２００５−１２２３１９号公報特開２００２−０４２０５５号公報特開２００８−２５７７１３号公報特許第２６４６３６３号公報特開２００８−０７７４８９号公報特許第４０６５５４５号公報

従来の技術では、デジタルカメラで撮影された画像が文字を含む場合、画像処理を行うと次のような問題があった。

すなわち、画像内の文字領域の配置や大きさに応じた異なる補正処理を行う手段が無いため、特徴の異なる複数の画像に対して同様の補正を行い、電子ファイル生成処理を行なっていた。そのため、例えば補正により文書領域以外の文字領域情報が欠落することがあった。また、例えば、自然画が中心の画像など、文字が主被写体ではない画像に対して補正を行った場合、画像内の小さな文字領域に着目した補正を画像全体に対して行なうため不適切な補正がされる文字領域が存在する場合があった。このような状況がある結果、補正により欠落した文字や不適切に処理された文字領域の文字情報を再利用できないという問題があった。

特許文献１においても、１つの画像内に存在する１つの文字領域に着目して画像全体に対して補正が行われるため、１つの画像内に複数の文字領域が存在する場合、上記と同様の問題が生じていた。

本発明はこのような問題に鑑みてなされたものである。その課題は、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う画像処理装置、画像処理方法及びプログラムを提供することである。

本発明に係る画像処理装置は、入力画像から文字領域を抽出する抽出手段と、前記文字領域の歪みを補正する歪み補正手段と、複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定する手段と、前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正手段とを備えることを特徴とする。

本発明によれば、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う画像処理装置、画像処理方法及びプログラムを提供することができる。

実施例１のシステムの構成を示すブロック図である。実施例１の処理を示すフローチャートである。実施例１の文字領域抽出処理を示すフローチャートである。実施例１の枠候補検出処理を説明するための概念図である。実施例１の文字領域枠抽出処理を示すフローチャートである。実施例１の文字領域抽出処理を説明するための概念図である。実施例１の文字領域抽出処理を説明するための概念図である。実施例１の文字領域抽出処理を説明するための概念図である。実施例１の文字領域歪み補正を説明するための概念図である。実施例１の文字領域情報を説明するための概念図である。実施例１の電子ファイル生成処理を示すフローチャートである。実施例１の画像情報への文字情報付与を説明するための概念図である。実施例１の代表文字領域取得処理を示すフローチャートである。実施例１の電子ファイル生成を説明するための概念図である。実施例１の文字画像自動レイアウトを説明するための概念図である。実施例１の電子ファイル生成処理を説明するための概念図である。実施例１の電子ファイル生成処理を説明するための概念図である。実施例１の画像間補正処理を示すフローチャートである。実施例１の背景前景分離方法を説明するための概念図である。実施例１の代表画像色の取得処理を説明するための概念図である。実施例１の色値情報を説明するための表である。実施例１の前景画像のページ特徴取得処理を説明するための概念図である。実施例１の前景画像の分類方法を説明するための概念図である。実施例１の前景画像の上下方向の位置補正を説明するための概念図である。実施例１の前景画像の左右方向の位置補正を説明するための概念図である。実施例１の画像合成を説明するための概念図である。実施例２のサンプリング補正係数の決定方法を説明するための概念図である。実施例２のサンプリング結果の比較を説明するための概念図である。実施例２のサンプリング補正係数の決定方法を説明するための概念図である。実施例３の背景画像補正方法を説明するための概念図である。

以下、図面を参照して本発明の好適な実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらに限定するものではない。

［システム構成］
図１は、実施例１による画像処理を実施するためのシステムの構成例を示すブロック図である。システム（１）は、画像処理装置（１００）、入力装置（１０４）、及び出力装置（１０５）を備える。画像処理装置（１００）は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）（１０１）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）（１０２）、及び記憶装置（１０３）を備える。

ＣＰＵ（１０１）は、画像処理装置（１００）の処理の全体を制御し、後述する画像処理を制御する制御部である。ＲＡＭ（１０２）は、ＣＰＵ（１０１）による処理のワーク用メモリである。ＣＰＵ（１０１）は、処理プログラムや画像処理装置（１００）の入出力データをＲＡＭ（１０２）上に展開して処理する。記憶装置（１０３）は、処理対象の画像データや処理済の電子ファイルを記憶する記憶部である。

入力装置（１０４）は、画像処理装置（１００）に対して処理データを外部から入力するための装置である。出力装置（１０５）は、画像処理装置（１００）から処理データを外部に出力するための装置である。

デジタルカメラなどの入力装置（１０４）から入力された画像データは、ハードディスクなどの記憶装置（１０３）に入力データ（１０３−２）として記憶される。

記憶装置（１０３）に記憶されている処理プログラム（１０３−１）はＲＡＭ（１０２）上の処理プログラム展開領域（１０２−１）に展開され、ＣＰＵ（１０１）によって実行される。入力データ（１０３−２）は記憶装置（１０３）から呼び出され、ＲＡＭ（１０３）上の入力データ領域（１０２−２）に展開される。ＣＰＵ（１０１）は、処理プログラム（１０３−１）の内容に従って入力データ（１０３−２）に対して処理を施し、ＲＡＭ（１０２）上の出力データ領域（１０２−３）に処理結果を出力する。その後、当該出力は記憶装置（１０３）に出力データ（１０３−３）として保存される。出力データ（１０３−３）は必要に応じてディスプレイやプリンタなどの出力装置（１０５）に出力される。

［処理の概要］
図２を参照して、画像処理装置１において実行される画像処理の流れを説明する。この処理は、ＲＡＭ（１０２）に展開されたプログラムに基づいて、ＣＰＵ（１０１）の制御により行われる。

Ｓ１０１では、入力データとして、複数の文書原稿をデジタルカメラで撮影した画像データが画像処理装置（１００）に入力される。

Ｓ１０２では、入力された画像データの文書原稿に文字が存在するか否かを判定する。文字が存在しない場合、Ｓ１０６へ進み、電子ファイル生成処理を行う。文字が存在する場合、その文字を抽出し、位置やサイズなどの形状情報と共に文字情報として記憶装置１０３に記憶する。画像データから文字を抽出する方法はどのような方法であっても良いが、例えば特許文献２に記載の「カラー文書からの文字認識方法」を用いることができる。その後、画像中の文字領域に注目してＳ１０３以下の処理を行う。

Ｓ１０３では、文字領域の抽出を行う。文字領域の抽出の詳細は、図３を用いて後述する。

Ｓ１０４では、Ｓ１０３で得られた全ての文字領域に対して歪み補正を行う。文字領域枠の歪みを補正することで領域内に存在する文字オブジェクトなどの歪みを補正することが出来る。

歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば特許文献３に記載の「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。

図９に示す概念図を参照して歪み補正について説明する。入力画像（１００１）に対する文字領域抽出処理（Ｓ１０３）の結果、文字領域Ａ（１００２）と文字領域Ｂ（１００３）が得られる。それぞれの領域に対して歪み補正（Ｓ１０４）を行うことにより、文字領域Ａを補正した補正画像Ａ（１００４）と文字領域Ｂを補正した補正画像Ｂ（１００５）を得ることができる。

Ｓ１０５では、まず、入力画像に含まれている全ての文字領域に対する歪み補正後の画像（歪み補正画像）から、入力画像上の文字領域位置情報及びテキスト情報等が取得される。すなわち、歪み補正画像から当該歪み補正画像に関する情報が取得される。本実施例では、文字領域の補正画像内に存在する文字画像に対して文字認識を行い、テキスト情報の抽出を行う。得られた歪み補正画像、文字領域位置情報及びテキスト情報を含む歪み補正画像に関する情報は、文字領域情報として記憶装置（１０３）に記憶される。

図１０には、文字領域情報の例として、補正画像（１１０１）、文字領域位置情報（１１０２）、及びテキスト情報（１１０３）が示されている。テキスト情報（１１０３）の例として、文字コード（１１０４）、入力画像での文字位置（１１０５）、補正画像での文字位置（１１０６）が示されている。

補正画像から取り出す文字領域情報として、テキスト情報以外にも、文字位置情報、ベクトル化した文字画像情報、罫線情報、図形情報などの補正画像に存在する情報を追加することも可能である。

Ｓ１０６では、記憶された文字領域情報又は入力画像を元に電子ファイルを生成する。電子ファイル生成処理詳細は、図１１を用いて後述する。図１１の電子ファイル生成処理では、Ｓ１０５で生成した文字領域情報を入力として、出力画像データを生成する処理が示されている。

Ｓ１０１からＳ１０６の処理を全ての入力画像に対して処理を行う。Ｓ１０１にて入力された１又は複数の画像に対応するデータは、Ｓ１０６にて生成される１つの電子ファイルに含まれている。例えば、１つの入力画像が電子ファイルの１ページとなる。なお、この方法には限定されず、１つの入力画像に対して１つの電子ファイルを生成しても良い。

Ｓ１０７では、Ｓ１０６にて生成された電子ファイルに対して画像間補正処理を行う。画像間補正処理の詳細は、図１８を用いて後述する。画像間補正処理は、電子ファイルに含まれている画像間の所定の特徴の差分を用いて各画像データに対して行う処理である。画像間補正処理は、Ｓ１０６で生成した電子ファイルを入力とし、あらかじめ指定されている画像特徴の差分が小さくなるように補正した画像を含む電子ファイルを出力する。

以上説明したように、Ｓ１０１からＳ１０７を行うことによって、デジタルカメラなどから入力した画像データに対して最適な補正処理を行うことができ、当該画像データに含まれる文字の再利用性を向上させることができる。

［処理の詳細］
次に、図３を参照して、図２における文字領域抽出処理Ｓ１０３の詳細を説明する。

Ｓ２０１では、画像内の文字領域の枠候補となる直線の検出を行う。図４は、当該枠候補となる直線の検出の処理において生成される画像の例を示している。図４（ａ）は入力画像の例を示している。この入力画像に対してエッジ抽出処理を行うことで図４（ｂ）に示されているようなエッジ画像を取得することができる。

図４（ｂ）のエッジ画像から文字エッジ（４０１）と非直線エッジ（４０２）を削除し、直線を検出して、図４（ｃ）の直線エッジ抽出画像を得る。文字エッジ（４０１）の削除は、Ｓ１０２で抽出した文字情報を用いて行う。直線の検出についてはハフ変換を利用する。ハフ変換を利用した直線検出方法としては、限定はしないが、例えば、特許文献４に記載の「簡易型ハフ変換による高速直線群検出方法」を用いる。

次に、得られた直線の間引きを行う。以下の条件を満たす直線を有効直線エッジと判定する。

条件１：エッジ両側の画像色の差が所定の閾値以上である。
条件２：入力画像の大きさと比較して直線エッジの長さが、所定の閾値以上である。
条件３：文字画像と直線が重なっていない。

図４（ｃ）において、直線エッジ４０３は同一背景上に存在するため、このエッジの両側の色の差が閾値以下になる。従って、直線エッジ４０３は条件１を満たさないため間引きの対象である。また直線エッジ４０４は直線の長さが閾値以下である。従って、直線エッジ４０４は条件２を満たさないため間引きの対象である。

上述した図４（ｃ）の直線エッジ抽出画像に対する間引き処理の結果、図４（ｄ）に示すような直線間引き画像を得ることができる。さらに、得られた直線間引き画像中に存在する直線を縦、横、未分類のいずれかに分類する。本実施例では、水平方向を０度、直線の角度をａとした場合、−３０°＜ａ＜＋３０°のときは横線、３０°≦ａ≦６０°又は−３０°≦ａ≦−６０°のときは未分類線、６０°＜ａ＜１２０°のときは縦線として分類する。なお、直線の分類方法はこれに限定されず他の方法であっても良い。

図４（ｅ）は直線成分を縦、横、未分類に分類した結果を示す図である。横線（４０５）を実線、縦線（４０６）を点線、未分類腺（４０７）を二重線で表現している。未分類線は縦線と横線の両方の属性を持つ。図４（ｅ）に示された直線が枠候補となる直線である。直線が枠候補となるためには、縦線及び横線が二本ずつ検出されることが条件になる。

Ｓ２０２では文字領域枠の抽出処理を行う。文字領域枠の抽出処理の詳細は、図５を用いて後述する。文字領域枠抽出処理では、指定された文字に対する文字領域枠を抽出し、文字領域枠に含まれる文字をまとめて文字領域とする。

Ｓ２０３では、Ｓ２０２にて文字領域枠として抽出されなかった枠候補の直線を無効化する処理である。この処理は、後に実行される文字領域枠抽出処理で使用されないようにするためのものである。

図８は枠候補直線および文字候補の無効化の処理を説明するための図である。
Ｓ２０２によって抽出された文字領域枠内に枠候補直線が存在した場合、この枠候補直線は無効な枠候補直線と判定される。

図８（ａ）を参照して、文字領域枠抽出処理Ｓ２０２において、文字領域抽出処理の対象となった文字（９０１）に対して文字領域枠（９０２）が得られた場合について説明する。図８（ａ）の文字領域枠の内側に存在する枠候補直線ａ（９０３）に対して、無効化処理が行われる。図８（ｂ）の無効な枠候補直線ａ（９０７）は当該処理後の線を示している。無効化された枠候補直線は、次回以降の文字領域枠抽出処理の対象から外される。文字領域枠内に枠候補直線が複数存在する場合には、全ての枠候補に対して同様に無効化処理を行う。文字領域枠外に存在する図８（ａ）の枠候補ｂ（９０４）に対しては、無効化の処理を行わないため、次回以降の文字領域枠抽出処理の対象となる。

Ｓ２０４では、文字領域の枠内に存在する文字候補の処理ステータスを処理済に変更する。例えば、図８（ａ）の文字領域枠の内側に存在する文字候補ａ（９０５）のステータスを処理済に変更する。図８ｂの処理済文字候補ａ（９０８）は、当該変更後の文字候補を示している。処理ステータスが処理済に変更された文字候補は、次回以降の文字領域枠抽出処理の対象文字として指定されない。文字領域枠内に文字候補が複数存在する場合には、全ての文字候補について同様に処理ステータスを処理済に変更する。

文字領域枠外に存在する図８（ａ）の文字候補ｂ（９０６）に対しては、処理ステータスの変更を行なわず、次回以降の文字領域枠抽出処理においても対象文字として指定の対象となる。

上述したＳ２０１からＳ２０４の処理を画像内に存在する全ての文字に対して行うことで、文字領域枠を抽出することができる。

次に、図５を参照して、図３の文字領域枠抽出処理Ｓ２０２の詳細を説明する。

まず、Ｓ３０１において、図２のＳ１０２で抽出した文字情報から処理対象の文字を選択する。Ｓ３０２では、処理対象文字を起点として上下左右方向に枠候補を検出する。

図６は文字候補枠の抽出処理を説明するための図である。図６（ａ）に示すように、処理対象文字（６０１）を起点に水平方向に縦線探索（６０２）を行い、垂直方向に横線探索（６０３）を行う。当該探索の結果、図６（ｂ）に示す上方向の横線（６０４）、下方向の横線（６０５）、左方向の縦線（６０６）、及び右方向の縦線（６０７）を得ることができる。

縦線探索（６０２）及び横線探索（６０３）の結果、４方向全ての枠候補直線を検出した場合は、Ｓ３０３へ進む。枠候補直線を検出した方向が３方向以下であった場合には、Ｓ３０８の枠なし文字領域作成処理を行う。図６（ｂ）の例では４方向全ての枠候補の直線が見つかったので、Ｓ３０３の処理を行う。

Ｓ３０３では、見つかった４つの枠候補直線を枠候補探索の基準となる直線として決定し、当該４つの枠候補直線の位置を基準位置として記憶する。

Ｓ３０４では、現在の４つの枠候補直線が文字領域の枠として有効であるかどうかの判定を行う。

本実施例では以下の条件を満たすことを有効枠の条件とする。

条件１：４辺で囲まれた領域であること。
条件２：枠候補線の交点が存在しない場合に、延長した枠候補線と他の（延長した）枠候補線との交点が存在すること。
条件３：交点の内角が１８０度未満であること。
条件４：最終的に得られる４辺の実線部分の長さがそれぞれ閾値以上の長さであること。

図６（ｂ）に示される枠候補である直線６０４から６０７は上記条件を満たしているため、有効枠であると判定される。有効枠として判定された場合、文字領域枠として交点１（６０８）、交点２（６０９）、交点３（６１０）、及び交点４（６１１）をそれぞれ文字領域枠として仮登録し、有効枠の直線を新しい基準位置として記憶する。

Ｓ３０６では、基準位置を基に枠候補の拡張を行う。記憶されている基準位置から上下左右それぞれの方向に拡張できる枠候補直線があるかどうかを探索する。

例えば、上枠を拡張する場合には、基準位置として記憶されている横線（上）（６０４）から、上方向に横線が存在するかどうか探索する。同様に下枠を拡張する場合には、基準位置として記憶されている横線（下）（６０５）から、下方向に横線が存在するかどうか探索する。この例では、横線（６１７）が検出される。

上記処理のように、枠候補を拡張可能な枠候補直線を検出した場合、Ｓ３０４からＳ３０５の処理を繰り返し実行する。

拡張する枠候補直線が存在しない場合には、仮登録した文字領域枠が存在するかどうかの判定を行い、仮登録した文字領域枠がない場合は、Ｓ３０８の枠なし文字領域の作成を行う。仮登録した文字領域枠が存在する場合には、Ｓ３０７の処理を行う。

Ｓ３０７では、仮登録している文字領域枠を文字領域枠として決定し、文字領域情報を記憶装置１０３に記憶する。図６（ｃ）に示す例では、処理対象文字（６０１）に対する文字領域枠の文字領域情報として以下の情報を記憶する。
交点１（６１２）の位置情報（ｘ１、ｙ１）
交点２（６１３）の位置情報（ｘ２、ｙ２）
交点３´（６１４）の位置情報（ｘ３、ｙ３）
交点４´（６１５）の位置情報（ｘ４、ｙ４）

Ｓ３０８では、文字領域枠が存在しないと判定された場合の文字領域の作成処理を行う。図６（ａ）に示す例では、処理対象文字２（６１６）に対する枠候補は、上方向と左方向と下方向の３方向に枠候補が存在するが、右方向には枠候補が存在しない。従って、処理対象文字２（６１６）に対する文字領域枠は存在しないと判定される。

図７（ａ）を参照して、枠なし文字領域の作成処理を説明する。処理対象となる画像の範囲は、図７に示した上方向に検出した枠候補線（７０１）、左方向に検出した枠候補線（７０２）、下方向に検出した枠候補線（７０３）、入力画像の左端に含まれる範囲である。処理対象の画像範囲から文字の外接矩形（７０５）を取得する。隣接する文字の外接矩形のサイズが、あらかじめ決められたサイズ閾値以内で一定であり、文字の外接矩形が直線上に配列されている場合にそれぞれの文字の外接矩形をまとめた領域を文字領域と判定する。

次に、直線上に配列された文字領域に対して、水平消失点（７０６）と垂直消失点（７０７）を取得する。文字領域から消失点を求める方法として、例えば、特許文献５に記載の「画像処理装置、方法、プログラムおよび記憶媒体」を用いることができる。

直線状に配列された文字領域が、画像範囲内に複数存在する場合には、それぞれの文字領域が同一消失点を持つかどうかの判定を行い、同一消失点を持つと判断された場合には、それぞれの文字領域をまとめて１つの文字領域にすることができる。

図７（ｂ）は、枠なし文字領域の文字領域枠を決定する方法を説明するための図である。水平方向の消失点（７０６）および垂直方向の消失点（７０７）から、それぞれの消失点を起点とする直線で文字外接枠（７０８）を決定する。文字外接枠は文字領域として、交点１（７０９）の位置情報（ｘ１、ｙ１）、交点２（７１０）の位置情報（ｘ２、ｙ２）、交点３（７１１）の位置情報（ｘ３、ｙ３）、交点４（７１２）の位置情報（ｘ４、ｙ４）を文字領域情報として記憶装置１０３に記憶する。

図１１を参照して、図２の電子ファイル生成処理Ｓ１０６の詳細を説明する。この処理は、１つの入力画像ごとに行う処理である。

Ｓ４０１では、処理対象の入力画像上に存在する文字領域の全ての文字領域情報を取得する。

Ｓ４０２では、入力画像種別の判定を行う。まず、入力画像に存在する全ての文字領域情報に格納されている補正前の文字領域位置情報から文字領域の画素数総和（文字領域の総面積）（Ｓ）と入力画像の画素数（入力画像面積）（Ｃ）とを求める。次に以下の式により文字領域比率を求める。
文字領域比率（Ｄ）＝文字領域の画素数総和（Ｓ）÷入力画像の画素数（Ｃ）

文字領域比率（Ｄ）が所与の文書画像閾値よりも小さければ、イメージ中心文書と判定し、Ｓ４０３の入力画像に対する文字領域情報付与処理を行う。すなわち、Ｓ４０２の処理によれば、入力画像の面積に対する文字領域の面積の割合を用いて入力画像が文字中心であるか非文字中心であるかを判断する。

Ｓ４０３では、歪み補正後の画像に対して文字領域情報が付与された電子ファイルを生成する。図１２（ａ）に示すように、電子ファイルにおける画像情報と異なる階層に、文字領域情報として「テキスト」情報と、「補正前のテキストの位置」情報を付与する。すなわち、Ｓ４０３の処理によれば、１つ又は複数の歪み補正後の文字領域の全てを出力画像として含み、歪み補正後の文字領域に関する情報（文字領域情報）をメタデータとして含むファイルが生成される。

このように電子ファイルにメタデータを含めることによって、文字領域情報を用いて電子ファイル内の文字領域を検索することができる。検索時には、文字領域情報として付与されているテキスト情報を検索し、補正前の位置情報でテキスト位置を取得することによって、図１２（ｂ）に示すように検索結果を反転表示することが可能である。なお、文字領域比率（Ｄ）が０だった場合、すなわち、入力画像に文字領域が含まれていない場合は、文字領域情報は付与されない。

Ｓ４０２の入力画像種別の判定で、文字領域比率（Ｄ）が文書画像閾値以上の場合、文字中心文書と判定し、Ｓ４０４の代表文字領域取得処理を行う。

Ｓ４０４の処理の詳細は、図１３の代表文字領域取得処理のフローチャートを用いて後述する。代表文字領域とは、入力画像に存在する文字領域のうち、最も代表的な文字領域をいう。代表文字領域は、１つの入力画像に１つ存在するとは限らず、複数存在する場合や画像上に存在しない場合がある。この代表文字領域取得処理において代表文字領域が存在しない場合、処理はＳ４０５へ続く。

Ｓ４０５では、入力画像における文字領域の位置関係を基に、レイアウト生成処理で使用するテンプレートを取得する。

図１４はレイアウトを行うために必要なテンプレート情報の取得処理を説明するための図である。図１４に示すように、入力画像上に、文字領域情報１（１５０１）、文字領域情報２（１５０２）、文字領域情報３（１５０３）の３つの文字領域があった場合について説明する。

この例では、レイアウトする文字領域の数が３つであるので、レイアウトテンプレートＤＢ（１５０４）に格納されている格納テンプレート情報（１５０５）を検索し、レイアウトする領域数が３であるテンプレート情報（１５０８）を取得する。レイアウトテンプレートＤＢ（１５０４）は記憶装置１０３などの記憶部に記憶されている。

Ｓ４０６では、レイアウト生成処理を行う。図１５に示されているように、Ｓ４０５で取得したテンプレート（１６０１）に用意されているオブジェクト領域（１６０３）の各領域に対して、歪み補正した後の文字領域情報の画像（１６０２）をそれぞれ割り当てる。これらの情報により自動レイアウトを行い、生成画像（１６０４）を得て、電子ファイルを生成する。レイアウト生成処理は、限定はしないが、特許文献６に記載の「文書レイアウト方法」を用いることにより、画像情報の生成を行うことができる。

Ｓ４０７では、入力画像内の代表文字領域が一つであった場合の処理を行う。この場合、代表文字領域の歪み補正後の画像を出力画像に決定する。図１６（ａ）の入力画像において、文字領域Ａ（１７０１）を代表文字領域として決定した場合、図１６（ｂ）に示すように、文字領域Ａの文字領域情報に含まれる補正画像を出力画像として出力する。

Ｓ４０８では、代表文字領域以外の文字領域に含まれる文字領域情報を出力画像とは別階層の情報として付与し、電子ファイルを生成する。図１６（ａ）の文字領域Ｂ（１７０２）は非代表文字領域であるので、この非代表文字領域のテキスト情報をメタデータとして図１６（ｂ）の出力画像に付与し、図１６（ｃ）に示すような電子ファイルを生成する。

例えば、図１６（ｄ）は実施例１においてＰＤＦ形式のようにレイヤー構造を持つ形式で出力電子ファイルを生成する例である。出力画像として、図１６（ｂ）を画像レイヤー（１７０４）に指定し、テキストレイヤー（１７０４）には図１６（ａ）文字領域Ａ（１７０１）に含まれるテキスト情報および文字位置情報を指定する。さらに、図１６（ａ）の文字領域Ｂ（１７０２）については、テキスト情報のみをテキストレイヤー（１７０４）に指定する。

すなわち、Ｓ４０７及びＳ４０８の処理によれば、代表文字領域を出力画像として含み、代表文字領域以外の文字領域のテキストデータをメタデータとして含む（又はテキストレイヤーに含む）電子ファイルを生成する。なお、代表文字領域及び非代表文字領域に関する情報をさらにメタデータとして電子ファイルに含めても良い。

Ｓ４０９では、代表文字領域が複数存在した場合のレイアウトテンプレート取得処理を行う。図１７（ａ）の入力画像には、代表文字領域情報１（３１０１）及び代表文字領域情報２（３１０２）の２つの代表文字領域と、非代表表文字領域１（３１０３）及び非代表表文字領域２（３１０４）の２つの非代表文字領域とが存在する。レイアウトテンプレートへの出力対象となる画像は、代表文字領域のみである。レイアウトする文字領域数が２であるテンプレートを取得する。テンプレート取得の方法はＳ４０５と同様である。入力画像における複数の代表文字領域の位置関係を基に、レイアウト生成処理で使用するテンプレート情報を取得する。すなわち、Ｓ４０９の処理によれば、取得したレイアウトテンプレートに定められたレイアウトに従って、出力画像上における複数の代表文字領域の配置が決められる。

Ｓ４１０では、上記取得したテンプレート情報に用意されているオブジェクト領域に対して、歪み補正した後の各代表文字領域情報の画像をオブジェクトとして割り当てる。これらの情報によりレイアウト生成処理を行い、図１７（ｂ）のレイアウト画像を得る。ここで得られるレイアウト画像を出力画像として、処理はＳ４０８へ続く。

Ｓ４０８では、図１７（ｃ）出力電子ファイルに示すように、代表文字領域以外の文字領域をメタデータとして付与して、電子ファイルを生成する。

次に、図１３のフローチャートを参照して、図１１の代表文字領域取得処理Ｓ４０４の詳細な処理の説明を行う。

Ｓ５０１では、処理対象となる文字領域情報を取得する。
Ｓ５０２では、処理対象の文字領域に対して、第１の代表文字領域判定を行う。

本実施例では、第１の文字領域判定条件は次のとおりである。
条件１：補正前の文字領域が入力画像の中心領域を内包する。
条件２：入力画像の画素数（面積）に対する歪み補正前（又は補正後）の文字領域の画素数（面積）の割合が、所定の割合（第１の閾値）以上である。

上記２つの条件を満たす歪み補正後の文字領域を代表文字領域と判定し、Ｓ５０３を行う。条件を満たさない場合、代表文字領域以外と判定し、Ｓ５０４を行う。

本実施例では、第１の代表文字領域の判定条件として、入力画像における面積を使用したが、補正前画像（又は補正後画像）の長さの情報や、文字領域枠の有無、画像中心からの距離などを使用した条件への変更や追加を行ってもよい。

Ｓ５０３では、代表文字領域であると判定された文字領域情報を代表文字領域と設定し、その他の文字領域を非代表文字領域に変更して代表文字領域取得処理を終了する。

第１の文字領域判定条件を満たす文字領域が存在しない場合、Ｓ５０４〜Ｓ５０７の処理では、第１の代表文字領域判定条件に変わる条件を満たす文字領域を代表文字領域と判定する。

まず、Ｓ５０４では、第２の代表文字領域判定を行う。第２の代表文字領域判定条件として本実施例では、入力画像の画素数（面積）に対する文字領域の歪み補正前（又は補正後）の画素数（面積）の割合が予め定められた第２の割合（第２の閾値）以上であることを条件とする。ここで、第２の閾値は、第１の閾値よりも小さい値である。この条件を満たす歪み補正後の文字領域を代表文字領域の候補と判定し、Ｓ５０５を行う。この条件を満たさない場合、代表文字領域以外と判定する。

第２の閾値の大きさを調整することで、代表文字領域の候補の数を増減することが可能である。第２の代表文字領域判定条件においても、第１の代表文字領域の判定条件と同様に、補正前画像の長さの情報や、文字領域枠の有無、画像中心からの距離などを使用した条件への変更や追加を行ってもよい。

Ｓ５０５では、文字領域を代表文字領域の候補として設定する。ここで設定された代表文字領域の候補は、Ｓ５０２の第１の代表文字領域の条件を満たす文字領域が存在した場合は、代表領域にならない。第２の代表文字領域判定（及び後述する第３の代表文字領域判定）は、第１の代表文字領域判定条件を満たす文字領域が存在しない場合に代表文字領域を決定するための処理だからである。

第１の代表文字領域判定条件を満たす文字領域が存在しない場合、全ての文字領域情報について、Ｓ５０１からＳ５０５の処理を繰り返し実行する。

Ｓ５０６では、第３の代表文字領域判定を行う。第３の代表文字領域判定の条件として、本実施例では、代表文字領域の候補として設定された文字領域が複数存在するかどうか判定する。代表字文字領域の候補数が１以下であれば、代表文字領域なしと判定し、代表文字領域取得処理を終了する。代表文字領域の候補数が複数である場合にはＳ５０７の処理を行う。第３の代表文字領域判定の条件はこれに限定されない。例えば、第３の代表文字領域判定の条件として、代表文字領域の候補の面積の総和などを用いてもよい。

Ｓ５０７では、代表文字領域の候補として設定された文字領域を代表文字領域として判定し、この処理を終了する。

すなわち、Ｓ５０４からＳ５０６の処理によれば、入力画像の面積に対する文字領域の面積の割合が第１の閾値以上である文字領域が存在しない場合であっても、第１の閾値より小さい第２の閾値以上の割合である文字領域が複数存在するか否かを判定する。複数存在する場合、Ｓ５０７にて当該複数の文字領域を代表文字領域として決定する。

以上のように図１３に示した処理によれば、第１の代表文字領域判定の条件を満たす文字領域を代表文字領域と判定する。また、第１の代表文字領域判定の条件を満たさない場合であっても、第２及び第３の代表文字領域判定の条件を満たす文字領域を代表文字領域と判定する。

以上、図１１〜図１７を参照して説明した処理によれば、文字領域情報を用いて歪み補正された文字領域の画像が最適に配置され、当該文字領域情報がメタデータとして含まれる電子ファイルを入力画像から生成することが可能となる。

次に、図２の画像間補正Ｓ１０７の詳細を説明する。

まず、図１８のフローチャートを参照して画像間補正の処理の詳細を説明する。

Ｓ６０１では、図２のＳ１０６で生成された電子ファイルの画像に代表文字領域が存在するかどうか判定する。画像間画像補正は、代表文字領域に対して行われるので、代表文字領域が存在しない場合には以下の処理は行わない。

Ｓ６０２では、電子ファイルに含まれている全ての画像から代表文字領域の文字画像を抽出し、当該文字画像からなる前景画像を生成する。さらに、抽出した文字画像以外の画像からなる背景画像を生成する。

図１９を参照して前景背景分離処理を説明する。図１９に示すように、代表文字領域の補正画像ａから、Ｓ１０２の画像判定処理において抽出した文字オブジェクト（１９０１）を前景として抽出し、前景画像ｂを生成する。本実施例では、非文字オブジェクト（１９０２）は前景として処理されず背景画像として扱われる。

次に、代表文字領域の補正画像ａから前景である文字オブジェクトを除去した前景除去画像ｃを生成する。前景除去画像ｃにおいて、文字オブジェクト除去領域（１９０３）の画素情報が不定であるため、文字周辺画素の情報で文字オブジェクト除去領域（１９０３）に対して穴埋め処理を行う。当該穴埋め処理により背景画像ｄを生成する。

以上の処理を電子ファイル内の画像に含まれる全ての代表文字領域に対して行う。生成された１つ又は複数の背景画像に対しては、Ｓ６０３からＳ６０６の処理を行う。生成された１つ又は複数の前景画像に対しては、Ｓ６０７からＳ６１０の処理を行う。

Ｓ６０３では、背景画像に対して背景色のサンプリングを行う。本実施例では、背景画像の輝度情報（Ｙ）及び色情報（Ｒ，Ｇ，Ｂ）に対してサンプリングを行う。

図２０を参照して、代表文字領域の背景色決定処理を説明する。背景画像の前景オブジェクトを除外した領域に対して輝度情報のサンプリングを行い、図２０（ａ）に示すように、各代表文字領域の補正画像毎にヒストグラムを取得する。

取得したヒストグラム情報から、最大度数輝度値（Ｙｐ）を求め、輝度値Ｙｐを中心とする一定の範囲（Ｙｐ−ｎからＹｐ+ｎ）にある領域情報を有効輝度情報（Ｙｅ）として求める。有効輝度情報の平均輝度（Ｙａｖｅ）を計算する。平均輝度（Ｙａｖｅ）は、図２０（ｂ）の平均輝度計算式によって求めることが出来る。

次に、サンプリングした色情報の各色（ＲＧＢ）毎にヒストグラムを求めて、輝度情報と同様に、最大度数Ｒ値（Ｒｐ）、最大度数Ｇ値（Ｇｐ）、最大度数Ｂ値（Ｂｐ）を求める。さらに、各色毎の平均値として、平均Ｒ値（Ｒａｖｅ）、平均Ｇ値（Ｇａｖｅ）、平均Ｂ値（Ｂａｖｅ）をそれぞれ計算する。上記処理を全ての代表文字領域の補正画像について行い、それぞれの平均値を計算する。ここで求めた最大度数色値Ｙｐ、Ｒｐ、Ｇｐ、Ｂｐと、平均色値Ｙａｖｅ、Ｒａｖｅ、Ｇａｖｅ、Ｂａｖｅは色値情報として記憶する。

Ｓ６０４では、代表文字領域のグループを決定する。代表文字領域のグループ化は、Ｓ６０３で求めた平均色が所与のグループ閾値（以下：Ｔｈｇ）以下であるかどうかの判定結果を用いて行う。

図２１は、平均色値情報の例である。平均色値情報には各代表文字領域ごとのそれぞれの色情報の平均値が記憶されている。本実施例では、Ｔｈｇが２０である場合について説明する。

まず、各色情報における平均値の最大値と最小値を求める。輝度値（Ｙ）については、最小輝度（Ｙｍｉｎ）＝１９９、最大輝度（Ｙｍａｘ）＝２０５となり、Ｙｍａｘ−Ｙｍｉｎ＝６となり、Ｔｈｇ以下である。従って輝度値（Ｙ）については、代表文字領域１から４は全て同一グループであると判定できる。

次にＲ値については、最小Ｒ（Ｒｍｉｎ）＝１９０、最大Ｒ（Ｒｍｉｎ）＝２２５となり、Ｒｍａｘ−Ｒｍｉｎ＝３５となり、Ｔｈｇ以上となり同一グループではないと判定される。グルーブの分類は、平均値の最小値と最大値の差が閾値以内になるように行う。従って、Ｒ値は代表文字領域１および２を第一グループに、代表文字領域３および４を第二グループにグループ分けを行う。第一グループにおいて、最小Ｒ（Ｒ(Ｇ１)ｍｉｎ）＝２２０、最大Ｒ（Ｒ(Ｇ１)ｍａｘ）＝２２５となり、（Ｒ(Ｇ１)ｍａｘ）−（Ｒ(Ｇ１)ｍｉｎ）＝５である。従って、平均値の最小値と最大値の差は、Ｔｈｇ以下になる。

同様に第二グループにおいて、最小Ｒ（Ｒ(Ｇ２)ｍｉｎ）＝１９０、最大Ｒ（Ｒ(Ｇ２)ｍａｘ）＝１９５となり、（Ｒ(Ｇ１)ｍａｘ）−（Ｒ(Ｇ１)ｍｉｎ）＝５となる。従って、平均値の最小値と最大値の差はＴｈｇ以下になる。

Ｇ値、Ｂ値についても同様にグループ化を行う。本実施例では、Ｒ値に対してグループ分けされ、代表文字領域１と２を第一グループ、代表文字領域３と４を第二グループに決定することが出来る。すなわち、Ｓ６０４の処理によれば、代表文字領域の特徴を用いて、各代表文字領域をグループに分類する。

Ｓ６０５では、グループ毎に代表色を決定する。各代表文字領域のＲ、Ｇ、Ｂの平均色値から各グループ内の各色毎の平均値を求める。得られた平均値を各グループの代表色として決定する。

第一グループの代表色として、ＲＧＢそれぞれの代表色は以下のようになる。
第一グループＲ値の代表色＝（２２０＋２２５）／２＝２２２．５
第一グループＧ値の代表色＝（２００＋１９０）／２＝１９５．０
第一グループＢ値の代表色＝（１９０＋２００）／２＝１９５．０
同様に第二グループの代表色は、以下のように決定する。
第二グループＲ値の代表色＝（１９０＋１９５）／２＝１９２．５
第二グループＧ値の代表色＝（２０５＋２００）／２＝２０２．５
第二グループＢ値の代表色＝（１９５＋２０５）／２＝２００．０
Ｓ６０６では、グループ毎に背景色の補正を行う。第一グループのＲ値の補正方法について説明する。

背景色の補正は、代表文字領域の最大度数Ｒ値（Ｒｐ）がグループ代表色になるように補正を行う。図２１に示されているように、代表文字領域１のＲｐは２２１であり、Ｓ６０５で計算した第一グループのＲ値の代表色は２２２．５であるので、補正量はＲｐ−Ｒ値代表色＝１．５となる。したがって、代表文字領域１の背景画像全体に対して、Ｒ値を１．５加算する。

同様に代表文字領域２のＲｐは２２５であるので、補正量は−２．５となり、代表文字領域１の背景画像全体に対して、Ｒ値を２．５減算する。

以上の処理を各色情報毎に行うことによって、グループ内で同じ値を最大度数とするように背景色を均一化（補正）することができる。すなわち、代表文字領域をグループに分類し、当該グループ毎に決定した補正量を用いて補正を行う。その結果、同じグループに含まれる背景画像の背景色を統一することが出来る。

さらに、Ｓ６０３からＳ６０６の処理によれば、複数の背景画像に含まれる複数の代表文字領域の特徴の差分を用いて代表文字領域の背景色の補正量を決定し、補正を行う。このような補正によれば、複数の背景画像に含まれる代表文字領域間の背景色を統一することができる。

次に、Ｓ６０７からＳ６１０の前景の補正方法について説明する。本実施例では前景画像の補正のうち特に文字位置の補正方法について説明する。

Ｓ６０７では、前景（文字オブジェクト）を画像形状によってグループ化する。ここで、画像形状とは画像の縦横比である。従って、前景を横長の画像と縦長の画像に分類する。また、文字位置および文字サイズは、画像サイズの影響を受けるため、同じグループ内の前景が同一サイズになるように正規化を行う。

Ｓ６０８では文字位置と文字サイズの関係をサンプリングする。図２２を参照して、前景画像から抽出された前景（文字オブジェクト）の文字位置と文字サイズの関係をサンプリングする処理を説明する。本実施例では、横書きの文字オブジェクトが行方向にレイアウトされている図２２（ａ）に示されている前景画像を例に説明する。

横書きレイアウトの場合、文字サイズは行の高さであり、上下の文字位置は画像の上端を原点とした距離であり、左右の文字位置は画像の左端を原点とした距離である。

縦書きレイアウトの場合、文字サイズは列の幅であり、上下の文字位置は画像の上端を原点とした距離であり、左右の文字位置は画像の右端を原点とした距離である。

図２２（ａ）に示された前景画像から、図２２（ｂ）に示すような上下方向の文字位置とサイズの関係、及び図２２（ｃ）に示すような左右方向の文字位置とサイズの関係を求める。

次に、前景画像における代表文字位置と代表サイズの関係を取得する。
図２２（ｂ）において、文字のサイズが一定である領域を本文領域（２２０１）とする。本文領域の上端からの距離が最も近い位置を本文上端位置（２２０２）とする。本文上端位置（２２０２）を代表文字位置、本文上端位置（２２０２）の文字サイズを代表サイズとして、図２２（ｄ）に示すような上下方向の代表文字位置と代表サイズの関係を取得する。

同様に、図２２（ｃ）において、文字のサイズが一定である領域を本文領域（２２０３）とし、その中で左端からの距離が最も近いものを本文左端位置（２２０４）とする。本文左端位置（２２０４）を代表文字位置、本文左端位置（２２０４）の文字サイズを代表サイズとして、図２２（ｅ）に示すような左右方向の代表文字位置と代表サイズの関係を取得する。

Ｓ６０２で生成した全ての前景画像についてＳ６０７及びＳ６０８の処理を行い、得られた情報を文字サイズ−位置情報として記憶する。

Ｓ６０９では、文字サイズ−位置情報を用いて、前景画像に含まれる文字オブジェクトのグループ化を行う。

図２３を参照して、前景画像に含まれる文字オブジェクトのグループ化処理を説明する。まず、図２３（ａ）に示すように、前景画像毎に、文字オブジェクトの上下方向の文字位置とサイズとの関係を求める。さらに、図２３（ｂ）に示すように、前景画像毎に、文字オブジェクトの左右方向の文字位置とサイズとの関係を求める。

文字位置と文字サイズの関係が、文字位置閾値以内、かつ文字サイズ閾値以内である文字オブジェクトを同一グループと決定する。本実施例では、上下方向の位置補正のためのグループとして、図２３（ａ）に示すようなグループＡ、グループＢ、グループＣを決定する。左右方向の位置補正のためのグループとして、図２３（ｂ）に示すようなグループＤ、グループＥを決定する。すなわち、Ｓ６０９の処理によれば、代表文字領域の特徴である文字オブジェクト（文字画像）の文字位置及び文字サイズを用いて、各文字オブジェクトをグループに分類する。

Ｓ６１０では決定したグループ毎に前景画像に含まれる文字オブジェクトの位置補正を行う。

図２４を参照して、文字オブジェクトの上下方向における位置補正処理を説明する。まず、グループ毎に、上下方向における文字位置の平均値を求める。得られた平均値を補正値として上下方向の位置の補正を行う。補正は、図２４に示すように、グループＡ、グループＢ、及びグループＣに対してそれぞれ得られた補正値を用いて行う。

例えば、前景画像１・グループＡの文字位置はグループＡの補正位置よりも上側に存在するため、文字画像を下方向に移動し、補正位置にそろえる。

前景画像４・グループＡはグループＡ補正位置よりも下側に存在するため、グループに含まれる文字画像を上方向に移動し、補正位置にそろえる。

図２５を参照して、文字オブジェクトの左右方向における位置補正処理を説明する。まず、グループ毎に、左右方向における文字位置の平均値を求める。得られた平均値を補正値として左右方向の位置の補正を行う。補正は、図２５に示すように、グループＤ及びグループＥに対してそれぞれ得られた補正値を用いて行う。前景画像１のグループＤは補正位置よりも左側に存在するため、文字画像を右方向に移動し補正位置にそろえる。前景画像４のグループＤは補正位置よりも右側に存在するため、文字画像を左方向に移動し補正位置にそろえる。このように文字オブジェクトをグループに分類し、当該グループ毎に決定した補正量を用いて補正を行う。そのため、同じグループに属する文字オブジェクトの位置をグループ内で統一した位置に補正することができる。

以上のようにＳ６０７からＳ６１０の処理によれば、複数の前景画像に含まれる複数の文字オブジェクト（文字画像）の位置の差分を用いて位置の補正量を決定し、位置補正を行う。そのため、複数の前景画像間で統一した位置に文字オブジェクトの位置を補正することができる。

また、同じグループに属する文字オブジェクトを同じ位置に補正することによって、より適切な位置補正をすることができる。

Ｓ６１１では、図２６に示すように、背景画像補正を行った背景画像に対して、前景補正を行った前景画像をそれぞれ合成して、出力ファイル画像を生成する。

すなわち、Ｓ６０３からＳ６１１の処理によれば、Ｓ１０６にて生成された電子ファイルの画像に含まれる複数の前景画像及び背景画像の特徴の差分を考慮して補正量を決定し、当該画像に対して補正を行う。

以上説明した本実施形態によれば、入力画像に複数の文字領域が存在している場合であっても、文字の再利用性を向上させる補正処理を行うことができる。また、画像間の背景色や文字の開始位置のバラつきを考慮して補正を行うため、画像の特徴を統一することができる。

すなわち、本実施形態によれば、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行うことができる。

実施例２では、実施例１の画像間補正処理の背景色のサンプリング方法の他の実施例に関して説明する。

一般的な文書画像の特徴として、文字、表、図などの文書オブジェクトは文書周辺部よりも文書中央部に集中して存在する。

図２７は補正係数の決定方法を説明した図である。本実施例２では図２７に示すように、まず、入力画像を分割領域１（２７０１）から分割領域ｎ（２７０２）のｎ個に分割する。分割した領域それぞれに対して予め決められたサンプリング度数を補正する補正係数を指定する。分割領域1に対する補正係数1（２７０３）は２．５、分割領域ｎに対する補正係数ｎ（２７０４）は２．５、文書中央部の分割領域ｉ（２７０５）に対する補正係数ｉ（２７０６）は１．０が指定される。

ここで決定した係数はサンプリングする全ての色情報に対して共通して使用される。例えば、サンプリング処理時に分割領域１に輝度値＝２２０（以降、Ｙ（２２０）と表現する）である画素が存在した場合、Ｙ（２２０）の累積度数には、２．５を加算する。同じように、分割領域ｉでＹ（２２０）である画素が存在した場合、累積度数には１．０を加算する。上記のようにサンプリング度数を補正することによって、画像周辺部分の色情報を強調することが可能となる。

図２８はサンプリング結果の差を説明するための図である。図２８（ａ）の入力画像のように、画像領域における非文字オブジェクト（２８０１）の面積が大きい場合、本実施例１では図２８（ｂ）のような輝度ヒストグラムを得ることができる。実施例１の度数分布では、非文字オブジェクトの度数分布（２８０２）領域に最大度数を持つ輝度値が存在するために、非文字オブジェクトの度数分布を背景色として以降の処理を行う。

図２８は実施例１と実施例２でのサンプリング結果の比較を示した図である。実施例２の度数補正係数により補正しサンプリングを行うと、図２８（ｃ）の輝度ヒストグラムを得ることができる。文書画像周辺の度数が強調されるため、背景領域の度数分布（２８０３）が高くなり、相対的に非文字オブジェクトの度数分布が低くなる。その結果、実施例２では、背景領域の度数分布（２８０３）領域に最大度数を持つ輝度値が存在するために、背景領域の度数分布を背景色として以降の処理を行う。

本実施例２では分割領域の度数の補正係数は中心からの距離によって均等に決められる。例えば一般の横書き文書では左上が書き出し位置になるため、図などの非文字オブジェクトは上よりも下、左よりも右に多くなる傾向がある。このように、あらかじめ文書の特性が分かっている場合においては、分割領域に対して文書特性に応じた補正係数の設定が可能である。

以上説明した実施例２において、入力画像をブロックに分割し、分割領域毎に度数の補正係数像を決めているが、距離に応じた補正値を画素毎に計算することでも同じ効果を得られる。

図２９は実施例２の補正係数の計算方法の例である。図２９に示したように、横方向の画素数（Ｘ）（２９０３）と、縦方向の画素数（Ｙ）（２９０２）から、画像中心（２９０１）の座標（Ｘｃ、Ｙｃ）を求める。任意画素（２９０４）の画素補正係数を求める場合、横方向の補正値（Ｒｈ）の計算式は２９０５の式で求めることができる。同様に、縦方向の補正値（Ｒｖ）の計算式は２９０６の式で求めることができる。任意画素（ｘｉ、ｙｉ）の補正係数（Ｒ）は、２９０７の式によって得ることができる。

このような実施形態をとることで、画素の位置によってサンプリングの度数を変更することが可能となり、背景色をより正確に求めることが可能となる。

実施例３では、実施例１の画像間補正処理のグループごとの背景色の補正方法の変形例について説明する。

図３０は輝度ヒストグラムの補正方法を説明する図である。実施例１において、図３０に示すように、図３０（ａ）の入力画像の輝度ヒストグラムにおいて、代表輝度（３００１）を計算し、画像補正量（−ｎ）（３００２）を求め補正を行う。その結果、図３０（ｂ）に示す補正画像の輝度ヒストグラムの輝度値がｎ以下の領域においてマイナスの輝度値（３００３）が発生する。

この問題を解決するために、図３０（ｃ）に示すように、単純度数加算によって０以下の度数を０とする方法がある。しかしこの場合には輝度値０（３０４）にマイナス輝度値が破産されるために輝度バランスが変更してしまう。

実施例３では任意輝度（Ｙｉ）における補正量の計算方法として、
任意輝度（Ｙｉ）＜代表輝度（Ｙｒ）の場合、
輝度値Ｙにおける補正値（Ｒｙ）＝画像補正量×Ｙｉ／Ｙｒ
任意輝度（Ｙｉ）＞代表輝度（Ｙｒ）の場合、
輝度値Ｙにおける補正値（Ｒｙ）＝画像補正量×（Ｙｍａｘ−Ｙｉ）／（Ｙｍａｘ−Ｙｒ）
Ｙｍａｘ：画像における論理的な輝度の最大値（２５５）
で計算する。

このような実施形態をとることで、図３０（ｄ）に示すように、補正対象となる画像色付近を補正し、その他の色は補正しないように処理することができる。その結果、背景中の非文字オブジェクトに対しては画像色の補正を行わないように制御することが可能となる。

［その他の実施例］
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１０１ＣＰＵ
１０２ＲＡＭ
１０２−１処理プログラム展開領域
１０２−２入力データ領域
１０２−３出力データ領域
１０３記憶装置
１０３−１処理プログラム展開
１０３−２入力データ
１０３−３出力データ
１０４入力装置
１０５出力装置

Claims

入力画像から文字領域を抽出する抽出手段と、
前記文字領域の歪みを補正する歪み補正手段と、
複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定する手段と、
前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正手段と
を備えることを特徴とする画像処理装置。
前記入力画像の面積に対する前記抽出された１又は複数の文字領域の総面積の割合を用いて、前記入力画像が文字中心であるか非文字中心であるかを判定する画像判定手段と、
前記画像判定手段により非文字中心と判定された場合、前記複数の歪み補正後の文字領域の全てを出力画像として含むファイルを生成するファイル生成手段と
を備えることを特徴とする請求項１に記載の画像処理装置。
前記ファイル生成手段によって生成されるファイルは、メタデータとして前記歪み補正後の文字領域に関する情報を含むことを特徴とする請求項２に記載の画像処理装置。
前記画像判定手段によって文字中心であると判定された場合、前記入力画像の面積に対する前記抽出された文字領域の面積の割合が第１の閾値以上である前記歪み補正後の文字領域を代表文字領域と判定する代表文字領域判定手段を備え、
前記ファイル生成手段は、前記判定された前記代表文字領域を出力画像として含むファイルを生成すること
を特徴とする請求項２又は３に記載の画像処理装置。
前記ファイル生成手段によって生成されるファイルは、前記代表文字領域以外の文字領域のテキストデータをメタデータとして含むことを特徴とする請求項４に記載の画像処理装置。
前記代表文字領域判定手段は、前記入力画像の面積に対する前記抽出された文字領域の面積の割合が前記第１の閾値以上である前記文字領域が存在しない場合であって、前記第１の閾値より小さい第２の閾値以上の割合である前記歪み補正後の文字領域が複数存在する場合、当該複数の歪み補正後の文字領域を代表文字領域と判定することを特徴とする請求項４又は５に記載の画像処理装置。
前記ファイル生成手段は、前記判定された前記複数の代表文字領域を出力画像として所定のレイアウトに従って配置するファイルを生成することを特徴とする請求項６に記載の画像処理装置。
前記生成されたファイルに含まれる画像から代表文字領域の文字画像を抽出し、当該文字画像からなる前景画像及び当該文字画像以外の画像からなる背景画像を生成する手段を備え、
前記補正量を決定する手段は、複数の前記背景画像に含まれる複数の前記代表文字領域の特徴の差分を用いて前記代表文字領域の背景色の補正量を決定し、複数の前記前景画像に含まれる複数の前記文字画像の位置の差分を用いて前記文字画像の位置の補正量を決定し、
前記画像間補正手段は、前記背景色及び前記位置の補正量を用いて前記ファイルに含まれる画像に対して補正を行うこと
を特徴とする請求項２から７のいずれか１つに記載の画像処理装置。
前記補正量を決定する手段は、前記代表文字領域の特徴に応じて複数の前記代表文字領域及び複数の前記文字画像のそれぞれをグループに分類し、当該グループごとに当該グループに含まれる前記代表文字領域及び前記文字画像に対する前記補正量を決定することを特徴とする請求項８に記載の画像処理装置。
入力画像から文字領域を抽出する抽出ステップと、
前記文字領域の歪みを補正する歪み補正ステップと、
複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定するステップと、
前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正ステップと
を備えることを特徴とする画像処理装置。
コンピュータに、
入力画像から文字領域を抽出する抽出ステップと、
前記文字領域の歪みを補正する歪み補正ステップと、
複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定するステップと、
前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正ステップと
を実行させるためのプログラム。