JP2012022575A - 画像処理装置、画像処理方法及びプログラム - Google Patents

画像処理装置、画像処理方法及びプログラム Download PDF

Info

Publication number
JP2012022575A
JP2012022575A JP2010161000A JP2010161000A JP2012022575A JP 2012022575 A JP2012022575 A JP 2012022575A JP 2010161000 A JP2010161000 A JP 2010161000A JP 2010161000 A JP2010161000 A JP 2010161000A JP 2012022575 A JP2012022575 A JP 2012022575A
Authority
JP
Japan
Prior art keywords
character
image
correction
area
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010161000A
Other languages
English (en)
Other versions
JP5675194B2 (ja
JP2012022575A5 (ja
Inventor
Koji Maekawa
浩司 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010161000A priority Critical patent/JP5675194B2/ja
Publication of JP2012022575A publication Critical patent/JP2012022575A/ja
Publication of JP2012022575A5 publication Critical patent/JP2012022575A5/ja
Application granted granted Critical
Publication of JP5675194B2 publication Critical patent/JP5675194B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う。
【解決手段】入力画像から文字領域を抽出し、歪みを補正する。複数の歪み補正後の文字領域に関する情報を用いて歪み補正後の文字領域に対する補正量を決定し、補正を行う。
【選択図】図2

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関するものである。
近年、デジタルカメラの高性能化によって、デジタルカメラの用途が広がっている。例えば、オフィスユースとしては、ホワイトボードなどに記録された会議記録の取り込み、文書などの紙資料の一次保存のための取り込み、及び撮影したパネルやスライドの再利用を目的とした文字オブジェクトの取り込みのために利用されている。その他、撮影画像の電子ファイル化など、様々な用途にデジタルカメラは利用されるようになった。
このような状況の中、デジタルカメラで取り込んだ紙文書の撮影画像を補正する技術として特許文献1に記載されているようなものがある。この技術によれば、入力画像から文書画像領域の切り出しを行ない、歪み補正画像を生成する。生成した歪み補正画像の輝度情報を元に画像種類の判定を行い、当該判定結果に基づいて明度補正などの画像効果パラメータを適切に選択し、画像補正を行なう。
特開2005−122319号公報 特開2002−042055号公報 特開2008−257713号公報 特許第2646363号公報 特開2008−077489号公報 特許第4065545号公報
従来の技術では、デジタルカメラで撮影された画像が文字を含む場合、画像処理を行うと次のような問題があった。
すなわち、画像内の文字領域の配置や大きさに応じた異なる補正処理を行う手段が無いため、特徴の異なる複数の画像に対して同様の補正を行い、電子ファイル生成処理を行なっていた。そのため、例えば補正により文書領域以外の文字領域情報が欠落することがあった。また、例えば、自然画が中心の画像など、文字が主被写体ではない画像に対して補正を行った場合、画像内の小さな文字領域に着目した補正を画像全体に対して行なうため不適切な補正がされる文字領域が存在する場合があった。このような状況がある結果、補正により欠落した文字や不適切に処理された文字領域の文字情報を再利用できないという問題があった。
特許文献1においても、1つの画像内に存在する1つの文字領域に着目して画像全体に対して補正が行われるため、1つの画像内に複数の文字領域が存在する場合、上記と同様の問題が生じていた。
本発明はこのような問題に鑑みてなされたものである。その課題は、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う画像処理装置、画像処理方法及びプログラムを提供することである。
本発明に係る画像処理装置は、入力画像から文字領域を抽出する抽出手段と、前記文字領域の歪みを補正する歪み補正手段と、複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定する手段と、前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正手段とを備えることを特徴とする。
本発明によれば、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行う画像処理装置、画像処理方法及びプログラムを提供することができる。
実施例1のシステムの構成を示すブロック図である。 実施例1の処理を示すフローチャートである。 実施例1の文字領域抽出処理を示すフローチャートである。 実施例1の枠候補検出処理を説明するための概念図である。 実施例1の文字領域枠抽出処理を示すフローチャートである。 実施例1の文字領域抽出処理を説明するための概念図である。 実施例1の文字領域抽出処理を説明するための概念図である。 実施例1の文字領域抽出処理を説明するための概念図である。 実施例1の文字領域歪み補正を説明するための概念図である。 実施例1の文字領域情報を説明するための概念図である。 実施例1の電子ファイル生成処理を示すフローチャートである。 実施例1の画像情報への文字情報付与を説明するための概念図である。 実施例1の代表文字領域取得処理を示すフローチャートである。 実施例1の電子ファイル生成を説明するための概念図である。 実施例1の文字画像自動レイアウトを説明するための概念図である。 実施例1の電子ファイル生成処理を説明するための概念図である。 実施例1の電子ファイル生成処理を説明するための概念図である。 実施例1の画像間補正処理を示すフローチャートである。 実施例1の背景前景分離方法を説明するための概念図である。 実施例1の代表画像色の取得処理を説明するための概念図である。 実施例1の色値情報を説明するための表である。 実施例1の前景画像のページ特徴取得処理を説明するための概念図である。 実施例1の前景画像の分類方法を説明するための概念図である。 実施例1の前景画像の上下方向の位置補正を説明するための概念図である。 実施例1の前景画像の左右方向の位置補正を説明するための概念図である。 実施例1の画像合成を説明するための概念図である。 実施例2のサンプリング補正係数の決定方法を説明するための概念図である。 実施例2のサンプリング結果の比較を説明するための概念図である。 実施例2のサンプリング補正係数の決定方法を説明するための概念図である。 実施例3の背景画像補正方法を説明するための概念図である。
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。ただし、この実施形態に記載されている構成要素はあくまでも例示であり、この発明の範囲をそれらに限定するものではない。
[システム構成]
図1は、実施例1による画像処理を実施するためのシステムの構成例を示すブロック図である。システム(1)は、画像処理装置(100)、入力装置(104)、及び出力装置(105)を備える。画像処理装置(100)は、CPU(Central Processing Unit)(101)、RAM(Random Access Memory)(102)、及び記憶装置(103)を備える。
CPU(101)は、画像処理装置(100)の処理の全体を制御し、後述する画像処理を制御する制御部である。RAM(102)は、CPU(101)による処理のワーク用メモリである。CPU(101)は、処理プログラムや画像処理装置(100)の入出力データをRAM(102)上に展開して処理する。記憶装置(103)は、処理対象の画像データや処理済の電子ファイルを記憶する記憶部である。
入力装置(104)は、画像処理装置(100)に対して処理データを外部から入力するための装置である。出力装置(105)は、画像処理装置(100)から処理データを外部に出力するための装置である。
デジタルカメラなどの入力装置(104)から入力された画像データは、ハードディスクなどの記憶装置(103)に入力データ(103−2)として記憶される。
記憶装置(103)に記憶されている処理プログラム(103−1)はRAM(102)上の処理プログラム展開領域(102−1)に展開され、CPU(101)によって実行される。入力データ(103−2)は記憶装置(103)から呼び出され、RAM(103)上の入力データ領域(102−2)に展開される。CPU(101)は、処理プログラム(103−1)の内容に従って入力データ(103−2)に対して処理を施し、RAM(102)上の出力データ領域(102−3)に処理結果を出力する。その後、当該出力は記憶装置(103)に出力データ(103−3)として保存される。出力データ(103−3)は必要に応じてディスプレイやプリンタなどの出力装置(105)に出力される。
[処理の概要]
図2を参照して、画像処理装置1において実行される画像処理の流れを説明する。この処理は、RAM(102)に展開されたプログラムに基づいて、CPU(101)の制御により行われる。
S101では、入力データとして、複数の文書原稿をデジタルカメラで撮影した画像データが画像処理装置(100)に入力される。
S102では、入力された画像データの文書原稿に文字が存在するか否かを判定する。文字が存在しない場合、S106へ進み、電子ファイル生成処理を行う。文字が存在する場合、その文字を抽出し、位置やサイズなどの形状情報と共に文字情報として記憶装置103に記憶する。画像データから文字を抽出する方法はどのような方法であっても良いが、例えば特許文献2に記載の「カラー文書からの文字認識方法」を用いることができる。その後、画像中の文字領域に注目してS103以下の処理を行う。
S103では、文字領域の抽出を行う。文字領域の抽出の詳細は、図3を用いて後述する。
S104では、S103で得られた全ての文字領域に対して歪み補正を行う。文字領域枠の歪みを補正することで領域内に存在する文字オブジェクトなどの歪みを補正することが出来る。
歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば特許文献3に記載の「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
図9に示す概念図を参照して歪み補正について説明する。入力画像(1001)に対する文字領域抽出処理(S103)の結果、文字領域A(1002)と文字領域B(1003)が得られる。それぞれの領域に対して歪み補正(S104)を行うことにより、文字領域Aを補正した補正画像A(1004)と文字領域Bを補正した補正画像B(1005)を得ることができる。
S105では、まず、入力画像に含まれている全ての文字領域に対する歪み補正後の画像(歪み補正画像)から、入力画像上の文字領域位置情報及びテキスト情報等が取得される。すなわち、歪み補正画像から当該歪み補正画像に関する情報が取得される。本実施例では、文字領域の補正画像内に存在する文字画像に対して文字認識を行い、テキスト情報の抽出を行う。得られた歪み補正画像、文字領域位置情報及びテキスト情報を含む歪み補正画像に関する情報は、文字領域情報として記憶装置(103)に記憶される。
図10には、文字領域情報の例として、補正画像(1101)、文字領域位置情報(1102)、及びテキスト情報(1103)が示されている。テキスト情報(1103)の例として、文字コード(1104)、入力画像での文字位置(1105)、補正画像での文字位置(1106)が示されている。
補正画像から取り出す文字領域情報として、テキスト情報以外にも、文字位置情報、ベクトル化した文字画像情報、罫線情報、図形情報などの補正画像に存在する情報を追加することも可能である。
S106では、記憶された文字領域情報又は入力画像を元に電子ファイルを生成する。電子ファイル生成処理詳細は、図11を用いて後述する。図11の電子ファイル生成処理では、S105で生成した文字領域情報を入力として、出力画像データを生成する処理が示されている。
S101からS106の処理を全ての入力画像に対して処理を行う。S101にて入力された1又は複数の画像に対応するデータは、S106にて生成される1つの電子ファイルに含まれている。例えば、1つの入力画像が電子ファイルの1ページとなる。なお、この方法には限定されず、1つの入力画像に対して1つの電子ファイルを生成しても良い。
S107では、S106にて生成された電子ファイルに対して画像間補正処理を行う。画像間補正処理の詳細は、図18を用いて後述する。画像間補正処理は、電子ファイルに含まれている画像間の所定の特徴の差分を用いて各画像データに対して行う処理である。画像間補正処理は、S106で生成した電子ファイルを入力とし、あらかじめ指定されている画像特徴の差分が小さくなるように補正した画像を含む電子ファイルを出力する。
以上説明したように、S101からS107を行うことによって、デジタルカメラなどから入力した画像データに対して最適な補正処理を行うことができ、当該画像データに含まれる文字の再利用性を向上させることができる。
[処理の詳細]
次に、図3を参照して、図2における文字領域抽出処理S103の詳細を説明する。
S201では、画像内の文字領域の枠候補となる直線の検出を行う。図4は、当該枠候補となる直線の検出の処理において生成される画像の例を示している。図4(a)は入力画像の例を示している。この入力画像に対してエッジ抽出処理を行うことで図4(b)に示されているようなエッジ画像を取得することができる。
図4(b)のエッジ画像から文字エッジ(401)と非直線エッジ(402)を削除し、直線を検出して、図4(c)の直線エッジ抽出画像を得る。文字エッジ(401)の削除は、S102で抽出した文字情報を用いて行う。直線の検出についてはハフ変換を利用する。ハフ変換を利用した直線検出方法としては、限定はしないが、例えば、特許文献4に記載の「簡易型ハフ変換による高速直線群検出方法」を用いる。
次に、得られた直線の間引きを行う。以下の条件を満たす直線を有効直線エッジと判定する。
条件1:エッジ両側の画像色の差が所定の閾値以上である。
条件2:入力画像の大きさと比較して直線エッジの長さが、所定の閾値以上である。
条件3:文字画像と直線が重なっていない。
図4(c)において、直線エッジ403は同一背景上に存在するため、このエッジの両側の色の差が閾値以下になる。従って、直線エッジ403は条件1を満たさないため間引きの対象である。また直線エッジ404は直線の長さが閾値以下である。従って、直線エッジ404は条件2を満たさないため間引きの対象である。
上述した図4(c)の直線エッジ抽出画像に対する間引き処理の結果、図4(d)に示すような直線間引き画像を得ることができる。さらに、得られた直線間引き画像中に存在する直線を縦、横、未分類のいずれかに分類する。本実施例では、水平方向を0度、直線の角度をaとした場合、−30°<a<+30°のときは横線、30°≦a≦60°又は−30°≦a≦−60°のときは未分類線、60°<a<120°のときは縦線として分類する。なお、直線の分類方法はこれに限定されず他の方法であっても良い。
図4(e)は直線成分を縦、横、未分類に分類した結果を示す図である。横線(405)を実線、縦線(406)を点線、未分類腺(407)を二重線で表現している。未分類線は縦線と横線の両方の属性を持つ。図4(e)に示された直線が枠候補となる直線である。直線が枠候補となるためには、縦線及び横線が二本ずつ検出されることが条件になる。
S202では文字領域枠の抽出処理を行う。文字領域枠の抽出処理の詳細は、図5を用いて後述する。文字領域枠抽出処理では、指定された文字に対する文字領域枠を抽出し、文字領域枠に含まれる文字をまとめて文字領域とする。
S203では、S202にて文字領域枠として抽出されなかった枠候補の直線を無効化する処理である。この処理は、後に実行される文字領域枠抽出処理で使用されないようにするためのものである。
図8は枠候補直線および文字候補の無効化の処理を説明するための図である。
S202によって抽出された文字領域枠内に枠候補直線が存在した場合、この枠候補直線は無効な枠候補直線と判定される。
図8(a)を参照して、文字領域枠抽出処理S202において、文字領域抽出処理の対象となった文字(901)に対して文字領域枠(902)が得られた場合について説明する。図8(a)の文字領域枠の内側に存在する枠候補直線a(903)に対して、無効化処理が行われる。図8(b)の無効な枠候補直線a(907)は当該処理後の線を示している。無効化された枠候補直線は、次回以降の文字領域枠抽出処理の対象から外される。文字領域枠内に枠候補直線が複数存在する場合には、全ての枠候補に対して同様に無効化処理を行う。文字領域枠外に存在する図8(a)の枠候補b(904)に対しては、無効化の処理を行わないため、次回以降の文字領域枠抽出処理の対象となる。
S204では、文字領域の枠内に存在する文字候補の処理ステータスを処理済に変更する。例えば、図8(a)の文字領域枠の内側に存在する文字候補a(905)のステータスを処理済に変更する。図8bの処理済文字候補a(908)は、当該変更後の文字候補を示している。処理ステータスが処理済に変更された文字候補は、次回以降の文字領域枠抽出処理の対象文字として指定されない。文字領域枠内に文字候補が複数存在する場合には、全ての文字候補について同様に処理ステータスを処理済に変更する。
文字領域枠外に存在する図8(a)の文字候補b(906)に対しては、処理ステータスの変更を行なわず、次回以降の文字領域枠抽出処理においても対象文字として指定の対象となる。
上述したS201からS204の処理を画像内に存在する全ての文字に対して行うことで、文字領域枠を抽出することができる。
次に、図5を参照して、図3の文字領域枠抽出処理S202の詳細を説明する。
まず、S301において、図2のS102で抽出した文字情報から処理対象の文字を選択する。S302では、処理対象文字を起点として上下左右方向に枠候補を検出する。
図6は文字候補枠の抽出処理を説明するための図である。図6(a)に示すように、処理対象文字(601)を起点に水平方向に縦線探索(602)を行い、垂直方向に横線探索(603)を行う。当該探索の結果、図6(b)に示す上方向の横線(604)、下方向の横線(605)、左方向の縦線(606)、及び右方向の縦線(607)を得ることができる。
縦線探索(602)及び横線探索(603)の結果、4方向全ての枠候補直線を検出した場合は、S303へ進む。枠候補直線を検出した方向が3方向以下であった場合には、S308の枠なし文字領域作成処理を行う。図6(b)の例では4方向全ての枠候補の直線が見つかったので、S303の処理を行う。
S303では、見つかった4つの枠候補直線を枠候補探索の基準となる直線として決定し、当該4つの枠候補直線の位置を基準位置として記憶する。
S304では、現在の4つの枠候補直線が文字領域の枠として有効であるかどうかの判定を行う。
本実施例では以下の条件を満たすことを有効枠の条件とする。
条件1:4辺で囲まれた領域であること。
条件2:枠候補線の交点が存在しない場合に、延長した枠候補線と他の(延長した)枠候補線との交点が存在すること。
条件3:交点の内角が180度未満であること。
条件4:最終的に得られる4辺の実線部分の長さがそれぞれ閾値以上の長さであること。
図6(b)に示される枠候補である直線604から607は上記条件を満たしているため、有効枠であると判定される。有効枠として判定された場合、文字領域枠として交点1(608)、交点2(609)、交点3(610)、及び交点4(611)をそれぞれ文字領域枠として仮登録し、有効枠の直線を新しい基準位置として記憶する。
S306では、基準位置を基に枠候補の拡張を行う。記憶されている基準位置から上下左右それぞれの方向に拡張できる枠候補直線があるかどうかを探索する。
例えば、上枠を拡張する場合には、基準位置として記憶されている横線(上)(604)から、上方向に横線が存在するかどうか探索する。同様に下枠を拡張する場合には、基準位置として記憶されている横線(下)(605)から、下方向に横線が存在するかどうか探索する。この例では、横線(617)が検出される。
上記処理のように、枠候補を拡張可能な枠候補直線を検出した場合、S304からS305の処理を繰り返し実行する。
拡張する枠候補直線が存在しない場合には、仮登録した文字領域枠が存在するかどうかの判定を行い、仮登録した文字領域枠がない場合は、S308の枠なし文字領域の作成を行う。仮登録した文字領域枠が存在する場合には、S307の処理を行う。
S307では、仮登録している文字領域枠を文字領域枠として決定し、文字領域情報を記憶装置103に記憶する。図6(c)に示す例では、処理対象文字(601)に対する文字領域枠の文字領域情報として以下の情報を記憶する。
交点1(612)の位置情報(x1、y1)
交点2(613)の位置情報(x2、y2)
交点3´(614)の位置情報(x3、y3)
交点4´(615)の位置情報(x4、y4)
S308では、文字領域枠が存在しないと判定された場合の文字領域の作成処理を行う。図6(a)に示す例では、処理対象文字2(616)に対する枠候補は、上方向と左方向と下方向の3方向に枠候補が存在するが、右方向には枠候補が存在しない。従って、処理対象文字2(616)に対する文字領域枠は存在しないと判定される。
図7(a)を参照して、枠なし文字領域の作成処理を説明する。処理対象となる画像の範囲は、図7に示した上方向に検出した枠候補線(701)、左方向に検出した枠候補線(702)、下方向に検出した枠候補線(703)、入力画像の左端に含まれる範囲である。処理対象の画像範囲から文字の外接矩形(705)を取得する。隣接する文字の外接矩形のサイズが、あらかじめ決められたサイズ閾値以内で一定であり、文字の外接矩形が直線上に配列されている場合にそれぞれの文字の外接矩形をまとめた領域を文字領域と判定する。
次に、直線上に配列された文字領域に対して、水平消失点(706)と垂直消失点(707)を取得する。文字領域から消失点を求める方法として、例えば、特許文献5に記載の「画像処理装置、方法、プログラムおよび記憶媒体」を用いることができる。
直線状に配列された文字領域が、画像範囲内に複数存在する場合には、それぞれの文字領域が同一消失点を持つかどうかの判定を行い、同一消失点を持つと判断された場合には、それぞれの文字領域をまとめて1つの文字領域にすることができる。
図7(b)は、枠なし文字領域の文字領域枠を決定する方法を説明するための図である。水平方向の消失点(706)および垂直方向の消失点(707)から、それぞれの消失点を起点とする直線で文字外接枠(708)を決定する。文字外接枠は文字領域として、交点1(709)の位置情報(x1、y1)、交点2(710)の位置情報(x2、y2)、交点3(711)の位置情報(x3、y3)、交点4(712)の位置情報(x4、y4)を文字領域情報として記憶装置103に記憶する。
図11を参照して、図2の電子ファイル生成処理S106の詳細を説明する。この処理は、1つの入力画像ごとに行う処理である。
S401では、処理対象の入力画像上に存在する文字領域の全ての文字領域情報を取得する。
S402では、入力画像種別の判定を行う。まず、入力画像に存在する全ての文字領域情報に格納されている補正前の文字領域位置情報から文字領域の画素数総和(文字領域の総面積)(S)と入力画像の画素数(入力画像面積)(C)とを求める。次に以下の式により文字領域比率を求める。
文字領域比率(D)=文字領域の画素数総和(S)÷入力画像の画素数(C)
文字領域比率(D)が所与の文書画像閾値よりも小さければ、イメージ中心文書と判定し、S403の入力画像に対する文字領域情報付与処理を行う。すなわち、S402の処理によれば、入力画像の面積に対する文字領域の面積の割合を用いて入力画像が文字中心であるか非文字中心であるかを判断する。
S403では、歪み補正後の画像に対して文字領域情報が付与された電子ファイルを生成する。図12(a)に示すように、電子ファイルにおける画像情報と異なる階層に、文字領域情報として「テキスト」情報と、「補正前のテキストの位置」情報を付与する。すなわち、S403の処理によれば、1つ又は複数の歪み補正後の文字領域の全てを出力画像として含み、歪み補正後の文字領域に関する情報(文字領域情報)をメタデータとして含むファイルが生成される。
このように電子ファイルにメタデータを含めることによって、文字領域情報を用いて電子ファイル内の文字領域を検索することができる。検索時には、文字領域情報として付与されているテキスト情報を検索し、補正前の位置情報でテキスト位置を取得することによって、図12(b)に示すように検索結果を反転表示することが可能である。なお、文字領域比率(D)が0だった場合、すなわち、入力画像に文字領域が含まれていない場合は、文字領域情報は付与されない。
S402の入力画像種別の判定で、文字領域比率(D)が文書画像閾値以上の場合、文字中心文書と判定し、S404の代表文字領域取得処理を行う。
S404の処理の詳細は、図13の代表文字領域取得処理のフローチャートを用いて後述する。代表文字領域とは、入力画像に存在する文字領域のうち、最も代表的な文字領域をいう。代表文字領域は、1つの入力画像に1つ存在するとは限らず、複数存在する場合や画像上に存在しない場合がある。この代表文字領域取得処理において代表文字領域が存在しない場合、処理はS405へ続く。
S405では、入力画像における文字領域の位置関係を基に、レイアウト生成処理で使用するテンプレートを取得する。
図14はレイアウトを行うために必要なテンプレート情報の取得処理を説明するための図である。図14に示すように、入力画像上に、文字領域情報1(1501)、文字領域情報2(1502)、文字領域情報3(1503)の3つの文字領域があった場合について説明する。
この例では、レイアウトする文字領域の数が3つであるので、レイアウトテンプレートDB(1504)に格納されている格納テンプレート情報(1505)を検索し、レイアウトする領域数が3であるテンプレート情報(1508)を取得する。レイアウトテンプレートDB(1504)は記憶装置103などの記憶部に記憶されている。
S406では、レイアウト生成処理を行う。図15に示されているように、S405で取得したテンプレート(1601)に用意されているオブジェクト領域(1603)の各領域に対して、歪み補正した後の文字領域情報の画像(1602)をそれぞれ割り当てる。これらの情報により自動レイアウトを行い、生成画像(1604)を得て、電子ファイルを生成する。レイアウト生成処理は、限定はしないが、特許文献6に記載の「文書レイアウト方法」を用いることにより、画像情報の生成を行うことができる。
S407では、入力画像内の代表文字領域が一つであった場合の処理を行う。この場合、代表文字領域の歪み補正後の画像を出力画像に決定する。図16(a)の入力画像において、文字領域A(1701)を代表文字領域として決定した場合、図16(b)に示すように、文字領域Aの文字領域情報に含まれる補正画像を出力画像として出力する。
S408では、代表文字領域以外の文字領域に含まれる文字領域情報を出力画像とは別階層の情報として付与し、電子ファイルを生成する。図16(a)の文字領域B(1702)は非代表文字領域であるので、この非代表文字領域のテキスト情報をメタデータとして図16(b)の出力画像に付与し、図16(c)に示すような電子ファイルを生成する。
例えば、図16(d)は実施例1においてPDF形式のようにレイヤー構造を持つ形式で出力電子ファイルを生成する例である。出力画像として、図16(b)を画像レイヤー(1704)に指定し、テキストレイヤー(1704)には図16(a)文字領域A(1701)に含まれるテキスト情報および文字位置情報を指定する。さらに、図16(a)の文字領域B(1702)については、テキスト情報のみをテキストレイヤー(1704)に指定する。
すなわち、S407及びS408の処理によれば、代表文字領域を出力画像として含み、代表文字領域以外の文字領域のテキストデータをメタデータとして含む(又はテキストレイヤーに含む)電子ファイルを生成する。なお、代表文字領域及び非代表文字領域に関する情報をさらにメタデータとして電子ファイルに含めても良い。
S409では、代表文字領域が複数存在した場合のレイアウトテンプレート取得処理を行う。図17(a)の入力画像には、代表文字領域情報1(3101)及び代表文字領域情報2(3102)の2つの代表文字領域と、非代表表文字領域1(3103)及び非代表表文字領域2(3104)の2つの非代表文字領域とが存在する。レイアウトテンプレートへの出力対象となる画像は、代表文字領域のみである。レイアウトする文字領域数が2であるテンプレートを取得する。テンプレート取得の方法はS405と同様である。入力画像における複数の代表文字領域の位置関係を基に、レイアウト生成処理で使用するテンプレート情報を取得する。すなわち、S409の処理によれば、取得したレイアウトテンプレートに定められたレイアウトに従って、出力画像上における複数の代表文字領域の配置が決められる。
S410では、上記取得したテンプレート情報に用意されているオブジェクト領域に対して、歪み補正した後の各代表文字領域情報の画像をオブジェクトとして割り当てる。これらの情報によりレイアウト生成処理を行い、図17(b)のレイアウト画像を得る。ここで得られるレイアウト画像を出力画像として、処理はS408へ続く。
S408では、図17(c)出力電子ファイルに示すように、代表文字領域以外の文字領域をメタデータとして付与して、電子ファイルを生成する。
次に、図13のフローチャートを参照して、図11の代表文字領域取得処理S404の詳細な処理の説明を行う。
S501では、処理対象となる文字領域情報を取得する。
S502では、処理対象の文字領域に対して、第1の代表文字領域判定を行う。
本実施例では、第1の文字領域判定条件は次のとおりである。
条件1:補正前の文字領域が入力画像の中心領域を内包する。
条件2:入力画像の画素数(面積)に対する歪み補正前(又は補正後)の文字領域の画素数(面積)の割合が、所定の割合(第1の閾値)以上である。
上記2つの条件を満たす歪み補正後の文字領域を代表文字領域と判定し、S503を行う。条件を満たさない場合、代表文字領域以外と判定し、S504を行う。
本実施例では、第1の代表文字領域の判定条件として、入力画像における面積を使用したが、補正前画像(又は補正後画像)の長さの情報や、文字領域枠の有無、画像中心からの距離などを使用した条件への変更や追加を行ってもよい。
S503では、代表文字領域であると判定された文字領域情報を代表文字領域と設定し、その他の文字領域を非代表文字領域に変更して代表文字領域取得処理を終了する。
第1の文字領域判定条件を満たす文字領域が存在しない場合、S504〜S507の処理では、第1の代表文字領域判定条件に変わる条件を満たす文字領域を代表文字領域と判定する。
まず、S504では、第2の代表文字領域判定を行う。第2の代表文字領域判定条件として本実施例では、入力画像の画素数(面積)に対する文字領域の歪み補正前(又は補正後)の画素数(面積)の割合が予め定められた第2の割合(第2の閾値)以上であることを条件とする。ここで、第2の閾値は、第1の閾値よりも小さい値である。この条件を満たす歪み補正後の文字領域を代表文字領域の候補と判定し、S505を行う。この条件を満たさない場合、代表文字領域以外と判定する。
第2の閾値の大きさを調整することで、代表文字領域の候補の数を増減することが可能である。第2の代表文字領域判定条件においても、第1の代表文字領域の判定条件と同様に、補正前画像の長さの情報や、文字領域枠の有無、画像中心からの距離などを使用した条件への変更や追加を行ってもよい。
S505では、文字領域を代表文字領域の候補として設定する。ここで設定された代表文字領域の候補は、S502の第1の代表文字領域の条件を満たす文字領域が存在した場合は、代表領域にならない。第2の代表文字領域判定(及び後述する第3の代表文字領域判定)は、第1の代表文字領域判定条件を満たす文字領域が存在しない場合に代表文字領域を決定するための処理だからである。
第1の代表文字領域判定条件を満たす文字領域が存在しない場合、全ての文字領域情報について、S501からS505の処理を繰り返し実行する。
S506では、第3の代表文字領域判定を行う。第3の代表文字領域判定の条件として、本実施例では、代表文字領域の候補として設定された文字領域が複数存在するかどうか判定する。代表字文字領域の候補数が1以下であれば、代表文字領域なしと判定し、代表文字領域取得処理を終了する。代表文字領域の候補数が複数である場合にはS507の処理を行う。第3の代表文字領域判定の条件はこれに限定されない。例えば、第3の代表文字領域判定の条件として、代表文字領域の候補の面積の総和などを用いてもよい。
S507では、代表文字領域の候補として設定された文字領域を代表文字領域として判定し、この処理を終了する。
すなわち、S504からS506の処理によれば、入力画像の面積に対する文字領域の面積の割合が第1の閾値以上である文字領域が存在しない場合であっても、第1の閾値より小さい第2の閾値以上の割合である文字領域が複数存在するか否かを判定する。複数存在する場合、S507にて当該複数の文字領域を代表文字領域として決定する。
以上のように図13に示した処理によれば、第1の代表文字領域判定の条件を満たす文字領域を代表文字領域と判定する。また、第1の代表文字領域判定の条件を満たさない場合であっても、第2及び第3の代表文字領域判定の条件を満たす文字領域を代表文字領域と判定する。
以上、図11〜図17を参照して説明した処理によれば、文字領域情報を用いて歪み補正された文字領域の画像が最適に配置され、当該文字領域情報がメタデータとして含まれる電子ファイルを入力画像から生成することが可能となる。
次に、図2の画像間補正S107の詳細を説明する。
まず、図18のフローチャートを参照して画像間補正の処理の詳細を説明する。
S601では、図2のS106で生成された電子ファイルの画像に代表文字領域が存在するかどうか判定する。画像間画像補正は、代表文字領域に対して行われるので、代表文字領域が存在しない場合には以下の処理は行わない。
S602では、電子ファイルに含まれている全ての画像から代表文字領域の文字画像を抽出し、当該文字画像からなる前景画像を生成する。さらに、抽出した文字画像以外の画像からなる背景画像を生成する。
図19を参照して前景背景分離処理を説明する。図19に示すように、代表文字領域の補正画像aから、S102の画像判定処理において抽出した文字オブジェクト(1901)を前景として抽出し、前景画像bを生成する。本実施例では、非文字オブジェクト(1902)は前景として処理されず背景画像として扱われる。
次に、代表文字領域の補正画像aから前景である文字オブジェクトを除去した前景除去画像cを生成する。前景除去画像cにおいて、文字オブジェクト除去領域(1903)の画素情報が不定であるため、文字周辺画素の情報で文字オブジェクト除去領域(1903)に対して穴埋め処理を行う。当該穴埋め処理により背景画像dを生成する。
以上の処理を電子ファイル内の画像に含まれる全ての代表文字領域に対して行う。生成された1つ又は複数の背景画像に対しては、S603からS606の処理を行う。生成された1つ又は複数の前景画像に対しては、S607からS610の処理を行う。
S603では、背景画像に対して背景色のサンプリングを行う。本実施例では、背景画像の輝度情報(Y)及び色情報(R,G,B)に対してサンプリングを行う。
図20を参照して、代表文字領域の背景色決定処理を説明する。背景画像の前景オブジェクトを除外した領域に対して輝度情報のサンプリングを行い、図20(a)に示すように、各代表文字領域の補正画像毎にヒストグラムを取得する。
取得したヒストグラム情報から、最大度数輝度値(Yp)を求め、輝度値Ypを中心とする一定の範囲(Yp−nからYp+n)にある領域情報を有効輝度情報(Ye)として求める。有効輝度情報の平均輝度(Yave)を計算する。平均輝度(Yave)は、図20(b)の平均輝度計算式によって求めることが出来る。
次に、サンプリングした色情報の各色(RGB)毎にヒストグラムを求めて、輝度情報と同様に、最大度数R値(Rp)、最大度数G値(Gp)、最大度数B値(Bp)を求める。さらに、各色毎の平均値として、平均R値(Rave)、平均G値(Gave)、平均B値(Bave)をそれぞれ計算する。上記処理を全ての代表文字領域の補正画像について行い、それぞれの平均値を計算する。ここで求めた最大度数色値Yp、Rp、Gp、Bpと、平均色値Yave、Rave、Gave、Baveは色値情報として記憶する。
S604では、代表文字領域のグループを決定する。代表文字領域のグループ化は、S603で求めた平均色が所与のグループ閾値(以下:Thg)以下であるかどうかの判定結果を用いて行う。
図21は、平均色値情報の例である。平均色値情報には各代表文字領域ごとのそれぞれの色情報の平均値が記憶されている。本実施例では、Thgが20である場合について説明する。
まず、各色情報における平均値の最大値と最小値を求める。輝度値(Y)については、最小輝度(Ymin)=199、最大輝度(Ymax)=205となり、Ymax−Ymin=6となり、Thg以下である。従って輝度値(Y)については、代表文字領域1から4は全て同一グループであると判定できる。
次にR値については、最小R(Rmin)=190、最大R(Rmin)=225となり、Rmax−Rmin=35となり、Thg以上となり同一グループではないと判定される。グルーブの分類は、平均値の最小値と最大値の差が閾値以内になるように行う。従って、R値は代表文字領域1および2を第一グループに、代表文字領域3および4を第二グループにグループ分けを行う。第一グループにおいて、最小R(R(G1)min)=220、最大R(R(G1)max)=225となり、(R(G1)max)−(R(G1)min)=5である。従って、平均値の最小値と最大値の差は、Thg以下になる。
同様に第二グループにおいて、最小R(R(G2)min)=190、最大R(R(G2)max)=195となり、(R(G1)max)−(R(G1)min)=5となる。従って、平均値の最小値と最大値の差はThg以下になる。
G値、B値についても同様にグループ化を行う。本実施例では、R値に対してグループ分けされ、代表文字領域1と2を第一グループ、代表文字領域3と4を第二グループに決定することが出来る。すなわち、S604の処理によれば、代表文字領域の特徴を用いて、各代表文字領域をグループに分類する。
S605では、グループ毎に代表色を決定する。各代表文字領域のR、G、Bの平均色値から各グループ内の各色毎の平均値を求める。得られた平均値を各グループの代表色として決定する。
第一グループの代表色として、RGBそれぞれの代表色は以下のようになる。
第一グループR値の代表色=(220+225)/2=222.5
第一グループG値の代表色=(200+190)/2=195.0
第一グループB値の代表色=(190+200)/2=195.0
同様に第二グループの代表色は、以下のように決定する。
第二グループR値の代表色=(190+195)/2=192.5
第二グループG値の代表色=(205+200)/2=202.5
第二グループB値の代表色=(195+205)/2=200.0
S606では、グループ毎に背景色の補正を行う。第一グループのR値の補正方法について説明する。
背景色の補正は、代表文字領域の最大度数R値(Rp)がグループ代表色になるように補正を行う。図21に示されているように、代表文字領域1のRpは221であり、S605で計算した第一グループのR値の代表色は222.5であるので、補正量はRp−R値代表色=1.5となる。したがって、代表文字領域1の背景画像全体に対して、R値を1.5加算する。
同様に代表文字領域2のRpは225であるので、補正量は−2.5となり、代表文字領域1の背景画像全体に対して、R値を2.5減算する。
以上の処理を各色情報毎に行うことによって、グループ内で同じ値を最大度数とするように背景色を均一化(補正)することができる。すなわち、代表文字領域をグループに分類し、当該グループ毎に決定した補正量を用いて補正を行う。その結果、同じグループに含まれる背景画像の背景色を統一することが出来る。
さらに、S603からS606の処理によれば、複数の背景画像に含まれる複数の代表文字領域の特徴の差分を用いて代表文字領域の背景色の補正量を決定し、補正を行う。このような補正によれば、複数の背景画像に含まれる代表文字領域間の背景色を統一することができる。
次に、S607からS610の前景の補正方法について説明する。本実施例では前景画像の補正のうち特に文字位置の補正方法について説明する。
S607では、前景(文字オブジェクト)を画像形状によってグループ化する。ここで、画像形状とは画像の縦横比である。従って、前景を横長の画像と縦長の画像に分類する。また、文字位置および文字サイズは、画像サイズの影響を受けるため、同じグループ内の前景が同一サイズになるように正規化を行う。
S608では文字位置と文字サイズの関係をサンプリングする。図22を参照して、前景画像から抽出された前景(文字オブジェクト)の文字位置と文字サイズの関係をサンプリングする処理を説明する。本実施例では、横書きの文字オブジェクトが行方向にレイアウトされている図22(a)に示されている前景画像を例に説明する。
横書きレイアウトの場合、文字サイズは行の高さであり、上下の文字位置は画像の上端を原点とした距離であり、左右の文字位置は画像の左端を原点とした距離である。
縦書きレイアウトの場合、文字サイズは列の幅であり、上下の文字位置は画像の上端を原点とした距離であり、左右の文字位置は画像の右端を原点とした距離である。
図22(a)に示された前景画像から、図22(b)に示すような上下方向の文字位置とサイズの関係、及び図22(c)に示すような左右方向の文字位置とサイズの関係を求める。
次に、前景画像における代表文字位置と代表サイズの関係を取得する。
図22(b)において、文字のサイズが一定である領域を本文領域(2201)とする。本文領域の上端からの距離が最も近い位置を本文上端位置(2202)とする。本文上端位置(2202)を代表文字位置、本文上端位置(2202)の文字サイズを代表サイズとして、図22(d)に示すような上下方向の代表文字位置と代表サイズの関係を取得する。
同様に、図22(c)において、文字のサイズが一定である領域を本文領域(2203)とし、その中で左端からの距離が最も近いものを本文左端位置(2204)とする。本文左端位置(2204)を代表文字位置、本文左端位置(2204)の文字サイズを代表サイズとして、図22(e)に示すような左右方向の代表文字位置と代表サイズの関係を取得する。
S602で生成した全ての前景画像についてS607及びS608の処理を行い、得られた情報を文字サイズ−位置情報として記憶する。
S609では、文字サイズ−位置情報を用いて、前景画像に含まれる文字オブジェクトのグループ化を行う。
図23を参照して、前景画像に含まれる文字オブジェクトのグループ化処理を説明する。まず、図23(a)に示すように、前景画像毎に、文字オブジェクトの上下方向の文字位置とサイズとの関係を求める。さらに、図23(b)に示すように、前景画像毎に、文字オブジェクトの左右方向の文字位置とサイズとの関係を求める。
文字位置と文字サイズの関係が、文字位置閾値以内、かつ文字サイズ閾値以内である文字オブジェクトを同一グループと決定する。本実施例では、上下方向の位置補正のためのグループとして、図23(a)に示すようなグループA、グループB、グループCを決定する。左右方向の位置補正のためのグループとして、図23(b)に示すようなグループD、グループEを決定する。すなわち、S609の処理によれば、代表文字領域の特徴である文字オブジェクト(文字画像)の文字位置及び文字サイズを用いて、各文字オブジェクトをグループに分類する。
S610では決定したグループ毎に前景画像に含まれる文字オブジェクトの位置補正を行う。
図24を参照して、文字オブジェクトの上下方向における位置補正処理を説明する。まず、グループ毎に、上下方向における文字位置の平均値を求める。得られた平均値を補正値として上下方向の位置の補正を行う。補正は、図24に示すように、グループA、グループB、及びグループCに対してそれぞれ得られた補正値を用いて行う。
例えば、前景画像1・グループAの文字位置はグループAの補正位置よりも上側に存在するため、文字画像を下方向に移動し、補正位置にそろえる。
前景画像4・グループAはグループA補正位置よりも下側に存在するため、グループに含まれる文字画像を上方向に移動し、補正位置にそろえる。
図25を参照して、文字オブジェクトの左右方向における位置補正処理を説明する。まず、グループ毎に、左右方向における文字位置の平均値を求める。得られた平均値を補正値として左右方向の位置の補正を行う。補正は、図25に示すように、グループD及びグループEに対してそれぞれ得られた補正値を用いて行う。前景画像1のグループDは補正位置よりも左側に存在するため、文字画像を右方向に移動し補正位置にそろえる。前景画像4のグループDは補正位置よりも右側に存在するため、文字画像を左方向に移動し補正位置にそろえる。このように文字オブジェクトをグループに分類し、当該グループ毎に決定した補正量を用いて補正を行う。そのため、同じグループに属する文字オブジェクトの位置をグループ内で統一した位置に補正することができる。
以上のようにS607からS610の処理によれば、複数の前景画像に含まれる複数の文字オブジェクト(文字画像)の位置の差分を用いて位置の補正量を決定し、位置補正を行う。そのため、複数の前景画像間で統一した位置に文字オブジェクトの位置を補正することができる。
また、同じグループに属する文字オブジェクトを同じ位置に補正することによって、より適切な位置補正をすることができる。
S611では、図26に示すように、背景画像補正を行った背景画像に対して、前景補正を行った前景画像をそれぞれ合成して、出力ファイル画像を生成する。
すなわち、S603からS611の処理によれば、S106にて生成された電子ファイルの画像に含まれる複数の前景画像及び背景画像の特徴の差分を考慮して補正量を決定し、当該画像に対して補正を行う。
以上説明した本実施形態によれば、入力画像に複数の文字領域が存在している場合であっても、文字の再利用性を向上させる補正処理を行うことができる。また、画像間の背景色や文字の開始位置のバラつきを考慮して補正を行うため、画像の特徴を統一することができる。
すなわち、本実施形態によれば、文字領域を含む画像に対して当該文字の再利用性の向上を考慮した補正処理を行うことができる。
実施例2では、実施例1の画像間補正処理の背景色のサンプリング方法の他の実施例に関して説明する。
一般的な文書画像の特徴として、文字、表、図などの文書オブジェクトは文書周辺部よりも文書中央部に集中して存在する。
図27は補正係数の決定方法を説明した図である。本実施例2では図27に示すように、まず、入力画像を分割領域1(2701)から分割領域n(2702)のn個に分割する。分割した領域それぞれに対して予め決められたサンプリング度数を補正する補正係数を指定する。分割領域1に対する補正係数1(2703)は2.5、分割領域nに対する補正係数n(2704)は2.5、文書中央部の分割領域i(2705)に対する補正係数i(2706)は1.0が指定される。
ここで決定した係数はサンプリングする全ての色情報に対して共通して使用される。例えば、サンプリング処理時に分割領域1に輝度値=220(以降、Y(220)と表現する)である画素が存在した場合、Y(220)の累積度数には、2.5を加算する。同じように、分割領域iでY(220)である画素が存在した場合、累積度数には1.0を加算する。上記のようにサンプリング度数を補正することによって、画像周辺部分の色情報を強調することが可能となる。
図28はサンプリング結果の差を説明するための図である。図28(a)の入力画像のように、画像領域における非文字オブジェクト(2801)の面積が大きい場合、本実施例1では図28(b)のような輝度ヒストグラムを得ることができる。実施例1の度数分布では、非文字オブジェクトの度数分布(2802)領域に最大度数を持つ輝度値が存在するために、非文字オブジェクトの度数分布を背景色として以降の処理を行う。
図28は実施例1と実施例2でのサンプリング結果の比較を示した図である。実施例2の度数補正係数により補正しサンプリングを行うと、図28(c)の輝度ヒストグラムを得ることができる。文書画像周辺の度数が強調されるため、背景領域の度数分布(2803)が高くなり、相対的に非文字オブジェクトの度数分布が低くなる。その結果、実施例2では、背景領域の度数分布(2803)領域に最大度数を持つ輝度値が存在するために、背景領域の度数分布を背景色として以降の処理を行う。
本実施例2では分割領域の度数の補正係数は中心からの距離によって均等に決められる。例えば一般の横書き文書では左上が書き出し位置になるため、図などの非文字オブジェクトは上よりも下、左よりも右に多くなる傾向がある。このように、あらかじめ文書の特性が分かっている場合においては、分割領域に対して文書特性に応じた補正係数の設定が可能である。
以上説明した実施例2において、入力画像をブロックに分割し、分割領域毎に度数の補正係数像を決めているが、距離に応じた補正値を画素毎に計算することでも同じ効果を得られる。
図29は実施例2の補正係数の計算方法の例である。図29に示したように、横方向の画素数(X)(2903)と、縦方向の画素数(Y)(2902)から、画像中心(2901)の座標(Xc、Yc)を求める。任意画素(2904)の画素補正係数を求める場合、横方向の補正値(Rh)の計算式は2905の式で求めることができる。同様に、縦方向の補正値(Rv)の計算式は2906の式で求めることができる。任意画素(xi、yi)の補正係数(R)は、2907の式によって得ることができる。
このような実施形態をとることで、画素の位置によってサンプリングの度数を変更することが可能となり、背景色をより正確に求めることが可能となる。
実施例3では、実施例1の画像間補正処理のグループごとの背景色の補正方法の変形例について説明する。
図30は輝度ヒストグラムの補正方法を説明する図である。実施例1において、図30に示すように、図30(a)の入力画像の輝度ヒストグラムにおいて、代表輝度(3001)を計算し、画像補正量(−n)(3002)を求め補正を行う。その結果、図30(b)に示す補正画像の輝度ヒストグラムの輝度値がn以下の領域においてマイナスの輝度値(3003)が発生する。
この問題を解決するために、図30(c)に示すように、単純度数加算によって0以下の度数を0とする方法がある。しかしこの場合には輝度値0(304)にマイナス輝度値が破産されるために輝度バランスが変更してしまう。
実施例3では任意輝度(Yi)における補正量の計算方法として、
任意輝度(Yi)<代表輝度(Yr)の場合、
輝度値Yにおける補正値(Ry)=画像補正量×Yi/Yr
任意輝度(Yi)>代表輝度(Yr)の場合、
輝度値Yにおける補正値(Ry)=画像補正量×(Ymax−Yi)/(Ymax−Yr)
Ymax:画像における論理的な輝度の最大値(255)
で計算する。
このような実施形態をとることで、図30(d)に示すように、補正対象となる画像色付近を補正し、その他の色は補正しないように処理することができる。その結果、背景中の非文字オブジェクトに対しては画像色の補正を行わないように制御することが可能となる。
[その他の実施例]
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
101 CPU
102 RAM
102−1 処理プログラム展開領域
102−2 入力データ領域
102−3 出力データ領域
103 記憶装置
103−1 処理プログラム展開
103−2 入力データ
103−3 出力データ
104 入力装置
105 出力装置

Claims (11)

  1. 入力画像から文字領域を抽出する抽出手段と、
    前記文字領域の歪みを補正する歪み補正手段と、
    複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定する手段と、
    前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正手段と
    を備えることを特徴とする画像処理装置。
  2. 前記入力画像の面積に対する前記抽出された1又は複数の文字領域の総面積の割合を用いて、前記入力画像が文字中心であるか非文字中心であるかを判定する画像判定手段と、
    前記画像判定手段により非文字中心と判定された場合、前記複数の歪み補正後の文字領域の全てを出力画像として含むファイルを生成するファイル生成手段と
    を備えることを特徴とする請求項1に記載の画像処理装置。
  3. 前記ファイル生成手段によって生成されるファイルは、メタデータとして前記歪み補正後の文字領域に関する情報を含むことを特徴とする請求項2に記載の画像処理装置。
  4. 前記画像判定手段によって文字中心であると判定された場合、前記入力画像の面積に対する前記抽出された文字領域の面積の割合が第1の閾値以上である前記歪み補正後の文字領域を代表文字領域と判定する代表文字領域判定手段を備え、
    前記ファイル生成手段は、前記判定された前記代表文字領域を出力画像として含むファイルを生成すること
    を特徴とする請求項2又は3に記載の画像処理装置。
  5. 前記ファイル生成手段によって生成されるファイルは、前記代表文字領域以外の文字領域のテキストデータをメタデータとして含むことを特徴とする請求項4に記載の画像処理装置。
  6. 前記代表文字領域判定手段は、前記入力画像の面積に対する前記抽出された文字領域の面積の割合が前記第1の閾値以上である前記文字領域が存在しない場合であって、前記第1の閾値より小さい第2の閾値以上の割合である前記歪み補正後の文字領域が複数存在する場合、当該複数の歪み補正後の文字領域を代表文字領域と判定することを特徴とする請求項4又は5に記載の画像処理装置。
  7. 前記ファイル生成手段は、前記判定された前記複数の代表文字領域を出力画像として所定のレイアウトに従って配置するファイルを生成することを特徴とする請求項6に記載の画像処理装置。
  8. 前記生成されたファイルに含まれる画像から代表文字領域の文字画像を抽出し、当該文字画像からなる前景画像及び当該文字画像以外の画像からなる背景画像を生成する手段を備え、
    前記補正量を決定する手段は、複数の前記背景画像に含まれる複数の前記代表文字領域の特徴の差分を用いて前記代表文字領域の背景色の補正量を決定し、複数の前記前景画像に含まれる複数の前記文字画像の位置の差分を用いて前記文字画像の位置の補正量を決定し、
    前記画像間補正手段は、前記背景色及び前記位置の補正量を用いて前記ファイルに含まれる画像に対して補正を行うこと
    を特徴とする請求項2から7のいずれか1つに記載の画像処理装置。
  9. 前記補正量を決定する手段は、前記代表文字領域の特徴に応じて複数の前記代表文字領域及び複数の前記文字画像のそれぞれをグループに分類し、当該グループごとに当該グループに含まれる前記代表文字領域及び前記文字画像に対する前記補正量を決定することを特徴とする請求項8に記載の画像処理装置。
  10. 入力画像から文字領域を抽出する抽出ステップと、
    前記文字領域の歪みを補正する歪み補正ステップと、
    複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定するステップと、
    前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正ステップと
    を備えることを特徴とする画像処理装置。
  11. コンピュータに、
    入力画像から文字領域を抽出する抽出ステップと、
    前記文字領域の歪みを補正する歪み補正ステップと、
    複数の前記歪み補正後の文字領域に関する情報を用いて補正量を決定するステップと、
    前記補正量を用いて前記複数の歪み補正後の文字領域に対して補正を行う画像間補正ステップと
    を実行させるためのプログラム。
JP2010161000A 2010-07-15 2010-07-15 画像処理装置、画像処理方法及びプログラム Expired - Fee Related JP5675194B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010161000A JP5675194B2 (ja) 2010-07-15 2010-07-15 画像処理装置、画像処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010161000A JP5675194B2 (ja) 2010-07-15 2010-07-15 画像処理装置、画像処理方法及びプログラム

Publications (3)

Publication Number Publication Date
JP2012022575A true JP2012022575A (ja) 2012-02-02
JP2012022575A5 JP2012022575A5 (ja) 2013-08-29
JP5675194B2 JP5675194B2 (ja) 2015-02-25

Family

ID=45776804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010161000A Expired - Fee Related JP5675194B2 (ja) 2010-07-15 2010-07-15 画像処理装置、画像処理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5675194B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014098944A (ja) * 2012-11-13 2014-05-29 Plus Corp カメラアプリケーション
WO2015129062A1 (ja) * 2014-02-28 2015-09-03 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム
JP2017054494A (ja) * 2015-08-11 2017-03-16 本田技研工業株式会社 標示ベースの位置測定
JP2018200659A (ja) * 2017-05-30 2018-12-20 株式会社内田洋行 構造形式情報再利用システム
JP6458239B1 (ja) * 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム
JP2019046484A (ja) * 2018-10-16 2019-03-22 株式会社マーケットヴィジョン 画像認識システム
JP2020161196A (ja) * 2018-10-16 2020-10-01 株式会社マーケットヴィジョン 画像認識システム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0437258A (ja) * 1990-05-31 1992-02-07 Fuji Xerox Co Ltd 画像処理装置
JPH0628520A (ja) * 1992-07-10 1994-02-04 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08202817A (ja) * 1995-01-31 1996-08-09 Canon Inc 画像処理方法
JP2003288588A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 画像処理装置及び画像処理方法
JP2004336282A (ja) * 2003-05-06 2004-11-25 Ricoh Co Ltd 画像処理装置、画像処理プログラム及び該プログラムを記録した記録媒体
JP2005057603A (ja) * 2003-08-06 2005-03-03 Fuji Xerox Co Ltd 画像処理装置、画像形成装置、画像処理方法及びプログラム
JP2005122319A (ja) * 2003-10-14 2005-05-12 Casio Comput Co Ltd 撮影装置、その画像処理方法及びプログラム
JP2007102702A (ja) * 2005-10-07 2007-04-19 Institute Of National Colleges Of Technology Japan 文字列の傾斜補正方法及び装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0437258A (ja) * 1990-05-31 1992-02-07 Fuji Xerox Co Ltd 画像処理装置
JPH0628520A (ja) * 1992-07-10 1994-02-04 Matsushita Electric Ind Co Ltd 文字認識装置
JPH08202817A (ja) * 1995-01-31 1996-08-09 Canon Inc 画像処理方法
JP2003288588A (ja) * 2002-03-27 2003-10-10 Toshiba Corp 画像処理装置及び画像処理方法
JP2004336282A (ja) * 2003-05-06 2004-11-25 Ricoh Co Ltd 画像処理装置、画像処理プログラム及び該プログラムを記録した記録媒体
JP2005057603A (ja) * 2003-08-06 2005-03-03 Fuji Xerox Co Ltd 画像処理装置、画像形成装置、画像処理方法及びプログラム
JP2005122319A (ja) * 2003-10-14 2005-05-12 Casio Comput Co Ltd 撮影装置、その画像処理方法及びプログラム
JP2007102702A (ja) * 2005-10-07 2007-04-19 Institute Of National Colleges Of Technology Japan 文字列の傾斜補正方法及び装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014098944A (ja) * 2012-11-13 2014-05-29 Plus Corp カメラアプリケーション
JP2019061702A (ja) * 2014-02-28 2019-04-18 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
WO2015129062A1 (ja) * 2014-02-28 2015-09-03 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
JPWO2015129062A1 (ja) * 2014-02-28 2017-03-30 オリンパス株式会社 画像処理装置、画像処理方法及び画像処理プログラム
US10346706B2 (en) 2014-02-28 2019-07-09 Olympus Corporation Image processing device, image processing method, and non-transitory storage medium storing image processing program
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム
JP2017054494A (ja) * 2015-08-11 2017-03-16 本田技研工業株式会社 標示ベースの位置測定
JP2018200659A (ja) * 2017-05-30 2018-12-20 株式会社内田洋行 構造形式情報再利用システム
JP7023619B2 (ja) 2017-05-30 2022-02-22 株式会社内田洋行 構造形式情報再利用システム
JP2019045909A (ja) * 2017-08-29 2019-03-22 株式会社マーケットヴィジョン 画像認識システム
JP6458239B1 (ja) * 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム
JP2019046484A (ja) * 2018-10-16 2019-03-22 株式会社マーケットヴィジョン 画像認識システム
JP2020161196A (ja) * 2018-10-16 2020-10-01 株式会社マーケットヴィジョン 画像認識システム

Also Published As

Publication number Publication date
JP5675194B2 (ja) 2015-02-25

Similar Documents

Publication Publication Date Title
JP5675194B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP4416039B2 (ja) 縞模様検知システム、縞模様検知方法および縞模様検知用プログラム
JP2009278363A (ja) 画像処理装置及び画像処理方法
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
JP2013210785A (ja) 画像処理装置およびプログラム
JP2008283649A (ja) 画像処理方法、画像領域検出方法、画像処理プログラム、画像領域検出プログラム、画像処理装置、および、画像領域検出装置
JP5541679B2 (ja) 画像処理装置及び方法、並びに、プログラム
JP4730775B2 (ja) 画像処理装置
JP5171421B2 (ja) 画像処理装置、画像処理方法、コンピュータプログラム
JP2011248702A (ja) 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体
US10924620B2 (en) Document reading guidance for operator using feature amount acquired from image of partial area of document
WO2021186672A1 (ja) 画像処理方法
JP7027043B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5409400B2 (ja) 画像処理方法、画像処理装置、およびプログラム
US9031324B2 (en) Image-processing device specifying encircling line for identifying sub-region of image
CN111435969B (zh) 图像处理装置及其控制方法、记录介质和信息处理系统
JP2004080341A (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
KR20100009452A (ko) 영상 처리 방법
US9607218B2 (en) Information processing apparatus, control method, and storage medium storing program
JP5884509B2 (ja) 画像処理装置、画像読取装置およびプログラム
JP2012019387A (ja) 画像レイアウト設定方法および装置
JP2011044919A (ja) 画像処理装置及び画像処理プログラム
JP2007328652A (ja) 画像処理装置および画像処理プログラム
CN106951401B (zh) 一种文档正文识别方法及装置
JP2014053022A (ja) 画像表示方法、プログラム、画像表示装置、及び、撮像装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141125

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141224

R151 Written notification of patent or utility model registration

Ref document number: 5675194

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees