JP2012022413A

JP2012022413A - 画像処理装置、画像処理方法、およびプログラム

Info

Publication number: JP2012022413A
Application number: JP2010158266A
Authority: JP
Inventors: Kenichi Abe; 健一阿部
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2010-07-12
Filing date: 2010-07-12
Publication date: 2012-02-02

Abstract

【課題】斜め方向から撮影して画像全体が歪んだ文字を含む文書画像の歪みを補正して正しい縦横比の文書画像を得る。
【解決手段】文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置であって、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正手段と、前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段と、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段と、前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段と、前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段とを有する。
【選択図】図３

Description

本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に原稿などの平面の文字領域を撮影して取得した画像の歪みを補正する画像歪み補正方法に関する。

従来、名刺、はがき、ホワイトボード、ポスターなど、長方形の文字領域をカメラで斜め方向から撮影し、文字領域の歪みを補正した画像をファイリングする、或いは画像から文字認識処理を行って画像内の文字情報を再利用する手法が提案されている。撮影した画像の歪みを補正するためには、まず画像中から文字領域を含む外枠を抽出し、射影変換などにより外枠の台形歪みを補正して文字画像を出力する。このとき、一枚の画像から台形歪みを補正した画像は奥行き情報が不足しているため正しい縦横比の画像を再現することができない。従来は、辺や対角線の長さなど、画像中から得られる情報を利用して縦横比の推定を行っていた。しかし、図１１（ａ）に示すような縦横比を持つ長方形領域１１０１を斜め上から撮影した場合、図１１（ｂ）に示すように下から撮影した場合と比較して、台形歪み補正後の長方形領域の縦横比に差が出るという問題があった。つまり、斜め上方向から撮影した画像１１０２において台形歪み補正を行うと、画像１１０３のように出力され、下方向から撮影した画像１１０４において台形歪み補正を行うと、画像１１０５のように出力される。

この問題を解決するために、特許文献１では、「名刺」「用紙」のように予め設定した複数の縦横比候補を補正種別テーブルとして保持しておき、対角線の長さを利用して補正画像の縦横比を推定する。そして、台形歪み補正後に得られた長方形領域を補正種別テーブルに格納された縦横比候補の中で最も近い縦横比に合わせるように画像を補正している。

特開２００３−５８８７７号公報

しかしながら、上記従来の技術では、名刺などの決まった縦横比を持つ長方形に対しては正しい縦横比に補正することができるが、非定型の縦横比を持つ領域に対して正しい縦横比を再現することができないという問題があった。

この発明は、上記のような従来技術の問題を解消するためになされたものであり、撮影した画像中に存在する文字の縦横比情報を用いて画像の歪み補正を行い、正しい縦横比の補正文書画像を得ることを目的とする。

上記の問題を解決するために、本発明は、以下の構成を有する。文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置における画像処理方法であって、前記画像処理装置の領域補正手段が、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正工程と、前記画像処理装置の抽出手段が、前記領域補正工程にて台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出工程と、前記画像処理装置の決定手段が、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定工程と、前記画像処理装置の算出手段が、前記抽出工程にて抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出工程と、前記画像処理装置の縦横比補正手段が、前記算出工程にて算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正工程とを有する。

上記手段により、撮影された画像中に写っている非定型の縦横比を有する文書画像に対しても正しい縦横比に補正された画像を得ることができる。

本発明に係るシステムのブロック図。本発明に係る機能のブロック図。本発明に係る処理の流れを示すフローチャートの図。本発明に係る処理の流れを示すフローチャートの図。本発明に係る処理の流れを示すフローチャートの図。本発明に係る縦横比情報の例を示す図。本発明に係る台形歪み補正処理の例を示す図。本発明に係る歪み量算出の例を示す図。本発明に係る分散算出式を示す図。本発明に係る画像縦横比補正の例を示す図。従来の台形歪み補正処理の例を示す図。本発明に係る処理の流れを示すフローチャートの図。本発明に係る言語情報テーブルの一例を示す図。

［システム構成］
図１は、本発明を実施するための形態を構成するシステムのブロック図である。ＣＰＵ１０１は、ＲＯＭ１０２に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ＲＯＭ１０２は、ＣＰＵ１０１が実行するプログラムや各種パラメータを格納する。プログラムは、ＣＰＵ１０１で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。ＲＡＭ１０３は、処理対象となる画像や各種データを記憶する。また、プログラムを展開し、ＣＰＵ１０１によって実行する。

記憶装置１０４は、本発明の処理対象となる画像データや出力電子ファイルを格納する装置である。画像入力装置１０５は、デジタルカメラなど、本発明の処理対象となる画像を入力する装置である。画像出力装置１０６は、本発明の処理画像を外部に出力するための出力装置である。

デジタルカメラなどの画像入力装置１０５から入力された文書画像は、ハードディスクなどの記憶装置１０４に一時記憶される。文書画像は、ＲＡＭ１０３に展開された処理プログラムによって、画像処理を施され、処理結果を再びハードディスクなどの記憶装置１０４に再び記憶される。

なお、本実施形態では、後述するフローチャートの各ステップに対応する処理は、ＲＯＭ１０２等に格納されたプログラムを読み出し、コンピュータ（ＣＰＵ１０１）を用いてソフトウェアとして実現される。しかし、その処理の一部又は全部を電子回路などのハードウェアで実現するようにしても良い。

図２は、第一の実施形態に係る機能ブロック図である。画像入力部２０１は、カメラによって撮影された歪みのある文字領域を持つ画像を読み込む。台形歪み補正部２０２は、画像入力部２０１で読み込んだ歪みのある文字領域から文字領域の矩形を抽出し、射影変換により文字領域の台形歪みを補正する。縦横比補正部２０３は、台形歪み補正部２０２により台形歪みが補正された後に、文字領域に対して上下方向又は左右方向に伸縮した長方形の文書画像から正しい縦横比の画像に補正する。

縦横比情報格納部２０４は、予めあるフォントが持つ文字それぞれの縦横比情報の系列を格納している。ここで、縦横比情報について図６を参照して説明する。図６（ａ）は、日本語の縦横比情報を示す図である。図６（ａ）の６１は、フォント１のフォント情報に含まれている各文字に対する文字固有の縦横比情報を示している。フォント１では、‘あ’という文字は（横：縦＝１００：９５）の比で表示される。‘い’という文字は（横：縦＝１００：８０）の比で表示されている。

文字縦横比情報６００は、縦横比系列６０１としてフォント情報から抽出した文字縦横比の系列を有している。縦横比系列６０１は、主要なフォントから予めいくつかを選択し、縦横比情報格納部２０４に格納しておく。図６（ａ）では“縦横比系列１”の項目の値がフォント１の文字それぞれに対応する。フォント情報から抽出した文字情報６０２は、値６０３に示すように、文字それぞれに対応する表示の際の正しい縦横比情報が格納される。値６０３を例にとって説明すると、フォント１の‘あ’という文字の縦横比として（縦／横＝０．９５）が格納される。文字情報６０２として格納される文字の種類は、フォントによって縦横比のばらつきが少ないものだけを予め選択して保持しておく。例えば、‘一’や‘１’などフォントによって縦横比が大きく異なる文字は排除する。図６（ｂ）は英語の縦横比系列を示す図であり、文字情報６２に示されるアルファベット‘Ａ’、‘Ｂ’に対して日本語と同様に複数の縦横比系列が格納される。

画像出力部２０５は、縦横比情報格納部２０４から取得した縦横比情報を元に縦横比補正部２０３で文字画像全体の縦横比を補正した画像を出力する画像出力部である。

［補正処理］
図１２、図３〜図５を参照して、本発明の画像歪み補正方法について説明する。図１２は、本発明の画像歪み補正方法の一実施例としての全体系を示す処理フローチャートである。

Ｓ１２０１では、撮影された画像を入力し、記憶装置１０４などの記憶部に読み込む。Ｓ１２０２では、Ｓ１２０１で入力された画像が文字を含む文書画像であるか文字を含まない自然画であるか判定する。画像データから文字を抽出する方法に関しては、例えば特開２００２−０４２０５５号公報「カラー文書からの文字認識方法」などを用いて抽出することができる。Ｓ１２０３では、Ｓ１２０２で判定した画像が文書画像であるか自然画であるかによって分岐する。文書画像であれば（Ｓ１２０３にてＹＥＳ）、Ｓ１２０４へ進み、文書画像でなければ（Ｓ１２０３にてＮＯ）、Ｓ１２０７へ進む。

Ｓ１２０４では、Ｓ１２０１で入力された文書画像から名刺やホワイトボードなどの文字領域の外枠を抽出する。外枠の抽出は、まず文字領域と背景領域の領域境界を抽出する。画像データから文字領域を抽出する方法は、特開２００４−９６４３５号公報「画像解析装置、画像解析方法、および画像解析プログラム」あるいは、特開２００６−１０７０１８号公報「画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム」などを用いて抽出することができる。文字領域枠であるかどうかの判定条件は、例えば以下の通りである。

条件（１）文字領域が４本の領域境界線で囲まれていること
条件（２）領域境界線における領域境界の長さが閾値以上の割合で得られていること
条件（３）領域頂点、および推定領域頂点の角度がそれぞれ１８０度よりも小さいこと
条件（４）領域境界が文字上を通らないこと
また、文字領域枠の判定条件には、他にも
条件（５）文字領域が画像の中心を含むこと
条件（６）文字領域が一定以上の大きさを持っていること
などの条件を加えることが可能である。

Ｓ１２０５では、Ｓ１２０４で抽出した文字領域の歪みを検出し、領域補正を行う。本処理については、図３にて詳述する。Ｓ１２０６では、Ｓ１２０５で歪みを補正した文書画像から文字を抽出して電子ファイル化する。ＯＣＲ処理により抽出した文字をレイアウトと共に記憶し、ワードプロセッサ文書やＸＭＬなどの構造化文書として編集可能な状態で保存する。Ｓ１２０７では、Ｓ１２０６で作成した電子ファイル或いはＳ１２０３で自然画と判定された画像を出力する。

［歪み補正処理］
図３は、図１２のＳ１２０５歪み補正処理の詳細を説明するフローチャートである。Ｓ３０１では、図１２のＳ１２０４において抽出された文字領域画像を入力し、記憶装置１０４などの記憶部に読み込む。Ｓ３０２では、Ｓ３０１によって入力された文字領域の台形歪みを補正することで領域内に存在する文字オブジェクトなどの歪みを補正する。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば、特開２００８−２５７７１３号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。

図７において、Ｓ３０２における歪み補正画像の生成を説明する。図７（ａ）は、Ｓ３０１により入力した画像に対し、図１２のＳ１２０４で抽出した文字領域境界線の４つの頂点、ｐ１（ｘ１，ｙ１）、ｐ２（ｘ２，ｙ２）、ｐ３（ｘ３，ｙ３）、ｐ４（ｘ４，ｙ４）で囲まれた部分画像を切り出し、図７（ｂ）の画像を生成する。次に、切り出した文字領域枠７０１から水平方向の辺を延長した線７０２、７０３から水平方向の消失点７０４を、文字領域枠７０１の垂直方向の辺を延長した線７０５、７０６から垂直方向の消失点７０７を求める。

上記の処理によって求めた消失点により逆透視変換を行い、文字領域枠を補正することによって図７（ｃ）のような長方形の文字領域を持つ画像を生成する。図７（ａ）の歪みのある文字領域の４つの頂点ｐ１（ｘ１，ｙ１）、ｐ２（ｘ２，ｙ２）、ｐ３（ｘ３，ｙ３）、ｐ４（ｘ４，ｙ４）が、それぞれｐ１’（ｘ１’，ｙ１’）、ｐ２’（ｘ２’，ｙ２’）、ｐ３’（ｘ３’，ｙ３’）、ｐ４’（ｘ４’，ｙ４’）の長方形の頂点に対応するように補正される。

Ｓ３０３では、Ｓ３０２で台形歪みを補正した文字領域に含まれる文字それぞれの外接矩形枠を抽出する。ここでの外接矩形枠の抽出方法については、以降の処理が適用可能であれば良いため、特に限定しない。Ｓ３０４では、文字縦横比情報とＳ３０３で抽出した外接矩形の縦横比を比較して、画像全体の縦横比を補正するための基準となる縦横比系列を取得する。本ステップの詳細は、図４において詳述する。Ｓ３０５では、Ｓ３０４において抽出した基準縦横比系列を用いて文字領域画像全体の縦横比を補正する。Ｓ３０６では、Ｓ３０５において縦横比が補正された画像を出力する。

［基準縦横比情報取得処理］
図４は、図３のＳ３０４における基準縦横比情報取得処理を詳述したフローチャートである。Ｓ４０１では、図３のＳ３０２において台形歪みが補正された文字領域に含まれる文字に対して言語判定を行う。文書画像中に存在する文字の言語を判定する方法に関しては、例えば特開２００５−３３２０６２号公報「画像処理装置，画像処理システム，画像処理方法，画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体」などを用いて、判定することができる。

Ｓ４０２では、Ｓ４０１で判定された言語が、フォントによる文字の縦横比の変動が所定値以上であるか否かを判定する。フォントによる文字の縦横比の変動が所定値以上であるか否かを判定するために用いる情報は、予め縦横比情報格納部２０４内の言語情報テーブルに言語固有の情報として格納しておく。

図１３に言語情報テーブルの一例を示す。言語１３０１は、言語の種類を示す列であり、日本語、英語、中国語などの主要言語を格納する。変動タイプ１３０２は、言語１３０１の各レコードに示される言語が、用いられるフォントによって文字の縦横比の変動が所定値以上であるかどうかを判定するために用いる情報である。縦横比系列１３０３は、言語１３０１の各言語に対応する縦横比系列が格納される。変動タイプ１３０２は、予め言語１３０１の各言語について縦横比系列１３０３に含まれる複数の縦横比系列から同一文字の縦横比の分散を計算し、例えば、分散値がある閾値より大きければ変動タイプ１、小さければ変動タイプ０を格納する。言語情報テーブルは、各言語に対して予め定義されているものとする。

言語情報テーブルからＳ４０１にて判定された言語のレコードを参照し、該当言語に対応する変動タイプを調べることにより、該当言語のフォントによる文字の縦横比の変動が所定値以上であるか否かを判定する。Ｓ４０２にて、フォントによる文字の縦横比の変動が所定値以上の言語であると判定された場合（Ｓ４０２にてＹＥＳ）、Ｓ４０５へ進む。フォントによる文字の縦横比の変動が所定値未満の言語であると判定された場合（Ｓ４０２にてＮＯ）、Ｓ４０３へ進む。

Ｓ４０３では、Ｓ４０１で判定された言語に対応する文字認識処理を行い、文字領域中のそれぞれの文字を識別する。Ｓ４０４は、縦横比情報から１つの縦横比系列を基準縦横比として決定し設定する。本処理では、Ｓ４０２によってフォントによる文字の縦横比の変動が所定値未満の言語に対する処理に限定されているため、どの縦横比系列を基準にしても画像の補正率はそれほど変わらない。そこで、予め選択しておいた代表的な縦横比系列を用いて１つ基準縦横比として設定する。例えば、明朝やゴシックといった代表的なフォントから抽出した縦横比系列を使用する。

Ｓ４０５では、Ｓ４０１にて判定された言語に対応する文字認識処理を行い、文字領域中のそれぞれの文字を識別する。Ｓ４０６では、複数の縦横比系列からＳ４０５において認識された各文字に最も適する縦横比系列を推定し、基準縦横比情報として設定する。本処理の詳細については、図５において記述する。このように、基準となる縦横比系列を１つ設定して図３のＳ３０５の画像縦横比補正処理に受け渡す。

［基準縦横比情報推定］
図５は、図４のＳ４０６の基準縦横比情報を推定する処理の詳細を記述したフローチャートである。Ｓ５０１では、図２の縦横比情報格納部２０４から１つの縦横比系列を取り出し設定する。ここで取り出す縦横比系列は、図１３の言語情報テーブルに示すように、各言語に縦横比系列が１以上対応付けられているため、それらの情報を用いて、縦横比系列を取得する。Ｓ５０２では、Ｓ５０１にて設定したある１つの縦横比系列を利用して文字領域に存在するある１つの文字に対する歪み量を計算する。ここで、歪み量とは、文書画像中に存在する、ある文字の縦横比と、縦横比系列中に存在する対応する文字の縦横比の比を示す量である。

以下、歪み量について図８を参照しながら具体的に説明する。図８（ａ）は、入力画像に対して図３のＳ３０２において台形歪みを補正した直後、縦横比を補正する前の文字画像と、図６で示される複数の縦横比系列を比較するための図である。

文字領域８０１は、台形歪み補正後の文字領域の画像である。文字領域には“Ｊａｐａｎ”という文字が存在し、画像全体の正しい縦横比が取れないために長方形の文字領域が正しい縦横比に対して横方向に縮んでいる。ここで、文字‘Ｊ’に対し、高さＪｈ、幅Ｊｗとすると、縦横比はＪｈ／Ｊｗで表される。同様に、文字‘ｎ’に対し、高さｎｈ、幅ｎｗとして表す。

縦横比情報８０２は、文字領域８０１に存在する各文字に対応する図６の縦横比系列Ａに格納されている文字の縦横比情報を示す。ここでの文字の縦横比情報は、言語情報テーブルに基づいて、参照する値を抽出する。縦横比系列Ａ中の文字‘Ｊ’の高さをＪｈＡ、幅ＪｗＡとすると、文字‘Ｊ’の縦横比はＪｈＡ／ＪｗＡである。縦横比情報８０３は、縦横比系列Ａとは異なるフォントから抽出した縦横比系列Ｂである。

図８（ｂ）は、Ｓ５０３で算出する歪み量の算出式を表す図である。歪み量は、文字領域８０１に含まれる文字毎に対し、式８０４を用いて算出される。例えば、縦横比系列Ａの文字‘Ｊ’の歪み量は式８０５に示す値として、文字‘ｎ’の歪み量は式８０６に示す値として表される。

Ｓ５０３では、設定されている縦横比系列を用いて、歪み量算出に使用する文字を全て調べたかどうか判定する。歪み量算出に使用する文字は、文字領域中にある文字の大きさや位置などを基準に文字領域から複数の文字を選択する。例えば、文字領域中の最も大きい文字の一群を選択する場合が考えられる。これは例えば、文字領域８０１に含まれる文字行の先頭の数文字を利用するといった選択が対応する。或いは、図３のＳ３０２で台形歪みを補正する前に文字領域の最も長い辺を記憶しておき、該当の辺の近傍にある文字を選択して画像としてのボケが少ない文字から歪み量を算出しても良い。

全ての文字について調べ終わっていない場合（Ｓ５０３にてＮＯ）、Ｓ５０４へ進み次の文字を取得し、Ｓ５０２へ戻る。全ての文字を調べた場合（Ｓ５０３にてＹＥＳ）、Ｓ５０５へ進む。

Ｓ５０５では、全ての縦横比系列に対して各文字の歪み量を計算したか否かを判定する。ここでの全ての縦横比系列とは、言語情報テーブルにおいて対応付けられている各言語の縦横比系列を意味する。まだ調べていない縦横比系列があるならば（Ｓ５０５にてＮＯ）、Ｓ５０６へ進み、次の縦横比系列を取得してＳ５０２へ戻る。全ての縦横比系列を調べた場合（Ｓ５０５にてＹＥＳ）、Ｓ５０７へ進む。

Ｓ５０７において、文字領域に最も近い縦横比系列を推定するために縦横比系列ごとに歪み量の分散を算出する。ここで、歪み量はある縦横比系列に存在する文字と文字領域に存在する文字の縦横比の比である。つまり、該当縦横比系列と文字領域に存在する文字の字形が同一であった場合、文字領域中の文字が上下或いは左右に伸縮していても歪み量は全ての文字で一定（もしくは、ほぼ同一）となる。図９にｉ番目の縦横比系列に対する分散の算出式を示す。

Ｓ５０８では、Ｓ５０７で算出したそれぞれの縦横比系列に対する分散の値が最も小さいものを基準縦横比情報としてセットする。このように、文字領域中の文字の縦横比に最も近い縦横比系列を推定して文字領域全体の縦横比を補正するための基準縦横比を設定する。そして、本処理フローを終了する。

図１０は、図５の各ステップで設定された基準縦横比系列を使用した縦横比補正処理を説明する図である。歪み補正画像１００１は、図３のＳ３０２において台形歪みを補正した文字領域である。図５に示した処理によって、基準縦横比情報に縦横比系列Ａが設定され、図５のＳ５０７の分散算出処理に使用した文字の平均歪み量が０．６５であるという例である。ここでの平均とは、歪み量（系列Ａ，‘Ｊ’）、歪み量（系列Ａ，‘ａ’）、歪み量（系列Ａ，‘ｐ’）、歪み量（系列Ａ，‘ｎ’）の平均とする。この平均歪み量を画像（文字領域）全体に対して補正を行うために用いる補正値となる。平均歪み量が１より小さい場合は、画像を横方向に伸張して縦横比を補正する。１より大きい場合は、縦方向に伸張する。本例では、平均歪み量が１より小さいため、横方向に（１／平均歪み量）倍伸張して縦横比の補正を行い、正しい縦横比を有する出力画像１００２を得る。これにより、文字領域に含まれる文字に対する文字補正を行うこととなる。

以上説明したように、本発明によれば、歪みのある文字領域を有する画像に対して正しい縦横比のオブジェクトが画像中から得られなくても、画像中に存在する文字の縦横比情報を用いて正しい縦横比の補正画像を得ることができる。また、任意の縦横比を有する文書画像に対して正しい縦横比に補正することが可能となる。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置における画像処理方法であって、
前記画像処理装置の領域補正手段が、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正工程と、
前記画像処理装置の抽出手段が、前記領域補正工程にて台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出工程と、
前記画像処理装置の決定手段が、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定工程と、
前記画像処理装置の算出手段が、前記抽出工程にて抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出工程と、
前記画像処理装置の縦横比補正手段が、前記算出工程にて算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正工程と
を有することを特徴とする画像処理方法。
前記決定工程において、前記画像処理装置の言語判定手段が、前記文字領域に含まれる文字の言語が、各文字のフォントの縦横比の変動が所定値未満である言語と、各文字のフォントの縦横比の変動が前記所定値以上である言語と、のいずれの言語であるかを判定する言語判定工程を更に有し、
前記言語判定工程にて、前記文字領域に含まれる文字の言語が各文字のフォントの縦横比の変動が前記所定値未満の言語であると判定された場合、前記抽出工程にて前記画像データから抽出した外接矩形に対し文字認識を行い、認識した前記文字に対応する縦横比情報を取得し前記基準縦横比情報として決定することを特徴とする請求項１に記載の画像処理方法。
前記決定工程において、前記画像処理装置の基準縦横比情報推定手段が、１つの文字に対する複数の縦横比情報の中から最も抽出した文字に適する縦横比を推定する基準縦横比情報推定工程を更に有し、
前記言語判定工程にて、前記文字領域に含まれる文字の言語が各文字のフォントの縦横比の変動が前記所定値以上の言語であると判定された場合、前記抽出工程にて前記画像データから抽出した外接矩形に対し文字認識を行い、認識した前記文字に対して前記基準縦横比情報推定工程にて推定された縦横比を基準縦横比情報とすることを特徴とする請求項２に記載の画像処理方法。
前記基準縦横比情報は、フォントそれぞれにおいて、同一文字に対する縦横比の変動が前記所定値未満となる文字の縦横比を予め定義されていることを特徴とする請求項１乃至３のいずれか一項に記載の画像処理方法。
前記基準縦横比情報推定工程において、複数の文字を含む外接矩形に対して文字の外接矩形と縦横比の歪み量を算出し、前記複数の縦横比情報の中で各文字の歪み量が最も小さくなるものを前記基準縦横比情報として推定することを特徴とする請求項３に記載の画像処理方法。
文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置であって、
入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正手段と、
前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段と、
文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段と、
前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段と、
前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段と
を有することを特徴とする画像処理装置。
コンピュータを、
入力された画像データから文字領域の台形歪みを検出し補正する領域補正手段、
前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段、
文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段、
前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段、
前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段
として機能させるためのプログラム。