JP2012022413A - 画像処理装置、画像処理方法、およびプログラム - Google Patents
画像処理装置、画像処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2012022413A JP2012022413A JP2010158266A JP2010158266A JP2012022413A JP 2012022413 A JP2012022413 A JP 2012022413A JP 2010158266 A JP2010158266 A JP 2010158266A JP 2010158266 A JP2010158266 A JP 2010158266A JP 2012022413 A JP2012022413 A JP 2012022413A
- Authority
- JP
- Japan
- Prior art keywords
- aspect ratio
- character
- distortion
- image processing
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims description 3
- 238000000034 method Methods 0.000 description 42
- 238000010586 diagram Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003703 image analysis method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003702 image correction Methods 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Editing Of Facsimile Originals (AREA)
Abstract
【課題】斜め方向から撮影して画像全体が歪んだ文字を含む文書画像の歪みを補正して正しい縦横比の文書画像を得る。
【解決手段】文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置であって、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正手段と、前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段と、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段と、前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段と、前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段とを有する。
【選択図】 図3
【解決手段】文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置であって、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正手段と、前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段と、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段と、前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段と、前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段とを有する。
【選択図】 図3
Description
本発明は、画像処理装置、画像処理方法、およびプログラムに関し、特に原稿などの平面の文字領域を撮影して取得した画像の歪みを補正する画像歪み補正方法に関する。
従来、名刺、はがき、ホワイトボード、ポスターなど、長方形の文字領域をカメラで斜め方向から撮影し、文字領域の歪みを補正した画像をファイリングする、或いは画像から文字認識処理を行って画像内の文字情報を再利用する手法が提案されている。撮影した画像の歪みを補正するためには、まず画像中から文字領域を含む外枠を抽出し、射影変換などにより外枠の台形歪みを補正して文字画像を出力する。このとき、一枚の画像から台形歪みを補正した画像は奥行き情報が不足しているため正しい縦横比の画像を再現することができない。従来は、辺や対角線の長さなど、画像中から得られる情報を利用して縦横比の推定を行っていた。しかし、図11(a)に示すような縦横比を持つ長方形領域1101を斜め上から撮影した場合、図11(b)に示すように下から撮影した場合と比較して、台形歪み補正後の長方形領域の縦横比に差が出るという問題があった。つまり、斜め上方向から撮影した画像1102において台形歪み補正を行うと、画像1103のように出力され、下方向から撮影した画像1104において台形歪み補正を行うと、画像1105のように出力される。
この問題を解決するために、特許文献1では、「名刺」「用紙」のように予め設定した複数の縦横比候補を補正種別テーブルとして保持しておき、対角線の長さを利用して補正画像の縦横比を推定する。そして、台形歪み補正後に得られた長方形領域を補正種別テーブルに格納された縦横比候補の中で最も近い縦横比に合わせるように画像を補正している。
しかしながら、上記従来の技術では、名刺などの決まった縦横比を持つ長方形に対しては正しい縦横比に補正することができるが、非定型の縦横比を持つ領域に対して正しい縦横比を再現することができないという問題があった。
この発明は、上記のような従来技術の問題を解消するためになされたものであり、撮影した画像中に存在する文字の縦横比情報を用いて画像の歪み補正を行い、正しい縦横比の補正文書画像を得ることを目的とする。
上記の問題を解決するために、本発明は、以下の構成を有する。文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置における画像処理方法であって、前記画像処理装置の領域補正手段が、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正工程と、前記画像処理装置の抽出手段が、前記領域補正工程にて台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出工程と、前記画像処理装置の決定手段が、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定工程と、前記画像処理装置の算出手段が、前記抽出工程にて抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出工程と、前記画像処理装置の縦横比補正手段が、前記算出工程にて算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正工程とを有する。
上記手段により、撮影された画像中に写っている非定型の縦横比を有する文書画像に対しても正しい縦横比に補正された画像を得ることができる。
[システム構成]
図1は、本発明を実施するための形態を構成するシステムのブロック図である。CPU101は、ROM102に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ROM102は、CPU101が実行するプログラムや各種パラメータを格納する。プログラムは、CPU101で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。RAM103は、処理対象となる画像や各種データを記憶する。また、プログラムを展開し、CPU101によって実行する。
図1は、本発明を実施するための形態を構成するシステムのブロック図である。CPU101は、ROM102に格納されている制御プログラムを実行することにより本装置全体の制御を行う。ROM102は、CPU101が実行するプログラムや各種パラメータを格納する。プログラムは、CPU101で実行されることにより、後述するフローチャートに示す各処理を実行するための各種手段として、当該装置を機能させる。RAM103は、処理対象となる画像や各種データを記憶する。また、プログラムを展開し、CPU101によって実行する。
記憶装置104は、本発明の処理対象となる画像データや出力電子ファイルを格納する装置である。画像入力装置105は、デジタルカメラなど、本発明の処理対象となる画像を入力する装置である。画像出力装置106は、本発明の処理画像を外部に出力するための出力装置である。
デジタルカメラなどの画像入力装置105から入力された文書画像は、ハードディスクなどの記憶装置104に一時記憶される。文書画像は、RAM103に展開された処理プログラムによって、画像処理を施され、処理結果を再びハードディスクなどの記憶装置104に再び記憶される。
なお、本実施形態では、後述するフローチャートの各ステップに対応する処理は、ROM102等に格納されたプログラムを読み出し、コンピュータ(CPU101)を用いてソフトウェアとして実現される。しかし、その処理の一部又は全部を電子回路などのハードウェアで実現するようにしても良い。
図2は、第一の実施形態に係る機能ブロック図である。画像入力部201は、カメラによって撮影された歪みのある文字領域を持つ画像を読み込む。台形歪み補正部202は、画像入力部201で読み込んだ歪みのある文字領域から文字領域の矩形を抽出し、射影変換により文字領域の台形歪みを補正する。縦横比補正部203は、台形歪み補正部202により台形歪みが補正された後に、文字領域に対して上下方向又は左右方向に伸縮した長方形の文書画像から正しい縦横比の画像に補正する。
縦横比情報格納部204は、予めあるフォントが持つ文字それぞれの縦横比情報の系列を格納している。ここで、縦横比情報について図6を参照して説明する。図6(a)は、日本語の縦横比情報を示す図である。図6(a)の61は、フォント1のフォント情報に含まれている各文字に対する文字固有の縦横比情報を示している。フォント1では、‘あ’という文字は(横:縦=100:95)の比で表示される。‘い’という文字は(横:縦=100:80)の比で表示されている。
文字縦横比情報600は、縦横比系列601としてフォント情報から抽出した文字縦横比の系列を有している。縦横比系列601は、主要なフォントから予めいくつかを選択し、縦横比情報格納部204に格納しておく。図6(a)では“縦横比系列1”の項目の値がフォント1の文字それぞれに対応する。フォント情報から抽出した文字情報602は、値603に示すように、文字それぞれに対応する表示の際の正しい縦横比情報が格納される。値603を例にとって説明すると、フォント1の‘あ’という文字の縦横比として(縦/横=0.95)が格納される。文字情報602として格納される文字の種類は、フォントによって縦横比のばらつきが少ないものだけを予め選択して保持しておく。例えば、‘一’や‘1’などフォントによって縦横比が大きく異なる文字は排除する。図6(b)は英語の縦横比系列を示す図であり、文字情報62に示されるアルファベット‘A’、‘B’に対して日本語と同様に複数の縦横比系列が格納される。
画像出力部205は、縦横比情報格納部204から取得した縦横比情報を元に縦横比補正部203で文字画像全体の縦横比を補正した画像を出力する画像出力部である。
[補正処理]
図12、図3〜図5を参照して、本発明の画像歪み補正方法について説明する。図12は、本発明の画像歪み補正方法の一実施例としての全体系を示す処理フローチャートである。
図12、図3〜図5を参照して、本発明の画像歪み補正方法について説明する。図12は、本発明の画像歪み補正方法の一実施例としての全体系を示す処理フローチャートである。
S1201では、撮影された画像を入力し、記憶装置104などの記憶部に読み込む。S1202では、S1201で入力された画像が文字を含む文書画像であるか文字を含まない自然画であるか判定する。画像データから文字を抽出する方法に関しては、例えば特開2002−042055号公報「カラー文書からの文字認識方法」などを用いて抽出することができる。S1203では、S1202で判定した画像が文書画像であるか自然画であるかによって分岐する。文書画像であれば(S1203にてYES)、S1204へ進み、文書画像でなければ(S1203にてNO)、S1207へ進む。
S1204では、S1201で入力された文書画像から名刺やホワイトボードなどの文字領域の外枠を抽出する。外枠の抽出は、まず文字領域と背景領域の領域境界を抽出する。画像データから文字領域を抽出する方法は、特開2004−96435号公報「画像解析装置、画像解析方法、および画像解析プログラム」あるいは、特開2006−107018号公報「画像解析方法及び装置、画像処理方法及びシステム、これらの動作プログラム」などを用いて抽出することができる。文字領域枠であるかどうかの判定条件は、例えば以下の通りである。
条件(1)文字領域が4本の領域境界線で囲まれていること
条件(2)領域境界線における領域境界の長さが閾値以上の割合で得られていること
条件(3)領域頂点、および推定領域頂点の角度がそれぞれ180度よりも小さいこと
条件(4)領域境界が文字上を通らないこと
また、文字領域枠の判定条件には、他にも
条件(5)文字領域が画像の中心を含むこと
条件(6)文字領域が一定以上の大きさを持っていること
などの条件を加えることが可能である。
条件(2)領域境界線における領域境界の長さが閾値以上の割合で得られていること
条件(3)領域頂点、および推定領域頂点の角度がそれぞれ180度よりも小さいこと
条件(4)領域境界が文字上を通らないこと
また、文字領域枠の判定条件には、他にも
条件(5)文字領域が画像の中心を含むこと
条件(6)文字領域が一定以上の大きさを持っていること
などの条件を加えることが可能である。
S1205では、S1204で抽出した文字領域の歪みを検出し、領域補正を行う。本処理については、図3にて詳述する。S1206では、S1205で歪みを補正した文書画像から文字を抽出して電子ファイル化する。OCR処理により抽出した文字をレイアウトと共に記憶し、ワードプロセッサ文書やXMLなどの構造化文書として編集可能な状態で保存する。S1207では、S1206で作成した電子ファイル或いはS1203で自然画と判定された画像を出力する。
[歪み補正処理]
図3は、図12のS1205歪み補正処理の詳細を説明するフローチャートである。S301では、図12のS1204において抽出された文字領域画像を入力し、記憶装置104などの記憶部に読み込む。S302では、S301によって入力された文字領域の台形歪みを補正することで領域内に存在する文字オブジェクトなどの歪みを補正する。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば、特開2008−257713号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
図3は、図12のS1205歪み補正処理の詳細を説明するフローチャートである。S301では、図12のS1204において抽出された文字領域画像を入力し、記憶装置104などの記憶部に読み込む。S302では、S301によって入力された文字領域の台形歪みを補正することで領域内に存在する文字オブジェクトなどの歪みを補正する。歪み補正技術としては透視変換などによる台形歪み補正技術が知られており、例えば、特開2008−257713号公報「透視変換歪み発生文書画像補正装置および方法」により文字領域枠を台形歪みとした画像補正が可能である。
図7において、S302における歪み補正画像の生成を説明する。図7(a)は、S301により入力した画像に対し、図12のS1204で抽出した文字領域境界線の4つの頂点、p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)で囲まれた部分画像を切り出し、図7(b)の画像を生成する。次に、切り出した文字領域枠701から水平方向の辺を延長した線702、703から水平方向の消失点704を、文字領域枠701の垂直方向の辺を延長した線705、706から垂直方向の消失点707を求める。
上記の処理によって求めた消失点により逆透視変換を行い、文字領域枠を補正することによって図7(c)のような長方形の文字領域を持つ画像を生成する。図7(a)の歪みのある文字領域の4つの頂点p1(x1,y1)、p2(x2,y2)、p3(x3,y3)、p4(x4,y4)が、それぞれp1’(x1’,y1’)、p2’(x2’,y2’)、p3’(x3’,y3’)、p4’(x4’,y4’)の長方形の頂点に対応するように補正される。
S303では、S302で台形歪みを補正した文字領域に含まれる文字それぞれの外接矩形枠を抽出する。ここでの外接矩形枠の抽出方法については、以降の処理が適用可能であれば良いため、特に限定しない。S304では、文字縦横比情報とS303で抽出した外接矩形の縦横比を比較して、画像全体の縦横比を補正するための基準となる縦横比系列を取得する。本ステップの詳細は、図4において詳述する。S305では、S304において抽出した基準縦横比系列を用いて文字領域画像全体の縦横比を補正する。S306では、S305において縦横比が補正された画像を出力する。
[基準縦横比情報取得処理]
図4は、図3のS304における基準縦横比情報取得処理を詳述したフローチャートである。S401では、図3のS302において台形歪みが補正された文字領域に含まれる文字に対して言語判定を行う。文書画像中に存在する文字の言語を判定する方法に関しては、例えば特開2005−332062号公報「画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体」などを用いて、判定することができる。
図4は、図3のS304における基準縦横比情報取得処理を詳述したフローチャートである。S401では、図3のS302において台形歪みが補正された文字領域に含まれる文字に対して言語判定を行う。文書画像中に存在する文字の言語を判定する方法に関しては、例えば特開2005−332062号公報「画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体」などを用いて、判定することができる。
S402では、S401で判定された言語が、フォントによる文字の縦横比の変動が所定値以上であるか否かを判定する。フォントによる文字の縦横比の変動が所定値以上であるか否かを判定するために用いる情報は、予め縦横比情報格納部204内の言語情報テーブルに言語固有の情報として格納しておく。
図13に言語情報テーブルの一例を示す。言語1301は、言語の種類を示す列であり、日本語、英語、中国語などの主要言語を格納する。変動タイプ1302は、言語1301の各レコードに示される言語が、用いられるフォントによって文字の縦横比の変動が所定値以上であるかどうかを判定するために用いる情報である。縦横比系列1303は、言語1301の各言語に対応する縦横比系列が格納される。変動タイプ1302は、予め言語1301の各言語について縦横比系列1303に含まれる複数の縦横比系列から同一文字の縦横比の分散を計算し、例えば、分散値がある閾値より大きければ変動タイプ1、小さければ変動タイプ0を格納する。言語情報テーブルは、各言語に対して予め定義されているものとする。
言語情報テーブルからS401にて判定された言語のレコードを参照し、該当言語に対応する変動タイプを調べることにより、該当言語のフォントによる文字の縦横比の変動が所定値以上であるか否かを判定する。S402にて、フォントによる文字の縦横比の変動が所定値以上の言語であると判定された場合(S402にてYES)、S405へ進む。フォントによる文字の縦横比の変動が所定値未満の言語であると判定された場合(S402にてNO)、S403へ進む。
S403では、S401で判定された言語に対応する文字認識処理を行い、文字領域中のそれぞれの文字を識別する。S404は、縦横比情報から1つの縦横比系列を基準縦横比として決定し設定する。本処理では、S402によってフォントによる文字の縦横比の変動が所定値未満の言語に対する処理に限定されているため、どの縦横比系列を基準にしても画像の補正率はそれほど変わらない。そこで、予め選択しておいた代表的な縦横比系列を用いて1つ基準縦横比として設定する。例えば、明朝やゴシックといった代表的なフォントから抽出した縦横比系列を使用する。
S405では、S401にて判定された言語に対応する文字認識処理を行い、文字領域中のそれぞれの文字を識別する。S406では、複数の縦横比系列からS405において認識された各文字に最も適する縦横比系列を推定し、基準縦横比情報として設定する。本処理の詳細については、図5において記述する。このように、基準となる縦横比系列を1つ設定して図3のS305の画像縦横比補正処理に受け渡す。
[基準縦横比情報推定]
図5は、図4のS406の基準縦横比情報を推定する処理の詳細を記述したフローチャートである。S501では、図2の縦横比情報格納部204から1つの縦横比系列を取り出し設定する。ここで取り出す縦横比系列は、図13の言語情報テーブルに示すように、各言語に縦横比系列が1以上対応付けられているため、それらの情報を用いて、縦横比系列を取得する。S502では、S501にて設定したある1つの縦横比系列を利用して文字領域に存在するある1つの文字に対する歪み量を計算する。ここで、歪み量とは、文書画像中に存在する、ある文字の縦横比と、縦横比系列中に存在する対応する文字の縦横比の比を示す量である。
図5は、図4のS406の基準縦横比情報を推定する処理の詳細を記述したフローチャートである。S501では、図2の縦横比情報格納部204から1つの縦横比系列を取り出し設定する。ここで取り出す縦横比系列は、図13の言語情報テーブルに示すように、各言語に縦横比系列が1以上対応付けられているため、それらの情報を用いて、縦横比系列を取得する。S502では、S501にて設定したある1つの縦横比系列を利用して文字領域に存在するある1つの文字に対する歪み量を計算する。ここで、歪み量とは、文書画像中に存在する、ある文字の縦横比と、縦横比系列中に存在する対応する文字の縦横比の比を示す量である。
以下、歪み量について図8を参照しながら具体的に説明する。図8(a)は、入力画像に対して図3のS302において台形歪みを補正した直後、縦横比を補正する前の文字画像と、図6で示される複数の縦横比系列を比較するための図である。
文字領域801は、台形歪み補正後の文字領域の画像である。文字領域には“Japan”という文字が存在し、画像全体の正しい縦横比が取れないために長方形の文字領域が正しい縦横比に対して横方向に縮んでいる。ここで、文字‘J’に対し、高さJh、幅Jwとすると、縦横比はJh/Jwで表される。同様に、文字‘n’に対し、高さnh、幅nwとして表す。
縦横比情報802は、文字領域801に存在する各文字に対応する図6の縦横比系列Aに格納されている文字の縦横比情報を示す。ここでの文字の縦横比情報は、言語情報テーブルに基づいて、参照する値を抽出する。縦横比系列A中の文字‘J’の高さをJhA、幅JwAとすると、文字‘J’の縦横比はJhA/JwAである。縦横比情報803は、縦横比系列Aとは異なるフォントから抽出した縦横比系列Bである。
図8(b)は、S503で算出する歪み量の算出式を表す図である。歪み量は、文字領域801に含まれる文字毎に対し、式804を用いて算出される。例えば、縦横比系列Aの文字‘J’の歪み量は式805に示す値として、文字‘n’の歪み量は式806に示す値として表される。
S503では、設定されている縦横比系列を用いて、歪み量算出に使用する文字を全て調べたかどうか判定する。歪み量算出に使用する文字は、文字領域中にある文字の大きさや位置などを基準に文字領域から複数の文字を選択する。例えば、文字領域中の最も大きい文字の一群を選択する場合が考えられる。これは例えば、文字領域801に含まれる文字行の先頭の数文字を利用するといった選択が対応する。或いは、図3のS302で台形歪みを補正する前に文字領域の最も長い辺を記憶しておき、該当の辺の近傍にある文字を選択して画像としてのボケが少ない文字から歪み量を算出しても良い。
全ての文字について調べ終わっていない場合(S503にてNO)、S504へ進み次の文字を取得し、S502へ戻る。全ての文字を調べた場合(S503にてYES)、S505へ進む。
S505では、全ての縦横比系列に対して各文字の歪み量を計算したか否かを判定する。ここでの全ての縦横比系列とは、言語情報テーブルにおいて対応付けられている各言語の縦横比系列を意味する。まだ調べていない縦横比系列があるならば(S505にてNO)、S506へ進み、次の縦横比系列を取得してS502へ戻る。全ての縦横比系列を調べた場合(S505にてYES)、S507へ進む。
S507において、文字領域に最も近い縦横比系列を推定するために縦横比系列ごとに歪み量の分散を算出する。ここで、歪み量はある縦横比系列に存在する文字と文字領域に存在する文字の縦横比の比である。つまり、該当縦横比系列と文字領域に存在する文字の字形が同一であった場合、文字領域中の文字が上下或いは左右に伸縮していても歪み量は全ての文字で一定(もしくは、ほぼ同一)となる。図9にi番目の縦横比系列に対する分散の算出式を示す。
S508では、S507で算出したそれぞれの縦横比系列に対する分散の値が最も小さいものを基準縦横比情報としてセットする。このように、文字領域中の文字の縦横比に最も近い縦横比系列を推定して文字領域全体の縦横比を補正するための基準縦横比を設定する。そして、本処理フローを終了する。
図10は、図5の各ステップで設定された基準縦横比系列を使用した縦横比補正処理を説明する図である。歪み補正画像1001は、図3のS302において台形歪みを補正した文字領域である。図5に示した処理によって、基準縦横比情報に縦横比系列Aが設定され、図5のS507の分散算出処理に使用した文字の平均歪み量が0.65であるという例である。ここでの平均とは、歪み量(系列A,‘J’)、歪み量(系列A,‘a’)、歪み量(系列A,‘p’)、歪み量(系列A,‘n’)の平均とする。この平均歪み量を画像(文字領域)全体に対して補正を行うために用いる補正値となる。平均歪み量が1より小さい場合は、画像を横方向に伸張して縦横比を補正する。1より大きい場合は、縦方向に伸張する。本例では、平均歪み量が1より小さいため、横方向に(1/平均歪み量)倍伸張して縦横比の補正を行い、正しい縦横比を有する出力画像1002を得る。これにより、文字領域に含まれる文字に対する文字補正を行うこととなる。
以上説明したように、本発明によれば、歪みのある文字領域を有する画像に対して正しい縦横比のオブジェクトが画像中から得られなくても、画像中に存在する文字の縦横比情報を用いて正しい縦横比の補正画像を得ることができる。また、任意の縦横比を有する文書画像に対して正しい縦横比に補正することが可能となる。
<その他の実施形態>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
Claims (7)
- 文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置における画像処理方法であって、
前記画像処理装置の領域補正手段が、入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正工程と、
前記画像処理装置の抽出手段が、前記領域補正工程にて台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出工程と、
前記画像処理装置の決定手段が、文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定工程と、
前記画像処理装置の算出手段が、前記抽出工程にて抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出工程と、
前記画像処理装置の縦横比補正手段が、前記算出工程にて算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正工程と
を有することを特徴とする画像処理方法。 - 前記決定工程において、前記画像処理装置の言語判定手段が、前記文字領域に含まれる文字の言語が、各文字のフォントの縦横比の変動が所定値未満である言語と、各文字のフォントの縦横比の変動が前記所定値以上である言語と、のいずれの言語であるかを判定する言語判定工程を更に有し、
前記言語判定工程にて、前記文字領域に含まれる文字の言語が各文字のフォントの縦横比の変動が前記所定値未満の言語であると判定された場合、前記抽出工程にて前記画像データから抽出した外接矩形に対し文字認識を行い、認識した前記文字に対応する縦横比情報を取得し前記基準縦横比情報として決定することを特徴とする請求項1に記載の画像処理方法。 - 前記決定工程において、前記画像処理装置の基準縦横比情報推定手段が、1つの文字に対する複数の縦横比情報の中から最も抽出した文字に適する縦横比を推定する基準縦横比情報推定工程を更に有し、
前記言語判定工程にて、前記文字領域に含まれる文字の言語が各文字のフォントの縦横比の変動が前記所定値以上の言語であると判定された場合、前記抽出工程にて前記画像データから抽出した外接矩形に対し文字認識を行い、認識した前記文字に対して前記基準縦横比情報推定工程にて推定された縦横比を基準縦横比情報とすることを特徴とする請求項2に記載の画像処理方法。 - 前記基準縦横比情報は、フォントそれぞれにおいて、同一文字に対する縦横比の変動が前記所定値未満となる文字の縦横比を予め定義されていることを特徴とする請求項1乃至3のいずれか一項に記載の画像処理方法。
- 前記基準縦横比情報推定工程において、複数の文字を含む外接矩形に対して文字の外接矩形と縦横比の歪み量を算出し、前記複数の縦横比情報の中で各文字の歪み量が最も小さくなるものを前記基準縦横比情報として推定することを特徴とする請求項3に記載の画像処理方法。
- 文字を含む画像データから当該文字を含む文字領域の歪みを検出し、検出した歪みを補正して出力する画像処理装置であって、
入力された前記画像データから文字領域の台形歪みを検出し補正する領域補正手段と、
前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段と、
文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段と、
前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段と、
前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段と
を有することを特徴とする画像処理装置。 - コンピュータを、
入力された画像データから文字領域の台形歪みを検出し補正する領域補正手段、
前記領域補正手段により台形歪みを補正した文字領域から、文字の外接矩形を抽出する抽出手段、
文字固有の縦横比が定義された縦横比情報から基準となる基準縦横比情報を決定する決定手段、
前記抽出手段により抽出された文字の外接矩形の縦横比と前記基準縦横比情報とを比較し、前記台形歪みを補正した文字領域全体の縦横比の補正値を算出する算出手段、
前記算出手段により算出された縦横比の補正値を用いて、前記台形歪みを補正した文字領域の縦横比を補正する縦横比補正手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158266A JP2012022413A (ja) | 2010-07-12 | 2010-07-12 | 画像処理装置、画像処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158266A JP2012022413A (ja) | 2010-07-12 | 2010-07-12 | 画像処理装置、画像処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012022413A true JP2012022413A (ja) | 2012-02-02 |
Family
ID=45776680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010158266A Withdrawn JP2012022413A (ja) | 2010-07-12 | 2010-07-12 | 画像処理装置、画像処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012022413A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220057A1 (en) * | 2012-08-23 | 2015-08-06 | Bayer Materialscience Ag | Security document and/or document of value containing a visually changeable window with a hologram |
WO2020039567A1 (ja) * | 2018-08-23 | 2020-02-27 | 日本電気株式会社 | 物体照合装置 |
JP2020161196A (ja) * | 2018-10-16 | 2020-10-01 | 株式会社マーケットヴィジョン | 画像認識システム |
-
2010
- 2010-07-12 JP JP2010158266A patent/JP2012022413A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150220057A1 (en) * | 2012-08-23 | 2015-08-06 | Bayer Materialscience Ag | Security document and/or document of value containing a visually changeable window with a hologram |
WO2020039567A1 (ja) * | 2018-08-23 | 2020-02-27 | 日本電気株式会社 | 物体照合装置 |
JPWO2020039567A1 (ja) * | 2018-08-23 | 2021-08-10 | 日本電気株式会社 | 物体照合装置 |
JP7215485B2 (ja) | 2018-08-23 | 2023-01-31 | 日本電気株式会社 | 物体照合装置 |
US11983864B2 (en) | 2018-08-23 | 2024-05-14 | Nec Corporation | Object matching device |
JP2020161196A (ja) * | 2018-10-16 | 2020-10-01 | 株式会社マーケットヴィジョン | 画像認識システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069767B (zh) | 基于电子书的排版方法、电子设备及计算机存储介质 | |
JP5616308B2 (ja) | 文字の形状特徴を使用した文字比較による文書改変検知方法 | |
JP5121599B2 (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
US20150228045A1 (en) | Methods for embedding and extracting a watermark in a text document and devices thereof | |
US20120005564A1 (en) | Content distribution system and method | |
CN111612004A (zh) | 一种基于语义内容的图像裁剪方法及装置 | |
US8259374B2 (en) | Image processing apparatus and image forming apparatus | |
CN111859865A (zh) | 用于转换pdf文档的方法、装置、终端及介质 | |
US8600175B2 (en) | Apparatus and method of processing image including character string | |
US20120269438A1 (en) | Image processing apparatus | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP5049922B2 (ja) | 画像処理装置及び画像処理方法 | |
JP2012022413A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP4275973B2 (ja) | 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法 | |
JP5111242B2 (ja) | 画像処理装置及び方法 | |
CN106598934A (zh) | 电子书数据的显示方法、装置及终端设备 | |
JP6030915B2 (ja) | 画像再配置方法、画像再配置システム、および画像再配置プログラム | |
US20220277473A1 (en) | Pose estimation apparatus, learning apparatus, pose estimation method, and non-transitory computer-readable recording medium | |
JP5577763B2 (ja) | 画像処理装置、画像処理システム、及び画像処理プログラム | |
JP2012181618A (ja) | 画像処理プログラムおよび画像処理装置 | |
US8340434B2 (en) | Image processing apparatus, image processing system and computer readable medium | |
JP5298830B2 (ja) | 画像処理プログラム、画像処理装置及び画像処理システム | |
CN106951401B (zh) | 一种文档正文识别方法及装置 | |
JP2007328652A (ja) | 画像処理装置および画像処理プログラム | |
US20170116500A1 (en) | Image processing apparatus, image processing method and image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20131001 |