JP4869364B2 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
JP4869364B2
JP4869364B2 JP2009026103A JP2009026103A JP4869364B2 JP 4869364 B2 JP4869364 B2 JP 4869364B2 JP 2009026103 A JP2009026103 A JP 2009026103A JP 2009026103 A JP2009026103 A JP 2009026103A JP 4869364 B2 JP4869364 B2 JP 4869364B2
Authority
JP
Japan
Prior art keywords
character
image
image processing
unit
preprocessing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009026103A
Other languages
English (en)
Other versions
JP2010182166A (ja
Inventor
聡一郎 小野
一紀 関戸
博之 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009026103A priority Critical patent/JP4869364B2/ja
Publication of JP2010182166A publication Critical patent/JP2010182166A/ja
Application granted granted Critical
Publication of JP4869364B2 publication Critical patent/JP4869364B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、画像処理装置および画像処理方法に関する。
画像処理装置として、例えば画像に含まれる文字を認識する文字認識装置がある。文字認識装置において、複数の特徴量を用いて文字認識を行う技術の一つとして相互部分空間法という認識技術が提唱されている。この認識技術は1枚の文字画像の多様な特徴に着目して認識を行うものである(例えば非特許文献1参照)。
一方、文字画像には、1枚ごとに位置ずれや角度などによる変動要因が存在する。これに対応してパターン認識を行うための一つの手法として部分空間法という技術が公開されているが、その対応能力は必ずしも完全とはいえない(例えば非特許文献2参照)。
前田賢一、渡辺貞一「局所的構造を導入したパターン・マッチング法」、電子通信学会論文誌Vol.J68-D, No.3, 1985. 石井健一郎ほか「わかりやすいパターン認識」(1998)、オーム社
部分空間法では、例えば学習パターンの中に上述した変動要因が多く含まれていなければ、実用上は必ずしも大きな対応能力を発揮しないこともあり得る。また入力画像の変動が余りにも大きい場合、部分空間法といえども対応できず、認識精度が低下する。
本発明はこのような課題を解決するためになされたもので、文字画像から文字を認識する精度を向上することのできる画像処理装置および画像処理方法を提供することを目的とする。
上記の課題を解決するために、本発明の画像処理装置は、文書画像が記憶されたメモリと、文字毎に予め準備した文字の特徴をn次元特徴ベクトル空間中の辞書部分空間で示したデータが格納された認識辞書と、前記メモリから読み出した文書画像に対して所定の前処理を施して文字画像を生成する前処理部と、前記前処理部より生成された文字画像に対して所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、前記パターン生成部により生成された複数の文字パターンからm個のn次元特徴ベクトルを抽出する特徴抽出部と、前記n×m個の特徴データから、入力部分空間を計算し、計算した前記入力部分空間を前記辞書部分空間と照合して、類似度の高い文字を前記認識辞書から選出する類似度計算部とを具備することを特徴とする。
本発明の画像処理方法は、文書画像が記憶されたメモリ、文字毎に予め準備した文字の特徴をn次元特徴ベクトル空間中の辞書部分空間で示したデータが格納された認識辞書、前処理部、パターン生成部、特徴抽出部、類似度計算部を有する画像処理装置による画像処理方法において、前記メモリから文書画像を前記前処理部が読み出し、読み出した前記文書画像に対して所定の前処理を施して文字画像を生成するステップと、前記文字画像に対して前記パターン生成部が所定の画像加工処理を行うことで複数の異なる文字パターンを生成するステップと、前記複数の文字パターンからm個のn次元特徴ベクトルを抽出するステップと、前記n×m個の特徴データから、入力部分空間を計算し、計算した前記入力部分空間を前記辞書部分空間と照合して、類似度の高い文字を前記認識辞書から選出するステップとを有することを特徴とする。
本発明によれば、文字画像から文字を認識する精度を向上することができる。
本発明の一実施形態の画像処理装置の構成を示す図である。 画像処理装置の動作を示すフローチャートである。 4近傍ガウシアンフィルタを説明するための図である。 8近傍ガウシアンフィルタを説明するための図である。
以下、図面を参照して、本発明の一つの実施の形態の画像処理装置を詳細に説明する。図1は画像処理装置の構成を示す図である。
図1に示すように、この実施形態の画像処理装置は、入力部1、コンピュータ2(以下「PC2」と称す)、出力部3などを有している。
入力部1は、カメラ・スキャナなどの外部入力装置であり、紙の文書(書類)からCCDセンサなどにより光学的に読み取った文書画像をPC2に入力する。表示部3は、例えばモニタなどの表示装置、プリンタなどの印刷装置であり、PC2から出力された認識結果のデータを出力(表示または印刷)する。
PC2は、メモリ10、前処理部11、パターン生成部12、特徴抽出部13、認識辞書14、類似度計算部15などを有している。これら各部はコンピュータのソフトウェアのモジュールとして実現される。なお、これら各部はハードウェアで構成しても良い。
メモリ10は、オペレーティングシステム(OS)などのコンピュータ制御プログラムが読み込まれる領域として利用される他、上記各部の処理用の記憶領域として利用される。メモリ10には例えば比較処理のための画像データや処理結果のデータなどが記憶される。
前処理部11は、文字認識に使用する画像(文字画像)の部分的な切り出し、二値化、ノイズ除去、輪郭強調などの所定の前処理を行う。前処理部11は、所定の前処理として、文字画像の部分的な切り出し、二値化、ノイズ除去、輪郭強調などのうちの少なくとも一つを行うものとする。これら個々の画像処理技術については、既知の技術のため詳細な説明は省略する。
パターン生成部12は、前処理部11で前処理済みの画像を拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換するなどの所定の画像加工処理を行って、元の文字画像を変動(変形または変質)させた新たな画像を生成する。パターン生成部12は、所定の画像加工処理として、拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換のうちの少なくとも一つを行うものとする。
特徴抽出部13は、パターン生成部12により生成された個々の画像の特徴量(以下特徴データと称す)を抽出する。認識辞書14には、予め複数(多く)の文字とその特徴データが対応して格納されている。
類似度計算部15は、特徴抽出部13により抽出された複数の特徴データと認識辞書14に格納されている文字の特徴データとの類似度を演算により求める。演算とは、メモリ10に記憶されている計算式(関数)にデータを入れる計算することをいう。
以下、図2のフローチャートおよび図3,図4を参照してこの画像処理装置の動作を説明する。
認識対象の文書をカメラ・スキャナなどの入力部1にセットして、デジタルカメラであれば撮影操作、またスキャナであればスキャン操作を行うと、入力部1により文書の画像が読み取られてPC2へデジタル画像(これを「文書画像21」と称す)として出力される。
入力部1から出力された文書画像21がPC2に入力されると、その文書画像21は、前処理部11により一旦、メモリ10に記憶される(図2のステップS101)。
文書画像21をメモリ10に記憶した後、前処理部11は、メモリ10から文書画像21を読み出し、読み出した文書画像21に対して所定の前処理を施して文字画像22を生成し(ステップS102)、メモリ10に記憶する。所定の前処理とは、画像の部分切り出し、二値化、ノイズ除去、輪郭強調などの画像処理のうち,予め決められた処理である。
パターン生成部12は、メモリ10から文字画像22を読み出し、読み出した文字画像22(前処理済みの画像)に対して所定の画像加工処理を行うことで複数個の異なる文字パターン(図1の文字パターン23〜26)を生成し(ステップS103)、メモリ10に記憶する。所定の画像加工処理とは、画像の拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換などの処理のうち予め決められた処理である。
特徴抽出部13は、メモリ10から複数の文字パターン23〜26を読み出し、読み出した文字パターン23〜26からそれぞれの特徴データを抽出し(ステップS104)、メモリ10に記憶する。
類似度計算部15は、メモリ10から複数の特徴データを読み出し、読み出した複数の特徴データと認識辞書14から読み出した文字27の特徴データとを用いて類似度を計算し(ステップS105)、類似度の高い文字を認識辞書14から選出(ステップS106)、つまりパターン認識処理を行い、認識結果の文字(テキストデータおよび認識元の文字画像22)を表示部3へ出力し、表示部3の画面に表示する。
ここで、パターン生成部12が行う文字パターンの生成処理(画像処理)について説明する。
パターン生成部12は、前処理部11で前処理済みの画像を拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換するなどの所定の画像加工処理を行って、元の文字画像22を切り出し範囲内で変動(変形または変質)させて新たな画像を生成する。
画像拡張処理の一例として、例えば各画素について、その画素または上下左右4画素のうち1つ以上が黒ならばその画素も黒とするといった処理を行う。
画像収縮処理の一例として、例えば各画素について、その画素または上下左右4画素のうち1つ以上が白ならばその画素も白とする(収縮)といった処理を行う。
画像の回転および移動については、前処理済みの画像において座標xの画素値をf(x)で表したとき、
Figure 0004869364
で表されるRu[f],Ss[f]をそれぞれ、回転行列Uおよび移動量sをパラメータとする回転済み、または移動済み画像とすることができる。この処理によって、座標U-1x,(x−s)にあった黒点がxにそれぞれ回転・平行移動する。
画像の回転については、例えば10度刻みに90度までといったようにして回転する。また画像の移動については、例えば前処理済画像の辺や対角線の長さを基準に、例えば1/4などといった比率を用いて移動する。
画像のぼかし、手ぶれ処理については、これらを実現する点拡がり関数(PSF)を準備し、前処理済みの画像に畳み込み、それを再度二値化する。
ぼかしに対応するPSFは、図3に示すように、中心画素とその周囲8方向に隣接する画素とを配置した9画素モデルにおいて、中心の画素を「2」としたときに、その上下左右の画素を「1」とし、斜め方向の画素を「0」とする4近傍ガウシアンフィルタがある。
また、この他、図4に示すように、中心画素とその周囲8方向に隣接する画素とを配置した9画素モデルにおいて、中心の画素を「4」としたときに、その上下左右の画素を「2」とし、斜め方向の画素を「1」とする8近傍ガウシアンフィルタなどを用いる。
手ぶれに対応するPSFとしては、原点Oの近傍に一点Pを選び、
Figure 0004869364
として作ることができる。PSFとして1(y)を原画像f(x)に畳み込む処理は、
Figure 0004869364
と表せる。上記h(x)が畳み込み処理後の画像である。
透視変換は、射影変換の名で広く知られており、一般的な射影幾何学の文献、例えば川又雄二郎「射影空間の幾何学(講座数学の考え方11)」(2001)、朝倉書店等に開示されている射影変換の技術を利用するものとする。
特徴抽出部13が前処理済みの画像から特徴量を抽出する処理については以下に示す。
例えば、画像に前述の方法でぼかし処理を施した上で、ぼかし処理した画像を、画素値を成分とするベクトルとみなしてそのまま特徴量とする方法がある。
また、類似度計算部15がパターン認識処理を行う方法および認識辞書14の作成方法としては、CLAFIC法に基づいて認識辞書14を作成した上で、複数の生成パターンの特徴量と、認識辞書14に登録済の文字種との類似度を、相互部分空間法などを用いて計算する方法がある。
また、相互部分空間法を用いた類似度の計算方法としては、例えば特徴抽出部13から入力された複数の特徴ベクトルx,…,Xから行列
Figure 0004869364
を計算し、その固有ベクトルをu,uとした上で、0≦p≦m,0≦q≦nとなる整数p、qを選んだ上で、行列U=(u,…u),V=(v…v)を用いて定義される
Figure 0004869364
の最大固有値ρ(1)を求め、このρ(1)を類似度とする方法がある。ただし、左肩のtは転置を表す。このときρ(1)は、累乗法などの既存の方法を用いて計算することができる。ただし、v1 ,vn は辞書データであり、これは各文字種毎に予め準備した学習パターンy1,…,ynを用いて行列
Figure 0004869364
を計算し、その固有ベクトルをv1 ,vn とすることで計算できる。
別の類似度計算方法として、特徴ベクトルを正規化したベクトル
Figure 0004869364
から、個別類似度
Figure 0004869364
を計算し、類似度統合関数σを用いて
Figure 0004869364
と定まるρ(2)を類似度とすることができる。このとき、辞書の作成方法は上と同様でよい。
また類似度統合関数σの定め方としては、個別類似度のうち最大のものを選ぶ方法、個別類似度が大きい順にいくつかを選びこれを平均する方法、個別類似度全体の平均を取る方法などがある。また、選択した個別類似度に直接平均操作を施す代わりに、一度、単調増加関数を用いて個別類似度の差を強調してもよい。
そのためには、単調増加関数τを用いて、
Figure 0004869364
などとする方法がある。ただし、rは1≦r≦mとなる整数であり、ρt(s)は、ρ1,…,ρmのうち大きいものからs番目の値である。さらに、τの例としては、
Figure 0004869364
などが挙げられる。ただし、ρ0 ,βは定数として適当なものを別途選ぶ。
類似度が顕著に高い文字種が存在しない場合、類似度計算部15において、結果不明と判定し、これをリジェクトしてもよい。
このようにこの実施形態の画像処理装置によれば、認識対象の文字画像の文字(黒画素)について積極的に部分的な変動(黒画素を所定のルールでずらしたり太くしたりする等)を起こさせた複数の異なる文字パターンを生成し、これら文字パターンの特徴データの全体と認識辞書14の特徴データとの類似度を計算する。つまり、元の文字画像からいくつかの変形文字パターンを作成した上で、それらが全体として持つ性質に着目して認識を行うので、文字認識精度を向上することができる。
なお、本願発明は、上記実施形態のみに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形してもよい。例えば各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現しても良い。
また上記プログラムを、コンピュータ読取可能なCD−ROMなどの記憶媒体に記憶しておき、プログラムを記憶媒体からコンピュータに読み取らせることで実現してもよい。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現しても良い。
1…入力部、2…コンピュータ(PC)、3…表示部、11…パターン生成部、10…メモリ、11…前処理部、12…パターン生成部、13…特徴抽出部、14…認識辞書、15…類似度計算部。

Claims (5)

  1. 文書画像が記憶されたメモリと、
    文字毎に予め準備した文字の特徴をn次元特徴ベクトル空間中の辞書部分空間で示したデータが格納された認識辞書と、
    前記メモリから読み出した文書画像に対して所定の前処理を施して文字画像を生成する前処理部と、
    前記前処理部より生成された文字画像に対して所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、
    前記パターン生成部により生成された複数の文字パターンからm個のn次元特徴ベクトルを抽出する特徴抽出部と、
    前記n×m個の特徴ベクトルから、入力部分空間を計算し、計算した前記入力部分空間を前記辞書部分空間と照合して、類似度の高い文字を前記認識辞書から選出する類似度計算部と
    を具備することを特徴とする画像処理装置。
  2. 請求項1記載の画像処理装置において、
    前記前処理部は、
    所定の前処理として、前記文字画像の部分的な切り出し、二値化、ノイズ除去、輪郭強調などのうちの少なくとも一つを行うことを特徴とする。
  3. 請求項1記載の画像処理装置において、
    前記パターン生成部は、
    所定の画像加工処理として、拡張・収縮・回転・移動・ぼかし・手ぶれ・透視変換のうちの少なくとも一つを行うことを特徴とする。
  4. 文書画像が記憶されたメモリ、文字毎に予め準備した文字の特徴をn次元特徴ベクトル空間中の辞書部分空間で示したデータが格納された認識辞書、前処理部、パターン生成部、特徴抽出部、類似度計算部を有する画像処理装置による画像処理方法において、
    前記メモリから文書画像を前記前処理部が読み出し、読み出した前記文書画像に対して所定の前処理を施して文字画像を生成するステップと、
    前記文字画像に対して前記パターン生成部が所定の画像加工処理を行うことで複数の異なる文字パターンを生成するステップと、
    前記複数の文字パターンからm個のn次元特徴ベクトルを抽出するステップと、
    前記n×m個の特徴の特徴ベクトルから、入力部分空間を計算し、計算した前記入力部分空間を前記辞書部分空間と照合して、類似度の高い文字を前記認識辞書から選出するステップと
    を有することを特徴とする画像処理方法。
  5. 文書画像が記憶されたメモリと、
    文字とその特徴データが対応して格納された認識辞書と、
    前記メモリから読み出した文書画像に対して所定の前処理を施して文字画像を生成する前処理部と、
    前記前処理部より生成された文字画像に対して所定の画像加工処理を行うことで複数の異なる文字パターンを生成するパターン生成部と、
    前記パターン生成部により生成された複数の文字パターンからn×m個の特徴データを抽出する特徴抽出部と、
    前記n×m個の特徴データをn個ずつ組にして前記認識辞書の特徴データと照合してm個の個別類似度を算出し、前記個別類似度を類似度統合関数を用いて統合して前記認識辞書の特徴データとの類似度を算出し、前記類似度の高い文字を前記認識辞書から選出する類似度計算部と
    を具備することを特徴とする画像処理装置。
JP2009026103A 2009-02-06 2009-02-06 画像処理装置および画像処理方法 Expired - Fee Related JP4869364B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009026103A JP4869364B2 (ja) 2009-02-06 2009-02-06 画像処理装置および画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009026103A JP4869364B2 (ja) 2009-02-06 2009-02-06 画像処理装置および画像処理方法

Publications (2)

Publication Number Publication Date
JP2010182166A JP2010182166A (ja) 2010-08-19
JP4869364B2 true JP4869364B2 (ja) 2012-02-08

Family

ID=42763718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009026103A Expired - Fee Related JP4869364B2 (ja) 2009-02-06 2009-02-06 画像処理装置および画像処理方法

Country Status (1)

Country Link
JP (1) JP4869364B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07220026A (ja) * 1994-01-31 1995-08-18 Omron Corp 画像処理装置および方法
JP3393462B2 (ja) * 1996-01-23 2003-04-07 オムロン株式会社 モデル画像作成方法および装置
JP3466449B2 (ja) * 1997-12-12 2003-11-10 日本電信電話株式会社 パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体
JP2001084333A (ja) * 1999-09-13 2001-03-30 Vasara Research Inc 文字読取り装置

Also Published As

Publication number Publication date
JP2010182166A (ja) 2010-08-19

Similar Documents

Publication Publication Date Title
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
RU2621601C1 (ru) Устранение искривлений изображения документа
RU2631765C1 (ru) Способ и система исправления перспективных искажений в изображениях, занимающих двухстраничный разворот
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
WO2009137634A1 (en) Camera-based document imaging
US8351700B2 (en) Variable glyph system and method
CN114529925B (zh) 一种全线表表格结构识别方法
JP2008033424A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP7451373B2 (ja) 図面構造化システムおよび図面構造化方法
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
JP7517386B2 (ja) 指紋特徴抽出装置及び指紋特徴抽出方法
JP2017120503A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
CN109697442B (zh) 一种字符识别模型的训练方法和装置
JP4859061B2 (ja) 画像の補正方法、補正プログラムおよび画像歪み補正装置
CN114863431A (zh) 一种文本检测方法、装置及设备
JP4869365B2 (ja) 画像処理装置および画像処理方法
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
JP2002150280A (ja) 歪み補正方式
JP2017138743A (ja) 画像処理装置、画像処理方法及びプログラム
CN115909356A (zh) 数字文档的段落确定方法、装置、电子设备及存储介质
JP4869364B2 (ja) 画像処理装置および画像処理方法
JP7238510B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113591846A (zh) 图像扭曲系数提取方法、扭曲矫正方法及系统、电子设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111115

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141125

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees