JP4796599B2 - 画像識別装置、画像識別方法、プログラム - Google Patents

画像識別装置、画像識別方法、プログラム Download PDF

Info

Publication number
JP4796599B2
JP4796599B2 JP2008107808A JP2008107808A JP4796599B2 JP 4796599 B2 JP4796599 B2 JP 4796599B2 JP 2008107808 A JP2008107808 A JP 2008107808A JP 2008107808 A JP2008107808 A JP 2008107808A JP 4796599 B2 JP4796599 B2 JP 4796599B2
Authority
JP
Japan
Prior art keywords
result
category
identification
image
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008107808A
Other languages
English (en)
Other versions
JP2009259030A (ja
Inventor
稔 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008107808A priority Critical patent/JP4796599B2/ja
Publication of JP2009259030A publication Critical patent/JP2009259030A/ja
Application granted granted Critical
Publication of JP4796599B2 publication Critical patent/JP4796599B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、パターン認識によって入力画像の識別を行う画像識別技術に関する。
従来技術に、画像認識・識別処理に際して行われる画像正規化処理の一例として、入力画像の縦横比を保ったまま入力画像を予め設定された大きさにする処理がある。例えば、入力画像の1次モーメントを計算し、予め設定されている大きさの正規化枠に一様に拡大・縮小する手法(線形正規化処理)がある(特許文献1、非特許文献1参照)。
また、入力画像を観測して得られた特徴量から一律に正規化処理する手法がある。例えば、入力画像を水平方向及び垂直方向に走査し、各方向で標本化間隔と線密度(2値図形の例では、走査方向の線が2値図形と交差する回数である。)との積が一定になるように画像を正規化する手法(非線形正規化処理)がある(非特許文献2参照)。
また、入力画像と認識・識別対象となる標準画像との間で対応付けを行い、入力画像を各標準画像に近づくように変形させる手法がある。例えば、入力画像と各標準画像間で画素ごとに対応付け及びアフィン変換に基づく変位を求め、各標準画像に近づくように入力画像を変形する方法がある(非特許文献3参照)。
特開昭57−164376号公報 萩田紀博、内藤誠一郎、増田功、「大局的・局所的方向寄与度密度特徴による手書き漢字認識方式」、電子通信学会論文誌(D)、 vol.J66-D、 no.6、 pp.722-729、 June 1983. 山田博三、斉藤泰一、山本和彦、「線密度イコライゼーション―相関法のための非線形正規化法―」、電子通信学会論文誌(D)、 vol.J67-D、 no.11、 pp.1379-1383、 November 1984. Toru Wakahara and Kazumi Odaka, "Adaptive Normalization of Handwritten Characters Using Global/Local Affine Transformation", IEEE Transaction on Pattern Analysis and Machine Intelligence, vol.20, no.12, pp.1332-1341, December 1998.
特許文献1、非特許文献1に開示される手法では、入力画像の縦横比が本来の形状から変動している場合、入力画像の認識・識別を行う際に、大きく認識性能が低下する可能性や識別出来ない可能性がある。
非特許文献2に開示される手法では、入力画像の複雑さを元に一律に正方形化する為、縦横比の差異によって種別されるものが同一形状に変形されること、ノイズが含まれている入力画像では正しく機能しないこと、濃淡画像には適用出来ないこと、並びに単純な構造の画像では正しく認識・識別処理が機能しない問題がある。
非特許文献3に開示される手法では、入力画像と標準画像間での画素ごとに正しく対応付けるのが困難であること、標準画像毎に入力画像から変形させた画像を作成する為に処理時間が非常にかかること、並びに入力画像が各標準画像に過度に類似するよう変形され後段での認識・識別処理性能が低下する問題がある。
このような問題に鑑み、本発明は、入力される画像の縦横比が一定でない場合に適応的に画像識別を行う画像識別技術を提供する。
本発明では、正規化された入力画像の識別結果から再正規化処理の要否を判定し、それが必要であれば入力画像に対する再正規化処理を行い、この正規化された入力画像の識別結果を求める。再正規化処理では、入力画像に適用する正規化枠(適応正規化枠)のサイズを、各カテゴリの外接矩形サイズを記録した外接矩形標準辞書から、識別結果の上位のカテゴリの外接矩形サイズを取得することで求める。適応正規化枠で正規化された入力画像の識別結果に対しても再正規化処理の要否を判定する。このような処理が繰り返され、再正規化処理が不要となればその時点での識別結果を出力する。
再正規化処理の要否の判定手法として、現在の正規化された入力画像の識別結果(第1結果)の信頼度と、前回の正規化された入力画像の識別結果(第2結果)の信頼度とを求め、第1結果の信頼度が第2結果の信頼度よりも良好の場合に、再正規化処理を必要と判断する手法を採用できる。あるいは、現在の正規化された入力画像の識別結果の信頼度を求め、この信頼度が予め定められた基準値よりも良好ではない場合に、再正規化処理を必要と判断する手法を採用できる。
適応正規化枠のサイズの決定手法として、各カテゴリの外接矩形サイズを記録した外接矩形標準辞書から、識別結果の上位のカテゴリの外接矩形サイズを取得し、取得された外接矩形サイズの平均または重み付け平均で決定する手法を採用できる。
また、本発明の画像識別装置としてコンピュータを機能させる画像識別プログラムによって、コンピュータを画像識別装置として作動処理させることができる。
本発明によれば、正規化された入力画像の識別結果に応じて正規化枠のサイズを補正するから、入力される画像の縦横比が一定でない場合でも良好な画像識別を行うことができる。
《第1実施形態》
図面を参照して、本発明の第1実施形態を説明する。
<画像識別装置のハードウェア構成例>
図5は、第1実施形態に係わる画像識別装置1のハードウェア構成を例示した構成ブロック図である。
図5に例示するように、画像識別装置1は、キーボードなどが接続可能な入力部11、液晶ディスプレイなどが接続可能な出力部12、画像識別装置1外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部13、CPU(Central Processing Unit)14〔キャッシュメモリやレジスタなどを備えていてもよい。〕、メモリであるRAM15やROM16、ハードディスクである外部記憶装置17並びにこれらの入力部11、出力部12、通信部13、CPU14、RAM15、ROM16、外部記憶装置17間のデータのやり取りが可能なように接続するバス18を有している。また必要に応じて、画像識別装置1に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
画像識別装置1の外部記憶装置には、画像識別のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。)。また、これらのプログラムの処理によって得られるデータ(例えば、後述の正規化画像、特徴ベクトル、スコア)などは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
第1実施形態では、記憶部の所定の記憶領域に、特徴標準辞書800がデータとして記憶されている。特徴標準辞書800は、各カテゴリの特徴ベクトルを記録したデータベースである。カテゴリとは、認識対象の分類帰属先の属(genus)である(講学上は「概念」「クラス」などとも呼ばれる。)。例えば認識対象が数字の場合、カテゴリとして0から9までの十種類の属が用意される。特徴量は、認識対象の特徴を表す指標であり、例えば方向寄与度、線密度などがある。例えば特徴量が方向寄与度の一種類の場合でも、画像の局所領域ごとに特徴量が具体的に求められる。従って、特徴量は一般的に多次元のベクトル(特徴ベクトル)としてまとめられている。特徴標準辞書800は、各カテゴリに属する既知である複数の種(species)の特徴量に基づいて標準の特徴ベクトルを定めることで、予め作成されている。
また、記憶部の所定の記憶領域に、外接矩形標準辞書900がデータとして記憶されている。外接矩形標準辞書900は、各カテゴリの外接矩形サイズを記録したデータベースである。外接矩形標準辞書900は、各カテゴリに属する既知である複数の種の外接矩形サイズに基づいて標準の外接矩形サイズを定めることで、予め作成されている。
画像識別装置1の記憶部には、
入力画像に対して所定の正規化処理を行うためのプログラム、
正規化された入力画像から特徴ベクトルを求めるためのプログラム、
特徴ベクトルと特徴標準辞書800を用いて正規化された入力画像のカテゴリ毎のスコアを求めて識別結果を出力するためのプログラム、
識別結果を用いて入力画像の再正規化処理の要否を判定し、それが不要の場合には入力画像の識別結果(カテゴリ)を出力し、それが必要の場合にはカテゴリ毎のスコアの内その上位に対応するカテゴリを指示する情報(カテゴリ指示情報)を出力するためのプログラム、
再正規化処理が必要と判断されて出力されたカテゴリ指示情報と外接矩形標準辞書900を用いて正規化枠のサイズを決定して、この正規化枠(以下、適応正規化枠という。)を用いて入力画像を正規化するためのプログラム、
適応正規化枠で正規化された入力画像に対して特徴抽出、識別結果出力、カテゴリ出力の上記各処理を実施する制御を行うためのプログラム
が記憶されている。
画像識別装置1では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(標準正規化処理部、特徴抽出部、識別部、カテゴリ出力部、適応正規化処理部、フィードバック制御部)を実現することで画像識別が実現される。
次に、図1と図2を参照しながら、画像識別装置1による画像識別処理の流れを叙述的に説明する。
データである入力画像を記憶部に記憶されている白黒2値の文字画像とする。もちろん入力画像は画像識別装置1の外部から入力されるものであってもよい。また、識別関数として例えばユークリッド距離を用いて距離値を算出する。
まず、標準正規化処理部100が、入力画像に対して所定の正規化処理を行う(ステップS1)。このような所定の正規化処理では、一般的に、予め決められているサイズ(縦×横)を持つ正規化枠(テンプレート)に対応して入力画像の位置とサイズの正規化が行われる。この処理で用いる正規化枠の一例として縦横比が1の正方形の正規化枠を採用できる。標準正規化処理部100は例えば位置補正部101と縮尺補正部102からなる。
位置補正部101は、例えば従来までに知られている位置の正規化処理法を用いて、入力画像の横幅及び縦幅を算出することによって入力画像の中心を算出し、この中心が正規化枠の中心位置にくるように入力画像全体の平行移動処理を行う(ステップS1a)。次いで、縮尺補正部102は、例えば従来までに知られている大きさの正規化処理法を用いて、入力画像の横幅又は縦幅のどちらか大きい方が、正規化枠の大きさと同じに大きさになるように、入力画像の縦横比を保持して拡大処理若しくは縮小処理を行う(ステップS1b)。以下、正規化処理の適用を受けた入力画像を正規化画像と呼ぶ。
続いて、特徴抽出部200が、ステップS1の処理において得られた正規化画像から特徴量を抽出して特徴ベクトルを求める(ステップS2)。特徴抽出部200は例えば特徴算出部201と特徴ベクトル出力部202からなる。
特徴算出部201は、正規化画像の画素から特徴量を算出する(ステップS2a)。特徴量として、例えば特許文献1に開示される方向寄与度を用いる。各画素から得られた特徴量は、特徴ベクトル出力部202によって、特徴ベクトルとしてまとめられて、この特徴ベクトルが出力される(ステップS2b)。
続いて、識別部300が、ステップS2の処理で得られた特徴ベクトルと記憶部に記憶されている特徴標準辞書800を用いて正規化画像のカテゴリ毎のスコア(入力画像がカテゴリに属することの尤もらしさ表す指標)を求めて識別結果を出力する(ステップS3)。スコア算出部300は例えば距離値・類似度算出部301とソーティング出力部302からなる。
距離値・類似度算出部301は、ステップS2の処理で得られた特徴ベクトルと特徴標準辞書800の各カテゴリの標準特徴ベクトルとの間で、識別関数であるユークリッド距離を用いて距離値(スコア)を算出する(ステップS3a)。この距離値がより小さいカテゴリほど(他の距離値・類似度によっては大きいカテゴリほど)、入力画像のカテゴリとして尤もらしいことを意味する。そこで、後の処理の便宜のため、全てのカテゴリについて距離値が算出されると、ソーティング出力部302が、距離値の小さい順に(他の距離値・類似度によっては大きい順に)カテゴリを並び換えて、カテゴリとこれに対応する距離値の組合せを識別結果として出力する(ステップS3b)。
ソーティング済みの識別結果である、カテゴリとこれに対応する距離値の組合せは、記憶部の所定領域に第1結果として記憶される。また、記憶部には、ソーティング済みの識別結果である第2結果を記憶するための所定領域も用意されている。二つの識別結果を記憶する領域を確保する理由は次のとおりである。
第1実施形態では、従来技術と異なり後続のステップS4、S5の処理が予定されている。詳細は後述するが、ステップS4の処理で入力画像に対する再正規化処理の要否の判定が行われ、それが必要の場合にステップS5の処理で再正規化処理が行われる。この再正規化処理が行われて得られる正規化画像は上述のステップS3の処理の実施を受けて新たな識別結果(新たな第1結果)が得られる。このとき直前の識別結果(前回の第1結果)は消去されるのではなく第2結果として記憶が保持される。つまり、第1結果としてセットされたn回目の識別結果から再正規化処理が必要と判断されると、このn回目の識別結果は第2結果としてセットされ、新たに得られたn+1回目の識別結果が第1結果としてセットされるのである。従って、二つの識別結果を記憶する領域を確保する必要がある。なお、従来では最初の第1結果のうち最上位のカテゴリが識別結果とされていた。
ステップS3の処理に続いて、カテゴリ出力部400が、ステップS3の処理で得られた(ソーティング済みの)識別結果(第1実施形態では第1結果および第2結果)を用いて入力画像の再正規化処理の要否を判定し、それが不要の場合には入力画像の識別結果(カテゴリ)を出力し、それが必要の場合には識別結果(第1実施形態では第1結果)の内その上位に対応するカテゴリを指示する情報(カテゴリ指示情報)を出力する(ステップS4)。カテゴリ出力部400は、例えば信頼度算出部401、再正規化要否判定部402、カテゴリ決定部403、制御部404からなる。
制御部404は、後述する再正規化処理の実施履歴を確認する(ステップS4a)。この処理は、第1実施形態では第1結果および第2結果を用いて入力画像の再正規化処理の要否を判定することから、第2結果が不在の場合に強制的に再正規化処理を実施するために行われる。一度も後述する再正規化処理が実施されていない場合、制御部404は、後述するステップS4bの処理を実施するように制御を行う。後述する再正規化処理が一度でも実施されている場合、制御部404は、後述するステップS4cの処理を実施するように制御を行う。再正規化処理の実施履歴の有無は、第2結果が記憶部に記憶されているか否か(あるいは第2結果がデフォルト値であるか否か)で確認できる。
一度も後述する再正規化処理が実施されていない場合(あるいは後述の再正規化要否判定部402が再正規化処理を必要と判定した場合)、カテゴリ決定部403が、第1結果の中から上位N1個のカテゴリを指示するカテゴリ指示情報を出力する(ステップS4b)。ここでN1は、例えば実験的に決められる値であり、一般的には2以上の値が好ましい。この後、制御部404が第1結果を第2結果に書き換える。
続いて、適応正規化処理部500が、ステップS4bの処理で出力されたカテゴリ指示情報と記憶部に記憶された外接矩形標準辞書900を用いて適応正規化枠のサイズを決定して、この適応正規化枠を用いて入力画像を正規化する(ステップS5)。適応正規化処理部500は、例えば正規化サイズ算出部501と正規化処理実施部502からなる。
まず、正規化サイズ算出部501が、適応正規化枠のサイズを決定する(ステップS5a)。具体的には、カテゴリ指示情報で指示される上位N1個の各カテゴリに対応する標準外接矩形サイズを外接矩形標準辞書900から取得する。そして、取得したN1個の各カテゴリの標準外接矩形サイズから、適応正規化枠のサイズを算出する。例えば上位i番目のカテゴリの標準矩形サイズの横幅をr (i)、縦幅をr (i)とすると、式(1)によって適応正規化枠のサイズの横幅r (s)と縦幅r (s)を算出する。
Figure 0004796599
次に正規化処理実施部502は、ステップS5aの処理で定まった適応正規化枠を用いて入力画像を正規化する(ステップS5b)。この正規化処理は、例えば次のようにして行われる。まず、入力画像の中心が適応正規化枠の中心位置にくるように入力画像全体の平行移動処理を行う。次いで、入力画像の横幅と縦幅が、適応正規化枠の横幅と縦幅と同じになるように、入力画像の縦横比の変更を許容して拡大処理若しくは縮小処理を行う。
そして、フィードバック制御部600が、ステップS5bの処理で得られた正規化画像に対して、ステップS2、S3、S4aの処理が実施されるように制御を行う。
さて、再びステップS4aの処理が行われるが、再正規化処理が実施されている場合、第1結果と第2結果が記憶されており、制御部404は、後述するステップS4cの処理を実施するように制御を行う。即ち、信頼度算出部401が、第1結果からその信頼度を算出し、第2結果からその信頼度を算出する(ステップS4c)。
信頼度は、各カテゴリのスコア値に基づく識別結果の尤もらしさの指標である。識別関数がユークリッド距離の例であれば、ある識別結果について、カテゴリ毎に得られた距離値のうち最小値と上位N2番目の値(最大値でもよい。)との間の各カテゴリのスコア値の系列(ソーティング済みのもの)に有意な悪化傾向が認められなければ、その識別結果は尤もらしいものとして評価し難く(つまり、第1位のスコア値のカテゴリを、他のカテゴリに比して入力画像のカテゴリとして尤もらしいものとして峻別する信頼性に乏しいということである。)、他方で、有意な悪化傾向が認められれば、その識別結果は尤もらしいものとして評価できる(つまり、第1位のスコア値のカテゴリを、他のカテゴリに比して入力画像のカテゴリとして尤もらしいものとして峻別する信頼性が認められるということである。)。
信頼度の算出処理の具体例を説明する。例えば、第1結果の上位j番目のカテゴリに対して得られた距離値をd (j)とすると、式(2)によって第1結果の信頼度w1を算出する。ここでN2は、例えば実験的に決められる値であり、一般的には2以上の値が好ましい。同様に、第2結果の上位j番目のカテゴリに対して得られた距離値をd (j)とすると、式(3)によって第2結果の信頼度w2を算出する。
Figure 0004796599
続いて、再正規化要否判定部402が、再正規化処理の要否を判定する(ステップS4d)。具体的には、第1結果と第2結果のうち、前回の識別結果を意味する第2結果に比べて今回の識別結果を意味する第1結果の信頼度のほうが良好と判断された場合に、再正規化処理を必要と判定する。例えば、上記信頼度算出式(2)および式(3)では、より小さい値を取る方が良好の信頼度であると看做せるため、w1<w2の時は第1結果の信頼度の方が良好であり、またw1>w2の時は第2結果の信頼度の方が良好である。よって、再正規化要否判定部402は、第1結果の信頼度の方が良好である場合に再正規化処理を必要と判定して、ステップS4bの処理を行うように制御する。一方、再正規化要否判定部402は、第1結果の信頼度の方が良好ではない場合に再正規化処理を不要と判定して、ステップS4eの処理を行うように制御する。
再正規化要否判定部402が再正規化処理を不要と判定した場合、カテゴリ決定部403が、通常、第2結果の中から最上位のカテゴリを入力画像の識別結果として出力する(ステップS4e)。勿論、最上位のカテゴリに限らず、例えば上位複数のカテゴリを第1の候補、第2の候補、・・・という形式で識別結果を出力してもよい。
上記説明では、入力画像として白黒2値からなる画像を用いたが、多階調濃淡画像やカラー画像でもよい。
上記説明では、入力画像として文字画像を用いたが、外接矩形を確定できる画像であれば文字列、マーク、人物等の他種の画像でもよい。
上記説明では、特徴量として方向寄与度を用いたが、画像認識・識別に適する特徴であれば、当然ながら他の特徴量(例えば、線密度、画素濃淡値、エッジ成分)も使用可能である。
上記説明では、識別関数としてユークリッド距離を用いたが、類似性を定義できる指標(距離・類似度)であれば、もちろん他の識別関数(重み付きユークリッド距離、ベイズ識別関数、類似度、部分空間法、マハラノビス距離など)も使用可能である。
上記説明では信頼度を式(2)、式(3)を用いて算出したが、再正規化処理の要否判定に適するものであれば、他の算出式を用いることができる。例えば、式(4)、式(5)を用いて算出してもよい。この場合、より大きい値を取る方が良好の信頼度であると看做せるため、w1<w2の時は第2結果の信頼度の方が良好であり、またw1>w2の時は第2結果の信頼度の方が良好である。
Figure 0004796599
また、例えば距離値の大小を用いて、上位N2個のカテゴリでd (j)<d (j)の個数C1とd (j)>d (j)の個数C2をカウントし、C1>C2の場合に第1結果のほうが信頼度が良好であるとし、C1<C2の場合に第2結果のほうが信頼度が良好であるとすることも、もちろん可能である。
上記説明では適応正規化枠のサイズを式(1)を用いて算出したが、算出式は式(1)に限定されず、他の算出式を用いることができる。例えば、上位i番目のカテゴリの標準矩形サイズに対する重みp(i)を距離値d(1)とd(i)との比として式(6)で定義し、この重みを用いた式(7)で適応正規化枠のサイズを算出してもよい。
Figure 0004796599
また、例えば上位i番目のカテゴリの標準矩形サイズに対する重みp(i)を、上位1番目から上位N番目までの距離値の広がりと上位i番目から上位N番目までの距離値の広がりの比として式(8)で定義し、この重みを用いた式(9)で適応正規化枠のサイズを算出してもよい。
Figure 0004796599
上記説明では、第2結果に比して第1結果の信頼度の方が良好の場合は、再正規化処理、特徴抽出、識別を繰り返す処理フローになっているが、繰り返し回数を事前に設定し、その回数まで再正規化処理を行った後に識別結果を出力するような処理フローにすることも、もちろん可能である。
上記説明では、識別関数としてその出力値が大きくなるほど類似性が低くなる関数を用いて説明したが、その出力値が大きくなるほど類似性が高くなる類似度を識別関数として用いた場合は、第1結果の信頼度と第2結果のそれとの大小関係による信頼度の良否の判断が逆になる場合がある。
《第2実施形態》
図3と図4を参照しながら、本発明の第2実施形態を説明する。
第2実施形態は、第1実施形態のステップS4の処理を、第1結果の信頼度が不良と判定された場合にのみ再正規化処理を実施するように制御する処理(ステップS4′)に変更した形態である(第2結果は不要である。)。つまり、カテゴリ出力部400が、第1実施形態と同様のステップS3の処理で得られた(ソーティング済みの)識別結果(第2実施形態では第1結果)を用いて入力画像の再正規化処理の要否を判定し、それが不要の場合には入力画像の識別結果(カテゴリ)を出力し、それが必要の場合には識別結果(第2実施形態では第1結果)の内その上位に対応するカテゴリを指示する情報(カテゴリ指示情報)を出力する(ステップS4′)。そこで、第1実施形態と異なるステップS4′の処理について説明を行う。
第2実施形態では、ステップS3bの処理に続いて、信頼度算出部401が最新の第1結果の信頼度を算出する(ステップS4h)。例えば、第1結果の上位1番目及び2番目のカテゴリに対する各距離値をd(1)及びd(2)すると、信頼度w=d(1)/d(2)を算出する。
そして、再正規化要否判定部402が、再正規化処理の要否を判定する(ステップS4i)。具体的には、再正規化要否判定部402は、第1結果の信頼度が事前に設定してある基準値と比べて良好であると判断される場合(ステップS4hの処理の例では、信頼度wが基準値より小さい場合である。)に再正規化処理を不要と判定して、ステップS4jの処理を行うように制御する。一方、再正規化要否判定部402は、第1結果の信頼度が前記基準値と比べて良好ではないと判断される場合(ステップS4hの処理の例では、信頼度wが基準値より大きい場合である。)に再正規化処理を必要と判定して、ステップS4kの処理を行うように制御する。
再正規化要否判定部402が再正規化処理を不要と判定した場合、カテゴリ決定部403が、第1結果の中から最上位のカテゴリを入力画像の識別結果として出力する(ステップS4j)。
再正規化要否判定部402が再正規化処理を必要と判定した場合、カテゴリ決定部403が、第1結果の中から上位N1個のカテゴリを指示するカテゴリ指示情報を出力する(ステップS4k)。ここでN1は、例えば実験的に決められる値であり、一般的には2以上の値が好ましい。この処理の後にステップS5の処理が実施される。
上記説明で用いた基準値の設定については、全カテゴリ共通で設定することも可能であるし、各カテゴリ別に基準値を設定し識別処理毎に上位1位のカテゴリに応じた基準値を用いることも可能である。基準値の設定方法としては、例えば従来知られているように、特徴標準辞書800の作成に用いたデータ(種)における着目カテゴリの距離値dtとそれ以外のカテゴリの距離値duを計算し、dt/duの分布に基づいて基準値を決める方法などがある。
上述の説明から明らかになる本発明の特徴について、いくつかの観点から説明を加える。
本発明では、固定の正規化枠を用いた正規化処理で得られる正規化画像の識別スコアが良好なカテゴリの外接矩形サイズ(縦×横)から求められた適応正規化枠で入力画像の再正規化処理を行い、この再正規化処理後の正規化画像でも認識・識別処理を行う。つまり、一旦算出された識別結果から、より良好な識別結果が得られるであろう適応正規化枠を求めることで、従来の正規化処理では正しい認識・識別が困難な、縦横サイズが固定正規化枠に対して変形した入力画像に対しても、良好な認識・識別結果が得られるようになる。
本発明では、認識・識別処理の過程で適応的に再正規化処理を行うから、事前に変形率等の正規化パラメータを学習しておく必要が無い。
本発明では、直前の認識・識別結果(第2結果)と現在の認識・識別結果(第1結果)のどちらの結果を信頼するかを判定する判定処理があるため、再正規化処理を受けた正規化画像の認識・識別結果が固定の正規化枠を用いた正規化処理で得られる正規化画像の認識・識別結果よりも信頼度が劣る場合には、前者の識別結果が棄却される。従って、固定正規化枠に対して変形していない入力画像に対しても悪影響を与えることなく、従来とほぼ同等の認識・識別性能を確保することができる。つまり、直前の認識・識別結果と現在の認識・識別結果の信頼度判定処理を行うことによって不適切な識別結果を棄却し、過剰補正等の悪影響を抑制することが可能になっている。
本発明では、直前の認識・識別結果(第2結果)と現在の認識・識別結果(第1結果)のどちらの結果を信頼するかを判定する判定処理を受けて再正規化処理が繰り返されることで、認識・識別に好適な適応正規化枠に近づき、入力画像がこの適応正規化枠で正規化されることで、縦横サイズが変形した入力画像であっても良好な認識・識別結果が得られる。
本発明では、非特許文献3に開示されるように標準画像毎に入力画像を変形させた画像を生成する必要がない。
本発明では、外接矩形の大きさ・比率に着目しているため、2値画像だけでなく濃淡画像・カラー画像への適用も可能である。
本発明では、画像の種類(文字・マーク等)に制限されることなく、多様な画像の認識・識別に適用可能である。
本発明では、今まで画像認識・識別方法として提案されている各種の特徴抽出方法及び識別・検索方法に適用することによって、各種手法の性能を向上させることが可能である。
以上の実施形態の他、本発明である画像識別装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、各実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記画像識別装置における処理機能をコンピュータによって実現する場合、画像識別装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記画像識別装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、画像識別装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明の第2実施形態に拠る効果を表1に示す。表1は、再正規化処理を1回実行した場合の本発明手法と予め定められた正規化枠に対して入力画像を正規化して再正規化処理を行わない従来手法をそれぞれ用いた場合を比較した結果を示している。
この実施例では、縦横比の変動がしばしば起きる映像中に挿入された文字画像を2値化して得られた合計9918サンプルに対し、文字パターンを粗い局所領域に分割し、各局所領域内の黒画素について4方向(0°、45°、90°、135°)に黒画素連結長を計測し、局所領域内の各方向成分別の分布状況を表す方向寄与度を特徴量として算出し、識別関数としてユークリッド距離を用い、特徴標準辞書には文字カテゴリ3,319カテゴリにおける各文字カテゴリの学習データ(種)から得られる特徴量の平均値を用い、上位1位、2位まで、5位まで、及び10位までの各累積分類率を求めた。
Figure 0004796599
表1から、従来手法では、特徴量が変動してしまうため誤識別を生じやすくなるが、本発明に拠れば入力画像形状の変動に応じて正規化枠を適応的に補正できるため、誤識別を低減し分類率を向上させることができたことが理解される。
第1実施形態に係わる画像識別装置1の機能構成例を示すブロック図。 第1実施形態に係わる画像識別処理の処理フローを示す図。 第2実施形態に係わる画像識別装置1の機能構成例を示すブロック図。 第2実施形態に係わる画像識別処理の処理フローを示す図。 画像識別装置1のハードウェア構成例を示すブロック図。
符号の説明
1 画像識別装置
100 標準正規化処理部
200 特徴抽出部
300 識別部
400 カテゴリ出力部
500 適応正規化処理部

Claims (9)

  1. 入力画像をカテゴリ単位で識別する画像識別装置であって、
    各カテゴリの特徴ベクトルを記録した特徴標準辞書と、各カテゴリの外接矩形サイズを記録した外接矩形標準辞書とを記憶する記憶手段と、
    入力画像を予め定められたサイズの正規化枠で正規化する標準正規化処理手段と、
    正規化された上記入力画像(以下、正規化画像という。)から特徴ベクトルを求める特徴抽出手段と、
    上記特徴ベクトルと上記特徴標準辞書を用いて上記正規化画像のカテゴリ毎のスコアを求めて識別結果を出力する識別手段と、
    上記識別結果を用いて上記入力画像の再正規化処理の要否を判定し、それが不要の場合には上記入力画像の識別結果を出力し、それが必要の場合にはカテゴリ毎の上記スコアの内その上位に対応するカテゴリを指示する情報(以下、カテゴリ指示情報という。)を出力するカテゴリ出力手段と、
    上記カテゴリ指示情報の指示するカテゴリの外接矩形サイズを上記外接矩形標準辞書から取得し、取得された外接矩形サイズの平均または重み付け平均を正規化枠(以下、適応正規化枠という。)のサイズとして決定して、この適応正規化枠を用いて上記入力画像を正規化する適応正規化処理手段と
    を備えた画像識別装置。
  2. 上記カテゴリ出力手段は、
    最近に実行された上記識別手段によって得られた上記識別結果(以下、第1結果という。)の信頼度と、その直前に実行された上記識別手段によって得られた上記識別結果(以下、第2結果という。)の信頼度とを求め、当該第1結果の信頼度が当該第2結果の信頼度よりも良好ではない場合には上記入力画像の識別結果として当該第2結果を出力し、当該第1結果の信頼度が当該第2結果の信頼度よりも良好の場合に再正規化処理を必要と判定する
    ことを特徴とする請求項1に記載の画像識別装置。
  3. 上記カテゴリ出力手段は、
    最近に実行された上記識別手段によって得られた上記識別結果(以下、最新識別結果という。)の信頼度を求め、この信頼度が予め定められた基準値よりも良好である場合には上記入力画像の識別結果として当該最新識別結果を出力し、この信頼度が予め定められた基準値よりも良好ではない場合に再正規化処理を必要と判定する
    ことを特徴とする請求項1に記載の画像識別装置。
  4. 上記信頼度は、各カテゴリのスコア値の全部または一部に基づく上記識別結果の尤もらしさの指標である
    ことを特徴とする請求項2または請求項3に記載の画像識別装置。
  5. 入力画像をカテゴリ単位で識別する画像識別方法であって、
    標準正規化処理手段が、入力画像を予め定められたサイズの正規化枠で正規化する標準正規化処理ステップと、
    特徴抽出手段が、上記標準正規化処理ステップにおいて正規化された上記入力画像から特徴ベクトルを求める特徴抽出ステップと、
    識別手段が、各カテゴリの特徴ベクトルを記録した特徴標準辞書と正規化された上記入力画像の特徴ベクトルとを用いて正規化された上記入力画像のカテゴリ毎のスコアを求めて識別結果を出力する識別ステップと、
    カテゴリ出力手段が、上記識別結果を用いて上記入力画像の再正規化処理の要否を判定し、それが不要の場合には上記入力画像の識別結果を出力し、それが必要の場合にはカテゴリ毎の上記スコアの内その上位に対応するカテゴリを指示する情報(以下、カテゴリ指示情報という。)を出力するカテゴリ出力ステップと、
    適応正規化処理手段が、各カテゴリの外接矩形サイズを記録した外接矩形標準辞書から上記カテゴリ指示情報の指示するカテゴリの外接矩形サイズを取得し、取得された外接矩形サイズの平均または重み付け平均を正規化枠(以下、適応正規化枠という。)のサイズとして決定して、この適応正規化枠を用いて上記入力画像を正規化する適応正規化処理ステップと、
    特徴抽出手段が、上記適応正規化処理ステップにおいて正規化された上記入力画像から特徴ベクトルを求める特徴抽出ステップと
    を有する画像識別方法。
  6. 上記カテゴリ出力ステップでは、
    最近に実行された上記識別ステップにおいて得られた上記識別結果(以下、第1結果という。)の信頼度と、その直前に実行された上記識別ステップにおいて得られた上記識別結果(以下、第2結果という。)の信頼度とを求め、当該第1結果の信頼度が当該第2結果の信頼度よりも良好ではない場合には上記入力画像の識別結果として当該第2結果を出力し、当該第1結果の信頼度が当該第2結果の信頼度よりも良好の場合に再正規化処理を必要と判定する
    ことを特徴とする請求項に記載の画像識別方法。
  7. 上記カテゴリ出力ステップでは、
    最近に実行された上記識別ステップにおいて得られた上記識別結果(以下、最新識別結果という。)の信頼度を求め、この信頼度が予め定められた基準値よりも良好である場合には上記入力画像の識別結果として当該最新識別結果を出力し、この信頼度が予め定められた基準値よりも良好ではない場合に再正規化処理を必要と判定する
    ことを特徴とする請求項に記載の画像識別方法。
  8. 上記信頼度は、各カテゴリのスコア値の全部または一部に基づく上記識別結果の尤もらしさの指標である
    ことを特徴とする請求項6または請求項7に記載の画像識別方法。
  9. 請求項1から請求項のいずれかに記載された画像識別装置としてコンピュータを機能させるためのプログラム。
JP2008107808A 2008-04-17 2008-04-17 画像識別装置、画像識別方法、プログラム Expired - Fee Related JP4796599B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008107808A JP4796599B2 (ja) 2008-04-17 2008-04-17 画像識別装置、画像識別方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008107808A JP4796599B2 (ja) 2008-04-17 2008-04-17 画像識別装置、画像識別方法、プログラム

Publications (2)

Publication Number Publication Date
JP2009259030A JP2009259030A (ja) 2009-11-05
JP4796599B2 true JP4796599B2 (ja) 2011-10-19

Family

ID=41386362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008107808A Expired - Fee Related JP4796599B2 (ja) 2008-04-17 2008-04-17 画像識別装置、画像識別方法、プログラム

Country Status (1)

Country Link
JP (1) JP4796599B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194705A (ja) * 2011-03-15 2012-10-11 Omron Corp 画像処理装置、画像処理方法および画像処理プログラム
JP7046745B2 (ja) * 2018-07-09 2022-04-04 株式会社日立ハイテク 機械学習装置、画像診断支援装置、機械学習方法及び画像診断支援方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05120488A (ja) * 1991-10-29 1993-05-18 Ricoh Co Ltd 線図形認識方法
JPH06274682A (ja) * 1993-03-22 1994-09-30 N T T Data Tsushin Kk 文字認識方式

Also Published As

Publication number Publication date
JP2009259030A (ja) 2009-11-05

Similar Documents

Publication Publication Date Title
US8756174B2 (en) Forward feature selection for support vector machines
US7653244B2 (en) Intelligent importation of information from foreign applications user interface
US10095957B2 (en) Method and system for unsupervised word image clustering
US20020164070A1 (en) Automatic algorithm generation
JP2015087903A (ja) 情報処理装置及び情報処理方法
CN110942074A (zh) 字符切分识别方法、装置、电子设备、存储介质
CN102982305A (zh) 信息处理设备和处理信息的方法、存储介质以及程序
TW200529093A (en) Face image detection method, face image detection system, and face image detection program
JP2012073684A (ja) 画像認識方法及び装置並びにプログラム
CN111523537A (zh) 一种文字识别方法、存储介质及系统
US20230044794A1 (en) Neural network training device, system and method
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
EP0877335B1 (en) Character recognition method, character recognition apparatus
JP4796599B2 (ja) 画像識別装置、画像識別方法、プログラム
CN114581928A (zh) 一种表格识别方法及系统
JP4983539B2 (ja) 情報処理装置および方法、並びにプログラム
CN115294417A (zh) 用于图像处理的方法、设备和存储介质
CN112215266A (zh) 一种基于小样本学习的x光图像违禁物品检测方法
CN110751623A (zh) 基于联合特征的缺陷检测方法、装置、设备及存储介质
CN113870280A (zh) 预测以细胞为基质的抗体核型类别的方法、设备和介质
CN117854120B (zh) 一种指纹识别方法及系统
CN117671704B (zh) 一种手写体数字识别方法、装置及计算机存储介质
CN118094431A (zh) 一种基于图文对比学习的表面异常检测方法
WO2023127085A1 (ja) 物体認識装置、物体認識方法、及び、記憶媒体
CN117746335A (zh) 机器人工作场景下的未知目标识别及增量学习方法及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110719

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110729

R150 Certificate of patent or registration of utility model

Ref document number: 4796599

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees