JP2009048641A - 文字認識方法および文字認識装置 - Google Patents
文字認識方法および文字認識装置 Download PDFInfo
- Publication number
- JP2009048641A JP2009048641A JP2008211058A JP2008211058A JP2009048641A JP 2009048641 A JP2009048641 A JP 2009048641A JP 2008211058 A JP2008211058 A JP 2008211058A JP 2008211058 A JP2008211058 A JP 2008211058A JP 2009048641 A JP2009048641 A JP 2009048641A
- Authority
- JP
- Japan
- Prior art keywords
- training
- recognition
- support vector
- vector machine
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
【課題】文字認識装置及びその方法を提供する。
【解決手段】文字認識装置は、トレーニング文字画像あるいは認識すべき文字画像から文字画像の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトル抽出部により出力されたトレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて複数のスパースサポートベクターマシン分類器を学習して得るトレーニング部と、トレーニング部によるトレーニング結果を記憶する記憶部と、スパースサポートベクターマシン分類器ごとに特徴ベクトル抽出部により出力された認識する文字画像の特徴ベクトルに対する出力を計算し、認識すべき文字画像と対応する文字を決定する認識部と、を有する。トレーニング部は、スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することによりスパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
【選択図】 図1
【解決手段】文字認識装置は、トレーニング文字画像あるいは認識すべき文字画像から文字画像の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトル抽出部により出力されたトレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて複数のスパースサポートベクターマシン分類器を学習して得るトレーニング部と、トレーニング部によるトレーニング結果を記憶する記憶部と、スパースサポートベクターマシン分類器ごとに特徴ベクトル抽出部により出力された認識する文字画像の特徴ベクトルに対する出力を計算し、認識すべき文字画像と対応する文字を決定する認識部と、を有する。トレーニング部は、スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することによりスパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
【選択図】 図1
Description
本発明は光学式文字認識(Optical Character Recognition,OCR)に関する。特に、高速かつ高い精度で小さい文字セット(例えば、「0」〜「9」の10個数字だけを対象とする「手書き数字認識」、又は、「a」、…、「z」、「A」、…、「Z」の52個のアルファベットだけを対象とする「印刷体の英文字認識」)を認識する方法および装置に関する。
光学式文字認識が多くの領域の中で広く利用されている。いわゆる光学式文字認識は、書類、新聞雑誌、本、原稿及びその他の印字されたものにおける文字を、スキャナなど光学的入力手段により読み取って画像情報に変換し、さらに、文字認識手段によりこの画像情報をコンピュータに使えるデータに変換する。
文字認識においては、あらかじめ認識用辞書を用意しておく必要がある。そして、パターン認識により画像が辞書の中のどのパターンと最もマッチするかを決定し、それによって該当する文字を認識する。
従来、文字認識の領域においては、テンプレートマッチング法、弾性テンプレートマッチング法、k-最近傍法、混合ガウスモデル法、ニューラルネットワーク法及びサポートベクターマシン(Support Vector Machine,SVM)などの種々なパターン認識方法が提案されている。その中で、サポートベクターマシンは統計学習に基づく方法であり(非特許文献1を参照)、現在文字認識の最も良い方法の1つであると考えられる(非特許文献2を参照)。
サポートベクターマシンには主に3つの特徴がある。1つ目の特徴は、非線型分類問題に対処することができることである。サポートベクターマシンは異なるカーネル関数を採用することができる。つまり、線形カーネルを採用すれば、線形分類器となり、2次多項式のカーネルを採用すれば、2次分類器となり、ガウスカーネルを採用すれば、動径基底(Radial Basis)分類器となる。
2つ目の特徴は、小さい規模の標本の高次元データを処理することができることである。文字認識において、正規化された階調あるいは二値画像を入力ベクトルとして扱う。
3つ目の特徴は、良い汎用性を具備することである。サポートベクターマシンは、トレーニング誤差を最小化するとともに、マージンを最大化する。そして分類器の分類誤り率を低く抑えることを前提として、境界面の複雑度をできるだけ小さくし、汎用性を高める。
ところで、サポートベクターマシンと、k-最近傍法、ニューラルネットワーク法などの従来の方法とを比べると、認識速度がかなり遅いという欠点がある。サポートベクターマシンの処理時間は、サポートベクターの数と比例している。一般には、サポートベクターの数が非常に大きい。特に、文字のトレーニングサンプルの数が大きく、一部分の文字クラスの分布が重なる場合は、認識速度が非常に遅くなる。
テキストスキャン認識などリアルタイム性を高く要求される応用においては、光学式文字認識に高い識別精度が求められるばかりでなく、認識速度の速さも要求されている。そこで、サポートベクターマシン分類器を使う光学式文字認識装置の認識速度を向上させるために、簡易化セット(トレーニングサンプルセットの一つのサブセット)のカーネル関数項の線形結合式により、サポートベクターマシン決定関数を近似する方法(非特許文献3と非特許文献4を参照)が提案されている。
しかし、このような方法は、サポートベクターマシンのトレーニング結果を対象としたポスト処理であり、決定関数の近似であるので認識速度は速くなるが、その代わりサポートベクターマシン分類器の分類性能が部分的に損なわれる。
V. Vapnik, The Nature of Statistical Learning Theory, Springer Verlag, 1995
C. Cortes, V. Vapnik. Support vector networks. Machine Learning, 20 (1995) 273-297
C. J. C. Burges, Simplified Support Vector Decision Rules. International Conference on Machine Learning, ICML, Bari, Italy, 1996, 71-77
B. Scholkopf, S. Mika, et al., Input Space Versus Feature Space in Kernel Based Methods. IEEE Trans. on Neural Networks, 10 (1999) 1000-1017
本発明は上記問題点に鑑みてなされたものである。本発明は、認識速度が速く、かつ、認識精度が優れる光学式文字認識装置及びその方法を提供することを目的とする。
本発明の目的を達成するために、次のような実施案を提供する。
パターン認識方法の一観点によれば、トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
文字認識装置の一観点によれば、トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
文字認識方法の一観点によれば、トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
コンピュータプログラムの一観点によれば、トレーニング文字画像や認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させる。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させる。
本明細書に開示された方法、装置、プログラムによれば、スパースサポートベクターマシーンを認識に使われ、目標関数に0-ノルム正則化項を導入することにより、決定関数におけるサポートベクトルの数を減少させる。
スパースサポートベクターマシーンはサポートベクターマシーンの改良されたものである。依然として最大マージンクラスタリングを採用されるので、境界面関数の複雑度が低く、良い汎用性を持つ。それに、スパースサポートベクターマシーンのサポートベクトルは学習によりトレーニングセット全体から選択されたものであり、サポートベクトルに冗長性が存在しないので、その数が極めて少ない。なお、サポートベクトルの数が極めて少ないため、スパースサポートベクターマシンの決定関数の計算が簡単になり、速度が従来のサポートベクターマシンに比べ大きく向上される。
以下の詳しい説明と図面により、本発明の特徴とメリットを一層理解することができる。また、図面に示す要素・特徴は、その他の図面に示す要素・特徴と組み合わせることが可能である。また、すべての図面において、同じまたは類似の符号は同じまたは類似の要素を指す。以下、図面を参照しながら本発明の具体的な実施例を説明する。
図1は、本発明の実施例1にかかる文字認識装置10の概略ブロック図である。図1に示すように、本発明の実施例1にかかる文字認識装置10は、入力装置20と出力装置30とに接続されている。
入力装置20は、トレーニングサンプルとしての文字画像あるいは認識すべき文字画像を文字認識装置10に入力するものであり、スキャナなどの画像読み取り装置であってもよいし、手書きパネルなどの手書き入力装置、あるいは磁気ディスクなどの画像記録媒体のドライブインタフェースであってもよい。
文字認識装置10は、入力装置20により入力されたトレーニングサンプルとしての文字画像に基づいて学習を行い、複数のスパースサポートベクターマシン分類器を得る。これら複数のスパースサポートベクターマシン(sparse support vector machine: SSVM)分類器によって、入力装置20により入力された認識すべき文字画像を認識し、この認識すべき文字画像に該当する文字を決定する。
文字認識装置10の認識結果は、出力装置30により利用者に出力される。出力装置30は例えばディスプレイ、記憶媒体のドライブインタフェースであってもよいし、手書き入力装置のインタフェースであってもよい。
文字認識装置10は、入力された文字画像を正規化処理し、正規化された文字画像に対して特徴を抽出する特徴ベクトル抽出部11と、トレーニングサンプルセットに基づいて複数のスパースサポートベクターマシン分類器を学習して得るトレーニング部12と、各SSVMの決定関数
、すなわち、カーネル関数
、サポートベクトル
、対応係数αiおよび偏差項bを記憶する記憶部13と、記憶部13に記憶されたトレーニング結果に基づいて、SSVM決定関数ごとに認識すべき文字画像の出力値を得、この出力値に基づいて認識すべき文字画像と対応する文字を決定する認識部14と、を含む。ここで、文字認識装置10は、適当に組まれたプログラムを実行するCPUで構成される。
以下、「0」〜「9」の10個の数字の認識を例として、図2により、文字認識装置10の各部による処理を詳しく説明する。
図2は、実施例1にかかる文字認識装置10による処理を概略的に示すフローチャートである。図2において、左側半分はトレーニングのプロセスを示す。右側半分は認識のプロセスを示す。ただし、トレーニングのプロセスと認識のプロセスに関して、文字画像正規化処理と特徴抽出処理は共通のものである。
まず、トレーニングのプロセスについて説明する。図2に示すように、ステップ201では、特徴ベクトル抽出部11は文字画像を正規化する。詳しく言えば、特徴ベクトル抽出部11は、文字画像を含む最小の四角形の範囲を検索する。そして、検索された四角形の範囲の横縦比率を保持しながら、双線形補間によって四角形の範囲内の文字画像を所定のサイズ(たとえば、n×n)に正規化する。そして、正規化された文字画像を(n+2)×(n+2)の空白画像の中心に配置する。
つぎに、ステップ202では、特徴ベクトル抽出部11は正規化された文字画像の文字特徴を抽出する。詳しく言えば、以下の処理を含む。まず、画像筆画画素を垂直方向に投影し、水平ヒストグラムを得て、この水平ヒストグラムをm個の列に等分する。また、画像筆画画素を水平方向に投影し、垂直ヒストグラムを取得し、この垂直ヒストグラムをm個の行に等分する。そうすると、m×m個のサイズが異なるセルが得られる。
そして、文字画像全体のチェインコードを取得し、各チェインコードにおける方向を求める。なお、求める方向は8種類のあり得る方向中の一つの方向である。そして、セルごとに8種類の方向でのチェインコードの数を積算し、最終的に8×m×m次元の文字特徴ベクトルが取得される。
トレーニング文字画像ごとに、1つのクラスラベル(0,1,…,9のいずれか)を設定しておく。抽出される特徴ベクトルをx、設定されるクラスラベルをyとすると、該当文字画像は1つの入力出力対(x,y)と対応付けられる。複数のトレーニング文字画像の入力出力対で、トレーニング集合{(x1, y1), (x2, y2), …, (xl,yl)}、すなわち多クラスサンプルトレーニングセット
を構成する。ただし、
は特徴ベクトルであり、
はクラス番号であり、lは総トレーニングサンプル数である。
ステップ203では、トレーニング部12が、多クラスサンプルトレーニングセットから二クラスサンプルトレーニングセットを構成する。「一対一」というルールを適用する場合、(‘0',‘1’), …, (‘0’,‘9’), (‘1’,‘2’), …, (‘8’,‘9’)のように
種類のあり得るケースにおける二クラスサンプルトレーニングセットを考える必要がある。
まず、45個のサッブセット
(ただし、i = 0, …, 8,j = 1, …, 9)を抽出し、その後、すべてのサッブセットに対してクラス番号を yk = i から yk = +1に書き換え、クラス番号 yk = j を yk = -1 に書き換える。
また、「一対多」というルールを適用する場合に、(‘0’, 非‘0’), (‘1’, 非‘1’), …, (‘9’, 非‘9’)の10種類のあり得るケースにおける二クラスサンプルトレーニングセットを考える必要がある。
つぎに、ステップ204では、トレーニング部12は、以上に示す複数のケースごとに、二クラスサンプルトレーニングセットに基づいて1つのスパースサポートベクターマシン(SSVM)分類器を学習により得る。
そして、ステップ205では、全部のケースについて、トレーニングが完成したがどうかを判断する。完成したと判断される場合、トレーニングを終了し、つぎのステップ206において、トレーニング結果を記憶部13に出力して保存する。完成していないと判断される場合、ステップ203に戻って、つぎのケースに関する処理に進む。
つぎに、文字認識プロセスについて概略的に説明する。まず、ステップ207とステップ208では、特徴ベクトル抽出部11は、認識すべき文字画像を正規化して、特徴ベクトルを抽出する。ステップ207、208の処理はステップ201、202の処理とまったく同じであるため、詳しい説明を省略する。
ステップ209では、認識部14は、当該特徴ベクトルの全部のSSVM分類器における出力値を計算し、それによって認識すべき文字画像と最もマッチしている文字を決定する。
具体的に言えば、「一対一」というルールを適用する場合、投票法(多数決)を採用する。このときSSVM分類器の数が多いので、二クラス分類器ごとの出力に基づいて、対応文字に対して投票する。そして、文字ごとに投票数を積算し、投票数が最も多い文字を当該認識すべき文字画像の対応文字として決定する。
これに対して、「一対多」というルールを適用する場合、最大出力法を採用する。このとき、SSVM分類器の数は文字セット中の文字数に等しい。認識部14は、どのSSVMの出力が最大かを判断し、出力値が最大となるSSVM分類器に対応する文字を当該認識すべき文字画像の対応文字として決定する。
本発明の文字認識においては、スパースサポートベクターマシン(SSVM)分類器が採用されるので、決定関数がきわめて少ない数のサポートベクトルで済む。それによって、決定関数の計算時間を短縮し、高速で高い精度の文字認識が実現される。
つぎに、スパースサポートベクターマシン(SSVM)及びトレーニング部12が採用するEM学習アルゴリズムについて詳しく紹介する。
これより分かるように、決定関数の計算時間とサポートベクトルの数とが比例する関係となっている。決定関数がきわめて少ない数のサポートベクトルを使うために、当発明のSSVMの決定関数は次の通りの形式となる。
ただし、カーネル関数項
の直前の係数
、偏差項
である。係数αiがもうラグランジュ乗算子ではないため、最終解ベクトル
の中の要素が全部0とならない。最終解ベクトル
の中の要素がほぼ正確に0に等しくなるように、すなわち解ベクトル
を非常にスパース化させるために、本発明においてはSSVMの目標最適化問題の中にベクトル
の0-ノルム正則化項を取り入れている。SSVMは次のような原始問題に対して最適化をおこなう。
ただし、二ノルム項
を最小化すると、最大マージンの分類器が得られる(二クラスの間のクラスマージンの大きさは
である)。0-ノルム項
(
は特性関数(Indicator Function)である)を最小化することは、非零係数の総数、すなわちサポートベクトルの総数を最小化することに等しい。
SSVMの原始的な最適化問題には特性関数を含んでいるので、目標関数が連続しない。そうすると、通常の最適化アルゴリズムにより求解することができないが、期待値最大化EM(Expectation Maximization)アルゴリズムにより漸近的に実現することができる。EMアルゴリズムの第t回繰り返しの際に、SSVMは次のような原始問題に対して最適化を行う。
ただし、対角行列
である。
図3では、実施例1にかかる文字認識装置10のトレーニング部12による処理を概略的に示す。図3に示すように、トレーニング部12は、サンプルセットを生成する処理(ステップ121)と、パラメータ設定処理(ステップ122)と、EM学習処理(ステップ123)と、結果出力処理(ステップ124)を繰り返して実行する。
そのうち、ステップ121では、二クラストレーニングサンプルセットを生成する。ステップ122では、カーネル関数を選択し、選択されたカーネル関数のパラメータを設定する。
たとえば、ガウスカーネル
を選択し、パラメータσを設定するとともに、SSVMの二つのトレーニング定数Cξ、Cαを設定する。定数Cξが大きいほど、トレーニング誤差が小さくなる。また、定数Cαが大きいほど、決定関数がまばら(スパース)になる。すなわち、サポートベクトルの数が少なくなる。ステップ123では、スパースサポートベクターマシン(SSVM)をトレーニングさせる。そして、ステップ124では、この二クラストレーニングサンプルセットでの学習結果、すなわちSSVM決定関数を出力する。
EM学習を実施するステップ123では、繰り返しEステップとMステップを実行する。その中で、EステップではSSVMの対応する2次計画問題を更新する、すなわち、正則化されたカーネル行列を再計算する。Mステップでは改良された逐次最小最適化MSMOアルゴリズムを用い、更新後の2次計画問題、すなわちSSVMの前記双対問題を求解する。
図4は本発明のスパースサポートベクターマシンEM学習方法を示すフローチャートである。図4に示すように、ステップ1231では、ステップ121、122において設定された二クラストレーニングサンプルセット、カーネル関数、トレーニング定数Cξ、Cαに基づいて、繰り返す回数 t = 0、係数ベクトル
および解ベクトルを初期化する。
この計算式は
と等価であり、数値計算上の問題点(零要素の逆数を求める)を回避できるとともに、逆行列を求めるときの計算量(l×lからm(t)×m(t)に減少し、m(t)は現在の係数ベクトル
における非零要素の数、すなわちサポートベクトルの数である。)を減少させることができる。
ステップ1235はMステップであり、改良された逐次最小最適化MSMOアルゴリズムを用い、SSVMに対応する2次計画問題を求解する。ステップ1236では、更新式
を用い、新たな解ベクトル
により、新たな係数ベクトル
を計算する。
ステップ1237では、現在の状態が終了条件を満たしているかどうかを判断する。ここで、終了条件とは、繰り返し回数が所定最大値 t < T となるか、あるいは係数ベクトルがもう変化しない
という条件である。
終了条件を満足すると、EM繰り返しループであるステップ1232から1237までの処理を終了し、ステップ1238に進む。そうでなければ、ステップ1232に戻り、新たな繰り返しループを開始する。
決定関数の中のサポートベクトルの数(すなわち、サフィックスセットISVにおける要素の数)がとてもまばら(スパース)なので、決定関数の計算が簡単となり、分類器の認識速度がとても速くなる。
図5は、Mステップに使われるSMO最適化アルゴリズムを詳しく示すフローチャートである。図5に示すように、ステップ1234において確定された最適化すべき2次計画問題
に対して、ステップ12351では、繰り返し回数 t = 0、解ベクトル
及び勾配ベクトル
を初期化する。なお、解ベクトル
は前回Mステップ1235にて得られた解ベクトルで初期化してもよい。
サフィックスの検索が失敗した場合、あるいは変数
に対する目標関数の勾配ベクトルが十分に小さい、すなわち、
(ここで、εは例えば0.0001をとる)の場合に、目標関数が最小値としての安定点にあると判断され、さらに現在の解
が最適解であると判断される。
具体的な最適化方法には公知のものを使う。例えば、“J.C. Platt. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Microsoft Research, Technical Report MSR-TR-98-14, 1998”に記載されるSMOアルゴリズムを利用してもよい。
ステップ12356では、繰り返し回数 t が所定最大値 T より小さいかどうかを判断する。所定最大値より小さいと判断されると、ステップ12352に戻り、再び繰り返しループを開始する。そうでなければ、繰り返しループの処理を終了し、現在の解ベクトルをそのまま出力する。
以上に述べた本発明の実施例1にかかる文字認識装置10によれば、スパースサポートベクターマシン分類器を採用したため、認識速度が大きく向上された。
図6(a)は、従来のサポートベクターマシン(SVM)に基づく文字認識装置による分割可能な文字サンプルに対する認識例を示す図である。図6(b)は、本発明のスパースサポートベクターマシン(SSVM)に基づく文字認識装置による分割可能な文字サンプルに対する認識例を示す図である。
図6(a)及び図6(b)において、二クラスデータのトレーニングサンプル点をそれぞれ標記“+”と標記“△”で表す。図面からわかるように、この二クラスデータの分布は分割可能である。図6(a)のSVMと図6(b)のSSVMにおいては、いずれもガウスカーネルが採用され、同じパラメータCξが設定されている。しかし、本発明のSSVMにおいては、SVMにないパラメータCαを具備する。
図6(a)では、SVMに7つのサポートベクトルが必要なことに対し、図6(b)では、SSVMに4つのサポートベクトルが必要となる。それに、SVMのサポートベクトルはサポートプレーンに位置するに対し、SSVMのサポートベクトルの位置には特に制限がない。
図6(c)は、従来のサポートベクターマシン(SVM)に基づく文字認識装置による分割不可能な文字サンプルに対する認識例を示す図である。図6(d)は、本発明のスパースサポートベクターマシン(SSVM)に基づく文字認識装置による分割不可能な文字サンプルに対する認識例を示す図である。
図6(c)及び図6(d)においては二クラスデータの重なる領域が多く、データ分布が分割不可能となる。SVMとSSVMにおいては、いずれもガウスカーネルを採用され、同じパラメータCξが設定されている。
図においては、クラスリング決定面、サポートプレーン、サポートベクトルが示されている。SVMに108個サポートベクトルが必要なのに対し、SSVMに4つしか必要としない。それにも関わらず、両者のクラスリング境界面の位置はほぼ一致している。
SVMのサポートベクトルは必ず二つのサポートプレーン以内(二つのサポートプレーン自身を含む)のサンプル、または、二つのサポートプレーン以外でかつ間違って分類されるサンプルであるのに対し、SSVMのサポートベクトルの位置には特に制限がない。
この例からわかるように、二クラスが分割不可能の場合に、SVMのサポートベクトルの中に大量な冗長性が存在する。SSVMはこの冗長性を解決するものであり、トレーニングサンプルセットから4つのサンプルだけをサポートベクトルとして選択し、クラスリング面を構成することによって冗長性を除去する。
以上に述べた実施例1においては、スパースサポートベクターマシンを採用して僅かな数のサポートベクトルを利用することにより決定関数が簡単になり、認識速度を大きく向上できるとともに、従来のサポートベクターマシンに基づく文字認識とほぼ同等な分類性能を得られる。
以下に本発明の他の実施例について説明する。実施例2においては、さらに各スパースサポートベクターマシンの分類結果に対するクラス事後確率を算出し、このクラス事後確率に基づいて最終の認識結果を決定する。以下の説明では、主に実施例1との違う所について説明する。なお、同じまたは対応する構成については同じまたは対応する符号をつけて説明を省略する。
図7は、本発明の実施例2にかかる文字認識装置10'の概略ブロック図である。実施例2にかかる文字認識装置10'は、実施例1に係る文字認識装置10と同様に、入力装置20と出力装置30とに接続されている。入力装置20は、トレーニングサンプルとしての文字画像あるいは認識すべき文字画像を文字認識装置10'に入力するものである。
文字認識装置10'は、入力装置20により入力されたトレーニングサンプルとしての文字画像に基づいて学習を行い、目標文字と対応する複数のスパースサポートベクターマシン分類器を得る。そして、これら複数のスパースサポートベクターマシン分類器によって、入力装置20により入力された認識すべき文字画像を認識し、認識すべき文字画像に該当する文字を決定する。出力装置30により、文字認識装置10'の認識結果を利用者に対して出力する。
文字認識装置10'は、特徴ベクトル抽出部11'(実施例1の特徴ベクトル抽出部11とまったく同じだから、具体的な説明を省略する。)と、トレーニングサンプルセットに基づいて複数の二クラススパースサポートベクターマシン分類器を学習することにより得て、最大尤度法によりSSVMの決定関数ごとに一つのSigmoid関数をフィッティングさせるトレーニング部12'と、SSVMごとの決定関数
、すなわち、カーネル関数
、サポートベクトル
、対応係数αi及び偏差項bを記憶するとともに、Sigmoid関数
、すなわち、定数AとBを記憶する記憶部13'と、記憶部13'に記憶されたトレーニング結果に基づいて、認識すべき文字画像の各SSVM決定関数における出力値および対応するSigmoid関数における出力値を得る認識部14'と、複数の二クラスのクラス事後確率に基づいて多クラスのクラス事後確率を算出し、最終認識結果、すなわち認識すべき文字画像の文字カテゴリおよびその事後確率を決定する確信度部15'と、を含む。
以下、また「0」〜「9」の10個数字の認識を例として、図8により文字認識装置10'の各部による処理を詳しく説明する。
図8は、実施例2にかかる文字認識装置10'による処理を概略的に示すフローチャートである。実施例2にかかる文字認識装置10'による処理は実施例1に係る文字認識装置10による処理とほぼ同様であり、違う所は以下の点である。
ステップ204のつぎに、トレーニング部12'は、二クラスサンプルトレーニングセットに対するSSVM決定関数の出力に基づいて、最大尤度法によりSigmoid関数を推定し、二クラスの事後確率を求める(ステップ210)。
認識部14'は、ステップ209以後、すべてのケースのSigmoid関数の出力値を計算する(ステップ211)。確信度部15'は、ステップ211以後、複数の二クラス事後確率から多クラス事後確率を計算し、最大事後確率と対応する文字を出力する(ステップ212)。
ステップ201〜209は実施例1と完全に同じなので、以下、ステップ210、211、212のみを詳しく説明する。まず、ステップ210について説明する。二クラスサンプルトレーニングセットを
と、新たなトレーニングセットを
と定義する。ただし、
である。
Sigmoid関数をフィッティングさせる方法は周知のものを使う。例えば、“H.T. Lin, C.J. Lin, R.C. Weng. A Note on Platt’s Probabilistic Outputs for Support Vector Machines. National Taiwan University, 2003, http://www.csie.ntu.edu.tw/~cjlin/libsvmtools”に記載される方法を採用する。
ステップ211では、スパースサポートベクターマシンの出力に基づいて、Sigmoid関数により二クラスのクラス事後確率を計算する。ステップ212では、複数の二クラスのクラス事後確率から多クラスのクラス事後確率を計算する。以下、詳しく説明する。
Sigmoid関数の出力を
と標記する。ここで、SSVM分類器
は文字クラスiと文字クラスjを区別するために用いられる。前記二クラスのクラス事後確率rijと多クラスのクラス事後確率piは
という近似関係を持ち、従って、
となる。
この処理は周知のものを使う。例えば、“T.F. Wu, C.J. Lin, R.C. Weng. Probability Estimates for Multi-class Classification by Pairwise Coupling. Journal of Machine Learning Research 5 (2004) 975-1005”に記載される方法を採用する。
本発明の実施例2に拠れば、Sigmoid関数によりスパースサポートベクターマシンの出力を二クラスのクラス事後確率に変換し、複数の二クラスのクラス事後確率からさらに多クラスのクラス事後確率を求めて出力する。これにより、複数の二クラス分類器の出力をうまく融合して(その効果は投票法よりよい)認識の精度が向上するばかりではなく、各クラスごとの確信度を提供し、続く認識拒否処理または後処理に根拠を提供できる。
以上では本発明の具体的な実施例について説明したが、以上の内容は本発明を限定するものではなく、請求範囲で限定される範囲以内で各種の変更、改良または前記各要素の組み合わせが可能である。
以上の説明において、文字認識装置により本発明を説明したが、文字認識装置だけではなく、文字認識装置が実行する文字認識方法としても実施できる。また、この文字認識方法を実現するプログラムおよびこのプログラムを記憶した記憶媒体として実施することもできる。
また、文字認識により本発明を説明したが、パターン認識、サンプルクラスリングなどの領域にも本発明の原理を適用することが可能である。
(付記1)トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とするパターン認識方法。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とするパターン認識方法。
(付記2)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記1に記載のパターン認識方法。
(付記3)前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップはさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップを含み、前記認識ステップはさらに前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップを含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべきサンプルと対応するパターンを決定することを特徴とする付記1に記載のパターン認識方法。
(付記4)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項との線形結合式として設定し、展開係数を実数として設定することを特徴とする付記2に記載のパターン認識方法。
(付記5)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記4に記載のパターン認識方法。
(付記6)トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識装置。
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識装置。
(付記7)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニング手段は、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するサンプルセット生成手段をさらに備えたことを特徴とする付記6に記載の文字認識装置。
(付記8)前記トレーニング手段はさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングし、前記認識手段はさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算し、前記認識手段は前記二クラスの認識事後確率から多クラスの認識事後確率を計算する確信度手段をさらに備え、前記認識手段は前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記6に記載の文字認識装置。
(付記9)前記トレーニング手段は前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記7に記載の文字認識装置。
(付記10)前記トレーニング手段は、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記9に記載の文字認識装置。
(付記11)トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識方法。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識方法。
(付記12)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記11に記載の文字認識方法。
(付記13)前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップは前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップは前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記11に記載の文字認識方法。
(付記14)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記12に記載の文字認識方法。
(付記15)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記14に記載の文字認識方法。
(付記16)トレーニング文字画像や認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記17)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記16に記載のコンピュータプログラム。
(付記18)前記トレーニングステップは前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップをさらに含み、前記認識ステップは前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップは前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記16に記載のコンピュータプログラム。
(付記19)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記17に記載のコンピュータプログラム。
(付記20)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記19に記載のコンピュータプログラム。
10,10’ 文字認識装置
11,11’ 特徴ベクトル抽出部
12,12’ トレーニング部
13,13’ 記憶部
14,14’ 認識部
15’ 確信度部
20 入力装置
30 出力装置
11,11’ 特徴ベクトル抽出部
12,12’ トレーニング部
13,13’ 記憶部
14,14’ 認識部
15’ 確信度部
20 入力装置
30 出力装置
Claims (10)
- トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とするパターン認識方法。 - 前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする請求項1に記載のパターン認識方法。
- 前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップはさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップを含み、前記認識ステップはさらに前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップを含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべきサンプルと対応するパターンを決定することを特徴とする請求項1に記載のパターン認識方法。
- 前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項との線形結合式として設定し、展開係数を実数として設定することを特徴とする請求項2に記載のパターン認識方法。
- 前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする請求項4に記載のパターン認識方法。
- トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識装置。 - 前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニング手段は、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するサンプルセット生成手段をさらに備えたことを特徴とする請求項6に記載の文字認識装置。
- 前記トレーニング手段はさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングし、前記認識手段はさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算し、前記認識手段は前記二クラスの認識事後確率から多クラスの認識事後確率を計算する確信度手段をさらに備え、前記認識手段は前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする請求項6に記載の文字認識装置。
- 前記トレーニング手段は前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする請求項7に記載の文字認識装置。
- 前記トレーニング手段は、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする請求項9に記載の文字認識装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710146535.X | 2007-08-20 | ||
CN200710146535XA CN101373519B (zh) | 2007-08-20 | 2007-08-20 | 字符识别装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009048641A true JP2009048641A (ja) | 2009-03-05 |
JP5176773B2 JP5176773B2 (ja) | 2013-04-03 |
Family
ID=40447673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008211058A Expired - Fee Related JP5176773B2 (ja) | 2007-08-20 | 2008-08-19 | 文字認識方法および文字認識装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5176773B2 (ja) |
CN (1) | CN101373519B (ja) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833671A (zh) * | 2010-03-30 | 2010-09-15 | 西安理工大学 | 一种基于支持向量机的表面肌电信号多类别模式识别方法 |
CN101872502A (zh) * | 2010-05-21 | 2010-10-27 | 杭州电子科技大学 | 基于稀疏表示的硬币图像识别方法 |
CN102722736A (zh) * | 2012-06-13 | 2012-10-10 | 合肥工业大学 | 复杂干扰下字符串的分割与识别方法 |
CN103824093A (zh) * | 2014-03-19 | 2014-05-28 | 北京航空航天大学 | 一种基于kfda及svm的sar图像目标特征提取与识别方法 |
CN104463252A (zh) * | 2014-12-18 | 2015-03-25 | 南京信息工程大学 | 一种基于自适应极限学习机的地基云分类方法 |
CN107169531A (zh) * | 2017-06-14 | 2017-09-15 | 中国石油大学(华东) | 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置 |
WO2017167046A1 (zh) * | 2016-03-29 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
CN108985151A (zh) * | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写模型训练方法、手写字识别方法、装置、设备及介质 |
CN110110864A (zh) * | 2019-05-16 | 2019-08-09 | 河南师范大学 | 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法 |
CN111259784A (zh) * | 2020-01-14 | 2020-06-09 | 西安理工大学 | 基于迁移学习和主动学习的sar图像变化检测方法 |
CN111310864A (zh) * | 2020-03-30 | 2020-06-19 | 安徽工业大学 | 一种基于分组稀疏的多核学习图像分类方法 |
CN111414819A (zh) * | 2020-03-10 | 2020-07-14 | 北京空间飞行器总体设计部 | 基于非平衡数据分类框架的火点智能检测和分类方法 |
CN111553336A (zh) * | 2020-04-27 | 2020-08-18 | 西安电子科技大学 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
CN112699686A (zh) * | 2021-01-05 | 2021-04-23 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112906666A (zh) * | 2021-04-07 | 2021-06-04 | 中国农业大学 | 一种农业种植结构的遥感识别方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024152B (zh) * | 2010-12-14 | 2013-01-30 | 浙江大学 | 一种基于稀疏表达和字典学习进行交通标志识别的方法 |
CN102855498B (zh) * | 2011-07-01 | 2016-08-31 | 富士通株式会社 | 字符识别方法和装置 |
CN110222687B (zh) * | 2013-06-03 | 2021-02-26 | 支付宝(中国)网络技术有限公司 | 复杂背景卡面信息识别方法及系统 |
US9336770B2 (en) * | 2013-08-13 | 2016-05-10 | Mitsubishi Electric Corporation | Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method |
CN103761531B (zh) * | 2014-01-20 | 2016-04-06 | 西安理工大学 | 基于形状轮廓特征的稀疏编码车牌字符识别方法 |
CN104408454B (zh) * | 2014-06-30 | 2017-10-17 | 电子科技大学 | 基于弹性模板匹配算法的车牌字符分割方法 |
CN104239878B (zh) * | 2014-08-30 | 2017-05-10 | 电子科技大学 | 一种基于概率极值搜索的车牌字符识别方法 |
CN105139036B (zh) * | 2015-06-19 | 2018-10-19 | 四川大学 | 一种基于稀疏编码的手写体数字识别方法 |
WO2018039970A1 (zh) * | 2016-08-31 | 2018-03-08 | 富士通株式会社 | 用于字符识别的分类网络的训练装置、字符识别装置及方法 |
JP6545740B2 (ja) * | 2017-03-08 | 2019-07-17 | 株式会社東芝 | 生成装置、プログラム、認識システムおよび生成方法 |
CN107396248A (zh) * | 2017-09-18 | 2017-11-24 | 刘圣银 | 一种基于互联网的数字声控骨传导耳机系统 |
CN109871848B (zh) * | 2017-12-01 | 2022-01-25 | 北京搜狗科技发展有限公司 | 一种移动终端的文字识别方法及装置 |
CN111818841A (zh) | 2018-03-02 | 2020-10-23 | 兴和株式会社 | 图像分类方法、装置以及程序 |
CN108510000B (zh) * | 2018-03-30 | 2021-06-15 | 北京工商大学 | 复杂场景下行人细粒度属性的检测与识别方法 |
CN109241904B (zh) * | 2018-08-31 | 2023-10-20 | 平安科技(深圳)有限公司 | 文字识别模型训练、文字识别方法、装置、设备及介质 |
CN110930399A (zh) * | 2019-12-10 | 2020-03-27 | 南京医科大学 | 基于支持向量机的tka术前临床分期智能评估方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251592A (ja) * | 2001-02-22 | 2002-09-06 | Toshiba Corp | パターン認識辞書学習方法 |
JP2007521550A (ja) * | 2003-06-30 | 2007-08-02 | 本田技研工業株式会社 | 顔認識システム及び方法 |
JP2009520305A (ja) * | 2005-12-19 | 2009-05-21 | マイクロソフト コーポレーション | 手書きキャラクタ認識のための異書体に基づく筆者適応 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100461205C (zh) * | 2007-01-08 | 2009-02-11 | 中国民航大学 | 基于高维空间凸锥构造的手写体文字识别方法 |
-
2007
- 2007-08-20 CN CN200710146535XA patent/CN101373519B/zh not_active Expired - Fee Related
-
2008
- 2008-08-19 JP JP2008211058A patent/JP5176773B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002251592A (ja) * | 2001-02-22 | 2002-09-06 | Toshiba Corp | パターン認識辞書学習方法 |
JP2007521550A (ja) * | 2003-06-30 | 2007-08-02 | 本田技研工業株式会社 | 顔認識システム及び方法 |
JP2009520305A (ja) * | 2005-12-19 | 2009-05-21 | マイクロソフト コーポレーション | 手書きキャラクタ認識のための異書体に基づく筆者適応 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101833671A (zh) * | 2010-03-30 | 2010-09-15 | 西安理工大学 | 一种基于支持向量机的表面肌电信号多类别模式识别方法 |
CN101872502A (zh) * | 2010-05-21 | 2010-10-27 | 杭州电子科技大学 | 基于稀疏表示的硬币图像识别方法 |
CN102722736A (zh) * | 2012-06-13 | 2012-10-10 | 合肥工业大学 | 复杂干扰下字符串的分割与识别方法 |
CN103824093A (zh) * | 2014-03-19 | 2014-05-28 | 北京航空航天大学 | 一种基于kfda及svm的sar图像目标特征提取与识别方法 |
CN104463252A (zh) * | 2014-12-18 | 2015-03-25 | 南京信息工程大学 | 一种基于自适应极限学习机的地基云分类方法 |
WO2017167046A1 (zh) * | 2016-03-29 | 2017-10-05 | 阿里巴巴集团控股有限公司 | 一种字符识别方法和装置 |
US10872274B2 (en) | 2016-03-29 | 2020-12-22 | Alibaba Group Holding Limited | Character recognition method and device |
CN107169531B (zh) * | 2017-06-14 | 2018-08-17 | 中国石油大学(华东) | 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置 |
CN107169531A (zh) * | 2017-06-14 | 2017-09-15 | 中国石油大学(华东) | 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置 |
CN108985151A (zh) * | 2018-06-04 | 2018-12-11 | 平安科技(深圳)有限公司 | 手写模型训练方法、手写字识别方法、装置、设备及介质 |
CN108985151B (zh) * | 2018-06-04 | 2023-04-07 | 平安科技(深圳)有限公司 | 手写模型训练方法、手写字识别方法、装置、设备及介质 |
CN110110864A (zh) * | 2019-05-16 | 2019-08-09 | 河南师范大学 | 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法 |
CN110110864B (zh) * | 2019-05-16 | 2022-09-27 | 河南师范大学 | 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法 |
CN111259784A (zh) * | 2020-01-14 | 2020-06-09 | 西安理工大学 | 基于迁移学习和主动学习的sar图像变化检测方法 |
CN111259784B (zh) * | 2020-01-14 | 2023-02-07 | 西安理工大学 | 基于迁移学习和主动学习的sar图像变化检测方法 |
CN111414819A (zh) * | 2020-03-10 | 2020-07-14 | 北京空间飞行器总体设计部 | 基于非平衡数据分类框架的火点智能检测和分类方法 |
CN111310864A (zh) * | 2020-03-30 | 2020-06-19 | 安徽工业大学 | 一种基于分组稀疏的多核学习图像分类方法 |
CN111310864B (zh) * | 2020-03-30 | 2023-04-18 | 安徽工业大学 | 一种基于分组稀疏的多核学习图像分类方法 |
CN111553336A (zh) * | 2020-04-27 | 2020-08-18 | 西安电子科技大学 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
CN111553336B (zh) * | 2020-04-27 | 2023-03-24 | 西安电子科技大学 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
CN112699686A (zh) * | 2021-01-05 | 2021-04-23 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112699686B (zh) * | 2021-01-05 | 2024-03-08 | 浙江诺诺网络科技有限公司 | 基于任务型对话系统的语义理解方法、装置、设备及介质 |
CN112906666A (zh) * | 2021-04-07 | 2021-06-04 | 中国农业大学 | 一种农业种植结构的遥感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5176773B2 (ja) | 2013-04-03 |
CN101373519B (zh) | 2011-01-19 |
CN101373519A (zh) | 2009-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5176773B2 (ja) | 文字認識方法および文字認識装置 | |
Borisyuk et al. | Rosetta: Large scale system for text detection and recognition in images | |
Gönen et al. | Multiple kernel learning algorithms | |
US11551034B2 (en) | Adversarial network for transforming handwritten text | |
CN107004140B (zh) | 文本识别方法和计算机程序产品 | |
Lozano et al. | Experimental study on prototype optimisation algorithms for prototype-based classification in vector spaces | |
Adankon et al. | Semisupervised least squares support vector machine | |
Hoefel et al. | Learning a two-stage SVM/CRF sequence classifier | |
US20200104635A1 (en) | Invertible text embedding for lexicon-free offline handwriting recognition | |
Don et al. | DCSVM: fast multi-class classification using support vector machines | |
Zhong et al. | Sgbanet: Semantic gan and balanced attention network for arbitrarily oriented scene text recognition | |
Chychkarov et al. | Handwritten Digits Recognition Using SVM, KNN, RF and Deep Learning Neural Networks. | |
Zhang et al. | Large scale classification in deep neural network with label mapping | |
Sidaoui et al. | Binary tree multi-class SVM based on OVA approach and variable neighbourhood search algorithm | |
Lamtougui et al. | An efficient hybrid model for arabic text recognition | |
Xu et al. | DHA: Supervised deep learning to hash with an adaptive loss function | |
Garg et al. | Kernelized hashcode representations for relation extraction | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
Retsinas et al. | Iterative weighted transductive learning for handwriting recognition | |
US20230106141A1 (en) | Dimensionality reduction model and method for training same | |
Kostinger et al. | Joint learning of discriminative prototypes and large margin nearest neighbor classifiers | |
Rehman et al. | Large scale font independent Urdu text recognition system | |
Retsinas et al. | Deformation-invariant networks for handwritten text recognition | |
LeCun et al. | Energy-based models | |
Yu et al. | An efficient prototype-based model for handwritten text recognition with multi-loss fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110513 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121122 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121224 |
|
LAPS | Cancellation because of no payment of annual fees |