JP2009048641A - 文字認識方法および文字認識装置 - Google Patents

文字認識方法および文字認識装置 Download PDF

Info

Publication number
JP2009048641A
JP2009048641A JP2008211058A JP2008211058A JP2009048641A JP 2009048641 A JP2009048641 A JP 2009048641A JP 2008211058 A JP2008211058 A JP 2008211058A JP 2008211058 A JP2008211058 A JP 2008211058A JP 2009048641 A JP2009048641 A JP 2009048641A
Authority
JP
Japan
Prior art keywords
training
recognition
support vector
vector machine
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008211058A
Other languages
English (en)
Other versions
JP5176773B2 (ja
Inventor
Danian Zheng
大念 鄭
Kaizhu Huang
開竹 黄
Shun Son
俊 孫
Yoshinobu Hotta
悦伸 堀田
Katsuto Fujimoto
克仁 藤本
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2009048641A publication Critical patent/JP2009048641A/ja
Application granted granted Critical
Publication of JP5176773B2 publication Critical patent/JP5176773B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

【課題】文字認識装置及びその方法を提供する。
【解決手段】文字認識装置は、トレーニング文字画像あるいは認識すべき文字画像から文字画像の特徴ベクトルを抽出する特徴ベクトル抽出部と、特徴ベクトル抽出部により出力されたトレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて複数のスパースサポートベクターマシン分類器を学習して得るトレーニング部と、トレーニング部によるトレーニング結果を記憶する記憶部と、スパースサポートベクターマシン分類器ごとに特徴ベクトル抽出部により出力された認識する文字画像の特徴ベクトルに対する出力を計算し、認識すべき文字画像と対応する文字を決定する認識部と、を有する。トレーニング部は、スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することによりスパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
【選択図】 図1

Description

本発明は光学式文字認識(Optical Character Recognition,OCR)に関する。特に、高速かつ高い精度で小さい文字セット(例えば、「0」〜「9」の10個数字だけを対象とする「手書き数字認識」、又は、「a」、…、「z」、「A」、…、「Z」の52個のアルファベットだけを対象とする「印刷体の英文字認識」)を認識する方法および装置に関する。
光学式文字認識が多くの領域の中で広く利用されている。いわゆる光学式文字認識は、書類、新聞雑誌、本、原稿及びその他の印字されたものにおける文字を、スキャナなど光学的入力手段により読み取って画像情報に変換し、さらに、文字認識手段によりこの画像情報をコンピュータに使えるデータに変換する。
文字認識においては、あらかじめ認識用辞書を用意しておく必要がある。そして、パターン認識により画像が辞書の中のどのパターンと最もマッチするかを決定し、それによって該当する文字を認識する。
従来、文字認識の領域においては、テンプレートマッチング法、弾性テンプレートマッチング法、k-最近傍法、混合ガウスモデル法、ニューラルネットワーク法及びサポートベクターマシン(Support Vector Machine,SVM)などの種々なパターン認識方法が提案されている。その中で、サポートベクターマシンは統計学習に基づく方法であり(非特許文献1を参照)、現在文字認識の最も良い方法の1つであると考えられる(非特許文献2を参照)。
サポートベクターマシンには主に3つの特徴がある。1つ目の特徴は、非線型分類問題に対処することができることである。サポートベクターマシンは異なるカーネル関数を採用することができる。つまり、線形カーネルを採用すれば、線形分類器となり、2次多項式のカーネルを採用すれば、2次分類器となり、ガウスカーネルを採用すれば、動径基底(Radial Basis)分類器となる。
2つ目の特徴は、小さい規模の標本の高次元データを処理することができることである。文字認識において、正規化された階調あるいは二値画像を入力ベクトルとして扱う。
3つ目の特徴は、良い汎用性を具備することである。サポートベクターマシンは、トレーニング誤差を最小化するとともに、マージンを最大化する。そして分類器の分類誤り率を低く抑えることを前提として、境界面の複雑度をできるだけ小さくし、汎用性を高める。
ところで、サポートベクターマシンと、k-最近傍法、ニューラルネットワーク法などの従来の方法とを比べると、認識速度がかなり遅いという欠点がある。サポートベクターマシンの処理時間は、サポートベクターの数と比例している。一般には、サポートベクターの数が非常に大きい。特に、文字のトレーニングサンプルの数が大きく、一部分の文字クラスの分布が重なる場合は、認識速度が非常に遅くなる。
テキストスキャン認識などリアルタイム性を高く要求される応用においては、光学式文字認識に高い識別精度が求められるばかりでなく、認識速度の速さも要求されている。そこで、サポートベクターマシン分類器を使う光学式文字認識装置の認識速度を向上させるために、簡易化セット(トレーニングサンプルセットの一つのサブセット)のカーネル関数項の線形結合式により、サポートベクターマシン決定関数を近似する方法(非特許文献3と非特許文献4を参照)が提案されている。
しかし、このような方法は、サポートベクターマシンのトレーニング結果を対象としたポスト処理であり、決定関数の近似であるので認識速度は速くなるが、その代わりサポートベクターマシン分類器の分類性能が部分的に損なわれる。
V. Vapnik, The Nature of Statistical Learning Theory, Springer Verlag, 1995 C. Cortes, V. Vapnik. Support vector networks. Machine Learning, 20 (1995) 273-297 C. J. C. Burges, Simplified Support Vector Decision Rules. International Conference on Machine Learning, ICML, Bari, Italy, 1996, 71-77 B. Scholkopf, S. Mika, et al., Input Space Versus Feature Space in Kernel Based Methods. IEEE Trans. on Neural Networks, 10 (1999) 1000-1017
本発明は上記問題点に鑑みてなされたものである。本発明は、認識速度が速く、かつ、認識精度が優れる光学式文字認識装置及びその方法を提供することを目的とする。
本発明の目的を達成するために、次のような実施案を提供する。
パターン認識方法の一観点によれば、トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
文字認識装置の一観点によれば、トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
文字認識方法の一観点によれば、トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる。
コンピュータプログラムの一観点によれば、トレーニング文字画像や認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させる。
本明細書に開示された方法、装置、プログラムによれば、スパースサポートベクターマシーンを認識に使われ、目標関数に0-ノルム正則化項を導入することにより、決定関数におけるサポートベクトルの数を減少させる。
スパースサポートベクターマシーンはサポートベクターマシーンの改良されたものである。依然として最大マージンクラスタリングを採用されるので、境界面関数の複雑度が低く、良い汎用性を持つ。それに、スパースサポートベクターマシーンのサポートベクトルは学習によりトレーニングセット全体から選択されたものであり、サポートベクトルに冗長性が存在しないので、その数が極めて少ない。なお、サポートベクトルの数が極めて少ないため、スパースサポートベクターマシンの決定関数の計算が簡単になり、速度が従来のサポートベクターマシンに比べ大きく向上される。
以下の詳しい説明と図面により、本発明の特徴とメリットを一層理解することができる。また、図面に示す要素・特徴は、その他の図面に示す要素・特徴と組み合わせることが可能である。また、すべての図面において、同じまたは類似の符号は同じまたは類似の要素を指す。以下、図面を参照しながら本発明の具体的な実施例を説明する。
図1は、本発明の実施例1にかかる文字認識装置10の概略ブロック図である。図1に示すように、本発明の実施例1にかかる文字認識装置10は、入力装置20と出力装置30とに接続されている。
入力装置20は、トレーニングサンプルとしての文字画像あるいは認識すべき文字画像を文字認識装置10に入力するものであり、スキャナなどの画像読み取り装置であってもよいし、手書きパネルなどの手書き入力装置、あるいは磁気ディスクなどの画像記録媒体のドライブインタフェースであってもよい。
文字認識装置10は、入力装置20により入力されたトレーニングサンプルとしての文字画像に基づいて学習を行い、複数のスパースサポートベクターマシン分類器を得る。これら複数のスパースサポートベクターマシン(sparse support vector machine: SSVM)分類器によって、入力装置20により入力された認識すべき文字画像を認識し、この認識すべき文字画像に該当する文字を決定する。
文字認識装置10の認識結果は、出力装置30により利用者に出力される。出力装置30は例えばディスプレイ、記憶媒体のドライブインタフェースであってもよいし、手書き入力装置のインタフェースであってもよい。
文字認識装置10は、入力された文字画像を正規化処理し、正規化された文字画像に対して特徴を抽出する特徴ベクトル抽出部11と、トレーニングサンプルセットに基づいて複数のスパースサポートベクターマシン分類器を学習して得るトレーニング部12と、各SSVMの決定関数
Figure 2009048641
、すなわち、カーネル関数
Figure 2009048641
、サポートベクトル
Figure 2009048641
、対応係数αiおよび偏差項bを記憶する記憶部13と、記憶部13に記憶されたトレーニング結果に基づいて、SSVM決定関数ごとに認識すべき文字画像の出力値を得、この出力値に基づいて認識すべき文字画像と対応する文字を決定する認識部14と、を含む。ここで、文字認識装置10は、適当に組まれたプログラムを実行するCPUで構成される。
以下、「0」〜「9」の10個の数字の認識を例として、図2により、文字認識装置10の各部による処理を詳しく説明する。
図2は、実施例1にかかる文字認識装置10による処理を概略的に示すフローチャートである。図2において、左側半分はトレーニングのプロセスを示す。右側半分は認識のプロセスを示す。ただし、トレーニングのプロセスと認識のプロセスに関して、文字画像正規化処理と特徴抽出処理は共通のものである。
まず、トレーニングのプロセスについて説明する。図2に示すように、ステップ201では、特徴ベクトル抽出部11は文字画像を正規化する。詳しく言えば、特徴ベクトル抽出部11は、文字画像を含む最小の四角形の範囲を検索する。そして、検索された四角形の範囲の横縦比率を保持しながら、双線形補間によって四角形の範囲内の文字画像を所定のサイズ(たとえば、n×n)に正規化する。そして、正規化された文字画像を(n+2)×(n+2)の空白画像の中心に配置する。
つぎに、ステップ202では、特徴ベクトル抽出部11は正規化された文字画像の文字特徴を抽出する。詳しく言えば、以下の処理を含む。まず、画像筆画画素を垂直方向に投影し、水平ヒストグラムを得て、この水平ヒストグラムをm個の列に等分する。また、画像筆画画素を水平方向に投影し、垂直ヒストグラムを取得し、この垂直ヒストグラムをm個の行に等分する。そうすると、m×m個のサイズが異なるセルが得られる。
そして、文字画像全体のチェインコードを取得し、各チェインコードにおける方向を求める。なお、求める方向は8種類のあり得る方向中の一つの方向である。そして、セルごとに8種類の方向でのチェインコードの数を積算し、最終的に8×m×m次元の文字特徴ベクトルが取得される。
トレーニング文字画像ごとに、1つのクラスラベル(0,1,…,9のいずれか)を設定しておく。抽出される特徴ベクトルをx、設定されるクラスラベルをyとすると、該当文字画像は1つの入力出力対(x,y)と対応付けられる。複数のトレーニング文字画像の入力出力対で、トレーニング集合{(x1, y1), (x2, y2), …, (xl,yl)}、すなわち多クラスサンプルトレーニングセット
Figure 2009048641
を構成する。ただし、
Figure 2009048641
は特徴ベクトルであり、
Figure 2009048641
はクラス番号であり、lは総トレーニングサンプル数である。
ステップ203では、トレーニング部12が、多クラスサンプルトレーニングセットから二クラスサンプルトレーニングセットを構成する。「一対一」というルールを適用する場合、(‘0',‘1’), …, (‘0’,‘9’), (‘1’,‘2’), …, (‘8’,‘9’)のように
Figure 2009048641
種類のあり得るケースにおける二クラスサンプルトレーニングセットを考える必要がある。
まず、45個のサッブセット
Figure 2009048641
(ただし、i = 0, …, 8,j = 1, …, 9)を抽出し、その後、すべてのサッブセットに対してクラス番号を yk = i から yk = +1に書き換え、クラス番号 yk = j を yk = -1 に書き換える。
また、「一対多」というルールを適用する場合に、(‘0’, 非‘0’), (‘1’, 非‘1’), …, (‘9’, 非‘9’)の10種類のあり得るケースにおける二クラスサンプルトレーニングセットを考える必要がある。
すなわち、
Figure 2009048641
において、クラス番号がiであれば +1 に書き換え、iでなければ -1 に書き換える。ただし、i = 0, …, 9である。
つぎに、ステップ204では、トレーニング部12は、以上に示す複数のケースごとに、二クラスサンプルトレーニングセットに基づいて1つのスパースサポートベクターマシン(SSVM)分類器を学習により得る。
そして、ステップ205では、全部のケースについて、トレーニングが完成したがどうかを判断する。完成したと判断される場合、トレーニングを終了し、つぎのステップ206において、トレーニング結果を記憶部13に出力して保存する。完成していないと判断される場合、ステップ203に戻って、つぎのケースに関する処理に進む。
つぎに、文字認識プロセスについて概略的に説明する。まず、ステップ207とステップ208では、特徴ベクトル抽出部11は、認識すべき文字画像を正規化して、特徴ベクトルを抽出する。ステップ207、208の処理はステップ201、202の処理とまったく同じであるため、詳しい説明を省略する。
ステップ209では、認識部14は、当該特徴ベクトルの全部のSSVM分類器における出力値を計算し、それによって認識すべき文字画像と最もマッチしている文字を決定する。
具体的に言えば、「一対一」というルールを適用する場合、投票法(多数決)を採用する。このときSSVM分類器の数が多いので、二クラス分類器ごとの出力に基づいて、対応文字に対して投票する。そして、文字ごとに投票数を積算し、投票数が最も多い文字を当該認識すべき文字画像の対応文字として決定する。
これに対して、「一対多」というルールを適用する場合、最大出力法を採用する。このとき、SSVM分類器の数は文字セット中の文字数に等しい。認識部14は、どのSSVMの出力が最大かを判断し、出力値が最大となるSSVM分類器に対応する文字を当該認識すべき文字画像の対応文字として決定する。
本発明の文字認識においては、スパースサポートベクターマシン(SSVM)分類器が採用されるので、決定関数がきわめて少ない数のサポートベクトルで済む。それによって、決定関数の計算時間を短縮し、高速で高い精度の文字認識が実現される。
つぎに、スパースサポートベクターマシン(SSVM)及びトレーニング部12が採用するEM学習アルゴリズムについて詳しく紹介する。
周知のように、二クラスサンプルトレーニングセットが
Figure 2009048641
である場合、従来のサポートベクターマシン(SVM)の決定関数は、
Figure 2009048641
の形になる。ただし、カーネル関数項
Figure 2009048641
の直前の係数
Figure 2009048641
、偏差項
Figure 2009048641
である。
係数αiが全部ラグランジュ乗算子であるため、最終解ベクトル
Figure 2009048641
の中の要素がほぼ0である。すべての非零係数
Figure 2009048641
と対応するトレーニングサンプル
Figure 2009048641
をサポートベクトルと呼ぶ。
決定関数をサポートベクトルのカーネル関数項の展開式だけで表すことができる。すなわち、
Figure 2009048641
である。ただし、
Figure 2009048641
はサポートベクトルのサフィックスインデックスセットを表す。
これより分かるように、決定関数の計算時間とサポートベクトルの数とが比例する関係となっている。決定関数がきわめて少ない数のサポートベクトルを使うために、当発明のSSVMの決定関数は次の通りの形式となる。
Figure 2009048641
ただし、カーネル関数項
Figure 2009048641
の直前の係数
Figure 2009048641
、偏差項
Figure 2009048641
である。係数αiがもうラグランジュ乗算子ではないため、最終解ベクトル
Figure 2009048641
の中の要素が全部0とならない。最終解ベクトル
Figure 2009048641
の中の要素がほぼ正確に0に等しくなるように、すなわち解ベクトル
Figure 2009048641
を非常にスパース化させるために、本発明においてはSSVMの目標最適化問題の中にベクトル
Figure 2009048641
の0-ノルム正則化項を取り入れている。SSVMは次のような原始問題に対して最適化をおこなう。
Figure 2009048641
ただし、二ノルム項
Figure 2009048641
を最小化すると、最大マージンの分類器が得られる(二クラスの間のクラスマージンの大きさは
Figure 2009048641
である)。0-ノルム項
Figure 2009048641

Figure 2009048641
は特性関数(Indicator Function)である)を最小化することは、非零係数の総数、すなわちサポートベクトルの総数を最小化することに等しい。
弛緩因数項
Figure 2009048641
を最小化してトレーニング誤りをできるだけ低く抑えることである。二つの常数Cξ、Cαはそれぞれトレーニング誤差項とサポートベクトル数項の直前の懲罰因数である。
SSVMの原始的な最適化問題には特性関数を含んでいるので、目標関数が連続しない。そうすると、通常の最適化アルゴリズムにより求解することができないが、期待値最大化EM(Expectation Maximization)アルゴリズムにより漸近的に実現することができる。EMアルゴリズムの第t回繰り返しの際に、SSVMは次のような原始問題に対して最適化を行う。
Figure 2009048641
ただし、対角行列
Figure 2009048641
である。
そして、この最適化問題の双対問題(dual problem)が導き出される。
Figure 2009048641
ただし、行列
Figure 2009048641

Figure 2009048641
は正則化されたカーネル行列
Figure 2009048641
の要素であり、変数βiはラグランジュ乗算子である。
図3では、実施例1にかかる文字認識装置10のトレーニング部12による処理を概略的に示す。図3に示すように、トレーニング部12は、サンプルセットを生成する処理(ステップ121)と、パラメータ設定処理(ステップ122)と、EM学習処理(ステップ123)と、結果出力処理(ステップ124)を繰り返して実行する。
そのうち、ステップ121では、二クラストレーニングサンプルセットを生成する。ステップ122では、カーネル関数を選択し、選択されたカーネル関数のパラメータを設定する。
たとえば、ガウスカーネル
Figure 2009048641
を選択し、パラメータσを設定するとともに、SSVMの二つのトレーニング定数Cξ、Cαを設定する。定数Cξが大きいほど、トレーニング誤差が小さくなる。また、定数Cαが大きいほど、決定関数がまばら(スパース)になる。すなわち、サポートベクトルの数が少なくなる。ステップ123では、スパースサポートベクターマシン(SSVM)をトレーニングさせる。そして、ステップ124では、この二クラストレーニングサンプルセットでの学習結果、すなわちSSVM決定関数を出力する。
EM学習を実施するステップ123では、繰り返しEステップとMステップを実行する。その中で、EステップではSSVMの対応する2次計画問題を更新する、すなわち、正則化されたカーネル行列を再計算する。Mステップでは改良された逐次最小最適化MSMOアルゴリズムを用い、更新後の2次計画問題、すなわちSSVMの前記双対問題を求解する。
図4は本発明のスパースサポートベクターマシンEM学習方法を示すフローチャートである。図4に示すように、ステップ1231では、ステップ121、122において設定された二クラストレーニングサンプルセット、カーネル関数、トレーニング定数Cξ、Cαに基づいて、繰り返す回数 t = 0、係数ベクトル
Figure 2009048641
および解ベクトルを初期化する。
ステップ1232では、係数ベクトルにおけるすべての非零要素を検索し、それらのサフィックスにより集合
Figure 2009048641
を組成する。ただし、εは非常に小さい正定数であり、例えば0.0001である。
ステップ1233では、現在の係数ベクトル
Figure 2009048641
に基づいて、対角行列
Figure 2009048641
を計算する。
ステップ1234は、Eステップであり、対角行列
Figure 2009048641
により、正則化されたカーネル行列
Figure 2009048641
を再計算する。
この計算式は
Figure 2009048641
と等価であり、数値計算上の問題点(零要素の逆数を求める)を回避できるとともに、逆行列を求めるときの計算量(l×lからm(t)×m(t)に減少し、m(t)は現在の係数ベクトル
Figure 2009048641
における非零要素の数、すなわちサポートベクトルの数である。)を減少させることができる。
ステップ1235はMステップであり、改良された逐次最小最適化MSMOアルゴリズムを用い、SSVMに対応する2次計画問題を求解する。ステップ1236では、更新式
Figure 2009048641
を用い、新たな解ベクトル
Figure 2009048641
により、新たな係数ベクトル
Figure 2009048641
を計算する。
ステップ1237では、現在の状態が終了条件を満たしているかどうかを判断する。ここで、終了条件とは、繰り返し回数が所定最大値 t < T となるか、あるいは係数ベクトルがもう変化しない
Figure 2009048641
という条件である。
終了条件を満足すると、EM繰り返しループであるステップ1232から1237までの処理を終了し、ステップ1238に進む。そうでなければ、ステップ1232に戻り、新たな繰り返しループを開始する。
ステップ1238では、計算式
Figure 2009048641
を採用して決定関数の偏差項を計算する。ただし、サフィックスセットは
Figure 2009048641
であり、
Figure 2009048641
はカーネル行列
Figure 2009048641
の第i目の列ベクトルである。
最後に、SSVMの決定関数を出力する。
Figure 2009048641
,ただし、
Figure 2009048641
である。
決定関数の中のサポートベクトルの数(すなわち、サフィックスセットISVにおける要素の数)がとてもまばら(スパース)なので、決定関数の計算が簡単となり、分類器の認識速度がとても速くなる。
図5は、Mステップに使われるSMO最適化アルゴリズムを詳しく示すフローチャートである。図5に示すように、ステップ1234において確定された最適化すべき2次計画問題
Figure 2009048641
に対して、ステップ12351では、繰り返し回数 t = 0、解ベクトル
Figure 2009048641
及び勾配ベクトル
Figure 2009048641
を初期化する。なお、解ベクトル
Figure 2009048641
は前回Mステップ1235にて得られた解ベクトルで初期化してもよい。
ステップ12352では、目標関数の下がり勾配が可能解方向において最速となるように、二つの最適化すべきなラグランジュ乗算子
Figure 2009048641
を検索する。これらのサフィックスは以下に示す方法で得られる。
Figure 2009048641
Figure 2009048641
サフィックスの検索が失敗した場合、あるいは変数
Figure 2009048641
に対する目標関数の勾配ベクトルが十分に小さい、すなわち、
Figure 2009048641
(ここで、εは例えば0.0001をとる)の場合に、目標関数が最小値としての安定点にあると判断され、さらに現在の解
Figure 2009048641
が最適解であると判断される。
ステップ12353では、検索ができた場合に、ステップ12354に移行し、選択された二つの変数
Figure 2009048641
を最適化する。そうではない場合、ループを終了し、最適解
Figure 2009048641
を出力する。
ステップ12354では、選択された二つの変数
Figure 2009048641
に対して最適化処理を行うが、その他の変数はそのまま保持する。そうすると、新たなベクトル
Figure 2009048641
が得られる。
具体的な最適化方法には公知のものを使う。例えば、“J.C. Platt. Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines, Microsoft Research, Technical Report MSR-TR-98-14, 1998”に記載されるSMOアルゴリズムを利用してもよい。
ステップ12355では、変数の変化量
Figure 2009048641
により、勾配ベクトルを更新する。
具体的に言えば、
Figure 2009048641
を計算する。ここで、
Figure 2009048641
はそれぞれ行列
Figure 2009048641
の第i1列と第i2列である。
ステップ12356では、繰り返し回数 t が所定最大値 T より小さいかどうかを判断する。所定最大値より小さいと判断されると、ステップ12352に戻り、再び繰り返しループを開始する。そうでなければ、繰り返しループの処理を終了し、現在の解ベクトルをそのまま出力する。
以上に述べた本発明の実施例1にかかる文字認識装置10によれば、スパースサポートベクターマシン分類器を採用したため、認識速度が大きく向上された。
図6(a)は、従来のサポートベクターマシン(SVM)に基づく文字認識装置による分割可能な文字サンプルに対する認識例を示す図である。図6(b)は、本発明のスパースサポートベクターマシン(SSVM)に基づく文字認識装置による分割可能な文字サンプルに対する認識例を示す図である。
図6(a)及び図6(b)において、二クラスデータのトレーニングサンプル点をそれぞれ標記“+”と標記“△”で表す。図面からわかるように、この二クラスデータの分布は分割可能である。図6(a)のSVMと図6(b)のSSVMにおいては、いずれもガウスカーネルが採用され、同じパラメータCξが設定されている。しかし、本発明のSSVMにおいては、SVMにないパラメータCαを具備する。
図においては、3本の線が示されている。中間の線はクラスリング決定面
Figure 2009048641
を示し、両側の線はそれぞれサポートプレーン
Figure 2009048641
を示す。また、標記“○”はサポートベクトルを示す。
図6(a)では、SVMに7つのサポートベクトルが必要なことに対し、図6(b)では、SSVMに4つのサポートベクトルが必要となる。それに、SVMのサポートベクトルはサポートプレーンに位置するに対し、SSVMのサポートベクトルの位置には特に制限がない。
図6(c)は、従来のサポートベクターマシン(SVM)に基づく文字認識装置による分割不可能な文字サンプルに対する認識例を示す図である。図6(d)は、本発明のスパースサポートベクターマシン(SSVM)に基づく文字認識装置による分割不可能な文字サンプルに対する認識例を示す図である。
図6(c)及び図6(d)においては二クラスデータの重なる領域が多く、データ分布が分割不可能となる。SVMとSSVMにおいては、いずれもガウスカーネルを採用され、同じパラメータCξが設定されている。
図においては、クラスリング決定面、サポートプレーン、サポートベクトルが示されている。SVMに108個サポートベクトルが必要なのに対し、SSVMに4つしか必要としない。それにも関わらず、両者のクラスリング境界面の位置はほぼ一致している。
SVMのサポートベクトルは必ず二つのサポートプレーン以内(二つのサポートプレーン自身を含む)のサンプル、または、二つのサポートプレーン以外でかつ間違って分類されるサンプルであるのに対し、SSVMのサポートベクトルの位置には特に制限がない。
この例からわかるように、二クラスが分割不可能の場合に、SVMのサポートベクトルの中に大量な冗長性が存在する。SSVMはこの冗長性を解決するものであり、トレーニングサンプルセットから4つのサンプルだけをサポートベクトルとして選択し、クラスリング面を構成することによって冗長性を除去する。
以上に述べた実施例1においては、スパースサポートベクターマシンを採用して僅かな数のサポートベクトルを利用することにより決定関数が簡単になり、認識速度を大きく向上できるとともに、従来のサポートベクターマシンに基づく文字認識とほぼ同等な分類性能を得られる。
以下に本発明の他の実施例について説明する。実施例2においては、さらに各スパースサポートベクターマシンの分類結果に対するクラス事後確率を算出し、このクラス事後確率に基づいて最終の認識結果を決定する。以下の説明では、主に実施例1との違う所について説明する。なお、同じまたは対応する構成については同じまたは対応する符号をつけて説明を省略する。
図7は、本発明の実施例2にかかる文字認識装置10'の概略ブロック図である。実施例2にかかる文字認識装置10'は、実施例1に係る文字認識装置10と同様に、入力装置20と出力装置30とに接続されている。入力装置20は、トレーニングサンプルとしての文字画像あるいは認識すべき文字画像を文字認識装置10'に入力するものである。
文字認識装置10'は、入力装置20により入力されたトレーニングサンプルとしての文字画像に基づいて学習を行い、目標文字と対応する複数のスパースサポートベクターマシン分類器を得る。そして、これら複数のスパースサポートベクターマシン分類器によって、入力装置20により入力された認識すべき文字画像を認識し、認識すべき文字画像に該当する文字を決定する。出力装置30により、文字認識装置10'の認識結果を利用者に対して出力する。
文字認識装置10'は、特徴ベクトル抽出部11'(実施例1の特徴ベクトル抽出部11とまったく同じだから、具体的な説明を省略する。)と、トレーニングサンプルセットに基づいて複数の二クラススパースサポートベクターマシン分類器を学習することにより得て、最大尤度法によりSSVMの決定関数ごとに一つのSigmoid関数をフィッティングさせるトレーニング部12'と、SSVMごとの決定関数
Figure 2009048641
、すなわち、カーネル関数
Figure 2009048641
、サポートベクトル
Figure 2009048641
、対応係数αi及び偏差項bを記憶するとともに、Sigmoid関数
Figure 2009048641
、すなわち、定数AとBを記憶する記憶部13'と、記憶部13'に記憶されたトレーニング結果に基づいて、認識すべき文字画像の各SSVM決定関数における出力値および対応するSigmoid関数における出力値を得る認識部14'と、複数の二クラスのクラス事後確率に基づいて多クラスのクラス事後確率を算出し、最終認識結果、すなわち認識すべき文字画像の文字カテゴリおよびその事後確率を決定する確信度部15'と、を含む。
以下、また「0」〜「9」の10個数字の認識を例として、図8により文字認識装置10'の各部による処理を詳しく説明する。
図8は、実施例2にかかる文字認識装置10'による処理を概略的に示すフローチャートである。実施例2にかかる文字認識装置10'による処理は実施例1に係る文字認識装置10による処理とほぼ同様であり、違う所は以下の点である。
ステップ204のつぎに、トレーニング部12'は、二クラスサンプルトレーニングセットに対するSSVM決定関数の出力に基づいて、最大尤度法によりSigmoid関数を推定し、二クラスの事後確率を求める(ステップ210)。
認識部14'は、ステップ209以後、すべてのケースのSigmoid関数の出力値を計算する(ステップ211)。確信度部15'は、ステップ211以後、複数の二クラス事後確率から多クラス事後確率を計算し、最大事後確率と対応する文字を出力する(ステップ212)。
ステップ201〜209は実施例1と完全に同じなので、以下、ステップ210、211、212のみを詳しく説明する。まず、ステップ210について説明する。二クラスサンプルトレーニングセットを
Figure 2009048641
と、新たなトレーニングセットを
Figure 2009048641
と定義する。ただし、
Figure 2009048641
である。
最大尤度推定によりパラメータAとBが得られる。
Figure 2009048641
ここで、
Figure 2009048641
である。
Sigmoid関数をフィッティングさせる方法は周知のものを使う。例えば、“H.T. Lin, C.J. Lin, R.C. Weng. A Note on Platt’s Probabilistic Outputs for Support Vector Machines. National Taiwan University, 2003, http://www.csie.ntu.edu.tw/~cjlin/libsvmtools”に記載される方法を採用する。
ステップ211では、スパースサポートベクターマシンの出力に基づいて、Sigmoid関数により二クラスのクラス事後確率を計算する。ステップ212では、複数の二クラスのクラス事後確率から多クラスのクラス事後確率を計算する。以下、詳しく説明する。
仮に、k個の文字クラスを有するとする。piはクラスiの事後確率を示す。
“一対一”というルールを採用すると、
Figure 2009048641
個の二クラス分類器が必要になる。
Sigmoid関数の出力を
Figure 2009048641
と標記する。ここで、SSVM分類器
Figure 2009048641
は文字クラスiと文字クラスjを区別するために用いられる。前記二クラスのクラス事後確率rijと多クラスのクラス事後確率pi
Figure 2009048641
という近似関係を持ち、従って、
Figure 2009048641
となる。
ここで、rji = 1 - rij である。これらの関係を満足する最適解を求めるために、以下の問題を最適化する。
Figure 2009048641
この問題が
Figure 2009048641
と等価であることが証明できるものなので、さらに線形システムの求解に簡略化できる。
この処理は周知のものを使う。例えば、“T.F. Wu, C.J. Lin, R.C. Weng. Probability Estimates for Multi-class Classification by Pairwise Coupling. Journal of Machine Learning Research 5 (2004) 975-1005”に記載される方法を採用する。
これに対して、“一対多”というルールを採用すると、
Figure 2009048641
個の二クラス分類器が必要になる。二クラスのクラス事後確率
Figure 2009048641
と多クラスのクラス事後確率pi
Figure 2009048641
という近似関係を持つ。
これらの関係を満足する最適解を求めるために、以下の問題を最適化する。
Figure 2009048641
これは簡単な2次計画問題であり、周知の方法で容易に求められる。
本発明の実施例2に拠れば、Sigmoid関数によりスパースサポートベクターマシンの出力を二クラスのクラス事後確率に変換し、複数の二クラスのクラス事後確率からさらに多クラスのクラス事後確率を求めて出力する。これにより、複数の二クラス分類器の出力をうまく融合して(その効果は投票法よりよい)認識の精度が向上するばかりではなく、各クラスごとの確信度を提供し、続く認識拒否処理または後処理に根拠を提供できる。
以上では本発明の具体的な実施例について説明したが、以上の内容は本発明を限定するものではなく、請求範囲で限定される範囲以内で各種の変更、改良または前記各要素の組み合わせが可能である。
以上の説明において、文字認識装置により本発明を説明したが、文字認識装置だけではなく、文字認識装置が実行する文字認識方法としても実施できる。また、この文字認識方法を実現するプログラムおよびこのプログラムを記憶した記憶媒体として実施することもできる。
また、文字認識により本発明を説明したが、パターン認識、サンプルクラスリングなどの領域にも本発明の原理を適用することが可能である。
(付記1)トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とするパターン認識方法。
(付記2)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記1に記載のパターン認識方法。
(付記3)前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップはさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップを含み、前記認識ステップはさらに前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップを含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべきサンプルと対応するパターンを決定することを特徴とする付記1に記載のパターン認識方法。
(付記4)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項との線形結合式として設定し、展開係数を実数として設定することを特徴とする付記2に記載のパターン認識方法。
(付記5)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記4に記載のパターン認識方法。
(付記6)トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識装置。
(付記7)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニング手段は、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するサンプルセット生成手段をさらに備えたことを特徴とする付記6に記載の文字認識装置。
(付記8)前記トレーニング手段はさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングし、前記認識手段はさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算し、前記認識手段は前記二クラスの認識事後確率から多クラスの認識事後確率を計算する確信度手段をさらに備え、前記認識手段は前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記6に記載の文字認識装置。
(付記9)前記トレーニング手段は前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記7に記載の文字認識装置。
(付記10)前記トレーニング手段は、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記9に記載の文字認識装置。
(付記11)トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
を特徴とする文字認識方法。
(付記12)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記11に記載の文字認識方法。
(付記13)前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップは前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップは前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記11に記載の文字認識方法。
(付記14)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記12に記載の文字認識方法。
(付記15)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記14に記載の文字認識方法。
(付記16)トレーニング文字画像や認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
前記特徴ベクトル抽出ステップにより抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識ステップと、
を含み、
前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させる文字認識方法をコンピュータに実行させることを特徴とするコンピュータプログラム。
(付記17)前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする付記16に記載のコンピュータプログラム。
(付記18)前記トレーニングステップは前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップをさらに含み、前記認識ステップは前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップは前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップをさらに含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする付記16に記載のコンピュータプログラム。
(付記19)前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする付記17に記載のコンピュータプログラム。
(付記20)前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする付記19に記載のコンピュータプログラム。
本発明の実施例1にかかる文字認識装置の概略ブロック図である。 実施例1にかかる文字認識装置による処理を概略的に示すフローチャートである。 実施例1にかかる文字認識装置のトレーニング部による処理を概略的に示すフローチャートである。 文字認識装置が実行するスパースサポートベクターマシンEM学習方法を概略的に示すフローチャートである。 Mステップに使われるMSMO最適化方法のフローチャートである。 文字認識装置の認識例を示す図である。 本発明の実施例2にかかる文字認識装置の概略ブロック図である。 実施例2にかかる文字認識装置による処理を概略的に示すフローチャートである。
符号の説明
10,10’ 文字認識装置
11,11’ 特徴ベクトル抽出部
12,12’ トレーニング部
13,13’ 記憶部
14,14’ 認識部
15’ 確信度部
20 入力装置
30 出力装置

Claims (10)

  1. トレーニングサンプルあるいは認識すべきサンプルから特徴ベクトルを抽出する特徴ベクトル抽出ステップと、
    前記特徴ベクトル抽出ステップにより抽出された前記トレーニングサンプルの特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニングステップと、
    前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出ステップにより抽出された認識すべきサンプルの特徴ベクトルに対する出力を計算し、前記認識すべきサンプルと対応するパターンを決定する認識ステップと、
    を含み、
    前記トレーニングステップでは、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
    を特徴とするパターン認識方法。
  2. 前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニングステップは、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するステップをさらに含むことを特徴とする請求項1に記載のパターン認識方法。
  3. 前記トレーニングステップはさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングするステップを含み、前記認識ステップはさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算するステップを含み、前記認識ステップはさらに前記二クラスの認識事後確率から多クラスの認識事後確率を計算するステップを含み、前記認識ステップでは前記多クラスの認識事後確率に基づいて前記認識すべきサンプルと対応するパターンを決定することを特徴とする請求項1に記載のパターン認識方法。
  4. 前記トレーニングステップでは前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項との線形結合式として設定し、展開係数を実数として設定することを特徴とする請求項2に記載のパターン認識方法。
  5. 前記トレーニングステップでは、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする請求項4に記載のパターン認識方法。
  6. トレーニング文字画像あるいは認識すべき文字画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
    前記特徴ベクトル抽出手段により抽出された前記トレーニング文字画像の特徴ベクトルからなるトレーニングサンプルセットに基づいて学習し、複数のスパースサポートベクターマシン分類器を得るトレーニング手段と、
    前記トレーニング手段によるトレーニング結果を記憶する記憶手段と、
    前記スパースサポートベクターマシン分類器ごとに、前記特徴ベクトル抽出手段により抽出された認識すべき文字画像の特徴ベクトルに対する出力を計算し、前記認識すべき文字画像と対応する文字を決定する認識手段と、を備え、
    前記トレーニング手段は、前記スパースサポートベクターマシン分類器の目標関数に0-ノルム正則化項を導入することにより前記スパースサポートベクターマシン分類器の決定関数におけるサポートベクトルの数を減少させること、
    を特徴とする文字認識装置。
  7. 前記スパースサポートベクターマシン分類器は二クラススパースサポートベクターマシン分類器であり、前記トレーニング手段は、多クラストレーニングサンプルセットから二クラストレーニングサンプルセットを構成するサンプルセット生成手段をさらに備えたことを特徴とする請求項6に記載の文字認識装置。
  8. 前記トレーニング手段はさらに前記スパースサポートベクターマシン分類器ごとにSigmoid関数をフィッティングし、前記認識手段はさらに前記Sigmoid関数により前記スパースサポートベクターマシン分類器の出力に基づいて二クラスの認識事後確率を計算し、前記認識手段は前記二クラスの認識事後確率から多クラスの認識事後確率を計算する確信度手段をさらに備え、前記認識手段は前記多クラスの認識事後確率に基づいて前記認識すべき文字画像と対応する文字を決定することを特徴とする請求項6に記載の文字認識装置。
  9. 前記トレーニング手段は前記スパースサポートベクターマシン分類器の決定関数をトレーニングサンプルのカーネル項と偏差項の線形結合式として設定し、展開係数を実数として設定することを特徴とする請求項7に記載の文字認識装置。
  10. 前記トレーニング手段は、繰り返し回数、係数ベクトル、解ベクトルを初期化すること、係数ベクトルにおけるすべての非零要素を検索し、対角行列を計算すること、正則化されたカーネル行列を再計算すること、前記スパースサポートベクターマシンと対応する2次計画問題を求解し、解ベクトルから係数ベクトルを計算すること、終了条件を満足しているかどうかを判断し、満足していないと判断される場合、非零要素を検索する処理に戻り、また、満足すると判断される場合、決定関数の偏差項を計算し、決定関数を出力すること、を繰り返し実行することによって、前記スパースサポートベクターマシン分類器の最適化をすることを特徴とする請求項9に記載の文字認識装置。
JP2008211058A 2007-08-20 2008-08-19 文字認識方法および文字認識装置 Expired - Fee Related JP5176773B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200710146535.X 2007-08-20
CN200710146535XA CN101373519B (zh) 2007-08-20 2007-08-20 字符识别装置和方法

Publications (2)

Publication Number Publication Date
JP2009048641A true JP2009048641A (ja) 2009-03-05
JP5176773B2 JP5176773B2 (ja) 2013-04-03

Family

ID=40447673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008211058A Expired - Fee Related JP5176773B2 (ja) 2007-08-20 2008-08-19 文字認識方法および文字認識装置

Country Status (2)

Country Link
JP (1) JP5176773B2 (ja)
CN (1) CN101373519B (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833671A (zh) * 2010-03-30 2010-09-15 西安理工大学 一种基于支持向量机的表面肌电信号多类别模式识别方法
CN101872502A (zh) * 2010-05-21 2010-10-27 杭州电子科技大学 基于稀疏表示的硬币图像识别方法
CN102722736A (zh) * 2012-06-13 2012-10-10 合肥工业大学 复杂干扰下字符串的分割与识别方法
CN103824093A (zh) * 2014-03-19 2014-05-28 北京航空航天大学 一种基于kfda及svm的sar图像目标特征提取与识别方法
CN104463252A (zh) * 2014-12-18 2015-03-25 南京信息工程大学 一种基于自适应极限学习机的地基云分类方法
CN107169531A (zh) * 2017-06-14 2017-09-15 中国石油大学(华东) 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置
WO2017167046A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN108985151A (zh) * 2018-06-04 2018-12-11 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN110110864A (zh) * 2019-05-16 2019-08-09 河南师范大学 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法
CN111259784A (zh) * 2020-01-14 2020-06-09 西安理工大学 基于迁移学习和主动学习的sar图像变化检测方法
CN111310864A (zh) * 2020-03-30 2020-06-19 安徽工业大学 一种基于分组稀疏的多核学习图像分类方法
CN111414819A (zh) * 2020-03-10 2020-07-14 北京空间飞行器总体设计部 基于非平衡数据分类框架的火点智能检测和分类方法
CN111553336A (zh) * 2020-04-27 2020-08-18 西安电子科技大学 基于连体段的印刷体维吾尔文文档图像识别系统及方法
CN112699686A (zh) * 2021-01-05 2021-04-23 浙江诺诺网络科技有限公司 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112906666A (zh) * 2021-04-07 2021-06-04 中国农业大学 一种农业种植结构的遥感识别方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024152B (zh) * 2010-12-14 2013-01-30 浙江大学 一种基于稀疏表达和字典学习进行交通标志识别的方法
CN102855498B (zh) * 2011-07-01 2016-08-31 富士通株式会社 字符识别方法和装置
CN110222687B (zh) * 2013-06-03 2021-02-26 支付宝(中国)网络技术有限公司 复杂背景卡面信息识别方法及系统
US9336770B2 (en) * 2013-08-13 2016-05-10 Mitsubishi Electric Corporation Pattern recognition apparatus for creating multiple systems and combining the multiple systems to improve recognition performance and pattern recognition method
CN103761531B (zh) * 2014-01-20 2016-04-06 西安理工大学 基于形状轮廓特征的稀疏编码车牌字符识别方法
CN104408454B (zh) * 2014-06-30 2017-10-17 电子科技大学 基于弹性模板匹配算法的车牌字符分割方法
CN104239878B (zh) * 2014-08-30 2017-05-10 电子科技大学 一种基于概率极值搜索的车牌字符识别方法
CN105139036B (zh) * 2015-06-19 2018-10-19 四川大学 一种基于稀疏编码的手写体数字识别方法
WO2018039970A1 (zh) * 2016-08-31 2018-03-08 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
JP6545740B2 (ja) * 2017-03-08 2019-07-17 株式会社東芝 生成装置、プログラム、認識システムおよび生成方法
CN107396248A (zh) * 2017-09-18 2017-11-24 刘圣银 一种基于互联网的数字声控骨传导耳机系统
CN109871848B (zh) * 2017-12-01 2022-01-25 北京搜狗科技发展有限公司 一种移动终端的文字识别方法及装置
CN111818841A (zh) 2018-03-02 2020-10-23 兴和株式会社 图像分类方法、装置以及程序
CN108510000B (zh) * 2018-03-30 2021-06-15 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN109241904B (zh) * 2018-08-31 2023-10-20 平安科技(深圳)有限公司 文字识别模型训练、文字识别方法、装置、设备及介质
CN110930399A (zh) * 2019-12-10 2020-03-27 南京医科大学 基于支持向量机的tka术前临床分期智能评估方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251592A (ja) * 2001-02-22 2002-09-06 Toshiba Corp パターン認識辞書学習方法
JP2007521550A (ja) * 2003-06-30 2007-08-02 本田技研工業株式会社 顔認識システム及び方法
JP2009520305A (ja) * 2005-12-19 2009-05-21 マイクロソフト コーポレーション 手書きキャラクタ認識のための異書体に基づく筆者適応

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100461205C (zh) * 2007-01-08 2009-02-11 中国民航大学 基于高维空间凸锥构造的手写体文字识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002251592A (ja) * 2001-02-22 2002-09-06 Toshiba Corp パターン認識辞書学習方法
JP2007521550A (ja) * 2003-06-30 2007-08-02 本田技研工業株式会社 顔認識システム及び方法
JP2009520305A (ja) * 2005-12-19 2009-05-21 マイクロソフト コーポレーション 手書きキャラクタ認識のための異書体に基づく筆者適応

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833671A (zh) * 2010-03-30 2010-09-15 西安理工大学 一种基于支持向量机的表面肌电信号多类别模式识别方法
CN101872502A (zh) * 2010-05-21 2010-10-27 杭州电子科技大学 基于稀疏表示的硬币图像识别方法
CN102722736A (zh) * 2012-06-13 2012-10-10 合肥工业大学 复杂干扰下字符串的分割与识别方法
CN103824093A (zh) * 2014-03-19 2014-05-28 北京航空航天大学 一种基于kfda及svm的sar图像目标特征提取与识别方法
CN104463252A (zh) * 2014-12-18 2015-03-25 南京信息工程大学 一种基于自适应极限学习机的地基云分类方法
WO2017167046A1 (zh) * 2016-03-29 2017-10-05 阿里巴巴集团控股有限公司 一种字符识别方法和装置
US10872274B2 (en) 2016-03-29 2020-12-22 Alibaba Group Holding Limited Character recognition method and device
CN107169531B (zh) * 2017-06-14 2018-08-17 中国石油大学(华东) 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置
CN107169531A (zh) * 2017-06-14 2017-09-15 中国石油大学(华东) 一种基于拉普拉斯嵌入的图像分类词典学习方法和装置
CN108985151A (zh) * 2018-06-04 2018-12-11 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN108985151B (zh) * 2018-06-04 2023-04-07 平安科技(深圳)有限公司 手写模型训练方法、手写字识别方法、装置、设备及介质
CN110110864A (zh) * 2019-05-16 2019-08-09 河南师范大学 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法
CN110110864B (zh) * 2019-05-16 2022-09-27 河南师范大学 基于最小二乘支持向量机算法的在线预测码头疏港作业货车数量的方法
CN111259784A (zh) * 2020-01-14 2020-06-09 西安理工大学 基于迁移学习和主动学习的sar图像变化检测方法
CN111259784B (zh) * 2020-01-14 2023-02-07 西安理工大学 基于迁移学习和主动学习的sar图像变化检测方法
CN111414819A (zh) * 2020-03-10 2020-07-14 北京空间飞行器总体设计部 基于非平衡数据分类框架的火点智能检测和分类方法
CN111310864A (zh) * 2020-03-30 2020-06-19 安徽工业大学 一种基于分组稀疏的多核学习图像分类方法
CN111310864B (zh) * 2020-03-30 2023-04-18 安徽工业大学 一种基于分组稀疏的多核学习图像分类方法
CN111553336A (zh) * 2020-04-27 2020-08-18 西安电子科技大学 基于连体段的印刷体维吾尔文文档图像识别系统及方法
CN111553336B (zh) * 2020-04-27 2023-03-24 西安电子科技大学 基于连体段的印刷体维吾尔文文档图像识别系统及方法
CN112699686A (zh) * 2021-01-05 2021-04-23 浙江诺诺网络科技有限公司 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112699686B (zh) * 2021-01-05 2024-03-08 浙江诺诺网络科技有限公司 基于任务型对话系统的语义理解方法、装置、设备及介质
CN112906666A (zh) * 2021-04-07 2021-06-04 中国农业大学 一种农业种植结构的遥感识别方法

Also Published As

Publication number Publication date
JP5176773B2 (ja) 2013-04-03
CN101373519B (zh) 2011-01-19
CN101373519A (zh) 2009-02-25

Similar Documents

Publication Publication Date Title
JP5176773B2 (ja) 文字認識方法および文字認識装置
Borisyuk et al. Rosetta: Large scale system for text detection and recognition in images
Gönen et al. Multiple kernel learning algorithms
US11551034B2 (en) Adversarial network for transforming handwritten text
CN107004140B (zh) 文本识别方法和计算机程序产品
Lozano et al. Experimental study on prototype optimisation algorithms for prototype-based classification in vector spaces
Adankon et al. Semisupervised least squares support vector machine
Hoefel et al. Learning a two-stage SVM/CRF sequence classifier
US20200104635A1 (en) Invertible text embedding for lexicon-free offline handwriting recognition
Don et al. DCSVM: fast multi-class classification using support vector machines
Zhong et al. Sgbanet: Semantic gan and balanced attention network for arbitrarily oriented scene text recognition
Chychkarov et al. Handwritten Digits Recognition Using SVM, KNN, RF and Deep Learning Neural Networks.
Zhang et al. Large scale classification in deep neural network with label mapping
Sidaoui et al. Binary tree multi-class SVM based on OVA approach and variable neighbourhood search algorithm
Lamtougui et al. An efficient hybrid model for arabic text recognition
Xu et al. DHA: Supervised deep learning to hash with an adaptive loss function
Garg et al. Kernelized hashcode representations for relation extraction
Kumar et al. Bayesian background models for keyword spotting in handwritten documents
Retsinas et al. Iterative weighted transductive learning for handwriting recognition
US20230106141A1 (en) Dimensionality reduction model and method for training same
Kostinger et al. Joint learning of discriminative prototypes and large margin nearest neighbor classifiers
Rehman et al. Large scale font independent Urdu text recognition system
Retsinas et al. Deformation-invariant networks for handwritten text recognition
LeCun et al. Energy-based models
Yu et al. An efficient prototype-based model for handwritten text recognition with multi-loss fusion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110513

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121122

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121224

LAPS Cancellation because of no payment of annual fees