JP5834287B2

JP5834287B2 - パターン分類の学習装置

Info

Publication number: JP5834287B2
Application number: JP2011148142A
Authority: JP
Inventors: 秀行渡辺
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2011-07-04
Filing date: 2011-07-04
Publication date: 2015-12-16
Anticipated expiration: 2031-07-04
Also published as: JP2013016006A

Description

この発明は、何らかの測定データを所定のクラスのいずれかに分類するパターン分類の学習装置に関し、特に、ＬＧＭ‐ＭＣＥ（大幾何マージン最小分類誤り）学習を用い、より分類精度が高くなることが期待できる学習が行なえる学習装置に関する。

［パターン認識と学習］
人間と機械との間のインターフェイスにおいて、パターン認識は重要な技術である。パターン認識技術は、話者の識別、発話内容の認識、顔画像による人物の識別、及び文字認識等、様々な局面で使用される。パターン認識は、端的にいえば、何らかの物理現象を観測することにより得られる観測値のパターンを、複数個のクラスのいずれかに分類する作業である。こうした作業は人間には比較的簡単であるが、機械にさせるのは容易ではない。そうした作業を行なう装置は、包括的に呼べばパターン認識装置ということになる。パターン認識装置にパターン認識を行なわせるためには、学習データを統計的に処理することにより、分類に必要なパラメータを得る、学習と呼ばれる予備的な作業が必要とされる。

こうしたパターン分類のための学習方法として、非特許文献１に開示されたＬＧＭ−ＭＣＥ法と、非特許文献２に開示されたＭＣＥ法とがある。いずれの方法も、判別関数に基づく分類決定則を採用する。以下、それらについて説明する。

入力パターン（観測値）ｘ∈ΧをＪ個のクラス（類）Ｃ₁、…、Ｃ_Jのいずれか１つに割当てる分類タスクを考える。ここで、Χは全入力パターン空間を表す。ＬＧＭ−ＭＣＥ法（非特許文献１）は初期のＭＣＥ法（非特許文献２）と同様、判別関数に基づく以下の分類決定則を採用する。

ここでg_j(x;Λ)はクラスＣ_jに対する判別関数であり、ｘがクラスＣ_jに帰属する程度を表わす。Λは分類器の学習パラメータ（調整パラメータ）を表し、g_j(x;Λ)（j=1、…、J）はxとΛとに関して2階微分可能であるとする。

次に、上式の分類決定則により形成される分類決定境界に着目し、xを正しく分類される境界付近の学習標本として、xと境界とのユークリッド距離rを考える。このrは幾何マージンに他ならず、この値を大きくとることで、誤分類されやすい未知パターンの正確な分類の可能性が高まる。x∈Ｃ_yであるとして、非特許文献１の結果より、幾何マージンは次式で（一般には近似的に）表される。

ここでd_y(x;Λ)は初期のＭＣＥ法で定義される次式の誤分類尺度である（ψ＞０）。

なおψ→∞とすれば、d_y(x;Λ)は次式となる。

ここでＣ_iはｘに対するbest-incorrectクラスである。すなわち幾何マージンは、誤分類尺度の正負反転（関数マージンと呼ばれる。）をその勾配のノルムで正規化したものに近似的に等しい。

ＬＧＭ−ＭＣＥ学習法は、この幾何マージンの正負反転に対応する以下のＤ_y(x;Λ)を新たな誤分類尺度として採用する。

D_y(x;Λ)の正値は誤分類、負値は正分類に対応する。この性質は初期のＭＣＥ法における誤分類尺度d_y(x;Λ)と共通である。以降、従来の誤分類尺度d_y(x;Λ)及び新しい誤分類尺度D_y(x;Λ)をそれぞれ、関数マージン型誤分類尺度及び幾何マージン型誤分類尺度とよぶ。

Λの理想状態は、無限個の標本から成る次式の分類誤り数リスク（すべてのパターンに対する分類誤り確率）を最小にするものである。

ただしpは確率密度関数を表し、1（Ａ）は命題Ａが真なら1、偽ならOを返す指示関数である。したがって1(D_y(x;Λ)>0)は誤分類ならば1、正分類ならばOを返す分類誤り数損失を表す。この関数を図１のグラフ２２により示す。しかし分類誤り数損失はΛに関して微分不可能である。しかも現実的には有限個の学習用標本しか利用できない。そこでＬＧＭ−ＭＣＥ法は（初期のＭＣＥ法と同様に）、分類誤り数損失を平滑な（Λに関して微分可能な）ロジスティック関数に置き換え、有限学習標本に対するこの平均の最小化を行なう。ロジスティック関数を図２のグラフ３２により示す。x∈Ｃ_yに対する平滑化分類誤り数損失は次式で定義される(α_y＞０)。

ＬＧＭ−ＭＣＥ学習法が目指す最小化目標関数は、Ω_N＝｛x_n, y_n｝_n=1 ^NをＮ個の標本からなる教師付学習標本集合として、以下の式で示される経験的平均損失Ｌ（Λ）である。

上式のL(Λ)の最小化は、有限学習標本に対する分類誤り数の最小化を直接的に目指すだけでなく、図２に示されるように、損失_l_y(D_y)（文字の直前に付加されたアンダースコア”_“は、その文字が式中ではイタリック体で描かれていることを示す。）がD_yの単調増加関数であるが故に、D_yを負方向に大きく増加させる。これにより、D_yの正負反転、すなわち幾何マージン（図２におけるr）が増大することとなる。

有限個の学習標本のみから構成される上式のL(Λ)は、当然ながら、学習標本集合に含まれない全ての未知パターンをも含む分類誤り数リスクR(Λ)の近似にすぎず、L(Λ)を最小にするΛは一般にR(Λ)を最小にはしない。しかし、適度な有限値のα_y（式（７）を参照）を設定することにより、評価基準L(Λ)が平滑な関数となり、学習標本集合に含まれない未知パターンに対する学習耐性を向上させる。すなわち、この平滑化により、与えられた学習標本のみならずその近傍に対しても損失が敏感となり、学習標本数を増やす効果が得られる。

L(Λ)の最小化に関して、最急降下法などのバッチ的手法だけではなく、Ω_Nから１個の標本(x,y)を抽出する度にΛを調整する適応的な学習方法も広く用いられている。その方法におけるΛの調整機構は次式で与えられる。ただし_l^’ _yは損失関数_l_yの導関数であり、学習係数εは各繰返しステップで可変とする。

以上がＬＧＭ−ＭＣＥ法の概要である。

Ｈ．ワタナベ他、「幾何マージン制御を伴う最小誤り分類」、ＩＥＥＥＩＣＡＳＳＰ予稿集、ｐｐ．２１７０−２１７３、２０１０年３月（H. Watanabe et al.、 Minimum error classification with geometric margin control." in Proc. IEEE ICASSP、 pp. 2170-2173 Mar. 2010）Ｂ．‐Ｈ．ジュアン及びＳ．カタギリ、「最小誤り分類のための識別学習」ＩＥＥＥ信号処理トランザクション、第４０巻、第１２号、ｐｐ．３０４３‐３０５４、１９９２年１２月（B.‐H. Juang and S. Katagiri、 "Discriminative learning for minimum error classification、" IEEE Trans. Signal Processing、 vol.40、 no.12、 pp.3043‐3054、 Dec. 1992.）

従来実装されているＬＧＭ‐ＭＣＥ学習法における各クラスの間の境界は、線形関数により与えられる。すなわち、各クラスの間の境界は、２次元空間の場合には直線で、３次元の場合には平面で、４次元以上の場合にはその次元−１の超平面により規定される。

これは、判別関数として線形関数を用いているためである。実際に、線形関数を用いることにより学習のための処理は比較的単純であるという効果がある。しかし逆に、そのためにＬＧＭ−ＭＣＥ学習法は限定された分野にしか適用が難しいという問題がある。さらに、線形の判別関数を用いたＬＧＭ−ＭＣＥ学習法では、分類の精度を高めることが難しいという問題がある。

したがって本発明の目的は、ＬＧＭ‐ＭＣＥ学習によるパターン分類器の学習装置において、得られる分類器の精度をより高くすることができる学習装置を提供することである。

本発明の第１の局面に係る分類器の学習装置は、入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類する分類器の学習装置である。この装置は、Ｎ個（Ｎは正の整数）の教師付の入力パターンを含む学習標本集合を記憶するための学習標本記憶手段と、分類器の学習パラメータ集合Λを予め定めた設定方法により初期化するための初期化手段とを含む。クラスＣ_ｙに属する学習標本集合内の入力パターンｘが他のクラスに誤分類される度合いを測る幾何マージン型誤分類尺度値D_y(x;Λ)が以下により定義される。

ただしψは正の実数であり、g_y(x;Λ)はＪ個のクラスＣ_ｙの各々に対して、学習標本集合内の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、ｘと学習パラメータ集合Λとについて２階微分可能な任意の形の判別関数であり、d_y(x;Λ)は関数マージン型誤分類尺度と呼ばれる。

学習パラメータ集合Λに含まれるｋ個の変数を並べたベクトルλ＝［λ₁…λ_k］について、誤分類尺度値D_y(x;Λ)のベクトルλによる偏微分は、関数d_y(x;Λ)の勾配ベクトル∇_xd_yを用いて以下の式により与えられ、ただし上付きのＴは行列の転置を表す。

この学習装置はさらに、学習パラメータ集合Λに関する所定の最小化目標関数Ｌ（Λ）の値が、学習標本集合に対して最小となるように、誤分類尺度値D_y(x;Λ)の偏微分を用いて、学習パラメータ集合Λに含まれる各パラメータの値を適応的に調整するパラメータ調整手段を含む。

好ましくは、クラスＣ_j（ｊ＝１，…，Ｊ）に対する判別関数が、クラスＣ_jに属するＭ個のプロトタイプをp_j,1,...,p_j,M、各プロトタイプに対応する正定値行列をＡ_j,1，…，Ａ_j,Mとして、次式で与えられる。

ただし、p_j及びＡ_jは、クラスＣ_jに属するプロトタイプの中で、入力パターンｘとの間に次式で定められる距離Ｄｉｓｔａｎｃｅ

が最小となるプロトタイプの指標をm(j)として、p_j=p_j,m(j)、及びＡ_j=Ａ_j,m(j)である。関数マージン型誤分類尺度d_y(x;Λ)は、次式で与えられる。

幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は以下の式で与えられる。

より好ましくは、正定値行列Ａ_j,1，…，Ａ_j,Mは以下のような、正の対角成分を持つ対角行列である。

そして、パラメータa_j,1,...,a_j,Dは学習パラメータ集合Λに含まれ、幾何マージン型誤分類尺度D_y(x;Λ)の、パラメータa_y,d及びa_i,d（d=1,...,D）に関する偏微分は以下の式により表される。

より好ましくは、クラスＣ_j（j=1,...,J）に対する判別関数が以下で与えられてもよい。

ただしp_j,1,...,p_j,MはクラスＣ_jに属するＭ個のプロトタイプであり、w_j,m（m=1,...,M）は、ｍ番目のプロトタイプとのユークリッド距離に対する重みである。学習パラメータ集合Λ及び関数マージン型誤分類尺度d_y(x;Λ)は以下の式で与えられてもよい。

ただしクラスＣ_y及びＣ_iはそれぞれｘの正解クラス及びbest-incorrectクラスである。幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は以下の式により表される。

さらに好ましくは、分類器は、入力層、中間層及び出力層からなる３層フィードフォワード型ニューラルネットワーク分類器である。入力層はＤ＋１個のユニットを含む。中間層はＭ＋１個のユニットを含む。中間層のｍ番目（m=1,...,M）のユニットは入力層からの出力の重み付け総和に対して非線形関数ｆ_mを施して出力する。出力層は、Ｊ個のユニットを含む。各ｊ番目ユニット（j=1,...,J）は、中間層からの出力の重み付け総和をクラスＣ_jの判別関数g_jとして出力する。クラスＣ_j（j=1,...,J）に対する判別関数は以下で与えられる。

ここでw_m,d（m=1,...,M; d=0,1,...,D）は、入力層のｄ番目のユニットから中間層のｍ番目のユニットへの結合に対する重み付け係数、v_j,m（j=1,...,J; m=0,1,...,M）は中間層のｍ番目のユニットから出力層のｊ番目のユニットへの結合に対する重み付け係数である。学習パラメータ集合Λは、重み付け係数w_m,d（m=1,...,M; d=0,1,...,D）及びv_j,m（j=1,...,J; m=0,1,...,M）を含む。幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は以下の式である。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの分類器の学習装置の各手段として機能させる。

ＬＧＭ‐ＭＣＥ学習法における分類誤り数損失関数のグラフである。ＬＧＭ‐ＭＣＥ学習法におけるロジスティックシグモイド関数による平滑化分類誤り数損失関数のグラフである。本発明の１実施の形態に係る分類器を用いる文字認識システムのブロック図である。本発明の第１の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。本発明の第１の実施の形態の変形例により分類器の学習を行なうためのプログラムのフローチャートである。本発明の第２の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。本発明の第３の実施の形態のシステムで用いられるニューラルネットワークの構成を模式的に示す図である。本発明の第３の実施の形態により分類器の学習を行なうためのプログラムのフローチャートである。本発明の実施の形態を実現する汎用のコンピュータシステムのハードウェア外観を示す図である。図９に示すコンピュータシステムの内部構造のブロック図である。

以下、本発明の実施の形態を説明する。以下の説明及び図面において、同一の構成要素には同一の参照番号を付してある。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。

以下の実施の形態では、判別関数として非線形関数を用いる。非線形関数を用いることにより、概念的には、４次元以上の標本空間では分類境界が超曲面となり、分類精度をより高めることが期待できる。

［偏微分計算］
上記したように判別関数として非線形関数を採用する場合、特に多次元空間の場合には偏微分計算が難しいという問題がある。以下、非線形の判別関数に対する幾何マージン型誤分類尺度D_y(x;Λ)の偏微分計算について一般的に論じる。

一般形の判別関数に対するＬＧＭ−ＭＣＥ学習を式（９）に従って実行するために、クラスＣ_yに属するＤ次元入力パターンを
ｘ＝［ｘ_１…ｘ_Ｄ］^Ｔ
として、式（９）に含まれる非線形の幾何マージン型誤分類尺度D_y(x;Λ)の変微分∇_ΛD_y(x;Λ)を以下で導出する。ただし、上付きＴは行列の転置を表す。

まずＡ＝||∇_xd_y(x;Λ)||²とおく。このとき、１／||∇_xd_y(x;Λ)||＝Ａ^-1/2。Λに含まれるある１変数λでD_y(x;Λ)を偏微分すると、以下となる。

さらにＡをλで偏微分すると以下となる。

これを式（１０）に代入して以下を得る。

またΛに含まれるｋ個の変数を並べたベクトルλ＝［λ₁…λ_k］^Tに関しては、式（１１）より、偏微分ベクトルは以下の式により表される。

なお、式（１４）の左辺は勾配ベクトル∇_xd_yのヤコビ行列である。

結局、式（１０）及び（１３）から、幾何マージン型誤分類尺度D_y(x;Λ)のベクトル値変数に対する偏微分は以下で与えられる。

［ＬＧＭ−ＭＣＥ学習法の２次判別関数型分類器への適用］
《判別関数及び幾何マージン型誤分類尺度の偏微分》
クラスＣ_j（j=1,…,J）に対する判別関数は、クラスＣ_jに属するＭ個のプロトタイプをp_j,1，…，p_j,M、各プロトタイプに対応する正定値行列をＡ_j,i，…，Ａ_j,Mとして、次式で与えられる。

式（１６）におけるp_j及びＡ_jは、クラスＣ_jに属するプロトタイプの中でxに対する次式の意味での距離Distanceの最小値を与えるプロトタイプの指標をm(j)として、p_j=p_j,m(j)及びＡ_j=Ａ_j,m(j)としている。

また、Ａ_j,1=…=Ａ_j,M=Ａ_jとしてもよい。Ａ_j,mの具体的な形は問わないが、例えばクラスＣ_jにおけるｍ番目クラスタ（K-means法等で求められる。）に属する学習標本集合の共分散行列の逆行列として与えればよく、あるいは、Ａ_j,mは、同じクラスタに属する学習標本集合の対角型共分散行列の逆行列として与えればよい。関数マージン型誤分類尺度は次式で与えられる。

ただしＣ_y及びＣ_iはそれぞれｘの正解クラス及びbest-incorrectクラスである。このとき、関数マージン型誤分類尺度の微分は以下のとおりとなる。

幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は式（１５）より次式となる。

《第１の実施の形態：システムの構成》
図３を参照して、本実施の形態に係る分類器を用いた一例としての文字認識システム４０は、教師付標本データによる学習を行なうことにより、文字画像データを文字カテゴリに分類するための分類器８０と、教師文字カテゴリが付されたデジタルの文字データを使用した学習により、分類器８０の学習を行なうための学習ユニット５０と、文字画像を入力するタッチパネル５２と、タッチパネル５２の出力する信号を、学習ユニット５０による学習が行なわれた分類器８０を用いて文字カテゴリ５６として出力する文字認識ユニット５４とを含む。

学習ユニット５０は、教師文字カテゴリ付の文字画像データを記憶する記憶部７０と、記憶部７０から、所定の文字特徴量（位置情報、統計的モーメント、エッジカウントなど）を計算により抽出するための文字特徴量抽出モジュール７４と、文字特徴量抽出モジュール７４の出力する教師データを学習用標本データとして記憶する学習データ記憶部７６と、学習データ記憶部７６に記憶された学習用標本データを用い、後述する学習方法により分類器８０の学習を行なう学習モジュール７８とを含む。なお、以下の説明では、文字特徴量はベクトルで表されるものとする。すなわち、文字特徴量ベクトルをｘ、教師データとしての文字カテゴリをｙとすると、標本データの各々は（x,y）という形式で表すことができる。

文字認識ユニット５４は、タッチパネル５２の出力信号をデジタル信号に変換する２値化処理部９０と、２値化処理部９０の出力する信号について、文字特徴量抽出モジュール７４と同じ方法により文字特徴量を抽出して出力する文字特徴量抽出モジュール９４と、文字特徴量抽出モジュール９４の出力する一連の文字特徴量に対して分類器８０を適用し、出力文字カテゴリ５６を出力するデコーダ９６とを含む。

《学習アルゴリズム》
以下、本実施の形態においてパラメータの学習を行なうためのアルゴリズムについて、図４を参照して説明する。図４を参照して、このアルゴリズムを実現するプログラムは、以下のステップを含む。

１．初期化ステップ１２０。ここでは、プロトタイプp_j,mの初期値p_j,m ⁽⁰⁾及び正定値行列Ａ_j,mを設定する（j=1,...,J; m=1,...,M）。またエポック回数eの上限値Eを設定する。

２．エポック回数e=0,1,...,Eに対して、以下の各サブステップ（ａ）〜（ｃ）を含む処理１２４を実行するステップ１２２。

（ａ）サブステップ１４０。ここでは、必要ならば、損失平滑度パラメータの最適値α_y（y=1,...,J）を得る。損失平滑度パラメータα_yの値としては、経験的に求めたものでもよいが、本願発明者が先に出願した特願２０１０−１８４３３４号に記載した、損失関数平滑度自動設定法を用いて決定した損失平滑度パラメータα_yを用いるとより好ましい。

（ｂ）サブステップ１４２。ここでは、学習標本集合Ω_Nから、教師付学習標本（x,y）を取出し、各学習標本に対して以下のサブステップ１６０〜１７４を含む処理１４４を実行する。

（ｂ１）以下の手順にしたがい、判別関数値g_jを計算する（j=1,...,J）（サブステップ１６０）。

（ｂ２）ｘに対するbest-incorrectクラスの指標iを求める（サブステップ１６２）。

（ｂ３）関数マージン型誤分類尺度をd_y=-g_y+g_iによって計算する（サブステップ１６４）。

（ｂ４）関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する（ステップ１６６）。

（ｂ５）勾配ベクトルのノルム||∇_xd_y||を計算する（サブステップ１６８）。

（ｂ６）幾何マージン型誤分類尺度D_y(x;Λ)をD_y=d_y/||∇_xd_y||により計算する（サブステップ１７０）。

（ｂ７）幾何マージン型誤分類尺度D_y(x;Λ)の偏微分を以下により計算する（サブステップ１７２）。

（ｂ８）以下の式によりパラメータ更新を行なう（サブステップ１７４）。

以上のサブステップ（ｂ１）〜（ｂ８）が処理１４４の内容である。処理１４４を各学習標本に対して順番に１回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプp_j,m ^(e+1)（j=1,...,J; m=1,...,M）を得る。

（ｃ）ステップ１４６。ここでは、学習標本集合Ω_Nにおける学習標本の並び順をシャッフルする。

以上のステップ（ａ）〜（ｃ）が処理１２４の内容である。エポックeに対して処理１２４を行なった後、エポックを１進め（e=e+1）、同じ処理を繰返す。

こうして、エポック数が予定した上限値Ｅに達して処理１２４が終了すると、分類器８０の学習後のパラメータ集合Λが得られる。

《第１の実施の形態の変形例》
さらに、プロトタイプ｛p_j,m｝のみならず、Ａ_jを対角行列として、その正の対角成分を学習してもよい。ここでは

として、a_j,d（d=1,...,D）を調整する。関数マージン型誤分類尺度の各a_y,d、a_i,d（d=1,...,D）に関する偏微分は以下のようになる。

ただしp_j=[p_j,1…p_j,D]^Tとしている。d_yの２階変微分は

となる。ただしδ_i,j=１（if i=j）、０（if i≠j）。幾何マージン型誤分類尺度D_yの各a_y,d、a_i,d（d=1,...,D）に関する偏微分は、式（１２）より次式となる。

なお、式（９）における学習係数εに関して、p_j,mの修正に対するεとa_j,dの修正に対するεとは互いに異なる値であってもよい。

《変形例の学習プログラム》
図５を参照して、上記第１の実施の形態の変形例のアルゴリズムを実現するプログラムは以下のようなステップを含む。

１．初期化ステップ２２０。ここでは、プロトタイプp_j,mの初期値p_j,m ⁽⁰⁾（j=1,...,J; m=1,...,M）及び正定値行列Ａ_jに対応する変数の初期値a_j,d ⁽⁰⁾（j=1,...,J; d=1,...,D）を設定する。またエポック回数eの上限値Eを設定する。

２．エポック回数e=0,1,...,Eに対して、以下の各サブステップ（ａ）〜（ｃ）を含む処理２２４を実行するステップ２２２。

（ａ）サブステップ２４０。ここでは、必要ならば、損失平滑度パラメータの最適値α_y（y=1,...,J）を得る。

（ｂ）サブステップ２４２。ここでは、学習標本集合Ω_Nから、教師付学習標本（x,y）を取出し、各学習標本に対して以下のサブステップ２６０〜２７４を含む処理２４４を実行する。なお、変数の右肩の「（e）」は、エポック番号を表す。

（ｂ１）以下の手順にしたがい、判別関数値g_jを計算する（j=1,...,J）（サブステップ２６０）。

（ｂ２）ｘに対するbest-incorrectクラスの指標iを求める（サブステップ２６２）。

（ｂ３）関数マージン型誤分類尺度をd_y=-g_y+g_iによって計算する（サブステップ２６４）。

（ｂ４）関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する（ステップ２６６）。

（ｂ５）勾配ベクトルのノルム||∇_xd_y||を計算する（サブステップ２６８）。

（ｂ６）幾何マージン型誤分類尺度D_y(x;Λ)をD_y=d_y/||∇_xd_y||により計算する（サブステップ２７０）。

（ｂ７）幾何マージン型誤分類尺度D_y(x;Λ)の偏微分を以下により計算する（サブステップ２７２）。

（ｂ８）以下の式によりパラメータ更新を行なう（サブステップ２７４）。

以上のサブステップ（ｂ１）〜（ｂ８）が処理２４４の内容である。処理２４４を各学習標本に対して順番に１回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプp_j,m ^(e+1)（j=1,...,J; m=1,...,M）及び行列パラメータa_j,d ^(e+1)（j=1,...,J; d=1,...,D）を得る。

（ｃ）ステップ２４６。ここでは、学習標本集合Ω_Nにおける学習標本の並び順をシャッフルする。

以上のステップ（ａ）〜（ｃ）が処理２２４の内容である。エポックeに対して処理２２４を行なった後、エポックを１進め（e=e+1）、同じ処理を繰返す。

こうして、エポック数が予定した上限値Ｅに達して処理２２４が終了すると、この変形例に係る分類器８０の学習後のパラメータ集合Λが得られる。

［第２の実施の形態：重み付きプロトタイプ型分類器］
非線形の判別関数を用いた例として、重み付きプロトタイプ型の分類器を考える。この場合も第１の実施の形態と同様、以下のようにして分類器の学習を行なうことができる。

《判別関数及び幾何マージン型分類尺度の偏微分》
クラスＣ_j（j=1,...,J）に対する判別関数は次式で与えられる。

ここでp_j,1,...,p_j,MはクラスＣ_jに属するＭ個のプロトタイプであり、w_j,m（m=1,...,M）はｍ番目のプロトタイプとのユークリッド距離に対する重みである。学習パラメータ集合Λ及び関数マージン型誤分類尺度は以下で与えられる。

ただし、クラスＣ_y及びＣ_iはそれぞれｘの正解クラス及びbest-incorrectクラスである。このとき、

となり（ただしＩは単位行列）、幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は式（１５）より次式となる。

なお、式（９）における学習係数εに関して、p_j,mの修正に対するεとw_j,mの修正に対するεとは互いに異なる値であってもよい。

《第２の実施の形態の学習プログラム》
図６を参照して、上記第２の実施の形態のアルゴリズムを実現するプログラムは以下のようなステップを含む。

１．初期化ステップ３２０。ここでは、プロトタイプp_j,mの初期値p_j,m ⁽⁰⁾（j=1,...,J; m=1,...,M）及び重み係数w_j,mの初期値w_j,m ⁽⁰⁾（j=1,...,J; m=1,...,M）を設定する。またエポック回数eの上限値Eを設定する。

２．ステップ３２２。ここでは、エポック回数e=0,1,...,Eに対して、以下の各サブステップ（ａ）〜（ｃ）を含む処理３２４を実行する。以下は処理３２４を構成する各サブステップである。

（ａ）サブステップ３４０。ここでは、必要ならば、損失平滑度パラメータの最適値α_y（y=1,...,J）を得る。

（ｂ）サブステップ３４２。ここでは、学習標本集合Ω_Nから、教師付学習標本（x,y）を取出し、各学習標本に対して以下のサブステップ３６０〜３７４を含む処理３４４を実行する。なお、変数の右肩の「（e）」は、エポック番号を表す。以下の（ｂ１）〜（ｂ８）は処理３４４を構成するサブステップである。

（ｂ１）判別関数値g_jを計算する（j=1,...,J）（サブステップ３６０）。

（ｂ２）ｘに対するbest-incorrectクラスの指標iを求める（サブステップ３６２）。

（ｂ３）関数マージン型誤分類尺度をd_y=-g_y+g_iによって計算する（サブステップ３６４）。

（ｂ４）関数マージン型誤分類尺度の入力パターンに対する勾配ベクトルを計算する（ステップ３６６）。

（ｂ５）勾配ベクトルのノルム||∇_xd_y||を計算する（サブステップ３６８）。

（ｂ６）幾何マージン型誤分類尺度D_y(x;Λ)をD_y=d_y/||∇_xd_y||により計算する（サブステップ３７０）。

（ｂ７）幾何マージン型誤分類尺度D_y(x;Λ)の偏微分を以下により計算する（m=1,...,M）（サブステップ３７２）。

（ｂ８）以下の式によりパラメータ更新を行なう（m=1,...,M）（サブステップ３７４）。

以上のサブステップ（ｂ１）〜（ｂ８）が処理３４４の内容である。処理３４４を各学習標本に対して順番に１回ずつ実行し、全標本に対する調整が終了した時点で、新たなプロトタイプp_j,m ^(e+1)（j=1,...,J; m=1,...,M）及び重み係数w_j,m ^(e+1)（j=1,...,J; m=1,...,M）を得る。

（ｃ）ステップ３４６。ここでは、学習標本集合Ω_Nにおける学習標本の並び順をシャッフルする。

以上が処理３２４の内容である。エポックeに対して処理３２４を行なった後、エポックを１進め（e=e+1）、同じ処理を繰返す。

こうして、エポック数が予定した上限値Ｅに達して処理３２４が終了すると、この第２の実施の形態に係る分類器８０の学習後のパラメータ集合Λが得られる。

［第３の実施の形態：３層フィードフォワード型ニューラルネットワーク分類器］
非線形の判別関数を用いた例として、フィードフォワード型のニューラルネットワークからなる分類器を考える。この場合も第１及び第２の実施の形態と同様、以下のようにして分類器の学習を行なうことができる。

《判別関数及び幾何マージン型分類尺度の偏微分》
３層フィードフォワード型ニューラルネットワーク分類器４００を図７に示す。このニューラルネットワーク分類器４００は、入力層４１２と、中間層４１４と、出力層４１６とを含む。

入力層４１２は、Ｄ＋１個のユニット（d=0,1,...,D）を含む。０番目ユニットは値１を、それ以外のユニットはＤ次元入力パターンｘの各成分を受取り、そのまま出力する。

中間層４１４は、Ｍ＋１個のユニット（m=0,1,...,M）を含む。０番目ユニットは入力に何も受けず、値１を出力する。それ以外のｍ番目ユニット(m=1,...,M)は、入力層４１２からの出力の重み付け総和に対して非線形関数ｆ_ｍを施し、その結果を出力する。

出力層４１６はＪ個のユニット（j=1,...,J）を含む。各j番目のユニット（j=1,...,J）は、中間層４１４からの出力の重み付け総和をクラスＣ_jの判別関数g_jとして出力する。

なお、ＭＣＥ学習に基づく実装では、出力層のユニットには非線形関数処理は施されない。

クラスＣ_j（j=1,...,J）に対する判別関数は次の式で与えられる。

ここでw_m,d（m=1,...,M; d=0,1,...,D）は入力層４１２から中間層４１４への結合に対する重み係数であり、v_j,m（j=1,...,J; m=0,1,...M）は中間層４１４から出力層４１６への結合に対する重み係数である。学習パラメータ集合Λは上記すべての重み係数の集合である。非線形関数ｆ_ｍは任意の微分可能な関数でよいが、ここでは次式のシグモイド関数を採用する。

ｋ番目クラスＣ_k（k=1,...,J）の判別関数の各重み係数に関する偏微分は次式となる。

またｋ番目クラス（k=1,...,J）の判別関数の第ｐ次元目の入力に関する偏微分は次式となる。

さらに、ｋ番目クラス（k=1,...,J）の判別関数に対する２階微分が次式で与えられる。

ここで式（５１）のシグモイド非線形関数の場合、その１階及び２階の導関数はそれぞれ次式となる。

以上に基づき、関数マージン型誤分類尺度d_y=-g_y+g_iの１階及び２階の偏微分は次式で与えられることとなる。ただしクラスＣ_y及びクラスＣ_iはそれぞれ、ベクトルｘの正解クラス及びbest-incorrectクラスである。

そして幾何マージン型誤分類尺度D_y(x;Λ)及びその偏微分は式（１２）より次式となる。

なお、式（９）における学習係数εに関して、v_j,mの修正に対するεとw_m,dの修正に対するεとは互いに異なる値であってもよい。

《第３の実施の形態の学習プログラム》
図８を参照して、上記第３の実施の形態のアルゴリズムを実現するプログラムは以下のようなステップを含む。

１．初期化ステップ４４０。重み係数｛v_j,m｝_j=1 ^Ｊ _m=0 ^M、｛w_m,d｝_m=1 ^M _d=0 ^Dの初期値｛v_j,m ⁽⁰⁾｝_j=1 ^Ｊ _m=0 ^M、｛w_m,d ⁽⁰⁾｝_m=1 ^M _d=0 ^Dを設定する。またエポック回数eの上限値Eを設定する。

２．ステップ４４２。ここでは、エポック回数e=0,1,...,Eに対して、以下の各サブステップを含む処理４４４を実行する。以下は処理４４４を構成する各サブステップである。

（ａ）サブステップ４６０。ここでは、必要ならば、損失平滑度パラメータの最適値α_y（y=1,...,J）を得る。

（ｂ）サブステップ４６２。ここでは、学習標本集合Ω_Nから、教師付学習標本（x,y）を取出し、各学習標本に対して以下のサブステップ４８０〜５０２を含む処理４６４を実行する。なお、変数の右肩の「（e）」は、エポック番号を表す。以下の（ｂ１）〜（ｂ１２）は処理４６４を構成するサブステップである。

（ｂ１）中間層４１４への入力値を計算する（m=1,...,M）（ステップ４８０）。

（ｂ２）判別関数値g_jを計算する（j=1,...,J）（サブステップ４８２）。

ただしf_mは例えば式（５１）で与えられる。

（ｂ３）ｘに対するbest-incorrectクラスの指標iを求める（サブステップ４８４）。

（ｂ４）判別関数の偏微分を計算する（k=y,i）（サブステップ４８６）。

ただしf’_mは例えば式（６１）で与えられる。

（ｂ５）判別関数の入力に関する偏微分を計算する（k=y,i）（ステップ４８８）。

（ｂ６）判別関数に対する２階偏微分を計算する（k=y,i）（ステップ４９０）。

ただしf’’_mは例えば式（６２）で与えられる。

（ｂ７）関数マージン型誤分類尺度をd_y=-g_y+g_iにより計算する（ステップ４９２）。

（ｂ８）関数マージン型誤分類尺度の１階及び２階偏微分を次式で計算する（サブステップ４９４）。

（ｂ９）勾配ベクトルのノルム||∇_xd_y||を計算する（サブステップ４９６）。

（ｂ１０）幾何マージン型誤分類尺度D_y(x;Λ)をD_y=d_y/||∇_xd_y||により計算する（サブステップ４９８）。

（ｂ１１）幾何マージン型誤分類尺度D_y(x;Λ)の偏微分を以下により計算する（サブステップ５００）。

（ｂ１２）以下の式によりパラメータ更新を行なう（サブステップ５０２）。

以上のサブステップ（ｂ１）〜（ｂ１２）が処理４６４の内容である。処理４６４を各学習標本に対して順番に１回ずつ実行し、全標本に対する調整が終了した時点で、新たな｛v_j,m ^(e+1)｝_j=1 ^Ｊ _m=0 ^M、｛w_m,d ^(e+1)｝_m=1 ^M _d=0 ^Dを得る。

（ｃ）ステップ４６６。ここでは、学習標本集合Ω_Nにおける学習標本の並び順をシャッフルする。

以上が処理４４４の内容である。エポックeに対して処理４４４を行なった後、エポックを１進め（e=e+1）、同じ処理を繰返す。

こうして、エポック数が予定した上限値Ｅに達して処理４４４が終了すると、この第３の実施の形態に係る分類器８０の学習後のパラメータ集合Λが得られる。

［実験結果］
上記実施の形態に係るＬＧＭ−ＭＣＥ学習法による非線形判別関数分類器の有用性を検証するため、非線形判別関数として2次判別関数を採用し、関数マージン型誤分類尺度を用いる従来のＭＣＥ学習法(ＦＭ−ＭＣＥ法)と幾何マージン型誤分類尺度を用いるＬＧＭ−ＭＣＥ法との比較を行なった。

クラスＣ_jにおける２次判別関数は式（１６）で与えられ、本実験ではＡ_j,1＝…＝Ａ_j,M＝Ａ_jとし、行列Ａ_jとしてクラスＣ_jに属する学習標本集合の対角共分散行列の逆行列に固定した。ＦＭ−ＭＣＥ及びＬＧＭ−ＭＣＥ両法で学習されるのはプロトタイプ｛p_j,m｝_j=1 ^J _m=1 ^Mであり、これらの初期化としてK-means法を用いた。更に、ユークリッド距離判別関数型の分類器にＦＭ−ＭＣＥ及びＬＧＭ−ＭＣＥ両法を適用した実験も行なった。ユークリッド距離判別関数は（区分的）線形判別関数の代表例であり、式（１６）においてＡ_jを単位行列に固定したものとして与えられる。

実験にはUCI Machine Learning Repository（http://archive.ics.uci.edu/ml/）が提供するLetter Recognitionデータセットを用いた。このデータセットは、英語アルファベットのフォント文字画像から特徴抽出された20,000個のデータで構成される、26クラス、16次元のデータセットである。このデータは標本数が多いため、評価方法としてデータセットを分割するHoldout法を用いた。20,000個の標本集合のうち1,000個を学習用標本集合、他の19,000個を未知標本集合とした。

テーブル１は、各判別関数及び各学習手法の未知分類標本率（％）を示したものである。カッコ内は学習標本分類率である。プロトタイプ数が1の場合、ＦＭ−ＭＣＥ及びＬＧＭ−ＭＣＥ両法とも、２次判別関数型分類器の方がユークリッド距離型より分類率が高く、更に２次判別関数型分類器において、ＬＧＭ−ＭＣＥ法がＦＭ−ＭＣＥ法より高い分類率を与えている。プロトタイプ数が３の場合は、未知標本分類率において、ＦＭ−ＭＣＥ及びＬＧＭ−ＭＣＥ両法とも、２次判別関数型分類器の方がユークリッド距離型より分類率が高く、更に２次判別関数型分類器において、ＬＧＭ−ＭＣＥ法がＦＭ−ＭＣＥ法より高い分類率を与えている。以上により、線形判別関数のみならず２次判別関数においても、ＬＧＭ−ＭＣＥ学習法が従来のＦＭ−ＭＣＥ法より高い分類精度を与えることが確認された。

［コンピュータによる実現］
以上に説明した実施の形態に係る分類器の学習装置は、汎用コンピュータ及びその上で実行されるコンピュータプログラムにより実現することができる。図９は上記実施の形態で用いられるコンピュータシステム５５０の外観を示し、図１０はコンピュータシステム５５０のブロック図である。ここで示すコンピュータシステム５５０は単なる例であって、他の構成も利用可能である。このコンピュータプログラムのうち、コアとなる部分は、図４〜図６及び図８のフローチャートにより示される制御構造を有する。

図９を参照して、コンピュータシステム５５０は、コンピュータ５６０と、全てコンピュータ５６０に接続された、モニタ５６２と、キーボード５６６と、マウス５６８と、スピーカ５５８と、マイクロフォン５９０と、を含む。さらに、コンピュータ５６０はＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄ−Ｏｎｌｙ−Ｍｅｍｏｒｙ：デジタル多用途ディスク読出専用メモリ）ドライブ５７０と、半導体メモリポート５７２とを含む。

図１０を参照して、コンピュータ５６０はさらに、ＤＶＤ−ＲＯＭドライブ５７０と半導体メモリドライブ５７２とに接続されたバス５８６と、全てバス５８６に接続された、ＣＰＵ５７６と、コンピュータ５６０のブートアッププログラムを記憶するＲＯＭ５７８と、ＣＰＵ５７６によって使用される作業領域を提供するとともにＣＰＵ５７６によって実行されるプログラムのための記憶領域となるＲＡＭ５８０と、学習データ等を記憶するためのハードディスクドライブ５７４と、ネットワーク５５２への接続を提供するネットワークインターフェイス５９６とを含む。

上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ５８２又は半導体メモリ５８４等のコンピュータ読取可能な記録媒体に記録されたオブジェクトコード、スクリプト、又はソースプログラムの形で流通し、ＤＶＤ−ＲＯＭドライブ５７０又は半導体メモリポート５７２等の読出装置を介してコンピュータ５６０に提供され、ハードディスクドライブ５７４に記憶される。ソースプログラムでコンピュータ５６０に導入されるときには、所定のコンパイラでコンパイルしてオブジェクトコードを生成する必要がある。ＣＰＵ５７６がプログラムを実行する際には、オブジェクトプログラム（又はスクリプト）はハードディスクドライブ５７４から読出されてＲＡＭ５８０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。ＣＰＵ５７６はハードディスクドライブ５７４又はＲＡＭ５８０から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ５７４又はＲＡＭ５８０に記憶する。スピーカ５５８及びマイクロフォン５９０は、本実施の形態では用いられないが、本発明は音声認識及び話者認識にも適用可能であり、そうした場合にはこれらは音声についての学習データを準備するときに必要となる。マイクロフォン５９０はまた、このコンピュータ上で音声認識を行なうときには、処理対象の音声を入力するための入力装置としても機能する。

学習用データは、予め収集され、入力パターンとそのパターンの属するクラスとの組を多数含む。これは、図３に示すシステムでは、各文字画像から抽出した文字特徴量と、その文字画像に対応する文字カテゴリである。学習用データは、ハードディスクドライブ５７４（図３に示す記憶部７０及び学習データ記憶部７６）に記憶される。上記した処理により算出される分類用のパラメータセットΛ等は、一旦はハードディスクドライブ５７４等に記憶され、さらにネットワークを介して、又はＵＳＢメモリを介して、分類器にコピーされる。分類器はこれらクラス分類用のパラメータセットΛを用いて入力パターンをいずれかのクラスに分類する。

コンピュータシステム５５０の一般的動作は周知であるので、詳細な説明はここでは繰返さない。

ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくても良い。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されても良い。ソフトウェアの一部がハードディスクドライブ５７４に記憶され、ソフトウェアの残りの部分をネットワーク上からハードディスクドライブ５７４に取込み、実行の際に統合する様にしても良い。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される一般的な機能、及びスクリプト言語を使用する場合にはスクリプト言語の実行系により提供される一般的又は特定の目的に沿った機能を利用し、所望の目的にしたがって制御された態様で機能を達成する。したがって、ＯＳ又はサードパーティから提供されうる一般的な機能を含まず、そのように他のシステムにより提供される機能の実行順序の組合せを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

４０文字認識システム
５０学習ユニット
５４文字認識ユニット
５６出力文字カテゴリ
７６学習データ記憶部
７８学習モジュール
８０分類器
９６デコーダ
４００ニューラルネットワーク分類器
４１２入力層
４１４中間層
４１６出力層
５５０コンピュータシステム
５６０コンピュータ

Claims

入力パターンをＪ個のクラスＣ_ｊ（ｊは１〜Ｊの整数）のいずれかに分類する分類器の学習装置であって、
Ｎ個（Ｎは正の整数）の教師付の入力パターンを含む学習標本集合を記憶するための学習標本記憶手段と、
前記分類器の学習パラメータ集合Λを予め定めた設定方法により初期化するための初期化手段とを含み、
クラスＣ_ｙに属する学習標本集合内の入力パターンｘが他のクラスに誤分類される度合いを測る幾何マージン型誤分類尺度値D_y(x;Λ)が以下により定義され、
ただしψは正の実数であり、g_y(x;Λ)は前記Ｊ個のクラスＣ_ｙの各々に対して、学習標本集合内の入力パターンｘが当該クラスに属するか否かの度合いを判別するための、ｘと学習パラメータ集合Λとについて２階微分可能な任意の形の判別関数であり、d_y(x;Λ)は関数マージン型誤分類尺度と呼ばれ、
前記学習パラメータ集合Λに含まれるｋ個の変数を並べたベクトルλ＝［λ₁…λ_k］について、誤分類尺度値D_y(x;Λ)のベクトルλによる偏微分は、関数d_y(x;Λ)の勾配ベクトル∇_xd_yを用いて以下の式により与えられ、ただし上付きのＴは行列の転置を表し、
さらに、前記学習パラメータ集合Λに関する所定の最小化目標関数Ｌ（Λ）の値が、前記学習標本集合に対して最小となるように、前記誤分類尺度値D_y (x;Λ)の偏微分を用いて、前記学習パラメータ集合Λに含まれる各パラメータの値を適応的に調整するパラメータ調整手段を含む、分類器の学習装置。
クラスＣ_j（ｊ＝１，…，Ｊ）に対する判別関数が、クラスＣ_jに属するＭ個のプロトタイプをp_j,1,...,p_j,M、各プロトタイプに対応する正定値行列をＡ_j,1，…，Ａ_j,Mとして、次式で与えられ、
ただし、p_j及びＡ_jは、クラスＣ_jに属するプロトタイプの中で、入力パターンｘとの間に次式で定められる距離Ｄｉｓｔａｎｃｅ
が最小となるプロトタイプの指標をm(j)として、p_j=p_j,m(j)、及びＡ_j=Ａ_j,m(j)であり、
関数マージン型誤分類尺度d_y(x;Λ)は、次式で与えられ
幾何マージン型誤分類尺度D_y (x;Λ)及びその偏微分は以下の式で与えられる、請求項１に記載の分類器の学習装置。
前記正定値行列Ａ_j,1，…，Ａ_j,Mは以下のような、正の対角成分を持つ対角行列であり、
パラメータa_j,1,...,a_j,Dは前記学習パラメータ集合Λに含まれ
前記幾何マージン型誤分類尺度D_y(x;Λ)の、パラメータa_y,d及びa_i,d（d=1,...,D）に関する偏微分は以下の式により表される、請求項２に記載の分類器の学習装置。
クラスＣ_j（j=1,...,J）に対する判別関数が以下で与えられ、
ただしp_j,1,...,p_j,MはクラスＣ_jに属するＭ個のプロトタイプであり、w_j,m（m=1,...,M）は、ｍ番目のプロトタイプとのユークリッド距離に対する重みであり、
前記学習パラメータ集合Λ及び関数マージン型誤分類尺度d_y(x;Λ)は以下の式で与えられ
ただしクラスＣ_y及びＣ_iはそれぞれｘの正解クラス及びbest-incorrectクラスであり、
前記幾何マージン型誤分類尺度及びその偏微分は以下の式により表される、請求項１に記載の分類器の学習装置。
前記分類器は、入力層、中間層及び出力層からなる３層フィードフォワード型ニューラルネットワーク分類器であり、
前記入力層はＤ＋１個のユニットを含み、
前記中間層はＭ＋１個のユニットを含み、前記中間層のｍ番目（m=1,...,M）のユニットは前記入力層からの出力の重み付け総和に対して非線形関数ｆ_ｍを施して出力し、
前記出力層は、Ｊ個のユニットを含み、
各ｊ番目ユニット（j=1,...,J）は、中間層からの出力の重み付け総和をクラスＣ_jの判別関数g_jとして出力するものであり、
クラスＣ_j（j=1,...,J）に対する判別関数は以下で与えられ、
ここでw_m,d（m=1,...,M; d=0,1,...,D）は、入力層のｄ番目のユニットから中間層のｍ番目のユニットへの結合に対する重み付け係数、v_j,m（j=1,...,J; m=0,1,...,M）は中間層のｍ番目のユニットから出力層のｊ番目のユニットへの結合に対する重み付け係数であり、
前記学習パラメータ集合Λは、前記重み付け係数w_m,d（m=1,...,M; d=0,1,...,D）及びv_j,m（j=1,...,J; m=0,1,...,M）を含み、
前記幾何マージン型誤分類尺度及びその偏微分は以下の式である、請求項１に記載の分類器の学習装置。
コンピュータを、請求項１〜請求項５のいずれかに記載の分類器の学習装置の各手段として機能させる、コンピュータプログラム。