JP2016006617A

JP2016006617A - 学習装置、学習方法及び学習プログラム

Info

Publication number: JP2016006617A
Application number: JP2014127414A
Authority: JP
Inventors: 健一磯; Kenichi Iso
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2014-06-20
Filing date: 2014-06-20
Publication date: 2016-01-14
Anticipated expiration: 2034-06-20
Also published as: JP6195542B2

Abstract

【課題】多段ニューラルネットワーク（ＤＮＮ）による認識精度を改善する。【解決手段】学習装置は、生成部１３１と、学習部１３３とを有する。生成部１３１は、入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する。学習部１３３は、生成部１３１によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する。【選択図】図３

Description

本発明は、学習装置、学習方法及び学習プログラムに関する。

近年、多段に接続されたニューロンを有するＤＮＮ（Deep Neural Network）を利用して音声認識を行うディープラーニングに関する技術が知られている。例えば、このような技術では、音声認識を行う場合に、ＤＮＮに含まれる入力層に音声のスペクトルパターンを入力し、出力層に識別したい音素記号などを割り当てる。

特開平０９−３３０４０６号公報特開２００８−０６５８３６号公報

しかしながら、上記の従来技術では、認識精度を改善することができるとは限らなかった。例えば、上記の従来技術では、多数の話者から多数の発話を収集し、収集した発話を用いてバックプロパゲーション法などによりニューロン間の重み係数を学習する。このため、上記の従来技術では、新しい話者の音声を認識する場合には、学習用の音声データが少ないので、バックプロパゲーション法により学習を行うことができるとは限らない。例えば、少量の学習用データを用いてバックプロパゲーション法による学習を行うと少量の学習用データのみに特化した汎化能力の低い重み係数が学習される「過学習」と呼ばれる現象が起こる場合がある。このため、上記の従来技術では、学習の精度が劣化する場合がある。このようなことから、上記の従来技術では、認識精度を改善することができるとは限らなかった。

本願は、上記に鑑みてなされたものであって、認識精度を改善することができる学習装置、学習方法及び学習プログラムを提供することを目的とする。

本願に係る学習装置は、入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる前記複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する生成部と、前記生成部によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと当該学習データとの間の誤差に基づいて当該学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて当該第２の重み係数を学習する学習部とを備えたことを特徴とする。

実施形態の一態様によれば、認識精度を改善することができるという効果を奏する。

図１は、実施形態に係る学習装置による学習処理の一例を示す説明図である。図２は、実施形態に係る学習装置による学習処理の一例を示す説明図である。図３は、実施形態に係る学習装置の構成例を示す図である。図４は、実施形態に係る学習データ記憶部の一例を示す図である。図５は、実施形態に係る第１の重み係数記憶部の一例を示す図である。図６は、実施形態に係る第２の重み係数記憶部の一例を示す図である。図７は、実施形態に係る対応情報記憶部の一例を示す図である。図８は、実施形態に係る線形結合係数記憶部の一例を示す図である。図９は、実施形態に係る学習装置による対応付け処理手順を示すフローチャートである。図１０は、実施形態に係る学習装置による算出処理手順を示すフローチャートである。図１１は、変形例に係る学習装置による学習処理手順を示すフローチャートである。図１２は、学習装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

以下に、本願に係る学習装置、学習方法及び学習プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、学習方法及び学習プログラムが限定されるものではない。また、以下の実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。

〔１．学習処理〕
まず、図１〜図２を用いて、実施形態に係る学習処理の一例について説明する。図１〜図２は、実施形態に係る学習装置による学習処理の一例を示す説明図である。図１〜図２の例では、学習装置１００によってデータの特徴を識別可能なＤＮＮに含まれるノード間の重み係数を学習する学習処理が行われる例を示す。

学習装置１００は、ＤＮＮにおけるノード（例えば、ニューロン）間の重み係数を学習するサーバ装置である。ここで、ＤＮＮは、例えば、入力データに対する演算結果を出力する複数のニューロンを接続したネットワークであって複数のニューロン間に所定の特徴を学習済みの第１の重み係数Ｗ_Ｌｅが設定された学習器Ｌｅである。すなわち、ＤＮＮは、十分な数の学習データ（例えば、音声認識の場合では多数の話者による多数の発話データ）で予め学習済みの階層型ニューラルネットワークである。なお、ＤＮＮは、複数のニューロンによって形成される入力層と、複数のニューロンを含む多段のニューロン群の層によって形成される中間層（例えば、隠れ層）と、複数のニューロンによって形成される出力層によって構成される。また、ＤＮＮの中間層は、任意の数の層によって形成される。

初めに、図１を用いて、学習装置１００が重み係数と最適な学習データを対応付ける対応付け処理について説明する。ここで、学習装置１００は、学習を行う上で十分な数であるＭ個の学習データＤ_１〜Ｄ_Ｍを学習データ記憶部１２１に予め保持する。また、学習装置１００は、学習済みの第１の重み係数Ｗ_Ｌｅを第１の重み係数記憶部１２２に予め保持する。なお、第１の重み係数Ｗ_Ｌｅは、各ニューロン間の第１の重み係数Ｗ、Ｗ_１、Ｗ_２、・・・Ｗ_Ｌによって形成される。すなわち、学習装置１００は、各ニューロン間の第１の重み係数Ｗ、Ｗ_１、Ｗ_２、・・・Ｗ_Ｌを第１の重み係数記憶部１２２に保持する。

まず、学習装置１００は、第１の重み係数Ｗ、Ｗ_１、Ｗ_２、・・・Ｗ_Ｌのうち所定の第１の重み係数を第１の重み係数記憶部１２２から読み出す。例えば、学習装置１００は、過学習が起こりやすい第１の重み係数Ｗを第１の重み係数記憶部１２２から読み出す。続いて、学習装置１００は、読み出した第１の重み係数Ｗを変形して複数の第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を生成する（ステップＳ１）。具体的には、学習装置１００は、第１の重み係数に攪乱を加えることで第２の重み係数を生成する。例えば、学習装置１００は、第１の重み係数Ｗに乱数Ｒを加算して複数の重み係数を生成する。一例としては、学習装置１００は、まず、Ｎ個の乱数Ｒ[ｎ］を生成する。そして、学習装置１００は、第１の重み係数Ｗに対して、乱数Ｒ［ｎ］を加算することでＮ個の第２の重み係数Ｗ［ｎ］を生成する。すなわち、学習装置１００は、下記の式（１）に従ってＮ個の第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を生成する。なお、式（１）の「ｎ」は、１〜Ｎの整数値である。

Ｗ［ｎ］＝Ｗ＋Ｒ［ｎ］・・・（１）

そして、学習装置１００は、生成した第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を第２の重み係数記憶部１２３に格納する。これにより、学習装置１００は、１組の重み係数ＷからＮ組の重み係数Ｗ[１]〜Ｗ[Ｎ]を生成することができる。すなわち、学習装置１００は、１個の学習器ＬｅからＮ個の学習器Ｌｅ_１〜Ｌｅ_Ｎを複製して生成したことになる。なお、複製された学習器Ｌｅ_１〜Ｌｅ_Ｎの重み係数Ｗ[１]〜Ｗ[Ｎ]は、乱数Ｒ[ｎ]をそれぞれ加算しているので、複製元の学習器Ｌｅの重み係数Ｗとは少しずつ異なる値を有する。

続いて、学習装置１００は、生成された第２の重み係数Ｗ[１]〜Ｗ[Ｎ]が設定された各学習器Ｌｅ_１〜Ｌｅ_Ｎに学習データを入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する。具体的には、学習装置１００は、まず、生成された第２の重み係数に対して最適な学習データを対応付ける。例えば、学習装置１００は、第２の重み係数記憶部１２３に記憶されたＮ組の第２の重み係数を読み出す。また、学習装置１００は、学習データ記憶部１２１に記憶されたＭ個の学習データのうち１番目の学習データを読み出す。その後、学習装置１００は、１番目の学習データＤ_１をＮ組の第２の重み係数が設定された学習器Ｌｅ_１〜Ｌｅ_Ｎでそれぞれ識別する（ステップＳ２）。ここで、図１の例では、学習器Ｌｅ_１は、学習データＤ_１との間の識別誤差が５０である出力データを出力したものとする。学習器Ｌｅ_２は、学習データＤ_１との間の識別誤差が１０である出力データを出力したものとする。学習器Ｌｅ_Ｎは、学習データＤ_１との間の識別誤差が１００である出力データを出力したものとする。

この場合、学習装置１００は、Ｎ組の第２の重み係数Ｗ[１]〜Ｗ[Ｎ]の中から、識別誤差（例えば、階層型ニューラルネットワークの出力層での出力値と正解との間の誤差）が１番小さい第２の重み係数Ｗ[２]を抽出する（ステップＳ３）。

その後、学習装置１００は、１番目の学習データＤ_１の番号を抽出した第２の重み係数Ｗ[２]の番号と対応付けて対応情報記憶部１２３に格納する（ステップＳ４）。また、学習装置１００は、２番目の学習データＤ_２からＭ番目の学習データＤ_Ｍまで上記の処理を繰り返し実行する（ステップＳ５）。これにより、学習装置１００は、識別誤差が最小となる第２の重み係数の番号を２番目の学習データＤ_２の番号からＭ番目の学習データＤ_Ｍの番号と対応付けて対応情報記憶部１２３に格納する。

次に、図２を用いて、学習装置１００が重み係数の修正値を算出する算出処理について説明する。まず、学習装置１００は、第２の重み係数と対応する学習データを用いて第２の重み係数の学習を行う（ステップＳ６）。具体的には、学習装置１００は、まず、学習データ記憶部１２１に記憶されたＭ個の学習データのうち１番目の学習データＤ_１を読み出す。また、学習装置１００は、対応情報記憶部１２３に記憶された１番目の学習データＤ_１と対応する第２の重み係数Ｗ[２]を読み出す。そして、学習装置１００は、読み出した第２の重み係数Ｗ[２]を設定した学習器Ｌｅ_２を１番目の学習データＤ_１で学習する。その後、学習装置１００は、学習によって得られた第２の重み係数Ｗ[２]の修正値Ｗ[２]´を第２の重み係数記憶部１２３に記憶する。また、学習装置１００は、２番目の学習データＤ_２からＭ番目の学習データＤ_Ｍまで上記の処理を繰り返し実行する。これにより、学習装置１００は、第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を第２の重み係数Ｗ[１]´〜Ｗ[Ｎ]´に修正する（ステップＳ７）。

続いて、学習装置１００は、第２の重み係数Ｗ[１]´〜Ｗ[Ｎ]´の線形結合を示す線形結合係数ｃ[１]〜ｃ[Ｎ]の学習を行う。ここで、第２の重み係数Ｗ[１]´〜Ｗ[Ｎ]´と線形結合係数ｃ[１]〜ｃ[Ｎ]との間の関係は、下記の式（２）によって表される。

Ｗ´＝ｃ［１］＊Ｗ［１］´＋ｃ［２］＊Ｗ［２］´＋・・・ｃ［Ｎ］＊Ｗ［Ｎ］´・・・（２）

学習装置１００は、まず、線形結合係数ｃ[１]〜ｃ[Ｎ]を初期化する（ステップＳ８）。例えば、学習装置１００は、線形結合係数記憶部１２５に記憶された線形結合係数ｃ[１]〜ｃ[Ｎ]に初期値として「１／Ｎ」を設定することで初期化する。

その後、学習装置１００は、学習データＤ_１〜Ｄ_Ｍを用いて線形結合係数ｃ[１]〜ｃ[Ｎ]の学習を行う（ステップＳ９）。例えば、学習装置１００は、まず、学習データＤ_１を用いて、バックプロパゲーション法により第２の重み係数Ｗ´の学習を行う。これにより、学習装置１００は、第２の重み係数Ｗ´を修正した第２の重み係数Ｗ_１´を算出する。すなわち、学習装置１００は、式（２）の左辺がＷ_１´となる線形結合係数を算出する。

同様に、学習装置１００は、学習データＤ_２〜Ｄ_Ｍを用いて第２の重み係数Ｗ´の学習を行う。これにより、学習装置１００は、式（２）の左辺がＷ_２´〜Ｗ_Ｍ´となる線形結合係数を算出する。そして、学習装置１００は、算出した第２の重み係数Ｗ_１´〜Ｗ_Ｍ´を用いて、線形結合係数ｃ[１]〜ｃ[Ｎ]の修正値である線形結合係数ｃ[１]´〜ｃ[Ｎ]´を算出する。そして、学習装置１００は、線形結合係数記憶部１２５に記憶された線形結合係数ｃ[１]〜ｃ[Ｎ]を線形結合係数ｃ[１]´〜ｃ[Ｎ]´に修正する（ステップＳ１０）。そして、学習装置１００は、第２の重み係数Ｗの修正値である第２の重み係数Ｗ´´を算出する（ステップＳ１１）。これにより、学習装置１００は、第１の重み係数Ｗを算出した第２の重み係数Ｗ´´に変更することで学習器Ｌｅの識別精度を高めることができる。

このように、実施形態に係る学習装置１００は、入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する。また、学習装置１００は、生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する。

また、実施形態に係る学習装置１００は、学習データを用いて、第２の重み係数の線形結合を示す線形結合係数を学習する。また、実施形態に係る学習装置１００は、各出力データと学習データとの間の誤差のうち誤差が最小となる出力データを出力する学習器に設定された第２の重み係数を、学習データを用いて学習する。また、実施形態に係る学習装置１００は、第１の重み係数に攪乱を加えることで第２の重み係数を生成する。

これにより、学習装置１００は、最適な学習データを用いて重み係数を学習することができるので、認識精度を改善することができる。例えば、学習装置１００は、複製した重み係数のうち学習データの識別誤差が最小となる出力データを出力する重み係数と学習データとを用いて重み係数の修正を行うことができるので、認識精度をより高めることができる。

〔２．学習装置の構成〕
次に、図３を用いて、実施形態に係る学習装置１００の構成について説明する。図３は、実施形態に係る学習装置１００の構成例を示す図である。図３に示すように、学習装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、学習装置１００は、学習装置１００を利用する管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

（通信部１１０について）
通信部１１０は、例えば、ＮＩＣ等によって実現される。かかる通信部１１０は、ネットワークと有線又は無線で接続され、ネットワークを介して、各種のサーバ装置や端末装置やノードとの間で情報の送受信を行う。

（記憶部１２０について）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、学習データ記憶部１２１と、第１の重み係数記憶部１２２と、第２の重み係数記憶部１２３と、対応情報記憶部１２４と、線形結合係数記憶部１２５とを有する。

（学習データ記憶部１２１について）
学習データ記憶部１２１は、学習器の学習に用いる学習データに関する情報を記憶する。具体的には、学習データ記憶部１２１は、所定の特徴を学習する学習器に入力する学習データを記憶する。例えば、学習データ記憶部１２１は、複数の学習データを順番と対応付けて記憶する。ここで、図４に、実施形態に係る学習データ記憶部の一例を示す。図４に示すように、学習データ記憶部１２１は、「学習データ番号」、「学習データ」といった項目を有する。

「学習データ番号」は、学習データの順番を識別するための識別情報を示す。「学習データ」は、学習器の学習に用いるデータを示す。例えば、「学習データ」には、話者の発話を示す音声データを記憶する。

すなわち、図４では、学習データ番号「１」に対応する学習データは、学習データ「Ｄ_１」である例を示している。また、図４では、学習データＤ_１〜Ｄ_ＭまでのＭ個のデータが記憶されている例を示している。

（第１の重み係数記憶部１２２について）
第１の重み係数記憶部１２２は、学習器に含まれるノード間の重み係数を記憶する。具体的には、第１の重み係数記憶部１２２は、既に所定の特徴を学習済みの学習器に含まれるノード間の重み係数を記憶する。例えば、第１の重み係数記憶部１２２は、学習器に含まれる各ノード間の重み係数をそれぞれ記憶する。ここで、図５に、実施形態に係る第１の重み係数記憶部の一例を示す。図５に示すように、第１の重み係数記憶部１２２は、「第１の重み係数」といった項目を有する。

「第１の重み係数」は、学習器に設定されたノード間の重み係数を示す。例えば、「第１の重み係数」には、既に所定の特徴を学習済みの学習器に含まれる各ノード間の重み係数をそれぞれ記憶する。

すなわち、図５では、既に所定の特徴を学習済みの学習器の重み係数Ｗ_Ｌｅは、第１の重み係数「Ｗ、Ｗ_１、Ｗ_２、・・・Ｗ_Ｌ」によって構成される例を示している。

（第２の重み係数記憶部１２３について）
第２の重み係数記憶部１２３は、学習器に含まれるノード間の重み係数を記憶する。具体的には、第２の重み係数記憶部１２３は、第１の重み係数記憶部１２２に記憶された重み係数のうち所定の第１の重み係数を変形した第２の重み係数を記憶する。例えば、第２の重み係数記憶部１２３は、過学習が起こりやすい第１の重み係数に複数個の乱数を加算した複数個の第２の重み係数をそれぞれ記憶する。ここで、図６に、実施形態に係る第２の重み係数記憶部の一例を示す。図６に示すように、第２の重み係数記憶部１２３は、「係数番号」と、「第２の重み係数」といった項目を有する。

「係数番号」は、第２の重み係数を識別するための識別情報を示す。「第２の重み係数」は、第１の重み係数を変形した重み係数を示す。例えば、「第２の重み係数」には、過学習が起こりやすい第１の重み係数にＮ個の乱数を加算したＮ個の第２の重み係数を記憶する。

すなわち、図６では、係数番号「１」に対応する第２の重み係数は、Ｗ［１］である例を示している。また、図６では、第２の重み係数Ｗ［１］〜Ｗ［Ｎ］までのＮ個のデータが記憶されている例を示している。

（対応情報記憶部１２４について）
対応情報記憶部１２４は、学習データと第２の重み係数との間の対応関係を記憶する。具体的には、対応情報記憶部１２４は、学習器に学習データを入力した場合に出力される出力データと学習データとの間の識別誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数を学習データと対応付けて記憶する。例えば、対応情報記憶部１２４は、学習器に学習データを入力した場合に出力される出力データと学習データとの間の識別誤差が最小となる第２の重み係数の係数番号と対応付けて学習データ番号を記憶する。ここで、図７に、実施形態に係る対応情報記憶部の一例を示す。図７に示すように、対応情報記憶部１２４は、「学習データ番号」と、「第２の重み係数番号」といった項目を有する。

「学習データ番号」は、学習データを識別するための識別情報を示す。「第２の重み係数番号」は、学習データと対応する第２の重み係数の係数番号を示す。

すなわち、図７では、学習データ番号「１」の学習データに対応する第２の重み係数は、第２の重み係数番号「２」の第２の重み係数である例を示している。また、図７では、学習データ番号１〜ＭのＭ個の学習データと第２の重み係数との間の対応関係が記憶されている例を示している。

（線形結合係数記憶部１２５について）
線形結合係数記憶部１２５は、線形結合係数を記憶する。具体的には、線形結合係数記憶部１２５は、第２の重み係数記憶部１２３に記憶された第２の重み係数の線形結合係数を記憶する。例えば、線形結合係数記憶部１２５は、第２の重み係数と対応付けて線形結合係数を記憶する。ここで、図８に、実施形態に係る線形結合係数記憶部の一例を示す。図８に示すように、線形結合係数記憶部１２５は、「第２の重み係数」と、「線形結合係数」といった項目を有する。

「第２の重み係数」は、第２の重み係数記憶部１２３に記憶された第２の重み係数を示す。「線形結合係数」は、第２の重み係数の線形結合係数を示す。例えば、「線形結合係数」には、複数個の第２の重み係数に対応する線形結合係数をそれぞれ記憶する。

すなわち、図８では、第２の重み係数Ｗ［１］に対応する線形結合係数は、ｃ［１］である例を示している。また、図８では、第２の重み係数Ｗ［１］〜Ｗ［Ｎ］までのＮ個のデータが記憶されている例を示している。

（制御部１３０について）
制御部１３０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、学習装置１００内部の記憶装置に記憶されている各種プログラム（学習プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

制御部１３０は、図３に示すように、生成部１３１と、対応付け部１３２と、学習部１３３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図３に示した構成に限られず、後述する学習処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図３に示した接続関係に限られず、他の接続関係であってもよい。

（生成部１３１について）
生成部１３１は、第２の重み係数を生成する。具体的には、生成部１３１は、入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する。例えば、生成部１３１は、第１の重み係数に攪乱を加えることで第２の重み係数を生成する。

この点について詳細に説明する。まず、生成部１３１は、第１の重み係数記憶部１２２に記憶された第１の重み係数Ｗ、Ｗ_１、Ｗ_２、・・・Ｗ_Ｌのうち所定の第１の重み係数を読み出す。例えば、生成部１３１は、過学習が起こりやすい第１の重み係数Ｗを第１の重み係数記憶部１２２から読み出す。続いて、生成部１３１は、読み出した第１の重み係数Ｗを変形して複数の第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を生成する。具体的には、生成部１３１は、第１の重み係数Ｗに乱数Ｒを加えて複数の重み係数を生成する。例えば、生成部１３１は、まず、Ｎ個の乱数Ｒ[ｎ］を生成する。そして、生成部１３１は、第１の重み係数Ｗに対して、乱数Ｒ［ｎ］を加算することでＮ個の第２の重み係数Ｗ［ｎ］を生成する。そして、生成部１３１は、生成した第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を第２の重み係数記憶部１２３に格納する。

（対応付け部１３２について）
対応付け部１３２は、学習データを第２の重み係数と対応付ける。具体的には、対応付け部１３２は、生成部１３１によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数を学習データと対応付ける。例えば、対応付け部１３２は、各学習器に学習データを入力した場合に出力される各出力データと学習データとの間の誤差のうち誤差が最小となる出力データを出力する学習器に設定された第２の重み係数と対応付ける。

この点について詳細に説明する。対応付け部１３２は、まず、第２の重み係数記憶部１２３に記憶されたＮ組の第２の重み係数を読み出す。また、対応付け部１３２は、学習データ記憶部１２１に記憶されたＭ個の学習データのうち１番目の学習データを読み出す。

その後、対応付け部１３２は、１番目の学習データＤ_１をＮ組の第２の重み係数が設定された学習器Ｌｅ_１〜Ｌｅ_Ｎでそれぞれ識別する。ここで、学習器Ｌｅ_１は、学習データＤ_１との間の識別誤差が５０である出力データを出力したものとする。学習器Ｌｅ_２は、学習データＤ_１との間の識別誤差が１０である出力データを出力したものとする。学習器Ｌｅ_Ｎは、学習データＤ_１との間の識別誤差が１００である出力データを出力したものとする。この場合、対応付け部１３２は、Ｎ組の第２の重み係数Ｗ[１]〜Ｗ[Ｎ]の中から、識別誤差が１番小さい第２の重み係数Ｗ[２]を抽出する。

その後、対応付け部１３２は、１番目の学習データＤ_１の番号を抽出した第２の重み係数Ｗ[２]の番号と対応付けて対応情報記憶部１２４に格納する。また、対応付け部１３２は、２番目の学習データＤ_２からＭ番目の学習データＤ_Ｍまで上記の処理を繰り返し実行する。これにより、対応付け部１３２は、識別誤差が最小となる第２の重み係数の番号を２番目の学習データＤ_２の番号からＭ番目の学習データＤ_Ｍの番号と対応付けて対応情報記憶部１２４に格納する。

（学習部１３３について）
学習部１３３は、学習器（例えば、ＤＮＮ）に含まれるノード間の重み係数の学習を行う。具体的には、学習部１３３は、生成部１３１によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと当該学習データとの間の誤差に基づいて当該学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する。例えば、学習部１３３は、各出力データと学習データとの間の誤差のうち誤差が最小となる出力データを出力する学習器に設定された第２の重み係数を、かかる学習データを用いて学習する。

この点について詳細に説明する。学習部１３３は、初めに、第２の重み係数の修正値を算出する。具体的には、学習部１３３は、まず、学習データ記憶部１２１に記憶されたＭ個の学習データのうち１番目の学習データＤ_１を読み出す。また、学習部１３３は、対応情報記憶部１２４に記憶された１番目の学習データＤ_１と対応する第２の重み係数Ｗ[２]を読み出す。そして、学習部１３３は、読み出した第２の重み係数Ｗ[２]を設定した学習器Ｌｅ_２を１番目の学習データＤ_１で学習する。その後、学習部１３３は、学習によって得られた第２の重み係数Ｗ[２]の修正値Ｗ[２]´を第２の重み係数記憶部１２３に記憶する。また、学習部１３３は、２番目の学習データＤ_２からＭ番目の学習データＤ_Ｍまで上記の処理を繰り返し実行する。これにより、学習部１３３は、第２の重み係数Ｗ[１]〜Ｗ[Ｎ]を第２の重み係数Ｗ[１]´〜Ｗ[Ｎ]´に修正する。

続いて、学習部１３３は、第２の重み係数Ｗ[１]´〜Ｗ[Ｎ]´の線形結合を示す線形結合係数ｃ[１]〜ｃ[Ｎ]の学習を行う。具体的には、学習部１３３は、まず、線形結合係数ｃ[１]〜ｃ[Ｎ]を初期化する。例えば、学習部１３３は、線形結合係数記憶部１２５に記憶された線形結合係数ｃ[１]〜ｃ[Ｎ]に初期値として「１／Ｎ」を設定することで初期化する。

その後、学習部１３３は、学習データＤ_１〜Ｄ_Ｍを用いて線形結合係数ｃ[１]〜ｃ[Ｎ]の学習を行う。例えば、学習部１３３は、まず、学習データＤ_１を用いて、バックプロパゲーション法により第２の重み係数Ｗ´の学習を行う。これにより、学習部１３３は、第２の重み係数Ｗ´を修正した第２の重み係数Ｗ_１´を算出する。同様に、学習部１３３は、学習データＤ_２〜Ｄ_Ｍを用いて第２の重み係数Ｗ´の学習を行い、第２の重み係数Ｗ_２´〜Ｗ_Ｍ´を算出する。そして、学習部１３３は、算出した第２の重み係数Ｗ_１´〜Ｗ_Ｍ´を用いて、線形結合係数ｃ[１]〜ｃ[Ｎ]の修正値である線形結合係数ｃ[１]´〜ｃ[Ｎ]´を算出する。そして、学習部１３３は、線形結合係数記憶部１２５に記憶された線形結合係数ｃ[１]〜ｃ[Ｎ]を線形結合係数ｃ[１]´〜ｃ[Ｎ]´に修正する（ステップＳ１０）。そして、学習部１３３は、第２の重み係数Ｗの修正値である第２の重み係数Ｗ´´を算出する。これにより、学習部１３３は、第１の重み係数Ｗを算出した第２の重み係数Ｗ´´に変更することで学習器Ｌｅの識別精度を高めることができる。

なお、学習装置１００は、重み係数を学習する処理と線形結合係数を学習する処理とを実行する学習部１３３に限らず、重み係数を学習する処理を実行する学習部と、線形結合係数を学習する処理を実行する線形結合係数学習部とに分離して有してもよい。

〔３．学習処理手順〕
次に、図９及び図１０を用いて、実施形態に係る学習装置１００による学習処理の手順について説明する。まず、図９を用いて、学習装置１００が学習データと重み係数を対応付ける対応付け処理について説明する。図９は、実施形態に係る学習装置１００による対応付け処理手順を示すフローチャートである。

図９に示すように、まず、学習装置１００は、所定の第１の重み係数を第１の重み係数記憶部１２２から読み出す（ステップＳ１０１）。続いて、学習装置１００は、読み出した第１の重み係数を変形して複数の第２の重み係数を生成する（ステップＳ１０２）。そして、学習装置１００は、各学習データを、第２の重み係数が設定された各学習器に入力する（ステップＳ１０３）。

そして、学習装置１００は、学習器が出力する出力データと学習データとの間の識別誤差に基づいて学習データと対応する第２の重み係数を抽出する（ステップＳ１０４）。例えば、学習装置１００は、識別誤差が最小となる出力データを出力する学習器に設定された第２の重み係数を抽出する。

続いて、学習装置１００は、学習データを抽出した第２の重み係数と対応付ける（ステップＳ１０５）。例えば、学習装置１００は、識別誤差が最小となる第２の重み係数の番号を学習データの番号と対応付けて対応情報記憶部１２４に格納する。

次に、図１０を用いて、学習装置１００が重み係数の修正値を算出する算出処理について説明する。図１０は、実施形態に係る学習装置１００による算出処理手順を示すフローチャートである。

図１０に示すように、まず、学習装置１００は、第２の重み係数と対応する学習データを用いて第２の重み係数の学習を行う（ステップＳ１０６）。そして、学習装置１００は、第２の重み係数を、学習によって算出された重み係数に修正する（ステップＳ１０７）。その後、学習装置１００は、第２の重み係数の線形結合を示す線形結合係数の学習を行う。具体的には、学習装置１００は、まず、線形結合係を初期化する（ステップＳ１０８）。

その後、学習装置１００は、学習データを用いて線形結合係数の学習を行う（ステップＳ１０９）。例えば、学習装置１００は、まず、学習データを用いて、バックプロパゲーション法により第２の重み係数の学習を行う。これにより、学習装置１００は、修正した第２の重み係数を算出する。続いて、学習装置１００は、算出した第２の重み係数を用いて、線形結合係数の修正値を算出する。そして、学習装置１００は、算出した修正値を線形結合係数記憶部１２５に記憶することで線形結合係数を修正する（ステップＳ１１０）。そして、学習装置１００は、第２の重み係数の修正値を算出する（ステップＳ１１１）。これにより、学習装置１００は、第１の重み係数を算出した第２の重み係数Ｗに変更することで学習器の識別精度を高めることができる。

〔４．変形例〕
上述した実施形態に係る学習装置１００は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、上記の学習装置１００の他の実施形態について説明する。

〔４−１．クラスタ依存に応じて重み係数を学習〕
上記実施形態では、学習装置１００は、生成部１３１によって生成された第２の重み係数が設定された各学習器に学習データ（例えば、多数の話者による多数の発話データ）を入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する例を示した。ここで、学習装置１００は、学習データの話者をクラスタリングし、クラスタに依存する重み係数である依存係数とクラスタに依存しない重み係数である非依存係数（例えば、共通係数）を学習してもよい。

具体的には、学習装置１００は、第２の重み係数として、第１の重み係数を分割して分類に依存する依存係数と依存しない非依存係数とを生成する。また、学習装置１００は、依存係数に対応する分類に属する学習データを用いて依存係数を学習し、また、全学習データを用いて非依存係数を学習する。

例えば、学習装置１００の生成部１３１は、学習器（例えば、階層型ニューラルネットワーク）のあらかじめ指定した重み係数の部分集合（例えば、所定の層の重み係数のみの部分集合など）を変形してＮ個の第２の重み係数の依存係数を生成する。また、生成部１３１は、残りの重み係数（例えば、他の層の重み係数など）を非依存係数として生成する。そして、生成部１３１は、生成した依存係数および非依存係数を第２の重み係数記憶部１２３に保持する。

そして、学習部１３３は、学習データ記憶部１２１からｉ番目の学習データを読み出す。続いて、学習部１３３は、対応情報記憶部１２４からｉ番目の学習データに対応する第２の重み係数の番号を読み出す。その後、学習部１３３は、読み出した第２の重み係数の番号に対応する依存係数および非依存係数を第２の重み係数記憶部１２３から読み出す。そして、学習部１３３は、読み出した依存係数および非依存係数を重み係数として設定した学習器をｉ番目の学習データを用いて学習する。ここで、学習部１３３は、例えば、依存係数と対応する学習データだけを用いて依存係数を学習する。また、学習部１３３は、例えば、全ての学習データを用いて非依存係数を学習する。

このように、学習装置１００は、第２の重み係数として、第１の重み係数を分割して分類に依存する依存係数と依存しない非依存係数とを生成する。また、学習装置１００は、依存係数に対応する分類に属する学習データを用いて依存係数を学習し、また、全学習データを用いて非依存係数を学習する。

これにより、学習装置１００は、例えば、新しい話者が少量の学習データを提供した場合、クラスタ依存の重み係数のみをバックプロパゲーション法によって学習することで学習データの数が少量でも安定に学習することができるので、認識精度を高めることができる。

〔４−２．新規学習データを用いて学習〕
上記変形例では、学習装置１００は、第２の重み係数として、第１の重み係数を分割して分類に依存する依存係数と依存しない非依存係数とを生成し、依存係数に対応する分類に属する学習データを用いて依存係数を学習し、また、全学習データを用いて非依存係数を学習する例を示した。ここで、学習装置１００は、新規学習データ（例えば、新しいドメインの学習データ）を用いて学習を行ってもよい。

具体的には、学習装置１００は、第２の重み係数のうち分類に依存する依存係数に対応する新規学習データを用いて依存係数を学習する。この点について、図１１を用いて詳細に説明する。図１１は、変形例に係る学習装置による学習処理手順を示すフローチャートである。すなわち、図１１は、新ドメイン（例えば、音声認識の場合には新しい話者による発話など）の少量の学習データが得られた場合に学習器を新ドメインに適するように追加学習するモードであるドメイン適応モードでの実施例である。

学習装置１００は、新ドメインの学習データを受け付けた場合に、学習データ記憶部１２１に格納する。そして、学習装置１００は、図１１に示すように、まず、新ドメインの学習データを読み出す（ステップＳ２０１）。例えば、学習装置１００は、学習データ記憶部１２１から新ドメインの学習データを読み出す。なお、学習装置１００は、新ドメインの学習データを学習データ記憶部１２１に限らず、第２の学習データ記憶部に保持し、第２の学習データ記憶部から新ドメインの学習データを読み出してもよい。

続いて、学習装置１００は、読み出した新ドメインの学習データを各学習器に入力する（ステップＳ２０２）。その後、学習装置１００は、識別誤差が最小となる第２の重み係数を抽出する（ステップＳ２０３）。そして、学習装置１００は、抽出した第２の重み係数と新ドメインの学習データとを対応付ける（ステップＳ２０４）。例えば、学習装置１００は、抽出した第２の重み係数と新ドメインの学習データとを対応付けて対応情報記憶部１２４に格納する。

その後、学習装置１００は、新ドメインの学習データを用いて、新ドメインの学習データに対応する第２の重み係数の依存係数を学習する（ステップＳ２０５）。そして、学習装置１００は、学習によって算出された修正値に第２の重み係数の依存係数を修正する（ステップＳ２０６）。例えば、学習装置１００は、第２の重み係数記憶部１２３に記憶された第２の重み係数の依存係数を修正値に修正する。これにより、学習装置１００は、新ドメインの適応を完了する。

そして、学習装置１００は、新ドメインの適応を完了した後に新ドメインの入力データを識別する場合には、新ドメインの入力データに対応する依存係数と非依存係数を用いて識別を行う。例えば、学習装置１００は、新ドメインの学習データを適応後に新ドメインの入力データを識別する場合には、学習済みの線形結合係数と依存係数の線形結合を新しい重み係数として設定した学習器を用いて識別を行う。

このように、学習装置１００は、第２の重み係数のうち分類に依存する依存係数に対応する新規学習データを用いて依存係数を学習する。これにより、学習装置１００は、新しいドメインに属する学習データの数が少量でも安定に学習することができるので、認識精度を高めることができる。

なお、学習データ記憶部１２１は、学習データを保持する学習データ記憶部と、新ドメインの学習データを保持する第２の学習データ記憶部とに分離して構成されてもよい。この場合、学習装置１００は、新ドメインの学習データを受け付けた場合に、第２の学習データ記憶部に新ドメインの学習データを格納する。そして、学習装置１００は、第２の学習データ記憶部から新ドメインの学習データを読み出す。

〔４−３．ＤＮＮ〕
上記実施形態では、学習装置１００は、３つの層によって構成される学習器の学習を行う例を示した。ここで、学習装置１００は、上述した例に限らず、任意の数の層によって構成された学習器の学習を行ってもよい。例えば、学習装置１００は、中間層に複数のニューロン群が含まれる多段のＤＮＮである学習器の学習を行う。また、学習器に含まれるニューロン群は、上述した例に限らず、任意の数のニューロンによって構成されてもよい。

〔４−４．適用対象〕
上記実施形態では、学習装置１００は、音声データを識別する音声認識の適用例を示した。ここで、学習装置１００は、音声認識に限らず、各種の認識に適用してもよい。例えば、学習装置１００は、画像を対象とする画像認識に適用する。これにより、学習装置１００は、画像データを入力データとして入力することで、画像に描出された被写体を識別することができる。例えば、学習装置１００は、画像に写る物体が属するカテゴリを識別することができる。

他の例では、学習装置１００は、株価を対象として適用する。これにより、学習装置１００は、株価の時系列データや業種を入力データとして入力することで、株価に関する情報を識別することができる。例えば、学習装置１００は、株価の値動きを識別することで業種の判定や、株価の予測等を実現できる。

〔４−５．その他〕
上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図３に示した対応付け部１３２および学習部１３３は統合されてもよい。

〔４−６．ハードウェア構成〕
また、上述してきた実施形態に係る学習装置１００は、例えば図１２に示すような構成のコンピュータ１０００によって実現される。以下、学習装置１００を例に挙げて説明する。図１２は、学習装置１００の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、およびメディアインターフェイス（Ｉ／Ｆ）１７００を有する。

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、および、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、通信網５００を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを通信網５００を介して他の機器へ送信する。

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、および、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

例えば、コンピュータ１０００が実施形態に係る学習装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。また、ＨＤＤ１４００には、記憶部１２０内のデータが格納される。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から通信網５００を介してこれらのプログラムを取得してもよい。

〔５．効果〕
上述してきたように、実施形態に係る学習装置１００は、生成部１３１と、学習部１３３とを有する。生成部１３１は、入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する。学習部１３３は、生成部１３１によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと学習データとの間の誤差に基づいて学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて第２の重み係数を学習する。

また、実施形態に係る学習装置１００において、学習部１３３は、学習データを用いて、第２の重み係数の線形結合を示す線形結合係数を学習する。

また、実施形態に係る学習装置１００において、学習部１３３は、各出力データと学習データとの間の誤差のうち誤差が最小となる出力データを出力する学習器に設定された第２の重み係数を、学習データを用いて学習する。

また、実施形態に係る学習装置１００において、生成部１３１は、第１の重み係数に攪乱を加えることで第２の重み係数を生成する。

これにより、実施形態に係る学習装置１００は、最適な学習データを用いて重み係数を学習することができるので、認識精度を改善することができる。例えば、学習装置１００は、複製した重み係数のうち学習データの識別誤差が最小となる出力データを出力する重み係数と学習データとを用いて重み係数の修正を行うことができるので、認識精度をより高めることができる。

また、変形例に係る学習装置１００において、生成部１３１は、第２の重み係数として、第１の重み係数を分割して分類に依存する依存係数と依存しない非依存係数とを生成する。学習部１３３は、依存係数に対応する分類に属する学習データを用いて依存係数を学習し、また、全学習データを用いて非依存係数を学習する。

これにより、変形例に係る学習装置１００は、例えば、新しい話者が少量の学習データを提供した場合、クラスタ依存の重み係数のみをバックプロパゲーション法によって学習することで学習データの数が少量でも安定に学習することができるので、認識精度を高めることができる。

また、変形例に係る学習装置１００において、学習部１３３は、第２の重み係数のうち分類に依存する依存係数に対応する新規学習データを用いて依存係数を学習する。

これにより、変形例に係る学習装置１００は、新しいドメインに属する学習データの数が少量でも安定に学習することができるので、認識精度を高めることができる。

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

１００学習装置
１２１学習データ記憶部
１２２第１の重み係数記憶部
１２３第２の重み係数記憶部
１２４対応情報記憶部
１２５線形結合係数記憶部
１３１生成部
１３２対応付け部
１３３学習部

Claims

入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる前記複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する生成部と、
前記生成部によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと当該学習データとの間の誤差に基づいて当該学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて当該第２の重み係数を学習する学習部と
を備えたことを特徴とする学習装置。
前記生成部は、
前記第２の重み係数として、前記第１の重み係数を分割して分類に依存する依存係数と依存しない非依存係数とを生成し、
前記学習部は、
前記依存係数に対応する分類に属する学習データを用いて前記依存係数を学習し、また、全学習データを用いて前記非依存係数を学習する
ことを特徴とする請求項１に記載の学習装置。
前記学習部は、
前記第２の重み係数のうち分類に依存する依存係数に対応する新規学習データを用いて当該依存係数を学習する
ことを特徴とする請求項１または２に記載の学習装置。
前記学習部は、
前記学習データを用いて、前記第２の重み係数の線形結合を示す線形結合係数を学習する
ことを特徴とする請求項１〜３のいずれか一つに記載の学習装置。
前記生成部は、
前記第１の重み係数に攪乱を加えることで前記第２の重み係数を生成する
ことを特徴とする請求項１〜４のいずれか一つに記載の学習装置。
前記学習部は、
前記各出力データと前記学習データとの間の誤差のうち誤差が最小となる出力データを出力する学習器に設定された第２の重み係数を、当該学習データを用いて学習する
ことを特徴とする請求項１〜５のいずれか一つに記載の学習装置。
学習装置が実行する学習方法であって、
入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる前記複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する生成工程と、
前記生成工程によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと当該学習データとの間の誤差に基づいて当該学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて当該第２の重み係数を学習する学習工程と
を含んだことを特徴とする学習方法。
入力データに対する演算結果を出力する複数のノードを接続した学習器であって所定の特徴を学習済みの学習器に含まれる前記複数のノード間に設定された所定の第１の重み係数を変形して複数の第２の重み係数を生成する生成手順と、
前記生成手順によって生成された第２の重み係数が設定された各学習器に学習データを入力した場合に出力される各出力データと当該学習データとの間の誤差に基づいて当該学習データと対応する第２の重み係数を特定し、特定した第２の重み係数と対応する学習データを用いて当該第２の重み係数を学習する学習手順と
をコンピュータに実行させることを特徴とする学習プログラム。