JP7491622B1

JP7491622B1 - パターン認識装置、学習方法、及びプログラム

Info

Publication number: JP7491622B1
Application number: JP2023053030A
Authority: JP
Inventors: 健星野
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2024-05-28
Anticipated expiration: 2043-03-29

Abstract

【課題】神経回路網モデルの学習収束後に、さらなる汎化性能を向上することに寄与するパターン認識装置、学習方法、及びプログラムの提供。【解決手段】複数のパターンを含む入力データと、教師データとの組を取得する学習データ取得部と、所定の分布に基づく値である揺らぎノイズを生成する揺らぎノイズ生成部と、揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する誤差関数値取得部と、誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う学習部と、を有し、揺らぎノイズ生成部は、最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成し、学習部は、別の揺らぎノイズと学習データを用いて再学習を行う、パターン認識装置を提供する。【選択図】図１

Description

本発明は、高い汎化能力を有するパターン認識装置、学習方法、及びプログラムに関する。

非巡回階層（フィードフォワード）型の神経回路網モデルの学習では従来、誤差関数を最適化するために、勾配法を用いるケースが多く見られ、最急降下法はそのうちの一手段である。しかしながら、最適化の過程において、局所最適解に陥ってしまうといった既知の問題を孕んでいる。また、活性化関数が微分可能である必要があり、微分処理を伴う誤差逆伝播法を用いて最適化を行った場合に、モデルが多層化すると勾配消失が生じ、学習が十分に進まないといった可能性も存在する。

特許文献１では、揺らぎ駆動学習法が開示されている。揺らぎ駆動学習法は、活性化関数の活性値に所定の分布を有する揺らぎノイズを付加して学習を進めるといった手法である。この学習法を用いると、微分可能である連続関数としきい値関数のような不連続関数を混在させたモデルを学習することが可能である。また、微分処理や逆伝播処理を必要としないので、勾配の消失により学習が進まないといった問題が生じないといった優位点がある。

特許文献２では、揺らぎ駆動学習法において課題となっている学習後のモデルの汎化性能が低いこと、及び最適化が収束するまでの学習時間が長時間となること等の課題に対して、モデルの学習中に、活性化関数の活性値に加える揺らぎノイズの値の分散値を変化させる学習法を開示している。具体的には、学習時において算出された誤差関数の値が、前回学習時の値から所定の値より大きく変化している場合には付加する揺らぎノイズの値の分散値を小さくし、値の変化が所定の値以下である場合には分散値を大きくするといった処理を行うといった手法が開示されている。

特開平８－２３５１４６号公報特開２０２１－１８９５３２号公報

なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。

上記の通り、特許文献２では、学習後のモデルの汎化性能が低いこと、及び最適化が収束するまでの学習時間が長時間となること等を課題としてモデルの学習中に揺らぎノイズの分散値を変化させるといった解決手段が開示されている。

これに対して、学習が一旦終了した後に、汎化能力を向上させることを目的とした再学習を行うといった手法が考えられるが、このような手法については未だ先行文献において開示されていない。

そこで、本発明の一視点において、神経回路網モデルの学習収束後に、さらなる汎化性能を向上することに寄与するパターン認識装置、学習方法、及びプログラムを提供することを目的とする。

本発明の第一の視点によれば、複数のパターンを含む入力データと、教師データとの組を取得する学習データ取得部と、所定の分布に基づく値である揺らぎノイズを生成する揺らぎノイズ生成部と、前記揺らぎノイズと前記入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する誤差関数値取得部と、前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う学習部と、を有し、前記揺らぎノイズ生成部は、最適化により学習が完了した後に別の分布に基づく別の揺らぎノイズを生成し、前記学習部は、前記別の揺らぎノイズと学習データを用いて再学習を行う、パターン認識装置が提供される。

本発明の第二の視点によれば、以下のステップをコンピュータに実行させるための学習方法であって、複数のパターンを含む入力データと、教師データとの組を取得するステップと、所定の分布に基づく値である揺らぎノイズを生成するステップと、前記揺らぎノイズと前記入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得するステップと、前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行うステップと、最適化により学習が完了した後に別の分布に基づく別の揺らぎノイズを生成するステップと、前記別の揺らぎノイズと学習データを用いて再学習を行うステップと、を含む学習方法が提供される。

本発明の第三の視点によれば、複数のパターンを含む入力データと、教師データとの組を取得する処理と、所定の分布に基づく値である揺らぎノイズを生成する処理と、前記揺らぎノイズと前記入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する処理と、前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う処理と、最適化により学習が完了した後に別の分布に基づく別の揺らぎノイズを生成する処理と、前記別の揺らぎノイズと学習データを用いて再学習を行う処理と、をコンピュータに実行させるためのプログラムが提供される。

なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント（ｎｏｎ－ｔｒａｎｓｉｅｎｔ）なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。

本発明の各視点によれば、神経回路網モデルの学習収束後に、さらなる汎化性能を向上することに寄与するパターン認識装置、学習方法、及びプログラムが提供される。

一実施形態のパターン認識装置における構成の一例を示すブロック図である。第１の実施形態のパターン認識装置における処理の流れを示すフローチャートである。第１の実施形態のパターン認識装置におけるハードウエア構成の一例を示す概略図である。第２の実施形態のパターン認識装置における構成の一例を示すブロック図である。第２の実施形態のパターン認識装置における非巡回階層型ニューラルネットワークのネットワーク構成を示す概略図である。第２の実施形態のパターン認識装置における非巡回階層型ニューラルネットワークの各ユニット（ニューロン）の入出力イメージを示す概略図である。第２の実施形態のパターン認識装置における動作の一例を示すフローチャートである。第２の実施形態のパターン認識装置における動作の一例を示すフローチャートである。

初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。

図１に一実施形態のパターン認識装置の構成の一例を示したブロック図を示す。一実施形態のパターン認識装置１０は、学習データ取得部１１と、揺らぎノイズ生成部１２と、誤差関数値取得部１３と、学習部１４と、を有する。

学習データ取得部１１は、複数のパターンを含む入力データと、教師データとの組を取得する。揺らぎノイズ生成部１２は、所定の分布に基づく値である揺らぎノイズを生成する。誤差関数値取得部１３は、揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する。学習部１４は、誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う。

揺らぎノイズ生成部１２は更に、最適化により学習が完了した後に別の分布に基づく別の揺らぎノイズを生成する。学習部１４は更に、別の揺らぎノイズと学習データを用いて再学習を行う。

このように一実施形態のパターン認識装置１０は、揺らぎノイズにより誤差関数を最適化して一旦学習が終了した後に、別の分布に基づく別の揺らぎノイズを用いて再学習を行う事により、より汎化能力が高いモデルの学習が可能である。

［第１の実施形態］
［装置の構成］
第１の実施形態のパターン認識装置１０は、一実施形態と同様に、学習データ取得部１１と、揺らぎノイズ生成部１２と、誤差関数値取得部１３と、学習部１４と、を有する。

また、一実施形態と同様に、揺らぎノイズ生成部１２は、最適化により学習が完了した後に別の分布に基づく別の揺らぎノイズを生成し、学習部１４は、別の揺らぎノイズと学習データを用いて再学習を行う。

本実施形態の特徴点は、揺らぎノイズ生成部１２が生成する揺らぎノイズ、及び別の揺らぎノイズは正規分布に従い、揺らぎノイズの分散がσ１^２であり、別の揺らぎノイズの分散がσ２^２であるとき、σ１^２＜σ２^２の関係を有する点である。

学習データ取得部１１は、複数のパターンを含む入力データと、教師データとの組を取得する。学習データを蓄積している記憶域から学習データを取得し、学習部１４に送る。取得はネットワークを介して行ってもよい。本実施形態のパターン認識装置１０は、主に非巡回階層型（フィードフォワード）の神経回路網モデルに基づいているため、入力データとこれに対応する教師データとを学習部１４にて提示する。

揺らぎノイズ生成部１２は、所定の分布に基づく値である揺らぎノイズを生成する。「揺らぎノイズ」とは、既知の揺らぎ駆動式学習法にて用いられるノイズであって、本実施形態のパターン認識装置１０を構成する神経回路網モデルの各ユニットの活性値に付加される乱数値である。「所定の分布」とは例えば、正規分布に基づく乱数値であってもよい。

上述の通り、揺らぎノイズ生成部１２は更に、最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成する。「別の分布」とは、例えば、当初の学習に使用するために生成される、正規分布に従う揺らぎノイズ値と同じ正規分布であっても、互いに異なる分散値を有する分布を含む。

すなわち、揺らぎノイズの分散がσ１^２であり、別の揺らぎノイズの分散がσ２^２であるとき、例えば、σ１^２≠σ２^２の関係となっていてもよい。更に、上述の通りσ１^２＜σ２^２の関係を有していてもよい。

誤差関数値取得部１３は、揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する。「入力データ」は、学習データ取得部１１で取得された学習データのうちの入力データを指す。入力データはパターン認識装置１０を構成する神経回路網モデル（学習モデル）のニューロンに相当するユニットのうち、入力層に入力される入力ベクトルである。「出力データ」は、同様なユニットのうち、出力層から出力される出力ベクトルを指す。誤差関数は学習データのうちの教師データベクトルと出力ベクトルの乖離に基づく値を誤差関数値として出力する。例えば、誤差関数値は教師データベクトルと出力ベクトルの差分の二乗和であってもよい。

学習部１４は、誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う。「最適化」とは、誤差関数値を最小化する方向にパラメータを修正していくことである。具体的には、所定の更新式に基づいて各ユニット間の結合係数を更新し、誤差関数が最小となる結合係数ベクトルを取得する。

また学習部１４は、揺らぎノイズ生成部１２により生成された別の揺らぎノイズと学習データを用いて再学習を行う。当初生成された揺らぎノイズを使用した学習が収束した後に、今度は別の揺らぎノイズを用いて再学習を行う。別の揺らぎノイズの分布の分散値は上述したように、当初学習に用いた揺らぎノイズの分散値よりも大きくすることが望ましい。またさらに、再学習に用いる学習データは、教師データが当初学習時のものと同一であれば、異なる学習データであってもよい。すなわち、当初学習に用いた学習データ以外の異なる入力データであってもよい。

このように、分散値を大きくして学習モデルを再学習することで、当初学習済みのモデルが訓練誤差を最小化することにより過学習された状態であった場合にはその状態から脱して、汎化能力の向上を目指すことが可能である。

［処理の流れ］
図２は第１の実施形態のパターン認識装置１０の処理の流れを示すフローチャートである。パターン認識装置１０は、まず、複数のパターンを含む入力データと、教師データとの組を取得する（ステップＳ２１）。次に、所定の分布に基づく値である揺らぎノイズを生成する（ステップＳ２２）。揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する（ステップＳ２３）。次に、誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う（ステップＳ２４）。学習の結果として誤差関数値が所定の値を下回るか否かの判断を行い（ステップＳ２５）、所定の値を下回ると（ステップＳ２５、Ｙ）学習が完了し、最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成する（ステップＳ２６）。誤差関数値が所定の値以上であった場合（ステップＳ２５、Ｎ）には、揺らぎノイズを生成するステップ（ステップＳ２２）へ戻り、再び学習を行う。学習が完了した場合、別の揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を再度取得する（ステップＳ２７）。次に別の揺らぎノイズと学習データを用いて再学習を行う（ステップＳ２８）。学習の結果として誤差関数値が所定の値を下回るか否かの判断を行い（ステップＳ２９）、所定の値を下回ると（ステップＳ２９、Ｙ）、再学習が完了し一連の処理は終了する。いっぽう、所定の値以上であると（ステップＳ２９、Ｎ）再び別の揺らぎノイズを生成するステップ（ステップＳ２６）へ戻り再び再学習を行う。

なお、揺らぎノイズを生成する処理（ステップＳ２２及びステップＳ２６）において、誤差関数の値が、前回の学習時もしくは再学習時よりも増加した場合には、生成する揺らぎノイズの分散値（σ１^２及びσ２^２）を、所定の値だけ小さく変更した分布に従った揺らぎノイズを生成するように調整を行ってもよい。

［ハードウエア構成］
次に、第１の実施形態に係るパターン認識装置１０を構成する各種装置のハードウエア構成を説明する。図３は、第１の実施形態に係るパターン認識装置１０のハードウエア構成の一例を示すブロック図である。

パターン認識装置１０は、情報処理装置（コンピュータ）により構成可能であり、図３に例示する構成を備える。例えば、パターン認識装置１０は、内部バス３５により相互に接続される、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉt）３１、メモリ３２、入出力インタフェース３３及び通信手段であるＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）３４等を備える。

但し、図３に示す構成は、パターン認識装置１０のハードウエア構成を限定する趣旨ではない。パターン認識装置１０は、図示しないハードウエアを含んでもよいし、必要に応じて入出力インタフェース３３を備えていなくともよい。また、パターン認識装置１０に含まれるＣＰＵ等の数も図３の例示に限定する趣旨ではなく、例えば、複数のＣＰＵがパターン認識装置１０に含まれていてもよい。

メモリ３２は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、補助記憶装置（ハードディスク等）である。

入出力インタフェース３３は、図示しない表示装置や入力装置のインタフェースとなる手段である。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置である。

パターン認識装置１０の機能は、処理モジュールである学習データ取得プログラムと、ノイズ生成プログラムと、誤差関数値取得プログラムと、学習プログラム等と、メモリ３２に保持されている各ニューロンに相当する活性値により実現される。当該処理モジュールは、例えば、メモリ３２に格納されたプログラムをＣＰＵ３１が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。更に、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能を何らかのハードウエア、及び／又は、ソフトウエアで実行する手段があればよい。

［ハードウエアの動作］
パターン認識装置１０は動作を開始すると、学習データ取得プログラムがメモリ３２から呼び出されＣＰＵ３１にて実行状態となる。同プログラムはＮＩＣ３４や入出力インタフェース３３等を介して学習データ（入力パターンｑ及び教師データｔ）を受け付けると、メモリ３２に一時的に格納する。次に揺らぎノイズ生成プログラムがメモリ３２から呼び出されＣＰＵ３１にて実行状態となる。同プログラムは、所定の分布に基づく値、すなわち分散σ１^２、平均値μを有する正規分布に従う乱数値ベクトルｎ１を生成する。生成されたｎはメモリ３２に一時的に格納される。

次に、誤差関数値取得プログラムがメモリ３２から呼び出され、ＣＰＵ３１にて実行状態となる。同プログラムはメモリ３２に格納しているベクトルｎ１を、学習モデルの各ユニットの活性化関数ｆの活性値に付加する。同プログラムは、学習モデルの入力層に学習データの入力パターンｑに結合係数である重みｗをかけ合わせた入力ベクトルを入力し、これに各ユニット層の各ユニットで順方向の演算をＣＰＵ３１にて行う。演算の結果、出力層の各ユニットからの出力ｕを得ると、ｕとメモリ３２に格納されている学習データのうち教師データｔの二乗誤差である誤差関数値ｅをＣＰＵ３１の演算により算出する。

次に学習プログラムがメモリ３２から呼び出され、ＣＰＵ３１にて実行状態となる。同プログラムは学習モデルの各ユニット間の重みｗを所定のｅの更新式（後述）で更新する。更新が完了すると、ＣＰＵ３１にて再度順方向の演算を行い、出力層から出力が得られると誤差関数値ｅを算出する。ｅの値が所定の基準値を下回った場合には学習が終了する。所定の基準値以上であった場合には、再度他の入力パターンを入力し、揺らぎノイズを生成し、誤差関数値を算出し、学習プログラムによる学習を実行する。

学習が一旦終了すると、揺らぎノイズ生成プログラムが再度実行状態となり、ＣＰＵ３１の演算処理により、今度は分散σ２^２（σ２^２＞σ１^２）、平均値μを有する正規分布に従う乱数値ベクトルｎ２を生成する。次に誤差関数値取得プログラム及び学習プログラムが再度実行状態となり、上述のように、誤差関数値を取得し、誤差関数値を最適化するための処理を繰り返し、再学習を行う。

［効果の説明］
本実施形態のパターン認識装置１０は、揺らぎノイズにより誤差関数を最適化して一旦学習が終了した後に、別の分布に基づく別の揺らぎノイズを用いて再学習を行う事により、より汎化能力が高いモデルの学習が可能である。すなわち、揺らぎノイズの分散値を大きくして学習モデルを再学習することで、当初学習済みのモデルが訓練誤差を最小化することにより過学習された状態であった場合にはその状態から脱して、汎化能力の向上を目指すことが可能である。

［第２の実施形態］
［構成］
図４は第２の実施形態のパターン認識装置１０の構成を示す図である。第２の実施形態のパターン認識装置１０は、ＣＰＵ、ＲＡＭ及びＲＯＭから構成される処理部４１と、いずれもＲＡＭやＲＯＭから構成される学習データ記憶部４２、ニューロン出力値計算部４３、出力データ記憶部４４、正解データ記憶部４５、学習誤差計算部４６、正規乱数発生部４７からなる。

［動作の説明］
第２の実施形態では、パターン群を学習する問題において、非巡回階層型ニューラルネットワークを、入力される学習データに一対一に対応した教師信号を出力するように、揺らぎ駆動式学習法を用いて学習する。

非巡回階層型ニューラルネットワークの学習モデルのネットワーク構成は、図５のようになり、各ユニット（ニューロン）の入出力イメージは、図６のようになる。具体的には、揺らぎノイズを含むユニットの出力は、数式１で表される。ｐは、学習パターン番号を表し、ｔは、時刻を表す。

数式１において、それぞれ、下記のようになる。

（シグモイド関数）

（活性値）

（膜電位）

なお数式２にあるように、第２の実施形態のパターン認識装置では各ユニットの活性化関数はシグモイド関数を採用しているが、特にこれに限られない。シグモイド関数は微分可能な連続関数であるが、ｔａｎｈ関数（Ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔｆｕｎｃｔｉｏｎ）や不連続なＲｅＬＵを採用したり、これらを混在したりさせてもよい。

ここで揺らぎノイズはn(t)、結合係数はベクトルｗ、パターンｐの入力データはベクトルq(p,t)、時間はtである。また誤差関数e(p,t)は数式５で表せるような二乗誤差とする。

数式５にて、t_k(p)は、入力パターンpとしたときの、出力ユニットkに対応する教師信号を表す。揺らぎノイズn(t)が正規乱数であるとすると、数式５の誤差を小さくするための結合係数ｗの更新式は、数式６で表される。なお、数式６の

は、期間T_pのe(p,t), n_k(t)及びベクトルq_k(p,t)の積の平均を表す。

数式６で逐次的に結合係数ｗを更新することで、数式５で計算される誤差を小さくできる。すなわち、学習データが入力されたときの学習モデルの出力を教師信号へ近付けることができ、入力学習データと教師信号の対を学習することができる。

従来技術では、揺らぎノイズn_k(t)に、数式７のような確率密度関数の正規乱数を使用し、分散σ_ｋ ^２は、固定値としていた。

図７及び図８は第２の実施形態におけるパターン認識装置の動作の一例を示すフローチャートである。図７及び図８中では、分散σ_ｋ ^２を簡単にdと記述している。まず、最初の学習パターンp=1を学習モデルに与えた時の、全ニューロンの活性値v(p,t)を、数式３で計算する。

なお、数式３のn(t)は、期間T_p中に全ニューロンへ入力される揺らぎノイズであり、数式８からなる確率密度関数を持つ正規乱数により生成される。

まず、図７のフローチャートの左側に初回学習と記載のあるループで、誤差が十分小さくなるまで学習を行う。誤差が十分小さくなったら、初回学習終了とする。その後、正規分布の分散を初回学習の分散σ_ｋ ^２よりも大きくして、図８のフローチャートの左側に汎化能力向上学習と記載のあるループで、それ以降の汎化能力向上学習を行う。もし、汎化能力向上学習にて学習誤差が増加した場合は、分散を現在用いている分散よりも小さくして、汎化能力向上学習を継続する。この処理によって、初回学習終了時よりも汎化能力が低下することを防止している。

ここでは、例として、分散σ_ｋ ^２に比べて小さな正の値αを考える。汎化能力向上学習の初期値分散として、σ_ｋ ^２+αを使用する。もし、σ_ｋ ^２+αの分散を使用して、汎化能力向上学習中の学習誤差が大きくなった場合は、他の小さな正の値γを考え、分散をσ_ｋ ^２+α-γへ変更し、汎化能力向上学習を継続する。汎化能力向上学習は、学習誤差の値が十分小さくなる（所定の値を下回る）まで継続する。

なお、汎化能力向上学習の分散σ_ｋ ^２の初期値として定数αを使用したが、初回学習で使用した分散σ_ｋ ^２から数式９のように算出してもよい。ここで、nは、正の値とする。

上記の実施形態の一部又は全部は、以下のようにも記載され得るが、以下には限られない。
［形態１］
上述の第一の視点に係るパターン認識装置のとおりである。
［形態２］
揺らぎノイズ生成部が生成する揺らぎノイズ、及び別の揺らぎノイズは正規分布に従う、好ましくは形態１のパターン認識装置。
［形態３］
揺らぎノイズの分散がσ１^２であり、別の揺らぎノイズの分散がσ２^２であるとき、σ１^２＜σ２^２の関係を有する、好ましくは形態２のパターン認識装置。
［形態４］
揺らぎノイズ生成部は、誤差関数値取得部における誤差関数の値が、前回の学習時もしくは再学習時よりも増加した場合には、σ２^２の値を、所定の値だけ小さく変更した分布に従った揺らぎノイズを生成する、好ましくは形態３のパターン認識装置。
［形態５］
学習部は、誤差関数の値が、所定の誤差より大きい場合には学習を継続し、所定の誤差を下回った場合には、学習を終了する、好ましくは形態１から形態４のパターン認識装置。
［形態６］
上述の第二の視点に係る学習方法のとおりである。
［形態７］
揺らぎノイズ、及び別の揺らぎノイズは正規分布に従う、好ましくは形態６の学習方法。
［形態８］
揺らぎノイズの分散がσ１^２であり、別の揺らぎノイズの分散がσ２^２であるとき、σ１^２＜σ２^２の関係を有する、好ましくは形態７の学習方法。
［形態９］
誤差関数の値が、前回の学習時もしくは再学習時よりも増加した場合には、σ２^２の値を、所定の値だけ小さく変更した分布に従った揺らぎノイズを生成する、好ましくは形態８の学習方法。
［形態１０］
上記第三の視点に係るプログラムのとおりである。
なお、形態１０は、形態１と同様に、形態２～形態５に展開することが可能である。

引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示（請求の範囲を含む）の枠内において、更にその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素（各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む）の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。

１０：パターン認識装置
１１：学習データ取得部
１２：揺らぎノイズ生成部
１３：誤差関数値取得部
１４：学習部
３１：ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
３２：メモリ
３３：入出力インタフェース
３４：ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）
３５：内部バス
４１：処理部
４２：学習データ記憶部
４３：ニューロン出力値計算部
４４：出力データ記憶部
４５：正解データ記憶部
４６：学習誤差計算部
４７：正規乱数発生部

Claims

複数のパターンを含む入力データと、教師データとの組を取得する学習データ取得部と、
所定の分布に基づく値である揺らぎノイズを生成する揺らぎノイズ生成部と、
揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する誤差関数値取得部と、
前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う学習部と、
を有し、
前記揺らぎノイズ生成部は、最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成し、
前記学習部は、前記別の揺らぎノイズと学習データを用いて再学習を行う、
パターン認識装置。
前記揺らぎノイズ生成部が生成する揺らぎノイズ、及び別の揺らぎノイズは正規分布に従う、
請求項１に記載のパターン認識装置。
前記揺らぎノイズの分散がσ１^２であり、前記別の揺らぎノイズの分散がσ２^２であるとき、σ１^２＜σ２^２の関係を有する、
請求項２に記載のパターン認識装置。
前記揺らぎノイズ生成部は、前記誤差関数値取得部における誤差関数の値が、前回の学習時もしくは再学習時よりも増加した場合には、σ２^２の値を、所定の値だけ小さく変更した分布に従った揺らぎノイズを生成する、
請求項３に記載のパターン認識装置。
前記学習部は、前記誤差関数の値が、所定の誤差より大きい場合には学習を継続し、所定の誤差を下回った場合には、学習を終了する、請求項１から４のいずれか１項に記載のパターン認識装置。
以下のステップをコンピュータに実行させるための学習方法であって、
複数のパターンを含む入力データと、教師データとの組を取得するステップと、
所定の分布に基づく値である揺らぎノイズを生成するステップと、
揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得するステップと、
前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行うステップと、
最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成するステップと、
前記別の揺らぎノイズと学習データを用いて再学習を行うステップと、
を含む学習方法。
前記揺らぎノイズ、及び前記別の揺らぎノイズは正規分布に従う、
請求項６に記載の学習方法。
前記揺らぎノイズの分散がσ１^２であり、前記別の揺らぎノイズの分散がσ２^２であるとき、σ１^２＜σ２^２の関係を有する、
請求項７に記載の学習方法。
前記誤差関数の値が、前回の学習時もしくは再学習時よりも増加した場合には、σ２^２の値を、所定の値だけ小さく変更した分布に従った揺らぎノイズを生成する、
請求項８に記載の学習方法。
複数のパターンを含む入力データと、教師データとの組を取得する処理と、
所定の分布に基づく値である揺らぎノイズを生成する処理と、
揺らぎノイズと入力データとに基づく出力データと、教師データと、の間の乖離を示す誤差関数の値を取得する処理と、
前記誤差関数を最適化することによりパターン認識のための学習モデルの学習を行う処理と、
最適化により学習が完了した後に使用する、別の分布に基づく別の揺らぎノイズを生成する処理と、
前記別の揺らぎノイズと学習データを用いて再学習を行う処理と、
をコンピュータに実行させるためのプログラム。