JP3618007B2

JP3618007B2 - ニューラルネットワークの学習装置及び学習方法

Info

Publication number: JP3618007B2
Application number: JP01181195A
Authority: JP
Inventors: 澄夫渡辺
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1995-01-27
Filing date: 1995-01-27
Publication date: 2005-02-09
Anticipated expiration: 2020-02-09
Also published as: JPH08202674A

Description

【０００１】
【産業上の利用分野】
本発明は、ニューラルネットワークの学習装置及び学習方法に関する。
【０００２】
【従来の技術】
現在、画像認識、画像分類、音声認識、音声分類、運動制御、システム制御、知能システムなど、フォンノイマンコンピュータでは困難な信号処理を実行するため、ニューラルネットワークを利用することが提案されている。このようなニューラルネットワークは、多数のニューロンをシナプスにより結合してネットワークを形成したもので、学習する機能を有する。
【０００３】
ニューラルネットワークの学習方法としては、各種方法が提案されているが、その一つとして損失関数を最小化させる方法がある。例えば、ニューラルネットワークが“ｘ”の入力に対して“ｙ”を出力する場合、これは“θ”なるパラメータを有する“ｆ”なる関数により“ｙ＝ｆ（θ：ｘ）”として表現される。そこで、適正な組み合わせのｎ個の学習データ“ｘ_ｉ，ｙ_ｉ ”（ｉ＝１〜ｎ）を用意し、学習データ“ｘ_ｉ ”をニューラルネットワークに入力し、このニューラルネットワークから出力されるデータ“ｙ”と学習データ“ｙ_ｉ ”とを比較し、この隔たりを示す損失関数
【０００４】
【数９】

【０００５】
が最小化されるようパラメータ“θ”を修正する。このようにニューラルネットワークのパラメータ“θ”を修正することにより、このパラメータ“θ”を真のパラメータに収束させることができるので、データ“ｘ”の入力に対して適正なデータ“ｙ”を出力するようにニューラルネットワークを学習させることができる。
【０００６】
現在、このような損失関数によるニューラルネットワークの学習方法の改良案として、損失関数に適当な正則化項を付加することが知られている。この場合、損失関数に正則化項“λＱ（θ）”を付加した関数
【０００７】
【数１０】

【０００８】
を想定し、これが最小化されるようニューラルネットワークのパラメータ“θ”を修正する。なお、以下の説明では、損失関数に正則化項を付加した関数を付加損失関数と呼称する。
【０００９】
【発明が解決しようとする課題】
上述のように付加損失関数により、さらに良好にニューラルネットワークを学習させることができる。
【００１０】
しかし、上述のような付加損失関数を利用したニューラルネットワークの学習方法は、真のパラメータ“θ”が一つの場合には有効であるが、真のパラメータ“θ”が複数の場合には、その限りでない。
【００１１】
請求項１記載の発明は、パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習装置において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数
【数１１】

と正規化項“λＱ（θ）”とからなる関数
【数１２】

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α _n ／ｎ
０＜α _n ＜ｎ
を満足する。
【００１６】
請求項２記載の発明は、パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習装置において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数
【数１３】

と正規化項“λＱ（θ）”とからなる関数
【数１４】

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α _n ／ｎ
０＜α _n ＜√ｎ
を満足する。
【００２１】
請求項３記載の発明は、請求項１又は２記載の発明において、正則化項をパラメータの個数が少ない数式により設定した。
【００２２】
請求項４記載の発明は、パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習方法において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数
【数１５】

と正規化項“λＱ（θ）”とからなる関数
【数１６】

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α _n ／ｎ
０＜α _n ＜ｎ
を満足する。
【００２７】
請求項５記載の発明は、パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習方法において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数
【数１７】

と正規化項“λＱ（θ）”とからなる関数
【数１８】

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α _n ／ｎ
０＜α _n ＜√ｎ
を満足する。
【００３２】
請求項６記載の発明は、請求項４又は５記載の発明において、正則化項をパラメータの個数が少ない数式により設定した。
【００３３】
【作用】
請求項１及び４記載の発明では、損失関数に付加する正則化項の係数“λ”が、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜ｎ
を満足するので、ニューラルネットワークのパラメータ“θ”が真のパラメータの任意の一つに収束される。
【００３４】
請求項２及び５記載の発明では、損失関数に付加する正則化項の係数“λ”が、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜√ｎ
を満足するので、ニューラルネットワークのパラメータ“θ”が複数の真のパラメータの特定の一つに収束される。
【００３５】
請求項３及び６記載の発明では、正則化項の数式のパラメータの個数が少ないので、ニューラルネットワークのパラメータ“θ”が、複数の真のパラメータのうち結合荷重のパラメータの個数が少ないものに収束される。
【００３６】
【実施例】
本発明の一実施例を図１及び図２に基づいて以下に説明する。まず、本実施例の学習装置１は、図１に示すように、データ記憶手段２、データ入力手段３、データ比較手段４、パラメータ修正手段５、を有しており、ニューラルネットワーク６に接続されている。
【００３７】
このニューラルネットワーク６は、可変自在なパラメータ“θ”を有する関数“ｆ”が設定された多層パーセプトロンからなり、データ“ｘ”の入力に対してデータ“ｙ”を出力する。
【００３８】
そして、前記データ記憶手段２には、ニューラルネットワーク６の学習に適正な組み合わせの学習データ“ｘ_ｉ，ｙ_ｉ ”が予め設定されている。前記データ入力手段３は、前記データ記憶手段２から一つの学習データ“ｘ_ｉ ”を読み出して前記ニューラルネットワーク６に入力し、前記データ比較手段４は、前記ニューラルネットワーク６から出力されるデータ“ｙ”と前記データ記憶手段２から読み出した学習データ“ｙ_ｉ ”とを比較する。前記パラメータ修正手段５は、“ｙ”と“ｙ_ｉ ”との隔たりを示す付加損失関数が予め設定されており、この付加損失関数が最小化されるよう前記ニューラルネットワーク６のパラメータ“θ”を設定する。
【００３９】
そして、本実施例の学習装置１では、損失関数
【００４０】
【数１９】

【００４１】
と正則化項“λＱ（θ）”とからなる関数である付加損失関数が
【００４２】
【数２０】

【００４３】
として設定されており、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜ｎ
を満足する。なお、付加損失関数“Ｌｎ（θ）”の正則化項“λＱ（θ）”は、
【００４４】
【数２１】

【００４５】
として、パラメータの個数が少ない数式により設定されている。
【００４６】
このような構成において、本実施例の学習装置１におけるニューラルネットワーク６の学習方法を、図２に基づいて以下に説明する。
【００４７】
まず、パラメータ修正手段５によりニューラルネットワーク６のパラメータ“θ”をランダムに初期化し、データ入力手段３によりデータ記憶手段２から一つの学習データ“ｘ_ｉ ”を読み出してニューラルネットワーク６に入力する。すると、このニューラルネットワーク６は、パラメータ“θ”を有する関数“ｆ”により、学習データ“ｘ_ｉ ”の入力に対応してデータ“ｙ”を出力する。この時、データ比較手段４は、学習データ“ｘ_ｉ ”に対応した学習データ“ｙ_ｉ ”をデータ記憶手段２から読み出しており、この学習データ“ｙ_ｉ ”とニューラルネットワーク６の出力データ“ｙ”とを比較する。
【００４８】
そこで、パラメータ修正手段５は、比較結果を評価してニューラルネットワーク６のパラメータ“θ”を修正し、この“θ”で付加損失関数“Ｌｎ（θ）”を計算する。つぎに、この付加損失関数“Ｌｎ（θ）”を充分に小さな閾値“ε”と比較し、この閾値“ε”より付加損失関数“Ｌｎ（θ）”が小さい場合は処理を終了する。なお、閾値“ε”より付加損失関数“Ｌｎ（θ）”が大きい場合は、データ入力手段３によりデータ記憶手段２から次の学習データ“ｘ_ｉ ”が読み出されて処理が繰り返される。
【００４９】
上述のように学習をｎ個の学習データにより順次繰り返すことにより、付加損失関数“Ｌｎ（θ）”が最小化されるよう、ニューラルネットワーク６のパラメータ“θ”が設定されるので、これは真のパラメータに確率収束される。この時、本実施例の学習装置１では、付加損失関数“Ｌｎ（θ）”が
【００５０】
【数２２】

【００５１】
として設定されており、
０＜α_ｎ＜ｎ
を満足するので、真のパラメータが複数の場合でも、ニューラルネットワーク６のパラメータ“θ”は真のパラメータの一つに確率収束される。しかも、正則化項“λＱ（θ）”が、
【００５２】
【数２３】

【００５３】
として、パラメータの個数が少ない数式により設定されているので、学習データ“ｘ_ｉ，ｙ_ｉ ”の個数が増大すると、ニューラルネットワーク６のパラメータ“θ”は、真のパラメータの集合のうち個数が最小のものに確率収束される。
【００５４】
そこで、このことを以下に順次説明する。なお、より詳細には、本発明者が発表した“「縮退したＦｉｓｈｅｒ情報行列を持つ系の学習について」信学技報ＮＣ９４−５６（１９９４−１２）Ｐ４１〜Ｐ４８ ”に開示されている。また、以下の説明では、最適な組み合わせの学習データ“ｘ，ｙ”を一つの学習データ“ｘ”として表現する。
【００５５】
まず、推定するパラメータ“θ”の確率密度“Ｐ（ｘ｜θ）”により、付加損失関数
【００５６】
【数２４】

【００５７】
を設定する。真のパラメータの集合“Θ”が一点ではなく多様体であると想定し、ここでは“θ＝（θ_１，θ_２）（θ_１ ∈Θ）”と表現する（なお、“θ_２ ”は“θ_１ ”毎に局所座標に従って“δ_θ _１”にユークリッドの意味で直角になるようにとる）。すると、付加損失関数は、
【００５８】
【数２５】

【００５９】
となるので、一般的な一致性として“θ_１ →Θ”を仮定すると、“θ_２ →０”となる。つまり、
【００６０】
【数２６】

【００６１】
となる。なお、
Ｒ＝Ｏ（θ_２ ^３）＋（α_ｎ／ｎ）Ｏ（θ_２ ^２）
である。
【００６２】
この場合、第一項は、“θ”によらない定数であり、第二項は、中心極限定理により平均が“０”で共分散行列が“Ｆ（θ_１）／√ｎ”であるような正規分布に従う。なお、
【００６３】
【数２７】

【００６４】
であり、第三項は、大数の定理により、
−（１／２）Ｆ（θ_１）θ_２θ_２′
に収束される。
【００６５】
以上のことより、“ｖ”を“Ｎ（０，Ｉ）に従う確率変数とすると（“Ｉ”は“Ｆ（θ_１）”次の単位行列）、
【００６６】
【数２８】

【００６７】
となる。なお、“Ｒ′”は、
Ｒ′＝Ｏ（θ_２ ^３）＋Ｏ（１／√ｎ）Ｏ（θ_２ ^２）＋Ｏ（１／ｎ）Ｏ（θ_２）＋（α_ｎ／ｎ）Ｏ（θ_２ ^２）
であるので、平方完成すると、
【００６８】
【数２９】

【００６９】
となる。この場合、“Ｆ（θ_１）＞０”とすると、第一項を“０”にするような“θ_２ ”をとることができる（但し、α_ｎ＝ｏ（√ｎ）の仮定は必要）。この時、第二項の大きさは“α_ｎ／ｎ＋‖ｖ‖^２／２ｎ”となるが、“‖ｖ‖^２ ”について学習データの出方の平均をとると“ｒａｎｋＦ（θ_１）”となる。
【００７０】
従って、“θ_１ ”が“θ_０（これは“Ｑ（θ_１，０）”を最大にする“θ_１ ”である）”に収束される十分条件は、付加損失関数が
【００７１】
【数３０】

【００７２】
の場合に、正則化項の係数“λ”が、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜ｎ
を満足することである。この条件を満足した場合、
【００７３】
【数３１】

【００７４】
となり、その分布は、
【００７５】
【数３２】

【００７６】
である。なお、
【００７７】
【数３３】

【００７８】
である。
【００７９】
しかも、本実施例の学習装置１の学習方法では、付加損失関数“Ｌｎ（θ）”の正則化項“λＱ（θ）”が、
【００８０】
【数３４】

【００８１】
として、パラメータ“θ”の個数が少ない数式により設定されているので、ニューラルネットワーク６のパラメータ“θ”は、複数の真のパラメータのうち結合荷重のパラメータの個数が少ないものに収束される。このようにパラメータ“θ”の個数が少ない数式は、
【００８２】
【数３５】

【００８３】
など、
【００８４】
【数３６】

【００８５】
の形であれば良い。
【００８６】
なお、本実施例では付加損失関数“Ｌｎ（θ）”の正則化項“λＱ（θ）”の係数が“−α_ｎ／ｎ”の場合に“０＜α_ｎ＜ｎ”を満足することにより、ニューラルネットワーク６のパラメータ“θ”を、真のパラメータの任意の一つに確率収束させることを例示した。しかし、本発明は上記実施例に限定されるものではなく、“０＜α_ｎ＜√ｎ”を満足することにより、ニューラルネットワーク６のパラメータ“θ”を、真のパラメータのうち正則化項“λＱ（θ）”を最大とする特定の一つに確率収束させることも可能である。
【００８７】
また、本実施例の学習装置１では、付加損失関数“Ｌｎ（θ）”の正則化項“λＱ（θ）”の係数が“−α_ｎ／ｎ”の場合に、“０＜α_ｎ＜ｎ”か“０＜α_ｎ＜√ｎ”かを満足することを例示したが、これを“１＜α_ｎ＜ｎ”や“１＜α_ｎ＜√ｎ”とすることにより、より良好にパラメータを確率収束させることも可能である。さらに、本実施例では、ニューラルネットワーク６が多層パーセプトロンからなることを例示したが、本発明は上記実施例に限定されるものではなく、ボルツマンマシンなどのニューラルネットワークにも適用可能である。
【００８８】
【発明の効果】
請求項１及び４記載の発明は、損失関数に付加する正則化項の係数“λ”が、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜ｎ
を満足することにより、ニューラルネットワークのパラメータ“θ”を真のパラメータの一つに収束させることができる。
【００８９】
請求項２及び５記載の発明は、損失関数に付加する正則化項の係数“λ”が、
λ＝−α_ｎ／ｎ
０＜α_ｎ＜√ｎ
を満足することにより、ニューラルネットワークのパラメータ“θ”を、真のパラメータのうち正則化項“λＱ（θ）”を最大とする特定の一つに収束させることができる。
【００９０】
請求項３及び６記載の発明では、正則化項の数式のパラメータの個数が少ないことにより、ニューラルネットワークのパラメータ“θ”を、複数の真のパラメータのうち結合荷重のパラメータの個数が少ないものに収束させることができる。
【図面の簡単な説明】
【図１】本発明の一実施例のニューラルネットワークの学習装置を示すブロック図である。
【図２】ニューラルネットワークの学習方法を示すフローチャートである。
【符号の説明】
１学習装置
３データ入力手段
４データ比較手段
５パラメータ修正手段
６ニューラルネットワーク

Claims

パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習装置において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数

と正規化項“λＱ（θ）”とからなる関数

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α_n／ｎ
０＜α_n＜ｎ
を満足することを特徴とするニューラルネットワークの学習装置。
パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習装置において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数

と正規化項“λＱ（θ）”とからなる関数

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α_n／ｎ
０＜α_n＜√ｎ
を満足することを特徴とするニューラルネットワークの学習装置。
正則化項をパラメータの個数が少ない数式により設定したことを特徴とする請求項１又は２記載のニューラルネットワークの学習装置。
パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習方法において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数

と正規化項“λＱ（θ）”とからなる関数

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α_n／ｎ
０＜α_n＜ｎ
を満足することを特徴とするニューラルネットワークの学習方法。
パラメータを有する関数“ｆ”によりデータ“ｘ”の入力に対してデータ“ｙ”を出力するニューラルネットワークを利用し、
ニューラルネットワークの学習に適正な組み合わせのｎ個の学習データ“ｘ _i ，ｙ _i ”（ｉ＝１〜ｎ）が予め設定されたデータ記憶手段と、
前記データ記憶手段から一の学習データ“ｘ _i ”を読み出し前記ニューラルネットワークに入力するデータ入力手段と、
前記ニューラルネットワークによって出力された“ｙ”と前記データ記憶手段から前記データ入力手段に読み出された学習データ“ｘ _i ”に対応する“ｙ _i ”を前記データ記憶手段から読み出して比較するデータ比較手段と、
前記データ比較手段によって比較された“ｙ”と“ｙ _i ”の隔たりからパラメータθを修正するパラメータ修正手段と、
を接続したニューラルネットワークの学習方法において、
前記データ比較手段が前記データ入力手段により学習データ“ｘ _i ”を前記ニューラルネットワークに入力して出力されるデータ“ｙ”と学習データ“ｙ _i ”とを比較し、前記パラメータ修正手段がこの隔たりを示す損失関数

と正規化項“λＱ（θ）”とからなる関数

が最小化されるようパラメータθを修正する際に、
正則化項の係数“λ”が、
λ＝−α_n／ｎ
０＜α_n＜√ｎ
を満足することを特徴とするニューラルネットワークの学習方法。
正則化項をパラメータの個数が少ない数式により設定したことを特徴とする請求項４又は５記載のニューラルネットワークの学習方法。