JP2022085164A

JP2022085164A - データ処理装置、ニューラルネットワークの深層学習の方法及びプログラム

Info

Publication number: JP2022085164A
Application number: JP2020196700A
Authority: JP
Inventors: 研一中里; Kenichi Nakazato
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2022-06-08
Also published as: DE102021212483A1

Abstract

【課題】予測のロバスト性の向上。【解決手段】ニューラルネットワークの深層学習を行うデータ処理装置（１Ｃ）は、パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）を有し、予測データを出力する計算処理部（１１）と、訓練データを用いて前記パラメータを更新する学習処理部（１２Ｃ）と、を備える。学習処理部（１２Ｃ）は、訓練データとノイズデータとを混合した訓練データ群を生成し、訓練データ群の各入力データからニューラルネットワーク（３０）により計算される予測データと、各入力データと対の出力データとに基づいて、パラメータを１回更新するミニバッチ学習を実行する。学習処理部（１２Ｃ）は、ミニバッチ学習の実行を、訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す。【選択図】図７

Description

本発明は、データ処理装置、ニューラルネットワークの深層学習の方法及びプログラムに関する。

従来、予測モデルの１つとしてニューラルネットワークが知られている。ニューラルネットワークでは、入力データと出力データの組み合わせを訓練データとして学習させる。訓練データは、広大なデータ空間において限定されたいくつかの組み合わせである。予測モデルでは、この限定された訓練データから未知のデータに対しても最適解を出力することが求められる。

予測モデルでは、入力データが微妙に変化しただけで出力データが変化し、予測が脆弱になることがある。例えば、入力データにノイズ成分が含まれる場合、出力データが影響を受け、予測結果が不安定になることがある。このような訓練データ周辺のノイズによる脆弱性を回避する方法がいくつか提案されている（例えば、特許文献１及び２参照）。

特開２０２０－５２５１３号公報米国特許出願公開第２０２０／０２６９９６号明細書

訓練データ数によっては、訓練データの入力データの周辺に対する出力データは必ずしも訓練データの出力データ周辺にあるとは限らない。その周辺に対する出力データの境界の複雑性により予測は脆弱になり得る。よって、訓練データそのものに依存しない方法で脆弱性を回避し、入力データがわずかに変化した場合でも最適解を出力するロバスト性の向上が求められる。

本発明は、予測のロバスト性の向上を目的とする。

本発明の一態様は、ニューラルネットワークの深層学習を行うデータ処理装置（１Ｃ）である。データ処理装置（１Ｃ）は、パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）を有し、前記予測データを出力する計算処理部（１１）と、あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新する学習処理部（１２Ｃ）と、を備える。学習処理部（１２Ｃ）は、前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成し、前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとの誤差の平均が小さくなるように、前記パラメータを１回更新するミニバッチ学習を実行する。学習処理部（１２Ｃ）は、前記訓練データ群の生成と前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す。

本発明の他の一態様は、パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）の深層学習の方法である。当該方法は、あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新するステップを含む。前記パラメータを更新するステップは、前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成するステップと、前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとの誤差の平均が小さくなるように、前記パラメータを１回更新するミニバッチ学習を実行するステップと、を含み、前記訓練データ群の生成と前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す。

本発明の他の一態様は、パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）の深層学習を行うためにコンピュータにより実行されるプログラムである。前記プログラムは前記コンピュータに、あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新するステップを実行させる。前記パラメータを更新するステップは、前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成するステップと、前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとの誤差の平均が小さくなるように、前記パラメータを１回更新するミニバッチ学習を実行するステップと、を含み、前記訓練データ群の生成と前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す。

本発明によれば、予測のロバスト性を向上させることができる。

第１実施形態のデータ処理装置の構成を示す図である。多層のニューラルネットワークの一例を示す図である。データ処理装置の実装例であるシステムの構成を示す図である。第１実施形態における学習処理のフローチャートである。第２実施形態のデータ処理装置の構成を示す図である。ドロップアウトが実施されたニューラルネットワークを示す図である。第３実施形態のデータ処理装置の構成を示す図である。第３実施形態における学習処理のフローチャートである。出力境界の複雑性を概念的に示す図である。第４実施形態における学習処理のフローチャートである。第５実施形態のデータ処理装置の構成を示す図である。第５実施形態における前処理のフローチャートである。第６実施形態における前処理のフローチャートである。

以下、本発明のデータ処理装置、ニューラルネットワークの深層学習の方法及びプログラムの実施の形態について、図面を参照して説明する。以下に説明する構成は本発明の一例（代表例）であり、本発明はこの構成に限定されない。

〔第１実施形態〕
図１は、本発明の第１実施形態のデータ処理装置１Ａの構成を示す。
データ処理装置１Ａは、計算処理部１１及び学習処理部１２Ａを備える。データ処理装置１Ａは、ニューラルネットワークの深層学習を行う。深層学習とは、多層のニューラルネットワークの機械学習をいう。

（計算処理部）
計算処理部１１は、入力データｘから予測データｙ^＊を計算する。予測データｙ^＊は、複数の解のいずれかに属する確率を表すデータ（例えば０～１の多値）である。計算処理部１１はパラメータθが設定された多層のニューラルネットワークを有し、当該ニューラルネットワークによりパラメータθを用いて予測データｙ^＊の計算を行う。

図２は、多層のニューラルネットワーク３０の一例を示す。
ニューラルネットワーク３０は、入力層４ａ、２つの隠れ層４ｂ及び出力層４ｃを含む。入力層４ａ、隠れ層４ｂ及び出力層４ｃは、この順に一列に配置され、後続の層と接続される。

ニューラルネットワーク３０は、各層内に複数のノード３１と、各層のノード３１を接続する複数のエッジ３２と、を備える。各ノード３１には、バイアスｂのパラメータ及び活性化関数ｆｎが関連付けられている。各エッジ３２には、重みｗｉのパラメータが関連付けられている。

ニューラルネットワーク３０では、次のような順伝搬計算が行われる。
まず入力データｘｉが入力層４ａの各ノード３１に入力される。ｘｉは、ｉ個の変数ｘ１、ｘ２、・・・、ｘｉの集合を意味する。この入力データｘｉは、入力層４ａから隠れ層４ｂの各ノード３１へエッジ３２を介して出力される。

隠れ層４ｂの各ノード３１では、入力データｘｉから出力データｙｉが計算される。下記式（１）及び（２）は、その計算式を示す。

上記式（１）及び（２）において、ｗｉはエッジ３２に関連付けられた重みを表す。ｂはノード３１に関連付けられたバイアスを表す。ｆｎは、ノード３１に関連付けられた活性化関数を表す。

計算された出力データｙｉは後続の層の各ノード３１へとエッジ３２を介して出力される。後続の層のノード３１においては、前層の各ノード３１からのｉ個の出力データｙｉを入力データｘｉとして上記と同様の計算が行われる。最終的に、出力層４ｃのノード３１において計算された出力データｙｉが予測データｙ^＊として出力される。

なお、ニューラルネットワーク３０における層の数及び各層のノード３１の数は適宜設定可能である。

（学習処理部）
学習処理部１２Ａは、計算処理部１１のニューラルネットワーク３０に訓練データを学習させる。学習によって、ニューラルネットワーク３０に設定されたパラメータθが更新される。本実施形態の学習処理部１２Ａは、１つの訓練データを用いてパラメータθを１回更新するオンライン学習だけでなく、複数の訓練データからなる訓練データ群を用いてパラメータθを１回更新するミニバッチ学習を実施することができる。

学習処理部１２Ａは、取得部１２１、データ保存部１２２、データ生成部１２３、更新部１２４及び混合制御部１２５を備える。

取得部１２１は、データ保存部１２２から学習に使用する訓練データＤ（ｘ，ｙ）を取得する。ミニバッチ学習の場合、取得部１２１は、複数の訓練データＤ（ｘ，ｙ）からなる訓練データ群を生成することができる。

取得部１２１は、データ生成部１２３からノイズデータＤｎ（ｘ，ｙ）を取得し、訓練データＤ（ｘ，ｙ）にノイズデータＤｎ（ｘ，ｙ）を混合した訓練データ群を生成することもできる。

データ保存部１２２は、訓練データＤ（ｘ，ｙ）を保存する。訓練データＤ（ｘ，ｙ）は、あらかじめ関連付けられた入力データｘと出力データｙの対である。訓練データＤ（ｘ，ｙ）において、入力データｘと出力データｙは例題と解の関係にある。

データ生成部１２３は、ノイズデータＤｎ（ｘ，ｙ）を生成する。ノイズデータＤｎ（ｘ，ｙ）は、訓練データＤ（ｘ，ｙ）とは異なる入力データｘと出力データｙの対である。ノイズデータＤｎ（ｘ，ｙ）の入力データｘと出力データｙは、訓練データＤ（ｘ，ｙ）のように例題と解の関係にあるか否かによらず、互いに独立した関係にある。

具体的には、ノイズデータＤｎ（ｘ，ｙ）の入力データｘは、訓練データＤ（ｘ，ｙ）の入力データｘと同じデータ空間に存在するデータ群のなかから、任意に抽出される。この入力データｘの抽出とは別に、訓練データＤ（ｘ，ｙ）の出力データｙと同じデータ空間に存在するデータ群のなかから、ノイズデータＤｎ（ｘ，ｙ）の出力データｙが任意に抽出される。それぞれ独立して抽出された入力データｘと出力データｙの組み合わせから、訓練データＤ（ｘ，ｙ）の入力データｘと出力データｙの組み合わせが排除されたものが、ノイズデータＤｎ（ｘ，ｙ）である。

訓練データＤ（ｘ，ｙ）においては、例題と解の関係があらかじめ認識された入力データｘと出力データｙとが関連付けられている。例えば猫か犬かを予測する場合、猫の写真から抽出された特徴が入力データｘとして、猫を表すデータ（例えば猫が０、犬が１のデータ）が出力データｙとして関連付けられる。一方、ノイズデータＤｎ（ｘ，ｙ）においては、そのような猫か犬かの関係が認識されることなく、独立して抽出された入力データｘと出力データｙとが組み合わせられる。そのため、ノイズデータＤｎ（ｘ，ｙ）においては、あらかじめ認識されてはいないが、実際には猫の特徴を有する入力データｘと猫を表す出力データｙとの組み合わせを含む場合がある。すなわち、ノイズデータＤｎ（ｘ，ｙ）のなかには、意図せず例題と解の関係にある入力データｘと出力データｙの組み合わせもあれば、その関係にない組み合わせもある。

ノイズデータＤｎ（ｘ，ｙ）の例としては、ランダムビットエンコーダ等から出力されるランダムビットストリングのような任意の入力データと出力データの組み合わせ、又は訓練データＤ（ｘ，ｙ）から任意の方向に任意の距離だけ離れた入力データｘと出力データｙの組み合わせ等が挙げられる。

本実施形態では、訓練データＤ（ｘ，ｙ）が保存され、ノイズデータＤｎ（ｘ，ｙ）が生成されるが、これに限定されない。訓練データＤ（ｘ，ｙ）が生成され、ノイズデータＤｎ（ｘ，ｙ）があらかじめ保存されていてもよい。

更新部１２４は、訓練データ群を用いて計算処理部１１におけるパラメータθを更新する。更新は、誤差逆伝搬法によって行われる。パラメータθは、例えば重みｗｉ、及びバイアスｂ等である。計算処理部１１における計算結果に影響を与えるのであれば、層の数、各層中のノード３１の数等もパラメータθとなり得る。

混合制御部１２５は、訓練データ群中のノイズデータＤｎ（ｘ，ｙ）の混合比Ｔ（Ｔ＝０～１）を制御する。

学習処理部１２Ａにおいて、訓練データ群を用いたミニバッチ学習は次のように誤差逆伝搬法により実施される。
まず、取得部１２１は、Ｎ個の訓練データＤ（ｘ，ｙ）を取得する。この訓練データ群のうち、１つの訓練データＤ（ｘ，ｙ）の入力データｘが計算処理部１１へ出力され、出力データｙが更新部１２４へ出力される。計算処理部１１では入力データｘから予測データｙ^＊が計算される。

更新部１２４は、出力データｙと予測データｙ^＊との誤差から、目的関数を求める。目的関数は、目標値である出力データｙと実測値である予測データｙ^＊を入力し、その差の評価値を計算して出力する関数である。すなわち、目的関数は目標値と実測値の誤差の大きさを表し、パラメータθが最適かどうかの指標となり得る。

更新部１２４は、訓練データ群の各訓練データＤ（ｘ，ｙ）について目的関数を計算し、その平均を求める。例えば、平均二乗誤差の場合、下記式（３）により平均された目的関数Ｅが計算される。

上記式（３）において、Ｎは訓練データＤ（ｘ，ｙ）の数を表す。ｙ^＊は、訓練データＤ（ｘ，ｙ）の入力データｘに対してニューラルネットワーク３０により計算された予測データを表す。ｙは、訓練データＤ（ｘ，ｙ）の入力データｘと対の出力データを表す。

更新部１２４は、出力データｙと予測データｙ^＊の誤差の平均が小さくなるようにパラメータθを更新する。具体的には、更新部１２４は、上記式（３）で表す目的関数Ｅの勾配が最小化するように、更新後のパラメータθ^＊を出力層４ｃから入力層４ａに向かう順に、つまり予測データｙ^＊を計算したときとは逆の順番に計算する。例えば、更新後の重みｗｉ^＊及びバイアスｂ^＊は、更新前の重みｗｉ及びバイアスｂから下記式（４）及び（５）により計算することができる。

上記式（４）又は（５）において、ηは学習率を表す。

更新部１２４は、計算処理部１１における現在のパラメータθを、上記のようにして計算されたθ^＊に更新する。

このように、ミニバッチ学習では、各訓練データＤ（ｘ，ｙ）の入力データｘからニューラルネットワーク３０により計算される予測データｙ^＊と、各入力データｘと対の出力データｙとの誤差の平均が小さくなるように、誤差逆伝搬法によりパラメータθが１回更新される。

上記計算処理部１１及び学習処理部１２Ａは、後述する処理手順をコンピュータに実行させるプログラムを、プロセッサ等のコンピュータが記憶媒体から読み出して実行することにより実現され得る。プログラムの記録媒体としては、半導体メモリ、磁気ディスク、光ディスク等が使用できる。

図３は、データ処理装置１Ａを実装できるシステムの一例を示す。
図３において、システム２０は、ＣＰＵ（Central Processing Unit）等のプロセッサ２１、ＲＡＭ２２、ハードディスク等の記憶装置２３、通信インターフェイス２４、キーボード等の入力インターフェイス２５、及びディスプレイ等の出力インターフェイス２６等を備える。

プロセッサ２１は、記憶装置２３からプログラムを読み出してＲＡＭ２２に展開し、実行することにより、計算処理部１１及び学習処理部１２Ａとして機能することができる。記憶装置２３は、訓練データＤ（ｘ，ｙ）を保存するデータ保存部１２２として機能することもできる。

上記に限らず、計算処理部１１及び学習処理部１２Ａは、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアにより実現されてもよい。

（学習処理）
本実施形態において、学習処理部１２Ａは、訓練データＤ（ｘ，ｙ）にノイズデータＤｎ（ｘ，ｙ）を混合した訓練データ群を用いて、ミニバッチ学習を行う。

図４は、学習処理部１２Ａによる学習処理のフローチャートである。
まず、ステップＳ１１において、混合制御部１２５が混合比ＴをＴ＝１に設定する。

ステップＳ１２では、取得部１２１が、訓練データＤ（ｘ，ｙ）に混合比ＴのノイズデータＤｎ（ｘ，ｙ）を混合することにより、データ数Ｎの訓練データ群を生成する。すなわち、訓練データ群は、データ保存部１２２から取得された混合比（１－Ｔ）の訓練データＤ（ｘ，ｙ）と、データ生成部１２３から取得された混合比ＴのノイズデータＤｎ（ｘ，ｙ）との混合物である。Ｔ＝１の場合、訓練データ群は、すべてノイズデータＤｎ（ｘ，ｙ）からなる。

ステップＳ１３では、訓練データ群を用いて学習が行われる。学習時、取得部１２１は、訓練データＤ（ｘ，ｙ）の入力データｘを計算処理部１１に出力し、出力データｙを更新部１２４に出力する。計算処理部１１は、入力データｘから予測データｙ^＊を計算する。

更新部１２４は、取得部１２１から出力された出力データｙと、計算処理部１１において計算された予測データｙ^＊とから、各訓練データＤ（ｘ，ｙ）又はノイズデータＤｎ（ｘ，ｙ）の目的関数を求め、平均する。更新部１２４は、平均された目的関数Ｅが最小となるように最適化されたパラメータθ^＊を計算する。更新部１２４は、計算処理部１１に設定されているパラメータθを計算されたパラメータθ^＊に更新する。

学習が終了すると、ステップＳ１４において、混合制御部１２５は混合比ＴがＴ＝０か否かを判定する。Ｔ＝０ではない場合（Ｓ１４：Ｎ）、ステップＳ１５において、混合制御部１２５は混合比Ｔを減らす。その後、ステップＳ１２に戻り、減少後の混合比ＴのノイズデータＤｎ（ｘ，ｙ）と、混合比（１－Ｔ）の訓練データ（ｘ，ｙ）とが新たに取得され、混合された訓練データ群を用いて学習が繰り返される。Ｔ＝０である場合（Ｓ１４：Ｙ）、すなわち訓練データ群からノイズデータＤｎ（ｘ，ｙ）がなくなると、学習処理を終了する。

上記学習処理において、混合制御部１２５は、学習回数に対して混合比Ｔを減らす割合を調整することができる。何回学習したときにどれだけ混合比Ｔを減らすのか、あらかじめ学習回数に対して減らす割合が定められたスケジュールにしたがって、混合制御部１２５が混合比Ｔを減少させてもよい。例えば、１回目の学習後に－１０％、２回目の学習後に－２０％と、学習のたびに混合比Ｔを減らす割合がスケジュールされてもよい。また、混合比Ｔは、１及び２回目の学習後は０％、３回目の学習後に－１０％、４回目の学習後は０％、５回目の学習後に－５０％と、ある一定回数の学習が行われるごとに減らされるようにスケジュールされてもよい。

少ない学習回数で急激に混合比Ｔを減らすと、解の探索時間が短縮化されるが、探索領域が狭くなる傾向がある。一方、多くの学習回数を経て混合比Ｔを徐々に減らすと、解の探索時間が長くなるが、大域最適解に収束する確率が高まる傾向にある。混合制御部１２５によれば、大域最適解に短時間で収束するように、学習回数に対する混合比Ｔを減らす割合を調整することができる。

なお、混合比Ｔを徐々に減らす例を説明したが、一時的に混合比Ｔを増やすように、混合比Ｔの変更プロセスがスケジューリングされてもよい。

以上のように、第１実施形態によれば、誤差逆伝搬法によって学習を行う場合に、ノイズデータＤｎ（ｘ，ｙ）が混合された訓練データ群を用いてパラメータθを更新するミニバッチ学習が繰り返され、その間に訓練データ群中のノイズデータＤｎ（ｘ，ｙ）の混合比Ｔが減らされる。

誤差逆伝搬法において目的関数Ｅの勾配にしたがってパラメータθを最適化した場合、大域最適解ではなく局所最適解に陥ることがある。これは誤差が最小となる状態（解）を求めるために、常に目的関数の勾配が最も小さくなる方向へと状態を更新していくと、局所最適解から抜け出せないためである。これを回避するための方法として疑似焼きなまし（シュミレーテッドアニーリング：Simulated Annealing）法が知られている。

疑似焼きなまし法は、誤差が増大する状態への更新を許容する。誤差が増大する状態への更新を許容する度合を制御するパラメータは、“温度”と呼ばれる。誤差の増加を許容する“高温”の状態から、誤差の増加を許容しない“低温”へと徐々に冷やしていくことで、局所最適解に陥ることなく大域最適解に到達することが可能である。

訓練データＤ（ｘ，ｙ）と異なるノイズデータＤｎ（ｘ，ｙ）は、誤差が増大する状態への更新を許容する。また、ノイズデータＤｎ（ｘ，ｙ）の混合比Ｔが大きいほど、誤差は増大しやすい。したがって、混合比Ｔは疑似焼きなましにおける温度パラメータに相当し、混合比Ｔを変更しながら学習を繰り返す本実施形態の学習処理は、誤差逆伝搬法において疑似焼きなましを実現している。

従来の一般的な疑似焼きなまし法では、初期温度Ｔ（０）において訓練データにより目的関数Ｅを求めた後、パラメータθを変更して再度訓練データにより目的関数Ｅを求める。パラメータθの変更の前後において、目的関数Ｅの誤差ΔＥが減少している場合はその変更を受け入れ、誤差ΔＥが増大している場合はある確率ｐによってその変更を受け入れ、受け入れない場合は変更が取り消される。

例えば、確率ｐは、現在の繰り返し回数をｎ、温度をＴ（ｎ）、誤差の増加量をΔＥと表すとき、シグモイド関数を用いて、下記式のように定められる。

上記プロセスを、温度Ｔ（ｎ）を下げながら繰り返す。それ以上パラメータθの変更が受け入れられなくなるか、又は十分な回数繰り返されるとプロセスを終了する。

このように、従来の疑似焼きなまし法を実装するには、目的関数Ｅの誤差ΔＥを計算し、その変化によってパラメータθの変更を受け入れるか否かを判定するための構成の追加が必要である。計算量も増えるため、誤差逆伝搬法と併用するにはシステムへの実装が難しかった。

しかしながら、本実施形態によれば、温度パラメータとしてノイズデータＤｎ（ｘ，ｙ）の混合比Ｔを調整するだけでよいため、特別な計算や判定は不要である。誤差逆伝搬法において疑似焼きなましを簡易に行うことができ、システムへの実装が容易となる。したがって、大域最適解に至りやすく、実装が容易なデータ処理装置１Ａを提供することができる。

〔第２実施形態〕
ノイズデータＤｎ（ｘ，ｙ）の混合比Ｔを温度パラメータとして疑似焼きなましを行う第１実施形態において、さらにドロップアウトを組み合わせてもよい。

図５は、第２実施形態のデータ処理装置１Ｂの構成を示す。
データ処理装置１Ｂは、計算処理部１１及び学習処理部１２Ｂを備える。学習処理部１２Ｂは、取得部１２１、データ保存部１２２、データ生成部１２３、更新部１２４、混合制御部１２５及びドロップアウト制御部１２６を備える。

取得部１２１、データ保存部１２２、データ生成部１２３、更新部１２４及び混合制御部１２５は、第１実施形態と同じ構成である。図５において、第１実施形態のデータ処理装置１Ａと同じ構成部分には同じ符号が付されている。

ドロップアウト制御部１２６は、ニューラルネットワーク３０のドロップアウトを実施する。ドロップアウトとは、隠れ層４ｂの一部のノード３１を無効化する処理である。無効化されたノード３１では入力データｘに対する計算が行われず、出力がない。

図６は、ドロップアウトを組み合わせた場合のニューラルネットワーク３０を示す。
図６において、黒色のノード３１はドロップアウトが実施されたノードである。図６の例によれば、２つの隠れ層４ｂのノード３１のドロップアウト率はそれぞれ１／２及び１／３である。

ドロップアウト率とは、１つの層においてドロップアウトが実施されたノード３１の割合をいう。ドロップアウト率は、目的に応じて適宜設定することができる。ドロップアウト率が高いほど、ニューラルネットワーク３０の汎化性能が高まりやすい。したがって、学習した訓練データだけでなく、未知のデータに対しても最適解が得られやすくなる。一方、ドロップアウト率が低いほど、学習したとおりの解が得られやすい。

第２実施形態の学習処理部１２Ｂは、ドロップアウト制御部１２６により計算処理部１１のドロップアウトを実施した後、第１実施形態と同じ学習処理を行う。これにより、いくつかのノード３１がドロップアウトされた状態で、訓練データ群中のノイズデータＤｎ（ｘ，ｙ）の混合比Ｔを減らしながらミニバッチ学習が繰り返される。

混合比Ｔを温度パラメータとする疑似焼きなましにより、訓練データＤ（ｘ，ｙ）に加えてノイズデータＤｎ（ｘ，ｙ）も学習させることができ、ニューラルネットワーク３０が学習するデータ数Ｎを増やすことができる。しかし、ノイズデータＤｎ（ｘ，ｙ）は本来の訓練データＤ（ｘ，ｙ）とは異なり、例題と解の関係にあるとは限らないため、疑似焼きなましの程度によっては、訓練データＤ（ｘ，ｙ）以外の入力データに対してニュートラルな予測データ、すなわちどの解でもないという予測結果が出力されることがある。この場合、訓練データＤ（ｘ，ｙ）の辞書を作成していることと同じであり、未知のデータに対しても最適解を出力するというニューラルネットワーク３０の一般性（汎化能力ともいう）を担保できない。

これに対し、ドロップアウトは、一部のノード３１の計算を無効化するため、入力データの一部の特徴が過剰に評価されることを防ぐことができる。したがって、第１実施形態の疑似焼きなましを実施する学習処理にドロップアウトをさらに組み合わせた第２実施形態では、入力データの一部が欠けても最適解の予測データｙ^＊が計算されるようにパラメータθが更新される。その結果、ノイズデータＤｎ（ｘ，ｙ）を学習に用いても未知のデータに対する最適解も得られやすくなる。上記のようなニュートラルな出力を減らすことができ、ニューラルネットワーク３０の一般性を高めることができる。

次の第３及び第４実施形態によれば、ロバスト性が高く、入力がわずかに変化すると出力も変化するという脆弱性が少ないニューラルネットワーク３０が提供される。

〔第３実施形態〕
図７は、第３実施形態のデータ処理装置１Ｃの構成を示す。
データ処理装置１Ｃは、計算処理部１１及び学習処理部１２Ｃを備える。学習処理部１２Ｃは、取得部１２１、データ保存部１２２、データ生成部１２３、更新部１２４及び変換部１２７を備える。

取得部１２１、データ保存部１２２、データ生成部１２３及び更新部１２４は、第１実施形態と同じ構成である。図７において、第１実施形態のデータ処理装置１Ａと同じ構成部分には同じ符号が付されている。

変換部１２７は、訓練データＤ（ｘ，ｙ）の入力データｘに対して計算処理部１１から出力された予測データｙ^＊を、閾値を用いて解データＹに変換する。予測データｙ^＊は、複数の解のいずれかに属する確率を表すデータ（例えば０～１の多値）であるが、解データＹは複数の解のうちのいずれかを表すデータ（例えば０又は１の２値）である。

図８は、学習処理部１２Ｃにおける学習処理のフローチャートである。
最初にステップＳ３１において、取得部１２１が訓練データＤ（ｘ，ｙ）とノイズデータＤｎ（ｘ，ｙ）とを取得し、所定数Ｎの訓練データ群を生成する。

ステップＳ３２において、生成された訓練データ群を用いてミニバッチ学習が行われる。学習時、取得部１２１は、訓練データ群中の訓練データＤ（ｘ，ｙ）又はノイズデータＤｎ（ｘ，ｙ）の入力データｘを計算処理部１１に出力し、出力データｙを更新部１２４に出力する。計算処理部１１は、入力ｘから予測データｙ^＊を計算する。

更新部１２４は、取得部１２１から出力された出力データｙと、計算処理部１１において計算された予測データｙ^＊とから、各訓練データＤ（ｘ，ｙ）又はノイズデータＤｎ（ｘ，ｙ）の目的関数を求め、平均する。更新部１２４は、平均された目的関数Ｅが最小となるように最適化されたパラメータθ^＊を計算し、計算処理部１１に設定されているパラメータθを計算されたパラメータθ^＊に更新する。

ミニバッチ学習が終了すると、ステップＳ３３において、変換部１２７が、学習に使用されたノイズデータＤｎ（ｘ，ｙ）の出力データｙを複数の解データＹのうちのいずれかに変換する。変換は一定の確率に基づいて行われる。一定の確率とは、閾値によって与えられる確率である。

閾値は、解データＹを分類する境界値であり得る。例えば、解データＹが０又は１の２値である場合、計算処理部１１から得られる０～１の予測データｙ^＊は、０で表される解と１で表される解のいずれかに属する確率を表す。この２つの解の境界値として０．５が付与される場合、０．５によって予測データｙ^＊は確率的に解データＹに変換される。具体的には、予測データｙ^＊が０．５以上であれば１の解データＹに、０．５未満であれば０の解データＹに、確率的に変換される。この例における解データＹは、Ｙ＝Ｆ（ｘ）で表される。Ｆ（ｘ）は、ニューラルネットワーク３０の入力層４ａから出力層４ｃまでの各層における計算により、入力データｘを解データＹに変換する関数を表す。

閾値はシグモイド関数により決定されてもよい。また閾値は乱数であってもよい。この場合、変換部１２７は、乱数を取得し、０～１の予測データｙ^＊が乱数より大きい場合は１の解データＹに、乱数より小さい場合は０の解データＹに、確率的に変換してもよい。

次に、ステップＳ３４において、取得部１２１が訓練データＤ（ｘ，ｙ）を取得する。取得部１２１は、取得した訓練データＤ（ｘ，ｙ）に変換後のノイズデータＤｎ（ｘ，ｙ）を混合して、所定数Ｎの訓練データ群を生成する。

ステップＳ３５では、生成された訓練データ群を用いて、ステップＳ３２と同様にパラメータθを更新するミニバッチ学習が再度実施される。

ステップＳ３６において学習回数が所定回数に至っていない場合（Ｓ３６：Ｎ）、ステップＳ３３に戻る。これにより、ノイズデータＤｎ（ｘ，ｙ）の出力データｙの解データＹへの変換と、変換後のノイズデータＤｎ（ｘ，ｙ）を含む訓練データ群を用いた学習とが繰り返される。ステップＳ３６において学習回数が所定回数に至ると（Ｓ３６：Ｙ）、学習処理が終了する。

上記学習処理において、変換部１２７は、学習回数に対して出力データｙを変換する回数の割合を調整することができる。変換部１２７は、何回学習したときに変換を実施するのか、あらかじめ学習回数に対して変換を実施するタイミングが定められたスケジュールにしたがって変換を行ってもよい。例えば、上述のように学習ごとに変換を実施してもよいし、２回の学習に１回の割合で変換を実施することができる。

変換部１２７が学習回数に対して出力データｙを変換する回数の割合がある程度大きい方が、予測データｙ^＊が１つの解に偏ることを抑制しやすく、好ましい。また学習に使用する訓練データ群のデータ数Ｎに応じて割合が調整されてもよい。

以上のように、第３実施形態によれば、学習に使用されるノイズデータＤｎ（ｘ，ｙ）の出力データｙが解データＹに変換されながら、ミニバッチ学習が繰り返される。これにより、ノイズデータＤｎ（ｘ，ｙ）の出力データｙがいずれかの解データＹに近づいていく。

訓練データＤ（ｘ，ｙ）は、もともと例題である入力データに対して最適解である出力データが組み合わされているが、ノイズデータＤｎ（ｘ，ｙ）には必ずしもこのような関係性はなく、入力データと出力データの組み合わせが任意である。しかし、第３実施形態では、学習を繰り返すなかで、入力データに対する出力データが最適解である解データＹに確率的に近いノイズデータＤｎ（ｘ，ｙ）を学習していくことができる。訓練データＤ（ｘ，ｙ）と異なる入力データに対しても一定の出力データを組み合わせて学習することができるため、学習させた入力データからわずかに変化した未知の入力データに対しても予測データｙ^＊が変化しにくくなり、予測のロバスト性が向上する。

入力がわずかに変化すると出力も変化する脆弱性は、入力の周辺に対する出力の範囲である出力境界の複雑性によって生じやすい。出力境界の複雑性は、例えば入力の近傍値に対する出力のうち、入力に対する出力と異なる出力がいくつあるかによって評価することができる。

図９は、出力境界の複雑性を概念的に示す。
入力の周辺に対する出力境界６３が、入力に対する出力点６１の周辺になく、複雑性が大きいと、予測が脆弱になり得る。これに対し、上記第３実施形態によれば、ノイズデータＤｎ（ｘ，ｙ）の出力データｙを変換して学習を繰り返すにつれて、出力境界６３はより複雑性が低い出力境界６２に変化する。その結果、入力がわずかに変化しても出力が変化しにくくなる。

〔第４実施形態〕
第３実施形態においては、出力データｙを一定の確率に基づいて解データＹに変換したが、出力データｙを次のように変換することによっても、予測のロバスト性を向上させることができる。

図１０は、第４実施形態における学習処理のフローチャートである。この学習処理は、第３実施形態のデータ処理装置１Ｃと同じ構成によって実行することができる。
最初にステップＳ４１において、取得部１２１がノイズデータＤｎ（ｘ，ｙ）を取得する。

ステップＳ４２では、取得部１２１が、ノイズデータＤｎ（ｘ，ｙ）の入力データｘを計算処理部１１に出力する。計算処理部１１は、入力データｘに対する予測データｙ^＊を計算して出力する。

ステップＳ４３において、取得部１２１は、入力データｘの周辺に存在する１又は複数の入力データｘ＾を計算処理部１１に出力する。周辺の入力データｘ＾とは、入力データｘのデータ空間において入力データｘに隣接する又は入力データｘから一定距離の範囲内にあるデータをいう。データ空間とは、入力データｘが有する複数の変数ｘｉをベクトル要素とする高次元空間である。計算処理部１１は、各入力データｘ＾に対する予測データｙ^＊＾を計算して出力する。

ステップＳ４４において、変換部１２７は、計算処理部１１から得られた各予測データｙ^＊及びｙ^＊＾が分類される複数の解データＹのうち、多数派の解データＹを決定する。具体的には、変換部１２７は、各予測データｙ^＊及びｙ^＊＾が分類される複数の解データＹのなかで同じ解データＹの数をカウントし、最もカウント数が多い解データＹを多数派の解データＹとして決定する。そして、変換部１２７は、学習に使用したノイズデータＤｎ（ｘ，ｙ）の出力データｙを、決定した解データＹに変換する。

例えば、ノイズデータＤｎ（ｘ，ｙ）の入力データｘがランダムに生成された“１０１０”の４ビットストリングであった場合、入力データｘである“１０１０”の４ビットストリングと、周辺の入力データｘ＾である“１０００”、“１００１”、“１０１１”、及び“１１００”の４ビットストリングとが計算処理部１１に出力される。

各入力データｘ及びｘ＾に対して次のような予測データｙ^＊及びｙ^＊＾が出力された場合、閾値０．５によって各予測データｙ^＊及びｙ^＊＾は３つの“０”と２つの“１”の解データＹに分類される。

各入力データｘ及びｘ＾から求められた５つの解データＹのうち、 “０”の解データＹの数は３であり、“１”の解データＹの数は２である。よって、多数派の解データＹは“０”に決定される。入力データｘの“１０１０”と対の出力データｙが“１”であった場合、ノイズデータＤｎ（１０１０，１）は、ノイズデータＤｎ（１０１０，０）に変換される。なお、多数派の解データＹが元の出力データｙと同じ“０”であった場合は変換をスキップすればよい。

ステップＳ４５では、取得部１２１が訓練データＤ（ｘ，ｙ）を取得する。取得部１２１は、この訓練データＤ（ｘ，ｙ）に変換後のノイズデータＤｎ（ｘ，ｙ）を混合して、訓練データ群を生成する。

ステップＳ４６では、生成された訓練データ群を用いてミニバッチ学習が行われる。学習時、取得部１２１は、訓練データ群中の各訓練データＤ（ｘ，ｙ）又はノイズデータＤｎ（ｘ，ｙ）の入力データｘを計算処理部１１に出力し、出力データｙを更新部１２４に出力する。計算処理部１１は、入力データｘから予測データｙ^＊を計算する。

ステップＳ４７において学習回数が所定回数に至っていない場合（Ｓ４７：Ｎ）、ステップＳ４２に戻る。これにより、ステップＳ４６において学習に使用されたノイズデータＤｎ（ｘ，ｙ）の出力データｙが多数派の解データＹに変換され、変換後のノイズデータＤｎ（ｘ，ｙ）を含む訓練データ群によってミニバッチ学習が繰り返される。ステップＳ４７において学習回数が所定回数に至ると（Ｓ４７：Ｙ）、学習処理を終了する。

第３実施形態と同様に、変換部１２７は、学習回数に対して出力データｙを変換する回数の割合を調整することができる。学習回数に対する変換回数の割合がある程度大きい方が、予測データｙ^＊が１つの解に偏ることを抑制しやすく、好ましい。また学習に使用する訓練データ群のデータ数Ｎに応じて学習回数に対する変換回数の割合が調整されてもよい。

以上のように、第４実施形態によれば、ノイズデータＤｎ（ｘ，ｙ）の出力データｙが、出力データｙと周辺の入力データｘ＾の予測データｙ^＊＾とが分類される複数の解データＹのうち、多数派の解データＹに変換されながら、ミニバッチ学習が繰り返される。これにより、ノイズデータＤｎ（ｘ，ｙ）の入力データｘの周辺の入力データｘ＾であれば、同じ予測データｙ^＊に近づいていく。

訓練データＤ（ｘ，ｙ）は、もともと例題である入力データに対して最適解である出力データが組み合わされているが、ノイズデータＤｎ（ｘ，ｙ）には必ずしもこのような関係性がなく、入力データと出力データの組み合わせが任意である。しかし、第４実施形態では、学習を繰り返すなかで、出力データが入力データの周辺の解データＹに同調するノイズデータＤｎ（ｘ，ｙ）を学習していくことができる。したがって、学習させた入力データｘからわずかに変化した未知の入力データに対しても予測データｙ^＊が変化しにくくなり、予測のロバスト性が向上する。

上述したように、入力がわずかな変化によって出力も変化する脆弱性は、入力の周辺に対する出力境界の複雑性による。第４実施形態によれば、入力に対する出力が入力の周辺に対する出力の多数派とは異なる場合には、周辺に同調するようにノイズデータＤｎ（ｘ，ｙ）の出力データｙを修正することによって、局所的な同調を実現できる。したがって、第３実施形態と同様に出力境界の複雑性を低減することができ、上記脆弱性を減らすことができる。

次の第５～第７実施形態によれば、前処理の実行によりニューラルネットワーク３０に目的の特性を付与することができる。

〔第５実施形態〕
計算処理部１１において、パラメータθは通常、任意の値、例えば０や乱数により初期化され、訓練データＤ（ｘ，ｙ）の学習を繰り返すことによって更新されていく。このパラメータθの初期値は学習の過程や結果に影響する。第５実施形態では、ニューラルネットワーク３０に目的の学習特性を付与するように、前処理によってこのパラメータθの初期値を調整する。

図１１は、第５実施形態のデータ処理装置１Ｄの構成を示す。
データ処理装置１Ｄは、計算処理部１１及び学習処理部１２Ｄを備える。学習処理部１２Ｄは、取得部１２１、データ保存部１２２、データ生成部１２３、更新部１２４及びドロップアウト制御部１２６を備える。これらは第２実施形態と同じ構成である。図１１において、第２実施形態のデータ処理装置１Ｂと同じ構成部分には同じ符号が付されている。

図１２は、前処理の処理手順を示す。
最初にステップＳ５１において、更新部１２４が計算処理部１１にパラメータθを設定する。このパラメータθの初期値は、０又は乱数等の任意の値である。

ステップＳ５２では、ドロップアウト制御部２６が計算処理部１１のドロップアウトを実施する。ドロップアウト率は、適宜決定することができる。ドロップアウト率が高いほど、最適解の計算に対する入力データの影響が小さくなりやすい。任意の訓練データＤ（ｘ，ｙ）により計算される目的関数の勾配が類似しやすく、各訓練データＤ（ｘ，ｙ）に対する感度が下がりやすくなるため、ニューラルネットワーク３０に高い一般性を付与しやすい。一方、ドロップアウト率が低いほど、最適解の計算に対する入力データの影響が大きくなりやすい。よって、任意の訓練データＤ（ｘ，ｙ）により計算される目的関数の勾配が相互に独立化しやすく、学習効率が高まってより多くのデータを学習することができる。

ステップＳ５３では、取得部１２１が所定数ＮのノイズデータＤｎ（ｘ，ｙ）を取得し、ノイズデータＤｎ（ｘ，ｙ）からなる訓練データ群を生成する。

ステップＳ５４では、生成された訓練データ群を用いてミニバッチ学習が行われる。学習時、取得部１２１は、各ノイズデータＤｎ（ｘ，ｙ）の入力データｘを計算処理部１１に出力し、出力データｙを更新部１２４に出力する。計算処理部１１は、入力データｘから予測データｙ^＊を計算する。

更新部１２４は、取得部１２１から出力された出力データｙと、計算処理部１１において計算された予測データｙ^＊との誤差から、各ノイズデータＤｎ（ｘ，ｙ）の目的関数を求め、平均する。更新部１２４は、平均された目的関数Ｅが最小となるように最適化されたパラメータθ^＊を計算し、計算処理部１１に設定されているパラメータθを計算されたパラメータθ^＊に更新する。

更新されたパラメータθ^＊が、パラメータθの初期値として設定される。この後、訓練データＤ（ｘ，ｙ）を用いた学習処理が行われ、パラメータθの初期値は訓練データＤ（ｘ，ｙ）によって最適化されたパラメータθ^＊へと更新されていく。

以上のように、第５実施形態によれば、訓練データＤ（ｘ，ｙ）を用いた学習処理の前に、ノイズデータＤｎ（ｘ，ｙ）によってパラメータθが初期化される。

パラメータθの初期値が意味のない任意の値ではなく、ノイズデータＤｎ（ｘ，ｙ）を学習した結果であるため、その後の学習処理に用いられる訓練データＤ（ｘ，ｙ）に対する学習感度が高まる。また、その後の学習処理時に学習させる訓練データＤ（ｘ，ｙ）とは別に、前処理においてノイズデータＤｎ（ｘ，ｙ）を学習させているため、全体として学習するデータ量を増やすことができる。したがって、学習によってパラメータθが最適化されるまでの時間を短縮化でき、訓練データＤ（ｘ，ｙ）を効果的に学習できる学習特性をニューラルネットワーク３０に付与できる。

またノイズデータＤｎ（ｘ，ｙ）の入力データと出力データは、訓練データＤ（ｘ，ｙ）のように例題と解の関係にあるとは限らないため、ノイズデータＤｎ（ｘ，ｙ）の使用によりニューラルネットワーク３０に一般性を付与できる。さらにドロップアウトを組み合わせることにより、任意の訓練データＤ（ｘ，ｙ）に対する感度、すなわち訓練データＤ（ｘ，ｙ）への出力の依存性を調整することができる。訓練データＤ（ｘ，ｙ）への出力の依存性を下げることにより、訓練データＤ（ｘ，ｙ）の入力データから入力がわずかに変化しても出力が変化することを避けることができ、ニューラルネットワーク３０の一般性を高めることができる。したがって、前処理によって目的とする一般性をニューラルネットワーク３０にあらかじめ付与することが可能である。

〔第６実施形態〕
第５実施形態ではパラメータθを初期化する前処理が行われたが、学習に使用する訓練データ群を選択的に取得する前処理によっても、ニューラルネットワーク３０に一般性を付与することができる。

図１３は、第６実施形態の前処理のフローチャートである。
第６実施形態の前処理は、第５実施形態のデータ処理装置１Ｄにより実行することができる。この前処理は、訓練データ群をあらかじめ準備する処理であり、この訓練データ群は前処理の後に実施される学習処理において使用される。

第６実施形態の前処理では、ステップＳ６１において、取得部１２１が訓練データＤ（ｘ，ｙ）を取得する。
ステップＳ６２では、データ生成部１２３が、取得した訓練データＤ（ｘ，ｙ）の密度に基づいて、ノイズデータＤｎ（ｘ，ｙ）を生成する。

訓練データＤ（ｘ，ｙ）の密度とは、複数の訓練データＤ（ｘ，ｙ）の入力データｘが分布するデータ空間における各入力データｘの粗密をいう。上述のように、データ空間とは、入力データｘが有する複数の変数ｘｉをベクトル要素とする高次元空間である。

入力データｘの密度は、Ｎ個の入力データｘ群が与えられ、各入力データｘが変数ｘｉを有するとき、入力データｘの密度関数により表すことができる。ｘｉをデルタ関数によってδ（ｘ，ｈ）と定義したとき、密度関数ｐ（ｘ）は、ｐ（ｘ）＝Σδ（ｘｉ，ｈ）／Ｎで表される。δ（ｘ，ｈ）は、ｘにおいてのみピークを有し、半径ｈの裾野を有するガウシアンである。

例えば、データ生成部１２３は、訓練データＤ（ｘ，ｙ）の密度が高い領域では低い領域に比べてより多くのノイズデータＤｎ（ｘ，ｙ）を生成することができる。具体的には、訓練データＤ（ｘ，ｙ）のデータ空間においていくつかの訓練データ（ｘ，ｙ）の周辺に、訓練データＤ（ｘ，ｙ）と同じ密度のノイズデータＤｎ（ｘ，ｙ）が生成されてもよい。あるいは、いくつかの訓練データ（ｘ，ｙ）の重心に位置するデータがノイズデータＤｎ（ｘ，ｙ）として生成され、ノイズデータＤｎ（ｘ，ｙ）の追加によって訓練データＤ（ｘ，ｙ）の密度が高くなってもよい。

一方、データ生成部１２３は、訓練データＤ（ｘ，ｙ）の密度が低い領域ではその周辺において同様に密度が少ないノイズデータＤｎ（ｘ，ｙ）を生成することができる。例えば、訓練データＤ（ｘ，ｙ）のデータ空間においていくつかの訓練データ（ｘ，ｙ）の周辺に、訓練データＤ（ｘ，ｙ）と同じ密度のノイズデータＤｎ（ｘ，ｙ）が生成されてもよい。

このようにしてノイズデータＤｎ（ｘ，ｙ）が追加された訓練データ群によれば、訓練データＤ（ｘ，ｙ）に応じて異なる一般性をニューラルネットワーク３０に付与することができる。

具体的には、訓練データＤ（ｘ，ｙ）の密度が高い領域では、最適解である出力データｙが関連付けられた入力データｘの近辺に、同じく最適解に関連付けられた入力データｘが存在するため、わずかな入力の違いにも出力が敏感に変化して最適解が出力されやすい。すなわち、訓練データＤ（ｘ，ｙ）の密度が高い領域では、ニューラルネットワーク３０の一般性を下げて、識別能力を高めることができる。

一方、訓練データＤ（ｘ，ｙ）の密度が低い領域では、その周辺に訓練データＤ（ｘ，ｙ）と同じか又は低い密度のノイズデータＤｎ（ｘ，ｙ）が追加され、訓練データＤ（ｘ，ｙ）の密度が低い領域が拡大する。これにより、未知データの領域が減り、入力がわずかに変化しても出力の変化が少なくなるため、訓練データＤ（ｘ，ｙ）の密度が低い領域では、ニューラルネットワーク３０の一般性を高めることができる。

次に、ステップＳ６３において、取得部１２１は、データ生成部１２３により生成されたノイズデータＤｎ（ｘ，ｙ）を、データ保存部１２２から取得した訓練データＤ（ｘ，ｙ）に混合し、訓練データ群を生成する。

なお、データ生成部１２３がランダムなノイズデータＤｎ（ｘ，ｙ）を生成し、この中から、取得部１２１が、訓練データＤ（ｘ，ｙ）の密度に応じたノイズデータＤｎ（ｘ，ｙ）を取得してもよい。

一般的に、訓練データＤ（ｘ，ｙ）は対象から必ずしも均一な重みでサンプルされるわけではなく、訓練データＤ（ｘ，ｙ）が多くサンプルされた領域もあれば、少ない領域もある。このように、領域によって訓練データＤ（ｘ，ｙ）の分布状況が異なる場合、どの領域でも同じ出力が期待されているとは限らない。例えば、多くの訓練データＤ（ｘ，ｙ）がサンプルされた領域では、入力データのわずかな違いによって敏感に出力が変化することが期待される。逆にサンプル数が少ない領域では、入力データがわずかに変化しても同じ出力が期待される。

これに対し、第６実施形態によれば、訓練データＤ（ｘ，ｙ）の密度に応じてノイズデータＤｎ（ｘ，ｙ）が取得される。訓練データＤ（ｘ，ｙ）が分布するデータ空間に訓練データＤ（ｘ，ｙ）の密度に応じたノイズデータＤｎ（ｘ，ｙ）を補充できるため、上述した例のように領域ごとに期待される一般性に調整することができる。したがって、ノイズデータＤｎ（ｘ，ｙ）によって、訓練データＤ（ｘ，ｙ）の密度が異なる領域ごとに異なる一般性を、訓練データ群を生成する前処理によって付与することができる。

〔第７実施形態〕
第７実施形態では、ドロップアウト率を制御する前処理により、入力データｘを大分類から小分類へと階層的に分類する特性をニューラルネットワーク３０に付与する。

第７実施形態の前処理は、第５実施形態のデータ処理装置１Ｄにより実行することができる。この前処理の後に学習処理が実施される。

第７実施形態の前処理では、ドロップアウト制御部２６により計算処理部１１のドロップアウトが実施される。このとき、ドロップアウト制御部２６は、入力層４ａから出力層４ｃに向かうにつれて、各層のドロップアウト率を段階的に低く設定する。

例えば、３つの隠れ層４ｂをドロップアウトする場合、入力層４ａから出力層４ｃまでの各隠れ層４ｂのドロップアウト率が５０％、２５％、１０％の順に設定され得る。

以上のように、第７実施形態によれば、入力層４ａから出力層４ｃに向かって隠れ層４ｂのドロップアウト率が低下する。入力データｘがｉ個の変量ｘｉを有する場合、隠れ層４ｂの各ノード３１における計算は、入力データｘの各変量ｘｉから特徴を抽出し、分類する機能を有する。ドロップアウトは、このようなノード３１の分類機能を停止させる。

したがって、上記のようなドロップアウト率の勾配制御により、入力層４ａ側は分類機能が停止するノード３１が多く、出力層４ｂ側はそのようなノード３１が少なくなる。言い換えると、入力層４ａから出力層４ｃに向かうほど隠れ層４ｂの分類機能がより働きやすくなり、細かい分類が可能となる。その結果、大分類から小分類へと階層的に入力データｘの各変量ｘｉが分類され、特徴付けられていく。

このように、第７実施形態によれば、前処理によって、大分類から小分類へと階層的に入力データｘを分類する特性をニューラルネットワーク３０に付与することができる。

一般的に、ニューラルネットワークは、どのようにして予測するのか、予測の原理を解明することが難しい予測モデルである。しかし、ニューラルネットワークであっても、上記のような階層的な分類機能を有する予測モデルは、ユーザが予測の原理を理解しやすい。よって、ユーザが学習内容を設計しやすく、また予測結果を運用しやすくなる。

上述した第１～第７実施形態は、適宜組み合わせることができる。例えば、第５実施形態の前処理においてパラメータθを初期化した後、この初期化されたパラメータθを用いて第１実施形態における学習処理が行われてもよい。また第２実施形態においてミニバッチ学習に使用する訓練データ群を生成する際に、第６実施形態を組み合わせて、訓練データ群を生成する前処理が行われてもよい。

本発明のデータ処理装置の適用例としては、車両の運転支援等が挙げられる。例えば、車両に搭載されたカメラ、車速センサ、操舵角センサ、又はＧＰＳ等の各種センサからのデータを入力データとして、目的の操舵量、又は走行速度等をデータ処理装置により予測してもよい。またカメラ、ミリ波レーダ等からのデータを入力データとして、周辺車両又は歩行者との衝突の可能性をデータ処理装置により予測してもよい。

車両に限らず、例えばビッグデータの解析や、Ｘ線撮影された画像データにおける病変部の検出等、様々な目的で本発明を利用できる。

以上、本発明の好ましい実施形態について説明したが、本発明はこれらの実施形態に限定されない。本発明の範囲内で適宜変更することができる。

例えば、ニューラルネットワークの入力層４ａ、隠れ層４ｂ及び出力層４ｃのように一列に接続された複数の計算モジュールを備え、重みｗｉ及びバイアスｂｉのように計算モジュールに関連付けられたパラメータを用いて、前段の計算モジュールからの出力に対して計算を行い、この計算の結果を後続の計算モジュールへ出力することにより、予測データを計算する予測モデルであれば、ニューラルネットワーク以外の予測モデルにも本発明を適用することができる。

本発明は、敵対的生成ネットワーク（ＧＡＮ：Generative Adversarial Network）に使用されるニューラルネットワークにも適用することができる。一般的に、ＧＡＮでは、Generatorと呼ばれるニューラルネットワークと、Discriminatorと呼ばれるニューラルネットワークが用いられる。Generatorは与えられたデータから偽のデータを生成し、Discriminatorは生成された偽のデータの真偽を本物のデータを使用して判別する。その判別結果に応じてGeneratorはより本物のデータに近い偽のデータを生成する。このように競合して学習するGenerator及びDiscriminatorにも、本発明を適用することが可能である。

１Ａ～１Ｄ・・・データ処理装置、１１・・・計算処理部、１２Ａ～１２Ｄ・・・学習処理部、１２１・・・取得部、１２４・・・更新部、１２５・・・混合制御部、１２６・・・ドロップアウト制御部、１２７・・・変換部

Claims

ニューラルネットワークの深層学習を行うデータ処理装置（１Ｃ）において、
パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）を有し、前記予測データを出力する計算処理部（１１）と、
あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新する学習処理部（１２Ｃ）と、を備え、
前記学習処理部（１２Ｃ）は、
前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成し、
前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとに基づいて、前記パラメータを１回更新するミニバッチ学習を実行し、
前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す
データ処理装置（１Ｃ）。
前記学習処理部（１２Ｃ）は、前記ノイズデータの入力データから前記ニューラルネットワーク（３０）により計算された予測データを、一定の確率に基づいて複数の解データのいずれかに変換し、前記ノイズデータの出力データを前記変換された解データに置換する
請求項１に記載のデータ処理装置（１Ｃ）。
前記学習処理部（１２Ｃ）は、前記ノイズデータの入力データとその周辺の入力データとから前記ニューラルネットワーク（３０）により計算された各予測データを複数の解データのいずれかに変換し、前記ノイズデータの出力データを、前記変換された解データのうち、多数派の解データに変換する
請求項１に記載のデータ処理装置（１Ｃ）。
前記学習処理部（１２Ｃ）は、前記ミニバッチ学習の回数に対して前記ノイズデータの出力データを変換する回数の割合を調整する
請求項１～３のいずれか一項に記載のデータ処理装置（１Ｃ）。
パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）の深層学習の方法において、
あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新するステップを含み、
前記パラメータを更新するステップは、
前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成するステップと、
前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとに基づいて、前記パラメータを１回更新するミニバッチ学習を実行するステップと、を含み、
前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す
方法。
パラメータを用いて入力データから予測データを計算するニューラルネットワーク（３０）の深層学習を行うためにコンピュータにより実行されるプログラムであって、前記プログラムは前記コンピュータに、
あらかじめ関連付けられた入力データと出力データの対である訓練データを用いて、前記パラメータを更新するステップを実行させ、
前記パラメータを更新するステップは、
前記訓練データと、前記訓練データと異なる入力データと出力データの対であるノイズデータとを取得し、前記訓練データに前記ノイズデータを混合した訓練データ群を生成するステップと、
前記訓練データ群の各入力データから前記ニューラルネットワーク（３０）により計算される予測データと、前記各入力データと対の出力データとに基づいて、前記パラメータを１回更新するミニバッチ学習を実行するステップと、を含み、
前記ミニバッチ学習の実行を、前記訓練データ群中の前記ノイズデータの出力データを変換しながら繰り返す
プログラム。