JP2021135683A

JP2021135683A - 学習装置、推論装置、学習方法及び推論方法

Info

Publication number: JP2021135683A
Application number: JP2020030794A
Authority: JP
Inventors: 佑一加藤; Yuichi Kato; 康太中田; Kota Nakata; 晋内藤; Susumu Naito; 安則田口; Yasunori Taguchi; 健太郎高木; Kentaro Takagi
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-09-13
Anticipated expiration: 2040-02-26
Also published as: US11868885B2; JP7242595B2; US20210264259A1

Abstract

【課題】選択されるデータの数ｋと、選択されたｋ個のデータの重みとをヒューリスティックに決めずに、入力データに応じて決定できるようにする。【解決手段】実施形態の学習装置は、生成部と学習部とを備える。生成部は、特徴量と目的値とが関連付けられた学習データから変換行列を生成する。学習部は、前記変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークのパラメータを学習する。【選択図】図１

Description

本発明の実施形態は学習装置、推論装置、学習方法及び推論方法に関する。

ｋ近傍法は、定義された距離内で最も近傍な学習データの点をｋ個選択して、入力データに対して回帰分析やクラス分類問題を解く機械学習の方法である。ｋ近傍法は、古くからある方法で、２０２０年の現在でもしばしば用いられる単純かつ強力な方法である。ｋ近傍法では、選択されるデータの数ｋと、選択されたｋ個のデータの重みとは、解きたいデータに依存するという問題点がある。

Ｔ．Ｍ．ＣＯＶＥＲＡＮＤＰ．Ｅ．ＨＡＲＴ，ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａｔｉｏｎ，ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＩＮＦＯＲＭＡＴＩＯＮＴＨＥＯＲＹ，ＶＯＬ．ＩＴ−ＩＳ，ＮＯ．１，１９６７

しかしながら、従来の技術では、選択されるデータの数ｋと、選択されたｋ個のデータの重みとをヒューリスティックに決めなければならなかった。

実施形態の学習装置は、生成部と学習部とを備える。生成部は、特徴量と目的値とが関連付けられた学習データから変換行列を生成する。学習部は、前記変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークのパラメータを学習する。

実施形態の学習装置の機能構成の例を示す図。実施形態のニューラルネットワークの例を示す図。実施形態の学習方法の例を示すフローチャート。実施形態の推論装置の機能構成の例を示す図。実施形態の推論方法の例を示すフローチャート。実施形態の学習データの例（回帰分析の場合）を示す図。実施形態の学習データの例（クラス分類の場合）を示す図。実施形態の学習装置及び推論装置のハードウェア構成の例を示す図。

以下に添付図面を参照して、学習装置、推論装置、学習方法及び推論方法の実施形態を詳細に説明する。

［学習装置の機能構成の例］
図１は実施形態の学習装置１０の機能構成の例を示す図である。実施形態の学習装置１０は、学習データ記憶部１１、生成部１２、変換行列記憶部１３、学習部１４及び出力部１５を備える。

学習データ記憶部１１は、学習データを記憶する。学習データは、特徴量と目的値とが関連付けられたデータである。特徴量は、例えばセンサなどから取得された温度等である。目的値は、特徴量が入力されたときに、当該特徴量に応じて出力される目的の値（正解データ）を示す。

生成部１２は、特徴量と目的値とが関連付けられた学習データから変換行列を生成する。変換行列の詳細は後述する。

変換行列記憶部１３は、生成部１２により生成された変換行列を記憶する。

学習部１４は、変換行列の行数と等しい数のノードを有し、当該ノードの値によって第１推定分布を示す第１出力層、及び、変換行列と第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークのパラメータを学習する。学習対象のニューラルネットワークは、例えば回帰分析に用いられる回帰分析モデル、及び、クラス分類に用いられる分類モデルである。

具体的には、学習部１４は、第１推定分布算出部１４１、第２推定分布算出部１４２及び更新部１４３を備える。第１推定分布算出部１４１は、第１推定分布を示す第１出力層を算出する。第２推定分布算出部１４２は、第２推定分布を示す第２出力層を算出する。更新部１４３は、第１出力層の値（第１推定分布）、及び、第２出力層の値（第２推定分布）を決定するパラメータを更新する。

出力部１５は、学習部１４により学習されたニューラルネットワークを出力する。

［ニューラルネットワークの例］
図２は実施形態のニューラルネットワークの例を示す図である。実施形態のニューラルネットワークは、入力層１０１、中間層１０２、第１出力層１０３、乗算部１０４及び第２出力層１０５を備える。Ｗ_１は、入力層１０１と中間層１０２との間のニューラルネットワークの重みを示す。Ｗ_２は、中間層１０２と第１出力層１０３との間のニューラルネットワークの重みを示す。

入力層１０１には、入力データが入力される。入力データは、例えば学習データに含まれる特徴量である。

中間層１０２は、入力層１０１と第１出力層１０３との間にある層（隠れ層）である。図２の例では、中間層１０２が１層である場合の例を示しているが、中間層１０２が２層以上あってもよい。

第１出力層１０３は、変換行列Ｔの行数Ｍと等しい数のノードを有し、当該ノードの値によって第１推定分布を示す。第１出力層１０３は、ソフトマックス層により実現される。すなわち、第１出力層１０３に含まれるノードの値の合計値は１となる。

乗算部１０４は、変換行列Ｔと第１推定分布との積を算出する。

第２出力層１０５は、変換行列と第１推定分布との積により定まる第２推定分布を示す。

以下、ニューラルネットワークが回帰分析に用いられる場合を例にして、実施形態の学習装置１０の動作について具体的に説明する。

学習データ記憶部１１は、データの特徴を表す特徴量ｘ_ｉ（ｉ＝１，２，…，Ｎ）と、回帰されるべき値を示す目的値ｙ_ｉとが関連付けられた学習データを記憶する。ｘ_ｉ及びｙ_ｉのｉは、ｉ番目のデータを示す。ｘ_ｉはｄ_ｘ次元とし、ｙ_ｉはｄ_ｙ次元とする。

図３は実施形態の学習方法の例を示すフローチャートである。はじめに、生成部１２が、学習データから選択データを選択し、選択データに基づく行ベクトルを含む行列によって、変換行列Ｔを生成する（ステップＳ１０１）。具体的には、生成部１２が、目的値ｙ_ｉ（ｉ＝１，２，…，Ｎ）から、Ｍ行ｄ_ｙ列（Ｍ×ｄ_ｙ）の変換行列Ｔを生成する。Ｍは、選択データの数を示し、特徴量ｘ_ｉの数Ｎ以下の数である。実施形態の回帰分析では、ｙ_ｉの全て（Ｍ＝Ｎ）または一部（Ｍ＜Ｎ）が変換行列Ｔの各行（行ベクトル）をそれぞれ構成する。目的値ｙ_ｉ（ｉ＝１，２，…，Ｎ）の一部（Ｍ＜Ｎ）を使って変換行列Ｔを生成する場合には、生成部１２は、例えば目的値ｙ_ｉ（ｉ＝１，２，…，Ｎ）からランダムに目的値ｙ_ｉ（ｉ＝１，２，…，Ｍ）を選ぶ。

次に、更新部１４３が、入力層１０１に入力された入力データを回帰する初期の回帰分析モデル（ニューラルネットワーク）を生成する（ステップＳ１０２）。第１出力層１０３は、変換行列Ｔの行数と等しい数のＭ個のノード数を持つ。初期の回帰分析モデルでは、回帰分析モデルのパラメータ（各ノードへの重みＷ_１及びＷ_２）はランダムに初期化される。

次に、第１推定分布算出部１４１が、入力層１０１に入力された入力データに対して、Ｍ個のノードの値ｓによって第１推定分布を示す第１出力層を算出する（ステップＳ１０３）。第１推定分布の値ｓのｔ成分をｓ_ｔ（ｔ＝０，１，…，Ｍ−１）とする。ｓ_ｔは、ソフトマックスにより決定される。すなわちｓ_ｔは、０から１までの値をとり、ｓ_０＋ｓ_１＋・・・＋ｓ_Ｍ−１＝１となるので確率を表す。これにより、ｓ_ｔは変換行列Ｔのどの行をどれくらいの確率で使用するかを決定する。つまり、第１推定分布は、変換行列Ｔに含まれる行ベクトルの重みを示す。

次に、第２推定分布算出部１４２が、第１推定分布と変換行列Ｔとの積（行列積）により、第２推定分布の値ｙ’_ｉを算出する（ステップＳ１０４）。第２推定分布ｙ’_ｉの次元は、目的値ｙ_ｉと同じｄ_ｙ次元である。具体的に、第１推定分布の値ｓが３列で、変換行列Ｔが３×２行（Ｍ＝３，ｄ_ｙ＝２）のときの第２推定分布算出部１４２の計算例を下記式（１）に示す。

上記式（１）で算出された値が第２推定分布となる。

次に、更新部１４３が、第１及び第２推定分布と、学習データとから、ニューラルネットワーク（実施形態では回帰分析モデル）のパラメータを更新する（ステップＳ１０５）。具体的には、パラメータの更新はミニバッチ単位で実施される。また、回帰分析モデルのパラメータ更新の損失基準の例としては、二乗平均誤差（下記式（２））が用いられる。

二乗平均誤差による損失基準は、目的値ｙ_ｉと第２推定分布ｙ’_ｉとの近さである。上記式（２）のｊは、ｊ番目の成分を表す。更新部１４３は、上記式（２）により二乗平均誤差を算出し、更にミニバッチ数で当該二乗平均誤差の平均をとる。この損失基準により、第２推定分布ｙ’_ｉをｙ_ｉに近づけることができる。更新部１４３は、例えば確率勾配降下法等を利用して、ニューラルネットワークのパラメータを更新する。これにより、例えば第１推定分布（変換行列Ｔに含まれる行ベクトルの重み）がより適切な値に決定されるように、ニューラルネットワークのパラメータが学習される。

次に、更新部１４３が、パラメータの更新が終了したか否かを判定する（ステップＳ１０６）。更新終了の判定は、例えば学習回数、及び、損失基準の改善具合等に基づいて行われる。パラメータの更新が終了していない場合（ステップＳ１０６，Ｎｏ）、処理はステップＳ１０３に戻る。パラメータの更新が終了した場合（ステップＳ１０６，Ｙｅｓ）、処理は終了する。

以下で、本実施形態では、ｋ近傍法とは異なり、ｋの数やその重みが自動調整されることを説明する。先述した通り、第２推定分布は、第１推定分布の値ｓと変換行列Ｔとの行列積で決定される。これを言い換えると、変換行列のｔ番目の行に第１推定分布の値ｓのｔ番目の成分であるｓ_ｔを列方向に乗算してから、行方向に足し合わせることとなる。変換行列Ｔは学習データから生成されているので、第１推定分布の値ｓと変換行列Ｔとの行列積をとることは、学習データをどれくらいの重みで足し合わせるかと同義となる。したがって、使用される学習データの数ｋ、及び、当該学習データの重みを第１推定分布の値ｓで自動調整できる。

以下で、損失基準に、更に入力データの類似度を考慮する場合の方法について説明する。上述のステップＳ１０１で、変換行列Ｔが生成されたときに、その生成に用いられた学習データの目的値ｙ_ｉに関連付けられた特徴量をｘ’_ｉとする。更新部１４３は、生成部１２により生成されたＭ行の変換行列Ｔに対して、変換行列Ｔのどの行かを指し示すワンホットベクトルｈをＭ個発行する。例えば、変換行列Ｔの第２行を指し示すワンホットベクトルは、ｈ_２＝［０，１，０，０，…，０］と表され、ｈ_２の要素数はＭ個である。

ステップＳ１０５で、更新部１４３が、学習データから、回帰分析モデルのパラメータを更新するときに、学習データにｘ’_ｉを加え、ｘ’_ｉが入力されたときには、上述の式（２）の損失基準に加えて、交差エントロピーの損失基準（下記式（３））を与える。

更新部１４３は、上記式（３）による交差エントロピーの損失基準を算出し、ミニバッチ内で平均をとる。式（３）のｋは、Ｍ個発行されたワンホットベクトルｈのｋ個目を、ｌは、ｋ番目のワンホットベクトルｈのｌ番目の成分を表す。上記式（３）の損失基準によって、変換行列Ｔの生成に用いられた目的値ｙ_ｉに関連付けられた特徴量ｘ_ｉが、入力層１０１に入力されたときには、変換行列Ｔに含まれるｙ_ｉの行が主に用いられるようにパラメータが学習される。

更新部１４３は、上記式（１）及び（３）を合わせた下記式（４）の損失基準Ｌが小さくなるように、パラメータを更新する。

上記式（４）のλは、Ｌ_１及びＬ_２の重みを表す任意のパラメータである。上記式（４）の第２項によって、変換行列Ｔに含まれる行ベクトルの値に対応（又は類似）する特徴量ｘ_ｉが入力された場合は、変換行列Ｔ内の当該行ベクトルの値が主に用いられるように、パラメータが更新される。

次に、実施形態の推論装置について説明する。

［推論装置の機能構成の例］
図４は実施形態の推論装置２０の機能構成の例を示す図である。実施形態の推論装置２０は、受付部２１、推論部２２、モデル記憶部２３及び出力部２４を備える。

受付部２１は、推論処理に用いられる入力データを受け付ける。

推論部２２は、学習データから生成された変換行列Ｔの行数と等しい数のノードを有し、ノードの値によって第１推定分布を示す第１出力層１０３、及び、変換行列Ｔと第１推定分布との積により定まる第２推定分布を示す第２出力層１０５を有するニューラルネットワークに、入力データを入力することによって推論処理を実行する。具体的には、推論部２２は、モデル記憶部２３から、上述の学習装置１０によって学習されたニューラルネットワーク（実施形態の例では回帰分析モデル）を読み出す。推論部２２は、モデル記憶部２３から読み出されたニューラルネットワークの入力層１０１に、入力データを入力する。そして、推論部２２は、ニューラルネットワークの第２出力層１０５から出力されたデータを出力部２４に入力する。

出力部２４は、推論部２２から入力されたデータを、推論結果として出力する。

なお、推論装置２０は、学習装置１０と同じ装置で実現してもよいし、学習装置１０とは別の装置で実現してもよい。

図５は実施形態の推論方法の例を示すフローチャートである。はじめに、受付部２１が、推論処理に用いられる入力データを受け付ける（ステップＳ２０１）。次に、推論部２２が、上述の推論処理を実行する（ステップＳ２０２）。次に、出力部２４が、ステップＳ２０２の推論処理により得られた出力データを、推論結果として出力する（ステップＳ２０３）。

以下に、回帰分析の具体例を示す。

図６は実施形態の学習データの例（回帰分析の場合）を示す図である。図６の例では、特徴量ｘ_１〜ｘ_３は、温度Ｔ_１、温度Ｔ_２及び温度Ｔ_３である。また、目的値ｙ_１及びｙ_２は、温度Ｔ_１、温度Ｔ_２及び温度Ｔ_３から予測される圧力Ｐ_１及びＰ_２である。

まず、生成部１２が、圧力Ｐ_１及びＰ_２から変換行列Ｔを生成する。番号１，２及びＮの学習データが、変換行列Ｔの生成に使われたとすると、変換行列Ｔは、下記式（５）により表される。

次に、更新部１４３が、確率勾配降下法等を利用して、学習データ（特徴量ｘ_ｉ及び目的値ｙ_ｉ）から、上述の式（２）のＬ_１が小さくなるように、ニューラルネットワークのパラメータ（重みＷ_１及びＷ_２）を更新する。

推論装置２０は、変換行列Ｔと、学習で得られたＷ_１及びＷ_２とを用いて、新たなデータに対して回帰分析を行う。例えば、推論装置２０に、新たなデータＸ＝［１００，１００，８０］が入力され、第１推定分布の値はｓ＝［０．８，０．１０．１］となったとする。すると、推論装置２０は、ｓ＝［０．８，０．１０．１］と変換行列Ｔとの積から、第２推定分布のｙ’_ｉ＝［９．５，９］を出力する。

次に、上述の式（４）のＬが小さくなるように、ニューラルネットワークのＷ_１及びＷ_２を更新する場合について説明する。変換行列Ｔの生成に用いられた学習データｙ_ｉに対応する特徴量ｘ’_ｉは下記式（６）により表される。

上記式（６）の各行が、変換行列Ｔの生成に用いられた学習データｙ_ｉに対応する特徴量を示す。例えば、特徴量ｘ’_ｉの１行目は、番号１の学習データの特徴量ｘ_ｉに対応する。

更新部１４３は、特徴量ｘ_ｉ、特徴量ｘ’_ｉ及び目的値ｙ_ｉから、上記式（４）のＬが小さくなるように、ニューラルネットワークのパラメータ（重みＷ_１及びＷ_２）を更新する。理想的に学習が進んだとすると、例えば特徴量ｘ’_ｉの１行目と同じ値（番号１の学習データに相当）が入力されたときには、第１推定分布の値はｓ＝［１，０，０］となる。ｓ＝［１，０，０］と変換行列Ｔとの積をとると第２推定分布Ｇ１０５は［１０，１０］となり、ニューラルネットワークが、学習データをより正確に再現できることが期待される。

以上をまとめると、ニューラルネットワークが、回帰分析に用いられる場合、生成部１２は、学習データからｎ個（上記例ではｎ＝３）の選択データを選択し、選択データに関連付けられた目的値を示す行ベクトルをｎ個含む行列によって、変換行列Ｔを生成する。学習部１４は、上記式（４）の損失基準を用いることによって、行ベクトルが示す目的値に関連付けられた特徴量が、ニューラルネットワークに入力されたときには、目的値を示す行ベクトルが主に用いられるようにパラメータを学習する。

以上説明したように、実施形態の学習装置１０では、生成部１２が、特徴量ｘ_ｉと目的値ｙ_ｉとが関連付けられた学習データから変換行列Ｔを生成する。そして、学習部１４が、変換行列Ｔの行数と等しい数のノードを有し、ノードの値によって第１推定分布を示す第１出力層１０３、及び、変換行列Ｔと第１推定分布との積により定まる第２推定分布を示す第２出力層１０５を有するニューラルネットワークのパラメータを学習する。

これにより実施形態の学習装置１０によれば、ｋ近傍法のように、選択されるデータの数ｋと、選択されたｋ個のデータの重みとをヒューリスティックに決めなくても、入力データに応じて決定できる。すなわち、どの学習データをどれくらいの重みで足し合わせるかが、入力データに応じて適切に制御されたニューラルネットワークを学習できる。

また、実施形態の推論装置２０では、受付部２１が、入力データを受け付ける。推論部２２が、学習データから生成された変換行列Ｔの行数と等しい数のノードを有し、ノードの値によって第１推定分布を示す第１出力層１０３、及び、変換行列Ｔと第１推定分布との積により定まる第２推定分布を示す第２出力層１０５を有するニューラルネットワークに、入力データを入力することによって推論処理を実行する。そして、出力部２４が、第２出力層１０５の出力を推論結果として出力する。

これにより実施形態の推論装置２０によれば、ｋ近傍法のように、ｋの数と選択されたｋ個のデータの重みとをヒューリスティックに決めなくても、適切な推論結果を得ることができる。

（実施形態の変形例）
次に実施形態の変形例について説明する。変形例の説明では、実施形態と同様の説明については省略し、実施形態と異なる箇所について説明する。上述の実施形態では、ニューラルネットワークが回帰分析に用いられる場合を例にして説明したが、変形例では、ニューラルネットワークがクラス分類に用いられる場合について説明する。

図７は実施形態の学習データの例（クラス分類の場合）を示す図である。図７の例では、特徴量ｘ_１〜ｘ_３は、温度Ｔ_１、温度Ｔ_２及び温度Ｔ_３である。また、目的値ｙは、クラス（図７の例では０又は１）を示す。

まず、生成部１２が、クラスから変換行列Ｔを生成する。番号１，２及びＮの学習データが、変換行列Ｔの生成に使われたとすると、変換行列Ｔは、下記式（７）により表される。

更新部１４３は、回帰分析の場合と同様に、ニューラルネットワークのパラメータ（重みＷ_１及びＷ_２）を更新する。

推論装置２０は、第２推定分布の出力ｙ’が０．５より小さければ、０のクラスに分類し、第２推定分布の出力ｙ’が０．５以上であれば、１のクラスに分類する。例えば、新たなデータＸ＝［１００，１００，８０］が入力されたとし、第１推定分布の値がｓ＝［０．８，０．１０．１］となったとする。すると、ｓ＝［０．８，０．１０．１］と変換行列Ｔとの積から、第２推定分布の出力ｙは０．８となる。よって、新たなデータＸ＝［１００，１００，８０］は、１のクラスへと分類される。

以上をまとめると、ニューラルネットワークが、クラス分類に用いられる場合、生成部１２は、学習データからｎ個（上記例ではｎ＝３）の選択データを選択し、選択データのクラスを示すｎ×１行列によって、変換行列Ｔを生成する。学習部１４は、上記式（４）の損失基準を用いることによって、ｎ×１行列が示すクラスに関連付けられた特徴量が、ニューラルネットワークに入力されたときには、当該クラスを示すｎ×１行列の成分が主に用いられるようにパラメータを学習する。

最後に、実施形態の学習装置１０及び推論装置２０のハードウェア構成の例について説明する。

［ハードウェア構成の例］
図８は実施形態の学習装置１０及び推論装置２０のハードウェア構成の例を示す図である。

学習装置１０及び推論装置２０は、制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６を備える。制御装置３０１、主記憶装置３０２、補助記憶装置３０３、表示装置３０４、入力装置３０５及び通信装置３０６は、バス３１０を介して接続されている。

制御装置３０１は、補助記憶装置３０３から主記憶装置３０２に読み出されたプログラムを実行する。主記憶装置３０２は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、及び、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等のメモリである。補助記憶装置３０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、及び、メモリカード等である。

表示装置３０４は表示情報を表示する。表示装置３０４は、例えば液晶ディスプレイ等である。入力装置３０５は、コンピュータを操作するためのインタフェースである。入力装置３０５は、例えばキーボードやマウス等である。コンピュータがスマートフォン及びタブレット型端末等のスマートデバイスの場合、表示装置３０４及び入力装置３０５は、例えばタッチパネルである。通信装置３０６は、他の装置と通信するためのインタフェースである。

コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、メモリカード、ＣＤ−Ｒ及びＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

またコンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

またコンピュータで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

コンピュータで実行されるプログラムは、上述の学習装置１０及び推論装置２０の機能構成（機能ブロック）のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、制御装置３０１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置３０２上にロードされる。すなわち上記各機能ブロックは主記憶装置３０２上に生成される。

なお上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェアにより実現してもよい。

また複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

また学習装置１０（推論装置２０）を実現するコンピュータの動作形態は任意でよい。例えば、学習装置１０（推論装置２０）を１台のコンピュータにより実現してもよい。また例えば、学習装置１０（推論装置２０）を、ネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０学習装置
１１学習データ記憶部
１２生成部
１３変換行列記憶部
１４学習部
１５出力部
２０推論装置
２１受付部
２２推論部
２３モデル記憶部
２４出力部
１４１第１推定分布算出部
１４２第２推定分布算出部
１４３更新部
３０１制御装置
３０２主記憶装置
３０３補助記憶装置
３０４表示装置
３０５入力装置
３０６通信装置
３１０バス

Claims

特徴量と目的値とが関連付けられた学習データから変換行列を生成する生成部と、
前記変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークのパラメータを学習する学習部と、
を備える学習装置。
前記生成部は、前記学習データから選択データを選択し、前記選択データに基づく行ベクトルを含む行列によって、前記変換行列を生成する、
請求項１に記載の学習装置。
前記第１推定分布は、前記行ベクトルの重みを示し、
前記学習部は、前記行ベクトルの重みがより適切な値に決定されるように、前記ニューラルネットワークのパラメータを学習する、
請求項２に記載の学習装置。
前記ニューラルネットワークは、回帰分析に用いられ、
前記生成部は、前記学習データからｎ個の選択データを選択し、前記選択データに関連付けられた目的値を示す行ベクトルをｎ個含む行列によって、前記変換行列を生成する、
請求項２又は３に記載の学習装置。
前記学習部は、前記行ベクトルが示す目的値に関連付けられた特徴量が、前記ニューラルネットワークに入力されたときには、前記目的値を示す行ベクトルが主に用いられるように前記パラメータを学習する、
請求項４に記載の学習装置。
前記ニューラルネットワークは、クラス分類に用いられ、
前記生成部は、前記学習データからｎ個の選択データを選択し、前記選択データのクラスを示すｎ×１行列によって、前記変換行列を生成する、
請求項２又は３に記載の学習装置。
前記学習部は、前記ｎ×１行列が示すクラスに関連付けられた特徴量が、前記ニューラルネットワークに入力されたときには、前記クラスを示すｎ×１行列の成分が主に用いられるように前記パラメータを学習する、
請求項６に記載の学習装置。
入力データを受け付ける受付部と、
学習データから生成された変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークに、前記入力データを入力することによって推論処理を実行する推論部と、
前記第２出力層の出力を推論結果として出力する出力部と、
を備える推論装置。
学習装置が、特徴量と目的値とが関連付けられた学習データから変換行列を生成するステップと、
前記学習装置が、前記変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークのパラメータを学習するステップと、
を含む学習方法。
推論装置が、入力データを受け付けるステップと、
前記推論装置が、学習データから生成された変換行列の行数と等しい数のノードを有し、前記ノードの値によって第１推定分布を示す第１出力層、及び、前記変換行列と前記第１推定分布との積により定まる第２推定分布を示す第２出力層を有するニューラルネットワークに、前記入力データを入力することによって推論処理を実行するステップと、
前記推論装置が、前記第２出力層の出力を推論結果として出力するステップと、
含む推論方法。