JP2019185207A

JP2019185207A - モデル学習装置、モデル学習方法、プログラム

Info

Publication number: JP2019185207A
Application number: JP2018072225A
Authority: JP
Inventors: 崇史森谷; Takashi Moriya; 山口　義和; Yoshikazu Yamaguchi; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2019-10-24
Also published as: WO2019194128A1

Abstract

【課題】あるドメインのデータを用いて学習したモデルの性能を損なうことなく、別のドメインのデータを用いて追加的に学習することができるようなモデル学習技術を提供する。【解決手段】モデルパラメータΩの初期値である学習済みモデルパラメータからマスクを生成するセットアップ部と、学習済みモデルパラメータの学習に用いたドメインとは異なるドメインにおける入力データから抽出した特徴量に対応する出力が出力番号mの出力である確率の分布である出力確率分布を計算する特徴量処理部と、マスクと出力確率分布と特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習するモデル学習部とを含み、モデル学習部は、モデルパラメータΩの要素ωの更新差分δ(ω)を、損失関数L(Ω)とモデルパラメータΩの要素ωに対応するマスクの要素γを用いた所定の式により計算し、要素ωを更新する。【選択図】図１

Description

本発明は、ニューラルネットワークを用いたモデル学習技術に関する。

従来のニューラルネットワークを用いたモデル（モデルパラメータ）の学習方法について説明する。非特許文献１には、ニューラルネットワークを用いて、音声認識に用いる音響モデルを学習する方法が開示されている。特に、非特許文献１のII.”TRAINING DEEP NEURAL NETWORKS”にその詳細が開示されている。

以下、図５〜図６を参照して非特許文献１のモデル学習に対応するモデル学習装置９００について説明する。図５は、モデル学習装置９００の構成を示すブロック図である。図６は、モデル学習装置９００の動作を示すフローチャートである。図５に示すようにモデル学習装置９００は、特徴量処理部９２０、モデル学習部９３０、記録部９９０を含む。

記録部９９０は、モデル学習装置９００の処理に必要な情報を適宜記録する構成部である。例えば、モデルパラメータΩの初期値を事前に記録しておく。また、学習過程で生成されるモデルパラメータΩを適宜記録する。モデルパラメータΩの初期値は、乱数を用いて生成してもよいし、今回の学習に用いるデータとは異なる別のデータを用いて生成したモデルパラメータを利用してもよい。

また、図７に示すように、特徴量処理部９２０は、中間特徴量計算部９２１、出力確率分布計算部９２２を含む。

学習開始前に、学習データとなる入力データ（非特許文献１では音声データ）から特徴量を抽出し、用意しておく。特徴量は実数ベクトルとして表される。入力データを音声データとする場合、特徴量の例として、音声データを分割したフレーム（通常20ms〜40ms程度）ごとに抽出されるFBANK（フィルタバンク対数パワー）が挙げられる。また、特徴量に対応する正解出力を識別するための番号である正解出力番号も併せて用意しておく。この特徴量と正解出力番号の組がモデル学習装置９００の入力となる。特徴量と正解出力番号の組のことを訓練データという。

以下、特徴量に対応する出力の種類の数をM（Mは1以上の整数）とし、各出力の種類には番号（以下、出力番号という）が1〜Mまで振られており、出力番号m(1≦m≦M、つまり、mは出力番号を表すインデックスである)を用いて出力を識別することにする。

モデル学習装置９００は、訓練データ（つまり、特徴量と正解出力番号の組）から、モデルパラメータΩを学習する。ディープニューラルネットワーク(DNN: Deep Neural Networks)を用いる場合、モデルパラメータΩは、各層における重みやバイアスである。

DNNを用いる場合を例に、各構成部について説明する。中間特徴量計算部９２１は、入力層から最終隠れ層までの各層における計算を実行する構成部である。また、出力確率分布計算部９２２は、出力層における出力の計算を実行する構成部である。したがって、この場合、モデル学習装置９００が学習するモデルパラメータΩは、中間特徴量計算部９２１と出力確率分布計算部９２２を特徴付けるDNNのモデルパラメータとなる。

モデル学習装置９００は、学習開始までに、記録部９９０に記録したモデルパラメータΩの初期値を中間特徴量計算部９２１、出力確率分布計算部９２２に設定する。また、モデル学習装置９００は、学習中、モデル学習部９３０がモデルパラメータΩを最適化計算（つまり、最適化するよう更新）する都度、計算したモデルパラメータΩを中間特徴量計算部９２１、出力確率分布計算部９２２に設定する。これにより、新たに計算されたモデルパラメータΩで特徴付けられる中間特徴量計算部９２１と出力確率分布計算部９２２を用いて、次の訓練データを処理することになる。

図６に従いモデル学習装置９００の動作について説明する。特徴量処理部９２０は、モデルパラメータΩを用いて、入力データから抽出した特徴量から、当該特徴量に対応する出力が出力番号m（1≦m≦M）の出力である確率p_mの分布である出力確率分布p=(p₁,…,p_M)を計算する（Ｓ９２０）。以下、図８を参照して特徴量処理部９２０の動作について説明する。中間特徴量計算部９２１は、入力された特徴量から、中間特徴量を計算する（Ｓ９２１）。中間特徴量は、入力された特徴量に対応する出力が出力番号m（1≦m≦M）の出力である確率p_mの分布である出力確率分布p=(p₁,…,p_M)を計算するために用いる特徴量である。ここでの処理は、非特許文献１の式(1)の計算に相当するものである。なお、DNNを用いる場合、中間特徴量は学習中のDNNの最終隠れ層の出力特徴量に該当する。

出力確率分布計算部９２２は、Ｓ９２１で計算した中間特徴量から、出力確率分布pを計算する（Ｓ９２２）。ここでの処理は、非特許文献１の式(2)の計算に相当するものである。なお、DNNを用いる場合、出力確率分布pは学習中のDNNの出力層の出力特徴量に該当する。

モデル学習部９３０は、Ｓ９２０で計算した出力確率分布pと、Ｓ９２０での入力である特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習する（Ｓ９３０）。例えば、次式で定義される損失関数Cの値を減少させるように、モデルパラメータΩの最適化計算をしていく。ここでの処理は、非特許文献１の式(3)や式(4)の計算に相当するものである。

ただし、d=(d₁,…,d_M)は次式で定義される正解確率分布である。

モデル学習装置９００は、Ｓ９２０〜Ｓ９３０の処理を訓練データの数（一般に数千万〜数億程度と非常に大きい数）だけ繰り返す。モデル学習装置９００は、この繰り返しが終了した時点のモデルパラメータΩを出力する。

また、非特許文献２には、ニューラルネットワークにおけるモデルサイズ（モデルパラメータの数）を削減することができる学習方法が開示されている。以下、図５〜図６を参照して非特許文献２のモデル学習に対応するモデル学習装置９０１について説明する。図５は、モデル学習装置９０１の構成を示すブロック図である。図６は、モデル学習装置９０１の動作を示すフローチャートである。図５に示すようにモデル学習装置９０１は、特徴量処理部９２０、モデル学習部９３１、記録部９９０を含む。

つまり、モデル学習装置９０１は、モデル学習部９３０の代わりに、モデル学習部９３１を含む点においてのみモデル学習装置９００と異なる。

そこで、以下、モデル学習部９３１の動作について説明する（図６参照）。モデル学習部９３１は、Ｓ９２０で計算した出力確率分布pと、Ｓ９２０での入力である特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習する（Ｓ９３１）。例えば、次式で定義される損失関数L(Ω)を用いて、モデルパラメータΩを最適化する。

ここで、E(Ω)は、モデルパラメータΩを用いて特徴量から計算した出力確率分布と正解出力との誤差を示す誤差項であり、上述の損失関数Cに相当する項である。また、R(Ω)は正則化項、実数λは正則化項R(Ω)の影響を調整するためのハイパーパラメータである。

モデル学習部９３１は、誤差項E(Ω)に正則化項R(Ω)（のスカラー倍）を加えた損失関数L(Ω)を用いてモデルパラメータΩを学習することにより、モデルパラメータΩの一部の要素の値が0に近い値となる（モデルがスパースとなる）ような学習を行う。

ここで、モデルパラメータΩの要素の一部が0または0に近い値になる場合、モデルパラメータΩはスパース性を有するという。

したがって、モデル学習部９３１は、正則化項R(Ω)を含む損失関数L(Ω)を用いて、スパース性を有するモデルパラメータΩを学習するものである。

非特許文献２では、Ridge(L2)とGroup Lassoと呼ばれる正則化項が用いられている。例えば、層l（lはニューラルネットワークを構成する層を識別するための整数である）における重みパラメータW^lのみを更新する場合のRidge(L2)の正則化項R_L2(W^l)、Group Lassoの正則化項R_group(W^l)は、次式で与えられる。

つまり、R_L2(W^l)は第l層と第(l-1)層間の重みパラメータのすべての要素の二乗和を、R_group(W^l)は第l層の１つの素子と第(l-1)層のすべての素子(j=1, …, N_l-1)を結合する重み（の絶対値）の和を表している。

正則化項としてGroup Lassoを用いる場合、モデルパラメータΩを任意にグルーピングして学習することが可能である。例えば、非特許文献２では、モデルパラメータΩを行列を用いて表した場合における、当該行列の行あるいは列をグルーピングする単位（グループ）として学習している。また、行列の行をグルーピングの単位として学習し、行ごとに計算されるノルムの値が所定の閾値より小さいグループのモデルパラメータの要素を学習終了時点のモデルパラメータΩから削除することにより、モデルサイズを削減している。

本来、正則化項は過学習を避けるために用いるものであるが、目的に応じて、（非特許文献２の正則化項R_L2(W^l)、正則化項R_group(W^l)以外にも）様々な正則化項を定義し利用することができる。

Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patric Nguyen, Tara Sainath, Brian Kingsbury, "Deep Neural Networks for Acoustic Modeling in Speech Recognition", IEEE Signal Processing Magazine, Vol.29, No.6, pp.82-97, 2012.

T. Ochiai, S. Matsuda, H. Watanabe, S. Katagiri, "Automatic Node Selection for Deep Neural Networks using Group Lasso Regularization." ICASSP 2017, pp.5485-5489, 2017.

非特許文献１の学習方法は、１つのドメインでモデルを学習する（例えば、音声認識の場合、背景雑音、収録機器、発話スタイルなどの条件が同一であるという前提のもと収集した音声データを用いて学習を行う）ことを前提としている。したがって、あるドメイン（ドメイン１）のデータを用いて学習したモデルを初期モデルとして、別のドメイン（ドメイン２）のデータを用いて追加的に学習して得られるモデルを用いて、ドメイン１のデータについて認識処理を行うと、その精度が著しく劣化するという問題が起こりうる。このようなニューラルネットワークの学習に関する性質を破滅的忘却という。一般に、破滅的忘却が起こることを防ぐ（つまり、既存の知識に相当する学習済みモデルの性能を損なうことなく追加的に学習する）には、ドメイン１とドメイン２の両方のデータを用いて再度モデルを学習し直す必要があるため、学習時間に関するコストが非常にかかるという問題がある。

そこで本発明は、あるドメインのデータを用いて学習したモデルの性能を損なうことなく、別のドメインのデータを用いて追加的に学習することができるようなモデル学習技術を提供することを目的とする。

本発明の一態様は、学習対象となるモデルパラメータΩの初期値である学習済みモデルパラメータから、マスクを生成するセットアップ部と、モデルパラメータΩを用いて、前記学習済みモデルパラメータの学習に用いたドメインとは異なるドメインにおける入力データから抽出した特徴量から、当該特徴量に対応する出力が出力番号m（1≦m≦M）の出力である確率p_mの分布である出力確率分布を計算する特徴量処理部と、前記マスクと、前記出力確率分布と、前記特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習するモデル学習部とを含み、L(Ω)をモデルパラメータΩを学習する際に用いる損失関数、μを実数とし、前記セットアップ部は、モデルパラメータΩの要素ωに対応するマスクの要素γを、閾値θを用いて、次式により計算し、

（ただし、ω⁽⁰⁾は要素ωの初期値である）
前記モデル学習部は、モデルパラメータΩの要素ωの更新差分δ(ω)を、次式により計算し、要素ωを更新する

（ただし、∂L(Ω)/∂ωは、損失関数L(Ω)の要素ωに関する勾配）。

本発明によれば、あるドメインのデータを用いて学習したモデルの性能を損なうことなく、別のドメインのデータを用いて追加的に学習することができる。

モデル学習装置１００の構成の一例を示す図。モデル学習装置１００の動作の一例を示す図。セットアップ部１１０の構成の一例を示す図。セットアップ部１１０の動作の一例を示す図。モデル学習装置９００／９０１の構成の一例を示す図。モデル学習装置９００／９０１の動作の一例を示す図。特徴量処理部９２０の構成の一例を示す図。特徴量処理部９２０の動作の一例を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

＜第一実施形態＞
以下、図１〜図２を参照してモデル学習装置１００について説明する。図１は、モデル学習装置１００の構成を示すブロック図である。図２は、モデル学習装置１００の動作を示すフローチャートである。図１に示すようにモデル学習装置１００は、セットアップ部１１０、特徴量処理部９２０、モデル学習部１３０、記録部９９０を含む。

記録部９９０は、モデル学習装置１００の処理に必要な情報を適宜記録する構成部である。例えば、モデルパラメータΩの初期値を事前に記録しておく。このモデルパラメータΩの初期値は、あるドメイン（以下、ドメイン１という）における入力データから抽出した特徴量と当該特徴量に対応する正解出力を識別するための番号である正解出力番号の組を訓練データとして、例えば、モデル学習装置９００やモデル学習装置９０１が学習した学習済みモデルパラメータとする。したがって、モデル学習装置９０１が学習した学習済みモデルパラメータを用いる場合、学習済みモデルパラメータは、スパース性を有するものとなる。以下、学習済みモデルパラメータをΩ⁽⁰⁾、その要素をω⁽⁰⁾と表す。

モデル学習装置１００は、学習済みモデルパラメータの学習に用いたドメイン（つまり、ドメイン１）とは異なるドメイン（以下、ドメイン２という）における入力データから抽出した特徴量と当該特徴量に対応する正解出力を識別するための番号である正解出力番号の組である訓練データから、モデルパラメータΩを学習する。

モデル学習装置１００は、学習開始までに、記録部９９０に記録したモデルパラメータΩの初期値（つまり、学習済みモデルパラメータ）を特徴量処理部９２０（中間特徴量計算部９２１及び出力確率分布計算部９２２）に設定する。また、モデル学習装置１００は、学習中、モデル学習部１３０がモデルパラメータΩを最適化計算（つまり、最適化するよう更新）する都度、計算したモデルパラメータΩを特徴量処理部９２０に設定する。

図２に従いモデル学習装置１００の動作について説明する。セットアップ部１１０は、記録部９９０に記録してある、学習対象となるモデルパラメータΩの初期値である学習済みモデルパラメータから、マスクを生成する（Ｓ１１０）。以下、図３〜図４を参照してセットアップ部１１０について説明する。図３は、セットアップ部１１０の構成を示すブロック図である。図４は、セットアップ部１１０の動作を示すフローチャートである。図３に示すようにセットアップ部１１０は、閾値決定部１１１、マスク生成部１１２を含む。図４に従いセットアップ部１１０の動作について説明する。

閾値決定部１１１は、学習済みモデルパラメータから閾値θを決定する（Ｓ１１１）。学習済みモデルパラメータの要素のうち、その絶対値が0に近い要素を所定の数だけ抽出するような、閾値θの決定方法であれば、どのような決定方法を用いてもよい。例えば、学習済みモデルパラメータの要素の値に関する頻度の分布を作成し、当該モデルパラメータの要素のうち、その値の絶対値が0に近いものの割合が25％になるように閾値θを決定することができる（以下、決定方法１という）。また、学習済みモデルパラメータの要素をグルーピングしたグループごとに計算される値に関する頻度の分布を作成し、ある２つの値の間の値（例えば、この２つの値の平均値）を閾値θとして決定することができる（以下、決定方法２という）。例えば、学習済みモデルパラメータが行列を用いて表されている場合、当該行列の行（あるいは列）をグループとして、各グループに対して、当該グループの行ベクトル（あるいは列ベクトル）のノルムの値に関する頻度の分布を作成し、ある２つのノルムの値の間の値を閾値θとして決定することができる。つまり、決定方法１は、学習済みモデルパラメータの要素の値に関する頻度の分布に基づいて閾値θを決定するものであり、決定方法２は、学習済みモデルパラメータの要素をグルーピングしたグループごとに計算される値に関する頻度の分布に基づいて閾値θを決定するものである。

マスク生成部１１２は、Ｓ１１１で決定した閾値θを用いて、学習済みモデルパラメータからマスクΓを生成する（Ｓ１１２）。マスクΓの生成方法について、具体的に説明する。モデルパラメータΩの要素ωに対応するマスクΓの要素γは、学習済みモデルパラメータの要素ω⁽⁰⁾の絶対値が閾値θよりも小さい（閾値θ以下である）場合は1に、それ以外の場合は0にする。つまり、モデルパラメータΩの要素ωに対応するマスクの要素γを、閾値θを用いて、次式により計算する。

（ただし、ω⁽⁰⁾は要素ωの初期値である）
モデルパラメータΩを行列を用いて表す場合、マスクΓは、すべての要素が0または1となる、モデルパラメータΩを表す行列と同じサイズの行列で表される。

特徴量処理部９２０は、モデルパラメータΩを用いて、ドメイン２における入力データから抽出した特徴量から、当該特徴量に対応する出力が出力番号m（1≦m≦M）の出力である確率p_mの分布である出力確率分布p=(p₁,…,p_M)を計算する（Ｓ９２０）。

モデル学習部１３０は、Ｓ１１０で生成したマスクΓと、Ｓ９２０で計算した出力確率分布pと、Ｓ９２０での入力である特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習する（Ｓ１３０）。例えば、式(1)または式(2)で定義される損失関数L(Ω)を用いて、モデルパラメータΩを最適化する。

具体的には、モデルパラメータΩの要素ωの更新差分δ(ω)を式(3)により計算し、要素ωを式(4)により更新する。

ここで、μは学習率を表す（正の）実数であり、モデルパラメータの更新の程度を調整するパラメータである。また、∂L(Ω)/∂ωは、損失関数L(Ω)の要素ωに関する勾配を表す。なお、勾配∂L(Ω)/∂ωは、モデル学習装置９００やモデル学習装置９０１における学習でも用いられるものである。

この更新差分を用いると、学習対象としたいモデルパラメータΩの要素、つまり、閾値θより小さい（閾値θ以下である）要素のみを選択的に更新することが可能となる。

上述のようにモデルパラメータΩ及びマスクΓが行列で表されている場合、その行列そのものもΩやΓで表すことにすると、モデルパラメータΩの最適化計算は、アダマール積を用いて以下のように表すことができる。

なお、正則化項R(Ω)を含む損失関数L(Ω)（式(2)）を用いると、モデルパラメータΩの各要素を効率的に0に近い値とすることができる。

モデル学習装置１００は、Ｓ９２０〜Ｓ１３０の処理を訓練データの数だけ繰り返し、最終的に計算されたモデルパラメータΩを出力する。

本実施形態の発明によれば、あるドメインのデータを用いて学習したモデルの性能を損なうことなく、別のドメインのデータを用いて追加的に学習することができる。これにより、ドメイン２における入力データのみを用いて、ドメイン１における入力データを用いて学習した学習済みモデルを初期モデルとして、ドメイン１とドメイン２の両方の入力データを精度よく処理することができるモデルを学習することができるため、学習時間に関するコストを削減することが可能となる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

学習対象となるモデルパラメータΩの初期値である学習済みモデルパラメータから、マスクを生成するセットアップ部と、
モデルパラメータΩを用いて、前記学習済みモデルパラメータの学習に用いたドメインとは異なるドメインにおける入力データから抽出した特徴量から、当該特徴量に対応する出力が出力番号m（1≦m≦M、ただし、Mは特徴量に対応する出力の種類の数を表す）の出力である確率p_mの分布である出力確率分布を計算する特徴量処理部と、
前記マスクと、前記出力確率分布と、前記特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習するモデル学習部と
を含むモデル学習装置であって、
L(Ω)をモデルパラメータΩを学習する際に用いる損失関数、μを実数とし、
前記セットアップ部は、
モデルパラメータΩの要素ωに対応するマスクの要素γを、閾値θを用いて、次式により計算し、

（ただし、ω⁽⁰⁾は要素ωの初期値である）
前記モデル学習部は、
モデルパラメータΩの要素ωの更新差分δ(ω)を、次式により計算し、要素ωを更新する

（ただし、∂L(Ω)/∂ωは、損失関数L(Ω)の要素ωに関する勾配）
モデル学習装置。
請求項１に記載のモデル学習装置であって、
前記学習済みモデルパラメータは、スパース性を有するものである
ことを特徴とするモデル学習装置。
請求項２に記載のモデル学習装置であって、
前記学習済みモデルパラメータは、次式で与えられる損失関数L(Ω)を用いて学習されたものである

（ただし、E(Ω)はモデルパラメータΩを用いて特徴量から計算した出力確率分布と正解出力との誤差を示す誤差項、R(Ω)は正則化項、λは実数）
ことを特徴とするモデル学習装置。
請求項１ないし３の何れか１項に記載のモデル学習装置であって、
閾値θは、前記学習済みモデルパラメータの要素の値に関する頻度の分布に基づいて決定される
ことを特徴とするモデル学習装置。
請求項１ないし３の何れか１項に記載のモデル学習装置であって、
閾値θは、前記学習済みモデルパラメータの要素をグルーピングしたグループごとに計算される値に関する頻度の分布に基づいて決定される
ことを特徴とするモデル学習装置。
モデル学習装置が、学習対象となるモデルパラメータΩの初期値である学習済みモデルパラメータから、マスクを生成するセットアップステップと、
前記モデル学習装置が、モデルパラメータΩを用いて、前記学習済みモデルパラメータの学習に用いたドメインとは異なるドメインにおける入力データから抽出した特徴量から、当該特徴量に対応する出力が出力番号m（1≦m≦M）の出力である確率p_mの分布である出力確率分布を計算する特徴量処理ステップと、
前記モデル学習装置が、前記マスクと、前記出力確率分布と、前記特徴量に対応する正解出力を識別するための番号である正解出力番号とを用いて、モデルパラメータΩを学習するモデル学習ステップと
を含むモデル学習方法であって、
L(Ω)をモデルパラメータΩを学習する際に用いる損失関数、μを実数とし、
前記セットアップステップでは、
モデルパラメータΩの要素ωに対応するマスクの要素γを、閾値θを用いて、次式により計算し、

（ただし、ω⁽⁰⁾は要素ωの初期値である）
前記モデル学習ステップでは、
モデルパラメータΩの要素ωの更新差分δ(ω)を、次式により計算し、要素ωを更新する

（ただし、∂L(Ω)/∂ωは、損失関数L(Ω)の要素ωに関する勾配）
モデル学習方法。
請求項６に記載のモデル学習方法であって、
前記学習済みモデルパラメータは、スパース性を有するものである
ことを特徴とするモデル学習方法。
請求項１ないし５の何れか１項に記載のモデル学習装置としてコンピュータを機能させるためのプログラム。