JP2010092266A

JP2010092266A - 学習装置、学習方法及びプログラム

Info

Publication number: JP2010092266A
Application number: JP2008261597A
Authority: JP
Inventors: Norihito Teramoto; 礼仁寺本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-10-08
Filing date: 2008-10-08
Publication date: 2010-04-22

Abstract

【課題】予測モデルの学習の計算手順を簡潔化し、計算時間を要さない学習装置を提供する。
【解決手段】訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、テストデータの出力を予測するための予測モデルを学習する学習装置１であって、重要度を考慮した損失関数である重要度重み付き損失関数を用いて予測モデルの学習を行う学習部１２を有する。
【選択図】図１

Description

本発明は、学習装置、学習方法及びプログラムに関し、特に、訓練データとテストデータとの確率分布が異なる学習装置、学習方法及びプログラムに関する。

人間が行っている"学習" 学習能力と同様の機能をコンピュータ" コンピュータで実現させるための機械学習のアルゴリズムの一つである教師あり学習では、学習に用いる訓練データと、学習した結果の評価に用いるテストデータとが同じ確率分布に従うことを前提として学習を行う。なお、教師あり学習の目的は、入力データと出力データとのペア（訓練サンプルデータ）が与えられた場合に、その訓練サンプルデータに基づいて新しい入力（テストデータ）に対する正しい出力を予測することである。このように、訓練サンプルデータが与えられることから教師あり学習と呼ばれる。以降、訓練サンプルデータのうち入力データのことを訓練データといい、テストデータの出力のことをテストデータのラベルという。

現実には、訓練データとテストデータとが同じ確率分布に従うとは限らない。例えば、訓練データを取得したときと異なる日時や状況下で取得されたテストデータは、必ずしも訓練データと同じ確率分布とならない。

訓練データとテストデータとが異なる確率分布に従っている場合、訓練データとテストデータとの確率分布の違いを考慮して学習を行うことが望ましい。なお、このような訓練データとテストデータとが異なる確率分布に従う状況は共変量シフトと呼ばれている。

共変量シフトの状況においてテストデータのラベルをより高い精度で予測するためには、テストデータの確率分布に応じた学習が有効である。具体的には、テストデータの密度が高い領域の訓練データの学習における寄与度を大きくし、テストデータの密度が低い領域の訓練データの寄与度を小さくする適応的な学習が有効であると考えられる。

ここで、訓練データに重み付けを行うことによって訓練データ毎に学習における寄与度を変え、その寄与度に従った学習をする手法が例えば、特許文献１に開示されている。しかし、特許文献１に開示された手法では、テストデータを考慮しておらず、共変量シフトの状況ではテストデータのラベルをより高い精度で予測するのは難しい。

一方、テストデータの密度が高い領域の訓練データの学習における寄与度を大きくし、テストデータの密度が低い領域の訓練データの寄与度を小さくする適応的な学習を実現する手法として、訓練データとテストデータとの生成確率の比を求めて教師あり学習を行う手法が非特許文献１，２に開示されている。以降、訓練データとテストデータとの生成確率の比のことを重要度という。

非特許文献１に開示された手法は、重要度を推定するのに適当な非線形の基底関数を導入し、尤度交差確認法によって重要度を推定することを特徴としている。

非特許文献２に開示された手法においても、非特許文献１に開示された手法と同様の手法を用いているが、対数線形モデルを用いて大規模なデータを扱えるように拡張している。

また、非特許文献２では、訓練データとテストデータとにそれぞれクラスラベル＋１，−１を与えて学習を行い、その確率的な予測値から重要度を推定する方法も提案されている。なお、非特許文献１，２に開示された手法はともに、その妥当性及び性能の向上が計算機実験によって確認されている。なお、機械学習において性能とは、予測精度のことをいう。
特開２００６−２５１９５５号公報 Sugiyama, M., Nakajima, S., Kashima, H., Bunau, P., Kawanabe, M. Direct importance estimation with model selection and its application to covariate shift adaptation. Advances in Neural Information Processing Systems (NIPS), 2007. Tsuboi, Y., Kashima S., Hido, S., Bickel S., Sugiyama, M. Direct density ratio estimation for large-scale covariate shift adaptation. Proceeding of the eighth SIAM International Conference on Data Mining. 2008, 443-454.

しかしながら、非特許文献１，２に開示されている手法では、以下に示すような課題がある。

まず、非特許文献１に開示されている手法では、尤度交差確認法によって重要度を推定するため、重要度の推定に計算時間を要するという課題がある。

また、重要度を決定した後に分類学習や回帰学習を行うため、アルゴリズムが複雑となり、予測モデルの学習の計算手順が煩雑になるという課題がある。

次に、非特許文献２に開示されている方法は、非特許文献１に開示されている手法を高速化することに目的としており、基本的な枠組みは非特許文献１に開示されている手法と同一である。ただし、上述したように、訓練データとテストデータとにそれぞれクラスラベル＋１，−１を与えて学習を行い、その予測結果から重要度を決定するため、重要度の推定に尤度交差確認法を必要としない。しかし、この場合でも学習パラメータの決定に交差確認法を必要とするため計算時間を要するという課題がある。なお、交差確認法とは、サンプルデータを複数のサブセットに分割し、その分割されたサブセットの１つを解析して仮説を構築し、残りのサブセットをその"仮説検定" 仮説の検証に用いる統計学の手法のことである。

本発明は、性能を担保しつつ、上述した課題のいずれかを解決する学習装置、学習方法及びプログラムを提供することを目的とする。

上記目的を達成するために本発明は、
訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習装置であって、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う学習部を有する。

また、訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習方法であって、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う処理を有する。

また、訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習装置に、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う機能を実現させる。

本発明は以上説明したように構成されているので、予測モデルの学習の計算手順を簡潔化でき、計算時間を要することがない。

以下に、本発明の実施の形態について図面を参照して説明する。

本発明では、訓練データとテストデータとが異なる確率分布に従っている場合に、訓練データとテストデータとの生成確率の比である重要度を考慮した重要度重み付き損失関数を用いた勾配ブースティングによって分類器を構成する。なお、損失関数とは、予測値と、正しい値や望ましい値との違いを定義した関数のことである。また、ブースティングとは、あまり精度のよくない学習アルゴリズムを基にして精度の高い学習アルゴリズムを構成する手法のことであり、勾配ブースティングとは、損失関数の勾配を利用したブースティングのことである。

図１は、本発明の学習装置の実施の一形態の構成を示すブロック図である。

本実施形態の学習装置１は図１に示すように、プログラム制御により動作するデータ処理装置１０と、データを記憶する記憶装置２０とを備えている。

また、図１に示す学習装置１には、ユーザが操作することによって学習装置１への入力を行うキーボードやマウス等の入力装置３０と、ディスプレイやプリンタ等の出力装置４０とが接続されている。

データ処理装置１０は、重要度推定部１１と、学習部１２と、判別部１３とを備えている。

記憶装置２０は、訓練サンプルデータ及びテストデータと、重要度推定部１１が計算した重要度とを記憶するデータ記憶部２１と、予測モデルを記憶するモデル記憶部２２とを備えている。

以下にデータ処理装置１０の各部の機能を説明する。

重要度推定部１１は、データ記憶部２１に記憶されている訓練サンプルデータとテストデータとを取得し、取得した訓練サンプルデータとテストデータとから教師あり学習によって各訓練データ点における重要度の計算を行う。そして、計算した各訓練データ点における重要度をデータ記憶部２１に出力して記憶させる。

学習部１２は、データ記憶部２１から取得した各訓練データ点における重要度と、訓練サンプルデータとを用いて勾配ブースティングによる予測モデルの学習を行う。具体的には、重要度を考慮した重要度重み付き損失関数を定義し、その重要度重み付き損失関数が減少する方向への勾配の計算を繰り返すことによって予測モデルの学習を行う。そして、学習した予測モデルをモデル記憶部２２に出力して記憶させる。

判別部１３は、データ記憶部２１から取得したテストデータと、モデル記憶部２２から取得した予測モデルとを用いてテストデータのラベルを予測する。

以下に、上記のように構成された学習装置１において、テストデータのラベルを予測する動作について説明する。

まず、図１に示した重要度推定部１１が重要度を計算する動作について説明する。

図２は、図１に示した重要度推定部１１が重要度を計算する動作を説明するためのフローチャートである。

まず、入力装置３０を操作するユーザによって重要度を計算する動作の実行指示が入力される。

ユーザによる重要度を計算する動作の実行指示を受け付けた入力装置３０は、その旨を示した通知をデータ処理装置１０の重要度推定部１１へ送信する。

入力装置３０から送信された通知を受信した重要度推定部１１は、データ記憶部２１から訓練サンプルデータとテストデータとを取得する（ステップＳ１）。

次に、重要度推定部１１は、訓練データ及びテストデータのそれぞれにクラスラベル−１，＋１を付与する（ステップＳ２）。

次に、重要度推定部１１は、付与されたクラスラベルとその属性とを用いた分類学習を教師あり学習によって行う（ステップＳ３）。なお、分類学習の学習アルゴリズムとしては、確率的な予測値を求めることができる教師あり学習を用いることが可能である。ここでは、教師あり学習のアルゴリズムの１つであるランダムフォレストによって分類学習を行う。

ランダムフォレストとは、多くの決定木（デシジョンツリー）から構成され、個々の決定木による出力の最頻値を最終的な出力値とする分類器のことである。なお、ランダムフォレストの学習アルゴリズムの詳細は、「Breiman, L. Random Forests. Machine Learning. 2001, 5-32.」に記載されている。また、ランダムフォレストは、上述したように教師あり学習のアルゴリズムの１つであり、本形態のようにクラスラベルとして訓練データ及びテストデータを与えることは、これまでなされた事例のない全く新しい方法である。

次に、重要度推定部１１は、分類学習によって得られた予測モデルを用いて、各訓練データ点における訓練データ及びテストデータがそれぞれのクラスに帰属する確率を計算する（ステップＳ４）。

ランダムフォレストの場合、テストデータに帰属する確率Ｐ（δ＝＋１｜ｘ）は、以下に示す（１）式によって計算できる。

上記の（１）式において、Ｂはブートストラップ回数を示している。また、I[δ＝＋１，ｘ]は、各ブートストラップサンプルによって学習したモデルにおいて、入力データｘのラベルがｙ＝１と予測された場合に１となり、それ以外の場合は０となる指示関数である。なお、ブートストラップとは、サンプルデータからリサンプリングを繰り返すことをいう。

また、訓練データに帰属する確率値Ｐ（δ＝−１｜ｘ）は、確率の定義により、以下に示す（２）式によって計算できる。

次に、重要度推定部１１は、上記のテストデータに帰属する確率と、訓練データに帰属する確率とから各訓練データ点における重要度を計算する（ステップＳ５）。訓練データとテストデータとの生成確率比である重要度w(x)は、ベイズの定理を用いることにより、以下に示す（３）式によって求めることができる。

上記の（３）式において、ｐ（δ＝−１）／ｐ（δ＝＋１）は、訓練データ数／テストデータ数によって求めることができる。

そして、重要度の計算を行った重要度推定部１１は、計算した各訓練データ点における重要度をデータ記憶部２１に記憶させる（ステップＳ６）。

次に、図１に示した学習部１２が学習を行う動作について説明する。

図３は、図１に示した学習部１２が学習を行う動作を説明するためのフローチャートである。

まず、学習部１２は、データ記憶部２１から訓練サンプルデータと、各訓練データ点における重要度とを取得する（ステップＳ２１）。

次に、学習部１２は、判別関数Ｆ₀を０とし、学習の繰り返し回数である反復回数の指示数ｍを１とする（ステップＳ２２）。以降、判別関数Ｆは、上記反復回数の指示数ｍに応じてＦ_mのように標記する。なお、判別関数とは、サンプルデータが属するグループを判別するための直線や曲線のことをいう。

次に、学習部１２は、クラスラベル及びその属性を用いたランダムフォレストによって予測モデルの基となるモデルＴ₁の学習を行う（ステップＳ２３）。以降、モデルＴは、上記反復回数の指示数ｍに応じてＴ_mのように標記する。なお、ここでは、ランダムフォレストによって学習を行うが、ランダムフォレスト以外にもサポートベクターマシンやニューラルネットワーク、決定木などの教師あり学習によって学習を行うことができる。

次に、学習部１２は、学習したモデルＴ₁を判別関数Ｆ₁とする（ステップＳ２４）。

次に、学習部１２は、反復回数の指示数ｍに１を加える（ステップＳ２５）。

次に、学習部１２は、重要度重み付き損失関数を判別関数Ｆ_m-1によって偏微分し、重要度重み付き損失関数が減少する方向への勾配を計算する（ステップＳ２６）。

ステップＳ２６の動作において学習部１２は、まず、重要度重み付き損失関数Ｌを以下の（４）式のように定義する。

上記の（４）式において、Ｎはサンプルデータの総数を示しており、ここでは、訓点データ点の数となる。また、y_iはクラスラベル＋１，−１を示しており、Ｆ（ｘ_i）は判別関数Ｆを示している。また、ｗ（ｘ_i）は、上述したステップＳ５において重要度推定部１１によって計算された各訓練データ点における重要度である。

上記の（４）式の重要度重み付き損失関数Ｌにより、それぞれの訓練データのうちテストデータにおける生成確率が高い訓練データの重み付けが大きくなり、テストデータのラベルの性能向上を図ることができる。

そして、ステップＳ２６の動作において学習部１２は、それぞれの訓練データ点の勾配γ_iを以下の（５）式に示すように、上記の重要度重みつき損失関数Ｌを判別関数Ｆ（ｘ_i）で偏微分することによって計算する。

次に、学習部１２は、勾配をラベルと見なしてランダムフォレストによってモデルＴ_mを学習する（ステップＳ２７）。

次に、学習部１２は、学習したモデルＴ_mによって判別関数Ｆ_m＝Ｆ_m-1＋Ｔ_mと更新し（ステップＳ２８）、学習した結果を判別関数に反映させる。

次に、学習部１２は、反復回数の指示数ｍが予め設定された回数と等しいかどうかを判定する（ステップＳ２９）。

ステップＳ２９における判定の結果、反復回数の指示数ｍが予め設定された回数よりも少ない場合、学習部１２は、ステップＳ２５に戻って指示数ｍに１を加える。そして、反復回数の指示数ｍが予め設定された回数と等しくなるまで、上述したステップＳ２５〜Ｓ２９の動作が繰り返される。この勾配ブースティングによってモデルＴ_mの学習アルゴリズムの性能が向上していく。なお、勾配ブースティングでは、損失関数を勾配法によって最適化する学習アルゴリズムとなっている。勾配ブースティングの詳細については、「Friedman, J. H., Hastie, T., Tibshirani, R. Additive logistic regression: a statistical view of boosting. Ann. Statist., 2000, 337-40.」に記載されている。

一方、ステップＳ２９における判定の結果、反復回数の指示数ｍが予め設定された回数と等しい場合には、学習部１２は、学習したモデルＴ_mを予測モデルとしてモデル記憶部２２に出力して記憶させる（ステップＳ３０）。

そして、判別部１３は、モデル記憶部２２から学習部１２において学習した予測モデルＴ_mを取得し、データ記憶部２１から取得したテストデータのラベルを予測モデルＴ_mに基づいて予測する。また、判別部１３が予測したラベルは、出力装置４０から出力される。

なお、上記の（４）式の重要度重み付き損失関数Ｌは、２クラス分類のための損失関数であるが、多クラス分類や回帰のための損失関数も容易に設計できる。また、重要度重み付き損失関数Ｌは凸関数であればよく、上記の（４）式の関数形に限定されるものではない。なお、凸関数とは、グラフ上の二点をとった場合、その二点間においてグラフがその二点を結ぶ線分の下方にある関数のことである。

また、ラベルの情報としては医学・生物学分野の場合、疾患や薬効の有無、病態の進行度の他に生存時間などを用いることができる。

また、ラベル付きデータに正例・負例がある場合は、ラベルのベクトルyの要素として、＋１、−１を用いることができる。

このように本形態においては、重要度推定部１１が行う重要度の計算にランダムフォレストを適用するだけでよく、煩雑なパラメータ最適化等の計算手続きは全く必要ない。従って、重要度の推定に計算時間を要することがない。

また、学習部１２が行う学習において勾配ブースティングの反復回数は、交差確認法により最適化すべきパラメータであるが、上記の「Friedman, J. H., Hastie, T., Tibshirani, R. Additive logistic regression: a statistical view of boosting. Ann. Statist., 2000, 337-40.」によれば経験的に１００回程度でよく、この程度の回数でも性能に影響を及ぼすことはない。従って、学習においても計算手順が著しく簡潔化され、計算時間を要することがない。

なお、本発明においては、学習装置内の処理は上述の専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを学習装置にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムを学習装置に読み込ませ、実行するものであっても良い。学習装置にて読取可能な記録媒体とは、フロッピーディスク、光磁気ディスク、ＤＶＤ、ＣＤなどの移設可能な記録媒体の他、学習装置に内蔵されたＨＤＤなどを指す。

本発明の学習装置の実施の一形態の構成を示すブロック図である。図１に示した重要度推定部が重要度を計算する動作を説明するためのフローチャートである。図１に示した学習部が学習を行う動作を説明するためのフローチャートである。

符号の説明

１学習装置
１０データ処理装置
１１重要度推定部
１２学習部
１３判別部
２０記憶装置
２１データ記憶部
２２モデル記憶部
３０入力装置
４０出力装置

Claims

訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習装置であって、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う学習部を有する学習装置。
請求項１に記載の学習装置において、
前記学習部は、ブースティングによって前記予測モデルの学習を行う学習装置。
請求項２に記載の学習装置において、
前記学習部は、前記訓練サンプルデータと前記重要度とを用いたランダムフォレストによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う学習装置。
請求項２に記載の学習装置において、
前記学習部は、前記訓練サンプルデータと前記重要度とを用いた決定木によって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う学習装置。
請求項２に記載の学習装置において、
前記学習部は、前記訓練サンプルデータと前記重要度とを用いたサポートベクターマシンによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う学習装置。
請求項２に記載の学習装置において、
前記学習部は、前記訓練サンプルデータと前記重要度とを用いたニューラルネットワークによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う学習装置。
請求項１乃至６のいずれか１項に記載の学習装置において、
前記訓練サンプルデータと前記テストデータとを用いた教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする重要度推定部を有する学習装置。
請求項７に記載の学習装置において、
前記重要度推定部は、前記訓練サンプルデータと前記テストデータとを用いたランダムフォレストによる教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする学習装置。
請求項１乃至８のいずれか１項に記載の学習装置において、
前記重要度重み付き損失関数が凸関数である学習装置。
訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習方法であって、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う処理を有する学習方法。
請求項１０に記載の学習方法において、
ブースティングによって前記予測モデルの学習を行う処理を有する学習方法。
請求項１１に記載の学習方法において、
前記訓練サンプルデータと前記重要度とを用いたランダムフォレストによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う処理を有する学習方法。
請求項１１に記載の学習方法において、
前記訓練サンプルデータと前記重要度とを用いた決定木によって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う処理を有する学習方法。
請求項１１に記載の学習方法において、
前記訓練サンプルデータと前記重要度とを用いたサポートベクターマシンによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う処理を有する学習方法。
請求項１１に記載の学習方法において、
前記訓練サンプルデータと前記重要度とを用いたニューラルネットワークによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う処理を有する学習方法。
請求項１０乃至１５のいずれか１項に記載の学習方法において、
前記訓練サンプルデータと前記テストデータとを用いた教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする処理を有する学習方法。
請求項１６に記載の学習方法において、
前記訓練サンプルデータと前記テストデータとを用いたランダムフォレストによる教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする処理を有する学習方法。
請求項１０乃至１７のいずれか１項に記載の学習方法において、
前記重要度重み付き損失関数が凸関数である学習方法。
訓練サンプルデータの入力データである訓練データと、テストデータとの生成確率の比である重要度に基づき、前記テストデータの出力を予測するための予測モデルを学習する学習装置に、
前記重要度を考慮した損失関数である重要度重み付き損失関数を用いて前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項１９に記載のプログラムにおいて、
ブースティングによって前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項２０に記載のプログラムにおいて、
前記訓練サンプルデータと前記重要度とを用いたランダムフォレストによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項２０に記載のプログラムにおいて、
前記訓練サンプルデータと前記重要度とを用いた決定木によって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項２０に記載のプログラムにおいて、
前記訓練サンプルデータと前記重要度とを用いたサポートベクターマシンによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項２０に記載のプログラムにおいて、
前記訓練サンプルデータと前記重要度とを用いたニューラルネットワークによって学習した判別関数と、前記重要度重み付き損失関数とを用いたブースティングによって前記予測モデルの学習を行う機能を実現させるためのプログラム。
請求項１９乃至２４のいずれか１項に記載のプログラムにおいて、
前記訓練サンプルデータと前記テストデータとを用いた教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする機能を実現させるためのプログラム。
請求項２５に記載のプログラムにおいて、
前記訓練サンプルデータと前記テストデータとを用いたランダムフォレストによる教師あり学習によって求めたクラスラベルの確率的な予測値の比を前記重要度とする機能を実現させるためのプログラム。
請求項１９乃至２６のいずれか１項に記載のプログラムにおいて、
前記重要度重み付き損失関数が凸関数であるプログラム。