JP2019101789A

JP2019101789A - モデル学習装置、モデル学習方法、および、予測システム

Info

Publication number: JP2019101789A
Application number: JP2017232390A
Authority: JP
Inventors: 充敏熊谷; Mitsutoshi Kumagai; 具治岩田; Tomoharu Iwata
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2019-06-24
Anticipated expiration: 2037-12-04
Also published as: JP6867276B2

Abstract

【課題】元ドメインと目標ドメインとでサンプルの生成分布が異なる場合であっても、予測精度の高いモデルを学習する。【解決手段】教師あり学習によりモデルを学習する学習装置は、教師あり学習の学習データの属する元ドメインにおけるサンプルの生成分布と、モデルのテストデータの属する目標ドメインにおけるサンプルの生成分布との間のＭＭＤの値を最小化するような元ドメインから目標ドメインへの変換則を学習する。そして、学習装置は、学習した変換則を用いて元ドメインのデータを変換し、変換換した元ドメインのデータを用いた教師あり学習によりモデルを学習する。【選択図】図１

Description

本発明は、モデル学習装置、モデル学習方法、および、予測システムに関する。

機械学習において、モデル（例えば、分類器等）の学習時と、当該モデルのテスト（当該モデルを用いた予測）時とで、サンプルの生成分布が異なる場合がある。このサンプルの生成分布とは、各サンプルに対して、それが起こり得る確率を記述したものである。例えば、あるサンプルの生成確率が、モデルの学習時には０．３であったものが、学習されたモデルを用いたテスト時には０．５に変化している場合がある。

ここでモデルの学習は、データとその属性(ラベル）の組の集合を元手に、データとラベルとの関係を学習する方法（教師あり学習）により行われる。この教師あり学習によれば、ラベルが不明のデータが与えられた時に、そのデータのラベルを予測できる。例えば、データが新聞記事の場合、政治、経済、スポーツ等のラベルを予測できる。

上記のように、モデルの学習時とテスト時とでサンプルの生成分布が異なる場合に、教師あり学習を行うと、学習により得られたモデルによる予測精度が劣化するおそれがあるという問題がある。このような問題を解決するため、以下のような技術がある。

例えば、学習データの属するドメイン（元ドメイン）と、テスト時のデータの属するドメイン（目標ドメイン）との間、両者のサンプルの生成分布の差異が少なくなるような共通の低次元空間に射影する。そして、射影により得られた元ドメインのラベルありデータを用いてモデルを学習する技術がある（非特許文献１参照）。

また、元ドメインおよび目標ドメインのサンプルの生成分布の共分散が一致するよう、元ドメインから目標ドメインへの変換則を学習する。そして、当該変換則により元ドメインのラベルありデータを変換し、変換後の元ドメインのラベルありデータを用いて、モデルを学習する技術もある（非特許文献２参照）。

Baochen Sun，et al.， "Return of Frustratingly Easy Domain Adaptation"，AAAI-16，2016年 Sinno Jialin Pan，et al.， "Domain Adaptation via Transfer Component Analysis"，IEEE Transactions on Neural Networks ，2011年2月

しかし、非特許文献１等に記載の技術の場合、元ドメインおよび目標ドメインのデータを低次元空間に射影するため、各データが元々持っていた情報が失われてしまう可能性がある。また、非特許文献２等の記載の技術の場合、元ドメインおよび目標ドメインの生成分布の共分散（２次モーメント）に適合する変換則を学習することができるが、当該変換則は、２次以上のモーメントについては適合しない可能性がある。よって、変換則による変換後の元ドメインのラベルありデータを用いてモデルを学習しても、そのモデルの予測精度は必ずしも高くないという問題がある。

そこで、本発明は、前記した問題を解決し、元ドメインと目標ドメインとでサンプルの生成分布が異なる場合であっても、予測精度の高いモデルを学習することを課題とする。

前記した課題を解決するため、教師あり学習によりモデルを学習するモデル学習装置であって、前記教師あり学習の教師データの属する元ドメインにおけるサンプルの生成分布と、前記モデルのテストデータの属する目標ドメインにおけるサンプルの生成分布との任意の次数以下の全モーメントが適合するような、前記元ドメインから前記目標ドメインへの変換則を学習する変換則学習部と、前記学習した変換則を用いて前記元ドメインのデータを変換する変換部と、前記変換した元ドメインのデータを用いて、前記モデルを学習するモデル学習部と、を備えることを特徴とする。

本発明によれば、元ドメインと目標ドメインとでサンプルの生成分布が異なる場合であっても、予測精度の高いモデルを学習することができる。

図１は、第１の実施形態の予測システムにおけるモデルの学習の概要を説明する図である。図２は、第１の実施形態の予測システムの構成例を示す図である。図３は、図２の学習装置の処理手順の一例を示すフローチャートである。図４は、図２の予測装置の処理手順の一例を示すフローチャートである。図５は、第２の実施形態の予測システムの構成例を示す図である。図６は、図２の学習装置の処理手順の一例を示すフローチャートである。図７は、予測プログラムを実行するコンピュータを示す図である。

［第１の実施形態］
以下、図面を参照しながら、本発明の実施形態を第１の実施形態および第２の実施形態に分けて説明する。まず、図１を用いて、第１の実施形態の予測システム（システム）におけるモデルの学習の概要を説明する。

なお、以下において、モデルは、例えば、予測対象データ（テストデータ）の予測モデルであり、例えば、テストデータのサンプルのラベルを予測する分類器等である。また、モデルの作成（学習）に用いられる学習データは、ラベルありデータ等の教師データである。

また、以下の説明において、目標ドメインとは、解きたいタスクのあるドメインであり、元ドメインとは、目標ドメインと関連するドメインを指す。例えば、目標ドメインの解きたいタスクを新聞記事の内容分類とした場合、目標ドメインは新聞記事の集合、元ドメインはＳＮＳ（Social Networking Service）での発言の集合等である。これは、新聞とＳＮＳでは、単語の使われ方等で違いがあるものの、日本語の文章という点で類似し、新聞記事の分類にＳＮＳの発言も有効活用できる可能性が高いからである。また、以下の説明において、ラベルありデータ等の教師データは元ドメインに属するデータであり、テストデータは目標ドメインに属するデータであるものとする。

システムは、元ドメインの各データ（サンプル）の特徴分布と、目標ドメインの各データの特徴分布とができるだけ類似するような、元ドメインから目標ドメインへの変換則を求める。このような変換則を求めるため、例えば、システムは、元ドメインの特徴分布と、目標ドメインの特徴分布との間のＭＭＤ（Maximum Mean Discrepancy）等を用い、高次モーメントが適合するマッチングを行う。例えば、システムは、元ドメインおよび目標ドメインそれぞれの特徴分布のＭＭＤを最小化するような変換則を求める。その後、システムは、上記の変換則による変換後の元ドメインのラベルありデータを得る。そして、システムは、変換後の元ドメインのラベルありデータを用いてモデル（例えば、分類器）を学習する。

このようなシステムによれば、モデルの学習にあたり、元ドメインおよび目標ドメインのサンプルを低次元空間へ射影しないので、必要な情報が失われない。また、システムは、元ドメインおよび目標ドメインそれぞれの特徴分布（サンプルの生成分布）間の高次モーメント（任意の次数以下の全モーメント。例えば、３次以下の全モーメント）についても適合するような変換則を求めるので、両ドメインの差異を微小にする変換則を得ることができる。そして、システムは、上記のようにして得た変換則により変換した元ドメインのデータを用いて、モデルの教師あり学習を行うので、目標ドメインのサンプルの生成分布に適合したモデルを得ることができる。

次に、図２を用いて、第１の実施形態のシステム１の構成例を説明する。なお、以下の説明において、学習装置１０の用いる教師データは、ラベルありデータであり、予測装置２０は、テストデータのサンプルのラベルを予測する場合を例に説明する。システム１は、例えば、図２に示すように、学習装置１０と予測装置２０とを備える。

学習装置１０は、元ドメインのラベルありデータおよび目標ドメインのラベルなしデータを用いて、元ドメインから目標ドメインへの変換則を学習する。そして、学習装置１０は、変換則により変換した元ドメインのラベルありデータを用いて、モデルを学習する。予測装置２０は、学習装置１０により学習されたモデルを参照して、テストデータの予測を行う。例えば、予測装置２０は、学習装置１０により学習されたモデルを用いて、テストデータのサンプルのラベルを予測する。

学習装置１０は、学習データ入力部１１と、特徴抽出部１２と、変換則学習部１３と、変換実行部１４と、モデル学習部１５と、記憶部１６とを備える。

学習データ入力部１１は、学習データの入力を受け付ける。例えば、学習データ入力部１１は、元ドメインのラベルありデータ、および、目標ドメインのラベルなしデータの入力を受け付ける。

ラベルありデータとは、サンプルおよびそのサンプルの属性情報（ラベル）の対の集合である。例えば、サンプルがテキストの場合、ラベルとしては、そのテキストが表す内容（経済、政治、スポーツ等）が考えられる。一方で、ラベルなしデータとは、ラベルが付与されていないサンプルの集合である。上記の例の場合、テキストのみの集合がラベルなしデータに相当する。

特徴抽出部１２は、データの特徴量を抽出する。例えば、特徴抽出部１２は、学習データ入力部１１により入力された元ドメインのラベルありデータを、特徴ベクトルとラベルの組に変換する。また、特徴抽出部１２は、学習データ入力部１１により入力された目標ドメインのラベルなしデータを特徴ベクトルに変換する。

ここで、特徴ベクトルとは、必要なデータの特徴をｎ次元の数ベクトルで表記したものである。特徴ベクトルへの変換については、機械学習で一般的に用いられている手法を利用する。例えば、データがテキストの場合には、形態素解析によるもの、n-gramによるもの、区切り文字によるもの等が考えられる。ラベルは当該ラベルを示すラベル値に変換する。

変換則学習部１３は、特徴抽出部１２により抽出されたラベルありデータとラベルなしデータの特徴量を用いて、元ドメインから目標ドメインへの変換則を学習する。変換則の学習の基準としては、変換後の元ドメインと目標ドメインとの間でサンプルの生成分布が、高次モーメント（例えば、３次以下の全モーメント）までできるだけ一致するような変換則を学習する。

なお、元ドメインは、目標ドメインと関連するドメインなので、変換則学習部１３は、元ドメインから目標ドメインへの変化は少ないと仮定した上で変換則を学習する。このような仮定の下に変換則の学習を行うことで、元ドメインと目標ドメインとの関係に適合した変換則の学習を行うことができる。また、変換により元ドメインにおけるサンプルとラベルとの関係が大きく崩れないような変換則を得ることができる。その結果、モデル学習部１５が、変換則による変換後の元ドメインのラベルありデータを用いてモデルの学習（教師あり学習）をする際、安定して精度よくモデルの学習を行うことができる。この変換則の学習の詳細については具体例を交えながら後記する。

変換実行部１４は、変換則学習部１３で学習した変換則を用いて、元ドメインのラベルありデータを変換する。

モデル学習部１５は、変換実行部１４により変換された元ドメインのラベルありデータを用いて、モデルの学習を行う。このモデルは、例えば、テストデータのサンプルの特徴量の入力を受け付けると、当該サンプルのラベルを出力する分類器である。

予測装置２０は、データ入力部２１と、特徴抽出部２２と、予測部２３と、予測結果出力部２４とを備える。

データ入力部２１は、目標ドメインにおける予測対象のデータ（テストデータ）の入力を受け付ける。特徴抽出部２２は、テストデータの特徴量を抽出する。ここでの特徴量の抽出は、学習装置１０の特徴抽出部２２と同様の手順により行われる。予測部２３は、学習装置１０により学習されたモデルを参照して、テストデータのサンプルを予測する。例えば、予測部２３は、上記のモデルを参照して、テストデータのサンプルのラベルを予測する。予測結果出力部２４は、予測部２３による予測結果（例えば、各サンプルのラベル）を出力する。

次に、図３を用いて、学習装置１０の処理手順を説明する。まず、学習装置１０の学習データ入力部１１は、ラベルありデータ（元ドメインのデータ）およびラベルなしデータ（目標ドメインのデータ）の入力を受け付ける（Ｓ１１）。次に、特徴抽出部１２は、Ｓ１１で受け付けた各データを特徴ベクトルに変換する（Ｓ１２）。つまり、特徴抽出部１２は、Ｓ１１で受け付けた元ドメインのデータについては、特徴ベクトルとラベルの組に変換し、目標ドメインのデータについては特徴ベクトルに変換する。

Ｓ１２の後、変換則学習部１３は、Ｓ１２で変換された各データの特徴ベクトル、ラベルの組を用いて、元ドメインから目標ドメインへの変換則を学習する（Ｓ１３）。そして、変換実行部１４は、Ｓ１３で学習された変換則を用いて元ドメインのデータの変換を実行する（Ｓ１４）。モデル学習部１５は、Ｓ１４で変換された元ドメインのデータを用いてモデルを学習する（Ｓ１５）。モデル学習部１５は、学習したモデルを記憶部１６に記憶する。

次に、図４を用いて、予測装置２０の処理手順を説明する。まず、予測装置２０のデータ入力部２１は、目標ドメインのテストデータの入力を受け付ける（Ｓ２１）。次に、特徴抽出部２２は、Ｓ２１で受け付けた各データ（テストデータ）を特徴ベクトルに変換する（Ｓ２２）。そして、予測部２３は、学習装置１０により学習されたモデルを用いて各データを予測する（Ｓ２３）。予測結果出力部２４は、Ｓ２３における予測の結果（予測結果）を出力する（Ｓ２４）。

次に、変換則学習部１３による変換則の学習方法の一例を詳細に説明する。ここでは、目標ドメインのタスクとしてサンプルのラベルの分類問題（ラベルの値が離散値（１からＪ）の場合の問題）を扱う場合を例に説明するが、本発明は回帰問題、ランキング問題等の任意の教師あり学習に適用可能である。

まず、元ドメインのラベルありデータを以下の数１に示すように定義する。

また、目標ドメインのラベルなしデータを数２に示すよう以下のように定義する。

ここでの目的は、元ドメインのラベルありデータおよび目標ドメインのラベルなしデータを用いて、目標ドメイン（テストデータ）のサンプルのラベルを精度よく予測するモデルを得るための変換則を学習することである。なお、ここでのモデルは、例えば、以下の数３に示す分類器ｈである。

変換則学習部１３は、元ドメインのラベルありデータおよび目標ドメインのラベルなしデータを用いて、元ドメインから目標ドメインへの変換則として、以下の数４に示す変換則Ｆを学習する。

この変換則Ｆは、変換後の元ドメインと目標ドメインとでサンプルの生成分布が類似するように学習される。類似度を測る指標としては、例えば、ＭＭＤを用いる。ＭＭＤは、以下の数５に示す式（１）のように定義される。

このときカーネルｋが、例えば、ＲＢＦ（Radial Basis Function）カーネルのように特性的であるならば、以下の数６に示す関係が成り立つ。

また、カーネルｋとしてｄ次多項式カーネルを用いた場合、以下の数７に示す関係が成り立つ。

なお、ＭＭＤの２乗は、サンプル集合Ｘ＝｛ｘ_１，…，ｘ_Ｎ｝，サンプル集合Ｚ＝｛z_１，…，ｚ_Ｍ｝を用いて、以下の数８に示す式（２）により近似される。

上記のように、変換則学習部１３は、変換後の元ドメインと目標ドメインとのサンプルの生成分布の類似度を測る際にＭＭＤを用いることで、両ドメインにおけるサンプルの生成分布の密度の推定等の難しいタスクを介することなく、両ドメインにおけるサンプルの生成分布の類似度を測ることができる。

なお、上記の変換則Ｆの関数形は以下の数９に示すように定義される。

上記の関数形における行列Ａのフロベニウスノルムは小さいと仮定する。つまり、元ドメインから目標ドメインへの変化は少ないと仮定する。変換則Ｆを上記の関数形と定義することで、変換則Ｆの学習問題は、元データｘ（上記の元ドメインのサンプル群）からの残差Ａｘの学習問題に置き換わる。一般に２つの生成分布を一致させるような変換則Ｆは多数あるので、変換則Ｆの関数形を制限することなく適切な変換則Ｆを得ることは困難である。しかし、変換則Ｆの関数形を上記のように制限し、残差Ａｘの学習問題に置き換えることで、適切な変換則Ｆを得やすくなる。例えば、特徴ベクトルとラベルの関係を大きく崩すことなく、元ドメインと目標ドメインとの間のサンプルの生成分布を合わせるような変換則Ｆを得やすくなる。

ここで、上記の行列Ａは、以下の数１０に示す目的関数（式（３））を最小化することで求められる。

上記の式（３）における第１項は、変換された元ドメインのサンプルの生成分布と、目標ドメインのサンプルの生成分布との間のＭＭＤである。また、式（３）における第２項は、正則化項（行列Ａのフロベニウスノルムの２乗）である。式（３）におけるγはＭＭＤと正則化項のトレードオフを調整するパラメータである。このγを大きくすると、学習される行列Ａは零ベクトルに近くなるため、元ドメインから大きく変化させることなく（元ドメインの特徴ベクトルとラベルの関係を大きく崩すことなく）、両ドメインのサンプルの生成分布が近くなるような行列Ａが得られる。このγの値は、学習装置１０の操作者が適宜設定する。

式（３）に示す目的関数は、目標ドメインのサンプル集合｛ｘ_１，…，ｘ_Ｎ｝および変換後の元ドメインのサンプル集合｛（Ａ＋Ｉ）ｘ_１，…，（Ａ＋Ｉ）ｘ_Ｍ｝を用いて、以下の数１１に示す式（４）により近似される。

式（４）に示す目的関数の最小化は、一般的な勾配ベースの最適化手法を用いて行われる。勾配ベースの最適化手法を利用するためには、勾配情報が必要となる。式（４）に示す目的関数の勾配は、以下の数１２に示す式（５）により求めることができる。

したがって、変換則学習部１３は、式（５）に示す勾配を用いて、式（４）に示す目的関数を最小化する行列Ａを求めることで、変換則Ｆを得ることができる。

上記のように変換則学習部１３は、元ドメインと目標ドメインとのサンプルの生成分布のＭＭＤを最小化するような変換則Ｆを求めるので、両ドメインのサンプルの生成分布の多次モーメントについても適合するような変換則Ｆを得ることができる。そして、モデル学習部１５は、上記のようにして得た変換則Ｆにより変換した元ドメインのラベルありデータを用いてモデルの学習を行うので、目標ドメインのサンプルに適合したモデルを得ることができる。そして、予測装置２０は、上記のようにして得られたモデルを用いることで、テストデータの予測を精度よく行うことができる。また、学習装置１０は、変換則Ｆの学習と、モデルの学習とを別々に行うので、例えば、モデルの学習について、公知の教師ありモデル学習の技術を用いることも可能である。

なお、変換則学習部１３は、元ドメインと目標ドメインとのサンプルの生成分布の多次モーメントについても適合するような変換則Ｆを求めるため、ＭＭＤを用いることとしたが、テンソル（tensor）等他の方法を用いてもよい。

［第２の実施形態］
次に、図５を用いて、本発明の第２の実施形態を説明する。前記した第１の実施形態と同じ構成は同じ符号を付して説明を省略する。図５に示すように、第２の実施形態のシステム１ａは、変換則Ｆの学習とモデルの学習とを同時に行う学習装置１０ａを備える。このような学習装置１０ａによれば、元ドメインのラベルも利用して変換則Ｆを学習するので、モデル（教師ありモデル）で学習しやすい変換則Ｆを学習することができる。その結果、学習装置１０ａは、テストデータの予測を精度よく行うモデルを学習しやすくなる。

このような学習装置１０ａは、図２に示す変換則学習部１３、変換実行部１４およびモデル学習部１５に代えて、図５に示す変換則およびモデル学習部１５ａを備える。変換則およびモデル学習部１５ａは、変換則Ｆの学習とモデル（教師ありモデル）の学習とを同時に行う。

図２に示す変換則学習部１３は、変換則Ｆを得るための目的関数として、前記した式（３）を用いていたが、学習装置１０ａにおける、変換則およびモデル学習部１５ａは、変換則Ｆの学習と教師ありモデルの学習のため、式（３）に示す目的関数に、以下の数１３に示す損失項を加える。

例えば、変換則およびモデル学習部１５ａは、変換則Ｆの学習および教師ありモデルの学習のため、以下の数１４に示す目的関数（式（６））を用いる。なお、式（６）におけるｃは、トレードオフパラメータである。

変換則およびモデル学習部１５ａは、例えば、式（６）のように、変換後の元ドメインのサンプルに対し、教師ありモデルにより予測されたラベルが実際のラベルに近いほど値が小さくなるよう設計された目的関数を用いて、変換則Ｆの学習および教師ありモデルの学習を行う。例えば、変換則およびモデル学習部１５ａは、式（６）に示す目的関数を最小化するような行列Ａと、教師ありモデルのパラメータＷとを求める。これにより、変換則およびモデル学習部１５ａは、変換後の元ドメインのサンプルに対するラベルの予測精度の高い変換則Ｆの学習および教師ありモデルを学習することができる。

次に、図６を用いて、学習装置１０ａの処理手順を説明する。図６のＳ３１およびＳ３２は、図３のＳ１１およびＳ１２と同じ処理なので、図６のＳ３３を説明する。まず、学習装置１０ａの変換則およびモデル学習部１５ａは、例えば、式（６）に示す目的関数を用いて、元ドメインから目標ドメインへの変換則とモデルとを学習する（Ｓ３３）。その後、変換則およびモデル学習部１５ａは、Ｓ３３で学習したモデルを記憶部１６に記憶する。

このような学習装置１０ａによれば、元ドメインのラベルも利用して変換則Ｆを学習するので、モデル（教師ありモデル）で学習しやすい変換則Ｆを学習することができる。その結果、学習装置１０ａは、テストデータの予測を精度よく行うモデルを学習することができる。

［プログラム］
また、上記の各実施形態で述べたシステム１，１ａの機能を実現するプログラムを所望の情報処理装置（コンピュータ）にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置をシステム１，１ａとして機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等がその範疇に含まれる。また、システム１，１ａの機能を、クラウドサーバに実装してもよい。

図７を用いて、上記のプログラム（予測プログラム）を実行するコンピュータの一例を説明する。図７に示すように、コンピュータ１０００は、例えば、メモリ１０１０と、ＣＰＵ１０２０と、ハードディスクドライブインタフェース１０３０と、ディスクドライブインタフェース１０４０と、シリアルポートインタフェース１０５０と、ビデオアダプタ１０６０と、ネットワークインタフェース１０７０とを有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。ディスクドライブ１１００には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース１０５０には、例えば、マウス１１１０およびキーボード１１２０が接続される。ビデオアダプタ１０６０には、例えば、ディスプレイ１１３０が接続される。

ここで、図７に示すように、ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３およびプログラムデータ１０９４を記憶する。上記の実施形態で説明した各種データや情報は、例えばハードディスクドライブ１０９０やメモリ１０１０に記憶される。

そして、ＣＰＵ１０２０が、ハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した各手順を実行する。

なお、上記の予測プログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ１１００等を介してＣＰＵ（Central Processing Unit）１０２０によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール１０９３やプログラムデータ１０９４は、ＬＡＮ（Local Area Network）やＷＡＮ（Wide Area Network）等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１，１ａシステム
１０学習装置
１１学習データ入力部
１２，２２特徴抽出部
１３変換則学習部
１４変換実行部
１５モデル学習部
１５ａ変換則およびモデル学習部
１６記憶部
２０予測装置
２１データ入力部
２３予測部
２４予測結果出力部

Claims

教師あり学習によりモデルを学習するモデル学習装置であって、
前記教師あり学習の教師データの属する元ドメインにおけるサンプルの生成分布と、前記モデルのテストデータの属する目標ドメインにおけるサンプルの生成分布との任意の次数以下の全モーメントが適合するような、前記元ドメインから前記目標ドメインへの変換則を学習する変換則学習部と、
前記学習した変換則を用いて前記元ドメインのデータを変換する変換部と、
前記変換した元ドメインのデータを用いて、前記モデルを学習するモデル学習部と、
を備えることを特徴とするモデル学習装置。
前記変換則学習部は、前記元ドメインにおけるサンプルの生成分布と、前記目標ドメインにおけるサンプルの生成分布との間のＭＭＤ（Maximum Mean Discrepancy）の値を最小化するような前記変換則を求めることで、前記元ドメインにおけるサンプルの生成分布と、前記目標ドメインにおけるサンプルの生成分布との任意の次数以下の全モーメントが適合するような前記変換則を学習する
ことを特徴とする請求項１に記載のモデル学習装置。
前記変換則学習部は、前記元ドメインから前記目標ドメインへの変換則を学習する際、前記元ドメインから前記目標ドメインへの変化が所定値以下となる変換則の中から、前記変換則を学習する
ことを特徴とする請求項１または請求項２に記載のモデル学習装置。
教師あり学習によりモデルを学習するモデル学習装置によるモデル学習方法であって、
前記教師あり学習の教師データの属する元ドメインにおけるサンプルの生成分布と、前記モデルのテストデータの属する目標ドメインにおけるサンプルの生成分布との任意の次数以下の全モーメントが適合するような、前記元ドメインから前記目標ドメインへの変換則を学習するステップと、
前記学習した変換則を用いて前記元ドメインのデータを変換するステップと、
前記変換した元ドメインのデータを用いて、前記モデルを学習するステップと、
を含んだことを特徴とするモデル学習方法。
教師あり学習によりモデルを学習するモデル学習装置と、前記モデルを用いてテストデータの予測を行う予測装置とを有する予測システムであって、
前記モデル学習装置は、
前記教師あり学習の教師データの属する元ドメインにおけるサンプルの生成分布と、前記モデルのテストデータの属する目標ドメインにおけるサンプルの生成分布との任意の時数以下の全モーメントが適合するような、前記元ドメインから前記目標ドメインへの変換則を学習する変換則学習部と、
前記学習した変換則を用いて前記元ドメインのデータを変換する変換部と、
前記変換した元ドメインのデータを用いて、前記モデルを学習するモデル学習部と、
を備えることを特徴とする予測システム。