JP7310827B2 - 学習装置、学習方法、及びプログラム - Google Patents

学習装置、学習方法、及びプログラム Download PDF

Info

Publication number
JP7310827B2
JP7310827B2 JP2020549893A JP2020549893A JP7310827B2 JP 7310827 B2 JP7310827 B2 JP 7310827B2 JP 2020549893 A JP2020549893 A JP 2020549893A JP 2020549893 A JP2020549893 A JP 2020549893A JP 7310827 B2 JP7310827 B2 JP 7310827B2
Authority
JP
Japan
Prior art keywords
prediction
data
learning
task
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020549893A
Other languages
English (en)
Other versions
JPWO2020075255A1 (ja
Inventor
慧 竹村
伸志 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020075255A1 publication Critical patent/JPWO2020075255A1/ja
Application granted granted Critical
Publication of JP7310827B2 publication Critical patent/JP7310827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示は、学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体に関し、特に予測モデルを生成する技術に関する。
マルチタスク学習は、複数の関連する予測タスクがあってそれぞれの学習用データが少ないときに使われる技術である。ある予測タスクで学習用データが非常に少ないとき、充分な学習ができず、新たなデータに対する予測値が大きく外れてしまうことが知られている。そこで、複数の関連する予測タスクを同時に扱って他の予測タスクの学習用データも使って学習するマルチタスク学習技術が、予測精度を高めるために重要となっている。
しかしながら、マルチタスク学習では、一般的に、予測タスクの類似度がわからないと他の予測タスクの学習用データを利用できない。マルチタスク学習について開示している非特許文献1では、予測タスク間の関係と類似度があらかじめ木構造というデータ構造で与えられている。しかし、予測タスク間の関係と類似度が予めわからない場合や、予測タスク間の関係と類似度が木構造では表せない場合にはこの方法を適用することはできない。これに対し、非特許文献2では、予測タスクの類似度を各予測タスクの学習用データから求めている。この方法は、予測タスクの類似度が定量的に与えられていない場合にも適用できるが、各予測タスクの学習用データが非常に少ないとき、予測タスクの類似度を精確に求められず、予測精度が低くなる。
Goenitz, N., Widmer, C., Zeller, G., Kahles, A., Raetsch, G., & Sonnenburg, S, "Hierarchical multitask structured output learning for large-scale sequence segmentation", In Advances in Neural Information Processing Systems, 2011, pp. 2690-2698. Ando, R. K., & Zhang, T. "A framework for learning predictive structures from multiple tasks and unlabeled data", Journal of Machine Learning Research, 6 (Nov), 2005, pp.1817-1853.
一般的に、マルチタスク学習方法では、予測タスク間の関係を表すデータが与えられておらず、かつ、各予測タスクの学習用データが非常に少ない場合には、予測タスクの類似度を精確に推定できない。このため、予測タスクごとに予測をした場合と比べて予測精度が向上しない恐れがある。すなわち、非特許文献1又は非特許文献2に開示された技術を用いたマルチタスク学習では、適切な予測ができない恐れがある。
したがって、複数の予測タスクについてのデータを用いた新規な学習方法を利用した学習装置が求められている。
本開示は、このような問題点を解決するためになされたものであり、複数の予測タスクについてのデータを用いた新規な学習方法による学習を行なうことができる学習装置、学習方法、及びプログラムを提供することを目的とする。
本開示の第1の態様にかかる学習装置は、
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する。
本開示の第2の態様にかかる学習方法では、
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する。
本開示の第3の態様にかかるプログラムは、
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させる。
本開示によれば、複数の予測タスクについてのデータを用いた新規な学習方法による学習を行なうことができる学習装置、学習方法、及びプログラムを提供することができる。
実施形態の概要にかかる学習装置の構成の一例を示すブロック図である。 実施の形態にかかる学習装置の構成の一例を示すブロック図である。 予測タスク表現データの一例を示す図である。 実施の形態にかかる学習装置のハードウェア構成の一例を示すブロック図である。 学習フェーズにおける学習装置の動作の一例を示すフローチャートである。 予測フェーズにおける学習装置の動作の一例を示すフローチャートである。 予測タスク表現取得部が取得する予測タスク表現データの一例を示す図である。 学習用データ取得部が取得する各予測タスクの学習用データの一例を示す図である。 新規データ生成部が生成する学習用データの一例を示す図である。
<実施形態の概要>
実施形態の詳細を説明する前に、まず、実施形態の概要について説明する。図1は、実施形態の概要にかかる学習装置の構成の一例を示すブロック図である。図1に示すように、学習装置1は、予測タスク表現取得部2と、学習用データ取得部3と、新規データ生成部4と、予測モデル生成部5とを有する。
予測タスク表現取得部2は、予測タスク表現データを取得する。予測タスク表現データは、予測タスクの予測対象を表現するデータである。すなわち、予測タスク表現データは、予測タスクのサイドインフォメーション(side information)を表現するデータである。つまり、ある予測タスクが、X(例えば商品)という予測対象についてのY(例えば、売上)という予測内容を予測するタスクである場合、予測タスク表現取得部2は、予測タスク表現データとして、Xを表現するデータを取得する。なお、サイドインフォメーションは、メタ情報又は補足情報とも称されることがある。
予測タスク表現取得部2は、例えば、記録媒体に記憶された予測タスク表現データを読み出して取得するが、有線又は無線のネットワークを介して、他の装置が送信した予測タスク表現データを取得してもよい。このように、予測タスク表現取得部2は、予測タスク表現データを取得できればよく、その取得方法は任意である。
学習用データ取得部3は、予測タスクに対する学習用データを取得する。学習用データ取得部3は、予測タスク表現取得部2により取得された予測タスク表現データに対応する予測タスクについての学習用データを取得する。学習用データは、教師あり学習に使われる訓練データであり、特徴量と正解データの組からなるデータである。
学習用データ取得部3は、例えば、記録媒体に記憶された学習用データを読み出して取得するが、有線又は無線のネットワークを介して、他の装置が送信した学習用データを取得してもよい。このように、学習用データ取得部3は、学習用データを取得できればよく、その取得方法は任意である。
新規データ生成部4は、複数の予測タスクに対する予測タスク表現データと学習用データを用いて新たな学習用データを生成する。すなわち、新規データ生成部4は、予測タスク表現データまたは予測タスク用データの特徴量のみからは構成できない新たな学習用データを生成する。ここで、新規データ生成部4が生成する学習用データは、上記複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための学習用データである。
予測モデル生成部5は、新規データ生成部4が生成した学習用データを用いて、予測モデルを生成する。より詳細には、予測モデル生成部5は、所定の種類のモデル又はユーザにより指定された種類のモデルに対し、新規データ生成部4が生成した学習用データを用いた機械学習を行なうことによって、学習済み予測モデルを生成する。
以上説明した通り、学習装置1は、複数の予測タスクに対する予測タスク表現データと学習用データを用いて生成された新たな学習用データを用いて、予測モデルを生成する。ここで、複数の予測タスク間の類似度が予め特定されている必要はない。したがって、学習装置1によれば、複数の予測タスクについてのデータを用いた新規な学習方法による学習(すなわち、予測モデルの生成)を行なうことができる。
以下、実施の形態の詳細について図面を参照して説明する。
[構成の説明]
図2は実施の形態にかかる学習装置10の構成の一例を示すブロック図である。図2で示されるように、学習装置10は、予測タスク表現取得部101と学習用データ取得部102と新規データ生成部103と予測モデル生成部104と予測用データ取得部105と予測モデル利用部106とを備える。図1に示す情報記憶部107は、任意のデータを記憶する情報記憶媒体である。情報記憶部107は、ハードディスクドライブ、ソリッドステートドライブなどのストレージであってもよいし、メモリなどであってもよい。図1に示した例では、情報記憶部107は、学習装置10の外部の機器として示されているが、学習装置10に含まれていてもよい。情報記憶部107は、予測タスク表現データ、学習用データ、予測用データなどを記憶している。
予測タスク表現取得部101は、図1の予測タスク表現取得部2に相当し、予測タスク表現データを情報記憶部107から取得し、取得した予測タスク表現データを新規データ生成部103に出力する。予測タスク表現取得部101は、様々な予測タスクについての予測タスク表現データを取得する。予測タスク表現取得部101は、予測内容が共通する複数の予測タスクのそれぞれについての予測タスク表現データを取得する。
予測タスク表現データは、予測対象を構成する要素を示すベクトルであってもよい。すなわち、予測タスク表現データは、予測対象を構成する要素をベクトルの要素で表したデータであってもよい。予測対象を構成する要素を示すベクトルについて、パソコンの売上を予測する予想タスクを例に説明する。ここで、パソコンにA社またはB社のCPU(central processing unit)とC社またはD社のメモリが搭載されているとする。このときに、A社のCPUとD社のメモリが搭載されているパソコン(予測対象)は、予測タスク表現データにおいて、図3に示すように0と1からなる4次元ベクトルで表現することができる。なお、予測対象を構成する要素は、物理的に予測対象を構成する要素に限らず、予測対象の属性を構成する任意の要素であってもよい。したがって、例えば、販売する商品の種類やメーカーなども、予測対象を構成する要素となりうる。この場合、例えば、商品の様々な種類や様々なメーカーのうち、予測対象に対応する成分だけを1にしてそれ以外の成分を0にしたようなベクトルにより、予測対象を表現することができる。
なお、図3に示した例では、1つのベクトル成分に対して1つの属性値を対応づけているが、後述する図7に示すように1つのベクトル成分に対して複数の属性値を対応づけて、当該ベクトル成分の値により属性を特定してもよい。具体的に説明すると、図3に示した例では、A社のCPU、B社のCPU、C社のメモリ、D社のメモリのメモリという4つの属性値を4つのベクトル成分で表しているが、例えば、次のような2次元ベクトルで予測タスク表現データを表してもよい。すなわち、この2次元ベクトルの第1の成分は、値が1であればA社のCPUが搭載されたパソコンであることを示し、値が0であればB社のCPUが搭載されたパソコンであることを示す。同様に、この2次元ベクトルの第2の成分は、値が1であればC社のメモリが搭載されたパソコンであることを示し、値が0であればD社のメモリが搭載されたパソコンであることを示す。
学習用データ取得部102は、学習用データ取得部3に相当し、予測タスクに対する学習用データを情報記憶部107から取得し、取得した学習用データを新規データ生成部103に出力する。具体的には、学習用データ取得部102は、予測タスク表現取得部101により取得された予測タスク表現データに対応する予測タスクのそれぞれについての学習用データを取得する。つまり、予測タスク表現取得部101及び学習用データ取得部102により、ある予測タスクについての予測タスク表現データとこの予測タスクについての学習用データが取得される。換言すると、予測タスク表現取得部101及び学習用データ取得部102は、n(nは2以上の整数)種類の予測タスクについて、予測タスク毎に、予測タスク表現データと学習用データを取得する。
ここで、学習用データは、上述した通り、特徴量と正解データの組からなるデータである。特徴量のデータは、特徴量の情報をベクトルで表現したデータであってもよい。その場合、学習用データは、例えば、商品の価格又は販売を行なった日付などといった特徴量の情報をベクトルで表現したデータ(特徴量ベクトル)と、実際の売上個数のデータである正解データとの組からなるデータである。
次に、新規データ生成部103について説明する。ここでは、予測モデルの学習フェーズにおける新規データ生成部103について説明し、学習済み予測モデルを用いた予測フェーズにおける新規データ生成部103については後述する。
学習フェーズにおける新規データ生成部103は、図1の新規データ生成部4に相当し、複数の予測タスクに対する予測タスク表現データと学習用データを用いて新たな学習用データを生成する。すなわち、新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を用いて、新たな学習用データを生成する。この新たな学習用データは、上記複数の予測タスクに対応する一つの予測モデルを学習するためのデータである。つまり、学習フェーズにおける新規データ生成部103は、上記複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための学習用データを生成する。
より詳細には、新規データ生成部103は、予測タスク毎に、予測タスク表現取得部101が取得した予測タスク表現データと学習用データ取得部102が取得した学習用データとを組み合わせて算出される特徴量を含む新たな学習用データを生成する。これにより、予測タスク表現取得部101が取得した予測タスク表現データ、又は学習用データ取得部102が取得した学習用データに含まれる特徴量のみからは構成できない特徴量を生成することができる。新規データ生成部103は、複数の予測タスクのそれぞれに対し同じ生成規則を適用して新たな学習用データを生成する。
新たな学習用データは、具体的には、予測タスク表現データと学習用データの特徴量とを結合したデータに対する特徴量エンジニアリングを行い新たな特徴量を生成し、新たな特徴量と学習用データの正解データとの組を生成することにより生成される。このため、新規データ生成部103は、特徴量エンジニアリングを行なうためのユーザインタフェースを提供する処理を行なう。例えば、新規データ生成部103は、特徴量エンジニアリングの手法を指定する入力をユーザから受け付ける。そして、新規データ生成部103は、新規データ生成部103が有する所定のライブラリのうち、ユーザから指示された特徴量エンジニアリングの手法に対応するライブラリを参照し、当該ライブラリに従った特徴量エンジニアリング処理を実行する。そして、実行結果として得られた特徴量を表示出力する。必要に応じて、これらの処理が繰り返される。上述した一連の処理が繰り返し行なわれるか否か、すなわち、別の特徴量エンジニアリングの手法により別の特徴量の生成を試みるか否かは、例えば、ユーザにより判断される。
なお、特徴量エンジニアリング手法の選択が自動化されていてもよい。すなわち、新規データ生成部103は、ユーザからの指定によらず所定の特徴量エンジニアリング手法を選択してもよい。ここで、特徴量エンジニアリングにはどのような方法を用いてもよい。例えば、予測タスク表現取得部101が取得した予測タスク表現データの一要素と学習用データ取得部102が取得した学習用データの特徴量の一要素の積を新たな特徴量としてもよい。また、予測タスク表現データの一要素の値が閾値を上回っていた場合に学習用データ取得部102が取得した学習用データの特徴量の一要素の値をそのまま用い、そうでない場合に0とするようにして、新たな特徴量を生成してもよい。
また、新規データ生成部103は、予測タスク毎に、ベクトルで表された予測タスク表現データとベクトルで表された学習用データの特徴量とを結合して多項式特徴量としたデータと学習用データの正解データとの組を生成し、これを新たな学習用データとしてもよい。ここで、二つのベクトルを結合するとは、二つのベクトルを並べて一つのベクトルとすることである。例えば、n次元ベクトルとm次元ベクトルを結合すると、n+m次元ベクトルになる。また、多項式特徴量とは入力とされた特徴量の多項式表現の各項が要素であるような特徴量である。例えば、xとyが与えられたときの2次の多項式特徴量は1,x,y,xx,xy,yyの六つとなる。
予測モデル生成部104は、図1の予測モデル生成部5に相当し、新規データ生成部103の出力を用いて、予測モデルの学習処理を行ない、学習済みの予測モデルを出力する。予測モデルは例えばユーザが選択する。この場合、予測モデル生成部104は、ユーザから指示された予測モデルについて、新規データ生成部103が出力した学習用データを用いてモデルの学習処理を行なう。予測モデルやその学習方法はどのようなものを用いてもよい。例えば、予測モデルを線形回帰モデルとして学習方法を勾配降下法としてもよいし、予測モデルをロジスティック回帰モデルとして学習方法を確率的勾配降下法としてもよい。予測モデル生成部104は、学習済みの予測モデルを予測モデル利用部106に出力する。なお、予測モデル生成部104は、学習済みの予測モデルを情報記憶部107に出力してもよい。
なお、予測モデル生成部104は、新規データ生成部103により生成される特徴量及び選択された予測モデルについて、交差検証(クロスバリデーション)により評価してもよい。交差検証は、選択した特徴量エンジニアリングと予測モデルの良さを学習用データだけから評価する方法である。これは、学習用データ群の一部だけを使って予測モデルを作り、残りの学習用データを予測用データとして使用することで、当該予測モデルによる予測がどれだけ当たるかを評価して予測モデルの良し悪しをスコア化する技術である。この場合、予測モデル生成部104は、評価結果を表示出力してもよい。この評価結果により、ユーザは他の特徴量エンジニアリング及び予測モデルの組み合わせを試すか否かを判断することができる。
予測用データ取得部105は、予測フェーズで用いるデータを取得する。具体的には、予測用データ取得部105は、予測モデル生成部104により生成された予測モデルを用いた予測の際に用いられる特徴量である予測用データを取得する。この予測用データは、当該予測モデルの学習用データ(すなわち、新規データ生成部103により生成された新たな学習用データ)の生成のために用いられたいずれかの予測タスクである対象タスクについての予測用データである。このように、学習用データ取得部102では、ある予測タスクについての特徴量と正解データの組を取得するが、予測用データ取得部105は、当該予測タスクについての特徴量を取得し、正解データは取得しない。なお、正解データに相当する値は、予測モデル利用部106による予測結果として得られる。
次に、予測フェーズにおける新規データ生成部103について説明する。予測フェーズにおける新規データ生成部103は、学習フェーズにおいて予測モデルの学習用データの生成のために用いられたいずれかの予測タスクについての予測タスク表現データとこの予測タスクの予測用データから新たな予測用データを生成する。すなわち、新規データ生成部103は、予測タスク表現取得部101が取得した対象タスクについての予測タスク表現データと予測用データ取得部105が取得した当該対象タスクについての予測用データから新たな予測用データを生成する。このように、予測フェーズにおける新規データ生成部103は、学習フェーズにおいて用いられた複数の予測タスクをまとめた予測タスクである一つの新たな予測タスクのための予測用データを生成する。なお、予測フェーズにおける新規データ生成部103は、学習フェーズで新たな学習データを生成する際に適用した生成規則と同じ生成規則を適用して、予測用データを生成する。すなわち、新たな予測用データを生成するための特徴量エンジニアリングは学習用データを生成したときと同様のものである。予測フェーズで生成される新たな予測用データは、正解データが存在しないという点で、学習フェーズで生成される学習用データと異なっている。
予測モデル利用部106は、予測モデル生成部104が生成した予測モデルと、予測フェーズにおける新規データ生成部103が生成した予測用データを用いて、対象タスクについての予測を行う。予測モデル利用部106は、予測モデル生成部104が生成した予測モデルに、新規データ生成部103が生成した予測用データを入力し、予測モデルから得られる予測結果を出力する。
次に、学習装置10のハードウェア構成について説明する。図4は、学習装置10のハードウェア構成の一例を示すブロック図である。図4に示すように、学習装置10は、例えば、ネットワークインタフェース51と、メモリ52と、プロセッサ53とを有する。
ネットワークインタフェース51は、他の装置と通信を行うために使用される。ネットワークインタフェース51は、例えば、情報記憶部107が学習装置10の外部装置としてネットワーク上に存在する場合に使用される。ネットワークインタフェース51は、例えば、ネットワークインタフェースカード(NIC)を含んでもよい。
メモリ52は、例えば揮発性メモリ及び不揮発性メモリの組み合わせによって構成される。メモリ52は、プロセッサ53より実行される、1以上の命令を含むソフトウェア(コンピュータプログラム)などを格納するために使用される。
プロセッサ53は、例えば、マイクロプロセッサ、MPU(Micro Processor Unit)、又はCPU(Central Processing Unit)などであってもよい。プロセッサ53は、複数のプロセッサを含んでもよい。プロセッサ53は、メモリ52からコンピュータプログラムを読み出して実行することで、図2に示した学習装置10の各構成要素の処理を行う。
また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
[動作の説明]
次に、学習装置10の動作について説明する。まず、学習フェーズにおける動作について説明する。図5は、学習フェーズにおける学習装置10の動作の一例を示すフローチャートである。以下、図5を参照しつつ学習フェーズにおける学習装置10の動作について説明する。
ステップS100において、予測タスク表現取得部101は、複数の予測タスクについての予測タスク表現データを取得する。
次に、ステップS101において、学習用データ取得部102は、ステップS100で取得された予測タスク表現データに対応する予測タスクのそれぞれについての学習用データを取得する。
次に、ステップS102において、新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を得て、予測タスク毎に、新たな学習用データを生成する。すなわち、新規データ生成部103は、ある予測タスクについての予測タスク表現データと当該予測タスクについての特徴量とを組み合わせたデータに対する特徴量エンジニアリングに基づいて決定した生成規則に従い新たな学習用データを生成する。1つの予測タスクに基づいて得られた特徴量と正解データの組の集合は、新たな学習用データ群の一部を構成する。そして、新規データ生成部103は、別の予測タスクについて同様の生成規則に従い、新たな学習用データを生成する。各予測タスクに基づいて生成された新たな学習用データの集合が、予測モデル生成部104における学習処理に利用される新たな学習用データ群となる。
次に、ステップS103において、予測モデル生成部104は、新規データ生成部103により生成された学習用データを用いて、予測モデルを学習する。なお、予測モデルやその学習方法はどのようなものを用いてもよい。これにより、学習済みの予測モデルが生成される。
図6は、予測フェーズにおける学習装置10の動作の一例を示すフローチャートである。以下、図6を参照しつつ学習フェーズにおける学習装置10の動作について説明する。
ステップS200において、予測タスク表現取得部101は、学習フェーズにおける新たな学習用データの生成のために用いられたいずれかの予測タスク(対象タスク)についての予測タスク表現データを取得する。
次に、ステップS201において、予測用データ取得部105は、対象タスクについての予測用データを取得する。
次に、ステップS202において、新規データ生成部103は、対象タスクについての予測タスク表現データと当該対象タスクの予測用データに対し、学習フェーズと同じ生成規則を適用して、新たな予測用データを生成する。
次に、ステップS203において、予測モデル利用部106は、学習フェーズで生成された予測モデルと、ステップS202で生成された予測用データを利用して、予測を行う。
[効果の説明]
次に、本実施の形態の効果について説明する。
新規データ生成部103が生成する学習用データには、各予測タスクに対する、予測タスク表現データの情報と予測用データの特徴量の情報が入っているために、タスクごとに別々の予測モデルを作る方法と比べて精度の良い予測が可能となる。例えば、予測タスク表現データが1次元のベクトルで表される三つの予測タスクがあって、各タスクに対して一つずつ特徴量と正解データの組が存在し、特徴量が2次元ベクトルであるときに、線形回帰で予測することを考える。タスクごとに行なわれる線形回帰では、特徴量の各次元に対応する係数を決定する必要があるため、タスクごとに2変数の線形方程式を解く必要がある。しかし、各タスクに対する特徴量と正解データの組は一つだけであるため、線形方程式の解が不定となり、無限に解が存在する。二つある特徴量のうち一つだけを使うことにすれば線形方程式の解が一意に定まるが、どちらの特徴量を選ぶべきかを一つのデータからは決定できないため、事前知識などの仮定がないと妥当な予測モデルを構成できる保証はない。一方、本実施の形態では、予測タスク表現データ(1次元)と学習用データの特徴量(2次元)とを結合して特徴量を生成する。このため、三つの予測タスクをまとめた一つの予測タスク(以下、複数の予測タスクをまとめた一つの予測タスクを新規予測タスクと称す)に対しては、特徴量ベクトルの次元は少なくとも3次元となる。簡便な説明のため、特徴量エンジニアリングを考えないことにすると、新規予測タスクに対する特徴量と正解データの組は三つとなるため、線形方程式の解が一意に定まる。つまり、事前知識の仮定がなくても、データのみから特徴量の係数を線形回帰で決定することができる。このように、各タスクのデータが少ないときに、新規予測タスクを構成して学習用データをまとめることで、妥当な予測ができるようになる。
また、本実施の形態は、各タスクの学習用データだけをまとめて新規予測タスクの学習用データを構成する手法と比べて、精度の良い予測が可能となる。新規予測タスクの学習用データを構成する際に、各タスクの学習用データだけをまとめて構成すると、予測タスクごとに妥当な予測モデルが異なる場合に、それぞれの予測タスクに対して同じ予測モデルを作ることになる。つまり、異なる予測タスクでも予測用データの特徴量が同じであれば同じ予測値となってしまう。しかし、本実施の形態では、各予測タスクの予測タスク表現データを、新規予測タスクの学習用データにおける特徴量に追加しているため、予測タスクが異なれば予測用データの特徴量が同じであっても、異なる予測値を出せる。つまり、各予測タスクに対して同一ではない予測モデルができる。よって、より良い精度の予測が可能となる。
以上、実施の形態の詳細について説明したが、ここで、具体例を用いてさらに説明する。この具体例では、予測モデルを作成及び利用するための予測タスクは四つある。一つ目は、福島のももの売上個数を予測するタスクである。二つ目は、福島のぶどうの売上個数を予測するタスクである。三つ目は、山梨のももの売上個数を予測するタスクである。四つ目は、山梨のぶどうの売上個数を予測するタスクである。
図7は、上述した具体例に関し、予測タスク表現取得部101が取得する予測タスク表現データの一例を示す図である。図7では、四つの予測タスクについて、それぞれ、ベクトルを用いて予測対象を構成する要素が表現されている。具体的には、ベクトルの第1成分が福島産であるか否か、ベクトルの第2成分がももであるか否かを表している。すなわち、ベクトルの第1成分の値が1である場合、予測対象が福島産であることを示し、ベクトルの第1成分の値が0である場合、予測対象が山梨産であることを示す。同様に、ベクトルの第2成分の値が1である場合、予測対象がももであることを示し、ベクトルの第2成分の値が0である場合、予測対象がぶどうであることを示す。
図8は、上述した具体例に関し、学習用データ取得部102が取得する各予測タスクの学習用データの一例を示す図である。図8に示した例では、四つの予測タスクそれぞれについて一つの学習用データが取得され、合計四つの学習用データが取得される。ここで、価格が特徴量であり、売上個数が正解データである。以下では、予測タスク表現取得部101が、図7に示したベクトルを予測タスク表現データとして取得し、学習用データ取得部102が、図8に示した学習用データを取得した場合について説明する。
新規データ生成部103は、予測タスク表現取得部101と学習用データ取得部102のそれぞれの出力を用いて、例えば図9に示すような特徴量と正解データの組を生成する。図9に示した例では、価格を予測タスク表現データのベクトルの各成分にかけて、定数項を加えたものを新たな特徴量としている。
福島のももに関して生成規則を具体的に述べる。まず、新規データ生成部103は、商品の種類と産地を表現した図7の予測タスク表現ベクトル(1,1)と、図8の価格を表す特徴量ベクトル(300)と売上150という学習用データを取得する。
次に、新規データ生成部103は、予測タスク表現ベクトル(1,1)と価格(300)(1次元ベクトル)を結合してベクトル(1,1,300)(3次元ベクトル)を作る。
次に、特徴量エンジニアリングが行われる。作った3次元ベクトルの第1成分(1)と第2成分(1)をそれぞれ第3成分(300)にかけて得られる成分をベクトルに追加する。つまり、この時点で、(1,1,300,300,300)という5次元ベクトルが生成される。
さらに、この5次元ベクトルに定数1の特徴量を追加する。よって、(1,1,300,300,300,1)という6次元ベクトルが生成される。
そして、この6次元ベクトルの後半の3次元の成分(300,300,1)だけを取り出して、これを新規予測タスクのための特徴量とすることで特徴量エンジニアリングを終了する。
最後に、新規データ生成部103は、いま作成した特徴量と学習用データの正解データ(売上)との組を、新規予測タスクのための学習用データの一つとする。
他の予測タスク(すなわち、福島のぶどう、山梨のもも、及び山梨のぶどう)についても同様に行われ、最終的に図9に示すような学習用データが得られる。
これにより、各予測タスクのデータが非常に少ない場合でも、各予測タスクに対して別々に予測モデルを作るより、価格の変動が売上に与える影響を精確に予測することが期待できる。例えば、各予測タスクの予測モデルを線形回帰で作ることを考える。すると、価格のみから売上を説明しようとするため、価格と売上個数が比例する予測モデルとなる。つまり、価格を高くすればするほど売上が比例して伸び、価格を下げれば下げるほど売上が落ちるという予測モデルになる。
ここで、線形回帰を用いて、価格のみから売上個数を予測しようとすると、予測モデルが正の比例関係になる理由について説明する。図8に示した価格を特徴量として、図8に示した売上個数を線形回帰で予測しようとすると、「売上個数=a×価格」という予測式で売上個数を説明することとなる。すなわち、線形回帰を用いて、価格のみから売上個数を予測する場合、上記aを学習用データから求める必要がある。福島のももの場合、売上個数が150で価格が300というデータのみが存在するので、a=0.5が導かれる。つまり、正の比例関係が導かれる。
なお、価格を下げると売上が上がるような予測モデルは、定数の特徴量を学習用データに追加した場合などに生成される。つまり、この定数の特徴量を例えば1とした場合、「売上個数=a×価格+b×1」という予測式で売上個数を説明することとなり、価格を下げると売上が上がるような予測モデルが得られる。この場合、上記a及びbを学習用データから求める必要がある。なお、定数の特徴量の具体的な値は、すべてのデータにおいて同じ値であればよく、任意の値とすることができるが、数式を簡単にするために1とするのが慣例である。aとbを一意に定めるには、二つ以上の学習用データが必要である。仮に、福島のももについて、価格が300で売上個数が150というデータの他に、価格が10で売上個数が440というデータも存在する場合、a=-1、b=450となる。これは、価格を上げると売上が下がる予測式になっている。なお、データが三つ以上ある場合には、例えば誤差が最小となるようなaとbの値が一意に定められる。
上述の通り、線形回帰を用いて、価格のみから売上個数を予測しようとすると、予測モデルが正の比例関係になる。しかし、経済における原理を考えればそのような予測モデルが妥当ではないことは明らかである。そこで、価格を下げると売上が上がるような予測モデルを作るために、例えば、定数の特徴量を追加した上で、線形回帰によって予測モデルを作ることを考える。この場合、値を決定すべき係数は、定数に対応する係数と価格に対応する係数の二つ(上記aとb)である。線形回帰は連立一次方程式を解くために、値を決定すべき係数の数以上のデータを必要とするので、各予測タスクに少なくとも二つ以上データが必要になる。一方で、本実施の形態ならば、後述するように、データを増やさずとも価格を下げると売上が伸びるような予測モデルを得ることができる。
新規予測タスクのための学習用データが得られると、予測モデル生成部104は、新規データ生成部103が生成した四つの学習用データを用いて予測モデルの学習を行ない、学習済み予測モデルを生成する。例えば線形回帰を使って予測が行なわれる場合、予測モデルのモデルパラメータのベクトルは(-0.611,0.221,263)となる。ただし、ベクトルの最後の成分が定数を表していて、それ以外が一次の項の係数である。つまり、売上個数を予測する式は-0.611×X+0.221×Y+263となる。ただし、Xは、予測フェーズにおいて新規データ生成部103が生成する予測用データの第1の成分に対応し、Yは、同第2の成分に対応する。
学習済み予測モデルを利用するときは、新規データ生成部103に予測タスク表現データと予測用データを入力する。例えば、福島のももを100円で売ったときの売上を予測したいのであれば、予測タスク表現として(1,1)を、予測用データとして(100)を新規データ生成部103に入力する。そして、新規データ生成部103が学習フェーズと同様の生成規則によりこれらのデータを処理することで、(100,100,1)を新規予測タスクのための予測用データとして出力する。予測モデル利用部106はこの予測用データの定数項に対応する成分以外の成分、すなわち第1の成分(上記X)と第2の成分(上記Y)と、学習済みモデルとを用いて、売上の予測値を算出する。具体的には、予測モデル利用部106は、-0.611×100+0.221×100+263を計算し、224という予測値を出力する。これは、福島のももを300円で売ったときに150個売れたという結果に対し、価格を安くしたために売上が伸びることを表しており、妥当な予測モデルとなっている。
上述した具体例では、予測タスクの関係が木構造で与えられていないため、木構造が与えられていることを前提とする非特許文献1に記載の技術は利用できない。また、予測タスクの類似度を求める非特許文献2に記載の方法では本実施の形態より予測精度が低くなるおそれがある。実際、各予測タスクに対して例えば線形回帰を使って各予測タスクの予測モデルを作ろうとすると、既に説明したように、価格と売上個数が比例するという妥当とはいえない予測モデルとなる。結果として、このような予測モデルからでは予測タスク(ここでは商品)の類似度を精確に推定できず最終的な予測精度が低くなると考えられる。
以上、実施の形態について説明したが、本実施の形態は様々な予測処理に適用可能である。例えば、商品の種類は多くあるが販売期間が短いため売り上げ実績がほとんどない場合における商品の売上予測に適用可能である。この場合、各商品の売上予測を予測タスクに、各商品の特性を表現するデータを予測タスク表現データに、全商品が共通してもつ価格などの特徴を特徴量に、各商品の各日の売上個数を正解データに対応付けることで、上記実施の形態を適用可能である。また、駅の数は多くあるが運行が始まったばかりで利用実績がほとんど無い場合における新たな路線の利用者数予測においても適用可能である。この場合、各駅の利用者数予測を予測タスクに、各駅の特性を表現するデータを予測タスク表現データに、全駅が共通してもつホームの長さなどの特徴を特徴量に、各駅の各日の利用者数を正解データに対応付けることで、上記実施の形態を適用可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得部と、
前記予測タスクに対する学習用データを取得する学習用データ取得部と、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成部と、
前記新規データ生成部が生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成部と
を有する学習装置。
(付記2)
前記新規データ生成部は、前記予測タスク表現取得部が取得した前記予測タスク表現データと前記学習用データ取得部が取得した前記学習用データとを組み合わせて算出される特徴量を含む前記新たな学習用データを生成する
付記1に記載の学習装置。
(付記3)
前記予測タスク表現データは、予測対象を構成する要素を示すベクトルである
付記1又は2に記載の学習装置。
(付記4)
前記学習用データ取得部が取得する前記学習用データは、特徴量ベクトルと正解データの組である
付記1乃至3のいずれか1項に記載の学習装置。
(付記5)
前記新たな学習用データの生成のために用いられたいずれかの前記予測タスクである対象タスクについての予測用データを取得する予測用データ取得部と、
前記予測モデルを用いた予測結果を出力する予測モデル利用部と
をさらに有し、
前記新規データ生成部は、さらに、前記対象タスクに対する前記予測タスク表現データと前記予測用データを用いて新たな予測用データを生成し、
前記予測モデル利用部は、前記予測モデルに、前記新規データ生成部が生成した予測用データを入力し、前記予測モデルから得られる予測結果を出力する
付記1乃至4のいずれか1項に記載の学習装置。
(付記6)
予測タスクの予測対象を表現する予測タスク表現データを取得し、
前記予測タスクに対する学習用データを取得し、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成し、
生成した前記学習用データを用いて、予測モデルを生成する
学習方法。
(付記7)
予測タスクの予測対象を表現する予測タスク表現データを取得する予測タスク表現取得ステップと、
前記予測タスクに対する学習用データを取得する学習用データ取得ステップと、
複数の前記予測タスクに対する前記予測タスク表現データと前記学習用データを用いて新たな学習用データを生成する新規データ生成ステップと、
前記新規データ生成ステップで生成した前記学習用データを用いて、予測モデルを生成する予測モデル生成ステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
1 学習装置
2 予測タスク表現取得部
3 学習用データ取得部
4 新規データ生成部
5 予測モデル生成部
10 学習装置
51 ネットワークインタフェース
52 メモリ
53 プロセッサ
101 予測タスク表現取得部
102 学習用データ取得部
103 新規データ生成部
104 予測モデル生成部
105 予測用データ取得部
106 予測モデル利用部
107 情報記憶部

Claims (6)

  1. 予測タスクの予測対象を表現する予測タスク表現データを、複数種類の予測タスクのそれぞれについて取得する予測タスク表現取得部と、
    前記予測タスクに対する学習用データであって、特徴量と正解データの組である学習用データを、前記複数種類の予測タスクのそれぞれについて取得する学習用データ取得部と、
    前記複数種類の予測タスクのそれぞれについて、前記予測タスク表現データと前記学習用データの前記特徴量とを結合したデータに対する特徴量エンジニアリング処理を実行し、前記特徴量エンジニアリング処理により得られた新たな特徴量と前記学習用データの前記正解データとの組を生成することにより、新たな学習用データを生成する新規データ生成部と、
    前記新規データ生成部が前記複数種類の予測タスクのそれぞれについて生成した前記学習用データを用いて、一つの予測モデルを生成する予測モデル生成部と
    を有する学習装置。
  2. 前記予測タスク表現データは、予測対象を構成する要素を示すベクトルである
    請求項1に記載の学習装置。
  3. 前記新規データ生成部が生成する前記新たな学習用データは、前記予測タスク表現データと前記予測タスクに対する学習用データとに基づく多項式特徴量を含むことを特徴とする
    請求項1又は2に記載の学習装置。
  4. 前記新たな学習用データの生成のために用いられたいずれかの前記予測タスクである対象タスクについての予測用データを取得する予測用データ取得部と、
    前記予測モデルを用いた予測結果を出力する予測モデル利用部と
    をさらに有し、
    前記新規データ生成部は、さらに、前記対象タスクに対する前記予測タスク表現データと前記予測用データを用いて新たな予測用データを生成し、
    前記予測モデル利用部は、前記予測モデルに、前記新規データ生成部が生成した予測用データを入力し、前記予測モデルから得られる予測結果を出力する
    請求項1乃至のいずれか1項に記載の学習装置。
  5. 学習装置が、
    予測タスクの予測対象を表現する予測タスク表現データを、複数種類の予測タスクのそれぞれについて取得し、
    前記予測タスクに対する学習用データであって、特徴量と正解データの組である学習用データを、前記複数種類の予測タスクのそれぞれについて取得し、
    前記複数種類の予測タスクのそれぞれについて、前記予測タスク表現データと前記学習用データの前記特徴量とを結合したデータに対する特徴量エンジニアリング処理を実行し、前記特徴量エンジニアリング処理により得られた新たな特徴量と前記学習用データの前記正解データとの組を生成することにより、新たな学習用データを生成し、
    前記複数種類の予測タスクのそれぞれについて生成した前記学習用データを用いて、一つの予測モデルを生成する
    学習方法。
  6. 予測タスクの予測対象を表現する予測タスク表現データを、複数種類の予測タスクのそれぞれについて取得する予測タスク表現取得ステップと、
    前記予測タスクに対する学習用データであって、特徴量と正解データの組である学習用データを、前記複数種類の予測タスクのそれぞれについて取得する学習用データ取得ステップと、
    前記複数種類の予測タスクのそれぞれについて、前記予測タスク表現データと前記学習用データの前記特徴量とを結合したデータに対する特徴量エンジニアリング処理を実行し、前記特徴量エンジニアリング処理により得られた新たな特徴量と前記学習用データの前記正解データとの組を生成することにより、新たな学習用データを生成する新規データ生成ステップと、
    前記新規データ生成ステップで前記複数種類の予測タスクのそれぞれについて生成した前記学習用データを用いて、一つの予測モデルを生成する予測モデル生成ステップと
    をコンピュータに実行させるプログラム。
JP2020549893A 2018-10-11 2018-10-11 学習装置、学習方法、及びプログラム Active JP7310827B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/037870 WO2020075255A1 (ja) 2018-10-11 2018-10-11 学習装置、学習方法、及びプログラムが格納された非一時的なコンピュータ可読媒体

Publications (2)

Publication Number Publication Date
JPWO2020075255A1 JPWO2020075255A1 (ja) 2021-09-02
JP7310827B2 true JP7310827B2 (ja) 2023-07-19

Family

ID=70164056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020549893A Active JP7310827B2 (ja) 2018-10-11 2018-10-11 学習装置、学習方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP7310827B2 (ja)
WO (1) WO2020075255A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7544633B2 (ja) 2021-03-18 2024-09-03 株式会社奥村組 シールド掘進機の施工管理方法
WO2024116293A1 (ja) * 2022-11-29 2024-06-06 日本電信電話株式会社 特徴量作成装置、特徴量作成方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212956A1 (ja) 2016-06-09 2017-12-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212956A1 (ja) 2016-06-09 2017-12-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Also Published As

Publication number Publication date
JPWO2020075255A1 (ja) 2021-09-02
WO2020075255A1 (ja) 2020-04-16

Similar Documents

Publication Publication Date Title
Borkowski et al. Predicting cloud resource utilization
JP6299759B2 (ja) 予測関数作成装置、予測関数作成方法、及びプログラム
JP2023537879A (ja) 動的属性モデル化による次のバスケット推薦のためのシステムと方法
JP7139932B2 (ja) 需要予測方法、需要予測プログラムおよび需要予測装置
JP7245961B2 (ja) 対話型機械学習
JP7310827B2 (ja) 学習装置、学習方法、及びプログラム
JP7006616B2 (ja) 予測モデル生成システム、方法およびプログラム
CA3119351C (en) Extending finite rank deep kernel learning to forecasting over long time horizons
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
EP3918545A1 (en) Method and system for optimizing an objective having discrete constraints
JP6029119B2 (ja) 重要業績評価指標のカテゴリ分割の条件を求める方法、並びに、その為のコンピュータ及びコンピュータ・プログラム
US20230222385A1 (en) Evaluation method, evaluation apparatus, and non-transitory computer-readable recording medium storing evaluation program
JP2015187773A (ja) データ解析装置、データ解析プログラム及びデータ解析方法
JP6988817B2 (ja) 予測モデル生成システム、方法およびプログラム
JP5826892B1 (ja) 変化点検出装置、変化点検出方法、及びコンピュータプログラム
JPWO2020121378A1 (ja) 学習装置および学習方法
JP6414321B2 (ja) 人数予測システム、人数予測方法および人数予測プログラム
JP7339923B2 (ja) 材料の特性値を推定するシステム
Eisenhauer The approximate solution of finite‐horizon discrete‐choice dynamic programming models
JP2015114987A (ja) 処理装置、処理方法、およびプログラム
Maleki et al. A Novel Hybrid Model of Scatter Search and Genetic Algorithms for Software Cost Estimation
JP2014013555A (ja) ニューラルネットワーク設計方法、フィッティング方法、及びプログラム
KR20220008140A (ko) 가상 사용자 및 상품 증강을 이용한 콜드-스타트 문제 해결 방안
JP7062923B2 (ja) 可視化方法、可視化装置及び可視化プログラム
Olteanu Strategies for the incremental inference of majority-rule sorting models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230317

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230317

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230328

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230619

R151 Written notification of patent or utility model registration

Ref document number: 7310827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151