JP6743902B2 - マルチタスク関係学習システム、方法およびプログラム - Google Patents

マルチタスク関係学習システム、方法およびプログラム Download PDF

Info

Publication number
JP6743902B2
JP6743902B2 JP2018549659A JP2018549659A JP6743902B2 JP 6743902 B2 JP6743902 B2 JP 6743902B2 JP 2018549659 A JP2018549659 A JP 2018549659A JP 2018549659 A JP2018549659 A JP 2018549659A JP 6743902 B2 JP6743902 B2 JP 6743902B2
Authority
JP
Japan
Prior art keywords
learning
prediction
prediction models
task
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018549659A
Other languages
English (en)
Other versions
JPWO2018087814A1 (ja
Inventor
啓 谷本
啓 谷本
洋介 本橋
洋介 本橋
遼平 藤巻
遼平 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018087814A1 publication Critical patent/JPWO2018087814A1/ja
Application granted granted Critical
Publication of JP6743902B2 publication Critical patent/JP6743902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • G06F18/21326Rendering the within-class scatter matrix non-singular involving optimisations, e.g. using regularisation techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数のタスクを同時に学習するマルチタスク関係学習システム、マルチタスク関係学習方法およびマルチタスク関係学習プログラムに関する。
マルチタスク学習は、関連する複数のタスクを同時に学習させることで、各タスクの予測精度を向上させる技術である。マルチタスク学習を行うことで、関連するタスクに共通の要因を獲得できるため、例えば、対象とするタスクの学習サンプルが非常に少ない場合であっても、予測精度を向上させることが可能になる。
また、タスク間の類似度が明に与えられない状態で学習を行う方法として、非特許文献1に記載されているようなマルチタスク関係学習が知られている。非特許文献1に記載された学習法では、データとの整合性の観点、予測対象が類似するほど予測モデルも類似するという観点、および、対象群が少数のクラスタからほど好ましいと言う観点を含む最適化問題を解くことにより、複数の対象の予測モデルを推定する。
A.Argyriou, et al., "Learning the Graph of Relations Among Multiple Tasks", ICML 2014 workshop on New Learning Frameworks and Models for Big Data, 2013.
まず、既存のマルチタスク関係学習として、非特許文献1に記載された方法を説明する。図5は、マルチタスク関係学習により予測モデルを推定する動作例を示す説明図である。学習データとして過去データ{X,Y}を学習器61に入力すると、学習器61は、タスク間の類似度を示す行列Qと複数の予測モデルを示す行列Wとを生成して出力する。予測器62は、タスクiの予測モデルに含まれる説明変数xに対する予測用データを、生成された予測モデルに適用して予測結果yを出力する。
図6は、生成される予測モデルを示す行列Wの例を示す説明図である。図6に示す例では、行列Wの各列が1つ予測対象(タスク)に対する予測モデルを示している。具体的には、行列Wの行方向に予測対象を示すタスクが配され、列方向に予測モデルに適用される属性が配されている。
図7は、マルチタスク関係学習の動作例を示すフローチャートである。学習器61は、行列Wおよび行列Qを初期化する(ステップS61)。Wは、上述するように、線形予測モデル群を表わす行列であり、各列ベクトルwが1つのタスク(予測対象)に対する予測モデルに対応する。
また、Qは、タスク間の類似度を表わす類似度行列(similarity matrix )をもとに作られたグラフラプラシアン行列(graph Laplacian matrix)に、安定化のためε単位行列を加えた行列である。なお、ここでは、マルチタスク関係学習としてQが明に与えられないことから、学習器61は、Wと併せてQも最適化する。
学習器61は、超パラメータλ,λの入力を受け付ける(ステップS62)。後述する処理において、λは、タスク間で予測モデルを近づける作用を示すパラメータであり、λを大きくするほど、その作用が強くなる。また、λは、クラスタの数を制御するパラメータであり、λを大きくするほど、Qを通じて、タスクがより少数のクラスタを形成するようになる。
まず、学習器61は、Qを固定してWを最適化する(ステップS63)。学習器61は、例えば、以下の式1に示す式を最小化するようにWを最適化する。式1において、Σ誤差は、データとの整合を表わす項であり、例えば、二乗誤差である。
Figure 0006743902
次に、学習器61は、Wを固定してQを最適化する(ステップS64)。学習器61は、例えば、以下の式2に示す式を最小化するようにQを最適化する。
Figure 0006743902
学習器61は、更新幅や下限値の変化量等に基づいて、最適化処理の収束性を判定する(ステップS65)。収束していると判定された場合(ステップS65におけるYes)、学習器61は、WおよびQを出力し(ステップS66)、処理を終了する。一方、収束していると判定されなかった場合(ステップS65におけるNo)、学習器61は、ステップS63以降の処理を繰り返す。
このように、非特許文献1等に記載されたマルチタスク関係学習では、行列Qと行列Wの最適化のステップを交互に繰り返すことにより、複数の予測モデルを同時に学習する。しかし、上記式1および式2に示すように、最適化を行う各ステップの計算量のオーダは、タスク数の3乗オーダ(O(タスク数))であり、使用するメモリのオーダも、タスク数の2乗(O(タスク数))必要とする。
そのため、大量の予測モデルを同時に学習する場面では、上述する学習方法を用いることは事実上不可能である。
そこで、本発明は、予測モデル学習時の計算量を抑制しつつ、推定される複数の予測モデルの精度を向上させることができるマルチタスク関係学習システム、マルチタスク関係学習方法およびマルチタスク関係学習プログラムを提供することを目的とする。
本発明によるマルチタスク関係学習システムは、複数の予測モデルを同時に推定するマルチタスク関係学習システムであって、データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように各予測モデルを最適化することにより、各予測モデルを推定する学習器を備えたことを特徴とする。
本発明によるマルチタスク関係学習方法は、複数の予測モデルを同時に推定するマルチタスク関係学習方法であって、データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように各予測モデルを最適化することにより、各予測モデルを推定することを特徴とする。
本発明によるマルチタスク関係学習プログラムは、複数の予測モデルを同時に推定するコンピュータに適用されるマルチタスク関係学習プログラムであって、コンピュータに、データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように各予測モデルを最適化することにより、各予測モデルを推定する学習処理を実行させることを特徴とする。
本発明によれば、予測モデル学習時の計算量を抑制しつつ、推定される複数の予測モデルの精度を向上させることができる。
本発明によるマルチタスク関係学習システムの一実施形態を示すブロック図である。 マルチタスク関係学習システムの動作例を示すフローチャートである。 本発明によるマルチタスク関係学習システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。 マルチタスク関係学習により予測モデルを推定する動作例を示す説明図である。 生成される予測モデルを示す行列の例を示す説明図である。 マルチタスク関係学習の動作例を示すフローチャートである。
以下、本発明の実施形態を図面を参照して説明する。以下の説明では、予測対象のことをタスクと記すこともある。
図1は、本発明によるマルチタスク関係学習システムの一実施形態を示すブロック図である。本実施形態のマルチタスク関係学習システム100は、入力部10と、学習器20と、予測器30とを備えている。
入力部10は、学習に用いる各種パラメータおよび学習データを入力する。入力部10は、通信ネットワーク(図示せず)を介して受信する情報を入力してもよく、これらの情報を記憶する記憶装置(図示せず)から情報を読み取って入力してもよい。
学習器20は、複数の予測モデルを同時に推定する。具体的には、学習器20は、データとの整合を示す誤差の総和と各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように、各予測モデルを最適化する。学習器20は、このような最適化により、各予測モデルを推定する。
スパース性を誘導する正則化項とは、上記正則化項を用いることで、非ゼロの値の個数を最適化することを意味する。ここで本来最適化したいのはL0ノルム、すなわち非ゼロの値の個数である。ただし、これを直接最適化した場合、問題として凸ではなく、組合せ最適化問題になり、計算量が増加してしまう。そこで、例えば、L1ノルムを利用して元の問題に極めて近い凸最適化問題に緩和することで、計算量を抑えつつ疎になりやすくできる。具体的には、正則化項は、各予測モデル間の差のノルムの総和で算出される。
学習器20が最適化する関数fは、例えば、以下の式3における括弧内のように定義される。式3において、1番目の項(Σ誤差)は、データとの整合を示す誤差の総和であり、マルチタスク学習における二乗誤差に対応する。また、2番目の項は、各予測モデル間の差のノルムの総和であり、正則化項として働く。式3において、1つのタスク(予測対象)に対する予測モデルが、ベクトルwで表される。
Figure 0006743902
式3において、λは、タスク間で予測モデルを近づける作用を示すパラメータであり、λを大きくするほど、その作用が強くなる。また、pには、1、2などが設定される。すなわち、正則化項のノルムには、L1ノルムやL2ノルムが利用される。ただし、利用されるノルムは、L1ノルムまたはL2ノルムに限定されない。
ijは、外部知識として与えられる値であり、i番目の予測モデルとj番目の予測モデルとのノルムに設定される任意の重み値である。例えば、予め似たクラスタになることが想定できる予測モデル{i,j}の組が存在する場合、sijは、大きな値が設定される。なお、予測モデル間の関係が不明な場合、sijには、1が設定されればよい。
このように、正則化項が、想定される予測モデル間の類似性に応じた重み値をノルムに乗じた総和で算出されるようにすることで、推定される予測モデルの精度をさらに向上させることができる。
また、例えば、新規店舗の需要予測を行う場面では学習データが少ないため、各予測モデルをより集約できるように、正則化パラメータを強くする(λの値を大きくする)ことが好ましい。そのため、正則化の強さを表わすλは、例えば、サンプル数に応じて決定されてもよい。また、別のデータを用いることにより(例えば、クロスバリデーションなどの方法を用いることにより)、正則化の強さを決定してもよい。
例えば、非特許文献1に記載されているような既存の学習法の場合、予測モデルの近さを示す項は、以下の式4に示す関係を有する。
Figure 0006743902
すなわち、式4で示すように、既存の学習法ではノルムの2乗を計算することになる点において、本実施形態と大きく異なる。式3に示すようにノルムが2乗でない場合、目的関数のうち、当該部分の形状が||・||の中身=0となる点を頂点とする錐体になる。例えば、L2ノルム(p=2)の場合、その形状は円錐になり、L1ノルム(p=1)の場合、その形状は四角錐になる。
ここで、最適化する目的関数に含まれるΣ誤差の形状は、一般に滑らかな関数になる。例えば、Σ誤差が二乗誤差の場合、その形状は、複数の予測モデルを示す行列Wに対して、二次関数になる。
本実施形態では、このようなΣ誤差と各予測モデルのpノルムの総和との和を算出することによって、最適化結果が錐の頂点のような尖った部分になりやすい結果が得られやすくなる。具体的には、||w−w||=0となるような予測モデル群が得られやすい。したがって、明にクラスタを仮定しなくても、モデル同士が一致しやすくなるという効果が得られる。
なお、本実施形態の目的関数は、滑らかでない凸関数になるが、L1正則化(Lasso)に関する最適化の技術を用いることで、このような最適化も比較的高速に行うことが可能である。最適化の簡素な一例として、劣勾配法(sub gradient)が挙げられる。
劣勾配法では、尖っていて勾配が定義できない点においては、可能な勾配の集合の中からランダムに勾配が決定される。劣勾配法では、例えば、以下に示す式5を用いて更新が行われる。
Figure 0006743902
式5において、Cは、一旦完全一致したiの集合であり、すべてのi∈Cに対して、w=wである。また、Gは、1ステップの最適化の際に用いられる劣勾配であり、wの最適化を進める方向の候補群である。lは、マルチタスク学習における二乗誤差に対応する。
なお、ここでは、学習器20が最適化を行う方法の一例として劣勾配法を説明したが、最適化の方法は劣勾配法に限定されない。
予測器30は、推定された予測モデルを用いて各タスクの予測を行う。
入力部10と、学習器20と、予測器30とは、プログラム(マルチタスク関係学習プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、マルチタスク関係学習システムの記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、入力部10、学習器20および予測器30として動作してもよい。
また、入力部10と、学習器20と、予測器30とは、それぞれが専用のハードウェアで実現されていてもよい。また、本発明によるマルチタスク関係学習システムは、2つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。
次に、本実施形態のマルチタスク関係学習システムの動作を説明する。図2は、本実施形態のマルチタスク関係学習システムの動作例を示すフローチャートである。本動作例では、学習器20が、上記に示す式3を最適化する処理を行うものとする。
学習器20は、Wを初期化する(ステップS11)。入力部10は、超パラメータ{sij}およびλを入力する(ステップS12)。学習器20は、入力された超パラメータに基づいて、Wを最適化する(ステップS13)。具体的には、学習器20は、上記に示す式3を最小化するようにWを最適化することで、各予測モデルを推定する。
学習器20は、更新幅や下限値の変化量等に基づいて、最適化処理の収束性を判定する(ステップS14)。収束していると判定された場合(ステップS14におけるYes)、学習器20は、Wを出力し(ステップS15)、処理を終了する。一方、収束していると判定されなかった場合(ステップS14におけるNo)、学習器20は、ステップS13以降の処理を繰り返す。
以上のように、本実施形態では、学習器20が、データとの整合を示す誤差の総和と、各予測モデル間の差のノルムの総和を示す正則化項とを含む関数が最小になるように各予測モデルを最適化することにより、各予測モデルを推定する。よって、予測モデル学習時の計算量を抑制しつつ、推定される複数の予測モデルの精度を向上させることができる。
また、本実施形態のマルチタスク関係学習システムは、傾向が似ている予測モデルを近いモデルとして学習することになるため、結果的に、各予測モデルをクラスタリングしているとも言える。なお、ここでのクラスタリングは、予測モデルを一つの点とするような(wベクトルでの)空間におけるクラスタリングであり、各特徴を表わす特徴空間上での一般的なクラスタリングとは、その意味が異なる。
また、例えば、非特許文献1に記載された学習法では、最適化を行う各ステップの計算量のオーダが、タスク数の3乗オーダ(O(タスク数))であり、使用するメモリのオーダも、タスク数の2乗(O(タスク数))必要とする。一方、本願発明では、関係を明に持たないことにより、最適化を行う各ステップの計算量のオーダは、一般のLpノルムの場合には、タスク数の2乗のオーダ(O(タスク数))、L1ノルムの場合には、タスク数の疑似線形オーダ(O(タスク数logタスク数))とすることができる。また、使用されるメモリのオーダは、タスク数のオーダ(O(タスク数))になる。
すなわち、タスク数が非常に大きいケースに本手法を用いた場合、logの部分をほとんど無視できることから、疑似線形オーダで計算できる本手法は、非特許文献1に記載された学習方法と比較し、十分な効果があると言える。したがって、本願発明は、既存の方法に基づいてコンピュータを機能させた場合と比較し、より顕著な効果を有すると言える。
なお、疑似線形オーダで計算できるのは、以下の理由による。最適化の処理においてある時点での勾配を計算する際、モデルの各タスクの各特徴に対応する値(wi,j)は、それぞれの特徴jについて「i番目のタスクは全タスク中何番目の順位にあるか」ということだけが本正則化項についての勾配の値に寄与する。ソートは、タスク数をTとすると、一般にTlogTで実行できるため、各特徴jについてソートアルゴリズムを実行すれば、上記オーダで計算できる。
このように、本願発明によるマルチタスク関係学習方法は、既存の学習法とは異なって機能するものであり、本願発明は、コンピュータの機能改良(性能改善)、すなわち、ソフトウェア技術において課題を解決するための特別な実装を対象としていると言える。
本発明を適用する場面として、例えば、各店舗Sが商品需要を行う予測モデルWをそれぞれ有しており、予測モデルWをそれぞれ最適化する場面が挙げられる。例えば、店舗Sの予測モデルWと店舗Sの予測モデルWとを併せて1つの予測モデルにしても、データへのフィットがそれほど悪くならないとする。
このような場合、上述する式3を最適化することで、予測モデルWと予測モデルWを併せて1つの予測モデルにすることができる。このように複数の予測モデルを同時に最適化して、少ない数の予測モデルに集約(クラスタリング)することで、それぞれの予測モデルの学習で利用するデータを共用できるため、各予測モデルの性能を向上させることができる。
次に、本発明の概要を説明する。図3は、本発明によるマルチタスク関係学習システムの概要を示すブロック図である。本発明によるマルチタスク関係学習システムは、複数の予測モデルを同時に推定するマルチタスク関係学習システム80(例えば、マルチタスク関係学習システム100)であって、データとの整合を示す誤差の総和(例えば、式3における第1項)と、各予測モデル間の差に関するスパース性を誘導する正則化項(例えば、式3における第2項)とを含む関数が最小になるように各予測モデルを最適化することにより、各予測モデルを推定する学習器81(例えば、学習器20)を備えている。
そのような構成により、予測モデル学習時の計算量を抑制しつつ、推定される複数の予測モデルの精度を向上させることができる。
具体的には、正則化項は、各予測モデル間の差のノルムの総和で算出されてもよい。
また、正則化項は、想定される予測モデル間の類似性に応じた重み値(例えば、式3におけるsij)をノルムに乗じた総和で算出されてもよい。このように、正則化項が重み値をノルムに乗じた総和で算出されるようにすることで、推定される予測モデルの精度を向上させることができる。なお、予測モデル間の類似性が不明な場合、重み値には、1が設定されればよい。
また、正則化項のノルムは、L1ノルムまたはL2ノルムであってもよい。
また、学習器81は、劣勾配法を用いて各予測モデルを最適化してもよい。
図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、CPU1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備えている。
上述のマルチタスク関係システムは、それぞれコンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(マルチタスク関係学習プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
本発明は、複数のタスクを同時に学習するマルチタスク関係学習システムに好適に適用される。特に、新商品の需要予測など、データが少ない対象についての予測モデルの学習に好適に適用される。
10 入力部
20 学習器
30 予測器
100 マルチタスク関係学習システム

Claims (9)

  1. 複数の予測モデルを同時に推定するマルチタスク関係学習システムであって、
    データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように当該各予測モデルを最適化することにより、当該各予測モデルを推定する学習器を備えた
    ことを特徴とするマルチタスク関係学習システム。
  2. 正則化項は、各予測モデル間の差のノルムの総和で算出される
    請求項1記載のマルチタスク関係学習システム。
  3. 正則化項は、想定される予測モデル間の類似性に応じた重み値をノルムに乗じた総和で算出される
    請求項1または請求項2記載のマルチタスク関係学習システム。
  4. 正則化項のノルムは、L1ノルムまたはL2ノルムである
    請求項1から請求項3のうちのいずれか1項に記載のマルチタスク関係学習システム。
  5. 学習器は、劣勾配法を用いて各予測モデルを最適化する
    請求項1から請求項4のうちのいずれか1項に記載のマルチタスク関係学習システム。
  6. 複数の予測モデルを同時に推定するマルチタスク関係学習方法であって、
    データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように当該各予測モデルを最適化することにより、当該各予測モデルを推定する
    ことを特徴とするマルチタスク関係学習方法。
  7. 正則化項は、各予測モデル間の差のノルムの総和で算出される
    請求項6記載のマルチタスク関係学習方法。
  8. 複数の予測モデルを同時に推定するコンピュータに適用されるマルチタスク関係学習プログラムであって、
    前記コンピュータに、
    データとの整合を示す誤差の総和と、各予測モデル間の差に関するスパース性を誘導する正則化項とを含む関数が最小になるように当該各予測モデルを最適化することにより、当該各予測モデルを推定する学習処理
    を実行させるためのマルチタスク関係学習プログラム。
  9. 正則化項は、各予測モデル間の差のノルムの総和で算出される
    請求項8記載のマルチタスク関係学習プログラム。
JP2018549659A 2016-11-08 2016-11-08 マルチタスク関係学習システム、方法およびプログラム Active JP6743902B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/083112 WO2018087814A1 (ja) 2016-11-08 2016-11-08 マルチタスク関係学習システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2018087814A1 JPWO2018087814A1 (ja) 2019-08-08
JP6743902B2 true JP6743902B2 (ja) 2020-08-19

Family

ID=62110560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018549659A Active JP6743902B2 (ja) 2016-11-08 2016-11-08 マルチタスク関係学習システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US20190279037A1 (ja)
JP (1) JP6743902B2 (ja)
WO (1) WO2018087814A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021064856A1 (ja) * 2019-10-01 2021-04-08 日本電気株式会社 ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置
JP7135025B2 (ja) * 2020-04-20 2022-09-12 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN112801708B (zh) * 2021-02-05 2024-01-16 通联数据股份公司 一种营业收入预测模型确定方法及装置、预测方法及装置

Also Published As

Publication number Publication date
US20190279037A1 (en) 2019-09-12
WO2018087814A1 (ja) 2018-05-17
JPWO2018087814A1 (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
CN111652380B (zh) 针对机器学习算法进行算法参数调优的方法及系统
US10318874B1 (en) Selecting forecasting models for time series using state space representations
KR102107378B1 (ko) 하이퍼파라미터 자동 최적화 방법 및 그 장치
CN109120462B (zh) 机会网络链路的预测方法、装置及可读存储介质
CN113168559A (zh) 机器学习模型的自动化生成
AU2018201944A1 (en) Quantum optimization system
JP6743902B2 (ja) マルチタスク関係学習システム、方法およびプログラム
KR102142943B1 (ko) 클라우드 기반의 인공지능 연산 서비스 방법 및 이를 수행하는 장치
CN107783998A (zh) 一种数据处理的方法以及装置
KR102559605B1 (ko) 함수 최적화 방법 및 장치
JP6669075B2 (ja) 領域線形モデル最適化システム、方法およびプログラム
US20230051237A1 (en) Determining material properties based on machine learning models
KR102452206B1 (ko) 빅데이터 분석을 위한 인공지능 기반의 클라우드 최적화 장치 및 방법
WO2020218246A1 (ja) 最適化装置、最適化方法、及びプログラム
JP6205526B2 (ja) 計算機及びニューラルネットワークを用いた演算方法
Egele et al. Asynchronous distributed bayesian optimization at hpc scale
Chu et al. Application of Latin hypercube sampling based kriging surrogate models in reliability assessment
JP6536157B2 (ja) モデル推定システム、モデル推定方法およびモデル推定プログラム
JP2017220001A (ja) 予測装置、予測方法及びプログラム
JP7306432B2 (ja) 情報処理方法、情報処理装置及びプログラム
JPWO2018168695A1 (ja) 分散機械学習装置、分散機械学習方法および分散機械学習プログラム
US20210303536A1 (en) Methods and systems for graph approximation
JP7452648B2 (ja) 学習方法、学習装置及びプログラム
JP7438544B2 (ja) ニューラルネットワーク処理装置、コンピュータプログラム、ニューラルネットワーク製造方法、ニューラルネットワークデータの製造方法、ニューラルネットワーク利用装置、及びニューラルネットワーク小規模化方法
Fiosina et al. Distributed nonparametric and semiparametric regression on SPARK for big data forecasting

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200713

R150 Certificate of patent or registration of utility model

Ref document number: 6743902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150