JP7007659B2 - 変換した凸最適化問題を使用するカーネル学習装置 - Google Patents

変換した凸最適化問題を使用するカーネル学習装置 Download PDF

Info

Publication number
JP7007659B2
JP7007659B2 JP2020551601A JP2020551601A JP7007659B2 JP 7007659 B2 JP7007659 B2 JP 7007659B2 JP 2020551601 A JP2020551601 A JP 2020551601A JP 2020551601 A JP2020551601 A JP 2020551601A JP 7007659 B2 JP7007659 B2 JP 7007659B2
Authority
JP
Japan
Prior art keywords
kernel
feature
admm
optimization problem
convex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020551601A
Other languages
English (en)
Other versions
JP2021516828A (ja
Inventor
浩 張
慎二 中台
健次 福水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021516828A publication Critical patent/JP2021516828A/ja
Application granted granted Critical
Publication of JP7007659B2 publication Critical patent/JP7007659B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • G06F18/21355Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis nonlinear criteria, e.g. embedding a manifold in a Euclidean space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、カーネルに基づく機械学習手法に関し、特に、カーネル学習の、解釈可能で効率的な方法およびシステムに関する。
機械学習手法は、予測モデルを構築するためにデータ科学において広く応用されている。予測モデルを訓練するために、知られたラベルを持つデータ事例の組が、学習アルゴリズムの入力として使用される。訓練の後、適合したモデルは、以前には知られていないデータ事例のラベルを予測するために利用される。
データの表現は、予測精度に影響を及ぼす本質的な要因の一つである。通常、各データ事例は、特徴空間内の特徴ベクトルによって、前処理され、表現される。カーネルに基づく方法は、各データ事例を高次元(正無限の)特徴空間に写像する能力のために、予測精度に関して力強い機械学習手法のファミリーである。この特徴空間内のデータの表現は、データ内の非線形性を獲得することができ、たとえば、特徴間の無限次数の相互作用は、Gaussian Radial basis function(RBF)カーネルの場合において表現され得る。更に、カーネルに基づく方法における特徴マップは、暗黙に作られ、対応する内積は、直接的に、カーネル関数によって計算され得る。これは、「カーネルトリック」として知られている。
それにもかかわらず、標準カーネル関数における暗黙の特徴マップを、人間よって解釈することは困難であり、たとえば、予測上の原特徴の異なる効果を、明確に表現することができない。これは、標準カーネルに基づく方法を、モデル解釈性が高く要求される、マーケティングや健康管理のような応用分野において、魅力のないものにする。
Multiple kernel learning(MKL)は、多重異種データ源を必然的に含む問題に対して設計される。加えて、MKLは、また、非特許文献1によって議論されているような、結果モデルのための解釈性を提供することができる。特に、カーネル関数は、MKL内の多重サブカーネルの凸結合として考えられ、各サブカーネルは、特徴表現、たとえば、原特徴のサブ集合上で評価される。結合係数を最適化することによって、予測上の異なる特徴表現の効果を表現することができる。特許文献1は、物体識別のための機械学習を開示している。特許文献1は、機械学習手法として、知られた技術としてSupport Vector Machine(SVM)を使用するMKLの一例を記載している。
あいにく、標準的なカーネルに基づく方法は、(一般的に、データ事例の数において二次の)濃いカーネル行列の格納と計算コストのために、スケーラビリティ問題をこうむる。これは、多重カーネルを使用するときより悪い。何故なら、多重カーネル行列は、格納され、計算されなければならないからである。
最近、幾つかの技術が、カーネル方法のスケーラビリティ問題に取り組むために開発されている。それらの1つは、非特許文献2によって記載されている、乱択化フーリエ特徴関数(RFF)と呼ばれる。RFFの重要なアイディアは、明示的に無作為に抽出された特徴マップを使用して、カーネル関数を直接的に近似することである。特徴マップが明示的に作られるので、大規模問題が、カーネル行列を計算することなく、効率的な線形アルゴリズムを利用することによって解決され得る。特許文献2は、ハッシュ関数の一例として、RFFを使用するハッシュ値へ写像するShift-Invariant Kernelsに基づくハッシュ関数を記載している。
スケーラビリティ問題のための救済策として、RFFは、標準MKLの複雑性を、データの事例の数において、二次から一次に低減することができる。しかしながら、MKLの通常の場合において、サブカーネルの数が大きくなるとき、コンピュータ計算的にまだ効率がよくない。
交互方向乗数法(ADMM)は、分散凸最適化に対する人気のあるアルゴリズムである。ADMMは、大規模問題に対して特に魅力的である。何故なら、もし原問題がADMM形式に変換され得るなら、人手での問題を、並列に解決することが容易なサブ問題に解くことができるからである。ADMMは非特許文献3によって、余すところなく概説されている。特許文献3は、最適化問題がADMMと呼ばれる最適化の枠組を用いて解かれる、ランキング関数学習装置を開示している。
特開2015-001941号公報 特開2013-068884号公報 特開2013-117921号公報
S. Sonnenburg, G. Raetsch, C. Schaefer, and B. Schoelkopfh in "large scale multiple kernel learning", Journal of Machine Learning Research, 7(1):1531-1565, 2006 A. Rahimi and B. Recht in "Random features for large-scale kernel machines", Advances in Neural Information Processing Systems 20, J.C. Platt, D. Koller, Y. Singer, and S.T. Roweis, Eds. Curran Associates, Inc., 2008, pp. 1177-1184 S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein in "Distributed optimization and statistical learning via the alternating direction method of multipliers", Foundations and Treads in Machine Learning, 3(1): 1-1122, 2011
本発明の目的は、標準的なカーネル学習の解釈可能性を、効率が良い分散最適化手法およびシステムによって扱うことにある。
標準的なカーネル学習において、カーネル関数は、暗黙の特徴マップの内積として規定される。しかしながら、それらの全ては、透明でない方法内のカーネル関数にパックされるため、特徴の異なる効果を解釈することが困難である。multiple kernel learning(MKL)において、カーネル関数は、各サブカーネルがある特徴表現上で評価された状態で、サブカーネルの凸結合とみなされる。異なる特徴表現の効果を解釈するために、最適化問題が、サブカーネルの最適な結合を得るために解かれる。あいにく、この最適化プロセスは、通常、(一般的にはデータ事例の数の二次である)計算的に高価である、多重カーネル行列を伴う。乱択化フーリエ特徴関数(RFF)は、カーネル近似の人気のある技術である。RFFにおいて、特徴マップは、効率が良い線形アルゴリズムがカーネル行列を計算するのを避けるために利用され得るように、明示的に作られる。RFFは、データ事例の数が大きいとき、標準的なカーネルに基づく方法のコンピュータ計算の問題を軽減し、すなわち、計算複雑性を、データ事例の数において、二次から一次に減少する。それにもかかわらず、もし大きい数の特徴表現の効果を解釈することが必要であるなら、より効率の良いコンピュータ計算の機構を必要とする。
本発明の一様態は、幾つかの構成要素およびステップから成り、それは、各データ事例を、解釈されるのが必要な特徴表現の集まりとして、前処理および表現し;データの特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するための前記設計したカーネル関数用の前記明示的な特徴マップを生成し;前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を凸最適化問題に定式化し;前記凸最適化問題を解いて、解釈可能な予測モデルを訓練するための最適解を得る。
本発明の典型的な効果は、解釈可能にまだ効率の良いカーネル学習を、分散方法において予測モデルを訓練するために導くことができることである。
解釈可能で効率の良いカーネル学習の概観フレームワークである、本発明の実施形態に係るカーネル学習装置の構造例を示すブロック図である。 内側更新を持つADMMに基づく最適化プロセスである、本発明の実施形態に係るカーネル学習装置の動作例を示すフロー図である。 外側更新を持つADMMに基づく最適化プロセスである、本発明の実施形態に係るカーネル学習装置の動作例を示すフロー図である。 非凸最適化が、凸最適化でない局所最適問題を受ける、凸最適化問題と非凸最適化問題との間の差のトイ例を示す実例プロットである。 予測タスクにおける特徴の重要度のランキングを示すグラフである。 横軸が「MedInc」の量を表し、縦軸が家の価格用の寄与の部分的依存を表す、グラフである。 横軸が「Latitude」の量を表し、縦軸が家の価格用の寄与の部分的依存を表す、グラフである。 横軸と縦軸が相互作用効果を表す特徴の集合を示し、部分的寄与が色の明暗の変化で示される、グラフである。
本発明は、解釈可能で効率の良いカーネル学習の方法およびシステムを提供する。
図1は、本発明の実施形態に係るカーネル学習装置の構造例を示すブロック図である。この実施形態のカーネル学習装置100は、データ前処理構成要素102と、明示的な特徴写像構成要素103と、凸問題定式化構成要素104と、交互方向乗数法(ADMM)変換構成要素105と、モデル訓練構成要素106とを含む。モデル訓練構成要素106は、分散計算システムと、ADMMに基づくモデル訓練用のこのシステム実行計算における一群の計算ノード107とから成る。計算ノードには2種類あり、グローバルノード108と、幾つかのローカルノード109(1)、109(2)、...である。
データ前処理構成要素102は、データ事例101から特徴を抽出し、それらを特徴ベクトルとして表す。
Figure 0007007659000001
を、N個のデータ事例に対する特徴ベクトルの集合であるとする。ここで、ベクトル
Figure 0007007659000002
は、トータルでD個の特徴を持つ第i事例を表す。さらに、データ前処理構成要素102は、それらの興味に従ってユーザによって指定された特徴表現の集まりを抽出してもよい。予測上のそれらの特徴表現の効果は、訓練されたモデル110に解釈されてよい。
Figure 0007007659000003
を、第iデータ事例のためのK個の特徴表現の集合であるとする。ここで、ベクトル
Figure 0007007659000004
は、サイズDを持つ原D特徴のサブ集合を含む。yを、第i事例のための対応する予測目標であるとする。もし、手近にタスクが回帰であるなら、そのとき次の式で表される。
Figure 0007007659000005
もし、タスクが分類であるなら、そのとき次の式で表される。
Figure 0007007659000006
例えば、家の価格の予測の状況において、ユーザは、居住者の所得、部屋の数、家の緯度および経度のような特徴を持ってよい。ユーザは、居住者の所得のような単一の特徴ばかりでなく、緯度と経度との間の交差の効果に興味があるかもしれない。この場合、ユーザは、緯度および経度を含む特徴表現のみを指定してもよく、予測上のその効果が、訓練されたモデル110に獲得されてもよい。
明示的な特徴写像構成要素103は、この特徴表現を、この実施形態において設計されるカーネル関数によって生成された非線形特徴空間に埋め込む。特に、このカーネル関数は、次式のように規定される。
Figure 0007007659000007
ここで、
Figure 0007007659000008
は、第k特徴表現上で評価されたサブカーネルであり、そして、
Figure 0007007659000009
であり、
Figure 0007007659000010
は、最適化するためのサブカーネルの係数である。サブカーネル
Figure 0007007659000011
は、乱択化フーリエ特徴関数(RFF)によるガウスカーネルの近似であり、次式のような明示的な特徴マップを持つ。
Figure 0007007659000012
Figure 0007007659000013
標準的なカーネル学習において、特徴マップは、暗黙であり、カーネル行列は、最適化プロセス用のカーネル関数によって計算されなければなない。対照的に、式(1)における設計されたカーネル関数は、直接的には使用されず、代わりに、対応する特徴マップは、効率がよい線形アルゴリズムが最適化プロセスにおいて活用されるように、明示的に作られる。式(1)および式(2)に従って、設計されたカーネル関数用の明示的な特徴マップは、次のように書かれてよい。
Figure 0007007659000014
Figure 0007007659000015
そのため、
Figure 0007007659000016
式(3)におけるこの明示的な特徴で、効率がよい線形アルゴリズムが、次の予測モデルを訓練するために利用されてよい。
Figure 0007007659000017
ここで、
Figure 0007007659000018
は、次のサブベクトルである。
Figure 0007007659000019
凸問題定式化構成要素104は、式(4)における予測モデルを訓練する問題を、最適解が得られるところの、凸最適化問題として表現する。
式(4)における予測モデルは、次の最低化問題を解決するために訓練されてよい。
Figure 0007007659000020
ここで、
Figure 0007007659000021
は、凸損失関数である。問題(5)において、2乗の損失が、回帰タスク用に次が選択される。
Figure 0007007659000022
しかし、手近にタスクに依存し、分類タスク用のヒンジ損失のような他の選択がある。
Figure 0007007659000023
は、wに対して課せられ、λ>0はそのパラメータである。βは式(1)における設計されたカーネル関数の規定により抑制される。すなわち、最適化問題(5)は2フェーズの代わりに単発の問題を公式化する。
しかしながら、問題(5)は、最適解を得るのが困難であることを意味する、現在の形式おいて非凸である。実例として、図4の上側のパネルは、トイ非凸関数を示す。これは、問題(5)の形式を、最適化が得られるところの、凸問題に変更することが望ましい。凸関数のトイ事例が、図4の下側のパネルに示される。
この問題を凸状にするために、
Figure 0007007659000024
とする。そのとき、次の凸最適化問題が、最適解を得るために同等に解決されてよい。
Figure 0007007659000025
ここで、
Figure 0007007659000026
は、次のサブベクトルである。
Figure 0007007659000027
上述したように、凸問題定式化構成要素104は、予測モデルを訓練するための非凸問題を、変数代入トリックを使用することによって明示的な特徴マップに基づいて、凸最適化問題に定式化するように構成される。
ADMM変換構成要素105は、問題(6)における凸問題をADMM形式に変換し、それから、モデル訓練構成要素106は、ADMM反復を実行するために、一群の計算ノード間の予測モデルを訓練するための計算を分配する。
問題(6)を効果的に解決するために、次の目的関数を交互に最小化することが便利である。
Figure 0007007659000028
およびw.r.t.β。最初に、最小化
Figure 0007007659000029
は、固定の実行可能βとみなされ、そして、問題(6)は、次のようなコンパクト形式に書かれる。
Figure 0007007659000030
ここで、埋め込まれたデータの第kブロックは、
Figure 0007007659000031
で、次のような第i行を持ち、
Figure 0007007659000032
そして、予測目標のベクトルは、
Figure 0007007659000033
で、yとして第i要素を持つ。
問題(7)において、
Figure 0007007659000034
は、次のサブベクトルに分離され、
Figure 0007007659000035
損失関数および規則化項における同様の方法である。ここで、それは、次のようなADMM形式に表現され得る。
Figure 0007007659000036
補助変数
Figure 0007007659000037
を、次のサブベクトルとして持つ。
Figure 0007007659000038
変数
Figure 0007007659000039
は、それで、ADMMにおける主要な変数と呼ばれる。
ところで、最適化問題は、問題(8)におけるとしてADMM形式を認めているので、それは、ADMMアルゴリズムによって解決されてもよい。次の目盛りのある二重変数を持つ増加したラグランジュアン
Figure 0007007659000040
は、問題(8)に対して、次のように組み立てられる。
Figure 0007007659000041
それから、次のADMM反復が、収束のための停止基準が満たされるまで、実行されてよい。
Figure 0007007659000042
ここで、全体の埋め込まれたデータの行列は、次である。
Figure 0007007659000043
次が観察される。式(9)における
Figure 0007007659000044
のステップと、式(11)における
Figure 0007007659000045
のステップは、並列して実行されてよい。この並列処理にされた場合において、ADMM反復は、次のように書かれる。
Figure 0007007659000046
ADMM反復は、次の付加的な変数を導入することによってさらに単純にされてもよい。
Figure 0007007659000047
それから、単純にされたADMM反復は、次のように誘導される。
Figure 0007007659000048
ここで、
Figure 0007007659000049
式(15)における
Figure 0007007659000050
のステップは、本質的に、並列に解決され得る、K独立背回帰問題を伴う。式(16)における
Figure 0007007659000051
のステップの解は、次の損失関数に依存する。
Figure 0007007659000052
例えば、2乗損失の場合において、その解は、単純な閉じた形式を与え、ヒンジ損失の場合において、その解は、ソフト閾値技術を使用して解析的に得られてもよい。簡単なu-updateステップにおいて、次の二重変数のベクトル
Figure 0007007659000053
は、単一の1つのuによって取り替えられる。何故なら、それらの全ては等しいからである。
上記ADMMアルゴリズムは、次の解を与える。
Figure 0007007659000054
この
Figure 0007007659000055
が固定されていると、βの解は、次の凸問題を解決することによって得られ、
Figure 0007007659000056
それは、次の閉じた形式の解を持つ。
Figure 0007007659000057
このβ-updateステップは、ADMM反復を内側又は外側でなされ、それぞれ、「内側更新」および「外側更新」と呼ばれる。
上述したように、ADMM変換構成要素105とモデル訓練構成要素106との組み合わせは、解釈可能な予測モデルを訓練するための最適解を得るために凸最適化問題を解決するように構成される、最適解解決構成要素として働く。
図2は、本発明の実施形態によるカーネル学習装置100の動作例を示すフロー図である。このプロセスは、モデル訓練構成要素106においてADMMに基づく最適化プロセス200を内側更新でどのように実行するかを示している。最適化問題が式(8)としてADMM形式に変換された後、開始ステップ201に入る。それから、次のステップ202が、埋め込まれたデータを、特徴表現に従って、次のようなブロックに分割し、
Figure 0007007659000058
そして、それらを計算ノード107に分配する。グローバルノード108は、サブカーネル係数βと、次のようなADMM変数を初期化する。すなわち、主要な変数
Figure 0007007659000059
補助変数
Figure 0007007659000060
および、二重変数
Figure 0007007659000061
ばらまきステップ204において、グローバルノード108は、ローカルノード109と通信し、サブカーネル係数とADMM変数の情報を共有する。ステップ205は、ローカルノード間で並列に実行され、式(15)に従って主要な変数を更新するために解を計算する。集めるステップ206において、グローバルノード108は、更新した主要変数の全てを集め、式(18)におけるように、サブカーネル係数の解を計算する。それから、グローバルノード108は、最適なβがステップ208においてある基準に従って得られるかをチェックし、もしそうでなければ、プロセスをステップ204に戻し、それ以外なら、ステップ209に進んで、式(16)および式(17)におけるように、グローバルノード上で補助変数および二重変数を更新する。ステップ210において、グローバルノードは、ADMMの停止基準が満たされるかをチェックし、もしそうでなければ、プロセスをステップ204に戻し、それ以外なら、終了ステップ211に進んで、サブカーネル係数とADMM変数の最終的な解を持つ訓練されたモデル110を出力する。
図3は、本発明の実施形態によるカーネル学習装置100の動作例を示すフロー図である。このプロセス300は、内側更新の代わりに外側更新を持つ、プロセス200の代案である。プロセス300において、ステップ301、302、303、304、305、および306が、まず、プロセス200におけるのと同様に実行される。それから、ステップ307において、グローバルノード108は、式(16)および式(17)に従って、補助変数および二重変数を更新する。ステップ308において、グローバルノード108は、ADMMの停止基準が満たされているかをチェックし、もしそうでなければ、プロセスをステップ304に戻し、それ以外の場合には、ADMM反復から外へ出て、ステップ309に進み、式(18)におけるように、グローバルノード108上でサブカーネル係数の解を計算する。それから、グローバルノード108は、最適なβがステップ310においてある基準に従って得られるかをチェックし、もしそうでなければ、プロセスをステップ304に戻し、それ以外の場合には、終了ステップ311に進んで、サブカーネル係数とADMM変数の最終的な解を持つ訓練されたモデル110を出力する。
プロセス200とプロセス300との間の主な差異は、サブカーネル係数βが更新されるときである。プロセス200において、β-updateステップは、内側ADMM反復である。これは、次の主要変数
Figure 0007007659000062
とサブカーネル係数βとを二者択一的に更新するとき、グローバルノード108とローカルノード109との間で数回の通信を必要とする。他方、β-updateステップは、プロセス300において外側ADMM反復である。しかしながら、新しいが最適でないβがステップ309において得られるたびに、ADMM反復の新しい出来事がステップ304から再始動されなければならない。プロセス200における間、ADMM反復のたった1つの出来事がある。
カーネル学習装置100のそれぞれの構成要素は、ハードウェアとソフトウェアとの組み合わせを使用することによって実現され得る。ハードウェアとソフトウェアとが互いに組み合わされた形態において、カーネル学習装置100のそれぞれの構成要素は、RAM(ランダムアクセスメモリ)にカーネル学習プログラムを展開し、そのカーネル学習プログラムに基づいて制御部(CPU:中央処理装置)等のハードウェアを動作させることによって、各種の手段として実現される。加えて、カーネル学習プログラムは、記録媒体に記録された状態で頒布されてもよい。記録媒体に記録されたカーネル学習プログラムは、有線、無線、または記録媒体それ自体を介してメモリに読み出され、制御部等を動作させる。記録媒体としては、光ディスク、磁気ディスク、半導体記録装置、ハードディスクなどが挙げられる。
上記実施形態を別の表現で表すとすれば、実施形態は、カーネル学習装置100として働くコンピュータを、RAMに展開されたカーネル学習プログラムに基づいて、データ前処理構成要素102、明示的な特徴写像構成要素103、凸問題定式化構成要素104、および最適解解決構成要素(ADMM変換構成要素105およびモデル訓練構成要素106)として動作させることで実現されてよい。
次に、図面を参照して、本発明の一実施例について説明する。図示の例において、本実施例は、予測目標yとして、たとえば、カルフォルニア住宅データセットに基づいて、家の価格を予測するための予測タスクの例である。カルフォルニア住宅データセットが、D個の特徴として、次の表1で表されるような第1乃至第8の特徴x1~x8を持っているとする。すなわち、図示の例において、Dは8に等しい。
Figure 0007007659000063
カルフォルニア住宅データセットが訓練されたモデル110に供給されると、訓練されたモデル110は、図5に図示されるような、予測タスクにおける特徴用の重要度を生成する。図5から明らかなように、”MedInc”および”Latitude”の特徴が、家の価格を予測する際に重要であることを確認することができる。
さらに、訓練されたモデル110は、図6および図7に示されるような、2つの図面を更に生成する。図6および図7の各々において、横軸は、単一の特徴を特徴の数値を表し、縦軸は、部分的な依存関係を表す。
詳述すると、図6は、横軸が”MedInc”の量を表し、縦軸が家の価格のための寄与の部分的な依存関係を表すグラフを示す。図6からわかるように、家の価格の部分的な依存関係が、”MedInc”の量が多くなると改善されることを確認することができる。
図7は、横軸が”Latitude”の量を表し、縦軸が家の価格のための部分的な依存関係を表すグラフを示す。
そのうえ、訓練されたモデル110は、図8に示されるように、相互作用効果を表す特徴用の部分的な依存関係の視覚化された例を表す説明図を更に生成する。図8は、横軸および縦軸が相互作用効果を表す特徴の集合を表し、部分的な依存関係が色の陰影の変化で示される、グラフを示す。図示の例において、図8のグラフにおいて、横軸は”Longitude”の特徴を表し、縦軸は”Latitude”の特徴を表し、陰影が家の価格用の部分的な依存関係を表す。
この構成によれば、ユーザは、意思決定として、予測された売り値と依存関係とを使用することができる。例えば、ユーザは、訓練されたモデル110の出力に基づいて、家の価格の最適な売り戦略を決定することができる。
実施形態を参照して本発明を説明したが、本発明はその実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、上記実施形態では、最適解解決構成要素がADMM変換構成要素105とモデル訓練構成要素106との組み合わせから構成されているが、最適解解決構成要素は、他の解決構成要素から選択された任意の一つによって実現されてよい。より具体的に言うと、ADMM変換構成要素105は省略されてもよい。この場合、最適解解決構成要素は、ADMMを除くモデル訓練構成要素のみによって実現される。
100 カーネル学習装置
101 データ事例
102 データ前処理構成要素
103 明示的な特徴写像構成要素
104 凸問題定式化構成要素
105 ADMM変換構成要素
106 モデル訓練構成要素
107 計算ノード
108 グローバルノード
109(1)、109(2) ローカルノード
110 訓練されたモデル

Claims (9)

  1. 各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現するように構成されたデータ前処理回路部と、
    データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成するように構成された明示的な特徴写像回路部と、
    前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化するように構成された凸問題定式化回路部と、
    前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得るように構成された最適解解決回路部と、
    を備えるカーネル学習装置。
  2. 前記明示的な特徴写像回路部は、乱択化フーリエ特徴関数(RFF)によって直接的に前記カーネル関数を近似するように構成されている、
    請求項1に記載のカーネル学習装置。
  3. 前記最適解解決回路部は、
    前記凸最適化問題を、サブ問題を分離してかつ効率的に解決できる、交互方向乗数法(ADMM)形式に変換するように構成されたADMM変換回路部と、
    前記解釈可能な予測モデルを訓練するために分散した形式で一群の計算ノード上で収束するまで、ADMM反復を実行するように構成されたモデル訓練回路部と、
    を備える、請求項1又は2に記載のカーネル学習装置。
  4. 前記モデル訓練回路部は、前記ADMM反復を内側更新で実行する、請求項3に記載のカーネル学習装置。
  5. 前記モデル訓練回路部は、前記ADMM反復を外側更新で実行する、請求項3に記載のカーネル学習装置。
  6. コンピュータが、
    各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現し、
    データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成し、
    前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化し、
    前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得る、
    カーネル学習方法。
  7. 前記コンピュータが、
    前記カーネル関数の設計、乱択化フーリエ特徴関数(RFF)によって直接的に前記カーネル関数を近似することで実行する、請求項6に記載のカーネル学習方法。
  8. 前記コンピュータが、
    前記凸最適化問題の解決
    前記凸最適化問題を、サブ問題を分離してかつ効率的に解決できる、交互方向乗数法(ADMM)形式に変換し、
    前記解釈可能な予測モデルを訓練するために分散した形式で一群の計算ノード上で収束するまで、ADMM反復を実行する、
    ことで実行する、請求項6又は7に記載のカーネル学習方法。
  9. コンピュータに、
    各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現するステップと、
    データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成するステップと、
    前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化するステップと、
    前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得るステップと、
    を実行させるカーネル学習プログラム。
JP2020551601A 2018-03-26 2018-03-26 変換した凸最適化問題を使用するカーネル学習装置 Active JP7007659B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/012159 WO2019186650A1 (en) 2018-03-26 2018-03-26 Kernel learning apparatus using transformed convex optimization problem

Publications (2)

Publication Number Publication Date
JP2021516828A JP2021516828A (ja) 2021-07-08
JP7007659B2 true JP7007659B2 (ja) 2022-01-24

Family

ID=68059559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020551601A Active JP7007659B2 (ja) 2018-03-26 2018-03-26 変換した凸最適化問題を使用するカーネル学習装置

Country Status (3)

Country Link
US (4) US20210027204A1 (ja)
JP (1) JP7007659B2 (ja)
WO (1) WO2019186650A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6966395B2 (ja) * 2018-08-23 2021-11-17 株式会社日立製作所 最適化システム及び最適化方法
US11551123B2 (en) * 2019-06-11 2023-01-10 International Business Machines Corporation Automatic visualization and explanation of feature learning output from a relational database for predictive modelling

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10531806B2 (en) * 2013-12-17 2020-01-14 University Of Florida Research Foundation, Inc. Brain state advisory system using calibrated metrics and optimal time-series decomposition
US9524567B1 (en) * 2014-06-22 2016-12-20 InstaRecon Method and system for iterative computed tomography reconstruction
US11080228B2 (en) * 2017-03-13 2021-08-03 International Business Machines Corporation Distributed random binning featurization with hybrid two-level parallelism
US11315032B2 (en) * 2017-04-05 2022-04-26 Yahoo Assets Llc Method and system for recommending content items to a user based on tensor factorization
WO2018192831A1 (en) * 2017-04-20 2018-10-25 Koninklijke Philips N.V. Learning and applying contextual similarities between entities

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
VEDALDI, Andrea,Efficient Additive Kernels via Explicit Feature Maps,IEEE transactions on pattern Analysis and Machine Intelligence,IEEE,2012年01月23日,[検索日2021年10月12日]<URL:https://ieeexplore.ieee.org/document/6136519>
岡野原 大輔,AI最前線 第12回 カーネル法は遅くない 乱択化フーリエ特徴関数で大規模でも適用可能に,NIKKEI Robotics 第12号 ,日本,日経BP社,2016年06月10日,PP.36-38
森 耕平,カーネルの自動調整機能を備えたSVMの特徴空間の圧縮手法 VC-dimension reduction algorithms for hyperkernel SVM-type machines,電子情報通信学会技術研究報告 Vol.110 No.255 IEICE Technical Report,日本,社団法人電子情報通信学会,2010年10月21日,第110巻,PP.95-98

Also Published As

Publication number Publication date
WO2019186650A1 (en) 2019-10-03
US20230401489A1 (en) 2023-12-14
US20230409981A1 (en) 2023-12-21
US20210027204A1 (en) 2021-01-28
JP2021516828A (ja) 2021-07-08
US20240037456A1 (en) 2024-02-01

Similar Documents

Publication Publication Date Title
Chua et al. How fine-tuning allows for effective meta-learning
US11900294B2 (en) Automated path-based recommendation for risk mitigation
KR101938829B1 (ko) 해무의 발생을 예측하는 뉴럴 네트워크 학습 방법 및 장치
US8010535B2 (en) Optimization of discontinuous rank metrics
Atkinson et al. Structured Bayesian Gaussian process latent variable model: Applications to data-driven dimensionality reduction and high-dimensional inversion
US20240037456A1 (en) Kernel learning apparatus using transformed convex optimization problem
Kuhn Predictive modeling with R and the caret Package
US11574190B2 (en) Method and apparatus for determining output token
Aylor et al. Cleaning our own dust: simulating and separating galactic dust foregrounds with neural networks
CN111160459A (zh) 超参数的优化装置和方法
Hager et al. Projection algorithms for nonconvex minimization with application to sparse principal component analysis
CA3119351C (en) Extending finite rank deep kernel learning to forecasting over long time horizons
Eban et al. Learning the experts for online sequence prediction
Prabowo et al. Continually learning out-of-distribution spatiotemporal data for robust energy forecasting
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
US20230132630A1 (en) Apparatus and method with neural network training based on knowledge distillation
Kadyrova et al. Statistical analysis of big data: an approach based on support vector machines for classification and regression problems
Krityakierne et al. Global optimization with sparse and local Gaussian process models
Morris et al. Exploration and inference in spatial extremes using empirical basis functions
Ren et al. Incremental Bayesian tensor learning for structural monitoring data imputation and response forecasting
Urbanek et al. Using analytical programming and UCP method for effort estimation
Khumprom et al. A hybrid evolutionary CNN-LSTM model for prognostics of C-MAPSS aircraft dataset
JP2019095894A (ja) 推定装置、学習装置、学習済みモデル、推定方法、学習方法、及びプログラム
US20240185158A1 (en) Automated path-based recommendation for risk mitigation
US20240086684A1 (en) Method and device with training database construction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200924

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211221