JP7007659B2

JP7007659B2 - 変換した凸最適化問題を使用するカーネル学習装置

Info

Publication number: JP7007659B2
Application number: JP2020551601A
Authority: JP
Inventors: 浩張; 慎二中台; 健次福水
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2022-01-24
Anticipated expiration: 2038-03-26
Also published as: JP2021516828A; US20240037456A1; US20230401489A1; US20210027204A1; US20230409981A1; WO2019186650A1

Description

本発明は、カーネルに基づく機械学習手法に関し、特に、カーネル学習の、解釈可能で効率的な方法およびシステムに関する。

機械学習手法は、予測モデルを構築するためにデータ科学において広く応用されている。予測モデルを訓練するために、知られたラベルを持つデータ事例の組が、学習アルゴリズムの入力として使用される。訓練の後、適合したモデルは、以前には知られていないデータ事例のラベルを予測するために利用される。

データの表現は、予測精度に影響を及ぼす本質的な要因の一つである。通常、各データ事例は、特徴空間内の特徴ベクトルによって、前処理され、表現される。カーネルに基づく方法は、各データ事例を高次元（正無限の）特徴空間に写像する能力のために、予測精度に関して力強い機械学習手法のファミリーである。この特徴空間内のデータの表現は、データ内の非線形性を獲得することができ、たとえば、特徴間の無限次数の相互作用は、Gaussian Radial basis function（ＲＢＦ）カーネルの場合において表現され得る。更に、カーネルに基づく方法における特徴マップは、暗黙に作られ、対応する内積は、直接的に、カーネル関数によって計算され得る。これは、「カーネルトリック」として知られている。

それにもかかわらず、標準カーネル関数における暗黙の特徴マップを、人間よって解釈することは困難であり、たとえば、予測上の原特徴の異なる効果を、明確に表現することができない。これは、標準カーネルに基づく方法を、モデル解釈性が高く要求される、マーケティングや健康管理のような応用分野において、魅力のないものにする。

Multiple kernel learning（ＭＫＬ）は、多重異種データ源を必然的に含む問題に対して設計される。加えて、ＭＫＬは、また、非特許文献１によって議論されているような、結果モデルのための解釈性を提供することができる。特に、カーネル関数は、ＭＫＬ内の多重サブカーネルの凸結合として考えられ、各サブカーネルは、特徴表現、たとえば、原特徴のサブ集合上で評価される。結合係数を最適化することによって、予測上の異なる特徴表現の効果を表現することができる。特許文献１は、物体識別のための機械学習を開示している。特許文献１は、機械学習手法として、知られた技術としてSupport Vector Machine（ＳＶＭ）を使用するＭＫＬの一例を記載している。

あいにく、標準的なカーネルに基づく方法は、（一般的に、データ事例の数において二次の）濃いカーネル行列の格納と計算コストのために、スケーラビリティ問題をこうむる。これは、多重カーネルを使用するときより悪い。何故なら、多重カーネル行列は、格納され、計算されなければならないからである。

最近、幾つかの技術が、カーネル方法のスケーラビリティ問題に取り組むために開発されている。それらの１つは、非特許文献２によって記載されている、乱択化フーリエ特徴関数（ＲＦＦ）と呼ばれる。ＲＦＦの重要なアイディアは、明示的に無作為に抽出された特徴マップを使用して、カーネル関数を直接的に近似することである。特徴マップが明示的に作られるので、大規模問題が、カーネル行列を計算することなく、効率的な線形アルゴリズムを利用することによって解決され得る。特許文献２は、ハッシュ関数の一例として、ＲＦＦを使用するハッシュ値へ写像するShift-Invariant Kernelsに基づくハッシュ関数を記載している。

スケーラビリティ問題のための救済策として、ＲＦＦは、標準ＭＫＬの複雑性を、データの事例の数において、二次から一次に低減することができる。しかしながら、ＭＫＬの通常の場合において、サブカーネルの数が大きくなるとき、コンピュータ計算的にまだ効率がよくない。

交互方向乗数法（ＡＤＭＭ）は、分散凸最適化に対する人気のあるアルゴリズムである。ＡＤＭＭは、大規模問題に対して特に魅力的である。何故なら、もし原問題がＡＤＭＭ形式に変換され得るなら、人手での問題を、並列に解決することが容易なサブ問題に解くことができるからである。ＡＤＭＭは非特許文献３によって、余すところなく概説されている。特許文献３は、最適化問題がＡＤＭＭと呼ばれる最適化の枠組を用いて解かれる、ランキング関数学習装置を開示している。

特開２０１５－００１９４１号公報特開２０１３－０６８８８４号公報特開２０１３－１１７９２１号公報

S. Sonnenburg, G. Raetsch, C. Schaefer, and B. Schoelkopfh in "large scale multiple kernel learning", Journal of Machine Learning Research, 7(1):1531-1565, 2006 A. Rahimi and B. Recht in "Random features for large-scale kernel machines", Advances in Neural Information Processing Systems 20, J.C. Platt, D. Koller, Y. Singer, and S.T. Roweis, Eds. Curran Associates, Inc., 2008, pp. 1177-1184 S. Boyd, N. Parikh, E. Chu, B. Peleato, and J. Eckstein in "Distributed optimization and statistical learning via the alternating direction method of multipliers", Foundations and Treads in Machine Learning, 3(1): 1-1122, 2011

本発明の目的は、標準的なカーネル学習の解釈可能性を、効率が良い分散最適化手法およびシステムによって扱うことにある。

標準的なカーネル学習において、カーネル関数は、暗黙の特徴マップの内積として規定される。しかしながら、それらの全ては、透明でない方法内のカーネル関数にパックされるため、特徴の異なる効果を解釈することが困難である。multiple kernel learning（ＭＫＬ）において、カーネル関数は、各サブカーネルがある特徴表現上で評価された状態で、サブカーネルの凸結合とみなされる。異なる特徴表現の効果を解釈するために、最適化問題が、サブカーネルの最適な結合を得るために解かれる。あいにく、この最適化プロセスは、通常、（一般的にはデータ事例の数の二次である）計算的に高価である、多重カーネル行列を伴う。乱択化フーリエ特徴関数（ＲＦＦ）は、カーネル近似の人気のある技術である。ＲＦＦにおいて、特徴マップは、効率が良い線形アルゴリズムがカーネル行列を計算するのを避けるために利用され得るように、明示的に作られる。ＲＦＦは、データ事例の数が大きいとき、標準的なカーネルに基づく方法のコンピュータ計算の問題を軽減し、すなわち、計算複雑性を、データ事例の数において、二次から一次に減少する。それにもかかわらず、もし大きい数の特徴表現の効果を解釈することが必要であるなら、より効率の良いコンピュータ計算の機構を必要とする。

本発明の一様態は、幾つかの構成要素およびステップから成り、それは、各データ事例を、解釈されるのが必要な特徴表現の集まりとして、前処理および表現し；データの特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するための前記設計したカーネル関数用の前記明示的な特徴マップを生成し；前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を凸最適化問題に定式化し；前記凸最適化問題を解いて、解釈可能な予測モデルを訓練するための最適解を得る。

本発明の典型的な効果は、解釈可能にまだ効率の良いカーネル学習を、分散方法において予測モデルを訓練するために導くことができることである。

解釈可能で効率の良いカーネル学習の概観フレームワークである、本発明の実施形態に係るカーネル学習装置の構造例を示すブロック図である。内側更新を持つＡＤＭＭに基づく最適化プロセスである、本発明の実施形態に係るカーネル学習装置の動作例を示すフロー図である。外側更新を持つＡＤＭＭに基づく最適化プロセスである、本発明の実施形態に係るカーネル学習装置の動作例を示すフロー図である。非凸最適化が、凸最適化でない局所最適問題を受ける、凸最適化問題と非凸最適化問題との間の差のトイ例を示す実例プロットである。予測タスクにおける特徴の重要度のランキングを示すグラフである。横軸が「MedInc」の量を表し、縦軸が家の価格用の寄与の部分的依存を表す、グラフである。横軸が「Latitude」の量を表し、縦軸が家の価格用の寄与の部分的依存を表す、グラフである。横軸と縦軸が相互作用効果を表す特徴の集合を示し、部分的寄与が色の明暗の変化で示される、グラフである。

本発明は、解釈可能で効率の良いカーネル学習の方法およびシステムを提供する。

図１は、本発明の実施形態に係るカーネル学習装置の構造例を示すブロック図である。この実施形態のカーネル学習装置１００は、データ前処理構成要素１０２と、明示的な特徴写像構成要素１０３と、凸問題定式化構成要素１０４と、交互方向乗数法（ＡＤＭＭ）変換構成要素１０５と、モデル訓練構成要素１０６とを含む。モデル訓練構成要素１０６は、分散計算システムと、ＡＤＭＭに基づくモデル訓練用のこのシステム実行計算における一群の計算ノード１０７とから成る。計算ノードには２種類あり、グローバルノード１０８と、幾つかのローカルノード１０９（１）、１０９（２）、．．．である。

データ前処理構成要素１０２は、データ事例１０１から特徴を抽出し、それらを特徴ベクトルとして表す。

を、Ｎ個のデータ事例に対する特徴ベクトルの集合であるとする。ここで、ベクトル

は、トータルでＤ個の特徴を持つ第ｉ事例を表す。さらに、データ前処理構成要素１０２は、それらの興味に従ってユーザによって指定された特徴表現の集まりを抽出してもよい。予測上のそれらの特徴表現の効果は、訓練されたモデル１１０に解釈されてよい。

を、第ｉデータ事例のためのＫ個の特徴表現の集合であるとする。ここで、ベクトル

は、サイズＤ^ｔを持つ原Ｄ特徴のサブ集合を含む。ｙ_ｉを、第ｉ事例のための対応する予測目標であるとする。もし、手近にタスクが回帰であるなら、そのとき次の式で表される。

もし、タスクが分類であるなら、そのとき次の式で表される。

例えば、家の価格の予測の状況において、ユーザは、居住者の所得、部屋の数、家の緯度および経度のような特徴を持ってよい。ユーザは、居住者の所得のような単一の特徴ばかりでなく、緯度と経度との間の交差の効果に興味があるかもしれない。この場合、ユーザは、緯度および経度を含む特徴表現のみを指定してもよく、予測上のその効果が、訓練されたモデル１１０に獲得されてもよい。

明示的な特徴写像構成要素１０３は、この特徴表現を、この実施形態において設計されるカーネル関数によって生成された非線形特徴空間に埋め込む。特に、このカーネル関数は、次式のように規定される。

ここで、

は、第ｋ特徴表現上で評価されたサブカーネルであり、そして、

であり、

は、最適化するためのサブカーネルの係数である。サブカーネル

は、乱択化フーリエ特徴関数（ＲＦＦ）によるガウスカーネルの近似であり、次式のような明示的な特徴マップを持つ。

標準的なカーネル学習において、特徴マップは、暗黙であり、カーネル行列は、最適化プロセス用のカーネル関数によって計算されなければなない。対照的に、式（１）における設計されたカーネル関数は、直接的には使用されず、代わりに、対応する特徴マップは、効率がよい線形アルゴリズムが最適化プロセスにおいて活用されるように、明示的に作られる。式（１）および式（２）に従って、設計されたカーネル関数用の明示的な特徴マップは、次のように書かれてよい。

そのため、

式（３）におけるこの明示的な特徴で、効率がよい線形アルゴリズムが、次の予測モデルを訓練するために利用されてよい。

ここで、

は、次のサブベクトルである。

凸問題定式化構成要素１０４は、式（４）における予測モデルを訓練する問題を、最適解が得られるところの、凸最適化問題として表現する。

式（４）における予測モデルは、次の最低化問題を解決するために訓練されてよい。

ここで、

は、凸損失関数である。問題（５）において、２乗の損失が、回帰タスク用に次が選択される。

しかし、手近にタスクに依存し、分類タスク用のヒンジ損失のような他の選択がある。

は、ｗに対して課せられ、λ＞０はそのパラメータである。βは式（１）における設計されたカーネル関数の規定により抑制される。すなわち、最適化問題（５）は２フェーズの代わりに単発の問題を公式化する。

しかしながら、問題（５）は、最適解を得るのが困難であることを意味する、現在の形式おいて非凸である。実例として、図４の上側のパネルは、トイ非凸関数を示す。これは、問題（５）の形式を、最適化が得られるところの、凸問題に変更することが望ましい。凸関数のトイ事例が、図４の下側のパネルに示される。

この問題を凸状にするために、

とする。そのとき、次の凸最適化問題が、最適解を得るために同等に解決されてよい。

ここで、

は、次のサブベクトルである。

上述したように、凸問題定式化構成要素１０４は、予測モデルを訓練するための非凸問題を、変数代入トリックを使用することによって明示的な特徴マップに基づいて、凸最適化問題に定式化するように構成される。

ＡＤＭＭ変換構成要素１０５は、問題（６）における凸問題をＡＤＭＭ形式に変換し、それから、モデル訓練構成要素１０６は、ＡＤＭＭ反復を実行するために、一群の計算ノード間の予測モデルを訓練するための計算を分配する。

問題（６）を効果的に解決するために、次の目的関数を交互に最小化することが便利である。

およびw.r.t.β。最初に、最小化

は、固定の実行可能βとみなされ、そして、問題（６）は、次のようなコンパクト形式に書かれる。

ここで、埋め込まれたデータの第ｋブロックは、

で、次のような第ｉ行を持ち、

そして、予測目標のベクトルは、

で、ｙ_ｉとして第ｉ要素を持つ。

問題（７）において、

は、次のサブベクトルに分離され、

損失関数および規則化項における同様の方法である。ここで、それは、次のようなＡＤＭＭ形式に表現され得る。

補助変数

を、次のサブベクトルとして持つ。

変数

は、それで、ＡＤＭＭにおける主要な変数と呼ばれる。

ところで、最適化問題は、問題（８）におけるとしてＡＤＭＭ形式を認めているので、それは、ＡＤＭＭアルゴリズムによって解決されてもよい。次の目盛りのある二重変数を持つ増加したラグランジュアン

は、問題（８）に対して、次のように組み立てられる。

それから、次のＡＤＭＭ反復が、収束のための停止基準が満たされるまで、実行されてよい。

ここで、全体の埋め込まれたデータの行列は、次である。

次が観察される。式（９）における

のステップと、式（１１）における

のステップは、並列して実行されてよい。この並列処理にされた場合において、ＡＤＭＭ反復は、次のように書かれる。

ＡＤＭＭ反復は、次の付加的な変数を導入することによってさらに単純にされてもよい。

それから、単純にされたＡＤＭＭ反復は、次のように誘導される。

ここで、

式（１５）における

のステップは、本質的に、並列に解決され得る、Ｋ独立背回帰問題を伴う。式（１６）における

のステップの解は、次の損失関数に依存する。

例えば、２乗損失の場合において、その解は、単純な閉じた形式を与え、ヒンジ損失の場合において、その解は、ソフト閾値技術を使用して解析的に得られてもよい。簡単なu-updateステップにおいて、次の二重変数のベクトル

は、単一の１つのｕによって取り替えられる。何故なら、それらの全ては等しいからである。

上記ＡＤＭＭアルゴリズムは、次の解を与える。

この

が固定されていると、βの解は、次の凸問題を解決することによって得られ、

それは、次の閉じた形式の解を持つ。

このβ-updateステップは、ＡＤＭＭ反復を内側又は外側でなされ、それぞれ、「内側更新」および「外側更新」と呼ばれる。

上述したように、ＡＤＭＭ変換構成要素１０５とモデル訓練構成要素１０６との組み合わせは、解釈可能な予測モデルを訓練するための最適解を得るために凸最適化問題を解決するように構成される、最適解解決構成要素として働く。

図２は、本発明の実施形態によるカーネル学習装置１００の動作例を示すフロー図である。このプロセスは、モデル訓練構成要素１０６においてＡＤＭＭに基づく最適化プロセス２００を内側更新でどのように実行するかを示している。最適化問題が式（８）としてＡＤＭＭ形式に変換された後、開始ステップ２０１に入る。それから、次のステップ２０２が、埋め込まれたデータを、特徴表現に従って、次のようなブロックに分割し、

そして、それらを計算ノード１０７に分配する。グローバルノード１０８は、サブカーネル係数βと、次のようなＡＤＭＭ変数を初期化する。すなわち、主要な変数

補助変数

および、二重変数

ばらまきステップ２０４において、グローバルノード１０８は、ローカルノード１０９と通信し、サブカーネル係数とＡＤＭＭ変数の情報を共有する。ステップ２０５は、ローカルノード間で並列に実行され、式（１５）に従って主要な変数を更新するために解を計算する。集めるステップ２０６において、グローバルノード１０８は、更新した主要変数の全てを集め、式（１８）におけるように、サブカーネル係数の解を計算する。それから、グローバルノード１０８は、最適なβがステップ２０８においてある基準に従って得られるかをチェックし、もしそうでなければ、プロセスをステップ２０４に戻し、それ以外なら、ステップ２０９に進んで、式（１６）および式（１７）におけるように、グローバルノード上で補助変数および二重変数を更新する。ステップ２１０において、グローバルノードは、ＡＤＭＭの停止基準が満たされるかをチェックし、もしそうでなければ、プロセスをステップ２０４に戻し、それ以外なら、終了ステップ２１１に進んで、サブカーネル係数とＡＤＭＭ変数の最終的な解を持つ訓練されたモデル１１０を出力する。

図３は、本発明の実施形態によるカーネル学習装置１００の動作例を示すフロー図である。このプロセス３００は、内側更新の代わりに外側更新を持つ、プロセス２００の代案である。プロセス３００において、ステップ３０１、３０２、３０３、３０４、３０５、および３０６が、まず、プロセス２００におけるのと同様に実行される。それから、ステップ３０７において、グローバルノード１０８は、式（１６）および式（１７）に従って、補助変数および二重変数を更新する。ステップ３０８において、グローバルノード１０８は、ＡＤＭＭの停止基準が満たされているかをチェックし、もしそうでなければ、プロセスをステップ３０４に戻し、それ以外の場合には、ＡＤＭＭ反復から外へ出て、ステップ３０９に進み、式（１８）におけるように、グローバルノード１０８上でサブカーネル係数の解を計算する。それから、グローバルノード１０８は、最適なβがステップ３１０においてある基準に従って得られるかをチェックし、もしそうでなければ、プロセスをステップ３０４に戻し、それ以外の場合には、終了ステップ３１１に進んで、サブカーネル係数とＡＤＭＭ変数の最終的な解を持つ訓練されたモデル１１０を出力する。

プロセス２００とプロセス３００との間の主な差異は、サブカーネル係数βが更新されるときである。プロセス２００において、β-updateステップは、内側ＡＤＭＭ反復である。これは、次の主要変数

とサブカーネル係数βとを二者択一的に更新するとき、グローバルノード１０８とローカルノード１０９との間で数回の通信を必要とする。他方、β-updateステップは、プロセス３００において外側ＡＤＭＭ反復である。しかしながら、新しいが最適でないβがステップ３０９において得られるたびに、ＡＤＭＭ反復の新しい出来事がステップ３０４から再始動されなければならない。プロセス２００における間、ＡＤＭＭ反復のたった１つの出来事がある。

カーネル学習装置１００のそれぞれの構成要素は、ハードウェアとソフトウェアとの組み合わせを使用することによって実現され得る。ハードウェアとソフトウェアとが互いに組み合わされた形態において、カーネル学習装置１００のそれぞれの構成要素は、ＲＡＭ（ランダムアクセスメモリ）にカーネル学習プログラムを展開し、そのカーネル学習プログラムに基づいて制御部（ＣＰＵ：中央処理装置）等のハードウェアを動作させることによって、各種の手段として実現される。加えて、カーネル学習プログラムは、記録媒体に記録された状態で頒布されてもよい。記録媒体に記録されたカーネル学習プログラムは、有線、無線、または記録媒体それ自体を介してメモリに読み出され、制御部等を動作させる。記録媒体としては、光ディスク、磁気ディスク、半導体記録装置、ハードディスクなどが挙げられる。

上記実施形態を別の表現で表すとすれば、実施形態は、カーネル学習装置１００として働くコンピュータを、ＲＡＭに展開されたカーネル学習プログラムに基づいて、データ前処理構成要素１０２、明示的な特徴写像構成要素１０３、凸問題定式化構成要素１０４、および最適解解決構成要素（ＡＤＭＭ変換構成要素１０５およびモデル訓練構成要素１０６）として動作させることで実現されてよい。

次に、図面を参照して、本発明の一実施例について説明する。図示の例において、本実施例は、予測目標ｙとして、たとえば、カルフォルニア住宅データセットに基づいて、家の価格を予測するための予測タスクの例である。カルフォルニア住宅データセットが、Ｄ個の特徴として、次の表１で表されるような第１乃至第８の特徴ｘ１～ｘ８を持っているとする。すなわち、図示の例において、Ｄは８に等しい。

カルフォルニア住宅データセットが訓練されたモデル１１０に供給されると、訓練されたモデル１１０は、図５に図示されるような、予測タスクにおける特徴用の重要度を生成する。図５から明らかなように、”MedInc”および”Latitude”の特徴が、家の価格を予測する際に重要であることを確認することができる。

さらに、訓練されたモデル１１０は、図６および図７に示されるような、２つの図面を更に生成する。図６および図７の各々において、横軸は、単一の特徴を特徴の数値を表し、縦軸は、部分的な依存関係を表す。

詳述すると、図６は、横軸が”MedInc”の量を表し、縦軸が家の価格のための寄与の部分的な依存関係を表すグラフを示す。図６からわかるように、家の価格の部分的な依存関係が、”MedInc”の量が多くなると改善されることを確認することができる。

図７は、横軸が”Latitude”の量を表し、縦軸が家の価格のための部分的な依存関係を表すグラフを示す。

そのうえ、訓練されたモデル１１０は、図８に示されるように、相互作用効果を表す特徴用の部分的な依存関係の視覚化された例を表す説明図を更に生成する。図８は、横軸および縦軸が相互作用効果を表す特徴の集合を表し、部分的な依存関係が色の陰影の変化で示される、グラフを示す。図示の例において、図８のグラフにおいて、横軸は”Longitude”の特徴を表し、縦軸は”Latitude”の特徴を表し、陰影が家の価格用の部分的な依存関係を表す。

この構成によれば、ユーザは、意思決定として、予測された売り値と依存関係とを使用することができる。例えば、ユーザは、訓練されたモデル１１０の出力に基づいて、家の価格の最適な売り戦略を決定することができる。

実施形態を参照して本発明を説明したが、本発明はその実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。例えば、上記実施形態では、最適解解決構成要素がＡＤＭＭ変換構成要素１０５とモデル訓練構成要素１０６との組み合わせから構成されているが、最適解解決構成要素は、他の解決構成要素から選択された任意の一つによって実現されてよい。より具体的に言うと、ＡＤＭＭ変換構成要素１０５は省略されてもよい。この場合、最適解解決構成要素は、ＡＤＭＭを除くモデル訓練構成要素のみによって実現される。

１００カーネル学習装置
１０１データ事例
１０２データ前処理構成要素
１０３明示的な特徴写像構成要素
１０４凸問題定式化構成要素
１０５ＡＤＭＭ変換構成要素
１０６モデル訓練構成要素
１０７計算ノード
１０８グローバルノード
１０９（１）、１０９（２）ローカルノード
１１０訓練されたモデル

Claims

各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現するように構成されたデータ前処理回路部と、
データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成するように構成された明示的な特徴写像回路部と、
前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化するように構成された凸問題定式化回路部と、
前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得るように構成された最適解解決回路部と、
を備えるカーネル学習装置。
前記明示的な特徴写像回路部は、乱択化フーリエ特徴関数（ＲＦＦ）によって直接的に前記カーネル関数を近似するように構成されている、
請求項１に記載のカーネル学習装置。
前記最適解解決回路部は、
前記凸最適化問題を、サブ問題を分離してかつ効率的に解決できる、交互方向乗数法（ＡＤＭＭ）形式に変換するように構成されたＡＤＭＭ変換回路部と、
前記解釈可能な予測モデルを訓練するために分散した形式で一群の計算ノード上で収束するまで、ＡＤＭＭ反復を実行するように構成されたモデル訓練回路部と、
を備える、請求項１又は２に記載のカーネル学習装置。
前記モデル訓練回路部は、前記ＡＤＭＭ反復を内側更新で実行する、請求項３に記載のカーネル学習装置。
前記モデル訓練回路部は、前記ＡＤＭＭ反復を外側更新で実行する、請求項３に記載のカーネル学習装置。
コンピュータが、
各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現し、
データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成し、
前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化し、
前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得る、
カーネル学習方法。
前記コンピュータが、
前記カーネル関数の設計を、乱択化フーリエ特徴関数（ＲＦＦ）によって直接的に前記カーネル関数を近似することで実行する、請求項６に記載のカーネル学習方法。
前記コンピュータが、
前記凸最適化問題の解決を、
前記凸最適化問題を、サブ問題を分離してかつ効率的に解決できる、交互方向乗数法（ＡＤＭＭ）形式に変換し、
前記解釈可能な予測モデルを訓練するために分散した形式で一群の計算ノード上で収束するまで、ＡＤＭＭ反復を実行する、
ことで実行する、請求項６又は７に記載のカーネル学習方法。
コンピュータに、
各データ事例を、解釈されるために必要な特徴表現の集まりとして前処理し表現するステップと、
データの前記特徴表現を非線形特徴空間に埋め込むために、明示的な特徴マップを持つカーネル関数を設計して、予測モデルを訓練するために前記設計したカーネル関数用の前記明示的な特徴マップを生成するステップと、
前記明示的な特徴マップに基づいて、前記予測モデルを訓練するための非凸問題を、凸最適化問題に定式化するステップと、
前記凸最適化問題を解決して、解釈可能な予測モデルを訓練するための最適解を得るステップと、
を実行させるカーネル学習プログラム。