JP2023067596A

JP2023067596A - パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム

Info

Publication number: JP2023067596A
Application number: JP2021178991A
Authority: JP
Inventors: 安則田口; Yasunori Taguchi
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2023-05-16
Also published as: US20230138810A1; US11922165B2

Abstract

【課題】パラメータベクトル値の探索効率の向上と計算コストの削減とを実現する。【解決手段】記憶部は、Ｄ（Ｄ≧２）次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する。探索空間決定部は、前記Ｄ次元空間において所定のパラメータベクトル値が表す点を通るＲ（１≦Ｒ＜Ｄ）次元アフィン部分空間を低次元探索空間として決定する。抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出する。提案部は、前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する。【選択図】図１

Description

本発明の実施形態は、パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムに関する。

社会には、様々な装置や機器、アプリケーションソフトウェアがあり、それらは様々な部品から構成されている。これら装置や機器、アプリケーションソフトウェア、部品は、設計され、製造され、活用される。

設計段階においては、特性が仕様を満たす装置や機器、アプリケーションソフトウェア、部品が設計される場合がある。この際、設計時に調整できる１つ以上のパラメータを要素に持つパラメータベクトルを様々な値に変更し、シミュレーションや実験、アンケートを実施することで、それらのパラメータベクトル値で設計したときの特性を数値で表した特性値を取得し、その特性値が仕様を満たすパラメータベクトル値を求める。ここで、特性は例えば、装置や機器、アプリケーションソフトウェア、部品の性能や製造コスト、顧客満足度である。機器や部品の性能は良いほど好ましく、製造コストは低いほど好ましく、顧客満足度は高いほど好ましい。特性値が大きいほど良い場合は、その特性値を最大化するパラメータベクトル値を少ない時間や手間、費用で求めることが要求される。特性値が小さいほど良い場合は、その特性値を最小化するパラメータベクトル値を少ない時間や手間、費用で求めることが要求される。

特性値が最大又は最小となるパラメータベクトル値を求めることは、パラメータ最適化と呼ばれる。パラメータベクトル値に応じて変化する特性値は、目的関数と呼ばれる。シミュレーションや実験、アンケートは、目的関数の値、すなわち、特性値を観測する手段である。各パラメータベクトル値に関する特性値は、シミュレーションや実験、アンケートを実行して特性値を観測するまでわからず、目的関数は未知である。多くの場合、特性値、すなわち、目的関数の値を観測する際にノイズが加わる。

製造段階においても、パラメータ最適化が用いられる場合がある。例えば、製造時の歩留まりを最大化するパラメータベクトル値を求めたり、出荷後の故障率を最小化するパラメータベクトル値を求めたりする場合がある。

活用段階においても、パラメータ最適化が用いられる場合がある。例えば、ユーザの手元に届いた装置や機器、アプリケーションソフトウェア、部品が、ユーザの利用環境において最大限の性能を発揮するパラメータベクトル値をユーザによる初期設定時に求める場合がある。

調整するパラメータの数をＤで表すと、パラメータベクトルの次元はＤである。あるＤ次元パラメータベクトル値は、Ｄ次元空間内の１つの点とみなせる。したがって、最適なＤ次元パラメータベクトル値を探索する空間は、Ｄ次元空間である。Ｄ次元パラメータベクトルに上限値や下限値が設けられていない場合、最適なＤ次元パラメータベクトル値を探索する範囲は、Ｄ次元空間の全体である。Ｄ次元パラメータベクトルに上限値や下限値が設けられている場合、すなわち、Ｄ次元パラメータベクトルに定義域がある場合、最適なＤ次元パラメータベクトル値を探索する範囲は、Ｄ次元空間内のその定義域である。Ｄが大きいほど、探索空間も探索範囲も広くなるため、最適化が困難である。

特願２０２０－１８５２９１号

J. Kirschner, M. Mutny, N. Hiller, R. Ischebeck, and A. Krause,"Adaptive and safe Bayesian optimization in high dimensions via one-dimensional subspaces," in Proceedings of the 36th International Conference on Machine Learning, vol. 97, pp. 3429－3438, PMLR, 2019.

以降、Ｄ次元パラメータベクトル値を、単にパラメータベクトル値と省略して記す場合がある。また、定義域の記述は省略する。定義域の記述を省略した場合であっても、探索範囲は、定義域内に限定されるものとする。

パラメータ最適化方式として、非特許文献１の手法がある。この手法は、Ｄが２以上の整数である場合向けのベイズ最適化方式であり、Ｄが大きい場合の探索効率が良いことで知られている。この手法では、探索空間をＤ次元空間中の１次元空間に限定し、その１次元探索空間を切り替えながら、次に目的関数の値を観測すべき点の提案と、提案した点における目的関数の値の観測を反復する。ここで、前述の通り、点とは、Ｄ次元パラメータベクトル値である。目的関数の値を観測する点を観測点と呼ぶ。

観測点の提案においては、未知の目的関数の代わりに獲得関数を生成し、その獲得関数の値が最大の点を、目的関数の値が最小になる可能性がある候補点として提案する。獲得関数は、ガウス過程回帰に基づいて計算される。以下では、ガウス過程回帰を、ＧＰ回帰と省略して記す。

ＧＰ回帰では、目的関数の値を観測済みの１つ以上の点と、その１つ以上の点における目的関数の観測値を利用し、未観測の点における目的関数の値を予測する。その際、逆行列の計算が必要である。

逆行列の計算オーダーは、Ｏ（Ｎ^３）である。ここで、Ｎは、目的関数の値を観測済みの点の数を表す。提案と観測の反復回数が増加し、Ｎが増加すると、逆行列の計算コストが大きくなる。

それに対し、特許文献１の手法では、目的関数の値を観測済みのＮ点のうち、ＧＰ回帰に活用する点を、空間の次元がＤよりも低い低次元探索空間までの距離が所定の閾値以下の点に限定する。

限定した結果の点の数をＮ´で表すと、逆行列の計算の計算オーダーは、Ｏ（Ｎ´^３）である。これにより、逆行列の計算コストが削減される。

しかし、特許文献１の手法には、低次元探索空間までの距離に対する所定の閾値を決定する方式が示されていない。ＧＰ回帰による各点における目的関数の値の予測精度は、目的関数の値を観測済みのＮ点のうちでどの点を活用するかで変化する。予測精度への影響が大きい点を活用しなければ、予測精度が劣化する。したがって、低次元探索空間までの距離に対する所定の閾値でＧＰ回帰に利用する点を一律の閾値で決定すると、予測精度が劣化する場合がある。予測精度が劣化した場合、パラメータベクトル値の探索効率が劣化する可能性が高い。逆行列の計算コストを削減するために、探索効率を劣化させるのは、本末転倒である。

本発明が解決しようとする課題は、パラメータベクトル値の探索効率の向上と計算コストの削減とを実現するパラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムを提供することである。

実施形態に係るパラメータベクトル値提案装置は、Ｄ（Ｄは２以上の整数）次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部と、前記Ｄ次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定する探索空間決定部と、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出する抽出部と、前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する提案部と、を具備する。

本実施形態に係るパラメータ最適化システムの機能構成例を示す図本実施形態に係るパラメータ最適化システムによるパラメータ最適化処理の流れを示す図図２に示すパラメータ最適化処理のうちのパラメータベクトル値提案装置による処理の疑似プログラムコードを示す図Ｄ＝２の場合のＤ次元空間において、７つの観測点で目的関数の値が観測済みの状態を表す図変形例９に係るパラメータ最適化システムの機能構成例を示す図図２に示すパラメータ最適化処理に対応し、変形例１０に係る疑似プログラムコードを示す図パラメータベクトル値提案装置のハードウェア構成例を示す図

以下、図面を参照しながら本実施形態に係わるパラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムを説明する。

図１は、本実施形態に係るパラメータ最適化システム１の機能構成例を示す図である。図１に示すように、パラメータ最適化システム１は、パラメータベクトル値提案装置１００と観測装置２００とを有するコンピュータシステムである。パラメータベクトル値提案装置１００と観測装置２００とは、有線又は無線を介して通信可能に接続されている。パラメータベクトル値提案装置１００は、次に目的関数の値を観測すべきパラメータベクトル値（提案点）を提案するコンピュータである。観測装置２００は、提案点における目的関数の値を観測することで、提案点における目的関数の観測値を取得する。観測は、具体的には、パラメータ値に基づくシミュレーションや実験、アンケート等により行われる。パラメータ最適化システム１は、パラメータベクトル値提案装置１００による提案点の提案と観測装置２００による提案点における目的関数の観測値の取得とを繰り返し、最小の観測値に対応するパラメータベクトル値（観測点）を最適点として外部に出力する。以降、目的関数の観測値は、単に観測値と省略して記す場合がある。

パラメータ最適化は、目的関数の値を最大化したい場合と最小化したい場合とがある。最大化は、目的関数の値に－１を掛け算することにより最小化問題と等価になる。説明を簡単にするために、以下では、目的関数の値を最小化するパラメータベクトル値を求める場合で説明する。ただし、本実施形態のパラメータ最適化が、最小化の場合に限定されるわけではない。本実施形態のパラメータ最適化は、目的関数の値を最大化する問題にも適用できる。

図１に示すように、パラメータベクトル値提案装置１００は、記憶部１０１、探索空間決定部１０２、抽出部１０３、提案部１０４及び制御部１０５を有する。

記憶部１０１は、Ｄ次元パラメータベクトル値と、当該Ｄ次元パラメータベクトル値に対応する目的関数の観測値との組の集合を記憶する。当該集合のデータを観測データと呼ぶ。パラメータベクトル値は、Ｄ（Ｄは２以上の自然数）次元空間における点を表す。観測値は、観測装置２００により、対応するＤ次元パラメータベクトル値に基づいて、シミュレーションや実験、アンケート等を用いて得られる。

探索空間決定部１０２は、Ｄ次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定する。所定のパラメータベクトル値は、例えば、記憶部１０１に含まれる複数の観測値のうちの最良の観測値、例えば、最小値が採用される。当該観測値を最良観測値と呼ぶ。

抽出部１０３は、記憶部１０１に記憶された観測データに含まれる１つ以上のパラメータベクトル値が表すＤ次元空間中の１つ以上の点のうち、低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出する。

提案部１０４は、抽出データに基づいて、前記目的関数の値を次に観測する点（パラメータベクトル値）を表すパラメータベクトル値を提案する。その点を提案点と呼ぶ。提案点における目的関数の値が観測装置２００により観測され、提案点に対応する観測値が取得される。提案点（パラメータベクトル値）と当該提案点に対応する観測値との組は、記憶部１０１に記憶される。

制御部１０５は、パラメータベクトル値提案装置１００を統括的に制御する。具体的には、制御部１０５は、記憶部１０１による観測データの記憶と、探索空間決定部１０２による探索空間の決定と、抽出部１０３による抽出データの抽出と、提案部１０４による提案点の提案を、観測装置２００による観測値の取得に応じて、終了条件を満たすまで反復するように制御する。制御部１０５は、観測装置２００による観測値の取得に応じて制御するために、その観測値の記憶部１０１による受理を監視する機能や、提案部１０４による提案点のパラメータベクトル値提案装置１００外への送信を監視する機能を有する。反復終了時において最適な点（パラメータベクトル値）を最適点と呼ぶ。最適点は、制御部１０５によりパラメータベクトル値提案装置１００とは異なる外部装置に提供される。

図２は、本実施形態に係るパラメータ最適化システム１によるパラメータ最適化処理の流れを示す図である。図３は、図２に示すパラメータ最適化処理のうちのパラメータベクトル値提案装置による処理の疑似プログラムコードを示す図である。図２及び図３に示すパラメータ最適化は、制御部１０５による記憶部１０１、探索空間決定部１０２、抽出部１０３及び提案部１０４に対する制御のもとに実行される。

図２に示すように、まず、制御部１０５は、パラメータベクトル値提案装置１００の初期化を実行する（Ｓ２０１）。制御部１０５は、Ｓ２０１の開始時に図３のＳ３０１に示す通り、時刻ｔを０に設定し、Ｓ２０１の終了時に時刻ｔを１に設定する。時刻ｔはパラメータ最適化処理に使用する時刻であり、図２の処理ループにおける処理が何回目かを表す。

また、Ｓ２０１において制御部１０５は、記憶部１０１を初期化し、後述の観測データを抽出部１０３に送る。初期化としては、Ｄ次元パラメータベクトル値と当該Ｄ次元パラメータベクトル値に対応する目的関数の観測値との組を少なくとも１つ以上、記憶部１０１に記憶する。

Ｓ２０１に限らず、時刻ｔにおいて記憶部１０１に記憶する処理を実施した結果として記憶部１０１に記憶された組の数をＮ_ｔで表す。この定義から、時刻が０のＳ２０１で１つ以上の組を記憶した後の記憶部１０１に記憶された組の数は、Ｎ_０であり、１以上の整数である。

時刻０において記憶部１０１に記憶されたＮ_０個のＤ次元パラメータベクトル値をｘ_ｎ（ｎ＝０，１，…，Ｎ_０－１）で表し、ｘ_ｎに関する目的関数の観測値をｙ_ｎ（ｎ＝０，１，…，Ｎ_０－１）で表す。なお、Ｄ次元パラメータベクトル値ｘ_ｎはベクトルであり、観測値ｙ_ｎはスカラーである。Ｄ次元パラメータベクトル値ｘに関する目的関数の観測値ｙは、ｙ＝ｆ（ｘ）＋εで表される。ここで、ｆは目的関数を表し、εは目的関数の値を観測した際のノイズ成分を表す。εは、例えば、平均０、標準偏差σのガウス分布に従う。ノイズ成分がない場合を考える場合は、σを０とみなせば良い。

Ｓ２０１に限らず、時刻ｔにおいて記憶部１０１に記憶されたＮ_ｔ個の組の集合Ｄ_ｔは、下記（１）式で表される。Ｄ_ｔを時刻ｔにおける観測データと呼ぶ。

時刻０のＳ２０１における初期化後の記憶部１０１に記憶されている観測データＤ_０は、図３のＳ３０２に示すように、下記（２）式で表される。Ｓ３０１において観測データＤ_０は、記憶部１０１から抽出部１０３に供給される。

観測データＤ_０は、Ｓ２０１よりも前に観測済みのデータのみから構成されても良いし、Ｓ２０１のために定義域内でランダムに各ｘ_ｎ（ｎ＝０，１，…，Ｎ_０－１）を決定し、各ｘ_ｎに対応するｙ_ｎを観測装置２００によって観測することで構成しても良いし、それらが混合されたものであっても良い。

図３のＳ３０３に示すように、時刻ｔ＝１，２，…，Ｔについて、以後のＳ２０２～Ｓ２０７が反復される。Ｔは予め定められる時刻ｔの上限値である。

Ｓ２０１が行われると探索空間決定部１０２は、探索空間を決定する（Ｓ２０２）。具体的には、Ｓ２０２において探索空間決定部１０２は、低次元探索空間Ｓ_ｔを決定し、抽出部１０３に供給する。低次元探索空間Ｓ_ｔの次元数をＲ_ｔで表す。Ｒ_ｔは、１以上Ｄ次元未満の次元数を有する整数であり、１≦Ｒ_ｔ＜Ｄを満たす整数である。Ｒ_ｔの値は、時刻ｔに応じて変化させても良いし、時刻ｔによらず一定としても良い。Ｒ_ｔの値は、予め定めた値でも良いし、ランダムに定めた値でも良い。

低次元探索空間Ｓ_ｔを決定するために、探索空間決定部１０２は、記憶部１０１から最良観測点を取得する。ここで、最良観測点は、記憶部１０１に記憶されている観測データＤ_ｔ－１に含まれる観測値の集合｛ｙ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１｝のうちの最小の観測値に対応する観測点である。この最小の観測値をｙ_ｂｔ－１で表し、ｙ_ｂｔ－１に対応する最良観測点をｘ_ｂｔ－１で表す。ｂ_ｔ－１は、図３のＳ３０４に示すように、下記（３）式で表されるインデックスである。

Ｓ２０２において探索空間決定部１０２は、図３のＳ３０６に示すように、最良観測点ｘ_ｂｔ－１を通る低次元探索空間Ｓ_ｔを決定する。ここで、低次元探索空間Ｓ_ｔは、Ｒ_ｔ次元アフィン部分空間である。Ｓ_ｔは、下記（４）式で表される。ｘ_ｂｔ－１は、Ｓ_ｔの位置ベクトルである。Ｕ_ｔは、Ｒ_ｔ次元アフィン部分空間Ｓ_ｔに付随するＲ_ｔ次元線型部分空間である。

低次元探索空間Ｓ_ｔ、すなわち、Ｒ_ｔ次元アフィン部分空間Ｓ_ｔは、図２のループにおける時刻ｔに応じて変化する。ｘ_ｂｔ－１またはＵ_ｔが時刻ｔに応じて変化することで、Ｓ_ｔも変化する。後述する通り、観測データには、時刻が進む度に要素が追加されるため、最良観測点ｘ_ｂｔ－１も時刻ｔに応じて変化する可能性がある。Ｕ_ｔは、Ｒ_ｔが時刻ｔに応じて変化すると変化する。Ｒ_ｔが時刻ｔによらず一定値の場合でも、Ｕ_ｔは、時刻ｔに応じて線型部分空間の方向を変化させることで変化する。

Ｓ２０２が行われると抽出部１０３は、抽出処理を実行する（Ｓ２０３）。Ｓ２０３において抽出部１０３は、時刻ｔにおいて、記憶部１０１から受け取った観測データＤ_ｔ－１に含まれる観測点の集合｛ｘ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１｝のうち、低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´に対する類似度が所定の値Ｔ_ｔ以上である１つ以上の点に対応する組を記憶部１０１から抽出する。抽出された組は、提案部１０４に供給される。なお、抽出部１０３が記憶部１０１に問い合わせる際のクエリは、図１において図示を省略してある。

低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´としては、例えば、観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）によらずＳ_ｔ内の同一の点を採用する。観測点ｘ_ｎの所定の点ｘ´に対する類似度は、ｋ（ｘ_ｎ，ｘ´）で計算される。ここで、ｋ（・，・）は、２点間の類似度を評価するカーネル関数である。カーネル関数としては、linearカーネル、squared exponentialカーネル、exponentialカーネル、Matern 3/2カーネル、Matern 5/2カーネル、rational 1uadraticカーネル、ARD squared exponentialカーネル、ARD exponentialカーネル、ARD Matern 3/2カーネル、ARD Matern 5/2カーネル、ARD Rational Quadraticカーネル等が知られている。カーネル関数としては、これらのいずれかを採用してもよいし、これらとは別のカーネル関数を採用したりしてもよい。カーネル関数には、ハイパーパラメータが含まれる場合がある。ハイパーパラメータの値としては、事前に定めた値を採用しても構わないし、観測データ、あるいは、後述の抽出データから推定しても構わない。

図３のＳ３０７で示すように、時刻ｔにおいて抽出部１０３は観測データＤ_ｔ－１から抽出する組の集合Ｅ_ｔを抽出する。Ｅ_ｔを抽出データと呼ぶ。Ｓ３０７に示すように、抽出データＥ_ｔは、下記（５）式で表される。

抽出データＥ_ｔの要素数をＮ´_ｔで表す。Ｔ_ｔの値次第で、Ｎ´_ｔは変化し、０以上Ｎ_ｔ－１以下の値をとる。Ｔ_ｔとしては、Ｎ´_ｔが１以上となる値を採用する。例えば、Ｎ_ｔ－１個のｋ（ｘ_ｎ，ｘ´）（ｎ＝０，１，…，Ｎ_ｔ－１－１）を計算し、その中のいずれか１つのｋ（ｘ_ｎ，ｘ´）をＴ_ｔに設定すれば、Ｎ´_ｔが１以上になることが保証される。Ｎ´_ｔがＮ_ｔ－１と等しいとき、Ｅ_ｔはＤ_ｔ－１に等しい。以降は、Ｎ´_ｔが１以上Ｎ_ｔ－１以下であるものとして説明する。

所定の点ｘ´としては、観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）によらずＳ_ｔ内の同一の点を採用するのではなく、観測点ｘ_ｎごとに異なる点を採用しても良い。例えば、観測点ｘ_ｎを低次元探索空間Ｓ_ｔに正射影した点を所定の点ｘ´として採用しても良い。この場合の所定の点ｘ´は、下記（６）式で表される。ここで、Ｐ_Ｓｔは、Ｄ次元空間内の点を低次元探索空間Ｓ_ｔに正射影した点を返す関数である。

関数Ｐ_Ｓｔは、下記（７）式で表される。Ｉ_Ｄは、Ｄ行Ｄ列の単位行列を表す。Ｐ_Ｕｔは、Ｒ_ｔ次元線型部分空間Ｕ_ｔへの正射影行列を表す。

この場合であっても、Ｎ´_ｔが１以上となるＴ_ｔを設定できる。この場合、抽出部１０３が観測データＤ_ｔ－１から抽出したＮ´_ｔ個の観測データの集合Ｅ_ｔは、下記（８）式で表される。この場合、（８）式のＥ_ｔで、図３のＳ３０７に示すＥ_ｔを置き換えることが可能である。

所定の点ｘ´としては、低次元探索空間Ｓ_ｔにおける位置を陽には定めず、低次元探索空間Ｓ_ｔにおけるある点ｘ´と定義しても構わない。この場合であっても、Ｎ´_ｔが1以上となるＴ_ｔを設定できる。低次元探索空間Ｓ_ｔに含まれる点ｘ´に対して類似度ｋ（ｘ_ｎ，ｘ´）がＴ_ｔ以上であることは、低次元探索空間Ｓ_ｔに含まれる全ての点ｘ´に対する類似度ｋ（ｘ_ｎ，ｘ´）の最大値、すなわち、最大類似度がＴ_ｔ以上であることと等価であるから、下記（９）式が成立する。この場合、（９）式のＥ_ｔで、図３のＳ３０７に示すＥ_ｔを置き換えることが可能である。すなわち、抽出部１０３は、記憶部１０１に記憶された観測データＤ_ｔ－１に含まれる１つ以上のパラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点ｘ´のうち、低次元探索空間Ｓ_ｔに含まれる全ての点ｘ_ｎに対する類似度ｋ（ｘ_ｎ，ｘ´）の最大値である最大類似度が所定の値Ｔ_ｔ以上である１つ以上の点に対応する組の集合を抽出データＥ_ｔとして抽出する。

採用するカーネル関数がsquared exponentialカーネル関数やARD squared exponentialカーネル関数である場合等、カーネル関数次第では、下記（１０）式が成立する。この場合、（１０）式のＥ_ｔで、図３のＳ３０７に示すＥ_ｔを置き換えることが可能である。

２点ｘ_ｉ及びｘ_ｊに関するsquared exponentialカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）は、下記（１１）式で表される。θ_σ，θ_ｌは、それぞれ信号標準偏差（signal standard deviation）、スケール長（length scale）と呼ばれるハイパーパラメータである。θ_σ，θ_ｌはそれぞれ、値が０より大きい必要がある。

（１１）式に示す定義式から、下記（１２）式が成り立つ。

２点ｘ_ｉ及びｘ_ｊに関するARD squared exponentialカーネル関数ｋ（ｘ_ｉ，ｘ_ｊ）は、下記（１３）式で表される。ここで、θ_ｌは、ハイパーパラメータであり、Ｄ次元空間の各座標軸方向に対するスケール長を要素に持つＤ次元スケール長ベクトルを表す。・_［ｄ］（ｄ＝０，１，…，Ｄ－１）は、ベクトルの第ｄ要素を表す。

（１３）式に示す定義式から、下記（１４）式が成り立つ。

Ｓ２０３が行われると提案部１０４は、提案処理を実行する（Ｓ２０４）。時刻ｔにおけるＳ２０４において提案部１０４は、抽出部１０３から受け取った抽出データＥ_ｔを活用し、目的関数の値を次に観測すべき点を提案し、記憶部１０１に送り、パラメータベクトル値提案装置１００の外部に出力する。時刻ｔにおけるＳ２０３の段階で記憶部１０１に記憶されている観測データＤ_ｔ－１に含まれる観測点はｘ_０，ｘ_１，・・・，ｘ_{Ｎｔ－１－１}であるため、次に観測すべき点のインデックスとしてはＮ_ｔ－１を採用し、提案部１０４が提案する点をｘ_Ｎｔ－１で表す。このｘ_Ｎｔ－１を提案点と呼ぶ。

図３のＳ３０８に示すように、提案部１０４は、未知の目的関数の特徴をとらえた代理モデルから獲得関数を構築し、低次元探索空間Ｓ_ｔの中で獲得関数の値が最大の点を提案点ｘ_Ｎｔ－１に設定する。提案点ｘ_Ｎｔ－１は、下記（１５）式で表される。ａ_ｔ（ｘ｜Ｅ_ｔ）は、抽出データＥ_ｔに基づく代理モデルから定義される獲得関数である。

ここで、代理モデルとしては、例えば、ＧＰ回帰モデルやランダムフォレストモデル等を採用する。獲得関数ａ_ｔとしては、例えば、Lower Confidence Bound(LCB)やExpected Improvement(EI)、Probability of Improvement(PI)、Mutual Information(MI)、Predictive Entropy Search(PES)、Max-value Entropy Search(MES)等を採用する。

低次元探索空間Ｓ_ｔの中で獲得関数の値が最大の点は、例えば、Ｓ_ｔの中で複数の点を設定し、それらの点の中で獲得関数ａ_ｔの値が最大の点を選択することで求められる。あるいは、L-BFGS法等の最適化手法を用いて求められる。

Ｓ２０４が行われると観測装置２００は、観測処理を実行する（Ｓ２０５）。時刻ｔにおけるＳ２０５において観測装置２００は、提案部１０４からネットワーク等を介して提案点ｘ_Ｎｔ－１を取得し、提案点ｘ_Ｎｔ－１に基づいて観測値ｙ_Ｎｔ－１を観測する。観測値ｙ_Ｎｔ－１は、ネットワークを介してパラメータベクトル値提案装置１００に供給される。

観測値ｙ_Ｎｔ－１は、提案点ｘ_Ｎｔ－１に関する目的関数ｆの観測値である。図３のＳ３０９に示すように、観測値ｙ_Ｎｔ－１は、記憶部１０１に取得される。観測値ｙ_Ｎｔ－１は、下記（１６）式で表される。ε_Ｎｔ－１は、時刻ｔにおける観測値ｙ_Ｎｔ－１に含まれるノイズ成分を表す。

Ｓ２０５が行われると記憶部１０１は、更新処理を実行する（Ｓ２０６）。時刻ｔにおけるＳ２０６において記憶部１０１は、提案部１０４から供給された観測点ｘ_Ｎｔ－１と、観測装置２００から供給された観測値ｙ_Ｎｔ－１との組をＤ_ｔ－１に追加した観測データＤ_ｔを記憶する。観測データＤ_ｔは、図３のＳ３１０に示すように、下記（１７）式で表される。∪は、２つの集合の和集合を表す。

この組の追加により、観測データの要素数が１つ増える。したがって、時刻ｔにおいて記憶部１０１に記憶される組の数Ｎ_ｔと時刻ｔ－１において記憶部１０１に記憶されている組の数Ｎ_ｔ－１とに関して、図３のＳ３１１に示すように、下記（１８）式が成り立つ。

Ｓ２０６が行われると制御部１０５は、判定処理を実行する（Ｓ２０７）。時刻ｔにおけるＳ２０７において制御部１０５は、Ｓ２０２からＳ２０６までの処理が所定の回数Ｔだけ反復されたか否かを判定する。時刻ｔがＴより少ない場合（Ｓ２０７：ＮＯ）、制御部１０５は、時刻ｔをインクリメントして、Ｓ２０２に戻る。そして時刻ｔがＴに達するまで、図３のＳ３０３及びＳ３１２のｆｏｒ文の通り、Ｓ２０２からＳ２０７までの処理が繰り返される。

そして時刻ｔがＴに達している場合（Ｓ２０７：ＹＥＳ）、制御部１０５は、出力処理を実行する（Ｓ２０８）。Ｓ２０８における時刻はＴである。時刻ＴにおけるＳ２０７において制御部１０５は、時刻Ｔにおける観測データＤ_Ｔの中で最小の観測値に対応する観測点を最適点として、パラメータベクトル値提案装置１００の外部装置に出力する。Ｄ_Ｔのうちの最小の観測値のインデックスｂ_Ｔは、図３のＳ３１３に示すように、下記（１９）式で表される。

パラメータベクトル値提案装置１００の外部に出力する最適点は、図３のＳ３１４に示すように、集合Ｄ_Ｔの中で最小の観測値ｙ_ｂｔに対応する観測点ｘ_Ｎｔである。

Ｓ２０８が行われるとパラメータ最適化システム１によるパラメータ最適化処理が終了する。

本実施形態の効果について説明する。

その準備として、標準的なベイズ最適化方式や非特許文献１の方式においてＧＰ回帰を活用する部分について説明する。観測データＤ_ｔ－１が活用され、点ｘにおける目的関数ｆのＧＰ回帰による予測値の期待値Ｅは、下記（２０）式で表される。・^Ｔはベクトルや行列の転置を表す。Ｋは、Ｎ_ｔ－１行Ｎ_ｔ－１列の行列であり、その要素Ｋ_{［ｒ，ｃ］}（ｒ，ｃ＝０，１，・・・，Ｎ_ｔ－１－１）はｋ（ｘ_ｒ，ｘ_ｃ）である。・_{［ｒ，ｃ］}は行列の第ｒ行ｃ列の要素を表す。σは、ノイズ成分の標準偏差を表す。Ｉは、Ｎ_ｔ－１行Ｎ_ｔ－１列の単位行列を表す。・^－1は行列の逆行列を表す。ｙ＝（ｙ_０，ｙ_１，・・・，ｙ_Ｎｔ－１－１）^Ｔである。

また、観測データＤ_ｔ－１が活用され、点ｘにおける目的関数ｆのＧＰ回帰による予測値の分散Ｖは、下記（２１）で表される。

例えば、獲得関数ａ_ｔとしてLCBを採用する場合、ａ_ｔは、下記（２２）式で表される。κは探索（exploration）と活用（exploitation）とのバランスを定めるパラメータである。

このように、非特許文献１の方式では、提案点を決定するために利用する獲得関数が、ＧＰ回帰に基づいて定義される。獲得関数ａ_ｔとしてLCB以外を採用する場合も、提案点を決定するために利用する獲得関数が、ＧＰ回帰に基づいて定義される。

非特許文献１の方式においても、採用する獲得関数の種類が同じであれば、獲得関数に関する数式は、標準的なベイズ最適化方式と同じである。但し、非特許文献１のベイズ最適化方式では、獲得関数ａ_ｔが最大の点を求める範囲がＤ次元空間ではなく、１次元探索空間であることが、標準的なベイズ最適化方式とは異なる。

予測値の期待値Ｅは、下記（２３）式のように変形できる。（（Ｋ＋σ^２Ｉ）^－１ｙ）_［ｎ］は、観測データＤ_ｔ－１から定まる定数であり、ｋ（ｘ，ｘ_ｎ）は、点ｘに依存する。

（２３）式に示すｋ（ｘ，ｘ_ｎ）を定数（（Ｋ＋σ^２Ｉ）^－１ｙ）_［ｎ］に対する重みだと解釈すると、ｋ（ｘ，ｘ_ｎ）の絶対値が小さい観測点ｘ_ｎは、予測値の期待値Ｅへの寄与度が小さいことがわかる。ｋ（ｘ，ｘ_ｎ）は類似度であり、負の値をとらないため、類似度ｋ（ｘ，ｘ_ｎ）が小さい観測点ｘ_ｎは、予測値の期待値Ｅへの寄与度が小さい。また、類似度ｋ（ｘ，ｘ_ｎ）が小さい観測点ｘ_ｎは、（２１）式に示す予測値の分散Ｖへの寄与度も小さい。

本実施形態では、獲得関数の値を計算する必要がある点が、低次元探索空間Ｓ_ｔ内の点に限定される。したがって、低次元探索空間Ｓ_ｔに含まれる点ｘ´との類似度ｋ（ｘ´，ｘ_ｎ）が小さい観測点ｘ_ｎは、予測値の期待値Ｅ、予測値の分散Ｖ及び獲得関数ａ_ｔへの寄与度が小さい。

本実施形態の抽出データＥ_ｔは、観測データＤ_ｔ－１から、所定の点ｘ´に対する類似度ｋ（ｘ´，ｘ_ｎ）がＴ_ｔ以上のｘ_ｎに対応する組を抽出したものである。抽出データＥ_ｔは、下記（２４）式で表される。

したがって、抽出データＥ_ｔは、予測値の期待値Ｅ、予測値の分散Ｖ及び獲得関数ａ_ｔの寄与度が大きい観測点に対応する組の集合である。

本実施形態では、予測値の期待値Ｅ、予測値の分散Ｖ及び獲得関数ａ_ｔは、それぞれ下記（２５）、（２６）及び（２７）で表される。

例えば、獲得関数としてLCBを採用する場合、獲得関数ａ_ｔは、下記（２８）式で表される。

獲得関数としてLCB以外を採用する場合も、提案点を決定するために利用する獲得関数ａ_ｔは、予測期の期待値Ｅや分散Ｖに基づいて定義される。

このように、本実施形態では、予測値の期待値Ｅ、予測値の分散Ｖ及び獲得関数ａ_ｔが、類似度ｋ（ｘ，ｘ_ｎ）が大きく、寄与度が高い観測点ｘ_ｎに対応する組からなる抽出データＥ_ｔを活用して近似されるため、近似の精度が高く、近似による劣化が小さい。

特許文献１の方式では、予測値の期待値Ｅ、予測値の分散Ｖ及び獲得関数ａ_ｔは、それぞれ下記（２９）、（３０）及び（３１）で近似される。ここで、Ｆｔ＝｛（ｘ_ｎ，ｙ_ｎ）｜ｄｉｓｔ（Ｓ_ｔ，ｘ_ｎ）≦Ａ，ｎ＝０，１，・・・，Ｎ_ｔ－１－１｝であり、ｄｉｓｔ（Ｓ，ｘ）は、空間Ｓと点ｘの距離を返す関数である。Ａは距離に関する閾値を表す。

空間Ｓ_ｔと点ｘ_ｎの距離ｄｉｓｔ（Ｓ_ｔ，ｘ_ｎ）が小さいことと、点ｘ（∈Ｓ_ｔ）と点ｘ_ｎの類似度ｋ（ｘ，ｘ_ｎ）が高いことは、必ずしも一致しない。よって、Ｆｔは、寄与度が高い観測点ｘ_ｎに対応する組からなるデータとは限らず、特許文献１の方式は、近似による劣化が必ずしも小さくなく、近似精度が必ずしも高くない。したがって、特許文献１の方式は、探索効率が必ずしも良くない。

非特許文献１の方式では、観測データＤ_ｔ－１を利用するため、（Ｋ＋σ^２Ｉ）^－１の計算オーダーは、Ｄ_ｔ－１の要素数Ｎ_ｔ－１に依存し、Ｏ（Ｎ_ｔ－１ ^３）である。一方、本実施形態では、抽出データＥ_ｔ－１を利用するため、（Ｋ^～＋σ^２Ｉ^～）^－１の計算オーダーは、Ｅ_ｔの要素数Ｎ_ｔ´に依存し、Ｏ（Ｎ_ｔ´^３）である。１≦Ｎ_ｔ´≦Ｎ_ｔ－１より、本実施形態における逆行列の計算コストは、非特許文献１の方式における逆行列の計算コスト以下である。Ｔ_ｔの値次第では、Ｎ_ｔ´＜Ｎ_ｔ－１となる。この場合、本実施形態における逆行列の計算コストの方が、非特許文献１の方式における逆行列の計算コストより小さい。

このように本実施形態では、予測値の期待値と分散、および、獲得関数を高い精度で近似し、かつ、ＧＰ回帰における逆行列の計算コストが低い。したがって、本実施形態により、パラメータベクトル値の探索効率をできるだけ劣化させずに、ＧＰ回帰における逆行列の計算コストをできるだけ削減できる。

本実施形態の効果は、パラメータベクトル値の探索効率をできるだけ劣化させずに、ＧＰ回帰における逆行列の計算コストをできるだけ削減するだけにとどまらない。場合によっては、パラメータ最適化の探索効率の改善効果もある。

図４は、Ｄ＝２の場合のＤ次元空間において、７つの観測点で目的関数の値が観測済みの状態を表す図である。図４に含まれる左側のグラフ４１について、横軸はＤ次元パラメータベクトルの第０要素に対応し、縦軸は第１要素に対応する。奥行方向の軸は、目的関数の値に対応する。７つの点各々は、Ｄ次元空間における観測点の位置を表す。破線は、低次元探索空間Ｓ_ｔを表す。楕円の濃淡は、未知の目的関数ｆの値を表す。この濃淡において、黒は目的関数の値が小さいことを表し、白は目的関数の値が大きいことを表す。

図４に含まれる右側のグラフ４２について、横軸は各観測点ｘ_ｎ（ｎ＝０，１，・・・，６）の所定の点ｘ´（∈Ｓ_ｔ）に対する距離｜｜ｘ_ｎ－ｘ´｜｜を表し、縦軸はｘ_ｎとｘ´の類似度ｋ（ｘ_ｎ，ｘ´）を表す。実線の曲線は、スケール長が小さいsquared exponentialカーネル関数を表し、破線の曲線は、スケール長が大きいsquared exponentialカーネル関数を表す。

図４に示すように、スケール長が大きいsquared exponentialカーネル関数を利用すると、各観測点ｘ_ｎの類似度が比較的均等になり、スケール長が小さいsquared exponentialカーネル関数を利用すると、観測点ｘ_ｎによって類似度の大小に比較的差が出ることがわかる。

図４の目的関数ｆは、局所的に小さな値をとるため、低次元探索空間Ｓ_ｔから局所解よりも離れた位置にある観測点ｘ_ｎは、Ｓ_ｔ内の点に関する目的関数の値を予測するのに役立たない。そのため、この図４の例では、squared exponentialカーネル関数のスケール長は小さいことが好ましい。

前述の通り、カーネル関数のハイパーパラメータとしては、所定の値が採用されるか、観測データ、あるいは、後述の抽出データから推定した値が採用される。そのため、目的関数の形状に対して、最適な値が採用されるとは限らない。

スケール長が最適な値と比較して大きかった場合、ＧＰ回帰の予測精度が低いため、パラメータ最適化の探索効率が悪い。それに対して、本実施形態では、ＧＰ回帰に活用するのが観測データＤ_ｔ－１のうちの抽出データＥ_ｔのみであり、類似度が小さい観測点を扱わない、すなわち、当該観測点の類似度を強制的に０に置き換えることに近い処理をしている。そのため、ＧＰ回帰の挙動が、スケール長を小さくして、最適なスケール長を採用した場合の挙動に近づく。その結果、観測データＤ_ｔ－１を利用する場合よりも、抽出データＥ_ｔのみを利用した場合の方がパラメータ最適化の探索効率が向上する場合がある。

このように、本実施形態では、パラメータベクトル値の探索効率向上と、ＧＰ回帰における逆行列の計算コスト削減とを両立できる場合がある。この両立ができるのは、目的関数ｆが多数の局所解を持つときに限られない。スケール長が最適な値と比較して大きかった場合、この両立ができる。

＜変形例１＞
変形例１に係る抽出部１０３は、記憶部１０１に記憶された観測データに含まれる１つ以上のパラメータベクトル値が表すＤ次元空間中の１つ以上の点のうち、低次元探索空間に含まれる点に対する類似度が大きい方から所定の割合までの１つ以上の点に対応する組の集合を抽出データとして抽出する。以下、変形例１について詳細に説明する。

観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）を、所定の点ｘ´に対する類似度ｋ（ｘ_ｎ，ｘ´）が大きい順に並べ直したものを、ｘ”_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）で表し、対応する観測値をｙ”_ｎで表す。抽出部１０３は、下記（３２）式で表される抽出データＥ_ｔを、Ｄ_ｔ－１から抽出してもよい。ここで、ｒ_ｔは割合を表し、１／Ｎ_ｔ－１以上１以下の値をとる。ｒ_ｔが１の場合、Ｅ_ｔはＤ_ｔ－１と一致する。ｆｌооｒ（・）は、引数以下の最大の整数を返す関数である。

本実施形態のＥ_ｔと本実施形態で示した｛（ｘ_ｎ，ｙ_ｎ）｜ｋ（ｘ_ｎ，ｘ´）≧Ｔ_ｔ，ｎ＝０，１，・・・，Ｎ_ｔ－１－１｝は、ｒ_ｔとＴ_ｔの設定次第で等価になる。本変形例であれば、Ｅ_ｔの要素数Ｎ_ｔ´は、下記（３３）式に示すように、ｒ_ｔにより直接的に制御可能である。

ＧＰ回帰の逆行列の計算コストは、Ｎ_ｔ´に依存するため、計算コストを制御できる点において本変形例は優れている。

逆行列の計算コストは、Ｎ_ｔ´が大きくなると急激に大きくなる一方で、Ｎ_ｔ´が小さい場合の逆行列の計算コストは実用上の問題が生じないことが多い。そこで、時刻ｔが小さく、Ｄ_ｔ－１の要素数Ｎ_ｔ－１が少ないうちはｒ_ｔを１に設すると良い。時刻ｔが大きく、Ｅ_ｔをＤ_ｔ－１と一致させてＮ_ｔ´をＮ_ｔ－１と一致させると逆行列の計算コストが大きくなり過ぎる場合には、ｒ_ｔを１より小さく、かつ、計算時間が所望の時間以内になるように設定すると良い。これにより、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。

本実施形態において、所定の点ｘ´を低次元探索空間Ｓ_ｔにおけるある点と定義する場合は、下記（３４）式が成り立つ。

この場合、（３４）式の最大類似度ｍａｘｋ（ｘ_ｎ，ｘ´）が大きい順に並べ直したものを、ｘ”_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）で表し、対応する観測値をｙ”_ｎで表す。抽出部１０３は、下記（３５）式で表される抽出データＥ_ｔを、Ｄ_ｔ－１から抽出してもよい。

（３５）式のＥ_ｔと（３４）式のＥ_ｔは、ｒ_ｔとＴ_ｔの設定次第で等価になる。本変形例であれば、Ｅ_ｔの要素数Ｎ_ｔ´は、下記（３６）式に示すように、ｒ_ｔにより直接的に制御可能である。

ＧＰ回帰の逆行列の計算コストは、Ｎ_ｔ´に依存するため、計算コストを制御できる点において本変形例は優れている。また、ｒ_ｔを前述と同様に制御することで、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。

＜変形例２＞
変形例２に係る提案部１０４は、Ｄ次元空間中の２つの点の類似度を、Ｄ次元空間に含まれる低次元探索空間であるＲ次元アフィン部分空間に付随する線型部分空間の直交補空間の成分から計算する。以下、変形例２について詳細に説明する。

本実施形態において、抽出データＥ_ｔは、下記（３７）式で表される例を示した。

例えば、カーネル関数がsquared exponentialカーネル関数である場合、関数Ｐ_Ｓｔの定義から、下記（３８）式が成り立つ。（Ｉ_Ｄ－Ｐ_Ｕｔ）は、Ｓ_ｔに付随するＲ_ｔ次元線型部分空間Ｕ_ｔの直交補空間Ｕ_ｔ ^⊥への正射影行列である。

Ｄ次元空間中の任意の点ｘは、下記（３９）式で表される。すなわち、Ｄ次元空間中の任意の点ｘは、（３９）式の右辺第１項と右辺第２項の成分に分解できる。前者を点ｘのＵ_ｔ成分と呼び、後者を点ｘのＵ_ｔ ^⊥成分と呼ぶ。（Ｉ_Ｄ－Ｐ_Ｕｔ）（ｘ_ｎ－ｘ_ｂｔ－１）は、観測点ｘ_ｎと最良観測点ｘ_ｂｔ－１の差分ベクトル（ｘ_ｎ－ｘ_ｂｔ－１）のＵ_ｔ ^⊥成分であり、Ｕ_ｔ成分を持たない。

Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元である場合、（Ｉ_Ｄ－Ｐ_Ｕｔ）は対角行列であり、その対角成分のうちでＲ_ｔ個の座標軸に対応するＲ_ｔ個の成分が０で、残りの（Ｄ－Ｒ_ｔ）個の成分が１である。Ｒ_ｔ個の成分がＵ_ｔ成分に対応し、残りの（Ｄ－Ｒ_ｔ）個の成分がＵ_ｔ ^⊥成分に対応する。したがって、（Ｉ_Ｄ－Ｐ_Ｕｔ）（ｘ_ｎ－ｘ_ｂｔ－１）は、ｘ_ｎとｘ_ｂｔ－１のＵ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の成分のみを参照するだけで計算できる。

本変形例では、この性質を利用し、Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元になるという制約の下でＵ_ｔを時刻ｔに応じて変化させ、Ｕ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の成分のみを参照してｋ（ｘ_ｎ，Ｐ_Ｓｔ（ｘ_ｎ）を計算し、抽出データＥ_ｔを抽出する。Ｕ_ｔ成分については値を参照しないで済むため、計算コストを削減できる。

＜変形例３＞
本実施形態において抽出部１０３は、下記（４０）式に示すように、類似度ｋ（ｘ_ｎ，ｘ´）が所定の値Ｔ_ｔ以上という基準で抽出データＥ_ｔを抽出する例を示した。

変形例３に係る抽出部１０３は別の基準で抽出データＥ_ｔを抽出する。カーネル関数がsquared exponentialカーネル関数である場合、ｋ（ｘ_ｎ，ｘ´）≧Ｔ_ｔが成り立つことは、下記（４１）式が成り立つことと等価である。

また、Ｔ_ｔ≦θ_σ ^２と仮定すると、ｋ（ｘ_ｎ，ｘ´）≧Ｔ_ｔが成り立つことは、距離｜｜ｘ_ｎ－ｘ´｜｜について下記（４２）式が成り立つことと等価である。

変形例３に係る抽出部１０３は、距離｜｜ｘ_ｎ－ｘ´｜｜がスケール長θ_ｌのＴ_ｔ´倍以下という基準で抽出データＥ_ｔを抽出する。したがって、Ｅ_ｔに関して下記（４３）式が成り立つ。

変形例３に係る抽出データＥ_ｔは、類似度ｋ（ｘ_ｎ，ｘ´）が所定の値Ｔ_ｔ以上という基準で抽出した抽出データと同じになる。したがって、本実施形態と同じ効果が得られる。

（４２）式に示すＴ_ｔ´の定義より、Ｔ_ｔ´としては、ユーザがＴ_ｔを与えるだけで、カーネル関数のハイパーパラメータθ_σに応じた適応的な値が設定される。距離｜｜ｘ_ｎ－ｘ´｜｜に対する閾値Ｔ_ｔ´θ_ｌは、カーネル関数のハイパーパラメータθ_ｌに応じても適応的な値になる。よって、閾値Ｔ_ｔ´θ_ｌは、距離｜｜ｘ_ｎ－ｘ´｜｜に対して、カーネル関数のハイパーパラメータθ_ｌ,θ_σに応じて適応的に設定される。

Ｔ_ｔ´は、（４２）式に示すものに限定されない。この場合、抽出データが本実施形態と同じになる保証がなくなり、Ｔ_ｔ´が信号標準偏差θ_σに依存しなくなる。この場合、対数や平方根の計算が不要になり、計算コストが削減される。この場合であっても、類似度ｋ（ｘ_ｎ，ｘ´）が大きい組の集合が抽出データＥ_ｔとして抽出される。

ｘ´＝Ｐ_Ｓｔ（ｘ_ｎ）とする場合、Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元になるという制約の下でＵ_ｔを時刻ｔに応じて変化させ、Ｕ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の成分のみを参照して｜｜ｘ_ｎ－ｘ´｜｜を計算しても良い。Ｕ_ｔ成分については値を参照しないで済むため、計算コストを削減できる。

変形例３では、カーネル関数がsquared exponentialカーネル関数である場合を例示した。カーネル関数がsquared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部１０３は、記憶部１０１に記憶された観測データＤ_ｔ－１に含まれる観測点｛ｘ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１）｝のうち、低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´に対する距離｜｜ｘ_ｎ－ｘ´｜｜がスケール長θ_ｌの係数倍以下である１つ以上の観測点に対応する組の集合を抽出データＥ_ｔとして抽出しても良い。この場合、抽出データが本実施形態と同じになる保証がなくなるものの、類似度ｋ（ｘ_ｎ，ｘ´）が大きい観測点ｘ_ｎに対応する組の集合が抽出データＥ_ｔとして抽出される。

＜変形例４＞
変形例４に係る抽出部１０３は、カーネル関数がハイパーパラメータとしてスケール長を有する場合、記憶部１０１に記憶された観測データに含まれる１つ以上のパラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点のうち、低次元探索空間に含まれる点に対するＤ次元空間の各座標軸方向におけるＤ個の距離が全てスケール長の係数倍以下である１つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、抽出部１０３は、全てのｄ＝０，１，…，Ｄ－１について点ｘ_ｎと点ｘ´の第ｄ成分の差の絶対値がスケール長θ_ｌのＴ_ｔ´´倍以下という基準で抽出データＥ_ｔを抽出しても良い。ここで、Ｔ_ｔ´´はユーザが設定する係数である。この場合、Ｅ_ｔは、下記（４４）式で表される。

（４４）式からわかる通り、Ｄ次元空間における各座標軸方向ｄ（＝０，１，…，Ｄ－１）での距離｜（ｘ_ｎ）_［ｄ］－（ｘ´）_［ｄ］｜に対して、カーネル関数のハイパーパラメータに応じて適応的な閾値が設定される。本変形例４は、変形例３と等価ではないものの、近似になっている。したがって、変形例３とほぼ同じ効果が得られる。

ｘ´＝Ｐ_Ｓｔ（ｘ_ｎ）とする場合、Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元になるという制約の下でＵ_ｔを時刻ｔに応じて変化させれば、Ｕ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の全てのｄについて点ｘ_ｎと点ｘ´の第ｄ成分の差の絶対値がスケール長θ_ｌのＴ_ｔ´´倍以下という基準で抽出データＥ_ｔを抽出しても良い。Ｕ_ｔ成分については値を参照しないで済むため、計算コストを削減できる。

＜変形例５＞
変形例５に係る抽出部１０３は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部１０１に記憶された観測データに含まれる１つ以上のパラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の２乗が所定の値以下である１つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の２乗の計算において、抽出部１０３は、Ｄ次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。以下、変形例５について詳細に説明する。

カーネル関数がARD squared exponentialカーネル関数である場合、ｋ（ｘ_ｎ，ｘ´）≧Ｔ_ｔが成り立つことは、下記（４５）式が成り立つことと等価である。

また、下記（４６）式でＴ_ｔ´´´を定義すると、（４５）式が成り立つことは、下記（４７）式が成り立つことと等価である。

（４６）式の定義式より、ユーザがＴ_ｔを与えるだけで、カーネル関数のハイパーパラメータθ_σに応じた適応的な閾値Ｔ_ｔ´´´が設定される。

カーネル関数がARD squared exponentialカーネル関数である場合、抽出部１０３は、点ｘ_ｎと点ｘ´の正規化ユークリッド距離の２乗がＴ_ｔ´´´以下という基準で抽出データＥ_ｔを抽出しても良い。ここで、正規化ユークリッド距離の２乗の計算においては、各次元の標準偏差として、Ｄ次元スケール長ベクトルθ_ｌの各要素の値を採用するものとする。この場合、Ｅ_ｔに関して下記（４８）式が成り立つ。

Ｔ_ｔ´´´は、（４６）式に示すものに限定されない。この場合、抽出データが第１の実施形態と同じになる保証がなくなり、Ｔ_ｔ´´´が信号標準偏差θ_σに依存しなくなる。この場合、対数の計算が不要になり、計算コストが削減される。この場合であっても、類似度ｋ（ｘ_ｎ，ｘ´）が大きい組の集合が抽出データＥ_ｔとして抽出される。

ｘ´＝Ｐ_Ｓｔ（ｘ_ｎ）とする場合、Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元になるという制約の下でＵ_ｔを時刻ｔに応じて変化させ、Ｕ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の成分のみを参照して正規化ユークリッド距離の２乗を計算しても良い。Ｕ_ｔ成分については値を参照しないで済むため、計算コストを削減できる。

本変形例では、カーネル関数がARD squared exponentialカーネル関数である場合を例示した。カーネル関数がARD squared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてＤ次元スケール長ベクトルを持つ場合、抽出部１０３が記憶部１０１に記憶された観測データＤ_ｔ－１に含まれる観測点｛ｘ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１）｝のうち、低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´に対する正規化ユークリッド距離の２乗が所定の値以下である１つ以上の観測点に対応する組の集合を抽出データＥ_ｔとして抽出しても良い。この場合、抽出データが第１の実施形態と同じになる保証がなくなるものの、類似度ｋ（ｘ_ｎ，ｘ´）が大きい観測点ｘ_ｎに対応する組の集合が抽出データＥ_ｔとして抽出される。

＜変形例６＞
変形例６に係る抽出部１０３は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部１０１に記憶された観測データに含まれる１つ以上のパラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点のうち、低次元探索空間に含まれる点に対するＤ次元空間の各座標軸方向におけるＤ個の全ての距離が前記スケール長のベクトルの対応する要素の係数倍以下である１つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、カーネル関数がハイパーパラメータとしてＤ次元スケール長ベクトルを有する場合、抽出部１０３は、全てのｄ＝０，１，…，Ｄ－１について点ｘ_ｎと点ｘ´の第ｄ成分の差の絶対値がＤ次元スケール長ベクトルθ_ｌの第ｄ要素のＴ_ｔ´´´´倍以下という基準で抽出データＥ_ｔを抽出しても良い。ここで、Ｔ_ｔ´´´´はユーザが設定する係数である。この場合、Ｅ_ｔは、下記（４９）式で表される。

（４９）式からわかる通り、Ｄ次元空間における各座標軸方向ｄ（＝０，１，…，Ｄ－１）での距離｜（ｘ_ｎ）_［ｄ］－（ｘ´）_［ｄ］｜に対して、カーネル関数のハイパーパラメータに応じて適応的な閾値が設定される。これは、変形例５と等価ではないものの、近似になっている。したがって、変形例５とほぼ同じ効果が得られる。

ｘ´＝Ｐ_Ｓｔ（ｘ_ｎ）とする場合、Ｄ次元空間中のＲ_ｔ個の座標軸に沿ったＲ_ｔ個のベクトルの全てがＲ_ｔ次元線型部分空間Ｕ_ｔの元になるという制約の下でＵ_ｔを時刻ｔに応じて変化させれば、Ｕ_ｔ ^⊥成分に対応する（Ｄ－Ｒ_ｔ）個の全てのｄについて点ｘ_ｎと点ｘ´の第ｄ成分の差の絶対値がスケール長ベクトルθ_ｌの第ｄ要素のＴ_ｔ´´´´倍以下という基準で抽出データＥ_ｔを抽出しても良い。Ｕ_ｔ成分については値を参照しないで済むため、計算コストを削減できる。

＜変形例７＞
カーネル関数がsquared exponentialカーネル関数である場合に、観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）を、所定の点ｘ´に対する距離｜｜ｘ_ｎ－ｘ´｜｜が小さい順に並べ直したものを、ｘ’’_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）で表し、対応する観測値をｙ’’_ｎで表す。抽出部１０３は、下記（５０）式で表される抽出データＥ_ｔを、Ｄ_ｔ－１から抽出してもよい。ここで、変形例１と同様に、ｒ_ｔは割合を表し、１／Ｎ_ｔ－１以上１以下の値をとる。ｒ_ｔが１の場合、Ｅ_ｔはＤ_ｔ－１と一致する。ｆｌооｒ（・）は、引数以下の最大の整数を返す関数である。

本変形例のＥ_ｔと変形例３のＥ_ｔは、ｒ_ｔとＴ_ｔ´の設定次第で等価になる。本変形例であれば、Ｅ_ｔの要素数Ｎ_ｔ´は、下記（５１）式に示すように、ｒ_ｔにより直接的に制御できる点が変形例５とは異なる。

逆行列の計算コストは、Ｎ_ｔ´が大きくなると急激に大きくなる一方で、Ｎ_ｔ´が小さい場合の逆行列の計算コストは実用上の問題が生じないことが多い。そこで、時刻ｔが小さく、Ｄ_ｔ－１の要素数Ｎ_ｔ－１が少ないうちはｒ_ｔを１に設定すると良い。時刻ｔが大きく、Ｅ_ｔをＤ_ｔ－１と一致させてＮ_ｔ´をＮ_ｔ－１と一致させると逆行列の計算コストが大きくなり過ぎる場合には、ｒ_ｔを１より小さく、かつ、計算時間が所望の時間以内になるように設定すると良い。これにより、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。

本変形例では、カーネル関数がsquared exponentialカーネル関数である場合を例示した。カーネル関数がsquared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部１０３は、記憶部１０１に記憶された観測データＤ_ｔ－１に含まれる観測点｛ｘ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１）｝のうち、低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´に対する距離｜｜ｘ_ｎ－ｘ´｜｜が小さい方から所定の割合の観測点に対応する組の集合を抽出データＥ_ｔとして抽出しても良い。この場合であっても、類似度ｋ（ｘ_ｎ，ｘ´）が大きい観測点ｘ_ｎに対応する組の集合が抽出データＥ_ｔとして抽出される。

＜変形例８＞
変形例８に係る抽出部１０３は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部１０１に記憶された観測データに含まれる１つ以上の前記パラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の２乗が小さい方から所定の割合以下である１つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の２乗の計算において抽出部１０３は、Ｄ次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。

カーネル関数がARD squared exponentialカーネル関数である場合に、観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）を、所定の点ｘ´に対する正規化ユークリッド距離の２乗が小さい順に並べ直したものを、ｘ^＊ _ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）で表し、対応する観測値をｙ^＊ _ｎで表す。ここで、正規化ユークリッド距離の２乗の計算においては、Ｄ次元空間の各座標軸方向に対応する標準偏差として、Ｄ次元スケール長ベクトルθ_ｌの各要素の値を採用する。したがって、正規化ユークリッド距離の２乗は、観測点ｘ_ｎの所定の点ｘ´に対する正規化ユークリッド距離の２乗は、下記（５２）式で表される。

抽出部１０３は、下記（５３）式で表される抽出データＥ_ｔを、Ｄ_ｔ－１から抽出してもよい。ここで、変形例１と同様に、ｒ_ｔは割合を表し、１／Ｎ_ｔ－１以上１以下の値をとる。ｒ_ｔが１の場合、Ｅ_ｔはＤ_ｔ－１と一致する。ｆｌооｒ（・）は、引数以下の最大の整数を返す関数である。

本変形例のＥ_ｔと変形例５のＥ_ｔは、ｒ_ｔとＴ_ｔ´´´の設定次第で等価になる。本変形例であれば、Ｅ_ｔの要素数Ｎ_ｔ´は、下記（５４）式に示すように、ｒ_ｔにより直接的に制御できる点が変形例５とは異なる。

本変形例では、カーネル関数がARD squared exponentialカーネル関数である場合を例示した。カーネル関数がARD squared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部１０３は、記憶部１０１に記憶された観測データDＤ_ｔ－１に含まれる観測点｛ｘ_ｎ｜ｎ＝０，１，…，Ｎ_ｔ－１－１）｝のうち、低次元探索空間Ｓ_ｔに含まれる所定の点ｘ´に対する前述の正規化ユークリッド距離の２乗が小さい方から所定の割合の観測点に対応する組の集合を抽出データＥ_ｔとして抽出しても良い。この場合であっても、類似度ｋ（ｘ_ｎ，ｘ´）が大きい観測点ｘ_ｎに対応する組の集合が抽出データＥ_ｔとして抽出される。

＜変形例９＞
本実施形態に係る抽出部１０３は、時刻ｔのＳ２０３において、観測データＤ_ｔ－１から抽出データＥ_ｔを抽出するものとした。この抽出の際に利用するカーネル関数によっては、ハイパーパラメータが存在する。抽出データＥ_ｔの抽出がカーネル関数のハイパーパラメータに依存する場合、ハイパーパラメータを事前に定める必要がある。なお、ハイパーパラメータとしては、スケール長またはスケール長のベクトルを想定する。

採用したカーネル関数がハイパーパラメータを持っている場合、その値を事前に決定すると良い。その値は定数にしても良いし、時刻ｔに応じて変化させても良い。定数にする場合、抽出部１０３がそのハイパーパラメータ値を記憶すると良い。

カーネル関数のハイパーパラメータを時刻ｔに応じて変化させる場合、各時刻tのＳ２０３において抽出部１０３は、Ｅ_ｔを抽出するためだけに、観測データＤ_ｔ－１、あるいは、抽出データＥ_ｔからハイパーパラメータ値を推定すると、そのための計算コストが大きい。仮に非特許文献１の方式を比較対象とする場合、非特許文献１の方式には抽出データＥ_ｔを抽出する処理自体が存在しないため、この計算コストは小さいことが好ましい。

図５は、変形例９に係るパラメータ最適化システム５の機能構成例を示す図である。図５に示すように、変形例９に係るパラメータベクトル値提案装置５００では、記憶部１０１がハイパーパラメータも記憶する。以下、変形例９の処理について変形点のみを説明する。なお以下の説明において、本実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。

時刻ｔが１である場合のＳ２０３において抽出部１０３は、観測データＤ_０からハイパーパラメータ値を推定し、ハイパーパラメータ推定法としては、既存の任意の方式を利用する。推定したハイパーパラメータ値を利用して抽出データＥ_ｔを抽出する。

時刻ｔにおけるＳ２０４において提案部１０４は、抽出データＥ_ｔからハイパーパラメータ値を推定する。ハイパーパラメータ推定法としては、既存の任意の方式を利用する。推定したハイパーパラメータ値は、記憶部１０１に供給される。記憶部１０１は、受け取ったハイパーパラメータ値を記憶する。推定したハイパーパラメータ値は、提案点を決定するために利用する獲得関数ａ_ｔの定義にも反映される。

時刻ｔが２以降のＳ２０３において抽出部１０３は、記憶部１０１からハイパーパラメータ値を取得する。取得するハイパーパラメータ値は、時刻（ｔ－１）において提案部１０４が推定したハイパーパラメータ値とする。抽出部１０３は、抽出部１０３から取得したハイパーパラメータ値を利用して抽出データＥ_ｔを抽出する。

本変形例では、提案部１０４が直前の時刻で推定したハイパーパラメータ値を流用して抽出部１０３が抽出データＥ_ｔを抽出するため、抽出部１０３においてハイパーパラメータ値を推定する必要がないという利点がある。

＜変形例１０＞
図６は、図２に示すパラメータ最適化処理に対応し、変形例１０に係る疑似プログラムコードを示す図である。以下、図３との差分のみを説明する。

Ｓ６０１はＳ３０１と同じであり、Ｓ６０２はＳ３０２と同じである。

Ｓ６０３は、Ｓ３０３のｆｏｒ文のｔ＝１に対応している。図３では、時刻ｔがＳ３０３のｆｏｒ文でインクリメントされるのに対し、図６では、後述のＳ６１６でインクリメントされる。

Ｓ６０４は、図３にはないｆｏｒ文である。このｆｏｒ文では、後述のＳ６０５のｆｏｒ文をＪ回反復する。Ｊと後述のＧ及びＬによって、時刻ｔの最大値が決まる。

Ｓ６０５は、図３にはないｆｏｒ文である。このｆｏｒ文では、Ｓ６０６からＳ６１７までの処理をＧ回反復する。

Ｓ６０６は、処理内容がＳ３０４と同じである。処理のタイミングは異なる。Ｓ３０４は、時刻が１だけ進む度に処理されるのに対し、Ｓ６０６は、時刻ｔをインクリメントする後述のＳ６１６を含む後述のＳ６１０のｆｏｒ文の外側にあるため、時刻が後述のＬだけ進む度に処理される。

Ｓ６０７は、処理内容がＳ３０５と同じである。処理のタイミングは異なる。Ｓ３０５は、時刻が１だけ進む度に処理されるのに対し、Ｓ６０７は、時刻ｔをインクリメントする後述のＳ６１６を含む後述のＳ６１０のｆｏｒ文の外側にあるため、時刻が後述のＬだけ進む度に処理される。

Ｓ６０８は、処理内容がＳ３０６と同じである。処理のタイミングは異なる。Ｓ３０６は、時刻が１だけ進む度に処理されるのに対し、Ｓ６０８は、時刻ｔをインクリメントする後述のＳ６１６を含む後述のＳ６１０のｆｏｒ文の外側にあるため、時刻が後述のＬだけ進む度に処理される。

Ｓ６０９は、処理内容がＳ３０７と同じである。処理のタイミングは異なる。Ｓ３０７は、時刻が１だけ進む度に処理されるのに対し、Ｓ６０９は、時刻ｔをインクリメントする後述のＳ６１６を含む後述のＳ６１０のｆｏｒ文の外側にあるため、時刻が後述のＬだけ進む度に処理される。

Ｓ６１０は、図３にはないｆｏｒ文である。このｆｏｒ文では、Ｓ６１１からＳ６１６までの処理をＬ回反復する。低次元探索空間Ｓ_ｔを更新するためのＳ６０６からＳ６０８までの処理がこのｆｏｒ文の外側にあるため、このｆｏｒ文の中では、Ｓ_ｔは変化しない。

Ｓ６１１は、処理内容がＳ３０８と同じである。処理タイミングも、時刻が１だけ進む度という意味で同じである。

Ｓ６１２は、処理内容がＳ３０９と同じである。処理タイミングも、時刻が１だけ進む度という意味で同じである。

Ｓ６１３は、処理内容がＳ３１０と同じである。処理タイミングも、時刻が１だけ進む度という意味で同じである。

Ｓ６１４において抽出部１０３は、抽出データＥ_ｔ－１と組（ｘ_Ｎｔ－１，ｙ_Ｎｔ－１）とを統合することで、抽出データＥ_ｔを生成する。ｘ_Ｎｔ－１は、提案部１０４が低次元探索空間Ｓ_ｔの中で求めた提案点であるため、Ｓ_ｔの元である。したがって、提案点ｘ_Ｎｔ－１と所定の点ｘ´に対する類似度ｋ（ｘ_Ｎｔ－１，ｘ´）は大きい。例えば、カーネル関数がsquared exponentialカーネル関数であり、ｘ´＝Ｐ_Ｓｔ（ｘ_ｎ）とする場合、下記（５５）式が成り立つ。これは、この条件下で類似度がとり得る値の最大値である。よって、もし、Ｓ３０７をＳ６１４のタイミングで処理したとしても、Ｓ６１４で処理した場合と同じ抽出データＥ_ｔが生成される。したがって、条件次第では、Ｓ６１４は、Ｓ３０７と等価である。

Ｓ６１５は、処理内容がＳ３１１と同じである。処理タイミングも、時刻が１だけ進む度という意味で同じである。Ｓ６１６は、Ｓ３０３のｆｏｒ文における時刻ｔのインクリメントに対応している。

Ｓ６１７は、図３にはないｆｏｒ文であり、前述のＳ６１０と対応している。Ｓ６１８は、図３にはないｆｏｒ文であり、前述のＳ６０５に対応している。Ｓ６１９は、図３にはないｆｏｒ文であり、前述のＳ６０４に対応している。

Ｓ６２０では、Ｓ６１６で時刻ｔをインクリメントした回数でＴを定義する。このＴは、Ｓ３０３のＴと対応している。

Ｓ６２１は、Ｓ３１３と同じである。Ｓ６２２は、Ｓ３１４と同じである。

図６の疑似コードでは、低次元探索空間Ｓ_ｔに関わるＳ６０６からＳ６０８までの処理が、時刻がＬ進む度にしか実行されない。この疑似コードによる処理は、その時間だけＳ_ｔを固定して、その固定したＳ_ｔの中で提案、観測、更新を反復する。

Ｓ６０７においてＵ_ｔは、ｇに応じて変化させて設定しても良い。例えば、Ｒ_ｔを時刻ｔによらず１とし、Ｇ＝Ｄとして、Ｄ次元空間における各座標軸方向にｇを対応させ、ｇに対応する１次元線型部分空間をＵ_ｔとすると良い。

Ｕ_ｔは、別の規則で設定しても良い。その一例について説明する。０からＤ－１の整数を要素に持つ集合をＧ個定義し、ｈ_ｇ（ｇ＝０，１，・・・，Ｇ－１）で表す。ｈ_ｇの要素数は、１以上とする。例えば、ｈ_０＝｛０，１｝，ｈ_１＝｛２，３，４，５｝，ｈ_２＝｛６｝，・・・，ｈ_Ｇ－１＝｛Ｄ－２，Ｄ－１｝とする。Ｓ６０５のｇと対応させて、Ｄ次元空間におけるｈ_ｇの要素に対応する各座標軸の方向ベクトルのみを基底ベクトルに持つＲ_ｔ次元線型部分空間をＵ_ｔとすると良い。この場合、Ｒ_ｔ＝＃（ｈ_ｇ）となる。ここで、＃（・）は、要素数を返す関数である。これにより、ｇに応じてＵ_ｔの基底ベクトルが変化する。すなわち、ｇに応じて、Ｕ_ｔの次元と方向が変化する。この例において、ｈ_ｇ（ｇ＝０，１，・・・，Ｇ－１）は様々に変更できる。Ｒ_ｔを時刻ｔによらず１とし、Ｇ＝Ｄとして、Ｄ次元空間における各座標軸方向にｇを対応させ、ｇに対応する１次元線型部分空間をＵ_ｔとする場合の例は、ｈ_０＝｛０｝，ｈ_１＝｛１｝，・・・，ｈ_Ｇ－１＝｛Ｄ－１｝とした場合に対応する。

各ｈ_ｇの要素数は、ｊによらず一定でも良いし、ｊに応じて変化させても良い。各ｈ_ｇの要素数をｊに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。各ｈ_ｇの要素は、ｊによらず一定でも良いし、ｊに応じて変化させても良い。各ｈ_ｇの要素をｊに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。

Ｕ_ｔは、さらに別の規則で設定しても良い。その一例について説明する。Ｄ次元ベクトルを要素に持つ集合をＧ個定義し、ｕ_ｇ（ｇ＝０，１，・・・，Ｇ－１）で表す。ｕ_ｇの要素数は、１以上とする。例えば、ｕ_０＝｛ｖ_０，０，ｖ_０，１｝，ｕ_１＝｛ｖ_１，０，ｖ_１，１，ｖ_１，２，ｖ_１，３｝，ｕ_２＝｛ｖ_２，０｝，・・・，ｕ_Ｇ－１＝｛ｖ_{Ｇ－１，０}，ｖ_{Ｇ－１，１}｝とする。Ｓ６０５のｇと対応させて、ｕ_ｇの要素である各Ｄ次元ベクトルのみを基底ベクトルに持つＲ_ｔ次元線型部分空間をＵ_ｔとすると良い。この場合、Ｒ_ｔ＝＃（ｕ_ｇ）となる。これにより、ｇに応じてＵ_ｔの基底ベクトルが変化する。この場合のＵ_ｔは、Ｄ次元空間の座標軸方向と沿っているとは限らない。

各ｕ_ｇの要素数は、ｊによらず一定でも良いし、ｊに応じて変化させても良い。各ｕ_ｇの要素数をｊに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。各ｕ_ｇの要素は、ｊによらず一定でも良いし、ｊに応じて変化させても良い。各ｕ_ｇの要素をｊに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。

Ｓ６０７において、Ｒ_ｔ（＜Ｄ）次元のＵ_ｔを設定することにより、Ｓ_ｔの次元もＤより小さいＲ_ｔ次元となるため、パラメータ最適化の探索効率が向上する。

図６の疑似コードは、３つのｆｏｒ文を含んでいたが、図３と同様に、ｆｏｒ文としては時刻ｔに関するもののみを含み、図６と処理内容が等価の疑似コードに変形できる。変形後の疑似コードは、図６のｊ、ｇ及びｌを別途、インクリメントする必要がある。また、ｇ及びｌについては、それぞれ、インクリメントによってＧ－１及びＬ－１に達した時点で０にリセットする処理も必要である。変形後の疑似コードの処理フローは、図２に対応する。したがって、ｈ_ｇやｕ_ｇに基づいてＵ_ｔを制御する方法は、本実施形態にも適用できる。本変形例は図２に対応するため、本実施形態と同じ効果がある。

＜変形例１１＞
変形例１１に係る抽出部１０３は、類似度に関する累積寄与率に基づいて、観測データから抽出データを抽出する。以下、変形例１１について詳細に説明する。

変形例１と同様に、観測点ｘ_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）を、所定の点ｘ´に対する類似度ｋ（ｘ_ｎ，ｘ´）が大きい順に並べ直したものを、ｘ”_ｎ（ｎ＝０，１，…，Ｎ_ｔ－１－１）で表し、対応する観測値をｙ”_ｎで表す。下記（５６）式に示すように、類似度の総和に対する累積類似度の割合を類似度に関する累積寄与率と呼ぶ。

抽出部１０３は、この累積寄与率が所定の値以上になる最小のＮを求め、下記（５７）式で表される抽出データＥ_ｔを、Ｄ_ｔ－１から抽出してもよい。

（５７）式によるＥ_ｔの抽出は、ｋ（ｘ”_Ｎ－１，ｘ´）≧Ｔ_ｔ＞ｋ（ｘ”_Ｎ，ｘ´）を満足するＴ_ｔを設定した（５）式によるＥ_ｔの抽出と等価である。本実施形態において、ｋ（ｘ”_Ｎ－１，ｘ´）≧Ｔ_ｔ＞ｋ（ｘ”_Ｎ，ｘ´）を満足するＴ_ｔを設定しても良い。したがって、本変形例は本実施形態と同様の効果がある。本変形例、あるいは、ｋ（ｘ”_Ｎ－１，ｘ´）≧Ｔ_ｔ＞ｋ（ｘ”_Ｎ，ｘ´）を満足するＴ_ｔを設定した本実施形態における（２３）式から（２５）式への近似は、類似度に関する累積寄与率に対応しているため、近似精度についての説明性が高い。

＜変形例１２＞
本実施形態及び複数の変形例を前述した。これらは、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明の範囲に含まれる。

＜ハードウェア構成＞
図７は、パラメータベクトル値提案装置１００，５００のハードウェア構成例を示す図である。図７に示すように、パラメータベクトル値提案装置１００，５００は、処理回路７１、主記憶装置７２、補助記憶装置７３、表示機器７４、入力機器７５及び通信機器７６を備える。処理回路７１、主記憶装置７２、補助記憶装置７３、表示機器７４、入力機器７５及び通信機器７６は、バスを介して接続されている。

処理回路７１は、補助記憶装置７３から主記憶装置７２に読み出されたパラメータベクトル値提案プログラムを実行し、探索空間決定部１０２、抽出部１０３、提案部１０４及び制御部１０５として機能する。主記憶装置７２は、ＲＡＭ（Random Access Memory）等のメモリである。補助記憶装置７３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、及び、メモリカード等である。主記憶装置７２及び補助記憶装置７３は、記憶部１０１として機能する。

表示機器７４は、種々の表示情報を表示する。表示機器７４は、例えばディスプレイやプロジェクタ等である。

入力機器７５は、コンピュータを操作するためのインタフェースである。入力機器７５は、例えばキーボードやマウス等である。表示機器７４及び入力機器７５は、タッチパネルにより構成されてもよい。通信機器７６は、観測装置２００等の他の装置と通信するためのインタフェースである。

コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ－ＲＯＭ、メモリカード、ＣＤ－Ｒ及びＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。

コンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。

コンピュータで実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。コンピュータで実行されるプログラムは、パラメータベクトル値提案装置１００，５００の機能構成（機能ブロック）のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、処理回路７１が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置７２上にロードされる。すなわち上記各機能ブロックは主記憶装置７２上に生成される。

上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、ＩＣ（Integrated Circuit）等のハードウェアにより実現してもよい。複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち１つを実現してもよいし、各機能のうち２つ以上を実現してもよい。

パラメータベクトル値提案装置１００，５０を実現するコンピュータの動作形態は任意でよい。例えば、パラメータベクトル値提案装置１００，５０を１台のコンピュータにより実現してもよい。また例えば、パラメータベクトル値提案装置１００，５０を、ネットワーク上のクラウドシステムとして動作させてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１，５…パラメータ最適化システム、７１…処理回路、７２…主記憶装置、７３…補助記憶装置、７４…表示機器、７５…入力機器、７６…通信機器、１０１…記憶部、１０２…探索空間決定部、１０３…抽出部、１０４…提案部、１０５…制御部、１００，５００…パラメータベクトル値提案装置、２００…観測装置。

探索空間決定部１０２は、Ｄ次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定する。所定のパラメータベクトル値は、例えば、記憶部１０１に含まれる観測データのうちの観測値のうちの最良の観測値、例えば、最小値に対応するパラメータベクトル値が採用される。当該観測値を最良観測値と呼ぶ。

所定の点ｘ´としては、低次元探索空間Ｓ_ｔにおける位置を陽には定めず、低次元探索空間Ｓ_ｔにおけるある点ｘ´と定義しても構わない。この場合であっても、Ｎ´_ｔが1以上となるＴ_ｔを設定できる。低次元探索空間Ｓ_ｔに含まれる点ｘ´に対して類似度ｋ（ｘ_ｎ，ｘ´）がＴ_ｔ以上であることは、低次元探索空間Ｓ_ｔに含まれる全ての点ｘ´に対する類似度ｋ（ｘ_ｎ，ｘ´）の最大値、すなわち、最大類似度がＴ_ｔ以上であることと等価であるから、下記（９）式が成立する。この場合、（９）式のＥ_ｔで、図３のＳ３０７に示すＥ_ｔを置き換えることが可能である。すなわち、抽出部１０３は、記憶部１０１に記憶された観測データＤ_ｔ－１に含まれる１つ以上のパラメータベクトル値が表すＤ次元空間に含まれる１つ以上の点ｘ _ｎのうち、低次元探索空間Ｓ_ｔに含まれる全ての点ｘ´に対する類似度ｋ（ｘ_ｎ，ｘ´）の最大値である最大類似度が所定の値Ｔ_ｔ以上である１つ以上の点に対応する組の集合を抽出データＥ_ｔとして抽出する。

Claims

Ｄ（Ｄは２以上の整数）次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部と、
前記Ｄ次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定する探索空間決定部と、
前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出する抽出部と、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する提案部と、
を具備するパラメータベクトル値提案装置。
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる全ての点に対する前記類似度の最大値である最大類似度が所定の値以上である１つ以上の点に対応する前記組の集合を前記抽出データとして抽出する、請求項１記載のパラメータベクトル値提案装置。
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間中の１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が大きい方から所定の割合までの１つ以上の点に対応する前記組の集合を前記抽出データとして抽出する、請求項１記載のパラメータベクトル値提案装置。
前記提案部は、前記Ｄ次元空間中の２つの点の前記類似度を、前記Ｄ次元空間に含まれる前記低次元探索空間である前記Ｒ次元アフィン部分空間に付随する線型部分空間の直交補空間の成分から計算する、請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する距離が前記スケール長の係数倍以下である１つ以上の点に対応する組の集合を前記抽出データとして抽出する、
請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する前記Ｄ次元空間の各座標軸方向におけるＤ個の距離が全て前記スケール長の係数倍以下である１つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する正規化ユークリッド距離の２乗が所定の値以下である１つ以上の点に対応する組の集合を前記抽出データとして抽出し、
前記抽出部は、前記正規化ユークリッド距離の２乗の計算において、前記Ｄ次元空間の各座標軸方向に対応する標準偏差として、前記スケール長のベクトルの各要素の値を採用する、
請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する前記Ｄ次元空間の各座標軸方向におけるＤ個の全ての距離が前記スケール長のベクトルの対応する要素の係数倍以下である１つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する距離が小さい方から所定の割合までの１つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する正規化ユークリッド距離の２乗が小さい方から所定の割合以下である１つ以上の点に対応する組の集合を前記抽出データとして抽出し、
前記抽出部は、前記正規化ユークリッド距離の２乗の計算においては、前記Ｄ次元空間の各座標軸方向に対応する標準偏差として、前記スケール長のベクトルの各要素の値を採用する、
請求項１記載のパラメータベクトル値提案装置。
前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長またはスケール長のベクトルを有し、
前記提案部は、前記抽出データから前記スケール長または前記スケール長のベクトルを推定し、
前記記憶部は、前記提案部が推定した前記スケール長または前記スケール長のベクトルを記憶し、
前記抽出部は、前記記憶部に記憶された前記スケール長または前記スケール長のベクトルに基づいて前記抽出データを抽出する、
請求項１記載のパラメータベクトル値提案装置。
前記抽出部は、前記類似度に関する累積寄与率に基づいて、前記観測データから前記抽出データを抽出する、請求項１記載のパラメータベクトル値提案装置。
Ｄ（Ｄは２以上の整数）次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定し、
前記Ｄ次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出し、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する、
ことを具備するパラメータベクトル値提案方法。
Ｄ（Ｄは２以上の整数）次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定し、
前記Ｄ次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間中の１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出し、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案し、
前記次に観測する点を表すパラメータベクトル値に基づいて前記次に観測する点を観測する、
ことを具備するパラメータ最適化方法。
コンピュータに、
Ｄ（Ｄは２以上の整数）次元空間において所定のパラメータベクトル値が表す点を通るＲ（Ｒは１以上Ｄ未満の整数）次元アフィン部分空間を低次元探索空間として決定させる機能と、
前記Ｄ次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる１つ以上の前記パラメータベクトル値が表す前記Ｄ次元空間に含まれる１つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である１つ以上の点に対応する組の集合を抽出データとして抽出させる機能と、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案させる機能と、
を実現させるパラメータベクトル値提案プログラム。