JP2023067596A - パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム - Google Patents
パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム Download PDFInfo
- Publication number
- JP2023067596A JP2023067596A JP2021178991A JP2021178991A JP2023067596A JP 2023067596 A JP2023067596 A JP 2023067596A JP 2021178991 A JP2021178991 A JP 2021178991A JP 2021178991 A JP2021178991 A JP 2021178991A JP 2023067596 A JP2023067596 A JP 2023067596A
- Authority
- JP
- Japan
- Prior art keywords
- points
- parameter vector
- value
- dimensional
- search space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims description 49
- 238000005457 optimization Methods 0.000 title claims description 46
- 238000000605 extraction Methods 0.000 claims abstract description 101
- 238000003860 storage Methods 0.000 claims abstract description 74
- 239000000284 extract Substances 0.000 claims abstract description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims abstract description 13
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 154
- 238000012986 modification Methods 0.000 description 63
- 230000004048 modification Effects 0.000 description 63
- 238000012545 processing Methods 0.000 description 44
- 239000011159 matrix material Substances 0.000 description 41
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000002542 deteriorative effect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/545—Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
Abstract
【課題】パラメータベクトル値の探索効率の向上と計算コストの削減とを実現する。【解決手段】 記憶部は、D(D≧2)次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する。探索空間決定部は、前記D次元空間において所定のパラメータベクトル値が表す点を通るR(1≦R<D)次元アフィン部分空間を低次元探索空間として決定する。抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出する。提案部は、前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する。【選択図】 図1
Description
本発明の実施形態は、パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムに関する。
社会には、様々な装置や機器、アプリケーションソフトウェアがあり、それらは様々な部品から構成されている。これら装置や機器、アプリケーションソフトウェア、部品は、設計され、製造され、活用される。
設計段階においては、特性が仕様を満たす装置や機器、アプリケーションソフトウェア、部品が設計される場合がある。この際、設計時に調整できる1つ以上のパラメータを要素に持つパラメータベクトルを様々な値に変更し、シミュレーションや実験、アンケートを実施することで、それらのパラメータベクトル値で設計したときの特性を数値で表した特性値を取得し、その特性値が仕様を満たすパラメータベクトル値を求める。ここで、特性は例えば、装置や機器、アプリケーションソフトウェア、部品の性能や製造コスト、顧客満足度である。機器や部品の性能は良いほど好ましく、製造コストは低いほど好ましく、顧客満足度は高いほど好ましい。特性値が大きいほど良い場合は、その特性値を最大化するパラメータベクトル値を少ない時間や手間、費用で求めることが要求される。特性値が小さいほど良い場合は、その特性値を最小化するパラメータベクトル値を少ない時間や手間、費用で求めることが要求される。
特性値が最大又は最小となるパラメータベクトル値を求めることは、パラメータ最適化と呼ばれる。パラメータベクトル値に応じて変化する特性値は、目的関数と呼ばれる。シミュレーションや実験、アンケートは、目的関数の値、すなわち、特性値を観測する手段である。各パラメータベクトル値に関する特性値は、シミュレーションや実験、アンケートを実行して特性値を観測するまでわからず、目的関数は未知である。多くの場合、特性値、すなわち、目的関数の値を観測する際にノイズが加わる。
製造段階においても、パラメータ最適化が用いられる場合がある。例えば、製造時の歩留まりを最大化するパラメータベクトル値を求めたり、出荷後の故障率を最小化するパラメータベクトル値を求めたりする場合がある。
活用段階においても、パラメータ最適化が用いられる場合がある。例えば、ユーザの手元に届いた装置や機器、アプリケーションソフトウェア、部品が、ユーザの利用環境において最大限の性能を発揮するパラメータベクトル値をユーザによる初期設定時に求める場合がある。
調整するパラメータの数をDで表すと、パラメータベクトルの次元はDである。あるD次元パラメータベクトル値は、D次元空間内の1つの点とみなせる。したがって、最適なD次元パラメータベクトル値を探索する空間は、D次元空間である。D次元パラメータベクトルに上限値や下限値が設けられていない場合、最適なD次元パラメータベクトル値を探索する範囲は、D次元空間の全体である。D次元パラメータベクトルに上限値や下限値が設けられている場合、すなわち、D次元パラメータベクトルに定義域がある場合、最適なD次元パラメータベクトル値を探索する範囲は、D次元空間内のその定義域である。Dが大きいほど、探索空間も探索範囲も広くなるため、最適化が困難である。
J. Kirschner, M. Mutny, N. Hiller, R. Ischebeck, and A. Krause,"Adaptive and safe Bayesian optimization in high dimensions via one-dimensional subspaces," in Proceedings of the 36th International Conference on Machine Learning, vol. 97, pp. 3429-3438, PMLR, 2019.
以降、D次元パラメータベクトル値を、単にパラメータベクトル値と省略して記す場合がある。また、定義域の記述は省略する。定義域の記述を省略した場合であっても、探索範囲は、定義域内に限定されるものとする。
パラメータ最適化方式として、非特許文献1の手法がある。この手法は、Dが2以上の整数である場合向けのベイズ最適化方式であり、Dが大きい場合の探索効率が良いことで知られている。この手法では、探索空間をD次元空間中の1次元空間に限定し、その1次元探索空間を切り替えながら、次に目的関数の値を観測すべき点の提案と、提案した点における目的関数の値の観測を反復する。ここで、前述の通り、点とは、D次元パラメータベクトル値である。目的関数の値を観測する点を観測点と呼ぶ。
観測点の提案においては、未知の目的関数の代わりに獲得関数を生成し、その獲得関数の値が最大の点を、目的関数の値が最小になる可能性がある候補点として提案する。獲得関数は、ガウス過程回帰に基づいて計算される。以下では、ガウス過程回帰を、GP回帰と省略して記す。
GP回帰では、目的関数の値を観測済みの1つ以上の点と、その1つ以上の点における目的関数の観測値を利用し、未観測の点における目的関数の値を予測する。その際、逆行列の計算が必要である。
逆行列の計算オーダーは、O(N3)である。ここで、Nは、目的関数の値を観測済みの点の数を表す。提案と観測の反復回数が増加し、Nが増加すると、逆行列の計算コストが大きくなる。
それに対し、特許文献1の手法では、目的関数の値を観測済みのN点のうち、GP回帰に活用する点を、空間の次元がDよりも低い低次元探索空間までの距離が所定の閾値以下の点に限定する。
限定した結果の点の数をN´で表すと、逆行列の計算の計算オーダーは、O(N´3)である。これにより、逆行列の計算コストが削減される。
しかし、特許文献1の手法には、低次元探索空間までの距離に対する所定の閾値を決定する方式が示されていない。GP回帰による各点における目的関数の値の予測精度は、目的関数の値を観測済みのN点のうちでどの点を活用するかで変化する。予測精度への影響が大きい点を活用しなければ、予測精度が劣化する。したがって、低次元探索空間までの距離に対する所定の閾値でGP回帰に利用する点を一律の閾値で決定すると、予測精度が劣化する場合がある。予測精度が劣化した場合、パラメータベクトル値の探索効率が劣化する可能性が高い。逆行列の計算コストを削減するために、探索効率を劣化させるのは、本末転倒である。
本発明が解決しようとする課題は、パラメータベクトル値の探索効率の向上と計算コストの削減とを実現するパラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムを提供することである。
実施形態に係るパラメータベクトル値提案装置は、D(Dは2以上の整数)次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部と、前記D次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定する探索空間決定部と、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出する抽出部と、前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する提案部と、を具備する。
以下、図面を参照しながら本実施形態に係わるパラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラムを説明する。
図1は、本実施形態に係るパラメータ最適化システム1の機能構成例を示す図である。図1に示すように、パラメータ最適化システム1は、パラメータベクトル値提案装置100と観測装置200とを有するコンピュータシステムである。パラメータベクトル値提案装置100と観測装置200とは、有線又は無線を介して通信可能に接続されている。パラメータベクトル値提案装置100は、次に目的関数の値を観測すべきパラメータベクトル値(提案点)を提案するコンピュータである。観測装置200は、提案点における目的関数の値を観測することで、提案点における目的関数の観測値を取得する。観測は、具体的には、パラメータ値に基づくシミュレーションや実験、アンケート等により行われる。パラメータ最適化システム1は、パラメータベクトル値提案装置100による提案点の提案と観測装置200による提案点における目的関数の観測値の取得とを繰り返し、最小の観測値に対応するパラメータベクトル値(観測点)を最適点として外部に出力する。以降、目的関数の観測値は、単に観測値と省略して記す場合がある。
パラメータ最適化は、目的関数の値を最大化したい場合と最小化したい場合とがある。最大化は、目的関数の値に-1を掛け算することにより最小化問題と等価になる。説明を簡単にするために、以下では、目的関数の値を最小化するパラメータベクトル値を求める場合で説明する。ただし、本実施形態のパラメータ最適化が、最小化の場合に限定されるわけではない。本実施形態のパラメータ最適化は、目的関数の値を最大化する問題にも適用できる。
図1に示すように、パラメータベクトル値提案装置100は、記憶部101、探索空間決定部102、抽出部103、提案部104及び制御部105を有する。
記憶部101は、D次元パラメータベクトル値と、当該D次元パラメータベクトル値に対応する目的関数の観測値との組の集合を記憶する。当該集合のデータを観測データと呼ぶ。パラメータベクトル値は、D(Dは2以上の自然数)次元空間における点を表す。観測値は、観測装置200により、対応するD次元パラメータベクトル値に基づいて、シミュレーションや実験、アンケート等を用いて得られる。
探索空間決定部102は、D次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定する。所定のパラメータベクトル値は、例えば、記憶部101に含まれる複数の観測値のうちの最良の観測値、例えば、最小値が採用される。当該観測値を最良観測値と呼ぶ。
抽出部103は、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間中の1つ以上の点のうち、低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出する。
提案部104は、抽出データに基づいて、前記目的関数の値を次に観測する点(パラメータベクトル値)を表すパラメータベクトル値を提案する。その点を提案点と呼ぶ。提案点における目的関数の値が観測装置200により観測され、提案点に対応する観測値が取得される。提案点(パラメータベクトル値)と当該提案点に対応する観測値との組は、記憶部101に記憶される。
制御部105は、パラメータベクトル値提案装置100を統括的に制御する。具体的には、制御部105は、記憶部101による観測データの記憶と、探索空間決定部102による探索空間の決定と、抽出部103による抽出データの抽出と、提案部104による提案点の提案を、観測装置200による観測値の取得に応じて、終了条件を満たすまで反復するように制御する。制御部105は、観測装置200による観測値の取得に応じて制御するために、その観測値の記憶部101による受理を監視する機能や、提案部104による提案点のパラメータベクトル値提案装置100外への送信を監視する機能を有する。反復終了時において最適な点(パラメータベクトル値)を最適点と呼ぶ。最適点は、制御部105によりパラメータベクトル値提案装置100とは異なる外部装置に提供される。
図2は、本実施形態に係るパラメータ最適化システム1によるパラメータ最適化処理の流れを示す図である。図3は、図2に示すパラメータ最適化処理のうちのパラメータベクトル値提案装置による処理の疑似プログラムコードを示す図である。図2及び図3に示すパラメータ最適化は、制御部105による記憶部101、探索空間決定部102、抽出部103及び提案部104に対する制御のもとに実行される。
図2に示すように、まず、制御部105は、パラメータベクトル値提案装置100の初期化を実行する(S201)。制御部105は、S201の開始時に図3のS301に示す通り、時刻tを0に設定し、S201の終了時に時刻tを1に設定する。時刻tはパラメータ最適化処理に使用する時刻であり、図2の処理ループにおける処理が何回目かを表す。
また、S201において制御部105は、記憶部101を初期化し、後述の観測データを抽出部103に送る。初期化としては、D次元パラメータベクトル値と当該D次元パラメータベクトル値に対応する目的関数の観測値との組を少なくとも1つ以上、記憶部101に記憶する。
S201に限らず、時刻tにおいて記憶部101に記憶する処理を実施した結果として記憶部101に記憶された組の数をNtで表す。この定義から、時刻が0のS201で1つ以上の組を記憶した後の記憶部101に記憶された組の数は、N0であり、1以上の整数である。
時刻0において記憶部101に記憶されたN0個のD次元パラメータベクトル値をxn(n=0,1,…,N0-1)で表し、xnに関する目的関数の観測値をyn(n=0,1,…,N0-1)で表す。なお、D次元パラメータベクトル値xnはベクトルであり、観測値ynはスカラーである。D次元パラメータベクトル値xに関する目的関数の観測値yは、y=f(x)+εで表される。ここで、fは目的関数を表し、εは目的関数の値を観測した際のノイズ成分を表す。εは、例えば、平均0、標準偏差σのガウス分布に従う。ノイズ成分がない場合を考える場合は、σを0とみなせば良い。
S201に限らず、時刻tにおいて記憶部101に記憶されたNt個の組の集合Dtは、下記(1)式で表される。Dtを時刻tにおける観測データと呼ぶ。
時刻0のS201における初期化後の記憶部101に記憶されている観測データD0は、図3のS302に示すように、下記(2)式で表される。S301において観測データD0は、記憶部101から抽出部103に供給される。
観測データD0は、S201よりも前に観測済みのデータのみから構成されても良いし、S201のために定義域内でランダムに各xn(n=0,1,…,N0-1)を決定し、各xnに対応するynを観測装置200によって観測することで構成しても良いし、それらが混合されたものであっても良い。
図3のS303に示すように、時刻t=1,2,…,Tについて、以後のS202~S207が反復される。Tは予め定められる時刻tの上限値である。
S201が行われると探索空間決定部102は、探索空間を決定する(S202)。具体的には、S202において探索空間決定部102は、低次元探索空間Stを決定し、抽出部103に供給する。低次元探索空間Stの次元数をRtで表す。Rtは、1以上D次元未満の次元数を有する整数であり、1≦Rt<Dを満たす整数である。Rtの値は、時刻tに応じて変化させても良いし、時刻tによらず一定としても良い。Rtの値は、予め定めた値でも良いし、ランダムに定めた値でも良い。
低次元探索空間Stを決定するために、探索空間決定部102は、記憶部101から最良観測点を取得する。ここで、最良観測点は、記憶部101に記憶されている観測データDt-1に含まれる観測値の集合{yn|n=0,1,…,Nt-1-1}のうちの最小の観測値に対応する観測点である。この最小の観測値をybt-1で表し、ybt-1に対応する最良観測点をxbt-1で表す。bt-1は、図3のS304に示すように、下記(3)式で表されるインデックスである。
S202において探索空間決定部102は、図3のS306に示すように、最良観測点xbt-1を通る低次元探索空間Stを決定する。ここで、低次元探索空間Stは、Rt次元アフィン部分空間である。Stは、下記(4)式で表される。xbt-1は、Stの位置ベクトルである。Utは、Rt次元アフィン部分空間Stに付随するRt次元線型部分空間である。
低次元探索空間St、すなわち、Rt次元アフィン部分空間Stは、図2のループにおける時刻tに応じて変化する。xbt-1またはUtが時刻tに応じて変化することで、Stも変化する。後述する通り、観測データには、時刻が進む度に要素が追加されるため、最良観測点xbt-1も時刻tに応じて変化する可能性がある。Utは、Rtが時刻tに応じて変化すると変化する。Rtが時刻tによらず一定値の場合でも、Utは、時刻tに応じて線型部分空間の方向を変化させることで変化する。
S202が行われると抽出部103は、抽出処理を実行する(S203)。S203において抽出部103は、時刻tにおいて、記憶部101から受け取った観測データDt-1に含まれる観測点の集合{xn|n=0,1,…,Nt-1-1}のうち、低次元探索空間Stに含まれる所定の点x´に対する類似度が所定の値Tt以上である1つ以上の点に対応する組を記憶部101から抽出する。抽出された組は、提案部104に供給される。なお、抽出部103が記憶部101に問い合わせる際のクエリは、図1において図示を省略してある。
低次元探索空間Stに含まれる所定の点x´としては、例えば、観測点xn(n=0,1,…,Nt-1-1)によらずSt内の同一の点を採用する。観測点xnの所定の点x´に対する類似度は、k(xn,x´)で計算される。ここで、k(・,・)は、2点間の類似度を評価するカーネル関数である。カーネル関数としては、linearカーネル、squared exponentialカーネル、exponentialカーネル、Matern 3/2カーネル、Matern 5/2カーネル、rational 1uadraticカーネル、ARD squared exponentialカーネル、ARD exponentialカーネル、ARD Matern 3/2カーネル、ARD Matern 5/2カーネル、ARD Rational Quadraticカーネル等が知られている。カーネル関数としては、これらのいずれかを採用してもよいし、これらとは別のカーネル関数を採用したりしてもよい。カーネル関数には、ハイパーパラメータが含まれる場合がある。ハイパーパラメータの値としては、事前に定めた値を採用しても構わないし、観測データ、あるいは、後述の抽出データから推定しても構わない。
図3のS307で示すように、時刻tにおいて抽出部103は観測データDt-1から抽出する組の集合Etを抽出する。Etを抽出データと呼ぶ。S307に示すように、抽出データEtは、下記(5)式で表される。
抽出データEtの要素数をN´tで表す。Ttの値次第で、N´tは変化し、0以上Nt-1以下の値をとる。Ttとしては、N´tが1以上となる値を採用する。例えば、Nt-1個のk(xn,x´)(n=0,1,…,Nt-1-1)を計算し、その中のいずれか1つのk(xn,x´)をTtに設定すれば、N´tが1以上になることが保証される。N´tがNt-1と等しいとき、EtはDt-1に等しい。以降は、N´tが1以上Nt-1以下であるものとして説明する。
所定の点x´としては、観測点xn(n=0,1,…,Nt-1-1)によらずSt内の同一の点を採用するのではなく、観測点xnごとに異なる点を採用しても良い。例えば、観測点xnを低次元探索空間Stに正射影した点を所定の点x´として採用しても良い。この場合の所定の点x´は、下記(6)式で表される。ここで、PStは、D次元空間内の点を低次元探索空間Stに正射影した点を返す関数である。
関数PStは、下記(7)式で表される。IDは、D行D列の単位行列を表す。PUtは、Rt次元線型部分空間Utへの正射影行列を表す。
この場合であっても、N´tが1以上となるTtを設定できる。この場合、抽出部103が観測データDt-1から抽出したN´t個の観測データの集合Etは、下記(8)式で表される。この場合、(8)式のEtで、図3のS307に示すEtを置き換えることが可能である。
所定の点x´としては、低次元探索空間Stにおける位置を陽には定めず、低次元探索空間Stにおけるある点x´と定義しても構わない。この場合であっても、N´tが1以上となるTtを設定できる。低次元探索空間Stに含まれる点x´に対して類似度k(xn,x´)がTt以上であることは、低次元探索空間Stに含まれる全ての点x´に対する類似度k(xn,x´)の最大値、すなわち、最大類似度がTt以上であることと等価であるから、下記(9)式が成立する。この場合、(9)式のEtで、図3のS307に示すEtを置き換えることが可能である。すなわち、抽出部103は、記憶部101に記憶された観測データDt-1に含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点x´のうち、低次元探索空間Stに含まれる全ての点xnに対する類似度k(xn,x´)の最大値である最大類似度が所定の値Tt以上である1つ以上の点に対応する組の集合を抽出データEtとして抽出する。
採用するカーネル関数がsquared exponentialカーネル関数やARD squared exponentialカーネル関数である場合等、カーネル関数次第では、下記(10)式が成立する。この場合、(10)式のEtで、図3のS307に示すEtを置き換えることが可能である。
2点xi及びxjに関するsquared exponentialカーネル関数k(xi,xj)は、下記(11)式で表される。θσ,θlは、それぞれ信号標準偏差(signal standard deviation)、スケール長(length scale)と呼ばれるハイパーパラメータである。θσ,θlはそれぞれ、値が0より大きい必要がある。
(11)式に示す定義式から、下記(12)式が成り立つ。
2点xi及びxjに関するARD squared exponentialカーネル関数k(xi,xj)は、下記(13)式で表される。ここで、θlは、ハイパーパラメータであり、D次元空間の各座標軸方向に対するスケール長を要素に持つD次元スケール長ベクトルを表す。・[d](d=0,1,…,D-1)は、ベクトルの第d要素を表す。
(13)式に示す定義式から、下記(14)式が成り立つ。
S203が行われると提案部104は、提案処理を実行する(S204)。時刻tにおけるS204において提案部104は、抽出部103から受け取った抽出データEtを活用し、目的関数の値を次に観測すべき点を提案し、記憶部101に送り、パラメータベクトル値提案装置100の外部に出力する。時刻tにおけるS203の段階で記憶部101に記憶されている観測データDt-1に含まれる観測点はx0,x1,・・・,xNt-1-1であるため、次に観測すべき点のインデックスとしてはNt-1を採用し、提案部104が提案する点をxNt-1で表す。このxNt-1を提案点と呼ぶ。
図3のS308に示すように、提案部104は、未知の目的関数の特徴をとらえた代理モデルから獲得関数を構築し、低次元探索空間Stの中で獲得関数の値が最大の点を提案点xNt-1に設定する。提案点xNt-1は、下記(15)式で表される。at(x|Et)は、抽出データEtに基づく代理モデルから定義される獲得関数である。
ここで、代理モデルとしては、例えば、GP回帰モデルやランダムフォレストモデル等を採用する。獲得関数atとしては、例えば、Lower Confidence Bound(LCB)やExpected Improvement(EI)、Probability of Improvement(PI)、Mutual Information(MI)、Predictive Entropy Search(PES)、Max-value Entropy Search(MES)等を採用する。
低次元探索空間Stの中で獲得関数の値が最大の点は、例えば、Stの中で複数の点を設定し、それらの点の中で獲得関数atの値が最大の点を選択することで求められる。あるいは、L-BFGS法等の最適化手法を用いて求められる。
S204が行われると観測装置200は、観測処理を実行する(S205)。時刻tにおけるS205において観測装置200は、提案部104からネットワーク等を介して提案点xNt-1を取得し、提案点xNt-1に基づいて観測値yNt-1を観測する。観測値yNt-1は、ネットワークを介してパラメータベクトル値提案装置100に供給される。
観測値yNt-1は、提案点xNt-1に関する目的関数fの観測値である。図3のS309に示すように、観測値yNt-1は、記憶部101に取得される。観測値yNt-1は、下記(16)式で表される。εNt-1は、時刻tにおける観測値yNt-1に含まれるノイズ成分を表す。
S205が行われると記憶部101は、更新処理を実行する(S206)。時刻tにおけるS206において記憶部101は、提案部104から供給された観測点xNt-1と、観測装置200から供給された観測値yNt-1との組をDt-1に追加した観測データDtを記憶する。観測データDtは、図3のS310に示すように、下記(17)式で表される。∪は、2つの集合の和集合を表す。
この組の追加により、観測データの要素数が1つ増える。したがって、時刻tにおいて記憶部101に記憶される組の数Ntと時刻t-1において記憶部101に記憶されている組の数Nt-1とに関して、図3のS311に示すように、下記(18)式が成り立つ。
S206が行われると制御部105は、判定処理を実行する(S207)。時刻tにおけるS207において制御部105は、S202からS206までの処理が所定の回数Tだけ反復されたか否かを判定する。時刻tがTより少ない場合(S207:NO)、制御部105は、時刻tをインクリメントして、S202に戻る。そして時刻tがTに達するまで、図3のS303及びS312のfor文の通り、S202からS207までの処理が繰り返される。
そして時刻tがTに達している場合(S207:YES)、制御部105は、出力処理を実行する(S208)。S208における時刻はTである。時刻TにおけるS207において制御部105は、時刻Tにおける観測データDTの中で最小の観測値に対応する観測点を最適点として、パラメータベクトル値提案装置100の外部装置に出力する。DTのうちの最小の観測値のインデックスbTは、図3のS313に示すように、下記(19)式で表される。
パラメータベクトル値提案装置100の外部に出力する最適点は、図3のS314に示すように、集合DTの中で最小の観測値ybtに対応する観測点xNtである。
S208が行われるとパラメータ最適化システム1によるパラメータ最適化処理が終了する。
本実施形態の効果について説明する。
その準備として、標準的なベイズ最適化方式や非特許文献1の方式においてGP回帰を活用する部分について説明する。観測データDt-1が活用され、点xにおける目的関数fのGP回帰による予測値の期待値Eは、下記(20)式で表される。・Tはベクトルや行列の転置を表す。Kは、Nt-1行Nt-1列の行列であり、その要素K[r,c](r,c=0,1,・・・,Nt-1-1)はk(xr,xc)である。・[r,c]は行列の第r行c列の要素を表す。σは、ノイズ成分の標準偏差を表す。Iは、Nt-1行Nt-1列の単位行列を表す。・-1は行列の逆行列を表す。y=(y0,y1,・・・,yNt-1-1)Tである。
また、観測データDt-1が活用され、点xにおける目的関数fのGP回帰による予測値の分散Vは、下記(21)で表される。
例えば、獲得関数atとしてLCBを採用する場合、atは、下記(22)式で表される。κは探索(exploration)と活用(exploitation)とのバランスを定めるパラメータである。
このように、非特許文献1の方式では、提案点を決定するために利用する獲得関数が、GP回帰に基づいて定義される。獲得関数atとしてLCB以外を採用する場合も、提案点を決定するために利用する獲得関数が、GP回帰に基づいて定義される。
非特許文献1の方式においても、採用する獲得関数の種類が同じであれば、獲得関数に関する数式は、標準的なベイズ最適化方式と同じである。但し、非特許文献1のベイズ最適化方式では、獲得関数atが最大の点を求める範囲がD次元空間ではなく、1次元探索空間であることが、標準的なベイズ最適化方式とは異なる。
予測値の期待値Eは、下記(23)式のように変形できる。((K+σ2I)-1y)[n]は、観測データDt-1から定まる定数であり、k(x,xn)は、点xに依存する。
(23)式に示すk(x,xn)を定数((K+σ2I)-1y)[n]に対する重みだと解釈すると、k(x,xn)の絶対値が小さい観測点xnは、予測値の期待値Eへの寄与度が小さいことがわかる。k(x,xn)は類似度であり、負の値をとらないため、類似度k(x,xn)が小さい観測点xnは、予測値の期待値Eへの寄与度が小さい。また、類似度k(x,xn)が小さい観測点xnは、(21)式に示す予測値の分散Vへの寄与度も小さい。
本実施形態では、獲得関数の値を計算する必要がある点が、低次元探索空間St内の点に限定される。したがって、低次元探索空間Stに含まれる点x´との類似度k(x´,xn)が小さい観測点xnは、予測値の期待値E、予測値の分散V及び獲得関数atへの寄与度が小さい。
本実施形態の抽出データEtは、観測データDt-1から、所定の点x´に対する類似度k(x´,xn)がTt以上のxnに対応する組を抽出したものである。抽出データEtは、下記(24)式で表される。
したがって、抽出データEtは、予測値の期待値E、予測値の分散V及び獲得関数atの寄与度が大きい観測点に対応する組の集合である。
本実施形態では、予測値の期待値E、予測値の分散V及び獲得関数atは、それぞれ下記(25)、(26)及び(27)で表される。
例えば、獲得関数としてLCBを採用する場合、獲得関数atは、下記(28)式で表される。
獲得関数としてLCB以外を採用する場合も、提案点を決定するために利用する獲得関数atは、予測期の期待値Eや分散Vに基づいて定義される。
このように、本実施形態では、予測値の期待値E、予測値の分散V及び獲得関数atが、類似度k(x,xn)が大きく、寄与度が高い観測点xnに対応する組からなる抽出データEtを活用して近似されるため、近似の精度が高く、近似による劣化が小さい。
特許文献1の方式では、予測値の期待値E、予測値の分散V及び獲得関数atは、それぞれ下記(29)、(30)及び(31)で近似される。ここで、Ft={(xn,yn)|dist(St,xn)≦A,n=0,1,・・・,Nt-1-1}であり、dist(S,x)は、空間Sと点xの距離を返す関数である。Aは距離に関する閾値を表す。
空間Stと点xnの距離dist(St,xn)が小さいことと、点x(∈St)と点xnの類似度k(x,xn)が高いことは、必ずしも一致しない。よって、Ftは、寄与度が高い観測点xnに対応する組からなるデータとは限らず、特許文献1の方式は、近似による劣化が必ずしも小さくなく、近似精度が必ずしも高くない。したがって、特許文献1の方式は、探索効率が必ずしも良くない。
非特許文献1の方式では、観測データDt-1を利用するため、(K+σ2I)-1の計算オーダーは、Dt-1の要素数Nt-1に依存し、O(Nt-1
3)である。一方、本実施形態では、抽出データEt-1を利用するため、(K~+σ2I~)-1の計算オーダーは、Etの要素数Nt´に依存し、O(Nt´3)である。1≦Nt´≦Nt-1より、本実施形態における逆行列の計算コストは、非特許文献1の方式における逆行列の計算コスト以下である。Ttの値次第では、Nt´<Nt-1となる。この場合、本実施形態における逆行列の計算コストの方が、非特許文献1の方式における逆行列の計算コストより小さい。
このように本実施形態では、予測値の期待値と分散、および、獲得関数を高い精度で近似し、かつ、GP回帰における逆行列の計算コストが低い。したがって、本実施形態により、パラメータベクトル値の探索効率をできるだけ劣化させずに、GP回帰における逆行列の計算コストをできるだけ削減できる。
本実施形態の効果は、パラメータベクトル値の探索効率をできるだけ劣化させずに、GP回帰における逆行列の計算コストをできるだけ削減するだけにとどまらない。場合によっては、パラメータ最適化の探索効率の改善効果もある。
図4は、D=2の場合のD次元空間において、7つの観測点で目的関数の値が観測済みの状態を表す図である。図4に含まれる左側のグラフ41について、横軸はD次元パラメータベクトルの第0要素に対応し、縦軸は第1要素に対応する。奥行方向の軸は、目的関数の値に対応する。7つの点各々は、D次元空間における観測点の位置を表す。破線は、低次元探索空間Stを表す。楕円の濃淡は、未知の目的関数fの値を表す。この濃淡において、黒は目的関数の値が小さいことを表し、白は目的関数の値が大きいことを表す。
図4に含まれる右側のグラフ42について、横軸は各観測点xn(n=0,1,・・・,6)の所定の点x´(∈St)に対する距離||xn-x´||を表し、縦軸はxnとx´の類似度k(xn,x´)を表す。実線の曲線は、スケール長が小さいsquared exponentialカーネル関数を表し、破線の曲線は、スケール長が大きいsquared exponentialカーネル関数を表す。
図4に示すように、スケール長が大きいsquared exponentialカーネル関数を利用すると、各観測点xnの類似度が比較的均等になり、スケール長が小さいsquared exponentialカーネル関数を利用すると、観測点xnによって類似度の大小に比較的差が出ることがわかる。
図4の目的関数fは、局所的に小さな値をとるため、低次元探索空間Stから局所解よりも離れた位置にある観測点xnは、St内の点に関する目的関数の値を予測するのに役立たない。そのため、この図4の例では、squared exponentialカーネル関数のスケール長は小さいことが好ましい。
前述の通り、カーネル関数のハイパーパラメータとしては、所定の値が採用されるか、観測データ、あるいは、後述の抽出データから推定した値が採用される。そのため、目的関数の形状に対して、最適な値が採用されるとは限らない。
スケール長が最適な値と比較して大きかった場合、GP回帰の予測精度が低いため、パラメータ最適化の探索効率が悪い。それに対して、本実施形態では、GP回帰に活用するのが観測データDt-1のうちの抽出データEtのみであり、類似度が小さい観測点を扱わない、すなわち、当該観測点の類似度を強制的に0に置き換えることに近い処理をしている。そのため、GP回帰の挙動が、スケール長を小さくして、最適なスケール長を採用した場合の挙動に近づく。その結果、観測データDt-1を利用する場合よりも、抽出データEtのみを利用した場合の方がパラメータ最適化の探索効率が向上する場合がある。
このように、本実施形態では、パラメータベクトル値の探索効率向上と、GP回帰における逆行列の計算コスト削減とを両立できる場合がある。この両立ができるのは、目的関数fが多数の局所解を持つときに限られない。スケール長が最適な値と比較して大きかった場合、この両立ができる。
<変形例1>
変形例1に係る抽出部103は、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間中の1つ以上の点のうち、低次元探索空間に含まれる点に対する類似度が大きい方から所定の割合までの1つ以上の点に対応する組の集合を抽出データとして抽出する。以下、変形例1について詳細に説明する。
変形例1に係る抽出部103は、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間中の1つ以上の点のうち、低次元探索空間に含まれる点に対する類似度が大きい方から所定の割合までの1つ以上の点に対応する組の集合を抽出データとして抽出する。以下、変形例1について詳細に説明する。
観測点xn(n=0,1,…,Nt-1-1)を、所定の点x´に対する類似度k(xn,x´)が大きい順に並べ直したものを、x”n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy”nで表す。抽出部103は、下記(32)式で表される抽出データEtを、Dt-1から抽出してもよい。ここで、rtは割合を表し、1/Nt-1以上1以下の値をとる。rtが1の場合、EtはDt-1と一致する。flооr(・)は、引数以下の最大の整数を返す関数である。
本実施形態のEtと本実施形態で示した{(xn,yn)|k(xn,x´)≧Tt,n=0,1,・・・,Nt-1-1}は、rtとTtの設定次第で等価になる。本変形例であれば、Etの要素数Nt´は、下記(33)式に示すように、rtにより直接的に制御可能である。
GP回帰の逆行列の計算コストは、Nt´に依存するため、計算コストを制御できる点において本変形例は優れている。
逆行列の計算コストは、Nt´が大きくなると急激に大きくなる一方で、Nt´が小さい場合の逆行列の計算コストは実用上の問題が生じないことが多い。そこで、時刻tが小さく、Dt-1の要素数Nt-1が少ないうちはrtを1に設すると良い。時刻tが大きく、EtをDt-1と一致させてNt´をNt-1と一致させると逆行列の計算コストが大きくなり過ぎる場合には、rtを1より小さく、かつ、計算時間が所望の時間以内になるように設定すると良い。これにより、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。
本実施形態において、所定の点x´を低次元探索空間Stにおけるある点と定義する場合は、下記(34)式が成り立つ。
この場合、(34)式の最大類似度maxk(xn,x´)が大きい順に並べ直したものを、x”n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy”nで表す。抽出部103は、下記(35)式で表される抽出データEtを、Dt-1から抽出してもよい。
(35)式のEtと(34)式のEtは、rtとTtの設定次第で等価になる。本変形例であれば、Etの要素数Nt´は、下記(36)式に示すように、rtにより直接的に制御可能である。
GP回帰の逆行列の計算コストは、Nt´に依存するため、計算コストを制御できる点において本変形例は優れている。また、rtを前述と同様に制御することで、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。
<変形例2>
変形例2に係る提案部104は、D次元空間中の2つの点の類似度を、D次元空間に含まれる低次元探索空間であるR次元アフィン部分空間に付随する線型部分空間の直交補空間の成分から計算する。以下、変形例2について詳細に説明する。
変形例2に係る提案部104は、D次元空間中の2つの点の類似度を、D次元空間に含まれる低次元探索空間であるR次元アフィン部分空間に付随する線型部分空間の直交補空間の成分から計算する。以下、変形例2について詳細に説明する。
本実施形態において、抽出データEtは、下記(37)式で表される例を示した。
例えば、カーネル関数がsquared exponentialカーネル関数である場合、関数PStの定義から、下記(38)式が成り立つ。(ID-PUt)は、Stに付随するRt次元線型部分空間Utの直交補空間Ut
⊥への正射影行列である。
D次元空間中の任意の点xは、下記(39)式で表される。すなわち、D次元空間中の任意の点xは、(39)式の右辺第1項と右辺第2項の成分に分解できる。前者を点xのUt成分と呼び、後者を点xのUt
⊥成分と呼ぶ。(ID-PUt)(xn-xbt-1)は、観測点xnと最良観測点xbt-1の差分ベクトル(xn-xbt-1)のUt
⊥成分であり、Ut成分を持たない。
D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元である場合、(ID-PUt)は対角行列であり、その対角成分のうちでRt個の座標軸に対応するRt個の成分が0で、残りの(D-Rt)個の成分が1である。Rt個の成分がUt成分に対応し、残りの(D-Rt)個の成分がUt
⊥成分に対応する。したがって、(ID-PUt)(xn-xbt-1)は、xnとxbt-1のUt
⊥成分に対応する(D-Rt)個の成分のみを参照するだけで計算できる。
本変形例では、この性質を利用し、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させ、Ut
⊥成分に対応する(D-Rt)個の成分のみを参照してk(xn,PSt(xn)を計算し、抽出データEtを抽出する。Ut成分については値を参照しないで済むため、計算コストを削減できる。
<変形例3>
本実施形態において抽出部103は、下記(40)式に示すように、類似度k(xn,x´)が所定の値Tt以上という基準で抽出データEtを抽出する例を示した。
本実施形態において抽出部103は、下記(40)式に示すように、類似度k(xn,x´)が所定の値Tt以上という基準で抽出データEtを抽出する例を示した。
変形例3に係る抽出部103は別の基準で抽出データEtを抽出する。カーネル関数がsquared exponentialカーネル関数である場合、k(xn,x´)≧Ttが成り立つことは、下記(41)式が成り立つことと等価である。
また、Tt≦θσ
2と仮定すると、k(xn,x´)≧Ttが成り立つことは、距離||xn-x´||について下記(42)式が成り立つことと等価である。
変形例3に係る抽出部103は、距離||xn-x´||がスケール長θlのTt´倍以下という基準で抽出データEtを抽出する。したがって、Etに関して下記(43)式が成り立つ。
変形例3に係る抽出データEtは、類似度k(xn,x´)が所定の値Tt以上という基準で抽出した抽出データと同じになる。したがって、本実施形態と同じ効果が得られる。
(42)式に示すTt´の定義より、Tt´としては、ユーザがTtを与えるだけで、カーネル関数のハイパーパラメータθσに応じた適応的な値が設定される。距離||xn-x´||に対する閾値Tt´θlは、カーネル関数のハイパーパラメータθlに応じても適応的な値になる。よって、閾値Tt´θlは、距離||xn-x´||に対して、カーネル関数のハイパーパラメータθl,θσに応じて適応的に設定される。
Tt´は、(42)式に示すものに限定されない。この場合、抽出データが本実施形態と同じになる保証がなくなり、Tt´が信号標準偏差θσに依存しなくなる。この場合、対数や平方根の計算が不要になり、計算コストが削減される。この場合であっても、類似度k(xn,x´)が大きい組の集合が抽出データEtとして抽出される。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させ、Ut
⊥成分に対応する(D-Rt)個の成分のみを参照して||xn-x´||を計算しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
変形例3では、カーネル関数がsquared exponentialカーネル関数である場合を例示した。カーネル関数がsquared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部103は、記憶部101に記憶された観測データDt-1に含まれる観測点{xn|n=0,1,…,Nt-1-1)}のうち、低次元探索空間Stに含まれる所定の点x´に対する距離||xn-x´||がスケール長θlの係数倍以下である1つ以上の観測点に対応する組の集合を抽出データEtとして抽出しても良い。この場合、抽出データが本実施形態と同じになる保証がなくなるものの、類似度k(xn,x´)が大きい観測点xnに対応する組の集合が抽出データEtとして抽出される。
<変形例4>
変形例4に係る抽出部103は、カーネル関数がハイパーパラメータとしてスケール長を有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対するD次元空間の各座標軸方向におけるD個の距離が全てスケール長の係数倍以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、抽出部103は、全てのd=0,1,…,D-1について点xnと点x´の第d成分の差の絶対値がスケール長θlのTt´´倍以下という基準で抽出データEtを抽出しても良い。ここで、Tt´´はユーザが設定する係数である。この場合、Etは、下記(44)式で表される。
変形例4に係る抽出部103は、カーネル関数がハイパーパラメータとしてスケール長を有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対するD次元空間の各座標軸方向におけるD個の距離が全てスケール長の係数倍以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、抽出部103は、全てのd=0,1,…,D-1について点xnと点x´の第d成分の差の絶対値がスケール長θlのTt´´倍以下という基準で抽出データEtを抽出しても良い。ここで、Tt´´はユーザが設定する係数である。この場合、Etは、下記(44)式で表される。
(44)式からわかる通り、D次元空間における各座標軸方向d(=0,1,…,D-1)での距離|(xn)[d]-(x´)[d]|に対して、カーネル関数のハイパーパラメータに応じて適応的な閾値が設定される。本変形例4は、変形例3と等価ではないものの、近似になっている。したがって、変形例3とほぼ同じ効果が得られる。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させれば、Ut
⊥成分に対応する(D-Rt)個の全てのdについて点xnと点x´の第d成分の差の絶対値がスケール長θlのTt´´倍以下という基準で抽出データEtを抽出しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
<変形例5>
変形例5に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が所定の値以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の2乗の計算において、抽出部103は、D次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。以下、変形例5について詳細に説明する。
変形例5に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が所定の値以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の2乗の計算において、抽出部103は、D次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。以下、変形例5について詳細に説明する。
カーネル関数がARD squared exponentialカーネル関数である場合、k(xn,x´)≧Ttが成り立つことは、下記(45)式が成り立つことと等価である。
また、下記(46)式でTt´´´を定義すると、(45)式が成り立つことは、下記(47)式が成り立つことと等価である。
(46)式の定義式より、ユーザがTtを与えるだけで、カーネル関数のハイパーパラメータθσに応じた適応的な閾値Tt´´´が設定される。
カーネル関数がARD squared exponentialカーネル関数である場合、抽出部103は、点xnと点x´の正規化ユークリッド距離の2乗がTt´´´以下という基準で抽出データEtを抽出しても良い。ここで、正規化ユークリッド距離の2乗の計算においては、各次元の標準偏差として、D次元スケール長ベクトルθlの各要素の値を採用するものとする。この場合、Etに関して下記(48)式が成り立つ。
Tt´´´は、(46)式に示すものに限定されない。この場合、抽出データが第1の実施形態と同じになる保証がなくなり、Tt´´´が信号標準偏差θσに依存しなくなる。この場合、対数の計算が不要になり、計算コストが削減される。この場合であっても、類似度k(xn,x´)が大きい組の集合が抽出データEtとして抽出される。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させ、Ut
⊥成分に対応する(D-Rt)個の成分のみを参照して正規化ユークリッド距離の2乗を計算しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
本変形例では、カーネル関数がARD squared exponentialカーネル関数である場合を例示した。カーネル関数がARD squared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてD次元スケール長ベクトルを持つ場合、抽出部103が記憶部101に記憶された観測データDt-1に含まれる観測点{xn|n=0,1,…,Nt-1-1)}のうち、低次元探索空間Stに含まれる所定の点x´に対する正規化ユークリッド距離の2乗が所定の値以下である1つ以上の観測点に対応する組の集合を抽出データEtとして抽出しても良い。この場合、抽出データが第1の実施形態と同じになる保証がなくなるものの、類似度k(xn,x´)が大きい観測点xnに対応する組の集合が抽出データEtとして抽出される。
<変形例6>
変形例6に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対するD次元空間の各座標軸方向におけるD個の全ての距離が前記スケール長のベクトルの対応する要素の係数倍以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、カーネル関数がハイパーパラメータとしてD次元スケール長ベクトルを有する場合、抽出部103は、全てのd=0,1,…,D-1について点xnと点x´の第d成分の差の絶対値がD次元スケール長ベクトルθlの第d要素のTt´´´´倍以下という基準で抽出データEtを抽出しても良い。ここで、Tt´´´´はユーザが設定する係数である。この場合、Etは、下記(49)式で表される。
変形例6に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対するD次元空間の各座標軸方向におけるD個の全ての距離が前記スケール長のベクトルの対応する要素の係数倍以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。具体的には、カーネル関数がハイパーパラメータとしてD次元スケール長ベクトルを有する場合、抽出部103は、全てのd=0,1,…,D-1について点xnと点x´の第d成分の差の絶対値がD次元スケール長ベクトルθlの第d要素のTt´´´´倍以下という基準で抽出データEtを抽出しても良い。ここで、Tt´´´´はユーザが設定する係数である。この場合、Etは、下記(49)式で表される。
(49)式からわかる通り、D次元空間における各座標軸方向d(=0,1,…,D-1)での距離|(xn)[d]-(x´)[d]|に対して、カーネル関数のハイパーパラメータに応じて適応的な閾値が設定される。これは、変形例5と等価ではないものの、近似になっている。したがって、変形例5とほぼ同じ効果が得られる。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させれば、Ut
⊥成分に対応する(D-Rt)個の全てのdについて点xnと点x´の第d成分の差の絶対値がスケール長ベクトルθlの第d要素のTt´´´´倍以下という基準で抽出データEtを抽出しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
<変形例7>
カーネル関数がsquared exponentialカーネル関数である場合に、観測点xn(n=0,1,…,Nt-1-1)を、所定の点x´に対する距離||xn-x´||が小さい順に並べ直したものを、x’’n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy’’nで表す。抽出部103は、下記(50)式で表される抽出データEtを、Dt-1から抽出してもよい。ここで、変形例1と同様に、rtは割合を表し、1/Nt-1以上1以下の値をとる。rtが1の場合、EtはDt-1と一致する。flооr(・)は、引数以下の最大の整数を返す関数である。
カーネル関数がsquared exponentialカーネル関数である場合に、観測点xn(n=0,1,…,Nt-1-1)を、所定の点x´に対する距離||xn-x´||が小さい順に並べ直したものを、x’’n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy’’nで表す。抽出部103は、下記(50)式で表される抽出データEtを、Dt-1から抽出してもよい。ここで、変形例1と同様に、rtは割合を表し、1/Nt-1以上1以下の値をとる。rtが1の場合、EtはDt-1と一致する。flооr(・)は、引数以下の最大の整数を返す関数である。
本変形例のEtと変形例3のEtは、rtとTt´の設定次第で等価になる。本変形例であれば、Etの要素数Nt´は、下記(51)式に示すように、rtにより直接的に制御できる点が変形例5とは異なる。
GP回帰の逆行列の計算コストは、Nt´に依存するため、計算コストを制御できる点において本変形例は優れている。
逆行列の計算コストは、Nt´が大きくなると急激に大きくなる一方で、Nt´が小さい場合の逆行列の計算コストは実用上の問題が生じないことが多い。そこで、時刻tが小さく、Dt-1の要素数Nt-1が少ないうちはrtを1に設定すると良い。時刻tが大きく、EtをDt-1と一致させてNt´をNt-1と一致させると逆行列の計算コストが大きくなり過ぎる場合には、rtを1より小さく、かつ、計算時間が所望の時間以内になるように設定すると良い。これにより、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させ、Ut
⊥成分に対応する(D-Rt)個の成分のみを参照して正規化ユークリッド距離の2乗を計算しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
本変形例では、カーネル関数がsquared exponentialカーネル関数である場合を例示した。カーネル関数がsquared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部103は、記憶部101に記憶された観測データDt-1に含まれる観測点{xn|n=0,1,…,Nt-1-1)}のうち、低次元探索空間Stに含まれる所定の点x´に対する距離||xn-x´||が小さい方から所定の割合の観測点に対応する組の集合を抽出データEtとして抽出しても良い。この場合であっても、類似度k(xn,x´)が大きい観測点xnに対応する組の集合が抽出データEtとして抽出される。
<変形例8>
変形例8に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上の前記パラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が小さい方から所定の割合以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の2乗の計算において抽出部103は、D次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。
変形例8に係る抽出部103は、類似度を計算するカーネル関数がハイパーパラメータとしてスケール長のベクトルを有する場合、記憶部101に記憶された観測データに含まれる1つ以上の前記パラメータベクトル値が表すD次元空間に含まれる1つ以上の点のうち、低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が小さい方から所定の割合以下である1つ以上の点に対応する組の集合を抽出データとして抽出する。正規化ユークリッド距離の2乗の計算において抽出部103は、D次元空間の各座標軸方向に対応する標準偏差として、スケール長のベクトルの各要素の値を採用する。
カーネル関数がARD squared exponentialカーネル関数である場合に、観測点xn(n=0,1,…,Nt-1-1)を、所定の点x´に対する正規化ユークリッド距離の2乗が小さい順に並べ直したものを、x*
n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy*
nで表す。ここで、正規化ユークリッド距離の2乗の計算においては、D次元空間の各座標軸方向に対応する標準偏差として、D次元スケール長ベクトルθlの各要素の値を採用する。したがって、正規化ユークリッド距離の2乗は、観測点xnの所定の点x´に対する正規化ユークリッド距離の2乗は、下記(52)式で表される。
抽出部103は、下記(53)式で表される抽出データEtを、Dt-1から抽出してもよい。ここで、変形例1と同様に、rtは割合を表し、1/Nt-1以上1以下の値をとる。rtが1の場合、EtはDt-1と一致する。flооr(・)は、引数以下の最大の整数を返す関数である。
本変形例のEtと変形例5のEtは、rtとTt´´´の設定次第で等価になる。本変形例であれば、Etの要素数Nt´は、下記(54)式に示すように、rtにより直接的に制御できる点が変形例5とは異なる。
GP回帰の逆行列の計算コストは、Nt´に依存するため、計算コストを制御できる点において本変形例は優れている。
逆行列の計算コストは、Nt´が大きくなると急激に大きくなる一方で、Nt´が小さい場合の逆行列の計算コストは実用上の問題が生じないことが多い。そこで、時刻tが小さく、Dt-1の要素数Nt-1が少ないうちはrtを1に設定すると良い。時刻tが大きく、EtをDt-1と一致させてNt´をNt-1と一致させると逆行列の計算コストが大きくなり過ぎる場合には、rtを1より小さく、かつ、計算時間が所望の時間以内になるように設定すると良い。これにより、パラメータ最適化の探索効率をほとんど劣化させずに、逆行列の計算コストを抑制できる。
x´=PSt(xn)とする場合、D次元空間中のRt個の座標軸に沿ったRt個のベクトルの全てがRt次元線型部分空間Utの元になるという制約の下でUtを時刻tに応じて変化させ、Ut
⊥成分に対応する(D-Rt)個の成分のみを参照して正規化ユークリッド距離の2乗を計算しても良い。Ut成分については値を参照しないで済むため、計算コストを削減できる。
本変形例では、カーネル関数がARD squared exponentialカーネル関数である場合を例示した。カーネル関数がARD squared exponentialカーネル関数ではない場合であっても、ハイパーパラメータとしてスケール長を有する場合、抽出部103は、記憶部101に記憶された観測データDDt-1に含まれる観測点{xn|n=0,1,…,Nt-1-1)}のうち、低次元探索空間Stに含まれる所定の点x´に対する前述の正規化ユークリッド距離の2乗が小さい方から所定の割合の観測点に対応する組の集合を抽出データEtとして抽出しても良い。この場合であっても、類似度k(xn,x´)が大きい観測点xnに対応する組の集合が抽出データEtとして抽出される。
<変形例9>
本実施形態に係る抽出部103は、時刻tのS203において、観測データDt-1から抽出データEtを抽出するものとした。この抽出の際に利用するカーネル関数によっては、ハイパーパラメータが存在する。抽出データEtの抽出がカーネル関数のハイパーパラメータに依存する場合、ハイパーパラメータを事前に定める必要がある。なお、ハイパーパラメータとしては、スケール長またはスケール長のベクトルを想定する。
本実施形態に係る抽出部103は、時刻tのS203において、観測データDt-1から抽出データEtを抽出するものとした。この抽出の際に利用するカーネル関数によっては、ハイパーパラメータが存在する。抽出データEtの抽出がカーネル関数のハイパーパラメータに依存する場合、ハイパーパラメータを事前に定める必要がある。なお、ハイパーパラメータとしては、スケール長またはスケール長のベクトルを想定する。
採用したカーネル関数がハイパーパラメータを持っている場合、その値を事前に決定すると良い。その値は定数にしても良いし、時刻tに応じて変化させても良い。定数にする場合、抽出部103がそのハイパーパラメータ値を記憶すると良い。
カーネル関数のハイパーパラメータを時刻tに応じて変化させる場合、各時刻tのS203において抽出部103は、Etを抽出するためだけに、観測データDt-1、あるいは、抽出データEtからハイパーパラメータ値を推定すると、そのための計算コストが大きい。仮に非特許文献1の方式を比較対象とする場合、非特許文献1の方式には抽出データEtを抽出する処理自体が存在しないため、この計算コストは小さいことが好ましい。
図5は、変形例9に係るパラメータ最適化システム5の機能構成例を示す図である。図5に示すように、変形例9に係るパラメータベクトル値提案装置500では、記憶部101がハイパーパラメータも記憶する。以下、変形例9の処理について変形点のみを説明する。なお以下の説明において、本実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。
時刻tが1である場合のS203において抽出部103は、観測データD0からハイパーパラメータ値を推定し、ハイパーパラメータ推定法としては、既存の任意の方式を利用する。推定したハイパーパラメータ値を利用して抽出データEtを抽出する。
時刻tにおけるS204において提案部104は、抽出データEtからハイパーパラメータ値を推定する。ハイパーパラメータ推定法としては、既存の任意の方式を利用する。推定したハイパーパラメータ値は、記憶部101に供給される。記憶部101は、受け取ったハイパーパラメータ値を記憶する。推定したハイパーパラメータ値は、提案点を決定するために利用する獲得関数atの定義にも反映される。
時刻tが2以降のS203において抽出部103は、記憶部101からハイパーパラメータ値を取得する。取得するハイパーパラメータ値は、時刻(t-1)において提案部104が推定したハイパーパラメータ値とする。抽出部103は、抽出部103から取得したハイパーパラメータ値を利用して抽出データEtを抽出する。
本変形例では、提案部104が直前の時刻で推定したハイパーパラメータ値を流用して抽出部103が抽出データEtを抽出するため、抽出部103においてハイパーパラメータ値を推定する必要がないという利点がある。
<変形例10>
図6は、図2に示すパラメータ最適化処理に対応し、変形例10に係る疑似プログラムコードを示す図である。以下、図3との差分のみを説明する。
図6は、図2に示すパラメータ最適化処理に対応し、変形例10に係る疑似プログラムコードを示す図である。以下、図3との差分のみを説明する。
S601はS301と同じであり、S602はS302と同じである。
S603は、S303のfor文のt=1に対応している。図3では、時刻tがS303のfor文でインクリメントされるのに対し、図6では、後述のS616でインクリメントされる。
S604は、図3にはないfor文である。このfor文では、後述のS605のfor文をJ回反復する。Jと後述のG及びLによって、時刻tの最大値が決まる。
S605は、図3にはないfor文である。このfor文では、S606からS617までの処理をG回反復する。
S606は、処理内容がS304と同じである。処理のタイミングは異なる。S304は、時刻が1だけ進む度に処理されるのに対し、S606は、時刻tをインクリメントする後述のS616を含む後述のS610のfor文の外側にあるため、時刻が後述のLだけ進む度に処理される。
S607は、処理内容がS305と同じである。処理のタイミングは異なる。S305は、時刻が1だけ進む度に処理されるのに対し、S607は、時刻tをインクリメントする後述のS616を含む後述のS610のfor文の外側にあるため、時刻が後述のLだけ進む度に処理される。
S608は、処理内容がS306と同じである。処理のタイミングは異なる。S306は、時刻が1だけ進む度に処理されるのに対し、S608は、時刻tをインクリメントする後述のS616を含む後述のS610のfor文の外側にあるため、時刻が後述のLだけ進む度に処理される。
S609は、処理内容がS307と同じである。処理のタイミングは異なる。S307は、時刻が1だけ進む度に処理されるのに対し、S609は、時刻tをインクリメントする後述のS616を含む後述のS610のfor文の外側にあるため、時刻が後述のLだけ進む度に処理される。
S610は、図3にはないfor文である。このfor文では、S611からS616までの処理をL回反復する。低次元探索空間Stを更新するためのS606からS608までの処理がこのfor文の外側にあるため、このfor文の中では、Stは変化しない。
S611は、処理内容がS308と同じである。処理タイミングも、時刻が1だけ進む度という意味で同じである。
S612は、処理内容がS309と同じである。処理タイミングも、時刻が1だけ進む度という意味で同じである。
S613は、処理内容がS310と同じである。処理タイミングも、時刻が1だけ進む度という意味で同じである。
S614において抽出部103は、抽出データEt-1と組(xNt-1,yNt-1)とを統合することで、抽出データEtを生成する。xNt-1は、提案部104が低次元探索空間Stの中で求めた提案点であるため、Stの元である。したがって、提案点xNt-1と所定の点x´に対する類似度k(xNt-1,x´)は大きい。例えば、カーネル関数がsquared exponentialカーネル関数であり、x´=PSt(xn)とする場合、下記(55)式が成り立つ。これは、この条件下で類似度がとり得る値の最大値である。よって、もし、S307をS614のタイミングで処理したとしても、S614で処理した場合と同じ抽出データEtが生成される。したがって、条件次第では、S614は、S307と等価である。
S615は、処理内容がS311と同じである。処理タイミングも、時刻が1だけ進む度という意味で同じである。S616は、S303のfor文における時刻tのインクリメントに対応している。
S617は、図3にはないfor文であり、前述のS610と対応している。S618は、図3にはないfor文であり、前述のS605に対応している。S619は、図3にはないfor文であり、前述のS604に対応している。
S620では、S616で時刻tをインクリメントした回数でTを定義する。このTは、S303のTと対応している。
S621は、S313と同じである。S622は、S314と同じである。
図6の疑似コードでは、低次元探索空間Stに関わるS606からS608までの処理が、時刻がL進む度にしか実行されない。この疑似コードによる処理は、その時間だけStを固定して、その固定したStの中で提案、観測、更新を反復する。
S607においてUtは、gに応じて変化させて設定しても良い。例えば、Rtを時刻tによらず1とし、G=Dとして、D次元空間における各座標軸方向にgを対応させ、gに対応する1次元線型部分空間をUtとすると良い。
Utは、別の規則で設定しても良い。その一例について説明する。0からD-1の整数を要素に持つ集合をG個定義し、hg(g=0,1,・・・,G-1)で表す。hgの要素数は、1以上とする。例えば、h0={0,1},h1={2,3,4,5},h2={6},・・・,hG-1={D-2,D-1}とする。S605のgと対応させて、D次元空間におけるhgの要素に対応する各座標軸の方向ベクトルのみを基底ベクトルに持つRt次元線型部分空間をUtとすると良い。この場合、Rt=#(hg)となる。ここで、#(・)は、要素数を返す関数である。これにより、gに応じてUtの基底ベクトルが変化する。すなわち、gに応じて、Utの次元と方向が変化する。この例において、hg(g=0,1,・・・,G-1)は様々に変更できる。Rtを時刻tによらず1とし、G=Dとして、D次元空間における各座標軸方向にgを対応させ、gに対応する1次元線型部分空間をUtとする場合の例は、h0={0},h1={1},・・・,hG-1={D-1}とした場合に対応する。
各hgの要素数は、jによらず一定でも良いし、jに応じて変化させても良い。各hgの要素数をjに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。各hgの要素は、jによらず一定でも良いし、jに応じて変化させても良い。各hgの要素をjに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。
Utは、さらに別の規則で設定しても良い。その一例について説明する。D次元ベクトルを要素に持つ集合をG個定義し、ug(g=0,1,・・・,G-1)で表す。ugの要素数は、1以上とする。例えば、u0={v0,0,v0,1},u1={v1,0,v1,1,v1,2,v1,3},u2={v2,0},・・・,uG-1={vG-1,0,vG-1,1}とする。S605のgと対応させて、ugの要素である各D次元ベクトルのみを基底ベクトルに持つRt次元線型部分空間をUtとすると良い。この場合、Rt=#(ug)となる。これにより、gに応じてUtの基底ベクトルが変化する。この場合のUtは、D次元空間の座標軸方向と沿っているとは限らない。
各ugの要素数は、jによらず一定でも良いし、jに応じて変化させても良い。各ugの要素数をjに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。各ugの要素は、jによらず一定でも良いし、jに応じて変化させても良い。各ugの要素をjに応じて変化させる場合、ランダムに変化させても良いし、所定の規則で変化させても良い。
S607において、Rt(<D)次元のUtを設定することにより、Stの次元もDより小さいRt次元となるため、パラメータ最適化の探索効率が向上する。
図6の疑似コードは、3つのfor文を含んでいたが、図3と同様に、for文としては時刻tに関するもののみを含み、図6と処理内容が等価の疑似コードに変形できる。変形後の疑似コードは、図6のj、g及びlを別途、インクリメントする必要がある。また、g及びlについては、それぞれ、インクリメントによってG-1及びL-1に達した時点で0にリセットする処理も必要である。変形後の疑似コードの処理フローは、図2に対応する。したがって、hgやugに基づいてUtを制御する方法は、本実施形態にも適用できる。本変形例は図2に対応するため、本実施形態と同じ効果がある。
<変形例11>
変形例11に係る抽出部103は、類似度に関する累積寄与率に基づいて、観測データから抽出データを抽出する。以下、変形例11について詳細に説明する。
変形例11に係る抽出部103は、類似度に関する累積寄与率に基づいて、観測データから抽出データを抽出する。以下、変形例11について詳細に説明する。
変形例1と同様に、観測点xn(n=0,1,…,Nt-1-1)を、所定の点x´に対する類似度k(xn,x´)が大きい順に並べ直したものを、x”n(n=0,1,…,Nt-1-1)で表し、対応する観測値をy”nで表す。下記(56)式に示すように、類似度の総和に対する累積類似度の割合を類似度に関する累積寄与率と呼ぶ。
抽出部103は、この累積寄与率が所定の値以上になる最小のNを求め、下記(57)式で表される抽出データEtを、Dt-1から抽出してもよい。
(57)式によるEtの抽出は、k(x”N-1,x´)≧Tt>k(x”N,x´)を満足するTtを設定した(5)式によるEtの抽出と等価である。本実施形態において、k(x”N-1,x´)≧Tt>k(x”N,x´)を満足するTtを設定しても良い。したがって、本変形例は本実施形態と同様の効果がある。本変形例、あるいは、k(x”N-1,x´)≧Tt>k(x”N,x´)を満足するTtを設定した本実施形態における(23)式から(25)式への近似は、類似度に関する累積寄与率に対応しているため、近似精度についての説明性が高い。
<変形例12>
本実施形態及び複数の変形例を前述した。これらは、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明の範囲に含まれる。
本実施形態及び複数の変形例を前述した。これらは、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明の範囲に含まれる。
<ハードウェア構成>
図7は、パラメータベクトル値提案装置100,500のハードウェア構成例を示す図である。図7に示すように、パラメータベクトル値提案装置100,500は、処理回路71、主記憶装置72、補助記憶装置73、表示機器74、入力機器75及び通信機器76を備える。処理回路71、主記憶装置72、補助記憶装置73、表示機器74、入力機器75及び通信機器76は、バスを介して接続されている。
図7は、パラメータベクトル値提案装置100,500のハードウェア構成例を示す図である。図7に示すように、パラメータベクトル値提案装置100,500は、処理回路71、主記憶装置72、補助記憶装置73、表示機器74、入力機器75及び通信機器76を備える。処理回路71、主記憶装置72、補助記憶装置73、表示機器74、入力機器75及び通信機器76は、バスを介して接続されている。
処理回路71は、補助記憶装置73から主記憶装置72に読み出されたパラメータベクトル値提案プログラムを実行し、探索空間決定部102、抽出部103、提案部104及び制御部105として機能する。主記憶装置72は、RAM(Random Access Memory)等のメモリである。補助記憶装置73は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、及び、メモリカード等である。主記憶装置72及び補助記憶装置73は、記憶部101として機能する。
表示機器74は、種々の表示情報を表示する。表示機器74は、例えばディスプレイやプロジェクタ等である。
入力機器75は、コンピュータを操作するためのインタフェースである。入力機器75は、例えばキーボードやマウス等である。表示機器74及び入力機器75は、タッチパネルにより構成されてもよい。通信機器76は、観測装置200等の他の装置と通信するためのインタフェースである。
コンピュータで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、メモリカード、CD-R及びDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記録されてコンピュータ・プログラム・プロダクトとして提供される。
コンピュータで実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。またコンピュータで実行されるプログラムをダウンロードさせずにインターネット等のネットワーク経由で提供するように構成してもよい。
コンピュータで実行されるプログラムを、ROM等に予め組み込んで提供するように構成してもよい。コンピュータで実行されるプログラムは、パラメータベクトル値提案装置100,500の機能構成(機能ブロック)のうち、プログラムによっても実現可能な機能ブロックを含むモジュール構成となっている。当該各機能ブロックは、実際のハードウェアとしては、処理回路71が記憶媒体からプログラムを読み出して実行することにより、上記各機能ブロックが主記憶装置72上にロードされる。すなわち上記各機能ブロックは主記憶装置72上に生成される。
上述した各機能ブロックの一部又は全部をソフトウェアにより実現せずに、IC(Integrated Circuit)等のハードウェアにより実現してもよい。複数のプロセッサを用いて各機能を実現する場合、各プロセッサは、各機能のうち1つを実現してもよいし、各機能のうち2つ以上を実現してもよい。
パラメータベクトル値提案装置100,50を実現するコンピュータの動作形態は任意でよい。例えば、パラメータベクトル値提案装置100,50を1台のコンピュータにより実現してもよい。また例えば、パラメータベクトル値提案装置100,50を、ネットワーク上のクラウドシステムとして動作させてもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1,5…パラメータ最適化システム、71…処理回路、72…主記憶装置、73…補助記憶装置、74…表示機器、75…入力機器、76…通信機器、101…記憶部、102…探索空間決定部、103…抽出部、104…提案部、105…制御部、100,500…パラメータベクトル値提案装置、200…観測装置。
探索空間決定部102は、D次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定する。所定のパラメータベクトル値は、例えば、記憶部101に含まれる観測データのうちの観測値のうちの最良の観測値、例えば、最小値に対応するパラメータベクトル値が採用される。当該観測値を最良観測値と呼ぶ。
所定の点x´としては、低次元探索空間Stにおける位置を陽には定めず、低次元探索空間Stにおけるある点x´と定義しても構わない。この場合であっても、N´tが1以上となるTtを設定できる。低次元探索空間Stに含まれる点x´に対して類似度k(xn,x´)がTt以上であることは、低次元探索空間Stに含まれる全ての点x´に対する類似度k(xn,x´)の最大値、すなわち、最大類似度がTt以上であることと等価であるから、下記(9)式が成立する。この場合、(9)式のEtで、図3のS307に示すEtを置き換えることが可能である。すなわち、抽出部103は、記憶部101に記憶された観測データDt-1に含まれる1つ以上のパラメータベクトル値が表すD次元空間に含まれる1つ以上の点x
n のうち、低次元探索空間Stに含まれる全ての点x´に対する類似度k(xn,x´)の最大値である最大類似度が所定の値Tt以上である1つ以上の点に対応する組の集合を抽出データEtとして抽出する。
Claims (15)
- D(Dは2以上の整数)次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部と、
前記D次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定する探索空間決定部と、
前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出する抽出部と、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する提案部と、
を具備するパラメータベクトル値提案装置。 - 前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる全ての点に対する前記類似度の最大値である最大類似度が所定の値以上である1つ以上の点に対応する前記組の集合を前記抽出データとして抽出する、請求項1記載のパラメータベクトル値提案装置。
- 前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間中の1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が大きい方から所定の割合までの1つ以上の点に対応する前記組の集合を前記抽出データとして抽出する、請求項1記載のパラメータベクトル値提案装置。
- 前記提案部は、前記D次元空間中の2つの点の前記類似度を、前記D次元空間に含まれる前記低次元探索空間である前記R次元アフィン部分空間に付随する線型部分空間の直交補空間の成分から計算する、請求項1記載のパラメータベクトル値提案装置。
- 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する距離が前記スケール長の係数倍以下である1つ以上の点に対応する組の集合を前記抽出データとして抽出する、
請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する前記D次元空間の各座標軸方向におけるD個の距離が全て前記スケール長の係数倍以下である1つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が所定の値以下である1つ以上の点に対応する組の集合を前記抽出データとして抽出し、
前記抽出部は、前記正規化ユークリッド距離の2乗の計算において、前記D次元空間の各座標軸方向に対応する標準偏差として、前記スケール長のベクトルの各要素の値を採用する、
請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する前記D次元空間の各座標軸方向におけるD個の全ての距離が前記スケール長のベクトルの対応する要素の係数倍以下である1つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長を有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する距離が小さい方から所定の割合までの1つ以上の点に対応する組の集合を前記抽出データとして抽出する、請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長のベクトルを有し、
前記抽出部は、前記記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する正規化ユークリッド距離の2乗が小さい方から所定の割合以下である1つ以上の点に対応する組の集合を前記抽出データとして抽出し、
前記抽出部は、前記正規化ユークリッド距離の2乗の計算においては、前記D次元空間の各座標軸方向に対応する標準偏差として、前記スケール長のベクトルの各要素の値を採用する、
請求項1記載のパラメータベクトル値提案装置。 - 前記類似度を計算するカーネル関数は、ハイパーパラメータとしてスケール長またはスケール長のベクトルを有し、
前記提案部は、前記抽出データから前記スケール長または前記スケール長のベクトルを推定し、
前記記憶部は、前記提案部が推定した前記スケール長または前記スケール長のベクトルを記憶し、
前記抽出部は、前記記憶部に記憶された前記スケール長または前記スケール長のベクトルに基づいて前記抽出データを抽出する、
請求項1記載のパラメータベクトル値提案装置。 - 前記抽出部は、前記類似度に関する累積寄与率に基づいて、前記観測データから前記抽出データを抽出する、請求項1記載のパラメータベクトル値提案装置。
- D(Dは2以上の整数)次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定し、
前記D次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出し、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案する、
ことを具備するパラメータベクトル値提案方法。 - D(Dは2以上の整数)次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定し、
前記D次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間中の1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出し、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案し、
前記次に観測する点を表すパラメータベクトル値に基づいて前記次に観測する点を観測する、
ことを具備するパラメータ最適化方法。 - コンピュータに、
D(Dは2以上の整数)次元空間において所定のパラメータベクトル値が表す点を通るR(Rは1以上D未満の整数)次元アフィン部分空間を低次元探索空間として決定させる機能と、
前記D次元空間における点を表すパラメータベクトル値と当該点における目的関数の値の観測値との組の集合である観測データを記憶する記憶部に記憶された前記観測データに含まれる1つ以上の前記パラメータベクトル値が表す前記D次元空間に含まれる1つ以上の点のうち、前記低次元探索空間に含まれる点に対する類似度が所定の値以上である1つ以上の点に対応する組の集合を抽出データとして抽出させる機能と、
前記抽出データに基づいて、前記目的関数の値を次に観測する点を表すパラメータベクトル値を提案させる機能と、
を実現させるパラメータベクトル値提案プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021178991A JP2023067596A (ja) | 2021-11-01 | 2021-11-01 | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム |
US17/942,285 US11922165B2 (en) | 2021-11-01 | 2022-09-12 | Parameter vector value proposal apparatus, parameter vector value proposal method, and parameter optimization method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021178991A JP2023067596A (ja) | 2021-11-01 | 2021-11-01 | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023067596A true JP2023067596A (ja) | 2023-05-16 |
Family
ID=86145612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021178991A Pending JP2023067596A (ja) | 2021-11-01 | 2021-11-01 | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11922165B2 (ja) |
JP (1) | JP2023067596A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023067596A (ja) * | 2021-11-01 | 2023-05-16 | 株式会社東芝 | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698055B2 (en) * | 2004-11-16 | 2010-04-13 | Microsoft Corporation | Traffic forecasting employing modeling and analysis of probabilistic interdependencies and contextual data |
US7680266B2 (en) * | 2006-06-29 | 2010-03-16 | Caiado De Lamare Rodrigo | System and method for adaptive reduced-rank parameter estimation using an adaptive decimation and interpolation scheme |
WO2011002473A1 (en) * | 2009-07-01 | 2011-01-06 | Halliburton Energy Services | Estimating mineral content using geochemical data |
US8832000B2 (en) * | 2011-06-07 | 2014-09-09 | The Trustees Of Columbia University In The City Of New York | Systems, device, and methods for parameter optimization |
JP5988419B2 (ja) * | 2012-01-11 | 2016-09-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 予測方法、予測システムおよびプログラム |
WO2020000248A1 (zh) * | 2018-06-27 | 2020-01-02 | 大连理工大学 | 一种基于空间重构的航空发动机过渡态加速过程关键性能参数预测方法 |
JP7061536B2 (ja) | 2018-08-09 | 2022-04-28 | 株式会社東芝 | 最適化装置、シミュレーションシステム及び最適化方法 |
JP2022074880A (ja) | 2020-11-05 | 2022-05-18 | 株式会社東芝 | パラメータ最適化装置、方法及びシステム |
JP2023067596A (ja) * | 2021-11-01 | 2023-05-16 | 株式会社東芝 | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム |
CN114881076B (zh) * | 2022-04-29 | 2023-04-18 | 西南交通大学 | 基于支持向量机的钢轨波磨识别方法、装置、设备及介质 |
US11803142B1 (en) * | 2022-09-26 | 2023-10-31 | Toshiba Tec Kabushiki Kaisha | Image forming apparatus and control method thereof |
-
2021
- 2021-11-01 JP JP2021178991A patent/JP2023067596A/ja active Pending
-
2022
- 2022-09-12 US US17/942,285 patent/US11922165B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20230138810A1 (en) | 2023-05-04 |
US11922165B2 (en) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cavanaugh et al. | The Akaike information criterion: Background, derivation, properties, application, interpretation, and refinements | |
Bartók et al. | Partial monitoring—classification, regret bounds, and algorithms | |
Kozat et al. | Universal piecewise linear prediction via context trees | |
McMahan et al. | Delay-tolerant algorithms for asynchronous distributed online learning | |
JP5349407B2 (ja) | 平均値シフト手順を使用してサンプルをクラスタリングするプログラム | |
JP2011243088A (ja) | データ処理装置、データ処理方法、及び、プログラム | |
US20090228472A1 (en) | Optimization of Discontinuous Rank Metrics | |
US7730000B2 (en) | Method of developing solutions for online convex optimization problems when a decision maker has knowledge of all past states and resulting cost functions for previous choices and attempts to make new choices resulting in minimal regret | |
Wang et al. | Orthogonal subsampling for big data linear regression | |
JP2023067596A (ja) | パラメータベクトル値提案装置、パラメータベクトル値提案方法、パラメータ最適化方法及びパラメータベクトル値提案プログラム | |
Kronberger et al. | Evolution of covariance functions for gaussian process regression using genetic programming | |
EP2724252A2 (en) | Retail forecasting using parameter estimation | |
CN114442974A (zh) | 参数最优化装置、方法以及系统 | |
US8301579B2 (en) | Fast algorithm for convex optimization with application to density estimation and clustering | |
CN113919504A (zh) | 信息处理系统、信息处理方法及计算机可读存储介质 | |
US11321362B2 (en) | Analysis apparatus, analysis method and program | |
Pang et al. | Parametric simplex method for sparse learning | |
CN110648355A (zh) | 一种图像跟踪方法、系统及相关装置 | |
US20210182953A1 (en) | Systems and methods for optimal bidding in a business to business environment | |
US20140278472A1 (en) | Interactive healthcare modeling with continuous convergence | |
US11295229B1 (en) | Scalable generation of multidimensional features for machine learning | |
JP5659203B2 (ja) | モデル学習装置、モデル作成方法及びモデル作成プログラム | |
Knerr et al. | Slot-by-slot maximum likelihood estimation of tag populations in framed slotted aloha protocols | |
US11995077B2 (en) | Parameter optimization apparatus, method, and system | |
Weinhold et al. | A random forest approach for modeling bounded outcomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221202 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20230105 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240301 |