JP2016523402A - ベイズの最適化を実施するためのシステムおよび方法 - Google Patents

ベイズの最適化を実施するためのシステムおよび方法 Download PDF

Info

Publication number
JP2016523402A
JP2016523402A JP2016517028A JP2016517028A JP2016523402A JP 2016523402 A JP2016523402 A JP 2016523402A JP 2016517028 A JP2016517028 A JP 2016517028A JP 2016517028 A JP2016517028 A JP 2016517028A JP 2016523402 A JP2016523402 A JP 2016523402A
Authority
JP
Japan
Prior art keywords
objective function
point
function
objective
probability model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016517028A
Other languages
English (en)
Other versions
JP2016523402A5 (ja
JP6483667B2 (ja
Inventor
アダムス,ライアン,ピー.
スノーク,ローランド,ジャスパー
ラロシェル,ユーゴ
スワースキー,ケビン
ゼメル,リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Toronto
Original Assignee
University of Toronto
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Toronto filed Critical University of Toronto
Publication of JP2016523402A publication Critical patent/JP2016523402A/ja
Publication of JP2016523402A5 publication Critical patent/JP2016523402A5/ja
Application granted granted Critical
Publication of JP6483667B2 publication Critical patent/JP6483667B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のためのテクニック。このテクニックは、少なくとも1つのコンピュータハードウエアプロセッサを、複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること、同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の識別済み第1のポイントにおいて評価する第1の目的関数を選択すること、識別済み第1のポイントにおいて第1の目的関数を評価すること、評価の結果に基づいて同時確率モデルを更新して更新後の同時確率モデルを獲得すること、を実施するために使用することを包含する。

Description

関連出願に対するクロスリファレンス
本件出願は、35U.S.C.§119(e)の下に、「TECHNIQUES FOR PERFORMING BAYESIAN OPTIMIZATION」と題されて代理人文書番号第H0776.70085US00号の下に2013年5月30日に出願された米国特許仮出願第61/829090号、「TECHNIQUES FOR PERFORMING BAYESIAN OPTIMIZATION」と題されて代理人文書番号第H0776.70086US00号の下に2013年5月31日に出願された米国特許仮出願第61/829604号、および「TECHNIQUES FOR PERFORMING BAYESIAN OPTIMIZATION」と題されて代理人文書番号第H0776.70089US00号の下に2013年12月2日に出願された米国特許仮出願第61/910837号の恩典を請求するものであり、これらの文献のそれぞれは、その全体が参照によってこれに取り込まれる。
連邦政府支援の研究についての声明
本発明は、米国国防高等研究計画局(DARPA)によりYFA N66001−12−1−4219の下に与えられた政府の支援を伴ってなされた。政府は、本発明において然るべき権利を有する。
機械学習システムは、データを処理するために、1つまたは2つ以上の機械学習テクニック(たとえば、分類テクニック、クラスタリングテクニック、回帰テクニック、構造化された予測テクニック等)および/またはモデル(たとえば、統計モデル、ニューラルネットワーク、サポートベクターマシン、決定ツリー、グラフィカルモデル等)を使用するために構成され得る。機械学習システムは、限定的ではないが、テキスト解析、機械翻訳、発話処理、音処理、画像処理、視覚的対象物認識、および生物学データの分析を包含する異なるドメインにわたる広汎多様な応用の中で起こるデータを処理するために使用される。
いくつかの態様は、目的関数を使用する最適化の実施に関連した用途のための方法に関する。前記方法は、積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して当該目的関数を評価する少なくとも第1のポイントを識別すること、少なくとも識別済みの第1のポイントにおいて目的関数を評価すること、評価の結果を使用して目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること、を実施するために少なくとも1つのコンピュータハードウエアプロセッサを使用することを含む。
いくつかの態様は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体に関する。前記方法は、積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して当該目的関数を評価する少なくとも第1のポイントを識別すること、少なくとも識別済みの第1のポイントにおいて目的関数を評価すること、評価の結果を使用して目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること、を含む。
いくつかの態様は、目的関数を使用する最適化の実施に関連した用途のためのシステムに関する。前記システムは、少なくとも1つのコンピュータハードウエアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体とを含み、当該プロセッサ実行可能命令は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して当該目的関数を評価する少なくとも第1のポイントを識別すること、少なくとも識別済みの第1のポイントにおいて目的関数を評価すること、評価の結果を使用して目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること、を実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数が、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる。いくつかの態様においては、目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別におけるニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、積分後の取得ユーティリティ関数および目的関数の更新後の確率モデルを使用して当該目的関数を評価する少なくとも第2のポイントを識別すること、少なくとも識別済みの第2のポイントにおいて目的関数を評価すること、をさらに実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、確率モデルが少なくとも1つのパラメータを有し、積分後の取得ユーティリティ関数が、確率モデルの少なくとも1つのパラメータに関して初期取得ユーティリティ関数を積分することによって少なくとも部分的に獲得される。
先行する態様のうちのいずれかを含む、いくつかの態様において、初期取得ユーティリティ関数は、改善ユーティリティ関数の確率、期待される改善ユーティリティ関数、リグレット最小化ユーティリティ関数、およびエントロピーベースのユーティリティ関数からなる群から選択された取得ユーティリティ関数である。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数の確率モデルが、ガウス過程またはニューラルネットワークを含む。
先行する態様のうちのいずれかを含む、いくつかの態様においては、識別することが、マルコフ連鎖モンテカルロテクニックを使用することによって少なくとも部分的に実施される。
先行する態様のうちのいずれかを含む、いくつかの態様においては、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を評価する複数のポイントを識別すること、複数のポイントのそれぞれにおいて目的関数を評価すること、評価の結果に基づいて、目的関数が最大値に到達するポイントを識別するか、または近似すること、をさらに実施させる。
いくつかの態様は、目的関数を使用する最適化の実施に関連した用途のための方法に関する。前記方法は、第1のポイントにおいて目的関数を評価すること、第1のポイントにおける目的関数の評価が完了する前に、第1のポイントにおける目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること、第2のポイントにおいて目的関数を評価すること、を実施するために少なくとも1つのコンピュータハードウエアプロセッサを使用することを含む。
いくつかの態様は、目的関数を使用する最適化の実施に関連した用途のための方法に関する。前記方法は、第1のポイントにおいて目的関数の評価を開始すること、第1のポイントにおける目的関数の評価が完了する前に、第1のポイントにおける目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること、第2のポイントにおける目的関数の評価を開始すること、を実施するために少なくとも1つのコンピュータハードウエアプロセッサを使用することを含む。
いくつかの態様は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体に関する。前記方法は、第1のポイントにおいて目的関数の評価を開始すること、第1のポイントにおける目的関数の評価が完了する前に、第1のポイントにおける目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること、第2のポイントにおいて目的関数の評価を開始すること、を含む。
いくつかの態様は、目的関数を使用する最適化の実施に関連した用途のためのシステムに関する。前記システムは、少なくとも1つのコンピュータハードウエアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体とを含み、当該プロセッサ実行可能命令は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、第1のポイントにおいて目的関数の評価を開始すること、第1のポイントにおける目的関数の評価が完了する前に、第1のポイントにおける目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること、第2のポイントにおける目的関数の評価を開始すること、を実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数が、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別におけるニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、少なくとも1つのコンピュータハードウエアプロセッサが、第1のコンピュータハードウエアプロセッサおよび当該第1のコンピュータハードウエアプロセッサとは異なる第2のコンピュータハードウエアプロセッサを含み、プロセッサ実行可能命令が、少なくとも第1のコンピュータハードウエアプロセッサに、第1のポイントにおいて目的関数の評価を実施させ、かつ少なくとも第2のコンピュータハードウエアプロセッサに、第2のポイントにおいて目的関数の評価を実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、識別することが、第1のポイントにおける目的関数の潜在的な値に関して初期取得ユーティリティ関数の期待される値を計算することによって少なくとも部分的に獲得される取得ユーティリティ関数を使用することを含む。
先行する態様のうちのいずれかを含む、いくつかの態様においては、尤度が目的関数の確率モデルを使用して獲得され、かつ、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、目的関数の更新後の確率モデルを獲得する第1のポイントおよび/または第2のポイントにおいて目的関数を評価した結果を使用して目的関数の確率モデルを更新することをさらに実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、目的関数の更新後の確率モデルを使用して、目的関数を評価する少なくとも第3のポイントを識別すること、少なくとも識別済みの第3のポイントにおける目的関数の評価を開始すること、をさらに実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数の確率モデルが、ガウス過程またはニューラルネットワークを含む。
いくつかの態様は、第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のための方法に関する。前記方法は、取得ユーティリティ関数および目的関数の確率モデルの使用によって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること、目的関数の対応する第1の値を獲得するために識別済みの第1のポイントにおいて目的関数を評価すること、第1の値を使用して目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること、を実施するために少なくとも1つのコンピュータハードウエアプロセッサを使用することを含む。
いくつかの態様は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体に関する。前記方法は、取得ユーティリティ関数および目的関数の確率モデルの使用によって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること、目的関数の対応する第1の値を獲得するために識別済みの第1のポイントにおいて目的関数を評価すること、を含む。
いくつかの態様は、第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のためのシステムに関する。前記システムは、少なくとも1つのコンピュータハードウエアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体を含み、当該プロセッサ実行可能命令は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、取得ユーティリティ関数および目的関数の確率モデルの使用によって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること、目的関数の対応する第1の値を獲得するために識別済みの第1のポイントにおいて目的関数を評価すること、第1の値を使用して目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること、を実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数が、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別におけるニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を評価する第2のポイントを識別すること、目的関数の対応する第2の値を獲得するために識別済みの第2のポイントにおいて目的関数を評価すること、第2の値を使用して目的関数の更新後の確率モデルを更新して目的関数の第2の更新後の確率モデルを獲得すること、をさらに実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、非線形の1対1マッピングが全単射である。
先行する態様のうちのいずれかを含む、いくつかの態様においては、非線形の1対1マッピングが、ベータ分布の累積分布関数を含む。
先行する態様のうちのいずれかを含む、いくつかの態様においては、取得ユーティリティ関数が、積分後の取得ユーティリティ関数である。
先行する態様のうちのいずれかを含む、いくつかの態様においては、目的関数の確率モデルがガウス過程またはニューラルネットワークの使用によって少なくとも部分的に獲得される。
いくつかの態様は、それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のための方法に関する。前記方法は、複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること、当該同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の、識別済み第1のポイントにおいて評価する第1の目的関数を選択すること、識別済み第1のポイントにおいて第1の目的関数を評価すること、評価の結果に基づいて同時確率モデルを更新して更新後の同時確率モデルを獲得すること、を実施するために少なくとも1つのコンピュータハードウエアプロセッサを使用することを含む。
いくつかの態様は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体に関する。前記方法は、複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること、当該同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の、識別済み第1のポイントにおいて評価する第1の目的関数を選択すること、識別済み第1のポイントにおいて第1の目的関数を評価すること、評価の結果に基づいて同時確率モデルを更新して更新後の同時確率モデルを獲得すること、を含む。
いくつかの態様は、それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のためのシステムに関する。前記システムは、少なくとも1つのコンピュータハードウエアプロセッサと、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体を含み、当該プロセッサ実行可能命令は、少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、当該少なくとも1つのコンピュータハードウエアプロセッサに、複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること、当該同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の、識別済み第1のポイントにおいて評価する第1の目的関数を選択すること、識別済み第1のポイントにおいて第1の目的関数を評価すること、評価の結果に基づいて同時確率モデルを更新して更新後の同時確率モデルを獲得すること、を実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、第1の目的関数が、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、第1の目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別におけるニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、プロセッサ実行可能命令が、少なくとも1つのコンピュータハードウエアプロセッサに、複数の目的関数の更新後の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第2のポイントを識別すること、当該同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の、識別済み第1のポイントにおいて評価する第2の目的関数を選択すること、識別済み第1のポイントにおいて第2の目的関数を評価すること、をさらに実施させる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、第1の目的関数が、第2の目的関数とは異なる。
先行する態様のうちのいずれかを含む、いくつかの態様においては、複数の目的関数の同時確率モデルが、複数のタスク内のタスクの間の相関をモデリングする。
先行する態様のうちのいずれかを含む、いくつかの態様においては、複数の目的関数の同時確率モデルが、ベクトル値ガウス過程を含む。
先行する態様のうちのいずれかを含む、いくつかの態様においては、同時確率モデルが、複数のタスク内のタスクの間の相関をモデリングする第1の共分散カーネル、および複数の目的関数内の目的関数を評価できるポイント間の相関をモデリングする第2の共分散カーネルに、少なくとも部分的に基づいて獲得される共分散カーネルを含む。
先行する態様のうちのいずれかを含む、いくつかの態様においては、識別することが、コスト荷重エントロピーサーチユーティリティ関数に基づいてさらに実施される。
以上は、付随する特許請求の範囲によって定義される本発明の非限定的な概要である。
以下の図面に関して多様な側面および態様を説明する。当然のことながら、図面は、必ずしも縮尺通りには描かれていない。複数の図面内に現われる項目は、それらが現われるすべての図面内において同一または類似の参照番号によって示される。
図1は、機械学習システムの構成を例証するブロック図である。
図2A〜図2Bは、本明細書に記載されたテクノロジのいくつかの態様に従った、取得ユーティリティ関数を使用することによって目的関数の確率モデルを少なくとも部分的に反復的に更新する過程を示した図式である。 図2C〜図2Dは、本明細書に記載されたテクノロジのいくつかの態様に従った、取得ユーティリティ関数を使用することによって目的関数の確率モデルを少なくとも部分的に反復的に更新する過程を示した図式である。
図3A〜図3Bは、本明細書に記載されたテクノロジのいくつかの態様に従った、積分後の取得ユーティリティ関数を計算する過程を示した図式である。
図4は、本明細書に記載されたテクノロジのいくつかの態様に従った、積分後の取得関数および目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に使用する最適化を実施するための過程を例証するフローチャートである。
図5A〜図5Fは、2つの非定常目的関数に対する2つのワーピング関数の適用を例証する図式である。
図6は、本明細書に記載されたテクノロジのいくつかの態様に従った、複数のコンピュータハードウエアプロセッサを使用することによって目的関数を少なくとも部分的に使用する最適化を実施するための過程を例証するフローチャートである。
図7は、本明細書に記載されたテクノロジのいくつかの態様に従った、それぞれのタスクに対応する複数の目的関数の同時確率モデルを使用することによって少なくとも部分的にマルチタスク最適化を実施するための過程を例証するフローチャートである。
図8は、本明細書に記載された態様を実装できるコンピュータシステムを図解したブロック図である。
機械学習システムを構成するための従来的なテクニックは、システムの1つまたは2つ以上のパラメータをマニュアルで設定すること、およびシステムの1つまたは2つ以上のほかのパラメータを自動的に設定すること(たとえば、トレーニングデータを使用してパラメータの値を学習することによる)を伴う。たとえば、機械学習システムは、機械学習システムのトレーニングの前(たとえば、トレーニングデータを使用して機械学習システムの1つまたは2つ以上のほかのパラメータの値が学習される前)にマニュアルで値が設定される、しばしば「ハイパーパラメータ」とも呼ばれる1つまたは2つ以上のパラメータを有することができる。ハイパーパラメータは、機械学習システムのトレーニング中(たとえば、機械学習システムのパラメータを学習するための学習テクニックは、ハイパーパラメータの値に依存できる)およびランタイム中(たとえば、トレーニング済みの機械学習システムが新しいデータを処理する方法は、ハイパーパラメータの値に依存できる)に使用できる。
たとえば、図1に例証されているとおり、機械学習システム102は、最初にハイパーパラメータ104をマニュアル設定し、その後に続き、トレーニング段階110中に、トレーニングデータ108およびハイパーパラメータ104に基づいてパラメータ106aの値を学習させ、学習済みパラメータ値106bを獲得することによって構成できる。構成済み機械学習システム112のパフォーマンスが、その後評価段階116中に、試験データ114を使用して構成済み機械学習システム112のパフォーマンスの測度を提供する1つまたは2つ以上の値118を計算することによって評価される。パフォーマンスの測度118は、一般化パフォーマンスの測度および/またはそのほかのいずれかの好適なパフォーマンスの測度であるとすることができる。
1つの非限定的な例として、機械学習システム102は、1つまたは2つ以上のハイパーパラメータ(たとえば、1つまたは2つ以上の学習レート、1つまたは2つ以上のドロップアウトレート、1つまたは2つ以上の荷重ノルム、1つまたは2つ以上の隠れレイヤサイズ、ニューラルネットワークが畳み込みニューラルネットワークの場合の畳み込みカーネルサイズ、プーリングサイズ等)に関連付けされたマルチレイヤニューラルネットワークを含む対象物認識のための機械学習システムであるとすることができる。ハイパーパラメータは、従来的に、トレーニングデータに対するニューラルネットワークのトレーニングに先立ってマニュアル設定される。別の非限定的な例として、機械学習システム102は、潜在的ディリクレ配分(Dirichlet allocation)テクニックを使用してテキストを塊で処理するテキスト処理のための機械学習システムであるとすることができ、このテクニックは、多様なハイパーパラメータ(たとえば、1つまたは2つ以上の学習レート、グラフィカルモデルのトレーニングの各反復において処理するべきテキスト塊のサイズ等)に関連付けされた指向グラフィカルモデルの使用を伴う。これらのハイパーパラメータは、従来的に、トレーニングデータに対する指向グラフィカルモデルのトレーニングに先立ってマニュアル設定される。さらに別の非限定的な例として、機械学習システム102は、1つまたは2つ以上のハイパーパラメータ(たとえば、1つまたは2つ以上の正則化パラメータ、1つまたは2つ以上のエントロピー項、モデル収斂許容誤差等)に関連付けされるサポートベクターマシン(たとえば、潜在的構造化サポートベクターマシン)を含むタンパク質DNA配列の解析のための機械学習システムであるとすることができる。これらのハイパーパラメータは、従来的に、トレーニングデータに対するサポートベクターマシンのトレーニングに先立ってマニュアル設定される。当然のことながら、これらの例は例証であり、またほかにも多くの、従来的にマニュアル設定されるハイパーパラメータを有する機械学習システムの例が存在する。
機械学習システムのパフォーマンス(たとえば、一般化パフォーマンス)は、ハイパーパラメータに敏感であり、従来的に行なわれているように、機械学習システムのハイパーパラメータを「妥当な」値にマニュアル設定すること(すなわち、機械学習システムのマニュアルチューニング)は、システムの貧弱な、または最適に満たないパフォーマンスにつながることがある。実際、ハイパーパラメータの貧弱な設定と良好な設定との間の差異は、役立たない機械学習システムと最先端パフォーマンスを有するそれとの間の差異となり得る。
機械学習システムのハイパーパラメータを設定する1つの従来的アプローチは、ハイパーパラメータの異なる設定を試し、かかる各設定について機械学習システムのパフォーマンスを評価することである。しかしながら、かかる力ずくのサーチアプローチは、機械学習システムが多数のハイパーパラメータを有することができ、その結果、評価しなければならなくなる異なる設定が多くなり過ぎることから実践的でない。その上、ハイパーパラメータの各設定のための機械学習システムのパフォーマンスの評価は、多くの機械学習システムのトレーニングが非常に大きなトレーニングデータの集合を使用するために非常に演算的に過酷である機械学習システムの再トレーニングがハイパーパラメータの各設定について必要となることから、長時間を要するか、および/または大量の演算リソースを消費することがあり得る(たとえば、機械学習システムのトレーニングに数日を要する)。結果として、少数のハイパーパラメータ設定を評価する時間および/または演算リソースはあり得ても、可能なハイパーパラメータ設定の非常に多くの順列を網羅的に試すことは実現可能となり得ない。
機械学習システムのハイパーパラメータを設定する別の従来的なアプローチは、ベイズの最適化テクニックの使用である。このアプローチは、機械学習システムのハイパーパラメータを設定する問題を、機械学習システムの最良パフォーマンスに対応する機械学習システムのためのハイパーパラメータ値の集合を見つけ出すことを到達目標とする最適化問題として扱い、最適化テクニックを適用してこの最適化問題を解決することを伴う。このために、機械学習システムのハイパーパラメータ値とそのパフォーマンスとの間における関係を最適化問題のための目的関数と考えることができ(すなわち、目的関数が、機械学習システムのハイパーパラメータ値を、機械学習システムのパフォーマンスの測度を提供するそれぞれの値にマッピングする)、最適化問題の解決は、目的関数の定義域内の1つまたは2つ以上の極値ポイント(たとえば、極小値、極大値、最小値、最大値等)を見つけ出すことを伴う。しかしながら、パフォーマンスが、それのハイパーパラメータの値だけでなく、機械学習システムのトレーニングに使用されるトレーニングデータおよびそのほかの要因にも依存する(たとえば、図1に示されているとおり、パフォーマンスの測度118は、ハイパーパラメータ104だけでなく、トレーニングデータ108、試験データ114、トレーニング手順110の詳細等にも依存する)いずれかの実践的な機械学習システムのための閉形式の(たとえば、解析的な)目的関数は未知である。その上、目的関数をポイント毎に評価することはできるが(たとえば、機械学習システムのハイパーパラメータ値の各設定について、機械学習システムのパフォーマンスの測度を提供する値を獲得できる)、かかる各評価は、実施に有意の量の時間および/またはパワーを要求することになり得る。
したがって、目的関数の閉形式の解析的表現を要求する最適化テクニック(たとえば、グラジエントの計算を要求するテクニック)および/または多数の目的関数の評価を要求する最適化テクニック(たとえば、内点法)は、機械学習システムのハイパーパラメータ値を識別するための一般的に存立可能なアプローチではない。他方、ベイズの最適化テクニックは、目的関数の厳密な知識ないし多数の目的関数評価のいずれも要求しない。ベイズの最適化テクニックは目的関数の評価に頼るが、かかる評価の数を低減するために設計される。
ベイズの最適化は、目的関数の以前に獲得した評価に基づいて目的関数の確率モデルを築くこと、利用可能になった目的関数の新しい評価に基づいて確率モデルを更新すること、およびその確率モデルを使用して目的関数の極値ポイント(たとえば、1つまたは2つ以上の極小、極大、最小、最大等)を識別することを伴う。確率モデルは、いわゆる取得ユーティリティ関数(その例は、より詳細に後述する)とともに、次にどこで目的関数の評価を行なうかについての充分な情報を得た決定を行なうべく使用され、その新しい評価を、目的関数の確率モデルを更新するために使用できる。この方法においては、高い信頼性を伴う目的関数を正確に表現する確率モデルを獲得するために実施される目的関数の評価の数を低減できる。根本的な目的関数に対する確率モデルの忠実度が大きいほど、確率モデルの使用によって識別される1つまたは2つ以上の極値ポイントが目的関数の極値ポイントに対応すること(たとえば、良好に見積もられる/近似されること)がよりありがちになる。
したがって、機械学習システムのハイパーパラメータを設定する従来的なベイズの最適化アプローチは、機械学習システムのハイパーパラメータ値とそのパフォーマンスとの間の関係についての確率モデルを築くこと、およびいずれのハイパーパラメータ値を試すかについて充分な情報を得た決定を行なうべくこの確率モデルを取得ユーティリティ関数とともに使用することを伴う。この方法においては、ハイパーパラメータ値の集合のために機械学習システムのパフォーマンスを評価する回数を低減できる。
発明者らは、従来的なベイズの最適化テクニックを、機械学習システムのハイパーパラメータを設定するための従来的なベイズの最適化テクニックを含めて改善できることを認識した。発明者らは、従来的なベイズの最適化テクニックの1つの欠点が、目的関数の確率モデルのパラメータの値に対して過度に敏感なそのパフォーマンスにあることを認識した(たとえば、確率モデルのパラメータ値における小さな変化が、ベイズの最適化テクニックの包括的パフォーマンスにおける大きな変化につながることがある)。特に発明者らは、ベイズの最適化において次に目的関数を評価するべきポイントの識別(たとえば、機械学習システムのパフォーマンスを評価するハイパーパラメータ値の次の集合の識別)に使用される取得ユーティリティ関数が、目的関数の確率モデルのパラメータの値に敏感であり、そのことが、ベイズの最適化テクニックの貧弱な包括的パフォーマンスにつながり得ることを察知した。
したがって、いくつかの態様は、それぞれが確率モデルの異なるパラメータ値に対応する複数の取得関数の平均によって獲得された積分後の取得ユーティリティ関数を使用するベイズの最適化に関する(この種の平均は、しばしば、確率モデルのパラメータに関する「積分消去」と呼ばれる)。積分後の取得ユーティリティ関数は、目的関数の確率モデルのパラメータに対してあまり敏感でなくすることができ、そのことが、従来的なベイズの最適化テクニックの堅牢性およびパフォーマンスを改善できる。
発明者らは、機械学習システムのハイパーパラメータを設定するための従来的なベイズの最適化テクニックを含め、従来的なベイズの最適化テクニックの別の欠点は、それらが目的関数の以前のすべての評価の結果に基づいて目的関数を評価する次のポイントを選ぶ(たとえば、機械学習システムのパフォーマンスを評価するべきハイパーパラメータ値の次の集合を識別する)ことを要求するため、従来的なベイズの最適化テクニックが逐次的なテクニックとなることであると認識した。したがって、目的関数の各評価は、目的関数を評価する次のポイントが識別される前に完了されなければならない。そのため、目的関数のすべての評価が逐次的に(すなわち、一度に1つ)実施されている。
したがって、いくつかの態様は、目的関数の複数の評価が並列に実施されるように(たとえば、機械学習システムのための複数の異なるハイパーパラメータ値を、たとえば異なるコンピュータハードウエアプロセッサを使用して、同時に評価できるように)ベイズの最適化の並列化に関する。これらの態様においては、目的関数を評価する次のポイントを、以前に開始された1つまたは2つ以上の目的関数の評価の完了に先立って選択できるが、その選択は、未決の評価(たとえば、評価が実施中の特定のポイント)についての何らかの情報が、目的関数を評価する次のポイントを選択するときに斟酌されるように、目的関数の未決の評価の潜在的アウトカムのそれぞれの尤度に基づいて行なうことができる。目的関数の評価の並列化は、目的関数の評価が演算的にコスト高となるとき、たとえば、場合によってはトレーニングに長時間(たとえば、数日)を要する機械学習システムのためハイパーパラメータ値を識別するときに有用となり得る。
発明者らは、機械学習システムのハイパーパラメータを設定するための従来的なベイズの最適化テクニックを含め、従来的なベイズの最適化テクニックの別の欠点は、従来的なベイズの最適化テクニックが、非定常の目的関数のための好適な確率モデルとなり得ない定常ガウス過程を目的関数のモデリングに使用する(たとえば、定常ガウス過程を機械学習システムのハイパーパラメータ値とそのパフォーマンスとの間の関係のモデリングに使用する)ことであると認識した。たとえば、定常ガウス過程は、定常ガウス過程の2次統計が転換不変量である(たとえば、ガウス過程の共分散カーネルは転換不変量である)が、それに対して非定常目的関数のための2次統計が転換不変量でないことがあり得るため、非定常目的関数のための好適なモデルとはなり得ない。
したがって、いくつかの態様は、より忠実に定常および非定常目的関数をモデリングするために適応された確率モデルの使用によるベイズの最適化の実施に関する。いくつかの態様においては、目的関数の確率モデルを、目的関数の定義域内の要素の非線形の1対1マッピングに少なくとも部分的に基づいて指定できる。確率モデルがガウス過程を含む態様においては、ガウス過程の共分散カーネルを、その非線形の1対1マッピングを使用することによって少なくとも部分的に指定できる。
発明者らは、ベイズの最適化テクニックの別の欠点は、特定の最適化タスクの解決に適用したときに、それらが、関係のある最適化タスクへの同じテクニックの過去の適用中に獲得された情報を利用可能でないことであると認識した。たとえば、異なるデータセット(たとえば、画像の異なる集合)に対して機械学習システム(たとえば、画像の集合内の対象物を識別するためのニューラルネットワーク)を適用できるが、従来的なベイズの最適化テクニックは、各データセットについて(たとえば、画像の各集合について)機械学習システムのハイパーパラメータを改めて識別することを要求する。1つのデータセットを使用する機械学習システムのためハイパーパラメータを識別する間に獲得した以前の情報(たとえば、いずれのハイパーパラメータ値が機械学習システムのパフォーマンスを良好にしたか、およびいずれのハイパーパラメータ値が機械学習システムのパフォーマンスを貧弱にしたか)が、別のデータセットを使用する同じ機械学習システムのためハイパーパラメータ値を識別するためにまったく使用可能でない。
したがって、いくつかの態様は、特定の最適化タスクの解決に適用されたときに、ほかの1つまたは2つ以上の関係のある最適化タスクの解決の間に獲得された情報を利用できるベイズの最適化テクニックに関する。たとえば、いくつかの態様においては、第1のデータセットを使用する機械学習システムのためハイパーパラメータの設定の間に獲得された情報を、第1のデータセットとは異なる第2のデータセットを使用する機械学習システムのハイパーパラメータの設定に適用できる。この方法においては、以前に獲得した情報を使用して、機械学習システムのためハイパーパラメータをより効率的に(たとえば、実施が演算的にコストデータとなり得る目的関数の評価の、より少ない使用によって)設定できる。より一般的には、最適化タスクのうちの1つを解決する獲得済みの情報を、別の最適化タスクの解決に向けて使用できることから、複数の異なる最適化タスクのための最適化をより効率的に実施できる。
本明細書に記載されたテクノロジのいくつかの態様は、機械学習システムのハイパーパラメータを設定するための従来的なベイズの最適化テクニックを含めて、前述した従来的なベイズの最適化テクニックの欠点のいくつかを扱う。しかしながら、あらゆる態様が、これらの欠点をことごとく扱うわけではなく、いくつかの態様が、それらをまったく扱わないことはあり得る。そのため、本明細書に記載されたテクノロジの側面が、従来的なベイズの最適化テクニックの前述した欠点のすべてまたはいずれかを扱うことに限定されないことは察知されるものとする。
これもまた当然のことながら、本明細書に記載された態様は、非常に多くの方法のいずれかにおいて実装され得る。具体的な実装の例は、例証の目的だけのために以下に提供されている。当然のことながら、本明細書に記載された側面がこの点において限定されないことから、提供されているこれらの態様および特徴/性能は、個別に、すべてまとめて、または2つまたは3つ以上の組合せのいずれかにおいて使用できる。
いくつかの態様においては、ベイズの最適化テクニックが、目的関数の1つまたは2つ以上の以前に獲得した評価に基づいて目的関数の確率モデルを構築すること、および利用可能になった目的関数のいずれかの新しい評価に基づいて確率モデルを更新することを伴う。したがって、いくつかの態様においては、目的関数を使用する最適化を、取得ユーティリティ関数および目的関数の確率モデルを使用して目的関数を評価するポイントを識別する作用、識別済みのポイントにおいて目的関数を評価する作用、および評価の結果に基づいて確率モデルを更新する作用を、各反復において実施することによって、反復的に(1回または複数回の反復)実施できる。本明細書に記載されたベイズの最適化テクニックは、異なる応用の中に生じる非常に多くのタイプの目的関数のいずれにも適用できる。
前述したとおり、本明細書に記載されたベイズの最適化テクニックが適用できる目的関数の1つの非限定的な例は、機械学習システムの1つまたは2つ以上のハイパーパラメータの値を、ハイパーパラメータ値を用いて構成される機械学習システム(たとえば、これらのパラメータを使用することによって少なくとも部分的にトレーニングされるか、および/またはこれらのパラメータを使用することによって少なくとも部分的に新しいデータを処理する機械学習システム)のパフォーマンスの測度を提供するそれぞれの値と関係させる目的関数である。かかる機械学習システムの1つの非限定的な例は、画像内の対象物を認識するための、ニューラルネットワーク(たとえば、マルチレイヤニューラルネットワーク、畳み込みニューラルネットワーク、フィードフォワードニューラルネットワーク、回帰ニューラルネットワーク、放射基底関数ニューラルネットワーク等)を使用する機械学習システム、および/または画像内の対象物を認識するためのそのほかのいずれかの好適な機械学習テクニックである。かかる機械学習システムのハイパーパラメータの例は、上記で提供済みである。かかる機械学習システムの別の非限定的な例は、潜在的ディリクレ配分法(LDA)、確率的潜在意味解析、階層LDA、非パラメトリックLDA、および/または自然言語テキストを処理するためのそのほかのいずれかの好適な機械学習テクニックを使用して自然言語テキスト(たとえば、テキスト内の1つまたは2つ以上のトピックの識別、テキストマイニング等)を処理するための機械学習システムである。かかる機械学習システムは、自然言語テキストの大きな集合(たとえば、1つまたは2つ以上のコーパス)を処理するために適応できる。かかる機械学習システムのハイパーパラメータの例は、上記で提供済みである。かかる機械学習システムの別の非限定的な例は、サポートベクターマシン(たとえば、線形サポートベクターマシン、潜在的構造化サポートベクターマシン、いずれかの好適な最大マージンクラシファイア等)および/または生物学データを処理するためのそのほかのいずれかの好適な機械学習テクニックを使用する生物学データの解析のための機械学習システム(たとえば、タンパク質モチーフ予測のための機械学習システム)である。本明細書に記載されたベイズの最適化テクニックを(機械システムのハイパーパラメータを設定するために)適用できる機械学習システムのそのほかの非限定的な例は、限定ではないが、医用画像処理のための機械学習システム(たとえば、疾病に起因し得るか、および/またはその存在を示すことができる対象物等の医用画像内の対象物を識別するための機械学習システム)、超音波データを処理するための機械学習システム、非線形適応型基底関数回帰を使用するいずれかの好適なタイプのデータをモデリングするための機械学習システム、レーダデータを処理するための機械学習システム、発話処理のための機械学習システム(たとえば、発話認識、話者識別、話者ダイアライゼーション、自然言語理解等)および機械翻訳のための機械学習システムを包含する。
当然のことながら、本明細書に記載されたベイズの最適化テクニックが機械学習システムのハイパーパラメータ値の設定への適用に限定されることはなく、いくつかの態様においては、そのほかの問題へ適用できる。1つの非限定的な例として、本明細書に記載されたベイズの最適化テクニックを、画像および/またはビデオ圧縮アルゴリズムのパラメータ(たとえば、JPEG圧縮標準のうちの1つまたは2つ以上によって指定される1つまたは2つ以上のパラメータ、MPEG圧縮標準のうちの1つまたは2つ以上によって指定される1つまたは2つ以上のパラメータ等)を画像および/またはビデオ圧縮アルゴリズムのパフォーマンスの測度と関係させる目的関数へ適用できる。別の非限定的な例として、本明細書に記載されたベイズの最適化テクニックを、コンピュータビジョンシステム(たとえば、対象物認識のためのコンピュータビジョンシステム、ポーズの見積、人々および/または対象物の追跡、オプティカルフロー、シーン再構築等)のパラメータと関係させる目的関数へ適用できる。別の非限定的な例として、本明細書に記載されたベイズの最適化テクニックは、非線形コントロールシステム(たとえば、1つまたは2つ以上のロボットをコントロールするためのコントロールシステム)のパラメータをコントロールシステムのパフォーマンスと関係させる目的関数へ適用できる。別の非限定的な例として、本明細書に記載されたベイズの最適化テクニックは、設計中の構造を少なくとも部分的に特徴記述するパラメータ(たとえば、航空機の翼を少なくとも部分的に特徴記述するパラメータ)を、その構造のパフォーマンス(たとえば、航空機の翼が適切な望ましい揚力特性を有するか否か)と関係させる目的関数へ適用できる。上記の例は、網羅的ではなく、より一般的には、本明細書に記載されたベイズの最適化テクニックは、評価が演算的にコスト高となり得るいずれかの目的関数および/またはいずれかの好適な最適化問題の中で起こるそのほかのいずれかの目的関数に、本明細書に記載されたベイズの最適化テクニックが、それを適用できる目的関数のタイプによって限定されないことから、適用できる。
前述したとおり、いくつかの態様においては、本明細書に記載されたベイズの最適化テクニックが、特定のタスク(たとえば、機械学習システムのハイパーパラメータをそれのパフォーマンスに関係させる目的関数)のための目的関数の確率モデルを生成することを伴う。目的関数のいずれかの好適なタイプの確率モデルを使用できる。いくつかの態様においては、確率モデルが、関数にわたる分布を指定する確率過程であるガウス過程を包含できる。ガウス過程は、平均値関数
および共分散関数(しばしば「カーネル」関数と呼ばれる)によって指定できる。たとえば、目的関数が、機械学習システムのハイパーパラメータをそれのパフォーマンスと関係させるとき、ガウス過程は、ハイパーパラメータの空間上に定義されるように、平均値関数がハイパーパラメータ値の集合(機械学習システムの1つまたは2つ以上のハイパーパラメータの値に対応するハイパーパラメータ値の各集合)を実数と関係させ、共分散関数は、ハイパーパラメータ値の集合の間の相関を表現する。
カーネルおよび非常に多くのタイプのカーネルのいずれかによって少なくとも部分的に指定され得る共分散関数を使用できる。いくつかの態様においては、Maternカーネルを使用できる。1つの非限定的な例として、5/2 Maternカーネル(KM52)を使用でき、このカーネルは、次式に従って定義できる:
ここでθおよびrは、カーネルのパラメータであり、xおよびx’は、ガウス過程が定義される定義域内のポイントである(たとえば、xおよびx’は、機械学習システムのハイパーパラメータ値の集合を表現できる)。5/2 Maternカーネルは、誘導されるガウス過程が好ましいプロパティ(たとえば、ガウス過程の標本パスが2回微分できる)を有することからほかのカーネル選択肢より好ましいとし得る。しかしながら、ほかのカーネルの使用によって指定されるガウス過程も使用できる。使用できるカーネルの例は、限定ではないが、自動関連性決定二乗指数カーネル、有理二次カーネル、周期カーネル、局所的周期カーネル、線形カーネルおよびここに記述したカーネルのいずれかの組合せ(たとえば、乗算、加算等)によって獲得されるカーネルを包含する。
ガウス過程を含む目的関数の確率モデルは、以前に獲得した目的関数のすべての評価を前提としたガウス過程の予測平均の演算による目的関数の見積の計算に使用できる。この見積に関連付けされる不確実性は、以前に獲得した目的関数のすべての評価を前提としたガウス過程の予測共分散の演算によって計算できる。たとえば、ポイントの集合、
における目的関数のN個の以前に獲得した評価{y 1≦n≦N}を前提とした関数
に対するガウス過程のための予測平均および共分散は、次式のとおりに表現できる。
ここで
はガウス過程のカーネルであり、K(X,x)はxと集合Xとの間の相互共分散のN次元列ベクトルであり、K(X,X)は集合Xのためのグラム行列であり、yは評価のN×1ベクトルであり、m(X)は集合X内のポイントにおけるガウス過程の平均のベクトルであり、θはガウス過程の1つまたは2つ以上のそのほかのパラメータ(たとえば、カーネルのパラメータ)の集合である。
当然のことながら、目的関数のための確率モデルは、ガウス過程モデルを含むことに限定されない。1つの非限定的な例として、目的関数のための確率モデルは、ニューラルネットワークが関数の集合における分布を指定するように、荷重がランダム変量になるニューラルネットワークを包含できる。ニューラルネットワークは、畳み込みニューラルネットワーク、深いニューラルネットワーク、および/またはそのほかのいずれかの好適なタイプのニューラルネットワークとすることができる。別の非限定的な例として、目的関数のための確率モデルは、適応型基底関数回帰モデルを包含できる。
1つの非限定的な例として、いくつかの態様において、確率モデルは、Nを1以上の整数とするとき、N個の非線形基底関数{φ(x)}の線形の組合せとして指定されるベイズの線形回帰モデルを包含できる。非線形基底関数{φ(x)}は、マルチレイヤニューラルネットワークを使用することによって少なくとも部分的に獲得できる。たとえば、いくつかの態様においては、非線形基底関数が、マルチレイヤニューラルネットワークのトレーニング(たとえば、いずれかの好適なトレーニングテクニックを使用する)および非線形関数の基底としてマルチレイヤニューラルネットワーク内の最後の隠れレイヤへの入力からの射影の使用によって獲得できる。これらの射影は、その後、ベイズの線形回帰モデルのための特徴表現として使用できる。これは、次のとおりに表現できる。
Φは、マルチレイヤニューラルネットワーク内の最終レイヤへのN個の入力{x;1≦n≦N}の射影によって獲得される基底関数{φ(x);1≦n≦N}の連結から結果として得られるD×N行列を表わすとする。その場合に、入力{x}を前提とした観測yのためのベイズの線形回帰モデルは、次式で表現できる:
式中
は、ハイパーパラメータθθのスケーリングの下におけるN個のポイントによって誘導される共分散行列である。入力
に対応する出力
についての予測分布は、
として表現され、式中
は、
によって与えられる。
目的関数のモデリングに使用される確率モデルのタイプとは関係なく、確率モデルは、目的関数の見積およびその見積に関連付けされる不確実性の測度の獲得に使用できる。たとえば、目的関数が、機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるとき、確率モデルに基づいて獲得されるその目的関数の見積は、ハイパーパラメータ値の各集合についての機械学習システムのパフォーマンスの見積を提供でき、その見積に関連付けされる不確実性の測度は、ハイパーパラメータ値の特定の集合について機械学習システムのパフォーマンスがどの程度良好であるかの見積に関連付けされる不確実性の測度(たとえば、分散、信頼度等)を提供できる。異なる量の不確実性に、異なるハイパーパラメータ値に対応する機械学習システムのパフォーマンスの見積を関連付けできる。いくつかのハイパーパラメータ値については、確率モデルが、これらのハイパーパラメータ値を用いて構成されるときに、機械学習システムのパフォーマンスの高信頼度の見積(たとえば、低い分散に関連付けされる見積)を提供できるが、そのほかのハイパーパラメータ値については、確率モデルが、それらのハイパーパラメータ値を用いて構成されるときに、機械学習システムのパフォーマンスの低信頼度の見積(たとえば、高い分散に関連付けされる見積)しか提供できない。
目的関数の確率モデルは、非常に多くの方法のいずれかにおける目的関数の見積の獲得に使用できる。1つの非限定的な例として、確率モデルは、目的関数の以前のすべての観測(すなわち、評価)を前提とした確率モデルの下における目的関数の予測平均見積を計算することによる目的関数の見積の計算、および関連付けされた、予測共分散としての不確実性の測度の計算に使用できる。かかる計算は、ガウス過程(たとえば、上記に提供されている式に従う)、適応型基底関数回帰モデル(ニューラルネットワークモデルがその例である)、およびそのほかのいずれかの好適なモデルを包含する非常に多くのタイプの確率モデルのいずれかのために実施できる。
上記の例から察知できるとおり、いくつかの態様においては、目的関数のための確率モデルは、関数の集合(たとえば、目的関数または別の、目的関数を緊密に近似する関数を包含すると考えられる関数の集合)における確率分布を指定できる。この確率分布は、その関数の集合内の1つまたは2つ以上の関数のそれぞれに対して確率値を指定することができ、特定の関数のための確率値は、その関数が目的関数である確率を示す。たとえば、ガウス過程は、そのガウス過程が定義される空間における関数の集合に係る分布を誘導すると考えることができる。たとえば、ガウス過程を使用して、可能な目的関数の集合(たとえば、機械学習システムのハイパーパラメータ値をその機械学習システムの対応するパフォーマンスに関係させるすべての目的関数の集合)に係る分布を指定できる。
いくつかの態様においては、目的関数の確率モデルを、目的関数について獲得された新しい情報に基づいて更新できる。更新後の分布は、初期分布より濃縮され、したがって、不確実性がより低い目的関数の表現を提供できる。更新後の分布は、目的関数の多様な見積の演算に使用できる。上記で論じたとおり、目的関数は、閉形式では知られておらず、目的関数についての情報は、その目的関数のポイント毎評価を介して獲得できる。たとえば、機械学習システムのハイパーパラメータをそれのパフォーマンスに関係させる目的関数についての情報は、ハイパーパラメータの1つまたは2つ以上の設定のそれぞれについて機械学習システムのパフォーマンスを評価することによって獲得できる。したがって、いくつかの態様においては、目的関数の確率モデルを、新しい評価(単数または複数)を通じて目的関数について学習された追加の情報を反映するために、目的関数の1つまたは2つ以上の評価に基づいて更新できる。たとえば、目的関数の確率モデルがガウス過程を含む態様においては、目的関数の新しい評価(単数または複数)に基づいてガウス過程を更新できる(たとえば、それの平均および/または共分散関数を更新できる)。別の例として、目的関数の確率モデルがニューラルネットワークを含む態様においては、目的関数の新しい評価(単数または複数)に基づいてニューラルネットワークを更新できる(たとえば、ニューラルネットワークの荷重に関連付けされた確率分布を更新できる)。
目的関数の1つまたは2つ以上の評価に基づいて目的関数の確率モデルを更新にする非限定的な図解例を図2A〜図2Dに例証する。図2Aは、目的関数のそれぞれの値202、204、および206を獲得するために3つのポイントにおいて目的関数の3つの以前に獲得した評価に基づいて生成された目的関数200の確率モデルを図解している。この例証的な例においては、確率モデルが、目的関数の3つの以前の評価に対して調和されたガウス分布の予測平均、および目的関数の3つの以前の評価に対して調和された予測共分散(この1次元の例における分散)の計算により見積205に関連付けされる不確実性の測度を計算することによって目的関数の見積205の計算に使用されたガウス過程を含む。図2Aにおいては、不確実性の測度が、影付きの領域によって曲線207と209との間に示されている。図2Aから、確率モデルが、目的関数が評価されなかった領域内における目的関数についてより不確実であり、目的関数が評価された領域周りでより不確実でないこと(たとえば、評価202、204、および206のより近くでは不確実性の領域が縮む)が観察できる。言い換えると、目的関数が評価されなかった領域内においては目的関数の見積に関連付けされた不確実性がより大きくなる(たとえば、目的関数が評価されなかった領域内においては、ガウス過程の予測分散が、より大きくなり;目的関数が評価されたポイントにおいては、予測分散が、これらのポイントにおける目的関数の値が正確に分かることから、0になる)。
図2Bは、それぞれの目的関数の値208を獲得する新しいポイントにおける目的関数200の追加の評価に基づいて確率モデルを更新した後の目的関数200の確率モデルを図解している。更新後の確率モデルは、目的関数の4つの以前の評価に対して調和されたガウス分布の予測平均、および目的関数の4つの以前の評価に基づく予測共分散の計算により見積210に関連付けされる不確実性の測度を計算することによって、目的関数200の更新後の見積210の計算に使用できる。図2Bにおいては、不確実性の測度が、影付きの領域によって曲線211と213との間に示されている。図2Bから観察できるとおり、新しい評価の領域周りで確率モデルの変化がもっとも顕著であり、見積210が(図2Aに示されている見積205とは異なり)値208を通過し、値208の領域内の見積に関連付けされる不確実性が縮む。したがって、確率モデルは、評価値208を跨ぐ領域内において目的関数の追加の評価に先立つものより高い忠実度を伴う目的関数200を表現する。
図2Cは、それぞれの目的関数の値214を獲得する新しいポイントにおける目的関数200の追加の評価に基づいて確率モデルを更新した後の目的関数200の確率モデルを図解している。更新後の確率モデルは、目的関数の5つの以前の評価に対して調和されたガウス分布の予測平均、および目的関数の5つの以前の評価に基づく予測共分散の計算により見積215に関連付けされる不確実性の測度を計算することによって、目的関数200の更新後の見積215の計算に使用できる。図2Cにおいては、不確実性の測度が、影付きの領域によって曲線216と217との間に示されている。図2Cから観察できるとおり、新しい評価の領域周りで確率モデルの変化がもっとも顕著であり、見積215が(図2Aおよび2Bに示されている見積205および210とは異なり)値214を通過し、値214の領域内の見積に関連付けされる不確実性が縮む。したがって、確率モデルは、評価値214を跨ぐ領域内において目的関数の追加の評価に先立つものより高い忠実度を伴う目的関数200を表現する。
図2Dは、目的関数200の複数の追加の評価に基づいて確率モデルを更新した後の目的関数200の確率モデルを図解している。更新後の確率モデルは、目的関数200の更新後の見積220および目的関数の以前のすべての評価に基づく関連付けされた不確実性の測度の計算に使用できる。図2Dにおいては、不確実性の測度が、影付きの領域によって曲線220と221との間に示されている。図2Dから観察できるとおり、確率モデルは、追加の評価中に獲得された目的関数についての情報の取り込みの結果として、より大きな忠実度を伴う目的関数200を表現する。
当然のことながら、実践においては全体の目的関数が既知でないことがあり、ポイント毎の評価だけが利用可能となり得ることから、図2A〜図2Dに示されている例は、単なる例証かつ非限定的である。ここでは、全体の目的関数200が、目的関数の確率モデルの更新に目的関数の追加の評価をどのように使用できるかの例証を補助するために示されている。図2A〜図2Dの例においては例証的な目的関数200が1次元であるが、これが本明細書に記載されたテクノロジの限定でないこともまた察知されるものとする。目的関数は、いずれかの好適なd次元の定義域において定義できる(たとえば、dは少なくとも2、dは少なくとも3、dは少なくとも5、dは少なくとも10、dは少なくとも25、dは少なくとも50、dは少なくとも100、dは少なくとも500、dは少なくとも1000、dは10〜100、dは25〜500、dは500〜5000等である)。たとえば、機械学習システムのハイパーパラメータ値とそれらのハイパーパラメータ値を用いて構成された機械学習システムのパフォーマンスを示す値の間における関係を表現する目的関数は、次元が機械学習システムの構成に使用されたハイパーパラメータの数に等しい定義域において定義できる。
上記に例証されているとおり、目的関数の確率モデルは、目的関数の1つまたは2つ以上の評価に基づいて更新できる。目的関数は、いずれかのポイント(単数または複数)における目的関数の評価に基づいて更新できるが、いくつかのポイントにおける目的関数の評価は、ほかのポイントより目的関数および/または目的関数の極値ポイントについてより多くの情報を提供できる。1つの例として、充分に調査されていない目的関数の領域についての情報を提供する1つまたは2つ以上のポイント(たとえば、目的関数が評価されたポイントから遠く離れたポイント、目的関数の確率モデルがその目的関数についてもっとも不確実なポイント等)において目的関数を評価できる。別の例として、極値ポイント(たとえば、極小、極大、最小、最大等)を含有すると考えられる目的関数の領域についての情報、すなわち根本的な最適化の解決において有用となり得る情報を提供する1つまたは2つ以上のポイントにおいて目的関数を評価できる。
1つの非限定的な例として、機械学習システム(たとえば、対象物認識を実施する1つまたは2つ以上のニューラルネットワークを含む機械学習システム)のハイパーパラメータを、いくつかの(機械学習システムのハイパーパラメータのいくつかの値のための)ポイントにおいてそれらのハイパーパラメータを用いて構成するときの機械学習システムのパフォーマンスに関係させる目的関数の評価は、ほかのポイントより目的関数および/または目的関数の極値ポイントについてより多くの情報を提供できる。いくつかのハイパーパラメータ値のための機械学習システムのパフォーマンスの評価は、充分に調査されていない目的関数の領域についての情報を提供できる。たとえば、機械学習システムのパフォーマンスが評価されたハイパーパラメータ値から、好適な距離メトリックに従って、遠く離れたハイパーパラメータ値における機械学習システムのパフォーマンスの評価(目的関数の評価)は、以前に調査されなかった目的関数の領域についての情報を提供できる(たとえば、ハイパーパラメータ値の空間の全体的調査に類似)。別の例として、目的関数の確率モデルによってパフォーマンスの見積が提供されるハイパーパラメータ値についての機械学習システムのパフォーマンスの評価は、高い分散と関連付けされ、ハイパーパラメータ値の所定の集合のための機械学習システムのパフォーマンスがどの程度良好になるかについての確率モデルの信頼と関連付けされる不確実性(たとえば、不確実性の少なくとも閾値量)が存在する。別の例として、機械学習システムのパフォーマンスが良好(たとえば、以前に観察されたハイパーパラメータ値のいずれかのための最良パフォーマンス)であると考えられるハイパーパラメータ値に近いハイパーパラメータ値のための機械学習システムのパフォーマンスの評価は、機械学習システムのパフォーマンスがさらに良好になるハイパーパラメータ値の発見につながることがある(たとえば、ハイパーパラメータ値の空間の局所的調査に類似)。
したがって、いくつかの態様においては、目的関数の1つまたは2つ以上の以前に完了済みの評価に基づいて見積もられた目的関数の確率モデルを前提とした、次に目的関数を評価するべきポイント(単数または複数)について充分な情報を得た決定がなされる。その決定は、全体的調査(たとえば、殆ど評価が存在しないか、および/または確率モデルによって提供される目的関数の見積に関連付けされた不確実性が高いとし得る目的関数の領域の調査)と局所的調査(たとえば、1つまたは2つ以上の極大/最大および/または極小/最小に近い目的関数の領域の調査)の到達目標をバランスさせる。
いくつかの態様においては、目的関数を評価できる1つまたは2つ以上のポイントのそれぞれを、そのポイントにおける目的関数の評価の有用性を表現する値に関連付けする取得ユーティリティ関数を使用して目的関数を評価する次のポイント(単数または複数)を選択できる。たとえば、目的関数が機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるとき、取得ユーティリティ関数は、ハイパーパラメータ値の各集合を、ハイパーパラメータ値のその集合のための機械学習システムのパフォーマンスの評価の有用性を表現する値に関連付けできる。
取得ユーティリティ関数は、評価されるべき次のポイントを選択するいずれかの好適な方法において使用できる。いくつかの態様においては、目的関数を評価する次のポイントを、取得ユーティリティ関数を最大化する(または、そのユーティリティ関数がどのように定義されているかに応じて取得ユーティリティ関数を最小化する)ポイントとして選択できる。いずれかの好適な取得ユーティリティ関数を使用することができ、かつそれが、非常に多くのタイプのユーティリティの測度(前述した局所的および全体的なタイプの調査を好適にバランスさせるユーティリティの測度を包含する)のいずれかを表現できる。
いくつかの態様においては、取得ユーティリティ関数が、目的関数の確率モデルに依存できる。取得ユーティリティ関数は、確率モデルによってキャプチャされた目的関数についての現在の情報に基づいて指定できる。たとえば、取得ユーティリティ関数は、確率モデル(たとえば、予測平均)から獲得できる目的関数の見積、見積に関連付けされる不確実性の測度(たとえば、予測共分散)、および/またはそのほかのいずれかの、確率モデルから獲得される好適な情報に少なくとも部分的に基づいて指定できる。
図2A〜図2Dは、目的関数の確率モデルに少なくとも部分的に基づいて目的関数を評価するポイントを選択する取得ユーティリティ関数の使用を例証している。取得ユーティリティ関数は、2つの到達目標、すなわち全体的調査(それによって、目的関数の確率モデルにおける不確実性を低減するために評価のためのポイントが選択される)および局所的調査(それによって、目的関数の少なくとも1つの極値ポイントを含有すると考えられる目的関数の調査領域を選択するために評価のためのポイントが選択される)をバランスさせることによって評価するポイントを選択する。たとえば、図2Aに示されているとおり、目的関数200の確率モデルは、目的関数の見積205、および曲線207と209との間の影付き領域によって示される、関連付けされる不確実性の測度の計算に使用できる。見積205および関連付けされる不確実性の測度に基づいて計算される取得ユーティリティ関数231の値を、図2Aの下側部分内に示す。そこに示されているとおり、取得ユーティリティ関数231は、見積205と関連付けされた不確実性がより大きくなる領域内(たとえば、値202と204との間、および値204と206との間)においてより大きな値を取り、見積205と関連付けされた不確実性がより小さくなる領域内(たとえば、値202、204、および206の周り)においてより小さい値を取る。目的関数を評価する次のポイントを、取得ユーティリティ関数231が最大値(すなわち、値230)を取るポイントとして選択し、目的関数の確率モデルを、選択したそのポイントにおける目的関数の評価に基づいて更新する。
取得ユーティリティ関数が確率モデルに依存することから、目的200の確率モデルが更新された後の取得ユーティリティ関数もそのとおりとなる。更新後の取得ユーティリティ関数233は、見積210および関連付けされた不確実性の測度に基づいて計算され、図2Bの下側部分にそれを示す。観察できるとおり、取得ユーティリティ関数233は、見積210と関連付けされた不確実性がより大きくなる領域内(たとえば、値204と206との間)においてより大きな値を取り、見積205と関連付けされた不確実性がより小さくなる領域内(たとえば、値202、204、206、および208の周り)においてより小さい値を取る。目的関数を評価する次のポイントを、取得ユーティリティ関数233が最大値(すなわち、値232)を取るポイントとして選択し、目的関数の確率モデルを、選択したそのポイントにおける目的関数の評価に基づいて更新する。
図2Cは、見積215および関連付けされた不確実性の測度に基づいて計算された更新後の取得ユーティリティ関数235を例証している。図2Aおよび図2Bに示されている例と同様に、取得ユーティリティ関数235は、見積215と関連付けされた不確実性がより大きくなる領域内においてより大きな値を取る。目的関数を評価する次のポイントを、取得ユーティリティ関数235が最大値(すなわち、値234)を取るポイントとして選択する。
図2Dは、見積220および関連付けされた不確実性の測度に基づいて計算された更新後の取得ユーティリティ関数237を例証している。この例においては、見積220と関連付けされた不確実性が最大になる領域内において取得ユーティリティ関数237がより大きな値を取らない。むしろ関数237は、目的関数が極小および/または最小(値225)を有しがちであることを目的関数の確率モデルが示すポイントの近くでより大きな値を取る。見積220と関連付けされた不確実性の領域は存在するが、目的関数の値が値225より小さいポイントのキャプチャに充分な大きさのものはない。到達目標が、この例においては、目的関数の最小値の識別であることから、これらの領域内で目的関数が値225より小さい値を取るポイントが見つかる見込みがないため、見積220と関連付けされた不確実性の領域の調査において追加する値は殆どない。むしろ取得ユーティリティ関数は、値225より一層低い値を目的関数が取るポイントが識別できるように、目的関数がもっとも小さい値を取りがちなポイント周りで目的関数を評価することがより有用となることを示している。
いくつかの態様においては、取得ユーティリティ関数が、目的関数のモデリングに使用された確率モデルの1つまたは2つ以上のパラメータ(θによって示される)、目的関数が評価された以前のポイント({x,1≦n≦N}によって示される)、およびそれらの評価の結果({y,1≦n≦N}によって示される)に依存し得る。かかる取得関数およびそれの依存は、a(x;{x,y};θ)によって示すことができる。確率モデルの1つまたは2つ以上のパラメータに依存する取得ユーティリティ関数の1つの非限定的な例は、改善取得ユーティリティ関数の確率である。改善取得ユーティリティ関数の確率は、目的関数の評価がその目的関数の最良の現在の値にわたる改善を提供する確率を最大化するように、目的関数を評価する次のポイントを選択することをねらいとする(たとえば、機械学習システムのパフォーマンスを評価するハイパーパラメータ値の次の集合を、それらのハイパーパラメータ値を用いた機械学習システムのパフォーマンスの評価が、いずれかの以前に試したハイパーパラメータ値の場合より良好な機械学習システムのパフォーマンスにつながる確率を最大化するように選択する)。目的関数の確率モデルがガウス過程を含むとき、改善ユーティリティ関数の確率aPIは、次式のとおりに表現できる:
式中Φ()は、標準正規ランダム変量の累積分布関数であり、μ(x;{x,y},θ)およびσ(x;{x,y},θ)は、それぞれガウス過程の予測平均および予測分散を示す。
確率モデルの1つまたは2つ以上のパラメータに依存する取得ユーティリティ関数の別の非限定的な例は、期待される改善取得ユーティリティ関数である。期待される改善取得ユーティリティ関数は、目的関数の最良の現在の値にわたって期待される改善を最大化するように、目的関数を評価する次のポイントを選択することをねらいとする。目的関数の確率モデルがガウス過程を含むとき、期待される改善取得ユーティリティ関数aEIは、次式のとおりに表現できる:
ここでN()は、標準正規ランダム変量の確率密度関数である。
確率モデルの1つまたは2つ以上のパラメータに依存する取得ユーティリティ関数の別の非限定的な例は、リグレット最小化取得関数(しばしば、「信頼下限」取得関数と呼ばれる)である。目的関数の確率モデルがガウス過程を含むとき、リグレット最小化取得関数は、次式に従って表現できる:
ここでκは、局所的および全体的調査をバランスさせるための可調パラメータである。
取得ユーティリティ関数の別の非限定的な例は、エントロピーサーチ取得ユーティリティ関数である。エントロピーサーチ取得ユーティリティ関数は、目的関数の最小値の位置に関する(または、等価的に、負の1を乗じた目的関数の最大値の位置に関する)不確実性が減少するように目的関数を評価する次のポイントを選択することをねらいとする。このために、目的関数を評価する次のポイントが、目的関数の最小値にわたる確率分布のエントロピーを減少させるポイントの反復評価によって選択される。エントロピーサーチ取得ユーティリティ関数は、次のとおりに表現できる。C個のポイントの集合
が与えられるとき、最小の目的関数の値を有するポイント
の確率は、次式に従って表現できる:
ここで、fはポイント
における目的関数値のベクトルであり、h()はヘビサイド関数であり、
は、目的関数の過去の評価を前提としたベクトルfにおける値の事後確率であり、p(y|f)は、目的関数が目的関数の確率モデルに従って値yを取る尤度である。エントロピーサーチ取得関数aKLは、次のとおりに記述できる。
ここで、
は、空想の観測{x,y}が観測の集合に追加されたことを示し、p(f|x)は、
を表現しており、H(P)は、Pのエントロピーを表現しており、Pminは、
を表現している。
上記で述べた取得ユーティリティ関数の各例は、確率モデルのパラメータθに依存する。上記で論じたとおり、発明者らは、確率モデルのパラメータに依存する取得ユーティリティ関数の使用によって(たとえば、機械学習システムのためハイパーパラメータ値を識別するために)ベイズの最適化を実施することが、貧弱な包括的パフォーマンスにつながり得ると認識した。たとえば、d次元のガウス過程(たとえば、d次元の目的関数のモデリング、たとえばd個のハイパーパラメータ値からそれぞれの機械学習システムのパフォーマンスへのモデリングのために使用される)を含む確率モデルは、d個の長さスケール、共分散振幅、観測ノイズ分散、および恒常平均を包含するd+3個のパラメータと関連付けできる。実践においては、多様な手順を使用して確率モデルのパラメータθの値が設定されるが、包括的最適化のパフォーマンスは、パラメータがどのように設定されるかに敏感である。
したがって、いくつかの態様においては、目的関数の確率モデルのパラメータに対してあまり敏感でなくできる積分後の取得ユーティリティ関数が使用される。
いくつかの態様においては、積分後の取得ユーティリティ関数が、確率モデルのパラメータに依存する初期取得ユーティリティ関数を選択すること(たとえば、上記で述べたユーティリティ関数のいずれかを初期取得ユーティリティ関数として使用できる)、および初期取得ユーティリティ関数へのパラメータのうちの1つまたは2つ以上の影響の積分消去(周辺化)による積分後の取得ユーティリティ関数を計算することによって獲得できる。たとえば、積分後の取得ユーティリティ関数は、初期取得ユーティリティ関数のインスタンスの荷重平均(たとえば、荷重積分)として計算でき、初期取得ユーティリティ関数の各インスタンスは、確率モデルの特定のパラメータ値に対応し、各荷重は、以前に獲得した目的関数の評価を前提とした特定のパラメータ値の尤度に対応する。
たとえば、積分後の取得ユーティリティ関数
は、確率モデルのパラメータθに依存する初期取得ユーティリティ関数a(x;{x,y};θ)を選択すること、およびθの事後確率に準じたパラメータθの積分消去(平均)により次式に従って
を計算することによって計算できる。
ここで荷重
は、ポイント{x;1≦n≦N}におけるN個の評価およびそれらの評価の結果{y;1≦n≦N}を前提とした確率モデルに従ったパラメータθの事後確率を表現している。
積分後の取得ユーティリティ関数の計算を、さらに図3Aおよび図3Bに例証する。図3Aは、根本的な確率モデルのためのパラメータ値の3つの異なる集合について計算された初期取得ユーティリティ関数の3つのインスタンスを例証している。各インスタンスは、目的関数の評価の同一集合に基づいて計算された。図3Bは、図3Aに示されている初期取得ユーティリティ関数の3つのインスタンスの荷重平均によって獲得された積分後の取得ユーティリティ関数を例証している。平均においては、初期取得関数の特定のインスタンスに対応する荷重が、初期取得関数の特定のインスタンスの生成に使用された確率モデルのパラメータ値の尤度に対応する。
上記の考察から察知できるとおり、積分後の取得ユーティリティ関数は、確率モデルのパラメータθの値に依存しない(が、それでもなお目的関数の以前の評価に依存する)。結果として、積分後の取得ユーティリティ関数は、確率モデルのパラメータの値に敏感でなく、発明者らは、それが従来的なベイズの最適化テクニックの堅牢性およびパフォーマンスを改善することを観測した。
いくつかの態様においては、積分後の取得ユーティリティ関数を閉形式で計算できる。しかしながら、積分後の取得ユーティリティ関数が閉形式で獲得できない態様においては、数値テクニックを使用して積分後の取得ユーティリティ関数を見積もることができる。たとえば、いくつかの態様においては、積分後の取得ユーティリティ関数の近似および/または積分後の取得ユーティリティ関数がそれの最大値に到達するポイント(または、そのポイントの近似)の見つけ出しにモンテカルロシミュレーションテクニックを使用できる。限定ではないが、棄却サンプリングテクニック、適応型棄却サンプリングテクニック、重点サンプリングテクニック、適応型重点サンプリングテクニック、マルコフ連鎖モンテカルロテクニック(たとえば、スライスサンプリング、ギブスサンプリング、メトロポリスサンプリング、ギブス内メトロポリスサンプリング、厳密サンプリング、焼き戻しシミュレーション、並列焼き戻し、焼きなましサンプリング、人口モンテカルロサンプリング等)、および逐次的モンテカルロテクニック(たとえば、粒子フィルタ)を包含する、いずれかのモンテカルロシミュレーションテクニックを採用できる。
図4は、本明細書に記載されたテクノロジのいくつかの態様に従った、積分後の取得関数および目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に使用する最適化を実施するための過程400を例証するフローチャートである。言い換えると、過程400は、本明細書に記載されたテクニックを使用する目的関数の極値ポイント(たとえば、極小、極大、最小、最大等)の識別に使用できる。過程400は、本明細書に記載されたテクノロジの側面がこの点において限定されないことから、1つまたは複数のコンピュータハードウエアプロセッサを含むいずれかの好適な演算装置(単数または複数)を使用して実施できる。
いくつかの態様においては、過程400を、機械学習システムのハイパーパラメータの値を機械学習システムのパフォーマンスの測度を提供するそれぞれの値に関係させる目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に適用できる。過程400は、本明細書に記載された機械学習システムのいずれかおよび/またはそのほかのいずれかの好適な機械学習システムのハイパーパラメータの値の設定のために使用できる。それに加えて、またはそれに代えて、すでに例を提供した、そのほかのいずれかの好適な最適化問題において起こる目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に過程400を適用できる。
過程400は、作用402において開始し、そこで目的関数の確率モデルを初期化する。いくつかの態様においては、目的関数の確率モデルが、ガウス過程を包含できる。いくつかの態様においては、目的関数の確率モデルが、ニューラルネットワークを包含できる。いくつかの態様においては、目的関数の確率モデルが、適応型基底関数回帰モデル(線形または非線形)を包含できる。しかしながら、本明細書に記載されたテクノロジの側面がいずれかの特定のタイプの目的関数の確率モデルに限定されないことから、そのほかのいずれかの好適なタイプの目的関数の確率モデルを使用できることは察知されるものとする。
目的関数の確率モデルは、確率モデルのパラメータのうちの1つまたは2つ以上(たとえば、すべて)のための値を設定することによって初期化できる。パラメータ(単数または複数)は、いずれかの好適な値に設定でき、いくつかの実例においてはそれが、その目的関数について利用可能な先立つ情報がある場合に、そのいずれかに基づくことができる。パラメータ値は、メモリ内またはそのほかのいずれかの好適なタイプの非一時的コンピュータ可読媒体上に記憶できる。いくつかの態様においては、パラメータの初期値を、その目的関数と何らかの方法で関係させられた別の目的関数の以前に獲得した評価から獲得された情報に少なくとも部分的に基づいて初期化できる。これについては、マルチタスク最適化テクニックに関してより詳細を後述する。
次に過程400は、作用404へ進み、目的関数を評価するポイントを識別する。たとえば、目的関数が、機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるとき、機械学習システムのパフォーマンスを評価するハイパーパラメータ値の集合を、作用404において識別できる。識別は、取得ユーティリティ関数および目的関数の確率モデルを使用することによって少なくとも部分的に実施できる。いくつかの態様においては、確率モデルのパラメータに依存する取得ユーティリティ関数、たとえば改善取得ユーティリティ関数の確率、期待される改善取得ユーティリティ関数、リグレット最小化取得ユーティリティ関数、およびエントロピーベースの取得ユーティリティ関数等を作用404において使用できる。しかしながら、ほかの態様においては、積分後の取得ユーティリティ関数を作用404において使用できる。
上記で述べたとおり、積分後のユーティリティ関数は、確率モデルの1つまたは2つ以上のパラメータに依存する初期取得ユーティリティ関数(改善ユーティリティ関数の確率、期待される改善ユーティリティ関数、リグレット最小化ユーティリティ関数、およびエントロピーベースのユーティリティ関数等)を選択すること、およびその初期取得関数を確率モデルのパラメータのうちの1つまたは2つ以上に関して積分することによって積分後のユーティリティ関数を計算すること(たとえば、上記の式10に示されるとおり)により獲得できる。
いくつかの態様においては、目的関数を評価するポイントを、取得ユーティリティ関数がそれの最大値へ到達するポイントとして(または、そのポイントの近似として)識別できる。いくつかの態様においては、取得関数がそれの最大へ到達するポイントを厳密に(たとえば、取得ユーティリティ関数が閉形式で利用可能なとき)識別できる。しかしながら、いくつかの態様においては、取得ユーティリティ関数がそれの最大値を達成するポイントを厳密に識別し得ず(たとえば、取得ユーティリティ関数が閉形式で利用可能でないことから)、その場合には、数値テクニックを使用して取得ユーティリティ関数がそれの最大値へ到達するポイントを識別するか、または近似することができる。たとえば、いくつかの態様においては、積分後の取得ユーティリティ関数が閉形式で利用可能でないことがあり、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別または近似にモンテカルロテクニックを採用できる。
いくつかの態様においては、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別または近似にマルコフ連鎖モンテカルロ法を使用できる。たとえば、積分後の取得ユーティリティ関数は、上記の式10内の積分に従って定義でき、この積分はマルコフ連鎖モンテカルロテクニック(および/またはそのほかのいずれかの好適なモンテカルロ手順)を使用して近似できる。いくつかの態様においては、確率モデルのパラメータ値の標本の生成(いずれかの以前に獲得した目的関数の評価を前提とするそれらの事後確率に準ずる)、生成された標本における初期取得ユーティリティ関数の評価、および結果として生じる評価を使用した積分後の取得ユーティリティ関数の近似および/または積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別または近似によって積分を近似できる。積分後の取得ユーティリティ関数の最大値をどのように識別または近似するかについてのさらなる詳細は、以下に提供されている。
当然のことながら、目的関数を評価するポイントは、取得ユーティリティ関数がそれの最大に到達するポイント(またはそのポイントの近似)であるとして限定されることはなく、取得ユーティリティ関数の使用によって獲得されるそのほかのいずれかの好適なポイント(たとえば、取得ユーティリティ関数の極大、取得ユーティリティ関数の極小または最大等)とすることができる。
過程400は、作用404において目的関数を評価するポイントを識別した後に作用406へ進み、識別したポイントにおいて目的関数を評価する。たとえば、目的関数が、機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるときには、作用404において識別されたハイパーパラメータを用いて構成される機械学習システムのパフォーマンスを作用406において評価できる。
過程400は、作用406において、作用408において識別したポイントで目的関数を評価した後に作用408へ進み、その評価の結果に基づいて目的関数の確率モデルを更新する。目的関数の確率モデルは、作用406において獲得された新しい評価の結果に基づいて、非常に多くの方法のいずれかにより更新できる。1つの非限定的な例として、目的関数の確率モデルの更新は、作用406において実施した評価の結果に基づく確率モデルの1つまたは2つ以上のパラメータの更新(たとえば、再見積)を包含できる。別の非限定的な例として、目的関数の確率モデルの更新は、確率モデルの共分散カーネルの更新を包含できる(たとえば、確率モデルがガウス過程を含むとき、新しい評価の結果に基づいてガウス過程の共分散カーネルを更新できる)。別の非限定的な例として、目的関数の確率モデルの更新は、確率モデルを使用する目的関数の更新後の見積の演算を包含できる(たとえば、いずれかの以前に獲得した目的関数の評価および作用406における目的関数の評価の結果に基づいて確率モデルの予測平均を計算する)。別の非限定的な例として、目的関数の確率モデルの更新は、目的関数の更新後の見積に関連付けされる不確実性の更新後の測度の計算を包含できる(たとえば、いずれかの以前に獲得した目的関数の評価および作用406における目的関数の評価の結果に基づいて確率モデルの予測共分散を計算する)。さらに別の非限定的な例として、確率モデルの更新は、その後に続いて目的関数の確率モデルを使用する演算(たとえば目的関数の見積の計算、確率モデルの1つまたは2つ以上のパラメータの更新等)を実施するときに評価の結果が使用できるように、評価の結果を単純に記憶することを包含できる。
過程400は、作用408において目的関数の確率モデルを更新した後に決定ブロック410へ進み、別のポイントにおいて目的関数を評価するべきであるか否かを判断する。この判断は、いずれかの好適な方法で行なうことができる。1つの非限定的な例として、過程400は、閾値数を超えない目的関数の評価の実施を伴うことができ、その数の評価が実施されたとき、目的関数は(たとえば、かかる評価を実施する時間および/または演算コストに起因して)再び評価されるべきでないと判断できる。他方、実施された評価が閾値数より少ないときは、目的関数は再び評価されるべきであると判断できる。別の非限定的な例として、目的関数が再び評価されるべきであるか否かの判断を、1つまたは2つ以上の以前に獲得したその目的関数の値に基づいて行なうことができる。たとえば、最適化が、目的関数の極値(たとえば、最大)ポイントを見つけ出すことを伴い、かつ目的関数の値が以前の反復より閾値(たとえば、以前に実施された評価の閾値数)を超えて増加しない場合には、その目的関数を再び評価しないとの判断を行なうことができる(たとえば、目的関数のさらなる評価が、目的関数がすでに評価されたポイントにおける値より大きい値を目的関数が取るポイントを識別することがありがちでないため)。しかしながら、本明細書に記載されたテクノロジの側面がこの点において限定されないことから、目的関数を再び評価するか否かの判断は、そのほかのいずれかの好適な方法で行なうことができる。
決定ブロック410において、目的関数を再び評価するべきであると判断すると、過程400は、YES分岐を介して作用404へ戻り、作用404−408を繰り返す。他方、決定ブロック408において、目的関数を再び評価するべきでないと判断すると、過程400は、作用412へ進み、そこで過程400中に獲得された目的関数の1つまたは2つ以上の値に基づいて目的関数の極値を識別できる。
作用412においては、目的関数の獲得済みの値(単数または複数)に基づいて、目的関数の極値を、いずれかの好適な方法で識別できる。1つの非限定的な例として、極値(たとえば、最大)を、評価中に獲得された値のうちの1つであるとする選択が(たとえば、過程400中に獲得された目的関数の値の最大を取ることによって)できる。別の非限定的な例として、極値(たとえば、最大)を、過程400中に獲得された目的関数の値に当て嵌められる関数形式(たとえば、目的関数のカーネル密度見積、確率モデルに基づいて獲得される目的関数の見積の最大等)を使用して獲得できる。過程400は、作用412において目的関数の極値が識別された後に完了する。
上記で論じたとおり、いくつかの態様においては、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別および/または近似にモンテカルロ法を使用できる。かかる計算をどのように実施できるかの1つの非限定的な例を下に詳説する。
目的関数をf(x)で示し、目的関数を計算し得るポイントの集合を集合Xで示す。目的関数がN回評価され、入力
が得られたものとし、各xは、目的関数が評価されたポイントを表現し、yは、目的関数の対応する値(すなわち、y=f(x))を表現する。目的関数の確率モデルはp()で示す。
積分後の取得ユーティリティ関数は、次式に従って与えることができる。
ここで
は、
および確率モデルのパラメータθを前提とする目的関数の確率モデルから獲得される限界予測密度であり、
は、
を前提とするときの確率モデルの尤度であり、ψ(y,y)は、選択のヒューリスティクスに対応する。たとえば、改善の確率および期待される改善のヒューリスティクスは、それぞれ次式に従って表現できる。
上記で論じたとおり、いくつかの態様においては、式12の積分後の取得ユーティリティ関数を閉形式で獲得できないことがある(たとえば、閉形式におけるパラメータθに関する積分の計算が可能でないことがある)。したがって、式12の積分後の取得ユーティリティ関数を次の数値手順によって近似できる。
当初は、各1≦j≦Jについて、次式に従って標本θ(j)を引き出す:
ここで、ベイズの規則により、
式16に従った標本の引き出しにはいずれかの好適なモンテカルロテクニックを使用でき、それには、限定ではないが、反転サンプリング、重点サンプリング、棄却サンプリング、およびマルコフ連鎖モンテカルロテクニック(その例は提供済みである)が含まれる。
式16に従って引き出されたN個の標本{θ(j);1≦j≦J}を前提とすると、次式に従って積分後の取得ユーティリティ関数を近似できる:
式18を介して演算された積分後の取得ユーティリティ関数の近似は、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントとなる(またはそれを近似する)ポイントの識別に使用できる。目的関数は、識別されたポイントにおいて評価できる。
上記で論じたとおり、発明者らは、従来的なベイズの最適化テクニックが、いくつかのタイプの目的関数の正確なモデリングに好適でない確率モデルを利用していることを認識した。たとえば、従来的なベイズの最適化テクニックは、目的関数のモデリングのために定常ガウス過程を利用するが(たとえば、2つの出力間の共分散は、入力空間内における転換不変量である)、定常ガウス過程は、非定常目的関数のモデリングのためには好適でないことがある。たとえば、目的関数が、機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるとき、それの最大値に近いポイントにおける目的関数のモデリングのためには短尺スケールを有するガウス過程がより適切なことがあり、それの最大値から遠く離れたポイントにおける目的関数のモデリングのためには長尺スケールを有するガウス過程がより適切なことがある(たとえば、機械学習システムのパフォーマンスがハイパーパラメータのすべての「不良」値について等しく貧弱となり得るが、そのパフォーマンスは、「良好な」ハイパーパラメータ領域内の小さい調整に対して敏感となり得ることから)。対照的に、定常ガウス過程モデルは、目的関数が定義されるすべてのポイントについて同一長のスケールを使用する目的関数を表現する。
したがって、いくつかの態様は、より忠実に定常および非定常目的関数をモデリングするために適応された確率モデルの使用によるベイズの最適化の実施に関する。いくつかの態様においては、目的関数の非定常性を説明するために、目的関数の確率モデルを、目的関数の定義域内の要素の非線形の1対1マッピング(しばしば「ワーピング」とよばれる)に少なくとも部分的に基づいて指定できる。たとえば、目的関数が、機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させる態様においては、目的関数の非定常性を説明するために、ハイパーパラメータ値の非線形ワーピングに少なくとも部分的に基づいて確率モデルを指定できる。
いくつかの態様においては目的関数内の非線形性を説明する目的関数の確率モデルが、非線形の1対1マッピングと定常確率モデルの合成として指定できる。たとえば、目的関数内の非線形性を説明する目的関数の確率モデルが、非線形の1対1マッピングと定常ガウス過程の成分として指定できる。ガウス過程の共分散カーネルは、非線形の1対1マッピングを使用することによって少なくとも部分的に指定できる。
いくつかの態様においては、目的関数の確率モデルが非線形の1対1マッピングと定常確率モデルの合成として指定できる場合には、その合成を次のとおりに表現できる。1つまたは2つ以上のパラメータφによってパラメータ化される非線形の1対1マッピングをg(x;φ)で示し、パラメータθによってパラメータ化される定常確率モデル(たとえば、定常ガウス過程)をp(z;θ)で示す(ポイントxおよびポイントzは、非線形の1対1マッピングg(x;φ)の選択に応じて同一定義域内または異なる定義域内にあるとすることができる)。その場合に非線形の1対1マッピングと定常確率モデルの合成は、p(z=g(x;φ);θ)または略してp(g(x;φ);θ)によって与えられる確率モデルの獲得に使用できる。定常ガウス過程等の定常確率モデルの入力zへの非線形マッピングg(x;φ)の使用は、結果として生じる確率モデルが目的関数内の非定常効果を説明することを可能にする。
いくつかの態様においては、目的関数を第1の定義域から値域への要素のマッピングとすること、および非線形の1対1マッピングg(x;φ):X→Zを、第1の定義域(たとえば、X内のポイントx)内の要素の第2の定義域(たとえば、Z内のポイントz=g(x;φ))内の要素へのマッピングとすることができる。たとえば、目的関数が機械学習システムのハイパーパラメータの値をそれのパフォーマンスに関係させるとき、第1の定義域は、ハイパーパラメータの値またはハイパーパラメータの好適な正規化済みの値(たとえば、単位ハイパーキューブ、単位ボール、指定直径のハイパーキューブ、指定直径のボール等の中に位置するために正規化されたハイパーパラメータの値)を包含でき、値域は、機械学習システムのパフォーマンスを示す値を包含でき、第2の定義域は、第1の定義域内のハイパーパラメータ値への非線形の1対1マッピングの適用によって獲得される値を包含できる。言い換えると、第2の定義域は、非線形の1対1マッピングの値域である。第1の定義域を第2の定義域と同一の定義域とすること(たとえば、第1の定義域を単位ハイパーキューブとし、第2の定義域を単位ハイパーキューブとすることができる;上記の正規化を使用してX=Z)ができるが、いくつかの態様においては、第1および第2の定義域が異なり得ることから(たとえば、上記の正規化を使用してX≠Z)、本明細書に記載されたテクノロジの側面がこの点において限定されることはない。
いくつかの態様においては、非線形の1対1マッピングが、ランダム変量の累積分布関数を包含できる。いくつかの態様においては、非線形の1対1マッピングが、ベータランダム変量の累積分布関数を包含できる。たとえば、目的関数が定義されるd次元空間(たとえば、d個のハイパーパラメータを有する機械学習システムのハイパーパラメータ値の空間)内のポイントの非線形の1対1マッピングを次式のとおりに座標毎で指定できる:
ここで、xはd番目の座標におけるxの値であり、BetaCDFはベータランダム変量の累積分布関数(CDF)であり、B(α,β)はベータCDFの正規化定数である。ベータCDFは、正の値(「形状」)パラメータαおよびβによってパラメータ化される。当然のことながら、非線形の1対1マッピングがベータランダム変量の累積分布関数を含むことに限定されることはなく、それに代えて、クマーラスワーミーランダム変量、ガンマランダム変量、ポアソンランダム変量、二項式ランダム変量、ガウスランダム変量、またはそのほかのいずれかの好適なランダム変量の累積分布関数を包含できる。これもまた当然のことながら、非線形の1対1マッピングが累積分布関数に限定されることはなく、たとえば、いずれかの好適な単調増加または単調減少関数、いずれかの好適な全単射関数(たとえば、整数d≧1についての値域および定義域としてd次元のハイパーキューブを有するいずれかの好適な全単射関数)とすることができる。
いくつかの態様においては、非線形の1対1マッピングが、2つまたは3つ以上の非線形の1対1マッピングの組合せ(たとえば、合成またはそのほかのいずれかの好適なタイプの組合せ)を包含できる。たとえば、非線形の1対1マッピングは、2つまたは3つ以上の累積分布関数の組合せを包含できる。1つの非限定的な例として、非線形の1対1マッピングは、ベータ分布の累積分布関数とクマーラスワーミー分布の累積分布関数の組合せを包含できる。
非線形の1対1マッピングが非定常目的関数をどのようにワーピングするかの例証的な非限定的な例を図5A〜図5Fに示す。1つの例として、図5Aに示されている非定常1次元周期目的関数は、図5Bに示されている非線形全単射ワーピングの適用によって図5Cに示されている定常周期目的関数を獲得するために変換できる。別の例として、図5Dに示されている非定常1次元指数目的関数は、図5Eに示されている非線形全単射ワーピングの適用によって図5Fに示されている定常周期目的関数を獲得するために変換できる。当然のことながら、これら2つの例は例証かつ非限定的であり、本明細書に記載されたテクニックを適用できる目的関数は、図5A〜図5Fに示されている2つの例証的な1次元目的関数はもとより、1次元目的関数にも限定されない。
発明者らは、目的関数の確率モデルの指定に使用できる多くの異なる非線形ワーピングが存在することを認識した。目的関数の非定常性(ある場合)の性質を前もって知ることができないため、確率モデルの指定に使用する適切な非線形ワーピングを選択するためのテクニックが必要になる。したがって、いくつかの態様においては、非線形ワーピングを、目的関数の1つまたは2つ以上の評価(たとえば、非線形ワーピングの決定に使用できるすべての評価の結果を前提とした非線形ワーピングのパラメータの最大事後見積)に少なくとも部分的に基づいて推論すること、およびその非線形ワーピングの使用によって目的関数の確率モデルを指定することができる。
いくつかの態様においては、目的関数の確率モデルを、非線形ワーピングの系統、すなわち1つまたは複数のパラメータによってパラメータ化されるワーピングの系統の関数として指定でき、それらのパラメータ(単数または複数)は、目的関数の1つまたは2つ以上の評価に基づいて推論できる。たとえば、目的関数の確率モデルを、2つの正の形状パラメータαおよびβによってパラメータ化されるベータランダム変量の累積分布関数の系統を使用して指定できる。形状パラメータαおよびβのそれぞれは、事前に(すなわち、目的関数のいずれかの評価が実施される前に)対数正規分布に従って(たとえば、互いに独立に)分布すると仮定できる。たとえば、いくつかの態様においては、非線形ワーピング(たとえば、目的関数が定義される空間内のポイントのd番目の座標のワーピングのため)の形状パラメータαおよびβは、次式に従って分布すると仮定できる:
したがって、いくつかの態様においては、目的関数の確率モデルを、非線形ワーピングの系統(たとえば、先立つ、ベータランダム変量等のランダム変量の累積分布関数のパラメータに関する分布を配置することによって指定される非線形ワーピングの系統)の使用によって指定できる。かかる確率モデルは、すでに例を提供したが、機械学習システムのハイパーパラメータの値をその機械学習システムのパフォーマンスの測度を提供するそれぞれの値に関係させる目的関数および/またはそのほかのいずれかの好適な最適化問題において起こるいずれかの目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それを位置決定またはその位置の近似)に使用できる。これは、いずれかの好適な方法で行なうことができ、またいくつかの態様においては、非線形ワーピングの系統のパラメータを、上記の過程400に関連して説明したとおり、それらのパラメータを積分消去するべき確率モデルのパラメータとして扱うことによって積分消去(平均)することにより行なうことができる。
したがって、いくつかの態様においては、非線形の1対1マッピングに依存する目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に使用する最適化を、非線形マッピングへの確率モデルの依存を説明するために適切な修正(たとえば、過程400のステップ404)を伴う過程400に従って実施できる。特に、非線形ワーピングの系統のパラメータ(たとえば、ベータCDFのスケールパラメータαおよびβ)を確率モデルのパラメータとして扱い、目的関数を評価するポイントの識別に使用される積分後の取得ユーティリティ関数を、少なくともこれらの確率モデルのパラメータの積分消去によって獲得できる。より一般的には、確率モデルがパラメータθおよびφの2つの集合を包含でき、パラメータφは、非線形ワーピングの系統のパラメータであり、θは、確率モデルのそのほかのすべてのパラメータであり、積分後の取得ユーティリティ関数は、θ、φ、またはθおよびφに関して初期取得ユーティリティ関数を積分することによって獲得される。
過程400に関連して論じたとおり、いくつかの態様においては、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別および/または近似に数値テクニックを使用できる。数値テクニック(たとえば、棄却サンプリング、重点サンプリング、マルコフ連鎖モンテカルロ等)もまた、確率モデルが非線形の1対1マッピングのパラメータに依存するとき、この目的のために必要になることがある。モンテカルロテクニックを、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別および/または近似にどのように使用できるかについての、確率モデルが非線形マッピングに依存するときの1つの非限定的な例を次に説明する。
目的関数をf(x)で示し、目的関数を計算し得るポイントの集合を集合Xで示す。目的関数がN回評価され、入力{g(x;φ)y;1≦n≦N}が得られたものとし、各xは、目的関数が評価されたポイントを表現し、g(x;φ)は、パラメータφを有する、非線形全単射ワーピング関数gを、ポイントxに適用した結果を表現し、yは、目的関数の対応する値(すなわち、y=f(x))を表現する。p()は、非線形の1対1マッピングg、パラメータθを有する確率モデル(非線形の1対1マッピングのいずれのパラメータも含まない確率モデルの1つまたは2つ以上のパラメータ)およびφ(非線形の1対1マッピングの1つまたは2つ以上のパラメータ)に依存する目的関数の確率モデルを示すものとする。ここでは、パラメータθおよびφが独立であると仮定する。積分後の取得ユーティリティ関数は、次の数値手順によって近似できる。
最初に、各1≦j≦Jについて、次式に従って標本(θ(j),φ(j))を引き出す:
(θ(j),φ(j))〜p(θ,φ|{g(x;φ),y;1≦n≦N}) (21)
式21に従った標本の引き出しにはいずれかの好適なモンテカルロテクニックを使用でき、それには、限定ではないが、反転サンプリング、重点サンプリング、棄却サンプリング、およびマルコフ連鎖モンテカルロテクニック(その例は提供済みである)が含まれる。
積分後の取得ユーティリティ関数は、式21に従って引き出されたN個の標本{(θ(j),φ(j));1≦j≦J}を前提として、次式に従って近似できる:
式22を介して演算された積分後の取得ユーティリティ関数の近似は、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントとなる(またはそれを近似する)ポイントxの識別に使用できる。これは、いずれかの好適な方法で行なうことができる。たとえば、いくつかの態様においては、積分後の取得関数を、ポイントのグリッド上において、式22に従って近似でき、目的関数が最大値を達成するグリッド上のポイントを、ポイントxとして取ることができる。それに代えて、グリッド上の1つまたは2つ以上のポイント周りで局所的調査(たとえば、ワーピング関数のグラジエントに基づく)を実施してポイントxを識別できる。ポイントxの識別の後、xにおいて目的関数を評価できる。
上記で論じたとおり、従来的なベイズの最適化テクニックは、目的関数の以前のすべての評価の結果に基づいて目的関数を評価する次のポイントを選ぶ(たとえば、機械学習システムのパフォーマンスを評価するべきハイパーパラメータ値の次の集合を識別する)ことを要求する。目的関数の各評価は、目的関数を評価する次のポイントが識別される前に完了されなければならない。したがって、従来的なベイズの最適化方法の使用時は、目的関数のすべての評価が逐次的に(すなわち、一度に1つ)実施されなければならない。
対照的に、本明細書に記載されたテクノロジを使用し、目的関数の複数の評価を並列に実施できるようにベイズの最適化テクニックを並列化でき、これは、目的関数の各評価が演算的にコスト高となるとき、場合によってはトレーニングに長時間(たとえば、数日)を要する機械学習システムのためハイパーパラメータ値を識別するときに有用となり得る。目的関数の並列評価は、異なるコンピュータハードウエアプロセッサの使用によって実施できる。たとえば、目的関数の並列評価は、同一基板上に集積された異なるコンピュータハードウエアプロセッサ(たとえば、異なるプロセッサコア)または同一基板上に集積されていない異なるコンピュータハードウエアコンピュータプロセッサ(たとえば、異なるコンピュータ、異なるサーバ等)を使用して実施できる。
発明者らは、単純な、すべてが以前に完了済みの評価の結果に基づいて選ばれる異なるポイントにおける目的関数の同時評価による従来的なベイズの最適化の並列化は、この方法において目的関数を評価するポイントの選択が目的関数の未決の評価についてのいずれの情報も斟酌しないことから、非効率であると認識した。したがって、いくつかの態様においては、目的関数を評価する次のポイントが、目的関数の1つまたは2つ以上の未決の評価および目的関数の1つまたは2つ以上の以前に完了済みの評価についての情報に基づいて実施される。たとえば、目的関数を評価する次のポイントを、以前に開始された1つまたは2つ以上の目的関数の評価の完了に先立って選択できるが、その選択は、未決の評価(たとえば、評価が実施中の特定のポイント)についての何らかの情報が、目的関数を評価する次のポイントを選択するときに斟酌されるように、目的関数の未決の評価の潜在的アウトカムのそれぞれの尤度に基づいて行なうことができる。
いくつかの態様においては、目的関数の1つまたは2つ以上未決の評価に基づく目的関数を評価する次のポイントの選択が、目的関数の未決の評価の潜在的アウトカムの尤度に依存する取得ユーティリティ関数を使用して実施でき、当該尤度は、目的関数の確率モデルに従って判断される。いくつかの態様においては、目的関数を評価する次のポイントの選択が、複数のポイントにおける目的関数の潜在的な値に関して初期取得ユーティリティ関数の期待される値を計算することによって少なくとも部分的に獲得される取得ユーティリティ関数を使用することを含む。初期取得ユーティリティ関数は、改善ユーティリティ関数、期待される改善ユーティリティ関数、リグレット最小化ユーティリティ関数の確率、エントロピーベースのユーティリティ関数、積分後の取得ユーティリティ関数、および/またはそのほかのいずれかの好適な取得ユーティリティ関数とすることができる。
図6は、本明細書に記載されたテクノロジのいくつかの態様に従った、複数のコンピュータハードウエアプロセッサを使用することによって目的関数を少なくとも部分的に使用する最適化を実施するための過程600を例証するフローチャートである。過程600は、本明細書に記載されたテクニックを使用する目的関数の極値ポイント(たとえば、極小、極大、最小、最大等)の識別に使用できる。過程600は、いずれかの好適なタイプの異なるコンピュータハードウエアプロセッサを使用して実施できる。たとえば、過程600の少なくともいくつか(たとえば、全部)は、同一基板上に集積された異なるコンピュータハードウエアプロセッサ(たとえば、異なるプロセッサコア)または同一基板上に集積されていない異なるコンピュータハードウエアコンピュータプロセッサを使用して実施できる。
いくつかの態様においては、過程600を、機械学習システムのハイパーパラメータの値を機械学習システムのパフォーマンスの測度を提供するそれぞれの値に関係させる目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に適用できる。過程600は、本明細書に記載された機械学習システムのいずれかおよび/またはそのほかのいずれかの好適な機械学習システムのいずれかのハイパーパラメータの値の設定のために使用できる。それに加えて、またはそれに代えて、すでに例を提供した、そのほかのいずれかの好適な最適化問題において起こる目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に過程600を適用できる。
過程600は、作用602において開始し、そこで目的関数の確率モデルを初期化する。これは、いずれかの好適な方法で行なうことができ、またたとえば、過程400の作用402に関連して説明した方法のいずれかにおいて行なうことができる。
次に過程600は、決定ブロック604へ進み、目的関数の未決の評価(すなわち、完了が未決の目的関数の評価)があるか否かを判断する。未決の評価は、評価を実施するためのポイントが識別済み(たとえば、機械学習システムのパフォーマンスを評価するハイパーパラメータ値の集合が識別済み)であるが、それらの識別済みのポイントにおける目的関数の評価を開始していない(したがって、完了していない)ポイントの評価とすることができる。未決の評価は、開始したが完了していない目的関数のいずれかの評価とすることができる。目的関数のいずれかの未決の評価があるか否かの判断は、本明細書に記載されたテクノロジの側面がかかる判断をどのように実施できるかに限定されないことから、いずれかの好適な方法で実施できる。
決定ブロック604において目的関数の未決の評価がないと判断されるとき、過程600が作用605へ進み、目的関数を評価するポイントを、目的関数の確率モデルおよび取得ユーティリティ関数を使用して識別する。これは、いずれかの好適な方法で行なうことができ、またたとえば、過程400の作用404に関連した方法のいずれかにおいて行なうことができる。作用605においては、たとえば本明細書に記載された取得ユーティリティ関数のいずれかを含めて、いずれかの好適な取得ユーティリティ関数を使用できる。
他方、決定ブロック604において、目的関数の1つまたは2つ以上の未決の評価が存在すると判断したときは、過程600が作用606へ進み、未決の評価(単数または複数)についての情報を獲得する。未決の評価(単数または複数)についての情報は、未決の評価(単数または複数)を実施している(または、実施する)ポイント(単数または複数)(たとえば、ハイパーパラメータ値の集合)を識別する情報を包含することができる。未決の評価(単数または複数)についての情報は、未決の評価(単数または複数)の潜在的アウトカムの尤度についての情報もまた包含することができる。未決の評価(単数または複数)の潜在的アウトカムの尤度についての情報は、目的関数の確率モデルに少なくとも部分的に基づいて獲得できる。
次に過程600は、作用608へ進み、作用608において獲得した未決の評価についての情報に少なくとも部分的に基づいて、目的関数を評価する1つまたは2つ以上の新しいポイントを識別する。作用608においては、目的関数を評価するいずれかの好適な数のポイントを識別できる。たとえば、目的関数のM個(Mは、1以上の整数である)の未決の評価が存在するとき、目的関数を評価するM個のポイントを作用608において識別できる。しかしながら、いくつかの態様においては、M個より少ないポイントを作用608において識別できる。いくつかの態様においては、M個より多いポイントを作用608において識別できる。
いくつかの態様においては、目的関数を評価するポイント(単数または複数)を、未決の評価を実施している(または、実施する)ポイント(単数または複数)を識別する情報に、少なくとも部分的に基づいて識別する。いくつかの態様においては、目的関数を評価するポイント(単数または複数)を、さらに、目的関数の評価の潜在的なアウトカムの尤度に基づいて識別するが、当該尤度は、目的関数の確率モデルに少なくとも部分的に基づいて判断される。
たとえば、いくつかの態様においては、未決の評価および確率モデルについての情報に依存する取得ユーティリティ関数を使用して目的関数を評価するポイント(単数または複数)を識別できる。取得ユーティリティ関数は、未決の評価を実施している(または、実施する)ポイントおよび目的関数の確率モデルに従った(たとえば、目的関数の確率モデルによって誘導された予測分布に従った)それらのアウトカムのそれぞれの尤度に依存し得る。
たとえば、作用608の一部として評価するポイント(単数または複数)の識別に、次の取得ユーティリティ関数h(x)を使用できる:
ここで、集合{x,y;1≦n≦N}は、N個の以前に完了済みの評価に対応し(目的関数が評価されたポイントおよび評価の結果の両方を以前に完了済みの評価のために利用できる)、集合{x;1≦m≦M}は、M個の未決の評価に対応し(目的関数が評価しているか、または評価するポイントを未決の評価のために利用できる)、p()は、目的関数の確率モデルであり、ψ(y,y)は、選択ヒューリスティクス(たとえば、式14および15に関連して上記で述べたとおり)に対応する。したがって、式23の取得ユーティリティ関数は、複数のポイント{x;1≦m≦M}における目的関数の潜在的な値に関する初期取得ユーティリティ関数(選択ヒューリスティクスψ(y,y)を介して指定される)の期待される値として計算される。
いくつかの態様においては、目的関数を評価する複数のポイントを作用608において識別するとき、それらのポイントを一度に1つ識別し、かつ各ポイントの識別後に取得ユーティリティ関数(たとえば、式23に示されている取得ユーティリティ関数)を更新することができる。たとえば、作用608において第1のポイントを選択した後、第1のポイントを識別する情報に依存する取得ユーティリティ関数を使用して第2のポイントを選択できる。
いくつかの態様においては、目的関数を評価する新しいポイントを、取得ユーティリティ関数がそれの最大値へ到達するポイントとして(または、そのポイントの近似として)作用608において識別できる。いくつかの態様においては、取得関数がそれの最大へ到達するポイントを厳密に(たとえば、取得ユーティリティ関数が閉形式で利用可能なとき)識別できる。しかしながら、いくつかの態様においては、取得ユーティリティ関数がそれの最大値を達成するポイントを厳密に識別し得ず(たとえば、取得ユーティリティ関数が閉形式で利用可能でないことから)、その場合には、数値テクニックを使用して取得ユーティリティ関数がそれの最大値へ到達するポイントを識別するか、または近似することができる。
たとえば、いくつかの態様においては、式23の取得ユーティリティ関数を、次式に従ってモンテカルロ見積を介して近似できる:
ここで、y (j)は、次式によって誘導されるM次元の予測分布からの標本である。
確率モデルがガウス過程を含むとき、予測分布はガウス性であり、適切なパラメータを用いてガウス分布からシミュレーションすることによってy (j)を生成できる。そのほかの確率モデルについては、そのほかの、限定ではないが、棄却サンプリング、重点サンプリング、マルコフ連鎖モンテカルロ等のモンテカルロテクニックを包含する数値テクニックを使用できる。
当然のことながら、目的関数を評価するポイントは、取得ユーティリティ関数がそれの最大に到達するポイント(またはそのポイントの近似)であるとして限定されることはなく、取得ユーティリティ関数の使用によって獲得されるそのほかのいずれかの好適なポイント(たとえば、取得ユーティリティ関数の極大、取得ユーティリティ関数の極小または最小等)とすることができる。
過程600は、作用608において目的関数を評価する1つまたは2つ以上のポイント(単数または複数)を識別した後に作用610へ進み、識別したポイント(単数または複数)において目的関数の評価を開始する。これは、いずれかの好適な方法で行なうことができる。たとえば、いくつかの態様においては、作用608において複数のポイントを識別したとき、識別済みポイントにおける目的関数の評価を、異なるコンピュータハードウエアプロセッサを使用して目的関数が評価されるように開始できる(たとえば、作用608において、第1および第2のポイントを識別したとき、第1のポイントにおいては第1のコンピュータハードウエアプロセッサを使用し、第2のポイントにおいては第1のコンピュータハードウエアプロセッサとは異なる第2のコンピュータハードウエアプロセッサを使用して目的関数が評価されるように第1および第2のポイントの評価を開始できる)。
次に過程600は、決定ブロック612へ進み、いずれかのポイントにおける目的関数の評価が完了したか否かを判断する。この判断は、いずれかの好適な方法で行なうことができる。いずれのポイントにおける目的関数の評価も完了していないと判断したときは、過程600は、少なくとも1つのポイントにおける評価が完了するまで待機する。他方、1つまたは2つ以上のポイントにおいて目的関数の評価が完了していると判断したときには、過程600が作用614へ進み、完了した評価の結果に基づいて目的関数の確率モデルを更新する。確率モデルは、いずれかの好適な方法で更新でき、またたとえば、過程400の作用408に関連して説明した方法のいずれかにおいて更新できる。
過程600は、作用614において目的関数の確率モデルを更新した後に決定ブロック616へ進み、別のポイントにおいて目的関数を評価するべきであるか否かを判断する。この判断は、いずれかの好適な方法で行なうことができ、またたとえば、過程400の決定ブロック410に関連して説明した方法のいずれかにおいて行なうことができる。
決定ブロック616において、目的関数を再び評価するべきであると判断すると、過程600は、YES分岐を介して決定ブロック604へ戻り、作用/決定ブロック604−612を繰り返す。他方、決定ブロック616において、目的関数を再び評価するべきでないと判断すると、過程600は、作用618へ進み、そこで過程600中に獲得された目的関数の1つまたは2つ以上の値に基づいて目的関数の極値を識別できる。
作用618においては、目的関数の獲得済みの値(単数または複数)に基づいて、いずれかの好適な方法で目的関数の極値を識別でき、またたとえば、過程400の作用412に関連して説明した方法のいずれかにおいて識別できる。過程600は、作用618において目的関数の極値が識別された後に完了する。
上記で論じたとおり、いくつかの態様は、特定の最適化タスクに適用されたときに、1つまたは2つ以上の関係のある最適化タスクにベイズの最適化テクニックを適用する間に獲得された情報を利用できるベイズの最適化テクニックに関する。ここではこれらのテクニックを「マルチタスク」ベイズの最適化テクニックと呼ぶ。本明細書に記載されたマルチタスク最適化テクニックは、以下に例を提供する多様なタイプの問題に適用できる。
1つの非限定的な例として、いくつかの態様においては、本明細書に記載されたマルチタスクのベイズの最適化テクニックを、特定の機械学習システムのハイパーパラメータの値を識別するタスクに適用でき、このため、関係のある機械学習システムのためのハイパーパラメータの値の識別(に関係のあるタスクの実施)の間に獲得した以前の情報を使用できる。関係のある機械学習システムは、1つまたは2つ以上の(たとえば、すべての)ハイパーパラメータを、特定の機械学習システムと共有するいずれかの機械学習システムとすることができる。たとえば、ハイパーパラメータの第1と第2の集合が少なくとも1つのハイパーパラメータを共有するように、特定の機械学習システムがハイパーパラメータの第1の集合を有する第1のニューラルネットワークを包含でき、関係のある機械学習システムがハイパーパラメータの第2の集合を有する第2のニューラルネットワーク(たとえば、第1のニューラルネットワークとは異なる数のレイヤを有するニューラルネットワーク、第1のニューラルネットワークとは異なる非線形性を有するニューラルネットワーク、第1および第2のニューラルネットワークは同じであるとすることができる等)を包含できる。それに加えて、ハイパーパラメータの第1と第2の集合が重ならない場合であってさえ、いずれかの好適な方法においてパラメータの結合空間を作り出すことができる。たとえば、特定のモデルのためのパラメータが存在しない場合にデフォルト値が使用できるように、各パラメータの「デフォルト」値を推論できる。この方法においては、各ニューラルネットワークが、いずれかの標準カーネルが適用できるように、ハイパーパラメータの同一集合を有することができる。
関係のある機械学習システムのハイパーパラメータを識別する間に獲得した以前の情報は、ハイパーパラメータ値の1つまたは2つ以上の集合についての関係のある機械学習システムのパフォーマンスの評価の結果を包含できる。かかる情報は、多様なハイパーパラメータ値についての関係のある機械学習システム(たとえば、第2のニューラルネットワークを含むシステム)のパフォーマンスがどのようであったかを示すことができ、結果として、この情報は、特定の機械学習システム(たとえば、第1のニューラルネットワークを含むシステム)のためのハイパーパラメータ値のためのサーチのガイドに使用できる。
当然のことながら、本明細書に記載されたマルチタスク最適化テクニックは、完了済みの最適化タスクから獲得した以前の情報(たとえば、機械学習システムのためハイパーパラメータを識別する完了済みの−使用するハイパーパラメータ値が識別され、かつ機械学習システムが識別済みのハイパーパラメータ値を用いた使用のために構成されているという意味において完了済みの−タスクの実施から獲得した情報)の使用に限定されない。いくつかの態様においては、本明細書に記載されたマルチタスク最適化テクニックを、同時に解決されている複数の関係のある最適化テクニックに適用できる。かかる態様においては、本明細書に記載されたマルチタスク最適化テクニックが、各目的関数がそれぞれの最適化タスクに対応する複数の異なる目的関数の評価を伴うことができる。それらのタスクが関係していることから、1つのタスクに対応する1つの目的関数の評価の結果を使用して、別の関係するタスクに対応する別の目的関数を評価するポイントの選択をガイドできる。
1つの非限定的な例として、いくつかの態様においては、本明細書に記載されたマルチタスクのベイズの最適化テクニックを、複数の関係されたタスクのそれぞれの1つにそれぞれが対応する目的関数の組合せとして表現できる目的関数の平均値を見積もる問題に適用できる。かかる問題は、たとえば、機械学習システムのパフォーマンスを最適化する機械学習システムのハイパーパラメータを識別するときを包含する多様な設定において起こる問題であり、機械学習システムのパフォーマンスは、機械学習システムの一般化誤りを見積もるためのテクニックであるT分割交差検定の適用によって獲得される。
T分割交差検定においては、機械学習システムのトレーニングに使用されるデータがT個の、「分割」と呼ばれる部分集合に仕切られ、機械学習システムのパフォーマンスの測度がT個の分割にわたる機械学習システムの平均パフォーマンスとして計算される。特定の分割についての機械学習システムのパフォーマンスは、すべてのほかの分割内のデータに関する機械学習システムのトレーニングおよびその特定の分割内のデータに関するシステムのパフォーマンスの評価によって獲得される。したがって、ハイパーパラメータ値の特定の集合についての機械学習システムのパフォーマンスを評価するために、機械学習システムは、T回トレーニングされなければならず、複雑な機械学習システムおよび/または大きなデータセットについては演算的にコスト高である。しかしながら、T個の分割のそれぞれに関連付けされたパフォーマンスの測度が互いに、ハイパーパラメータ値の集合を使用する特定の分割についての機械学習システムのパフォーマンスの評価が、ハイパーパラメータ値の同一の集合を使用する別の分割についての機械学習システムのパフォーマンスを示す情報を提供し得るように相関することはありがちである。結果として、ハイパーパラメータ値の各集合のためのT個の分割の各1つについて機械学習システムのパフォーマンスを評価する必要がないとし得る。
したがって、いくつかの態様においては、本明細書に記載されたマルチタスク最適化テクニックを、特定の交差検定の分割についての(すなわち、機械学習システムのトレーニングに使用されるデータのそれぞれの部分集合についての)機械学習システムのパフォーマンスを最適化するハイパーパラメータ値の集合の識別に各タスクが対応する、マルチタスク最適化問題としてこの問題を再構築することによってT分割交差検定の問題に適用できる。タスクのための目的関数は、機械学習システムのためハイパーパラメータ値を、そのタスクに関連付けされた交差検定の分割についての機械学習システムのパフォーマンスに関係する(たとえば、交差検定の分割tに関連付けされたタスクのための目的関数が、機械学習システムのハイパーパラメータの値を、分割tを除くすべての分割内のデータに関する機械学習システムのトレーニングおよび分割t内のデータに関する機械学習システムのトレーニングの結果のパフォーマンスの評価によって計算された機械学習システムのパフォーマンスに関係させる)。したがって、当然のことながら、本明細書に記載されたマルチタスク最適化テクニックを、複数のほかの目的関数(たとえば、それらをトレーニング済みの「下位目的」関数と呼ぶことができる)の関数として指定できる単一の目的関数の最大化に使用できる。
別の非限定的な例として、いくつかの態様においては、本明細書に記載されたマルチタスクのベイズの最適化テクニックを、複数の関係のある最適化タスクの同時解決の問題に適用でき、それらのタスクのうちの1つと関連付けされた目的関数の評価が、別のタスクに関連付けされた目的関数より低コストとなることがある。2つのタスクが関係を有するとき、1つのタスクのための目的関数の評価が、別のタスクのための目的関数の1つまたは2つ以上の極値ポイントの位置についての情報を明らかにし、かつ不確実性を低減できることがある。たとえば、データの大きな集合(たとえば、1000万のデータポイント)に関する機械学習システムのパフォーマンスを最適化するハイパーパラメータ値を識別するタスク「A」に関連付けされる目的関数は、関係のあるタスク「B」、すなわちデータの部分集合(たとえば、1000万のデータポイントのうちの10,000)に関する機械学習システムのパフォーマンスを最適化するハイパーパラメータ値を識別するタスクに関連付けされる目的関数より(ハイパーパラメータ値の各集合について)コスト高の評価である。しかしながら、それらのタスクが関係を有していることから(一方のタスクは他方のより粗いバージョンであり、焼きなましによく似ている)、タスク「B」のための目的関数の評価が、どのハイパーパラメータ値をタスク「A」のために評価を試すかについての情報を明らかにして、それによってタスク「A」のための目的関数の演算的にコスト高となる評価の数を低減できる。
別の非限定的な例として、いくつかの態様においては、本明細書に記載されたマルチタスクのベイズの最適化テクニックを、いずれかの自然な方法で順序設定されない離散的な値を取る機械学習システムのハイパーパラメータ(カテゴリパラメータ)の値の識別に適用できる。機械学習システムのためのかかるハイパーパラメータの1つの非限定的な例は、ニューラルネットワークに使用されるタイプの非線形性である(たとえば、双曲線正接非線形性、シグモイド非線形性等)。機械学習システムのためのかかるハイパーパラメータの別の非限定的な例は、サポートベクターマシンに使用されるカーネルのタイプである。かかるハイパーパラメータのさらに別の非限定的な例は、データの同一の集合に関する機械学習システムのトレーニングに使用できる、異なるトレーニングアルゴリズムの集合の間からの機械学習システムのためのトレーニングアルゴリズムを選択するパラメータである。マルチタスク最適化テクニックは、カテゴリハイパーパラメータの各値のためのタスクを有する、関係のあるタスクの集合を生成することによってかかる問題に適用できる。各タスクは、値が各タスクについて値の可能集合のうちの1つに設定される1つまたは2つ以上のカテゴリハイパーパラメータの値を除く機械学習システムのすべてのハイパーパラメータの値の識別を含む(たとえば、1つのタスクは、活性化関数として双曲線正接を使用するニューラルネットワークのハイパーパラメータの値の識別を包含でき、別の関係のあるタスクは、活性化関数としてシグモイド関数を使用するニューラルネットワークの値の識別を包含できる)。
当然のことながら、本明細書に記載されたマルチタスクテクニックが、そのほかのいずれかの好適な最適化タスクの集合に適用できることから、上記の本明細書に記載されたマルチタスクのベイズの最適化テクニックが適用できる問題は、例証であり、かつ非限定的である。
いくつかの態様においては、マルチタスク最適化テクニックが、目的関数のそれぞれが複数の関係のあるタスクのうちの1つに対応する複数の目的関数を連帯的にモデリングする同時確率モデルの使用を包含できる。上記で論じたとおり、マルチタスク最適化テクニックは、関係のある最適化タスクのいずれかの好適な集合に適用できる。1つの非限定的な例として、各タスクは、そのタスクに関連付けされ、かつハイパーパラメータ値の集合を前提として機械学習システムのトレーニングに使用される、データの集合についての同一機械学習システムのパフォーマンスを最適化するハイパーパラメータの識別を包含できる。別の非限定的な例として、複数の関係のあるタスクのうちの1つは、関連付けされた第1の集合のデータのための1つの機械学習システムのパフォーマンスを最適化するハイパーパラメータの識別を包含でき、複数の関係のあるタスクのうちの別のタスクは、第2の集合のデータのための別の関係のある機械学習システムのパフォーマンスを最適化するハイパーパラメータの識別を包含できる(第1のデータの集合と第2のデータの集合は同一または異なるとすることができる)。これらの例のそれぞれにおいては、特定のタスクに対応する目的関数が、機械学習システムのハイパーパラメータ値をそれのパフォーマンスに関係させることができる。
いくつかの実施態様においては、複数の目的関数の同時確率モデルが、複数のタスク内のタスクの間の相関をモデリングできる。いくつかの態様においては、同時確率モデルが、複数のタスク内のタスクの間の相関をモデリングする1つまたは2つ以上のパラメータ(たとえば、相関または共分散カーネルを指定するための1つまたは2つ以上のパラメータ)を包含できる。これらのパラメータ(単数または複数)の値は、複数のタスクに対応する目的関数の評価の結果に基づいて見積もることができる。パラメータ(単数または複数)の値は、複数の目的関数のうちのいずれかの1つまたは2つ以上の追加の評価が実施されたときに更新される。この方法においては、複数のタスク内のタスクの間の相関をモデリングする同時確率モデルのパラメータ(単数または複数)を適応的に見積もることができる。
たとえば、いくつかの態様においては、複数の目的関数の同時確率モデルが、複数のタスク内のタスクの間の相関をモデリングできる共分散カーネルを包含できる。いくつかの態様においては、共分散カーネル(Kmult)が、複数のタスク内のタスクの間の相関をモデリングする第1の共分散カーネル(K)、および複数の目的関数内の目的関数を評価できるポイント間の相関をモデリングする第2の共分散カーネル(K)に、少なくとも部分的に基づいて獲得できる。共分散カーネルは、次式に従って第1および第2の共分散カーネルから計算できる:
ここで
は、クロネッカー積を表わす。
いくつかの態様においては、複数の目的関数の同時確率モデルは、定義域X内の値を値域Rへマッピングする「多目的」関数fのモデリングに使用できるベクトル値ガウス過程を包含でき、Rは実数の集合であり、Tは2以上の整数である。定義域Xは、多次元とし得る。したがって、ベクトル値ガウス過程によってモデリングされる各多目的関数fは、入力を、T個の関係のあるタスクに対応するT個の出力、すなわち、それぞれが対応するタスクのための出力であるT個の出力にマッピングする。いくつかの態様においては、ガウス過程の共分散カーネルを、式(25)によって、本明細書に記載されたカーネル関数のうちのいずれかの1つ(たとえば、Maternカーネル)を介して指定されるカーネルKを用いて与えることができる。しかしながら、当然のことながら、複数の目的関数の同時確率モデルは、ガウス過程を含むことに限定されず、そのほかのいずれかの好適な確率モデルを包含できる。
いくつかの態様においては、カーネルKを、複数の目的関数の評価から見積もることができる。カーネルKの見積には、いずれかの好適な見積テクニックを使用できる。たとえば、いくつかの態様においては、カーネルKのコレスキー要因の見積にスライスサンプリング(または、そのほかのいずれかの好適なモンテカルロテクニック)を使用できる。いくつかの態様においては、関係のあるタスクが積極的に相関される制約を条件としてカーネルKが見積もられる。かかる実施態様においては、この制約が満たされるように、Kの要素が対数空間内において見積もられ、かつ好適にべき乗される。当然のことながら、本明細書に記載されたテクノロジの側面が共分散カーネルのいずれか1つのパラメータ化(たとえば、コレスキー)に限定されないことから、共分散カーネルのいずれかの好適なパラメータ化を使用できる。
図7は、目的関数の集合を使用するマルチタスクのベイズの最適化を実施するための過程700を例証するフローチャートであり、集合内の目的関数のそれぞれは、関係のあるタスクの集合内のそれぞれのタスクと関連付けされている。関数の集合は、いずれかの好適な数(たとえば、2、3、5、少なくとも2つ、少なくとも5つ、少なくとも10、少なくとも25、少なくとも50、2〜25、10〜100等)の関数を包含できる。過程700は、本明細書に記載されたテクニックを使用する目的関数のうちの1つまたは2つ以上のそれぞれの極値ポイント(たとえば、極小、極大、最小、最大等)の識別に使用できる。
過程700は、本明細書に記載されたテクノロジの側面がこの点において限定されないことから、1つまたは複数のコンピュータハードウエアプロセッサを使用して実施できる。複数のコンピュータハードウエアプロセッサを使用して過程700が実施されるときには、その実行が、図6に関して上記で述べたテクニックに従って複数のプロセッサにわたって並列化できる。
いくつかの態様においては、過程700を、機械学習システムのハイパーパラメータの値を機械学習システムのパフォーマンスの測度を提供するそれぞれの値に関係させる1つまたは2つ以上の目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に適用できる。過程700は、本明細書に記載された機械学習システムのいずれかおよび/またはそのほかのいずれかの好適な機械学習システムのいずれかのハイパーパラメータの値の設定のために使用できる。それに加えて、またはそれに代えて、そのほかのいずれかの好適な関係のある最適化タスクにおいて起こる1つまたは2つ以上の目的関数の1つまたは2つ以上の極値ポイントの識別(たとえば、それらの位置決定または位置の近似)に過程700を適用できる。
過程700は、作用702において開始し、そこで目的関数の集合内の目的関数の同時確率モデルを初期化する。同時確率モデルは、いずれかの好適な確率モデルとし得る。1つの非限定的な例として、いくつかの態様においては、同時確率モデルが、式(25)によって与えられる共分散カーネルを使用して指定されるベクトル値ガウス過程を包含できる。しかしながら、ほかの態様においては、そのほかのいずれかの好適なカーネルを使用してガウス過程を指定でき、さらにほかの態様においては、同時確率モデルがガウス過程を含まないことがあり、かつそれに代えてニューラルネットワーク、適応型基底関数回帰モデル(複数の出力を有する関数とともに)、またはそのほかのいずれかの好適な確率モデルを包含できる。同時確率モデルは、本明細書に記載されたテクノロジの側面が複数の目的関数の同時確率モデルを初期化する方法に限定されないことから、いずれかの好適な方法で(たとえば、過程400の作用402に関して述べたとおりに)初期化できる。
次に過程700は、作用704へ進み、目的関数の集合内の何らかの目的関数を評価するポイントを識別する。ポイントは、目的関数の同時確率モデルおよび取得ユーティリティ関数(目的関数の同時確率モデルに依存し得る)を使用することに少なくとも部分的に基づいて識別できる。非常に多くのタイプの取得ユーティリティ関数のうちのいずれかを、マルチタスク設定に対して好適に一般化された後に使用できる。1つの非限定的な例として、いくつかの態様においては、エントロピーサーチ取得関数(たとえば、式9参照)を、マルチタスクの場合に対して一般化でき、また、目的関数の集合内の目的関数を評価するポイントを、同時確率モデルおよび一般化されたエントロピーサーチ取得関数に基づいて識別できる。
いくつかの態様においては、エントロピーサーチ取得関数を、目的関数の集合内の目的関数を評価する演算コストを斟酌するために一般化できる。結果として生じる取得関数aIG(x)は、コスト荷重エントロピーサーチ取得ユーティリティ関数と呼ばれ、次式に従って演算できる:
ここでp()は、目的関数の集合内の目的関数の同時確率モデルであり、
は、空想の観測{x,y}が観測の集合に追加されたことを示し、xは、t番目のタスクに関連付けされる目的関数を評価できる空想のポイントであり、xにおける目的関数の値は、エントロピーサーチ取得関数を評価するときに空想され、p(f|x)は、
を表わし、H(P)は、Pのエントロピーを表わし、Pminは、
を表わし、各
は、t番目のタスクに関連付けされた目的関数が、評価の結果
を獲得するために評価されたポイントに対応する。
関数c(x)は、ポイントxにおけるt番目のタスクに関連付けされた目的関数を評価するコストを表わす。このコスト関数は、前もって知ることができるか、または、いくつかの態様においては、目的関数の集合内の目的関数の1つまたは2つ以上の評価に(かかる各評価が完了までにどの程度の長さを要するかを示す情報とともに)基づいて見積もることができる。コスト荷重エントロピーサーチ取得関数は、候補ポイントの評価の単位コスト当たりの(ポイントxにおけるt番目の目的関数の評価からの)情報利得を反映できる。
目的関数の集合内の目的関数を評価するポイントは、取得ユーティリティ関数(たとえば、コスト荷重エントロピーサーチ取得ユーティリティ関数)がそれの最大値へ到達するポイントとして(または、そのポイントの近似として)識別できる。いくつかの態様においては、取得関数がそれの最大へ到達するポイントを厳密に(たとえば、取得ユーティリティ関数が閉形式で利用可能なとき)識別できる。しかしながら、いくつかの態様においては、取得ユーティリティ関数がそれの最大値を達成するポイントを厳密に識別し得ず(たとえば、取得ユーティリティ関数が閉形式で利用可能でないことから)、その場合には、数値テクニックを使用して取得ユーティリティ関数がそれの最大値へ到達するポイントを識別するか、または近似することができる。たとえば、コスト荷重エントロピーサーチ取得ユーティリティ関数が閉形式で利用可能でないことがあり、積分後の取得ユーティリティ関数がそれの最大値へ到達するポイントの識別または近似にモンテカルロテクニック(たとえば、棄却サンプリング、重点サンプリング、マルコフ連鎖モンテカルロ等)を採用できる。
当然のことながら、目的関数の集合内の目的関数を評価するポイントは、取得ユーティリティ関数がそれの最大に到達するポイント(またはそのポイントの近似)であるとして限定されることはなく、取得ユーティリティ関数の使用によって獲得されるそのほかのいずれかの好適なポイント(たとえば、取得ユーティリティ関数の極大、取得ユーティリティ関数の極小または最小等)とすることができる。
過程700は、作用704において目的関数の集合内の目的関数を評価するポイントを識別した後に作用706へ進み、作用704において識別したポイントにおいて評価するために目的関数の集合から目的関数を選択する。識別したポイントにおいて評価する目的関数は、同時確率モデルに、少なくとも部分的に基づいて選択できる。1つの非限定的な例として、評価する目的関数は、識別されたポイントにおいて最大の対応する値を生成することが、同時確率モデルに従って、もっともありがちな目的関数を選択する。
次に、過程700は、作用708へ進み、作用706において選択した目的関数を、作用704において識別したポイントにおいて評価する。次に過程700は、作用710へ進み、更新後の同時確率モデルを獲得するために作用708において実施した評価の結果に基づいて同時確率モデルを更新できる。
同時確率モデルは、作用708において獲得した新しい評価の結果に基づいて、非常に多くの方法のいずれかにおいて更新できる。たとえば、同時確率モデルの更新は、作用708において実施した評価の結果に基づく確率モデルの1つまたは2つ以上のパラメータの更新(たとえば、再見積)を包含できる。1つの非限定的な例として、同時確率モデルの更新は、複数のタスク内のタスクの間の相関のモデリングに使用される同時確率モデル内の1つまたは2つ以上のパラメータ(たとえば、相関または共分散カーネルを指定するための1つまたは2つ以上のパラメータ)の更新を包含できる。別の非限定的な例として、同時確率モデルの更新は、取得ユーティリティ関数の1つまたは2つ以上のパラメータ(たとえば、コスト荷重エントロピーサーチ取得関数c(x)の1つまたは2つ以上のパラメータ)の更新を包含できる。それに加えて、またはそれに代えて、同時確率モデルは、過程400の作用408に関して述べた方法のいずれか、および/またはそのほかのいずれかの好適な方法において更新できる。
作用710において同時確率モデルを更新した後、過程700は、決定ブロック712へ進み、目的関数の集合内に別のポイントにおいて評価するべきいずれかの目的関数が存在するか否かを判断する。この判断は、いずれかの好適な方法で行なうことができる。たとえば、過程400の決定ブロック410に関して述べた方法のいずれかにおいて、目的関数の集合内の目的関数のそれぞれについてこの判断を行なうことができ、目的関数のいずれか1つを更新するべきであると判断とした場合には、過程700が「YES」分岐を介して作用704へ戻り、作用704−710および決定ブロック712を繰り返す。
他方、目的関数の集合内に更新するべき目的関数が存在しないと判断した場合には、過程700が「NO」分岐を介して作用714へ進み、そこで、目的関数の集合内の1つまたは2つ以上の目的関数の極値を識別できる。目的関数の集合内の目的関数の極値は、いずれかの好適な方法で見つけることができ、かつ過程400の作用412に関して述べた方法のいずれかにおいて見つけることができる。過程700は、作用714において1つまたは2つ以上の目的関数の極値を識別した後に完了する。
当然のことながら、過程700は例証であり、過程700の多くの変形が可能である。たとえば、例証的な態様においては、最初に何らかの目的関数を評価するポイントを作用704において最初に識別し、識別したポイントにおいて評価する目的関数を作用706において2番目を選択したが、ほかの態様においては、これら2つのステップの順序を逆にできる。したがって、いくつかの態様においては、目的関数を評価するタスクを最初に選択し、選択したタスクを評価するポイントを2番目に識別することができる。
別の例として、目的関数の同時確率モデルを、1つまたは2つ以上の非線形マッピングを使用して指定でき(たとえば、各タスクをそれぞれの非線形マッピングと関連付けできる)、多様な問題においてはこれが有用となり得る。たとえば、異なるデータセットに関する機械学習システムをトレーニングするときには、データセットのサイズが、どのハイパーパラメータの設定が機械学習システムの良好なパフォーマンスにつながるかに影響を有することがある。たとえば、小さいデータセットを使用してトレーニングされている機械学習システムは、同一の機械学習システムがより大きなデータセットに関してトレーニングされている場合より、より多くの正則化を要求できる(たとえば、その結果、機械学習システムのトレーニングが少量のデータに関する場合と、大量のデータに関する場合とでは、正則化の量を示すハイパーパラメータが異なることがあり得る)。より一般的には、1つのタスクの入力空間の1つの部分が、そのほかのタスクに関する入力空間の異なる部分と相関可能であるとすることが可能である。各タスクとそれ自体のそれぞれの非線形ワーピングの関連付けを許容することは(たとえば、単一タスクについて上記で述べたとおり)、同時確率モデルがかかるタスク間相関の説明となることを可能にできる。非線形ワーピングと関連付けされるパラメータ(たとえば、関連付けされる累積分布関数のパラメータ等)の推論は、タスクを、定常マルチタスクモデル(たとえば、定常ベクトル値ガウス過程を使用して指定されるマルチタスクモデル)によってより好適にモデリングされた連帯的な定常空間へワープできる。
本明細書に記載されたテクノロジの態様のいずれかに関連して使用できるコンピュータシステム800の例証的な実装を図8に示す。コンピュータシステム800は、1つまたは2つ以上のプロセッサ810および、非一時的コンピュータ可読記憶媒体(たとえば、メモリ820および1つまたは2つ以上の不揮発性記憶媒体830)を含む1つまたは2つ以上の製品を包含することができる。プロセッサ810は、メモリ820および不揮発性記憶装置820へのデータの書き込みおよびそこからの読み出しを、本明細書に記載されたテクノロジの側面がこの点において限定されないことから、いずれかの好適な仕方でコントロールできる。本明細書に記載された機能のいずれかを実施するために、プロセッサ810は、プロセッサ810による実行のためのプロセッサ実行可能命令を記憶する非一時的コンピュータ可読記憶媒体として働くことができる1つまたは2つ以上の非一時的コンピュータ可読記憶媒体(たとえば、メモリ820)内に記憶されている1つまたは2つ以上のプロセッサ実行可能命令を実行できる。
用語「プログラム」または「ソフトウエア」は、ここでは一般的な意味で使用され、上記で論じたとおりの態様の多様な側面を実装するためにコンピュータまたはそのほかのプロセッサをプログラムするために採用可能ないずれかのタイプのコンピュータコードまたはプロセッサ実行可能命令のセットを言う。加えて、当然のことながら、1つの側面によれば、実行時に本明細書に記載されたテクノロジの方法を実施する1つまたは2つ以上のコンピュータプログラムが単一のコンピュータまたはプロセッサ上に常駐する必要はなく、異なるコンピュータまたはプロセッサの間にわたってモジュラ様式で分散させて本明細書に記載されたテクノロジの多様な側面を実装できる。
プロセッサ実行可能命令は、プログラムモジュール等の多くの形式で、1つまたは2つ以上のコンピュータまたはそのほかの装置によって実行できる。一般に、プログラムモジュールは、特定のタスクを実施するか、または特定のアブストラクトデータタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を包含する。通常、プログラムモジュールの機能は、多様な態様で所望に応じて結合または分散できる。
データ構造もまた、1つまたは2つ以上の非一時的コンピュータ可読記憶媒体内に、いずれかの好適な形式で記憶できる。簡潔な例証のため、データ構造を、そのデータ構造内の場所を通じて関係されるフィールドを有するとして示すことができる。かかる関係も同様に、フィールド間の関係を伝える非一時的コンピュータ可読媒体内の場所を伴うフィールドのための記憶を割り当てることによって達成できる。しかしながら、データ構造のフィールド内の情報間の関係の確立には、データ要素間の関係を確立するポインタ、タグ、またはそのほかのメカニズムの使用を通じることを含めて、いずれかの好適なメカニズムを使用できる。
また、多様な発明概念を1つまたは2つ以上の過程として具体化でき、その例は提供済みである(図4、図6、および図7)。各過程の部品として実施される作用は、いずれかの好適な方法で順序設定できる。したがって、例証的態様には連続的な作用として示されてはいるが、いくつかの作用を同時に実施できるものも含めて、例証された順序と異なって作用が実施される態様を企図できる。
特許請求の範囲内の請求項の要素を修飾する「第1の」、「第2の」、「第3の」等の順序を示す用語それ自体が、1つの請求項の要素の別の要素に対するいずれかの優先、先行、または順序、または方法の作用が実施される時間的順序を暗示することはない。かかる用語は、然るべき名前を有する1つの請求項の要素を同じ(しかし、順序を示す用語の使用のための)名前を有する別の要素から区別する単なるラベルとして使用される。
本明細書で使用されている語法および用語は、説明の目的のためのものであり、限定と考えるべきではない。「包含する」、「含む」、「有する」、「含有する」、「伴う」、およびこれらの変化形の使用は、それらの語の前にリストされた項目および追加の項目を囲い込むことを意味する。

Claims (80)

  1. それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のためのシステムであって、:
    少なくとも1つのコンピュータハードウエアプロセッサコンピュータハードウエアプロセッサ;および
    プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウエアプロセッサに、
    前記複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の識別済み第1のポイントにおいて評価する第1の目的関数を選択すること;
    前記識別済み第1のポイントにおいて前記第1の目的関数を評価すること;および
    前記評価の結果に基づいて前記同時確率モデルを更新して更新後の同時確率モデルを獲得すること;
    を実施させる、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体
    を含む、前記システム。
  2. 前記第1の目的関数は、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項1に記載のシステム。
  3. 前記第1の目的関数は、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別におけるニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  4. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記複数の目的関数の前記更新後の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第2のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の、前記識別済み第1のポイントにおいて評価する第2の目的関数を選択すること;および
    前記識別済み第1のポイントにおいて前記第2の目的関数を評価すること
    をさらに実施させる、
    請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  5. 前記第1の目的関数は、前記第2の目的関数とは異なる、請求項4またはそのほかのいずれかの先行する請求項に記載のシステム。
  6. 前記複数の目的関数の前記同時確率モデルは、前記複数のタスク内のタスクの間の相関をモデリングする、請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  7. 前記複数の目的関数の前記同時確率モデルは、ベクトル値ガウス過程を含む、請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  8. 前記同時確率モデルは、前記複数のタスク内のタスクの間の相関をモデリングする第1の共分散カーネル、および複数の目的関数内の目的関数を評価できるポイント間の相関をモデリングする第2の共分散カーネルに、少なくとも部分的に基づいて獲得される共分散カーネルを含む、請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  9. 前記識別することは、さらに、コスト荷重エントロピーサーチユーティリティ関数に基づいて実施される、請求項1またはそのほかのいずれかの先行する請求項に記載のシステム。
  10. それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のための方法であって、該方法が以下:
    少なくとも1つのコンピュータハードウエアプロセッサを、
    前記複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の識別済み第1のポイントにおいて評価する第1の目的関数を選択すること;
    前記識別済み第1のポイントにおいて前記第1の目的関数を評価すること;および
    前記評価の結果に基づいて前記同時確率モデルを更新して更新後の同時確率モデルを獲得すること
    を実施するために使用することを含む、前記方法。
  11. 前記第1の目的関数は、機械学習システムのハイパーパラメータハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項10またはそのほかのいずれかの先行する請求項に記載の方法。
  12. 前記複数の目的関数の前記更新後の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第2のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の、前記識別済み第1のポイントにおいて評価する第2の目的関数を選択すること;および
    前記識別済み第1のポイントにおいて前記第2の目的関数を評価すること
    をさらに含む、請求項10またはそのほかのいずれかの先行する請求項に記載の方法。
  13. 前記複数の目的関数の前記同時確率モデルは、前記複数のタスク内のタスクの間の相関をモデリングする、請求項10またはそのほかのいずれかの先行する請求項に記載の方法。
  14. 前記複数の目的関数の前記同時確率モデルは、ベクトル値ガウス過程を含む、請求項10またはそのほかのいずれかの先行する請求項に記載の方法。
  15. 前記同時確率モデルは、前記複数のタスク内のタスクの間の相関をモデリングする第1の共分散カーネル、および複数の目的関数内の目的関数を評価できるポイント間の相関をモデリングする第2の共分散カーネルに、少なくとも部分的に基づいて獲得される共分散カーネルを含む、請求項10またはそのほかのいずれかの先行する請求項に記載の方法。
  16. 少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウエアプロセッサに、それぞれの複数のタスクに関連付けされた複数の目的関数を使用する最適化の実施に関連した用途のための方法を実施させる、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記方法が、
    前記複数の目的関数の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第1のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の識別済み第1のポイントにおいて評価する第1の目的関数を選択すること;
    前記識別済み第1のポイントにおいて前記第1の目的関数を評価すること;および
    前記評価の結果に基づいて前記同時確率モデルを更新して更新後の同時確率モデルを獲得すること
    を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
  17. 前記第1の目的関数は、機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項16またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  18. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記複数の目的関数の前記更新後の同時確率モデルに少なくとも部分的に基づいて、複数の目的関数内の目的関数を評価する第2のポイントを識別すること;
    前記同時確率モデルに少なくとも部分的に基づいて、前記複数の目的関数内の、前記識別済み第1のポイントにおいて評価する第2の目的関数を選択すること;および
    前記識別済み第1のポイントにおいて前記第2の目的関数を評価すること
    をさらに実施させる、
    請求項16またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  19. 前記複数の目的関数の前記同時確率モデルは、ベクトル値ガウス過程を含む、請求項16またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  20. 前記同時確率モデルは、前記複数のタスク内のタスクの間の相関をモデリングする第1の共分散カーネル、および複数の目的関数内の目的関数を評価できるポイント間の相関をモデリングする第2の共分散カーネルに、少なくとも部分的に基づいて獲得される共分散カーネルを含む、請求項16またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  21. 第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のためのシステムであって、該システムが以下:
    少なくとも1つのコンピュータハードウエアプロセッサ;および
    プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウエアプロセッサに、
    取得ユーティリティ関数および目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、前記確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること;
    前記目的関数の対応する第1の値を獲得するために前記識別済みの第1のポイントにおいて目的関数を評価すること;および
    前記第1の値を使用して目的関数の確率モデルを更新して前記目的関数の更新後の確率モデルを獲得すること
    を実施させる、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体
    を含む、前記システム。
  22. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  23. 前記目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  24. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数を評価する第2のポイントを識別すること;
    前記目的関数の対応する第2の値を獲得するために前記識別済みの第2のポイントにおいて目的関数を評価すること;および
    前記第2の値を使用して前記目的関数の更新後の確率モデルを更新して目的関数の第2の更新後の確率モデルを獲得すること
    をさらに実施させる、
    請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  25. 前記非線形の1対1マッピングは、全単射である、請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  26. 前記非線形の1対1マッピングは、ベータ分布の累積分布関数を含む、請求項25またはそのほかのいずれかの先行する請求項に記載のシステム。
  27. 前記取得ユーティリティ関数は、積分後の取得ユーティリティ関数である、請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  28. 前記目的関数の確率モデルは、ガウス過程またはニューラルネットワークを使用することによって少なくとも部分的に獲得される、請求項21またはそのほかのいずれかの先行する請求項に記載のシステム。
  29. 第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のための方法であって、該方法が以下:
    少なくとも1つのコンピュータハードウエアプロセッサを、
    取得ユーティリティ関数および目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、前記確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること;
    前記目的関数の対応する第1の値を獲得するために前記識別済みの第1のポイントにおいて目的関数を評価すること;および
    前記第1の値を使用して目的関数の確率モデルを更新して前記目的関数の更新後の確率モデルを獲得すること
    を実施するために使用することを含む、前記方法。
  30. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項29またはそのほかのいずれかの先行する請求項に記載の方法。
  31. 前記目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項29またはそのほかのいずれかの先行する請求項に記載の方法。
  32. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数を評価する第2のポイントを識別すること;
    前記目的関数の対応する第2の値を獲得するために前記識別済みの第2のポイントにおいて目的関数を評価すること;および
    前記第2の値を使用して前記目的関数の更新後の確率モデルを更新して目的関数の第2の更新後の確率モデルを獲得すること
    をさらに実施させる、
    請求項29またはそのほかのいずれかの先行する請求項に記載の方法。
  33. 前記非線形の1対1マッピングは、全単射である、請求項29またはそのほかのいずれかの先行する請求項に記載の方法。
  34. 前記非線形の1対1マッピングは、ベータ分布の累積分布関数を含む、請求項33またはそのほかのいずれかの先行する請求項に記載の方法。
  35. 前記取得ユーティリティ関数は、積分後の取得ユーティリティ関数である、請求項34またはそのほかのいずれかの先行する請求項に記載の方法。
  36. 少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウエアプロセッサに、第1の定義域内の要素を値域内の値にマッピングする目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記方法が、
    取得ユーティリティ関数および目的関数の確率モデルを使用することによって目的関数を少なくとも部分的に評価する第1のポイントを識別することであって、前記確率モデルが第1の定義域内の要素の第2の定義域内の要素への非線形の1対1マッピングに依存すること;および
    前記目的関数の対応する第1の値を獲得するために前記識別済みの第1のポイントにおいて目的関数を評価すること
    を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
  37. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項36またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  38. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数を評価する第2のポイントを識別すること;
    前記目的関数の対応する第2の値を獲得するために前記識別済みの第2のポイントにおいて目的関数を評価すること;および
    前記第2の値を使用して前記目的関数の更新後の確率モデルを更新して目的関数の第2の更新後の確率モデルを獲得すること
    をさらに実施させる、
    請求項36またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  39. 前記非線形の1対1マッピングは、全単射である、請求項36またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  40. 前記非線形の1対1マッピングは、ベータ分布の累積分布関数を含む、請求項36またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  41. 目的関数を使用する最適化の実施に関連した用途のためのシステムであって、該システムが以下:
    少なくとも1つのコンピュータハードウエアプロセッサ;および
    プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウエアプロセッサに、
    積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して前記目的関数を評価する少なくとも第1のポイントを識別すること;
    少なくとも識別済みの第1のポイントにおいて前記目的関数を評価すること;および
    前記評価の結果を使用して前記目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること
    を実施させる、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体
    を含む、前記システム。
  42. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  43. 前記目的関数が、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項42またはそのほかのいずれかの先行する請求項に記載のシステム。
  44. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    積分後の取得ユーティリティ関数および目的関数の更新後の確率モデルを使用して前記目的関数を評価する少なくとも第2のポイントを識別すること;および
    少なくとも識別済みの第2のポイントにおいて前記目的関数を評価すること
    をさらに実施させる、
    請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  45. 前記確率モデルは、少なくとも1つのパラメータを有し、前記積分後の取得ユーティリティ関数は、確率モデルの少なくとも1つのパラメータに関して初期取得ユーティリティ関数を積分することによって少なくとも部分的に獲得される、請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  46. 前記初期取得ユーティリティ関数は、改善ユーティリティ関数の確率、期待される改善ユーティリティ関数、リグレット最小化ユーティリティ関数、およびエントロピーベースのユーティリティ関数からなる群から選択された取得ユーティリティ関数である、請求項45またはそのほかのいずれかの先行する請求項に記載のシステム。
  47. 前記目的関数の確率モデルは、ガウス過程またはニューラルネットワークを含む、請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  48. 前記識別することは、マルコフ連鎖モンテカルロテクニックを使用することによって少なくとも部分的に実施される、請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  49. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数を評価する複数のポイントを識別すること;
    前記複数のポイントのそれぞれにおいて前記目的関数を評価すること;および
    前記評価の結果に基づいて、前記目的関数が最大値に到達するポイントを識別するか、または近似すること
    をさらに実施させる、
    請求項41またはそのほかのいずれかの先行する請求項に記載のシステム。
  50. 目的関数を使用する最適化の実施に関連した用途のための方法であって、該方法が以下:
    少なくとも1つのコンピュータハードウエアプロセッサを、
    積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して前記目的関数を評価する少なくとも第1のポイントを識別すること;
    少なくとも識別済みの第1のポイントにおいて前記目的関数を評価すること;および
    前記評価の結果を使用して前記目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること
    を実施するために使用することを含む、前記方法。
  51. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項50またはそのほかのいずれかの先行する請求項に記載の方法。
  52. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    積分後の取得ユーティリティ関数および目的関数の更新後の確率モデルを使用して前記目的関数を評価する少なくとも第2のポイントを識別すること;および
    少なくとも識別済みの第2のポイントにおいて前記目的関数を評価すること
    をさらに実施させる、
    請求項50またはそのほかのいずれかの先行する請求項に記載の方法。
  53. 前記目的関数の確率モデルは、ガウス過程またはニューラルネットワークを含む、請求項50またはそのほかのいずれかの先行する請求項に記載の方法。
  54. 前記識別することは、マルコフ連鎖モンテカルロテクニックを使用することによって少なくとも部分的に実施される、請求項50またはそのほかのいずれかの先行する請求項に記載の方法。
  55. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数を評価する複数のポイントを識別すること;
    前記複数のポイントのそれぞれにおいて前記目的関数を評価すること;および
    前記評価の結果に基づいて、前記目的関数が最大値に到達するポイントを識別するか、または近似すること
    をさらに実施させる、
    請求項50またはそのほかのいずれかの先行する請求項に記載の方法。
  56. 少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記方法が、
    積分後の取得ユーティリティ関数および目的関数の確率モデルを使用して前記目的関数を評価する少なくとも第1のポイントを識別すること;
    少なくとも識別済みの第1のポイントにおいて前記目的関数を評価すること;および
    前記評価の結果を使用して前記目的関数の確率モデルを更新して目的関数の更新後の確率モデルを獲得すること
    を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
  57. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項56またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  58. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    積分後の取得ユーティリティ関数および目的関数の更新後の確率モデルを使用して前記目的関数を評価する少なくとも第2のポイントを識別すること;および
    少なくとも識別済みの第2のポイントにおいて前記目的関数を評価すること
    をさらに実施させる、
    請求項56またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  59. 前記目的関数の確率モデルは、ガウス過程またはニューラルネットワークを含む、請求項56またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  60. 前記識別することは、マルコフ連鎖モンテカルロテクニックを使用することによって少なくとも部分的に実施される、請求項56またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  61. 目的関数を使用する最適化の実施に関連した用途のためのシステムであって、該システムが以下:
    少なくとも1つのコンピュータハードウエアプロセッサと、
    プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、少なくとも1つのコンピュータハードウエアプロセッサに、
    第1のポイントにおいて目的関数の評価を開始すること;
    前記第1のポイントにおける前記目的関数の評価が完了する前に、
    前記第1のポイントにおける前記目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること;および
    第2のポイントにおける目的関数の評価を開始すること
    を実施させる、プロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体
    を含む、前記システム。
  62. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項61またはそのほかのいずれかの先行する請求項に記載のシステム。
  63. 前記目的関数は、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項61またはそのほかのいずれかの先行する請求項に記載のシステム。
  64. 前記少なくとも1つのコンピュータハードウエアプロセッサは、第1のコンピュータハードウエアプロセッサおよび前記第1のコンピュータハードウエアプロセッサとは異なる第2のコンピュータハードウエアプロセッサを含み、前記プロセッサ実行可能命令は、
    少なくとも前記第1のコンピュータハードウエアプロセッサに、前記第1のポイントにおいて前記目的関数の評価を実施させる;および
    少なくとも前記第2のコンピュータハードウエアプロセッサに、前記第2のポイントにおいて前記目的関数の評価を実施させる、
    請求項61またはそのほかのいずれかの先行する請求項に記載のシステム。
  65. 前記識別することは、前記第1のポイントにおける前記目的関数の潜在的な値に関して初期取得ユーティリティ関数の期待される値を計算することによって少なくとも部分的に獲得される取得ユーティリティ関数を使用することを含む、請求項61またはそのほかのいずれかの先行する請求項に記載のシステム。
  66. 前記尤度は、目的関数の確率モデルを使用して獲得され、前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    目的関数の更新後の確率モデルを獲得する前記第1のポイントおよび/または第2のポイントにおいて前記目的関数を評価した結果を使用して目的関数の確率モデルを更新することをさらに実施させる、
    請求項61またはそのほかのいずれかの先行する請求項に記載のシステム。
  67. 前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    前記目的関数の更新後の確率モデルを使用して、目的関数を評価する少なくとも第3のポイントを識別すること;および
    少なくとも前記識別済みの第3のポイントにおける前記目的関数の評価を開始すること
    をさらに実施させる、
    請求項66またはそのほかのいずれかの先行する請求項に記載のシステム。
  68. 前記目的関数の確率モデルは、ガウス過程またはニューラルネットワークを含む、請求項66またはそのほかのいずれかの先行する請求項に記載のシステム。
  69. 目的関数を使用する最適化の実施に関連した用途のための方法であって、該方法が以下:
    少なくとも1つのコンピュータハードウエアプロセッサを、
    第1のポイントにおいて目的関数の評価を開始すること;
    前記第1のポイントにおける前記目的関数の評価が完了する前に、
    前記第1のポイントにおける前記目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること;および
    第2のポイントにおける目的関数の評価を開始すること
    を実施するために使用することを含む、前記方法。
  70. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項69またはそのほかのいずれかの先行する請求項に記載の方法。
  71. 前記目的関数は、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項69またはそのほかのいずれかの先行する請求項に記載の方法。
  72. 前記少なくとも1つのコンピュータハードウエアプロセッサは、第1のコンピュータハードウエアプロセッサおよび前記第1のコンピュータハードウエアプロセッサとは異なる第2のコンピュータハードウエアプロセッサを含み、前記方法は、
    少なくとも前記第1のコンピュータハードウエアプロセッサを、前記第1のポイントにおいて前記目的関数の評価を実施するために使用すること;および
    少なくとも前記第2のコンピュータハードウエアプロセッサを、前記第2のポイントにおいて前記目的関数の評価を実施するために使用すること
    を含む、
    請求項69またはそのほかのいずれかの先行する請求項に記載の方法。
  73. 前記識別することは、前記第1のポイントにおける前記目的関数の潜在的な値に関して初期取得ユーティリティ関数の期待される値を計算することによって少なくとも部分的に獲得される取得ユーティリティ関数を使用することを含む、請求項69またはそのほかのいずれかの先行する請求項に記載の方法。
  74. 前記尤度は、目的関数の確率モデルを使用して獲得され、前記方法は、
    目的関数の更新後の確率モデルを獲得する前記第1のポイントおよび/または第2のポイントにおいて前記目的関数を評価した結果を使用して目的関数の確率モデルを更新すること、
    を含む、
    請求項69またはそのほかのいずれかの先行する請求項に記載の方法。
  75. 少なくとも1つのコンピュータハードウエアプロセッサによって実行されたとき、前記少なくとも1つのコンピュータハードウエアプロセッサに、目的関数を使用する最適化の実施に関連した用途のための方法を実施させるプロセッサ実行可能命令を記憶する少なくとも1つの非一時的コンピュータ可読記憶媒体であって、前記方法が、
    第1のポイントにおいて目的関数の評価を開始すること;
    前記第1のポイントにおける前記目的関数の評価が完了する前に、
    前記第1のポイントにおける前記目的関数の評価の潜在的アウトカムの尤度に基づいて、目的関数を評価する、第1のポイントとは異なる第2のポイントを識別すること;および
    第2のポイントにおいて目的関数の評価を開始すること
    を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
  76. 前記目的関数は、前記機械学習システムのハイパーパラメータの値を、機械学習システムのパフォーマンスの測度を提供する値と関係させる、請求項75またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  77. 前記目的関数は、画像内の対象物を識別するためのニューラルネットワークの複数のハイパーパラメータの値を、画像内の対象物の識別における前記ニューラルネットワークのパフォーマンスの測度を提供するそれぞれの値と関係させる、請求項75またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  78. 前記少なくとも1つのコンピュータハードウエアプロセッサは、第1のコンピュータハードウエアプロセッサおよび前記第1のコンピュータハードウエアプロセッサとは異なる第2のコンピュータハードウエアプロセッサを含み、前記プロセッサ実行可能命令は、
    少なくとも前記第1のコンピュータハードウエアプロセッサに、前記第1のポイントにおいて前記目的関数の評価を実施させる;および
    少なくとも前記第2のコンピュータハードウエアプロセッサに、前記第2のポイントにおいて前記目的関数の評価を実施させる、
    請求項75またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  79. 前記識別することは、前記第1のポイントにおける前記目的関数の潜在的な値に関して初期取得ユーティリティ関数の期待される値を計算することによって少なくとも部分的に獲得される取得ユーティリティ関数を使用することを含む、
    請求項75またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
  80. 前記尤度は、目的関数の確率モデルを使用して獲得され、前記プロセッサ実行可能命令は、前記少なくとも1つのコンピュータハードウエアプロセッサに、
    目的関数の更新後の確率モデルを獲得する前記第1のポイントおよび/または第2のポイントにおいて前記目的関数を評価した結果を使用して目的関数の確率モデルを更新することをさらに実施させる、
    請求項75またはそのほかのいずれかの先行する請求項に記載の少なくとも1つの非一時的コンピュータ可読記憶媒体。
JP2016517028A 2013-05-30 2014-05-30 ベイズの最適化を実施するためのシステムおよび方法 Active JP6483667B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361829090P 2013-05-30 2013-05-30
US61/829,090 2013-05-30
US201361829604P 2013-05-31 2013-05-31
US61/829,604 2013-05-31
US201361910837P 2013-12-02 2013-12-02
US61/910,837 2013-12-02
PCT/US2014/040141 WO2014194161A2 (en) 2013-05-30 2014-05-30 Systems and methods for performing bayesian optimization

Publications (3)

Publication Number Publication Date
JP2016523402A true JP2016523402A (ja) 2016-08-08
JP2016523402A5 JP2016523402A5 (ja) 2017-07-06
JP6483667B2 JP6483667B2 (ja) 2019-03-13

Family

ID=51986294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016517028A Active JP6483667B2 (ja) 2013-05-30 2014-05-30 ベイズの最適化を実施するためのシステムおよび方法

Country Status (8)

Country Link
US (5) US10074054B2 (ja)
EP (2) EP3000053A4 (ja)
JP (1) JP6483667B2 (ja)
KR (2) KR20210021147A (ja)
BR (1) BR112015029806A2 (ja)
CA (1) CA2913743C (ja)
HK (1) HK1223430A1 (ja)
WO (1) WO2014194161A2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046236A (ja) * 2017-09-04 2019-03-22 株式会社東芝 学習装置、情報処理装置、学習方法およびプログラム
WO2019058684A1 (ja) * 2017-09-25 2019-03-28 ソニー株式会社 検証装置、情報処理方法、およびプログラム
JP2019111604A (ja) * 2017-12-22 2019-07-11 セイコーエプソン株式会社 制御装置、ロボット、およびロボットシステム
JP2019159933A (ja) * 2018-03-14 2019-09-19 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
JP2019192608A (ja) * 2018-04-27 2019-10-31 国立研究開発法人物質・材料研究機構 狭帯熱放射スペクトルを有する構造体
JP2020144530A (ja) * 2019-03-05 2020-09-10 日本電信電話株式会社 パラメータ推定装置、方法、及びプログラム
WO2020218246A1 (ja) * 2019-04-24 2020-10-29 日本電信電話株式会社 最適化装置、最適化方法、及びプログラム
WO2020235104A1 (ja) * 2019-05-23 2020-11-26 日本電信電話株式会社 パラメータ推定装置、パラメータ推定方法、及びパラメータ推定プログラム
KR20200145641A (ko) * 2019-06-19 2020-12-30 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 생성 방법 및 장치
JP2022510223A (ja) * 2018-11-28 2022-01-26 タタ・コンサルタンシー・サーヴィシズ・リミテッド 機器の動作最適化のためのシステムおよび方法
US11762918B2 (en) 2017-10-24 2023-09-19 Fujitsu Limited Search method and apparatus
JP7419325B2 (ja) 2017-12-04 2024-01-22 大日本印刷株式会社 デバイス、プログラム及び情報処理方法

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9672193B2 (en) 2013-03-15 2017-06-06 Sas Institute Inc. Compact representation of multivariate posterior probability distribution from simulated samples
EP3000053A4 (en) 2013-05-30 2017-10-04 President and Fellows of Harvard College Systems and methods for performing bayesian optimization
US10228680B2 (en) * 2013-07-22 2019-03-12 Texas State University Autonomous performance optimization in robotic assembly process
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10102480B2 (en) * 2014-06-30 2018-10-16 Amazon Technologies, Inc. Machine learning service
US10963810B2 (en) * 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
MX2015008690A (es) * 2014-07-04 2016-02-03 Tata Consultancy Services Ltd Sistema y procedimiento para análisis prescriptivos.
US10120962B2 (en) * 2014-09-02 2018-11-06 International Business Machines Corporation Posterior estimation of variables in water distribution networks
US10275719B2 (en) * 2015-01-29 2019-04-30 Qualcomm Incorporated Hyper-parameter selection for deep convolutional networks
WO2016151864A1 (ja) * 2015-03-26 2016-09-29 日本電気株式会社 最適化処理装置、最適化処理方法、及びコンピュータ読み取り可能な記録媒体
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
US11423311B2 (en) 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
US10755810B2 (en) 2015-08-14 2020-08-25 Elucid Bioimaging Inc. Methods and systems for representing, storing, and accessing computable medical imaging-derived quantities
US11150921B2 (en) * 2015-09-01 2021-10-19 International Business Machines Corporation Data visualizations selection
CN106570513B (zh) * 2015-10-13 2019-09-13 华为技术有限公司 大数据网络系统的故障诊断方法和装置
CH711716A1 (it) * 2015-10-29 2017-05-15 Supsi Apprendimento della struttura di reti bayesiane da un insieme di dati completo
JP6470165B2 (ja) * 2015-12-15 2019-02-13 株式会社東芝 サーバ、システム及び探索方法
US11367149B2 (en) * 2016-01-15 2022-06-21 Carnegie Mellon University Pattern identification in time-series social media data, and output-dynamics engineering for a dynamic system having one or more multi-scale time-series data sets
US11062229B1 (en) * 2016-02-18 2021-07-13 Deepmind Technologies Limited Training latent variable machine learning models using multi-sample objectives
CN105590623B (zh) * 2016-02-24 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的字母音素转换模型生成方法及装置
US10235443B2 (en) * 2016-03-01 2019-03-19 Accenture Global Solutions Limited Parameter set determination for clustering of datasets
JP6703264B2 (ja) * 2016-06-22 2020-06-03 富士通株式会社 機械学習管理プログラム、機械学習管理方法および機械学習管理装置
US10789546B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US10789538B2 (en) 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US20190180180A1 (en) * 2016-06-30 2019-06-13 Nec Corporation Information processing system, information processing method, and recording medium
DE112016007312T5 (de) * 2016-10-03 2019-07-04 Mitsubishi Electric Corporation Netzwerk-bildungsvorrichtung und netzwerk-bildungsverfahren
US10372814B2 (en) * 2016-10-18 2019-08-06 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
US10579729B2 (en) 2016-10-18 2020-03-03 International Business Machines Corporation Methods and system for fast, adaptive correction of misspells
WO2018089443A1 (en) * 2016-11-09 2018-05-17 Gamalon, Inc. Machine learning data analysis system and method
RU2641447C1 (ru) * 2016-12-27 2018-01-17 Общество с ограниченной ответственностью "ВижнЛабс" Способ обучения глубоких нейронных сетей на основе распределений попарных мер схожести
US10740880B2 (en) * 2017-01-18 2020-08-11 Elucid Bioimaging Inc. Systems and methods for analyzing pathologies utilizing quantitative imaging
JP6721121B2 (ja) * 2017-02-10 2020-07-08 日本電気株式会社 制御カスタマイズシステム、制御カスタマイズ方法および制御カスタマイズプログラム
US20180239851A1 (en) * 2017-02-21 2018-08-23 Asml Netherlands B.V. Apparatus and method for inferring parameters of a model of a measurement structure for a patterning process
US20180349158A1 (en) * 2017-03-22 2018-12-06 Kevin Swersky Bayesian optimization techniques and applications
RU2672394C1 (ru) * 2017-07-26 2018-11-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения
US10282237B1 (en) 2017-10-30 2019-05-07 SigOpt, Inc. Systems and methods for implementing an intelligent application program interface for an intelligent optimization platform
KR102107378B1 (ko) * 2017-10-31 2020-05-07 삼성에스디에스 주식회사 하이퍼파라미터 자동 최적화 방법 및 그 장치
US11270217B2 (en) 2017-11-17 2022-03-08 Intel Corporation Systems and methods implementing an intelligent machine learning tuning system providing multiple tuned hyperparameter solutions
JP6856557B2 (ja) * 2018-01-22 2021-04-07 株式会社日立製作所 最適化装置及びハイパーパラメータの最適化方法
JP6915743B2 (ja) * 2018-03-23 2021-08-04 日本電気株式会社 組み合わせ探索システム、情報処理装置、方法およびプログラム
US11630987B2 (en) * 2018-04-30 2023-04-18 International Business Machines Corporation Neural belief reasoner
US10565085B2 (en) 2018-06-06 2020-02-18 Sas Institute, Inc. Two-stage distributed estimation system
JP7058386B2 (ja) * 2018-06-07 2022-04-22 日本電気株式会社 分析装置、分析方法およびプログラム
KR102173243B1 (ko) * 2018-06-14 2020-11-03 (주)밸류파인더스 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법
CN112154464B (zh) * 2018-06-19 2024-01-02 株式会社岛津制作所 参数搜索方法、参数搜索装置以及参数搜索用程序
KR102063791B1 (ko) * 2018-07-05 2020-01-08 국민대학교산학협력단 클라우드 기반의 인공지능 연산 서비스 방법 및 장치
US11829869B2 (en) * 2018-07-25 2023-11-28 Servicenow Canada Inc. Multiple task transfer learning
US11734575B2 (en) 2018-07-30 2023-08-22 International Business Machines Corporation Sequential learning of constraints for hierarchical reinforcement learning
US11501157B2 (en) 2018-07-30 2022-11-15 International Business Machines Corporation Action shaping from demonstration for fast reinforcement learning
US11537872B2 (en) 2018-07-30 2022-12-27 International Business Machines Corporation Imitation learning by action shaping with antagonist reinforcement learning
CN109242959B (zh) * 2018-08-29 2020-07-21 清华大学 三维场景重建方法及系统
GB201814233D0 (en) * 2018-08-31 2018-10-17 Ge Healthcare Bio Sciences Ab Method for optimization of a bioprocessing system
EP3620996A1 (en) * 2018-09-04 2020-03-11 Siemens Aktiengesellschaft Transfer learning of a machine-learning model using a hyperparameter response model
JP7198439B2 (ja) * 2018-10-03 2023-01-04 日本電気株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
DE102018217966A1 (de) * 2018-10-19 2020-04-23 Robert Bosch Gmbh Verfahren zum Steuern oder Regeln eines technischen Systems
US11620555B2 (en) * 2018-10-26 2023-04-04 Samsung Electronics Co., Ltd Method and apparatus for stochastic inference between multiple random variables via common representation
US11604992B2 (en) 2018-11-02 2023-03-14 Microsoft Technology Licensing, Llc Probabilistic neural network architecture generation
WO2020094525A1 (en) 2018-11-09 2020-05-14 Curious Ai Oy Solution for machine learning system
US20220004908A1 (en) * 2018-11-22 2022-01-06 Nec Corporation Information processing apparatus, information processing system, information processing method, and non-transitory computer readable medium storing program
US20200184382A1 (en) * 2018-12-11 2020-06-11 Deep Learn, Inc. Combining optimization methods for model search in automated machine learning
KR102105787B1 (ko) * 2019-01-28 2020-04-29 한국과학기술원 베이지안 최적화를 이용한 카메라 속성 제어 방법 및 장치
US11308314B2 (en) 2019-03-21 2022-04-19 Toyota Research Institute, Inc. Systems, devices, and methods for generating a pose estimate of an object
US11157812B2 (en) 2019-04-15 2021-10-26 Intel Corporation Systems and methods for tuning hyperparameters of a model and advanced curtailment of a training of the model
US11657118B2 (en) * 2019-05-23 2023-05-23 Google Llc Systems and methods for learning effective loss functions efficiently
WO2021007812A1 (zh) * 2019-07-17 2021-01-21 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
US11068748B2 (en) 2019-07-17 2021-07-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iteratively biased loss function and related methods
US11417087B2 (en) 2019-07-17 2022-08-16 Harris Geospatial Solutions, Inc. Image processing system including iteratively biased training model probability distribution function and related methods
US10984507B2 (en) 2019-07-17 2021-04-20 Harris Geospatial Solutions, Inc. Image processing system including training model based upon iterative blurring of geospatial images and related methods
US20210056462A1 (en) * 2019-08-22 2021-02-25 Michael William Kotarinos Artificial intelligence and machine learning n a clustering processes to develop a utility model for asset location
KR20210026623A (ko) * 2019-08-30 2021-03-10 삼성전자주식회사 인공지능 모델을 학습시키는 시스템 및 방법
EP3786857A1 (en) 2019-09-02 2021-03-03 Secondmind Limited Computational implementation of gaussian process models
US11003825B1 (en) * 2019-09-26 2021-05-11 Cadence Design Systems, Inc. System, method, and computer program product for optimization in an electronic design
EP4038552A4 (en) * 2019-10-01 2023-09-06 Ohio State Innovation Foundation OPTIMIZATION OF TANK COMPUTERS FOR HARDWARE IMPLEMENTATION
WO2021066504A1 (ko) * 2019-10-02 2021-04-08 한국전자통신연구원 심층 신경망 구조 학습 및 경량화 방법
US11475239B2 (en) * 2019-11-21 2022-10-18 Paypal, Inc. Solution to end-to-end feature engineering automation
CN111027709B (zh) * 2019-11-29 2021-02-12 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
US11562203B2 (en) 2019-12-30 2023-01-24 Servicenow Canada Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
KR20220133915A (ko) * 2020-02-21 2022-10-05 시놉시스, 인크. 파라미터 장애들에 대한 자동 테스트 패턴 생성(atpg)
DE102020206916A1 (de) * 2020-06-03 2021-12-09 Robert Bosch Gesellschaft mit beschränkter Haftung Steuereinrichtung und Verfahren zum Auswählen von Auswertungspunkten für ein Bayessches Optimierungsverfahren
CN111783293B (zh) * 2020-06-24 2022-04-19 西北工业大学 基于自适应重要抽样的复合材料加筋壁板后屈曲可靠性分析方法
US11531734B2 (en) 2020-06-30 2022-12-20 Bank Of America Corporation Determining optimal machine learning models
US11308431B2 (en) * 2020-07-07 2022-04-19 Intuit Inc. Hierarchical optimization for processing objectives sequentially and/or iteratively
KR20220046947A (ko) * 2020-10-08 2022-04-15 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102413648B1 (ko) * 2020-11-09 2022-06-27 주식회사 케이티 대상 건물의 에너지 운용 정책을 결정하는 장치, 방법 및 컴퓨터 프로그램
JP7453895B2 (ja) * 2020-11-11 2024-03-21 株式会社日立製作所 探索条件提示装置、探索条件提示方法、及び探索条件提示プログラム
US11423571B2 (en) 2020-11-13 2022-08-23 Ford Global Technologies, Llc Systems and methods for image-based component detection
US11775878B2 (en) * 2020-12-22 2023-10-03 Sas Institute Inc. Automated machine learning test system
KR102314847B1 (ko) * 2021-03-30 2021-10-19 주식회사 솔리드웨어 최적모델탐색방법 및 그 장치
US11887713B2 (en) 2021-06-10 2024-01-30 Elucid Bioimaging Inc. Non-invasive determination of likely response to anti-diabetic therapies for cardiovascular disease
US11887734B2 (en) 2021-06-10 2024-01-30 Elucid Bioimaging Inc. Systems and methods for clinical decision support for lipid-lowering therapies for cardiovascular disease
US11887701B2 (en) 2021-06-10 2024-01-30 Elucid Bioimaging Inc. Non-invasive determination of likely response to anti-inflammatory therapies for cardiovascular disease
US11869186B2 (en) 2021-06-10 2024-01-09 Elucid Bioimaging Inc. Non-invasive determination of likely response to combination therapies for cardiovascular disease

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149866A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 解探索装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735596B2 (en) 2001-06-07 2004-05-11 Guy Charles Corynen Computer method and user interface for decision analysis and for global system optimization
US20060200333A1 (en) 2003-04-10 2006-09-07 Mukesh Dalal Optimizing active decision making using simulated decision making
EP1598751B1 (en) 2004-01-12 2014-06-25 Honda Research Institute Europe GmbH Estimation of distribution algorithm (EDA)
US7509259B2 (en) 2004-12-21 2009-03-24 Motorola, Inc. Method of refining statistical pattern recognition models and statistical pattern recognizers
US8301390B2 (en) 2007-01-31 2012-10-30 The Board Of Trustees Of The University Of Illinois Quantum chemistry simulations using optimization methods
US8315960B2 (en) 2008-11-11 2012-11-20 Nec Laboratories America, Inc. Experience transfer for the configuration tuning of large scale computing systems
AU2010201891B2 (en) * 2009-05-13 2015-02-12 The University Of Sydney A method and system for data analysis and synthesis
US8811726B2 (en) * 2011-06-02 2014-08-19 Kriegman-Belhumeur Vision Technologies, Llc Method and system for localizing parts of an object in an image for computer vision applications
US8924315B2 (en) 2011-12-13 2014-12-30 Xerox Corporation Multi-task learning using bayesian model with enforced sparsity and leveraging of task correlations
EP3000053A4 (en) 2013-05-30 2017-10-04 President and Fellows of Harvard College Systems and methods for performing bayesian optimization

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149866A (ja) * 1992-11-09 1994-05-31 Ricoh Co Ltd 解探索装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GRIGORIOS SKOKLIDIS ET AL.: "Bayesian Multitask Classification with Gaussian Process Priors", IEEE TRANSACTIONS ON NEURAL NETWORKS, vol. 22, no. 12, JPN6018020041, 2011, US, pages 2011 - 2021, XP011389597, ISSN: 0003808535, DOI: 10.1109/TNN.2011.2168568 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019046236A (ja) * 2017-09-04 2019-03-22 株式会社東芝 学習装置、情報処理装置、学習方法およびプログラム
WO2019058684A1 (ja) * 2017-09-25 2019-03-28 ソニー株式会社 検証装置、情報処理方法、およびプログラム
US11546347B2 (en) 2017-09-25 2023-01-03 Sony Corporation Verification apparatus, information processing method, and program
JPWO2019058684A1 (ja) * 2017-09-25 2020-10-22 ソニー株式会社 検証装置、情報処理方法、およびプログラム
CN111095257A (zh) * 2017-09-25 2020-05-01 索尼公司 验证设备、信息处理方法以及程序
US11762918B2 (en) 2017-10-24 2023-09-19 Fujitsu Limited Search method and apparatus
JP7419325B2 (ja) 2017-12-04 2024-01-22 大日本印刷株式会社 デバイス、プログラム及び情報処理方法
JP2019111604A (ja) * 2017-12-22 2019-07-11 セイコーエプソン株式会社 制御装置、ロボット、およびロボットシステム
JP7003753B2 (ja) 2018-03-14 2022-01-21 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
JP2019159933A (ja) * 2018-03-14 2019-09-19 富士通株式会社 探索点決定プログラム、探索点決定方法および探索点決定装置
JP2019192608A (ja) * 2018-04-27 2019-10-31 国立研究開発法人物質・材料研究機構 狭帯熱放射スペクトルを有する構造体
JP7066120B2 (ja) 2018-04-27 2022-05-13 国立研究開発法人物質・材料研究機構 狭帯熱放射スペクトルを有する構造体
JP7179181B2 (ja) 2018-11-28 2022-11-28 タタ・コンサルタンシー・サーヴィシズ・リミテッド 機器の動作最適化のためのシステムおよび方法
JP2022510223A (ja) * 2018-11-28 2022-01-26 タタ・コンサルタンシー・サーヴィシズ・リミテッド 機器の動作最適化のためのシステムおよび方法
JP7124768B2 (ja) 2019-03-05 2022-08-24 日本電信電話株式会社 パラメータ推定装置、方法、及びプログラム
WO2020179627A1 (ja) * 2019-03-05 2020-09-10 日本電信電話株式会社 パラメータ推定装置、方法、及びプログラム
JP2020144530A (ja) * 2019-03-05 2020-09-10 日本電信電話株式会社 パラメータ推定装置、方法、及びプログラム
JP2020181318A (ja) * 2019-04-24 2020-11-05 日本電信電話株式会社 最適化装置、最適化方法、及びプログラム
WO2020218246A1 (ja) * 2019-04-24 2020-10-29 日本電信電話株式会社 最適化装置、最適化方法、及びプログラム
JPWO2020235104A1 (ja) * 2019-05-23 2020-11-26
WO2020235104A1 (ja) * 2019-05-23 2020-11-26 日本電信電話株式会社 パラメータ推定装置、パラメータ推定方法、及びパラメータ推定プログラム
JP7310884B2 (ja) 2019-05-23 2023-07-19 日本電信電話株式会社 パラメータ推定装置、パラメータ推定方法、及びパラメータ推定プログラム
KR102308002B1 (ko) 2019-06-19 2021-10-05 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 생성 방법 및 장치
KR20200145641A (ko) * 2019-06-19 2020-12-30 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보 생성 방법 및 장치
US11436540B2 (en) 2019-06-19 2022-09-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating information

Also Published As

Publication number Publication date
EP3000053A2 (en) 2016-03-30
EP3000053A4 (en) 2017-10-04
US9864953B2 (en) 2018-01-09
KR20160041856A (ko) 2016-04-18
KR102219346B1 (ko) 2021-02-23
WO2014194161A2 (en) 2014-12-04
US20160328655A1 (en) 2016-11-10
EP4047530A1 (en) 2022-08-24
CA2913743A1 (en) 2014-12-04
US10346757B2 (en) 2019-07-09
US20140358831A1 (en) 2014-12-04
US20200027012A1 (en) 2020-01-23
US20160292129A1 (en) 2016-10-06
US20160328653A1 (en) 2016-11-10
BR112015029806A2 (pt) 2020-04-28
HK1223430A1 (zh) 2017-07-28
US9858529B2 (en) 2018-01-02
WO2014194161A3 (en) 2015-01-29
US11501192B2 (en) 2022-11-15
JP6483667B2 (ja) 2019-03-13
KR20210021147A (ko) 2021-02-24
US10074054B2 (en) 2018-09-11
CA2913743C (en) 2023-01-03

Similar Documents

Publication Publication Date Title
JP6483667B2 (ja) ベイズの最適化を実施するためのシステムおよび方法
US20180349158A1 (en) Bayesian optimization techniques and applications
WO2021007812A1 (zh) 一种深度神经网络超参数优化方法、电子设备及存储介质
US20180247156A1 (en) Machine learning systems and methods for document matching
US11574164B2 (en) Neural network cooperation
Zhao et al. Learning hierarchical features from generative models
CN109754078A (zh) 用于优化神经网络的方法
CN113168559A (zh) 机器学习模型的自动化生成
US9292801B2 (en) Sparse variable optimization device, sparse variable optimization method, and sparse variable optimization program
CN112529149A (zh) 一种数据处理方法及相关装置
CN114072809A (zh) 经由神经架构搜索的小且快速的视频处理网络
CA3143928C (en) Dynamic image resolution assessment
CN113407820B (zh) 利用模型进行数据处理的方法及相关系统、存储介质
Zhan et al. Deep model compression via two-stage deep reinforcement learning
CN111160459A (zh) 超参数的优化装置和方法
EP3888008A1 (en) Computer architecture for artificial image generation
CN110717402B (zh) 一种基于层级优化度量学习的行人再识别方法
WO2023273934A1 (zh) 一种模型超参数的选择方法及相关装置
US20220138573A1 (en) Methods and systems for training convolutional neural networks
Choe et al. Deep learning with particle filter for person re-identification
Gray et al. Resource-Efficient Feature Gathering at Test Time
CN115151917A (zh) 经由批量归一化统计的域泛化
CN115132280A (zh) 基于弱先验知识的因果网络局部结构发现系统
CN117236375A (zh) 深度学习模型的获取方法、装置、电子设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170529

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190214

R150 Certificate of patent or registration of utility model

Ref document number: 6483667

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250