JP7191965B2

JP7191965B2 - 方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム

Info

Publication number: JP7191965B2
Application number: JP2020542498A
Authority: JP
Inventors: バスティアンビショフ; ユリアヴィノグラツカ; ヤンペーテルス
Original assignee: ロベルトボッシュゲーエムベーハー
Priority date: 2017-10-20
Filing date: 2018-08-10
Publication date: 2022-12-19
Anticipated expiration: 2038-08-10
Also published as: US20210003976A1; JP2020537801A; DE102017218811A1; EP3698223B1; CN111406237B; KR20200081407A; EP3698223A1; WO2019076512A1; CN111406237A; US20220075332A1; KR102326733B1

Description

本発明は、アクチュエータ調整システムを動作させる方法、学習システム、アクチュエータ調整システム、上記方法を実行するためのコンピュータプログラム、およびそのコンピュータプログラムが記憶された機械可読記憶媒体に関する。

事前に公開されていないＤＥ１０２０１７２１１２０９から、アクチュエータ調整システムの少なくとも１つのパラメータを自動的に設定するための方法が知られており、これは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように設計されており、アクチュエータ調整システムは、少なくとも１つのパラメータ、目標変数、および調整変数に依存して、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設計され、少なくとも１つのパラメータの新しい値が、長期間費用関数の関数として選択され、この長期間費用関数は、アクチュエータの調整変数の確率分布の予測される時間発展の関数として決定され、次いでパラメータがこの新しい値に設定される。

それに対して、独立請求項１の特徴を備える本方法は、特に、アクチュエータ調整システムの最適な調整を保証することができるという利点を有する。有利なさらなる発展が、従属請求項の主題である。

第１の態様において、本発明は、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法に関し、アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として、詳細には目標変数および／または調整変数の関数としても、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設定され、
調整戦略を特徴付ける変数は、価値関数の関数として決定される。

価値関数を決定することにより、状態変数および／またはアクションが離散値に限定されるのでなく連続値を達成し得る場合であっても、アクチュエータ調整システムの最適な調整を保証することが可能となる。

詳細には、調整戦略は、調整変数ごとに、補正変数が導出されるアクションが決定されるように、決定されることができ、このことにより価値関数を最大化する。

さらなる発展において、価値関数は、ベルマン方程式を用いて、反復価値関数の後続の反復により、徐々に価値関数を近似していくことによって反復的に決定されるようになされ、後続の反復の反復価値関数は、先行する反復の反復価値関数から、ベルマン方程式を用いて決定され、
先行する反復の反復価値関数の代わりに、基本関数の集合が範囲とする線形関数空間へのその射影のみが、ベルマン方程式を解くために使用される。

詳細には、これにより、特に長期間にわたり、システム動態を考慮に入れて、反復的に決定される価値関数が事前定義された報酬を最大化することを保証する。射影を使用することにより、その中に含まれる最大値形成のために点ごとに解析的に解くことしかできないベルマン方程式を、特に近似によって容易に解くことが可能となる。

後続の反復の反復価値関数の代わりに、基本関数の第２の集合が範囲とする関数空間へのその射影のみが決定される場合、特に有利である。

よって、後続の反復の反復価値関数自体を完全に計算する必要なく、この射影を決定することが可能となる。

解析的に解くことが特に容易であるベルマン方程式の積分は、ガウス関数が基本関数として使用されるときに得られる。これにより、この方法が数値的に特に効率的になる。

ベルマン方程式の最大値形成のために、ベルマン方程式は、一般には、個々の点で評価することしかできない。それでも、ベルマン方程式における積分が数値求積を使用して計算されれば、完全な解が可能である。したがって、数値求積の使用は数値的に特に効率的である。

本発明のさらなる態様において、反復価値関数と、上記集合が範囲とする関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも１つのさらなる基本関数をこの集合に追加することにより、基本関数の後続の集合が反復的に決定される。

この反復的手順により、方法の数値エラーを、事前定義可能な最大値に特に効率的に制限することができ、よって、アクチュエータ調整システムを特に確実に動作させることができる。

さらなる発展において、少なくとも１つのさらなる基本関数が、剰余が最大になる調整変数の最大点に依存して選択されるようになされ得る。

これにより、基本関数の集合が範囲とする関数空間への射影によって数値エラーを特に迅速に減らすことができるため、方法が特に効率的になる。

効率は、最大点における少なくとも１つの追加的な基本関数が最大値を取る場合に特に高い。

代替または追加として、そのことは、少なくとも１つのさらなる基本関数が、最大点における剰余の曲率を特徴付ける数量、詳細には最大点における剰余のヘッセ行列、に依存して選択される場合に、方法の効率をさらに増大させる。

特に多次元調整変数の場合に、少なくとも１つのさらなる基本関数が、最大点において、そのヘッセ行列が剰余のヘッセ行列と等しくなるように選択される場合、それは特に容易である。

本発明のさらなる態様において、ベルマン方程式が依存する条件付き確率が、アクチュエータのモデルを用いて決定されるようになされ得る。アクチュエータの実際の挙動を再度決定する必要がないため、これによっても方法が特に効率的になる。

ここで、モデルがガウス過程である場合、特に有利である。これは、基本関数がガウス関数によって与えられる場合に特に有利である。何故ならば、そうすると、発生する積分を、ガウス関数の積を介して積分として解析的に解くことができるためであり、これは特に効率的な実装を可能にする。

アクチュエータ調整システムの特に良好な調整挙動を得るために、本発明のさらなる態様によれば、アクチュエータ調整システムの教授およびモデルの教授がエピソード的手順で決定されるようになされてよく、このことは、調整戦略を特徴付ける変数の決定後に、モデルが補正変数に依存するようにされ、それが、調整戦略を考慮に入れたアクチュエータ調整システムによるアクチュエータの調整の場合に、アクチュエータに供給され、その結果得られる調整変数に合わせて適合され、モデルの適合後に、調整戦略を特徴付ける変数が上記の方法により再度決定され、次いで条件付き確率が、適合済みとなったモデルを用いて決定される。

さらなる態様において、本発明は、アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムに関し、アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように構成され、学習システムは、上述の方法のいずれか１つを実行するように構成される。

さらなる態様において、本発明は、調整戦略を特徴付ける変数が上述の方法の１つに従って決定され、次いで、調整戦略を特徴付ける変数に依存して操作変数が生成され、この補正変数に依存してアクチュエータが制御される方法に関する。

さらなる態様において、本発明は、この方法を使用してアクチュエータを制御するように設定されるアクチュエータ調整システムに関する。

さらに別の態様において、本発明は、上述の方法の１つを行うように設定されたコンピュータプログラムに関する。換言すると、コンピュータプログラムは、コンピュータで実行されたときに、そのコンピュータに方法を行わせる命令を備える。

本発明はさらに、このコンピュータプログラムが記憶された機械可読記憶媒体に関する。

以降、本発明の実施形態について、添付の図面を参照してより詳細に説明する。

学習システムとアクチュエータとの間の相互作用の概略的表現である。アクチュエータ調整システムとアクチュエータとの間の相互作用の概略的表現である。アクチュエータ調整システムを訓練する方法の一実施形態のフローチャートである。反復価値関数を決定する方法の一実施形態のフローチャートである。基本関数の集合を決定する方法の一実施形態のフローチャートである。補正変数を決定する方法の一実施形態のフローチャートである。

図１は、その環境２０の中で学習システム４０と相互作用するアクチュエータ１０を示す。アクチュエータ１０および環境２０を、以下ではまとめてアクチュエータシステムと称する。アクチュエータシステムの状態は、センサ３０によって検出され、これは複数のセンサによって提供されてもよい。センサ３０の出力信号Ｓは、学習システム４０に送信される。学習システム４０はそこから駆動信号Ａを決定し、それをアクチュエータ１０が受信する。

アクチュエータ１０は、例えば、（部分的に）自律的なロボット、例えば（部分的に）自律的な自動車、（部分的に）自律的な芝刈り機であり得る。また、例えばアイドル制御のためのスロットルバルブまたはバイパスアクチュエータなどの、自動車のアクチュエータの作動であってもよい。また、加熱設備、または、バルブアクチュエータなど加熱設備の一部であってもよい。アクチュエータ１０は、特に、自動車の内燃機関または（可能性としてはハイブリッド型の）ドライブトレーン、さらにはブレーキシステムなどの、より大きいシステムであってもよい。

センサ３０は、例えば、１つもしくは複数のビデオセンサ、および／または１つもしくは複数のレーダセンサ、および／または１つもしくは複数の超音波センサ、および／または１つもしくは複数の位置センサ（例えばＧＰＳ）であってよい。例えば温度センサなどの他のセンサが考えられる。

別の実施形態例において、アクチュエータ１０は、製造用ロボットであってよく、そのとき、センサ３０は、例えば製造用ロボットの製造製品の特性を検出する光学センサであってよい。

学習システム４０は、センサ３０の出力信号Ｓを任意選択の受信部５０で受信し、出力信号Ｓを調整変数ｘに変換する（代替として、出力信号Ｓは調整変数ｘとしてそのまま引き継がれる場合もある）。調整変数ｘは、例えば、出力信号Ｓの一部分またはさらなる処理であってよい。調整変数ｘは、調整器６０に供給される。調整器において、調整戦略πまたは価値関数Ｖ^＊のいずれかが実装され得る。

パラメータメモリ７０に、パラメータθが保管され、それが調整器６０に供給される。パラメータθは、調整戦略πまたは価値関数Ｖ^＊をパラメータ化する。パラメータθは、単数または複数のパラメータであり得る。

ブロック９０は、調整器６０に、事前定義可能な目標変数ｘｄを供給する。ブロック９０が、事前定義可能な目標変数ｘｄを、例えばブロック９０に対して事前定義されたセンサ信号の関数として生成するようになされ得る。また、ブロック９０が、目標変数ｘｄが常駐する専用のメモリ領域から目標変数ｘｄを読み出すことも可能である。

調整戦略またはπ価値関数Ｖ^＊と、目標変数ｘｄおよび調整変数ｘとに依存して、調整器６０は補正変数ｕを生成する。これは、例えば、調整変数ｘと目標変数ｘｄとの間の差ｘ－ｘｄに依存して決定され得る。

調整器６０は補正変数ｕを出力部８０に送信し、出力部８０はそこから駆動信号Ａを決定する。例えば、出力部が、はじめに、補正変数ｕが事前定義可能な変数範囲内にあるかどうかを検査することが可能である。これが該当する場合、制御信号Ａは、例えば、関連付けられた駆動信号Ａが補正変数ｕの関数として特性フィールドから読み出されることにより、補正変数ｕの関数として決定される。これが通常の場合である。一方、補正変数ｕが事前定義可能な値範囲内にないと判定される場合は、制御信号ＡがアクチュエータＡをセーフモードに入れるように設計されるようになされ得る。

受信部５０は、調整変数ｘをブロック１００に送信する。同様に、調整器６０は、対応する補正変数ｕをブロック１００に送信する。ブロック１００は、一連の時刻に受信された調整変数ｘの時系列と、それぞれの対応する補正変数ｕとを記憶する。ブロック１００は、次いで、これらの時系列に基づいてモデルｇのモデルパラメータΛ、σ_ｎ、σ_ｆを適合することができる。モデルパラメータΛ、σ_ｎ、σ_ｆは、ブロック１１０に供給され、ブロック１１０はそれらを、例えば専用の記憶位置に記憶する。これについては以下で図４のステップ１０１０でより詳細に説明する。

学習システム４０は、ある実施形態において、コンピュータプログラムが記憶された機械可読記憶媒体４２を有するコンピュータ４１を備え、コンピュータプログラムは、コンピュータ４１によって実行されると、コンピュータ４１に、記載される学習システム４０の機能を行わせる。この実施形態において、コンピュータ４１はＧＰＵ４３を備える。

モデルｇは、価値関数Ｖ^＊の決定に使用され得る。これについては以下で説明する。

図２は、アクチュエータ１０とのアクチュエータ調整システム４５の相互作用を例示する。アクチュエータ調整システム４５の構造およびアクチュエータ１０およびセンサ３０とのその相互作用は、多くの部分で学習システム４０の構造と類似しており、その理由からここでは違いのみを説明する。学習システム４０と対照的に、アクチュエータ調整システム４５はブロック１００を有さず、またブロック１１０を有さない。ブロック１００への変数の送信は、したがって除去される。アクチュエータ調整システム４５のパラメータメモリ７０には、例えば図４に例示されるように本発明に係る方法によって決定されたパラメータθが保管される。

図３は、本発明に係る方法の一実施形態を例示する。はじめに（１０００）、調整変数ｘの初期値ｘ_０が、事前定義可能な初期確率分布ｐ（ｘ_０）から選択される。エピソードインデックスｅが値ｅ＝１に初期化され、このエピソードインデックスｅに割り当てられた価値関数

が値

に初期化される。

また、図１に説明されるようにアクチュエータ１０が制御される事前定義可能な計画期間Ｔまで、補正変数ｕ_０，ｕ_１，．．．，ｕ_Ｔ－１がランダムに選択される。アクチュエータ１０は、環境２０を介してセンサ３０と相互作用し、センサ３０のセンサ信号Ｓは、調整器６０から間接的にまたは直接、調整変数ｘ_１，．．．，ｘ_Ｔ－１，ｘ_Ｔとして受信される。

これらは組み合わせられて、データセットＤ＝｛（ｘ_０，ｕ_０，ｘ_１），．．．，（ｘ_Ｔ－１，ｕ_Ｔ－１，ｘ_Ｔ｝となる。

ブロック１００は、補正変数ｕおよび調整変数ｘの時系列を受信して集約し（１０３０）、これらは一緒になって、調整変数ｘと対応する変数ｕとのペアｚ、

を生じる。

Ｄは、これにより、調整変数ｘの次元数であり、Ｆは補正変数ｕの次元数であり、すなわち

である。

この状態軌道に依存して、次いで、連続する時刻ｔ，ｔ＋１の間に以下が該当するように、ガウス過程ｇが適合される。
ｘ_ｔ＋１＝ｘ_ｔ＋ｇ（ｘ_ｔ，ｕ_ｔ）．（１）
ここで、
ｕ_ｔ＝π_θ（ｘ_ｔ）．（１'）

ガウス過程ｇの共分散関数ｋは、例えば、

によって与えられる。

パラメータ

は信号の分散であり、

は、Ｄ＋Ｆ個の入力次元の各々についての二乗された長さスケール

の集まりである。

共分散行列Ｋが、
Ｋ（Ｚ，Ｚ）_ｉ，ｊ＝ｋ（ｚ^ｉ，ｚ^ｊ）．（３）
によって定義される。

すると、ガウス過程ｇは、平均μおよび分散Ｖａｒの２つの関数によって特徴付けられ、これらは

によって与えられる。

ここで、ｙは、白色雑音ε^ｉで、ｙ^ｉ＝ｆ（ｚ^ｉ）＋ε^ｉによって通常の方式で与えられる。

次いで、対数周辺尤度関数を最大化することにより、知られている方式でパラメータΛ、σ_ｎ、σ_ｆがペア（ｚ^ｉ，ｙ^ｉ）にマッチングされる。

次いで（１０２０）、エピソードインデックスｅに関連付けられた反復価値関数

が決定され、これらの反復価値関数のうち最後のものが、エピソードインデックスｅに関連付けられた収束した反復価値関数

である。エピソードインデックスｅに割り当てられた反復価値関数

を決定する方法の一実施形態が図５に例示される。

次いで（１０３０）、例えば、現在のエピソードインデックスｅに割り当てられた収束した反復価値関数と、先行するエピソードインデックスｅ－１に割り当てられた反復価値関数

との差が、関数Δ_１の第１の事前定義可能な制限値未満であるかどうか、すなわち

であるかどうかを検査することにより、エピソードインデックスｅに関連付けられた収束した反復価値関数

が収束しているかどうかが検査される。これが該当する場合、続いてステップ１０８０が行われる。

しかし、収束がまだ達成されていない場合（１０４０）、エピソードインデックスｅに関連付けられた最適な調整戦略π_ｅが、

により定義される。

次いで（１０５０）、調整変数ｘの初期値ｘ_０が、初期確率分布ｐ（ｘ_０）から再度選択される。

式（６）に定義される最適な調整戦略π_ｅを使用して、調整変数の系列π_ｅ（ｘ_０），．．．，π_ｅ（ｘ_Ｔ－１）がここで（１０６０）反復的に決定され、それを用いてアクチュエータ１０が制御される。次いで受信されるセンサ３０の出力信号Ｓから、その結果得られる状態変数ｘ_１，．．．，ｘ_Ｔが次いで決定される。

ここで（１０７０）エピソードインデックスｅが１増分され、分岐してステップ１０３０に戻る。

ステップ１０３０で、各エピソードにわたる反復の結果、エピソードインデックスｅに割り当てられた反復価値関数

の収束に至ったと決定された場合、価値関数Ｖ^＊は、エピソードインデックスｅに割り当てられた反復価値関数

の価値関数に等しく設定される。これにより方法のこの態様が終了する。

図４は、エピソードインデックスｅに割り当てられた反復価値関数

を決定する方法の一実施形態を例示する。明瞭さの理由から、エピソードインデックスｅは以下では省略される。上付きのインデックスは、以降、文字ｔによって表される。方法は、常に先行する価値関数

に基づいて、後続の反復価値関数

を常に計算する。この先行する反復価値関数

は、基本関数

と係数

との線形結合

として与えられる。また、これらの係数

は、簡単に係数ベクトルα^ｔにまとめられる。方法は、インデックスｔ＝０で開始する（１５００）。

はじめに、基本関数の集合Ｂ

が決定される（１５１０）。これらは事前定義されることも、または図６を使用して例示したアルゴリズムを使用して決定されることもできる。

次いで（１５２０）、ｉ，ｊ＝１．．．Ｎ_ｔ＋１についてのスカラー積

が決定される。

その後（１５３０）、数値求積を使用して、ノードξ_１，．．．，ξ_Ｋおよび関連付けられた重みｗ_１，．．．，ｗ_Ｋが定義される。

これらのノードξ_１，．．．，ξ_Ｋおよび重みｗ_１，．．．，ｗ_Ｋを利用して、次いで（１５４０）すべてのインデックスｉ＝１．．．Ｎ_ｔ＋１について、ベクトルｂ^ｔ＋１の係数

が

に決定される。

係数ベクトルα^ｔ＋１が、ここで（１５５０）α^ｔ＋１＝Ｍ^－１ｂ^ｔ＋１に決定され、質量行列Ｍは

によって与えられる。

演算子Ａは、

として定義される。

ここで、０＜γ＜１は指定可能な重み付け係数であり、例えばγ＝０．８５である。ｒは、調整変数ｘの値に報酬値を割り当てる報酬関数である。有利には、報酬関数ｒは、目標変数ｘｄからの調整変数ｘの逸脱が小さいほど、大きい値を取るように選択される。

先行する変数ｘおよび操作変数ｕを与えられたときの調整変数ｘ’の条件付き確率ｐ（ｘ’｜ｘ，ｕ）は、ガウス過程ｇを使用して式（８）で決定することができる。

式（８）のｍａｘ演算子は、解析解には利用できないことに留意すべきである。しかし、所与の調整変数ｘについて、最大化は、各事例で勾配降下方法を用いて行われ得る。

これらの定義は、このようにして定義された後続の反復価値関数

が、基本関数Ｂが範囲とする空間への実際の反復価値関数Ｖ^ｔ＋１の射影に対応することを保証し、実際の反復価値関数は、ベルマン方程式

を満たす。

ベクトルｂ^ｔ＋１は、よって、式

を近似的に満たし、ここで、例外ケースのみにおいて正確に解くことができるこの式は、実際の価値関数Ｖ^ｔ＋１が、基本関数Ｂが範囲とする空間へのその射影に、すなわち反復価値関数

に、置き換えられ、かつ、その結果得られる数値求積を伴う積分方程式が近似的に解かれる場合に、解くことができることが認識された。

ここで（１５６０）、終了基準が満たされるかどうかが検査される。終了基準は、例えば、反復価値関数

が収束している場合、例えば、先行する反復価値関数

との差が、関数Δ_２の第２の制限値よりも小さくなる、すなわち

である場合に、満たされ得る。終了基準は、インデックスｔが事前定義可能な計画期間Ｔに達した場合にも満たされるとみなされ得る。

終了基準が満たされない場合、インデックスｔが１増分される（１５７０）。一方、終了基準が満たされる場合、価値関数Ｖ^＊が、前回の反復の反復価値関数

に等しく設定される。

これにより方法のこの部分が終了する。

図５は、ベルマン方程式の実際の反復価値関数Ｖ^ｔについての基本関数の集合Ｂを決定する方法の一実施形態を例示する。このために、はじめに（１６００）、基本関数の集合Ｂが空集合に初期化され、インデックスｌが値ｌ＝０に初期化される。基本関数の集合Ｂに射影された反復価値関数

も、値０に初期化される。

次いで（１６１０）、剰余

が、反復価値関数

と、それに対応する射影された反復価値関数

との間の逸脱として定義される。

次いで（１６２０）、剰余の最大点ｘ_＊＝ａｒｇｍａｘ_ｓＲ^ｔ，ｌ（ｘ）が、例えば勾配降下方法で決定され、剰余Ｒ^ｔ，ｌのヘッセ行列Ｈ^ｔ，ｌが最大桁ｘ_＊で決定される。

ここで（１６３０）、基本関数の集合Ｂに追加される新しい基本関数

が決定される。追加される新しい基本関数

は、好ましくは、平均値ｓ_＊および共分散行列Σ^＊のガウス関数として選択される。共分散行列Σ^＊は、式

を満たすように計算される。

次いで（１６４０）、この基本関数

が基本関数の集合Ｂに加えられる。

ここで（１６５０）、拡大された基本関数の集合Ｂが範囲とする関数空間への反復価値関数

の射影により、射影された反復価値関数

が決定される。

その後（１６６０）、射影された反復価値関数

の決定が十分に収束しているかどうかが、例えば、関連付けられた逸脱のノルム（例えばＬ_∞ノルム）が、関数Δ_３の第３の事前定義可能な制限値を下回る、すなわち

であるかどうかを検査することにより、検査される。

これが該当しない場合、インデックスｌが１増分され、方法は分岐してステップ１６１０に戻る。

それ以外の場合は、決定された集合

が、検索された基本関数の集合として戻され、方法のこの部分が終了する。

図６は、補正変数を決定する方法の実施形態を例示し、図７ａは、パラメータメモリ７０に保管されたパラメータθが調整戦略πをパラメータ化するケースの一実施形態を例示する。このために、はじめに（１７００）、例えばＳｏｂｏｌ設計計画として、試験点ｘ_ｉの集合が定義される。

次いで（１７１０）、試験点ｕ_ｉに割り当てられた最適な補正変数ｘ_ｉが、式

を使用して計算され、例えば、勾配降下方法を用いて決定され、また、試験点ｘ_ｉと、それぞれに割り当てられた最適な操作変数ｕ_ｉとのペアから、訓練集合Ｍ＝｛（ｘ_１，ｕ_１），（ｘ_２，ｕ_２），．．．｝が作成される。

この訓練集合Ｍを用いて、次いで、データに基づくモデル、例えばガウス過程ｇ_θ、の教授が行われ（１７２０）、それにより、データに基づくモデルは、調整変数ｘに対して、割り振られる最適な補正変数ｕを効率的に決定する。ガウス過程θを特徴付けるパラメータｇ_θは、パラメータメモリ７０に保管される。

ステップ（１７００）から（１７２０）は、好ましくは学習システム４０で実行される。

アクチュエータ調整システム４５の動作中（１７３０）、このシステムは次いで、ガウス過程ｇ_θを使用して、所与の調整変数ｘに対して関連付けられた補正変数ｕを決定する。

これによりこの方法が終了する。

図７ｂは、パラメータメモリ７０に保管されたパラメータθが価値関数Ｖ^＊をパラメータ化するケースの一実施形態を例示する。このために、ステップ（１８００）で所与の調整変数ｘについて、ステップ（１７１０）と同じように、式

によって定義される関連付けられた補正変数ｕが、勾配降下方法で決定される。

これによりこの方法が終了する。

Claims

アクチュエータの調整変数を事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法であって、
前記アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として補正変数を前記調整変数と前記目標変数の差分に基づいて生成し、この補正変数の関数として前記アクチュエータを制御するように設定され、
前記調整戦略を特徴付ける前記変数は価値関数の関数として決定され、
前記価値関数は、ベルマン方程式を用いて、反復価値関数の連続した反復により、徐々に前記価値関数を近似していくことによって反復的に決定され、
後続の反復の反復価値関数は、先行する反復の反復価値関数から前記ベルマン方程式を用いて決定され、
前記ベルマン方程式を解くために、前記先行する反復の前記反復価値関数の代わりに、基本関数の集合が範囲とする関数空間へのその射影のみが使用され、
前記反復価値関数と、前記集合が範囲とする前記関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも１つのさらなる基本関数を前記集合に追加することにより、基本関数の後続の集合が反復的に決定される、
方法。
前記後続の反復の前記反復価値関数の代わりにも、基本関数の第２の集合が範囲とする関数空間へのその射影のみが決定される、
請求項１に記載の方法。
基本関数としてガウス関数が使用される、
請求項１又は２に記載の方法。
前記ベルマン方程式の積分の値が、数値求積によって決定される、
請求項１から３のいずれかに記載の方法。
前記少なくとも１つのさらなる基本関数が、前記剰余が最大になる前記調整変数の最大点に依存して選択される、
請求項１に記載の方法。
前記少なくとも１つの追加的な基本関数が、最大点において最大値を取る、
請求項５に記載の方法。
前記少なくとも１つの追加的な基本関数が、前記最大点における前記剰余の曲率を特徴付ける変数、詳細には前記最大点における前記剰余のヘッセ行列、に依存して選択される、
請求項５または６に記載の方法。
前記少なくとも１つの追加的な基本関数が、前記最大点において、そのヘッセ行列が前記剰余の前記ヘッセ行列と等しくなるように選択される、
請求項７に記載の方法。
前記ベルマン方程式が依存する条件付き確率が、前記アクチュエータのモデルを用いて決定される、
請求項１から８のいずれかに記載の方法。
前記モデルはガウス過程である、
請求項９に記載の方法。
前記調整戦略を特徴付ける前記変数の決定後、前記モデルが前記補正変数の関数として適合され、それが前記アクチュエータの調整時に前記アクチュエータに供給され、前記アクチュエータ調整システムは、前記調整戦略と、その結果得られる前記調整変数とを考慮に入れ、前記モデルの適合後に、前記調整戦略を特徴付ける前記変数が、請求項１０または１１に記載の方法によって再度決定され、次いで前記条件付き確率が適合済みとなった前記モデルを用いて決定される、
請求項９または１０に記載の方法。
前記補正変数は、前記調整戦略を特徴付ける前記変数の関数として生成され、前記アクチュエータはこの補正変数の関数として制御される、
請求項１から１１までの何れかに記載の方法。
コンピュータに、請求項１から１２のいずれかに記載の方法を実行させるプログラム。
請求項１３に記載のプログラムを記憶した、機械可読記憶媒体。
アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムであって、前記アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定され、前記学習システムは、請求項１から１１のいずれかに記載の方法を実行するように設定される、学習システム。
請求項１２に記載の方法によりアクチュエータを制御するように設定される、アクチュエータ調整システム。