JP7191965B2 - 方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム - Google Patents

方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム Download PDF

Info

Publication number
JP7191965B2
JP7191965B2 JP2020542498A JP2020542498A JP7191965B2 JP 7191965 B2 JP7191965 B2 JP 7191965B2 JP 2020542498 A JP2020542498 A JP 2020542498A JP 2020542498 A JP2020542498 A JP 2020542498A JP 7191965 B2 JP7191965 B2 JP 7191965B2
Authority
JP
Japan
Prior art keywords
function
actuator
variable
determined
adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020542498A
Other languages
English (en)
Other versions
JP2020537801A (ja
JP2020537801A5 (ja
Inventor
バスティアン ビショフ
ユリア ヴィノグラツカ
ヤン ペーテルス
Original Assignee
ロベルト ボッシュ ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ロベルト ボッシュ ゲーエムベーハー filed Critical ロベルト ボッシュ ゲーエムベーハー
Publication of JP2020537801A publication Critical patent/JP2020537801A/ja
Publication of JP2020537801A5 publication Critical patent/JP2020537801A5/ja
Application granted granted Critical
Publication of JP7191965B2 publication Critical patent/JP7191965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0205Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
    • G05B13/021Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/041Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a variable is automatically adjusted to optimise the performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Algebra (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、アクチュエータ調整システムを動作させる方法、学習システム、アクチュエータ調整システム、上記方法を実行するためのコンピュータプログラム、およびそのコンピュータプログラムが記憶された機械可読記憶媒体に関する。
事前に公開されていないDE102017211209から、アクチュエータ調整システムの少なくとも1つのパラメータを自動的に設定するための方法が知られており、これは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように設計されており、アクチュエータ調整システムは、少なくとも1つのパラメータ、目標変数、および調整変数に依存して、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設計され、少なくとも1つのパラメータの新しい値が、長期間費用関数の関数として選択され、この長期間費用関数は、アクチュエータの調整変数の確率分布の予測される時間発展の関数として決定され、次いでパラメータがこの新しい値に設定される。
それに対して、独立請求項1の特徴を備える本方法は、特に、アクチュエータ調整システムの最適な調整を保証することができるという利点を有する。有利なさらなる発展が、従属請求項の主題である。
第1の態様において、本発明は、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法に関し、アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として、詳細には目標変数および/または調整変数の関数としても、補正変数を生成し、この補正変数の関数としてアクチュエータを制御するように設定され、
調整戦略を特徴付ける変数は、価値関数の関数として決定される。
価値関数を決定することにより、状態変数および/またはアクションが離散値に限定されるのでなく連続値を達成し得る場合であっても、アクチュエータ調整システムの最適な調整を保証することが可能となる。
詳細には、調整戦略は、調整変数ごとに、補正変数が導出されるアクションが決定されるように、決定されることができ、このことにより価値関数を最大化する。
さらなる発展において、価値関数は、ベルマン方程式を用いて、反復価値関数の後続の反復により、徐々に価値関数を近似していくことによって反復的に決定されるようになされ、後続の反復の反復価値関数は、先行する反復の反復価値関数から、ベルマン方程式を用いて決定され、
先行する反復の反復価値関数の代わりに、基本関数の集合が範囲とする線形関数空間へのその射影のみが、ベルマン方程式を解くために使用される。
詳細には、これにより、特に長期間にわたり、システム動態を考慮に入れて、反復的に決定される価値関数が事前定義された報酬を最大化することを保証する。射影を使用することにより、その中に含まれる最大値形成のために点ごとに解析的に解くことしかできないベルマン方程式を、特に近似によって容易に解くことが可能となる。
後続の反復の反復価値関数の代わりに、基本関数の第2の集合が範囲とする関数空間へのその射影のみが決定される場合、特に有利である。
よって、後続の反復の反復価値関数自体を完全に計算する必要なく、この射影を決定することが可能となる。
解析的に解くことが特に容易であるベルマン方程式の積分は、ガウス関数が基本関数として使用されるときに得られる。これにより、この方法が数値的に特に効率的になる。
ベルマン方程式の最大値形成のために、ベルマン方程式は、一般には、個々の点で評価することしかできない。それでも、ベルマン方程式における積分が数値求積を使用して計算されれば、完全な解が可能である。したがって、数値求積の使用は数値的に特に効率的である。
本発明のさらなる態様において、反復価値関数と、上記集合が範囲とする関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも1つのさらなる基本関数をこの集合に追加することにより、基本関数の後続の集合が反復的に決定される。
この反復的手順により、方法の数値エラーを、事前定義可能な最大値に特に効率的に制限することができ、よって、アクチュエータ調整システムを特に確実に動作させることができる。
さらなる発展において、少なくとも1つのさらなる基本関数が、剰余が最大になる調整変数の最大点に依存して選択されるようになされ得る。
これにより、基本関数の集合が範囲とする関数空間への射影によって数値エラーを特に迅速に減らすことができるため、方法が特に効率的になる。
効率は、最大点における少なくとも1つの追加的な基本関数が最大値を取る場合に特に高い。
代替または追加として、そのことは、少なくとも1つのさらなる基本関数が、最大点における剰余の曲率を特徴付ける数量、詳細には最大点における剰余のヘッセ行列、に依存して選択される場合に、方法の効率をさらに増大させる。
特に多次元調整変数の場合に、少なくとも1つのさらなる基本関数が、最大点において、そのヘッセ行列が剰余のヘッセ行列と等しくなるように選択される場合、それは特に容易である。
本発明のさらなる態様において、ベルマン方程式が依存する条件付き確率が、アクチュエータのモデルを用いて決定されるようになされ得る。アクチュエータの実際の挙動を再度決定する必要がないため、これによっても方法が特に効率的になる。
ここで、モデルがガウス過程である場合、特に有利である。これは、基本関数がガウス関数によって与えられる場合に特に有利である。何故ならば、そうすると、発生する積分を、ガウス関数の積を介して積分として解析的に解くことができるためであり、これは特に効率的な実装を可能にする。
アクチュエータ調整システムの特に良好な調整挙動を得るために、本発明のさらなる態様によれば、アクチュエータ調整システムの教授およびモデルの教授がエピソード的手順で決定されるようになされてよく、このことは、調整戦略を特徴付ける変数の決定後に、モデルが補正変数に依存するようにされ、それが、調整戦略を考慮に入れたアクチュエータ調整システムによるアクチュエータの調整の場合に、アクチュエータに供給され、その結果得られる調整変数に合わせて適合され、モデルの適合後に、調整戦略を特徴付ける変数が上記の方法により再度決定され、次いで条件付き確率が、適合済みとなったモデルを用いて決定される。
さらなる態様において、本発明は、アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムに関し、アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するように構成され、学習システムは、上述の方法のいずれか1つを実行するように構成される。
さらなる態様において、本発明は、調整戦略を特徴付ける変数が上述の方法の1つに従って決定され、次いで、調整戦略を特徴付ける変数に依存して操作変数が生成され、この補正変数に依存してアクチュエータが制御される方法に関する。
さらなる態様において、本発明は、この方法を使用してアクチュエータを制御するように設定されるアクチュエータ調整システムに関する。
さらに別の態様において、本発明は、上述の方法の1つを行うように設定されたコンピュータプログラムに関する。換言すると、コンピュータプログラムは、コンピュータで実行されたときに、そのコンピュータに方法を行わせる命令を備える。
本発明はさらに、このコンピュータプログラムが記憶された機械可読記憶媒体に関する。
以降、本発明の実施形態について、添付の図面を参照してより詳細に説明する。
学習システムとアクチュエータとの間の相互作用の概略的表現である。 アクチュエータ調整システムとアクチュエータとの間の相互作用の概略的表現である。 アクチュエータ調整システムを訓練する方法の一実施形態のフローチャートである。 反復価値関数を決定する方法の一実施形態のフローチャートである。 基本関数の集合を決定する方法の一実施形態のフローチャートである。 補正変数を決定する方法の一実施形態のフローチャートである。
図1は、その環境20の中で学習システム40と相互作用するアクチュエータ10を示す。アクチュエータ10および環境20を、以下ではまとめてアクチュエータシステムと称する。アクチュエータシステムの状態は、センサ30によって検出され、これは複数のセンサによって提供されてもよい。センサ30の出力信号Sは、学習システム40に送信される。学習システム40はそこから駆動信号Aを決定し、それをアクチュエータ10が受信する。
アクチュエータ10は、例えば、(部分的に)自律的なロボット、例えば(部分的に)自律的な自動車、(部分的に)自律的な芝刈り機であり得る。また、例えばアイドル制御のためのスロットルバルブまたはバイパスアクチュエータなどの、自動車のアクチュエータの作動であってもよい。また、加熱設備、または、バルブアクチュエータなど加熱設備の一部であってもよい。アクチュエータ10は、特に、自動車の内燃機関または(可能性としてはハイブリッド型の)ドライブトレーン、さらにはブレーキシステムなどの、より大きいシステムであってもよい。
センサ30は、例えば、1つもしくは複数のビデオセンサ、および/または1つもしくは複数のレーダセンサ、および/または1つもしくは複数の超音波センサ、および/または1つもしくは複数の位置センサ(例えばGPS)であってよい。例えば温度センサなどの他のセンサが考えられる。
別の実施形態例において、アクチュエータ10は、製造用ロボットであってよく、そのとき、センサ30は、例えば製造用ロボットの製造製品の特性を検出する光学センサであってよい。
学習システム40は、センサ30の出力信号Sを任意選択の受信部50で受信し、出力信号Sを調整変数xに変換する(代替として、出力信号Sは調整変数xとしてそのまま引き継がれる場合もある)。調整変数xは、例えば、出力信号Sの一部分またはさらなる処理であってよい。調整変数xは、調整器60に供給される。調整器において、調整戦略πまたは価値関数Vのいずれかが実装され得る。
パラメータメモリ70に、パラメータθが保管され、それが調整器60に供給される。パラメータθは、調整戦略πまたは価値関数Vをパラメータ化する。パラメータθは、単数または複数のパラメータであり得る。
ブロック90は、調整器60に、事前定義可能な目標変数xdを供給する。ブロック90が、事前定義可能な目標変数xdを、例えばブロック90に対して事前定義されたセンサ信号の関数として生成するようになされ得る。また、ブロック90が、目標変数xdが常駐する専用のメモリ領域から目標変数xdを読み出すことも可能である。
調整戦略またはπ価値関数Vと、目標変数xdおよび調整変数xとに依存して、調整器60は補正変数uを生成する。これは、例えば、調整変数xと目標変数xdとの間の差x-xdに依存して決定され得る。
調整器60は補正変数uを出力部80に送信し、出力部80はそこから駆動信号Aを決定する。例えば、出力部が、はじめに、補正変数uが事前定義可能な変数範囲内にあるかどうかを検査することが可能である。これが該当する場合、制御信号Aは、例えば、関連付けられた駆動信号Aが補正変数uの関数として特性フィールドから読み出されることにより、補正変数uの関数として決定される。これが通常の場合である。一方、補正変数uが事前定義可能な値範囲内にないと判定される場合は、制御信号AがアクチュエータAをセーフモードに入れるように設計されるようになされ得る。
受信部50は、調整変数xをブロック100に送信する。同様に、調整器60は、対応する補正変数uをブロック100に送信する。ブロック100は、一連の時刻に受信された調整変数xの時系列と、それぞれの対応する補正変数uとを記憶する。ブロック100は、次いで、これらの時系列に基づいてモデルgのモデルパラメータΛ、σ、σを適合することができる。モデルパラメータΛ、σ、σは、ブロック110に供給され、ブロック110はそれらを、例えば専用の記憶位置に記憶する。これについては以下で図4のステップ1010でより詳細に説明する。
学習システム40は、ある実施形態において、コンピュータプログラムが記憶された機械可読記憶媒体42を有するコンピュータ41を備え、コンピュータプログラムは、コンピュータ41によって実行されると、コンピュータ41に、記載される学習システム40の機能を行わせる。この実施形態において、コンピュータ41はGPU43を備える。
モデルgは、価値関数Vの決定に使用され得る。これについては以下で説明する。
図2は、アクチュエータ10とのアクチュエータ調整システム45の相互作用を例示する。アクチュエータ調整システム45の構造およびアクチュエータ10およびセンサ30とのその相互作用は、多くの部分で学習システム40の構造と類似しており、その理由からここでは違いのみを説明する。学習システム40と対照的に、アクチュエータ調整システム45はブロック100を有さず、またブロック110を有さない。ブロック100への変数の送信は、したがって除去される。アクチュエータ調整システム45のパラメータメモリ70には、例えば図4に例示されるように本発明に係る方法によって決定されたパラメータθが保管される。
図3は、本発明に係る方法の一実施形態を例示する。はじめに(1000)、調整変数xの初期値xが、事前定義可能な初期確率分布p(x)から選択される。エピソードインデックスeが値e=1に初期化され、このエピソードインデックスeに割り当てられた価値関数
Figure 0007191965000001
が値
Figure 0007191965000002
に初期化される。
また、図1に説明されるようにアクチュエータ10が制御される事前定義可能な計画期間Tまで、補正変数u,u,...,uT-1がランダムに選択される。アクチュエータ10は、環境20を介してセンサ30と相互作用し、センサ30のセンサ信号Sは、調整器60から間接的にまたは直接、調整変数x,...,xT-1,xとして受信される。
これらは組み合わせられて、データセットD={(x,u,x),...,(xT-1,uT-1,x}となる。
ブロック100は、補正変数uおよび調整変数xの時系列を受信して集約し(1030)、これらは一緒になって、調整変数xと対応する変数uとのペアz、
Figure 0007191965000003
を生じる。
Dは、これにより、調整変数xの次元数であり、Fは補正変数uの次元数であり、すなわち
Figure 0007191965000004
Figure 0007191965000005
である。
この状態軌道に依存して、次いで、連続する時刻t,t+1の間に以下が該当するように、ガウス過程gが適合される。
t+1=x+g(x,u). (1)
ここで、
=πθ(x). (1')
ガウス過程gの共分散関数kは、例えば、
Figure 0007191965000006
によって与えられる。
パラメータ
Figure 0007191965000007
は信号の分散であり、
Figure 0007191965000008
は、D+F個の入力次元の各々についての二乗された長さスケール
Figure 0007191965000009
の集まりである。
共分散行列Kが、
K(Z,Z)i,j=k(z,z). (3)
によって定義される。
すると、ガウス過程gは、平均μおよび分散Varの2つの関数によって特徴付けられ、これらは
Figure 0007191965000010
Figure 0007191965000011
によって与えられる。
ここで、yは、白色雑音εで、y=f(z)+εによって通常の方式で与えられる。
次いで、対数周辺尤度関数を最大化することにより、知られている方式でパラメータΛ、σ、σがペア(z,y)にマッチングされる。
次いで(1020)、エピソードインデックスeに関連付けられた反復価値関数
Figure 0007191965000012
が決定され、これらの反復価値関数のうち最後のものが、エピソードインデックスeに関連付けられた収束した反復価値関数
Figure 0007191965000013
である。エピソードインデックスeに割り当てられた反復価値関数
Figure 0007191965000014
を決定する方法の一実施形態が図5に例示される。
次いで(1030)、例えば、現在のエピソードインデックスeに割り当てられた収束した反復価値関数と、先行するエピソードインデックスe-1に割り当てられた反復価値関数
Figure 0007191965000015
Figure 0007191965000016
との差が、関数Δの第1の事前定義可能な制限値未満であるかどうか、すなわち
Figure 0007191965000017
であるかどうかを検査することにより、エピソードインデックスeに関連付けられた収束した反復価値関数
Figure 0007191965000018
が収束しているかどうかが検査される。これが該当する場合、続いてステップ1080が行われる。
しかし、収束がまだ達成されていない場合(1040)、エピソードインデックスeに関連付けられた最適な調整戦略πが、
Figure 0007191965000019
により定義される。
次いで(1050)、調整変数xの初期値xが、初期確率分布p(x)から再度選択される。
式(6)に定義される最適な調整戦略πを使用して、調整変数の系列π(x),...,π(xT-1)がここで(1060)反復的に決定され、それを用いてアクチュエータ10が制御される。次いで受信されるセンサ30の出力信号Sから、その結果得られる状態変数x,...,xが次いで決定される。
ここで(1070)エピソードインデックスeが1増分され、分岐してステップ1030に戻る。
ステップ1030で、各エピソードにわたる反復の結果、エピソードインデックスeに割り当てられた反復価値関数
Figure 0007191965000020
の収束に至ったと決定された場合、価値関数Vは、エピソードインデックスeに割り当てられた反復価値関数
Figure 0007191965000021
の価値関数に等しく設定される。これにより方法のこの態様が終了する。
図4は、エピソードインデックスeに割り当てられた反復価値関数
Figure 0007191965000022
を決定する方法の一実施形態を例示する。明瞭さの理由から、エピソードインデックスeは以下では省略される。上付きのインデックスは、以降、文字tによって表される。方法は、常に先行する価値関数
Figure 0007191965000023
に基づいて、後続の反復価値関数
Figure 0007191965000024
を常に計算する。この先行する反復価値関数
Figure 0007191965000025
は、基本関数
Figure 0007191965000026
と係数
Figure 0007191965000027
との線形結合
Figure 0007191965000028
として与えられる。また、これらの係数
Figure 0007191965000029
は、簡単に係数ベクトルαにまとめられる。方法は、インデックスt=0で開始する(1500)。
はじめに、基本関数の集合B
Figure 0007191965000030
が決定される(1510)。これらは事前定義されることも、または図6を使用して例示したアルゴリズムを使用して決定されることもできる。
次いで(1520)、i,j=1...Nt+1についてのスカラー積
Figure 0007191965000031
が決定される。
その後(1530)、数値求積を使用して、ノードξ,...,ξおよび関連付けられた重みw,...,wが定義される。
これらのノードξ,...,ξおよび重みw,...,wを利用して、次いで(1540)すべてのインデックスi=1...Nt+1について、ベクトルbt+1の係数
Figure 0007191965000032

Figure 0007191965000033
に決定される。
係数ベクトルαt+1が、ここで(1550)αt+1=M-1t+1に決定され、質量行列Mは
Figure 0007191965000034
によって与えられる。
演算子Aは、
Figure 0007191965000035
として定義される。
ここで、0<γ<1は指定可能な重み付け係数であり、例えばγ=0.85である。rは、調整変数xの値に報酬値を割り当てる報酬関数である。有利には、報酬関数rは、目標変数xdからの調整変数xの逸脱が小さいほど、大きい値を取るように選択される。
先行する変数xおよび操作変数uを与えられたときの調整変数x’の条件付き確率p(x’|x,u)は、ガウス過程gを使用して式(8)で決定することができる。
式(8)のmax演算子は、解析解には利用できないことに留意すべきである。しかし、所与の調整変数xについて、最大化は、各事例で勾配降下方法を用いて行われ得る。
これらの定義は、このようにして定義された後続の反復価値関数
Figure 0007191965000036
が、基本関数Bが範囲とする空間への実際の反復価値関数Vt+1の射影に対応することを保証し、実際の反復価値関数は、ベルマン方程式
Figure 0007191965000037
を満たす。
ベクトルbt+1は、よって、式
Figure 0007191965000038
を近似的に満たし、ここで、例外ケースのみにおいて正確に解くことができるこの式は、実際の価値関数Vt+1が、基本関数Bが範囲とする空間へのその射影に、すなわち反復価値関数
Figure 0007191965000039
に、置き換えられ、かつ、その結果得られる数値求積を伴う積分方程式が近似的に解かれる場合に、解くことができることが認識された。
ここで(1560)、終了基準が満たされるかどうかが検査される。終了基準は、例えば、反復価値関数
Figure 0007191965000040
が収束している場合、例えば、先行する反復価値関数
Figure 0007191965000041
との差が、関数Δの第2の制限値よりも小さくなる、すなわち
Figure 0007191965000042
である場合に、満たされ得る。終了基準は、インデックスtが事前定義可能な計画期間Tに達した場合にも満たされるとみなされ得る。
終了基準が満たされない場合、インデックスtが1増分される(1570)。一方、終了基準が満たされる場合、価値関数Vが、前回の反復の反復価値関数
Figure 0007191965000043
に等しく設定される。
これにより方法のこの部分が終了する。
図5は、ベルマン方程式の実際の反復価値関数Vについての基本関数の集合Bを決定する方法の一実施形態を例示する。このために、はじめに(1600)、基本関数の集合Bが空集合に初期化され、インデックスlが値l=0に初期化される。基本関数の集合Bに射影された反復価値関数
Figure 0007191965000044
も、値0に初期化される。
次いで(1610)、剰余
Figure 0007191965000045
が、反復価値関数
Figure 0007191965000046
と、それに対応する射影された反復価値関数
Figure 0007191965000047
との間の逸脱として定義される。
次いで(1620)、剰余の最大点x=arg maxt,l(x)が、例えば勾配降下方法で決定され、剰余Rt,lのヘッセ行列Ht,lが最大桁xで決定される。
ここで(1630)、基本関数の集合Bに追加される新しい基本関数
Figure 0007191965000048
が決定される。追加される新しい基本関数
Figure 0007191965000049
は、好ましくは、平均値sおよび共分散行列Σのガウス関数として選択される。共分散行列Σは、式
Figure 0007191965000050
を満たすように計算される。
次いで(1640)、この基本関数
Figure 0007191965000051
が基本関数の集合Bに加えられる。
ここで(1650)、拡大された基本関数の集合Bが範囲とする関数空間への反復価値関数
Figure 0007191965000052
の射影により、射影された反復価値関数
Figure 0007191965000053
が決定される。
その後(1660)、射影された反復価値関数
Figure 0007191965000054
の決定が十分に収束しているかどうかが、例えば、関連付けられた逸脱のノルム(例えばLノルム)が、関数Δの第3の事前定義可能な制限値を下回る、すなわち
Figure 0007191965000055
であるかどうかを検査することにより、検査される。
これが該当しない場合、インデックスlが1増分され、方法は分岐してステップ1610に戻る。
それ以外の場合は、決定された集合
Figure 0007191965000056
が、検索された基本関数の集合として戻され、方法のこの部分が終了する。
図6は、補正変数を決定する方法の実施形態を例示し、図7aは、パラメータメモリ70に保管されたパラメータθが調整戦略πをパラメータ化するケースの一実施形態を例示する。このために、はじめに(1700)、例えばSobol設計計画として、試験点xの集合が定義される。
次いで(1710)、試験点uに割り当てられた最適な補正変数xが、式

Figure 0007191965000057

を使用して計算され、例えば、勾配降下方法を用いて決定され、また、試験点xと、それぞれに割り当てられた最適な操作変数uとのペアから、訓練集合M={(x,u),(x,u),...}が作成される。
この訓練集合Mを用いて、次いで、データに基づくモデル、例えばガウス過程gθ、の教授が行われ(1720)、それにより、データに基づくモデルは、調整変数xに対して、割り振られる最適な補正変数uを効率的に決定する。ガウス過程θを特徴付けるパラメータgθは、パラメータメモリ70に保管される。
ステップ(1700)から(1720)は、好ましくは学習システム40で実行される。
アクチュエータ調整システム45の動作中(1730)、このシステムは次いで、ガウス過程gθを使用して、所与の調整変数xに対して関連付けられた補正変数uを決定する。
これによりこの方法が終了する。
図7bは、パラメータメモリ70に保管されたパラメータθが価値関数Vをパラメータ化するケースの一実施形態を例示する。このために、ステップ(1800)で所与の調整変数xについて、ステップ(1710)と同じように、式

Figure 0007191965000058

によって定義される関連付けられた補正変数uが、勾配降下方法で決定される。
これによりこの方法が終了する。

Claims (16)

  1. アクチュエータの調整変数を事前定義可能な目標変数に調整するために設定されるアクチュエータ調整システムを動作させる方法であって、
    前記アクチュエータ調整システムは、調整戦略を特徴付ける変数の関数として補正変数を前記調整変数と前記目標変数の差分に基づいて生成し、この補正変数の関数として前記アクチュエータを制御するように設定され、
    前記調整戦略を特徴付ける前記変数は価値関数の関数として決定され、
    前記価値関数は、ベルマン方程式を用いて、反復価値関数の連続した反復により、徐々に前記価値関数を近似していくことによって反復的に決定され、
    後続の反復の反復価値関数は、先行する反復の反復価値関数から前記ベルマン方程式を用いて決定され、
    前記ベルマン方程式を解くために、前記先行する反復の前記反復価値関数の代わりに、基本関数の集合が範囲とする関数空間へのその射影のみが使用され、
    前記反復価値関数と、前記集合が範囲とする前記関数空間へのその射影との間の最大剰余がどれほど大きいかに依存して、少なくとも1つのさらなる基本関数を前記集合に追加することにより、基本関数の後続の集合が反復的に決定される、
    方法。
  2. 前記後続の反復の前記反復価値関数の代わりにも、基本関数の第2の集合が範囲とする関数空間へのその射影のみが決定される、
    請求項1に記載の方法。
  3. 基本関数としてガウス関数が使用される、
    請求項1又は2に記載の方法。
  4. 前記ベルマン方程式の積分の値が、数値求積によって決定される、
    請求項1から3のいずれかに記載の方法。
  5. 前記少なくとも1つのさらなる基本関数が、前記剰余が最大になる前記調整変数の最大点に依存して選択される、
    請求項に記載の方法。
  6. 前記少なくとも1つの追加的な基本関数が、最大点において最大値を取る、
    請求項に記載の方法。
  7. 前記少なくとも1つの追加的な基本関数が、前記最大点における前記剰余の曲率を特徴付ける変数、詳細には前記最大点における前記剰余のヘッセ行列、に依存して選択される、
    請求項5または6に記載の方法。
  8. 前記少なくとも1つの追加的な基本関数が、前記最大点において、そのヘッセ行列が前記剰余の前記ヘッセ行列と等しくなるように選択される、
    請求項に記載の方法。
  9. 前記ベルマン方程式が依存する条件付き確率が、前記アクチュエータのモデルを用いて決定される、
    請求項1からのいずれかに記載の方法。
  10. 前記モデルはガウス過程である、
    請求項に記載の方法。
  11. 前記調整戦略を特徴付ける前記変数の決定後、前記モデルが前記補正変数の関数として適合され、それが前記アクチュエータの調整時に前記アクチュエータに供給され、前記アクチュエータ調整システムは、前記調整戦略と、その結果得られる前記調整変数とを考慮に入れ、前記モデルの適合後に、前記調整戦略を特徴付ける前記変数が、請求項10または11に記載の方法によって再度決定され、次いで前記条件付き確率が適合済みとなった前記モデルを用いて決定される、
    請求項9または10に記載の方法。
  12. 前記補正変数は、前記調整戦略を特徴付ける前記変数の関数として生成され、前記アクチュエータはこの補正変数の関数として制御される、
    請求項1から11までの何れかに記載の方法。
  13. コンピュータに、請求項1から12のいずれかに記載の方法を実行させるプログラム。
  14. 請求項13に記載のプログラムを記憶した、機械可読記憶媒体。
  15. アクチュエータ調整システムの調整戦略を特徴付ける変数を自動的に設定するための学習システムであって、前記アクチュエータ調整システムは、アクチュエータの調整変数を、事前定義可能な目標変数に調整するために設定され、前記学習システムは、請求項1から11のいずれかに記載の方法を実行するように設定される、学習システム。
  16. 請求項12に記載の方法によりアクチュエータを制御するように設定される、アクチュエータ調整システム。
JP2020542498A 2017-10-20 2018-08-10 方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム Active JP7191965B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102017218811.1A DE102017218811A1 (de) 2017-10-20 2017-10-20 Verfahren und Vorrichtung zum Betreiben eines Aktorregelungssystems, Computerprogramm und maschinenlesbares Speichermedium
DE102017218811.1 2017-10-20
PCT/EP2018/071753 WO2019076512A1 (de) 2017-10-20 2018-08-10 Verfahren und vorrichtung zum betreiben eines aktorregelungssystems, computerprogramm und maschinenlesbares speichermedium

Publications (3)

Publication Number Publication Date
JP2020537801A JP2020537801A (ja) 2020-12-24
JP2020537801A5 JP2020537801A5 (ja) 2021-07-26
JP7191965B2 true JP7191965B2 (ja) 2022-12-19

Family

ID=63244585

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020542498A Active JP7191965B2 (ja) 2017-10-20 2018-08-10 方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム

Country Status (7)

Country Link
US (2) US20210003976A1 (ja)
EP (1) EP3698223B1 (ja)
JP (1) JP7191965B2 (ja)
KR (1) KR102326733B1 (ja)
CN (1) CN111406237B (ja)
DE (1) DE102017218811A1 (ja)
WO (1) WO2019076512A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111505936B (zh) * 2020-06-09 2021-10-01 吉林大学 一种基于高斯过程pid控制参数的自动安全整定方法
US11712804B2 (en) 2021-03-29 2023-08-01 Samsung Electronics Co., Ltd. Systems and methods for adaptive robotic motion control
US11724390B2 (en) 2021-03-29 2023-08-15 Samsung Electronics Co., Ltd. Systems and methods for automated preloading of actuators
US11731279B2 (en) 2021-04-13 2023-08-22 Samsung Electronics Co., Ltd. Systems and methods for automated tuning of robotics systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110059427A1 (en) 2009-09-09 2011-03-10 Alexander Hans Method for the computer-assisted learning of a control and/or a feedback control of a technical system
JP2015018388A (ja) 2013-07-10 2015-01-29 東芝三菱電機産業システム株式会社 制御パラメータ調整システム
JP2017102613A (ja) 2015-11-30 2017-06-08 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5208981A (en) * 1989-01-19 1993-05-11 Bela Puzsik Drive shaft support
DE19527323A1 (de) * 1995-07-26 1997-01-30 Siemens Ag Schaltungsanordnung zum Steuern einer Einrichtung in einem Kraftfahrzeug
DE102007017259B4 (de) * 2007-04-12 2009-04-09 Siemens Ag Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems
DE102008020380B4 (de) * 2008-04-23 2010-04-08 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen einer Steuerung und/oder Regelung eines technischen Systems
JP4924693B2 (ja) * 2009-11-02 2012-04-25 株式会社デンソー エンジン制御装置
FI126110B (fi) * 2011-01-19 2016-06-30 Ouman Oy Menetelmä, laitteisto ja tietokoneohjelmatuote toimilaitteen ohjaamiseksi lämpötilan säätelyssä
DE102013212889A1 (de) * 2013-07-02 2015-01-08 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erstellen einer Regelungfür eine physikalische Einheit
GB201319681D0 (en) * 2013-11-07 2013-12-25 Imp Innovations Ltd System and method for drug delivery
AT517251A2 (de) * 2015-06-10 2016-12-15 Avl List Gmbh Verfahren zur Erstellung von Kennfeldern
US10429800B2 (en) * 2015-06-26 2019-10-01 Honeywell Limited Layered approach to economic optimization and model-based control of paper machines and other systems
AT518850B1 (de) * 2016-07-13 2021-11-15 Avl List Gmbh Verfahren zur simulationsbasierten Analyse eines Kraftfahrzeugs
DE102017211209A1 (de) 2017-06-30 2019-01-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Einstellen mindestens eines Parameters eines Aktorregelungssystems, Aktorregelungssystem und Datensatz

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110059427A1 (en) 2009-09-09 2011-03-10 Alexander Hans Method for the computer-assisted learning of a control and/or a feedback control of a technical system
JP2011060290A (ja) 2009-09-09 2011-03-24 Siemens Ag 技術システムの制御および/または調整をコンピュータ支援により学習する方法
JP2015018388A (ja) 2013-07-10 2015-01-29 東芝三菱電機産業システム株式会社 制御パラメータ調整システム
JP2017102613A (ja) 2015-11-30 2017-06-08 ファナック株式会社 機械の送り軸の送りの滑らかさを最適化する機械学習装置および方法ならびに該機械学習装置を備えたモータ制御装置

Also Published As

Publication number Publication date
JP2020537801A (ja) 2020-12-24
DE102017218811A1 (de) 2019-04-25
CN111406237B (zh) 2023-02-17
EP3698223B1 (de) 2022-05-04
CN111406237A (zh) 2020-07-10
US20220075332A1 (en) 2022-03-10
KR102326733B1 (ko) 2021-11-16
KR20200081407A (ko) 2020-07-07
US20210003976A1 (en) 2021-01-07
WO2019076512A1 (de) 2019-04-25
EP3698223A1 (de) 2020-08-26

Similar Documents

Publication Publication Date Title
JP7191965B2 (ja) 方法、プログラム、機械可読記憶媒体、学習システム、及び、アクチュエータ調整システム
US8447706B2 (en) Method for computer-aided control and/or regulation using two neural networks wherein the second neural network models a quality function and can be used to control a gas turbine
US11366433B2 (en) Reinforcement learning method and device
JP6386698B2 (ja) 多変数制御装置
US20220236698A1 (en) Method and device for determining model parameters for a control strategy for a technical system with the aid of a bayesian optimization method
JP2010514986A (ja) 技術システムの、とりわけガスタービンの、計算機支援による閉ループ制御および/または開ループ制御のための方法
JP7379833B2 (ja) 強化学習方法、強化学習プログラム、および強化学習システム
CN113939775B (zh) 用于确定针对技术系统的调节策略的方法和设备
JP2016100009A5 (ja)
JP4805571B2 (ja) 目標システムの実行を制御するための方法
JPWO2016047118A1 (ja) モデル評価装置、モデル評価方法、及び、プログラム記録媒体
CN113728159B (zh) 发动机控制系统
EP3928167A1 (en) Apparatus and method for control with data-driven model adaptation
CN114193443A (zh) 用于控制机器人设备的设备和方法
US20200333795A1 (en) Method and apparatus for controlling movement of real object using intelligent agent trained in virtual environment
JP2022529667A (ja) 内燃エンジンコントローラー
CN111971628A (zh) 求得被测变量的时间曲线的方法、预测系统、致动器控制系统、训练致动器控制系统的方法、训练系统、计算机程序和机器可读的存储介质
CN114518751A (zh) 基于最小二乘截断时域差分学习的路径规划决策优化方法
JP2020091611A (ja) 行動決定プログラム、行動決定方法、および行動決定装置
US11628562B2 (en) Method, device and computer program for producing a strategy for a robot
JP4301491B2 (ja) 電動機制御システムの自律設計方法及び自律設計装置並びに電動機制御システム
JP7511775B2 (ja) 可逆的因果関係に基づいた熱制御のためのシステムおよび方法
Bergmann et al. Modelling and control of a heavy-duty diesel engine gas path with Gaussian process regression
Dutta Design and certification of industrial predictive controllers
JP7572376B2 (ja) エンジン制御システム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20201203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210527

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221207

R150 Certificate of patent or registration of utility model

Ref document number: 7191965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150