JP7297155B2 - マシンの動作を制御するためのシステムおよびコンピュータ実施方法 - Google Patents

マシンの動作を制御するためのシステムおよびコンピュータ実施方法 Download PDF

Info

Publication number
JP7297155B2
JP7297155B2 JP2022523801A JP2022523801A JP7297155B2 JP 7297155 B2 JP7297155 B2 JP 7297155B2 JP 2022523801 A JP2022523801 A JP 2022523801A JP 2022523801 A JP2022523801 A JP 2022523801A JP 7297155 B2 JP7297155 B2 JP 7297155B2
Authority
JP
Japan
Prior art keywords
machine
control
state
reward
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022523801A
Other languages
English (en)
Other versions
JP2022537606A (ja
Inventor
カラビック,ウロス
リー,ヂャオジエン
ゴールドスミス,アブラハム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2022537606A publication Critical patent/JP2022537606A/ja
Application granted granted Critical
Publication of JP7297155B2 publication Critical patent/JP7297155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/18Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form
    • G05B19/406Numerical control [NC], i.e. automatically operating machines, in particular machine tools, e.g. in a manufacturing environment, so as to execute positioning, movement or co-ordinated operations by means of programme data in numerical form characterised by monitoring or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Manufacturing & Machinery (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、概してシステム制御に関し、より特定的には、制約付きマシンのデータ駆動型制御のための方法および装置に関する。
制御システムエンジニアリングにおける制御理論は、エンジニアリング設計されたプロセスおよびマシンにおいて力学的システムを連続的に動作させる制御に対処するエンジニアリングの下位分野である。その目的は、遅延またはオーバーシュートを防止し、制御の安定性およびロバスト性を確実にするために、制御アクションを用いてこのようなシステムを制御するための制御ポリシーを開発することである。第2の目的は、これを最適な方法で行なうことである。
たとえば、モデル予測制御(model predictive control:MPC)などの最適化ベースの制御および推定技術は、システム力学および制約を直接考慮することができるモデルベースの設計フレームワークを可能にする。MPCは、さまざまな複雑度の力学的システムを制御するために多くの用途で用いられる。このようなシステムの例として、生産ライン、自動車エンジン、ロボット、数値制御された機械加工、衛星および発電機が挙げられる。しかしながら、多くの状況では、被制御システムのモデルは利用できないか、リアルタイムで更新することが困難であるか、または不正確となる。このような場合の事例が、ロボット工学、建築制御(HVAC)、車両、スマートグリッド、工場自動化、輸送、自己調整マシン、および交通ネットワークにおいて蔓延している。
力学的システムの部分的モデルまたは不確実なモデルのみが存在する場合、いくつかの制御方法は、システム力学を安定させるフィードバック制御ポリシーを構築するか、または定量化可能な制御関連性能を組込むために、これらのシステムによって生成される動作データを活用する。データを用いて制御ポリシーを設計することはデータ駆動型制御と称される。データ駆動型制御方法には2種類ある。具体的には、システムのモデルを最初に構築し、次いで当該モデルを設計コントローラに活用する間接的な方法、または、中間モデル構築ステップなしでデータから制御ポリシーを直接構築する直接的な方法である。間接的な方法の欠点は、モデル構築段階において大量のデータが必要となる可能性があることである。逆に、直接的な方法が必要とするデータはより少なくて済む。しかしながら、最先端の直接制御方法であっても、制約違反がしばしば突発的に起こってシステムを破壊するので、閉ループ制御システムにおいて安全な動作を維持するのに必須である状態および入力の制約に対応するのが困難になる。
たとえば、強化学習(reinforcement learning:RL)は、累積報酬のいくつかの概念を最大化する(または、言い換えれば、累積損失/コストを最小限にする)ように環境において如何に対策を講じるかに関する機械学習の領域である。強化学習は、連続状態入力空間における最適制御と密接に関連するものであって、これは、主として、最適制御ポリシーの存在および特徴付け、ならびに、被制御システムおよび/または環境の数学的モデルがない場合にこれらを計算するためのアルゴリズムに関係している。
しかしながら、本RL方法は、制約付きシステムのデータ駆動型制御を考慮に入れていない。これは、従来のRL方法では、連続状態・アクション空間における状態および入力の制約を満たすことを考慮に入れていないからである。すなわち、従来のRLは、制御入力のある状態で動作する被制御システムの状態が動作全体を通して状態および入力の制約を満たすことを保証するものではない。従来のRLの問題は、探索段階中に、RLが、制御入力に対応する状態を学習するためのさまざまな入力でシステムを混乱させてしまうことである。さらに、システムをより良く学習するために、起こり得る制約の物理的境界に近づくよう制御入力を用いることが有益である。被制御システムまたは被制御マシンの完全かつ正確なモデルは存在しないので、任意に選択された制御入力および/または境界評価型制御入力が、システム状態を指定された状態制約集合外の領域に誘導しないという保証はなく、これにより、結果として、状態制約の違反が起こる。
したがって、動作の安全性のために状態および制御入力の制約を受ける非モデル化力学でシステムを制御するためのシステムおよび方法が必要とされている。
いくつかの実施形態の目的は、状態および制御入力の制約を受けるマシンのデータ駆動型制御のためのシステムおよび方法を提供することである。付加的または代替的には、いくつかの実施形態の目的は、被制御マシンの連続状態空間における状態および/または制御入力の制約の満足を保証するかまたは少なくとも改善させるために、強化学習(RL)のいくつかの原理を拡張するようなシステムおよび方法を提供することである。
付加的または代替的には、いくつかの実施形態の目的は、制約を受けない制御のために設計されたレガシーRLコントローラを、制約を受けるマシンの制御に適合させることである。実際には、いくつかの実施形態の目的は、制約されないマシンのRLコントローラを制約付きマシンのRLコントローラに変換するためにRL制御のための制約アダプタを提供することである。
いくつかの実施形態は、強化学習のセグメント化構造の理解に基づいている。強化学習は、複数回の反復にわたって繰返される3つの別個の部分を含む。第1の部分は、マシンの状態を現在の状態から次の状態に移行させる制御ポリシーを用いたマシンの制御である。次の部分は、現在の制御ポリシーの質に関する報酬を推定する報酬関数の実行である。第3の部分は、報酬関数によって決定された報酬を用いた制御ポリシーの更新である。
いくつかの実施形態は、強化学習の本質が制御ポリシーの更新にあるという認識に基づいている。このような更新はマシンに依存し得るものであって、設計するのに時間および専門知識を必要とする可能性がある。加えて、制御ポリシーの更新が報酬関数によって決定される報酬に基づくものであるにも関わらず、この更新は報酬関数自体とは無関係であり、このことは、強化学習のその更新手順が修正なしにさまざまな種類の報酬関数と連動し得ることを意味している。
したがって、いくつかの実施形態は、制約されない制御用に設計されたレガシーRLコントローラを、制約されるマシンの制御に適合させるために、制御ポリシー更新の完全性を保ちつつこの適合を報酬関数で実行することができるという理解に基づいている。これは、制約を明確に考慮するためにRLコントローラの再設計を必要としないので有利である。これにより、新たなRLアルゴリズムを作成するという困難な作業が回避される。
このために、いくつかの実施形態の目的は、制約を受けるRL制御中に制約に違反する危険性を考慮するために、さまざまな報酬関数で用いることができる適合条件を設計することである。さらに、いくつかの実施形態の目的は、制約違反の有無を示す2進項とは対照的に、このような危険性を段階的に増加または低下させることを考慮するような適合条件を設計することである。このような段階的な適合条件は、制約違反の可能性をRLコントローラに通知することで制約違反の発生前にその挙動を修正するのに十分な時間を与えるので、有利である。我々の知る限り、このような段階的な適合はまだ存在していない。
いくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御することに関する制御問題が、状態制約を満たすマシンの状態の制御不変集合(control invariant set:CIS)内の状態を有するマシンの制御問題として構築される可能性があるという認識に基づいている。CISは対応する制御ポリシーに結合されるかまたは関連付けられている。この対応する制御ポリシーは、マシンがCIS内にあってこの制御ポリシーに従って制御される場合にマシンの状態がCISで維持されるので、このような制御が常に制約を満たすということを保証する。いくつかの実施形態は、CISに対する被制御マシンの現在の状態の位置が、制約に違反する危険性を示すための段階的適合条件としての役割を果たし得るという認識に基づいている。
具体的には、いくつかの実施形態は、CISに留まるのに必要な最小限の労力量として決定される適合条件に従って報酬関数を増やす。いくつかの実施形態は、このような適合条件が以下の理由から有利であるという認識に基づいている。この理由とは、CIS内に留まるのに必要な労力がより少なくて済む領域が、RL探索の失敗時に制約違反となる可能性が少ない領域に対応しているというものである。これは、必要最小限の制御労力が、定義上、報酬関数を最適化しながら制約境界からシステムを回復させるのに必要な制御労力以下である、すなわち前者が後者の下限となっている、からである。
したがって、さまざまな実施形態においては、適合条件は、CIS内の状態を維持するためにゼロ労力を必要とするCISのゼロ労力部分集合においてゼロ値を有するとともに、ゼロ労力部分集合の範囲外であるがゼロ労力集合の境界までの距離の関数として決定されるCIS内にある値を連続的に変化させるとともに、制約に違反する破局的結果を示すためにCIS外の予め定められた大きな値を有する、境界関数である。
実際には、このような適合条件は、制約された制御のためにレガシーコントローラを適合させるようにレガシーRLコントローラのレガシー報酬関数を増やす。付加的または代替的には、適合条件は、マシンを制御するために特に設計された新しい報酬関数を修正することができる。この修正の結果、まず最初の制御アクションから、コントローラは、最大報酬の経路が状態をゼロ労力部分集合へと導く最短経路であると学習する。状態がゼロ労力部分集合に入ると、報酬関数の距離ペナルティ部分はその最低値となり(典型的には0に設定され)、コントローラは、実際の状態を所望の状態に可能な限り近付けるアクションに関してのみ報酬を得る。制御不変集合は、制約実施につながるであろう制御のシーケンスが存在するすべての状態の集合である。定義上、状態が制御不変集合の外にある場合、制約違反を回避し得る解はない。これらの状況では、上で定義された距離は未定義である。さまざまな実施形態では、この距離を非常に大きな数に設定することで、この状況に重いペナルティを科し、この状況が再び発生するのを防止する。
いくつかの実施形態は、通常、いくつかの実用的なシステムにとって不確実であるマシンのモデルに基づいて、安全性が保証されたコントローラが決定されるという認識に基づいている。しかしながら、CISに留まるのに必要な最小限の労力量として決定される適合条件は、依然としてRLコントローラのための有効な制約アダプタである。制御ポリシーは動作データを用いて更新されるともに、拡張された報酬機能を考慮して制約付きマシンを制御するための最適な制御ポリシーへと漸近的に収束するので、これらの実施形態はモデルの不確実性を考慮したものとなる。
したがって、一実施形態は、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するための装置を開示する。当該装置は、当該マシンの状態を示すデータを受付けるための入力インターフェイスと、メモリとを備え、当該メモリは、当該状態制約と、制御不変集合(CIS)内の当該マシンの状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、当該制御ポリシーに従った当該CIS内の当該状態を有する当該システムの制御は、当該CIS内の当該システムの状態を維持し、当該装置はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習(RL)を繰返し実行するよう構成されたプロセッサを備え、当該共同制御および更新を実行するために、この場合、当該プロセッサは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御し、当該状態を有する当該マシンが当該CIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて、当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定し、当該決定された報酬に従って、当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するように構成される。
さらに、本発明のいくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するためのコンピュータ実施方法を提供し得る。この場合、当該方法は、当該マシンの状態を示すデータを受付けるステップと、当該状態制約と、制御不変集合(CIS)内の当該マシンの当該状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、当該制御ポリシーに従った当該CIS内の当該状態を有する当該マシンの制御は、当該CIS内の当該マシンの状態を維持し、当該方法はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習(RL)アルゴリズムを繰返し実行するステップを含み、当該共同制御および更新を実行するために、当該繰返し実行するステップは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いて当該マシンを制御するステップと、当該状態を有する当該マシンが当該CIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定するステップと、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するステップとを含む。
以下、添付の図面を参照して本開示の実施形態についてさらに説明する。示される図面は必ずしも縮尺どおりではなく、ここで開示される実施形態の原理を例示するために強調して示されている。
従来の強化学習コントローラによってシステムを制御するための従来の方式を示す図である。 制約集合を表わす概略図である。 従来の強化学習アルゴリズムを示すフローチャートである。 本発明の実施形態に従った、強化学習コントローラによってシステムを制御するための安全スーパーバイザ方式を示す図である。 本発明の実施形態に従った安全性スーパーバイザアルゴリズムを示すフローチャートである。 本発明の実施形態に従った、安全性スーパーバイザアルゴリズムに基づくクォータカーモデルを示す概略図である。 本発明の実施形態に従った、深層決定方策勾配アルゴリズムの出力に対するノイズの追加を示す図である。 本発明の実施形態に従った、安全強化学習のための方式の動作全体を示す図である。 本発明の実施形態に従った、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御するための制御装置の一例を示す図である。
以下、図を参照して本発明のさまざまな実施形態について説明する。なお、図が縮尺通りには描かれておらず、同様の構造または機能を持つ要素が図全体を通じて同様の参照番号で表わされていることに留意されたい。また、図が単に本発明の具体的な実施形態の説明を容易にすることを意図しているに過ぎないことにも留意されたい。これらの図は、本発明を網羅的に説明するものとして、または本発明の範囲に対する限定として意図されたものではない。加えて、本発明の特定の実施形態に関連付けて説明される局面は、必ずしもその実施形態に限定されるものではなく、本発明の他のいずれかの実施形態においても実施され得る。
いくつかの実施形態の目的は、データ駆動型状態フィードバック最適コントローラを用いてマシンの動作を制御するためのシステムおよび方法を提供することである。いくつかの実施形態の別の目的は、安全性制約を受けるマシンを制御するのに適したこのようなコントローラを提供することである。このようなデータ駆動型最適コントローラの一例は、強化学習(RL)を用いて、被制御マシンの動作中に得られたデータに基づいて制御ポリシーを決定するとともに、スーパーバイザを用いて、制御の安全な動作に関するフィードバックをRLベースのコントローラに提供する。
図1Aは、システム109にフィードバックする一般的なRLコントローラ100の例を示す。コントローラはコマンド106をシステムに渡し、当該システムは当該コマンドに従ってアクションを実行する。システムが線形である場合、当該システムは差分方程式に従ってモデル化することができる。
Figure 0007297155000001

ここで、xはシステム状態を含むベクトルであり、uはコマンドのベクトルであり、wは外乱のベクトルである。システムが非線形である場合、当該システムは、大多数の実用目的のために線形システムとしてモデル化することができる。RLコントローラは、システムからフィードバック信号112を受信する。当該フィードバック信号112は、概してシステム状態およびコマンドベクトルの両方の関数であるものの、概して未知であるので外乱入力ベクトルの関数ではない。コントローラは、フィードバックに従ってコマンドを修正する。概して、フィードバックq(t)は上述のすべてのベクトルの関数である。
Figure 0007297155000002
システム109は出力が制約されており、これは、出力115が制約を受けることを意味する。出力は、システム状態ベクトル、コマンドベクトル、および外乱入力ベクトルの線形結合として数学的に記述することができる。
Figure 0007297155000003
出力はベクトルであり、それが受ける制約は集合としてモデル化される。図1Bは、2次元出力ベクトル120と1組の軸に対してプロットされた制約集合123とを示す。これらの軸は一緒に、出力を記述するベクトル空間の基礎を形成する。ここで、
Figure 0007297155000004

を軸121に平行なベクトルをとし、
Figure 0007297155000005

を軸122に平行なベクトルをとする。さらに、出力y(t)は以下のように表わすことができる。
Figure 0007297155000006

ここで、y(t)およびy(t)は適切に値付けされたスカラーである。安全な動作のために、出力は制約集合123に留まらなければならない。数学的には、制約は線形不等要件として表わされる。
Figure 0007297155000007

これは、制約を幾何学的に表わす多面体または多角形を表わす。
RLで用いられるアルゴリズムは、概して、制約違反を防ぐものではない。従来のRLアルゴリズムは、割引された報酬の蓄積を最大化することを目的とした試行錯誤プロセスにより機能する。
Figure 0007297155000008

ここで、r(t)は報酬関数であり、γ<1は正の割引係数である。図1Aは、フィードバック112を取得して報酬を計算する関数の出力として報酬113を示す。試行錯誤プロセスはポリシーπθを決定するように機能する。ポリシーπθは、フィードバック112をコマンド106にマッピングし、何らかのパラメータベクトルθによってパラメ-タ化される関数である。当該ポリシーはフィードバックをコマンドにマッピングする関数である。
Figure 0007297155000009
図1Cは、本発明に従ったRLコントローラの一般的な動作を示す。システムの各サンプル時間t中、報酬132がRLアルゴリズム134に送られ、RLアルゴリズム134がパラメータベクトルθを決定して、ポリシー136をパラメータ化して、πθとする。フィードバック信号130は、ポリシー136によって制御コマンド138に変換される。
本発明の背景にある主な概念は、制約違反の危険性を測定するコスト関数c(t)を差し引いた報酬関数となるように報酬関数r(t)を修正することである。したがって、更新済み報酬は以下のとおりである。
Figure 0007297155000010
コスト関数c(t)は、スーパーバイザと称されるアドオン要素によって決定される。
図2Aは、本発明の実施形態に従った、強化学習コントローラによってシステムを制御するための制御システム20において用いられる安全スーパーバイザ方式(方法)を示す図である。
図2Aは、RLコントローラ200と制約システム209との間に配置されたスーパーバイザ203を含む制御システム20を示す。スーパーバイザ203は、システム209から状態測定値または推定値220を取得し、所望の安全性マージンを計算する。当該所望の安全性マージンは、ペナルティ217に変換されるとともに、修正済み報酬213を得るために報酬計算218に送られる。同時に、スーパーバイザは、コマンド206が非安全であったと見なされた場合、安全コマンド216を送信する。安全コマンドは、最適化(SO)に従って決定される非安全コマンドの変形例であって、
Figure 0007297155000011

以下の制約
Figure 0007297155000012

を受け、この場合、k=0,…,N-1であり、さらに以下の制約
Figure 0007297155000013

を受ける。
項y(k|t)は、力学に従った時間tにおけるy(t+k)の予測値である。
Figure 0007297155000014

ここで、初期条件x(0|t)=x(t)はシステムから得られ、u(0|t)=u(t)はRLコントローラから得られる。
Figure 0007297155000015

という項は、確率βで設定された外乱のサポートである。この集合は集合
Figure 0007297155000016

であって、
Figure 0007297155000017

を満たす。このため、
Figure 0007297155000018

は、
Figure 0007297155000019

の解となり、
Figure 0007297155000020

という制約を受ける。
(SO)問題における乗算係数αは、コストc(t)のサイズを変更するスケーリング係数である。上述においては、k、Nは整数であり、tはシステムの現在時刻である。
(SO)問題に対する解は、システムモデルに従って制約内にシステムを維持するのに必要な最小限の労力である。システムモデルは完全ではないので、RLはより最適な制御を得る必要がある。さらに、RLは制約を処理することができないので、スーパーバイザ(またはスーパーバイザアルゴリズム)がRLに制約違反を通知する必要がある。このように、RLアルゴリズムおよびスーパーバイザの機能は互いに対して相補的である。スーパーバイザはモデルベースであり、比較的単純な計算により線形モデルに従って最適値を決定することができる。たとえば、スーパーバイザの場合、ゼロ労力集合に戻すのに必要な最大ステップ数であるNの値に関して厳密な範囲を得ることができる。Nを得るために、システム力学に従って状態をCISに戻し得るとともに設定されたメンバシップ制約Sy(t)≦sを満たし得るコマンドu(t)が存在するすべてのシステム状態x(t)の集合である制御不変集合(CIS)を計算する。従って、CISにない状態の場合、システムが最終的に制約に違反することが確実となる。
CISを計算する一方法は、制約の実施を保証するとともにこれをx軸上に投影する初期の状態およびコマンドのすべての組合わせの集合を計算することである。結果として得られた集合が投影によって成長しなくなると限界Nが見出された。具体的には、集合
Figure 0007297155000021

を定義することによってCISを計算し、さらに、集合
Figure 0007297155000022

を再帰的に計算する。
CISは、x軸に対する
Figure 0007297155000023

の投影である。ステップkにおける投影がステップk-1における投影と同じサイズである場合、N=k-1と設定する。実用上、投影の差が無視できるほどわずかであると見なされる場合、アルゴリズムを少し早めに停止することができる。
CIS集合が存在するということは、状態がCIS内にあり得ないので、(SO)問題に対する解が存在しない場合があることを意味する。さらに、状態がCIS外にある場合、(SO)問題に対する解が存在しないので、モデルに従って、システムが必然的に制約に違反することとなるだろう。これが生じた場合、ペナルティをc(t)=-Gに設定する。ここで、Gは、起こり得る他のいずれのペナルティよりも大きい非常に大きな数であり、修正されたコマンドを決定するための手順を実行する。
ゼロ労力集合自体は、(SO)問題に対する解が無い場合の状態の集合である。この集合は線形不等式の集合として特徴付けることができる。
Figure 0007297155000024

この場合、k=0,…,Nである。これまでのところ、Nを計算する方法は分かっていないが、その値が有限であって線形系の減衰率に関連することが分かっている。したがって、線形系の整定時間よりもはるかに大きなNを選択する。
図2Bは、本発明の実施形態に従った安全性スーパーバイザアルゴリズムを示すフローチャートである。図2Bは、制御装置の安全性スーパーバイザアルゴリズムの関数を決定する手順を説明する。スーパーバイザは、状態240を取得し、(SO)問題241を解決しようと試みる。解が存在する場合、スーパーバイザはペナルティc(t)を問題244の解に設定し、RLコントローラから受信したコマンドをシステム245に渡す。解が存在しない場合、それは、制約に違反する可能性が非常に高くなるであろうことを意味する。したがって、スーパーバイザは、ペナルティc(t)を最大ペナルティ242に設定し、RLコントローラから受信したコマンドを修正し、修正したコマンドをシステム243に渡す。
何らかの実験の後、安全コマンドがランダムに選択されるべきであることが分かった。コマンドが非安全であると見なされる場合、これは、当該コマンドを適用することが制約違反につながるであろうことを意味する。わずかに修正されたコマンドを適用しても、制約に違反するリスクが大幅に低減されるわけではない。さらに、非安全領域の近傍内にとどまることで、起こり得る領域がすべて、RLコントローラによって探索されるわけではない。したがって、代わりに、極端な対策を講じて、制約を満たすコマンドをランダムにサンプリングする。これは、ヒット・アンド・ラン(hit-and-run)技術を用いて行なわれる。さらに、コマンドのシーケンス
Figure 0007297155000025

を生成する。これは、以下の制約を満たす。
Figure 0007297155000026

次いで、ランダムなシーケンス
Figure 0007297155000027

を選択し、
Figure 0007297155000028

を設定する。この場合、
Figure 0007297155000029

であり、いずれの場合も、k=0,…,N-1、k′=0,…,Nであり、何らかのスカラーλとなる。次いで、上述の制約を満たす最小のλを見出す。上述を繰返してu,u,…のシーケンスを発見する。uの場合、
Figure 0007297155000030

であることが確実であるので、uのシーケンスは真にランダムとなり、制約を一様にランダムにサンプリングすることとなるだろう。
本発明のいくつかの実施形態に従うと、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するための制御システムまたは制御装置が実現される。この目的のために、システムまたは装置は、マシンの状態を示すデータを受付けるための入力インターフェイスと、メモリとを備え、当該メモリは、当該状態制約と、制御不変集合(CIS)内のマシンの状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、当該制御ポリシーに従った当該CIS内の当該状態を有する当該システムの制御は、当該CIS内の当該システムの状態を維持し、当該システムまたは装置はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習(RL)を繰返し実行するように構成されたプロセッサを備え、当該共同制御および更新を実行するために、この場合、当該プロセッサは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御し、当該状態を有するマシンがCIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定し、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するように構成される。
本発明に従った制御システムまたは装置において用いられる制御方法(安全スーパーバイザアルゴリズム)は、工場自動化システムで用いられるマシン、ロボットシステムもしくは車両で用いられるアクチュエータおよびサスペンション、またはプラントシステムに適用することができる。
図3は、本発明の実施形態に従った、安全性スーパーバイザアルゴリズムに基づいたクォータカーモデルを示す概略図である。サスペンションシステムは、複雑なサスペンションシステム力学の単純化されたモデルであるクォータカーモデルに従ってモデル化することができる。たとえば、単純化されたモデルは、サスペンションばねが線形であることを想定している。但し、これは、特にばねが大きく引き伸ばされる場合には当てはまらない。この場合、ばね力は、たとえば、ばね変位に対する三次関係によって、より適切にモデル化される。
以下において、車両サスペンションシステムを例に挙げて説明するが、本発明に従った安全スーパーバイザ(安全スーパーバイザ制御方法)は、車両サスペンションに限定されるものではなく、ロボットシステムまたは工場自動化システムにおいて用いられるアクチュエータおよびサスペンションを制御するために適用することができる。
図3は、クォーターカーの概略図を示しており、サスペンション上に載置された車体質量の4分の1をモデル化するばね上質量304と、車両ホイールをモデル化するばね下質量305とを備える。平衡状態からのばね上質量高さの変位301をzとし、平衡状態からのばね下質量高さの変位302をzusとする。ばね上質量およびばね下質量は、アクチュエータからの作動力Fでばね・減衰アセンブリとしてモデル化されるアクティブサスペンションシステム306によって接続される。アクチュエータは、搭載コンピュータ311上で動作するコントローラによって命令される。このコンピュータ上のアルゴリズムは、力Fであるアクチュエータコマンド310を決定する。道路308と車輪との間の接触は、ばね減衰システムとしてモデル化される。道路303の高さをzで示す。システムが質量、ばね、およびダンパの相互接続としてモデル化されるので、その力学は力学方程式の2自由度集合によって与えられる。
Figure 0007297155000031

これらは線形であるので、これらの方程式は、
Figure 0007297155000032

とすることによって、所要のフォーマットに変換することができる。さらに、
Figure 0007297155000033

とする。ここで、Kは安定化フィードバックである。すなわち、行列A-BKが安定した行列であるため、x(t)の力学は安定している。行列Kは、アクティブサスペンションを制御するように設計された安定化フィードバックコントローラを表わす。我々の意図は、制約のある状態でコントローラを改善するようにRLアルゴリズムを用いることである。この説明においては、フィードバック状態x(t)は何らかの計器を用いて直接測定されるものとする。これは、本発明者らによる実験では、全ての状態が測定可能であったことに起因する。しかしながら、実際の用途では、線形可変変位変換器などの変位センサを用いてばね上質量の垂直変位301を測定することにより、状態推定値312を得るように状態推定器313を実装する可能性が高い。規格のフィードバックコントローラは制約に留意して設計されておらず、したがって、RLアルゴリズムは、特に制約が存在する場合にはコントローラ性能を改善させるはずである。
ここで考慮される制約は、圧縮による破断からばねを保護するために、
Figure 0007297155000034

であり、伸長による破断からばねを保護するために、
Figure 0007297155000035

であり、車両の乗客の乗り心地を保証するために、
Figure 0007297155000036

であり、タイヤの圧縮によるホイールの破損を防止するために、
Figure 0007297155000037

である。ここで、
Figure 0007297155000038

の項は上述の変数の関数に対する正のスカラー限界である。これらの制約は線形であるので、必要な形態でモデル化することができる。
適用するRLアルゴリズムは、連続制御システムに対処する能力を有しているので深層決定方策勾配(DDPG)アルゴリズムである。DDPGは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する。サスペンションシステムに適用する場合、クリティックネットワークは、160個のニューロンおよび120個のニューロンをそれぞれ有する2つの隠れた完全接続層から構成され、アクターネットワークは、160個のニューロンおよび120個のニューロンをそれぞれ有する2つの隠れた完全接続層と、最適なアクションをサンプリングするためのソフトマックス(softmax)層とから構成される。DDPGアルゴリズムの残りの設計のために、デフォルトのハイパーパラメータが用いられた。重要なことには、これがより優れた学習をもたらすので、DDPGはそれが学習した最適な制御を適用しない。
Figure 0007297155000039
代わりに、何らかの色付きノイズ信号で修正された最適な制御を適用する。
Figure 0007297155000040

ここで、εOUは、色つきノイズ(オルンシュタイン・ウーレンベック(Ohrstein-Uhlenbeck)とも呼ばれる)プロセスの出力である。
図4はこの手順の概略を示す。色付きノイズ403は、白色ノイズ401を入力とする色フィルタ402の出力である。ポリシー404の出力は最適コマンド405である。このコマンドはノイズ406と合計される。出力はテストコマンド407である。テストコマンド407は実際のアクチュエータコマンドではない。コマンドがアクチュエータに渡され得る前に、当該コマンドはスーパーバイザ203によってチェックされ、安全性制約に違反すると判定された場合には当該安全性制約に準拠するように修正される必要がある。
図5は、制御システムまたは制御装置において用いられるフル安全RL方法のステップを示す。アルゴリズムは、一般的なDDPGアルゴリズム501を修正してシステムの安全性を向上させる。最適コマンド505がポリシー503によって生成される。当該アルゴリズムは、色付きノイズ507を最適コマンドに付加してテストコマンドを決定し、(SO)問題を解決することによって安全性509をチェックする。(SO)問題を解決した結果、解が存在しない場合に最大ペナルティに設定される安全性マージン511が得られる。解が存在する場合、これは、テストコマンドが安全であり、アクチュエータコマンド517として渡されることを意味する。解が存在しない場合、これは、テストコマンドが非安全であり、このため、アルゴリズムがランダムで安全なアクチュエータコマンドを生成することを意味する。安全アクチュエータコマンドはシステム519に渡され、当該システム519が測定装置を介してフィードバック信号521を戻す。フィードバック信号は、報酬513を生成する報酬計算523に送られる。安全性マージンが報酬515に追加され、修正された報酬がDDPGアルゴリズムに渡される。
サスペンションシステムに特有の実装の詳細を以下に説明する。最大化することが所望される報酬関数として、乗り手の快適性が挙げられる。
Figure 0007297155000041
換言すれば、ばね上質量快適性の動きが最小限にされることが所望される。上述の通り、乗り手の快適性は±fの間に制約される。これは、報酬もこれらの境界間に制約されることを意味する。CISの計算、および安全RLアルゴリズムの応用例の実験により、(SO)問題におけるスケーリング係数αを最適に選択することで、コストc(t)が常に±cの間に収まることが確実となることを見出した。ここで、cはコスト関数に対する範囲であり、実験により、
Figure 0007297155000042

と設定する。
これは、安全へと戻すのに必要な労力がCISの境界では非常に大きくなり、このため、コストをゼロ労力集合により近づけるために十分に高くすることを確実にするために、スケーリング係数を大きくする必要があるからである。実験により、最大ペナルティGが常にcの値の約2倍になる、すなわち、
Figure 0007297155000043

になるはずであることが判明した。
最大ペナルティが大きすぎる場合、RLアルゴリズムの学習プロセスに支配的な影響を及ぼし、アルゴリズムが、制約を過度に回避するコマンドを生成してしまう。したがって、(SO)問題に対して実現可能な最大限の大きさの解になるようにGを選択することが適切である。
図6は、本発明のいくつかの実施形態に従った、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御する制御システム(装置)600のブロック図を示す。システム600は、キーボード611およびポインティングデバイス/媒体612と接続可能なヒューマンマシンインターフェイス(human machine interface:HMI)610、プロセッサ620、記憶装置630、メモリ640、ローカルエリアネットワークおよびインターネットネットワークを含むデータ通信ネットワーク690と接続可能なネットワークインターフェイスコントローラ650(network interface controller:NIC)、制御入力675をマシンに送信するための制御インターフェイス670を含み得る。制御システム600は、NIC650に接続されたネットワーク690を介してマシン695の状態を示すデータを受信し得る。記憶装置630は、強化学習(RL)アルゴリズム(プログラム)631と、スーパーバイザアルゴリズム633と、RLおよびスーパーバイザアルゴリズム634についての報酬関数、コスト関数、および最大ペナルティパラメータと、システム600上の制約632を記述する不等式と、ゼロ労力集合635を記述する不等式とを含む。ポインティングデバイス/媒体612は、コンピュータ可読記録媒体に格納されたプログラムを読出すモジュールを含んでもよい。
したがって、本発明のいくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御するためのコンピュータ実施方法を提供し得る。この場合、当該方法は、マシンの状態を示すデータを受付けるステップと、当該状態制約と、制御不変集合(CIS)内の当該マシンの当該状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、当該制御ポリシーに従った当該CIS内の当該状態を有する当該マシンの制御は、当該CIS内の当該マシンの状態を維持し、当該方法はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習(RL)アルゴリズムを繰返し実行するステップを含み、当該共同制御および更新を実行するために、当該繰返し実行するステップは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御するステップと、当該状態を有するマシンがCIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定するステップと、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するステップとを含む。場合によっては、コンピュータ実施方法は、車両のサスペンションシステム(複数のサスペンションシステム)を制御するために用いることができる。
以上、車両サスペンションシステムを例に説明してきたが、本発明に従った安全スーパーバイザ(安全スーパーバイザ制御方法)は、車両サスペンションに限定されるものではなく、ロボットシステムまたは工場自動化システムにおいて用いられる制御アクチュエータおよびサスペンションに適用することができる。
本発明の上述の実施形態は多数の方法のうちいずれかで実現可能である。たとえば、これらの実施形態は、ハードウェア、ソフトウェア、またはそれらの組合わせを用いて実現され得る。ソフトウェアで実現する場合、ソフトウェアコードは、単一のコンピュータに設けられるかまたは複数のコンピュータに分散されるかに関わらず、任意の適切なプロセッサまたはプロセッサ集合の上で実行することができる。このようなプロセッサは、集積回路構成要素内に1つ以上のプロセッサを備える集積回路として実現され得る。しかしながら、プロセッサは、任意の適切なフォーマットの回路を用いて実現されてもよい。
また、本発明の実施形態は、一例が上述において提供された方法として具現化されてもよい。当該方法の一環として実行される動作は任意の適切な方法で順序付けられてもよい。したがって、いくつかの動作が図示とは異なる順序で実行される実施形態が構築されてもよく、当該実施形態は、例示的な実施形態では順次的な動作として示されていたとしても、いくつかの動作を同時に実行することを含んでもよい。
請求項の要素を修飾するための、請求の範囲における「第1」、「第2」などの順序を表わす用語の使用は、それ自体が、別の請求項の要素に対する1つの請求項の要素の任意の優先順位、優位度もしくは順序を暗示するものではなく、または、方法の動作が実行される時間的順序を暗示するものではなく、請求項の要素を区別するために、ある名称を有する1つの請求項の要素を、(順序を表わす用語を用いる場合を除いて)同じ名称を有する別の要素から区別するために単にラベルとして使用される。
本発明を好ましい実施形態の例として説明してきたが、本発明の精神および範囲内で、他のさまざまな適合および修正がなされ得ることが理解されるはずである。
したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるすべてのそのような変形例および修正例を網羅することである。

Claims (14)

  1. マシンの連続状態空間における状態制約を受けるとともに前記マシンの連続制御入力空間における制御入力制約を受ける前記マシンの動作を制御するためのシステムであって、
    前記マシンの状態を示すデータを受付けるための入力インターフェイスと、
    メモリとを備え、
    前記メモリは、前記状態制約と、制御不変集合(CIS)内の前記マシンの前記状態を前記制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、
    前記制御ポリシーに従った前記CIS内の前記状態を有する前記マシンの制御は、前記CIS内の前記マシンの前記状態を維持し、
    前記システムはさらに、前記マシンを共同制御するとともに前記制御ポリシーを更新するために強化学習(RL)アルゴリズムを繰返し実行するように構成されたプロセッサを備え、
    前記共同制御および更新を実行するために、前記プロセッサは、
    前記制御ポリシーを用いて生成された制御入力のシーケンスと前記制御入力のシーケンスに対応する前記マシンの状態のシーケンスとを含むデータを収集するように、前記制御ポリシーを用いて前記マシンを制御し、
    前記状態を有する前記マシンが前記CIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、前記制御入力のシーケンスおよび前記マシンの状態のシーケンスの報酬関数を用いて、前記マシンの前記状態に対する前記制御ポリシーの質についての報酬を決定し、
    前記決定された報酬に従って前記マシンの動作のコスト関数を改善させる前記制御ポリシーを更新するように構成され
    前記メモリは、前記マシンの前記状態を取得するとともに所望の安全性マージンを計算するスーパーバイザアルゴリズムを含み、
    前記スーパーバイザアルゴリズムは、前記RLアルゴリズムが非安全であると見なされるコマンドを生成する場合、安全コマンドを生成し、
    前記安全コマンドは、最適化(SO)に従って非安全コマンドを修正したものであり、
    Figure 0007297155000044

    αはスケーリング係数であり、k、Nは整数であり、tは前記システムの現在時刻である、システム。
  2. 前記RLアルゴリズムは、深層決定方策勾配(DDPG)アルゴリズムである、請求項1に記載のシステム。
  3. 前記DDPGアルゴリズムは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、前記推定された長期値に従って最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する、請求項2に記載のシステム。
  4. 前記報酬関数は、前記報酬関数から前記コスト関数を減算することによって更新済み報酬に修正され、前記更新済み報酬は、
    Figure 0007297155000045

    によって表わされ、
    Figure 0007297155000046

    は前記更新済み報酬であり、r(t)は前記報酬関数であり、c(t)は前記コスト関数であり、tは前記システムの現在時刻である、請求項1に記載のシステム。
  5. 前記スケーリング係数αは、コストc(t)が±cの間にあるように選択される、請求項に記載のシステム。
  6. 前記RLアルゴリズムを実行するための最大ペナルティGは、
    Figure 0007297155000047

    の値の約2倍である、請求項1に記載のシステム。
  7. 前記マシンは、車両のサスペンションシステムである、請求項1に記載のシステム。
  8. マシンの連続状態空間における状態制約を受けるとともに前記マシンの連続制御入力空間における制御入力制約を受ける前記マシンの動作を制御するためのシステムにおけるコンピュータ実施方法であって、
    前記マシンの状態を示すデータを受付けるステップと、
    メモリに格納された最適化問題を用いて、前記状態制約と、制御不変集合(CIS)内の前記マシンの前記状態を前記制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、
    前記制御ポリシーに従った前記CIS内の前記状態を有する前記マシンの制御は、前記CIS内の前記マシンの前記状態を維持し、
    前記コンピュータ実施方法はさらに、前記マシンを共同制御するとともに前記制御ポリシーを更新するために強化学習(RL)アルゴリズムを繰返し実行するステップを含み、
    前記共同制御および更新を実行するために、前記繰返し実行するステップは、
    前記制御ポリシーを用いて生成された制御入力のシーケンスと前記制御入力のシーケンスに対応する前記マシンの状態のシーケンスとを含むデータを収集するように、前記制御ポリシーを用いて前記マシンを制御するステップと、
    前記状態を有する前記マシンが前記CIS内に留まるのに必要な最小労力量として決定される適合条件で増大させた、前記制御入力のシーケンスおよび前記マシンの状態のシーケンスの報酬関数を用いて前記マシンの前記状態に対する前記制御ポリシーの質についての報酬を決定するステップと、
    前記決定された報酬に従って前記マシンの動作のコスト関数を改善させる前記制御ポリシーを更新するステップとを含み、
    前記メモリは、前記マシンの前記状態を取得するとともに所望の安全性マージンを計算するスーパーバイザアルゴリズムを含み、
    前記スーパーバイザアルゴリズムは、前記RLアルゴリズムが非安全であると見なされるコマンドを生成する場合、安全コマンドを生成し、
    前記安全コマンドは、最適化(SO)に従って非安全コマンドを修正したものであり、
    Figure 0007297155000048

    αはスケーリング係数であり、k、Nは整数であり、tは前記システムの現在時刻である、コンピュータ実施方法。
  9. 前記RLアルゴリズムは、深層決定方策勾配(DDPG)アルゴリズムである、請求項に記載の方法。
  10. 前記DDPGアルゴリズムは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、前記推定された長期値に従って最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する、請求項に記載の方法。
  11. 前記報酬関数は、前記報酬関数から前記コスト関数を減算することによって更新済み報酬に修正され、前記更新済み報酬は、
    Figure 0007297155000049

    によって表わされ、
    Figure 0007297155000050

    は前記更新済み報酬であり、r(t)は前記報酬関数であり、c(t)は前記コスト関数であり、tは前記システムの現在時刻である、請求項に記載の方法。
  12. 前記スケーリング係数αは、コストc(t)が±cの間にあるように選択される、請求項に記載の方法。
  13. 前記RLアルゴリズムを実行するための最大ペナルティGは、
    Figure 0007297155000051

    の値の約2倍である、請求項に記載の方法。
  14. 前記マシンは、車両のサスペンションシステムである、請求項に記載の方法。
JP2022523801A 2019-08-16 2020-05-13 マシンの動作を制御するためのシステムおよびコンピュータ実施方法 Active JP7297155B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/542,299 2019-08-16
US16/542,299 US11676064B2 (en) 2019-08-16 2019-08-16 Constraint adaptor for reinforcement learning control
PCT/JP2020/019836 WO2021033380A1 (en) 2019-08-16 2020-05-13 Constraint adaptor for reinforcement learning control

Publications (2)

Publication Number Publication Date
JP2022537606A JP2022537606A (ja) 2022-08-26
JP7297155B2 true JP7297155B2 (ja) 2023-06-23

Family

ID=71069900

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022523801A Active JP7297155B2 (ja) 2019-08-16 2020-05-13 マシンの動作を制御するためのシステムおよびコンピュータ実施方法

Country Status (5)

Country Link
US (1) US11676064B2 (ja)
EP (1) EP3824356B1 (ja)
JP (1) JP7297155B2 (ja)
CN (1) CN114222952A (ja)
WO (1) WO2021033380A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7263980B2 (ja) * 2019-08-27 2023-04-25 富士通株式会社 強化学習方法、強化学習プログラム、および強化学習装置
JP7439931B2 (ja) * 2020-07-20 2024-02-28 日本電信電話株式会社 制御装置、仮想ネットワーク割当方法、及びプログラム
CN115046433B (zh) * 2021-03-09 2023-04-07 北京理工大学 基于深度强化学习的飞行器时间协同制导方法
EP4075337A1 (en) * 2021-03-15 2022-10-19 Honeywell Limited Process controller with meta-reinforcement learning
US20230020503A1 (en) * 2021-07-08 2023-01-19 Ford Global Technologies, Llc Machine control
US11884287B2 (en) 2021-08-19 2024-01-30 Ford Global Technologies, Llc Enhanced vehicle operation
US20230084968A1 (en) * 2021-09-10 2023-03-16 Honda Motor Co., Ltd. Object manipulation
EP4174711A1 (en) * 2021-10-27 2023-05-03 Siemens Aktiengesellschaft System and computer-implemented method for designing an engineering system
EP4307055A1 (en) * 2022-07-11 2024-01-17 Robert Bosch GmbH Constrained controlling of a computer-controlled system
CN115454122B (zh) * 2022-08-15 2024-06-14 北京航空航天大学 一种高速飞行器追逃微分博弈的邻近凸优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208789A (ja) 2011-03-30 2012-10-25 Advanced Telecommunication Research Institute International 強化学習装置、制御装置、および強化学習方法
WO2018053187A1 (en) 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
JP2019020885A (ja) 2017-07-13 2019-02-07 横河電機株式会社 プラント制御支援装置、プラント制御支援方法、プラント制御支援プログラム及び記録媒体
JP2019030941A (ja) 2017-08-08 2019-02-28 ファナック株式会社 制御装置及び学習装置
JP2019105891A (ja) 2017-12-08 2019-06-27 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5379210A (en) * 1992-07-24 1995-01-03 M&M Software Products, Inc. Natural tracking controller
US8996177B2 (en) 2013-03-15 2015-03-31 Brain Corporation Robotic training apparatus and methods
US9983554B2 (en) * 2014-11-25 2018-05-29 Mitsubishi Electric Research Laboratories, Inc. Model predictive control with uncertainties
US11263514B2 (en) * 2016-01-13 2022-03-01 Google Llc Processing and generating sets using recurrent neural networks
US9915948B2 (en) * 2016-07-14 2018-03-13 Mitsubishi Electric Research Laboratories, Inc. System and method for controlling motion of vehicle
US11062207B2 (en) 2016-11-04 2021-07-13 Raytheon Technologies Corporation Control systems using deep reinforcement learning
JP6926203B2 (ja) * 2016-11-04 2021-08-25 ディープマインド テクノロジーズ リミテッド 補助タスクを伴う強化学習
WO2019155511A1 (en) * 2018-02-06 2019-08-15 Nec Corporation Inverse model predictive control system, inverse model predictive control method, and inverse model predictive control program
EP3820753B1 (en) * 2018-07-14 2023-08-02 Moove.AI Vehicle-data analytics
CN109991992A (zh) * 2019-03-27 2019-07-09 天津大学 基于浸入不变集的小型无人直升机无模型自适应控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208789A (ja) 2011-03-30 2012-10-25 Advanced Telecommunication Research Institute International 強化学習装置、制御装置、および強化学習方法
WO2018053187A1 (en) 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
JP2019020885A (ja) 2017-07-13 2019-02-07 横河電機株式会社 プラント制御支援装置、プラント制御支援方法、プラント制御支援プログラム及び記録媒体
JP2019030941A (ja) 2017-08-08 2019-02-28 ファナック株式会社 制御装置及び学習装置
JP2019105891A (ja) 2017-12-08 2019-06-27 三菱重工業株式会社 制御装置、無人システム、制御方法及びプログラム

Also Published As

Publication number Publication date
JP2022537606A (ja) 2022-08-26
US20210049501A1 (en) 2021-02-18
WO2021033380A1 (en) 2021-02-25
EP3824356B1 (en) 2022-06-08
US11676064B2 (en) 2023-06-13
EP3824356A1 (en) 2021-05-26
CN114222952A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
JP7297155B2 (ja) マシンの動作を制御するためのシステムおよびコンピュータ実施方法
JP6808093B2 (ja) システムを制御する予測コントローラ、車両及び方法
US10895854B1 (en) System and method for control constrained operation of machine with partially unmodeled dynamics using Lipschitz constant
JP2022513416A (ja) 機械の動作を制御する装置及び方法、並びに記憶媒体
Zheng et al. A delay compensation framework for predicting heading in teleoperated ground vehicles
Morato et al. Sub‐optimal recursively feasible Linear Parameter‐Varying predictive algorithm for semi‐active suspension control
WO2023013212A1 (en) System and method for calibrating feedback controllers
EP3928167B1 (en) Apparatus and method for control with data-driven model adaptation
Menner et al. Automated controller calibration by Kalman filtering
Fu et al. Adaptive optimal control of unknown nonlinear systems with different time scales
Chiang et al. Optimized sensorless antivibration control for semiactive suspensions with cosimulation analysis
US20210302921A1 (en) Controller with neural network and improved stability
Dutta Design and certification of industrial predictive controllers
Sinha et al. Adaptive robust model predictive control via uncertainty cancellation
US11640162B2 (en) Apparatus and method for controlling a system having uncertainties in its dynamics
US11790247B2 (en) Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems
US11977374B2 (en) System and method for calibrating feedback controllers
Mao et al. Learning From Actor-Critic Algorithm With Application to Asymmetric Tailored Performance Tracking Control of Underactuated Surface Vehicle
Gao et al. Spacecraft Model and Preliminaries
Marvi Safe Control Design for Uncertain Systems
Lefarov Model-based policy search for learning mulitvariate PID gain scheduling control
Wang Incremental Optimal Control for Robot Manipulators: A Robust and Optimal Control Framework
Bottasso et al. Adaptive reference-augmented predictive control, with application to the reflexive control of unmanned rotorcraft vehicles
CAMPA et al. REQUIREMENTS ENGINEERING VIA LYAPUNOV ANALYSIS FOR ADAPTIVE FLIGHT CONTROL SYSTEMS

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211221

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230613

R150 Certificate of patent or registration of utility model

Ref document number: 7297155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150