JP7297155B2

JP7297155B2 - マシンの動作を制御するためのシステムおよびコンピュータ実施方法

Info

Publication number: JP7297155B2
Application number: JP2022523801A
Authority: JP
Inventors: カラビック，ウロス; リー，ヂャオジエン; ゴールドスミス，アブラハム
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-08-16
Filing date: 2020-05-13
Publication date: 2023-06-23
Anticipated expiration: 2040-05-13
Also published as: JP2022537606A; US20210049501A1; WO2021033380A1; EP3824356B1; US11676064B2; EP3824356A1; CN114222952A

Description

本発明は、概してシステム制御に関し、より特定的には、制約付きマシンのデータ駆動型制御のための方法および装置に関する。

制御システムエンジニアリングにおける制御理論は、エンジニアリング設計されたプロセスおよびマシンにおいて力学的システムを連続的に動作させる制御に対処するエンジニアリングの下位分野である。その目的は、遅延またはオーバーシュートを防止し、制御の安定性およびロバスト性を確実にするために、制御アクションを用いてこのようなシステムを制御するための制御ポリシーを開発することである。第２の目的は、これを最適な方法で行なうことである。

たとえば、モデル予測制御（model predictive control：ＭＰＣ）などの最適化ベースの制御および推定技術は、システム力学および制約を直接考慮することができるモデルベースの設計フレームワークを可能にする。ＭＰＣは、さまざまな複雑度の力学的システムを制御するために多くの用途で用いられる。このようなシステムの例として、生産ライン、自動車エンジン、ロボット、数値制御された機械加工、衛星および発電機が挙げられる。しかしながら、多くの状況では、被制御システムのモデルは利用できないか、リアルタイムで更新することが困難であるか、または不正確となる。このような場合の事例が、ロボット工学、建築制御（ＨＶＡＣ）、車両、スマートグリッド、工場自動化、輸送、自己調整マシン、および交通ネットワークにおいて蔓延している。

力学的システムの部分的モデルまたは不確実なモデルのみが存在する場合、いくつかの制御方法は、システム力学を安定させるフィードバック制御ポリシーを構築するか、または定量化可能な制御関連性能を組込むために、これらのシステムによって生成される動作データを活用する。データを用いて制御ポリシーを設計することはデータ駆動型制御と称される。データ駆動型制御方法には２種類ある。具体的には、システムのモデルを最初に構築し、次いで当該モデルを設計コントローラに活用する間接的な方法、または、中間モデル構築ステップなしでデータから制御ポリシーを直接構築する直接的な方法である。間接的な方法の欠点は、モデル構築段階において大量のデータが必要となる可能性があることである。逆に、直接的な方法が必要とするデータはより少なくて済む。しかしながら、最先端の直接制御方法であっても、制約違反がしばしば突発的に起こってシステムを破壊するので、閉ループ制御システムにおいて安全な動作を維持するのに必須である状態および入力の制約に対応するのが困難になる。

たとえば、強化学習（reinforcement learning：ＲＬ）は、累積報酬のいくつかの概念を最大化する（または、言い換えれば、累積損失／コストを最小限にする）ように環境において如何に対策を講じるかに関する機械学習の領域である。強化学習は、連続状態入力空間における最適制御と密接に関連するものであって、これは、主として、最適制御ポリシーの存在および特徴付け、ならびに、被制御システムおよび／または環境の数学的モデルがない場合にこれらを計算するためのアルゴリズムに関係している。

しかしながら、本ＲＬ方法は、制約付きシステムのデータ駆動型制御を考慮に入れていない。これは、従来のＲＬ方法では、連続状態・アクション空間における状態および入力の制約を満たすことを考慮に入れていないからである。すなわち、従来のＲＬは、制御入力のある状態で動作する被制御システムの状態が動作全体を通して状態および入力の制約を満たすことを保証するものではない。従来のＲＬの問題は、探索段階中に、ＲＬが、制御入力に対応する状態を学習するためのさまざまな入力でシステムを混乱させてしまうことである。さらに、システムをより良く学習するために、起こり得る制約の物理的境界に近づくよう制御入力を用いることが有益である。被制御システムまたは被制御マシンの完全かつ正確なモデルは存在しないので、任意に選択された制御入力および／または境界評価型制御入力が、システム状態を指定された状態制約集合外の領域に誘導しないという保証はなく、これにより、結果として、状態制約の違反が起こる。

したがって、動作の安全性のために状態および制御入力の制約を受ける非モデル化力学でシステムを制御するためのシステムおよび方法が必要とされている。

いくつかの実施形態の目的は、状態および制御入力の制約を受けるマシンのデータ駆動型制御のためのシステムおよび方法を提供することである。付加的または代替的には、いくつかの実施形態の目的は、被制御マシンの連続状態空間における状態および／または制御入力の制約の満足を保証するかまたは少なくとも改善させるために、強化学習（ＲＬ）のいくつかの原理を拡張するようなシステムおよび方法を提供することである。

付加的または代替的には、いくつかの実施形態の目的は、制約を受けない制御のために設計されたレガシーＲＬコントローラを、制約を受けるマシンの制御に適合させることである。実際には、いくつかの実施形態の目的は、制約されないマシンのＲＬコントローラを制約付きマシンのＲＬコントローラに変換するためにＲＬ制御のための制約アダプタを提供することである。

いくつかの実施形態は、強化学習のセグメント化構造の理解に基づいている。強化学習は、複数回の反復にわたって繰返される３つの別個の部分を含む。第１の部分は、マシンの状態を現在の状態から次の状態に移行させる制御ポリシーを用いたマシンの制御である。次の部分は、現在の制御ポリシーの質に関する報酬を推定する報酬関数の実行である。第３の部分は、報酬関数によって決定された報酬を用いた制御ポリシーの更新である。

いくつかの実施形態は、強化学習の本質が制御ポリシーの更新にあるという認識に基づいている。このような更新はマシンに依存し得るものであって、設計するのに時間および専門知識を必要とする可能性がある。加えて、制御ポリシーの更新が報酬関数によって決定される報酬に基づくものであるにも関わらず、この更新は報酬関数自体とは無関係であり、このことは、強化学習のその更新手順が修正なしにさまざまな種類の報酬関数と連動し得ることを意味している。

したがって、いくつかの実施形態は、制約されない制御用に設計されたレガシーＲＬコントローラを、制約されるマシンの制御に適合させるために、制御ポリシー更新の完全性を保ちつつこの適合を報酬関数で実行することができるという理解に基づいている。これは、制約を明確に考慮するためにＲＬコントローラの再設計を必要としないので有利である。これにより、新たなＲＬアルゴリズムを作成するという困難な作業が回避される。

このために、いくつかの実施形態の目的は、制約を受けるＲＬ制御中に制約に違反する危険性を考慮するために、さまざまな報酬関数で用いることができる適合条件を設計することである。さらに、いくつかの実施形態の目的は、制約違反の有無を示す２進項とは対照的に、このような危険性を段階的に増加または低下させることを考慮するような適合条件を設計することである。このような段階的な適合条件は、制約違反の可能性をＲＬコントローラに通知することで制約違反の発生前にその挙動を修正するのに十分な時間を与えるので、有利である。我々の知る限り、このような段階的な適合はまだ存在していない。

いくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御することに関する制御問題が、状態制約を満たすマシンの状態の制御不変集合（control invariant set：ＣＩＳ）内の状態を有するマシンの制御問題として構築される可能性があるという認識に基づいている。ＣＩＳは対応する制御ポリシーに結合されるかまたは関連付けられている。この対応する制御ポリシーは、マシンがＣＩＳ内にあってこの制御ポリシーに従って制御される場合にマシンの状態がＣＩＳで維持されるので、このような制御が常に制約を満たすということを保証する。いくつかの実施形態は、ＣＩＳに対する被制御マシンの現在の状態の位置が、制約に違反する危険性を示すための段階的適合条件としての役割を果たし得るという認識に基づいている。

具体的には、いくつかの実施形態は、ＣＩＳに留まるのに必要な最小限の労力量として決定される適合条件に従って報酬関数を増やす。いくつかの実施形態は、このような適合条件が以下の理由から有利であるという認識に基づいている。この理由とは、ＣＩＳ内に留まるのに必要な労力がより少なくて済む領域が、ＲＬ探索の失敗時に制約違反となる可能性が少ない領域に対応しているというものである。これは、必要最小限の制御労力が、定義上、報酬関数を最適化しながら制約境界からシステムを回復させるのに必要な制御労力以下である、すなわち前者が後者の下限となっている、からである。

したがって、さまざまな実施形態においては、適合条件は、ＣＩＳ内の状態を維持するためにゼロ労力を必要とするＣＩＳのゼロ労力部分集合においてゼロ値を有するとともに、ゼロ労力部分集合の範囲外であるがゼロ労力集合の境界までの距離の関数として決定されるＣＩＳ内にある値を連続的に変化させるとともに、制約に違反する破局的結果を示すためにＣＩＳ外の予め定められた大きな値を有する、境界関数である。

実際には、このような適合条件は、制約された制御のためにレガシーコントローラを適合させるようにレガシーＲＬコントローラのレガシー報酬関数を増やす。付加的または代替的には、適合条件は、マシンを制御するために特に設計された新しい報酬関数を修正することができる。この修正の結果、まず最初の制御アクションから、コントローラは、最大報酬の経路が状態をゼロ労力部分集合へと導く最短経路であると学習する。状態がゼロ労力部分集合に入ると、報酬関数の距離ペナルティ部分はその最低値となり（典型的には０に設定され）、コントローラは、実際の状態を所望の状態に可能な限り近付けるアクションに関してのみ報酬を得る。制御不変集合は、制約実施につながるであろう制御のシーケンスが存在するすべての状態の集合である。定義上、状態が制御不変集合の外にある場合、制約違反を回避し得る解はない。これらの状況では、上で定義された距離は未定義である。さまざまな実施形態では、この距離を非常に大きな数に設定することで、この状況に重いペナルティを科し、この状況が再び発生するのを防止する。

いくつかの実施形態は、通常、いくつかの実用的なシステムにとって不確実であるマシンのモデルに基づいて、安全性が保証されたコントローラが決定されるという認識に基づいている。しかしながら、ＣＩＳに留まるのに必要な最小限の労力量として決定される適合条件は、依然としてＲＬコントローラのための有効な制約アダプタである。制御ポリシーは動作データを用いて更新されるともに、拡張された報酬機能を考慮して制約付きマシンを制御するための最適な制御ポリシーへと漸近的に収束するので、これらの実施形態はモデルの不確実性を考慮したものとなる。

したがって、一実施形態は、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するための装置を開示する。当該装置は、当該マシンの状態を示すデータを受付けるための入力インターフェイスと、メモリとを備え、当該メモリは、当該状態制約と、制御不変集合（ＣＩＳ）内の当該マシンの状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、当該制御ポリシーに従った当該ＣＩＳ内の当該状態を有する当該システムの制御は、当該ＣＩＳ内の当該システムの状態を維持し、当該装置はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習（ＲＬ）を繰返し実行するよう構成されたプロセッサを備え、当該共同制御および更新を実行するために、この場合、当該プロセッサは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御し、当該状態を有する当該マシンが当該ＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて、当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定し、当該決定された報酬に従って、当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するように構成される。

さらに、本発明のいくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するためのコンピュータ実施方法を提供し得る。この場合、当該方法は、当該マシンの状態を示すデータを受付けるステップと、当該状態制約と、制御不変集合（ＣＩＳ）内の当該マシンの当該状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、当該制御ポリシーに従った当該ＣＩＳ内の当該状態を有する当該マシンの制御は、当該ＣＩＳ内の当該マシンの状態を維持し、当該方法はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習（ＲＬ）アルゴリズムを繰返し実行するステップを含み、当該共同制御および更新を実行するために、当該繰返し実行するステップは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いて当該マシンを制御するステップと、当該状態を有する当該マシンが当該ＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定するステップと、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するステップとを含む。
以下、添付の図面を参照して本開示の実施形態についてさらに説明する。示される図面は必ずしも縮尺どおりではなく、ここで開示される実施形態の原理を例示するために強調して示されている。

従来の強化学習コントローラによってシステムを制御するための従来の方式を示す図である。制約集合を表わす概略図である。従来の強化学習アルゴリズムを示すフローチャートである。本発明の実施形態に従った、強化学習コントローラによってシステムを制御するための安全スーパーバイザ方式を示す図である。本発明の実施形態に従った安全性スーパーバイザアルゴリズムを示すフローチャートである。本発明の実施形態に従った、安全性スーパーバイザアルゴリズムに基づくクォータカーモデルを示す概略図である。本発明の実施形態に従った、深層決定方策勾配アルゴリズムの出力に対するノイズの追加を示す図である。本発明の実施形態に従った、安全強化学習のための方式の動作全体を示す図である。本発明の実施形態に従った、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御するための制御装置の一例を示す図である。

以下、図を参照して本発明のさまざまな実施形態について説明する。なお、図が縮尺通りには描かれておらず、同様の構造または機能を持つ要素が図全体を通じて同様の参照番号で表わされていることに留意されたい。また、図が単に本発明の具体的な実施形態の説明を容易にすることを意図しているに過ぎないことにも留意されたい。これらの図は、本発明を網羅的に説明するものとして、または本発明の範囲に対する限定として意図されたものではない。加えて、本発明の特定の実施形態に関連付けて説明される局面は、必ずしもその実施形態に限定されるものではなく、本発明の他のいずれかの実施形態においても実施され得る。

いくつかの実施形態の目的は、データ駆動型状態フィードバック最適コントローラを用いてマシンの動作を制御するためのシステムおよび方法を提供することである。いくつかの実施形態の別の目的は、安全性制約を受けるマシンを制御するのに適したこのようなコントローラを提供することである。このようなデータ駆動型最適コントローラの一例は、強化学習（ＲＬ）を用いて、被制御マシンの動作中に得られたデータに基づいて制御ポリシーを決定するとともに、スーパーバイザを用いて、制御の安全な動作に関するフィードバックをＲＬベースのコントローラに提供する。

図１Ａは、システム１０９にフィードバックする一般的なＲＬコントローラ１００の例を示す。コントローラはコマンド１０６をシステムに渡し、当該システムは当該コマンドに従ってアクションを実行する。システムが線形である場合、当該システムは差分方程式に従ってモデル化することができる。

ここで、ｘはシステム状態を含むベクトルであり、ｕはコマンドのベクトルであり、ｗは外乱のベクトルである。システムが非線形である場合、当該システムは、大多数の実用目的のために線形システムとしてモデル化することができる。ＲＬコントローラは、システムからフィードバック信号１１２を受信する。当該フィードバック信号１１２は、概してシステム状態およびコマンドベクトルの両方の関数であるものの、概して未知であるので外乱入力ベクトルの関数ではない。コントローラは、フィードバックに従ってコマンドを修正する。概して、フィードバックｑ（ｔ）は上述のすべてのベクトルの関数である。

システム１０９は出力が制約されており、これは、出力１１５が制約を受けることを意味する。出力は、システム状態ベクトル、コマンドベクトル、および外乱入力ベクトルの線形結合として数学的に記述することができる。

出力はベクトルであり、それが受ける制約は集合としてモデル化される。図１Ｂは、２次元出力ベクトル１２０と１組の軸に対してプロットされた制約集合１２３とを示す。これらの軸は一緒に、出力を記述するベクトル空間の基礎を形成する。ここで、

を軸１２１に平行なベクトルをとし、

を軸１２２に平行なベクトルをとする。さらに、出力ｙ（ｔ）は以下のように表わすことができる。

ここで、ｙ_１（ｔ）およびｙ_２（ｔ）は適切に値付けされたスカラーである。安全な動作のために、出力は制約集合１２３に留まらなければならない。数学的には、制約は線形不等要件として表わされる。

これは、制約を幾何学的に表わす多面体または多角形を表わす。

ＲＬで用いられるアルゴリズムは、概して、制約違反を防ぐものではない。従来のＲＬアルゴリズムは、割引された報酬の蓄積を最大化することを目的とした試行錯誤プロセスにより機能する。

ここで、ｒ（ｔ）は報酬関数であり、γ＜１は正の割引係数である。図１Ａは、フィードバック１１２を取得して報酬を計算する関数の出力として報酬１１３を示す。試行錯誤プロセスはポリシーπ_θを決定するように機能する。ポリシーπ_θは、フィードバック１１２をコマンド１０６にマッピングし、何らかのパラメータベクトルθによってパラメ－タ化される関数である。当該ポリシーはフィードバックをコマンドにマッピングする関数である。

図１Ｃは、本発明に従ったＲＬコントローラの一般的な動作を示す。システムの各サンプル時間ｔ中、報酬１３２がＲＬアルゴリズム１３４に送られ、ＲＬアルゴリズム１３４がパラメータベクトルθを決定して、ポリシー１３６をパラメータ化して、π_θとする。フィードバック信号１３０は、ポリシー１３６によって制御コマンド１３８に変換される。

本発明の背景にある主な概念は、制約違反の危険性を測定するコスト関数ｃ（ｔ）を差し引いた報酬関数となるように報酬関数ｒ（ｔ）を修正することである。したがって、更新済み報酬は以下のとおりである。

コスト関数ｃ（ｔ）は、スーパーバイザと称されるアドオン要素によって決定される。

図２Ａは、本発明の実施形態に従った、強化学習コントローラによってシステムを制御するための制御システム２０において用いられる安全スーパーバイザ方式（方法）を示す図である。

図２Ａは、ＲＬコントローラ２００と制約システム２０９との間に配置されたスーパーバイザ２０３を含む制御システム２０を示す。スーパーバイザ２０３は、システム２０９から状態測定値または推定値２２０を取得し、所望の安全性マージンを計算する。当該所望の安全性マージンは、ペナルティ２１７に変換されるとともに、修正済み報酬２１３を得るために報酬計算２１８に送られる。同時に、スーパーバイザは、コマンド２０６が非安全であったと見なされた場合、安全コマンド２１６を送信する。安全コマンドは、最適化（ＳＯ）に従って決定される非安全コマンドの変形例であって、

以下の制約

を受け、この場合、ｋ＝０，…，Ｎ－１であり、さらに以下の制約

を受ける。

項ｙ（ｋ｜ｔ）は、力学に従った時間ｔにおけるｙ（ｔ＋ｋ）の予測値である。

ここで、初期条件ｘ（０｜ｔ）＝ｘ（ｔ）はシステムから得られ、ｕ（０｜ｔ）＝ｕ（ｔ）はＲＬコントローラから得られる。

という項は、確率βで設定された外乱のサポートである。この集合は集合

であって、

を満たす。このため、

は、

の解となり、

という制約を受ける。

（ＳＯ）問題における乗算係数αは、コストｃ（ｔ）のサイズを変更するスケーリング係数である。上述においては、ｋ、Ｎは整数であり、ｔはシステムの現在時刻である。

（ＳＯ）問題に対する解は、システムモデルに従って制約内にシステムを維持するのに必要な最小限の労力である。システムモデルは完全ではないので、ＲＬはより最適な制御を得る必要がある。さらに、ＲＬは制約を処理することができないので、スーパーバイザ（またはスーパーバイザアルゴリズム）がＲＬに制約違反を通知する必要がある。このように、ＲＬアルゴリズムおよびスーパーバイザの機能は互いに対して相補的である。スーパーバイザはモデルベースであり、比較的単純な計算により線形モデルに従って最適値を決定することができる。たとえば、スーパーバイザの場合、ゼロ労力集合に戻すのに必要な最大ステップ数であるＮの値に関して厳密な範囲を得ることができる。Ｎを得るために、システム力学に従って状態をＣＩＳに戻し得るとともに設定されたメンバシップ制約Ｓｙ（ｔ）≦ｓを満たし得るコマンドｕ（ｔ）が存在するすべてのシステム状態ｘ（ｔ）の集合である制御不変集合（ＣＩＳ）を計算する。従って、ＣＩＳにない状態の場合、システムが最終的に制約に違反することが確実となる。

ＣＩＳを計算する一方法は、制約の実施を保証するとともにこれをｘ軸上に投影する初期の状態およびコマンドのすべての組合わせの集合を計算することである。結果として得られた集合が投影によって成長しなくなると限界Ｎが見出された。具体的には、集合

を定義することによってＣＩＳを計算し、さらに、集合

を再帰的に計算する。

ＣＩＳは、ｘ軸に対する

の投影である。ステップｋにおける投影がステップｋ－１における投影と同じサイズである場合、Ｎ＝ｋ－１と設定する。実用上、投影の差が無視できるほどわずかであると見なされる場合、アルゴリズムを少し早めに停止することができる。

ＣＩＳ集合が存在するということは、状態がＣＩＳ内にあり得ないので、（ＳＯ）問題に対する解が存在しない場合があることを意味する。さらに、状態がＣＩＳ外にある場合、（ＳＯ）問題に対する解が存在しないので、モデルに従って、システムが必然的に制約に違反することとなるだろう。これが生じた場合、ペナルティをｃ（ｔ）＝－Ｇに設定する。ここで、Ｇは、起こり得る他のいずれのペナルティよりも大きい非常に大きな数であり、修正されたコマンドを決定するための手順を実行する。

ゼロ労力集合自体は、（ＳＯ）問題に対する解が無い場合の状態の集合である。この集合は線形不等式の集合として特徴付けることができる。

この場合、ｋ＝０，…，Ｎ^＊である。これまでのところ、Ｎ^＊を計算する方法は分かっていないが、その値が有限であって線形系の減衰率に関連することが分かっている。したがって、線形系の整定時間よりもはるかに大きなＮ^＊を選択する。

図２Ｂは、本発明の実施形態に従った安全性スーパーバイザアルゴリズムを示すフローチャートである。図２Ｂは、制御装置の安全性スーパーバイザアルゴリズムの関数を決定する手順を説明する。スーパーバイザは、状態２４０を取得し、（ＳＯ）問題２４１を解決しようと試みる。解が存在する場合、スーパーバイザはペナルティｃ（ｔ）を問題２４４の解に設定し、ＲＬコントローラから受信したコマンドをシステム２４５に渡す。解が存在しない場合、それは、制約に違反する可能性が非常に高くなるであろうことを意味する。したがって、スーパーバイザは、ペナルティｃ（ｔ）を最大ペナルティ２４２に設定し、ＲＬコントローラから受信したコマンドを修正し、修正したコマンドをシステム２４３に渡す。

何らかの実験の後、安全コマンドがランダムに選択されるべきであることが分かった。コマンドが非安全であると見なされる場合、これは、当該コマンドを適用することが制約違反につながるであろうことを意味する。わずかに修正されたコマンドを適用しても、制約に違反するリスクが大幅に低減されるわけではない。さらに、非安全領域の近傍内にとどまることで、起こり得る領域がすべて、ＲＬコントローラによって探索されるわけではない。したがって、代わりに、極端な対策を講じて、制約を満たすコマンドをランダムにサンプリングする。これは、ヒット・アンド・ラン（hit-and-run）技術を用いて行なわれる。さらに、コマンドのシーケンス

を生成する。これは、以下の制約を満たす。

次いで、ランダムなシーケンス

を選択し、

を設定する。この場合、

であり、いずれの場合も、ｋ＝０，…，Ｎ－１、ｋ′＝０，…，Ｎ^＊であり、何らかのスカラーλとなる。次いで、上述の制約を満たす最小のλを見出す。上述を繰返してｕ_２，ｕ_３，…のシーケンスを発見する。ｕ_ｋの場合、

であることが確実であるので、ｕ_ｋのシーケンスは真にランダムとなり、制約を一様にランダムにサンプリングすることとなるだろう。

本発明のいくつかの実施形態に従うと、マシンの連続状態空間における状態制約を受けるとともに当該マシンの連続制御入力空間における制御入力制約を受ける当該マシンの動作を制御するための制御システムまたは制御装置が実現される。この目的のために、システムまたは装置は、マシンの状態を示すデータを受付けるための入力インターフェイスと、メモリとを備え、当該メモリは、当該状態制約と、制御不変集合（ＣＩＳ）内のマシンの状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、当該制御ポリシーに従った当該ＣＩＳ内の当該状態を有する当該システムの制御は、当該ＣＩＳ内の当該システムの状態を維持し、当該システムまたは装置はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習（ＲＬ）を繰返し実行するように構成されたプロセッサを備え、当該共同制御および更新を実行するために、この場合、当該プロセッサは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御し、当該状態を有するマシンがＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定し、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するように構成される。

本発明に従った制御システムまたは装置において用いられる制御方法（安全スーパーバイザアルゴリズム）は、工場自動化システムで用いられるマシン、ロボットシステムもしくは車両で用いられるアクチュエータおよびサスペンション、またはプラントシステムに適用することができる。

図３は、本発明の実施形態に従った、安全性スーパーバイザアルゴリズムに基づいたクォータカーモデルを示す概略図である。サスペンションシステムは、複雑なサスペンションシステム力学の単純化されたモデルであるクォータカーモデルに従ってモデル化することができる。たとえば、単純化されたモデルは、サスペンションばねが線形であることを想定している。但し、これは、特にばねが大きく引き伸ばされる場合には当てはまらない。この場合、ばね力は、たとえば、ばね変位に対する三次関係によって、より適切にモデル化される。

以下において、車両サスペンションシステムを例に挙げて説明するが、本発明に従った安全スーパーバイザ（安全スーパーバイザ制御方法）は、車両サスペンションに限定されるものではなく、ロボットシステムまたは工場自動化システムにおいて用いられるアクチュエータおよびサスペンションを制御するために適用することができる。

図３は、クォーターカーの概略図を示しており、サスペンション上に載置された車体質量の４分の１をモデル化するばね上質量３０４と、車両ホイールをモデル化するばね下質量３０５とを備える。平衡状態からのばね上質量高さの変位３０１をｚ_ｓとし、平衡状態からのばね下質量高さの変位３０２をｚ_ｕｓとする。ばね上質量およびばね下質量は、アクチュエータからの作動力Ｆでばね・減衰アセンブリとしてモデル化されるアクティブサスペンションシステム３０６によって接続される。アクチュエータは、搭載コンピュータ３１１上で動作するコントローラによって命令される。このコンピュータ上のアルゴリズムは、力Ｆであるアクチュエータコマンド３１０を決定する。道路３０８と車輪との間の接触は、ばね減衰システムとしてモデル化される。道路３０３の高さをｚ_ｒで示す。システムが質量、ばね、およびダンパの相互接続としてモデル化されるので、その力学は力学方程式の２自由度集合によって与えられる。

これらは線形であるので、これらの方程式は、

とすることによって、所要のフォーマットに変換することができる。さらに、

とする。ここで、Ｋは安定化フィードバックである。すなわち、行列Ａ－ＢＫが安定した行列であるため、ｘ（ｔ）の力学は安定している。行列Ｋは、アクティブサスペンションを制御するように設計された安定化フィードバックコントローラを表わす。我々の意図は、制約のある状態でコントローラを改善するようにＲＬアルゴリズムを用いることである。この説明においては、フィードバック状態ｘ（ｔ）は何らかの計器を用いて直接測定されるものとする。これは、本発明者らによる実験では、全ての状態が測定可能であったことに起因する。しかしながら、実際の用途では、線形可変変位変換器などの変位センサを用いてばね上質量の垂直変位３０１を測定することにより、状態推定値３１２を得るように状態推定器３１３を実装する可能性が高い。規格のフィードバックコントローラは制約に留意して設計されておらず、したがって、ＲＬアルゴリズムは、特に制約が存在する場合にはコントローラ性能を改善させるはずである。

ここで考慮される制約は、圧縮による破断からばねを保護するために、

であり、伸長による破断からばねを保護するために、

であり、車両の乗客の乗り心地を保証するために、

であり、タイヤの圧縮によるホイールの破損を防止するために、

である。ここで、

の項は上述の変数の関数に対する正のスカラー限界である。これらの制約は線形であるので、必要な形態でモデル化することができる。

適用するＲＬアルゴリズムは、連続制御システムに対処する能力を有しているので深層決定方策勾配（ＤＤＰＧ）アルゴリズムである。ＤＤＰＧは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する。サスペンションシステムに適用する場合、クリティックネットワークは、１６０個のニューロンおよび１２０個のニューロンをそれぞれ有する２つの隠れた完全接続層から構成され、アクターネットワークは、１６０個のニューロンおよび１２０個のニューロンをそれぞれ有する２つの隠れた完全接続層と、最適なアクションをサンプリングするためのソフトマックス（softmax）層とから構成される。ＤＤＰＧアルゴリズムの残りの設計のために、デフォルトのハイパーパラメータが用いられた。重要なことには、これがより優れた学習をもたらすので、ＤＤＰＧはそれが学習した最適な制御を適用しない。

代わりに、何らかの色付きノイズ信号で修正された最適な制御を適用する。

ここで、ε_ＯＵは、色つきノイズ（オルンシュタイン・ウーレンベック（Ohrstein-Uhlenbeck）とも呼ばれる）プロセスの出力である。

図４はこの手順の概略を示す。色付きノイズ４０３は、白色ノイズ４０１を入力とする色フィルタ４０２の出力である。ポリシー４０４の出力は最適コマンド４０５である。このコマンドはノイズ４０６と合計される。出力はテストコマンド４０７である。テストコマンド４０７は実際のアクチュエータコマンドではない。コマンドがアクチュエータに渡され得る前に、当該コマンドはスーパーバイザ２０３によってチェックされ、安全性制約に違反すると判定された場合には当該安全性制約に準拠するように修正される必要がある。

図５は、制御システムまたは制御装置において用いられるフル安全ＲＬ方法のステップを示す。アルゴリズムは、一般的なＤＤＰＧアルゴリズム５０１を修正してシステムの安全性を向上させる。最適コマンド５０５がポリシー５０３によって生成される。当該アルゴリズムは、色付きノイズ５０７を最適コマンドに付加してテストコマンドを決定し、（ＳＯ）問題を解決することによって安全性５０９をチェックする。（ＳＯ）問題を解決した結果、解が存在しない場合に最大ペナルティに設定される安全性マージン５１１が得られる。解が存在する場合、これは、テストコマンドが安全であり、アクチュエータコマンド５１７として渡されることを意味する。解が存在しない場合、これは、テストコマンドが非安全であり、このため、アルゴリズムがランダムで安全なアクチュエータコマンドを生成することを意味する。安全アクチュエータコマンドはシステム５１９に渡され、当該システム５１９が測定装置を介してフィードバック信号５２１を戻す。フィードバック信号は、報酬５１３を生成する報酬計算５２３に送られる。安全性マージンが報酬５１５に追加され、修正された報酬がＤＤＰＧアルゴリズムに渡される。

サスペンションシステムに特有の実装の詳細を以下に説明する。最大化することが所望される報酬関数として、乗り手の快適性が挙げられる。

換言すれば、ばね上質量快適性の動きが最小限にされることが所望される。上述の通り、乗り手の快適性は±ｆ_ｓの間に制約される。これは、報酬もこれらの境界間に制約されることを意味する。ＣＩＳの計算、および安全ＲＬアルゴリズムの応用例の実験により、（ＳＯ）問題におけるスケーリング係数αを最適に選択することで、コストｃ（ｔ）が常に±ｃ_ｂの間に収まることが確実となることを見出した。ここで、ｃ_ｂはコスト関数に対する範囲であり、実験により、

と設定する。

これは、安全へと戻すのに必要な労力がＣＩＳの境界では非常に大きくなり、このため、コストをゼロ労力集合により近づけるために十分に高くすることを確実にするために、スケーリング係数を大きくする必要があるからである。実験により、最大ペナルティＧが常にｃ_ｂの値の約２倍になる、すなわち、

になるはずであることが判明した。

最大ペナルティが大きすぎる場合、ＲＬアルゴリズムの学習プロセスに支配的な影響を及ぼし、アルゴリズムが、制約を過度に回避するコマンドを生成してしまう。したがって、（ＳＯ）問題に対して実現可能な最大限の大きさの解になるようにＧを選択することが適切である。

図６は、本発明のいくつかの実施形態に従った、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御する制御システム（装置）６００のブロック図を示す。システム６００は、キーボード６１１およびポインティングデバイス／媒体６１２と接続可能なヒューマンマシンインターフェイス（human machine interface：ＨＭＩ）６１０、プロセッサ６２０、記憶装置６３０、メモリ６４０、ローカルエリアネットワークおよびインターネットネットワークを含むデータ通信ネットワーク６９０と接続可能なネットワークインターフェイスコントローラ６５０（network interface controller：ＮＩＣ）、制御入力６７５をマシンに送信するための制御インターフェイス６７０を含み得る。制御システム６００は、ＮＩＣ６５０に接続されたネットワーク６９０を介してマシン６９５の状態を示すデータを受信し得る。記憶装置６３０は、強化学習（ＲＬ）アルゴリズム（プログラム）６３１と、スーパーバイザアルゴリズム６３３と、ＲＬおよびスーパーバイザアルゴリズム６３４についての報酬関数、コスト関数、および最大ペナルティパラメータと、システム６００上の制約６３２を記述する不等式と、ゼロ労力集合６３５を記述する不等式とを含む。ポインティングデバイス／媒体６１２は、コンピュータ可読記録媒体に格納されたプログラムを読出すモジュールを含んでもよい。

したがって、本発明のいくつかの実施形態は、マシンの連続状態空間における状態制約を受けるとともにマシンの連続制御入力空間における制御入力制約を受けるマシンの動作を制御するためのコンピュータ実施方法を提供し得る。この場合、当該方法は、マシンの状態を示すデータを受付けるステップと、当該状態制約と、制御不変集合（ＣＩＳ）内の当該マシンの当該状態を当該制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、当該制御ポリシーに従った当該ＣＩＳ内の当該状態を有する当該マシンの制御は、当該ＣＩＳ内の当該マシンの状態を維持し、当該方法はさらに、当該マシンを共同制御するとともに当該制御ポリシーを更新するために強化学習（ＲＬ）アルゴリズムを繰返し実行するステップを含み、当該共同制御および更新を実行するために、当該繰返し実行するステップは、当該制御ポリシーを用いて生成された制御入力のシーケンスと当該制御入力のシーケンスに対応する当該マシンの状態のシーケンスとを含むデータを収集するように、当該制御ポリシーを用いてマシンを制御するステップと、当該状態を有するマシンがＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、当該制御入力のシーケンスおよび当該マシンの当該状態のシーケンスの報酬関数を用いて当該マシンの当該状態に対する当該制御ポリシーの質についての報酬を決定するステップと、当該決定された報酬に従って当該マシンの動作のコスト関数を改善させる当該制御ポリシーを更新するステップとを含む。場合によっては、コンピュータ実施方法は、車両のサスペンションシステム（複数のサスペンションシステム）を制御するために用いることができる。

以上、車両サスペンションシステムを例に説明してきたが、本発明に従った安全スーパーバイザ（安全スーパーバイザ制御方法）は、車両サスペンションに限定されるものではなく、ロボットシステムまたは工場自動化システムにおいて用いられる制御アクチュエータおよびサスペンションに適用することができる。

本発明の上述の実施形態は多数の方法のうちいずれかで実現可能である。たとえば、これらの実施形態は、ハードウェア、ソフトウェア、またはそれらの組合わせを用いて実現され得る。ソフトウェアで実現する場合、ソフトウェアコードは、単一のコンピュータに設けられるかまたは複数のコンピュータに分散されるかに関わらず、任意の適切なプロセッサまたはプロセッサ集合の上で実行することができる。このようなプロセッサは、集積回路構成要素内に１つ以上のプロセッサを備える集積回路として実現され得る。しかしながら、プロセッサは、任意の適切なフォーマットの回路を用いて実現されてもよい。

また、本発明の実施形態は、一例が上述において提供された方法として具現化されてもよい。当該方法の一環として実行される動作は任意の適切な方法で順序付けられてもよい。したがって、いくつかの動作が図示とは異なる順序で実行される実施形態が構築されてもよく、当該実施形態は、例示的な実施形態では順次的な動作として示されていたとしても、いくつかの動作を同時に実行することを含んでもよい。

請求項の要素を修飾するための、請求の範囲における「第１」、「第２」などの順序を表わす用語の使用は、それ自体が、別の請求項の要素に対する１つの請求項の要素の任意の優先順位、優位度もしくは順序を暗示するものではなく、または、方法の動作が実行される時間的順序を暗示するものではなく、請求項の要素を区別するために、ある名称を有する１つの請求項の要素を、（順序を表わす用語を用いる場合を除いて）同じ名称を有する別の要素から区別するために単にラベルとして使用される。

本発明を好ましい実施形態の例として説明してきたが、本発明の精神および範囲内で、他のさまざまな適合および修正がなされ得ることが理解されるはずである。

したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるすべてのそのような変形例および修正例を網羅することである。

Claims

マシンの連続状態空間における状態制約を受けるとともに前記マシンの連続制御入力空間における制御入力制約を受ける前記マシンの動作を制御するためのシステムであって、
前記マシンの状態を示すデータを受付けるための入力インターフェイスと、
メモリとを備え、
前記メモリは、前記状態制約と、制御不変集合（ＣＩＳ）内の前記マシンの前記状態を前記制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するための最適化問題を格納するように構成されており、
前記制御ポリシーに従った前記ＣＩＳ内の前記状態を有する前記マシンの制御は、前記ＣＩＳ内の前記マシンの前記状態を維持し、
前記システムはさらに、前記マシンを共同制御するとともに前記制御ポリシーを更新するために強化学習（ＲＬ）アルゴリズムを繰返し実行するように構成されたプロセッサを備え、
前記共同制御および更新を実行するために、前記プロセッサは、
前記制御ポリシーを用いて生成された制御入力のシーケンスと前記制御入力のシーケンスに対応する前記マシンの状態のシーケンスとを含むデータを収集するように、前記制御ポリシーを用いて前記マシンを制御し、
前記状態を有する前記マシンが前記ＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、前記制御入力のシーケンスおよび前記マシンの状態のシーケンスの報酬関数を用いて、前記マシンの前記状態に対する前記制御ポリシーの質についての報酬を決定し、
前記決定された報酬に従って前記マシンの動作のコスト関数を改善させる前記制御ポリシーを更新するように構成され、
前記メモリは、前記マシンの前記状態を取得するとともに所望の安全性マージンを計算するスーパーバイザアルゴリズムを含み、
前記スーパーバイザアルゴリズムは、前記ＲＬアルゴリズムが非安全であると見なされるコマンドを生成する場合、安全コマンドを生成し、
前記安全コマンドは、最適化（ＳＯ）に従って非安全コマンドを修正したものであり、

αはスケーリング係数であり、ｋ、Ｎは整数であり、ｔは前記システムの現在時刻である、システム。
前記ＲＬアルゴリズムは、深層決定方策勾配（ＤＤＰＧ）アルゴリズムである、請求項１に記載のシステム。
前記ＤＤＰＧアルゴリズムは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、前記推定された長期値に従って最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する、請求項２に記載のシステム。
前記報酬関数は、前記報酬関数から前記コスト関数を減算することによって更新済み報酬に修正され、前記更新済み報酬は、

によって表わされ、

は前記更新済み報酬であり、ｒ（ｔ）は前記報酬関数であり、ｃ（ｔ）は前記コスト関数であり、ｔは前記システムの現在時刻である、請求項１に記載のシステム。
前記スケーリング係数αは、コストｃ（ｔ）が±ｃ_ｂの間にあるように選択される、請求項１に記載のシステム。
前記ＲＬアルゴリズムを実行するための最大ペナルティＧは、

の値の約２倍である、請求項１に記載のシステム。
前記マシンは、車両のサスペンションシステムである、請求項１に記載のシステム。
マシンの連続状態空間における状態制約を受けるとともに前記マシンの連続制御入力空間における制御入力制約を受ける前記マシンの動作を制御するためのシステムにおけるコンピュータ実施方法であって、
前記マシンの状態を示すデータを受付けるステップと、
メモリに格納された最適化問題を用いて、前記状態制約と、制御不変集合（ＣＩＳ）内の前記マシンの前記状態を前記制御入力制約を満たす制御入力にマッピングする制御ポリシーとを満たす状態およびアクションの対の安全性マージンを計算するステップとを含み、
前記制御ポリシーに従った前記ＣＩＳ内の前記状態を有する前記マシンの制御は、前記ＣＩＳ内の前記マシンの前記状態を維持し、
前記コンピュータ実施方法はさらに、前記マシンを共同制御するとともに前記制御ポリシーを更新するために強化学習（ＲＬ）アルゴリズムを繰返し実行するステップを含み、
前記共同制御および更新を実行するために、前記繰返し実行するステップは、
前記制御ポリシーを用いて生成された制御入力のシーケンスと前記制御入力のシーケンスに対応する前記マシンの状態のシーケンスとを含むデータを収集するように、前記制御ポリシーを用いて前記マシンを制御するステップと、
前記状態を有する前記マシンが前記ＣＩＳ内に留まるのに必要な最小労力量として決定される適合条件で増大させた、前記制御入力のシーケンスおよび前記マシンの状態のシーケンスの報酬関数を用いて前記マシンの前記状態に対する前記制御ポリシーの質についての報酬を決定するステップと、
前記決定された報酬に従って前記マシンの動作のコスト関数を改善させる前記制御ポリシーを更新するステップとを含み、
前記メモリは、前記マシンの前記状態を取得するとともに所望の安全性マージンを計算するスーパーバイザアルゴリズムを含み、
前記スーパーバイザアルゴリズムは、前記ＲＬアルゴリズムが非安全であると見なされるコマンドを生成する場合、安全コマンドを生成し、
前記安全コマンドは、最適化（ＳＯ）に従って非安全コマンドを修正したものであり、

αはスケーリング係数であり、ｋ、Ｎは整数であり、ｔは前記システムの現在時刻である、コンピュータ実施方法。
前記ＲＬアルゴリズムは、深層決定方策勾配（ＤＤＰＧ）アルゴリズムである、請求項８に記載の方法。
前記ＤＤＰＧアルゴリズムは、所与のポリシーについての長期値を推定するためのクリティックネットワークと、前記推定された長期値に従って最適なアクションをサンプリングするためのアクターネットワークとの両方を学習する、請求項９に記載の方法。
前記報酬関数は、前記報酬関数から前記コスト関数を減算することによって更新済み報酬に修正され、前記更新済み報酬は、

によって表わされ、

は前記更新済み報酬であり、ｒ（ｔ）は前記報酬関数であり、ｃ（ｔ）は前記コスト関数であり、ｔは前記システムの現在時刻である、請求項８に記載の方法。
前記スケーリング係数αは、コストｃ（ｔ）が±ｃ_ｂの間にあるように選択される、請求項８に記載の方法。
前記ＲＬアルゴリズムを実行するための最大ペナルティＧは、

の値の約２倍である、請求項８に記載の方法。
前記マシンは、車両のサスペンションシステムである、請求項８に記載の方法。