JP7183446B2

JP7183446B2 - 機械の動作を制御する装置及び方法、並びに記憶媒体

Info

Publication number: JP7183446B2
Application number: JP2021551996A
Authority: JP
Inventors: チャクラバルティ、アンクシュ; クィリネン、リーン; ダニエルソン、クロース; ガオ、ウェイナン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-03-06
Filing date: 2019-10-02
Publication date: 2022-12-05
Anticipated expiration: 2039-10-02
Also published as: EP3935580A1; EP3935580B1; US20200285209A1; CN113498523B; JP2022513416A; WO2020179116A1; CN113498523A; US11106189B2

Description

本発明は、包括的には、システム制御に関し、より具体的には、制約された機械のモデルフリー制御用の方法及び装置に関する。

制御システム工学の制御理論は、技術プロセス及び機械において中断せずに動作する動的システムの制御を扱う数学の副分野である。遅延又はオーバーシュートのない最適な方法で制御動作を使用して、このようなシステムを制御し、制御の安定性を確保するために制御方策を開発することが、その目的である。

例えば、モデル予測制御（ＭＰＣ）等の最適化ベースの制御推定技法によって、システムのダイナミクス及び制約を直接考慮できるモデルベースの設計フレームワークが可能となる。ＭＰＣは、さまざまな複雑さを有する動的システムを制御する多くの応用で使用される。このようなシステムの例には、生産ライン、自動車エンジン、ロボット、数値制御機械加工、衛星、及び発電機がある。しかし、制御されたシステムの解析モデルは、利用できない、リアルタイムで更新するのが難しい、又は不正確であることが多い。このようなケースの例は、ロボット工学、ビル制御（ＨＶＡＣ）、車両、スマートグリッド、ファクトリーオートメーション、輸送、セルフチューニングマシン、及び交通ネットワークで頻繁に見られる。

動的システムの正確なモデルがない場合、一部の制御方法では、システムダイナミクスを安定化させるか、又は定量化できる制御関連の性能を組み込むフィードバック制御方策を構築するために、これらのシステムによって生成された運用データを活用する。データを使用して制御方策を設計することは、データ駆動型制御と呼ばれる。データ駆動型制御法には、最初にシステムのモデルを構築してから、次に、そのモデルを活用してコントローラを設計する間接的方法と、中間のモデル構築のステップなしに、データから制御方策を直接構築する直接的方法との２種類がある。間接的方法には、モデル構築段階でデータを大量に必要とする可能性があるという、欠点がある。逆に、直接的方法では、必要とされるデータは少なくなる。しかし、最先端の直接制御方法であっても、閉ループ制御システムで安全な動作を持続させるのに不可欠な状態制約及び入力制約を処理するのは困難である。

例えば、強化学習（ＲＬ）は、ある環境下で、累積報酬の或る概念を最大化するよう（すなわち、累積損失／コストを最小化する）ために、どのような行動を取るかに関係する機械学習の分野である。強化学習は、連続状態入力空間での最適制御と密に関連しており、主として、最適制御方策の存在及び特性評価に関係し、並びに制御されるシステム及び／又は環境の数学的モデルがない場合での計算アルゴリズムに関係している。

しかし、現行のＲＬ法は、制約のあるシステムのデータ駆動型制御には適していない。これは、従来のＲＬ法では、連続状態行動空間における状態制約及び入力制約の満足度が考慮されていないからである。すなわち、従来のＲＬは、制御入力で動作する制御されるシステムの状態が、動作を通じて状態制約及び入力制約を満たすことを保証できない。従来のＲＬの問題として、探索段階中、ＲＬが様々な入力でシステムを摂動させて、制御入力に対応する状態を学習することがある。さらに、システムをより的確に学習する上で、潜在的な制約の物理的境界に近づく制御入力を使用することが有益である。モデルがないことにより、任意に選択された制御入力、及び／又は境界値を持つ制御入力によって、システム状態が指定された状態制約集合の外側の領域に向かわない、すなわち、状態制約に違反しないという保証がなくなる。

したがって、連続空間で定義される状態制約及び制御入力制約を受けるシステムのモデルフリー／データ駆動型制御のためのシステム及び方法が必要である。

幾つかの実施の形態の目的は、状態制約及び制御入力制約を受ける機械のモデルフリーのデータ駆動型制御のためのシステム及び方法を提供することである。また、幾つかの実施の形態の目的は、システムの連続状態空間における状態制約の満足を保証する、及び／又は、連続制御入力空間における制御入力制約の満足を保証するよう、強化学習（ＲＬ）の幾つかの原理を拡張する方法を提供することである。

幾つかの実施の形態は、機械の連続状態空間で状態制約を受け、かつ機械の連続制御入力空間で制御入力制約を受ける機械の動作を制御するための制御問題を、状態制約を満たす機械の状態の制約許容不変集合（ＣＡＩＳ：constraint admissible invariant set）内に状態を有する機械の制御問題として定式化することができるという認識に基づいている。ＣＡＩＳは、対応する制御方策に結合するか、又は関連付けられており、この制御方策では、機械がＣＡＩＳ内にあり、さらに、この制御方策に従って制御されている場合、機械の状態はＣＡＩＳで維持されることが保証され、これにより、このような制御は常に制約を満たすことが保証される。しかし、ＣＡＩＳは通常、機械のモデルに基づいて決定されるため、本発明者らの知るところでは、機械の動作を観察することによってオンラインで取得したデータに基づいて、ＣＡＩＳを決定できる方法はない。

幾つかの実施の形態は、機械の状態が、任意の準最適制御方策に関連付けられた任意の準最適ＣＡＩＳ内にあり、その任意の準最適ＣＡＩＳが状態制約を満たす場合、制約に違反する恐れなく、この準最適制御方策で機械を安全に制御するという認識に基づいている。幾つかの実施の形態は、このような準最適制御中に収集されたデータを使用して、準最適ＣＡＩＳ及び準最適制御方策を改善できるという理解に基づいている。さらに、幾つかの実施の形態は、幾つかのＲＬ原理を使用して、このような準最適ではあるが、安全な制御を繰り返し更新することで、機械の制約に違反することなく、機械の動的モデルについて知る必要なしに、制約のある機械の制御のための最適制御方策へと漸近的に収束するという実験及び数学的証明により裏付けられた理解に基づいている。

具体的には、幾つかの実施の形態は、線形機械のためのＲＬ法の価値関数及び制御方策の更新が、方策及び／又は価値反復法による反復解を含むという認識に基づいている。このような解を使用することで、価値関数の推定値を更新し、機械の制御中に収集されたデータを使用して、制御方策を改善できる。さらに、幾つかの実施の形態は、状態及び制御入力に対する制約を満たすよう、機械の制御された性能に関連する最適化問題の解を要求する制御される機械に対する制約に基づいて、このような方策反復を変更できるという理解に基づいている。制約を受ける方策反復は、本明細書では制約付き方策反復と称する。また、その制約付き方策反復は、準最適ＣＡＩＳに関連付けられた準最適制御方策による安全制御中に収集されたデータを使用して、反復的に解くことができ、制約付き方策反復の解を使用して、準最適ＣＡＩＳ及び準最適制御方策を改善することもできる。改善された制御方策及び改善されたＣＡＩＳは、機械の安全な制御のために更に使用することができ、その改善された制御から収集されたデータによって、制御方策及びＣＡＩＳを更に改善することができる。この結果、準最適ＣＡＩＳに関連付けられた準最適制御方策による機械の反復制御、並びに制約付き方策反復を解くことによる収集データに基づく準最適制御方策及び準最適ＣＡＩＳの更新によって、最終的に最適な制御方策及び最適なＣＡＩＳが保証された安全な方法で生成される。

このために、幾つかの実施の形態は、準最適ＣＡＩＳ及び制御方策から開始して、機械の制御並びにＣＡＩＳ及び制御方策の更新を共同実行する。例えば、制御及び更新を共同実行するために、幾つかの実施の形態では、制御方策を使用して機械を制御して、制御方策を使用して生成された制御入力のシーケンスと、制御入力のシーケンスに対応するＣＡＩＳ内の機械の状態のシーケンスとを含むデータを収集し、収集されたデータを使用して制約付き方策反復を解くことにより、ＣＡＩＳ、価値関数、及び制御方策を更新する。方策反復に対する制約は、状態制約及び制御入力制約の関数である。

１つの実施の形態では、終了条件が満たされるまで、制御及び更新の共同実行を繰り返すように構成される。終了条件は、例えば制御の終了とすることができる。また、１つの実施の形態は、終了条件に達すると、最適な制御方策を生成し、その後、最適な制御方策を使用して機械を制御する。

したがって、１つの実施の形態は、システムの連続状態空間における状態制約を受け、システムの連続制御入力空間における制御入力制約を受ける機械の動作を制御する装置を開示する。装置は、状態制約を満たすシステムの状態の制約許容不変集合（ＣＡＩＳ）、及びＣＡＩＳ内のシステムの状態を、制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶するよう構成されるメモリであって、対応する制御方策に従うＣＡＩＳ内の状態を持つ前記システムの制御によって、ＣＡＩＳ内のシステムの状態を維持するメモリと、システムの状態を示すデータを受容する入力インターフェースと、プロセッサであって、機械の制御、並びにＣＡＩＳ及び制御方策の更新を共同実行するよう構成され、制御及び更新の共同実行するために、プロセッサは、制御方策を使用してシステムを制御して、制御方策を使用して生成された制御入力のシーケンス、及び制御入力のシーケンスに対応するＣＡＩＳ内のシステムの状態のシーケンスを含むデータを収集し、収集されたデータを使用して制約付き方策反復を実行して、ＣＡＩＳ、及び対応する制御方策を更新するよう構成され、制約付き方策反復を実行するために、プロセッサは、制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応するシステムの状態の更新後の価値関数を生成し、更新後の価値関数は、機械の動作のコスト関数を改善させ、更新後のＣＡＩＳは、状態制約及び制御入力制約の満足を強制し、制約付き方策改善を実行して、更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、動作のコスト関数を改善させる更新後の制御方策を生成するよう構成されるプロセッサとを備える。

別の実施の形態は、システムの連続状態空間における状態制約を受け、システムの連続制御入力空間における制御入力制約を受ける機械の動作を制御する方法であって、方法は、状態制約を満たすシステムの状態の制約許容不変集合（ＣＡＩＳ）、及びＣＡＩＳ内のシステムの状態を、制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶するメモリに結合するプロセッサを使用し、対応する制御方策に従うＣＡＩＳ内の状態を持つシステムの制御によって、ＣＡＩＳ内のシステムの状態を維持し、プロセッサは、方法を実施する記憶済み命令と結合され、命令は、プロセッサによって実行されると、方法の少なくとも幾つかのステップを実行し、ステップは、システムの状態を示すデータを受容するステップと、制御方策を使用してシステムを制御して、制御方策を使用して生成された制御入力のシーケンス、及び制御入力のシーケンスに対応するＣＡＩＳ内のシステムの状態のシーケンスを含むデータを収集するステップと、収集されたデータを使用して制約付き方策反復を実行して、ＣＡＩＳ、及び対応する制御方策を更新するステップとを含み、制約付き方策反復は、制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応するシステムの状態の更新後の価値関数を生成することであって、更新後の価値関数は、機械の動作のコスト関数を改善させ、更新後のＣＡＩＳは、状態制約及び制御入力制約の満足を強制することと、制約付き方策改善を実行して、更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、動作のコスト関数を改善させる更新後の制御方策を生成することとを含む、方法を開示する。

更に別の実施の形態は、方法を実行するプロセッサで実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、媒体は、状態制約を満たすシステムの状態の制約許容不変集合（ＣＡＩＳ）、及びＣＡＩＳ内のシステムの状態を、制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶し、対応する制御方策に従うＣＡＩＳ内の状態を持つシステムの制御によって、ＣＡＩＳ内のシステムの状態を維持し、方法は、システムの状態を示すデータを受容することと、制御方策を使用してシステムを制御して、制御方策を使用して生成された制御入力のシーケンス、及び制御入力のシーケンスに対応するＣＡＩＳ内のシステムの状態のシーケンスを含むデータを収集することと、収集されたデータを使用して制約付き方策反復を実行して、ＣＡＩＳ、及び対応する制御方策を更新することとを含み、制約付き方策反復は、制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応するシステムの状態の更新後の価値関数を生成することであって、更新後の価値関数は、機械の動作のコスト関数を改善させ、更新後のＣＡＩＳは、状態制約及び制御入力制約の満足を強制することと、制約付き方策改善を実行して、更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、動作のコスト関数を改善させる更新後の制御方策を生成することとを含む、非一時的コンピュータ可読記憶媒体を開示する。

本発明の幾つかの実施形態に係る、データ駆動型制約付きコントローラ及びフィードバックシステムのブロック図である。幾つかの実施形態に係る、ＣＰＵプロセッサとメモリとを使用して実装されたデータ駆動型コントローラ、及びフィードバックシステムのブロック図である。幾つかの実施形態に係る、機械について定義された状態制約及び制御入力制約の概略図、並びにこれらの制約の数学的記述の図である。幾つかの実施形態に係る、レガシーデータを使用して初期実行可能制御方策に対応する初期制約許容不変集合（ＣＡＩＳ）を取得する方法について説明する概略図である。幾つかの実施形態に係る、ＣＡＩＳを使用した制約許容性を示す概略図である。幾つかの実施形態に係る、ＣＡＩＳを使用した制約許容性を示す概略図である。幾つかの実施形態に係る、制約付き方策反復アルゴリズムで伴う高レベルステップを示す流れ図である。幾つかの実施形態に係る、データを使用してＣＡＩＳ及び制御方策を順番に更新する主要ステップを詳述する流れ図である。幾つかの実施形態に係る、データを使用してＣＡＩＳ及び制御方策を同時に更新する主要ステップを詳述する流れ図である。１つの実施形態に係る、摂動信号発生器を介して探索ノイズを追加するブロック図である。幾つかの実施形態に係る、モデルベース手法とデータ駆動型手法との比較を使用して、半正定値計画を介してＣＡＩＳを更新する制約付き方策評価ステップについて説明する図である。１つの実施形態に係る、バックトラッキング（backtracking）を用いた再帰的最小二乗による反復方策の改善を記述する擬似コードである。幾つかの実施形態に係る、データ駆動型制約付き方策反復用の擬似コードである。幾つかの実施形態に係る、制約付き方策反復における再帰的制約施行、及び従来型方策反復における制約違反を示す概略図である。幾つかの実施形態に係る、制約付き方策反復によって、元のＣＡＩＳの縮小、拡大、及び／又は回転に相当する更新後のＣＡＩＳをどのように生成できるかを示す図である。幾つかの実施形態に係る、種々の最適化フレームワークを使用して、どのように制約付き方策反復を解くことができるかを示す図である。幾つかの実施形態に係る、再帰法を使用して、又はスライディングウィンドウ方式で、どのようにして制約付き方策評価用のデータを収集できるかについて説明する概略図である。幾つかの実施形態の原理を使用するデータ駆動型コントローラを備える車両の概略図である。幾つかの実施形態の原理を使用するデータ駆動型コントローラと、幾つかの実施形態に係る車両１２０１のコントローラとの間の相互作用の概略図である。幾つかの実施形態の原理を使用するデータ駆動型コントローラを使用して、電気機械式モータを制御するためのモータ駆動機のブロック図である。

幾つかの実施形態の目的は、データ駆動状態フィードバック最適コントローラを使用して機械の動作を制御するシステム及び方法を提供することである。幾つかの実施形態の別の目的は、制約を受ける機械を制御するのに適したこのようなコントローラを提供することである。このようなデータ駆動型最適コントローラの一例は、制約付き近似動的計画法（ＡＤＰ）を使用して、制御される機械の動作中に得られたデータに基づいて、制約付き制御方策を決定する。ＡＤＰベース適応制御は、繰り返し実行される。説明をしやすくするため、本開示は、１度の反復内の方法論について述べているが、これは、制御応用で必要とされる限り繰り返すことができる。

図１は、幾つかの実施形態に係る、データ駆動型コントローラ１１０によって制御される機械１２０等の制御される機械の一例を示している。幾つかの実施形態では、データ駆動型コントローラは、機械１２０の動作中に得られたデータ１０２に従って、近似動的計画法を実行する強化学習法を使用する。コントローラは、機械の状態を示すデータ１０２を受容する入力インターフェースを含む。入力インターフェースの例は、有線又は無線通信チャネルを通じて送信されるデータを受容するように構成されたネットワーク制御インターフェースを含む。データ１０２は、現在時刻で取得された、又は以前の時刻から記憶された状態１２１、出力１０３、及び／又は制御入力１１１、並びに、以前及び現在の制御方策による以前及び現在の制約許容不変集合（ＣＡＩＳ）を含むことができる。

状態１２１は、測定値１０３、並びに、状態推定器１３０によって実行される測定値の変換を含むことができる。状態推定器の例は、完全状態フィードバックを利用できる場合のシステムにおける恒等関数Ｉ（ｘ）＝ｘ、又は、出力の導関数を推定して、この導関数から、状態が出力の導関数であるシステムについて、状態推定値を得ることができるローパスフィルタ付き近似微分器を含む。一例として、システム位置の出力を検討する。ここで、状態は、位置、速度、及び加速度（位置の導関数）である。

この機械および制御システムは、安全上の検討事項、物理的制限、及び／又は仕様から生じ、出力、入力、場合によっては、機械の状態も動作が許容される範囲を制限する制約１０４を満たすよう、設計されている。制約１０４は、連続空間内で定義される。例えば、状態制約は機械の連続状態空間内で定義され、制御入力制約は連続制御入力空間内で定義される。

動作中、コントローラは、機械の所望の挙動を示すコマンド１０１を受信する。コマンドは、例えば、機械によって生成される所望のトルク値を含むことができる。コマンド１０１の受信に応答して、コントローラは、機械１２０の制御入力として機能する制御信号１１１を生成する。入力１１１に応答して、機械は、機械の出力１０３を更新する。機械の出力１０３の測定値に基づいて、推定器１３０は、機械の推定状態１２１を更新する。機械の推定状態１２１は、状態フィードバックとしてコントローラ１１０に提供される。

本明細書では、機械１２０とは、入力信号（入力）によって制御できる任意の装置である。入力信号は、電圧、圧力、力等の物理量に関連付けることができる。機械は出力信号（出力）を生成する。出力は、機械の運動を表すことができ、電流、流量、速度、位置等の他の物理量に関連付けることができる。通常、出力は、以前の出力信号の一部又は全て、並びに、以前の入力信号及び現在の入力信号の一部又は全てに関連する。ただし、動作中の機械の制約により、出力された機械の運動を実現できない場合がある。入力及び出力はコントローラによって処理される。

機械１２０の動作は、現在の入力及び以前の入力、並びに以前の出力に応じた経時的な出力の変化を表す一組の方程式によって、モデル化することができる。動作中、機械は機械の状態によって定義できる。機械の状態は、一般的に時間変動であり、モデル及び未来の入力とともに、未来の運動を定義できる情報の任意の集合である。例えば、機械の状態は、現在の入力及び過去の入力、並びに出力の適切な部分集合を含むことができる。

コントローラ１１０は、ハードウェアにおいて、又は、プロセッサ、例えば、マイクロプロセッサにおいて実行されるソフトウェアプログラムとして実施することができる。コントローラ１１０は、固定又は可変の制御期間のサンプリング間隔において、機械１２０の推定状態１２１、及び所望の運動コマンド１０１を受信し、この情報を使用して、機械を動作させる入力、例えば、制御信号１１１を決定する。推定器１３０は、ハードウェアにおいて、又は、コントローラ１１０と同じ又は異なるプロセッサにおいて実行されるソフトウェアプログラムとして実施することができる。推定器１３０は、固定又は可変の制御期間のサンプリング間隔において、機械の出力１０３を受信し、新たな出力測定値及び過去の出力測定値を使用して、機械の推定状態１２１を決定する。

図２Ａは、幾つかの実施形態に係るコントローラのブロック図を示している。機械１２０の推定状態１２１及び出力１０３がコマンド１０１に従うよう、コントローラ１１０は、機械１２０を作動させる。コントローラ１１０は、例えば、制約２１３及び機械の動作に関するデータ２１５を記憶するメモリ２１１に接続された単一の中央処理装置（ＣＰＵ）、又は複数のＣＰＵプロセッサ２０１の形態を取る、コンピュータを含むか、又はこのコンピュータによって動作する。また、メモリ２１１は、状態制約を満たす機械の状態の制約許容不変集合（ＣＡＩＳ）２１７、及びＣＡＩＳ内の機械の状態を、制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶するよう構成され、これにより、対応する制御方策に従うＣＡＩＳ内の状態を持つ機械の制御によって、ＣＡＩＳ内の機械の状態が維持される。

幾つかの実施形態では、以下の動的機械を検討する。

式中、

は、時間インデックスであり、

は、機械の状態であり、

は、制御入力であり、

は、機械の既知の初期状態である。幾つかの実施形態において、制約集合

及び

は、コンパクトな凸集合であり、内部に原点を含む。行列Ａは制御される機械の状態行列を表す。一方、行列Ｂは作動／入力行列を表す。状態行列は状態更新を現状態のみに関連付け、入力行列は状態更新を現制御入力のみに関連付ける；同時に、これは、式（１）のように、機械全体を記述する。行列Ａは未知であり、行列Ｂは既知である。例えば、モータ駆動機では、モータ動態Ａのモデルが未知であるのに対し、制御が電圧チャネルＢを通じて行われるという知識は既知である場合がある。

ＡＤＰの目的は、状態フィードバックコントローラｕ＝Ｋ_∞ｘが、コスト関数

を最小限に抑えつつ、部分的に既知の機械（１）を安定化させるよう、最適制御方策Ｋ_∞を計算することである。式中、Ｑ≧０及びＲ＞０は、ユーザ定義対称行列である。ただし、ペア（Ａ，Ｑ^１／２）は可観測である。最適制御理論では、

によって与えられる価値関数を最小化することで、各時点ｔ≧ｔ_０、及び上記（１）等の離散時間線形機械について、最適な制御動作がもたらされると述べており、これは、離散時間代数リカッチ方程式（ＤＡＲＥ）

を解くために、正定値対称行列Ｐ_∞を見つけることと同等である。Ｐ_∞を解くと、最適な制約なし離散時間最適制御方策が、次の式

によって与えられる。

Ａが未知であるので、（３）及び（４）から、Ｐ_∞又はＫ_∞を直接計算することは実用的ではない。その代わりに、ＡＤＰを使用して、機械の全モデルを知らなくても、オンラインデータを使用して、最適な方策を繰り返し学習できる。ＡＤＰ技法は、方策反復（ＰＩ）及び値反復（ＶＩ）を含む。ｔ回目の反復において、制約なしＰＩ法は、価値関数行列Ｐ_ｔ及び現制御方策Ｋ_ｔを繰り返し使用して、方策評価ステップ

、及び方策改善ステップ

を解いて、制約がない場合では、真の最適制御方策Ｋ_∞へと漸近的に収束する制御方策のシーケンス

を生成する。ＰＩと値反復（ＶＩ）との類似性により、本開示は、ＰＩ法に焦点を当てているが、当業者であれば、制約がない場合、幾つかの実施形態をＶＩ法に拡張することは容易に認識するはずである。また、当業者であれば、制約なし方策反復ステップ（５）及び（６）をデータ駆動式に容易に実施できる。しかし、制約なし方策反復とは対照的に、ＰＩ法に制約を強制することは、連続状態及び制御入力空間では困難であることは良く知られるところであり、本開示の主題とされている。

このために、幾つかの実施形態は、現在及び未来の時間ステップにおいて状態及び入力制約を強制する制約付き方策反復法を使用する。制約付き方策反復は、制約付き方策評価及び制約付き方策改善の組み合わせである。制約付き方策評価は、例えば、以前の時間ステップにおいて得られた測定データのみを使用して、状態及び制御入力制約を満たしつつ、現時点ｔの価値関数行列Ｐ_ｔを最適化することによって、価値関数を更新することを含む。

幾つかの実施形態では、制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応する機械の状態の更新後の価値関数を生成する。更新後の価値関数は、機械の動作のコスト関数を改善させ、更新後のＣＡＩＳは、状態及び制御入力制約の満足を強制する。制約なし方策評価とは対照的に、制約付き方策評価は、制約を満たすことを目的とし、また、ＣＡＩＳを決定、及び／又は改善することも目的としている。これにより、更新後のＣＡＩＳを考慮して、その後の制約付き方策を改善することにより、制御方策を改善することができる。

幾つかの実施形態は、機械の動作のコストの観点から、価値関数の改善を判断できる一方、ＣＡＩＳの改善は、ＣＡＩＳのサイズの観点から判断できるという理解に基づいている。換言すれば、幾つかの実施形態は、ＣＡＩＳのサイズを繰り返し増加させることを目的としている。

このため、幾つかの実施形態では、制約付き方策評価は、多目的最適化を実行して、機械の動作のコスト関数を最小化し、更新後のＣＡＩＳのサイズメトリックを最大化して、更新後のＣＡＩＳ及び対応する更新後の価値関数を生成する。このようにして、ＣＡＩＳが改善、例えば、増加したことにより、制約の満足を保証するようにＣＡＩＳ内のその状態を持つ機械を制御しつつ、制御方策の最適制御への収束を高めることが可能になる。

さらに、制約付き方策改善は、制約付き方策評価ステップにおいて取得した更新後の価値関数を最適化する制約許容制御方策を取得することを含む。幾つかの実施形態では、制約付き方策改善を実行して、更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、動作のコスト関数を改善させる更新後の制御方策を生成する。例えば、幾つかの実施形態では、更新後の制御方策が線形であり、更新後のＣＡＩＳに依存する行列不等式を満たすことを確保する。

図２Ｂは、幾つかの実施形態に係る、コントローラによって強制される制約２１３の概略図を示している。制約２１３は、機械１２０の状態の連続空間内で定義された状態制約

と、機械１２０への制御入力の連続空間内で定義された制御入力制約

とを含む。制約２１３は、例えば、ポリトープ集合２２２によって表すことができる。任意の固定線形制御方策ｕ＝Ｋｘでは、ポリトープ制約集合２２２は、コンパクト表記２３２によって表される。表記２２２及び２３２において、設定ｃ_ｉ＝０は、ｉ番目の制約が制御入力のみに対する制約であることを暗示し、設定ｄ_ｉ＝０は、ｉ番目の制約が機械状態のみに対する制約であることを暗示する。１つの例示的な実施形態では、制約２１３は、状態制約及び制御入力制約の双方を含む。

図３は、幾つかの実施形態に係る、機械の連続状態空間における状態制約を受け、機械の連続制御入力空間における制御入力制約を受ける機械を制御するコントローラ３００のブロック図を示している。コントローラ３００は、機械１２０を他の機械及びデバイスと接続する幾つかのインターフェースを有することができる。ネットワークインターフェースコントローラ３５０は、バス３０６を通じて、コントローラ３００を制御される機械１２０へと接続するネットワーク３９０にコントローラ３００を接続するように適合されている。このため、コントローラは、ネットワーク３９０を通じて制御入力３７５のシーケンスを機械１２０に供給するように構成された出力インターフェース、例えば、制御インターフェース３７０を含む。また、コントローラは、ネットワーク３９０を通じて、機械１２０の状態を示すデータ３９５を受容するように構成された入力インターフェース、例えば、ネットワークインターフェースコントローラ（ＮＩＣ）３５０を含む。また、コントローラ３００は、他の種類の入力及び出力インターフェースも含むことができる。例えば、コントローラ３００は、ヒューマンマシンインターフェース３１０を含むことができる。ヒューマンマシンインターフェース３１０は、コントローラ３００をキーボード３１１及びポインティングデバイス３１２に接続することができる。ポインティングデバイス３１２は、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含み得る。

コントローラ３００は、記憶された命令を実行するように構成されたプロセッサ３２０と、プロセッサによって実行可能である命令を記憶するメモリ３４０とを備える。プロセッサ３２０は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。メモリ３４０は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリマシーンを含むことができる。プロセッサ３２０は、バス３０６を通じて、１つ以上の入出力デバイスに接続することができる。

プロセッサ３２０は、命令を記憶し、命令によって使用されるデータを処理するメモリストレージ３３０に作動的に接続されている。ストレージ３３０は、メモリ３４０の一部を形成するか、又はメモリ３４０に作動的に接続することができる。例えば、メモリストレージは、機械１２０の状態制約及び入力制約を記憶することができる。また、メモリストレージは、状態制約を満たす機械の状態のＣＡＩＳ、及びＣＡＩＳ内の機械の状態を、制御入力制約３３１を満たす制御入力へとマッピングする対応する制御方策を記憶するよう構成される。本明細書で使用する場合、対応する制御方策に従うＣＡＩＳ内の状態を持つ機械の制御によって、ＣＡＩＳ内の機械の状態を維持する。

プロセッサ３２０は、機械の制御、並びにＣＡＩＳ及び制御方策の更新を共同実行するように構成される。このため、制御及び更新の共同実行のために、プロセッサは、制御生成器３３２を実行して、制御方策３３１を使用して機械を制御し、制御方策３３１を使用して生成された制御入力３７５のシーケンス、及び制御入力のシーケンスに対応するＣＡＩＳ内の機械の状態３９５のシーケンスを含むデータを収集し、制約付き方策反復ソルバー３３３を実行して、状態制約及び入力制約の条件下で、ＣＡＩＳ、及び制御方策を更新するように構成される。

幾つかの実施形態は、機械の状態が、任意の準最適制御方策に関連付けられた任意の準最適ＣＡＩＳにあり、その任意の準最適ＣＡＩＳが状態制約を満たす場合、制約に違反する恐れなく、この準最適制御方策で機械を安全に制御するという認識に基づいている。幾つかの実施形態は、このような準最適制御中に収集されたデータを使用して、準最適ＣＡＩＳ及び準最適制御方策を改善できるという理解に基づいている。さらに、幾つかの実施形態は、幾つかのＲＬ原理を使用して、このような準最適ではあるが、安全な制御を繰り返し更新することで、機械の制約に違反することなく、機械の動的モデルについて知る必要なしに、制約のある機械の制御のための最適制御方策へと漸近的に収束するという実験及び数学的証明により裏付けられた理解に基づいている。

具体的には、幾つかの実施形態は、方策反復を使用した線形システムのＲＬ法の方策更新は、代数リカッチ方程式（ＡＲＥ）の反復解法を含むという認識に基づいている。このような解は、制御方策を改善するのに使用することができ、機械の制御中に収集されたデータから見つけることができる。さらに、幾つかの実施形態は、状態制約及び入力制約に関連する制約を受けるＡＲＥの解を要求する制御される機械の制約を基に、このようなＡＲＥを変更できるという理解に基づいている。本明細書では、制約を受けるＡＲＥを、制約付きＡＲＥと称し、この制約付きＡＲＥを使用する方策反復法を制約付き方策反復と称する。また、その制約付きＡＲＥは、準最適ＣＡＩＳに関連付けられた準最適制御方策による安全制御３３２中に収集されたデータを使用して、反復的に解く（３３３）ことができ、制約付きＡＲＥの解を使用して、準最適ＣＡＩＳ及び準最適制御方策を改善することができる。改善された制御方策及び改善されたＣＡＩＳ３３１は、機械の安全な制御のために更に使用することができ、その改善された制御から収集されたデータによって、制御方策及びＣＡＩＳを更に改善することができる。この結果、準最適ＣＡＩＳに関連付けられた準最適制御方策による機械の反復制御、並びに制約付きＡＲＥを解くことによる収集データに基づく準最適制御方策及び準最適ＣＡＩＳの更新によって、最終的に最適な制御方策及び最適なＣＡＩＳが保証された安全な方法で生成される。

そのため、幾つかの実施形態では、準最適ＣＡＩＳ及び制御方策から始めて、機械の制御並びにＣＡＩＳ及び制御方策の更新を共同実行する。例えば、制御及び更新を共同実行するために、幾つかの実施形態は、制御方策を使用して機械を制御し、制御方策を使用して生成された制御入力のシーケンスと、制御入力のシーケンスに対応するＣＡＩＳ内の機械の状態のシーケンスとを含むデータを収集し、収集されたデータを使用して制約付きＡＲＥを解くことにより、ＣＡＩＳ及び制御方策を更新する。ＡＲＥに対する制約は、状態制約及び制御入力制約の関数である。

１つの実施形態は、終了条件が満たされるまで、制御及び更新の共同実行を繰り返すように構成される。終了条件の例は、制御の終了とすることができる。また、１つの実施形態は、終了条件に達すると、最適な制御方策を生成し、その後、最適な制御方策を使用して機械を制御する。

図４Ａは、幾つかの実施形態によって使用されるＣＡＩＳ及び対応する制御方策の原理を示す概略図である。図４Ａは、４０２においてＰ_ｔとρ_ｔによりパラメータ化された時点ｔにおける許容状態空間４１１内のＣＡＩＳ４０１の一例を示している。例示的な閉ループ状態軌道４０３は、機械上で制御入力３７５ｕ_ｔ＝Ｋ_ｔｘ_ｔ、ｕ_ｔ＋１＝Ｋ_ｔｘ_ｔ＋１、．．．を提供する対応する制御方策を使用して生成された状態ｘ_ｔ、ｘ_ｔ＋１、ｘ_ｔ＋２、．．．３９５を含む。軌道４０３の初期状態４０５がＣＡＩＳ４０１にあるとき、状態軌道４０３は常にＣＡＩＳ４０１に制限される。

図４Ｂは、幾つかの実施形態に係る、制約付き方策反復で使用されるべき初期ＣＡＩＳ、及び初期実行可能制御方策Ｋ_０を定義する方法のブロック図を示している。幾つかの実施形態において、機械から得られたレガシー状態及び制御入力データ４２０は、初期ＣＡＩＳ

４４１を構築するために、データ駆動型不変集合推定４３０と併用される。本明細書で規定される様に、ＣＡＩＳは、制御方策ｋ_０４４２の下で、機械（１）のための許容可能状態制約空間

内の非空集合であり、これにより、全ての初期条件

について、次の全ての時点ｔ≧ｔ_０について、次の全ての状態が、

であり、次の全ての制御入力が、

である場合、及びこの場合のみ、制御入力はｕ＝Ｋ_０ｘである。レガシーデータの例は、開ループ又は閉ループ構成における機械の事前の実験で取得された機械からの測定データを含む。事前の実験の例は、人間のオペレーターに微小なランダム摂動を用いて機械を試験させ、手動で制約を強制すること、インパルス／ステップ応答試験後の信号の出力測定値のみを使用してＰＩＤ制御を設計すること、又は機械の低品質モデル、例えば、非線形システムの線形近似に基づいて、一組の行列不等式を解くことを含む。

図５Ａは、ＣＡＩＳを更新し、対応する制約許容制御方策を見つけるために、幾つかの実施形態によって使用される制約付き方策反復法のブロック図である。この方法は、ＣＡＩＳ４４１及び実行可能制御方策４４２による初期化５０１に依存する。これにより、初期及びその後に更新される制御方策４４２、並びに初期状態及びその後に変更される状態、例えば、初期及びその後に更新されるＣＡＩＳ４４１内の状態４０５を用いて、機械の制御中にデータを収集する（５１１）。１つの実施形態において、初期状態は、機械の平衡状態又は定常状態とすることができ、収集されるデータは、機械の状態のシーケンス、及び対応する制御入力のシーケンスである。データを収集すると、ＣＡＩＳは制約付き方策評価５２１で更新され、制御方策は制約付き方策改善５４１で更新され、メモリ３３０に記憶される。これらの２つのステップを合わせて、制約付き方策反復５８１を構成する。学習収束、及び／又は終了条件５５１が満たされるまで、これらのステップは繰り返し実行される。次の反復ごとに、メモリに記憶されている更新後の制御方策３３１で制御されている機械から、データを収集する（５１１）。終了条件の例は、機械制御の終了及び最適制御方策への収束を含む。制約付き方策反復５８１が最適制御方策に収束する場合、収束すると、機械は最適制御方策５６１で制御される。

図５Ｂは、幾つかの実施形態に係る、第ｔの時点における単一の学習反復を示している。実行可能ＣＡＩＳ及び現制御方策５１２が前回の反復において計算されているものと仮定し、最初の反復では、それらは、初期ＣＡＩＳ４４１及び初期制御方策４４２となる。現制御方策５１２により機械を励起させる（５１３）ことによって、データを収集する（５１４）。このデータを使用して、現制御方策が実行可能であるが、最適ではないＣＡＩＳを更新するために、制約付き方策評価問題を解く（５１５）。例えば、制約付き方策評価は多目的最適化を実行し、多目的最適化は、制御される機械の動作のコスト関数、制御される機械の安定性、及び、更新後のＣＡＩＳのサイズメトリックのうちの１つ又はその組み合わせを最適化する。

これにより、制約付き方策改善を使用して、現制御方策を繰り返し更新して（５１６）、制御入力制約を満たし、かつ、５１５において取得された更新後のＣＡＩＳの最適制御方策に収束する制御方策のシーケンスを取得する。制御方策の更新は、機械測定データの収集５１４、及び実行可能制御方策を見つけるためのバックトラッキング５１７を含む。

例えば、幾つかの実施形態は、状態制約及び制御入力制約の満足を確実にしつつ、代数リカッチ方程式の解を見つけることに基づいて、方策評価、及び／又は方策改善を実行できるという認識に基づいている。例えば、１つの実施形態では、状態制約及び入力制約を受ける価値関数に対する代数リカッチ方程式の違反を最小限に抑えるよう、方策評価を実施する。また、１つの実施形態では、状態制約及び入力制約を受ける制御方策に対する代数リカッチ方程式の違反の再帰的最小二乗最小化を使用して制御方策を更新するよう、制約付き方策改善を実施する。また、幾つかの実施形態では、最適制御方策への収束を高めるよう、方策評価及び改善を共同で実施する。

図５Ｃは、ＣＡＩＳ及び制御方策の共同更新５８２が実行される、幾つかの実施形態に係る第ｔの時点における単一の学習反復について説明するブロック図を示している。共同更新において、制約付き方策評価及び方策改善ステップを統合して、単一の制約付き最適化問題を解くことにより、ＣＡＩＳ更新及び制御方策更新を同時に実施できる。本明細書では、複数の目的を同時に改善する解を見つけるために、共同更新を実施する。このような共同更新は、１つの目的を最初に改善してから、定まった最初の目的について、２番目の目的を改善する、複数の目的の代替更新又は順次更新とは対照的である。

図６は、１つの実施形態に係る制御信号を摂動させる方法の概略図を示している。この実施形態では、探索ノイズを使用して、励起の持続性を確保する。例えば、この実施形態では、状態

６０１にある機械について、現制御方策６１１を介して、制御動作

６２１を生成する。摂動信号発生器６４１が、ランダムに生成された微小探索ノイズｖ_ｔ６５１を生成する。これを制御入力６２１に加算することによって、実際の制御信号

６３１が構築される。式（１）の離散時間な機械動態が与えられると、これらの量の間の関係は、

によって与えられる。

したがって、幾つかの実施形態では、

となるよう、

及び

を定義する。

ここで、微小探索ノイズは、分布が有限台を有するランダムノイズを生成する信号発生器６４１によって生成される。このランダムノイズの振幅は、制御入力値

を超えない。摂動ノイズの利点は、機械のモードが持続的に励起して、学習を改善させることを確保することである。

図７は、幾つかの実施形態によって対処されるデータ駆動型制約付き方策評価の概略図を示している。この実施形態では、実際には行列Ａが未知であるが、機械の正しい行列Ａ及びＢが既知であるかのように、疑似「モデルベース」の意味での対応する等式／不等式とともに、ＣＡＩＳ（一部の正のスカラーα_１及びα_２）を更新するデータ駆動型制約付き方策評価問題を解決する。

この実施形態では、離散時点ｔ_ｉにおいて方策反復を実行する。ここで、

は、全ての方策反復時点の集合を示す。方策反復［ｔ_Ｉ、ｔ_ｉ＋１］間で取得されるデータ点の最小数は、

によって与えられる。すなわち、Ｎは任意の学習サイクル内に含まれるデータ点の最小数を示している。学習時点ｔ_ｉ∈Ｔごとに、この実施形態では、全てのｔ∈｛ｔ_ｉ＋１，ｔ_ｉ＋２，．．．，ｔ_ｉ＋１｝について、離散時間ＡＲＥを

として記述し直す。Ｐ^＋は、価値関数をパラメータ化する更新後の価値関数行列を表す。対応する状態及び制御の入力データ、並びに既知の行列Ｑ及びＲがある場合、この実施形態では、上記式を

として記述し直すことができる。ここで、

であり、

はクロネッカー積を示す。

幾つかの実施形態において、制約付き方策評価は、更新後のＣＡＩＳ、及び対応する更新後の価値関数を共同で生成して、更新後のＣＡＩＳを現ＣＡＩＳの幾何学的変換にすることを可能とする。幾何学的変換は、現ＣＡＩＳの拡大、縮小、及び回転のうちの１つ又はその組み合わせを含む。制約付き方策評価は、更新後のＣＡＩＳ及び対応する価値関数の一意性を促進する正則化項を使用して、ＣＡＩＳの形状及びサイズを更新するように構成される。

例えば、励起が持続する条件の下で、１つの実施形態では、Ａ又はＢを知ることなく、Ｐ^＋を取得するためにＰ^＋＞０であるという制約を受ける（正則化された）最小二乗問題として上記を解くことができる。学習が発生する時点について、新たな価値関数行列Ｐ_ｔ＋１を、正則化最小二乗問題を解くことによって得られたＰ^＋に設定する。学習時点間の他の時点では、以前の学習サイクル中に得られた価値関数行列を使用する。

１つの実施形態において、制約付き方策評価７０１の正則化されたコスト関数は、オプティマイザーの一意性を促進する正則化法を備えたモデルベースのコスト関数７０２と同等である。この正則化法の１つの実施形態では、ρ ７０３を通じてＣＡＩＳの最適レベル集合を選択することによって、ＣＡＩＳの形状及びサイズを最適化することを含む。制約７１１、７２１、７３１、７４１、７５１、７６１を条件としてコスト７０１を最小化することで、更新後の価値行列

、及び

によってパラメータ化されたＣＡＩＳがもたらされる。コスト関数

を、Ｐが正定値であることを確保する条件７４１とともに、モデルベースの離散ＡＲＥ７５２の左辺のデータ駆動型類似物（analogue）に相当する、代数リカッチ方程式（ＡＲＥ）７５１で展開する。コスト

を最小化する

を見つけることは、これがＡＲＥの唯一の定常解であるため、最適価値関数行列Ｐ_∞に近い解に対する制限を暗示する。制約７１１、７２１、７３１を満たすことによって、制約を満足することができる。

このため、幾つかの実施形態において、制約付き方策評価は、多目的最適化を実行して、システムの動作のコスト関数７０１を最小化し、更新後のＣＡＩＳのサイズメトリックを最大化して、更新後のＣＡＩＳ及び対応する更新後の価値関数を生成する。例えば、多目的最適化の１つの目的は、状態制約及び入力制約を受ける価値関数に対する代数リカッチ方程式７５１の違反を最小限に抑えることである。

幾つかの実施形態において、状態制約及び入力制約は、更新後のＣＡＩＳ、更新後の価値関数、及び更新後の制御方策を定義するパラメータに関する行列及びベクトル不等式７１１、７２１、７３１、７４１、及び／又は７６１のうちの１つ又はその組み合わせの形態を取る制約付き方策反復を受ける。幾つかの実施形態において、パラメータに関する行列及びベクトル不等式は、収集されたデータの関数であり、反復ごとに異なる。

例えば、不等式７１１により、価値関数が縮小的であり、それゆえ、全てのｔ≧ｔ_０について増加しないことを確保する。これは、モデルベースの同等の不等式７１２からの証拠であり、左辺及び右辺からそれぞれ

及びｘ_ｔで乗算した場合、０＜λ＜１であるため、任意のｔについて、

が導き出される。したがって、この不等式７１２は、更新後の制御方策が閉ループシステムに安定性を確実に提供する要素である。２つの不等式７１１及び７３１は、現状態を与えられると、価値関数が更新されたのにもかかわらず、現方策による状態制約及び入力制約が満たされることを強制する。これは、不等式７１１及び７３１が、現状態が更新後のＣＡＩＳ内に存在することを強制することによって、状態制約を強制する条件を定義する不等式７２２及び７３２のデータ駆動型類似物であるためである。条件７４１により、価値関数行列が正定値であること、及び、正のスカラーρにより、リアプノフ関数のサブレベル集合及びスーパーレベル集合を選択できることを確保する。不等式７６１を使用して、リアプノフ関数の縮小率を制限することにより、安定性を保証する。

幾つかの実施形態は、制御方策を線形に制約することで、最適方策を見つけることと、方策改善最適化問題

の最小化子Ｋ_ｔ＋１を見つけることが同じになり、式中、ｔ_ｉ，ｔ_ｉ＋１∈Ｔである。ｘ_ｔ、Ｑ、Ｒ、及びＰ_ｔ＋１は全て、ウィンドウ｛ｔ_ｉ＋１，ｔ_ｉ＋２，...，ｔ_ｉ＋１｝の既知の量であるので、これはＫの２次最適化問題である。したがって、方策改善ステップ（モデルの知識がある場合）は、

となる。

幾つかの実施形態において、この行列Ｂのみが既知であり、制御方策更新のデータ駆動型類似物には、現方策が必要となり、これを使用して、データの別のバッチ

を収集する。新たな方策は、最小二乗問題

のオプティマイザーである。

図８は、１つの実施形態に係る、状態制約及び入力制約を受ける制御方策に対する代数リカッチ方程式の違反の再帰的最小二乗最小化を使用した制御方策の更新の概略図を示している。この実施形態の１つの実施形態は、リアルタイム再帰的最小二乗（ＲＬＳ）フレームワークを使用して、上記の最小二乗問題を解く。幾つかの実施形態によれば、データ駆動型制約付き方策改善更新におけるこのステップは、制約を確実に満たしつつ、制御方策を更新する。非特異性を確保するためにρ＞０のヘッセ行列ρＩから始めて、ヘッセの更新を８０１で示す。対応する勾配更新８１１をデータ駆動方式で実行して、ＲＬＳフレームワーク８２１における制御方策更新は、通常、１として選択されるステップサイズβ_ｔ＞０のニュートンステップを含む。更新を使用したモデルＡの知識がなくても、再帰的最小二乗問題が解かれることに留意されたい。ステップサイズは縮小することができ、すなわち、更新後の制御方策ごとに、状態制約及び入力の制約を課すために、例えば、バックトラッキング手順８３１に基づいて、β_ｔ≦１を選択できる。８０１はランクｍ行列の更新に対応し、ｍは、制御入力の数を示すことに留意されたい。したがって、その逆行列は、シャーマンモリソン式（Sherman-Morrison formula）を使用して、例えば、ｍランク１更新形式で効率的に更新できる。何らかの予め選択された閾値ε_ｇ＞０について、勾配が或る閾値未満、例えば、｜ｇ_ｔ｜≦ε_ｇの場合、方策改善を終了できる。

図９は、幾つかの実施形態に係る、線形システムのためのデータ駆動型制約付き適応動的計画法のための方法の擬似コードを示している。全般的な手順は、以下の高レベルステップのシーケンスに対応する。
初期制御方策及び対応するＣＡＩＳを受容するステップ；
機械が持続的に励起している間、少なくともｔ_ｉ＋１のデータ点のシーケンスを取得し、図７で示す制約付き方策評価問題を解くことによって、行列

及びスカラーρ_ｔ＋１によって定義される新たな楕円体集合を計算するステップ；
各時間ステップにおいて、状態制約及び入力制約を強制するためのバックトラッキング手順と組み合わせて、図８で説明されているリアルタイム再帰的最小二乗法に基づいて、制約付き方策改善ステップを実行して、

を計算するステップ。

条件｜ｇ_ｔ｜≦ε_ｇに基づいて方策改善が収束した場合、（ｉｉ）に戻る。

図１０Ａは、幾つかの実施形態に係る制約付き方策反復の効用値を示している。この効用値は、制約なし方策反復とは対照的である。許容状態空間

１０１１内の初期ＣＡＩＳ１００１を与えられると、この更新後の制御方策１０４１を使用する機械の閉ループ軌道が許容可能状態空間１０１１内に留まるよう、制約付き方策反復１０２１は、更新後のＣＡＩＳ１００２、及び実行可能制御方策を構築する。一方、更新後のＣＡＩＳ１０５１が、許容可能状態空間１０１１を超えることができることで、更新後の制御方策１００２が制約に違反する閉ループ軌道が生じることがあるので、初期ＣＡＩＳ１００１が実行可能であっても、制約なし方策反復１０３１は、制約の満足を確保しない。

図１０Ｂは、様々な実施形態によって使用される制約許容不変集合の様々な更新の例を示している。例えば、１つの実施形態により、制約許容不変集合の拡大１０１１、縮小１０１４、回転１０１３、及びこれらの組み合わせを可能にする。これは、状態が状態制約の境界に近い場合、より強力な（aggressive）コントローラが必要とされる状況では、これは、参照追跡で有利である。また、（Ａ，Ｂ）が大域的非線形動態の局所的線形近似である非線形システムにこの方式を適用する際にも、様々な更新が有用である。

また、幾つかの実施形態では、楕円体不変集合が局所ベクトル場に基づいて、そのサイズ及び形状を適応できるようにする。例えば、

は、制約付き最適制御方策、及び最適価値関数に関連付けられたＣＡＩＳを示すと仮定する。また、関連付けられたＣＡＩＳ

が

に含まれる初期許容可能方策Ｋ_０を仮定する。その場合、実施形態は、不変集合のシーケンスが、最適なＣＡＩＳに収束するまで、これらのＣＡＩＳが必要に応じて拡大、縮小、及び回転するよう、

のシーケンスを生成する。

図１１Ａは、幾つかの実施形態に係る、半正定値計画を使用した制御方策反復の実行について説明するブロック図を示している。幾つかの実施形態は、制約付き方策反復／ＡＤＰ１１０１を、多項式時間で解くことができる凸最適化問題である半正定値計画ＳＤＰ１１１１として提示できるという理解に基づく。このために、幾つかの実施形態は、更新後のＣＡＩＳを現ＣＡＩＳの幾何学的変換として決定する半正定値計画（ＳＤＰ）を使用して、制約付き方策評価の多目的最適化を解く。したがって、行列変数ｎ×ｎ、及びメモリ複雑度Ｏ（ｎ^４）を解く際に計算複雑度がＯ（ｎ^６）のＳＤＰを解くＩＰＭの実施形態に対して、計算複雑度を低減できる。

例えば、１つの実施形態は、内点法（ＩＰＭ）１１２１を使用して、ＳＤＰ１１１１を実施する。別の実施形態は、例えば、交互方向乗数法（ＡＤＭＭ）等の一次最適化方法１１２２を使用して、実際には、これらの方法がより多くの反復を必要とすることが多いが、反復の複雑さ及びメモリ要件を更に削減させる。その代わりに、ヘッセ行列の低ランク更新技法及び行列ベクトル乗算はどちらも、方策行列Ｋの次元とともに２乗でスケーリングする複雑度Ｏ（ｎ^２ｍ^２）で実行できるので、方策改善ステップは計算コストが低くなることに留意されたい。別の実施形態は、二乗和（ＳＯＳ）計画１１１２を使用して、非線形システムに拡張することができる。

図１１Ｂは、幾つかの実施形態に係る、制御される機械の状態を示すデータの収集法を示している。これらの実施形態において、方策評価ステップのためのデータ収集１１５１は、また、再帰的最小二乗型実施形態１１３１を使用して、又は、後退ホライズン／スライディングウィンドウ方式１１４１で計算される。ＲＬＳ定式化において、各データ点により、最適化変数がオンライン式８０１、８１１、８２１に更新される。後退ホライズン／スライディングウィンドウ方式では、このデータ駆動型回帰問題に解があるよう、ランク条件を確保するために（図７を参照）、各データ点は、以前のデータ点（選択されたウィンドウの長さに応じて）と組み合わせて、バッチ単位で提供される。しかし、ＳＤＰ定式化で線形行列不等式を処理する際の計算複雑度を考慮すると、１つの実施形態のようなバッチ型方式は、通常、厳密なタイミング要件下におけるリアルタイム実行可能制御応用で好ましいはずである。

図１２Ａは、幾つかの実施形態の原理を使用するデータ駆動型制約付きコントローラ１２０２を備える車両１２０１の概略図を示している。本明細書で使用する場合、車両１２０１は、乗用車、バス、又はローバー等の任意の種類の車輪付き車両とすることができる。また、車両１２０１は、自律型又は半自律型の車両とすることができる。例えば、幾つかの実施形態は、車両１２０１の運動を制御する。この運動の例は、車両１２０１のステアリングシステム１２０３によって制御される車両の横方向の運動を含む。１つの実施形態では、ステアリングシステム１２０３は、コントローラ１２０２によって制御される。また、ステアリングシステム１２０３は、車両１２０１の運転者により制御できる。

また、車両は、コントローラ１２０２又は車両１２０１の他の構成要素によって制御できるエンジン１２０６も含むことができる。また、車両は、周囲環境を検知するための１つ以上のセンサ１２０４も含むことができる。センサ１２０４の例は、距離測定器、レーダ、ライダー、及びカメラを含む。また、車両１２０１は、その現運動量及び内部状態を検知するための１つ以上のセンサ１２０５も含むことができる。センサ１２０５の例は、全地球測位システム（ＧＰＳ）、加速度計、慣性測定装置、ジャイロスコープ、シャフト回転センサ、トルクセンサ、偏向センサ、圧力センサ、及び流量センサを含む。センサは、コントローラ１２０２に情報を提供する。車両は、有線又は無線通信チャネルを通じたコントローラ１２０２の通信機能を可能にする送受信機１２０６を搭載できる。

図１２Ｂは、幾つかの実施形態に係る、データ駆動型コントローラ１２０２と、車両１２０１のコントローラとの間の相互作用の概略図を示している。例えば、幾つかの実施形態では、車両１２０１のコントローラは、車両１２０１の回転及び加速を制御するステアリング１２１０、並びにブレーキ／スロットルコントローラ１２２０である。このような場合において、データ駆動型コントローラ１２０２は、車両の状態を制御する制御入力をコントローラ１２１０及び１２２０に出力する。また、コントローラは、高レベルコントローラ、例えば、予測コントローラ１２０２の制御入力を更に処理する車線維持支援コントローラ１２３０も含むことができる。いずれの場合も、コントローラは、車両の運動を制御するために、予測コントローラ１２０２の出力を使用して、車両のハンドル、及び／又はブレーキ等の車両の少なくとも１つのアクチュエータを制御するためにマップする。車両機械の状態ｘ_ｔは、位置、向き、及び縦方向/横方向の速度を含むことができ、制御入力ｕ_ｔは、横方向／縦方向の加速度、ステアリング角、及びエンジン／ブレーキトルクを含むことができる。このシステムに対する状態制約は、車線維持制約及び障害物回避制約を含むことができる。制御入力制約は、ステアリング角制約及び加速度制約を含むことができる。収集されたデータは、位置、向き、及び速度プロファイル、加速度、トルク、及び／又はステアリング角を含むことができる。

図１３は、１つの実施形態に係る、モータを制御する制御システムのブロック図を示している。データ駆動型コントローラ１３０３は、初期安定化出力フィードバック制御方策から開始して、様々な実施形態によって使用されるプロセスを通じて出力フィードバック最適制御方策を取得する。１３０１において基準磁束及び速度１３１２が生成され、モータコントローラ１３０３に送られる。モータコントローラは、メモリ１３０２から実行可能コードを取り出し、モータ出力１３１３を使用する推定器１３０９に従って、サンプル時間ごとに推定状態を決定し、制約付き方策改善によって取得された制御方策に従って、制御コマンドを生成し、複数の時点において１３０６により推定されたモータ状態１３０７のシーケンスに基づいて、制約付き方策評価を解き、これを反復して、最適な制御方策を取得する。モータコントローラは、１つの実施形態では好ましい三相ＡＣ電圧を表す制御コマンドをインバータ１３０５に出力し、続いて、このインバータは、誘導モータ１３０６に供給する三相電圧１３１０を生成する。１つの実施形態では、出力１３１３は、固定子巻線の電流、及び回転子速度を含む。誘導モータの状態ｘ_ｔは、固定子磁束、線電流、及び回転子速度を含むことができる。制御入力ｕ_ｔは、インバータの励起電圧を含むことができる。入力電圧に対する制約は入力制約として機能し、固定子磁束、回転子速度、及び線電流に対する制約は状態制約として機能する。

本発明の上記の実施形態は数多くの方法のいずれかにおいて実現することができる。例えば、それらの実施形態は、ハードウェア、ソフトウェア又はその組み合わせを用いて実現することができる。ソフトウェアにおいて実現されるとき、そのソフトウェアコードは、単一のコンピュータ内に設けられるにしても、複数のコンピュータ間に分散されるにしても、任意の適切なプロセッサ、又はプロセッサの集合体において実行することができる。そのようなプロセッサは集積回路として実現することができ、集積回路構成要素内に１つ以上のプロセッサが含まれる。しかしながら、プロセッサは、任意の適切な構成の回路部を用いて実現することができる。

また、本明細書において概説される種々の方法又はプロセスは、種々のオペレーティングシステム又はプラットフォームのいずれか１つを利用する１つ以上のプロセッサ上で実行可能であるソフトウェアとしてコード化することができる。さらに、そのようなソフトウェアは、幾つかの適切なプログラミング言語及び／又はプログラミングツール若しくはスクリプト記述ツールのいずれかを用いて書くことができ、フレームワーク又は仮想機械上で実行される実行可能機械語コード又は中間コードとしてコンパイルすることもできる。通常、プログラムモジュールの機能は、種々の実施形態において望ましいように、組み合わせることもできるし、分散させることもできる。

また、本発明の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、幾つかの動作を同時に実行することを含むことができる。

Claims

システムの連続状態空間における状態制約を受け、前記システムの連続制御入力空間における制御入力制約を受ける機械の動作を制御する装置であって、
前記状態制約を満たす前記システムの状態の制約許容不変集合（ＣＡＩＳ）、及び前記ＣＡＩＳ内の前記システムの状態を、前記制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶するよう構成されるメモリであって、前記対応する制御方策に従う前記ＣＡＩＳ内の状態を持つ前記システムの制御によって、前記ＣＡＩＳ内の前記システムの状態を維持するメモリと、
前記システムの状態の測定値を示すデータを受容する入力インターフェースと、
前記機械の制御、及び前記ＣＡＩＳ及び前記制御方策の更新を共同実行するよう構成されるプロセッサであって、制御及び更新の共同実行のために、前記プロセッサは、
前記制御方策を使用して前記システムを制御して、前記制御方策を使用して生成された制御入力のシーケンス、及び前記制御入力のシーケンスに対応する前記ＣＡＩＳ内の前記システムの状態の測定値のシーケンスを含むデータを収集し、現在の時間に収集されたデータが、前記制御入力と以前の時間における対応する制御入力によって引き起こされた状態の測定値とを含むようにすることと、
現在の時間に収集された前記データを使用して制約付き方策反復を実行して、前記ＣＡＩＳ、及び前記対応する制御方策を更新するよう構成され、
前記制約付き方策反復を実行するために、前記プロセッサは、
制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応する前記システムの状態の更新後の価値関数を生成し、前記更新後の価値関数は、前記機械の動作のコスト関数を改善させ、前記更新後のＣＡＩＳは、前記状態制約及び前記制御入力制約の満足を強制し、
制約付き方策改善を実行して、前記更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、前記機械の動作のコスト関数を改善させる更新後の制御方策を生成するよう構成されるプロセッサと、
を備える、装置。
前記制約付き方策評価は、多目的最適化を実行して、前記システムの動作のコスト関数を最小化し、前記更新後のＣＡＩＳのサイズを最大化して、前記更新後のＣＡＩＳ及び前記対応する更新後の価値関数を生成する、請求項１に記載の装置。
前記多目的最適化は、前記状態制約及び前記制御入力制約を満たしつつ、前記価値関数に対する代数リカッチ方程式の解を見つけることである、請求項２に記載の装置。
前記多目的最適化は、制御される前記機械の動作のコスト関数、制御される前記機械の安定性、及び、前記更新後のＣＡＩＳのサイズメトリックのうちの１つ又はその組み合わせを最適化する、請求項２に記載の装置。
前記制約付き方策評価は、前記更新後のＣＡＩＳ、及び前記対応する更新後の価値関数を共同で生成して、前記更新後のＣＡＩＳを現ＣＡＩＳの幾何学的変換にすることを可能とし、前記幾何学的変換は、前記現ＣＡＩＳの拡大、縮小、及び回転のうちの１つ又はその組み合わせを含む、請求項１に記載の装置。
前記プロセッサは、前記更新後のＣＡＩＳを前記現ＣＡＩＳの幾何学的変換として決定する半正定値計画（ＳＤＰ）を使用して、多目的最適化を解くように構成される、請求項５に記載の装置。
前記プロセッサは、前記更新後のＣＡＩＳ及び前記対応する価値関数の一意性を促進する正則化項を使用して、前記ＣＡＩＳの形状及びサイズを更新するように構成される、請求項５に記載の装置。
前記状態制約及び前記制御入力制約は、前記更新後のＣＡＩＳ、前記更新後の価値関数、及び前記更新後の制御方策を定義するパラメータに関する行列及びベクトル不等式のうちの１つ又はその組み合わせの形態を取る前記制約付き方策反復を受ける、請求項１に記載の装置。
前記パラメータに関する行列及びベクトル不等式は、前記収集されたデータの関数である、請求項８に記載の装置。
前記制約付き方策改善は、前記状態制約及び前記制御入力制約を満たしつつ、前記制御方策に対する代数リカッチ方程式の再帰的最小二乗化を使用して、前記制御方策を更新することである、請求項１に記載の装置。
前記プロセッサは、終了条件が満たされるまで、前記制御及び更新の共同実行を繰り返すように構成される、請求項１に記載の装置。
前記プロセッサは、終了条件が満たされるまで、前記制御及び更新の共同実行を繰り返して最適制御方策を生成し、その後、前記システムを、前記最適制御方策を使用して制御するように構成される、請求項１に記載の装置。
前記プロセッサは、交互最小化法、加速勾配法、ニュートン式法、及び内点法のうちの１つ又はその組み合わせを使用して、前記制約付き方策評価を実行するように構成される、請求項１に記載の装置。
前記制約付き方策評価と前記制約付き方策改善とを共同実行して、前記システムの動作のコストを最小化するのと同時に、前記更新後のＣＡＩＳのサイズメトリックを最大化して、前記更新後のＣＡＩＳ、前記更新後の価値関数、及び前記更新後の制御方策を生成する多目的最適化を実施する、請求項１に記載の装置。
前記機械は、車線維持、クルーズコントロール、及び障害物回避動作のうちの１つ又はその組み合わせを実行するように制御される車両であり、
前記車両の状態は、前記車両の位置、向き、縦方向速度、及び横方向速度のうちの１つ又はその組み合わせを含み、
前記制御入力は、横方向加速度、縦方向加速度、ステアリング角、エンジントルク、及びブレーキトルクのうちの１つ又はその組み合わせを含み、
前記状態制約は、速度制約、車線維持制約、及び障害物回避制約のうちの１つ又はその組み合わせを含み、
前記制御入力制約は、ステアリング角制約及び加速度制約のうちの１つ又はその組み合わせを含み、
前記収集されたデータは、前記車両の位置、向き、速度、加速度、トルク、及びステアリング角の値のうちの１つ又はその組み合わせを含む、請求項１に記載の装置。
前記機械は、或る作業を実行するよう制御される誘導モータであり、
前記誘導モータの状態は、固定子磁束、線電流、及び回転子速度のうちの１つ又はその組み合わせを含み、
前記制御入力は、励起電圧の値を含み、
前記状態制約は、固定子磁束、線電流、及び回転子速度のうちの１つ又はその組み合わせの値に対する制約を含み、
前記制御入力の制約は、励起電圧に対する制約を含み、
前記収集されたデータは、固定子磁束、線電流、及び回転子速度のうちの１つ又はその組み合わせの測定値を含む、請求項１に記載の装置。
システムの連続状態空間における状態制約を受け、前記システムの連続制御入力空間における制御入力制約を受ける機械の動作を制御する方法であって、前記方法は、前記状態制約を満たす前記システムの状態の制約許容不変集合（ＣＡＩＳ）、及び前記ＣＡＩＳ内の前記システムの状態を、前記制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶するメモリに結合するプロセッサを使用し、前記対応する制御方策に従う前記ＣＡＩＳ内の状態を持つ前記システムの制御によって、前記ＣＡＩＳ内の前記システムの状態を維持し、前記プロセッサは、前記方法を実施する記憶済み命令と結合され、前記命令は、前記プロセッサによって実行されると、前記方法の少なくとも幾つかのステップを実行し、前記ステップは、
前記システムの状態の測定値を示すデータを受容するステップと、
前記制御方策を使用して前記システムを制御して、前記制御方策を使用して生成された制御入力のシーケンス、及び前記制御入力のシーケンスに対応する前記ＣＡＩＳ内の前記システムの状態の測定値のシーケンスを含むデータを収集し、現在の時間に収集されたデータが、前記制御入力と以前の時間における対応する制御入力によって引き起こされた状態の測定値とを含むようにするステップと、
現在の時間に収集された前記データを使用して制約付き方策反復を実行して、前記ＣＡＩＳ、及び前記対応する制御方策を更新するステップと、
を含み、前記制約付き方策反復は、
制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応する前記システムの状態の更新後の価値関数を生成することであって、前記更新後の価値関数は、前記機械の動作のコスト関数を改善させ、前記更新後のＣＡＩＳは、前記状態制約及び前記制御入力制約の満足を強制することと、
制約付き方策改善を実行して、前記更新後のＣＡＩＳ、及び対応する更新後の価値関数に従って、前記機械の動作のコスト関数を改善させる更新後の制御方策を生成することと、
を含む、方法。
前記制約付き方策評価は、多目的最適化を実行して、前記システムの動作のコスト関数を最小化し、前記更新後のＣＡＩＳのサイズを最大化して、前記更新後のＣＡＩＳ及び前記対応する更新後の価値関数を生成する、請求項１７に記載の方法。
方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記非一時的コンピュータ可読記憶媒体は、状態制約を満たすシステムの状態の制約許容不変集合（ＣＡＩＳ）、及び前記ＣＡＩＳ内の前記システムの状態を、制御入力制約を満たす制御入力へとマッピングする対応する制御方策を記憶し、前記対応する制御方策に従う前記ＣＡＩＳ内の状態を持つ前記システムの制御によって、前記ＣＡＩＳ内の前記システムの状態を維持し、前記方法は、
前記システムの状態の測定値を示すデータを受容することと、
前記制御方策を使用して前記システムを制御して、前記制御方策を使用して生成された制御入力のシーケンス、及び前記制御入力のシーケンスに対応する前記ＣＡＩＳ内の前記システムの状態の測定値のシーケンスを含むデータを収集し、現在の時間に収集されたデータが、前記制御入力と以前の時間における対応する制御入力によって引き起こされた状態の測定値とを含むようにすることと、
現在の時間に収集された前記データを使用して制約付き方策反復を実行して、前記ＣＡＩＳ、及び前記対応する制御方策を更新することと、
を含み、前記制約付き方策反復は、
制約付き方策評価を実行して、更新後のＣＡＩＳ、及び対応する前記システムの状態の更新後の価値関数を生成することであって、前記更新後の価値関数は、機械の動作のコスト関数を改善させ、前記更新後のＣＡＩＳは、前記状態制約及び前記制御入力制約の満足を強制することと、
制約付き方策改善を実行して、前記更新後のＣＡＩＳ、及び前記対応する更新後の価値関数に従って、動作の前記コスト関数を改善させる更新後の制御方策を生成することと、
を含む、非一時的コンピュータ可読記憶媒体。
前記制約付き方策評価は、多目的最適化を実行して、前記システムの前記動作の前記コスト関数を最小化し、前記更新後のＣＡＩＳのサイズを最大化して、前記更新後のＣＡＩＳ及び対応する更新後の価値関数を生成する、請求項１９に記載の非一時的コンピュータ可読記憶媒体。