JP7090734B2

JP7090734B2 - 制御システム、制御方法及び記憶媒体

Info

Publication number: JP7090734B2
Application number: JP2020555252A
Authority: JP
Inventors: ワン、イェビン
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2018-06-13
Filing date: 2019-01-09
Publication date: 2022-06-24
Anticipated expiration: 2039-01-09
Also published as: US10768585B2; JP2021517700A; WO2019239621A1; US20190384237A1

Description

本発明は、包括的には、適応制御に関し、より詳細には、部分的に観測された性能を用いたシステムのデータ駆動型出力フィードバック制御に関する。

強化学習（ＲＬ：Reinforcement learning）は、その環境からの観測された応答に基づいてエージェントの行動を系統的に変更する機械学習において用いられる方法の一クラスである。ＲＬは、標準的な教師あり学習が適用可能でない場合に適用することができ、必要とする事前知識が少ない。ＲＬ法によって提供される利点を考慮して、制御システム研究者の近年の目標は、常微分方程式で記述することができる動的システムに最適なフィードバックコントローラをもたらすＲＬ技法を導入し、発展させることである。これは、宇宙航空システム、車両、ロボットシステム、電気モータ、及び産業プロセスの多くのクラスを含む、人間により設計されるシステムの大半を含む。

最適制御は、一般的に、システム動態の全知識を必要とするオフライン設計技法であり、例えば、線形システムの事例では、リッカチ方程式を解かなければならない。一方で、適応制御は、システム軌跡に沿って測定されるデータを用いて、未知のシステム動態、擾乱、及びモデル化誤差を補償するように学習し、保証された性能を提供する一連のオンライン方法である。最適適応コントローラは、間接的技法を用いて設計されており、したがって、未知の機械がまず識別され、その後、リッカチ方程式が解かれる。性能インデックスを最適化する逆適応コントローラが提供されている。これは有用であるが、設計者に好まれるものではない。

未知のシステムについての最適解に収束する直接適応コントローラは、一般的に、発展が進んでいない。しかしながら、最適制御問題に関連付けられたハミルトン－ヤコビ－ベルマン（ＨＪＢ：Hamilton-Jacobi-Bellman）方程式をオンラインで解くために種々の方策反復（ＰＩ）法及び値反復（ＶＩ）法が開発されている。とりわけ、そのような方法は、制御される動的システムの状態ベクトル全体の測定を必要とする。

例えば、ＰＩは、２ステップ反復、すなわち、方策評価及び方策改善の反復として構築される方法の一クラスを指す。ＨＪＢ方程式を解く直接手法を試みる代わりに、ＰＩは、所与の初期許容可能（安定化）コントローラのコスト／値を評価することによって開始する。その場合、この方策に関連付けられたコストは、新たな改善された制御方策（すなわち、以前の制御方策よりも低い関連付けられたコストを有することになる制御方策）を得るのに用いられる。これは、多くの場合、新たなコストに対するハミルトン関数を最小化することによって達成される。結果として得られる方策は、このように、新たなコストに対する貪欲方策更新に基づいて得られる。方策評価及び方策改善のこれらの２つのステップは、方策改善ステップが実際の方策をもはや変更することがなく、かつ最適コントローラへの収束が達成されるまで繰り返される。許容可能制御方策の場合には、所与の方策に関連付けられた無限ホライズンコストのみを評価することができる。これは、制御方策は、安定化させなければならないことを意味することに留意しなければならない。

近似動的計画（ＡＤＰ：Approximate dynamic programming）は、動的システムのフィードバック制御を含む多様な応用において重要性を示している強化学習法の一クラスである。ＡＤＰは、一般的に、システム内部状態に関する全情報を必要とするが、全情報は、実用時の状況では通常利用可能ではない。実際、種々の制御アルゴリズム（例えば、状態フィードバック）が全状態知識を必要とするが、実用時の実施態様では、状態ベクトル全体の測定値を取得することは、実現可能ではない。

状態ベクトルは、一般的に、システムの出力を測定することによって利用可能な、システムに関する部分情報に基づいて推定される。しかしながら、状態推定技法は、システム動態の既知のモデルを必要とする。不都合なことに、いくつかの状況では、システム動態が厳密には既知ではないため、最適状態推定器を設計し実装することは困難である。

システムの全状態の欠如により、ＡＤＰが適応制御応用に適用不能となるが、これは望ましいことではない。したがって、部分的に観測可能な状態及び劣決定の動態のみを用いたシステムのデータ駆動型出力フィードバック制御のためのシステム及び方法が必要とされている。

いくつかの実施の形態の目標は、劣決定の動態とともにシステムの状態の一部のみを表す観測可能な出力を用いたシステムのデータ駆動型出力フィードバック制御のためのシステム及び方法を提供することである。別の目標は、部分的に観測可能な状態及び劣決定の動態を用いたシステムの適応制御のための近似動的計画（ＡＤＰ）解を提供することである。

いくつかの実施の形態は、ＡＤＰが、一般的に、システム内部状態に関する全情報を必要とするが、全情報は、実用時の状況では通常利用可能ではないという認識に基づいている。全状態が利用不能である場合、部分状態を用いるＡＤＰ方法は、システムの制御を不安定化させる制御方策となる可能性がある。

しかしながら、いくつかの実施の形態は、システムの状態はＡＤＰの目的ではなく、制御の安定性を確保するＡＤＰ解のパラメータ化の空間にすぎないという理解に基づいている。換言すれば、制御の安定性を確保するＡＤＰパラメータ化の他の任意の空間がＡＤＰベース適応制御に適している。

いくつかの実施の形態は、状態空間を含む任意の空間が、ＡＤＰベース適応制御の安定性を確保することができるという理解に基づいている。そのような空間は、本明細書においてリフティングされた（lifted）状態空間と称される。その上、状態空間とリフティングされた状態空間との間の関係は重要ではなく、未知のままにすることができる。換言すれば、システムのリフティングされた状態空間がシステムの状態空間に対して未知の全射マッピング（onto mapping）を有する場合、そのようなリフティングされた状態空間を用いて、システムの安定制御を確保するＡＤＰベース適応制御をパラメータ化することができる。

いくつかの実施の形態は、状態空間の、リフティングされた状態空間へのリフティングは、制御システムの動態に基づいて行うことができるという認識に基づいている。システムの動態が未知である場合、そのようなリフティングを、状態空間とリフティングされた状態空間との間の既知の全射マッピングを、結果として得られる予測可能な方法において行うことができる。システム動態が未知ではない場合、結果として得られる全射マッピングが未知になるときであっても、未知の動態についての状態空間をアップリフティングする方法が必要とされる。

いくつかの実施の形態は、制御システムの未知の動態を、システムの動作の時系列出力データの導関数によって捕捉することができるという理解に基づいている。実際、少なくとも１つの測定状態変数の導関数は、複数の時点について測定された状態変数の値を用いて求めることができ、そのようにして、システムの未知の動態を捕捉する。加えて、導関数の解を求めることは、種々のタイプのシステムにとって計算上効率的である。

この理解を得た上で、システムの測定状態変数及びシステムの測定状態の導関数がそのようなリフティングされた状態空間を形成することができるということが更に理解される。導関数の次数は、制御システムの構造に依存する。しかしながら、高次の導関数であっても、システムの動態の劣決定のモデルに対する依拠することを回避するとともに、制御されるシステムの全状態の測定を回避することができる計算上効率的な方法において生成することができる。

そのため、いくつかの実施の形態は、制御されるシステムの状態空間から制御システムのリフティングされた状態空間へのＡＤＰベース適応制御のパラメータ化を変更する。例えば、いくつかの実施の形態では、状態空間、制御方策、制御方策の勾配、及びリフティングされた状態空間にわたるＡＤＰベース適応制御の値関数のうちの１つ又は組み合わせをパラメータ化する。

ＡＤＰベース適応制御の原理に従って、システムは、システムの出力に基づくシステムの制御中に、オンラインで更新される制御方策に従って制御される。例えば、本明細書では、リフティングされた状態空間上でパラメータ化される制御方策は、制御方策が、リフティングされた状態空間のインスタンスの値及び関数の係数の値に基づいてシステムへの制御入力を出力するために、リフティングされた状態空間のインスタンスを引数として受け取る関数であることを意味する。本明細書では、制御方策の更新は、関数の少なくとも１つの係数の更新である。関数の係数を、関数の入力／引数及び出力と混同してはいけない。

したがって、１つの実施の形態は、機械を制御する制御システムを開示する。この制御システムは、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御するコントローラであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、コントローラと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取る受信機であって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受信機と、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求める微分器であって、測定状態変数及び少なくとも１つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する、微分器と、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新するプロセッサであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、プロセッサとを備える。

別の実施の形態は、機械を制御する制御方法を開示する。この方法は、この方法を実施する記憶された命令と結合されたプロセッサを使用し、命令は、プロセッサによって実行されると、方法の少なくともいくつかのステップを実行する。この方法は、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御することであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、制御することと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受け取ることと、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求めることであって、測定状態変数及び少なくとも１つの測定状態変数の導関数の組み合わせが、時点についてのリフティングされた状態を規定する、求めることと、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新することであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、更新することとを含む。

更に別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、方法は、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御することであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、制御することと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受け取ることと、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求めることであって、測定状態変数及び少なくとも１つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する、求めることと、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新することであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、更新することとを含む、記憶媒体を開示する。

ＡＤＰベース適応制御を介したデータ駆動型状態フィードバック最適制御方策のためにいくつかの実施形態によって利用されるいくつかの原理の概略図である。いくつかの実施形態によって用いられる、機械出力、機械の状態、及び機械のリフト状態の間の関係の概略図である。いくつかの実施形態によって用いられる、機械出力、機械の状態、及び機械のリフト状態の間のマッピングの概略図である。いくつかの実施形態による、測定状態変数の導関数を通じて所望のリフティングを達成する概略図である。いくつかの実施形態による、機械を制御する制御システムのブロック図である。いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。いくつかの実施形態による、制御される機械のリフティングされた状態を決定する方法のフローチャートである。いくつかの実施形態による、機械の動態及び状態を知ることなく、機械についてのデータ駆動型出力フィードバック最適制御方策を構築する方法の全体ブロック図である。いくつかの実施形態による、リフティングされた状態空間にわたるＨＪＢ方程式のパラメータ化の概略図である。１つの実施形態による、リフティングされた状態空間にわたるパラメータ化の概略図である。１つの実施形態による、リフティングされた状態空間にわたって規定される擬似ＨＪＢの近似解を求める方法のブロック図である。別の実施形態による、リフティングされた状態空間にわたって規定される擬似ＨＪＢの近似解を求める方法のブロック図である。１つの実施形態による、摂動信号を用いて摂動される制御方策の重み付き勾配を求める方法の概略図である。１つの実施形態による、値関数及び重み付き勾配の係数を求める方法のブロック図である。図６Ａの実施形態の１つの例示の実施態様の擬似コードである。１つの実施形態による、制御方策に対応する値関数の係数を求める方法のブロック図である。１つの実施形態による、重み付き勾配の係数を求める方法のブロック図である。図７Ａ及び／又は図７Ｂの実施形態の１つの例示の実施態様の擬似コードである。１つの実施形態による、モータを制御する制御システムのブロック図である。

図１Ａは、ＡＤＰベース適応制御を介したデータ駆動型状態フィードバック最適制御方策のためにいくつかの実施形態によって利用されるいくつかの原理の概略図を示している。ＡＤＰベース適応制御は、反復して実行する。提示を簡単にするために、本開示では、制御応用に必要な限り繰り返すことができる１回の反復内の方法論を論述する。

本明細書では、機械は、入力信号（入力）によって制御することができる任意の装置である。入力信号は、電圧、圧力、力等の物理量に関連付けることができる。機械は、出力信号（出力）を生成する。出力は、機械の運動を表すことができるとともに、電流、流動、速度、位置等の他の物理量に関連付けることができる。典型的に、出力は、以前の出力信号の一部又は全て、並びに以前及び現在の入力信号の一部又は全てに関係付けられる。しかしながら、機械の出力された運動は、その動作中の機械に対する制約に起因して実現可能ではない場合がある。入力及び出力は、コントローラによって処理される。

機械の動作は、現在及び以前の入力並びに以前の出力の関数としての経時的な出力の変化を表す連立方程式（a set of equations）によってモデル化することができる。動作中、機械は、機械の状態によって規定することができる。機械の状態は、モデル及び未来の入力とともに未来の運動を規定することができる、一般に時間変動する情報の任意のセットである。例えば、機械の状態は、現在及び過去の入力及び出力の適切なサブセットを含むことができる。

機械を制御する制御システムは、方法を実行するプロセッサ、及びモデルを記憶するメモリを含む。方法は、固定又は可変の期間中に実行される。コントローラは、機械出力及び機械運動を受信する。コントローラは、出力及び運動を用いて、機械の入力を生成する。

いくつかの実施形態では、以下の動的機械を検討する。

ここで、

は、機械状態ベクトルである。Ω_ｘは、その内部に原点を含むコンパクト集合（compact set）である。ｕ∈Ｒ^ｍは、制御入力である。

は、ベクトル場である。

は、ｍ個の平滑ベクトル場からなる。

は、ｐ個の平滑関数からなるベクトルである。状態フィードバック制御方策ｕ（ｘ）∈Ｕ_ｘ⊂Ｃ^１［０，Ｔ］は、任意の初期状態ｘ_０∈Ω_ｘについて、結果として得られる閉ループ系が安定である場合、許容可能である。これに対応して、Ｕ_ｘは、許容可能状態フィードバック制御セットと呼ばれる。さらに、状態フィードバック最適制御設計は、以下のコスト関数、すなわち、

を最小化するｕ（ｘ）を構築することである。ここで、Ｑ及びＲは、正定値行列である。Ｔ＝∞を有するコスト関数（２）を得ることは一般性を失わない。そのような事例の場合、許容可能状態フィードバック制御方策は、コスト関数の有限値と、安定した閉ループ系とを得るべきである。機械（１）についての状態フィードバック最適制御問題は、次のように定式化することができる。この定式化はすなわち、機械（１）を所与として、コスト関数（２）を最小化するｕ^＊（ｘ^＊）∈Ｕ_ｘ、すなわち、

を見つけることである。

動的計画に従って、状態フィードバック最適制御問題に対する解ｕ^＊（ｘ）は、以下のハミルトン－ヤコビ－ベルマン（ＨＪＢ）方程式を解くことによって得ることができる。

ただし、Ｖ（ｘ（∞））＝０及び∇Ｖ＝∂Ｖ／∂ｘである。ＨＪＢの閉形式解は、確立するのが困難であることで有名である。その代わりに、近似解を取得するのに適応動的計画（ＡＤＰ：Adaptive Dynamic Programming）技法、例えば、方策反復（ＰＩ）又は値反復（ＶＩ）が活用される。ＰＩとＶＩとの間に類似性があるため、本開示は、ＰＩ法に焦点を当てるが、当業者であれば、ＶＩ法をいくつかの実施形態に拡張できることを容易に認識するであろう。

状態測定値を有する機械（１）についてのＰＩは、最適状態フィードバック方策を解くというものである。ＰＩは、以下の２つの反復されるステップにおいて要約される。ただし、ｉ＝０，１，．．．である。許容可能状態フィードバック制御方策ｕ_０（ｘ）が既知であると仮定する。その場合、ＰＩは、以下を満たす正定値関数Ｖ_ｉ（ｘ）について解く方策評価を可能にし、以下の式を満たす。

ここで、∇Ｖ_ｉ＝∂Ｖ_ｉ（ｘ）／∂ｘは、行ベクトルであり、ｕ_ｉ（ｘ）は、第ｉの反復中の状態フィードバック制御方策である。次に、ＰＩは、以下に従って、制御方策を更新する方策改善を可能にする。

このような定式化は、擬似ＨＪＢ（４）の閉形式解を確立するのが困難である一階線形偏微分方程式（ＰＤＥ）系を形成する。その代わり、近似解が、実際的には関心対象である。ｕ_ｉ及びＶ_ｉのパラメータ化を所与として、擬似ＨＪＢ（４）を代数方程式に変換することができ、近似解を計算することができる。２つのステップ（４）及び（５）は、収束に達するまで繰り返されるものとする。

状態フィードバック最適制御方策のＡＤＰは、全機械状態の測定値を必要とする。機械が線形時間不変（ＬＴＩ）、例えば、状態フィードバック最適安定化、状態フィードバック最適出力規制等である場合、その成功は特に高く評価されている。機械が非線形である場合、その応用は、状態フィードバックの事例、例えば、状態フィードバック最適安定化に厳格に制限されている。本発明者らが知る限りでは、非線形機械のためにデータ駆動型出力フィードバック最適制御を解くことに対する探求は、これまでのところ無駄である。

そのため、いくつかの実施形態では、現在の、例えば、第ｉの反復について、コントローラは、状態フィードバック制御方策ｕ_ｉ（ｘ）を実施し（１０１）、状態ｘ（ｔ）１１１に基づいて任意の時点ｔにおける制御コマンドｕ_ｉ（ｘ（ｔ））１１２を決定する。ここで、ｘ（ｔ）は、機械１０３を検知するセンサ１０４から受信される（１０６）。アクチュエータ１０２は、機械１０３の入力として物理量１１３を生成する。プロセッサ１０７は、或る範囲の時間［ｔ_１，ｔ_Ｎ］中の種々の時点ｔ_１、．．．、ｔ_Ｎにおいて状態のシーケンスｘ（ｔ_１）、．．．、ｘ（ｔ_Ｎ）を収集し、ＰＩを行使することによって、新たな状態フィードバック制御方策ｕ_ｉ＋１（ｘ）を決定する。これは、擬似ＨＪＢを反復して解くことに基づいて実行され、ここで、擬似ＨＪＢは、状態ｘにわたって規定される。新たな状態フィードバック制御方策は、時点ｔ_Ｎ後のリアルタイム制御のためにコントローラ１０１を更新する（１１６）。

制御コマンド１１２の物理的意味、アクチュエータ１０２のタイプ及び物理量１１３は、機械に依存して大幅に変動する。一例として、機械が三相ＡＣ電気モータである場合、アクチュエータは、電圧形インバータとすることができる。このインバータは、三相電圧をモータに出力する。温度制御の例では、制御コマンド１１２は、冷媒パイプのバルブの開放のパーセンテージを表すことができ、一方、アクチュエータは、電磁バルブとすることができ、１１３は、パイプ内の冷媒の流速を表す。

いくつかの実施形態は、変更されたＰＩを介してデータ駆動型出力フィードバック最適制御問題を解く方法を開示する。ここで、全状態ｘではなく、機械出力ｙのみがセンサによって検知されるとともに、変更されたＰＩにおいて用いられる。図１Ａに示すように、各時点ｔにおいて、センサは、機械１０３の動作を検知し（１１４）、機械出力ｙ（ｔ）１１５のインスタンスを生成する。機械出力ｙ（ｔ）は、ＡＤＰ適応制御を不安定にする状態ｘ（ｔ）に関する部分的情報を含む。図１Ａにおけるｘをｙにブラインド置換すること（blindly replacing）（１１６）（これは、出力フィードバック制御方策がｕ_ｉ（ｙ）の表現を取ることを意味する）は、安定化ｕ_ｉ（ｙ）に基づく新たな出力制御方策ｕ_ｉ＋１（ｙ）が機械を安定化させることができることを確保することができない。推定器は、その出力ｙから機械状態を推論することができるものの、一般的に、機械の動態のモデルにおけるｆ，ｇ関数の十分な知識を必要とする。しかしながら、種々の実施形態は、機械モデルが完全に未知である又は大部分が未知である場合、すなわち、ｆ，ｇが完全に又は部分的に未知である場合の状況に対処する。そのようなシナリオにおいて、推定器は、機械状態ｘを得るためにほとんど有用ではない。

いくつかの実施形態は、パラメータ化が、結果として得られる閉ループ系の安定性に影響を及ぼすので、許容可能出力フィードバック制御方策の適切なパラメータ化（形式）を選ぶことが有益であり得るという認識に基づいている。ＰＩ処理は、反復して実行されるにつれ、過去の制御方策に基づいて新たな制御方策を生み出す。過去の制御方策が機械を安定化させる限り、次の反復のための新たな制御方策が機械を安定化させることを確実にする制御方策の特性を確立することが理想である。

具体的には、いくつかの実施形態は、システムの状態はＡＤＰの目的ではなく、制御の安定性を確保するＡＤＰ解のパラメータ化の空間にすぎないという理解に基づいている。換言すれば、制御の安定性を確保するＡＤＰパラメータ化の他の任意の空間がＡＤＰベース適応制御に適している。

いくつかの実施形態は、状態空間を含む任意の空間が、ＡＤＰベース適応制御の安定性を確保することができるという理解に基づいている。そのような空間は、本明細書においてリフティングされた状態空間と称される。その上、状態空間とリフティングされた状態空間との間の関係は重要ではなく、未知のままにすることができる。換言すれば、システムのリフティングされた状態空間がシステムの状態空間に対して未知の全射マッピングを有する場合、そのようなリフティングされた状態空間を用いて、システムの安定制御を確保するＡＤＰベース適応制御をパラメータ化することができる。

そのため、いくつかの実施形態は、機械の状態空間からリフティングされた状態空間にＡＤＰベース適応制御をアップリフティングする（１００）。本明細書では、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスである。例えば、機械が電気モータである場合、電気モータの状態は、モータを流れる電流、モータの回転子の速度、及びモータの磁束を含む。本明細書では、システムのリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点におけるシステムの状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである。

図１Ｂは、いくつかの実施形態によって用いられる、本明細書において測定状態変数とも称される機械出力ｙ、状態ｘ、及びリフト状態ｚの間の関係の概略図を示している。全ての機械出力が出力空間Ｙ⊂Ｒ^Ｐ１７１を構成し、全ての機械状態が状態空間

１７２を構成し、全てのリフティングされた状態がリフティングされた状態空間

１７３を構成する。或る時点における機械出力ｙ（ｔ）は、出力空間のインスタンスであり、或る時点における機械状態ｘ（ｔ）は、状態空間のインスタンスであり、或る時点におけるリフティングされた状態ｚ（ｔ）は、リフティングされた状態空間のインスタンスである。典型的には、Ｙの次元は、Ｘの次元よりも低い。すなわち、ｐ＜ｎ_ｘである。出力空間は、状態空間の部分空間である。すなわち、空間Ｙは、状態空間Ｘに含まれる。同様に、リフティングされた状態空間Ｚは、典型的には、状態空間よりも大きい。すなわち、ｎ_ｚ＜ｎ_ｘである。

図１Ｃは、いくつかの実施形態によって用いられる、機械出力ｙ、状態ｘ、及びリフト状態ｚの間のマッピングの概略図を示している。例えば、状態空間ｘ（ｔ）は、測定状態変数ｙ（ｔ）よりも多くの情報を含み、これは、ｘ（ｔ）を所与として、ｙ（ｔ）は、ｘ（ｔ）をＹ：ｙ＝Ｐ_ｘ（ｘ）に向けて射影する（１８２）ことによって一意に決定することができることを意味する。任意のインスタンスｚ（ｔ）が少なくとも状態空間のインスタンスｘ（ｔ）と同じ量の情報を含むように、リフティングされた状態空間Ｚを規定することができることが理解される。すなわち、任意のｚ（ｔ）を所与として、ｚ（ｔ）をＸ：ｘ＝Ｐ_ｚ（ｚ）に全射する（１８４）ことによって、ｘ（ｔ）を一意に決定することができる。

そのため、Ｙから、射影１８４の規則を満足するＺにリフティングする（１８３）ことが必要とされる。そのようなリフティングは、空間ＸとＺとの間に全射マッピングが存在する場合に確実にすることができる。本明細書では、２つの空間又は領域の全射マッピングにおいて、終域の各要素は、領域の少なくとも１つの要素によってマッピングされる。数学的な観点では、全射マッピングは、セットＺからセットＸへの関数ｆによって表される全射は、ｆの終域ｘ内の全ての要素ｘについて、ｆ（ｚ）＝ｘとなるようなｆの領域Ｚ内の少なくとも１つの要素ｚが存在する場合、全射的（surjective又はonto）であるか又は全射（surjection）である。ｚが一意であることは必要とされず、関数ｆは、Ｚの１つ以上の要素を、Ｘの同じ要素にマッピングすることができる。

いくつかの実施形態は、状態空間の、リフティングされた状態空間へのリフティングは、制御システムの動態に基づいて行うことができるという認識に基づいている。システムの動態が既知である場合、そのようなリフティングを、状態空間とリフティングされた状態空間との間の既知の全射マッピングを結果として得られる予測可能な方法において行うことができる。システム動態が未知ではない場合、結果として得られる全射マッピングが未知になるときであっても、未知の動態についての状態空間をアップリフティングする方法が必要とされる。

いくつかの実施形態は、制御システムの未知の動態を、システムの動作の時系列出力データの導関数によって捕捉することができるという理解に基づいている。実際、少なくとも１つの測定状態変数の導関数は、複数の時点について測定された状態変数の値を用いて求めることができ、そのようにして、システムの未知の動態を捕捉する。加えて、導関数の解を求めることは、種々のタイプのシステムにとって計算上効率的である。

この理解を得た上で、システムの測定状態変数及びシステムの測定状態の導関数がそのようなリフティングされた状態空間を形成することができるということが更に理解される。導関数の次数は、制御システムの構造に依存する。しかしながら、高次の導関数であっても、システムの動態の劣決定のモデルに対する依拠を回避するとともに、制御されるシステムの全状態の測定を回避することができる計算上効率的な方法において生成することができる。

図１Ｄは、いくつかの実施形態による、測定状態変数の導関数を通じて所望のリフティングを達成する概略図を示している。例えば、リフティング動作は、測定状態変数及び少なくとも１つの測定状態変数の導関数の組み合わせが、全射マッピング１５８、すなわち、Ｐ_ｚ：Ｚ→Ｘが存在することを確実にするリフティングされた状態を規定するような微分器１５６によって達成される。

図１Ｅは、いくつかの実施形態による、機械１０３を制御する制御システムのブロック図を示している。制御システムは、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械１０３を制御するコントローラ１５１を含む。本明細書では、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスである。機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである。

制御システムは、時点のシーケンス１６４にわたってセンサ１５４によって測定された状態変数の測定値のシーケンス１６５を受け取る受信機１５５を含む。その時点について測定された状態変数は、その時点における機械の状態の一部を形成する。

制御システムは、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも１つの測定状態変数１６６の導関数を求める微分器１５６を含む。種々の実施形態において、測定状態変数及び少なくとも１つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する。

さらに、制御システムは、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新するプロセッサを含む。そのようにして、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力１６２を決定する。そのような制御入力１６２を用いて、機械の運動及び／又は状態を変更する（１１３）アクチュエータ１０２を駆動することができる。

例えば、現在の反復中、全状態ｘの代わりに、制御プロセス全体は、機械出力ｙ１６５によって駆動される。機械出力ｙ１６５は、機械を検知することを通じてセンサ１５４によって得られる。受信機１５５は、微分器１５６に出力１６５を送信する。微分器１５６は、リフティングされた状態ｚ、すなわち、リフティングされた状態空間Ｚのインスタンスを生成する。リフティングされた状態信号１６１は、コントローラ１５１に転送される。コントローラ１５１は、出力フィードバック制御方策ｕ（ｚ）又は摂動出力フィードバック制御方策ｕ_ｉ（ｚ，ｔ）＝ｕ_ｉ（ｚ）＋ｖ（ｔ）を実施する。ここで、ｖ（ｔ）は、摂動信号である。出力フィードバック制御方策は、リフト状態空間Ｚにわたって規定される。コントローラ１５１は、ｚ（ｔ）と表記される、時点ｔにおけるリフティングされた状態空間のインスタンスに基づいて制御コマンドｕ_ｉ（ｚ（ｔ））又はｕ_ｉ（ｚ（ｔ），ｔ）１６１を決定する。

アクチュエータ１０２は、機械１０３の入力として物理量１１３を生成する。プロセッサ１５７は、時間間隔［ｔ_１，ｔ_Ｎ］中、種々の時点ｔ_１、．．．、ｔ_Ｎにおけるリフティングされた状態のシーケンスｚ（ｔ_１）、．．．ｚ（ｔ_Ｎ）を収集し、リフティングされた状態空間にわたって規定された変更されたＰＩを行使することによって新たな出力フィードバック制御方策ｕ_ｉ＋１（ｚ）を決定する。変更されたＰＩは、擬似ＨＪＢを反復して解き、ここで、擬似ＨＪＢは、リフティングされた状態ｚにわたって規定される。新たな出力フィードバック制御方策が得られると、更新された制御方策は、時点ｔ_Ｎ後のリアルタイム制御のためにコントローラ１５１にプッシュされる（１１６）。

図２Ａ～図２Ｄは、いくつかの実施形態による、微分器の関数の異なる実施態様の概略図を示している。例えば、１つの実施形態では、微分器は、測定状態変数の各々の一次導関数を求めて、リフティングされた状態を生成する。この実施形態は、実施が単純であり、リフティングされた状態空間を形成するのに十分であるとすることができる。また、別の実施形態では、微分器は、測定状態変数の各々の二次導関数を求めて、リフティングされた状態を生成する。この実施形態は、全射マッピングを形成するより高い可能性を提供し、機械の構造が正確には既知ではない場合に有益である。

しかしながら、一般に、さまざまな実施形態において、微分器は、リフティングされた状態空間から状態空間への全射マッピングを結果としてもたらす次数まで測定状態変数の各々の時間導関数を求める。例えば、いくつかの実施形態では、微分器は、状態空間の次元よりも大きい次元を有するリフティングされた状態空間を結果としてもたらす次数まで測定状態変数の各々の時間導関数を求める。これは、リフティングされた空間の次元が状態空間の次元以上であるためである。

例えば、制御される機械が電気モータである場合、測定状態変数は、モータを流れる電流及びモータの速度である。測定されない状態変数は、測定するのが困難であり、及び／又は測定するのにコストがかかるモータの磁束である。１つの実施形態は、測定状態変数の一次導関数、すなわち、電流の導関数及びモータの速度のみを求める。測定状態変数及びそれらの導関数の組み合わせは、状態空間の次元よりも大きい次元を有するリフティングされた状態空間を結果としてもたらす。加えて、電気モータの構造は、そのようなリフティングされた状態空間がモータの状態空間に対する全射マッピングを有することを示す。そのようにして、いくつかの実施形態では、電気モータのリフティングされた状態は、電流の値、電流の導関数、速度、及びモータの速度の導関数によって形成される。

例えば、図２Ａに示すように、微分器１５６は、ｙを或る特定の次数ｍ－１に微分して、リフティングされた状態２０１、すなわち、ｚ＝［ｙ，．．．，ｙ^（ｍ）］^Ｔを形成する。ここで、２≦ｋ≦ｍ－１であるｙ^（ｋ）は、ｙのｋ次時間導関数を示す。次数ｍは、機械モデルのｆ，ｇに関する構造の知識及び機械状態ｘの次元を利用することによって決定することができる。

いくつかの実施形態では、ｆ，ｇの構造の知識は、ｆ，ｇがパラメトリック不確実性のみを含む。すなわち、ｆ，ｇがモデルパラメータの値を除いて既知であることを意味する。別の実施形態では、構造の知識ｆ，ｇは、以下の例によって詳述することができる。機械モデルは、

である。ここで、ｘ＝［ｘ_１，．．．，ｘ_ｎ］^Ｔである。θは、未知のパラメータのベクトルであり、また、

である。

そのような事例において、１つの実施形態は、ｙを以下のように繰り返し微分する。

ここで、ｙ^（ｋ）は、ｙのｋ次時間導関数を表している。ｋ－１次導関数は、ｘ_ｋに関する新たな情報を導入し、ｎ－１次導関数は、ｘ_ｎに関する情報を含む。この実施形態では、測定状態変数ｙは、少なくともｎ－１回微分されて、ｚがｘに関する全ての情報を含むことが確実なものとなる。

ｍ＝２である事例では、ｚは、２０２として規定される。

対応する出力フィードバック制御方策は、広く行われている比例導関数（ＰＤ）制御の形式を採る。

図２Ｂに示される別の実施形態は、測定状態変数ｙの積分を含むリフティングされた状態空間ｚを規定し、これにより、以下のようにリフティングされた状態ｚ２１１が与えられる。

ｍ＝２である場合、ｚは、２１２として規定される。

対応する出力フィードバック制御方策は、広く行われている比例積分導関数（ＰＩＤ）制御の形式を近似する。

別の実施形態では、リフティングされた状態空間は、出力及びその時間導関数、並びに制御及びその時間導関数を含む。誘導モータを一例として採る。角速度がω_１である回転フレームｄ－ｑにおけるモータモデルは、以下によって与えられる。

ここで、測定される信号を表すｙは、固定子巻線の電流である。

表記の定義は、表１において与えられる。モデルパラメータの少なくとも一部は未知である。一般性を失うことなく、未知のパラメータをθと表記する。

ｙを一度微分すると、以下が与えられる。

ｕは

において現れるので、ｕ_ｄｓ及びｕ_ｑｓを２つの拡張された状態ｘ_６＝ｕ_ｄｓ、ｘ_７＝ｕ_ｑｓとして処理することによって機械状態を拡張する必要がある。これにより、以下のような拡張されたモータモデルがもたらされる。

ここで、ｖ_ｄ、ｖ_ｑは、新たな制御入力であり、ｙ_ａは、制御及びその時間導関数を含む拡張された出力である。その場合、元の出力ｉ_ｄｓ、ｉ_ｑｓ、ωを微分するとともに、

を有することができる。ｚは、８次元であり、これは、ｘよりも多くの情報を明らかに含み、すなわち、ｘ＝Ｐ_ｚ（ｚ，θ）が全射である。一方、インスタンスｚを所与として、状態空間のインスタンスｘは、ほぼ全てのθについて一意に決定されることを検証することができる。したがって、ｚ∈Ｒ^８は、リフティングされた状態である。

図２Ｃは、モータの例に適したリフティングされた状態空間ｚを決定する別の実施形態を示している。この実施形態は、リフティングされた状態ｚを、拡張された出力ｙ_ａ、及び次数ｍ－１までのｙの時間導関数の組み合わせとして規定する。すなわち、リフティングされた状態ｚ２２１は、以下によって与えられる。

ｍ＝２の場合、リフティングされた状態２２２は、

である。

リフティングされた状態２２２を用いると、対応する出力フィードバック制御方策は、既知のＰＤ制御方策を一般化する。

図２Ｄに示す別の実施形態は、リフティングされた状態ｚを、拡張された出力ｙ_ａ、ｙの積分、及び次数ｙ^{（ｍ－１）}までのｙの時間導関数の組み合わせとして規定する。リフティングされた状態２３１は、以下によって与えられる。

ｍ＝２の場合、リフティングされた状態２３２は、

によって与えられる。

リフティングされた状態２３２を用いると、対応する出力フィードバック制御方策は、よく知られたＰＩＤ制御方策を一般化する。

誘導モータの事例において見られるように、元の機械状態は、ｙの時間導関数がｕ及びその導関数の関数である場合、拡張する必要がある場合がある。ｕ及びその時間導関数がアクセス可能であるので、それらは、機械状態ｘとともに、拡張された状態ｘ_ａを形成する。加えて、それらは、出力ｙに拡張されて、拡張された出力ｙ_ａが形成される。結果として、リフティングされた状態空間は、拡張された出力ｙ_ａ及び出力ｙの時間導関数を含む。

いくつかの状況では、制御設計者は、ｙの時間導関数の必要とされる次数を決定するのに十分なｆ，ｇの情報を有しない場合がある。そのために、ｎ_ｘが利用可能である場合ｎ_ｚ＞ｎ_ｘであるように十分にｙを微分することが必要とされる。

図２Ｅは、いくつかの実施形態による、制御される機械についてのリフティングされた状態を決定する方法のフローチャートを示している。例えば、１つの実施形態は、不確実性を含む機械モデルを用いる。モデル構造が既知である場合、１つの実施形態は、

の知識によってｘを一意に決定することができるように最小のｍ－１次を見つけるまで出力を微分することができる（２５２）。出力導関数が制御ｕ及びその時間導関数を引数として有する場合、いくつかの実施態様は、拡張された出力ｙ_ａを構築し（２５５）、拡張された出力に基づいてリフティングされた状態を規定する（２５５）。制御及びその時間導関数が

において現れない場合、ｙに基づいてリフティングされた状態を規定する（２５５）。

別の実施形態では、モデル構造２５１は、未知であり、この実施形態は、制御入力及び出力を通じて状態の次元を近似して確立することができるか否かを判断する（２５６）。ｎ_ｘが既知である場合、この実施形態は、［ｙ，．．．，ｙ^{（ｍ－１）}］の次元がｎ_ｘよりも大きいように最小次数ｍ－１を見つけるか、そうではない場合、２≦ｍ≦３を選ぶ。フローチャートの種々の実施形態を通じた取り組みは、リフティングされた状態空間２５９の規定に至る。

１つの実施形態では、出力フィードバック制御方策は、ｕ（ｚ）∈Ｕ_ｚ⊂Ｃ^１［０，Ｔ］であり、ただし、

である。任意の初期条件ｘ_０∈Ω_ｘについて、結果として得られる閉ループ系が安定である場合、ｕ（ｚ）は、許容可能である。これに対応して、Ｕ_ｚは、許容可能出力フィードバック制御セットと呼ばれる。Ｕ_ｚを、全ての許容可能出力フィードバック制御方策のセットと定義して、いくつかの実施態様は、Ｕ_ｚは、非空であることを仮定する。機械（１）についてのデータ駆動型出力フィードバック最適制御問題は、次のように定式化することができる。この定式化はすなわち、機械（１）を所与として、ｆ，ｇを知ることなく、コスト関数（２）を最小化するｕ^＊（ｚ）∈Ｕ_ｚ、すなわち、

を見つけることである。

ＰＩ中の（４）及び（５）がｘにわたってパラメータ化（規定）される状態フィードバックの事例とは異なり、ｚにわたって（４）及び（５）を再パラメータ化して、データ駆動型出力フィードバック制御合成を実行する必要がある。

図３は、いくつかの実施形態による、機械の動態及び状態を知ることなく、機械についてのデータ駆動型出力フィードバック最適制御方策を構築する方法の全体ブロック図を示している。リフティングされた状態空間２５９の定義を用いると、リフティングされた状態空間にわたって規定される擬似ＨＪＢがまず求められ（３０１）、次に、その近似解について解かれる（３０２）。そのようにして、プロセッサは、機械の動態及び状態を用いることなく、適応動的計画（ＡＤＰ）を用いて制御方策を更新する。種々の実施形態において、ＡＤＰは、リフティングされた状態空間にわたってパラメータ化された（３０１）ハミルトン－ヤコビ－ベルマン（ＨＪＢ）方程式の近似解を求める（３０２）。

図４Ａは、いくつかの実施形態による、リフティングされた状態空間にわたるＨＪＢ方程式のパラメータ化の概略図を示している。いくつかの実施態様では、パラメータ化３０１は、リフティングされた状態空間にわたる状態空間のパラメータ化４０１、リフティングされた状態空間にわたる値関数のパラメータ化４０２及びリフティングされた状態空間にわたる制御方策の重み付き勾配のパラメータ化４０３を含む。

例えば、いくつかの実施態様は、リフティングされた状態空間にわたる状態ｘのパラメータ化、すなわち、ｘを、ｚの関数として表すパラメータ化を導出する（４０１）。ここで、関数ｘ＝φ（ｚ）は、未知のパラメータを含む。次に、実施態様は、リフティングされた状態空間にわたる許容可能出力制御方策ｕ（ｚ）の結果として得られる値関数Ｖ（ｘ）のパラメータ化、すなわち、Ｖ（ｘ）を、ｚの関数として表すパラメータ化を導出し（４０２）、ここで、関数Ｖ_ｚ（ｚ）は、未知のパラメータを含み、実施態様は、リフティングされた状態空間にわたる重み付き勾配∇Ｖ（ｘ）ｇ（ｘ）のパラメータ化、すなわち、関数Ｗ（ｚ）によって表記されるｚの関数として∇Ｖ（ｘ）ｇ（ｘ）を表すパラメータ化を導出する（４０３）。

動態ｆ，ｇは、未知であるか又は部分的に未知であるため、厳密な表現φ（ｚ）を得るのは困難である。Ｖ_ｚ（ｚ）及びＷ（ｚ）についても同様である。これは、φ（ｚ）、Ｖ_ｚ（ｚ）、及びＷ（ｚ）が、ｚの全ての連続関数を含む無限次元関数空間Ｃ^０に属することを意味する。

図４Ｂは、１つの実施形態による、リフティングされた状態空間にわたるパラメータ化の概略図を示している。この実施形態は、関数空間にわたるφ（ｚ）、Ｖ_ｚ（ｚ）、及びＷ（ｚ）の線形パラメータ化４１１、４１２、４１３、例えば、

を決定し、ここで、それぞれ、

は、未知のパラメータ（後で係数とも称される）であり、

は、φ（ｚ）、Ｖ_ｚ（ｚ）、Ｗ（ｚ）の平滑基底関数である。線形パラメータ化４１１、４１２、４１３は、本質的には、それぞれ、状態φ（ｚ）、値関数Ｖ_ｚ（ｚ）、及び重み付き勾配Ｗ（ｚ）についての適切な基底関数４２１、４２２、４２３を選ぶように縮約される。１つの実施態様では、φ（ｚ）、Ｖ_ｚ（ｚ）及びＷ（ｚ）の基底関数は、計算効率のために多項式関数として選ばれる。

上述した線形パラメータ化を用いると、１つの実施形態は、リフティングされた状態空間にわたって規定される擬似ＨＪＢの形式を決定することができる。新たに得られた擬似ＨＪＢは、未知のパラメータ（値関数及び重み付き勾配の係数）及び既知のリフティングされた状態ｚから構成される。複数の時点における機械出力を所与として、線形パラメータ化により、新たな擬似ＨＪＢ（４）を線形方程式系に縮約することが可能になる。

図５Ａは、１つの実施形態による、リフティングされた状態空間にわたって規定される擬似ＨＪＢの近似解を求める（３０２）方法のブロック図を示している。各反復において、出力フィードバック制御方策ｕ（ｚ）（以下でＫ（ｚ）として同義で用いられる）及び摂動信号ｖ（ｔ）に従って、制御コマンド５１１は、機械１０３に適用され、複数の時点における機械出力５１２が用いられて、制御コマンドに対応する値関数及び重み付き勾配が求められる（５０１）。最後に、値関数及び重み付き勾配の未知のパラメータ（係数）が求められる（５０１）。重み付き勾配５１３の求められたパラメータが用いられて、次の反復についての出力フィードバック制御方策が更新される（５０２）。

図５Ｂは、別の実施形態による、リフティングされた状態空間にわたって規定される擬似ＨＪＢの近似解を求める（３０２）方法のブロック図を示している。各反復において、出力制御方策ｕ（ｚ）に従って、制御コマンド５３１は、機械１０３に適用され、複数の時点における機械出力５３２が用いられて、制御方策ｕ（ｚ）に対応する値関数の係数が求められる（５２１）。求解５２１は、値関数における係数の値、例えば、

を生成する。第２に、出力制御方策ｕ（ｚ）及び摂動信号ｖ（ｔ）に基づく制御コマンド５１１は、機械１０３に適用され、複数の時点における機械出力５１２及び値関数における係数の値５３３が用いられて、重み付き勾配の係数が求められる（５２２）。最後に、重み付き勾配のパラメータが用いられて、次の反復についての出力制御方策が更新される（５０２）。

図５Ｃは、１つの実施形態による、摂動信号を用いて摂動される制御方策の重み付き勾配を求める方法の概略図を示している。この実施形態は、時点ｔにおけるリフティングされた状態ｚ（ｔ）及び摂動信号ｖ（ｔ）に従って制御コマンド５３１及び５１１を構築する。いくつかの実施形態では、ｖ（ｔ）は、期待値がｕ（ｚ（ｔ））の振幅よりも小さい確率変数に従って生成される。

図６Ａは、１つの実施形態による、値関数及び重み付き勾配の係数を求める（５０１）方法のブロック図を示している。例えば、機械（１）は、以下の制御コマンドの対象である。

ここで、ｖ（ｔ）∈Ｒ^ｍである。結果として得られる閉ループ系は、

である。

この実施形態は、閉ループ系（８）の出力軌跡から値関数Ｖ_ｚ（ｚ）及び重み付き勾配∇Ｖｇを求める（５０１）。閉ループ系（８）の軌跡に沿って、時間間隔［ｔ，ｔ＋δ］中のＶの変化は、以下によって与えられる。

時点ｔ及びｔ＋δにおけるリフティングされた状態ｚの２つインスタンスを用いると、ΔΦ^Ｖ（ｔ）によって表記される値関数の基底関数の差は、以下のように評価される（４０１）。

制御方策ｕ（ｚ）のコスト関数は、［ｔ，ｔ＋δ］にわたって積分され（６０２）、すなわち、

となる。

重み勾配の基底関数は、［ｔ，ｔ＋δ］にわたって積分され（６０３）、すなわち、

となる。

［ｔ，ｔ＋δ］中の擬似ＨＪＢは、線形方程式

に縮約される。ここで、

であり、

である。

間隔［ｔ，ｔ＋δ，］、［ｔ＋δ，ｔ＋２δ］、．．．、［ｔ＋（Ｍ_ｊ－１）δ，ｔ＋Ｍ_ｊδ］（ただし、Ｎ＋ｑ≦Ｍ_ｊ＜∞）中の出力を集約することによって、線型方程式系は、以下のように形成することができる（６０４）。

ここで、Ψ＝［Ψ（ｔ），Ψ（ｔ＋δ），．．．，Ψ（ｔ＋Ｍ_ｊδ）］であり、ρ＝［ρ（ｔ），ρ（ｔ＋δ），．．．，ρ（ｔ＋Ｍ_ｊδ）］である。ΨΨ^Ｔが非特異（non-singular）である限り、

は、以下のように、一意に決定される（６０５）。

図６Ｂは、図６Ａの一実施形態の１つの例示の実施態様の擬似コードを示している。この実施態様は、

及び

を同時に決定する。図６Ｂの擬似コードにおいて、ｉは、ＰＩのインデックスであり、Ｍ_ｉは、反復の最大数であり、ｊは、良条件の線形方程式（９）を形成する測定値のエピソードを追跡し、Ｍ_ｊは、エピソードの最大数を示す。

図７Ａは、１つの実施形態による、制御方策に対応する値関数の係数を求める（５２１）方法のブロック図を示している。この実施形態は、制御方策更新の数値的安定性を改善する。この実施形態は、以下の閉ループ系の出力軌跡を通じてＶ_ｚ（ｚ）を求める。

閉ループ系（１０）の出力軌跡から、値関数の基底関数の差ΔΦ^Ｖ（ｔ）は、以下のように評価される（７０１）。

制御方策ｕ（ｚ）のコスト関数は、［ｔ，ｔ＋δ］にわたって積分され（７０２）、すなわち、

となる。

［ｔ，ｔ＋δ］中の擬似ＨＪＢは、線形方程式

に縮約される。

ｔ、ｔ＋δ、．．．、ｔ＋Ｍ_ｊδにおけるリフティングされた状態のシーケンスを用いると、連立線形方程式を形成して（７０３）、係数

について解く（７０４）ことができる。その場合、重み付き勾配∇Ｖｇの係数は、閉ループ系（８）の出力軌跡、及び７０４において求められた

の知識を利用することによって算出される。

図７Ｂは、１つの実施形態による、重み付き勾配の係数を求める（５２２）方法のブロック図を示している。図７Ｂに示すように、ｚ（ｔ）及びｚ（ｔ＋δ）を所与として、時点ｔ及びｔ＋δにおける値関数の差を評価することができる（７２１）。すなわち、

となる。

制御方策ｕ（ｚ）のコスト関数は、［ｔ，ｔ＋δ］にわたって積分され（７２２）、すなわち、

となる。

重み勾配の基底関数は、［ｔ，ｔ＋δ］にわたって積分され（７２３）、すなわち、

となる。

［ｔ，ｔ＋δ］中の擬似ＨＪＢは、線形方程式

に縮約される。

ｔ、ｔ＋δ、．．．、ｔ＋Ｍ_ｊδにおけるリフティングされた状態のシーケンスを用いると、連立線形方程式を形成して（７２４）、係数

について解く（７２５）ことができる。

図７Ｃは、図７Ａ及び／又は図７Ｂの実施形態の１つの例示の実施態様の擬似コードを示している。この実施態様は、データ駆動型ＰＩを以下の３つのステップに分割する。すなわち、ｉ＝０，１，．．．について、
１．方策評価：ｕ_ｉ（ｚ）＝Ｋ_ｉ（ｚ）を適用し、機械（１０）の出力を測定して、以下の線形方程式を構築し、

ここで、ΔΦ^Ｖ＝［ΔΦ^Ｖ，ΔΦ^Ｖ（ｔ）］、ρ＝［ρ，ρ（ｔ）］であり、

に式（１３）を解く。
２．勾配求解：以下の線形方程式

を形成して解くことによって、

を解く。
ここで、Ψ^Ｖｇ＝［ψ（ｔ），．．．，ψ（ｔ＋Ｍ_ｊδ）］及びΔΦ^Ｖ＝［ΔΦ^Ｖ（ｔ），．．．，ΔΦ^Ｖ（ｔ＋Ｍ_ｊδ）］は、機械（８）の出力によって生成される。
３．方策改善：制御方策５０２を更新する：

図８は、１つの実施形態による、モータを制御する制御システムのブロック図を示している。モータコントローラ８０３は、初期安定化出力フィードバック制御方策から開始し、種々の実施形態によって利用されるプロセスを通じて出力フィードバック最適制御方策を得る。８０１において基準磁束及び速度８１１が生成され、モータコントローラ８０３に送信される。モータコントローラは、メモリ８０２から実行可能コードを取り出し、モータ出力８１６に従って全てのサンプル時点におけるリフティングされた状態を決定し、リフティングされた状態空間にわたって制御方策に従って制御コマンドを生成し、複数の時点におけるモータ出力８１６のシーケンス（出力軌跡）に基づいて擬似ＨＪＢの近似解を解き、制御方策を更新する。モータコントローラは、１つの実施形態における好ましい三相ＡＣ電圧を表す制御コマンドをインバータ８０５に出力し、インバータ８０５は、次に、誘導モータ８０６への三相電圧を生成する。モータ動作ステータスは、センサ８０７によって検知される。１つの実施形態では、出力８１６は、固定子巻線内の電流、及び回転子速度を含む。リフティングされた状態空間の定義は、上記でも開示されている。

本発明の上記で説明した実施形態は、数多くの方法のうちの任意のもので実施することができる。例えば、これらの実施形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、ソフトウェアコードは、単一のコンピュータに設けられるか又は複数のコンピュータ間に分散されるかを問わず、任意の適したプロセッサ又はプロセッサの集合体上で実行することができる。そのようなプロセッサは、集積回路コンポーネントに１つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、任意の適した形式の回路部を用いて実施することができる。

さらに、コンピュータは、ラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ミニコンピュータ、又はタブレットコンピュータ等の複数の形態のうちの任意のもので具現化することができることが理解されるべきである。また、コンピュータは、１つ以上の入力デバイス及び出力デバイスを有することができる。これらのデバイスは、とりわけ、ユーザーインタフェースを提示するのに用いることができる。ユーザーインタフェースを提供するのに用いることができる出力デバイスの例には、出力の視覚的提示のためのプリンター又はディスプレイスクリーンと、出力の可聴提示のためのスピーカー又は他の音発生デバイスとが含まれる。ユーザーインタフェースに用いることができる入力デバイスの例には、キーボードと、マウス、タッチパッド、及び離散化タブレット等のポインティングデバイスとが含まれる。別の例として、コンピュータは、音声認識を通じて又は他の可聴フォーマットで入力情報を受信することができる。

そのようなコンピュータは、エンタープライズネットワーク又はインターネット等のローカルエリアネットワーク又はワイドエリアネットワークを含む１つ以上のネットワークによって任意の適した形態に相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワーク、又は光ファイバーネットワークを含むことができる。

また、本開示の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

Claims

機械を制御する制御システムであって、
機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御するコントローラであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、コントローラと、
時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取る受信機であって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受信機と、
前記或る時点について、複数の時点において測定された前記状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求める微分器であって、前記測定状態変数及び前記少なくとも１つの測定状態変数の導関数の組み合わせが、前記或る時点についてのリフティングされた状態を規定する、微分器と、
前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新するプロセッサであって、前記コントローラは、前記リフティングされた状態及び更新された前記制御方策を用いて前記機械への制御入力を決定するようになっている、プロセッサと、
を備える、制御システム。
制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電流及び前記電気モータの前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項１に記載の制御システム。
前記微分器は、前記測定状態変数の各々の一次導関数を求めて、前記リフティングされた状態を生成する、請求項１に記載の制御システム。
前記微分器は、前記測定状態変数の各々の二次導関数を求めて、前記リフティングされた状態を生成する、請求項３に記載の制御システム。
前記微分器は、前記リフティングされた状態空間から前記状態空間への前記全射マッピングを結果としてもたらす次数まで前記測定状態変数の各々の時間導関数を求める、請求項１に記載の制御システム。
前記微分器は、前記状態空間の次元よりも大きい次元を有する前記リフティングされた状態空間を結果としてもたらす次数まで前記測定状態変数の各々の時間導関数を求める、請求項１に記載の制御システム。
前記プロセッサは、前記機械の状態を用いることなく、適応動的計画（ＡＤＰ）を用いて前記制御方策を更新する、請求項１に記載の制御システム。
前記ＡＤＰは、前記リフティングされた状態空間にわたってパラメータ化されたハミルトン－ヤコビ－ベルマン（ＨＪＢ）方程式の近似解を求める、請求項７に記載の制御システム。
前記リフティングされた状態空間にわたる前記ＨＪＢ方程式の前記パラメータ化は、
前記リフティングされた状態空間にわたる前記状態空間のパラメータ化と、
前記リフティングされた状態空間にわたる前記値関数のパラメータ化と、
前記リフティングされた状態空間にわたる前記制御方策の重み付き勾配のパラメータ化と、
を含む、請求項８に記載の制御システム。
前記パラメータ化は、関数空間にわたって線形であり、前記関数空間における要素は、前記リフティングされた状態の微分可能関数であり、前記関数空間は、前記リフティングされた状態空間の全ての連続関数を含んでいる、請求項８に記載の制御システム。
前記関数空間の基底関数は、前記リフティングされた状態の多項式関数である、請求項１０に記載の制御システム。
前記ＡＤＰは、
前記リフティングされた状態の前記値関数を求めることと、
複数の時点について求められた前記値関数を用いて前記制御方策の前記重み付き勾配を求めることと、
前記重み付き勾配に従って前記制御方策を更新することと、
を反復して行うことによって前記近似解を求める、請求項９に記載の制御システム。
前記重み付き勾配は、摂動信号を用いて摂動される前記制御方策について求められる、請求項１２に記載の制御システム。
前記値関数は、未知の係数を有する基底関数を用いて前記リフティングされた状態空間上でパラメータ化され、前記値関数を求めることは、
前記時点のシーケンスにわたって前記値関数の前記基底関数を積分することと、
前記時点のシーケンスにわたって前記制御方策のコスト関数を積分することと、
によって形成される線形方程式の機械を解くことによって前記基底関数の係数を求めることを含む、請求項１２に記載の制御システム。
前記重み付き勾配は、未知の係数を有する基底関数を用いて前記リフティングされた状態空間上でパラメータ化され、前記重み付き勾配を求めることは、
時点のシーケンスについての前記値関数のシーケンスを求めることと、
前記時点のシーケンスにわたって前記重み付き勾配の前記基底関数を積分することと、
前記時点のシーケンスにわたって前記制御方策のコスト関数を積分することと、
によって形成される線形方程式の機械を解くことによって前記基底関数の係数を求めることを含む、請求項１２に記載の制御システム。
前記制御方策は、比例導関数制御として初期化される、請求項１に記載の制御システム。
機械を制御する制御方法であって、前記制御方法は、前記制御方法を実施する記憶された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記制御方法の少なくともいくつかのステップを実行し、前記制御方法は、
前記機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御することであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、制御することと、
時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受け取ることと、
前記或る時点について、複数の時点において測定された前記状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求めることであって、前記測定状態変数及び前記少なくとも１つの測定状態変数の導関数の組み合わせが、前記或る時点についての前記リフティングされた状態を規定する、求めることと、
前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新することであって、コントローラは、前記リフティングされた状態及び前記更新された制御方策を用いて前記機械への制御入力を決定するようになっている、更新することと、
を含む、制御方法。
制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電気モータの前記電流及び前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項１７に記載の制御方法。
方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記方法は、
機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御することであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、制御することと、
時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受け取ることと、
前記或る時点について、複数の時点について測定された前記状態変数の値を用いて少なくとも１つの測定状態変数の導関数を求めることであって、前記測定状態変数及び前記少なくとも１つの測定状態変数の導関数の組み合わせが、前記或る時点についての前記リフティングされた状態を規定する、求めることと、
前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新することであって、コントローラは、前記リフティングされた状態及び前記更新された制御方策を用いて前記機械への制御入力を決定するようになっている、更新することと、
を含む、記憶媒体。
制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電気モータの前記電流及び前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項１９に記載の記憶媒体。