JP7090734B2 - 制御システム、制御方法及び記憶媒体 - Google Patents

制御システム、制御方法及び記憶媒体 Download PDF

Info

Publication number
JP7090734B2
JP7090734B2 JP2020555252A JP2020555252A JP7090734B2 JP 7090734 B2 JP7090734 B2 JP 7090734B2 JP 2020555252 A JP2020555252 A JP 2020555252A JP 2020555252 A JP2020555252 A JP 2020555252A JP 7090734 B2 JP7090734 B2 JP 7090734B2
Authority
JP
Japan
Prior art keywords
state
machine
control
lifted
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020555252A
Other languages
English (en)
Other versions
JP2021517700A (ja
Inventor
ワン、イェビン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2021517700A publication Critical patent/JP2021517700A/ja
Application granted granted Critical
Publication of JP7090734B2 publication Critical patent/JP7090734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/34Director, elements to supervisory
    • G05B2219/34082Learning, online reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Description

本発明は、包括的には、適応制御に関し、より詳細には、部分的に観測された性能を用いたシステムのデータ駆動型出力フィードバック制御に関する。
強化学習(RL:Reinforcement learning)は、その環境からの観測された応答に基づいてエージェントの行動を系統的に変更する機械学習において用いられる方法の一クラスである。RLは、標準的な教師あり学習が適用可能でない場合に適用することができ、必要とする事前知識が少ない。RL法によって提供される利点を考慮して、制御システム研究者の近年の目標は、常微分方程式で記述することができる動的システムに最適なフィードバックコントローラをもたらすRL技法を導入し、発展させることである。これは、宇宙航空システム、車両、ロボットシステム、電気モータ、及び産業プロセスの多くのクラスを含む、人間により設計されるシステムの大半を含む。
最適制御は、一般的に、システム動態の全知識を必要とするオフライン設計技法であり、例えば、線形システムの事例では、リッカチ方程式を解かなければならない。一方で、適応制御は、システム軌跡に沿って測定されるデータを用いて、未知のシステム動態、擾乱、及びモデル化誤差を補償するように学習し、保証された性能を提供する一連のオンライン方法である。最適適応コントローラは、間接的技法を用いて設計されており、したがって、未知の機械がまず識別され、その後、リッカチ方程式が解かれる。性能インデックスを最適化する逆適応コントローラが提供されている。これは有用であるが、設計者に好まれるものではない。
未知のシステムについての最適解に収束する直接適応コントローラは、一般的に、発展が進んでいない。しかしながら、最適制御問題に関連付けられたハミルトン-ヤコビ-ベルマン(HJB:Hamilton-Jacobi-Bellman)方程式をオンラインで解くために種々の方策反復(PI)法及び値反復(VI)法が開発されている。とりわけ、そのような方法は、制御される動的システムの状態ベクトル全体の測定を必要とする。
例えば、PIは、2ステップ反復、すなわち、方策評価及び方策改善の反復として構築される方法の一クラスを指す。HJB方程式を解く直接手法を試みる代わりに、PIは、所与の初期許容可能(安定化)コントローラのコスト/値を評価することによって開始する。その場合、この方策に関連付けられたコストは、新たな改善された制御方策(すなわち、以前の制御方策よりも低い関連付けられたコストを有することになる制御方策)を得るのに用いられる。これは、多くの場合、新たなコストに対するハミルトン関数を最小化することによって達成される。結果として得られる方策は、このように、新たなコストに対する貪欲方策更新に基づいて得られる。方策評価及び方策改善のこれらの2つのステップは、方策改善ステップが実際の方策をもはや変更することがなく、かつ最適コントローラへの収束が達成されるまで繰り返される。許容可能制御方策の場合には、所与の方策に関連付けられた無限ホライズンコストのみを評価することができる。これは、制御方策は、安定化させなければならないことを意味することに留意しなければならない。
近似動的計画(ADP:Approximate dynamic programming)は、動的システムのフィードバック制御を含む多様な応用において重要性を示している強化学習法の一クラスである。ADPは、一般的に、システム内部状態に関する全情報を必要とするが、全情報は、実用時の状況では通常利用可能ではない。実際、種々の制御アルゴリズム(例えば、状態フィードバック)が全状態知識を必要とするが、実用時の実施態様では、状態ベクトル全体の測定値を取得することは、実現可能ではない。
状態ベクトルは、一般的に、システムの出力を測定することによって利用可能な、システムに関する部分情報に基づいて推定される。しかしながら、状態推定技法は、システム動態の既知のモデルを必要とする。不都合なことに、いくつかの状況では、システム動態が厳密には既知ではないため、最適状態推定器を設計し実装することは困難である。
システムの全状態の欠如により、ADPが適応制御応用に適用不能となるが、これは望ましいことではない。したがって、部分的に観測可能な状態及び劣決定の動態のみを用いたシステムのデータ駆動型出力フィードバック制御のためのシステム及び方法が必要とされている。
いくつかの実施の形態の目標は、劣決定の動態とともにシステムの状態の一部のみを表す観測可能な出力を用いたシステムのデータ駆動型出力フィードバック制御のためのシステム及び方法を提供することである。別の目標は、部分的に観測可能な状態及び劣決定の動態を用いたシステムの適応制御のための近似動的計画(ADP)解を提供することである。
いくつかの実施の形態は、ADPが、一般的に、システム内部状態に関する全情報を必要とするが、全情報は、実用時の状況では通常利用可能ではないという認識に基づいている。全状態が利用不能である場合、部分状態を用いるADP方法は、システムの制御を不安定化させる制御方策となる可能性がある。
しかしながら、いくつかの実施の形態は、システムの状態はADPの目的ではなく、制御の安定性を確保するADP解のパラメータ化の空間にすぎないという理解に基づいている。換言すれば、制御の安定性を確保するADPパラメータ化の他の任意の空間がADPベース適応制御に適している。
いくつかの実施の形態は、状態空間を含む任意の空間が、ADPベース適応制御の安定性を確保することができるという理解に基づいている。そのような空間は、本明細書においてリフティングされた(lifted)状態空間と称される。その上、状態空間とリフティングされた状態空間との間の関係は重要ではなく、未知のままにすることができる。換言すれば、システムのリフティングされた状態空間がシステムの状態空間に対して未知の全射マッピング(onto mapping)を有する場合、そのようなリフティングされた状態空間を用いて、システムの安定制御を確保するADPベース適応制御をパラメータ化することができる。
いくつかの実施の形態は、状態空間の、リフティングされた状態空間へのリフティングは、制御システムの動態に基づいて行うことができるという認識に基づいている。システムの動態が未知である場合、そのようなリフティングを、状態空間とリフティングされた状態空間との間の既知の全射マッピングを、結果として得られる予測可能な方法において行うことができる。システム動態が未知ではない場合、結果として得られる全射マッピングが未知になるときであっても、未知の動態についての状態空間をアップリフティングする方法が必要とされる。
いくつかの実施の形態は、制御システムの未知の動態を、システムの動作の時系列出力データの導関数によって捕捉することができるという理解に基づいている。実際、少なくとも1つの測定状態変数の導関数は、複数の時点について測定された状態変数の値を用いて求めることができ、そのようにして、システムの未知の動態を捕捉する。加えて、導関数の解を求めることは、種々のタイプのシステムにとって計算上効率的である。
この理解を得た上で、システムの測定状態変数及びシステムの測定状態の導関数がそのようなリフティングされた状態空間を形成することができるということが更に理解される。導関数の次数は、制御システムの構造に依存する。しかしながら、高次の導関数であっても、システムの動態の劣決定のモデルに対する依拠することを回避するとともに、制御されるシステムの全状態の測定を回避することができる計算上効率的な方法において生成することができる。
そのため、いくつかの実施の形態は、制御されるシステムの状態空間から制御システムのリフティングされた状態空間へのADPベース適応制御のパラメータ化を変更する。例えば、いくつかの実施の形態では、状態空間、制御方策、制御方策の勾配、及びリフティングされた状態空間にわたるADPベース適応制御の値関数のうちの1つ又は組み合わせをパラメータ化する。
ADPベース適応制御の原理に従って、システムは、システムの出力に基づくシステムの制御中に、オンラインで更新される制御方策に従って制御される。例えば、本明細書では、リフティングされた状態空間上でパラメータ化される制御方策は、制御方策が、リフティングされた状態空間のインスタンスの値及び関数の係数の値に基づいてシステムへの制御入力を出力するために、リフティングされた状態空間のインスタンスを引数として受け取る関数であることを意味する。本明細書では、制御方策の更新は、関数の少なくとも1つの係数の更新である。関数の係数を、関数の入力/引数及び出力と混同してはいけない。
したがって、1つの実施の形態は、機械を制御する制御システムを開示する。この制御システムは、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御するコントローラであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、コントローラと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取る受信機であって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受信機と、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求める微分器であって、測定状態変数及び少なくとも1つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する、微分器と、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新するプロセッサであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、プロセッサとを備える。
別の実施の形態は、機械を制御する制御方法を開示する。この方法は、この方法を実施する記憶された命令と結合されたプロセッサを使用し、命令は、プロセッサによって実行されると、方法の少なくともいくつかのステップを実行する。この方法は、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御することであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、制御することと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受け取ることと、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求めることであって、測定状態変数及び少なくとも1つの測定状態変数の導関数の組み合わせが、時点についてのリフティングされた状態を規定する、求めることと、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新することであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、更新することとを含む。
更に別の実施の形態は、方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、方法は、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械を制御することであって、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスであり、機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである、制御することと、時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、その時点について測定された状態変数は、その時点における機械の状態の一部を形成する、受け取ることと、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求めることであって、測定状態変数及び少なくとも1つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する、求めることと、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新することであって、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力を決定するようになっている、更新することとを含む、記憶媒体を開示する。
ADPベース適応制御を介したデータ駆動型状態フィードバック最適制御方策のためにいくつかの実施形態によって利用されるいくつかの原理の概略図である。 いくつかの実施形態によって用いられる、機械出力、機械の状態、及び機械のリフト状態の間の関係の概略図である。 いくつかの実施形態によって用いられる、機械出力、機械の状態、及び機械のリフト状態の間のマッピングの概略図である。 いくつかの実施形態による、測定状態変数の導関数を通じて所望のリフティングを達成する概略図である。 いくつかの実施形態による、機械を制御する制御システムのブロック図である。 いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。 いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。 いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。 いくつかの実施形態による、微分器の関数の異なる実施態様の概略図である。 いくつかの実施形態による、制御される機械のリフティングされた状態を決定する方法のフローチャートである。 いくつかの実施形態による、機械の動態及び状態を知ることなく、機械についてのデータ駆動型出力フィードバック最適制御方策を構築する方法の全体ブロック図である。 いくつかの実施形態による、リフティングされた状態空間にわたるHJB方程式のパラメータ化の概略図である。 1つの実施形態による、リフティングされた状態空間にわたるパラメータ化の概略図である。 1つの実施形態による、リフティングされた状態空間にわたって規定される擬似HJBの近似解を求める方法のブロック図である。 別の実施形態による、リフティングされた状態空間にわたって規定される擬似HJBの近似解を求める方法のブロック図である。 1つの実施形態による、摂動信号を用いて摂動される制御方策の重み付き勾配を求める方法の概略図である。 1つの実施形態による、値関数及び重み付き勾配の係数を求める方法のブロック図である。 図6Aの実施形態の1つの例示の実施態様の擬似コードである。 1つの実施形態による、制御方策に対応する値関数の係数を求める方法のブロック図である。 1つの実施形態による、重み付き勾配の係数を求める方法のブロック図である。 図7A及び/又は図7Bの実施形態の1つの例示の実施態様の擬似コードである。 1つの実施形態による、モータを制御する制御システムのブロック図である。
図1Aは、ADPベース適応制御を介したデータ駆動型状態フィードバック最適制御方策のためにいくつかの実施形態によって利用されるいくつかの原理の概略図を示している。ADPベース適応制御は、反復して実行する。提示を簡単にするために、本開示では、制御応用に必要な限り繰り返すことができる1回の反復内の方法論を論述する。
本明細書では、機械は、入力信号(入力)によって制御することができる任意の装置である。入力信号は、電圧、圧力、力等の物理量に関連付けることができる。機械は、出力信号(出力)を生成する。出力は、機械の運動を表すことができるとともに、電流、流動、速度、位置等の他の物理量に関連付けることができる。典型的に、出力は、以前の出力信号の一部又は全て、並びに以前及び現在の入力信号の一部又は全てに関係付けられる。しかしながら、機械の出力された運動は、その動作中の機械に対する制約に起因して実現可能ではない場合がある。入力及び出力は、コントローラによって処理される。
機械の動作は、現在及び以前の入力並びに以前の出力の関数としての経時的な出力の変化を表す連立方程式(a set of equations)によってモデル化することができる。動作中、機械は、機械の状態によって規定することができる。機械の状態は、モデル及び未来の入力とともに未来の運動を規定することができる、一般に時間変動する情報の任意のセットである。例えば、機械の状態は、現在及び過去の入力及び出力の適切なサブセットを含むことができる。
機械を制御する制御システムは、方法を実行するプロセッサ、及びモデルを記憶するメモリを含む。方法は、固定又は可変の期間中に実行される。コントローラは、機械出力及び機械運動を受信する。コントローラは、出力及び運動を用いて、機械の入力を生成する。
いくつかの実施形態では、以下の動的機械を検討する。
Figure 0007090734000001
ここで、
Figure 0007090734000002
は、機械状態ベクトルである。Ωは、その内部に原点を含むコンパクト集合(compact set)である。u∈Rは、制御入力である。
Figure 0007090734000003
は、ベクトル場である。
Figure 0007090734000004
は、m個の平滑ベクトル場からなる。
Figure 0007090734000005
は、p個の平滑関数からなるベクトルである。状態フィードバック制御方策u(x)∈U⊂C[0,T]は、任意の初期状態x∈Ωについて、結果として得られる閉ループ系が安定である場合、許容可能である。これに対応して、Uは、許容可能状態フィードバック制御セットと呼ばれる。さらに、状態フィードバック最適制御設計は、以下のコスト関数、すなわち、
Figure 0007090734000006
を最小化するu(x)を構築することである。ここで、Q及びRは、正定値行列である。T=∞を有するコスト関数(2)を得ることは一般性を失わない。そのような事例の場合、許容可能状態フィードバック制御方策は、コスト関数の有限値と、安定した閉ループ系とを得るべきである。機械(1)についての状態フィードバック最適制御問題は、次のように定式化することができる。この定式化はすなわち、機械(1)を所与として、コスト関数(2)を最小化するu(x)∈U、すなわち、
Figure 0007090734000007
を見つけることである。
動的計画に従って、状態フィードバック最適制御問題に対する解u(x)は、以下のハミルトン-ヤコビ-ベルマン(HJB)方程式を解くことによって得ることができる。
Figure 0007090734000008
ただし、V(x(∞))=0及び∇V=∂V/∂xである。HJBの閉形式解は、確立するのが困難であることで有名である。その代わりに、近似解を取得するのに適応動的計画(ADP:Adaptive Dynamic Programming)技法、例えば、方策反復(PI)又は値反復(VI)が活用される。PIとVIとの間に類似性があるため、本開示は、PI法に焦点を当てるが、当業者であれば、VI法をいくつかの実施形態に拡張できることを容易に認識するであろう。
状態測定値を有する機械(1)についてのPIは、最適状態フィードバック方策を解くというものである。PIは、以下の2つの反復されるステップにおいて要約される。ただし、i=0,1,...である。許容可能状態フィードバック制御方策u(x)が既知であると仮定する。その場合、PIは、以下を満たす正定値関数V(x)について解く方策評価を可能にし、以下の式を満たす。
Figure 0007090734000009
ここで、∇V=∂V(x)/∂xは、行ベクトルであり、u(x)は、第iの反復中の状態フィードバック制御方策である。次に、PIは、以下に従って、制御方策を更新する方策改善を可能にする。
Figure 0007090734000010
このような定式化は、擬似HJB(4)の閉形式解を確立するのが困難である一階線形偏微分方程式(PDE)系を形成する。その代わり、近似解が、実際的には関心対象である。u及びVのパラメータ化を所与として、擬似HJB(4)を代数方程式に変換することができ、近似解を計算することができる。2つのステップ(4)及び(5)は、収束に達するまで繰り返されるものとする。
状態フィードバック最適制御方策のADPは、全機械状態の測定値を必要とする。機械が線形時間不変(LTI)、例えば、状態フィードバック最適安定化、状態フィードバック最適出力規制等である場合、その成功は特に高く評価されている。機械が非線形である場合、その応用は、状態フィードバックの事例、例えば、状態フィードバック最適安定化に厳格に制限されている。本発明者らが知る限りでは、非線形機械のためにデータ駆動型出力フィードバック最適制御を解くことに対する探求は、これまでのところ無駄である。
そのため、いくつかの実施形態では、現在の、例えば、第iの反復について、コントローラは、状態フィードバック制御方策u(x)を実施し(101)、状態x(t) 111に基づいて任意の時点tにおける制御コマンドu(x(t)) 112を決定する。ここで、x(t)は、機械103を検知するセンサ104から受信される(106)。アクチュエータ102は、機械103の入力として物理量113を生成する。プロセッサ107は、或る範囲の時間[t,t]中の種々の時点t、...、tにおいて状態のシーケンスx(t)、...、x(t)を収集し、PIを行使することによって、新たな状態フィードバック制御方策ui+1(x)を決定する。これは、擬似HJBを反復して解くことに基づいて実行され、ここで、擬似HJBは、状態xにわたって規定される。新たな状態フィードバック制御方策は、時点t後のリアルタイム制御のためにコントローラ101を更新する(116)。
制御コマンド112の物理的意味、アクチュエータ102のタイプ及び物理量113は、機械に依存して大幅に変動する。一例として、機械が三相AC電気モータである場合、アクチュエータは、電圧形インバータとすることができる。このインバータは、三相電圧をモータに出力する。温度制御の例では、制御コマンド112は、冷媒パイプのバルブの開放のパーセンテージを表すことができ、一方、アクチュエータは、電磁バルブとすることができ、113は、パイプ内の冷媒の流速を表す。
いくつかの実施形態は、変更されたPIを介してデータ駆動型出力フィードバック最適制御問題を解く方法を開示する。ここで、全状態xではなく、機械出力yのみがセンサによって検知されるとともに、変更されたPIにおいて用いられる。図1Aに示すように、各時点tにおいて、センサは、機械103の動作を検知し(114)、機械出力y(t) 115のインスタンスを生成する。機械出力y(t)は、ADP適応制御を不安定にする状態x(t)に関する部分的情報を含む。図1Aにおけるxをyにブラインド置換すること(blindly replacing)(116)(これは、出力フィードバック制御方策がu(y)の表現を取ることを意味する)は、安定化u(y)に基づく新たな出力制御方策ui+1(y)が機械を安定化させることができることを確保することができない。推定器は、その出力yから機械状態を推論することができるものの、一般的に、機械の動態のモデルにおけるf,g関数の十分な知識を必要とする。しかしながら、種々の実施形態は、機械モデルが完全に未知である又は大部分が未知である場合、すなわち、f,gが完全に又は部分的に未知である場合の状況に対処する。そのようなシナリオにおいて、推定器は、機械状態xを得るためにほとんど有用ではない。
いくつかの実施形態は、パラメータ化が、結果として得られる閉ループ系の安定性に影響を及ぼすので、許容可能出力フィードバック制御方策の適切なパラメータ化(形式)を選ぶことが有益であり得るという認識に基づいている。PI処理は、反復して実行されるにつれ、過去の制御方策に基づいて新たな制御方策を生み出す。過去の制御方策が機械を安定化させる限り、次の反復のための新たな制御方策が機械を安定化させることを確実にする制御方策の特性を確立することが理想である。
具体的には、いくつかの実施形態は、システムの状態はADPの目的ではなく、制御の安定性を確保するADP解のパラメータ化の空間にすぎないという理解に基づいている。換言すれば、制御の安定性を確保するADPパラメータ化の他の任意の空間がADPベース適応制御に適している。
いくつかの実施形態は、状態空間を含む任意の空間が、ADPベース適応制御の安定性を確保することができるという理解に基づいている。そのような空間は、本明細書においてリフティングされた状態空間と称される。その上、状態空間とリフティングされた状態空間との間の関係は重要ではなく、未知のままにすることができる。換言すれば、システムのリフティングされた状態空間がシステムの状態空間に対して未知の全射マッピングを有する場合、そのようなリフティングされた状態空間を用いて、システムの安定制御を確保するADPベース適応制御をパラメータ化することができる。
そのため、いくつかの実施形態は、機械の状態空間からリフティングされた状態空間にADPベース適応制御をアップリフティングする(100)。本明細書では、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスである。例えば、機械が電気モータである場合、電気モータの状態は、モータを流れる電流、モータの回転子の速度、及びモータの磁束を含む。本明細書では、システムのリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点におけるシステムの状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである。
図1Bは、いくつかの実施形態によって用いられる、本明細書において測定状態変数とも称される機械出力y、状態x、及びリフト状態zの間の関係の概略図を示している。全ての機械出力が出力空間Y⊂R 171を構成し、全ての機械状態が状態空間
Figure 0007090734000011
172を構成し、全てのリフティングされた状態がリフティングされた状態空間
Figure 0007090734000012
173を構成する。或る時点における機械出力y(t)は、出力空間のインスタンスであり、或る時点における機械状態x(t)は、状態空間のインスタンスであり、或る時点におけるリフティングされた状態z(t)は、リフティングされた状態空間のインスタンスである。典型的には、Yの次元は、Xの次元よりも低い。すなわち、p<nである。出力空間は、状態空間の部分空間である。すなわち、空間Yは、状態空間Xに含まれる。同様に、リフティングされた状態空間Zは、典型的には、状態空間よりも大きい。すなわち、n<nである。
図1Cは、いくつかの実施形態によって用いられる、機械出力y、状態x、及びリフト状態zの間のマッピングの概略図を示している。例えば、状態空間x(t)は、測定状態変数y(t)よりも多くの情報を含み、これは、x(t)を所与として、y(t)は、x(t)をY:y=P(x)に向けて射影する(182)ことによって一意に決定することができることを意味する。任意のインスタンスz(t)が少なくとも状態空間のインスタンスx(t)と同じ量の情報を含むように、リフティングされた状態空間Zを規定することができることが理解される。すなわち、任意のz(t)を所与として、z(t)をX:x=P(z)に全射する(184)ことによって、x(t)を一意に決定することができる。
そのため、Yから、射影184の規則を満足するZにリフティングする(183)ことが必要とされる。そのようなリフティングは、空間XとZとの間に全射マッピングが存在する場合に確実にすることができる。本明細書では、2つの空間又は領域の全射マッピングにおいて、終域の各要素は、領域の少なくとも1つの要素によってマッピングされる。数学的な観点では、全射マッピングは、セットZからセットXへの関数fによって表される全射は、fの終域x内の全ての要素xについて、f(z)=xとなるようなfの領域Z内の少なくとも1つの要素zが存在する場合、全射的(surjective又はonto)であるか又は全射(surjection)である。zが一意であることは必要とされず、関数fは、Zの1つ以上の要素を、Xの同じ要素にマッピングすることができる。
いくつかの実施形態は、状態空間の、リフティングされた状態空間へのリフティングは、制御システムの動態に基づいて行うことができるという認識に基づいている。システムの動態が既知である場合、そのようなリフティングを、状態空間とリフティングされた状態空間との間の既知の全射マッピングを結果として得られる予測可能な方法において行うことができる。システム動態が未知ではない場合、結果として得られる全射マッピングが未知になるときであっても、未知の動態についての状態空間をアップリフティングする方法が必要とされる。
いくつかの実施形態は、制御システムの未知の動態を、システムの動作の時系列出力データの導関数によって捕捉することができるという理解に基づいている。実際、少なくとも1つの測定状態変数の導関数は、複数の時点について測定された状態変数の値を用いて求めることができ、そのようにして、システムの未知の動態を捕捉する。加えて、導関数の解を求めることは、種々のタイプのシステムにとって計算上効率的である。
この理解を得た上で、システムの測定状態変数及びシステムの測定状態の導関数がそのようなリフティングされた状態空間を形成することができるということが更に理解される。導関数の次数は、制御システムの構造に依存する。しかしながら、高次の導関数であっても、システムの動態の劣決定のモデルに対する依拠を回避するとともに、制御されるシステムの全状態の測定を回避することができる計算上効率的な方法において生成することができる。
図1Dは、いくつかの実施形態による、測定状態変数の導関数を通じて所望のリフティングを達成する概略図を示している。例えば、リフティング動作は、測定状態変数及び少なくとも1つの測定状態変数の導関数の組み合わせが、全射マッピング158、すなわち、P:Z→Xが存在することを確実にするリフティングされた状態を規定するような微分器156によって達成される。
図1Eは、いくつかの実施形態による、機械103を制御する制御システムのブロック図を示している。制御システムは、機械の状態空間に対する未知の全射マッピングを有する機械のリフティングされた状態空間上にパラメータ化された制御方策に従って機械103を制御するコントローラ151を含む。本明細書では、機械の状態は、或る時点における機械を一意に規定する状態空間内のインスタンスである。機械のリフティングされた状態は、その時点におけるリフティングされた状態空間が、その時点における機械の状態に対する未知の全射マッピングを有するように、その時点における機械を規定するリフティングされた状態空間内のインスタンスである。
制御システムは、時点のシーケンス164にわたってセンサ154によって測定された状態変数の測定値のシーケンス165を受け取る受信機155を含む。その時点について測定された状態変数は、その時点における機械の状態の一部を形成する。
制御システムは、その時点について、複数の時点について測定された状態変数の値を用いて少なくとも1つの測定状態変数166の導関数を求める微分器156を含む。種々の実施形態において、測定状態変数及び少なくとも1つの測定状態変数の導関数の組み合わせが、その時点についてのリフティングされた状態を規定する。
さらに、制御システムは、リフティングされた状態を用いて制御方策の値関数を評価することによって制御方策を更新するプロセッサを含む。そのようにして、コントローラは、リフティングされた状態及び更新された制御方策を用いて機械への制御入力162を決定する。そのような制御入力162を用いて、機械の運動及び/又は状態を変更する(113)アクチュエータ102を駆動することができる。
例えば、現在の反復中、全状態xの代わりに、制御プロセス全体は、機械出力y 165によって駆動される。機械出力y 165は、機械を検知することを通じてセンサ154によって得られる。受信機155は、微分器156に出力165を送信する。微分器156は、リフティングされた状態z、すなわち、リフティングされた状態空間Zのインスタンスを生成する。リフティングされた状態信号161は、コントローラ151に転送される。コントローラ151は、出力フィードバック制御方策u(z)又は摂動出力フィードバック制御方策u(z,t)=u(z)+v(t)を実施する。ここで、v(t)は、摂動信号である。出力フィードバック制御方策は、リフト状態空間Zにわたって規定される。コントローラ151は、z(t)と表記される、時点tにおけるリフティングされた状態空間のインスタンスに基づいて制御コマンドu(z(t))又はu(z(t),t) 161を決定する。
アクチュエータ102は、機械103の入力として物理量113を生成する。プロセッサ157は、時間間隔[t,t]中、種々の時点t、...、tにおけるリフティングされた状態のシーケンスz(t)、...z(t)を収集し、リフティングされた状態空間にわたって規定された変更されたPIを行使することによって新たな出力フィードバック制御方策ui+1(z)を決定する。変更されたPIは、擬似HJBを反復して解き、ここで、擬似HJBは、リフティングされた状態zにわたって規定される。新たな出力フィードバック制御方策が得られると、更新された制御方策は、時点t後のリアルタイム制御のためにコントローラ151にプッシュされる(116)。
図2A~図2Dは、いくつかの実施形態による、微分器の関数の異なる実施態様の概略図を示している。例えば、1つの実施形態では、微分器は、測定状態変数の各々の一次導関数を求めて、リフティングされた状態を生成する。この実施形態は、実施が単純であり、リフティングされた状態空間を形成するのに十分であるとすることができる。また、別の実施形態では、微分器は、測定状態変数の各々の二次導関数を求めて、リフティングされた状態を生成する。この実施形態は、全射マッピングを形成するより高い可能性を提供し、機械の構造が正確には既知ではない場合に有益である。
しかしながら、一般に、さまざまな実施形態において、微分器は、リフティングされた状態空間から状態空間への全射マッピングを結果としてもたらす次数まで測定状態変数の各々の時間導関数を求める。例えば、いくつかの実施形態では、微分器は、状態空間の次元よりも大きい次元を有するリフティングされた状態空間を結果としてもたらす次数まで測定状態変数の各々の時間導関数を求める。これは、リフティングされた空間の次元が状態空間の次元以上であるためである。
例えば、制御される機械が電気モータである場合、測定状態変数は、モータを流れる電流及びモータの速度である。測定されない状態変数は、測定するのが困難であり、及び/又は測定するのにコストがかかるモータの磁束である。1つの実施形態は、測定状態変数の一次導関数、すなわち、電流の導関数及びモータの速度のみを求める。測定状態変数及びそれらの導関数の組み合わせは、状態空間の次元よりも大きい次元を有するリフティングされた状態空間を結果としてもたらす。加えて、電気モータの構造は、そのようなリフティングされた状態空間がモータの状態空間に対する全射マッピングを有することを示す。そのようにして、いくつかの実施形態では、電気モータのリフティングされた状態は、電流の値、電流の導関数、速度、及びモータの速度の導関数によって形成される。
例えば、図2Aに示すように、微分器156は、yを或る特定の次数m-1に微分して、リフティングされた状態201、すなわち、z=[y,...,y(m)を形成する。ここで、2≦k≦m-1であるy(k)は、yのk次時間導関数を示す。次数mは、機械モデルのf,gに関する構造の知識及び機械状態xの次元を利用することによって決定することができる。
いくつかの実施形態では、f,gの構造の知識は、f,gがパラメトリック不確実性のみを含む。すなわち、f,gがモデルパラメータの値を除いて既知であることを意味する。別の実施形態では、構造の知識f,gは、以下の例によって詳述することができる。機械モデルは、
Figure 0007090734000013
である。ここで、x=[x,...,xである。θは、未知のパラメータのベクトルであり、また、
Figure 0007090734000014
である。
そのような事例において、1つの実施形態は、yを以下のように繰り返し微分する。
Figure 0007090734000015
ここで、y(k)は、yのk次時間導関数を表している。k-1次導関数は、xに関する新たな情報を導入し、n-1次導関数は、xに関する情報を含む。この実施形態では、測定状態変数yは、少なくともn-1回微分されて、zがxに関する全ての情報を含むことが確実なものとなる。
m=2である事例では、zは、202として規定される。
Figure 0007090734000016
対応する出力フィードバック制御方策は、広く行われている比例導関数(PD)制御の形式を採る。
図2Bに示される別の実施形態は、測定状態変数yの積分を含むリフティングされた状態空間zを規定し、これにより、以下のようにリフティングされた状態z 211が与えられる。
Figure 0007090734000017
m=2である場合、zは、212として規定される。
Figure 0007090734000018
対応する出力フィードバック制御方策は、広く行われている比例積分導関数(PID)制御の形式を近似する。
別の実施形態では、リフティングされた状態空間は、出力及びその時間導関数、並びに制御及びその時間導関数を含む。誘導モータを一例として採る。角速度がωである回転フレームd-qにおけるモータモデルは、以下によって与えられる。
Figure 0007090734000019
ここで、測定される信号を表すyは、固定子巻線の電流である。
表記の定義は、表1において与えられる。モデルパラメータの少なくとも一部は未知である。一般性を失うことなく、未知のパラメータをθと表記する。
Figure 0007090734000020
yを一度微分すると、以下が与えられる。
Figure 0007090734000021
uは
Figure 0007090734000022
において現れるので、uds及びuqsを2つの拡張された状態x=uds、x=uqsとして処理することによって機械状態を拡張する必要がある。これにより、以下のような拡張されたモータモデルがもたらされる。
Figure 0007090734000023
ここで、v、vは、新たな制御入力であり、yは、制御及びその時間導関数を含む拡張された出力である。その場合、元の出力ids、iqs、ωを微分するとともに、
Figure 0007090734000024
を有することができる。zは、8次元であり、これは、xよりも多くの情報を明らかに含み、すなわち、x=P(z,θ)が全射である。一方、インスタンスzを所与として、状態空間のインスタンスxは、ほぼ全てのθについて一意に決定されることを検証することができる。したがって、z∈Rは、リフティングされた状態である。
図2Cは、モータの例に適したリフティングされた状態空間zを決定する別の実施形態を示している。この実施形態は、リフティングされた状態zを、拡張された出力y、及び次数m-1までのyの時間導関数の組み合わせとして規定する。すなわち、リフティングされた状態z 221は、以下によって与えられる。
Figure 0007090734000025
m=2の場合、リフティングされた状態222は、
Figure 0007090734000026
である。
リフティングされた状態222を用いると、対応する出力フィードバック制御方策は、既知のPD制御方策を一般化する。
図2Dに示す別の実施形態は、リフティングされた状態zを、拡張された出力y、yの積分、及び次数y(m-1)までのyの時間導関数の組み合わせとして規定する。リフティングされた状態231は、以下によって与えられる。
Figure 0007090734000027
m=2の場合、リフティングされた状態232は、
Figure 0007090734000028
によって与えられる。
リフティングされた状態232を用いると、対応する出力フィードバック制御方策は、よく知られたPID制御方策を一般化する。
誘導モータの事例において見られるように、元の機械状態は、yの時間導関数がu及びその導関数の関数である場合、拡張する必要がある場合がある。u及びその時間導関数がアクセス可能であるので、それらは、機械状態xとともに、拡張された状態xを形成する。加えて、それらは、出力yに拡張されて、拡張された出力yが形成される。結果として、リフティングされた状態空間は、拡張された出力y及び出力yの時間導関数を含む。
いくつかの状況では、制御設計者は、yの時間導関数の必要とされる次数を決定するのに十分なf,gの情報を有しない場合がある。そのために、nが利用可能である場合n>nであるように十分にyを微分することが必要とされる。
図2Eは、いくつかの実施形態による、制御される機械についてのリフティングされた状態を決定する方法のフローチャートを示している。例えば、1つの実施形態は、不確実性を含む機械モデルを用いる。モデル構造が既知である場合、1つの実施形態は、
Figure 0007090734000029
の知識によってxを一意に決定することができるように最小のm-1次を見つけるまで出力を微分することができる(252)。出力導関数が制御u及びその時間導関数を引数として有する場合、いくつかの実施態様は、拡張された出力yを構築し(255)、拡張された出力に基づいてリフティングされた状態を規定する(255)。制御及びその時間導関数が
Figure 0007090734000030
において現れない場合、yに基づいてリフティングされた状態を規定する(255)。
別の実施形態では、モデル構造251は、未知であり、この実施形態は、制御入力及び出力を通じて状態の次元を近似して確立することができるか否かを判断する(256)。nが既知である場合、この実施形態は、[y,...,y(m-1)]の次元がnよりも大きいように最小次数m-1を見つけるか、そうではない場合、2≦m≦3を選ぶ。フローチャートの種々の実施形態を通じた取り組みは、リフティングされた状態空間259の規定に至る。
1つの実施形態では、出力フィードバック制御方策は、u(z)∈U⊂C[0,T]であり、ただし、
Figure 0007090734000031
である。任意の初期条件x∈Ωについて、結果として得られる閉ループ系が安定である場合、u(z)は、許容可能である。これに対応して、Uは、許容可能出力フィードバック制御セットと呼ばれる。Uを、全ての許容可能出力フィードバック制御方策のセットと定義して、いくつかの実施態様は、Uは、非空であることを仮定する。機械(1)についてのデータ駆動型出力フィードバック最適制御問題は、次のように定式化することができる。この定式化はすなわち、機械(1)を所与として、f,gを知ることなく、コスト関数(2)を最小化するu(z)∈U、すなわち、
Figure 0007090734000032
を見つけることである。
PI中の(4)及び(5)がxにわたってパラメータ化(規定)される状態フィードバックの事例とは異なり、zにわたって(4)及び(5)を再パラメータ化して、データ駆動型出力フィードバック制御合成を実行する必要がある。
図3は、いくつかの実施形態による、機械の動態及び状態を知ることなく、機械についてのデータ駆動型出力フィードバック最適制御方策を構築する方法の全体ブロック図を示している。リフティングされた状態空間259の定義を用いると、リフティングされた状態空間にわたって規定される擬似HJBがまず求められ(301)、次に、その近似解について解かれる(302)。そのようにして、プロセッサは、機械の動態及び状態を用いることなく、適応動的計画(ADP)を用いて制御方策を更新する。種々の実施形態において、ADPは、リフティングされた状態空間にわたってパラメータ化された(301)ハミルトン-ヤコビ-ベルマン(HJB)方程式の近似解を求める(302)。
図4Aは、いくつかの実施形態による、リフティングされた状態空間にわたるHJB方程式のパラメータ化の概略図を示している。いくつかの実施態様では、パラメータ化301は、リフティングされた状態空間にわたる状態空間のパラメータ化401、リフティングされた状態空間にわたる値関数のパラメータ化402及びリフティングされた状態空間にわたる制御方策の重み付き勾配のパラメータ化403を含む。
例えば、いくつかの実施態様は、リフティングされた状態空間にわたる状態xのパラメータ化、すなわち、xを、zの関数として表すパラメータ化を導出する(401)。ここで、関数x=φ(z)は、未知のパラメータを含む。次に、実施態様は、リフティングされた状態空間にわたる許容可能出力制御方策u(z)の結果として得られる値関数V(x)のパラメータ化、すなわち、V(x)を、zの関数として表すパラメータ化を導出し(402)、ここで、関数V(z)は、未知のパラメータを含み、実施態様は、リフティングされた状態空間にわたる重み付き勾配∇V(x)g(x)のパラメータ化、すなわち、関数W(z)によって表記されるzの関数として∇V(x)g(x)を表すパラメータ化を導出する(403)。
動態f,gは、未知であるか又は部分的に未知であるため、厳密な表現φ(z)を得るのは困難である。V(z)及びW(z)についても同様である。これは、φ(z)、V(z)、及びW(z)が、zの全ての連続関数を含む無限次元関数空間Cに属することを意味する。
図4Bは、1つの実施形態による、リフティングされた状態空間にわたるパラメータ化の概略図を示している。この実施形態は、関数空間にわたるφ(z)、V(z)、及びW(z)の線形パラメータ化411、412、413、例えば、
Figure 0007090734000033
を決定し、ここで、それぞれ、
Figure 0007090734000034
は、未知のパラメータ(後で係数とも称される)であり、
Figure 0007090734000035
は、φ(z)、V(z)、W(z)の平滑基底関数である。線形パラメータ化411、412、413は、本質的には、それぞれ、状態φ(z)、値関数V(z)、及び重み付き勾配W(z)についての適切な基底関数421、422、423を選ぶように縮約される。1つの実施態様では、φ(z)、V(z)及びW(z)の基底関数は、計算効率のために多項式関数として選ばれる。
上述した線形パラメータ化を用いると、1つの実施形態は、リフティングされた状態空間にわたって規定される擬似HJBの形式を決定することができる。新たに得られた擬似HJBは、未知のパラメータ(値関数及び重み付き勾配の係数)及び既知のリフティングされた状態zから構成される。複数の時点における機械出力を所与として、線形パラメータ化により、新たな擬似HJB(4)を線形方程式系に縮約することが可能になる。
図5Aは、1つの実施形態による、リフティングされた状態空間にわたって規定される擬似HJBの近似解を求める(302)方法のブロック図を示している。各反復において、出力フィードバック制御方策u(z)(以下でK(z)として同義で用いられる)及び摂動信号v(t)に従って、制御コマンド511は、機械103に適用され、複数の時点における機械出力512が用いられて、制御コマンドに対応する値関数及び重み付き勾配が求められる(501)。最後に、値関数及び重み付き勾配の未知のパラメータ(係数)が求められる(501)。重み付き勾配513の求められたパラメータが用いられて、次の反復についての出力フィードバック制御方策が更新される(502)。
Figure 0007090734000036
図5Bは、別の実施形態による、リフティングされた状態空間にわたって規定される擬似HJBの近似解を求める(302)方法のブロック図を示している。各反復において、出力制御方策u(z)に従って、制御コマンド531は、機械103に適用され、複数の時点における機械出力532が用いられて、制御方策u(z)に対応する値関数の係数が求められる(521)。求解521は、値関数における係数の値、例えば、
Figure 0007090734000037
を生成する。第2に、出力制御方策u(z)及び摂動信号v(t)に基づく制御コマンド511は、機械103に適用され、複数の時点における機械出力512及び値関数における係数の値533が用いられて、重み付き勾配の係数が求められる(522)。最後に、重み付き勾配のパラメータが用いられて、次の反復についての出力制御方策が更新される(502)。
図5Cは、1つの実施形態による、摂動信号を用いて摂動される制御方策の重み付き勾配を求める方法の概略図を示している。この実施形態は、時点tにおけるリフティングされた状態z(t)及び摂動信号v(t)に従って制御コマンド531及び511を構築する。いくつかの実施形態では、v(t)は、期待値がu(z(t))の振幅よりも小さい確率変数に従って生成される。
Figure 0007090734000038
図6Aは、1つの実施形態による、値関数及び重み付き勾配の係数を求める(501)方法のブロック図を示している。例えば、機械(1)は、以下の制御コマンドの対象である。
Figure 0007090734000039
ここで、v(t)∈Rである。結果として得られる閉ループ系は、
Figure 0007090734000040
である。
この実施形態は、閉ループ系(8)の出力軌跡から値関数V(z)及び重み付き勾配∇Vgを求める(501)。閉ループ系(8)の軌跡に沿って、時間間隔[t,t+δ]中のVの変化は、以下によって与えられる。
Figure 0007090734000041
時点t及びt+δにおけるリフティングされた状態zの2つインスタンスを用いると、ΔΦ(t)によって表記される値関数の基底関数の差は、以下のように評価される(401)。
Figure 0007090734000042
制御方策u(z)のコスト関数は、[t,t+δ]にわたって積分され(602)、すなわち、
Figure 0007090734000043
となる。
重み勾配の基底関数は、[t,t+δ]にわたって積分され(603)、すなわち、
Figure 0007090734000044
となる。
[t,t+δ]中の擬似HJBは、線形方程式
Figure 0007090734000045
に縮約される。ここで、
Figure 0007090734000046
であり、
Figure 0007090734000047
である。
間隔[t,t+δ,]、[t+δ,t+2δ]、...、[t+(M-1)δ,t+Mδ](ただし、N+q≦M<∞)中の出力を集約することによって、線型方程式系は、以下のように形成することができる(604)。
Figure 0007090734000048
ここで、Ψ=[Ψ(t),Ψ(t+δ),...,Ψ(t+Mδ)]であり、ρ=[ρ(t),ρ(t+δ),...,ρ(t+Mδ)]である。ΨΨが非特異(non-singular)である限り、
Figure 0007090734000049
は、以下のように、一意に決定される(605)。
Figure 0007090734000050
図6Bは、図6Aの一実施形態の1つの例示の実施態様の擬似コードを示している。この実施態様は、
Figure 0007090734000051
及び
Figure 0007090734000052
を同時に決定する。図6Bの擬似コードにおいて、iは、PIのインデックスであり、Mは、反復の最大数であり、jは、良条件の線形方程式(9)を形成する測定値のエピソードを追跡し、Mは、エピソードの最大数を示す。
図7Aは、1つの実施形態による、制御方策に対応する値関数の係数を求める(521)方法のブロック図を示している。この実施形態は、制御方策更新の数値的安定性を改善する。この実施形態は、以下の閉ループ系の出力軌跡を通じてV(z)を求める。
Figure 0007090734000053
閉ループ系(10)の出力軌跡から、値関数の基底関数の差ΔΦ(t)は、以下のように評価される(701)。
Figure 0007090734000054
制御方策u(z)のコスト関数は、[t,t+δ]にわたって積分され(702)、すなわち、
Figure 0007090734000055
となる。
[t,t+δ]中の擬似HJBは、線形方程式
Figure 0007090734000056
に縮約される。
t、t+δ、...、t+Mδにおけるリフティングされた状態のシーケンスを用いると、連立線形方程式を形成して(703)、係数
Figure 0007090734000057
について解く(704)ことができる。その場合、重み付き勾配∇Vgの係数は、閉ループ系(8)の出力軌跡、及び704において求められた
Figure 0007090734000058
の知識を利用することによって算出される。
図7Bは、1つの実施形態による、重み付き勾配の係数を求める(522)方法のブロック図を示している。図7Bに示すように、z(t)及びz(t+δ)を所与として、時点t及びt+δにおける値関数の差を評価することができる(721)。すなわち、
Figure 0007090734000059
となる。
制御方策u(z)のコスト関数は、[t,t+δ]にわたって積分され(722)、すなわち、
Figure 0007090734000060
となる。
重み勾配の基底関数は、[t,t+δ]にわたって積分され(723)、すなわち、
Figure 0007090734000061
となる。
[t,t+δ]中の擬似HJBは、線形方程式
Figure 0007090734000062
に縮約される。
t、t+δ、...、t+Mδにおけるリフティングされた状態のシーケンスを用いると、連立線形方程式を形成して(724)、係数
Figure 0007090734000063
について解く(725)ことができる。
図7Cは、図7A及び/又は図7Bの実施形態の1つの例示の実施態様の擬似コードを示している。この実施態様は、データ駆動型PIを以下の3つのステップに分割する。すなわち、i=0,1,...について、
1.方策評価:u(z)=K(z)を適用し、機械(10)の出力を測定して、以下の線形方程式を構築し、
Figure 0007090734000064
ここで、ΔΦ=[ΔΦ,ΔΦ(t)]、ρ=[ρ,ρ(t)]であり、
Figure 0007090734000065
に式(13)を解く。
2.勾配求解:以下の線形方程式
Figure 0007090734000066
を形成して解くことによって、
Figure 0007090734000067
を解く。
ここで、ΨVg=[ψ(t),...,ψ(t+Mδ)]及びΔΦ=[ΔΦ(t),...,ΔΦ(t+Mδ)]は、機械(8)の出力によって生成される。
3.方策改善:制御方策502を更新する:
Figure 0007090734000068
図8は、1つの実施形態による、モータを制御する制御システムのブロック図を示している。モータコントローラ803は、初期安定化出力フィードバック制御方策から開始し、種々の実施形態によって利用されるプロセスを通じて出力フィードバック最適制御方策を得る。801において基準磁束及び速度811が生成され、モータコントローラ803に送信される。モータコントローラは、メモリ802から実行可能コードを取り出し、モータ出力816に従って全てのサンプル時点におけるリフティングされた状態を決定し、リフティングされた状態空間にわたって制御方策に従って制御コマンドを生成し、複数の時点におけるモータ出力816のシーケンス(出力軌跡)に基づいて擬似HJBの近似解を解き、制御方策を更新する。モータコントローラは、1つの実施形態における好ましい三相AC電圧を表す制御コマンドをインバータ805に出力し、インバータ805は、次に、誘導モータ806への三相電圧を生成する。モータ動作ステータスは、センサ807によって検知される。1つの実施形態では、出力816は、固定子巻線内の電流、及び回転子速度を含む。リフティングされた状態空間の定義は、上記でも開示されている。
本発明の上記で説明した実施形態は、数多くの方法のうちの任意のもので実施することができる。例えば、これらの実施形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、ソフトウェアコードは、単一のコンピュータに設けられるか又は複数のコンピュータ間に分散されるかを問わず、任意の適したプロセッサ又はプロセッサの集合体上で実行することができる。そのようなプロセッサは、集積回路コンポーネントに1つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、任意の適した形式の回路部を用いて実施することができる。
さらに、コンピュータは、ラックマウントコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ミニコンピュータ、又はタブレットコンピュータ等の複数の形態のうちの任意のもので具現化することができることが理解されるべきである。また、コンピュータは、1つ以上の入力デバイス及び出力デバイスを有することができる。これらのデバイスは、とりわけ、ユーザーインタフェースを提示するのに用いることができる。ユーザーインタフェースを提供するのに用いることができる出力デバイスの例には、出力の視覚的提示のためのプリンター又はディスプレイスクリーンと、出力の可聴提示のためのスピーカー又は他の音発生デバイスとが含まれる。ユーザーインタフェースに用いることができる入力デバイスの例には、キーボードと、マウス、タッチパッド、及び離散化タブレット等のポインティングデバイスとが含まれる。別の例として、コンピュータは、音声認識を通じて又は他の可聴フォーマットで入力情報を受信することができる。
そのようなコンピュータは、エンタープライズネットワーク又はインターネット等のローカルエリアネットワーク又はワイドエリアネットワークを含む1つ以上のネットワークによって任意の適した形態に相互接続することができる。そのようなネットワークは、任意の適した技術に基づくことができ、任意の適したプロトコルに従って動作することができ、無線ネットワーク、有線ネットワーク、又は光ファイバーネットワークを含むことができる。
また、本開示の実施形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

Claims (20)

  1. 機械を制御する制御システムであって、
    機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御するコントローラであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、コントローラと、
    時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取る受信機であって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受信機と、
    前記或る時点について、複数の時点において測定された前記状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求める微分器であって、前記測定状態変数及び前記少なくとも1つの測定状態変数の導関数の組み合わせが、前記或る時点についてのリフティングされた状態を規定する、微分器と、
    前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新するプロセッサであって、前記コントローラは、前記リフティングされた状態及び更新された前記制御方策を用いて前記機械への制御入力を決定するようになっている、プロセッサと、
    を備える、制御システム。
  2. 制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電流及び前記電気モータの前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項1に記載の制御システム。
  3. 前記微分器は、前記測定状態変数の各々の一次導関数を求めて、前記リフティングされた状態を生成する、請求項1に記載の制御システム。
  4. 前記微分器は、前記測定状態変数の各々の二次導関数を求めて、前記リフティングされた状態を生成する、請求項3に記載の制御システム。
  5. 前記微分器は、前記リフティングされた状態空間から前記状態空間への前記全射マッピングを結果としてもたらす次数まで前記測定状態変数の各々の時間導関数を求める、請求項1に記載の制御システム。
  6. 前記微分器は、前記状態空間の次元よりも大きい次元を有する前記リフティングされた状態空間を結果としてもたらす次数まで前記測定状態変数の各々の時間導関数を求める、請求項1に記載の制御システム。
  7. 前記プロセッサは、前記機械の状態を用いることなく、適応動的計画(ADP)を用いて前記制御方策を更新する、請求項1に記載の制御システム。
  8. 前記ADPは、前記リフティングされた状態空間にわたってパラメータ化されたハミルトン-ヤコビ-ベルマン(HJB)方程式の近似解を求める、請求項7に記載の制御システム。
  9. 前記リフティングされた状態空間にわたる前記HJB方程式の前記パラメータ化は、
    前記リフティングされた状態空間にわたる前記状態空間のパラメータ化と、
    前記リフティングされた状態空間にわたる前記値関数のパラメータ化と、
    前記リフティングされた状態空間にわたる前記制御方策の重み付き勾配のパラメータ化と、
    を含む、請求項8に記載の制御システム。
  10. 前記パラメータ化は、関数空間にわたって線形であり、前記関数空間における要素は、前記リフティングされた状態の微分可能関数であり、前記関数空間は、前記リフティングされた状態空間の全ての連続関数を含んでいる、請求項8に記載の制御システム。
  11. 前記関数空間の基底関数は、前記リフティングされた状態の多項式関数である、請求項10に記載の制御システム。
  12. 前記ADPは、
    前記リフティングされた状態の前記値関数を求めることと、
    複数の時点について求められた前記値関数を用いて前記制御方策の前記重み付き勾配を求めることと、
    前記重み付き勾配に従って前記制御方策を更新することと、
    を反復して行うことによって前記近似解を求める、請求項9に記載の制御システム。
  13. 前記重み付き勾配は、摂動信号を用いて摂動される前記制御方策について求められる、請求項12に記載の制御システム。
  14. 前記値関数は、未知の係数を有する基底関数を用いて前記リフティングされた状態空間上でパラメータ化され、前記値関数を求めることは、
    前記時点のシーケンスにわたって前記値関数の前記基底関数を積分することと、
    前記時点のシーケンスにわたって前記制御方策のコスト関数を積分することと、
    によって形成される線形方程式の機械を解くことによって前記基底関数の係数を求めることを含む、請求項12に記載の制御システム。
  15. 前記重み付き勾配は、未知の係数を有する基底関数を用いて前記リフティングされた状態空間上でパラメータ化され、前記重み付き勾配を求めることは、
    時点のシーケンスについての前記値関数のシーケンスを求めることと、
    前記時点のシーケンスにわたって前記重み付き勾配の前記基底関数を積分することと、
    前記時点のシーケンスにわたって前記制御方策のコスト関数を積分することと、
    によって形成される線形方程式の機械を解くことによって前記基底関数の係数を求めることを含む、請求項12に記載の制御システム。
  16. 前記制御方策は、比例導関数制御として初期化される、請求項1に記載の制御システム。
  17. 機械を制御する制御方法であって、前記制御方法は、前記制御方法を実施する記憶された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記制御方法の少なくともいくつかのステップを実行し、前記制御方法は、
    前記機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御することであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、制御することと、
    時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受け取ることと、
    前記或る時点について、複数の時点において測定された前記状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求めることであって、前記測定状態変数及び前記少なくとも1つの測定状態変数の導関数の組み合わせが、前記或る時点についての前記リフティングされた状態を規定する、求めることと、
    前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新することであって、コントローラは、前記リフティングされた状態及び前記更新された制御方策を用いて前記機械への制御入力を決定するようになっている、更新することと、
    を含む、制御方法。
  18. 制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電気モータの前記電流及び前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項17に記載の制御方法。
  19. 方法を実行するプロセッサによって実行可能なプログラムが具現化された非一時的コンピュータ可読記憶媒体であって、前記方法は、
    機械の状態空間に対する未知の全射マッピングを有する前記機械のリフティングされた状態空間上にパラメータ化された制御方策に従って前記機械を制御することであって、前記機械の状態は、或る時点における前記機械を一意に規定する前記状態空間内のインスタンスであり、前記機械のリフティングされた状態は、前記或る時点における前記リフティングされた状態空間が、前記或る時点における前記機械の状態に対する前記未知の全射マッピングを有するように、前記或る時点における前記機械を規定する前記リフティングされた状態空間内のインスタンスである、制御することと、
    時点のシーケンスにわたって測定された状態変数の測定値のシーケンスを受け取ることであって、前記或る時点について測定された前記状態変数は、前記或る時点における前記機械の状態の一部を形成する、受け取ることと、
    前記或る時点について、複数の時点について測定された前記状態変数の値を用いて少なくとも1つの測定状態変数の導関数を求めることであって、前記測定状態変数及び前記少なくとも1つの測定状態変数の導関数の組み合わせが、前記或る時点についての前記リフティングされた状態を規定する、求めることと、
    前記リフティングされた状態を用いて前記制御方策の値関数を評価することによって前記制御方策を更新することであって、コントローラは、前記リフティングされた状態及び前記更新された制御方策を用いて前記機械への制御入力を決定するようになっている、更新することと、
    を含む、記憶媒体。
  20. 制御される前記機械は、電気モータであり、前記電気モータの状態は、前記電気モータを流れる電流、前記電気モータの回転子の速度、及び前記電気モータの磁束を含み、前記測定状態変数は、前記電気モータの前記電流及び前記速度であり、前記電気モータの前記リフティングされた状態は、前記電流の値、前記電流の導関数、前記速度、及び前記電気モータの前記速度の導関数によって形成される、請求項19に記載の記憶媒体。
JP2020555252A 2018-06-13 2019-01-09 制御システム、制御方法及び記憶媒体 Active JP7090734B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/007,372 2018-06-13
US16/007,372 US10768585B2 (en) 2018-06-13 2018-06-13 System and method for data-driven control with partially unknown feedback
PCT/JP2019/001161 WO2019239621A1 (en) 2018-06-13 2019-01-09 System, method and storage medium for data-driven output feedback control of a system with partially observed performance

Publications (2)

Publication Number Publication Date
JP2021517700A JP2021517700A (ja) 2021-07-26
JP7090734B2 true JP7090734B2 (ja) 2022-06-24

Family

ID=65635773

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020555252A Active JP7090734B2 (ja) 2018-06-13 2019-01-09 制御システム、制御方法及び記憶媒体

Country Status (3)

Country Link
US (1) US10768585B2 (ja)
JP (1) JP7090734B2 (ja)
WO (1) WO2019239621A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10768585B2 (en) * 2018-06-13 2020-09-08 Mitsubishi Electric Research Laboratories, Inc. System and method for data-driven control with partially unknown feedback
US11392099B2 (en) * 2019-03-25 2022-07-19 Mitsubishi Electric Research Laboratories, Inc. Data-driven nonlinear output-feedback control of power generators
CN112965368B (zh) * 2021-01-19 2022-07-26 云南卫士盾科技有限公司 stacklberg博弈下矿山事故灾害应急投资的微分对策模型构建方法
US20220308530A1 (en) * 2021-03-29 2022-09-29 Mitsubishi Electric Research Laboratories, Inc. System for Performing a Task According to a Reference Trajectory

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001289104A (ja) 2000-03-23 2001-10-19 General Motors Corp <Gm> 個々のシリンダーの燃料制御方法
JP2006004176A (ja) 2004-06-17 2006-01-05 Sony Corp サーボ制御装置
JP2008521138A (ja) 2004-11-17 2008-06-19 ザ マスワークス, インク 制御システムの解析のための方法
CN106843171A (zh) 2016-12-28 2017-06-13 沈阳化工大学 一种基于数据驱动方式的运行优化控制方法
WO2019239621A1 (en) 2018-06-13 2019-12-19 Mitsubishi Electric Corporation System, method and storage medium for data-driven output feedback control of a system with partially observed performance

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4733149A (en) * 1985-05-31 1988-03-22 Kollmorgen Technologies Corporation Adaptive control system
GB9929994D0 (en) * 1999-12-17 2000-02-09 Switched Reluctance Drives Ltd Brushless machine control
US7437201B2 (en) * 2003-01-14 2008-10-14 Cullen Christopher P Electric motor controller
US9134707B2 (en) * 2012-03-30 2015-09-15 Board Of Regents, The University Of Texas System Optimal online adaptive controller
GB201218674D0 (en) * 2012-10-17 2012-11-28 Trw Ltd Control strategy for a motor of an electric assisted steering system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001289104A (ja) 2000-03-23 2001-10-19 General Motors Corp <Gm> 個々のシリンダーの燃料制御方法
JP2006004176A (ja) 2004-06-17 2006-01-05 Sony Corp サーボ制御装置
JP2008521138A (ja) 2004-11-17 2008-06-19 ザ マスワークス, インク 制御システムの解析のための方法
CN106843171A (zh) 2016-12-28 2017-06-13 沈阳化工大学 一种基于数据驱动方式的运行优化控制方法
WO2019239621A1 (en) 2018-06-13 2019-12-19 Mitsubishi Electric Corporation System, method and storage medium for data-driven output feedback control of a system with partially observed performance

Also Published As

Publication number Publication date
WO2019239621A1 (en) 2019-12-19
JP2021517700A (ja) 2021-07-26
US20190384237A1 (en) 2019-12-19
US10768585B2 (en) 2020-09-08

Similar Documents

Publication Publication Date Title
JP7090734B2 (ja) 制御システム、制御方法及び記憶媒体
JP6359182B2 (ja) 機械の動作を制御するための方法およびシステム
Wilson et al. A Lyapunov analysis of accelerated methods in optimization
JP6513015B2 (ja) 機械の動作を制御する方法、および機械の動作を反復的に制御する制御システム
Khan et al. Reinforcement learning and optimal adaptive control: An overview and implementation examples
US10895854B1 (en) System and method for control constrained operation of machine with partially unmodeled dynamics using Lipschitz constant
JPH10133703A (ja) 適応的ロバスト制御装置
Chowdhary et al. Bayesian nonparametric adaptive control of time-varying systems using Gaussian processes
Kaminski et al. Adaptive neural speed controllers applied for a drive system with an elastic mechanical coupling–A comparative study
Joshi et al. Adaptive control using gaussian-process with model reference generative network
Liang et al. Data-driven bipartite formation for a class of nonlinear MIMO multiagent systems
CN111095133B (zh) 一种用于在目标现场设备上部署和执行自适应自学习控制程序的方法和系统
Butt et al. Adaptive backstepping control for an engine cooling system with guaranteed parameter convergence under mismatched parameter uncertainties
Rauh et al. Ellipsoidal enclosure techniques for a verified simulation of initial value problems for ordinary differential equations
Berkel et al. An event-triggered cooperation approach for robust distributed model predictive control
CN116382093A (zh) 用于模型未知的非线性系统最优控制方法及设备
JP2014191736A (ja) 制御パラメータ決定装置、方法、及びプログラム、並びに、制御器及び最適化制御システム
Yu et al. Adaptive neural position tracking control for induction motors via backstepping
JP7469476B2 (ja) 制御支援装置、制御システム及び制御支援方法
da Silva et al. Mechatronic design concept and its application to pick-and-place robotic systems
JP7207473B1 (ja) 情報処理装置
WO2023124921A1 (zh) 永磁同步电机的转矩估测方法、装置、设备及存储介质
Chen et al. Optimal tracking control of mechatronic servo system using integral reinforcement learning
WO2023124893A1 (zh) 基于神经网络的转矩估测方法、装置、设备及存储介质
CN113359452B (zh) 基于Barzilai Borwein智能学习算法的控制器设计方法、系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220614

R150 Certificate of patent or registration of utility model

Ref document number: 7090734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150