JP2023160722A

JP2023160722A - Ｈｖａｃフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習

Info

Publication number: JP2023160722A
Application number: JP2022196383A
Authority: JP
Inventors: ナビ・サレー; Nabi Saleh; ベノスマン・モウハシン; Benosman Mouhacine; モウラビ・サビズ; Mowlavi Saviz
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2022-04-21
Filing date: 2022-12-08
Publication date: 2023-11-02
Also published as: US20230341141A1

Abstract

【課題】アクチュエータを含む暖房、換気、および空調（ＨＶＡＣ）システムを制御するために、強化学習でトレーニングされた次数低減推定器（ＲＬトレーニングされたＲＯＥ）およびクロージャモデルを使用する、コンピュータにより実現される方法が提供される。【解決手段】本方法は、本方法を実施する命令を記憶するメモリと結合されるプロセッサを使用し、命令は、プロセッサによって実行されると、本方法のステップにおいて、ユーザ入力からＨＶＡＣシステムの設定値を取得し、ＨＶＡＣシステム内に配置されたセンサから測定データを取得することと、測定データおよびＲＬトレーニングされたＲＯＥからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、ＲＬトレーニングされたＲＯＥを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することと、出力インターフェイスを介してＨＶＡＣシステムのアクチュエータに制御コマンドを送信することとを含む。【選択図】図２

Description

本発明は、概して、システムモデリング、予測および制御に関する。より詳細には、ＨＶＡＣユニットを制御するために動的モード分解を伴うロバストなデータ駆動型モデル適応のための方法および装置に関する。

制御システムエンジニアリングにおける制御理論は、エンジニアリングされたプロセスおよび機械において連続的に動作する動的システムの制御を扱う数学のサブフィールドである。本発明の目的は、遅延やオーバーシュートのない最適な態様における制御動作でそのようなシステムを制御し、制御安定性を確保するための制御方策を開発することである。

例えば、モデル予測制御（ＭＰＣ）などの最適化ベースの制御および推定技術は、システムダイナミクスおよび制約を直接考慮に入れることができるモデルベースの設計フレームワークを可能にする。ＭＰＣは、様々な複雑さの動的システムを制御するために多くの用途で使用される。そのようなシステムの例は、生産ライン、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星および発電機を含む。本明細書で使用する場合、システムのダイナミクスのモデルまたはシステムのモデルは、微分方程式を使用してシステムのダイナミクスを記述する。例えば、ｐ個の入力ｕ、ｑ個の出力ｙおよびｎ個の状態変数ｘを有する線形システムの最も一般的なモデルは、以下の形式で書かれる：

しかしながら、いくつかの状況では、制御されたシステムのモデルは非線形であり、設計が困難であり得、リアルタイムで使用することが困難であり得、または不正確であり得る。そのようなケースの例は、ロボット工学、建築物制御（ＨＶＡＣ）、スマートグリッド、工場オートメーション、輸送、自己調整機械、および交通網において普及している。加えて、非線形モデルが正確に利用可能であっても、ハミルトン－ヤコビ－ベルマン（ＨＪＢ）方程式と呼ばれる偏微分方程式を解く必要があるため、最適なコントローラを設計することは本質的に困難な課題である。

動的システムの正確なモデルが存在しないなか、いくつかの制御方法は、システムダイナミクスを安定させるフィードバック制御方策を構築するために、または定量化可能な制御関連性能を埋め込むために、動的システムによって生成される動作データを利用する。制御方策を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御方法には２種類があり、（ｉ）まずシステムのモデルを構築し、次いでモデルを利用してコントローラを設計する間接的な方法、および（ｉｉ）中間モデル構築ステップなしで、データから制御方策を直接構築する直接的な方法である。

間接的な方法の欠点は、モデル構築段階における大量のデータの潜在的な必要性である。加えて、間接制御方法では、コントローラは、推定されたモデルから、例えば確実性等価原理に従って計算されるが、実際には、データから推定されるモデルは、システムのダイナミクスの物理的特性を捕捉しない。したがって、いくつかのモデルベースの制御技術は、そのようなデータ駆動型モデルとともに使用されることはできない。

この問題を克服するために、いくつかの方法は、直接的な制御方法を使用して、実験データをコントローラ上に直接マッピングし、その間にいかなるモデルも識別されない。しかしながら、直接的な制御方法は、システムの状態を制御コマンドに直接マッピングする制御方策のブラックボックス設計をもたらす。しかしながら、このような制御方策は、システムの物理的特性を考慮して設計されない。さらに、制御設計者は、制御方策のデータ駆動型判断に影響を及ぼすことはできない。

したがって、システムを最適に制御するための方法および装置が依然として必要とされている。

いくつかの実施形態の目的は、システムの挙動のダイナミクスを捕捉する、システムのダイナミクスのモデルを生成するために、システムのダイナミクスのモデルのデータ駆動型設計のための装置および方法を提供することである。このように、実施形態は、制御アプリケーションを設計する際にシステムのモデルを有することの利点を保持しながら、モデル設計プロセスを単純化する。しかしながら、現在のデータ駆動型方法は、システムの物理的ダイナミクスを捕捉する、システムのモデルを推定するのに適していない。

例えば、強化学習（ＲＬ）は、累積報酬の何らかの概念を最大化する（または同等に、累積損失／コストを最小化する）よう、環境内でアクションを取る方法に関する、機械学習の領域である。強化学習は、連続する状態入力空間における最適制御に関連し、それは、主に、最適制御方策の存在および特徴付け、ならびに制御されたシステムおよび／または環境の数学的モデルの不在下でのそれらの計算のためのアルゴリズムに関係する。

ＲＬ方法によって提供される利点を考慮して、いくつかの実施形態は、微分方程式を用いて記述され得る、動的システムのための最適な制御方策をもたらすＲＬ技術を開発することを目的とする。しかしながら、制御方策は、システムの状態を制御コマンドにマッピングし、このマッピングをシステムの物理的ダイナミクスに基づいて実行しないか、または少なくとも実行する必要はない。したがって、物理的意味を有し、システムのダイナミクスを記述するために１つ以上の微分方程式を有する、モデルの、ＲＬベースのデータ駆動型推定は、制御分野では開拓されていない。

いくつかの実施形態は、物理的意味を有する、システムのダイナミクスのモデルのＲＬデータ駆動型学習は、報酬関数が学習されたモデルによるシステムの挙動とシステムの実際の挙動との間の差異の最小化である仮想制御問題として見ることができる、という認識に基づく。特に、システムの挙動は、システムの上位特徴付け、例えば、システムの安定性、状態の有界性である。実際、システムは、制御されない状況でも挙動を有する。残念ながら、ＲＬを介するそのようなモデルの推定は、計算上困難である。

そのために、いくつかの実施形態は、システムのモデルは、我々がクロージャモデルと呼ぶ、仮想制御項と組み合わせられる次数低減モデルで表すことができる、という認識に基づいている。例えば、システムの、完全な物理法則に基づくモデルが、典型的には、偏微分方程式（ＰＤＥ）によって捕捉される場合、次数低減モデルは、常微分方程式（ＯＤＥ）によって表され得る。ＯＤＥは、システムのダイナミクスを時間の関数として表すが、ＰＤＥを使用するダイナミクスの表現よりも精度が低い。したがって、クロージャモデルの目的は、このギャップを低減することである。

本明細書で使用されるように、クロージャモデルは、ＯＤＥおよびＰＤＥによって推定されるシステムの挙動の差異を捕捉する、システムの状態の非線形関数である。したがって、クロージャモデルは、ＯＤＥによって捕捉されるダイナミクスとＰＤＥによって捕捉されるダイナミクスとの間のダイナミクスの差異を表す時間の関数でもある。いくつかの実施形態は、ＰＤＥ方程式を解くことは計算的に高価であるため、ＯＤＥとクロージャモデルとの組み合わせとしてのシステムのダイナミクスの表現は、システムのその後の制御を単純化することができる、という理解に基づく。したがって、いくつかの実施形態は、ＯＤＥおよびクロージャモデルを用いてダイナミクスを表現し、クロージャモデルのみを更新することによって、システムのダイナミクスのデータ駆動型推定を単純化しようとする。しかしながら、この問題も、計算がより単純ではあるが、ＲＬのフレームワークで定式化される場合には、困難である。これは、通常、ＲＬは、システムを正確に制御するために制御方策を学習するために使用されるためである。ここで、この類比において、ＲＬはクロージャモデルを正確に推定しようと試みるはずであり、それは困難である。

しかしながら、いくつかの実施形態は、いくつかのモデル化状況においては、システムのダイナミクスの正確な挙動自体ではなく、挙動のパターンを表すことで充分である、という認識に基づく。例えば、正確な挙動が各時点におけるシステムのエネルギーを捕捉する場合、挙動のパターンは、エネルギーの変化率を捕捉する。類比として、システムが励起されると、システムのエネルギーは増加する。システムのダイナミクスの正確な挙動を知ることは、そのようなエネルギー増加を評価することを可能にする。システムのダイナミクスの挙動のパターンを知ることは、エネルギーの実際の値に比例するエネルギーの新たな値を推定するために、増加率を評価することを可能にする。

したがって、システムのダイナミクスの挙動のパターンは、正確な挙動自体ではないが、いくつかのモデルベースの制御アプリケーションでは、システムのダイナミクスの挙動のパターンは、リアプノフ安定制御を設計するのに充分である。そのような制御アプリケーションの例は、システムの状態を安定化させることを目的とする安定化制御を含む。

そのために、いくつかの実施形態は、ＲＬを使用して、ＯＤＥおよび更新されたＣＬのダイナミクスがシステムのダイナミクスのパターンを模倣するようにクロージャモデルを更新する。いくつかの実施形態は、ダイナミクスのパターンは、システムの状態の値と対照的に、時間の関数として決定される状態軌道の形状によって表され得る、という認識に基づく。状態軌道は、システムのオンライン機能中に測定することができる。加えて、または代替として、状態軌道は、ＰＤＥを使用してシミュレートされることができる。

そのために、いくつかの実施形態は、ＯＤＥとクロージャモデルとの組み合わせを含むシステムのモデルを使用してシステムを制御し、状態軌道の実際の形状とＯＤＥを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有するＲＬを用いてクロージャモデルを更新する。

しかしながら、収束後、更新されたＣＬを伴うＯＤＥは、システムの挙動のダイナミクスのパターンを表すが、挙動の実際の値は表さない。言い換えると、更新されたＣＬを伴うＯＤＥは、システムの実際の物理的ダイナミクスに比例する関数である。そのために、いくつかの実施形態は、ＲＬよりも、モデルベースの最適化に、より適した方法で、後でシステムのオンライン制御中に学習される、クロージャモデルの利得を含む。これらの方法の例は、極値探索、ガウス過程に基づく最適化などである。

加えて、または代替として、いくつかの実施形態は、ＭＰＣなど、種々のモデルベースの予測制御においてデータ駆動型適応によって決定されるシステムのモデルを使用する。これらの実施形態は、システムの制御において制約を考慮するＭＰＣの能力を利用することを可能にする。例えば、従来のＲＬ方法は、制約されたシステムのデータ駆動型制御には適していない。これは、従来のＲＬ法は、連続的な状態－動作空間における状態および入力制約の満足を考慮していないためであり；すなわち、従来のＲＬは、制御入力で動作される被制御システムの状態が動作全体にわたって状態および入力制約を満たすことを保証することはできない。

しかしながら、いくつかの実施形態は、ＲＬを使用してシステムの物理的特性を学習し、ＲＬのデータ駆動型利点をモデルベースの制約付き最適化と組み合わせることを可能にする。

したがって、一実施形態は、システムの動作を制御するための装置を開示する。装置は、システムの状態軌道を受信するよう構成される入力インターフェイスと；少なくとも１つの微分方程式とクロージャモデルとの組み合わせを含む、システムのダイナミクスのモデルを記憶するよう構成されるメモリと；受信された状態軌道の形状とモデルを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習（ＲＬ）を使用してクロージャモデルを更新し、モデルおよび更新されたクロージャモデルに基づいて制御コマンドを決定するよう構成されるプロセッサと；制御コマンドをシステムのアクチュエータに送信して、システムの動作を制御するよう構成される出力インターフェイスとを備える。

別の実施形態は、システムの動作を制御するための方法を開示する。本方法は、少なくとも１つの微分方程式とクロージャモデルとの組み合わせを含む、システムのダイナミクスのモデルを記憶するメモリに結合されるプロセッサを使用し、プロセッサは、プロセッサによって実行されると、本方法のステップを実行する記憶された命令に結合され、本方法は、システムの状態軌道を受信することと、受信された状態軌道の形状と、モデルを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習（ＲＬ）を使用してクロージャモデルを更新することと、モデルおよび更新されたクロージャモデルに基づいて制御コマンドを決定することと、制御コマンドをシステムのアクチュエータに送信して、システムの動作を制御することとを含む。

本発明のいくつかの実施形態によれば、アクチュエータを含む暖房、換気、および空調（ＨＶＡＣ）システムを制御するために、強化学習トレーニングされた次数低減推定器（ＲＬトレーニングされたＲＯＥ）およびロバストなクロージャモデルを使用する、コンピュータにより実現される方法が提供される。本方法は、本方法を実施する命令を記憶するメモリと結合されるプロセッサを使用し、命令は、プロセッサによって実行されると、本方法のステップにおいて、入力インターフェイスを介して、ユーザ入力からＨＶＡＣシステムの設定値を取得し、ＨＶＡＣシステム内に配置されたセンサから測定データを取得することと、測定データおよびＲＬトレーニングされたＲＯＥからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、ＲＬトレーニングされたＲＯＥを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することと、出力インターフェイスを介してＨＶＡＣシステムのアクチュエータに制御コマンドを送信することとを含む。

さらに、本発明のいくつかの実施形態は、アクチュエータを含む暖房、換気、および空調（ＨＶＡＣ）システムを制御するための装置を提供する。装置は、ユーザ入力およびＨＶＡＣシステムに配置されたセンサからの測定データからＨＶＡＣシステムの設定値を取得するよう構成される入力インターフェイスと、コンピュータにより実現される方法を実施する命令を記憶するよう構成される少なくとも１つのメモリと、少なくとも１つのメモリに結合される少なくとも１つのプロセッサとを含んでもよく、命令は、少なくとも１つのプロセッサによって実行されると、コンピュータにより実現される方法のステップで、測定データおよびＲＬトレーニングされたＲＯＥからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、ＲＬトレーニングされたＲＯＥを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することとを含むことを実行し、本装置はさらに、ＨＶＡＣシステムを動作させるアクチュエータを制御する制御命令を含む制御コマンドを送信するよう構成される出力インターフェイスを含んでもよい。

本発明の一実施形態による、オンライン制御で使用されるロバストな次数低減モデルをオフライン方式で生成するための２つの段階のブロック図である。システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略図である。本発明のいくつかの実施形態による、システムの動作を制御するための装置のブロック図である。本発明のいくつかの実施形態による、システムを制御するための原理のフローチャート図である。本発明のいくつかの実施形態による、次数低減モデルを生成するための概略アーキテクチャ図である。本発明のいくつかの実施形態による、強化学習（ＲＬ）に基づく次数低減モデルの概略図である。本発明の一実施形態による、ＲＬを使用してクロージャモデルを更新するための動作のフローチャート図である。本発明のいくつかの実施形態による、システムの実際の挙動と推定された挙動との間の差異を示す図である。本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。本発明の実施形態による、空調システムであるシステムを制御するための装置の例示的なリアルタイム実現例を示す図である。

添付の図面は、本発明のさらなる理解のために含まれ、本発明の実施形態を示し、本記載とともに、本発明の原理を説明する。示される図面は必ずしも縮尺通りではなく、概して、本開示の実施形態の原理を説明することに重点が置かれる。

上記で特定された図面は、ここに開示される実施形態を記載しているが、議論に記載するように、他の実施形態も企図される。本開示は、限定ではなく代表として例示的な実施形態を提示する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多数の他の修正および実施形態を考案することができる。

以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。

以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用性、または構成を限定することを意図するものではない。むしろ、例示的な実施形態の以下の説明は、１つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。

以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。

本明細書および特許請求の範囲で用いられる場合、文言「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」、およびそれらの他の動詞形は、１つ以上の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、そのリストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「～に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される表現および用語は、説明の目的のためであり、限定と見なされるべきではないことを理解されたい。この記載内で利用されるいかなる見出しも、便宜上のものにすぎず、法的または限定的な効果を有さない。

本発明の実施形態を説明する際に、以下の定義が本開示を通して適用可能である。

「制御システム」または「コントローラ」は、他のデバイスまたはシステムの挙動を管理、命令、指示、または調整するためのデバイスまたはデバイスのセットを指し得る。制御システムは、ソフトウェアまたはハードウェアのいずれかによって実現することができ、１つ以上のモジュールを含むことができる。フィードバックループを含む制御システムは、マイクロプロセッサを使用して実現することができる。制御システムは組み込みシステムとすることができる。

「空調システム」または暖房、換気、および空調（ＨＶＡＣ）システムは、蒸気圧縮サイクルを使用して、熱力学、流体力学、および／または熱伝達の原理に基づいて、システムの構成要素を通して冷媒を移動させるシステムを指し得る。空調システムは、屋外空気のみを建物の居住者に供給するシステムから、建物の温度のみを制御するシステム、温度および湿度を制御するシステムまで、非常に広範なシステムに及ぶ。

「中央処理装置（ＣＰＵ）」または「プロセッサ」は、ソフトウェア命令を読み出し、実行するコンピュータまたはコンピュータの構成要素を指し得る。さらに、プロセッサは、「少なくとも１つのプロセッサ」または「１つ以上のプロセッサ」とすることができる。

図１は、偏微分方程式（ＰＤＥ）の離散化後に生じるものなどの大規模システムの制御および推定を２段階装置を使用してどのように行うことができるかの概略図のブロック図を示す。

１０６で示される段階１では、ロバストな次数低減モデル（ＲＯＭ）を導出するためにオフラインタスクが実行される。そのようなモデルの開発のためのデータは、高忠実度計算流体力学（ＣＦＤ）シミュレーションによって、または実験を行うことによって、生成されてもよい。

ＣＦＤは、数値解析およびデータ構造を使用して、流体の流れを伴う問題を解析および解決する流体力学の分派である。コンピュータは、流体の自由流の流れ、および流体（液体および気体）と境界条件によって画定される表面との相互作用をシミュレートするために必要な計算を実行するために使用される。進行中の研究は、遷音速もしくは乱流などの複雑なシミュレーションシナリオの精度および速度を改善するソフトウェア、またはＨＶＡＣ用途において気流を記述するよう生じるものに至っている。そのようなソフトウェアの初期検証は、典型的には、風洞等の実験装置を使用して行われる。加えて、特定の問題の、以前に実施された分析的または経験的分析を、比較のために使用することができる。

次いで、ＣＦＤシミュレーションまたは実験のいずれかによって生成されたデータセットを使用して、ＣＦＤによって得られた軌道に対してのみ有効であってもよいＲＯＭを開発する。例えば、ステップ１０１のＣＦＤは、窓が閉じられている部屋に対して行うことができ、ＲＯＭ１０２は、この条件に対してのみ有効である。窓が開かれると、ＲＯＭ１０２の精度は劣化し、不安定または非常に不正確になる可能性がある。この場合、１０１のＣＦＤシミュレーションまたは実験によって生成されたいくつかの軌道を使用して、１０３３を、推定および制御のために使用されるようにトレーニングする。このようなタスクはすべてオフラインで実行される。オフライン段階１０６によって生成され、ＲＬによって補正ＲＯＭ１０２の予測とトレーニングデータ１０５との間の差異に基づいてトレーニングされるモデル１０３３（１０２＋１０３）は、パラメータ変動に対してロバストであり、未知の初期条件にも対処することができるモデルである。

実験またはＣＦＤシミュレーション１０１における不確実性による１０２における不確実性は、１０３におけるロバストなＲＯＭの開発によって対処することができる。

大きな課題は、ＲＯＭは、ダイナミクスの、単純化された、不完全な記述を提供することであり、これはオンライン制御に使用される状態推定器の性能に悪影響を及ぼす。１つの潜在的な解決策は、図５のさらなる詳細を有する追加のクロージャ項を含めることによってＲＯＭ自体の精度を改善することである。

いくつかの実施形態は、種々の方法によって、例えば、種々の軌道および平均化を使用して、感度分析を使用して、問題に特有の事前公知の基底関数を使用して等、よりロバストなＲＯＭを開発しようとする。

いくつかの実施形態は、所与の軌道のみに基づいてＲＯＭを開発し、ＲＯＭのさらなる開発の代わりに、推定の精度を高めるためにクロージャモデルと呼ばれる追加の項を提案する。例えば、リアプノフベースのクロージャモデル、（例えば人工拡散を使用する）物理法則に触発されたクロージャモデル、または強化学習法を使用して、クロージャ項のモデルを開発することができる。

いくつかの実施形態は、推定層をＲＯＭに追加するためにカルマンフィルタリングなどの従来の方法を使用する。統計および制御理論に関して、線形二次推定（ＬＱＥ）としても知られるカルマンフィルタリングは、統計的測定およびノイズのモデリングを含む、経時的に観察される一連の測定値を使用し、システムの未測定状態の推定値を生成するアルゴリズムである。これらの推定値は、各時間フレームの状態にわたって同時確率分布を推定することにより、単一の測定のみに基づく推定値よりも正確である。

いくつかの実施形態は、強化学習次数低減推定器（ＲＬ－ＲＯＥ）を使用し、ＲＬ－ＲＯＥは、次いで、オンライン制御に使用することができる。ＲＬ－ＲＯＥは、カルマンフィルタに類似した方法でＲＯＭから構築されるが、線形フィルタ利得関数が、強化学習（ＲＬ）を通してトレーニングされた非線形確率論的方策によって置き換えられるという重要な違いがある。非線形方策の柔軟性は、ＲＬ－ＲＯＥが、例えばダイナミクスの不完全な知識によるＲＯＭの誤差を補償することを可能にする。

いくつかの実施形態は、静止マルコフ決定過程（ＭＤＰ）のためにＲＬ法を使用するＲＬトレーニングを可能にするために、推定問題を静止ＭＤＰとして説明する。マルコフ過程は、現在の状況から、将来が過去とは無関係である、確率過程である。したがって、マルコフ過程は、微分方程式および差分方程式によって記述される決定論的過程の自然な確率論的類似物である。それらは、確率過程の最も重要なクラスの１つを形成する。

いくつかの実施形態は、トレーニングされたＲＬ－ＲＯＥが、同じＲＯＭを使用して設計されたカルマンフィルタよりも性能が優れており、異なる基準軌道および初期状態推定値に関してロバストな推定性能を表示することを示す。提案されるＲＬ－ＲＯＥは、高次元システムに対する状態推定に対する強化学習の第１の適用例である。これに関するさらなる詳細は、図６および図８に関して与えられる。

ＲＯＭおよびクロージャモデルが構築されると、結果として生じるモデルは、最初に推定のために、そして最終的にオンライン制御のために、使用されることができる。例えば、いくつかのＣＦＤまたは実験軌道１０１を使用して生成されるロバストなモデル１０８は、特定の部屋レイアウト（例えば、矩形、Ｌ字形）ついて、窓（例えば、開、閉、半開）またはその部屋にいる所与の人数に対するいくつかの条件を使用することによって開発されている場合がある。しかし、実際には、部屋の人数は様々であるかもしれず、窓は、矩形でもＬ字形でもなく、それら二つの組み合わせであるレイアウトついて、４分の１開いているかもしれない。オフライン段階１０６で学習されたクロージャモデルは、１０１によって生成される同様の軌道内に入るそのような未知の場合でさえも、部屋条件、例えば、部屋内の温度または速度を推定するよう構成される。これは、部屋およびその中に設置されたＨＶＡＣの物理的特性の部分的な正確な知識を表すセンサデータ１０９が１０８に供給されている場合に、行うことができる。そのようなプロセスは、データ同化、すなわち、感知からの情報そのものを、おそらくは不正確なモデル情報と同化することとしても、知られている。

データ同化は、（通常は数値モデルの形態にある）予測を観察と最適に組み合わせようとする数学的分野である。例えば、システムの最適な状態推定を決定するため、数値予測モデルの初期条件を決定するため、観察されているシステムの知識を使用して疎な観察データを補間するため、観察された実験データからモデルの数値パラメータを識別するために、求められるいくつかの異なる目標が存在し得る。目標に応じて、異なる解法を使用してもよい。データ同化は、分析されるシステムの動的モデルを利用するという点で、他の形態の機械学習および統計的方法とは区別される。室内の温度および速度の再構築のプロセス（プロセスステップ）１１０は、１０８のロバストなモデルおよび１０９のセンサデータのそのようなデータ同化の結果である。

オフライン段階１０６およびオンライン段階１０７は、単純化されたロバストなモデル１０８の開発の例であり、それは、次いで、推定および制御のために用いられ得る。

推定理論は、ランダム成分を有する測定された経験的データに基づいてパラメータの値を推定することに対処する統計学の分派である。パラメータは、それらの値が測定されたデータの分布に影響を及ぼすような態様で、基礎をなす物理的設定を記述する。推定器は、測定値を使用して未知のパラメータを近似することを試みる。推定理論では、概して、２つのアプローチが考慮され、（本発明に記載される）確率的アプローチは、測定されるデータはランダムであり、確率分布は対象のパラメータに依存する、と仮定し、セットメンバシップアプローチは、測定されるデータベクトルはパラメータベクトルに依存するセットに属する、と仮定する。

ＨＶＡＣ用途のために部屋内に設置される感覚データの例は、熱電対読取り値、熱カメラ測定値、速度センサ、湿度センサなどである。

部屋内の温度または速度が１１０において再構築されると、オンライン制御段階１０７は、部屋内の気流制御１１１のために実行され得る。さらなる詳細を図９に示す。

図２は、システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略図を示す。いくつかの実施形態は、システム２０２を制御するよう構成される制御装置２００を提供する。例えば、装置２００は、工学的プロセスおよび機械において連続的に動作する動的システム２０２を制御するよう構成することができる。以下、「制御装置」と「装置」とは入れ替えて使用してもよく、同じ意味である。以下、「連続的に動作する動的システム」および「システム」は、入れ替えて使用されてもよく、同じことを意味する。システム１０２の例は、ＨＶＡＣシステム、ＬＩＤＡＲシステム、凝縮ユニット、生産ライン、自己調整機械、スマートグリッド、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、発電機、交通網などである。いくつかの実施形態は、装置２００は、遅延またはオーバーシュートを伴わずに最適な方法で制御アクションを使用してシステム２０２を制御するため、および制御安定性を保証するために、推定および制御（コマンド）を提供するよう構成される制御方策２０６を開発する、という認識に基づく。

いくつかの実施形態では、装置２００は、モデル予測制御（ＭＰＣ）などのモデルベースおよび／または最適化ベースの制御ならびに推定技術を使用して、システム２０２のために制御コマンド２０６を開発する。モデルベースの技術は、動的システムの制御に有利であり得る。例えば、ＭＰＣは、システム２０２のダイナミクスおよび制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。ＭＰＣは、システム２０４のモデルに基づいて制御コマンド２０６を開発する。システム２０２のモデル２０４は、微分方程式を使用して説明されるシステム２０２のダイナミクスを指す。いくつかの実施形態では、モデル２０４は非線形であり、設計するのが困難であり、および／またはリアルタイムで使用するのが困難であり得る。例えば、非線形モデルが正確に利用可能である場合であっても、最適な制御コマンド２０６を推定することは本質的に困難なタスクであり、なぜならば、ハミルトン－ヤコビ－ベルマン（ＨＪＢ）方程式と名付けられる、システム２０２のダイナミクスを記述する偏微分方程式（ＰＤＥ）を解く必要があり、それは計算的に困難であるからである。

いくつかの実施形態は、モデル２０４を設計するためにデータ駆動型制御技術を使用する。データ駆動型技術は、システム２０２を安定させるフィードバック制御方策を構築するために、システム２０２によって生成された動作データを利用する。例えば、システム２０２の動作中に測定されたシステム２０２の各状態は、システム２０２を制御するためのフィードバックとして与えられてもよい。一般に、制御方策および／またはコマンド２０６を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御の目的は、データから制御方策を設計し、データ駆動型制御方策を使用してシステムを制御することである。そのようなデータ駆動型制御アプローチとは対照的に、いくつかの実施形態は、動作データを使用して、制御システムのモデル、例えばモデル２０４を設計し、次いで、データ駆動型モデルを使用して、種々のモデルベースの制御方法を使用してシステムを制御する。いくつかの実施形態の目的は、データからシステムの実際のモデル、すなわち、システムの挙動を推定するために使用することができるそのようなモデルを決定することであることに留意されたい。例えば、いくつかの実施形態の目的は、微分方程式を使用してシステムのダイナミクスを捕捉するデータから、システムのモデルを決定することである。加えて、または代替として、いくつかの実施形態の目的は、データから物理法則に基づくＰＤＥモデル精度を有するモデルを学習することである。

計算を単純化するために、いくつかの実施形態は、システム２０２のダイナミクスを記述するために、常微分方程式（ＯＤＥ）２０８ａを定式化する。いくつかの実施形態では、ＯＤＥ２０８ａは、モデル縮退技術を使用して定式化されてもよい。例えば、ＯＤＥ２０８ａは、ＰＤＥの低減された次元であってもよい。そのために、ＯＤＥ２０８ａはＰＤＥの一部とすることができる。しかしながら、いくつかの実施形態では、ＯＤＥ１０８ａは、不確実性条件の場合、システム２０２の実際のダイナミクス（すなわち、ＰＤＥによって記述されるダイナミクス）を再生することはできない。不確実性条件の例は、ＰＤＥの境界条件が経時的に変化している場合、またはＰＤＥに関与する係数の１つが変化している場合であってもよい。

そのために、いくつかの実施形態は、不確実性条件の場合をカバーしながら、ＲＯＭ（ＤＭＤ）２０８ａと、ＰＤＥを低減するロバストなＲＬベースのクロージャモデル２０８ｂとを含む、次数低減推定器（ＲＯＥ）２０８を提供する。いくつかの実施形態では、クロージャモデル２０８ｂは、ＯＤＥおよびＰＤＥに従ってシステム２０２の挙動（例えば、ダイナミクス）における差異を捕捉する、システム２０２の状態の非線形関数であってもよい。クロージャモデル２０８ｂは、強化学習（ＲＬ）を使用して定式化されてもよい。言い換えれば、システム２０２のＰＤＥモデルは、ＯＤＥ（ＲＯＭ）２０８ａとクロージャモデル２０８ｂとの組み合わせによって近似され、クロージャモデル２０８ｂは、ＲＬを使用してデータから学習される。このようにして、ＰＤＥの精度に近づくモデルがデータから学習される。

いくつかの実施形態では、ＲＬは、システム２０２の個々の状態を学習するのではなく、システム２０２の挙動を定義する、システム２０２の状態軌道を学習する。状態軌道は、システム２０２の状態のシーケンスであってもよい。いくつかの実施形態は、ＯＤＥ２０８ａおよびクロージャモデル２０８ｂを備えるモデル２０８は、システム２０２の実際の挙動値（例えば状態）ではなく、システム２０２の挙動のパターンを再現する、という認識に基づく。システム２０２の挙動のパターンは、状態軌道の形状、例えばシステムの一連の状態を、時間の関数として表すことができる。システム２０２の挙動のパターンはまた、モデルの上位特性、例えば、その解の経時的な有界性、またはその解の経時的な減衰を表し得るが、システムのダイナミクスを最適には再現しない。

そのために、いくつかの実施形態は、利得を決定し、システム２０２のダイナミクスを最適に再現するために、利得をクロージャモデル２０８ｂに含める。いくつかの実施形態では、利得は、最適化アルゴリズムを使用して更新されてもよい。ＯＤＥ２０８ａ、更新された利得を有するクロージャモデル１０８ｂを含むモデル２０８は、システム２０２のダイナミクスを再現する。したがって、モデル２０８は、システム２０２のダイナミクスを最適に再現する。いくつかの実施形態は、モデル２０８がＰＤＥよりも少ない数のパラメータを含むという認識に基づいている。このために、モデル２０８は、システム２０２の物理的モデルを記述するＰＤＥほど計算的に複雑ではない。いくつかの実施形態では、制御方策２０６は、モデル２０８を使用して決定される。制御方策２０６は、システム２０２の状態を制御コマンドに直接マッピングしてシステム２０２の動作を制御する。したがって、縮退されたモデル１０８は、効率的な態様でシステム２０２ための制御を設計するために使用される。

図３は、いくつかの実施形態による、システム１２０２の動作を制御するための装置１２００のブロック図を示す。装置１２００は、装置１２００を他のシステムおよびデバイスに接続するための入力インターフェイス１２０２および出力インターフェイス１２１８を含む。いくつかの実施形態では、装置１２００は、複数の入力インターフェイスおよび複数の出力インターフェイスを含んでもよい。入力インターフェイス１２０２は、システム２０２の状態軌道１２１６を受信するよう構成される。入力インターフェイス１２０２は、バス１２１０を介して装置１２００をネットワーク１２１４に接続するように適合されたネットワークインターフェイスコントローラ（ＮＩＣ）１２１２を含む。無線または有線のいずれかでネットワーク１２１４を通じて、装置１２００は、システム１２０２の状態軌道１２１６を受信する。

状態軌道１２１６は、システム２０２のダイナミクスの実際の挙動を定義する、システム２０２の複数の状態であってもよい。例えば、状態軌道１２１６は、システム２０２を制御するための基準連続状態空間として作用する。いくつかの実施形態では、状態軌道１２１６は、システム２０２の状態の部分のリアルタイム測定から受信されてもよい。いくつかの他の実施形態では、状態軌道１２１６は、システム２０２のダイナミクスを記述するＰＤＥを使用してシミュレートされてもよい。いくつかの実施形態では、受信された状態軌道について、形状を、時間の関数として、決定してもよい。状態軌道の形状は、システム２０２の挙動の実際のパターンを表してもよい。

装置１２００は、プロセッサ１２０４と、プロセッサ１２０４によって実行可能な命令を記憶するメモリ１２０６とをさらに含む。プロセッサ１２０４は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ１２０６は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、フラッシュメモリ、または任意の他の好適なメモリシステムを含んでもよい。プロセッサ１２０４は、バス１２１０を介して１つ以上の入力および出力デバイスに接続される。記憶された命令は、システム２０２の動作を制御するための方法を実現する。

メモリ１２０６は、ストレージ１２０８を含むようにさらに拡張されてもよい。ストレージ１２０８は、モデル１２０８ａ、コントローラ１２０８ｂ、更新モジュール１２０８ｃ、および制御コマンドモジュール１２０８ｄを記憶するよう構成されてもよい。いくつかの実施形態では、モデル１２０８ａは、少なくとも１つの微分方程式およびクロージャモデルの組み合わせを含む、システム２０２のダイナミクスを記述するモデルであってもよい。モデル１２０８の微分方程式は、常微分方程式（ＯＤＥ）２０８ａであってもよい。モデル２０８ａのクロージャモデルは、システム２０２の状態の線形関数または非線形関数であってもよい。クロージャモデルは、システム２０２の挙動を模倣するようＲＬを使用して学習されてもよい。理解されるように、一旦クロージャモデルが学習されると、クロージャモデルは、図１に図示されるようなクロージャ２０８ｂとなってもよい。

コントローラ１２０８ｂは、プロセッサ１２０４によって実行されるとストレージ１２０８において１つ以上のモジュールを実行する命令を記憶するよう構成されてもよい。いくつかの実施形態は、コントローラ１２０８ｂはストレージ１２０８の各モジュールを管理してシステム２０２を制御する、という認識に基づく。

更新モジュール１２０８ｃは、受信された状態軌道の形状と、モデル１２０８ａを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習（ＲＬ）を使用して、モデル１２０８ａのクロージャモデルを更新するよう構成されてもよい。いくつかの実施形態では、更新モジュール１２０８ｃは、終了条件が満たされるまで、ＲＬを用いてクロージャモジュールを反復的に更新するよう構成されてもよい。更新されたクロージャモデルは、ＯＤＥおよびＰＤＥ従ってシステムの挙動における差異を捕捉する、システムの状態の非線形関数である。

さらに、いくつかの実施形態では、更新モジュール１２０８ｃは、更新されたクロージャモデルの利得を更新するよう構成されてもよい。そのために、いくつかの実施形態は、更新された利得を伴う更新されたクロージャモデルを有するモデル１２０８ａを用いて推定されたシステム２０２の状態とシステムの実際の状態との間の誤差を低減する利得を決定する。いくつかの実施形態では、システムの実際の状態は、測定された状態であってもよい。いくつかの他の実施形態では、システムの実際の状態は、システム２０２のダイナミクスを記述するＰＤＥを用いて推定された状態であってもよい。いくつかの実施形態では、更新モジュール１２０８ｃは、極値探索を使用して利得を更新してもよい。いくつかの他の実施形態では、更新モジュール１２０８ｃは、ガウス過程に基づく最適化を使用して利得を更新してもよい。

制御コマンドモジュール１２０８ｃは、モデル１２０８ａおよび更新されたクロージャモデルに基づいて制御コマンドを決定するよう構成されてもよい。制御コマンドは、システムの動作を制御してもよい。いくつかの実施形態では、システムの動作は制約を受けてもよい。そのために、制御コマンドモジュール１２０８ｃは、予測モデルベースの制御を使用して、制約を実施しながら制御コマンドを決定する。制約は、システム２０２の連続状態空間における状態制約と、システム２０２の連続制御入力空間における制御入力制約とを含む。

出力インターフェイス１２１８は、制御コマンドをシステム２０２のアクチュエータ１２２０に送信して、システムの動作を制御するよう構成される。出力インターフェイス１２１８のいくつかの例は、システム２０２を制御するよう制御コマンドを提出する制御インターフェイスを含んでもよい。

図４は、いくつかの実施形態による、システム２０２を制御するための原理のフローチャートを示す。いくつかの実施形態は、システム２０２は物理法則からモデル化され得る、という認識に基づく。例えば、システム２０２のダイナミクスは、物理法則を使用する数学方程式によって表すことができる。ステップ４０２において、システム２０２は、物理法則に基づく高次元モデルによって表されてもよい。物理法則に基づく高次元モデルは、システム４０２のダイナミクスを記述する偏微分方程式（ＰＤＥ）であってもよい。説明のために、システム２０２はＨＶＡＣシステムであると考えられ、そのモデルはブシネスク方程式によって表される。ブシネスク方程式は物理法則から得られ、室内の気流と温度との間の結合を記述する。したがって、ＨＡＶＣシステムモデルは、以下のように数学的に表され得る：

これらの方程式の組は、ナビエ－ストークス方程式＋エネルギーの保存と呼ばれる。いくつかの実施形態では、そのような組み合わせは、ブシネスク方程式として公知である。これらの式は、基準点の絶対値、例えば部屋の隅の空気の温度または密度と比較した、空気の温度または密度の変動が無視できる場合に、有効である。同様の方程式は、そのような仮定が有効でない場合に導出することができ、そのためには圧縮可能な流れモデルを使用する必要がある。さらに、上記の方程式は、適切な境界条件を受ける。例えば、ＨＶＡＣユニットの速度または温度は、境界条件と見なすことができる。

いくつかの実施形態では、そのような抽象的ダイナミクスは、典型的には多数のｎ個の状態次元を必要とする非線形偏微分方程式（ＰＤＥ）の数値離散化から得られる。

いくつかの実施形態は、システム２０２の物理法則に基づく高次元モデルは、システム２０２の動作をリアルタイムで制御するよう解決される必要がある、という認識に基づく。例えば、ＨＶＡＣシステムの場合、ブシネスク方程式は、室内の気流力学および温度を制御するために解かれる必要がある。いくつかの実施形態は、システム２０２の物理法則に基づく高次元モデルは、解くのが複雑である多数の方程式および変数を含む、という認識に基づく。例えば、物理法則に基づく高次元モデルをリアルタイムで解決するためには、より大きな計算能力が必要とされる。そのために、いくつかの実施形態の目的は、物理法則に基づく高次元モデルを簡略化することである。

ステップ４０４において、装置１２００は、装置１２００が効率的な態様でシステム２０２を制御するように、システム２０２のダイナミクスを再現するために次数低減モデルを生成するよう提供される。いくつかの実施形態では、装置１２００は、モデル縮退技術を使用して、物理法則に基づく高次元モデルを単純化して、次数低減モデルを生成してもよい。いくつかの実施形態は、モデル縮退技術は、物理法則に基づく高次元モデルの次元性（例えば、ＰＤＥの変数）を削減し、次数低減モデルは、システム２０２の予測および制御のために、リアルタイムで使用されてもよい、という認識に基づく。さらに、システム２０２を制御するための次数低減モデルの生成について、図５を参照して詳細に説明する。ステップ４０６において、装置１２００は、システム２０２を予測および制御するために、次数低減モデルをリアルタイムで使用する。

図５は、いくつかの実施形態による、次数低減モデルを生成するための概略アーキテクチャを示す。いくつかの実施形態は、装置１２００はモデル縮退技術を使用して次数低減モデル（ＲＯＭ）５０６を生成する、という認識に基づく。モデル縮退技術を使用して生成されたＲＯＭ５０６は、物理法則に基づく高次元モデルの一部５０２であってもよい。物理法則に基づく高次元モデルの一部５０２は、システム２０２のダイナミクスを記述する１つ以上の微分方程式であってもよい。物理法則に基づく高次元モデルの一部５０２は、常微分方程式（ＯＤＥ）であってもよい。いくつかの実施形態では、ＯＤＥは、不確実性条件の場合、実際のダイナミクス（すなわち、ＰＤＥによって記述されるダイナミクス）を再現することはできない。不確実性条件の例は、ＰＤＥの境界条件が経時的に変化している場合、またはＰＤＥに含まれる係数の１つが変化している場合であってもよい。これらの数学的変化は、実際には、実際のダイナミクスにおけるなんらかの実際の変化を反映する。例えば、ＨＶＡＣシステムの場合、部屋の窓および／またはドアの開閉は、ブシネスク方程式（すなわちＰＤＥ）の境界条件を変化させる。同様に、日々および季節的な変化などの気象変化は、室内温度と室外温度との間の差異に影響を及ぼし、それは、次いで、ＰＤＥ係数のいくつかに影響を及ぼし、例えばレイノルズ数に影響を及ぼし得る。

これらのすべてのシナリオにおいて、モデル縮退技術は、上記のすべてのシナリオ、すなわち、パラメータの不確実性および境界条件不確実性をカバーするシステム２０２のダイナミクスの次数低減（または次元低減）モデル５０６を得るよう統合されたアプローチを有することはできない。

いくつかの実施形態の目的は、境界条件の変更および／またはパラメータの変更の場合にＰＤＥを解くＲＯＭ５０６を生成することである。そのために、いくつかの実施形態は、適応モデル縮退法、レジーム検出法などを使用する。

別の例として、本発明の一実施形態では、次数低減５０６は次の二次形式：

を有し、ここで、ｂ、Ａ、Ｂは、ＰＤＥ方程式の定数および使用されるモデル縮退アルゴリズムのタイプに関係付けられる定数であり、ｘ_ｒは、縮退された次元ｒのものであり、次数低減状態のベクトルを表す。システムｘの元の状態は、以下の単純な代数方程式を使用してｘ_ｒから回復することができ、

ここで、ｘは、通常、ＰＤＥ方程式の空間離散化から得られるｎ個の状態を含む高次元ｎ＞＞ｒのベクトルであり、Φは、ＲＯＭ５０６のモードまたは基底ベクトルと呼ばれる所与のベクトルを連結することによって形成される行列である。これらのモードは、どのモデル縮退法が使用されるかによって、異なる。モデル縮退法としては、例えば、固有直交分解（ＰＯＤ）法や、動的モード分解（ＤＭＤ）法などがある。

しかしながら、ＲＯＭ方程式の解は、不安定な解（有限時間サポートを超えて発散する）につながり得て、その不安定な解は、解を常に安定化させる、粘性項を有する元のＰＤＥモデルの物理（すなわち、有界時間サポートに有界にされる）を再現していない。例えば、ＯＤＥは、モデル縮退中に、物理法則に基づく高次元モデルの実際の解の固有の特性を失う場合がある。そのために、ＯＤＥは、空間および時間における物理法則に基づく高次元モデルの実際の解の有界性を失う場合がある。

したがって、いくつかの実施形態は、ＯＤＥとＰＤＥとの間の差異を表すクロージャモデル５０４を追加することによってＲＯＭ５０６を修正する。例えば、クロージャモデル５０４は、ＰＤＥの実際の解の失われた固有の特性を捕捉し、安定化因子のように作用する。いくつかの実施形態は、ＯＤＥとＰＤＥとの間の差異を低減するためにクロージャモデル５０６のみを更新することを可能にする。

例えば、いくつかの実施形態では、ＲＯＭ４０６は、以下のように数学的に表すことができる：

関数Ｆはクロージャモデル５０４であり、ＲＯＭモデル５０６の解を安定させるために追加される。項

はＯＤＥを表す。項Ｋは、安定性を保証するために調整されるべき係数のベクトル、およびＲＯＭ５０６は元のＰＤＥモデルのダイナミクスまたは解を再現する必要があるという事実を表す。いくつかの実施形態では、クロージャモデル５０４は、システム２０２の状態の線形関数である。いくつかの他の実施形態では、クロージャモデル４０４は、システム２０２の状態の非線形関数であってもよい。いくつかの実施形態では、強化学習（ＲＬ）ベースのデータ駆動型方法を使用して、クロージャモデル５０４を計算してもよい。さらに、強化学習（ＲＬ）を使用するクロージャモデル５０４の計算が、図６Ａ～図６Ｂを参照して詳細に説明される。

図６Ａは、いくつかの実施形態による、強化学習（ＲＬ）に基づく次数低減モデル５０６の概略図を示す。いくつかの実施形態では、ＲＬベースのデータ駆動型方法を使用して、ＲＬベースのクロージャモデル６０２を計算してもよい。いくつかの実施形態は、クロージャモデル５０２は、ＲＬベースのクロージャモデル６０２を計算するために、ＲＬで反復的に更新される、という認識に基づく。ＲＬベースのクロージャモデル６０２は、最適なクロージャモデルであってもよい。さらに、クロージャモデル５０４を更新するための反復プロセスが、図６Ｂを参照して詳細に説明される。いくつかの実施形態は、ＯＤＥと組み合わせた最適クロージャモデルは最適なＲＯＭ５０６を形成してもよい、という認識に基づく。いくつかの実施形態では、ＲＯＭ５０６は、システム２０２の挙動の実際のパターンを推定してもよい。例えば、ＲＯＭ５０６は、受信された状態軌道の形状を模倣する。

図６Ｂは、本発明の実施形態による、ＲＬを使用してクロージャモデル６０２を更新するための動作のフローチャートを示す。ステップ６０４において、装置１２００は、初期クロージャモデル方策と、その初期クロージャモデル方策に関連付けられる学習累積報酬関数とを初期化するよう構成されてもよい。初期クロージャモデル方策は、単純な線形クロージャモデル方策であってもよい。累積報酬関数は価値関数であってもよい。ステップ６０６において、装置１２００は、物理法則に基づく高次元モデルの一部５０２および現在のクロージャモデル（例えば、初期クロージャモデル方策）を含むＲＯＭ６０６を実行して、有限時間間隔に沿ってデータを収集するよう構成される。そのために、装置１２００は、システム２０２のダイナミクスの挙動のパターンを表すデータを収集する。例えば、挙動のパターンは、有限時間間隔にわたるシステム２０２のエネルギーの変化率を捕捉する。いくつかの実施形態は、システム２０２のダイナミクスの挙動のパターンは、有限時間間隔にわたる状態軌道の形状によって表され得る、という認識に基づく。

ステップ６０８において、装置１２００は、収集されたデータを使用して累積報酬関数を更新するよう構成される。いくつかの実施形態では、装置１２００は、受信された状態軌道の形状と、ＲＯＭ５０６を現在のクロージャモデル（例えば、初期化されたクロージャモデル）とともに用いて推定された状態軌道の形状との間の差異を示すよう、累積報酬関数（すなわち、価値関数）を更新する。

いくつかの実施形態は、ＲＬは、価値関数を最小化するようにトレーニングされたニューラルネットワークを使用する、という認識に基づく。そのために、ステップ６１０において、装置１２００は、価値関数が最小化されるように、収集されたデータおよび／または更新された累積報酬関数を使用して、現在のクロージャモデル方策を更新するよう構成される。

いくつかの実施形態では、装置１２００は、終了条件が満たされるまでステップ６０６，６０８，および６１０を繰り返すように構成される。そのために、ステップ６１２において、装置１２００は、学習が収束したかどうかを判定するよう構成される。例えば、装置１２００は、学習累積報酬関数が閾値限界を下回るかどうか、または２つの連続する学習累積報酬関数が小さな閾値限界内にあるかどうかを判定する。学習が収束した場合、装置１２００はステップ６１６に進み、そうでない場合には、装置１２００はステップ６１４に進む。ステップ６１４において、装置１２００は、クロージャモデルを更新されたクロージャモデルに置き換えるように構成され、終了条件が満たされるまで更新手順を繰り返す。いくつかの実施形態では、装置１２００は、学習が収束するまで更新手順を繰り返す。ステップ６１４において、装置１２００は、クロージャモデル学習を停止し、最後に更新されたクロージャモデル方策をＲＯＭ５０６に対する最適なクロージャモデルとして使用するよう構成される。

図７は、いくつかの実施形態による、システム２０２の実際の挙動と推定された挙動との間の差異を示す。いくつかの実施形態では、システム２０２の挙動のパターンは、２次元軸によって表されてもよく、ｘ軸は、時間に対応し、ｙ軸は、システム２０２のエネルギーの大きさに対応する。波７０２は、システム２０２の実際の挙動を表してもよい。波７０４は、システム２０２の推定された挙動を表してもよい。いくつかの実施形態は、実際の挙動７０２と推定された挙動７０４との間に定量的なギャップ７０６が存在してもよい、という認識に基づく。たとえば、実際の挙動７０２および推定された挙動７０４は、同様の周波数を有してもよいが、異なる振幅を有する。

そのために、いくつかの実施形態の目的は、実際の挙動７０２と推定された挙動７０４との間のギャップ７０６が低減されるように、最適なクロージャモデルに方策パラメータθを含めることである。さらに、装置１２００がギャップ７０６を低減するために方策パラメータθを決定するのを、図８Ａ、図８Ｂ、図８Ｃを参照して詳細に説明する。

図８Ａ～図８Ｃは、本発明の一実施形態による、最適なクロージャモデルを調整するためのトレーニングアルゴリズムの概略図を示す。いくつかの実施形態は、ＯＤＥ５０２および最適なクロージャモデルを備えるＲＯＭ５０６（すなわち、最適なＲＯＭ５０６）は、短い時間間隔に対して有用であってもよい、という認識に基づく。言い換えれば、最適なＲＯＭ５０６は、システム２０２の挙動が、小さい時間間隔に対してのみ境界を定められることを強制する。そのために、いくつかの実施形態の目的は、最適なＲＯＭ５０６の方策パラメータθ（係数とも呼ばれる）を経時的に調整することである。

図８Ｂは、そのような方策勾配法を示す。基本原理は、報酬の最も急激な増加を伴う方策に従うよう勾配上昇を使用する。しかしながら、１次オプティマイザは、湾曲領域に対してはあまり正確ではない。いくつかの実施形態は、この問題に対処する際にＴＲＰＯを利用する。ＴＲＰＯ、ＰＰＯ、および自然方策勾配の出力は、保証された単調な改善の概念に基づく。理論的には、各ＴＲＰＯ反復における方策更新は、信頼できる領域内で、より良好な方策を作成する。信頼領域内のそのような保証を用いて、最適な方策を反復的に見つけることができる。

いくつかの実施形態は、モデルの不確実性に関して強化学習（ＲＬ）アルゴリズムをロバスト化する問題に焦点を当てる。そのような場合、制約付きマルコフ決定過程（ＣＭＤＰ）の理論をロバストなマルコフ決定過程（ＲＭＤＰ）の理論と合併し、ロバストな制約付きＭＤＰ（ＲＣＭＤＰ）の定式化に至る。この定式化は、性能においてロバストであるＲＬアルゴリズムを設計することにつながり、システムの状態遷移確率における不確実性に関して制約満足保証を提供する。ＲＣＭＰＤの必要性は、ＲＬの実生活適用にとって重要である。ＲＣＭＤＰは、最適問題のラグランジュ定式化を使用し、ロバストな制約付き方策勾配ＲＬアルゴリズムに至る。

図９Ａ～図９Ｃは、本発明の一実施形態による、システム２０２のオンライン制御に使用されるようオフライン段階１０６でトレーニングされたロバストなＲＯＭ６１６を使用するための制御アルゴリズムの概略図を示す。センサデータ１０９は、データ同化のために使用され、ＲＯＭを更新するためにＲＬベースのクロージャモデルとともに組み込まれる。モデルが利用可能になると、それは、オンライン制御に使用することができる。制御ｕの例は、圧縮機速度、ファン速度、ブレードのヨー角、ＨＶＡＣの出口における温度および速度などの、ＨＶＡＣ性能に関係する作動である。

本質的に、本発明者らは、いくつかの実施形態では無限インパルス応答フィルタ（ＩＩＲ）としても知られているカルマン型観測器を求めている。これらの観測器は、有限インパルスフィルタ（ＦＩＲ）と対比される。実際、後者は、ｎ個の以前の入力／出力のサンプルと現在の瞬間における所望の観測された状態との間のマッピングに基づくことが周知であり、ノイズのない設定において、有限時間における正確な収束に至る。他方、ＩＩＲ観測器は、出力／入力の最後の測定のみの明示的な関数であることが周知であり、平均有限時間性能、すなわち［０，Ｋ］にわたる最大尤度推定に至る。

図９Ａは、ロバストＲＯＭ６１６と組み合わせて使用されるリアプノフベースの制御を示す。そのようなモデルは、１０１の全次数モデルよりも計算上要求がはるかに少ないので、オンライン制御１０７が実現可能である。制御理論において、制御－リアプノフ関数は、制御入力を有するシステムへの、リアプノフ関数Ｖ（ｘ）の概念の拡張である。通常のリアプノフ関数は、動的システムが安定しているかどうかを試験するために使用される。すなわち、ある領域Ｄにおいて状態ｘ≠０で開始するシステムがＤに留まるか、または漸近安定性のために最終的にｘ＝０に戻るか。制御－リアプノフ関数は、システムが安定化可能であるかどうか、すなわち、任意の状態ｘに対して、制御ｕを適用することによってシステムをゼロ状態にすることができるように制御ｕ（ｘ，ｔ）が存在するかどうかを試験するために使用される。

図９Ｂは、ロバストなＲＯＭ６１６と組み合わせて使用されるロバストな制御を示す。制御理論において、ロバストな制御は、不確実性に明示的に対処するコントローラ設計へのアプローチである。ロバストな制御方法は、不確実なパラメータまたは外乱がなんらかの（典型的にはコンパクトな）セット内に見出されるという条件で適切に機能するよう設計される。ロバストな方法は、有界モデリング誤差の存在下でロバストな性能および／または安定性を達成することを目的とする。適応的制御方策とは対照的に、ロバストな制御方策は静的であり、変動の測定値に適応するのではなく、コントローラは、ある変数が未知であるが有界であると仮定して動作するよう設計される。コントローラは、所望の性能目的が満たされるように、蒸気圧縮サイクルの１つ以上のアクチュエータについて値を計算するために、１つ以上のセンサ測定値に基づいてなんらかの計算を実行してもよい。場合によっては、ＨＶＡＣシステムの蒸気圧縮サイクル（システム）は、所望の動作性能を達成するために、圧縮機速度、弁設定、またはファン速度等のアクチュエータを調整する、コントローラまたはオプティマイザに接続される。コントローラは、いくつかの熱流体特性変数を含む、蒸気圧縮サイクルまたはその環境の状態を測定するために、蒸気圧縮サイクル上またはその近傍に設置されてもよいセンサを介して、蒸気圧縮サイクルに関する情報を取得してもよい。そのようなセンサの例は、温度センサまたは圧力センサである。ＨＶＡＣシステムのアクチュエータが、出力インターフェイスを介して、命令を含む制御コマンドを受信すると、制御コマンドは、可変速度圧縮機またはファンなどの可変位置アクチュエータを有するＨＶＡＣシステム蒸気圧縮サイクルのアクチュエータの動作を制御する。

ロバストなコントローラ９０２は、様々な解法を使用してＲＬ－ＲＯＥ６１６で対処されない不確実性を考慮することができる。いくつかの実施形態では、いかなるパラメータ変動の影響も無視できるように、高利得フィードバック制御が使用される。閉ループ伝達関数の観点から、高い開ループ利得は、システムパラメータ不確実性に直面して実質的な外乱拒絶につながる。いくつかの他の実施形態では、ロバストな制御９０２に対してスライディングモード制御が使用される。スライディングモード制御（ＳＭＣ）は、システムをシステムの通常挙動の断面に沿って「スライディング」させる不連続制御信号（またはより厳密には設定値制御信号）を印加することによって、６１６によって与えられるダイナミクスを変更する。ＳＭＣは、６１６のプラントパラメータの変動および外乱にあまり敏感でない非線形制御システムの特別なクラスである。

図９Ｃは、ロバストなＲＯＭ６１６と組み合わせて使用されるＭＰＣ制御を示す。モデル予測制御（ＭＰＣ）は、制約のセットを満たしながらプロセスを制御するために使用されるプロセス制御の高度な方法である。モデル予測コントローラは、プロセスの動的モデルに依存し、それは、本件の場合、ロバストなＲＯＭ６１６によって与えられ得る。ＭＰＣの主な利点は、将来のタイムスロットを考慮に入れながら現在のタイムスロットを最適化できる、という事実である。これは、有限時間ホライゾンを最適化するが、現在のタイムスロットを実現し、次いで再び繰り返し最適化することによってのみ達成され、したがって、線形－二次レギュレータ（ＬＱＲ）とは異なる。また、ＭＰＣは、将来のイベントを予期する能力を有し、それに応じて制御アクションをとることができる。ＰＩＤコントローラは、この予測能力を有さない。ＭＰＣは、デジタル制御としてほぼ普遍的に実現されるが、特別に設計されたアナログ回路でより速い応答時間を達成することに対する研究がある。

ＭＰＣ９０２は、最適化期間における複数の時間ステップの各々の間の建物ゾーンの温度、速度および湿度を予測するために（ＲＬ－ＲＯＥ６１６によって与えられる）予測モデルを使用して複数の時間ステップの各々の間にＨＶＡＣ機器を動作させるコストを考慮するコスト関数を生成し、建物ゾーンの予測された温度、速度、および湿度に対する制約の下、コスト関数を最適化して、複数の時間ステップの各々に対する最適な温度および速度設定値を判断することによって、熱快適性のために設計される最適な温度および速度設定値を判断するよう構成される。

図１０は、空調システムであるシステム２０２を制御するための制御装置１２００の例示的なリアルタイム実現例を示す。この例では、部屋１３００は、ドア１３０２および少なくとも１つの窓１３０４を有する。部屋１３００の温度および空気流は、装置１２００によって、空調システム２０２を介して、換気ユニット１３０６を通して、制御される。部屋１３００内の所与の点における空気流の速度を測定するための少なくとも１つの空気流センサ１３０８ａ、および部屋温度を測定するための少なくとも１つの温度センサ１３０８ｂ等の、センサ１３０８のセットが、部屋１３００内に配置される。他のタイプの設定、例えば、複数のＨＶＡＣユニットを有する部屋、または複数の部屋を有する家屋を考慮することができる。

いくつかの実施形態は、空調システム２０２が、図４に例示的に示されるように、ブシネスク方程式と呼ばれる、物理法則に基づくモデルによって説明され得る、という認識に基づく。しかしながら、ブシネスク方程式は、空調システム２０２を制御するためにブシネスク方程式を解決するために無限次元を含む。そのために、ＯＤＥ５０２および更新された利得を有する更新されたクロージャモデルを含むモデルは、図１～図９の詳細な説明で説明されるように定式化される。このモデルは、空調システム２０２のダイナミクス（例えば、空気流ダイナミクス）を最適な態様で再現する。さらに、いくつかの実施形態では、空気流ダイナミクスのモデルは、空調システム２０２の動作中の空気流の値（例えば、空気流の速度）と空調された部屋１３００の温度とを関連付ける。そのために、装置１１２００は、空調システム２０２を最適に制御して、空気流を、条件付けられた態様で生成する。

上記の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の以下の説明は、１つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。

以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施されてもよいことであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。

また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されてもよい。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了してもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。

さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現されてもよい。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。必要なタスクはプロセッサが実行してもよい。

本明細書で概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを使用する１つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化されてもよい。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／またはプログラミングもしくはスクリプトツールのうちのいずれかを使用して書かれてもよく、また、フレームワークまたは仮想マシン上で実行される実行可能機械言語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせられるかまたは分散されてもよい。

上記の個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される。フローチャートは動作を逐次プロセスとして示すが、動作の多くは並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了されてもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。

Claims

アクチュエータを含む暖房、換気、および空調（ＨＶＡＣ）システムを制御するために、強化学習でトレーニングされた次数低減推定器（ＲＬトレーニングされたＲＯＥ）と、クロージャモデルとを使用する、コンピュータにより実現される方法であって、前記方法は、前記方法を実現する命令を記憶するメモリに結合されるプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
入力インターフェイスを介して、ユーザ入力から前記ＨＶＡＣシステムの設定値を取得し、前記ＨＶＡＣシステムに配置されたセンサから測定データを取得することと、
前記測定データおよび前記ＲＬトレーニングされたＲＯＥからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、
前記ＲＬトレーニングされたＲＯＥを使用することによって前記設定値に関してコントローラを決定することと、
前記コントローラに基づいて制御コマンドを生成することと、
出力インターフェイスを介して、前記ＨＶＡＣシステムの前記アクチュエータの動作を制御する命令を含む前記制御コマンドを送信することとを含む、方法。
前記コントローラは、モデル予測制御を使用して設計されている、請求項１に記載の方法。
前記コントローラは、リアプノフ設計を使用して設計されている、請求項１に記載の方法。
前記コントローラは、前記ＲＬトレーニングされたＲＯＥにおいて任意のモデル不確実性を考慮に入れるロバストな制御を使用して設計されている、請求項１に記載の方法。
前記ＲＬトレーニングされたＲＯＥは、近傍方策最適化（ＰＰＯ）アルゴリズムを使用してトレーニングされている、請求項１に記載の方法。
前記ＲＬトレーニングされたＲＯＥは、信頼領域方策最適化（ＴＲＰＯ）アルゴリズムを使用してトレーニングされている、請求項１に記載の方法。
前記ＲＬトレーニングされたＲＯＥは、ロバストな制約付きマルコフ決定過程（ＲＣＭＣＰ）アルゴリズムを使用してトレーニングされている、請求項１に記載の方法。
前記ＲＬトレーニングされたＲＯＥは、時変非定常ＭＤＰを使用してトレーニングされている、請求項１に記載の方法。
アクチュエータを含む暖房、換気、および空調（ＨＶＡＣ）システムを制御するための装置であって、
ユーザ入力から前記ＨＶＡＣシステムの設定値を取得し、前記ＨＶＡＣシステムに配置されたセンサから測定データを取得するよう構成される入力インターフェイスと、
コンピュータにより実現される方法を実現する命令を記憶するよう構成される少なくとも１つのメモリと、
前記少なくとも１つのメモリに結合される少なくとも１つのプロセッサとを備え、前記命令は、前記少なくとも１つのプロセッサによって実行されると、前記コンピュータにより実現される方法のステップにおいて、
前記測定データおよび前記ＲＬトレーニングされたＲＯＥからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、
前記ＲＬトレーニングされたＲＯＥを使用することによって前記設定値に関してコントローラを決定することと、
前記コントローラに基づいて制御コマンドを生成することとを含むことを実行し、前記装置はさらに、
前記ＨＶＡＣシステムを動作させる前記アクチュエータを制御する制御命令を含む前記制御コマンドを送信するよう構成される出力インターフェイスを備える、装置。
前記コントローラは、最適な制御を使用して設計されている、請求項９に記載の装置。
前記コントローラは、リアプノフ設計を使用して設計されている、請求項９に記載の装置。
前記コントローラは、ロバストな制御を使用して設計されている、請求項９に記載の装置。
前記ＲＬトレーニングされたＲＯＥは、近傍方策最適化（ＰＰＯ）アルゴリズムを使用してトレーニングされている、請求項９に記載の装置。
前記ＲＬトレーニングされたＲＯＥは、信頼領域方策最適化（ＴＲＰＯ）アルゴリズムを使用してトレーニングされている、請求項９に記載の装置。
前記ＲＬトレーニングされたＲＯＥは、ロバストな制約付きマルコフ決定過程（ＲＣＭＣＰ）アルゴリズムを使用してトレーニングされている、請求項９に記載の装置。
前記ＲＬトレーニングされたＲＯＥは、時変非定常ＭＤＰを使用してトレーニングされている、請求項９に記載の装置。