JP2023160722A - Hvacフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習 - Google Patents

Hvacフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習 Download PDF

Info

Publication number
JP2023160722A
JP2023160722A JP2022196383A JP2022196383A JP2023160722A JP 2023160722 A JP2023160722 A JP 2023160722A JP 2022196383 A JP2022196383 A JP 2022196383A JP 2022196383 A JP2022196383 A JP 2022196383A JP 2023160722 A JP2023160722 A JP 2023160722A
Authority
JP
Japan
Prior art keywords
trained
model
control
roe
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022196383A
Other languages
English (en)
Inventor
ナビ・サレー
Nabi Saleh
ベノスマン・モウハシン
Benosman Mouhacine
モウラビ・サビズ
Mowlavi Saviz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023160722A publication Critical patent/JP2023160722A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • F24F11/63Electronic processing
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/62Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/048Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Combustion & Propulsion (AREA)
  • Mechanical Engineering (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Feedback Control In General (AREA)

Abstract

【課題】アクチュエータを含む暖房、換気、および空調(HVAC)システムを制御するために、強化学習でトレーニングされた次数低減推定器(RLトレーニングされたROE)およびクロージャモデルを使用する、コンピュータにより実現される方法が提供される。【解決手段】本方法は、本方法を実施する命令を記憶するメモリと結合されるプロセッサを使用し、命令は、プロセッサによって実行されると、本方法のステップにおいて、ユーザ入力からHVACシステムの設定値を取得し、HVACシステム内に配置されたセンサから測定データを取得することと、測定データおよびRLトレーニングされたROEからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、RLトレーニングされたROEを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することと、出力インターフェイスを介してHVACシステムのアクチュエータに制御コマンドを送信することとを含む。【選択図】図2

Description

本発明は、概して、システムモデリング、予測および制御に関する。より詳細には、HVACユニットを制御するために動的モード分解を伴うロバストなデータ駆動型モデル適応のための方法および装置に関する。
制御システムエンジニアリングにおける制御理論は、エンジニアリングされたプロセスおよび機械において連続的に動作する動的システムの制御を扱う数学のサブフィールドである。本発明の目的は、遅延やオーバーシュートのない最適な態様における制御動作でそのようなシステムを制御し、制御安定性を確保するための制御方策を開発することである。
例えば、モデル予測制御(MPC)などの最適化ベースの制御および推定技術は、システムダイナミクスおよび制約を直接考慮に入れることができるモデルベースの設計フレームワークを可能にする。MPCは、様々な複雑さの動的システムを制御するために多くの用途で使用される。そのようなシステムの例は、生産ライン、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星および発電機を含む。本明細書で使用する場合、システムのダイナミクスのモデルまたはシステムのモデルは、微分方程式を使用してシステムのダイナミクスを記述する。例えば、p個の入力u、q個の出力yおよびn個の状態変数xを有する線形システムの最も一般的なモデルは、以下の形式で書かれる:
Figure 2023160722000002
しかしながら、いくつかの状況では、制御されたシステムのモデルは非線形であり、設計が困難であり得、リアルタイムで使用することが困難であり得、または不正確であり得る。そのようなケースの例は、ロボット工学、建築物制御(HVAC)、スマートグリッド、工場オートメーション、輸送、自己調整機械、および交通網において普及している。加えて、非線形モデルが正確に利用可能であっても、ハミルトン-ヤコビ-ベルマン(HJB)方程式と呼ばれる偏微分方程式を解く必要があるため、最適なコントローラを設計することは本質的に困難な課題である。
動的システムの正確なモデルが存在しないなか、いくつかの制御方法は、システムダイナミクスを安定させるフィードバック制御方策を構築するために、または定量化可能な制御関連性能を埋め込むために、動的システムによって生成される動作データを利用する。制御方策を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御方法には2種類があり、(i)まずシステムのモデルを構築し、次いでモデルを利用してコントローラを設計する間接的な方法、および(ii)中間モデル構築ステップなしで、データから制御方策を直接構築する直接的な方法である。
間接的な方法の欠点は、モデル構築段階における大量のデータの潜在的な必要性である。加えて、間接制御方法では、コントローラは、推定されたモデルから、例えば確実性等価原理に従って計算されるが、実際には、データから推定されるモデルは、システムのダイナミクスの物理的特性を捕捉しない。したがって、いくつかのモデルベースの制御技術は、そのようなデータ駆動型モデルとともに使用されることはできない。
この問題を克服するために、いくつかの方法は、直接的な制御方法を使用して、実験データをコントローラ上に直接マッピングし、その間にいかなるモデルも識別されない。しかしながら、直接的な制御方法は、システムの状態を制御コマンドに直接マッピングする制御方策のブラックボックス設計をもたらす。しかしながら、このような制御方策は、システムの物理的特性を考慮して設計されない。さらに、制御設計者は、制御方策のデータ駆動型判断に影響を及ぼすことはできない。
したがって、システムを最適に制御するための方法および装置が依然として必要とされている。
いくつかの実施形態の目的は、システムの挙動のダイナミクスを捕捉する、システムのダイナミクスのモデルを生成するために、システムのダイナミクスのモデルのデータ駆動型設計のための装置および方法を提供することである。このように、実施形態は、制御アプリケーションを設計する際にシステムのモデルを有することの利点を保持しながら、モデル設計プロセスを単純化する。しかしながら、現在のデータ駆動型方法は、システムの物理的ダイナミクスを捕捉する、システムのモデルを推定するのに適していない。
例えば、強化学習(RL)は、累積報酬の何らかの概念を最大化する(または同等に、累積損失/コストを最小化する)よう、環境内でアクションを取る方法に関する、機械学習の領域である。強化学習は、連続する状態入力空間における最適制御に関連し、それは、主に、最適制御方策の存在および特徴付け、ならびに制御されたシステムおよび/または環境の数学的モデルの不在下でのそれらの計算のためのアルゴリズムに関係する。
RL方法によって提供される利点を考慮して、いくつかの実施形態は、微分方程式を用いて記述され得る、動的システムのための最適な制御方策をもたらすRL技術を開発することを目的とする。しかしながら、制御方策は、システムの状態を制御コマンドにマッピングし、このマッピングをシステムの物理的ダイナミクスに基づいて実行しないか、または少なくとも実行する必要はない。したがって、物理的意味を有し、システムのダイナミクスを記述するために1つ以上の微分方程式を有する、モデルの、RLベースのデータ駆動型推定は、制御分野では開拓されていない。
いくつかの実施形態は、物理的意味を有する、システムのダイナミクスのモデルのRLデータ駆動型学習は、報酬関数が学習されたモデルによるシステムの挙動とシステムの実際の挙動との間の差異の最小化である仮想制御問題として見ることができる、という認識に基づく。特に、システムの挙動は、システムの上位特徴付け、例えば、システムの安定性、状態の有界性である。実際、システムは、制御されない状況でも挙動を有する。残念ながら、RLを介するそのようなモデルの推定は、計算上困難である。
そのために、いくつかの実施形態は、システムのモデルは、我々がクロージャモデルと呼ぶ、仮想制御項と組み合わせられる次数低減モデルで表すことができる、という認識に基づいている。例えば、システムの、完全な物理法則に基づくモデルが、典型的には、偏微分方程式(PDE)によって捕捉される場合、次数低減モデルは、常微分方程式(ODE)によって表され得る。ODEは、システムのダイナミクスを時間の関数として表すが、PDEを使用するダイナミクスの表現よりも精度が低い。したがって、クロージャモデルの目的は、このギャップを低減することである。
本明細書で使用されるように、クロージャモデルは、ODEおよびPDEによって推定されるシステムの挙動の差異を捕捉する、システムの状態の非線形関数である。したがって、クロージャモデルは、ODEによって捕捉されるダイナミクスとPDEによって捕捉されるダイナミクスとの間のダイナミクスの差異を表す時間の関数でもある。いくつかの実施形態は、PDE方程式を解くことは計算的に高価であるため、ODEとクロージャモデルとの組み合わせとしてのシステムのダイナミクスの表現は、システムのその後の制御を単純化することができる、という理解に基づく。したがって、いくつかの実施形態は、ODEおよびクロージャモデルを用いてダイナミクスを表現し、クロージャモデルのみを更新することによって、システムのダイナミクスのデータ駆動型推定を単純化しようとする。しかしながら、この問題も、計算がより単純ではあるが、RLのフレームワークで定式化される場合には、困難である。これは、通常、RLは、システムを正確に制御するために制御方策を学習するために使用されるためである。ここで、この類比において、RLはクロージャモデルを正確に推定しようと試みるはずであり、それは困難である。
しかしながら、いくつかの実施形態は、いくつかのモデル化状況においては、システムのダイナミクスの正確な挙動自体ではなく、挙動のパターンを表すことで充分である、という認識に基づく。例えば、正確な挙動が各時点におけるシステムのエネルギーを捕捉する場合、挙動のパターンは、エネルギーの変化率を捕捉する。類比として、システムが励起されると、システムのエネルギーは増加する。システムのダイナミクスの正確な挙動を知ることは、そのようなエネルギー増加を評価することを可能にする。システムのダイナミクスの挙動のパターンを知ることは、エネルギーの実際の値に比例するエネルギーの新たな値を推定するために、増加率を評価することを可能にする。
したがって、システムのダイナミクスの挙動のパターンは、正確な挙動自体ではないが、いくつかのモデルベースの制御アプリケーションでは、システムのダイナミクスの挙動のパターンは、リアプノフ安定制御を設計するのに充分である。そのような制御アプリケーションの例は、システムの状態を安定化させることを目的とする安定化制御を含む。
そのために、いくつかの実施形態は、RLを使用して、ODEおよび更新されたCLのダイナミクスがシステムのダイナミクスのパターンを模倣するようにクロージャモデルを更新する。いくつかの実施形態は、ダイナミクスのパターンは、システムの状態の値と対照的に、時間の関数として決定される状態軌道の形状によって表され得る、という認識に基づく。状態軌道は、システムのオンライン機能中に測定することができる。加えて、または代替として、状態軌道は、PDEを使用してシミュレートされることができる。
そのために、いくつかの実施形態は、ODEとクロージャモデルとの組み合わせを含むシステムのモデルを使用してシステムを制御し、状態軌道の実際の形状とODEを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有するRLを用いてクロージャモデルを更新する。
しかしながら、収束後、更新されたCLを伴うODEは、システムの挙動のダイナミクスのパターンを表すが、挙動の実際の値は表さない。言い換えると、更新されたCLを伴うODEは、システムの実際の物理的ダイナミクスに比例する関数である。そのために、いくつかの実施形態は、RLよりも、モデルベースの最適化に、より適した方法で、後でシステムのオンライン制御中に学習される、クロージャモデルの利得を含む。これらの方法の例は、極値探索、ガウス過程に基づく最適化などである。
加えて、または代替として、いくつかの実施形態は、MPCなど、種々のモデルベースの予測制御においてデータ駆動型適応によって決定されるシステムのモデルを使用する。これらの実施形態は、システムの制御において制約を考慮するMPCの能力を利用することを可能にする。例えば、従来のRL方法は、制約されたシステムのデータ駆動型制御には適していない。これは、従来のRL法は、連続的な状態-動作空間における状態および入力制約の満足を考慮していないためであり;すなわち、従来のRLは、制御入力で動作される被制御システムの状態が動作全体にわたって状態および入力制約を満たすことを保証することはできない。
しかしながら、いくつかの実施形態は、RLを使用してシステムの物理的特性を学習し、RLのデータ駆動型利点をモデルベースの制約付き最適化と組み合わせることを可能にする。
したがって、一実施形態は、システムの動作を制御するための装置を開示する。装置は、システムの状態軌道を受信するよう構成される入力インターフェイスと;少なくとも1つの微分方程式とクロージャモデルとの組み合わせを含む、システムのダイナミクスのモデルを記憶するよう構成されるメモリと;受信された状態軌道の形状とモデルを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習(RL)を使用してクロージャモデルを更新し、モデルおよび更新されたクロージャモデルに基づいて制御コマンドを決定するよう構成されるプロセッサと;制御コマンドをシステムのアクチュエータに送信して、システムの動作を制御するよう構成される出力インターフェイスとを備える。
別の実施形態は、システムの動作を制御するための方法を開示する。本方法は、少なくとも1つの微分方程式とクロージャモデルとの組み合わせを含む、システムのダイナミクスのモデルを記憶するメモリに結合されるプロセッサを使用し、プロセッサは、プロセッサによって実行されると、本方法のステップを実行する記憶された命令に結合され、本方法は、システムの状態軌道を受信することと、受信された状態軌道の形状と、モデルを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習(RL)を使用してクロージャモデルを更新することと、モデルおよび更新されたクロージャモデルに基づいて制御コマンドを決定することと、制御コマンドをシステムのアクチュエータに送信して、システムの動作を制御することとを含む。
本発明のいくつかの実施形態によれば、アクチュエータを含む暖房、換気、および空調(HVAC)システムを制御するために、強化学習トレーニングされた次数低減推定器(RLトレーニングされたROE)およびロバストなクロージャモデルを使用する、コンピュータにより実現される方法が提供される。本方法は、本方法を実施する命令を記憶するメモリと結合されるプロセッサを使用し、命令は、プロセッサによって実行されると、本方法のステップにおいて、入力インターフェイスを介して、ユーザ入力からHVACシステムの設定値を取得し、HVACシステム内に配置されたセンサから測定データを取得することと、測定データおよびRLトレーニングされたROEからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、RLトレーニングされたROEを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することと、出力インターフェイスを介してHVACシステムのアクチュエータに制御コマンドを送信することとを含む。
さらに、本発明のいくつかの実施形態は、アクチュエータを含む暖房、換気、および空調(HVAC)システムを制御するための装置を提供する。装置は、ユーザ入力およびHVACシステムに配置されたセンサからの測定データからHVACシステムの設定値を取得するよう構成される入力インターフェイスと、コンピュータにより実現される方法を実施する命令を記憶するよう構成される少なくとも1つのメモリと、少なくとも1つのメモリに結合される少なくとも1つのプロセッサとを含んでもよく、命令は、少なくとも1つのプロセッサによって実行されると、コンピュータにより実現される方法のステップで、測定データおよびRLトレーニングされたROEからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、RLトレーニングされたROEを使用することによって設定値に関してコントローラを決定することと、コントローラに基づいて制御コマンドを生成することとを含むことを実行し、本装置はさらに、HVACシステムを動作させるアクチュエータを制御する制御命令を含む制御コマンドを送信するよう構成される出力インターフェイスを含んでもよい。
本発明の一実施形態による、オンライン制御で使用されるロバストな次数低減モデルをオフライン方式で生成するための2つの段階のブロック図である。 システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略図である。 本発明のいくつかの実施形態による、システムの動作を制御するための装置のブロック図である。 本発明のいくつかの実施形態による、システムを制御するための原理のフローチャート図である。 本発明のいくつかの実施形態による、次数低減モデルを生成するための概略アーキテクチャ図である。 本発明のいくつかの実施形態による、強化学習(RL)に基づく次数低減モデルの概略図である。 本発明の一実施形態による、RLを使用してクロージャモデルを更新するための動作のフローチャート図である。 本発明のいくつかの実施形態による、システムの実際の挙動と推定された挙動との間の差異を示す図である。 本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。 本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。 本発明の一実施形態による、クロージャモデルにおいて使用されるべき最適な方策を学習するためのトレーニングアルゴリズムの概略図である。 本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。 本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。 本発明のいくつかの実施形態による、ロバストな次数低減モデルに基づく制御アルゴリズムの概略図である。 本発明の実施形態による、空調システムであるシステムを制御するための装置の例示的なリアルタイム実現例を示す図である。
添付の図面は、本発明のさらなる理解のために含まれ、本発明の実施形態を示し、本記載とともに、本発明の原理を説明する。示される図面は必ずしも縮尺通りではなく、概して、本開示の実施形態の原理を説明することに重点が置かれる。
上記で特定された図面は、ここに開示される実施形態を記載しているが、議論に記載するように、他の実施形態も企図される。本開示は、限定ではなく代表として例示的な実施形態を提示する。当業者は、本開示の実施形態の原理の範囲および精神に含まれる多数の他の修正および実施形態を考案することができる。
以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。
以下の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用性、または構成を限定することを意図するものではない。むしろ、例示的な実施形態の以下の説明は、1つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。
以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施され得ることであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。
以下の説明では、説明の目的で、本開示の完全な理解を促すために、多数の具体的な詳細が述べられる。しかしながら、本開示は、これらの具体的な詳細なしに実施されてもよいことは、当業者には明白であろう。他の例では、本開示を不明瞭にすることを回避するために、装置および方法がブロック図の形式でのみ示される。
本明細書および特許請求の範囲で用いられる場合、文言「例えば」、「例として」、「等」、ならびに動詞「備える」、「有する」、「含む」、およびそれらの他の動詞形は、1つ以上の構成要素または他の項目のリストとともに用いられる場合、各々オープンエンドと解釈されるべきであり、そのリストは、他の追加の構成要素または項目を排除するものと見なすべきではないことを意味する。「~に基づく」と言う文言は、少なくとも部分的に基づくことを意味する。さらに、本明細書で使用される表現および用語は、説明の目的のためであり、限定と見なされるべきではないことを理解されたい。この記載内で利用されるいかなる見出しも、便宜上のものにすぎず、法的または限定的な効果を有さない。
本発明の実施形態を説明する際に、以下の定義が本開示を通して適用可能である。
「制御システム」または「コントローラ」は、他のデバイスまたはシステムの挙動を管理、命令、指示、または調整するためのデバイスまたはデバイスのセットを指し得る。制御システムは、ソフトウェアまたはハードウェアのいずれかによって実現することができ、1つ以上のモジュールを含むことができる。フィードバックループを含む制御システムは、マイクロプロセッサを使用して実現することができる。制御システムは組み込みシステムとすることができる。
「空調システム」または暖房、換気、および空調(HVAC)システムは、蒸気圧縮サイクルを使用して、熱力学、流体力学、および/または熱伝達の原理に基づいて、システムの構成要素を通して冷媒を移動させるシステムを指し得る。空調システムは、屋外空気のみを建物の居住者に供給するシステムから、建物の温度のみを制御するシステム、温度および湿度を制御するシステムまで、非常に広範なシステムに及ぶ。
「中央処理装置(CPU)」または「プロセッサ」は、ソフトウェア命令を読み出し、実行するコンピュータまたはコンピュータの構成要素を指し得る。さらに、プロセッサは、「少なくとも1つのプロセッサ」または「1つ以上のプロセッサ」とすることができる。
図1は、偏微分方程式(PDE)の離散化後に生じるものなどの大規模システムの制御および推定を2段階装置を使用してどのように行うことができるかの概略図のブロック図を示す。
106で示される段階1では、ロバストな次数低減モデル(ROM)を導出するためにオフラインタスクが実行される。そのようなモデルの開発のためのデータは、高忠実度計算流体力学(CFD)シミュレーションによって、または実験を行うことによって、生成されてもよい。
CFDは、数値解析およびデータ構造を使用して、流体の流れを伴う問題を解析および解決する流体力学の分派である。コンピュータは、流体の自由流の流れ、および流体(液体および気体)と境界条件によって画定される表面との相互作用をシミュレートするために必要な計算を実行するために使用される。進行中の研究は、遷音速もしくは乱流などの複雑なシミュレーションシナリオの精度および速度を改善するソフトウェア、またはHVAC用途において気流を記述するよう生じるものに至っている。そのようなソフトウェアの初期検証は、典型的には、風洞等の実験装置を使用して行われる。加えて、特定の問題の、以前に実施された分析的または経験的分析を、比較のために使用することができる。
次いで、CFDシミュレーションまたは実験のいずれかによって生成されたデータセットを使用して、CFDによって得られた軌道に対してのみ有効であってもよいROMを開発する。例えば、ステップ101のCFDは、窓が閉じられている部屋に対して行うことができ、ROM102は、この条件に対してのみ有効である。窓が開かれると、ROM102の精度は劣化し、不安定または非常に不正確になる可能性がある。この場合、101のCFDシミュレーションまたは実験によって生成されたいくつかの軌道を使用して、1033を、推定および制御のために使用されるようにトレーニングする。このようなタスクはすべてオフラインで実行される。オフライン段階106によって生成され、RLによって補正ROM102の予測とトレーニングデータ105との間の差異に基づいてトレーニングされるモデル1033(102+103)は、パラメータ変動に対してロバストであり、未知の初期条件にも対処することができるモデルである。
実験またはCFDシミュレーション101における不確実性による102における不確実性は、103におけるロバストなROMの開発によって対処することができる。
大きな課題は、ROMは、ダイナミクスの、単純化された、不完全な記述を提供することであり、これはオンライン制御に使用される状態推定器の性能に悪影響を及ぼす。1つの潜在的な解決策は、図5のさらなる詳細を有する追加のクロージャ項を含めることによってROM自体の精度を改善することである。
いくつかの実施形態は、種々の方法によって、例えば、種々の軌道および平均化を使用して、感度分析を使用して、問題に特有の事前公知の基底関数を使用して等、よりロバストなROMを開発しようとする。
いくつかの実施形態は、所与の軌道のみに基づいてROMを開発し、ROMのさらなる開発の代わりに、推定の精度を高めるためにクロージャモデルと呼ばれる追加の項を提案する。例えば、リアプノフベースのクロージャモデル、(例えば人工拡散を使用する)物理法則に触発されたクロージャモデル、または強化学習法を使用して、クロージャ項のモデルを開発することができる。
いくつかの実施形態は、推定層をROMに追加するためにカルマンフィルタリングなどの従来の方法を使用する。統計および制御理論に関して、線形二次推定(LQE)としても知られるカルマンフィルタリングは、統計的測定およびノイズのモデリングを含む、経時的に観察される一連の測定値を使用し、システムの未測定状態の推定値を生成するアルゴリズムである。これらの推定値は、各時間フレームの状態にわたって同時確率分布を推定することにより、単一の測定のみに基づく推定値よりも正確である。
いくつかの実施形態は、強化学習次数低減推定器(RL-ROE)を使用し、RL-ROEは、次いで、オンライン制御に使用することができる。RL-ROEは、カルマンフィルタに類似した方法でROMから構築されるが、線形フィルタ利得関数が、強化学習(RL)を通してトレーニングされた非線形確率論的方策によって置き換えられるという重要な違いがある。非線形方策の柔軟性は、RL-ROEが、例えばダイナミクスの不完全な知識によるROMの誤差を補償することを可能にする。
いくつかの実施形態は、静止マルコフ決定過程(MDP)のためにRL法を使用するRLトレーニングを可能にするために、推定問題を静止MDPとして説明する。マルコフ過程は、現在の状況から、将来が過去とは無関係である、確率過程である。したがって、マルコフ過程は、微分方程式および差分方程式によって記述される決定論的過程の自然な確率論的類似物である。それらは、確率過程の最も重要なクラスの1つを形成する。
いくつかの実施形態は、トレーニングされたRL-ROEが、同じROMを使用して設計されたカルマンフィルタよりも性能が優れており、異なる基準軌道および初期状態推定値に関してロバストな推定性能を表示することを示す。提案されるRL-ROEは、高次元システムに対する状態推定に対する強化学習の第1の適用例である。これに関するさらなる詳細は、図6および図8に関して与えられる。
ROMおよびクロージャモデルが構築されると、結果として生じるモデルは、最初に推定のために、そして最終的にオンライン制御のために、使用されることができる。例えば、いくつかのCFDまたは実験軌道101を使用して生成されるロバストなモデル108は、特定の部屋レイアウト(例えば、矩形、L字形)ついて、窓(例えば、開、閉、半開)またはその部屋にいる所与の人数に対するいくつかの条件を使用することによって開発されている場合がある。しかし、実際には、部屋の人数は様々であるかもしれず、窓は、矩形でもL字形でもなく、それら二つの組み合わせであるレイアウトついて、4分の1開いているかもしれない。オフライン段階106で学習されたクロージャモデルは、101によって生成される同様の軌道内に入るそのような未知の場合でさえも、部屋条件、例えば、部屋内の温度または速度を推定するよう構成される。これは、部屋およびその中に設置されたHVACの物理的特性の部分的な正確な知識を表すセンサデータ109が108に供給されている場合に、行うことができる。そのようなプロセスは、データ同化、すなわち、感知からの情報そのものを、おそらくは不正確なモデル情報と同化することとしても、知られている。
データ同化は、(通常は数値モデルの形態にある)予測を観察と最適に組み合わせようとする数学的分野である。例えば、システムの最適な状態推定を決定するため、数値予測モデルの初期条件を決定するため、観察されているシステムの知識を使用して疎な観察データを補間するため、観察された実験データからモデルの数値パラメータを識別するために、求められるいくつかの異なる目標が存在し得る。目標に応じて、異なる解法を使用してもよい。データ同化は、分析されるシステムの動的モデルを利用するという点で、他の形態の機械学習および統計的方法とは区別される。室内の温度および速度の再構築のプロセス(プロセスステップ)110は、108のロバストなモデルおよび109のセンサデータのそのようなデータ同化の結果である。
オフライン段階106およびオンライン段階107は、単純化されたロバストなモデル108の開発の例であり、それは、次いで、推定および制御のために用いられ得る。
推定理論は、ランダム成分を有する測定された経験的データに基づいてパラメータの値を推定することに対処する統計学の分派である。パラメータは、それらの値が測定されたデータの分布に影響を及ぼすような態様で、基礎をなす物理的設定を記述する。推定器は、測定値を使用して未知のパラメータを近似することを試みる。推定理論では、概して、2つのアプローチが考慮され、(本発明に記載される)確率的アプローチは、測定されるデータはランダムであり、確率分布は対象のパラメータに依存する、と仮定し、セットメンバシップアプローチは、測定されるデータベクトルはパラメータベクトルに依存するセットに属する、と仮定する。
HVAC用途のために部屋内に設置される感覚データの例は、熱電対読取り値、熱カメラ測定値、速度センサ、湿度センサなどである。
部屋内の温度または速度が110において再構築されると、オンライン制御段階107は、部屋内の気流制御111のために実行され得る。さらなる詳細を図9に示す。
図2は、システムの動作を制御するためにいくつかの実施形態によって使用される原理の概略図を示す。いくつかの実施形態は、システム202を制御するよう構成される制御装置200を提供する。例えば、装置200は、工学的プロセスおよび機械において連続的に動作する動的システム202を制御するよう構成することができる。以下、「制御装置」と「装置」とは入れ替えて使用してもよく、同じ意味である。以下、「連続的に動作する動的システム」および「システム」は、入れ替えて使用されてもよく、同じことを意味する。システム102の例は、HVACシステム、LIDARシステム、凝縮ユニット、生産ライン、自己調整機械、スマートグリッド、自動車エンジン、ロボット、数値制御機械加工、モータ、衛星、発電機、交通網などである。いくつかの実施形態は、装置200は、遅延またはオーバーシュートを伴わずに最適な方法で制御アクションを使用してシステム202を制御するため、および制御安定性を保証するために、推定および制御(コマンド)を提供するよう構成される制御方策206を開発する、という認識に基づく。
いくつかの実施形態では、装置200は、モデル予測制御(MPC)などのモデルベースおよび/または最適化ベースの制御ならびに推定技術を使用して、システム202のために制御コマンド206を開発する。モデルベースの技術は、動的システムの制御に有利であり得る。例えば、MPCは、システム202のダイナミクスおよび制約が直接考慮され得るモデルベースの設計フレームワークを可能にする。MPCは、システム204のモデルに基づいて制御コマンド206を開発する。システム202のモデル204は、微分方程式を使用して説明されるシステム202のダイナミクスを指す。いくつかの実施形態では、モデル204は非線形であり、設計するのが困難であり、および/またはリアルタイムで使用するのが困難であり得る。例えば、非線形モデルが正確に利用可能である場合であっても、最適な制御コマンド206を推定することは本質的に困難なタスクであり、なぜならば、ハミルトン-ヤコビ-ベルマン(HJB)方程式と名付けられる、システム202のダイナミクスを記述する偏微分方程式(PDE)を解く必要があり、それは計算的に困難であるからである。
いくつかの実施形態は、モデル204を設計するためにデータ駆動型制御技術を使用する。データ駆動型技術は、システム202を安定させるフィードバック制御方策を構築するために、システム202によって生成された動作データを利用する。例えば、システム202の動作中に測定されたシステム202の各状態は、システム202を制御するためのフィードバックとして与えられてもよい。一般に、制御方策および/またはコマンド206を設計するための動作データの使用は、データ駆動型制御と呼ばれる。データ駆動型制御の目的は、データから制御方策を設計し、データ駆動型制御方策を使用してシステムを制御することである。そのようなデータ駆動型制御アプローチとは対照的に、いくつかの実施形態は、動作データを使用して、制御システムのモデル、例えばモデル204を設計し、次いで、データ駆動型モデルを使用して、種々のモデルベースの制御方法を使用してシステムを制御する。いくつかの実施形態の目的は、データからシステムの実際のモデル、すなわち、システムの挙動を推定するために使用することができるそのようなモデルを決定することであることに留意されたい。例えば、いくつかの実施形態の目的は、微分方程式を使用してシステムのダイナミクスを捕捉するデータから、システムのモデルを決定することである。加えて、または代替として、いくつかの実施形態の目的は、データから物理法則に基づくPDEモデル精度を有するモデルを学習することである。
計算を単純化するために、いくつかの実施形態は、システム202のダイナミクスを記述するために、常微分方程式(ODE)208aを定式化する。いくつかの実施形態では、ODE208aは、モデル縮退技術を使用して定式化されてもよい。例えば、ODE208aは、PDEの低減された次元であってもよい。そのために、ODE208aはPDEの一部とすることができる。しかしながら、いくつかの実施形態では、ODE108aは、不確実性条件の場合、システム202の実際のダイナミクス(すなわち、PDEによって記述されるダイナミクス)を再生することはできない。不確実性条件の例は、PDEの境界条件が経時的に変化している場合、またはPDEに関与する係数の1つが変化している場合であってもよい。
そのために、いくつかの実施形態は、不確実性条件の場合をカバーしながら、ROM(DMD)208aと、PDEを低減するロバストなRLベースのクロージャモデル208bとを含む、次数低減推定器(ROE)208を提供する。いくつかの実施形態では、クロージャモデル208bは、ODEおよびPDEに従ってシステム202の挙動(例えば、ダイナミクス)における差異を捕捉する、システム202の状態の非線形関数であってもよい。クロージャモデル208bは、強化学習(RL)を使用して定式化されてもよい。言い換えれば、システム202のPDEモデルは、ODE(ROM)208aとクロージャモデル208bとの組み合わせによって近似され、クロージャモデル208bは、RLを使用してデータから学習される。このようにして、PDEの精度に近づくモデルがデータから学習される。
いくつかの実施形態では、RLは、システム202の個々の状態を学習するのではなく、システム202の挙動を定義する、システム202の状態軌道を学習する。状態軌道は、システム202の状態のシーケンスであってもよい。いくつかの実施形態は、ODE208aおよびクロージャモデル208bを備えるモデル208は、システム202の実際の挙動値(例えば状態)ではなく、システム202の挙動のパターンを再現する、という認識に基づく。システム202の挙動のパターンは、状態軌道の形状、例えばシステムの一連の状態を、時間の関数として表すことができる。システム202の挙動のパターンはまた、モデルの上位特性、例えば、その解の経時的な有界性、またはその解の経時的な減衰を表し得るが、システムのダイナミクスを最適には再現しない。
そのために、いくつかの実施形態は、利得を決定し、システム202のダイナミクスを最適に再現するために、利得をクロージャモデル208bに含める。いくつかの実施形態では、利得は、最適化アルゴリズムを使用して更新されてもよい。ODE208a、更新された利得を有するクロージャモデル108bを含むモデル208は、システム202のダイナミクスを再現する。したがって、モデル208は、システム202のダイナミクスを最適に再現する。いくつかの実施形態は、モデル208がPDEよりも少ない数のパラメータを含むという認識に基づいている。このために、モデル208は、システム202の物理的モデルを記述するPDEほど計算的に複雑ではない。いくつかの実施形態では、制御方策206は、モデル208を使用して決定される。制御方策206は、システム202の状態を制御コマンドに直接マッピングしてシステム202の動作を制御する。したがって、縮退されたモデル108は、効率的な態様でシステム202ための制御を設計するために使用される。
図3は、いくつかの実施形態による、システム1202の動作を制御するための装置1200のブロック図を示す。装置1200は、装置1200を他のシステムおよびデバイスに接続するための入力インターフェイス1202および出力インターフェイス1218を含む。いくつかの実施形態では、装置1200は、複数の入力インターフェイスおよび複数の出力インターフェイスを含んでもよい。入力インターフェイス1202は、システム202の状態軌道1216を受信するよう構成される。入力インターフェイス1202は、バス1210を介して装置1200をネットワーク1214に接続するように適合されたネットワークインターフェイスコントローラ(NIC)1212を含む。無線または有線のいずれかでネットワーク1214を通じて、装置1200は、システム1202の状態軌道1216を受信する。
状態軌道1216は、システム202のダイナミクスの実際の挙動を定義する、システム202の複数の状態であってもよい。例えば、状態軌道1216は、システム202を制御するための基準連続状態空間として作用する。いくつかの実施形態では、状態軌道1216は、システム202の状態の部分のリアルタイム測定から受信されてもよい。いくつかの他の実施形態では、状態軌道1216は、システム202のダイナミクスを記述するPDEを使用してシミュレートされてもよい。いくつかの実施形態では、受信された状態軌道について、形状を、時間の関数として、決定してもよい。状態軌道の形状は、システム202の挙動の実際のパターンを表してもよい。
装置1200は、プロセッサ1204と、プロセッサ1204によって実行可能な命令を記憶するメモリ1206とをさらに含む。プロセッサ1204は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスタ、または任意の数の他の構成であってもよい。メモリ1206は、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、フラッシュメモリ、または任意の他の好適なメモリシステムを含んでもよい。プロセッサ1204は、バス1210を介して1つ以上の入力および出力デバイスに接続される。記憶された命令は、システム202の動作を制御するための方法を実現する。
メモリ1206は、ストレージ1208を含むようにさらに拡張されてもよい。ストレージ1208は、モデル1208a、コントローラ1208b、更新モジュール1208c、および制御コマンドモジュール1208dを記憶するよう構成されてもよい。いくつかの実施形態では、モデル1208aは、少なくとも1つの微分方程式およびクロージャモデルの組み合わせを含む、システム202のダイナミクスを記述するモデルであってもよい。モデル1208の微分方程式は、常微分方程式(ODE)208aであってもよい。モデル208aのクロージャモデルは、システム202の状態の線形関数または非線形関数であってもよい。クロージャモデルは、システム202の挙動を模倣するようRLを使用して学習されてもよい。理解されるように、一旦クロージャモデルが学習されると、クロージャモデルは、図1に図示されるようなクロージャ208bとなってもよい。
コントローラ1208bは、プロセッサ1204によって実行されるとストレージ1208において1つ以上のモジュールを実行する命令を記憶するよう構成されてもよい。いくつかの実施形態は、コントローラ1208bはストレージ1208の各モジュールを管理してシステム202を制御する、という認識に基づく。
更新モジュール1208cは、受信された状態軌道の形状と、モデル1208aを更新されたクロージャモデルとともに使用して推定された状態軌道の形状との間の差異を低減する価値関数を有する強化学習(RL)を使用して、モデル1208aのクロージャモデルを更新するよう構成されてもよい。いくつかの実施形態では、更新モジュール1208cは、終了条件が満たされるまで、RLを用いてクロージャモジュールを反復的に更新するよう構成されてもよい。更新されたクロージャモデルは、ODEおよびPDE従ってシステムの挙動における差異を捕捉する、システムの状態の非線形関数である。
さらに、いくつかの実施形態では、更新モジュール1208cは、更新されたクロージャモデルの利得を更新するよう構成されてもよい。そのために、いくつかの実施形態は、更新された利得を伴う更新されたクロージャモデルを有するモデル1208aを用いて推定されたシステム202の状態とシステムの実際の状態との間の誤差を低減する利得を決定する。いくつかの実施形態では、システムの実際の状態は、測定された状態であってもよい。いくつかの他の実施形態では、システムの実際の状態は、システム202のダイナミクスを記述するPDEを用いて推定された状態であってもよい。いくつかの実施形態では、更新モジュール1208cは、極値探索を使用して利得を更新してもよい。いくつかの他の実施形態では、更新モジュール1208cは、ガウス過程に基づく最適化を使用して利得を更新してもよい。
制御コマンドモジュール1208cは、モデル1208aおよび更新されたクロージャモデルに基づいて制御コマンドを決定するよう構成されてもよい。制御コマンドは、システムの動作を制御してもよい。いくつかの実施形態では、システムの動作は制約を受けてもよい。そのために、制御コマンドモジュール1208cは、予測モデルベースの制御を使用して、制約を実施しながら制御コマンドを決定する。制約は、システム202の連続状態空間における状態制約と、システム202の連続制御入力空間における制御入力制約とを含む。
出力インターフェイス1218は、制御コマンドをシステム202のアクチュエータ1220に送信して、システムの動作を制御するよう構成される。出力インターフェイス1218のいくつかの例は、システム202を制御するよう制御コマンドを提出する制御インターフェイスを含んでもよい。
図4は、いくつかの実施形態による、システム202を制御するための原理のフローチャートを示す。いくつかの実施形態は、システム202は物理法則からモデル化され得る、という認識に基づく。例えば、システム202のダイナミクスは、物理法則を使用する数学方程式によって表すことができる。ステップ402において、システム202は、物理法則に基づく高次元モデルによって表されてもよい。物理法則に基づく高次元モデルは、システム402のダイナミクスを記述する偏微分方程式(PDE)であってもよい。説明のために、システム202はHVACシステムであると考えられ、そのモデルはブシネスク方程式によって表される。ブシネスク方程式は物理法則から得られ、室内の気流と温度との間の結合を記述する。したがって、HAVCシステムモデルは、以下のように数学的に表され得る:
Figure 2023160722000003

これらの方程式の組は、ナビエ-ストークス方程式+エネルギーの保存と呼ばれる。いくつかの実施形態では、そのような組み合わせは、ブシネスク方程式として公知である。これらの式は、基準点の絶対値、例えば部屋の隅の空気の温度または密度と比較した、空気の温度または密度の変動が無視できる場合に、有効である。同様の方程式は、そのような仮定が有効でない場合に導出することができ、そのためには圧縮可能な流れモデルを使用する必要がある。さらに、上記の方程式は、適切な境界条件を受ける。例えば、HVACユニットの速度または温度は、境界条件と見なすことができる。
Figure 2023160722000004
Figure 2023160722000005
いくつかの実施形態では、そのような抽象的ダイナミクスは、典型的には多数のn個の状態次元を必要とする非線形偏微分方程式(PDE)の数値離散化から得られる。
いくつかの実施形態は、システム202の物理法則に基づく高次元モデルは、システム202の動作をリアルタイムで制御するよう解決される必要がある、という認識に基づく。例えば、HVACシステムの場合、ブシネスク方程式は、室内の気流力学および温度を制御するために解かれる必要がある。いくつかの実施形態は、システム202の物理法則に基づく高次元モデルは、解くのが複雑である多数の方程式および変数を含む、という認識に基づく。例えば、物理法則に基づく高次元モデルをリアルタイムで解決するためには、より大きな計算能力が必要とされる。そのために、いくつかの実施形態の目的は、物理法則に基づく高次元モデルを簡略化することである。
ステップ404において、装置1200は、装置1200が効率的な態様でシステム202を制御するように、システム202のダイナミクスを再現するために次数低減モデルを生成するよう提供される。いくつかの実施形態では、装置1200は、モデル縮退技術を使用して、物理法則に基づく高次元モデルを単純化して、次数低減モデルを生成してもよい。いくつかの実施形態は、モデル縮退技術は、物理法則に基づく高次元モデルの次元性(例えば、PDEの変数)を削減し、次数低減モデルは、システム202の予測および制御のために、リアルタイムで使用されてもよい、という認識に基づく。さらに、システム202を制御するための次数低減モデルの生成について、図5を参照して詳細に説明する。ステップ406において、装置1200は、システム202を予測および制御するために、次数低減モデルをリアルタイムで使用する。
図5は、いくつかの実施形態による、次数低減モデルを生成するための概略アーキテクチャを示す。いくつかの実施形態は、装置1200はモデル縮退技術を使用して次数低減モデル(ROM)506を生成する、という認識に基づく。モデル縮退技術を使用して生成されたROM506は、物理法則に基づく高次元モデルの一部502であってもよい。物理法則に基づく高次元モデルの一部502は、システム202のダイナミクスを記述する1つ以上の微分方程式であってもよい。物理法則に基づく高次元モデルの一部502は、常微分方程式(ODE)であってもよい。いくつかの実施形態では、ODEは、不確実性条件の場合、実際のダイナミクス(すなわち、PDEによって記述されるダイナミクス)を再現することはできない。不確実性条件の例は、PDEの境界条件が経時的に変化している場合、またはPDEに含まれる係数の1つが変化している場合であってもよい。これらの数学的変化は、実際には、実際のダイナミクスにおけるなんらかの実際の変化を反映する。例えば、HVACシステムの場合、部屋の窓および/またはドアの開閉は、ブシネスク方程式(すなわちPDE)の境界条件を変化させる。同様に、日々および季節的な変化などの気象変化は、室内温度と室外温度との間の差異に影響を及ぼし、それは、次いで、PDE係数のいくつかに影響を及ぼし、例えばレイノルズ数に影響を及ぼし得る。
これらのすべてのシナリオにおいて、モデル縮退技術は、上記のすべてのシナリオ、すなわち、パラメータの不確実性および境界条件不確実性をカバーするシステム202のダイナミクスの次数低減(または次元低減)モデル506を得るよう統合されたアプローチを有することはできない。
いくつかの実施形態の目的は、境界条件の変更および/またはパラメータの変更の場合にPDEを解くROM506を生成することである。そのために、いくつかの実施形態は、適応モデル縮退法、レジーム検出法などを使用する。
Figure 2023160722000006
Figure 2023160722000007
Figure 2023160722000008
別の例として、本発明の一実施形態では、次数低減506は次の二次形式:
Figure 2023160722000009

を有し、ここで、b、A、Bは、PDE方程式の定数および使用されるモデル縮退アルゴリズムのタイプに関係付けられる定数であり、xは、縮退された次元rのものであり、次数低減状態のベクトルを表す。システムxの元の状態は、以下の単純な代数方程式を使用してxから回復することができ、
Figure 2023160722000010

ここで、xは、通常、PDE方程式の空間離散化から得られるn個の状態を含む高次元n>>rのベクトルであり、Φは、ROM506のモードまたは基底ベクトルと呼ばれる所与のベクトルを連結することによって形成される行列である。これらのモードは、どのモデル縮退法が使用されるかによって、異なる。モデル縮退法としては、例えば、固有直交分解(POD)法や、動的モード分解(DMD)法などがある。
しかしながら、ROM方程式の解は、不安定な解(有限時間サポートを超えて発散する)につながり得て、その不安定な解は、解を常に安定化させる、粘性項を有する元のPDEモデルの物理(すなわち、有界時間サポートに有界にされる)を再現していない。例えば、ODEは、モデル縮退中に、物理法則に基づく高次元モデルの実際の解の固有の特性を失う場合がある。そのために、ODEは、空間および時間における物理法則に基づく高次元モデルの実際の解の有界性を失う場合がある。
したがって、いくつかの実施形態は、ODEとPDEとの間の差異を表すクロージャモデル504を追加することによってROM506を修正する。例えば、クロージャモデル504は、PDEの実際の解の失われた固有の特性を捕捉し、安定化因子のように作用する。いくつかの実施形態は、ODEとPDEとの間の差異を低減するためにクロージャモデル506のみを更新することを可能にする。
例えば、いくつかの実施形態では、ROM406は、以下のように数学的に表すことができる:
Figure 2023160722000011
関数Fはクロージャモデル504であり、ROMモデル506の解を安定させるために追加される。項
Figure 2023160722000012

はODEを表す。項Kは、安定性を保証するために調整されるべき係数のベクトル、およびROM506は元のPDEモデルのダイナミクスまたは解を再現する必要があるという事実を表す。いくつかの実施形態では、クロージャモデル504は、システム202の状態の線形関数である。いくつかの他の実施形態では、クロージャモデル404は、システム202の状態の非線形関数であってもよい。いくつかの実施形態では、強化学習(RL)ベースのデータ駆動型方法を使用して、クロージャモデル504を計算してもよい。さらに、強化学習(RL)を使用するクロージャモデル504の計算が、図6A~図6Bを参照して詳細に説明される。
図6Aは、いくつかの実施形態による、強化学習(RL)に基づく次数低減モデル506の概略図を示す。いくつかの実施形態では、RLベースのデータ駆動型方法を使用して、RLベースのクロージャモデル602を計算してもよい。いくつかの実施形態は、クロージャモデル502は、RLベースのクロージャモデル602を計算するために、RLで反復的に更新される、という認識に基づく。RLベースのクロージャモデル602は、最適なクロージャモデルであってもよい。さらに、クロージャモデル504を更新するための反復プロセスが、図6Bを参照して詳細に説明される。いくつかの実施形態は、ODEと組み合わせた最適クロージャモデルは最適なROM506を形成してもよい、という認識に基づく。いくつかの実施形態では、ROM506は、システム202の挙動の実際のパターンを推定してもよい。例えば、ROM506は、受信された状態軌道の形状を模倣する。
Figure 2023160722000013
Figure 2023160722000014
図6Bは、本発明の実施形態による、RLを使用してクロージャモデル602を更新するための動作のフローチャートを示す。ステップ604において、装置1200は、初期クロージャモデル方策と、その初期クロージャモデル方策に関連付けられる学習累積報酬関数とを初期化するよう構成されてもよい。初期クロージャモデル方策は、単純な線形クロージャモデル方策であってもよい。累積報酬関数は価値関数であってもよい。ステップ606において、装置1200は、物理法則に基づく高次元モデルの一部502および現在のクロージャモデル(例えば、初期クロージャモデル方策)を含むROM606を実行して、有限時間間隔に沿ってデータを収集するよう構成される。そのために、装置1200は、システム202のダイナミクスの挙動のパターンを表すデータを収集する。例えば、挙動のパターンは、有限時間間隔にわたるシステム202のエネルギーの変化率を捕捉する。いくつかの実施形態は、システム202のダイナミクスの挙動のパターンは、有限時間間隔にわたる状態軌道の形状によって表され得る、という認識に基づく。
ステップ608において、装置1200は、収集されたデータを使用して累積報酬関数を更新するよう構成される。いくつかの実施形態では、装置1200は、受信された状態軌道の形状と、ROM506を現在のクロージャモデル(例えば、初期化されたクロージャモデル)とともに用いて推定された状態軌道の形状との間の差異を示すよう、累積報酬関数(すなわち、価値関数)を更新する。
いくつかの実施形態は、RLは、価値関数を最小化するようにトレーニングされたニューラルネットワークを使用する、という認識に基づく。そのために、ステップ610において、装置1200は、価値関数が最小化されるように、収集されたデータおよび/または更新された累積報酬関数を使用して、現在のクロージャモデル方策を更新するよう構成される。
いくつかの実施形態では、装置1200は、終了条件が満たされるまでステップ606,608,および610を繰り返すように構成される。そのために、ステップ612において、装置1200は、学習が収束したかどうかを判定するよう構成される。例えば、装置1200は、学習累積報酬関数が閾値限界を下回るかどうか、または2つの連続する学習累積報酬関数が小さな閾値限界内にあるかどうかを判定する。学習が収束した場合、装置1200はステップ616に進み、そうでない場合には、装置1200はステップ614に進む。ステップ614において、装置1200は、クロージャモデルを更新されたクロージャモデルに置き換えるように構成され、終了条件が満たされるまで更新手順を繰り返す。いくつかの実施形態では、装置1200は、学習が収束するまで更新手順を繰り返す。ステップ614において、装置1200は、クロージャモデル学習を停止し、最後に更新されたクロージャモデル方策をROM506に対する最適なクロージャモデルとして使用するよう構成される。
図7は、いくつかの実施形態による、システム202の実際の挙動と推定された挙動との間の差異を示す。いくつかの実施形態では、システム202の挙動のパターンは、2次元軸によって表されてもよく、x軸は、時間に対応し、y軸は、システム202のエネルギーの大きさに対応する。波702は、システム202の実際の挙動を表してもよい。波704は、システム202の推定された挙動を表してもよい。いくつかの実施形態は、実際の挙動702と推定された挙動704との間に定量的なギャップ706が存在してもよい、という認識に基づく。たとえば、実際の挙動702および推定された挙動704は、同様の周波数を有してもよいが、異なる振幅を有する。
そのために、いくつかの実施形態の目的は、実際の挙動702と推定された挙動704との間のギャップ706が低減されるように、最適なクロージャモデルに方策パラメータθを含めることである。さらに、装置1200がギャップ706を低減するために方策パラメータθを決定するのを、図8A、図8B、図8Cを参照して詳細に説明する。
図8A~図8Cは、本発明の一実施形態による、最適なクロージャモデルを調整するためのトレーニングアルゴリズムの概略図を示す。いくつかの実施形態は、ODE502および最適なクロージャモデルを備えるROM506(すなわち、最適なROM506)は、短い時間間隔に対して有用であってもよい、という認識に基づく。言い換えれば、最適なROM506は、システム202の挙動が、小さい時間間隔に対してのみ境界を定められることを強制する。そのために、いくつかの実施形態の目的は、最適なROM506の方策パラメータθ(係数とも呼ばれる)を経時的に調整することである。
Figure 2023160722000015
Figure 2023160722000016
Figure 2023160722000017
Figure 2023160722000018
Figure 2023160722000019
Figure 2023160722000020

図8Bは、そのような方策勾配法を示す。基本原理は、報酬の最も急激な増加を伴う方策に従うよう勾配上昇を使用する。しかしながら、1次オプティマイザは、湾曲領域に対してはあまり正確ではない。いくつかの実施形態は、この問題に対処する際にTRPOを利用する。TRPO、PPO、および自然方策勾配の出力は、保証された単調な改善の概念に基づく。理論的には、各TRPO反復における方策更新は、信頼できる領域内で、より良好な方策を作成する。信頼領域内のそのような保証を用いて、最適な方策を反復的に見つけることができる。
Figure 2023160722000021

いくつかの実施形態は、モデルの不確実性に関して強化学習(RL)アルゴリズムをロバスト化する問題に焦点を当てる。そのような場合、制約付きマルコフ決定過程(CMDP)の理論をロバストなマルコフ決定過程(RMDP)の理論と合併し、ロバストな制約付きMDP(RCMDP)の定式化に至る。この定式化は、性能においてロバストであるRLアルゴリズムを設計することにつながり、システムの状態遷移確率における不確実性に関して制約満足保証を提供する。RCMPDの必要性は、RLの実生活適用にとって重要である。RCMDPは、最適問題のラグランジュ定式化を使用し、ロバストな制約付き方策勾配RLアルゴリズムに至る。
図9A~図9Cは、本発明の一実施形態による、システム202のオンライン制御に使用されるようオフライン段階106でトレーニングされたロバストなROM616を使用するための制御アルゴリズムの概略図を示す。センサデータ109は、データ同化のために使用され、ROMを更新するためにRLベースのクロージャモデルとともに組み込まれる。モデルが利用可能になると、それは、オンライン制御に使用することができる。制御uの例は、圧縮機速度、ファン速度、ブレードのヨー角、HVACの出口における温度および速度などの、HVAC性能に関係する作動である。
Figure 2023160722000022

本質的に、本発明者らは、いくつかの実施形態では無限インパルス応答フィルタ(IIR)としても知られているカルマン型観測器を求めている。これらの観測器は、有限インパルスフィルタ(FIR)と対比される。実際、後者は、n個の以前の入力/出力のサンプルと現在の瞬間における所望の観測された状態との間のマッピングに基づくことが周知であり、ノイズのない設定において、有限時間における正確な収束に至る。他方、IIR観測器は、出力/入力の最後の測定のみの明示的な関数であることが周知であり、平均有限時間性能、すなわち[0,K]にわたる最大尤度推定に至る。
図9Aは、ロバストROM616と組み合わせて使用されるリアプノフベースの制御を示す。そのようなモデルは、101の全次数モデルよりも計算上要求がはるかに少ないので、オンライン制御107が実現可能である。制御理論において、制御-リアプノフ関数は、制御入力を有するシステムへの、リアプノフ関数V(x)の概念の拡張である。通常のリアプノフ関数は、動的システムが安定しているかどうかを試験するために使用される。すなわち、ある領域Dにおいて状態x≠0で開始するシステムがDに留まるか、または漸近安定性のために最終的にx=0に戻るか。制御-リアプノフ関数は、システムが安定化可能であるかどうか、すなわち、任意の状態xに対して、制御uを適用することによってシステムをゼロ状態にすることができるように制御u(x,t)が存在するかどうかを試験するために使用される。
図9Bは、ロバストなROM616と組み合わせて使用されるロバストな制御を示す。制御理論において、ロバストな制御は、不確実性に明示的に対処するコントローラ設計へのアプローチである。ロバストな制御方法は、不確実なパラメータまたは外乱がなんらかの(典型的にはコンパクトな)セット内に見出されるという条件で適切に機能するよう設計される。ロバストな方法は、有界モデリング誤差の存在下でロバストな性能および/または安定性を達成することを目的とする。適応的制御方策とは対照的に、ロバストな制御方策は静的であり、変動の測定値に適応するのではなく、コントローラは、ある変数が未知であるが有界であると仮定して動作するよう設計される。コントローラは、所望の性能目的が満たされるように、蒸気圧縮サイクルの1つ以上のアクチュエータについて値を計算するために、1つ以上のセンサ測定値に基づいてなんらかの計算を実行してもよい。場合によっては、HVACシステムの蒸気圧縮サイクル(システム)は、所望の動作性能を達成するために、圧縮機速度、弁設定、またはファン速度等のアクチュエータを調整する、コントローラまたはオプティマイザに接続される。コントローラは、いくつかの熱流体特性変数を含む、蒸気圧縮サイクルまたはその環境の状態を測定するために、蒸気圧縮サイクル上またはその近傍に設置されてもよいセンサを介して、蒸気圧縮サイクルに関する情報を取得してもよい。そのようなセンサの例は、温度センサまたは圧力センサである。HVACシステムのアクチュエータが、出力インターフェイスを介して、命令を含む制御コマンドを受信すると、制御コマンドは、可変速度圧縮機またはファンなどの可変位置アクチュエータを有するHVACシステム蒸気圧縮サイクルのアクチュエータの動作を制御する。
ロバストなコントローラ902は、様々な解法を使用してRL-ROE616で対処されない不確実性を考慮することができる。いくつかの実施形態では、いかなるパラメータ変動の影響も無視できるように、高利得フィードバック制御が使用される。閉ループ伝達関数の観点から、高い開ループ利得は、システムパラメータ不確実性に直面して実質的な外乱拒絶につながる。いくつかの他の実施形態では、ロバストな制御902に対してスライディングモード制御が使用される。スライディングモード制御(SMC)は、システムをシステムの通常挙動の断面に沿って「スライディング」させる不連続制御信号(またはより厳密には設定値制御信号)を印加することによって、616によって与えられるダイナミクスを変更する。SMCは、616のプラントパラメータの変動および外乱にあまり敏感でない非線形制御システムの特別なクラスである。
図9Cは、ロバストなROM616と組み合わせて使用されるMPC制御を示す。モデル予測制御(MPC)は、制約のセットを満たしながらプロセスを制御するために使用されるプロセス制御の高度な方法である。モデル予測コントローラは、プロセスの動的モデルに依存し、それは、本件の場合、ロバストなROM616によって与えられ得る。MPCの主な利点は、将来のタイムスロットを考慮に入れながら現在のタイムスロットを最適化できる、という事実である。これは、有限時間ホライゾンを最適化するが、現在のタイムスロットを実現し、次いで再び繰り返し最適化することによってのみ達成され、したがって、線形-二次レギュレータ(LQR)とは異なる。また、MPCは、将来のイベントを予期する能力を有し、それに応じて制御アクションをとることができる。PIDコントローラは、この予測能力を有さない。MPCは、デジタル制御としてほぼ普遍的に実現されるが、特別に設計されたアナログ回路でより速い応答時間を達成することに対する研究がある。
MPC902は、最適化期間における複数の時間ステップの各々の間の建物ゾーンの温度、速度および湿度を予測するために(RL-ROE616によって与えられる)予測モデルを使用して複数の時間ステップの各々の間にHVAC機器を動作させるコストを考慮するコスト関数を生成し、建物ゾーンの予測された温度、速度、および湿度に対する制約の下、コスト関数を最適化して、複数の時間ステップの各々に対する最適な温度および速度設定値を判断することによって、熱快適性のために設計される最適な温度および速度設定値を判断するよう構成される。
図10は、空調システムであるシステム202を制御するための制御装置1200の例示的なリアルタイム実現例を示す。この例では、部屋1300は、ドア1302および少なくとも1つの窓1304を有する。部屋1300の温度および空気流は、装置1200によって、空調システム202を介して、換気ユニット1306を通して、制御される。部屋1300内の所与の点における空気流の速度を測定するための少なくとも1つの空気流センサ1308a、および部屋温度を測定するための少なくとも1つの温度センサ1308b等の、センサ1308のセットが、部屋1300内に配置される。他のタイプの設定、例えば、複数のHVACユニットを有する部屋、または複数の部屋を有する家屋を考慮することができる。
いくつかの実施形態は、空調システム202が、図4に例示的に示されるように、ブシネスク方程式と呼ばれる、物理法則に基づくモデルによって説明され得る、という認識に基づく。しかしながら、ブシネスク方程式は、空調システム202を制御するためにブシネスク方程式を解決するために無限次元を含む。そのために、ODE502および更新された利得を有する更新されたクロージャモデルを含むモデルは、図1~図9の詳細な説明で説明されるように定式化される。このモデルは、空調システム202のダイナミクス(例えば、空気流ダイナミクス)を最適な態様で再現する。さらに、いくつかの実施形態では、空気流ダイナミクスのモデルは、空調システム202の動作中の空気流の値(例えば、空気流の速度)と空調された部屋1300の温度とを関連付ける。そのために、装置11200は、空調システム202を最適に制御して、空気流を、条件付けられた態様で生成する。
上記の説明は、例示的な実施形態のみを提供するものであり、本開示の範囲、適用可能性、または構成を制限することを意図していない。むしろ、例示的な実施形態の以下の説明は、1つ以上の例示的な実施形態を実現するための実施可能な説明を当業者に提供する。企図されるのは、特許請求の範囲に記載されるように開示される主題の精神および範囲から逸脱することなく、要素の機能および構成において行われ得るさまざまな変更である。
以下の説明では、実施形態の完全な理解のために、具体的な詳細が与えられる。しかしながら、当業者によって理解されることは、実施形態がこれらの具体的な詳細なしで実施されてもよいことであり得る。たとえば、開示される主題におけるシステム、プロセス、および他の要素は、不必要な詳細で実施形態を不明瞭にしないように、ブロック図の形態の構成要素として示される場合がある。他の例では、周知のプロセス、構造、および技術は、実施形態を不明瞭にすることを回避するために、不必要な詳細を伴わずに示される場合がある。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示した。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明されてもよい。フローチャートは、動作を順次プロセスとして説明し得るが、動作の多くは、並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了してもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現されてもよい。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。必要なタスクはプロセッサが実行してもよい。
本明細書で概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのいずれか1つを使用する1つ以上のプロセッサ上で実行可能なソフトウェアとしてコード化されてもよい。加えて、そのようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングもしくはスクリプトツールのうちのいずれかを使用して書かれてもよく、また、フレームワークまたは仮想マシン上で実行される実行可能機械言語コードまたは中間コードとしてコンパイルされてもよい。典型的には、プログラムモジュールの機能は、様々な実施形態において所望に応じて組み合わせられるかまたは分散されてもよい。
上記の個々の実施形態は、フローチャート、フロー図、データフロー図、構造図、またはブロック図として示されるプロセスとして説明される。フローチャートは動作を逐次プロセスとして示すが、動作の多くは並列にまたは同時に実行することができる。加えて、動作の順序は並べ替えられてもよい。プロセスは、その動作が完了したときに終了されてもよいが、論じられていない、または図に含まれていない追加のステップを有してもよい。さらに、特に説明される任意のプロセスにおけるすべての動作が、すべての実施形態において生じ得るわけではない。プロセスは、メソッド、関数、プロシージャ、サブルーチン、サブプログラムなどに対応してもよい。プロセスが関数に対応するとき、関数の終了は、呼び出し関数またはメイン関数への関数の復帰に対応することができる。
さらに、開示される主題の実施形態は、少なくとも部分的に、手動または自動のいずれかで実現されてもよい。手動または自動実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、もしくはそれらの任意の組合せの使用を通じて実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェア、またはマイクロコードで実現されるとき、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械可読媒体に記憶されてもよい。必要なタスクはプロセッサが実行してもよい。

Claims (16)

  1. アクチュエータを含む暖房、換気、および空調(HVAC)システムを制御するために、強化学習でトレーニングされた次数低減推定器(RLトレーニングされたROE)と、クロージャモデルとを使用する、コンピュータにより実現される方法であって、前記方法は、前記方法を実現する命令を記憶するメモリに結合されるプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
    入力インターフェイスを介して、ユーザ入力から前記HVACシステムの設定値を取得し、前記HVACシステムに配置されたセンサから測定データを取得することと、
    前記測定データおよび前記RLトレーニングされたROEからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、
    前記RLトレーニングされたROEを使用することによって前記設定値に関してコントローラを決定することと、
    前記コントローラに基づいて制御コマンドを生成することと、
    出力インターフェイスを介して、前記HVACシステムの前記アクチュエータの動作を制御する命令を含む前記制御コマンドを送信することとを含む、方法。
  2. 前記コントローラは、モデル予測制御を使用して設計されている、請求項1に記載の方法。
  3. 前記コントローラは、リアプノフ設計を使用して設計されている、請求項1に記載の方法。
  4. 前記コントローラは、前記RLトレーニングされたROEにおいて任意のモデル不確実性を考慮に入れるロバストな制御を使用して設計されている、請求項1に記載の方法。
  5. 前記RLトレーニングされたROEは、近傍方策最適化(PPO)アルゴリズムを使用してトレーニングされている、請求項1に記載の方法。
  6. 前記RLトレーニングされたROEは、信頼領域方策最適化(TRPO)アルゴリズムを使用してトレーニングされている、請求項1に記載の方法。
  7. 前記RLトレーニングされたROEは、ロバストな制約付きマルコフ決定過程(RCMCP)アルゴリズムを使用してトレーニングされている、請求項1に記載の方法。
  8. 前記RLトレーニングされたROEは、時変非定常MDPを使用してトレーニングされている、請求項1に記載の方法。
  9. アクチュエータを含む暖房、換気、および空調(HVAC)システムを制御するための装置であって、
    ユーザ入力から前記HVACシステムの設定値を取得し、前記HVACシステムに配置されたセンサから測定データを取得するよう構成される入力インターフェイスと、
    コンピュータにより実現される方法を実現する命令を記憶するよう構成される少なくとも1つのメモリと、
    前記少なくとも1つのメモリに結合される少なくとも1つのプロセッサとを備え、前記命令は、前記少なくとも1つのプロセッサによって実行されると、前記コンピュータにより実現される方法のステップにおいて、
    前記測定データおよび前記RLトレーニングされたROEからの次数低減状態の推定値を使用して高次元状態推定値を計算することと、
    前記RLトレーニングされたROEを使用することによって前記設定値に関してコントローラを決定することと、
    前記コントローラに基づいて制御コマンドを生成することとを含むことを実行し、前記装置はさらに、
    前記HVACシステムを動作させる前記アクチュエータを制御する制御命令を含む前記制御コマンドを送信するよう構成される出力インターフェイスを備える、装置。
  10. 前記コントローラは、最適な制御を使用して設計されている、請求項9に記載の装置。
  11. 前記コントローラは、リアプノフ設計を使用して設計されている、請求項9に記載の装置。
  12. 前記コントローラは、ロバストな制御を使用して設計されている、請求項9に記載の装置。
  13. 前記RLトレーニングされたROEは、近傍方策最適化(PPO)アルゴリズムを使用してトレーニングされている、請求項9に記載の装置。
  14. 前記RLトレーニングされたROEは、信頼領域方策最適化(TRPO)アルゴリズムを使用してトレーニングされている、請求項9に記載の装置。
  15. 前記RLトレーニングされたROEは、ロバストな制約付きマルコフ決定過程(RCMCP)アルゴリズムを使用してトレーニングされている、請求項9に記載の装置。
  16. 前記RLトレーニングされたROEは、時変非定常MDPを使用してトレーニングされている、請求項9に記載の装置。
JP2022196383A 2022-04-21 2022-12-08 Hvacフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習 Pending JP2023160722A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/660,046 2022-04-21
US17/660,046 US20230341141A1 (en) 2022-04-21 2022-04-21 Time-varying reinforcement learning for robust adaptive estimator design with application to HVAC flow control

Publications (1)

Publication Number Publication Date
JP2023160722A true JP2023160722A (ja) 2023-11-02

Family

ID=88416312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022196383A Pending JP2023160722A (ja) 2022-04-21 2022-12-08 Hvacフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習

Country Status (2)

Country Link
US (1) US20230341141A1 (ja)
JP (1) JP2023160722A (ja)

Also Published As

Publication number Publication date
US20230341141A1 (en) 2023-10-26

Similar Documents

Publication Publication Date Title
Zhang et al. Whole building energy model for HVAC optimal control: A practical framework based on deep reinforcement learning
Yao et al. State of the art review on model predictive control (MPC) in Heating Ventilation and Air-conditioning (HVAC) field
Radecki et al. Online building thermal parameter estimation via unscented kalman filtering
US10332029B2 (en) Building thermal control techniques
JP6359182B2 (ja) 機械の動作を制御するための方法およびシステム
US20210178600A1 (en) System and Method for Robust Optimization for Trajectory-Centric ModelBased Reinforcement Learning
CN111868639B (zh) 用于控制空调系统的运行的系统及方法
CN118043746A (zh) 利用仿真失败校准工业系统模型的校准系统和方法
JP7357813B2 (ja) データ駆動型モデル適応を用いる制御のための装置および方法
Kircher et al. Testing building controls with the BLDG toolbox
JP2023160722A (ja) Hvacフロー制御への適用を伴うロバストな適応型推定器設計のための時変強化学習
Rivera et al. Parameter identification approach to represent building thermal dynamics reducing tuning time of control system gains: A case study in a tropical climate
Park et al. Performance, robustness, and portability of imitation-assisted reinforcement learning policies for shading and natural ventilation control
Burger et al. ARX model of a residential heating system with backpropagation parameter estimation algorithm
US20240152748A1 (en) System and Method for Training of neural Network Model for Control of High Dimensional Physical Systems
Gholami et al. Multi-Zone hybrid model for failure detection of the stable ventilation systems
US11790247B2 (en) Robust adaptive dynamic mode decomposition for modeling, prediction, and control of high dimensional physical systems
Overgaard Reinforcement Learning for Building Heating via Mixing Loops
KR101530127B1 (ko) 가우시안 프로세스 에뮬레이터를 이용한 건물 운영의 확률적 제어 방법
Naug Deep learning methods applied to modeling and policy optimization in large buildings
US20240019156A1 (en) Identifying suitable models for adaptive model predictive control of building hvac using moving horizon estimation
Goyal et al. An Information-state based Approach to the Optimal Output Feedback Control of Nonlinear Systems
Pekař et al. Simulation of robust algebraic control of a delayed heat exchanger with controller rationalization
Gorni et al. A comparison between temperature modeling strategies in smart buildings
Dey Comparison of Reinforcement Learning Algorithms Applied to High-Fidelity Building Models