JP2019512757A

JP2019512757A - ニューラルネットワークアーキテクチャを用いた分配システムの制御のための方法、制御装置およびシステム

Info

Publication number: JP2019512757A
Application number: JP2018534532A
Authority: JP
Inventors: クレサン，ベール; ブランクス，ペーテル
Original assignee: ヴィートエヌブイ
Priority date: 2015-12-31
Filing date: 2016-12-26
Publication date: 2019-05-16
Anticipated expiration: 2036-12-26
Also published as: WO2017114810A9; WO2017114810A1; EP3398116A1; CN108604310B; CN108604310A; US20190019080A1; US11341396B2; JP6895440B2

Abstract

例えば、熱または電力分配のようなエネルギー分配システムがその一例である生産物分配システムのような分配システムを制御するために、需要応答アプリケーションのための見えない状態にわたってデータを外挿する深近似ニューラルネットワークアーキテクチャが説明される。本発明は、主に、それによって制御装置が制御されるべきシステムとの相互作用から学習して、例えば熱または電力分配のようなエネルギー分配システムがその一例である生産物分配を制御する、強化学習（ＲＬ）の形態のモデルなし制御技法を説明する。

Description

本発明は、例えば、熱または電力分配などのエネルギー分配システムのような分配システムの制御のための方法、制御装置およびシステム、ならびに、処理エンジン上で実行されるときにそのような方法のいずれかを実行することができるソフトウェアに関する。

背景
電気自動車、ヒートポンプ、またはＨＶＡＣシステムなどのエネルギー制約付き柔軟性（ＥＣＦ）ソースの需要柔軟性を制御することは、モデル予測制御［１］または完全にモデルなしの強化学習［２］に基づいて知られている。

需要応答設定において適用される場合、そのような制御技法の望ましい結果は、提案されている電力および／またはエネルギーが、次の制御ステップ中に任意の数の装置によって消費されることである。

システムに過負荷をかけないこと、少なくとも最小限のエネルギー要件を満たすこと、および、例えば、エネルギーオークションからエネルギーが得られるときに価格が時間によって変動するにもかかわらず経済的な方法で動作することなどの、ネットワーク制約を含む様々な目的を考慮する必要がある。

モデルベースの制御を考慮する場合、制御されるソースの柔軟性のモデル、すなわち、装置がそのエネルギー要件をどれだけ修正できるか、またはその需要にどれだけ柔軟性があるかというモデルを構築する必要がある。これは困難な技術課題であり、モデルベースの制御装置の経済的価値に応じて、そのようなモデルは場合によって経済的に興味深いか否かであり得る。

モデルベースの技法の典型的な利点は、ドメイン知識をモデルに直接組み込むことができることである。主な欠点は、モデルが正確であり、調整され、維持される必要があることである。後者の２つの態様は、例えば化学業界において制御装置が人間の専門家によって継続的に監視される非常に特定的な領域にＭＰＣが好ましく適用される理由である。

この実用性は、モデルなし制御［２］によって少なくとも部分的に緩和することができる。しかし、ＭＤＰ（マルコフ決定過程）または部分観測マルコフ決定過程（ＰＯＭＤＰ）の形で問題を投げかけるのが標準的な作業方法である。これにより、制御行動の価値を捕捉するＱ関数などの概念を扱うことができる。しかし、ここでの主な問題は、ＭＤＰには次元性およびスケーラビリティについて問題があることである。すなわち、大きな状態次元（例えば、＞５／＞１０^５の可能な状態）について、ほとんどの従来技法は、各状態の値が理解されなければならず、そのような網羅的な技法は明らかに状態次元性に指数関数的に拡大するため、ほとんどの従来の技法は非実際的になる。

システムまたは装置レベルのセンサデータは、現在利用可能であるか、または将来のシステムにおいて提供され得る。このセンサデータは、システムの状態の指標を与える。例えば、建造物内の１つのセンサによって室温を測定することができ、または、温水槽内では、１つまたは複数の層の水温を測定することができる。この情報は部分状態情報として、例えば、定義によれば、直接測定する必要はないが、履歴情報に基づいて識別することができるこの動態を表す「特徴」であり得る、建造物温度または壁面家具の温度として見ることができる。これは、履歴状態情報を追加することによって利用可能な状態情報を拡張する。

より大きいシステムの場合、異なるセンサによって測定された特徴間の動態は、状態空間に結合される。この情報は、すべての状態情報を含む必要がある。例えば、異なる温度センサまたは「センサのクラスタ」を備えた温水槽内では、動態はクラスタ化され、したがって、例えば、エネルギーオークションベースのディスパッチメカニズムを使用してＥＣＦの大きなクラスタを制御するとき、制御はクラスタ制御になる。

例えば、温水貯蔵槽または建造物に１０個のセンサがあり、最後の１０個の時間ステップ（例えば、１５分分解能）にわたる測定値が状態のマトリクス表現に取り込まれた場合、これは１００次元の状態空間をもたらす。

再びクラスタ制御を参照すると、クラスタ内の異なるＥＣＦが特定の状態（例えば、状態）について集約される場合、集約ステップを使用して次元を減少させることができ、例えば、０．２と０．３との間のＳｏＣ（充電状態）を有するすべての電池がともにグループ化される場合、例えば、ビニング手法を選択することができ、ＳｏＣが０．２〜０．３のすべての電池を１つのビン内に配置することができる。

先行技術文献：

［１１］ＦｒｅｄｅｒｉｋＲｕｅｌｅｎｓ他は、需要応答システムを制御するためのバッチ強化学習について説明している。これには、履歴観測値のシーケンスに基づいて学習する能力はない。この文献は、現在の観測値を所与として、プロセスの履歴に依存しない、すなわち、所与の時刻ｔにおいて、現在の観測値Ｘｔが目標システムを最適に制御するためのすべての関連情報を含むと仮定している。これは、観測および行動のプロセスが無記憶であり、マルコフ性に従うことを要求することによって述べることができる。しかし、多くの現実世界のシステムは、このマルコフ性を有しない。このようなシステムでは、現在の観測値では最適な制御行動を決定するには十分ではない。これは、システムが部分的にのみ観測可能であり、履歴観測値から推測することしかできない隠れた状態を有することを意味する。これらの方法は、そのようなシステムを制御することはできない。

［１０］Ｖ．Ｍｅｎｉｈ他は、「Ｈｕｍａｎｌｅｖｅｌｃｏｎｔｒｏｌｔｈｒｏｕｇｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ」（Ｎａｔｕｒｅ，ｖｏｌ５１８，ｎｏ７５４０，２５Ｆｅｂｒｕａｒｙ２０１５，ｐａｇｅｓ５２９ｔｏ５３３）において、状態−行動価値関数を表す畳み込みニューラルアーキテクチャを開示している。この設定では、マルコフ性は適用されない。Ｖ．Ｍｅｎｉｈ他は、経時的に特徴を学習することを考慮していない。履歴情報のシーケンスが記憶されるが、このシーケンスは、他の入力とは異なる方法で処理される別個の画像チャネル次元を使用して記憶される。チャネル次元は、ネットワークの畳み込みフィルタによって処理されない。これは、時間次元を除くすべての入力次元にわたるローカル相関を学習し、次にすべての時間ステップを単純に合計することになる。履歴観測値のシーケンス全体が、この合計によって平坦化される。これは、上位のネットワーク層が履歴情報にアクセスできなくなり、その情報をその出力の条件とすることができないことを意味する。この方法は、隣接する観察間の変化の検出（例えば、一連の画像内の動く物体の検出）には十分であるが、より複雑な時間依存パターンを学習することはできない。

発明の概要
本発明の目的は、例えば、熱または電力分配などのエネルギー分配システムのような生産物分配システムの制御のための方法、制御装置およびシステム、ならびに、処理エンジン上で実行されるときにそのような方法のいずれかを実行することができるソフトウェアを提供することである。特に、システムモデルに基づいてエネルギー分配システムのような生産物分配システムを制御することには、異なる各設備に対して適切なシステムモデルを開発しなければならないという問題がある。システムが変更された場合、モデルはその変更に適合する必要がある。本発明の目標は、システムモデルを開発する必要性を回避することである。

需要応答システムは、従来、ページングを使用してリモートスイッチを制御している。本発明の実施形態は、装置または装置のクラスタとネットワークの制御機能との間の双方向通信を提供する。この制御機能は、中央制御装置および／またはクラスタ制御装置および／または装置制御装置および／またはレガシ装置制御装置を含むことができる。

したがって、一態様では、本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するコンピュータベースの方法を提供し、方法は、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するステップであって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するステップを含み、
方法は、畳み込みニューラルネットワークに、需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄ（二次元）グリッド構造に集約された履歴観測値の派生物を入力する、特徴抽出ステップを含み、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、２Ｄ畳み込みを実行し、ローカル時間と、２Ｄグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
方法は、
第１のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力するステップであって、第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する、入力するステップと、
制御行動を決定または計算するステップであって、制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される、決定または計算するステップと、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するステップとをさらに含む。第１のニューラルネットワークは、完全結合ニューラルネットワークとすることができる。

集約された入力データの使用は、制御問題の次元を減少させる。畳み込みネットワークの使用は、入力データにおける相関に依拠し、必要とされる演算強度を低下させ、訓練時間を短縮する。第１の完全結合ニューラルネットワークを、畳み込みニューラルネットワークの前もって処理された出力を引き継ぐ第２のニューラルネットワークに限定することによっても、必要とされる演算強度が低下し、訓練時間が短縮する。

本発明の実施形態は、ネットワークの外観を可能にする。個々の消費者装置または装置のクラスタとエネルギー分配ネットワークとの間の双方向通信を使用して、ネットワークはエンドツーエンドの可視性を有し、消費者施設からヘッドエンドまでのインフラストラクチャの完全な絵図を有するだけでなく、畳み込みニューラルネットワークによって抽出される時間パターンの完全な絵図をも有する。

制御技法は好ましくはモデルなしである。これにより、複雑なシステムモデルを調査し構築する必要がなくなり、実際、システムモデルが知られていない場合にも本発明を使用することが可能になる。

状態−行動価値関数は、Ｑ関数（Ｑ（ｘ，ｕ））とすることができる。このアルゴリズムは迅速に収束することが分かっている。

制御行動および外因性状態情報は、好ましくは、第１のニューラルネットワークへの入力として結合された第２のニューラルネットワークに入力される。この方法はまた、外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージするステップを含むことができる。これは、外因性情報が外部温度および時刻などの関連する値を含むだけでなく、制御行動も含むため、有利である。これにより、制御装置はＱ関数の近似値を出力として学習することができる。

外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出を実行することができ、外因性状態情報および制御行動が最初に第２のニューラルネットワークに供給され、この第２のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。これは、制御行動を含む外因性情報が、制御装置がＱ関数の近似値を出力として学習することを可能にする方法のさらなる発展として有利である。

第２のニューラルネットワークは完全結合とすることができる。外因性データの次元は通常低いため、第２ニューラルネットワークは、計算時間または訓練時間を実質的に増加させることなく、完全結合とすることができる。

隠れた層は完全結合とされる。これは上位層であるため、計算時間または訓練時間を実質的に増加させることなく、完全結合とすることができる。

畳み込みニューラルネットワークは、最初に、２Ｄグリッド構造におけるパターンを捕捉し、畳み込みニューラルネットワークならびに第１のニューラルネットワークおよび第２のニューラルネットワークは、集約されたクラスタ状態および制御行動を含む外因性データから目標量へのマッピングを学習する。異なるタイプのニューラルネットワークを組み合わせることで、このステップが効率的になる。

２Ｄグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す１つの次元を有し、第２の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、２Ｄ特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。時間にわたって良好に動作する必要のある需要応答制御システムでは、時空間特徴の識別が重要である。

この方法では、複数の時間ステップにわたって生じる状態値の変化を表す特徴を学習することができる。学習された特徴は、第１の完全結合ニューラルネットワークの両方のより上位のネットワーク層によって入力として使用される。これにより、１つの入力からは見つけられない相関を決定することができる。

畳み込みネットワークならびに第１のニューラルネットワークおよび第２のニューラルネットワークはともに訓練される。これは効率的な訓練方法である。

本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置またはコンピュータネットワークアーキテクチャをも提供し、制御装置またはアーキテクチャは、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するための手段と、
畳み込みニューラルネットワークに、需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄグリッド構造に集約された履歴観測値の派生物を入力するように適合されている、特徴を抽出するための手段であって、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、２Ｄ畳み込みを実行するように適合されており、ローカル時間と、２Ｄグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
畳み込みニューラルネットワークは、
第１のニューラルネットワークに、抽出されているローカル畳み込み特徴を出力するように適合されており、
第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されている、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するための手段とを備える。

第１のニューラルネットワークは、完全結合ニューラルネットワークとすることができる。制御技法はモデルなしとすることができる。

好ましくは、状態−行動価値関数は、Ｑ関数（Ｑ（ｘ，ｕ））である。
分配されるべき生産物は、熱エネルギーまたは電力であり得る。

好ましくは、第２のニューラルネットワークは、制御行動および外因性状態情報を、第１のニューラルネットワークへの入力として結合された第２のニューラルネットワークに入力することを可能にするように適合されている。

好ましくは、外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージすることができる。

好ましくは、外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、外因性状態情報および制御行動が最初に第２のニューラルネットワークに供給され、この第２のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。

好ましくは、第２のニューラルネットワークおよび隠れた層は完全結合とされる。
畳み込みニューラルネットワークは好ましくは、最初に、２Ｄグリッド構造におけるパターンを捕捉するように適合されており、畳み込みニューラルネットワークならびに第１のニューラルネットワークおよび第２のニューラルネットワークは、集約されたクラスタ状態ならびに外因性データおよび制御行動から目標量へのマッピングを学習するように適合されている。

好ましくは、２Ｄグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す１つの次元を有し、第２の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、２Ｄ特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。

好ましくは、学習されている特徴は、複数の時間ステップにわたって生じる状態値の変化を表す。学習されている特徴は、好ましくは、少なくとも第１の完全結合ニューラルネットワークおよびまた随意選択的に第２のニューラルネットワークの上位ネットワーク層によって入力として使用される。

畳み込みネットワークならびに第１のニューラルネットワークおよび第２のニューラルネットワークは、それらが同時に訓練され得るように適合されることが好ましい。

本発明は、需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置をも提供し、制御装置は、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する、決定するための手段と、
畳み込みニューラルネットワークに、需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄグリッド構造に集約された履歴観測値の派生物を入力するように適合されている、特徴を抽出するための手段であって、ステップを含み、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、２Ｄ畳み込みを実行するように適合されており、ローカル時間と、２Ｄグリッド構造におけるクラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
畳み込みニューラルネットワークは、
１のニューラルネットワークに、抽出されているローカル畳み込み特徴を出力するように適合されており、
第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されている、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配するための手段とを備える。

本発明はまた、処理エンジン上で実行されると、本発明の方法のいずれかを実行するように適合されているコードを備えるコンピュータプログラム製品をも提供する。非一時的機械可読信号記憶手段が、コンピュータプログラム製品を格納することができる。

本発明の実施形態は、需要応答アプリケーションのための目に見えない状態にわたってデータを外挿する効率的な方法である深近似アーキテクチャを使用して、例えば熱または電力配分がその一例である、エネルギー分配システムなどの生産物分配システムのような分配システムの制御のための方法、制御装置またはシステム、および、処理エンジン上で実行されると、そのような方法のいずれかを実行することができるソフトウェアを提供する。

本発明の実施形態は、例えば熱または電力配分がその一例である、エネルギー分配システムなどの生産物分配システムのような分配システムの制御のための方法、制御装置またはシステム、および、処理エンジン上で実行されると、そのような方法のいずれかを実行することができるソフトウェアを提供するために、制御装置が制御されるべきシステムとの相互作用から学習するために、従来技術の問題を少なくとも部分的に緩和する、主に強化学習（ＲＬ）の形態のモデルなし制御技法を提供する。

本発明の実施形態は、以下の２つの問題の少なくとも１つに対処する方法、システムまたは制御装置を提供する。

１．部分的な情報：モデルなし制御装置は直接測定に基づいて行動をとるため、ＥＣＦなどの装置クラスタの動態に関連する隠れた観測値を考慮する必要がある。本発明の実施形態は、直前に測定された現在の時点「ｔ」の状態値だけでなく、時点「ｔ−２Ｔ」，「ｔ−Ｔ」，…ｔ」などにおいて以前に測定された状態をも含む状態の入力に完全情報ベクトルを加えることによってこれを是正する。

２．次元性
本発明の実施形態は、高次元性の状態記述を回避するという問題に対処する。集約されたレベルにおいて、集約された状態次元は減少することができるが、異種成分からなるクラスタについては、例えば１０の時間ステップにおいて履歴情報を考慮しながら、依然として、典型的には１０の状態次元（例えば１０のエネルギー状態）を必要とする。これにより、状態次元は少なくとも１００になり、これは、それらがＭＤＰ形式に基づいて構築される場合、典型的なＲＬアルゴリズムの範囲外である。単一のＥＣＦシステムであっても、同じ問題が生じる。履歴情報、例えば１０の時間ステップを考慮に入れる１０個の温度センサを備える温水貯蔵槽は同じ問題を抱えている。

すなわち、状態次元が１００であり、各次元が例えば１０個の値を有し得る場合、これによって、目に見える宇宙にある原子よりも多い１０^１００の可能な状態が生じる。このような状態次元は、計算するのが容易でない。

浅いニューラルネットワークは一般的な機能近似能力を提供するが、本発明の実施形態は、ディープアーキテクチャを使用することによって、非常に複雑な機能を効率的に表す問題に対処する。ディープニューラルネットワークは、入力のますます抽象的な表現を生成する複数の非線形変換を含む。これらの変換により、ネットワークは所望の機能をより容易に表すことができる。さらに、本発明の実施形態で使用されるより深いアーキテクチャと比較して、浅いアーキテクチャが指数関数的により大きな容量を必要とする機能が存在することが示され得る。

本発明の実施形態は、深近似アーキテクチャを使用して制約付き柔軟性ソースのクラスタの需要応答を決定するために隠れ状態情報および外因性情報を組み込む。外因性情報は必ずしも含まれるとは限らず、好ましくは、装置の状態情報と同様にシステムに含まれない。深近似アーキテクチャは、好ましくは、畳み込みニューラルネットワーク（ＣＮＮ）に基づく深回帰アーキテクチャである。畳み込みニューラルネットワークは、２Ｄ入力グリッドを有し、本発明の実施形態は、状態定義内に、測定されている状態の履歴またはこの派生物を含む。このデータに畳み込みニューラルネットワークアーキテクチャを適用するために、追加の特徴抽出ステップが含まれることが好ましい。システムの履歴観測値は、１つの次元が時間ステップを表し、他方の次元が、クラスタ状態として参照される、クラスタ要素にわたるエネルギー状態などのパラメータの状態の分布を捕捉する２次元グリッド構造において集約される。クラスタ状態の次元は、データを集約することによって低減することができる。例えば、集約方法は、ローカルエネルギー状態（温度、電池容量、充電状態（ＳｏＣ）、健康状態（ＳｏＨ）など）のようなローカルパラメータに従ってクラスタ要素をビニングすることであり得る。複数の２Ｄグリッドを同時に入力することができる。例えば、クラスタ挙動が相関する可能性が高い場合、各々がＮ個のクラスタからなるクラスタのための複数の２Ｄグリッドを並列に入力することができる。例えば、１つの２ＤグリッドはＥＶのクラスタに対応してもよく、別の２Ｄグリッドはサーモスタット制御負荷（ＴＣＬ）のクラスタに対応してもよく、また別の２Ｄグリッドは原子力発電所のクラスタに対応してもよく、これらのクラスタはすべて電力を消費する。

本発明の実施形態は、畳み込みネットワークを使用して、時空間特徴を識別または抽出することを可能にするデータ内のローカル構造を探す。入力データの集約方法は、この特徴抽出をサポートするように設計されることが好ましい。

時間ステップデータおよび集約データは、畳み込みニューラルネットワークへの入力として使用される２Ｄグリッドを構成する。ネットワークにおいて、２Ｄ入力グリッドは、ローカル時間および状態変動にわたって特徴を抽出することを学習する畳み込みニューラルネットワークの２Ｄ畳み込み演算によって動作される。開発されるアルゴリズムは、例えば、ｈｔｔｐ：／／ｘｘｘ．ｌａｎｌ．ｇｏｖ／ａｂｓ／１５０７．０３６３８で論じられているような、ＦｉｔｔｅｄＱ−ｉｔｅｒａｔｉｏｎ（ＦＱＩ）とすることができる。ＣＮＮの出力は、第１の完全結合ニューラルネットワークに供給される。後者のニューラルネットワークの出力は、好ましくは、状態にあること「ｘ」および行動「ｕ」を取ることの価値を提供する、Ｑ関数（Ｑ（ｘ，ｕ））のような状態−行動価値関数の近似である。この情報はその後、次の時間ステップのための提案されている制御行動である制御行動を決定、例えば計算するために使用する。制御行動は、外因性データとともにフィードバックされ、第２の完全結合ネットワークに入力され、そのネットワークの出力は、第１の完全結合ニューラルネットワークに供給され、そこで、畳み込みニューラルネットワークの出力とマージされる。

畳み込みニューラルネットワークは、学習可能な重みおよびバイアスを有するニューロンから構成されている。各ニューロンは、いくつかの入力を受け取り、ドット積を実行し、随意選択的に、それを非線形的に追跡する。ネットワーク全体は、依然として１つの微分可能なスコア関数を表現している。入力は１つまたは複数の２Ｄグリッドであり、出力は、好ましい結果に基づいて次の制御行動を計算するために使用することができるクラススコアである。

畳み込みニューラルネットワークは、２次元グリッドを入力として使用し、フォワード機能をより効率的に実行し、ネットワーク内のパラメータの量を大幅に削減する。特に、畳み込みニューラルネットワークの層は、３次元、すなわち幅、高さ、深さに配列されたニューロンを有する。ある層のニューロンは、完全結合方法でのようにすべてのニューロンの代わりに、その前の層の小さな領域にのみ結合される。さらに、畳み込みニューラルネットワークの最終出力層は、深さ次元に沿って配置されたクラススコアの単一のベクトルである。

本発明の実施形態は、第１の畳み込みネットワークと、それに続く第２の完全結合ニューラルネットワークとを利用する。完全結合ニューラルネットワークは、第１の畳み込みニューラルネットワークからの入力を受け取り、それを一連の隠れ層を通して変換する。各隠れ層はニューロンのセットから構成されており、各ニューロンは前の層のすべてのニューロンに完全結合されており、単一の層内のニューロンは完全に独立して機能し、いかなる結合も共有しない。最後の完全結合層は「出力層」と呼ばれ、クラススコアを出力する。

畳み込みニューラルネットワークのすべての層は、１つのボリュームの活性化を、微分可能な関数を介して別のボリュームに変換する。本発明の実施形態によって使用することができる畳み込みニューラルネットワークアーキテクチャを構築するために、３つの主要なタイプの層、すなわち、
畳み込み層、ＲｅＬＵ層、および完全結合層を使用することができ、結果、外因性データの入力に追加の小さな完全結合層が使用される。これらの層のスタックは、本発明の実施形態において使用される畳み込みニューラルネットワークアーキテクチャを形成する。入力は２Ｄグリッドデータを保持する。

畳み込み層は、２Ｄグリッドにおいて特徴認識を行う。この層のパラメータは、学習可能なフィルタのセットからなる。すべてのフィルタは幅と高さに沿って小さいが、入力ボリュームの深さ全体を通じて延伸する。各フィルタは、入力ボリュームの幅および高さにわたって畳み込まれ、そのフィルタの２次元活性化マップが作成される。ドット積が、フィルタのエントリと入力との間で計算されることができる。各ニューロンは、入力ボリュームのローカル領域にのみ結合されている。この結合の空間的範囲は、ニューロンの受容野と呼ばれるハイパーパラメータである。深さ軸に沿った結合の範囲は、常に入力ボリュームの深さに等しい。ネットワークは、入力内のある空間／時間位置において何らかの特定の種類の特徴を確認すると活性化するフィルタを学習する。これらの活性化マップを深さ次元に沿ってすべてのフィルタについて積み重ねると、出力ボリューム全体が形成される。したがって、出力ボリューム内の各エントリは、入力内の小さな領域のみを調べ、同じ活性化マップ内のニューロンとパラメータを共有するニューロンの出力として解釈することもできる。

ＲｅＬＵ層は、使用されるべき活性化機能として作用する。しかしながら、本発明はこれに限定されず、当業者は、シグモイド、線形、双極正接、ラジアル基底関数、ソフトプラスおよびソフトマックス、および異なる方言のような他の層を使用することができる。プーリング層は、安定性を高めるのに役立ち得る随意選択の層である。

本発明の実施形態で使用するための畳み込みニューラルネットワークアーキテクチャが、図１および図４に示されており、これは、１つまたは複数の２Ｄグリッド１２と、畳み込み層、ＲｅＬＵ層、ならびに第１のニューラルネットワーク１５および第２のニューラルネットワーク１７内の完全結合層を有する畳み込みニューラルネットワーク１４を有する畳み込みニューラルネットワークアーキテクチャ２０とを有する。畳み込み層は、入力内のローカル領域１３ａに結合されたニューロン１３ｂの出力を計算し、各ニューロンはそれらの重みと、入力ボリューム内でそれらが結合されている領域との間のドット積を計算する。ＲｅＬＵ層は、要素単位の活性化関数を適用する。完全結合層はクラススコアを計算する。

プーリング層をネットワークに追加することができる。プーリングは変換不変性を導入し、物体検出には良好に機能するが、引き換えに位置情報を失うことになる。１つの選択肢は、時間次元にわたってプーリングを拡張することである。

ＬＳＴＭ（長短期記憶）層も使用できる。このとき、ＬＳＴＭは時間依存性を学習する役割を担う。

本発明の実施形態は、システムの動態がモデル化することが困難または面倒である分配システムに適用することができる。隣接する状態は相関性を有する。すなわち、状態Ｎ＋１は、畳み込みニューラルネットワークが時空間特徴を抽出するためにこれを利用するとき、状態Ｎの動態にいくらかの影響を及ぼさなければならない。

本発明の実施形態は、隠れ情報がある場合に有利に機能する。言い換えれば、現在の状態を観察することによって直接そのような情報を特定することは不可能である。本発明の実施形態は、隠れ状態情報が長期の時間依存性を有する場合に有利に機能する。本発明の実施形態のニューラルアーキテクチャ２０は、隠れ状態を通じて現在の行動に影響を及ぼすが、現在の観察ではもはや見ることができない、履歴内のイベントを検出することができる。

本発明の実施形態で使用されるものとしては、状態情報には、履歴クラスタ状態だけでなく、温度、時刻、太陽照射、適用されている制御行動もある。すべてが同等に関連することができ、好ましくは同じレベルで統合される。外因性情報がアーキテクチャのより深くに追加される。本発明の実施形態は、例えば、外部温度または曜日などの追加の状態情報を使用する。この外因性情報は、好ましくは、例えば連結された集約の形で入力される状態−時間特徴とは異なる方法で処理される。外因性情報は状態−時間行列に加えられるのではなく、代わりに畳み込み層の後の高次のニューラルネットワークアーキテクチャにマージされる。

外因性状態情報およびまた任意の制御行動は、最初に１つの特徴抽出層自体を通過した後、アーキテクチャ内でより高次に追加される。典型的には、次元はかなり小さく、例えば４から５の次数であり、ローカル相関を仮定することは妥当ではないため、畳み込みを適用する必要はない。その代わりに、完全結合ニューラルネットワーク１５内の畳み込みニューラルネットワーク１４の出力とマージする前に、標準的な、むしろ密集した小さなニューラルネットワーク１７がいくつかの特徴を抽出するために使用される。

したがって、本発明の実施形態は、ニューラルネットワークアーキテクチャ２０を使用し、後に最上位層にマージされる２つの別個のネットワーク構成要素から構成される。外因性情報を畳み込み特徴抽出とマージする前に、この情報を処理するために別個の特徴抽出が使用される。履歴クラスタ状態−時間情報が畳み込みネットワーク１４によって処理されている間に、外因性状態情報が最初に標準的な完全結合フィードフォワードネットワーク１７に供給される。このネットワーク１７は、外因性状態情報を学習されている内部表現にマッピングし、次にそれを次の完全結合隠れ層内の畳み込み特徴と組み合わせることができる。表現を履歴クラスタ状態とマージする前に、具体的に学習することにより、ネットワークが、最初に別々のデータ入力におけるパターンを捕捉し、結合クラスタ状態および外因性データから目標出力へのマッピングをより容易に学習することができる。

時間情報の組み込み
履歴状態観測値は、１つの次元が固定された時間ステップにおけるシステムまたは装置状態を表し、第２の次元が経時的な変化に対応する２Ｄグリッド１２として表される。すなわち、グリッドの列ｃは、時点ｃにおけるシステム状態のすべての観測値を与え、行ｒは、すべての時間ステップにおけるｒ番目の状態変数の値を与える。得られる２Ｄグリッドは、状態情報の履歴を値にマッピングする畳み込みニューラルネットワーク（ＣＮＮ）１４への入力として使用される。時間および状態の次元は同じ方法で扱われ、２Ｄ畳み込み演算は時間および空間にわたって適用される。これは、入力状態情報および履歴におけるローカル構造を識別する時空間特徴の識別をもたらす。これにより、複数の時間ステップにわたって発生するイベント（例えば、状態値の変化）を表す特徴を容易に学習することができる。これらの機能は、その後、上位のネットワーク層によって入力として使用できる。本発明の実施形態の特定の態様は、状態および時間の次元が同じように扱われ、ネットワークが状態および時間の次元にわたって畳み込み演算を適用することである。これは、ネットワークが、状態と時間にわたってローカル機能を識別することを学習することを意味する。

経時的なシステム状態の展開１１が正弦波形状をしている、図１の例を考える。時間次元をＣＮＮ１４に対する別の画像入力次元として扱うことにより、経時的なローカル展開を捕捉し、曲線の形状を容易に識別する特徴を学習することができる。

本発明の実施形態におけるディープアーキテクチャを使用する利点は、動態に関連する観察不可能な特徴を「学習」するために、履歴情報を含むように状態記述を拡張することを可能にすることである。さらに、異種成分からなるクラスタに関連する完全な状態分布を含めることができる。

本発明の１つの態様は、畳み込みニューラルネットワークによって処理されるべきグリッド構造内に前処理された履歴情報を格納することである。履歴情報をグリッド構造へと前処理することにより、方法またはシステムは、時間次元にわたってローカル相関を学習することができる。これは、このグリッドを畳み込みニューラルネットワークに渡すことによって実装され、畳み込みニューラルネットワークは、この時点で、経時的なローカル相関（すなわち特徴）を抽出することができる。最終的なニューラルネットワークは、畳み込みネットの出力を処理して、明示的に、抽出された履歴特徴を制御行動の条件とする。したがって、時間次元は、他の入力信号と同じように扱われ、別個のチャネル次元に追加されない。ローカル相関は、この時点で、時間と他のすべての入力次元の両方で学習されている。これは、経時的なパターンを表す特徴を抽出することを学習する効果を有する。これにはいくつかの利点がある。

本発明による方法またはシステムは、経時的に入力がどのように変化するかのパターンを示す履歴情報の特徴を抽出することができる。

本発明による方法またはシステムは、単に時間次元にわたって特徴を合計することによって検出することができないパターンを示すことができる。

本発明による方法またはシステムは、より長い時間シーケンスからより多くの情報を抽出することができる。

本発明による方法またはシステムは、時間関連情報を明示的に扱い、この情報はニューラルネットワークアーキテクチャを通過し、制御装置がこの情報を制御出力の条件とすることを可能にする。

本発明による方法またはシステムは、最新の観測ではもはや見ることができない関連する履歴情報を抽出することができる。

本発明の一実施形態によるニューラルネットワークアーキテクチャの概略図である。本発明の一実施形態による３段階プロセスの概略フロー図である。本発明の一実施形態によるニューラルネットワークアーキテクチャを適用したときの時間に対するＴＣＬ母集団の分布の展開を示す図である。図３ａのＴＣＬ母集団の経時的な集約電力を示す図である。本発明の一実施形態による別のニューラルネットワークアーキテクチャの概略図である。本発明の実施形態と共に使用するアルゴリズム１のフローを示す図である。本発明の実施形態と共に使用するアルゴリズム２のフローを示す図である。本発明の実施形態とともに使用するための学習プロセスを示す図である。一番上の行には、選択されたいくつかの日の隠れ特徴を考慮してポリシによって計算される状態−時間特徴から導き出される制御行動がある。中央の行は、状態特徴のみがあり、状態−時間特徴がないことを除いて同じである。下側のグラフは、外部気温（外因性的データ）を示している。本発明の一実施形態によるニューラルネットワークアーキテクチャを適用するときの履歴情報を含むか否かを問わない、累積コストを示す図である。グラフは、数回の実行にわたって計算された上限値および下限値を示す。本発明の一実施形態による供給ネットワークを示す図である。本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。本発明の実施形態のいずれかと共に使用する消費者装置を示す図である。本発明の一実施形態によるシステムの状態に基づく電気需要の操作を示す図である。本発明の一実施形態によるレガシ装置をどのように含むかを示す図である。本発明の一実施形態によるネットワークの操作を示す図である。

定義
本発明で使用される「生産物」または「物理生産物」は、市場の要望または必要性を満足する品目の消費または送達を含むよう広く解釈されるべきである（ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｐｒｏｄｕｃｔ）。このような生産物は、液体、気体もしくは固体の物質、ならびに光もしくは他の形態の放射、熱もしくは電気エネルギーなどのエネルギー、または電気通信ネットワークにおける通話などの信号のいずれかとすることができる。本文に記載された例は、電力または加熱力の供給を含む。他の例は次のとおりである。

本発明は、地球温暖化をモデル化するために使用することができ、それにより、状態観測変数は、異なる地理的領域における平均日中温度および／または平均夜間温度、日照時間などであり得る。クラスタは地球自体であってもよい。集約は、異なる（理想的には関連する）地理的領域からの観測データを結合するために適用される。報酬関数は、氷河の損失を遅らせること、または、海水面の上昇を低減することであり得る。分配されるべき項目は、地理的領域の二酸化炭素排出量である。

本出願は、照明レーザ光が、例えば、レンズ特性などの光路内の材料の特性を時間とともに変化させる液浸リソグラフィに適用することができる。瞳形状は、例えば、数時間などの短い時間にわたって発生する光学的劣化などの、リソグラフィスキャナ内の動態に影響を与える。したがって、瞳面を集約し、１軸に時間を有する２Ｄグリッドとして入力することができ、レンズ特性などの材料特性の劣化に関連して時空間時間−状態特徴が抽出される。レンズの熱力学動態は遅く、時間−状態特徴が学習され、システムは、一時的であり、したがって瞳形状が正しく適合されれば時間とともに再び回復することができる、レーザ光によって誘発される伝送損失を補償するようにレーザエネルギーを制御する。制御行動は、レーザ光源を制御する。

本発明は、例えば、補給所からの物品の送達などの物流に適用することができる。物品はクラスタ化することができ、例えば、医薬品のみが考慮される。種々の医薬品は、補給所に貯蔵された複数の治療単位を有する医薬品の数をビニングすることによって集約される。理想的には在庫を低く保つべきであるが、これは納期を悪化させる。治療単位は、制御行動に従って搬送される。

本文中で使用される「可用性関数」という用語は、装置が消費することを所望するかまたは生産することができる電力またはエネルギーが、（２つだけを挙げると）消費されるべきまたは生産されるべき電力またはエネルギーの各レベルに割り当てられる優先度（すなわち、消費または供給する必要性）または充電状態のようなヒューリスティック変数の関数として定義される入札関数の形態に関する。各消費または製造装置について、優先度または充電状態などのヒューリスティック変数の値は、各電力もしくはエネルギー消費レベルごとまたは各電力もしくはエネルギー生成レベルに割り当てることができる。可用性関数は、エネルギーまたは電力消費または生成と、それらのエネルギーまたは電力消費または生成の優先度または充電状態の値などのヒューリスティック変数の値との間の関係を記述する。したがって、エネルギーフローを分配するために、優先度または充電状態の値などのヒューリスティック変数の値が割り当てられる。各装置の各電力またはエネルギー生成レベルの優先度または充電レベルのようなヒューリスティックの各値の割り当ては、装置上のインターフェースを使用して消費者が手動で割り当てることができ、またはエネルギー分配ネットワークオペレータによって割り当てることができ、またはこれらの任意の組み合わせとすることができる。

例えば、エネルギーまたは電力を受け取り使用するユーザおよびユーザ装置は、好ましくは、優先度に関してエネルギーまたは電力の減少関数を割り当てることが必要とされる。多くのユーザ装置が大量のエネルギーまたは電力に高い優先度を割り当てることができると不均衡を引き起こす可能性があるため、高い優先度の割り当ては、少量のエネルギーまたは電力が供給されることに関連するべきである。したがって、ユーザ装置に供給されるべき電力またはエネルギーは、好ましくは、優先度のようなヒューリスティック変数に対する段階的減少関数または段階的単調減少関数のような減少関数である。同様に、ユーザ装置の充電状態が低いほど、ユーザ装置を充電する必要性が高くなるため、充電状態が低い場合は優先度が高く、充電状態が高い場合は優先度が低い。したがって、ユーザ装置に供給されるべき電力またはエネルギーは、好ましくは、ユーザ装置の充電状態のレベルに対する段階的減少関数または単調減少関数のような減少関数である。

例示的な実施形態の説明
本明細書で使用される場合、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈がそうでないことを明確に示さない限り、複数形も含むことが意図される。本明細書において使用される場合、用語「備える（ｃｏｍｐｒｉｓｅｓ）」および／または「備えている（ｃｏｍｐｒｉｓｉｎｇ）」は、記載された特徴、整数、ステップ、動作、要素および／または構成要素の存在を指定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を除外しないことがさらに理解されよう。

本発明の説明は、例示および説明のために提示されているが、網羅的であることは意図されておらず、または開示された形態の本発明に限定されるものではない。本発明の範囲および精神から逸脱することなく、多くの変更および変形が当業者には明らかであろう。以下に記載される実施形態は、本発明の原理および実際の適用を最も良く説明し、当業者が本発明、および、企図される特定の使用に適するような様々な修正を伴った他の実施形態についてのその適用を理解することを可能にするために選択され、記載されている。

実施形態
本発明の実施形態について、図１〜図８を参照して説明する。図１６は、本発明の実施形態によるネットワークの概観を示す。

この実施形態の一例として、随意選択の集約状態表現に加えて、意思決定のために、従来のｑ学習［７］とは対照的に、ｆｉｔｔｅｄｑｉｔｅｒａｔｉｏｎ［８，９］−「ＦＱＩ」が適用される。例えば、以下のような他の強化学習アルゴリズムの使用は、本発明の範囲内に含まれる。

時間差学習ファミリー：
Ｑ学習、ＳＡＲＳＡおよび勾配ＴＤアルゴリズムを含む価値関数のオンライン学習、
これらのうちのいくつかはシステムを制御しながら学習することができるが、学習は低速であり得る。

そのような強化学習アルゴリズムは、Ｄｙｎａ（モデル学習）、シェーピング（ヒューリスティック知識）、経験再生、または優先掃き出し（サンプル再利用）などの技法と組み合わせて学習を加速することができる。

ポリシ勾配ファミリー：
勾配降下を使用してパラメータ化されたポリシを最適化する。これは、（可能なポリシのセット内で）ローカル最適ポリシを学習する。例：ポリシ勾配、自然ポリシ勾配、ＰＧＰＥ（パラメータベースの探索を有するポリシ勾配）、ＲＥＩＮＦＯＲＣＥ。

Ａｃｔｏｒ−ｃｒｉｔｉｃ：価値関数とポリシの両方を学習する。例えば、自然ａｃｔｏｒ−ｃｒｉｔｉｃなど、ＴＤ習得とポリシ勾配アルゴリズムとの組み合わせであり得る。

バッチ学習は、よりサンプル効率的であり得るが、オンラインでは学習しない。代わりにデータが収集され、新しいポリシが定期的に学習される。その間、現在のポリシが使用される。

ＬＳＰＩ（最小二乗ポリシ反復）：価値関数のシーケンスを得るための反復最小二乗フィッティング。これは高次元にスケーリングしない。

ＦＱＩ：この実施形態で使用されるもの。
ＰＩＬＣＯ：学習制御のための確率論的推論−ガウス過程を有するモデルを学習する。非常にサンプル効率的であるが、計算上非常に高価である。

強化学習の目的は、ニューラルネットワークのより従来的な使用のような、教師なし学習における生の入力データから、教師あり学習または構造学習において入力サンプルから出力サンプルへのマッピングを学習するのとは対照的に、状態、行動、報酬サンプルの軌跡を使って逐次的意志決定を最適化することである。強化学習アルゴリズムは、必要な訓練の速度および必要な出力を提供するその能力に適したものであるように選択される必要がある。例えば、標準的なＱ学習は文献に記載されることが多いが、収束特性は非常に貧弱である。例えば、Ｑ学習の収束とＦｉｔｔｅｄＱ−ｉｔｅｒａｔｉｏｎの収束との比較は、ＦＱＩがＱ学習よりも約３０倍速く最適解に達することを示している。

本発明のこの実施形態による孤立したニューラルネットワークの訓練は教師あり問題として見ることができるが、標準的な教師あり設定と比較したこの実施形態で開示される主な相違点は、
ニューラルネットワークのシーケンスがともに訓練されること、例えば、畳み込みニューラルネットワークおよび完全結合ニューラルネットワークが一単位として訓練されることであり、ネットワークの目標出力はそれ自体、強化学習を使用して学習され、各ニューラルネットワークの目標は以前の反復で訓練された以前のネットワークの出力に依存する。

したがって、訓練の監督は外部強化学習ループ内の内部ループと考えることができる。
本発明のこの実施形態は、図１〜図８を参照して以下の詳細な例で説明される。意思決定問題は、例えば、マルコフ決定過程（ＭＤＰ）として形式化される。高次元状態表現１１は、好ましくは、２Ｄ集約状態分布１２の単一の（図１の参照符号１２を参照）または並列系列（図４の参照符号１２ａ〜１２ｄ参照）の時間ステップ化された一連の集約状態分布［６］を含む入力として使用することができる。好ましくは需要応答アプリケーションのためにカスタマイズされた畳み込みニューラルネットワークアーキテクチャ２０［１０］は、ＦＱＩにおいて回帰アルゴリズムを実行するために使用される。

ＭＤＰは、その状態空間Ｘ、その行動空間Ｕ、および遷移関数ｆによって定義される。

これは、制御行動ｕ_ｋ∈Ｕの下での、確率分布ｐ_ｗ（．，ｘ_ｋ）を有するランダム過程ｗｋ∈Ｗの影響を受ける、ｘ_ｋ∈Ｘからｘ^ｋ＋１までの動態を記述する。

各状態遷移に伴う報酬ｒ_ｋは、以下のとおりである。

通常、需要応答アプリケーションでは、特記しない限り、報酬の代わりにコスト（肯定的な報酬の逆数）があり、別途記述しない限り、ρがコストである。

この実施形態の目的は、第１の状態ｘ_１から始まるＴ段階（Ｔは時間）コストを最小化する制御ポリシｈ：Ｘ→Ｕを見出すことであり、このポリシはＪ^ｈ（ｘ_１）によって表される。

ここで、

例えば、最適な制御ポリシｈ＊は、ベルマン方程式を満たすことができる。

状態空間Ｘは、例えば、複数のデータセット［６］、例えば、時間依存状態情報Ｘ_ｔ、制御可能状態情報Ｘ_ｐｈｙｓ、および外因性（制御不能）状態情報Ｘ_ｅｘを含む。

時間依存情報構成要素Ｘ_ｔは、時間に関連する、すなわち、例えば、ナノ秒、マイクロ秒、ミリ秒、秒、分、日、月などの用途に適するような時間ステップにおける情報１１を含む。本実施形態では、一日のうちの時間を使用することができる。

時間ステップの大きさの選択は、入力データにおける関連する時空間的挙動パターンの識別を可能にすることと、演算密度の低減との間の妥協である。平日または休日または全国ストライキまたは大規模停電など、時間に関するより多くの特徴を追加することができる。

外因性（例えば、制御不能および／または外部から課される）情報ｘ_ｅｘ，ｋは、制御行動ｕ_ｋに対して不変であり得るが、制御されるべきシステムの動態に影響を及ぼし得る。本発明では、外因性情報は、外部温度Ｔ_ｏおよび／もしくは例えば内部加熱ｑ（ただし、この実施形態では後者は利用できないと仮定される）のような温度、または、例えば、例として窓を通じた放射加熱をもたらす太陽放射照度Ｓ、または、制御されるべきシステムの動態に影響を及ぼす他の同様の外因性情報を含むか、または、それらから構成され得る。上記リストは、以下に示すように限定的でも網羅的でもない。

少なくとも、例えば関連する外部温度などの温度または太陽放射照度、または内部加熱のようなこのまたはこれらの外因性情報は、ポリシｈを構築するときに利用可能であると仮定される。曲折アクセント記号＾は、予測を表すために使用される。

この実施形態では、ＴＣＬがオフ／オン状態にあるかを示すバイナリ値として、各ＴＣＬに対する制御行動が示されている。

予備的状態ベクトルは、（例えば、少なくとも少なくとも）以下のように定義することができる。

この状態ベクトルは、例えば、動作温度Ｔ_ｏ、または太陽放射照度などの観測可能な状態情報のみを含むため、状態ベクトルは、図１または図４の１１からの観測されている履歴状態サンプルを追加することによって拡張することができる。

ここで、θⁱは、安全性（熱水によってスケーリングされない）および／または快適性設定（温水が快適なシャワー体験を提供するために十分に熱い）または動作に関連し制御行動の範囲を制限するための他のパラメータなどの重要なパラメータに関するローカル情報の上限および下限に関する情報を含む。

適切な報酬モデルは、畳み込みニューラルネットワークを訓練するために、すなわち上首尾の制御行動を定義するために定義されるべきである。ＴＣＬのような大規模なクラスタの装置を制御する場合、例えば、平衡信号またはエネルギー裁定取引を追跡することを考慮することができる。この実施形態では、エネルギー裁定取引が考慮される。上記で定義したように、各状態遷移に伴う報酬ｒ_ｋは、以下のとおりである。

この実施形態では、ＴＣｌなどの装置のクラスタが外部コストまたは価格ベクトルλに応答すると仮定される。コストまたは価格への言及は、必ずしも実際の請求可能金額に関連するものではなく、むしろ制御機能を評価する目的のためのコストの値を割り当てる。例えば、この「コスト」は、行動によって生じる二酸化炭素の影響であってもよい。したがって、これは制御パラメータである。たとえば、コスト関数は次のように定義することができる。

ここで、Ｐは、時間間隔Δｔの間の、例えば空調装置などのＴＣＬのような装置の平均電力消費量である。

ここまでで最も重要な関係を定義したため、制御装置を含む本発明の実施形態である実施態様について説明する。図２に示すように、３つのステップ手法２，４，６、すなわち、第１のステップである集約２、第２のステップである最適化および特徴抽出４、ならびに第３のステップであるディスパッチまたは送達ステップ６が好ましい。

ステップ１：問題の次元を減らすために、第１のステップ２が実行される。これが問題ではない場合、このステップを欠落させることができ、図１または図４の入力２Ｄグリッド１２に実際の値を入力することができる。入力データのサイズを低減するために、ＴＣＬ７ａ〜７ｄ（図２）などのクラスタ要素の状態値１１（図１および図４）を集約することが好ましい。第１のステップでは、すでに説明した状態情報ｘ_ｋが、監視されるべきシステムから取り出される。

したがって、予備的な最終集約状態ベクトルは、以下のとおりである。

後の第３のステップ、すなわちディスパッチまたは送達ステップ６を容易にするために、ＴＣＬ７ａ〜７ｄのようなすべての装置に対して可用性関数が定義される。図２に示すような第２のステップ４に見られる、または、図１もしくは図４の出力１８から得られる制御行動５は、理想的な状況においてシステムによって完全に満たされ得る。しかし、これは要求されているすべての電力が供給され得ることを必要とする。実際の状況では、これは必ずしも当てはまるわけではないため、例えば電力などの要求された量の生産物を供給するための実際の能力を考慮に入れた、例えば電力などの送達可能な生産物の可用性関数を許容する必要がある。したがって、装置の可用性関数は、ＴＣＬのような装置がどのようにして容易に、例えば市場からの電力のようなパワーなどの送達可能な生産物を得ることができるかに関する。この可用性関数は、例えば、ＴＣＬｉのような各装置について以下の式に従って、消費される、例えば電力のようなパワーなどの送達可能な生産物対ヒューリスティック（ｐ_ｒ）として表すことができる。

Ｈはヘビサイド関数に対応し、Ｐ_ｉは、例えば、電源投入時にＴＣＬなどの各装置によって消費される電力などの送達可能な生産物に対応する。

回帰ステップを実行するために、以下のアルゴリズムが使用される。各制御ステップの間、制御行動ｕ_ｋは、以下により定義される確率によって選択される。

ここで_＊は２Ｄ畳み込み演算を表し、ｘは層入力であり、ｂ^ｋはバイアス項であり、σ（シグマ）は非線形活性化関数である。ディープアーキテクチャを得るために、複数の層を積み重ねることができる。畳み込み層は随意選択的に、入力をダウンサンプリングして一定量の変換不変性をネットワークに導入するプーリング層と交互にすることができる。畳み込みニューラルネットワーク１４は、ｂ個のビンに対応する入力グリッド１２の１つの次元と、Ｎ個の前の時間ステップにおける観測値を表す他の次元とを有する２Ｄグリッドの形態のビニングされた

を処理する。時間および状態の次元は等しく扱われ、２Ｄ畳み込み演算は両方の次元にわたって適用される。これは、入力グリッドが２Ｄグリッド内に時間次元を一切有しない２Ｄ画像である畳み込みニューラルネットワークの以前のアプリケーションとは異なる。一連の時間ステップにおいて量子化された時間次元である１つの軸を有する２Ｄグリッドを導入することによって、状態情報およびその履歴においてローカル構造を識別する時空間的特徴を識別することができるようになる。これにより、ネットワーク２０は、複数の時間ステップにわたって発生するイベントに対応する特徴を識別することが可能になる。畳み込みニューラルネットワーク１４において抽出されたこれらの特徴は、その後、完全結合ニューラルネットワーク１５内の上位ネットワーク層によって入力として使用される。追加の外因性入力値ｘ_ｅｘ，ｋおよび制御行動ｕ_ｋは、入力１６として別個の完全結合フィードフォワードアーキテクチャ１７に供給される。多層パーセプトロン１７は、最初に、入力を中間表現にマッピングする。この隠れ表現は、次いで、畳み込みニューラルネットワーク１４の出力と組み合わされ、両方のネットワーク１４，１７の出力は、完全結合層１５にマージされる。最後の線形出力層１９は、結合された隠れ特徴を入力状態−行動対の予測されるＱ値１８にマッピングする。

ステップ３：ステップ３は、上記のポリシｈから生じる制御行動を、ＴＣＬなどの異なる装置７ａ〜７ｄにディスパッチされるべきエネルギーのようなディスパッチされるべき生産物に変換するリアルタイム制御を含む。制御行動ｕ_ｋは、例えば、市場ベースのマルチエージェントシステムを使用するＴＣＬのような異なる装置７ａ〜７ｄにわたってディスパッチすることができる。上述のように、ＴＣＬへのエネルギー供給は、可用性関数ｂ_ｉによって表される。クリア過程の後、例えばＴＣＬｓのような監視されているクラスタ内の異なる装置７ａ〜７ｄに、クリア優先度ｐ＊_ｒ，ｋが送り返される。

装置はｂ_ｉ（ｐ＊_ｒ，ｋ）に従って電力を消費する。
例えば、図２を参照すると、例えば電力などの送達すべき生産物と、例えば充電状態などの集約されるべき各観測クラスタ状態入力パラメータ値との間の関係９ａ〜９ｄが決定される。図２に示すように、これらの関係を集約、例えば合計して、クラスタ関係３を生成することができる。この関係では、クラスタ状態値がゼロに近いとき、すなわちＳｏＣが非常に低いときに、送達されるべき生産物、例えば、消費されるべき電力は最大である。クラスタ状態値が最大値に近いとき、すなわちＳｏＣが非常に高いとき、クラスタがそれ自体の蓄積された電荷から次の時間ステップにわたって要求を満たすことができるべきであるため、送達されるべき生産物、例えば、消費されるべき電力は最小である。ステップ６では、関係３が３４として示されている。ステップ４で決定された最適化された値は、次の期間においてクラスタに送達されるべき電力３２である。関係３４から、この電力値３２は、次の時間ステップの需要を満たすべきである場合、クラスタに対する所望のＳｏＣ値３６として読み出される。関係９ａ〜９ｄは、関係３９ａ〜３９ｄとして引き継がれ、ＳｏＣ３６のクラスタ値は関係３９ａ〜３９ｄへの入力として使用されて、これらの装置のうちのいずれが、クラスタのＳｏＣレベル３６にするために充電され（すなわち、送達される生産物を受け取ら）なければならないかが分かる。例えば電力値３８ａ〜３８ｄなどのこれらの送達可能な生産物が、ＴＣＬ７ａ〜７ｄに送達される。

実施例
深回帰アーキテクチャの具体例として、ビニングされたクラスタ状態ｘ^ｂは、最後の２８個の時間ステップにわたるクラスタメンバのビニングを記述する２８×２８の２次元グリッドによって表される。この入力は、畳み込みニューラルネットワーク１４の２つの２Ｄ畳み込み層を用いて処理される。畳み込みニューラルネットワーク１４の第１の層は、４つの７×７フィルタからなり、一方、第２の層は、８つの５×５フィルタを使用する。畳み込みニューラルネットワーク１４の畳み込み層の後には、特徴マップを３２個の隠れノードにマッピングする、完全結合ニューラルネットワーク１５の単一の完全結合層が続く。各層の後に、整流された線形（ＲｅＬＵ）活性化層が続いている。プーリング層は使用しなかった。ｘ_ｅｘ，ｋおよび行動ｕ_ｋを含む外因性データ１６が、完全結合ニューラルネットワーク１７内の単位の単一の完全結合隠れ層を使用して処理される。畳み込みニューラルネットワーク１４とフィードフォワードネットワーク１７との結合された出力は、各々が完全結合ニューラルネットワーク１５の２４単位からなる２つの完全結合層を使用して処理される。すべての層がＲｅＬＵ活性化を使用した。最終的な隠れ表現は、図１および図４に示すように、完全結合線形出力層１９を使用して単一の出力１８にマッピングされる。ネットワークアーキテクチャ２０は、ｒｍｓｐｒｏｐアルゴリズムを使用して単位として訓練された。本発明によれば、ネットワークアーキテクチャ２０全体が同時に訓練されることが好ましい。

この実施形態では、環境はモデルによってシミュレートされる。例えば、これは、ＴＣＬが収容されている建造物７ａ〜７ｄの熱特性のモデルである。これは、この実施形態では測定データが利用できなかったために行われる。動作中、このシミュレートされたデータは好ましくは使用されず、むしろ実際の測定値が使用される。したがって、単に本発明の説明のために、図２に示されている（７ａ〜７ｄ）のような各建造物の動態を記述するために二次モデルを使用することができる。

図７は、一番上の行のタイトル内に示されている異なる日数、すなわち２１，４１，６１，６７および７１日後のポリシの結果の選択を示す。これは、一番上の行に状態−時間の特徴を含み、一方で、中間の行においては状態特徴のみを考慮しているものとして示されている。一番下の行は、想定される外部温度を示している。４０日後には、状態−時間特徴を考慮に入れるときにより円滑である有意義なポリシが得られることが分かる。６１日目および６７日目について、価格信号は同じであるが、外部温度はそうではなく、アルゴリズムが実際にこれらの予測を考慮に入れることを学習したことが分かる。図８では、時間特徴の有無によるより定量的な比較を見ることができ、ここで、いくつかのシミュレーション実行のコストの上限および下限の累積値が、状態−時間特徴を考慮に入れて２４、および、考慮に入れずに２５提示されている。差は５％程度である。

上述の本発明の実施形態は、図９に概略的に示される電力システム４０に適用することができる。この図において、電気エネルギーを生成または消費し、電力供給ネットワーク４１を介して結合される異なる生産者４２，４３および消費者装置７（図２、装置７ａ〜７ｄ参照）または消費者装置７のクラスタ４５が存在する。この電力供給ネットワーク４１は、電気エネルギーの生成、ならびに、消費者装置７、装置のクラスタ４５および生産者４２，４３の間の伝送を可能にし、電力供給ネットワーク４１の動作を制御するための中央制御装置４６を含むことができる。消費者装置７またはクラスタ４５内の消費者装置７の一部を制御するローカル制御装置４７も存在し得る。

理想的には、このような電力システム４０の動作中は常時、生産と消費との間の平衡が必要である。現在、主な制御パラダイムは、生産が消費に後続することである。これは、主に２つの理由でもはや効率的ではない。再生可能エネルギーの継続的な統合により、これらの平衡化要件は、エネルギー、電力、ランプ速度、または少なくともランプアップ／ダウンの点でより要求が厳しくなる。これに対処することは、主にエネルギー効率が悪いガス燃焼発電所（一次エネルギーから実用エネルギー）のランピング（アップ／ダウン）を必要とするため、非効率的である。これは、過度のエネルギー消費および汚染をもたらす。第２の重要な点は、平衡化資産が主に高電圧ネットワークに結合され、一方、再生可能エネルギー発生器４３が多くの場合、低電圧および中電圧レベルに配置され、ローカル電圧および輻輳の問題が引き起こされ、これらを解決するためのローカル柔軟性が要求されることである。両方の問題について、生産の代わりに電気消費に応じて動作することによって、需要柔軟性がエネルギーおよび汚染に関して冗長かつ効率的であり、さらに高電圧レベルと低電圧レベルの両方に結合されるため、解決策の一部を提供することができる。本発明の実施形態は、いくらかの柔軟性を示す、すなわち経時的なエネルギーの使用を調整する自由を有する消費装置の大きな異種成分からなるクラスタの電気などのエネルギーの消費の制御または操作に使用することができる。

消費装置７の一例は、図１０に概略的に示されている蓄熱器、すなわち電力−熱貯蔵タンク５０である。貯蔵タンク５０は、参照により本明細書に組み込まれる国際公開第２０１２１６４１０２号パンフレットによるボイラまたは熱緩衝器とすることができる。温水貯蔵タンク５０は、例えば、浸漬された電気ヒータ５２を使用して電気エネルギーを熱エネルギーに変換することができる。生成された温水は、例えば、シャワーまたは一般的な家庭用途に使用することができる。一般に、温水が使用されない、例えば夜間などの特定の時間があり、したがって、温水貯蔵タンクが加熱され、したがって電力を消費する時間の選択にある程度の柔軟性があるため、夜間の電気消費に関していくらかの柔軟性がある。必要なのは、次のシャワーに利用できる十分な温水があることだけである。典型的には、ボイラの加熱は、夜間に作動する単純なタイマスイッチを使用して設定されるため、ボイラが加熱される夜間の柔軟性は現在使用されていない。

上部５４から温水を抽出することができ、底部５６において冷水が注入される。水を加熱するために、水体中に電気ヒータ５２が存在する。水を加熱する他の方法も本発明の範囲に含まれる。操作上の観点から、ヒータが配置された電気回路を閉鎖または開放する制御可能なリレー５８を設けることができる。この開閉は、例えばデジタル制御システムを用いて行うことができる。例えば、リレー５８は、リレー５８をオンおよびオフに切り換えるためのデジタル信号を受信することができる通信ポートおよびマイクロプロセッサまたはマイクロコントローラを含むことができる。例えば、例として中央制御装置４６またはローカル制御装置４７からリレーに０または１の信号を送ることによって、リレーはそれに応じて閉じるかまたは開く。さらに、温水タンクのパラメータに関する情報を、中央制御装置４６またはローカル制御装置４７に自動的に通信することができ、例えば、１つの場所で測定される水の温度が、規則的な時間間隔で通信される。水の温度は、充電状態（ＳｏＣ）に関連し、変換することができ、すなわち、最大温度、したがって装置５０が貯蔵することができる最大エネルギーに関連する。水温およびＳｏＣは、ボイラのエネルギー状態値であり、例えば、水温（複数可）、平均水温、水温の中央値、スケーリングされた尺度としての１−ＳｏＣ（これは最大水温に達する前にボイラにどれくらいのエネルギーを供給できるかの尺度である）、１／ＳｏＣ、１／１−ＳｏＣ、すなわちＳｏＣの関数などの多くの異なる方法で表現することができる。これらの値は、関連する値を計算するために保存した履歴レコードを使用するローカルインテリジェンスによって導出することもできる。

図１０に示す蓄熱タンク５０は、図１または図４の２Ｄグリッド１２に導入されるデータを準備するために、ローカル制御装置４７または中央制御装置４６に関連データを送信する。状態値は、一定の時間間隔で送信されるべきである。蓄熱装置５０内の水の温度またはＳｏＣ値は、装置内の熱エネルギーの量を表し、したがって、この装置の状態値である。使用可能な他の状態値は、ＳｏＣ、１−ＳｏＣ、１／ＳｏＣ、１／１−ＳｏＣ、ＳｏＣの関数などである。この状態値は、他のそのような装置５０からの値、またはそのような装置のクラスタ内の異種装置からの値と集約することができ、その後、図２のヒストグラム８のビンの範囲内でビニングされることができる。例えば、Ｓ．Ｋｏｃｈ，Ｊ．Ｌ．Ｍａｔｈｉｅｕ，およびＤ．Ｓ．Ｃａｌｌａｗａｙ「Ｍｏｄｅｌｉｎｇａｎｄｃｏｎｔｒｏｌｏｆａｇｇｒｅｇａｔｅｄｈｅｔｅｒｏｇｅｎｅｏｕｓｔｈｅｒｍｏｓｔａｔｉｃａｌｌｙｃｏｎｔｒｏｌｌｅｄｌｏａｄｓｆｏｒａｎｃｉｌｌａｒｙｓｅｒｖｉｃｅｓ」（ｉｎＰｒｏｃ．１７ｔｈＩＥＥＥＰｏｗｅｒＳｙｓ．Ｃｏｍｐｕｔ．Ｃｏｎｆ．（ＰＳＣＣ），Ｓｔｏｃｋｈｏｌｍ，Ｓｗｅｄｅｎ，Ａｕｇ．２０１１，ｐｐ．１−７．）を参照されたい。ビニングされた値は、上述の２Ｄグリッド１２のＹ軸を形成する。２Ｄグリッド１２の水平軸は時間であるため、状態値、例えば、水温またはＳｏＣ、１−ＳｏＣなどは、一定の時間間隔でローカル制御装置４７または中央制御装置４６に通信される。

図４に示すように、２Ｄグリッドの２つ以上のシーケンスを畳み込みニューラルネットワーク１４，１５，１９に入力することができる。平行な２Ｄグリッド１２の状態値は、例えば、水温、平均水温、水温の中央値、ＳｏＣ、１−ＳｏＣ、１／ＳｏＣ、１／１−ＳｏＣ、ＳｏＣの関数などから選択することができる。

例えば、図２を参照すると、関係３は、１−Ｓｏｃの関数としての電力またはエネルギーであり得る。１−ＳｏＣが値１に近づくほど、ボイラが使い尽くされ、ボイラが電気エネルギーを緊急に受け取る必要性が高くなる。したがって、エネルギーを受け取る必要性は、装置の１−ＳｏＣの値に関連する優先度である。したがって、任意の時刻におけるクラスタの装置の優先度をステップ２において集約することができる。したがって、関係３は、優先度（Ｘ軸）およびその優先度において供給されるべき電力またはエネルギー（Ｙ軸）を示すことができる。安定性を維持するために、優先度と供給可能なエネルギーまたは電力との間の関係が、高い優先度において少量のエネルギーまたは電力を可能にし、低い優先度においてのみ多量のエネルギー量を可能にすることが好ましい。したがって、任意の装置によって消費され得るエネルギーまたは電力は、好ましくは優先度の減少関数、例えば、段階的減少関数である。

図２に関して、３ステップ手順における第２のステップ４は、制御行動ｕ_ｋをクラスタに送達する。この制御行動「ｕｋ」は、装置５０のクラスタ全体が次の時間フレームで消費する平均電力またはエネルギーの決定を可能にするように設計されなければならず、したがって、クラスタの装置５０のうちのどれを充電しなければならないかを案内する。集約は、これがエネルギーの準最適案配分をもたらすことが説明されている米国特許出願公開第２００９／２２８３２４号明細書に説明されているように、情報の損失および表現の不正確さを伴う。米国特許出願公開第ＵＳ２００９／２２８３２４号明細書は、制御ネットワークにおける利用可能な通信および処理帯域幅ならびにエネルギー分配の所望の正確度に基づいて所望の正確度を調整するための調整可能パラメータの提供を提案している。本発明のディスパッチステップ６は、「ｕ_ｋ」の値だけがクラスタに送信されなければならないため、低帯域幅通信を利用することができるため、一切のこのような問題を回避する。この値「ｕ_ｋ」は、ステップ６において関係３４として示される関係３を使用して、クリアされた優先度に関連づけることができる。値「ｕ_ｋ」が入力として使用されるときに、関係３４から得られるクリアされた優先度よりも高い優先度を有する装置は、次の時間フレームにおいて電気エネルギーを消費することができる。クリアされた優先度の代わりに、クリアされた１−ＳｏＣ値などの状態値のクリアされた値も使用できる。その場合、値「ｕ_ｋ」が入力として使用されるときに、関係３４から得られるクリアされた１−ＳｏＣの値よりも高い１−ＳｏＣ値を有する装置は、次の時間フレームにおいて電気を消費することができる。一般に、装置は、上記の式２２に関して説明したように、可用性関数ｂ_ｉ（ｐ＊_ｒ，ｋ）に従って電力を消費する。本発明の実施形態では、オン／オフ装置以外の他の装置を使用することができる。

これらのディスパッチ方法を要約すると、ステップ４は、装置５０のクラスタが消費することができるエネルギーまたは電力を決定することができる値「ｕ_ｋ」を提供する。この「ｕ_ｋ」の値は、好ましくは、クラスタによって消費されるべき電力またはエネルギーの現在の必要性に関連する値に変換され、すなわち優先度に関連する。クラスタ内の各装置は、その後、消費電力の必要性が現在の必要性よりも高いすべてのアプリケーションで電気を消費することを可能にされる。値ｕ_ｋは、クラスタ全体によって消費されるべき電力であり、関連するエネルギーまたは電力へのアクセスを得るために、エネルギーオークションなどの任意の適切なオークション機構に送信することができる。その時点の市場状況に応じて、次の時間フレームのために、非常に多くの電力またはエネルギーが利用可能となる。このエネルギー量は、ｕ_ｋによって指定された量よりも少ない場合があり、すなわち、実際的かつ経済的に正当化された量のエネルギーは、ｕ_ｋ未満であり得る。しかしながら、実際にどのエネルギー値が得られているかには無関係に、取得された量を使用して、消費されるべき電力またはエネルギーを各装置について計算することができるクリアされた優先度を決定することができる。この計算は、クラウドにおいてまたはローカルに実行できる。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって貯蔵タンクを加熱または冷却することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。

以下では、さらなる実施例が記載されており、各々は上記のように制御されることが可能である。

蓄熱装置を含む消費者装置７の別の例は、図１１に示すように部屋または部屋の集合６０を加熱することである。蓄熱は、建造物の熱質量、すなわち空気自体、壁、家具および／または蓄熱装置から直接得られる。電気ヒータ６２であり得るヒータから生じる熱エネルギーは、部屋または部屋の集合６０の空気中に放出される。これは、電気ヒータ６２から直接に、または水などの媒体を含む放熱器回路を介して行うことができる。制御可能なリレー６８は、加熱をオンおよびオフに切り替えるように適合することができる。このオンおよびオフの切り替えは、例えばデジタル制御システムを用いて行うことができる。例えば、リレー６８は、リレー６８をオンおよびオフに切り換えるためのデジタル信号を受信することができる通信ポートおよびマイクロプロセッサまたはマイクロコントローラを含むことができる。例えば、０または１の信号をリレーに送ることによって、リレー６８はそれに応じて閉じるかまたは開く。さらに、部屋６０のパラメータに関する情報は、制御装置４６またはローカル制御装置４７に通信することができ、例えば、空気の温度は、センサ６４によって１つの場所で測定される。家具または壁または空気の温度、またはそのような値の組み合わせは、充電状態（ＳｏＣ）に変換することができ、すなわち、最高温度、したがって部屋または部屋６０の集合が有する可能性がある最大エネルギーに関連するが、典型的には動作空気温度のみが利用可能であり、家具／壁等の温度は観測されず、これは状態の履歴データから正確に推測される必要がある。

図１１に示す蓄熱装置６０は、図１または図４の２Ｄグリッド１２に導入されるデータを準備するために、ローカル制御装置４７または中央制御装置４６に関連データを送信する。蓄熱装置６０内の空気の温度またはＳｏＣ値は、部屋または部屋の集合内の熱エネルギーの量を表し、したがって、この装置の状態値である。この状態値は、そのような装置のクラスタ内の他のそのような装置６０からの値と集約することができ、次いで、２Ｄグリッド１２のＹ軸を形成するビンのうちの１つのビンの範囲内でビニングすることができる。２Ｄグリッド１２の水平軸は時間であるため、空気温度の状態値は、一定の時間間隔でローカル制御装置４７または中央制御装置４６に通信される。図２に関して、３ステップ手順における第２のステップ４は、制御行動「ｕ_ｋ」をクラスタに送達する。この制御行動ｕ_ｋは、次の時間フレームにおいて部屋または部屋の集合６０のクラスタが消費することができる電力またはエネルギーとすることができ、したがって、次の時間フレームにおいて部屋または部屋の集合６０のうちのいずれが電気エネルギーを消費することができ、加熱され得るか、および、それがどのくらい長いかを案内する。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって部屋を加熱または冷却することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。

別の消費者装置７は、例えば、ハイブリッド車または電気自動車を駆動するために使用される電池またはウルトラキャパシタのような、図１２に示される蓄電装置７０とすることができる。蓄電装置７０は、電気エネルギー／電力を消費／生成することができる。中央制御装置４６またはローカル制御装置４７に送ることができる電池の状態値は、電池の充電状態（ＳｏＣ）またはこの値を表す他の任意の値である。

図１１に示す蓄電装置７０は、図１または図４の２Ｄグリッド１２に導入されるデータを準備するために、ローカル制御装置４７または中央制御装置４６に関連状態データを送信する。蓄電装置７０のＳｏＣ値は、装置内の熱エネルギーの量を表し、したがって、この装置の適切な状態値である。この状態値は、そのような装置のクラスタ内の他のそのような装置７０からの値と集約することができ、次いで、２Ｄグリッド１２のＹ軸を形成するビンのうちの１つのビンの範囲内でビニングすることができる。２Ｄグリッド１２の水平軸は時間であるため、ＳｏＣ状態値は、一定の時間間隔でローカル制御装置４７または中央制御装置４６に通信される。図２に関して、３ステップ手順における第２のステップ４は、制御行動ｕ_ｋをクラスタに送達する。この制御行動ｕ_ｋは、装置クラスタ７０が次の時間フレームにおいて消費することができる電力またはエネルギーとすることができ、したがって、いずれの装置７０を充電できるかを案内する。本発明の実施形態は、制御行動をローカルに無効にすることができることを排除するものではない。例えば、手動オーバーライドによって電池を充電することができる。経時的に、畳み込みニューラルネットワークは、計画された動作におけるそのような中断を満たすために、その動作を学習し、適応させることができる。

本発明は、オンオフ制御に限定されない。電力−熱蓄積装置の別の一般的な実施態様が図１３に示されており、これは上記の説明と非常に類似しているが、温度設定点は、オン／オフスイッチによって制御されず、この設定点は好ましくは（人間のオペレータの制約内で）遠隔で変更することができ、それに応じてローカル制御装置４７が動作する。例えば、ローカル制御装置４７は、温度設定点、ヒステリシス制御装置などを追跡するローカルＰＩＤ制御装置とすることができる。

加熱システムの運転管理を妨害しないために、ローカル制御装置４７は、人間のオペレータが有するのと同じ利用可能な行動を有する。設定点は、ローカル再生可能エネルギーがあるときに増加させることができ、その結果、ローカル制御装置４７は、空気および建造物の熱質量に一時的に蓄えられるより多くのエネルギーの消費を許容し始める。したがって、実施形態のいずれかにおける制御行動ｕ_ｋに対する反応は、オン／オフ制御以外であり得るが、例えば、ローカル制御装置の設定値を変更することによって電力またはエネルギーの消費に影響を及ぼす任意の変化を含むことができる。この実施形態では、制御すべきシステムの状態値（例えば、上述の温度、ＳｏＣなど）および電力システムの状態、例えば需要と供給との間の平衡、例えば電圧などによって表されるグリッド状態に応じて、動作点（オン／オフ状態、電力、温度など）が制御される。本発明の実施形態は、ネットワーク４１のエネルギー生成と消費とを平衡させることができる。ネットワークを動作状態に保つために、中央制御装置４６および／またはローカル制御装置４７は、電力システムの状態、すなわち、バランス、電圧など）、および、エネルギー源の結合された柔軟性の状態に基づいて、すべての関連するリレーを開きもしくは閉じ、スイッチを変更し、または、設定点、動作電力などを変更するように適合することができる。これは、図１４に概略的に示されており、システムの不均衡はネットワーク全体の状態値として扱われる。例えば、不平衡信号は、ＭＷｈで表される現在および予想されるネットワーク内の不均衡として表すことができる。この状態値は、図２または図４に示すように、その出力が完全結合ニューラルネットワーク１５に渡される第２の完全結合ネットワーク１７への入力１６としての、外因性状態情報ｘ_ｅｘとして含まれ得る。これにより、畳み込みニューラルネットワークがシステムの不均衡を学習し、適応することが可能になる。代替的に、不均衡情報が、将来発生する可能性のある高次元表現である場合には、状態値１１の１つとして含めることができる（図１および図４参照）。ＴＬＣのクラスタ内の各要素のスイッチまたはリレーは、ネットワークの状況およびネットワークの予測される状況に基づいて開閉される。

リレーの開閉を判断するために、クラスタ全体の状態を考慮することができる。状態は、例えば各ＴＣＬでローカルに測定される温度のような、利用可能な測定された情報によって表される。測定される温度は必ずしもシステムの全状態を保持するとは限らない。過去の観測値のシーケンスを使用して、システムの状態を表現することができる。状態の次元性を実用的に保つために、上記のような集約を用いることができる。ネットワークの状態の過去の観測値および状態の予測から、各ＴＣＬに対する制御行動が決定される、すなわちＴＣＬがオンまたはオフに切り替えられるかが決定される、制御ポリシが決定される。

分散制御システムの１つの問題は、レガシ装置が、通常、需要応答配電ネットワーク４１との通信手段を有しないことである。図１５に概略的に示すように、レガシ装置５０、例えば異種装置は、本発明の実施形態によって制御することができる。

需要応答配電ネットワーク４１は、産業施設および消費者施設に電力を供給する。例えば、図１５に概略的に示されている家屋５３には部屋があり、各部屋またはいくつかの部屋の中には、装置５０および制御可能なスイッチ５２、例えば、参照により本明細書に組み込まれるＥＰ−Ａ−２６１８４４５に開示されているような需要応答アダプタがある。ローカルインテリジェンスを有するローカル制御装置４７が、このような家屋に設置することができ、電力を受信するためのケーブルまたは他の遠隔通信手段を介して需要応答配電システム４１にリンクされ、少なくとも電流搬送ケーブル５４（例えば、電力通信によるデータを使用する）および／またはＬＡＮケーブルまたはワイヤレス接続によって各制御可能スイッチ５２および装置５０にリンクされる。ローカル制御装置４７は、例えば、夜間のボイラ、平日の毎朝７：００のティーメーカーなど、各装置５０が電気を必要とするときの優先度および時間によって（例えば手作業で）プログラムされる。ローカル制御装置４７は、各スイッチ５２をオンまたはオフにするように制御するように適合されている。したがって、ローカル制御装置４７は、制御可能なスイッチ５２と組み合わせて、ネットワーク４１に向かってレガシ装置をエミュレートする。需要応答システム４１との通信は、家屋内でも行われ得るように、電力ケーブルを介した信号伝達を介してもよい。例えば、ローカル制御装置４７は、図１または図４の２Ｄグリッド１２に対する入力を提供する。例えば、この入力は、クラスタ制御装置４９に提供することができる。クラスタ制御装置４９への入力は、家屋内の各装置５０の充電状態、および／または次の期間にわたる各装置５０による予想される需要とすることができる。そのようなデータは、ユーザによってローカル制御装置４７に入力することができ、制御装置４７は、この情報をクラスタ制御装置４９に提供する。充電状態は、参照により本明細書に組み込まれる国際公開第２０１２１６４１０２号パンフレットに説明されているように決定することができる。ローカル制御装置４７は、参照により本明細書に組み込まれるＥＰ−Ａ−２６０８１２３に開示されているようなＰＩＤ制御装置を含むことができる。

クラスタ制御装置４９は、例えば、図２のステップ４からブロードキャスト制御行動ｕ_ｋを受信することができる。この値ｕ_ｋから、制御装置４７は、例えば家屋５３の優先度を決定し、これをローカル制御装置４７に送信し、その優先度からローカル制御装置４７は、装置５０が電気をどのくらい、および、いつ消費することが許可されるかを直接的または間接的に決定することができる。制御装置４７および／またはクラスタ制御装置４９内のローカルインテリジェンスを使用することにより、多くの消費者施設内に一般に見られるような異種装置、特に異種レガシ装置を本発明の実施形態によって制御することができる。

図１６は、本発明の実施形態によるネットワークの概観を示す。現在利用可能な需要応答システムは、電力需要のピーク時または緊急供給条件の期間中、民生機器の遠隔制御スイッチが電力をオフにする直接負荷制御を使用することが多い。これらのシステムは、典型的には、一方向ページング通信に依存して、リモートスイッチに制御信号を送る。図１６に示すように、本発明の実施形態は、個々の装置７または装置のクラスタ４５と、例えば央制御装置４６を含む分配ネットワーク４１との間の双方向通信を有する。したがって、ネットワーク４１はエンドツーエンドの可視性を有し、消費者施設からヘッドエンドまでのインフラストラクチャの完全な絵図を有するだけでなく、畳み込みニューラルネットワークによって抽出される時間パターンの完全な絵図をも有する。

本発明の実施形態は、需要応答システム内のクラスタにグループ分けされた制約付きクラスタ要素に分配されるべき物理生産物の需要を制御する方法、およびこの方法を実行するための制御装置に関する。本発明は、各ニューロンが相互結合ネットワークに関連付けられ、それによってニューロンと少なくとも別のニューロンとの間の重み付けされた結合が存在するように、複数のデジタルニューロンを含む１つまたは複数のニューラルネットワークの実施態様を提供する。

物理生産物は、例えば、熱または電気エネルギーであり得る。
そのような方法は、１つまたは複数のマイクロプロセッサ、ＦＰＧＡ、または中央処理装置（ＣＰＵ）および／またはグラフィックス処理装置（ＧＰＵ）によって提供されるような処理能力を有し、ソフトウェア、すなわち１つまたは複数のコンピュータプログラムによってプログラムされることによってそれぞれの機能を実行するように適合される制御装置（例えば、中央処理装置４６、および／またはクラスタ制御装置４９および／またはローカル制御装置４７）によって実施することができる。ソフトウェアへの参照は、コンパイラ型または翻訳言語を介して、プロセッサによって直接的または間接的に実行可能な任意の言語の、任意の種類のプログラムを包含することができる。本発明の方法のいずれかの実施態様は、論理回路、電子ハードウェア、プロセッサまたは回路によって実施することができ、これらは、汎用プロセッサ、デジタル信号プロセッサ、ＡＳＩＣ、ＦＰＧＡ、ディスクリートコンポーネントまたはトランジスタ論理ゲートなどに限定されない、任意の度合いまで集積されている、任意の種類の論理またはアナログ回路を含むことができる。

そのような制御装置は、メモリ（非一時的コンピュータ可読媒体、ＲＡＭおよび／またはＲＯＭなど）、オペレーティングシステム、随意選択的に固定フォーマットディスプレイのようなディスプレイ、キーボードのようなデータ入力装置、「マウス」などのポインタ装置、他の装置と通信するためのシリアルまたはパラレルポート、任意のネットワークに接続するためのネットワークカードおよび接続を有することができる。

ソフトウェアは、例えば、制御装置内の処理エンジン上で実行されるときに、需要応答システム内のクラスタにグループ分けされた制約付きクラスタ要素に分配されるべき物理生産物の需要を制御する方法を実施するように適合することができる。ソフトウェアは、ソフトウェアが制御装置にロードされ、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどの１つまたは複数の処理エンジン上で実行されるとき、以下に箇条書きされる機能を実行するように適合されるコンピュータプログラム製品内に具現化することができる。したがって、本発明の実施形態のいずれかと共に使用する制御装置は、コンピュータソフトウェアの形態で１つまたは複数のコンピュータアプリケーションを実行することができるコンピュータシステムを組み込むことができる。

この方法および制御装置は、強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定するように適合させることができ、これにより、制御技法は、制御されるべき需要応答システムとの相互作用から学習し、畳み込みニューラルネットワークに、１つまたは複数の２Ｄグリッド構造に集約されることが好ましい、需要応答システムの少なくとも１つのクラスタの履歴観測値または履歴観測値の派生物を入力することによって特徴を抽出し、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、２Ｄ畳み込みを実行し、ローカル時間と２Ｄグリッド構造内のクラスタ要素の集約ローカル状態変動との組み合わせからローカル畳み込み特徴を抽出することを学習する。

上記の方法は、メモリにロードされ、米国マイクロソフト社によって供給されるＷｉｎｄｏｗｓ（登録商標）、Ｌｉｎｕｘ（登録商標）、アンドロイド等のようなオペレーティングシステム上で実行されることによってコンピュータシステム上で動作する１つまたは複数のコンピュータアプリケーションプログラムによって実行することができる。コンピュータシステムは、メインメモリ、好ましくはランダムアクセスメモリ（ＲＡＭ）を含むことができ、また、非一時的ハードディスクドライブおよび／またはリムーバブル非一時メモリ、および／または非一時的ソリッドステートメモリを含むことができる。非一時的リムーバブルメモリは、コンパクトディスクなどの光ディスク（ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭ）、磁気テープであってもよく、これは適切な読み取り装置によって読み取られ、それによって書き込まれる。取り外し可能な非一時的メモリは、コンピュータソフトウェアおよび／またはデータを記憶されているコンピュータ可読媒体であってもよい。

不揮発性記憶メモリは、コンピュータシステムの電源が切られても失われてはならない永続的な情報を記憶するために使用することができる。アプリケーションプログラムは、不揮発性メモリ内の情報を使用して記憶することができる。他のアプリケーションをメモリにロードし、コンピューティングシステム上で実行することができる。コンピュータシステムはまた、２次元グリッドデータを畳み込みニューラルネットワークへの入力として受け取るためのインターフェースを含むことができる。インターフェースは、ローカルソースから、例えば、キーボードによる入力によって、または、周辺メモリ装置から、例えば、コンパクトディスクのような光ディスク（ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭ）から、または適切な読み取り装置によって読み取られ、それによって書き込まれる磁気テープから、または、フラッシュドライブのようなソリッドステートメモリから、またはセンサから直接的にデータを受信するためのものであってもよい。コンピュータシステムは、本明細書で開示される１つまたは複数の実施形態を実行することができる。さらに、本明細書で説明される実施形態および機能は、分散システム（例えば、クラウドベースのコンピューティングシステム）にわたって動作することができ、ここで、アプリケーション機能、メモリ、データ記憶および取り出しならびに様々な処理機能が、インターネットまたはイントラネットなどの分散コンピューティングネットワークを介して互いに遠隔操作され得る。したがって、２Ｄグリッドデータは、データ伝送ネットワークを介して遠隔で得ることができる。したがって、コンピュータシステムは、通信インターフェースを含むことができる。通信インターフェースは、コンピュータシステムと、ネットワークまたは「クラウド」を含む外部装置との間でソフトウェアおよびデータを転送することを可能にする。通信インターフェースの例としては、モデム、Ｅｔｈｅｒｎｅｔ（登録商標）カードなどのネットワークインターフェース、通信ポート、またはＰＣＭＣＩＡスロットおよびカードなどが挙げられ得る。通信インターフェースを介して転送されるソフトウェアおよびデータは、例えば、通信インターフェースによって受信可能な電子、電磁気、光学、または他の信号であってもよい信号の形態である。これらの信号は、ローカルまたはリモートの通信チャネルを介して通信インターフェースに供給される。この通信チャネルは、信号を搬送し、ワイヤまたはケーブル、光ファイバ、電話回線、携帯電話リンク、ＲＦリンク、および／または他の通信チャネルを使用して実装することができる。

非一時的信号記憶装置は、少なくとも１つのプロセッサによって実行されると、本発明の方法のうちのいずれかを実行するコンピュータ実行可能命令を格納することができる。コンピュータプログラム製品（コンピュータ制御論理とも呼ばれる）は、メインメモリおよび／または二次メモリに格納することができる。コンピュータプログラム製品は、通信インターフェースを介して受信することもできる。そのようなコンピュータプログラム製品は、実行されると、本明細書で説明する本発明の特徴をコンピュータシステムが実行することを可能にする。したがって、そのようなコンピュータプログラムは、コンピュータシステムの制御装置を表す。

コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの１つまたは複数の装置にロードされ、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどのような１つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。

需要応答システムにおいてクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御すること。

強化学習（ＲＬ）の形態の制御技法を用いて次の制御ステップ中に制約付きクラスタ要素に分配されるべき物理生産物の量を決定すること。結果、制御技法が、制御されるべき需要応答システムとの相互作用から学習する。

畳み込みニューラルネットワークに、１つまたは複数の２Ｄグリッド構造に集約される、需要応答システムの少なくとも１つのクラスタの履歴観測値または履歴観測値の派生物を入力することを可能にすること。２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、クラスタ状態は、各時間ステップについて少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、畳み込みニューラルネットワークは、２Ｄ畳み込みを実行し、ローカル時間と２Ｄグリッド構造内のクラスタ要素の集約ローカル状態変動との組み合わせからローカル畳み込み特徴を抽出することを学習する。

畳み込みニューラルネットワークから第１のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力すること。第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する。

制御行動を決定または計算すること。制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される。および、
制御行動に従って次の制御ステップ中にクラスタ要素によって消費または解放されるべき物理生産物の目標量を分配すること。

コンピュータシステムは、上述したような通信インターフェースとすることができる適切な出力インターフェースを設けられる。

コンピュータプログラム製品内に具現化されたソフトウェアは、ソフトウェアがそれぞれの１つまたは複数の装置にロードされ、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどの１つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。

第１のニューラルネットワークを、好ましくは完全結合ニューラルネットワークとして提供すること、および／または、
制御技法を、モデルなし制御技法として提供すること。

状態−行動価値関数を、Ｑ関数（Ｑ（ｘ，ｕ））として実施すること。
コンピュータプログラム製品に組み込まれたソフトウェアは、ソフトウェアがそれぞれの１つまたは複数の装置にロードされ、マイクロプロセッサ、ＡＳＩＣ、ＦＰＧＡなどのような１つまたは複数の処理エンジン上で実行されるとき、以下の機能を実行するように適合される。

第１のニューラルネットワークへの入力として結合された第２のニューラルネットワークに制御行動および外因性状態情報を入力すること。

外因性状態情報および制御行動を、畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージすること。外因性状態情報および制御行動を畳み込みニューラルネットワークの抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、外因性状態情報および制御行動は最初に第２のニューラルネットワークに供給され、この第２のニューラルネットワークは、外因性状態情報および制御行動を、次の隠れ層において抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする。

第２のニューラルネットワークを、好ましくは完全結合ニューラルネットワークとして提供すること、および／または、
隠れ層を、好ましくは完全結合層として提供すること。

畳み込みニューラルネットワークが、最初に２Ｄグリッド構造内のパターンを捕捉すること、および、畳み込みニューラルネットワークならびに第１のニューラルネットワークおよび第２のニューラルネットワークが、集約されたクラスタ状態および外因性データから目標量へのマッピングを学習すること。

固定された時間ステップでのクラスタ状態のすべての観測値を表す１つの次元を有する２Ｄグリッド構造を入力すること。第２の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、２Ｄ特徴抽出動作は、時間および空間にわたって適用され、結果として状態情報および履歴においてローカル構造を識別する時空間特徴が識別される。

複数の時間ステップにわたって発生する状態値の変化を表す特徴を学習すること。
学習された特徴を、第１の完全結合ニューラルネットワークおよび随意選択的に第２の完全結合ニューラルネットワークの上位ネットワーク層に入力すること。

畳み込みネットワークならびに第１のネットワークおよび第２のネットワークを同時に訓練すること。

上記のソフトウェアのいずれも、ネットワークのサーバまたはノードのいずれかの処理エンジン用にコンパイルされたコンピュータプログラム製品として実装されてもよい。コンピュータプログラム製品は、光ディスク（ＣＤ−ＲＯＭまたはＤＶＤ−ＲＯＭ）、デジタル磁気テープ、磁気ディスク、ＵＳＢフラッシュメモリ、ＲＯＭなどのソリッドステートメモリなどの非一時的信号記憶媒体に記憶することができる。

Claims

需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するコンピュータベースの方法であって、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき前記物理生産物の量を決定するステップであって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するステップを含み、前記方法は、
畳み込みニューラルネットワークに、前記需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄ（二次元）グリッド構造に集約された履歴観測値の派生物を入力する、特徴抽出ステップを含み、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、２Ｄ畳み込みを実行し、ローカル時間と、前記２Ｄグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習し、
前記方法は、
第１のニューラルネットワークに、少なくとも抽出されているローカル畳み込み特徴を入力するステップであって、前記第１のニューラルネットワークは、前記少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力する、入力するステップと、
制御行動を決定または計算するステップであって、前記制御行動は、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される、決定または計算するステップと、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するステップとをさらに含む、方法。
前記制御技法がモデルなしである、請求項１に記載の方法。
前記状態−行動価値関数がＱ関数（Ｑ（ｘ，ｕ））である、請求項１または２に記載の方法。
前記生産物が、熱エネルギーまたは電力またはエネルギーである、請求項１〜３のいずれか一項に記載の方法。
前記制御行動および外因性状態情報は、前記第１のニューラルネットワークへの入力として結合された第２のニューラルネットワークに入力される、請求項１〜４のいずれか一項に記載の方法。
外因性状態情報および前記制御行動を、前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージするステップをさらに含む、請求項５に記載の方法。
外因性状態情報および前記制御行動を前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージする前に、別個の特徴抽出が実行され、前記外因性状態情報および前記制御行動が最初に前記第２のニューラルネットワークに供給され、該第２のニューラルネットワークは、前記外因性状態情報および前記制御行動を、次の隠れ層において前記抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする、請求項６に記載の方法。
ネットワーク不均衡値および／または前記外因性状態情報に含まれる、請求項５〜７のいずれか一項に記載の方法。
１つの時間ステムについて決定された前記制御行動が、次の時間ステップの前記外因性情報に含まれる、請求項５〜８のいずれか一項に記載の方法。
レガシ装置をエミュレートするステップをさらに含む、請求項１〜９のいずれか一項に記載の方法。
前記畳み込みニューラルネットワークは、最初に、前記２Ｄグリッド構造におけるパターンを捕捉し、前記畳み込みニューラルネットワークならびに前記第１のニューラルネットワークおよび前記第２のニューラルネットワークは、前記集約されたクラスタ状態および外因性データならびに前記制御行動から前記目標量へのマッピングを学習する、請求項５〜１０のいずれか一項に記載の方法。
前記２Ｄグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す１つの次元を有し、第２の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、前記２Ｄ特徴抽出動作は、時間および空間にわたって適用され、結果として前記状態情報および前記履歴においてローカル構造を識別する時空間特徴が識別される、請求項１〜１１のいずれか一項に記載の方法。
複数の時間ステップにわたって生じる状態値の変化を表す特徴が学習される、請求項１２に記載の方法。
前記学習された特徴は、少なくとも前記第１のニューラルネットワークのより上位のネットワーク層によって入力として使用される、請求項１３に記載の方法。
前記畳み込みネットワークならびに前記第１のニューラルネットワークおよび前記第２のニューラルネットワークはともに訓練される、請求項５〜１４のいずれか一項に記載の方法。
需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するためのコンピュータベースのネットワークアーキテクチャであって、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき物理生産物の量を決定するための手段であって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するための手段と、
特徴を抽出するための手段であって、
前記需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄグリッド構造に集約された前記履歴観測値の派生物を入力するように適合されている、畳み込みニューラルネットワークへの入力であり、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、２Ｄ畳み込みを実行するように適合されており、ローカル時間と、前記２Ｄグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習する、入力と、
前記畳み込みニューラルネットワークから第１のニューラルネットワークへの、少なくとも抽出されているローカル畳み込み特徴の入力であって、
前記第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されているローカル畳み込み特徴の入力とを備える、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するための手段とを備える、コンピュータベースのネットワークアーキテクチャ。
前記制御技法がモデルフリーである、請求項１６に記載のコンピュータベースのネットワークアーキテクチャ。
前記状態−行動価値関数がＱ関数（Ｑ（ｘ，ｕ））である、請求項１６または１７に記載のコンピュータベースのネットワークアーキテクチャ。
前記生産物が、熱エネルギーまたは電力またはエネルギーである、請求項１６〜１８のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
前記第１のニューラルネットワークへの入力として結合された第２のニューラルネットワークが提供され、前記第２のニューラルネットワークは、前記制御行動および外因性状態情報を入力として受信するように構成されている、請求項１６〜１９のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
外因性状態情報および前記制御行動を、前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージする手段をさらに備える、請求項２０に記載のコンピュータベースのネットワークアーキテクチャ。
前記外因性状態情報および前記制御行動を前記畳み込みニューラルネットワークの前記抽出された畳み込みローカル特徴とマージする前に実行される、別個の特徴抽出のための手段が提供され、前記外因性状態情報および前記制御行動が最初に前記第２のニューラルネットワークに供給され、該第２のニューラルネットワークは、前記外因性状態情報および前記制御行動を、次の隠れ層において前記抽出された畳み込みローカル特徴と組み合わされる学習された内部表現にマッピングする、請求項２１に記載のコンピュータベースのネットワークアーキテクチャ。
ネットワーク不均衡値および／または前記外因性状態情報に含まれる、請求項２０〜２２のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
１つの時間ステムについて決定された前記制御行動が、次の時間ステップの前記外因性情報に含まれる、請求項２０〜２３のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
レガシ装置をエミュレートするようにさらに適合されている、請求項１６〜２４のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
畳み込みニューラルネットワークは、最初に、前記２Ｄグリッド構造におけるパターンを捕捉するように適合されており、前記畳み込みニューラルネットワークならびに前記第１のニューラルネットワークおよび前記第２のニューラルネットワークは、前記集約されたクラスタ状態ならびに外因性データおよび前記制御行動から前記目標量へのマッピングを学習するように適合されている、請求項２０〜２５のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
前記２Ｄグリッド構造は、固定された時間ステップでのクラスタ状態のすべての観測値を表す１つの次元を有し、第２の次元は、すべての時間ステップにおけるクラスタ要素の複数の状態変数の各々の値の時間変化に対応し、前記２Ｄ特徴抽出動作は、時間および空間にわたって適用され、結果として前記状態情報および前記履歴においてローカル構造を識別する時空間特徴が識別される、請求項１６〜２６のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
複数の時間ステップにわたって生じる状態値の変化を表す特徴が学習される、請求項２７に記載のコンピュータベースのネットワークアーキテクチャ。
前記学習された特徴は、少なくとも前記第１のニューラルネットワークのより上位のネットワーク層によって入力として使用される、請求項２８に記載のコンピュータベースのネットワークアーキテクチャ。
前記畳み込みネットワークならびに前記第１のニューラルネットワークおよび前記第２のニューラルネットワークはともに訓練される、請求項２０〜２９のいずれか一項に記載のコンピュータベースのネットワークアーキテクチャ。
需要応答システム内のクラスタにグループ化された制約付きクラスタ要素に分配されるべき物理生産物の需要を制御するための制御装置であって、
強化学習（ＲＬ）の形態の制御技法を使用して次の制御ステップ中に前記制約付きクラスタ要素に分配されるべき前記物理生産物の量を決定するための手段であって、結果、前記制御技法が、制御されるべき前記需要応答システムとの相互作用から学習する、決定するための手段と、
特徴を抽出するための手段であって、
前記需要応答システムの少なくとも１つのクラスタの履歴観測値、または、１つもしくは複数の２Ｄグリッド構造に集約された前記履歴観測値の派生物を入力するように適合されている、畳み込みニューラルネットワークへの入力であり、２Ｄグリッド構造の１つの次元は複数の時間ステップを表し、他方の次元は前記複数の時間ステップにおけるクラスタ状態を捕捉し、前記クラスタ状態は、各時間ステップについて前記少なくとも１つのクラスタ内のクラスタ要素のローカル状態を集約することによって表され、前記畳み込みニューラルネットワークは、２Ｄ畳み込みを実行するように適合されており、ローカル時間と、前記２Ｄグリッド構造における前記クラスタ要素の集約されたローカル状態変化との組み合わせから、ローカル畳み込み特徴を抽出することを学習する、入力と、
前記畳み込みニューラルネットワークから第１のニューラルネットワークへの、少なくとも抽出されているローカル畳み込み特徴の入力であって、
前記第１のニューラルネットワークは、少なくとも１つのクラスタがある状態にあることと、ある行動をとることとの各組み合わせに関連する前記少なくとも１つのクラスタの値を提供する状態−行動価値関数の少なくとも近似値を出力するように適合されているローカル畳み込み特徴の入力とを備える、特徴を抽出するための手段と、
ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせであるか、または、ある行動をとることと、クラスタがある状態にあることとの好ましい組み合わせから導出される制御行動を決定または計算するための手段と、
前記制御行動に従って次の制御ステップ中に前記クラスタ要素によって消費または解放されるべき前記物理生産物の目標量を分配するための手段とを備える、制御装置。
処理エンジン上で実行されると、請求項１〜１５のいずれか一項に記載の方法のいずれかを実行するように適合されているコードを備えるコンピュータプログラム製品。
非一時的機械可読信号記憶手段上に記憶されている、請求項３１に記載のコンピュータプログラム製品。