JP2020529664A

JP2020529664A - 組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム

Info

Publication number: JP2020529664A
Application number: JP2020504732A
Authority: JP
Inventors: ウィマーウィー; 江藤　力; 力江藤; 義男亀田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2020-10-08
Anticipated expiration: 2037-09-22
Also published as: JP7060080B2; US20200249637A1; WO2019058508A1

Abstract

組み合わせ制御システム８０は、異なる種類のプラント制御を組み合わせる。複数のサブコントローラ８１は、予測器による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する。結合器またはスイッチ８２は、サブコントローラ８１のそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える。サブコントローラ８１は、少なくとも２種類のサブコントローラを含む。第１の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラである。第２の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである。

Description

本発明は、意思決定ポリシーを生成するために、制御理論手法と機械学習技術を組み合わせたデータ駆動型コントローラを創出する組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラムに関する。

制御システムの目標は、困難なタスクを完遂するために必要とされる計画を実行するために必要な、最適なアクションを見つけることである。アクションがどのように生成または計算されるかは、システムの中核にある学習、計画、または制御方法の設計および構造に大きく依存する。

多くの高度な産業システムにおいて、モデルベースの制御技術は、例えば、特許文献１に記載されているように、明確で客観的基準と既知のシステムの動特性に基づいて、最適な制御アクションを生成するためのよく知られた信頼できるアプローチを含む。モデルベースの制御設計はますます洗練されており、このアプローチに基づくコントローラは、システムに関するより良い情報が設計に統合されると、複雑なアクションを実行できる。さらに、モデルベースの制御は理論的に根拠がある。多くの場合、それらの制御特性は確立されており、よく知られた手法を使用して分析できる。具体的には、モデル予測制御（ＭＰＣ：model predictive control）は、多くの高度な大規模制御システムで信頼できるツールとして登場し、モデルおよび目的関数に関する一定の仮定の下で、安定性や実行可能性などの特性を保証できる。

一方、機械学習、特にディープラーニングによるアプローチは、大量の異なる種類のデータを利用できるため、制御入力を生成するツールとして最近人気が高まっている。ディープニューラルネットワークは、非特許文献１に記載された自動運転車など、複雑な人間レベルのタスクを適切に実行するために使用されている。ディープラーニングベースのアプローチの人気は、システムに関する専門知識を必要としないという柔軟性に起因しており、また、ディープラーニングは、エキスパートの非線形の動作を非常にうまく捉えられるため、様々な場合に適用できる。

特許文献２には、コントローラによる動作を制御するシステムが記載されている。特許文献２に記載されたシステムは、独立に並行して動作する一群の制御モジュールを含む。制御モジュールグループは、制御原理としてＰＩＤ（Proportional-Integral-Differential）を採用するＰＩＤコントローラ、ニューラルネットワークに基づいてモデルベースの適応制御を実行するＭＲＡＣ（Model Reference Adaptive Control）コントローラ、および、制御原理としてＬＱＧ（Linear-Quadratic-Gaussian ）を採用するＬＱＧコントローラを含む。さらに、上記システムは、予測結果が目標値に最も近い制御変数を選択して出力する。

米国特許出願公開第２０１６／００９１８９７号明細書特開平１０−３３０１号公報

End to End Learning for Self-Driving Cars, Bojarski et al., 2016.

計算を行うハードウェアのパフォーマンスが良くなり、より簡単に利用できるようになるにつれて、制御を行うための少なくとも２つのアプローチを同時にまたは並行して実装するのに必要なより激しい計算が実行可能になる。

モデルベースの制御アプローチでは、複雑な目的関数を明示的に表現するのが困難な場合や、目的関数が非常に複雑な表現になる場合があるため、制御アクションの計算に含めるのは困難である。例えば、多くの産業用途では、より複雑な動作や目的が検討されているため、計算に多くのコストがかかることが欠点として考えられる。これは、多くの困難な目的に伴う非線形性によるものである。同時に、自動運転の文脈における快適さなどのいくつかの定性的概念について、目的関数の定式化は、一般に複雑になる可能性がある。

一方、ディープラーニングベースのアプローチでは、エキスパートモデルは必要ないが、学習には高いコストがかかり、結果として生成されるモデルは解釈性が低い。そのため、特に複雑な状況で制御アクションの信頼性を確認することは困難である。具体的には、学習は非常に複雑で時間がかかり、また、結果として生成されるモデルは、直接解釈することができない。自動運転などの安全性が重要なタスクでは、そのような学習ベースのコントローラが常に期待どおりに動作するかどうかを理解および検証できることが重要である。

各制御方法の設計の基礎となる原則は、大きく異なる可能性があり、互いに矛盾する場合がある。ただし、想定されるように、設計における基本的な違いにより、それぞれに明確な利点がある。したがって、各アプローチの利点を活用でき、各コンポーネントの動作を模倣または複製する方法でアクションを計算でき、同時に制御ポリシーを生成するまったく異なる方法を提供できる方法でコントローラを設計できることが好ましい。

つまり、各種類に固有の制限に対処し、より一般的な種類の制御を提供するため、より信頼性の高いフレームワークで上記のアプローチを融合できると同時に、より多くの学習データを使用して多くの非線形の目的関数を捉えることで着実に改善できることが望ましい。ただし、特許文献２には、複数のアプローチを融合することについては記載されていない。

本発明の主題は、上述する一つまたは複数の問題を解決する、または、少なくともその効果を低減するために、上記の特徴を実現することにある。すなわち、本発明は、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができる組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラムを提供することを目的とする。

本発明による組み合わせ制御システムは、異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、予測器による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する複数のサブコントローラと、サブコントローラのそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチとを備え、複数のサブコントローラが、少なくとも２種類のサブコントローラを含み、第１の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラであり、第２の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラであることを特徴とする。

本発明による組み合わせ制御方法は、異なる種類のプラント制御を組み合わせた組み合わせ制御方法であって、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力し、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力し、出力されるアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替えることを特徴とする。

本発明による組み合わせ制御プログラムは、異なる種類のプラント制御を組み合わせるコンピュータに適用される組み合わせ制御プログラムであって、コンピュータに、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化処理、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測処理、および、出力されるアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションの、結合または切り替える処理を実行させることを特徴とする。

本発明によれば、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができる。

本発明による組み合わせ制御システムの第一の実施形態の構成例を示すブロック図である。本発明による組み合わせ制御システムの第一の実施形態の構成例を示す説明図である。組み合わせ制御システムの動作例を示すフローチャートである。本発明による組み合わせ制御システムの第二の実施形態の構成例を示すブロック図である。本発明による組み合わせ制御システムの第二の実施形態の構成例を示す説明図である。本発明による組み合わせ制御システムの概要を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。本発明は、各種の制御の利点を活用する、より効果的で一般化された制御のためのコントローラの組み合わせを作成する方法およびシステムに関する。本開示の主題の好ましい実施形態および代替の実施形態、並びに他の態様は、具体的な実施形態の詳細な説明および添付の図面を参照することで、理解され得る。

コントローラの組み合わせを作成するための方法およびシステムについて、本開示の実施形態に関する以下の議論は、事実上単なる例示であり、開示またはその適用または使用を限定することを意図するものではない。

実施形態１．
図１は、本発明による組み合わせ制御システムの第一の実施形態の構成例を示すブロック図である。図２は、本発明による組み合わせ制御システムの第一の実施形態の構成例を示す説明図である。本実施形態の組み合わせ制御システムは、プラント制御のための異なる制御アプローチを組み合わせる。

本実施形態の組み合わせ制御システム１００は、予測器１０１と、サブコントローラ１２０と、分類器または結合器（以下、分類器／結合器）１０５を含む。本実施形態では、分類器／結合器１０５は、プラント１０６を作動させるための制御アクションを送信する。プラント１０６は、プラントの出力１１０を予測器１０１に送信する。プラントの出力１１０は、プラント１０６のセンサ（図示せず）によって取得される。プラント１０６は、プラントの出力１１０の一部として外乱を取得してもよい。

サブコントローラ１２０は、任意の数のサブコントローラを含んでいてもよく、それは、任意の種類であってもよい。本実施形態では、３つの種類のサブコントローラ、すなわち、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、および、代替サブコントローラ１０４を想定する。サブコントローラ１２０は、これらすべての種類のサブコントローラを含んでいてもよく、一部の種類のサブコントローラを含んでいてもよい。以下の説明では、各サブコントローラに共通の機能または品質を説明する場合、単に「サブコントローラ」と記す。

予測器１０１は、各サブコントローラに関連付けられ、プラント１０６からの出力１１０または観測値が与えられると、予測器１０１は、サブコントローラに送信される予測を計算する。図２に示す例では、予測器１０１は、３つの予測器（予測器１１１、予測器１１２、および予測器１１３）を含む。出力１１０または観測値は、例えば、プラント１０６の状態、またはセンサによって取得される環境に関連する変数であってもよい。

予測器１０１は、カーネル法またはディープニューラルネットワークなどの任意の機械学習技術を使用することができ、各予測器１０１は、各種のサブコントローラが必要とする状態予測を計算する。予測器１０１は、サブコントローラで使用されるアルゴリズムの必要性に応じた分類器や検出器であってもよい。

各サブコントローラの出力は、特定のタスクで必要な制御アクション、つまり、アクチュエータ、またはアクチュエータに隣接する可能性がある固定的な下位のコントローラ（存在する場合）に必要な制御信号である。たとえば、自動運転の場合、各サブコントローラは、計算された「最適な」ステアリング角度と加速度、たとえば（０．７８５ｒａｄ、２．５ｍ／ｓｅｃ＾２）を出力する。

サブコントローラの場合、学習ベースおよびモデル予測制御ベースのコントローラなど、さまざまな種類の存在が理想的であるが、必須ではない。たとえば、サブコントローラは、学習ベースのコントローラを含まずに、異なるモデル予測サブコントローラを含んでいてもよく、また、その逆であってもよい。
想定される各サブコントローラの内容は、以下で説明される。

学習サブコントローラ１０２は、オープンソースまたは独自のデータを使用して学習されるため、さまざまなプラントオペレータのプロファイルを捉えることができる。学習サブコントローラ１０２は、深層強化学習または他の機械学習モデルに基づいていてもよい。学習サブコントローラ１０２内のモデルは、プラントまたは同様のプラントのネットワークからさらにデータが収集されるとすぐに更新され得る。サブコントローラ１２０は、複数の学習サブコントローラ１０２を含んでいてもよい。

一例として、自動運転の場合、学習サブコントローラ１０２は、ディープニューラルネットワークであってもよく、いくつかの学習サブコントローラ１０２は、オープンソースデータ、自動車メーカーの企業秘密の一部であるデータ、および、同じ建造物またはモデルを有する自動車のオープンネットワークまたは独自のネットワークから収集されたデータを使用して構築されていてもよい。車の特定の運転者に焦点を当てた別個の学習サブコントローラ１０２が学習されてもよい。このようにして、学習サブコントローラ１０２は、予測機械学習モデルに基づいて予測を行う。上述する内容から、学習サブコントローラ１０２は、予測型のサブコントローラであると言うことができる。

システムには多くの学習サブコントローラ１０２が存在し、それぞれが異なる機械学習技術を使用して学習されている可能性、異なる予測モデルに基づく可能性、および、異なるデータセットを使用して学習されている可能性がある。例えば、２つの学習サブコントローラ１０２が、両方ともディープニューラルネットワークなどの同じモデルであっても、異なる学習データを使用して学習または調整されている場合が挙げられる。一方で、単一の学習データセットを使用して、あるサブコントローラは決定木として学習され、あるサブコントローラはニューラルネットワークとして学習されている場合もある。

モデル予測サブコントローラ１０３は、状態予測にプラントモデルを使用し、異なる基準またはパフォーマンス指標に関連する項を含む目的関数を伴う。そして、目的関数は、モデル予測サブコントローラ１０３において、パフォーマンス指標の意味で最適な制御アクションを計算するために最適化される。上述する内容から、モデル予測サブコントローラ１０３は、最適化ベースのサブコントローラであると言える。

具体的には、モデル予測サブコントローラ１０３は、制御アクションを計算するために最小化されるコスト関数である目的関数を最適化する。すなわち、最適化される目的関数は、モデル予測サブコントローラ１０３で制御アクションを計算するために最小化されるコスト関数を示す。目的関数は、例えば、ターゲット状態との距離や入力の変化など、さまざまなパフォーマンス測定値を表わす項の加重合計であってもよい。自動運転の例では、これは、目標位置までの距離、加速およびステアリングの変化、快適性、またはエネルギー消費に関する項の合計である。

代替サブコントローラ１０４は、機械学習または制御理論からの任意の種類のモデルフリーまたはモデルベースの技術であってもよい。代替サブコントローラ１０４では、計画アルゴリズムと制御方法の組み合わせが考慮されてもよい。

デフォルトでは、組み合わせ制御システム１００は、少なくとも２種類のサブコントローラを有しているとみなされ、少なくとも１つのサブコントローラが毎回アクティブである必要があり、その他は、非アクティブであってもよい。どのサブコントローラがアクティブであるかまたは非アクティブであるかは、タスクおよび組み合わせ方法の選択の結果に依存する。さらに、各種のサブコントローラが、２つ以上のサブコントローラ（例えば、２つのアクティブな学習サブコントローラ１０２および２つのアクティブなモデル予測サブコントローラ１０３）を有していてもよい。

サブコントローラは、予測器１０１から予測と観測値を受け取り、各システムの基礎となる方法または手順に応じて制御アクションを計算する。計算されたすべての制御アクションは、処理を行うため、分類器／結合器１０５に収集される。

次に、分類器／結合器１０５は、機械学習技術、具体的にはアンサンブル法を使用して、サブコントローラによって出力された制御アクションに基づいて、最良の制御アクションを決定する。言い換えると、分類器／結合器１０５は、サブコントローラの適切なサブセットを選択することにより、最終的なゴールとして最良の制御アクションを決定する。分類器／結合器１０５は、複数のサブコントローラのうちの、（全てではない）いくつかのサブコントローラに接続される。一例として、分類器／結合器１０５は、バギング（Ｂａｇｇｉｎｇ）またはブースティング（Ｂｏｏｓｔｉｎｇ）技術を使用でき、組み合わせ技術の種類は、学習段階の各サブコントローラのパフォーマンスに応じて、段階的に選択および構築されてもよい。

分類器／結合器１０５は、周囲の物体までの距離、快適性レベル、安全性およびエネルギー消費などのサブコントローラによって返される入力されたアクションが評価される特定のパフォーマンス尺度の値を比較し、上記のパフォーマンス測定値の加重合計を最小化するアクションを選択することにより、作動する最適な制御アクションを決定してもよい。

また、機械学習のアンサンブル法と同様に、シナリオおよび制御アクションの性質に応じて、分類器／結合器１０５は、カテゴリ別アクションの場合には投票によって、数値アクションの場合には平均化によって、サブコントローラの出力から最適な制御アクションを決定してもよい。そのようなアプローチから結果として生じる新しいアクションの品質は、上記のパフォーマンス測定を使用して評価することもでき、必要に応じてサブコントローラの個々の出力と比較できる。

さらに、分類器／結合器１０５は、それぞれによって得られた制御アクションが実現されたと仮定して、異なる種類の制御シナリオ（運転操作など）で各サブコントローラのパフォーマンスの履歴を維持してもよい。これにより、特定のサブコントローラからの入力アクションの使用に関する信頼レベルを確立でき、削除または再学習される可能性のあるパフォーマンスの低いサブコントローラの識別に役立つ。

上述のように、分類器／結合器１０５は、異なる制御入力を結合でき（例えば、上述のように平均化することにより）、異なるサブコントローラ間の制御アクションを選択することを考慮できる（例えば、投票または信頼レベルを使用することにより）。したがって、分類器／結合器１０５は、「結合器またはスイッチ」と呼ぶことができる。
次いで、分類器／結合器１０５は、プラント１０６で作動される最終的な制御アクションを出力する。

予測器１０１と、サブコントローラ１２０（より具体的には、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、代替サブコントローラ１０４）と、分類器／結合器１０５とは、プログラム（組み合わせ制御プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、予測器１０１、サブコントローラ１２０（より具体的には、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、および、代替サブコントローラ１０４）、および、分類器／結合器１０５として動作してもよい。

本実施形態の組み合わせ制御システムにおいて、予測器１０１、サブコントローラ１２０（より具体的には、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、および、代替サブコントローラ１０４）、および、分類器／結合器１０５は、それぞれ専用のハードウェアによって実現されてもよい。さらに、本発明による組み合わせ制御システムが、有線または無線で接続された２つ以上の物理的に別個のデバイスで構成されてもよい。

以下、本実施形態の組み合わせ制御システムの一例を説明する。図３は、本実施形態における組み合わせ制御システムの動作例を示すフローチャートである。説明のため、制御変数が前輪のステアリング角度および縦角速度である半自動運転または完全自動運転のシナリオを想定する。

最初に、ステップＳ１０１において、予測器１０１およびサブコントローラは、位置、速度、および他の観測値などの状態を示す測定値をプラント１０６（例えば、車両）から受信する。例えば、目的地、運転プロファイル、快適レベルなどの基準信号も、必要に応じてサブコントローラに送信される。オペレータが、プラントのユーザインターフェイスを使用して、好みを入力してもよい。

ステップＳ１０２において、予測器１０１は、交通関係者の行動の予測など、サブコントローラが必要とする必要な出力予測を計算して送信する。つまり、該当する場合、各サブコントローラは、予測器１０１から値を受け付ける。

ステップＳ１０３において、サブコントローラは、各種のサブコントローラの目的を満足すると思われるエキスパートまたは最適な制御アクション（すなわち、ステアリングおよび加速）の予測または計算を行う。サブコントローラは、そのあと、制御アクションを分類器／結合器１０５に送信する。

ステップＳ１０４において、分類器／結合器１０５は、アンサンブル法を使用して、予測または制御パフォーマンスを最大化可能な制御アクションを結合する、または、分類器／結合器１０５は、サブコントローラのパフォーマンスの履歴、例えば、障害物への近さ、燃料消費、乗客への影響などに基づいて、適切な最終的な制御アクションを選択するために重みを使用する。

ステップＳ１０５において、分類器／結合器１０５は、作動させるための最終的なステアリングおよび加速の制御アクションをプラント１０６に送信する。プラント１０６は、分類器／結合器１０５から最終的な入力を受け取り、それを作動させる。

以上のように、本実施形態では、各サブコントローラが、予測器１０１による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する。そして、分類器／結合器１０５は、サブコントローラのそれぞれが出力するアクションに基づいて、最良の制御アクションとして、予測または制御パフォーマンスを最大化するためにアクションを、結合または切り替える。さらに、サブコントローラは、少なくとも２つの種類のサブコントローラとして、モデル予測サブコントローラ１０３および学習サブコントローラ１０２（以下、第１の種類のサブコントローラおよび第２の種類のサブコントローラと記す。）を含む。第１の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御アクションを出力する最適化ベースのサブコントローラである。第２の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型サブコントローラである。

そのような構成により、異なる種類の制御アプローチの明確な利点、たとえば、モデルベースまたはモデルフリーの制御理論と機械学習ベースのコントローラを最適に組み合わせて、それぞれの制限を回避しながら、単一の種類のコントローラでは使用できないより豊かな制御ポリシーのセットを提供できる。すなわち、本発明によれば、サブコントローラの組み合わせに基づく最大パフォーマンスを備えた制御入力を計算することができ、より豊かで多様な制御戦略を実現し、プラントに適用することができる。

言い換えると、異なる種類のコントローラの組み合わせから計算された制御入力は、各コンポーネントのコントローラの利点を継承できる。具体的には、このフレームワークは、複雑な人間レベルのタスクを実現し、ある程度の解釈可能性を維持し、ある程度の安全性および信頼性の保証に近づくことができるような柔軟性を備えている。

より明確に説明するために、自動運転の場合を考える。この場合、モデル予測サブコントローラ１０３は、さまざまな自動運転タスクに使用される。複雑な操作では、制約または動作を定量化するのが困難であったり、高度に非線形であったりするため、実際の場面では使用が躊躇される。

このような高度に非線形な動作は、データ駆動型のアプローチを使用することで簡単に捉えられる可能性がある。しかし、ディープラーニングに基づく現在の方法では解釈が難しく、信頼性の保証がほとんどない。

提案する解決策は、自動車メーカーからのすべての既知の公開情報および個人情報を使用することにより、さまざまな種類のタスクに適したさまざまな種類のコントローラを構築することである。制御された車および他の車から収集されたデータは、学習ベースおよびモデルベースのコントローラの学習および更新にも使用可能である。

次いで、分類器／結合器１０５は、障害物回避、燃料消費、および快適性レベルなどの異なるパフォーマンス基準に基づいてサブコントローラの予測および／または制御パフォーマンスを最大化するように選択され得る。最終的な制御アクションは、アンサンブル法を使用するか、過去のパフォーマンスに関連する相対的な重要性に基づいた重みを使用して取得され得る。

より具体的には、一部のサブコントローラは、基本的には、予測アルゴリズムに基づいて実現され、それは制御の文脈において扱うことができる。本発明の１つの例示的な特徴は、組み合わせ制御システム１００が予測アルゴリズムを制御技術として、また、その逆を、交互に扱うことができる。それにより、各種の出力を処理するための制御理論的アプローチと学習アプローチの両方を適用できる。本発明の１つの例示的な利点は、原理的な制御理論的アプローチでは分析または解釈することが困難な可能性のある１つまたはいくつかのデータ駆動技術を統合できることであり、実際の産業システムに望ましい制御特性を保証し得る。

実施形態２．
次に、本発明の組み合わせ制御システムの第二の実施形態を説明する。図４は、本発明による第二の実施形態の組み合わせ制御システムの構成例を示すブロック図である。図５は、本発明による第二の実施形態の組み合わせ制御システムの構成例を示す説明図である。

本実施形態の組み合わせ制御システム３００は、予測器１０１と、サブコントローラ１２０（例えば、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、および／または、代替サブコントローラ１０４）と、分類器／結合器１０５と、メインコントローラ１０８とを含む。すなわち、第一の実施形態の組み合わせ制御システムに加え、本実施形態の組み合わせ制御システムは、メインコントローラ１０８をさらに含む。その他の構成は、第一の実施形態と同様である。

メインコントローラ１０８は、プラントの動特性および制約に基づく追加的な保証のため、組み合わせ制御システム１００の一部と見なされる。分類器／結合器１０５によって計算された制御アクションは、モデルベースの予測コントローラであり得るメインコントローラ１０８への入力として使用され得る。モデル予測サブコントローラ１０３をサブコントローラとして使用する場合と比較し、モデル予測サブコントローラをメインコントローラ１０８として使用する主な違いは、最終的な制御アクションがすべての制約を満たすと同時に、分類器／結合器１０５の出力の近づけるようにすることである。なお、計算のため、分類器／結合器１０５からの制御アクションが使用される入力追跡項のみ考慮することが可能である。そして、メインコントローラ１０８は、分類器／結合器１０５の出力からの最小距離を有する制御入力を使用することにより、プラント１０６を制御する。

具体的には、メインコントローラ１０８に送信される分類器／結合器１０５の出力は、タスクを実行するためにアクチュエータが必要とする制御アクション、例えば、自動運転におけるステアリング角度と加速度である。メインコントローラ１０８は、プラントの動特性および制約に関して最適化することにより作動する最終的な制御アクションを計算する。自動運転の例では、メインコントローラ１０８は、車両の動特性と制約にしたがって、分類器／結合器１０５から送信された値に最も近いステアリング角度と加速度を見つけるための最適化問題を解決するモデル予測サブコントローラであってもよい。メインコントローラ１０８によって計算された（ステアリングおよび加速）値は、プラント１０６で作動する実際の制御アクションである。

以上の構成により、プラント１０６の動特性と制約を満たしながら、より豊かで多様なセットを取得して、そこからエキスパート制御ポリシーを取得できる。

次に、本発明の概要を説明する。図６は、本発明による組み合わせ制御システムの概要を示すブロック図である。本発明の組み合わせ制御システム８０（例えば、組み合わせ制御システム１００）は、異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、予測器（例えば。予測器１０１）による予測結果に基づいて、プラント制御のためのアクション（例えば、制御アクション、予測アクション）をそれぞれ出力する複数のサブコントローラ８１（例えば、学習サブコントローラ１０２、モデル予測サブコントローラ１０３、代替サブコントローラ１０４）と、サブコントローラ８１のそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチ８２（例えば、分類器／結合器１０５）とを備えており、複数のサブコントローラ８１は、少なくとも２種類のサブコントローラを含み、第１の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラ（例えば、モデル予測サブコントローラ１０３）であり、第２の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである。

そのような構成により、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができ、非常に複雑なタスクの実現、あるレベルの解釈可能性の維持、および、望ましい制御理論的特性など、さまざまな種類の制御アプローチの利点を継承できる。

また、複数の第１の種類のサブコントローラにおいて、目的関数はそれぞれ異なっていてもよい。

また、第１の種類のサブコントローラは、１つ以上の状態および制御の制約を使用して目的関数を最適化してもよく、少なくとも２つの第２の種類のサブコントローラは、異なる機械学習モデルに基づいてアクションを予測してもよい。

また、結合器またはスイッチ８２は、一連の制御アクションおよび各サブコントローラ８１によって出力される予測されたアクションにより作動する最適な制御アクションを計算してもよい。

また、組み合わせ制御システム８０は、プラントの動特性および制約を使用することにより、一連の制御アクションおよび各サブコントローラ８１によって出力される予測されたアクションにより作動する最適な制御アクションを計算するメインコントローラ（例えば、メインコントローラ１０８）をさらに備えていてもよい。

具体的には、結合器またはスイッチ８２は、最適な制御アクションを計算し、メインコントローラは、プラントの動特性および制約を使用することにより、作動する最終的な最適アクションを計算してもよい。

好ましい実施形態および代替の実施形態に関する上記説明は、開示する発明の概念の範囲または適用可能性を限定または制限することを意図するものではない。当業者であれば、特許請求の範囲に記載された本開示の精神および範囲から逸脱することなく、そのような検討および添付の図面および特許請求の範囲から様々な変更、修正および変形が可能であることが容易に認識される。

１００，３００組み合わせ制御システム
１０１予測器
１０２学習サブコントローラ
１０３モデル予測サブコントローラ
１０４代替サブコントローラ
１０５分類器／結合器
１０６プラント
１０８メインコントローラ
１１０出力
１１１，１１２，１１３予測器
１２０サブコントローラ

Claims

異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、
予測器による予測結果に基づいて、前記プラント制御のためのアクションをそれぞれ出力する複数のサブコントローラと、
前記サブコントローラのそれぞれが出力する前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチとを備え、
前記複数のサブコントローラは、少なくとも２種類のサブコントローラを含み、
第１の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラであり、
第２の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである
ことを特徴とする組み合わせ制御システム。
複数の第１の種類のサブコントローラにおいて、目的関数はそれぞれ異なる
請求項１記載の組み合わせ制御システム。
第１の種類のサブコントローラは、１つ以上の状態および制御の制約を使用して目的関数を最適化し、
少なくとも２つの第２の種類のサブコントローラは、異なる機械学習モデルに基づいてアクションを予測する
請求項１または請求項２記載の組み合わせ制御システム。
結合器またはスイッチは、一連の制御アクションおよび各サブコントローラによって出力される予測されたアクションにより作動する最適な制御アクションを計算する
請求項１から請求項３のうちのいずれか１項に記載の組み合わせ制御システム。
プラントの動特性および制約を使用することにより、一連の制御アクションおよび各サブコントローラによって出力される予測されたアクションにより作動する最適な制御アクションを計算するメインコントローラをさらに備えた
請求項１から請求項３のうちのいずれか１項に記載の組み合わせ制御システム。
結合器またはスイッチは、最適な制御アクションを計算し、
メインコントローラは、プラントの動特性および制約を使用することにより、作動する最終的な最適アクションを計算する
請求項５記載の組み合わせ制御システム。
異なる種類のプラント制御を組み合わせた組み合わせ制御方法であって、
アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力し、
機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力し、
出力される前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える
ことを特徴とする組み合わせ制御方法。
目的関数はそれぞれ異なる
請求項７記載の組み合わせ制御方法。
異なる種類のプラント制御を組み合わせるコンピュータに適用される組み合わせ制御プログラムであって、
前記コンピュータに、
アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化処理、
機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測処理、および、
出力される前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションの、結合または切り替える処理を実行させる
ための組み合わせ制御プログラム。
目的関数はそれぞれ異なる
請求項９記載の組み合わせ制御プログラム。