JP2020529664A - 組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム - Google Patents

組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム Download PDF

Info

Publication number
JP2020529664A
JP2020529664A JP2020504732A JP2020504732A JP2020529664A JP 2020529664 A JP2020529664 A JP 2020529664A JP 2020504732 A JP2020504732 A JP 2020504732A JP 2020504732 A JP2020504732 A JP 2020504732A JP 2020529664 A JP2020529664 A JP 2020529664A
Authority
JP
Japan
Prior art keywords
action
control
subcontroller
actions
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020504732A
Other languages
English (en)
Other versions
JP7060080B2 (ja
JP2020529664A5 (ja
Inventor
ウィマー ウィー
ウィマー ウィー
江藤 力
力 江藤
義男 亀田
義男 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2020529664A publication Critical patent/JP2020529664A/ja
Publication of JP2020529664A5 publication Critical patent/JP2020529664A5/ja
Application granted granted Critical
Publication of JP7060080B2 publication Critical patent/JP7060080B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/029Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks and expert systems
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Abstract

組み合わせ制御システム80は、異なる種類のプラント制御を組み合わせる。複数のサブコントローラ81は、予測器による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する。結合器またはスイッチ82は、サブコントローラ81のそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える。サブコントローラ81は、少なくとも2種類のサブコントローラを含む。第1の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラである。第2の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである。

Description

本発明は、意思決定ポリシーを生成するために、制御理論手法と機械学習技術を組み合わせたデータ駆動型コントローラを創出する組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラムに関する。
制御システムの目標は、困難なタスクを完遂するために必要とされる計画を実行するために必要な、最適なアクションを見つけることである。アクションがどのように生成または計算されるかは、システムの中核にある学習、計画、または制御方法の設計および構造に大きく依存する。
多くの高度な産業システムにおいて、モデルベースの制御技術は、例えば、特許文献1に記載されているように、明確で客観的基準と既知のシステムの動特性に基づいて、最適な制御アクションを生成するためのよく知られた信頼できるアプローチを含む。モデルベースの制御設計はますます洗練されており、このアプローチに基づくコントローラは、システムに関するより良い情報が設計に統合されると、複雑なアクションを実行できる。さらに、モデルベースの制御は理論的に根拠がある。多くの場合、それらの制御特性は確立されており、よく知られた手法を使用して分析できる。具体的には、モデル予測制御(MPC:model predictive control)は、多くの高度な大規模制御システムで信頼できるツールとして登場し、モデルおよび目的関数に関する一定の仮定の下で、安定性や実行可能性などの特性を保証できる。
一方、機械学習、特にディープラーニングによるアプローチは、大量の異なる種類のデータを利用できるため、制御入力を生成するツールとして最近人気が高まっている。ディープニューラルネットワークは、非特許文献1に記載された自動運転車など、複雑な人間レベルのタスクを適切に実行するために使用されている。ディープラーニングベースのアプローチの人気は、システムに関する専門知識を必要としないという柔軟性に起因しており、また、ディープラーニングは、エキスパートの非線形の動作を非常にうまく捉えられるため、様々な場合に適用できる。
特許文献2には、コントローラによる動作を制御するシステムが記載されている。特許文献2に記載されたシステムは、独立に並行して動作する一群の制御モジュールを含む。制御モジュールグループは、制御原理としてPID(Proportional-Integral-Differential)を採用するPIDコントローラ、ニューラルネットワークに基づいてモデルベースの適応制御を実行するMRAC(Model Reference Adaptive Control)コントローラ、および、制御原理としてLQG(Linear-Quadratic-Gaussian )を採用するLQGコントローラを含む。さらに、上記システムは、予測結果が目標値に最も近い制御変数を選択して出力する。
米国特許出願公開第2016/0091897号明細書 特開平10−3301号公報
End to End Learning for Self-Driving Cars, Bojarski et al., 2016.
計算を行うハードウェアのパフォーマンスが良くなり、より簡単に利用できるようになるにつれて、制御を行うための少なくとも2つのアプローチを同時にまたは並行して実装するのに必要なより激しい計算が実行可能になる。
モデルベースの制御アプローチでは、複雑な目的関数を明示的に表現するのが困難な場合や、目的関数が非常に複雑な表現になる場合があるため、制御アクションの計算に含めるのは困難である。例えば、多くの産業用途では、より複雑な動作や目的が検討されているため、計算に多くのコストがかかることが欠点として考えられる。これは、多くの困難な目的に伴う非線形性によるものである。同時に、自動運転の文脈における快適さなどのいくつかの定性的概念について、目的関数の定式化は、一般に複雑になる可能性がある。
一方、ディープラーニングベースのアプローチでは、エキスパートモデルは必要ないが、学習には高いコストがかかり、結果として生成されるモデルは解釈性が低い。そのため、特に複雑な状況で制御アクションの信頼性を確認することは困難である。具体的には、学習は非常に複雑で時間がかかり、また、結果として生成されるモデルは、直接解釈することができない。自動運転などの安全性が重要なタスクでは、そのような学習ベースのコントローラが常に期待どおりに動作するかどうかを理解および検証できることが重要である。
各制御方法の設計の基礎となる原則は、大きく異なる可能性があり、互いに矛盾する場合がある。ただし、想定されるように、設計における基本的な違いにより、それぞれに明確な利点がある。したがって、各アプローチの利点を活用でき、各コンポーネントの動作を模倣または複製する方法でアクションを計算でき、同時に制御ポリシーを生成するまったく異なる方法を提供できる方法でコントローラを設計できることが好ましい。
つまり、各種類に固有の制限に対処し、より一般的な種類の制御を提供するため、より信頼性の高いフレームワークで上記のアプローチを融合できると同時に、より多くの学習データを使用して多くの非線形の目的関数を捉えることで着実に改善できることが望ましい。ただし、特許文献2には、複数のアプローチを融合することについては記載されていない。
本発明の主題は、上述する一つまたは複数の問題を解決する、または、少なくともその効果を低減するために、上記の特徴を実現することにある。すなわち、本発明は、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができる組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラムを提供することを目的とする。
本発明による組み合わせ制御システムは、異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、予測器による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する複数のサブコントローラと、サブコントローラのそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチとを備え、複数のサブコントローラが、少なくとも2種類のサブコントローラを含み、第1の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラであり、第2の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラであることを特徴とする。
本発明による組み合わせ制御方法は、異なる種類のプラント制御を組み合わせた組み合わせ制御方法であって、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力し、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力し、出力されるアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替えることを特徴とする。
本発明による組み合わせ制御プログラムは、異なる種類のプラント制御を組み合わせるコンピュータに適用される組み合わせ制御プログラムであって、コンピュータに、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化処理、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測処理、および、出力されるアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションの、結合または切り替える処理を実行させることを特徴とする。
本発明によれば、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができる。
本発明による組み合わせ制御システムの第一の実施形態の構成例を示すブロック図である。 本発明による組み合わせ制御システムの第一の実施形態の構成例を示す説明図である。 組み合わせ制御システムの動作例を示すフローチャートである。 本発明による組み合わせ制御システムの第二の実施形態の構成例を示すブロック図である。 本発明による組み合わせ制御システムの第二の実施形態の構成例を示す説明図である。 本発明による組み合わせ制御システムの概要を示すブロック図である。
以下、本発明の実施形態を図面を参照して説明する。本発明は、各種の制御の利点を活用する、より効果的で一般化された制御のためのコントローラの組み合わせを作成する方法およびシステムに関する。本開示の主題の好ましい実施形態および代替の実施形態、並びに他の態様は、具体的な実施形態の詳細な説明および添付の図面を参照することで、理解され得る。
コントローラの組み合わせを作成するための方法およびシステムについて、本開示の実施形態に関する以下の議論は、事実上単なる例示であり、開示またはその適用または使用を限定することを意図するものではない。
実施形態1.
図1は、本発明による組み合わせ制御システムの第一の実施形態の構成例を示すブロック図である。図2は、本発明による組み合わせ制御システムの第一の実施形態の構成例を示す説明図である。本実施形態の組み合わせ制御システムは、プラント制御のための異なる制御アプローチを組み合わせる。
本実施形態の組み合わせ制御システム100は、予測器101と、サブコントローラ120と、分類器または結合器(以下、分類器/結合器)105を含む。本実施形態では、分類器/結合器105は、プラント106を作動させるための制御アクションを送信する。プラント106は、プラントの出力110を予測器101に送信する。プラントの出力110は、プラント106のセンサ(図示せず)によって取得される。プラント106は、プラントの出力110の一部として外乱を取得してもよい。
サブコントローラ120は、任意の数のサブコントローラを含んでいてもよく、それは、任意の種類であってもよい。本実施形態では、3つの種類のサブコントローラ、すなわち、学習サブコントローラ102、モデル予測サブコントローラ103、および、代替サブコントローラ104を想定する。サブコントローラ120は、これらすべての種類のサブコントローラを含んでいてもよく、一部の種類のサブコントローラを含んでいてもよい。以下の説明では、各サブコントローラに共通の機能または品質を説明する場合、単に「サブコントローラ」と記す。
予測器101は、各サブコントローラに関連付けられ、プラント106からの出力110または観測値が与えられると、予測器101は、サブコントローラに送信される予測を計算する。図2に示す例では、予測器101は、3つの予測器(予測器111、予測器112、および予測器113)を含む。出力110または観測値は、例えば、プラント106の状態、またはセンサによって取得される環境に関連する変数であってもよい。
予測器101は、カーネル法またはディープニューラルネットワークなどの任意の機械学習技術を使用することができ、各予測器101は、各種のサブコントローラが必要とする状態予測を計算する。予測器101は、サブコントローラで使用されるアルゴリズムの必要性に応じた分類器や検出器であってもよい。
各サブコントローラの出力は、特定のタスクで必要な制御アクション、つまり、アクチュエータ、またはアクチュエータに隣接する可能性がある固定的な下位のコントローラ(存在する場合)に必要な制御信号である。たとえば、自動運転の場合、各サブコントローラは、計算された「最適な」ステアリング角度と加速度、たとえば(0.785rad、2.5m/sec^2)を出力する。
サブコントローラの場合、学習ベースおよびモデル予測制御ベースのコントローラなど、さまざまな種類の存在が理想的であるが、必須ではない。たとえば、サブコントローラは、学習ベースのコントローラを含まずに、異なるモデル予測サブコントローラを含んでいてもよく、また、その逆であってもよい。
想定される各サブコントローラの内容は、以下で説明される。
学習サブコントローラ102は、オープンソースまたは独自のデータを使用して学習されるため、さまざまなプラントオペレータのプロファイルを捉えることができる。学習サブコントローラ102は、深層強化学習または他の機械学習モデルに基づいていてもよい。学習サブコントローラ102内のモデルは、プラントまたは同様のプラントのネットワークからさらにデータが収集されるとすぐに更新され得る。サブコントローラ120は、複数の学習サブコントローラ102を含んでいてもよい。
一例として、自動運転の場合、学習サブコントローラ102は、ディープニューラルネットワークであってもよく、いくつかの学習サブコントローラ102は、オープンソースデータ、自動車メーカーの企業秘密の一部であるデータ、および、同じ建造物またはモデルを有する自動車のオープンネットワークまたは独自のネットワークから収集されたデータを使用して構築されていてもよい。車の特定の運転者に焦点を当てた別個の学習サブコントローラ102が学習されてもよい。このようにして、学習サブコントローラ102は、予測機械学習モデルに基づいて予測を行う。上述する内容から、学習サブコントローラ102は、予測型のサブコントローラであると言うことができる。
システムには多くの学習サブコントローラ102が存在し、それぞれが異なる機械学習技術を使用して学習されている可能性、異なる予測モデルに基づく可能性、および、異なるデータセットを使用して学習されている可能性がある。例えば、2つの学習サブコントローラ102が、両方ともディープニューラルネットワークなどの同じモデルであっても、異なる学習データを使用して学習または調整されている場合が挙げられる。一方で、単一の学習データセットを使用して、あるサブコントローラは決定木として学習され、あるサブコントローラはニューラルネットワークとして学習されている場合もある。
モデル予測サブコントローラ103は、状態予測にプラントモデルを使用し、異なる基準またはパフォーマンス指標に関連する項を含む目的関数を伴う。そして、目的関数は、モデル予測サブコントローラ103において、パフォーマンス指標の意味で最適な制御アクションを計算するために最適化される。上述する内容から、モデル予測サブコントローラ103は、最適化ベースのサブコントローラであると言える。
具体的には、モデル予測サブコントローラ103は、制御アクションを計算するために最小化されるコスト関数である目的関数を最適化する。すなわち、最適化される目的関数は、モデル予測サブコントローラ103で制御アクションを計算するために最小化されるコスト関数を示す。目的関数は、例えば、ターゲット状態との距離や入力の変化など、さまざまなパフォーマンス測定値を表わす項の加重合計であってもよい。自動運転の例では、これは、目標位置までの距離、加速およびステアリングの変化、快適性、またはエネルギー消費に関する項の合計である。
代替サブコントローラ104は、機械学習または制御理論からの任意の種類のモデルフリーまたはモデルベースの技術であってもよい。代替サブコントローラ104では、計画アルゴリズムと制御方法の組み合わせが考慮されてもよい。
デフォルトでは、組み合わせ制御システム100は、少なくとも2種類のサブコントローラを有しているとみなされ、少なくとも1つのサブコントローラが毎回アクティブである必要があり、その他は、非アクティブであってもよい。どのサブコントローラがアクティブであるかまたは非アクティブであるかは、タスクおよび組み合わせ方法の選択の結果に依存する。さらに、各種のサブコントローラが、2つ以上のサブコントローラ(例えば、2つのアクティブな学習サブコントローラ102および2つのアクティブなモデル予測サブコントローラ103)を有していてもよい。
サブコントローラは、予測器101から予測と観測値を受け取り、各システムの基礎となる方法または手順に応じて制御アクションを計算する。計算されたすべての制御アクションは、処理を行うため、分類器/結合器105に収集される。
次に、分類器/結合器105は、機械学習技術、具体的にはアンサンブル法を使用して、サブコントローラによって出力された制御アクションに基づいて、最良の制御アクションを決定する。言い換えると、分類器/結合器105は、サブコントローラの適切なサブセットを選択することにより、最終的なゴールとして最良の制御アクションを決定する。分類器/結合器105は、複数のサブコントローラのうちの、(全てではない)いくつかのサブコントローラに接続される。一例として、分類器/結合器105は、バギング(Bagging)またはブースティング(Boosting)技術を使用でき、組み合わせ技術の種類は、学習段階の各サブコントローラのパフォーマンスに応じて、段階的に選択および構築されてもよい。
分類器/結合器105は、周囲の物体までの距離、快適性レベル、安全性およびエネルギー消費などのサブコントローラによって返される入力されたアクションが評価される特定のパフォーマンス尺度の値を比較し、上記のパフォーマンス測定値の加重合計を最小化するアクションを選択することにより、作動する最適な制御アクションを決定してもよい。
また、機械学習のアンサンブル法と同様に、シナリオおよび制御アクションの性質に応じて、分類器/結合器105は、カテゴリ別アクションの場合には投票によって、数値アクションの場合には平均化によって、サブコントローラの出力から最適な制御アクションを決定してもよい。そのようなアプローチから結果として生じる新しいアクションの品質は、上記のパフォーマンス測定を使用して評価することもでき、必要に応じてサブコントローラの個々の出力と比較できる。
さらに、分類器/結合器105は、それぞれによって得られた制御アクションが実現されたと仮定して、異なる種類の制御シナリオ(運転操作など)で各サブコントローラのパフォーマンスの履歴を維持してもよい。これにより、特定のサブコントローラからの入力アクションの使用に関する信頼レベルを確立でき、削除または再学習される可能性のあるパフォーマンスの低いサブコントローラの識別に役立つ。
上述のように、分類器/結合器105は、異なる制御入力を結合でき(例えば、上述のように平均化することにより)、異なるサブコントローラ間の制御アクションを選択することを考慮できる(例えば、投票または信頼レベルを使用することにより)。したがって、分類器/結合器105は、「結合器またはスイッチ」と呼ぶことができる。
次いで、分類器/結合器105は、プラント106で作動される最終的な制御アクションを出力する。
予測器101と、サブコントローラ120(より具体的には、学習サブコントローラ102、モデル予測サブコントローラ103、代替サブコントローラ104)と、分類器/結合器105とは、プログラム(組み合わせ制御プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、予測器101、サブコントローラ120(より具体的には、学習サブコントローラ102、モデル予測サブコントローラ103、および、代替サブコントローラ104)、および、分類器/結合器105として動作してもよい。
本実施形態の組み合わせ制御システムにおいて、予測器101、サブコントローラ120(より具体的には、学習サブコントローラ102、モデル予測サブコントローラ103、および、代替サブコントローラ104)、および、分類器/結合器105は、それぞれ専用のハードウェアによって実現されてもよい。さらに、本発明による組み合わせ制御システムが、有線または無線で接続された2つ以上の物理的に別個のデバイスで構成されてもよい。
以下、本実施形態の組み合わせ制御システムの一例を説明する。図3は、本実施形態における組み合わせ制御システムの動作例を示すフローチャートである。説明のため、制御変数が前輪のステアリング角度および縦角速度である半自動運転または完全自動運転のシナリオを想定する。
最初に、ステップS101において、予測器101およびサブコントローラは、位置、速度、および他の観測値などの状態を示す測定値をプラント106(例えば、車両)から受信する。例えば、目的地、運転プロファイル、快適レベルなどの基準信号も、必要に応じてサブコントローラに送信される。オペレータが、プラントのユーザインターフェイスを使用して、好みを入力してもよい。
ステップS102において、予測器101は、交通関係者の行動の予測など、サブコントローラが必要とする必要な出力予測を計算して送信する。つまり、該当する場合、各サブコントローラは、予測器101から値を受け付ける。
ステップS103において、サブコントローラは、各種のサブコントローラの目的を満足すると思われるエキスパートまたは最適な制御アクション(すなわち、ステアリングおよび加速)の予測または計算を行う。サブコントローラは、そのあと、制御アクションを分類器/結合器105に送信する。
ステップS104において、分類器/結合器105は、アンサンブル法を使用して、予測または制御パフォーマンスを最大化可能な制御アクションを結合する、または、分類器/結合器105は、サブコントローラのパフォーマンスの履歴、例えば、障害物への近さ、燃料消費、乗客への影響などに基づいて、適切な最終的な制御アクションを選択するために重みを使用する。
ステップS105において、分類器/結合器105は、作動させるための最終的なステアリングおよび加速の制御アクションをプラント106に送信する。プラント106は、分類器/結合器105から最終的な入力を受け取り、それを作動させる。
以上のように、本実施形態では、各サブコントローラが、予測器101による予測結果に基づいて、プラント制御のためのアクションをそれぞれ出力する。そして、分類器/結合器105は、サブコントローラのそれぞれが出力するアクションに基づいて、最良の制御アクションとして、予測または制御パフォーマンスを最大化するためにアクションを、結合または切り替える。さらに、サブコントローラは、少なくとも2つの種類のサブコントローラとして、モデル予測サブコントローラ103および学習サブコントローラ102(以下、第1の種類のサブコントローラおよび第2の種類のサブコントローラと記す。)を含む。第1の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御アクションを出力する最適化ベースのサブコントローラである。第2の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型サブコントローラである。
そのような構成により、異なる種類の制御アプローチの明確な利点、たとえば、モデルベースまたはモデルフリーの制御理論と機械学習ベースのコントローラを最適に組み合わせて、それぞれの制限を回避しながら、単一の種類のコントローラでは使用できないより豊かな制御ポリシーのセットを提供できる。すなわち、本発明によれば、サブコントローラの組み合わせに基づく最大パフォーマンスを備えた制御入力を計算することができ、より豊かで多様な制御戦略を実現し、プラントに適用することができる。
言い換えると、異なる種類のコントローラの組み合わせから計算された制御入力は、各コンポーネントのコントローラの利点を継承できる。具体的には、このフレームワークは、複雑な人間レベルのタスクを実現し、ある程度の解釈可能性を維持し、ある程度の安全性および信頼性の保証に近づくことができるような柔軟性を備えている。
より明確に説明するために、自動運転の場合を考える。この場合、モデル予測サブコントローラ103は、さまざまな自動運転タスクに使用される。複雑な操作では、制約または動作を定量化するのが困難であったり、高度に非線形であったりするため、実際の場面では使用が躊躇される。
このような高度に非線形な動作は、データ駆動型のアプローチを使用することで簡単に捉えられる可能性がある。しかし、ディープラーニングに基づく現在の方法では解釈が難しく、信頼性の保証がほとんどない。
提案する解決策は、自動車メーカーからのすべての既知の公開情報および個人情報を使用することにより、さまざまな種類のタスクに適したさまざまな種類のコントローラを構築することである。制御された車および他の車から収集されたデータは、学習ベースおよびモデルベースのコントローラの学習および更新にも使用可能である。
次いで、分類器/結合器105は、障害物回避、燃料消費、および快適性レベルなどの異なるパフォーマンス基準に基づいてサブコントローラの予測および/または制御パフォーマンスを最大化するように選択され得る。最終的な制御アクションは、アンサンブル法を使用するか、過去のパフォーマンスに関連する相対的な重要性に基づいた重みを使用して取得され得る。
より具体的には、一部のサブコントローラは、基本的には、予測アルゴリズムに基づいて実現され、それは制御の文脈において扱うことができる。本発明の1つの例示的な特徴は、組み合わせ制御システム100が予測アルゴリズムを制御技術として、また、その逆を、交互に扱うことができる。それにより、各種の出力を処理するための制御理論的アプローチと学習アプローチの両方を適用できる。本発明の1つの例示的な利点は、原理的な制御理論的アプローチでは分析または解釈することが困難な可能性のある1つまたはいくつかのデータ駆動技術を統合できることであり、実際の産業システムに望ましい制御特性を保証し得る。
実施形態2.
次に、本発明の組み合わせ制御システムの第二の実施形態を説明する。図4は、本発明による第二の実施形態の組み合わせ制御システムの構成例を示すブロック図である。図5は、本発明による第二の実施形態の組み合わせ制御システムの構成例を示す説明図である。
本実施形態の組み合わせ制御システム300は、予測器101と、サブコントローラ120(例えば、学習サブコントローラ102、モデル予測サブコントローラ103、および/または、代替サブコントローラ104)と、分類器/結合器105と、メインコントローラ108とを含む。すなわち、第一の実施形態の組み合わせ制御システムに加え、本実施形態の組み合わせ制御システムは、メインコントローラ108をさらに含む。その他の構成は、第一の実施形態と同様である。
メインコントローラ108は、プラントの動特性および制約に基づく追加的な保証のため、組み合わせ制御システム100の一部と見なされる。分類器/結合器105によって計算された制御アクションは、モデルベースの予測コントローラであり得るメインコントローラ108への入力として使用され得る。モデル予測サブコントローラ103をサブコントローラとして使用する場合と比較し、モデル予測サブコントローラをメインコントローラ108として使用する主な違いは、最終的な制御アクションがすべての制約を満たすと同時に、分類器/結合器105の出力の近づけるようにすることである。なお、計算のため、分類器/結合器105からの制御アクションが使用される入力追跡項のみ考慮することが可能である。そして、メインコントローラ108は、分類器/結合器105の出力からの最小距離を有する制御入力を使用することにより、プラント106を制御する。
具体的には、メインコントローラ108に送信される分類器/結合器105の出力は、タスクを実行するためにアクチュエータが必要とする制御アクション、例えば、自動運転におけるステアリング角度と加速度である。メインコントローラ108は、プラントの動特性および制約に関して最適化することにより作動する最終的な制御アクションを計算する。自動運転の例では、メインコントローラ108は、車両の動特性と制約にしたがって、分類器/結合器105から送信された値に最も近いステアリング角度と加速度を見つけるための最適化問題を解決するモデル予測サブコントローラであってもよい。メインコントローラ108によって計算された(ステアリングおよび加速)値は、プラント106で作動する実際の制御アクションである。
以上の構成により、プラント106の動特性と制約を満たしながら、より豊かで多様なセットを取得して、そこからエキスパート制御ポリシーを取得できる。
次に、本発明の概要を説明する。図6は、本発明による組み合わせ制御システムの概要を示すブロック図である。本発明の組み合わせ制御システム80(例えば、組み合わせ制御システム100)は、異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、予測器(例えば。予測器101)による予測結果に基づいて、プラント制御のためのアクション(例えば、制御アクション、予測アクション)をそれぞれ出力する複数のサブコントローラ81(例えば、学習サブコントローラ102、モデル予測サブコントローラ103、代替サブコントローラ104)と、サブコントローラ81のそれぞれが出力するアクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチ82(例えば、分類器/結合器105)とを備えており、複数のサブコントローラ81は、少なくとも2種類のサブコントローラを含み、第1の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラ(例えば、モデル予測サブコントローラ103)であり、第2の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである。
そのような構成により、異なる種類の制御アプローチの明確な利点を最適に組み合わせることができ、非常に複雑なタスクの実現、あるレベルの解釈可能性の維持、および、望ましい制御理論的特性など、さまざまな種類の制御アプローチの利点を継承できる。
また、複数の第1の種類のサブコントローラにおいて、目的関数はそれぞれ異なっていてもよい。
また、第1の種類のサブコントローラは、1つ以上の状態および制御の制約を使用して目的関数を最適化してもよく、少なくとも2つの第2の種類のサブコントローラは、異なる機械学習モデルに基づいてアクションを予測してもよい。
また、結合器またはスイッチ82は、一連の制御アクションおよび各サブコントローラ81によって出力される予測されたアクションにより作動する最適な制御アクションを計算してもよい。
また、組み合わせ制御システム80は、プラントの動特性および制約を使用することにより、一連の制御アクションおよび各サブコントローラ81によって出力される予測されたアクションにより作動する最適な制御アクションを計算するメインコントローラ(例えば、メインコントローラ108)をさらに備えていてもよい。
具体的には、結合器またはスイッチ82は、最適な制御アクションを計算し、メインコントローラは、プラントの動特性および制約を使用することにより、作動する最終的な最適アクションを計算してもよい。
好ましい実施形態および代替の実施形態に関する上記説明は、開示する発明の概念の範囲または適用可能性を限定または制限することを意図するものではない。当業者であれば、特許請求の範囲に記載された本開示の精神および範囲から逸脱することなく、そのような検討および添付の図面および特許請求の範囲から様々な変更、修正および変形が可能であることが容易に認識される。
100,300 組み合わせ制御システム
101 予測器
102 学習サブコントローラ
103 モデル予測サブコントローラ
104 代替サブコントローラ
105 分類器/結合器
106 プラント
108 メインコントローラ
110 出力
111,112,113 予測器
120 サブコントローラ

Claims (10)

  1. 異なる種類のプラント制御を組み合わせた組み合わせ制御システムであって、
    予測器による予測結果に基づいて、前記プラント制御のためのアクションをそれぞれ出力する複数のサブコントローラと、
    前記サブコントローラのそれぞれが出力する前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える、結合器またはスイッチとを備え、
    前記複数のサブコントローラは、少なくとも2種類のサブコントローラを含み、
    第1の種類のサブコントローラは、アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化ベースのサブコントローラであり、
    第2の種類のサブコントローラは、機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測型のサブコントローラである
    ことを特徴とする組み合わせ制御システム。
  2. 複数の第1の種類のサブコントローラにおいて、目的関数はそれぞれ異なる
    請求項1記載の組み合わせ制御システム。
  3. 第1の種類のサブコントローラは、1つ以上の状態および制御の制約を使用して目的関数を最適化し、
    少なくとも2つの第2の種類のサブコントローラは、異なる機械学習モデルに基づいてアクションを予測する
    請求項1または請求項2記載の組み合わせ制御システム。
  4. 結合器またはスイッチは、一連の制御アクションおよび各サブコントローラによって出力される予測されたアクションにより作動する最適な制御アクションを計算する
    請求項1から請求項3のうちのいずれか1項に記載の組み合わせ制御システム。
  5. プラントの動特性および制約を使用することにより、一連の制御アクションおよび各サブコントローラによって出力される予測されたアクションにより作動する最適な制御アクションを計算するメインコントローラをさらに備えた
    請求項1から請求項3のうちのいずれか1項に記載の組み合わせ制御システム。
  6. 結合器またはスイッチは、最適な制御アクションを計算し、
    メインコントローラは、プラントの動特性および制約を使用することにより、作動する最終的な最適アクションを計算する
    請求項5記載の組み合わせ制御システム。
  7. 異なる種類のプラント制御を組み合わせた組み合わせ制御方法であって、
    アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力し、
    機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力し、
    出力される前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションを、結合または切り替える
    ことを特徴とする組み合わせ制御方法。
  8. 目的関数はそれぞれ異なる
    請求項7記載の組み合わせ制御方法。
  9. 異なる種類のプラント制御を組み合わせるコンピュータに適用される組み合わせ制御プログラムであって、
    前記コンピュータに、
    アクションを計算するために最小化されるコスト関数である目的関数を最適化し、制御のためのアクションを出力する最適化処理、
    機械学習モデルに基づいてアクションを予測し、予測されたアクションを出力する予測処理、および、
    出力される前記アクションに基づいて、最適な制御アクションとして、予測を最大化するためのアクション、または、パフォーマンスを制御するためのアクションの、結合または切り替える処理を実行させる
    ための組み合わせ制御プログラム。
  10. 目的関数はそれぞれ異なる
    請求項9記載の組み合わせ制御プログラム。
JP2020504732A 2017-09-22 2017-09-22 組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム Active JP7060080B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/034316 WO2019058508A1 (en) 2017-09-22 2017-09-22 ASSEMBLY REGULATION SYSTEM, ASSEMBLY REGULATION METHOD, AND ASSEMBLY REGULATION PROGRAM

Publications (3)

Publication Number Publication Date
JP2020529664A true JP2020529664A (ja) 2020-10-08
JP2020529664A5 JP2020529664A5 (ja) 2020-11-19
JP7060080B2 JP7060080B2 (ja) 2022-04-26

Family

ID=65810678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020504732A Active JP7060080B2 (ja) 2017-09-22 2017-09-22 組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム

Country Status (3)

Country Link
US (1) US20200249637A1 (ja)
JP (1) JP7060080B2 (ja)
WO (1) WO2019058508A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022207763A1 (de) 2021-09-28 2023-03-30 J-QuAD DYNAMICS INC. Steuervorrichtung für ein Fahrzeug
KR102616364B1 (ko) * 2023-05-30 2023-12-21 국방과학연구소 신경망을 이용한 동역학 학습 모델의 불확실성 완화 시스템 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
JP7329845B2 (ja) * 2019-06-27 2023-08-21 国立大学法人広島大学 制御系の設計方法
JP7401260B2 (ja) 2019-11-01 2023-12-19 東京都下水道サービス株式会社 情報処理システム、情報処理方法及びコンピュータプログラム
US20210142225A1 (en) * 2019-11-07 2021-05-13 Cortica Ltd. Ensemble of narrow ai agents
CN113325696B (zh) * 2021-06-01 2022-07-19 吉林大学 一种应用于交联电缆生产设备的单神经元pid与模型预测结合的混合控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05297904A (ja) * 1992-04-22 1993-11-12 Hitachi Ltd 最適制御方式選定方法及び装置
JP2005284388A (ja) * 2004-03-26 2005-10-13 Toshiba Corp プラントの運転スケジュール最適化方法および最適化システム
US20150370227A1 (en) * 2014-06-19 2015-12-24 Hany F. Bassily Controlling a Target System
JP2016045799A (ja) * 2014-08-25 2016-04-04 富士電機株式会社 予測モデル生成装置、予測モデル生成方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201305067D0 (en) * 2013-03-19 2013-05-01 Massive Analytic Ltd Apparatus for controlling a land vehicle which is self-driving or partially self-driving
EP3200038A4 (en) * 2014-09-26 2018-06-13 Nec Corporation Model evaluation device, model evaluation method, and program recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05297904A (ja) * 1992-04-22 1993-11-12 Hitachi Ltd 最適制御方式選定方法及び装置
JP2005284388A (ja) * 2004-03-26 2005-10-13 Toshiba Corp プラントの運転スケジュール最適化方法および最適化システム
US20150370227A1 (en) * 2014-06-19 2015-12-24 Hany F. Bassily Controlling a Target System
JP2016045799A (ja) * 2014-08-25 2016-04-04 富士電機株式会社 予測モデル生成装置、予測モデル生成方法及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022207763A1 (de) 2021-09-28 2023-03-30 J-QuAD DYNAMICS INC. Steuervorrichtung für ein Fahrzeug
KR102616364B1 (ko) * 2023-05-30 2023-12-21 국방과학연구소 신경망을 이용한 동역학 학습 모델의 불확실성 완화 시스템 및 방법

Also Published As

Publication number Publication date
JP7060080B2 (ja) 2022-04-26
US20200249637A1 (en) 2020-08-06
WO2019058508A1 (en) 2019-03-28

Similar Documents

Publication Publication Date Title
JP7060080B2 (ja) 組み合わせ制御システム、組み合わせ制御方法、および、組み合わせ制御プログラム
EP3832420B1 (en) Deep learning based motion control of a group of autonomous vehicles
Tram et al. Learning when to drive in intersections by combining reinforcement learning and model predictive control
WO2017197170A1 (en) Safely controlling an autonomous entity in presence of intelligent agents
Goli et al. MPC-based lateral controller with look-ahead design for autonomous multi-vehicle merging into platoon
Eilbrecht et al. Optimization-based maneuver automata for cooperative trajectory planning of autonomous vehicles
Kubota et al. Learning of mobile robots using perception-based genetic algorithm
US11579574B2 (en) Control customization system, control customization method, and control customization program
Sharma et al. Highway lane-changing prediction using a hierarchical software architecture based on support vector machine and continuous hidden markov model
Ozkan et al. Socially compatible control design of automated vehicle in mixed traffic
Zhou et al. Interaction-aware motion planning for autonomous vehicles with multi-modal obstacle uncertainty predictions
Gupta et al. Interaction-aware trajectory planning for autonomous vehicles with analytic integration of neural networks into model predictive control
Wang et al. Interaction-aware model predictive control for autonomous driving
KR20210068449A (ko) 자동차의 경로 및/또는 궤적을 계획하는 장치
Da Comprehensive reactive safety: No need for a trajectory if you have a strategy
Zhao et al. A barrier-lyapunov actor-critic reinforcement learning approach for safe and stable control
Nguyen et al. An MPC Approximation Approach for Adaptive Cruise Control with Reduced Computational Complexity and Low Memory Footprint
Li et al. Reciprocal collision avoidance for general nonlinear agents using reinforcement learning
Romero et al. Low speed hybrid generalized predictive control of a gasoline-propelled car
Németh et al. Hierarchical control design of automated vehicles for multi-vehicle scenarios in roundabouts
Trotha et al. Advanced assistance systems in the process industry: A classification attempt
Inga et al. Gray-box driver modeling and prediction: Benefits of steering primitives
Kimura et al. Decision-making based on reinforcement learning and model predictive control considering space generation for highway on-ramp merging
Frederick et al. Anticipation as a component of Autonomous Driving
Xu et al. A decision support framework for autonomous driving in normal and emergencysituations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R151 Written notification of patent or utility model registration

Ref document number: 7060080

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151