JP6601577B2

JP6601577B2 - 制御目的関数統合システム、制御目的関数統合方法、および、制御目的関数統合プログラム

Info

Publication number: JP6601577B2
Application number: JP2018562278A
Authority: JP
Inventors: ウィマーウィー; 義男亀田; 力江藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-06-10
Filing date: 2016-06-10
Publication date: 2019-11-06
Anticipated expiration: 2036-06-10
Also published as: WO2017212508A1; US11435705B2; US20190196419A1; JP2019520642A

Description

本発明は、明示的な性能指標の最適化と専門家の意思決定及び制御とを統合する制御目的関数統合システム、制御目的関数統合方法、および、制御目的関数統合プログラムに関する。

制御システムの主なタスクは、装置の操作者またはユーザに関連するコントローラ性能のある性質における最適化である。

コントローラ性能のこれらの性質は、異なるコスト関数や目的関数の項によって表される。この項は、非特許文献１の記載、例えば、第一の原理または装置の動特性に基づく数式を使用することによって手動で構築される。また、この項は、データを使用して自動的に構築される、すなわち、予測モデルを得るために収集された装置データを機械学習の手法を適用することにより構築される。ＡＩまたは機械学習システムを使用して制御の決定に影響を及ぼす助言および補正因子を導出する同様の装置制御システムが、特許文献１に記載されている。

最適化のための所望の性能指標を捕捉する数学的原理および機械学習に基づいて異なる目的関数の項を構築できるにもかかわらず、実際には、ほとんどの性能指標または基準は、非常に複雑である。

さらに、多くの場合、様々な状況で専門家の行動を捕捉する場合、性能指標は、特定できない又は明示的に定義できない報酬または目的関数の項を有するため、その項は、装置を制御するための最適化において直接的な使用を妨げる。

非特許文献２で提案されているような機械学習モデルは、与えられた状況下における専門家の振る舞いを模倣するために使用されている。

そのようなエキスパートモデルは、専門家のデータから訓練される。すなわち、そのようなモデルは、装置が専門家によって制御または操作された際における装置の出力および対応する制御入力から訓練される。

これらのモデルを使用して、各時点で専門家が使用すると予測される制御入力を生成できる。

特開２０１４−１７４９９３号公報

J. M. Maciejowski, "Predictive Control with Constraints", Prentice Hall, 2001. P. Abbeel and A. Y. Ng, "Apprenticeship Learning via Inverse Reinforcement Learning", 2004. L. Ljung, "System Identification - Theory for the User, 2nd edition", PTR Prentice Hall, Upper Saddle River, N.J., 1999

エキスパートモデルが本質的にいくつかの明示的な性能基準と矛盾している可能性があるため、慣習的なアプローチでは、明示的な性能基準またはエキスパートモデルのいずれか一方のみが使用され、両方は使用されない。例えば、特許文献１に記載されたシステムは、各シナリオの利得および損失をそれぞれ計算する。

しかし、基準とする制御動作の一つの原因のみに依存することは、ある制限に関連付けられる。

例えば、エキスパートモデルのみを使用しても、そのようなモデルによって関連付けられた制御動作が生成された理由を十分に把握できない場合がある。

実際、エキスパートモデルは、人間の操作者またはユーザから入力または動作を生成するので、一般に解釈は困難である。

さらに、ユーザまたは操作者が対処を所望するような奥深くまたは複雑な性能指標を含んでいなかったり、考慮されていなかったりする可能性がある。

一方、明示的な性能基準のみを使用すると、専門家の動作を十分には捕捉できず、人間の操作者にとって自然ではない制御動作が生じる可能性がある。

本発明の主題は、上述する一つまたは複数の問題を解決する、または、少なくともその効果を低減するために、上記の特徴を実現することにある。

すなわち、本発明は、直接的な性能の最適化と専門家の動作及び制御とのバランスをとることができる制御目的関数統合システム、制御目的関数統合方法、および、制御目的関数統合プログラムを提供することを目的とする。

本発明の制御目的関数統合システムは、制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成するエキスパートモデル化部と、エキスパートモデル化部で予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築する変換器と、変換器および目的関数の項として機械学習モデルを出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算する結合器とを備えたことを特徴とする。

本発明の制御目的関数統合方法は、制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成し、エキスパートモデルに基づいて予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築し、機械学習モデルを目的関数の項として出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算することを特徴とする。

本発明の制御目的関数統合プログラムは、コンピュータに、制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成する処理、エキスパートモデルに基づいて予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築する処理、および、機械学習モデルを目的関数の項として出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算する処理を実行させることを特徴とする。

本発明によれば、明示的な性能指標の最適化と予測された専門家の入力との最適な組み合わせに基づく制御入力を計算することができる。

本発明による制御目的関数統合システムの一実施形態の構成例を示す説明図である。実施形態における制御目的関数統合システムの動作例を示すフローチャートである。本発明の制御目的関数統合システムの概要を示すブロック図である。

以下、図面を参照して、本発明の実施形態を説明する。本発明は、明示的な性能指標の最適化を専門家の意思決定及び制御と統合するための方法およびシステムに関する。本開示の主題の好ましい実施形態および代替の実施形態、並びに他の態様は、具体的な実施形態の詳細な説明および添付の図面を参照することで、理解され得る。

明示的な性能基準に基づくエキスパートモデルおよびコスト関数の項からの予測入力を統合する制御目標を構築するための方法およびシステムについて、本開示の実施形態に関する以下の議論は、事実上単なる例示であり、開示またはその適用または使用を限定するものではない。

図１は、本発明による制御目的関数統合システムの一実施形態の構成例を示す説明図である。

本実施形態の制御目的関数統合システム１００は、コントローラ１０１と、装置１０２とを備えている。コントローラ１０１は、エキスパートモデル化部１０３と、学習器１０４と、装置モデル化部１０５と、変換器１０６と、結合器１０７と、最適化器１０８とを含む。

装置１０２は、装置の出力１１０をコントローラ１０１に送信する。装置の出力１１０は、装置１０２が備えるセンサ（図示せず）によって獲得される。装置１０２は、外乱１０９を装置の出力１１０として取得してもよい。

エキスパートモデル化部１０３は、装置の出力１１０を使用することにより、エキスパートモデルに基づいて、予測される専門家の制御動作または予測入力１１２を生成する。エキスパートモデルは、専門家のデータから構築される機械学習されたモデルであり、隠れマルコフモデルやマルコフ決定プロセスなどの予測モデルのクラスに属するものであってもよい。

エキスパートモデルは、制御対象である装置１０２を専門家が操作したときに収集されるデータを使用することにより学習される。エキスパートモデルは、同様のまたは類似する（同種の）特性の装置を専門家が操作したときに収集されるデータを使用することにより学習されてもよい。例えば、装置１０２が車両である場合、エキスパートモデルは、専門家の運転に関連する報酬または性能指標を暗黙的に記述するエキスパートドライバーモデルであってもよい。さらに、装置１０２（車両）は、同じ特性を有する他の装置（車両）から無線通信を介した更新（データストリームまたは学習された項）を受信してもよい。

エキスパートモデルは、例えば、非特許文献２に記載されている（マルコフ決定プロセスによる）逆強化学習や、（他の予測モデルを用いた）ベイズ法などの機械学習技術を使用して予め構築されていてもよい。エキスパートモデルの出力、すなわち、予測入力１１２は、変換器１０６によって使用される。

変換器１０６は、エキスパートモデル化部１０３で予測された専門家の制御動作（予測入力１１２）を含むメトリックまたは誤差測度を目的関数の項１１４として構築する。すなわち、変換器１０６は、予測入力１１２を含む誤差測度またはメトリックを構築する。この誤差測度は、変換器１０６の出力である目的関数の項１１４である。変換器１０６は、収集および処理のために、目的関数の項１１４を結合器１０７に送信する。

より詳しくは、変換器１０６は、ナレッジデータベースからの条件文を使用するエキスパートシステムや、機械学習技術を使用して、目的関数の項１１４を生成する。例えば、現在および予想される装置の状況に基づいて、変換器１０６は、エキスパートモデル化部１０３によって予測された専門家の入力とユーザが希望する最適な入力との間の偏差を測定するためのメトリックもしくは誤差測度、または、最適な目的関数を選択する。

また、特に注意要する可能性のある異なるユニットまたは特性を有する可能性があるため、変換器１０６は、各入力に対して適切なメトリックまたは誤差測定を選択する。

具体的な例として、制御入力が縦加速度およびハンドル角である自動運転または運転支援システムを考える。各時刻において、変換器１０６は、車両の物理条件およびその周囲に関連するデータ、例えば、速度、車線幅、交通状況などを受信する。変換器１０６は、これらの情報を処理し、ナレッジデータベースを使用して、制御入力に対する適切なメトリックまたは誤差測度、例えばユークリッドメトリックまたはフーバー損失関数を選択する。

すなわち、目的関数の項１１４は、快適さなどの専門家による制御入力（予測された専門家の制御動作）の結果として得られた評価を表す項であり、人間の感受性に関する性能指標とみなすことができる。例えば、目的関数の項１１４は、ロールの大きさ（装置からの出力）が小さいときに高い性能指標を返す数式によって表される。装置１０２の希望される状態は、制御目的関数統合システムの外部から変換器１０６に入力される。

装置モデル化部１０５は、装置の動特性を記述する装置モデルに基づいて予測出力１１１を生成する。予測出力１１１は、最適化器１０８からの現在または初期の制御入力１１７に依存する。装置モデルは、システム同定の分野の技術を用いて予め構築されていてもよい。このような方法は、例えば、非特許文献３に記載されている。

装置モデル化部１０５は、予測出力１１を学習器１０４に供給する。予測出力１１１は、学習器１０４によって装置の出力１１０と共に学習データとして使用される。

学習器１０４は、収集されたデータ（具体的には、制御入力１１７、予測出力１１および装置の出力１１０）に適用される機械学習技術を用いることにより、目的関数の項１１３として、制御可能な変数ごとの機械学習モデルを出力する。具体的には、学習器１０４は、既存の機械学習技術に基づく方法により、目的関数の項１１３を構築する。特に、高度なベイズの技術や解釈可能な機械学習モデルが使用される。

学習器１０４は、装置モデルで算出された予測出力１１１を用いて学習された目的関数の項１１３として、エネルギー効率等の性能指標を学習する。すなわち、目的関数の項１１３は、装置１０２および装置モデル化部１０５の出力データから構築される本質的に機械的な項であるといえる。例えば、目的関数の項１１３は、エンジン回転数（制御入力）に応じてエネルギー効率を算出する式で表される。

結合器１０７は、目的関数の項１１３および目的関数の項１１４を受信する。言い換えると、目的関数の項１１３および目的関数の項１１４は、結合器１０７によって収集される。結合器１０７は、多目的最適化のアプローチを使用して、目的関数の項（具体的には、目的関数の項１１３および目的関数の項１１４）とのバランスをとるための適切な重みを決定する。

結合器１０７は、計算された重み付け組合せに基づいて、目的関数を含むコスト関数１１５を構築する。その際、結合器１０７は、コスト関数１１５を構築するために基準信号１１６を受信してもよい。基準信号１１６は、ユーザの嗜好に関する情報として使用される目標値を含む。例えば、結合器１０７が自動運転に関するコスト関数１１５を構築する場合、基準信号１１６は、道路標識やＧＰＳ信号であってもよい。基準信号１１６は、また、（ＧＰＳを介した）所望の位置、速度、燃料消費量、および、移動時間であってもよい。結合器１０７は、コスト関数１１５を最適化器１０８に送信する。

このようにして、結合器１０７は、異なるクラスの目的関数の項を収集する。具体的には、結合器１０７は、異なる原理を使用して生成された二つの異なるタイプの目的関数の項を収集する。一つは、本質的に技術的であるか、または装置１０２によって収集されたデータから学習により得ることができる機械的原理（例えば、燃料消費）に従う量または尺度を表すクラスの項（目的関数の項１１３）である。他のクラスは、観察された専門家の行動を使用して学習されたエキスパートモデルから得られる、予測される専門家の入力を用いた、人間の技能、感受性または嗜好に関連する性能指標として働く項（目的関数の項１１４）からなる。結合器１０７は、最適化器１０８で使用するための集約されたコスト関数１１５を構築するために、重みの最適な組み合わせ、または、項の組合せを計算する。

例えば、目的関数の項１１３が式１であり、目的関数の項１１４が式２で表される場合、結合器１０７は、各式の重みＡ１およびＡ２（例えば、Ａ１＝０．４、Ａ２＝０．６）を算出し、各式に重みを掛けることにより、コスト関数Ｌ＝Ａ１×式１＋Ａ２×式２を決定してもよい。

最適化器１０８は、線形、二次または非線形プログラミング方法を用いてコスト関数１１５を最適化する。具体的には、最適化器１０８は、コスト関数１１５を使用して、装置１０２を作動させるために使用される最適な制御入力１１７を計算する。

エキスパートモデル化部１０３と、学習器１０４と、装置モデル化部１０５と、変換器１０６と、結合器１０７と、最適化器１０８とは、プログラム（制御目的関数統合プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、制御目的関数統合システム１００内の記憶装置（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、エキスパートモデル化部１０３、学習器１０４、装置モデル化部１０５、変換器１０６、結合器１０７および最適化器１０８として動作してもよい。また、本発明の制御目的関数統合システムにおける各機能は、ＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）形式で提供されてもよい。

エキスパートモデル化部１０３と、学習器１０４と、装置モデル化部１０５と、変換器１０６と、結合器１０７と、最適化器１０８とは、それぞれ専用のハードウェアで実現されてもよい。また、エキスパートモデル化部１０３と、学習器１０４と、装置モデル化部１０５と、変換器１０６と、結合器１０７と、最適化器１０８とは、それぞれ、汎用または専用の回路によって実現されてもよい。ここで、汎用または専用の回路は、単一のチップで構成されていてもよいし、バスを介して接続される複数のチップで構成されていてもよい。また、各装置の各構成要素の一部または全部が複数の情報処理装置または回路によって実現される場合には、複数の装置または回路等は、集中配置されていてもよいし、分散配置されていてもよい。機器や回路等は、クライアントサーバシステム、クラウドコンピューティングシステムなど、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本実施形態の制御目的関数統合システムの一例を説明する。図２は、本実施形態における制御目的関数統合システムの動作例を示すフローチャートである。ここでは、制御される変数が縦加速度およびハンドル角である半自動または完全自動運転のシナリオを想定する。

まず、ステップＳ２０１において、コントローラ１０１によって、基準信号１１６が入力または取得され、結合器１０７によって具体的に記憶される。ステップＳ２０２において、現在または初期の制御入力１１７に基づいて、学習器１０４およびエキスパートモデル化部１０３による処理のため、コントローラ１０１によって装置の出力１１０が取得される。

ステップＳ２０３において、エキスパートモデル化部１０３は、与えられた装置の出力１１０に対する予測入力１１２を計算する。ステップＳ２０４において、学習器１０４および変換器１０６は、目的関数の項１１３および目的関数の項１１４を同時に構築し、そのような項を結合器１０７に送信する。

一実施形態において、変換器１０６は、異なる誤差測度の衝突またはデータ内の異常値の存在に応じて、ユークリッド距離（またはその二乗）、またはフーバー損失関数などのロバスト誤差測度から選択するために使用され得るナレッジデータベースを用いる。そのようなルールに使用される基準は、前に計算された入力における目的関数の項の値に基づくことができ、最適化においてどの項が優位であるかを示すことができる。

さらに、異なる制御ユニットに通常必要とされる正規化または標準化とは別に、変換器１０６は、例えば、車両速度、道路曲率および車線幅などの運転状況の特性に応じて、より適切なステアリングメトリックを採用できる。

変換器１０６は、また、機械学習アルゴリズムを使用して、センサデータまたはユーザ入力に応じて、加速度またはステアリングホイールのどの指標がユーザにとってより適切で快適であるかを検出および学習してもよい。

ステップＳ２０５において、結合器１０７は、目的関数の項を収集し、多目的最適化技術を使用して、目的関数の項１１３および目的関数の項１１４の最適な組合せまたは重みを計算して、結合されたコスト関数１１５を構築する。

自動運転の例では、結合器１０７は、適切な解を選択できる多数のパレート最適解を得るために、燃料効率およびターゲットまでの距離を考慮したパレートベースの多目的最適化アプローチを使用することができる。特に、パレート最適解の集合を使用して、関連する特徴または優位な解を決定できる。

最後に、ステップＳ２０６において、最適化器１０８は、装置１０２において作動させるための最適な制御入力１１７を計算し、装置モデル化部１０５で予測された出力の再計算を行う。

以上のように、本実施形態では、エキスパートモデル化部１０３が、エキスパートモデルに基づいて、予測された専門家の制御動作を生成し、変換器１０６が、エキスパートモデル化部１０３で予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項１１４として構築する。そして、結合器１０７が、変換器１０６および学習器１０４から異なる目的関数の項を収集し、最適化器１０８で使用する集約されたコスト関数１１５を構築するための、最適な重みの集合または目的関数の項の組合せを計算する。よって、明示的な性能指標の最適化と予測された専門家の入力との最適な組み合わせに基づく制御入力を計算することができる。

さらに、目的関数の項と専門家の予測を含む指標との間の相対的な重要性を決定する適切な重みを見つけることも重要である。本実施形態では、結合器１０７が、（パレートベースの）多目的最適化アプローチを採用する。よって、最適な重みを見つけることが可能になる。

次に、本発明の概要を説明する。図３は、本発明の制御目的関数統合システムの概要を示すブロック図である。本発明の制御目的関数統合システム８０は、制御対象である装置（例えば、装置１０２）又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成するエキスパートモデル化部８１（例えば、エキスパートモデル化部１０３）と、エキスパートモデル化部８１で予測された専門家の制御動作（例えば、予測入力１１２）を含むメトリックまたは誤差測度を目的関数の項（例えば、目的関数の項１１４）として構築する変換器８２（例えば、変換器１０６）と、変換器８２および目的関数の項として機械学習モデルを出力する学習器（例えば、学習器１０４）から異なる目的関数の項（例えば、目的関数の項１１３および目的関数の項１１４）を収集し、最適化器（例えば、最適化器１０８）で使用する集約されたコスト関数（例えば、コスト関数１５０）を構築するための、最適な重みの集合または目的関数の項の組合せを計算する結合器８３（例えば、結合器１０７）とを備えている。

そのような構成により、明示的な性能指標の最適化と予測された専門家の入力との最適な組み合わせに基づく制御入力を計算することができる。

また、変換器８２は、現在および予想される装置の状況に基づいて、エキスパートモデル化部８１によって予測された専門家の入力とユーザが希望する最適な入力との間の偏差を測定するためのメトリックまたは誤差測度を選択してもよい。

また、結合器８３は、異なる原理を使用して生成された二つの異なる目的関数の項のクラス（例えば、目的関数の項１１３および目的関数の項１１４）を収集してもよい。

具体的には、目的関数の項の一つのクラスが、本質的に機械的な量または尺度を表し、目的関数の項の他のクラスが、人間の技能、感受性または嗜好に関連する性能指標として働いてもよい。

また、結合器８３は、パレートベースの多目的最適化アプローチを用いてもよい。

好ましい実施形態および代替の実施形態に関する上記説明は、開示する発明の概念の範囲または適用可能性を限定または制限することを意図するものではない。当業者であれば、特許請求の範囲に記載された本開示の精神および範囲から逸脱することなく、そのような検討および添付の図面および特許請求の範囲から様々な変更、修正および変形が可能であることが容易に認識される。

１００制御目的関数統合システム
１０１コントローラ
１０２装置
１０３エキスパートモデル化部
１０４学習器
１０５装置モデル化部
１０６変換器
１０７結合器
１０８最適化器

Claims

制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成するエキスパートモデル化部と、
前記エキスパートモデル化部で予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築する変換器と、
前記変換器および前記目的関数の項として機械学習モデルを出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算する結合器とを備えた
ことを特徴とする制御目的関数統合システム。
変換器は、現在および予想される装置の状況に基づいて、エキスパートモデル化部によって予測された専門家の入力とユーザが希望する最適な入力との間の偏差を測定するためのメトリックまたは誤差測度を選択する
請求項１記載の制御目的関数統合システム。
結合器は、異なる原理を使用して生成された二つの異なる目的関数の項のクラスを収集する
請求項１または請求項２記載の制御目的関数統合システム。
目的関数の項の一つのクラスは、本質的に機械的な量または尺度を表し、目的関数の項の他のクラスは、人間の技能、感受性または嗜好に関連する性能指標として働く
請求項３記載の制御目的関数統合システム。
結合器は、パレートベースの多目的最適化アプローチを用いる
請求項１から請求項４のうちのいずれか１項に記載の制御目的関数統合システム。
制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成し、
前記エキスパートモデルに基づいて予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築し、
機械学習モデルを目的関数の項として出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算する
ことを特徴とする制御目的関数統合方法。
現在および予想される装置の状況に基づいて、予測された専門家の入力とユーザが希望する最適な入力との間の偏差を測定するためのメトリックまたは誤差測度を選択する
請求項６記載の制御目的関数統合方法。
コンピュータに、
制御対象である装置又は同一又は類似の特性を有する装置を専門家が操作したときに収集されたデータを用いて学習された機械学習モデルであるエキスパートモデルに基づいて、予測された専門家の制御動作を生成する処理、
エキスパートモデルに基づいて予測された専門家の制御動作を含むメトリックまたは誤差測度を目的関数の項として構築する処理、および、
機械学習モデルを目的関数の項として出力する学習器から異なる目的関数の項を収集し、最適化器で使用する集約されたコスト関数を構築するための、最適な重みの集合または目的関数の項の組合せを計算する処理
を実行させるための制御目的関数統合プログラム。
コンピュータに、
現在および予想される装置の状況に基づいて、予測された専門家の入力とユーザが希望する最適な入力との間の偏差を測定するためのメトリックまたは誤差測度を選択する処理を実行させる
請求項８記載の制御目的関数統合プログラム。