JP2010134863A

JP2010134863A - 制御対象の制御入力決定手段

Info

Publication number: JP2010134863A
Application number: JP2008312534A
Authority: JP
Inventors: Taizo Miyazaki; 泰三宮崎
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-12-08
Filing date: 2008-12-08
Publication date: 2010-06-17

Abstract

【課題】制御対象に入力する制御入力を生成する複数の制御関数の重みを自動的に決定する制御入力決定手段を提供する。
【解決手段】重みが設定された複数の制御関数を有する制御式を用い入力される車両４の制御入力決定手段２であり、価値決定手段６が有する価値部分空間情報に基づいて要求指令に対応する状態の価値と重みの関係データを求め、方針決定手段８で関係データから制御目的を達成する最適化重みを選択し、最適化手段１０でその最適化重みを制御式に適用して制御入力を生成し、その制御入力により車両４を制御する。次に、状態抽出手段１２でその制御後の車両４の状態を抽出する。価値更新手段１４で車両４の制御前の状態と制御後の状態との変化に基づいて、価値部分空間情報の価値を更新する。さらに、評価手段１６で制御後の状態と制御目的の目標値との差を求め、その差に基づいて価値更新手段１４の価値の更新を補正する制御入力決定手段２。
【選択図】図１

Description

本発明は、ハイブリッド車両、ロボット、電力ネットワーク等の制御対象の状態に応じて異なる制御目的を達成する制御対象の制御入力決定手段に関する。

複数の制御目的を有する制御対象の制御入力に係る最適化問題は、多目的最適化問題として定式化されている。非特許文献１によれば、多目的最適化問題はチェビシェフノルムの最小化問題として、（数１）のようにｍｉｎｍａｘ問題として定式化されることが多い。

ここで、ａｉは制御目的ごとの重み、ｆｉ（ｘ）は最適化対象である制御関数、ｉは制御目的ごとに最小化した際の理想解、ｎは制御目的の数である。複数の制御目的がトレードオフ関係にある場合、全ての制御目的を同時に最適化することができないため妥協解を探すことになる。従来、このようなトレードオフを伴う多目的最適化問題を取り扱う方法として２つの方法が用いられている。

第１の方法は、制御目的ごとに重みを予め設定しておき、複数の制御目的を一目的に変換して最適化を行う方法である。例えば、特許文献１に開示されているように、ある条件に応じて重みを再設定する方法や、特許文献２に開示されているように、制御目的ごとに優先順位を付けておき、一目的ずつ順番に最適化を行う方法などがある。

また、第２の方法は、予め全てのパレート解（ある関数を悪化させることなしには他の関数を改善することができない解）を計算しておき、その中から設計者が適当な解を選ぶことが挙げられる。この方法としては、例えば遺伝的アルゴリズムや進化論的アルゴリズムが使用されている。これらの方法は、例えば非特許文献２に開示されている。

「多目的計画法の理論と応用」中山弘隆、谷野哲三計測自動制御学会（１９９４）ＳｈｉｇｅｒｕＯｂａｙａｓｈｉｅｔａｌ．，ＦｉｎｄｉｎｇＴｒａｄｅｏｆｓｂｙＵｓｉｎｇＭｕｌｔｉｏｂｊｅｃｔｉｖｅＯｐｔｉｍｉｚａｔｉｏｎＡｌｇｏｒｉｔｈｍｓＴｒａｎｓａｃｔｉｏｎｓｏｆＪＳＡＳＳＶＯＬ，Ｎｏ，１５５Ｍａｙ，２００４特開２００５−３３５５４８号公報特開２００４−１２９４０４号公報

しかし、重みを予め設定しておく第１の方法は、設計時に設計者の試行錯誤による重みの設定が必要であるため、設計基準が明確でないという問題があった。また、特に制御対象の状態ごとに重みを変えることが妥当な場合は、状態ごとに対話、重み調整作業が必要になるため、設計に時間がかかるという問題があった。

なお、状態ごとに重みを変えることが妥当な制御対象としては、例えばハイブリッド車両がある。日本の交通事情にあっては、高速道路での走行時は加速性能より燃費が重視され、山道の走行時は燃費より加速性能が重視されるため、車両の走行状態ごとに重みを変える必要がある。様々な走行状態において、重みを設定する作業は煩雑であり、また、走行状態と重みとの関係を明確に表すことが困難であるため、試行錯誤的な設計が必要となる。

全てのパレート解を計算する第２の方法は、多くの計算を処理しなければならず、設計時間が長くなるという問題があった。また、計算処理能力が高いスーパーコンピュータやグリッド、クラスターが使える環境では有効だが、例えば制御対象に組み込んでオンラインで最適化を行う場合には適さない。

なお、組み込む制御対象としては、例えばロボットが挙げられる。特に、災害救助ロボットにおいては、どのような環境で用いられるか予め分からないため、環境が変わるたびにオンラインで複数の制御目的の最適化をしなおすことが妥当である。

本発明が解決しようとする課題は、制御対象に入力する制御入力を生成する複数の制御関数の重みを自動的に決定することができる制御入力決定手段を提供することにある。

上記課題を解決するため、本発明は、それぞれ重みが設定された複数の制御関数を有する制御式を用い、入力される要求指令に基づいて制御対象の制御入力を生成して出力する制御入力決定手段であって、制御対象の状態と重みを次元としてそれらに対応する価値が設定された価値部分空間情報を有し、その価値部分空間情報に基づいて要求指令に対応する状態の価値と重みの関係データを求める価値決定手段と、価値決定手段から出力される価値と重みの関係データに基づいて最大価値に対応する重みを、所定の制御目的を達成する最適化重みとして選択する方針決定手段と、方針決定手段により選択された最適化重みを制御式に適用して制御入力を生成する最適化手段と、制御対象の状態を抽出する抽出手段と、その抽出手段により抽出された制御対象の状態と方針決定手段で選択された最適化重みを入力し、制御対象の状態の変化を評価して価値部分空間情報の価値を更新する価値更新手段と、最適化手段から出力される制御入力により制御された制御対象の状態と制御目的の達成度合いに応じて価値更新手段の価値の更新を補正する評価手段とを備えてなることを特徴とする。

本発明により、まず、方針決定手段で、要求指令に対応する状態に応じた関係データから制御目的を達成する最適化重みを選択し、最適化手段で、その最適化重みを制御式に適用して制御入力を生成し、その制御入力により制御対象を制御する。ここで、要求指令に対応する状態とは、要求指令を含めた制御対象の状態であり、複数存在する。

次に、抽出手段で、その制御後の制御対象の状態を抽出する。ここでは、制御対象の複数の状態の中から、上記選択した最適化重みによって達成される制御目的に応じた状態を抽出する。そして、価値更新手段で、制御対象の制御前の状態と制御後の状態との変化に基づいて、価値部分空間情報の価値を更新する。すなわち、選択した最適化重みに基づく制御を行ったことにより、制御対象が制御目的に沿う状態に変化したかどうかを評価し、制御目的に沿う変化をしていた場合には、選択した最適化重みに対応する価値を高くするように更新するものである。

さらに、評価手段で、制御目的の達成度合い、すなわち、制御後の状態と制御目的の目標値との差を求め、その差に基づいて価値更新手段の価値の更新を補正する。このようにして、上記選択した最適化重みに対応する価値が更新されることで価値部分空間情報が更新され、それに伴って関係データが更新される。制御後の制御対象は、更新された関係データに基づいて改めて方針決定手段により選択された最適化重みにより制御されて新たな状態となり、その状態変化に基づいて価値が更新される。これらの過程を繰り返すことで、方針決定手段は制御目的により適する重みを選択するようになり、制御対象を制御目的に沿う状態にすることができる。

このように本発明によれば、設計者は、制御目的、状態変化の評価の仕方等を設計することで、以降は制御入力決定手段が学習によって自動的に適する重みを決定するようになっているので、重みの設計をする必要がなくなる。また、本発明は、スーパーコンピュータほどの計算処理能力を必要としないので、車両等に組み込んでオンラインで最適化を行うことが可能となる。

この場合において、評価手段を、最適化手段の制御入力により制御された制御対象の状態の評価者の評価に応じて価値更新手段の価値の更新を補正するように構成することもできる。

例えば、本発明の制御入力決定手段を車両に組み込むと、運転者が評価者となる。この場合、例えば、アクセル開度やブレーキペダル踏下頻度の記録が評価者の評価となる。運転快適性が制御目的の一つである場合、アクセル開度の変動が少なく、ブレーキペダル踏下頻度が少ない場合に評価が高くなる。また、室内カメラやマイクによって評価者の評価を取得してもよい。この場合、評価者は車両の挙動に対して、笑顔や音声によって評価を通知する。この方法によると、評価者は車両を好みに合わせて積極的に育てる楽しみを得られるため、車両に新たな商品価値を付加するのに好適である。

また、価値更新手段を、最適化手段から出力される制御入力により制御された制御対象の状態と制御目的の達成度合いが設定値より大きいとき、価値部分空間において、最適化重みより大きい重みに対応する価値を増やし、達成度合いが設定値より小さいとき、価値部分空間において、最適化重みより小さい重みに対応する価値を更新するように構成することもできる。

これにより、価値部分空間において、１つの価値を更新する際にその価値に隣接する価値の更新も行うことができるので、効率よく価値の更新を行うことができる。なお、設定値は０とし、達成度合いを正か負かで表すことが好ましい。

また、関係データを複数次元マトリクスとして表現するように構成することもできる。これにより、制御プログラムを容易に作成できる。すなわち、例えば、車両に本発明の構成を持つ制御プログラムを実装する場合、制御知識を数式として保持しておくと計算時間上不利となる場合があるために、予めオフラインで計算させたテーブルやマップを利用するのが好ましい。このテーブルやマップを検索するためのプログラムは、従来の車両制御プログラムに搭載されていることが多いため、マトリクス状に記述された価値部分空間情報は、従来の検索プログラムをそのまま、もしくは少しの改良で用いることができる。

また、本発明の制御入力決定手段をシミュレータに組み込み、シミュレータは制御対象の動作パターンと動作パターンに加算される変動情報とを要求指令として制御対象に入力するように構成することもできる。

本発明によれば、制御対象に入力する制御入力を生成する複数の制御関数の重みを自動的に決定することができる制御入力決定手段を提供できる。

以下、本発明の制御入力決定手段２の実施例を図面を参照して説明する。

図１は、本実施例に係る制御入力決定手段２の構成例である。制御入力決定手段２は、それぞれ重みが設定された複数の制御関数を有する制御式を用い、入力される要求指令に基づいて制御対象の制御入力を生成して出力するものである。なお、本実施例では、制御入力決定手段２は、パソコン等の情報処理端末に組み込まれ、制御対象である車両４はハイブリッド車である。また、要求指令は所望の指令を車両４に与えるため指令で、一例としてアクセル開度があり、これに従って車両加速度が決定される。

また、重みは、多目的最適化において、それぞれの制御関数をどれだけ重視するかを表す。一般的には（数１）のように、重みａｉと制御関数ｆｉ（ｘ）を理想解オフセットを考慮して掛け合わせたものの最大値の最小化として一目的最適化問題として取り扱われる。なお、単純に最適化重みと目的関数をかけたものの総和を以って一目的最適化問題として取り扱うことも可能である。

図１に示すように、制御入力決定手段２は、価値決定手段６と、方針決定手段８と、最適化手段１０と、状態抽出手段１２と、価値更新手段１４と、評価手段１６とを備えて構成されている。

価値決定手段６は、車両４の現在の状態において、選択可能な重みの拡大状態空間の価値を決定する。ここで、状態とは車両４の直接的に観測可能な、又は間接的に推定可能な内部状態を指すものであり、ハイブリッド自動車の場合には車速、電池残存容量などが該当する。

図２（ａ）に、状態として横軸を車速［ｋｍ／ｈ]、縦軸に駆動力［Ｎ］をとったときの動作マップを示す。なお、簡単化のために２次元として図示する。運転可能領域２０は、車両４の前進の場合を示すものである。常用領域２２は、運用頻度が非常に多い領域である。渋滞領域２４は、車速が比較的低く、ストップ・アンド・ゴーが多い領域である。加速領域２６は、加速性能が重要となる領域である。最大減速領域２８は、大きな制動力が求められる領域である。

それぞれの領域では重視する制御目的が異なる。例えば、常用領域２２では燃費最小が優先されるが、渋滞領域２４では燃費最小に加えて、道路沿線住民の健康に配慮して排気最小も優先される。加速領域２６では、燃費よりむしろ加速性が重視される。この領域は、交差点での右折や緊急回避など安全性を確保する必要があるためである。また、最大減速領域２８ではできるだけ回生量を多くするために、バッテリ利用率を上げることが重視される。

このように、状態ごとに重視する制御目的が変わるために、その重みも状態に応じて変化させる必要が生じる。重みを状態ごとに変えるための方法として、例えばタイリングがある。タイリングの一例を図２（ｂ）に示す。図２（ｂ）では、車速、駆動力を等間隔に分割し、個々の長方形領域で全体を被覆する。分割された長方形領域を今後タイルと称し、全体空間をタイルに分割することをタイリングと称す。図中の３０はタイルの１つである。それぞれのタイルが別々の重みを持つことで、重みを状態ごとに変えることが可能となる。

また、上記の拡大状態空間とは、状態の次元と重みの次元を合わせて次元を拡大したものである。例えば、状態が３次元、重みを２次元とすると、拡大状態空間は５次元として取り扱われる。拡大状態空間は、車両４の状態及び重みの大きさに応じて領域分割され、各分割された領域ごとに価値と称されるスカラー値を有する。

価値決定手段６は、状態ｓ、重みａを合わせた拡大状態空間に対して、１次元の価値Ｑを与えるものとして定義する。ここで、（数２）のように、状態ｓをｍ次元ベクトル、重みａをｎ次元ベクトルとすると、拡大状態空間ｅは（ｍ＋ｎ）次元ベクトルである。

ここで、拡大状態空間の領域に対応する価値を導入するために、基底関数ｘを導入する。基底関数ｘの例を図３（ａ）に示す。なお、簡単のため、ｍ＝ｎ＝１次元で図示している。図３（ａ）における基底関数ｘは、（ｍ＋ｎ）次元拡大状態空間を底面に持つ高さ１の超錐として表される。この超錐を数式で書くと、（数３）のようになる。

ここで、添え字νは各超錐に付された一意的な番号である。（数３）中のｅはｓとａを合わせた拡大状態、ｃνはν番目の基底関数の中心座標、ｄνはν番目の基底関数の底面半径を表す。拡大状態ｅ、中心座標ｃν、底面半径ｄνはいずれも（ｍ＋ｎ）次元ベクトルである。（数３）は最大値ノルムを表しているため、基底関数ｘの底面は図３（ａ）のように状態ｓ、重みａと平行な境界を持つ。また、［］ｊは（ｍ＋ｎ）次元ベクトルのｊ成分を表す。このような基底関数ｘを、数４のように線形重み付き加算することで、連続な拡大状態空間における価値を表すことができる。ここで、ｗは後述する線形重みである。

このように拡大状態空間をいくつかの部分に分割し、それぞれの部分に対し価値を導入したものを、価値部分空間情報と定義する。ここでは簡単のために、タイリングにより拡大状態空間を分割している。図３（ｂ）は基底関数ｘ４個の線形重み付き加算を行って、（数４）に従って価値を求めた例を示す。このように価値を表せば、連続な状態と連続な重みが与えられたときに価値を一意に決定できる。なお、価値Ｑ（１，１）は、状態ｓ（１）及び重みａ（１）のときの価値を示す。

また、価値決定手段６は、価値部分空間情報に基づいてある状態に対応する価値と重みの関係データを求めるようになっている。図４に関係データを示す。ここでは簡単のため状態を固定し、制御目的１の重みａ１と制御目的２の重みａ２の２次元で価値が決まるマトリクスとして表している。ここで、図中の３２は最大価値点であり、数字は選択する確率を示す。すなわち、ａ１＝０．２、ａ２＝０を、約９７．６％の確率で選択する。

方針決定手段８は、図４の関係データに基づいて最大価値に対応する重みを、制御目的を達成する最適化重みとして選択する。すなわち、図４を例にとると、制御目的１と制御目的２を適切に達成するために、ａ１＝０．２、ａ２＝０を最適化重みとして選択する。このように基本的には、最大価値に対応する重みが選択されるが、解候補を探索してより適する重みを選択するために、ある確率で最大価値点３２以外の方針をランダムに選択する方法がε−ｇｒｅｅｄｙ戦略として知られており、本実施例ではこの方法を用いる。

最適化手段１０は、方針決定手段８により選択された最適化重みを前述した制御式に適用して制御入力を生成するもので、一目的最適化ソルバがこれに相当する。一目的最適化については、例えば、「システム最適化」（玉置久、オーム社）に記載があり、ここでは説明を省略する。

状態抽出手段１２は、車両４の状態を抽出する。車両４の状態は複数存在するが、ここでは制御目的に係る状態が抽出される。

価値更新手段１４は、状態抽出手段１２により抽出された車両４の状態と方針決定手段８で選択された最適化重みを入力とし、車両４の状態の変化を評価して価値部分空間情報の価値を更新する。価値の更新については、評価手段１６の評価により補正されるので後に詳述する。

評価手段１６は、最適化手段１０から出力される制御入力により制御された車両４の状態と制御目的の達成度合いに応じて評価を行い、評価に応じて報酬又は罰則を与える。すなわち、方針決定手段８で選択された最適化重みに基づく車両４の状態が、制御目的に沿うものであれば報酬を、制御目的に沿わないものであれば罰則を与える。なお、以降では報酬を正の報酬と表現し、罰則を負の報酬と表現する。

図５は、評価手段１６の評価の一例である。図５（ａ）は、時刻ｔ０におけるエンジン及びモータ動作点の図であり、図５（ｂ）は、時刻ｔ１（＝ｔ０＋Δｔ）におけるエンジン及びモータ動作点の図であり、横軸はエンジン回転数、縦軸はトルクである。

図５中のエンジン最大トルク３６は、エンジンが発生させる最大のトルクであり、総合最大トルク３６は、エンジンとモータが協調動作して発生させる最大のトルクである。なお、ここでは、エンジン軸とモータ軸が同じ回転軸に対してトルクを供給するパラレルハイブリッド自動車を想定している。エンジン最低回転数以下では、クラッチによって回転を滑らせながら、エンジントルクを後続軸に伝達する。エンジン動作点３８は時刻ｔ０におけるエンジン動作点であり、エンジン動作点４０は図１における要求指令に対応する時刻t１におけるエンジン動作点である。

図５では、エンジン動作点４０が総合最大トルクを超過しているため、要求指令で要求される加速トルクを発生させることができない。なお、ここで、範囲４２は時刻t１における可能トルク、範囲４４は不足トルクである。このような場合、ハイブリッド車両では変速ギアを切り替えて、エンジントルクが小さい動作点で所望の車両駆動力を発生できるようにするが、この操作が加速もたつきの一因となる。

ここで、可能トルクをτｍ、不足トルクをτｄとすると、加速もたつきを最小にするという制御目的に好適な報酬の値は、例えばτｄ／τｍとすることができる。この値が大きいと好ましくないので、この報酬に基づいて価値更新手段１４は、τｄを時々刻々小さくするように価値を学習していく。複数の制御目的を考慮すると、価値の学習によって動作点τ０やτ１は走行パターンと評価手段１６の評価によってある値で均衡する。

また、燃費最小という制御目的に好適な報酬の値は、例えば（Ｌ−Ｌｍｉｎ）／Ｌｍｉｎを用いることができる。ここでＬは時刻ｔ１における実際の燃費、Ｌｍｉｎは燃費最小という制御目的以外の最適化重みを０としたときの理想最小燃費である。なお、燃費最小という制御目的のためには、エンジン動作点を最大トルクに近くするほうが有利であるため、τｄを大きくする方向に働く。このようにして、評価手段１６は、価値更新手段１４が価値の更新の補正に用いる報酬を算出する。

価値更新手段１４は、（数５）に示す式に従って、線形重みｗを更新する。

なお、（数５）において、αは適当な学習係数、γは未来割引率、ｒは報酬である。報酬ｒ、状態ｓ、最適化重みａの右上に付けられた（ｔ）は時刻ｔにおける値を示す。例えば、ｒの右上に付けられた添え字は（ｔ＋１）であるので、時刻ｔの次の時刻でフィードバックされる報酬を表す。（数５）は一般的にＱ学習として知られた強化学習手法であり、時刻（ｔ＋１）において正の報酬が得られれば、時刻ｔにおける状態ｓの価値Ｑを増加させるように線形重みｗを変化させることを意味している。（数５）についての説明は、例えば、「強化学習の連続値への適用」（柴田聡志、神谷昭基、釧路工業高等専門学校「紀要」第４１号）に記載されているため、詳細は省略する。

図６は、制御入力決定手段２をハイブリッド自動車設計シミュレータに用いる場合の要求指令の設定手段の構成である。設定手段は、適当な車両４の走行パターン４６を指定数回繰り返すための繰り返し手段４８と、外乱模擬手段５０と、加算手段５２とを有する。外乱模擬手段５０の外乱が加算手段５２によって走行パターンに加え合わされるようになっている。これにより、走行パターンが比較的少ない場合に、繰り返し回数と、外乱のばらつきを適切に設定することで、できるだけ多くの走行パターンにおける学習を行うことができる。

このように構成される本実施例の動作について、図７，８のフローチャートを用いて説明する。ここでは、前述したハイブリッド自動車設計シミュレータを用いて学習を行う。まず、図７を参照して設計者が行う作業について説明する。ステップ１において、設計者は、学習用の車両４の運転パターンを選定し、複数の学習用運転パターンを用いる場合は、各運転パターンの出現確率を決定する。

ステップ２において、外乱模擬手段５０の誤差分布を決定する。ステップ３において、車両４の状態に応じて報酬を出力する関数、すなわち、評価手段１６において、制御目的の達成度合いに応じて決まる報酬を出力する関数を設計する。ステップ４において、ステップ１で決定した運転パターンを入力として最適化重みを学習させる。ステップ５において、学習の終了した最適化重みを保存する。最後にステップ６において、新たに評価したい運転パターンを入力として、学習の終了した最適化重みを用いてシミュレーションを行う。

次に、図８を参照して最適化重みの学習過程について説明する。なお、この過程では、設計者又は車両４の運転者がすべき作業はなく、自動で行われる。ステップ１１において、状態抽出手段１２により、時刻ｔの車速Ｖｔ、車両加速度ｄＶｔ／ｄｔ、アクセル開度θｔを観測する。ステップ１２において、制御関数ｆｉ（ｘ）に係る最適化重みをｋｉとし、車速Ｖｔ、車両加速度ｄＶｔ／ｄｔ、アクセル開度θｔを状態ｓｔとし、最適化重みｋｉの更新幅Δｋｉを行動ａｔとする。

ステップ１３において、価値決定手段６により、状態ｓｔの全ての行動ａｔでの価値Ｑｔを観測する。ステップ１４において、１−εの確率で最も高い価値Ｑを示す行動ａを選択し、εの確率で行動ａをランダムに選択し（ε−ｇｒｅｅｄｙ戦略）、最適化重みｋｉを決定する。ステップ１５において、最適化手段１０により、決定された最適化重みｋｉを用いて、時刻ｔにおける最適化を実行する。

ステップ１６において、評価手段１６の報酬ｒｔ＋１を受け取る。ステップ１７において、状態抽出手段１２により、時刻（ｔ＋１）の車速Ｖｔ＋１、車両加速度ｄＶｔ＋１／ｄｔ、アクセル開度θｔ＋１を観測する。ステップ１８において、価値更新手段１４により、（数５）を用いて線形重みｗを更新する。ステップ１９において、時間ステップを（ｔ＋１）に進めてステップ１１に戻る。以上のステップを充分な回数行ったら学習を終了する。

以上説明したように本実施例によれば、方針決定手段８で、要求指令に対応する状態に応じた関係データから制御目的を達成する最適化重みを選択し、最適化手段１０で、その最適化重みを制御式に適用して制御入力を生成し、その制御入力により車両４を制御する。次に、状態抽出手段１２で、その制御後の車両４の状態を抽出する。そして、価値更新手段１４で、車両４の制御前の状態と制御後の状態との変化に基づいて、価値部分空間情報の価値を更新する。さらに、評価手段１６で、制御後の状態と制御目的の目標値との差を求め、その差に基づいて価値更新手段１４の価値の更新を補正する。

このようにして、上記選択した最適化重みに対応する価値が更新されることで価値部分空間情報が更新され、それに伴って関係データが更新される。制御後の車両４は、更新された関係データに基づいて改めて方針決定手段８により選択された最適化重みにより制御されて新たな状態となり、その状態変化に基づいて価値が更新される。これらの過程を繰り返すことで、方針決定手段８は制御目的により適する重みを選択するようになり、車両４を制御目的に沿う状態にすることができる。

これにより、設計者は、制御目的、状態変化の評価の仕方等を設計することで、以降は制御入力決定手段２が学習によって自動的に適する重みを決定するようになっているので、重みの設計をする必要がなくなる。また、本発明は、スーパーコンピュータほどの計算処理能力を必要としないので、車両４等に組み込んでオンラインで最適化を行うことが可能となる。

また、マトリクス状に表された価値部分空間情報は、従来の制御プログラムに搭載されているテーブルやマップを検索するためのプログラムをそのまま又は少しの改良で用いることができるので、プログラムの開発が容易となる。また、価値部分空間情報を収束させた結果がマトリクス状になっていると、その結果をマップ化して実機に組み込む際の変換作業が不要になるという利点がある。これによって、更なる開発期間短縮効果が得られる。

実施例２について説明する。実施例１では、基本的な価値の更新方法について説明したが、価値部分空間の分割数が多い場合、ある状態になる頻度やある重みを選択する頻度が少なくなり、Ｑ学習が収束するまでの時系列信号を集めきれない場合がある。本実施例は、価値部分空間の分割数が多くなった場合においても、フィードバックによる価値の学習を可能にし、収束を早めるものである。

図９（ａ）に基本的な価値の更新方法の説明図を示す。通常、制御目的１の報酬ｒ１と制御目的２の報酬ｒ２の和によって、価値が更新される。そのため、更新される価値は１つであり、ある状態になる頻度やある重みを選択する頻度が少ない場合、それらに対応する価値の更新がなかなか行われない。

図９（ｂ）に価値の収束改善方法の説明図を示す。ここでは説明を簡単にするため、状態ｓはある状態に固定し、拡大状態空間として、ａ１、ａ２、Ｑを取り出して表記している。さらに簡単化するため、重みａ２に関する更新についてのみ説明する。

目的２の報酬ｒ２が正の場合、重みａ２の値について、方針決定手段８で選択した値より大きい値の重みに対応する価値は増加することが考えられる。一方、選択した値より小さい値の重みに対応する価値は減少すると考えられる。なお、この場合の価値の増減は推定によるものであるため、割り引いて評価する必要がある。割引率をβ（０≦β≦１）とすると、フィードバックされた評価ｒ１＋ｒ２によって決定される線形重みｗに目的２の報酬ｒ２の符号と割引率βをかけたものを反映させる。これを式に書き下したものを（数６）に示す。

これにより、ある評価がフィードバックされたときに更新される価値が増えるため、効率よく価値の学習を行うことが可能になり、収束性が改善する。

一方、図１０は、図２（ｂ）において、充分な学習回数を確保できなかったタイルに対して、隣接タイルから価値を補間する方法の説明図である。ここで、タイル６０，６１は最適化重みが収束したタイルであり、タイル６２，６３は最適化重みがまだ収束していないタイルである。タイル６２は両脇に収束したタイル６０，６１が存在するため、例えば平均をとることで価値を推定することができる。

タイル６３は左側に収束したタイル６０があるものの、右側には収束したタイルがないため、最も近い収束したタイル６０の最適化重みを用いることができる。このように、収束していない領域が存在する場合でも、価値の補間によって、比較的精度よく本発明による多目的最適化手法を用いることができる。

図１１を参照して実施例３について説明する。実施例１，２との違いは、評価手段１６の変わりに、評価者７０が車両４の制御後の状態、挙動を評価することである。なお、評価者７０は通常は車両４の運転者である。評価者７０による評価は、評価取得手段７２によって取得され報酬に変換される。

評価取得手段７２はハイブリッド自動車の場合、例えばアクセル開度センサ信号の記録や、ブレーキペダル踏下頻度取得によって実現される。例えば、運転快適性が制御目的の１つである場合、アクセル開度センサ信号の変動が少なく、ブレーキペダル踏下頻度が少ないと報酬は高い。

一方、評価取得手段７２を、車内カメラやマイクによって実現することもできる。この場合、評価者７０は車両４の制御後の状態に対して、笑顔や音声によって評価取得手段７２に評価を通知する。車両４が評価者７０にとって不快な挙動をしたときには評価が下がることになる。

これらの方法による場合、評価者７０は特に意識して評価を行う必要はなく、時間とともに自動的に評価が取得される。これにより、評価者７０は車両４を積極的に育てる楽しみを得られるため、車両４に新たな商品価値を付加することができる。

実施例１乃至３では、本発明を車両に適用する場合について説明したが、本発明は時々刻々評価情報が得られる対象であるならば、様々な対象に適用することができる。例えば、風力発電や太陽発電といった再生可能エネルギー発電を分散電力として系統に接続した電力システムの制御にも適用できる。

図１２に電力システムに本発明を適用した例について示す。図１２に示す電力システムは、電力ネットワーク８０を有し、集中電力８２と分散電力８４の供給を受ける。図中の８６は電力需要である。また、電力需給情報取得手段８８は、電力ネットワーク８０の電力需要及び電力供給の情報を取得する。なお、集中電力８２が本発明の制御対象である。評価手段１６には、電力需給情報のほかに、電力需要予測及びＣＯ_２排出割当が入力される。電力需要予測は、ＣＯ２排出割当を元に予め目標として設定する。

図１３に電力システムにおける評価の考え方を示す。図１３には、ＣＯ_２排出割当９０、電力需要予測のＣＯ２排出量換算値９２、実排出ＣＯ２量９４、瞬時超過ＣＯ２量９６が示されている。瞬時超過ＣＯ２量９６は、実排出ＣＯ２量９４から電力需要予測のＣＯ２排出量換算値９２を引いたものとして定義する。このときの電力システムの制御目的は、まず発電コストを最小にすることであり、次に、瞬時超過ＣＯ２量９６を最小にすることである。このように定義することで電力システムにおいても、実施例１乃至３と同様に、本発明を適用して複数の制御目的を考慮した系統電力制御を行うことができる。

以上、４つの実施例について説明したが、本発明は、これらに限らず適宜構成を変更して適用することができる。例えば、本実施例では、基底関数として（数３）を用いたが、これに限るものではなく、（数７）のようにガウス分布形状にしてもよい。

このガウス関数を用いれば、いたるところで微分可能な価値関数Ｑを得ることができるため、数４と数７から得られる価値関数も微分可能となり、感度解析や最小値探索といった微分を用いた各種数値演算手法の適用が容易になる。

また、本実施例では、タイリングにより拡大状態空間を分割しているが、例えば、複数の母点からの距離によって分類するボロノイ分割や、サポートベクタマシンといった方法も用いることができる。

また、方針決定手段８で価値を選択する方法としてε−ｇｒｅｅｄｙ戦略を用いたが、最大価値を選択する確率を時間とともに大きくするアニーリング戦略も用いることができる。

また、本実施例では、シミュレータにより最適化重みを学習させることについて述べたが、シミュレータである程度最適化重みを学習させ、その後車両に組み込んで運転者好みの挙動をする車両にすることもできる。

本発明の制御入力決定手段の構成図である。（ａ）は、車両の動作マップであり、（ｂ）は、動作マップのタイリングの方法である。（ａ）は、基底関数の一例であり、（ｂ）は、基底関数４個の線形重み付け加算である。２次元の重みのマトリクスである。（ａ）は、時刻ｔ０におけるエンジン及びモータ動作点の図であり、（ｂ）は、時刻ｔ１（＝ｔ０＋Δｔ）におけるエンジン及びモータ動作点の図である。ハイブリッド自動車設計シミュレータに用いる場合の要求指令の設定手段の構成である。設計者の作業のフローチャートである。学習過程を示すフローチャートである。（ａ）は、基本的な価値の更新方法の説明図であり、（ｂ）は、価値の収束改善方法の説明図である。隣接タイルから価値Ｑを補間する方法の説明図である。実施例３の制御入力決定手段の構成図である。本発明を電力システムに適用した例である。電力システムにおける評価の考え方を説明する図である。

符号の説明

２制御入力決定手段
４車両
６価値決定手段
８方針決定手段
１０最適化手段
１２状態抽出手段
１４価値更新手段
１６評価手段
７０評価者
８２集中電力

Claims

それぞれ重みが設定された複数の制御関数を有する制御式を用い、入力される要求指令に基づいて制御対象の制御入力を生成して出力する制御入力決定手段であって、
前記制御対象の状態と前記重みを次元としてそれらに対応する価値が設定された価値部分空間情報を有し、該価値部分空間情報に基づいて前記要求指令に対応する状態の価値と重みの関係データを求める価値決定手段と、
前記価値決定手段から出力される価値と重みの関係データに基づいて最大価値に対応する重みを、所定の制御目的を達成する最適化重みとして選択する方針決定手段と、
前記方針決定手段により選択された最適化重みを前記制御式に適用して前記制御入力を生成する最適化手段と、
前記制御対象の状態を抽出する抽出手段と、
該抽出手段により抽出された前記制御対象の状態と前記方針決定手段で選択された最適化重みを入力し、前記制御対象の状態の変化を評価して前記価値部分空間情報の価値を更新する価値更新手段と、
前記最適化手段から出力される制御入力により制御された前記制御対象の状態と前記制御目的の達成度合いに応じて前記価値更新手段の価値の更新を補正する評価手段とを備えてなる制御入力決定手段。
入力される要求指令に基づいてそれぞれ重みが設定された複数の制御関数を有する制御式を用い、入力される要求指令に基づいて制御対象の制御入力を生成して出力する制御入力決定手段であって、
前記制御対象の状態と前記重みを次元としてそれらに対応する価値が設定された価値部分空間情報を有し、該価値部分空間情報に基づいて前記要求指令に対応する状態の価値と重みの関係データを求める価値決定手段と、
前記価値決定手段から出力される価値と重みの関係データに基づいて最大価値に対応する重みを、所定の制御目的を達成する最適化重みとして選択する方針決定手段と、
前記方針決定手段により選択された最適化重みを前記制御式に適用して前記制御入力を生成する最適化手段と、
前記制御対象の状態を抽出する抽出手段と、
該抽出手段により抽出された前記制御対象の状態と前記方針決定手段で選択された最適化重みを入力し、前記制御対象の状態の変化を評価して前記価値部分空間情報の価値を更新する価値更新手段と、
前記最適化手段から出力される制御入力により制御された前記制御対象の状態の評価者の評価に応じて前記価値更新手段の価値の更新を補正する評価手段とを備えてなる制御入力決定手段。
請求項１又は２に記載の制御入力決定手段において、
前記価値更新手段は、前記最適化手段から出力される制御入力により制御された前記制御対象の状態と前記制御目的の達成度合いが設定値より大きいとき、前記価値部分空間において、前記最適化重みより大きい重みに対応する価値を増やし、前記達成度合いが設定値より小さいとき、前記価値部分空間において、前記最適化重みより小さい重みに対応する価値を更新することを特徴とする制御入力決定手段。
請求項１乃至３のうちいずれか１項に記載の制御入力決定手段において、
前記関係データを複数次元のマトリクスとして表現することを特徴とする制御入力決定手段。
請求項１乃至４のうちいずれか１項に記載の制御入力決定手段を有することを特徴とする車両。
請求項１乃至４のうちいずれか１項に記載の制御入力決定手段を有する前記制御対象のシミュレータであって、前記シミュレータは前記制御対象の動作パターンと前記動作パターンに加算される変動情報とを前記要求指令として前記制御対象に入力することを特徴とするシミュレータ。