JP2008204437A

JP2008204437A - 固定型の長期及び適応型の短期メモリを有するニューラルネットワークコントローラ

Info

Publication number: JP2008204437A
Application number: JP2008004538A
Authority: JP
Inventors: Danil V Prokhorov; ブイ．プロホロフダニル
Original assignee: Toyota Motor Engineering and Manufacturing North America Inc; Toyota Engineering and Manufacturing North America Inc
Current assignee: Toyota Motor Engineering and Manufacturing North America Inc
Priority date: 2007-01-12
Filing date: 2008-01-11
Publication date: 2008-09-04
Anticipated expiration: 2028-01-11
Also published as: US7647284B2; US20080172349A1; JP5102046B2

Abstract

【課題】ノードの相互接続の重みの変化に伴う悪影響を防止することにより、既知のコントローラの欠点を克服するリカレントニューラルネットワークを使用したコントローラの提供。
【解決手段】プラントの所望の状態及びプラントの実際の状態を表す少なくとも１つの外部入力信号と、プラントに対して制御信号として接続された出力と、を有する固定重み型リカレントニューラルネットワークを具備したプラント用のコントローラである。固定リカレントニューラルネットワークは、ノード間において固定重み型の相互接続を有するノードの組と、ノードの中の少なくとも１つからの出力を少なくとも１つのノードの入力に相互接続している少なくとも１つのフィードバック入力と、を含んでいる。これらのノードは、入力信号及びフィードバック信号の関数としてニューラルネットワークからの出力の値を総合的に判定している。
【選択図】図１

Description

（関連出願）
本出願は、２００７年１月１２日付けで出願された米国特許出願第１１／６２２，７６６号の優先権を主張するものである。
本発明は、一般に、ニューラルネットワークを利用したコントローラに関するものである。

閉ループ方式によって（フィードバックを介して）制御されるプラント、即ち、システムの動作を制御するべくコントローラによって使用されるタイプのニューラルネットワークは、入力層、隠れ層、及び出力層を含んでいる。これらの層のそれぞれは、異なる機能を実行している。

入力層は、プラントの所望の動作を表す１つ又は複数の制御信号を受信している。但し、入力層はこれらの入力を処理しない。

逆に、出力層は、プラントの動作をターゲット値に向かって制御する１つ又は複数の出力信号をプラントに対して供給している。尚、出力層は、プラントに結合された少なくとも１つの制御出力を含んでいるが、任意選択により、プラントに結合された複数の出力を包含可能である。

隠れ層は、入力層からの信号に応答し、出力層から所望の出力信号を供給するべく、信号の処理を実行している。隠れ層は、重みの組によって相互接続された複数のノードを含んでいる。これらの重みは、隠れ層内のそれぞれのノードからの出力に対して入力値が具備する相対的な効果の程度を決定している。それぞれのノードは、そのノードに対する入力の加重和の非線形関数であるなんらかの数学的活性化関数を更に実装している。

いくつかのニューラルネットワークは、隠れ層内においてフィードバックを提供していないフィードフォワードニューラルネットワークであるが、その他のニューラルネットワークは、隠れ層内のノード間に、又はネットワークの出力及びその入力の間に、少なくとも１つのフィードバック信号を含んでいる。このようなフィードバック信号を有するニューラルネットワークは、リカレントニューラルネットワークと呼ばれている。このフィードバックは、リカレントニューラルネットワークの短期メモリを構成している。

ノードの相互接続間に重みを確立するべく、既知のニューラルネットワークは、トレーニング法を利用することにより、ノードの相互接続に対して重みを設定している。これらの既知のコントローラにおけるこのようなニューラルネットワークを利用したトレーニング法によれば、必然的に、トレーニング期間中において、ノードの相互接続間における重みが変化することになる。この結果、トレーニングの後に、ノードの相互接続間におけるオリジナルの重みの設定が失われてしまう。

ノード間における重みの初期設定は、通常、多くの場合にコンピュータシミュレーションを使用することにより、オフライントレーニングにおいて実行されている。このようなオフライントレーニングにより、コントローラ設計者は、プラントの様々な異なる動作条件をコントローラに対して適用可能である。従って、適切に設計（通常は、トレーニング）された場合には、このようなオフライントレーニングを通じて決定されたノードの相互接続の初期の重みは、様々な異なる動作条件下において良好に動作する能力を有するロバストなコントローラを結果的にもたらすことになる。従って、これらの重みは、コントローラの長期メモリを形成している。

但し、このようなオフライントレーニングは、閉ループシステムにとって平均的に良好であり、且つ、コントローラのロバスト性を表しているノードの相互接続用の重みの組を提供している。しかしながら、すべてのプラントは、例えば、環境の変動に起因して互いに多少異なっているため、コントローラの動作を最適化するべく、なんらかの適応性をコントローラに提供することが望ましい。従来、このような適応性は、最適なシステム性能を実現するべくノードの相互接続間における重みを変化させることによって実現されている。更には、このような重みの調節は、コントローラのリアルタイム又はオンライントレーニングの際に、即ち、制御対象の実際のプラントと関連したコントローラの使用を通じて実行されている。

しかしながら、オンライントレーニングの際のノードの相互接続の重みの調節に伴う基本的な欠点は、システムによって最初に設定された重みの値が、オフライントレーニングの際に失われるという点にある。これは、コントローラの長期メモリの破壊と等価である。更には、このようなノードの相互接続の重みの変化は、システムのロバスト性に悪影響を及ぼすと共に、コントローラの性能の低下と、極端な場合には、コントローラ機能の完全な消失を結果的にもたらす可能性がある。

本発明は、既知のコントローラに伴う前述の欠点のすべてを克服するリカレントニューラルネットワークを使用したコントローラを提供している。

要すれば、本発明のコントローラは、ニューラルネットワークの入力層に接続された少なくとも１つの外部入力信号と、プラントに対して制御信号として接続されたニューラルネットワークの出力層からの少なくとも１つの出力信号と、を具備した固定重み型リカレントニューラルネットワークを有している。例えば、プラントが自動車用の電子スロットル制御装置である場合には、入力信号は、スロットルバルブプレートのターゲット及び実際の位置の両方を表す信号を有することになり、コントローラからの出力信号は、電子スロットルをターゲット値に起動するべく接続されることになろう。

固定重み型ニューラルネットワークは、固定重み型の相互接続をノード間に具備したノードの組を含んでいる。少なくとも１つのフィードバック信号が少なくとも１つのノードの出力から少なくとも１つのノードの入力に対して供給されている。従って、このニューラルネットワークは、リカレントニューラルネットワークである。

実際に、固定重み型リカレントニューラルネットワークのノードの相互接続の重みは、オフライントレーニングにおいて決定されている。このようなトレーニングは、通常、高忠実度のコンピュータシミュレーションによって実行されているため、様々な異なるシミュレートされた動作条件において、固定型リカレントニューラルネットワークのロバスト性を確立可能である。

最適なシステム性能のためのコントローラの適応性を提供するべく、本発明のコントローラは、適応型ニューラルシステムを更に含んでいる。この適応型ニューラルシステムは、プラントのターゲット値と実際の値の間の差を表わしているプラントの状態を表す入力信号と、固定型リカレントニューラルネットワークの少なくとも１つのノードに接続されたフィードバック信号として結合された出力と、を受信している。又、適応型ニューラルシステムは、１つに相互接続された非線形数学関数を表す複数のノードをも含んでいる。但し、適応型ニューラルシステムは、固定重み型リカレントニューラルネットワークとは異なり、ノードの相互接続の重みを変化させることにより、システムの最適な性能を実現している。この結果、動作においては、適応型ニューラルシステムは、プラントの性能を最適化するべく、オンライントレーニングの最中及びその後に、固定重み型リカレントニューラルネットワークのフィードバック入力に対して訂正信号を生成している。

適応型ニューラルシステムは、任意の従来の構成を採用可能であるが、本発明の好適な実施例においては、プラントからのコスト信号に応答し、既定の範囲においてコスト値を予測するリカレント適応型クリティックを有している。次いで、同時摂動確率近似などの有限差分アルゴリズムにより、適応型クリティックからの予測値を利用し、フィードバック信号として固定重み型リカレントニューラルネットワークに対して訂正出力信号を生成している。

本発明のコントローラの基本的な利点は、適応型リカレントニューラルネットワークによって提供される訂正が、固定重み型リカレントニューラルネットワークの状態にのみ影響を及ぼし、重みには影響を及ぼさないという点にある。この結果、オフライントレーニングを通じて得られた固定重み型リカレントニューラルネットワークのロバスト性が、破壊されることなしに、維持されている。

添付の図面との関連において、以下の詳細な説明を参照することにより、本発明について十分に理解することができよう。添付の図面中のいくつかの図においては、類似の参照符号によって類似の部分を示している。

まず、図１を参照すれば、本発明のコントローラ１０の好適な実施例のブロックダイアグラムが示されている。コントローラ１０は、固定重み型リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：ＲＮＮ）を含んでいる。一般的なＲＮＮ１２は、入力層１４、出力層１６、及び隠れ層１８を含んでいる。多くの場合に、少なくとも１つの隠れ層が必要とされており、フィードバックを有する非層型のニューラルネットワークも可能である。

従来の方式においては、入力層１４は、プラント２２の望ましい又はターゲット状態を表す入力信号を入力２０上において受信している。例えば、プラント２２が、自動車に使用されるタイプの電子スロットルを有している場合には、入力２０上の信号は、自動車用のスロットルバルブプレートの望ましい位置を表す信号を有することができる。入力２０上の別の信号は、スロットルバルブプレートの実際の位置を含んでいる。

同様に、出力層１２は、その出力２４上において、制御信号として信号をプラント２２に供給している。尚、図１には、１つの出力２４のみが示されているが、当然のことながら、ＲＮＮ１２は、いくつかの異なる出力２４を具備可能であることを理解されたい。プラント２２が電子スロットル制御装置を有する例においては、ＲＮＮ１２からの出力２４上の出力信号は、スロットルの作動の程度を制御することになる。

更に図１を参照すれば、隠れ層１８は、複数のノード２６を含んでおり、このそれぞれは、そのノードに対する入力の加重和の非線形関数であるなんらかの数学的活性化関数を実装している。ノード２６は、図示されているように、相互接続２８によって相互接続されており、隠れ層１８内のそれぞれのノードの相互接続には、既定の重みが割り当てられている。

少なくとも１つの、且つ、更に一般的には、いくつかのフィードバック相互接続３０が、固定重み型ニューラルネットワーク１２の隠れ層１８内のノード２６の中の少なくとも１つのものの出力から供給され、ノード２６の中の少なくとも１つのものに対して入力信号Ｚ^-1として結合されている。

ノード相互接続２８の重みは、通常、コンピュータシミュレーションを使用し、オフライントレーニングを通じて入手されている。このようなシミュレーションにより、設計者は、満足のゆくＲＮＮ１２のロバスト性を得るべく、様々なシミュレートされた条件をＲＮＮに対して適用可能である。ｎｐｒＫＦ（Ｋａｌｍａｎフィルタ）法などの任意の従来の方法を使用することにより、固定重み型ＲＮＮ１２内のノードの相互接続の重みを最適化可能である。

ＲＮＮ１２の適切なオフライントレーニングの後に、ＲＮＮ１２は、プラント２２の許容可能な動作を単独で提供することになる。しかしながら、すべてのプラント２２は、同一のタイプであったとしても、相互に多少異なっているため、プラント２２の最適な性能のためには、コントローラのなんらかの適応性が望ましい。この適応性を適応型ニューラルシステム（ＡｄａｐｔｉｖｅＮｅｕｒａｌＳｙｓｔｅｍ：ＡＮＳ）５０によって提供している。

ＡＮＳ５０は、入力５２上において、プラント２２からコスト信号を受信している。入力５２上の信号は、そのプラント状態におけるターゲット値と実際の値の間の差分を表している。理想的には、入力ライン５２上のコスト値は、ゼロであり、これは、プラント２２の実際の性能がその状態のターゲット値に対応していることを示している。この場合には、ＡＮＳ５０は、固定重み型ＲＮＮ１２の動作に対して影響を及ぼさない。

一方、そのプラント状態におけるターゲット値がその実際の値と異なっている場合には、ライン５２上のＡＮＳ５０に対するコスト入力はノンゼロである。この場合には、適応型ＡＮＳは、後程更に詳細に説明する方式により、そのプラント状態のターゲット値とそのプラント状態が互いに等しいか又は略等しくなるようにプラント２２の動作を調節するために、固定重み型ＲＮＮ１２からのライン２４上の出力を変更するべく設計された訂正信号をその出力５２上に生成することになる。

ＡＮＳ５０からの出力５２は、フィードバック入力信号として固定重み型ＲＮＮ内の１つ又は複数のノード２６に対して結合されている。従って、ＡＮＳからの出力信号は、固定重み型ＲＮＮ１２の状態Ｚ_crには影響を与えるが、ＲＮＮ１２のノード相互接続の重みを変化させることはない。この結果、適応型ＲＮＮ５０は、オフライントレーニングの際に得られた固定重み型ＲＮＮ１２のロバスト性に影響を与えることなしに、ＡＮＳ５０によって提供される適応性を通じてプラント２２の動作の最適化を実現している。

次に、図２を参照すれば、ブロック５０内においては、本発明の範囲を逸脱することなしに、任意のＲＮＮを利用可能ではあるが、本発明の好適な一実施例においては、ＡＮＳ５０は、システム状態と関連した価値関数の推定値としてその出力６２上においてＪ値を予測するリカレント適合型クリティック６０を含んでいる。基本的に、Ｊクリティックは、次のように近似される。

実際には、無限に対する加算の実行は不可能であるため、前述の式を約分するγによって定義された有限な範囲を選択することにより、次のように、更に適度な範囲を選択している。

リカレント適応型クリティック６０は、複数の相互接続されたノードを具備したニューラルネットワークを有している。これらのノードの少なくともいくつかは、フィードバック信号をネットワーク内のその他のノードに供給しており、且つ、任意選択により、この適応型ニューラルネットワークは、固定重み型ＲＮＮ１２の１つ又は複数のノードからの入力信号と、閉ループシステムのその他の状態変数を受信している。但し、適応型クリティック６０内のニューラルネットワークの動作を最適化するには、適応型クリティック６０内の様々なノード相互接続の重みの適切な値を得るべく、適応型クリティック６０にオンライントレーニングを適用する必要がある。

適応型クリティック６０のオンライントレーニングには、その演算効率が良好である限り、任意の従来の方法を使用可能である。但し、本発明の好適な実施例においては、このようなオンライントレーニングのために、確率的メタ下降（ＳＭＤ、ＳｔｏｃｈａｓｔｉｃＭｅｔａ−Ｄｅｓｃｅｎｔ）を利用している。反復的なＳＭＤアルゴリズムは、２つの段階から構成されている。第１に、ローカル学習係数のベクトルｐを、次のように更新している。

ｐ（ｔ）＝ｄｉａｇ（ｐ（ｔ−１））ｍａｘ（０．５，１＋μｄｉａｇ（ｖ（ｔ））▽（ｔ））
ｖ（ｔ＋１）＝ηｖ（ｔ）＋ｄｉａｇ（ｐ（ｔ））（▽（ｔ）＝ηＣｖ（ｔ））

ここで、ηは、忘却係数であり、μは、スカラーメタ学習係数であり、ｖは、補助ベクトルであり、Ｃｖ（ｔ）は、曲率行列Ｃとｖの積であり、▽は、Ｗ_Cと関連したＪ（ｔ）の導関数と時間ステップの短いウィンドウにおいて平均化されたクリティックの誤差Ｊ（ｔ）−ｃｏｓｔ（ｔ）−γＪ（ｔ＋１）の積である。第２に、クリティックの重みの更新は、Ｗ_C（ｔ＋１）＝Ｗ_C（ｔ）−ｄｉａｇ（ｐ（ｔ））▽（ｔ）であり、ここで、Ｗ_C＝クリティックの重みベクトルである。

更に図２を参照すれば、適応型クリティック６０からのライン６２上におけるＪ出力を有限差分アルゴリズム６４によって処理することにより、固定重み型ＲＮＮ１２に対してライン５２（図１）上に出力される訂正信号

を得ている。任意の有限差分アルゴリズムを利用可能ではあるが、その単純性及び非常に低い演算要件に起因し、同時摂動確率近似（ＳｉｍｕｌｔａｎｅｏｕｓＰｅｒｔｕｒｂａｔｉｏｎＳｔｏｃｈａｓｔｉｃＡｐｐｒｏｘｉｍａｔｉｏｎ：ＳＰＳＡ）と呼ばれるアルゴリズムが好ましい。

ＳＰＳＡの１つの形態においては、パラメータベクトル次元から独立した２つのコスト評価を使用することにより、それぞれの適応型パラメータの１回の更新を実行している。本発明においては、ＳＰＳＡアルゴリズム６４は、重みの更新ではなく、出力ライン５２上においてノードの更新を提供している。具体的には、それぞれのＳＰＳＡ更新は、次のように判定されている。

ここで、Ｚ_crは、その更新値

を有するＲＮＮコントローラの状態ベクトルであり、Δは、すべての更新段階において新しく生成される対称分散Ｂｅｒｎｏｕｌｌｉランダム変数のベクトルであり（例えば、Δ_iと表記されたΔのｉ番目のコンポーネントは、＋１又は−１のいずれかである）、Ｊ^±は、最小化対象のコスト関数であり、ここで、上付き文字「＋」及び「−」は、Ｚ_crの正及び負の摂動にそれぞれ対応しており、

であって、ｃは、小さな摂動段階のサイズであり、ａは学習係数である。この結果、ＳＰＳＡアルゴリズム６４は、次のように、ｚ_erの更新値を提供している。

それぞれのＳＰＳＡ更新は、適応型クリティック６０からの２つの連続したＪ値の演算を必要としている。この結果、１回のＳＰＳＡ更新は、閉ループシステムのその他の時間ステップごとに一回ずつを上回っては実行されない。従って、動作の際には、ＳＰＳＡアルゴリズム６４を使用する正及び負の摂動は、システム性能を最適化するべく固定重み型ＲＮＮ１２に適切なフィードバック信号を供給するのに必要な値

を最適化している。

参照符号５０の適応型ＲＮＮとしては、その他のタイプを使用することも可能であるが、有限差分アルゴリズム６４と共にリカレント適応型クリティックを使用する方法は、演算的に許容可能であり、且つ、十分なシステム性能を提供している。これは、有限差分アルゴリズム６４としてＳＰＳＡアルゴリズムを利用する場合に、特に当て嵌まる。但し、この代わりに、本発明の精神又は範囲を逸脱することなしに、参照符号５０の適応型ＲＮＮとして、異なるタイプを使用することも可能である。

以上の内容から、本発明は、相互にタンデム方式で動作する２つのニューラルネットワーク１２及び６０を利用したプラント用のコントローラを提供していることがわかる。固定型ＲＮＮ１２のノードの相互接続の重みが一定であるため、固定重み型ＲＮＮ１２のオフライントレーニングの利点が、そのオフライントレーニングに起因した全体的なロバスト性と共に、保持されている。

逆に、参照符号５０の適応型ＲＮＮは、可変重みを有するノード相互接続を具備している。適応型ＲＮＮのノード相互接続の重みは、適応型ＲＮＮからの出力が固定ＲＮＮ１２の状態には影響を及ぼすが、重みには影響を及ぼさないように、オンライン又はリアルタイムトレーニングを通じて入手されている。従って、参照符号５０の適応型ＲＮＮは、プラント状態のプラントターゲット値とその状態の実際のプラント値の間の差を極小化するべく十分な訂正フィードバック信号を固定重み型ＲＮＮ１２に供給可能であり、これにより、適応型ＲＮＮに対するコスト入力が極小化される。

本発明の説明は以上のとおりであるが、当業者には、添付の請求項の範囲によって定義されている本発明の精神を逸脱することなしに、この内容に対する多数の変更が明らかとなろう。

本発明の好適な実施例を示すブロックダイアグラムである。本発明の好適な実施例を示すブロックダイアグラムである。

Claims

プラント用のコントローラにおいて、
前記プラントの所望の状態を表す少なくとも１つの外部入力信号と、前記プラントに対して制御信号として接続された出力と、ノード間における固定重み型の相互接続を有する前記ノードの組と、前記ノードの少なくとも１つからの出力を少なくとも１つのノードの入力に相互接続する少なくとも１つのフィードバック入力と、を具備した固定重み型リカレントニューラルネットワークであって、前記ノードは、前記少なくとも１つの外部入力信号及び前記少なくとも１つのフィードバック入力の１つ又は複数の値の関数として前記固定重み型リカレントニューラルネットワークの出力の値を集合的に判定している、固定重み型リカレントニューラルネットワークと、
コスト入力と、出力と、ノード間における可変重み型の相互接続を有する複数の前記ノードと、を具備した適応型ニューラルシステムであって、前記適応型ニューラルシステムの出力は、前記固定重み型リカレントニューラルネットワークの少なくとも１つのフィードバック入力に結合されており、これにより、前記固定重み型リカレントニューラルネットワークの短期メモリを変化させる、適応型ニューラルシステムと、
を有するコントローラ。
前記適応型ニューラルシステムは、リカレントニューラルネットワークを有する、請求項１記載の発明。
前記適応型ニューラルシステムは、前記コスト入力に接続された少なくとも１つの入力と、有限差分プロセッサに接続された出力と、を具備した適応型クリティックを有しており、前記有限差分プロセッサの出力は、前記適応型ニューラルシステムからの前記出力を形成している、請求項１記載の発明。
前記有限差分プロセッサは、同時摂動確率近似を利用している、請求項３記載の発明。
前記適応型ニューラルシステムは、入力信号として前記固定重み型ニューラルネットワークから少なくとも１つのノード出力信号を受信している、請求項１記載の発明。
前記適応型クリティックは、前記有限差分プロセッサによって使用されるコストパラメータの予測値を生成している、請求項３記載の発明。
前記適応型クリティックのノード間における重みをリアルタイム動作において調節する手段を有する、請求項１記載の発明。
前記調節手段は、前記ノードの重みに対して確率的メタ下降最適化を実行する手段を有する、請求項７記載の発明。
プラント用のコントローラにおいて、
前記プラントの所望の状態を表す少なくとも１つの外部入力信号と、前記プラントに対して制御信号として接続された出力と、ノード間における固定重み型の相互接続を有する前記ノードの組と、を具備した固定重み型リカレントニューラルネットワークであって、前記ノードは、短期メモリを有しており、前記重みは、長期メモリを有しており、前記ノード及び前記重みの両方が固定重み型リカレントニューラルネットワークを定義している、固定重み型リカレントニューラルネットワークと、
コスト入力と、出力と、ノード間において可変重み型の相互接続を有する複数の前記ノードと、を具備した適応型ニューラルシステムであって、前記適応型ニューラルシステムの出力は、前記固定重み型リカレントニューラルネットワークの少なくとも１つのフィードバック入力に結合されており、これにより、前記固定重み型リカレントニューラルネットワークの状態を変化させている、適応型ニューラルシステムと、
を有するコントローラ。
前記適応型ニューラルシステムは、リカレントニューラルネットワークを有する、請求項９記載の発明。
前記適応型ニューラルシステムは、前記コスト信号に接続された少なくとも１つの入力と、有限差分プロセッサに接続された出力と、を具備した適応型クリティックを有しており、前記有限差分プロセッサの出力は、前記適応型ニューラルシステムからの前記出力を形成している、請求項９記載の発明。
前記有限差分プロセッサは、同時摂動確率近似を利用している、請求項１１記載の発明。
前記適応型ニューラルシステムは、入力信号として前記固定重み型ニューラルネットワークから少なくとも１つの出力信号を受信している、請求項９記載の発明。
前記適応型クリティックは、前記有限差分プロセッサによって使用されるコストパラメータの予測を生成している、請求項１１記載の発明。
前記ノード間における重みをリアルタイム動作において調節する手段を有する、請求項９記載の発明。
前記調節手段は、前記ノードの重みに対して確率的メタ下降最適化を実行する手段を有する、請求項１５記載の発明。