JP2000122992A

JP2000122992A - 情報処理装置および方法、並びに提供媒体

Info

Publication number: JP2000122992A
Application number: JP11021791A
Authority: JP
Inventors: Atsushi Tani; 淳谷
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-08-12
Filing date: 1999-01-29
Publication date: 2000-04-28
Also published as: WO2000010098A1

Abstract

(57)【要約】【課題】少ないアクション経験で、リワードを最大に
するアクションプランを生成できるようにする。【解決手段】ステップＳ１で順方向ダイナミクスによ
り、リカレント型ニューラルネットワークにおいて、最
大のリワードが得られる予測処理を行う。ステップＳ２
において、逆方向ダイナミクスによるプランの生成処理
が行われる。これにより、最大のリワードを得るための
アクションの差分値の系列がアクションプランとして生
成される。以上の処理がステップＳ３において所望のア
クションプランが得られたと判定されるまで、繰り返し
実行される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置およ
び方法、並びに提供媒体に関し、特に、行動プランを生
成することができるようにした、情報処理装置および方
法、並びに提供媒体に関する。

【０００２】

【従来の技術】例えば、ロボットに適用される人工知能
について、さまざまな研究がなされている。Long-Ji Li
nは、その論文「Reinforcement Learning With Hidden
States」において、リカレント型ニューラルネットワー
ク（RNN）を用いて、予測と報酬学習を組み合わせるこ
とを提案している。

【０００３】また、R.S. Suttonは、「Learning to pre
dict by the methods of temporaldifferences」,Machi
ne Larning,3:9-44,1988において、内部モデルと報酬学
習を組み合わせることを提案している。そこでは、内部
モデルにより、リハーサルを通してアクションポリシー
の強化学習が行われている。

【０００４】

【発明が解決しようとする課題】しかしながら、上記し
たいずれの提案においても、将来のアクションのシーケ
ンスとしての行動（アクション）プランを生成すること
ができない課題があった。

【０００５】本発明はこのような状況に鑑みてなされた
ものであり、行動プランを生成することができるように
するものである。

【０００６】

【課題を解決するための手段】請求項１に記載の情報処
理装置は、複数ステップ先に得られるリワードの内部モ
デルによる予測を最大にするアクションの変化分を演算
する第１の演算手段と、アクションポリシーに基づきア
クションを演算する第２の演算手段とを備えることを特
徴とする。

【０００７】請求項３に記載の情報処理方法は、複数ス
テップ先に得られるリワードの内部モデルによる予測を
最大にするアクションの変化分を演算する第１の演算ス
テップと、アクションポリシーに基づきアクションを演
算する第２の演算ステップとを含むことを特徴とする。

【０００８】請求項４に記載の提供媒体は、複数ステッ
プ先に得られるリワードの内部モデルによる予測を最大
にするアクションの変化分を演算する第１の演算ステッ
プと、アクションポリシーに基づきアクションを演算す
る第２の演算ステップとを含む処理を情報処理装置に実
行させるコンピュータが読みとり可能なプログラムを提
供することを特徴とする。

【０００９】請求項１に記載の情報処理装置、請求項３
に記載の情報処理方法、および請求項４に記載の提供媒
体においては、複数ステップ先に得られるリワードの内
部モデルによる予測を最大にするアクションの変化分が
演算されるとともに、アクションポリシーに基づきアク
ションが演算される。

【００１０】

【発明の実施の形態】図１は、本発明の情報処理装置を
適用したロボットの外観構成を示している。この構成例
においては、ロボット１１の上部にセンサの１つとして
機能するテレビカメラ１２が取り付けられ、周囲の画像
を撮像するようになされている。ロボット１１の下側に
は、車輪１３が取り付けられ、任意の位置に移動できる
ようになされている。また、ロボット１１の側面には、
ディスプレイ１４が取り付けられ、所定の文字や画像
が、必要に応じて表示されるようになされている。セン
サ１５は、ロボット１１の周囲の情報を検出する。

【００１１】図２は、ロボット１１の内部の構成例を表
している。テレビカメラ１２は、周囲の映像をカラー画
像として取り込み、取り込んだカラー画像データを制御
回路２４と量子化回路２５に出力している。量子化回路
２５は、入力されたカラー画像データを量子化し、ニュ
ーラルネット認識装置２３に出力する。センサ１５は検
出した各種の情報を制御回路２４に出力している。ニュ
ーラルネット認識装置２３は、量子化回路２５より入力
されたカラー画像データを認識処理し、認識結果を制御
回路２４に出力する。例えば、マイクロコンピュータな
どにより構成される制御回路２４は、ニューラルネット
認識装置２３に対して、ロボットの移動方向を通知する
とともに、ニューラルネット認識装置２３より供給され
た予測結果を、CRT，LCDなどよりなるディスプレイ１４
に出力し、表示させる。

【００１２】また、制御回路２４は、モータ２１を駆動
し、テレビカメラ１２を所定の方向に指向させる。さら
に、制御回路２４はモータ２２を駆動し、車輪１３を回
転して、ロボット１１を所定の位置に移動させる。

【００１３】図３は、ニューラルネット認識装置２３を
構成する、リカレント型ニューラルネットワーク（RN
N）３１の構成例を表している。同図に示すように、RNN
３１は、所定の数のニューロンからなる入力層４１を有
し、この入力層４１の各ニューロンには、各種のセンサ
１５（テレビカメラ１２を含む）の状態に対応する信号
（以下、単にセンサとも称する）Ｓ（ｔ）、リワード
（報酬）Ｒ（ｔ）、およびアクションＡ（ｔ）が、制御
回路２４から入力される。入力層４１に入力されたデー
タは、所定の数のニューロンからなる中間層４２を介し
て、所定の数のニューロンからなる出力層４３から出力
される。

【００１４】各ニューロンは、所定の学習を行うことに
より、所定の重み付け係数を記憶しており、入力に対し
て重み付け係数を乗算して、他のニューロンに出力す
る。また、出力層４３の所定のニューロンの出力の一
部、コンテキスト（context）Ｃ（ｔ＋１）は、入力層
４１のニューロンにフィードバックされる。

【００１５】RNN３１は、現在の時刻（ステップ）ｔで
のセンサＳ（ｔ）、リワードＲ（ｔ）、およびアクショ
ンＡ（ｔ）を入力し、次の時刻（ステップ）ｔ＋１にお
けるセンサＳ（ｔ＋１）、リワードＲ（ｔ＋１）、およ
びアクションＡ（ｔ＋１）を予測し、出力する。RNN３
１は、行動学習を行うことにより、現在時刻と次の時刻
の関係を結合重みを徐々に変えることによって記憶す
る。すなわち、現時点におけるセンサＳ（ｔ）とアクシ
ョンＡ（ｔ）の入力に対して、次の時刻（ステップ）に
おいては、どのようなセンサＳ（ｔ＋１）、およびリワ
ードＲ（ｔ＋１）が得られるか、また、そのときのアク
ションＡ（ｔ＋１）はどのようになるかを予測できるよ
うに学習する。

【００１６】実際の学習時においては、高いリワードＲ
（ｔ）が得られたとき、そのアクションＡ（ｔ）を強化
する方向に学習が行われる。これは、Profit Sharing法
といわれ、強化学習法の一種である。このProfit Shari
ng法については、例えば、「強化学習における報酬割当
ての理論的考察」人工知能学会誌Vol.9 No.4第５８０ペ
ージ乃至第５８６ページに紹介されている。

【００１７】これにより、ロボット（エージェント）１
１は、常に自分の行動（アクション）を高いリワードが
得られる方向に持っていくようなアクションポリシーを
得ることができる。

【００１８】しかしながら、強化学習は、その学習を収
束させるために、多くの試行錯誤が必要であることが知
られている。そこで、本発明においては、アクションポ
リシーの強化学習とともに、内部モデルの学習も行うよ
うにすることで、学習の効率をあげるようにしている。
ここで、内部モデルとは、RNN３１において、次の時刻
（ステップ）でのセンサ入力およびリワードを、いまと
る行動に対して予測できる機能を意味する。

【００１９】実際には、この内部モデル（予測器）を用
いて、将来得られるリワード（複数ステップでのリワー
ド）の合計値が、最大になるようにアクションプラン
（アクションシーケンスの組み合わせ）が求められる。
このため、RNN３１において後述するように、順方向ダ
イナミクスと逆方向ダイナミクスの処理が繰り返し実行
される。

【００２０】また、この時、アクションプラン（アクシ
ョンの組み合わせ）のサーチ範囲（予測範囲）が、組み
合わせ的に広がらない（あまり、突飛なアクションプラ
ンが予測されない）ようにするために、サーチ範囲は強
化学習で得られたアクションポリシーに基づいて制約す
る。すなわち、より高いリワードが得られる方向のみを
サーチし、リワード全体を最適化するような行動プラン
が立てられる。

【００２１】実際のプランにおいては、次式で示すエネ
ルギＥが最小となる方向にアクションプランが求められ
る。

【００２２】

【数１】

【００２３】上記式において、Ｋ_r，Ｋ_m，Ｋ_p，η，α
は係数であり、γはリワード減衰率を表し、Ｒ（ｔ）は
リワードを表し、Ｒ_P（ｔ）はリワードの予測値を表
し、Ａ（ｔ）はアクションを表し、Ａ_P（ｔ）はアクシ
ョンの予測値を表し、Noiseはノイズを表している。

【００２４】上記した式（１）の第１項は、リワードの
予測値を最大にする（負の符号が付加されているので、
エネルギＥを小さくする）ための項であり、第２番目の
項は、アクションを０から１の間の値ではなく、０また
は１の値とさせるための項であり、第３番目の項は、ア
クションポリシーのための項である。エネルギＥは、こ
れらの３つの項の和として定義される。

【００２５】式（１）における第１番目の項を最小化す
るために、RNN３１は、図４のフローチャートに示す処
理を実行する。

【００２６】すなわち、最初にステップＳ１において、
順方向ダイナミクスによる予測処理が行われる。この予
測処理は、例えば図５に示すように、時刻ｔ＝０におい
て、センサＳ（０）、リワードＲ（０）、アクションＡ
（０）、コンテキストＣ（０）の入力を与えたとき、時
刻ｔ＝１におけるセンサＳ（１）、リワードＲ（１）、
アクションＡ（１）、およびコンテキストＣ（１）を予
測生成する処理である。同様にして、時刻ｔ＝１のセン
サＳ（１）、リワードＲ（１）、アクションＡ（１）、
およびコンテキストＣ（１）を入力として、時刻ｔ＝２
におけるセンサＳ（２）、リワードＲ（２）、アクショ
ンＡ（２）、およびコンテキストＣ（２）が予測生成さ
れる。以下同様に、この例の場合、時刻ｔ＝３まで、予
測生成処理が行われる。このようにして、リワードＲ
（０）乃至Ｒ（３）を合計した値が最大となるように学
習が行われる。

【００２７】なお、図５においては、RNN３１が多段階
に示されているが、実際の処理としては、１個のRNN３
１において、所定の時刻（ステップ）における出力が、
次の時刻（ステップ）における入力として帰還されるこ
とになる。

【００２８】次に、ステップＳ２において、逆方向ダイ
ナミクスによるプランの生成処理が実行される。この処
理は、例えば、図６に示すように行われる。すなわち、
０から１までの値をとるリワードの最大値Ｒ_max（＝
１）から、時刻ｔ＝３において得られたリワードＲ
（３）を減算した差分値ｄＲ（３）（＝Ｒ_max−Ｒ
（３））と、コンテキストＣ（３）が、RNN３１に対し
てステップＳ１における場合と逆方向に伝搬され、差分
アクション（アクションの変化分）ΔＡ（２）とコンテ
キストＣ（２）が生成される。差分アクションを一般式
で表すと、式（３）に示すようになる。

【００２９】次のステップにおいては、同様にして、時
刻ｔ＝２におけるリワードＲ（２）をリワードの最大値
Ｒ_maxから減算した差分ｄＲ（２）（＝Ｒ_max−Ｒ
（２））とコンテキストＣ（２）が、RNN３１に逆方向
から入力される。これにより、差分アクションΔＡ
（１）が生成されるとともに、コンテキストＣ（１）が
生成される。

【００３０】コンテキストＣ（２）には、差分ｄＲ
（３）の成分が含まれており、アクションの変化分ΔＡ
（１）は、差分ｄＲ（２）と差分ｄＲ（３）の両方の成
分に基づいて生成される。

【００３１】さらに、同様にして、時刻ｔ＝１における
リワードＲ（１）をリワードの最大値Ｒ_maxから減算し
た差分ｄＲ（１）（＝Ｒ_max−Ｒ（１））と、時刻ｔ＝
１におけるコンテキストＣ（１）を逆方向から入力し
て、差分アクションΔＡ（０）とコンテキストＣ（０）
が生成される。

【００３２】差分アクション（アクションの差分値）Δ
Ａ（２）乃至ΔＡ（０）が、アクションシーケンスの組
み合わせ、すなわち、行動プランとなる。

【００３３】次に、ステップＳ３に進み、所望の行動プ
ランが得られ、処理を終了するか否かが判定され、ま
だ、処理を終了しない場合には、ステップＳ１に戻り、
それ以降の処理が繰り返し実行される。所望の行動プラ
ンが得られたとき、処理が終了される。

【００３４】以上のようにして、式（１）における最初
の項のリワードの予測値を最大にするための処理が行わ
れる。図示は省略するが、RNN３１においては、式
（１）における第２番目の項と第３番目の項における処
理も実行される。

【００３５】これにより、図７に模式的に示すように、
RNN３１の所定の時刻（図７の例の場合、ｔ＝１）にお
いてRNN３１に対して入力されるアクションＡ（１）
は、時刻ｔ＝０からのアクションの予測値Ａ_P（１）
と、時刻ｔ＝２におけるリワードＲ（２）により逆ダイ
ナミクスにより生成して得られた差分アクションΔＡ
（１）に基づいて生成されたものとなる。

【００３６】以上の処理におけるRNN３１の学習の過程
を模式的に表すと、図８に示すようになる。すなわち、
センサ入力からアクションポリシーの決定処理により、
所定のアクションが出力されるように強化学習が行われ
る。また、センサ、リワード、およびアクションの入力
に基づいて、内部モデルが、所定のセンサ予測とリワー
ド予測を出力するように学習が行われる。すなわち、強
化学習と予測に基づくモデル学習の両方が行われる。

【００３７】以上の実施の形態では、強化学習のリワー
ドの仕方を予め外部からロボット１１に与える必要があ
る。このため、ロボット１１のアクションは、与えられ
た枠（フィールド）の中で発達するだけであり、創造
的、かつ自律的なアクションを生成することが困難とな
る。

【００３８】これを解決するために、図９に示すよう
に、センサの予測値とセンサ１５の実際の出力とを減算
器５１で減算して、その差の絶対値を予測誤差として求
め、これをリワードとしてバックプロパケーションによ
り、RNN３１に学習させるようにすることができる。

【００３９】すなわち、この場合の学習処理は、図１０
のフローチャートに示すようになる。最初に、ステップ
Ｓ１１において、予測誤差生成処理が実行される。ここ
では、減算器５１が出力層４３より出力されたセンサの
予測値と、センサ１５が実際に周囲の状態を検出した結
果の出力とを減算し、その絶対値から予測誤差を生成す
る。

【００４０】次に、ステップＳ１２において、ステップ
Ｓ１１で生成された予測誤差をリワードとして、バック
プロパケーションによりRNN３１において学習処理が行
われる。

【００４１】このように、センサの予測誤差による学習
を行った場合の実験例について、以下に説明する。図１
１乃至図１５は、ロボット１１に予測誤差による学習処
理を行った場合のロボット１１の移動軌跡を表してい
る。図１１乃至図１５に示す数字は、学習の順番を表し
ている。すなわち、図１１乃至図１５は、第０番目乃至
第１９番目の２０回の学習時におけるロボット１１の移
動軌跡を表している。

【００４２】図１６乃至図１８は、ロボット１１に、以
上のような予測誤差に基づく学習処理を２０回行わせる
実験を３回行ったときの実験結果を表している。これら
の図において、横軸は学習の回数を表し、縦軸は１ステ
ップ当たりの予測誤差の値、すなわち、各ステップでの
予測誤差の自乗の和をステップの総数で割った値を表し
ている。図１８に示す、第３回目の実験の場合、誤差の
値が学習回数が増加するにつれて徐々に減少している
が、第１６回目の学習時近傍において、誤差が一時的に
増加している。これに対して、図１６と図１７に示す第
１回目と第２回目の実験の場合には、学習回数が増加す
るにともなって、予測誤差が次第に減少していることが
わかる。

【００４３】図１９と図２０は、図１６に示す第１回目
の実験時における２０回の学習の結果を表している。こ
れらの図において、上７行は入力を表し、下６行は出力
を表している。入力のうち、上５行はセンサの入力を表
し、次の第６行目はリワードの入力を表し、次の第７行
目はアクションの入力を表している。出力のうち、上５
行はセンサの予測出力を表し、第６行目はリワードの予
測を表している。

【００４４】また、各列は、学習時のステップを表して
いる。例えば、第０回目の学習時においては、数字１乃
至７で示す７ステップの学習処理が行われている。

【００４５】各ステップで１つの長方形で示されるブロ
ックは、RNN３１における発火の量を表しており、白の
ブロックは発火のないことを表し、黒のブロックは全て
の出力が発火したことを表している。従って、黒い部分
が多いほど、発火の量が多いことを意味する。

【００４６】また、各回の学習時における入力と出力
は、同じタイミングのものを表している。例えば、第０
回目に図示されている出力は、第０回目の学習時におけ
る出力を表しているが、その入力は、第１回目の学習時
における入力を表している。従って、第０回目の図にお
いて、第０回目における予測（出力）と、その直後の第
１回目の学習時における入力とを対比して比較すること
ができる。予測が正確であれば、出力の発火のパターン
と入力の発火のパターンとが一致することになる。換言
すれば、各学習時における入力と出力のパターンの差が
少ないほど、予測誤差が少ないことを意味する。図１９
と図２０から、学習回数が増加するほど、入力と出力の
パターンが似てくること、すなわち、学習回数が進むに
従って、予測誤差が少なくなっていることが判る。この
ことは、図１６において、予測誤差が、学習回数が増え
るに従って次第に小さくなることに対応している。

【００４７】以上においては、本発明をロボットに適用
した場合を例として説明したが、本発明は、その他の情
報処理装置に適用することが可能である。

【００４８】なお、上記したような処理を行うコンピュ
ータプログラムをユーザに提供する提供媒体としては、
磁気ディスク、CD-ROM、固体メモリなどの記録媒体の
他、ネットワーク、衛星などの通信媒体を利用すること
ができる。

【００４９】

【発明の効果】以上の如く、請求項１に記載の情報処理
装置、請求項３に記載の情報処理方法、および請求項４
に記載の提供媒体によれば、リワードの内部モデルによ
る予測を最大にするアクションの変化分を演算するとと
もに、アクションポリシーに基づきアクションを演算す
るようにしたので、行動プランを生成することが可能と
なる。

【図面の簡単な説明】

【図１】本発明を適用したロボットの構成を示す図であ
る。

【図２】図１のロボットの内部の構成例を示すブロック
図である。

【図３】図２のニューラルネット認識装置２３を構成す
るリカレント型ニューラルネットワークの構成例を示す
図である。

【図４】図３のリカレント型ニューラルネットワークの
動作を説明するフローチャートである。

【図５】図４のステップＳ１の処理を説明する図であ
る。

【図６】図４のステップＳ２の処理を説明する図であ
る。

【図７】図３のリカレント型ニューラルネットワークの
動作を説明する図である。

【図８】図３のリカレント型ニューラルネットワークの
学習を説明する図である。

【図９】図３のリカレント型ニューラルネットワークの
他の学習処理を説明する図である。

【図１０】図９のリカレント型ニューラルネットワーク
の学習処理を説明するフローチャートである。

【図１１】図９のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。

【図１２】図９のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。

【図１３】図９のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。

【図１４】図９のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。

【図１５】図９のリカレント型ニューラルネットワーク
の学習時におけるロボットの移動軌跡を示す図である。

【図１６】図９のリカレント型ニューラルネットワーク
の予測誤差を示す図である。

【図１７】図９のリカレント型ニューラルネットワーク
の予測誤差を示す図である。

【図１８】図９のリカレント型ニューラルネットワーク
の予測誤差を示す図である。

【図１９】図９のリカレント型ニューラルネットワーク
の学習時における発火の状態を示す図である。

【図２０】図９のリカレント型ニューラルネットワーク
の学習時における発火の状態を示す図である。

【符号の説明】

１１ロボット，１５センサ，２３ニューラル
ネット認識装置，２４制御回路，２５量子化回
路，３１リカレント型ニューラルネットワーク，
５１減算器

フロントページの続きＦターム(参考） 3F059 BB07 DA05 DB04 FC00 FC15 5H004 GB16 HA07 HB07 JA02 JA04 JB06 KC03 KC08 KC24 KC28 KD42 MA48 5H301 AA01 AA06 AA10 BB14 CC03 CC06 DD02 GG09 KK02

Claims

【特許請求の範囲】

【請求項１】複数ステップ先に得られるリワードの内
部モデルによる予測を最大にするアクションの変化分を
演算する第１の演算手段と、アクションポリシーに基づきアクションを演算する第２
の演算手段とを備えることを特徴とする情報処理装置。
【請求項２】周囲の情報を入力する入力手段と、前記周囲の情報を予測する予測手段と、前記予測手段による予測結果と、前記入力手段からの実
際の入力との差分を前記リワードとして演算する差分演
算手段と、前記差分演算手段の演算結果を学習する学習手段とをさ
らに備えることを特徴とする請求項１に記載の情報処理
装置。
【請求項３】複数ステップ先に得られるリワードの内
部モデルによる予測を最大にするアクションの変化分を
演算する第１の演算ステップと、アクションポリシーに基づきアクションを演算する第２
の演算ステップとを含むことを特徴とする情報処理方
法。
【請求項４】複数ステップ先に得られるリワードの内
部モデルによる予測を最大にするアクションの変化分を
演算する第１の演算ステップと、アクションポリシーに基づきアクションを演算する第２
の演算ステップとを含む処理を情報処理装置に実行させ
るコンピュータが読みとり可能なプログラムを提供する
ことを特徴とする提供媒体。