JP2011204036A - 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム - Google Patents
経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム Download PDFInfo
- Publication number
- JP2011204036A JP2011204036A JP2010071118A JP2010071118A JP2011204036A JP 2011204036 A JP2011204036 A JP 2011204036A JP 2010071118 A JP2010071118 A JP 2010071118A JP 2010071118 A JP2010071118 A JP 2010071118A JP 2011204036 A JP2011204036 A JP 2011204036A
- Authority
- JP
- Japan
- Prior art keywords
- state
- punishment
- reward
- evaluation value
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Feedback Control In General (AREA)
Abstract
【課題】 罰を避ける学習が報酬を得る学習成果に大きな影響を与えることを抑制することが可能な経験強化型強化学習システム等を提供すること。
【解決手段】 エージェントAの状態を認識する状態認識手段1と、選択可能な状態−行動ルールを評価値に基づいて選択するルール選択手段2と、報酬を得たときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段3と、罰を受けたときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段4と、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値Qを、関数式:Q=Q(q[+]、q[−])により求める評価値演算手段5と、を備えている。
【選択図】 図1
【解決手段】 エージェントAの状態を認識する状態認識手段1と、選択可能な状態−行動ルールを評価値に基づいて選択するルール選択手段2と、報酬を得たときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段3と、罰を受けたときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段4と、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値Qを、関数式:Q=Q(q[+]、q[−])により求める評価値演算手段5と、を備えている。
【選択図】 図1
Description
本発明は、報酬と罰とが混在する環境に適応するために、複数のエージェントの協調行動による高度な処理を行うマルチエージェントシステム等の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムに関する。
従来、報酬や罰を手がかりにして行動を決定し、環境に適応する人工知能である強化学習の一つとして、経験強化型強化学習が知られている。この経験強化型強化学習は、報酬を得たときに、それに至った行動ルールの系列(このルール系列はエピソードと呼ばれる)を一括して強化するprofit-sharing(以下、PSと称す)を用いる機械学習システムである。
例えば、報酬と罰とが混在する環境に適応する経験強化型強化学習として、非特許文献1では、PSと罰回避政策形成アルゴリズムとを組み合わせて罰を回避する方法(以下、PAPSと称す)が提案されている。
例えば、報酬と罰とが混在する環境に適応する経験強化型強化学習として、非特許文献1では、PSと罰回避政策形成アルゴリズムとを組み合わせて罰を回避する方法(以下、PAPSと称す)が提案されている。
宮崎和光、斎藤淳平、小林博明、「罰を回避するProfit-Sharingの提案」、第45回自動制御連合講演会予稿集、2002年、p.441−442
上記従来の技術には、以下の課題が残されている。
すなわち、従来の経験強化型強化学習であるPAPSでは、実機に伴う不完全知覚の環境(部分観測マルコフ決定過程)において、PAPSの罰回避政策形成アルゴリズムの特性から学習過程の途中に、それまでの学習結果を損なうという問題があった。すなわち、実機における不確実かつ部分情報しか得られない環境では、罰回避の学習によってそれまで収束していた報酬獲得行動による学習成果の価値を著しく下げてしまう場合があった。このため、希に発生する罰によって、それまで強化された報酬獲得行動を喪失してしまい、罰を避ける学習が報酬を得る学習成果に大きな影響を与えてしまう不都合があった。すなわち、低確率で罰につながる有用なルールがシステム上、排除されてしまう問題があった。
すなわち、従来の経験強化型強化学習であるPAPSでは、実機に伴う不完全知覚の環境(部分観測マルコフ決定過程)において、PAPSの罰回避政策形成アルゴリズムの特性から学習過程の途中に、それまでの学習結果を損なうという問題があった。すなわち、実機における不確実かつ部分情報しか得られない環境では、罰回避の学習によってそれまで収束していた報酬獲得行動による学習成果の価値を著しく下げてしまう場合があった。このため、希に発生する罰によって、それまで強化された報酬獲得行動を喪失してしまい、罰を避ける学習が報酬を得る学習成果に大きな影響を与えてしまう不都合があった。すなわち、低確率で罰につながる有用なルールがシステム上、排除されてしまう問題があった。
本発明は、前述の課題に鑑みてなされたもので、罰を避ける学習が報酬を得る学習成果に大きな影響を与えることを抑制することが可能な経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムを提供することを目的とする。
本発明は、前記課題を解決するために以下の構成を採用した。すなわち、本発明の経験強化型強化学習システムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習システムであって、前記エージェントの状態を認識する状態認識手段と、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するルール選択手段と、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段と、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段と、前記状態−行動ルールに対応した評価値をQとし、前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、関数式:Q=Q(q[+]、q[−])により求める評価値演算手段と、を備えていることを特徴とする。
また、本発明の経験強化型強化学習方法は、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習方法であって、前記エージェントの状態を認識するステップと、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、前記状態−行動ルールに対応した評価値をQとし、前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、関数式:Q=Q(q[+]、q[−])により求めるステップと、を有していることを特徴とする。
また、本発明の経験強化型強化学習プログラムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習プログラムであって、前記エージェントの状態を認識するステップと、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、前記状態−行動ルールに対応した評価値をQとし、前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、関数式:Q=Q(q[+]、q[−])により求めるステップと、をコンピュータに実行させることを特徴とする。
これらの経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムでは、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるので、例えば最も単純な関数形として報酬評価値と罰評価値との差を状態−行動ルールの評価値とすることで、罰ルールであっても報酬が得られるルールを選択することが可能になる。
また、本発明では、PSを学習のベースとしているため、従来のPAPSと比べてアルゴリズムがシンプルであり、実機への実装が容易である。
また、本発明では、PSを学習のベースとしているため、従来のPAPSと比べてアルゴリズムがシンプルであり、実機への実装が容易である。
本発明によれば、以下の効果を奏する。
すなわち、本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムによれば、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるので、罰ルールであっても報酬が得られるルールを選択することが可能になると共に、実機への実装が容易である。
したがって、例えばロボットサッカーのような複数のエージェント間の複雑な相互作用の中で共通の目的を達成するシステムにおいて、サッカーロボットの失点などの罰を抑えて、得点行動などの報酬行動を学習する学習システムを構築することができる。また、本発明は、サッカーロボットのような自律移動ロボットへの適用だけでなく、在庫管理や生産ラインの最適化などにおいても有効な学習システムである。例えば、一定数量以下の在庫で需要を満足することを報酬とし、在庫過剰または供給不足を罰として、本発明の学習システムに適用することが可能である。
すなわち、本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムによれば、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるので、罰ルールであっても報酬が得られるルールを選択することが可能になると共に、実機への実装が容易である。
したがって、例えばロボットサッカーのような複数のエージェント間の複雑な相互作用の中で共通の目的を達成するシステムにおいて、サッカーロボットの失点などの罰を抑えて、得点行動などの報酬行動を学習する学習システムを構築することができる。また、本発明は、サッカーロボットのような自律移動ロボットへの適用だけでなく、在庫管理や生産ラインの最適化などにおいても有効な学習システムである。例えば、一定数量以下の在庫で需要を満足することを報酬とし、在庫過剰または供給不足を罰として、本発明の学習システムに適用することが可能である。
以下、本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムの一実施形態を、図1から図10を参照しながら説明する。
本実施形態の経験強化型強化学習システムは、図1に示すように、複数のエージェントAの状態を認識する状態認識手段1と、認識したエージェントAの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するルール選択手段2と、エージェントAが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段3と、エージェントAが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段4と、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求める評価値演算手段5と、を備えている。
また、本実施形態の経験強化型強化学習方法は、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントAを自律的に適応させる経験強化型強化学習方法であって、エージェントAの状態を認識するステップと、認識したエージェントAの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するステップと、エージェントAが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、エージェントAが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるステップと、を有している。
さらに、経験強化型強化学習プログラムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントAを自律的に適応させる経験強化型強化学習プログラムであって、エージェントAの状態を認識するステップと、認識したエージェントAの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するステップと、エージェントAが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、エージェントAが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるステップと、をコンピュータに実行させるプログラムである。
なお、本実施形態の経験強化型強化学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されている。
また、上記本実施形態の学習システムを構成する各部は、専用のハードウェアにより実現されるものであってもよく、また、本システムの各部はコンピュータシステムとしてメモリ及びCPU(中央集積装置)により構成され、各部の機能及び本実施形態の強化学習方法を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
また、上記本実施形態の学習システムを構成する各部は、専用のハードウェアにより実現されるものであってもよく、また、本システムの各部はコンピュータシステムとしてメモリ及びCPU(中央集積装置)により構成され、各部の機能及び本実施形態の強化学習方法を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。
すなわち、上記プログラムは、コンピュータ読み取り可能なプログラムであり、上記機能及び強化学習方法の一部を実現するものであってもよい。さらに、上記プログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータシステムに伝送されるものであってもよい。上記伝送媒体とは、インターネット等のネットワーク(通信網)や電力線、電話回線等の通信回線(通信線)のように、情報を伝送する機能を有する媒体をいうものとする。
また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ或いはこれらの組み合わせによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。
また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、CD−ROM等の読み出しのみが可能な記録媒体、RAM(Random Access Memory)のような揮発性のメモリ或いはこれらの組み合わせによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。
本実施形態で扱うエージェントAは、外部の環境と内部の状態を知覚し、その状態において実行可能な行動をあらかじめルール(状態−行動ルール)として設定し、学習によりその価値(重み)を変更、政策に応じてこの価値に基づきルールを選択して行動していくものである。なお、エージェントは、人工知能の分野では人間の脳を代行するソフトウエア(プログラム)や、ロボット工学におけるロボットそのものを指す概念である。また、ここで、「政策」とは各状態に対して選択すべきルールを与える関数である。なお、学習には強化学習法の一つであるPSを用いる。
上記関数式:Q=Q(q[+]、q[−])は、例えば報酬に対する重みをαとし、罰に対する重みをβとしたときに、演算式:Q=α・q[+]−β・q[−]に設定される。なお、本実施形態では、α=1、β=1として、以下に説明する。
<Profit Sharing(PS)について>
初期状態あるいは報酬(もしくは罰)を得た直後から次の報酬(もしくは罰)を得るまでの状態−行動ルールの系列をエピソードと呼び、PSはエピソード終了後に、エピソード内の状態−行動ルールを一括して強化する。単位行動あたりの期待獲得報酬が正となる状態−行動ルールを選択する合理的政策の獲得を保証したものにPSの合理性定理がある。これを満たす強化値を返す報酬関数は一般的に等比減少関数となり、以下のものがある。
Fn=Fn−1/M、n=1,2,…,episode−1 (1)
初期状態あるいは報酬(もしくは罰)を得た直後から次の報酬(もしくは罰)を得るまでの状態−行動ルールの系列をエピソードと呼び、PSはエピソード終了後に、エピソード内の状態−行動ルールを一括して強化する。単位行動あたりの期待獲得報酬が正となる状態−行動ルールを選択する合理的政策の獲得を保証したものにPSの合理性定理がある。これを満たす強化値を返す報酬関数は一般的に等比減少関数となり、以下のものがある。
Fn=Fn−1/M、n=1,2,…,episode−1 (1)
ここで、Fiはエピソードの終わりからiステップ前の強化値であり、Mは行動の種類の数である。エピソードのルール系列(r0,r1,…,repisode−1)の各ルール価値(評価値)Qri は、
Qri=Qri+Fi (2)
で更新される。
Qri=Qri+Fi (2)
で更新される。
<罰を回避するPSについて>
PAPSは罰ルール判定アルゴリズムによりエピソード内から罰につながる罰ルールを判定する。PSにより強化するルールの重みには、報酬用の重みq[+]と罰用の重みq[−]とを独立に用意する。現状態で選択可能な状態−行動ルールの中に罰ルールでないルールがあれば、それらの中でq[+]を利用して状態−行動ルールを選択し、そのようなルールがなければq[−]を利用して罰を回避する。
PAPSは罰ルール判定アルゴリズムによりエピソード内から罰につながる罰ルールを判定する。PSにより強化するルールの重みには、報酬用の重みq[+]と罰用の重みq[−]とを独立に用意する。現状態で選択可能な状態−行動ルールの中に罰ルールでないルールがあれば、それらの中でq[+]を利用して状態−行動ルールを選択し、そのようなルールがなければq[−]を利用して罰を回避する。
この学習において、罰用重みq[−]は十分に罰ルールが判定されていなければ政策に考慮されない重みである。また、サッカーロボットのように環境が不確実かつ部分情報で状態を定義している場合、問題環境は非マルコフ決定過程となり、ルールの遷移先が不安定となる。このため、多くの場合で報酬が期待できる状態−行動ルールであるのに、1度でも罰につながってしまったために罰ルールとして以降ずっと選択できなくなってしまう場合がある。この問題はそれまでの報酬の学習結果の価値が下がってしまうことにつながる。
<報酬と罰とを考慮するPSについて>
そこで、本実施形態では、PAPSの問題点を考慮して新たな政策を採用する。PAPS同様に、報酬および罰用にそれぞれ重みを用意し、エピソード度に報酬評価値q[+]、罰評価値q[−]を振り分ける。ここでq[+]からq[−]の差をとった評価値Qを次のように定義する。
Q=q[+]−q[−] (3)
そこで、本実施形態では、PAPSの問題点を考慮して新たな政策を採用する。PAPS同様に、報酬および罰用にそれぞれ重みを用意し、エピソード度に報酬評価値q[+]、罰評価値q[−]を振り分ける。ここでq[+]からq[−]の差をとった評価値Qを次のように定義する。
Q=q[+]−q[−] (3)
政策は、各状態−行動ルールの評価値Qを利用してルールを選択する。本実施形態では、現状態の選択可能な状態−行動ルールのうち評価値Qが最大のものを選択するものとし、この評価値Qを用いて状態−行動ルールを評価する学習を、以降PSQと呼ぶ。
次に、この学習の政策方針を説明する。
本実施形態では、PAPSのように失点につながる罰ルールを判定して排除することにより失点のない行動計画の獲得を目指すのではなく、時に失点を得るときはあっても、それよりも多くの頻度で得点を得られるような行動計画の学習を目指す。
PSで与えられる状態−行動ルールの強化値は、“報酬値”と“報酬を得た時点からランダムに状態−行動ルールを遡ったときにそのルールを選択し得る最小の確率”との積である。これは、危機管理に考慮するリスクと似ている。ここでリスクとは、損害の大きさとその損害が起こる確率との積として考え、一般的にリスクが大きい行動計画ほど避けようと考える。
本実施形態では、PAPSのように失点につながる罰ルールを判定して排除することにより失点のない行動計画の獲得を目指すのではなく、時に失点を得るときはあっても、それよりも多くの頻度で得点を得られるような行動計画の学習を目指す。
PSで与えられる状態−行動ルールの強化値は、“報酬値”と“報酬を得た時点からランダムに状態−行動ルールを遡ったときにそのルールを選択し得る最小の確率”との積である。これは、危機管理に考慮するリスクと似ている。ここでリスクとは、損害の大きさとその損害が起こる確率との積として考え、一般的にリスクが大きい行動計画ほど避けようと考える。
普通、リスクは罰に対して使う概念であるが、本実施形態では報酬に対してもリスクを使い、これを報酬を得るリスクとする。状態−行動ルールのPS強化値とリスクの値とは一致することを、図2を用いて説明する。
一例として、報酬の値F0を10、行動の種類Mを2として、startからGoal にたどり着いた場合を考える。
一例として、報酬の値F0を10、行動の種類Mを2として、startからGoal にたどり着いた場合を考える。
図2よりエピソードは4であり、開始ルールに与えられるPSの報酬値は、10×(1/2)episode−1である。
次に、開始ルールの報酬を得るリスクを考えると、報酬を得るリスクはつまり“報酬の値”דGoalからランダムにルール選択してスタートまでたどり着く確率”であるから、((1/2)×(1/2)×(1/2))×10である。よって、上に一致している。
次に、開始ルールの報酬を得るリスクを考えると、報酬を得るリスクはつまり“報酬の値”דGoalからランダムにルール選択してスタートまでたどり着く確率”であるから、((1/2)×(1/2)×(1/2))×10である。よって、上に一致している。
つまり、開始ルールに与えられるPSによる強化値(報酬評価値)q[+]は報酬を得るリスク、強化値(罰評価値)q[−]は罰を受けるリスクとして考えられる。政策は、報酬が得られるリスクが大きく、罰を受けるリスクが小さい状態−行動ルールを選ぶような関数であるべきである。本実施形態のPSQは、報酬のリスクから罰のリスクを引いた評価値が最大となる状態−行動ルールを選ぶので、前述の政策の方針に合っている。
<本実施形態のサッカーロボットシステム(経験強化型強化学習システム)の構成>
本実施形態の経験強化型強化学習システムとして実際に構築したサッカーロボットシステムを、図3に示す。このサッカーロボットシステムは、各サッカーロボットB,Yが視覚情報を天井のCCDカメラ11により取得するグローバルビジョン方式のサッカーロボットシステムである。
このサッカーロボットシステムは、エージェントAとして自律移動ロボットであるサッカーロボットB,Yによるシミュレーションであって、複数のサッカーロボットB,Yによる試合において、PSをベースとする失点を抑えるゴール行動の学習システムである。
本実施形態の経験強化型強化学習システムとして実際に構築したサッカーロボットシステムを、図3に示す。このサッカーロボットシステムは、各サッカーロボットB,Yが視覚情報を天井のCCDカメラ11により取得するグローバルビジョン方式のサッカーロボットシステムである。
このサッカーロボットシステムは、エージェントAとして自律移動ロボットであるサッカーロボットB,Yによるシミュレーションであって、複数のサッカーロボットB,Yによる試合において、PSをベースとする失点を抑えるゴール行動の学習システムである。
本実施形態のサッカーロボットシステムは、各チーム最大5台のサッカーロボットB,Yと、高さ約2.5m上方からフィールド内全体を撮影するカラーCCDカメラ11と、画像処理によりサッカーロボットB,YのチームおよびIDの識別とボールも含めた位置情報とをLANまたは通信網10経由で提供するビジョンサーバ12と、フィールド内の情報に基づき各サッカーロボットB,Yに行動指令を与えるエージェントコントローラ13と、各チームのサッカーロボットB,Yへの指令を公平に伝送することを可能とするためのエージェントゲートウェイ14と、試合の進行を統括し、得点やファール、ゲームの開始等を行うレフェリーボックスと呼ばれ、試合中は各チームの人間が操作できない審判PC(パーソナルコンピュータ)15と、を備えている。
なお、カラーCCDカメラ11およびビジョンサーバ12が、状態認識手段1として機能し、エージェントコントローラ13およびエージェントゲートウェイ14が、ルール選択手段2、報酬評価値強化手段3、罰評価値強化手段4および評価値演算手段5として機能する。
上記エージェントコントローラ13は、各サッカーロボットB,Yの行動決定部であり,フィールド内の情報と各エージェントAの行動アルゴリズムに基づいて各サッカーロボットB,Yへ行動指令を伝送する機能を有している。行動決定は特定の時間刻みごとに行い,そして行動アルゴリズムでこの時間刻みをカウントして、スタートからゴールまでの時間刻み数(エピソード)を行動決定のパラメータの算出に利用している。
上記エージェントコントローラ13は、サッカーシミュレータSoccerBotをベースにLEGO(登録商標)ロボット用にJava(登録商標)言語で開発しており、NXT用に通信系のクラスを書き加えてある。これを用いることにより、モードを切り替えることでシミュレーションと実際のサッカーロボットB,Yのコントロールとを同様に行うことができる。
このエージェントコントローラ13は、1step/0.1秒で状態−行動ルールを選択し、各サッカーロボットB,Yに指令を与える機能を有している。
このエージェントコントローラ13は、1step/0.1秒で状態−行動ルールを選択し、各サッカーロボットB,Yに指令を与える機能を有している。
上記エージェントゲートウェイ14は、エージェントコントローラ13からの指令を各チームのサッカーロボットB,YへBlueTooth(登録商標)通信により伝送する機能を有し、BlueTooth(登録商標)通信装置16に接続されている。
上記サッカーロボットB,Yは、受け取った行動指令に基づき前進・回転行動によりサッカーを行うロボットであり、Mindstorms(登録商標)NXTを使用して製作されたものである。このサッカーロボットB,Yは、円筒状であり、移動とボールキック等が可能になっている。
上記サッカーロボットB,Yは、受け取った行動指令に基づき前進・回転行動によりサッカーを行うロボットであり、Mindstorms(登録商標)NXTを使用して製作されたものである。このサッカーロボットB,Yは、円筒状であり、移動とボールキック等が可能になっている。
上記審判PC15は、試合進行中に審判がこれを操作して各チームのエージェントコントローラ13にキックオフや試合中断・再開などの指示をシリアル通信により行なうものであり、各チームに所属する人間は試合中に一切操作できない仕組みとなっている。
<競技フィールド等の設定>
実験は初期のRoboCupサッカー小型リーグのルールに準拠した環境で行い、競技規定のとおり直径40mmのゴルフボール(オレンジ色)を用いた。ただし、競技フィールドの寸法は、図4に示すとおり規定よりも狭いフィールドで行った。
実験は初期のRoboCupサッカー小型リーグのルールに準拠した環境で行い、競技規定のとおり直径40mmのゴルフボール(オレンジ色)を用いた。ただし、競技フィールドの寸法は、図4に示すとおり規定よりも狭いフィールドで行った。
<エージェントの設計>
(1)行動集合
学習エージェントA(サッカーロボットB,Y)の行動集合aを、以下の表1に示す。
(1)行動集合
学習エージェントA(サッカーロボットB,Y)の行動集合aを、以下の表1に示す。
(2)状態集合
学習エージェントAの状態集合sを、以下の表2のとおり、学習エージェントAの位置p(フィールドを縦・横それぞれ4分割した16通り)、学習エージェントAとボールBallとの距離d(4通り)、ボールBallへの角度a(4通り)及び相手エージェントの位置方向k(4方向における相手の有無、16通り)とした。
学習エージェントAの状態集合sを、以下の表2のとおり、学習エージェントAの位置p(フィールドを縦・横それぞれ4分割した16通り)、学習エージェントAとボールBallとの距離d(4通り)、ボールBallへの角度a(4通り)及び相手エージェントの位置方向k(4方向における相手の有無、16通り)とした。
また、それぞれのキックスポットの位置を、図5に示す。エージェントAは3つ行動から選択し、キックスポットへボールBallを避けて移動し、キックスポットからボールBallをキックしてボールBallを転がすように設定されている。
すなわち、サッカーロボットB,Yの行動は,ボールBallとゴール中心とを結ぶ仮想直線におけるボールBall後方の直線上の1点KS1と,その直線に対してボール位置を軸に60度の位置に2点KS2とKS3とのキックスポットを定義し,その3つの点の何れかへ移動する3通りとした。このキックスポットに移動した後にサッカーロボットB,YはボールBallへ向かってキックするように設定されている。上記の状態と行動との組み合わせから、状態−行動ルール12288本を定義した。
すなわち、サッカーロボットB,Yの行動は,ボールBallとゴール中心とを結ぶ仮想直線におけるボールBall後方の直線上の1点KS1と,その直線に対してボール位置を軸に60度の位置に2点KS2とKS3とのキックスポットを定義し,その3つの点の何れかへ移動する3通りとした。このキックスポットに移動した後にサッカーロボットB,YはボールBallへ向かってキックするように設定されている。上記の状態と行動との組み合わせから、状態−行動ルール12288本を定義した。
<ポジション>
フォワード(FW)、ディフェンダー(DF)およびゴールキーパー(GK)の3つのポジションを定義し、そのうち2つのポジションの守備範囲を図6に示す。
・フォワード(FW)
FWは、相手フィールドの半分にあたるA−Zoneを守備範囲とし、ボールBallがA−Zoneに入ると行動選択を行う。また、ボールBallがA−Zoneに入っていない場合、A−Zone内でボールBallと自身とのx座標を合わせるように移動する設定とされている。
フォワード(FW)、ディフェンダー(DF)およびゴールキーパー(GK)の3つのポジションを定義し、そのうち2つのポジションの守備範囲を図6に示す。
・フォワード(FW)
FWは、相手フィールドの半分にあたるA−Zoneを守備範囲とし、ボールBallがA−Zoneに入ると行動選択を行う。また、ボールBallがA−Zoneに入っていない場合、A−Zone内でボールBallと自身とのx座標を合わせるように移動する設定とされている。
・ディフェンダー(DF)
DFは、自フィールドと相手フィールド半分のB−Zoneとを守備範囲とし、ボールBallがB−Zoneに入ると行動選択を行う。また、ボールBallがB−Zoneに入っていない場合、B−Zone内でボールBallと自身とのx座標とを合わせるように移動する設定とされている。
DFは、自フィールドと相手フィールド半分のB−Zoneとを守備範囲とし、ボールBallがB−Zoneに入ると行動選択を行う。また、ボールBallがB−Zoneに入っていない場合、B−Zone内でボールBallと自身とのx座標とを合わせるように移動する設定とされている。
・ゴールキーパー(GK)
GKは、常にゴール前に待機し、ボールBallが自陣に入ったときに自身のy座標をボールBallのy座標に合わせるように移動する。なお、このポジションでは学習を行わない。
GKは、常にゴール前に待機し、ボールBallが自陣に入ったときに自身のy座標をボールBallのy座標に合わせるように移動する。なお、このポジションでは学習を行わない。
<学習エージェント>
本実施形態では、PSの重み更新式は上記式(1)より、step tの報酬関数F(t)を次式で与える。
F(t)/F(t−1)=b (4)
最終値F(episode−1)=10、公比b=3とした。
本実施形態では、PSの重み更新式は上記式(1)より、step tの報酬関数F(t)を次式で与える。
F(t)/F(t−1)=b (4)
最終値F(episode−1)=10、公比b=3とした。
報酬を得た場合は、エピソードのルール系列へ報酬用の重みq[+]を分配し、罰を得た場合は、罰用の重みq[−]を分配する。
この場合、試合中にチームの中で2台のエージェントAが同時に学習をすることはないため、チームで一つの学習エージェントAとして捉えることが出来る。
この場合、試合中にチームの中で2台のエージェントAが同時に学習をすることはないため、チームで一つの学習エージェントAとして捉えることが出来る。
・PAPSエージェントの設定
比較用のPAPSエージェントは、前述の罰を回避するPSによる学習を行う。すなわち、エピソード度に罰ルールを判定し、通常は罰ルールを排除した現状態のルール集合からq[+]が最大のルール選ぶ。選択するルールが全て罰ルールの場合は、q[−]が最小の罰ルールを選ぶように設定した。
比較用のPAPSエージェントは、前述の罰を回避するPSによる学習を行う。すなわち、エピソード度に罰ルールを判定し、通常は罰ルールを排除した現状態のルール集合からq[+]が最大のルール選ぶ。選択するルールが全て罰ルールの場合は、q[−]が最小の罰ルールを選ぶように設定した。
・PSQエージェントの設定
本実施形態のPSQエージェントは、前述のPSQによる学習を行う。すなわち、現状態のルール集合の中からq[+]とq[−]との差をとった評価値Qが最大であるルールを選択するように設定した。
本実施形態のPSQエージェントは、前述のPSQによる学習を行う。すなわち、現状態のルール集合の中からq[+]とq[−]との差をとった評価値Qが最大であるルールを選択するように設定した。
・相手エージェントの設定
本実施形態の学習エージェントを評価するための相手として、相手エージェントを用意した。この相手エージェントは、学習はせず、常に行動0を選択してボールをゴール中央へ向けてキックする設定とした。
本実施形態の学習エージェントを評価するための相手として、相手エージェントを用意した。この相手エージェントは、学習はせず、常に行動0を選択してボールをゴール中央へ向けてキックする設定とした。
次に、サッカーロボットシステムに適用した本実施形態の経験強化型強化学習システムにおける動作および処理のフローチャートを、図7および図8を参照して説明する。
まず、図7に示すように、サッカーロボットシステム全体の初期化を行い、エージェントコントローラ13は各エピソードカウンタを0にする(ステップS101)。
そして、CCDカメラ11からの映像から、ビジョンサーバ12はボールBallを含めた各エージェントA(サッカーロボットB,Y)の位置・姿勢角を認識する(ステップS102)。また、ビジョンサーバ12はLAN経由でエージェントコントローラ13へ認識した情報を提供する。
そして、CCDカメラ11からの映像から、ビジョンサーバ12はボールBallを含めた各エージェントA(サッカーロボットB,Y)の位置・姿勢角を認識する(ステップS102)。また、ビジョンサーバ12はLAN経由でエージェントコントローラ13へ認識した情報を提供する。
次に、エージェントコントローラ13は、行動決定アルゴリズムを通して各エージェントAの行動指令を決定し、エージェントゲートウェイ14へ行動指令を伝送する(ステップS103)。さらに、エージェントコントローラ13から受け取った各エージェントAの行動指令をBlueTooth(登録商標)通信によって各エージェントAへ伝送する(ステップS104)。エージェントAが行動指令を受け取ると、行動指令(目標速度・目標姿勢角)に応じて前進・回転行動し、サッカーを行う(ステップS105)。
また、エージェントコントローラ13は、図8に示すように、評価関数である評価値Qの演算を行うと共にエージェントゲートウェイ14を介してエージェントAへ行動指令を出す。すなわち、エージェントコントローラ13は、ビジョンサーバ12等の情報からエージェントAの現状態Skを認識する(ステップS201)。さらに、ボールBallの位置情報から得点・失点の有無を認識し、NOなら次のステップS203へ処理を進め、YESなら後述するステップS207へ処理を進める(ステップS202)。
すなわち、ボールBallの位置情報から得点・失点であると認識されない場合(NOの場合)、現状態に選択できる状態−行動ルールSkAkを評価値Qに基づいて選択する。評価値Qは、評価値q[+]およびq[−]で算出する値である(ステップS203)。そして、エピソードカウンタkを一つ増やす(ステップS204)。
次に、選択した状態‐行動ルールSAに基づき行動Akを決定し,エージェントAへの行動指令である目標速度・姿勢角を算出する(ステップS205)。そして、エージェントAへ行動指令を伝送する(ステップS206)。この後、前述のステップS201まで処理を戻して同様に繰り返す。
一方、ボールBallの位置情報から得点・失点であると認識された場合(YESの場合)、得点または失点に至るまでに選択したルール系列の状態−行動ルールSiAi(i=0〜k)の各評価値q[+]またはq[−]を一括して更新する(ステップS207)。そして、エピソードカウンタkを0にする(ステップS208)。この後、前述のステップS201まで処理を戻して同様に繰り返す。
<実験条件>
本実施形態では、学習エージェント2台(FW、DF)とGKとの3台を1チームとし、PAPSエージェントチーム(従来の学習チーム)およびPSQエージェントチーム(本発明の学習チーム)を、それぞれ相手エージェントチーム(学習無しチーム)と3対3で試合を行わせ、結果を比較した。なお、PAPSエージェントチームおよびPSQエージェントチームと、相手エージェントチームとは、青色チーム(サッカーロボットBのチーム)と黄色チーム(サッカーロボットYのチーム)として分けて対戦させた。
本実施形態では、学習エージェント2台(FW、DF)とGKとの3台を1チームとし、PAPSエージェントチーム(従来の学習チーム)およびPSQエージェントチーム(本発明の学習チーム)を、それぞれ相手エージェントチーム(学習無しチーム)と3対3で試合を行わせ、結果を比較した。なお、PAPSエージェントチームおよびPSQエージェントチームと、相手エージェントチームとは、青色チーム(サッカーロボットBのチーム)と黄色チーム(サッカーロボットYのチーム)として分けて対戦させた。
まず、シミュレーション上で1試合360、000step(10時間、1step=0.1秒)の試合を10試合行い、PAPSエージェントチームとPSQエージェントチームとで得失点を比較した。
次に、シミュレーションによる学習結果を実機に搭載し、実機による試合を行った。この実機試合は、1試合を10分とし、PAPSエージェントチームの場合とPSQエージェントチームの場合とで、それぞれ相手エージェントチームと対戦させ、各10試合の結果を比較した。
次に、シミュレーションによる学習結果を実機に搭載し、実機による試合を行った。この実機試合は、1試合を10分とし、PAPSエージェントチームの場合とPSQエージェントチームの場合とで、それぞれ相手エージェントチームと対戦させ、各10試合の結果を比較した。
<シミュレーション結果>
シミュレーションの試合結果を表3に示すと共に、図9および図10にPAPSエージェントチームおよびPSQエージェントチームの得点推移の一例を示す。
図9および図10の2つのグラフとも試合開始から約50分で学習が収束し、得点の増加が加速し、失点を抑えることが出来ており、学習システムが機能していることがわかる。
同時に2体(FWおよびDF)のエージェントにまたがった学習においても学習システムが機能するということも言える。
シミュレーションの試合結果を表3に示すと共に、図9および図10にPAPSエージェントチームおよびPSQエージェントチームの得点推移の一例を示す。
図9および図10の2つのグラフとも試合開始から約50分で学習が収束し、得点の増加が加速し、失点を抑えることが出来ており、学習システムが機能していることがわかる。
同時に2体(FWおよびDF)のエージェントにまたがった学習においても学習システムが機能するということも言える。
しかしながら、図9に示す比較用の従来のPAPSエージェントチームにおいては、500分付近から得点のグラフの傾きが急に落ちてしまっている。これは前述のように非マルコフ決定過程における不安定なルール遷移により、それまでに選択していた得点行動の主要なルールが罰ルールと判定されてしまい、行動計画に影響を与えたためと考えられる。このようにそれまでの大量の得点に寄与していたルールも、少しでも罰ルールにつながる可能性があれば罰ルール判定により排除してしまうため、結果として得点に大きな影響を与えてしまう。
これに対して、図10に示す本実施形態のPSQエージェントチームによる得点グラフの傾きは、失点に影響されずおよそ一定である。しかし、学習が収束した後の失点の増加は一定のままである。表3において結果を比較すると得点、失点が共に本実施形態のPSQに優位性が見られる。
すなわち、得点についてはPSQエージェントチームが、PAPSエージェントチームよりも平均が10点以上高く,また失点についてもPSQエージェントチームの方が小さく抑えることができている。つまり、本実施形態のPSQに優位性が見られる。
さらに、PSQの優位性を統計的に検証した。まず、PSQエージェントチームとPAPSエージェントチームとの得失点をF−検定し,それぞれ有意水準99.9%で等分散であることがわかった。それを受けて両側t−検定を行い、得点については有意水準94.9%,失点については99.6%で2つの結果に有意差があることがわかった。よって本実施形態のPSQは、従来のPAPSよりも失点を抑え,かつ得点力を伸ばす効果があるといえる。
さらに、PSQの優位性を統計的に検証した。まず、PSQエージェントチームとPAPSエージェントチームとの得失点をF−検定し,それぞれ有意水準99.9%で等分散であることがわかった。それを受けて両側t−検定を行い、得点については有意水準94.9%,失点については99.6%で2つの結果に有意差があることがわかった。よって本実施形態のPSQは、従来のPAPSよりも失点を抑え,かつ得点力を伸ばす効果があるといえる。
<実機による結果>
シミュレーションのPAPSエージェントチームとPSQエージェントチームとの学習結果を搭載した実機実験のそれぞれの試合結果を、表4に示す。
この結果から、PAPSエージェントチームの平均得点が0.5であるのに対して、本実施形態のPSQエージェントチームの平均得点が1.0であり、PAPSエージェントチームの2倍となっている。また、失点の平均はPAPSエージェントチームが0.6、PSQエージェントチームが0.5であり、同じように失点を抑えることができている。これより、実機においても本実施形態のPSQの優位性が確認できる。
シミュレーションのPAPSエージェントチームとPSQエージェントチームとの学習結果を搭載した実機実験のそれぞれの試合結果を、表4に示す。
この結果から、PAPSエージェントチームの平均得点が0.5であるのに対して、本実施形態のPSQエージェントチームの平均得点が1.0であり、PAPSエージェントチームの2倍となっている。また、失点の平均はPAPSエージェントチームが0.6、PSQエージェントチームが0.5であり、同じように失点を抑えることができている。これより、実機においても本実施形態のPSQの優位性が確認できる。
このように本実施形態の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムでは、状態−行動ルールに対応した評価値をQとし、報酬評価値をq[+]とし、罰評価値をq[−]としたとき、評価値を、関数式:Q=Q(q[+]、q[−])により求めるので、例えば最も単純な関数形として報酬評価値と罰評価値との差を状態−行動ルールの評価値とすることで、罰ルールであっても報酬が得られるルールを選択することが可能になる。
また、本実施形態では、PSを学習のベースとしているため、従来のPAPSと比べてアルゴリズムがシンプルであり、実機への実装が容易である。
また、本実施形態では、PSを学習のベースとしているため、従来のPAPSと比べてアルゴリズムがシンプルであり、実機への実装が容易である。
なお、本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。
本発明の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムは、ロボットサッカーのような複数のエージェント間の複雑な相互作用の中で共通の目的を達成するシステムに有用である。また、自律移動ロボットが罰と報酬との混在する環境において、自身の適切な状態−行動ルールを選択する技術として本発明は有用である。
1…状態認識手段、2…ルール選択手段、3…報酬評価値強化手段、4…罰評価値強化手段、5…評価値演算手段、12…ビジョンサーバ、13…エージェントコントローラ、14…エージェントゲートウェイ、A…エージェント、B…サッカーロボット(Blue Team Agent)、Y…サッカーロボット(Yellow Team Agent)
Claims (3)
- 罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習システムであって、
前記エージェントの状態を認識する状態認識手段と、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するルール選択手段と、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段と、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段と、
前記状態−行動ルールに対応した評価値をQとし、
前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、
関数式:Q=Q(q[+]、q[−])
により求める評価値演算手段と、を備えていることを特徴とする経験強化型強化学習システム。 - 罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習方法であって、
前記エージェントの状態を認識するステップと、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、
前記状態−行動ルールに対応した評価値をQとし、
前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、
関数式:Q=Q(q[+]、q[−])
により求めるステップと、を有していることを特徴とする経験強化型強化学習方法。 - 罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習プログラムであって、
前記エージェントの状態を認識するステップと、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、
前記状態−行動ルールに対応した評価値をQとし、
前記報酬評価値をq[+]とし、前記罰評価値をq[−]としたとき、前記評価値を、
関数式:Q=Q(q[+]、q[−])
により求めるステップと、をコンピュータに実行させることを特徴とする経験強化型強化学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010071118A JP2011204036A (ja) | 2010-03-25 | 2010-03-25 | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010071118A JP2011204036A (ja) | 2010-03-25 | 2010-03-25 | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011204036A true JP2011204036A (ja) | 2011-10-13 |
Family
ID=44880606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010071118A Pending JP2011204036A (ja) | 2010-03-25 | 2010-03-25 | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011204036A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
JP2017100203A (ja) * | 2015-11-30 | 2017-06-08 | ファナック株式会社 | 機械学習を使った中子の溶着位置決定機能を備えたワイヤ放電加工機のシミュレーション装置 |
JP2018142199A (ja) * | 2017-02-28 | 2018-09-13 | 株式会社日立製作所 | 学習システムおよび学習方法 |
KR20190040506A (ko) * | 2016-09-15 | 2019-04-18 | 구글 엘엘씨 | 로봇 조작을 위한 심층 강화 학습 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
CN110280019A (zh) * | 2019-06-21 | 2019-09-27 | 南京邮电大学 | 基于强化学习的足球机器人防守策略 |
WO2019240047A1 (ja) * | 2018-06-11 | 2019-12-19 | Necソリューションイノベータ株式会社 | 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体 |
CN111880549A (zh) * | 2020-09-14 | 2020-11-03 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
JP2020190853A (ja) * | 2019-05-20 | 2020-11-26 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP2020190854A (ja) * | 2019-05-20 | 2020-11-26 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
JPWO2022018798A1 (ja) * | 2020-07-20 | 2022-01-27 |
-
2010
- 2010-03-25 JP JP2010071118A patent/JP2011204036A/ja active Pending
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104932264B (zh) * | 2015-06-03 | 2018-07-20 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
CN104932264A (zh) * | 2015-06-03 | 2015-09-23 | 华南理工大学 | 基于rbf网络的q学习框架仿人机器人稳定控制方法 |
US10442023B2 (en) | 2015-11-30 | 2019-10-15 | Fanuc Corporation | Simulation apparatus of wire electric discharge machine having function of determining welding positions of core using machine learning |
JP2017100203A (ja) * | 2015-11-30 | 2017-06-08 | ファナック株式会社 | 機械学習を使った中子の溶着位置決定機能を備えたワイヤ放電加工機のシミュレーション装置 |
CN106814698A (zh) * | 2015-11-30 | 2017-06-09 | 发那科株式会社 | 具备芯焊接位置决定功能的线放电加工机的仿真装置 |
US10589368B2 (en) | 2015-11-30 | 2020-03-17 | Fanuc Corporation | Machine learning device having function of adjusting welding positions of core in wire electric discharge machine |
CN106814698B (zh) * | 2015-11-30 | 2019-05-21 | 发那科株式会社 | 具备芯焊接位置决定功能的线放电加工机的仿真装置 |
KR102211012B1 (ko) | 2016-09-15 | 2021-02-03 | 구글 엘엘씨 | 로봇 조작을 위한 심층 강화 학습 |
KR20190040506A (ko) * | 2016-09-15 | 2019-04-18 | 구글 엘엘씨 | 로봇 조작을 위한 심층 강화 학습 |
US11897133B2 (en) | 2016-09-15 | 2024-02-13 | Google Llc | Deep reinforcement learning for robotic manipulation |
US11400587B2 (en) | 2016-09-15 | 2022-08-02 | Google Llc | Deep reinforcement learning for robotic manipulation |
JP2018142199A (ja) * | 2017-02-28 | 2018-09-13 | 株式会社日立製作所 | 学習システムおよび学習方法 |
JPWO2019240047A1 (ja) * | 2018-06-11 | 2021-03-11 | Necソリューションイノベータ株式会社 | 行動学習装置 |
WO2019240047A1 (ja) * | 2018-06-11 | 2019-12-19 | Necソリューションイノベータ株式会社 | 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体 |
CN110211572A (zh) * | 2019-05-14 | 2019-09-06 | 北京来也网络科技有限公司 | 基于强化学习的对话控制方法及装置 |
JP2020190854A (ja) * | 2019-05-20 | 2020-11-26 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP7145813B2 (ja) | 2019-05-20 | 2022-10-03 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP2020190853A (ja) * | 2019-05-20 | 2020-11-26 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
JP7142605B2 (ja) | 2019-05-20 | 2022-09-27 | ヤフー株式会社 | 学習装置、学習方法及び学習プログラム |
CN110280019A (zh) * | 2019-06-21 | 2019-09-27 | 南京邮电大学 | 基于强化学习的足球机器人防守策略 |
JP2021189621A (ja) * | 2020-05-27 | 2021-12-13 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
JP7365967B2 (ja) | 2020-05-27 | 2023-10-20 | 株式会社 日立産業制御ソリューションズ | 行動選択システム及び行動選択方法 |
JPWO2022018798A1 (ja) * | 2020-07-20 | 2022-01-27 | ||
WO2022018798A1 (ja) * | 2020-07-20 | 2022-01-27 | 日本電信電話株式会社 | 制御装置、仮想ネットワーク割当方法、及びプログラム |
JP7439931B2 (ja) | 2020-07-20 | 2024-02-28 | 日本電信電話株式会社 | 制御装置、仮想ネットワーク割当方法、及びプログラム |
CN111880549A (zh) * | 2020-09-14 | 2020-11-03 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
CN111880549B (zh) * | 2020-09-14 | 2024-06-04 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011204036A (ja) | 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム | |
US10004989B2 (en) | Methods and apparatus for hiding latency in network multiplayer games | |
US7925601B2 (en) | Reducing bandwidth requirements for peer-to-peer gaming based on error difference between actual game object state and simulated game object state being below an error threshold | |
US7806777B2 (en) | Automatically adapting virtual equipment model | |
US20080254888A1 (en) | Game program, game device, and game method | |
US20220008830A1 (en) | Auto harassment monitoring system | |
US10449458B2 (en) | Skill matching for a multiplayer session | |
US9076292B1 (en) | Encouraging player socialization using a nemesis and avenger system | |
CN112870721B (zh) | 一种游戏互动方法、装置、设备及存储介质 | |
Abraham et al. | AI for dynamic team-mate adaptation in games | |
MacAlpine et al. | The RoboCup 2013 drop-in player challenges: Experiments in ad hoc teamwork | |
Glavin et al. | Skilled experience catalogue: A skill-balancing mechanism for non-player characters using reinforcement learning | |
Liu et al. | Evolving effective micro behaviors in RTS game | |
McMillen et al. | Distributed, play-based role assignment for robot teams in dynamic environments | |
Edwards et al. | The role of machine learning in game development domain-a review of current trends and future directions | |
JP2022536931A (ja) | 人工知能搭載型のユーザインターフェースのための方法及びシステム | |
WO2023138155A1 (zh) | 决策模型的训练方法、装置、计算机设备及存储介质 | |
Barrett et al. | Cooperating with unknown teammates in robot soccer | |
Abreu et al. | FC Portugal: RoboCup 2022 3D simulation league and technical challenge champions | |
US20220168652A1 (en) | Method and systems for dynamic quest generation | |
Röfer et al. | B-human 2022–more team play with less communication | |
WO2022264681A1 (ja) | コンピュータプログラム、それに用いるゲームシステム、及び制御方法 | |
Sukop et al. | Strategic behavior of the group of mobile robots for robosoccer (category Mirosot) | |
Toms et al. | Role Playing Game AI System | |
Xu | Improving companion AI in small-scale attrition games |