JP2011204036A

JP2011204036A - 経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラム

Info

Publication number: JP2011204036A
Application number: JP2010071118A
Authority: JP
Inventors: Yoichiro Sawa; 洋一郎澤; Masashi Yamaguchi; 雅士山口
Original assignee: Institute of National Colleges of Technologies Japan
Current assignee: Institute of National Colleges of Technologies Japan
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2011-10-13

Abstract

【課題】罰を避ける学習が報酬を得る学習成果に大きな影響を与えることを抑制することが可能な経験強化型強化学習システム等を提供すること。
【解決手段】エージェントＡの状態を認識する状態認識手段１と、選択可能な状態−行動ルールを評価値に基づいて選択するルール選択手段２と、報酬を得たときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段３と、罰を受けたときに選択した全ての状態−行動ルールの系列をエピソードとし、エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段４と、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値Ｑを、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求める評価値演算手段５と、を備えている。
【選択図】図１

Description

本発明は、報酬と罰とが混在する環境に適応するために、複数のエージェントの協調行動による高度な処理を行うマルチエージェントシステム等の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムに関する。

従来、報酬や罰を手がかりにして行動を決定し、環境に適応する人工知能である強化学習の一つとして、経験強化型強化学習が知られている。この経験強化型強化学習は、報酬を得たときに、それに至った行動ルールの系列（このルール系列はエピソードと呼ばれる）を一括して強化するprofit-sharing（以下、ＰＳと称す）を用いる機械学習システムである。
例えば、報酬と罰とが混在する環境に適応する経験強化型強化学習として、非特許文献１では、ＰＳと罰回避政策形成アルゴリズムとを組み合わせて罰を回避する方法（以下、ＰＡＰＳと称す）が提案されている。

宮崎和光、斎藤淳平、小林博明、「罰を回避するProfit-Sharingの提案」、第４５回自動制御連合講演会予稿集、２００２年、ｐ．４４１−４４２

上記従来の技術には、以下の課題が残されている。
すなわち、従来の経験強化型強化学習であるＰＡＰＳでは、実機に伴う不完全知覚の環境（部分観測マルコフ決定過程）において、ＰＡＰＳの罰回避政策形成アルゴリズムの特性から学習過程の途中に、それまでの学習結果を損なうという問題があった。すなわち、実機における不確実かつ部分情報しか得られない環境では、罰回避の学習によってそれまで収束していた報酬獲得行動による学習成果の価値を著しく下げてしまう場合があった。このため、希に発生する罰によって、それまで強化された報酬獲得行動を喪失してしまい、罰を避ける学習が報酬を得る学習成果に大きな影響を与えてしまう不都合があった。すなわち、低確率で罰につながる有用なルールがシステム上、排除されてしまう問題があった。

本発明は、前述の課題に鑑みてなされたもので、罰を避ける学習が報酬を得る学習成果に大きな影響を与えることを抑制することが可能な経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムを提供することを目的とする。

本発明は、前記課題を解決するために以下の構成を採用した。すなわち、本発明の経験強化型強化学習システムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習システムであって、前記エージェントの状態を認識する状態認識手段と、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するルール選択手段と、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段と、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段と、前記状態−行動ルールに対応した評価値をＱとし、前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求める評価値演算手段と、を備えていることを特徴とする。

また、本発明の経験強化型強化学習方法は、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習方法であって、前記エージェントの状態を認識するステップと、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、前記状態−行動ルールに対応した評価値をＱとし、前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるステップと、を有していることを特徴とする。

また、本発明の経験強化型強化学習プログラムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習プログラムであって、前記エージェントの状態を認識するステップと、認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、前記状態−行動ルールに対応した評価値をＱとし、前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるステップと、をコンピュータに実行させることを特徴とする。

これらの経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムでは、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるので、例えば最も単純な関数形として報酬評価値と罰評価値との差を状態−行動ルールの評価値とすることで、罰ルールであっても報酬が得られるルールを選択することが可能になる。
また、本発明では、ＰＳを学習のベースとしているため、従来のＰＡＰＳと比べてアルゴリズムがシンプルであり、実機への実装が容易である。

本発明によれば、以下の効果を奏する。
すなわち、本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムによれば、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるので、罰ルールであっても報酬が得られるルールを選択することが可能になると共に、実機への実装が容易である。
したがって、例えばロボットサッカーのような複数のエージェント間の複雑な相互作用の中で共通の目的を達成するシステムにおいて、サッカーロボットの失点などの罰を抑えて、得点行動などの報酬行動を学習する学習システムを構築することができる。また、本発明は、サッカーロボットのような自律移動ロボットへの適用だけでなく、在庫管理や生産ラインの最適化などにおいても有効な学習システムである。例えば、一定数量以下の在庫で需要を満足することを報酬とし、在庫過剰または供給不足を罰として、本発明の学習システムに適用することが可能である。

本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムの一実施形態において、経験強化型強化学習システムの構成を示すブロック図である。本実施形態において、ルールのＰＳ強化値とリスクの値とが一致することを示す説明図である。本実施形態において、サッカーロボットシステムに適用した経験強化型強化学習システムを示す全体の構成図である。本実施形態において、サッカーロボットによるシミュレーションのフィールド寸法を示す説明図である。本実施形態において、サッカーロボットのキックスポットを示す説明図である。本実施形態において、ＦＷとＤＦとの守備範囲を示す説明図である。本実施形態において、経験強化型強化学習方法および経験強化型強化学習プログラムのフローチャートである。本実施形態において、経験強化型強化学習方法および経験強化型強化学習プログラムのフローチャートである。ＰＡＰＳエージェントチームの得点推移の一例(表３のGame No.4)を示すグラフである。ＰＳＱエージェントチームの得点推移の一例(表３のGame No.2)を示すグラフである。

以下、本発明に係る経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムの一実施形態を、図１から図１０を参照しながら説明する。

本実施形態の経験強化型強化学習システムは、図１に示すように、複数のエージェントＡの状態を認識する状態認識手段１と、認識したエージェントＡの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するルール選択手段２と、エージェントＡが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段３と、エージェントＡが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段４と、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求める評価値演算手段５と、を備えている。

また、本実施形態の経験強化型強化学習方法は、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントＡを自律的に適応させる経験強化型強化学習方法であって、エージェントＡの状態を認識するステップと、認識したエージェントＡの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するステップと、エージェントＡが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、エージェントＡが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるステップと、を有している。

さらに、経験強化型強化学習プログラムは、罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントＡを自律的に適応させる経験強化型強化学習プログラムであって、エージェントＡの状態を認識するステップと、認識したエージェントＡの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの状態−行動ルールを選択するステップと、エージェントＡが報酬を得たときに該報酬に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、エージェントＡが罰を受けたときに該罰に至るまでに選択した全ての状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるステップと、をコンピュータに実行させるプログラムである。

なお、本実施形態の経験強化型強化学習プログラムは、コンピュータ読み取り可能な記録媒体に記録されている。
また、上記本実施形態の学習システムを構成する各部は、専用のハードウェアにより実現されるものであってもよく、また、本システムの各部はコンピュータシステムとしてメモリ及びＣＰＵ（中央集積装置）により構成され、各部の機能及び本実施形態の強化学習方法を実現するためのプログラムをメモリにロードして実行することによりその機能を実現させるものであってもよい。

すなわち、上記プログラムは、コンピュータ読み取り可能なプログラムであり、上記機能及び強化学習方法の一部を実現するものであってもよい。さらに、上記プログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから伝送媒体を介して、あるいは伝送媒体中の伝送波により他のコンピュータシステムに伝送されるものであってもよい。上記伝送媒体とは、インターネット等のネットワーク（通信網）や電力線、電話回線等の通信回線（通信線）のように、情報を伝送する機能を有する媒体をいうものとする。
また、上記メモリは、ハードディスク装置や光磁気ディスク装置、フラッシュメモリ等の不揮発性のメモリや、ＣＤ−ＲＯＭ等の読み出しのみが可能な記録媒体、ＲＡＭ(Random Access Memory)のような揮発性のメモリ或いはこれらの組み合わせによるコンピュータ読み取り、書き込み可能な記録媒体より構成されるものとする。

本実施形態で扱うエージェントＡは、外部の環境と内部の状態を知覚し、その状態において実行可能な行動をあらかじめルール（状態−行動ルール）として設定し、学習によりその価値（重み）を変更、政策に応じてこの価値に基づきルールを選択して行動していくものである。なお、エージェントは、人工知能の分野では人間の脳を代行するソフトウエア（プログラム）や、ロボット工学におけるロボットそのものを指す概念である。また、ここで、「政策」とは各状態に対して選択すべきルールを与える関数である。なお、学習には強化学習法の一つであるＰＳを用いる。

上記関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）は、例えば報酬に対する重みをαとし、罰に対する重みをβとしたときに、演算式：Ｑ＝α・ｑ［＋］−β・ｑ［−］に設定される。なお、本実施形態では、α＝１、β＝１として、以下に説明する。

＜ＰｒｏｆｉｔＳｈａｒｉｎｇ（ＰＳ）について＞
初期状態あるいは報酬（もしくは罰）を得た直後から次の報酬（もしくは罰）を得るまでの状態−行動ルールの系列をエピソードと呼び、ＰＳはエピソード終了後に、エピソード内の状態−行動ルールを一括して強化する。単位行動あたりの期待獲得報酬が正となる状態−行動ルールを選択する合理的政策の獲得を保証したものにＰＳの合理性定理がある。これを満たす強化値を返す報酬関数は一般的に等比減少関数となり、以下のものがある。
Ｆ_ｎ＝Ｆ_ｎ−１／Ｍ、ｎ＝１，２，…，ｅｐｉｓｏｄｅ−１（１）

ここで、Ｆ_ｉはエピソードの終わりからｉステップ前の強化値であり、Ｍは行動の種類の数である。エピソードのルール系列（ｒ_０，ｒ_１，…，ｒ_{ｅｐｉｓｏｄｅ−１}）の各ルール価値（評価値）Ｑ_ｒｉは、
Ｑ_ｒｉ＝Ｑ_ｒｉ＋Ｆ_ｉ（２）
で更新される。

＜罰を回避するＰＳについて＞
ＰＡＰＳは罰ルール判定アルゴリズムによりエピソード内から罰につながる罰ルールを判定する。ＰＳにより強化するルールの重みには、報酬用の重みｑ［＋］と罰用の重みｑ［−］とを独立に用意する。現状態で選択可能な状態−行動ルールの中に罰ルールでないルールがあれば、それらの中でｑ［＋］を利用して状態−行動ルールを選択し、そのようなルールがなければｑ［−］を利用して罰を回避する。

この学習において、罰用重みｑ［−］は十分に罰ルールが判定されていなければ政策に考慮されない重みである。また、サッカーロボットのように環境が不確実かつ部分情報で状態を定義している場合、問題環境は非マルコフ決定過程となり、ルールの遷移先が不安定となる。このため、多くの場合で報酬が期待できる状態−行動ルールであるのに、１度でも罰につながってしまったために罰ルールとして以降ずっと選択できなくなってしまう場合がある。この問題はそれまでの報酬の学習結果の価値が下がってしまうことにつながる。

＜報酬と罰とを考慮するＰＳについて＞
そこで、本実施形態では、ＰＡＰＳの問題点を考慮して新たな政策を採用する。ＰＡＰＳ同様に、報酬および罰用にそれぞれ重みを用意し、エピソード度に報酬評価値ｑ［＋］、罰評価値ｑ［−］を振り分ける。ここでｑ［＋］からｑ［−］の差をとった評価値Ｑを次のように定義する。
Ｑ＝ｑ［＋］−ｑ［−］（３）

政策は、各状態−行動ルールの評価値Ｑを利用してルールを選択する。本実施形態では、現状態の選択可能な状態−行動ルールのうち評価値Ｑが最大のものを選択するものとし、この評価値Ｑを用いて状態−行動ルールを評価する学習を、以降ＰＳＱと呼ぶ。

次に、この学習の政策方針を説明する。
本実施形態では、ＰＡＰＳのように失点につながる罰ルールを判定して排除することにより失点のない行動計画の獲得を目指すのではなく、時に失点を得るときはあっても、それよりも多くの頻度で得点を得られるような行動計画の学習を目指す。
ＰＳで与えられる状態−行動ルールの強化値は、“報酬値”と“報酬を得た時点からランダムに状態−行動ルールを遡ったときにそのルールを選択し得る最小の確率”との積である。これは、危機管理に考慮するリスクと似ている。ここでリスクとは、損害の大きさとその損害が起こる確率との積として考え、一般的にリスクが大きい行動計画ほど避けようと考える。

普通、リスクは罰に対して使う概念であるが、本実施形態では報酬に対してもリスクを使い、これを報酬を得るリスクとする。状態−行動ルールのＰＳ強化値とリスクの値とは一致することを、図２を用いて説明する。
一例として、報酬の値Ｆ_０を１０、行動の種類Ｍを２として、ｓｔａｒｔからＧｏａｌにたどり着いた場合を考える。

図２よりエピソードは４であり、開始ルールに与えられるＰＳの報酬値は、１０×（１／２）^{ｅｐｉｓｏｄｅ−１}である。
次に、開始ルールの報酬を得るリスクを考えると、報酬を得るリスクはつまり“報酬の値”×“Ｇｏａｌからランダムにルール選択してスタートまでたどり着く確率”であるから、（（１／２）×（１／２）×（１／２））×１０である。よって、上に一致している。

つまり、開始ルールに与えられるＰＳによる強化値（報酬評価値）ｑ［＋］は報酬を得るリスク、強化値（罰評価値）ｑ［−］は罰を受けるリスクとして考えられる。政策は、報酬が得られるリスクが大きく、罰を受けるリスクが小さい状態−行動ルールを選ぶような関数であるべきである。本実施形態のＰＳＱは、報酬のリスクから罰のリスクを引いた評価値が最大となる状態−行動ルールを選ぶので、前述の政策の方針に合っている。

＜本実施形態のサッカーロボットシステム（経験強化型強化学習システム）の構成＞
本実施形態の経験強化型強化学習システムとして実際に構築したサッカーロボットシステムを、図３に示す。このサッカーロボットシステムは、各サッカーロボットＢ，Ｙが視覚情報を天井のＣＣＤカメラ１１により取得するグローバルビジョン方式のサッカーロボットシステムである。
このサッカーロボットシステムは、エージェントＡとして自律移動ロボットであるサッカーロボットＢ，Ｙによるシミュレーションであって、複数のサッカーロボットＢ，Ｙによる試合において、ＰＳをベースとする失点を抑えるゴール行動の学習システムである。

本実施形態のサッカーロボットシステムは、各チーム最大５台のサッカーロボットＢ，Ｙと、高さ約２．５ｍ上方からフィールド内全体を撮影するカラーＣＣＤカメラ１１と、画像処理によりサッカーロボットＢ，ＹのチームおよびＩＤの識別とボールも含めた位置情報とをＬＡＮまたは通信網１０経由で提供するビジョンサーバ１２と、フィールド内の情報に基づき各サッカーロボットＢ，Ｙに行動指令を与えるエージェントコントローラ１３と、各チームのサッカーロボットＢ，Ｙへの指令を公平に伝送することを可能とするためのエージェントゲートウェイ１４と、試合の進行を統括し、得点やファール、ゲームの開始等を行うレフェリーボックスと呼ばれ、試合中は各チームの人間が操作できない審判ＰＣ（パーソナルコンピュータ）１５と、を備えている。

なお、カラーＣＣＤカメラ１１およびビジョンサーバ１２が、状態認識手段１として機能し、エージェントコントローラ１３およびエージェントゲートウェイ１４が、ルール選択手段２、報酬評価値強化手段３、罰評価値強化手段４および評価値演算手段５として機能する。

上記エージェントコントローラ１３は、各サッカーロボットＢ，Ｙの行動決定部であり，フィールド内の情報と各エージェントＡの行動アルゴリズムに基づいて各サッカーロボットＢ，Ｙへ行動指令を伝送する機能を有している。行動決定は特定の時間刻みごとに行い，そして行動アルゴリズムでこの時間刻みをカウントして、スタートからゴールまでの時間刻み数（エピソード）を行動決定のパラメータの算出に利用している。

上記エージェントコントローラ１３は、サッカーシミュレータＳｏｃｃｅｒＢｏｔをベースにＬＥＧＯ（登録商標）ロボット用にＪａｖａ（登録商標）言語で開発しており、ＮＸＴ用に通信系のクラスを書き加えてある。これを用いることにより、モードを切り替えることでシミュレーションと実際のサッカーロボットＢ，Ｙのコントロールとを同様に行うことができる。
このエージェントコントローラ１３は、１ｓｔｅｐ／０．１秒で状態−行動ルールを選択し、各サッカーロボットＢ，Ｙに指令を与える機能を有している。

上記エージェントゲートウェイ１４は、エージェントコントローラ１３からの指令を各チームのサッカーロボットＢ，ＹへＢｌｕｅＴｏｏｔｈ（登録商標）通信により伝送する機能を有し、ＢｌｕｅＴｏｏｔｈ（登録商標）通信装置１６に接続されている。
上記サッカーロボットＢ，Ｙは、受け取った行動指令に基づき前進・回転行動によりサッカーを行うロボットであり、Ｍｉｎｄｓｔｏｒｍｓ（登録商標）ＮＸＴを使用して製作されたものである。このサッカーロボットＢ，Ｙは、円筒状であり、移動とボールキック等が可能になっている。

上記審判ＰＣ１５は、試合進行中に審判がこれを操作して各チームのエージェントコントローラ１３にキックオフや試合中断・再開などの指示をシリアル通信により行なうものであり、各チームに所属する人間は試合中に一切操作できない仕組みとなっている。

＜競技フィールド等の設定＞
実験は初期のＲｏｂｏＣｕｐサッカー小型リーグのルールに準拠した環境で行い、競技規定のとおり直径４０ｍｍのゴルフボール（オレンジ色）を用いた。ただし、競技フィールドの寸法は、図４に示すとおり規定よりも狭いフィールドで行った。

＜エージェントの設計＞
（１）行動集合
学習エージェントＡ（サッカーロボットＢ，Ｙ）の行動集合ａを、以下の表１に示す。

（２）状態集合
学習エージェントＡの状態集合ｓを、以下の表２のとおり、学習エージェントＡの位置ｐ（フィールドを縦・横それぞれ４分割した１６通り）、学習エージェントＡとボールＢａｌｌとの距離ｄ（４通り）、ボールＢａｌｌへの角度ａ（４通り）及び相手エージェントの位置方向ｋ（４方向における相手の有無、１６通り）とした。

また、それぞれのキックスポットの位置を、図５に示す。エージェントＡは３つ行動から選択し、キックスポットへボールＢａｌｌを避けて移動し、キックスポットからボールＢａｌｌをキックしてボールＢａｌｌを転がすように設定されている。
すなわち、サッカーロボットＢ，Ｙの行動は，ボールＢａｌｌとゴール中心とを結ぶ仮想直線におけるボールＢａｌｌ後方の直線上の１点ＫＳ１と，その直線に対してボール位置を軸に６０度の位置に２点ＫＳ２とＫＳ３とのキックスポットを定義し，その３つの点の何れかへ移動する３通りとした。このキックスポットに移動した後にサッカーロボットＢ，ＹはボールＢａｌｌへ向かってキックするように設定されている。上記の状態と行動との組み合わせから、状態−行動ルール１２２８８本を定義した。

＜ポジション＞
フォワード（ＦＷ）、ディフェンダー（ＤＦ）およびゴールキーパー（ＧＫ）の３つのポジションを定義し、そのうち２つのポジションの守備範囲を図６に示す。
・フォワード（ＦＷ）
ＦＷは、相手フィールドの半分にあたるＡ−Ｚｏｎｅを守備範囲とし、ボールＢａｌｌがＡ−Ｚｏｎｅに入ると行動選択を行う。また、ボールＢａｌｌがＡ−Ｚｏｎｅに入っていない場合、Ａ−Ｚｏｎｅ内でボールＢａｌｌと自身とのｘ座標を合わせるように移動する設定とされている。

・ディフェンダー（ＤＦ）
ＤＦは、自フィールドと相手フィールド半分のＢ−Ｚｏｎｅとを守備範囲とし、ボールＢａｌｌがＢ−Ｚｏｎｅに入ると行動選択を行う。また、ボールＢａｌｌがＢ−Ｚｏｎｅに入っていない場合、Ｂ−Ｚｏｎｅ内でボールＢａｌｌと自身とのｘ座標とを合わせるように移動する設定とされている。

・ゴールキーパー（ＧＫ）
ＧＫは、常にゴール前に待機し、ボールＢａｌｌが自陣に入ったときに自身のｙ座標をボールＢａｌｌのｙ座標に合わせるように移動する。なお、このポジションでは学習を行わない。

＜学習エージェント＞
本実施形態では、ＰＳの重み更新式は上記式（１）より、ｓｔｅｐｔの報酬関数Ｆ（ｔ）を次式で与える。
Ｆ（ｔ）／Ｆ（ｔ−１）＝ｂ（４）
最終値Ｆ（ｅｐｉｓｏｄｅ−１）＝１０、公比ｂ＝３とした。

報酬を得た場合は、エピソードのルール系列へ報酬用の重みｑ［＋］を分配し、罰を得た場合は、罰用の重みｑ［−］を分配する。
この場合、試合中にチームの中で２台のエージェントＡが同時に学習をすることはないため、チームで一つの学習エージェントＡとして捉えることが出来る。

・ＰＡＰＳエージェントの設定
比較用のＰＡＰＳエージェントは、前述の罰を回避するＰＳによる学習を行う。すなわち、エピソード度に罰ルールを判定し、通常は罰ルールを排除した現状態のルール集合からｑ［＋］が最大のルール選ぶ。選択するルールが全て罰ルールの場合は、ｑ［−］が最小の罰ルールを選ぶように設定した。

・ＰＳＱエージェントの設定
本実施形態のＰＳＱエージェントは、前述のＰＳＱによる学習を行う。すなわち、現状態のルール集合の中からｑ［＋］とｑ［−］との差をとった評価値Ｑが最大であるルールを選択するように設定した。

・相手エージェントの設定
本実施形態の学習エージェントを評価するための相手として、相手エージェントを用意した。この相手エージェントは、学習はせず、常に行動０を選択してボールをゴール中央へ向けてキックする設定とした。

次に、サッカーロボットシステムに適用した本実施形態の経験強化型強化学習システムにおける動作および処理のフローチャートを、図７および図８を参照して説明する。

まず、図７に示すように、サッカーロボットシステム全体の初期化を行い、エージェントコントローラ１３は各エピソードカウンタを０にする（ステップＳ１０１）。
そして、ＣＣＤカメラ１１からの映像から、ビジョンサーバ１２はボールＢａｌｌを含めた各エージェントＡ（サッカーロボットＢ，Ｙ）の位置・姿勢角を認識する（ステップＳ１０２）。また、ビジョンサーバ１２はＬＡＮ経由でエージェントコントローラ１３へ認識した情報を提供する。

次に、エージェントコントローラ１３は、行動決定アルゴリズムを通して各エージェントＡの行動指令を決定し、エージェントゲートウェイ１４へ行動指令を伝送する（ステップＳ１０３）。さらに、エージェントコントローラ１３から受け取った各エージェントＡの行動指令をＢｌｕｅＴｏｏｔｈ（登録商標）通信によって各エージェントＡへ伝送する（ステップＳ１０４）。エージェントＡが行動指令を受け取ると、行動指令（目標速度・目標姿勢角）に応じて前進・回転行動し、サッカーを行う（ステップＳ１０５）。

また、エージェントコントローラ１３は、図８に示すように、評価関数である評価値Ｑの演算を行うと共にエージェントゲートウェイ１４を介してエージェントＡへ行動指令を出す。すなわち、エージェントコントローラ１３は、ビジョンサーバ１２等の情報からエージェントＡの現状態Ｓ_ｋを認識する（ステップＳ２０１）。さらに、ボールＢａｌｌの位置情報から得点・失点の有無を認識し、ＮＯなら次のステップＳ２０３へ処理を進め、ＹＥＳなら後述するステップＳ２０７へ処理を進める（ステップＳ２０２）。

すなわち、ボールＢａｌｌの位置情報から得点・失点であると認識されない場合（ＮＯの場合）、現状態に選択できる状態−行動ルールＳ_ｋＡ_ｋを評価値Ｑに基づいて選択する。評価値Ｑは、評価値ｑ［＋］およびｑ［−］で算出する値である（ステップＳ２０３）。そして、エピソードカウンタｋを一つ増やす（ステップＳ２０４）。

次に、選択した状態‐行動ルールＳＡに基づき行動Ａ_ｋを決定し，エージェントＡへの行動指令である目標速度・姿勢角を算出する（ステップＳ２０５）。そして、エージェントＡへ行動指令を伝送する（ステップＳ２０６）。この後、前述のステップＳ２０１まで処理を戻して同様に繰り返す。

一方、ボールＢａｌｌの位置情報から得点・失点であると認識された場合（ＹＥＳの場合）、得点または失点に至るまでに選択したルール系列の状態−行動ルールＳ_ｉＡ_ｉ（ｉ＝０〜ｋ）の各評価値ｑ［＋］またはｑ［−］を一括して更新する（ステップＳ２０７）。そして、エピソードカウンタｋを０にする（ステップＳ２０８）。この後、前述のステップＳ２０１まで処理を戻して同様に繰り返す。

＜実験条件＞
本実施形態では、学習エージェント２台（ＦＷ、ＤＦ）とＧＫとの３台を１チームとし、ＰＡＰＳエージェントチーム（従来の学習チーム）およびＰＳＱエージェントチーム（本発明の学習チーム）を、それぞれ相手エージェントチーム（学習無しチーム）と３対３で試合を行わせ、結果を比較した。なお、ＰＡＰＳエージェントチームおよびＰＳＱエージェントチームと、相手エージェントチームとは、青色チーム（サッカーロボットＢのチーム）と黄色チーム（サッカーロボットＹのチーム）として分けて対戦させた。

まず、シミュレーション上で１試合３６０、０００ｓｔｅｐ（１０時間、１ｓｔｅｐ＝０．１秒）の試合を１０試合行い、ＰＡＰＳエージェントチームとＰＳＱエージェントチームとで得失点を比較した。
次に、シミュレーションによる学習結果を実機に搭載し、実機による試合を行った。この実機試合は、１試合を１０分とし、ＰＡＰＳエージェントチームの場合とＰＳＱエージェントチームの場合とで、それぞれ相手エージェントチームと対戦させ、各１０試合の結果を比較した。

＜シミュレーション結果＞
シミュレーションの試合結果を表３に示すと共に、図９および図１０にＰＡＰＳエージェントチームおよびＰＳＱエージェントチームの得点推移の一例を示す。
図９および図１０の２つのグラフとも試合開始から約５０分で学習が収束し、得点の増加が加速し、失点を抑えることが出来ており、学習システムが機能していることがわかる。
同時に２体（ＦＷおよびＤＦ）のエージェントにまたがった学習においても学習システムが機能するということも言える。

しかしながら、図９に示す比較用の従来のＰＡＰＳエージェントチームにおいては、５００分付近から得点のグラフの傾きが急に落ちてしまっている。これは前述のように非マルコフ決定過程における不安定なルール遷移により、それまでに選択していた得点行動の主要なルールが罰ルールと判定されてしまい、行動計画に影響を与えたためと考えられる。このようにそれまでの大量の得点に寄与していたルールも、少しでも罰ルールにつながる可能性があれば罰ルール判定により排除してしまうため、結果として得点に大きな影響を与えてしまう。

これに対して、図１０に示す本実施形態のＰＳＱエージェントチームによる得点グラフの傾きは、失点に影響されずおよそ一定である。しかし、学習が収束した後の失点の増加は一定のままである。表３において結果を比較すると得点、失点が共に本実施形態のＰＳＱに優位性が見られる。

すなわち、得点についてはＰＳＱエージェントチームが、ＰＡＰＳエージェントチームよりも平均が１０点以上高く，また失点についてもＰＳＱエージェントチームの方が小さく抑えることができている。つまり、本実施形態のＰＳＱに優位性が見られる。
さらに、ＰＳＱの優位性を統計的に検証した。まず、ＰＳＱエージェントチームとＰＡＰＳエージェントチームとの得失点をＦ−検定し，それぞれ有意水準９９．９％で等分散であることがわかった。それを受けて両側ｔ−検定を行い、得点については有意水準９４．９％，失点については９９．６％で２つの結果に有意差があることがわかった。よって本実施形態のＰＳＱは、従来のＰＡＰＳよりも失点を抑え，かつ得点力を伸ばす効果があるといえる。

＜実機による結果＞
シミュレーションのＰＡＰＳエージェントチームとＰＳＱエージェントチームとの学習結果を搭載した実機実験のそれぞれの試合結果を、表４に示す。
この結果から、ＰＡＰＳエージェントチームの平均得点が０．５であるのに対して、本実施形態のＰＳＱエージェントチームの平均得点が１．０であり、ＰＡＰＳエージェントチームの２倍となっている。また、失点の平均はＰＡＰＳエージェントチームが０．６、ＰＳＱエージェントチームが０．５であり、同じように失点を抑えることができている。これより、実機においても本実施形態のＰＳＱの優位性が確認できる。

このように本実施形態の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムでは、状態−行動ルールに対応した評価値をＱとし、報酬評価値をｑ［＋］とし、罰評価値をｑ［−］としたとき、評価値を、関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）により求めるので、例えば最も単純な関数形として報酬評価値と罰評価値との差を状態−行動ルールの評価値とすることで、罰ルールであっても報酬が得られるルールを選択することが可能になる。
また、本実施形態では、ＰＳを学習のベースとしているため、従来のＰＡＰＳと比べてアルゴリズムがシンプルであり、実機への実装が容易である。

なお、本発明の技術範囲は上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。

本発明の経験強化型強化学習システム、経験強化型強化学習方法および経験強化型強化学習プログラムは、ロボットサッカーのような複数のエージェント間の複雑な相互作用の中で共通の目的を達成するシステムに有用である。また、自律移動ロボットが罰と報酬との混在する環境において、自身の適切な状態−行動ルールを選択する技術として本発明は有用である。

１…状態認識手段、２…ルール選択手段、３…報酬評価値強化手段、４…罰評価値強化手段、５…評価値演算手段、１２…ビジョンサーバ、１３…エージェントコントローラ、１４…エージェントゲートウェイ、Ａ…エージェント、Ｂ…サッカーロボット(Blue Team Agent)、Ｙ…サッカーロボット(Yellow Team Agent)

Claims

罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習システムであって、
前記エージェントの状態を認識する状態認識手段と、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するルール選択手段と、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化する報酬評価値強化手段と、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化する罰評価値強化手段と、
前記状態−行動ルールに対応した評価値をＱとし、
前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、
関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）
により求める評価値演算手段と、を備えていることを特徴とする経験強化型強化学習システム。
罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習方法であって、
前記エージェントの状態を認識するステップと、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、
前記状態−行動ルールに対応した評価値をＱとし、
前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、
関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）
により求めるステップと、を有していることを特徴とする経験強化型強化学習方法。
罰と報酬との混在する環境において該環境を知覚して対応する行動を行うエージェントを自律的に適応させる経験強化型強化学習プログラムであって、
前記エージェントの状態を認識するステップと、
認識した前記エージェントの状態で選択可能な行動ルールを状態−行動ルールとし、各状態−行動ルールに対応した評価値に基づいて実際に行動する一つの前記状態−行動ルールを選択するステップと、
前記エージェントが前記報酬を得たときに該報酬に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの報酬評価値を一括して報酬用の重みで強化するステップと、
前記エージェントが前記罰を受けたときに該罰に至るまでに選択した全ての前記状態−行動ルールの系列を一つのエピソードとし、該エピソードの全ての前記状態−行動ルールの罰評価値を一括して罰用の重みで強化するステップと、
前記状態−行動ルールに対応した評価値をＱとし、
前記報酬評価値をｑ［＋］とし、前記罰評価値をｑ［−］としたとき、前記評価値を、
関数式：Ｑ＝Ｑ（ｑ［＋］、ｑ［−］）
により求めるステップと、をコンピュータに実行させることを特徴とする経験強化型強化学習プログラム。