JP2013081683A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2013081683A JP2013081683A JP2011224639A JP2011224639A JP2013081683A JP 2013081683 A JP2013081683 A JP 2013081683A JP 2011224639 A JP2011224639 A JP 2011224639A JP 2011224639 A JP2011224639 A JP 2011224639A JP 2013081683 A JP2013081683 A JP 2013081683A
- Authority
- JP
- Japan
- Prior art keywords
- action
- data
- reward
- estimator
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 239
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000009471 action Effects 0.000 claims abstract description 544
- 238000000034 method Methods 0.000 claims abstract description 282
- 230000008569 process Effects 0.000 claims abstract description 96
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 230000001172 regenerating effect Effects 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 267
- 239000003795 chemical substances by application Substances 0.000 claims description 108
- 230000006399 behavior Effects 0.000 claims description 98
- 238000012545 processing Methods 0.000 claims description 71
- 239000013598 vector Substances 0.000 claims description 57
- 238000009826 distribution Methods 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 230000002068 genetic effect Effects 0.000 claims description 12
- 238000013459 approach Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 description 87
- 230000010354 integration Effects 0.000 description 49
- 230000000875 corresponding effect Effects 0.000 description 47
- 238000005070 sampling Methods 0.000 description 45
- 238000005516 engineering process Methods 0.000 description 33
- 238000011156 evaluation Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000004048 modification Effects 0.000 description 15
- 238000012986 modification Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 9
- 230000002730 additional effect Effects 0.000 description 8
- 230000003068 static effect Effects 0.000 description 8
- 239000004575 stone Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 210000005155 neural progenitor cell Anatomy 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000009827 uniform distribution Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 229910003460 diamond Inorganic materials 0.000 description 3
- 239000010432 diamond Substances 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 101150012579 ADSL gene Proteins 0.000 description 2
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 2
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000007636 ensemble learning method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000011295 pitch Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- HMUNWXXNJPVALC-UHFFFAOYSA-N 1-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethanone Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)C(CN1CC2=C(CC1)NN=N2)=O HMUNWXXNJPVALC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Physiology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成し、エージェントがとりうる行動のうち、報酬推定機を用いて推定される報酬値が高く、かつ、行動履歴データに含まれない行動を優先的に選択し、選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を行動履歴データに追加し、行動履歴データに状態データ、行動データ、及び報酬値が追加された場合に報酬推定機を再生成する、情報処理装置が提供される。
【選択図】図41
Description
ここで、以下に記載する説明の流れについて簡単に述べる。
1:基盤技術
1−1:推定機の自動構築方法
1−1−1:推定機の構成
1−1−2:構築処理の流れ
1−2:オンライン学習について
1−3:学習用データの統合方法
1−3−1:特徴量空間における学習用データの分布と推定機の精度
1−3−2:データ統合時にサンプリングする構成
1−3−3:データ統合時に重み付けする構成
1−3−4:データ統合時にサンプリング及び重み付けする構成
1−4:効率的なサンプリング/重み付け方法
1−4−1:サンプリング方法
1−4−2:重み付け方法
1−4−3:組み合わせ方法
1−5:サンプリング処理及び重み付け処理に関する変形例
1−5−1:変形例1(距離に基づく処理)
1−5−2:変形例2(クラスタリングに基づく処理)
1−5−3:変形例3(密度推定手法に基づく処理)
2:実施形態
2−1:思考ルーチンの自動構築方法
2−1−1:思考ルーチンとは
2−1−2:思考ルーチンの構成
2−1−3:報酬推定機の構築方法
2−2:情報処理装置10の構成
2−3:効率的な推定報酬機の構築方法
2−4:(変形例1)アクションスコア推定機を用いる思考ルーチン
2−5:(変形例2)予測機を用いた報酬の推定
2−5−1:予測機の構築方法
2−5−2:報酬の推定方法
2−6:(変形例3)複数エージェントの同時学習
3:応用例
3−1:「三目並べ」への応用
3−2:「対戦ゲーム」への応用
3−3:「五目並べ」への応用
3−4:「ポーカー」への応用
3−5:「ロールプレイングゲーム」への応用
4:ハードウェア構成例
5:まとめ
後述する実施形態は、推定機の自動構築方法に関する。また、同実施形態は、推定機の構築に用いる学習用データを追加できるようにする仕組み(以下、オンライン学習)に関する。そこで、同実施形態に係る技術について詳細に説明するに先立ち、推定機の自動構築方法及びオンライン学習方法(以下、基盤技術)について説明する。なお、以下では遺伝アルゴリズムに基づく推定機の自動構築方法を例に挙げて説明を進めるが、同実施形態に係る技術の適用範囲はこれに限定されない。
推定機の自動構築方法について説明する。
はじめに、図1〜図3を参照しながら、推定機の構成について説明する。図1は、推定機を利用するシステムのシステム構成例を示した説明図である。また、図2は、推定機の構築に利用する学習用データの構成例を示した説明図である。そして、図3は、推定機の構造及び構築方法の概要を示した説明図である。
さて、基底関数φk(k=1〜M)の構成、基底関数リストの構成、推定関数fの構成は、学習用データに基づく機械学習により決定される。以下、この機械学習による推定機の構築処理について、より詳細に説明する。
まず、図4を参照しながら、全体的な処理の流れについて説明する。図4は、全体的な処理の流れについて説明するための説明図である。なお、以下で説明する処理は、情報処理装置10により実行される。
ここで、図5〜図10を参照しながら、ステップS102の処理(基底関数の生成)について、より詳細に説明する。
次に、図6及び図7を参照しながら、ステップS112の処理について、より詳細に説明する。ステップS112の処理は、第1世代の基底関数を生成する処理に関する。
次に、図7を参照しながら、ステップS122の処理について、より詳細に説明する。
次に、図8〜図10を参照しながら、ステップS113の処理について、より詳細に説明する。ステップS113の処理は、第τ世代(τ≧2)の基底関数を生成する処理に関する。従って、ステップS113を実行する際には、第τ−1世代の基底関数φm,τ−1(m=1〜M)及び当該基底関数φm,τ−1の評価値vm,τ−1が得られている。
次に、図9を参照しながら、ステップS144の処理について、より詳細に説明する。
次に、図10を参照しながら、ステップS145の処理について、より詳細に説明する。
次に、図7を参照しながら、ステップS146の処理について、より詳細に説明する。
次に、図11を参照しながら、ステップS103の処理(基底関数の計算)について、より詳細に説明する。
次に、図12を参照しながら、ステップS104の処理(基底関数の評価・推定関数の生成)について、より詳細に説明する。
さて、上記のように、機械学習により推定機を自動構築するアルゴリズムの場合、学習用データの数が多いほど、構築される推定機の性能が高くなる。そのため、可能な限り多くの学習用データを利用して推定機を構築するのが好ましい。また、後述する実施形態に係る技術においては、学習用データを追加する仕組みが利用される。そこで、学習用データを追加できるようにする新たな仕組み(以下、オンライン学習)について紹介する。
学習用データの統合方法について、より詳細に説明する。
まず、図14を参照しながら、特徴量空間における学習用データの分布と推定機の精度との関係について考察する。図14は、特徴量空間における学習用データの分布例を示した説明図である。
まず、図16を参照しながら、学習用データをサンプリングする方法について説明する。図16は、学習用データをサンプリングする方法について説明するための説明図である。
次に、学習用データに重みを設定する方法について説明する。
また、学習用データをサンプリングする方法と、学習用データに重みを設定する方法とを組み合わせてもよい。例えば、特徴量座標の分布が所定の分布となるように学習用データを間引いた後、間引き後の学習用データの集合に属する学習用データに対し、特徴量座標の密度に応じた重みを設定する。このように、間引き処理と重み付け処理とを組み合わせることにより、メモリリソースが限られていても、より高精度の推定機を構築することが可能になる。
次に、学習用データの効率的なサンプリング/重み付け方法について説明する。
まず、図17を参照しながら、学習用データの効率的なサンプリング方法について説明する。図17は、学習用データの効率的なサンプリング方法について説明するための説明図である。
次に、図24を参照しながら、学習用データの効率的な重み付け方法について説明する。図24は、学習用データの効率的な重み付け方法について説明するための説明図である。
次に、図28を参照しながら、上記の効率的なサンプリング方法と効率的な重み付け方法とを組み合わせる方法について説明する。図28は、上記の効率的なサンプリング方法と効率的な重み付け方法とを組み合わせる方法について説明するための説明図である。
次に、サンプリング処理及び重み付け処理に関する変形例を紹介する。
まず、図29を参照しながら、特徴量座標間の距離に基づく学習用データのサンプリング方法について説明する。図29は、特徴量座標間の距離に基づく学習用データのサンプリング方法について説明するための説明図である。
次に、クラスタリングに基づく学習用データのサンプリング/重み付け方法について説明する。なお、以下ではサンプリング方法及び重み付け方法についてそれぞれ別々に説明するが、これらの方法を組み合わせてもよい。
まず、図30を参照しながら、クラスタリングに基づく学習用データのサンプリング方法について説明する。図30は、クラスタリングに基づく学習用データのサンプリング方法について説明するための説明図である。
次に、図31を参照しながら、クラスタリングに基づく学習用データの重み付け方法について説明する。図31は、クラスタリングに基づく学習用データの重み付け方法について説明するための説明図である。
次に、密度推定手法に基づく学習用データのサンプリング/重み付け方法について説明する。なお、以下ではサンプリング方法及び重み付け方法についてそれぞれ別々に説明するが、これらの方法を組み合わせてもよい。
まず、図32を参照しながら、密度推定手法に基づく学習用データのサンプリング方法について説明する。図32は、密度推定手法に基づく学習用データのサンプリング方法について説明するための説明図である。
次に、図33を参照しながら、密度推定手法に基づく学習用データの重み付け方法について説明する。図33は、密度推定手法に基づく学習用データの重み付け方法について説明するための説明図である。
以下、本技術の一実施形態について説明する。
本実施形態は、ロボットのようなエージェントの思考ルーチンや様々なゲームに登場するNPC(Non−Player Character)の思考ルーチンを自動構築する技術に関する。例えば、本実施形態は、ある状態SにおかれたNPCが次にとる行動aを決定する思考ルーチンを自動構築する技術に関する。本稿においては、状態Sの入力に応じて行動aを出力するプログラムを思考ルーチンと呼ぶことにする。また、以下では、NPCの行動aを決定する思考ルーチンを例に挙げて説明を進めることにする。もちろん、ロボットなどの行動を決定する思考ルーチンも同様に自動構築することが可能である。
上記の通り、本稿に言う思考ルーチンは、図34に示すように、状態Sの入力に応じて行動aを出力するプログラムである。なお、状態Sとは、ある瞬間に、行動aを決定すべきNPCがおかれた環境を意味する。例えば、図34に示すように、2つのNPC(NPC#1及び#2)が対戦する対戦ゲームについて考えてみよう。この対戦ゲームは、NPC#1及び#2がそれぞれヒットポイントを有しており、ダメージを受けるとヒットポイントが減少していく仕組みになっているものとする。この例において、ある瞬間における状態Sは、NPC#1及び#2のヒットポイント及び位置関係になる。
図35に示すように、本実施形態に係る思考ルーチンは、行動履歴データに基づく思考ルーチンの自動構築技術により生成される。この行動履歴データは、状態S、行動a、報酬rにより構成される。例えば、状態S=S1において、NPC#1が行動a=“右へ移動”をとった場合にNPC#2からダメージを受けてヒットポイントが0になったとしよう。この場合、行動履歴データは、状態S=S1、行動a=“右へ移動”、報酬r=“0”となる。このような構成を有する行動履歴データを予め蓄積しておき、この行動履歴データを学習データとする機械学習により思考ルーチンを自動構築することができる。
例えば、オンライン学習に係る技術を利用した報酬推定機の構築及び更新は、図38に示すような処理の流れに沿って行われる。なお、これらの処理は、情報処理装置10により実行されるものとする。図38に示すように、まず、行動履歴データが情報処理装置10に入力される(Step 1)。
ここで、図39及び図40を参照しながら、本実施形態に係る情報処理装置10の機能構成について説明する。図39は、本実施形態に係る情報処理装置10の全体的な機能構成を示した説明図である。一方、図40は、本実施形態に係る情報処理装置10を構成する報酬推定機構築部12の詳細な機能構成を示した説明図である。
まず、図39を参照しながら、全体的な機能構成について説明する。図39に示すように、情報処理装置10は、主に、行動履歴データ取得部11と、報酬推定機構築部12と、入力データ取得部13と、行動選択部14とにより構成される。
次に、図40を参照しながら、報酬推定機構築部12の機能構成について詳細に説明する。図40に示すように、報酬推定機構築部12は、基底関数リスト生成部121と、特徴量計算部122と、推定関数生成部123と、行動履歴データ統合部124とにより構成される。
これまで、先に紹介した推定機の自動構築方法に基づく思考ルーチンの自動構築方法について説明してきた。確かに、この方法を適用すると、思考ルーチンを自動構築することが可能になる。しかし、賢く行動するNPCの思考ルーチンを自動構築するには、ある程度長い時間をかけて学習処理を繰り返し実行する必要がある。そこで、本件発明者は、より効率良く高性能な推定報酬機を構築する方法を考案した。
さて、これまでは報酬推定機を用いて報酬を推定し、推定した報酬に基づいて行動を選択する思考ルーチンについて考えてきた。ここでは、図44に示すように、アクションスコア推定機を用いてアクションスコアを推定し、推定したアクションスコアに基づいて行動を選択する思考ルーチンについて考えてみたい。ここで言うアクションスコアとは、とりうる各行動に対応付けられたスコアであり、対応する行動をとることで好ましい結果が得られる確率の高さを表す。
次に、予測機を用いた報酬の推定方法について説明する。なお、ここで言う予測機とは、ある時刻t1における状態S(t1)及び状態S(t1)においてNPCがとった行動a(t1)を入力した場合に、次の時刻t2における状態S(t2)を出力するアルゴリズムのことを意味する。
上記の予測機は、図45に示すような方法で構築される。図45に示すように、時刻毎に取得された行動履歴データが学習データとして利用される。例えば、時刻t2において状態S2にあるNPCが何もしなかった場合に好ましい結果が得られた場合、行動履歴データは、時刻t=t2、状態S=S2、行動a=“何もせず”、報酬r=“1”となる。なお、予測機の自動構築方法については、特願2009−277084号明細書に詳しく記載されている。同明細書には、ある時点までの観測値から将来の時点における観測値を予測する予測機を機械学習により自動構築する方法が記載されている。
上記の予測機を利用すると、図46に示すように、将来得るであろう報酬を推定することが可能になる。例えば、時刻tにおいて状態S(t)にあるNPCが行動a(t)をとった場合に時刻t+1において実現される状態S(t+1)を予測し、その状態S(t+1)においてNPCがとりうる行動毎に推定報酬yを算出することができるようになる。そのため、時刻t+1において推定される報酬に基づいて時刻tにおいてNPCがとるべき行動を選択することができるようになる。また、図47に示すように、予測機を繰り返し用いて数ステップ先の状態S(t+q)から推定される推定報酬yを算出することもできる。この場合、各時刻においてNPCがとりうる行動の組み合わせを考慮し、最終的に最も高い推定報酬が得られる行動の組み合わせを選択することができるようになる。
さて、これまでは1つのNPCに注目して最適な行動を選択する思考ルーチンの構築方法について考えてきた。しかし、2つ以上のNPCがとる行動を同時に考慮して思考ルーチンを構築することも可能である。2つのNPCが同じ環境中で行動する場合、両NPCがとる行動は状態Sに反映される。そのため、この方法を適用すると、他のNPCが最も高い推定報酬を見込める行動を選択して行動する環境中において、自身のNPCが最も高い推定報酬を見込める行動を選択するような思考ルーチンを自動構築することができる。例えば、MinMax法などを用いることにより、このような思考ルーチンの自動構築が実現される。以上、複数エージェントの同時学習について説明した。
次に、本実施形態の技術を具体的に応用する方法について紹介する。
まず、図48〜図54を参照しながら、本実施形態に係る技術を「三目並べ」へ応用する方法について説明する。図48に示すように、「三目並べ」の主なルールは、(1)交互に手を打つ、(2)先に3つのマークが1列に並んだ方が勝ち、の2点である。また、「三目並べ」において、状態Sは盤面であり、行動aは各プレーヤが打つ手である。
次に、図55〜図62を参照しながら、本実施形態に係る技術を「対戦ゲーム」へと応用する方法について説明する。ここで考える「対戦ゲーム」の主なルールは、図55に示すように、(1)2人対戦ゲームであること、(2)各プレーヤの行動は「左移動」「右移動」「左右移動なし」「ジャンプ」「ジャンプなし」の組み合わせであること、(3)相手のプレーヤを踏んだらY軸方向の加速度差に応じて相手にダメージを与えられること、の3点である。また、ヒットポイントが0になったプレーヤが負けである。なお、「対戦ゲーム」への応用には、先に説明したアクションスコア推定機を用いる思考ルーチンの構築方法が用いられる。
次に、図63及び図64を参照しながら、本実施形態に係る技術を「五目並べ」へと応用する方法について説明する。「五目並べ」の主なルールは、(1)交互に手を打つ、(2)縦横斜めに先に5つの石を並べた方が勝ち、の2点である。また、「五目並べ」において、状態Sは盤面であり、行動aは各プレーヤが打つ手である。
次に、図65〜図67を参照しながら、本実施形態に係る技術を「ポーカー」へと応用する方法について説明する。「ポーカー」の主なルールは、図65に示すように、(1)5枚のカードを配る、(2)捨てるカードを選択する、(3)役の強い方が勝ち、の3点である。ここでは、カードが配られたときに、捨てるカードを決める思考ルーチンの構築方法について考える。
次に、図68〜図79を参照しながら、本実施形態に係る技術を「ロールプレイングゲーム」へと応用する方法について説明する。ここでは、「ロールプレイングゲーム」の戦闘シーンにおいてプレーヤに代わってキャラクタを賢く自動操作する思考ルーチンの自動構築方法について考える。なお、ここで考える「ロールプレイングゲーム」のルールは、図68に示した通りである。また、図68に示すように、状態Sはプレーヤに提供される情報であり、行動aはキャラクタを操作するコマンドである。
(A)集中攻撃:
集中攻撃することで敵の数を素早く減らす。
(B)HP減少したら回復:
HPが減少した味方のHPを回復して味方が倒されにくくする。
(C)単体攻撃、全体攻撃の使い分け:
敵の数がある程度多い時は全体攻撃魔法を使う。現在集中攻撃中の敵が残りわずかなダメージで倒せそうなときは、全体攻撃魔法を用いて集中攻撃中の敵を倒しながら、他の敵にもダメージを与える。
(D)魔法の無駄打ちはしない:
HPの減っていない味方に対して回復魔法を使わない。魔法の効かない敵に対して魔法を使わない。
上記の情報処理装置10が有する各構成要素の機能は、例えば、図80に示すハードウェア構成を用いて実現することが可能である。つまり、当該各構成要素の機能は、コンピュータプログラムを用いて図80に示すハードウェアを制御することにより実現される。なお、このハードウェアの形態は任意であり、例えば、パーソナルコンピュータ、携帯電話、PHS、PDA等の携帯情報端末、ゲーム機、又は種々の情報家電がこれに含まれる。但し、上記のPHSは、Personal Handy−phone Systemの略である。また、上記のPDAは、Personal Digital Assistantの略である。
最後に、本実施形態の技術的思想について簡単に纏める。以下に記載する技術的思想は、例えば、PC、携帯電話、携帯ゲーム機、携帯情報端末、情報家電、カーナビゲーションシステム等、種々の情報処理装置に対して適用することができる。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成部と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択する行動選択部と、
前記行動選択部による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加部と、
を備え、
前記報酬推定機生成部は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
情報処理装置。
前記行動選択部は、前記報酬推定機を用いて推定される報酬値が高く、当該報酬値の推定誤差が大きく、かつ、前記行動履歴データに含まれない行動を優先的に選択する、
上記(1)に記載の情報処理装置。
前記報酬推定機生成部は、
複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成部と、
前記行動履歴データに含まれる状態データ及び行動データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出部と、
前記特徴量ベクトルから前記行動履歴データに含まれる報酬値を推定する推定関数を回帰/判別学習により算出する推定関数算出部と、
を含み、
前記報酬推定機は、前記複数の基底関数と前記推定関数とにより構成される、
上記(1)又は(2)に記載の情報処理装置。
前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組を間引く分布調整部をさらに備える、
上記(3)に記載の情報処理装置。
前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する分布調整部をさらに備える、
上記(3)に記載の情報処理装置。
前記分布調整部は、間引き後に残った前記状態データ、前記行動データ、及び前記報酬値の組について、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する、
上記(4)に記載の情報処理装置。
前記基底関数生成部は、遺伝的アルゴリズムに基づいて前記基底関数を更新し、
前記特徴量ベクトル算出部は、前記基底関数が更新された場合に、更新後の前記基底関数に前記状態データ及び前記行動データを入力して特徴量ベクトルを算出し、
前記推定関数算出部は、前記更新後の基底関数を用いて算出された特徴量ベクトルの入力に応じて前記報酬値を推定する推定関数を算出する、
上記(3)〜(6)のいずれか1項に記載の情報処理装置。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成部と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択する行動選択部と、
前記行動選択部による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加部と、
を備え、
前記報酬推定機生成部は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
情報処理装置。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成するステップと、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択するステップと、
選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加するステップと、
前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成するステップと、
を含む、
情報処理方法。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成するステップと、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択するステップと、
選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加するステップと、
前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成するステップと、
を含む、
情報処理方法。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成機能と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択する行動選択機能と、
前記行動選択機能による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加機能と、
をコンピュータに実現させるためのプログラムであり、
前記報酬推定機生成機能は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
プログラム。
エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成機能と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択する行動選択機能と、
前記行動選択機能による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加機能と、
をコンピュータに実現させるためのプログラムであり、
前記報酬推定機生成機能は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
プログラム。
上記の報酬推定機構築部12は、報酬推定機生成部の一例である。上記の行動履歴データ取得部11は、行動履歴追加部の一例である。上記の基底関数リスト生成部121は、基底関数生成部の一例である。上記の特徴量計算部122は、特徴量ベクトル算出部の一例である。上記の推定関数生成部123は、推定関数算出部の一例である。上記の行動履歴データ統合部124は、分布調整部の一例である。
11 行動履歴データ取得部
12 報酬推定機構築部
121 基底関数リスト生成部
122 特徴量計算部
123 推定関数生成部
124 行動履歴データ統合部
13 入力データ取得部
14 行動選択部
Claims (12)
- エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成部と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択する行動選択部と、
前記行動選択部による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加部と、
を備え、
前記報酬推定機生成部は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
情報処理装置。 - 前記行動選択部は、前記報酬推定機を用いて推定される報酬値が高く、当該報酬値の推定誤差が大きく、かつ、前記行動履歴データに含まれない行動を優先的に選択する、
請求項1に記載の情報処理装置。 - 前記報酬推定機生成部は、
複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成部と、
前記行動履歴データに含まれる状態データ及び行動データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出部と、
前記特徴量ベクトルから前記行動履歴データに含まれる報酬値を推定する推定関数を回帰/判別学習により算出する推定関数算出部と、
を含み、
前記報酬推定機は、前記複数の基底関数と前記推定関数とにより構成される、
請求項1に記載の情報処理装置。 - 前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組を間引く分布調整部をさらに備える、
請求項3に記載の情報処理装置。 - 前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する分布調整部をさらに備える、
請求項3に記載の情報処理装置。 - 前記分布調整部は、間引き後に残った前記状態データ、前記行動データ、及び前記報酬値の組について、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する、
請求項4に記載の情報処理装置。 - 前記基底関数生成部は、遺伝的アルゴリズムに基づいて前記基底関数を更新し、
前記特徴量ベクトル算出部は、前記基底関数が更新された場合に、更新後の前記基底関数に前記状態データ及び前記行動データを入力して特徴量ベクトルを算出し、
前記推定関数算出部は、前記更新後の基底関数を用いて算出された特徴量ベクトルの入力に応じて前記報酬値を推定する推定関数を算出する、
請求項3に記載の情報処理装置。 - エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成部と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択する行動選択部と、
前記行動選択部による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加部と、
を備え、
前記報酬推定機生成部は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
情報処理装置。 - エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成するステップと、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択するステップと、
選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加するステップと、
前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成するステップと、
を含む、
情報処理方法。 - エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成するステップと、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択するステップと、
選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加するステップと、
前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成するステップと、
を含む、
情報処理方法。 - エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成機能と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、前記行動履歴データに含まれない行動を優先的に選択する行動選択機能と、
前記行動選択機能による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加機能と、
をコンピュータに実現させるためのプログラムであり、
前記報酬推定機生成機能は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
プログラム。 - エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成機能と、
エージェントがとりうる行動のうち、前記報酬推定機を用いて推定される報酬値が高く、かつ、当該報酬値の推定誤差が大きい行動を優先的に選択する行動選択機能と、
前記行動選択機能による選択結果に従ってエージェントを行動させ、当該行動の過程で得られる状態データ及び行動データ、及び当該行動の結果として得られる報酬値を対応付けて前記行動履歴データに追加する行動履歴追加機能と、
をコンピュータに実現させるためのプログラムであり、
前記報酬推定機生成機能は、前記行動履歴データに状態データ、行動データ、及び報酬値の組が追加された場合に前記報酬推定機を再生成する、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011224639A JP5879899B2 (ja) | 2011-10-12 | 2011-10-12 | 情報処理装置、情報処理方法、及びプログラム |
US13/611,535 US9165249B2 (en) | 2011-10-12 | 2012-09-12 | Information processing apparatus, information processing method, and program |
CN201210366351.5A CN103198358B (zh) | 2011-10-12 | 2012-09-28 | 信息处理设备、信息处理方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011224639A JP5879899B2 (ja) | 2011-10-12 | 2011-10-12 | 情報処理装置、情報処理方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2013081683A true JP2013081683A (ja) | 2013-05-09 |
JP2013081683A5 JP2013081683A5 (ja) | 2014-11-13 |
JP5879899B2 JP5879899B2 (ja) | 2016-03-08 |
Family
ID=48086658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011224639A Expired - Fee Related JP5879899B2 (ja) | 2011-10-12 | 2011-10-12 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9165249B2 (ja) |
JP (1) | JP5879899B2 (ja) |
CN (1) | CN103198358B (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017056000A (ja) * | 2015-09-16 | 2017-03-23 | 株式会社バンダイナムコエンターテインメント | ゲーム装置及びプログラム |
JPWO2015151789A1 (ja) * | 2014-03-31 | 2017-04-13 | 日本電気株式会社 | 教師データ生成装置、電気機器監視システム、教師データ生成方法及びプログラム |
WO2018150654A1 (ja) * | 2017-02-15 | 2018-08-23 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
JP2018525759A (ja) * | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
JP2019095973A (ja) * | 2017-11-21 | 2019-06-20 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
JP2019118461A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
KR20200087341A (ko) * | 2018-12-31 | 2020-07-21 | 아주대학교산학협력단 | 심층 강화 학습을 위한 데이터 처리 장치 및 방법 |
JPWO2019150452A1 (ja) * | 2018-01-30 | 2021-01-07 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
JP2021013700A (ja) * | 2019-07-16 | 2021-02-12 | 株式会社 ディー・エヌ・エー | ゲームを提供するためのシステム、方法、及びプログラム |
WO2021172548A1 (ja) * | 2020-02-28 | 2021-09-02 | 株式会社Cygames | ゲームスクリプトの作成を支援するためのシステム及び方法 |
US11449770B2 (en) | 2017-04-28 | 2022-09-20 | Fujitsu Limited | Action selection learning device, action selection learning method, and storage medium |
JP7474832B2 (ja) | 2018-11-16 | 2024-04-25 | 株式会社Cygames | ゲームプログラムを検査するためのシステム、方法、プログラム、機械学習支援装置、及びデータ構造 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9852419B2 (en) * | 2012-09-17 | 2017-12-26 | Capital One Financial Corporation | Systems and methods for providing near field communications |
US20140164220A1 (en) * | 2012-12-06 | 2014-06-12 | Microsoft Corporation | Payment instrument selection |
JP6516406B2 (ja) * | 2013-12-13 | 2019-05-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 処理装置、処理方法、およびプログラム |
KR20150107418A (ko) * | 2014-03-14 | 2015-09-23 | 삼성전자주식회사 | 전자 지갑을 활용한 결제 방법, 장치 그리고 시스템 |
JP2018049563A (ja) * | 2016-09-23 | 2018-03-29 | カシオ計算機株式会社 | 電子機器、サーバ、対価設定方法及びプログラム |
JP7031603B2 (ja) * | 2016-11-29 | 2022-03-08 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法 |
WO2018156891A1 (en) * | 2017-02-24 | 2018-08-30 | Google Llc | Training policy neural networks using path consistency learning |
EP3596662A1 (en) * | 2017-05-19 | 2020-01-22 | Deepmind Technologies Limited | Imagination-based agent neural networks |
JP6970949B2 (ja) * | 2018-06-11 | 2021-11-24 | Necソリューションイノベータ株式会社 | 行動学習装置 |
JP7048455B2 (ja) | 2018-08-30 | 2022-04-05 | 本田技研工業株式会社 | 学習装置、シミュレーションシステム、学習方法、およびプログラム |
US11928556B2 (en) * | 2018-12-29 | 2024-03-12 | International Business Machines Corporation | Removing unnecessary history from reinforcement learning state |
CN110327624B (zh) * | 2019-07-03 | 2023-03-17 | 广州多益网络股份有限公司 | 一种基于课程强化学习的游戏跟随方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050245303A1 (en) * | 2004-04-30 | 2005-11-03 | Microsoft Corporation | Reward-driven adaptive agents for video games |
JP2006268812A (ja) * | 2005-02-23 | 2006-10-05 | Sony Corp | 学習制御装置および学習制御方法、並びに、プログラム |
JP2010287027A (ja) * | 2009-06-11 | 2010-12-24 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7403904B2 (en) * | 2002-07-19 | 2008-07-22 | International Business Machines Corporation | System and method for sequential decision making for customer relationship management |
US7219085B2 (en) * | 2003-12-09 | 2007-05-15 | Microsoft Corporation | System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit |
US7668632B2 (en) * | 2004-11-22 | 2010-02-23 | The Boeing Company | System, method and computer program product for real-time event identification and course of action interpretation |
US20070203871A1 (en) * | 2006-01-23 | 2007-08-30 | Tesauro Gerald J | Method and apparatus for reward-based learning of improved systems management policies |
JP4392620B2 (ja) | 2007-08-14 | 2010-01-06 | ソニー株式会社 | 情報処理装置、情報処理方法、演算装置、演算方法、プログラム、および記録媒体 |
JP4803212B2 (ja) * | 2008-05-28 | 2011-10-26 | ソニー株式会社 | データ処理装置、データ処理方法、及びプログラム |
-
2011
- 2011-10-12 JP JP2011224639A patent/JP5879899B2/ja not_active Expired - Fee Related
-
2012
- 2012-09-12 US US13/611,535 patent/US9165249B2/en not_active Expired - Fee Related
- 2012-09-28 CN CN201210366351.5A patent/CN103198358B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050245303A1 (en) * | 2004-04-30 | 2005-11-03 | Microsoft Corporation | Reward-driven adaptive agents for video games |
JP2006268812A (ja) * | 2005-02-23 | 2006-10-05 | Sony Corp | 学習制御装置および学習制御方法、並びに、プログラム |
JP2010287027A (ja) * | 2009-06-11 | 2010-12-24 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
Non-Patent Citations (2)
Title |
---|
JPN6015042517; 米井友浩 他: '遺伝的アルゴリズムを用いた時変環境におけるQ-learning(Q-learning using Genetic Algorithms' 電子情報通信学会技術研究報告(IEICE Technical Report)NC Vol. 97、No. 448, 19971212, Pages 71-78 * |
JPN6015042518; 西川郁子 他: '統計的価値関数による強化学習とゲーム戦略獲得への適用(Reinforcement Learning Based on Statistical Va' 計測自動制御学会論文集(Transactions of the Society of Instrument and Control Engineers) Vol. 39、No. 7, 20030731, Pages 670-678 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015151789A1 (ja) * | 2014-03-31 | 2017-04-13 | 日本電気株式会社 | 教師データ生成装置、電気機器監視システム、教師データ生成方法及びプログラム |
US10466283B2 (en) | 2014-03-31 | 2019-11-05 | Nec Corporation | Training data generation device, electrical device monitoring system, training data generation method, and non-transitory storage medium |
US10776692B2 (en) | 2015-07-24 | 2020-09-15 | Deepmind Technologies Limited | Continuous control with deep reinforcement learning |
JP2018525759A (ja) * | 2015-07-24 | 2018-09-06 | ディープマインド テクノロジーズ リミテッド | ディープ強化学習による連続的制御 |
US11803750B2 (en) | 2015-07-24 | 2023-10-31 | Deepmind Technologies Limited | Continuous control with deep reinforcement learning |
JP2017056000A (ja) * | 2015-09-16 | 2017-03-23 | 株式会社バンダイナムコエンターテインメント | ゲーム装置及びプログラム |
WO2018150654A1 (ja) * | 2017-02-15 | 2018-08-23 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
US11449770B2 (en) | 2017-04-28 | 2022-09-20 | Fujitsu Limited | Action selection learning device, action selection learning method, and storage medium |
JP2019095973A (ja) * | 2017-11-21 | 2019-06-20 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
US10780351B2 (en) | 2017-12-28 | 2020-09-22 | DeNA Co., Ltd. | Information processing device and information processing program |
JP2019118461A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
JPWO2019150452A1 (ja) * | 2018-01-30 | 2021-01-07 | 日本電気株式会社 | 情報処理装置、制御方法、及びプログラム |
JP7474832B2 (ja) | 2018-11-16 | 2024-04-25 | 株式会社Cygames | ゲームプログラムを検査するためのシステム、方法、プログラム、機械学習支援装置、及びデータ構造 |
KR102209917B1 (ko) | 2018-12-31 | 2021-01-29 | 아주대학교산학협력단 | 심층 강화 학습을 위한 데이터 처리 장치 및 방법 |
KR20200087341A (ko) * | 2018-12-31 | 2020-07-21 | 아주대학교산학협력단 | 심층 강화 학습을 위한 데이터 처리 장치 및 방법 |
JP2021013700A (ja) * | 2019-07-16 | 2021-02-12 | 株式会社 ディー・エヌ・エー | ゲームを提供するためのシステム、方法、及びプログラム |
JP7335739B2 (ja) | 2019-07-16 | 2023-08-30 | 株式会社 ディー・エヌ・エー | ゲームを提供するためのシステム、方法、及びプログラム |
WO2021172548A1 (ja) * | 2020-02-28 | 2021-09-02 | 株式会社Cygames | ゲームスクリプトの作成を支援するためのシステム及び方法 |
JP2021135945A (ja) * | 2020-02-28 | 2021-09-13 | 株式会社Cygames | ゲームスクリプトの作成を支援するためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
US9165249B2 (en) | 2015-10-20 |
CN103198358B (zh) | 2017-05-24 |
JP5879899B2 (ja) | 2016-03-08 |
US20130097107A1 (en) | 2013-04-18 |
CN103198358A (zh) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5874292B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP5879899B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP7399277B2 (ja) | 情報処理方法、装置、コンピュータプログラム及び電子装置 | |
KR20180044191A (ko) | 멀티플레이어 비디오 게임 매치메이킹 시스템 및 방법들 | |
Lin et al. | Juewu-mc: Playing minecraft with sample-efficient hierarchical reinforcement learning | |
Zhang et al. | Improving hearthstone AI by learning high-level rollout policies and bucketing chance node events | |
Cai et al. | Evolutionary swarm neural network game engine for Capture Go | |
Fu et al. | Greedy when sure and conservative when uncertain about the opponents | |
Karavolos et al. | Pairing character classes in a deathmatch shooter game via a deep-learning surrogate model | |
Ji et al. | Improving decision-making efficiency of image game based on deep Q-learning | |
Zhou et al. | A Swarm Intelligence Assisted IoT-Based Activity Recognition System for Basketball Rookies | |
Zhou et al. | Discovering of game AIs’ characters using a neural network based AI imitator for AI clustering | |
CN116850601A (zh) | 一种游戏对象处理方法、装置、计算机设备及存储介质 | |
CN115708951A (zh) | 一种用于麻将的智能决策方法、系统、存储介质及设备 | |
Baek et al. | 3-Dimensional convolutional neural networks for predicting StarCraft Ⅱ results and extracting key game situations | |
Chang et al. | Construction of macro actions for deep reinforcement learning | |
Wang et al. | EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data | |
Dukkancı | Level generation using genetic algorithms and difficulty testing using reinforcement learning in match-3 game | |
Gonzalez | Enhanced Monte Carlo Tree Search in Game-Playing AI: Evaluating Deepmind's Algorithms | |
Kodama et al. | Distributed deep reinforcement learning method using profit sharing for learning acceleration | |
Ring et al. | Replicating deepmind starcraft ii reinforcement learning benchmark with actor-critic methods | |
US10857460B2 (en) | Socially-driven modeling systems and methods | |
Czupyt et al. | Capitalizing on the Opponent's Uncertainty in Reconnaissance Blind Chess | |
Pleines et al. | Memory Gym: Partially Observable Challenges to Memory-Based Agents in Endless Episodes | |
Gough | Influencing Exploration in Actor-Critic Reinforcement Learning Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140929 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160118 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5879899 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |