JP2013084175A5 - - Google Patents

Download PDF

Info

Publication number
JP2013084175A5
JP2013084175A5 JP2011224638A JP2011224638A JP2013084175A5 JP 2013084175 A5 JP2013084175 A5 JP 2013084175A5 JP 2011224638 A JP2011224638 A JP 2011224638A JP 2011224638 A JP2011224638 A JP 2011224638A JP 2013084175 A5 JP2013084175 A5 JP 2013084175A5
Authority
JP
Japan
Prior art keywords
data
action
state
agent
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011224638A
Other languages
English (en)
Other versions
JP5874292B2 (ja
JP2013084175A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2011224638A priority Critical patent/JP5874292B2/ja
Priority claimed from JP2011224638A external-priority patent/JP5874292B2/ja
Priority to US13/616,988 priority patent/US9082081B2/en
Publication of JP2013084175A publication Critical patent/JP2013084175A/ja
Publication of JP2013084175A5 publication Critical patent/JP2013084175A5/ja
Priority to US14/738,522 priority patent/US10282665B2/en
Application granted granted Critical
Publication of JP5874292B2 publication Critical patent/JP5874292B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (15)

  1. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成部を備え、
    前記報酬推定機生成部は、
    複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成部と、
    前記行動履歴データに含まれる状態データ及び行動データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出部と、
    前記特徴量ベクトルから前記行動履歴データに含まれる報酬値を推定する推定関数を回帰/判別学習により算出する推定関数算出部と、
    を含み、
    前記報酬推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    情報処理装置。
  2. エージェントがおかれた現在の状態を表す状態データと、当該エージェントが次にとりうる行動を表す行動データとを前記報酬推定機に入力し、当該行動をとった結果として当該エージェントが得る報酬値を推定する報酬値推定部と、
    前記現在の状態において前記エージェントが次にとりうる行動のうち、前記報酬値推定部により推定された報酬値が最も高い値となる行動を選択する行動選択部と、
    をさらに備える、
    請求項1に記載の情報処理装置。
  3. 前記行動選択部による選択結果に基づいてエージェントを行動させる行動制御部と、
    前記エージェントの行動に伴って更新される状態データ及び行動データを蓄積し、当該行動の結果としてエージェントが得た報酬を表す報酬値と、蓄積した状態データ及び行動データとを対応付けて前記行動履歴データに追加する履歴データ追加部と、
    をさらに備える、
    請求項2に記載の情報処理装置。
  4. 前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
    前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組を間引く分布調整部をさらに備える、
    請求項3に記載の情報処理装置。
  5. 前記状態データ、前記行動データ、及び前記報酬値の組が前記行動履歴データに追加された場合、前記特徴量ベクトル算出部は、前記行動履歴データに含まれる全ての状態データ及び行動データについて特徴量ベクトルを算出し、
    前記情報処理装置は、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する分布調整部をさらに備える、
    請求項3に記載の情報処理装置。
  6. 前記分布調整部は、間引き後に残った前記状態データ、前記行動データ、及び前記報酬値の組について、特徴領空間において前記特徴量ベクトルにより示される座標点の分布が所定の分布に近づくように前記行動履歴データに含まれる前記状態データ、前記行動データ、及び前記報酬値の組のそれぞれに重みを設定する、
    請求項4に記載の情報処理装置。
  7. 前記行動履歴データを学習データとして用い、現在の時刻においてエージェントがおかれた状態を表す状態データ及び現在の時刻においてエージェントがとる行動を表す行動データから次の時刻におけるエージェントの状態を表す状態データを予測する予測機を機械学習により生成する予測機生成部をさらに備え、
    前記報酬値推定部は、
    現在の時刻における状態データ及び行動データを前記予測機に入力して次の時刻におけるエージェントの状態を表す状態データを予測し、
    前記次の時刻におけるエージェントの状態を表す状態データと、当該状態においてエージェントがとりうる行動を表す行動データとを前記報酬推定機に入力して、当該行動をとった結果として当該エージェントが得る報酬値を推定する、
    請求項2〜6のいずれか1項に記載の情報処理装置。
  8. 前記行動履歴データを学習データとして用い、現在の時刻においてエージェントがおかれた状態を表す状態データ及び現在の時刻においてエージェントがとる行動を表す行動データから次の時刻におけるエージェントの状態を表す状態データを予測する予測機を機械学習により生成する予測機生成部をさらに備え、
    前記報酬値推定部は、現在の時刻を時刻t0とした場合に、
    時刻t0における状態データ及び行動データを前記予測機に入力して次の時刻t1におけるエージェントの状態を表す状態データを予測する処理を実行し、
    k=1〜n−1(n≧2)について、時刻tkにおける状態データ及び時刻tkにおいてエージェントがとりうる行動を表す行動データを前記予測機に入力して時刻tk+1におけるエージェントの状態を表す状態データを予測する処理を逐次実行し、
    予測した時刻tnにおけるエージェントの状態を表す状態データと、当該状態においてエージェントがとりうる行動を表す行動データとを前記報酬推定機に入力して、当該行動をとった結果として当該エージェントが得る報酬値を推定する、
    請求項2〜6のいずれか1項に記載の情報処理装置。
  9. 前記報酬推定機生成部は、複数のエージェントの状態を表す状態データと、当該状態において各エージェントがとった行動を表す行動データと、当該行動の結果として各エージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する、
    請求項1〜8のいずれか1項に記載の情報処理装置。
  10. 前記基底関数生成部は、遺伝的アルゴリズムに基づいて前記基底関数を更新し、
    前記特徴量ベクトル算出部は、前記基底関数が更新された場合に、更新後の前記基底関数に前記状態データ及び前記行動データを入力して特徴量ベクトルを算出し、
    前記推定関数算出部は、前記更新後の基底関数を用いて算出された特徴量ベクトルの入力に応じて前記報酬値を推定する推定関数を算出する、
    請求項1〜9のいずれか1項に記載の情報処理装置。
  11. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データに基づき、高い報酬を得たエージェントがとった行動及び低い報酬を得たエージェントがとらなかった行動に高いスコアを与え、高い報酬を得たエージェントがとらなかった行動及び低い報酬を得たエージェントがとった行動に低いスコアを与える条件で、各状態データに対応する行動毎のスコアを算出するスコア算出部と、
    前記行動履歴データ及び前記行動毎のスコアを学習データとして用い、入力された状態データから行動毎のスコアを推定するスコア推定機を機械学習により生成するスコア推定機生成部と、
    を備え、
    前記スコア推定機生成部は、
    複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成部と、
    前記行動履歴データに含まれる状態データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出部と、
    前記特徴量ベクトルから前記行動毎のスコアを推定する推定関数を回帰/判別学習により算出する推定関数算出部と、
    を含み、
    前記スコア推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    情報処理装置。
  12. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成するステップを含み、
    前記生成するステップは、
    複数の処理関数を組み合わせて複数の基底関数を生成するステップと、
    前記行動履歴データに含まれる状態データ及び行動データを前記複数の基底関数に入力して特徴量ベクトルを算出するステップと、
    前記特徴量ベクトルから前記行動履歴データに含まれる報酬値を推定する推定関数を回帰/判別学習により算出するステップと、
    を含み、
    前記報酬推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    情報処理方法。
  13. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データに基づき、高い報酬を得たエージェントがとった行動及び低い報酬を得たエージェントがとらなかった行動に高いスコアを与え、高い報酬を得たエージェントがとらなかった行動及び低い報酬を得たエージェントがとった行動に低いスコアを与える条件で、各状態データに対応する行動毎のスコアを算出するステップと、
    前記行動履歴データ及び前記行動毎のスコアを学習データとして用い、入力された状態データから行動毎のスコアを推定するスコア推定機を機械学習により生成するステップと、
    を含み、
    前記生成するステップは、
    複数の処理関数を組み合わせて複数の基底関数を生成するステップと、
    前記行動履歴データに含まれる状態データを前記複数の基底関数に入力して特徴量ベクトルを算出するステップと、
    前記特徴量ベクトルから前記行動毎のスコアを推定する推定関数を回帰/判別学習により算出するステップと、
    を含み、
    前記スコア推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    情報処理方法。
  14. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データを学習データとして用い、入力された状態データ及び行動データから報酬値を推定する報酬推定機を機械学習により生成する報酬推定機生成機能をコンピュータに実現させるためのプログラムであり、
    前記報酬推定機生成機能は、
    複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成機能と、
    前記行動履歴データに含まれる状態データ及び行動データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出機能と、
    前記特徴量ベクトルから前記行動履歴データに含まれる報酬値を推定する推定関数を回帰/判別学習により算出する推定関数算出機能と、
    を含み、
    前記報酬推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    プログラム。
  15. エージェントの状態を表す状態データと、当該状態においてエージェントがとった行動を表す行動データと、当該行動の結果としてエージェントが得た報酬を表す報酬値とを含む行動履歴データに基づき、高い報酬を得たエージェントがとった行動及び低い報酬を得たエージェントがとらなかった行動に高いスコアを与え、高い報酬を得たエージェントがとらなかった行動及び低い報酬を得たエージェントがとった行動に低いスコアを与える条件で、各状態データに対応する行動毎のスコアを算出するスコア算出機能と、
    前記行動履歴データ及び前記行動毎のスコアを学習データとして用い、入力された状態データから行動毎のスコアを推定するスコア推定機を機械学習により生成するスコア推定機生成機能と、
    をコンピュータに実現させるためのプログラムであり、
    前記スコア推定機生成機能は、
    複数の処理関数を組み合わせて複数の基底関数を生成する基底関数生成機能と、
    前記行動履歴データに含まれる状態データを前記複数の基底関数に入力して特徴量ベクトルを算出する特徴量ベクトル算出機能と、
    前記特徴量ベクトルから前記行動毎のスコアを推定する推定関数を回帰/判別学習により算出する推定関数算出機能と、
    を含み、
    前記スコア推定機は、前記複数の基底関数と前記推定関数とにより構成される、
    プログラム。
JP2011224638A 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP5874292B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011224638A JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム
US13/616,988 US9082081B2 (en) 2011-10-12 2012-09-14 Information processing apparatus, information processing method, and program
US14/738,522 US10282665B2 (en) 2011-10-12 2015-06-12 Action selection with a reward estimator applied to machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011224638A JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2013084175A JP2013084175A (ja) 2013-05-09
JP2013084175A5 true JP2013084175A5 (ja) 2014-11-13
JP5874292B2 JP5874292B2 (ja) 2016-03-02

Family

ID=48529293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011224638A Expired - Fee Related JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (2) US9082081B2 (ja)
JP (1) JP5874292B2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP5815458B2 (ja) * 2012-04-20 2015-11-17 日本電信電話株式会社 報酬関数推定装置、報酬関数推定方法、およびプログラム
JP6259428B2 (ja) * 2015-07-31 2018-01-10 ファナック株式会社 機械指令に応じたフィルタを学習する機械学習装置、機械学習装置を備えたモータ駆動装置及びモータ駆動システム並びに機械学習方法
JP6551101B2 (ja) * 2015-09-17 2019-07-31 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
JP6351671B2 (ja) * 2016-08-26 2018-07-04 株式会社 ディー・エヌ・エー ニューロエボリューションを用いたニューラルネットワークの構造及びパラメータ調整のためのプログラム、システム、及び方法
CN117521725A (zh) * 2016-11-04 2024-02-06 渊慧科技有限公司 加强学习系统
WO2018105320A1 (ja) * 2016-12-06 2018-06-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
EP3553711A4 (en) * 2016-12-07 2019-12-25 Sony Corporation INFORMATION PROCESSING DEVICE AND METHOD AND PROGRAM
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
JP6510153B1 (ja) * 2017-09-05 2019-05-08 楽天株式会社 推定システム、推定方法及びプログラム
US10510010B1 (en) * 2017-10-11 2019-12-17 Liquid Biosciences, Inc. Methods for automatically generating accurate models in reduced time
WO2019087478A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108211362B (zh) * 2017-12-26 2020-10-09 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
JP2019118461A (ja) * 2017-12-28 2019-07-22 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
JP6963511B2 (ja) * 2018-01-12 2021-11-10 株式会社日立製作所 解探索処理装置および解探索処理方法
CA3094240A1 (en) * 2018-03-26 2019-10-03 Balanced Media Technology, LLC Abstracted interface for gamification of machine learning algorithms
CN109905271B (zh) * 2018-05-18 2021-01-12 华为技术有限公司 一种预测方法、训练方法、装置及计算机存储介质
US20210260482A1 (en) * 2018-06-29 2021-08-26 Sony Corporation Information processing device and information processing method
JP6965314B2 (ja) * 2018-08-21 2021-11-10 グリー株式会社 プログラム、情報処理装置及び制御方法
JP7187961B2 (ja) * 2018-10-12 2022-12-13 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
JP7419635B2 (ja) * 2019-04-25 2024-01-23 株式会社コナミアミューズメント ゲームシステム、制御システム、制御方法およびプログラム
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
CN110852436B (zh) * 2019-10-18 2023-08-01 桂林力港网络科技股份有限公司 一种电子扑克游戏的数据处理方法、装置及存储介质
JP6861309B1 (ja) * 2020-03-11 2021-04-21 株式会社メルカリ システム、情報処理方法及びプログラム
JP7417451B2 (ja) 2020-03-24 2024-01-18 株式会社 ディー・エヌ・エー 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム
CN112870722B (zh) * 2021-03-11 2022-07-22 腾讯科技(深圳)有限公司 对战格斗类ai游戏模型的生成方法、装置、设备及介质
CN116747521B (zh) * 2023-08-17 2023-11-03 腾讯科技(深圳)有限公司 控制智能体进行对局的方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060271441A1 (en) * 2000-11-14 2006-11-30 Mueller Raymond J Method and apparatus for dynamic rule and/or offer generation
US7403904B2 (en) * 2002-07-19 2008-07-22 International Business Machines Corporation System and method for sequential decision making for customer relationship management
US8990688B2 (en) * 2003-09-05 2015-03-24 Samsung Electronics Co., Ltd. Proactive user interface including evolving agent
US20070011107A1 (en) * 2005-05-03 2007-01-11 Greg Benson Trusted decision support system and method
JP5070860B2 (ja) * 2007-01-31 2012-11-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4392620B2 (ja) 2007-08-14 2010-01-06 ソニー株式会社 情報処理装置、情報処理方法、演算装置、演算方法、プログラム、および記録媒体
DE102008007700A1 (de) * 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Exploration von Zuständen eines technischen Systems
JP5909943B2 (ja) * 2011-09-08 2016-04-27 ソニー株式会社 情報処理装置、推定機生成方法、及びプログラム
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2013084175A5 (ja)
JP2013081683A5 (ja)
CN110235148B (zh) 训练动作选择神经网络
JP2017519282A5 (ja)
CN107851216A (zh) 训练强化学习神经网络
WO2017091629A1 (en) Reinforcement learning using confidence scores
JP2014525097A5 (ja)
JP2013242761A (ja) マルコフ決定過程システム環境下における方策パラメータを更新するための方法、並びに、その制御器及び制御プログラム
EP2428926A3 (en) Rating prediction device, rating prediction method, and program
JP2011100382A5 (ja)
JP2014524095A5 (ja)
JP2014217696A (ja) 歩行姿勢計およびプログラム
WO2019047595A1 (zh) 一种基于端到端的自动驾驶系统舒适度的评估方法及装置
JP2014519642A5 (ja)
JP2014206870A (ja) プラントモデル管理装置及び方法
JP2013220176A5 (ja) 情報処理装置、運動支援情報提供システム、運動支援情報提供方法及び運動支援情報提供プログラム
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
JP2011181069A5 (ja)
JP2019534094A5 (ja)
WO2010096185A1 (en) Method and system for calculating value of website visitor
JP2016510470A5 (ja)
US20170153864A1 (en) Synchronization Object Determining Method, Apparatus, and System
JP2015533245A5 (ja)
Zhou et al. LSSVM and hybrid particle swarm optimization for ship motion prediction
JPWO2020059789A5 (ja)