JP2013084175A5 - - Google Patents

Download PDF

Info

Publication number
JP2013084175A5
JP2013084175A5 JP2011224638A JP2011224638A JP2013084175A5 JP 2013084175 A5 JP2013084175 A5 JP 2013084175A5 JP 2011224638 A JP2011224638 A JP 2011224638A JP 2011224638 A JP2011224638 A JP 2011224638A JP 2013084175 A5 JP2013084175 A5 JP 2013084175A5
Authority
JP
Japan
Prior art keywords
data
action
state
agent
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011224638A
Other languages
English (en)
Japanese (ja)
Other versions
JP5874292B2 (ja
JP2013084175A (ja
Filing date
Publication date
Application filed filed Critical
Priority to JP2011224638A priority Critical patent/JP5874292B2/ja
Priority claimed from JP2011224638A external-priority patent/JP5874292B2/ja
Priority to US13/616,988 priority patent/US9082081B2/en
Publication of JP2013084175A publication Critical patent/JP2013084175A/ja
Publication of JP2013084175A5 publication Critical patent/JP2013084175A5/ja
Priority to US14/738,522 priority patent/US10282665B2/en
Application granted granted Critical
Publication of JP5874292B2 publication Critical patent/JP5874292B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

JP2011224638A 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP5874292B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011224638A JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム
US13/616,988 US9082081B2 (en) 2011-10-12 2012-09-14 Information processing apparatus, information processing method, and program
US14/738,522 US10282665B2 (en) 2011-10-12 2015-06-12 Action selection with a reward estimator applied to machine learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011224638A JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2013084175A JP2013084175A (ja) 2013-05-09
JP2013084175A5 true JP2013084175A5 (enExample) 2014-11-13
JP5874292B2 JP5874292B2 (ja) 2016-03-02

Family

ID=48529293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011224638A Expired - Fee Related JP5874292B2 (ja) 2011-10-12 2011-10-12 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (2) US9082081B2 (enExample)
JP (1) JP5874292B2 (enExample)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP5815458B2 (ja) * 2012-04-20 2015-11-17 日本電信電話株式会社 報酬関数推定装置、報酬関数推定方法、およびプログラム
JP6259428B2 (ja) * 2015-07-31 2018-01-10 ファナック株式会社 機械指令に応じたフィルタを学習する機械学習装置、機械学習装置を備えたモータ駆動装置及びモータ駆動システム並びに機械学習方法
JP6551101B2 (ja) * 2015-09-17 2019-07-31 日本電気株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2018005739A (ja) * 2016-07-06 2018-01-11 株式会社デンソー ニューラルネットワークの強化学習方法及び強化学習装置
JP6351671B2 (ja) * 2016-08-26 2018-07-04 株式会社 ディー・エヌ・エー ニューロエボリューションを用いたニューラルネットワークの構造及びパラメータ調整のためのプログラム、システム、及び方法
WO2018083667A1 (en) * 2016-11-04 2018-05-11 Deepmind Technologies Limited Reinforcement learning systems
JP6782679B2 (ja) * 2016-12-06 2020-11-11 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 情報処理装置、情報処理方法及びプログラム
WO2018105320A1 (ja) * 2016-12-06 2018-06-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理装置、情報処理方法及びプログラム
EP3553711A4 (en) * 2016-12-07 2019-12-25 Sony Corporation INFORMATION PROCESSING DEVICE AND METHOD AND PROGRAM
WO2018156891A1 (en) * 2017-02-24 2018-08-30 Google Llc Training policy neural networks using path consistency learning
JP2018151876A (ja) * 2017-03-13 2018-09-27 株式会社日立製作所 機械学習に使用される経験を格納する経験データベースを更新する方法
WO2019049210A1 (ja) * 2017-09-05 2019-03-14 楽天株式会社 推定システム、推定方法及びプログラム
US10510010B1 (en) * 2017-10-11 2019-12-17 Liquid Biosciences, Inc. Methods for automatically generating accurate models in reduced time
WO2019087478A1 (ja) 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN108211362B (zh) * 2017-12-26 2020-10-09 浙江大学 一种基于深度q学习网络的非玩家角色战斗策略学习方法
JP2019118461A (ja) * 2017-12-28 2019-07-22 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
JP6963511B2 (ja) * 2018-01-12 2021-11-10 株式会社日立製作所 解探索処理装置および解探索処理方法
JP7413628B2 (ja) * 2018-03-26 2024-01-16 バランスド メディア テクノロジー エルエルシー 機械学習アルゴリズムのゲーミフィケーションのための抽象化インターフェイス
CN109905271B (zh) * 2018-05-18 2021-01-12 华为技术有限公司 一种预测方法、训练方法、装置及计算机存储介质
WO2020003670A1 (ja) * 2018-06-29 2020-01-02 ソニー株式会社 情報処理装置、および情報処理方法
JP6965314B2 (ja) * 2018-08-21 2021-11-10 グリー株式会社 プログラム、情報処理装置及び制御方法
JP7187961B2 (ja) * 2018-10-12 2022-12-13 富士通株式会社 強化学習プログラム、強化学習方法、および強化学習装置
JP7419635B2 (ja) * 2019-04-25 2024-01-23 株式会社コナミアミューズメント ゲームシステム、制御システム、制御方法およびプログラム
KR102079745B1 (ko) * 2019-07-09 2020-04-07 (주) 시큐레이어 인공지능 에이전트의 훈련 방법, 이에 기반한 사용자 액션의 추천 방법 및 이를 이용한 장치
US11712799B2 (en) * 2019-09-13 2023-08-01 Deepmind Technologies Limited Data-driven robot control
CN110852436B (zh) * 2019-10-18 2023-08-01 桂林力港网络科技股份有限公司 一种电子扑克游戏的数据处理方法、装置及存储介质
US11717748B2 (en) * 2019-11-19 2023-08-08 Valve Corporation Latency compensation using machine-learned prediction of user input
JP6861309B1 (ja) * 2020-03-11 2021-04-21 株式会社メルカリ システム、情報処理方法及びプログラム
JP7417451B2 (ja) * 2020-03-24 2024-01-18 株式会社 ディー・エヌ・エー 電子ゲーム情報処理装置及び電子ゲーム情報処理プログラム
CN112870722B (zh) * 2021-03-11 2022-07-22 腾讯科技(深圳)有限公司 对战格斗类ai游戏模型的生成方法、装置、设备及介质
JP7805258B2 (ja) * 2022-06-30 2026-01-23 本田技研工業株式会社 学習装置、および学習方法
JP7680403B2 (ja) * 2022-08-22 2025-05-20 大器 日下 ゲームシステム
JPWO2024171312A1 (enExample) * 2023-02-14 2024-08-22
JP7807187B2 (ja) * 2023-03-14 2026-01-27 Kddi株式会社 状態情報の一部を推定しながら強化学習を実行するエージェントのプログラム、サーバ及び学習方法
CN116747521B (zh) * 2023-08-17 2023-11-03 腾讯科技(深圳)有限公司 控制智能体进行对局的方法、装置、设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060247973A1 (en) * 2000-11-14 2006-11-02 Mueller Raymond J Method and apparatus for dynamic rule and/or offer generation
US7403904B2 (en) * 2002-07-19 2008-07-22 International Business Machines Corporation System and method for sequential decision making for customer relationship management
US8990688B2 (en) * 2003-09-05 2015-03-24 Samsung Electronics Co., Ltd. Proactive user interface including evolving agent
WO2006119323A2 (en) * 2005-05-03 2006-11-09 Palomar Technology, Llc Trusted monitoring system and method
JP5070860B2 (ja) * 2007-01-31 2012-11-14 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4392620B2 (ja) 2007-08-14 2010-01-06 ソニー株式会社 情報処理装置、情報処理方法、演算装置、演算方法、プログラム、および記録媒体
DE102008007700A1 (de) * 2007-10-31 2009-05-07 Siemens Aktiengesellschaft Verfahren zur rechnergestützten Exploration von Zuständen eines technischen Systems
JP5909943B2 (ja) * 2011-09-08 2016-04-27 ソニー株式会社 情報処理装置、推定機生成方法、及びプログラム
JP5874292B2 (ja) * 2011-10-12 2016-03-02 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
JP2013084175A5 (enExample)
JP2013081683A5 (enExample)
JP2018526733A5 (enExample)
CN103971170B (zh) 一种用于对特征信息的变化进行预测的方法和装置
CN110235148A (zh) 训练动作选择神经网络
JP2017519282A5 (enExample)
WO2015103964A1 (en) Method, apparatus, and device for determining target user
JP2014228725A5 (enExample)
CN110020877B (zh) 点击率的预测方法、点击率的确定方法及服务器
JP2014519642A5 (enExample)
JP2014525097A5 (enExample)
WO2017091629A1 (en) Reinforcement learning using confidence scores
JP2011100382A5 (enExample)
EP2428926A3 (en) Rating prediction device, rating prediction method, and program
JP2014217696A (ja) 歩行姿勢計およびプログラム
JP2014206870A (ja) プラントモデル管理装置及び方法
CN104364805A (zh) 信息处理器、信息处理方法和程序
JP6718500B2 (ja) 生産システムにおける出力効率の最適化
JP2011181069A5 (enExample)
JP2019534094A5 (enExample)
JP2017070125A (ja) ファンモータの予防保全機能を備えたモータ駆動装置
JP2014180130A5 (enExample)
JP2012208924A5 (enExample)
JP2013058095A5 (enExample)
JP7179672B2 (ja) 計算機システム及び機械学習方法