JP7014181B2 - 学習装置および学習方法 - Google Patents
学習装置および学習方法 Download PDFInfo
- Publication number
- JP7014181B2 JP7014181B2 JP2018559025A JP2018559025A JP7014181B2 JP 7014181 B2 JP7014181 B2 JP 7014181B2 JP 2018559025 A JP2018559025 A JP 2018559025A JP 2018559025 A JP2018559025 A JP 2018559025A JP 7014181 B2 JP7014181 B2 JP 7014181B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- reward
- learning model
- reinforcement learning
- policy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/14—Display of multiple viewports
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N99/00—Subject matter not provided for in other groups of this subclass
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G5/00—Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
- G09G5/003—Details of a display terminal, the details relating to the control arrangement of the display terminal and to the interfaces thereto
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09G—ARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
- G09G2354/00—Aspects of interface with display user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Processing Or Creating Images (AREA)
Description
1.第1実施の形態:パーソナルコンピュータ(PC)(図1乃至図9)
2.第2実施の形態:パーソナルコンピュータ(PC)(図10乃至図14)
3.第3実施の形態:VR(Virtual Reality)機器(図15)
4.第4実施の形態:コンピュータ(図16)
(PCの第1実施の形態の構成例)
図1は、本開示を適用した学習装置としてのPCの第1実施の形態の構成例を示すブロック図である。
図2および図3は、環境マップを説明する図である。
図4は、修正部17による修正前の強化学習モデルにより学習された移動方策の方策情報が重畳された環境マップの例を示す図である。
図5および図6は、図4の方策情報71に対する移動方策の第1の教示方法を説明する図である。
図7は、図4の方策情報71に対する移動方策の第2の教示方法を説明する図である。
図8は、図1のPC10の移動方策学習処理を説明するフローチャートである。
(PCの第2実施の形態の構成例)
図10は、本開示を適用した学習装置としてのPCの第2実施の形態の構成例を示すブロック図である。
図11は、修正部207による修正前の強化学習モデルにおける報酬関数の報酬関数情報が重畳された環境マップの例を示す図である。
図12は、図11の報酬関数情報221に対する報酬関数の教示方法を説明する図である。
図13は、図10のPC200の移動方策学習処理を説明するフローチャートである。
(方策情報が重畳された環境マップの例)
本開示を適用した学習装置としてのVR機器の一実施の形態の構成は、エージェントが必ず仮想世界に存在する点、および、表示部15がユーザの頭部に装着されるヘッドマウントディスプレイである点を除いて、図1のPC10の構成と同様である。従って、VR機器の各部の説明は、図1のPC10の各部を用いて行う。VR機器は、エージェント視点の仮想世界の体感を提供する。
(本開示を適用したコンピュータの説明)
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御部と、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正部と
を備える学習装置。
(2)
前記強化学習モデル情報は、前記強化学習モデルにより学習された方策を示す方策情報である
ように構成された
前記(1)に記載の学習装置。
(3)
前記強化学習モデル情報は、前記強化学習モデルにおいて用いられる報酬関数を示す報酬関数情報である
ように構成された
前記(1)に記載の学習装置。
(4)
前記ユーザの入力は、方策の教示である
ように構成された
前記(1)乃至(3)のいずれかに記載の学習装置。
(5)
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
ように構成された
前記(4)に記載の学習装置。
(6)
前記ユーザの入力は、報酬関数の教示である
ように構成された
前記(1)乃至(3)のいずれかに記載の学習装置。
(7)
前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより、前記ユーザの入力として教示された報酬関数と前記ユーザの入力に基づいて修正された前記強化学習モデルの報酬関数との差分が減少する場合、前記報酬関数の基底関数を追加する
ように構成された
前記(6)に記載の学習装置。
(8)
前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報を重畳して前記表示部に表示させる
ように構成された
前記(1)乃至(7)のいずれかに記載の学習装置。
(9)
学習装置が、
強化学習モデルに関する強化学習モデル情報を表示部に表示させる表示制御ステップと、
前記強化学習モデル情報に対するユーザの入力に基づいて、前記強化学習モデルを修正する修正ステップと
を含む学習方法。
Claims (6)
- 強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御部と、
前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正部と
を備える学習装置。 - 前記表示制御部は、環境を示す環境情報に前記強化学習モデル情報と前記等高線を重畳して前記表示部に表示させる
ように構成された
請求項1に記載の学習装置。 - 前記方策は、エージェントの移動方策であり、
前記確率密度は、前記エージェントがゴール地点に至る確率密度である
ように構成された
請求項2に記載の学習装置。 - 前記環境情報は、前記エージェントおよび前記ゴール地点を含む環境を示す情報である
ように構成された
請求項3に記載の学習装置。 - 前記修正部は、前記強化学習モデルにおいて用いられる報酬関数の基底関数を追加することにより目的関数が改善する場合、前記報酬関数の基底関数を追加する
ように構成された
請求項1に記載の学習装置。 - 学習装置が、
強化学習モデルにより学習された方策を示す方策情報である強化学習モデル情報と、前記方策に基づいて算出された前記方策におけるゴールに至る確率密度の等高線とを表示部に表示させる表示制御ステップと、
前記強化学習モデル情報に対する方策の教示に基づいて、前記強化学習モデルを修正する修正ステップと
を含む学習方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016251901 | 2016-12-26 | ||
JP2016251901 | 2016-12-26 | ||
PCT/JP2017/044839 WO2018123606A1 (ja) | 2016-12-26 | 2017-12-14 | 学習装置および学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018123606A1 JPWO2018123606A1 (ja) | 2019-10-31 |
JP7014181B2 true JP7014181B2 (ja) | 2022-02-01 |
Family
ID=62708175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018559025A Active JP7014181B2 (ja) | 2016-12-26 | 2017-12-14 | 学習装置および学習方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190244133A1 (ja) |
EP (1) | EP3561740A4 (ja) |
JP (1) | JP7014181B2 (ja) |
CN (1) | CN110088779A (ja) |
WO (1) | WO2018123606A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11597394B2 (en) | 2018-12-17 | 2023-03-07 | Sri International | Explaining behavior by autonomous devices |
US20200320435A1 (en) * | 2019-04-08 | 2020-10-08 | Sri International | Multi-level introspection framework for explainable reinforcement learning agents |
GB201906551D0 (en) * | 2019-05-09 | 2019-06-26 | Microsoft Technology Licensing Llc | Training behavior of an agent |
US11775860B2 (en) | 2019-10-15 | 2023-10-03 | UiPath, Inc. | Reinforcement learning in robotic process automation |
CN111882030B (zh) * | 2020-06-29 | 2023-12-05 | 武汉钢铁有限公司 | 一种基于深度强化学习的加锭策略方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013030278A (ja) | 2011-07-26 | 2013-02-07 | Hitachi High-Technologies Corp | 荷電粒子線装置 |
US20150217449A1 (en) | 2014-02-03 | 2015-08-06 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756177B1 (en) * | 2011-04-18 | 2014-06-17 | The Boeing Company | Methods and systems for estimating subject intent from surveillance |
-
2017
- 2017-12-14 JP JP2018559025A patent/JP7014181B2/ja active Active
- 2017-12-14 CN CN201780078843.5A patent/CN110088779A/zh not_active Withdrawn
- 2017-12-14 EP EP17888369.0A patent/EP3561740A4/en not_active Withdrawn
- 2017-12-14 US US16/343,940 patent/US20190244133A1/en not_active Abandoned
- 2017-12-14 WO PCT/JP2017/044839 patent/WO2018123606A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013030278A (ja) | 2011-07-26 | 2013-02-07 | Hitachi High-Technologies Corp | 荷電粒子線装置 |
US20150217449A1 (en) | 2014-02-03 | 2015-08-06 | Brain Corporation | Apparatus and methods for control of robot actions based on corrective user inputs |
Non-Patent Citations (2)
Title |
---|
田丸 順基、外1名,繰り返し状態系列から時刻依存の報酬関数を推定する逆強化学習の提案,電気学会研究会資料,日本,一般社団法人電気学会,2013年11月24日,PP.7-12 |
野川 博司、外1名,自律的な行動学習を利用し教示の意味学習,FIT2004 第3回情報科学技術フォーラム 一般講演論文集 第2分冊 データベース 自然言語・文書・ゲーム 人工知能 音声・音楽 生体情報科学,日本,社団法人電子情報通信学会,2004年08月20日,PP.319-321 |
Also Published As
Publication number | Publication date |
---|---|
WO2018123606A1 (ja) | 2018-07-05 |
US20190244133A1 (en) | 2019-08-08 |
CN110088779A (zh) | 2019-08-02 |
JPWO2018123606A1 (ja) | 2019-10-31 |
EP3561740A1 (en) | 2019-10-30 |
EP3561740A4 (en) | 2020-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7014181B2 (ja) | 学習装置および学習方法 | |
JP6695843B2 (ja) | 装置、及びロボットシステム | |
US20220063089A1 (en) | Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment | |
US20240017405A1 (en) | Viewpoint invariant visual servoing of robot end effector using recurrent neural network | |
US10860927B2 (en) | Stacked convolutional long short-term memory for model-free reinforcement learning | |
US11741666B2 (en) | Generating synthetic images and/or training machine learning model(s) based on the synthetic images | |
US20200279134A1 (en) | Using simulation and domain adaptation for robotic control | |
US20200276703A1 (en) | Optimizing policy controllers for robotic agents using image embeddings | |
EP3402633B1 (en) | Machine learning methods and apparatus related to predicting motion(s) of object(s) in a robot's environment based on image(s) capturing the object(s) and based on parameter(s) for future robot movement in the environment | |
WO2020065001A1 (en) | Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy | |
JP2019036167A (ja) | 画像処理装置、画像処理方法 | |
US11170559B2 (en) | Sub-pixel data simulation system | |
US11449975B2 (en) | Object count estimation apparatus, object count estimation method, and computer program product | |
JP6895563B2 (ja) | ロボットシステム、モデル生成方法、及びモデル生成プログラム | |
JP2021065955A (ja) | ロボット制御システム及びその制御方法及びプログラム | |
CN114041828B (zh) | 超声扫查控制方法、机器人及存储介质 | |
KR102401115B1 (ko) | UX-bit, Skip connection 구조 및 Channel-wise concatenation 구조를 이용한 자동 디자인 생성 인공신경망 장치 및 방법 | |
US20240118667A1 (en) | Mitigating reality gap through training a simulation-to-real model using a vision-based robot task model | |
US20200379262A1 (en) | Depth map re-projection based on image and pose changes | |
JP2012212323A (ja) | 情報処理装置、情報処理方法、及び、プログラム | |
JP7095467B2 (ja) | 訓練データ評価装置、訓練データ評価方法、およびプログラム | |
JP7179672B2 (ja) | 計算機システム及び機械学習方法 | |
US11514693B2 (en) | Model-based image labeling and/or segmentation | |
JP7164008B2 (ja) | データ生成方法、データ生成装置及びプログラム | |
KR102261055B1 (ko) | 클릭율 최대화를 위한 이미지 디자인 파라미터 최적화 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201027 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220103 |