JP4746349B2 - ロボット行動選択装置及びロボット行動選択方法 - Google Patents
ロボット行動選択装置及びロボット行動選択方法 Download PDFInfo
- Publication number
- JP4746349B2 JP4746349B2 JP2005145588A JP2005145588A JP4746349B2 JP 4746349 B2 JP4746349 B2 JP 4746349B2 JP 2005145588 A JP2005145588 A JP 2005145588A JP 2005145588 A JP2005145588 A JP 2005145588A JP 4746349 B2 JP4746349 B2 JP 4746349B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- action
- reinforcement learning
- robot
- intelligent robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
中村仁彦、「非ホロノミックロボットシステム 第2回 幾何学的な非ホロノミック拘束の下での運動計画」、日本ロボット学会誌、Vol.11、No.5、p.655−662、1993年7月
Hiroshi Kawano, Tamaki Ura,"Motion Planning Algorithm for Non-Holonomic Autonomous Underwater Vehicle in Disturbance using Reinforcement Learning and Teaching Method,"Proceedings of IEEE/ASME International Conference on Robotics and Automation, pp. 4032-4038, May 2002.
即ち、本発明の目的は、知能ロボットが行動方策獲得のため学習を行った環境と学習後の環境が外乱の存在によって異なる場合でも、その外乱の影響を考慮し、行動主体が適切な行動方策を選択できるように進化したロボット行動選択装置及び該方法を提供するものである。
図1は知能ロボットに搭載されるロボット行動選択装置αの構成図を示したものである。
次に、上記本発明装置を用いた本発明方法に係る、知能ロボットの強化学習時と学習後の環境の違いを考慮し、外乱が存在する状況下でも適切な行動方策の選択が可能なロボット行動選択方法を説明する。
β…知能ロボット
β1…非ホロノミック4輪移動ロボット
β2…非ホロノミック水中移動ロボット
1…状態認識部
2…学習部
3…変化量算出部
4…行動選択部
s…状態
a…行動
p…報酬
n…外乱
dX’…位置と姿勢の変化量ベクトル値
B1、B2…動作開始点
K1、K2…切り返し点
K3、K4…途中通過点
T1、T2…目標点
C…中間地点
O…海流
f…主推進器
r…舵
Claims (2)
- マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択装置であって、
前記強化学習時の環境状態と前記強化学習後の環境状態を各種モニタセンサ、計測器にて認識する状態認識部と、
前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数をメモリーに更新可能に蓄積する学習部と、
前記強化学習後の環境状態の場合に、前記状態認識部において検出された前記強化学習時の環境状態と前記強化学習後の環境状態との差である外乱を取得するとともに、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出する変化量算出部と、
前記強化学習後の環境状態の場合に、前記変化量算出部から取得した位置の変化量ベクトルと姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態に対して、前記メモリーに蓄積された前記行動状態価値関数が最大値をとる行動を選択する行動選択部と、を具備する、
ことを特徴とする、ロボット行動選択装置。 - マルコフ決定過程に従う環境中において強化学習を実施した知能ロボットが、強化学習後の環境下において行動を選択するとき、強化学習時と強化学習後の環境状態に違いがあった場合でも適切な行動を選択するロボット行動選択方法であって、
予め、前記知能ロボットに対し前記強化学習を実施することにより、前記強化学習時の環境状態における前記知能ロボットの位置及び姿勢を表す各状態と前記知能ロボットの各行動との組について、当該状態において当該行動を選択した場合に得られる前記知能ロボットの状況の望ましさを数値化した報酬の平均値を示す行動状態価値関数を学習手段で導き出しメモリーに記憶した後、
まず、前記強化学習後の環境状態を各種モニタセンサ、計測器を通して状態認識手段で検出してから、前記強化学習時の環境状態と当該強化学習後の環境状態との差を変化量算出手段で外乱として取得してメモリーに更新可能に記憶し、
次に、外乱が発生した場合に、前記強化学習後の環境状態における前記知能ロボットの状態を取得して、前記外乱の前記強化学習時の環境状態と前記強化学習後の環境状態との間での変化量に前記行動に要する時間を掛け合わせた値を、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の位置に足し合わせた値を位置の変化量ベクトルとし、前記取得した知能ロボットの状態において各行動を選択した結果の状態遷移先の姿勢そのものを姿勢の変化量ベクトルとして算出し、前記位置の変化量ベクトルと前記姿勢の変化量ベクトルを用いて状態遷移先の状態を推定し、推定した状態遷移先の状態の中から前記行動状態価値関数の最大値をとる行動を選択する、
ことを特徴とするロボット行動選択方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005145588A JP4746349B2 (ja) | 2005-05-18 | 2005-05-18 | ロボット行動選択装置及びロボット行動選択方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005145588A JP4746349B2 (ja) | 2005-05-18 | 2005-05-18 | ロボット行動選択装置及びロボット行動選択方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006320997A JP2006320997A (ja) | 2006-11-30 |
JP4746349B2 true JP4746349B2 (ja) | 2011-08-10 |
Family
ID=37541033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005145588A Active JP4746349B2 (ja) | 2005-05-18 | 2005-05-18 | ロボット行動選択装置及びロボット行動選択方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4746349B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8626565B2 (en) * | 2008-06-30 | 2014-01-07 | Autonomous Solutions, Inc. | Vehicle dispatching method and system |
JP5283541B2 (ja) * | 2009-03-05 | 2013-09-04 | 株式会社神戸製鋼所 | ロボットの動作経路生成方法 |
JP6147691B2 (ja) * | 2014-03-27 | 2017-06-14 | 株式会社デンソーアイティーラボラトリ | 駐車スペース案内システム、駐車スペース案内方法、及びプログラム |
JP6285849B2 (ja) * | 2014-11-17 | 2018-02-28 | 日本電信電話株式会社 | 行動制御システム、その方法及びプログラム |
JP6522488B2 (ja) * | 2015-07-31 | 2019-05-29 | ファナック株式会社 | ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法 |
JP6240689B2 (ja) | 2015-07-31 | 2017-11-29 | ファナック株式会社 | 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法 |
DE102016009030B4 (de) | 2015-07-31 | 2019-05-09 | Fanuc Corporation | Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs |
JP6706173B2 (ja) | 2016-08-09 | 2020-06-03 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
JP6517762B2 (ja) | 2016-08-23 | 2019-05-22 | ファナック株式会社 | 人とロボットが協働して作業を行うロボットの動作を学習するロボットシステム |
JP7034035B2 (ja) * | 2018-08-23 | 2022-03-11 | 株式会社日立製作所 | 自律学習型ロボット装置及び自律学習型ロボット装置の動作生成方法 |
CN110554707B (zh) * | 2019-10-17 | 2022-09-30 | 陕西师范大学 | 一种飞行器姿态控制回路的q学习自动调参方法 |
CN111273677B (zh) * | 2020-02-11 | 2023-05-12 | 哈尔滨工程大学 | 基于强化学习技术的自主水下机器人速度和艏向控制方法 |
JP7305041B2 (ja) * | 2020-04-21 | 2023-07-07 | 三菱電機株式会社 | 情報処理装置および空調システム |
JP2022076572A (ja) * | 2020-11-10 | 2022-05-20 | 株式会社日立製作所 | ロボット制御システム、ロボット制御方法及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3233323B2 (ja) * | 1994-05-31 | 2001-11-26 | 富士ゼロックス株式会社 | システム制御方法および装置 |
JPH0981205A (ja) * | 1995-09-11 | 1997-03-28 | Fujitsu Ltd | 学習システム |
JP2000080673A (ja) * | 1998-09-08 | 2000-03-21 | Ishikawajima Harima Heavy Ind Co Ltd | 浚渫船向け経路計画法 |
JP3465236B2 (ja) * | 2000-12-20 | 2003-11-10 | 科学技術振興事業団 | ロバスト強化学習方式 |
JP3949932B2 (ja) * | 2001-10-30 | 2007-07-25 | 三井造船株式会社 | 自律型水中航走体の航走制御装置 |
-
2005
- 2005-05-18 JP JP2005145588A patent/JP4746349B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006320997A (ja) | 2006-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4746349B2 (ja) | ロボット行動選択装置及びロボット行動選択方法 | |
Fu et al. | One-shot learning of manipulation skills with online dynamics adaptation and neural network priors | |
CN101943916B (zh) | 一种基于卡尔曼滤波器预测的机器人避障方法 | |
El-Fakdi et al. | Two-step gradient-based reinforcement learning for underwater robotics behavior learning | |
EP3832420A1 (en) | Deep learning based motion control of a group of autonomous vehicles | |
JP4495703B2 (ja) | 水中ロボットの動作制御方法、装置及びプログラム | |
O'Callaghan et al. | Learning navigational maps by observing human motion patterns | |
Spaan et al. | Active cooperative perception in network robot systems using POMDPs | |
JP6939513B2 (ja) | モデル予測制御装置 | |
Bansal et al. | A hamilton-jacobi reachability-based framework for predicting and analyzing human motion for safe planning | |
KR102303126B1 (ko) | 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템 | |
US20210402598A1 (en) | Robot control device, robot control method, and robot control program | |
McKinnon et al. | Learning multimodal models for robot dynamics online with a mixture of Gaussian process experts | |
JP2007317165A (ja) | 自律移動ロボットの動作計画方法、自律移動ロボットの動作計画方法を利用した自律移動ロボットの制御方法、自律移動ロボットの動作計画装置、自律移動ロボットの動作計画プログラム及びその記録媒体、自律移動ロボットの制御プログラム | |
Nicolis et al. | Human intention estimation based on neural networks for enhanced collaboration with robots | |
CN110716574B (zh) | 一种基于深度q网络的uuv实时避碰规划方法 | |
Elfes | Dynamic control of robot perception using stochastic spatial models | |
Ferrari et al. | A potential field approach to finding minimum-exposure paths in wireless sensor networks | |
McKinnon et al. | Learning probabilistic models for safe predictive control in unknown environments | |
Ramakrishna et al. | Augmenting learning components for safety in resource constrained autonomous robots | |
JP5079602B2 (ja) | 自律移動ロボットの動作計画装置、方法、プログラム及び記録媒体並びに自律移動ロボットの動作制御装置及び方法 | |
Transeth et al. | Autonomous subsea intervention (SEAVENTION) | |
EP3904973A1 (en) | Device and method for controlling a robot | |
Hong et al. | Dynamics-aware metric embedding: Metric learning in a latent space for visual planning | |
Alagić et al. | Design of mobile robot motion framework based on modified vector field histogram |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20070629 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20070815 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070824 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071109 |
|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20080418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110513 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4746349 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |