JP2001166803A - ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット - Google Patents

ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット

Info

Publication number
JP2001166803A
JP2001166803A JP34603199A JP34603199A JP2001166803A JP 2001166803 A JP2001166803 A JP 2001166803A JP 34603199 A JP34603199 A JP 34603199A JP 34603199 A JP34603199 A JP 34603199A JP 2001166803 A JP2001166803 A JP 2001166803A
Authority
JP
Japan
Prior art keywords
robot
sensor
action
behavior
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP34603199A
Other languages
English (en)
Inventor
Hiroyuki Ogata
博之 小方
Masashi Okudaira
雅士 奥平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP34603199A priority Critical patent/JP2001166803A/ja
Publication of JP2001166803A publication Critical patent/JP2001166803A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Numerical Control (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

(57)【要約】 【課題】センサから得られる特徴ベクトルに重み付けを
行うことなく所要の行動ルールを生成することの可能な
ロボット行動ルール生成装置、ロボット制御装置、及び
ロボット教示装置、並びにセンサ付きロボットの提供。 【解決手段】移動ロボットαに実行させるべき種々の行
動の事例S3を格納する事例データベース21と、この
事例データベース21から事例集合S4を取得して、そ
の取得した事例集合S4から決定木S5を生成する変換
モジュール22と、この変換モジュール22で生成され
た決定木S5を、移動ロボットαの行動ルールとして格
納して、ロボット制御装置3からの取得要求に応じた決
定木S6を出力する行動ルールデータベース23とを有
する特徴。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ロボット行動ルー
ル生成装置、ロボット制御装置、及びロボット教示装
置、並びにセンサ付きロボットに係わり、詳しくは、セ
ンサから得られるセンサ信号に基づいて一連の作業を実
行するセンサ付きロボットにおいて、当該ロボットの行
動ルールを生成するロボット行動ルール生成装置、当該
ロボットに実行させるべき種々の行動を制御するロボッ
ト制御装置、及び当該ロボットに実行させるべき種々の
行動を教示するロボット教示装置、並びにこれら各装置
から構成されるセンサ付きロボットに関する。
【0002】より詳しくは、本発明は、自身又は外部に
設置されたセンサから情報を取得することの可能な移動
ロボット、ロボットアーム、ロボットハンド等のセンサ
付きロボットを対象に、ロボット言語によっては容易に
プログラムできない作業や、或いは、作業モデルに基づ
いた動作生成アルゴリズムを用いる場合において、当該
作業モデル又は動作生成アルゴリズムの作成が困難か、
その動作生成時の計算量が膨大となる作業のうち、セン
サ付きロボットに対し教示者が行動を指示することで、
その行動の事例を示すことのできる作業を、当該センサ
付きロボットに再現的に実行させるためのロボット行動
ルール生成装置等に関する。
【従来の技術】
【0003】従来、センサ付きロボットに対し教示者が
行動を指示することで、その行動の事例を示すことので
きる作業を、当該センサ付きロボットに再現的に実行さ
せる手法として、試行錯誤による「行動獲得方式」が存
在する。
【0004】この行動獲得方式は、センサ付きロボット
に作業の環境を知覚させながら実際に行動を行わせ、そ
の行動結果を評価することにより、当該センサ付きロボ
ットの行動ルールを自動生成しようとするものである。
なお、このときの行動ルールを生成する手法としては、
「遺伝子アルゴリズム方式」や「強化学習方式」などが
適用される。
【0005】このうち、遺伝子アルゴリズム方式は、行
動ルールがそれぞれランダムに事前設定された複数のセ
ンサ付きロボットに個別の行動を行わせ、それぞれのセ
ンサ付きロボットの行動結果のうち評価の高いもの同士
を掛け合わせて、新たな行動ルールを生成し、この「掛
け合わせ」及び「行動ルールの生成」を繰り返し行うこ
とで、その行動ルールの改善を図ろうとするものであ
る。
【0006】これに対し、強化学習方式は、1台のセン
サ付きロボットにランダムな行動を行わせ、現在の作業
環境につきセンサを通じて各特徴ベクトルの入力があっ
た場合に、その各特徴ベクトルに応じて当該センサ付き
ロボットが所定の行動を選択したときの作業達成の期待
効用値を推定し、この期待効用値の最も高い行動を選別
することで、目的の行動ルールを生成しようとするもの
である。
【0007】
【発明が解決しようとする課題】ここで、上述した2種
類の行動ルール生成手法につき考察した場合、前者の遺
伝子アルゴリズム方式にあっては、多数のセンサ付きロ
ボットを事前に用意した上、これらセンサ付きロボット
に対し試行錯誤を繰り返して行う必要があることから、
計算機上のシミュレーションによる行動ルールの生成可
能性の指摘は行われているものの、実際の物理環境への
適用に際しては実現性に欠けるという問題がある。
【0008】また、後者の強化学習方式にあっては、実
際の物理環境への適用例は報告されてはいるが、作業環
境に多くの特徴点が存在する場合、結果的に、行動ルー
ルの生成に多くの試行錯誤を要するようになり、その効
率面から実現性に劣るなどの問題がある。加えて、当該
強化学習方式では、1台のセンサ付きロボットに対し何
度も試行錯誤を繰り返して行うことから、当該センサ付
きロボット(その構成部品)が、実使用前に消耗する可
能性があるなどの問題も内在している。
【0009】こうした問題に対処するため、本願出願人
は、特願平10−263085号において、行動ルール
生成のための新たな方式を開示している。
【0010】即ち、当該出願に開示の行動ルール生成方
式は、教示者が、まず、センサ付きロボットに対し、セ
ンサから得られる特徴ベクトルに対応して選択すべき行
動を教示し、これにより得られる事例を事例データベー
スに蓄積し、当該センサ付きロボットが作業を行うとき
には、そのセンサから得られる特徴ベクトルにつき、事
例データベースに蓄積された事例のうち距離が最も近い
ものを検索し、この検索事例に対応した行動を、その場
面における最も適切な行動として選択する方式である。
【0011】当該方式によれば、教示者の教示により、
センサ付きロボットの事例獲得操作が効率的となり、作
業環境に多くの特徴点が存在する場合であっても、要所
だけ事例を教示することで、所要の行動ルールを生成す
ることが可能となる。また、この方式では、センサ付き
ロボットに対し何度も試行錯誤を繰り返す必要がないた
め、当該センサ付きロボットの消耗も低く抑えられる。
【0012】しかしながら、以上のように、距離が最も
近い事例を選択する方式では、特徴ベクトルの各成分に
適当な「重み付け」を行う必要があり、その重み付けが
不適当な場合には、適切な行動の選択が困難となる。こ
の結果、センサ付きロボットに適正な作業を行わせるの
に十分な行動ルールを生成するのに必要な教示の回数
が、予想以上に増加してしまう傾向にある。
【0013】ここにおいて、本発明の解決すべき主要な
目的は、次のとおりである。
【0014】即ち、本発明の第1の目的は、センサから
得られる特徴ベクトルに重み付けを行うことなく所要の
行動ルールを生成することの可能なロボット行動ルール
生成装置、ロボット制御装置、及びロボット教示装置、
並びにセンサ付きロボットを提供せんとするものであ
る。
【0015】本発明の第2の目的は、行動ルールの生成
時におけるセンサ付きロボットへの教示の回数を少なく
抑えることの可能なロボット行動ルール生成装置、ロボ
ット制御装置、及びロボット教示装置、並びにセンサ付
きロボットを提供せんとするものである。
【0016】本発明の他の目的は、明細書、図面、特に
特許請求の範囲の各請求項の記載から自ずと明らかとな
ろう。
【0017】
【課題を解決するための手段】本発明ロボット行動ルー
ル生成装置においては、センサ付きロボットに実行させ
るべき種々の行動の事例を格納する事例データベース
と、事例から行動ルールを生成する変換モジュールと、
行動ルールを格納する行動ルールデータベースとを具備
してなる、という特徴を有する。
【0018】本発明ロボット制御装置においては、セン
サ信号から特徴ベクトルを生成するセンシングモジュー
ルと、事前に設定された行動ルールに基づき、センサ付
きロボットに次に実行させるべき行動を決定する行動決
定モジュールと、決定された行動をセンサ付きロボット
に実行させる行動実行モジュールとを具備してなる、と
いう特徴を有する。
【0019】本発明ロボット教示装置においては、セン
サ信号から特徴ベクトルを生成するセンシングモジュー
ルと、センサ付きロボットに次に行わせるべき行動を教
示者に選択させる行動教示モジュールと、特徴ベクトル
と行動との対応付けを図ってなる行動の事例をデータベ
ースに記録する記録モジュールとを具備してなる、とい
う特徴を有する。
【0020】本発明センサ付きロボットにおいては、上
述のロボット行動ルール生成装置、ロボット制御装置、
及びロボット教示装置を自身に内蔵してなる、という特
徴を有する。
【0021】さらに具体的詳細に述べると、当該課題の
解決では、本発明が次に列挙する新規な特徴的構成手段
を採用することにより、前記目的を達成するよう為され
る。
【0022】即ち、本発明ロボット行動ルール生成装置
の第1の特徴は、センサから得られるセンサ信号に基づ
いて一連の作業を実行するセンサ付きロボットの行動ル
ールを生成するロボット行動ルール生成装置であって、
前記センサ信号から生成される前記作業の環境に係る特
徴を記述した特徴ベクトルとの対応付けを図りつつ、前
記センサ付きロボットに実行させるべき種々の行動の事
例を格納する事例データベースと、この事例データベー
スから前記事例を取得し、その取得した事例から前記行
動ルールを生成する変換モジュールと、この変換モジュ
ールで生成された前記行動ルールを格納する行動ルール
データベースとを具備してなる、ロボット行動ルール生
成装置の構成採用にある。
【0023】本発明ロボット行動ルール生成装置の第2
の特徴は、上記本発明ロボット行動ルール生成装置の第
1の特徴における前記変換モジュールが、前記事例から
決定木を生成し、前記行動ルールデータベースが、当該
変換モジュールで生成された決定木を前記行動ルールと
して格納してなる、ロボット行動ルール生成装置の構成
採用にある。
【0024】本発明ロボット行動ルール生成装置の第3
の特徴は、上記本発明ロボット行動ルール生成装置の第
1の特徴における前記変換モジュールが、前記事例から
ニューラルネットワークを学習し、前記行動ルールデー
タベースが、当該変換モジュールで学習されたニューラ
ルネットワークの当該学習結果を前記行動ルールとして
格納してなる、ロボット行動ルール生成装置の構成採用
にある。
【0025】また、本発明ロボット制御装置の第1の特
徴は、センサから得られるセンサ信号に基づいて一連の
作業を実行するセンサ付きロボットに実行させるべき種
々の行動を制御するロボット制御装置であって、前記セ
ンサ信号から前記作業の環境に係る特徴を記述した特徴
ベクトルを生成するセンシングモジュールと、このセン
シングモジュールで生成された前記特徴ベクトルを参照
して、前記センサ付きロボットに許容されている前記行
動の事例ごとに事前に設定された行動ルールの中から対
応するものを取得し、その取得した行動ルールに基づい
て、当該センサ付きロボットに次に実行させるべき行動
を決定する行動決定モジュールと、この行動決定モジュ
ールで決定された前記行動を前記センサ付きロボットに
実行させる行動実行モジュールとを具備してなる、ロボ
ット制御装置の構成採用にある。
【0026】本発明ロボット制御装置の第2の特徴は、
上記本発明ロボット制御装置の第1の特徴における前記
行動決定モジュールが、前記センサ付きロボットに次に
実行させるべき行動を、前記行動ルールとして事前に生
成された決定木に基づいて決定してなる、ロボット制御
装置の構成採用にある。
【0027】本発明ロボット制御装置の第3の特徴は、
上記本発明ロボット制御装置の第1の特徴における前記
行動決定モジュールが、前記センサ付きロボットに次に
実行させるべき行動を、前記行動ルールとして事前に学
習されたニューラルネットワークの当該学習結果に基づ
いて決定してなる、ロボット制御装置の構成採用にあ
る。
【0028】一方、本発明ロボット教示装置の特徴は、
センサから得られるセンサ信号に基づいて一連の作業を
実行するセンサ付きロボットに実行させるべき種々の行
動を教示するロボット教示装置であって、前記センサ信
号から前記作業の環境に係る特徴を記述した特徴ベクト
ルを生成するセンシングモジュールと、前記センサ付き
ロボットに許容されている前記行動の中から、当該セン
サ付きロボットに次に行わせるべき行動を教示者に選択
させる行動教示モジュールと、前記センシングモジュー
ルで生成された前記特徴ベクトルと、前記行動教示モジ
ュールで選択された前記行動との対応付けを図ったもの
を、前記行動の事例として所定のデータベースに記録す
る記録モジュールとを具備してなる、ロボット教示装置
の構成採用にある。
【0029】さらに、本発明センサ付きロボットの第1
の特徴は、センサから得られるセンサ信号に基づいて一
連の作業を実行するセンサ付きロボットであって、前記
ロボット行動ルール生成装置の第1の特徴、前記ロボッ
ト制御装置の第1の特徴、及び前記ロボット教示装置を
自身に内蔵し、当該ロボット教示装置における前記記録
モジュールが、当該ロボット行動ルール生成装置におけ
る前記事例データベースに対して前記事例を記録し、当
該ロボット制御装置における前記行動決定モジュール
が、当該ロボット行動ルール生成装置における前記行動
ルールデータベースから前記行動ルールを取得してな
る、センサ付きロボットの構成採用にある。
【0030】本発明センサ付きロボットの第2の特徴
は、センサから得られるセンサ信号に基づいて一連の作
業を実行するセンサ付きロボットであって、前記ロボッ
ト行動ルール生成装置の第2の特徴、前記ロボット制御
装置の第2の特徴、及び前記ロボット教示装置を自身に
内蔵し、当該ロボット教示装置における前記記録モジュ
ールが、当該ロボット行動ルール生成装置における前記
事例データベースに対して前記事例を記録し、当該ロボ
ット制御装置における前記行動決定モジュールが、当該
ロボット行動ルール生成装置における前記行動ルールデ
ータベースから前記決定木を取得してなる、センサ付き
ロボットの構成採用にある。
【0031】本発明センサ付きロボットの第3の特徴
は、センサから得られるセンサ信号に基づいて一連の作
業を実行するセンサ付きロボットであって、前記ロボッ
ト行動ルール生成装置の第3の特徴、前記ロボット制御
装置の第3の特徴、及び前記ロボット教示装置を自身に
内蔵し、当該ロボット教示装置における前記記録モジュ
ールが、当該ロボット行動ルール生成装置における前記
事例データベースに対して前記事例を記録し、当該ロボ
ット制御装置における前記行動決定モジュールが、当該
ロボット行動ルール生成装置における前記行動ルールデ
ータベースから前記ニューラルネットワークの学習結果
を取得してなる、センサ付きロボットの構成採用にあ
る。
【0032】
【発明の実施の形態】以下、本発明の実施の形態を、添
付図面を参照しつつ、第1及び第2装置例につき説明す
る。なお、以下に説明する各装置例は、自身又は外部に
設置されたセンサから情報を取得することの可能なセン
サ付きロボットとしての移動ロボットを、障害物を回避
させながら、目標となる場所に移動させる例である。ま
た、第1装置例においては、行動ルールの生成に決定木
を適用した例を、第2装置例においては、その生成にニ
ューラルネットワークを適用した例を説明する。
【0033】(第1装置例) <構成>図1は、本発明の第1装置例に係る移動ロボッ
トの全体構成図、図2乃至図4は、それぞれ、当該移動
ロボットを構成するロボット教示装置、ロボット行動ル
ール生成装置、及びロボット制御装置の各詳細構成図で
ある。
【0034】まず、図1に示す移動ロボットαは、ロボ
ット教示装置1と、ロボット行動ルール生成装置2と、
ロボット制御装置3とを内蔵して構成される。
【0035】ロボット教示装置1は、図2に示すよう
に、センシングモジュール(以下、説明の便宜上、「教
示センシングモジュール」と言い換える)11と、行動
教示モジュール12と、記録モジュール13とを具備し
て構成される。
【0036】教示センシングモジュール11は、図示し
ない画像センサ等から得られるセンサ信号としての環境
情報S1から、作業の環境Eに係る特徴を記述した特徴
ベクトル(以下、説明の便宜上、「教示特徴ベクトル」
と言い換える)S2を生成するものである。
【0037】行動教示モジュール12は、移動ロボット
αに許容されている行動の中から、当該移動ロボットα
に次に行わせるべき行動を、教示者Iに選択操作oをさ
せて選択させ、選択行動aを生成出力するものである。
【0038】記録モジュール13は、教示センシングモ
ジュール11で生成された教示特徴ベクトルS2と、行
動教示モジュール12で選択された選択行動aとの対応
付けを図ったものを、行動の事例S3として、後述する
ロボット行動ルール生成装置2内のデータベースに記録
するものである。
【0039】そのロボット行動ルール生成装置2は、図
3に示すように、事例データベース21と、変換モジュ
ール22と、行動ルールデータベース23とを具備して
構成される。
【0040】事例データベース21は、前述した移動ロ
ボットαに実行させるべき種々の行動の事例S3を格納
するものである。
【0041】変換モジュール22は、事例データベース
21から事例(以下、「事例集合」と言い換える)S4
を取得し、その取得した事例集合S4から決定木S5
(詳細は後述)を生成するものである。
【0042】行動ルールデータベース23は、変換モジ
ュール22で生成された決定木S5を、移動ロボットα
の行動ルールとして格納し、ロボット制御装置3からの
取得要求に応じて、当該決定木S5(以下、取得要求に
伴う決定木については、符号を「S6」に振り替える)
を出力するものである。
【0043】そのロボット制御装置3は、図4に示すよ
うに、センシングモジュール(以下、説明の便宜上、
「制御センシングモジュール」と言い換える)31と、
行動決定モジュール32と、行動実行モジュール33と
を具備して構成される。
【0044】制御センシングモジュール31は、環境情
報S1から、作業の環境Eに係る特徴を記述した特徴ベ
クトル(以下、説明の便宜上、「制御特徴ベクトル」と
言い換える)S7を生成するものである。
【0045】行動決定モジュール32は、制御センシン
グモジュール31で生成された制御特徴ベクトルS7を
参照して、行動ルール生成装置2の行動ルールデータベ
ース23に格納された決定木S5の中から対応する決定
木S6を取得し、その取得した決定木S6に基づいて、
移動ロボットαに次に実行させるべき行動S8を決定す
るものである。
【0046】行動実行モジュール33は、行動決定モジ
ュール32で決定された行動S8を移動ロボットα自身
に実行させ、環境Eに対して動作S9を行うものであ
る。
【0047】<決定木アルゴリズム>続いて、ロボット
行動ルール生成装置2の変換モジュール22において決
定木S5を生成する際に適用されるアルゴリズムの概要
について説明する。
【0048】所要の決定木S5の生成は、教示センシン
グモジュール11で生成された教示特徴ベクトルS2に
対する真偽を判別する「判別関数t」を用いて、事例デ
ータベース21から取得した事例集合S4を分類化する
処理と言える。
【0049】ここで、判別関数t全体の集合(判別関数
集合)をT、事例集合S4をD、求める決定木S5をH
で表せば、決定木アルゴリズムは、以下のようになる。
【0050】(1)事例集合Dが空集合、又はその事例
集合D内部の行動が全て同じなら、H=Dとしてアルゴ
リズムを停止する。このとき、Hが求める決定木であ
る。
【0051】(2)上記以外の場合、判別関数集合Tの
中から所要の判別関数tを選択し、それに対する真偽判
別結果によって、事例集合DをD0,D1の2つの事例
集合に分類する。
【0052】(3)上記事例集合D0,D1に対し新た
に判別関数集合T′={T−t}を作成し、それぞれに
ついて決定木H0,H1を作成する。このとき、H=
(t,H0,H1)が求める決定木である。
【0053】<行動ルール生成過程>続いて、以上のよ
うに構成された移動ロボットαにおける行動ルールの生
成過程につき説明する。
【0054】なお、ロボット教示装置1の教示センシン
グモジュール11は、図5に示すように、画像センサ等
により取得された画像P(即ち、環境情報S1)におけ
る3つの障害物O1,O2,O3の頂点位置の集合を、
教示特徴ベクトルS2として出力するものとする。ま
た、教示者Iは、同ロボット教示装置1の行動教示モジ
ュール12に対し、移動ロボットαに許容された行動と
して、5種類の行動、即ち、「前進」、「後退」、「右
折」、「左折」、及び「停止」の各行動に関する選択操
作oを行うことができるものとする。
【0055】まず、ロボット教示装置1の記録モジュー
ル13は、ロボット行動ルール生成装置2の事例データ
ベース21に、事例S3を、(v1x,v1y,…,v
nx,vny,a)なるデータ形式で記録、蓄積する。
【0056】ここで、以上のデータ形式に含まれる(v
1x,v1y,…,vnx,vny)は、教示特徴ベク
トルS2であり、(vix,viy)は、第i頂点の位
置である。また、nは、ロボット教示装置1の教示セン
シングモジュール11で検出される頂点の数、aは、教
示者Iによって実際に選択された行動(即ち、前述した
「選択行動」)を表す。
【0057】次に、ロボット行動ルール生成装置2の変
換モジュール22は、決定木アルゴリズムを用いて事例
集合S4を決定木S5に変換し、当該決定木S5を行動
ルールデータベース23に記録、蓄積する。
【0058】このとき、行動ルールデータベース23に
記録、蓄積される決定木S5のデータ形式H0は、 H0=D0 又は H0=(t0,H1,H2) で表現される。
【0059】ここで、以上のデータ形式におけるD0
は、行動が同じであるような事例の集合である。また、
t0は、入力された教示特徴ベクトルS2に対する真偽
を出力する判別関数であり、H1は、判別関数t0が
「真」を出力した場合に選択される部分決定木、H2
は、その判別関数t0が「偽」を出力した場合に選択さ
れる部分決定木である。
【0060】詳しくは、図6に示すように、部分決定木
H1,H2は、元の決定木H0と同様な形態で記述さ
れ、この例では、部分決定木H1における判別関数t1
の出力結果として事例集合D4,D5が定義され、ま
た、部分決定木H2における判別関数t2の出力結果と
して事例集合D6及び判別関数t3が、この判別関数t
3の出力結果として事例集合D7,D8が定義されてい
る。
【0061】また、判別関数tとしては、以下のもの、
即ち、「頂点(vix,viy)から頂点(vjx,v
jy)を見たときに、頂点(vkx,vky)が右にあ
れば真、それ以外は偽」なるものを予め用意するものと
する(図5参照)。
【0062】ここで、i,j,kは、1からnまでの数
字の可能な組み合わせ全てであり、i≠j≠kである。
【0063】なお、以上の決定木を定義するため、決定
木アルゴリズムは、当該決定木の枝の数が出来るだけ少
なくなるよう、元の決定木H0の判別関数t0や、部分
決定木H1,H2の判別関数t1,t2,t3に、上述
の用意された判別関数tの中で必要なものを割り当て
る。
【0064】そして、ロボット制御装置3の行動決定モ
ジュール32による実際の行動決定は、前述した決定木
アルゴリズムにより、以下の手順で行われる。
【0065】ロボット行動ルール生成装置2の行動ル
ールデータベース23から、決定木S6(データ形式
H)を取り出す。
【0066】ロボット制御装置3の制御センシングモ
ジュール31から制御特徴ベクトルS7=(u1x,u
1y,…,unx,uny)の入力を受理する。
【0067】H=Dなら、Dの中の任意の事例を選択
し、それに含まれる行動aを行動S8として決定する。
【0068】H=(t,H1,H2)なら、制御特徴
ベクトルS7を判別関数tにかけて部分決定木H1又は
H2を選択し、その選択した部分決定木を改めてHとし
て、上述のを実行する。
【0069】そして以上により、当該移動ロボットα
は、センサから得られる特徴ベクトルに何ら重み付けを
行うことなく、所要の行動ルールを生成できるようにな
る。
【0070】(第2装置例)<構成>続いて、図7は、
本発明の第2装置例に係る移動ロボットの全体構成図、
図8及び図9は、それぞれ、当該移動ロボットを構成す
るロボット行動ルール生成装置、及びロボット制御装置
の各詳細構成図である。なお、これら各図に示される構
成要素には、第1装置例で説明した構成要素と構造及び
機能が同一のものにつき、同一の符号を付してある(同
一部分についての説明は省略する)。
【0071】まず、図7に示す移動ロボットβは、ロボ
ット教示装置1と、ロボット行動ルール生成装置2a
と、ロボット制御装置3aとを内蔵して構成される。な
お、これらの構成要素のうち、ロボット教示装置1は、
第1装置例におけるそれと全く同一のものが適用され
る。
【0072】ロボット行動ルール生成装置2aは、図8
に示すように、第1装置例におけるそれと同一の事例デ
ータベース21と、本装置例に固有の変換モジュール2
2aと、同じく本装置例に固有の行動ルールデータベー
ス23aとを具備して構成される。
【0073】変換モジュール22aは、事例データベー
ス21から事例集合S4を取得し、その取得した事例集
合S4から、バックプロパゲーション法(詳細は後述)
によりニューラルネットワークS5a(詳細は後述)を
学習するものである。
【0074】行動ルールデータベース23aは、変換モ
ジュール22aで学習されたニューラルネットワークS
5aを、移動ロボットβの行動ルールとして格納し、ロ
ボット制御装置3aからの取得要求に応じて、当該ニュ
ーラルネットワークS5a(以下、取得要求に伴うニュ
ーラルネットワークについては、符号を「S6a」に振
り替える)を出力するものである。
【0075】そのロボット制御装置3aは、図9に示す
ように、第1装置例におけるものと同一の制御センシン
グモジュール31と、本装置例に固有の行動決定モジュ
ール32aと、同じく本装置例に固有の行動実行モジュ
ール33aとを具備して構成される。
【0076】行動決定モジュール32aは、制御センシ
ングモジュール31で生成された制御特徴ベクトルS7
を参照して、行動ルール生成装置2aの行動ルールデー
タベース23aに格納されたニューラルネットワークS
5aの中から対応するニューラルネットワークS6aを
取得し、その取得したニューラルネットワークS6aに
基づいて、移動ロボットβに次に実行させるべき行動S
8aを決定するものである。
【0077】行動実行モジュール33aは、行動決定モ
ジュール32aで決定された行動S8aを移動ロボット
β自身に実行させ、環境Eに対して動作S9aを行うも
のである。
【0078】<ニューラルネットワーク>続いて、ロボ
ット行動ルール生成装置2aの変換モジュール22aに
おいて学習されるニューラルネットワークS5aの概要
について説明する。
【0079】ニューラルネットワークS5aは、図10
に示すように、「入力層」、「中間層」、及び「出力
層」から構成され、それぞれの層は、「ユニット」と呼
ばれる処理単位で構成される。ユニットは、隣接する前
の層から入力を受け取り、次の層に出力を受け渡す(入
力層の場合は外界から入力を得、出力層の場合は外界に
出力を出す)。
【0080】ここで、或るユニットjに対する入力ベク
トルをIj、その出力値をOjとした場合、当該出力値
の計算は、 Oj=Gj(WjIj) により行われる。但し、Gjはユニットjに関する出力
関数、Wjは同ユニットjに関する重みベクトルであ
り、計算式中の「WjIj」は両者の内積である。
【0081】このとき、入力層に対し外界から入力が与
えられた場合、入力層、中間層、及び出力層の各ユニッ
トが、順次、上記計算を行っていくことで、所要のニュ
ーラルネットワークS5aの出力が行われる(入力層の
出力が中間層の入力となり、中間層の出力が出力層の入
力となる)。
【0082】<バックプロパゲーション法>続いて、上
記ニューラルネットワークS5aの学習に際して適用さ
れるバックプロパゲーション法(「誤差逆伝搬学習法」
とも)の概要について説明する。
【0083】バックプロパゲーション法のアルゴリズム
は、以下に示すとおりである。
【0084】(1)前述したニューラルネットワークS
5aの計算式を用いて、出力層の各ユニットjの出力O
jを計算する。
【0085】(2)教師信号Rのユニットjに対応する
成分をRjとし、このRjと出力誤差算出関数Hjを用
いて、出力誤差δjを次式から計算する。 δj=Hj(Rj−Oj)
【0086】(3)出力層の各ユニットjの重みベクト
ルWjを次式により更新する。 Wj=Wj+AδjIj ここで、Aは定数であり、Ijはユニットjに対する中
間層からの入力ベクトルである。
【0087】(4)中間層の各ユニットmに対する出力
誤差算出関数Hmを用いて、出力誤差δmを次式から計
算する。 δm=Hm(ΣδjWmj) ここで、計算式中の「ΣδjWmj」は、ユニットmと
結合している全ての出力層のユニットjにおける、
(a)出力誤差δjと、(b)ユニットmからの入力に
対する重みWmj(重みベクトルWjの成分)とを掛け
合わせたものの総和である。
【0088】(5)中間層の各ユニットmの重みベクト
ルWmを次式により更新する。Wm=Wm+AδmIm
ここで、Aは定数であり、Imはユニットmに対する入
力層からの入力ベクトルである。
【0089】(6)出力層と中間層とを、それぞれ中間
層と入力層とに置き換え、上述の(4),(5)の操作
を実行する。
【0090】(7)上述の(1)から(6)までの操作
を、各事例S3に対して繰り返し実行し、その結果、出
力誤差δjの二乗和Σδjが、予め与えられた判別値
より小さくなったら、アルゴリズムを停止する。
【0091】<行動ルール生成過程>続いて、以上のよ
うに構成された移動ロボットβにおける行動ルールの生
成過程につき説明する。
【0092】なお、ロボット教示装置1の教示センシン
グモジュール11は、第1装置例と同様、画像センサ等
により取得された画像P(即ち、環境情報S1)におけ
る3つの障害物O1,O2,O3の頂点位置の集合を、
教示特徴ベクトルS2として出力するものとする(図5
参照)。また、同様に、教示者Iは、同ロボット教示装
置1の行動教示モジュール12に対し、移動ロボットβ
に許容された行動として、「前進」、「後退」、「右
折」、「左折」、及び「停止」の5種類の行動に関する
選択操作oを行うことができるものとする。
【0093】まず、ロボット教示装置1の記録モジュー
ル13は、ロボット行動ルール生成装置2aの事例デー
タベース21に、事例S3を、(v1x,v1y,…,
vnx,vny,a)なるデータ形式で記録、蓄積す
る。
【0094】ここで、以上のデータ形式に含まれる(v
1x,v1y,…,vnx,vny)は、教示特徴ベク
トルS2であり、(vix,viy)は、第i頂点の位
置である。また、nは、ロボット教示装置1の教示セン
シングモジュール11で検出される頂点の数、aは、教
示者Iによって実際に選択された行動(選択行動)を表
す。
【0095】次に、ロボット行動ルール生成装置2aの
変換モジュール22aは、事例データベース21の事例
集合S4を用いて、前述した手法により、ニューラルネ
ットワークS5aの学習を行う。
【0096】ニューラルネットワークS5aは、図10
に示すように、入力層、中間層、及び出力層の3層から
構成され、入力は(v1x,v1y,…,vnx,vn
y)の2n個の値である。また、出力(a1,a2,a
3,a4,a5)は、移動ロボットβに許容された行動
の種類と同じ5個の値である。
【0097】ここで、行動aが、「前進」、「後退」、
「右折」、「左折」、「停止」である場合、ロボット行
動ルール生成装置2aの変換モジュール22aは、教師
信号(a1,a2,a3,a4,a5)を、それぞれ、
(1,0,0,0,0),(0,1,0,0,0),
(0,0,1,0,0),(0,0,0,1,0),
(0,0,0,0,1)として、前述したバックプロパ
ゲーション法で学習し、さらに、その学習結果を、ニュ
ーラルネットワークS6aとして行動ルールデータベー
ス23aに記録、蓄積する。
【0098】そして、ロボット制御装置3aの行動決定
モジュール32aによる行動決定に際しては、ニューラ
ルネットワークS6aの入力層に、制御センシングモジ
ュール31から受理した制御特徴ベクトルS7を入力
し、これに伴う出力層からの出力が(1,0,0,0,
0)に最も近ければ、「前進」を行動S8として決定す
る。同様に、その出力が(0,1,0,0,0),
(0,0,1,0,0),(0,0,0,1,0),
(0,0,0,0,1)に最も近ければ、それぞれ「後
退」、「右折」、「左折」、「停止」を行動S8として
決定する。
【0099】そして以上により、当該移動ロボットβ
は、センサから得られる特徴ベクトルに何ら重み付けを
行うことなく、所要の行動ルールを生成できるようにな
る。
【0100】以上、本発明の実施の形態を、第1及び第
2装置例につき説明したが、本発明は、必ずしも上述し
た手段にのみ限定されるものではなく、本発明にいう目
的を達成し、後述の効果を有する範囲内において、適
宜、変更実施することが可能なものである。
【0101】例えば、本実施形態では、センサ付きロボ
ットとして移動ロボットを装置例に挙げて説明したが、
無論、自身又は外部に設置されたセンサから情報を取得
することの可能なロボットアームやロボットハンドなど
に対しても、本発明は同様に適用可能なものである。
【0102】
【発明の効果】以上、詳細に説明したように、本発明に
よれば、センサから得られる特徴ベクトルに何ら重み付
けを行うことなく、所要の行動ルールを生成することが
可能になると共に、これに伴い、行動ルールの生成時に
おけるセンサ付きロボットへの教示の回数を少なく抑え
ることが可能となる。
【図面の簡単な説明】
【図1】本発明の第1装置例に係る移動ロボットの全体
構成図である。
【図2】図1に示すロボット教示装置の詳細構成図であ
る。
【図3】図1に示すロボット行動ルール生成装置の詳細
構成図である。
【図4】図1に示すロボット制御装置の詳細構成図であ
る。
【図5】センサから取得される画像の一例を示す図であ
る。
【図6】図3に示す変換モジュールにおいて生成される
決定木の一例を示す図である。
【図7】本発明の第2装置例に係る移動ロボットの全体
構成図である。
【図8】図7に示すロボット行動ルール生成装置の詳細
構成図である。
【図9】図7に示すロボット制御装置の詳細構成図であ
る。
【図10】図8に示す変換モジュールにおいて学習され
るニューラルネットワークの一例を示す図である。
【符号の説明】
α,β…移動ロボット(センサ付きロボット) E…環境 O1,O2,O3…障害物 P…画像 I…教示者 1…ロボット教示装置 11…教示センシングモジュール 12…行動教示モジュール 13…記録モジュール 2,2a…ロボット行動ルール生成装置 21…事例データベース 22,22a…変換モジュール 23,23a…行動ルールデータベース 3,3a…ロボット制御装置 31…制御センシングモジュール 32,32a…行動決定モジュール 33,33a…行動実行モジュール o…選択操作 a…選択行動 S1…環境情報 S2…教示特徴ベクトル S3…事例 S4…事例集合 S5,S6…決定木 S5a,S6a…ニューラルネットワーク S7…制御特徴ベクトル S8,S8a…行動 S9,S9a…動作
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 9/44 580 G06F 9/44 580A 15/18 550 15/18 550E Fターム(参考) 3F059 BB04 DA05 FA01 FB11 FC15 GA00 5H004 GA27 GA38 GB16 HA07 HB15 KD44 KD52 KD54 5H269 AB33 BB09 CC09 DD01 EE11 SA25

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】センサから得られるセンサ信号に基づいて
    一連の作業を実行するセンサ付きロボットの行動ルール
    を生成するロボット行動ルール生成装置であって、 前記センサ信号から生成される前記作業の環境に係る特
    徴を記述した特徴ベクトルとの対応付けを図りつつ、前
    記センサ付きロボットに実行させるべき種々の行動の事
    例を格納する事例データベースと、 この事例データベースから前記事例を取得し、その取得
    した事例から前記行動ルールを生成する変換モジュール
    と、 この変換モジュールで生成された前記行動ルールを格納
    する行動ルールデータベースと、を具備する、 ことを特徴とするロボット行動ルール生成装置。
  2. 【請求項2】前記変換モジュールは、 前記事例から決定木を生成し、 前記行動ルールデータベースは、 当該変換モジュールで生成された決定木を前記行動ルー
    ルとして格納する、 ことを特徴とする請求項1に記載のロボット行動ルール
    生成装置。
  3. 【請求項3】前記変換モジュールは、 前記事例からニューラルネットワークを学習し、 前記行動ルールデータベースは、 当該変換モジュールで学習されたニューラルネットワー
    クの当該学習結果を前記行動ルールとして格納する、 ことを特徴とする請求項1に記載のロボット行動ルール
    生成装置。
  4. 【請求項4】センサから得られるセンサ信号に基づいて
    一連の作業を実行するセンサ付きロボットに実行させる
    べき種々の行動を制御するロボット制御装置であって、 前記センサ信号から前記作業の環境に係る特徴を記述し
    た特徴ベクトルを生成するセンシングモジュールと、 このセンシングモジュールで生成された前記特徴ベクト
    ルを参照して、前記センサ付きロボットに許容されてい
    る前記行動の事例ごとに事前に設定された行動ルールの
    中から対応するものを取得し、その取得した行動ルール
    に基づいて、当該センサ付きロボットに次に実行させる
    べき行動を決定する行動決定モジュールと、 この行動決定モジュールで決定された前記行動を前記セ
    ンサ付きロボットに実行させる行動実行モジュールと、
    を具備する、 ことを特徴とするロボット制御装置。
  5. 【請求項5】前記行動決定モジュールは、 前記センサ付きロボットに次に実行させるべき行動を、
    前記行動ルールとして事前に生成された決定木に基づい
    て決定する、 ことを特徴とする請求項4に記載のロボット制御装置。
  6. 【請求項6】前記行動決定モジュールは、 前記センサ付きロボットに次に実行させるべき行動を、
    前記行動ルールとして事前に学習されたニューラルネッ
    トワークの当該学習結果に基づいて決定する、 ことを特徴とする請求項4に記載のロボット制御装置。
  7. 【請求項7】センサから得られるセンサ信号に基づいて
    一連の作業を実行するセンサ付きロボットに実行させる
    べき種々の行動を教示するロボット教示装置であって、 前記センサ信号から前記作業の環境に係る特徴を記述し
    た特徴ベクトルを生成するセンシングモジュールと、 前記センサ付きロボットに許容されている前記行動の中
    から、当該センサ付きロボットに次に行わせるべき行動
    を教示者に選択させる行動教示モジュールと、 前記センシングモジュールで生成された前記特徴ベクト
    ルと、前記行動教示モジュールで選択された前記行動と
    の対応付けを図ったものを、前記行動の事例として所定
    のデータベースに記録する記録モジュールと、を具備す
    る、 ことを特徴とするロボット教示装置。
  8. 【請求項8】センサから得られるセンサ信号に基づいて
    一連の作業を実行するセンサ付きロボットであって、 請求項1記載のロボット行動ルール生成装置、請求項4
    記載のロボット制御装置、及び請求項7記載のロボット
    教示装置を自身に内蔵し、 当該ロボット教示装置における前記記録モジュールは、 当該ロボット行動ルール生成装置における前記事例デー
    タベースに対して前記事例を記録し、 当該ロボット制御装置における前記行動決定モジュール
    は、 当該ロボット行動ルール生成装置における前記行動ルー
    ルデータベースから前記行動ルールを取得する、 ことを特徴とするセンサ付きロボット。
  9. 【請求項9】センサから得られるセンサ信号に基づいて
    一連の作業を実行するセンサ付きロボットであって、 請求項2記載のロボット行動ルール生成装置、請求項5
    記載のロボット制御装置、及び請求項7記載のロボット
    教示装置を自身に内蔵し、 当該ロボット教示装置における前記記録モジュールは、 当該ロボット行動ルール生成装置における前記事例デー
    タベースに対して前記事例を記録し、 当該ロボット制御装置における前記行動決定モジュール
    は、 当該ロボット行動ルール生成装置における前記行動ルー
    ルデータベースから前記決定木を取得する、 ことを特徴とするセンサ付きロボット。
  10. 【請求項10】センサから得られるセンサ信号に基づい
    て一連の作業を実行するセンサ付きロボットであって、 請求項3記載のロボット行動ルール生成装置、請求項6
    記載のロボット制御装置、及び請求項7記載のロボット
    教示装置を自身に内蔵し、 当該ロボット教示装置における前記記録モジュールは、 当該ロボット行動ルール生成装置における前記事例デー
    タベースに対して前記事例を記録し、 当該ロボット制御装置における前記行動決定モジュール
    は、 当該ロボット行動ルール生成装置における前記行動ルー
    ルデータベースから前記ニューラルネットワークの学習
    結果を取得する、 ことを特徴とするセンサ付きロボット。
JP34603199A 1999-12-06 1999-12-06 ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット Pending JP2001166803A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP34603199A JP2001166803A (ja) 1999-12-06 1999-12-06 ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34603199A JP2001166803A (ja) 1999-12-06 1999-12-06 ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット

Publications (1)

Publication Number Publication Date
JP2001166803A true JP2001166803A (ja) 2001-06-22

Family

ID=18380676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34603199A Pending JP2001166803A (ja) 1999-12-06 1999-12-06 ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット

Country Status (1)

Country Link
JP (1) JP2001166803A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318503A (ja) * 2003-04-16 2004-11-11 Toshiba Corp 行動管理支援装置、行動管理支援方法、および行動管理支援プログラム
JP2008307640A (ja) * 2007-06-14 2008-12-25 Honda Motor Co Ltd 運動制御システム、運動制御方法および運動制御プログラム
JP2017146879A (ja) * 2016-02-19 2017-08-24 ファナック株式会社 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法
US9993923B2 (en) 2012-03-22 2018-06-12 Toyota Jidosha Kabushiki Kaisha Trajectory generation device, moving object, trajectory generation method
WO2018135301A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法
CN110246554A (zh) * 2018-03-07 2019-09-17 西门子医疗保健有限责任公司 保健网络
WO2021205742A1 (ja) * 2020-04-08 2021-10-14 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318503A (ja) * 2003-04-16 2004-11-11 Toshiba Corp 行動管理支援装置、行動管理支援方法、および行動管理支援プログラム
JP2008307640A (ja) * 2007-06-14 2008-12-25 Honda Motor Co Ltd 運動制御システム、運動制御方法および運動制御プログラム
US8315740B2 (en) 2007-06-14 2012-11-20 Honda Motor Co., Ltd. Motion control system, motion control method, and motion control program
US9993923B2 (en) 2012-03-22 2018-06-12 Toyota Jidosha Kabushiki Kaisha Trajectory generation device, moving object, trajectory generation method
JP2017146879A (ja) * 2016-02-19 2017-08-24 ファナック株式会社 複数の産業機械の作業分担を学習する機械学習装置,産業機械セル,製造システムおよび機械学習方法
US11036191B2 (en) 2016-02-19 2021-06-15 Fanuc Corporation Machine learning device, industrial machine cell, manufacturing system, and machine learning method for learning task sharing among plurality of industrial machines
WO2018135301A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法
CN110246554A (zh) * 2018-03-07 2019-09-17 西门子医疗保健有限责任公司 保健网络
EP3675138A1 (en) * 2018-03-07 2020-07-01 Siemens Healthcare GmbH Medical imaging device control based on decision tree data structures
US11482309B2 (en) 2018-03-07 2022-10-25 Siemens Healthcare Gmbh Healthcare network
CN110246554B (zh) * 2018-03-07 2024-02-02 西门子医疗保健有限责任公司 用于控制用户设备的操作的方法和计算机
WO2021205742A1 (ja) * 2020-04-08 2021-10-14 ソニーグループ株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Similar Documents

Publication Publication Date Title
Moriarty et al. Evolutionary algorithms for reinforcement learning
Gabrys et al. General fuzzy min-max neural network for clustering and classification
CN107403426B (zh) 一种目标物体检测方法及设备
CN111144580B (zh) 一种基于模仿学习的层级强化学习训练方法和装置
US20090116413A1 (en) System and method for automatic topology determination in a hierarchical-temporal network
US7133744B2 (en) Information processing apparatus and method, program storage medium, and program
US20080009957A1 (en) Controlling the Interactive Behavior of a Robot
CN110516389B (zh) 行为控制策略的学习方法、装置、设备及存储介质
JP7006296B2 (ja) 学習プログラム、学習方法および学習装置
CN112720453A (zh) 用于训练机器人系统的操纵技能的方法和设备
JP2007265345A (ja) 情報処理装置および方法、学習装置および方法、並びにプログラム
JP2001166803A (ja) ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット
Ribeiro A tutorial on reinforcement learning techniques
KR20220122201A (ko) 춤 동작을 학습하여 춤을 추는 스마트 로봇
Cortes et al. Coordinated deployment of mobile sensing networks with limited-range interactions
EP3933698A1 (en) Method and control unit for generating stylized motion of an object, such as a robot or a virtual avatar
US20210089933A1 (en) Method and apparatus for learning procedural knowledge, and method for providing service using the same
Kaelbling et al. Recent advances in reinforcement learning
Floyd et al. Building learning by observation agents using jloaf
CN113627646A (zh) 一种基于神经网络的路径规划方法、装置、设备及介质
JP2002133390A (ja) 学習装置および記録媒体
Galinier et al. Genetic algorithm to improve diversity in MDE
Mahzoon et al. Social skill acquisition model through face-to-face interaction: local contingency for open-ended development
KR101058471B1 (ko) 행동 유발성 모델에 기반한 중간 목표 생성 방법과 이를기반으로 한 임무 학습 방법 및 그 시스템
JP7464268B2 (ja) オートマトン生成装置、オートマトン生成方法及びプログラム