JP2001166803A

JP2001166803A - ロボット行動ルール生成装置、ロボット制御装置、及びロボット教示装置、並びにセンサ付きロボット

Info

Publication number: JP2001166803A
Application number: JP34603199A
Authority: JP
Inventors: Hiroyuki Ogata; 博之小方; Masashi Okudaira; 雅士奥平
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-12-06
Filing date: 1999-12-06
Publication date: 2001-06-22

Abstract

(57)【要約】【課題】センサから得られる特徴ベクトルに重み付けを
行うことなく所要の行動ルールを生成することの可能な
ロボット行動ルール生成装置、ロボット制御装置、及び
ロボット教示装置、並びにセンサ付きロボットの提供。【解決手段】移動ロボットαに実行させるべき種々の行
動の事例Ｓ３を格納する事例データベース２１と、この
事例データベース２１から事例集合Ｓ４を取得して、そ
の取得した事例集合Ｓ４から決定木Ｓ５を生成する変換
モジュール２２と、この変換モジュール２２で生成され
た決定木Ｓ５を、移動ロボットαの行動ルールとして格
納して、ロボット制御装置３からの取得要求に応じた決
定木Ｓ６を出力する行動ルールデータベース２３とを有
する特徴。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ロボット行動ルー
ル生成装置、ロボット制御装置、及びロボット教示装
置、並びにセンサ付きロボットに係わり、詳しくは、セ
ンサから得られるセンサ信号に基づいて一連の作業を実
行するセンサ付きロボットにおいて、当該ロボットの行
動ルールを生成するロボット行動ルール生成装置、当該
ロボットに実行させるべき種々の行動を制御するロボッ
ト制御装置、及び当該ロボットに実行させるべき種々の
行動を教示するロボット教示装置、並びにこれら各装置
から構成されるセンサ付きロボットに関する。

【０００２】より詳しくは、本発明は、自身又は外部に
設置されたセンサから情報を取得することの可能な移動
ロボット、ロボットアーム、ロボットハンド等のセンサ
付きロボットを対象に、ロボット言語によっては容易に
プログラムできない作業や、或いは、作業モデルに基づ
いた動作生成アルゴリズムを用いる場合において、当該
作業モデル又は動作生成アルゴリズムの作成が困難か、
その動作生成時の計算量が膨大となる作業のうち、セン
サ付きロボットに対し教示者が行動を指示することで、
その行動の事例を示すことのできる作業を、当該センサ
付きロボットに再現的に実行させるためのロボット行動
ルール生成装置等に関する。

【従来の技術】

【０００３】従来、センサ付きロボットに対し教示者が
行動を指示することで、その行動の事例を示すことので
きる作業を、当該センサ付きロボットに再現的に実行さ
せる手法として、試行錯誤による「行動獲得方式」が存
在する。

【０００４】この行動獲得方式は、センサ付きロボット
に作業の環境を知覚させながら実際に行動を行わせ、そ
の行動結果を評価することにより、当該センサ付きロボ
ットの行動ルールを自動生成しようとするものである。
なお、このときの行動ルールを生成する手法としては、
「遺伝子アルゴリズム方式」や「強化学習方式」などが
適用される。

【０００５】このうち、遺伝子アルゴリズム方式は、行
動ルールがそれぞれランダムに事前設定された複数のセ
ンサ付きロボットに個別の行動を行わせ、それぞれのセ
ンサ付きロボットの行動結果のうち評価の高いもの同士
を掛け合わせて、新たな行動ルールを生成し、この「掛
け合わせ」及び「行動ルールの生成」を繰り返し行うこ
とで、その行動ルールの改善を図ろうとするものであ
る。

【０００６】これに対し、強化学習方式は、１台のセン
サ付きロボットにランダムな行動を行わせ、現在の作業
環境につきセンサを通じて各特徴ベクトルの入力があっ
た場合に、その各特徴ベクトルに応じて当該センサ付き
ロボットが所定の行動を選択したときの作業達成の期待
効用値を推定し、この期待効用値の最も高い行動を選別
することで、目的の行動ルールを生成しようとするもの
である。

【０００７】

【発明が解決しようとする課題】ここで、上述した２種
類の行動ルール生成手法につき考察した場合、前者の遺
伝子アルゴリズム方式にあっては、多数のセンサ付きロ
ボットを事前に用意した上、これらセンサ付きロボット
に対し試行錯誤を繰り返して行う必要があることから、
計算機上のシミュレーションによる行動ルールの生成可
能性の指摘は行われているものの、実際の物理環境への
適用に際しては実現性に欠けるという問題がある。

【０００８】また、後者の強化学習方式にあっては、実
際の物理環境への適用例は報告されてはいるが、作業環
境に多くの特徴点が存在する場合、結果的に、行動ルー
ルの生成に多くの試行錯誤を要するようになり、その効
率面から実現性に劣るなどの問題がある。加えて、当該
強化学習方式では、１台のセンサ付きロボットに対し何
度も試行錯誤を繰り返して行うことから、当該センサ付
きロボット（その構成部品）が、実使用前に消耗する可
能性があるなどの問題も内在している。

【０００９】こうした問題に対処するため、本願出願人
は、特願平１０−２６３０８５号において、行動ルール
生成のための新たな方式を開示している。

【００１０】即ち、当該出願に開示の行動ルール生成方
式は、教示者が、まず、センサ付きロボットに対し、セ
ンサから得られる特徴ベクトルに対応して選択すべき行
動を教示し、これにより得られる事例を事例データベー
スに蓄積し、当該センサ付きロボットが作業を行うとき
には、そのセンサから得られる特徴ベクトルにつき、事
例データベースに蓄積された事例のうち距離が最も近い
ものを検索し、この検索事例に対応した行動を、その場
面における最も適切な行動として選択する方式である。

【００１１】当該方式によれば、教示者の教示により、
センサ付きロボットの事例獲得操作が効率的となり、作
業環境に多くの特徴点が存在する場合であっても、要所
だけ事例を教示することで、所要の行動ルールを生成す
ることが可能となる。また、この方式では、センサ付き
ロボットに対し何度も試行錯誤を繰り返す必要がないた
め、当該センサ付きロボットの消耗も低く抑えられる。

【００１２】しかしながら、以上のように、距離が最も
近い事例を選択する方式では、特徴ベクトルの各成分に
適当な「重み付け」を行う必要があり、その重み付けが
不適当な場合には、適切な行動の選択が困難となる。こ
の結果、センサ付きロボットに適正な作業を行わせるの
に十分な行動ルールを生成するのに必要な教示の回数
が、予想以上に増加してしまう傾向にある。

【００１３】ここにおいて、本発明の解決すべき主要な
目的は、次のとおりである。

【００１４】即ち、本発明の第１の目的は、センサから
得られる特徴ベクトルに重み付けを行うことなく所要の
行動ルールを生成することの可能なロボット行動ルール
生成装置、ロボット制御装置、及びロボット教示装置、
並びにセンサ付きロボットを提供せんとするものであ
る。

【００１５】本発明の第２の目的は、行動ルールの生成
時におけるセンサ付きロボットへの教示の回数を少なく
抑えることの可能なロボット行動ルール生成装置、ロボ
ット制御装置、及びロボット教示装置、並びにセンサ付
きロボットを提供せんとするものである。

【００１６】本発明の他の目的は、明細書、図面、特に
特許請求の範囲の各請求項の記載から自ずと明らかとな
ろう。

【００１７】

【課題を解決するための手段】本発明ロボット行動ルー
ル生成装置においては、センサ付きロボットに実行させ
るべき種々の行動の事例を格納する事例データベース
と、事例から行動ルールを生成する変換モジュールと、
行動ルールを格納する行動ルールデータベースとを具備
してなる、という特徴を有する。

【００１８】本発明ロボット制御装置においては、セン
サ信号から特徴ベクトルを生成するセンシングモジュー
ルと、事前に設定された行動ルールに基づき、センサ付
きロボットに次に実行させるべき行動を決定する行動決
定モジュールと、決定された行動をセンサ付きロボット
に実行させる行動実行モジュールとを具備してなる、と
いう特徴を有する。

【００１９】本発明ロボット教示装置においては、セン
サ信号から特徴ベクトルを生成するセンシングモジュー
ルと、センサ付きロボットに次に行わせるべき行動を教
示者に選択させる行動教示モジュールと、特徴ベクトル
と行動との対応付けを図ってなる行動の事例をデータベ
ースに記録する記録モジュールとを具備してなる、とい
う特徴を有する。

【００２０】本発明センサ付きロボットにおいては、上
述のロボット行動ルール生成装置、ロボット制御装置、
及びロボット教示装置を自身に内蔵してなる、という特
徴を有する。

【００２１】さらに具体的詳細に述べると、当該課題の
解決では、本発明が次に列挙する新規な特徴的構成手段
を採用することにより、前記目的を達成するよう為され
る。

【００２２】即ち、本発明ロボット行動ルール生成装置
の第１の特徴は、センサから得られるセンサ信号に基づ
いて一連の作業を実行するセンサ付きロボットの行動ル
ールを生成するロボット行動ルール生成装置であって、
前記センサ信号から生成される前記作業の環境に係る特
徴を記述した特徴ベクトルとの対応付けを図りつつ、前
記センサ付きロボットに実行させるべき種々の行動の事
例を格納する事例データベースと、この事例データベー
スから前記事例を取得し、その取得した事例から前記行
動ルールを生成する変換モジュールと、この変換モジュ
ールで生成された前記行動ルールを格納する行動ルール
データベースとを具備してなる、ロボット行動ルール生
成装置の構成採用にある。

【００２３】本発明ロボット行動ルール生成装置の第２
の特徴は、上記本発明ロボット行動ルール生成装置の第
１の特徴における前記変換モジュールが、前記事例から
決定木を生成し、前記行動ルールデータベースが、当該
変換モジュールで生成された決定木を前記行動ルールと
して格納してなる、ロボット行動ルール生成装置の構成
採用にある。

【００２４】本発明ロボット行動ルール生成装置の第３
の特徴は、上記本発明ロボット行動ルール生成装置の第
１の特徴における前記変換モジュールが、前記事例から
ニューラルネットワークを学習し、前記行動ルールデー
タベースが、当該変換モジュールで学習されたニューラ
ルネットワークの当該学習結果を前記行動ルールとして
格納してなる、ロボット行動ルール生成装置の構成採用
にある。

【００２５】また、本発明ロボット制御装置の第１の特
徴は、センサから得られるセンサ信号に基づいて一連の
作業を実行するセンサ付きロボットに実行させるべき種
々の行動を制御するロボット制御装置であって、前記セ
ンサ信号から前記作業の環境に係る特徴を記述した特徴
ベクトルを生成するセンシングモジュールと、このセン
シングモジュールで生成された前記特徴ベクトルを参照
して、前記センサ付きロボットに許容されている前記行
動の事例ごとに事前に設定された行動ルールの中から対
応するものを取得し、その取得した行動ルールに基づい
て、当該センサ付きロボットに次に実行させるべき行動
を決定する行動決定モジュールと、この行動決定モジュ
ールで決定された前記行動を前記センサ付きロボットに
実行させる行動実行モジュールとを具備してなる、ロボ
ット制御装置の構成採用にある。

【００２６】本発明ロボット制御装置の第２の特徴は、
上記本発明ロボット制御装置の第１の特徴における前記
行動決定モジュールが、前記センサ付きロボットに次に
実行させるべき行動を、前記行動ルールとして事前に生
成された決定木に基づいて決定してなる、ロボット制御
装置の構成採用にある。

【００２７】本発明ロボット制御装置の第３の特徴は、
上記本発明ロボット制御装置の第１の特徴における前記
行動決定モジュールが、前記センサ付きロボットに次に
実行させるべき行動を、前記行動ルールとして事前に学
習されたニューラルネットワークの当該学習結果に基づ
いて決定してなる、ロボット制御装置の構成採用にあ
る。

【００２８】一方、本発明ロボット教示装置の特徴は、
センサから得られるセンサ信号に基づいて一連の作業を
実行するセンサ付きロボットに実行させるべき種々の行
動を教示するロボット教示装置であって、前記センサ信
号から前記作業の環境に係る特徴を記述した特徴ベクト
ルを生成するセンシングモジュールと、前記センサ付き
ロボットに許容されている前記行動の中から、当該セン
サ付きロボットに次に行わせるべき行動を教示者に選択
させる行動教示モジュールと、前記センシングモジュー
ルで生成された前記特徴ベクトルと、前記行動教示モジ
ュールで選択された前記行動との対応付けを図ったもの
を、前記行動の事例として所定のデータベースに記録す
る記録モジュールとを具備してなる、ロボット教示装置
の構成採用にある。

【００２９】さらに、本発明センサ付きロボットの第１
の特徴は、センサから得られるセンサ信号に基づいて一
連の作業を実行するセンサ付きロボットであって、前記
ロボット行動ルール生成装置の第１の特徴、前記ロボッ
ト制御装置の第１の特徴、及び前記ロボット教示装置を
自身に内蔵し、当該ロボット教示装置における前記記録
モジュールが、当該ロボット行動ルール生成装置におけ
る前記事例データベースに対して前記事例を記録し、当
該ロボット制御装置における前記行動決定モジュール
が、当該ロボット行動ルール生成装置における前記行動
ルールデータベースから前記行動ルールを取得してな
る、センサ付きロボットの構成採用にある。

【００３０】本発明センサ付きロボットの第２の特徴
は、センサから得られるセンサ信号に基づいて一連の作
業を実行するセンサ付きロボットであって、前記ロボッ
ト行動ルール生成装置の第２の特徴、前記ロボット制御
装置の第２の特徴、及び前記ロボット教示装置を自身に
内蔵し、当該ロボット教示装置における前記記録モジュ
ールが、当該ロボット行動ルール生成装置における前記
事例データベースに対して前記事例を記録し、当該ロボ
ット制御装置における前記行動決定モジュールが、当該
ロボット行動ルール生成装置における前記行動ルールデ
ータベースから前記決定木を取得してなる、センサ付き
ロボットの構成採用にある。

【００３１】本発明センサ付きロボットの第３の特徴
は、センサから得られるセンサ信号に基づいて一連の作
業を実行するセンサ付きロボットであって、前記ロボッ
ト行動ルール生成装置の第３の特徴、前記ロボット制御
装置の第３の特徴、及び前記ロボット教示装置を自身に
内蔵し、当該ロボット教示装置における前記記録モジュ
ールが、当該ロボット行動ルール生成装置における前記
事例データベースに対して前記事例を記録し、当該ロボ
ット制御装置における前記行動決定モジュールが、当該
ロボット行動ルール生成装置における前記行動ルールデ
ータベースから前記ニューラルネットワークの学習結果
を取得してなる、センサ付きロボットの構成採用にあ
る。

【００３２】

【発明の実施の形態】以下、本発明の実施の形態を、添
付図面を参照しつつ、第１及び第２装置例につき説明す
る。なお、以下に説明する各装置例は、自身又は外部に
設置されたセンサから情報を取得することの可能なセン
サ付きロボットとしての移動ロボットを、障害物を回避
させながら、目標となる場所に移動させる例である。ま
た、第１装置例においては、行動ルールの生成に決定木
を適用した例を、第２装置例においては、その生成にニ
ューラルネットワークを適用した例を説明する。

【００３３】（第１装置例）＜構成＞図１は、本発明の第１装置例に係る移動ロボッ
トの全体構成図、図２乃至図４は、それぞれ、当該移動
ロボットを構成するロボット教示装置、ロボット行動ル
ール生成装置、及びロボット制御装置の各詳細構成図で
ある。

【００３４】まず、図１に示す移動ロボットαは、ロボ
ット教示装置１と、ロボット行動ルール生成装置２と、
ロボット制御装置３とを内蔵して構成される。

【００３５】ロボット教示装置１は、図２に示すよう
に、センシングモジュール（以下、説明の便宜上、「教
示センシングモジュール」と言い換える）１１と、行動
教示モジュール１２と、記録モジュール１３とを具備し
て構成される。

【００３６】教示センシングモジュール１１は、図示し
ない画像センサ等から得られるセンサ信号としての環境
情報Ｓ１から、作業の環境Ｅに係る特徴を記述した特徴
ベクトル（以下、説明の便宜上、「教示特徴ベクトル」
と言い換える）Ｓ２を生成するものである。

【００３７】行動教示モジュール１２は、移動ロボット
αに許容されている行動の中から、当該移動ロボットα
に次に行わせるべき行動を、教示者Ｉに選択操作ｏをさ
せて選択させ、選択行動ａを生成出力するものである。

【００３８】記録モジュール１３は、教示センシングモ
ジュール１１で生成された教示特徴ベクトルＳ２と、行
動教示モジュール１２で選択された選択行動ａとの対応
付けを図ったものを、行動の事例Ｓ３として、後述する
ロボット行動ルール生成装置２内のデータベースに記録
するものである。

【００３９】そのロボット行動ルール生成装置２は、図
３に示すように、事例データベース２１と、変換モジュ
ール２２と、行動ルールデータベース２３とを具備して
構成される。

【００４０】事例データベース２１は、前述した移動ロ
ボットαに実行させるべき種々の行動の事例Ｓ３を格納
するものである。

【００４１】変換モジュール２２は、事例データベース
２１から事例（以下、「事例集合」と言い換える）Ｓ４
を取得し、その取得した事例集合Ｓ４から決定木Ｓ５
（詳細は後述）を生成するものである。

【００４２】行動ルールデータベース２３は、変換モジ
ュール２２で生成された決定木Ｓ５を、移動ロボットα
の行動ルールとして格納し、ロボット制御装置３からの
取得要求に応じて、当該決定木Ｓ５（以下、取得要求に
伴う決定木については、符号を「Ｓ６」に振り替える）
を出力するものである。

【００４３】そのロボット制御装置３は、図４に示すよ
うに、センシングモジュール（以下、説明の便宜上、
「制御センシングモジュール」と言い換える）３１と、
行動決定モジュール３２と、行動実行モジュール３３と
を具備して構成される。

【００４４】制御センシングモジュール３１は、環境情
報Ｓ１から、作業の環境Ｅに係る特徴を記述した特徴ベ
クトル（以下、説明の便宜上、「制御特徴ベクトル」と
言い換える）Ｓ７を生成するものである。

【００４５】行動決定モジュール３２は、制御センシン
グモジュール３１で生成された制御特徴ベクトルＳ７を
参照して、行動ルール生成装置２の行動ルールデータベ
ース２３に格納された決定木Ｓ５の中から対応する決定
木Ｓ６を取得し、その取得した決定木Ｓ６に基づいて、
移動ロボットαに次に実行させるべき行動Ｓ８を決定す
るものである。

【００４６】行動実行モジュール３３は、行動決定モジ
ュール３２で決定された行動Ｓ８を移動ロボットα自身
に実行させ、環境Ｅに対して動作Ｓ９を行うものであ
る。

【００４７】＜決定木アルゴリズム＞続いて、ロボット
行動ルール生成装置２の変換モジュール２２において決
定木Ｓ５を生成する際に適用されるアルゴリズムの概要
について説明する。

【００４８】所要の決定木Ｓ５の生成は、教示センシン
グモジュール１１で生成された教示特徴ベクトルＳ２に
対する真偽を判別する「判別関数ｔ」を用いて、事例デ
ータベース２１から取得した事例集合Ｓ４を分類化する
処理と言える。

【００４９】ここで、判別関数ｔ全体の集合（判別関数
集合）をＴ、事例集合Ｓ４をＤ、求める決定木Ｓ５をＨ
で表せば、決定木アルゴリズムは、以下のようになる。

【００５０】（１）事例集合Ｄが空集合、又はその事例
集合Ｄ内部の行動が全て同じなら、Ｈ＝Ｄとしてアルゴ
リズムを停止する。このとき、Ｈが求める決定木であ
る。

【００５１】（２）上記以外の場合、判別関数集合Ｔの
中から所要の判別関数ｔを選択し、それに対する真偽判
別結果によって、事例集合ＤをＤ０，Ｄ１の２つの事例
集合に分類する。

【００５２】（３）上記事例集合Ｄ０，Ｄ１に対し新た
に判別関数集合Ｔ′＝｛Ｔ−ｔ｝を作成し、それぞれに
ついて決定木Ｈ０，Ｈ１を作成する。このとき、Ｈ＝
（ｔ，Ｈ０，Ｈ１）が求める決定木である。

【００５３】＜行動ルール生成過程＞続いて、以上のよ
うに構成された移動ロボットαにおける行動ルールの生
成過程につき説明する。

【００５４】なお、ロボット教示装置１の教示センシン
グモジュール１１は、図５に示すように、画像センサ等
により取得された画像Ｐ（即ち、環境情報Ｓ１）におけ
る３つの障害物Ｏ１，Ｏ２，Ｏ３の頂点位置の集合を、
教示特徴ベクトルＳ２として出力するものとする。ま
た、教示者Ｉは、同ロボット教示装置１の行動教示モジ
ュール１２に対し、移動ロボットαに許容された行動と
して、５種類の行動、即ち、「前進」、「後退」、「右
折」、「左折」、及び「停止」の各行動に関する選択操
作ｏを行うことができるものとする。

【００５５】まず、ロボット教示装置１の記録モジュー
ル１３は、ロボット行動ルール生成装置２の事例データ
ベース２１に、事例Ｓ３を、（ｖ１ｘ，ｖ１ｙ，…，ｖ
ｎｘ，ｖｎｙ，ａ）なるデータ形式で記録、蓄積する。

【００５６】ここで、以上のデータ形式に含まれる（ｖ
１ｘ，ｖ１ｙ，…，ｖｎｘ，ｖｎｙ）は、教示特徴ベク
トルＳ２であり、（ｖｉｘ，ｖｉｙ）は、第ｉ頂点の位
置である。また、ｎは、ロボット教示装置１の教示セン
シングモジュール１１で検出される頂点の数、ａは、教
示者Ｉによって実際に選択された行動（即ち、前述した
「選択行動」）を表す。

【００５７】次に、ロボット行動ルール生成装置２の変
換モジュール２２は、決定木アルゴリズムを用いて事例
集合Ｓ４を決定木Ｓ５に変換し、当該決定木Ｓ５を行動
ルールデータベース２３に記録、蓄積する。

【００５８】このとき、行動ルールデータベース２３に
記録、蓄積される決定木Ｓ５のデータ形式Ｈ０は、Ｈ０＝Ｄ０又はＨ０＝（ｔ０，Ｈ１，Ｈ２）で表現される。

【００５９】ここで、以上のデータ形式におけるＤ０
は、行動が同じであるような事例の集合である。また、
ｔ０は、入力された教示特徴ベクトルＳ２に対する真偽
を出力する判別関数であり、Ｈ１は、判別関数ｔ０が
「真」を出力した場合に選択される部分決定木、Ｈ２
は、その判別関数ｔ０が「偽」を出力した場合に選択さ
れる部分決定木である。

【００６０】詳しくは、図６に示すように、部分決定木
Ｈ１，Ｈ２は、元の決定木Ｈ０と同様な形態で記述さ
れ、この例では、部分決定木Ｈ１における判別関数ｔ１
の出力結果として事例集合Ｄ４，Ｄ５が定義され、ま
た、部分決定木Ｈ２における判別関数ｔ２の出力結果と
して事例集合Ｄ６及び判別関数ｔ３が、この判別関数ｔ
３の出力結果として事例集合Ｄ７，Ｄ８が定義されてい
る。

【００６１】また、判別関数ｔとしては、以下のもの、
即ち、「頂点（ｖｉｘ，ｖｉｙ）から頂点（ｖｊｘ，ｖ
ｊｙ）を見たときに、頂点（ｖｋｘ，ｖｋｙ）が右にあ
れば真、それ以外は偽」なるものを予め用意するものと
する（図５参照）。

【００６２】ここで、ｉ，ｊ，ｋは、１からｎまでの数
字の可能な組み合わせ全てであり、ｉ≠ｊ≠ｋである。

【００６３】なお、以上の決定木を定義するため、決定
木アルゴリズムは、当該決定木の枝の数が出来るだけ少
なくなるよう、元の決定木Ｈ０の判別関数ｔ０や、部分
決定木Ｈ１，Ｈ２の判別関数ｔ１，ｔ２，ｔ３に、上述
の用意された判別関数ｔの中で必要なものを割り当て
る。

【００６４】そして、ロボット制御装置３の行動決定モ
ジュール３２による実際の行動決定は、前述した決定木
アルゴリズムにより、以下の手順で行われる。

【００６５】ロボット行動ルール生成装置２の行動ル
ールデータベース２３から、決定木Ｓ６（データ形式
Ｈ）を取り出す。

【００６６】ロボット制御装置３の制御センシングモ
ジュール３１から制御特徴ベクトルＳ７＝（ｕ１ｘ，ｕ
１ｙ，…，ｕｎｘ，ｕｎｙ）の入力を受理する。

【００６７】Ｈ＝Ｄなら、Ｄの中の任意の事例を選択
し、それに含まれる行動ａを行動Ｓ８として決定する。

【００６８】Ｈ＝（ｔ，Ｈ１，Ｈ２）なら、制御特徴
ベクトルＳ７を判別関数ｔにかけて部分決定木Ｈ１又は
Ｈ２を選択し、その選択した部分決定木を改めてＨとし
て、上述のを実行する。

【００６９】そして以上により、当該移動ロボットα
は、センサから得られる特徴ベクトルに何ら重み付けを
行うことなく、所要の行動ルールを生成できるようにな
る。

【００７０】（第２装置例）＜構成＞続いて、図７は、
本発明の第２装置例に係る移動ロボットの全体構成図、
図８及び図９は、それぞれ、当該移動ロボットを構成す
るロボット行動ルール生成装置、及びロボット制御装置
の各詳細構成図である。なお、これら各図に示される構
成要素には、第１装置例で説明した構成要素と構造及び
機能が同一のものにつき、同一の符号を付してある（同
一部分についての説明は省略する）。

【００７１】まず、図７に示す移動ロボットβは、ロボ
ット教示装置１と、ロボット行動ルール生成装置２ａ
と、ロボット制御装置３ａとを内蔵して構成される。な
お、これらの構成要素のうち、ロボット教示装置１は、
第１装置例におけるそれと全く同一のものが適用され
る。

【００７２】ロボット行動ルール生成装置２ａは、図８
に示すように、第１装置例におけるそれと同一の事例デ
ータベース２１と、本装置例に固有の変換モジュール２
２ａと、同じく本装置例に固有の行動ルールデータベー
ス２３ａとを具備して構成される。

【００７３】変換モジュール２２ａは、事例データベー
ス２１から事例集合Ｓ４を取得し、その取得した事例集
合Ｓ４から、バックプロパゲーション法（詳細は後述）
によりニューラルネットワークＳ５ａ（詳細は後述）を
学習するものである。

【００７４】行動ルールデータベース２３ａは、変換モ
ジュール２２ａで学習されたニューラルネットワークＳ
５ａを、移動ロボットβの行動ルールとして格納し、ロ
ボット制御装置３ａからの取得要求に応じて、当該ニュ
ーラルネットワークＳ５ａ（以下、取得要求に伴うニュ
ーラルネットワークについては、符号を「Ｓ６ａ」に振
り替える）を出力するものである。

【００７５】そのロボット制御装置３ａは、図９に示す
ように、第１装置例におけるものと同一の制御センシン
グモジュール３１と、本装置例に固有の行動決定モジュ
ール３２ａと、同じく本装置例に固有の行動実行モジュ
ール３３ａとを具備して構成される。

【００７６】行動決定モジュール３２ａは、制御センシ
ングモジュール３１で生成された制御特徴ベクトルＳ７
を参照して、行動ルール生成装置２ａの行動ルールデー
タベース２３ａに格納されたニューラルネットワークＳ
５ａの中から対応するニューラルネットワークＳ６ａを
取得し、その取得したニューラルネットワークＳ６ａに
基づいて、移動ロボットβに次に実行させるべき行動Ｓ
８ａを決定するものである。

【００７７】行動実行モジュール３３ａは、行動決定モ
ジュール３２ａで決定された行動Ｓ８ａを移動ロボット
β自身に実行させ、環境Ｅに対して動作Ｓ９ａを行うも
のである。

【００７８】＜ニューラルネットワーク＞続いて、ロボ
ット行動ルール生成装置２ａの変換モジュール２２ａに
おいて学習されるニューラルネットワークＳ５ａの概要
について説明する。

【００７９】ニューラルネットワークＳ５ａは、図１０
に示すように、「入力層」、「中間層」、及び「出力
層」から構成され、それぞれの層は、「ユニット」と呼
ばれる処理単位で構成される。ユニットは、隣接する前
の層から入力を受け取り、次の層に出力を受け渡す（入
力層の場合は外界から入力を得、出力層の場合は外界に
出力を出す）。

【００８０】ここで、或るユニットｊに対する入力ベク
トルをＩｊ、その出力値をＯｊとした場合、当該出力値
の計算は、Ｏｊ＝Ｇｊ（ＷｊＩｊ）により行われる。但し、Ｇｊはユニットｊに関する出力
関数、Ｗｊは同ユニットｊに関する重みベクトルであ
り、計算式中の「ＷｊＩｊ」は両者の内積である。

【００８１】このとき、入力層に対し外界から入力が与
えられた場合、入力層、中間層、及び出力層の各ユニッ
トが、順次、上記計算を行っていくことで、所要のニュ
ーラルネットワークＳ５ａの出力が行われる（入力層の
出力が中間層の入力となり、中間層の出力が出力層の入
力となる）。

【００８２】＜バックプロパゲーション法＞続いて、上
記ニューラルネットワークＳ５ａの学習に際して適用さ
れるバックプロパゲーション法（「誤差逆伝搬学習法」
とも）の概要について説明する。

【００８３】バックプロパゲーション法のアルゴリズム
は、以下に示すとおりである。

【００８４】（１）前述したニューラルネットワークＳ
５ａの計算式を用いて、出力層の各ユニットｊの出力Ｏ
ｊを計算する。

【００８５】（２）教師信号Ｒのユニットｊに対応する
成分をＲｊとし、このＲｊと出力誤差算出関数Ｈｊを用
いて、出力誤差δｊを次式から計算する。 δｊ＝Ｈｊ（Ｒｊ−Ｏｊ）

【００８６】（３）出力層の各ユニットｊの重みベクト
ルＷｊを次式により更新する。Ｗｊ＝Ｗｊ＋ＡδｊＩｊここで、Ａは定数であり、Ｉｊはユニットｊに対する中
間層からの入力ベクトルである。

【００８７】（４）中間層の各ユニットｍに対する出力
誤差算出関数Ｈｍを用いて、出力誤差δｍを次式から計
算する。 δｍ＝Ｈｍ（ΣδｊＷｍｊ）ここで、計算式中の「ΣδｊＷｍｊ」は、ユニットｍと
結合している全ての出力層のユニットｊにおける、
（ａ）出力誤差δｊと、（ｂ）ユニットｍからの入力に
対する重みＷｍｊ（重みベクトルＷｊの成分）とを掛け
合わせたものの総和である。

【００８８】（５）中間層の各ユニットｍの重みベクト
ルＷｍを次式により更新する。Ｗｍ＝Ｗｍ＋ＡδｍＩｍ
ここで、Ａは定数であり、Ｉｍはユニットｍに対する入
力層からの入力ベクトルである。

【００８９】（６）出力層と中間層とを、それぞれ中間
層と入力層とに置き換え、上述の（４），（５）の操作
を実行する。

【００９０】（７）上述の（１）から（６）までの操作
を、各事例Ｓ３に対して繰り返し実行し、その結果、出
力誤差δｊの二乗和Σδｊ^２が、予め与えられた判別値
より小さくなったら、アルゴリズムを停止する。

【００９１】＜行動ルール生成過程＞続いて、以上のよ
うに構成された移動ロボットβにおける行動ルールの生
成過程につき説明する。

【００９２】なお、ロボット教示装置１の教示センシン
グモジュール１１は、第１装置例と同様、画像センサ等
により取得された画像Ｐ（即ち、環境情報Ｓ１）におけ
る３つの障害物Ｏ１，Ｏ２，Ｏ３の頂点位置の集合を、
教示特徴ベクトルＳ２として出力するものとする（図５
参照）。また、同様に、教示者Ｉは、同ロボット教示装
置１の行動教示モジュール１２に対し、移動ロボットβ
に許容された行動として、「前進」、「後退」、「右
折」、「左折」、及び「停止」の５種類の行動に関する
選択操作ｏを行うことができるものとする。

【００９３】まず、ロボット教示装置１の記録モジュー
ル１３は、ロボット行動ルール生成装置２ａの事例デー
タベース２１に、事例Ｓ３を、（ｖ１ｘ，ｖ１ｙ，…，
ｖｎｘ，ｖｎｙ，ａ）なるデータ形式で記録、蓄積す
る。

【００９４】ここで、以上のデータ形式に含まれる（ｖ
１ｘ，ｖ１ｙ，…，ｖｎｘ，ｖｎｙ）は、教示特徴ベク
トルＳ２であり、（ｖｉｘ，ｖｉｙ）は、第ｉ頂点の位
置である。また、ｎは、ロボット教示装置１の教示セン
シングモジュール１１で検出される頂点の数、ａは、教
示者Ｉによって実際に選択された行動（選択行動）を表
す。

【００９５】次に、ロボット行動ルール生成装置２ａの
変換モジュール２２ａは、事例データベース２１の事例
集合Ｓ４を用いて、前述した手法により、ニューラルネ
ットワークＳ５ａの学習を行う。

【００９６】ニューラルネットワークＳ５ａは、図１０
に示すように、入力層、中間層、及び出力層の３層から
構成され、入力は（ｖ１ｘ，ｖ１ｙ，…，ｖｎｘ，ｖｎ
ｙ）の２ｎ個の値である。また、出力（ａ１，ａ２，ａ
３，ａ４，ａ５）は、移動ロボットβに許容された行動
の種類と同じ５個の値である。

【００９７】ここで、行動ａが、「前進」、「後退」、
「右折」、「左折」、「停止」である場合、ロボット行
動ルール生成装置２ａの変換モジュール２２ａは、教師
信号（ａ１，ａ２，ａ３，ａ４，ａ５）を、それぞれ、
（１，０，０，０，０），（０，１，０，０，０），
（０，０，１，０，０），（０，０，０，１，０），
（０，０，０，０，１）として、前述したバックプロパ
ゲーション法で学習し、さらに、その学習結果を、ニュ
ーラルネットワークＳ６ａとして行動ルールデータベー
ス２３ａに記録、蓄積する。

【００９８】そして、ロボット制御装置３ａの行動決定
モジュール３２ａによる行動決定に際しては、ニューラ
ルネットワークＳ６ａの入力層に、制御センシングモジ
ュール３１から受理した制御特徴ベクトルＳ７を入力
し、これに伴う出力層からの出力が（１，０，０，０，
０）に最も近ければ、「前進」を行動Ｓ８として決定す
る。同様に、その出力が（０，１，０，０，０），
（０，０，１，０，０），（０，０，０，１，０），
（０，０，０，０，１）に最も近ければ、それぞれ「後
退」、「右折」、「左折」、「停止」を行動Ｓ８として
決定する。

【００９９】そして以上により、当該移動ロボットβ
は、センサから得られる特徴ベクトルに何ら重み付けを
行うことなく、所要の行動ルールを生成できるようにな
る。

【０１００】以上、本発明の実施の形態を、第１及び第
２装置例につき説明したが、本発明は、必ずしも上述し
た手段にのみ限定されるものではなく、本発明にいう目
的を達成し、後述の効果を有する範囲内において、適
宜、変更実施することが可能なものである。

【０１０１】例えば、本実施形態では、センサ付きロボ
ットとして移動ロボットを装置例に挙げて説明したが、
無論、自身又は外部に設置されたセンサから情報を取得
することの可能なロボットアームやロボットハンドなど
に対しても、本発明は同様に適用可能なものである。

【０１０２】

【発明の効果】以上、詳細に説明したように、本発明に
よれば、センサから得られる特徴ベクトルに何ら重み付
けを行うことなく、所要の行動ルールを生成することが
可能になると共に、これに伴い、行動ルールの生成時に
おけるセンサ付きロボットへの教示の回数を少なく抑え
ることが可能となる。

【図面の簡単な説明】

【図１】本発明の第１装置例に係る移動ロボットの全体
構成図である。

【図２】図１に示すロボット教示装置の詳細構成図であ
る。

【図３】図１に示すロボット行動ルール生成装置の詳細
構成図である。

【図４】図１に示すロボット制御装置の詳細構成図であ
る。

【図５】センサから取得される画像の一例を示す図であ
る。

【図６】図３に示す変換モジュールにおいて生成される
決定木の一例を示す図である。

【図７】本発明の第２装置例に係る移動ロボットの全体
構成図である。

【図８】図７に示すロボット行動ルール生成装置の詳細
構成図である。

【図９】図７に示すロボット制御装置の詳細構成図であ
る。

【図１０】図８に示す変換モジュールにおいて学習され
るニューラルネットワークの一例を示す図である。

【符号の説明】

α，β…移動ロボット（センサ付きロボット）Ｅ…環境Ｏ１，Ｏ２，Ｏ３…障害物Ｐ…画像Ｉ…教示者１…ロボット教示装置１１…教示センシングモジュール１２…行動教示モジュール１３…記録モジュール２，２ａ…ロボット行動ルール生成装置２１…事例データベース２２，２２ａ…変換モジュール２３，２３ａ…行動ルールデータベース３，３ａ…ロボット制御装置３１…制御センシングモジュール３２，３２ａ…行動決定モジュール３３，３３ａ…行動実行モジュールｏ…選択操作ａ…選択行動Ｓ１…環境情報Ｓ２…教示特徴ベクトルＳ３…事例Ｓ４…事例集合Ｓ５，Ｓ６…決定木Ｓ５ａ，Ｓ６ａ…ニューラルネットワークＳ７…制御特徴ベクトルＳ８，Ｓ８ａ…行動Ｓ９，Ｓ９ａ…動作

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 9/44 ５８０Ｇ０６Ｆ 9/44 ５８０Ａ 15/18 ５５０ 15/18 ５５０ＥＦターム(参考） 3F059 BB04 DA05 FA01 FB11 FC15 GA00 5H004 GA27 GA38 GB16 HA07 HB15 KD44 KD52 KD54 5H269 AB33 BB09 CC09 DD01 EE11 SA25

Claims

【特許請求の範囲】

【請求項１】センサから得られるセンサ信号に基づいて
一連の作業を実行するセンサ付きロボットの行動ルール
を生成するロボット行動ルール生成装置であって、前記センサ信号から生成される前記作業の環境に係る特
徴を記述した特徴ベクトルとの対応付けを図りつつ、前
記センサ付きロボットに実行させるべき種々の行動の事
例を格納する事例データベースと、この事例データベースから前記事例を取得し、その取得
した事例から前記行動ルールを生成する変換モジュール
と、この変換モジュールで生成された前記行動ルールを格納
する行動ルールデータベースと、を具備する、ことを特徴とするロボット行動ルール生成装置。
【請求項２】前記変換モジュールは、前記事例から決定木を生成し、前記行動ルールデータベースは、当該変換モジュールで生成された決定木を前記行動ルー
ルとして格納する、ことを特徴とする請求項１に記載のロボット行動ルール
生成装置。
【請求項３】前記変換モジュールは、前記事例からニューラルネットワークを学習し、前記行動ルールデータベースは、当該変換モジュールで学習されたニューラルネットワー
クの当該学習結果を前記行動ルールとして格納する、ことを特徴とする請求項１に記載のロボット行動ルール
生成装置。
【請求項４】センサから得られるセンサ信号に基づいて
一連の作業を実行するセンサ付きロボットに実行させる
べき種々の行動を制御するロボット制御装置であって、前記センサ信号から前記作業の環境に係る特徴を記述し
た特徴ベクトルを生成するセンシングモジュールと、このセンシングモジュールで生成された前記特徴ベクト
ルを参照して、前記センサ付きロボットに許容されてい
る前記行動の事例ごとに事前に設定された行動ルールの
中から対応するものを取得し、その取得した行動ルール
に基づいて、当該センサ付きロボットに次に実行させる
べき行動を決定する行動決定モジュールと、この行動決定モジュールで決定された前記行動を前記セ
ンサ付きロボットに実行させる行動実行モジュールと、
を具備する、ことを特徴とするロボット制御装置。
【請求項５】前記行動決定モジュールは、前記センサ付きロボットに次に実行させるべき行動を、
前記行動ルールとして事前に生成された決定木に基づい
て決定する、ことを特徴とする請求項４に記載のロボット制御装置。
【請求項６】前記行動決定モジュールは、前記センサ付きロボットに次に実行させるべき行動を、
前記行動ルールとして事前に学習されたニューラルネッ
トワークの当該学習結果に基づいて決定する、ことを特徴とする請求項４に記載のロボット制御装置。
【請求項７】センサから得られるセンサ信号に基づいて
一連の作業を実行するセンサ付きロボットに実行させる
べき種々の行動を教示するロボット教示装置であって、前記センサ信号から前記作業の環境に係る特徴を記述し
た特徴ベクトルを生成するセンシングモジュールと、前記センサ付きロボットに許容されている前記行動の中
から、当該センサ付きロボットに次に行わせるべき行動
を教示者に選択させる行動教示モジュールと、前記センシングモジュールで生成された前記特徴ベクト
ルと、前記行動教示モジュールで選択された前記行動と
の対応付けを図ったものを、前記行動の事例として所定
のデータベースに記録する記録モジュールと、を具備す
る、ことを特徴とするロボット教示装置。
【請求項８】センサから得られるセンサ信号に基づいて
一連の作業を実行するセンサ付きロボットであって、請求項１記載のロボット行動ルール生成装置、請求項４
記載のロボット制御装置、及び請求項７記載のロボット
教示装置を自身に内蔵し、当該ロボット教示装置における前記記録モジュールは、当該ロボット行動ルール生成装置における前記事例デー
タベースに対して前記事例を記録し、当該ロボット制御装置における前記行動決定モジュール
は、当該ロボット行動ルール生成装置における前記行動ルー
ルデータベースから前記行動ルールを取得する、ことを特徴とするセンサ付きロボット。
【請求項９】センサから得られるセンサ信号に基づいて
一連の作業を実行するセンサ付きロボットであって、請求項２記載のロボット行動ルール生成装置、請求項５
記載のロボット制御装置、及び請求項７記載のロボット
教示装置を自身に内蔵し、当該ロボット教示装置における前記記録モジュールは、当該ロボット行動ルール生成装置における前記事例デー
タベースに対して前記事例を記録し、当該ロボット制御装置における前記行動決定モジュール
は、当該ロボット行動ルール生成装置における前記行動ルー
ルデータベースから前記決定木を取得する、ことを特徴とするセンサ付きロボット。
【請求項１０】センサから得られるセンサ信号に基づい
て一連の作業を実行するセンサ付きロボットであって、請求項３記載のロボット行動ルール生成装置、請求項６
記載のロボット制御装置、及び請求項７記載のロボット
教示装置を自身に内蔵し、当該ロボット教示装置における前記記録モジュールは、当該ロボット行動ルール生成装置における前記事例デー
タベースに対して前記事例を記録し、当該ロボット制御装置における前記行動決定モジュール
は、当該ロボット行動ルール生成装置における前記行動ルー
ルデータベースから前記ニューラルネットワークの学習
結果を取得する、ことを特徴とするセンサ付きロボット。