JP2007125630A - Robot device and motion control method - Google Patents
Robot device and motion control method Download PDFInfo
- Publication number
- JP2007125630A JP2007125630A JP2005318851A JP2005318851A JP2007125630A JP 2007125630 A JP2007125630 A JP 2007125630A JP 2005318851 A JP2005318851 A JP 2005318851A JP 2005318851 A JP2005318851 A JP 2005318851A JP 2007125630 A JP2007125630 A JP 2007125630A
- Authority
- JP
- Japan
- Prior art keywords
- behavior
- action
- value
- schema
- bias
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
本発明は、外部刺激や自己の内部状態に応じて自律的に行動可能なロボット装置及びその行動制御方法に関する。 The present invention relates to a robot apparatus that can act autonomously in response to an external stimulus or its internal state, and a behavior control method thereof.
電気的又は磁気的な作用を用いて人間(生物)の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、1960年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット(Industrial Robot)であった。 A mechanical device that performs an action similar to that of a human (living body) using an electrical or magnetic action is called a “robot”. Robots have begun to spread in Japan since the late 1960s, but many of them are industrial robots such as manipulators and transfer robots for the purpose of automating and unmanned production work in factories. Met.
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように4足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、或いは、2足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット(Humanoid Robot)等のロボット装置は、既に実用化されつつある。 Recently, practical robots that support life as a human partner, that is, support human activities in various situations in daily life such as the living environment, have been developed. Unlike industrial robots, such practical robots have the ability to learn how to adapt themselves to humans with different personalities or to various environments in various aspects of the human living environment. For example, it was designed based on the body mechanism and motion of a “pet-type” robot that imitates the body mechanism and movement of a quadruped animal such as a dog or cat, or a human who walks upright on two legs. Robotic devices such as “humanoid” or “humanoid” robots are already in practical use.
これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと称される場合もある。また、そのようなロボット装置には、外部刺激や自己の内部状態に応じて自律的に行動可能なものがある。 Since these robot devices can perform various operations with an emphasis on entertainment performance as compared with industrial robots, they may be referred to as entertainment robots. In addition, there are robots that can act autonomously according to external stimuli or their internal state.
例えば、特許文献1に記載されたロボット装置は、視覚や聴覚などのセンサ入力を外部刺激の情報とすると共に、本能や感情などの内部状態モデルから得られる情報を内部状態の情報とし、これらの情報に応じて自律的に行動選択を行っている。
For example, the robot apparatus described in
この特許文献1のように、ロボット装置の内部にある価値基準によって内外の状況判断を行い、自律的に行動選択を行うと、その行動形態は創発的なものとなり、より複雑な行動を発現することが可能となる。その反面、状況判断基準がロボット装置内部で閉じているため、ロボット装置がどのような計画に基づいて一連の行動を発現しているのかが、第三者的な立場にあるユーザからは分かりづらくなる場合がある。
As in this
そこで、特許文献2には、各要素行動が記述された行動記述モジュール(スキーマ)毎に実行優先度を表す行動価値を外部刺激及び/又は内部状態に基づいて計算し、その行動価値の大きさに基づいて一又は複数の行動記述モジュールを選択して行動を発現するようなロボット装置において、一連の行動記述モジュールの行動価値を所定の順序に従って強制的に引き上げ、一連の行動を発現させる技術が提案されている。この特許文献2記載の技術によれば、ロボット装置がある計画に基づいて、すなわちある意図に基づいて行動しているように見せることができる。
Therefore,
ところで、認知科学の分野ではContention Schedulingという用語が知られている(非特許文献1を参照)。これは、1つ1つの行動を計画しながら一連の行動を実行していたものが、何度も繰り返すうちに計画することなく一連の行動を実行できるようになることを表す。例えば、新入社員が会社への行き方を計画し、どの駅で乗り換え、どこで切符を購入する、といった一連の行動を毎日実行しているうちに、計画を立てなくても会社に行けるようになることも、このContention Schedulingの一例である。 By the way, the term Contention Scheduling is known in the field of cognitive science (see Non-Patent Document 1). This means that a series of actions executed while planning each action can be executed without planning over and over again. For example, new employees plan to go to the company, perform a series of actions every day, such as where to change trains and where to buy tickets, so that they can go to the company without planning. Is also an example of this Contention Scheduling.
上述した自律型のロボット装置においても、ある計画に基づいた一連の行動を繰り返し発現するうちに、計画することなくその一連の行動を発現できるようになることは、計画の計算負荷を軽減する上でも意義のあることである。 Even in the above-described autonomous robot apparatus, while a series of actions based on a certain plan are repeatedly expressed, the series of actions can be expressed without planning, thereby reducing the calculation load of the plan. But it is meaningful.
しかしながら、上述した特許文献2を含め、繰り返し発現した一連の行動をルーチンワークとして獲得し、計画せずに実行可能とする技術は未だ提案されていないのが現状であった。
However, the present situation has not yet been proposed, including the above-described
本発明は、このような従来の実情に鑑みて提案されたものであり、繰り返し行った一連の行動をルーチンワークとして獲得し、計画せずに実行可能とするロボット装置及びその行動制御方法を提供することを目的とする。 The present invention has been proposed in view of such a conventional situation, and provides a robot apparatus that acquires a series of repeated actions as a routine work and that can be executed without planning, and an action control method thereof. The purpose is to do.
上述した目的を達成するために、本発明に係るロボット装置は、外部刺激及び/又は内部状態に応じて自律的に行動可能なロボット装置において、それぞれ所定の要素行動が記述され、外部刺激及び/又は内部状態に応じて自身の要素行動の実行優先度を表す行動価値を算出する複数の行動記述モジュールと、各行動記述モジュールの実行優先度の大きさに基づいて一又は複数の行動記述モジュールを選択し、選択した行動記述モジュールに記述された要素行動を発現させる行動選択手段とを備え、上記各行動記述モジュールは、自身の要素行動と特定の要素行動との組み合わせが学習されたものである場合、当該特定の要素行動が発現されると、自身の行動価値に第1のバイアス値を加えることを特徴とする。 In order to achieve the above-described object, the robot apparatus according to the present invention is a robot apparatus capable of acting autonomously in response to an external stimulus and / or an internal state. Or, a plurality of action description modules that calculate an action value representing the execution priority of their own element action according to the internal state, and one or more action description modules based on the magnitude of the execution priority of each action description module A behavior selecting means for selecting and expressing the element behavior described in the selected behavior description module, each behavior description module having learned a combination of its own element behavior and a specific element behavior. In this case, when the specific element behavior is expressed, the first bias value is added to the own behavior value.
また、上述した目的を達成するために、本発明に係るロボット装置の行動制御方法は、外部刺激及び/又は内部状態に応じて自律的に行動可能なロボット装置の行動制御方法において、それぞれ所定の要素行動が記述され、外部刺激及び/又は内部状態に応じて自身の要素行動の実行優先度を表す行動価値を算出する複数の行動記述モジュールから、実行優先度の大きさに基づいて一又は複数の行動記述モジュールを選択する行動選択工程と、上記行動選択工程にて選択された行動記述モジュールに記述された要素行動を発現する行動発現工程とを有し、上記各行動記述モジュールは、自身の要素行動と特定の要素行動との組み合わせが学習されたものである場合、当該特定の要素行動が発現されると、自身の行動価値に第1のバイアス値を加えることを特徴とする。 In order to achieve the above-described object, a behavior control method for a robot apparatus according to the present invention is a robot apparatus behavior control method capable of autonomously acting according to an external stimulus and / or an internal state. One or more based on the magnitude of execution priority from a plurality of action description modules in which element behavior is described, and an action value representing the execution priority of its own element action according to an external stimulus and / or internal state is calculated. A behavior selection step of selecting the behavior description module, and a behavior expression step of expressing the element behavior described in the behavior description module selected in the behavior selection step. When a combination of an elemental action and a specific elemental action has been learned, when the specific elemental action is expressed, the first bias value is set to its own action value. Characterized in that it obtain.
本発明に係るロボット装置及びその行動制御方法によれば、各行動記述モジュールは、自身の要素行動と特定の要素行動との組み合わせが学習されたものである場合、当該特定の要素行動が発現されると、自身の行動価値に第1のバイアス値を加えるため、当該特定の要素行動の次には自身の要素行動が発現されることとなる。したがって、同様のことを繰り返すことで、計画することなく一連の要素行動を発現させることができる。 According to the robot apparatus and the action control method thereof according to the present invention, each action description module expresses the specific element action when the combination of the element action and the specific element action is learned. Then, in order to add the first bias value to the own action value, the own element action is expressed next to the specific element action. Therefore, by repeating the same thing, a series of element behavior can be expressed without planning.
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、人間を模した外観形状とされ、外部刺激や自己の内部状態に応じて自律的に行動可能なロボット装置に適用したものである。以下では、先ずロボット装置の構成について説明し、次にロボット装置の行動制御システムについて説明し、最後にロボット装置の行動制御に関する具体的な実験例について説明する。 Hereinafter, specific embodiments to which the present invention is applied will be described in detail with reference to the drawings. In this embodiment, the present invention is applied to a robot apparatus having an external shape imitating a human being and capable of acting autonomously according to an external stimulus or its own internal state. In the following, first, the configuration of the robot apparatus will be described, then the action control system of the robot apparatus will be described, and finally, a specific experimental example regarding the action control of the robot apparatus will be described.
(1)ロボット装置の構成
先ず、本実施の形態におけるロボット装置の外観構成を図1に示す。図1に示すように、ロボット装置1は、体幹部ユニット2の所定の位置に頭部ユニット3が連結されると共に、左右2つの腕部ユニット4R/Lと、左右2つの脚部ユニット5R/Lとが連結されて構成されている。但し、R及びLの各々は、右及び左の各々を示す接尾辞である。
(1) Configuration of Robot Device First, the external configuration of the robot device according to the present embodiment is shown in FIG. As shown in FIG. 1, the
このロボット装置1の機能構成を図2に模式的に示す。図2に示すように、ロボット装置1は、全体の動作の統括的制御及びその他のデータ処理を行う制御ユニット20と、入出力部40と、駆動部50と、電源部60とで構成される。
A functional configuration of the
入出力部40は、入力部として、人間の「目」に相当し外部の状況を撮影するCCD(Charge Coupled Device)カメラ41、人間の「耳」に相当するマイクロフォン42や、頭部や背中等の部位に配設され、所定の押圧を受けるとこれを電気的に検出することでユーザの接触を感知するタッチセンサ44、前方に位置する物体までの距離を測定するための距離センサ、五感に相当するその他の各種センサを装備している。また、入出力部40は、出力部として、頭部ユニット3に備えられ、人間の「口」に相当するスピーカ43、人間の目の位置に設けられ、視覚認識状態等を表現するLED(Light Emission Diode)45等を装備している。これらの出力部は、音声やLED45の点滅など、腕部ユニット4R/Lや脚部ユニット5R/L等を用いたモーション以外の形式によっても、ロボット装置1からのユーザ・フィードバックを実現することができる。
The input /
例えば、頭部ユニット3の頭頂部の所定箇所に複数のタッチセンサ44を設け、各タッチセンサ44における接触検出を複合的に活用することで、例えばロボット装置1の頭部を「撫でる」、「叩く」、「軽く叩く」等のユーザからの働きかけを検出することができる。具体的には、例えばタッチセンサ44のうちの幾つかが所定時間をおいて順次接触したことを検出した場合、これを「撫でられた」と判別し、短時間のうちに接触を検出した場合、これを「叩かれた」と判別するなど場合分けすることができる。ロボット装置1は、この検出結果に応じて内部状態を変化させ、この内部状態の変化を上述の出力部等により表現することができる。
For example, by providing a plurality of touch sensors 44 at predetermined locations on the top of the
駆動部50は、制御ユニット20が指令する所定の運動パターンに従ってロボット装置1の機体動作を実現する機能ブロックであり、行動制御による制御対象である。駆動部50は、ロボット装置1の各関節における自由度を実現するための機能モジュールであり、それぞれの関節におけるロール軸、ピッチ軸、ヨー軸等の各軸毎に設けられた複数の駆動ユニット541〜54nで構成される。各駆動ユニット541〜54nは、所定軸回りの回転動作を行うモータ511〜51nと、モータ511〜51nの回転位置を検出するエンコーダ521〜52nと、エンコーダ521〜52nの出力に基づいてモータ511〜51nの回転位置や回転速度を適応的に制御するドライバ531〜53nとの組み合わせで構成される。
The
電源部60は、その字義通り、ロボット装置1内の各電気回路等に対して給電を行う機能モジュールである。本実施の形態におけるロボット装置1は、バッテリを用いた自律駆動式であり、電源部60は、充電バッテリ61と、充電バッテリ61の充放電状態を管理する充放電制御部62とで構成される。
The
充電バッテリ61は、例えば、複数本のリチウムイオン2次電池セルをカートリッジ式にパッケージ化した「バッテリ・パック」の形態で構成される。 The rechargeable battery 61 is configured, for example, in the form of a “battery pack” in which a plurality of lithium ion secondary battery cells are packaged in a cartridge type.
また、充放電制御部62は、充電バッテリ61の端子電圧や充電/放電電流量、充電バッテリ61の周囲温度等を測定することで充電バッテリ61の残存容量を把握し、充電の開始時期や終了時期等を決定する。充放電制御部62が決定する充電の開始及び終了時期は制御ユニット20に通知され、ロボット装置1が充電オペレーションを開始及び終了するためのトリガとなる。
Further, the charge /
制御ユニット20は、人間の「頭脳」に相当し、例えばロボット装置1の頭部ユニット3或いは体幹部ユニット2に搭載されている。
The
この制御ユニット20の内部構成を図3に示す。図3に示すように、制御ユニット20は、メイン・コントローラとしてのCPU(Central Processing Unit)21が、メモリ及びその他の各回路コンポーネントや周辺機器とバス接続された構成となっている。バス28は、データ・バス、アドレス・バス、コントロール・バス等を含む共通信号伝送路である。バス28上の各装置にはそれぞれに固有のアドレス(メモリ・アドレス又はI/Oアドレス)が割り当てられている。CPU21は、アドレスを指定することによってバス28上の特定の装置と通信することができる。
The internal configuration of the
RAM(Random Access Memory)22は、DRAM(Dynamic RAM)等の揮発性メモリで構成された書き込み可能なメモリであり、CPU21が実行するプログラム・コードをロードしたり、実行プログラムによる作業データの一時的に保存したりするために使用される。
A RAM (Random Access Memory) 22 is a writable memory composed of a volatile memory such as a DRAM (Dynamic RAM), and loads a program code executed by the
ROM(Read Only Memory)23は、プログラムやデータを恒久的に格納する読み出し専用メモリである。ROM23に格納されるプログラム・コードとしては、ロボット装置1の電源投入時に実行する自己診断テスト・プログラムや、ロボット装置1の動作を規定する動作制御プログラム等が挙げられる。なお、ロボット装置1の制御プログラムには、CCDカメラ41やマイクロフォン42等のセンサ入力を処理してシンボルとして認識する「センサ入力・認識処理プログラム」、短期記憶や長期記憶等の記憶動作(後述)を司りながらセンサ入力と所定の行動制御モデルとに基づいてロボット装置1の行動を制御する「行動制御プログラム」、行動制御モデルに従って各関節モータの駆動やスピーカ43の音声出力等を制御する「駆動制御プログラム」等が含まれる。
A ROM (Read Only Memory) 23 is a read only memory for permanently storing programs and data. Examples of the program code stored in the
不揮発性メモリ24は、例えばEEPROM(Electrically Erasable and Programmable ROM)のように電気的に消去再書き込みが可能なメモリ素子で構成され、逐次更新すべきデータを不揮発的に保持するために使用される。逐次更新すべきデータとしては、暗号鍵やその他のセキュリティ情報、出荷後にインストールすべき装置制御プログラム等が挙げられる。
The
インターフェース25は、制御ユニット20の外部の機器と相互接続し、データ交換を可能にするための装置である。インターフェース25は、例えば、CCDカメラ41、マイクロフォン42、又はスピーカ43等との間でデータ入出力を行う。また、インターフェース25は、駆動部50内の各ドライバ531〜53nとの間でデータやコマンドの入出力を行う。
The
また、インターフェース25は、RS(Recommended Standard)−232C等のシリアル・インターフェース、IEEE(Institute of Electrical and electronics Engineers)1284等のパラレル・インターフェース、USB(Universal Serial Bus)インターフェース、i−Link(IEEE1394)インターフェース、SCSI(Small Computer System Interface)インターフェース、PCカードやメモリカードを受容するメモリカード・インターフェース(カード・スロット)等のような、コンピュータの周辺機器接続用の汎用インターフェースを備え、ローカル接続された外部機器との間でプログラムやデータの移動を行うようにしてもよい。
The
また、インターフェース25の他の例として、赤外線通信(IrDA)インターフェースを備え、外部機器と無線通信を行うようにしてもよい。
As another example of the
さらに、制御ユニット20は、無線通信インターフェース26やネットワーク・インターフェース・カード(NIC)27等を含み、Bluetooth(登録商標)のような近接無線データ通信や、IEEE 802.11bのような無線ネットワーク、或いはインターネット等の広域ネットワークを経由して、外部の様々なホスト・コンピュータとデータ通信を行うことができる。
Further, the
このようなロボット装置1とホスト・コンピュータとの間におけるデータ通信により、遠隔のコンピュータ資源を用いて、ロボット装置1の複雑な動作制御を演算したり、遠隔操作したりすることも可能とされる。
By such data communication between the
(2)ロボット装置の行動制御システム
次に、上述したロボット装置1の行動制御システムについて詳細に説明する。ここで、上述したロボット装置1は、自己及び周囲の状況や、ユーザからの指示及び働きかけに応じて自律的に行動し得るようになされている。すなわち、ロボット装置1は、外部刺激及び内部状態に応じて自律的に行動を発現することができる。詳細は後述するが、ロボット装置1は、自身の各要素行動が記述された行動記述モジュール(スキーマ)を複数有している。各スキーマは、自身の要素行動の実行優先度を表す行動価値(Activation Level;AL)を外部刺激及び内部状態に基づいて単位時間毎に計算し、ロボット装置1は、その行動価値の大きさに基づいて一又は複数のスキーマを選択して行動を発現する。
(2) Behavior control system of robot apparatus Next, the behavior control system of the
ロボット装置1の行動制御システム10の機能構成を図4に模式的に示す。この行動制御システム10は、オブジェクト指向プログラミングを採り入れて実装することができる。この場合、各ソフトウェアは、データとそのデータに対する処理手続きとを一体化させた「オブジェクト」というモジュール単位で扱われる。また、各オブジェクトは、メッセージ通信と共有メモリを使ったオブジェクト間通信方法によりデータの受け渡しとInvokeとを行うことができる。
The functional configuration of the
行動制御システム10は、外部環境70を認識するために、視覚認識機能部81、聴覚認識機能部82、及び接触認識機能部83等からなる機能モジュールである外部刺激認識部80を備えている。
In order to recognize the
視覚認識機能部81は、例えばCCDカメラ41のような画像入力装置を介して入力された撮影画像を基に、顔認識や色認識等の画像認識処理や特徴抽出を行う。
The visual
また、聴覚認識機能部82は、マイクロフォン42等の音声入力装置を介して入力される音声データを音声認識して、特徴抽出を行ったり、単語セット(テキスト)を認識したりする。
The auditory
さらに、接触認識機能部83は、例えば機体の頭部ユニット3等に内蔵されたタッチセンサ44によるセンサ信号を認識して、「撫でられた」とか「叩かれた」という外部刺激を認識する。
Further, the contact
内部状態管理部91は、本能や感情といった数種類の情動を数式モデル化して管理する感情・本能モデルを有しており、上述の視覚認識機能部81、聴覚認識機能部82、及び接触認識機能部83によって認識された外部刺激に応じてロボット装置1の本能や感情といった内部状態を管理する。この感情・本能モデルは、それぞれ認識結果と行動履歴とを入力に持ち、それぞれ感情値と本能値とを管理している。行動モデルは、これらの感情値や本能値を参照することができる。
The internal
また、行動制御システム10は、外部刺激の認識結果や内部状態の変化に応じて行動制御を行うために、時間経過に従って失われる短期的な記憶を行う短期記憶部92と、情報を比較的長期間保持するための長期記憶部93とを備えている。短期記憶及び長期記憶という記憶メカニズムの分類は神経心理学に依拠する。
In addition, the
短期記憶部92は、上述の視覚認識機能部81、聴覚認識機能部82、及び接触認識機能部83によって外部環境から認識されたターゲットやイベントを短期間保持する機能モジュールである。例えば、図2に示すCCDカメラ41からの入力画像を約15秒程度の短い期間だけ記憶する。
The short-
長期記憶部93は、物の名前など学習により得られた情報を長期間保持するために使用される。長期記憶部93は、例えばあるスキーマにおいて外部刺激から内部状態の変化を連想記憶することができる。
The long-
また、ロボット装置1の行動制御は、反射行動部103によって実現される「反射行動」と、状況依存行動階層102によって実現される「状況依存行動」と、熟考行動階層101によって実現される「熟考行動」とに大別される。
Further, the behavior control of the
反射行動部103は、上述の視覚認識機能部81、聴覚認識機能部82、及び接触認識機能部83によって認識された外部刺激に応じて反射的な機体動作を実現する機能モジュールである。反射行動とは、基本的に、センサ入力された外部情報の認識結果を直接受けて、これを分類して、出力行動を直接決定する行動のことである。例えば、人間の顔を追いかけたり、頷いたりといった振る舞いは反射行動として実装することが好ましい。
The
状況依存行動階層102は、上述の短期記憶部92及び長期記憶部93の記憶内容や、内部状態管理部91によって管理されるロボット装置1の内部状態を基に、ロボット装置1が現在置かれている状況に即応した行動を制御する。
The situation-
この状況依存行動階層102は、要素行動毎にステートマシンを用意しており、それ以前の行動や状況に依存して、センサ入力された外部情報の認識結果を分類して、行動を機体上で発現する。また、状況依存行動階層102は、内部状態をある範囲に保つためのホメオスタシス行動も実現し、内部状態が指定した範囲内を越えた場合には、その内部状態を当該範囲内に戻すための行動が出現し易くなるようにその行動を活性化させる(実際には、内部状態と外部環境の両方を考慮した形で行動が選択される)。状況依存行動は、反射行動に比し、反応時間が遅い。
This situation-
熟考行動階層101は、上述の短期記憶部92及び長期記憶部93の記憶内容に基づいて、ロボット装置1の比較的長期に亘る行動計画等を行う。熟考行動とは、与えられた状況或いは人間からの命令により、推論やそれを実現するための計画を立てて行われる行動のことである。例えば、ロボット装置1の現在位置と目標位置とから経路を探索することは熟考行動に相当する。このような推論や計画は、ロボット装置1がインタラクションを保つための反応時間よりも処理時間や計算負荷を要する(すなわち処理時間がかかる)可能性があるため、上述の反射行動部103や状況依存行動階層102がリアルタイムで反応を返しながら、熟考行動階層101は推論や計画を行う。
The
熟考行動階層101、状況依存行動階層102、及び反射行動部103は、ロボット装置1のハードウェア構成に非依存の上位のアプリケーション・プログラムとして記述することができる。これに対し、ハードウェア依存行動制御部104は、これら上位アプリケーションからの命令に応じて、関節アクチュエータの駆動等の機体のハードウェア(外部環境)を直接操作する。このような構成により、ロボット装置1は、制御プログラムに基づいて自己及び周囲の状況を判断し、ユーザからの指示及び働きかけに応じて自律的に行動できる。
The
以下、行動制御システム10についてさらに説明する。図5は、行動制御システム10のオブジェクト構成を示す模式図である。
Hereinafter, the
図5に示すように、視覚認識機能部81は、Face Detector111、Multi Color Tracker112、Face Identify113という3つのオブジェクトで構成される。Face Detector111は、画像フレーム中から顔領域を検出するオブジェクトであり、検出結果をFace Identify113に出力する。Multi Color Tracker112は、色認識を行うオブジェクトであり、認識結果をFace Identify113及びShort Term Memory92に出力する。また、Face Identify113は、検出された顔画像を手持ちの人物辞書で検索する等して人物の識別を行い、顔画像領域の位置、大きさ情報と共に人物のID情報をShort Term Memory92に出力する。
As shown in FIG. 5, the visual
聴覚認識機能部82は、Audio Recog114とSpeech Recog115という2つのオブジェクトで構成される。Audio Recog114は、マイクロフォン42等の音声入力装置からの音声データを受け取って、特徴抽出及び音声区間検出を行うオブジェクトであり、音声区間の音声データの特徴量及び音源方向をSpeech Recog115やShort Term Memory92に出力する。Speech Recog115は、Audio Recog114から受け取った音声特徴量と音声辞書及び構文辞書とを使って音声認識を行うオブジェクトであり、認識された単語セットをShort Term Memory92に出力する。
The auditory
触覚認識記憶部83は、タッチセンサ44からのセンサ入力を認識するTactile Sensor116というオブジェクトで構成され、認識結果はShort Term Memory92や内部状態を管理するオブジェクトであるInternal Status Manager91に出力する。
The tactile sensation
Internal Status Manager91は、内部状態管理部を構成するオブジェクトであり、本能や感情といった数種類の情動を数式モデル化して管理しており、上述の認識系の各オブジェクトによって認識された外部刺激に応じてロボット装置1の本能や感情といった内部状態を管理する。
The
Short Term Memory92は、短期記憶部を構成するオブジェクトであり、上述の認識系の各オブジェクトによって外部環境から認識されたターゲットやイベントを短期間保持(例えばCCDカメラ41からの入力画像を約15秒程度の短い期間だけ記憶)する機能モジュールであり、Short Term Memory92のクライアント(STMクライアント)であるNormalSBL(Situated Behavior Layer)102に対して外部刺激の通知(Notify)を定期的に行う。
The
Long Term Memory93は、長期記憶部を構成するオブジェクトであり、物の名前など学習により得られた情報を長期間保持するために使用される。Long Term Memory93は、例えばあるスキーマにおいて外部刺激から内部状態の変化を連想記憶することができる。
The
NormalSBL102は、状況依存行動階層を構成するオブジェクトである。NormalSBL102は、STMクライアントとなるオブジェクトであり、Short Term Memory92から定期的に外部刺激(ターゲットやイベント)に関する情報の通知を受け取ると、実行すべきスキーマを決定する(後述)。
ReflexiveSBL103は、反射行動部を構成するオブジェクトであり、上述した認識系の各オブジェクトによって認識された外部刺激に応じて反射的・直接的な機体動作を実行する。例えば、人間の顔を追いかける、頷く、障害物の検出により咄嗟に避けるといった振る舞いを行う。
The
NormalSBL102は、外部刺激や内部状態の変化等の状況に応じた動作を選択する。これに対し、ReflexiveSBL103は、外部刺激に応じて反射的な動作を選択する。これら2つのオブジェクトによる行動選択は独立して行われるため、互いに選択されたスキーマを機体上で実行する場合に、ロボット装置1のハードウェア・リソースが競合して実現不可能なこともある。Resource Manager121というオブジェクトは、NormalSBL102とReflexiveSBL103とによる行動選択時のハードウェアの競合を調停する。そして、調停結果に基づいて機体動作を実現する各オブジェクトに通知することにより機体が駆動する。
The
Sound Performer122、Motion Controller123、LED Controller124は、機体動作を実現するオブジェクトである。Sound Performer122は、音声出力を行うためのオブジェクトであり、Resource Manager121経由でNormalSBL102から与えられたテキスト・コマンドに応じて音声合成を行い、ロボット装置1の機体上のスピーカ43から音声出力を行う。また、Motion Controller123は、機体上の各関節アクチュエータの動作を行うためのオブジェクトであり、Resource Manager121経由でNormalSBL102から手や脚等を動かすコマンドを受けたことに応答して、該当する関節角を計算する。また、LED Controller124は、LED44の点滅動作を行うためのオブジェクトであり、Resource Manager121経由でNormalSBL102からコマンドを受けたことに応答してLED44の点滅駆動を行う。
The
以上、行動制御システム10の機能構成及びオブジェクト構成について説明したが、以下では、先ず現在置かれている状況に即応した行動を行う状況依存行動について説明し、次にある計画に基づいた行動を行う熟考行動と、熟考行動により繰り返し発現した一連の行動をルーチンワークとして獲得する方法とについて説明する。
The functional configuration and the object configuration of the
(2−1)状況依存行動
状況依存行動は、上述のように状況依存行動階層102によって制御される。状況依存行動階層102による状況依存行動制御の形態を図6に模式的に示す。
(2-1) Situation Dependent Behavior Situation dependent behavior is controlled by the situation
視覚認識機能部81、聴覚認識機能部82、及び接触認識機能部83からなる外部刺激認識部80における外部環境70の認識結果(センサ情報)131は、外部刺激132として状況依存行動階層(NormalSBL)102に与えられる。また、外部刺激認識部80による外部環境70の認識結果に応じた内部状態の変化133も状況依存行動階層102に与えられる。そして、状況依存行動階層102では、外部刺激132や内部状態の変化133に応じて状況を判断して、行動選択を実現することができる。状況依存行動階層102では、外部刺激132や内部状態の変化133によって、各要素行動が記述されたスキーマの行動価値を算出し、行動価値の大きさに基づいて選択されたスキーマの要素行動を実行する。行動価値の算出には、例えばライブラリを利用することにより、全てのスキーマについて統一的な計算処理を行うことができる。
The recognition result (sensor information) 131 of the
(2−1−1)スキーマ
図7には、状況依存行動階層102が複数のスキーマ(要素行動)141によって構成されている様子を模式的に示している。状況依存行動階層102は、要素行動として行動記述モジュールを有し、行動記述モジュール毎にステートマシンを用意しており、それ以前の行動(動作)や状況に依存して、センサ入力された外部情報の認識結果を分類し、動作を機体上で発現する。要素行動となる行動記述モジュールは、外部刺激や内部状態に応じた状況判断を行うMonitor機能と、行動実行に伴う状態遷移(ステートマシン)を実現するAction機能とを備えたスキーマとして記述される。
(2-1-1) Schema FIG. 7 schematically shows that the situation-
状況依存行動階層102(より厳密には、状況依存行動階層102のうち、通常の状況依存行動を制御する階層)は、複数のスキーマ141が階層的に連結されたツリー構造として構成され、外部刺激や内部状態の変化に応じてより最適なスキーマ141を統合的に判断して行動制御を行うようになっている。このツリー142は、例えば動物行動学的(Ethological)な状況依存行動を数式化した行動モデルや、感情表現を実行するためのサブツリー等、複数のサブツリー(又は枝)を含んでいる。
The situation-dependent action hierarchy 102 (more strictly speaking, a hierarchy that controls a normal situation-dependent action among the situation-dependent action hierarchy 102) is configured as a tree structure in which a plurality of
状況依存行動階層102におけるスキーマのツリー構造の一例を図8に模式的に示す。図8に示すように、状況依存行動階層102は、短期記憶部92から外部刺激の通知(Notify)を受けるルートスキーマ1511、1521、1531を先頭に、抽象的な行動カテゴリから具体的な行動カテゴリに向かうように、各階層毎にスキーマが配設されている。例えば、ルートスキーマの直近下位の階層には、「探索する(Investigate)」、「食べる(Ingestive)」、「遊ぶ(Play)」というスキーマ1512、1522、1532が配設されている。そして、スキーマ1512「探索する(Investigate)」の下位には、「InvestigativeLocomotion」、「HeadinAirSniffing」、「InvestigativeSniffing」等の、より具体的な探索行動を記述した複数のスキーマ1513が配設されている。同様に、スキーマ1522「食べる(Ingestive)」の下位には、「Eat」、「Drink」等の、より具体的な飲食行動を記述した複数のスキーマ1523が配設され、スキーマ1532「遊ぶ(Play)」の下位には、「PlayBowing」、「PlayGreeting」、「PlayPawing」等の、より具体的な遊ぶ行動を記述した複数のスキーマ1533が配設されている。
An example of a schema tree structure in the situation-
図示の通り、各スキーマは外部刺激132と内部状態(の変化)133を入力としている。また、各スキーマは、少なくともMonitor関数とAction関数とを備えている。
As shown, each schema takes an
Monitor関数とは、外部刺激と内部状態とに応じて当該スキーマの行動価値を算出する関数であり、各スキーマは、このような行動価値算出手段としてのMonitor機能を有する。図8に示すようなツリー構造を構成する場合、上位(親)のスキーマは外部刺激及び内部状態を引数として下位(子供)のスキーマのMonitor関数をコールすることができ、子スキーマは行動価値を返値とする。また、スキーマは自分の行動価値を算出するために、さらに下位のスキーマのMonitor関数をコールすることができる。そして、最上位のルートスキーマには各サブツリーからの行動価値が返されるので、外部刺激及び内部状態の変化に応じた最適なスキーマ、すなわち行動を統合的に判断することができる。この際、ルートスキーマは、行動価値が最も高いスキーマを選択してもよく、行動価値が所定の閾値を超えた2以上のスキーマを選択して並列的に実行させるようにしてもよい。但し、並列実行させる場合には各スキーマ同士でハードウェア・リソースの競合がないことを前提とする。 The Monitor function is a function for calculating the behavior value of the schema in accordance with the external stimulus and the internal state, and each schema has a Monitor function as such behavior value calculation means. When the tree structure as shown in FIG. 8 is configured, the upper (parent) schema can call the Monitor function of the lower (child) schema with the external stimulus and the internal state as arguments, and the child schema has an action value. Return value. In addition, the schema can call the Monitor function of a lower-level schema in order to calculate its own action value. Since the action value from each sub-tree is returned to the topmost root schema, the optimum schema corresponding to the external stimulus and the change in the internal state, that is, the action can be determined in an integrated manner. At this time, a schema having the highest action value may be selected as the root schema, or two or more schemas having action values exceeding a predetermined threshold value may be selected and executed in parallel. However, when executing in parallel, it is assumed that there is no competition of hardware resources between schemas.
一方、Action関数は、スキーマ自身が持つ行動を記述したステートマシンを備えている。図8に示すようなツリー構造を構成する場合、親スキーマは、Action関数をコールして、子スキーマの実行を開始したり中断させたりすることができる。但し、ActionのステートマシンはReadyにならないと初期化されない。言い換えれば、中断しても状態はリセットされず、スキーマが実行中の作業データを保存することから、中断再実行が可能である。 On the other hand, the Action function includes a state machine that describes the behavior of the schema itself. When the tree structure shown in FIG. 8 is configured, the parent schema can call the Action function to start or interrupt the execution of the child schema. However, the action state machine is not initialized unless it becomes Ready. In other words, even if it is interrupted, the state is not reset, and the work data being executed by the schema is saved, so that it can be interrupted and reexecuted.
(2−1−2)行動価値の算出
上述したように、スキーマ毎に算出される行動価値とは、その要素行動をロボット装置1がどの程度実行したいか(実行優先度)を表すものであり、ロボット装置1は、この行動価値に基づいて一又は複数の要素行動を選択することにより、行動を発現する。
(2-1-2) Calculation of Action Value As described above, the action value calculated for each schema represents how much the
この際、各スキーマは、自身に対応付けられた外部刺激及び内部状態に基づいて行動価値を算出するが、この行動価値は、
(a)モチベーション値(Motivation value;Mot)
(b)リリーシング値(Releasing value;Rel)
(c)行動価値バイアス(Self Excitation value;SE)
(d)デフォルト行動価値(Rest Level;RL)
(e)ランダムノイズ(Random noise;Noise)
の各要素の重み付け和によって算出される。
At this time, each schema calculates an action value based on an external stimulus and an internal state associated with the schema.
(A) Motivation value (Mot)
(B) Releasing value (Rel)
(C) Behavior value bias (Self Excitation value; SE)
(D) Default action value (Rest Level; RL)
(E) Random noise (Noise)
It is calculated by the weighted sum of each element.
以下では、ある「種類」、「大きさ」の対象物が存在するとき、スキーマ「食べる(Ingestive)」の行動価値を算出する場合を例として、上記(a)〜(e)の各要素について説明すると共に、(f)最終的な行動価値、についても説明する。 In the following, when there is an object of a certain “type” and “size”, the case where the behavior value of the schema “Ingestive” is calculated is taken as an example for each of the elements (a) to (e) above. Along with the explanation, (f) the final action value will also be explained.
(a)モチベーション値
モチベーション値Motは、各スキーマの要素行動に対する欲求を示す欲求値Ins[i]に基づいて算出され、この欲求値Ins[i]は、各スキーマに対応付けられた内部状態値Int[i]に基づいて算出される。例えば、スキーマ「食べる(Ingestive)」には、内部状態値Int[NOURISHMENT(栄養状態)]が対応付けられており、この内部状態値Int[NOURISHMENT]から欲求値Ins[NOURISHMENT(食欲)]が算出される。
(A) Motivation value The motivation value Mot is calculated based on a desire value Ins [i] indicating a desire for element behavior of each schema, and the desire value Ins [i] is an internal state value associated with each schema. Calculated based on Int [i]. For example, an internal state value Int [NOURISHMENT (nutrition state)] is associated with the schema “Ingestive”, and a desire value Ins [NOURISHMENT] is calculated from the internal state value Int [NOURISHMENT]. Is done.
欲求値Ins[i]の算出には、内部状態値Int[i]と欲求値Ins[i]との関係を表す関数を用いることができる。具体的には、図9に示すような関数が挙げられる。図9では、内部状態値Int[NOURISHMENT]の大きさを0乃至100とし、そのときの欲求値Ins[NOURISHMENT]の大きさが−1乃至1となるような関数を示している。例えば内部状態値が8割満たされているときに欲求値が0となるような内部状態値−欲求値曲線L1を設定することで、ロボット装置1は、常に内部状態値が8割の状態を維持するように行動を選択するようになる。これにより、例えば、空腹であれば食欲が増大し、腹八分目以上では食欲がなくなるという状態を反映した行動を発現させることができる。
In calculating the desire value Ins [i], a function representing the relationship between the internal state value Int [i] and the desire value Ins [i] can be used. Specifically, there is a function as shown in FIG. FIG. 9 shows a function in which the magnitude of the internal state value Int [NOURISHMENT] is 0 to 100 and the desired value Ins [NOURISHMENT] at that time is −1 to 1. For example, by setting an internal state value-desired value curve L1 such that the desire value becomes 0 when the internal state value is 80% satisfied, the
なお、上述した具体例では、内部状態値が0乃至100の範囲において欲求値が−1乃至1の範囲で変化するものとしたが、内部状態値が0乃至100の範囲において欲求値が1乃至0に変化するようにしてもよい。また、内部状態毎に異なる内部状態値−欲求値関数を用意してもよい。 In the specific example described above, the desire value is changed in the range of −1 to 1 when the internal state value is in the range of 0 to 100. However, the desire value is 1 to 1 in the range of the internal state value of 0 to 100. It may be changed to 0. Further, a different internal state value-desired value function may be prepared for each internal state.
モチベーション値Motは、以上のようにして求められた欲求値Ins[i]に基づいて、以下の式(1)のように求められる。ここで、WMot[i]は重み係数である。 The motivation value Mot is obtained by the following equation (1) based on the desire value Ins [i] obtained as described above. Here, W Mot [i] is a weighting coefficient.
(b)リリーシング値
リリーシング値Relは、要素行動を発現することによって現在の満足度Sat[i]がどの程度変化するかを表す予想満足度変化値dSat[i]と、変化後の予想満足度ESat[i]とから算出される。
(B) Release value Releasing value Rel is an expected satisfaction change value dSat [i] that indicates how much the current satisfaction level Sat [i] changes due to the expression of elemental behavior, and the expected value after the change. It is calculated from the satisfaction degree ESat [i].
ここで、ロボット装置1の内部状態値と満足度とは互いに関連しているため、予想満足度変化値dSat[i]は、要素行動を発現することによって現在の内部状態値Int[i]がどの程度変化するかを表す予想内部状態変化値dInt[i]に基づいて算出することができる。
Here, since the internal state value and the satisfaction degree of the
この予想内部状態変化値dInt[i]は、行動価値算出データベースの行動価値算出データを参照して求めることができる。行動価値算出データは、外部刺激と予想内部状態変化値dInt[i]との対応が記述されたものであり、この行動価値算出データベースを参照することで、入力された外部刺激に応じた予想内部状態変化値dInt[i]を取得することができる。 The expected internal state change value dInt [i] can be obtained by referring to the behavior value calculation data in the behavior value calculation database. The action value calculation data describes the correspondence between the external stimulus and the expected internal state change value dInt [i]. By referring to this action value calculation database, the expected internal value corresponding to the input external stimulus is described. The state change value dInt [i] can be acquired.
具体的に、行動価値算出データとしては、図10に示すものが挙げられる。図10に示すように、内部状態値Int[NOURISHMENT]は、要素行動である「食べる」を発現した結果、対象物の大きさ(OBJECT_SIZE)が大きいほど、また対象物の種類(OBJECT_ID)がOBJECT_ID=0に対応する対象物M1より、OBJECT_ID=1に対応する対象物M2が、また、OBJECT_ID=1に対応する対象物M2より、OBJECT_ID=2に対応する対象物M3の方が満たされる量が大きいであろうと予想されている。 Specifically, what is shown in FIG. 10 is mentioned as action value calculation data. As shown in FIG. 10, the internal state value Int [NOURISHMENT] expresses the element action “eat”. As a result, the larger the object size (OBJECT_SIZE) is, the more the object type (OBJECT_ID) is OBJECT_ID. The object M2 corresponding to OBJECT_ID = 1 is satisfied from the object M1 corresponding to = 0, and the object M3 corresponding to OBJECT_ID = 2 is satisfied from the object M2 corresponding to OBJECT_ID = 1. It is expected to be big.
上述の予想満足度変化値dSat[i]及び予想満足度ESat[i]の算出には、内部状態値Int[i]と満足度Sat[i]との関係を表す関数を用いることができる。具体的には、図11に示すような関数が挙げられる。図11では、内部状態値Int[NOURISHMENT]の大きさを0乃至100とし、内部状態値Int[NOURISHMENT]が0から80近傍までは満足度Sat[NOURISHMENT]が0から増加し、それ以降は減少して内部状態値Int[NOURISHMENT]が100で再び満足度Sat[NOURISHMENT]が0になるような曲線L2を示している。 In calculating the expected satisfaction change value dSat [i] and the expected satisfaction ESat [i], a function representing the relationship between the internal state value Int [i] and the satisfaction Sat [i] can be used. Specifically, there is a function as shown in FIG. In FIG. 11, the magnitude of the internal state value Int [NOURISHMENT] is 0 to 100, and the satisfaction level Sat [NOURISHMENT] increases from 0 until the internal state value Int [NOURISHMENT] ranges from 0 to 80, and thereafter decreases. Then, a curve L2 is shown such that the internal state value Int [NOURISHMENT] is 100 and the satisfaction level Sat [NOURISHMENT] is 0 again.
リリーシング値Relは、以上のようにして求められた予想満足度変化値dSat[i]及び予想満足度ESat[i]に基づいて、以下の式(2)のように求められる。ここで、WRel[i]、WdSatは重み係数である。 The releasing value Rel is obtained by the following equation (2) based on the expected satisfaction change value dSat [i] and the expected satisfaction ESat [i] obtained as described above. Here, W Rel [i] and W dSat are weighting factors.
(c)行動価値バイアス
行動価値バイアスSEは、行動価値にバイアスをかける、すなわち行動価値を底上げするための要素であり、以下の式(3)のように、ステータスバイアス(Status Self Excitation value;SSE)とルーチンバイアス(Routine Self Excitation value;RSE)との和として表される。
(C) Behavior Value Bias The behavior value bias SE is an element for biasing the behavior value, that is, for raising the behavior value. ) And routine bias (Routine Self Excitation value; RSE).
ステータスバイアスSSEは、あるスキーマが実行されているときに、そのスキーマの行動価値を底上げし、行動が容易に切り替わらないようにするものである。例えば、図12に示すように、実行中のスキーマAが時刻t1で終了したとき、その時刻ではスキーマBの行動価値が最も高いため、時刻t2から時刻t3まではスキーマBが実行されることになる。このスキーマBの実行中には、スキーマBの行動価値にステータスバイアスSSEが加えられる。これにより、スキーマBの要素行動が他のスキーマの要素行動によって妨げられるのを防止することができる。 Status bias SSE raises the behavioral value of a schema when it is being executed so that behaviors do not switch easily. For example, as shown in FIG. 12, when the executing schema A ends at time t1, the behavior value of schema B is the highest at that time, so that schema B is executed from time t2 to time t3. Become. During execution of this schema B, a status bias SSE is added to the action value of schema B. Thereby, it is possible to prevent the element behavior of the schema B from being hindered by the element behavior of another schema.
一方、ルーチンバイアスRSEは、後述のように一連の行動をルーチンワークとして獲得した後、自身の直前の要素行動(トリガスキーマ)が実行された場合に、自身の行動価値を底上げするものである。このルーチンバイアスRSEについての詳細は後述する。 On the other hand, the routine bias RSE raises its own action value when an element action (trigger schema) immediately before itself is executed after acquiring a series of actions as routine work as described later. Details of the routine bias RSE will be described later.
(d)デフォルト行動価値
デフォルト行動価値RLは、各スキーマについてのデフォルトの行動価値を表した要素である。この行動価値をスキーマ毎に異ならせることにより、各要素行動についての生まれつきの優先順位を表現することができる。また、ロボット装置毎にその優先順位を異ならせることにより、ロボット装置の個性を表現することができる。
(D) Default action value The default action value RL is an element representing the default action value for each schema. By making this action value different for each schema, it is possible to express the priority of each element action. Further, the individuality of the robot apparatus can be expressed by changing the priority order of each robot apparatus.
ここで、あるスキーマの実行中に、上述のモチベーション値Motやリリーシング値Relが急激に低下したとき、そのスキーマの行動価値はデフォルト行動価値RLまで低下するが、この際、行動価値を急激に低下させるのではなく、所定の減衰パラメータに従って徐々に減少させることが好ましい。例えば、図13に示すように、実行中のスキーマAについて、時刻t1にモチベーション値Motやリリーシング値Relが急激に低下したとき、所定の減衰パラメータに従って行動価値を徐々に減少させ、その行動価値がスキーマBの行動価値よりも低くなりスキーマBが実行されて初めて、デフォルト行動価値RLまで急激に低下させることが好ましい。 Here, when the motivation value Mot or the releasing value Rel described above suddenly decreases during the execution of a certain schema, the behavior value of that schema decreases to the default action value RL. Instead of decreasing, it is preferable to decrease gradually according to a predetermined attenuation parameter. For example, as shown in FIG. 13, when the motivation value Mot and the release value Rel rapidly decrease at time t1 for the schema A being executed, the action value is gradually reduced according to a predetermined attenuation parameter, and the action value However, it is preferable that the behavior value is rapidly decreased to the default behavior value RL only after the behavior value of the schema B is lowered and the schema B is executed.
このように、行動価値を徐々に減少させていくことによって、例えば次のような行動を実現することができる。ロボット装置1がボールを蹴る行動を実行していたときに、その行動を引き起こす内部状態である運動欲と、外部刺激であるボールが突然なくなったとする。このとき、上述の減衰メカニズムによって、ボールを蹴る行動の行動価値は徐々に減少するが、ロボット装置1は、他の行動の行動価値がボールを蹴る行動の行動価値よりも高くなるまで、ボールを捜し続けるなど、ボールを蹴る行動に関する一連の動作を行う。この間にボールが見つかれば、ボールを蹴る行動の行動価値は再び増加するため、その行動を続けることが可能になる。つまり、行動が突然切り替わるのではなく、行動を続けてみて、それでも駄目ならば諦める、といったことが実現可能になる。
In this way, by gradually decreasing the action value, for example, the following action can be realized. Assume that when the
(e)ランダムノイズ
ランダムノイズNoiseは、行動価値にランダムな値を付加するための要素である。この要素を導入することにより、行動価値にバリエーションを持たせることができる。例えば、図14に示すように、スキーマA、B、Cについての行動価値は、要素行動を実行しているときも実行していないときも常に変動している。
(E) Random noise Random noise Noise is an element for adding a random value to the action value. By introducing this element, it is possible to have variations in action value. For example, as shown in FIG. 14, the action values for the schemas A, B, and C always fluctuate both when the element action is executed and when it is not executed.
なお、ランダムノイズの変動幅は任意に設定でき、例えば行動価値の大きさに比例させることができる。 In addition, the fluctuation range of random noise can be set arbitrarily, for example, can be made proportional to the magnitude | size of action value.
(f)最終的な行動価値
上述したように、最終的な行動価値は、モチベーション値Mot、リリーシング値Rel、行動価値バイアスSE、デフォルト行動価値RL、ランダムノイズNoiseの各要素の重み付け和によって算出される。
(F) Final Action Value As described above, the final action value is calculated by the weighted sum of each element of motivation value Mot, releasing value Rel, action value bias SE, default action value RL, and random noise Noise. Is done.
最終的な行動価値を算出する前に、以下の式(4)に従ってモチベーション・リリーシング値MRが算出される。ここで、WMは重み係数である。 Before calculating the final action value, the motivation / releasing value MR is calculated according to the following equation (4). Here, W M is a weighting coefficient.
最終的な行動価値ALは、このモチベーション・リリーシング値MRを用いて、以下の式(5)のように算出することができる。ここで、WSEは重み係数である。 The final action value AL can be calculated using the motivation / releasing value MR as shown in the following equation (5). Here, W SE is a weighting factor.
各スキーマは、この行動価値ALに基づいて選択されるため、例えば同じ外部刺激が入力された場合であっても、そのときの内部状態の値によって異なる要素行動が選択され、出力される。 Since each schema is selected based on this action value AL, for example, even when the same external stimulus is input, different element actions are selected and output depending on the value of the internal state at that time.
(2−2)熟考行動とルーチンワークの獲得
熟考行動は、上述のように熟考行動階層101によって制御される。この熟考行動とは、与えられた状況或いは人間からの命令により、推論やそれを実現するための計画を立てて行われる行動のことである。
(2-2) Acquisition of contemplation action and routine work The contemplation action is controlled by the
例えば、ボールを蹴る行動を実行する場合、ロボット装置1は、ボールを見つけ、ボールに近付き、ボールを蹴るという各要素行動を順に実行するように計画を立て、この計画に従って各要素行動を順次実行する必要がある。しかしながら、状況依存行動階層102では、上述したように、外部刺激及び内部状態に基づいてスキーマ毎に行動価値を算出し、その行動価値に基づいて一又は複数のスキーマを選択するようにしているため、必ずしも計画通りの順序でスキーマが選択されるとは限らない。
For example, when executing the action of kicking the ball, the
そこで、熟考行動階層101は、このように特定の計画に従って所望の要素行動を実行させたい場合には、所望の一以上のスキーマに対してインテンショナルバイアス(Intentional Bias;IB)を与え、そのスキーマの行動価値を強制的に引き上げる。インテンショナルバイアスIBが与えられたスキーマは、以下の式(6)に示すように、自身で算出した行動価値ALとインテンショナルバイアスIBとの和を自身の行動価値ALTOTALとし、この行動価値ALTOTALを上位(親)のスキーマに対して返す。
Therefore, the
インテンショナルバイアスIBによって行動価値を引き上げる例を図15に示す。図15は、スキーマA〜Cの行動価値をこの順序に従って引き上げたものである。すなわち、時刻t1にスキーマAに対してインテンショナルバイアスIBを与えてスキーマAを実行させ、時刻t2にスキーマAが終了するまでインテンショナルバイアスIBを与え続ける。スキーマAが終了すると、次は時刻t3にスキーマBに対してインテンショナルバイアスIBを与えてスキーマBを実行させ、時刻t4にスキーマBが終了すると、次は時刻t5にスキーマCに対してインテンショナルバイアスIBを与えてスキーマCを実行させ、時刻t6にスキーマCが終了するまでインテンショナルバイアスIBを与え続ける。 FIG. 15 shows an example of raising the action value by the intentional bias IB. FIG. 15 shows the action values of the schemas A to C raised according to this order. In other words, the intentional bias IB is given to the schema A at time t1 to execute the schema A, and the intentional bias IB is continuously given until the schema A ends at time t2. When schema A is completed, next, an intentional bias IB is applied to schema B at time t3 to execute schema B. When schema B is completed at time t4, next, it is incremental to schema C at time t5. The schema C is executed with the bias IB applied, and the incremental bias IB is continuously applied until the schema C ends at time t6.
なお、熟考行動階層101は、所望のスキーマに対してインテンショナルバイアスIBを与え、そのスキーマの元の行動価値を単純に引き上げているだけであるため、他のスキーマの行動価値がインテンショナルバイアスIBの加算後の当該スキーマの行動価値よりも大きい場合には、インテンショナルバイアスIBが意味を持たないこともあり得る。
Note that the
ところで、同じ一連の行動を何度も繰り返し実行する場合、熟考行動階層101は、毎回その一連の行動の計画を立て、その計画に従って一連のスキーマに対してインテンショナルバイアスIBを与えることになる。しかしながら、計算負荷の軽減という観点からは、熟考行動階層101が毎回計画を立て、一連のスキーマに対してインテンショナルバイアスIBを与えるのではなく、状況依存行動階層102の各スキーマが算出する行動価値に基づいてスキーマを順に選択していった結果、その一連の行動が実行されることが好ましい。
By the way, when the same series of actions is repeatedly executed many times, the
そこで、本実施の形態では、上述したルーチンバイアスRSEを行動価値の算出に導入することにより、熟考行動階層101が計画を立てることなく、状況依存行動階層102のみで、繰り返し実行された一連の行動(ルーチンワーク)を実行可能としている。すなわち、上述したルーチンバイアスRSEは、インテンショナルバイアスIBの代わりとなるものである。各スキーマは、自身と特定のスキーマ(後述するトリガスキーマ)との組み合わせが学習されたものである場合、このトリガスキーマが実行されると、自身の行動価値にルーチンバイアスRSEを加える。この結果、トリガスキーマの次には自身が実行されることとなる。
Therefore, in the present embodiment, by introducing the above-described routine bias RSE into the calculation of the action value, the series of actions repeatedly executed only in the situation-
ルーチンワークを獲得する過程の概要を図16に示す。以下、この図16の各ステップについて説明する。 An overview of the process of acquiring routine work is shown in FIG. Hereinafter, each step of FIG. 16 will be described.
先ずステップS1では、熟考行動階層101により一連の行動を計画し、実行する。すなわち、上述のように計画を立て、その計画に従って一連のスキーマに対してインテンショナルバイアスIBを与えることにより、一連の行動を実行する。
First, in step S1, a series of actions are planned and executed by the
次にステップS2では、状況依存行動階層102がインテンショナルバイアスIBの与えられたスキーマを監視し、インテンションスキーマ履歴(Intentional Schema History;ISH)を作成する。このインテンションスキーマ履歴ISHは、インテンショナルバイアスIBの与えられたスキーマの順序と、そのときのインテンショナルバイアスIBの値とを含む。
Next, in step S2, the situation-
続いてステップS3では、インテンションスキーマ履歴ISHに基づいてルーチンワークを獲得する。具体的には、インテンションスキーマ履歴ISHから実行されているスキーマとその直前に実行されたスキーマとの2つ組を抜き出す。この直前に実行されたスキーマをトリガスキーマと呼ぶ。各スキーマは、自身のトリガスキーマと、自身に与えられたインテンショナルバイアスIBとからなる候補獲得ルーチンリスト(Candidate Captured Routine List;CCRL)を作成する。そして、この候補獲得ルーチンリストCCRL内のトリガスキーマを所定の条件に基づいてルーチンバイアスRSEを与えるための獲得ルーチンリスト(Captured Routine List;CRL)に移すことにより、獲得ルーチンリストCRLを作成する。 In step S3, a routine work is acquired based on the intention schema history ISH. Specifically, two sets of the schema executed from the intention schema history ISH and the schema executed immediately before are extracted. The schema executed immediately before this is called a trigger schema. Each schema creates a candidate captured routine list (CCRL) consisting of its own trigger schema and an intentional bias IB given to itself. Then, the acquisition routine list CRL is created by moving the trigger schema in the candidate acquisition routine list CCRL to an acquisition routine list (Captured Routine List; CRL) for giving a routine bias RSE based on a predetermined condition.
ここで、トリガスキーマを候補獲得ルーチンリストCCRLから獲得ルーチンリストCRLに移す条件としては、例えば、
(a)各スキーマとトリガスキーマとの組み合わせが所定回数以上発生したこと
(b)各スキーマとトリガスキーマとの組み合わせが所定回数以上発生し、且つ、その発生確率が所定値以上であること
の何れかとすることができる。
Here, as a condition for moving the trigger schema from the candidate acquisition routine list CCRL to the acquisition routine list CRL, for example,
(A) A combination of each schema and trigger schema has occurred a predetermined number of times (b) Any combination of each schema and trigger schema has occurred a predetermined number of times and the occurrence probability is a predetermined value or more It can be.
また、ルーチンバイアスRSEの加え方としては、例えば、
(c)トリガスキーマが実行されたときに、過去に与えられたインテンショナルバイアスIBの平均値IBaveを加える
(d)トリガスキーマが実行されたときに、過去に与えられたインテンショナルバイアスIBの平均値IBaveを、当該スキーマの要素行動とトリガスキーマの要素行動との組み合わせの発生確率でスケーリングした値(インテンショナルバイアスIBの期待値)を加える
(e)トリガスキーマが実行されたときに、過去に与えられたインテンショナルバイアスIBの平均値IBaveを、当該スキーマとトリガスキーマとの組み合わせの発生確率に従って確率論的に加える
の何れかとすることができる。
Moreover, as a method of adding the routine bias RSE, for example,
(C) When the trigger schema is executed, the average value IB ave of the previously given intentional bias IB is added. (D) When the trigger schema is executed, the incremental bias IB given in the past is added. (E) When the trigger schema is executed, the average value IB ave is added with a value (expected value of the intentional bias IB) scaled by the occurrence probability of the combination of the element behavior of the schema and the trigger schema. The mean value IB ave of the intentional bias IB given in the past can be either added probabilistically according to the occurrence probability of the combination of the schema and the trigger schema.
最後にステップS4では、一連の行動をルーチンワークとして実行する。すなわち、各スキーマは、自身のトリガスキーマが実行されると、自身の行動価値にルーチンバイアスRSEを加え、実行準備する。このようにルーチンバイアスRSEを加えることにより、当該スキーマの行動価値は他のスキーマよりも大きくなるため、トリガスキーマが終了すると、次はルーチンバイアスRSEを加えたスキーマが実行されることになる。 Finally, in step S4, a series of actions are executed as routine work. That is, each schema prepares for execution by adding a routine bias RSE to its own action value when its own trigger schema is executed. By adding the routine bias RSE in this way, the action value of the schema becomes larger than that of other schemas. Therefore, when the trigger schema ends, the schema to which the routine bias RSE is added is executed next.
なお、最初のスキーマにはトリガスキーマが存在しないが、この最初のスキーマに対してインテンショナルバイアスIBを一瞬だけ与えることにより、そのスキーマの行動価値を一瞬だけ引き上げればよい。一瞬だけ行動価値を引き上げることによりそのスキーマが選択され、実行されると、最初のスキーマの行動価値にはステータスバイアスSSEが加えられ、行動価値が引き上げられるため、その最初のスキーマは、他のスキーマによって妨げられることなく自身の要素行動を実行することができる。 The trigger schema does not exist in the first schema, but it is only necessary to raise the behavioral value of the schema for a moment by giving an intentional bias IB to the first schema for a moment. When the schema is selected and executed by raising the behavioral value for a moment, a status bias SSE is added to the behavioral value of the first schema and the behavioral value is raised, so that the first schema is another schema You can perform your own elemental actions without being interrupted by
ルーチンバイアスRSEにより行動価値を引き上げる例を図17に示す。図17は、スキーマA、B、Cの要素行動をこの順序でルーチンワークとして獲得したものである。すなわち、スキーマBのトリガスキーマはスキーマAであり、スキーマCのトリガスキーマはスキーマBである。図17において、時刻t1にスキーマAに対してインテンショナルバイアスIBを一瞬だけ与えてスキーマAを実行させると、スキーマAがトリガスキーマとなるスキーマBは、時刻t2に行動価値にルーチンバイアスRSEを加える。時刻t3にスキーマAが終了すると、その時点ではルーチンバイアスRSEの加えられたスキーマBの行動価値が最も大きいため、時刻t4にスキーマBが実行され、スキーマBの行動価値にステータスバイアスSSEが加えられる。同様に、時刻t4にスキーマBが実行されると、スキーマBがトリガスキーマとなるスキーマCは、時刻t5に行動価値にルーチンバイアスRSEを加える。時刻t6にスキーマBが終了すると、その時点ではルーチンバイアスRSEの加えられたスキーマCの行動価値が最も大きいため、時刻t7にスキーマCが実行され、時刻t8にスキーマCが終了するまで、スキーマCの行動価値にステータスバイアスSSEが加えられる。 FIG. 17 shows an example of raising the action value by the routine bias RSE. FIG. 17 shows the element actions of the schemas A, B, and C acquired in this order as routine work. That is, the trigger schema of schema B is schema A, and the trigger schema of schema C is schema B. In FIG. 17, when the intentional bias IB is given to the schema A for a moment and the schema A is executed at the time t1, the schema B, which is the trigger schema, adds the routine bias RSE to the action value at the time t2. . When the schema A ends at the time t3, the behavior value of the schema B to which the routine bias RSE is added is the largest at that time, so the schema B is executed at the time t4, and the status bias SSE is added to the behavior value of the schema B. . Similarly, when schema B is executed at time t4, schema C whose schema B is the trigger schema adds a routine bias RSE to the action value at time t5. When schema B ends at time t6, the behavior value of schema C to which the routine bias RSE has been added is the largest at that time, so schema C is executed at time t7, and until the end of schema C at time t8. A status bias SSE is added to the action value of.
なお、各スキーマは、トリガスキーマが実行されたときに自身の行動価値にルーチンバイアスRSEを加え、自身の行動価値を単純に引き上げているだけであるため、自身のデフォルト行動価値RLが低い場合には、ルーチンバイアスRSEを加えたとしても、他のスキーマの行動価値より低くなることもあり得る。 Each schema simply adds the routine bias RSE to its own action value when the trigger schema is executed, and simply raises its own action value, so when its own default action value RL is low Even if routine bias RSE is added, it can be lower than the behavioral value of other schemas.
ここで、熟考行動階層101は、状況依存行動階層102がルーチンワークを獲得したことを知らないため、同じ一連の行動を実行させたいときに、一連のスキーマに対してインテンショナルバイアスIBを与えてしまう虞がある。そこで、各スキーマは、自身の行動価値にルーチンバイアスRSEを加えた場合には、そのルーチンバイアスRSEを熟考行動階層101に通知するものとする。このルーチンバイアスRSEが通知されると、熟考行動階層101は、その一連のスキーマに対してインテンショナルバイアスIBを与えることを停止する。
Here, the
(3)行動制御に関する具体的な実験例
最後に、ロボット装置1の行動制御に関する具体的な実験例について説明する。この実験例では、状況依存行動階層に図18のようなスキーマのツリー構造が構成されているものとする。このツリー構造は、図18に示すように、ルートスキーマ「Root」の下位の階層に、「ベルを見つける(FindBell)」、「ベルを鳴らす(RingBell)」、「眠る(Sleep)」、「教室に行く(GoToClass)」、「サッカーをする(Soccer)」、「歌う(Sing)」というスキーマが配設されたものである。
(3) Specific Experimental Example Regarding Behavior Control Finally, a specific experimental example regarding behavior control of the
以下に示す第1乃至第4の実験では、「ベルを見つける(FindBell)」、「ベルを鳴らす(RingBell)」、「教室に行く(GoToClass)」、「歌う(Sing)」の各要素行動からなる一連の行動をルーチンワークとして獲得した例について説明する。 In the following first to fourth experiments, the element behaviors of “Find Bell”, “Ring Bell”, “Go to Class”, “Sing” An example of acquiring a series of actions as routine work will be described.
なお、この第1乃至第4の実験では、各スキーマは、自身とトリガスキーマとの組み合わせが所定の回数以上、且つ所定の確率以上発生した場合に、トリガスキーマを候補獲得ルーチンリストCCRLから獲得ルーチンリストCRLに移した。 In the first to fourth experiments, each schema has a routine for acquiring the trigger schema from the candidate acquisition routine list CCRL when the combination of itself and the trigger schema has occurred a predetermined number of times or more and a predetermined probability. Moved to list CRL.
(3−1)第1の実験
先ず、第1の実験について説明する。第1の実験で実行した計画及びその割合と、各スキーマが作成した獲得ルーチンリストCRLとを図19に示す。第1の実験では、「教室に行く(GoToClass)」、「ベルを見つける(FindBell)」、「ベルを鳴らす(RingBell)」、「歌う(Sing)」という計画のみを100%の割合で実行した。熟考行動階層101は、この計画に従って各スキーマに対してインテンショナルバイアスIBを与えた。
(3-1) First Experiment First, the first experiment will be described. FIG. 19 shows the plan executed in the first experiment and its ratio, and the acquisition routine list CRL created by each schema. In the first experiment, only “Go to Class”, “FindBell”, “RingBell”, and “Sing” plans were executed at a rate of 100%. . The
各スキーマの獲得ルーチンリストCRLには、トリガスキーマ、自身に与えられたインテンショナルバイアスIBの平均値IBave、トリガスキーマの発生割合が記述されている。例えば、スキーマ「ベルを見つける(FindBell)」の獲得ルーチンリストCRLでは、スキーマ「教室に行く(GoToClass)」がトリガスキーマとなっている。括弧内の“100”という数字は、スキーマ「ベルを見つける(FindBell)」に与えられたインテンショナルバイアスIBの平均値IBaveを示している。また、“20/20”という数字は、計画を実行した20回のうち、スキーマ「教室に行く(GoToClass)」がトリガスキーマであった回数が20回であることを示している。スキーマ「教室に行く(GoToClass)」は、常に最初に実行されるため、トリガスキーマは存在しない。 The acquisition routine list CRL for each schema describes the trigger schema, the average value IB ave of the intentional bias IB given to the schema, and the generation ratio of the trigger schema. For example, in the acquisition routine list CRL for the schema “FindBell”, the schema “Go to Class” is the trigger schema. The number “100” in parentheses indicates the average value IB ave of the intentional bias IB given to the schema “FindBell”. The number “20/20” indicates that the number of times that the schema “Go to Class” was the trigger schema among the 20 times that the plan was executed was 20 times. Since the schema “Go To Class” is always executed first, there is no trigger schema.
ここで、従来のように熟考行動階層101がインテンショナルバイアスIBを与えて計画を実行させる場合の行動価値の推移を図20(A)に示す。図20(A)に示すように、ロボット装置1は、スキーマ「眠る(Sleep)」を実行していたが、熟考行動階層101により中断される。熟考行動階層101は、一連のスキーマに対して順にインテンショナルバイアスIBを与えることにより、計画を実行する。行動価値の推移のグラフは、図15と同様の形状となっている。
Here, FIG. 20 (A) shows the transition of the action value when the
一方、第1の実験における行動価値の推移を図20(B)に示す。この第1の実験では、過去に与えられたインテンショナルバイアスIBの期待値をルーチンバイアスRSEとした。図20(B)に示すように、ロボット装置1は、スキーマ「眠る(Sleep)」を実行していたが、熟考行動階層101により中断される。熟考行動階層101は、スキーマ「教室に行く(GoToClass)」に対して一瞬だけインテンショナルバイアスIBを与えることにより、計画を開始する。スキーマ「教室に行く(GoToClass)」が実行されると、その次のスキーマ「ベルを見つける(FindBell)」の行動価値にルーチンバイアスRSEが加えられ、実行準備中となる。同様にして、一連の行動が実行される。行動価値の推移のグラフは、図17と同様の形状となっている。
On the other hand, the behavior value transition in the first experiment is shown in FIG. In this first experiment, the expected value of the intentional bias IB given in the past was used as the routine bias RSE. As illustrated in FIG. 20B, the
(3−2)第2の実験
次に、第2の実験について説明する。第2の実験で実行した計画及びその割合と、各スキーマが作成した獲得ルーチンリストCRLとを図21に示す。第2の実験では、「教室に行く(GoToClass)」、「ベルを見つける(FindBell)」、「ベルを鳴らす(RingBell)」、「歌う(Sing)」という計画を50%の割合で実行すると共に、「教室に行く(GoToClass)」、「歌う(Sing)」、「ベルを見つける(FindBell)」という計画を50%の割合で実行した。熟考行動階層101は、この計画に従って各スキーマに対してインテンショナルバイアスIBを与えた。
(3-2) Second Experiment Next, a second experiment will be described. FIG. 21 shows the plan executed in the second experiment and its ratio, and the acquisition routine list CRL created by each schema. In the second experiment, the plans of “going to the classroom (GoToClass)”, “finding the bell (FindBell)”, “ringing the bell (RingBell)” and “singing (Sing)” are executed at a rate of 50%. , “Go to Class”, “Sing” and “FindBell” were implemented at a 50% rate. The
この実験では2種類の計画を実行したため、スキーマ「ベルを見つける(FindBell)」及びスキーマ「歌う(Sing)」は、2種類のトリガスキーマを有している。一方、2種類の計画の何れにおいても、スキーマ「ベルを鳴らす(RingBell)」の直前にはスキーマ「ベルを見つける(FindBell)」が実行されるため、スキーマ「ベルを鳴らす(RingBell)」のトリガスキーマはスキーマ「ベルを見つける(FindBell)」のみである。 Since this experiment performed two types of plans, the schema “FindBell” and the schema “Sing” have two types of trigger schemas. On the other hand, in either of the two types of plans, the schema “FindBell” is executed immediately before the schema “RingBell”, so the trigger of the schema “RingBell” is triggered. The only schema is the schema “FindBell”.
第2の実験における行動価値の推移を図22に示す。この第2の実験では、過去に与えられたインテンショナルバイアスIBの期待値をルーチンバイアスRSEとした。図22(A)は、スキーマ「ベルを見つける(FindBell)」とスキーマ「歌う(Sing)」とのデフォルト行動価値RLが略々同じ場合の行動価値の推移を示すものであり、図22(B)は、スキーマ「ベルを見つける(FindBell)」のデフォルト行動価値RLがスキーマ「歌う(Sing)」のデフォルト行動価値RLよりも小さい場合の行動価値の推移を示すものである。 The transition of the action value in the second experiment is shown in FIG. In this second experiment, the expected value of the intentional bias IB given in the past was used as the routine bias RSE. FIG. 22A shows the transition of the behavior value when the default behavior value RL of the schema “FindBell” and the schema “Sing” is substantially the same, and FIG. ) Shows the transition of the behavior value when the default behavior value RL of the schema “FindBell” is smaller than the default behavior value RL of the schema “Sing”.
スキーマ「ベルを見つける(FindBell)」とスキーマ「歌う(Sing)」とのデフォルト行動価値RLが略々同じ場合、図22(A)に示すように、スキーマ「教室に行く(GoToClass)」が実行されると、スキーマ「ベルを見つける(FindBell)」及びスキーマ「歌う(Sing)」の行動価値にルーチンバイアスRSEが加えられ、実行準備中となる。但し、両者のデフォルト行動価値RLが略々同じであり、また、両者の発生割合が50%同士で等しく、両者に与えられるルーチンバイアスRSEも略々同じとなるため、両者の行動価値の大小はランダムノイズNoiseによって決定される。スキーマ「教室に行く(GoToClass)」の次に何れのスキーマが実行されるかは、スキーマ「教室に行く(GoToClass)」が終了したときの行動価値の大小による。図22(A)の場合、スキーマ「教室に行く(GoToClass)」が終了したときの行動価値は、スキーマ「歌う(Sing)」よりもスキーマ「ベルを見つける(FindBell)」の方が大きかったため、スキーマ「教室に行く(GoToClass)」の次にはスキーマ「ベルを見つける(FindBell)」が実行されている。その後、スキーマ「ベルを鳴らす(RingBell)」、スキーマ「歌う(Sing)」が順に実行され、計画を終了する。 When the default action values RL of the schema “FindBell” and the schema “Sing” are substantially the same, as shown in FIG. 22A, the schema “Go to Class” is executed. Then, the routine bias RSE is added to the action values of the schema “FindBell” and the schema “Sing”, and it is ready for execution. However, both default action values RL are substantially the same, both occurrence ratios are equal at 50%, and routine bias RSE given to both is also substantially the same. Random noise is determined by Noise. Which schema is executed next to the schema “Go to Class (GoToClass)” depends on the behavior value when the schema “Go to Class (GoToClass)” ends. In the case of FIG. 22 (A), the behavior value when the schema “Go To Class” ends is larger in the schema “FindBell” than in the schema “Sing”. Next to the schema “Go To Class” is the schema “FindBell”. Thereafter, the schema “RingBell” and the schema “Sing” are executed in order, and the plan ends.
一方、スキーマ「ベルを見つける(FindBell)」のデフォルト行動価値RLがスキーマ「歌う(Sing)」のデフォルト行動価値RLよりも小さい場合、図22(B)に示すように、両者に与えられるルーチンバイアスRSEは略々同じであるものの、両者のデフォルト行動価値RLが異なるため、スキーマ「ベルを見つける(FindBell」の行動価値よりもスキーマ「歌う(Sing)」の行動価値の方が大きくなり、スキーマ「教室に行く(GoToClass)」の次にはスキーマ「歌う(Sing)」が実行されている。その後、スキーマ「ベルを見つける(FindBell」、スキーマ「ベルを鳴らす(RingBell)」が順に実行され、計画を終了する。 On the other hand, when the default action value RL of the schema “FindBell” is smaller than the default action value RL of the schema “Sing”, as shown in FIG. Although the RSE is almost the same, but the default action value RL of the two is different, the action value of the schema “Sing” is larger than the action value of the schema “FindBell”, and the schema “ Next to “Go to Class”, the schema “Sing” is executed, then the schema “FindBell”, schema “RingBell” is executed in order, and the plan Exit.
(3−3)第3の実験
次に、第3の実験について説明する。第3の実験で実行した計画及びその割合と、各スキーマが作成した獲得ルーチンリストCRLとを図23に示す。第3の実験では、「教室に行く(GoToClass)」、「ベルを見つける(FindBell)」、「ベルを鳴らす(RingBell)」、「歌う(Sing)」という計画を75%の割合で実行すると共に、「教室に行く(GoToClass)」、「歌う(Sing)」、「ベルを見つける(FindBell)」という計画を25%の割合で実行した。熟考行動階層101は、この計画に従って各スキーマに対してインテンショナルバイアスIBを与えた。
(3-3) Third Experiment Next, a third experiment will be described. FIG. 23 shows the plan executed in the third experiment and its ratio, and the acquisition routine list CRL created by each schema. In the third experiment, the plan of “going to the classroom (GoToClass)”, “finding the bell (FindBell)”, “ringing the bell (RingBell)”, “singing (Sing)” is executed at a rate of 75%. , “Go to Class”, “Sing”, “FindBell” plans were executed at a rate of 25%. The
この実験でも2種類の計画を実行したため、スキーマ「ベルを見つける(FindBell)」及びスキーマ「歌う(Sing)」は、2種類のトリガスキーマを有している。一方、2種類の計画の何れにおいても、スキーマ「ベルを鳴らす(RingBell)」の直前にはスキーマ「ベルを見つける(FindBell)」が実行されるため、スキーマ「ベルを鳴らす(RingBell)」のトリガスキーマはスキーマ「ベルを見つける(FindBell)」のみである。 Since two types of plans were executed in this experiment, the schema “FindBell” and the schema “Sing” have two types of trigger schemas. On the other hand, in either of the two types of plans, the schema “FindBell” is executed immediately before the schema “RingBell”, so the trigger of the schema “RingBell” is triggered. The only schema is the schema “FindBell”.
第3の実験における行動価値の推移を図24に示す。この第3の実験では、過去に与えられたインテンショナルバイアスIBの期待値をルーチンバイアスRSEとした。図24(A)は、スキーマ「ベルを見つける(FindBell)」とスキーマ「歌う(Sing)」とのデフォルト行動価値RLが略々同じ場合の行動価値の推移を示すものであり、図24(B)は、スキーマ「ベルを見つける(FindBell)」のデフォルト行動価値RLがスキーマ「歌う(Sing)」のデフォルト行動価値RLよりも小さい場合の行動価値の推移を示すものである。 The transition of the action value in the third experiment is shown in FIG. In this third experiment, the expected value of the intentional bias IB given in the past was used as the routine bias RSE. FIG. 24A shows the transition of the behavior value when the default behavior value RL of the schema “FindBell” and the schema “Sing” is substantially the same, and FIG. ) Shows the transition of the behavior value when the default behavior value RL of the schema “FindBell” is smaller than the default behavior value RL of the schema “Sing”.
スキーマ「ベルを見つける(FindBell)」とスキーマ「歌う(Sing)」とのデフォルト行動価値RLが略々同じ場合、図24(A)に示すように、スキーマ「教室に行く(GoToClass)」が実行されると、スキーマ「ベルを見つける(FindBell)」及びスキーマ「歌う(Sing)」の行動価値にルーチンバイアスRSEが加えられ、実行準備中となる。この際、両者に与えられるルーチンバイアスRSEは、過去に与えられたインテンショナルバイアスIBの期待値である。すなわち、第3の実験では、スキーマ「教室に行く(GoToClass)」の次にスキーマ「ベルを見つける(FindBell)」が実行される割合が75%であり、スキーマ「歌う(Sing)」が実行される割合が25%であるため、両者に与えられるルーチンバイアスRSEもその割合を反映した値となる。この結果、スキーマ「歌う(Sing)」の行動価値よりもスキーマ「ベルを見つける(FindBell)」の行動価値の方が大きくなるため、スキーマ「教室に行く(GoToClass)」の次にはスキーマ「ベルを見つける(FindBell)」が実行されている。その後、スキーマ「ベルを鳴らす(RingBell)」、スキーマ「歌う(Sing)」が順に実行され、計画を終了する。 When the default action values RL of the schema “FindBell” and the schema “Sing” are substantially the same, as shown in FIG. 24A, the schema “Go to Class” is executed. Then, the routine bias RSE is added to the action values of the schema “FindBell” and the schema “Sing”, and it is ready for execution. At this time, the routine bias RSE given to both is an expected value of the intentional bias IB given in the past. That is, in the third experiment, the schema “FindBell” is executed after the schema “Go to Class (GoToClass)” is 75%, and the schema “Sing” is executed. Since the ratio is 25%, the routine bias RSE given to both is also a value reflecting the ratio. As a result, the behavior value of the schema “FindBell” is larger than the behavior value of the schema “Sing”. Therefore, the schema “Bell” goes to the schema “Go to Class”. "FindBell" is running. Thereafter, the schema “RingBell” and the schema “Sing” are executed in order, and the plan ends.
一方、スキーマ「ベルを見つける(FindBell)」のデフォルト行動価値RLがスキーマ「歌う(Sing)」のデフォルト行動価値RLよりも小さい場合、図24(B)に示すように、スキーマ「ベルを見つける(FindBell)」に与えられるルーチンバイアスRSEは、スキーマ「歌う(Sing)」に与えられるルーチンバイアスRSEよりも大きいものの、両者のデフォルト行動価値RLが異なるため、スキーマ「ベルを見つける(FindBell)」の行動価値よりもスキーマ「歌う(Sing)」の行動価値の方が大きくなり、スキーマ「教室に行く(GoToClass)」の次にはスキーマ「歌う(Sing)」が実行されている。その後、スキーマ「ベルを見つける(FindBell」、スキーマ「ベルを鳴らす(RingBell)」が順に実行され、計画を終了する。 On the other hand, when the default action value RL of the schema “FindBell” is smaller than the default action value RL of the schema “Sing”, as shown in FIG. The routine bias RSE given to FindBell) is larger than the routine bias RSE given to the schema Sing, but because the default action value RL of the two is different, the behavior of the schema FindFell The action value of the schema “Sing” is greater than the value, and the schema “Sing” is executed next to the schema “Go to Class”. Thereafter, the schema “Find Bell” (FindBell) and schema “Ring Bell” are executed in order, and the plan is finished.
(3−4)第4の実験
最後に、第4の実験について説明する。第4の実験で実行した計画及びその割合と、各スキーマが作成した獲得ルーチンリストCRLとは、上述の第3の実験と同じである。
(3-4) Fourth Experiment Finally, the fourth experiment will be described. The plan executed in the fourth experiment and its ratio and the acquisition routine list CRL created by each schema are the same as those in the third experiment described above.
第4の実験における行動価値の推移を図25に示す。この第4の実験では、ルーチンバイアスRSEを加えるスキーマを確率論に基づいて決定した。図25に示すように、スキーマ「教室に行く(GoToClass)」が実行されると、スキーマ「ベルを見つける(FindBell)」又はスキーマ「歌う(Sing)」の行動価値にルーチンバイアスRSEが加えられ、実行準備中となる。この際、何れのスキーマにルーチンバイアスRSEが加えられるかは、確率論に基づいて決定される。すなわち、第3の実験では、スキーマ「教室に行く(GoToClass)」の次にスキーマ「ベルを見つける(FindBell)」が実行される割合が75%であり、スキーマ「歌う(Sing)」が実行される割合が25%であるため、75%の確率でスキーマ「ベルを見つける(FindBell)」に対してルーチンバイアスRSEが加えられ、25%の確率でスキーマ「歌う(Sing)」に対してルーチンバイアスRSEが加えられる。なお、各スキーマの行動価値は単位時間毎に算出されるため、ルーチンバイアスRSEが加えられるスキーマも単位時間毎に決定される。図25の場合、スキーマ「教室に行く(GoToClass)」が終了したときの行動価値は、スキーマ「歌う(Sing)」よりもスキーマ「ベルを見つける(FindBell)」の方が大きかったため、スキーマ「教室に行く(GoToClass)」の次にはスキーマ「ベルを見つける(FindBell)」が実行されている。その後、スキーマ「ベルを鳴らす(RingBell)」、スキーマ「歌う(Sing)」が順に実行され、計画を終了する。 The transition of the action value in the fourth experiment is shown in FIG. In this fourth experiment, the schema for applying the routine bias RSE was determined based on probability theory. As shown in FIG. 25, when the schema “Go To Class” is executed, a routine bias RSE is added to the action value of the schema “FindBell” or schema “Sing”, Preparing for execution. At this time, to which schema the routine bias RSE is added is determined based on probability theory. That is, in the third experiment, the schema “FindBell” is executed after the schema “Go to Class (GoToClass)” is 75%, and the schema “Sing” is executed. The rate of 25% is 25%, so a routine bias RSE is added to the schema “FindBell” with a probability of 75%, and a routine bias to the schema “Sing” with a probability of 25%. RSE is added. Since the action value of each schema is calculated every unit time, the schema to which the routine bias RSE is added is also determined every unit time. In the case of FIG. 25, since the schema “FindBell” is larger than the schema “Sing”, the behavior value when the schema “Go to Class (GoToClass)” ends is larger than the schema “Classroom”. Next to “Go To Class”, the schema “FindBell” is executed. Thereafter, the schema “RingBell” and the schema “Sing” are executed in order, and the plan ends.
以上、本発明を実施するための最良の形態について説明したが、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。 Although the best mode for carrying out the present invention has been described above, the present invention is not limited to the above-described embodiment, and various modifications can be made without departing from the scope of the present invention. Of course.
1 ロボット装置、 10 行動制御システム、 20 制御ユニット、 40 入出力部、 50 駆動部、 80 外部刺激認識部、 91 内部状態管理部、 92 短期記憶部、 93 長期記憶部、 101 熟考行動階層、 102 状況依存行動階層
DESCRIPTION OF
Claims (9)
それぞれ所定の要素行動が記述され、外部刺激及び/又は内部状態に応じて自身の要素行動の実行優先度を表す行動価値を算出する複数の行動記述モジュールと、
各行動記述モジュールの実行優先度の大きさに基づいて一又は複数の行動記述モジュールを選択し、選択した行動記述モジュールに記述された要素行動を発現させる行動選択手段とを備え、
上記各行動記述モジュールは、自身の要素行動と特定の要素行動との組み合わせが学習されたものである場合、当該特定の要素行動が発現されると、自身の行動価値に第1のバイアス値を加える
ことを特徴とするロボット装置。 In a robot apparatus capable of acting autonomously in response to an external stimulus and / or an internal state,
A plurality of action description modules each describing a predetermined element action and calculating an action value representing an execution priority of the element action according to an external stimulus and / or an internal state;
Action selection means for selecting one or more action description modules based on the magnitude of execution priority of each action description module, and expressing the element actions described in the selected action description module;
When each of the above behavior description modules has learned a combination of its own element behavior and a specific element behavior, when the specific element behavior is expressed, the behavior description module sets a first bias value to its own action value. A robot device characterized by adding.
上記一連の行動記述モジュールに含まれる各行動記述モジュールは、自身の直前の要素行動の履歴を作成し、当該履歴に基づいて自身の要素行動と自身の直前の要素行動との組み合わせを学習する
ことを特徴とする請求項1記載のロボット装置。 A behavior control means for sequentially adding a second bias value to the behavior value of each behavior description module included in the series of behavior description modules based on a predetermined plan;
Each behavior description module included in the series of behavior description modules creates a history of the element behavior immediately before itself, and learns a combination of the element behavior of itself and the immediately preceding element behavior based on the history. The robot apparatus according to claim 1.
ことを特徴とする請求項2記載のロボット装置。 3. Each behavior description module included in the series of behavior description modules learns a combination of the element behavior and a specific element behavior when the combination has occurred a predetermined number of times or more. Robotic device.
ことを特徴とする請求項2記載のロボット装置。 Each behavior description module included in the series of behavior description modules has a combination of its own element behavior and a specific element behavior for a predetermined number of times, and the immediately preceding element behavior is the specific element behavior. The robot apparatus according to claim 2, wherein the combination is learned when the probability is greater than or equal to a predetermined value.
ことを特徴とする請求項2記載のロボット装置。 3. Each action description module included in the series of action description modules uses an average value of the second bias value added to its own action value as the first bias value. Robotic device.
ことを特徴とする請求項5記載のロボット装置。 Each behavior description module included in the series of behavior description modules has learned a combination of its own element behavior and a specific element behavior. A value obtained by scaling the average value of the second bias value added to the value with the probability that the element action immediately before the value is the specific element action is added to the action value as the first bias value. The robot apparatus according to claim 5.
ことを特徴とする請求項5記載のロボット装置。 Each behavior description module included in the series of behavior description modules has learned a combination of its own element behavior and a specific element behavior. The average value of the second bias value added to the value is set as the first bias value, and is added to the own action value according to the probability that the immediately preceding element action is the specific element action. The robot apparatus according to claim 5.
上記行動制御手段は、当該一連の行動記述モジュールに含まれる各行動記述モジュールの行動価値に上記第2のバイアス値を加えることを停止する
ことを特徴とする請求項2記載のロボット装置。 Each behavior description module included in the series of behavior description modules adds the first bias value to its own behavior value, and notifies the behavior control means of the first bias value,
The robot apparatus according to claim 2, wherein the behavior control means stops adding the second bias value to the behavior value of each behavior description module included in the series of behavior description modules.
それぞれ所定の要素行動が記述され、外部刺激及び/又は内部状態に応じて自身の要素行動の実行優先度を表す行動価値を算出する複数の行動記述モジュールから、実行優先度の大きさに基づいて一又は複数の行動記述モジュールを選択する行動選択工程と、
上記行動選択工程にて選択された行動記述モジュールに記述された要素行動を発現する行動発現工程とを有し、
上記各行動記述モジュールは、自身の要素行動と特定の要素行動との組み合わせが学習されたものである場合、当該特定の要素行動が発現されると、自身の行動価値に第1のバイアス値を加える
ことを特徴とするロボット装置の行動制御方法。 In a behavior control method of a robot apparatus capable of acting autonomously according to an external stimulus and / or an internal state,
Based on the magnitude of execution priority from a plurality of action description modules, each of which describes a predetermined element action and calculates an action value that represents the execution priority of its own element action according to an external stimulus and / or internal state An action selection step of selecting one or more action description modules;
A behavior expression step for expressing the element behavior described in the behavior description module selected in the behavior selection step,
When each of the above behavior description modules has learned a combination of its own element behavior and a specific element behavior, when the specific element behavior is expressed, the behavior description module sets a first bias value to its own action value. A behavior control method for a robot apparatus, characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005318851A JP2007125630A (en) | 2005-11-01 | 2005-11-01 | Robot device and motion control method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005318851A JP2007125630A (en) | 2005-11-01 | 2005-11-01 | Robot device and motion control method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007125630A true JP2007125630A (en) | 2007-05-24 |
Family
ID=38148722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005318851A Withdrawn JP2007125630A (en) | 2005-11-01 | 2005-11-01 | Robot device and motion control method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007125630A (en) |
-
2005
- 2005-11-01 JP JP2005318851A patent/JP2007125630A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100364731C (en) | Robot device, behavior control method thereof, and program | |
JP4661074B2 (en) | Information processing system, information processing method, and robot apparatus | |
US7515992B2 (en) | Robot apparatus and emotion representing method therefor | |
KR101137205B1 (en) | Robot behavior control system, behavior control method, and robot device | |
US7363108B2 (en) | Robot and control method for controlling robot expressions | |
JP2007125631A (en) | Robot device and motion control method | |
JP4244812B2 (en) | Action control system and action control method for robot apparatus | |
JP2006110707A (en) | Robot device | |
JP3558222B2 (en) | Robot behavior control system and behavior control method, and robot device | |
JP2004283958A (en) | Robot device, method of controlling its behavior and program thereof | |
JP4296736B2 (en) | Robot device | |
JP2007125629A (en) | Robot device and motion control method | |
JP2003111981A (en) | Robot device and its controlling method, information providing system and information providing method for robot and storing media | |
JP4449372B2 (en) | Robot apparatus and behavior control method thereof | |
JP4552465B2 (en) | Information processing apparatus, action control method for robot apparatus, robot apparatus, and computer program | |
JP2007125630A (en) | Robot device and motion control method | |
JP4147960B2 (en) | Robot apparatus and operation control method of robot apparatus | |
JP2004283957A (en) | Robot device, method of controlling the same, and program | |
JP2005321954A (en) | Robot device, information processing system, information processing method, and computer program | |
JP2005193330A (en) | Robot device and its emotional expression method | |
JP2004283960A (en) | Robot device, method of controlling behavior and program thereof | |
JP2004209599A (en) | Robot device, action learning method for robot device and action preparation method for robot device | |
JP2004291147A (en) | Robot's behavior control system | |
Lee et al. | Building adaptive emotion-based pet robots | |
JP4491951B2 (en) | Action expression device and toy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090106 |