JP2005238422A - ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法 - Google Patents

ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法 Download PDF

Info

Publication number
JP2005238422A
JP2005238422A JP2004054829A JP2004054829A JP2005238422A JP 2005238422 A JP2005238422 A JP 2005238422A JP 2004054829 A JP2004054829 A JP 2004054829A JP 2004054829 A JP2004054829 A JP 2004054829A JP 2005238422 A JP2005238422 A JP 2005238422A
Authority
JP
Japan
Prior art keywords
user
state
action
robot apparatus
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004054829A
Other languages
English (en)
Inventor
Fumihide Tanaka
文英 田中
Hiroaki Ogawa
浩明 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004054829A priority Critical patent/JP2005238422A/ja
Publication of JP2005238422A publication Critical patent/JP2005238422A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Manipulator (AREA)

Abstract

【課題】 ユーザとの相互作用を通じてユーザの情動遷移モデルをより正確に構築し、この情動遷移モデルを利用してユーザの情動を制御する。
【解決手段】 ロボット装置において、ユーザ音声認識部401及びユーザ画像認識部402は、それぞれユーザの音声信号及び画像信号に基づいてユーザの情動を検出する。情動推定部404は、これらの検出結果に基づいて、ユーザの現在の情動を予め所定数に離散化された複数の情動の何れかに分類する。長期記憶部405には、ユーザがある情動である場合にある行動を発現した後の情動と、その遷移によりユーザから与えられた報酬とに基づき、強化学習により構築されたユーザの情動遷移モデルが記憶されている。行動選択部406は、この情動遷移モデルを利用し、ユーザの現在の情動に応じて発現する行動を方策πに従って確率的に選択し、行動出力部407は、選択された行動を発現させる。
【選択図】 図4

Description

本発明は、ユーザとの相互作用を通じてユーザの状態遷移モデルを構築するロボット装置及びその状態遷移モデル構築方法、並びにこの状態遷移モデルを利用してユーザの状態を制御するロボット装置及びその行動制御方法に関する。
電気的又は磁気的な作用を用いて人間(生物)の動作に似た運動を行う機械装置を「ロボット」という。我が国においてロボットが普及し始めたのは、1960年代末からであるが、その多くは、工場における生産作業の自動化・無人化等を目的としたマニピュレータや搬送ロボット等の産業用ロボット(Industrial Robot)であった。
最近では、人間のパートナーとして生活を支援する、すなわち住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットの開発が進められている。このような実用ロボットは、産業用ロボットとは異なり、人間の生活環境の様々な局面において、個々に個性の相違した人間、又は様々な環境への適応方法を自ら学習する能力を備えている。例えば、犬、猫のように4足歩行の動物の身体メカニズムやその動作を模した「ペット型」ロボット、或いは、2足直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた「人間型」又は「人間形」ロボット(Humanoid Robot)等のロボット装置は、既に実用化されつつある。これらのロボット装置は、産業用ロボットと比較して、エンターテインメント性を重視した様々な動作を行うことができるため、エンターテインメントロボットと称される場合もある。
ところで、このようなエンターテインメントロボット等のロボット装置に必要な機能のうち、最も重要且つ基本的なものの1つとして、人間の情動を認識することが挙げられる(Picard R. (1997) Affective Computing, MIT Press)。
ここで、ロボット装置がユーザの情動に応じて行動を変化させることができれば、ロボット装置の側からのユーザとの相互作用の幅を広げることができる。また、例えばユーザの気分が沈んでいるときにロボット装置の行動によってユーザの気分を改善させることができれば、ユーザとの親密性を高めるために非常に有効に働き、ロボット装置に新たな価値をもたらすことになる。このような機能は、学習能力を持つロボット装置においては特に有効に作用する。
そこで、本件出願人らは、ロボット装置がある行動を発現する前のユーザの情動、その行動を発現した後のユーザの情動、及び発現した行動を示す3集合組を学習サンプルとして予め収集し、ユーザの情動遷移モデルを構築しておくことにより、ユーザの任意の時点おける情動を所望の目標情動に遷移させる技術を提案している(特許文献1参照)。
国際公開第02/099545号パンフレット
しかしながら、この特許文献1における情動遷移モデルは、<遷移前情動、行動、遷移後情動>という単純なルールベースで実現されており、現在の情動と目標情動とを設定すると発現すべき行動が一意に定まるものであったため、確率的な情動遷移を扱うことができず、ユーザの情動遷移モデルを正確に表現したものとは言い難かった。
また、特許文献1に記載の技術では、上述の情動遷移モデルにのみ基づいて行動を選択しており、過去に発現した行動に対するユーザの評価が考慮されていなかったため、ロボット装置がユーザを不快にさせる行動を行ったり、ユーザにすぐに飽きられたりしてしまう虞があった。
本発明は、このような従来の実情に鑑みて提案されたものであり、ユーザとの相互作用を通じてユーザの状態遷移モデル(例えば情動遷移モデル)をより正確に構築するロボット装置及びその状態遷移モデル構築方法、並びにこの状態遷移モデルを利用してユーザの状態を制御するロボット装置及びその行動制御方法を提供することを目的とする。
上述した目的を達成するために、本発明に係るロボット装置は、複数の行動から一の行動を選択して実行するロボット装置であって、上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出手段と、上記状態検出手段によって上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って、上記複数の行動から実行する行動を選択する行動選択手段と、上記行動選択手段によって選択された行動を実行する行動実行手段と、上記ユーザの状態遷移モデルを学習により構築する学習手段とを備え、上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものであり、上記学習手段は、上記行動実行手段が一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、上記行動実行手段によって行動が実行される毎に繰り返し行うことにより、上記状態遷移モデルを構築するものである。
また、上述した目的を達成するために、本発明に係るロボット装置の状態遷移モデル構築方法は、複数の行動から一の行動を選択して実行するロボット装置の状態遷移モデル構築方法であって、上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出工程と、上記状態検出工程にて上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って、上記複数の行動から実行する行動を選択する行動選択工程と、上記行動選択工程にて選択された行動を実行する行動実行工程と、上記ユーザの状態遷移モデルを学習により構築する学習工程とを有し、上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものであり、上記学習工程では、上記行動実行工程にて一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、上記行動実行工程にて行動が実行される毎に繰り返し行うことにより、上記状態遷移モデルを構築するものである。
このようなロボット装置及びその状態遷移モデル構築方法では、一の行動を実行した結果、ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことで、上記ユーザの状態遷移モデルを構築する。
また、上述した目的を達成するために、本発明に係るロボット装置は、複数の行動から一の行動を選択して実行するロボット装置であって、上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出手段と、上記ユーザの所望の目標状態を設定する目標状態設定手段と、上記状態検出手段により検出された上記ユーザの状態を上記目標状態に遷移させるために実行すべき行動を、上記ユーザの状態遷移モデルに基づいて決定する行動決定手段と、上記行動決定手段により決定された行動を実行する行動実行手段とを備え、上記状態遷移モデルは、上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って上記複数の行動から実行する行動を選択し、一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであり、上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものである。
また、上述した目的を達成するために、本発明に係るロボット装置の行動制御方法は、複数の行動から一の行動を選択して実行するロボット装置の行動制御方法であって、上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出工程と、上記ユーザの所望の目標状態を設定する目標状態設定工程と、上記状態検出工程にて検出された上記ユーザの状態を上記目標状態に遷移させるために実行すべき行動を、上記ユーザの状態遷移モデルに基づいて決定する行動決定工程と、上記行動決定工程にて決定された行動を実行する行動実行工程とを有し、上記状態遷移モデルは、上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って上記複数の行動から実行する行動を選択し、一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであり、上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものである。
このようなロボット装置及びその行動制御方法では、上述のように構築されたユーザの状態遷移モデルを利用し、ユーザを現在の状態から所望の目標状態に遷移させるような行動を実行する。
本発明に係るロボット装置及びその状態遷移モデル構築方法によれば、一の行動を実行した結果、ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことにより、より正確な状態遷移モデルを構築することができる。
また、本発明に係るロボット装置及びその行動制御方法によれば、このようにして構築された状態遷移モデルを利用することで、ユーザを現在の状態から所望の目標状態に遷移させるような行動を実行することができる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、ユーザとの相互作用を通じてユーザの情動遷移モデルを構築し、この情動遷移モデルを利用してユーザの情動を制御する2足歩行タイプのロボット装置に適用したものである。このロボット装置は、住環境その他の日常生活上の様々な場面における人的活動を支援する実用ロボットであり、人間が行う基本的な動作を表出できるエンターテインメントロボットでもある。以下では先ず、このようなロボット装置の構成について説明し、次いで、このロボット装置のうち本発明が適用された要部について説明する。
(1)ロボット装置の構成
図1に示すように、本実施の形態におけるロボット装置1は、体幹部ユニット2の所定の位置に頭部ユニット3が連結されると共に、左右2つの腕部ユニット4R/Lと、左右2つの脚部ユニット5R/Lが連結されて構成されている(但し、R及びLの各々は、右及び左の各々を示す接尾辞である。以下において同じ。)。
このロボット装置1が具備する関節自由度構成を図2に模式的に示す。頭部ユニット3を支持する首関節は、首関節ヨー軸101と、首関節ピッチ軸102と、首関節ロール軸103という3自由度を有している。
また、上肢を構成する各々の腕部ユニット4R/Lは、肩関節ピッチ軸107と、肩関節ロール軸108と、上腕ヨー軸109と、肘関節ピッチ軸110と、前腕ヨー軸111と、手首関節ピッチ軸112と、手首関節ロール軸113と、手部114とで構成される。手部114は、実際には、複数本の指を含む多関節・多自由度構造体である。但し、手部114の動作は、ロボット装置1の姿勢制御や歩行制御に対する寄与や影響が少ないので、本明細書ではゼロ自由度と仮定する。したがって、各腕部ユニット4R/Lは、7自由度で構成される。
また、体幹部ユニット2は、体幹ピッチ軸104と、体幹ロール軸105と、体幹ヨー軸106という3自由度を有する。
また、下肢を構成する各々の脚部ユニット5R/Lは、股関節ヨー軸115と、股関節ピッチ軸116と、股関節ロール軸117と、膝関節ピッチ軸118と、足首関節ピッチ軸119と、足首関節ロール軸120と、足部121とで構成される。本明細書中では、股関節ピッチ軸116と股関節ロール軸117の交点は、ロボット装置1の股関節位置を定義する。人体の足部は、実際には多関節・多自由度の足底を含んだ構造体であるが、ロボット装置1の足部121は、ゼロ自由度とする。したがって、各脚部ユニット5R/Lは、6自由度で構成される。
以上を総括すれば、ロボット装置1全体としては、合計で3+7×2+3+6×2=32自由度を有することになる。但し、エンターテインメント向けのロボット装置1が必ずしも32自由度に限定される訳ではない。設計・制作上の制約条件や要求仕様等に応じて、自由度すなわち関節数を適宜増減することができることはいうまでもない。
上述したようなロボット装置1がもつ各自由度は、実際にはアクチュエータを用いて実装される。外観上で余分な膨らみを排してヒトの自然体形状に近似させること、2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請から、アクチュエータは小型且つ軽量であることが好ましい。
図3には、ロボット装置1の制御システム構成を模式的に示している。図3に示すように、制御システムは、ユーザ入力などに動的に反応して情緒判断や感情表現を司る思考制御モジュール200と、アクチュエータ350の駆動などロボット装置1の全身協調運動を制御する運動制御モジュール300とで構成される。
思考制御モジュール200は、情緒判断や感情表現に関する演算処理を実行するCPU(Central Processing Unit)211や、RAM(Random Access Memory)212、ROM(Read Only Memory)213、及び外部記憶装置(ハード・ディスク・ドライブなど)214で構成され、モジュール内で自己完結した処理を行うことができる独立駆動型の情報処理装置である。
この思考制御モジュール200は、画像入力装置251から入力される画像データや音声入力装置252から入力される音声データなど、外界からの刺激などに従って、ロボット装置1の現在の感情や意思を決定する。ここで、画像入力装置251は、例えばCCD(Charge Coupled Device)カメラを左右に1つずつ備えており、また、音声入力装置252は、例えばマイクロホンを複数備えている。また、思考制御モジュール200は、スピーカを備える音声出力装置253を介して、音声を出力することができる。
また、思考制御モジュール200は、意思決定に基づいた動作又は行動シーケンス、すなわち四肢の運動を実行するように、運動制御モジュール300に対して指令を発行する。
一方の運動制御モジュール300は、ロボット装置1の全身協調運動を制御するCPU311や、RAM312、ROM313、及び外部記憶装置(ハード・ディスク・ドライブなど)314で構成され、モジュール内で自己完結した処理を行うことができる独立駆動型の情報処理装置である。外部記憶装置314には、例えば、オフラインで算出された歩行パターンや目標とするZMP軌道、その他の行動計画を蓄積することができる。ここで、ZMPとは、歩行中の床反力によるモーメントがゼロとなる床面上の点のことであり、また、ZMP軌道とは、例えばロボット装置1の歩行動作期間中にZMPが動く軌跡を意味する。なお、ZMPの概念並びにZMPを歩行ロボットの安定度判別規範に適用する点については、Miomir Vukobratovic 著“LEGGED LOCOMOTION ROBOTS”(加藤一郎外著『歩行ロボットと人工の足』(日刊工業新聞社))に記載されている。
運動制御モジュール300には、図2に示したロボット装置1の全身に分散するそれぞれの関節自由度を実現するアクチュエータ350、体幹部ユニット2の姿勢や傾斜を計測する姿勢センサ351、左右の足底の離床又は着床を検出する接地確認センサ352,353、バッテリなどの電源を管理する電源制御装置354などの各種の装置が、バス・インターフェース(I/F)301経由で接続されている。ここで、姿勢センサ351は、例えば加速度センサとジャイロ・センサの組み合わせによって構成され、接地確認センサ352,353は、近接センサ又はマイクロ・スイッチなどで構成される。
思考制御モジュール200と運動制御モジュール300は、共通のプラットフォーム上で構築され、両者間はバス・インターフェース201,301を介して相互接続されている。
運動制御モジュール300では、思考制御モジュール200から指示された行動を体現すべく、各アクチュエータ350による全身協調運動を制御する。すなわち、CPU311は、思考制御モジュール200から指示された行動に応じた動作パターンを外部記憶装置314から取り出し、又は内部的に動作パターンを生成する。そして、CPU311は、指定された動作パターンに従って、足部運動、ZMP軌道、体幹運動、上肢運動、腰部水平位置及び高さなどを設定すると共に、これらの設定内容に従った動作を指示する指令値を各アクチュエータ350に転送する。
また、CPU311は、姿勢センサ351の出力信号によりロボット装置1の体幹部ユニット2の姿勢や傾きを検出すると共に、各接地確認センサ352,353の出力信号により各脚部ユニット5R/Lが遊脚又は立脚の何れの状態であるかを検出することによって、ロボット装置1の全身協調運動を適応的に制御することができる。
また、CPU311は、ZMP位置が常にZMP安定領域の中心に向かうように、ロボット装置1の姿勢や動作を制御する。
さらに、運動制御モジュール300は、思考制御モジュール200において決定された意思通りの行動がどの程度発現されたか、すなわち処理の状況を、思考制御モジュール200に返すようになっている。
このようにしてロボット装置1は、制御プログラムに基づいて自己及び周囲の状況を判断し、自律的に行動することができる。
(2)ロボット装置における適用部分
以下、上述したロボット装置1において本発明が適用された要部について詳細に説明する。
上述したロボット装置1は、ユーザとの相互作用を通じてユーザの情動遷移モデル、すなわちロボット装置1がどのような行動を発現すればユーザの情動がどのように遷移するかについてのモデルを構築し、この情動遷移モデルを利用してユーザの情動を制御する。
ここで、言葉によるものを除けば、人間は主として2つの方法で情動を表現することができる。すなわち、声のイントネーションの変化(Banse,R. and Sherer,K.R., (1996) Acoustic Profiles in Vocal Emotion Expression, Journal of Personality and Social Psychology, 70(3): 614-636)と、顔の表情の変化(Ekman,P. (1982) Emotions in the human face, Cambridge University Press, Cambridge)とである。
そこで、本実施の形態におけるロボット装置1は、ユーザについて得られた音声信号及び/又は画像信号を通じて後述のようにしてユーザの情動を推定する。
以下では先ず、ユーザについて得られた音声信号及び画像信号からユーザの情動を推定してユーザの情動遷移モデルを構築する方法について説明し、次いで、この情動遷移モデルを利用してユーザの情動を制御する方法について説明する。
(2−1)情動遷移モデルの構築
ロボット装置1は、上述したユーザの情動遷移モデルを構築するために、強化学習の手法を用いている。ここで、強化学習とは、エージェントが未知環境との相互作用を通じて、環境の制御規則を試行錯誤的に学習する学習理論である。この強化学習では、教師あり学習と異なり理想的な入出力関係を与える教師信号が存在しないため、エージェントは、行動の結果、環境から与えられる報酬を手掛かりとして、自身が発現した行動を評価する。
具体的に、エージェントと環境との相互作用は、
(a)エージェントが時刻tに環境の状態sに応じて意思決定を行い、行動aを発現する。
(b)行動aにより環境はst+1に状態遷移し、その遷移に応じた報酬rをエージェントに対して与える。
という2つの段階から構成され、これを繰り返すことで、エージェントは、状態観測から行動出力へのマッピングを獲得することができる。
本実施の形態の場合、上述したエージェント及び環境は、それぞれロボット装置1及びユーザに相当し、環境の状態は、ユーザの情動状態に相当する。つまり、ロボット装置1は、ユーザについて得られた音声信号及び/又は画像信号からユーザの情動を推定し、その情動に応じた行動を発現する。この結果、ユーザの情動が遷移し、ユーザは、その遷移に応じた報酬を与える。例えば、ユーザは、正の報酬として「いいね」という声をかけ、負の報酬として「だめ」という声をかける。また、例えば「すごくいい」など、報酬を任意の段階分だけ設けることも可能である。
具体的に、ロボット装置1は、図4に示すように、入力部400と、ユーザ音声認識部401と、ユーザ画像認識部402と、短期記憶部(Short Term Memory;STM)403と、情動推定部404と、長期記憶部(Long Term Memory;LTM)405と、行動選択部406と、行動出力部407とを備えている。
入力部400は、例えば図3に示した音声入力装置252が有するマイクロホンからの音声信号や、画像入力装置251が有するCCDカメラからの画像信号を入力し、音声信号をユーザ音声認識部401に供給すると共に、画像信号をユーザ画像認識部402に供給する。
ユーザ音声認識部401は、入力部400からユーザが発した声に基づく音声信号が供給されると、この音声の強さ(intensity)及び基本周波数(pitch)に基づいて、後述のようにユーザの情動を検出し、検出された情動の種類とその尤度とを短期記憶部403に供給する。また、ユーザ音声認識部401は、入力部400から報酬に関連した所定の言葉に基づく音声信号が供給されると、その言葉に応じた報酬を長期記憶部405に供給する。上述の例の場合、ユーザから「いいね」という言葉をかけられた場合には例えば「1.0」という正の報酬を長期記憶部405に供給し、「だめ」という言葉をかけられた場合には例えば「−1.0」という負の報酬を長期記憶部405に供給する。また、例えば「すごくいい」という言葉をかけられた場合には「10.0」という報酬を長期記憶部405に供給する。
なお、このようにユーザがロボット装置1に対して声をかける例に限定されず、ユーザがリモートコントローラを介してロボット装置1に対して報酬を送信するようにしても構わない。この場合、ユーザは、リモートコントローラに設けられた「いいね」或いは「だめ」に対応するボタンを押すことで報酬を送信し、ロボット装置1は、図示しない受信部でこれを受信して、対応する値を長期記憶部405に供給することになる。
ユーザ画像認識部402は、入力部400からユーザの画像信号が供給されると、この画像から顔領域を抽出し、抽出された顔画像の表情から後述のようにユーザの情動を検出し、検出された情動の種類とその尤度とを短期記憶部403に供給する。
短期記憶部403は、ロボット装置1の短期記憶を司る部分であり、ユーザ音声認識部401及び/又はユーザ画像認識部402から供給された情動の種類とその尤度とを一時的に保持し、これを情動推定部404に供給する。ここで、ユーザ音声認識部401とユーザ画像認識部402との双方から情動の種類とその尤度が供給されるとは限らず、一方のみから供給された場合には、その供給された情動の種類及び尤度を一時的に保持する。例えば、ユーザがロボット装置1の背後から声をかけたような場合、ロボット装置1は、ユーザの顔の表情を認識することができないため、短期記憶部403には、ユーザの声から検出した情動の種類及びその尤度のみがユーザ音声認識部401から供給される。
情動推定部404は、ユーザ音声認識部401及び/又はユーザ画像認識部402で検出され、短期記憶部403から供給された情動の種類及びその尤度に基づいて、ユーザの現在の情動を予め所定数に離散化された複数の情動の何れかに分類し、この情動のIDを行動選択部406に供給する。また、情動推定部404は、推定した情動のIDを情動履歴として長期記憶部405にも供給する。
長期記憶部405は、ロボット装置1の長期記憶を司る部分であり、学習されたユーザの情動遷移モデルが記憶されている。ここで、ロボット装置1は、情動遷移モデルを構築するために離散マルコフ決定過程(Markov Decision Process;MDP)を用いる。この離散マルコフ決定過程は、状態遷移に不確実性を伴うダイナミクスの下での意思決定を定式化したものであり、4集合組<S,A,P,R>で定義される。この4集合組のうち、Sはユーザの情動集合S={s,s,・・・,s}を示し、Aはロボット装置1の行動集合A={a,a,・・・,a}を示す。また、P及びRは、ある情動sにおいて行動aを発現したときに情動sに遷移する情動遷移確率Ps1s2 a1と、そのときにユーザから与えられる報酬Rs1s2 a1とを全てのm,nについて求めた情動遷移確率値行列P及び報酬値行列Rを示す。例えば図5に示すように、ロボット装置1が発現できる行動がa,a,aであった場合、ユーザが情動sであるときに行動aを発現することで情動sに遷移する情動遷移確率がPs1s2 a1となり、そのときにユーザがら与えられる報酬がRs1s2 a1となる。
行動選択部406は、情動推定部404から供給されたユーザの現在の情動に応じて、発現する行動を方策πに従って確率的に選択する。この方策πとは、ある情動sであるときに行動aが選択される確率を定める確率密度関数である。
ここで、行動選択部406は、得られる報酬が例えば最大となるように行動を選択するが、ある行動をとったときのその行動に対する実報酬は、遅れ時間を伴ってユーザから与えられるため、ある行動aに対してその直後の実報酬rのみを評価するのではなく、将来に亘って与えられる報酬和を以て評価すべきである。
そこで、離散時間tにおける実報酬をrとし、報酬Rtを以下の式(1)のように定義する。ここで、式(1)におけるγは割引率と呼ばれる学習定数であり、0≦γ≦1の値をとる。この割引率γにより、行動の直後に得られた報酬の方を行動から遅れて得られた報酬よりも高く評価することができる。
Figure 2005238422
この場合、情動sにおいて将来に亘って得られる報酬和の期待値を示す状態価値V(s)は、以下の式(2)のようになる。ここで、式(2)におけるE{}は期待値を表す。なお、関数Vは状態価値関数と呼ばれる。
Figure 2005238422
同様に、情動sにおいて行動aを発現した場合に将来に亘って得られる報酬和の期待値を示す行動価値Q(s,a)は、以下の式(3)のようになる。なお、関数Qは行動価値関数と呼ばれ、上述した4集合組<S,A,P,R>と共にユーザの情動遷移モデルを構成する。
Figure 2005238422
上述した行動選択部406は、この行動価値Q(s,a)を指標として行動を選択するものであり、例えばソフトマックス(softmax)行動選択規則を用いる場合、ある情動sにおいて行動aが選択される確率π(s,a)は、以下の式(4)で与えられる。ここで、式(4)におけるτは温度と呼ばれる正定数である。温度τが高い場合には、全ての行動がほぼ同定度に起こるように設定され、温度τが低い場合には、価値の推定が異なる動作の選択確率の差がより大きく異なるように設定される。
Figure 2005238422
行動選択部406は、発現する行動を選択すると、選択した行動のIDを行動出力部407に供給する。また、行動選択部406は、選択した行動のIDを行動履歴として長期記憶部405にも供給する。
行動出力部407は、行動選択部405で選択された行動を発現させるために、必要なアクチュエータ350を駆動させる。
以上の結果、ロボット装置1は、行動選択部405で選択された行動を発現し、行動を発現した結果としてのユーザの情動状態と得られた報酬とから、情動遷移モデルの情動遷移確率値行列P,報酬値行列R及び行動価値関数Qを更新する。例えば、ロボット装置1が行動aを発現した結果、ユーザの情動がsからst+1に遷移し、報酬rt+1が得られた場合、ロボット装置1は、これらの検出結果を用いて、P(st+1|s,a)、R(st+1|s,a)、Q(s,a)を更新する。このうち、P(st+1|s,a)及びR(st+1|s,a)については、単純に遷移前後の情動の訪問度数記憶を用いて新たな情動遷移確率値及び報酬を算出して更新する。一方、Q(s,a)については、例えば以下の式(5)に示すような1ステップQ学習により更新する。ここで、式(5)におけるαはステップサイズ・パラメータであり、行動に対するk番目の報酬を扱う場合、αとして1/kが用いられる。
Figure 2005238422
以上説明した情動遷移モデルの構築処理を図6のフローチャートに示す。先ずステップS1において、ユーザの現在の情動sを検出し、ステップS2において、この情動sに応じた行動aを方策πに従って選択し、実行する。続いてステップS3において、ユーザの情動がsからst+1に遷移したことを検出し、同時にユーザから与えられた報酬rt+1を検出する。そしてステップS4において、検出結果に基づき、情動遷移確率値行列P、報酬値行列R及び行動価値関数Qを更新する。
ロボット装置1は、以上のステップS1乃至ステップS4の処理を繰り返すことにより、ユーザの情動遷移モデルを構築すると共に、最適な行動価値関数Qを得ることができる。
以下、上述したユーザ音声認識部401及びユーザ画像認識部402における情動認識処理について詳細に説明する。
(2−1−1)音声に基づく情動認識
ユーザ音声認識部401は、ユーザが発した声の強さ及び高さに基づいて、例えば「喜び(joy)」、「悲しみ(sadness)」、「怒り(anger)」、「驚き(surprise)」、「嫌悪(disgust)」及び「恐れ(fear)」の合計6つの情動を検出する。なお、検出する情動の種類がこの6つに限定されるものではないことは勿論である。ここで、入力音声を各情動に分類するアルゴリズムとしては、例えばPierre-yves Oudeyer による報告(Pierre-yves Oudeyer (2001) Algorithm and Features, Proceedings of the Humanoids Conference)にあるように各種考えられるが、以下では、ナイーブ・ベイズ・クラス分類アルゴリズム(Naive Bayes classification algorithm)を用いた例について説明する。
具体的にユーザ音声認識部401は、図7に示すように、音声入力部411と、特徴量抽出部412と、情動検出部413と、分類部414と、情動音声データベース415と、結果出力部416とを有している。ここで、分類部414は、上述した6つの情動にそれぞれ対応する喜び分類器414、悲しみ分類器414、怒り分類器414、驚き分類器414、嫌悪分類器414及び恐れ分類器414を有している。
音声入力部411は、図3に示した音声入力装置252が有するマイクロホンからの音声信号のうちユーザの発した声がA/D変換されたデジタル音声信号を入力する。音声入力部411は、このデジタル音声信号を特徴量抽出部412に供給する。
特徴量抽出部412は、音声入力部411から供給されたデジタル音声信号から、声の強さ及び高さを特徴量として抽出する。ここで、声の強さは信号のパワーとして与えられ、声の高さは信号の基本周波数として与えられる。なお、この基本周波数を求める手法としては種々提案されており、例えば音声波形の自己相関関数を用いる手法や、スペクトルを用いる手法などがある。
特徴量抽出部412は、デジタル音声信号に対して微小時間間隔毎に、例えば10ms毎に声の強さ及び高さを抽出する。この際、声の強さは、ローパス・フィルタ及びハイパス・フィルタを通した信号からそれぞれ求められる。この結果、声の強さと声の高さに関する3次元ベクトルの系列が1つのデジタル音声信号に対して得られる。そして、特徴量抽出部412は、この3次元ベクトル系列に対して、各次元毎に、平均値、最大値、最小値、最大値と最小値との差、分散、中央値を求める。この結果、3×6=18個の特徴量が得られ、特徴量抽出部412は、この18次元ベクトルを情動検出部413に供給する。
情動検出部413は、特徴量抽出部412から供給された18次元ベクトルについて、ナイーブ・ベイズ・クラス分類アルゴリズムに従い、分類部414の各分類器(classifier)414〜414を用いて、上述した「喜び(joy)」、「悲しみ(sadness)」、「怒り(anger)」、「驚き(surprise)」、「嫌悪(disgust)」及び「恐れ(fear)」の何れかに分類する。
このナイーブ・ベイズ・クラス分類アルゴリズムについて簡単に説明する。n次元の入力ベクトル(a_1,a_2,...,a_n)に対してクラスc_jの生起確率P(c_j|a_1,a_2,...,a_n)を最大化するc_jを求めるという問題は、ベイズ(Bayes)の定理より、以下の式(6)を最大化するc_jを求めるという問題に定式化される。
Figure 2005238422
ここで、各次元の独立性を仮定すると、この問題は、以下の式(7)を最大化するクラスc_jを求める問題に帰着される。
Figure 2005238422
そして、P(a_i|c_j)を例えば正規分布で与えられる確率密度関数を用いてモデル化することにより、入力ベクトル(a_1,a_2,...,a_n)に対して、クラスc_jの生起確率が求められる。
すなわち、上述した18次元ベクトルの各次元について各情動に対応する確率密度関数を用いて尤度を計算することにより、各情動に対応する18次元ベクトルの尤度が計算される。
なお、この確率密度関数は、各情動に対応する音声データが多数記憶された情動音声データベース415を用いて推定することができる。例えば、ある情動に対応する音声データが1000発話分ある場合、それぞれの音声データについての特徴量(上述の18次元ベクトル)を抽出し、その特徴量ベクトルの各次元に対応したデータから平均μと分散σとを求めることで、以下の式(8)で示される確率密度関数が推定される。
Figure 2005238422
情動検出部413は、特徴量抽出部412から供給された18次元ベクトルについて、喜び分類器414、悲しみ分類器414、怒り分類器414、驚き分類器414、嫌悪分類器414及び恐れ分類器414における確率密度関数から各情動の尤度を求める。そして、情動検出部413は、この尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部416に供給する。
結果出力部416は、情動検出部413から供給された情動の種類とその尤度とを、上述の図4に示した短期記憶部403に出力する。
(2−1−2)顔の表情に基づく情動認識
ユーザ画像認識部402は、ユーザの顔画像の表情に基づいて、例えば「喜び(joy)」、「悲しみ(sadness)」、「怒り(anger)」、「驚き(surprise)」、「嫌悪(disgust)」及び「恐れ(fear)」の合計6つの情動を検出する。なお、検出する情動の種類がこの6つに限定されるものではないことは勿論である。
ここで、顔の表情を記述するために、本実施の形態では、Ekman及びFriesenによって提案されたFACS(Facial Action Coding System)と呼ばれる表情記述方法を用いる。このFACSとは、表情をアクションユニット(Action Unit;AU)と呼ばれる解剖学的に独立し視覚的に識別可能な表情動作の最小単位に従って分類し、このAUの強度の組み合わせによって、人間の表情を定量的に記述するものである。但し、FACSは本来、心理学の分野で表情を記述し分析することを目的に提案されたものであり、図8に抜粋を示すように、各AUの定義自体には定性的な表現が用いられている。
上述した6つの情動のそれぞれが生起したときに表出する表情を基本6表情といい、Ekman及びFriesenによって、この基本6表情とAUとの関連性が明らかにされている。なお、この関連性は、基本的に文化・性別・年齢等の個人差に影響されないものとされている。すなわち、人間の表情をAUによって表現(認識)できれば、これを上述した6つの情動にマッピングすることができる。
そこで、本実施の形態におけるユーザ画像認識部402は、画像信号を入力として各AUの強度を出力とするデータ変換操作であるFACSコーディングを利用し、入力された画像信号から各AUによって特徴付けられた上述の6つの情動を検出する。
具体的にユーザ画像認識部402は、図9に示すように、画像入力部421と、顔検出部422と、アラインメント部423と、差分画像生成部424と、顔画像データベース425と、データ変換部426と、HMM(Hidden Markov Model)部427と、結果出力部428とを有している。
画像入力部421は、図3に示した画像入力装置251が有するCCDカメラからの画像信号を入力し、この画像信号を顔検出部422に供給する。
顔検出部422は、先ず画像入力部421から供給された画像信号に基づくフレーム画像を縮小率が異なる複数のスケール画像に変換する。例えば、顔検出部422は、フレーム画像を0.8倍ずつ順次縮小して5段階(1.0倍、0.8倍、0.64倍、0.51倍、0.41倍)のスケール画像に変換する。そして、顔検出部422は、各スケール画像について、画像左上を起点として順に右下まで、適当な画素分を右側又は下側にずらしながらスキャンするようにして、400(=20×20)画素の矩形領域を切り出し、テンプレート画像とのマッチングをとって、顔画像か否かを判断する。但し、この時点で顔画像であると判断された矩形領域(以下、スコア画像という。)には、実際には顔画像以外の判断誤りの画像が多数含まれるため、顔検出部422は、サポートベクターマシン(SVM)により、顔、非顔の識別を行う。
このような技術としては、B.Sholkophらの報告(B.Sholkoph, C.Burges, A.Smola (1999) Advance in Kernel Methods Support Vector Learning, The MIT Press)やV.Vapnicの報告(V.Vapnic (1999) The Nature of Statistical Learning Theory Second Edition, Springer)に開示されている技術が挙げられる。
上述のSVMは、識別関数に線形識別器(パーセプトロン)を用いた学習機械であり、カーネル関数を使うことで非線形区間に拡張することができる。また、識別関数の学習では、クラス間分離のマージンを最大にとるように行われ、その解は2次数理計画法を解くことで得られるため、グローバル解に到達できることを理論的に保証できる。この処理の詳細は次の通りである。
先ず、上述したスコア画像から顔以外の背景部分を除くため、画像の4隅を切り取ったマスクを用いて、400(=20×20)画素あるスコア画像から360画素分を抽出する。次に、照明により撮像対象物の輝度が変化することを前提として、照明による輝度の勾配を補正して、ヒストグラム平滑化或いはコントラストノーマライゼーションを施す。続いて、顔検出に利用する識別関数の学習を行う。学習用のデータとして最初に顔データ、非顔データそれぞれ所定の枚数を用いて、暫定的な識別関数を得る。それから、暫定的に得られた識別関数を様々なデータベース上の画像に試して顔の検出を行い、その結果、検出に成功したものを顔データ、失敗したものを非顔データとして学習データに追加し、さらに学習をし直す。
顔検出部422は、以上のようにしてスコア画像内に顔データが存在するか否かを判断し、存在する場合には、そのスコア画像を顔画像として、アラインメント部423に供給する。
アラインメント部423は、顔検出部422から供給された顔画像について、アラインメント処理を行う。つまり、後述する差分画像生成部424で2枚の顔画像の差分を正しく得るためには顔の位置を精度よく求める必要があり、また、顔の中の眼、鼻の位置は人によって異なるため、これらの位置を正規化する必要もある。そこで、アラインメント部423は、得られた顔画像に対して、目尻、鼻腔、唇端などの特徴点を抽出して眼と鼻の位置同定を行い、検出された眼と鼻が定められた位置になるようにアフィン変換で回転・伸縮(モーフィング処理)を行うことにより、アラインメント処理を行う。アラインメント部423は、このアラインメント後の顔画像を差分画像生成部424に供給する。
差分画像生成部424は、アラインメント部423から供給されたアラインメント後の顔画像と、顔画像データベース425に記憶されているアラインメント後の無表情(ニュートラル)顔画像との差分を計算し、差分画像を生成する。差分画像生成部424は、生成した差分画像をデータ変換部426に供給する。
データ変換部426は、ガボア(Gabor)・フィルタを用いて360画素分のスコア画像をベクトル変換し、得られたベクトル群をさらに1本の特徴ベクトルに変換する。
ここで、人間の視覚細胞には、ある特定の方位に対して選択性を持つ細胞が存在することが既に判っている。これは、垂直の線に対して反応する細胞と、水平の線に対して反応する細胞で構成される。上述のガボア・フィルタは、これと同様に、方位選択性を持つ複数のフィルタで構成される空間フィルタである。
なお、低周波でのフィルタリングでは、フィルタリング後のイメージ全てをベクトルとして保持しておくのは冗長であるため、ダウンサンプリングして、ベクトルの次元を落とすようにしてもよい。この場合、ダウンサンプリングされた複数のベクトル群が並べられて、1本の特徴ベクトルが生成される。
そして、データ変換部426は、ガボア・フィルタリングによって得られた特徴ベクトルをベクトル量子化し、ベクトル量子化後の特徴ベクトルをHMM部427に供給する。
HMM部427は、データ変換部426から供給されたベクトル量子化後の特徴ベクトルについて、隠れマルコフモデルを用いて、上述した「喜び(joy)」、「悲しみ(sadness)」、「怒り(anger)」、「驚き(surprise)」、「嫌悪(disgust)」及び「恐れ(fear)」の何れかに分類する。ここで、HMM部427は、予め各情動を表す顔画像でトレーニングされており、供給された特徴ベクトルについて、各情動の尤度を求める。なお、各情動とAUとの対応付けとしては、例えば以下のようなものが挙げられる。
「喜び(joy)」・・・・・AU6+12
「悲しみ(sadness)」・・AU1及びAU1+4
「怒り(anger)」・・・・AU4
「驚き(surprise)」 ・・AU1+2
「嫌悪(disgust)」・・・AU2+4
「恐れ(fear)」 ・・・・AU1+2+4
HMM部427は、得られた各情動の尤度を比較し、最も尤度の高い情動の種類とその尤度とを、検出結果として結果出力部428に供給する。
結果出力部428は、HMM部427から供給された情動の種類とその尤度とを、上述の図4に示した短期記憶部403に出力する。
なお、上述した例では、HMM部427の入力として、ガボア・フィルタリングによって得られ、ベクトル量子化された特徴ベクトルを用いるものとして説明したが、これに限定されるものではなく、例えばJames J. Lienらの報告(James J. Lien et al. (1998) Automated Facial Expression Recognition Based on FACS Action Units, Proceedings of FG'98, April 14-16)に開示されているように、特徴点のトラッキング結果や、顔面各部位の動きベクトル(optical flow)を用いるようにしても構わない。
(2−2)情動遷移モデルを用いたユーザの情動の制御
上述したように、ロボット装置1は、ユーザについての情動遷移モデルを用いることで、ユーザの情動を制御することができる。
例えば、ユーザの情動をsからsに遷移させたい場合、ロボット装置1の行動選択部406は、長期記憶部405に記憶されている情動遷移モデルとのマッチングを行うことにより、適切な行動を選択することができる。具体的に、行動選択部406は、情動遷移確率値行列Pに基づき、ユーザの情動をsからsに遷移させることが可能な行動群から、発現する行動aを確率的に選択することができる。これにより、ロボット装置1は、例えばユーザの情動が「悲しみ(sadness)」であるときに、「喜び(joy)」の情動に遷移させる適切な行動を選択して発現することができる。
また、ロボット装置1は、選択された行動を発現する前に行動価値関数Qを参照することで、同じ目標情動に遷移させる場合であっても、その情動に遷移することがユーザにとってどの程度好ましいのかを考慮することができる。例えば上述の例の場合、選択された行動aを発現する前に行動価値Q(s,a)を参照し、この行動価値Q(s,a)が低い場合にはその行動発現を思いとどまるといったことも可能となる。これにより、ロボット装置1がユーザを不快にさせる行動を発現してしまうことを未然に防止することができ、ユーザとロボット装置1との親密性をより高めることが可能となる。
本実施の形態におけるロボット装置の外観を示す斜視図である。 同ロボット装置の機能構成を模式的に示すブロック図である。 同ロボット装置の制御ユニットの構成を詳細に示すブロック図である。 同ロボット装置において情動遷移モデルの構築に関わる部分の構成を示すブロック図である。 離散マルコフ決定過程を説明する図である。 情動遷移モデルの構築処理を説明するフローチャートである。 ユーザ音声認識部の内部構成を示す図である。 ユーザの顔の表情認識に用いられる顔の動作単位(AU)を説明する図である。 ユーザ画像認識部の内部構成を示す図である。
符号の説明
1 ロボット装置、200 思考制御モジュール、251 画像入力装置、252 音声入力装置、300 運動制御モジュール、350 アクチュエータ、400 入力部、401 ユーザ音声認識部、402 ユーザ画像認識部、403 短期記憶部、404 情動推定部、405 長期記憶部、406 行動選択部、407 行動出力部、411 音声入力部、412 特徴量抽出部、413 情動検出部、414 分類部、415 情動音声データベース、416 結果出力部、421 画像入力部、422 顔検出部、423 アラインメント部、424 差分画像生成部、425 顔画像データベース、426 データ変換部、427 HMM部、428 結果出力部

Claims (18)

  1. 複数の行動から一の行動を選択して実行するロボット装置であって、
    上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出手段と、
    上記状態検出手段によって上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って、上記複数の行動から実行する行動を選択する行動選択手段と、
    上記行動選択手段によって選択された行動を実行する行動実行手段と、
    上記ユーザの状態遷移モデルを学習により構築する学習手段とを備え、
    上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものであり、
    上記学習手段は、上記行動実行手段が一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、上記行動実行手段によって行動が実行される毎に繰り返し行うことにより、上記状態遷移モデルを構築する
    ことを特徴とするロボット装置。
  2. 上記ユーザの状態は、上記ユーザの情動状態であることを特徴とする請求項1記載のロボット装置。
  3. 音声認識手段及び画像認識手段をさらに備え、
    上記状態検出手段は、上記ユーザの音声及び/又は顔画像から上記ユーザの情動状態を検出する
    ことを特徴とする請求項2記載のロボット装置。
  4. 上記学習手段は、上記ユーザが上記第1の状態であるときに上記一の行動を実行することで上記ユーザが上記第2の状態に遷移する遷移確率と、上記ユーザが上記第1の状態であるときに上記一の行動を実行し上記ユーザが上記第2の状態に遷移することで得られる報酬とを更新する処理を、上記行動実行手段によって行動が実行される毎に繰り返し行うことを特徴とする請求項1記載のロボット装置。
  5. 複数の行動から一の行動を選択して実行するロボット装置の状態遷移モデル構築方法であって、
    上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出工程と、
    上記状態検出工程にて上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って、上記複数の行動から実行する行動を選択する行動選択工程と、
    上記行動選択工程にて選択された行動を実行する行動実行工程と、
    上記ユーザの状態遷移モデルを学習により構築する学習工程とを有し、
    上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものであり、
    上記学習工程では、上記行動実行工程にて一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、上記行動実行工程にて行動が実行される毎に繰り返し行うことにより、上記状態遷移モデルを構築する
    ことを特徴とするロボット装置の状態遷移モデル構築方法。
  6. 上記ユーザの状態は、上記ユーザの情動状態であることを特徴とする請求項5記載のロボット装置の状態遷移モデル構築方法。
  7. 上記ロボット装置は、音声認識手段及び画像認識手段を備えており、
    上記状態検出工程では、上記ユーザの音声及び/又は顔画像から上記ユーザの情動状態を検出する
    ことを特徴とする請求項6記載のロボット装置の状態遷移モデル構築方法。
  8. 上記学習工程では、上記ユーザが上記第1の状態であるときに上記一の行動を実行することで上記ユーザが上記第2の状態に遷移する遷移確率と、上記ユーザが上記第1の状態であるときに上記一の行動を実行し上記ユーザが上記第2の状態に遷移することで得られる報酬とを更新する処理を、上記行動実行工程にて行動が実行される毎に繰り返し行うことを特徴とする請求項5記載のロボット装置の状態遷移モデル構築方法。
  9. 複数の行動から一の行動を選択して実行するロボット装置であって、
    上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出手段と、
    上記ユーザの所望の目標状態を設定する目標状態設定手段と、
    上記状態検出手段により検出された上記ユーザの状態を上記目標状態に遷移させるために実行すべき行動を、上記ユーザの状態遷移モデルに基づいて決定する行動決定手段と、
    上記行動決定手段により決定された行動を実行する行動実行手段とを備え、
    上記状態遷移モデルは、上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って上記複数の行動から実行する行動を選択し、一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであり、
    上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものである
    ことを特徴とするロボット装置。
  10. 上記行動実行手段は、上記行動決定手段により決定された行動の行動価値が所定の閾値以下である場合、該決定された行動を実行しない
    ことを特徴とする請求項9記載のロボット装置。
  11. 上記ユーザの状態は、上記ユーザの情動状態であることを特徴とする請求項9記載のロボット装置。
  12. 音声認識手段及び画像認識手段をさらに備え、
    上記状態検出手段は、上記ユーザの音声及び/又は顔画像から上記ユーザの情動状態を検出する
    ことを特徴とする請求項11記載のロボット装置。
  13. 上記状態遷移モデルは、上記ユーザが上記第1の状態であるときに上記一の行動を実行することで上記ユーザが上記第2の状態に遷移する遷移確率と、上記ユーザが上記第1の状態であるときに上記一の行動を実行し上記ユーザが上記第2の状態に遷移することで得られる報酬とを更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであることを特徴とする請求項9記載のロボット装置。
  14. 複数の行動から一の行動を選択して実行するロボット装置の行動制御方法であって、
    上記ロボット装置のユーザの状態を所定の複数の状態の何れかに分類して検出する状態検出工程と、
    上記ユーザの所望の目標状態を設定する目標状態設定工程と、
    上記状態検出工程にて検出された上記ユーザの状態を上記目標状態に遷移させるために実行すべき行動を、上記ユーザの状態遷移モデルに基づいて決定する行動決定工程と、
    上記行動決定工程にて決定された行動を実行する行動実行工程とを有し、
    上記状態遷移モデルは、上記ユーザが一の状態であると検出された場合に、上記ユーザが当該一の状態であるときの各行動の行動価値から算出された選択確率に従って上記複数の行動から実行する行動を選択し、一の行動を実行した結果、上記ユーザが第1の状態から第2の状態に遷移し、当該遷移に応じて上記ユーザから報酬が与えられた場合に、上記ユーザが上記第1の状態であるときの上記一の行動の行動価値を上記報酬に応じて更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであり、
    上記行動価値は、上記ユーザが任意の状態であるときに任意の行動を実行することで将来に亘って上記ユーザから与えられる報酬和の期待値を示すものである
    ことを特徴とするロボット装置の行動制御方法。
  15. 上記行動実行工程では、上記行動決定工程にて決定された行動の行動価値が所定の閾値以下である場合、該決定された行動を実行しない
    ことを特徴とする請求項14記載のロボット装置の行動制御方法。
  16. 上記ユーザの状態は、上記ユーザの情動状態であることを特徴とする請求項14記載のロボット装置の行動制御方法。
  17. 上記ロボット装置は、音声認識手段及び画像認識手段を備えており、
    上記状態検出工程では、上記ユーザの音声及び/又は顔画像から上記ユーザの情動状態を検出する
    ことを特徴とする請求項16記載のロボット装置の行動制御方法。
  18. 上記状態遷移モデルは、上記ユーザが上記第1の状態であるときに上記一の行動を実行することで上記ユーザが上記第2の状態に遷移する遷移確率と、上記ユーザが上記第1の状態であるときに上記一の行動を実行し上記ユーザが上記第2の状態に遷移することで得られる報酬とを更新する処理を、行動が実行される毎に繰り返し行うことにより構築されたものであることを特徴とする請求項14記載のロボット装置の行動制御方法。
JP2004054829A 2004-02-27 2004-02-27 ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法 Withdrawn JP2005238422A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004054829A JP2005238422A (ja) 2004-02-27 2004-02-27 ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004054829A JP2005238422A (ja) 2004-02-27 2004-02-27 ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法

Publications (1)

Publication Number Publication Date
JP2005238422A true JP2005238422A (ja) 2005-09-08

Family

ID=35020693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004054829A Withdrawn JP2005238422A (ja) 2004-02-27 2004-02-27 ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法

Country Status (1)

Country Link
JP (1) JP2005238422A (ja)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223444A (ja) * 2008-03-13 2009-10-01 Sony Corp 情報処理装置および方法、並びにプログラム
JP2012139798A (ja) * 2011-01-05 2012-07-26 Advanced Telecommunication Research Institute International 移動ロボット、移動ロボット用の学習システムおよび移動ロボットの行動学習方法
JP2013027937A (ja) * 2011-07-26 2013-02-07 Fujitsu Ltd ロボット制御装置、ロボットシステム、ロボット装置の行動制御方法、及びプログラム
CN103136321A (zh) * 2012-09-06 2013-06-05 北京天宇朗通通信设备股份有限公司 多媒体信息处理方法和装置及移动终端
US8494982B2 (en) 2009-07-02 2013-07-23 Samsung Electronics Co., Ltd. Emotion model, apparatus, and method for adaptively modifying personality features of emotion model
JP2016012340A (ja) * 2014-06-05 2016-01-21 ソフトバンク株式会社 行動制御システム及びプログラム
CN106462384A (zh) * 2016-06-29 2017-02-22 深圳狗尾草智能科技有限公司 基于多模态的智能机器人交互方法和智能机器人
WO2018101035A1 (ja) * 2016-11-29 2018-06-07 ソニー株式会社 情報処理装置及び情報処理方法
WO2018105412A1 (ja) * 2016-12-07 2018-06-14 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2018150654A1 (ja) * 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
KR20190040506A (ko) * 2016-09-15 2019-04-18 구글 엘엘씨 로봇 조작을 위한 심층 강화 학습
WO2020129312A1 (ja) * 2018-12-19 2020-06-25 本田技研工業株式会社 案内ロボット制御装置、及び、それを用いた案内システム、並びに、案内ロボット制御方法
JP2020121381A (ja) * 2019-01-31 2020-08-13 セイコーエプソン株式会社 機械学習器、ロボットシステム、及び機械学習方法
CN112957740A (zh) * 2021-03-26 2021-06-15 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN113361349A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备和存储介质
JP2022145915A (ja) * 2015-07-31 2022-10-04 ファナック株式会社 推論方法、推論プログラム、推論装置、学習方法、学習プログラム、学習装置およびモデル生成方法
US11780095B2 (en) 2015-07-31 2023-10-10 Fanuc Corporation Machine learning device, robot system, and machine learning method for learning object picking operation
US12005579B2 (en) 2018-01-29 2024-06-11 Samsung Electronics Co., Ltd Robot reacting on basis of user behavior and control method therefor

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009223444A (ja) * 2008-03-13 2009-10-01 Sony Corp 情報処理装置および方法、並びにプログラム
JP4596024B2 (ja) * 2008-03-13 2010-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US8494982B2 (en) 2009-07-02 2013-07-23 Samsung Electronics Co., Ltd. Emotion model, apparatus, and method for adaptively modifying personality features of emotion model
JP2012139798A (ja) * 2011-01-05 2012-07-26 Advanced Telecommunication Research Institute International 移動ロボット、移動ロボット用の学習システムおよび移動ロボットの行動学習方法
JP2013027937A (ja) * 2011-07-26 2013-02-07 Fujitsu Ltd ロボット制御装置、ロボットシステム、ロボット装置の行動制御方法、及びプログラム
CN103136321A (zh) * 2012-09-06 2013-06-05 北京天宇朗通通信设备股份有限公司 多媒体信息处理方法和装置及移动终端
JP2016012340A (ja) * 2014-06-05 2016-01-21 ソフトバンク株式会社 行動制御システム及びプログラム
JP2022145915A (ja) * 2015-07-31 2022-10-04 ファナック株式会社 推論方法、推論プログラム、推論装置、学習方法、学習プログラム、学習装置およびモデル生成方法
US11780095B2 (en) 2015-07-31 2023-10-10 Fanuc Corporation Machine learning device, robot system, and machine learning method for learning object picking operation
JP7491971B2 (ja) 2015-07-31 2024-05-28 ファナック株式会社 物体把持方法、物体把持プログラム、物体把持装置、学習方法、学習プログラムおよび学習装置
CN106462384A (zh) * 2016-06-29 2017-02-22 深圳狗尾草智能科技有限公司 基于多模态的智能机器人交互方法和智能机器人
WO2018000280A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 基于多模态的智能机器人交互方法和智能机器人
CN106462384B (zh) * 2016-06-29 2019-05-31 深圳狗尾草智能科技有限公司 基于多模态的智能机器人交互方法和智能机器人
KR20190040506A (ko) * 2016-09-15 2019-04-18 구글 엘엘씨 로봇 조작을 위한 심층 강화 학습
KR102211012B1 (ko) 2016-09-15 2021-02-03 구글 엘엘씨 로봇 조작을 위한 심층 강화 학습
US11897133B2 (en) 2016-09-15 2024-02-13 Google Llc Deep reinforcement learning for robotic manipulation
US11400587B2 (en) 2016-09-15 2022-08-02 Google Llc Deep reinforcement learning for robotic manipulation
JPWO2018101035A1 (ja) * 2016-11-29 2019-10-17 ソニー株式会社 情報処理装置及び情報処理方法
WO2018101035A1 (ja) * 2016-11-29 2018-06-07 ソニー株式会社 情報処理装置及び情報処理方法
JP7031603B2 (ja) 2016-11-29 2022-03-08 ソニーグループ株式会社 情報処理装置及び情報処理方法
US10795326B2 (en) 2016-12-07 2020-10-06 Sony Corporation Information processing apparatus, and method
WO2018105412A1 (ja) * 2016-12-07 2018-06-14 ソニー株式会社 情報処理装置および方法、並びにプログラム
WO2018150654A1 (ja) * 2017-02-15 2018-08-23 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム
US12005579B2 (en) 2018-01-29 2024-06-11 Samsung Electronics Co., Ltd Robot reacting on basis of user behavior and control method therefor
JP7101815B2 (ja) 2018-12-19 2022-07-15 本田技研工業株式会社 案内ロボット制御装置、及び、それを用いた案内システム、並びに、案内ロボット制御方法
JPWO2020129312A1 (ja) * 2018-12-19 2021-09-30 本田技研工業株式会社 案内ロボット制御装置、及び、それを用いた案内システム、並びに、案内ロボット制御方法
US11772274B2 (en) 2018-12-19 2023-10-03 Honda Motor Co., Ltd. Guide robot control device, guidance system using same, and guide robot control method
WO2020129312A1 (ja) * 2018-12-19 2020-06-25 本田技研工業株式会社 案内ロボット制御装置、及び、それを用いた案内システム、並びに、案内ロボット制御方法
JP2020121381A (ja) * 2019-01-31 2020-08-13 セイコーエプソン株式会社 機械学習器、ロボットシステム、及び機械学習方法
CN112957740B (zh) * 2021-03-26 2023-09-29 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
CN112957740A (zh) * 2021-03-26 2021-06-15 南京大学 一种适配分层强化学习的自动分解游戏环境的方法
JP2022078338A (ja) * 2021-05-25 2022-05-24 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 顔生体検出方法、装置、電子機器及び記憶媒体
CN113361349B (zh) * 2021-05-25 2023-08-04 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备和存储介质
JP7334292B2 (ja) 2021-05-25 2023-08-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 顔生体検出方法、装置、電子機器及び記憶媒体
CN113361349A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 人脸活体检测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
JP4590717B2 (ja) 顔識別装置及び顔識別方法
JP4609584B2 (ja) ロボット装置、顔認識方法及び顔認識装置
JP2005238422A (ja) ロボット装置、並びにその状態遷移モデル構築方法及び行動制御方法
US8145492B2 (en) Robot behavior control system and method, and robot apparatus
EP1406135B1 (en) Man-machine interface unit control method; robot apparatus; and its action control method
US7133744B2 (en) Information processing apparatus and method, program storage medium, and program
US9367798B2 (en) Spiking neuron network adaptive control apparatus and methods
US9189730B1 (en) Modulated stochasticity spiking neuron network controller apparatus and methods
JP2005199403A (ja) 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP3945279B2 (ja) 障害物認識装置、障害物認識方法、及び障害物認識プログラム並びに移動型ロボット装置
JP3714268B2 (ja) ロボット装置
US7689322B2 (en) Robot apparatus and method of controlling the motion thereof
JP2005078376A (ja) 対象物検出装置、対象物方法、及びロボット装置
JP2006082150A (ja) ロボット装置及びその行動制御方法
JP2003271975A (ja) 平面抽出方法、その装置、そのプログラム、その記録媒体及び平面抽出装置搭載型ロボット装置
Khodabandelou et al. A fuzzy convolutional attention-based GRU network for human activity recognition
Shon et al. Towards a real-time bayesian imitation system for a humanoid robot
Parisi Human action recognition and assessment via deep neural network self-organization
US20050066397A1 (en) Robot apparatus and walking control method thereof
JP2004302644A (ja) 顔識別装置、顔識別方法、記録媒体、及びロボット装置
JP4649913B2 (ja) ロボット装置及びロボット装置の移動制御方法
JP2003271958A (ja) 画像処理方法、その装置、そのプログラム、その記録媒体及び画像処理装置搭載型ロボット装置
JP2004302645A (ja) 顔登録装置、顔登録方法、記録媒体、及びロボット装置
Durán et al. Neural dynamics of hierarchically organized sequences: a robotic implementation
Khaksar et al. Learning from virtual experience: Mapless navigation with neuro-fuzzy intelligence

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070501