JP6359478B2

JP6359478B2 - ロボット

Info

Publication number: JP6359478B2
Application number: JP2015074169A
Authority: JP
Inventors: 高明勝浦; 圭司坂; 実雄阪本
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2018-07-18
Anticipated expiration: 2035-03-31
Also published as: WO2016157944A1; JP2016193466A

Description

本発明は、顔画像を表示し音声対話を行うロボットに関する。

近年、音声認識や言語処理を行うことでユーザと音声対話によるコミュニケーションが可能なコミュニケーションロボットの開発が盛んに行なわれている。このようなコミュニケーションロボットの中には、自然なコミュニケーション、または深いコミュニケーションを行うために、例えば、特許文献１のように、ユーザの顔画像データや発話音声データから、ユーザの感情を認識し、感情認識結果に応じた行動を実行するロボットも存在する。また、例えば、特許文献２のように、ユーザに視認させる表情の表出を行うロボットも存在する。

特開２００６−１２３１３６（２００６年５月１８日公開）特開２０１２−１７８０９２（２０１２年９月１３日公開）

しかしながら、従来のコミュニケーションロボットは、ユーザの感情を認識できても、ロボット自体は表情の表出ができなかったり、表情の表出ができたとしても、そのバリエーションが少なかったりすると言った制約がある。そのため、従来のコミュニケーションロボットでは、音声対話によるコミュニケーションが主となり、無機質な冷たい印象をユーザに与えてしまいがちである。結果として、自然なコミュニケーションが成立し難く、ユーザは、ロボットへの愛着や親密度が低下したり、場合によっては不快感を覚えたりするといった問題が生じる。

また一方で、ロボットにおいて機能的な不具合が生じた場合、エラー番号を表示したり、警告音または報知音を出したりすることで通知できるが、このような通知方法は、コミュニケーションとは言い難く、いかにも機械的でありユーザは親しみを持ち難い。また、エラー番号や警告音または報知音が、何のエラーに対応しているのかどう対処すべきなのか等を調べる必要があり、ユーザに負担をかける。

そこで、本発明は、上記課題に鑑みなされ、その目的は、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うことが可能なロボットを提供することにある。

上記の課題を解決するために、本発明の一態様に係るロボットは、顔画像を表示し、音声対話を行うロボットであって、自機へ入力されたユーザ音声または自機から出力する発話音声に対応付けられた感情パラメータ、自機が有するセンサ部の検知結果に対応付けられた感覚パラメータ、及び自機の動作状態に対応付けられた状態パラメータ、を用いて表情を決定する表情決定部と、前記表情決定部が決定した表情に応じた顔画像を表示部に表示させる表示制御部と、を備えたことを特徴としている。

また、上記の課題を解決するために、本発明の別の一態様に係るロボットは、顔画像を表示し、音声対話を行うロボットであって、自機に入力されたユーザ音声または自機が有するセンサ部が検知したユーザアクションの少なくとも一方に基づき、自機における不具合を推測する不具合推測部と、前記推測された不具合の内容を示す情報または当該不具合の解消に必要な情報の少なくとも一方である不具合情報を外部に通知する不具合通知部と、を備えたことを特徴としている。

上記構成によると、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うことが可能なロボットを提供することが可能となる。

実施の形態１及び２に係るロボットの概略構成を示す図である。実施の形態に１に係るロボットの使用状況を示す図である。実施の形態１に係るロボットが有する対話シナリオの一例を示す図である。実施の形態１に係るロボットでの対話処理の流れを示す図である。実施の形態１に係るロボットの各処理における表情について説明する図である。実施の形態２に係るロボットの表情の変化を示す図である。実施の形態３に係るロボットの概略構成を示す図である。

〔実施の形態１〕
以下、本発明の一実施形態について図１〜５に基づいて説明すれば以下の通りである。

（ロボットの構成）
本実施の形態に係るロボット１は、顔画像を表示し、音声対話を行うロボットであり、その外観は、図２に示すように頭部２と胴体部３とを有する雪だるま型である。胴体部３には腕部３ａが付随している。頭部２は、後述のモータ部５０により駆動するように構成されている。なお、ロボット１の外観は、図示したものに限定されず、例えば、図２の外観にさらに脚部を有していてもよい。あるいは、ヒューマノイド型であっても、ペット型であってもよい。

ロボット１は、顔の表情を表出可能に構成されている。ロボット１は、その頭部２の顔領域に顔画像を表示し、表情の表出は、決定した表情の顔画像を表示することで行う。表情の決定及び決定した表情の顔画像の表示の詳細については後述する。顔画像が変化することで表情も変化する。ロボット１は、本来の喜怒哀楽に加え、例えば、照れて恥ずかしそうであったり、眠そうであったり、気分が悪そうで冷汗をかいたり震えていたりする顔画像を表示することで、人間により近い表情を映すことが可能である。このように、ロボット１は顔画像の表示により顔の表情を多種多様に変化できるため、ロボット１が感情を持っているように見せかけることができる。そのため、ユーザは、より親しみや愛着をもってロボット１に接することができる。

さらに、ロボット１は、音声認識機能及び発話（音声出力）機能を有しており、ユーザ音声（音声信号）が入力されると音声認識を行い、その認識結果に応じた発話を行う。よって、ユーザは自然言語を用いた音声によってロボット１と対話することが可能である。

次に、ロボット１の機能的構成の詳細について説明する。図１は、本実施の形態に係るロボット１の機能的構成を示すブロック図である。ロボット１は、制御部１０、表示部２０、音声出力部３０、音声入力部４０、モータ部５０、センサ部６０、通信部７０及びデータ格納部８０を備えている。

制御部１０は、ロボット１の各部を統括制御するブロックである。制御部１０は、例えば、ＣＰＵ（Central Processing Unit）や専用プロセッサなどの演算処理部などにより構成されるコンピュータ装置から成る。制御部１０は、データ格納部８０に記憶されているロボット１における各種制御を実施するためのプログラムを読み出して実行することで、ロボット１の各部の動作を統括的に制御する。制御部１０は、また、表示制御部１１、対話制御部１２、環境認識部１３、及び状態制御部１４としての機能を有する。これらの詳細については、後述する。

表示部２０は、ロボット１での表示を行うブロックである。表示部２０は、頭部２の顔領域に顔画像を表示することで、ロボット１にて喜怒哀楽等の表情を表出する。本実施の形態では、表示部２０は、リアプロジェクション方式でプロジェクタによりロボット１内部から、ロボット１頭部２の顔領域に顔画像を映し出すものとする。しかし、これには限定されず、例えば、液晶表示装置にて顔画像が表示される構成であってもよい。

音声出力部３０は、ロボット１による音声（発話音声）の出力装置であり、ここではスピーカである。音声入力部４０は、ユーザによる音声（ユーザ音声）の入力装置でありここではマイクである。

モータ部５０は、ロボット１の各種運動動作を実行するブロックである。モータ部５０が実行するロボット１における運動動作としては、例えば、頭部２を水平方向に回転させたり、手を上下に動かしたりといった運動動作が挙げられるが、これらに限定されない。ロボット１の運動動作とは、ロボット１の少なくとも一部が物理的に（機械仕掛けにて）動くことを指す。

センサ部６０は、ロボット１内部あるいはロボット１周囲の環境を検知するための装置である。本実施の形態では、センサ部６０は、各種センサ６０ａ及びカメラ６０ｂを備えている。各種センサ６０ａは、ここでは、ロボットのハードウエアの故障（エラー）を検知するセンサ、温度センサ、湿度センサ、照度センサ、加速度センサ、タッチセンサ、加速度センサ、人感センサ、及び時計を含むものとする。各種センサ６０ａは、これらのうちのいくつかを含まなくてもよいし、これら以外のセンサを含んでいてもよい。カメラ６０ｂは、静止画像及び／または動画像を撮影する撮像装置である。センサ部６０は、カメラ６０ｂを備えていなくてもよい。

通信部７０は、通信ネットワークにより外部との通信を行うブロックである。通信ネットワークとしては、例えば、インターネットが利用できる。また、電話回線網、移動体通信網、ＣＡＴＶ（Cable Television）通信網、衛星通信網などを利用することもできる。

ロボット１は、図２に示すように、通信ネットワークにて情報提供サーバ１００と接続している。情報提供サーバ１００はロボット１に対話に必要な情報を提供する装置である。情報提供サーバ１００は、１台であってもよいし、複数台が通信ネットワークを介して接続した構成であってもよい。なお、ロボット１は情報提供サーバ１００と接続しておらず、スタンドアローン型のロボットであってもよい。情報提供サーバ１００は、ロボット１を管理する管理サーバであってもよい。管理サーバに複数のロボット１が接続されている場合には、管理サーバは複数のロボットを個別に管理する。例えば、通信部７０により管理サーバから顔画像データ及び発話データの更新データを取得できるように構成されていると、表情データのバリエーション及び発話のバリエーションをさらに増やすことができる。また、ロボット１の制御部１０の一部の機能を管理サーバにて行わせてもよい。このような構成であると、ロボット１の処理能力の向上やデータ格納部８０の容量の拡大を図ることなく、複雑な表情の顔画像を表示することが可能になる。

データ格納部８０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）などを含み、ロボット１にて用いられる各種情報（データ）を記憶するブロックである。また、データ格納部８０は、ロボット１の頭部２の顔領域に表示する顔画像のデータベースである顔画像ＤＢ８１を格納している。顔画像ＤＢ８１ｂには表情毎に顔画像データが登録されている。また、データ格納部８０は、ロボット１が発話する発話データのデータベースである対話シナリオ８２を格納している。対話シナリオ８２についてその詳細を後述する。

対話制御部１２は、ユーザとの音声対話に必要な処理を行うブロックである。対話制御部１２は、音声入力部４０から入力されたユーザ音声を音声認識し、当該音声認識結果に対応付けられた発話データを対話シナリオ８２から読み出し音声合成を行い、音声出力部３０から出力する。あるいは、自律トリガが発生すると、当該自律トリガに対応付けられた発話データを対話シナリオ８２から読み出し音声合成を行い、音声出力部から出力する。なお、発話データが音声データとして生成されている場合には音声合成は行わない。音声認識の処理及び音声合成の処理については、公知技術を用いることができる。

環境認識部１３は、センサ部６０による出力値から、ロボット１内部またはロボット１周囲の情報を取得するブロックである。

状態制御部１４は、ロボット１における動作状態（モード）を決定し、決定した動作状態となるようにロボット１の各部を制御するブロックである。動作状態の例としては、ユーザ音声の入力またはユーザアクションを待つ受付状態、音声認識を行う音声認識状態、発話を行う発話状態、情報提供サーバ１００にと通信を対話に必要な情報を検索する検索状態、自機のセンサ部６０による検知結果を出力する状態出力状態、スリープ状態、スリープ状態から受付状態までの間の復帰状態などが挙げられるが、これらに限定されない。

表示制御部１１は、表示部２０を制御し、ロボット１の頭部２の顔領域に顔画像を表示させるブロックである。さらに、表示制御部１１は、表情決定部１５を有する。

表情決定部１５は、ロボット１へ入力されたユーザ音声またはロボット１から出力する発話音声に対応付けられた感情パラメータ、センサ部６０の検知結果に対応付けられた感覚パラメータ、及びロボット１の動作状態に対応付けられた状態パラメータ、を用いて表情を決定するそして、表示制御部１１は、表情決定部１５が決定した表情に応じた顔画像を表示部に表示させる。表情の決定及び顔画像の表示の具体例については後述する。

各パラメータは、表情を指定する情報である。

感情パラメータは、後段で説明する対話シナリオ８２にて、音声トリガ（ユーザ音声）または発話データ（発話音声）に対応付けられて登録された表情を指定する情報である。後述のように、例えば、「喜びが大」、「喜びが中」、「喜びが小」と言ったように、同じ感情（ここでは喜び）であっても、ユーザ音声または発話音声に応じて表情のユーザに与える印象（強さ、度合い）（ここでは、大、中、小）が異なる。さらに、感情パラメータは、ロボット１では処理できない程に長いユーザ音声が入力されたり、音声認識できない単語やフレーズが音声入力されたりする場合に、理解できなという表情を指定するよう設定されている。また、発話音声の種類（応答パターン）が豊富にあるコンテンツに対応付けられたユーザ音声には、興味を持って聞くような表情を指定するよう設定されている。例えば、料理コンテンツが豊富に登録されていれば、メニューの名前などを音声認識できた場合は興味を持つ表情を指定する。このように、感情パラメータを用いることで、音声対話中の状況に応じて表情を変えることができ、直感的に状態を理解させてスムーズな対話を実現することができる。

感覚パラメータは、センサ部６０が検知した、ロボット１のエラーや周囲温度が高温である（例えば、３５℃以上）等の検知結果に応じた表情を指定する情報である。感覚パラメータは、例えば、エラー検知時には、エラーが発生していることを表情によりユーザが直感的にわかるよう、エラー専用の表情を指定するよう設定されている。なお、感覚パラメータはセンサ部６０の検知結果に対応させてデータ格納部８０に格納されている。

状態パラメータは、動作状態に対応づけられた表情を指定する情報である。感覚パラメータは、例えば、ユーザがロボット１のスリープ状態（応答不可）をその表情から直感的にわかるよう、スリープ状態では、寝ている表情を指定するよう設定されている。また、音声認識状態では、聴いている表情を指定する。また、応答処理状態は、考えている表情を指定し、発話状態では、感情パラメータと同様に対話シナリオ８２でのユーザ音声または発話音声に応じて表情を指定するよう設定されている。状態パラメータは、同じ動作状態においては変化しないように設定されていてもよいが、変化するように設定されていてもよい。例えば、センサ部６０による検知結果に応じて、待機状態において指定する表情が変わるように設定されていてもよい。

なお、状態パラメータは動作状態に対応させて、データ格納部８０に格納されている。

各パラメータは、表情を指定する情報ではなく、数値であってもよい。つまり。各ユーザ音声または各発話音声に感覚パラメータとしての数値が対応づけられており、センサ部６０の各検知結果に感情パラメータとしての数値が対応付けられており、及びロボット１の各動作状態に状態パラメータとしての数値が対応付けられており、表情決定部１５はこれらを用いて表情を決定してもよい。

また、表示制御部１１は、ユーザ音声または発話音声から決定される表情の顔画像、センサ部６０の検知から決定される表情の顔画像、及びロボット１の動作状態から決定される表情の顔画像を、複合した顔画像を表示する、と言い換えることもできる。この場合、各パラメータは、顔画像そのものである。

以上から分かるように、ロボット１の表情は、ユーザ音声又発話音声、センサ部６０の検知結果、及びロボット１の動作状態に依存して様々に変わる。そのため、表情のバリエーションを増やすことができ、あたかも人間のような多彩で複雑な表情の表出を実現させることが可能となる。

ここで、表情決定部１５は、感情パラメータ、感覚パラメータ、及び状態パラメータを均等に用いて表情を決定してもよい。あるいは、感情パラメータ、感覚パラメータ、及び状態パラメータには、表情に及ぼす影響の強さを示す優先度がロボット１の動作状態に応じて設定されており、表情決定部１５は、優先度を加味して各パラメータを用いて表情を決定してもよい。優先度は、３つ全てのパラメータを用いるように設定されていても、あるいは上記３つのうち１つまたは２つのパラメータを用いるように設定されていてもよい。

（対話シナリオ）
図３は、対話シナリオ８２の一例を示す図である。図３に示す対話シナリオ８２では、ロボット１への入力内容に対応付けてロボット１からの出力内容が登録されている。対話シナリオ８２では、入力内容としてロボット１に入力されたトリガ（ロボット１にて発生したトリガ）、及びフィルタに対応させて、ロボット１からの出力内容が登録されている。

対話シナリオ８２では、ロボット１にて発生するトリガを、ユーザ音声が要因の音声トリガと、センサ部６０が検知する情報が要因の自律トリガに大別している。よって、対話シナリオ８２の音声トリガには、ユーザ音声の音声認識結果を抽象化した、例えば、単語やフレーズが登録される。抽象化については後述する。また、自律トリガには、ユーザ音声の入力以外のユーザアクション（例えば、触れる、抱き上げる）、あるいは、ロボット１が自発的に行う動作（例えば、温度センサが３５℃を超えたことを検知、人感センサがスリープ状態において人を検知、等）が登録される。ここで、ユーザアクションとは、ロボット１に対するユーザの動作、つまりロボット１のセンサ部６０が検知できるユーザの動作である。つまり、自律トリガにはロボット１のセンサ部６０が検知する情報が登録される。

フィルタは、ロボットからの出力を決定する際の、条件分岐を行うのに用いられる。図３に示す対話シナリオ８２ではフィルタは、トリガが発生した際の温度、時間、あるいは、ログである。ログとは、ユーザとの対話の履歴である。例えば、ユーザの嗜好（趣味や好きな食べ物など）や、ユーザとの以前の対話にて特定された行動や単語（「仕事に行くよ」、「昨日いちごを食べた」など）をログとして登録しておく。ログの使用の具体例を示す。「仕事に行くよ」をログとして登録している場合に、「ただいま」というユーザ音声の入力があると「おかえり、おつかれさま」という発話を行う。フィルタが設定されていないトリガが登録されていてもよい。また、フィルタとトリガの「自律」が同じものになる場合もある。

このように、ロボット１では、入力されたトリガを、音声トリガか自律トリガかに大別し、フィルタにより詳細の条件分岐を行い、音声や表情といった出力を決定する（図４の（ａ）参照）。また、ロボット１では、ユーザ音声入力があると、音声認識を行い、トリガへの抽象化を行う（図４の（ｂ）参照）。このトリガへの抽象化とは、音声認識結果をシナリオが選択できるレベル（トリガ）まで分解することである。さらに、トリガへの抽象化において、ユーザの意図を推定し、この推定をトリガとして対話シナリオに登録してもよい。

また、対話シナリオ８２では、ロボット１からの出力内容として、音声、表情、動作、その他が登録される。出力内容の「音声」としては、ロボット１が発話する発話データが登録される。出力内容の「表情」としては、表情を指定する情報、すなわち上記した感情パラメータが登録される。表情を指定する情報としては、例えば「喜びが大」、「喜びが中」、「喜びが小」、「怒りが大」、「怒りが中」、「怒りが小」、「フラット（表情が無い）」等である。これらは例示であり、より複雑な表情を指定するものであってもよいし、大中小ではなく数値にて区別されていてもよい。これらに対応する表情の顔画像データが顔画像ＤＢ８１に登録されている。よって、表示制御部１１は、トリガが発生した場合に、当該トリガに対応付けられた表情を指定する情報を基に、顔画像ＤＢ８１から該当する表情の顔画像データ読み出し、表示部２０に顔画像として表示させる。また、出力内容の「動作」としては、ロボット１での動作を指定する情報が登録される。よって、状態制御部１４は、トリガが発生した場合に、当該トリガに対応付けられた動作を指定する情報を基に、ロボットにおける動作状態を決定し、決定した動作状態となるようにロボット１の各部を制御する。また、出力内容の「その他」としては、ロボット１にて出力できるものであれば、どのような情報が登録されてもよい。

対話シナリオ８２では、音声トリガとして、単語１つに対応したものだけでなく、複数の単語の組み合わせに対応したものが登録されていてもよい。また、ある単語やあるフレーズに対応させて複数の発話データが登録されていてもよく、この場合、実際に音声出力されるものを選択すればよい。なお、発話データは、テキストデータとして格納しておけばよい。このような対話シナリオ８２の構築については、公知技術が利用できる。

（表情の決定及び顔画像の表示の具体例）
以下にロボット１の各処理における表情の決定及び顔画像の表示について図５を参照に具体例（ａ）〜（ｆ）を用いて説明する。

（ａ）挨拶処理
ロボット１は、図５の（ａ）に示すように、動作状態が待受状態（待受中）である場合には、状態パラメータ（ここでは、待受状態の表情を指定する情報）に応じて、フラットな表情（表情のない）に決定し、その顔画像を表示する。この場合、各パラメータの優先度は、感情パラメータ：感覚パラメータ：状態パラメータ＝０：０：１となっている。

その後、「おはよう」のユーザ音声が入力されると、これをトリガとして、音声認識中を示す状態パラメータ、あるいは「おはよう」というユーザ音声の感情パラメータに応じて、「喜びが小」の表情に決定し、その顔画像を表示する。その後、動作状態が発話状態であるため、これに対応する状態パラメータ（ここでは、発話状態の表情を指定する情報）に応じて、「喜びが大」の表情に決定し、その顔画像を表示する。ここでは、「おはよう」などの単純な対話であるため、対話処理の表情の顔画像の表示を挟まず応答する。

（ｂ）対話（情報検索）処理
図５の（ｂ）に示すように、対話（情報検索）処理においても上記と同様に表情が決定され、決定した表情に応じた顔画像が表示される。なお、天気予報などの情報提供サーバ１００からの情報の受信が必要な場合は、対話処理中の表情を挟むことで、応答のタイムラグをユーザに感じさせないようにすることができる。なお、音声認識を管理サーバにて行う場合にも応答に時間がかかるため、同様に対話処理の表情を挟むのが好ましい。

（ｃ）センサ検知処理
図５の（ｃ）に示すように、センサ検知処理においても上記と同様に表情が決定され、決定した表情に応じた顔画像が表示される。ここでは、所定値（例えば３５℃）を超えたことと、表情により通知できる。所定温度をユーザにとって快適な値に設定しておくことで、ロボット１はその表情により、ユーザの周囲を安全で快適な通知することができる。ここでは、温度センサを例に用いて説明したが、他のセンサであっても同様である。

さらに、ロボット１は、センサ出力処理において、センサ部６０にて検知した検知対象が所定値を超えている場合には、周囲の家電を操作可能に設けられていてもよい。例えば、各種センサ６０ａに温度センサが含まれており、この温度センサが周囲の温度として３５℃以上を検知した場合、ロボット１は、図２に示すように、自機が設置されたユーザ宅４の、空気調和機（エアコン）５−１を予め設定された温度（例えば２７℃）にて冷房運転するよう構成されていてもよい。あるいは、各種センサ６０ａに照度センサが含まれており、この照度センサがとして所定値以下を検知した場合、ロボット１は、図２に示すように、自機が設置されたユーザ宅４の、照明装置５−２をＯＮにするよう構成されていてもよい。これらは、例示であり、ロボット１によって操作可能な家電は、これらに限定されるものではない。

このように、ロボット１が周囲の家電を操作可能であると、高齢や病気などでユーザの身体が不自由であったり、例えば、別の作業で手がふさがっていたり等で、ユーザが家電を操作できない場合でも、ロボット１にて家電を操作することができる。例えば、ロボット１がエアコン５−１を操作することで、ユーザを熱射病や脱水症状または低温症等から予防できる。例えば、ロボットが照明装置５−２を操作することで、ユーザに快適な照明環境を提供することができる。

家電の操作は、ロボット１から操作信号を赤外線通信や無線ＬＡＮ通信などで送信することで行う。あるいは、管理サーバが、ロボット１が設置されたユーザ宅４に設置された家電と通信可能に構成されており、ロボット１から管理サーバへの通知により、管理サーバが家電を操作するように構成されていてもよい。

なお、ユーザ宅４にユーザを検知した場合にのみロボット１から家電を操作可能に構成されているのが好ましい。ユーザの検知は、カメラ６０ｂにて、あるいは各種センサ６０ａに人感センサが含まれている場合にはこの人感センサにて、実施すればよい。

また、ロボット１からの家電の操作前には、操作の実行を確認する音声、例えば、「エアコン（または照明）つけていい？」といった音声データをロボット１から出力させて、ユーザから実行を許可する音声、例えば、「つけて」、「ＯＮにして」、「ＯＫ」等といった肯定の音声が入力された場合に操作を実行する。このように、家電の操作を実行する前にはユーザの確認を取るのが安全性を確保する上で好ましい。

（ｄ）不具合検知処理
図５の（ｄ）に示すように、不具合検知処理においても上記と同様に表情が決定され、決定した表情に応じた顔画像が表示される。なお、状態出力中に音声認識を行うが、エラー時のため、ここでは「音声認識中」の表情にしない。

（ｅ）モード切り替え（ミュート）処理
図５の（ｅ）に示すように、モード切り替え処理においても上記と同様に表情が決定され、決定した表情に応じた顔画像が表示される。

（ｆ）スリープ復帰処理
図５の（ｆ）に示すように、スリープ復帰処理においても上記と同様に表情が決定され、決定した表情に応じた顔画像が表示される。この場合のセンサ入力は、人感センサやカメラ等により人を検知する等の復帰状態へのトリガとして用いられる。

（ロボット１のまとめ）
以上のように、ロボット１では、表示する顔画像の（ロボットが表出する）表情を、ユーザ音声又発話音声に対応付けられた「感情パラメータ」、センサ部の検知結果に対応付けられた「感覚パラメータ」、及びロボットの動作状態に対応付けられた「状態パラメータ」を用いて決定する。よって、ロボット１の表情は、ユーザ音声又発話音声、センサ部の検知結果、及びロボットの動作状態に依存して様々に変わることになる。なお、表情は画像にて表現するため、表情の種類を豊富に用意することがたやすく行え、ロボットにおいて複雑な処理をすることなく、表情を様々に変化させることが可能である。

よって、ロボット１において、表情のバリエーションを増やすことができ、あたかも人間のような多彩で複雑な表情の表出を実現させることが可能となる。そして、上記のように決定された表情の顔画像を表示することで、話し手であるユーザの感情に共感したり、ロボット１に感情があるような振る舞いをさせたり、直感的にロボットの状態をユーザに理解させたりすることができる。そのため、ロボット１は、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うことが可能となる。

さらに、感情パラメータ、感覚パラメータ、及び状態パラメータには、表情に及ぼす影響の強さを示す優先度が自機の動作状態に応じて設定されている場合には次のように表情を決定することができる。例えば、発話状態では、感情パラメータの優先度を最も高くし設定し、いずれの動作状態でも、致命的なエラーを検知した場合には感覚パラメータの優先度を最も高くすると言ったように、優先度に応じて適切に表情を決定することができる。

また、表示部２０は、カラー表示可能に構成されていてもよい。この場合、表情決定部１５は、表情と共に顔色も決定し、表示制御部１１は、表情決定部１５が決定した表情及び顔色に応じた顔画像を表示部２０に表示させる。このような表示部２０として、例えば、ロボット１内部にプロジェクタとＲＧＢのＬＥＤ発光素子とを設置し、各種表情の顔画像をプロジェクタにより投影し、ＲＧＢのＬＥＤ発光素子を用いて混色することにより、表情及び顔色を有する顔画像の表示を実現することができる。あるいは、表示部２０を液晶表示装置で構成してもよい。または別の構成にて、表情及び顔色を有する顔画像を表示可能にしてもよい。

表情に加え顔色のある顔画像を表示することで、同じ表情の顔画像であっても、顔色を異ならせることで別の顔画像として表示できる。よって、表示できる顔画像のバリエーションを増やすことができる。例えば、ロボット１が基本的な表情のみの少ない種類の顔画像のみを有する場合であっても、顔色によって、多彩なバリエーションの表現を実現することができる。

さらに、ロボット１の使用時間の経過（例えば、対話や接触の回数等）の増大に応じて、より多くの表情の顔画像を表示可能に構成されていてもよい。このように構成されていることで、ユーザはロボット１により愛着を持つことができる。

また、ロボット１は、カメラ６０ｂから入力された画像からユーザの表情や位置を解析してそれに基づきユーザと対話をするように構成されていていてもよい。例えば、ロボット１の正面から見てユーザの位置が右方向であると認識した場合、ロボットの頭部を実際に右に向ける、あるいは、頭部に顔が右に向いて移動する状態を表示することで、ユーザの方を向いている、つまり応答可能であるという状態を示す構成であってもよい。

〔実施の形態２〕
以下では、本発明の別の実施の形態のロボットについて説明する。なお説明の便宜上、実施の形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。本実施の形態に係るロボット１ｂは、顔画像を表示し、音声対話を行うロボットであり、その外観は、ロボット１と同様に、図２に示すように頭部２と胴体部３とを有する雪だるま型である。

本実施の形態のロボット１ａの機能的構成は、図１に示すように、ロボット１と同様である。よって、ロボット１ａは、ロボット１と同じ機能を備えている。ただし、ロボット１ａの制御部１０ａにおける表示制御部１１ａは、ロボット１の制御部１０における表示制御部１１における機能に加え、以下の機能を有する。表示制御部１１ａは、表情決定部１５が新たに決定した表情の新顔画像を表示し、その後、表情のユーザに与える印象（表情の強さ）が新顔画像と前に表示していた旧顔画像と新顔画像との中間に設定された顔画像を所定期間表示してから、旧顔画像の表示に戻すよう表示部２０を制御する。

この表示制御部１１ａの制御について、図６を参照に具体例を用いて説明する。表示制御部１１ａは、図６の（ａ）に示すように、新たに決定された表情の新顔画像として「喜びが大」の表情の顔画像ｂＧを表示させる際、次のように表示部２０を制御する。旧顔画像であるフラットな表情の顔画像ａＧの表示の後、新顔画像である「喜びが大」の表情の顔画像ｂＧを「喜びが大」の表情に応じて設定された期間表示し、その後、表情の強さが顔画像ａＧと顔画像ｂＧとの中間に設定された「喜びが小」の顔画像ｃＧを所定期間表示してから、顔画像ａＧの表示に戻すよう表示部２０を制御する。さらに、表示制御部１１ａは、図６の（ｂ）に示すように、新たに決定された表情の新顔画像として「怒りが中」の表情の顔画像ｄＧを表示する際、次のように表示部２０を制御する。旧顔画像であるフラットな表情の顔画像ａＧの表示の後、新顔画像である「怒りが中」の表情の顔画像ｄＧを、「怒りが中」の表情に応じて設定された期間表示し、その後、表情の強さが顔画像ａＧと顔画像ｄＧとの中間に設定された「怒りが小」の顔画像ｅＧを所定期間表示してから、顔画像ａＧの表示に戻すよう表示部２０を制御する。

図６に示す具体例からは、「喜びが大」の表情の顔画像ｂＧの表示期間が、「怒りが中」の表情の顔画像ｄＧの表示期間よりも長くなっていることがわかる。このように、表示制御部１１ａが、喜びの表情の顔画像ｂＧは長い期間表示するが、怒りの表情の顔画像ｄＧは短く表示するといった制御を行うことで、ユーザに安心感を与えることができる。なお、この制御は単なる例示である。よって、新顔画像を表示し、その後、表情のユーザに与える印象が中間に設定された顔画像を所定期間表示してから、旧顔画像の表示に戻す際の制御は、ここに開示された内容に限定されない。各顔画像の表情についても、各顔画像の表示期間（表情の保持時間）の設定についても、限定はされない。また、表情の強さが中間に設定された顔画像は、旧顔画像と新顔画像との間であれば、どちらかに寄っていても（似ていても）構わなく、「中間」はどのように設定されてもよい。

上記のように、ロボット１ａでは、表情の強さが中間に設定された顔画像ｃＧまたはｅＧが所定期間表示されてから、旧顔画像の表示に戻るため、ユーザがロボット１ａの表情の変化についていきやすい。そのため、ユーザがより親しみをもってロボット１ａに接することが可能となる。上記具体例では、表情の強さが中間に設定された顔画像は１つであるが、複数あってもよい。この場合、表情の強さの段階が徐々に小さくなるように各顔画像を表示し、旧顔画像に戻るように制御するとよい。このとき、表示部２０がカラー画像を表示可能に設けられていれば、例えば、怒りの顔画像の顔色を赤色にし、この赤色が徐々に薄くなって、旧顔画像に戻るように、制御してもよい。

さらに、新顔画像ｂＧまたはｄＧや、中間の顔画像ｃＧまたはｅＧの表示期間を、ロボット１ａ毎に変化させることでロボット１ａの個性を決めることもできる。表情の保持期間は、出荷時に設定してもよいし、ユーザが変更可能なっていてもよい。ロボット１ａに個性を与えることで、ユーザはより親しみをもってロボット１ａに接することができる。

〔実施の形態３〕
以下では、本発明のさらに別の実施の形態のロボットについて説明する。なお説明の便宜上、実施の形態１または２にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。本実施の形態に係るロボット１ｂは、顔画像を表示し、音声対話を行うロボットであり、その外観は、ロボット１と同様に、図２に示すように頭部２と胴体部３とを有する雪だるま型である。

図７は、本実施の形態に係るロボット１ｂの機能的構成を示すブロック図である。ロボット１ｂは、図７に示すように、表示制御部１１ｂ及びデータ格納部８０の構成が図１に示す実施の形態１のロボット１とは異なるが、これら以外はロボット１と同様である。

ロボット１ｂは、モータ部５０、センサ部６０、ファン（図示せず）、表示部２０（プロジェクタ）といった動的部分の不具合である機能的不具合に加え、動的部分の取り付けと言った性能的不具合について、以下で説明するように外部に通知することが可能である。

制御部１０ｂは、ロボット１ｂの各部を統括制御するブロックであり、表示制御部１１ｂ、対話制御部１２、不具合推測部１６として機能する。

表示制御部１１ｂは、表示部２０を制御するブロックである。表示制御部１１ｂは、表示部２０を制御し、ロボット１の頭部２の顔領域に顔画像を表示させる。

対話制御部１２ｂは、ユーザとの音声対話に必要な処理を行うブロックである。対話制御部１２ｂは、音声入力部４０から入力されたユーザ音声を音声認識し、当該音声認識結果に対応付けられた発話データを対話シナリオ８２ｂから読み出し音声合成を行い、音声出力部３０から出力する。あるいは、自律トリガが発生すると、当該自律トリガに対応付けられた発話データを対話シナリオ８２ｂから読み出し音声合成を行い、音声出力部から出力する。なお、発話データが音声データである場合には音声合成は行わない。

不具合推測部１６は、音声入力部（検知部）４０から入力されたユーザ音声（ユーザアクション）、または、センサ部（検知部）６０が検知したユーザアクションの少なくとも一方に基づき、ロボット１ｂにおける不具合を推測するブロックである。ここで、センサ部６０にて検知されるユーザアクションとは、センサ部６０の各種センサ６０ａに含まれるユーザの動作を検知できるセンサ、（例えば、タッチセンサ、加速度センサ、人感センサ等）、あるいはカメラ６０ｂの少なくとも１つにて取得される、ユーザの動作に関する情報であればよい。なお、センサ部６０に音声入力部４０が含まれ、ユーザアクションにユーザからの音声入力が含まれてもよい。この場合、不具合推測部１６は、センサ部６０が検知したユーザアクションに基づき、ロボット１ｂにおける不具合を推測する。

不具合推測部１６が推測した不具合の内容を示す情報または当該不具合の解消に必要な情報の少なくとも一方である不具合情報は、対話制御部（不具合通知部）１２ｂの制御により、音声出力部３０からの発話音声に反映させて通知する。あるいは、表示制御部（不具合通知部）１１ｂの制御により、表示部２０にて表示する顔画像の表情に反映させて通知する。

データ格納部８０ｂは、ロボット１ｂにて用いられる各種情報（データ）を記憶するブロックである。また、データ格納部８０ｂは、ロボット１ｂの表示部２０が表示する顔画像のデータベースである顔画像ＤＢ８１ｂと、ロボット１ｂが発話する発話データのデータベースである対話シナリオ８２ｂとを格納している。顔画像ＤＢ８１ｂには表情毎に顔画像データが登録されている。対話シナリオ８２ｂには、音声認識結果及び自律トリガに対応付けて、発話データが登録されている。また、対話シナリオ８２ｂには、不具合推測部１６が推測した不具合に対応付けて、当該不具合の内容を示す情報または当該不具合の解消に必要な情報である不具合情報をロボット１ｂが発話するのに必要な発話データが登録されている。さらに、対話シナリオ８２ｂには、発話データと対応付けて表情を指定する情報が登録されている。よって、ロボット１ｂが対話制御部１２ｂによる制御によってある発話データに基づく発話を行う際に、表示制御部１１ｂは、当該発話データに対応付けられた表情を指定する情報を基に、顔画像ＤＢ８１ｂから該当する表情の顔画像データ読み出し、表示部２０に顔画像として表示させる。よって、ロボット１ｂでは、不具合情報を発話音声または顔画像の表情の少なくとも一方に反映させて通知することができる。

ロボット１ｂによる不具合の推測及び不具合情報の通知について、具体例（１）〜（５）を用いて説明する。

（１）ロボット１ｂは、センサ部６０によりユーザが付近にいることを検知したが、音声入力部４０からの音声入力が無い（音声を拾えない）場合、対話制御部１２ｂにより「何か言って」等のユーザによる音声入力を即す発話を行う。それでも音声が拾えない場合、不具合推測部１６が、音声入力部４０であるマイクが不良である（不具合が発生している）と推測する。そして、対話制御部１２ｂにより「耳がおかしいよ」という発話を行う。また、表示部２０がカラー画像を表示可能に構成されている場合には、対話制御部１２ｂによる「耳がおかしいよ」等の発話と共に、またはこの発話に代えて、赤い色の耳を表示する。ここでは、「耳がおかしいよ」という発話及び／または赤い色の耳を表示により、不具合の内容を示す情報を通知する。

ユーザが付近にいることの検知は、センサ部６０の各種センサ６０ａに含まれる、タッチセンサ、加速度センサ、人感センサ、及びカメラ６０ｂの少なくとも１つを用いて行うことができる。これら以外のセンサにてユーザが付近にいることの検知を行ってもよい。また、ロボット１ｂは、ユーザが付近にいることを検知する代わりに、カメラによりユーザが口を動かしていることを検知すると言った複雑な検知が行えるように構成されていてもよい。

（２）ロボット１ｂは、「顔が変だよ」というユーザ音声を音声入力部４０から取得すると、対話制御部１２ｂにより「どう変なの？」という発話を行う。これに対して、「場所が変」というユーザ音声を取得すると、不具合推測部１６は、表示部２０であるプロジェクタの取り付けに不具合が発生していると推測する。そして、対話制御部１２ｂにより「調子悪いから入院させて」と発話することで、不具合の解消に必要な情報を通知する。

また、「どう変なの？」という発話に対して、「色が変」というユーザ音声を取得すると、不具合推測部１６は、表示部２０であるプロジェクタが不良であると推測する。この場合も、対話制御部１２ｂにより「調子悪いから入院させて」と発話することで、不具合の解消に必要な情報を通知する。

（３）ロボット１ｂは、「どっち向いているの？」というユーザ音声を音声入力部４０から取得すると、対話制御部１２ｂにより「右向くよ」と発話し、頭部２を回転させる制御を行う。そして、「向いた？」と発話する。これに対して、「はい」や「うん」と言ったユーザ音声を取得すると、不具合推測部１６は、頭部２を回転させるモータの取り付け正常であるが、音声入力部４０であるマイクが不良であると推測する。そして、対話制御部１２ｂにより「耳の調子が悪いみたい」という発話を行い、不具合情報を通知する。この場合、（１）と同様に赤い色の耳を表示してもよい。

また、「向いた？」という発話に対して、「向いてないよ」や「ううん」と言ったユーザ音声を取得すると、不具合推測部１６は、音声入力部４０であるマイクの取り付けは正常であるが、頭部２を回転させるモータの取り付けが不良であると推測する。この場合、対話制御部１２ｂにより「首の調子が悪いみたい」と発話することで、不具合情報を通知する。

（４）ロボット１ｂは、センサ部６０の各種センサ６０ａに含まれる温度センサが３５℃を超えたことを検知すると、対話制御部１２ｂにより「暑くない？」と発話する。これに対して、「そうだね」や「暑いね」と言ったユーザ音声を取得すると、不具合推測部１６は、温度センサは正常であると判断する。一方で、「暑くない？」との発話に対して、「いいや」、「暑くないよ」と言ったユーザ音声を取得すると、不具合推測部１６は、温度センサが不良であると推測する。そして、対話制御部１２ｂにより「熱っぽいから入院させて」という発話を行うことで、不具合情報を通知する。この場合、汗をかいた表情であり赤い顔色の顔画像を表示してもよい。

（５）ロボット１ｂは、カメラ６０ｂからの画像と音声入力部４０からのユーザ音声との取得により、付近にユーザがいることを検知したが、各種センサ６０ａに含まれる人感センサが反応しない場合、対話制御部１２ｂにより「誰かいるの？」と発話する。これに対して、ユーザ音声を取得できた場合、人感センサの取り付けが不良であると推測する。（この推測は、以下の仮定に基づくものである。人感センサの出力値からある程度センサ自体の不良か取り付け不良かを判別できるため、出力値からセンサ自体の不良ではない判別した場合に、ユーザ音声を取得できても人感センサが反応しないのは、人感センサの取り付けが不良であると仮定する。）
そして、対話制御部１２ｂにより「目が見えなくなってきた」という発話を行うことで、不具合情報を通知する。さらに、まばたきを早くする顔画像を表示することで、不具合情報を通知してもよい。

上記の不具合の推測及び不具合情報の通知はいずれも例示であり、これらに限定はされない。また、ユーザとの対話を重ねることで不具合を絞ることも可能である。また、表示部２０は、不具合情報として、不具合を説明する文字を表示したり、ロボット１ｂのメーカーの電話番号やＵＲＬを表示したりしてもよい。また、ロボット１ｂは、特定の不具合を自動的に解消できるように構成されていたり、ユーザ操作により特定の不具合を解消できるように構成されていたりしてもよい。

以上のように、ロボット１ｂでは、ユーザ音声またはユーザアクションの少なくとも一方に基づき、つまり、ユーザとのより自然なコミュニケーションに基づき、自機の不具合を推測することができる。そして、不具合情報にて、ユーザに不具合の内容または不具合の解消に必要な情報を明確に通知することができる。このようにロボット１ｂでの不具合の推測及び不具合情報の通知は、コミュニケーションが重視されているので、ユーザは、ロボット１ｂに愛着を湧きやすく、不具合に対して適切に対処する可能性が高い。よって、ロボット１ｂの不具合が放置されるのが抑制され、ロボット１ｂのメンテナンスが適切に適時に行われることに繋がる。このように、ロボット１ｂは、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うことが可能である。

また、ロボット１ｂは、不具合情報を発話音声または顔画像の表情の少なくとも一方に反映させて通知することで、ユーザに、コミュニケーションをより重視して、わかり易く、不具合情報を通知することができる。なお、表情は画像で表示するため、表情の種類を豊富に用意することがたやすく行える。よって、ロボット１ｂにおいて複雑な処理をすることなく、表情を不具合情報に対応させたわかり易いものにすることが可能となる。

なお、従来のロボットでは、各部品や各センサの取り付け方と言ったロボットの性能的不具合については検知ができないため、通知もできない。これら性能的不具合を検知及び通知するには、多くの仕組みをロボットに搭載する必要があり、コストがかかり過ぎる。しかし、ロボット１ｂでは、性能的不具合についてもユーザ音声またはユーザアクションの少なくとも一方に基づき推測でき、通知可能である。よって、ロボット１ｂは、自機の不具合をコストを抑えて通知することができる。

〔実施の形態４〕
実施の形態１から３にて説明したロボット１，１ａ，１ｂは、それぞれ、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

後者の場合、ロボット１，１ａ，１ｂは、それぞれ、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）等を備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路等を用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述した各実施の形態に限定されるものではなく、種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

〔まとめ〕
本発明の態様１に係るロボット（１）は、顔画像を表示し、音声対話を行うロボットであって、自機へ入力されたユーザ音声または自機から出力する発話音声に対応付けられた感情パラメータ、自機が有するセンサ部の検知結果に対応付けられた感覚パラメータ、及び自機の動作状態に対応付けられた状態パラメータ、を用いて表情を決定する表情決定部（１５）と、前記表情決定部が決定した表情に応じた顔画像を表示部（２０）に表示させる表示制御部（１１）と、を備えている。

上記構成によると、ロボットが表示する顔画像の（ロボットが表出する）表情を、ユーザ音声又発話音声に対応付けられた「感情パラメータ」、センサ部の検知結果に対応付けられた「感覚パラメータ」、及びロボットの動作状態に対応付けられた「状態パラメータ」を用いて決定する。よって、ロボットの表情は、ユーザ音声又発話音声、センサ部の検知結果、及びロボットの動作状態に依存して様々に変わることになる。なお、表情は画像にて表現するため、表情の種類を豊富に用意することがたやすく行え、ロボットにおいて複雑な処理をすることなく、表情を様々に変化させることが可能である。

よって、ロボットにおいて、表情のバリエーションを増やすことができ、あたかも人間のような多彩で複雑な表情の表出を実現させることが可能となる。そして、上記のように決定された表情の顔画像を表示することで、話し手であるユーザの感情に共感したり、ロボットに感情があるような振る舞いをさせたり、直感的にロボットの状態をユーザに理解させたりすることができる。そのため、上記構成によると、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うロボットを提供することが可能となる。

ここで、センサ部は、ロボット内部のまたはロボット周囲の環境を検知するセンサであれば特に限定はされない。例えば、ロボットのハードウエアの故障を検知するセンサ、温度センサ、湿度センサ、照度センサ、加速度センサ、タッチセンサ、加速度センサ、人感センサ、またはカメラであってもよい。また、センサ部は、これらのうちの複数を備えていてもよい。

本発明の態様２に係るロボットは、上記態様１に係るロボットにおいて、前記感情パラメータ、前記感覚パラメータ、及び前記状態パラメータには、表情に及ぼす影響の強さを示す優先度が自機の動作状態に応じて設定されており、前記表情決定部は、前記優先度に基づき前記各パラメータを用いて表情を決定する。

上記構成によると、ロボットの動作状態に応じて優先度が設定された、感情パラメータ、感覚パラメータ、及び状態パラメータに応じて表情が決定される。よって、例えば、発話状態では、感情パラメータの優先度が最も高くなるよう設定し、いずれの動作状態でも、致命的なエラーを検知した場合には感覚パラメータの優先度が最も高くなるよう設定しておけば、優先度に応じて適切に表情を決定することができる。なお、優先度は、上記３つ全てのパラメータを用いるように設定されていても、あるいは上記３つのうち１つまたは２つのパラメータを用いるように設定されていてもよい。

本発明の態様３に係るロボットは、前記感情パラメータは、前記ユーザ音声から推定されるユーザ感情または前記発話音声に対応付けられている。

上記構成によると、ロボットの表情を、ユーザ音声から推定されるユーザ感情または発話音声、センサ部の検知結果、及びロボットの動作状態に応じて決定する。表情の決定にユーザ感情が加味される場合には、話し手であるユーザの感情により共感した表情を表出することが可能となる。

本発明の態様４に係るロボット（１ａ）は、上記態様１から３のいずれか１つに係るロボットにおいて、前記表示制御部は、前記表情決定部により新たに決定された表情の顔画像を当該決定された表情に応じて設定された期間表示し、その後、前記新たに決定した表情の顔画像の前に表示していた顔画像の表示に戻すよう前記表示部を制御する前記表示部を制御する。

上記構成によると、例えば、新たに決定した表情の顔画像として、喜びの表情の顔画像は長く表示するが、怒りの表情の顔画像は短く表示するといった制御を行うことで、ユーザに安心感を与えることができる。また、新たに決定した表情の顔画像の表示期間（表情の保持時間）を、ロボット毎に変化させることでロボットの個性を決めることもできる。

本発明の態様５に係るロボットは、上記態様４に係るロボットにおいて、前記表情決定部が新たに決定した表情の新顔画像を表示し、その後、表情のユーザに与える印象が前記新顔画像の前に表示していた旧顔画像と前記新顔画像との中間に設定された顔画像を所定期間表示してから、前記旧顔画像の表示に戻すよう前記表示部を制御する。

上記構成によると、ロボットにおいて、表情のユーザに与える印象が中間に設定された顔画像が所定期間表示されてから、旧顔画像の表示に戻るため、ユーザがロボットの表情の変化についていきやすい。そのため、ユーザがより親しみをもってロボットに接することが可能となる。

本発明の態様６に係るロボットは、上記態様１から５のいずれか１つに係るロボットにおいて、前記表示部は、カラー表示可能に構成されており、前記表情決定部は、表情と共に顔色も決定し、前記表示制御部は、前記表情決定部が決定した表情及び顔色に応じた顔画像を前記表示部に表示させる。

上記構成によると、表情に加え顔色のある顔画像を表示することができる。よって、例えば、同じ表情の顔画像であっても、顔色を異ならせることで別の顔画像として表示できる。このように、上記構成によると、表示できる顔画像のバリエーションを増やすことができる。

本発明の態様７に係るロボット（１ｂ）は、顔画像を表示し、音声対話を行うロボットであって、自機が有する検知部（音声入力部４０、センサ部６０）が検知したユーザアクションに基づき、自機における不具合を推測する不具合推測部（１６）と、前記推測された不具合の内容を示す情報または当該不具合の解消に必要な情報の少なくとも一方である不具合情報を外部に通知する不具合通知部（対話制御部１２、表示制御部１１ｂ）と、を備えている。

上記構成によると、ロボットは、ユーザアクションに基づき自機の不具合を推測し、不具合情報を外部に通知する。ユーザアクションはユーザからのロボットへのアクションであり、例えば、音声入力、接触、抱き上げ等である。よって、ユーザとの自然なコミュニケーションに基づき、自機の不具合を推測することができる。そして、不具合情報にて、ユーザに不具合の内容または不具合の解消に必要な情報を明確に通知することができる。このような不具合の推測及び不具合情報の通知は、コミュニケーションが重視されているので、ユーザは、ロボットに愛着を湧きやすく、不具合に対して適切に対処する可能性が高い。よって、ロボットの不具合が放置されるのが抑制され、ロボットのメンテナンスが適切に適時に行われることに繋がる。

ここで、検知部は、ユーザアクションを検知できるものであればどのようなセンサであってもよい。検知部は、例えば、音声入力部（マイク）、タッチセンサ、加速度センサ、人感センサ、及びカメラの少なくとも１つを含んでいてもよい。

以上からわかるように、上記構成によると、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うことが可能なロボットを提供することができる。

なお、従来のロボットでは、ハードウエアの故障といったロボットの機能的不具合については、エラー番号を表示したり警告音を出したりすることで通知できるが、各部品や各センサの取り付け方と言ったロボットの性能的不具合については検知ができないため、通知もできない。これら性能的不具合を検知及び通知するには、多くの仕組みをロボットに搭載する必要があり、コストがかかり過ぎる。しかし、本発明の上記構成によると、性能的不具合についてもユーザアクションに基づき推測でき、通知可能である。よって、上記構成によると、ロボットの不具合をコストを抑えて通知することが可能となる。

本発明の態様８に係るロボットは、上記態様７に係るロボットにおいて、前記不具合通知部は、前記不具合情報を、音自機から出力する発話音声または自機にて表示する顔画像の表情の少なくとも一方に反映させて通知する。

上記構成によると、不具合情報を、発話音声または顔画像の表情の少なくとも一方に反映させて通知することで、ユーザに、コミュニケーションをより重視して、わかり易く、不具合情報を通知することができる。なお、表情は画像で表示するため、表情の種類を豊富に用意することがたやすく行える。よって、ロボットにおいて複雑な処理をすることなく、表情を不具合情報に対応させたわかり易いものにすることが可能となる。

本発明の態様９に係るロボットは、上記態様７または８に係るロボットにおいて、前記不具推測部は、前記推測した不具合を、さらに自機に入力されたユーザ音声に基づき限定し、前記不具合通知部は、前記限定された不具合についての前記不具合情報を通知する。

上記構成によると、推測した不具合をユーザ音声にて絞ることができる。よって、不具合情報を詳細に通知することが可能となる。よって、ユーザにより適切な対応を行わせることができる。

本発明の態様１０に係るロボットは、上記態様７から９のいずれか１つに係るロボットにおいて、前記推測された不具合を解消する調整部を備えている。

上記構成によると、調整部が不具合を自動で解消できるものであれば、ユーザに負担をかけることなく不具合を解消できる。また、調整部をユーザが操作できるものであれば、ユーザが調整部を操作して不具合を解消することができる。

本発明の態様１１に係るコミュニケーションシステムは、上記態様１から１０のいずれか１つに係るロボットと、当該ロボットにユーザとの対話に必要な情報を提供するサーバ装置（情報提供サーバ１００）とを備えている。

上記コミュニケーションシステムによると、サーバ装置からユーザとの対話に必要な情報をロボットに提供することで、ロボットでは、バリエーションに富んだ情報にて対話を行うことができ、より自然なコミュニケーションを行うことが可能となる。

本発明の態様１２に係る制御方法は、顔画像を表示し、音声対話を行うロボットの制御方法であって、前記ロボットへ入力された音声または自機から出力する音声に対応付けられた感情パラメータ、前記ロボットが有するセンサ部の検知結果に対応付けられた感覚パラメータ、及び前記ロボットの動作状態に対応付けられた状態パラメータ、を用いて表情を決定する表情決定ステップと、前記表情決定ステップにて決定した表情に応じた顔画像を前記ロボットの表示部に表示させる表示制御ステップとを含む。

上記制御方法によると、態様１に係るロボットと同様の効果を奏し、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うようにロボットを制御することができる。

本発明の態様１３に係る制御方法は、顔画像を表示し、音声対話を行うロボットの制御方法であって、前記ロボットへのユーザのアクションに基づき、前記ロボットにおける不具合を推測する不具合推測ステップと、前記不具合推測ステップにて推測された不具合の内容を示す情報または当該不具合の解消に必要な情報の少なくとも一方である不具合情報を外部に通知する不具合通知ステップと、を含む。

上記制御方法によると、態様７に係るロボットと同様の効果を奏し、ユーザが親しみをもって接することができ、ユーザとのより自然なコミュニケーションを行うようにロボットを制御することができる。

また、本発明の各態様に係るロボットは、コンピュータによって実現してもよく、この場合には、コンピュータを、ロボットが備える表情決定部及び表示制御部、または、不具合推測部及び不具合通知部として動作させることにより、ロボットを、コンピュータにて実現させるプログラム、及びそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は、ユーザと音声対話を行うコミュニケーションロボット等に利用可能である。

１，１ａ，１ｂロボット
１０，１０ａ，１０ｂ制御部
１１，１１ａ表示制御部
１１ｂ表示制御部（不具合通知部）
１２対話制御部（不具合通知部）
１３環境認識部
１４状態制御部
１５表情決定部
１６不具合推測部
２０表示部
３０音声出力部
４０音声入力部（検知部）
５０モータ部
６０センサ部（検知部）
８０データ格納部
８２，８２ｂ対話シナリオ
１００情報提供サーバ

Claims

顔画像を表示し、音声対話を行うロボットであって、
自機へ入力されたユーザ音声または自機から出力する発話音声に対応付けられた感情パラメータ、自機が有するセンサ部の検知結果に対応付けられた感覚パラメータ、及び自機の動作状態に対応付けられた状態パラメータ、を用いて表情を決定する表情決定部と、
前記表情決定部が決定した表情に応じた顔画像を表示部に表示させる表示制御部と、を備え、
前記表示制御部は、前記表情決定部により新たに決定された表情の新顔画像を当該決定された表情に応じて設定された期間表示し、その後、表情のユーザに与える印象が、前記新顔画像と前記新顔画像の前に表示していた旧顔画像との中間に設定された顔画像を所定期間表示してから、前記旧顔画像の表示に戻すよう前記表示部を制御する、ことを特徴とするロボット。
前記感情パラメータ、前記感覚パラメータ、及び前記状態パラメータには、表情に及ぼす影響の強さを示す優先度が自機の動作状態に応じて設定されており、
前記表情決定部は、前記優先度に基づき、前記感情パラメータ、前記感覚パラメータ、及び前記状態パラメータを用いて表情を決定することを特徴とする請求項１に記載のロボット。
前記表示部は、カラー表示可能に構成されており、
前記表情決定部は、表情と共に顔色も決定し、
前記表示制御部は、前記表情決定部が決定した表情及び顔色に応じた顔画像を前記表示部に表示させることを特徴とする請求項１または２に記載のロボット。