JP2011209787A

JP2011209787A - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: JP2011209787A
Application number: JP2010074158A
Authority: JP
Inventors: Diprofio Ugo; ウゴディプロフィオ; Akane Sano; あかね佐野; Koichi Matsuda; 晃一松田; Tsutomu Sawada; 務澤田; Keiichi Yamada; 敬一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-03-29
Filing date: 2010-03-29
Publication date: 2011-10-20
Also published as: US20110282673A1; US8983846B2; CN102207844B; CN102207844A

Abstract

【課題】ユーザ発話や動作による入力を可能とした情報処理装置において、処理継続が困難となった場合にフィードバック情報を出力する装置および方法を提供する。
【解決手段】ユーザ発話の音声解析や、ユーザ動作（ジェスチャー）の解析を実行し、解析結果に基づいて情報処理装置の処理を決定する。さらに、ユーザ発話やユーザ動作に基づく情報処理装置の処理過程において、処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する。ユーザはこれらのフィードバック情報を取得することで、処理ステージに応じたエラー発生状況を即座に取得することができ、無駄な待機処理等を行うことなく、再発話等のエラー対応処理を即時、実行することができる。
【選択図】図１０

Description

本発明は、情報処理装置、および情報処理方法、並びにプログラムに関する。特に、ユーザの発話や動作に基づいて様々な処理を実行する情報処理装置、および情報処理方法、並びにプログラムに関する。

ＰＣや、テレビ、録画再生機、その他、様々な家電製品を操作する場合、ユーザは、各装置に備えられた入力部やあるいはリモコンなどを操作して、所望の処理を装置に実行させる。例えばＰＣを利用する場合にはキーボードやマウスを入力デバイスとして用いることが多い。また、テレビや録画再生機などに対してはリモコンを用いて、様々な処理、例えばチャンネルの切り替えや再生コンテンツの選択などを行うことが多い。

このような様々な装置に対する指示を、ユーザの発話や動作（ジェスチャー）によって実行するシステムについて、様々な研究がなされている。具体的には音声認識処理を用いてユーザの発話を認識するシステムや、画像処理を用いてユーザの行動やジェスチャーを認識するシステムなどである。

リモコン、キーボート、マウス等の一般的な入力デバイスに加えて、音声認識や画像認識など、様々な複数のコミュニケーションモードを利用して、ユーザとのコミュニケーションを実行するインタフェースは、マルチモーダル・インタフェースと呼ばれる。マルチモーダル・インタフェースについて開示した従来技術として、例えば、特許文献１（ＵＳ特許６９８８０７２号公報）がある。

しかしながら、このようなマルチモーダル・インタフェース等において利用される音声認識装置や画像認識装置は処理能力に限界があり、理解できるユーザの発話や動作が限られてしまう。従って、ユーザの意思がシステム側に伝わらない場合が多いというのが現状である。

ＵＳ特許第６，９８８，０７２号公報

本発明は、例えば上記問題点に鑑みてなされたものであり、ユーザの発話や動作（ジェスチャー）などの音声情報や画像情報を情報処理装置が入力して処理を実行する構成において、ユーザと装置とのコミュニケーションの実行中にユーザに様々なフィードバック情報を提供することでシステムとユーザ間の相互理解度を高め、ユーザ要求の正確な理解に基づく正確な処理の実行を可能とした情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。

本発明の第１の側面は、
ユーザ発話の解析処理を実行する音声解析部と、
前記音声解析部の解析結果を入力し、情報処理装置の実行する処理を決定するデータ処理部を有し、
前記データ処理部は、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行う情報処理装置にある。

さらに、本発明の情報処理装置の一実施態様において、前記情報処理装置は、ユーザ動作を解析する画像解析部を有し、前記データ処理部は、前記画像解析部の解析結果を入力し、情報処理装置の実行する処理を決定し、ユーザ動作に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行う。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表示態様を変更する処理を行う。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表情を変更する処理を行う。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターを介して情報処理装置の状況の説明情報を出力する処理を行う。

さらに、本発明の情報処理装置の一実施態様において、前記データ処理部は、ユーザ発話またはユーザ動作に基づく処理に成功した場合は、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表情を変更、またはアバターを介して情報処理装置が処理に成功したことの説明情報を出力する。

さらに、本発明の第２の側面は、
情報処理装置において、情報処理を実行する情報処理方法であり、
音声解析部が、ユーザ発話の解析処理を実行する音声解析ステップと、
データ処理部が、前記音声解析ステップにおける解析結果を入力し、情報処理装置の実行する処理を決定するデータ処理ステップを有し、
前記データ処理ステップは、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行うステップを含む情報処理方法にある。

さらに、本発明の第３の側面は、
情報処理装置において、情報処理を実行させるプログラムであり、
音声解析部に、ユーザ発話の解析処理を実行させる音声解析ステップと、
データ処理部に、前記音声解析ステップにおける解析結果を入力させ、情報処理装置の実行する処理を決定させるデータ処理ステップを有し、
前記データ処理ステップは、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行わせるステップを含むプログラムにある。

なお、本発明のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

本発明の一実施例の構成によれば、ユーザ発話や動作による入力を可能とした情報処理装置において、処理継続が困難となった場合にフィードバック情報を出力する装置および方法を提供する。ユーザ発話の音声解析や、ユーザ動作（ジェスチャー）の解析を実行し、解析結果に基づいて情報処理装置の処理を決定する。さらに、ユーザ発話やユーザ動作に基づく情報処理装置の処理過程において、処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する。ユーザはこれらのフィードバック情報を取得することで、処理ステージに応じたエラー発生状況を即座に取得することができ、無駄な待機処理等を行うことなく、再発話等のエラー対応処理を即時、実行することができる。

本発明の情報処理装置の利用例について説明する図である。本発明の情報処理装置の構成例を示すブロック図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理であるアバターの表示例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置の実行する処理例について説明する図である。本発明の情報処理装置がユーザ発話に対応して実行する処理例について説明する図である。本発明の情報処理装置がユーザ発話に対応する処理の実行中に行うアバター表示の変更例について説明する図である。本発明の情報処理装置がユーザ動作（ジェスチャー）に対応して実行する処理例について説明する図である。本発明の情報処理装置がユーザ動作（ジェスチャー）に対応する処理の実行中に行うアバター表示の変更例について説明する図である。本発明の情報処理装置のハードウェア構成例について説明する図である。

以下、図面を参照しながら本発明の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行う。
１．本発明の情報処理装置の実行する処理の概要について
２．本発明の情報処理装置の構成例について
３．ユーザに対するフィードバックおよび誘導（ガイド）による相互理解の向上を行う処理例について
（３−１）アバターを利用したフィードバック処理例
（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例
（３−３）ユーザに対するフィードバック情報と誘導（ガイド）情報を併せて利用する処理例
（３−４）ユーザ同定処理について
４．ユーザに対するフィードバックにより、ユーザ入力の必要性や入力タイミングを理解させる処理例について
（４−１）ユーザの発話に対するフィードバック処理例について
（４−２）ユーザの動作（ジェスチャー）に対するフィードバック処理例について
５．情報処理装置のハードウェア構成例について

［１．本発明の情報処理装置の実行する処理の概要について］
まず、図１を参照して本発明の情報処理装置の実行する処理の概要について説明する。図１には、本発明に係る情報処理装置の例としてテレビを示している。情報処理装置１００は、例えば、放送コンテンツの表示処理の他、内蔵する録画再生機器、例えばハードディスク、ＤＶＤやＢｌｕ−ｒａｙディスク等に記録されたコンテンツの再生処理や、録画再生機器に対する番組の録画処理などを実行する。

情報処理装置１００の前には、複数のユーザがいる。図に示す例では、ユーザａ，１１、ユーザｂ，１２、ユーザｃ，１３がいる。これらのユーザは、情報処理装置１００に対して、様々な要求を行う。例えばチャンネルの切り替え、ボリュームの調整、録画処理の開始、あるいは記録コンテンツの一覧リストの表示、リストからのコンテンツの選択再生要求などである。再生の停止、早送りなどの要求である。

ユーザは、これらの要求を音声、すなわち発話によって行う。情報処理装置１００は、カメラ１０１、マイクとスピーカを備えた音声入出力部１０２を有する。ユーザａ〜ｃ，１１〜１３の発する言葉は、マイクとスピーカを備えた音声入出力部１０２を介して情報処理装置１００内に入力される。また、ユーザａ〜ｃ，１１〜１３の画像は、カメラ１０１を介して情報処理装置１００内に入力される。

情報処理装置１０１は、これらの入力情報を解析して、装置が実行すべきアクションを決定し、実行する。ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。

さらに、情報処理装置１０１は、ユーザとのコミュニケーションの実行中、逐次、ユーザに対するフィードバック処理を実行する。例えばユーザの発話の内容の確認表示や、情報処理装置の応答などをユーザに提供する。具体的には、例えばユーザの要求が理解できない場合、あるいは実行できない場合などにおいて、ユーザに対して、その状況を説明するためのフィードバック処理を行う。これらの具体的な処理については後段で説明する。

［２．本発明の情報処理装置の構成例について］
次に、図２を参照して本発明の情報処理装置の構成例について説明する。図２に示す情報処理装置１００は、例えば図１に示す情報処理装置１００に対応する。なお、本発明の情報処理装置はテレビに限らず、ＰＣや、録画再生機、その他、様々な家電製品として実現可能である。すなわち、ユーザ要求に応じて様々な処理を行う情報処理装置である。

図２に示すように情報処理装置１００は、音声入力部（マイク）２０１、音声解析部２０２、画像入力部（カメラ）２０３、画像解析部２０４、データ処理部２０５、音声出力部（スピーカ）２０６、画像出力部（表示部）２０７を有する。

音声入力部（マイク）２０１は、情報処理装置２００の周囲の音声情報、例えばユーザの発話を入力する。音声入力部（マイク）２０１の入力した音声情報は音声解析部２０２に入力される。音声解析部２０２は、音声解析用の辞書を記憶部内に有しており、ユーザの発話した単語を、辞書を用いて解析し、解析情報をデータ処理部２０５に入力する。

画像入力部（カメラ）２０３は、情報処理装置２００の周囲の画像、例えばユーザの画像を入力する。画像入力部（カメラ）２０３の撮影した画像は画像解析部２０４に入力される。画像解析部２０４は、例えば、予め記憶部に格納済みのユーザの顔情報などの登録情報を用いて、撮影画像に含まれるユーザの識別処理を実行する。具体的には、ユーザの位置、ユーザが誰であるかなどの情報を解析する。この解析情報がデータ処理部２０５に入力される。

データ処理部２０５では、音声解析部２０２から音声解析情報を入力し、画像解析部２０４から画像解析情報を入力し、入力情報に従って、情報処理装置が実行する処理（アクション）を決定する。すなわち、前述したように、ユーザの要求が理解できた場合は、その要求に応じた処理を実行する。例えばチャンネルの切り替えやコンテンツの選択再生処理などである。

さらに、データ処理部２０５は、ユーザ発話やユーザ動作（ジェスチャー）に関する情報処理装置の認識結果等を示すフィードバック情報を生成して出力する処理を行う。例えばユーザの要求が理解できない場合、あるいは実行できない場合などに、状況を説明するためのフィードバック情報を生成し、生成したフィードバック情報を表示し、音声出力する。

フィードバック処理は、音声出力部（スピーカ）２０６を介した音声出力、あるいは画像出力部（表示部）２０７を介した画像出力のいずれか、あるいはその組み合わせによって行われる。この具体的な内容については、以下において詳細に説明する。

［３．ユーザに対するフィードバックおよび誘導（ガイド）による相互理解の向上を行う処理例について］
次に、本発明の情報処理装置の実行する処理例として、ユーザに対するフィードバックおよび誘導（ガイド）による相互理解の向上を行う処理例について説明する。

先に説明したように、音声認識や画像認識を適用したマルチモーダル・インタフェースでは、利用される音声認識装置や画像認識装置の処理能力に限界があり、理解できるユーザの発話や動作（ジェスチャー）が限られてしまう。この結果、ユーザの意思がシステム側に伝わらず、ユーザの意思に応じた処理が実行されない場合が発生するという問題がある。以下に説明する処理例は、このような問題を解決する処理例であり、具体的には、ユーザに対するフィードバックおよび誘導（ガイド）による相互理解の向上を行う処理例である。

以下では、ユーザに対するフィードバックおよび誘導（ガイド）による相互理解の向上を行う処理例として、以下の３つの具体的処理例について順次説明する。
（３−１）アバターを利用したフィードバック処理例
（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例
（３−３）ユーザに対するフィードバック情報と誘導（ガイド）情報を併せて利用する処理例
（３−４）ユーザ同定処理について

（３−１）アバターを利用したフィードバック処理例
まず、情報処理装置の代理としてのアバターを利用したフィードバック処理例について説明する。
図３を参照して、情報処理装置の実行する具体的な処理例について説明する。
図３は、例えば図１に示すテレビ等の情報処理装置１００の表示部の表示例を示している。情報処理装置１００は、ユーザの発話やジェスチャーを解析して、解析結果に応じた処理を実行する。例えばチャンネルの変更や、コンテンツの選択再生処理、録画処理などである。

図３は、ユーザが発話または動作（ジェスチャー）に基づいて処理要求を実行し、情報処理装置１００がこれらの発話や動作（ジェスチャー）を入力して解析を行い、ユーザに対するフィードバック処理として実行した表示部に対するデータ表示例を示している。

表示部には、フィードバック情報表示領域３００が設定される。フィードバック情報表示領域３００には、情報処理装置１００とのコミュニケーションを実行するユーザのユーザ画像３０１がユーザ識別情報として提示される。

このユーザ画像３０１は、図２に示す画像解析部２０４が、画像入力部２０３を介して入力した画像から識別した人の顔に基づいて、予め登録した顔画像データとのマッチング処理を実行して特定した画像である。なお、フィードバック情報表示領域３００に提示するユーザ画像３０１は、画像入力部２０３が撮影している生の画像であってもよいし、情報処理装置１００の記憶部に格納された登録済みの画像でもよい。
ユーザは、このユーザ画像３０１を見て、情報処理装置１００が認識したユーザが自分であることを確認できる。
例えば、自分でないユーザの顔がユーザ画像３０１として表示された場合は、ユーザは「ユーザが違います」といった発話等による入力を行って、情報処理装置１００に対して、ユーザの誤認を通知することができる。

フィードバック情報表示領域３００には、さらに、ユーザとの対話の相手として認識可能なアバター（仮想キャラクタ）３０３が提示される。このアバター（仮想キャラクタ）３０３は情報処理装置１００の代理としてユーザとの会話を行う仮想キャラクタである。

このアバター３０３の提示により、ユーザは、対話の相手を装置ではなく、アバターであると想定することができ、より親しみやすい対話が実現される。
なお、アバター３０３は、ユーザの入力（発話や動作）の理解レベルや情報処理装置１００の実行する処理などに応じて、その表情を変化させる。ユーザは、アバターの表情の変化に基づいて、情報処理装置の状況等を知ることができる。この具体例については後述する。

フィードバック情報表示領域３００には、さらに、ユーザからの発話等によるユーザ入力情報３０２の表示がなされる。このユーザ入力情報は、ユーザの発話やジェスチャーを情報処理装置１００が解釈した結果としてのデータである。例えば、ユーザ発話の音声認識結果に基づくユーザ発話の内容、あるいは画像解析によって得られたユーザの動作（ジェスチャー）に基づいて情報処理装置が認識した要求内容である。

情報処理装置１００の解釈が誤っていれば、その誤った情報が表示される。
ユーザは、このユーザ入力情報３０２の表示に基づいて、情報処理装置１００が正しく要求を理解したか否かを判断することができる。
例えば、ユーザの実際の要求と異なるユーザ入力情報３０２の表示がなされた場合は、ユーザは「要求が違います」といった発話等による入力を行って、情報処理装置１００に対して、ユーザ入力の誤認を通知することができる。

さらに、フィードバック情報表示領域３００には、アバター３０３の発話として、情報処理装置の応答や装置状態を示す装置処理情報３０４の表示がなされる。この装置処理情報３０４は、図に示す例では、「再生します」となっている。
これは、ユーザ入力「移動コマンド：６番目再生」に対応した情報処理装置１００側の処理である。
情報処理装置１００の解釈が誤っていれば、その誤った処理情報が表示される。
ユーザは、この装置処理情報３０４の表示に基づいて、情報処理装置１００が正しく要求を理解し、ユーザ要求に応じた正しい処理を行おうとしているか否かを判断することができる。
例えば、ユーザの実際の要求と異なる処理に対応する装置処理情報３０４の表示がなされた場合は、ユーザは「処理が違います」といった発話等による入力を行って、情報処理装置１００に対して、実行する処理が誤っていることを通知することができる。

このように、本発明の情報処理装置では、
ユーザ画像３０１の提示によるユーザ同定処理の正否の確認、
ユーザ入力情報３０２の表示によるユーザ入力の解釈の正否の確認、
アバター３０３と、装置処理情報３０４の表示による情報処理装置の状態の確認、
これらの情報をユーザに対するフィードバック情報として提示する。
ユーザはこれらのフィードバック情報に基づいて、情報処理装置１００がユーザおよびユーザ要求を正しく理解しているか否かを容易に把握することができ、誤りがある場合は誤りを具体的に情報処理装置に対して通知することが可能となる。

現状の音声認識や画像認識を適用したマルチモーダル・インタフェースにおける問題点と、本発明の情報処理装置の実行する処理との対応関係について、図４に示す表を参照して説明する。
現状の問題点として、例えば、図４に示す（１）〜（４）がある。

例えば、（１）インタラクション開始・終了変遷が分かりにくいという問題点である。
本発明の情報処理装置は、この問題点を解決するため、インタラクション状態を表示して、現在の状態を確認可能とする。具体的には、図３に示すような、ユーザ画像３０１、ユーザ入力情報３０２、アバター３０３、装置処理情報３０４の表示である。

また、現状の問題点として、（２）困った時にどうすれば分からないという問題がある。この問題点を解決するため、本発明の情報処理装置は、装置（システム）側の代理としてのアバター（仮想キャラクタ）を表示して、アバターに対して質問できる環境を設定している。

さらに、現状の問題点として、（３）装置（ＴＶなど）に対して話す違和感があるという問題点がある。この問題点を解決するため、本発明の情報処理装置は、装置（システム）側の代理としてのアバター（仮想キャラクタ）を設定している。

さらに、現状の問題点として、（４）ユーザへのフィードバックが不足しているという問題点がある。この問題点を解決するため、本発明の情報処理装置は、アバター経由で逐次、フィードバック情報を提供するという構成としている。

図４に示す（４）ユーザへのフィードバックが不足しているという問題点に対しては、本発明の情報処理装置では、図３に示すアバター３０３を用いて逐次、フィードバック情報を提供する。なお、アバター３０３の発話は、表示部に表示するのみではなく、音声情報として音声出力部（スピーカ）２０６からも出力される。

アバター３０３を適用したフィードバック処理の具体例について図５を参照して説明する。
図５には、
（Ｘ）ユーザに対するフィードバック不足の態様
（Ｙ）アバター経由のフィードバック情報の内容
（Ｚ）アバターの表情と装置処理情報の出力例
これらの対応データを示している。

（Ｘ）ユーザに対するフィードバック不足の態様としては、例えば図５に示す（ａ）〜（ｄ）がある。
（ａ）いつ話せばいいかが分からない？
（ｂ）発話が装置（システム）に入力されたか否かが分からない？
（ｃ）発話が装置（システム）に理解されたか否かが分からない？
（ｄ）発話に基づく処理を装置（システム）が実行しているか否かが分からない？
例えば、これら（ａ）〜（ｄ）のようなフィードバック情報不足に基づくユーザが困る状況が発生する。

本発明の情報処理装置１００のデータ処理部２０５は、これらのフィードバック情報不足を解消するフィードバック情報を生成して出力する。
具体的には、
（ａ）いつ話せばいいかが分からない？
この問題に対して、
図５（Ｚ）に示すように、アバターの発話として「指示お願いします」といった発話の出力（表示と音声出力）を実行する。
このような処理によって（Ｙ）に示すように、装置（システム）がユーザ発話の待機状態であることを示すような構成としている。

（ｂ）発話が装置（システム）に入力されたか否かが分からない？
この問題に対して、
図５（Ｚ）に示すように、アバターの発話として「話を聴いています」といった発話の出力（表示と音声出力）を実行する。さらに、アバターの耳を大きくするなど、強調表示しての聞いている状態にあることを視覚的に理解可能としたアバター表示を行う。
このような処理によって（Ｙ）に示すように、装置（システム）がユーザ発話を聴いていることを示す構成としている。

（ｃ）発話が装置（システム）に理解されたか否かが分からない？
この問題に対して、
図５（Ｚ）に示すように、アバターの発話として「分かりました」といった発話の出力（表示と音声出力）を実行する。さらに、アバターの表情を笑顔にするなど、理解したことを視覚的に示したアバター表示を行う。
このような処理によって（Ｙ）に示すように、装置（システム）がユーザ発話を理解したことを示す構成としている。

（ｄ）発話に基づく処理を装置（システム）が実行しているか否かが分からない？
この問題に対して、
図５（Ｚ）に示すように、アバターの発話として「処理中です」といった発話の出力（表示と音声出力）を実行する。この処理によって（Ｙ）に示すように、装置（システム）がユーザ発話に基づく処理を実行中であることを示す構成としている。

なお、アバターの表情は、情報処理装置１００の処理状態に応じた様々な設定とする。図６にその一部の例を示す。図６のアバター例は上から以下の設定としたアバター表示例である。
（ａ）ユーザの話を聞いている状態であることを示すアバターの表示例であり、耳を強調表示したアバターの表示例である。
（ｂ）ユーザの話を理解して、行動する状態であることを示すアバターの表示例であり、笑顔を示すアバターの表示例である。
（ｃ）ユーザの話がよく聞こえなかった状態であることを示すアバターの表示例であり、聞こえてない困った表情を設定したアバターの表示例である。
（ｄ）ユーザの話が理解できなかった状態であることを示すアバターの表示例であり、理解できずに困った状態である表情を示したアバターの表示例である。

（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例
次に、ユーザの入力可能な情報についての誘導（ガイド）を行う処理例について説明する。

ユーザが、例えば図１に示す情報処理装置１００に対して、何らかの録画済みコンテンツを再生する場合、コンテンツを検索する処理が必要となる。この検索の際には、様々な検索条件を設定することで、効率的な検索が実現される。
本発明の情報処理装置は、例えばこのようなコンテンツ検索の際の指定条件をカテゴリ単位で、どのような選択条件の指定ができるか等の情報をユーザに提供する。

具体的な処理例について、図７以下を参照して説明する。
図７は、再生コンテンツの選択処理に際して情報処理装置１００の表示部に表示されるガイド付き情報入力領域３５０の表示例である。

コンテンツ検索を実行する場合の指定可能な情報は、図に示すように、タイトル、おすすめの有無、ジャンル、チャンネル、時間帯、例えば、これらの情報がある。
しかし、これらの情報入力欄に、実際どのような情報が入力む可能であるかについては、初心者は分かりづらい。

本発明の情報処理装置では、このような状況に鑑み、各情報入力欄にどのような情報が入力できるかを示す誘導情報（ガイド情報）を表示する。なお、この表示に併せて音声出力も実行する。

例えば、最初のタイトル情報の入力欄に対する入力時に、「例えばＸＹＺニュースと入力してください」と表示する。ユーザは、この表示を見て、番組名を入力すればよいことが理解でき、即座に正しい入力を行うことができる。なお、入力は例えばユーザの発話によって行われる。

その他の情報入力欄に対する誘導情報（ガイド情報）の表示例を図８に示す。
図８に示すように、タイトル情報の入力欄には、「例えばＸＹＺニュースと入力してください」と表示する。これは、図７を参照して説明したと同様である。
おすすめ情報入力欄には、「あり」「なし」のいずれかを提示する。あるいは、「あり」「なし」の切り替え表示を行う。ユーザ入力によって確定した場合は、切り替え表示から確定データの常時表示に切り換える。
ジャンル欄には、アニメ。スポーツ、・・・音楽、これらの登録されたジャンル情報のいずれか、あるいは、切り換えて繰り返し表示する。ユーザ入力によって確定した場合は、確定情報を常時表示する。

チャンネル欄には、ＮＨＫ総合、・・・、複数の登録されたチャンネル情報のいずれか、あるいは、繰り返し切り換えて表示する。ユーザ入力によって確定した場合は、確定情報を常時表示する。
時間帯、時間、曜日情報についても、それぞれ入力可能な情報のいずれか、あるいは、切り換えて順次表示する。ユーザ入力によって確定した場合は、確定情報を常時表示する。

このように、各入力欄に対して、入力可能な情報をユーザに示すことで、ユーザは具体的に入力可能な情報を知ることが可能となり、迷うことなく正しい情報を入力することができる。

図７、図８を参照して説明した誘導情報（ガイド情報）の表示例は、ガイド付き情報入力領域３５０であり、実際の情報入力欄に誘導情報（ガイド情報）を埋め込んで表示する例であるが、このような処理例の他、情報入力欄と異なる独立したガイド情報表示領域を設定して誘導情報（ガイド情報）を表示する構成としてもよい。

具体的には、例えば、図９に示すガイド情報表示領域３７０のような表示例である。ガイド情報表示領域３７０には、装置の処理状況を示す装置状態表示欄３７１と、ガイド情報表示欄３７２が設定される。

装置状態表示欄３７１には、例えば、図に示すように、装置の実行している処理についての説明を表示する。この例では、ユーザとの「インタラクション中」であることを示した例を示している。
ガイド情報表示欄３７２には、先に、図７、図８を参照して説明したユーザ入力の態様等についての説明を表示する。
図に示す例では、ユーザの発話に基づく入力の仕方についての説明をガイド情報表示欄３７２の上部の「音声コマンド」の欄に表示し、ユーザの動作（ジェスチャー）に基づく入力の仕方についての説明をガイド情報表示欄３７２の下部の「ジェスチャー」の欄に表示している。
ユーザは、これらの説明を見て、各データ入力欄に対して容易に正しい入力を行うことが可能となる。

（３−３）ユーザに対するフィードバック情報と誘導（ガイド）情報を併せて利用する処理例
次に、上述したユーザに対するフィードバック情報と誘導（ガイド）情報を併せて利用する処理例について図１０を参照して説明する。
図１０は、例えば図１のテレビなどの情報処理装置１００の表示部の表示データの例を示す図である。

図１０に示す表示データは、
アバターとの対話設定を可能としたフィードバック情報表示領域３８１、
各データ入力欄単位で誘導（ガイド）情報を表示したガイド付き情報入力領域３８２、
独立した誘導（ガイド）情報を表示したガイド情報表示領域３８３、
コンテンツリスト表示領域３８４、
これらの各領域によって構成されている。

この表示例は、コンテンツリスト表示領域３８４に表示されたコンテンツから再生コンテンツを選択するための処理を行う場合に表示部に表示するデータの例である。

アバターとの対話設定を可能としたフィードバック情報表示領域３８１は、先に、図３〜図６を参照して説明した［（３−１）アバターを利用したフィードバック処理例］に対応するフィードバック情報の表示領域である。
各データ入力欄単位で誘導（ガイド）情報を表示したガイド付き情報入力領域３８２は、先に、図７〜図８を参照して説明した［（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例］に対応する誘導（ガイド）情報の表示領域である。
独立した誘導（ガイド）情報を表示したガイド情報表示領域３８３は、先に、図９を参照して説明した［（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例］に対応する誘導（ガイド）情報の表示領域である。

これらの各情報を併せて表示することで、ユーザは迷うことなく情報処理装置に対する指示を発話またはジェスチャーによって行うことができる。

（３−４）ユーザ同定処理について
次に、ユーザ同定処理について説明する。例えば、図１のような環境では、情報処理装置１００の前に複数のユーザが存在する。ユーザａ１１〜ユーザｃ１３である。情報処理装置１００は、カメラ１０１（＝図２の画像入力部（カメラ）２０３）を介して、情報処理装置１００の前の画像を取得し、図２に示す画像解析部２０４において、あらかじめ記憶部に格納されたユーザの顔画像との比較を実行して、ユーザの識別処理を実行する。図２に示すデータ処理部２０５は、この識別結果のフィードバック情報を生成する。

具体的には、例えば図１１に示すような識別ユーザの表示を実行する。図１１は、情報処理装置１００の表示部の表示データ例である。図１１に示す例では、情報処理装置１００が認識したユーザの画像として２つのユーザ画像３９１，３９２が表示されている。

ユーザ画像３９１，３９２は、ユーザ識別処理によって識別されたユーザの登録画像、すなわち情報処理装置の記憶部に格納済みの登録画像データを表示してもよいし、カメラによって撮影中のユーザ画像を表示してもよい。

この図１１に示す識別ユーザの表示画面に、さらに、各ユーザからの発話の認識結果を表示する。この表示処理は、先に、図３〜図６を参照して説明した［（３−１）アバターを利用したフィードバック処理例］におけるユーザ入力情報３０２（図３参照）と同様の表示処理として行われる。
なお、どのユーザが話したかについては、音声解析部２０２における音声解析処理、すなわち予め情報処理装置１００に格納されているユーザ単位の音声特徴情報との呼格処理によって実行される。また画像解析部２０４において画像から口の動きを解析してその解析結果を利用してもよい。

図１１に示す例では、ユーザ画像３９１に示される「まことくん」が発話を行っている。「まことくん」は情報処理装置１００に対応するアバターに対してよびかけを実行している。アバターに対してはニックネームが設定可能であり、設定されたニックネームは情報処理装置に登録される。図１１に示す例は情報処理装置１００に対応するアバターのニックネームとして「テレビくん」が設定されている場合の例である。
このニックネームの呼びかけを情報処理装置１００の音声解析部２０２が検出するとデータ処理部２０５は、例えば図１２に示す表示データを表示する。

図１２にはアバター３９５がユーザー（まことくん）からの呼びかけに答える設定であり、アバター（テレビくん）がユーザー（まことくん）にあいさつ「こんにちはまことくん」という発話を行った例である。なお、この発話は、情報処理装置１００の音声出力部（スピーカ）２０６を介しても出力される。

ユーザは、図１１、図１２に示す画面を見ることで、情報処理装置１００が自分を正しく認識し、自分の発話が正しく理解されているか否かを把握することができる。
この図１１、図１２に示す画面は、例えば初期画面であり、情報処理装置の起動時などに表示される。
この図１１、図１２に示す初期画面の出力後、ユーザは情報処理装置に対して、様々な要求を発話またはジェスチャーによって入力する。

（３−５）ユーザ同定処理について
図１３を参照して、本発明の情報処理装置１００の表示部に表示される画面遷移の具体的な例について説明する。
図１３には、
（Ａ）初期画面
（Ｂ）入力画面
（Ｃ）再生画面
これらの３つの画面表示例を示している。

（Ａ）初期画面は、図１１、図１２を参照して説明した処理［（３−４）ユーザ同定処理］によって表示される画面である。
情報処理装置１００の画像解析部２０４におけるユーザ画像の解析と、音声解析部２０２におけるユーザ発話の解析情報を用いて、データ処理部２０５が生成する初期画面である。
ユーザは、この画面を見ることで、自分が装置に正しく認識され、自分の要求が装置に正しく伝わっていることを確認することができる。

（Ｂ）入力画面は、先に図１０を参照して説明した画面に対応する。
アバターとの対話設定を可能としたフィードバック情報表示領域、
各データ入力欄単位で誘導（ガイド）情報を表示したガイド付き情報入力領域、
独立した誘導（ガイド）情報を表示したガイド情報表示領域、
コンテンツリスト表示領域、
これらの各領域によって構成されている。
この表示例は、コンテンツリスト表示領域に表示されたコンテンツから再生コンテンツを選択するための処理を行う場合に表示部に表示するデータの例である。

アバターとの対話設定を可能としたフィードバック情報表示領域は、先に、図３〜図６を参照して説明した［（３−１）アバターを利用したフィードバック処理例］に対応するフィードバック情報の表示領域である。
各データ入力欄単位で誘導（ガイド）情報を表示したガイド付き情報入力領域は、先に、図７〜図８を参照して説明した［（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例］に対応する誘導（ガイド）情報の表示領域である。
独立した誘導（ガイド）情報を表示したガイド情報表示領域は、先に、図９を参照して説明した［（３−２）ユーザの入力可能な情報についての誘導（ガイド）を行う処理例］に対応する誘導（ガイド）情報の表示領域である。
これらの各情報を併せて表示することで、ユーザは迷うことなく情報処理装置に対する指示を発話またはジェスチャーによって行うことができる。

（Ｃ）再生画面は、（Ｂ）入力画面を利用してユーザが選択した番組（コンテンツ）を再生している画面の例である。このコンテンツ再生表示の場合は、再生コンテンツを全画面表示する表示パターンと、図に示すように再生コンテンツに併せて、アバターとの対話設定を可能としたフィードバック情報表示領域と、独立した誘導（ガイド）情報を表示したガイド情報表示領域を表示するパターンとを切り換えることができる。
この状態においてもユーザは、アバターとの会話が可能であり、例えば再生コンテンツの切り替え要求などを随時実行することができる。

［４．ユーザに対するフィードバックにより、ユーザ入力の必要性や入力タイミングを理解させる処理例について］
次に、ユーザに対するフィードバック処理を実行して、ユーザ入力の必要性や入力タイミングをユーザに理解させる処理例について説明する。

上述の実施例において、アバターを利用したユーザと装置との対話や、様々なデータ入力領域に対するガイド表示によって、ユーザの入力を正確に行わせる処理例を説明した。
しかし、このような構成を提供しても、１００％誤りのないユーザ入力が行われる保証はない。必ず、何らかの入力ミスが発生し、また、ユーザの意図とは異なる情報処理装置の処理が開始される場合もある。
具体的には音声解析のエラーが発生した場合には、ユーザの発話に対して情報処理装置が全く処理を開始できない場合が発生する。
また、情報処理装置の前に複数のユーザがいる場合、情報処理装置に対して話かけたユーザと異なる無関係のユーザの発話に対して処理を開始してしまうといった場合も発生する可能性がある。
また、ユーザの要求が情報処理装置の実行可能な処理でない場合もある。

このようにユーザと情報処理装置とのコミュニケーションには、エラー発生要因が多々、存在する。以下において説明する処理は、このようなトラブル発生時に、最適な対応としてのユーザに対するフィードバックを行う処理例である。
具体的には、図２に示す情報処理装置のデータ処理部２０５は、ユーザ発話やユーザ動作（ジェスチャー）に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行う。

（４−１）ユーザの発話に対するフィードバック処理例について
例えば本発明のシステムは、ユーザ発話を音声認識によって解析し、解析結果に基づいて情報処理装置の処理を決定する。
この音声認識による処理決定までのプロセスにおいては、複数の異なる処理を連続的に実行することが必要となる。すなわち複数の処理ステージをパイプライン処理としてシーケンシャルに実行することが必要である。
複数の処理ステージが順調に進めば、最終的な処理、例えばユーザに対する応答が出力される。具体的にはアバターの出力が画像として表示、あるいは音声出力される。

しかし、パイプライン処理のいずれかの処理ステージにおいて、処理エラーが発生すると、最終的な処理であるアバターの応答はいつまでたっても実行されないことになってしまう。
このような場合、ユーザは、ただ待機するしかなく、情報処理装置の状態について知ることができない。

以下において説明する処理例は、情報処理装置の実行する複数の処理ステージの各々において発生するエラーの状況等をユーザに逐次、フィードバックすることで、ユーザが装置（システム）状態を常に把握することを可能としたものである。

図１４を参照してユーザ発話に対する情報処理装置の処理例について説明する。
図１４は、ユーザ５０１が何らかの発話を実行した場合に情報処理装置が実行する処理に含まれる処理ステージを実行順に従って示した図である。
すべての処理が進めば、最終的な処理として、アバター５０２がユーザに対して何らかの発話を行う場合の処理例である。

図１４に示すように、ユーザ発話を入力した情報処理装置は、ステップＳ１０１において音響分析を実行する。この処理は、図２に示す音声解析部２０２の処理である。音響分析処理に際しては、音声以外の音を棄却し、人の声のみを取得する処理が行われる。音声ではないと判断され棄却された音データについては、後段の処理は行われない。しかし、このような棄却データが実際はユーザの発話データである場合がある。このような場合は、ユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０２において、取得した音声情報に基づく意味抽出処理が実行される。この処理も図２に示す音声解析部２０２の処理である。この処理は、例えば音声解析部２０２の保持する辞書データとのマッチング処理をベースとして行われる。この処理において、マッチする登録単語がない場合などには、無意味な発話としてデータが棄却される。棄却された音データについては、後段の処理は行われない。しかし、このような棄却データが実際はユーザの発話データである場合がある。このような場合は、ユーザの意図に従った処理が実行されない事態が発生してしまう。

次に、ステップＳ１０３において、音声認識の信頼度が算出される。この処理も音声解析部２０２の処理である。信頼度は、例えば音声解析部２０２の保持する辞書データとのマッチング率等に基づいて行われ、予め設定した閾値等との比較により信頼度が測位と判断された発話は棄却されることになる。棄却された音データについては、後段の処理は行われない。しかし、このような棄却データが実際はユーザの発話データである場合がある。このような場合は、ユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０４において環境理解処理が実行される。この処理は、音声解析部２０２とデータ処理部２０５の処理として実行される。情報処理装置の前に複数のユーザが存在する場合には、情報処理装置に対して要求を行っているターゲットとしているユーザ以外のユーザも、装置と無関係の発話を行う場合がある。このような発話については棄却することが必要となる。ただし、このような棄却された発話が情報処理装置を対象とした発話である場合がある。このような場合には処理エラー、すなわちユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０５では、ユーザ管理処理が実行される。この処理はデータ処理部２０５の処理として実行される。情報処理装置に対して要求を行っているターゲットユーザであっても、情報処理装置に対する発話のみを行うとは限らない。例えば、他のユーザに対する発話を行う場合がある。このような発話を識別し棄却する処理が行われる。しかし、この棄却された発話が情報処理装置を対象とした発話である場合がある。このような場合には処理エラー、すなわちユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０６では、対話管理処理を行う。この処理はデータ処理部２０５の処理として実行される。情報処理装置に対して要求を行っているユーザの発話に含まれるあいまいな発話については、処理対象とせず棄却する。しかし、この棄却された発話がユーザにとっては情報処理装置を対象とした要求を含む発話である場合がある。このような場合には処理エラー、すなわちユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０７では、タスク管理処理を行う。この処理はデータ処理部２０５の処理として実行される。ユーザの発話に基づく処理を実行するアプリケーションがユーザ発話に基づく処理を開始する処理である。しかしアプリケーションがユーザ要求を実行できない場合がある。例えば、実行中の他の処理がある場合や、アプリケーションの能力を超える要求である場合などである。このような場合にはユーザの意図に従った処理が実行されない事態が発生してしまう。

ステップＳ１０１〜Ｓ１０７の処理が実行されると、最終的にステップＳ１０８の行動表出処理が行われる。この処理はデータ処理部２０５の処理として実行される。例えばアバターがユーザに対する応答を出力する処理である。

図１４を参照して説明したように、ユーザ発話に基づいて情報処理装置が実行する処理は、複数の異なる処理をパイプライン化した処理として実行され、各処理ステージでエラーを発生する可能性がある。このようなエラーが発生すると、アバターによるユーザ応答はなされないことになってしまう。結果として、情報処理装置に対する何らかの要求や問いかけを行ったユーザは、アバターが何の応答もしてくれないので、情報処理装置が全くユーザの要求を聞いていないのか、あるいは処理を実行中で待機すればよいのか、全く理解できなくなってしまう。

このような事態を防止するため、本発明の情報処理装置は、各処理ステージにおける情報処理装置の処理状況に応じてアバターの表示変更を行う。あるいはアバターの応答を行う。
この例について、図１５を参照して説明する。

図１５に示す処理内容（１）〜（７）は、図１４に示す処理ステップＳ１０１〜Ｓ１０７の各処理に対応する。
（１）音響分析（Ｓ１０１）
（２）意味抽出（Ｓ１０２）
（３）信頼度算出（Ｓ１０３）
（４）環境理解（Ｓ１０４）
（５）ユーザ管理（Ｓ１０５）
（６）対話管理（Ｓ１０６）
（７）タスク管理（Ｓ１０７）

先に図１４を参照して説明したように、ステップＳ１０１〜Ｓ１０７の処理の各々においてデータ棄却が発生する場合がある。このデータ棄却が実行された場合、後段の処理ステージの処理が実行されないことになる。

このような場合、本発明の情報処理装置では、アバターの表示を変更する。なお、説明のため、アバターの表示態様については、図１５の右端欄に示すように、異なるアバター表示の各々について、アバター表示（ａ），（ｂ），（ｃ），・・・として記号で区別して説明する。

例えば、図１５（１）音響分析（Ｓ１０１）の処理において、処理実行中は、図１５のアバター表示例の最上段に示すように、耳を強調表示して頭を揺り動かした状態のアバター（アバター表示（ａ））を表示する。この表示により、ユーザは情報処理装置がユーザの発話を確かに聞いていることを確認することができる。

一方、例えば情報処理装置がユーザ発話ではないと判断した場合には、処理結果は、非音声の棄却処理（Ｆａｉｌｕｒｅ）となる。この場合、アバターの表示は、図に示すように、耳を強調表示して頭を揺り動かした状態（ａ）から、ポカンとしたアバター表示（ｂ）に変更され、聞いていないことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話を聞きとっていないことを確認することができる。

図１５（２）意味抽出（Ｓ１０２）の処理において、例えば、音声解析部２０２の保持する辞書データとのマッチング処理に失敗し、意味抽出ができなかった場合、耳を強調表示して頭を揺り動かした状態（ａ）から、ポカンとしたアバター表示（ｂ）に変更され、処理エラー（意味抽出ができなかった）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話を聞きとっていないことを確認することができる。

図１５（３）信頼度算出（Ｓ１０３）の処理において、例えば、音声解析部２０２の保持する辞書データとのマッチング処理において所定のマッチング率が得られなかった場合も、耳を強調表示して頭を揺り動かした状態（ａ）から、ポカンとしたアバター表示（ｂ）に変更され、処理エラー（信頼度の高い意味抽出ができなかった）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話を聞きとっていないことを確認することができる。

図１５（４）環境理解（Ｓ１０４）の処理において、例えば、音声解析部２０２やデータ処理部２０５が本来処理対象とすべきユーザの発話を棄却してしまった場合には、図に示すように、耳を強調表示して頭を揺り動かした状態（ａ）から、困ったアバター表示（ｃ）に変更され、処理エラー（ユーザ発話に対する処理が実行できなかった）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話に基づく処理を実行できない状態であることを確認することができる。

図１５（５）ユーザ管理（Ｓ１０５）の処理において、例えば、データ処理部２０５が、本来処理対象とすべきユーザの発話を棄却してしまった場合には、図に示すように、耳を強調表示して頭を揺り動かした状態（ａ）から、困ったアバター表示（ｃ）に変更され、処理エラー（ユーザ発話に対する処理が実行できなかった）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話に基づく処理を実行できない状態であることを確認することができる。

図１５（６）対話管理（Ｓ１０６）の処理において、例えば、データ処理部２０５が、ユーザの発話をあいまいであると棄却してしまった場合には、図に示すように、耳を強調表示して頭を揺り動かした状態（ａ）から、困ったアバター表示（ｃ）に変更され、処理エラー（ユーザ発話に対する処理が実行できなかった）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話に基づく処理を実行できない状態であることを確認することができる。

一方、図１５（６）対話管理（Ｓ１０６）の処理において、例えば、データ処理部２０５が、ユーザの発話を理解できた場合は、（６）下段のアバター表示例に示すように、耳を強調表示して頭を揺り動かした状態（ａ）から、口を大きく開け、笑ったアバター表示（ｄ）に変更され、処理に成功（ユーザ発話を理解できた）したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの発話を理解したことを確認することができる。

図１５（７）タスク管理（Ｓ１０７）の処理において、例えば、データ処理部２０５が、ユーザの発話を理解でき、アプリケーションにおいて実行可能と判定された場合は、口を大きく開け、笑ったアバター表示（ｄ）から、口を開け、笑ったアバター表示（ｅ）に変更され、処理に成功（ユーザ発話による処理が開始）したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置において、ユーザの発話に基づく処理が開始されることを確認することができる。

このように、本発明の情報処理装置では、情報処理装置の実行する様々な処理ステージにおける処理の状況（成功／失敗等）に応じて、アバターの表示を変更し、装置の状態をユーザに提示して知らせる構成としている。この処理によってユーザは装置の状態をある程度把握でき、例えば、アバターが困った表情である場合は、再度、要求を発話するといった処理を行うことが可能となり、ただ待機するといった無駄な処理を省くことが可能となる。

なお、図１５を参照して説明した処理ではアバターの表情のみを変更する例として説明したが、アバターの発話として具体的な処理情報についての文書表示処理や、音声出力処理を行う構成としてもよい。すなわち、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターを介して情報処理装置の状況の説明情報を出力する処理を行う構成としてもよい。例えば失敗した処理の説明や成功した処理の内容などを出力する処理を行う。

（４−２）ユーザの動作（ジェスチャー）に対するフィードバック処理例について
図１４、図１５を参照して説明した処理は、ユーザの発話に対する音声解析における処理ステージと各処理ステージにおけるとフィードバック処理例である。次に、ユーザの動作（ジェスチャー）の画像解析における処理ステージと各処理ステージにおけるフィードバック処理形について図１６、図１７を参照して説明する。

図１６を参照してユーザの動作（ジェスチャー）に対する情報処理装置の処理例について説明する。
図１６は、ユーザが手の指を使って何らかの動作（ジェスチャー）を実行した場合に情報処理装置が実行する処理に含まれる処理ステージを実行順（ステップＳ２１０→Ｓ２２０→Ｓ２３０→Ｓ２４０）に従って示した図である。
すべての処理が進めば、最終的な処理として、例えばアバターがユーザに対して何らかの発話を行う。あるいは指示された処理（例えばコンテンツ再生など）を実行する。

図１６に示すように、ユーザの動作（ジェスチャー）を入力した情報処理装置は、ステップＳ２１０において手検出処理を実行する。この処理は、図２に示す画像解析部２０４が画像入力部（カメラ）２０３から入力する画像に基づいて実行する処理である。この手検出処理は失敗する場合と、成功する場合の２つのケースが存在する。失敗した場合はステップＳ２１１に進み、データ処理部２０５においてアバターの表示切り替え等の処理が実行される。この処理については後述する。成功した場合は、例えばステップＳ２１２に示すような手検出情報を取得し、次のステップＳ２２０の指検出処理に移行する。

ステップＳ２２０では、指検出処理を実行する。この処理は、図２に示す画像解析部２０４が画像入力部（カメラ）２０３から入力する画像に基づいて実行する処理である。この指検出処理も失敗する場合と、成功する場合の２つのケースが存在する。失敗した場合はステップＳ２２１に進み、データ処理部２０５においてアバターの表示切り替え等の処理が実行される。この処理については後述する。成功した場合は、例えばステップＳ２２２に示すような指検出情報を取得し、次のステップＳ２３０の手のパターン認識処理に移行する。

ステップＳ２３０では、手のパターン認識処理を実行する。この処理は、図２に示す画像解析部２０４、あるいはデータ処理部２０５において実行する処理である。この手のパターン検出処理も失敗する場合と、成功する場合の２つのケースが存在する。失敗した場合はステップＳ２３１に進み、データ処理部２０５においてアバターの表示切り替え等の処理が実行される。この処理については後述する。成功した場合は、例えばステップＳ２３２に示すような例えば［ピースサイン］であるとの検出情報を取得し、次のステップＳ２４０のジェスチャー識別処理に移行する。

ステップＳ２４０では、ジェスチャー識別処理を実行する。この処理は、図２に示す画像解析部２０４、あるいはデータ処理部２０５において実行する処理である。このジェスチャー識別処理も失敗する場合と、成功する場合の２つのケースが存在する。失敗した場合はステップＳ２４１に進み、データ処理部２０５においてアバターの表示切り替え等の処理が実行される。この処理については後述する。成功した場合は、例えばステップＳ２４２に示すような例えば［ピースサインのウェーブ］であるとの検出情報を取得し、次のステップに移行する。

図１６を参照して説明したように、ユーザの動作（ジェスチャー）に基づいて情報処理装置が実行する処理も、複数の異なる処理をパイプライン化した処理として実行され、各処理ステージでエラーを発生する可能性がある。このようなエラーが発生すると、ユーザ要求に対する情報処理装置の応答や処理が実行されなくなる。結果として、情報処理装置に対する何らかの要求や問いかけを行ったユーザは、アバターが何の応答もしてくれず、情報処理装置も新たな処理を開始しないので、情報処理装置が全くユーザの要求を聞いていないのか、あるいは処理を実行中で待機すればよいのか、全く理解できなくなってしまう。

このような事態を防止するため、本発明の情報処理装置は、各処理ステージにおける情報処理装置の処理状況に応じてアバターの表示変更を行う。あるいはアバターの応答を行う。
この例について、図１７を参照して説明する。

図１７に示す処理内容（１）〜（４）は、図１６に示す処理ステップＳ２１０〜Ｓ２４０の各処理に対応する。（５）は最終処理としてのタスク管理処理を示している。図１７に示す処理は、以下の（１）〜（５）の処理である。
（１）手検出処理（Ｓ２１０）
（２）指検出処理（Ｓ２２０）
（３）手のパターン認識処理（Ｓ２３０）
（４）動作（ジェスチャー）識別処理（Ｓ２４０）
（５）タスク管理

先に図１６を参照して説明したように、ステップＳ２１０〜Ｓ２４０の処理においては、エラーが発生する可能性がある。エラーが発生した場合は後段の処理ステージの処理が実行されないことになる。このような場合、本発明の情報処理装置では、アバターの表示を変更する。なお、説明のため、アバターの表示態様については、図１７の右端欄に示すように、異なるアバター表示の各々について、アバター表示（ａ），（ｂ），（ｃ），・・・として記号で区別して説明する。

例えば、図１７（１）画像からの手検出処理（Ｓ２１０）において、処理実行中は、アバター表示例の図１７（１）の上段に示すように、見ていることを示すように頭を揺り動かした状態のアバター（アバター表示（ａ））を表示する。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を確かに見ていることを確認することができる。

一方、例えば情報処理装置が手検出処理（Ｓ２１０）に失敗した場合は、アバターの表示は、図１７（１）の下段に示すように、頭を揺り動かした状態（ａ）から、ポカンとしたアバター表示（ｂ）に変更され、処理エラー（手検出失敗）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を確認できていないことを知ることができる。

図１７（２）指検出処理（Ｓ２２０）において、指検出に失敗した場合は、アバターの表示は、図１７（２）の右端欄に示すように、頭を揺り動かした状態（ａ）から、ポカンとしたアバター表示（ｂ）に変更され、処理エラー（手検出失敗）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を確認できていないことを知ることができる。

図１７（３）手の形状パターン認識処理（Ｓ２３０）において、手の形状パターン認識に失敗した場合は、アバターの表示は、図１７（３）の右端欄に示すように、頭を揺り動かした状態（ａ）から、困った表情のアバター表示（ｃ）に変更され、処理エラー（手の形状パターン認識に失敗）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を確認できていないことを知ることができる。

図１７（４）動作（ジェスチャー）識別処理（Ｓ２４０）において、動作（ジェスチャー）識別に失敗した場合は、アバターの表示は、図１７（４）の右端欄に示すように、頭を揺り動かした状態（ａ）から、困った表情のアバター表示（ｃ）に変更され、処理エラー（手の形状パターン認識に失敗）が発生したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を確認できていないことを知ることができる。

一方、図１７（４）動作（ジェスチャー）識別処理（Ｓ２４０）において、動作（ジェスチャー）識別に成功した場合は、（４）下段のアバター表示例に示すように、頭を揺り動かした状態（ａ）から、口を大きく開け、笑ったアバター表示（ｄ）に変更され、処理に成功（ユーザ発話を理解できた）したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置がユーザの動作（ジェスチャー）を理解したことを確認することができる。

図１７（７）タスク管理の処理において、例えば、データ処理部２０５が、ユーザの動作（ジェスチャー）を理解でき、アプリケーションにおいて実行可能と判定された場合は、口を大きく開け、笑ったアバター表示（ｄ）から、口を開け、笑ったアバター表示（ｅ）に変更され、処理に成功（ユーザ動作（ジェスチャー）による処理が開始）したことを示す表示に切り替わる。その後、また元のアバター表示（ａ）状態に変更される。この表示により、ユーザは情報処理装置において、ユーザの動作（ジェスチャー）に基づく処理が開始されることを確認することができる。

なお、図１７を参照して説明した処理ではアバターの表情のみを変更する例として説明したが、アバターの発話として具体的な処理情報についての文書表示処理や、音声出力処理を行う構成としてもよい。すなわち、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターを介して情報処理装置の状況の説明情報を出力する処理を行う構成としてもよい。例えば失敗した処理の説明や成功した処理の内容などを出力する処理を行う。

［５．情報処理装置のハードウェア構成例について］
最後に、図１８を参照して、上述した処理を実行する情報処理装置のハードウェア構成例について説明する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２、または記憶部７０８に記憶されているプログラムに従って各種の処理を実行する。
例えば、図２の情報処理装置の構成における音声解析部２０２、画像解析部２０４、データ処理部２０５の処理を実行する。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３には、ＣＰＵ７０１が実行するプログラムやデータなどが適宜記憶される。これらのＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４により相互に接続されている。

ＣＰＵ７０１はバス７０４を介して入出力インタフェース７０５に接続され、入出力インタフェース７０５には、カメラ、マイク、リモコン、キーボード、マウスなどの入力部７０６、ディスプレイ、スピーカなどよりなる出力部７０７が接続されている。ＣＰＵ７０１は、入力部７０６から入力される情報に対応して各種の処理を実行し、処理結果を例えば出力部７０７に出力する。

入出力インタフェース７０５に接続されている記憶部７０８は、例えばハードディスクからなり、ＣＰＵ７０１が実行するプログラムや各種のデータを記憶する。
さらに、音声認識処理に必用となる各種の音声情報や辞書データ、さらには、ユーザ認識処理に必用となるユーザ画像データ等が記録されている。通信部７０９は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。

入出力インタフェース７０５に接続されているドライブ７１０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア７１１を駆動し、記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部７０８に転送され記憶される。

以上、特定の実施例を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本発明の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

以上、説明したように、本発明の一実施例の構成によれば、ユーザ発話や動作による入力を可能とした情報処理装置において、処理継続が困難となった場合にフィードバック情報を出力する装置および方法を提供する。ユーザ発話の音声解析や、ユーザ動作（ジェスチャー）の解析を実行し、解析結果に基づいて情報処理装置の処理を決定する。さらに、ユーザ発話やユーザ動作に基づく情報処理装置の処理過程において、処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する。ユーザはこれらのフィードバック情報を取得することで、処理ステージに応じたエラー発生状況を即座に取得することができ、無駄な待機処理等を行うことなく、再発話等のエラー対応処理を即時、実行することができる。

１１〜１３ユーザ
１００情報処理装置
１０１カメラ
１０２音声入出力部
２０１音声入力部
２０２音声解析部
２０３画像入力部
２０４画像解析部
２０５データ処理部
２０６音声出力部
２０７画像出力部
３００フィードバック情報表示領域
３０１ユーザ画像
３０２ユーザ入力情報
３０３アバター
３０４装置処理情報
３５０ガイド付き情報入力領域
３７０ガイド情報表示領域
３７１装置状態表示欄
３７２ガイド情報表示欄
３８１フィードバック情報表示領域
３８２ガイド付き情報入力領域
３８３ガイド情報表示領域
３８４コンテンツリスト表示領域
３９１，３９２ユーザ画像
３９５アバター
５０１ユーザ
５０２アバター
７０１ＣＰＵ
７０２ＲＯＭ
７０３ＲＡＭ
７０４バス
７０５入出力インタフェース
７０６入力部
７０７出力部
７０８記憶部
７０９通信部
７１０ドライブ
７１１リムーバブルメディア

Claims

ユーザ発話の解析処理を実行する音声解析部と、
前記音声解析部の解析結果を入力し、情報処理装置の実行する処理を決定するデータ処理部を有し、
前記データ処理部は、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行う情報処理装置。
前記情報処理装置は、
ユーザ動作を解析する画像解析部を有し、
前記データ処理部は、前記画像解析部の解析結果を入力し、情報処理装置の実行する処理を決定し、ユーザ動作に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行う請求項１に記載の情報処理装置。
前記データ処理部は、
前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表示態様を変更する処理を行う請求項１または２に記載の情報処理装置。
前記データ処理部は、
前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表情を変更する処理を行う請求項１または２に記載の情報処理装置。
前記データ処理部は、
前記フィードバック情報として、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターを介して情報処理装置の状況の説明情報を出力する処理を行う請求項１または２に記載の情報処理装置。
前記データ処理部は、
ユーザ発話またはユーザ動作に基づく処理に成功した場合は、情報処理装置の代理としてのアバターを表示部に表示し、表示したアバターの表情を変更、またはアバターを介して情報処理装置が処理に成功したことの説明情報を出力する請求項１または２に記載の情報処理装置。
情報処理装置において、情報処理を実行する情報処理方法であり、
音声解析部が、ユーザ発話の解析処理を実行する音声解析ステップと、
データ処理部が、前記音声解析ステップにおける解析結果を入力し、情報処理装置の実行する処理を決定するデータ処理ステップを有し、
前記データ処理ステップは、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行うステップを含む情報処理方法。
情報処理装置において、情報処理を実行させるプログラムであり、
音声解析部に、ユーザ発話の解析処理を実行させる音声解析ステップと、
データ処理部に、前記音声解析ステップにおける解析結果を入力させ、情報処理装置の実行する処理を決定させるデータ処理ステップを有し、
前記データ処理ステップは、
ユーザ発話に基づく処理において処理継続の阻害要因が発生した場合、阻害要因が発生した処理ステージに対応したフィードバック情報を生成して出力する処理を行わせるステップを含むプログラム。