JP2015046103A

JP2015046103A - 対話型インタフェース及び情報処理装置

Info

Publication number: JP2015046103A
Application number: JP2013177974A
Authority: JP
Inventors: 卓反橋; Taku Soribashi
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2015-03-12

Abstract

【課題】音声ガイドに対してユーザの姿勢で応答することで対話を行う。【解決手段】対話型インタフェースＩＦは、仮想的な各方向から音声ガイドをそれぞれ出力するスピーカ２Ｒ，２Ｌと、音声ガイドをそれぞれ記憶する記憶部１００と、ユーザの姿勢を検出する姿勢検出部３と、検出したユーザの姿勢に応じて音声ガイドの１つを特定する処理部（１１，１３，１４）とを備えている。【選択図】図２

Description

本発明は、計算機等の情報処理装置と人（ユーザ）との間の対話を、非接触で行うための対話型インタフェース、及びこれを備えた情報処理装置に関する。なお、情報処理装置は、対話型インタフェース一体型の有無を問わない。また、情報処理装置には、種々の装置、例えば汎用パーソナルコンピュータ、多機能通信端末、楽曲や映像の再生端末を含む。

計算機と人間との対話型インタフェースとは、計算機からの出力情報を人間が解釈し、その結果に応じて人間が計算機に次の指示を行うという一連の情報入出力の装置をいう。より具体的には、情報を画像で報知するＬＣＤ等の表示デバイスと、キーボード及びマウスに代表される、手でタッチ操作する接触型デバイスとを備えたものが一般的である。かかるインタフェースは、目や手をデバイスに専念乃至は集中させ難い状況では、計算機との対話が困難になり、その結果、計算機の利用機会が制限されてしまうという問題がある。

一方、今日、多機能電話端末等では、タッチ操作を不要にする方法として、音声による指示を言語として解釈する機能を備えたものが実用化されつつある。この方式では、タッチ操作を低減乃至は省略することが可能であるものの、音声を言語として解釈するための計算処理負担が勢い大きくなるため、端末内では情報処理し切れず、ネットワークを介した処理サーバ側で解析するといった方式を採用しており、オフラインへの適用が困難である。

また、特許文献１には、左右２個のスピーカを使用し、さらに音量調整や位相調整を施すことで音声ガイドの音源位置を、操作対象となる各スイッチの近傍に設定するようにしたパネル入力装置が提案されている。

特開２００７−２７９８２３号公報

特許文献１に記載された発明は、音声ガイドによって操作位置を誘導する点で操作支援に適している一方、報知用の表示デバイスを備えている他、操作は専ら接触型デバイスへのタッチ操作で行うものであり、従来の課題を克服しているものでもない。

本発明は、上記に鑑みてなされたもので、音声ガイドに対してユーザの姿勢で応答する簡易な対話型インタフェース、及びこれを備えた情報処理装置を提供することを目的とするものである。

本発明に係る対話型インタフェースは、仮想的な各方向に対応付けられたそれぞれの音声ガイドを記憶する記憶部と、前記記憶部に記憶されている前記各音声ガイドを出力する音声出力部と、ユーザの姿勢を検出する姿勢検出部と、検出したユーザの姿勢と前記各音声ガイドに対応付けられた仮想的な方向の情報とから、前記音声ガイドの１つを特定する特定部とを備えたことを特徴とするものである。

この発明によれば、予め記憶されている音声ガイドが音声出力部、すなわち典型的にはスピーカからユーザに出力される。各音声ガイドはそれぞれ異なる仮想的な方向に対応付けられている。そして、姿勢検出部によって検出されるユーザの姿勢が、音声ガイドが出力される仮想的な方向のいずれかに対応していると特定部によって判断されると、当該仮想的な方向に対応する音声ガイドが特定されたものとする。これによって、出力される音声ガイドの１つがユーザの姿勢によって特定されて対話が行われることになる。

本発明に係る対話型インタフェースは、前記姿勢検出部は、ユーザの姿勢をユーザの向きとして検出するもので、前記音声出力部は、検出されたユーザの向きに対応する前記仮想的な方向からの音声ガイドの音量を相対的に高めることを特徴とするものである。この構成によれば、音声ガイドに対するユーザの向きとの関係で音量が相対的に高まるように制御されることで、音声ガイドの仮想的な配置が実現可能となり、かつユーザはいずれの音声ガイドの方を向いているのかが認識容易となる。

また、本発明に係る対話型インタフェースは、前記特定部は、検出したユーザの姿勢に対応する前記仮想的な方向からの前記音声ガイドを選択し、かつユーザの姿勢についての特定の変化を検出すると当該音声ガイドの選択を確定するものである。この構成によれば、音声ガイドの特定は、音声ガイドの選択と、ユーザの姿勢についての特定の変化の検出に基づく前記選択の確定とによって確実に行われることになる。

本発明に係る対話型インタフェースは、前記音声出力部は、前記仮想的な各方向として、少なくとも左右方向を含み、前記姿勢検出部は、ユーザの姿勢をユーザの向きと動きとして検出するもので、前記特定部は、左右方向におけるユーザの向きの検出を受けて、この検出したユーザの向きに対応する前記仮想的な方向からの前記音声ガイドを選択し、かつ上下方向におけるユーザの動きの検出によってユーザの特定の変化を検出すると当該音声ガイドの選択を確定するものである。この構成によれば、左右方向におけるユーザの向きの検出を受けて音声ガイドが選択され、さらに上下方向におけるユーザの動きの検出によってユーザの特定の変化が検出されると当該音声ガイドの選択が確定する。

本発明に係る対話型インタフェースは、前記姿勢検出部は、ユーザの頭部に装着され、前記ユーザの姿勢をユーザの頭部の姿勢として検出するものであることを特徴とするものである。この構成によれば、ユーザは頭部を動かすのみで対話が可能となる。

本発明に係る対話型インタフェースは、前記音声出力部は、さらに前記音声ガイドを仮想的な上下方向に配置することを特徴とするものである。この構成によれば、音声ガイドを左右方向の他、上下方向にも仮想的に配置し得るので、音声ガイドの個数を増やすことが可能となる。

本発明に係る対話型インタフェースは、前記各音声ガイドに対応したボタン画像を画面上に配列して表示するモニタを備え、前記モニタの画面上のボタン画像の各表示位置は、前記音声ガイドを出力する仮想的な各方向に対応していることを特徴とするものである。この構成によれば、モニタのボタン画像が音声ガイドの仮想的な方向を示すことになるので、視認性が付加される分、操作性がより向上する。

また、本発明に係る情報処理装置は、音声ガイドを特定する対話型インタフェースと、特定された音声ガイドに対応した情報処理を実行する情報処理部とを備えたものである。この発明によれば、ユーザの姿勢によって、情報処理装置に所望する情報処理の実行等を指示することが容易となる。

本発明によれば、出力される音声ガイドの１つをユーザの姿勢によって特定することで対話を可能とする。

本発明の対話型インタフェースの第１の実施形態に係る全体構成を示す概略構成図である。図１に示す対話型インタフェースの情報処理部内の一実施形態を示す機能構成図である。音源の仮想的な配置の一例を説明する観念図である。対話処理の手順の概要を説明するための説明図である。管理表の一例を示す図表である。音声ファイル座標テーブルの一例を示す図である。状態遷移表の一例を示す図である。対話処理の手順を示すフローチャートである。向き・動作認識処理の手順を示すフローチャートである。音声ファイル座標テーブルの指定処理の手順を示すフローチャートである。常駐処理の手順を示すフローチャートである。

対話型インタフェースＩＦは、図１の第１の実施形態に示すように、情報処理部１と、ステレオヘッドフォン２と、姿勢検出部３とを備えている。

情報処理部１は、対話型インタフェースＩＦを実現するための各種の機能部を備えているもので、詳細は図２で説明する。ステレオヘッドフォン２は、ユーザ５０の頭部５１（図３参照）に装着するための装着部２０と、左右のイヤフォンに内装されたスピーカ２Ｒ，２Ｌとを有する。

姿勢検出部３は、装着部２０の適所に取り付けられて、装着部２０と一体で動くようにしている。姿勢検出部３は、磁気センサ３１、加速度センサ３２、及び必要に応じて採用されるジャイロセンサ３３を備えている。磁気センサ３１は、地磁気に対する水平面上の角度を検出する。加速度センサ３２は動きに応じて生じる加速度を鉛直方向、水平方向に対して検出する。ジャイロセンサ３３は、好ましくは３軸方向に組み合わせたもので、各方向への回転量（角度）を検出する。姿勢検出部３によって、ステレオヘッドフォン２を装着したユーザ５０の姿勢を検出することができる。そして、スピーカ２Ｒ，２Ｌには、情報処理部１からの音声ファイルが信号線を介して入力される。また、姿勢検出部３の各センサ３１，３２，３３からの検出情報は、信号線を介して情報処理部１に入力される。

図２において、情報処理部１は、制御部１０と記憶部１００とを備える。制御部１０は、好ましくはＣＰＵ（Central Processing Unit）を備えたマイクロコンピュータで構成され、処理プログラムが実行されることで、姿勢認識処理部１１、音声合成処理部１２、音声配置・対話処理部１３、及び対話進行部１４として機能する。記憶部１００は、音声ファイル１０１、音声ファイル座標テーブル１０２、及び状態遷移表・管理表１０３の各記憶部を備えている。音声ファイル１０１は、予め準備され、録音されたユーザとの対話のための音声ガイド情報（図６参照）を個々に記憶したものである。音声ファイル座標テーブル１０２は、後述するような、各音声ガイド情報と仮想的な方向（図３参照）となる音源位置の座標とを対応付けて記憶したものである（図６のＸ，Ｙ，Ｚ座標を参照）。また、状態遷移表・管理表１０３は、図５及び図７に示すように、対話の流れを記述した指令書を記憶したものである。なお、記憶部１００には、さらに制御部１０の各機能部が実行する処理プログラムデータが記憶される領域、処理データを一時的に格納するワークエリア領域を有している。

姿勢認識処理部１１は、姿勢検出部３からの各検出信号を周期的に取り込むことで、ステレオヘッドフォン２を装着したユーザ５０の頭部５１の姿勢を、頭部５１の動きの情報と頭部５１の向きの情報として継続的に検出する。音声合成処理部１２は、音声ファイル座標テーブル１０２で指定され、音声ファイル１０１から出力される全ての、例えばｎ個の音声ファイルのそれぞれをチャンネル１〜ｎに割り当てて合成処理、例えば公知のＡＬＳＡ（Advanced Linux（登録商標） Sound Architecture）技術を用いて多チャンネルミキシングすると共に、音量及び必要な位相処理を施して左右のスピーカ２Ｒ，２Ｌにそれぞれ出力する。

音声配置・対話処理部１３は、音声配置処理と対話処理とを実行する。音声配置処理は、姿勢認識処理部１１から入力される動き及び向きの情報と、音声ファイル座標テーブル１０２を参照しながら、音声合成処理部１２に対して、音声ファイルの再生時の音量調整及び必要な位相制御の指示を行う。また、対話処理は、姿勢認識処理部１１から入力される動きの情報及び向きの情報から、選択した音声ファイルと対話結果を判定し、その内容を「イベント情報」として対話進行部１４に出力する。なお、「イベント情報」は、選択すべき音声ファイルが１つの場合には、対話結果のみとしてもよい。

対話進行部１４は、予め対話の流れに沿った音声配置・対話処理部１３から入力される「イベント情報」から、図５及び図７に記述された対話の流れに従って、次のメニューの音声ファイルの指定内容を音声配置・対話処理部１３に指示するものである。

ここで、図３を用いて、音声ファイル座標テーブル１０２で記述される音源の仮想的な方向について説明する。頭部５１に姿勢検出部３を装着したユーザ５０の前方に所定サイズの仮想スクリーンＶｓｃが破線で示されている。この例では、スピーカ２Ｒ，２Ｌから５個の音声ガイドが、例えば順番に繰り返し出力される。音声ガイドは、対応する音声ファイルの具体的な内容である。配置・対話処理部１３は、各音声ガイドに対して、ユーザ５０が顔面（すなわち頭部５１）を正面、左上、左下、右上、右下にそれぞれ向けると、向けた方向に対応乃至は近い、音声ファイル座標テーブル１０２によって予め座標が定義付けられている音声ファイルを認識し、その音声ファイルの音量を高くし、それ以外の音声ファイルの音量を低くするように制御する。すなわち、各音声ガイドは、仮想スクリーンＶｓｃの各方向に配置された音源（仮想スピーカＶｓｐ１，Ｖｓｐ２，…Ｖｓｐ５）から聞こえてくるような錯覚を起こさせるようにしている。そして、ある音声ガイドの出力方向を向いたままでユーザ５０の所定の動き（動作）が、姿勢検出部３を介して姿勢認識処理部１１で検出されると、当該音声ガイドに対して、所定の対話をしたと判断する。例えば、頭部５１を上下方向に動かす（首を縦に振る仕草）動作は「肯定」を表し、頭部５１を左右方向に振る（首を横に振る仕草）動作は「否定」を表すようにしている。また、「肯定」、「否定」の他、対話に際して必要な応答を表現する内容を身体の姿勢（ここでは頭部の動き）で置換して表すようにしてもよい。例えば「最初に戻る」のような指示を更に含めてもよく、この場合、例えば頭部５１を素速く斜め方向に動かすとか、旋回させる等の特定の動作を採用してもよい。

次に、図４を用いて、音声ガイドを用いた対話の応用例について説明する。この応用例は、ミュージックプレイヤの楽曲の選曲方法に適用した例である。図４（Ａ）に示すように、まず、仮想スクリーンＶｓｃの左方向の仮想スピーカＶｓｐ０１から「選曲する」、中央の仮想スピーカＶｓｐ０２から「続きから聞く」、及び右方向の仮想スピーカＶｓｐ０３から「終了」という音声ガイドが、音声ファイル１０１から同時にあるいは順番に繰り返し読み出され、スピーカ２Ｒ，２Ｌから出力される。なお、各音声ガイドは、認識性の点から、音質（高さや音色等）を変えたものとすることが好ましい。

次いで、ユーザの頭部５１が姿勢認識処理部１１によって、この例では左方向を向いたことが検出され、その方向を向いたままで、さらに頭部５１の上下方向への頷き動作が検出されると、音声ガイド「選曲する」が選択されたことが、「イベント情報」として作成されて対話進行部１４に出力され、対話の流れが開始される。次いで、音声配置・対話処理部１３、音声合成処理部１２を介して、この実施形態では音声ファイル１０１内の「選曲する、でよろしいですか」という音声ガイドが仮想スピーカＶｓｐ１１から繰り返し出力される。ここで、頭部５１を上下に動かす動作が、姿勢認識処理部１１によって「肯定」と認識されると、この内容がユーザの意思として確定処理され、「イベント情報」として音声配置・対話処理部１３から対話進行部１４に出力される。なお、図４（Ｂ）で、頭部５１を左右に振る動作が検出された場合、初期状態である「選曲する」、「続きから聞く」、「終了」の各音声ガイドの出力状況に戻る。

図４（Ｂ）で「肯定」の場合には、対話の流れは、対話進行部１４によって図４（Ｃ）の処理に進む。図４（Ｃ）では、識別可能な個数の選択肢と「他」（あるいは「そのほか」とか、「次のページ」等）の音声ガイドが順番にスピーカ２Ｒ，２Ｌから出力される。例えばアーティストで整理されている場合では、各位置の仮想スピーカＶｓｐ２１〜Ｖｓｐ２５から、例えば「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、及び「他」といった音声ガイドの読み上げが繰り返され、ここで、ユーザ５０の頭部５１を所望の方向に向けて頷く動作が検出されると、選択されたアーティストの曲名が読み上げられ、同様にして最終的に所望する楽曲の選択が確定することになる。あるいは、選択されたアーティストの楽曲が１曲目から再生される態様でもよい。なお、楽曲の再生中は、読み上げは行わず、例えば「停止」、「スキップ」、「リピート」等の指示を頭部５１の動き（モーション）に予め割り当てておくことにより識別でき、これらの各動きに対応した指示内容を音声配置・対話処理部１３及び対話進行部１４に関連付けておけばよい。

なお、対話の終了結果に対応した処理は、本対話型インタフェースＩＦと一体の情報処理装置で実行可能であればよい。図４の例では、選択した楽曲を再生する指示を、本対話型インタフェースＩＦと一体で、かつ楽曲データ記憶部及び楽曲再生部を備えた楽曲再生装置（情報処理装置）とすればよい。

次に、図５〜図７を参照しつつ、制御部１０によって実行される対話の流れ処理の手順を、図８のフローチャートを用いて説明する。まず、「管理表」（図５）を参照してメニューが「初期」に設定される（ステップＳ１）。次いで、「音声ファイル座標テーブル」（図６）が参照されて、（Ａ）初期メニュー用の選択肢１，２，３の各音声ファイルが、定義された座標から出力されるように、スピーカ２Ｒ，２Ｌから出力される（ステップＳ３）。この状態で、ユーザ５０の頭部５１の向きと動きの検出結果に対応した「イベント情報」の入力を待つ（ステップＳ５）。次いで、入力された「イベント情報」から、「状態遷移表」（図７）が参照されて遷移先が設定される。すなわち、入力された「イベント情報」が現メニューにおいていずれの選択肢を肯定し、あるいは否定したものかに応じて「状態遷移表」に従って、次の遷移先が設定される。そして、設定された次の遷移先のメニューの内容が実行される（ステップＳ７）。次いで、最後に、次状態は「終了」か否か、すなわち選択肢「終了」が肯定されたか否かが判断され（ステップＳ９）、「終了」でなければステップＳ３に戻り、対話処理が継続される。一方、ステップＳ９で「終了」であれば、本フローを終える。

なお、図６において、例えば「初期メニュー用」の選択肢１は、「選曲する.wav」という音声ファイルを、（ｘ，ｙ，ｚ）座標上の（−１０，０，２０）から出力するとの意味である。座標系は、ＸＹ平面が仮想スクリーンＶｓｃとなり、Z軸がユーザ５０の頭部５１から仮想スクリーンＶｓｃの中心座標（０，０）への方向としている。なお、本実施形態では、図６の例示から判るように、仮想スクリーンＶｓｃのサイズを、左右に「−１０」〜「＋１０」，上下に「＋５」〜「−５」とし、距離を「２０」に設定して、幾何的なイメージを想定している。また、「wav」は、公知のように音声ファイルデータの形式を表すものである。

また、図６において、「（Ｃ）選曲メニュー用」のテーブルは、選択肢１、２…の音声ファイルを動的に指定することを表している。すなわち、パラメータとして「ページ番号」を採用しており、例えば、選択肢１の音声ファイル「=FILE[1,ページ番号」は、指定ページの最初の音声ファイルを示し、選択肢２の音声ファイル「=FILE[2,ページ番号]は」指定ページの２番目の音声ファイルを示すようにしている。対話進行部１４の処理によって、「状態遷移図」とは別に、パラメータとして「ページ番号」が管理されることで、一度に示しきれない数のアーティストを複数ページに分けて示す手段が採用可能となる。

次に、制御部１０によって実行される向き・動作認識処理の手順を、図９のフローチャートを用いて説明する。なお、ジャイロセンサ３３は高い精度が要求される態様では有効であるが、原理的には必須でないことから、ここでは省略している。

まず、頭部５１の向き（水平回転角，仰角）＝（ω，θ）について、初期化処理が施される（ステップＳ２１）。水平回転角ωについては、磁気センサ３１への問い合わせが行われて取得される。仰角θについては、一旦、ゼロにリセットされる。また、加速度センサ３２がリセットされ、以降の周期的な入力を現状態からの相対値として取得する。なお、加速度センサ３２からの入力周期は、頭部５１の動きが検知し得る程度の時間間隔であることが好ましい。

次いで、加速度センサ３２からの周期的な入力待ちが行われ（ステップＳ２３）、入力があると、その都度、入力された加速度値が所定値以上か否か判断される（ステップＳ２５）。ここに、所定値は、頭部５１の動きが、選択する音声ガイドの方向を向く時の動きか、「肯定」や「否定」等の意志表示の時の動きかを識別するレベルとして設定されたものである。

入力された加速度値が所定値に達していなければ、今回入力された新しい加速度方向から新しい仰角が算出される（ステップＳ２７）。次に、磁気センサ３１に問い合わせが行われて、新しい水平回転角が取得される（ステップＳ２９）。そして、今回取得した新たな水平回転角と仰角とが、記憶部１００のワークメモリ領域に一時的に格納されている現在の値（ω，θ）と比較され、差分が「向き情報」として「音声配置・対話処理」に通知される（ステップＳ３１）。次いで、今回取得した新たな水平回転角と仰角とが、向き（ω，θ）として更新される（ステップＳ３３）。

一方、ステップＳ２５で、入力された加速度値が所定値以上であれば、モーションとして解釈するための情報として、強い加速度の方向と大きさとが累積される（ステップＳ３５）。次いで、累積した加速度の方向及び大きさの各変化の履歴から、頷きの「肯定」モーション、又は水平方向に首を振る「否定」モーションに当てはまるか否かが判断される（ステップＳ３７）。その結果、「肯定」か「否定」のいずれかであると判断されると（ステップＳ３９でＹｅｓ）、動作情報として、音声配置・対話処理部１３に通知される（ステップＳ４１）。一方、「肯定」でも「否定」でもないと判断された場合にはそのままステップＳ２３に戻り、同様な処理が繰り返される。

次に、制御部１０によって実行される音声配置・対話処理の手順を、図１０、図１１のフローチャートを用いて説明する。図１０に示す音声配置・対話処理は、「音声ファイル座標テーブルの指定処理」と「常駐処理」とを備えている。「音声ファイル座標テーブルの指定処理」が対話処理プログラムによって呼び出されて、図１０に示すように、「音声ファイル座標テーブルの指定処理」が開始され、音声ファイル座標テーブル１０２で指定された全ての、例えばｎ個の音声ファイルはチャンネル１〜ｎに割り当てられる（ステップＳ５１）。これによって、スピーカ２Ｒ，２Ｌからｎ個全ての音声ファイルが再生される。

図１１に示す常駐処理は、向き・動作認識処理（図９）からの入力「向き」情報、「動作」情報を受けてフローチャートに示す処理を行う。まず、向き・動作認識処理へ周期的な「向き」情報の通知と、非同期（不規則）に発生する「動作」情報の通知の要求がセットされる（ステップＳ６１）。次いで、受信が発生すると、「動作」情報の受信か、「向き」情報の受信かが判断される（ステップＳ６３）。

「向き」情報の受信であれば、読み出し中の各音声ファイルの（ｘ，ｙ，ｚ）座標を元に原点（０，０，０）、すなわちユーザ５０の頭部５１から（ｘ，ｙ，ｚ）座標へのベクトルの水平回転角、仰角及び距離が、各音声ファイルの方向として算出され、さらに、算出された各音声ファイルの方向と、受信された「向き」情報との角度差φをそれぞれ求め、角度差φを変数とする音響の関数Ｒ（φ），Ｌ（φ）により得られる値により、対応するチャネルの音量の大小が左右のスピーカ２Ｒ，２Ｌに対して設定される（ステップＳ６５）。また、関数Ｒ（φ），Ｌ（φ）は、左右の音の音量差を含めた音量の調整を行うための関数でもよく、角度差φが小さくなるに応じて関数Ｒ（φ），Ｌ（φ）の値、すなわち音量は大きくなるように設定されている。従って、ユーザ５０は、所望する音声ガイドの出力方向に向いているかどうか、また向き具合が容易、好適に認識できることとなる。また、角度差φが大きくなるに従って関数Ｒ（φ），Ｌ（φ）の値は小さくなるように設定され、従って、所望する音声ガイド以外の音量が効果的に抑制されるようになされている。また、ステップＳ６５によって、最小となる角度差φから、ユーザ５０の頭部５１がいずれの音声ファイルの出力方向を向いているのかが継続的に検出されていることになる。

一方、ステップＳ６３で、「動作」情報の受信であれば、「イベント情報」が作成されて、対話進行部１４に通知される（ステップＳ６７）。「イベント情報」は、「動作」情報が受信された時のユーザ５０の頭部５１が向いている（選択している）音声ファイルの情報を含む。ステップＳ６５，６７が終了すると、ステップＳ６３に戻り、同様の処理が繰り返し行われる。ところで、ループ処理を有する上記各フローチャートにおいては、割込等によってループから抜け、あるいは終了処理に移行するようにすればよい。

なお、第１の実施形態では音声ファイルの仮想的な位置をＸ，Ｙ，Ｚの３次元座標系で記述したが、第２の実施形態として、方向の識別性が確保できれば、Ｘ，Ｙの２次元座標系であってもよい。

また、姿勢検出部３は頭部５１の姿勢の検出に限定されず、第３の実施形態として、ユーザ５０の身体の適所の動きや向きを検出する態様であってもよい。また、ユーザの姿勢の特に向きの検出は相対的、絶対的な方法を問わない。さらに、姿勢検出器３としては、精度要求レベルによっては、例えば加速度センサのみの態様も想定し得る。

また、第４の実施形態として、各音声ファイルを、それらの座標位置に対応させて仮想スクリーンＶｓｃ上で定位させる、疑似ステレオ化の音響処理を施してもよい。例えば、音声ガイドの座標位置に対応付けて、左右のスピーカ２Ｒ，２Ｌから出力する音声の音量、位相、時間遅れを調整することで、異なる位置に定位可能となる。これによれば、ユーザ５０は、音声ガイドを聴く時点から、少なくとも左右方向について方向性を認識できるので、音声ガイドの選択時の頭部５１の向き操作が容易となる。また、各音声ファイルはモノラルの他、ステレオ音源としてもよく、これによれば、各音声ガイドの座標に対応して定位されるので、操作性が向上する。

また、第１の実施形態では左右のスピーカ２Ｒ，２Ｌを採用したが、第５の実施形態として、１個のスピーカを片側の耳に装着するものでも、同様に適用可能である。

また、ユーザの向いた方向に仮想的に位置する音声ガイドの音量を相対的に高くするようにしたが、第６の実施形態として、音量と共に、あるいは音量以外の要素を変更する態様でもよい。例えば周波数を高めるとか、音色を変える等が想定される。

また、第７の実施形態として、対話の終了結果に対応した処理は、本対話型インタフェースＩＦと一体型の他、有線か無線で通信可能にされた別体の情報処理装置で実行可能としてもよい。図４の例では、選択した楽曲を再生する指示を、本対話型インタフェースＩＦと別体でありながら、ステレオヘッドフォン２を共有し、かつ楽曲データ記憶部及び楽曲再生部を備えた楽曲再生装置（情報処理装置）とすればよい。

また、第１の実施形態では、ユーザの姿勢を向きと動きとで検出することで、対話の内容の選択と指示の確定とを行うようにしたが、第８の実施形態として、ユーザの狭義の姿勢のみでもよく、あるいはユーザの動きのみで行うようにしてもよい。狭義の姿勢のみの場合では、メニュー内の各音声ガイドに番号を付しておき、かつ番号と姿勢の関係を対応付けておけばよい。そして、同一姿勢が例えば所定時間継続されたことが検出されると指示が確定されたと判断すればよい。動作のみの場合も同様でよい。

また、第９の実施形態として、画像を表示するモニタを付設し、音声ガイドの出力位置に対応付けてボタン画像を配置する態様としてもよい。この場合、モニタの画面と画面上に配置して表示される複数のボタン画像は、図３、図４に示すような仮想スクリーンと仮想スピーカとの関係と一致させる。このようにすれば、音声ガイドの出力位置が容易に視認でき、直感性が上がる分、頭部５１を所望する音声ガイドの出力方向に向けることがより容易となり、操作性が一層向上する。なお、モニタを併用する態様では、音声ガイドの仮想的な方向への配置は省略してもよい。

また、上述の実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

ＩＦ対話型インタフェース（情報処理装置）
１情報処理部
２ステレオヘッドフォン
２Ｒ，２Ｌスピーカ（音声出力部）
３姿勢検出部
１０制御部１０
１１姿勢認識処理部（特定部）
１２音声合成部
１３音声配置・対話処理部（特定部）
１４対話進行部（特定部）
１００記憶部
１０１音声ファイル
１０２音声ファイル座標テーブル
１０３状態遷移表・管理表

Claims

仮想的な各方向に対応付けられたそれぞれの音声ガイドを記憶する記憶部と、
前記記憶部に記憶されている前記各音声ガイドを出力する音声出力部と、
ユーザの姿勢を検出する姿勢検出部と、
検出したユーザの姿勢と前記各音声ガイドに対応付けられた仮想的な方向の情報とから、前記音声ガイドの１つを特定する特定部とを備えたことを特徴とする対話型インタフェース。
前記姿勢検出部は、ユーザの姿勢をユーザの向きとして検出するもので、
前記音声出力部は、検出されたユーザの向きに対応する前記仮想的な方向からの音声ガイドの音量を相対的に高めることを特徴とする請求項１に記載の対話型インタフェース。
前記特定部は、検出したユーザの姿勢に対応する前記仮想的な方向からの前記音声ガイドを選択し、かつユーザの姿勢についての特定の変化を検出すると当該音声ガイドの選択を確定する請求項１又は２に記載の対話型インタフェース。
前記音声出力部は、前記仮想的な各方向として、少なくとも左右方向を含み、
前記姿勢検出部は、ユーザの姿勢をユーザの向きと動きとして検出するもので、
前記特定部は、左右方向におけるユーザの向きの検出を受けて、この検出したユーザの向きに対応する前記仮想的な方向からの前記音声ガイドを選択し、かつ上下方向におけるユーザの動きの検出によってユーザの特定の変化を検出すると当該音声ガイドの選択を確定する請求項１又は２に記載の対話型インタフェース。
前記姿勢検出部は、ユーザの頭部に装着され、前記ユーザの姿勢をユーザの頭部の姿勢として検出するものであることを特徴とする請求項１〜４のいずれかに記載の対話型インタフェース。
前記音声出力部は、さらに前記音声ガイドを仮想的な上下方向に配置することを特徴とする請求項１〜５のいずれかに記載の対話型インタフェース。
前記各音声ガイドに対応したボタン画像を画面上に配列して表示するモニタを備え、前記モニタの画面上のボタン画像の各表示位置は、前記音声ガイドを出力する仮想的な各方向に対応していることを特徴とする請求項１〜６のいずれかに記載の対話型インタフェース。
請求項１〜７に記載の対話型インタフェースと、特定された音声ガイドに対応した情報処理を実行する情報処理部とを備えた情報処理装置。