JP2015046103A - 対話型インタフェース及び情報処理装置 - Google Patents

対話型インタフェース及び情報処理装置 Download PDF

Info

Publication number
JP2015046103A
JP2015046103A JP2013177974A JP2013177974A JP2015046103A JP 2015046103 A JP2015046103 A JP 2015046103A JP 2013177974 A JP2013177974 A JP 2013177974A JP 2013177974 A JP2013177974 A JP 2013177974A JP 2015046103 A JP2015046103 A JP 2015046103A
Authority
JP
Japan
Prior art keywords
user
voice
posture
interactive interface
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013177974A
Other languages
English (en)
Inventor
卓 反橋
Taku Soribashi
卓 反橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2013177974A priority Critical patent/JP2015046103A/ja
Publication of JP2015046103A publication Critical patent/JP2015046103A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声ガイドに対してユーザの姿勢で応答することで対話を行う。【解決手段】対話型インタフェースIFは、仮想的な各方向から音声ガイドをそれぞれ出力するスピーカ2R,2Lと、音声ガイドをそれぞれ記憶する記憶部100と、ユーザの姿勢を検出する姿勢検出部3と、検出したユーザの姿勢に応じて音声ガイドの1つを特定する処理部(11,13,14)とを備えている。【選択図】図2

Description

本発明は、計算機等の情報処理装置と人(ユーザ)との間の対話を、非接触で行うための対話型インタフェース、及びこれを備えた情報処理装置に関する。なお、情報処理装置は、対話型インタフェース一体型の有無を問わない。また、情報処理装置には、種々の装置、例えば汎用パーソナルコンピュータ、多機能通信端末、楽曲や映像の再生端末を含む。
計算機と人間との対話型インタフェースとは、計算機からの出力情報を人間が解釈し、その結果に応じて人間が計算機に次の指示を行うという一連の情報入出力の装置をいう。より具体的には、情報を画像で報知するLCD等の表示デバイスと、キーボード及びマウスに代表される、手でタッチ操作する接触型デバイスとを備えたものが一般的である。かかるインタフェースは、目や手をデバイスに専念乃至は集中させ難い状況では、計算機との対話が困難になり、その結果、計算機の利用機会が制限されてしまうという問題がある。
一方、今日、多機能電話端末等では、タッチ操作を不要にする方法として、音声による指示を言語として解釈する機能を備えたものが実用化されつつある。この方式では、タッチ操作を低減乃至は省略することが可能であるものの、音声を言語として解釈するための計算処理負担が勢い大きくなるため、端末内では情報処理し切れず、ネットワークを介した処理サーバ側で解析するといった方式を採用しており、オフラインへの適用が困難である。
また、特許文献1には、左右2個のスピーカを使用し、さらに音量調整や位相調整を施すことで音声ガイドの音源位置を、操作対象となる各スイッチの近傍に設定するようにしたパネル入力装置が提案されている。
特開2007−279823号公報
特許文献1に記載された発明は、音声ガイドによって操作位置を誘導する点で操作支援に適している一方、報知用の表示デバイスを備えている他、操作は専ら接触型デバイスへのタッチ操作で行うものであり、従来の課題を克服しているものでもない。
本発明は、上記に鑑みてなされたもので、音声ガイドに対してユーザの姿勢で応答する簡易な対話型インタフェース、及びこれを備えた情報処理装置を提供することを目的とするものである。
本発明に係る対話型インタフェースは、仮想的な各方向に対応付けられたそれぞれの音声ガイドを記憶する記憶部と、前記記憶部に記憶されている前記各音声ガイドを出力する音声出力部と、ユーザの姿勢を検出する姿勢検出部と、検出したユーザの姿勢と前記各音声ガイドに対応付けられた仮想的な方向の情報とから、前記音声ガイドの1つを特定する特定部とを備えたことを特徴とするものである。
この発明によれば、予め記憶されている音声ガイドが音声出力部、すなわち典型的にはスピーカからユーザに出力される。各音声ガイドはそれぞれ異なる仮想的な方向に対応付けられている。そして、姿勢検出部によって検出されるユーザの姿勢が、音声ガイドが出力される仮想的な方向のいずれかに対応していると特定部によって判断されると、当該仮想的な方向に対応する音声ガイドが特定されたものとする。これによって、出力される音声ガイドの1つがユーザの姿勢によって特定されて対話が行われることになる。
本発明に係る対話型インタフェースは、前記姿勢検出部は、ユーザの姿勢をユーザの向きとして検出するもので、前記音声出力部は、検出されたユーザの向きに対応する前記仮想的な方向からの音声ガイドの音量を相対的に高めることを特徴とするものである。この構成によれば、音声ガイドに対するユーザの向きとの関係で音量が相対的に高まるように制御されることで、音声ガイドの仮想的な配置が実現可能となり、かつユーザはいずれの音声ガイドの方を向いているのかが認識容易となる。
また、本発明に係る対話型インタフェースは、前記特定部は、検出したユーザの姿勢に対応する前記仮想的な方向からの前記音声ガイドを選択し、かつユーザの姿勢についての特定の変化を検出すると当該音声ガイドの選択を確定するものである。この構成によれば、音声ガイドの特定は、音声ガイドの選択と、ユーザの姿勢についての特定の変化の検出に基づく前記選択の確定とによって確実に行われることになる。
本発明に係る対話型インタフェースは、前記音声出力部は、前記仮想的な各方向として、少なくとも左右方向を含み、前記姿勢検出部は、ユーザの姿勢をユーザの向きと動きとして検出するもので、前記特定部は、左右方向におけるユーザの向きの検出を受けて、この検出したユーザの向きに対応する前記仮想的な方向からの前記音声ガイドを選択し、かつ上下方向におけるユーザの動きの検出によってユーザの特定の変化を検出すると当該音声ガイドの選択を確定するものである。この構成によれば、左右方向におけるユーザの向きの検出を受けて音声ガイドが選択され、さらに上下方向におけるユーザの動きの検出によってユーザの特定の変化が検出されると当該音声ガイドの選択が確定する。
本発明に係る対話型インタフェースは、前記姿勢検出部は、ユーザの頭部に装着され、前記ユーザの姿勢をユーザの頭部の姿勢として検出するものであることを特徴とするものである。この構成によれば、ユーザは頭部を動かすのみで対話が可能となる。
本発明に係る対話型インタフェースは、前記音声出力部は、さらに前記音声ガイドを仮想的な上下方向に配置することを特徴とするものである。この構成によれば、音声ガイドを左右方向の他、上下方向にも仮想的に配置し得るので、音声ガイドの個数を増やすことが可能となる。
本発明に係る対話型インタフェースは、前記各音声ガイドに対応したボタン画像を画面上に配列して表示するモニタを備え、前記モニタの画面上のボタン画像の各表示位置は、前記音声ガイドを出力する仮想的な各方向に対応していることを特徴とするものである。この構成によれば、モニタのボタン画像が音声ガイドの仮想的な方向を示すことになるので、視認性が付加される分、操作性がより向上する。
また、本発明に係る情報処理装置は、音声ガイドを特定する対話型インタフェースと、特定された音声ガイドに対応した情報処理を実行する情報処理部とを備えたものである。この発明によれば、ユーザの姿勢によって、情報処理装置に所望する情報処理の実行等を指示することが容易となる。
本発明によれば、出力される音声ガイドの1つをユーザの姿勢によって特定することで対話を可能とする。
本発明の対話型インタフェースの第1の実施形態に係る全体構成を示す概略構成図である。 図1に示す対話型インタフェースの情報処理部内の一実施形態を示す機能構成図である。 音源の仮想的な配置の一例を説明する観念図である。 対話処理の手順の概要を説明するための説明図である。 管理表の一例を示す図表である。 音声ファイル座標テーブルの一例を示す図である。 状態遷移表の一例を示す図である。 対話処理の手順を示すフローチャートである。 向き・動作認識処理の手順を示すフローチャートである。 音声ファイル座標テーブルの指定処理の手順を示すフローチャートである。 常駐処理の手順を示すフローチャートである。
対話型インタフェースIFは、図1の第1の実施形態に示すように、情報処理部1と、ステレオヘッドフォン2と、姿勢検出部3とを備えている。
情報処理部1は、対話型インタフェースIFを実現するための各種の機能部を備えているもので、詳細は図2で説明する。ステレオヘッドフォン2は、ユーザ50の頭部51(図3参照)に装着するための装着部20と、左右のイヤフォンに内装されたスピーカ2R,2Lとを有する。
姿勢検出部3は、装着部20の適所に取り付けられて、装着部20と一体で動くようにしている。姿勢検出部3は、磁気センサ31、加速度センサ32、及び必要に応じて採用されるジャイロセンサ33を備えている。磁気センサ31は、地磁気に対する水平面上の角度を検出する。加速度センサ32は動きに応じて生じる加速度を鉛直方向、水平方向に対して検出する。ジャイロセンサ33は、好ましくは3軸方向に組み合わせたもので、各方向への回転量(角度)を検出する。姿勢検出部3によって、ステレオヘッドフォン2を装着したユーザ50の姿勢を検出することができる。そして、スピーカ2R,2Lには、情報処理部1からの音声ファイルが信号線を介して入力される。また、姿勢検出部3の各センサ31,32,33からの検出情報は、信号線を介して情報処理部1に入力される。
図2において、情報処理部1は、制御部10と記憶部100とを備える。制御部10は、好ましくはCPU(Central Processing Unit)を備えたマイクロコンピュータで構成され、処理プログラムが実行されることで、姿勢認識処理部11、音声合成処理部12、音声配置・対話処理部13、及び対話進行部14として機能する。記憶部100は、音声ファイル101、音声ファイル座標テーブル102、及び状態遷移表・管理表103の各記憶部を備えている。音声ファイル101は、予め準備され、録音されたユーザとの対話のための音声ガイド情報(図6参照)を個々に記憶したものである。音声ファイル座標テーブル102は、後述するような、各音声ガイド情報と仮想的な方向(図3参照)となる音源位置の座標とを対応付けて記憶したものである(図6のX,Y,Z座標を参照)。また、状態遷移表・管理表103は、図5及び図7に示すように、対話の流れを記述した指令書を記憶したものである。なお、記憶部100には、さらに制御部10の各機能部が実行する処理プログラムデータが記憶される領域、処理データを一時的に格納するワークエリア領域を有している。
姿勢認識処理部11は、姿勢検出部3からの各検出信号を周期的に取り込むことで、ステレオヘッドフォン2を装着したユーザ50の頭部51の姿勢を、頭部51の動きの情報と頭部51の向きの情報として継続的に検出する。音声合成処理部12は、音声ファイル座標テーブル102で指定され、音声ファイル101から出力される全ての、例えばn個の音声ファイルのそれぞれをチャンネル1〜nに割り当てて合成処理、例えば公知のALSA(Advanced Linux(登録商標) Sound Architecture)技術を用いて多チャンネルミキシングすると共に、音量及び必要な位相処理を施して左右のスピーカ2R,2Lにそれぞれ出力する。
音声配置・対話処理部13は、音声配置処理と対話処理とを実行する。音声配置処理は、姿勢認識処理部11から入力される動き及び向きの情報と、音声ファイル座標テーブル102を参照しながら、音声合成処理部12に対して、音声ファイルの再生時の音量調整及び必要な位相制御の指示を行う。また、対話処理は、姿勢認識処理部11から入力される動きの情報及び向きの情報から、選択した音声ファイルと対話結果を判定し、その内容を「イベント情報」として対話進行部14に出力する。なお、「イベント情報」は、選択すべき音声ファイルが1つの場合には、対話結果のみとしてもよい。
対話進行部14は、予め対話の流れに沿った音声配置・対話処理部13から入力される「イベント情報」から、図5及び図7に記述された対話の流れに従って、次のメニューの音声ファイルの指定内容を音声配置・対話処理部13に指示するものである。
ここで、図3を用いて、音声ファイル座標テーブル102で記述される音源の仮想的な方向について説明する。頭部51に姿勢検出部3を装着したユーザ50の前方に所定サイズの仮想スクリーンVscが破線で示されている。この例では、スピーカ2R,2Lから5個の音声ガイドが、例えば順番に繰り返し出力される。音声ガイドは、対応する音声ファイルの具体的な内容である。配置・対話処理部13は、各音声ガイドに対して、ユーザ50が顔面(すなわち頭部51)を正面、左上、左下、右上、右下にそれぞれ向けると、向けた方向に対応乃至は近い、音声ファイル座標テーブル102によって予め座標が定義付けられている音声ファイルを認識し、その音声ファイルの音量を高くし、それ以外の音声ファイルの音量を低くするように制御する。すなわち、各音声ガイドは、仮想スクリーンVscの各方向に配置された音源(仮想スピーカVsp1,Vsp2,…Vsp5)から聞こえてくるような錯覚を起こさせるようにしている。そして、ある音声ガイドの出力方向を向いたままでユーザ50の所定の動き(動作)が、姿勢検出部3を介して姿勢認識処理部11で検出されると、当該音声ガイドに対して、所定の対話をしたと判断する。例えば、頭部51を上下方向に動かす(首を縦に振る仕草)動作は「肯定」を表し、頭部51を左右方向に振る(首を横に振る仕草)動作は「否定」を表すようにしている。また、「肯定」、「否定」の他、対話に際して必要な応答を表現する内容を身体の姿勢(ここでは頭部の動き)で置換して表すようにしてもよい。例えば「最初に戻る」のような指示を更に含めてもよく、この場合、例えば頭部51を素速く斜め方向に動かすとか、旋回させる等の特定の動作を採用してもよい。
次に、図4を用いて、音声ガイドを用いた対話の応用例について説明する。この応用例は、ミュージックプレイヤの楽曲の選曲方法に適用した例である。図4(A)に示すように、まず、仮想スクリーンVscの左方向の仮想スピーカVsp01から「選曲する」、中央の仮想スピーカVsp02から「続きから聞く」、及び右方向の仮想スピーカVsp03から「終了」という音声ガイドが、音声ファイル101から同時にあるいは順番に繰り返し読み出され、スピーカ2R,2Lから出力される。なお、各音声ガイドは、認識性の点から、音質(高さや音色等)を変えたものとすることが好ましい。
次いで、ユーザの頭部51が姿勢認識処理部11によって、この例では左方向を向いたことが検出され、その方向を向いたままで、さらに頭部51の上下方向への頷き動作が検出されると、音声ガイド「選曲する」が選択されたことが、「イベント情報」として作成されて対話進行部14に出力され、対話の流れが開始される。次いで、音声配置・対話処理部13、音声合成処理部12を介して、この実施形態では音声ファイル101内の「選曲する、でよろしいですか」という音声ガイドが仮想スピーカVsp11から繰り返し出力される。ここで、頭部51を上下に動かす動作が、姿勢認識処理部11によって「肯定」と認識されると、この内容がユーザの意思として確定処理され、「イベント情報」として音声配置・対話処理部13から対話進行部14に出力される。なお、図4(B)で、頭部51を左右に振る動作が検出された場合、初期状態である「選曲する」、「続きから聞く」、「終了」の各音声ガイドの出力状況に戻る。
図4(B)で「肯定」の場合には、対話の流れは、対話進行部14によって図4(C)の処理に進む。図4(C)では、識別可能な個数の選択肢と「他」(あるいは「そのほか」とか、「次のページ」等)の音声ガイドが順番にスピーカ2R,2Lから出力される。例えばアーティストで整理されている場合では、各位置の仮想スピーカVsp21〜Vsp25から、例えば「A」、「B」、「C」、「D」、及び「他」といった音声ガイドの読み上げが繰り返され、ここで、ユーザ50の頭部51を所望の方向に向けて頷く動作が検出されると、選択されたアーティストの曲名が読み上げられ、同様にして最終的に所望する楽曲の選択が確定することになる。あるいは、選択されたアーティストの楽曲が1曲目から再生される態様でもよい。なお、楽曲の再生中は、読み上げは行わず、例えば「停止」、「スキップ」、「リピート」等の指示を頭部51の動き(モーション)に予め割り当てておくことにより識別でき、これらの各動きに対応した指示内容を音声配置・対話処理部13及び対話進行部14に関連付けておけばよい。
なお、対話の終了結果に対応した処理は、本対話型インタフェースIFと一体の情報処理装置で実行可能であればよい。図4の例では、選択した楽曲を再生する指示を、本対話型インタフェースIFと一体で、かつ楽曲データ記憶部及び楽曲再生部を備えた楽曲再生装置(情報処理装置)とすればよい。
次に、図5〜図7を参照しつつ、制御部10によって実行される対話の流れ処理の手順を、図8のフローチャートを用いて説明する。まず、「管理表」(図5)を参照してメニューが「初期」に設定される(ステップS1)。次いで、「音声ファイル座標テーブル」(図6)が参照されて、(A)初期メニュー用の選択肢1,2,3の各音声ファイルが、定義された座標から出力されるように、スピーカ2R,2Lから出力される(ステップS3)。この状態で、ユーザ50の頭部51の向きと動きの検出結果に対応した「イベント情報」の入力を待つ(ステップS5)。次いで、入力された「イベント情報」から、「状態遷移表」(図7)が参照されて遷移先が設定される。すなわち、入力された「イベント情報」が現メニューにおいていずれの選択肢を肯定し、あるいは否定したものかに応じて「状態遷移表」に従って、次の遷移先が設定される。そして、設定された次の遷移先のメニューの内容が実行される(ステップS7)。次いで、最後に、次状態は「終了」か否か、すなわち選択肢「終了」が肯定されたか否かが判断され(ステップS9)、「終了」でなければステップS3に戻り、対話処理が継続される。一方、ステップS9で「終了」であれば、本フローを終える。
なお、図6において、例えば「初期メニュー用」の選択肢1は、「選曲する.wav」という音声ファイルを、(x,y,z)座標上の(−10,0,20)から出力するとの意味である。座標系は、XY平面が仮想スクリーンVscとなり、Z軸がユーザ50の頭部51から仮想スクリーンVscの中心座標(0,0)への方向としている。なお、本実施形態では、図6の例示から判るように、仮想スクリーンVscのサイズを、左右に「−10」〜「+10」,上下に「+5」〜「−5」とし、距離を「20」に設定して、幾何的なイメージを想定している。また、「wav」は、公知のように音声ファイルデータの形式を表すものである。
また、図6において、「(C)選曲メニュー用」のテーブルは、選択肢1、2…の音声ファイルを動的に指定することを表している。すなわち、パラメータとして「ページ番号」を採用しており、例えば、選択肢1の音声ファイル「=FILE[1,ページ番号」は、指定ページの最初の音声ファイルを示し、選択肢2の音声ファイル「=FILE[2,ページ番号]は」指定ページの2番目の音声ファイルを示すようにしている。対話進行部14の処理によって、「状態遷移図」とは別に、パラメータとして「ページ番号」が管理されることで、一度に示しきれない数のアーティストを複数ページに分けて示す手段が採用可能となる。
次に、制御部10によって実行される向き・動作認識処理の手順を、図9のフローチャートを用いて説明する。なお、ジャイロセンサ33は高い精度が要求される態様では有効であるが、原理的には必須でないことから、ここでは省略している。
まず、頭部51の向き(水平回転角,仰角)=(ω,θ)について、初期化処理が施される(ステップS21)。水平回転角ωについては、磁気センサ31への問い合わせが行われて取得される。仰角θについては、一旦、ゼロにリセットされる。また、加速度センサ32がリセットされ、以降の周期的な入力を現状態からの相対値として取得する。なお、加速度センサ32からの入力周期は、頭部51の動きが検知し得る程度の時間間隔であることが好ましい。
次いで、加速度センサ32からの周期的な入力待ちが行われ(ステップS23)、入力があると、その都度、入力された加速度値が所定値以上か否か判断される(ステップS25)。ここに、所定値は、頭部51の動きが、選択する音声ガイドの方向を向く時の動きか、「肯定」や「否定」等の意志表示の時の動きかを識別するレベルとして設定されたものである。
入力された加速度値が所定値に達していなければ、今回入力された新しい加速度方向から新しい仰角が算出される(ステップS27)。次に、磁気センサ31に問い合わせが行われて、新しい水平回転角が取得される(ステップS29)。そして、今回取得した新たな水平回転角と仰角とが、記憶部100のワークメモリ領域に一時的に格納されている現在の値(ω,θ)と比較され、差分が「向き情報」として「音声配置・対話処理」に通知される(ステップS31)。次いで、今回取得した新たな水平回転角と仰角とが、向き(ω,θ)として更新される(ステップS33)。
一方、ステップS25で、入力された加速度値が所定値以上であれば、モーションとして解釈するための情報として、強い加速度の方向と大きさとが累積される(ステップS35)。次いで、累積した加速度の方向及び大きさの各変化の履歴から、頷きの「肯定」モーション、又は水平方向に首を振る「否定」モーションに当てはまるか否かが判断される(ステップS37)。その結果、「肯定」か「否定」のいずれかであると判断されると(ステップS39でYes)、動作情報として、音声配置・対話処理部13に通知される(ステップS41)。一方、「肯定」でも「否定」でもないと判断された場合にはそのままステップS23に戻り、同様な処理が繰り返される。
次に、制御部10によって実行される音声配置・対話処理の手順を、図10、図11のフローチャートを用いて説明する。図10に示す音声配置・対話処理は、「音声ファイル座標テーブルの指定処理」と「常駐処理」とを備えている。「音声ファイル座標テーブルの指定処理」が対話処理プログラムによって呼び出されて、図10に示すように、「音声ファイル座標テーブルの指定処理」が開始され、音声ファイル座標テーブル102で指定された全ての、例えばn個の音声ファイルはチャンネル1〜nに割り当てられる(ステップS51)。これによって、スピーカ2R,2Lからn個全ての音声ファイルが再生される。
図11に示す常駐処理は、向き・動作認識処理(図9)からの入力「向き」情報、「動作」情報を受けてフローチャートに示す処理を行う。まず、向き・動作認識処理へ周期的な「向き」情報の通知と、非同期(不規則)に発生する「動作」情報の通知の要求がセットされる(ステップS61)。次いで、受信が発生すると、「動作」情報の受信か、「向き」情報の受信かが判断される(ステップS63)。
「向き」情報の受信であれば、読み出し中の各音声ファイルの(x,y,z)座標を元に原点(0,0,0)、すなわちユーザ50の頭部51から(x,y, z)座標へのベクトルの水平回転角、仰角及び距離が、各音声ファイルの方向として算出され、さらに、算出された各音声ファイルの方向と、受信された「向き」情報との角度差φをそれぞれ求め、角度差φを変数とする音響の関数R(φ),L(φ)により得られる値により、対応するチャネルの音量の大小が左右のスピーカ2R,2Lに対して設定される(ステップS65)。また、関数R(φ),L(φ)は、左右の音の音量差を含めた音量の調整を行うための関数でもよく、角度差φが小さくなるに応じて関数R(φ),L(φ)の値、すなわち音量は大きくなるように設定されている。従って、ユーザ50は、所望する音声ガイドの出力方向に向いているかどうか、また向き具合が容易、好適に認識できることとなる。また、角度差φが大きくなるに従って関数R(φ),L(φ)の値は小さくなるように設定され、従って、所望する音声ガイド以外の音量が効果的に抑制されるようになされている。また、ステップS65によって、最小となる角度差φから、ユーザ50の頭部51がいずれの音声ファイルの出力方向を向いているのかが継続的に検出されていることになる。
一方、ステップS63で、「動作」情報の受信であれば、「イベント情報」が作成されて、対話進行部14に通知される(ステップS67)。「イベント情報」は、「動作」情報が受信された時のユーザ50の頭部51が向いている(選択している)音声ファイルの情報を含む。ステップS65,67が終了すると、ステップS63に戻り、同様の処理が繰り返し行われる。ところで、ループ処理を有する上記各フローチャートにおいては、割込等によってループから抜け、あるいは終了処理に移行するようにすればよい。
なお、第1の実施形態では音声ファイルの仮想的な位置をX,Y,Zの3次元座標系で記述したが、第2の実施形態として、方向の識別性が確保できれば、X,Yの2次元座標系であってもよい。
また、姿勢検出部3は頭部51の姿勢の検出に限定されず、第3の実施形態として、ユーザ50の身体の適所の動きや向きを検出する態様であってもよい。また、ユーザの姿勢の特に向きの検出は相対的、絶対的な方法を問わない。さらに、姿勢検出器3としては、精度要求レベルによっては、例えば加速度センサのみの態様も想定し得る。
また、第4の実施形態として、各音声ファイルを、それらの座標位置に対応させて仮想スクリーンVsc上で定位させる、疑似ステレオ化の音響処理を施してもよい。例えば、音声ガイドの座標位置に対応付けて、左右のスピーカ2R,2Lから出力する音声の音量、位相、時間遅れを調整することで、異なる位置に定位可能となる。これによれば、ユーザ50は、音声ガイドを聴く時点から、少なくとも左右方向について方向性を認識できるので、音声ガイドの選択時の頭部51の向き操作が容易となる。また、各音声ファイルはモノラルの他、ステレオ音源としてもよく、これによれば、各音声ガイドの座標に対応して定位されるので、操作性が向上する。
また、第1の実施形態では左右のスピーカ2R,2Lを採用したが、第5の実施形態として、1個のスピーカを片側の耳に装着するものでも、同様に適用可能である。
また、ユーザの向いた方向に仮想的に位置する音声ガイドの音量を相対的に高くするようにしたが、第6の実施形態として、音量と共に、あるいは音量以外の要素を変更する態様でもよい。例えば周波数を高めるとか、音色を変える等が想定される。
また、第7の実施形態として、対話の終了結果に対応した処理は、本対話型インタフェースIFと一体型の他、有線か無線で通信可能にされた別体の情報処理装置で実行可能としてもよい。図4の例では、選択した楽曲を再生する指示を、本対話型インタフェースIFと別体でありながら、ステレオヘッドフォン2を共有し、かつ楽曲データ記憶部及び楽曲再生部を備えた楽曲再生装置(情報処理装置)とすればよい。
また、第1の実施形態では、ユーザの姿勢を向きと動きとで検出することで、対話の内容の選択と指示の確定とを行うようにしたが、第8の実施形態として、ユーザの狭義の姿勢のみでもよく、あるいはユーザの動きのみで行うようにしてもよい。狭義の姿勢のみの場合では、メニュー内の各音声ガイドに番号を付しておき、かつ番号と姿勢の関係を対応付けておけばよい。そして、同一姿勢が例えば所定時間継続されたことが検出されると指示が確定されたと判断すればよい。動作のみの場合も同様でよい。
また、第9の実施形態として、画像を表示するモニタを付設し、音声ガイドの出力位置に対応付けてボタン画像を配置する態様としてもよい。この場合、モニタの画面と画面上に配置して表示される複数のボタン画像は、図3、図4に示すような仮想スクリーンと仮想スピーカとの関係と一致させる。このようにすれば、音声ガイドの出力位置が容易に視認でき、直感性が上がる分、頭部51を所望する音声ガイドの出力方向に向けることがより容易となり、操作性が一層向上する。なお、モニタを併用する態様では、音声ガイドの仮想的な方向への配置は省略してもよい。
また、上述の実施形態の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述の実施形態ではなく、特許請求の範囲によって示される。さらに、本発明の範囲には、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
IF 対話型インタフェース(情報処理装置)
1 情報処理部
2 ステレオヘッドフォン
2R,2L スピーカ(音声出力部)
3 姿勢検出部
10 制御部10
11 姿勢認識処理部(特定部)
12 音声合成部
13 音声配置・対話処理部(特定部)
14 対話進行部(特定部)
100 記憶部
101 音声ファイル
102 音声ファイル座標テーブル
103 状態遷移表・管理表

Claims (8)

  1. 仮想的な各方向に対応付けられたそれぞれの音声ガイドを記憶する記憶部と、
    前記記憶部に記憶されている前記各音声ガイドを出力する音声出力部と、
    ユーザの姿勢を検出する姿勢検出部と、
    検出したユーザの姿勢と前記各音声ガイドに対応付けられた仮想的な方向の情報とから、前記音声ガイドの1つを特定する特定部とを備えたことを特徴とする対話型インタフェース。
  2. 前記姿勢検出部は、ユーザの姿勢をユーザの向きとして検出するもので、
    前記音声出力部は、検出されたユーザの向きに対応する前記仮想的な方向からの音声ガイドの音量を相対的に高めることを特徴とする請求項1に記載の対話型インタフェース。
  3. 前記特定部は、検出したユーザの姿勢に対応する前記仮想的な方向からの前記音声ガイドを選択し、かつユーザの姿勢についての特定の変化を検出すると当該音声ガイドの選択を確定する請求項1又は2に記載の対話型インタフェース。
  4. 前記音声出力部は、前記仮想的な各方向として、少なくとも左右方向を含み、
    前記姿勢検出部は、ユーザの姿勢をユーザの向きと動きとして検出するもので、
    前記特定部は、左右方向におけるユーザの向きの検出を受けて、この検出したユーザの向きに対応する前記仮想的な方向からの前記音声ガイドを選択し、かつ上下方向におけるユーザの動きの検出によってユーザの特定の変化を検出すると当該音声ガイドの選択を確定する請求項1又は2に記載の対話型インタフェース。
  5. 前記姿勢検出部は、ユーザの頭部に装着され、前記ユーザの姿勢をユーザの頭部の姿勢として検出するものであることを特徴とする請求項1〜4のいずれかに記載の対話型インタフェース。
  6. 前記音声出力部は、さらに前記音声ガイドを仮想的な上下方向に配置することを特徴とする請求項1〜5のいずれかに記載の対話型インタフェース。
  7. 前記各音声ガイドに対応したボタン画像を画面上に配列して表示するモニタを備え、前記モニタの画面上のボタン画像の各表示位置は、前記音声ガイドを出力する仮想的な各方向に対応していることを特徴とする請求項1〜6のいずれかに記載の対話型インタフェース。
  8. 請求項1〜7に記載の対話型インタフェースと、特定された音声ガイドに対応した情報処理を実行する情報処理部とを備えた情報処理装置。
JP2013177974A 2013-08-29 2013-08-29 対話型インタフェース及び情報処理装置 Pending JP2015046103A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013177974A JP2015046103A (ja) 2013-08-29 2013-08-29 対話型インタフェース及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013177974A JP2015046103A (ja) 2013-08-29 2013-08-29 対話型インタフェース及び情報処理装置

Publications (1)

Publication Number Publication Date
JP2015046103A true JP2015046103A (ja) 2015-03-12

Family

ID=52671528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013177974A Pending JP2015046103A (ja) 2013-08-29 2013-08-29 対話型インタフェース及び情報処理装置

Country Status (1)

Country Link
JP (1) JP2015046103A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019517847A (ja) * 2016-04-29 2019-06-27 フリーア、ロジック、インコーポレイテッドFreer Logic, Inc. 脳の電気的活動の非接触式の身体及び頭部ベースのモニタリング
US10542373B2 (en) 2018-01-10 2020-01-21 Fuji Xerox Co., Ltd. Information offering apparatus, information offering system, and non-transitory computer readable medium
CN114578958A (zh) * 2021-08-30 2022-06-03 北京航空航天大学 基于虚拟场景和用户语义信息的虚拟导游的实时优化位置的计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990963A (ja) * 1995-09-20 1997-04-04 Hitachi Ltd 音情報提供装置、及び音情報選択方法
JP2005327054A (ja) * 2004-05-13 2005-11-24 Toshiba Corp 音声出力付き表示装置
JP2010122369A (ja) * 2008-11-18 2010-06-03 Advanced Telecommunication Research Institute International 音声再生装置
JP2010194460A (ja) * 2009-02-25 2010-09-09 Hitachi Constr Mach Co Ltd 材料処理機
WO2012120810A1 (ja) * 2011-03-08 2012-09-13 パナソニック株式会社 音声制御装置および音声制御方法
JP2013162285A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0990963A (ja) * 1995-09-20 1997-04-04 Hitachi Ltd 音情報提供装置、及び音情報選択方法
JP2005327054A (ja) * 2004-05-13 2005-11-24 Toshiba Corp 音声出力付き表示装置
JP2010122369A (ja) * 2008-11-18 2010-06-03 Advanced Telecommunication Research Institute International 音声再生装置
JP2010194460A (ja) * 2009-02-25 2010-09-09 Hitachi Constr Mach Co Ltd 材料処理機
WO2012120810A1 (ja) * 2011-03-08 2012-09-13 パナソニック株式会社 音声制御装置および音声制御方法
JP2013162285A (ja) * 2012-02-03 2013-08-19 Sony Corp 情報処理装置、情報処理方法、及びプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019517847A (ja) * 2016-04-29 2019-06-27 フリーア、ロジック、インコーポレイテッドFreer Logic, Inc. 脳の電気的活動の非接触式の身体及び頭部ベースのモニタリング
US11517240B2 (en) 2016-04-29 2022-12-06 Freer Logic, Inc. Non-contact body and head based monitoring of brain electrical activity
JP7208012B2 (ja) 2016-04-29 2023-01-18 フリーア、ロジック、インコーポレイテッド 脳によって生じる電気的活動をモニタリングするためのデバイスおよび方法、および人の生理学的状態をモニタリングするための方法
US10542373B2 (en) 2018-01-10 2020-01-21 Fuji Xerox Co., Ltd. Information offering apparatus, information offering system, and non-transitory computer readable medium
US10993071B2 (en) 2018-01-10 2021-04-27 Fuji Xerox Co., Ltd. Information offering apparatus, information offering system, and non-transitory computer readable medium
CN114578958A (zh) * 2021-08-30 2022-06-03 北京航空航天大学 基于虚拟场景和用户语义信息的虚拟导游的实时优化位置的计算方法

Similar Documents

Publication Publication Date Title
EP2891955B1 (en) In-vehicle gesture interactive spatial audio system
US11086479B2 (en) Display device and method of controlling the same
CN110291576B (zh) 基于触摸的操作系统的免提导航
US11523243B2 (en) Systems, methods, and graphical user interfaces for using spatialized audio during communication sessions
JP6023364B2 (ja) 車載情報システム、車載装置
CN104508618B (zh) 用于针对在用户界面中执行的操作提供触觉反馈的设备、方法和图形用户界面
JP2014002748A (ja) 遠隔制御装置及びその制御方法
US11779836B2 (en) Vibration control apparatus
JP6643790B2 (ja) ディスプレー装置及びその制御方法
CN113544634A (zh) 用于构成cgr文件的设备、方法和图形用户界面
KR20140133095A (ko) 정보를 사용자에게 제공하기 위한 전자 장치
WO2018222350A1 (en) Sound control by various hand gestures
KR20140096573A (ko) 컨텐츠 재생을 제어하기 위한 방법 및 장치
JP2015046103A (ja) 対話型インタフェース及び情報処理装置
JP2014002719A (ja) 遠隔制御装置、ディスプレイ装置およびその制御方法
CN105684012B (zh) 提供情境信息
WO2021061310A1 (en) Displaying representations of environments
CN114520950B (zh) 音频输出方法、装置、电子设备及可读存储介质
JP5929243B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2008021186A (ja) 音響による位置通知方法、および同方法を用いた情報処理システム
CN110134305A (zh) 一种语速调节方法、装置和用于语速调节的装置
US20230401798A1 (en) Accessible mixed reality applications
Walker et al. Extending the auditory display space in handheld computing devices
CN115494953A (zh) 音频调节方法、装置、设备及计算机可读存储介质
CN114788306A (zh) 在内容内放置声音

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170620