以下、本技術に係る実施形態を、図面を参照しながら説明する。
≪第1実施形態≫
<全体構成及び各部の構成>
図1は、本技術の第1実施形態に係る情報処理装置100を示す図である。図1に示すように、情報処理装置100は、スマートフォン20と、スマートフォン20との間で無線により通信可能なヘッドフォン10とを含む。
図2は、ヘッドフォン10がユーザの耳に装着されたときの様子を示す図である。図3は、ヘッドフォン10を示す拡大図である。
ヘッドフォン10は、右耳に装着される第1のヘッドフォンユニット1aと、左耳に装着される第2のヘッドフォンユニット1bとを含む。第1のヘッドフォンユニット1aと、第2のヘッドフォンユニット1bとは、互いに分離して構成されており、無線により相互に通信可能に構成されている。本実施形態において、第1のヘッドフォンユニット1aはマスター側の端末とされており、第2のヘッドフォンユニット1bはスレーブ側の端末とされている。
第1のヘッドフォンユニット1aと、第2のヘッドフォンユニット1bとは、左右対称に構成されているが、基本的に同様の構成である。なお、以降の説明では、2つのヘッドフォンユニット1を区別する場合に第1のヘッドフォンユニット1a、第2のヘッドフォンユニット1bと呼び、2つのヘッドフォンユニット1を区別しない場合には、単にヘッドフォンユニット1と呼ぶ。
ヘッドフォンユニット1は、ユニット本体2と、スピーカ部3と、ユニット本体2及びスピーカ部3を連結するU字状の連結部4とを有する。
ユニット本体2は、厚さが薄い筐体2aを備えており、筐体2aの内部には各種の電子部品(後述の制御部4a、4b、モーションセンサ7a、7b等)が内蔵される。スピーカ部3は、音を出力可能なスピーカ6a、6b(図4参照)を内部に有しており、このスピーカ部3には、イヤーピース3aが設けられる。イヤーピース3aは、ユーザの耳における外耳道に挿入可能に構成されている。
ヘッドフォンユニット1がユーザの耳に装着されたとき、ユニット本体2は、ユーザの耳の裏の位置に配置され、スピーカ部3は、ユーザの耳の穴の位置に配置され、連結部4は、耳の下側を通る位置に配置される。
ヘッドフォンユニット1は、連結部4の形状により、ユーザの耳に一旦装着されると、ユーザが運動をしたとしても簡単には耳から外れないようになっている。
図4は、情報処理装置100における電気的な構成を示すブロック図である。
第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bは、それぞれ、制御部4a、4bと、記憶部5a、5bと、スピーカ6a、6bと、モーションセンサ7a、7bと、通信部8a、8bとを備えている。
制御部4a、4bは、例えば、CPU(Central Processing Unit)等により構成され、ヘッドフォンユニット1a、1bにおける各部を統括的に制御する。
記憶部5a、5bは、制御部4a、4bの処理に必要な各種のプログラムや各種のデータが固定的に記憶される不揮発性のメモリと、制御部4a、4bの作業領域として用いられる揮発性のメモリとを含む。上記プログラムは、光ディスクや、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
スピーカ6a、6bは、制御部4a、4bにより出力された音信号に基づいて音を出力する。モーションセンサ7a、7bは、ユーザの動きを検出可能に構成されている。モーションセンサ7a、7bは、例えば、加速度センサ、角速度センサ、角度センサ(地磁気センサ)のうちいずれか1つによって構成されるか、あるいは、これらのセンサのうち2以上の組合せにより構成される。
モーションセンサ7a、7bにおける検出軸は、典型的には直交する3軸方向(3軸方向の加速度、3軸回りの角速度、3軸回りの角度)とされるが、検出軸は、1軸方向、2軸方向等であってもよい。
第1のヘッドフォンユニット1aにおける通信部8aと、第2のヘッドフォンユニット1bにおける通信部8bとは、無線により相互に通信可能に構成されている。
また、第1のヘッドフォンユニット1aにおける通信部8a及び第2のヘッドフォンユニット1bにおける通信部8bは、無線によりスマートフォン20における通信部16との間で相互に通信可能に構成されている。
図1及び図4を参照して、スマートフォン20は、筐体11と、制御部12と、記憶部13と、表示部14と、近接センサ15と、通信部16と、マイクロフォン17と、スピーカ18とを備えている。
筐体11は、厚が薄い直方体形状を有しており、ユーザが持ち運び可能とされている。制御部12は、例えば、CPU等により構成され、スマートフォン20における各部を統括的に制御する。
記憶部13は、制御部12の処理に必要な各種のプログラムや各種のデータが固定的に記憶される不揮発性のメモリと、制御部12の作業領域として用いられる揮発性のメモリとを含む。上記プログラムは、光ディスクや、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。
表示部14は、筐体11の正面に配置されている。表示部14は、制御部の制御に応じて、各種の画像を画面上に表示させる。
近接センサ15は、表示部14上に設けられている。近接センサ15は、表示部14へのユーザの指の近接を検出し、ユーザの指が近接したことを示す信号と、指が近接した位置を示す信号とを制御部12に出力する。
通信部16は、無線により、第1のヘッドフォンユニット1aにおける通信部8a及び第2のヘッドフォンユニット1bにおける通信部8bとの間で相互に通信可能に構成されている。また、通信部16は、他の電話機や、ネットワーク上のサーバ装置等との間で通信可能に構成されている。
マイクロフォン17は、ユーザの通話による音声を電気信号に変換して、この信号を制御部12へと出力する。スピーカ18は、制御部12の制御に応じて、相手の通話による音声等を出力する。
<基本的な手法>
次に、本実施形態に係る、メニューにおける項目の選択方法についての基本的な手法について説明する。図5は、メニューにおける項目が音声によってユーザに提示されているときの様子を示す図である。
図5に示す例では、メニューの項目にそれぞれ対応する音声として、「音楽を聞きますか?」、「ニュースを聞きますか?」、「メッセージを聞きますか?」、「スケジュールを聞きますか?」、「電話を掛けますか?」、「ナビゲーションを開始しますか?」、「機器をコントロールしますか?」の7つの質問が用意されている。
そして、メニューの項目にそれぞれ対応する音声が、右方向及び左方向から項目毎に交互に出力される。なお、各項目に対応する音声の間に、項目が変化したことを示すための効果音(「ポン」、「ピン」等)が介在されていてもよい。
右方向から出力された音声に対してユーザが右方向を向くジェスチャ(項目選択ジェスチャ)をすると、右方向から出力された音声に対応する項目が選択される。一方で、左方向から出力された音声に対してユーザが左方向を向くジェスチャ(項目選択ジェスチャ)をすると、左方向から出力された音声に対応する項目が選択される。
図6は、音声に対して、ユーザがジェスチャを行ったときの様子を示す図である。図6に示す例では、左方向から「ニュースを聞きますか?」の音声が出力された後に、この音声にユーザが反応して、ユーザが左方向を向くジェスチャをしたときの様子が示されている。
この場合、「ニュース」の項目が選択され、例えば、「ニュースを再生します」の音声が出力(左右両方)された後に、ニュースの内容を読み上げる音声が出力(左右両方)される。
ここで、ユーザによるジェスチャを受け付けるジェスチャ受付期間Tは、音声に対応する項目毎に設定されている。特に、本実施形態では、ジェスチャ受付期間Tとして、右方向から出力された音声に対応する項目を選択するための第1のジェスチャ受付期間Tと、左方向から出力された音声に対応する項目を選択するための第2のジェスチャ受付期間Tとが設定されている。
図7は、音声出力期間t(1つの項目に対応する音声の出力が開始されてから出力が停止されるまでの期間)と、ジェスチャ受付期間Tとの関係を示す図である。
図7に示すように、ジェスチャ受付期間Tは、少なくとも対応する項目の音声出力期間tを含む。具体的には、本実施形態では、第1のジェスチャ受付期間Tは、右方向においてその項目に対応する音声の出力が開始されてから、同じ右方向において音声の出力が開始されるまでの期間とされる。また、第2のジェスチャ受付期間Tは、左方向においてその項目に対応する音声の出力が開始されてから、同じ左方向において次の音声の出力が開始されるまでの期間とされる。
例えば、「音楽」の項目に対応するジェスチャ受付期間T1(第1のジェスチャ受付期間T)は、右方向において「音楽を聞きますか?」の音声の出力が開始されてから、次に右方向において「メッセージを聞きますか?」の音声の出力が開始されるまでの期間とされる。
また、例えば、「ニュース」の項目に対応するジェスチャ受付期間T2(第2のジェスチャ受付期間T)は、左方向において「ニュースを聞きますか?」の音声の出力が開始されてから、次に左方向において「スケジュールを聞きますか?」の音声の出力が開始されるまでの期間とされる。
ここで、一例として、例えば、左方向において「ニュースを聞きますか?」の音声の出力が開始されてから、左方向において「スケジュールを聞きますか?」の音声の出力が開始されるまでの期間において、ユーザが左方向へ向くジェスチャをしたとする。この場合、右方向において「メッセージを聞きますか?」の音声の出力中であっても、「ニュース」の項目が選択される。
<メニューの各種例>
次に、メニューの各種例について説明する。図8は、メニューの一例を示す図である。図8に示す例では、メインメニューと、メインメニューにおける各項目が選択されたときに呼び出されるサブメニューとが示されている。
図8に示すように、各メニューは、幾つかの項目を含む。図8において、各項目の右側の()の中には、その項目に対応する音声が示されており、各項目の右側には、ユーザに対して音が出力される方向(「右」又は「左」)が示されている。なお、項目に対応する音声は、上から順番に出力されるとする。
メインメニューにおいては、「音楽」、「ニュース」、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」の7つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「音楽を聞きますか?」、「ニュースを聞きますか?」、「メッセージを聞きますか?」、「スケジュールを聞きますか?」、「電話を掛けますか?」、「ナビゲーションを開始しますか?」、「機器をコントロールしますか?」の7つの質問が用意されている。
メインメニューにおいて、特定の項目がユーザにより選択(その項目のジェスチャ受付期間に右ジェスチャ又は左ジェスチャ)されると、その項目に対応するサブメニューが呼び出される。メインメニューにおいて、選択される頻度が高い項目に対応する音声が先に出力されるように、項目の順番が並べ替えられてもよい(順番の並べ替えについては、後述の各種のメニューにおいて同様)。
音楽のサブメニューでは、「歌手名A」、「歌手名B」、・・等の歌手毎の項目が用意されており、この項目に対応する音声として、「Aさんの曲を聞きますか?」「Bさんの曲を聞きますか?」等の音声が用意されている。
音楽サブメニューにおいて、特定の歌手がユーザにより選択されると、選択された歌手の曲が再生される。
ニュースサブメニューでは、「ニュース名A」、「ニュース名B」、・・等のニュースの毎の項目が用意されており、この項目に対応する音声として、「Aを再生しますか?」「Bを再生しますか?」、・・・等の音声が用意されている。
ニュースサブメニューにおいて、特定のニュースがユーザにより選択されると、選択されたニュースの内容が再生される。
メッセージサブメニューでは、「名前A」、「名前B」、・・等のメッセージの差出人毎の項目が用意されており、この項目に対応する音声として、「Aさんからのメッセージを聞きますか?」「Bさんからのメッセージを聞きますか?」、・・・等の音声が用意されている。
メッセージサブメニューにおいて、特定の差出人がユーザにより選択されると、選択された差出人からのメッセージの内容が再生される。
なお、メッセージは、メールやSNS(Social Network Service)等により受信されるメッセージであり、再生されるメッセージは、基本的には、未だユーザが読んでいない(聞いていない)新着メッセージとされる。
スケジュールサブメニューでは、「スケジュール名A」、「スケジュール名B」、・・等のスケジュール毎の項目が用意されており、この項目に対応する音声として、「Aの件を再生しますか?」「Bの件を再生しますか?」、・・・等の音声が用意されている。
スケジュールサブメニューにおいて、特定のスケジュールがユーザにより選択されると、選択されたスケジュールの詳細な内容(場所、時刻等)が再生される。
電話サブメニューでは、「名前A」、「名前B」、・・等の発信先毎の項目が用意されており、この項目に対応する音声として、「Aさんへ電話をしますか?」「Bさんへ電話をしますか?」、・・・等の音声が用意されている。
電話サブメニューにおいて、特定の発信先がユーザにより選択されると、選択された発信先へ電話が発信される。
なお、電話サブメニューにおける「名前A」、「名前B」等の項目は、例えば、電話帳に登録されている発信先が使用される。
ナビゲーションサブメニューでは、「目的地名A」、「目的地名B」、・・等の目的地毎の項目が用意されており、この項目に対応する音声として、「Aへ行きますか?」「Bへ行きますか?」、・・・等の音声が用意されている。
ナビゲーションサブメニューにおいて、特定の項目がユーザにより選択されると、選択された目的地へのナビゲーションが行われる
なお、ナビゲーションサブメニューにおける「目的地名A」、「目的地名B」等の項目は、ユーザにより予め登録されている目的地が使用される。
機器コントロールのサブメニューでは、「電灯Aを点灯」、「電灯Bを点灯」、・・等の制御対象毎かつ制御毎の項目が用意されており、この項目に対応する音声として、「リビングの電灯を点灯しますか?」「廊下の電灯を点灯しますか?」、・・・等の音声が用意されている。
機器コントロールのサブメニューにおいて、特定の項目がユーザにより選択されると、選択された機器の制御が行われる。
なお、機器コントロールのサブメニューにおける「電灯Aを点灯」、「電灯Bを点灯」等の項目は、例えば、ユーザにより予め登録される。
[階層数]
図8に示す例では、メニューの階層数が、メインメニューとサブメニューの2層になっている例が示されている。一方、メニューの階層数は、3層以上であっても構わない。図9は、メニューの階層数が3層以上とされた場合の一例を示す図である。
図9では、メインメニューが1層目とされ、歌手サーチメニュー(図8の音楽サブメニューと同じ)が2層目とされ、アルバムサーチメニューが3層目とされ、曲サーチメニューが4層目とされた場合の一例が示されている。
メインメニューにおいて「音楽」の項目が選択されると、歌手サーチメニューが呼び出される。歌手サーチメニューにおいて、特定の歌手が選択されると、選択された歌手に対応するアルバムサーチメニューが呼び出される。
アルバムサーチメニューでは、「アルバム名A」、「アルバム名B」、・・等のアルバム毎の項目が用意されており、この項目に対応する音声として、「Aを聞きますか?」「Bを聞きますか?」等の音声が用意されている。
アルバムサーチメニューにおいて、特定のアルバムがユーザにより選択されると、選択されたアルバムに対応する曲サーチメニューが呼び出される。
曲サーチメニューでは、「曲名a」、「曲名b」、・・等の曲毎の項目が用意されており、この項目に対応する音声として、「aを聞きますか?」「bを聞きますか?」等の音声が用意されている。
曲サーチメニューにおいて、特定の曲がユーザにより選択されると、選択された曲に対応する曲が再生される。
図9に示す例では、「音楽」の項目について、階層数が3層以上になる場合について説明した。一方、「ニュース」、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」等においても階層数が3層以上となっていてもよい。
例えば、「ニュース」について、メインメニューが1層目とされ、カテゴリサーチメニュー(不図示:例えば、「主要ニュース」、「スポーツニュース」等のカテゴリ毎のメニュー)が2層目とされ、ニュースサーチメニュー(図8に示すニュースサブメニューと同じ)が3層目とされる。
メインメニューにおいて「ニュース」の項目が選択されると、カテゴリサーチメニューが呼び出される。カテゴリサーチメニューでは、「主要ニュース」、「スポーツニュース」、・・等のカテゴリ毎の項目が用意されており、この項目に対応する音声として、「主要ニュースを聞きますか?」「スポーツニュースを聞きますか?」等の音声が用意されている。
カテゴリサーチメニューにおいて、特定のカテゴリがユーザにより選択されると、選択されたカテゴリに対応するニュースサーチメニューが呼び出される。
ニュースサーチメニューでは、「ニュース名A」、「ニュース名B」、・・等のニュース毎の項目が用意されており、この項目に対応する音声として、「Aを再生しますか?」「Bを聞きますか?」等の音声が用意されている。
ニュースサーチメニューにおいて、特定のニュースがユーザにより選択されると、選択されたニュースの内容が再生される。
図8、図9に示す例では、メニューの階層数が、2層以上とされる場合について説明したが、メニューの階層数は、1層であっても構わない。
例えば、メニューの階層数がメインメニューの1層だけである場合を想定する。この場合、メインメニューにおいて、「音楽」、「ニュース」、「スケジュール」、「メッセージ」の項目が選択されると、音楽、ニュース、スケジュール、メッセージの再生が開始される。なお、「電話」、「ナビゲーション」、「機器コントロール」の項目は、発信先、目的地、制御対象が選択されないと処理が行えないので、このような項目については、基本的に、次の階層のメニューが要ることになる。
また、図8において、例えば、メニューの階層数が音楽サブメニューの1層だけである場合を想定する。この場合、メインメニューを介さずに音楽サブメニューが(後述のメニュートリガジェスチャにより)直接的に呼び出される。そして、音楽サブメニューにおいて、「歌手名A」、「歌手名B」、・・の項目のうちいずれかの歌手が選択されると、選択された歌手の曲が再生される。
なお、図8における音楽サブメニュー以外のサブメニュー、図9におけるアルバムサーチメニュー、曲サーチメニューなども同様に、1層とすることができる。
[処理が既に実行されているときのメニュー]
図10は、音楽の再生、ニュースの再生などの処理が既に実行されているときに呼び出されるメニューの一例を示す図である。
図10において、音楽生中メニューは、音楽の再生中に呼び出されるメニューであり、ニュース再生中メニューは、ニュースの再生中に呼び出されるメニューである。
音楽再生中メニューにおいては、「一時停止」、「次の曲へ進む」、「前の曲へ戻る」、「再生中の曲をリピート」、「再生中の曲をブックマーク」、「再生中の曲の情報を再生」の6つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「一時停止しますか?」、「次の曲へ進みますか?」、「前の曲へ戻りますか?」、「この曲をリピートしますか?」、「この曲をブックマークしますか?」、「この曲の情報を聞きますか?」の6つの質問が用意されている。
音楽再生中メニューにおいて、特定の項目がユーザにより選択されると、その項目に対応する処理が実行される。例えば、「一時停止」の項目が選択されると、再生中の曲が一時停止される。
ニュース再生中メニューにおいては、「一時停止」、「次のニュースへ進む」、「前のニュースへ戻る」、「再生中のニュースをブックマーク」の4つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「一時停止しますか?」、「次のニュースへ進みますか?」、「前のニュースへ戻りますか?」、「このニュースをブックマークしますか?」、の4つの質問が用意されている。
ニュース再生中メニューにおいて、特定の項目がユーザにより選択されると、その項目に対応する処理が実行される。例えば、「一時停止」の項目が選択されると、再生中のニュースが一時停止される。
なお、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」等においても処理実行中のメニューが用意されていてもよい。
[メニューの項目と、項目に対応する音声との関係等]
図8~図10に示した各メニューにおいては、各項目に対応する音声が「~しますか?」の質問形式となっている。一方、メニューにおける項目に対応する音声は、ユーザがどのような項目であるかを識別可能な音声であれば、質問形式の音声に限られず、どのような音声であってもよい。例えば、メインメニューにおける「音楽」の項目に対応する音声として、「音楽」、「音楽の再生」、「音楽を聞く」等の音声であってもよい。
また、メニューにおける項目に対応する音声は、発話音声である必要もない。例えば、図9に示す曲サーチメニューにおいて、「aを聞きますか?」、「bを聞きますか?」等の発話音声に代えて、対応する曲の一部(導入の部分、サビの部分等)が項目に対応する音声として用いられてもよい。また、「aを聞きますか?」、「bを聞きますか?」の発話音声と一緒に、対応する曲の一部が再生されてもよい。
また、メニューにおける項目に対応する音声が出力されているとき、その項目に関連すする動画がスマートフォン20の画面上に表示されてもよい。例えば、図9に示す曲サーチメニューにおいて、「aを聞きますか?」、「bを聞きますか?」等の発話音声(あるいは、曲の一部)が出力されているときに、曲のプロモーション動画が画面上で再生されてもよい。
<動作説明>
次に、情報処理装置100の処理について具体的に説明する。図11~図15は、情報処理装置100における処理を示すフローチャートである。
まず、第1のヘッドフォンユニット1aの制御部4aは、モーションセンサ7aによって検出された第1の検出値をモーションセンサ7aから取得する(ステップ101)。
同様に、第2のヘッドフォンユニット1bの制御部4bは、モーションセンサ7bによって検出された第2の検出値をモーションセンサ7bから取得する(ステップ201)。そして、第2のヘッドフォンユニット1bの制御部4bは、取得された第2の検出値を第1のヘッドフォンユニット1aへと送信する(ステップ202)。
第1のヘッドフォンユニット1aの制御部4aは、第1の検出値を取得した後、第2のヘッドフォンユニット1bから第2の検出値が受信されたかどうかを判定する(ステップ102)。第2の検出値が受信されなかった場合(ステップ102のNO)、制御部は、再び第2の検出値が受信されたかどうかを判定する。
第2の検出値が受信された場合(ステップ102のYES)、第1のヘッドフォンユニット1aの制御部4aは、第1の検出値及び第2の検出値に基づいて、ユーザの頭部の動きを判定する(ステップ103)。なお、本実施形態では、ユーザの頭部の動きを判定するために、第1の検出値及び第2の検出値の両方の値が用いられる場合について説明するが、第1の検出値及び第2の検出値のうち一方の値が用いられてユーザの頭部の動きが判定されてもよい(後述のステップ111において同様)。この場合、モーションセンサは、第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bの両方に設けられている必要はなく、モーションセンサは、第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bのうち一方にのみ設けられていてもよい。
ユーザの頭部の動きを判定すると、第1のヘッドフォンユニット1aの制御部4aは、ユーザの頭部の動きに基づいて、メニュートリガジェスチャが検出されたかどうかを判定する(ステップ104)。メニュートリガジェスチャは、ユーザがメニューを呼び出すためのジェスチャであり、例えば、ユーザが首を特定の方向に傾げる動作とされる。
メニュートリガジェスチャが検出されなかった場合(ステップ104のNO)、第1のヘッドフォンユニット1aの制御部4aは、ステップ101へ戻り、第1の検出値を取得する。そして、第1のヘッドフォンユニット1aの制御部4aは、第2の検出値を受信してユーザの動きを判定した後、再びメニュートリガジェスチャが検出されたかどうかを判定する。
メニュートリガジェスチャが検出された場合(ステップ104のYES)、第1のヘッドフォンユニット1aの制御部4aは、メニュートリガジェスチャが検出されたことを示す情報を、第2のヘッドフォンユニット1b及びスマートフォン20へと出力する(ステップ105)。
そして、第1のヘッドフォンユニット1aの制御部4aは、メニュートリガジェスチャの検出音をスピーカ6aから出力させる(ステップ106)。メニュートリガの検出音は、例えば、「ポン」、「ピン」等の効果音であってもよいし、「メニューを再生します」等の発話音声であってもよい。
第2のヘッドフォンユニット1bの制御部4bは、第2の検出値を第1のヘッドフォンユニット1aへ送信した後、メニュートリガジェスチャの検出が第1のヘッドフォンユニット1aから通知されたかどうかを判定する(ステップ203)。
メニュートリガジェスチャの検出が通知されなかった場合(ステップ203のNO)、第2のヘッドフォンユニット1bの制御部4bは、ステップ201へ戻り、第2の検出値を取得する。そして、第2のヘッドフォンユニット1bの制御部4bは、第2の検出値を第1のヘッドフォンユニット1aへ送信した後、再び、メニュートリガジェスチャの検出が通知されたかどうかを判定する。
メニュートリガジェスチャの検出が通知された場合(ステップ203のYES)、第2のヘッドフォンユニット1bの制御部4bは、メニュートリガジェスチャの検出音をスピーカ6bから出力させる(ステップ204)。
なお、第1のヘッドフォンユニット1aの制御部4aと、第2のヘッドフォンユニット1bの制御部4bとは、同じタイミングでメニュートリガジェスチャの検出音をスピーカ6a、6bから出力させる。
第1のヘッドフォンユニット1aの制御部4aは、メニュートリガジェスチャの検出音を出力させた後、第1の音声データがスマートフォン20から受信されたかどうかを判定する(ステップ107)。
第1の音声データは、メニューにおける項目が順番に読み上げられる右側の音声データであり、音像の定位位置が項目毎に左右方向で交互に切り替えられる音像定位位置付きの音声データである。
第1の音声データが受信されなかった場合(ステップ107のNO)、第1のヘッドフォンユニット1aの制御部4aは、再び、第1の音声データがスマートフォン20から受信されたかどうかを判定する(第1の音声データの受信待ち状態)。
第2のヘッドフォンユニット1bの制御部4bは、メニュートリガジェスチャの検出音を出力させた後、第2の音声データがスマートフォン20から受信されたかどうかを判定する(ステップ205)。
第2の音声データは、メニューにおける項目が順番に読み上げられる左側の音声データであり、音像の定位位置が項目毎に左右方向で交互に切り替えられる音像定位位置付きの音声データである。
第2の音声データが受信されなかった場合(ステップ205のNO)、第2のヘッドフォンユニット1bの制御部4bは、再び、第2の音声データがスマートフォン20から受信されたかどうかを判定する(第2の音声データの受信待ち状態)。
なお、ここでの説明では、第1の音声データ及び第2の音声データが音像定位位置付きの音声データであるとして説明するが、第1の音声データ及び第2の音声データは、音像定位位置付きの音声データでなくてもよい。
例えば、右側のスピーカ6a及び左側のスピーカ6bのうち一方のスピーカ6から項目を読み上げる音声が出力されているときに、他方のスピーカ6からは音声が出力されないようにして、ユーザに項目が提示されてもよい。このような場合には、第1の音声データ及び第2の音声データは、音像定位位置付きの音声データとする必要はない。
スマートフォン20の制御部12は、まず、メニュートリガジェスチャの検出が第1のヘッドフォンユニット1aから通知されたかどうかを判定する(ステップ301)。メニュートリガジェスチャの検出が通知されなかった場合(ステップ301のNO)、スマートフォン20の制御部12は、再び、メニュートリガジェスチャの検出が第1のヘッドフォンユニット1aから通知されたかどうかを判定する(メニュートリガジェスチャの検出の通知待ち状態)。
メニュートリガジェスチャの検出が通知されると(ステップ301のYES)、スマートフォン20の制御部12は、処理の実行状況などに応じて、呼び出すべきメニューを判定する(ステップ302)。例えば、現在において、音楽の再生やニュースの再生等の処理が実行されていない場合には、メインメニューが呼び出される。一方で、現在において音楽の再生や、ニュースの再生等の処理が実行されている場合には、音楽再生中メニューや、ニュース再生中メニュー等が呼び出される。
呼び出すべきメニューを決定すると、次に、スマートフォン20の制御部12は、そのメニューについて、新たに第1の音声データ及び第2の音声データを生成する必要があるかどうかを判定する(ステップ303)。新たに第1の音声データ及び第2の音声データを生成する必要がある場合(ステップ303のYES)、スマートフォン20の制御部12は、ステップ304へ進む。一方、新たに第1の音声データ及び第2の音声データを生成する必要がない場合(ステップ303のNO)、スマートフォン20の制御部12は、ステップ317へ進む。
ここで、新たに第1の音声データ及び第2の音声データを生成する必要がある場合について説明する。まず、全てのメニューにおいては、最初は、第1の音声データ及び第2の音声データを新たに生成する必要があり、従って、最初は、全てのメニューについて新たに第1の音声データ及び第2の音声データを生成する必要があると判定される。
一旦、第1の音声データ及び第2の音声データが生成されると、これらの音声データは、対応するメニューに関連付けられて記憶部に記憶される。
ここで、例えば、メニューにおいて項目が予め固定である場合、一旦、第1の音声データ及び第2の音声データが生成されれば、再び、新たに第1の音声データ及び第2の音声データを生成する必要はない。
一方、メニューにおける項目が動的に変化する場合があり、このような場合には、例えば、メニューが呼び出される度に、新たに第1の音声データ及び第2の音声データを生成する必要がある。
メニューにおける項目が動的に変化する場合について説明する。例えば、ニュースサブメニュー(図8参照)において、最新のニュースが上から順番に並べられてメニューが生成されるとする。この場合、ニュースサブメニュー内の項目が動的に変わる可能性があるので、例えば、ニュースサブメニューが呼び出されたときに、このメニューに対応する第1の音声データ及び第2の音声データが新たに生成される。
また、メッセージサブメニュー(図8参照)において、最新のメッセージが上から順番に並べられてメニューが生成されるとする。この場合、メッセージサブメニュー内の項目が動的に変わる可能性があるので、例えば、メッセージサブメニューが呼び出されたときに、このメニューに対応する第1の音声データ及び第2の音声データが新たに生成される。
また、電話サブメニュー(図8参照)において、発信履歴における発信日時が最も近い発信先が上から順番に並べられてメニューが生成されるとする。あるいは、発信履歴における発信回数が最も多い発信先が上から順番に並べられてメニューが生成されるとする。この場合、電話サブメニュー内の項目が動的に変わる可能性があるので、例えば、電話サブメニューが呼び出されたときに、このメニューに対応する第1の音声データ及び第2の音声データが新たに生成される。
新たに第1の音声データ及び第2の音声データを生成する必要がある場合(ステップ303のYES)、スマートフォン20の制御部12は、項目に対応する音声の元になるテキストデータを生成するための情報を取得する。
例えば、メインメニューにおいては、項目(音楽等)の情報が取得され、音楽サブメニューにおいては、歌手名の情報が取得され、ニュースサブメニューにおいては、ニュース名の情報が取得される。
この情報を取得すると、次に、スマーフォンの制御部は、この情報に基づいて、項目に対応する音声の元になるテキストデータを項目毎に生成する(ステップ305)。
例えば、メインメニューにおいて、項目(音楽等)の情報に基づいて、「音楽を聞きますか」、「ニュースを聞きますか」等のテキストデータが生成され、音楽サブメニューにおいて、歌手名の情報に基づいて、「Aさんの曲を聞きますか」、「Bさんの曲をききますか」等のテキストデータが生成される。また、ニュースサブメニューにおいて、ニュース名の情報に基づいて、「Aを再生しますか」、「Bを再生しますか」等のテキストデータが生成される。
呼び出されたメニューについて、テキストデータを項目毎に生成すると、次に、スマートフォン20の制御部12は、これらのテキストデータのうち1つのテキストデータを記憶部から読みだす(ステップ306)。次に、スマートフォン20の制御部12は、テキストデータが発話可能かどうかを判定する(ステップ307)。
ここで、テキストデータが発話不能である場合について説明する。例えば、曲名、スケジュール名等が、「△」、「○」等の記号のみであるような場合、「△を聞きますか」、「○の件を再生しますか」等のテキストデータにおいて、「△」、「○」の部分は発音不能である。
テキストデータが発話不能である場合(ステップ307のNO)、スマートフォン20の制御部12は、他の情報に基づいて、テキストデータを再生成する(ステップ308)。
例えば、曲名が「△」であり、テキストデータが発話不能である場合、曲名以外の情報、例えば、アルバム内において何番目の曲かを示すメタ情報等に基づいて、「3曲目の曲を聞きますか」等のテキストデータを再生成する。また、スケジュール名が「○」であり、テキストデータが発話不能である場合、スケジュール名以外の情報、例えば、日時の情報に基づいて、「12月10日の件を再生しますか」等のテキストデータを再生成する
テキストデータを再生成すると、次に、スマートフォン20の制御部12は、再び、そのテキストデータが発話可能であるかどうかを判定する(ステップ307)。
テキストデータが発話可能である場合(ステップ307のYES)、スマートフォン20の制御部12は、テキストデータを発話したときの音声出力期間tを算出する(ステップ309)。次に、スマートフォン20の制御部12は、音声出力期間tが、上限値Th1未満であるかどうかを判定する(ステップ310)。
音声出力期間tが上限値Th1以上である場合(ステップ310のNO)、スマートフォン20の制御部12は、テキストデータを短縮する(ステップ311)。そして、スマートフォン20の制御部12は、再び、テキストデータを発話したときの音声出期間tを算出し、音声出力期間tが、上限値Th1未満であるかどうかを判定する。
例えば、曲サーチメニューにおいて、曲名が「ABCD-EFGHIJKLMN」のような長い曲名であり、「ABCD-EFGHIJKLMNを聞きますか」等のテキストデータを発話したときの音声出力期間tが上限値Th1以上である場合を想定する。
この場合、スマートフォン20の制御部12は、例えば、曲名においてE以降を削除して、「ABCDを聞きますか」等のテキストデータを生成する。あるいは、スマートフォン20の制御部12は、「聞きますか」を削除して、「ABCD-EFGHIJKLMN」等の曲名だけのテキストデータを生成する。「ABCD-EFGHIJKLMN」等の曲名だけのテキストデータにおいても上限値Th1を超える場合、スマートフォン20の制御部12は、テキストデータを「ABCD」のように曲の一部だけとする。
また、例えば、ニュースサブメニューにおいて、ニュース名が「台風16号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等の長いニュース名である場合を想定する。そして、「台風16号今夜接近を再生しますか」、「東名高速道路で玉突き事故を再生しますか」、「衆議院選挙の情勢を再生しますか」等のテキストデータを発話したときの音声出力期間tが上限値Th1以上である場合を想定する。
この場合、スマートフォン20の制御部12は、「台風16号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」から、例えば、「台風」、「東名事故」、「選挙」等の重要文字を抽出する。そして、スマートフォン20は、「台風を再生しますか」「東名事故を再生しますか」、「選挙を再生しますか」等のテキストデータを生成する。あるいは、スマートフォン20の制御部12は、「聞きますか」を削除して、「台風16号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等のニュース名だけのテキストデータを生成する。
「台風16号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等のニュース名だけのテキストデータにおいても上限値Th1以上となる場合、スマートフォン20の制御部12は、テキストデータを「台風」、「東名事故」、「選挙」のようにニュース名の一部だけとしてもよい。
また、例えば、ナビゲーションサブメニューにおいて、目的地名が、「ABCDEFGHI町一丁目」などのように長い目的地名であり、「ABCDEFGHI町一丁目へ行きますか」等のテキストデータを発話したときの音声出力期間tが上限値Th1以上となる場合を想定する。この場合、スマートフォン20の制御部12は、「へ行きますか」を削除して、「ABCDEFGHI町一丁目」等の目的地名だけのテキストデータを生成する。
また、例えば、目的地名について、「ABCDEFGHI町一丁目」、「ABCDEFGHI町二丁目」、「ABCDEFGHI町三丁目」のように、最初の部分が共通で末尾が変わる目的地名が項目において連続する場合を想定する。この場合、「ABCDEFGHI町一丁目」以外のテキストデータについては、共通する部分(「ABCDEFGHI町」)を削除して、「二丁目へ行きますか」、「三丁目へ行きますか」等のテキストデータを生成する。
なお、ここでの例では、音声出力期間tが上限値Th1以上である(所定の範囲内に収まっていない)場合に、項目に対応する音声の元となるテキストデータを短縮(変化)させる場合について説明した。一方、音声出力期間tが上限値Th1以上である(所定の範囲内に収まっていない)場合に、項目に対応する音声の再生速度を速く(変化)させてもよい。あるいは、テキストデータを短縮する手法と、再生速度を速くする手法とが組み合わされてもよい。
ステップ310において、音声出力期間tが上限値Th1未満である場合(ステップ310のYES)、スマートフォン20の制御部12は、音声出力期間tが下限値Th2を超えるかどうかを判定する(ステップ312)。
音声出力期間tが下限値Th2以下である場合、スマートフォン20の制御部12は、テキストデータの末尾に空白を追加する(ステップ313)。そして、スマートフォン20の制御部12は、再び、テキストデータを発話したときの音声出期間tを算出し、音声出力期間tが、下限値Th2を超えるかどうかを判定する。
上限値Th1及び下限値Th2の値は、長すぎるとテンポよくユーザに項目を提示することができない可能性があり、短すぎるとユーザによる項目選択ジェスチャが間に合わない可能性がある(通常、ジェスチャを開始してから検出されるまで2秒程度)。上限値Th1及び下限値Th2の値は、この点を考慮してあらかじめ設定される。例えば、上限値Th1の値は、3秒程度、下限値Th2の値は、2秒程度とされる。
ここで、例えば、曲サーチメニューにおいて、曲名が「1」(日本語で「いち」と発音する)や、「2」(日本語で「に」と発音する)等の短い曲名であり、項目に対応する音声のテキストデータが、「1」や、「2」等の短いテキストデータである場合を想定する。なお、ここでの例では、テキストデータにおいて曲名の後に「聞きますか」等の文字は付いていないとする。
この場合、「いち」や「に」を発話したときの音声出力期間tが下限値Th2以下であると判定され、この場合、音声出力期間tが下限値Th2を超えるように、「1」や、「2」のテキストデータの後に空白が付加される。なお、この場合、「いち」や、「に」の音節数が考慮されてもよい(音節数が考慮されてもよい点については、テキストデータが長い場合も同様)。例えば、音節数が4以下である場合に、音声出力期間tが下限値Th2以下である(短い)と判定されるとすると、テキストデータにおいて、「いち」(2音節)の後に3音節相当の空白が付加され、「に」(1音節)の後に4音節相当の空白が付加される。
なお、ここでの例では、音声出力期間tが下限値Th2以下である(所定の範囲内に収まっていない)場合に、項目に対応する音声の元となるテキストデータに空白を付加(テキストデータを変化)させる場合について説明した。一方、音声出力期間tが下限値Th2以下である(所定の範囲内に収まっていない)場合に、項目に対応する音声の再生速度を遅く(変化)させてもよい。あるいは、テキストデータに空白を付加する手法と、再生速度を遅くする手法とが組み合わされてもよい。
ステップ312において、音声出力期間tが下限値Th2を超える場合(ステップ312のYES)、スマートフォン20の制御部12は、全てのテキストデータについて、各種の判定が完了したかどうかを判定する(ステップ314)。各種の判定がまだ行われていないテキストデータが残っている場合(ステップ314のNO)、スマートフォン20の制御部12は、ステップ306へ戻り、記憶部からテキストデータを1つ読み出して、ステップ307以降の処理を実行する。
発話音声に代えて(あるいは発話音声に加えて)、例えば、対応する曲の一部が項目に対応する音声として用いられる場合、曲の長さが所定の範囲(上限値Th1~下限値Th2)内に収まるように、曲の長さが調整されてもよい。また、例えば、曲の項目に対応する音声が出力されているときに、曲のプロモーション動画がスマートフォン20の画面上で再生されるような場合、動画の長さが所定の範囲(上限値Th1~下限値Th2)内に収まるように、動画の長さが調整されてもよい。
なお、スマートフォン20の制御部12は、ステップ309~ステップ313において、ジェスチャ受付期間Tの長さが、音声に対応する項目毎に一定となるように、音声出力期間tの長さを調整している。このとき、スマートフォン20の制御部12は、音声出力期間tの長さが、上限値Th1及び下限値Th2による所定の範囲内に収まるように、音声出力期間tの長さを調整している。
ステップ314において、全てのテキストデータについて、各種の判定が完了した場合(ステップ314のYES)、制御部は、テキストデータにTTS(Text To Speech)を適用して、第1の音声データ(右側)及び第2の音声データ(左側)を生成する(ステップ315)。そして、第1の音声データ及び第2の音声データを、メニューに関連付けて記憶部に記憶する。
次に、スマートフォン20の制御部12は、各項目に対応するジェスチャ受付期間Tをそれぞれ算出し、このジェスチャ受付期間Tを記憶部に記憶する(ステップ316)。
図7を参照して、ジェスチャ受付期間Tについて詳細に説明する。図7に示すように、典型的には、スマートフォン20の制御部12は、特定の方向においてその項目に対応する音声の出力が開始されてから、同じ方向において次の音声の出力が開始されるまでの期間を、その項目に対応するジェスチャ受付期間Tとして設定する。
例えば、スマーフォンの制御部は、右方向において「音楽を聞きますか?」の音声の出力が開始されてから、次に右方向において「メッセージを聞きますか?」の音声の出力が開始されるまでの期間を、「音楽」の項目に対応するジェスチャ受付期間T1として設定する。
なお、「音楽」の項目に対応するジェスチャ受付期間T1の長さは、「音楽を聞きますか?」の音声出力期間t1と、「ニュースを聞きますか?」の音声出力期間t2とを加算した長さである。
同様にして、スマーフォンの制御部は、左方向において「ニュースを聞きますか?」の音声の出力が開始されてから、次に左方向において「スケジュールを聞きますか?」の音声の出力が開始されるまでの期間を、「ニュース」の項目に対応するジェスチャ受付期間T2として設定する。
なお、「ニュース」の項目に対応するジェスチャ受付期間T2の長さは、「ニュースを聞きますか?」の音声出力期間t1と、「メッセージを聞きますか?」の音声出力期間t2とを加算した長さである。
同様にして、スマートフォン20の制御部12は、「メッセージ」、「スケジュール」、「電話」の項目に対応するジェスチャ受付期間T3~T5を設定する。
ここで、「ナビゲーションを開始しますか?」の音声は、左方向において最後に出力される音声であり、同様に、「機器をコントロールしますか?」の音声は、右方向において最後に出力される音声である。このため、これらについては、同じ方向において次に出力される音声が存在しない。
従って、この場合には、スマートフォン20の制御部12は、その項目に対応する音声の出力の開始から終了までの期間(音声出力期間t)に、所定時間を追加した期間を、その項目に対応するジェスチャ受付期間Tとして設定する。追加される所定時間は、例えば、その項目に対応する音声出力期間tと同じ時間とされる。
例えば、スマートフォン20の制御部12は、「ナビゲーションを開始しますか?」の音声における音声出力期間t6に、所定時間(例えば、音声出力期間t6と同等の期間)を追加した期間を、「ナビゲーション」の項目に対応するジェスチャ受付期間T6として設定する。
同様に、スマートフォン20の制御部12は、「機器をコントロールしますか?」の音声における音声出力期間t7に、所定時間(例えば、音声出力期間t7と同等の期間)を追加した期間を、「機器コントロール」の項目に対応するジェスチャ受付期間T7として設定する。
ジェスチャ受付期間Tを設定すると、スマートフォン20の制御部12は、次のステップ317へ進む。なお、ステップ303において新たに第1の音声データ及び第2の音声データを生成する必要がない場合(第1の音声データが及び第2の音声データや、ジェスチャ受付期間Tが既に生成済みである場合)も同様に、スマートフォン20の制御部12は、ステップ317へ進む。
ステップ317では、スマートフォン20の制御部12は、第1の音声データを第1のヘッドフォンユニット1aへ送信する。次に、スマートフォン20の制御部12は、第2の音声データを第2のヘッドフォンユニット1bへ送信する(ステップ318)。
スマートフォン20から送信された第1の音声データが受信されると(ステップ107のYES)、第1のヘッドフォンユニット1aの制御部4aは、第1の音声データの出力を開始する(ステップ108)。同様に、スマートフォン20から送信された第2の音声データが受信されると(ステップ205のYES)、第2のヘッドフォンユニット1bの制御部4bは、第2の音声データの出力を開始する(ステップ206)。
第1の音声データ及び第2の音声データがスピーカ6a、6bから出力されることで、メニューの項目にそれぞれ対応する音声が、ユーザに対して、右方向及び左方向から項目毎に交互に提示される。
スマートフォン20の制御部12は、第1の音声データ及び第2の音声データを送信すると、右方向及び左方向でそれぞれジェスチャ受付期間Tのカウントを開始する(ステップ319)。
なお、第1の音声データの出力の開始と、第2の音声データの出力の開始と、ジェスチャ受付期間Tのカウントの開始とは、第1のヘッドフォンユニット1a、第2のヘッドフォンユニット1b及びスマートフォン20において同期して同じタイミングで行われる。
第1のヘッドフォンユニット1aの制御部4aは、第1の音声データの出力を開始した後、モーションセンサ7aから第1の検出値を取得する(ステップ109)。そして、第1のヘッドフォンユニット1aの制御部4aは、第2のヘッドフォンユニット1bから第2の検出値が受信されたかどうかを判定する(ステップ110)。
第2のヘッドフォンユニット1bの制御部4bは、第2の音声データの出力を開始した後、モーションセンサ7bから第2の検出値を取得し(ステップ207)、取得した第2の検出値を第1のヘッドフォンユニット1aへ送信する(ステップ208)。
第1のヘッドフォンユニット1aの制御部4aは、第2の検出値が受信されると(ステップ110のYES)、第1の検出値及び第2の検出値に基づいて、ユーザの頭部の動きを判定する(ステップ111)。
次に、第1のヘッドフォンユニット1aの制御部4aは、ユーザの頭部の動きに基づいて、項目選択ジェスチャが検出されたかどうかを判定する(ステップ112)。
項目選択ジェスチャは、ユーザが項目を選択するためのジェスチャであり、本実施形態では、ユーザが右方向又は左方向に素早く顔を向けるジェスチャとされる。なお、項目選択ジェスチャは、ユーザが普段の生活などでゆっくりと右方向、左方向を向く動作と区別されるジェスチャである。
項目選択ジェスチャと、普段の生活等におけるユーザの動きとを区別するために、項目選択ジェスチャを検出するための閾値(方向を向く速さや、向きの角度の閾値)が適切に設定される。なお、項目選択ジェスチャは、右方向又は左方向(音声が出力された方向)に対するジェスチャであれば、どのようなジェスチャであってもよい。例えば、ユーザが右方向、左方向へ手を伸ばすジェスチャ、右方向、左方向を指さすジェスチャ等であってもよい。このようなジェスチャを検出するために、例えば、ヘッドフォン10や、スマートフォン20に撮像部が設けられていてもよい。
項目選択ジェスチャが検出された場合(ステップ112のYES)、第1のヘッドフォンユニット1aの制御部4aは、項目選択ジェスチャが検出されたことを示す情報を第2のヘッドフォンユニット1b及びスマートフォン20へと送信する(ステップ113)。なお、送信される情報には、項目選択ジェスチャの方向(右方向又は左方向)の情報が含められる。
その後、第1のヘッドフォンユニット1aの制御部4aは、第1の音声データの出力を停止し(ステップ114)、項目選択ジェスチャの検出音をスピーカ6aから出力させる(ステップ115)。項目選択ジェスチャの検出音は、「ポン」、「ピン」等の効果音であってもよいし、「ニュースが選択されました」、「ニュースを再生します」等の選択された項目に関する発話音声であってもよい。
第2のヘッドフォンユニット1bの制御部4bは、第2の検出値を第1のヘッドフォンユニット1aへ送信した後、項目選択ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する(ステップ209)。
項目選択ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ209のYES)、第2のヘッドフォンユニット1bの制御部4bは、第2の音声データの出力を停止する(ステップ210)。そして、第2のヘッドフォンユニット1bの制御部4bは、項目選択ジェスチャの検出音をスピーカ6bから出力させる(ステップ211)。
なお、項目選択ジェスチャの検出音の出力は、第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bにおいて、同期して同じタイミングで行われる。
スマートフォン20の制御部12は、ジェスチャ受付期間Tのカウントを開始した後、項目選択ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する(ステップ320)。
項目選択ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ320のYES)、スマートフォン20の制御部12は、ジェスチャ受付期間Tのカウントを停止する(ステップ321)。次に、スマートフォン20の制御部12は、ジェスチャ受付期間Tと、項目選択ジェスチャにおける方向(右方向又は左方向)の情報とに基づいて、ユーザにより選択された項目を判定する(ステップ322)。
例えば、図7を参照して、「ニュース」の項目に対応する受付期間T2において、ユーザが左方向を向く項目選択ジェスチャをした場合、スマートフォン20の制御部12は、ユーザにより「ニュース」の項目が選択されたと判定する。
ユーザにより選択された項目を判定すると、スマートフォン20の制御部12は、選択された項目について、次の階層(下層)のメニューが存在するかどうかを判定する(ステップ323)。
選択された項目について、次の階層のメニューが存在しない場合(ステップ323のNO)、スマートフォン20は、選択された項目に対応する処理を実行する。例えば、「ニュース」の項目について、次の階層のメニューが存在しない場合(図8においてニュースサブメニューが存在しないような場合)、ニュースを再生する処理を実行する。
一方、選択された項目について、次の階層のメニューが存在している場合(ステップ323のYES)、スマートフォン20の制御部12は、ステップ302へ戻り、呼び出すべきメニュー(次の階層のメニュー)を判定する。
例えば、「ニュース」の項目について、次の階層のメニューが存在している場合(図8のようにニュースサブメニューが存在している場合)、「ニュース」の項目が選択されたとき、次の階層のメニューであるニュースサブメニューが呼び出される。
その後、スマートフォン20の制御部12は、次の階層のメニューについて、ステップ303~ステップ316の処理を行う。そして、スマートフォン20の制御部12は、次の階層のメニューにおける第1の音声データを第1のヘッドフォンユニット1aへ送信し(ステップ317)、次の階層のメニューにおける第2の音声データを第2のヘッドフォンユニット1bへ送信する(ステップ318)。
第1のヘッドフォンユニット1aの制御部4aは、項目選択ジェスチャの検出音を出力した後、次の階層のメニューにおける第1の音声データを所定時間内に受信したかどうかを判定する(ステップ116)。
次の階層における第1の音声データを所定時間内に受信した場合(ステップ116のYES)、第1のヘッドフォンユニット1aの制御部4aは、ステップ108へ戻り、その第1の音声データの出力を開始する。一方、次の階層における第1の音声データを所定時間内に受信しなかった場合(ステップ116のNO)、第1のヘッドフォンユニット1aの制御部4aは、ステップ101へ戻り、モーションセンサ7aから第1の検出値を取得する。
第2のヘッドフォンユニット1bの制御部4bは、項目選択ジェスチャの検出音を出力した後、次の階層のメニューにおける第2の音声データを所定時間内に受信したかどうかを判定する(ステップ212)。
次の階層における第2の音声データを所定時間内に受信した場合(ステップ212のYES)、第2のヘッドフォンユニット1bの制御部4bは、ステップ206へ戻り、その第2の音声データの出力を開始する。一方、次の階層における第2の音声データを所定時間内に受信しなかった場合(ステップ212のNO)、第2のヘッドフォンユニット1bの制御部4bは、ステップ201へ戻り、モーションセンサ7bから第2の検出値を取得する。
第1のヘッドフォンユニット1aの制御部4aは、ステップ112において、項目選択ジェスチャが検出されなかった場合(ステップ112のNO)、次のステップ117へ進む。ステップ117では、第1のヘッドフォンユニット1aの制御部4aは、ユーザの頭部の動きに基づいて、メニュー中断ジェスチャが検出されたかどうかを判定する。
メニュー中断ジェスチャは、ユーザがメニューの再生を中断させるためのジェスチャであり、例えば、ユーザが右方向及び左方向に素早く首を振るジェスチャ(一般的に「いいえ」のときに人がする動作)とされる。
なお、メニュー中断ジェスチャは、右方向及び左方向に素早く首を振る動作に限られない。例えば、メニュー中断ジェスチャは、ユーザが手を右方向及び左方向に素早く振る動作であってもよい。このようなジェスチャを検出するために、例えば、ヘッドフォン10や、スマートフォン20に撮像部が設けられていてもよい。
メニュー中断ジェスチャが検出された場合(ステップ117のYES)、第1のヘッドフォンユニット1aの制御部4aは、メニュー中断ジェスチャが検出されたことを示す情報を第2のヘッドフォンユニット1b及びスマートフォン20へと送信する(ステップ118)。
その後、第1のヘッドフォンユニット1aの制御部4aは、第1の音声データの出力を停止し(ステップ119)、メニュー中断ジェスチャの検出音をスピーカ6aから出力させる(ステップ120)。メニュー中断ジェスチャの検出音は、「ポン」、「ピン」等の効果音であってもよいし、「メニューの再生を中断します」等の発話音声であってもよい。
メニュー中断ジェスチャの検出音を出力すると、第1のヘッドフォンユニット1aの制御部4aは、ステップ101へ戻り、再び、モーションセンサ7aから第1の検出値を取得する。
第2のヘッドフォンユニット1bの制御部4bは、項目選択ジェスチャの検出が第1のヘッドフォンユニット1aから通知されなかった場合(ステップ209のNO)、ステップ213へ進む。ステップ213では、第2のヘッドフォンユニット1bの制御部4bは、メニュー中断ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
メニュー中断ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ213のYES)、第2のヘッドフォンユニット1bの制御部4bは、第2の音声データの出力を停止する(ステップ214)。そして、第2のヘッドフォンユニット1bの制御部4bは、メニュー中断ジェスチャの検出音をスピーカ6bから出力させる(ステップ215)。
なお、メニュー中断ジェスチャの検出音の出力は、第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bにおいて、同期して同じタイミングで行われる。
メニュー中断ジェスチャの検出音を出力すると、第2のヘッドフォンユニット1bの制御部4bは、ステップ201へ戻り、再び、モーションセンサ7bから第2の検出値を取得する。
スマートフォン20の制御部12は、項目選択ジェスチャの検出が第1のヘッドフォンユニット1aから通知されなかった場合(ステッ320のNO)、ステップ325へ進む。ステップ325では、スマートフォン20の制御部12は、メニュー中断ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
メニュー中断ジェスチャが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ325のYES)、スマートフォン20の制御部12は、ジェスチャ受付期間Tのカウントを停止する(ステップ326)。そして、スマートフォン20の制御部12は、ステップ301へ戻り、メニュートリガジェスチャが検出されたことが第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
第1のヘッドフォンユニット1aの制御部4aは、ステップ117において、メニュー中断ジェスチャが検出されなかった場合(ステップ117のNO)、ステップ121へ進む。ステップ121では、第1のヘッドフォンユニット1aの制御部4aは、ユーザの頭部の動きに基づいて、曖昧な動きが検出されたかどうかを判定する。
曖昧な動きについて説明する。上述のように、ユーザが素早く右方向又は左方向に顔を向けると、その動きが項目選択ジェスチャとして検出される。一方、ユーザがゆっくり右方向又は左方向に顔を向けた場合や、顔の向きの角度が足らないような場合、この動きは、項目選択ジェスチャとしては検出されない。本実施形態では、曖昧な動きは、例えば、このような、項目選択ジェスチャとしては検出されないものの、項目選択ジェスチャに近い動きである。
曖昧な動きが検出された場合(ステップ121のYES)、第1のヘッドフォンユニット1aの制御部4aは、曖昧な動きが検出されたことを示す情報を第2のヘッドフォンユニット1b及びスマートフォン20へと送信する(ステップ122)。送信される情報には、例えば、検出された曖昧な動きが、項目選択ジェスチャにどの程度近い動きであるのかを示す情報が含められる。
その後、第1のヘッドフォンユニット1aの制御部4aは、延長期間がスマートフォン20から通知されたかどうかを判定する(ステップ123)。延長期間は、現在出力されている音声に対応する項目におけるジェスチャ受付期間Tを延長するための期間である。
延長期間が通知されなかった場合(ステップ123のNO)、第1のヘッドフォンユニット1aの制御部4aは、再び、延長期間がスマートフォン20から通知されたかどうかを判定する(延長期間の通知待ち)。
第2のヘッドフォンユニット1bの制御部4bは、メニュー中断ジェスチャの検出が第1のヘッドフォンユニット1aから通知されなかった場合(ステップ213のNO)、ステップ216へ進む。ステップ216では、第2のヘッドフォンユニット1bの制御部4bは、曖昧な動きが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
曖昧な動きが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ216のYES)、第2のヘッドフォンユニット1bの制御部4bは、延長期間がスマートフォン20から通知されたかどうかを判定する(ステップ217)。延長期間が通知されなかった場合(ステップ217のNO)、第2のヘッドフォンユニット1bの制御部4bは、再び、延長期間がスマートフォン20から通知されたかどうかを判定する(延長期間の通知待ち)。
スマートフォン20の制御部12は、メニュー中断ジェスチャの検出が第1のヘッドフォンユニット1aから通知されなかった場合(ステッ325のNO)、ステップ327へ進む。ステップ327では、スマートフォン20の制御部12は、曖昧な動きが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
曖昧な動きが検出されたことを示す情報が第1のヘッドフォンユニット1aから通知された場合(ステップ327のYES)、スマートフォン20の制御部12は、延長期間を算出する。延長期間は、曖昧な動きが項目選択ジェスチャに近い動きであるほど、長い期間となるように、その期間が設定される。なお、ここでの説明では、延長期間が可変である場合について説明するが、延長期間は一定であってもよい。
延長期間を算出すると、次に、スマートフォン20の制御部12は、延長期間を示す情報を第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bへと送信する(ステップ329)。
次に、スマートフォン20の制御部12は、現在の項目における第1のジェスチャ受付期間T、及び現在の項目における第2のジェスチャ受付期間Tを、それぞれ、延長期間分延長する(ステップ330)。
第1のヘッドフォンユニット1aの制御部4aは、スマートフォン20から延長期間が通知されると(ステップ123のYES)、ステップ124へ進む。ステップ124では、第1のヘッドフォンユニット1aの制御部4aは、現在の音声出力期間tの後に、延長期間を追加する。
例えば、ステップ124において、第1のヘッドフォンユニット1aの制御部4aは、現在の項目の音声の出力が完了した後に、第1の音声データの出力を一時停止させる。そして、第1のヘッドフォンユニット1aの制御部4aは、一時停止のタイミングから延長期間分の時間が経過したときに、第1の音声データの出力を再開する。このようにして、第1のヘッドフォンユニット1aの制御部4aは、現在の音声出力期間tの後に、延長期間を追加する。なお、延長期間中に、項目毎の区切りを意味する効果音が出力されてもよい。
第2のヘッドフォンユニット1bの制御部4bは、スマートフォン20から延長期間が通知されると(ステップ217のYES)、ステップ218へ進む。ステップ218では、第2のヘッドフォンユニット1bの制御部4bは、現在の音声出力期間tの後に、延長期間を追加する。
例えば、ステップ218において、第2のヘッドフォンユニット1bの制御部4bは、現在の項目の音声の出力が完了した後に、第2の音声データの出力を一時停止させる。そして、第2のヘッドフォンユニット1bの制御部4bは、一時停止のタイミングから延長期間分の時間が経過したときに、第2の音声データの出力を再開する。このようにして、第2のヘッドフォンユニット1bの制御部4bは、現在の音声出力期間tの後に、延長期間を追加する。なお、延長期間中に、項目毎の区切りを意味する効果音が出力されてもよい。
図7を参照して、例えば、「ニュースを聞きますか?」の音声出力期間t2におけるいずれかの時点において、ユーザが、ゆっくり右方向又は左方向を向き、曖昧な動きが検出されたとする。この場合、「ニュースを聞きますか?」の音声の出力が完了した後に、第1の音声データ及び第2の音声データが一時停止される。
そして、一時停止されたタイミングから延長期間が経過したときに、第1の音声データ及び第2の音声データの出力が再開され、「メッセージを聞きますか?」の音声が出力される。なお、延長期間内において、「ニュースを聞きますか?」の音声が、再び、再生されてもよい(つまり、「ニュースを聞きますか?」の音声が2回再生される)。
「ニュースを聞きますか?」の音声出力期間t2において曖昧な動きが検出された場合、第1のジェスチャ受付期間Tにおいては、「音楽」の項目に対応するジェスチャ受付期間T1が延長期間分延長される。一方、第2のジェスチャ受付期間Tにおいては、「ニュース」の項目に対応するジェスチャ受付期間T2が延長期間分延長される。
この場合、延長期間内において、ユーザが素早く右方向又は左方向を向き、項目選択ジェスチャが検出された場合には、「音楽」又は「ニュース」の項目が選択される。
なお、ユーザが曖昧な動きをした場合、その動きの曖昧さ(項目選択ジェスチャにどの程度近いか)が、スマートフォン20の画面上に表示されてもよい。この場合、スマートフォン20の画面上において、動きの曖昧さに応じて変色する色が表示されてもよい。また、ユーザが曖昧な動きをした場合、動きの曖昧な動きが検出されたことが音でユーザに提示されてもよい。
スマートフォン20の制御部12は、曖昧な動きが第1のヘッドフォンユニット1aから通知されなかった場合(ステッ327のNO)、ステップ331へ進む。ステップ331では、スマートフォン20の制御部12は、最後の項目のジェスチャ受付期間Tが完了したかどうかを判定する。
最後の項目のジェスチャ受付期間Tが完了していない場合(ステップ331のNO)、スマートフォン20の制御部12は、ステップ320へ戻り、項目選択ジェスチャの検出が第1のヘッドフォンユニット1aから通知されたかどうかを判定する。
一方、最後の項目のジェスチャ受付期間Tが完了した場合(ステップ331のYES)、スマートフォン20の制御部12は、最後の項目のジェスチャ受付期間Tが完了したことを示す情報を、第1のヘッドフォンユニット1a及び第2のヘッドフォンユニット1bへと送信する(ステップ332)。
第1のヘッドフォンユニット1aの制御部4aは、ステップ121において曖昧な動きが検出されなかった場合(ステップ121のNO)、最後の項目のジェスチャ受付期間Tの完了がスマートフォン20から通知されたかどうかを判定する(ステップ125)。
ジェスチャ受付期間Tの完了が通知されなかった場合(ステップ125のNO)、第1のヘッドフォンユニット1aの制御部4aは、ステップ109へ戻り、モーションセンサ7aから第1の検出値を取得する。
一方、ジェスチャ受付期間Tの完了が通知された場合(ステップ125のYES)、第1のヘッドフォンユニット1aの制御部4aは、ステップ101へ戻り、モーションセンサ7aから第1の検出値を取得する。
第2のヘッドフォンユニット1bの制御部4bは、ステップ216において曖昧な動きが通知されなかった場合(ステップ216のNO)、最後の項目のジェスチャ受付期間Tの完了がスマートフォン20から通知されたかどうかを判定する(ステップ219)。
ジェスチャ受付期間Tの完了が通知されなかった場合(ステップ219のNO)、第2のヘッドフォンユニット1bの制御部4bは、ステップ207へ戻り、モーションセンサ7bから第2の検出値を取得する。
一方、ジェスチャ受付期間Tの完了が通知された場合(ステップ219のYES)、第2のヘッドフォンユニット1bの制御部4bは、ステップ201へ戻り、モーションセンサ7bから第2の検出値を取得する。
<作用等>
本実施形態では、メニューにおける各項目にそれぞれ対応する音声が、ユーザに対して右方向及び左方向から項目毎に交互に出力されるように、音声の出力が制御される。つまり、本実施形態では、聴覚によるメニューの項目の提示において、各項目が、方向及び時間で分割されてユーザに提示される。
このように、各項目を、方向及び時間で分割してユーザに提示することで、ユーザに対して項目を適切に提示することができる。なお、各項目が、方向にのみ分割される場合や、時間にのみ分割される場合(後述)、ユーザに対して適切に項目を提示することができない場合がある。
また、本実施形態では、右方向への項目選択ジェスチャに応じて、右方向から出力された音声に対応する項目が選択され、左方向への項目選択ジェスチャに応じて、左方向から出力された音声に対応する項目が選択される。これにより、ユーザは、項目に対応する音声が聞こえた方向へ項目選択ジェスチャを行うことで、項目を選択することができるので、ユーザは、直感的に項目を選択することができる。
また、本実施形態では、ジェスチャ受付期間Tが、音声に対応する項目毎に設定されている。特に、本実施形態では、ジェスチャ受付期間Tとして、右方向から出力された音声に対する項目を選択するための第1のジェスチャ受付期間Tと、左方向から出力された音声に対する項目を選択するための第2のジェスチャ受付期間Tとが設定されている。
これにより、方向毎に、適切にジェスチャ受付期間Tを設定することができる。
ここで、本実施形態の比較として、聴覚によるメニューの提示において、各項目が時間にのみ分割され、方向には分割されずにユーザに提示される場合を想定する。図16は、比較例に係るメニューの項目の提示を示す図である。
図16に示す比較例では、「音楽を聞きますか?」、「ニュースを聞きますか?」、「メッセージを聞きますか?」、「スケジュールを聞きますか?」等の項目に対応する音声が、項目毎にこの順番で出力されるとする。なお、比較例では、本実施形態とは異なり、項目に対応する音声が右方向及び左方向の両方から出力される。
「ニュースを聞きますか?」の音声が出力された後に、この音声にユーザが反応して、ユーザがうなずくジェスチャをすると、「ニュース」の項目が選択される。そして、「ニュースを再生します」の音声が出力(左右両方)された後に、ニュースを読み上げる音声が出力(左右両方)される。
比較例においては、ジェスチャ受付期間Tは、本実施形態と同様に項目毎に設定されるが、本実施形態のように方向毎に設定されてはいない。例えば、「音楽」の項目に対応するジェスチャ受付期間Tは、「音楽を聞きますか?」の音声の出力が開始されてから、「ニュースを聞きますか?」の音声の出力が開始されるまでの期間とされる。また、「ニュース」の項目に対応するジェスチャ受付期間Tは、「ニュースを聞きますか?」の音声の出力が開始されてから、「メッセージを聞きますか?」の音声の出力が開始されるまでの期間とされる。
この比較例においては、項目に対応する音声を素早く連続して出力させることができないといった問題がある。これは、ユーザが音声に反応するためには、多少時間が掛かり、項目に対応する音声を素早く連続して出力させてしまうと、ユーザのジェスチャが音声に追い付かないためである。例えば、「ニュースを聞きますか?」との音声に対して、ユーザがうなずいたとき、既に「メッセージを聞きますか?」の音声の出力が開始されていて、ユーザの意図に反して「メッセージ」の項目が選択されてしまうといったことになってしまいかねない。
このため、比較例においては、例えば、「ニュースを聞きますか?」の音声が出力された後、所定時間(ユーザの反応時間が考慮された時間)を空けてから次の「メッセージを聞きますか?」の音声を出力せざるを得ない。従って、項目毎の音声を素早く連続して出力させることができない。また、比較例では、項目毎の音声を素早く連続して出力させることができないので、メニューに含まれる項目を全てユーザに提示するまでの時間が長くなってしまうといった問題もある。
一方、本実施形態では、項目に対応する音声を素早く連続して出力させることができる。これは、本実施形態では、第1のジェスチャ受付期間Tが、右方向において音声の出力が開始されてから、同じ右方向において次の音声の出力が開始されるまでの期間とされているためである。また、第2のジェスチャ受付期間Tが、左方向において音声の出力が開始されてから、同じ左方向において次の音声の出力が開始されるまでの期間とされているためである。
図7を参照して、例えば、左方向から「ニュースを聞きますか?」の音声が出力され、この音声にユーザが反応して左方向を向いたとする。本実施形態では、「ニュースを聞きますか?」の後にすぐに「メッセージを聞きますか?」の音声が出力されるので、ユーザが左方向を向いたときに、既に、「メッセージを聞きますか?」の音声の出力が開始されている場合がある。
しかしながら、「ニュース」のジェスチャ受付期間Tは、「メッセージを聞きますか?」の音声出力期間tを含むので、ユーザが左方向を向いたときに「メッセージを聞きますか?」の音声の出力が開始されていたとしても、「ニュース」の項目が選択される。
このように、本実施形態では、項目に対応する音声を素早く連続して出力させたとしても、ユーザは、適切に所望の項目を選択することができる。さらに、本実施形態では、項目に対応する音声を素早く連続して出力させることができるので、メニューに含まれる項目を全てユーザに提示するまでの時間を短くすることができるといった利点もある。
さらに、本実施形態では、ジェスチャ受付期間Tの長さが、音声に対応する項目毎に一定となるように、音声出力期間tの長さが調整される(ステップ309~ステップ313参照)。これにより、項目に対応する音声を、一定のリズムでテンポよくユーザに提示することができる。
また、本実施形態では、音声出力期間tの長さが所定の範囲(上限値Th1~下限値Th2)内に収まっていない場合に、音声の元となるテキストデータが変化される。あるいは、音声出力期間tの長さが所定の範囲(上限値Th1~下限値Th2)内に収まっていない場合に、音声の再生速度が調整される。これにより、音声出力期間tの長さを適切に調整することができる。
なお、音声出力期間tの長さが長すぎると、だらだらと長い音声が出力されてユーザに不満を与えてしまうのに対して、本実施形態では、音声出力期間tが長い場合には、短くされるので、ユーザに不満を与えることを防止することができる。一方、音声出力期間tの長さが短すぎると、ジェスチャ受付期間Tが短くなってしまうのに対して、本実施形態では、空白が付加されるので、ジェスチャ受付期間Tが短くなってしまうことを防止することができる。
また、本実施形態では、ジェスチャ受付期間Tの長さが可変に制御される(ステップ327~ステップ330参照)。特に、本実施形態では、ユーザが、項目選択ジェスチャとは判定されないような曖昧な動きをした場合に(ユーザの動きに応じて)、ジェスチャ受付期間Tが可変に制御される。
これにより、ジェスチャ受付期間Tの長さを適切に変化させることができる。また、本実施形態では、音声出力期間tの後に追加される延長期間の長さを可変に制御することで、ジェスチャ受付期間Tの長さが可変に制御される。これにより、延長期間の長さを調整することで、ジェスチャ受付期間Tの長さを適切に調整することができる。
ここで、比較として、例えば、曲の再生について、「・・・(曲名)を再生」とユーザが言ったときに、この音を解析して、対応する曲を再生することも考えられる。一方で、ユーザが、自己が再生を望んでいる曲名を明確に覚えていないと、このような曲の指定の仕方で音楽を再生することはできない。一方、「a(曲名)を聞きますか?」、「b(曲名)を聞きますか?」のように、音声により項目が提示されれば、ユーザは、曲名を明確に覚えていなくても所望の曲を選択して再生することができる。
同様に、ニュースの再生ついて、「・・・(ニュース名)を再生」とユーザが言ったときに、この音声を解析して、対応するニュースを読み上げることも考えられる。一方、起こったニュースをユーザが知らない場合があり、また、そのニュースが起こったこと自体を知っていたとしても、そのニュースに対応するニュース名を正確に知っていることはほとんどない。一方、「A(ニュース名)を聞きますか?」、「B(ニュース名)を聞きますか?」のように、音声により項目が提示されれば、ユーザは、ニュース名を知らなくても所望のニュースを選択して再生することができる。
つまり、聴覚による項目の提示及びジェスチャによる項目の選択(本技術に係る方法)は、ユーザが音声によりピンポイントで項目を指定する場合に比べて、項目選択までに時間が掛かるといったデメリットがあるものの、選択する項目の名前を知らなくても項目を選択可能であるといったメリットがある。
なお、これは、聴覚による項目の提示及びジェスチャによる項目の選択(本技術に係る方法)と、音声によるピンポイントでの項目の指定との組み合わせを排除するものではない。つまり、本技術に係る方法と、音声によるピンポイントでの項目の指定とが組み合わされてもよい。この場合、ユーザの音声を取得するために、ヘッドフォン10にマイクロフォンが設けられるか、あるいは、スマートフォン20のマイクロフォン17が使用される。
この場合、例えば、ユーザは、項目名(曲名、ニュース名等)を明確に覚えている場合に、音声によるピンポイントでの項目の指定を行い、項目名が明確にわからない場合に、本技術に係る方法により項目を選択してもよい。
また、複数のメニューが階層になっている場合、音声によるピンポイントでの項目の指定により、上層のメニューがスキップされてもよい。例えば、図9を参照して、ユーザが「Aさん(歌手名)の曲」と言った場合、メインメニュー(1層目)と、歌手サーチメニュー(2層目)がスキップされて、アルバムサーチメニュー(3層目)からメニューの提示が開始される。
≪第2実施形態≫
次に、本技術に係る第2実施形態について説明する。第2実施形態以降の説明では、上述の第1実施形態と同様の構成及び機能を有する部分については、同一符号を付し、説明を簡略化又は省略する。
第2実施形態では、項目の選択方法が上述の第1実施形態と異なっているため、この点を中心に説明する。図17は、第2実施形態に係る項目の選択方法を示す図である。
図17に示すように、「音楽を聞きますか?」、「ニュースを聞きますか?」、「メッセージを聞きますか」、「スケジュールを聞きますか?」等の項目に対応する音声が右方向及び左方向で項目毎に交互に出力される。ユーザが「ニュースを聞きますか?」の音声に反応して、「ニュース」の項目に対応するジェスチャ受付期間T2(図7参照)において、左方向を向くジェスチャを行ったとする。
この場合、上述の第1実施形態では、「ニュース」の項目が選択されて、ニュースの再生が開始された(あるいは、ニュースの下層のメニューに進んだ)が、第2実施形態では、この時点では、まだ「ニュース」の項目は選択されない。
第2実施形態では、ユーザが「ニュース」の項目に対応するジェスチャ受付期間T2において、左方向を向くジェスチャを行った場合、「ニュースを聞きますか?」の音声が再び左方向から出力される。
なお、最初の「ニュースを聞きますか?」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、最初の「ニュースを聞きますか?」の音声が全て出力された後(あるいは、この音声が中断されて)、2回目の「ニュースを聞きますか?」の音声が出力される。この場合、「ニュースを聞きますか?」の音声が2回繰り返されることになる。
また、「メッセージを聞きますか?」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「メッセージを聞きますか?」の音声が全て出力された後(あるいは、この音声が中断されて)、2回目の「ニュースを聞きますか?」の音声が出力される。この場合、「メッセージを聞きますか?」の1つ前の「ニュースを聞きますか?」の質問(項目)に戻される。
2回目の「ニュースを聞きますか?」の音声におけるジェスチャ受付期間T(音声出力期間t+延長期間等:方向とは無関係。図7に示されていない)において、ユーザがうなずくジェスチャ(項目を戻すジェスチャとは、異なるジェスチャ)を行うと、「ニュース」の項目が選択される。
なお、2回目の「ニュースを聞きますか?」に対してうなずくジェスチャが行われなかった場合には、この後に、再び「メッセージを聞きますか?」の音声が右方向から出力される。
この例では、ジェスチャにより、音声が前の項目に対応する音声に戻される(あるいは、同じ項目に対応する音声が繰り返される)場合について説明した。一方、ジェスチャにより、音声が後の項目に対応する音声に進められてもよい。
例えば、ユーザが「ニュース」の項目に対応するジェスチャ受付期間T2(図7参照)において、左方向を向くジェスチャを行ったとする。この場合、「スケジュールを聞きますか?」(左方向における次の音声)の質問に音声がスキップされる。
なお、「ニュースを聞きますか?」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「ニュースを聞きますか?」の音声が全て出力された後(あるいは、この音声が中断されて)、「スケジュールを聞きますか?」の音声が出力される。この場合、「メッセージを聞きますか?」の音声は、全体がスキップされる。
また、「メッセージを聞きますか?」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「メッセージを聞きますか?」の音声が中断されて、「スケジュールを聞きますか?」の音声が出力される。
「スケジュールを聞きますか?」の音声におけるジェスチャ受付期間T(音声出力期間t+延長期間等:方向とは無関係。図7に示されていない)において、ユーザがうなずくジェスチャ(項目を進めるジェスチャとは、異なるジェスチャ)を行うと、「スケジュール」の項目が選択される。
なお、「スケジュールを聞きますか?」に対してうなずくジェスチャが行われなかった場合には、この後に、「電話を掛けますか?」の音声が右方向から出力される。
音声が前の項目に対応する音声に戻される例では、ユーザは、あわてずにゆっくりと項目を選択することができる。一方、音声が後の項目に対応する音声に進められる例では、ユーザは、後の項目を素早く選択することができる。例えば、ユーザがメニューにおける項目の順番を知っていて、かつ、後ろの項目を選択したい場合にこのような方法は有用である。
≪各種変形例≫
[ユーザに対する音声の出力方向等]
以上の説明では、ユーザに対して、右方向及び左方向から音声が出力される場合について説明した。一方、ユーザに対して音声が出力される方向(音像の定位位置)は、上方向及び下方向等であってもよく、異なる方向であれば、方向については特に限定されない。
音声が出力される方向が、上方向及び下方向である場合、ユーザが素早く上を向くと、上から出力された音声に対応する項目が選択され、ユーザが素早く下を向くと、下から出力された音声に対応する項目が選択される。
以上の説明では、2方向から音声が出力される場合について説明したが、3方向以上の方向から音声が出力されてもよい(この場合、ジェスチャ受付期間Tも3以上の方向毎に設定される)。
ユーザに対して音声が出力される方向(音像の定位位置)は、音声出力中において移動させることもできる。例えば、「音楽を聞きますか?」の音声の音像が、最初は、ユーザの正面に定位され、音声出力中に、音像が、徐々にユーザの右の位置まで移動される。また、例えば、「ニュースを聞きますか?」の音声の音像が、最初は、ユーザの正面に定位され、音声出力中に、音像が、徐々にユーザの左の位置まで移動される。
提示される音声の声色(同じ人の声色、全く別の人(性別が違うなど)の声色)が、方向毎に異なっていてもよい。
ユーザに対する音声の出力方向が可変に制御されてもよい。これにより、適切に音声の出力方向を変化させることができる。
この場合、ユーザの顔の向きに応じて、音声の出力方向が可変に制御されてもよい。例えば、ユーザの体が正面を向き、ユーザの顔が右方向を向いているときに、メニューの再生が開始される場合を想定する。この場合、ユーザに対して、正面方向及び左方向から項目毎に交互に音声が出力される。なお、ユーザの体の向きに対する顔の向きを判断するため、ヘッドフォンユニット1、あるいは、スマートフォン20に撮像部が設けられてもよい。
この場合、ユーザが素早く正面方向を向くと、正面から出力された音声に対応する項目が選択される。一方、ユーザが素早く左方向を向くと、左方向から出力された音声に対応する項目が選択される。
ユーザがゆっくり正面を向く(項目選択ジェスチャと判定されない動き)と、音声が出力される方向が変化される。この場合、ユーザに対して、右方向及び左方向から項目毎に交互に音声が出力される(上述の第1実施形態で説明した内容)。音声の出力方向が変化したとき、音声の出力方向が変わったことが音声によりユーザに提示されてもよい。
さらに、ユーザがゆっくり左方向を向く(項目選択ジェスチャと判定されない動き)と、音声が出力される方向が変化される。この場合、ユーザに対して、正面方向及び右方向から項目毎に交互に音声が出力される。
この場合、ユーザが素早く正面方向を向くと、正面から出力された音声に対応する項目が選択される。一方、ユーザが素早く右方向を向くと、右方向から出力された音声に対応する項目が選択される。
メニューが、階層が異なる複数のメニューを含む場合、メニューにおける階層に応じて、ユーザに対する音声の出力方向が可変に制御されてもよい。例えば、図8を参照して、メインメニューにおける音声の出力方向が、右方向及び左方向とされ、サブメニューにおける音声の出力方向が、上方向及び下方向とされる。このように、階層毎に、音声の出力方向を切り替えることで、ユーザは、メニューの階層が変わったことを直感的に容易に認識することができる。
[ジェスチャ受付期間T等]
以上の説明では、ジェスチャ受付期間Tが、特定の方向において音声の出力が開始されてから、同じ方向において次の音声の出力が開始されるまでの期間であるとして説明した。一方、ジェスチャ受付期間Tは、音声の出力が開始されてから、次の音声(方向に依らない)の出力が開始されるまでの期間であってもよい。例えば、図7を参照して、「ニュースを聞きますか?」の音声の出力が開始されてから、「メッセージを聞きますか?」の音声の出力が開始されるまでの期間が、「ニュース」の項目に対応するジェスチャ受付期間Tであってもよい。
以上の説明では、項目選択ジェスチャとは判定されないよう曖昧な動きをした場合に、ジェスチャ受付期間Tが延長期間により延長されるとして説明した。一方、ジェスチャ受付期間Tは、静止していたユーザの頭が少しでも動いた場合に(ユーザの動きに応じて)、延長期間により延長されてもよい。この場合、ユーザの頭の動きの大きさが大きいほど延長期間が長くなってもよく、ユーザの頭の動きが停止したときに延長期間が終了してもよい。なお、ユーザの頭の動きや、動きの大きさは、モーションセンサ7による検出値により判断可能である。
また、ジェスチャ受付期間Tは、ユーザが運動(歩いている、走っている等)している場合に(ユーザの動きに応じて)、延長期間により延長されてもよい。この場合、ユーザの動きが激しいほど延長期間が長くなる。なお、ユーザが運動しているかどうか、及び、運動の激しさは、モーションセンサ7による検出値により判断可能である。
また、ジェスチャ受付期間Tは、音声に対するユーザの項目選択ジェスチャの反応速度に応じて、延長期間により延長されてもよい。この場合、音声の出力が開始されてから項目選択ジェスチャが検出されるまでの平均時間が長いほど延長期間が長くなる。
また、ジェスチャ受付期間Tは、メニューにおける項目の重要度に応じて、延長期間により延長されてもよい。この場合、項目の重要度が高くなるほど延長期間が長くなる。例えば、音声における質問に対してYES(右)/NO(左)の2択では、延長期間が長くなる。
また、ジェスチャ受付期間Tは、音声の元になるテキストデータの長さや、テキストデータに使用されている文字の難易度に応じて、延長期間により延長されてもよい。この場合、テキストデータが長くなるほど延長期間が長くなり、また、テキストデータに使用されている文字の難易度が高いほど、延長期間が長くなる。なお、上述の第1実施形態では、テキストデータが長い場合には、適切な長さに調整されるので、それほど長くなる場合はないが、このような処理が実行されない場合には、テキストデータが長くなる場合がある。
延長期間は、所定の条件下で、短縮(又は省略)されてもよい。例えば、延長期間は、メニューに含まれる項目の数、あるいは、メニューの階層数に応じて、短縮(又は省略)されてもよい。この場合、メニューに含まれる項目の数、あるいは、メニューの階層数が多いほど、延長期間が短縮(又は省略)される。
また、例えば、延長期間は、時間帯に応じて、短縮(又は省略)されてもよい。例えば、朝などの忙しい時間帯では、他の時間帯に比べて、延長期間が短縮(又は省略)される。
ユーザが曖昧な動きしたような場合や、ユーザが運動を行っているような場合、音声の再生速度が変化されてもよい。例えば、ユーザが曖昧な動きをした場合には、音声の再生速度がゆっくりとされる。また、例えば、メニューに含まれる項目の数が多い場合や、階層数が多い場合には、音声の再生速度が速くされる。
[音声出力期間t、項目選択ジェスチャ等]
右方向から出力される音声における音声出力期間tと、左方向から出力される音声における音声出力期間tが部分的に重なっていてもよい。例えば、右方向において「音楽を行きますか?」の音の出力が終了する前に、左方向において「ニュースを聞きますか?」の音声の出力が開始されてもよい。この方法は、例えば、テキストデータが長い場合や、メニューの項目が多い場合、メニューの階層数が多い場合等に有利である。
項目選択ジェスチャが学習機能によって学習され、項目選択ジェスチャを検出するための閾値が変化されてもよい。項目選択ジェスチャの検出と、視線検出とが組み合わされて、項目が選択されたかどうかが判定されてもよい(この場合には、視線を検出するための装置が情報処理装置100に設けられる)。
また、メニューがユーザに提示されているときに、最初の幾つかの項目の音声に対するユーザの反応に基づいて、残りの項目に対するユーザの反応が予測されてもよい。メニューがユーザに提示されているとき、メニューにおける項目や順番が、音声に対するユーザの反応に基づいて変化されてもよい。
例えば、曲サーチメニューにおいて、「a(曲名)を聞きますか?」、「b(曲名)を聞きますか?」との音声において、「b(曲名)を聞きますか?」のときにユーザが曖昧な動きをしたとする。この場合、曲bに類似する曲が優先的に読み上げられるように、メニューにおける項目が変化される。このとき、ユーザがどの程度曖昧な動きをしているのかの情報が用いられてもよい。
[情報処理装置等]
以上の説明では、ヘッドフォンユニット1の制御部が、ジェスチャの検出に関する処理等を行い、スマートフォン20の制御部12が、テキストデータや、ジェスチャ受付期間Tに関する処理などを行う場合について説明した。一方、このような各種の処理の分担は、適宜変更可能である。例えば、ヘッドフォンユニット1の制御部が、テキストデータや、ジェスチャ受付期間Tに関する処理を行い、スマートフォンの制御部12が、ジェスチャの検出に関する処理を行ってもよい。
また、このような各種の処理は、ヘッドフォンユニット1の制御部が全て行ってもよいし、スマートフォン20の制御部12が全て行ってもよい。あるいは、このような各種の処理は、ネットワーク上のサーバ装置が行ってもよい。
以上の説明では、ヘッドフォン10が、別体の2つのヘッドフォンユニット1によって構成される場合について説明した。一方、ヘッドフォン10は、例えば、2つのヘッドフォンユニット1がバンドによって連結された一体型のヘッドフォン10であってもよい。
以上の説明では、情報処理装置100が、ヘッドフォン10と、スマートフォン20とを含む場合について説明した。一方、情報処理装置100は、ヘッドフォン10単体であってもよい。この場合、スマートフォン20の機能がヘッドフォン10に組み込まれればよい。逆に、情報処理装置100は、スマートフォン20単体であってもよい。
また、情報処理装置100は、据え置き型のスピーカ、デスクトップPC(Personal computer)等の据え置き型の装置であってもよいし、タブレットPC、ラップトップPC、携帯音楽プレイヤー、携帯ゲーム機、携帯電話機(スマートフォン20を除く)等の持ち運び可能な装置であってもよい。また、情報処理装置100は、例えば、ヘッドマウントディスプレイや、メガネ型のスマートグラス等のウェアラブル装置であってもよい。
また、情報処理装置100は、空間的に分布して配置された複数の据え置き型のスピーカ(例えば、立体音響により、ユーザに項目を提示する)と、ユーザのジェスチャを検出するための据え置き型のカメラとを含んでいてもよい。
本技術は、以下の構成をとることもできる。
(1) 各項目にそれぞれ対応する音声が、ユーザに対して第1の方向及び第2の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、前記第1の方向へのユーザのジェスチャに応じて、前記第1の方向から出力された音声に対応する項目の選択に関する処理を実行し、前記第2の方向へのユーザのジェスチャに応じて、前記第2の方向から出力された音声に対応する項目の選択に関する処理を実行する制御部
を具備する情報処理装置。
(2) 上記(1)に記載の情報処理装置であって、
前記制御部は、ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定する
情報処理装置。
(3) 上記(2)に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間として、前記第1の方向から出力された音声に対する項目を選択するための第1のジェスチャ受付期間と、前記第2の方向から出力された音声に対する項目を選択するための第2のジェスチャ受付期間とを設定する
情報処理装置。
(4) 上記(3)に記載の情報処理装置であって、
前記第1のジェスチャ受付期間は、前記第1の方向において前記音声の出力が開始されてから、前記第1の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
(5) 上記(4)に記載の情報処理装置であって、
前記第2のジェスチャ受付期間は、前記第2の方向において前記音声の出力が開始されてから、前記第2の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
(6) 上記(2)~(5)のうちいずれか1つに記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間を含む
情報処理装置。
(7) 上記(6)に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間の長さが、前記音声に対応する項目毎に一定となるように、前記音声出力期間の長さを調整する
情報処理装置。
(8) 上記(7)に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、所定の範囲内に収まるように、前記音声出力期間の長さを調整する
情報処理装置。
(9) 上記(8)に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声の元となるテキストデータを変化させる
情報処理装置。
(10) 上記(8)又は(9)に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声における再生速度を変化させる
情報処理装置。
(11) 上記(2)~(10)のうちいずれか1つに記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
(12) 上記(11)に記載の情報処理装置であって、
前記制御部は、ユーザの動きに応じて、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
(13) 上記(11)又は(12)に記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間と、音声出力期間の後に追加される延長期間とを含み、
前記制御部は、前記延長期間の長さを可変に制御することで、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
(14) 上記(1)~(13)のうちいずれか1つに記載の情報処理装置であって、
前記制御部は、前記第1の方向及び前記第2の方向を可変に制御する
情報処理装置。
(15) 上記(14)に記載の情報処理装置であって、
前記制御部は、ユーザの向きに応じて、前記前記第1の方向及び前記第2の方向を可変に制御する
情報処理装置。
(16) 上記(14)又は(15)に記載の情報処理装置であって、
前記項目は、メニューにおける項目であり、
前記メニューは、階層が異なる複数のメニューを含み、
前記制御部は、前記メニューにおける階層に応じて、前記第1の方向及び前記第2の方向を可変に制御する
情報処理装置。
(17) 上記(1)~(16)のうちいずれか1つに記載の情報処理装置であって、
前記情報処理装置は、ユーザの耳に装着される装置を含む
情報処理装置。
(18) 上記(17)に記載の情報処理装置であって、
前記第1の方向は、右方向であり、
前記第2の方向は、左方向であり、
前記第1の方向へのユーザのジェスチャは、ユーザが前記右方向を向くジェスチャであり、
前記第2の方向へのユーザのジェスチャは、ユーザが前記左方向を向くジェスチャである
情報処理装置。
(19) 各項目にそれぞれ対応する音声が、第1の方向及び第2の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第1の方向へのユーザのジェスチャに応じて、第1の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第2の方向へのユーザのジェスチャに応じて、前記第2の方向から出力された音声に対応する項目の選択に関する処理を実行する
情報処理方法。
(20) 各項目にそれぞれ対応する音声が、第1の方向及び第2の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第1の方向へのユーザのジェスチャに応じて、第1の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第2の方向へのユーザのジェスチャに応じて、前記第2の方向から出力された音声に対応する項目の選択に関する処理を実行する
制御部としてコンピュータを機能させるプログラム。