JP7243639B2

JP7243639B2 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP7243639B2
Application number: JP2019567912A
Authority: JP
Inventors: 慧高橋; 惇一清水
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-01-26
Filing date: 2018-12-17
Publication date: 2023-03-22
Anticipated expiration: 2038-12-17
Also published as: US11275554B2; US20210055910A1; CN111630472A; WO2019146309A1; JPWO2019146309A1

Description

本技術は、メニューにおける項目を選択可能な情報処理装置等の技術に関する。

一般的に、ＰＣやスマートフォン等の各種の装置において、メニュー内における項目を選択するとき、ユーザは、画面上に表示されたメニューにおける項目をマウスで指定したり、指でタッチしたりすることで、項目を選択する。

一方、このような視覚によるメニューの項目の提示、並びに、マウス、指による項目の指定は、特定の状況では不利になる場合がある。例えば、ユーザがスマートフォン等に接続されたヘッドフォンにより音楽を聴きながら歩いていたり、走っていたりする場合を想定する。このような場合、曲の選択や、曲の動作の制御（一時停止、再生等）のために、ユーザが、画面上のメニューを見て、メニュー内の項目を指でタッチする操作をすると、安全性に欠ける。また、装置自体が画面自体を有していない場合には、視覚によるメニューの項目の提示は不可能である。

下記特許文献１には、視覚によるメニューの項目の提示の代わりに、聴覚によるメニューの項目の提示が採用された技術が開示されている。

特表２０１５－５０６０３５号公報

聴覚によるメニューの項目の提示において、ユーザが項目を直感的に選択しやすい技術が望まれている。

以上のような事情に鑑み、本技術の目的は、聴覚による項目の提示において、ユーザが項目を直感的に選択しやすい技術を提供することにある。

本技術に係る情報処理装置は、制御部を具備する。前記制御部は、各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、前記第１の方向へのユーザのジェスチャに応じて、前記第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する。

この情報処理装置では、各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、音声の出力が制御される。つまり、聴覚による項目の提示において、各項目が、方向及び時間で分割されてユーザに提示される。このように、各項目を、方向及び時間で分割してユーザに提示することで、ユーザに対して項目を適切に提示することができる。

また、この情報処理装置では、第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理が実行され、第２の方向へのユーザのジェスチャに応じて、第２の方向から出力された音声に対応する項目の選択に関する処理が実行される。これにより、ユーザは、直感的に音声に対応する項目を選択することができる。

上記情報処理装置において、前記制御部は、ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定してもよい。

上記情報処理装置において、前記制御部は、前記ジェスチャ受付期間として、前記第１の方向から出力された音声に対する項目を選択するための第１のジェスチャ受付期間と、前記第２の方向から出力された音声に対する項目を選択するための第２のジェスチャ受付期間とを設定してもよい。

上記情報処理装置において、前記第１のジェスチャ受付期間は、前記第１の方向において前記音声の出力が開始されてから、前記第１の方向において次の音声の出力が開始されるまでの期間であってもよい。

上記情報処理装置において、前記第２のジェスチャ受付期間は、前記第２の方向において前記音声の出力が開始されてから、前記第２の方向において次の音声の出力が開始されるまでの期間であってもよい。

上記情報処理装置において、前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間を含む

上記情報処理装置において、前記制御部は、前記ジェスチャ受付期間の長さが、前記音声に対応する項目毎に一定となるように、前記音声出力期間の長さを調整してもよい。

上記情報処理装置において、前記制御部は、前記音声出力期間の長さが、所定の範囲内に収まるように、前記音声出力期間の長さを調整してもよい。

上記情報処理装置において、前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声の元となるテキストデータを変化させてもよい。

上記情報処理装置において、前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声における再生速度を変化させてもよい。

上記情報処理装置において、前記制御部は、前記ジェスチャ受付期間の長さを可変に制御してもよい。

上記情報処理装置において、前記制御部は、ユーザの動きに応じて、前記ジェスチャ受付期間の長さを可変に制御してもよい。

上記情報処理装置において、前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間と、音声出力期間の後に追加される延長期間とを含み、前記制御部は、前記延長期間の長さを可変に制御することで、前記ジェスチャ受付期間の長さを可変に制御してもよい。

上記情報処理装置において、前記制御部は、前記第１の方向及び前記第２の方向を可変に制御してもよい。

上記情報処理装置において、前記制御部は、ユーザの向きに応じて、前記前記第１の方向及び前記第２の方向を可変に制御してもよい。

上記情報処理装置において、前記項目は、メニューにおける項目であり、前記メニューは、階層が異なる複数のメニューを含み、前記制御部は、前記メニューにおける階層に応じて、前記第１の方向及び前記第２の方向を可変に制御してもよい。

上記情報処理装置は、ユーザの耳に装着される装置を含んでいてもよい。

上記情報処理装置において、前記第１の方向は、右方向であり、前記第２の方向は、左方向であり、前記第１の方向へのユーザのジェスチャは、ユーザが前記右方向を向くジェスチャであり、前記第２の方向へのユーザのジェスチャは、ユーザが前記左方向を向くジェスチャであってもよい。

本技術に係る情報処理方法は、各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する

本技術に係るプログラムは、各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する
制御部としてコンピュータを機能させる。

以上のように、本技術によれば、聴覚による項目の提示において、ユーザが項目を直感的に選択しやすい情報処理装置などの技術を提供することができる。

第１実施形態に係る情報処理装置を示す図である。ヘッドフォンがユーザの耳に装着されたときの様子を示す図である。ヘッドフォンを示す拡大図である。情報処理装置における電気的な構成を示すブロック図である。メニューにおける項目が音声によってユーザに提示されているときの様子を示す図である音声に対して、ユーザがジェスチャを行ったときの様子を示す図である。音声出力期間と、ジェスチャ受付期間との関係を示す図である。メニューの一例を示す図である。メニューの階層数が３層以上とされた場合の一例を示す図である。音楽の再生、ニュースの再生などの処理が既に実行されているときに呼び出されるメニューの一例を示す図である。情報処理装置における処理を示すフローチャートである。情報処理装置における処理を示すフローチャートである。情報処理装置における処理を示すフローチャートである。情報処理装置における処理を示すフローチャートである。情報処理装置における処理を示すフローチャートである。比較例に係るメニューの項目の提示を示す図である。第２実施形態に係る項目の選択方法を示す図である。

以下、本技術に係る実施形態を、図面を参照しながら説明する。

≪第１実施形態≫
＜全体構成及び各部の構成＞
図１は、本技術の第１実施形態に係る情報処理装置１００を示す図である。図１に示すように、情報処理装置１００は、スマートフォン２０と、スマートフォン２０との間で無線により通信可能なヘッドフォン１０とを含む。

図２は、ヘッドフォン１０がユーザの耳に装着されたときの様子を示す図である。図３は、ヘッドフォン１０を示す拡大図である。

ヘッドフォン１０は、右耳に装着される第１のヘッドフォンユニット１ａと、左耳に装着される第２のヘッドフォンユニット１ｂとを含む。第１のヘッドフォンユニット１ａと、第２のヘッドフォンユニット１ｂとは、互いに分離して構成されており、無線により相互に通信可能に構成されている。本実施形態において、第１のヘッドフォンユニット１ａはマスター側の端末とされており、第２のヘッドフォンユニット１ｂはスレーブ側の端末とされている。

第１のヘッドフォンユニット１ａと、第２のヘッドフォンユニット１ｂとは、左右対称に構成されているが、基本的に同様の構成である。なお、以降の説明では、２つのヘッドフォンユニット１を区別する場合に第１のヘッドフォンユニット１ａ、第２のヘッドフォンユニット１ｂと呼び、２つのヘッドフォンユニット１を区別しない場合には、単にヘッドフォンユニット１と呼ぶ。

ヘッドフォンユニット１は、ユニット本体２と、スピーカ部３と、ユニット本体２及びスピーカ部３を連結するＵ字状の連結部４とを有する。

ユニット本体２は、厚さが薄い筐体２ａを備えており、筐体２ａの内部には各種の電子部品（後述の制御部４ａ、４ｂ、モーションセンサ７ａ、７ｂ等）が内蔵される。スピーカ部３は、音を出力可能なスピーカ６ａ、６ｂ（図４参照）を内部に有しており、このスピーカ部３には、イヤーピース３ａが設けられる。イヤーピース３ａは、ユーザの耳における外耳道に挿入可能に構成されている。

ヘッドフォンユニット１がユーザの耳に装着されたとき、ユニット本体２は、ユーザの耳の裏の位置に配置され、スピーカ部３は、ユーザの耳の穴の位置に配置され、連結部４は、耳の下側を通る位置に配置される。

ヘッドフォンユニット１は、連結部４の形状により、ユーザの耳に一旦装着されると、ユーザが運動をしたとしても簡単には耳から外れないようになっている。

図４は、情報処理装置１００における電気的な構成を示すブロック図である。

第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂは、それぞれ、制御部４ａ、４ｂと、記憶部５ａ、５ｂと、スピーカ６ａ、６ｂと、モーションセンサ７ａ、７ｂと、通信部８ａ、８ｂとを備えている。

制御部４ａ、４ｂは、例えば、ＣＰＵ（Central Processing Unit）等により構成され、ヘッドフォンユニット１ａ、１ｂにおける各部を統括的に制御する。

記憶部５ａ、５ｂは、制御部４ａ、４ｂの処理に必要な各種のプログラムや各種のデータが固定的に記憶される不揮発性のメモリと、制御部４ａ、４ｂの作業領域として用いられる揮発性のメモリとを含む。上記プログラムは、光ディスクや、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。

スピーカ６ａ、６ｂは、制御部４ａ、４ｂにより出力された音信号に基づいて音を出力する。モーションセンサ７ａ、７ｂは、ユーザの動きを検出可能に構成されている。モーションセンサ７ａ、７ｂは、例えば、加速度センサ、角速度センサ、角度センサ（地磁気センサ）のうちいずれか１つによって構成されるか、あるいは、これらのセンサのうち２以上の組合せにより構成される。

モーションセンサ７ａ、７ｂにおける検出軸は、典型的には直交する３軸方向（３軸方向の加速度、３軸回りの角速度、３軸回りの角度）とされるが、検出軸は、１軸方向、２軸方向等であってもよい。

第１のヘッドフォンユニット１ａにおける通信部８ａと、第２のヘッドフォンユニット１ｂにおける通信部８ｂとは、無線により相互に通信可能に構成されている。

また、第１のヘッドフォンユニット１ａにおける通信部８ａ及び第２のヘッドフォンユニット１ｂにおける通信部８ｂは、無線によりスマートフォン２０における通信部１６との間で相互に通信可能に構成されている。

図１及び図４を参照して、スマートフォン２０は、筐体１１と、制御部１２と、記憶部１３と、表示部１４と、近接センサ１５と、通信部１６と、マイクロフォン１７と、スピーカ１８とを備えている。

筐体１１は、厚が薄い直方体形状を有しており、ユーザが持ち運び可能とされている。制御部１２は、例えば、ＣＰＵ等により構成され、スマートフォン２０における各部を統括的に制御する。

記憶部１３は、制御部１２の処理に必要な各種のプログラムや各種のデータが固定的に記憶される不揮発性のメモリと、制御部１２の作業領域として用いられる揮発性のメモリとを含む。上記プログラムは、光ディスクや、半導体メモリ等の可搬性の記録媒体から読み取られてもよいし、ネットワーク上のサーバ装置からダウンロードされてもよい。

表示部１４は、筐体１１の正面に配置されている。表示部１４は、制御部の制御に応じて、各種の画像を画面上に表示させる。

近接センサ１５は、表示部１４上に設けられている。近接センサ１５は、表示部１４へのユーザの指の近接を検出し、ユーザの指が近接したことを示す信号と、指が近接した位置を示す信号とを制御部１２に出力する。

通信部１６は、無線により、第１のヘッドフォンユニット１ａにおける通信部８ａ及び第２のヘッドフォンユニット１ｂにおける通信部８ｂとの間で相互に通信可能に構成されている。また、通信部１６は、他の電話機や、ネットワーク上のサーバ装置等との間で通信可能に構成されている。

マイクロフォン１７は、ユーザの通話による音声を電気信号に変換して、この信号を制御部１２へと出力する。スピーカ１８は、制御部１２の制御に応じて、相手の通話による音声等を出力する。

＜基本的な手法＞
次に、本実施形態に係る、メニューにおける項目の選択方法についての基本的な手法について説明する。図５は、メニューにおける項目が音声によってユーザに提示されているときの様子を示す図である。

図５に示す例では、メニューの項目にそれぞれ対応する音声として、「音楽を聞きますか？」、「ニュースを聞きますか？」、「メッセージを聞きますか？」、「スケジュールを聞きますか？」、「電話を掛けますか？」、「ナビゲーションを開始しますか？」、「機器をコントロールしますか？」の７つの質問が用意されている。

そして、メニューの項目にそれぞれ対応する音声が、右方向及び左方向から項目毎に交互に出力される。なお、各項目に対応する音声の間に、項目が変化したことを示すための効果音（「ポン」、「ピン」等）が介在されていてもよい。

右方向から出力された音声に対してユーザが右方向を向くジェスチャ（項目選択ジェスチャ）をすると、右方向から出力された音声に対応する項目が選択される。一方で、左方向から出力された音声に対してユーザが左方向を向くジェスチャ（項目選択ジェスチャ）をすると、左方向から出力された音声に対応する項目が選択される。

図６は、音声に対して、ユーザがジェスチャを行ったときの様子を示す図である。図６に示す例では、左方向から「ニュースを聞きますか？」の音声が出力された後に、この音声にユーザが反応して、ユーザが左方向を向くジェスチャをしたときの様子が示されている。

この場合、「ニュース」の項目が選択され、例えば、「ニュースを再生します」の音声が出力（左右両方）された後に、ニュースの内容を読み上げる音声が出力（左右両方）される。

ここで、ユーザによるジェスチャを受け付けるジェスチャ受付期間Ｔは、音声に対応する項目毎に設定されている。特に、本実施形態では、ジェスチャ受付期間Ｔとして、右方向から出力された音声に対応する項目を選択するための第１のジェスチャ受付期間Ｔと、左方向から出力された音声に対応する項目を選択するための第２のジェスチャ受付期間Ｔとが設定されている。

図７は、音声出力期間ｔ（１つの項目に対応する音声の出力が開始されてから出力が停止されるまでの期間）と、ジェスチャ受付期間Ｔとの関係を示す図である。

図７に示すように、ジェスチャ受付期間Ｔは、少なくとも対応する項目の音声出力期間ｔを含む。具体的には、本実施形態では、第１のジェスチャ受付期間Ｔは、右方向においてその項目に対応する音声の出力が開始されてから、同じ右方向において音声の出力が開始されるまでの期間とされる。また、第２のジェスチャ受付期間Ｔは、左方向においてその項目に対応する音声の出力が開始されてから、同じ左方向において次の音声の出力が開始されるまでの期間とされる。

例えば、「音楽」の項目に対応するジェスチャ受付期間Ｔ１（第１のジェスチャ受付期間Ｔ）は、右方向において「音楽を聞きますか？」の音声の出力が開始されてから、次に右方向において「メッセージを聞きますか？」の音声の出力が開始されるまでの期間とされる。

また、例えば、「ニュース」の項目に対応するジェスチャ受付期間Ｔ２（第２のジェスチャ受付期間Ｔ）は、左方向において「ニュースを聞きますか？」の音声の出力が開始されてから、次に左方向において「スケジュールを聞きますか？」の音声の出力が開始されるまでの期間とされる。

ここで、一例として、例えば、左方向において「ニュースを聞きますか？」の音声の出力が開始されてから、左方向において「スケジュールを聞きますか？」の音声の出力が開始されるまでの期間において、ユーザが左方向へ向くジェスチャをしたとする。この場合、右方向において「メッセージを聞きますか？」の音声の出力中であっても、「ニュース」の項目が選択される。

＜メニューの各種例＞
次に、メニューの各種例について説明する。図８は、メニューの一例を示す図である。図８に示す例では、メインメニューと、メインメニューにおける各項目が選択されたときに呼び出されるサブメニューとが示されている。

図８に示すように、各メニューは、幾つかの項目を含む。図８において、各項目の右側の（）の中には、その項目に対応する音声が示されており、各項目の右側には、ユーザに対して音が出力される方向（「右」又は「左」）が示されている。なお、項目に対応する音声は、上から順番に出力されるとする。

メインメニューにおいては、「音楽」、「ニュース」、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」の７つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「音楽を聞きますか？」、「ニュースを聞きますか？」、「メッセージを聞きますか？」、「スケジュールを聞きますか？」、「電話を掛けますか？」、「ナビゲーションを開始しますか？」、「機器をコントロールしますか？」の７つの質問が用意されている。

メインメニューにおいて、特定の項目がユーザにより選択（その項目のジェスチャ受付期間に右ジェスチャ又は左ジェスチャ）されると、その項目に対応するサブメニューが呼び出される。メインメニューにおいて、選択される頻度が高い項目に対応する音声が先に出力されるように、項目の順番が並べ替えられてもよい（順番の並べ替えについては、後述の各種のメニューにおいて同様）。

音楽のサブメニューでは、「歌手名Ａ」、「歌手名Ｂ」、・・等の歌手毎の項目が用意されており、この項目に対応する音声として、「Ａさんの曲を聞きますか？」「Ｂさんの曲を聞きますか？」等の音声が用意されている。

音楽サブメニューにおいて、特定の歌手がユーザにより選択されると、選択された歌手の曲が再生される。

ニュースサブメニューでは、「ニュース名Ａ」、「ニュース名Ｂ」、・・等のニュースの毎の項目が用意されており、この項目に対応する音声として、「Ａを再生しますか？」「Ｂを再生しますか？」、・・・等の音声が用意されている。

ニュースサブメニューにおいて、特定のニュースがユーザにより選択されると、選択されたニュースの内容が再生される。

メッセージサブメニューでは、「名前Ａ」、「名前Ｂ」、・・等のメッセージの差出人毎の項目が用意されており、この項目に対応する音声として、「Ａさんからのメッセージを聞きますか？」「Ｂさんからのメッセージを聞きますか？」、・・・等の音声が用意されている。

メッセージサブメニューにおいて、特定の差出人がユーザにより選択されると、選択された差出人からのメッセージの内容が再生される。

なお、メッセージは、メールやＳＮＳ（Social Network Service）等により受信されるメッセージであり、再生されるメッセージは、基本的には、未だユーザが読んでいない（聞いていない）新着メッセージとされる。

スケジュールサブメニューでは、「スケジュール名Ａ」、「スケジュール名Ｂ」、・・等のスケジュール毎の項目が用意されており、この項目に対応する音声として、「Ａの件を再生しますか？」「Ｂの件を再生しますか？」、・・・等の音声が用意されている。

スケジュールサブメニューにおいて、特定のスケジュールがユーザにより選択されると、選択されたスケジュールの詳細な内容（場所、時刻等）が再生される。

電話サブメニューでは、「名前Ａ」、「名前Ｂ」、・・等の発信先毎の項目が用意されており、この項目に対応する音声として、「Ａさんへ電話をしますか？」「Ｂさんへ電話をしますか？」、・・・等の音声が用意されている。

電話サブメニューにおいて、特定の発信先がユーザにより選択されると、選択された発信先へ電話が発信される。

なお、電話サブメニューにおける「名前Ａ」、「名前Ｂ」等の項目は、例えば、電話帳に登録されている発信先が使用される。

ナビゲーションサブメニューでは、「目的地名Ａ」、「目的地名Ｂ」、・・等の目的地毎の項目が用意されており、この項目に対応する音声として、「Ａへ行きますか？」「Ｂへ行きますか？」、・・・等の音声が用意されている。

ナビゲーションサブメニューにおいて、特定の項目がユーザにより選択されると、選択された目的地へのナビゲーションが行われる

なお、ナビゲーションサブメニューにおける「目的地名Ａ」、「目的地名Ｂ」等の項目は、ユーザにより予め登録されている目的地が使用される。

機器コントロールのサブメニューでは、「電灯Ａを点灯」、「電灯Ｂを点灯」、・・等の制御対象毎かつ制御毎の項目が用意されており、この項目に対応する音声として、「リビングの電灯を点灯しますか？」「廊下の電灯を点灯しますか？」、・・・等の音声が用意されている。

機器コントロールのサブメニューにおいて、特定の項目がユーザにより選択されると、選択された機器の制御が行われる。

なお、機器コントロールのサブメニューにおける「電灯Ａを点灯」、「電灯Ｂを点灯」等の項目は、例えば、ユーザにより予め登録される。

［階層数］
図８に示す例では、メニューの階層数が、メインメニューとサブメニューの２層になっている例が示されている。一方、メニューの階層数は、３層以上であっても構わない。図９は、メニューの階層数が３層以上とされた場合の一例を示す図である。

図９では、メインメニューが１層目とされ、歌手サーチメニュー（図８の音楽サブメニューと同じ）が２層目とされ、アルバムサーチメニューが３層目とされ、曲サーチメニューが４層目とされた場合の一例が示されている。

メインメニューにおいて「音楽」の項目が選択されると、歌手サーチメニューが呼び出される。歌手サーチメニューにおいて、特定の歌手が選択されると、選択された歌手に対応するアルバムサーチメニューが呼び出される。

アルバムサーチメニューでは、「アルバム名Ａ」、「アルバム名Ｂ」、・・等のアルバム毎の項目が用意されており、この項目に対応する音声として、「Ａを聞きますか？」「Ｂを聞きますか？」等の音声が用意されている。

アルバムサーチメニューにおいて、特定のアルバムがユーザにより選択されると、選択されたアルバムに対応する曲サーチメニューが呼び出される。

曲サーチメニューでは、「曲名ａ」、「曲名ｂ」、・・等の曲毎の項目が用意されており、この項目に対応する音声として、「ａを聞きますか？」「ｂを聞きますか？」等の音声が用意されている。

曲サーチメニューにおいて、特定の曲がユーザにより選択されると、選択された曲に対応する曲が再生される。

図９に示す例では、「音楽」の項目について、階層数が３層以上になる場合について説明した。一方、「ニュース」、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」等においても階層数が３層以上となっていてもよい。

例えば、「ニュース」について、メインメニューが１層目とされ、カテゴリサーチメニュー（不図示：例えば、「主要ニュース」、「スポーツニュース」等のカテゴリ毎のメニュー）が２層目とされ、ニュースサーチメニュー（図８に示すニュースサブメニューと同じ）が３層目とされる。

メインメニューにおいて「ニュース」の項目が選択されると、カテゴリサーチメニューが呼び出される。カテゴリサーチメニューでは、「主要ニュース」、「スポーツニュース」、・・等のカテゴリ毎の項目が用意されており、この項目に対応する音声として、「主要ニュースを聞きますか？」「スポーツニュースを聞きますか？」等の音声が用意されている。

カテゴリサーチメニューにおいて、特定のカテゴリがユーザにより選択されると、選択されたカテゴリに対応するニュースサーチメニューが呼び出される。

ニュースサーチメニューでは、「ニュース名Ａ」、「ニュース名Ｂ」、・・等のニュース毎の項目が用意されており、この項目に対応する音声として、「Ａを再生しますか？」「Ｂを聞きますか？」等の音声が用意されている。

ニュースサーチメニューにおいて、特定のニュースがユーザにより選択されると、選択されたニュースの内容が再生される。

図８、図９に示す例では、メニューの階層数が、２層以上とされる場合について説明したが、メニューの階層数は、１層であっても構わない。

例えば、メニューの階層数がメインメニューの１層だけである場合を想定する。この場合、メインメニューにおいて、「音楽」、「ニュース」、「スケジュール」、「メッセージ」の項目が選択されると、音楽、ニュース、スケジュール、メッセージの再生が開始される。なお、「電話」、「ナビゲーション」、「機器コントロール」の項目は、発信先、目的地、制御対象が選択されないと処理が行えないので、このような項目については、基本的に、次の階層のメニューが要ることになる。

また、図８において、例えば、メニューの階層数が音楽サブメニューの１層だけである場合を想定する。この場合、メインメニューを介さずに音楽サブメニューが（後述のメニュートリガジェスチャにより）直接的に呼び出される。そして、音楽サブメニューにおいて、「歌手名Ａ」、「歌手名Ｂ」、・・の項目のうちいずれかの歌手が選択されると、選択された歌手の曲が再生される。

なお、図８における音楽サブメニュー以外のサブメニュー、図９におけるアルバムサーチメニュー、曲サーチメニューなども同様に、１層とすることができる。

［処理が既に実行されているときのメニュー］
図１０は、音楽の再生、ニュースの再生などの処理が既に実行されているときに呼び出されるメニューの一例を示す図である。

図１０において、音楽生中メニューは、音楽の再生中に呼び出されるメニューであり、ニュース再生中メニューは、ニュースの再生中に呼び出されるメニューである。

音楽再生中メニューにおいては、「一時停止」、「次の曲へ進む」、「前の曲へ戻る」、「再生中の曲をリピート」、「再生中の曲をブックマーク」、「再生中の曲の情報を再生」の６つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「一時停止しますか？」、「次の曲へ進みますか？」、「前の曲へ戻りますか？」、「この曲をリピートしますか？」、「この曲をブックマークしますか？」、「この曲の情報を聞きますか？」の６つの質問が用意されている。

音楽再生中メニューにおいて、特定の項目がユーザにより選択されると、その項目に対応する処理が実行される。例えば、「一時停止」の項目が選択されると、再生中の曲が一時停止される。

ニュース再生中メニューにおいては、「一時停止」、「次のニュースへ進む」、「前のニュースへ戻る」、「再生中のニュースをブックマーク」の４つの項目が用意されている。また、これらの項目にそれぞれ対応する音声として、「一時停止しますか？」、「次のニュースへ進みますか？」、「前のニュースへ戻りますか？」、「このニュースをブックマークしますか？」、の４つの質問が用意されている。

ニュース再生中メニューにおいて、特定の項目がユーザにより選択されると、その項目に対応する処理が実行される。例えば、「一時停止」の項目が選択されると、再生中のニュースが一時停止される。

なお、「メッセージ」、「スケジュール」、「電話」、「ナビゲーション」、「機器コントロール」等においても処理実行中のメニューが用意されていてもよい。

［メニューの項目と、項目に対応する音声との関係等］
図８～図１０に示した各メニューにおいては、各項目に対応する音声が「～しますか？」の質問形式となっている。一方、メニューにおける項目に対応する音声は、ユーザがどのような項目であるかを識別可能な音声であれば、質問形式の音声に限られず、どのような音声であってもよい。例えば、メインメニューにおける「音楽」の項目に対応する音声として、「音楽」、「音楽の再生」、「音楽を聞く」等の音声であってもよい。

また、メニューにおける項目に対応する音声は、発話音声である必要もない。例えば、図９に示す曲サーチメニューにおいて、「ａを聞きますか？」、「ｂを聞きますか？」等の発話音声に代えて、対応する曲の一部（導入の部分、サビの部分等）が項目に対応する音声として用いられてもよい。また、「ａを聞きますか？」、「ｂを聞きますか？」の発話音声と一緒に、対応する曲の一部が再生されてもよい。

また、メニューにおける項目に対応する音声が出力されているとき、その項目に関連すする動画がスマートフォン２０の画面上に表示されてもよい。例えば、図９に示す曲サーチメニューにおいて、「ａを聞きますか？」、「ｂを聞きますか？」等の発話音声（あるいは、曲の一部）が出力されているときに、曲のプロモーション動画が画面上で再生されてもよい。

＜動作説明＞
次に、情報処理装置１００の処理について具体的に説明する。図１１～図１５は、情報処理装置１００における処理を示すフローチャートである。

まず、第１のヘッドフォンユニット１ａの制御部４ａは、モーションセンサ７ａによって検出された第１の検出値をモーションセンサ７ａから取得する（ステップ１０１）。

同様に、第２のヘッドフォンユニット１ｂの制御部４ｂは、モーションセンサ７ｂによって検出された第２の検出値をモーションセンサ７ｂから取得する（ステップ２０１）。そして、第２のヘッドフォンユニット１ｂの制御部４ｂは、取得された第２の検出値を第１のヘッドフォンユニット１ａへと送信する（ステップ２０２）。

第１のヘッドフォンユニット１ａの制御部４ａは、第１の検出値を取得した後、第２のヘッドフォンユニット１ｂから第２の検出値が受信されたかどうかを判定する（ステップ１０２）。第２の検出値が受信されなかった場合（ステップ１０２のＮＯ）、制御部は、再び第２の検出値が受信されたかどうかを判定する。

第２の検出値が受信された場合（ステップ１０２のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、第１の検出値及び第２の検出値に基づいて、ユーザの頭部の動きを判定する（ステップ１０３）。なお、本実施形態では、ユーザの頭部の動きを判定するために、第１の検出値及び第２の検出値の両方の値が用いられる場合について説明するが、第１の検出値及び第２の検出値のうち一方の値が用いられてユーザの頭部の動きが判定されてもよい（後述のステップ１１１において同様）。この場合、モーションセンサは、第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂの両方に設けられている必要はなく、モーションセンサは、第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂのうち一方にのみ設けられていてもよい。

ユーザの頭部の動きを判定すると、第１のヘッドフォンユニット１ａの制御部４ａは、ユーザの頭部の動きに基づいて、メニュートリガジェスチャが検出されたかどうかを判定する（ステップ１０４）。メニュートリガジェスチャは、ユーザがメニューを呼び出すためのジェスチャであり、例えば、ユーザが首を特定の方向に傾げる動作とされる。

メニュートリガジェスチャが検出されなかった場合（ステップ１０４のＮＯ）、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０１へ戻り、第１の検出値を取得する。そして、第１のヘッドフォンユニット１ａの制御部４ａは、第２の検出値を受信してユーザの動きを判定した後、再びメニュートリガジェスチャが検出されたかどうかを判定する。

メニュートリガジェスチャが検出された場合（ステップ１０４のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、メニュートリガジェスチャが検出されたことを示す情報を、第２のヘッドフォンユニット１ｂ及びスマートフォン２０へと出力する（ステップ１０５）。

そして、第１のヘッドフォンユニット１ａの制御部４ａは、メニュートリガジェスチャの検出音をスピーカ６ａから出力させる（ステップ１０６）。メニュートリガの検出音は、例えば、「ポン」、「ピン」等の効果音であってもよいし、「メニューを再生します」等の発話音声であってもよい。

第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の検出値を第１のヘッドフォンユニット１ａへ送信した後、メニュートリガジェスチャの検出が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する（ステップ２０３）。

メニュートリガジェスチャの検出が通知されなかった場合（ステップ２０３のＮＯ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０１へ戻り、第２の検出値を取得する。そして、第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の検出値を第１のヘッドフォンユニット１ａへ送信した後、再び、メニュートリガジェスチャの検出が通知されたかどうかを判定する。

メニュートリガジェスチャの検出が通知された場合（ステップ２０３のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、メニュートリガジェスチャの検出音をスピーカ６ｂから出力させる（ステップ２０４）。

なお、第１のヘッドフォンユニット１ａの制御部４ａと、第２のヘッドフォンユニット１ｂの制御部４ｂとは、同じタイミングでメニュートリガジェスチャの検出音をスピーカ６ａ、６ｂから出力させる。

第１のヘッドフォンユニット１ａの制御部４ａは、メニュートリガジェスチャの検出音を出力させた後、第１の音声データがスマートフォン２０から受信されたかどうかを判定する（ステップ１０７）。

第１の音声データは、メニューにおける項目が順番に読み上げられる右側の音声データであり、音像の定位位置が項目毎に左右方向で交互に切り替えられる音像定位位置付きの音声データである。

第１の音声データが受信されなかった場合（ステップ１０７のＮＯ）、第１のヘッドフォンユニット１ａの制御部４ａは、再び、第１の音声データがスマートフォン２０から受信されたかどうかを判定する（第１の音声データの受信待ち状態）。

第２のヘッドフォンユニット１ｂの制御部４ｂは、メニュートリガジェスチャの検出音を出力させた後、第２の音声データがスマートフォン２０から受信されたかどうかを判定する（ステップ２０５）。

第２の音声データは、メニューにおける項目が順番に読み上げられる左側の音声データであり、音像の定位位置が項目毎に左右方向で交互に切り替えられる音像定位位置付きの音声データである。

第２の音声データが受信されなかった場合（ステップ２０５のＮＯ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、再び、第２の音声データがスマートフォン２０から受信されたかどうかを判定する（第２の音声データの受信待ち状態）。

なお、ここでの説明では、第１の音声データ及び第２の音声データが音像定位位置付きの音声データであるとして説明するが、第１の音声データ及び第２の音声データは、音像定位位置付きの音声データでなくてもよい。

例えば、右側のスピーカ６ａ及び左側のスピーカ６ｂのうち一方のスピーカ６から項目を読み上げる音声が出力されているときに、他方のスピーカ６からは音声が出力されないようにして、ユーザに項目が提示されてもよい。このような場合には、第１の音声データ及び第２の音声データは、音像定位位置付きの音声データとする必要はない。

スマートフォン２０の制御部１２は、まず、メニュートリガジェスチャの検出が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する（ステップ３０１）。メニュートリガジェスチャの検出が通知されなかった場合（ステップ３０１のＮＯ）、スマートフォン２０の制御部１２は、再び、メニュートリガジェスチャの検出が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する（メニュートリガジェスチャの検出の通知待ち状態）。

メニュートリガジェスチャの検出が通知されると（ステップ３０１のＹＥＳ）、スマートフォン２０の制御部１２は、処理の実行状況などに応じて、呼び出すべきメニューを判定する（ステップ３０２）。例えば、現在において、音楽の再生やニュースの再生等の処理が実行されていない場合には、メインメニューが呼び出される。一方で、現在において音楽の再生や、ニュースの再生等の処理が実行されている場合には、音楽再生中メニューや、ニュース再生中メニュー等が呼び出される。

呼び出すべきメニューを決定すると、次に、スマートフォン２０の制御部１２は、そのメニューについて、新たに第１の音声データ及び第２の音声データを生成する必要があるかどうかを判定する（ステップ３０３）。新たに第１の音声データ及び第２の音声データを生成する必要がある場合（ステップ３０３のＹＥＳ）、スマートフォン２０の制御部１２は、ステップ３０４へ進む。一方、新たに第１の音声データ及び第２の音声データを生成する必要がない場合（ステップ３０３のＮＯ）、スマートフォン２０の制御部１２は、ステップ３１７へ進む。

ここで、新たに第１の音声データ及び第２の音声データを生成する必要がある場合について説明する。まず、全てのメニューにおいては、最初は、第１の音声データ及び第２の音声データを新たに生成する必要があり、従って、最初は、全てのメニューについて新たに第１の音声データ及び第２の音声データを生成する必要があると判定される。

一旦、第１の音声データ及び第２の音声データが生成されると、これらの音声データは、対応するメニューに関連付けられて記憶部に記憶される。

ここで、例えば、メニューにおいて項目が予め固定である場合、一旦、第１の音声データ及び第２の音声データが生成されれば、再び、新たに第１の音声データ及び第２の音声データを生成する必要はない。

一方、メニューにおける項目が動的に変化する場合があり、このような場合には、例えば、メニューが呼び出される度に、新たに第１の音声データ及び第２の音声データを生成する必要がある。

メニューにおける項目が動的に変化する場合について説明する。例えば、ニュースサブメニュー（図８参照）において、最新のニュースが上から順番に並べられてメニューが生成されるとする。この場合、ニュースサブメニュー内の項目が動的に変わる可能性があるので、例えば、ニュースサブメニューが呼び出されたときに、このメニューに対応する第１の音声データ及び第２の音声データが新たに生成される。

また、メッセージサブメニュー（図８参照）において、最新のメッセージが上から順番に並べられてメニューが生成されるとする。この場合、メッセージサブメニュー内の項目が動的に変わる可能性があるので、例えば、メッセージサブメニューが呼び出されたときに、このメニューに対応する第１の音声データ及び第２の音声データが新たに生成される。

また、電話サブメニュー（図８参照）において、発信履歴における発信日時が最も近い発信先が上から順番に並べられてメニューが生成されるとする。あるいは、発信履歴における発信回数が最も多い発信先が上から順番に並べられてメニューが生成されるとする。この場合、電話サブメニュー内の項目が動的に変わる可能性があるので、例えば、電話サブメニューが呼び出されたときに、このメニューに対応する第１の音声データ及び第２の音声データが新たに生成される。

新たに第１の音声データ及び第２の音声データを生成する必要がある場合（ステップ３０３のＹＥＳ）、スマートフォン２０の制御部１２は、項目に対応する音声の元になるテキストデータを生成するための情報を取得する。

例えば、メインメニューにおいては、項目（音楽等）の情報が取得され、音楽サブメニューにおいては、歌手名の情報が取得され、ニュースサブメニューにおいては、ニュース名の情報が取得される。

この情報を取得すると、次に、スマーフォンの制御部は、この情報に基づいて、項目に対応する音声の元になるテキストデータを項目毎に生成する（ステップ３０５）。

例えば、メインメニューにおいて、項目（音楽等）の情報に基づいて、「音楽を聞きますか」、「ニュースを聞きますか」等のテキストデータが生成され、音楽サブメニューにおいて、歌手名の情報に基づいて、「Ａさんの曲を聞きますか」、「Ｂさんの曲をききますか」等のテキストデータが生成される。また、ニュースサブメニューにおいて、ニュース名の情報に基づいて、「Ａを再生しますか」、「Ｂを再生しますか」等のテキストデータが生成される。

呼び出されたメニューについて、テキストデータを項目毎に生成すると、次に、スマートフォン２０の制御部１２は、これらのテキストデータのうち１つのテキストデータを記憶部から読みだす（ステップ３０６）。次に、スマートフォン２０の制御部１２は、テキストデータが発話可能かどうかを判定する（ステップ３０７）。

ここで、テキストデータが発話不能である場合について説明する。例えば、曲名、スケジュール名等が、「△」、「○」等の記号のみであるような場合、「△を聞きますか」、「○の件を再生しますか」等のテキストデータにおいて、「△」、「○」の部分は発音不能である。

テキストデータが発話不能である場合（ステップ３０７のＮＯ）、スマートフォン２０の制御部１２は、他の情報に基づいて、テキストデータを再生成する（ステップ３０８）。

例えば、曲名が「△」であり、テキストデータが発話不能である場合、曲名以外の情報、例えば、アルバム内において何番目の曲かを示すメタ情報等に基づいて、「３曲目の曲を聞きますか」等のテキストデータを再生成する。また、スケジュール名が「○」であり、テキストデータが発話不能である場合、スケジュール名以外の情報、例えば、日時の情報に基づいて、「１２月１０日の件を再生しますか」等のテキストデータを再生成する

テキストデータを再生成すると、次に、スマートフォン２０の制御部１２は、再び、そのテキストデータが発話可能であるかどうかを判定する（ステップ３０７）。

テキストデータが発話可能である場合（ステップ３０７のＹＥＳ）、スマートフォン２０の制御部１２は、テキストデータを発話したときの音声出力期間ｔを算出する（ステップ３０９）。次に、スマートフォン２０の制御部１２は、音声出力期間ｔが、上限値Ｔｈ１未満であるかどうかを判定する（ステップ３１０）。

音声出力期間ｔが上限値Ｔｈ１以上である場合（ステップ３１０のＮＯ）、スマートフォン２０の制御部１２は、テキストデータを短縮する（ステップ３１１）。そして、スマートフォン２０の制御部１２は、再び、テキストデータを発話したときの音声出期間ｔを算出し、音声出力期間ｔが、上限値Ｔｈ１未満であるかどうかを判定する。

例えば、曲サーチメニューにおいて、曲名が「ＡＢＣＤ－ＥＦＧＨＩＪＫＬＭＮ」のような長い曲名であり、「ＡＢＣＤ－ＥＦＧＨＩＪＫＬＭＮを聞きますか」等のテキストデータを発話したときの音声出力期間ｔが上限値Ｔｈ１以上である場合を想定する。

この場合、スマートフォン２０の制御部１２は、例えば、曲名においてＥ以降を削除して、「ＡＢＣＤを聞きますか」等のテキストデータを生成する。あるいは、スマートフォン２０の制御部１２は、「聞きますか」を削除して、「ＡＢＣＤ－ＥＦＧＨＩＪＫＬＭＮ」等の曲名だけのテキストデータを生成する。「ＡＢＣＤ－ＥＦＧＨＩＪＫＬＭＮ」等の曲名だけのテキストデータにおいても上限値Ｔｈ１を超える場合、スマートフォン２０の制御部１２は、テキストデータを「ＡＢＣＤ」のように曲の一部だけとする。

また、例えば、ニュースサブメニューにおいて、ニュース名が「台風１６号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等の長いニュース名である場合を想定する。そして、「台風１６号今夜接近を再生しますか」、「東名高速道路で玉突き事故を再生しますか」、「衆議院選挙の情勢を再生しますか」等のテキストデータを発話したときの音声出力期間ｔが上限値Ｔｈ１以上である場合を想定する。

この場合、スマートフォン２０の制御部１２は、「台風１６号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」から、例えば、「台風」、「東名事故」、「選挙」等の重要文字を抽出する。そして、スマートフォン２０は、「台風を再生しますか」「東名事故を再生しますか」、「選挙を再生しますか」等のテキストデータを生成する。あるいは、スマートフォン２０の制御部１２は、「聞きますか」を削除して、「台風１６号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等のニュース名だけのテキストデータを生成する。

「台風１６号今夜接近」、「東名高速道路で玉突き事故」、「衆議院選挙の情勢」等のニュース名だけのテキストデータにおいても上限値Ｔｈ１以上となる場合、スマートフォン２０の制御部１２は、テキストデータを「台風」、「東名事故」、「選挙」のようにニュース名の一部だけとしてもよい。

また、例えば、ナビゲーションサブメニューにおいて、目的地名が、「ＡＢＣＤＥＦＧＨＩ町一丁目」などのように長い目的地名であり、「ＡＢＣＤＥＦＧＨＩ町一丁目へ行きますか」等のテキストデータを発話したときの音声出力期間ｔが上限値Ｔｈ１以上となる場合を想定する。この場合、スマートフォン２０の制御部１２は、「へ行きますか」を削除して、「ＡＢＣＤＥＦＧＨＩ町一丁目」等の目的地名だけのテキストデータを生成する。

また、例えば、目的地名について、「ＡＢＣＤＥＦＧＨＩ町一丁目」、「ＡＢＣＤＥＦＧＨＩ町二丁目」、「ＡＢＣＤＥＦＧＨＩ町三丁目」のように、最初の部分が共通で末尾が変わる目的地名が項目において連続する場合を想定する。この場合、「ＡＢＣＤＥＦＧＨＩ町一丁目」以外のテキストデータについては、共通する部分（「ＡＢＣＤＥＦＧＨＩ町」）を削除して、「二丁目へ行きますか」、「三丁目へ行きますか」等のテキストデータを生成する。

なお、ここでの例では、音声出力期間ｔが上限値Ｔｈ１以上である（所定の範囲内に収まっていない）場合に、項目に対応する音声の元となるテキストデータを短縮（変化）させる場合について説明した。一方、音声出力期間ｔが上限値Ｔｈ１以上である（所定の範囲内に収まっていない）場合に、項目に対応する音声の再生速度を速く（変化）させてもよい。あるいは、テキストデータを短縮する手法と、再生速度を速くする手法とが組み合わされてもよい。

ステップ３１０において、音声出力期間ｔが上限値Ｔｈ１未満である場合（ステップ３１０のＹＥＳ）、スマートフォン２０の制御部１２は、音声出力期間ｔが下限値Ｔｈ２を超えるかどうかを判定する（ステップ３１２）。

音声出力期間ｔが下限値Ｔｈ２以下である場合、スマートフォン２０の制御部１２は、テキストデータの末尾に空白を追加する（ステップ３１３）。そして、スマートフォン２０の制御部１２は、再び、テキストデータを発話したときの音声出期間ｔを算出し、音声出力期間ｔが、下限値Ｔｈ２を超えるかどうかを判定する。

上限値Ｔｈ１及び下限値Ｔｈ２の値は、長すぎるとテンポよくユーザに項目を提示することができない可能性があり、短すぎるとユーザによる項目選択ジェスチャが間に合わない可能性がある（通常、ジェスチャを開始してから検出されるまで２秒程度）。上限値Ｔｈ１及び下限値Ｔｈ２の値は、この点を考慮してあらかじめ設定される。例えば、上限値Ｔｈ１の値は、３秒程度、下限値Ｔｈ２の値は、２秒程度とされる。

ここで、例えば、曲サーチメニューにおいて、曲名が「１」（日本語で「いち」と発音する）や、「２」（日本語で「に」と発音する）等の短い曲名であり、項目に対応する音声のテキストデータが、「１」や、「２」等の短いテキストデータである場合を想定する。なお、ここでの例では、テキストデータにおいて曲名の後に「聞きますか」等の文字は付いていないとする。

この場合、「いち」や「に」を発話したときの音声出力期間ｔが下限値Ｔｈ２以下であると判定され、この場合、音声出力期間ｔが下限値Ｔｈ２を超えるように、「１」や、「２」のテキストデータの後に空白が付加される。なお、この場合、「いち」や、「に」の音節数が考慮されてもよい（音節数が考慮されてもよい点については、テキストデータが長い場合も同様）。例えば、音節数が４以下である場合に、音声出力期間ｔが下限値Ｔｈ２以下である（短い）と判定されるとすると、テキストデータにおいて、「いち」（２音節）の後に３音節相当の空白が付加され、「に」（１音節）の後に４音節相当の空白が付加される。

なお、ここでの例では、音声出力期間ｔが下限値Ｔｈ２以下である（所定の範囲内に収まっていない）場合に、項目に対応する音声の元となるテキストデータに空白を付加（テキストデータを変化）させる場合について説明した。一方、音声出力期間ｔが下限値Ｔｈ２以下である（所定の範囲内に収まっていない）場合に、項目に対応する音声の再生速度を遅く（変化）させてもよい。あるいは、テキストデータに空白を付加する手法と、再生速度を遅くする手法とが組み合わされてもよい。

ステップ３１２において、音声出力期間ｔが下限値Ｔｈ２を超える場合（ステップ３１２のＹＥＳ）、スマートフォン２０の制御部１２は、全てのテキストデータについて、各種の判定が完了したかどうかを判定する（ステップ３１４）。各種の判定がまだ行われていないテキストデータが残っている場合（ステップ３１４のＮＯ）、スマートフォン２０の制御部１２は、ステップ３０６へ戻り、記憶部からテキストデータを１つ読み出して、ステップ３０７以降の処理を実行する。

発話音声に代えて（あるいは発話音声に加えて）、例えば、対応する曲の一部が項目に対応する音声として用いられる場合、曲の長さが所定の範囲（上限値Ｔｈ１～下限値Ｔｈ２）内に収まるように、曲の長さが調整されてもよい。また、例えば、曲の項目に対応する音声が出力されているときに、曲のプロモーション動画がスマートフォン２０の画面上で再生されるような場合、動画の長さが所定の範囲（上限値Ｔｈ１～下限値Ｔｈ２）内に収まるように、動画の長さが調整されてもよい。

なお、スマートフォン２０の制御部１２は、ステップ３０９～ステップ３１３において、ジェスチャ受付期間Ｔの長さが、音声に対応する項目毎に一定となるように、音声出力期間ｔの長さを調整している。このとき、スマートフォン２０の制御部１２は、音声出力期間ｔの長さが、上限値Ｔｈ１及び下限値Ｔｈ２による所定の範囲内に収まるように、音声出力期間ｔの長さを調整している。

ステップ３１４において、全てのテキストデータについて、各種の判定が完了した場合（ステップ３１４のＹＥＳ）、制御部は、テキストデータにＴＴＳ（Text To Speech）を適用して、第１の音声データ（右側）及び第２の音声データ（左側）を生成する（ステップ３１５）。そして、第１の音声データ及び第２の音声データを、メニューに関連付けて記憶部に記憶する。

次に、スマートフォン２０の制御部１２は、各項目に対応するジェスチャ受付期間Ｔをそれぞれ算出し、このジェスチャ受付期間Ｔを記憶部に記憶する（ステップ３１６）。

図７を参照して、ジェスチャ受付期間Ｔについて詳細に説明する。図７に示すように、典型的には、スマートフォン２０の制御部１２は、特定の方向においてその項目に対応する音声の出力が開始されてから、同じ方向において次の音声の出力が開始されるまでの期間を、その項目に対応するジェスチャ受付期間Ｔとして設定する。

例えば、スマーフォンの制御部は、右方向において「音楽を聞きますか？」の音声の出力が開始されてから、次に右方向において「メッセージを聞きますか？」の音声の出力が開始されるまでの期間を、「音楽」の項目に対応するジェスチャ受付期間Ｔ１として設定する。

なお、「音楽」の項目に対応するジェスチャ受付期間Ｔ１の長さは、「音楽を聞きますか？」の音声出力期間ｔ１と、「ニュースを聞きますか？」の音声出力期間ｔ２とを加算した長さである。

同様にして、スマーフォンの制御部は、左方向において「ニュースを聞きますか？」の音声の出力が開始されてから、次に左方向において「スケジュールを聞きますか？」の音声の出力が開始されるまでの期間を、「ニュース」の項目に対応するジェスチャ受付期間Ｔ２として設定する。

なお、「ニュース」の項目に対応するジェスチャ受付期間Ｔ２の長さは、「ニュースを聞きますか？」の音声出力期間ｔ１と、「メッセージを聞きますか？」の音声出力期間ｔ２とを加算した長さである。

同様にして、スマートフォン２０の制御部１２は、「メッセージ」、「スケジュール」、「電話」の項目に対応するジェスチャ受付期間Ｔ３～Ｔ５を設定する。

ここで、「ナビゲーションを開始しますか？」の音声は、左方向において最後に出力される音声であり、同様に、「機器をコントロールしますか？」の音声は、右方向において最後に出力される音声である。このため、これらについては、同じ方向において次に出力される音声が存在しない。

従って、この場合には、スマートフォン２０の制御部１２は、その項目に対応する音声の出力の開始から終了までの期間（音声出力期間ｔ）に、所定時間を追加した期間を、その項目に対応するジェスチャ受付期間Ｔとして設定する。追加される所定時間は、例えば、その項目に対応する音声出力期間ｔと同じ時間とされる。

例えば、スマートフォン２０の制御部１２は、「ナビゲーションを開始しますか？」の音声における音声出力期間ｔ６に、所定時間（例えば、音声出力期間ｔ６と同等の期間）を追加した期間を、「ナビゲーション」の項目に対応するジェスチャ受付期間Ｔ６として設定する。

同様に、スマートフォン２０の制御部１２は、「機器をコントロールしますか？」の音声における音声出力期間ｔ７に、所定時間（例えば、音声出力期間ｔ７と同等の期間）を追加した期間を、「機器コントロール」の項目に対応するジェスチャ受付期間Ｔ７として設定する。

ジェスチャ受付期間Ｔを設定すると、スマートフォン２０の制御部１２は、次のステップ３１７へ進む。なお、ステップ３０３において新たに第１の音声データ及び第２の音声データを生成する必要がない場合（第１の音声データが及び第２の音声データや、ジェスチャ受付期間Ｔが既に生成済みである場合）も同様に、スマートフォン２０の制御部１２は、ステップ３１７へ進む。

ステップ３１７では、スマートフォン２０の制御部１２は、第１の音声データを第１のヘッドフォンユニット１ａへ送信する。次に、スマートフォン２０の制御部１２は、第２の音声データを第２のヘッドフォンユニット１ｂへ送信する（ステップ３１８）。

スマートフォン２０から送信された第１の音声データが受信されると（ステップ１０７のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、第１の音声データの出力を開始する（ステップ１０８）。同様に、スマートフォン２０から送信された第２の音声データが受信されると（ステップ２０５のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の音声データの出力を開始する（ステップ２０６）。

第１の音声データ及び第２の音声データがスピーカ６ａ、６ｂから出力されることで、メニューの項目にそれぞれ対応する音声が、ユーザに対して、右方向及び左方向から項目毎に交互に提示される。

スマートフォン２０の制御部１２は、第１の音声データ及び第２の音声データを送信すると、右方向及び左方向でそれぞれジェスチャ受付期間Ｔのカウントを開始する（ステップ３１９）。

なお、第１の音声データの出力の開始と、第２の音声データの出力の開始と、ジェスチャ受付期間Ｔのカウントの開始とは、第１のヘッドフォンユニット１ａ、第２のヘッドフォンユニット１ｂ及びスマートフォン２０において同期して同じタイミングで行われる。

第１のヘッドフォンユニット１ａの制御部４ａは、第１の音声データの出力を開始した後、モーションセンサ７ａから第１の検出値を取得する（ステップ１０９）。そして、第１のヘッドフォンユニット１ａの制御部４ａは、第２のヘッドフォンユニット１ｂから第２の検出値が受信されたかどうかを判定する（ステップ１１０）。

第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の音声データの出力を開始した後、モーションセンサ７ｂから第２の検出値を取得し（ステップ２０７）、取得した第２の検出値を第１のヘッドフォンユニット１ａへ送信する（ステップ２０８）。

第１のヘッドフォンユニット１ａの制御部４ａは、第２の検出値が受信されると（ステップ１１０のＹＥＳ）、第１の検出値及び第２の検出値に基づいて、ユーザの頭部の動きを判定する（ステップ１１１）。

次に、第１のヘッドフォンユニット１ａの制御部４ａは、ユーザの頭部の動きに基づいて、項目選択ジェスチャが検出されたかどうかを判定する（ステップ１１２）。

項目選択ジェスチャは、ユーザが項目を選択するためのジェスチャであり、本実施形態では、ユーザが右方向又は左方向に素早く顔を向けるジェスチャとされる。なお、項目選択ジェスチャは、ユーザが普段の生活などでゆっくりと右方向、左方向を向く動作と区別されるジェスチャである。

項目選択ジェスチャと、普段の生活等におけるユーザの動きとを区別するために、項目選択ジェスチャを検出するための閾値（方向を向く速さや、向きの角度の閾値）が適切に設定される。なお、項目選択ジェスチャは、右方向又は左方向（音声が出力された方向）に対するジェスチャであれば、どのようなジェスチャであってもよい。例えば、ユーザが右方向、左方向へ手を伸ばすジェスチャ、右方向、左方向を指さすジェスチャ等であってもよい。このようなジェスチャを検出するために、例えば、ヘッドフォン１０や、スマートフォン２０に撮像部が設けられていてもよい。

項目選択ジェスチャが検出された場合（ステップ１１２のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、項目選択ジェスチャが検出されたことを示す情報を第２のヘッドフォンユニット１ｂ及びスマートフォン２０へと送信する（ステップ１１３）。なお、送信される情報には、項目選択ジェスチャの方向（右方向又は左方向）の情報が含められる。

その後、第１のヘッドフォンユニット１ａの制御部４ａは、第１の音声データの出力を停止し（ステップ１１４）、項目選択ジェスチャの検出音をスピーカ６ａから出力させる（ステップ１１５）。項目選択ジェスチャの検出音は、「ポン」、「ピン」等の効果音であってもよいし、「ニュースが選択されました」、「ニュースを再生します」等の選択された項目に関する発話音声であってもよい。

第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の検出値を第１のヘッドフォンユニット１ａへ送信した後、項目選択ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する（ステップ２０９）。

項目選択ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ２０９のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の音声データの出力を停止する（ステップ２１０）。そして、第２のヘッドフォンユニット１ｂの制御部４ｂは、項目選択ジェスチャの検出音をスピーカ６ｂから出力させる（ステップ２１１）。

なお、項目選択ジェスチャの検出音の出力は、第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂにおいて、同期して同じタイミングで行われる。

スマートフォン２０の制御部１２は、ジェスチャ受付期間Ｔのカウントを開始した後、項目選択ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する（ステップ３２０）。

項目選択ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ３２０のＹＥＳ）、スマートフォン２０の制御部１２は、ジェスチャ受付期間Ｔのカウントを停止する（ステップ３２１）。次に、スマートフォン２０の制御部１２は、ジェスチャ受付期間Ｔと、項目選択ジェスチャにおける方向（右方向又は左方向）の情報とに基づいて、ユーザにより選択された項目を判定する（ステップ３２２）。

例えば、図７を参照して、「ニュース」の項目に対応する受付期間Ｔ２において、ユーザが左方向を向く項目選択ジェスチャをした場合、スマートフォン２０の制御部１２は、ユーザにより「ニュース」の項目が選択されたと判定する。

ユーザにより選択された項目を判定すると、スマートフォン２０の制御部１２は、選択された項目について、次の階層（下層）のメニューが存在するかどうかを判定する（ステップ３２３）。

選択された項目について、次の階層のメニューが存在しない場合（ステップ３２３のＮＯ）、スマートフォン２０は、選択された項目に対応する処理を実行する。例えば、「ニュース」の項目について、次の階層のメニューが存在しない場合（図８においてニュースサブメニューが存在しないような場合）、ニュースを再生する処理を実行する。

一方、選択された項目について、次の階層のメニューが存在している場合（ステップ３２３のＹＥＳ）、スマートフォン２０の制御部１２は、ステップ３０２へ戻り、呼び出すべきメニュー（次の階層のメニュー）を判定する。

例えば、「ニュース」の項目について、次の階層のメニューが存在している場合（図８のようにニュースサブメニューが存在している場合）、「ニュース」の項目が選択されたとき、次の階層のメニューであるニュースサブメニューが呼び出される。

その後、スマートフォン２０の制御部１２は、次の階層のメニューについて、ステップ３０３～ステップ３１６の処理を行う。そして、スマートフォン２０の制御部１２は、次の階層のメニューにおける第１の音声データを第１のヘッドフォンユニット１ａへ送信し（ステップ３１７）、次の階層のメニューにおける第２の音声データを第２のヘッドフォンユニット１ｂへ送信する（ステップ３１８）。

第１のヘッドフォンユニット１ａの制御部４ａは、項目選択ジェスチャの検出音を出力した後、次の階層のメニューにおける第１の音声データを所定時間内に受信したかどうかを判定する（ステップ１１６）。

次の階層における第１の音声データを所定時間内に受信した場合（ステップ１１６のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０８へ戻り、その第１の音声データの出力を開始する。一方、次の階層における第１の音声データを所定時間内に受信しなかった場合（ステップ１１６のＮＯ）、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０１へ戻り、モーションセンサ７ａから第１の検出値を取得する。

第２のヘッドフォンユニット１ｂの制御部４ｂは、項目選択ジェスチャの検出音を出力した後、次の階層のメニューにおける第２の音声データを所定時間内に受信したかどうかを判定する（ステップ２１２）。

次の階層における第２の音声データを所定時間内に受信した場合（ステップ２１２のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０６へ戻り、その第２の音声データの出力を開始する。一方、次の階層における第２の音声データを所定時間内に受信しなかった場合（ステップ２１２のＮＯ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０１へ戻り、モーションセンサ７ｂから第２の検出値を取得する。

第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１１２において、項目選択ジェスチャが検出されなかった場合（ステップ１１２のＮＯ）、次のステップ１１７へ進む。ステップ１１７では、第１のヘッドフォンユニット１ａの制御部４ａは、ユーザの頭部の動きに基づいて、メニュー中断ジェスチャが検出されたかどうかを判定する。

メニュー中断ジェスチャは、ユーザがメニューの再生を中断させるためのジェスチャであり、例えば、ユーザが右方向及び左方向に素早く首を振るジェスチャ（一般的に「いいえ」のときに人がする動作）とされる。

なお、メニュー中断ジェスチャは、右方向及び左方向に素早く首を振る動作に限られない。例えば、メニュー中断ジェスチャは、ユーザが手を右方向及び左方向に素早く振る動作であってもよい。このようなジェスチャを検出するために、例えば、ヘッドフォン１０や、スマートフォン２０に撮像部が設けられていてもよい。

メニュー中断ジェスチャが検出された場合（ステップ１１７のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、メニュー中断ジェスチャが検出されたことを示す情報を第２のヘッドフォンユニット１ｂ及びスマートフォン２０へと送信する（ステップ１１８）。

その後、第１のヘッドフォンユニット１ａの制御部４ａは、第１の音声データの出力を停止し（ステップ１１９）、メニュー中断ジェスチャの検出音をスピーカ６ａから出力させる（ステップ１２０）。メニュー中断ジェスチャの検出音は、「ポン」、「ピン」等の効果音であってもよいし、「メニューの再生を中断します」等の発話音声であってもよい。

メニュー中断ジェスチャの検出音を出力すると、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０１へ戻り、再び、モーションセンサ７ａから第１の検出値を取得する。

第２のヘッドフォンユニット１ｂの制御部４ｂは、項目選択ジェスチャの検出が第１のヘッドフォンユニット１ａから通知されなかった場合（ステップ２０９のＮＯ）、ステップ２１３へ進む。ステップ２１３では、第２のヘッドフォンユニット１ｂの制御部４ｂは、メニュー中断ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

メニュー中断ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ２１３のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、第２の音声データの出力を停止する（ステップ２１４）。そして、第２のヘッドフォンユニット１ｂの制御部４ｂは、メニュー中断ジェスチャの検出音をスピーカ６ｂから出力させる（ステップ２１５）。

なお、メニュー中断ジェスチャの検出音の出力は、第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂにおいて、同期して同じタイミングで行われる。

メニュー中断ジェスチャの検出音を出力すると、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０１へ戻り、再び、モーションセンサ７ｂから第２の検出値を取得する。

スマートフォン２０の制御部１２は、項目選択ジェスチャの検出が第１のヘッドフォンユニット１ａから通知されなかった場合（ステッ３２０のＮＯ）、ステップ３２５へ進む。ステップ３２５では、スマートフォン２０の制御部１２は、メニュー中断ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

メニュー中断ジェスチャが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ３２５のＹＥＳ）、スマートフォン２０の制御部１２は、ジェスチャ受付期間Ｔのカウントを停止する（ステップ３２６）。そして、スマートフォン２０の制御部１２は、ステップ３０１へ戻り、メニュートリガジェスチャが検出されたことが第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１１７において、メニュー中断ジェスチャが検出されなかった場合（ステップ１１７のＮＯ）、ステップ１２１へ進む。ステップ１２１では、第１のヘッドフォンユニット１ａの制御部４ａは、ユーザの頭部の動きに基づいて、曖昧な動きが検出されたかどうかを判定する。

曖昧な動きについて説明する。上述のように、ユーザが素早く右方向又は左方向に顔を向けると、その動きが項目選択ジェスチャとして検出される。一方、ユーザがゆっくり右方向又は左方向に顔を向けた場合や、顔の向きの角度が足らないような場合、この動きは、項目選択ジェスチャとしては検出されない。本実施形態では、曖昧な動きは、例えば、このような、項目選択ジェスチャとしては検出されないものの、項目選択ジェスチャに近い動きである。

曖昧な動きが検出された場合（ステップ１２１のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、曖昧な動きが検出されたことを示す情報を第２のヘッドフォンユニット１ｂ及びスマートフォン２０へと送信する（ステップ１２２）。送信される情報には、例えば、検出された曖昧な動きが、項目選択ジェスチャにどの程度近い動きであるのかを示す情報が含められる。

その後、第１のヘッドフォンユニット１ａの制御部４ａは、延長期間がスマートフォン２０から通知されたかどうかを判定する（ステップ１２３）。延長期間は、現在出力されている音声に対応する項目におけるジェスチャ受付期間Ｔを延長するための期間である。

延長期間が通知されなかった場合（ステップ１２３のＮＯ）、第１のヘッドフォンユニット１ａの制御部４ａは、再び、延長期間がスマートフォン２０から通知されたかどうかを判定する（延長期間の通知待ち）。

第２のヘッドフォンユニット１ｂの制御部４ｂは、メニュー中断ジェスチャの検出が第１のヘッドフォンユニット１ａから通知されなかった場合（ステップ２１３のＮＯ）、ステップ２１６へ進む。ステップ２１６では、第２のヘッドフォンユニット１ｂの制御部４ｂは、曖昧な動きが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

曖昧な動きが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ２１６のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、延長期間がスマートフォン２０から通知されたかどうかを判定する（ステップ２１７）。延長期間が通知されなかった場合（ステップ２１７のＮＯ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、再び、延長期間がスマートフォン２０から通知されたかどうかを判定する（延長期間の通知待ち）。

スマートフォン２０の制御部１２は、メニュー中断ジェスチャの検出が第１のヘッドフォンユニット１ａから通知されなかった場合（ステッ３２５のＮＯ）、ステップ３２７へ進む。ステップ３２７では、スマートフォン２０の制御部１２は、曖昧な動きが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

曖昧な動きが検出されたことを示す情報が第１のヘッドフォンユニット１ａから通知された場合（ステップ３２７のＹＥＳ）、スマートフォン２０の制御部１２は、延長期間を算出する。延長期間は、曖昧な動きが項目選択ジェスチャに近い動きであるほど、長い期間となるように、その期間が設定される。なお、ここでの説明では、延長期間が可変である場合について説明するが、延長期間は一定であってもよい。

延長期間を算出すると、次に、スマートフォン２０の制御部１２は、延長期間を示す情報を第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂへと送信する（ステップ３２９）。

次に、スマートフォン２０の制御部１２は、現在の項目における第１のジェスチャ受付期間Ｔ、及び現在の項目における第２のジェスチャ受付期間Ｔを、それぞれ、延長期間分延長する（ステップ３３０）。

第１のヘッドフォンユニット１ａの制御部４ａは、スマートフォン２０から延長期間が通知されると（ステップ１２３のＹＥＳ）、ステップ１２４へ進む。ステップ１２４では、第１のヘッドフォンユニット１ａの制御部４ａは、現在の音声出力期間ｔの後に、延長期間を追加する。

例えば、ステップ１２４において、第１のヘッドフォンユニット１ａの制御部４ａは、現在の項目の音声の出力が完了した後に、第１の音声データの出力を一時停止させる。そして、第１のヘッドフォンユニット１ａの制御部４ａは、一時停止のタイミングから延長期間分の時間が経過したときに、第１の音声データの出力を再開する。このようにして、第１のヘッドフォンユニット１ａの制御部４ａは、現在の音声出力期間ｔの後に、延長期間を追加する。なお、延長期間中に、項目毎の区切りを意味する効果音が出力されてもよい。

第２のヘッドフォンユニット１ｂの制御部４ｂは、スマートフォン２０から延長期間が通知されると（ステップ２１７のＹＥＳ）、ステップ２１８へ進む。ステップ２１８では、第２のヘッドフォンユニット１ｂの制御部４ｂは、現在の音声出力期間ｔの後に、延長期間を追加する。

例えば、ステップ２１８において、第２のヘッドフォンユニット１ｂの制御部４ｂは、現在の項目の音声の出力が完了した後に、第２の音声データの出力を一時停止させる。そして、第２のヘッドフォンユニット１ｂの制御部４ｂは、一時停止のタイミングから延長期間分の時間が経過したときに、第２の音声データの出力を再開する。このようにして、第２のヘッドフォンユニット１ｂの制御部４ｂは、現在の音声出力期間ｔの後に、延長期間を追加する。なお、延長期間中に、項目毎の区切りを意味する効果音が出力されてもよい。

図７を参照して、例えば、「ニュースを聞きますか？」の音声出力期間ｔ２におけるいずれかの時点において、ユーザが、ゆっくり右方向又は左方向を向き、曖昧な動きが検出されたとする。この場合、「ニュースを聞きますか？」の音声の出力が完了した後に、第１の音声データ及び第２の音声データが一時停止される。

そして、一時停止されたタイミングから延長期間が経過したときに、第１の音声データ及び第２の音声データの出力が再開され、「メッセージを聞きますか？」の音声が出力される。なお、延長期間内において、「ニュースを聞きますか？」の音声が、再び、再生されてもよい（つまり、「ニュースを聞きますか？」の音声が２回再生される）。

「ニュースを聞きますか？」の音声出力期間ｔ２において曖昧な動きが検出された場合、第１のジェスチャ受付期間Ｔにおいては、「音楽」の項目に対応するジェスチャ受付期間Ｔ１が延長期間分延長される。一方、第２のジェスチャ受付期間Ｔにおいては、「ニュース」の項目に対応するジェスチャ受付期間Ｔ２が延長期間分延長される。

この場合、延長期間内において、ユーザが素早く右方向又は左方向を向き、項目選択ジェスチャが検出された場合には、「音楽」又は「ニュース」の項目が選択される。

なお、ユーザが曖昧な動きをした場合、その動きの曖昧さ（項目選択ジェスチャにどの程度近いか）が、スマートフォン２０の画面上に表示されてもよい。この場合、スマートフォン２０の画面上において、動きの曖昧さに応じて変色する色が表示されてもよい。また、ユーザが曖昧な動きをした場合、動きの曖昧な動きが検出されたことが音でユーザに提示されてもよい。

スマートフォン２０の制御部１２は、曖昧な動きが第１のヘッドフォンユニット１ａから通知されなかった場合（ステッ３２７のＮＯ）、ステップ３３１へ進む。ステップ３３１では、スマートフォン２０の制御部１２は、最後の項目のジェスチャ受付期間Ｔが完了したかどうかを判定する。

最後の項目のジェスチャ受付期間Ｔが完了していない場合（ステップ３３１のＮＯ）、スマートフォン２０の制御部１２は、ステップ３２０へ戻り、項目選択ジェスチャの検出が第１のヘッドフォンユニット１ａから通知されたかどうかを判定する。

一方、最後の項目のジェスチャ受付期間Ｔが完了した場合（ステップ３３１のＹＥＳ）、スマートフォン２０の制御部１２は、最後の項目のジェスチャ受付期間Ｔが完了したことを示す情報を、第１のヘッドフォンユニット１ａ及び第２のヘッドフォンユニット１ｂへと送信する（ステップ３３２）。

第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１２１において曖昧な動きが検出されなかった場合（ステップ１２１のＮＯ）、最後の項目のジェスチャ受付期間Ｔの完了がスマートフォン２０から通知されたかどうかを判定する（ステップ１２５）。

ジェスチャ受付期間Ｔの完了が通知されなかった場合（ステップ１２５のＮＯ）、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０９へ戻り、モーションセンサ７ａから第１の検出値を取得する。

一方、ジェスチャ受付期間Ｔの完了が通知された場合（ステップ１２５のＹＥＳ）、第１のヘッドフォンユニット１ａの制御部４ａは、ステップ１０１へ戻り、モーションセンサ７ａから第１の検出値を取得する。

第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２１６において曖昧な動きが通知されなかった場合（ステップ２１６のＮＯ）、最後の項目のジェスチャ受付期間Ｔの完了がスマートフォン２０から通知されたかどうかを判定する（ステップ２１９）。

ジェスチャ受付期間Ｔの完了が通知されなかった場合（ステップ２１９のＮＯ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０７へ戻り、モーションセンサ７ｂから第２の検出値を取得する。

一方、ジェスチャ受付期間Ｔの完了が通知された場合（ステップ２１９のＹＥＳ）、第２のヘッドフォンユニット１ｂの制御部４ｂは、ステップ２０１へ戻り、モーションセンサ７ｂから第２の検出値を取得する。

＜作用等＞
本実施形態では、メニューにおける各項目にそれぞれ対応する音声が、ユーザに対して右方向及び左方向から項目毎に交互に出力されるように、音声の出力が制御される。つまり、本実施形態では、聴覚によるメニューの項目の提示において、各項目が、方向及び時間で分割されてユーザに提示される。

このように、各項目を、方向及び時間で分割してユーザに提示することで、ユーザに対して項目を適切に提示することができる。なお、各項目が、方向にのみ分割される場合や、時間にのみ分割される場合（後述）、ユーザに対して適切に項目を提示することができない場合がある。

また、本実施形態では、右方向への項目選択ジェスチャに応じて、右方向から出力された音声に対応する項目が選択され、左方向への項目選択ジェスチャに応じて、左方向から出力された音声に対応する項目が選択される。これにより、ユーザは、項目に対応する音声が聞こえた方向へ項目選択ジェスチャを行うことで、項目を選択することができるので、ユーザは、直感的に項目を選択することができる。

また、本実施形態では、ジェスチャ受付期間Ｔが、音声に対応する項目毎に設定されている。特に、本実施形態では、ジェスチャ受付期間Ｔとして、右方向から出力された音声に対する項目を選択するための第１のジェスチャ受付期間Ｔと、左方向から出力された音声に対する項目を選択するための第２のジェスチャ受付期間Ｔとが設定されている。

これにより、方向毎に、適切にジェスチャ受付期間Ｔを設定することができる。

ここで、本実施形態の比較として、聴覚によるメニューの提示において、各項目が時間にのみ分割され、方向には分割されずにユーザに提示される場合を想定する。図１６は、比較例に係るメニューの項目の提示を示す図である。

図１６に示す比較例では、「音楽を聞きますか？」、「ニュースを聞きますか？」、「メッセージを聞きますか？」、「スケジュールを聞きますか？」等の項目に対応する音声が、項目毎にこの順番で出力されるとする。なお、比較例では、本実施形態とは異なり、項目に対応する音声が右方向及び左方向の両方から出力される。

「ニュースを聞きますか？」の音声が出力された後に、この音声にユーザが反応して、ユーザがうなずくジェスチャをすると、「ニュース」の項目が選択される。そして、「ニュースを再生します」の音声が出力（左右両方）された後に、ニュースを読み上げる音声が出力（左右両方）される。

比較例においては、ジェスチャ受付期間Ｔは、本実施形態と同様に項目毎に設定されるが、本実施形態のように方向毎に設定されてはいない。例えば、「音楽」の項目に対応するジェスチャ受付期間Ｔは、「音楽を聞きますか？」の音声の出力が開始されてから、「ニュースを聞きますか？」の音声の出力が開始されるまでの期間とされる。また、「ニュース」の項目に対応するジェスチャ受付期間Ｔは、「ニュースを聞きますか？」の音声の出力が開始されてから、「メッセージを聞きますか？」の音声の出力が開始されるまでの期間とされる。

この比較例においては、項目に対応する音声を素早く連続して出力させることができないといった問題がある。これは、ユーザが音声に反応するためには、多少時間が掛かり、項目に対応する音声を素早く連続して出力させてしまうと、ユーザのジェスチャが音声に追い付かないためである。例えば、「ニュースを聞きますか？」との音声に対して、ユーザがうなずいたとき、既に「メッセージを聞きますか？」の音声の出力が開始されていて、ユーザの意図に反して「メッセージ」の項目が選択されてしまうといったことになってしまいかねない。

このため、比較例においては、例えば、「ニュースを聞きますか？」の音声が出力された後、所定時間（ユーザの反応時間が考慮された時間）を空けてから次の「メッセージを聞きますか？」の音声を出力せざるを得ない。従って、項目毎の音声を素早く連続して出力させることができない。また、比較例では、項目毎の音声を素早く連続して出力させることができないので、メニューに含まれる項目を全てユーザに提示するまでの時間が長くなってしまうといった問題もある。

一方、本実施形態では、項目に対応する音声を素早く連続して出力させることができる。これは、本実施形態では、第１のジェスチャ受付期間Ｔが、右方向において音声の出力が開始されてから、同じ右方向において次の音声の出力が開始されるまでの期間とされているためである。また、第２のジェスチャ受付期間Ｔが、左方向において音声の出力が開始されてから、同じ左方向において次の音声の出力が開始されるまでの期間とされているためである。

図７を参照して、例えば、左方向から「ニュースを聞きますか？」の音声が出力され、この音声にユーザが反応して左方向を向いたとする。本実施形態では、「ニュースを聞きますか？」の後にすぐに「メッセージを聞きますか？」の音声が出力されるので、ユーザが左方向を向いたときに、既に、「メッセージを聞きますか？」の音声の出力が開始されている場合がある。

しかしながら、「ニュース」のジェスチャ受付期間Ｔは、「メッセージを聞きますか？」の音声出力期間ｔを含むので、ユーザが左方向を向いたときに「メッセージを聞きますか？」の音声の出力が開始されていたとしても、「ニュース」の項目が選択される。

このように、本実施形態では、項目に対応する音声を素早く連続して出力させたとしても、ユーザは、適切に所望の項目を選択することができる。さらに、本実施形態では、項目に対応する音声を素早く連続して出力させることができるので、メニューに含まれる項目を全てユーザに提示するまでの時間を短くすることができるといった利点もある。

さらに、本実施形態では、ジェスチャ受付期間Ｔの長さが、音声に対応する項目毎に一定となるように、音声出力期間ｔの長さが調整される（ステップ３０９～ステップ３１３参照）。これにより、項目に対応する音声を、一定のリズムでテンポよくユーザに提示することができる。

また、本実施形態では、音声出力期間ｔの長さが所定の範囲（上限値Ｔｈ１～下限値Ｔｈ２）内に収まっていない場合に、音声の元となるテキストデータが変化される。あるいは、音声出力期間ｔの長さが所定の範囲（上限値Ｔｈ１～下限値Ｔｈ２）内に収まっていない場合に、音声の再生速度が調整される。これにより、音声出力期間ｔの長さを適切に調整することができる。

なお、音声出力期間ｔの長さが長すぎると、だらだらと長い音声が出力されてユーザに不満を与えてしまうのに対して、本実施形態では、音声出力期間ｔが長い場合には、短くされるので、ユーザに不満を与えることを防止することができる。一方、音声出力期間ｔの長さが短すぎると、ジェスチャ受付期間Ｔが短くなってしまうのに対して、本実施形態では、空白が付加されるので、ジェスチャ受付期間Ｔが短くなってしまうことを防止することができる。

また、本実施形態では、ジェスチャ受付期間Ｔの長さが可変に制御される（ステップ３２７～ステップ３３０参照）。特に、本実施形態では、ユーザが、項目選択ジェスチャとは判定されないような曖昧な動きをした場合に（ユーザの動きに応じて）、ジェスチャ受付期間Ｔが可変に制御される。

これにより、ジェスチャ受付期間Ｔの長さを適切に変化させることができる。また、本実施形態では、音声出力期間ｔの後に追加される延長期間の長さを可変に制御することで、ジェスチャ受付期間Ｔの長さが可変に制御される。これにより、延長期間の長さを調整することで、ジェスチャ受付期間Ｔの長さを適切に調整することができる。

ここで、比較として、例えば、曲の再生について、「・・・（曲名）を再生」とユーザが言ったときに、この音を解析して、対応する曲を再生することも考えられる。一方で、ユーザが、自己が再生を望んでいる曲名を明確に覚えていないと、このような曲の指定の仕方で音楽を再生することはできない。一方、「ａ（曲名）を聞きますか？」、「ｂ（曲名）を聞きますか？」のように、音声により項目が提示されれば、ユーザは、曲名を明確に覚えていなくても所望の曲を選択して再生することができる。

同様に、ニュースの再生ついて、「・・・（ニュース名）を再生」とユーザが言ったときに、この音声を解析して、対応するニュースを読み上げることも考えられる。一方、起こったニュースをユーザが知らない場合があり、また、そのニュースが起こったこと自体を知っていたとしても、そのニュースに対応するニュース名を正確に知っていることはほとんどない。一方、「Ａ（ニュース名）を聞きますか？」、「Ｂ（ニュース名）を聞きますか？」のように、音声により項目が提示されれば、ユーザは、ニュース名を知らなくても所望のニュースを選択して再生することができる。

つまり、聴覚による項目の提示及びジェスチャによる項目の選択（本技術に係る方法）は、ユーザが音声によりピンポイントで項目を指定する場合に比べて、項目選択までに時間が掛かるといったデメリットがあるものの、選択する項目の名前を知らなくても項目を選択可能であるといったメリットがある。

なお、これは、聴覚による項目の提示及びジェスチャによる項目の選択（本技術に係る方法）と、音声によるピンポイントでの項目の指定との組み合わせを排除するものではない。つまり、本技術に係る方法と、音声によるピンポイントでの項目の指定とが組み合わされてもよい。この場合、ユーザの音声を取得するために、ヘッドフォン１０にマイクロフォンが設けられるか、あるいは、スマートフォン２０のマイクロフォン１７が使用される。

この場合、例えば、ユーザは、項目名（曲名、ニュース名等）を明確に覚えている場合に、音声によるピンポイントでの項目の指定を行い、項目名が明確にわからない場合に、本技術に係る方法により項目を選択してもよい。

また、複数のメニューが階層になっている場合、音声によるピンポイントでの項目の指定により、上層のメニューがスキップされてもよい。例えば、図９を参照して、ユーザが「Ａさん（歌手名）の曲」と言った場合、メインメニュー（１層目）と、歌手サーチメニュー（２層目）がスキップされて、アルバムサーチメニュー（３層目）からメニューの提示が開始される。

≪第２実施形態≫
次に、本技術に係る第２実施形態について説明する。第２実施形態以降の説明では、上述の第１実施形態と同様の構成及び機能を有する部分については、同一符号を付し、説明を簡略化又は省略する。

第２実施形態では、項目の選択方法が上述の第１実施形態と異なっているため、この点を中心に説明する。図１７は、第２実施形態に係る項目の選択方法を示す図である。

図１７に示すように、「音楽を聞きますか？」、「ニュースを聞きますか？」、「メッセージを聞きますか」、「スケジュールを聞きますか？」等の項目に対応する音声が右方向及び左方向で項目毎に交互に出力される。ユーザが「ニュースを聞きますか？」の音声に反応して、「ニュース」の項目に対応するジェスチャ受付期間Ｔ２（図７参照）において、左方向を向くジェスチャを行ったとする。

この場合、上述の第１実施形態では、「ニュース」の項目が選択されて、ニュースの再生が開始された（あるいは、ニュースの下層のメニューに進んだ）が、第２実施形態では、この時点では、まだ「ニュース」の項目は選択されない。

第２実施形態では、ユーザが「ニュース」の項目に対応するジェスチャ受付期間Ｔ２において、左方向を向くジェスチャを行った場合、「ニュースを聞きますか？」の音声が再び左方向から出力される。

なお、最初の「ニュースを聞きますか？」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、最初の「ニュースを聞きますか？」の音声が全て出力された後（あるいは、この音声が中断されて）、２回目の「ニュースを聞きますか？」の音声が出力される。この場合、「ニュースを聞きますか？」の音声が２回繰り返されることになる。

また、「メッセージを聞きますか？」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「メッセージを聞きますか？」の音声が全て出力された後（あるいは、この音声が中断されて）、２回目の「ニュースを聞きますか？」の音声が出力される。この場合、「メッセージを聞きますか？」の１つ前の「ニュースを聞きますか？」の質問（項目）に戻される。

２回目の「ニュースを聞きますか？」の音声におけるジェスチャ受付期間Ｔ（音声出力期間ｔ＋延長期間等：方向とは無関係。図７に示されていない）において、ユーザがうなずくジェスチャ（項目を戻すジェスチャとは、異なるジェスチャ）を行うと、「ニュース」の項目が選択される。

なお、２回目の「ニュースを聞きますか？」に対してうなずくジェスチャが行われなかった場合には、この後に、再び「メッセージを聞きますか？」の音声が右方向から出力される。

この例では、ジェスチャにより、音声が前の項目に対応する音声に戻される（あるいは、同じ項目に対応する音声が繰り返される）場合について説明した。一方、ジェスチャにより、音声が後の項目に対応する音声に進められてもよい。

例えば、ユーザが「ニュース」の項目に対応するジェスチャ受付期間Ｔ２（図７参照）において、左方向を向くジェスチャを行ったとする。この場合、「スケジュールを聞きますか？」（左方向における次の音声）の質問に音声がスキップされる。

なお、「ニュースを聞きますか？」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「ニュースを聞きますか？」の音声が全て出力された後（あるいは、この音声が中断されて）、「スケジュールを聞きますか？」の音声が出力される。この場合、「メッセージを聞きますか？」の音声は、全体がスキップされる。

また、「メッセージを聞きますか？」の音声の出力の最中にユーザが左方向を向くジェスチャを行った場合、「メッセージを聞きますか？」の音声が中断されて、「スケジュールを聞きますか？」の音声が出力される。

「スケジュールを聞きますか？」の音声におけるジェスチャ受付期間Ｔ（音声出力期間ｔ＋延長期間等：方向とは無関係。図７に示されていない）において、ユーザがうなずくジェスチャ（項目を進めるジェスチャとは、異なるジェスチャ）を行うと、「スケジュール」の項目が選択される。

なお、「スケジュールを聞きますか？」に対してうなずくジェスチャが行われなかった場合には、この後に、「電話を掛けますか？」の音声が右方向から出力される。

音声が前の項目に対応する音声に戻される例では、ユーザは、あわてずにゆっくりと項目を選択することができる。一方、音声が後の項目に対応する音声に進められる例では、ユーザは、後の項目を素早く選択することができる。例えば、ユーザがメニューにおける項目の順番を知っていて、かつ、後ろの項目を選択したい場合にこのような方法は有用である。

≪各種変形例≫
［ユーザに対する音声の出力方向等］
以上の説明では、ユーザに対して、右方向及び左方向から音声が出力される場合について説明した。一方、ユーザに対して音声が出力される方向（音像の定位位置）は、上方向及び下方向等であってもよく、異なる方向であれば、方向については特に限定されない。

音声が出力される方向が、上方向及び下方向である場合、ユーザが素早く上を向くと、上から出力された音声に対応する項目が選択され、ユーザが素早く下を向くと、下から出力された音声に対応する項目が選択される。

以上の説明では、２方向から音声が出力される場合について説明したが、３方向以上の方向から音声が出力されてもよい（この場合、ジェスチャ受付期間Ｔも３以上の方向毎に設定される）。

ユーザに対して音声が出力される方向（音像の定位位置）は、音声出力中において移動させることもできる。例えば、「音楽を聞きますか？」の音声の音像が、最初は、ユーザの正面に定位され、音声出力中に、音像が、徐々にユーザの右の位置まで移動される。また、例えば、「ニュースを聞きますか？」の音声の音像が、最初は、ユーザの正面に定位され、音声出力中に、音像が、徐々にユーザの左の位置まで移動される。

提示される音声の声色（同じ人の声色、全く別の人（性別が違うなど）の声色）が、方向毎に異なっていてもよい。

ユーザに対する音声の出力方向が可変に制御されてもよい。これにより、適切に音声の出力方向を変化させることができる。

この場合、ユーザの顔の向きに応じて、音声の出力方向が可変に制御されてもよい。例えば、ユーザの体が正面を向き、ユーザの顔が右方向を向いているときに、メニューの再生が開始される場合を想定する。この場合、ユーザに対して、正面方向及び左方向から項目毎に交互に音声が出力される。なお、ユーザの体の向きに対する顔の向きを判断するため、ヘッドフォンユニット１、あるいは、スマートフォン２０に撮像部が設けられてもよい。

この場合、ユーザが素早く正面方向を向くと、正面から出力された音声に対応する項目が選択される。一方、ユーザが素早く左方向を向くと、左方向から出力された音声に対応する項目が選択される。

ユーザがゆっくり正面を向く（項目選択ジェスチャと判定されない動き）と、音声が出力される方向が変化される。この場合、ユーザに対して、右方向及び左方向から項目毎に交互に音声が出力される（上述の第１実施形態で説明した内容）。音声の出力方向が変化したとき、音声の出力方向が変わったことが音声によりユーザに提示されてもよい。

さらに、ユーザがゆっくり左方向を向く（項目選択ジェスチャと判定されない動き）と、音声が出力される方向が変化される。この場合、ユーザに対して、正面方向及び右方向から項目毎に交互に音声が出力される。

この場合、ユーザが素早く正面方向を向くと、正面から出力された音声に対応する項目が選択される。一方、ユーザが素早く右方向を向くと、右方向から出力された音声に対応する項目が選択される。

メニューが、階層が異なる複数のメニューを含む場合、メニューにおける階層に応じて、ユーザに対する音声の出力方向が可変に制御されてもよい。例えば、図８を参照して、メインメニューにおける音声の出力方向が、右方向及び左方向とされ、サブメニューにおける音声の出力方向が、上方向及び下方向とされる。このように、階層毎に、音声の出力方向を切り替えることで、ユーザは、メニューの階層が変わったことを直感的に容易に認識することができる。

［ジェスチャ受付期間Ｔ等］
以上の説明では、ジェスチャ受付期間Ｔが、特定の方向において音声の出力が開始されてから、同じ方向において次の音声の出力が開始されるまでの期間であるとして説明した。一方、ジェスチャ受付期間Ｔは、音声の出力が開始されてから、次の音声（方向に依らない）の出力が開始されるまでの期間であってもよい。例えば、図７を参照して、「ニュースを聞きますか？」の音声の出力が開始されてから、「メッセージを聞きますか？」の音声の出力が開始されるまでの期間が、「ニュース」の項目に対応するジェスチャ受付期間Ｔであってもよい。

以上の説明では、項目選択ジェスチャとは判定されないよう曖昧な動きをした場合に、ジェスチャ受付期間Ｔが延長期間により延長されるとして説明した。一方、ジェスチャ受付期間Ｔは、静止していたユーザの頭が少しでも動いた場合に（ユーザの動きに応じて）、延長期間により延長されてもよい。この場合、ユーザの頭の動きの大きさが大きいほど延長期間が長くなってもよく、ユーザの頭の動きが停止したときに延長期間が終了してもよい。なお、ユーザの頭の動きや、動きの大きさは、モーションセンサ７による検出値により判断可能である。

また、ジェスチャ受付期間Ｔは、ユーザが運動（歩いている、走っている等）している場合に（ユーザの動きに応じて）、延長期間により延長されてもよい。この場合、ユーザの動きが激しいほど延長期間が長くなる。なお、ユーザが運動しているかどうか、及び、運動の激しさは、モーションセンサ７による検出値により判断可能である。

また、ジェスチャ受付期間Ｔは、音声に対するユーザの項目選択ジェスチャの反応速度に応じて、延長期間により延長されてもよい。この場合、音声の出力が開始されてから項目選択ジェスチャが検出されるまでの平均時間が長いほど延長期間が長くなる。

また、ジェスチャ受付期間Ｔは、メニューにおける項目の重要度に応じて、延長期間により延長されてもよい。この場合、項目の重要度が高くなるほど延長期間が長くなる。例えば、音声における質問に対してＹＥＳ（右）／ＮＯ（左）の２択では、延長期間が長くなる。

また、ジェスチャ受付期間Ｔは、音声の元になるテキストデータの長さや、テキストデータに使用されている文字の難易度に応じて、延長期間により延長されてもよい。この場合、テキストデータが長くなるほど延長期間が長くなり、また、テキストデータに使用されている文字の難易度が高いほど、延長期間が長くなる。なお、上述の第１実施形態では、テキストデータが長い場合には、適切な長さに調整されるので、それほど長くなる場合はないが、このような処理が実行されない場合には、テキストデータが長くなる場合がある。

延長期間は、所定の条件下で、短縮（又は省略）されてもよい。例えば、延長期間は、メニューに含まれる項目の数、あるいは、メニューの階層数に応じて、短縮（又は省略）されてもよい。この場合、メニューに含まれる項目の数、あるいは、メニューの階層数が多いほど、延長期間が短縮（又は省略）される。

また、例えば、延長期間は、時間帯に応じて、短縮（又は省略）されてもよい。例えば、朝などの忙しい時間帯では、他の時間帯に比べて、延長期間が短縮（又は省略）される。

ユーザが曖昧な動きしたような場合や、ユーザが運動を行っているような場合、音声の再生速度が変化されてもよい。例えば、ユーザが曖昧な動きをした場合には、音声の再生速度がゆっくりとされる。また、例えば、メニューに含まれる項目の数が多い場合や、階層数が多い場合には、音声の再生速度が速くされる。

［音声出力期間ｔ、項目選択ジェスチャ等］
右方向から出力される音声における音声出力期間ｔと、左方向から出力される音声における音声出力期間ｔが部分的に重なっていてもよい。例えば、右方向において「音楽を行きますか？」の音の出力が終了する前に、左方向において「ニュースを聞きますか？」の音声の出力が開始されてもよい。この方法は、例えば、テキストデータが長い場合や、メニューの項目が多い場合、メニューの階層数が多い場合等に有利である。

項目選択ジェスチャが学習機能によって学習され、項目選択ジェスチャを検出するための閾値が変化されてもよい。項目選択ジェスチャの検出と、視線検出とが組み合わされて、項目が選択されたかどうかが判定されてもよい（この場合には、視線を検出するための装置が情報処理装置１００に設けられる）。

また、メニューがユーザに提示されているときに、最初の幾つかの項目の音声に対するユーザの反応に基づいて、残りの項目に対するユーザの反応が予測されてもよい。メニューがユーザに提示されているとき、メニューにおける項目や順番が、音声に対するユーザの反応に基づいて変化されてもよい。

例えば、曲サーチメニューにおいて、「ａ（曲名）を聞きますか？」、「ｂ（曲名）を聞きますか？」との音声において、「ｂ（曲名）を聞きますか？」のときにユーザが曖昧な動きをしたとする。この場合、曲ｂに類似する曲が優先的に読み上げられるように、メニューにおける項目が変化される。このとき、ユーザがどの程度曖昧な動きをしているのかの情報が用いられてもよい。

［情報処理装置等］
以上の説明では、ヘッドフォンユニット１の制御部が、ジェスチャの検出に関する処理等を行い、スマートフォン２０の制御部１２が、テキストデータや、ジェスチャ受付期間Ｔに関する処理などを行う場合について説明した。一方、このような各種の処理の分担は、適宜変更可能である。例えば、ヘッドフォンユニット１の制御部が、テキストデータや、ジェスチャ受付期間Ｔに関する処理を行い、スマートフォンの制御部１２が、ジェスチャの検出に関する処理を行ってもよい。

また、このような各種の処理は、ヘッドフォンユニット１の制御部が全て行ってもよいし、スマートフォン２０の制御部１２が全て行ってもよい。あるいは、このような各種の処理は、ネットワーク上のサーバ装置が行ってもよい。

以上の説明では、ヘッドフォン１０が、別体の２つのヘッドフォンユニット１によって構成される場合について説明した。一方、ヘッドフォン１０は、例えば、２つのヘッドフォンユニット１がバンドによって連結された一体型のヘッドフォン１０であってもよい。

以上の説明では、情報処理装置１００が、ヘッドフォン１０と、スマートフォン２０とを含む場合について説明した。一方、情報処理装置１００は、ヘッドフォン１０単体であってもよい。この場合、スマートフォン２０の機能がヘッドフォン１０に組み込まれればよい。逆に、情報処理装置１００は、スマートフォン２０単体であってもよい。

また、情報処理装置１００は、据え置き型のスピーカ、デスクトップＰＣ（Personal computer）等の据え置き型の装置であってもよいし、タブレットＰＣ、ラップトップＰＣ、携帯音楽プレイヤー、携帯ゲーム機、携帯電話機（スマートフォン２０を除く）等の持ち運び可能な装置であってもよい。また、情報処理装置１００は、例えば、ヘッドマウントディスプレイや、メガネ型のスマートグラス等のウェアラブル装置であってもよい。

また、情報処理装置１００は、空間的に分布して配置された複数の据え置き型のスピーカ（例えば、立体音響により、ユーザに項目を提示する）と、ユーザのジェスチャを検出するための据え置き型のカメラとを含んでいてもよい。

本技術は、以下の構成をとることもできる。
（１）各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、前記第１の方向へのユーザのジェスチャに応じて、前記第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する制御部
を具備する情報処理装置。
（２）上記（１）に記載の情報処理装置であって、
前記制御部は、ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定する
情報処理装置。
（３）上記（２）に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間として、前記第１の方向から出力された音声に対する項目を選択するための第１のジェスチャ受付期間と、前記第２の方向から出力された音声に対する項目を選択するための第２のジェスチャ受付期間とを設定する
情報処理装置。
（４）上記（３）に記載の情報処理装置であって、
前記第１のジェスチャ受付期間は、前記第１の方向において前記音声の出力が開始されてから、前記第１の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
（５）上記（４）に記載の情報処理装置であって、
前記第２のジェスチャ受付期間は、前記第２の方向において前記音声の出力が開始されてから、前記第２の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
（６）上記（２）～（５）のうちいずれか１つに記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間を含む
情報処理装置。
（７）上記（６）に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間の長さが、前記音声に対応する項目毎に一定となるように、前記音声出力期間の長さを調整する
情報処理装置。
（８）上記（７）に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、所定の範囲内に収まるように、前記音声出力期間の長さを調整する
情報処理装置。
（９）上記（８）に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声の元となるテキストデータを変化させる
情報処理装置。
（１０）上記（８）又は（９）に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声における再生速度を変化させる
情報処理装置。
（１１）上記（２）～（１０）のうちいずれか１つに記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
（１２）上記（１１）に記載の情報処理装置であって、
前記制御部は、ユーザの動きに応じて、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
（１３）上記（１１）又は（１２）に記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間と、音声出力期間の後に追加される延長期間とを含み、
前記制御部は、前記延長期間の長さを可変に制御することで、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
（１４）上記（１）～（１３）のうちいずれか１つに記載の情報処理装置であって、
前記制御部は、前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
（１５）上記（１４）に記載の情報処理装置であって、
前記制御部は、ユーザの向きに応じて、前記前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
（１６）上記（１４）又は（１５）に記載の情報処理装置であって、
前記項目は、メニューにおける項目であり、
前記メニューは、階層が異なる複数のメニューを含み、
前記制御部は、前記メニューにおける階層に応じて、前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
（１７）上記（１）～（１６）のうちいずれか１つに記載の情報処理装置であって、
前記情報処理装置は、ユーザの耳に装着される装置を含む
情報処理装置。
（１８）上記（１７）に記載の情報処理装置であって、
前記第１の方向は、右方向であり、
前記第２の方向は、左方向であり、
前記第１の方向へのユーザのジェスチャは、ユーザが前記右方向を向くジェスチャであり、
前記第２の方向へのユーザのジェスチャは、ユーザが前記左方向を向くジェスチャである
情報処理装置。
（１９）各項目にそれぞれ対応する音声が、第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する
情報処理方法。
（２０）各項目にそれぞれ対応する音声が、第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行する
制御部としてコンピュータを機能させるプログラム。

１ａ…第１のヘッドフォンユニット
１ｂ…第２のヘッドフォンユニット
４ａ…第１のヘッドフォンユニットの制御部
４ｂ…第２のヘッドフォンユニットの制御部
１０…ヘッドフォン
１２…スマートフォンの制御部
２０…スマートフォン
１００…情報処理装置

Claims

各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、前記第１の方向へのユーザのジェスチャに応じて、前記第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行し、ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定し、前記ジェスチャ受付期間の長さを可変に制御する制御部
を具備する情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間として、前記第１の方向から出力された音声に対する項目を選択するための第１のジェスチャ受付期間と、前記第２の方向から出力された音声に対する項目を選択するための第２のジェスチャ受付期間とを設定する
情報処理装置。
請求項２に記載の情報処理装置であって、
前記第１のジェスチャ受付期間は、前記第１の方向において前記音声の出力が開始されてから、前記第１の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
請求項３に記載の情報処理装置であって、
前記第２のジェスチャ受付期間は、前記第２の方向において前記音声の出力が開始されてから、前記第２の方向において次の音声の出力が開始されるまでの期間である
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間を含む
情報処理装置。
請求項５に記載の情報処理装置であって、
前記制御部は、前記ジェスチャ受付期間の長さが、前記音声に対応する項目毎に一定となるように、前記音声出力期間の長さを調整する
情報処理装置。
請求項６に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、所定の範囲内に収まるように、前記音声出力期間の長さを調整する
情報処理装置。
請求項７に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声の元となるテキストデータを変化させる
情報処理装置。
請求項７に記載の情報処理装置であって、
前記制御部は、前記音声出力期間の長さが、前記所定の範囲内に収まっていない場合、前記音声における再生速度を変化させる
情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、ユーザの動きに応じて、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記ジェスチャ受付期間は、少なくとも、前記音声の出力が開始されてから出力が停止されるまでの期間である音声出力期間と、音声出力期間の後に追加される延長期間とを含み、
前記制御部は、前記延長期間の長さを可変に制御することで、前記ジェスチャ受付期間の長さを可変に制御する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記制御部は、前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
請求項１２に記載の情報処理装置であって、
前記制御部は、ユーザの向きに応じて、前記前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
請求項１２に記載の情報処理装置であって、
前記項目は、メニューにおける項目であり、
前記メニューは、前記階層が異なる複数のメニューを含み、
前記制御部は、前記メニューにおける階層に応じて、前記第１の方向及び前記第２の方向を可変に制御する
情報処理装置。
請求項１に記載の情報処理装置であって、
前記情報処理装置は、ユーザの耳に装着される装置を含む
情報処理装置。
請求項１５に記載の情報処理装置であって、
前記第１の方向は、右方向であり、
前記第２の方向は、左方向であり、
前記第１の方向へのユーザのジェスチャは、ユーザが前記右方向を向くジェスチャであり、
前記第２の方向へのユーザのジェスチャは、ユーザが前記左方向を向くジェスチャである
情報処理装置。
各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行し、
ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定し、
前記ジェスチャ受付期間の長さを可変に制御する
情報処理方法。
各項目にそれぞれ対応する音声が、ユーザに対して第１の方向及び第２の方向から項目毎に交互に出力されるように、前記音声の出力を制御し、
前記第１の方向へのユーザのジェスチャに応じて、第１の方向から出力された音声に対応する項目の選択に関する処理を実行し、
前記第２の方向へのユーザのジェスチャに応じて、前記第２の方向から出力された音声に対応する項目の選択に関する処理を実行し、
ユーザのジェスチャを受け付けるジェスチャ受付期間を、前記音声に対応する項目毎に設定し、
前記ジェスチャ受付期間の長さを可変に制御する
制御部としてコンピュータを機能させるプログラム。