JP2021131423A

JP2021131423A - 音声再生装置、音声再生方法および音声再生プログラム

Info

Publication number: JP2021131423A
Application number: JP2020025529A
Authority: JP
Inventors: 光希有田; Mitsuki Arita; 幸生多田; Yukio Tada; 和也粂原; Kazuya Kumehara
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-09-09
Also published as: US20210256951A1; US11322129B2

Abstract

【課題】ユーザに対する外部音の出力をオン／オフすることができる音響デバイスを用い、外部音を適宜ユーザに対して出力することにより、環境音をユーザに体験させる。【解決手段】ユーザに到来する外部音を収音するマイクを備える。外部音をスピーカに供給するヒアスルー処理、および、外部音をキャンセルするキャンセル音を生成してスピーカに供給するノイズキャンセル処理を実行する信号処理部を備える。記憶部は、ヒアスルー処理およびノイズキャンセル処理の機能レベルを指定する制御情報、および、トリガ情報を含むイベント情報を記憶する。制御部は、トリガの発生を検出したとき、このトリガで実行を指示されたイベント情報の制御情報を読み出して信号処理部に出力する。【選択図】図５

Description

この発明の一実施形態は、ユーザに対する外部音の出力をオン／オフすることができる音響デバイスを用いた音声再生装置に関する。

ユーザに、音響による拡張現実（ＡＲ：Augmented Reality）を体験させるＡＲシステムが提案されている（たとえば特許文献１）。音響によるＡＲシステムは、ユーザにヘッドホン、またはイヤホンなどの音響デバイスを装用させ、ユーザが滞在している場所に応じた音声を音響デバイスから放音する。特許文献１に記載の情報処理装置は、たとえばコンテンツツーリズムに適用される。特許文献１に記載の情報処理装置は、アニメーションなどのコンテンツに関係する場所で、ユーザの位置に応じて所定のポイントへユーザを誘導する音声をキャラクタの声で出力する。

特開２０１７−１０３５９８号公報

コンテンツツーリズムの場合、ＡＲシステムは、コンテンツに関係する場所で、アニメーション、映画またはドラマなどのコンテンツを再現する。一方、ＡＲシステムは、コンテンツを再現することだけでなく、ユーザに、コンテンツに関係する場所の環境音を体験させることも重要である。しかし、上記従来のＡＲシステムでは、ユーザに対して再生する音声は、キャラクタの声などコンテンツに関する音声のみである。このため、上記従来のＡＲシステムではコンテンツの再現は可能であっても、ＡＲシステムを通じてコンテンツに関係する場所の環境音を体験させることができなかった。

この発明の一実施形態に係る目的の一つは、外部音を適宜ユーザに対して出力することにより、環境音をユーザに体験させることのできる音声再生装置を提供することにある。

本発明の一実施形態に係る音声再生装置は、スピーカ、マイク、信号処理部、記憶部および制御部を備える。スピーカは、ユーザに装用され、ユーザの耳に向けて音声を放音する。マイクは、ユーザに到来する外部音を収音する。信号処理部は、外部音をスピーカに供給するヒアスルー処理、および、外部音をキャンセルするキャンセル音を生成してスピーカに供給するノイズキャンセル処理を実行する。記憶部は、ヒアスルー処理およびノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、イベント実行を指示する事象であるトリガの情報を含むイベント情報を記憶する。制御部は、トリガの発生を検出したとき、このトリガで実行を指示されたイベント情報の制御情報を読み出して信号処理部に出力する。

実施形態に係る音声再生方法は、ユーザに装用されるスピーカで、ユーザの耳に向けて音声を放音することと、ユーザに到来する外部音をマイクで収音することと、外部音をスピーカに供給するヒアスルー処理、および、外部音をキャンセルするキャンセル音を生成してスピーカに供給するノイズキャンセル処理を信号処理部で実行することと、ヒアスルー処理およびノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、イベント実行を指示する事象であるトリガの情報を含むイベント情報を記憶部に記憶することと、トリガ情報に対応するトリガの発生を検出したとき、このトリガに対応するトリガ情報で実行を指示されたイベント情報の制御情報を読み出して信号処理部に出力することと、を備えたことを特徴とする。

実施形態に係る音声再生プログラムは、ユーザに装用され、前記ユーザの耳に向けて音声を放音するスピーカと、前記ユーザに到来する外部音を収音するマイクと、を備え、前記外部音を前記スピーカに供給するヒアスルー処理、および、前記外部音をキャンセルするキャンセル音を生成して前記スピーカに供給するノイズキャンセル処理を実行する音響デバイスが接続される携帯端末装置の制御部を、前記ヒアスルー処理および前記ノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、前記制御情報に基づく制御の実行を指示する事象であるトリガの情報を含むイベント情報を記憶する第１手段、および、前記トリガの発生を検出したとき、該トリガで実行を指示された制御情報を読み出して前記音響デバイスに出力する第２手段、として機能させることを特徴とする。

この発明の一実施形態によれば、外部音を適宜ユーザに対して出力することができるため、ユーザがいる場所の環境音をユーザに体験させることができる。

図１は、この発明の実施形態である音声再生システムの構成を示す図である。図２は、音声再生システムの携帯端末装置のブロック図である。図３は、音声再生システムのヘッドホンのブロック図である。図４は、音声再生システムがユーザを案内する公園の地図を示す図である。図５は、音声再生システムが公園を案内する場合のシナリオの例を示す図である。図６は、音声再生システムのシナリオ進行処理を示すフローチャートである。

本発明の一実施形態に係る音声再生装置は、スピーカ、マイク、信号処理部、記憶部および制御部を備える。スピーカは、ユーザに装用され、ユーザの耳に向けて音声を放音する。マイクは、ユーザに到来する外部音を収音する。信号処理部は、外部音をスピーカに供給するヒアスルー処理、および、外部音をキャンセルするキャンセル音を生成してスピーカに供給するノイズキャンセル処理を実行する。記憶部は、ヒアスルー処理およびノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、イベント実行を指示する事象であるトリガ情報を含むイベント情報を記憶する。制御部は、トリガの発生を検出したとき、このトリガで実行を指示されたイベント情報の制御情報を読み出して信号処理部に出力する。

制御情報は、信号処理部を、ノイズキャンセルモード、ヒアスルーモード、および、中間モードのいずれかに制御する情報を含んでいてもよい。ノイズキャンセルモードは、ノイズキャンセル処理を１００パーセントで機能させ、かつ、ヒアスルー処理を機能させないモードである。ヒアスルーモードは、ノイズキャンセル処理を機能させず、かつ、ヒアスルー処理を１００パーセントで機能させるモードである。中間モードは、ノイズキャンセル処理を１００パーセント未満で機能させ、かつ、ヒアスルー処理を１００パーセント未満で機能させるモードである。

信号処理部は、ノイズキャンセル処理またはヒアスルー処理の機能レベルを切り換えるとき、その機能レベルを徐々に変化させるフェード処理で切り換えてもよい。

制御情報は、ヒアスルー処理によりスピーカに供給される外部音に対して、音質の調整を指示する情報を含んでいてもよい。この場合、信号処理部は、外部音に対する音質の調整を指示する制御情報を受信したとき、外部音に対して音質を調整する処理を行う。

上記音声再生装置が、音声データを再生し、この音声を内部音声として信号処理部に出力する音声生成部をさらに備えてもよい。この場合、記憶部は、音声データを含むイベント情報を記憶している。制御部は、トリガの発生を検出したとき、このトリガで実行を指示されたイベント情報の制御情報を読み出して信号処理部に出力するとともに、このイベント情報の音声データを音声生成部に出力して再生させる。信号処理部は、入力された内部音声を、外部音および／またはキャンセル音とミキシングしてスピーカに供給する。内部音声にミキシングされる音声は、ノイズキャンセルモード時はキャンセル音のみ、ヒアスルーモード時は外部音のみ、中間モード時は外部音およびキャンセル音の両方である。

記憶部は、アニメーション、映画またはドラマにゆかりの場所を案内するためのシナリオとして編集された複数のイベント情報を記憶していてもよい。

図１は、本発明が適用される音声再生システム１の構成を示す図である。音声再生システム１は、携帯端末装置１０、および、音響デバイスであるヘッドホン２０を含む。図２は、音声再生システム１の携帯端末装置１０のブロック図である。図３は、音声再生システム１のヘッドホン２０のブロック図である。

図１は、ユーザＬが、携帯端末装置１０を手に持ち、ヘッドホン２０を装用した例を示している。携帯端末装置１０は、例えば、スマートホン（多機能携帯電話）が用いられる。携帯端末装置１０とヘッドホン２０とは、Ｂｌｕｅｔｏｏｔｈ（登録商標）で接続されており、相互に通信可能である。携帯端末装置１０とヘッドホン２０との接続は、Ｂｌｕｅｔｏｏｔｈに限定されず、他の無線通信規格または有線でもよい。携帯端末装置１０は、携帯電話通信網またはＷｉ−Ｆｉ（登録商標）を介してサーバ２と通信する。

ヘッドホン２０は、ハウジング２１Ｌ、ハウジング２１Ｒ、およびヘッドバンド２２を備える。左右のハウジング２１Ｌ、２１Ｒは、ヘッドバンド２２でつながれた形状をしている。ヘッドホン２０は、いわゆる耳掛け型である。左右のハウジング２１Ｒ，２１Ｌには、それぞれ左右のスピーカ２３Ｌ、２３Ｒが設けられている。ヘッドホン２０は、ヘッドバンド２２に３軸のジャイロセンサ２５を有する。ジャイロセンサ２５は、コリオリ力により、ユーザＬの頭部の前後の傾き、左右の傾き、および、水平回転の角度を検出する。ヘッドホン２０は、ジャイロセンサ２５により、ユーザＬの頭部の向きをトラッキングする。なお、音響デバイスとして、左右のスピーカ２３Ｌ、２３Ｒがヘッドバンド２２でつながれていないイヤホンが用いられてもよい。この場合、ジャイロセンサ２５は、左右のスピーカ２３Ｌ、２３Ｒ付近または別の場所に設けられればよい。

ヘッドホン２０は、アクティブノイズキャンセル（ＡＮＣ）処理、および、ヒアスルー（ＨＴ）処理を実行する機能を備えている。アクティブノイズキャンセルとは、外部音（環境音）がハウジング２１Ｌ、２１Ｒを透過してユーザＬの耳に到達する音であるリーク音をキャンセルしてユーザＬに静かな音響環境を提供する処理である。具体的には、ヘッドホン２０は、以下の処理を行う。外部マイク２６Ｌ、２６Ｒが外部音を収音し、収音信号を得る。ヘッドホン信号処理部２４が、ハウジング２１Ｌ、２１Ｒのリーク特性を表す伝達関数で収音信号をフィルタリングしてリーク音の波形を得る。ヘッドホン信号処理部２４が、このリーク音の逆相信号であるキャンセル音を生成して、左右のスピーカ２３Ｌ、２３Ｒから放音する。これにより、リーク音がキャンセルされる。

ヒアスルーとは、ユーザＬに対して、ヘッドホン２０をしていないような音響環境を提供する処理である。具体的には、ヘッドホン２０は、以下のような処理を行う。外部マイク２６Ｌ、２６Ｒが外部音を収音して収音信号を得る。ヘッドホン信号処理部２４が、収音信号をフィルタリングしてユーザＬが外部音を直接聴いた場合と同じような音質になるように調整する。ヘッドホン信号処理部２４は、この調整された収音信号を左右のスピーカ２３Ｌ、２３Ｒから放音する。空気振動として直接聴こえてくる外部音と、外部音と同じ波形の信号がスピーカ２３Ｌ、２３Ｒから放音された音声とは、ユーザＬにとって異なる音質の音である。ヘッドホン信号処理部２４は、収音信号をそのままスピーカ２３Ｌ、２３Ｒから放音せず、収音信号と実際の外部音との音質の違いを補正するフィルタ係数でフィルタリングを行う。これにより、ユーザＬは、外部音を、ヘッドホン２０を介さずに直接聞いているような感覚になる。

ヘッドホン２０は、携帯端末装置１０から送られてくる外部音制御コマンドにしたがってアクティブノイズキャンセルおよびヒアスルーの機能レベルを調整する。

携帯端末装置１０は、記憶部１０１に記憶されている音声データを再生する。携帯端末装置１０は、再生した音声が所定の位置から聴こえてくるように定位制御する。この定位制御は、頭部伝達関数を用いて行われる。頭部伝達関数とは、以下のような関数である。音源位置からユーザの両耳に到来する音声は、ユーザＬの頭部形状や耳介形状などの影響を受けて、到来方向に応じた特有の周波数特性となる。ユーザＬは、この特有の周波数特性を聴き分けて、音声の到来方向を判断している。頭部伝達関数とは、音源位置からユーザＬの両耳の外耳道までの音声の伝達関数である。携帯端末装置１０が、頭部伝達関数（頭部インパルス応答）を用いて音声をフィルタリングする。これにより、ユーザＬは、ヘッドホン２０で音声を聴いた場合に、該音声が所定の方向から聞こえてきたかのような感覚を持つことができる。

音声再生システム１は、例えば、コンテンツツーリズムに用いられる。コンテンツツーリズムとは、アニメーション、映画またはドラマなど（以下、アニメーション等）の舞台となった場所など、アニメーション等に関係する場所をめぐる小旅行である。音声再生システム１は、コンテンツツーリズムにおいて、舞台となった場所を案内する音声、および、アニメーション等の一場面の音声などを再生する。コンテンツツーリズムに使用されるデータであるコンテンツデータ７２は、携帯端末装置１０の記憶部１０１に記憶されている。音声再生システム１は、コンテンツデータ７２に基づいて、場所やタイミングに合わせた音声の再生、音像定位の制御、および、外部音制御（アクティブノイズキャンセルおよびヒアスルー）の切り換えを行う。

図２は、携帯端末装置１０のブロック図である。携帯端末装置１０は、ハードウェア的には、制御部１００、記憶部１０１、信号処理部１０２、広域通信部１０３、デバイス通信部１０４、および、測位部１０５などを備えたスマートホンである。制御部１００は、ＣＰＵ，ＲＯＭおよびＲＡＭを内蔵したマイクロコンピュータを含んでいる。記憶部１０１は、不揮発メモリであるフラッシュメモリを備えている。

記憶部１０１には、プログラム７０、フィルタ係数７１、およびコンテンツデータ７２が記憶されている。プログラム７０は、携帯端末装置１０およびヘッドホン２０を音声再生システム１として機能させるアプリケーションプログラムである。フィルタ係数７１は、音声をユーザＬに対して所定の方向に定位させるための頭部伝達関数を時間軸に展開した頭部インパルス応答であり、ＦＩＲフィルタの係数として用いられる。コンテンツデータ７２は、音声再生システム１を上述のコンテンツツーリズムで使用する場合に必要なデータセットである。

コンテンツデータ７２は、シナリオファイル７２１、地図データ７２２および音声データセット７２３を含んでいる。地図データ７２２は、例えば図４に示すようなアニメーション等の舞台となった場所の通路やオブジェクトを座標値で記憶したデータである。シナリオファイル７２１は、ユーザＬが地図データ７２２の場所を訪れたとき、どの場所でまたはどのタイミングに、どの音声データを再生するか、および、どのような外部音制御を行うかなどを記憶したファイルである。シナリオファイル７２１は、たとえば図５に示すような構成である。音声データセット７２３は、コンテンツツーリズムにおいて、再生される複数の音声データを含んでいる。音声データセット７２３には、コンテンツツーリズムの場所を解説する音声、および、この場所を舞台としたアニメーション等で出演者（キャラクタ）が喋ったセリフなどの音声が含まれる。

制御部１００は、プログラム７０との協働により、頭部方向決定部１１１、位置決定部１１２、および、音声生成部１１３として機能する。

頭部方向決定部１１１は、ユーザＬの頭部の方向を決定する。ユーザＬの頭部の方向とは、たとえば図４に示す地図上でユーザがどの方向を向いているかを示す情報である。頭部方向決定部１１１は、ヘッドホン２０のジャイロセンサ２５からユーザＬの頭部の角速度情報を取得する。頭部方向決定部１１１は、取得した角速度情報を積算してユーザＬの頭部の回転角を算出し、この回転角を初期頭部方向に加算して現在の頭部方向を決定する。ユーザＬの初期頭部方向を予め測定する処理は、キャリブレーションと呼ばれる。頭部方向決定部１１１は、ユーザＬが公園５００の入口である地点Ｐ１に立ったとき、ユーザＬは経路Ｒ１方向を向いているとして、経路Ｒ１方向を初期頭部方向とする。制御部１００は、決定された現在の頭部方向に基づき、再生された音声をどの方向に定位させるかを決定する。

位置決定部１１２は、測位部１０５から測位情報を取得する。位置決定部１１２は、この測位情報に基づき、たとえば図４に示す地図上でユーザＬがどこにいるかを決定する。

音声生成部１１３は、音声データセット７２３の音声データに基づき音声を生成する。音声生成部１１３は、音声データがＰＣＭなどの波形データの場合、この波形データを再生する。音声生成部１１３は、音声データがＭＩＤＩなどの音声合成情報の場合は、ソフトシンセサイザを構成して音声を合成する。音声生成部１１３で生成され、ヘッドホン２０に送信される音声は内部音声と呼ばれる。音声生成部１１３は、制御部１００とは別のたとえばＤＳＰなどのハードウェアで構成されてもよい。この場合、音声生成部１１３と後述の信号処理部１０２とが、ハードウェアを共有してもよい。

信号処理部１０２は、ＤＳＰで構成される。信号処理部１０２は、位置決定部１１２が決定したユーザＬの位置、および頭部方向決定部１１１が決定したユーザＬの頭部の方向に基づき、再生された音声が目的の位置に定位されるようフィルタリングを行う。フィルタリングに用いられるフィルタは、頭部インパルス応答をフィルタ係数とするＦＩＲフィルタである。また、信号処理部１０２は、再生された音声の音質を調整するフィルタリングを行ってもよい。

広域通信部１０３は、ＬＴＥ、５Ｇなどの携帯電話通信網を介して遠隔の機器と通信する。具体的には、広域通信部１０３は、サーバ２と通信する。サーバ２は、複数のコンテンツデータ７２を記憶している。携帯端末装置１０は、サーバ２にアクセスして、コンテンツツーリズムで使用するコンテンツデータ７２をダウンロードする。また、グループ（複数のユーザＬ）が、同じ場所を巡る場合、各ユーザＬの携帯端末装置１０が、サーバ２を介して相互に位置を確認してもよい。なお、携帯端末装置１０が、Ｗｉ−Ｆｉを使用可能なエリアで使用される場合、サーバ２との通信はＷｉ−Ｆｉ経由であってもよい。

デバイス通信部１０４は、ヘッドホン２０と通信する通信回路である。ヘッドホン２０（ヘッドホン通信部２７）は、Ｂｌｕｅｔｏｏｔｈ、またはＷｉ−Ｆｉダイレクトなどの通信機能を備えている。デバイス通信部１０４は、ヘッドホン２０と同じ通信機能を備えていればよい。

測位部１０５は、ＧＰＳ（グローバル・ポジショニング・システム）のＧＰＳ信号（ＰＮコード）を受信して自身の位置を測定する。測位部１０５は、測定した位置データを、位置決定部１１２に供給する。測位部１０５は、ＧＰＳ以外の他のシステムを用いて、または、ＧＰＳおよび他のシステムを用いて、位置を測定してもよい。他のシステムとは、たとえば、準天頂衛星みちびき、または、北斗衛星測位システムＢｅｉＤｏｕなどである。

図３のブロック図を参照して、ヘッドホン２０の構成を説明する。ヘッドホン２０は、図１に示したように、左右のハウジング２１Ｌ、２１Ｒをアーチ型のヘッドバンド２２で接続したものである。左ハウジング２１Ｌには、スピーカ２３Ｌ、外部マイク２６Ｌ、ヘッドホン信号処理部２４およびヘッドホン通信部２７が設けられている。右ハウジング２１Ｒには、スピーカ２３Ｒ、および外部マイク２６Ｒが設けられている。ヘッドバンド２２には、ジャイロセンサ２５が設けられている。

外部マイク２６Ｌ、２６Ｒは、それぞれ左右のハウジング２１Ｌ、２１Ｒの外側に設けられている。外部マイク２６Ｌ、２６Ｒは、ユーザＬがヘッドホン２０を装用していなかったならば、ユーザＬの左右の耳に到達したであろう環境音（外部音）を収音する。スピーカ２３Ｌ、２３Ｒは、それぞれ左右のハウジング２１Ｌ、２１Ｒの内側にユーザＬの外耳道に対向するように設けられている。

ヘッドホン通信部２７は、上述のＢｌｕｅｔｏｏｔｈ、Ｗｉ−Ｆｉダイレクトなどの通信方式で携帯端末装置１０（デバイス通信部１０４）と通信する。ヘッドホン通信部２７は、携帯端末装置１０から、再生された音声信号、または外部音制御コマンドなどを受信する。また、ヘッドホン通信部２７は、携帯端末装置１０に対して、ジャイロセンサ２５の検出値などを送信する。

ヘッドホン信号処理部２４は、ＤＳＰなどのデジタル処理回路を含み、スピーカ２３Ｌ、２３Ｒに供給する音声信号に対して、上述したような信号処理を施す。信号処理は、アクティブノイズキャンセル処理、ヒアスルー処理、およびヒアスルー音の加工（詳細後述）を含む。信号処理は、ヒアスルー音またはキャンセル音と携帯端末装置１０から受信した音声信号とのミキシングも含む。本発明の信号処理部は、携帯端末装置１０の信号処理部１０２、および、ヘッドホン信号処理部２４の両方に対応している。

図４は、地図データ７２２に基づいて描かれた地図の例を示す図である。この地図は、アニメーション等の舞台となった場所である公園５００を示す地図である。この公園５００が、コンテンツツーリズムの目的地である。この地図において、図に示したＹ方向が北であり、Ｘ方向が東である。

図５は、シナリオファイル７２１の例を示す図である。シナリオファイル７２１は、複数のイベント情報を含む。各イベント情報は、トリガ情報、および、このイベントで実行される処理情報を含む。処理情報は、外部音制御の態様、再生すべき音声データ、および、定位位置の全部または一部である。トリガ情報は、イベント情報の処理（イベント）をいつ実行するかのタイミング（トリガ）を示す情報である。トリガは、たとえば、所定の地点にユーザが到達したこと、所定の経路をユーザが移動していること、所定の時間ある場所に滞在したことなどである。制御部１００は、トリガを検出すると、そのトリガに対応するイベント情報に基づいて、イベントを実行する。ユーザＬが、公園５００を訪れて公園５００内を移動した場合、音声再生システム１は、ユーザＬの移動場所などに合わせて、イベントを実行する。音声再生システム１は、音声データを再生し、かつ、外部音制御を行う。以下の説明では、シナリオファイル７２１をシナリオ７２１と呼ぶ場合がある。

図４の地図は、公園５００の一部を示している。この公園５００は、アニメーションの舞台となった場所である。公園５００には、野外ステージ５０２および池５０４が設けられている。アニメーションには、複数のキャラクタ（アニメーションの登場人物）が、野外ステージ５０２、および、池５０４のそれぞれで映画を撮影する場面がある。ユーザＬは、音声によるルート案内にしたがって公園５００を巡る。

ユーザＬは、地点Ｐ１から公園５００に入り、経路Ｒ１−Ｒ４を経て公園５００を出る。経路Ｒ１−Ｒ４は、それぞれ、地点Ｐ１−Ｐ４で接続されている。地点Ｐ４で、経路が分岐している。地点Ｐ４で出題されるクイズにユーザＬが正解すると、経路Ｒ４が案内され、ユーザがクイズに誤答すると、経路Ｒ５が案内される。ユーザＬが、地点Ｐ１−Ｐ４に到達するごとに、および、経路Ｒ１−Ｒ５を通過するごとに、音声再生システム１は、シナリオ７２１に基づき、それぞれの地点および経路に合わせた音声を再生し、外部音制御を切り換える。

ユーザＬが、公園５００の南西角の入口である地点Ｐ１に到達すると、音声再生システム１が、経路Ｒ１をＰ２方向へ進むようにルート案内の音声を再生する。頭部方向決定部１１１は、経路Ｒ１の方向を初期頭部方向として記憶する。このとき、音声再生システム１は、アクティブノイズキャンセル処理およびヒアスルー処理を、それぞれ５０％の機能レベルで機能させる。５０％のアクティブノイズキャンセル処理とは、たとえばハウジング２１Ｌ、２１Ｒを透過してくるリーク音を１／２のレベルまで低下させる処理である。具体的には、５０％のアクティブノイズキャンセル処理とは、キャンセル信号をリーク音の１／２のレベルで出力して、リーク音を１／２だけキャンセルする処理である。５０％のヒアスルー処理とは、外部マイク２６Ｌ、２６Ｒで収音した外部音を、ユーザが（ヘッドホン２０無しで）直接聴取した場合の１／２のレベルでスピーカ２３Ｌ、２３Ｒから放音する機能である。音声再生システム１は、ルート案内の再生時、アクティブノイズキャンセルおよびヒアスルーを併用することで、ユーザＬにその場所の外部音を聴かせて臨場感を与えつつ、案内音声を聴き取りやすくする。なお、アクティブノイズキャンセルおよびヒアスルーの併用の割合は、５０％と５０％に限定されない。また、両者の割合の合計が１００％にならなくても良い。たとえば、アクティブノイズキャンセルを全く機能させないで（０％）、ヒアスルーを５０％だけ機能させることも可能である。アクティブノイズキャンセルおよびヒアスルーをそれぞれ１００％未満の機能レベルで機能させる外部音制御モードは、中間モードと呼ばれる。

信号処理部１０２は、ルート案内の音声を、ユーザＬの側方（たとえば、頭部方向に対して左９０度に１メートル離れた位置）に定位するよう定位制御する。このように、信号処理部１０２は、ルート案内を、公園５００内の固定された場所ではなく、ユーザＬに対する相対的な位置に定位するよう制御する。これにより、ユーザＬは、ユーザＬに付き添っているガイドが話しているような聴感でルート案内を聞くことができる。

ユーザＬは、ルート案内に従い、経路Ｒ１に沿って公園５００に入る。経路Ｒ１では、音声再生システム１は、この公園５００の解説音声とこの公園５００を舞台にしたアニメーションの解説音声を再生する。これらの解説音声の再生時、音声再生システム１は、アクティブノイズキャンセル０％、ヒアスルー７０％の機能レベルで機能させ、公園５００にいるという臨場感をルート案内時よりも高くする。解説音声の定位位置は、ルート案内時と同様にユーザＬの左横１メートルである。

経路Ｒ１は、公園５００の入口の地点Ｐ１から、公園５００内の野外ステージ５０２の客席後方に位置する地点Ｐ２までの経路である。ユーザＬが経路Ｒ１を歩いて地点Ｐ２に到着すると、音声再生システム１が、経路Ｒ２を地点Ｐ３（野外ステージ５０２）方向へ進むようにルート案内の音声を再生する。このルート案内の再生時、音声再生システム１は、アクティブノイズキャンセルおよびヒアスルーを、それぞれ５０％の機能レベルで機能させる。ルート案内の定位位置は、たとえばユーザＬの左横１メートルである。

経路Ｒ２は、野外ステージ５０２の客席の後方から野外ステージ５０２方向に移動する経路である。ユーザＬが、経路Ｒ２を歩き始めると、音声再生システム１が、アニメーションの音声を、野外ステージ５０２方向に定位するように再生する。アニメーションの音声とは、たとえばアニメーションの場面を音声で再現したものであり、キャラクタのセリフやＢＧＭ（バックグラウンドミュージック）などからなる。アニメーションの音声の再生時、音声再生システム１は、ヒアスルーを１００％の機能レベルで機能させ、アクティブノイズキャンセルを機能させない。すなわち、音声再生システム１は、ユーザＬに対して、アニメーションの音声を公園５００の外部音（環境音）の中で聴かせる。音声再生システム１は、アニメーションの音声を、野外ステージ５０２上でのキャラクタの配置に合わせて定位制御する。これにより、ユーザＬは、目の前の野外ステージ５０２でアニメーションの場面が演じられているのを鑑賞しているような没入感を得ることができる。ヒアスルーを１００％の機能レベルで機能させ、アクティブノイズキャンセルを機能させない外部音制御モードは、ヒアスルーモードと呼ばれる。

ユーザＬは、このアニメーションの音声を聴ききながら経路Ｒ２を地点Ｐ３まで歩く。地点Ｐ３は、野外ステージ５０２の上であり、再生中のアニメーションが演じられている場所である。ユーザＬが、地点Ｐ３に到着したのち、所定時間（例えば１分）この地点Ｐ３に滞在すると、音声再生システム１は、再生中のアニメーションの音声の定位制御および外部音制御を変更する。アニメーションの音声には複数のキャラクタのセリフが含まれている。音声再生システム１は、そのうちの１つのキャラクタ（以下、キャラクタＡと呼ぶ）のセリフをユーザＬの頭部に定位させる。ユーザＬは、自分の頭部でキャラクタＡのセリフが再生されるため、自分自身がキャラクタＡになったような没入感が得られる。音声再生システム１は、他のキャラクタ（キャラクタＢ，Ｃと呼ぶ）のセリフを、野外ステージ５０２上の所定の位置に定位する。所定の位置とは、たとえば、アニメーションの場面でキャラクタＢ，Ｃが演じていた場所である。地点Ｐ３におけるアニメーションの音声の再生時、音声再生システム１は、アクティブノイズキャンセルを１００％の機能レベルで機能させ、ヒアスルーを機能させない。すなわち、音声再生システム１は、ユーザＬに対して、アニメーションの音声のみを聴かせる。これにより、ユーザＬは、自分自身がキャラクタＡで、他のキャラクタＢ，Ｃとともにアニメーションの一場面を演じているような没入感を得ることができる。アクティブノイズキャンセルを１００％の機能レベルで機能させ、ヒアスルーを機能させない外部音制御モードは、ノイズキャンセルモードと呼ばれる。

なお、複数のユーザからなるグループが、野外ステージ５０２を訪れた場合、音声再生システム１は、各ユーザにキャラクタＡ、Ｂ、Ｃをそれぞれ割り当て、グループでアニメーションの一場面を演じているような演出をすることも可能である。複数のユーザが公園５００を訪れた場合の音声再生システム１およびサーバ２の処理動作については後述する。

アニメーションの音声の再生が終了したのち、音声再生システム１は、経路Ｒ３を地点Ｐ４方向へ進むようにルート案内の音声を再生する。このルート案内の再生時、音声再生システム１は、アクティブノイズキャンセルおよびヒアスルーを、それぞれ５０％の機能レベルで機能させる。ルート案内の定位位置は、たとえばユーザＬの左横１メートルである。

経路Ｒ３は、野外ステージ５０２上の地点Ｐ３から客席の横を通って地点Ｐ４に至る経路である。地点Ｐ４は、野外ステージ５０２があるエリアと池５０４があるエリアとの境界の地点である。音声再生システム１は、経路Ｒ３では、ヘッドホン２０をヒアスルー１００％、アクティブノイズキャンセル０％に設定する。これにより、ユーザＬは、公園５００の環境音である鳥の声や木の葉のざわめきなどをゆっくり聴くことができる。このとき、音声再生システム１は、季節や時間帯に合わせたＢＧＭを小さい音量で再生してもよい。

ユーザＬが、地点Ｐ４に到達すると、音声再生システム１は、ユーザＬに対してクイズを出題する。クイズは音声データとして音声データセット７２３に含まれている。音声生成部１１３は、音声データセット７２３を再生することによってユーザＬにクイズを出題する。クイズの出題時、音声再生システム１は、アクティブノイズキャンセル１００％、ヒアスルー０％の機能レベルで機能させる。クイズ音声の定位位置は、ユーザＬの正面１メートルとする。

クイズは、たとえばアニメーションの内容に関する問題などにするのが好適である。ユーザＬは、携帯端末装置１０の画面を操作してこのクイズに回答する。クイズに対する回答の方法は、携帯端末装置１０の画面操作に限定されない。たとえば、ユーザＬが、正解と思う方向に歩きだす、または正解と思う方向に頭部を向けるなどの方法で回答してもよい。

ユーザＬがクイズに正解すると、音声再生システム１は、経路Ｒ４を進むようにルート案内の音声を再生する。一方、ユーザＬがクイズに誤答すると、音声再生システム１は、経路Ｒ５を進むようにルート案内の音声を再生する。このルート案内の再生時、音声再生システム１は、アクティブノイズキャンセルおよびヒアスルーを、それぞれ５０％の機能レベルで機能させる。ルート案内の定位位置は、たとえばユーザＬの左横１メートルである。

経路Ｒ４は、地点Ｐ４から池５０４を一周し、東側の通路を通って公園５００から出る経路である。ユーザＬがクイズに正解して経路Ｒ４を進むと、音声再生システム１は、池５０４の中央にある島５０５に定位するようにアニメーションの音声を再生する。音声再生システム１は、ヒアスルー７０％、アクティブノイズキャンセル１００％の機能レベルで機能させる。さらに、音声再生システム１は、ヒアスルー処理で再生される外部音であるヒアスルー音を信号処理して暖かい音質に加工する。暖かい音質とは、例えば、音のダイナミックレンジを広げ、かつ、なだらかな特性のローパスフィルタで高音域を減衰させた音質である。音声再生システム１は、アニメーションの音声とフィルタリングされた外部音およびキャンセル音をミキシングしてスピーカ２３Ｌ、２３Ｒから放音する。

ユーザＬは、信号処理により、暖かい音質に加工されたアニメーションの音声およびフィルタリングされた外部音を聴きながら池５０４を一周する。池５０４には噴水が設置されているため、ユーザＬは噴水の音を背景にアニメーションの音声を聴くことになる。ユーザＬは、アニメーションの音声を聴きながら、池５０４を巡って公園５００から退場する。

経路Ｒ５は、地点Ｐ４から東側の通路を通って公園５００から出る経路である。ユーザＬがクイズに誤答して経路Ｒ５を進むと、音声再生システム１は、外部音をフィルタリングしたホラーな音を出力する。ユーザＬがクイズに誤答して経路Ｒ５を進むと、音声再生システム１は、アクティブノイズキャンセルを１００％の機能レベルで機能させるとともに、ヒアスルーも１００％の機能レベルで機能させる。さらに、音声再生システム１は、ヒアスルー音を信号処理してホラーな音質に加工する。ホラーな音質とは、例えば、高音を極端にカットして、テープエコーをかけた音質である。テープエコーとは、遅延した１または複数のピークを持つフィルタ処理である。

ユーザＬが、クイズに正解した場合、経路Ｒ４でアニメーションの音声を聴く。しかし、クイズに誤答した場合、ユーザＬは、経路Ｒ５でホラーな外部音のみ聴く。このように、このコンテンツデータ７２（シナリオ７２１）は、クイズに正解した場合と誤答した場合とで、経路を分岐して音声の処理が異なるよう編集されている。

図６は、制御部１００がシナリオ７２１に基づく処理を行う動作を示すフローチャートである。この処理は、一定時間（たとえば１秒）ごとに繰り返し実行される。制御部１００は、シナリオ７２１に記載されたいずれかのイベントのトリガが発生したか否かを判断する（ステップＳ１１、ステップＳｎを以下単にＳｎと言う。）。トリガが発生していなければ（Ｓ１１でＮＯ）、制御部１００は、今回の動作を終了する。トリガが発生していれば（Ｓ１１でＹＥＳ）、制御部１００は、対応するイベントデータの外部音制御情報を読み出して（Ｓ１２）、外部音制御コマンドとしてヘッドホン２０に送信する（Ｓ１３）。外部音制御情報は、アクティブノイズキャンセル、ヒアスルーおよびヒアスルー音の信号処理を含む。制御部１００は、再生される音声データがあるか否かを判断する（Ｓ１４）。再生する音声データがない場合（Ｓ１４でＮＯ）、制御部１００は、動作を終了する。

再生する音声データがある場合（Ｓ１４でＹＥＳ）、制御部１００は、まず再生される音声の定位位置に対応する頭部インパルス応答をフィルタ係数７１から読み出し（Ｓ１５）、信号処理部１０２にセットする（Ｓ１６）。制御部１００は、再生する音声データを読み出し（Ｓ１７）、音声を再生する（Ｓ１８）。デバイス通信部１０４は、再生され、定位処理がされた音声をヘッドホン２０に送信する。

図６に示したフローチャートの処理は、処理の内容が変更されない範囲において順不同である。

グループすなわち複数のユーザが、一緒に公園５００を訪れる場合の音声再生システム１の処理について説明する。複数のユーザ（この例では３人のユーザ）をそれぞれユーザＬ１、ユーザＬ２およびユーザＬ３とし、ユーザＬ１がグループのリーダであるとする。

各ユーザＬ１、Ｌ２、Ｌ３は、サーバ２経由または直接相互通信でグループを形成する。たとえば、サーバ２を経由する場合、ユーザＬ１がサーバ２上にグループを作成して仲間を募集する。この時点でユーザＬ１がリーダとなる。このグループにユーザＬ２、Ｌ３が参加してグループが形成される。サーバ２、および各ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０は、それぞれ、グループのメンバーをグループテーブルに登録する。また、直接相互通信の場合、ユーザＬ１が自身の携帯端末装置１０を使用して他のユーザＬ２、Ｌ３の携帯端末装置１０に対してグループへの参加を勧誘するメッセージを送信する。ユーザＬ２、Ｌ３がこのメッセージに対して、自身の携帯端末装置１０を用いて返信することにより、グループが形成される。各ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０は、グループのメンバーをグループテーブルに登録する。また、サーバ２は、グループおよびそのメンバーを登録してもよい。各ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０相互間の通信は、たとえば、Ｂｌｕｅｔｏｏｔｈ、または、Ｗｉ−Ｆｉダイレクトなどの通信方式で行えばよい。

グループが形成されると、メンバーは、一緒にコンテンツツーリズムで訪れる場所を決定する。訪れる場所が決定されると、各ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０は、決定された場所のコンテンツデータ７２をサーバ２からダウンロードする。グループのメンバーは、コンテンツツーリズムの目的地（たとえば公園５００）に一緒にでかける。公園５００では、各ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０は、自身が測位した位置でシナリオ７２１を進行させる。なお、各ユーザＬ１、Ｌ２、Ｌ３が別々にシナリオ７２１を進行させるのでなく、リーダであるユーザＬ１の携帯端末装置１０が測位した位置に基づいて、全員（ユーザＬ１、Ｌ２、Ｌ３）のシナリオ７２１を同期して進行させてもよい。

図５に示したイベント５番、野外ステージ５０２上の地点Ｐ３では、各メンバーが一緒にシナリオ７２１を進行させる。すなわち、ユーザＬ１、Ｌ２、Ｌ３の携帯端末装置１０が、ユーザＬ１の携帯端末装置１０のシナリオ７２１の進行（アニメーションの音声の再生）に同期して、シナリオ７２１を進行させる。

野外ステージ５０２上では、まず、各メンバーの役割（どのキャラクタを演じるか）が決められる。サーバ２またはリーダであるユーザＬ１の携帯端末装置１０が役割を自動的に決定してもよく、各ユーザＬ１、Ｌ２、Ｌ３が申告することによって役割を決定しもよい。各ユーザＬ１、Ｌ２、Ｌ３は、たとえば携帯端末装置１０に表示される複数のキャラクタのいずれかをタップすることで、そのキャラクタを演じることを他のメンバーの携帯端末装置１０に通知し、申告するようにしてもよい。

各ユーザの携帯端末装置１０は、それぞれ複数のキャラクタのセリフの定位を決定する。すなわち、そのユーザ自身が担当するキャラクタのセリフは、ユーザの頭部に定位させ、他のユーザが担当するキャラクタのセリフは、担当するキャラクタがいる位置に定位させる。ユーザの位置はサーバ２経由、または、直接通信で共有される。

このように、音声再生システム１は、複数のユーザでイベントを実行する場合に、地点Ｐ３の演出効果をより発揮する。複数のユーザがぞれぞれキャラクタを担当し、音声再生システム１は、シナリオ７２１に基づいてセリフの音声を再生する。これにより、ユーザは自分がセリフを喋る訳ではないが、それぞれのユーザがアニメーションのキャラクタになったような拡張現実を体感でき、コンテンツツーリズムの没入感を高めることができる。

また、イベント８番のクイズでは、リーダの回答が全員を代表する。すなわち、音声再生システム１は、リーダが正解すれば、全員を経路Ｒ４に案内し、リーダが誤答すれば、全員を経路Ｒ５に案内する。また、逆に、各ユーザの携帯端末装置１０が、自分のメンバーの回答を採用し、採用した回答に基づいて経路を案内してもよい。この場合、音声再生システム１は、クイズの正誤に応じて、各ユーザを経路Ｒ４、または、経路Ｒ５にばらばらに案内するため、グループを一時的にばらばらにすることができる。

以上の実施形態では、音声再生システム１が、コンテンツツーリズムに適用される場合について説明した。実施形態の音声再生システム１は、コンテンツツーリズム以外にも適用可能である。たとえば、実施形態の音声再生システム１は、お化け屋敷、脱出ゲーム、または美術館の展示ガイドなどに適用することができる。

お化け屋敷では、音声再生システム１は、アクティブノイズキャンセルを１００％の機能レベルで機能させて、ユーザＬが何も聴こえない状況にすることで、恐怖感を増大させることができる。脱出ゲームにおいても同様に、音声再生システム１は、迷路内ではアクティブノイズキャンセルを１００％の機能レベルで機能させればよい。ユーザＬが脱出できたときに、音声再生システム１は、アクティブノイズキャンセルを０％にして、ユーザＬに周囲の音を聴かせることにより、脱出できたときの開放感を増大させることができる。

ユーザがマニュアル操作で、ヘッドホン２０の外部音制御をアクティブノイズキャンセル１００％、ヒアスルー０％にセットしている場合、携帯端末装置１０が強制的にヒアスルーを機能させてもよい。携帯端末装置１０は、交差点などユーザにとって危険と思われる場所に来たと判断したときに強制的にヒアスルーを機能させる。あるいは、携帯端末装置１０は、外部マイク２６でサイレン、クラクションまたは人の声などを収音したとき、強制的にヒアスルーを機能させてもよい。

図４の説明で述べたが、音声再生システム１は、ヒアスルーにおいて、ヒアスルー音をスピーカ２３Ｌ，Ｒから放音するだけでなく、フィルタリング等の信号処理をしてから放音してもよい。これにより、音声再生システム１は、ヒアスルー音をそのまま聴かせる場合と異なる雰囲気の音にすることができる。たとえば、ヒアスルー音に対する処理としては、フィルタ、エコー、リバーブなどがある。ヒアスルー音に付与する効果としては、（公園を歩いているにもかかわらず）洞窟にいるような音質にすることなどがある。

音声再生システム１は、外部音制御の切り換えを、瞬時に切り換えるのみでなく、徐々に切り換える、すなわちフェードさせて切り換えてもよい。

イベントの実行を指示するトリガは、ユーザＬが所定の位置に移動したことに限定されない。たとえば、トリガは、現在時刻、ユーザの動作（頭の向き、歩数、移動速度、停止している時間）などでもよい。また、音声再生システム１は、夕方である、秋であるなど、該当する時期に来なければ実現しできないトリガを設けることにより、ユーザＬに対して複数回の訪問、再訪を促すことが可能である。

以上の実施形態では、ユーザＬの頭部方向および位置を検出する手段として、３軸のジャイロセンサ２５、および、ＧＰＳなどの測位部１０５が用いられた。ユーザＬの頭部方向および位置を検出する手段は、これらに限定されない。例えば、３軸のジャイロセンサ２５に代えて、３軸のジャイロセンサおよび３軸の加速度センサ（モーションセンサ）を有する６軸センサが用いられてもよい。６軸センサを用いることにより、位置決定部１１２は、ユーザＬの初期位置が決定されれば、ＧＰＳなどの測位ができない場所でもユーザＬの移動に追従した位置決定が可能になる。

更に、３軸のジャイロセンサ２５に代えて、３軸のジャイロセンサおよび３軸の加速度センサに加えて、３軸の方位センサ（コンパス）を有する９軸センサが用いられてもよい。９軸センサを用いることにより、頭部方向決定部１１１は、必要に応じて方位センサの検出値を参照してジャイロセンサの積算値を校正し、積分誤差を解消することができる。音声の定位方向の制御は、頭部方向決定部１１１が、応答特性の良いジャイロセンサの積算値を用いて実行すればよい。

１音声再生システム
２サーバ
１０携帯端末装置（スマートホン）
２０ヘッドホン
２３Ｌ，２３Ｒスピーカ
２４ヘッドホン信号処理部
２５ジャイロセンサ
２６Ｌ，２６Ｒ外部マイク
１００制御部
１０１記憶部
１０３信号処理部
７２コンテンツデータ
７２１シナリオファイル
７２２地図データ
７２３音声データセット

Claims

ユーザに装用され、前記ユーザの耳に向けて音声を放音するスピーカと、
前記ユーザに到来する外部音を収音するマイクと、
前記外部音を前記スピーカに供給するヒアスルー処理、および、前記外部音をキャンセルするキャンセル音を生成して前記スピーカに供給するノイズキャンセル処理を実行する信号処理部と、
前記ヒアスルー処理および前記ノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、イベント実行を指示する事象であるトリガの情報を含むイベント情報を記憶した記憶部と、
前記トリガの発生を検出したとき、該トリガで実行を指示されたイベント情報の制御情報を読み出して前記信号処理部に出力する制御部と、
を備えた音声再生装置。
前記制御情報は、前記信号処理部を、前記ノイズキャンセル処理を１００パーセントで機能させ、かつ、前記ヒアスルー処理を機能させないノイズキャンセルモード、前記ノイズキャンセル処理を機能させず、かつ、前記ヒアスルー処理を１００パーセントで機能させるヒアスルーモード、および、前記ノイズキャンセル処理を１００パーセント未満で機能させ、かつ、前記ヒアスルー処理を１００パーセント未満で機能させる中間モードのいずれかに制御する情報を含む請求項１に記載の音声再生装置。
前記信号処理部は、前記ノイズキャンセル処理または前記ヒアスルー処理の機能レベルを切り換えるとき、その機能レベルを徐々に変化させて切り換える請求項１または請求項２に記載の音声再生装置。
前記制御情報は、前記ヒアスルー処理により前記スピーカに供給される外部音に対して、音質の調整を指示する情報を含み、
前記信号処理部は、前記制御情報として前記外部音に対する音質の調整を指示する情報を受信したとき、この制御情報に基づいて、前記外部音に対して音質を調整する処理を行う
請求項１乃至請求項３のいずれかに記載の音声再生装置。
音声データを再生し、再生した音声を内部音声として前記信号処理部に出力する音声生成部をさらに備え、
前記イベント情報は、前記音声データを含んでおり、
前記制御部は、前記トリガの発生を検出したとき、該トリガで実行を指示されたイベント情報の制御情報を読み出して前記信号処理部に出力するとともに、該イベント情報の音声データを前記音声生成部に出力して再生させ、
前記信号処理部は、入力された前記内部音声を、前記外部音および／または前記キャンセル音とミキシングして前記スピーカに供給する
請求項１乃至請求項４のいずれかに記載の音声再生装置。
前記記憶部は、アニメーション、映画またはドラマにゆかりの場所を案内するためのシナリオとして編集された複数のイベント情報を記憶している請求項５に記載の音声再生装置。
ユーザに装用されるスピーカで、前記ユーザの耳に向けて音声を放音することと、
前記ユーザに到来する外部音をマイクで収音することと、
前記外部音を前記スピーカに供給するヒアスルー処理、および、前記外部音をキャンセルするキャンセル音を生成して前記スピーカに供給するノイズキャンセル処理を信号処理部で実行することと、
前記ヒアスルー処理および前記ノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、イベント実行を指示する事象であるトリガの情報を含むイベント情報を記憶部に記憶することと、
前記トリガの発生を検出したとき、該トリガで実行を指示されたイベント情報の制御情報を読み出して前記信号処理部に出力することと、
を備えた音声再生方法。
前記制御情報は、前記信号処理部を、前記ノイズキャンセル処理を１００パーセントで機能させ、かつ、前記ヒアスルー処理を機能させないノイズキャンセルモード、前記ノイズキャンセル処理を機能させず、かつ、前記ヒアスルー処理を１００パーセントで機能させるヒアスルーモード、および、前記ノイズキャンセル処理を１００パーセント未満で機能させ、かつ、前記ヒアスルー処理を１００パーセント未満で機能させる中間モードのいずれかに制御する情報を含む請求項７に記載の音声再生方法。
前記信号処理部で実行するステップは、前記ノイズキャンセル処理または前記ヒアスルー処理の機能レベルを切り換えるとき、その機能レベルを徐々に変化させて切り換える請求項７または請求項８に記載の音声再生方法。
前記制御情報は、前記ヒアスルー処理により前記スピーカに供給される外部音に対して、音質の調整を指示する情報を含み、
前記信号処理部で実行するステップは、前記制御情報として前記外部音に対する音質の調整を指示する情報を受信したとき、この制御情報に基づいて、前記外部音に対して音質を調整する処理を行う
請求項７乃至請求項９のいずれかに記載の音声再生方法。
前記イベント情報は、音声データをさらに記憶し、
前記信号処理部で実行するステップは、さらに、前記音声データを再生して前記スピーカに供給する
請求項７乃至請求項１０のいずれかに記載の音声再生方法。
前記記憶するステップは、前記記憶部に、アニメーション、映画またはドラマにゆかりの場所を案内するためのシナリオとして編集された複数のイベント情報を記憶する請求項１１に記載の音声再生方法。
ユーザに装用され、前記ユーザの耳に向けて音声を放音するスピーカと、前記ユーザに到来する外部音を収音するマイクと、を備え、前記外部音を前記スピーカに供給するヒアスルー処理、および、前記外部音をキャンセルするキャンセル音を生成して前記スピーカに供給するノイズキャンセル処理を実行する音響デバイスが接続される携帯端末装置の制御部を、
前記ヒアスルー処理および前記ノイズキャンセル処理のそれぞれの機能レベルを指定する制御情報、および、前記制御情報に基づく制御の実行を指示する事象であるトリガの情報を含むイベント情報を記憶する第１手段、および、
前記トリガの発生を検出したとき、該トリガで実行を指示された制御情報を読み出して前記音響デバイスに出力する第２手段、
として機能させる音声再生プログラム。
前記第１手段が記憶するイベント情報は、音声データをさらに含み、
前記第２手段は、前記トリガの発生を検出したとき、さらに、前記音声データを再生して前記音響デバイスに送信する
請求項１３に記載の音声再生プログラム。