JP5118267B2

JP5118267B2 - 音声信号再生装置、音声信号再生方法

Info

Publication number: JP5118267B2
Application number: JP2012528581A
Authority: JP
Inventors: 潤二荒木
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2011-04-22
Filing date: 2012-04-20
Publication date: 2013-01-16
Anticipated expiration: 2032-04-20
Also published as: WO2012144227A1; US9538307B2; US20130343550A1; JPWO2012144227A1

Description

本発明は、頭部伝達関数を用いた音像定位処理を行う音響信号処理技術に関し、特に受聴位置前方に設置したスピーカ（以後、「フロントスピーカ」と呼ぶ）と耳近傍に設置したスピーカ（以後、「耳近傍スピーカ」と呼ぶ）とを用いて所望の位置に仮想音像定位を実現する機能を有する音声信号再生装置及び音声信号再生方法に関する。

仮想音像定位技術において、頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を用いて受聴者の前方及び後方の仮想音像定位を実現する手法がある。この手法では次のようにして仮想音像を生成する。

まず、仮想音像（以後、仮想音源ともいう）を定位させたい位置に測定用スピーカを設置し、この測定用スピーカから受聴者の外耳道入り口までの頭部伝達関数を測定する。こうして測定されたこの頭部伝達関数を目標特性とする。

続いて、再生音源を再生することにより、仮想音像を定位させるために用いる再生スピーカから受聴位置までの頭部伝達関数を測定する。こうして測定されたこの頭部伝達関数を再生特性とする。

ここで、仮想音像を定位させたい位置に設置した測定用スピーカは、目標特性を測定することにのみ用いられる。結果として、以後、受聴者が再生音源を再生する際には使用されない。すなわち、再生スピーカのみが再生音源を再生することで仮想音源を定位させるために用いられる。

そして、目標特性と再生特性を用いて仮想音像定位のための頭部伝達関数を算出する。算出される頭部伝達関数をフィルタ特性とする。このフィルタ特性を再生音源に畳み込むことで、仮想的なスピーカから音が出力されているように聴き取れる再生音源を生成することができる。

このように仮想音像を生成する際に、再生音源を再生するために用いる再生スピーカとしては、（１）フロントバーチャルサラウンドシステムに代表されるように受聴者前方に設置されるフロントスピーカを使用する場合、（２）ヘッドホンバーチャルサラウンドシステムに代表されるように耳近傍に設置される耳近傍スピーカを使用する場合、または、（３）これら両方を組み合わせて受聴者前方に設置されたフロントスピーカと受聴者の耳近傍に設置された耳近傍スピーカとを併用する場合がある。

フロントスピーカと耳近傍スピーカとを併用するシステムが、特許文献１及び特許文献２等に開示されている。

例えば、特許文献１には、機能拡張端子を有するゲーム機本体が記載されている。この機能拡張端子は、音声出力機能を備える。また、ゲーム機本体はスピーカを備えるテレビジョン受像機に接続される。このゲーム機本体は、テレビジョン受像機から音声を出力させるとともに、機能拡張端子に接続されるヘッドホンから音声を出力させる。

また、このゲーム機本体は、スピーカから音声を再生し、その音波が受聴者に到達するまでの時間遅延をヘッドホン再生信号に与える機能を有する。つまり、ゲーム機本体はスピーカからの音声とヘッドホンからのヘッドホン再生信号が受聴者に同時に聞こえるように調整を行う。

上記のように構成することで、ユーザはテレビジョン受像機からの音声と、ヘッドホンからの音声を同時に受聴することができるため、今まで以上の臨場感を持った音声の再現、創出ができる。さらに、ヘッドホン再生信号に時間遅延を与えることにより、音像定位位置を受聴者に近づけたり、離したりできる。

また、特許文献２では、フロントスピーカと耳近傍スピーカとを併用することにより、特に後方に定位するオーディオチャンネルの定位精度を改善する技術が示されている。

特許第４３４８８８６号公報特開２００６−３４５４８０号公報

しかしながら、従来技術においては、仮想音像が定位する位置が不明確であるという課題がある。

そこで本発明は、仮想音像をより正確な位置に定位させることが可能な音声信号再生装置を提供することを目的とする。

上記従来の課題を解決するため、本発明の一形態である音声信号再生装置は、受聴者の周囲に配置される複数のスピーカである第１スピーカ群と、当該第１スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第２スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する音声信号再生装置であって、前記音声信号を取得する取得部と、前記音声信号に対して信号処理を行い、第１仮想音像位置に音が定位する前記第１スピーカ群用の第１再生信号、及び前記第１仮想音像位置と略同一の第２仮想音像位置に音が定位する前記第２スピーカ群用の第２再生信号を生成する仮想音場生成部とを備え、前記仮想音場生成部は、前記第１再生信号により示され、前記第１仮想音像位置のうち第１位置に定位する第１音と、前記第２再生信号により示され、前記第１位置と略同一位置に定位し、かつ、前記第１音と略同一の第２音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第１再生信号および前記第２再生信号を生成する。

これによると、音声信号再生装置は、第１スピーカ群と第２スピーカ群とでそれぞれ同じ仮想音像を生成する際に生じる、両スピーカ群間におけるズレを抑制することができる。したがって、仮想音像をより正確な位置に定位させることができる。

また、前記仮想音場生成部は、前記略同一の特徴を有する２つの音の受聴時刻が所定の範囲内の時間だけ異なるように、前記第１再生信号を前記第１スピーカ群から出力する出力時刻および前記第２再生信号を前記第２スピーカ群から出力する出力時刻を調整するとしてもよい。

この構成によると、音声信号再生装置１００は、第１スピーカ群から音を出力するタイミングおよび、第２スピーカ群から音を出力するタイミングを調整するころにより、事前に定められた範囲内の微少時間だけずれて再生音が受聴者に到達するように制御することができる。したがって、受聴者は、先行音効果が生じた２つの音を受聴することになる。その結果、受聴者は、受聴するタイミングがずれているにもかかわらず、後に到達した音により定位する仮想の音場が、先に到達した音により定位した仮想の音場と一致するように聞こえる。さらに、受聴者は、後に到達した音よりも先に到達した音を強く意識する。よって、フロントスピーカと耳近傍スピーカとで生成する仮想の音場において生じる、音場の分離、偏り、またはぼやけによる聴感上の違和感を抑制するとともに、フロントスピーカから音を出力する際のメリットまたは、耳近傍スピーカから音を出力する際のメリットを活用できる。

また、前記仮想音場生成部は、前記第１音が、前記第２音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第１再生信号および前記第２再生信号を生成するとしてもよい。

この構成によると、第１スピーカ群で再生された音が、仮想音場の定位に、より大きく寄与するようになる。その結果、音声信号再生装置１００は、より優れた距離感を定位させることができる。

また、前記仮想音場生成部は、前記第２音が、前記第１音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第１再生信号および前記第２再生信号を生成するとしてもよい。

この構成によると、第２スピーカ群で再生された音が、仮想音場の定位に、より大きく寄与するようになる。その結果、音声信号再生装置１００は、より優れた方向感を定位させることができる。

また、前記第１位置が、前記受聴者の後方である場合、前記仮想音場生成部は、前記第２音が、前記第１音よりも先に前記受聴位置に到達するよう前記第１再生信号および前記第２再生信号を生成するとしてもよい。

この構成によると、受聴者の後方に音像が定位する音であって、第１再生信号および第２再生信号のそれぞれに含まれる略同一の特徴を有する音を、第２スピーカ群から先に出力することができる。このようにすることで、受聴者は後方に音像が定位する音については、第２スピーカ群から出力される音を強く意識することになる。その結果、第１スピーカ群および第２スピーカ群から音を聞いているにもかかわらず、受聴者は後方の音については音像定位位置の方向をより明確に認識することができる。

また、前記第１位置が、前記受聴者の前方である場合、前記仮想音場生成部は、前記第１音が、前記第２音よりも先に前記受聴位置に到達するよう前記第１再生信号および前記第２再生信号を生成するとしてもよい。

この構成によると、受聴者の前方に音像が定位する音であって、第１再生信号および第２再生信号のそれぞれに含まれる略同一の特徴を有する音を、第１スピーカ群から先に出力することができる。このようにすることで、受聴者は前方に音像が定位する音については、第１スピーカ群から出力される音を強く意識することになる。その結果、第１スピーカ群および第２スピーカ群から音を聞いているにもかかわらず、受聴者は前方の音については音像定位位置の距離をより明確に認識することができる。

具体的には、前記所定の範囲は、０ミリ秒を超え、かつ、２０ミリ秒未満であるとしてもよい。

また、前記仮想音場生成部は、さらに、前記複数のオーディオチャンネルの各々に、対応するゲインを乗じることにより前記音圧値を調整する音圧値調整部を有するとしてもよい。

この構成によると、仮想音場生成部は、定位する仮想音源に対応するオーディオチャンネル信号ごとにゲインを変更し、仮想音場を生成することができる。すなわち、仮想音源ごとに、仮想音源から再生される音の音圧値を変更し、仮想音場全体としてのゲインバランスを調整することが可能となる。その結果、第１スピーカ群と第２スピーカ群で生成される仮想音像による音場の偏りや分離を抑えることができる。

また、前記仮想音場生成部は、前記第１仮想音像位置に定位する音のうち、前記受聴者の前方に定位する音の音圧値が、前記受聴者の後方に定位する音の音圧値よりも大きくなるように、前記第１再生信号を生成するとしてもよい。

また、前記仮想音場生成部は、前記第２仮想音像位置に定位する音のうち、前記受聴者の後方に定位する音の音圧値が、前記受聴者の前方に定位する音の音圧値よりも大きくなるように、前記第２再生信号を生成するとしてもよい。

なお、本発明は、音声信号再生装置として実現できるだけでなく、音声信号再生装置を構成する処理手段をステップとする音声信号再生方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭなどの記録媒体として実現したり、そのプログラムを示す情報、データ又は信号として実現したりすることもできる。そして、それらプログラム、情報、データ及び信号は、インターネット等の通信ネットワークを介して配信してもよい。

さらに、本発明は、このような音声信号再生装置の機能の一部又は全てを実現する半導体集積回路（ＬＳＩ）として実現したり、このような音声信号再生装置を含む音声信号再生システムとして実現したりできる。

以上より、仮想音像の位置をより正確に定位させることが可能な音声信号再生装置を提供できる。

図１は、実施の形態１及び２に係る音声信号再生装置の構成を示すブロック図である。図２は、実施の形態１に係る音声信号再生装置の構成を示すブロック図である。図３は、スピーカ群と受聴者との位置関係の一例を示す図である。図４は、先行音効果を説明するための概念図である。図５は、実施の形態に係る音声信号再生装置の動作の一例を示すフローチャートである。図６は、実施の形態及び変形例に係る音声信号再生装置において、各スピーカで再生するあるオーディオチャンネルの信号値の遅延を表す図である。図７は、実施の形態及び変形例に係る２つのスピーカ群からの音の到達の先後が音場定位に与える影響を示す図である。図８は、実施の形態１及びその変形例に係る音声信号再生装置において、実現される音場を表す図である。図９は、実施の形態１及びその変形例に係る音声信号再生装置の他の例を示す図である。図１０は、実施の形態２に係る音声信号再生装置の構成を示すブロック図である。図１１は、実施の形態２に係る音声信号再生装置の動作の一例を示すフローチャートである。図１２は、実施の形態２及びその変形例に係る音声信号再生装置において、各スピーカで再生する各オーディオチャンネル信号の信号値のゲインを表す図である。図１３は、実施の形態２及びその変形例に係る音響信号処理装置のケース（１）で実現される音場を表す図である。図１４は、実施の形態２及びその変形例に係る音響信号処理装置のケース（２）で実現される音場を表す図である。図１５は、実施の形態２及びその変形例に係る音響信号処理装置のケース（３）で実現される音場を表す図である。図１６は、実施の形態２及びその変形例に係る音響信号処理装置のケース（４）で実現される音場を表す図である。図１７は、実施の形態２に係る音声信号再生装置のより詳細な構成の一例を示す図である。図１８は、実施の形態２の変形例に係る音声信号再生装置のより詳細な構成を示す図である。図１９は、実施の形態１及び２並びに変形例にかかる音声信号再生装置を実現するコンピュータシステムのハードウェア構成を示すブロック図である。

（本発明の基礎となった知見）
本発明者は、「背景技術」の欄において記載した仮想音像定位技術に関し、以下の問題が生じることを見出した。

一般的に、フロントスピーカを用いるフロントバーチャルサラウンドシステムは、受聴者の前方に定位するオーディオチャンネル（すなわち、仮想音像）の定位精度はよいことが知られている。しかし、このサラウンドシステムの場合、受聴者の後方に定位するオーディオチャンネルは定位精度が悪い。一方、耳近傍スピーカを用いるバーチャルサラウンドシステムは、オーディオチャンネルの方向については定位精度がよいことが知られている。しかし、特に受聴者の前方に定位するオーディオチャンネルの距離感が適切に再現できない。具体的には、目標位置よりも受聴者に近い位置に定位する傾向にある。

引用文献１の場合、受聴者は、スピーカからの音声とヘッドホンからのヘッドホン再生信号を同時に聞くことになる。そのため、上記に記載したフロントスピーカにおけるメリットまたは耳近傍スピーカのメリットを活用することが難しい。その結果、仮想音像の定位位置が不正確になる。

また、フロントスピーカと耳近傍スピーカとの各々が、同じ位置に仮想音像を定位させることにより、仮想音像により形成される音場に偏りが発生して不自然な音場になってしまう。また、フロントスピーカ、もしくは耳近傍スピーカのどちらか一方の出力音圧レベルが極端に大きいと、一方のスピーカからの仮想音像が支配的になり、音場の分離が発生してしまう。その結果、やはり仮想音像の定位位置が不正確になる。

本発明は、上記課題を解決することにより、仮想音像をより正確な位置に定位させることが可能な音声信号再生装置を提供することを目的とする。

以下、図面を参照しながら、本発明の実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

（実施の形態１）
図１は、本実施の形態に係る音声信号再生装置１００の機能ブロックを示す。

音声信号再生装置１００は、受聴者１０の周囲に配置される複数のスピーカである第１スピーカ群５１ｓと、当該第１スピーカ群５１ｓよりも前記受聴者に近い位置に配置される複数のスピーカである第２スピーカ群５２ｓとのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する。

図１に示される様に、音声信号再生装置１００は、取得部１と、仮想音場生成部８０とを備える。

取得部１は、音源から音声信号を取得し、２つの音声信号に分配する。

仮想音場生成部８０は、音声信号に対して信号処理を行い、第１仮想音像位置に音が定位する第１スピーカ群５１ｓ用の第１再生信号、及び第１仮想音像位置と略同一の第２仮想音像位置に音が定位する第２スピーカ群５２ｓ用の第２再生信号を生成する。ここで、仮想音場生成部８０は、第１再生信号により示され、第１仮想音像位置のうち第１位置に定位する第１音と、第２再生信号により示され、第１位置と略同一位置に定位し、かつ、第１音と略同一の第２音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、第１再生信号および第２再生信号を生成する。

以下、受聴位置において、第１音と第２音との位相が異なるように、仮想音場生成部８０が第１再生信号及び第２再生信号を生成する具体例を、実施の形態１としてより詳細に説明する。

図２は、本実施の形態に係る音声信号再生装置１００Ａの構成を示すブロック図である。

本実施の形態に係る音声信号再生装置１００Ａは、受聴者の周囲に配置される複数のスピーカである第１スピーカ群５１ｓと、第１スピーカ群５１ｓよりも受聴者に近い位置に配置される複数のスピーカである第２スピーカ群５２ｓとに対して音場生成処理が施された音声信号を出力する音声信号再生装置である。

図２に示されるように、音声信号再生装置１００Ａは、取得部１、及び仮想音場生成部８０Ａを備える。

取得部１は、複数のオーディオチャンネル信号を含む音声信号を取得する。本実施の形態では、５ｃｈ（チャンネル）の音声信号（すなわち、５つのオーディオチャンネル信号を含む音声信号）を例に説明するが、オーディオチャンネル信号の数はこれに限られない。例えば、２ｃｈ、４ｃｈ、又は、７ｃｈなど、任意のオーディオチャンネル信号を含む音声信号を入力とすることができる。

取得部１は、また、取得した音声信号を分配し、第１スピーカ群５１ｓで第１再生音として再生するための第１音声信号と、第２スピーカ群５２ｓで第２再生音として再生するための第２音声信号とを生成する。

仮想音場生成部８０Ａは、第１音声信号及び第２音声信号に対してそれぞれ信号処理を行い、第１仮想音像位置に音が定位する第１スピーカ群用の第１再生信号および第２仮想音像位置に音が定位する第２スピーカ群用の第２再生信号を生成する。ここで、仮想音場生成部８０Ａは、第１再生信号により示され、第１仮想音像位置のうち第１位置に定位する第１音と、第２再生信号により示され、第１位置と略同一位置に定位し、かつ、第１音と略同一の第２音とが、受聴位置において位相が異なるように、第１再生信号および第２再生信号を生成する。以後、仮想音場生成部８０Ａによる信号処理が施された第１音声信号を、第１再生信号ともいう。また、仮想音場生成部８０Ａによって信号処理が施された第２音声信号を、第２再生信号ともいう。

なお、略同一の特徴を有する２つの音とは、同一の特徴を有する２つの音を含んでもよい。また、特徴とは音の周波数及び振幅の値などを意味し、以後、略同一の特徴を有する２つの音を、「同じ音」ともいう。

具体的には、仮想音場生成部８０Ａは、略同一の特徴を有する２つの音の受聴時刻が所定の範囲内の時間だけ異なるように、第１再生信号を第１スピーカ群５１ｓから出力する出力時刻および第２再生信号を第２スピーカ群５２ｓから出力する出力時刻を調整する。

例えば、仮想音場生成部８０Ａは、第１音が、第２音よりも所定の範囲の時間だけ先に受聴者１０の受聴位置に到達するよう、第１再生信号および第２再生信号を生成してもよい。

または、仮想音場生成部８０Ａは、第２音が、第１音よりも所定の範囲の時間だけ先に受聴者１０の受聴位置に到達するよう、第１再生信号および第２再生信号を生成してもよい。

より詳細には、仮想音場生成部８０Ａは、出力時間差制御部３ａと、フィルタ処理部７０とを有する。

出力時間差制御部３ａは、第１音と、第２音とが、事前に定められた時間だけ異なる時刻に受聴者１０へ到達するように、第１再生信号と第２再生信号との出力時間の差を制御する。

なお、仮想音場生成部８０Ａは、第１音が第２音よりも先に受聴者１０に到達するように音場生成処理を施してもよく、逆に、第２音が第１音よりも先に受聴者１０に到達するように音場生成処理を施してもよい。すなわち、出力時間差制御部３ａは、第１音が第２音よりも先に受聴者１０に到達するように出力時間の差を制御してもよく、逆に、第２音が第１音よりも先に受聴者１０に到達するように出力時間の差を制御してもよい。

フィルタ処理部７０は、第１再生音により定位する第３スピーカ群と、第２再生音により定位する第４スピーカ群とが、事前に定められた同じ位置に定位するように、第１音声信号及び第２音声信号にフィルタ処理を施す。

例えば、本実施の形態におけるフィルタ処理部７０は、５ｃｈの第１音声信号を２ｃｈへ変換し、第１スピーカ群５１ｓへ出力する。第１スピーカ群５１ｓで再生された第１再生音を聴く受聴者１０にとっては、音声信号に含まれていた５ｃｈの各々に対応づけられた位置へ、第３スピーカ群の各々が定位する。また、フィルタ処理部７０は、５ｃｈの第２音声信号を２ｃｈへ変換し、第２スピーカ群５２ｓへ出力する。第２スピーカ群５２ｓで再生された第２再生音を聴く受聴者１０にとっては、音声信号に含まれていた５ｃｈの各々に対応づけられた位置へ、第４スピーカ群が定位する。フィルタ処理部７０の具体的な処理内容は、前述した関連技術に係る頭部伝達関数により決定されるため、詳細は省略する。

より詳細には、フィルタ処理部７０は、耳近傍スピーカ用フィルタ４と、フロントスピーカ用フィルタ５とを有する。

フロントスピーカ用フィルタ５は、第１再生音により第３スピーカ群（後述する、仮想音源１１〜仮想音源１５）が事前に定められた位置に定位するように、第１音声信号にフィルタ処理を施す。

耳近傍スピーカ用フィルタ４は、第２再生音により第４スピーカ群（後述する、仮想音源２１〜仮想音源２５）が事前に定められた位置に定位するように、第２音声信号にフィルタ処理を施す。

以下、上記構成による、音声信号再生装置１００Ａについて、より詳細に説明する。

本実施の形態に係る第１スピーカ群５１ｓは、フロントＬ（Ｌｅｆｔ）スピーカ６と、フロントＲ（Ｒｉｇｈｔ）スピーカ７とを備える。また、第２スピーカ群５２ｓは、耳近傍Ｌスピーカ８と、耳近傍Ｒスピーカ９とを備える。

音声信号再生装置１００Ａは、入力信号であるマルチチャンネルの音声信号に含まれるフロントＬチャンネル信号（以下、ＦＬ信号という）を１組のフロントＬスピーカ６及びフロントＲスピーカ７、並びに、１組の耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置１００Ａは、ＦＬ信号を再生するための仮想音源を、仮想フロントＬチャンネルスピーカ（以下、仮想ＦＬスピーカという）として定位させる。本実施の形態ではフロントＬスピーカ６及びフロントＲスピーカ７の両スピーカにより再生される第１再生音により仮想ＦＬスピーカ１１が定位し、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の両スピーカにより再生される第２再生音により、仮想ＦＬスピーカ２１が定位するとする。

また、音声信号再生装置１００Ａは、入力信号であるマルチチャンネルの音声信号に含まれるフロントＲチャンネル信号（以下、ＦＲ信号という）を１組のフロントＬスピーカ６及びフロントＲスピーカ７、並びに、１組の耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置１００Ａは、ＦＲ信号を再生するための仮想音源を、仮想フロントＲチャンネルスピーカ（仮想ＦＲスピーカ）として定位させる。本実施の形態ではフロントＬスピーカ６及びフロントＲスピーカ７の両スピーカにより再生される第１再生音により仮想ＦＲスピーカ１２が定位し、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の両スピーカにより再生される第２再生音により仮想ＦＲスピーカ２２が定位する。

同様に、音声信号再生装置１００Ａは、入力信号であるマルチチャンネルの音声信号に含まれるサラウンドＬチャンネル信号（以下、ＳＬ信号という）を１組のフロントＬスピーカ６及びフロントＲスピーカ７、並びに、１組の耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置１００Ａは、ＳＬ信号を再生するための仮想音源を、仮想サラウンドＬチャンネルスピーカ（仮想ＳＬスピーカ）として定位させる。本実施の形態ではフロントＬスピーカ６及びフロントＲスピーカ７の両スピーカにより再生される第１再生音により仮想ＳＬスピーカ１３が定位し、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の両スピーカにより再生される第２再生音により仮想ＳＬスピーカ２３が定位する。

また、音声信号再生装置１００Ａは、入力信号であるマルチチャンネルの音声信号に含まれるサラウンドＲチャンネル信号（以下、ＳＲ信号という）を１組のフロントＬスピーカ６及びフロントＲスピーカ７、並びに、１組の耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置１００Ａは、ＳＲ信号を再生するための仮想音源を、仮想サラウンドＲチャンネルスピーカ（仮想ＳＲスピーカ）として定位させる。本実施の形態では、フロントＬスピーカ６及びフロントＲスピーカ７の両スピーカにより再生される第１再生音により仮想ＳＲスピーカ１４が定位し、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の両スピーカにより再生される第２再生音により仮想ＳＲスピーカ２４が定位する。

また、音声信号再生装置１００Ａは、入力信号であるマルチチャンネルの音声信号に含まれるセンターチャンネル信号（以下、Ｃ信号という）を１組のフロントＬスピーカ６及びフロントＲスピーカ７、並びに、１組の耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の少なくとも一方の組を用いて再生する。これにより、音声信号再生装置１００Ａは、Ｃ信号を再生するための仮想音源を、仮想センターチャンネルスピーカ（仮想Ｃスピーカ）として定位させる。本実施の形態では、フロントＬスピーカ６及びフロントＲスピーカ７の両スピーカにより再生される第１再生音により仮想Ｃスピーカ１５が定位し、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の両スピーカにより再生される第２再生音により仮想Ｃスピーカ２５が定位する。

図２に示すように、複数のオーディオチャンネル信号（ＦＲ信号、ＳＲ信号、ＦＬ信号、ＳＬ信号、及びＣ信号）を含む入力信号は取得部１から入力される。ここで、各オーディオチャンネル信号は、各仮想スピーカに対応する。

出力時間差制御部３ａはフロントスピーカ用信号と耳近傍スピーカ用信号との位相差を制御し、後段のフロントスピーカと耳近傍スピーカとから各信号を出力するタイミングを制御する。

耳近傍スピーカ用フィルタ４は、出力時間差制御部３ａから出力された５ｃｈの耳近傍スピーカ用信号（すなわち、第２音声信号）に対して、耳近傍スピーカ用フィルタ係数に基づくフィルタ処理を行うことで２ｃｈの仮想音場生成信号を生成し、各々のオーディオチャンネル信号を耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とに出力する。

耳近傍スピーカ用フィルタ４における耳近傍スピーカ用フィルタ係数に基づく処理とは、例えば、耳近傍スピーカ用信号にＳＬ信号とＳＲ信号とが含まれている場合を例に挙げると、以下の通りとなる。すなわち、ＳＬ信号及びＳＲ信号に処理を施すことで耳近傍スピーカ用フィルタ４が生成した仮想音場生成信号が、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９の各々で再生されているとする。このとき、ＳＬ信号が、ＳＬ信号に対応した位置に定位する仮想音源である仮想ＳＬスピーカ２３から再生され、ＳＲ信号が、ＳＲ信号に対応した位置に定位する仮想音源である仮想ＳＲスピーカ２４から再生されているように、受聴者１０に知覚されるような特性を、ＳＬ信号及びＳＲ信号の各々に与える処理を耳近傍スピーカ用フィルタ係数に基づく処理という。

フロントスピーカ用フィルタ５は、出力時間差制御部３ａから出力された５ｃｈのフロントスピーカ用信号（すなわち、第１音声信号）に対して、フロントスピーカ用フィルタ係数に基づくフィルタ処理を行うことで２ｃｈの仮想音場生成信号を生成し、各々をフロントＬスピーカ６とフロントＲスピーカ７とに出力する。

フロントスピーカ用フィルタ５におけるフロントスピーカ用フィルタ係数に基づく処理とは、例えば、フロントスピーカ用信号にＳＬ信号とＳＲ信号とが含まれている場合を例に挙げると、以下の通りとなる。すなわち、ＳＬ信号及びＳＲ信号に処理を施すことでフロントスピーカ用フィルタ５が生成した仮想音場生成信号が、フロントＬスピーカ６及びフロントＲスピーカ７の各々で再生されているとする。このとき、ＳＬ信号が、ＳＬ信号に対応した位置に定位する仮想音源である仮想ＳＬスピーカ１３から再生され、ＳＲ信号が、ＳＲ信号に対応した位置に定位する仮想音源である仮想ＳＲスピーカ１４から再生されているように、受聴者１０に知覚されるような特性を、ＳＬ信号及びＳＲ信号の各々に与える処理をフロントスピーカ用フィルタ係数に基づく処理という。

このように構成された音声信号再生装置１００Ａを介して、フロントＬスピーカ６及びフロントＲスピーカ７を含む第１スピーカ群と、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９を含む第２スピーカ群とからそれぞれ再生される音を聴くことにより、受聴者１０には、実在しない仮想音源である、仮想ＦＬスピーカ１１及び２１、仮想ＦＲスピーカ１２及び２２、仮想ＳＬスピーカ１３及び２３、仮想ＳＲスピーカ１４及び２４、並びに仮想Ｃスピーカ１５及び２５の位置から再生音が聞こえる。

ここで前述のように、第１スピーカ群による第１再生音、及び、第２スピーカ群による第２再生音の各々を用いて各仮想音源を定位させる場合、同一の仮想音源を定位させるための同一の音が、同時に受聴者１０へ到達するように再生されると、受聴者は聴感上の違和感を生じる。

本願発明は、この課題を解消するための音声信号再生装置の提供を目的としたものであるため、以下、この課題と解決方法について、より詳細に説明する。

図３は、第１スピーカ群５１ｓ及び第２スピーカ群５２ｓに含まれる各スピーカと、受聴者との位置関係の一例を示す図である。ここで、フロントＬスピーカ６と受聴者１０との距離をｌ［ｍ］とし、耳近傍Ｌスピーカ８と受聴者１０との距離をｍ［ｍ］（ｌ＞＞ｍ）とする。また、音速をｃ［ｍ／ｓ］とする。このとき、フロントＬスピーカ６から再生された第１再生音に含まれる第１音が受聴者１０へ届くまでに要する時間Ｔ_１は、Ｔ_１＝ｌ／ｃ［ｓ］となり、耳近傍Ｌスピーカ８から再生された第２再生音に含まれる第２音が受聴者１０へ届くまでに要する時間Ｔ_２は、Ｔ_２＝ｍ／ｃ［ｓ］となる。

よって、フロントＬスピーカ６による第１音の再生時刻と耳近傍Ｌスピーカ８による第２音の再生時刻とが同時であれば、第２音の方が、Ｔ_１−Ｔ_２［ｓ］だけ早く受聴者１０へ到達する。例えば、ｌ＝５［ｍ］、ｍ＝３［ｃｍ］、ｃ＝３４６［ｍ／ｓ］の場合、Ｔ_１−Ｔ_２は、およそ１５［ｍｓ］となる。すなわち、第１音と第２音とが同じ音である場合に、受聴者１０は１５［ｍｓ］ずれて、同じ音を聞くことになる。これは、受聴者１０にとって不自然なエコーとなって聞こえる。

よって、従来は、耳近傍Ｌスピーカ８が、フロントＬスピーカ６よりも、Ｔ_１−Ｔ_２［ｓ］だけ遅く同じ音を再生することにより、同じ音が同時に受聴者１０へ到達するように、再生時間が制御されることが一般的である。すなわち、想定される受聴者１０と、第１スピーカ群５１ｓ及び第２スピーカ群５２ｓとの位置関係（前述のｌ、ｍ）から、Ｔ_１−Ｔ_２の値を事前に求めておき、同一の音を、第２スピーカ群５２ｓは、第１スピーカ群５１ｓよりもＴ_１−Ｔ_２［ｓ］だけ遅れて再生するように、制御される。

しかし、前述のとおり、フロントスピーカ用フィルタ係数に基づくフィルタ処理がなされた第１スピーカ群５１ｓによる再生音と、耳近傍スピーカ用フィルタ係数に基づくフィルタ処理がなされた第２スピーカ群５２ｓによる再生音とが同時に受聴者１０へ到達した場合であっても、受聴者１０は聴感上の違和感を覚える。これは、受聴者１０の耳に到達するタイミングが揃っている場合においても、第１スピーカ群５１ｓで生成する仮想の音場と、第２スピーカ群５２ｓで生成する仮想の音場とは、正確には一致せず、音場の分離、偏り、またはぼやけなどが生じるためである。

そこで本実施の形態に係る音声信号再生装置１００Ａは、先行音効果によって、この違和感を抑制する。

図３は、先行音効果を説明するための概念図である。ここで、波形５１０は時刻ｔ１に受聴者１０へ到達した第１音の波形を表し、波形５１２は時刻ｔ２に受聴者１０へ到達した、第１音と同じ音である第２音の波形を表すとする。

先行音効果とは、Δｔ＝｜ｔ２−ｔ１｜が所定の範囲に含まれている場合には、後に到達した第２音の音源方向の定位が、先に到達した第１音の音源方向の定位へ偏って聞こえる現象をいう。ここで、Δｔは、環境によって異なるが、およそ、０＜Δｔ＜２０［ｍｓ］であることが知られている。

すなわち、音声信号再生装置１００Ａは、第１音が受聴者１０へ到達する時刻と、第２音が受聴者１０へ到達する時刻とが、先行音効果が生じるΔｔだけずれるよう、第１再生信号と第２再生信号との出力時間の差を制御する。これにより、第１音と第２音のうち、先に受聴者１０へ到達した先行音により定位する仮想音源の位置へ、後から到達した音により定位する仮想音源の位置を正確に一致させることができる。

次に、以上のように構成された本実施の形態に係る音声信号再生装置１００Ａの音像定位処理についてより詳細に説明する。

図５は、本実施の形態に係る音声信号再生装置１００Ａの動作の一例を示すフローチャートである。

まず、取得部１は、複数のオーディオチャンネル信号を含む音声信号を取得する（Ｓ２１）。

次に、取得部１は、取得部１で取得した複数のオーディオチャンネル信号を含む音声信号を、フロントスピーカと耳近傍スピーカとでそれぞれ個別に処理して再生するために、同一音声信号からなる２系統（すなわち、第１音声信号と第２音声信号と）に分配する（Ｓ２２）。

なお、必ずしも同一音声信号からなる２系統に分配する必要はなく、信号値の大きさについては、例えば受聴者とフロントスピーカ、及び受聴者と耳近傍スピーカの距離を考慮して、分配する際の信号値の比率を変更してもよいし、フロントスピーカと耳近傍スピーカの能率を考慮して、分配する際の信号値の比率を変更してもよい。

例えば、受聴者１０とスピーカとの距離が遠いほど、より大きな信号値となるように比率を変更してもよい。また、スピーカの能率が悪いほど、より大きな信号値となるように比率を変更してもよい。

また、２系統の信号間における出力時間差については、例えば受聴者とフロントスピーカ、及び受聴者と耳近傍スピーカとの距離を考慮して、受聴者の位置でフロントスピーカ用信号と耳近傍スピーカ用信号の位相が揃うように出力時間差を制御してもよい。

例えば、図３を参照して、取得部１はＴ_１−Ｔ_２［ｓ］だけ第２再生信号が遅れるように出力時間差を制御してもよい。

本実施の形態においてはこれ以降、取得部１が、ステップＳ２２において、受聴者１０の位置でフロントスピーカの出力（第１再生音）と耳近傍スピーカの出力（第２再生音）とが聴感上等しくなるように信号値の大きさを揃え、かつフロントスピーカの出力と耳近傍スピーカの出力の位相が受聴者１０の位置で揃う（すなわち、第１音と第２音とが同時に受聴者１０へ到達する）ように同一音声信号を２系統に分配するものとする。

次に、出力時間差制御部３ａは、フロントスピーカと耳近傍スピーカとで再生する各オーディオチャンネル信号の出力タイミングを制御する（Ｓ２３）。

ステップＳ２２及びステップＳ２３について、図６の（ａ）及び図６の（ｂ）を用いてより詳細に説明する。

図６の（ａ）は、第１再生信号と比較して、Ｎ[ｍｓｅｃ]の遅延を与えられた第２再生信号の波形を表し、図６の（ｂ）は、第１再生信号の波形を表している。図６の（ａ）において、第２再生信号に遅延がなく、第１再生信号と第２再生信号の位相が揃っている場合（Ｎ＝０）は、両信号が同時に再生されたことを表す。

また、第２再生信号がＮ_０だけ第１再生信号よりも遅延している場合（Ｎ＝Ｎ_０）は、受聴者１０が位相の等しい両信号の再生音を同時に聴くことを意味する。本実施の形態においては、前述したように取得部１が、取得した音声信号を分配後に、第２再生信号をＮ_０だけ遅延させて出力する（Ｓ２２）。なお、図３を参照して、Ｎ_０＝Ｔ_１−Ｔ_２である。

本実施の形態に係る出力時間差制御部３ａは、Ｎ_０を基準に考えると、これよりもΔｔだけ、第２再生信号の遅延量を増減させるよう、第１再生信号及び第２再生信号の出力時間を制御する（Ｓ２３）。図６は、遅延量Ｎ＝Ｎ_０−Δｔとすることで、第２再生信号が受聴者１０にとって先行音となるように制御した場合を示す。

ここで、遅延量Ｎは、フロントスピーカ出力と耳近傍スピーカ出力によって所望の音場が形成されるように適切な値が出力時間差制御部３ａにより設定される。適切な遅延量は、例えばあらかじめ主観評価実験を行い、フロントスピーカ出力と耳近傍スピーカ出力との間の遅延量を可変させて、先行音効果により所望の音場が得られるような遅延量を求めることで決定する。

ただし、遅延量が大きすぎると受聴者がフロントスピーカ用信号と耳近傍スピーカ用信号を別々に知覚することにより不快なエコー感が増大し、フロントスピーカによる音場と耳近傍スピーカによる音場が分離して音場の一体感が失われてしまう、という問題が発生する。よって、遅延量は、大きすぎないことが望ましい。具体的には、前述のように、０＜Δｔ＜２０［ｍｓｅｃ］とすることが考えられる。なお、被験者実験の結果、より詳細には、２［ｍｓｅｃ］＜Δｔ＜８［ｍｓｅｃ］とすることが好ましい。

なお、本実施の形態においては説明のため、（１）ステップＳ２２において、第１再生信号と第２再生信号との受聴者１０への到達時間差を０にする遅延（Ｎ_０）を一方の音声信号に与えた後、（２）ステップＳ２３において、先行音効果を生じさせるために、いずれかの音声信号の遅延量を増減させるという２段階の処理を行った。

しかし、必ずしも遅延処理を２段階に分割する必要はなく、１段階で行ってもよい。例えば、Ｎ_０及びΔｔを事前に定めておき、出力時間差制御部３ａが、第１再生信号及び第２再生信号のうちの一方を常にΔｔ_０＝Ｎ_０−Δｔだけ遅延させるよう、出力時間の差を制御してもよい。

すなわち、本実施の形態に係る音声信号再生装置１００Ａは、所定の範囲として、０ミリ秒を超え、かつ、２０ミリ秒未満となる時間を使用することが好ましい。

言いかえると、出力時間差制御部３ａは、第１音が受聴者１０へ到達する第１時刻と、第２音が受聴者１０へ到達する第２時刻との差の絶対値が、０ミリ秒を超え、かつ、２０ミリ秒未満となるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。

より詳細には、出力時間差制御部３ａは、第２時刻が第１時刻よりも、０ミリ秒を超えて２０ミリ秒未満の時間だけ早くなるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。また、出力時間差制御部３ａは、第１時刻が第２時刻よりも、０ミリ秒を超えて２０ミリ秒未満の時間だけ早くなるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。

すなわち、本実施の形態に係る出力時間差制御部３ａは、第１再生音に含まれる音である第１音が受聴者１０へ到達する第１時刻と、第２再生音に含まれる音であって、第１音と同一の音である第２音が受聴者１０へ到達する第２時刻との差の絶対値が、０ミリ秒を超え、かつ、２０ミリ秒未満となるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。

詳細には、出力時間差制御部３ａは、第１時刻と第２時刻との差の絶対値が、２ミリ秒を超えて８ミリ秒未満となるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。また、出力時間差制御部３ａは、第２時刻が第１時刻よりも、２ミリ秒を超えて８ミリ秒未満の時間だけ早くなるように、第１再生信号と第２再生信号との出力時間の差を制御してもよい。

なお、本実施の形態において、第１音と第２音のどちらが先に受聴者１０へ到達するかによって、受聴者１０にとって定位する仮想音場の特性は変化する。以下、図７を参照して、この違いを説明する。

図７は、実施の形態に係る２つのスピーカ群（第１スピーカ群５１ｓ及び第２スピーカ群５２ｓ）の各々からの音の到達の先後が音場定位に与える影響を示す図である。

表３３１は、耳近傍に設置される第２スピーカ群５２ｓから再生された第２音が、Δｔだけ先に受聴者１０へ到達した場合の音場定位の特性を示す。表３３１に示されるように、この場合に定位する仮想音場は、距離感よりも方向感の精度に優れた仮想音場となる。

また、表３３２は、受聴者１０の前方に設置される第１スピーカ群５１ｓから再生された第１音が、Δｔだけ先に受聴者１０へ到達した場合の音場定位の傾向を示す。表３３２に示されるように、この場合に定位する仮想音場は、方向感よりも距離感の精度に優れた仮想音場となる。

これは、第１スピーカ群５１ｓの再生音により定位する仮想音場と、第２スピーカ群５２ｓの再生音により定位する仮想音場とを比較すると、第１スピーカ群５１ｓの再生音は、仮想音場の距離感の定位により優れ、一方、第２スピーカ群５２ｓの再生音は、仮想音場の方向感（第１スピーカ群５１ｓが受聴者１０の前方にある場合には、特に後方の方向感）の定位により優れるためである。

よって、本実施の形態に係る音声信号再生装置１００Ａは、第１スピーカ群５１ｓと第２スピーカ群５２ｓとを併用することにより生じる聴感上の違和感を、先行音効果によって抑制することに加え、仮想音場の位置に応じて、距離感と方向のいずれの定位精度を優先するかを個別に選択することで、より自然で精度の高い仮想音場を定位させることができる。

例えば、図２を参照して、受聴者１０の前方に定位させる仮想音源（１１、１２、１５）の定位を第１スピーカ群５１ｓに任せ、受聴者１０の後方に定位させる仮想音源（２３、２４）の定位を第２スピーカ群５２ｓに任せることで、距離と方向の定位を両立させることが可能となる。

よって、音声信号再生装置１００Ａが備える出力時間差制御部３ａは、第１音声信号に含まれるオーディオチャンネル信号のうち、受聴者１０の前方に定位させる仮想音源に対応するオーディオチャンネル信号に含まれる音は、第２音声信号に含まれる同じ音よりも、Δｔだけ早く受聴者１０へ到達するように、音声信号の出力時間の差を制御することが好ましい。同様に、出力時間差制御部３ａは、第２音声信号に含まれるオーディオチャンネル信号のうち、受聴者１０の後方に定位させる仮想音源に対応するオーディオチャンネル信号に含まれる音は、第１音声信号に含まれる同じ音よりも、Δｔだけ早く受聴者１０へ到達するように、音声信号の出力時間の差を制御することが望ましい。

言いかえると、第１仮想音像位置のうち、第１位置が受聴者の後方である場合、仮想音場生成部８０Ａは、第２音が、第１音よりも先に受聴位置に到達するよう第１再生信号および第２再生信号を生成してもよい。また、第１位置が、受聴者の前方である場合、仮想音場生成部８０Ａは、第１音が、第２音よりも先に受聴位置に到達するよう第１再生信号および第２再生信号を生成してもよい。

すなわち、出力時間差制御部３ａは、フロントスピーカ用信号と耳近傍スピーカ用信号の各信号を構成する複数のオーディオチャンネル信号の全てを対象として出力タイミングを制御してもよいし、あるオーディオチャンネル信号だけを対象として出力タイミングを制御してもよい。また、図６においては耳近傍スピーカ用信号には遅延を与えず、フロントスピーカ用信号に遅延を与えているが、フロントスピーカ用信号には遅延を与えず、耳近傍スピーカ用信号に遅延を与えてもよい。

図８は、以上のようにして、本実施の形態に係る音声信号再生装置１００Ａが備える出力時間差制御部３ａが出力時間差を制御した第１再生信号と第２再生信号とが、第１スピーカ群５１ｓと第２スピーカ群５２ｓとから出力されることによって生成された複数の仮想音像の一例を示す。

図８は、フロントＬスピーカ６とフロントＲスピーカ７とによって、仮想ＦＬスピーカ３０、仮想ＦＲスピーカ３１、仮想センターチャンネルスピーカ（仮想Ｃスピーカ）３２、仮想ＳＬスピーカ３３、及び、仮想ＳＲスピーカ３４が生成され、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とによって、仮想ＦＬスピーカ３５、仮想ＦＲスピーカ３６、仮想Ｃスピーカ３７、仮想ＳＬスピーカ３８、及び、仮想ＳＲスピーカ３９が生成される様子を表している。

なお、図８では５チャンネルのオーディオチャンネル信号を音声信号再生装置１００Ａによる処理の対象としているが、前述のとおり、ある特定のオーディオチャンネル信号だけを対象としてもよい。

なお、図２では、仮想音場生成部８０Ａは、フィルタ処理部７０の前段に出力時間差制御部３ａを備えており、出力時間差制御部３ａによって出力時間に差がつけられた各オーディオチャンネル信号に対して、フィルタ処理部７０が音場生成処理を施す構成になっている。しかし、音声信号再生装置１００Ａは、必ずしもフィルタ処理部７０の前段に別個の処理部として出力時間差制御部３ａを備えなくてもよい。

図９は、本実施の形態に係る音声信号再生装置１００Ａの変形例を示すブロック図である。本変形例では、出力時間差制御部３ａはフィルタ処理部７０の中に取り込まれている。

すなわち、本変形例における出力時間差制御部３ａは、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５と一体となったソフトウェアとして実装される。

具体的には、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５の各々は、各オーディオチャンネル信号に対して遅延処理を施すととともに、音場生成処理を施す。より具体的には、出力時間差制御部３ａは、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５の各々が有するフィルタ係数を表す行列に含まれる要素のうち、各オーディオチャンネル信号の位相に該当する要素にのみ、位相を遅らせる（又は、進ませる）ことで実装される。この場合、フィルタ処理部７０内部の処理において、出力時間差制御部３ａの処理と、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５の処理とは、順不同で実行される。

すなわち、図９に示すように、出力時間差制御部３ａは、フィルタ処理部７０の前段にあっても、フィルタ処理部７０の構成の一部として実装されても、同様の効果を奏する。

なお、第１スピーカ群は、必ずしも受聴者１０の前に設置されていなくてもよい。例えば、第１スピーカ群を受聴者１０の後方に設置してもよい。この場合、出力時間差制御部３ａが、第２音声信号の再生音よりも早く第１音声信号の再生音が受聴者１０に届くよう、出力時間の差を制御すると、より後方の距離感の定位精度が向上する。

以上述べたように、本実施の形態に係る音声信号再生装置１００Ａによると、音声信号再生装置は、取得した音声信号を、第１スピーカ群（例えばフロントスピーカ）で再生した場合と、第２スピーカ群（例えば耳近傍スピーカ）で再生した場合とでは、事前に定められた範囲内の微少時間だけずれて再生音が受聴者に到達するように制御する。これにより受聴者は、先行音効果が生じた２つの音を受聴することになる。結果、受聴者は、受聴するタイミングがずれているにもかかわらず、後に到達した音により定位する仮想の音場が、先に到達した音により定位した仮想の音場と一致するように聞こえる。さらに、受聴者は、後に到達した音よりも先に到達した音を強く意識する。よって、フロントスピーカと耳近傍スピーカとで生成する仮想の音場において生じる、音場の分離、偏り、またはぼやけによる聴感上の違和感を抑制するとともに、フロントスピーカから音を出力する際のメリットまたは、耳近傍スピーカから音を出力する際のメリットを活用できる。

（実施の形態２）
次に、受聴位置において、第１音と第２音との音圧値が異なるように、仮想音場生成部が第１再生信号及び第２再生信号を生成する実施例を、実施の形態２として詳細に説明する。

図１０は、本実施の形態に係る音声信号再生装置１００Ｂの構成を示すブロック図である。

本実施の形態に係る音声信号再生装置１００Ｂは、受聴者１０の周囲に配置される複数のスピーカであるフロントスピーカ（以下、第１スピーカ群ともいう）５１ｓと、第１スピーカ群５１ｓよりも受聴者に近い位置に配置される複数のスピーカである耳近傍スピーカ（以下、第２スピーカ群ともいう）５２ｓとに対して、音場生成処理が施された音声信号を出力する音声信号再生装置である。

図１０に示されるように、音声信号再生装置１００Ｂは、取得部１及び仮想音場生成部８０Ｂを備える。

また、取得部１は、取得した音声信号から、第１スピーカ群５１ｓで第１再生音として再生するための第１音声信号と、第２スピーカ群５２ｓで第２再生音として再生するための第２音声信号とを生成する。すなわち、第１音声信号及び第２音声信号は、それぞれ５ｃｈのオーディオチャンネル信号を含む音声信号である。

仮想音場生成部８０Ｂは、第１再生音により、複数のオーディオチャンネル信号の各々に対応付けられた仮想音源である第３スピーカ群が事前に定められた位置に定位し、第２再生音により、第３スピーカ群とは異なる複数の仮想音源であって、複数のオーディオチャンネル信号の各々に対応付けられた仮想音源である第４スピーカ群が事前に定められた位置に定位するように、第１音声信号及び第２音声信号に音場生成処理を施す。

具体的には、仮想音場生成部８０Ｂは、第３スピーカ群及び第４スピーカ群に含まれる各々の仮想音源の音圧値が、当該仮想音源に対応するオーディオチャンネル信号と、当該オーディオチャンネル信号に対応するゲインとを乗じて得られる音圧値となるように、音場生成処理を施す。より具体的には、仮想音場生成部８０Ｂは、第１再生信号により示され、第１仮想音像位置のうち第１位置に定位する第１音と、第２再生信号により示され、第１位置と略同一位置に定位し、かつ、第１音と前記第２再生信号とに含まれる音であって、略同一の特徴を有する第２音とが、受聴位置において、音圧値が異なるように、第１再生信号および第２再生信号を生成する。詳細は後述する。

また、仮想音場生成部８０Ｂは、音圧値調整部３ｂと、フィルタ処理部７０とを有する。

音圧値調整部３ｂは、複数のオーディオチャンネル信号の各々に、対応するゲインを乗じることにより音圧値を調整する。

フィルタ処理部７０は、第１再生音により第３スピーカ群が定位するように第１音声信号にフィルタ処理を施し、第２再生音により第４スピーカ群が定位するように第２音声信号にフィルタ処理を施す。ここで、第３スピーカ群と第４スピーカ群とは同じ位置に定位する。具体的には、フィルタ処理部７０は、第１音声信号及び第２音声信号を構成する複数のオーディオチャンネル信号の各々に対して、周波数振幅応答及び位相応答を変更する。フィルタ処理部７０の具体的な処理内容は、前述した関連技術に係る頭部伝達関数により決定されるため、詳細は省略する。

フィルタ処理部７０は、耳近傍スピーカ用フィルタ４と、フロントスピーカ用フィルタ５とを有する。

なお、図示の都合上、図１０において第３スピーカ群と第４スピーカ群の位置はずれているが、実際は、それぞれオーディオチャンネル信号に対応する同じ位置に定位してもよいし、異なる位置に定位してもよい。以降の説明では、同じ位置に定位する場合について述べる。

図１０に示される様に構成された音声信号再生装置１００Ｂを介して、フロントＬスピーカ６及びフロントＲスピーカ７を含む第１スピーカ群と、耳近傍Ｌスピーカ８及び耳近傍Ｒスピーカ９を含む第２スピーカ群とからそれぞれ再生される音を聴くことにより、受聴者１０には、実在しない仮想音源である、仮想ＦＬスピーカ１１及び２１、仮想ＦＲスピーカ１２及び２２、仮想ＳＬスピーカ１３及び２３、仮想ＳＲスピーカ１４及び２４、並びに仮想Ｃスピーカ１５及び２５の位置から再生音が聞こえる。

しかし、前述のように、第１スピーカ群による第１再生音、及び、第２スピーカ群による第２再生音の各々を用いて各仮想音源を定位させる場合、同一の仮想音源を定位させるための同一の音が、同じゲインで再生されると、受聴者は聴感上の違和感を生じる。すなわち、複数の仮想音源全体としてゲインバランスが適切でないために、仮想音源により形成される音場に偏りが発生して不自然な音場になり、また、一方のスピーカで定位する仮想音場が支配的となることで音場の分離が発生してしまう。

そこで、本実施の形態に係る音声信号再生装置１００Ｂは、仮想音場生成部８０Ｂにおいて、仮想音場に対応するオーディオチャンネル信号ごとにゲインを設定することにより、上記課題を解決する。

次に、以上のように構成された本実施の形態に係る音声信号再生装置１００Ｂの音像定位処理について、より詳細に説明する。

図１１は、本実施の形態に係る音声信号再生装置１００Ｂの動作の一例を示すフローチャートである。

次に、取得部１は、取得した複数のオーディオチャンネル信号を含む音声信号をフロントスピーカ５１ｓと耳近傍スピーカ５２ｓとでそれぞれ個別に処理して再生するために、同一音声信号からなる２系統の音声信号（すなわち、第１音声信号と第２音声信号と）を生成する（Ｓ２２）。

なお、必ずしも同一音声信号からなる２系統の音声信号を生成する必要はなく、例えば受聴者とフロントスピーカ５１ｓとの距離、及び受聴者と耳近傍スピーカ５２ｓとの距離などを考慮して、生成する際の信号値のゲインを変更しても良いし、フロントスピーカ５１ｓと耳近傍スピーカ５２ｓの能率を考慮して、生成する際の信号値のゲインを変更しても良いし、複数のオーディオチャンネル信号の各信号値のゲインを個別に変更しても良い。ここで、信号値とは、オーディオチャンネル信号毎に信号内で指定されている音圧の大きさを示す値である音圧値を意味する。

例えば、受聴者１０とスピーカとの距離が遠いほど、より大きな信号値となるようにゲインを変更してもよい。また、スピーカの能率が悪いほど、より大きな信号値となるようにゲインを変更してもよい。

本実施例においては、以降、簡単のために、受聴者１０の位置でフロントスピーカ５１ｓの出力と耳近傍スピーカ５２ｓの出力とが聴感上等しくなるような信号値で同一音声信号を２系統の音声信号を生成した場合について述べる。

次に、フロントスピーカ５１ｓと耳近傍スピーカ５２ｓとで再生する各オーディオチャンネル信号の音圧値を調整する（Ｓ２３）。具体的な調整方法について、図１２を用いて説明する。

図１２は、あらかじめフロントスピーカ用及び耳近傍スピーカ用に決定され、本実施の形態に係る音圧値調整部３ｂが記憶している、各オーディオチャンネル信号のゲインを表している。より詳細には、フロントスピーカ５１ｓへ出力される５ｃｈの音声信号（ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号）のゲインと、耳近傍スピーカ５２ｓへ出力される５ｃｈの音声信号（ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号）のゲインとを示す。

前述のとおり、ゲインとは、音圧値調整部３ｂが取得した第１音声信号及び第２音声信号の各々に含まれている音圧値（以後、この音圧値を既定音圧値ともいう）からの増減度合いを示す。ここで、ゲインが１の場合、音圧値調整部３ｂは、対応するオーディオチャンネル信号の音圧値をそのまま（すなわち、取得部１が取得した音声信号に含まれている音圧値のまま）出力する。また、ゲインが０の場合、音圧値調整部３ｂは、対応するオーディオチャンネル信号を出力しない。また、ゲインが１を超える場合、音圧値調整部３ｂは、対応するオーディオチャンネル信号の音圧値を、元々含まれている音圧値よりも大きくなるように調整して出力する。逆に、ゲインが０を超えて１未満の場合、音圧値調整部３ｂは、対応するオーディオチャンネル信号の音圧値を、元々含まれている音圧値よりも小さくなるように調整して出力する。

なお、ゲインが２である場合であっても、音圧値調整部３ｂは必ずしも音圧値を２倍に調整しなくてもよい。例えば、任意の実数をＲ、ゲインの値をＧとした場合、音圧値調整部３ｂは、音圧値をＧ×Ｒ倍にしてもよい。また、ゲインが２のときは、音圧値を既定音圧値のａ倍に、ゲインが３のときは、音圧値を既定音圧値のｂ倍にしてもよい。ここで、ａ＜ｂとする。

すなわち、音圧値調整部３ｂが記憶するゲインの値は、順序尺度、間隔尺度、比例尺度のうちのいずれであってもよい。

図１２の各列に対応するケース（１）〜（６）は、それぞれのゲインで各オーディオチャンネル信号の音圧値を調整し、各スピーカで再生するケースをそれぞれ表している。なお、ケース（７）は、本実施の形態における音圧値調整部３ｂによっては設定されないゲインの組合せを示す。

以下、各ケースについて説明する。

ケース（１）の場合、第１音声信号に含まれるフロントスピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号はゲインが１のため既定音圧値で再生され、ＳＬ信号、及びＳＲ信号はゲインが０のために再生されず、無音となる。

同様に、第２音声信号に含まれる耳近傍スピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号はゲインが０のために再生されず無音であり、ＳＬ信号、及びＳＲ信号はゲインが１のため既定音圧値で再生される。つまり、フロントスピーカ用信号として、ＦＬ信号、ＦＲ信号、及びＣ信号がゲイン１で出力され、耳近傍スピーカ用信号として、ＳＬ信号、及びＳＲ信号がゲイン１で出力されることとなる。

従って、フロントスピーカ用信号のＦＬ信号、ＦＲ信号、及びＣ信号と、耳近傍スピーカ用信号のＳＬ信号、及びＳＲ信号とは共にゲインが１で等しいため、ゲインの大きさが等しい信号値として出力される。このように信号値を調整されたフロントスピーカ用信号がフロントスピーカ用フィルタ５へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ４へ出力されることにより（Ｓ２４）生成される音場を図１３に表す。

図１３において、フロントＬスピーカ６とフロントＲスピーカ７とから再生される第１再生音により、仮想ＦＬスピーカ３０と仮想ＦＲスピーカ３１と仮想Ｃスピーカ３２とが定位する。また、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とから再生される第２再生音により、仮想ＳＬスピーカ３３と仮想ＳＲスピーカ３４とが定位する。

このような音場を生成している現実のスピーカはフロントＬスピーカ６、フロントＲスピーカ７、耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９であるが、受聴者１０は、（１）フロントＬスピーカ６、及びフロントＲスピーカ７により定位する、仮想ＦＬスピーカ３０、仮想ＦＲスピーカ３１、及び仮想Ｃスピーカ３２の位置と、（２）耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９により定位する、仮想ＳＬスピーカ３３、及び仮想ＳＲスピーカ３４の位置とに、仮想音源をそれぞれ等しい信号値で知覚する。

次に、ケース（２）の場合、フロントスピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号のゲインには全て１が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号のゲインには１が指定され、ＳＬ信号、及びＳＲ信号のゲインには２が指定されている。つまり、フロントスピーカ用信号として、ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号がゲイン１で出力される。また、耳近傍スピーカ用信号として、ＦＬ信号、ＦＲ信号、及びＣ信号がゲイン１で出力され、ＳＬ信号、及びＳＲ信号がゲイン２で出力される。

このように信号値を調整されたフロントスピーカ用信号がフロントスピーカ用フィルタ５へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ４へ出力されることにより（Ｓ２４）生成される音場を図１４に表す。

図１４において、フロントＬスピーカ６とフロントＲスピーカ７とから再生される第１再生音により、仮想ＦＬスピーカ４０と仮想ＦＲスピーカ４１と仮想Ｃスピーカ４２と仮想ＳＬスピーカ４３と仮想ＳＲスピーカ４４とが定位する。また、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とから再生される第２再生音により、仮想ＦＬスピーカ４５と仮想ＦＲスピーカ４６と仮想Ｃスピーカ４７と仮想ＳＬスピーカ４８と仮想ＳＲスピーカ４９とが定位する。

このような音場を生成している現実のスピーカはフロントＬスピーカ６、フロントＲスピーカ７、耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９であるが、受聴者１０は、（１）フロントＬスピーカ６、及びフロントＲスピーカ７により定位する、仮想ＦＬスピーカ４０、仮想ＦＲスピーカ４１、仮想Ｃスピーカ４２、仮想ＳＬスピーカ４３、及び仮想ＳＲスピーカ４４の位置と、（２）耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９により定位する、仮想ＦＬスピーカ４５、仮想ＦＲスピーカ４６、仮想Ｃスピーカ４７、仮想ＳＬスピーカ４８、及び仮想ＳＲスピーカ４９の位置とに、仮想音源をそれぞれ知覚する。

ここで、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とにより仮想ＳＬスピーカ４８と仮想ＳＲスピーカ４９とを定位させるために用いる信号値のゲインが「２」であるために、特に耳近傍スピーカ５２ｓによる後方の仮想音源の知覚を強調することができる。

次に、ケース（３）の場合、フロントスピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号のゲインには「２」が指定されている。また、ＳＬ信号、及びＳＲ信号のゲインには「１」が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号のゲインには「１」が指定されている。また、ＳＬ信号、及びＳＲ信号のゲインには「２」が指定されている。

つまり、フロントスピーカ用信号として、ＦＬ信号、ＦＲ信号、及びＣ信号がゲイン「２」で出力され、ＳＬ信号、及びＳＲ信号がゲイン「１」で出力される。また、耳近傍スピーカ用信号として、ＦＬ信号、ＦＲ信号、及びＣ信号がゲイン「１」で出力され、ＳＬ信号、及びＳＲ信号がゲイン「２」で出力される。

このように信号値を調整されたフロントスピーカ用信号が、フロントスピーカ用フィルタ５へ出力され、信号値を調整された耳近傍スピーカ用信号が耳近傍スピーカ用フィルタ４へ出力されることにより（Ｓ２４）生成される音場を図１５に表す。

図１５において、フロントＬスピーカ６とフロントＲスピーカ７とから再生される第１再生音により、仮想ＦＬスピーカ５０と仮想ＦＲスピーカ５１と仮想Ｃスピーカ５２と仮想ＳＬスピーカ５３と仮想ＳＲスピーカ５４とが定位する。また、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とから再生される第２再生音により、仮想ＦＬスピーカ５５と仮想ＦＲスピーカ５６と仮想Ｃスピーカ５７と仮想ＳＬスピーカ５８と仮想ＳＲスピーカ５９とが定位する。

このような音場を生成している現実のスピーカはフロントＬスピーカ６、フロントＲスピーカ７、耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９であるが、受聴者１０は、（１）フロントＬスピーカ６、及びフロントＲスピーカ７により定位する、仮想ＦＬスピーカ５０、仮想ＦＲスピーカ５１、仮想Ｃスピーカ５２、仮想ＳＬスピーカ５３、及び仮想ＳＲスピーカ５４の位置と、（２）耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９により定位する、仮想ＦＬスピーカ５５、仮想ＦＲスピーカ５６、仮想Ｃスピーカ５７、仮想ＳＬスピーカ５８、及び仮想ＳＲスピーカ５９の位置とに、仮想音源をそれぞれ知覚する。

ここで、フロントＬスピーカ６とフロントＲスピーカ７とにより仮想ＦＬスピーカ５０と仮想ＦＲスピーカ５１とを定位させるために用いる信号値のゲインと、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とにより仮想ＳＬスピーカ５８と仮想ＳＲスピーカ５９とを定位させるために用いる信号値のゲインがともに「２」である。よって、特にフロントスピーカ５１ｓにより定位する、受聴者１０より前方の仮想音源と、耳近傍スピーカ５２ｓにより定位する、受聴者１０より後方の仮想音源の知覚を強調することができる。

次に、ケース（４）の場合、フロントスピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、及びＣ信号のゲインには「２」が指定され、ＳＬ信号、及びＳＲ信号のゲインには「１」が指定されている。同様に、耳近傍スピーカ用の各オーディオチャンネル信号において、ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号のゲインには「１」が指定されている。つまり、フロントスピーカ用信号として、ＦＬ信号、ＦＲ信号、及びＣ信号がゲイン「２」で出力され、ＳＬ信号、及びＳＲ信号がゲイン「１」で出力される。また、耳近傍スピーカ用信号として、ＦＬ信号、ＦＲ信号、Ｃ信号、ＳＬ信号、及びＳＲ信号がゲイン「１」で出力される。

このように信号値を調整されたフロントスピーカ用信号が、フロントスピーカ用フィルタ５へ出力され、信号値を調整された耳近傍スピーカ用信号が、耳近傍スピーカ用フィルタ４へ出力されることにより（Ｓ２４）生成される音場を図１６に表す。

図１６において、フロントＬスピーカ６とフロントＲスピーカ７とから再生される第１再生音により、仮想ＦＬスピーカ６０と仮想ＦＲスピーカ６１と仮想Ｃスピーカ６２と仮想ＳＬスピーカ６３と仮想ＳＲスピーカ６４とが定位する。また、耳近傍Ｌスピーカ８と耳近傍Ｒスピーカ９とから再生される第２再生音により、仮想ＦＬスピーカ６５と仮想ＦＲスピーカ６６と仮想Ｃスピーカ６７と仮想ＳＬスピーカ６８と仮想ＳＲスピーカ６９とが定位する。

このような音場を生成している現実のスピーカはフロントＬスピーカ６、フロントＲスピーカ７、耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９であるが、受聴者１０は、（１）フロントＬスピーカ６、及びフロントＲスピーカ７により定位する、仮想ＦＬスピーカ６０、仮想ＦＲスピーカ６１、仮想Ｃスピーカ６２、仮想ＳＬスピーカ６３、及び仮想ＳＲスピーカ６４の位置と、（２）耳近傍Ｌスピーカ８、及び耳近傍Ｒスピーカ９により定位する、仮想ＦＬスピーカ６５、仮想ＦＲスピーカ６６、仮想Ｃスピーカ６７、仮想ＳＬスピーカ６８、及び仮想ＳＲスピーカ６９の位置とに、仮想音源をそれぞれ知覚する。

ここで、フロントＬスピーカ６とフロントＲスピーカ７により仮想ＦＬスピーカ６０と仮想ＦＲスピーカ６１とを定位させるために用いる信号値のゲインが「２」であるために、特にフロントスピーカ５１ｓによる前方の仮想音源の知覚を強調することができる。

なお、図１３〜図１６にそれぞれ示した、ケース（１）〜（６）は本実施の形態に係る音声信号再生装置１００Ｂにおけるゲインの一例を示しており、各スピーカ用のオーディオチャンネル信号の信号値に対するゲインは、これに限られない。

すなわち、本実施の形態に係る仮想音場生成部８０Ｂは、（１）第３スピーカ群に含まれる少なくとも１つの仮想音源である第１仮想音源に対応するオーディオチャンネル信号のゲインと、（２）第４スピーカ群に含まれる少なくとも１つの仮想音源であって、第１仮想音源と同じ位置に定位する仮想音源に対応するオーディオチャンネル信号のゲインとが異なるように、第１音声信号及び第２音声信号に音場生成処理を施してもよい。

また、本実施の形態に係る仮想音場生成部８０Ｂは、第３スピーカ群及び第４スピーカ群のうちの少なくとも一方のスピーカ群に含まれる、少なくとも１つの仮想音源に対応するオーディオチャンネル信号のゲインと、当該スピーカ群に含まれる他の仮想音源に対応するオーディオチャンネル信号のゲインとが異なるように、音場生成処理を施してもよい。

次に、本実施の形態に係る仮想音場生成部８０Ｂが用いるゲインの限界事例を、図１２に示されるケース（５）及び（６）を参照して説明する。

図１２のケース（５）において、フロントスピーカ用の音声信号に含まれる全てのオーディオチャンネル信号には、ゲイン「１」が指定されている。また、耳近傍スピーカ用の音声信号に含まれる全てのオーディオチャンネル信号には、ゲイン「２」が指定されている。すなわち、第１音声信号内の全てのオーディオチャンネル信号のゲインは等しく、第２音声信号内の全てのオーディオチャンネル信号のゲインも等しいが、第１音声信号と第２音声信号とで、対応するオーディオチャンネル信号のゲインが異なるように、本実施の形態に係る仮想音場生成部８０Ｂは音場生成処理を施してもよい。

また、図１２のケース（６）において、フロントスピーカ用の音声信号に含まれるオーディオチャンネル信号のゲインは、Ｃ信号にはゲイン２が指定され、その他の信号にはゲイン１が指定されている。また、耳近傍スピーカ用の音声信号に含まれるオーディオチャンネル信号のゲインも、Ｃ信号にはゲイン２が指定され、その他の信号にはゲイン１が指定されている。すなわち、第１音声信号と第２音声信号とで、対応するオーディオチャンネル信号のゲインは等しいが、第１音声信号内に含まれる全てのオーディオチャンネル信号のゲインは同一ではなく、第２音声信号内に含まれる全てのオーディオチャンネル信号のゲインも同一とはならないように、本実施の形態に係る仮想音場生成部８０Ｂは音場生成処理を施してもよい。

なお、図１２のケース（７）は、関連技術に係る音声信号再生装置が使用するゲインを示す。すなわち、関連技術に係る音声信号再生装置は音圧値調整部３ｂを備えておらず、オーディオチャンネル信号ごとにゲインを設定しないで出力する。

なお、図１２に示されるケース（１）〜（７）のうち、ケース（３）が最も好ましい。

すなわち、仮想音場生成部８０Ｂは、第３スピーカ群に含まれる複数の仮想音源のうち、受聴者１０の前方に定位する仮想音源に対応するオーディオチャンネル信号のゲインが、受聴者１０の後方に定位する仮想音源に対応するオーディオチャンネル信号のゲインよりも大きくなるように、前記第１音声信号へ前記音場生成処理を施すことが好ましい。言いかえると、仮想音場生成部８０Ｂは、第１仮想音像位置に定位する音のうち、受聴者の前方に定位する音の音圧値が、受聴者の後方に定位する音の音圧値よりも大きくなるように、第１再生信号を生成することが好ましい。

受聴者１０の前方に定位する仮想音源は、受聴者１０の前方に設置されたスピーカである第１スピーカ群５１ｓの第１再生音で定位させる方が、より正確な音場を定位させることができるためである。

また、仮想音場生成部８０Ｂは、第４スピーカ群に含まれる複数の仮想音源のうち、受聴者１０の後方に定位する仮想音源に対応するオーディオチャンネル信号のゲインが、受聴者１０の前方に定位する仮想音源に対応するオーディオチャンネル信号のゲインよりも大きくなるように、第２音声信号へ前記音場生成処理を施すことが好ましい。言いかえると、仮想音場生成部８０Ｂは、第２仮想音像位置に定位する音のうち、受聴者の後方に定位する音の音圧値が、受聴者の前方に定位する音の音圧値よりも大きくなるように、第２再生信号を生成することが好ましい。

受聴者１０の後方に定位する仮想音源は、受聴者１０の耳近傍に設置されたスピーカである第２スピーカ群５２ｓの第２再生音で定位させる方が、より正確な音場を定位させることができるためである。

以上述べたように、本実施の形態において仮想音場生成部８０Ｂは、定位する仮想音源に対応するオーディオチャンネル信号ごとにゲインを変更し、仮想音場を生成することができる。すなわち、仮想音源ごとに、仮想音源から再生される音の音圧値を変更し、仮想音場全体としてのゲインバランスを調整することが可能となる。その結果、第１スピーカ群と第２スピーカ群で生成される仮想音像による音場の偏りや分離を抑えることができる。

また、例えば図１２のケース（１）又はケース（２）に示されるゲインによれば、音声信号再生装置１００Ｂは、特に受聴者１０の後方に定位させるべき仮想音源を第２スピーカ群５２ｓで定位させることができる。これにより、音声信号再生装置１００Ｂは、後方の仮想音源の定位精度が弱いフロントスピーカだけを用いるフロントバーチャルサラウンドシステムと比較して、後方の仮想音像の定位精度を向上させることができる。

また、例えば図１２のケース（３）に示されるゲインによれば、音声信号再生装置１００Ｂは、受聴者１０の前方に定位する仮想音源を受聴者１０の前方に設置されたスピーカである第１スピーカ群５１ｓで定位させ、受聴者１０の後方に定位する仮想音源を受聴者１０の耳近傍に設置されたスピーカである第２スピーカ群５２ｓで定位させることにより、より正確な音場を定位させることができる。

なお、音圧値調整部３ｂは、別途備えたユーザインタフェース（図示なし）を通じて取得した受聴者１０からの指示により、使用するゲインを決定してもよい。例えば、図１２に示されるケース（１）〜（６）のうち、どのケースを使用するかを、受聴者１０からの指示により決定してもよい。また、受聴者１０が、各オーディオチャンネル信号のゲインを、ユーザインタフェース（図示なし）により入力し、これを新たなケースとして、音圧値調整部３ｂへ記憶させてもよい。

なお、図１２に示されるような、各オーディオチャンネル信号に対応付けられたゲインの値は、音圧値調整部３ｂが必ずしも記憶している必要はなく、例えば、ゲインが記憶されている外部記憶媒体から音圧値調整部３ｂが取得してもよい。

なお、本実施の形態に係る音圧値調整部３ｂは、複数の増幅器（いわゆるアンプ）を用いて実装することができる。

図１７は、本実施の形態に係る音圧値調整部３ｂのより詳細な構成の一例を示すブロック図である。同図に示すように、各スピーカ用のオーディオチャンネル信号のゲインに応じて信号値を可変制御できる機能を有する音圧値調整部３ｂは、各スピーカ用のオーディオチャンネル信号のゲインに応じて信号値を可変制御できる増幅器４２１および増幅器４２２で構成されるとしてもよい。ここで増幅器４２１及び増幅器４２２は、具体的には、入力信号の電圧、電流、又は電力のいずれかを増幅させて出力する電子回路である。

なお、図１７では、仮想音場生成部８０Ｂは、フィルタ処理部７０の前段に音圧値調整部３ｂを備えており、音圧値調整部３ｂにより音圧値の調整がなされた第１音声信号及び第２音声信号の各々に対して、フィルタ処理部７０が音場生成処理を施す構成になっている。しかし、音声信号再生装置１００Ｂは、必ずしもフィルタ処理部７０の前段に別個の処理部として音圧値調整部３ｂを備えなくてもよい。

図１８は、本実施の形態の変形例に係る音声信号再生装置のより詳細な構成を示すブロック図である。同図に示すように、取得部１は、複数のオーディオチャンネル信号によって構成される音声信号から、耳近傍スピーカ用信号とフロントスピーカ用信号との２系統の音声信号を生成し、フィルタ処理部７０に出力する。

本変形例では、音圧値調整部３ｂはフィルタ処理部７０の中に取り込まれている。

すなわち、本変形例における音圧値調整部３ｂは、電子回路ではなく、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５と同様に、ソフトウェアとして実装される。

具体的には、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５の各々が有する各オーディオチャンネル信号に対応するフィルタ係数そのもののゲインを、音圧値調整部３ｂが記憶しているゲインにあわせて調整する。より具体的には、音圧値調整部３ｂは、耳近傍スピーカ用フィルタ４及びフロントスピーカ用フィルタ５の各々が有するフィルタ係数を表す行列に含まれる要素のうち、各オーディオチャンネル信号の音圧値に該当する要素にのみ、対応するゲインの値を乗算する等の計算処理を行えばよい。

図１７及び図１８に示したように、音圧値調整部３ｂは、フィルタ処理部７０の前段にあっても、フィルタ処理部７０の構成の一部として実装されても、同様の効果を奏する。

以上説明したように、本実施の形態に係る音声信号再生装置１００Ｂによれば、フロントスピーカ５１ｓ及び耳近傍スピーカ５２ｓの出力音圧レベルを所望の音場に応じて各々適切に制御する事により、それぞれのスピーカから生成される仮想音源の定位精度を制御することができる。その結果、音場の分離や偏りなどの聴感上の違和感を抑えるとともに、所望の方位の定位精度を強調し、例えば仮想音源による後方定位を強調した音場を生成する事ができる。その結果、音像をより正確に定位させることができる。

なお、上記実施の形態１及び実施の形態２を組み合わせてもよい。例えば、仮想音場生成部は、第１再生信号により示され、第１仮想音像位置のうち第１位置に定位する第１音と、第２再生信号により示され、第１位置と略同一位置に定位し、かつ、第１音と略同一の第２音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、第１再生信号および第２再生信号を生成してもよい。音圧値よりも位相を制御する方が、音像位置の定位をより正確にすることができるが、コストがより高くなる。したがって、音像の精度とコストとを考慮し、音声信号再生装置のより適切な構成を決定してもよい。

なお、ブロック図（図１、９，１０、１７、１８）に示される各機能ブロックは典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

例えばメモリ以外の機能ブロックが１チップ化されていても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

また、各機能ブロックのうち、符号化または復号化の対象となるデータを格納する手段だけ１チップ化せずに別構成としても良い。

以上、図面を参照してこの発明の実施の形態を説明したが、この発明は、図示した実施の形態のものに限定されない。図示した実施の形態に対して、この発明と同一の範囲において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。

なお、本実施形態で説明した音声信号再生装置は、コンピュータにより実現することも可能である。図１９は、音声信号再生装置を実現するコンピュータシステムのハードウェア構成を示すブロック図である。

音声信号再生装置は、コンピュータ７３４と、コンピュータ７３４に指示を与えるためのキーボード７３６及びマウス７３８と、コンピュータ７３４の演算結果等の情報を提示するためのディスプレイ７３２と、コンピュータ７３４で実行されるプログラムを読み取るためのＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）装置７４０及び通信モデム７５２とを含む。

音声信号再生装置が行う処理であるプログラムは、コンピュータで読取可能な媒体であるＣＤ−ＲＯＭ７４２に記憶され、ＣＤ−ＲＯＭ装置７４０で読み取られる。又は、コンピュータネットワークを通じて通信モデム７５２で読み取られる。

コンピュータ７３４は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７４４と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７４６と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７４８と、ハードディスク７５０と、通信モデム７５２と、バス７５４とを含む。

ＣＰＵ７４４は、ＣＤ−ＲＯＭ装置７４０又は通信モデム７５２を介して読み取られたプログラムを実行する。ＲＯＭ７４６は、コンピュータ７３４の動作に必要なプログラムやデータを記憶する。ＲＡＭ７４８は、プログラム実行時のパラメタなどのデータを記憶する。ハードディスク７５０は、プログラムやデータなどを記憶する。通信モデム７５２は、コンピュータネットワークを介して他のコンピュータとの通信を行う。バス７５４は、ＣＰＵ７４４、ＲＯＭ７４６、ＲＡＭ７４８、ハードディスク７５０、通信モデム７５２、ディスプレイ７３２、キーボード７３６、マウス７３８及びＣＤ−ＲＯＭ装置７４０を相互に接続する。

さらにまた、上記の各装置を構成する構成要素の一部又は全部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。ＩＣカード又はモジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。ＩＣカード又はモジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、ＩＣカード又はモジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

さらに、本発明は、上記コンピュータプログラム又は上記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ（登録商標））、ＵＳＢメモリ、ＳＤカードなどのメモリカード、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている上記デジタル信号であるとしてもよい。

また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、上記メモリは、上記コンピュータプログラムを記憶しており、上記マイクロプロセッサは、上記コンピュータプログラムに従って動作するとしてもよい。

また、上記プログラム又は上記デジタル信号を上記記録媒体に記録して移送することにより、又は上記プログラム又は上記デジタル信号を、上記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本発明は、音楽信号が再生可能で２組以上の対となるスピーカを駆動する装置を備えた機器に適用でき、特にサラウンドシステム、ＴＶ、ＡＶアンプ、コンポ、携帯電話機、ポータブルオーディオ機器等に適用できる。

１取得部
３ａ出力時間差制御部
３ｂ音圧値調整部
４耳近傍スピーカ用フィルタ
５フロントスピーカ用フィルタ
６フロントＬスピーカ
７フロントＲスピーカ
８耳近傍Ｌスピーカ
９耳近傍Ｒスピーカ
１０受聴者
１１、２１、３０、３５、４０、４５、５０、５５、６０、６５仮想ＦＬスピーカ（仮想音源）
１２、２２、３１、３６、４１、４６、５１、５６、６１、６６仮想ＦＲスピーカ（仮想音源）
１３、２３、３３、３８、４３、４８、５３、５８、６３、６８仮想ＳＬスピーカ（仮想音源）
１４、２４、３４、３９、４４、４９、５４、５９、６４、６９仮想ＳＲスピーカ（仮想音源）
１５、２５、３２、３７、４２、４７、５２、５７、６２、６７仮想Ｃスピーカ（仮想音源）
５１ｓ第１スピーカ群（フロントスピーカ）
５２ｓ第２スピーカ群（耳近傍スピーカ）
７０フィルタ処理部
８０、８０Ａ、８０Ｂ仮想音場生成部
１００、１００Ａ、１００Ｂ音声信号再生装置
４２１、４２２増幅器
５１０、５１２波形
７３２ディスプレイ
７３４コンピュータ
７３６キーボード
７３８マウス
７４０ＣＤ−ＲＯＭ装置
７４２ＣＤ−ＲＯＭ
７４４ＣＰＵ
７４６ＲＯＭ
７４８ＲＡＭ
７５０ハードディスク
７５２通信モデム
７５４バス

Claims

受聴者の周囲に配置される複数のスピーカである第１スピーカ群と、当該第１スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第２スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を再生する音声信号再生装置であって、
前記音声信号を取得する取得部と、
前記音声信号に対して信号処理を行い、第１仮想音像位置に音が定位する前記第１スピーカ群用の第１再生信号、及び前記第１仮想音像位置と略同一の第２仮想音像位置に音が定位する前記第２スピーカ群用の第２再生信号を生成する仮想音場生成部とを備え、
前記仮想音場生成部は、前記第１再生信号により示され、前記第１仮想音像位置のうち第１位置に定位する第１音と、前記第２再生信号により示され、前記第１位置と略同一位置に定位し、かつ、前記第１音と略同一の第２音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第１再生信号および前記第２再生信号を生成する
音声信号再生装置。
前記仮想音場生成部は、前記略同一の特徴を有する２つの音の受聴時刻が所定の範囲内の時間だけ異なるように、前記第１再生信号を前記第１スピーカ群から出力する出力時刻および前記第２再生信号を前記第２スピーカ群から出力する出力時刻を調整する
請求項１に記載の音声信号再生装置。
前記仮想音場生成部は、前記第１音が、前記第２音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第１再生信号および前記第２再生信号を生成する
請求項２に記載の音声信号再生装置。
前記仮想音場生成部は、前記第２音が、前記第１音よりも前記所定の範囲の時間だけ先に前記受聴位置に到達するよう、前記第１再生信号および前記第２再生信号を生成する
請求項２に記載の音声信号再生装置。
前記第１位置が、前記受聴者の後方である場合、
前記仮想音場生成部は、前記第２音が、前記第１音よりも先に前記受聴位置に到達するよう前記第１再生信号および前記第２再生信号を生成する
請求項１に記載の音声信号再生装置。
前記第１位置が、前記受聴者の前方である場合、
前記仮想音場生成部は、前記第１音が、前記第２音よりも先に前記受聴位置に到達するよう前記第１再生信号および前記第２再生信号を生成する
請求項１または請求項５に記載の音声信号再生装置。
前記所定の範囲は、０ミリ秒を超え、かつ、２０ミリ秒未満である
請求項２から請求項４のいずれか１項に記載の音声信号再生装置。
前記仮想音場生成部は、さらに、前記複数のオーディオチャンネルの各々に、対応するゲインを乗じることにより前記音圧値を調整する音圧値調整部を有する
請求項１に記載の音声信号再生装置。
前記仮想音場生成部は、前記第１仮想音像位置に定位する音のうち、前記受聴者の前方に定位する音の音圧値が、前記受聴者の後方に定位する音の音圧値よりも大きくなるように、前記第１再生信号を生成する
請求項１又は請求項８に記載の音声信号再生装置。
前記仮想音場生成部は、前記第２仮想音像位置に定位する音のうち、前記受聴者の後方に定位する音の音圧値が、前記受聴者の前方に定位する音の音圧値よりも大きくなるように、前記第２再生信号を生成する
請求項１又は請求項８に記載の音声信号再生装置。
受聴者の周囲に配置される複数のスピーカである第１スピーカ群と、当該第１スピーカ群よりも前記受聴者に近い位置に配置される複数のスピーカである第２スピーカ群とのそれぞれに対して、複数のオーディオチャンネル毎に定位すべき仮想音像位置を示す位置情報が含まれる音声信号を出力する音声信号再生方法であって、
前記音声信号を取得する取得ステップと、
前記音声信号に対して信号処理を行い、第１仮想音像位置に音が定位する前記第１スピーカ群用の第１再生信号、及び前記第１仮想音像位置と略同一の第２仮想音像位置に音が定位する前記第２スピーカ群用の第２再生信号を生成する仮想音場生成ステップとを含み、
前記仮想音場生成ステップにおいては、前記第１再生信号により示され、前記第１仮想音像位置のうち第１位置に定位する第１音と、前記第２再生信号により示され、前記第１位置と略同一位置に定位し、かつ、前記第１音と略同一の第２音とが、受聴位置において、位相及び音圧値の少なくとも一方が異なるように、前記第１再生信号および前記第２再生信号を生成する
音声信号再生方法。