JP2015170926A

JP2015170926A - 音響再生装置、音響再生方法

Info

Publication number: JP2015170926A
Application number: JP2014043153A
Authority: JP
Inventors: 船越　正伸; Masanobu Funakoshi; 正伸船越
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2015-09-28

Abstract

【課題】トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止するための技術を提供すること。
【解決手段】バイノーラル音響信号を取得する。バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する。バイノーラル音響信号を遅延させて遅延バイノーラル音響信号を生成する。聴取者の両耳がスイートスポット内に位置していればクロストークキャンセル処理済みバイノーラル音響信号を出力し、両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば遅延バイノーラル音響信号を出力する。
【選択図】図１

Description

本発明は、音響再生技術に関するものである。

ダミーヘッドマイクロフォンで録音した信号や、音源方向の頭部伝達関数（ＨＲＴＦ）を畳み込んだ信号を、バイノーラル信号と呼ぶ。バイノーラル信号を再生することにより、人間が両耳で音を聴いている状態を再現し、臨場感のある立体的な音場を再現する立体音響再生技術がある。これには再生機器としてヘッドフォンを用いるバイノーラル再生技術と、スピーカを用いるトランスオーラル再生技術と、がある。

バイノーラル再生では、前方の音像が頭内に定位してしまう問題がある。トランスオーラル再生では、この問題は解決されるが、聴取者の両耳に別々の信号を届けるために、再生に用いる複数のスピーカと両耳間の伝達関数の影響を排除する処理を行う必要がある。特に、複数スピーカの出力信号が耳への伝達経路において混じり、クロストークが生じることによる影響が強く、これをキャンセルする処理であるため、この処理をクロストークキャンセルと呼んでいる。

トランスオーラル再生技術では、クロストークキャンセルが正しく行われないと、聴取者が立体音響を正しく認識できない。クロストークキャンセルを正しく行うためには、再生に用いる各スピーカから出力される信号の位相を聴取位置において正確に合わせる必要がある。そのため、再生に用いるスピーカの構成や配置にもよるが、一般的に聴取者が立体音響効果を認識できる場所、いわゆる、スィートスポットが狭いという課題がある。よって、聴取者が少し移動しただけで、立体音響が聴こえなくなってしまう。

この課題を解決するため、聴取者の位置を常時検知して、クロストークキャンセル処理を聴取者の位置に応じて調整する先行技術がある。例えば、特許文献１に開示されている技術では、聴取者の位置を常に検出し、キャンセル処理に用いる伝達関数を伝達関数データベースから位置によって検索して処理に適用する。これにより、聴取者の位置に関わらず、立体音響効果を得られるようにしている。

また、特許文献２に開示されている技術では、位置ずれによって位相ずれが生じる周波数を計算し、その周波数によって低域と高域を分け、高域成分を遅延させる。これによって、低域成分のみによる音像定位をハース効果によって強調することで、仮想音像の定位を安定化することを行っている。

なお、このような立体音響技術は、一般的には、サラウンド音響信号をチャンネル数よりも少ない数のスピーカで仮想再生する仮想サラウンド再生技術として応用されている。

特開２０００−２９５６９８号公報特開２００９−１７１１４４号公報

トランスオーラル再生において、聴取位置がスィートスポットから外れると、立体音響が聴こえなくなるばかりか、非常にうるさく感じるという課題がある。図１５は、二つのスピーカが聴取者正面に対して左右５度の方向にある場合にトランスオーラル再生を行う場合の、２チャンネルクロストークキャンセルフィルタの周波数特性を示す図である。

クロストークキャンセルフィルタは複数のスピーカ間の干渉を補正するためのフィルタであるため、図示したように、高域に強いピークが現れる。このピークが生じる周波数は、２チャンネルトランスオーラル再生の場合は、二つのスピーカから各耳までの経路差で決定される。図１５の例では、１０ｋＨｚ近傍にピークが生じる。この周波数の音の波長は音速を３４０ｍ／秒とすると、約５．７ｃｍである。よって、両スピーカから耳までの経路差が、基準の経路差よりこの半波長の約２．８ｃｍずれると、強いピークが聴取者に聴こえてしまい、うるさく耳障りに感じる。

また、クロストークキャンセルは元々、スイートスポットにおいて両スピーカからの信号を打ち消し合う処理である。そのため、スイートスポットで音量を適切に調整すると、スイートスポットから頭部がずれた場合に消し残り成分が現れて全体の音量自体が大きくなるという課題があった。

特許文献１に開示されている技術によれば、聴取者が位置を移動した場合に、その位置に応じた伝達関数を利用してクロストークキャンセルフィルタを設計することによって、クロストークキャンセルが正しくできるようにしている。しかし、このような技術では、頭部移動を検知してからフィルタ設計するまでのタイムラグが生じるため、その間は聴取者がうるさく感じることになる。また、聴取者の位置を追いかけられる範囲に限界があるといった課題がある。

本発明はこのような問題に鑑みてなされたものであり、トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止するための技術を提供する。

本発明の一様態は、バイノーラル音響信号を取得する手段と、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段とを備えることを特徴とする。

本発明の構成によれば、トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止することができる。

音響再生装置の構成例を示すブロック図。音響再生装置が行う処理のフローチャート。ステップＳ３における処理の詳細を示すフローチャート。ステップＳ３における処理を説明する図。音響再生装置の構成例を示すブロック図。音響再生装置の構成例を示すブロック図。音響再生装置の構成例を示すブロック図。音響再生装置が行う処理のフローチャート。音響再生装置の構成例を示すブロック図。音響再生装置が行う処理のフローチャート。音響再生装置の構成例を示すブロック図。音響再生装置が行う処理のフローチャート。音響再生装置が行う処理のフローチャート。音響再生装置の構成例を示すブロック図。２チャンネルクロストークキャンセルフィルタの周波数特性を示す図。一般的なクロストークキャンセル処理について説明する図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の１つである。

［第１の実施形態］
先ず、本実施形態に係る音響再生装置の構成例について、図１のブロック図を用いて説明する。なお、図１に示した構成は、以下に説明する各処理を実現可能な構成の一例に過ぎず、以下に説明する各処理を実現可能な構成であれば、如何なる構成を採用しても構わない。

ダミーヘッドマイクロフォン１は、頭部による音の回り込みが自然に畳み込まれた一方の耳の音響信号及び他方の耳の音響信号を収音（取得）し、該集音したバイノーラル音響信号をアナログの電気信号に変換して出力する。

マイクアンプ２ａ、２ｂはそれぞれ、聴取者の一方の耳用のマイクアンプ、他方の耳用のマイクアンプである。マイクアンプ２ａ、２ｂはそれぞれ、ダミーヘッドマイクロフォン１から出力された一方の耳用の微弱な音響信号及び他方の耳用の微弱な音響信号を適宜増幅して出力する。

ＡＤＣ（Ａ／Ｄ変換器）３ａ、３ｂはそれぞれ、マイクアンプ２ａ、２ｂにより増幅されたアナログのバイノーラル音響信号をディジタルのバイノーラル音響信号に変換して出力する。

クロストークキャンセル器５は、ＡＤＣ３ａ、３ｂから出力されたバイノーラル音響信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。

遅延器４は、ＡＤＣ３ａ、３ｂから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する。

ビデオカメラ１２は、本実施形態に係る音響再生装置のスイートスポット（「ロ」で示す）を含む近傍領域の動画像を撮像するものであり、撮像した各フレームの画像は順次、後段の聴取者状態検知器７に送出される。

聴取者状態検知器７は、ビデオカメラ１２から送出される各フレームの画像を分析し、該画像中に聴取者（「イ」で示す）が写っている場合には、該聴取者の両耳の位置を推定する。

在スイートスポット判定器６は、聴取者状態検知器７が推定した両耳の位置から、聴取者の両耳がスイートスポット内に位置しているか否かを判断する。そして在スイートスポット判定器６は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。一方、在スイートスポット判定器６は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延バイノーラル音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。

出力信号スイッチ８ａ、８ｂは、在スイートスポット判定器６からの指示に従って、遅延器４からの出力、クロストークキャンセル器５からの出力、のうち何れか一方を選択する。

すなわち、出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６がクロストークキャンセル処理済みバイノーラル音響信号を選択するように指示した場合には、クロストークキャンセル処理済みバイノーラル音響信号（一方のスピーカ用信号と他方のスピーカ用信号）を選択して出力する。一方、出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６が遅延バイノーラル音響信号を選択するように指示した場合には、遅延バイノーラル音響信号（一方のスピーカ用信号と他方のスピーカ用信号）を選択して出力する。

ＤＡＣ（Ｄ／Ａ変換器）９ａ、９ｂはそれぞれ、出力信号スイッチ８ａ、８ｂから出力されたディジタルの音響信号をアナログの音響信号に変換して出力する。アンプ１０ａ、１０ｂはそれぞれ、ＤＡＣ９ａ、９ｂから出力されたアナログの音響信号を適宜増幅させてから出力する。スピーカ１１ａ、１１ｂはそれぞれ、アンプ１０ａ、１０ｂから出力されたアナログの音響信号に基づく音を出力する。

操作器１３は、タッチパネル画面やハードキー、キーボードやマウスなど、各種の指示を本装置に入力するためにユーザが操作可能な入力インターフェースである。制御器１４は、本実施形態に係る音響再生装置を構成する各部の動作制御を行う。

次に、ビデオカメラ１２による撮像画像に基づいて、遅延バイノーラル音響信号に基づく音、クロストークキャンセル処理済みバイノーラル音響信号に基づく音、を切り替えて出力するために音響再生装置が行う処理について、図２のフローチャートを用いて説明する。

＜ステップＳ１＞
ビデオカメラ１２は、スイートスポット（「ロ」で示す）を含む近傍領域の動画像を撮像し、撮像した各フレームの画像を順次、聴取者状態検知器７に対して送出する。

また、ダミーヘッドマイクロフォン１は、頭部による音の回り込みが自然に畳み込まれた一方の耳の音響信号及び他方の耳の音響信号を収音し、該集音したそれぞれのバイノーラル音響信号をアナログの電気信号に変換して出力する。マイクアンプ２ａ、２ｂはそれぞれ、ダミーヘッドマイクロフォン１から出力された一方の耳の微弱な音響信号及び他方の耳の微弱な音響信号を適宜増幅して出力する。ＡＤＣ３ａ、３ｂはそれぞれ、マイクアンプ２ａ、２ｂにより増幅されたアナログのバイノーラル音響信号をディジタルのバイノーラル音響信号に変換して出力する。

＜ステップＳ２＞
クロストークキャンセル器５は、ＡＤＣ３ａ、３ｂから出力されたバイノーラル音響信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。

一方で、遅延器４は、ＡＤＣ３ａ、３ｂから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成して出力する。

ここで、図１６を用いて一般的なクロストークキャンセル処理について説明する。図１６は、使用するスピーカが２個の場合、つまり、２チャンネル再生環境における一般的なクロストークキャンセル処理を説明するための模式図である。

２チャンネル再生環境では、左右二つのスピーカと、聴取者（「イ」で示している）の両耳と、の間に、合わせて４つの音響伝達経路ができると考えることができる。図１６に示す如く、左スピーカ１６ｂから左耳の伝達関数をＨ_ＬＬ、左スピーカ１６ｂから右耳への伝達関数をＨ_ＬＲ、とする。また、右スピーカ１６ａから左耳への伝達関数をＨ_ＲＬ、右スピーカ１６ａから右耳への伝達関数をＨ_ＲＲとする。このとき、クロストークキャンセル処理を行わずに、直接スピーカ１６ａ、１６ｂから音を再生した場合、左右のスピーカ（１６ａ、１６ｂ）への入力信号（Ｌｉｎ，Ｒｉｎ）と聴取者の両耳（左右の耳）に届く聴取信号（Ｌ_ｅａｒ，Ｒ_ｅａｒ）との間には以下の式（１）に示す関係が成立する。

ここで、以下の式（２）に示すＡを伝達関数行列とする。

クロストークキャンセル処理は、聴取信号を入力信号と同一にする処理であるので、再生環境による伝達関数行列Ａの逆行列Ｘを、以下の式（３）に示す如く設計すればよい。

上記の式（１）に対して、この逆行列Ｘを左から掛けると、入力信号と聴取信号が以下の式（４）に示す如く同一になる。

よって、図１６に示すクロストークキャンセル器５における各フィルタＸ１，Ｘ２，Ｘ３，Ｘ４を式（３）の伝達関数を満たすように設計することで、クロストークキャンセル処理を正確に行うことができる。

なお、本実施形態では、出力チャンネルが２ｃｈの場合について説明を行っているが、出力チャンネルが３ｃｈ以上の場合においても同様にしてクロストークキャンセルフィルタを設計することができる。この場合、逆フィルタの解が不定となるため、例えばノルム最小となるＭｏｏｒｅ−Ｐｅｎｌｏｓｅ型一般逆行列を用いるなどして解くことができる。これらの処理は当該分野に置いて一般的であり、公知であるため、その詳細な説明は省略する。

＜ステップＳ３＞
聴取者状態検知器７は、ビデオカメラ１２から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の両耳の位置を推定する。本ステップにおける処理の詳細については、図３のフローチャートを用いて後述する。

＜ステップＳ４＞
在スイートスポット判定器６は、聴取者状態検知器７が推定した両耳の位置と、在スイートスポット判定器６が管理するメモリ内に予め格納されているスピーカ１１ａ、１１ｂのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ１１ａ、１１ｂのそれぞれへの距離を計算する。すなわち在スイートスポット判定器６は、左耳とスピーカ１１ａとの間の距離、左耳とスピーカ１１ｂとの間の距離、右耳とスピーカ１１ａとの間の距離、右耳とスピーカ１１ｂとの間の距離、を求める。

＜ステップＳ５＞
在スイートスポット判定器６は、左耳とスピーカ１１ａとの間の距離と、左耳とスピーカ１１ｂとの間の距離と、の差分の絶対値（左経路差）、右耳とスピーカ１１ａとの間の距離と、右耳とスピーカ１１ｂとの間の距離と、の差分の絶対値（右経路差）、を計算する。

例えば、左耳とスピーカ１１ｂとの間の距離をＬ_ｓｌ、左耳とスピーカ１１ａとの間の距離をＬ_ｓｒとすると、左耳についての経路差Ｄ_ｌｅは、以下の式（５）に従って算出する。

＜ステップＳ６＞
在スイートスポット判定器６は、左経路差及び右経路差のそれぞれが基準聴取位置における規定の経路差からどれだけずれているのかを算出し、算出したそれぞれのずれが規定の許容範囲内にあるか否かを判断する。なお、基準聴取位置は本実施形態において、左右スピーカの前方かつ左右スピーカから等距離となる中心線上の一点に予め定められているものとする。

クロストークキャンセル技術では、左右スピーカからの信号の位相を合わせる必要があるため、経路差がずれるとキャンセルがうまく働かなくなる。特に、左右の干渉が生じる周波数では、その周波数成分を持ち上げるようなフィルタが設計されるため、この周波数の位相が半波長ずれるととてもうるさく感じることになる。よって本実施形態では、この周波数が半波長ずれるだけ経路差がずれてしまう範囲を閾値として設定する。例えば、本実施形態において、スピーカの設置方向が±５°であるとすると、クロストークキャンセルフィルタの特性は図１５のようになり、１０ｋＨz近傍にピークが生じる。この周波数の音の波長は音速を３４０ｍ／秒とすると、約５．７ｃｍである。よって、両スピーカから耳までの経路差が、基準の経路差よりこの半波長の約２．８ｃｍずれると、強いピークが聴取者に聴こえてしまい、うるさく耳障りに感じる。よって、この閾値を２．８ｃｍに設定する。経路差がこの閾値内である場合は、聴取者は立体音響を聴取できる範囲にある。一方、経路差が閾値を超えてしまった場合、聴取者は立体音響が聴取できなくなるばかりか、非常にうるさく耳障りに感じる領域にいることになる。こうすることによって、聴取者がスイートスポット、つまり、立体音響を聴取でき、かつ、うるさくない範囲内にいるかどうかの判定を行うことができる。

上記の判断の結果、左経路差及び右経路差の両方が規定の経路差から許容範囲内であれば、処理はステップＳ８に進み、左経路差及び右経路差のうち少なくとも一方が規定の経路差から許容範囲外であれば、処理はステップＳ７に進む。

＜ステップＳ７＞
在スイートスポット判定器６は、遅延バイノーラル音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。然るに出力信号スイッチ８ａ、８ｂはそれぞれ、遅延バイノーラル音響信号を選択して出力する。

ＤＡＣ９ａ、９ｂはそれぞれ、出力信号スイッチ８ａ、８ｂから出力されたディジタルの音響信号をアナログの音響信号に変換して出力し、アンプ１０ａ、１０ｂはそれぞれ、ＤＡＣ９ａ、９ｂから出力されたアナログの音響信号を適宜増幅させてから出力する。スピーカ１１ａ、１１ｂはそれぞれ、アンプ１０ａ、１０ｂから出力されたアナログの音響信号に基づく音を出力する。

＜ステップＳ８＞
在スイートスポット判定器６は、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。然るに出力信号スイッチ８ａ、８ｂはそれぞれ、クロストークキャンセル処理済みバイノーラル音響信号を選択して出力する。

＜ステップＳ９＞
制御器１４は、図２のフローチャートに従った処理の終了条件が満たされたか否かを判断する。例えば制御器１４は、ユーザが操作器１３を操作して処理の終了指示を入力したことを検知した場合には、図２のフローチャートに従った処理の終了条件が満たされたと判断する。そして、制御器１４が、図２のフローチャートに従った処理の終了条件が満たされたと判断した場合には、図２のフローチャートに従った処理は終了させ、満たされていないと判断した場合には、処理はステップＳ１に戻る。

次に、上記のステップＳ３における処理、すなわち、ビデオカメラ１２から送出される各フレームの画像から、該画像中に聴取者が写っている場合には該聴取者の両耳の位置を推定する処理について、図３のフローチャートを用いて説明する。なお、説明の便宜上、以降では、水平面内における位置や向きを算出する処理についてのみ説明する。また、図３のフローチャートは、１フレーム分の画像に対する処理を示したものであり、実際には、図３のフローチャートは、ビデオカメラ１２から送出される各フレームの画像に対して行われるものである。

＜ステップＳ１０１＞
聴取者状態検知器７は、ビデオカメラ１２から送出された画像（対象画像）から、聴取者の顔が占めている領域を検出する。本実施形態では、特定の人物の顔を認識するのではなく、単に人の顔と判定される領域があるかどうかを検出する。画像から顔を認識して該顔が占めている領域を検出する技術は周知であるので、この技術に係る説明は省略する。

＜ステップＳ１０２＞
聴取者状態検知器７は、ステップＳ１０１で検出した領域内の顔に合焦させるべく、ビデオカメラ１２を制御する。この処理はカメラ分野において一般的であり、公知であるため、この技術に関する説明は省略する。

＜ステップＳ１０３＞
聴取者状態検知器７は、ビデオカメラ１２のレンズの焦点距離ｆと、主点から撮像面までの距離ａと、を用いて、カメラ主点から被写体である聴取者の顔までの距離Ｌを求める。焦点距離ｆと主点から撮像面までの距離ａは、ビデオカメラ１２のパラメータとして対象画像と共に聴取者状態検知器７に送信される。レンズの公式により、ビデオカメラ１２の主点と聴取者の顔までの距離Ｌは以下の式（６）を解くことによって求めることができる。

＜ステップＳ１０４＞
聴取者状態検知器７は、ビデオカメラ１２の画角と、聴取者の対象画像内の水平位置と、を用いて、ビデオカメラ１２の正面と聴取者方向の水平面上におけるなす角θ_bを求める。撮像面の幅ｄと焦点距離ｆは、ビデオカメラ１２のパラメータとして対象画像と共に聴取者状態検知器７に送信される。まず、水平画角αを、以下の式（７）を計算することで求める。

次に、式（７）を用いて計算した水平画角αと、ステップＳ１０１で検出した領域の中心画素位置と対象画像の中心画素位置との間の水平ピクセル距離ｐと、画角全体の水平画素数Ｈと、を用いて、以下の式（８）を計算することで、ビデオカメラ１２の正面と聴取者方向のなす角θ_ｂを求める。

なお、水平ピクセル距離ｐは、ステップＳ１０１で検出した領域の中心画素位置が対象画像の中心画素位置よりも左側にある場合を正、右側にある場合を負とする。したがって、θ_ｂも、ステップＳ１０１で検出した領域の中心画素位置が対象画像の中心画素位置よりも左側にある場合は正値、右側にある場合は負値となる。図４に図示した例では、θ_ｂは負値となる。

＜ステップＳ１０５＞
聴取者状態検知器７は、ステップＳ１０３で求めた距離Ｌと、ステップＳ１０４で求めた角θ_ｂと、を用いて、聴取者の位置座標を求める。まず、本実施形態で取り扱う座標を定義する。図４に図示するように、二つのスピーカを結ぶ直線上にＹ軸を設定し、Ｙ軸上にビデオカメラ１２を設置する。そして、ビデオカメラ１２の位置を原点とし、Ｙ軸と垂直に聴取者側を正方向としてＸ軸を設定する。Ｘ軸とビデオカメラ１２の撮影方向とのなす角θ_ａは予め定められた角度であり、聴取者状態検知器７が管理するメモリ内に予め格納されている。この座標系において、Ｘ軸と聴取者方向のなす角はθ_ａ＋θ_ｂとなるので、聴取者の座標（Ｌｘ，Ｌｙ）は以下の式（９）を計算することで求めることができる。

＜ステップＳ１０６＞
聴取者状態検知器７は、聴取者の対象画像上における顔の向きθ_ｃを検出する。画像内における顔の向きを検出するための技術は周知であるため、この技術に係る説明は省略する。

なお、本実施形態において、ビデオカメラ１２に対して聴取者が正面から左を向いている場合には、θ_ｃは正値になり、右を向いている場合はθ_ｃは負値になるとする。図４に図示した例では、θ_ｃは負値になる。

＜ステップＳ１０７＞
聴取者状態検知器７は、上記のθ_ａ及びθ_ｂと、ステップＳ１０６で求めたθ_ｃと、を用いて、上記の座標系に対する聴取者の顔の向きθを求める。図４より、このθは以下の式（１０）を計算することで求めることができる。

＜ステップＳ１０８＞
聴取者状態検知器７は、ステップＳ１０５で求めた聴取者の座標と、ステップＳ１０７で求めた顔の向きθと、を用いて、聴取者の両耳の座標を求める。図４に図示したように、人間の頭部水平断面を円と考え、その直径を１６ｃｍと想定し、左右の耳穴が正面に対して±９０°の位置にあると仮定すると、左耳の座標（Ｅｌｘ，Ｅｌｙ）と右耳の座標（Ｅｒx，Ｅｒｙ）は、以下の式（１１）を計算することで求めることができる。

このように、本実施形態によれば、聴取者の両耳の位置を常時監視し、少なくとも一方の耳がスイートスポットから外れたことを検知すると、クロストークキャンセル処理をしていないバイノーラル信号に出力を切り替えるので、聴取者がうるさく感じることを防止することができる。

＜変形例１＞
第１の実施形態では、ダミーヘッドマイクロフォンを用いて録音したバイノーラル信号を二分して、バイノーラル信号とクロストークキャンセル処理信号を切り替える例を説明した。

しかし、例えば、図５に示すように、マイクロフォン１５ａ、マイクロフォン１５ｂによって同時にステレオ録音を行い、聴取者がスイートスポットにいるかどうかに応じて、遅延ステレオ音響信号と、クロストークキャンセル処理済みバイノーラル音響信号と、を切り替えることによっても同様の効果を得ることができる。

図５において、マイクロフォン１５ａ、１５ｂはそれぞれ、左右のチャンネル用の音を集音して対応するステレオ音響信号を出力するものである。マイクアンプ２ｃ、２ｄはそれぞれ、マイクアンプ２ａ、２ｂと同じものであり、ＡＤＣ３ｃ、３ｄはそれぞれ、ＡＤＣ３ａ、３ｂと同じものである。

遅延器４は、ＡＤＣ３ｃ、３ｄから出力されたステレオ音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する。

在スイートスポット判定器６は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。一方、在スイートスポット判定器６は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延ステレオ音響信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。

出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６がクロストークキャンセル処理済みバイノーラル音響信号を選択するように指示した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択して出力する。一方、出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６が遅延ステレオ音響信号を選択するように指示した場合には、遅延ステレオ音響信号を選択して出力する。

＜変形例２＞
また、図６に示す如く、ＡＤＣ３ａ、３ｂの出力をデータとして記憶器２２に一旦格納し、その後、任意のタイミングで詠み出し器２３がこのデータを記憶器２２から読み出して遅延器４及びクロストークキャンセル器５に供給する構成を採用しても構わない。記憶器２２は、ハードディスクドライブ装置やＲＡＭ等の適当なメモリである。このような構成においても聴取者がスイートスポットにいるかどうかにより出力信号を切り替えることができ、同様の効果を得ることができる。

［第２の実施形態］
本実施形態では、サラウンド音響再生を行う場合において、仮想サラウンド信号とステレオダウンミックス信号を切り替える例について説明する。本実施形態に係る音響再生装置の構成例について、図７のブロック図を用いて説明する。以下では、第１の実施形態との差分について重点的に説明し、以下で特に触れない限りは第１の実施形態と同様であるものとして説明する。

ステレオダウンミックス器３１は、入力信号である５．１チャンネルサラウンド音響信号を、入力されるダウンミックス係数を用いてミキシングすることによって、ステレオダウンミックス信号（左チャンネル用のステレオダウンミックス信号Ｌ、右チャンネル用のステレオダウンミックス信号Ｒ）に変換して出力する。

仮想サラウンド信号生成器３２は、入力信号である５．１ｃｈサラウンド音響信号の、ＬＦＥを除く各チャンネル信号に対して、各チャンネルのスピーカの標準配置に基づく方向の頭部伝達関数（ＨＲＴＦ）を畳み込む。その後、仮想サラウンド信号生成器３２は、ＬＦＥを混合することによって、バイノーラル信号に変換することで、仮想サラウンド信号（左耳用の仮想サラウンド信号、右耳用の仮想サラウンド信号）を生成して出力する。

遅延器４は、ステレオダウンミックス器３１から出力されたそれぞれのステレオダウンミックス信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する。

クロストークキャンセル器５は、仮想サラウンド信号生成器３２から出力された仮想サラウンド信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済み仮想サラウンド信号を生成して出力する。

在スイートスポット判定器６は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済み仮想サラウンド信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。一方、在スイートスポット判定器６は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延ステレオダウンミックス信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。

出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６がクロストークキャンセル処理済み仮想サラウンド信号を選択するように指示した場合には、クロストークキャンセル処理済み仮想サラウンド信号を選択して出力する。一方、出力信号スイッチ８ａ、８ｂはそれぞれ、在スイートスポット判定器６が遅延ステレオダウンミックス信号を選択するように指示した場合には、遅延ステレオダウンミックス信号を選択して出力する。

次に、本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示す図８を用いて説明する。

＜ステップＳ２０１＞
ステレオダウンミックス器３１は、入力信号である５．１チャンネルサラウンド音響信号を、入力されるダウンミクス係数でミキシングすることによって、左チャンネル用のステレオダウンミックス信号Ｌ、右チャンネル用のステレオダウンミックス信号Ｒに変換して出力する。この処理は以下の式（１２）に従って行われる。

ここで、ｋ_ｃはセンターチャンネル信号のダウンミクス係数、ｋ_ｓはサラウンドチャンネル信号のダウンミクス係数であり、通常、１／√２や０．５などの値が用いられる。また、ｋ_ＬＦＥはＬＦＥのダウンミクス係数であり、通常は０とすることが多い。これらの係数は、コンテンツ制作者、もしくはコンテンツ送信者によって指定され、サラウンド音響信号とともに送信される。

＜ステップＳ２０２＞
仮想サラウンド信号生成器３２は、入力信号である５．１チャンネルサラウンド音響信号のＬＦＥを除く５チャンネルの信号に基づき、左耳用の仮想サラウンド信号、右耳用の仮想サラウンド信号を生成する。まず、処理対象となる各チャンネル信号に対して、標準のスピーカ配置における各チャンネルの方向の頭部伝達関数を畳み込むことによって、両耳の信号を作成する。次に、チャンネル毎に作成した両耳の信号を耳毎に５チャンネル分加算することにより、それぞれの耳に対する仮想サラウンド信号を生成する。

ステップＳ２〜Ｓ６の処理は上記の通りであるが、仮想サラウンド信号もバイノーラル音響信号の一種であり、トランスオーラル再生時にはクロストークキャンセル処理が必要である。そのため、スイートスポットが限られてしまい、スイートスポットから聴取者が移動するとうるさく感じる現象が同様に生じる。そこで、この場合も聴取者がスイートスポットから移動したことを検知し、クロストークキャンセルをしないダウンミックス信号に出力を切り替えるようにする。

ステップＳ６における上記の判断の結果、左経路差及び右経路差の両方が規定の経路差から許容範囲内であれば、処理はステップＳ８に進み、左経路差及び右経路差のうち少なくとも一方が規定の経路差から許容範囲外であれば、処理はステップＳ２０３に進む。

＜ステップＳ２０３＞
在スイートスポット判定器６は、遅延ステレオダウンミックス信号を選択するように出力信号スイッチ８ａ、８ｂに指示する。出力信号スイッチ８ａ、８ｂはそれぞれ、遅延ステレオダウンミックス信号を選択して出力する。

このように、本実施形態によれば、聴取者がスイートスポットから外れた場合に、ステレオダウンミックス信号に出力を切り替えるので、うるさく感じることを防止することができる。

［第３の実施形態］
本実施形態では、第１の実施形態に加え、ビデオカメラ１２による画像から複数の聴取者が検出された場合には、遅延バイノーラル音響信号を出力する。本実施形態に係る音響再生装置の構成例について、図９のブロック図を用いて説明する。音響再生装置の構成そのものは図１に示した第１の実施形態に係る音響再生装置の構成と変わらないが、ビデオカメラ１２による撮像範囲に、他の聴取者（「ハ」で示している）が入りうる点が第１の実施形態と異なる。以下では、第１の実施形態との差分について重点的に説明し、以下で特に触れない限りは、第１の実施形態と同様であるものとして説明する。

本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示図１０を用いて説明する。

＜ステップＳ３０１＞
聴取者状態検知器７は、ビデオカメラ１２から送出された画像（対象画像）から、人の顔が占めている領域を検出し、該検出した領域の数（人数）を計数する。この技術は周知であるため、この技術に係る説明は省略する。なお、本実施形態では、対象画像から認識した人の顔は全て聴取者の顔と判断し、その数を計数する。

＜ステップＳ３０２＞
聴取者状態検知器７は、ステップＳ３０１で計数した領域の数が１であるか否かを判断する。この判断の結果、ステップＳ３０１で計数した領域の数が１以外（０若しくは２以上）、処理はステップＳ７に進み、ステップＳ３０１で計数した領域の数が１であれば、処理はステップＳ３に進む。

このように、本実施形態によれば、聴取者が複数のときは、クロストークキャンセル処理した信号から通常のバイノーラル信号に出力を切り替えるため、スイートスポットから外れた位置にいる聴取者がうるさく感じることを防止することができる。また、聴取者がいない場合もバイノーラル信号に切り替えることによって、全体の出力音量を抑えて周囲への音による影響を抑えることができる。

［第４の実施形態］
本実施形態では、聴取者の位置を追跡し、該聴取者が追跡範囲内に居れば、該聴取者の両耳の位置に応じてクロストークキャンセルフィルタを逐次変更して適用し、追跡範囲外であれば、遅延バイノーラル音響信号に切り替える。以下では、第１の実施形態との差分について重点的に説明し、以下で特に触れない限りは第１の実施形態と同様であるものとする。

本実施形態に係る音響再生装置の構成例について、図１１のブロック図を用いて説明する。「ニ」で示す範囲は、聴取者を追跡可能な範囲を示す。

聴取者状態検知器４１は、ビデオカメラ１２から送出されるそれぞれのフレームの画像を分析して、聴取者の位置を求め、該求めた位置を在追跡範囲判定器４２に出力する。

在追跡範囲判定器４２は、聴取者状態検知器４１が求めた位置が追跡可能範囲内であるか否かの判定を行い、この判定に従って出力信号スイッチ８ａ、８ｂに、遅延器４からの出力、クロストークキャンセル器４４からの出力、のうち何れか一方の出力を指示する。

クロストークキャンセルフィルタ設計器４３は、左右スピーカと聴取者の両耳間の伝達関数を推定し、これを用いてクロストークキャンセルフィルタ係数の再設計を行う。そしてクロストークキャンセルフィルタ設計器４３は、この再設計したクロストークキャンセルフィルタ係数をクロストークキャンセル器４４に供給する。

クロストークキャンセル器４４は、ＡＤＣ３ａ、３ｂのそれぞれから出力されたバイノーラル音響信号に対して、クロストークキャンセルフィルタ設計器４３から供給されるクロストークキャンセルフィルタ係数を用いたクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。

次に、本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示す図１２を用いて説明する。

＜ステップＳ４０１＞
聴取者状態検知器４１は、ビデオカメラ１２から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の位置を推定する。この推定処理は、図３のフローチャートにおいてステップＳ１０１〜Ｓ１０５の処理を実行することで実現することができる。そして聴取者状態検知器４１は、推定した聴取者の位置を在追跡範囲判定器４２に対して送出する。

＜ステップＳ４０２＞
在追跡範囲判定器４２は、聴取者状態検知器４１から受けた聴取者の位置が、予め作成してデータとして在追跡範囲判定器４２が管理するメモリ内に登録されている追跡可能範囲（座標位置範囲）にあるか否かを判断する。この判断の結果、聴取者状態検知器４１から受けた聴取者の位置が追跡可能範囲（規定領域内）にある場合には、処理はステップＳ４０３に進み、追跡可能範囲にない（規定領域外）場合には、処理はステップＳ４０７に進む。

＜ステップＳ４０３＞
聴取者状態検知器４１は、ステップＳ４０１で求めた位置を用いて、聴取者の両耳の位置を推定する。この処理は、図３のフローチャートにおいて、ステップＳ１０６〜Ｓ１０８の処理を実行することで実現することができる。そして聴取者状態検知器４１は、求めた両耳の位置を、クロストークキャンセルフィルタ設計器４３に対して送出する。

＜ステップＳ４０４＞
クロストークキャンセルフィルタ設計器４３は、聴取者状態検知器４１から受けた両耳の位置と、クロストークキャンセルフィルタ設計器４３が管理するメモリ内に予め格納されているスピーカ１１ａ、１１ｂのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ１１ａ、１１ｂのそれぞれへの伝達関数を計算する。すなわちクロストークキャンセルフィルタ設計器４３は、左耳とスピーカ１１ａとの間の伝達関数、左耳とスピーカ１１ｂとの間の伝達関数、右耳とスピーカ１１ａとの間の伝達関数、右耳とスピーカ１１ｂとの間の伝達関数、を求める。

図１１の構成の場合、スピーカ２個と両耳の組み合わせで合計４つの伝達関数を推定することになる。本実施形態では、座標から各スピーカと各耳への距離が算出できるため、その距離差に基づく遅延のみを反映させる伝達関数を推定するものとする。あるいは、典型的な室内応答を予めメモリに格納しておき、その室内応答をさらに畳み込むようにしてもよい。

＜ステップＳ４０５＞
クロストークキャンセルフィルタ設計器４３は、ステップＳ４０４で推定した伝達関数を用いてクロストークキャンセルフィルタ係数を計算し、該計算したクロストークキャンセルフィルタ係数をクロストークキャンセル器４４に供給する。一般に、クロストークキャンセルフィルタの設計は、伝達関数の逆フィルタを計算することで設計することができる。この処理は当分野において一般的に行われており、公知であるために、その詳細な説明は省略する。

＜ステップＳ４０６＞
クロストークキャンセル器４４は、ＡＤＣ３ａ、３ｂのそれぞれから出力されたバイノーラル音響信号に対して、ステップＳ４０５でクロストークキャンセルフィルタ設計器４３から供給されるクロストークキャンセルフィルタ係数を用いたクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。

＜ステップＳ４０７＞
遅延器４は、ＡＤＣ３ａ、３ｂのそれぞれから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成して出力する。

このように、本実施形態によれば、聴取者の位置を追跡してクロストークキャンセルフィルタを適応させながらトランスオーラル再生を行う場合においても、追跡範囲を外れた場合に聴取者がうるさく感じることを防止することが可能である。

［第５の実施形態］
上記の実施形態の場合、聴取者が試聴位置を探している最中にスイートスポットを出たり入ったりすると、その都度出力信号の切り替えが生じ、聞きづらくなる場合が考えられる。そこで、聴取者が一定時間静止していることを判定した上で、スイートスポットにいるかどうかの判定を行い、出力信号の切り替えを行うようにしてもよい。その場合、例えば、図２に示した処理の代わりに、図１３の処理を行うことになる。

ステップＳ１１では、聴取者状態検知器７は、聴取者の位置が規定時間以上変わっていないか否か（聴取者が静止しているか否か）を判断する。この判断のための処理には、様々な処理が考えられ、如何なる処理を採用しても構わない。例えば、Ｎ（Ｎは２以上の整数）フレーム以上に渡って連続して、該フレームの画像から求めた聴取者の位置の変化が規定量以下であれば、「聴取者の位置が規定時間（Ｎフレーム分の時間）以上変わっていない」と判断する。そしてこの判断の結果、「聴取者の位置が規定時間以上変わっていない」と判断した場合には、処理はステップＳ４に進み、「聴取者の位置が規定時間以上変わっていない」と判断できなかった場合には、処理はステップＳ９に進む。

このような処理を行うことで、聴取者が移動している間は出力信号の切り替えが生じないため、頻繁に出力信号が切り替えられて聞きづらくなることを防止することが可能である。

［第６の実施形態］
第１の実施形態では、ビデオカメラ１２による画像から聴取者の位置や向きを検知することによって、該聴取者の両耳がスイートスポットにいるかどうかの判定を行う場合について説明した。この判定は、図１４の構成のように、聴取者位置の音を収音し、入力信号と比較することによって行うようにしても構わない。

伝達関数重畳器５１は、クロストークキャンセルフィルタ設計時の基準の聴取者位置（メモリ内で管理されている）において、スピーカ１１ａ、１１ｂと聴取者の両耳間の伝達関数を、ＡＤＣ３ａ、３ｂのそれぞれから出力されたバイノーラル音響信号に畳み込む。これにより、バイノーラル音響信号がそのままスピーカから再生された場合に、基準位置に聴取者が位置すると仮定したときに聴取者の両耳で聴こえる音響信号を再現する。

バイノーラルマイクロフォン５２ａ、５２ｂはそれぞれ、右耳用のバイノーラルマイクロフォン、左耳用のバイノーラルマイクロフォンであり、聴取者の右耳及び左耳に取り付けられ、該耳で捉える音を収音する。バイノーラルマイクロフォン５２ａによって集音された音の信号はマイクアンプ２ｐによって増幅され、ＡＤＣ３ｐによってディジタルのバイノーラル音響信号に変換される。バイノーラルマイクロフォン５２ｂによって集音された音の信号はマイクアンプ２ｑによって増幅され、ＡＤＣ３ｑによってディジタルのバイノーラル音響信号に変換される。

在スイートスポット判定器５３は、出力信号スイッチ５４ａ、５４ｂによって選択された信号とＡＤＣ３ｐ、３ｑからのバイノーラル音響信号とが略一致しているか否かを判断することで、聴取者がスイートスポットに位置しているか否かを判断する。

例えば、現在、出力信号スイッチ８ａ、８ｂがクロストークキャンセル器５からの出力を選択しているとする。このとき、在スイートスポット判定器５３は、遅延器４からの出力を選択するように出力信号スイッチ５４ａ、５４ｂに指示し、遅延器４からの出力と、ＡＤＣ３ｐ、３ｑからのバイノーラル音響信号と、が略同等であるか否かを判断する。一方、現在、出力信号スイッチ８ａ、８ｂが遅延器４からの出力を選択しているとする。このとき、在スイートスポット判定器５３は、伝達関数重畳器５１からの出力を選択するように出力信号スイッチ５４ａ、５４ｂに指示し、伝達関数重畳器５１からの出力と、ＡＤＣ３ｐ、３ｑからのバイノーラル音響信号と、が略同等であるか否かを判断する。

このような判断の結果、略同等であると判断した場合には、聴取者の両耳はスイートスポット内に位置しているものと判断し、略同等ではないと判断した場合には、聴取者の両耳はスイートスポット外に位置しているものと判断する。

そして在スイートスポット判定器５３は、聴取者の両耳はスイートスポット内に位置しているものと判断した場合、クロストークキャンセル器５の出力を選択するよう出力信号スイッチ８ａ、８ｂを制御すると共に、遅延器４からの出力を選択するように出力信号スイッチ５４ａ、５４ｂを制御する。

一方、在スイートスポット判定器５３は、聴取者の両耳はスイートスポット外に位置しているものと判断した場合、遅延器４の出力を選択するよう出力信号スイッチ８ａ、８ｂを制御すると共に、伝達関数重畳器５１からの出力を選択するように出力信号スイッチ５４ａ、５４ｂを制御する。

このような構成により、聴取者がスイートスポット内にいるかどうかを判定できる。この判定に基づいて、スイートスポットから聴取者が外れた場合にクロストークキャンセルしない信号に切り替えることによって、聴取者がうるさく感じることを防止することができる。

また、第１の実施形態では、ビデオカメラ１２による画像を解析して聴取者の状態を検知していたが、聴取者の頭部位置と向きを検知するセンサを聴取者頭部に直接取り付け、該センサからのセンサ情報に基づいて聴取者の状態を検知するようにしても構わない。

また、以上説明した様々な実施形態や変形例は、その一部若しくは全部を適宜組み合わせて使用することも可能であるし、それと同等の構成であれば、他の構成を採用しても構わない。

また、例えば、図１，５，６，７，９，１１，１４に示した構成は、全てハードウェアで構成しても良いし、一部をソフトウェア（コンピュータプログラム）で構成しても構わない。その場合、このソフトウェアは、制御器１４が管理するメモリに格納され、制御器１４によって実行されることになる。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

１ダミーヘッドマイクロフォン
２ａ、２ｂマイクアンプ
４遅延器
５クロストークキャンセル器
６在スイートスポット判定器
８ａ、８ｂ出力信号スイッチ
１０ａ、１０ｂアンプ
１１ａ、１１ｂスピーカ

Claims

バイノーラル音響信号を取得する手段と、
前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。
前記出力手段は、
前記聴取者を撮像している装置が撮像した画像から１以外の数の聴取者が検出された場合には、前記遅延バイノーラル音響信号を出力することを特徴とする請求項１に記載の音響再生装置。
前記判断手段は、前記聴取者の位置が規定時間以上変わっていないことを検知した場合に、前記両耳がスイートスポット内に位置しているか否かを判断することを特徴とする請求項１又は２に記載の音響再生装置。
前記判断手段は、
一方の耳と一方のスピーカとの間の距離と該一方の耳と他方のスピーカとの間の距離との差、他方の耳と一方のスピーカとの間の距離と該他方の耳と他方のスピーカとの間の距離との差、を求め、該求めたそれぞれの差が基準から許容範囲内であれば前記両耳はスイートスポット内に位置していると判断し、少なくとも一方の差が該基準から許容範囲外の場合には該差に対応する耳はスイートスポット内に位置していないと判断する
ことを特徴とする請求項１乃至３の何れか１項に記載の音響再生装置。
前記判断手段は、
前記両耳の位置で集音した音の信号を用いて、前記両耳がスイートスポット内に位置しているか否かを判断する
ことを特徴とする請求項１乃至３の何れか１項に記載の音響再生装置。
バイノーラル音響信号を取得する手段と、
ステレオ音響信号を取得する手段と、
前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記ステレオ音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオ音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。
サラウンド音響信号を取得する手段と、
前記サラウンド音響信号に対してダウンミックス係数を用いてステレオダウンミックスしてステレオダウンミックス信号を生成する手段と、
前記サラウンド音響信号に対して、標準のスピーカ配置における該サラウンド音響信号の各チャンネルの方向の頭部伝達関数を畳み込むことで、仮想サラウンド信号を生成する手段と、
前記仮想サラウンド信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済み仮想サラウンド信号を生成する処理手段と、
前記ステレオダウンミックス信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済み仮想サラウンド信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオダウンミックス信号を出力する出力手段と
を備えることを特徴とする音響再生装置。
バイノーラル音響信号を取得する手段と、
前記バイノーラル音響信号に対して、聴取者の両耳の位置に応じたクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、
前記聴取者が規定領域内に位置しているか否かを判断する判断手段と、
前記聴取者が規定領域内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記聴取者が規定領域外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。
前記判断手段は、前記聴取者の位置を追跡し、該位置が追跡範囲内に位置しているか否かを判断する
ことを特徴とする請求項８に記載の音響再生装置。
音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。
音響再生装置が行う音響再生方法であって、
前記音響再生装置のバイノーラル音響信号を取得する手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置のステレオ音響信号を取得する手段が、ステレオ音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記ステレオ音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオ音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。
音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、サラウンド音響信号を取得する工程と、
前記音響再生装置のステレオダウンミックス信号を生成する手段が、前記サラウンド音響信号に対してダウンミックス係数を用いてステレオダウンミックスしてステレオダウンミックス信号を生成する工程と、
前記音響再生装置の仮想サラウンド信号を生成する手段が、前記サラウンド音響信号に対して、標準のスピーカ配置における該サラウンド音響信号の各チャンネルの方向の頭部伝達関数を畳み込むことで、仮想サラウンド信号を生成する工程と、
前記音響再生装置の処理手段が、前記仮想サラウンド信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済み仮想サラウンド信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記ステレオダウンミックス信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済み仮想サラウンド信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオダウンミックス信号を出力する出力工程と
を備えることを特徴とする音響再生方法。
音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対して、聴取者の両耳の位置に応じたクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、前記聴取者が規定領域内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記聴取者が規定領域内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記聴取者が規定領域外に位置していれば前記遅延バイノーラル音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。
コンピュータを、請求項１乃至９の何れか１項に記載の音響再生装置の各手段として機能させるためのコンピュータプログラム。