JP2015170926A - 音響再生装置、音響再生方法 - Google Patents
音響再生装置、音響再生方法 Download PDFInfo
- Publication number
- JP2015170926A JP2015170926A JP2014043153A JP2014043153A JP2015170926A JP 2015170926 A JP2015170926 A JP 2015170926A JP 2014043153 A JP2014043153 A JP 2014043153A JP 2014043153 A JP2014043153 A JP 2014043153A JP 2015170926 A JP2015170926 A JP 2015170926A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- sound
- binaural
- listener
- crosstalk cancellation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic Arrangements (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】 トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止するための技術を提供すること。
【解決手段】 バイノーラル音響信号を取得する。バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する。バイノーラル音響信号を遅延させて遅延バイノーラル音響信号を生成する。聴取者の両耳がスイートスポット内に位置していればクロストークキャンセル処理済みバイノーラル音響信号を出力し、両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば遅延バイノーラル音響信号を出力する。
【選択図】 図1
【解決手段】 バイノーラル音響信号を取得する。バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する。バイノーラル音響信号を遅延させて遅延バイノーラル音響信号を生成する。聴取者の両耳がスイートスポット内に位置していればクロストークキャンセル処理済みバイノーラル音響信号を出力し、両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば遅延バイノーラル音響信号を出力する。
【選択図】 図1
Description
本発明は、音響再生技術に関するものである。
ダミーヘッドマイクロフォンで録音した信号や、音源方向の頭部伝達関数(HRTF)を畳み込んだ信号を、バイノーラル信号と呼ぶ。バイノーラル信号を再生することにより、人間が両耳で音を聴いている状態を再現し、臨場感のある立体的な音場を再現する立体音響再生技術がある。これには再生機器としてヘッドフォンを用いるバイノーラル再生技術と、スピーカを用いるトランスオーラル再生技術と、がある。
バイノーラル再生では、前方の音像が頭内に定位してしまう問題がある。トランスオーラル再生では、この問題は解決されるが、聴取者の両耳に別々の信号を届けるために、再生に用いる複数のスピーカと両耳間の伝達関数の影響を排除する処理を行う必要がある。特に、複数スピーカの出力信号が耳への伝達経路において混じり、クロストークが生じることによる影響が強く、これをキャンセルする処理であるため、この処理をクロストークキャンセルと呼んでいる。
トランスオーラル再生技術では、クロストークキャンセルが正しく行われないと、聴取者が立体音響を正しく認識できない。クロストークキャンセルを正しく行うためには、再生に用いる各スピーカから出力される信号の位相を聴取位置において正確に合わせる必要がある。そのため、再生に用いるスピーカの構成や配置にもよるが、一般的に聴取者が立体音響効果を認識できる場所、いわゆる、スィートスポットが狭いという課題がある。よって、聴取者が少し移動しただけで、立体音響が聴こえなくなってしまう。
この課題を解決するため、聴取者の位置を常時検知して、クロストークキャンセル処理を聴取者の位置に応じて調整する先行技術がある。例えば、特許文献1に開示されている技術では、聴取者の位置を常に検出し、キャンセル処理に用いる伝達関数を伝達関数データベースから位置によって検索して処理に適用する。これにより、聴取者の位置に関わらず、立体音響効果を得られるようにしている。
また、特許文献2に開示されている技術では、位置ずれによって位相ずれが生じる周波数を計算し、その周波数によって低域と高域を分け、高域成分を遅延させる。これによって、低域成分のみによる音像定位をハース効果によって強調することで、仮想音像の定位を安定化することを行っている。
なお、このような立体音響技術は、一般的には、サラウンド音響信号をチャンネル数よりも少ない数のスピーカで仮想再生する仮想サラウンド再生技術として応用されている。
トランスオーラル再生において、聴取位置がスィートスポットから外れると、立体音響が聴こえなくなるばかりか、非常にうるさく感じるという課題がある。図15は、二つのスピーカが聴取者正面に対して左右5度の方向にある場合にトランスオーラル再生を行う場合の、2チャンネルクロストークキャンセルフィルタの周波数特性を示す図である。
クロストークキャンセルフィルタは複数のスピーカ間の干渉を補正するためのフィルタであるため、図示したように、高域に強いピークが現れる。このピークが生じる周波数は、2チャンネルトランスオーラル再生の場合は、二つのスピーカから各耳までの経路差で決定される。図15の例では、10kHz近傍にピークが生じる。この周波数の音の波長は音速を340m/秒とすると、約5.7cmである。よって、両スピーカから耳までの経路差が、基準の経路差よりこの半波長の約2.8cmずれると、強いピークが聴取者に聴こえてしまい、うるさく耳障りに感じる。
また、クロストークキャンセルは元々、スイートスポットにおいて両スピーカからの信号を打ち消し合う処理である。そのため、スイートスポットで音量を適切に調整すると、スイートスポットから頭部がずれた場合に消し残り成分が現れて全体の音量自体が大きくなるという課題があった。
特許文献1に開示されている技術によれば、聴取者が位置を移動した場合に、その位置に応じた伝達関数を利用してクロストークキャンセルフィルタを設計することによって、クロストークキャンセルが正しくできるようにしている。しかし、このような技術では、頭部移動を検知してからフィルタ設計するまでのタイムラグが生じるため、その間は聴取者がうるさく感じることになる。また、聴取者の位置を追いかけられる範囲に限界があるといった課題がある。
本発明はこのような問題に鑑みてなされたものであり、トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止するための技術を提供する。
本発明の一様態は、バイノーラル音響信号を取得する手段と、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段とを備えることを特徴とする。
本発明の構成によれば、トランスオーラル再生時にスイートスポットから聴取者が外れた場合であっても、音量が大きく耳障りな音になることを防止することができる。
以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の1つである。
[第1の実施形態]
先ず、本実施形態に係る音響再生装置の構成例について、図1のブロック図を用いて説明する。なお、図1に示した構成は、以下に説明する各処理を実現可能な構成の一例に過ぎず、以下に説明する各処理を実現可能な構成であれば、如何なる構成を採用しても構わない。
先ず、本実施形態に係る音響再生装置の構成例について、図1のブロック図を用いて説明する。なお、図1に示した構成は、以下に説明する各処理を実現可能な構成の一例に過ぎず、以下に説明する各処理を実現可能な構成であれば、如何なる構成を採用しても構わない。
ダミーヘッドマイクロフォン1は、頭部による音の回り込みが自然に畳み込まれた一方の耳の音響信号及び他方の耳の音響信号を収音(取得)し、該集音したバイノーラル音響信号をアナログの電気信号に変換して出力する。
マイクアンプ2a、2bはそれぞれ、聴取者の一方の耳用のマイクアンプ、他方の耳用のマイクアンプである。マイクアンプ2a、2bはそれぞれ、ダミーヘッドマイクロフォン1から出力された一方の耳用の微弱な音響信号及び他方の耳用の微弱な音響信号を適宜増幅して出力する。
ADC(A/D変換器)3a、3bはそれぞれ、マイクアンプ2a、2bにより増幅されたアナログのバイノーラル音響信号をディジタルのバイノーラル音響信号に変換して出力する。
クロストークキャンセル器5は、ADC3a、3bから出力されたバイノーラル音響信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
遅延器4は、ADC3a、3bから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する。
ビデオカメラ12は、本実施形態に係る音響再生装置のスイートスポット(「ロ」で示す)を含む近傍領域の動画像を撮像するものであり、撮像した各フレームの画像は順次、後段の聴取者状態検知器7に送出される。
聴取者状態検知器7は、ビデオカメラ12から送出される各フレームの画像を分析し、該画像中に聴取者(「イ」で示す)が写っている場合には、該聴取者の両耳の位置を推定する。
在スイートスポット判定器6は、聴取者状態検知器7が推定した両耳の位置から、聴取者の両耳がスイートスポット内に位置しているか否かを判断する。そして在スイートスポット判定器6は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。一方、在スイートスポット判定器6は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延バイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。
出力信号スイッチ8a、8bは、在スイートスポット判定器6からの指示に従って、遅延器4からの出力、クロストークキャンセル器5からの出力、のうち何れか一方を選択する。
すなわち、出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6がクロストークキャンセル処理済みバイノーラル音響信号を選択するように指示した場合には、クロストークキャンセル処理済みバイノーラル音響信号(一方のスピーカ用信号と他方のスピーカ用信号)を選択して出力する。一方、出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6が遅延バイノーラル音響信号を選択するように指示した場合には、遅延バイノーラル音響信号(一方のスピーカ用信号と他方のスピーカ用信号)を選択して出力する。
DAC(D/A変換器)9a、9bはそれぞれ、出力信号スイッチ8a、8bから出力されたディジタルの音響信号をアナログの音響信号に変換して出力する。アンプ10a、10bはそれぞれ、DAC9a、9bから出力されたアナログの音響信号を適宜増幅させてから出力する。スピーカ11a、11bはそれぞれ、アンプ10a、10bから出力されたアナログの音響信号に基づく音を出力する。
操作器13は、タッチパネル画面やハードキー、キーボードやマウスなど、各種の指示を本装置に入力するためにユーザが操作可能な入力インターフェースである。制御器14は、本実施形態に係る音響再生装置を構成する各部の動作制御を行う。
次に、ビデオカメラ12による撮像画像に基づいて、遅延バイノーラル音響信号に基づく音、クロストークキャンセル処理済みバイノーラル音響信号に基づく音、を切り替えて出力するために音響再生装置が行う処理について、図2のフローチャートを用いて説明する。
<ステップS1>
ビデオカメラ12は、スイートスポット(「ロ」で示す)を含む近傍領域の動画像を撮像し、撮像した各フレームの画像を順次、聴取者状態検知器7に対して送出する。
ビデオカメラ12は、スイートスポット(「ロ」で示す)を含む近傍領域の動画像を撮像し、撮像した各フレームの画像を順次、聴取者状態検知器7に対して送出する。
また、ダミーヘッドマイクロフォン1は、頭部による音の回り込みが自然に畳み込まれた一方の耳の音響信号及び他方の耳の音響信号を収音し、該集音したそれぞれのバイノーラル音響信号をアナログの電気信号に変換して出力する。マイクアンプ2a、2bはそれぞれ、ダミーヘッドマイクロフォン1から出力された一方の耳の微弱な音響信号及び他方の耳の微弱な音響信号を適宜増幅して出力する。ADC3a、3bはそれぞれ、マイクアンプ2a、2bにより増幅されたアナログのバイノーラル音響信号をディジタルのバイノーラル音響信号に変換して出力する。
<ステップS2>
クロストークキャンセル器5は、ADC3a、3bから出力されたバイノーラル音響信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
クロストークキャンセル器5は、ADC3a、3bから出力されたバイノーラル音響信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
一方で、遅延器4は、ADC3a、3bから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成して出力する。
ここで、図16を用いて一般的なクロストークキャンセル処理について説明する。図16は、使用するスピーカが2個の場合、つまり、2チャンネル再生環境における一般的なクロストークキャンセル処理を説明するための模式図である。
2チャンネル再生環境では、左右二つのスピーカと、聴取者(「イ」で示している)の両耳と、の間に、合わせて4つの音響伝達経路ができると考えることができる。図16に示す如く、左スピーカ16bから左耳の伝達関数をHLL、左スピーカ16bから右耳への伝達関数をHLR、とする。また、右スピーカ16aから左耳への伝達関数をHRL、右スピーカ16aから右耳への伝達関数をHRRとする。このとき、クロストークキャンセル処理を行わずに、直接スピーカ16a、16bから音を再生した場合、左右のスピーカ(16a、16b)への入力信号(Lin,Rin)と聴取者の両耳(左右の耳)に届く聴取信号(Lear,Rear)との間には以下の式(1)に示す関係が成立する。
ここで、以下の式(2)に示すAを伝達関数行列とする。
クロストークキャンセル処理は、聴取信号を入力信号と同一にする処理であるので、再生環境による伝達関数行列Aの逆行列Xを、以下の式(3)に示す如く設計すればよい。
上記の式(1)に対して、この逆行列Xを左から掛けると、入力信号と聴取信号が以下の式(4)に示す如く同一になる。
よって、図16に示すクロストークキャンセル器5における各フィルタX1,X2,X3,X4を式(3)の伝達関数を満たすように設計することで、クロストークキャンセル処理を正確に行うことができる。
なお、本実施形態では、出力チャンネルが2chの場合について説明を行っているが、出力チャンネルが3ch以上の場合においても同様にしてクロストークキャンセルフィルタを設計することができる。この場合、逆フィルタの解が不定となるため、例えばノルム最小となるMoore−Penlose型一般逆行列を用いるなどして解くことができる。これらの処理は当該分野に置いて一般的であり、公知であるため、その詳細な説明は省略する。
<ステップS3>
聴取者状態検知器7は、ビデオカメラ12から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の両耳の位置を推定する。本ステップにおける処理の詳細については、図3のフローチャートを用いて後述する。
聴取者状態検知器7は、ビデオカメラ12から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の両耳の位置を推定する。本ステップにおける処理の詳細については、図3のフローチャートを用いて後述する。
<ステップS4>
在スイートスポット判定器6は、聴取者状態検知器7が推定した両耳の位置と、在スイートスポット判定器6が管理するメモリ内に予め格納されているスピーカ11a、11bのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ11a、11bのそれぞれへの距離を計算する。すなわち在スイートスポット判定器6は、左耳とスピーカ11aとの間の距離、左耳とスピーカ11bとの間の距離、右耳とスピーカ11aとの間の距離、右耳とスピーカ11bとの間の距離、を求める。
在スイートスポット判定器6は、聴取者状態検知器7が推定した両耳の位置と、在スイートスポット判定器6が管理するメモリ内に予め格納されているスピーカ11a、11bのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ11a、11bのそれぞれへの距離を計算する。すなわち在スイートスポット判定器6は、左耳とスピーカ11aとの間の距離、左耳とスピーカ11bとの間の距離、右耳とスピーカ11aとの間の距離、右耳とスピーカ11bとの間の距離、を求める。
<ステップS5>
在スイートスポット判定器6は、左耳とスピーカ11aとの間の距離と、左耳とスピーカ11bとの間の距離と、の差分の絶対値(左経路差)、右耳とスピーカ11aとの間の距離と、右耳とスピーカ11bとの間の距離と、の差分の絶対値(右経路差)、を計算する。
在スイートスポット判定器6は、左耳とスピーカ11aとの間の距離と、左耳とスピーカ11bとの間の距離と、の差分の絶対値(左経路差)、右耳とスピーカ11aとの間の距離と、右耳とスピーカ11bとの間の距離と、の差分の絶対値(右経路差)、を計算する。
例えば、左耳とスピーカ11bとの間の距離をLsl、左耳とスピーカ11aとの間の距離をLsrとすると、左耳についての経路差Dleは、以下の式(5)に従って算出する。
<ステップS6>
在スイートスポット判定器6は、左経路差及び右経路差のそれぞれが基準聴取位置における規定の経路差からどれだけずれているのかを算出し、算出したそれぞれのずれが規定の許容範囲内にあるか否かを判断する。なお、基準聴取位置は本実施形態において、左右スピーカの前方かつ左右スピーカから等距離となる中心線上の一点に予め定められているものとする。
在スイートスポット判定器6は、左経路差及び右経路差のそれぞれが基準聴取位置における規定の経路差からどれだけずれているのかを算出し、算出したそれぞれのずれが規定の許容範囲内にあるか否かを判断する。なお、基準聴取位置は本実施形態において、左右スピーカの前方かつ左右スピーカから等距離となる中心線上の一点に予め定められているものとする。
クロストークキャンセル技術では、左右スピーカからの信号の位相を合わせる必要があるため、経路差がずれるとキャンセルがうまく働かなくなる。特に、左右の干渉が生じる周波数では、その周波数成分を持ち上げるようなフィルタが設計されるため、この周波数の位相が半波長ずれるととてもうるさく感じることになる。よって本実施形態では、この周波数が半波長ずれるだけ経路差がずれてしまう範囲を閾値として設定する。例えば、本実施形態において、スピーカの設置方向が±5°であるとすると、クロストークキャンセルフィルタの特性は図15のようになり、10kHz近傍にピークが生じる。この周波数の音の波長は音速を340m/秒とすると、約5.7cmである。よって、両スピーカから耳までの経路差が、基準の経路差よりこの半波長の約2.8cmずれると、強いピークが聴取者に聴こえてしまい、うるさく耳障りに感じる。よって、この閾値を2.8cmに設定する。経路差がこの閾値内である場合は、聴取者は立体音響を聴取できる範囲にある。一方、経路差が閾値を超えてしまった場合、聴取者は立体音響が聴取できなくなるばかりか、非常にうるさく耳障りに感じる領域にいることになる。こうすることによって、聴取者がスイートスポット、つまり、立体音響を聴取でき、かつ、うるさくない範囲内にいるかどうかの判定を行うことができる。
上記の判断の結果、左経路差及び右経路差の両方が規定の経路差から許容範囲内であれば、処理はステップS8に進み、左経路差及び右経路差のうち少なくとも一方が規定の経路差から許容範囲外であれば、処理はステップS7に進む。
<ステップS7>
在スイートスポット判定器6は、遅延バイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。然るに出力信号スイッチ8a、8bはそれぞれ、遅延バイノーラル音響信号を選択して出力する。
在スイートスポット判定器6は、遅延バイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。然るに出力信号スイッチ8a、8bはそれぞれ、遅延バイノーラル音響信号を選択して出力する。
DAC9a、9bはそれぞれ、出力信号スイッチ8a、8bから出力されたディジタルの音響信号をアナログの音響信号に変換して出力し、アンプ10a、10bはそれぞれ、DAC9a、9bから出力されたアナログの音響信号を適宜増幅させてから出力する。スピーカ11a、11bはそれぞれ、アンプ10a、10bから出力されたアナログの音響信号に基づく音を出力する。
<ステップS8>
在スイートスポット判定器6は、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。然るに出力信号スイッチ8a、8bはそれぞれ、クロストークキャンセル処理済みバイノーラル音響信号を選択して出力する。
在スイートスポット判定器6は、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。然るに出力信号スイッチ8a、8bはそれぞれ、クロストークキャンセル処理済みバイノーラル音響信号を選択して出力する。
DAC9a、9bはそれぞれ、出力信号スイッチ8a、8bから出力されたディジタルの音響信号をアナログの音響信号に変換して出力し、アンプ10a、10bはそれぞれ、DAC9a、9bから出力されたアナログの音響信号を適宜増幅させてから出力する。スピーカ11a、11bはそれぞれ、アンプ10a、10bから出力されたアナログの音響信号に基づく音を出力する。
<ステップS9>
制御器14は、図2のフローチャートに従った処理の終了条件が満たされたか否かを判断する。例えば制御器14は、ユーザが操作器13を操作して処理の終了指示を入力したことを検知した場合には、図2のフローチャートに従った処理の終了条件が満たされたと判断する。そして、制御器14が、図2のフローチャートに従った処理の終了条件が満たされたと判断した場合には、図2のフローチャートに従った処理は終了させ、満たされていないと判断した場合には、処理はステップS1に戻る。
制御器14は、図2のフローチャートに従った処理の終了条件が満たされたか否かを判断する。例えば制御器14は、ユーザが操作器13を操作して処理の終了指示を入力したことを検知した場合には、図2のフローチャートに従った処理の終了条件が満たされたと判断する。そして、制御器14が、図2のフローチャートに従った処理の終了条件が満たされたと判断した場合には、図2のフローチャートに従った処理は終了させ、満たされていないと判断した場合には、処理はステップS1に戻る。
次に、上記のステップS3における処理、すなわち、ビデオカメラ12から送出される各フレームの画像から、該画像中に聴取者が写っている場合には該聴取者の両耳の位置を推定する処理について、図3のフローチャートを用いて説明する。なお、説明の便宜上、以降では、水平面内における位置や向きを算出する処理についてのみ説明する。また、図3のフローチャートは、1フレーム分の画像に対する処理を示したものであり、実際には、図3のフローチャートは、ビデオカメラ12から送出される各フレームの画像に対して行われるものである。
<ステップS101>
聴取者状態検知器7は、ビデオカメラ12から送出された画像(対象画像)から、聴取者の顔が占めている領域を検出する。本実施形態では、特定の人物の顔を認識するのではなく、単に人の顔と判定される領域があるかどうかを検出する。画像から顔を認識して該顔が占めている領域を検出する技術は周知であるので、この技術に係る説明は省略する。
聴取者状態検知器7は、ビデオカメラ12から送出された画像(対象画像)から、聴取者の顔が占めている領域を検出する。本実施形態では、特定の人物の顔を認識するのではなく、単に人の顔と判定される領域があるかどうかを検出する。画像から顔を認識して該顔が占めている領域を検出する技術は周知であるので、この技術に係る説明は省略する。
<ステップS102>
聴取者状態検知器7は、ステップS101で検出した領域内の顔に合焦させるべく、ビデオカメラ12を制御する。この処理はカメラ分野において一般的であり、公知であるため、この技術に関する説明は省略する。
聴取者状態検知器7は、ステップS101で検出した領域内の顔に合焦させるべく、ビデオカメラ12を制御する。この処理はカメラ分野において一般的であり、公知であるため、この技術に関する説明は省略する。
<ステップS103>
聴取者状態検知器7は、ビデオカメラ12のレンズの焦点距離fと、主点から撮像面までの距離aと、を用いて、カメラ主点から被写体である聴取者の顔までの距離Lを求める。焦点距離fと主点から撮像面までの距離aは、ビデオカメラ12のパラメータとして対象画像と共に聴取者状態検知器7に送信される。レンズの公式により、ビデオカメラ12の主点と聴取者の顔までの距離Lは以下の式(6)を解くことによって求めることができる。
聴取者状態検知器7は、ビデオカメラ12のレンズの焦点距離fと、主点から撮像面までの距離aと、を用いて、カメラ主点から被写体である聴取者の顔までの距離Lを求める。焦点距離fと主点から撮像面までの距離aは、ビデオカメラ12のパラメータとして対象画像と共に聴取者状態検知器7に送信される。レンズの公式により、ビデオカメラ12の主点と聴取者の顔までの距離Lは以下の式(6)を解くことによって求めることができる。
<ステップS104>
聴取者状態検知器7は、ビデオカメラ12の画角と、聴取者の対象画像内の水平位置と、を用いて、ビデオカメラ12の正面と聴取者方向の水平面上におけるなす角θbを求める。撮像面の幅dと焦点距離fは、ビデオカメラ12のパラメータとして対象画像と共に聴取者状態検知器7に送信される。まず、水平画角αを、以下の式(7)を計算することで求める。
聴取者状態検知器7は、ビデオカメラ12の画角と、聴取者の対象画像内の水平位置と、を用いて、ビデオカメラ12の正面と聴取者方向の水平面上におけるなす角θbを求める。撮像面の幅dと焦点距離fは、ビデオカメラ12のパラメータとして対象画像と共に聴取者状態検知器7に送信される。まず、水平画角αを、以下の式(7)を計算することで求める。
次に、式(7)を用いて計算した水平画角αと、ステップS101で検出した領域の中心画素位置と対象画像の中心画素位置との間の水平ピクセル距離pと、画角全体の水平画素数Hと、を用いて、以下の式(8)を計算することで、ビデオカメラ12の正面と聴取者方向のなす角θbを求める。
なお、水平ピクセル距離pは、ステップS101で検出した領域の中心画素位置が対象画像の中心画素位置よりも左側にある場合を正、右側にある場合を負とする。したがって、θbも、ステップS101で検出した領域の中心画素位置が対象画像の中心画素位置よりも左側にある場合は正値、右側にある場合は負値となる。図4に図示した例では、θbは負値となる。
<ステップS105>
聴取者状態検知器7は、ステップS103で求めた距離Lと、ステップS104で求めた角θbと、を用いて、聴取者の位置座標を求める。まず、本実施形態で取り扱う座標を定義する。図4に図示するように、二つのスピーカを結ぶ直線上にY軸を設定し、Y軸上にビデオカメラ12を設置する。そして、ビデオカメラ12の位置を原点とし、Y軸と垂直に聴取者側を正方向としてX軸を設定する。X軸とビデオカメラ12の撮影方向とのなす角θaは予め定められた角度であり、聴取者状態検知器7が管理するメモリ内に予め格納されている。この座標系において、X軸と聴取者方向のなす角はθa+θbとなるので、聴取者の座標(Lx,Ly)は以下の式(9)を計算することで求めることができる。
聴取者状態検知器7は、ステップS103で求めた距離Lと、ステップS104で求めた角θbと、を用いて、聴取者の位置座標を求める。まず、本実施形態で取り扱う座標を定義する。図4に図示するように、二つのスピーカを結ぶ直線上にY軸を設定し、Y軸上にビデオカメラ12を設置する。そして、ビデオカメラ12の位置を原点とし、Y軸と垂直に聴取者側を正方向としてX軸を設定する。X軸とビデオカメラ12の撮影方向とのなす角θaは予め定められた角度であり、聴取者状態検知器7が管理するメモリ内に予め格納されている。この座標系において、X軸と聴取者方向のなす角はθa+θbとなるので、聴取者の座標(Lx,Ly)は以下の式(9)を計算することで求めることができる。
<ステップS106>
聴取者状態検知器7は、聴取者の対象画像上における顔の向きθcを検出する。画像内における顔の向きを検出するための技術は周知であるため、この技術に係る説明は省略する。
聴取者状態検知器7は、聴取者の対象画像上における顔の向きθcを検出する。画像内における顔の向きを検出するための技術は周知であるため、この技術に係る説明は省略する。
なお、本実施形態において、ビデオカメラ12に対して聴取者が正面から左を向いている場合には、θcは正値になり、右を向いている場合はθcは負値になるとする。図4に図示した例では、θcは負値になる。
<ステップS107>
聴取者状態検知器7は、上記のθa及びθbと、ステップS106で求めたθcと、を用いて、上記の座標系に対する聴取者の顔の向きθを求める。図4より、このθは以下の式(10)を計算することで求めることができる。
聴取者状態検知器7は、上記のθa及びθbと、ステップS106で求めたθcと、を用いて、上記の座標系に対する聴取者の顔の向きθを求める。図4より、このθは以下の式(10)を計算することで求めることができる。
<ステップS108>
聴取者状態検知器7は、ステップS105で求めた聴取者の座標と、ステップS107で求めた顔の向きθと、を用いて、聴取者の両耳の座標を求める。図4に図示したように、人間の頭部水平断面を円と考え、その直径を16cmと想定し、左右の耳穴が正面に対して±90°の位置にあると仮定すると、左耳の座標(Elx,Ely)と右耳の座標(Erx,Ery)は、以下の式(11)を計算することで求めることができる。
聴取者状態検知器7は、ステップS105で求めた聴取者の座標と、ステップS107で求めた顔の向きθと、を用いて、聴取者の両耳の座標を求める。図4に図示したように、人間の頭部水平断面を円と考え、その直径を16cmと想定し、左右の耳穴が正面に対して±90°の位置にあると仮定すると、左耳の座標(Elx,Ely)と右耳の座標(Erx,Ery)は、以下の式(11)を計算することで求めることができる。
このように、本実施形態によれば、聴取者の両耳の位置を常時監視し、少なくとも一方の耳がスイートスポットから外れたことを検知すると、クロストークキャンセル処理をしていないバイノーラル信号に出力を切り替えるので、聴取者がうるさく感じることを防止することができる。
<変形例1>
第1の実施形態では、ダミーヘッドマイクロフォンを用いて録音したバイノーラル信号を二分して、バイノーラル信号とクロストークキャンセル処理信号を切り替える例を説明した。
第1の実施形態では、ダミーヘッドマイクロフォンを用いて録音したバイノーラル信号を二分して、バイノーラル信号とクロストークキャンセル処理信号を切り替える例を説明した。
しかし、例えば、図5に示すように、マイクロフォン15a、マイクロフォン15bによって同時にステレオ録音を行い、聴取者がスイートスポットにいるかどうかに応じて、遅延ステレオ音響信号と、クロストークキャンセル処理済みバイノーラル音響信号と、を切り替えることによっても同様の効果を得ることができる。
図5において、マイクロフォン15a、15bはそれぞれ、左右のチャンネル用の音を集音して対応するステレオ音響信号を出力するものである。マイクアンプ2c、2dはそれぞれ、マイクアンプ2a、2bと同じものであり、ADC3c、3dはそれぞれ、ADC3a、3bと同じものである。
遅延器4は、ADC3c、3dから出力されたステレオ音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する。
在スイートスポット判定器6は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択するように出力信号スイッチ8a、8bに指示する。一方、在スイートスポット判定器6は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延ステレオ音響信号を選択するように出力信号スイッチ8a、8bに指示する。
出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6がクロストークキャンセル処理済みバイノーラル音響信号を選択するように指示した場合には、クロストークキャンセル処理済みバイノーラル音響信号を選択して出力する。一方、出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6が遅延ステレオ音響信号を選択するように指示した場合には、遅延ステレオ音響信号を選択して出力する。
<変形例2>
また、図6に示す如く、ADC3a、3bの出力をデータとして記憶器22に一旦格納し、その後、任意のタイミングで詠み出し器23がこのデータを記憶器22から読み出して遅延器4及びクロストークキャンセル器5に供給する構成を採用しても構わない。記憶器22は、ハードディスクドライブ装置やRAM等の適当なメモリである。このような構成においても聴取者がスイートスポットにいるかどうかにより出力信号を切り替えることができ、同様の効果を得ることができる。
また、図6に示す如く、ADC3a、3bの出力をデータとして記憶器22に一旦格納し、その後、任意のタイミングで詠み出し器23がこのデータを記憶器22から読み出して遅延器4及びクロストークキャンセル器5に供給する構成を採用しても構わない。記憶器22は、ハードディスクドライブ装置やRAM等の適当なメモリである。このような構成においても聴取者がスイートスポットにいるかどうかにより出力信号を切り替えることができ、同様の効果を得ることができる。
[第2の実施形態]
本実施形態では、サラウンド音響再生を行う場合において、仮想サラウンド信号とステレオダウンミックス信号を切り替える例について説明する。本実施形態に係る音響再生装置の構成例について、図7のブロック図を用いて説明する。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは第1の実施形態と同様であるものとして説明する。
本実施形態では、サラウンド音響再生を行う場合において、仮想サラウンド信号とステレオダウンミックス信号を切り替える例について説明する。本実施形態に係る音響再生装置の構成例について、図7のブロック図を用いて説明する。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは第1の実施形態と同様であるものとして説明する。
ステレオダウンミックス器31は、入力信号である5.1チャンネルサラウンド音響信号を、入力されるダウンミックス係数を用いてミキシングすることによって、ステレオダウンミックス信号(左チャンネル用のステレオダウンミックス信号L、右チャンネル用のステレオダウンミックス信号R)に変換して出力する。
仮想サラウンド信号生成器32は、入力信号である5.1chサラウンド音響信号の、LFEを除く各チャンネル信号に対して、各チャンネルのスピーカの標準配置に基づく方向の頭部伝達関数(HRTF)を畳み込む。その後、仮想サラウンド信号生成器32は、LFEを混合することによって、バイノーラル信号に変換することで、仮想サラウンド信号(左耳用の仮想サラウンド信号、右耳用の仮想サラウンド信号)を生成して出力する。
遅延器4は、ステレオダウンミックス器31から出力されたそれぞれのステレオダウンミックス信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する。
クロストークキャンセル器5は、仮想サラウンド信号生成器32から出力された仮想サラウンド信号に対してクロストークキャンセル処理を行って、クロストークキャンセル処理済み仮想サラウンド信号を生成して出力する。
在スイートスポット判定器6は、聴取者の両耳がスイートスポット内に位置していると判断した場合には、クロストークキャンセル処理済み仮想サラウンド信号を選択するように出力信号スイッチ8a、8bに指示する。一方、在スイートスポット判定器6は、聴取者の両耳のうち少なくとも一方がスイートスポット外に位置していると判断した場合には、遅延ステレオダウンミックス信号を選択するように出力信号スイッチ8a、8bに指示する。
出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6がクロストークキャンセル処理済み仮想サラウンド信号を選択するように指示した場合には、クロストークキャンセル処理済み仮想サラウンド信号を選択して出力する。一方、出力信号スイッチ8a、8bはそれぞれ、在スイートスポット判定器6が遅延ステレオダウンミックス信号を選択するように指示した場合には、遅延ステレオダウンミックス信号を選択して出力する。
次に、本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示す図8を用いて説明する。
<ステップS201>
ステレオダウンミックス器31は、入力信号である5.1チャンネルサラウンド音響信号を、入力されるダウンミクス係数でミキシングすることによって、左チャンネル用のステレオダウンミックス信号L、右チャンネル用のステレオダウンミックス信号Rに変換して出力する。この処理は以下の式(12)に従って行われる。
ステレオダウンミックス器31は、入力信号である5.1チャンネルサラウンド音響信号を、入力されるダウンミクス係数でミキシングすることによって、左チャンネル用のステレオダウンミックス信号L、右チャンネル用のステレオダウンミックス信号Rに変換して出力する。この処理は以下の式(12)に従って行われる。
ここで、kcはセンターチャンネル信号のダウンミクス係数、ksはサラウンドチャンネル信号のダウンミクス係数であり、通常、1/√2や0.5などの値が用いられる。また、kLFEはLFEのダウンミクス係数であり、通常は0とすることが多い。これらの係数は、コンテンツ制作者、もしくはコンテンツ送信者によって指定され、サラウンド音響信号とともに送信される。
<ステップS202>
仮想サラウンド信号生成器32は、入力信号である5.1チャンネルサラウンド音響信号のLFEを除く5チャンネルの信号に基づき、左耳用の仮想サラウンド信号、右耳用の仮想サラウンド信号を生成する。まず、処理対象となる各チャンネル信号に対して、標準のスピーカ配置における各チャンネルの方向の頭部伝達関数を畳み込むことによって、両耳の信号を作成する。次に、チャンネル毎に作成した両耳の信号を耳毎に5チャンネル分加算することにより、それぞれの耳に対する仮想サラウンド信号を生成する。
仮想サラウンド信号生成器32は、入力信号である5.1チャンネルサラウンド音響信号のLFEを除く5チャンネルの信号に基づき、左耳用の仮想サラウンド信号、右耳用の仮想サラウンド信号を生成する。まず、処理対象となる各チャンネル信号に対して、標準のスピーカ配置における各チャンネルの方向の頭部伝達関数を畳み込むことによって、両耳の信号を作成する。次に、チャンネル毎に作成した両耳の信号を耳毎に5チャンネル分加算することにより、それぞれの耳に対する仮想サラウンド信号を生成する。
ステップS2〜S6の処理は上記の通りであるが、仮想サラウンド信号もバイノーラル音響信号の一種であり、トランスオーラル再生時にはクロストークキャンセル処理が必要である。そのため、スイートスポットが限られてしまい、スイートスポットから聴取者が移動するとうるさく感じる現象が同様に生じる。そこで、この場合も聴取者がスイートスポットから移動したことを検知し、クロストークキャンセルをしないダウンミックス信号に出力を切り替えるようにする。
ステップS6における上記の判断の結果、左経路差及び右経路差の両方が規定の経路差から許容範囲内であれば、処理はステップS8に進み、左経路差及び右経路差のうち少なくとも一方が規定の経路差から許容範囲外であれば、処理はステップS203に進む。
<ステップS203>
在スイートスポット判定器6は、遅延ステレオダウンミックス信号を選択するように出力信号スイッチ8a、8bに指示する。出力信号スイッチ8a、8bはそれぞれ、遅延ステレオダウンミックス信号を選択して出力する。
在スイートスポット判定器6は、遅延ステレオダウンミックス信号を選択するように出力信号スイッチ8a、8bに指示する。出力信号スイッチ8a、8bはそれぞれ、遅延ステレオダウンミックス信号を選択して出力する。
このように、本実施形態によれば、聴取者がスイートスポットから外れた場合に、ステレオダウンミックス信号に出力を切り替えるので、うるさく感じることを防止することができる。
[第3の実施形態]
本実施形態では、第1の実施形態に加え、ビデオカメラ12による画像から複数の聴取者が検出された場合には、遅延バイノーラル音響信号を出力する。本実施形態に係る音響再生装置の構成例について、図9のブロック図を用いて説明する。音響再生装置の構成そのものは図1に示した第1の実施形態に係る音響再生装置の構成と変わらないが、ビデオカメラ12による撮像範囲に、他の聴取者(「ハ」で示している)が入りうる点が第1の実施形態と異なる。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとして説明する。
本実施形態では、第1の実施形態に加え、ビデオカメラ12による画像から複数の聴取者が検出された場合には、遅延バイノーラル音響信号を出力する。本実施形態に係る音響再生装置の構成例について、図9のブロック図を用いて説明する。音響再生装置の構成そのものは図1に示した第1の実施形態に係る音響再生装置の構成と変わらないが、ビデオカメラ12による撮像範囲に、他の聴取者(「ハ」で示している)が入りうる点が第1の実施形態と異なる。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは、第1の実施形態と同様であるものとして説明する。
本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示図10を用いて説明する。
<ステップS301>
聴取者状態検知器7は、ビデオカメラ12から送出された画像(対象画像)から、人の顔が占めている領域を検出し、該検出した領域の数(人数)を計数する。この技術は周知であるため、この技術に係る説明は省略する。なお、本実施形態では、対象画像から認識した人の顔は全て聴取者の顔と判断し、その数を計数する。
聴取者状態検知器7は、ビデオカメラ12から送出された画像(対象画像)から、人の顔が占めている領域を検出し、該検出した領域の数(人数)を計数する。この技術は周知であるため、この技術に係る説明は省略する。なお、本実施形態では、対象画像から認識した人の顔は全て聴取者の顔と判断し、その数を計数する。
<ステップS302>
聴取者状態検知器7は、ステップS301で計数した領域の数が1であるか否かを判断する。この判断の結果、ステップS301で計数した領域の数が1以外(0若しくは2以上)、処理はステップS7に進み、ステップS301で計数した領域の数が1であれば、処理はステップS3に進む。
聴取者状態検知器7は、ステップS301で計数した領域の数が1であるか否かを判断する。この判断の結果、ステップS301で計数した領域の数が1以外(0若しくは2以上)、処理はステップS7に進み、ステップS301で計数した領域の数が1であれば、処理はステップS3に進む。
このように、本実施形態によれば、聴取者が複数のときは、クロストークキャンセル処理した信号から通常のバイノーラル信号に出力を切り替えるため、スイートスポットから外れた位置にいる聴取者がうるさく感じることを防止することができる。また、聴取者がいない場合もバイノーラル信号に切り替えることによって、全体の出力音量を抑えて周囲への音による影響を抑えることができる。
[第4の実施形態]
本実施形態では、聴取者の位置を追跡し、該聴取者が追跡範囲内に居れば、該聴取者の両耳の位置に応じてクロストークキャンセルフィルタを逐次変更して適用し、追跡範囲外であれば、遅延バイノーラル音響信号に切り替える。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。
本実施形態では、聴取者の位置を追跡し、該聴取者が追跡範囲内に居れば、該聴取者の両耳の位置に応じてクロストークキャンセルフィルタを逐次変更して適用し、追跡範囲外であれば、遅延バイノーラル音響信号に切り替える。以下では、第1の実施形態との差分について重点的に説明し、以下で特に触れない限りは第1の実施形態と同様であるものとする。
本実施形態に係る音響再生装置の構成例について、図11のブロック図を用いて説明する。「ニ」で示す範囲は、聴取者を追跡可能な範囲を示す。
聴取者状態検知器41は、ビデオカメラ12から送出されるそれぞれのフレームの画像を分析して、聴取者の位置を求め、該求めた位置を在追跡範囲判定器42に出力する。
在追跡範囲判定器42は、聴取者状態検知器41が求めた位置が追跡可能範囲内であるか否かの判定を行い、この判定に従って出力信号スイッチ8a、8bに、遅延器4からの出力、クロストークキャンセル器44からの出力、のうち何れか一方の出力を指示する。
クロストークキャンセルフィルタ設計器43は、左右スピーカと聴取者の両耳間の伝達関数を推定し、これを用いてクロストークキャンセルフィルタ係数の再設計を行う。そしてクロストークキャンセルフィルタ設計器43は、この再設計したクロストークキャンセルフィルタ係数をクロストークキャンセル器44に供給する。
クロストークキャンセル器44は、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号に対して、クロストークキャンセルフィルタ設計器43から供給されるクロストークキャンセルフィルタ係数を用いたクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
次に、本実施形態に係る音響再生装置が行う処理について、同処理のフローチャートを示す図12を用いて説明する。
<ステップS401>
聴取者状態検知器41は、ビデオカメラ12から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の位置を推定する。この推定処理は、図3のフローチャートにおいてステップS101〜S105の処理を実行することで実現することができる。そして聴取者状態検知器41は、推定した聴取者の位置を在追跡範囲判定器42に対して送出する。
聴取者状態検知器41は、ビデオカメラ12から送出される各フレームの画像を分析し、該画像中に聴取者が写っている場合には、該聴取者の位置を推定する。この推定処理は、図3のフローチャートにおいてステップS101〜S105の処理を実行することで実現することができる。そして聴取者状態検知器41は、推定した聴取者の位置を在追跡範囲判定器42に対して送出する。
<ステップS402>
在追跡範囲判定器42は、聴取者状態検知器41から受けた聴取者の位置が、予め作成してデータとして在追跡範囲判定器42が管理するメモリ内に登録されている追跡可能範囲(座標位置範囲)にあるか否かを判断する。この判断の結果、聴取者状態検知器41から受けた聴取者の位置が追跡可能範囲(規定領域内)にある場合には、処理はステップS403に進み、追跡可能範囲にない(規定領域外)場合には、処理はステップS407に進む。
在追跡範囲判定器42は、聴取者状態検知器41から受けた聴取者の位置が、予め作成してデータとして在追跡範囲判定器42が管理するメモリ内に登録されている追跡可能範囲(座標位置範囲)にあるか否かを判断する。この判断の結果、聴取者状態検知器41から受けた聴取者の位置が追跡可能範囲(規定領域内)にある場合には、処理はステップS403に進み、追跡可能範囲にない(規定領域外)場合には、処理はステップS407に進む。
<ステップS403>
聴取者状態検知器41は、ステップS401で求めた位置を用いて、聴取者の両耳の位置を推定する。この処理は、図3のフローチャートにおいて、ステップS106〜S108の処理を実行することで実現することができる。そして聴取者状態検知器41は、求めた両耳の位置を、クロストークキャンセルフィルタ設計器43に対して送出する。
聴取者状態検知器41は、ステップS401で求めた位置を用いて、聴取者の両耳の位置を推定する。この処理は、図3のフローチャートにおいて、ステップS106〜S108の処理を実行することで実現することができる。そして聴取者状態検知器41は、求めた両耳の位置を、クロストークキャンセルフィルタ設計器43に対して送出する。
<ステップS404>
クロストークキャンセルフィルタ設計器43は、聴取者状態検知器41から受けた両耳の位置と、クロストークキャンセルフィルタ設計器43が管理するメモリ内に予め格納されているスピーカ11a、11bのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ11a、11bのそれぞれへの伝達関数を計算する。すなわちクロストークキャンセルフィルタ設計器43は、左耳とスピーカ11aとの間の伝達関数、左耳とスピーカ11bとの間の伝達関数、右耳とスピーカ11aとの間の伝達関数、右耳とスピーカ11bとの間の伝達関数、を求める。
クロストークキャンセルフィルタ設計器43は、聴取者状態検知器41から受けた両耳の位置と、クロストークキャンセルフィルタ設計器43が管理するメモリ内に予め格納されているスピーカ11a、11bのそれぞれの位置と、を用いて、聴取者の両耳のそれぞれについて、スピーカ11a、11bのそれぞれへの伝達関数を計算する。すなわちクロストークキャンセルフィルタ設計器43は、左耳とスピーカ11aとの間の伝達関数、左耳とスピーカ11bとの間の伝達関数、右耳とスピーカ11aとの間の伝達関数、右耳とスピーカ11bとの間の伝達関数、を求める。
図11の構成の場合、スピーカ2個と両耳の組み合わせで合計4つの伝達関数を推定することになる。本実施形態では、座標から各スピーカと各耳への距離が算出できるため、その距離差に基づく遅延のみを反映させる伝達関数を推定するものとする。あるいは、典型的な室内応答を予めメモリに格納しておき、その室内応答をさらに畳み込むようにしてもよい。
<ステップS405>
クロストークキャンセルフィルタ設計器43は、ステップS404で推定した伝達関数を用いてクロストークキャンセルフィルタ係数を計算し、該計算したクロストークキャンセルフィルタ係数をクロストークキャンセル器44に供給する。一般に、クロストークキャンセルフィルタの設計は、伝達関数の逆フィルタを計算することで設計することができる。この処理は当分野において一般的に行われており、公知であるために、その詳細な説明は省略する。
クロストークキャンセルフィルタ設計器43は、ステップS404で推定した伝達関数を用いてクロストークキャンセルフィルタ係数を計算し、該計算したクロストークキャンセルフィルタ係数をクロストークキャンセル器44に供給する。一般に、クロストークキャンセルフィルタの設計は、伝達関数の逆フィルタを計算することで設計することができる。この処理は当分野において一般的に行われており、公知であるために、その詳細な説明は省略する。
<ステップS406>
クロストークキャンセル器44は、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号に対して、ステップS405でクロストークキャンセルフィルタ設計器43から供給されるクロストークキャンセルフィルタ係数を用いたクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
クロストークキャンセル器44は、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号に対して、ステップS405でクロストークキャンセルフィルタ設計器43から供給されるクロストークキャンセルフィルタ係数を用いたクロストークキャンセル処理を行って、クロストークキャンセル処理済みバイノーラル音響信号を生成して出力する。
<ステップS407>
遅延器4は、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成して出力する。
遅延器4は、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号を、上記のクロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成して出力する。
このように、本実施形態によれば、聴取者の位置を追跡してクロストークキャンセルフィルタを適応させながらトランスオーラル再生を行う場合においても、追跡範囲を外れた場合に聴取者がうるさく感じることを防止することが可能である。
[第5の実施形態]
上記の実施形態の場合、聴取者が試聴位置を探している最中にスイートスポットを出たり入ったりすると、その都度出力信号の切り替えが生じ、聞きづらくなる場合が考えられる。そこで、聴取者が一定時間静止していることを判定した上で、スイートスポットにいるかどうかの判定を行い、出力信号の切り替えを行うようにしてもよい。その場合、例えば、図2に示した処理の代わりに、図13の処理を行うことになる。
上記の実施形態の場合、聴取者が試聴位置を探している最中にスイートスポットを出たり入ったりすると、その都度出力信号の切り替えが生じ、聞きづらくなる場合が考えられる。そこで、聴取者が一定時間静止していることを判定した上で、スイートスポットにいるかどうかの判定を行い、出力信号の切り替えを行うようにしてもよい。その場合、例えば、図2に示した処理の代わりに、図13の処理を行うことになる。
ステップS11では、聴取者状態検知器7は、聴取者の位置が規定時間以上変わっていないか否か(聴取者が静止しているか否か)を判断する。この判断のための処理には、様々な処理が考えられ、如何なる処理を採用しても構わない。例えば、N(Nは2以上の整数)フレーム以上に渡って連続して、該フレームの画像から求めた聴取者の位置の変化が規定量以下であれば、「聴取者の位置が規定時間(Nフレーム分の時間)以上変わっていない」と判断する。そしてこの判断の結果、「聴取者の位置が規定時間以上変わっていない」と判断した場合には、処理はステップS4に進み、「聴取者の位置が規定時間以上変わっていない」と判断できなかった場合には、処理はステップS9に進む。
このような処理を行うことで、聴取者が移動している間は出力信号の切り替えが生じないため、頻繁に出力信号が切り替えられて聞きづらくなることを防止することが可能である。
[第6の実施形態]
第1の実施形態では、ビデオカメラ12による画像から聴取者の位置や向きを検知することによって、該聴取者の両耳がスイートスポットにいるかどうかの判定を行う場合について説明した。この判定は、図14の構成のように、聴取者位置の音を収音し、入力信号と比較することによって行うようにしても構わない。
第1の実施形態では、ビデオカメラ12による画像から聴取者の位置や向きを検知することによって、該聴取者の両耳がスイートスポットにいるかどうかの判定を行う場合について説明した。この判定は、図14の構成のように、聴取者位置の音を収音し、入力信号と比較することによって行うようにしても構わない。
伝達関数重畳器51は、クロストークキャンセルフィルタ設計時の基準の聴取者位置(メモリ内で管理されている)において、スピーカ11a、11bと聴取者の両耳間の伝達関数を、ADC3a、3bのそれぞれから出力されたバイノーラル音響信号に畳み込む。これにより、バイノーラル音響信号がそのままスピーカから再生された場合に、基準位置に聴取者が位置すると仮定したときに聴取者の両耳で聴こえる音響信号を再現する。
バイノーラルマイクロフォン52a、52bはそれぞれ、右耳用のバイノーラルマイクロフォン、左耳用のバイノーラルマイクロフォンであり、聴取者の右耳及び左耳に取り付けられ、該耳で捉える音を収音する。バイノーラルマイクロフォン52aによって集音された音の信号はマイクアンプ2pによって増幅され、ADC3pによってディジタルのバイノーラル音響信号に変換される。バイノーラルマイクロフォン52bによって集音された音の信号はマイクアンプ2qによって増幅され、ADC3qによってディジタルのバイノーラル音響信号に変換される。
在スイートスポット判定器53は、出力信号スイッチ54a、54bによって選択された信号とADC3p、3qからのバイノーラル音響信号とが略一致しているか否かを判断することで、聴取者がスイートスポットに位置しているか否かを判断する。
例えば、現在、出力信号スイッチ8a、8bがクロストークキャンセル器5からの出力を選択しているとする。このとき、在スイートスポット判定器53は、遅延器4からの出力を選択するように出力信号スイッチ54a、54bに指示し、遅延器4からの出力と、ADC3p、3qからのバイノーラル音響信号と、が略同等であるか否かを判断する。一方、現在、出力信号スイッチ8a、8bが遅延器4からの出力を選択しているとする。このとき、在スイートスポット判定器53は、伝達関数重畳器51からの出力を選択するように出力信号スイッチ54a、54bに指示し、伝達関数重畳器51からの出力と、ADC3p、3qからのバイノーラル音響信号と、が略同等であるか否かを判断する。
このような判断の結果、略同等であると判断した場合には、聴取者の両耳はスイートスポット内に位置しているものと判断し、略同等ではないと判断した場合には、聴取者の両耳はスイートスポット外に位置しているものと判断する。
そして在スイートスポット判定器53は、聴取者の両耳はスイートスポット内に位置しているものと判断した場合、クロストークキャンセル器5の出力を選択するよう出力信号スイッチ8a、8bを制御すると共に、遅延器4からの出力を選択するように出力信号スイッチ54a、54bを制御する。
一方、在スイートスポット判定器53は、聴取者の両耳はスイートスポット外に位置しているものと判断した場合、遅延器4の出力を選択するよう出力信号スイッチ8a、8bを制御すると共に、伝達関数重畳器51からの出力を選択するように出力信号スイッチ54a、54bを制御する。
このような構成により、聴取者がスイートスポット内にいるかどうかを判定できる。この判定に基づいて、スイートスポットから聴取者が外れた場合にクロストークキャンセルしない信号に切り替えることによって、聴取者がうるさく感じることを防止することができる。
また、第1の実施形態では、ビデオカメラ12による画像を解析して聴取者の状態を検知していたが、聴取者の頭部位置と向きを検知するセンサを聴取者頭部に直接取り付け、該センサからのセンサ情報に基づいて聴取者の状態を検知するようにしても構わない。
また、以上説明した様々な実施形態や変形例は、その一部若しくは全部を適宜組み合わせて使用することも可能であるし、それと同等の構成であれば、他の構成を採用しても構わない。
また、例えば、図1,5,6,7,9,11,14に示した構成は、全てハードウェアで構成しても良いし、一部をソフトウェア(コンピュータプログラム)で構成しても構わない。その場合、このソフトウェアは、制御器14が管理するメモリに格納され、制御器14によって実行されることになる。
(その他の実施例)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。
1 ダミーヘッドマイクロフォン
2a、2b マイクアンプ
4 遅延器
5 クロストークキャンセル器
6 在スイートスポット判定器
8a、8b 出力信号スイッチ
10a、10b アンプ
11a、11b スピーカ
2a、2b マイクアンプ
4 遅延器
5 クロストークキャンセル器
6 在スイートスポット判定器
8a、8b 出力信号スイッチ
10a、10b アンプ
11a、11b スピーカ
Claims (14)
- バイノーラル音響信号を取得する手段と、
前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。 - 前記出力手段は、
前記聴取者を撮像している装置が撮像した画像から1以外の数の聴取者が検出された場合には、前記遅延バイノーラル音響信号を出力することを特徴とする請求項1に記載の音響再生装置。 - 前記判断手段は、前記聴取者の位置が規定時間以上変わっていないことを検知した場合に、前記両耳がスイートスポット内に位置しているか否かを判断することを特徴とする請求項1又は2に記載の音響再生装置。
- 前記判断手段は、
一方の耳と一方のスピーカとの間の距離と該一方の耳と他方のスピーカとの間の距離との差、他方の耳と一方のスピーカとの間の距離と該他方の耳と他方のスピーカとの間の距離との差、を求め、該求めたそれぞれの差が基準から許容範囲内であれば前記両耳はスイートスポット内に位置していると判断し、少なくとも一方の差が該基準から許容範囲外の場合には該差に対応する耳はスイートスポット内に位置していないと判断する
ことを特徴とする請求項1乃至3の何れか1項に記載の音響再生装置。 - 前記判断手段は、
前記両耳の位置で集音した音の信号を用いて、前記両耳がスイートスポット内に位置しているか否かを判断する
ことを特徴とする請求項1乃至3の何れか1項に記載の音響再生装置。 - バイノーラル音響信号を取得する手段と、
ステレオ音響信号を取得する手段と、
前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記ステレオ音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオ音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。 - サラウンド音響信号を取得する手段と、
前記サラウンド音響信号に対してダウンミックス係数を用いてステレオダウンミックスしてステレオダウンミックス信号を生成する手段と、
前記サラウンド音響信号に対して、標準のスピーカ配置における該サラウンド音響信号の各チャンネルの方向の頭部伝達関数を畳み込むことで、仮想サラウンド信号を生成する手段と、
前記仮想サラウンド信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済み仮想サラウンド信号を生成する処理手段と、
前記ステレオダウンミックス信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する遅延手段と、
聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断手段と、
前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済み仮想サラウンド信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオダウンミックス信号を出力する出力手段と
を備えることを特徴とする音響再生装置。 - バイノーラル音響信号を取得する手段と、
前記バイノーラル音響信号に対して、聴取者の両耳の位置に応じたクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理手段と、
前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延手段と、
前記聴取者が規定領域内に位置しているか否かを判断する判断手段と、
前記聴取者が規定領域内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記聴取者が規定領域外に位置していれば前記遅延バイノーラル音響信号を出力する出力手段と
を備えることを特徴とする音響再生装置。 - 前記判断手段は、前記聴取者の位置を追跡し、該位置が追跡範囲内に位置しているか否かを判断する
ことを特徴とする請求項8に記載の音響再生装置。 - 音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延バイノーラル音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。 - 音響再生装置が行う音響再生方法であって、
前記音響再生装置のバイノーラル音響信号を取得する手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置のステレオ音響信号を取得する手段が、ステレオ音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記ステレオ音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオ音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオ音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。 - 音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、サラウンド音響信号を取得する工程と、
前記音響再生装置のステレオダウンミックス信号を生成する手段が、前記サラウンド音響信号に対してダウンミックス係数を用いてステレオダウンミックスしてステレオダウンミックス信号を生成する工程と、
前記音響再生装置の仮想サラウンド信号を生成する手段が、前記サラウンド音響信号に対して、標準のスピーカ配置における該サラウンド音響信号の各チャンネルの方向の頭部伝達関数を畳み込むことで、仮想サラウンド信号を生成する工程と、
前記音響再生装置の処理手段が、前記仮想サラウンド信号に対してクロストークキャンセル処理を行ってクロストークキャンセル処理済み仮想サラウンド信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記ステレオダウンミックス信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延ステレオダウンミックス信号を生成する遅延工程と、
前記音響再生装置の判断手段が、聴取者の両耳がスイートスポット内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記両耳がスイートスポット内に位置していれば前記クロストークキャンセル処理済み仮想サラウンド信号を出力し、前記両耳のうち少なくとも一方の耳がスイートスポット外に位置していれば前記遅延ステレオダウンミックス信号を出力する出力工程と
を備えることを特徴とする音響再生方法。 - 音響再生装置が行う音響再生方法であって、
前記音響再生装置の取得手段が、バイノーラル音響信号を取得する工程と、
前記音響再生装置の処理手段が、前記バイノーラル音響信号に対して、聴取者の両耳の位置に応じたクロストークキャンセル処理を行ってクロストークキャンセル処理済みバイノーラル音響信号を生成する処理工程と、
前記音響再生装置の遅延手段が、前記バイノーラル音響信号を、前記クロストークキャンセル処理に要する時間分だけ遅延させて、遅延バイノーラル音響信号を生成する遅延工程と、
前記音響再生装置の判断手段が、前記聴取者が規定領域内に位置しているか否かを判断する判断工程と、
前記音響再生装置の出力手段が、前記聴取者が規定領域内に位置していれば前記クロストークキャンセル処理済みバイノーラル音響信号を出力し、前記聴取者が規定領域外に位置していれば前記遅延バイノーラル音響信号を出力する出力工程と
を備えることを特徴とする音響再生方法。 - コンピュータを、請求項1乃至9の何れか1項に記載の音響再生装置の各手段として機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014043153A JP2015170926A (ja) | 2014-03-05 | 2014-03-05 | 音響再生装置、音響再生方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014043153A JP2015170926A (ja) | 2014-03-05 | 2014-03-05 | 音響再生装置、音響再生方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015170926A true JP2015170926A (ja) | 2015-09-28 |
Family
ID=54203321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014043153A Pending JP2015170926A (ja) | 2014-03-05 | 2014-03-05 | 音響再生装置、音響再生方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015170926A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019049409A1 (ja) * | 2017-09-11 | 2019-03-14 | シャープ株式会社 | 音声信号処理装置および音声信号処理システム |
JP2020504384A (ja) * | 2016-12-30 | 2020-02-06 | ノキア テクノロジーズ オーユー | バーチャルリアリティ分野における装置および関連する方法 |
WO2023032065A1 (ja) * | 2021-09-01 | 2023-03-09 | 日本電信電話株式会社 | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム |
-
2014
- 2014-03-05 JP JP2014043153A patent/JP2015170926A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020504384A (ja) * | 2016-12-30 | 2020-02-06 | ノキア テクノロジーズ オーユー | バーチャルリアリティ分野における装置および関連する方法 |
US11055057B2 (en) | 2016-12-30 | 2021-07-06 | Nokia Technologies Oy | Apparatus and associated methods in the field of virtual reality |
WO2019049409A1 (ja) * | 2017-09-11 | 2019-03-14 | シャープ株式会社 | 音声信号処理装置および音声信号処理システム |
JPWO2019049409A1 (ja) * | 2017-09-11 | 2020-10-22 | シャープ株式会社 | 音声信号処理装置および音声信号処理システム |
WO2023032065A1 (ja) * | 2021-09-01 | 2023-03-09 | 日本電信電話株式会社 | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160021478A1 (en) | Sound collection and reproduction system, sound collection and reproduction apparatus, sound collection and reproduction method, sound collection and reproduction program, sound collection system, and reproduction system | |
JP4051408B2 (ja) | 収音・再生方法および装置 | |
US8520857B2 (en) | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device | |
US11140502B2 (en) | Filter selection for delivering spatial audio | |
JP4924119B2 (ja) | アレイスピーカ装置 | |
JP4914124B2 (ja) | 音像制御装置及び音像制御方法 | |
US9392367B2 (en) | Sound reproduction apparatus and sound reproduction method | |
KR20110127074A (ko) | 음향 신호의 개별화 | |
WO2014141735A1 (ja) | 信号処理装置、ヘッドフォンおよび信号処理方法 | |
CN101489173B (zh) | 信号处理装置和信号处理方法 | |
JPWO2010076850A1 (ja) | 音場制御装置及び音場制御方法 | |
JP2005223713A (ja) | 音響再生装置、音響再生方法 | |
JP2008311718A (ja) | 音像定位制御装置及び音像定位制御プログラム | |
JP2003032776A (ja) | 再生システム | |
JP5754595B2 (ja) | トランスオーラルシステム | |
JP2007251832A (ja) | 音像定位装置及び音像定位方法 | |
US11477595B2 (en) | Audio processing device and audio processing method | |
JP2015170926A (ja) | 音響再生装置、音響再生方法 | |
US20170272889A1 (en) | Sound reproduction system | |
JP2007081775A (ja) | ステレオ再生方法及びステレオ再生装置 | |
US8929557B2 (en) | Sound image control device and sound image control method | |
JP6512767B2 (ja) | 音響処理装置および方法、並びにプログラム | |
US20120163639A1 (en) | Hearing aid | |
JP2006352728A (ja) | オーディオ装置 | |
JPH099400A (ja) | 立体音像定位装置 |