JP2010206451A5

JP2010206451A5 -

Info

Publication number: JP2010206451A5
Application number: JP2009048981A
Authority: JP
Filing date: 2009-03-03
Publication date: 2011-09-15

Description

信号処理装置、およびＡＶシステム

本発明は、ＡＶ（オーディオ・ビジュアル）システムにおいて、受聴者にとって好ましい音響再生を行うための技術に関する。

音の伝播は、音源と受聴者との位置関係や、音源と受聴者との間の環境によって異なる。このため、受聴者は、音の伝播の違いを検知して、音源の位置や環境の印象を知覚することができる。例えば、音源位置が受聴者の正面に固定してある場合、受聴者が顔を右に向ければ左の音が、左に向ければ右の音が、相対的に大きく、また，時間的に早く、外耳道に到達する（両耳間レベル差，両耳間時間差）。また、耳介はその形状から、音の到来方向に応じて，到来する音の周波数特性に異なる影響を与える。したがって、両耳で受聴する音の特性（周波数特性）や、両耳で受聴する音の変化により、受聴者はより鮮明に音源の存在を知覚することができる。

外耳道入り口と音源との間の伝達特性は、頭部伝達関数（ＨＲＴＦ，Head Related Transfer Function）と呼ばれ，人の音の定位（どこで音が発せられているか知覚すること）に大きな影響を与えることが分かっている。この人の音の定位能力を利用して、５．１ｃｈ，７．１ｃｈなどのマルチチャネルスピーカを用いて，より臨場感あふれる音声の再生を可能とするホームシアター機器等のＡＶシステムが、近年，一般家庭にも普及してきている。

このようなＡＶシステムでは、一般に、スピーカは受聴者を中心とした円上の所定の位置に、受聴者に向けて配置することが推奨されている。しかしながら、設置スペース等の関係により、各スピーカは必ずしも推奨位置に配置できるとは限らない。この場合には、次のような問題が生じる。

まず、コンテンツ製作者が意図したような音の再生が困難になるという問題がある。例えば、スピーカの配置位置が推奨位置と異なっている場合には、受聴者が知覚する音の到来方向が、本来想定していた方向と必ずしも一致しなくなる。このため、このスピーカから聞こえる音だけでなく、他のスピーカから発せられる音とのバランスにも影響を与えるため、受聴者が感じる音の印象は、コンテンツ制作者が意図していたものと大きく変わってしまう可能性がある。

また、スピーカが推奨位置に配置されている場合でも、受聴者が本来の推奨位置で受聴しなかったり、あるいは、推奨位置から移動してしまった場合等には、上と同様の問題が生じる。

このような問題に対して、特許文献１では、複数のスピーカと視聴者の位置をリアルタイムで検出する位置検出部と、複数のスピーカに音声信号を出力する制御部とを備えた音声再生装置を開示している。制御部は、位置検出部からの検出結果を元に、視聴者に対する各スピーカの位置関係を算出し、当該算出結果から各スピーカに対する音声信号出力タイミングを設定することによって、再生音を制御している。

また、特許文献２では、受聴者の顔向きや人数をカメラで検出し、カメラで得られた受聴者の位置に応じて、音像制御のためのフィルタ係数を切り替えることによって、再生音を制御する方法について開示している。
特開平６−３１１２１１号公報特開２００３−３２７７６号公報

しかしながら、上述の従来技術では、次のような問題がある。

まず特許文献１では、受聴者とスピーカとの相対的な位置関係を検出し、それに基づいて音声信号の出力タイミングを制御している。すなわち、音響再生の制御のために考慮しているのは、受聴者に対するスピーカの位置のみである。また、特許文献２でも、カメラで得られた受聴者の位置に応じて、再生音を制御しているに過ぎない。

これに対して、音響再生に影響を与えるものは、受聴者とスピーカとの位置関係だけではない。例えば、受聴者に対するスピーカの向きも、音の聞こえ方に大きな影響を与える。これは、スピーカの指向特性が周波数毎に異なっていることに起因する。スピーカは本来、正面方向で聞こえる音において周波数特性のバランスがよくなるよう設計されている。ところが、スピーカの指向特性は周波数毎に異なるため、例えば、スピーカに対して横からあるいは後ろから音を聞くと、周波数特性のバランスが悪くなり、本来のスピーカの音響性能が得られなくなってしまう。

したがって、最適な音響再生を実現するためには、受聴者に対するスピーカの向きに関しても、音響再生の制御に反映させる必要がある。しかも、受聴者が受聴中に移動することも考慮すれば、動的に制御可能なように、受聴者に対するスピーカの向きに関する情報をリアルタイムで取得可能にすることが好ましい。

本発明は、ＡＶシステムにおいて、音響再生の制御を、受聴者に対するスピーカの向きを動的に反映させつつ、実現することを目的とする。

第１の発明は、スピーカ本体と、前記スピーカ本体と一体に設置されており、当該スピーカ本体が音を出力する方向を撮影するカメラとを備えたカメラ付きスピーカ用の信号処理装置として、前記カメラから出力された画像信号を入力とし、前記画像信号から、受聴者に対する前記スピーカ本体の向きと、前記スピーカ本体から前記受聴者までの距離とを検出する認識部と、与えられた音声信号に対して、前記向きおよび前記距離のうち少なくともいずれか一方に応じて、信号処理を行い、前記スピーカ本体に音響信号として出力する音声制御部とを備えたものである。

この発明によると、カメラ付きスピーカのカメラによって撮影された画像から、認識部によって、受聴者に対するスピーカ本体の向きと、スピーカ本体から受聴者までの距離とを検出することができる。したがって、受聴者に対するスピーカの向きや距離を動的に反映させつつ、音響再生の制御を実現することが可能になる。

第２の発明は、ＡＶシステムとして、スピーカ本体と、前記スピーカ本体と一体に設置されており、当該スピーカ本体が音を出力する方向を撮影するカメラと、前記カメラから出力された画像信号から、受聴者に対する前記スピーカ本体の向きと、前記スピーカ本体から前記受聴者までの距離とを検出する認識部と、与えられた音声信号に対して、前記向きおよび前記距離のうち少なくともいずれか一方に応じて、信号処理を行い、前記スピーカ本体に音響信号として出力する音声制御部とを備えたものである。

この発明によると、スピーカ本体と一体に設置されたカメラによって、スピーカ本体が音を出力する方向の画像を取得することができる。この画像から、認識部によって、受聴者に対するスピーカ本体の向きと、スピーカ本体から受聴者までの距離とを検出できる。したがって、受聴者に対するスピーカの向きや距離を動的に反映させつつ、音響再生の制御を実現することが可能になる。

本発明によると、カメラ付きスピーカを利用することによって、受聴者に対するスピーカの向きや距離を動的に反映させつつ、音響再生の制御を実現することが可能になるので、受聴者にとってより適切な音響再生が実現される。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（実施の形態１）
図１は実施の形態１に係るＡＶシステムの構成の一例を示す。図１のＡＶシステムでは、スピーカ本体１１１と、このスピーカ本体１１１と一体に設置されているカメラ１１２とを備えたカメラ付きスピーカ１００を用いている。カメラ１１２は、スピーカ本体１１１が音を出力する方向を撮影する。また、このカメラ付きスピーカ１００用の信号処理装置１０４は、音声制御部１０２と認識部１０３とを備えている。カメラ１１２から出力された画像信号は、信号処理装置１０４の認識部１０３に与えられる。ＡＶ再生装置１０１はＡＶコンテンツを再生し、音声信号と映像信号を出力する。音声信号は、信号処理装置１０４の音声制御部１０２に与えられる。映像信号はディスプレイ１０６に送られる。

信号処理装置１０４において、認識部１０３は、カメラ１１２から出力された画像信号が示す画像から受聴者Ｐ１の位置を認識し、認識した受聴者位置を基にして、受聴者Ｐ１に対するスピーカ本体１１１の向きを検出する。例えば、スピーカ本体１１１の正面方向（図１の一点鎖線）と、スピーカ本体１１１と受聴者Ｐ１とを結ぶ直線（図１の破線）とのなす角度θｈを求める。音声制御部１０２は、与えられた音声信号に対して信号処理を行い、スピーカ本体１１１に音響信号として出力する。そして、その信号処理において、認識部１０３によって検出されたスピーカ本体１１１の向きに応じて、予め測定されているスピーカ本体１１１の指向特性に基づいた、出力信号の補正を行う。例えば、周波数毎のゲインを調整する。

なお、図１では、１個のカメラ付きスピーカ１００しか図示していないが、ＡＶシステムでは、スピーカは通常、複数個、配置される。複数のスピーカのうち、一部または全部がカメラ付きスピーカであればよい。また、各信号の伝送は、有線で行ってもよいし、無線で行ってもよい。

図２はカメラ付きスピーカ１００の外観の一例である。図２の例では、カメラ１１２は、スピーカ本体１１１の上に、スピーカ本体１１１と同じ向きを向くように設置されている。スピーカは通常、受聴者の方を向くように設置されることが多いため、図２のような構成によりカメラ１１２が受聴者を撮影可能となる。

なお、カメラ付きスピーカにおけるカメラの設置形態は、図２の例に限られることはなく、受聴者の姿が撮影可能であれば、他の設置形態でもよい。例えば、スピーカ前面部分などにカメラを内蔵し、レンズ部分のみが外に露出している形態でもよい。また、画角の広いレンズ例えば魚眼レンズを用いれば、撮影範囲が広がるため、受聴者がカメラ視野に入る可能性が高くなるとともに、カメラの設置位置の選択肢を拡げることができる。例えば、スピーカ上部の角などにレンズが露出するような設置も可能である。

また、複数のカメラを設置してもよい。これにより、撮影範囲が広がるため、受聴者がカメラ視野に入る可能性が高くなる。また，複数のカメラで撮影した情報を用いることによって、受聴者の位置の検出精度の向上も期待できる。

図３を用いて、認識部１０３における処理について説明する。図３では、カメラ画像中に受聴者Ｐ１の顔画像ＩＰ１が含まれている。カメラ１１２の水平方向の画角は２γとする。認識部１０３は画像認識技術を用いて、カメラ画像から顔画像ＩＰ１を検出する。例えば、カメラ画像信号に信号処理を行い、エッジ検出によって輪郭を検出したり、色検出によって目や髪などの顔のパーツを検出したりすることによって、顔画像ＩＰ１を検出できる。このような顔認識技術は、近年ではディジタルカメラなどですでに応用されており、ここではその詳細な説明は省略する。

そして、検出された顔画像ＩＰ１のカメラ画像における水平方向の位置を求める。ここでは、顔画像ＩＰ１の中心位置がカメラ画像中心から左に長さａの位置にある（０＜ａ＜１、カメラ画像の水平方向の幅を２とする）ものとする。カメラ１１２の正面方向（図３の一点鎖線）と、カメラ１１２と受聴者Ｐ１とを結ぶ直線（図３の破線）とのなす角度をθｈとすると、この角度θｈは、上のａを用いると、
θh＝γ＊ａ
と求めることができる。この角度θｈは、見方を変えれば、受聴者Ｐ１に対するスピーカ本体１１１の水平方向における向きを表している（スピーカ本体１１１の向きとカメラ１１２の向きとの関係は既知である）。

なお、顔画像ＩＰ１がカメラ画像の右半分に含まれている場合も、同様に角度θｈを検出することができる。また、同様の方法によって、上下方向の角度θｖも検出することができる。このような処理を行うことによって、認識部１０３は、受聴者Ｐ１に対するスピーカ本体の向きを検出することができる。

次に、スピーカと受聴者Ｐ１との距離Ｌを推定する方法の一例について、図４を用いて説明する。図４（ａ）はカメラ画像において、人の顔のサイズが距離に応じてどのように変わるかを模式的に示す図である。距離ｌ０，ｌ１，ｌ２のとき、顔の幅がそれぞれｍ０，ｍ１，ｍ２になっている。図４（ｂ）は検出された顔の幅と距離Ｌとの関係を示すグラフである。予め、数点の距離Ｌで画像上の顔幅を測定しておき、測定点間を内挿・外挿する直線または曲線を引くことによって、図４（ｂ）のようなグラフを作成することができる。認識部１０３は図４（ｂ）のような関係を例えば数式近似等を用いて記憶しておき、画像から検出した顔幅を用いて距離Ｌを推定する。

なお、実際のユーザは、標準的な頭の大きさを持つ人ばかりとは限らず、頭が標準より大きい人や小さい人もいる。そこで図４（ｂ）では、頭の大きさが標準、大、小の３パタンのグラフを予め準備している。そして、受聴者の頭の大きさを測定や自己申告などによって入力し、その大きさに応じて標準、大、小のいずれかのグラフを選択するようにすればよい。もちろん、頭の大きさの分け方は３種類に限られるものではなく、例えば頭のサイズを１ｃｍ間隔でグループに分け，そのグループごとにグラフを作成しておいてもかまわない。

スピーカと受聴者Ｐ１との距離Ｌを推定する方法としては、ここで説明した方法以外にも、例えば、設置位置が既知の２台のカメラからの画像情報を基にして算出する方法や，カメラのオートフォーカスで受聴者を検出したピント位置から推定する方法等も、考えられる。

以上のように、認識部１０３は、カメラ１１２から出力された画像信号を用いて、受聴者Ｐ１の位置情報（角度θｈ，θｖと距離Ｌ）を検出することができる。特に、カメラ１１２はスピーカ本体１１１と一体に設置されているため、スピーカ本体１１１に対する受聴者Ｐ１の位置が簡便に検出できる。このため、従来と比べて、より適切な音響再生が可能になる。

次に、音声制御部１０２における処理について説明する。図１に示すように、音声制御部１０２は、ＡＶ再生装置１０１からの音声信号に対して信号処理を行い、スピーカ本体１１１に音響信号として出力する。そして、認識部１０３によって検出された受聴者Ｐ１の位置情報（角度θｈ，θｖと距離Ｌ）を受け、これに応じた信号処理を行う。

まず方向情報θｈ，θｖの利用方法について説明する。ここでは、音声信号に対する信号処理にこの方向情報θｈ，θｖを用いることによって、スピーカ本体１１１の指向特性に基づいた、出力信号の補正を行うものとする。すなわち本実施形態では、受聴者Ｐ１に対するスピーカ本体１１１の向きに応じて、スピーカ本体１１１の指向特性に基づき、出力信号が補正される。

図５はあるスピーカの指向特性を示すグラフである。図５の（ａ），（ｂ）それぞれにおいて、円の中心から放射線状に広がる軸は音の強さを示しており、方向毎の音の強さすなわち指向特性が実線で描かれている。グラフの上側がスピーカの正面方向（前方向）である。指向特性は再生する音の周波数によって異なる。（ａ）では２００Ｈｚ，５００Ｈｚ，１０００Ｈｚの、（ｂ）では２ｋＨｚ，５ｋＨｚ，１０ｋＨｚの指向特性がそれぞれプロットされている。

図５から分かるように、スピーカの正面方向が最も音が強くなり、おおまかに言って、後方向（正面から１８０度反対方向）に向かうにつれて音が弱くなる。またその変化は、再生する音の周波数によって異なり、低い周波数では変化が少なく、周波数が高くなると変化が大きくなる。スピーカは一般に、正面方向で聴いたときに音のバランスが最も良くなるように音質調整されている。図５に示すような指向特性から、受聴者の位置がスピーカの正面方向からずれている場合、受聴する音の周波数特性が理想状態から大きく変わってしまい、音のバランスが悪くなってしまうことが分かる。同様の問題は、音の位相特性に関しても生じる。

そこで、スピーカの指向特性を測定し、指向特性の影響を補正するようなイコライザを予め算出しておき、検出した方向情報θｈ，θｖ、すなわち受聴者に対するスピーカ本体の向きに応じてイコライザ処理を行う。これにより、受聴者に対するスピーカの向きに依らない，バランスのよい再生を実現することが可能となる。

図６を用いて、具体的なイコライザ処理について説明する。図６はスピーカ正面からの角度毎および周波数毎の、音圧レベル（セル中の左の数字）とイコライザの補正ゲイン（セル中の右の数字）の例である。単位はそれぞれｄＢである。図６の例では、音圧レベルに対する補正ゲインを角度毎および周波毎に設定することによって、受聴者がどこにいてもスピーカの正面方向にいるのと同じ音を受聴可能にしている。言い換えると、図６の補正ゲインを用いることによって、各周波数における指向特性のグラフをほぼ真円にすることができる。なお、図６は一例であり、例えば、角度と周波数をより細かな設定としてもよい。また、検出された角度がデータ中にない場合は、内挿等によって補正ゲインを算出すればよい。

またここでは、水平面上の指向特性について述べたが、スピーカの指向特性はスピーカを取り囲む球上に定義される。そこで、図６を拡張し、水平方向における角度θｈと垂直方向における角度θｖのそれぞれについて、補正ゲインを設定すればよい。これにより、受聴者に対するスピーカの向きに応じた指向特性の補正を３次元的に行うことができる。

イコライザ処理を行うために、音声制御部１０２は、アナログフィルタ、ＩＩＲフィルタやＦＩＲフィルタ等のディジタルフィルタを備えていればよい。また例えば、補正にパラメトリックイコライザを用いる場合には、補正ゲインと併せて、Ｑ値（周波数特性のピークの鋭さをあらわす値）を設定してもかまわない。

次に、距離情報Ｌの利用方法について説明する。ある１点から音が発せられた場合、音は全方向に伝播し、広がった分だけ減衰していくが、この減衰量は距離の２乗に反比例する。例えば図７に示すように、音源からの距離がｒ１からｒ２（＝ｒ１×２）のように２倍になると、音圧は１／４（＝（１／２）^２）となり、ｒ３（＝ｒ１×４）のように４倍になると、音圧は１／１６（＝（１／４）^２）となる。すなわち、受聴者がスピーカから離れると、その分、受聴者に知覚される音の音圧は低くなる。この場合，他のスピーカからの音圧との関係から音量バランスが悪くなり、音の定位などが、コンテンツ製作者が意図したものとは異なる音が受聴されることになり、好ましくない。

そこで、検出した距離情報Ｌに応じて、スピーカから発せられる音のゲイン補正を行う。これにより、受聴者とスピーカとの距離が最適でない場合でも、バランスのよい再生を実現することが可能となる。

なお、ここで説明した距離と減衰との関係は、理想的な点音源（大きさがなく、無指向性の理論的な音源）で、かつ、理想的な自由音場で成り立つものである。実際には、音源は点音源でなく大きさをもち、指向性も有する。また、音場も様々な反射があるため自由音場ではない。このため、実際のスピーカや再生環境について、図８のような距離毎の補正ゲインを予め測定して保持しておけばよい。検出した距離Ｌがデータ中にない場合には、内挿近似等によって補正ゲインの近似値を算出すればよい。

またこの補正ゲインは、周波数毎に設定するようにしてもよい。高い周波数成分の音は低い周波数成分の音に比べて、距離による減衰量が大きいことが知られている。したがって、図８のようなデータテーブルを周波数毎に持つことによって、より精度の高い音圧補正を実現することできる。このような周波数ごとの音圧補正は、ＱＭＦフィルタバンク等による帯域分割とゲイン設定によって実現することが可能であり、ＩＩＲディジタルフィルタやＦＩＲディジタルフィルタ等が一般に用いられる。

また、複数のスピーカからの音圧レベルを合わせるように補正することも可能である。例えば、受聴者までの距離が図７に示すｒ１，ｒ２，ｒ３の位置にそれぞれスピーカが配置されている場合、距離ｒ２のスピーカの音量に合わせるように、距離ｒ１のスピーカの音量を下げるとともに距離ｒ３のスピーカの音量を上げる。この補正により、それぞれのスピーカから受聴者に到達する音量を合わせることができる。もちろん、他のスピーカの音量を基準に補正してもよいし、全く別の音量を基準にしてもよい。また、各スピーカの能率が違う場合には、それも考慮した音量調整を行うことも可能である。

このように、角度情報θｈ，θｖと距離情報Ｌに応じて音声制御部１０２が補正を行うことによって、スピーカの向きが受聴者からずれている場合や、スピーカから受聴者までの距離が最適でない場合でも、より良い音の再生を実現することができる。

図９は音声制御部１０２内の処理ブロックの一例である。図９では、音声制御部１０２は、３個の処理ブロック１２１，１２２，１２３を備えており、処理ブロック１２１は上述したような、角度情報に応じた補正を行うものであり、処理ブロック１２２は上述したような、距離に応じたゲイン補正を行うものである。また、処理ブロック１２３は、複数のスピーカからの音のタイミングが受聴者位置で一致するように、検出された距離に応じて、音の出力タイミングを補正するものである。

なお、ここでは、角度毎および距離毎の補正値を全帯域または周波数毎のゲインで実現したが、それぞれを補正用ＦＩＲフィルタとして保持しておき、補正に用いることも可能である。ＦＩＲフィルタを用いることによって、位相の制御も可能となり、より精度の高い補正を行うことが可能となる。

次に、カメラ１１２による画像撮影、認識部１０３による検出処理、および音声制御部１０２による補正について、その動作タイミングの一例について説明する。

例えば、カメラ１１２は常に撮影を行い、画像信号を認識部１０３に出力し続ける。認識部１０３は常に画像信号から受聴者の位置を検出し、受聴者の位置情報を音声制御部１０２にリアルタイムで出力し続ける。音声制御部１０２はリアルタイムに出力される位置情報を受け、リアルタイムに補正処理を切り替えて音響信号を補正し続ける。これにより、受聴者の位置が動的に変化した場合であっても、それに追従した音声制御を実現することができる。

ただしこのような制御では、受聴者の微小な移動によっても補正処理が切り替わることになるが、聴感上検知できない程度の変化しか生じない場合もあり、そのような補正処理の切り替えは聴感上，意味のないものとなる。そのため例えば認識部１０３が、受聴者について所定の閾値以上の移動（角度または距離の変化）を検出したときにのみ、音声制御部１０２に受聴者の位置情報を出力するようにしてもよい。

または、カメラ１１２による画像撮影や認識部１０３による検出処理を、ある所定の時間間隔で行うようにしてもよい。これにより、システムの処理負荷を抑えることができる。あるいは、ユーザがリモコン等でトリガスイッチをＯＮしたときに、認識部１０３および音声制御部１０２が処理を実行するようにしてもよい。これにより、システムの処理負荷をさらに抑えることが可能になる。

または、受聴者の位置情報の初期値を、例えばシステムが備えている測定モードの実行等によって予め設定しておき、その後の受聴者の移動に伴う動的補正を、カメラ１１２によって撮影した画像信号を用いて行うようにしてもよい。

なお、本実施形態で示したような補正用データテーブルは、例えば、音声制御部１０２内の不揮発メモリ等に記録されている。

また、実際のＡＶシステムは、複数のスピーカを備えているため、ここで説明した技術を各スピーカに適用することによって、各スピーカから再生されるそれぞれの音に対してユーザ位置に応じた制御を行うことができる。

（実施の形態２）
図１０は実施の形態２に係るＡＶシステムの構成の一例を示す。図１０において、図１と共通の構成要素には図１と同一の符号を付しており、ここではその説明を省略する。

図１０の構成では、カメラ付きスピーカ２００のスピーカ本体が、複数のスピーカユニットからなるアレイスピーカ１１３となっている。アレイスピーカは、スピーカユニットの個数を多くし、その長さを長くすることによって、鋭い指向特性を実現できる（例えば、西川他、「２次元ディジタルフィルタを用いた指向性アレースピーカ」、電子情報通信学会論文誌 A Vol.J78-A No.11 pp.1419-1428、１９９５年１１月を参照）。この技術を音響再生に用いることによって、不要方向への音の拡散防止が期待されるが、そのためには、アレイスピーカ１１３の指向性のピークを受聴者の方向に向ける必要がある。

本実施形態では，このアレイスピーカ１１３にカメラ１１２を設置し、信号処理装置２０４において、認識部１０３が受聴者に対するアレイスピーカ１１３の向きを検出する。この検出は、実施形態１と同様に実現することができる。そして音声制御部２０２が、アレイスピーカ１１３の指向性のピークが受聴者の方向に向くよう、音声信号に対して信号処理を行い、各スピーカユニットにそれぞれ音響信号を出力する。

アレイスピーカ１１３の指向性のピークの向きは、例えば、各スピーカユニットへの音響信号に付加するディレイとゲインの設定によって、簡易に制御することができる。例えば、指向性のピークの向きを少し右にずらしたい場合は、左側のスピーカユニットについて、音響信号のディレイを小さくするとともにゲインを上げて、音をより早く大きく出力させればよい。

また、アレイスピーカ１１３の指向性のピークをより精度良く受聴者Ｐ１の方に向けるために、図１１のような、各スピーカユニットの音声制御に用いるＦＩＲフィルタ係数を角度毎に保持するデータテーブルを用いてもよい。図１１（ａ）は角度θｈとスピーカユニット毎のＦＩＲフィルタ係数Ｈｘ＿ｙ（ｘは角度θｈ、ｙはスピーカユニット番号）を示している。また図１１（ｂ）は角度θｈ＝３０°のときの各スピーカユニットのＦＩＲフィルタ係数の一例である。例えば、図１１に示すようなデータテーブルを音声制御部２０２内の不揮発性メモリに記憶しておき、音声制御部２０２が、認識部１０３によって検出された角度情報θｈに応じてデータテーブルからＦＩＲフィルタ係数を読み出し、音声制御を実現する。

なおここでは，水平面での指向性制御について説明したが、スピーカユニットを垂直方向に配置したスピーカアレイを用いることによって、垂直方向における角度情報θｖに応じた指向性制御も同様に実現可能である。

また、スピーカユニットを平面状に配置することによって、水平、垂直それぞれの角度情報に応じた指向性制御も実現可能である。

また、距離情報Ｌに応じた制御についても、実施形態１と同様に、距離に応じたゲイン補正を各スピーカユニットへの音響信号に実施すればよい。

また、アレイスピーカを用いた場合には、いわゆる局所再生を行うことが可能であり、本実施形態をこの局所再生の制御に適用してもかまわない。局所再生とは、ある所定範囲内でのみ音が再生され、そこから離れた位置では急激に音量が下がるような再生のことである。例えば、カメラ１１２によって受聴者Ｐ１の位置を検出し、想定した範囲外に受聴者Ｐ１がいた場合、音声制御部２０２が制御パラメタを切り替えて、局所再生の範囲を受聴者Ｐ１の位置が含まれるように制御する。

（実施の形態３）
図１２は実施の形態３に係るＡＶシステムの構成の一例を示す。図１２において、図１と共通の構成要素には図１と同一の符号を付しており、ここではその説明を省略する。

図１２の構成では、カメラ付きスピーカ３００が、スピーカ本体１１１の向きを変化させるための可動機構１１４を備えている。この可動機構１１４は、例えば電動式の回転テーブルによって実現される。そして信号処理装置３０４は、可動機構１１４を制御するための可動機構制御部３０１を備えている。認識部１０３は画像信号から検出した受聴者Ｐ１の位置情報を、音声制御部１０２に加えて可動機構制御部３０１に出力する。可動機構制御部３０１は受聴者Ｐ１の位置情報を受けて、スピーカ本体１１１が受聴者Ｐ１の方を向くように可動機構１１４に制御信号を送る。このような動作によって、スピーカ本体１１１の向きを受聴者Ｐ１の位置に動的に合わせることが可能になる。

上のようなスピーカの向きを実際に変える制御は、実施形態１で説明したスピーカの指向特性の補正処理と組み合わせて行ってもよい。具体的には例えば、受聴者Ｐ１に対するスピーカ本体１１１の向きを表す角度情報θｈ，θｖが所定閾値以下である場合は、指向特性の補正処理で対応し、所定閾値を超えた場合は、可動機構１１４によってスピーカの向きを変える、といった制御を行ってもよい。スピーカの向きが受聴者から大きく外れた場合、指向特性の補正のためには大きな補正ゲインを与えなければならない。ところが補正ゲインを大きくすると、ディジタル信号ではオーバーフローの問題が生じ、また、スピーカ自体の再生上限ゲインによって音に歪みが生じる可能性がある。したがって、本実施形態における制御を指向特性補正と組み合わせることによって、このような問題を回避することができる。

また、本実施形態を、実施の形態２で示したアレイスピーカに適用してもよい。すなわち、アレイスピーカを可動機構に設置し、可動機構を制御してアレイスピーカの向きを変えることによって、指向性制御や局所再生向け制御を実現することが可能である。

（実施の形態４）
図１３は実施の形態４に係るＡＶシステムの構成の一例を示す。図１３において、図１と共通の構成要素には図１と同一の符号を付しており、ここではその説明を省略する。

図１３の構成では、信号処理装置４０４において、認識部４０３は、カメラ１１２から出力された画像信号が示す画像から各受聴者Ｐ１，Ｐ２，Ｐ３の位置を認識し、受聴者の人数を検出する。そして受聴者Ｐ１，Ｐ２，Ｐ３それぞれについて、実施形態１と同様に位置情報を検出する。音声制御部４０２は、認識部４０３によって複数の受聴者Ｐ１，Ｐ２，Ｐ３が検出されたとき、スピーカ本体１１１の向きに加えて、受聴者Ｐ１，Ｐ２，Ｐ３同士の位置関係も用いて、信号処理を行う。例えば、複数の受聴者がスピーカ本体１１１からみて所定の角度の範囲内に存在する場合は、複数の受聴者の中心に対して、指向特性制御を行う。また、一人の受聴者だけ離れた位置にいる場合は、それ以外の受聴者に対する指向特性制御を行う、あるいは、補正自体を行わないようにする。このように、複数の受聴者が存在する場合、受聴者同士の位置関係に応じた信号処理を行うことによって、より適切な再生が実現される。

なお、カメラ画像から受聴者の人数を検出する場合、例えばスピーカからみて複数の受聴者が重なっている場合には、複数の受聴者を一人として認識してしまう可能性がある。しかしながら、このような場合でも、一人と認識した受聴者に向けて指向特性制御を行えば、音質上、特に問題は生じない。すなわち、複数の受聴者が重なって見える場合には、その人数を厳密に検出する必要はなく、その分処理が簡易になる。

なお、上述の各実施形態では、主として指向特性の補正について説明したが、その他にも例えば、スピーカからみた受聴者の顔向きやスピーカと受聴者間の距離を検出し、そのスピーカからの頭部伝達関数を推定して、音声制御部が制御を行うといった構成も可能である。音声制御部は予め顔向きと距離に応じた制御パラメタを保持しており、検出結果に応じて制御パラメタを切り替えて再生する。簡便な補正の例としては、スピーカから受聴者までの距離の補正がある。例えば、あるスピーカから受聴者までの距離が他のスピーカより近い場合、音を発するタイミングを遅くする。これにより、スピーカ距離を拡げたのと同じ効果が期待できる。

本発明では、ＡＶシステムにおいて、受聴者にとってより適切な音響再生が実現されるので、例えば、ホームシアター機器などの音響品質向上などに有用である。

実施の形態１に係るＡＶシステムの構成の一例である。カメラ付きスピーカの外観の一例である。認識部における処理のうち、角度情報を検出する処理を説明するための図である。認識部における処理のうち、距離情報を検出する処理を説明するための図である。スピーカの指向特性の一例を示すグラフである。イコライザ処理における補正ゲインのデータテーブルの例である。音源からの距離と音の減衰量との関係を説明するための図である。減衰補正のための補正ゲインのデータテーブルの例である。音声制御部内の処理ブロックの一例である。実施の形態２に係るＡＶシステムの構成の一例である。フィルタ補正係数のデータテーブルの例である。実施の形態３に係るＡＶシステムの構成の一例である。実施の形態４に係るＡＶシステムの構成の一例である。

１００，２００，３００カメラ付きスピーカ
１０２，２０２，４０２音声制御部
１０３，４０３認識部
１０４，２０４，３０４，４０４信号処理装置
１１１スピーカ本体
１１２カメラ
１１３アレイスピーカ（スピーカ本体）
１１４可動機構
３０１可動機構制御部
Ｐ１，Ｐ２，Ｐ３受聴者

Claims

スピーカ本体と、前記スピーカ本体と一体に設置されており、当該スピーカ本体が音を出力する方向を撮影するカメラとを備えたカメラ付きスピーカ用の信号処理装置であって、
前記カメラから出力された画像信号を入力とし、前記画像信号から、受聴者に対する前記スピーカ本体の向きと、前記スピーカ本体から前記受聴者までの距離とを検出する認識部と、
与えられた音声信号に対して、前記向きおよび前記距離のうち少なくともいずれか一方に応じて、信号処理を行い、前記スピーカ本体に音響信号として出力する音声制御部とを備えた
ことを特徴とする信号処理装置。
請求項１記載の信号処理装置において、
前記音声制御部は、予め測定されたスピーカの音響特性から生成された補正係数を持ち、前記信号処理として、前記補正係数を用いて、前記向きに応じた、前記スピーカ本体の指向特性に基づいた出力信号の補正、および、前記距離に応じた、音の減衰特性に基づいた出力信号の補正のうち、少なくともいずれか一方を行う
ことを特徴とする信号処理装置。
請求項１記載の信号処理装置において、
前記認識部は、受聴者の人数を検出可能であり、かつ、複数の受聴者を検出したとき、各受聴者について、前記向きおよび前記距離を検出する
ことを特徴とする信号処理装置。
請求項３記載の信号処理装置において、
前記音声制御部は、前記認識部によって複数の受聴者が検出されたとき、前記複数の受聴者の中から補正対象の受聴者を特定し、この補正対象の受聴者に対して、前記信号処理を行う
ことを特徴とする信号処理装置。
請求項３記載の信号処理装置において、
前記音声制御部は、前記認識部によって複数の受聴者が検出されたとき、前記複数の受聴者同士の位置関係から、前記信号処理を行うか否かを判定する
ことを特徴とする信号処理装置。
スピーカ本体と、
前記スピーカ本体と一体に設置されており、当該スピーカ本体が音を出力する方向を撮影するカメラと、
前記カメラから出力された画像信号を入力とし、前記画像信号から、受聴者に対する前記スピーカ本体の向きと、前記スピーカ本体から前記受聴者までの距離とを検出する認識部と、
与えられた音声信号に対して、前記向きおよび前記距離のうち少なくともいずれか一方に応じて、信号処理を行い、前記スピーカ本体に音響信号として出力する音声制御部とを備えた
ことを特徴とするＡＶシステム。