JP2010206265A

JP2010206265A - 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置

Info

Publication number: JP2010206265A
Application number: JP2009046625A
Authority: JP
Inventors: Takanobu Mukaide; 隆信向出
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-02-27
Filing date: 2009-02-27
Publication date: 2010-09-16

Abstract

【課題】視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供する。
【解決手段】二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、前記音源位置情報に基づいて音像を映像内の音源の位置に定位させ前記音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。
【選択図】図１

Description

本発明は、映像と音声とを出力する音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置に関する。

近年、放送受信装置（ディジタルテレビ）は、ディスプレイの大型化が進んでいる。しかし、スピーカは、ディジタルテレビのディスプレイの両側に設けられているのみである。この為、大型のディスプレイを備えるディジタルテレビは、ディスプレイに映し出される音源と、実際に音声が出力される音源との位置のズレが大きい傾向がある。即ち、音源がディスプレイ内のどの位置に移りこんでいたとしても、視聴者は、常に真正面から音声が出力されているように感じる。

例えば、特許文献１には、アレイ状に配列されたスピーカを備え、ディスプレイの奥側に仮想音源があると想定し、アレイ状に配列された各スピーカの出力を調整するオーディオ再生装置が開示されている。

特開第２００７−２６６９６７号公報

しかし、上記したオーディオ再生装置は、画像データに基づいて音源の位置を推定している。しかし、実際は、音源の位置だけでなく、音の指向性によっても、視聴者の聴こえ方は変化する。即ち、従来のオーディオ再生装置によると、画像中の音源が視聴者の正面向いていない場合でも、視聴者は、正面から音を感じる。この為、視聴者に対して違和感を与えるという問題がある。

そこで、本発明の目的は、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することにある。

本発明の一実施形態としての音像制御装置は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードし、映像データを取得する映像デコード手段と、前記ストリームをデコードし、音声データを取得する音声デコード手段と、前記ストリームに含まれる音源位置情報及び音源方向情報を取得する音源情報取得手段と、前記音源情報取得手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、前記音源情報取得手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、を具備する。

また、本発明の一実施形態としての音像制御装置は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードし、映像データを取得する映像デコード手段と、前記ストリームをデコードし、音声データを取得する音声デコード手段と、前記映像デコード手段により取得した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、前記映像解析手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、前記映像解析手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、を具備する。

また、本発明の一実施形態としての音像制御方法は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。

また、本発明の一実施形態としての音像制御方法は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記デコードした映像データを解析し、音源位置情報及び音源方向情報を取得し、前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。

また、本発明の一実施形態としてのストリームのデータ構造は、映像データと、前記映像データに同期した音声データと、前記音声データの音源の位置を示す音源位置情報と、前記音源から発せられる音の方向を示す音源方向情報と、を具備する。

また、本発明の一実施形態としてのストリーム生成装置は、映像データを生成する映像データ生成手段と、音声データを生成する音声データ生成手段と、前記映像データ生成手段により生成した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、前記映像データ生成手段により生成した映像データと、前記音声データ生成手段により生成した音声データと、前記映像解析手段により取得した源位置情報及び音源方向情報とに基づいてストリームを生成するストリーム生成手段と、を具備する。

この発明の一形態によれば、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。

図１は、本発明の第１の実施形態に係る音像制御装置の構成例について説明するためのブロック図である。図２は、図１に示す音像制御装置の概観の一例について説明するための説明図である。図３は、図１に示す音像制御装置から出力される音声の伝播について説明するための説明図である。図４は、図１に示す音像制御装置において行われる処理について説明するためのフローチャートである。図５は、本発明の第２の実施形態に係る音像制御装置の構成例について説明するためのブロック図である。図６は、図５に示す音像制御装置において行われる処理について説明するためのフローチャートである。

以下、図面を参照しながら、本発明の第１の実施形態に係る音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置について詳細に説明する。

図１は、本発明の第１の実施形態に係る音像制御装置１の構成例について説明するためのブロック図である。音像制御装置１は、例えば、ＭＰＥＧ−２ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）などの規格に準じて映像及び音声を再生する。

ＭＰＥＧ−２ＴＳは、音声データ、映像データ、及びメタデータなどを含む。音像制御装置１は、音声データ、映像データ、及びメタデータなどを１つのデータ列（ストリーム）として処理する。これにより、動画像と音声の同期、複数の番組の伝送などを実現することができる。なお、本実施形態では、ストリームに音源の位置、及び音源の方向を示す音源情報がさらに含まれていると仮定して説明する。

図１に示すように、音像制御装置１は、ストリーム分離部１０、映像デコーダ２０、映像パネル２１、音声デコーダ３０、音源情報取得部３１、音像定位処理部３２、空間音圧制御部３３、及びスピーカ部３４を備えている。

音像制御装置１は、図示しないアンテナにより放送信号としてのストリームを受信する。ストリーム分離部１０は、アンテナにより受信したストリームに対して分離処理を行う。即ち、ストリーム分離部１０は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。

ストリーム分離部１０により分離されたデータは、映像デコーダ２０及び音声デコーダ３０にそれぞれ出力される。即ち、圧縮映像データは、映像デコーダ２０に出力される。また、圧縮音声データは、音声デコーダに出力される。

映像デコーダ２０は、受信した圧縮映像データの復号処理を行う。即ち、映像デコーダ２０は、受信した圧縮映像データから映像データを取得する。さらに、音像制御装置１は、図示しない映像処理部を備えている。映像処理部は、取得した映像データを映像パネル２１により表示可能なフォーマットの映像信号に変換する。映像処理部は、変換した映像信号を映像パネル２１に出力する。映像パネル２１は、例えば、液晶ディスプレイなどにより構成される表示装置である。映像パネル２１は、受信した映像信号を表示する。

音声デコーダ３０は、受信した圧縮音声データの復号処理を行う。即ち、音声デコーダ３０は、受信した圧縮音声データから音声データを取得する。また、圧縮音性データに音源情報がメタデータとして含まれている場合、音声デコーダ３０による圧縮音声データの復号処理により音源情報も復号される。音源情報取得部３１は、復号された音源情報を取得する。

音源情報は、同期する映像における音源の位置を示す情報（音源位置情報）と、この音源から発せられる音の方向を示す情報（音源方向情報）とを含む。音源位置情報は、例えば、画面中における音源の座標などにより構成される。また、音源方向情報は、例えば、音の方向に対応するベクトル成分などにより構成される。

音源情報取得部３１は、取得した音源位置情報及び音源方向情報をそれぞれ対応する処理部に出力する。即ち、音源情報取得部３１は、音源位置情報を音像定位制御部３２に出力する。また、音源情報取得部３１は、音源方向情報を空間音圧制御部３３に出力する。

音像定位制御部３２及び空間音圧制御部３３は、音声データ、音源位置情報、及び音源方向情報に基づいて、スピーカ部３４の各スピーカの出力を制御する。スピーカ部３４は、複数のスピーカを備えている。

図２は、図１に示す音像制御装置１の概観の一例について説明するための説明図である。図３は、図１に示す音像制御装置１から出力される音声の伝播について説明するための説明図である。
図２に示すように、スピーカ３４ａ乃至３４ｆが映像パネル２１の周囲に配列されている。即ち、スピーカ３４ａ乃至３４ｆは、２次元的に配列されている。スピーカ３４ａ乃至３４ｆは、それぞれ音像定位制御部３２及び空間音圧制御部３３による制御に基づいて音を出力する。

音像制御装置１は、音像定位制御部３２、空間音圧制御部３３、及びスピーカ３４ａ乃至３４ｆにより、音源の定位及び音の方向性を実現する。なお、ここでは、音像定位制御部３２及び空間音圧制御部３３は、音声データをそのまま再生した原音と原音から位相をずらして再生した制御音とにより音の方向を制御する例について説明する。しかし、音の方向を制御する方法はこの方法に限定されない。

音像定位制御部３２は、音声デコーダ３０によりデコードされた音声データと音源情報取得部３１から受信する音源位置情報とに基づいて、音像を定位する。即ち、音像定位制御部３２は、音源情報取得部３１から受信する音源位置情報Ｐ（Ｘ，Ｙ）に基づいて、音源の座標を特定し、各スピーカ３４ａ乃至３４ｆから出力する原音（正位相の音声）の出力レベルを決定する。

例えば、図２に示すように、音源の位置が画面の左上である場合、音像定位制御部３２は、音声デコーダ３０によりデコードされた音声データをスピーカ３４ａ及びスピーカ３４ｂを中心に出力するように制御する。このように、音源の位置に応じて各スピーカ３４ａ乃至３４ｆの出力レベルを調整することにより、音源の位置が画面に連動しているように視聴者に感じさせることができる。

空間音圧制御部３３は、音声デコーダ３０によりデコードされた音声データと音源情報取得部３１から受信する音源方向情報とに基づいて、音の方向を特定する。空間音圧制御部３３は、音源情報取得部３１から受信する音源方向情報Ｄ（Ｘｄ，Ｙｄ，Ｚｄ）に基づいて、音源から発する音の方向（ベクトル）を特定する。さらに空間音圧制御部３３は、音のベクトルと音源位置情報Ｐ（Ｘ，Ｙ）とに基づいて、各スピーカ３４ａ乃至３４ｆから出力する音圧制御音（原音の逆位相の音声）の出力レベルを決定する。

音圧制御音は、原音の逆位相の音声である為、音源から発せられる音声を打ち消すことができる。空間音圧制御部３３は、各スピーカ３４ａ乃至３４ｆから出力する音圧制御音のレベルを制御することにより、空間中に音の波の差を作ることができる。視聴者は、左右の耳に入る音の差から音源の位置、及び音の方向を判断する。

即ち、空間音圧制御部３３は、音源方向情報から特定した方向を除く空間における音圧のレベルを下げるような音圧制御音を各スピーカ３４ａ乃至３４ｆから出力するように制御する。これにより、音像制御装置１は、音源方向情報から特定した方向において音圧を維持し、その他の空間において減音するような音波を作ることができる。

この為に、空間音圧制御部３３は、各スピーカ３４ａ乃至３４ｆの設置条件と部屋の状態とから音の伝達関数を演算により算出する。即ち、各スピーカ３４ａ乃至３４ｆから特定の距離に到達するまでの時間と音の減衰率を求める。空間音圧制御部３３は、音の伝達関数に基づいて、音源方向情報から特定した方向を除く空間における音圧のレベルを下げるための各スピーカ３４ａ乃至３４ｆからの音圧制御音の出力のレベルを決定する。

例えば、図２に示すように、音源の位置が画面の左上である場合、音声データは、スピーカ３４ａ及びスピーカ３４ｂを中心として出力される。空間音圧制御部３３は、音源から出力された音波が、方向Ｄに到達し、且つ、それ以外の特定距離Ｌに到達しないように空間の音圧を制御する。この為に、空間音圧制御部３３は、音源から発せられる音と逆位相である音圧制御音を、特定距離Ｌへの到達時間がスピーカ３４ａから出力される音声と音圧制御音とで同一になるように他の各スピーカから出力するように制御する。

上記した処理により、図３に示すような、音像定位制御部３２により定位した音源から音源方向情報により示される方向において音圧が維持されたまま音声を生成することができる。また、音源方向が示す方向から特定距離に位置する領域においては、音源からの音声が減音されて伝播される。

図４は、図１に示す音像制御装置１において行われる処理について説明するためのフローチャートである。

音像制御装置１は、起動すると、アンテナなどにより、放送信号としてのストリームの受信を待つ待機状態になる（ステップＳ１１）。

音像制御装置１は、ストリームを取得すると（ステップＳ１２）、ストリーム分離部１０によりストリームの分離処理を行う（ステップＳ１３）。即ち、ストリーム分離部１０は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。ストリーム分離部１０は、分離したデータをそれぞれ映像デコーダ２０及び音声デコーダ３０に出力する。即ち、ストリーム分離部１０は、圧縮映像データを映像デコーダ２０に出力し、圧縮音声データを音声デコーダに出力する。

映像デコーダ２０は、受信した圧縮映像データの復号処理を行う（ステップＳ１４）。即ち、映像デコーダ２０は、受信した圧縮映像データから映像データを取得する。また、音声デコーダ３０は、受信した圧縮音声データの復号処理を行う（ステップＳ１５）。

音源情報取得部３１は、復号されたデータに音源情報が含まれているか否か判断する（ステップＳ１６）。音源情報が含まれていない場合（ステップＳ１６、ＮＯ）、音像制御装置１は、映像デコーダ２０により復号した映像データと音声デコーダ３０によりデコードした音声データとを同期させ、スピーカ部３４に出力する。

ステップＳ１６において、音源情報が含まれている場合（ステップＳ１６、ＹＥＳ）、音源情報取得部３１は、音源情報を取得する（ステップＳ１７）。即ち、音源情報取得部３１は、音源の位置を示す音源位置情報Ｐ（Ｘ，Ｙ）と、この音源から発せられる音の方向を示す音源方向情報Ｄ（Ｘｄ，Ｙｄ，Ｚｄ）とを取得する。音源情報取得部３１は、音源位置情報を音像定位制御部３２に出力する。また、音源情報取得部３１は、音源方向情報を空間音圧制御部３３に出力する。

音像定位制御部３２は、音源位置情報が示す位置Ｐに対して音像定位処理を行う（ステップＳ１８）。即ち、音像定位制御部３２は、音源情報取得部３１から受信する音源位置情報Ｐ（Ｘ，Ｙ）に基づいて、音源の座標を特定し、各スピーカ３４ａ乃至３４ｆから出力する原音（正位相の音声）の出力レベルを決定する。

空間音圧制御部３３は、方向Ｄから特定距離Ｌに対して音圧制御音を生成する（ステップＳ１９）。即ち、空間音圧制御部３３は、音源情報取得部３１から受信する音源方向情報Ｄ（Ｘｄ，Ｙｄ，Ｚｄ）に基づいて、音源から発する音の方向のベクトルを特定し、各スピーカ３４ａ乃至３４ｆから出力する音圧制御音（原音の逆位相の音声）の出力レベルを決定する。

各スピーカ３４ａ乃至３４ｆは、音像定位制御部３２及び空間音圧制御部３３の制御に基づいて、原音と音圧制御音とを出力する（ステップＳ２０）。

上記した実施形態によると、音像制御装置１は、ストリームを複合することにより、音源位置情報及び音源方向情報を取得する。音像制御装置１は、音源位置情報に基づいて、各スピーカ３４ａ乃至３４ｆにおける音声の出力レベルを制御し、音源方向情報に基づいて各スピーカ３４ａ乃至３４ｆにおける音圧制御音の出力レベルを制御する。音像制御装置１は、各スピーカ３４ａ乃至３４ｆから音圧制御音を出力することにより、特定距離Ｌにおいて音源からの音声を打ち消し、減音させることができる。

これにより、画面内の音源の位置を画面に連動させつつ、且つ、音源から発せられる音声の指向性を再現することができる。この結果、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。

なお、上記した実施形態では、ストリームに音源情報として音源位置情報及び音源方向情報が含まれているとして説明したが、この構成に限定されない。ストリームに音源位置情報及び音源方向情報が含まれていない場合、映像データに基づいて音源の位置及び方向を判断する構成であってもよい。

図５は、本発明の第２の実施形態に係る音像制御装置２の構成例について説明するためのブロック図である。なお、第１の実施形態において示す音像制御装置１と同様の構成には同じ参照符号を付し、その詳細な説明を省略する。

図５に示すように、音像制御装置２は、ストリーム分離部１０、映像デコーダ２０、映像パネル２１、映像解析処理部２２、音声デコーダ３０、音像定位処理部３２、空間音圧制御部３３、及びスピーカ部３４を備えている。

音像制御装置２は、図示しないアンテナにより放送信号としてのストリームを受信する。ストリーム分離部１０は、アンテナにより受信したストリームに対して分離処理を行う。即ち、ストリーム分離部１０は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。

またさらに、音像制御装置２は、映像解析処理部２２を備えている。映像解析処理部２２は、画面中における顔の位置及び顔の向いている方向を検知し、音源位置情報及び音源方向情報を取得する。

即ち、映像解析処理部２２は、映像データまたは映像信号において、顔が写り込んでいる領域（顔領域）を特定する。映像解析処理部２２は、顔領域における特徴量を抽出する。映像解析処理部２２は、顔領域内の目、鼻、及び口などの顔の各パーツの位置を特定する。さらに、映像解析処理部２２は、口が時間的に動いているか否かの判定を行うことにより、音源位置情報を取得する。即ち、映像解析処理部２２は、動いている口を音源として特定する。

また、映像解析処理部２２は、顔領域の輪郭と、顔の各パーツの位置とに基づいて、顔が向いている方向を特定する。この結果、映像解析処理部２２は、音源方向情報を取得する。即ち、映像解析処理部２２は、顔の各パーツの位置の左右の対象性、及び偏り方などに基づいて、顔の角度を算出する。

映像解析処理部２２は、取得した音源位置情報及び音源方向情報をそれぞれ対応する処理部に出力する。即ち、映像解析処理部２２は、音源位置情報を音像定位制御部３２に出力する。また、映像解析処理部２２は、音源方向情報を空間音圧制御部３３に出力する。

音像定位制御部３２及び空間音圧制御部３３は、上記の第１の実施形態と同様に音声データ、音源位置情報、及び音源方向情報に基づいて処理を行い、各スピーカ３４ａ乃至３４ｆから出力する音声及び音圧制御音のレベルを制御する。

上記した処理により、ストリームに音源情報が含まれていない場合でも、映像と音源の連動、及び音の方向性の再現を実現することができる。即ち、例えば、図示しないＨＤＤなどの記憶装置などに記憶されている映像コンテンツ、または、記録メディアに記録されている映像コンテンツを再生する場合であっても、本発明の効果を実現することができる。

図６は、図５に示す音像制御装置２において行われる処理について説明するためのフローチャートである。

音像制御装置２は、起動すると、アンテナなどにより、放送信号としてのストリームの受信を待つ待機状態になる（ステップＳ２１）。

音像制御装置２は、ストリームを取得すると（ステップＳ２２）、ストリーム分離部１０によりストリームの分離処理を行う（ステップＳ２３）。即ち、ストリーム分離部１０は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。ストリーム分離部１０は、分離したデータをそれぞれ映像デコーダ２０及び音声デコーダ３０に出力する。即ち、ストリーム分離部１０は、圧縮映像データを映像デコーダ２０に出力し、圧縮音声データを音声デコーダに出力する。

映像デコーダ２０は、受信した圧縮映像データの復号処理を行う（ステップＳ２４）。即ち、映像デコーダ２０は、受信した圧縮映像データから映像データを取得する。また、音声デコーダ３０は、受信した圧縮音声データの復号処理を行う（ステップＳ２５）。

映像解析処理部２２は、映像デコーダ２０により復号された映像データの解析処理を行う（ステップＳ２６）。映像解析処理部２２は、例えば、画像中から肌色の領域を抽出し、抽出した肌色領域内の顔の各パーツの座標、及び肌色領域の輪郭を特定する。

映像解析処理部２２は、画像中に顔が映り込んでいるか否か判断する（ステップＳ２７）。即ち、映像解析処理部２２は、特定した顔の各パーツの座標及び肌色領域の輪郭の形に基づいて、肌色領域が顔領域であるか否かを判断する。顔が写りこんでいない場合（ステップＳ２７、ＮＯ）、音像制御装置２は、映像デコーダ２０により復号した映像データと音声デコーダ３０によりデコードした音声データとを同期させ、スピーカ部３４に出力する。

ステップＳ２７において顔が写り込んでいると判断した場合（ステップＳ２７、ＹＥＳ）、映像解析処理部２２は、音源情報を取得する（ステップＳ２８）。即ち、映像解析処理部２２は、特定した顔の各パーツの座標及び肌色領域の輪郭の形に基づいて、音源の位置の座標である音源位置情報Ｐ（Ｘ，Ｙ）と、音源である顔の向きを示す音源方向情報Ｄ（Ｘｄ，Ｙｄ，Ｚｄ）とを算出する。映像解析処理部２２は、音源位置情報を音像定位制御部３２に出力する。また、映像解析処理部２２は、音源方向情報を空間音圧制御部３３に出力する。

音像定位制御部３２は、音源位置情報が示す位置Ｐに対して音像定位処理を行う（ステップＳ２９）。即ち、音像定位制御部３２は、映像解析処理部２２から受信する音源位置情報Ｐ（Ｘ，Ｙ）に基づいて、音源の座標を特定し、各スピーカ３４ａ乃至３４ｆから出力する原音（正位相の音声）の出力レベルを決定する。

空間音圧制御部３３は、方向Ｄから特定距離Ｌに対して音圧制御音を生成する（ステップＳ３０）。即ち、空間音圧制御部３３は、映像解析処理部２２から受信する音源方向情報Ｄ（Ｘｄ，Ｙｄ，Ｚｄ）に基づいて、音源から発する音の方向のベクトルを特定し、各スピーカ３４ａ乃至３４ｆから出力する音圧制御音（原音の逆位相の音声）の出力レベルを決定する。

各スピーカ３４ａ乃至３４ｆは、音像定位制御部３２及び空間音圧制御部３３の制御に基づいて、原音と音圧制御音とを出力する（ステップＳ３１）。

上記した実施形態によると、音像制御装置２は、映像データに基づいて音源位置情報及び音源方向情報を算出する。音像制御装置２は、音源位置情報に基づいて、各スピーカ３４ａ乃至３４ｆにおける音声の出力レベルを制御し、音源方向情報に基づいて各スピーカ３４ａ乃至３４ｆにおける音圧制御音の出力レベルを制御する。音像制御装置１は、各スピーカ３４ａ乃至３４ｆから音圧制御音を出力することにより、特定距離Ｌにおいて音源からの音声を打ち消し、減音させることができる。

これにより、ストリームに音源情報が含まれていない場合でも、画面内の音源の位置を画面に連動させつつ、且つ、音源から発せられる音声の指向性を再現することができる。この結果、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。

このように、映像解析により音源の位置及び方向を特定することにより、予めストリームに音源情報を記録する必要がなくなる。また、映像中の顔の向きに合わせて逐次音源の位置及び方向を算出する為、より細かく音の方向を変化させることができる。

また、装置における処理を減らすために、ＨＤＤなどの記憶装置、または、記録メディアに記憶されているコンテンツの再生中に算出した音源情報を、該コンテンツと関連付けて、音像制御装置２内部の記憶手段に蓄積するようにしてもよい。これにより、再度同じコンテンツを再生する場合、音源制御装置の処理を減らすことができる。即ち、音像制御装置２は、コンテンツを再生する場合、該コンテンツが以前に再生されたことがあるコンテンツであるか否かを判定し、以前に再生されたことがあると判定した場合、蓄積している音源情報を利用し、音像制御を行う。

また、本発明の第２の実施形態において説明した映像解析処理部２２の機能を、ストリームの生成装置に適用することもできる。この場合、ストリーム生成装置は、映像解析処理を行い、各時点毎に音源の位置を示す音源位置情報及び音の方向を示す音源方向情報を算出し、メタデータとしての音源情報を生成する。ストリーム生成装置は、音声データ、映像データ、音源情報、及び他の付随する情報を含むストリームを生成する。

また、上記した実施形態では、音の伝達関数を部屋の状態及び音像制御装置の設置条件とに基づいて算出するとして説明したが、この為に、初期設定として音像制御装置１を設置する部屋の状態を示す情報を視聴者に入力させる必要がある。例えば、音像制御装置１は、さらに操作部を具備し、映像パネル２１に初期設定メニューを表示させ、部屋の広さ、音像制御装置１から遮蔽物までの距離などを視聴者に入力させる。音像制御装置１は、記憶されている設定に基づいて、音の伝達関数の算出を行う。これにより、部屋の状態に応じて適切に音圧の制御を行う事ができる。

また、上記した実施形態では、スピーカ部３４は、映像パネル２１の周囲に配列された複数のスピーカ３４ａ乃至３４ｆを備える構成として説明したが、この構成に限定されない。複数のスピーカが２次元的に配列された構成であれば、如何なる構成であっても、本発明を実現することができる。

なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合わせてもよい。

１…音像制御装置、２…音像制御装置、１０…ストリーム分離部、２０…映像デコーダ、２１…映像パネル、２２…映像解析処理部、３０…音声デコーダ、３１…音源情報取得部、３２…音像定位処理部、３３…空間音圧制御部、３４…スピーカ部。

Claims

二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、
前記ストリームをデコードし、映像データを取得する映像デコード手段と、
前記ストリームをデコードし、音声データを取得する音声デコード手段と、
前記ストリームに含まれる音源位置情報及び音源方向情報を取得する音源情報取得手段と、
前記音源情報取得手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、
前記音源情報取得手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、
を具備することを特徴とする音像制御装置。
前記音像定位手段は、前記音源位置情報に基づいて音源の座標を特定し、特定した座標に基づいて、前記音声デコード手段によりデコードされた音声の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項１に記載の音像制御装置。
前記空間音圧制御手段は、前記音源方向情報に基づいて音のベクトルを特定し、特定したベクトルと前記音像定位手段により特定した音源の座標とに基づいて、前記音声デコード手段によりデコードされた音声と逆の位相を有する音圧制御音の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項２に記載の音像制御装置。
二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、
前記ストリームをデコードし、映像データを取得する映像デコード手段と、
前記ストリームをデコードし、音声データを取得する音声デコード手段と、
前記映像デコード手段により取得した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、
前記映像解析手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、
前記映像解析手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、
を具備することを特徴とする音像制御装置。
前記映像解析手段は、前記映像デコード手段により取得した映像データにより表示される画面中の顔の領域及び顔の各パーツの座標を特定し、前記顔の領域と顔の各パーツの座標とに基づいて音源位置情報及び音源方向情報を取得することを特徴とする請求項４に記載の音像制御装置。
前記音像定位手段は、前記音源位置情報に基づいて音源の座標を特定し、特定した座標に基づいて、前記音声デコード手段によりデコードされた音声の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項４に記載の音像制御装置。
前記空間音圧制御手段は、前記音源方向情報に基づいて音のベクトルを特定し、特定したベクトルと前記音像定位手段により特定した音源の座標とに基づいて、前記音声デコード手段によりデコードされた音声と逆の位相を有する音圧制御音の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項６に記載の音像制御装置。
前記映像解析手段は、取得した音源位置情報及び音源方向情報を前記ストリームを示す情報と対応付けて記憶する記憶手段を具備することを特徴とする請求項４に記載の音像制御装置。
二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、
前記ストリームをデコードして映像データを取得し、
前記ストリームをデコードして音声データを取得し、
前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、
前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、
前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する、
ことを特徴とする音像制御方法。
二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、
前記ストリームをデコードして映像データを取得し、
前記ストリームをデコードして音声データを取得し、
前記デコードした映像データを解析し、音源位置情報及び音源方向情報を取得し、
前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、
前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する、
ことを特徴とする音像制御方法。
映像データと、
前記映像データに同期した音声データと、
前記音声データの音源の位置を示す音源位置情報と、
前記音源から発せられる音の方向を示す音源方向情報と、
を具備するストリームのデータ構造。
映像データを生成する映像データ生成手段と、
音声データを生成する音声データ生成手段と、
前記映像データ生成手段により生成した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、
前記映像データ生成手段により生成した映像データと、前記音声データ生成手段により生成した音声データと、前記映像解析手段により取得した音源位置情報及び音源方向情報とに基づいてストリームを生成するストリーム生成手段と、
を具備することを特徴とするストリーム生成装置。