JP2010206265A - 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 - Google Patents
音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 Download PDFInfo
- Publication number
- JP2010206265A JP2010206265A JP2009046625A JP2009046625A JP2010206265A JP 2010206265 A JP2010206265 A JP 2010206265A JP 2009046625 A JP2009046625 A JP 2009046625A JP 2009046625 A JP2009046625 A JP 2009046625A JP 2010206265 A JP2010206265 A JP 2010206265A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- video
- stream
- image control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
【課題】視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供する。
【解決手段】二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、前記音源位置情報に基づいて音像を映像内の音源の位置に定位させ前記音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。
【選択図】 図1
【解決手段】二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、前記音源位置情報に基づいて音像を映像内の音源の位置に定位させ前記音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。
【選択図】 図1
Description
本発明は、映像と音声とを出力する音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置に関する。
近年、放送受信装置(ディジタルテレビ)は、ディスプレイの大型化が進んでいる。しかし、スピーカは、ディジタルテレビのディスプレイの両側に設けられているのみである。この為、大型のディスプレイを備えるディジタルテレビは、ディスプレイに映し出される音源と、実際に音声が出力される音源との位置のズレが大きい傾向がある。即ち、音源がディスプレイ内のどの位置に移りこんでいたとしても、視聴者は、常に真正面から音声が出力されているように感じる。
例えば、特許文献1には、アレイ状に配列されたスピーカを備え、ディスプレイの奥側に仮想音源があると想定し、アレイ状に配列された各スピーカの出力を調整するオーディオ再生装置が開示されている。
しかし、上記したオーディオ再生装置は、画像データに基づいて音源の位置を推定している。しかし、実際は、音源の位置だけでなく、音の指向性によっても、視聴者の聴こえ方は変化する。即ち、従来のオーディオ再生装置によると、画像中の音源が視聴者の正面向いていない場合でも、視聴者は、正面から音を感じる。この為、視聴者に対して違和感を与えるという問題がある。
そこで、本発明の目的は、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することにある。
本発明の一実施形態としての音像制御装置は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードし、映像データを取得する映像デコード手段と、前記ストリームをデコードし、音声データを取得する音声デコード手段と、前記ストリームに含まれる音源位置情報及び音源方向情報を取得する音源情報取得手段と、前記音源情報取得手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、前記音源情報取得手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、を具備する。
また、本発明の一実施形態としての音像制御装置は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、前記ストリームをデコードし、映像データを取得する映像デコード手段と、前記ストリームをデコードし、音声データを取得する音声デコード手段と、前記映像デコード手段により取得した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、前記映像解析手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、前記映像解析手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、を具備する。
また、本発明の一実施形態としての音像制御方法は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。
また、本発明の一実施形態としての音像制御方法は、二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、前記ストリームをデコードして映像データを取得し、前記ストリームをデコードして音声データを取得し、前記デコードした映像データを解析し、音源位置情報及び音源方向情報を取得し、前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する。
また、本発明の一実施形態としてのストリームのデータ構造は、映像データと、前記映像データに同期した音声データと、前記音声データの音源の位置を示す音源位置情報と、前記音源から発せられる音の方向を示す音源方向情報と、を具備する。
また、本発明の一実施形態としてのストリーム生成装置は、映像データを生成する映像データ生成手段と、音声データを生成する音声データ生成手段と、前記映像データ生成手段により生成した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、前記映像データ生成手段により生成した映像データと、前記音声データ生成手段により生成した音声データと、前記映像解析手段により取得した源位置情報及び音源方向情報とに基づいてストリームを生成するストリーム生成手段と、を具備する。
この発明の一形態によれば、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。
以下、図面を参照しながら、本発明の第1の実施形態に係る音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置について詳細に説明する。
図1は、本発明の第1の実施形態に係る音像制御装置1の構成例について説明するためのブロック図である。音像制御装置1は、例えば、MPEG−2 TS(Transport Stream)などの規格に準じて映像及び音声を再生する。
MPEG−2 TSは、音声データ、映像データ、及びメタデータなどを含む。音像制御装置1は、音声データ、映像データ、及びメタデータなどを1つのデータ列(ストリーム)として処理する。これにより、動画像と音声の同期、複数の番組の伝送などを実現することができる。なお、本実施形態では、ストリームに音源の位置、及び音源の方向を示す音源情報がさらに含まれていると仮定して説明する。
図1に示すように、音像制御装置1は、ストリーム分離部10、映像デコーダ20、映像パネル21、音声デコーダ30、音源情報取得部31、音像定位処理部32、空間音圧制御部33、及びスピーカ部34を備えている。
音像制御装置1は、図示しないアンテナにより放送信号としてのストリームを受信する。ストリーム分離部10は、アンテナにより受信したストリームに対して分離処理を行う。即ち、ストリーム分離部10は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。
ストリーム分離部10により分離されたデータは、映像デコーダ20及び音声デコーダ30にそれぞれ出力される。即ち、圧縮映像データは、映像デコーダ20に出力される。また、圧縮音声データは、音声デコーダに出力される。
映像デコーダ20は、受信した圧縮映像データの復号処理を行う。即ち、映像デコーダ20は、受信した圧縮映像データから映像データを取得する。さらに、音像制御装置1は、図示しない映像処理部を備えている。映像処理部は、取得した映像データを映像パネル21により表示可能なフォーマットの映像信号に変換する。映像処理部は、変換した映像信号を映像パネル21に出力する。映像パネル21は、例えば、液晶ディスプレイなどにより構成される表示装置である。映像パネル21は、受信した映像信号を表示する。
音声デコーダ30は、受信した圧縮音声データの復号処理を行う。即ち、音声デコーダ30は、受信した圧縮音声データから音声データを取得する。また、圧縮音性データに音源情報がメタデータとして含まれている場合、音声デコーダ30による圧縮音声データの復号処理により音源情報も復号される。音源情報取得部31は、復号された音源情報を取得する。
音源情報は、同期する映像における音源の位置を示す情報(音源位置情報)と、この音源から発せられる音の方向を示す情報(音源方向情報)とを含む。音源位置情報は、例えば、画面中における音源の座標などにより構成される。また、音源方向情報は、例えば、音の方向に対応するベクトル成分などにより構成される。
音源情報取得部31は、取得した音源位置情報及び音源方向情報をそれぞれ対応する処理部に出力する。即ち、音源情報取得部31は、音源位置情報を音像定位制御部32に出力する。また、音源情報取得部31は、音源方向情報を空間音圧制御部33に出力する。
音像定位制御部32及び空間音圧制御部33は、音声データ、音源位置情報、及び音源方向情報に基づいて、スピーカ部34の各スピーカの出力を制御する。スピーカ部34は、複数のスピーカを備えている。
図2は、図1に示す音像制御装置1の概観の一例について説明するための説明図である。図3は、図1に示す音像制御装置1から出力される音声の伝播について説明するための説明図である。
図2に示すように、スピーカ34a乃至34fが映像パネル21の周囲に配列されている。即ち、スピーカ34a乃至34fは、2次元的に配列されている。スピーカ34a乃至34fは、それぞれ音像定位制御部32及び空間音圧制御部33による制御に基づいて音を出力する。
図2に示すように、スピーカ34a乃至34fが映像パネル21の周囲に配列されている。即ち、スピーカ34a乃至34fは、2次元的に配列されている。スピーカ34a乃至34fは、それぞれ音像定位制御部32及び空間音圧制御部33による制御に基づいて音を出力する。
音像制御装置1は、音像定位制御部32、空間音圧制御部33、及びスピーカ34a乃至34fにより、音源の定位及び音の方向性を実現する。なお、ここでは、音像定位制御部32及び空間音圧制御部33は、音声データをそのまま再生した原音と原音から位相をずらして再生した制御音とにより音の方向を制御する例について説明する。しかし、音の方向を制御する方法はこの方法に限定されない。
音像定位制御部32は、音声デコーダ30によりデコードされた音声データと音源情報取得部31から受信する音源位置情報とに基づいて、音像を定位する。即ち、音像定位制御部32は、音源情報取得部31から受信する音源位置情報P(X,Y)に基づいて、音源の座標を特定し、各スピーカ34a乃至34fから出力する原音(正位相の音声)の出力レベルを決定する。
例えば、図2に示すように、音源の位置が画面の左上である場合、音像定位制御部32は、音声デコーダ30によりデコードされた音声データをスピーカ34a及びスピーカ34bを中心に出力するように制御する。このように、音源の位置に応じて各スピーカ34a乃至34fの出力レベルを調整することにより、音源の位置が画面に連動しているように視聴者に感じさせることができる。
空間音圧制御部33は、音声デコーダ30によりデコードされた音声データと音源情報取得部31から受信する音源方向情報とに基づいて、音の方向を特定する。空間音圧制御部33は、音源情報取得部31から受信する音源方向情報D(Xd,Yd,Zd)に基づいて、音源から発する音の方向(ベクトル)を特定する。さらに空間音圧制御部33は、音のベクトルと音源位置情報P(X,Y)とに基づいて、各スピーカ34a乃至34fから出力する音圧制御音(原音の逆位相の音声)の出力レベルを決定する。
音圧制御音は、原音の逆位相の音声である為、音源から発せられる音声を打ち消すことができる。空間音圧制御部33は、各スピーカ34a乃至34fから出力する音圧制御音のレベルを制御することにより、空間中に音の波の差を作ることができる。視聴者は、左右の耳に入る音の差から音源の位置、及び音の方向を判断する。
即ち、空間音圧制御部33は、音源方向情報から特定した方向を除く空間における音圧のレベルを下げるような音圧制御音を各スピーカ34a乃至34fから出力するように制御する。これにより、音像制御装置1は、音源方向情報から特定した方向において音圧を維持し、その他の空間において減音するような音波を作ることができる。
この為に、空間音圧制御部33は、各スピーカ34a乃至34fの設置条件と部屋の状態とから音の伝達関数を演算により算出する。即ち、各スピーカ34a乃至34fから特定の距離に到達するまでの時間と音の減衰率を求める。空間音圧制御部33は、音の伝達関数に基づいて、音源方向情報から特定した方向を除く空間における音圧のレベルを下げるための各スピーカ34a乃至34fからの音圧制御音の出力のレベルを決定する。
例えば、図2に示すように、音源の位置が画面の左上である場合、音声データは、スピーカ34a及びスピーカ34bを中心として出力される。空間音圧制御部33は、音源から出力された音波が、方向Dに到達し、且つ、それ以外の特定距離Lに到達しないように空間の音圧を制御する。この為に、空間音圧制御部33は、音源から発せられる音と逆位相である音圧制御音を、特定距離Lへの到達時間がスピーカ34aから出力される音声と音圧制御音とで同一になるように他の各スピーカから出力するように制御する。
上記した処理により、図3に示すような、音像定位制御部32により定位した音源から音源方向情報により示される方向において音圧が維持されたまま音声を生成することができる。また、音源方向が示す方向から特定距離に位置する領域においては、音源からの音声が減音されて伝播される。
図4は、図1に示す音像制御装置1において行われる処理について説明するためのフローチャートである。
音像制御装置1は、起動すると、アンテナなどにより、放送信号としてのストリームの受信を待つ待機状態になる(ステップS11)。
音像制御装置1は、ストリームを取得すると(ステップS12)、ストリーム分離部10によりストリームの分離処理を行う(ステップS13)。即ち、ストリーム分離部10は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。ストリーム分離部10は、分離したデータをそれぞれ映像デコーダ20及び音声デコーダ30に出力する。即ち、ストリーム分離部10は、圧縮映像データを映像デコーダ20に出力し、圧縮音声データを音声デコーダに出力する。
映像デコーダ20は、受信した圧縮映像データの復号処理を行う(ステップS14)。即ち、映像デコーダ20は、受信した圧縮映像データから映像データを取得する。また、音声デコーダ30は、受信した圧縮音声データの復号処理を行う(ステップS15)。
音源情報取得部31は、復号されたデータに音源情報が含まれているか否か判断する(ステップS16)。音源情報が含まれていない場合(ステップS16、NO)、音像制御装置1は、映像デコーダ20により復号した映像データと音声デコーダ30によりデコードした音声データとを同期させ、スピーカ部34に出力する。
ステップS16において、音源情報が含まれている場合(ステップS16、YES)、音源情報取得部31は、音源情報を取得する(ステップS17)。即ち、音源情報取得部31は、音源の位置を示す音源位置情報P(X,Y)と、この音源から発せられる音の方向を示す音源方向情報D(Xd,Yd,Zd)とを取得する。音源情報取得部31は、音源位置情報を音像定位制御部32に出力する。また、音源情報取得部31は、音源方向情報を空間音圧制御部33に出力する。
音像定位制御部32は、音源位置情報が示す位置Pに対して音像定位処理を行う(ステップS18)。即ち、音像定位制御部32は、音源情報取得部31から受信する音源位置情報P(X,Y)に基づいて、音源の座標を特定し、各スピーカ34a乃至34fから出力する原音(正位相の音声)の出力レベルを決定する。
空間音圧制御部33は、方向Dから特定距離Lに対して音圧制御音を生成する(ステップS19)。即ち、空間音圧制御部33は、音源情報取得部31から受信する音源方向情報D(Xd,Yd,Zd)に基づいて、音源から発する音の方向のベクトルを特定し、各スピーカ34a乃至34fから出力する音圧制御音(原音の逆位相の音声)の出力レベルを決定する。
各スピーカ34a乃至34fは、音像定位制御部32及び空間音圧制御部33の制御に基づいて、原音と音圧制御音とを出力する(ステップS20)。
上記した実施形態によると、音像制御装置1は、ストリームを複合することにより、音源位置情報及び音源方向情報を取得する。音像制御装置1は、音源位置情報に基づいて、各スピーカ34a乃至34fにおける音声の出力レベルを制御し、音源方向情報に基づいて各スピーカ34a乃至34fにおける音圧制御音の出力レベルを制御する。音像制御装置1は、各スピーカ34a乃至34fから音圧制御音を出力することにより、特定距離Lにおいて音源からの音声を打ち消し、減音させることができる。
これにより、画面内の音源の位置を画面に連動させつつ、且つ、音源から発せられる音声の指向性を再現することができる。この結果、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。
なお、上記した実施形態では、ストリームに音源情報として音源位置情報及び音源方向情報が含まれているとして説明したが、この構成に限定されない。ストリームに音源位置情報及び音源方向情報が含まれていない場合、映像データに基づいて音源の位置及び方向を判断する構成であってもよい。
図5は、本発明の第2の実施形態に係る音像制御装置2の構成例について説明するためのブロック図である。なお、第1の実施形態において示す音像制御装置1と同様の構成には同じ参照符号を付し、その詳細な説明を省略する。
図5に示すように、音像制御装置2は、ストリーム分離部10、映像デコーダ20、映像パネル21、映像解析処理部22、音声デコーダ30、音像定位処理部32、空間音圧制御部33、及びスピーカ部34を備えている。
音像制御装置2は、図示しないアンテナにより放送信号としてのストリームを受信する。ストリーム分離部10は、アンテナにより受信したストリームに対して分離処理を行う。即ち、ストリーム分離部10は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。
ストリーム分離部10により分離されたデータは、映像デコーダ20及び音声デコーダ30にそれぞれ出力される。即ち、圧縮映像データは、映像デコーダ20に出力される。また、圧縮音声データは、音声デコーダに出力される。
映像デコーダ20は、受信した圧縮映像データの復号処理を行う。即ち、映像デコーダ20は、受信した圧縮映像データから映像データを取得する。さらに、音像制御装置1は、図示しない映像処理部を備えている。映像処理部は、取得した映像データを映像パネル21により表示可能なフォーマットの映像信号に変換する。映像処理部は、変換した映像信号を映像パネル21に出力する。映像パネル21は、例えば、液晶ディスプレイなどにより構成される表示装置である。映像パネル21は、受信した映像信号を表示する。
またさらに、音像制御装置2は、映像解析処理部22を備えている。映像解析処理部22は、画面中における顔の位置及び顔の向いている方向を検知し、音源位置情報及び音源方向情報を取得する。
即ち、映像解析処理部22は、映像データまたは映像信号において、顔が写り込んでいる領域(顔領域)を特定する。映像解析処理部22は、顔領域における特徴量を抽出する。映像解析処理部22は、顔領域内の目、鼻、及び口などの顔の各パーツの位置を特定する。さらに、映像解析処理部22は、口が時間的に動いているか否かの判定を行うことにより、音源位置情報を取得する。即ち、映像解析処理部22は、動いている口を音源として特定する。
また、映像解析処理部22は、顔領域の輪郭と、顔の各パーツの位置とに基づいて、顔が向いている方向を特定する。この結果、映像解析処理部22は、音源方向情報を取得する。即ち、映像解析処理部22は、顔の各パーツの位置の左右の対象性、及び偏り方などに基づいて、顔の角度を算出する。
映像解析処理部22は、取得した音源位置情報及び音源方向情報をそれぞれ対応する処理部に出力する。即ち、映像解析処理部22は、音源位置情報を音像定位制御部32に出力する。また、映像解析処理部22は、音源方向情報を空間音圧制御部33に出力する。
音像定位制御部32及び空間音圧制御部33は、上記の第1の実施形態と同様に音声データ、音源位置情報、及び音源方向情報に基づいて処理を行い、各スピーカ34a乃至34fから出力する音声及び音圧制御音のレベルを制御する。
上記した処理により、ストリームに音源情報が含まれていない場合でも、映像と音源の連動、及び音の方向性の再現を実現することができる。即ち、例えば、図示しないHDDなどの記憶装置などに記憶されている映像コンテンツ、または、記録メディアに記録されている映像コンテンツを再生する場合であっても、本発明の効果を実現することができる。
図6は、図5に示す音像制御装置2において行われる処理について説明するためのフローチャートである。
音像制御装置2は、起動すると、アンテナなどにより、放送信号としてのストリームの受信を待つ待機状態になる(ステップS21)。
音像制御装置2は、ストリームを取得すると(ステップS22)、ストリーム分離部10によりストリームの分離処理を行う(ステップS23)。即ち、ストリーム分離部10は、受信したストリームを圧縮映像データと圧縮音声データとに分離する。ストリーム分離部10は、分離したデータをそれぞれ映像デコーダ20及び音声デコーダ30に出力する。即ち、ストリーム分離部10は、圧縮映像データを映像デコーダ20に出力し、圧縮音声データを音声デコーダに出力する。
映像デコーダ20は、受信した圧縮映像データの復号処理を行う(ステップS24)。即ち、映像デコーダ20は、受信した圧縮映像データから映像データを取得する。また、音声デコーダ30は、受信した圧縮音声データの復号処理を行う(ステップS25)。
映像解析処理部22は、映像デコーダ20により復号された映像データの解析処理を行う(ステップS26)。映像解析処理部22は、例えば、画像中から肌色の領域を抽出し、抽出した肌色領域内の顔の各パーツの座標、及び肌色領域の輪郭を特定する。
映像解析処理部22は、画像中に顔が映り込んでいるか否か判断する(ステップS27)。即ち、映像解析処理部22は、特定した顔の各パーツの座標及び肌色領域の輪郭の形に基づいて、肌色領域が顔領域であるか否かを判断する。顔が写りこんでいない場合(ステップS27、NO)、音像制御装置2は、映像デコーダ20により復号した映像データと音声デコーダ30によりデコードした音声データとを同期させ、スピーカ部34に出力する。
ステップS27において顔が写り込んでいると判断した場合(ステップS27、YES)、映像解析処理部22は、音源情報を取得する(ステップS28)。即ち、映像解析処理部22は、特定した顔の各パーツの座標及び肌色領域の輪郭の形に基づいて、音源の位置の座標である音源位置情報P(X,Y)と、音源である顔の向きを示す音源方向情報D(Xd,Yd,Zd)とを算出する。映像解析処理部22は、音源位置情報を音像定位制御部32に出力する。また、映像解析処理部22は、音源方向情報を空間音圧制御部33に出力する。
音像定位制御部32は、音源位置情報が示す位置Pに対して音像定位処理を行う(ステップS29)。即ち、音像定位制御部32は、映像解析処理部22から受信する音源位置情報P(X,Y)に基づいて、音源の座標を特定し、各スピーカ34a乃至34fから出力する原音(正位相の音声)の出力レベルを決定する。
空間音圧制御部33は、方向Dから特定距離Lに対して音圧制御音を生成する(ステップS30)。即ち、空間音圧制御部33は、映像解析処理部22から受信する音源方向情報D(Xd,Yd,Zd)に基づいて、音源から発する音の方向のベクトルを特定し、各スピーカ34a乃至34fから出力する音圧制御音(原音の逆位相の音声)の出力レベルを決定する。
各スピーカ34a乃至34fは、音像定位制御部32及び空間音圧制御部33の制御に基づいて、原音と音圧制御音とを出力する(ステップS31)。
上記した実施形態によると、音像制御装置2は、映像データに基づいて音源位置情報及び音源方向情報を算出する。音像制御装置2は、音源位置情報に基づいて、各スピーカ34a乃至34fにおける音声の出力レベルを制御し、音源方向情報に基づいて各スピーカ34a乃至34fにおける音圧制御音の出力レベルを制御する。音像制御装置1は、各スピーカ34a乃至34fから音圧制御音を出力することにより、特定距離Lにおいて音源からの音声を打ち消し、減音させることができる。
これにより、ストリームに音源情報が含まれていない場合でも、画面内の音源の位置を画面に連動させつつ、且つ、音源から発せられる音声の指向性を再現することができる。この結果、視聴者にとって自然な音声視聴環境を実現することができる音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置を提供することができる。
このように、映像解析により音源の位置及び方向を特定することにより、予めストリームに音源情報を記録する必要がなくなる。また、映像中の顔の向きに合わせて逐次音源の位置及び方向を算出する為、より細かく音の方向を変化させることができる。
また、装置における処理を減らすために、HDDなどの記憶装置、または、記録メディアに記憶されているコンテンツの再生中に算出した音源情報を、該コンテンツと関連付けて、音像制御装置2内部の記憶手段に蓄積するようにしてもよい。これにより、再度同じコンテンツを再生する場合、音源制御装置の処理を減らすことができる。即ち、音像制御装置2は、コンテンツを再生する場合、該コンテンツが以前に再生されたことがあるコンテンツであるか否かを判定し、以前に再生されたことがあると判定した場合、蓄積している音源情報を利用し、音像制御を行う。
また、本発明の第2の実施形態において説明した映像解析処理部22の機能を、ストリームの生成装置に適用することもできる。この場合、ストリーム生成装置は、映像解析処理を行い、各時点毎に音源の位置を示す音源位置情報及び音の方向を示す音源方向情報を算出し、メタデータとしての音源情報を生成する。ストリーム生成装置は、音声データ、映像データ、音源情報、及び他の付随する情報を含むストリームを生成する。
また、上記した実施形態では、音の伝達関数を部屋の状態及び音像制御装置の設置条件とに基づいて算出するとして説明したが、この為に、初期設定として音像制御装置1を設置する部屋の状態を示す情報を視聴者に入力させる必要がある。例えば、音像制御装置1は、さらに操作部を具備し、映像パネル21に初期設定メニューを表示させ、部屋の広さ、音像制御装置1から遮蔽物までの距離などを視聴者に入力させる。音像制御装置1は、記憶されている設定に基づいて、音の伝達関数の算出を行う。これにより、部屋の状態に応じて適切に音圧の制御を行う事ができる。
また、上記した実施形態では、スピーカ部34は、映像パネル21の周囲に配列された複数のスピーカ34a乃至34fを備える構成として説明したが、この構成に限定されない。複数のスピーカが2次元的に配列された構成であれば、如何なる構成であっても、本発明を実現することができる。
なお、この発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合わせてもよい。
1…音像制御装置、2…音像制御装置、10…ストリーム分離部、20…映像デコーダ、21…映像パネル、22…映像解析処理部、30…音声デコーダ、31…音源情報取得部、32…音像定位処理部、33…空間音圧制御部、34…スピーカ部。
Claims (12)
- 二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、
前記ストリームをデコードし、映像データを取得する映像デコード手段と、
前記ストリームをデコードし、音声データを取得する音声デコード手段と、
前記ストリームに含まれる音源位置情報及び音源方向情報を取得する音源情報取得手段と、
前記音源情報取得手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、
前記音源情報取得手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、
を具備することを特徴とする音像制御装置。 - 前記音像定位手段は、前記音源位置情報に基づいて音源の座標を特定し、特定した座標に基づいて、前記音声デコード手段によりデコードされた音声の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項1に記載の音像制御装置。
- 前記空間音圧制御手段は、前記音源方向情報に基づいて音のベクトルを特定し、特定したベクトルと前記音像定位手段により特定した音源の座標とに基づいて、前記音声デコード手段によりデコードされた音声と逆の位相を有する音圧制御音の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項2に記載の音像制御装置。
- 二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置であって、
前記ストリームをデコードし、映像データを取得する映像デコード手段と、
前記ストリームをデコードし、音声データを取得する音声デコード手段と、
前記映像デコード手段により取得した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、
前記映像解析手段により取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させる音像定位手段と、
前記映像解析手段により取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する空間音圧制御手段と、
を具備することを特徴とする音像制御装置。 - 前記映像解析手段は、前記映像デコード手段により取得した映像データにより表示される画面中の顔の領域及び顔の各パーツの座標を特定し、前記顔の領域と顔の各パーツの座標とに基づいて音源位置情報及び音源方向情報を取得することを特徴とする請求項4に記載の音像制御装置。
- 前記音像定位手段は、前記音源位置情報に基づいて音源の座標を特定し、特定した座標に基づいて、前記音声デコード手段によりデコードされた音声の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項4に記載の音像制御装置。
- 前記空間音圧制御手段は、前記音源方向情報に基づいて音のベクトルを特定し、特定したベクトルと前記音像定位手段により特定した音源の座標とに基づいて、前記音声デコード手段によりデコードされた音声と逆の位相を有する音圧制御音の出力レベルを前記各スピーカ毎に制御することを特徴とする請求項6に記載の音像制御装置。
- 前記映像解析手段は、取得した音源位置情報及び音源方向情報を前記ストリームを示す情報と対応付けて記憶する記憶手段を具備することを特徴とする請求項4に記載の音像制御装置。
- 二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、
前記ストリームをデコードして映像データを取得し、
前記ストリームをデコードして音声データを取得し、
前記ストリームに含まれる音源位置情報及び音源方向情報を取得し、
前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、
前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する、
ことを特徴とする音像制御方法。 - 二次元的に配列された複数のスピーカと映像を表示する表示部とを具備し、入力されるストリームに基づいて映像及び音声を同期させて再生する音像制御装置に用いる音像制御方法であって、
前記ストリームをデコードして映像データを取得し、
前記ストリームをデコードして音声データを取得し、
前記デコードした映像データを解析し、音源位置情報及び音源方向情報を取得し、
前記取得した音源位置情報に基づいて音像を映像内の音源の位置に定位させ、
前記取得した音源方向情報に基づいて前記複数のスピーカから出力される音声の伝播を空間的に制御する、
ことを特徴とする音像制御方法。 - 映像データと、
前記映像データに同期した音声データと、
前記音声データの音源の位置を示す音源位置情報と、
前記音源から発せられる音の方向を示す音源方向情報と、
を具備するストリームのデータ構造。 - 映像データを生成する映像データ生成手段と、
音声データを生成する音声データ生成手段と、
前記映像データ生成手段により生成した映像データを解析し、音源位置情報及び音源方向情報を取得する映像解析手段と、
前記映像データ生成手段により生成した映像データと、前記音声データ生成手段により生成した音声データと、前記映像解析手段により取得した音源位置情報及び音源方向情報とに基づいてストリームを生成するストリーム生成手段と、
を具備することを特徴とするストリーム生成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009046625A JP2010206265A (ja) | 2009-02-27 | 2009-02-27 | 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009046625A JP2010206265A (ja) | 2009-02-27 | 2009-02-27 | 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010206265A true JP2010206265A (ja) | 2010-09-16 |
Family
ID=42967355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009046625A Withdrawn JP2010206265A (ja) | 2009-02-27 | 2009-02-27 | 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010206265A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012039264A (ja) * | 2010-08-04 | 2012-02-23 | Toshiba Corp | 音像定位装置 |
JP2012235426A (ja) * | 2011-05-09 | 2012-11-29 | Nippon Hoso Kyokai <Nhk> | 音響再生装置および音響再生プログラム |
CN106576132A (zh) * | 2014-08-29 | 2017-04-19 | 华为技术有限公司 | 一种声像播放方法及装置 |
WO2018066376A1 (ja) * | 2016-10-05 | 2018-04-12 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2020031453A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020031696A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020213375A1 (ja) * | 2019-04-16 | 2020-10-22 | ソニー株式会社 | 表示装置、制御方法、およびプログラム |
-
2009
- 2009-02-27 JP JP2009046625A patent/JP2010206265A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012039264A (ja) * | 2010-08-04 | 2012-02-23 | Toshiba Corp | 音像定位装置 |
US8611186B2 (en) | 2010-08-04 | 2013-12-17 | Kabushiki Kaisha Toshiba | Sound image localization apparatus |
JP2012235426A (ja) * | 2011-05-09 | 2012-11-29 | Nippon Hoso Kyokai <Nhk> | 音響再生装置および音響再生プログラム |
CN106576132A (zh) * | 2014-08-29 | 2017-04-19 | 华为技术有限公司 | 一种声像播放方法及装置 |
WO2018066376A1 (ja) * | 2016-10-05 | 2018-04-12 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2020031453A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020031696A1 (ja) * | 2018-08-10 | 2020-02-13 | ソニー株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
CN112514406A (zh) * | 2018-08-10 | 2021-03-16 | 索尼公司 | 信息处理装置、信息处理方法和视频声音输出系统 |
JPWO2020031696A1 (ja) * | 2018-08-10 | 2021-08-26 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
US11647334B2 (en) | 2018-08-10 | 2023-05-09 | Sony Group Corporation | Information processing apparatus, information processing method, and video sound output system |
JP7314944B2 (ja) | 2018-08-10 | 2023-07-26 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びに映像音声出力システム |
WO2020213375A1 (ja) * | 2019-04-16 | 2020-10-22 | ソニー株式会社 | 表示装置、制御方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4602204B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
JP5174527B2 (ja) | 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置 | |
JP2010206265A (ja) | 音像制御装置、音像制御方法、ストリームのデータ構造、及びストリーム生成装置 | |
JP2017022714A (ja) | 3dビデオ上に3dグラフィックスをオーバレイするための方法及び装置 | |
KR102156467B1 (ko) | 2 개의 전자 디바이스들에서의 재생들을 동기화하기 위한 방법 및 장치 | |
US20130163952A1 (en) | Video presentation apparatus, video presentation method, video presentation program, and storage medium | |
JP2007027846A (ja) | 動画再生システム及び動画再生方法 | |
JP5499469B2 (ja) | 音声出力装置、映像音声再生装置及び音声出力方法 | |
CN102055941A (zh) | 视频播放器及视频播放方法 | |
US20120128184A1 (en) | Display apparatus and sound control method of the display apparatus | |
JP2006005418A (ja) | 情報受信・再生装置、情報受信・再生方法、情報受信・再生プログラム及びプログラム記録媒体 | |
JP2006211488A (ja) | 映像再生装置 | |
JP2006109241A (ja) | 音声出力装置、映像表示装置 | |
WO2020031453A1 (ja) | 情報処理装置及び情報処理方法、並びに映像音声出力システム | |
JP5071040B2 (ja) | 情報処理装置、情報処理方法、プログラム並びに記録媒体 | |
JP2007306470A (ja) | 映像音声再生装置、及びその音像移動方法 | |
JP2012004991A (ja) | 放送受信装置及びその制御方法 | |
KR20160093404A (ko) | 캐릭터 선택적 오디오 줌인을 제공하는 멀티미디어 콘텐츠 서비스 방법 및 장치 | |
JP4602301B2 (ja) | テレビ受像機 | |
KR102255141B1 (ko) | 수신부가 구비된 빔 프로젝터 | |
KR101559170B1 (ko) | 영상표시장치 및 그 제어방법 | |
JP5058316B2 (ja) | 電子機器、画像処理方法、及び画像処理プログラム | |
JP5166567B2 (ja) | 電子機器、映像データの表示制御方法、およびプログラム | |
KR20100060176A (ko) | 방송 프로그램의 얼굴인식을 통한 이미지 합성 장치 및 방법 | |
JP2008028492A (ja) | 液晶テレビ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110202 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20120924 |