JP2012195904A - 音声制御方法、音声制御装置、avシステムおよびプログラム - Google Patents
音声制御方法、音声制御装置、avシステムおよびプログラム Download PDFInfo
- Publication number
- JP2012195904A JP2012195904A JP2011060188A JP2011060188A JP2012195904A JP 2012195904 A JP2012195904 A JP 2012195904A JP 2011060188 A JP2011060188 A JP 2011060188A JP 2011060188 A JP2011060188 A JP 2011060188A JP 2012195904 A JP2012195904 A JP 2012195904A
- Authority
- JP
- Japan
- Prior art keywords
- scene
- video
- audio
- sound
- audio control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Stereophonic System (AREA)
Abstract
【課題】映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法、音声制御装置、AVシステムおよびプログラムを提供する。
【解決手段】3Dコンテンツの任意の映像シーンの奥行きを推定する奥行き推定部14aと、映像シーンから背景の有無を検出する背景検出部14bと、映像シーンに対応した音声制御を行うシーン対応音声制御部16bと、を備え、シーン対応音声制御部16bは、背景「無」と判定された場合、音声信号に奥行き量に応じた残響音を付加し、背景「有」と判定された場合、残響音を付加しないことを特徴とする。
【選択図】図1
【解決手段】3Dコンテンツの任意の映像シーンの奥行きを推定する奥行き推定部14aと、映像シーンから背景の有無を検出する背景検出部14bと、映像シーンに対応した音声制御を行うシーン対応音声制御部16bと、を備え、シーン対応音声制御部16bは、背景「無」と判定された場合、音声信号に奥行き量に応じた残響音を付加し、背景「有」と判定された場合、残響音を付加しないことを特徴とする。
【選択図】図1
Description
映像に合わせて音声制御を行う音声制御方法、音声制御装置、AVシステムおよびプログラムに関する。
従来、映像に立体感を与えるため、奥行き信号発生装置により発生される奥行き信号の振幅に応じて、ヘッドホン受聴システムに供給する音響信号のレベルや直接音対残響音のエネルギー比等を制御する3次元空間再現システムが提案されている(例えば、特許文献1)。当該特許文献による発明では、この構成により3次元映像の奥行き感に適した音像定位を実現している。
ところが、上記特許文献1による発明では、映像とは別に、当該映像に合わせて生成した奥行き信号を予め用意しておく必要がある。このため、奥行き信号をメタ情報として有しない3D立体映像コンテンツ(「Blu−ray 3D」や「3D立体放送」など)に対しては、映像の奥行き感に応じた音像制御を行うことができないといった問題がある。また、奥行き信号のみによって、直接音対残響音のエネルギー比等を制御する構成となっているため、残響が存在しない屋外の映像シーンにおいても残響に関連した処理が行われる可能性がある。つまり、映像シーンによっては、試聴者に違和感を与えるといった不具合が想定される。
本発明は、上記の問題点に鑑み、映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法、音声制御装置、AVシステムおよびプログラムを提供することを第1の目的とする。また、メタ情報を有しない映像コンテンツに対しても、映像シーンに適した音声制御を行うことを第2の目的とする。
本発明の音声制御方法は、映像に合わせて音声制御を行う音声制御方法であって、映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別工程と、シーン判別工程の判別結果に基づいて、音声制御を行う音声制御工程と、を備えたことを特徴とする。
本発明の音声制御装置は、映像に合わせて音声制御を行う音声制御装置であって、映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別部と、シーン判別部の判別結果に基づいて、音声制御を行う音声制御部と、を備えたことを特徴とする。
これらの構成によれば、映像シーンに特定の風景が含まれるか否かの判別結果に基づいて音声制御を行うため、例えば屋外の映像シーンにおいて残響音(反響音)が付加されるなど、試聴者に違和感を与えるような音声制御を防止できる。
なお、「映像のシーン」とは、コマ単位の映像であっても良いし、時間軸上で設定された再生区間(例えば、5秒ごとに区切られた区間)内の映像であっても良いし、場面の切り替わり(画像解析等によるシーン切り替え以外に、コマーシャル、テロップ、音声信号などによって判別可能な場面切り替えも含む)ごとに設定された再生区間内の映像であっても良い。
また、「映像」は、3次元映像だけでなく、2次元映像であっても良い。
また、「音声制御」とは、音響効果の付加をはじめ、音声合成、音声認識、音声強調など各種音声処理を実現するための制御を指す。
また、音声制御方法の主体は、「人」ではなく、コンピューター、音声制御装置をはじめとする電子機器である。
なお、「映像のシーン」とは、コマ単位の映像であっても良いし、時間軸上で設定された再生区間(例えば、5秒ごとに区切られた区間)内の映像であっても良いし、場面の切り替わり(画像解析等によるシーン切り替え以外に、コマーシャル、テロップ、音声信号などによって判別可能な場面切り替えも含む)ごとに設定された再生区間内の映像であっても良い。
また、「映像」は、3次元映像だけでなく、2次元映像であっても良い。
また、「音声制御」とは、音響効果の付加をはじめ、音声合成、音声認識、音声強調など各種音声処理を実現するための制御を指す。
また、音声制御方法の主体は、「人」ではなく、コンピューター、音声制御装置をはじめとする電子機器である。
上記の音声制御方法において、特定の風景は、無限遠を示す風景であることを特徴とする。
この構成によれば、映像シーンに無限遠を示す風景が含まれるか否かによって、適切な音声制御を行うことができる。
なお、「無限遠を示す風景」とは、海、空、山などの背景、地平線、水平線などの景色、宇宙などの空間の他、際限の無いデザイン(アニメーション)などを指す。また、その判別方法は、画像解析による色や形状の抽出、メタ情報による映像内容の特定、音声解析による映像内容の特定、などが考えられる。
なお、「無限遠を示す風景」とは、海、空、山などの背景、地平線、水平線などの景色、宇宙などの空間の他、際限の無いデザイン(アニメーション)などを指す。また、その判別方法は、画像解析による色や形状の抽出、メタ情報による映像内容の特定、音声解析による映像内容の特定、などが考えられる。
上記の音声制御方法において、音声制御工程は、シーン判別工程の判別結果に基づいて、音響効果の付加制御を行うことを特徴とする。
この構成によれば、映像シーンに適した音響効果を付加することができる。
なお、「音響効果」としては、残響音(反響音)の付加、歪み音やこもり音の軽減、ノイズ除去、音程調整、音量調整など、各種オーディオエフェクトを指す。また、「音響効果」には、ディレイ音の付加やテンポ調整など、DJエフェクターやDJミキサー等で実現可能なサウンドエフェクトやビートエフェクトも含まれる。
なお、「音響効果」としては、残響音(反響音)の付加、歪み音やこもり音の軽減、ノイズ除去、音程調整、音量調整など、各種オーディオエフェクトを指す。また、「音響効果」には、ディレイ音の付加やテンポ調整など、DJエフェクターやDJミキサー等で実現可能なサウンドエフェクトやビートエフェクトも含まれる。
上記の音声制御方法において、音声制御工程は、シーン判別工程により特定の風景が含まれないと判定された場合、所定の音響効果を付加し、シーン判別工程により特定の風景が含まれると判別された場合、所定の音響効果を付加しないことを特徴とする。
上記の音声制御方法において、所定の音響効果は、残響音の付加であることを特徴とする。
これらの構成によれば、特定の風景の有無に応じて、音響効果を付加する/付加しないを制御できる。特に、映像シーンに特定の風景が含まれる場合、所定の音響効果を付加しないようにすることで、例えば屋外シーンにおいて残響音を付加しないなど、試聴者にとって違和感のない(現実性の高い)音声制御を実現できる。
上記の音声制御方法において、シーン判別工程は、映像の画面をN個(但し、NはN≧2となる整数)の分割領域に分割し、当該N個の分割領域の中に略同一の色要素を有する分割領域がM個(但し、Mは1≦M≦Nとなる整数)以上含まれる場合、無限遠を示す風景が含まれると判定することを特徴とする。
この構成によれば、映像画面の画像解析により映像シーンを判別するため、予めその判別結果を示す情報(例えば、奥行き感を示す情報など)を用意しておく必要がない。これにより、メタ情報を有しない映像コンテンツに対しても、映像シーンに適した音声制御を行うことができる。
なお、「色要素」とは、色相、輝度(明度)、彩度などを指す。また、無限遠の判別に用いられる「色要素」としては、例えば、空、海、山などを示す色(色相)が考えられ、その「色要素」が同程度であるか否かによって、略同一の色要素を有するか否かが判別されることが好ましい。
また、「略同一の色要素を有する」とは、同程度の色要素を単に「含む」だけでなく、同程度の色要素を「所定量以上含む」ことを指しても良い。つまり、同程度の色要素の含有量(または含有率)が所定量未満の場合、「略同一の色要素を有しない」と判定しても良い。
なお、「色要素」とは、色相、輝度(明度)、彩度などを指す。また、無限遠の判別に用いられる「色要素」としては、例えば、空、海、山などを示す色(色相)が考えられ、その「色要素」が同程度であるか否かによって、略同一の色要素を有するか否かが判別されることが好ましい。
また、「略同一の色要素を有する」とは、同程度の色要素を単に「含む」だけでなく、同程度の色要素を「所定量以上含む」ことを指しても良い。つまり、同程度の色要素の含有量(または含有率)が所定量未満の場合、「略同一の色要素を有しない」と判定しても良い。
上記の音声制御方法において、シーン判別工程は、略同一の色要素を有する分割領域がM個以上含まれ、且つ当該M個の分割領域のうち少なくとも1個が、映像画面の端に位置する場合に、無限遠を示す風景が含まれると判定することを特徴とする。
この構成によれば、無限遠を示す風景の有無を、より正確に判別することができる。
上記の音声制御方法において、映像は、3次元映像であり、シーン判別工程は、同一のタイミングで表示される右目映像と左目映像の視差に基づいて奥行き情報を生成し、音声制御工程は、シーン判別工程により無限遠を示す風景が含まれないと判別された場合、奥行き情報に基づいて、音響効果の付加量を可変することを特徴とする。
この構成によれば、3次元映像の奥行き感に応じて、適切な音響効果の付加制御を行うことができる。これにより、例えば奥行き感のある室内シーンにおいては、その奥行き量に比例して残響音を大きくするなど、3Dコンテンツの臨場感や実在感を高めることができる。
上記の音声制御方法において、音声制御工程は、奥行き情報に基づいて、音像の定位制御を行うことを特徴とする。
この構成によれば、3次元映像の奥行き感に応じて、適切な音像の定位制御を行うことができる。これにより、奥行き量に応じて音像を前方/後方にずらすなど、3Dコンテンツの臨場感や実在感をより高めることができる。
上記の音声制御方法において、シーン判別工程の判別結果に基づく音声制御を行う連動モードと、シーン判別工程の判別結果に基づく音声制御を行わない非連動モードと、のいずれかのモードを設定するモード設定工程をさらに実行し、音声制御工程は、連動モード設定時のみ機能することを特徴とする。
この構成によれば、使用用途やユーザーの好み等に応じて、映像に応じたよりリアルな音声制御を実現できる連動モードと、試聴者に対する聴覚的な負担が少ない非連動モードと、を使い分けることができる。
上記の音声制御装置において、映像信号および音声信号を含むコンテンツを取得するコンテンツ取得部をさらに備え、シーン判別部は、コンテンツを複数の区間に区切った再生区間ごとの映像信号に基づいて判別を行い、音声制御部は、再生区間ごとの判別結果に基づいて、コンテンツに含まれる同じ再生区間ごとの音声信号に対し音声制御を行うことを特徴とする。
この構成によれば、取得したコンテンツに基づき、再生区間ごと(映像シーンごと)に、映像シーンに適した音声制御を行うことができる。
本発明のAVシステムは上記の音声制御装置と、映像信号を表示する表示装置と、音声制御部により音声制御された音声信号を出力する音声出力装置と、を備えたことを特徴とする。
この構成によれば、表示装置および音声出力装置を有するテレビなどのAVシステム(音声/映像機器)に、本発明を適用できる。
本発明のプログラムは、コンピューターに、上記の音声制御方法における各工程を実行させることを特徴とする。
このプログラムを用いることにより、映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法を実現できる。
以下、本発明の音声制御方法、音声制御装置、AVシステムおよびプログラムについて、添付図面を参照しながら詳細に説明する。本実施形態では、コンテンツ再生装置から再生信号を取得し、これを音声出力装置および表示装置に出力する「AVレシーバー」に、本発明の音声制御方法および音声制御装置を適用した場合について例示する。
図1は、本発明の一実施形態に係る映像視聴システムSYのシステム構成図である。映像視聴システムSYは、本実施形態の主要部を為すAVレシーバー10と、ブルーレイ(登録商標)ディスクD(Blu−ray Disc)を再生するBDプレーヤー20と、複数台のスピーカー30(音声出力装置)と、ディスプレイ40(表示装置)と、を備えている。なお、請求項における「AVシステム」は、これらのうちAVレシーバー10、スピーカー30およびディスプレイ40に相当する。
BDプレーヤー20は、3Dコンテンツ(映像信号および音声信号を含む)が記録されたブルーレイディスクDを再生する。また、その再生信号をHDMI(High-Definition Multimedia Interface)形式で、AVレシーバー10に出力する。なお、3Dコンテンツを記録する記録媒体は、ブルーレイディスクD以外の媒体であっても良く、その種類は問わない。また、インターネットや光通信などを介して3Dコンテンツを取得可能な構成としても良い。さらに、再生信号の出力形式(映像/音声入出力インターフェース)も、HDMI形式以外であっても良い。
AVレシーバー10は、HDMI受信部11(コンテンツ取得部)、映像処理部12、フレームメモリ13、シーン判別部14、モード選択部15、音声処理部16、パワーアンプ部17およびHDMI送信部18を備えている。なお、これらのうち、映像処理部12、フレームメモリ13、シーン判別部14および音声処理部16は、CPU(Central Processing Unit)、RAM(Random Access Memory)およびDSP(Digital Signal Processor)等によって実現される(いずれも図示省略)。
HDMI受信部11は、BDプレーヤー20から再生信号(映像信号および音声信号)を受信し、各信号を映像処理部12および音声処理部16に出力する。映像処理部12は、3D映像を形成する左目映像と右目映像をフレームメモリ13に退避させる。ここでは、フレームメモリ13内に、ペアとなる左目映像と右目映像の合計2枚のフレーム(1コマ分の映像)を格納する。
シーン判別部14は、フレームメモリ13内に格納された1コマ分の映像に基づいて、映像シーンを判別するものであり、奥行き推定部14aおよび背景検出部14bを有している。なお、本実施形態では、所定時間ごとに(例えば、5秒間に1回程度の割合で)シーン判別を行うものとする。
奥行き推定部14aは、立体像の奥行き感を推定し、その推定結果を奥行き情報として生成する。当該奥行き情報には、奥行きの有無や奥行き量を示す情報が含まれる。背景検出部14bは、映像内に含まれる「背景」を検出し、その検出結果(背景の有無)を背景情報として生成する。ここで、「背景」とは、映像画面60をN分割(但し、NはN≧2となる整数)した場合に、略同一の色要素を有する分割領域61の集合体を指す(図3,図4にて詳述する)。なお、背景検出部14bは、フレームメモリ13に格納された左目映像と右目映像の両方に基づいて検出を行っても良いし、いずれか一方に基づいて検出を行っても良い。このように、シーン判別部14は、判別対象となる映像の奥行き量や背景の有無を判別し、生成した奥行き情報および背景情報を音声処理部16に出力する。
モード選択部15は、音声処理部16の処理モードとして、「連動モード」と「非連動モード」のいずれかを選択する。「連動モード」は、シーン判別部14の判別結果に基づく音声制御を行うモードであり、「非連動モード」は、シーン判別部14の判別結果に基づく音声制御を行わないモードである。試聴者は、自分の好みや使用用途に応じて、いずれかの処理モードを選択可能である。なお、モード選択部15は、AVレシーバー10に備えられた操作ボタンやリモートコントローラーによって実現される(いずれも図示省略)。
音声処理部16は、HDMI受信部11から入力された音声信号に対する音声処理を行うものであり、モード設定部16aおよびシーン対応音声制御部16bを有している。モード設定部16aは、モード選択部15の選択結果に応じて、処理モードを設定する。なお、シーン対応音声制御部16bは、モード設定部16aにより「連動モード」に設定された場合のみ機能する。
シーン対応音声制御部16bは、シーン判別部14から入力された奥行き情報および背景情報を制御パラメータとして、音声制御を行う。具体的には、奥行き情報に基づいて音像の定位制御を行う(図2にて後述する)。また、背景情報に基づいて、残響音の付加制御を行う。つまり、背景情報として背景「有」を取得した場合は、屋外シーンである可能性が高いため、残響音を付加しない。一方、背景情報として背景「無」を取得した場合は、屋内シーンである可能性が高いため、残響音を付加する。このように、背景検出の有無に応じて残響音の付加制御を行うことで、映像と音声の整合性がとれるため、試聴者に対して違和感を与えることがない。また、シーン対応音声制御部16bは、残響音を付加する場合、一定量の残響音を付加するのではなく、奥行き量に応じて残響音を付加する。これにより、より臨場感や実在感を高めることができる。
なお、シーン対応音声制御部16bは、シーン判別部14の判別処理に合わせ、所定時間ごとに音声制御の制御内容を可変する。つまり、シーン判別部14による所定時間ごとの判別結果に基づいて、HDMI受信部11から入力された所定時間分の音声信号に対し音声制御を行う。
パワーアンプ部17は、音声処理部16から出力された音声信号を増幅し、スピーカー30に出力する。スピーカー30は、フロントスピーカー30a,30bおよびリアスピーカー30c,30dなど、複数個が用意されている(図2参照)。なお、シーン対応音声制御部16bによる音像の定位制御は、これら複数個のスピーカー30に対する音量レベルを変化させることにより行う。一方、HDMI送信部18は、映像処理部12から出力された映像信号を、ディスプレイ40に対して出力する。
次に、図2を参照し、3D映像の奥行き感に応じた音声制御(音像の定位制御)について説明する。同図に示すように、試聴者の周囲に、4個のスピーカー30(フロント左スピーカー30a、フロント右スピーカー30b、リア左スピーカー30c、リア右スピーカー30d)が配置され、試聴者の正面に、1台のディスプレイ40が配置されているものとする。また、同図において、符号50の点線円は音像(音場)を示している。
一方、図面上部には、フレームメモリ13に格納される2枚の映像(左目映像、右目映像)を示している。これら2枚の映像は、視差があり、この視差に基づいて奥行き量が推定される。つまり、奥行き推定部14aは、左目映像と右目映像から、対応するピクセル同士のX座標の差(左右方向における視差)を求め、当該視差を奥行き量に換算する手法(ステレオマッチングなどの既存の技術)を用いて奥行き量を推定する。
また、各映像に含まれる3つの図形は、それぞれの視差によって、手前に飛び出す立体像、奥に引き込む立体像、飛び出し/引き込みのない像に分けられる。同図において、試聴者からディスプレイ40のディスプレイ面に垂直に伸びる仮想線45上の3つの図形は、試聴者が実感する立体感を示している。すなわち、正三角形の図形に対し、試聴者は奥行き感を感じ、直角三角形の図形に対して、試聴者は飛び出し感を感じることを意味している。
本実施形態のシーン対応音声制御部16bは、上記の奥行き感に応じて、音像を通常定位位置より前方のディスプレイ40側に移動させたり、2つのフロントスピーカー30a,30bから出力される音声信号に残響音を付加する。つまり、奥行き推定部14aによって生成される奥行き情報とは、奥行き感を決める奥行き量であり、同図のL1の長さ(仮想線45上における、ディスプレイ40から正三角形の図形までの距離)に相当する。
ところで、上記のとおり本実施形態では、シーン判別部14内に奥行き推定部14aおよび背景検出部14bを有する構成となっている。図2に示した概念図を見ると、奥行き推定部14aで奥行き量が無限大となることを推定できれば、背景検出部14bは不要であるとも考えられる。映像シーンに無限遠が含まれる場合は、屋外シーンである可能性が高いためである。ところが実際には、奥行き推定部14aで無限遠を推定することはできない。これは、3Dコンテンツの製作時に奥行きの表現に制限が設けられているためである。その理由は、あまり遠く(または近く)のものを立体表現しようとすると左目映像と右目映像の視差が大きくなり眼精疲労につながることが挙げられ、3DC安全ガイドラインなどによって規定されている。
このように、現状の3Dコンテンツは、地平線や水平線など遥か彼方の無限遠について、立体表現されていない。したがって、左目映像と右目映像の視差から、無限遠の奥行き量を推定できず、ひいては背景検出も不可能である。そこで、本実施形態では、従来のステレオマッチングに加え、映像シーンに背景が含まれるか否かを判別する背景検出を行っている。
そこで、図3を参照し、上記の背景検出部14bによる背景検出処理について説明する。ここでは、同図(a)に示すような映像画面60がフレームメモリ13内に格納されているものとする。まず、同図(b)に示すように、当該映像画面60を均等にN分割する。同図の例では、縦方向および横方向を均等に4分割し、合計16個の分割領域61を形成している。これら16個の分割領域61の中から、「空の色成分を多く含む領域」を抽出していく。
なお、「空の色成分を多く含む領域」とは、空の色(例えば、青色)を示す色成分(色相などの色要素)の代表値に近い画素数が、領域内で所定割合以上存在する場合、その分割領域61が「空の色成分を多く含む領域」であると判定する。なお、空の色を示す色成分は、数パターン用意しておくことが好ましい。また、同図の例では、背景=「空」として検出しているが、「空」以外に、「海」、「山」などの背景も考えられるため、「海」、「山」の色を示す色成分もそれぞれ数パターン用意しておくことが好ましい。なお、これらの背景検出に用いる「色成分を示す情報」は、AVレシーバー10内の不揮発性メモリ(図示省略)に予め格納されているものとする。
図3(c)は、「空の色成分を多く含む領域」である分割領域61(図示、網掛け領域)を1個抽出した状態を示している。この領域を、ラベル付け処理によって連結させていくことで、連結領域を抽出していく。同図(d)は、4個の分割領域61から成る連結領域を抽出した状態を示している。同図のように、所定数以上(閾値以上)の分割領域61から成る連結領域が抽出され、且つそのうち少なくとも1個の分割領域61が映像画面60の端に位置する場合、同図(a)に示す映像画面に背景が含まれると判定する(背景検出部14b)。
次に、図4を参照し、ラベル付け処理について説明する。ラベル付け処理とは、画像内に複数のオブジェクトが存在する場合に、対象とする領域を識別するための手法であり、各領域に属性を付加していく処理である。まず、同図(a)に示すように、矢印に示す走査方向に従い、映像画面60内で、ラベルが付加されていない分割領域61(空の色成分を多く含む領域)を見つけ、新規ラベルを付加する(ここでは、ラベル番号「1」)(同図(b))。次に、ラベル付けされた分割領域61の4方向(上下左右方向)に連結している分割領域61(空の色成分を多く含む領域)に対し、同じラベルを付加する(同図(c))。これらの処理を、同じラベルを付加する分割領域61が存在する限り繰返すことで、最終的に連結領域を抽出する(同図(d))。
次に、図5および図6のフローチャートを参照し、背景検出処理の流れについて説明する。まず、図5を参照し、背景検出処理の前半処理である連結領域抽出処理から説明する。AVレシーバー10(背景検出部14b)は、フレームメモリ13に格納されている映像画面60をN分割し(S01)、判定対象となる各分割領域61を示す「n」の値を初期化する(S02)。続いて、分割領域nが、空色であるか否か(空の色成分を多く含む領域であるか否か)を判別する(S03)。ここで、空色であると判定した場合は(S03:Yes)、分割領域nが既にラベル付けされた他の領域と接しているか否かを判別し(S04)、接している場合は(S04:Yes)、分割領域nに既存のラベル番号を設定する(S05)。また、接していない場合は(S04:No)、分割領域nに新規のラベル番号を設定する(S06)。
その後、分割領域nのラベル番号に対応する連結領域の連結数(連結領域を構成する分割領域61の数)を更新し(S07)、「n」の値をインクリメントする(S08)。一方、S03にて、分割領域nが空色ではないと判定した場合は(S03:No)、S04〜S07を省略する。S08の後、「n」が領域分割数「N」以下であるか否かを判別し(S09)、n≦Nの場合は(S09:Yes)、S03に戻る。また、n>Nの場合は(S09:No)、図6に示す背景判定処理に移行する。
図6に示すように、背景判定処理では、ラベル付けされた各連結割領域を示す「r」の値を初期化する(S11)。続いて、ラベルrの連結領域の連結数が閾値以上であるか否かを判別し(S12)、閾値以上である場合は(S12:Yes)、ラベルrの連結領域を構成する分割領域61の少なくとも1つが映像画面60の端に位置するか否かを判別する(S13)。つまり、図3の例では、16個の分割領域61のうち、映像画面60の外郭に接する12個の分割領域61のいずれかに、連結領域を構成する分割領域61の少なくとも1つが該当するか否かを判別する。ここで、分割領域61の少なくとも1つが映像画面60の端に位置すると判定した場合は(S13:Yes)、背景「有」と判定し(S14)、背景検出処理を終了する。
一方、S12で、ラベルrの連結領域の連結数が閾値未満であると判定した場合(S12:No)、並びにS13で、ラベルrの連結領域を構成する分割領域61の全てが映像画面60の端に位置しないと判定した場合(S13:No)、「r」の値をインクリメントする(S15)。その後、「r」が、図5に示した工程で抽出された連結領域の数「L」以下であるか否かを判別し(S16)、r≦Lの場合は(S16:Yes)、S12に戻る。また、r>Lの場合は(S16:No)、背景「無」と判定し(S17)、背景検出処理を終了する。
次に、図7のフローチャートを参照し、シーン対応音声処理の流れについて説明する。AVレシーバー10(シーン対応音声制御部16b)は、モード設定部16aが処理モードを「連動モード」に設定しているか否かを判別し(S21)、「連動モード」に設定している場合は(S21:Yes)、奥行き情報に基づいて奥行きの有無を判別する(S22)。ここで、奥行き「有」(奥行き量>0)と判定した場合は(S22:Yes)、奥行き量に応じて、フロントスピーカー30a,30bおよびリアスピーカー30c,30dの音量レベルを可変する(S23)。つまり、各スピーカー30a〜dに供給する音声信号の音量レベルを調整することによって、音像の定位制御を行う。
続いて、背景情報に基づき、背景の有無を判別する(S24)。ここで、背景「無」(背景検出NG)と判定した場合は(S24:No)、奥行き量に応じて、フロントスピーカー30a,30bの音声信号に残響音を付加する(S25)。つまり、奥行き量に比例して、残響音の付加量(残響の強さおよび/または長さ)を大きく設定する。一方、S21:Noの場合(処理モードが「非連動モード」に設定されている場合)、S22:Noの場合(奥行き量=0の場合)およびS24:Yesの場合(背景検出OKの場合)は、そのまま処理を終了する。なお、特に図示しないが、シーン判別部14により奥行き量や背景の有無が推定できなかった場合は、シーン対応音声制御部16bに対し、奥行き情報や背景情報として「推定失敗」が入力され、前回の有効な奥行き情報を音声制御に反映することとなる。
以上説明したとおり、本実施形態の映像視聴システムSYによれば、映像シーンに背景が含まれるか否かの判別結果に基づいて、残響音を付加する/しないを制御するため、屋外の映像シーンに対して残響音が付加されるなど不自然な音声制御を防止できる。また、3D映像を形成するための右目映像と左目映像の視差に基づいて奥行き情報を生成し、当該奥行き情報に基づいて、音像の定位制御を行ったり、残響音の付加量を可変したりする制御を行うため、3Dコンテンツの臨場感や実在感を高めることができる。
また、映像画面60の画像解析により、映像シーンを判別可能であるため(映像の画面をN個の分割領域61に分割し、当該N個の分割領域61の中に略同一の色要素を有する分割領域61が所定数以上含まれることを条件として背景を検出するため)、予め映像シーンの判別結果を示す情報を用意しておく必要がない。これにより、メタ情報を有しない「Blu−ray 3D」などの映像コンテンツに対しても、映像シーンに適した音声制御を行うことができる。
なお、以下の変形例を採用しても良い。上記の実施形態では、映像シーンにおける背景(空、海、山など)の有無を検出し、その検出結果に応じて残響音を付加する/しないを制御したが、背景以外にも、映像シーンに「無限遠を示す風景」が含まれるか否かを判別しても良い。「無限遠を示す風景」としては、地平線、水平線などの景色、宇宙などの空間の他、際限の無いデザイン(アニメーション)などが考えられる。その他、「無限遠を示す風景」だけでなく、「特定の風景」が含まれるか否かを判別しても良い。例えば、映像シーンに「高原」が含まれる場合は、残響音を付加しないなどが考えられる。また、逆に、映像シーンが「無限遠を示す風景」を含まないことを検出しても良い。例えば、室内の映像では、直線的、幾何学的なオブジェクトが多く含まれることが想定されるため、これらを多く検出した場合は、「無限遠を示す風景」を含まないと判定し、残響音を付加する制御を行っても良い。
また、上記の実施形態では、背景を検出する際に、画像解析(映像画面60をN分割し、ラベル付け処理を行う手法)を用いたが、映像画面60から色や形状を抽出することによって背景を検出しても良い。例えば、青色を示す画素を所定割以上含む映像画面60については、背景「有」と判定するといった方法や、「雲」を認識した場合、背景「有」と判定する方法などが考えられる。また、撮像技法の一つであるパン(Pan)した際の、撮像対象のぶれ量などを検出することによって、背景の有無を判別しても良い。また、取得した映像コンテンツにメタ情報が付加されている場合、当該メタ情報に基づいて背景の有無を判別しても良い。例えば、各映像シーンを特定する情報として「空を羽ばたくシーン」や「場所:海岸」などのメタ情報に基づいて、背景「有」と判定する方法などが考えられる。また、映像シーンに「特定の風景」が含まれるか否かを、音声信号から推定しても良い。例えば、音声解析により、海の音や、やまびこの音を検出した場合、映像シーンに背景が含まれると判定するなどが考えられる。
また、上記の実施形態では、映像シーンに「特定の風景(背景)」が含まれる場合、残響音を付加したが、その他の音響効果を付加しても良い。「音響効果」としては、歪み音やこもり音の軽減、ノイズ除去、音程調整、音量調整など、各種オーディオエフェクトが考えられる。また、ディレイ音の付加やテンポ調整など、DJエフェクターやDJミキサー等で実現可能なサウンドエフェクトおよびビートエフェクトを付加しても良い。また、「音響効果」の一種として、直接音と残響音のエネルギー比や、両耳間における相互相関係数を可変しても良い。
また、上記の実施形態では、所定時間内に1回の割合で映像シーンの判別を行うものとしたが、コマごとに映像シーンの判別を行っても良い。また、Nコマ目、(N+1)コマ目、(N+2)コマ目など、複数のコマ(映像画面)に対する映像シーンの判別結果に基づいて、奥行き情報や背景情報を生成しても良い。例えば、奥行き情報は、奥行き量の平均値、最大値、最小値とする、また背景情報は、複数のコマ内で1コマでも検出できた場合は背景「有」と判定するなどが考えられる。また、画像解析等によるシーン切り替えを判別し、シーン切り替えごとに、映像シーンを判別しても良い。なお、シーン切り替えは、コマーシャル、テロップ、音声信号(音量レベル)などによって判別しても良い。
また、上記の実施形態では、映像シーンから、引き込みの立体像を示す奥行き感が検出された場合に、奥行き「有」と判定したが、飛び出しの立体像を示す飛び出し感が検出された場合にも、奥行き「有」と判定しても良い(図2参照)。つまり、奥行き感、飛び出し感に関係なく、映像シーンから立体像が検出された場合(左目映像と右目映像に視差が生じている場合)、奥行き「有」と判定しても良い。つまり、シーン対応音声制御部16bにより、奥行き感、飛び出し感に関係なく、映像シーンから立体像が検出された場合に、音像の定位制御および残響音の付加制御を行うようにしても良い。
その他、シーン対応音声制御部16bを、奥行き感および飛び出し感に基づいて音像の定位制御を行い、奥行き感のみに基づいて残響音の付加制御を行うようにしても良い。逆に、奥行き感のみに基づいて音像の定位制御を行い、奥行き感および飛び出し感に基づいて残響音の付加制御を行うようにしても良い。
また、上記の実施形態では、フロントスピーカー30a,30bに対してのみ残響音を付加したが、リアスピーカー30c,30dに対しても残響音を付加しても良い。また、奥行き量や背景の有無に応じて、残響音の付加対象となるスピーカー30を可変しても良い。なお、上記の実施形態では、4つのスピーカー30a〜dを備えた映像視聴システムSYを例示したが、その数は任意である。
また、上記の実施形態では、3Dコンテンツを取得した場合について例示したが、2Dコンテンツを取得した場合に本発明を適用しても良い。この場合、奥行き推定部14aは、左目映像および右目映像の視差に基づいて奥行き情報を生成するのではなく、画像解析(画像の濃淡、遠近感など)によって奥行き情報を生成する。また、奥行き情報を生成することなく、単に「特定の風景」が含まれるか否かによって音声制御を行っても良い。当該「音声制御」には、音響効果の付加以外に、音声合成、音声認識、音声強調など各種音声処理が含まれる。
また、上記の実施形態では、奥行き量=0の場合、背景「無」の場合でも残響音の付加制御を行わないものとしたが(図7参照)、何らかの音響効果を付加しても良い。つまり、背景情報(背景の有無)に応じて音響効果の付加制御を行い、さらに奥行き情報(奥行き量)に応じてその音響効果の種類を可変する構成としても良い。また、背景の種類(「特定の風景」の種類、「空」、「海」、「山」など)を検出し、その種類に応じて音響効果の種類を可変する構成としても良い。
また、上記に示したAVレシーバー10の各部をプログラムとして提供することが可能である。また、そのプログラムを各種記録媒体(CD−ROM、フラッシュメモリ等)に格納して提供することも可能である。すなわち、コンピューターをAVレシーバー10の各部として機能させるためのプログラム、およびそれを記録した記録媒体も、本発明の権利範囲に含まれるものである。
また、上記の実施形態では、本発明の音声制御方法および音声制御装置をAVレシーバー10に適用した場合を例示したが、ブルーレイ(登録商標)ディスクプレーヤーやデジタル放送チューナーに適用しても良い。すなわち、上記の実施形態に示したAVレシーバー10の各部のうち、パワーアンプ部17以外を、ブルーレイディスクプレーヤーやデジタル放送チューナーにて実現しても良い。また、上記の実施形態に示したAVレシーバー10の各部を、テレビやプロジェクターにて実現しても良い。この場合、テレビやプロジェクターが、本発明のAVシステムに相当する。
また、上記に示した変形例を採用するか否か(変形例が複数存在する場合は、どの変形例を採用するか)、各変形例を採用した場合の設定値等について、ユーザーの好みに応じて設定変更可能としても良い。その他、本発明の要旨を逸脱しない範囲で、適宜変更が可能である。
10…AVレシーバー 14…シーン判別部 14a…奥行き推定部 14b…背景検出部 16…音声処理部 16a…モード設定部 16b…シーン対応音声制御部 20…BDプレーヤー 30…スピーカー 40…ディスプレイ 60…映像画面 61…分割領域 D…ブルーレイディスク SY…映像視聴システム
Claims (14)
- 映像に合わせて音声制御を行う音声制御方法であって、
前記映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別工程と、
前記シーン判別工程の判別結果に基づいて、音声制御を行う音声制御工程と、を備えたことを特徴とする音声制御方法。 - 前記特定の風景は、無限遠を示す風景であることを特徴とする請求項1に記載の音声制御方法。
- 前記音声制御工程は、前記シーン判別工程の判別結果に基づいて、音響効果の付加制御を行うことを特徴とする請求項2に記載の音声制御方法。
- 前記音声制御工程は、前記シーン判別工程により前記特定の風景が含まれないと判定された場合、所定の音響効果を付加し、前記シーン判別工程により前記特定の風景が含まれると判別された場合、前記所定の音響効果を付加しないことを特徴とする請求項3に記載の音声制御方法。
- 前記所定の音響効果は、残響音の付加であることを特徴とする請求項4に記載の音声制御方法。
- 前記シーン判別工程は、前記映像の画面をN個(但し、NはN≧2となる整数)の分割領域に分割し、当該N個の分割領域の中に略同一の色要素を有する分割領域がM個(但し、Mは1≦M≦Nとなる整数)以上含まれる場合、前記無限遠を示す風景が含まれると判定することを特徴とする請求項2に記載の音声制御方法。
- 前記シーン判別工程は、略同一の色要素を有する分割領域がM個以上含まれ、且つ当該M個の分割領域のうち少なくとも1個が、前記映像画面の端に位置する場合に、前記無限遠を示す風景が含まれると判定することを特徴とする請求項6に記載の音声制御方法。
- 前記映像は、3次元映像であり、
前記シーン判別工程は、同一のタイミングで表示される右目映像と左目映像の視差に基づいて奥行き情報を生成し、
前記音声制御工程は、前記シーン判別工程により前記無限遠を示す風景が含まれないと判別された場合、前記奥行き情報に基づいて、前記音響効果の付加量を可変することを特徴とする請求項4に記載の音声制御方法。 - 前記音声制御工程は、前記奥行き情報に基づいて、音像の定位制御を行うことを特徴とする請求項8に記載の音声制御方法。
- 前記シーン判別工程の判別結果に基づく音声制御を行う連動モードと、前記シーン判別工程の判別結果に基づく音声制御を行わない非連動モードと、のいずれかのモードを設定するモード設定工程をさらに実行し、
前記音声制御工程は、前記連動モード設定時のみ機能することを特徴とする請求項1に記載の音声制御方法。 - 映像に合わせて音声制御を行う音声制御装置であって、
前記映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別部と、
前記シーン判別部の判別結果に基づいて、音声制御を行う音声制御部と、を備えたことを特徴とする音声制御装置。 - 映像信号および音声信号を含むコンテンツを取得するコンテンツ取得部をさらに備え、
前記シーン判別部は、前記コンテンツを複数の区間に区切った再生区間ごとの前記映像信号に基づいて判別を行い、
前記音声制御部は、前記再生区間ごとの判別結果に基づいて、前記コンテンツに含まれる同じ再生区間ごとの前記音声信号に対し音声制御を行うことを特徴とする請求項11に記載の音声制御装置。 - 請求項11または12に記載の音声制御装置と、
前記映像信号を表示する表示装置と、
前記音声制御部により音声制御された音声信号を出力する音声出力装置と、を備えたことを特徴とするAVシステム。 - コンピューターに、請求項1ないし10のいずれか1項に記載の音声制御方法における各工程を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011060188A JP2012195904A (ja) | 2011-03-18 | 2011-03-18 | 音声制御方法、音声制御装置、avシステムおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011060188A JP2012195904A (ja) | 2011-03-18 | 2011-03-18 | 音声制御方法、音声制御装置、avシステムおよびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012195904A true JP2012195904A (ja) | 2012-10-11 |
Family
ID=47087381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011060188A Withdrawn JP2012195904A (ja) | 2011-03-18 | 2011-03-18 | 音声制御方法、音声制御装置、avシステムおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012195904A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015060181A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015061277A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2020144574A (ja) * | 2019-03-06 | 2020-09-10 | Kddi株式会社 | 画像に応じて音オブジェクトを混合するプログラム、装置及び方法 |
-
2011
- 2011-03-18 JP JP2011060188A patent/JP2012195904A/ja not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015060181A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015061277A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2020144574A (ja) * | 2019-03-06 | 2020-09-10 | Kddi株式会社 | 画像に応じて音オブジェクトを混合するプログラム、装置及び方法 |
JP7116424B2 (ja) | 2019-03-06 | 2022-08-10 | Kddi株式会社 | 画像に応じて音オブジェクトを混合するプログラム、装置及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2735652C2 (ru) | Обработка пространственного аудио | |
CN113490132B (zh) | 音频再现方法和声音再现系统 | |
JP5944840B2 (ja) | 立体音響の再生方法及びその装置 | |
JP5197525B2 (ja) | 立体映像・立体音響記録再生装置・システム及び方法 | |
MX2010010195A (es) | Aparato de visualizacion que tiene indicacion de coordenada de sonido 3d orientada por objeto. | |
EP3844606B1 (en) | Audio apparatus and method of audio processing | |
KR20110005205A (ko) | 디스플레이 장치의 화면 사이즈를 이용한 신호 처리 방법 및 장치 | |
JP2011078036A (ja) | 擬似立体画像作成装置及び擬似立体画像表示システム | |
KR20100094375A (ko) | 영상 처리 방법 및 장치 | |
US9100633B2 (en) | Electronic device generating stereo sound synchronized with stereographic moving picture | |
EP3850470B1 (en) | Apparatus and method for processing audiovisual data | |
JP2012195904A (ja) | 音声制御方法、音声制御装置、avシステムおよびプログラム | |
JP2011234177A (ja) | 立体音響再生装置及び再生方法 | |
JP5447220B2 (ja) | 音響再生装置および音響再生方法 | |
JP2011234139A (ja) | 3次元音声信号生成装置 | |
KR101896570B1 (ko) | 입체 동영상에 동기화된 입체 음향을 생성할 수 있는 전자 기기 | |
JP2014022867A (ja) | 画像処理装置および方法、並びにプログラム | |
KR20100036683A (ko) | 영상 출력 방법 및 장치 | |
JP2011223543A (ja) | 擬似立体画像信号生成装置、擬似立体画像信号生成方法および情報多重化装置 | |
RU2805260C2 (ru) | Устройство и способ обработки аудиовизуальных данных | |
JP2012213070A (ja) | 映像信号生成装置、映像信号生成方法及び制御プログラム | |
JP7406166B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
WO2023199813A1 (ja) | 音響処理方法、プログラム、及び音響処理システム | |
JP2012160984A (ja) | 立体音響再生装置および立体音響再生方法 | |
JP2012060349A (ja) | 立体映像表示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130510 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20130510 |
|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |