JP2012195904A

JP2012195904A - 音声制御方法、音声制御装置、ａｖシステムおよびプログラム

Info

Publication number: JP2012195904A
Application number: JP2011060188A
Authority: JP
Inventors: Naotaka Fukushima; 尚高福島
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2012-10-11

Abstract

【課題】映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法、音声制御装置、ＡＶシステムおよびプログラムを提供する。
【解決手段】３Ｄコンテンツの任意の映像シーンの奥行きを推定する奥行き推定部１４ａと、映像シーンから背景の有無を検出する背景検出部１４ｂと、映像シーンに対応した音声制御を行うシーン対応音声制御部１６ｂと、を備え、シーン対応音声制御部１６ｂは、背景「無」と判定された場合、音声信号に奥行き量に応じた残響音を付加し、背景「有」と判定された場合、残響音を付加しないことを特徴とする。
【選択図】図１

Description

映像に合わせて音声制御を行う音声制御方法、音声制御装置、ＡＶシステムおよびプログラムに関する。

従来、映像に立体感を与えるため、奥行き信号発生装置により発生される奥行き信号の振幅に応じて、ヘッドホン受聴システムに供給する音響信号のレベルや直接音対残響音のエネルギー比等を制御する３次元空間再現システムが提案されている（例えば、特許文献１）。当該特許文献による発明では、この構成により３次元映像の奥行き感に適した音像定位を実現している。

特開平６−１０５４００号公報

ところが、上記特許文献１による発明では、映像とは別に、当該映像に合わせて生成した奥行き信号を予め用意しておく必要がある。このため、奥行き信号をメタ情報として有しない３Ｄ立体映像コンテンツ（「Ｂｌｕ−ｒａｙ３Ｄ」や「３Ｄ立体放送」など）に対しては、映像の奥行き感に応じた音像制御を行うことができないといった問題がある。また、奥行き信号のみによって、直接音対残響音のエネルギー比等を制御する構成となっているため、残響が存在しない屋外の映像シーンにおいても残響に関連した処理が行われる可能性がある。つまり、映像シーンによっては、試聴者に違和感を与えるといった不具合が想定される。

本発明は、上記の問題点に鑑み、映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法、音声制御装置、ＡＶシステムおよびプログラムを提供することを第１の目的とする。また、メタ情報を有しない映像コンテンツに対しても、映像シーンに適した音声制御を行うことを第２の目的とする。

本発明の音声制御方法は、映像に合わせて音声制御を行う音声制御方法であって、映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別工程と、シーン判別工程の判別結果に基づいて、音声制御を行う音声制御工程と、を備えたことを特徴とする。

本発明の音声制御装置は、映像に合わせて音声制御を行う音声制御装置であって、映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別部と、シーン判別部の判別結果に基づいて、音声制御を行う音声制御部と、を備えたことを特徴とする。

これらの構成によれば、映像シーンに特定の風景が含まれるか否かの判別結果に基づいて音声制御を行うため、例えば屋外の映像シーンにおいて残響音（反響音）が付加されるなど、試聴者に違和感を与えるような音声制御を防止できる。
なお、「映像のシーン」とは、コマ単位の映像であっても良いし、時間軸上で設定された再生区間（例えば、５秒ごとに区切られた区間）内の映像であっても良いし、場面の切り替わり（画像解析等によるシーン切り替え以外に、コマーシャル、テロップ、音声信号などによって判別可能な場面切り替えも含む）ごとに設定された再生区間内の映像であっても良い。
また、「映像」は、３次元映像だけでなく、２次元映像であっても良い。
また、「音声制御」とは、音響効果の付加をはじめ、音声合成、音声認識、音声強調など各種音声処理を実現するための制御を指す。
また、音声制御方法の主体は、「人」ではなく、コンピューター、音声制御装置をはじめとする電子機器である。

上記の音声制御方法において、特定の風景は、無限遠を示す風景であることを特徴とする。

この構成によれば、映像シーンに無限遠を示す風景が含まれるか否かによって、適切な音声制御を行うことができる。
なお、「無限遠を示す風景」とは、海、空、山などの背景、地平線、水平線などの景色、宇宙などの空間の他、際限の無いデザイン（アニメーション）などを指す。また、その判別方法は、画像解析による色や形状の抽出、メタ情報による映像内容の特定、音声解析による映像内容の特定、などが考えられる。

上記の音声制御方法において、音声制御工程は、シーン判別工程の判別結果に基づいて、音響効果の付加制御を行うことを特徴とする。

この構成によれば、映像シーンに適した音響効果を付加することができる。
なお、「音響効果」としては、残響音（反響音）の付加、歪み音やこもり音の軽減、ノイズ除去、音程調整、音量調整など、各種オーディオエフェクトを指す。また、「音響効果」には、ディレイ音の付加やテンポ調整など、ＤＪエフェクターやＤＪミキサー等で実現可能なサウンドエフェクトやビートエフェクトも含まれる。

上記の音声制御方法において、音声制御工程は、シーン判別工程により特定の風景が含まれないと判定された場合、所定の音響効果を付加し、シーン判別工程により特定の風景が含まれると判別された場合、所定の音響効果を付加しないことを特徴とする。

上記の音声制御方法において、所定の音響効果は、残響音の付加であることを特徴とする。

これらの構成によれば、特定の風景の有無に応じて、音響効果を付加する／付加しないを制御できる。特に、映像シーンに特定の風景が含まれる場合、所定の音響効果を付加しないようにすることで、例えば屋外シーンにおいて残響音を付加しないなど、試聴者にとって違和感のない（現実性の高い）音声制御を実現できる。

上記の音声制御方法において、シーン判別工程は、映像の画面をＮ個（但し、ＮはＮ≧２となる整数）の分割領域に分割し、当該Ｎ個の分割領域の中に略同一の色要素を有する分割領域がＭ個（但し、Ｍは１≦Ｍ≦Ｎとなる整数）以上含まれる場合、無限遠を示す風景が含まれると判定することを特徴とする。

この構成によれば、映像画面の画像解析により映像シーンを判別するため、予めその判別結果を示す情報（例えば、奥行き感を示す情報など）を用意しておく必要がない。これにより、メタ情報を有しない映像コンテンツに対しても、映像シーンに適した音声制御を行うことができる。
なお、「色要素」とは、色相、輝度（明度）、彩度などを指す。また、無限遠の判別に用いられる「色要素」としては、例えば、空、海、山などを示す色（色相）が考えられ、その「色要素」が同程度であるか否かによって、略同一の色要素を有するか否かが判別されることが好ましい。
また、「略同一の色要素を有する」とは、同程度の色要素を単に「含む」だけでなく、同程度の色要素を「所定量以上含む」ことを指しても良い。つまり、同程度の色要素の含有量（または含有率）が所定量未満の場合、「略同一の色要素を有しない」と判定しても良い。

上記の音声制御方法において、シーン判別工程は、略同一の色要素を有する分割領域がＭ個以上含まれ、且つ当該Ｍ個の分割領域のうち少なくとも１個が、映像画面の端に位置する場合に、無限遠を示す風景が含まれると判定することを特徴とする。

この構成によれば、無限遠を示す風景の有無を、より正確に判別することができる。

上記の音声制御方法において、映像は、３次元映像であり、シーン判別工程は、同一のタイミングで表示される右目映像と左目映像の視差に基づいて奥行き情報を生成し、音声制御工程は、シーン判別工程により無限遠を示す風景が含まれないと判別された場合、奥行き情報に基づいて、音響効果の付加量を可変することを特徴とする。

この構成によれば、３次元映像の奥行き感に応じて、適切な音響効果の付加制御を行うことができる。これにより、例えば奥行き感のある室内シーンにおいては、その奥行き量に比例して残響音を大きくするなど、３Ｄコンテンツの臨場感や実在感を高めることができる。

上記の音声制御方法において、音声制御工程は、奥行き情報に基づいて、音像の定位制御を行うことを特徴とする。

この構成によれば、３次元映像の奥行き感に応じて、適切な音像の定位制御を行うことができる。これにより、奥行き量に応じて音像を前方／後方にずらすなど、３Ｄコンテンツの臨場感や実在感をより高めることができる。

上記の音声制御方法において、シーン判別工程の判別結果に基づく音声制御を行う連動モードと、シーン判別工程の判別結果に基づく音声制御を行わない非連動モードと、のいずれかのモードを設定するモード設定工程をさらに実行し、音声制御工程は、連動モード設定時のみ機能することを特徴とする。

この構成によれば、使用用途やユーザーの好み等に応じて、映像に応じたよりリアルな音声制御を実現できる連動モードと、試聴者に対する聴覚的な負担が少ない非連動モードと、を使い分けることができる。

上記の音声制御装置において、映像信号および音声信号を含むコンテンツを取得するコンテンツ取得部をさらに備え、シーン判別部は、コンテンツを複数の区間に区切った再生区間ごとの映像信号に基づいて判別を行い、音声制御部は、再生区間ごとの判別結果に基づいて、コンテンツに含まれる同じ再生区間ごとの音声信号に対し音声制御を行うことを特徴とする。

この構成によれば、取得したコンテンツに基づき、再生区間ごと（映像シーンごと）に、映像シーンに適した音声制御を行うことができる。

本発明のＡＶシステムは上記の音声制御装置と、映像信号を表示する表示装置と、音声制御部により音声制御された音声信号を出力する音声出力装置と、を備えたことを特徴とする。

この構成によれば、表示装置および音声出力装置を有するテレビなどのＡＶシステム（音声／映像機器）に、本発明を適用できる。

本発明のプログラムは、コンピューターに、上記の音声制御方法における各工程を実行させることを特徴とする。

このプログラムを用いることにより、映像に合わせて音声制御を行う際に、試聴者に違和感を与えない音声制御方法を実現できる。

本発明の一実施形態に係る映像視聴システムのシステム構成図である。３Ｄ映像の奥行き感に応じた音声制御の概念図である。背景検出処理の概要を示す説明図である。ラベル付け処理を示す説明図である。背景検出処理の一部（連結領域抽出処理）を示すフローチャートである。背景検出処理の一部（背景判定処理）を示すフローチャートである。シーン対応音声処理を示すフローチャートである。

以下、本発明の音声制御方法、音声制御装置、ＡＶシステムおよびプログラムについて、添付図面を参照しながら詳細に説明する。本実施形態では、コンテンツ再生装置から再生信号を取得し、これを音声出力装置および表示装置に出力する「ＡＶレシーバー」に、本発明の音声制御方法および音声制御装置を適用した場合について例示する。

図１は、本発明の一実施形態に係る映像視聴システムＳＹのシステム構成図である。映像視聴システムＳＹは、本実施形態の主要部を為すＡＶレシーバー１０と、ブルーレイ（登録商標）ディスクＤ（Blu−ray Disc）を再生するＢＤプレーヤー２０と、複数台のスピーカー３０（音声出力装置）と、ディスプレイ４０（表示装置）と、を備えている。なお、請求項における「ＡＶシステム」は、これらのうちＡＶレシーバー１０、スピーカー３０およびディスプレイ４０に相当する。

ＢＤプレーヤー２０は、３Ｄコンテンツ（映像信号および音声信号を含む）が記録されたブルーレイディスクＤを再生する。また、その再生信号をＨＤＭＩ（High-Definition Multimedia Interface）形式で、ＡＶレシーバー１０に出力する。なお、３Ｄコンテンツを記録する記録媒体は、ブルーレイディスクＤ以外の媒体であっても良く、その種類は問わない。また、インターネットや光通信などを介して３Ｄコンテンツを取得可能な構成としても良い。さらに、再生信号の出力形式（映像／音声入出力インターフェース）も、ＨＤＭＩ形式以外であっても良い。

ＡＶレシーバー１０は、ＨＤＭＩ受信部１１（コンテンツ取得部）、映像処理部１２、フレームメモリ１３、シーン判別部１４、モード選択部１５、音声処理部１６、パワーアンプ部１７およびＨＤＭＩ送信部１８を備えている。なお、これらのうち、映像処理部１２、フレームメモリ１３、シーン判別部１４および音声処理部１６は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）およびＤＳＰ（Digital Signal Processor）等によって実現される（いずれも図示省略）。

ＨＤＭＩ受信部１１は、ＢＤプレーヤー２０から再生信号（映像信号および音声信号）を受信し、各信号を映像処理部１２および音声処理部１６に出力する。映像処理部１２は、３Ｄ映像を形成する左目映像と右目映像をフレームメモリ１３に退避させる。ここでは、フレームメモリ１３内に、ペアとなる左目映像と右目映像の合計２枚のフレーム（１コマ分の映像）を格納する。

シーン判別部１４は、フレームメモリ１３内に格納された１コマ分の映像に基づいて、映像シーンを判別するものであり、奥行き推定部１４ａおよび背景検出部１４ｂを有している。なお、本実施形態では、所定時間ごとに（例えば、５秒間に１回程度の割合で）シーン判別を行うものとする。

奥行き推定部１４ａは、立体像の奥行き感を推定し、その推定結果を奥行き情報として生成する。当該奥行き情報には、奥行きの有無や奥行き量を示す情報が含まれる。背景検出部１４ｂは、映像内に含まれる「背景」を検出し、その検出結果（背景の有無）を背景情報として生成する。ここで、「背景」とは、映像画面６０をＮ分割（但し、ＮはＮ≧２となる整数）した場合に、略同一の色要素を有する分割領域６１の集合体を指す（図３，図４にて詳述する）。なお、背景検出部１４ｂは、フレームメモリ１３に格納された左目映像と右目映像の両方に基づいて検出を行っても良いし、いずれか一方に基づいて検出を行っても良い。このように、シーン判別部１４は、判別対象となる映像の奥行き量や背景の有無を判別し、生成した奥行き情報および背景情報を音声処理部１６に出力する。

モード選択部１５は、音声処理部１６の処理モードとして、「連動モード」と「非連動モード」のいずれかを選択する。「連動モード」は、シーン判別部１４の判別結果に基づく音声制御を行うモードであり、「非連動モード」は、シーン判別部１４の判別結果に基づく音声制御を行わないモードである。試聴者は、自分の好みや使用用途に応じて、いずれかの処理モードを選択可能である。なお、モード選択部１５は、ＡＶレシーバー１０に備えられた操作ボタンやリモートコントローラーによって実現される（いずれも図示省略）。

音声処理部１６は、ＨＤＭＩ受信部１１から入力された音声信号に対する音声処理を行うものであり、モード設定部１６ａおよびシーン対応音声制御部１６ｂを有している。モード設定部１６ａは、モード選択部１５の選択結果に応じて、処理モードを設定する。なお、シーン対応音声制御部１６ｂは、モード設定部１６ａにより「連動モード」に設定された場合のみ機能する。

シーン対応音声制御部１６ｂは、シーン判別部１４から入力された奥行き情報および背景情報を制御パラメータとして、音声制御を行う。具体的には、奥行き情報に基づいて音像の定位制御を行う（図２にて後述する）。また、背景情報に基づいて、残響音の付加制御を行う。つまり、背景情報として背景「有」を取得した場合は、屋外シーンである可能性が高いため、残響音を付加しない。一方、背景情報として背景「無」を取得した場合は、屋内シーンである可能性が高いため、残響音を付加する。このように、背景検出の有無に応じて残響音の付加制御を行うことで、映像と音声の整合性がとれるため、試聴者に対して違和感を与えることがない。また、シーン対応音声制御部１６ｂは、残響音を付加する場合、一定量の残響音を付加するのではなく、奥行き量に応じて残響音を付加する。これにより、より臨場感や実在感を高めることができる。

なお、シーン対応音声制御部１６ｂは、シーン判別部１４の判別処理に合わせ、所定時間ごとに音声制御の制御内容を可変する。つまり、シーン判別部１４による所定時間ごとの判別結果に基づいて、ＨＤＭＩ受信部１１から入力された所定時間分の音声信号に対し音声制御を行う。

パワーアンプ部１７は、音声処理部１６から出力された音声信号を増幅し、スピーカー３０に出力する。スピーカー３０は、フロントスピーカー３０ａ，３０ｂおよびリアスピーカー３０ｃ，３０ｄなど、複数個が用意されている（図２参照）。なお、シーン対応音声制御部１６ｂによる音像の定位制御は、これら複数個のスピーカー３０に対する音量レベルを変化させることにより行う。一方、ＨＤＭＩ送信部１８は、映像処理部１２から出力された映像信号を、ディスプレイ４０に対して出力する。

次に、図２を参照し、３Ｄ映像の奥行き感に応じた音声制御（音像の定位制御）について説明する。同図に示すように、試聴者の周囲に、４個のスピーカー３０（フロント左スピーカー３０ａ、フロント右スピーカー３０ｂ、リア左スピーカー３０ｃ、リア右スピーカー３０ｄ）が配置され、試聴者の正面に、１台のディスプレイ４０が配置されているものとする。また、同図において、符号５０の点線円は音像（音場）を示している。

一方、図面上部には、フレームメモリ１３に格納される２枚の映像（左目映像、右目映像）を示している。これら２枚の映像は、視差があり、この視差に基づいて奥行き量が推定される。つまり、奥行き推定部１４ａは、左目映像と右目映像から、対応するピクセル同士のＸ座標の差（左右方向における視差）を求め、当該視差を奥行き量に換算する手法（ステレオマッチングなどの既存の技術）を用いて奥行き量を推定する。

また、各映像に含まれる３つの図形は、それぞれの視差によって、手前に飛び出す立体像、奥に引き込む立体像、飛び出し／引き込みのない像に分けられる。同図において、試聴者からディスプレイ４０のディスプレイ面に垂直に伸びる仮想線４５上の３つの図形は、試聴者が実感する立体感を示している。すなわち、正三角形の図形に対し、試聴者は奥行き感を感じ、直角三角形の図形に対して、試聴者は飛び出し感を感じることを意味している。

本実施形態のシーン対応音声制御部１６ｂは、上記の奥行き感に応じて、音像を通常定位位置より前方のディスプレイ４０側に移動させたり、２つのフロントスピーカー３０ａ，３０ｂから出力される音声信号に残響音を付加する。つまり、奥行き推定部１４ａによって生成される奥行き情報とは、奥行き感を決める奥行き量であり、同図のＬ１の長さ（仮想線４５上における、ディスプレイ４０から正三角形の図形までの距離）に相当する。

ところで、上記のとおり本実施形態では、シーン判別部１４内に奥行き推定部１４ａおよび背景検出部１４ｂを有する構成となっている。図２に示した概念図を見ると、奥行き推定部１４ａで奥行き量が無限大となることを推定できれば、背景検出部１４ｂは不要であるとも考えられる。映像シーンに無限遠が含まれる場合は、屋外シーンである可能性が高いためである。ところが実際には、奥行き推定部１４ａで無限遠を推定することはできない。これは、３Ｄコンテンツの製作時に奥行きの表現に制限が設けられているためである。その理由は、あまり遠く（または近く）のものを立体表現しようとすると左目映像と右目映像の視差が大きくなり眼精疲労につながることが挙げられ、３ＤＣ安全ガイドラインなどによって規定されている。

このように、現状の３Ｄコンテンツは、地平線や水平線など遥か彼方の無限遠について、立体表現されていない。したがって、左目映像と右目映像の視差から、無限遠の奥行き量を推定できず、ひいては背景検出も不可能である。そこで、本実施形態では、従来のステレオマッチングに加え、映像シーンに背景が含まれるか否かを判別する背景検出を行っている。

そこで、図３を参照し、上記の背景検出部１４ｂによる背景検出処理について説明する。ここでは、同図（ａ）に示すような映像画面６０がフレームメモリ１３内に格納されているものとする。まず、同図（ｂ）に示すように、当該映像画面６０を均等にＮ分割する。同図の例では、縦方向および横方向を均等に４分割し、合計１６個の分割領域６１を形成している。これら１６個の分割領域６１の中から、「空の色成分を多く含む領域」を抽出していく。

なお、「空の色成分を多く含む領域」とは、空の色（例えば、青色）を示す色成分（色相などの色要素）の代表値に近い画素数が、領域内で所定割合以上存在する場合、その分割領域６１が「空の色成分を多く含む領域」であると判定する。なお、空の色を示す色成分は、数パターン用意しておくことが好ましい。また、同図の例では、背景＝「空」として検出しているが、「空」以外に、「海」、「山」などの背景も考えられるため、「海」、「山」の色を示す色成分もそれぞれ数パターン用意しておくことが好ましい。なお、これらの背景検出に用いる「色成分を示す情報」は、ＡＶレシーバー１０内の不揮発性メモリ（図示省略）に予め格納されているものとする。

図３（ｃ）は、「空の色成分を多く含む領域」である分割領域６１（図示、網掛け領域）を１個抽出した状態を示している。この領域を、ラベル付け処理によって連結させていくことで、連結領域を抽出していく。同図（ｄ）は、４個の分割領域６１から成る連結領域を抽出した状態を示している。同図のように、所定数以上（閾値以上）の分割領域６１から成る連結領域が抽出され、且つそのうち少なくとも１個の分割領域６１が映像画面６０の端に位置する場合、同図（ａ）に示す映像画面に背景が含まれると判定する（背景検出部１４ｂ）。

次に、図４を参照し、ラベル付け処理について説明する。ラベル付け処理とは、画像内に複数のオブジェクトが存在する場合に、対象とする領域を識別するための手法であり、各領域に属性を付加していく処理である。まず、同図（ａ）に示すように、矢印に示す走査方向に従い、映像画面６０内で、ラベルが付加されていない分割領域６１（空の色成分を多く含む領域）を見つけ、新規ラベルを付加する（ここでは、ラベル番号「１」）（同図（ｂ））。次に、ラベル付けされた分割領域６１の４方向（上下左右方向）に連結している分割領域６１（空の色成分を多く含む領域）に対し、同じラベルを付加する（同図（ｃ））。これらの処理を、同じラベルを付加する分割領域６１が存在する限り繰返すことで、最終的に連結領域を抽出する（同図（ｄ））。

次に、図５および図６のフローチャートを参照し、背景検出処理の流れについて説明する。まず、図５を参照し、背景検出処理の前半処理である連結領域抽出処理から説明する。ＡＶレシーバー１０（背景検出部１４ｂ）は、フレームメモリ１３に格納されている映像画面６０をＮ分割し（Ｓ０１）、判定対象となる各分割領域６１を示す「ｎ」の値を初期化する（Ｓ０２）。続いて、分割領域ｎが、空色であるか否か（空の色成分を多く含む領域であるか否か）を判別する（Ｓ０３）。ここで、空色であると判定した場合は（Ｓ０３：Ｙｅｓ）、分割領域ｎが既にラベル付けされた他の領域と接しているか否かを判別し（Ｓ０４）、接している場合は（Ｓ０４：Ｙｅｓ）、分割領域ｎに既存のラベル番号を設定する（Ｓ０５）。また、接していない場合は（Ｓ０４：Ｎｏ）、分割領域ｎに新規のラベル番号を設定する（Ｓ０６）。

その後、分割領域ｎのラベル番号に対応する連結領域の連結数（連結領域を構成する分割領域６１の数）を更新し（Ｓ０７）、「ｎ」の値をインクリメントする（Ｓ０８）。一方、Ｓ０３にて、分割領域ｎが空色ではないと判定した場合は（Ｓ０３：Ｎｏ）、Ｓ０４〜Ｓ０７を省略する。Ｓ０８の後、「ｎ」が領域分割数「Ｎ」以下であるか否かを判別し（Ｓ０９）、ｎ≦Ｎの場合は（Ｓ０９：Ｙｅｓ）、Ｓ０３に戻る。また、ｎ＞Ｎの場合は（Ｓ０９：Ｎｏ）、図６に示す背景判定処理に移行する。

図６に示すように、背景判定処理では、ラベル付けされた各連結割領域を示す「ｒ」の値を初期化する（Ｓ１１）。続いて、ラベルｒの連結領域の連結数が閾値以上であるか否かを判別し（Ｓ１２）、閾値以上である場合は（Ｓ１２：Ｙｅｓ）、ラベルｒの連結領域を構成する分割領域６１の少なくとも１つが映像画面６０の端に位置するか否かを判別する（Ｓ１３）。つまり、図３の例では、１６個の分割領域６１のうち、映像画面６０の外郭に接する１２個の分割領域６１のいずれかに、連結領域を構成する分割領域６１の少なくとも１つが該当するか否かを判別する。ここで、分割領域６１の少なくとも１つが映像画面６０の端に位置すると判定した場合は（Ｓ１３：Ｙｅｓ）、背景「有」と判定し（Ｓ１４）、背景検出処理を終了する。

一方、Ｓ１２で、ラベルｒの連結領域の連結数が閾値未満であると判定した場合（Ｓ１２：Ｎｏ）、並びにＳ１３で、ラベルｒの連結領域を構成する分割領域６１の全てが映像画面６０の端に位置しないと判定した場合（Ｓ１３：Ｎｏ）、「ｒ」の値をインクリメントする（Ｓ１５）。その後、「ｒ」が、図５に示した工程で抽出された連結領域の数「Ｌ」以下であるか否かを判別し（Ｓ１６）、ｒ≦Ｌの場合は（Ｓ１６：Ｙｅｓ）、Ｓ１２に戻る。また、ｒ＞Ｌの場合は（Ｓ１６：Ｎｏ）、背景「無」と判定し（Ｓ１７）、背景検出処理を終了する。

次に、図７のフローチャートを参照し、シーン対応音声処理の流れについて説明する。ＡＶレシーバー１０（シーン対応音声制御部１６ｂ）は、モード設定部１６ａが処理モードを「連動モード」に設定しているか否かを判別し（Ｓ２１）、「連動モード」に設定している場合は（Ｓ２１：Ｙｅｓ）、奥行き情報に基づいて奥行きの有無を判別する（Ｓ２２）。ここで、奥行き「有」（奥行き量＞０）と判定した場合は（Ｓ２２：Ｙｅｓ）、奥行き量に応じて、フロントスピーカー３０ａ，３０ｂおよびリアスピーカー３０ｃ,３０ｄの音量レベルを可変する（Ｓ２３）。つまり、各スピーカー３０ａ〜ｄに供給する音声信号の音量レベルを調整することによって、音像の定位制御を行う。

続いて、背景情報に基づき、背景の有無を判別する（Ｓ２４）。ここで、背景「無」（背景検出ＮＧ）と判定した場合は（Ｓ２４：Ｎｏ）、奥行き量に応じて、フロントスピーカー３０ａ，３０ｂの音声信号に残響音を付加する（Ｓ２５）。つまり、奥行き量に比例して、残響音の付加量（残響の強さおよび／または長さ）を大きく設定する。一方、Ｓ２１：Ｎｏの場合（処理モードが「非連動モード」に設定されている場合）、Ｓ２２：Ｎｏの場合（奥行き量＝０の場合）およびＳ２４：Ｙｅｓの場合（背景検出ＯＫの場合）は、そのまま処理を終了する。なお、特に図示しないが、シーン判別部１４により奥行き量や背景の有無が推定できなかった場合は、シーン対応音声制御部１６ｂに対し、奥行き情報や背景情報として「推定失敗」が入力され、前回の有効な奥行き情報を音声制御に反映することとなる。

以上説明したとおり、本実施形態の映像視聴システムＳＹによれば、映像シーンに背景が含まれるか否かの判別結果に基づいて、残響音を付加する／しないを制御するため、屋外の映像シーンに対して残響音が付加されるなど不自然な音声制御を防止できる。また、３Ｄ映像を形成するための右目映像と左目映像の視差に基づいて奥行き情報を生成し、当該奥行き情報に基づいて、音像の定位制御を行ったり、残響音の付加量を可変したりする制御を行うため、３Ｄコンテンツの臨場感や実在感を高めることができる。

また、映像画面６０の画像解析により、映像シーンを判別可能であるため（映像の画面をＮ個の分割領域６１に分割し、当該Ｎ個の分割領域６１の中に略同一の色要素を有する分割領域６１が所定数以上含まれることを条件として背景を検出するため）、予め映像シーンの判別結果を示す情報を用意しておく必要がない。これにより、メタ情報を有しない「Ｂｌｕ−ｒａｙ３Ｄ」などの映像コンテンツに対しても、映像シーンに適した音声制御を行うことができる。

なお、以下の変形例を採用しても良い。上記の実施形態では、映像シーンにおける背景（空、海、山など）の有無を検出し、その検出結果に応じて残響音を付加する／しないを制御したが、背景以外にも、映像シーンに「無限遠を示す風景」が含まれるか否かを判別しても良い。「無限遠を示す風景」としては、地平線、水平線などの景色、宇宙などの空間の他、際限の無いデザイン（アニメーション）などが考えられる。その他、「無限遠を示す風景」だけでなく、「特定の風景」が含まれるか否かを判別しても良い。例えば、映像シーンに「高原」が含まれる場合は、残響音を付加しないなどが考えられる。また、逆に、映像シーンが「無限遠を示す風景」を含まないことを検出しても良い。例えば、室内の映像では、直線的、幾何学的なオブジェクトが多く含まれることが想定されるため、これらを多く検出した場合は、「無限遠を示す風景」を含まないと判定し、残響音を付加する制御を行っても良い。

また、上記の実施形態では、背景を検出する際に、画像解析（映像画面６０をＮ分割し、ラベル付け処理を行う手法）を用いたが、映像画面６０から色や形状を抽出することによって背景を検出しても良い。例えば、青色を示す画素を所定割以上含む映像画面６０については、背景「有」と判定するといった方法や、「雲」を認識した場合、背景「有」と判定する方法などが考えられる。また、撮像技法の一つであるパン（Pan）した際の、撮像対象のぶれ量などを検出することによって、背景の有無を判別しても良い。また、取得した映像コンテンツにメタ情報が付加されている場合、当該メタ情報に基づいて背景の有無を判別しても良い。例えば、各映像シーンを特定する情報として「空を羽ばたくシーン」や「場所：海岸」などのメタ情報に基づいて、背景「有」と判定する方法などが考えられる。また、映像シーンに「特定の風景」が含まれるか否かを、音声信号から推定しても良い。例えば、音声解析により、海の音や、やまびこの音を検出した場合、映像シーンに背景が含まれると判定するなどが考えられる。

また、上記の実施形態では、映像シーンに「特定の風景（背景）」が含まれる場合、残響音を付加したが、その他の音響効果を付加しても良い。「音響効果」としては、歪み音やこもり音の軽減、ノイズ除去、音程調整、音量調整など、各種オーディオエフェクトが考えられる。また、ディレイ音の付加やテンポ調整など、ＤＪエフェクターやＤＪミキサー等で実現可能なサウンドエフェクトおよびビートエフェクトを付加しても良い。また、「音響効果」の一種として、直接音と残響音のエネルギー比や、両耳間における相互相関係数を可変しても良い。

また、上記の実施形態では、所定時間内に１回の割合で映像シーンの判別を行うものとしたが、コマごとに映像シーンの判別を行っても良い。また、Ｎコマ目、（Ｎ＋１）コマ目、（Ｎ＋２）コマ目など、複数のコマ（映像画面）に対する映像シーンの判別結果に基づいて、奥行き情報や背景情報を生成しても良い。例えば、奥行き情報は、奥行き量の平均値、最大値、最小値とする、また背景情報は、複数のコマ内で１コマでも検出できた場合は背景「有」と判定するなどが考えられる。また、画像解析等によるシーン切り替えを判別し、シーン切り替えごとに、映像シーンを判別しても良い。なお、シーン切り替えは、コマーシャル、テロップ、音声信号（音量レベル）などによって判別しても良い。

また、上記の実施形態では、映像シーンから、引き込みの立体像を示す奥行き感が検出された場合に、奥行き「有」と判定したが、飛び出しの立体像を示す飛び出し感が検出された場合にも、奥行き「有」と判定しても良い（図２参照）。つまり、奥行き感、飛び出し感に関係なく、映像シーンから立体像が検出された場合（左目映像と右目映像に視差が生じている場合）、奥行き「有」と判定しても良い。つまり、シーン対応音声制御部１６ｂにより、奥行き感、飛び出し感に関係なく、映像シーンから立体像が検出された場合に、音像の定位制御および残響音の付加制御を行うようにしても良い。

その他、シーン対応音声制御部１６ｂを、奥行き感および飛び出し感に基づいて音像の定位制御を行い、奥行き感のみに基づいて残響音の付加制御を行うようにしても良い。逆に、奥行き感のみに基づいて音像の定位制御を行い、奥行き感および飛び出し感に基づいて残響音の付加制御を行うようにしても良い。

また、上記の実施形態では、フロントスピーカー３０ａ，３０ｂに対してのみ残響音を付加したが、リアスピーカー３０ｃ，３０ｄに対しても残響音を付加しても良い。また、奥行き量や背景の有無に応じて、残響音の付加対象となるスピーカー３０を可変しても良い。なお、上記の実施形態では、４つのスピーカー３０ａ〜ｄを備えた映像視聴システムＳＹを例示したが、その数は任意である。

また、上記の実施形態では、３Ｄコンテンツを取得した場合について例示したが、２Ｄコンテンツを取得した場合に本発明を適用しても良い。この場合、奥行き推定部１４ａは、左目映像および右目映像の視差に基づいて奥行き情報を生成するのではなく、画像解析（画像の濃淡、遠近感など）によって奥行き情報を生成する。また、奥行き情報を生成することなく、単に「特定の風景」が含まれるか否かによって音声制御を行っても良い。当該「音声制御」には、音響効果の付加以外に、音声合成、音声認識、音声強調など各種音声処理が含まれる。

また、上記の実施形態では、奥行き量＝０の場合、背景「無」の場合でも残響音の付加制御を行わないものとしたが（図７参照）、何らかの音響効果を付加しても良い。つまり、背景情報（背景の有無）に応じて音響効果の付加制御を行い、さらに奥行き情報（奥行き量）に応じてその音響効果の種類を可変する構成としても良い。また、背景の種類（「特定の風景」の種類、「空」、「海」、「山」など）を検出し、その種類に応じて音響効果の種類を可変する構成としても良い。

また、上記に示したＡＶレシーバー１０の各部をプログラムとして提供することが可能である。また、そのプログラムを各種記録媒体（ＣＤ−ＲＯＭ、フラッシュメモリ等）に格納して提供することも可能である。すなわち、コンピューターをＡＶレシーバー１０の各部として機能させるためのプログラム、およびそれを記録した記録媒体も、本発明の権利範囲に含まれるものである。

また、上記の実施形態では、本発明の音声制御方法および音声制御装置をＡＶレシーバー１０に適用した場合を例示したが、ブルーレイ（登録商標）ディスクプレーヤーやデジタル放送チューナーに適用しても良い。すなわち、上記の実施形態に示したＡＶレシーバー１０の各部のうち、パワーアンプ部１７以外を、ブルーレイディスクプレーヤーやデジタル放送チューナーにて実現しても良い。また、上記の実施形態に示したＡＶレシーバー１０の各部を、テレビやプロジェクターにて実現しても良い。この場合、テレビやプロジェクターが、本発明のＡＶシステムに相当する。

また、上記に示した変形例を採用するか否か（変形例が複数存在する場合は、どの変形例を採用するか）、各変形例を採用した場合の設定値等について、ユーザーの好みに応じて設定変更可能としても良い。その他、本発明の要旨を逸脱しない範囲で、適宜変更が可能である。

１０…ＡＶレシーバー１４…シーン判別部１４ａ…奥行き推定部１４ｂ…背景検出部１６…音声処理部１６ａ…モード設定部１６ｂ…シーン対応音声制御部２０…ＢＤプレーヤー３０…スピーカー４０…ディスプレイ６０…映像画面６１…分割領域Ｄ…ブルーレイディスクＳＹ…映像視聴システム

Claims

映像に合わせて音声制御を行う音声制御方法であって、
前記映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別工程と、
前記シーン判別工程の判別結果に基づいて、音声制御を行う音声制御工程と、を備えたことを特徴とする音声制御方法。
前記特定の風景は、無限遠を示す風景であることを特徴とする請求項１に記載の音声制御方法。
前記音声制御工程は、前記シーン判別工程の判別結果に基づいて、音響効果の付加制御を行うことを特徴とする請求項２に記載の音声制御方法。
前記音声制御工程は、前記シーン判別工程により前記特定の風景が含まれないと判定された場合、所定の音響効果を付加し、前記シーン判別工程により前記特定の風景が含まれると判別された場合、前記所定の音響効果を付加しないことを特徴とする請求項３に記載の音声制御方法。
前記所定の音響効果は、残響音の付加であることを特徴とする請求項４に記載の音声制御方法。
前記シーン判別工程は、前記映像の画面をＮ個（但し、ＮはＮ≧２となる整数）の分割領域に分割し、当該Ｎ個の分割領域の中に略同一の色要素を有する分割領域がＭ個（但し、Ｍは１≦Ｍ≦Ｎとなる整数）以上含まれる場合、前記無限遠を示す風景が含まれると判定することを特徴とする請求項２に記載の音声制御方法。
前記シーン判別工程は、略同一の色要素を有する分割領域がＭ個以上含まれ、且つ当該Ｍ個の分割領域のうち少なくとも１個が、前記映像画面の端に位置する場合に、前記無限遠を示す風景が含まれると判定することを特徴とする請求項６に記載の音声制御方法。
前記映像は、３次元映像であり、
前記シーン判別工程は、同一のタイミングで表示される右目映像と左目映像の視差に基づいて奥行き情報を生成し、
前記音声制御工程は、前記シーン判別工程により前記無限遠を示す風景が含まれないと判別された場合、前記奥行き情報に基づいて、前記音響効果の付加量を可変することを特徴とする請求項４に記載の音声制御方法。
前記音声制御工程は、前記奥行き情報に基づいて、音像の定位制御を行うことを特徴とする請求項８に記載の音声制御方法。
前記シーン判別工程の判別結果に基づく音声制御を行う連動モードと、前記シーン判別工程の判別結果に基づく音声制御を行わない非連動モードと、のいずれかのモードを設定するモード設定工程をさらに実行し、
前記音声制御工程は、前記連動モード設定時のみ機能することを特徴とする請求項１に記載の音声制御方法。
映像に合わせて音声制御を行う音声制御装置であって、
前記映像のシーンに、特定の風景が含まれるか否かを判別するシーン判別部と、
前記シーン判別部の判別結果に基づいて、音声制御を行う音声制御部と、を備えたことを特徴とする音声制御装置。
映像信号および音声信号を含むコンテンツを取得するコンテンツ取得部をさらに備え、
前記シーン判別部は、前記コンテンツを複数の区間に区切った再生区間ごとの前記映像信号に基づいて判別を行い、
前記音声制御部は、前記再生区間ごとの判別結果に基づいて、前記コンテンツに含まれる同じ再生区間ごとの前記音声信号に対し音声制御を行うことを特徴とする請求項１１に記載の音声制御装置。
請求項１１または１２に記載の音声制御装置と、
前記映像信号を表示する表示装置と、
前記音声制御部により音声制御された音声信号を出力する音声出力装置と、を備えたことを特徴とするＡＶシステム。
コンピューターに、請求項１ないし１０のいずれか１項に記載の音声制御方法における各工程を実行させるためのプログラム。