JP2013243619A

JP2013243619A - 音響処理装置及び音響処理方法

Info

Publication number: JP2013243619A
Application number: JP2012117026A
Authority: JP
Inventors: Yusaku Kikukawa; 裕作菊川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-05-22
Filing date: 2012-05-22
Publication date: 2013-12-05
Also published as: US20130314599A1; US8908099B2

Abstract

【課題】映像の構図から臨場感判定を行い、臨場感が必要と判定された場合に臨場感強
調を行う技術を提供する。
【解決手段】入力される映像信号の構図パターンを推定する構図パターン判定部と、こ
の推定の結果に基づいて音響処理を行う音響処理部とを備えた音響処理装置。また、入力
される音響信号のスペクトルパターンを推定する音響解析部と、この推定の結果に基づい
て音響処理を行う音響処理部とを備えた音響処理装置。また、入力される映像信号の構図
パターンの推定をし、この推定の結果に基づいて音響処理を行う音響処理方法。また、入
力される音響信号のスペクトルパターンの推定をし、この推定の結果に基づいて音響処理
を行う音響処理方法。
【選択図】図３

Description

本発明の実施形態は、例えば映像に連携した音響処理装置及び音響処理方法に関する。

近年、テレビに加えノートブック型等の様々な携帯型パーソナルコンピュータ、タブレ
ットなども開発されている。これらの装置では映像および音響信号の出力を行う際に、入
力された信号データを単にそのまま再生するだけでなく、映像あるいは音響信号に何らか
の処理を加えることが行われることがある。

例えば、映像シーンに合わせて、その映像に適した音声に自動的に調整することのでき
る映像音声信号処理装置を提供する映像音声信号処理装置が提案されている（例えば、特
許文献１参照。）。しかしながら、従来方法では複数人会話シーンやナレーションを含む
シーンや多方向移動体シーンなど音声と映像のマッチングしないシーンでは正しく音場制
御や音声強調できない課題がある。

そこで、映像の構図パターンを用いて、音響処理を行うべき特定シーンと・音響処理を
行うべきではない非特定シーンの臨場感判定を行い、臨場感が必要と判定された場合に、
臨場感強調を行うといった要望がある。が、かかる要望を実現するための手段は知られて
いない。

特開２００９−２９６２７４号公報(第２図) 特開２００９−１４７７６８号公報(第３図）特開２００９−６５５８７号公報

本発明の実施の形態は、映像の構図から臨場感判定を行い、臨場感が必要と判定された
場合に臨場感強調を行う技術を提供することを目的とする。

上記課題を解決するために、実施形態によれば音響処理装置は、入力される映像信号の
構図パターンを推定する構図パターン判定部と、この推定の結果に基づいて音響処理を行
う音響処理部とを備えた音響処理装置。また、入力される音響信号のスペクトルパターン
を推定する音響解析部と、この推定の結果に基づいて音響処理を行う音響処理部とを備え
る。

この発明の一実施形態を示す電子機器のシステム構成を示すブロック図。同実施形態の処理構成（全体構成）を示すブロック構成図。同実施形態の処理構成１（上位概念）を説明するために示すブロック構成図。図３の変形例１を示すブロック構成図。図３の変形例２を示すブロック構成図。同実施形態の特定シーン判定部の処理構成を示すブロック構成図。図６の変形例を示すブロック構成図。同実施形態に用いられる映像解析部の処理構成を示すブロック構成図。図８の変形例１を示すブロック構成図。図８の変形例２を示すブロック構成図。音響解析部の処理構成を示すブロック構成図。図１１の変形例１を示すブロック構成図。図１１の変形例２を示すブロック構成図。臨場感判定部について説明するために示すブロック構成図。図２の処理構成における動作を説明するために示すフローチャート。

以下、本発明の一実施形態を図１乃至図１４を参照して説明する。

図１は、本コンピュータ１０のシステム構成を示す図である。本コンピュータ１０は、
図１に示されるように、ＣＰＵ１１、ノースブリッジ１２、主メモリ１０３、サウスブリ
ッジ１０４、グラフィクスコントローラ１０５、サウンドコントローラ１０６、ＢＩＯＳ
−ＲＯＭ１０７、ＬＡＮコントローラ１０８、不揮発性メモリ１０９、バイブレータ１１
０、加速度センサ１１１、無線ＬＡＮコントローラ１１２、エンベデッドコントローラ（
ＥＣ）１１３、ＥＥＰＲＯＭ１１４、ＨＤＭＩ制御回路３等を備える。

ＣＰＵ１１は、コンピュータ１０内の各部の動作を制御するプロセッサである。ＣＰＵ
１１は、不揮発性メモリ１０９から主メモリ１０３にロードされる、オペレーティングシ
ステム（ＯＳ）２１、および各種アプリケーションプログラムを実行する。アプリケーシ
ョンプログラムには、入力制御プログラム２２が含まれている。この入力制御プログラム
は、上述の仮想キーボード１７１を用いてキー入力処理を実行するためのソフトウェアで
あり、オペレーティングシステム（ＯＳ）２１上で実行される。

また、ＣＰＵ１１は、ＢＩＯＳ−ＲＯＭ１０７に格納されたＢＩＯＳも実行する。ＢＩ
ＯＳは、ハードウェア制御のためのプログラムである。

ノースブリッジ１２は、ＣＰＵ１１のローカルバスとサウスブリッジ１０４との間を接
続するブリッジデバイスである。ノースブリッジ１２には、主メモリ１０３をアクセス制
御するメモリコントローラも内蔵されている。また、ノースブリッジ１２は、ＰＣＩＥ
ＸＰＲＥＳＳ規格のシリアルバスなどを介してグラフィクスコントローラ１０５との通信
を実行する機能も有している。

グラフィクスコントローラ１０５は、本コンピュータ１０のディスプレイモニタとして
使用されるＬＣＤ１７Ａを制御する表示コントローラである。このグラフィクスコントロ
ーラ１０５によって生成される表示信号はＬＣＤ１７Ａに送られる。ＬＣＤ１７Ａは、表
示信号に基づいて映像を表示する。このＬＣＤ１７Ａ上にはタッチパネル１７Ｂが配置さ
れている。タッチパネル１７Ｂは、ＬＣＤ１７Ａの画面上で入力を行うためのポインティ
ングデバイスである。ユーザは、タッチパネル１７Ｂを用いて、ＬＣＤ１７Ａの画面に表
示されたグラフィカルユーザインタフェース（ＧＵＩ）等を操作することができる。例え
ば、ユーザは、画面に表示されたボタンをタッチすることによって、当該ボタンに対応す
る機能の実行を指示することができる。

ＨＤＭＩ端子２は、外部ディスプレイ接続端子である。ＨＤＭＩ端子２は、非圧縮のデ
ジタル映像信号とデジタルオーディオ信号とを１本のケーブルで外部ディスプレイ装置１
に送出することができる。ＨＤＭＩ制御回路３は、ＨＤＭＩモニタと称される外部ディス
プレイ装置１にデジタル映像信号をＨＤＭＩ端子２を介して送出するためのインタフェー
スである。つまり、コンピュータ１０は、ＨＤＭＩ端子２等を介して、外部ディスプレイ
装置１に接続可能である。

サウスブリッジ１０４は、ＰＣＩ（Peripheral Component Interconnect）バス上の各
デバイス及びＬＰＣ（Low Pin Count）バス上の各デバイスを制御する。また、サウスブ
リッジ１０４は、不揮発性メモリ１０９を制御するためのＡＴＡコントローラを内蔵して
いる。

サウスブリッジ１０４は、各種ＵＳＢデバイスを制御するためのＵＳＢコントローラを
内蔵している。さらに、サウスブリッジ１０４は、サウンドコントローラ１０６との通信
を実行する機能も有している。サウンドコントローラ１０６は音源デバイスであり、再生
対象のオーディオデータをスピーカ１８Ａ，１８Ｂに出力する。ＬＡＮコントローラ１０
８は、例えばＩＥＥＥ８０２．３規格の有線通信を実行する有線通信デバイスである。
無線ＬＡＮコントローラ１１２は、例えばＩＥＥＥ８０２．１１規格の無線通信を実行
する無線通信デバイスである。

ＥＣ１１３は、電力管理のためのエンベデッドコントローラを含む１チップマイクロコ
ンピュータである。ＥＣ１１３は、ユーザによるパワーボタンの操作に応じて本コンピュ
ータ１０を電源オン／電源オフする機能を有している。

さて図２は、実施形態の処理構成（全体構成）を示すものであり、以下に個々に述べる
。ここではＣＰＵ１１を主体とするフローを図１５に示す。

ステップＳ１５１：入力される画像信号から映像解析部２０１で映像解析を行ない構図
パターンを判定する。

ステップＳ１５２：他方で入力される音響信号から音響解析部２０２で音響解析を行な
いスペクトルパターンを判定する。

ステップＳ１５３：上記構図パターンとスペクトルパターンとから臨場感判定部２０３
で臨場感を判定する。

ステップＳ１５４：この臨場感の判定結果に基づき音響処理部１０２で音響処理を実施
する。

個々の構成に関してはまず図３に実施形態の処理構成の基本概念を示す。特定シーン判
定部１０１（ＣＰＵ１１内）と、音響処理（補正）部１０２（サウンドコントローラ１０
６内）とから構成されている。特定シーン判定部１０１では特定シーンの判定を行い、こ
の判定の結果に基づいて音響処理（補正）部１０２では音響処理を可変させる構成となっ
ている。

画像信号と音響信号の双方の信号を使うことにより、幅広く、且つ精度良く特定シーン
の判定を行うことができる。ここで、音響処理部１０２は特定シーンに合う処理であれば
、どのような処理でも良い。例えば、部屋やコンサートホールのようなその場の音場特性
を再現するフィルタ処理、残響を付加する処理、フォルマント強調のような音声強調処理
、非音声強調処理、HRTFのようなサラウンド処理、イコライザ、ダイナミックレンジコン
トロールなどが挙げられる。

続く、図４及び図５は図３の処理構成の変形例である。つまり、処理量削減のため、特
定シーンの判定に用いる信号として音響信号を用いずに画像信号だけ用いても良い。また
特定シーンの判定を行った結果をそのまま臨場感レベルのタグ情報（例えば１から１０ま
での数値や低、中、高などの分類）として出力して、臨場感の必要なコンテンツか否かユ
ーザに通知してもよい。

また更に図４及び図５の変形として、特定シーンの判定に用いる信号として音響信号を
用いずに画像信号だけ用いて、特定シーン判定の結果をそのまま臨場感レベルのタグ情報
として出力してもよい。

図６に特定シーン判定部１０１の処理構成を示す。映像解析部２０１、音響解析部２０
２と臨場感判定部２０３とを含んでいる。まず映像解析部２０１、音響解析部２０２とで
画像信号と音響信号を解析した結果を臨場感判定部２０３は入力として、音響処理を行う
べき特定シーンと音響処理を行うべきではない非特定シーンの臨場感判定を行い、臨場感
が必要か否かを出力する。図７は図６の変形例である。つまり、処理量削減のため、画像
信号のみを映像解析部２０１で解析しても良い。

図８に映像解析部２０１の処理構成を示す。構図パターン判定部３０１と構図パターン
情報ＤＢ３０２とを備えている。まず構図パターン判定部３０１は画像信号の構図をパタ
ーン分類化し、例えば図８中にある構図パターン情報ＤＢ３０２のどれに近いか判定を行
う。例えば、Horisonと判定された場合、サッカーの観戦シーンや風景を俯瞰するシーン
などが多いため、臨場感判定２０３にて臨場感が必要と判断される。ここで、図９と図１
０は図８の変形例である。

図９は図８に更に色情報取得部３０３と明るさ情報取得部３０４とを備え、図１０は更
に遅延部３０６を備えている。

図９に示すように構図パターン以外にも色情報取得部３０３と明るさ情報取得部３０４
により色情報や明るさ情報を用いても良い。色情報や明るさ情報を用いることにより、例
えば、色情報の主成分が青または緑、明るさ情報が明るいと解析されれば、屋外にいるシ
ーンが多いため、臨場感判定部２０３にて臨場感が必要と判断される。更に夫々重み係数
(305)をかけて、映像の解析情報に優先度をつけてもよい。次に図１０のように、遅延部
３０６によって画像の過去情報を使用することで、シーンチェンジ情報も例えば映像解析
部２０１で取得でき、スムーズに時間方向の音響処理を切り替えこともできる。

図１１に音響（処理）解析部２０２の処理構成を示す。スペクトルパワー演算部４０１
と、スペクトルパターン判定部４０２と、スペクトル（周囲音）パターン情報ＤＢ４０３
とを備えている。

まずスペクトルパワー演算部４０１は音響信号のスペクトルパワーを演算し、スペクト
ル分布をパターン分類化し、例えば図１１にあるスペクトルパターン情報ＤＢ４０３のど
れに近いかスペクトルパターン判定部４０２は判定を行う。

例えば、Super Bassと判定された場合、花火シーンや太鼓シーンなどがあり、臨場感判
定２０３にて臨場感が必要と判断される。ここで、図１２と図１３は図１１の変形例であ
る。図１２にあるように、スペクトルパワーを演算する前にVAD(Voice activity detecti
on)部４０４によるVADを追加することで、音声・非音声の双方のスペクトルパターンを分
析することができ、幅広く、且つ精度良く特定シーンの判定を行うことができる。

また、図１３にあるようにバランス比較部４０５を追加して音声・非音声の双方のパワ
ー比を求めることにより、音声・非音声のどちらが優勢のコンテンツ推定できるため、例
えば、音声成分が優勢と判断された場合、非音声を強調するような音響処理をすることが
でき、非音声成分が優勢と判断された場合、音声を強調するような音響処理をすることが
できる。更に夫々重み係数(406)をかけて、音響の解析情報に優先度をつけてもよい。

VADの機能は、例えば本願と同一出願人の出願である特開２０１２−３２４４７号公報に記載の技術を援用して構成することができる。

図１４に臨場感判定部２０３の処理構成を示す。マッチング判定部５０１、臨場感ＤＢ
５０２、誤差最小演算部５０３、および音響補正モード選択部５０４とを備えている。

映像解析と音響解析から得られる情報を予め登録してある臨場感ＤＢ５０２とマッチン
グ判定部５０１はマッチング判定を行う。この判定の結果、臨場感が必要となるシーン(
臨場感モード)、例えばモードＡやモードＢ等と一致する場合、音響補正モード選択部５
０４はそのモードに合う音響処理の機能の設定に切り替える。判定の結果、一致する臨場
感モードが無い場合でも、例えば誤差最小演算部５０３は下記のような場合分け演算から
算出して、決定してもよい。

もちろん下記の演算だけに限らず、判定の結果、一致する臨場感モードが無い場合に近
いモードを推定できる演算であれば各種の演算を用いても良い。また近いモードがない場
合は音響補正を行わない構成としても良い。入力Ａ乃至入力Ｅは、例えば構図パターン、
色、明るさ、スペクトルパターン、ＶＡＤ（人か否か）、上記パワー比などである。

（ａ）入力ＡはモードＡの範囲内(ａ１＜入力Ａ＜ａ２)
（ｂ）入力ＢはモードＢの範囲内(ｂ３＜入力Ｂ＜ｂ４)
（ｃ）入力ＣはモードＡの範囲内(ｃ１＜入力Ｃ＜ｃ２)
（ｄ）入力ＤはモードＡとＢの双方の範囲内（ｄ１＜入力Ｄ＜ｄ２）&（ｄ３＜入力Ｄ＜
ｄ４）
（ｅ）入力ＥはモードＡとＢの双方の範囲内（ｅ１＜入力Ｅ＜ｅ２）&（ｅ３＜入力Ｅ＜
ｅ４）
これら（ａ）から（ｅ）により、入力はモードＡに近いと判定することができる。

次に臨場感ＤＢ５０２のモード登録について説明する。臨場感がほしいシーン（例えば
モードＡはスポーツの試合シーン、モードＢは映画の爆発シーン、その他洞窟で会話して
いるシーン、海外の街並みシーン等）に関連するコンテンツを収集し、構図パターン、色
の主成分情報、明る情報等々を分析し、統計的に出現傾向の大きい値を装置の製造時など
に登録すればよい。

例えば、スポーツの試合シーンであれば、構図パターンがHorison、色の主成分情報が
青と緑、明る情報が明るいなどと登録すればよいことになる。臨場感ＤＢ５０２に登録す
るモードが増えることで、より臨場感のほしい映像シーンに合う最適な音響処理を実現す
ることができる。

本実施形態により、臨場感のほしい特定シーンごとに合わせて、最適な音響処理を行う
ことで、映像と音響の一体感が増し、ユーザはより臨場感の高いマルチメディア視聴を体
感することができる。また、特定被写体の検出を行わないため、より多く映像シーンのそ
の場面に合う音響処理を行うことができる。

（実施形態の補足）
01）映像信号に対して構図パターンを推定し、その結果に応じた音響処理を行う。

02）映像信号に対して構図パターンを推定し、その結果に応じて音響処理の補正度合いを
変化させる。

03）映像信号に対して構図パターンを推定し、その結果に応じて音響処理のON/OFFを切り
替える。

04）映像信号に対して推定した構図パターンと色情報と明るさ情報の結果から臨場感判定
を行い、その結果に応じて音響処理を行う。

05）映像信号に対して推定した構図パターンと色情報と明るさ情報とその過去情報から臨
場感判定を行い、その結果に応じて音響処理を行う。

06）音響信号に対してスペクトルパターンを推定し、その結果に応じた音響処理を行う。

07）音響信号に対してスペクトルパターンを推定し、その結果に応じて音響処理の補正度
合いを変化させる。

08）音響信号に対してスペクトルパターンを推定し、その結果に応じて音響処理のON/OFF
を切り替える。

09）音響信号に対してVAD(Voice activity detection)を行い、音声信号に対してスペク
トルパターンを推定する。

10）音響信号に対してVAD(Voice activity detection)を行い、非音声信号に対してスペ
クトルパターンを推定する。

11）音響信号に対して非音声信号と音声信号のスペクトルのパワー差を比較した結果を用
いて、音声または非音声を強調するか判定する。

12）映像・音響信号に対して解析した結果を臨場感レベルとして出力する。

13）映像・音響信号に対して解析した複数の結果に対して重み係数をかけて、臨場感判定
を行う。

14）映像・音響信号に対して解析した複数の結果に対して予め登録した結果とマッチング
判定して最適な音響処理を選択する。

本実施形態は、映像信号または、映像信号と音響信号を解析して、特定シーンの判定を
行い、その判定結果に応じてより適切な音響処理を行う映像連携音響処理装置に関するも
のである。

映像の構図パターンを用いて、音響処理を行うべき特定シーンと・音響処理を行うべき
ではない非特定シーンの臨場感判定を行い、臨場感が必要と判定された場合に、臨場感強
調を行う。また、音響のスペクトルパターンを用いて、音響処理を行うべき特定シーンと
・音響処理を行うべきではない非特定シーンの臨場感判定を行い、臨場感が必要と判定さ
れた場合に、臨場感強調を行う。更に特定・非特定シーンの判定を行った結果をそのまま
臨場感レベルのタグ情報として出力すれば、臨場感が必要なコンテンツか否かユーザに通
知することも可能である。

以下に実施形態の特徴を従来例と比較して示す。

特許文献１では、映像シーンに合わせて、その映像に適した音声に自動的に調整するこ
とのできる映像音声信号処理装置を提供する。しかしながら、顔検出や移動体検出を行う
ため、特定被写体に限られた処理になっており、例えば、複数人会話シーンやナレーショ
ンを含むシーンや多方向移動体シーン(サッカーの試合等)など音声と映像のマッチングし
ないシーンでは対象外であるため、限られた臨場感の映像シーンにしか音響処理を施すこ
とができない。

特許文献２では、映像信号から特定被写体の位置を検出し、音声信号からその特定被写
体の音声を抽出し、検出した位置によって、抽出した音声を調整することにより、臨場感
を高める映像音声再生装置を提供する。しかしながら、特定被写体に限られた処理になっ
ており、例えば、複数人会話シーンやナレーションを含むシーンや多方向移動体シーン(
サッカーの試合等)など音声と映像のマッチングしないシーンでは対象外であるため、限
られた臨場感の映像シーンにしか音響処理を施すことができない。

特許文献３では、画像中の特定物を検出可能な音声記録装置において、特定物の大きさ
に基づいて音声処理を行い、撮影者の画像撮影の意図に応じた音声とする音声再生装置を
提供する。しかしながら、画像中の特定物を検出するため、特定被写体に限られた処理に
なっており、例えば、複数人会話シーンやナレーションを含むシーンや多方向移動体シー
ン(サッカーの試合等)など音声と映像のマッチングしないシーンでは対象外であるため、
限られた臨場感の映像シーンにしか音響処理を施すことができない。

本実施形態では、特定被写体の検出を行わないため、より多くの臨場感のほしい映像シ
ーンに合わせて音響処理を行うことができる。また、特定被写体の検出を行わないため、
処理演算が少ない。

なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しな
い範囲で種々変形して実施することができる。

また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせること
により、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素
から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる
構成要素を適宜組み合わせても良いものである。

１０…コンピュータ、１７…タッチスクリーンディスプレイ、２２…入力制御プログラ
ム。

Claims

入力される映像信号の構図パターンを推定する構図パターン判定部と、
この推定の結果に基づいて音響処理を行う音響処理部とを
備えた音響処理装置。
更に色情報または明るさ情報を前記映像信号から取得する映像解析部を備え、
前記音響処理部はこの色情報または明るさ情報にも基づいて音響処理を行う請求項１に記
載の音響処理装置。
入力される音響信号のスペクトルパターンを推定する音響解析部と、
この推定の結果に基づいて音響処理を行う音響処理部とを
備えた音響処理装置。
前記音響解析部は、前記音響信号に対してVAD(Voice activity detection)を行い前記
スペクトルパターンを推定する請求項３に記載の音響処理装置。
前記推定の結果に基づいて解析した結果を前記音響処理の代わりに臨場感レベルとして
出力する請求項１または請求項３に記載の音響処理装置。
入力される映像信号の構図パターンの推定をし、
この推定の結果に基づいて音響処理を行う音響処理方法。
入力される音響信号のスペクトルパターンの推定をし、
この推定の結果に基づいて音響処理を行う音響処理方法。