JP2013171089A

JP2013171089A - 音声補正装置、方法、及びプログラム

Info

Publication number: JP2013171089A
Application number: JP2012033387A
Authority: JP
Inventors: Kazunori Imoto; 和範井本; Makoto Hirohata; 誠広畑
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2012-02-17
Filing date: 2012-02-17
Publication date: 2013-09-02
Also published as: US20130218570A1; CN103259979A

Abstract

【課題】実施形態によれば、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することが可能な音声補正装置、方法、及びプログラムを提供することができる。
【解決手段】分離部は、音声から１つ以上の音声成分を分離する。推定部は、動画像の画像フレームの特徴量、あるいは、音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、動画像中において、関連する一連の画像フレームを含むシーンを推定する。解析部は、動画像を解析して、シーンに含まれる画像フレームの属性である属性情報を得る。補正部は、属性情報に基づき、シーンに含まれる画像フレームに対応する音声成分の補正方法を決定し、決定した補正方法に従って音声成分を補正する。
【選択図】図１

Description

本発明の実施形態は、音声補正装置、方法、及びプログラムに関する。

動画像と対になって再生される音声を、当該動画像を解析した解析結果に基づいて補正する音声補正装置がある。

従来の音声補正装置には、動画像中に出現する人物の人数を検出し、検出した人数に応じて、音声を強調したり、音声の指向性を制御するものがある。

従来の他の音声補正装置には、動画像中に出現する物体の位置や、当該物体を撮影するカメラの移動状態に応じて、当該物体が発する音声が、当該物体に対応する位置から発せられたように音声を出力するものがある。

しかしながら、このような音声補正装置では、動画像のフレーム毎に、独立して音声を補正するため、一連のシーン中であっても、実際に音を発している物体（人物、動物、自動車等）が映っていないフレームについては音声の補正が行なわれない。

そのため、一連のシーンにおいて、実際に音を発している物体が出現するフレームと、当該物体が存在しないフレームとが混在する場合には、視聴者にとって聞きづらい音声が出力されてしまう。

特開２００９−１５６８８８号公報特開２０００−２９５７００号公報

本発明が解決しようとする課題は、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することが可能な音声補正装置、方法、及びプログラムを提供することである。

上記目的を達成するために、本発明の実施形態に係る音声補正装置は、動画像に対応する音声を補正する音声補正装置であって、分離部と、推定部と、解析部と、補正部とを備える。

分離部は、前記音声から１つ以上の音声成分を分離する。推定部は、前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する。解析部は、前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る。補正部は、前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する。

第１の実施形態に係る音声補正装置１を表すブロック図。音声補正装置１の処理を表すフローチャート。音声補正装置１が処理するのに好適な動画像の一例図。分離部２０の処理を表すフローチャート。推定部３０の処理を表すフローチャート。類似ショットの説明図。解析部４０の処理を表すフローチャート。補正部５０の処理を表すフローチャート。第２の実施形態に係る音声補正装置２を表すブロック図。音声補正装置２が処理するのに好適な動画像の一例図。推定部３１の処理を表すフローチャート。補正部５１の処理を表すフローチャート。第３の実施形態に係る音声補正装置３が処理するのに好適な動画像の一例図。音声補正装置３を表すブロック図。分離部２２を表すフローチャート。推定部３２の処理を表すフローチャート。解析部４２の処理を表すフローチャート。補正部５２の処理を表すフローチャート。第４の実施形態に係る音声補正装置４を表すブロック図。補正部５３の処理を表すフローチャート。

（第１の実施形態）
第１の実施形態に係る音声補正装置１は、例えば、テレビ、パーソナルコンピュータ（ＰＣ）、タブレット型ＰＣ、スマートフォン等、動画像及び音声を出力可能な機器に用いられ得る。

音声補正装置１は、動画像に対応する音声を補正するものである。動画像に対応する音声とは、動画像と対応して再生されるべき音声である。音声は、１つ以上の音声成分を含む。音声成分とは、人物の発声音、動物の発声音、背景音等、音源となる個々の物体が発した音をいう。

音声補正装置１は、動画像における同一のシーンに属する画像フレームには、画像フレーム毎に共通の補正方法を用いて、当該音声を補正する。

これにより、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することができる。なお、動画像と音声とは、時刻情報により同期している。

図１は、音声補正装置１を表すブロック図である。音声補正装置１は、取得部１０と、分離部２０と、推定部３０と、解析部４０と、補正部５０と、合成部６０と、出力部７０とを備える。

取得部１０は、入力信号を取得する。入力信号は、動画像と、当該動画像に対応する音声を含む信号である。例えば、取得部１０は、放送波から入力信号を取得してよい。あるいは、ハードディスクレコーダ（ＨＤＤ）等に蓄積されているコンテンツを入力信号として取得してよい。取得部１０は、取得した入力信号から、音声を分離部２０に供給する。取得部１０は、取得した入力信号から、動画像を、推定部３０と、解析部４０と、出力部７０とに供給する。

分離部２０は、供給された音声を解析して、当該音声から１つ以上の音声成分を分離する。例えば、供給された音声に、複数の人物の発声音と背景音とが含まれる場合、分離部２０は、当該音声を解析して、当該音声から、各人物の発声音と背景音とを分離する。詳細は後述する。

推定部３０は、供給された動画像の各画像フレームの特徴量に基づき、当該動画像中におけるシーンを推定する。シーンは、互いに関連する一連の画像フレームを含む。例えば、推定部３０は、各画像フレームの特徴量の類似度から、動画像におけるカット境界を検出する。

ここで、あるカット境界Ｐと、カット境界Ｐの直前のカット境界Ｑとに含まれる画像フレームの集合を「ショット」と呼ぶこととする。推定部３０は、各ショット同士の特徴量の類似度から、シーンを推定する。

解析部４０は、供給された動画像を解析し、推定されたシーン中における画像フレームの属性である属性情報を得る。属性情報は、例えば、画像フレームに出現する物体（人物、動物、自動車等）の数や位置、シーンにおけるズームやパン等のカメラワークの動作情報等を含む。また、属性情報はこれに限らず、物体が人物であれば、人物の顔（例えば口）の位置や動きに関する情報等も含む。

補正部５０は、得られた属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離された１つ以上の各音声成分を補正する。補正方法については後述する。

合成部６０は、補正された各音声成分を合成する。出力部７０は、合成された各音声成分と、取得部１０から供給された動画像とを統合した出力信号を出力する。

取得部１０と、分離部２０と、推定部３０と、解析部４０と、補正部５０と、合成部６０と、出力部７０とは、中央演算処理装置（ＣＰＵ）、及びＣＰＵが用いるメモリにより実現されてよい。

以上、音声補正装置１の構成について説明した。

図２は、音声補正装置１の処理を表すフローチャートである。

取得部１０は、入力信号を取得する（Ｓ１０１）。分離部２０は、供給された音声を解析して、当該音声から１つ以上の音声成分を分離する（Ｓ１０２）。推定部３０は、供給された動画像の各画像フレームの特徴量に基づき、当該動画像中におけるシーンを推定する（Ｓ１０３）。

解析部４０は、供給された動画像を解析し、推定されたシーン中に出現する物体の属性情報を得る（Ｓ１０４）。補正部５０は、得られた属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を決定する（Ｓ１０５）。

補正部５０は、シーンにおける画像フレーム毎に、決定した補正方法に従って、分離された１つ以上の各音声成分を補正する（Ｓ１０６）。合成部６０は、補正された各音声成分を合成する（Ｓ１０７）。出力部７０は、合成された各音声成分と、取得部１０から供給された動画像とを統合した出力信号を出力し（Ｓ１０８）、処理を終了する。

以上、音声補正装置１の処理について説明した。

以下、本実施形態の分離部２０と、推定部３０と、解析部４０と、補正部５０と、について詳述する。

図３は、音声補正装置１が処理するのに好適な動画像の一例図である。図３に示すように、本実施形態では、ドラマ中で登場人物が会話をしているシーンを含む動画像を想定する。当該シーンは、画像フレームｆ１〜ｆ９を含む。画像フレームｆ７は、登場人物の会話途中で周辺の風景の画像が挿入されたインサートショットであり、当該インサートショット中であっても、登場人物の会話が継続しているものとする。

図４は、分離部２０の処理を表すフローチャートである。分離部２０は、取得部から供給された音声を一定間隔に分割した音声フレーム単位で特徴量に変換し、各音声フレームに出現している音声成分を識別する（Ｓ２０１）。

分離部２０は、音声成分を識別するために、発声音、音楽、雑音や、それらの組み合わせ等の音声モデルを保持していてよい。なお、特徴量の算出方法や、音声成分を識別するアルゴリズムは、音声認識分野の公知技術を用いてよい。

分離部２０は、（１）発声音、（２）発声音以外の背景音、（３）発声音と背景音との混合音、の３種類の音声成分を識別し、発声音以外の背景音が検出された区間から、背景音の基底を学習し、それ以外（発声音、あるいは、発声音と背景音との混合音）の区間から、発声音の基底を学習する（Ｓ２０２）。

分離部２０は、各音声フレームから、発声音と発声音以外の背景音の音声成分とを分離する（Ｓ２０３）。例えば、分離部２０は、公知の非負行列因子分解を用いた分離方式を用いて、発声音と背景音とを分離してよい。

この分離方式を用いる場合、分離部２０は、背景音信号のスペクトログラムを基底行列と係数行列とに分解する。スペクトログラムとは、音声信号の周波数を解析して得られるスペクトルの集合である。

分離部２０は、背景音の基底行列を用いて、取得された音声のスペクトログラムから背景音以外を表現する基底行列（発声音の基底行列）と、各々の基底行列に対応する係数行列を推定する。

従って、分離部２０は、音声成分の識別で、背景音であると判定した区間から背景音基底を学習し、発声音や、発声音と背景音との混合音であると判定した区間から、発声音の基底行列と係数行列とを推定する。

発声音の基底行列と係数行列、及び、背景音の基底行列と係数行列を推定した後、分離部２０は、発声音の基底行列と対応する係数行列の積により、発声音のスペクトログラムを求める。背景音の基底行列と対応する係数行列の積により、背景音のスペクトログラムを求める。

分離部２０は、発声音のスペクトログラムや、背景音のスペクトログラムを、逆フーリエ変換して、音声から各々の音声成分を分離する。なお、音声成分の分離方式は、上述のものに限定されるものではなく、また音声成分も、発声音と発声音以外の背景音とに限定されない。

以上、分離部２０の処理について説明した。

図５は、推定部３０の処理を表すフローチャートである。推定部３０は、取得部１０から供給された動画像について、現在処理対象の画像フレームと、直前の画像フレームとの特徴量の類似度を算出し、動画像におけるカット境界を推定する（Ｓ３０１）。推定部３０は、画像認識分野における公知の手法を用いて、カット境界を推定してよい。推定部３０は、カット境界Ｐと、カット境界Ｐの直前のカット境界Ｑとに含まれる画像フレームの集合であるショットを求める（Ｓ３０２）。

推定部３０は、処理対象とするショットＲについて、過去の時刻のショットに、ショットＲと特徴量が類似するショット（類似ショット）があるか否かを判定する（Ｓ３０３）。

図６は、類似ショットの説明図である。ステップＳ３０１〜Ｓ３０２の処理により、図３に示す動画像から、図６に示すようなカット境界Ａ〜Ｅ、ショット１〜４が推定される。すなわち、カット境界Ａとカット境界Ｂとからショット１が推定される。カット境界Ｂとカット境界Ｃとからショット２が推定される。カット境界Ｃとカット境界Ｄとからショット３が推定される。カット境界Ｄとカット境界Ｅとからショット４が推定される。

ショット１は、画像フレームｆ１〜ｆ４を含む。ショット２は、画像フレームｆ５〜ｆ６を含む。ショット３は、画像フレームｆ７を含む。ショット４は、画像フレームｆ８〜ｆ９を含む。なお、画像フレームｆ２〜ｆ４は、画像フレームｆ１と特徴量が類似すると判定されたものであるため、図３及び図６では省略している。画像フレームｆ６は、画像フレームｆ５と特徴量が類似すると判定されたものであるため、図３及び図６では省略している。画像フレームｆ９は、画像フレームｆ８と特徴量が類似すると判定されたものであるため、図３及び図６では省略している。

ここで、各ショットの先頭の画像フレームを代表フレームとする。すなわち、画像フレームｆ１をショット１の代表フレーム、画像フレームｆ５をショット２の代表フレーム、画像フレームｆ７をショット３の代表フレーム、画像フレームｆ８をショット４の代表フレームとする。

例えば、推定部３０は、２つのショットの代表フレーム間における特徴量の類似度を比較することにより、類似ショットを推定してよい。この場合、推定部３０は、２つのショットの代表フレームについて、各代表フレームをブロック分割し、代表フレーム間で対応するブロックの輝度の差分値を累積した累積差分値が、所定の閾値より小さくなれば、当該２つのショットを類似ショットと判定する。本例では、図６に示すように、代表フレームｆ１と代表フレームｆ８とが類似していると判定されるため、ショット１とショット４とが、類似フレームであると推定される。

類似ショットがある場合、推定部３０は、各類似ショットにＩＤを付与し、各類似ショットの時間長、類似ショットの出願頻度、類似ショットの出現パタン等の類似ショット情報を保持しておく。本例において、推定部３０は、ショット１とショット４とに同一のＩＤ（例えばＩＤ“Ａ”）を付与する。

類似ショットの出願頻度とは、動画像に含まれる画像フレームの数に対する、類似ショットの数を表すものである。類似ショットの出現パタンとは、時間的に類似ショットが出現するタイミングを表すものである。本例の場合、類似ショットの出現パタンは、「類似ショットＡ（ショット１）、−、−、類似ショットＡ（ショット４）」となる。「−（ハイフン）」は、類似ショットＡではないことを示している。

類似ショットがある場合、推定部３０は、類似ショット情報を用いて、シーンを推定する。すなわち、推定部３０は、同一シーンとなる一連のショットを推定する（Ｓ３０４）。例えば、推定部３０は、連続する所定の数のショット数以内（例えば、４ショット以内）に、類似ショットが一定の数以上（例えば、２回以上）出現する場合には、当該所定の数のショットを同一のシーン（図６に示すシーンＡ）であると推定する。本例では、ショット１〜ショット４の間に、類似ショットＡが２回出現するため（ショット１とショット４）、推定部３０は、ショット１〜ショット４を同一シーンであると推定する。

推定部３０は、各シーンの境界となるカット境界を表す情報を補正部５０に供給し、処理を終了する。

以上、推定部３０の処理について説明した。

図７は、解析部４０の処理を表すフローチャートである。解析部４０は、取得部１０から供給された動画像において、処理対象の画像フレームから、当該画像フレームを縮小した縮小画像であって、互いにサイズの異なる当該縮小画像を１つ以上生成する（Ｓ４０１）。

互いにサイズの異なる縮小画像を生成することにより、画像フレームに含まれる様々な大きさの顔を、同じテンプレートとの照合で検出することができる。

解析部４０は、各縮小画像に探索領域を設定し、探索領域における特徴量を算出してテンプレートと照合することにより、探索領域における顔の有無を判定する（Ｓ４０２）。解析部４０は、各縮小画像において、探索領域を示上下左右にシフトさせて判定することにより、縮小画像全体で顔検出を行なうことができる。

なお、解析部４０は、顔のモデルを予め保持しておき、顔モデルとの照合を複数回行なうにより、探索領域における顔の有無を判定してよい。例えば、解析部４０は、適応的なブースティング手法の一つであるＡｄａｂｏｏｓｔ等を用いて、顔の有無を判定してよい。Ａｄａｂｏｏｓｔは、複数の弱識別器を組み合わせる手法であり、前段の弱識別器に含まれる誤検出画像を分離するよう、後段の弱識別器を学習することで、高速性と高い識別能力を実現することができる。

また、解析部４０は、複数の弱識別器の判定を通過した人物の顔領域を対象に、動画像中に出現する人物の顔を識別し、人物毎に分類する顔クラスタリング処理を行なってもよい。顔クラスタリング処理としては、人物の顔から抽出した特徴量を、特徴量空間上でのＭｅａｎ−Ｓｈｉｆｔ法でクラスタリングする方法等がある。

解析部４０は、画像フレームにおいて顔を検出した場合、画像フレーム全体に含まれる顔の数や位置等の属性情報を得て（Ｓ３０３）、処理を終了する。また、ステップＳ３０３において、解析部４０は、連続する画像フレームにおける、人物の顔の動きや、カメラワーク等を検出して、それらを属性情報に含めてもよい。

なお、本例では、人物の顔を検出対象としたが、動物や自動車等、あらゆる物体を検出対象とすることができる。この場合、解析部４０は、検出対象とする物体を検出するためのモデルを予め保持しておき、当該モデルに対応する物体が画像フレーム中に含まれるか否かを判定すればよい。

以上、解析部４０の処理について説明した。

図８は、補正部５０の処理を表すフローチャートである。補正部５０は、解析部４０が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する（Ｓ５０１）。本例において、属性情報は、画像フレーム全体に含まれる人物の顔の数を表す情報であるとする。

この場合、補正部５０は、例えば、（１）検出された顔の数が０であるか、（２）検出された顔の数が１以上であるかを、画像フレーム毎に判定する。検出された顔の数が０である場合（（１）の場合）、補正部５０は、その画像フレームに対応する音声成分を維持するよう、補正方法を設定する。検出された顔の数が１以上である場合（（２）の場合）、補正部５０は、その画像フレームに対応する音声成分を強調するよう（例えば、音量を大きくする等）、補正方法を設定する。

補正部５０は、推定部３０が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する（Ｓ５０２）。すなわち、補正部５０は、推定部３０が推定したシーンについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。

例えば、図６に示す動画像の場合、補正部５０は、ショット１、ショット２、ショット４について、人物の顔が検出されたと判定する。補正部５０は、ショット３について、人物の顔が検出されていないと判定する。なお、補正部５０は、１つのショットに含まれる画像フレームの過半数に、人物の顔が検出されている場合に、そのショットについて人物の顔が検出されたと判定してよい。

ステップＳ５０１の段階では、ショット３は人物の顔が検出されていないため、ショット１、ショット２、ショット４と、異なる補正方法が設定されている。すなわち、ショット１、ショット２、ショット４に各々対応する音声成分には、上述した（２）の補正方法が設定され、ショット３に対応する音声成分には、上述した（１）の補正方法が設定されている。

ステップＳ５０２において、補正部５０は、推定された１つのシーンに含まれるショットに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部５０は、１つのシーンに含まれるショットについて設定した補正方法のうち、最も数の多い補正方法を選択し、各ショットに対応する音声成分の補正方法を調整してよい。

図６に示す例では、シーンＡに含まれるショットのうち、上述した（２）の補正方法はショット１、ショット２、ショット４の３つであり、上述した（１）の補正方法はショット３の１つである。

そのため、補正部５０は、ショット３に対応する音声成分に対する補正方法を、上述した（２）に変更し、シーンＡに含まれるショットに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。

また、補正部５０は、各人物の顔の位置に応じて、各人物が発する声が、各人物に対応する位置から発せられたように出力するよう、各音声成分を補正しても構わない。この場合、属性情報は、各人物の顔の位置の情報をさらに含む。

以上、補正部５０の処理について説明した。

本実施例によれば、推定部３０によって同一シーンと推定されたショットに対しては同一の補正方法により、各音声成分を補正するため、図６のショット３のように、人物が画像中に出現しないショットにおいても、揺らぎのない安定した補正を行なうことができる。

また、本実施形態によれば、画像における人物等の検出に失敗した場合であっても、揺らぎのない安定した補正を行なうことができる。

（第２の実施形態）
第２の実施形態に係る音声補正装置２は、動画像ではなく、音声からシーン境界を推定する点と、声を発している人物が画像中に出現しないシーンでは、音声を抑制するように、音声成分を補正する点が、前実施形態の場合と異なる。音声補正装置２の処理のフローは、音声補正装置１（図２）と同様である。

図９は、音声補正装置２を表すブロック図である。音声補正装置２では、音声補正装置１の推定部３０が、推定部３１に置き換わる。補正部５０が、補正部５１に置き換わる。また、取得部１０は、音声を推定部３１に供給する。

推定部３１は、供給された音声の各音声フレームの特徴量に基づき、当該動画像中におけるシーンを推定する。例えば、推定部３１は、各音声フレームの特徴量の類似度から、動画像中で音声の特徴量の変化が大きな時刻をシーン境界として検出する。

補正部５１は、解析部４０が得た属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離部２０が分離した１つ以上の各音声成分を補正する。推定部３１と補正部５１とは、ＣＰＵ及びＣＰＵが用いるメモリにより実現されてよい。

図１０は、音声補正装置２が処理するのに好適な動画像の一例図である。図１０に示すように、本実施形態では、サッカー等のスポーツ中継で、アナウンサーや解説者が撮影されているシーンと、スポーツの試合が撮影されているシーンとを含む動画像を想定する。

すなわち、図１０において、画像フレームｆ１１〜ｆ１４は、アナウンサーや解説者が撮影されている画像フレームである。画像フレームｆ１５〜ｆ２２及びｆ２５は、試合中のスタジアムを引きのアングルで撮影した画像フレームである。画像フレームｆ２３〜ｆ２４は、試合中の選手をアップのアングルで撮影した画像フレームである。画像フレームｆ１２〜ｆ１４は、画像フレームｆ１１に類似しているため省略する。画像フレームｆ１６〜ｆ２２は、画像フレームｆ１５に類似しているため省略する。画像フレームｆ２４は、画像フレームｆ２３に類似しているため省略する。

また、画像フレームｆ１１〜ｆ１４に対応する音声には、ＢＧＭが含まれており、画像フレームｆ１５〜ｆ２５に対応する音声には、観客の歓声が継続して含まれている。さらに、画像フレームｆ１１〜ｆ１４に対応する音声における一部の時間ではアナウンサーが声を発している。画像フレームｆ１５〜ｆ２５に対応する音声における一部の時間では解説者が声を発している。

このように、動画像中には、当該動画像中に出現しない人物が声を発している画像フレームが含まれる場合がある。本実施形態では、試合中のスタジアムの音声環境を維持しながら、アナウンサーや解説者が発する声を抑制するように音声を補正する。

図１１は、推定部３１の処理を表すフローチャートである。推定部３１は、取得部１０から供給された音声を一定の間隔で分割した音声フレーム毎の特徴量に基づいて、当該音声フレームに含まれる音声成分を識別する（Ｓ６０１）。本実施形態において推定部３１は、「音声」、「音楽」、「歓声」、「雑音」、「音声＋音楽」、「音声＋歓声」、「音声＋雑音」の７種類の音声成分を識別するものとする。例えば、推定部３１は、これら７種類の音声成分を識別するための音声モデルを予め保持し、当該音声モデルと音声フレームとを比較することにより、音声成分を識別してよい。

推定部３１は、隣接する音声フレーム間で音声成分を比較し、シーンを推定する（Ｓ６０２）。例えば、推定部３１は、音声成分が異なる音声フレーム間にシーンの境界を設定し、シーンを推定してよい。

なお、音声成分の識別の精度を高めるために、推定部３１は、分離部３０で分離された背景音の成分を対象として推定処理を行なってもよい。

これにより、図１０に示す例では、画像フレームｆ１４と、画像フレームｆ１５との間に、シーンの境界があると推定され、シーンＢとシーンＣとが推定される。

以上、推定部３１の処理について説明した。

図１２は、補正部５１の処理を表すフローチャートである。補正部５１は、解析部４０が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する（Ｓ７０１）。本例において、属性情報は、画像フレーム全体に含まれる人物の顔の数を表す情報であるとする。

この場合、補正部５１は、例えば、（１）検出された顔の数が０であるか、（２）検出された顔の数が１以上であるかを、画像フレーム毎に判定する。検出された顔の数が０である場合（（１）の場合）、補正部５１は、その画像フレームに対応する音声成分を抑制するよう、補正方法を設定する。検出された顔の数が１以上である場合（（２）の場合）、補正部５１は、その画像フレームに対応する音声成分を維持するよう、補正方法を設定する。

図１０に示す例において、解析部４０は、アナウンサーと解説者とが出現する画像フレームｆ１１〜ｆ１４、及び、試合中の選手がアップで撮影されている画像フレームｆ２３〜ｆ２４において、人物の顔を検出している。

補正部５１は、推定部３１が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する（Ｓ７０２）。すなわち、補正部５１は、推定部３１が推定したシーンＢ及びシーンＣについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。

例えば、図１０に示す動画像の場合、補正部５１は、シーンＢにおける画像フレームｆ１１〜ｆ１４、シーンＣにおける画像フレームｆ２３〜ｆ２４について、人物の顔が検出されたと判定する。補正部５１は、シーンＣにおける画像フレームｆ１５〜ｆ２２、ｆ２５について、人物の顔が検出されていないと判定する。

ステップＳ７０１の段階では、シーンＢにおける画像フレームｆ１１〜ｆ１４、シーンＣにおけるｆ２３〜ｆ２４に対応する音声成分には、上述した（２）の補正方法が設定され、シーンＣにおける画像フレームｆ１５〜ｆ２２、ｆ２５に対応する音声成分には、上述した（１）の補正方法が設定されている。

ステップＳ７０２において、補正部５１は、推定された１つのシーンに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部５１は、１つのシーンに含まれる画像フレームについて設定した補正方法のうち、最も数の多い補正方法を選択し、各画像フレームに対応する音声成分の補正方法を調整してよい。

図１０に示す例では、シーンＣに含まれる画像フレームのうち、上述した（２）の補正方法は画像フレームｆ２３〜ｆ２４の２フレームであり、上述した（１）の補正方法は画像フレームｆ１５〜ｆ２２、ｆ２５の１４フレームである。

そのため、補正部５１は、画像フレームｆ２３〜ｆ２４に対応する音声成分に対する補正方法を、上述した（１）に変更し、シーンＣに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。

シーンＢに含まれる画像フレームに対応する音声成分に対しては、上述した（２）の補正方法が適用される。

また、補正部５１は、各人物の顔の位置に応じて、各人物が発する声が、各人物に対応する位置から発せられたように出力するよう、音声成分を補正しても構わない。この場合、属性情報は、各人物の顔の位置の情報をさらに含む。

以上、補正部５１の処理について説明した。

本実施例によれば、同一シーンと推定した画像フレームに対応する音声成分に対しては、同一の補正方法を適用するため、図１０のシーンＣにおける画像フレームｆ２３〜ｆ２４のように、登場する人物と、実際に声を発している人物が異なる場合であっても、揺らぎのない安定した補正を行なうことができる。

（第３の実施形態）
図１３は、第３の実施形態に係る音声補正装置３が処理するのに好適な動画像の一例図である。図１３に示すように、画像フレームｆ２６〜ｆ２９は、楽曲が始まる前のトークの場面を、画像フレームｆ３０〜ｆ３６は、楽曲が演奏されている場面を表している。

また、画像フレームｆ３４〜ｆ３５は、画像フレームｆ３０〜ｆ３３よりもズームアウトしている。画像フレーム３６は、画像フレームｆ３４〜ｆ３５よりも、カメラが右側に移動しながら撮影されているものとする。

トークの場面である画像フレームｆ２６〜ｆ２９では、ＢＧＭが挿入されており、楽曲の場面である画像フレームｆ３０〜ｆ３６では楽器の演奏音と歌手の歌声とが挿入されている。また、トークの場面と楽曲の場面の境界（画像フレームｆ２９〜ｆ３０）では、拍手の音が挿入されている。

このように、音声に楽曲が挿入されている場合でも、ＢＧＭで歌手が動画像中に出現しない場合もあれば、動画像と同期して歌手が出現する場合もある。本実施形態では、動画像と同期する楽曲のシーンに対応する音声成分を、カメラワークに合わせて補正する。

本実施形態における音声補正装置３は、画像フレームにおける検出対象が人物ではなく楽器である点、音声から楽器毎の音声成分を分離する点、シーン境界に共起する特定音からシーン境界を推定する点、動画像中に出現する歌唱者や楽器の位置から、それらの音が発生して視聴者に聞こえるように音声成分を補正する点が、これまでの実施形態と異なる。

図１４は、音声補正装置３を表すブロック図である。音声補正装置３では、音声補正装置１の分離部２０が、分離部２２に置き換わる。推定部３０が、推定部３２に置き換わる。解析部４０が解析部４２に置き換わる。補正部５０が、補正部５２に置き換わる。

分離部２２は、取得部１０から供給された音声を解析して、音声から１つ以上の音声成分を分離する。なお、分離部２２は、分離した音声成分をメモリ（不図示）に蓄積してもよい。分離部２２は、歌声と楽器音等、複数の音声成分が同時に重畳する音声から、各々の音声成分を分離する。詳細は後述する。

推定部３２は、取得部１０から供給された音声あるいは動画像を解析し、複数の画像フレームが含まれるシーンの境界を、当該境界に共起しやすい特定音や特定画像を検出することにより推定する。詳細は後述する。

解析部４２は、取得部１０から供給された音声あるいは動画像を解析し、属性情報を得る。本実施形態の属性情報は、例えば、画像フレームに出現する人物の数及び位置や、楽器の数及び位置の情報を含む。解析部４２が処理する画像フレームは、音声が対応する動画像をデコードすることで生成できる。

補正部５２は、解析部４２が得た属性情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、分離部２２が分離した１つ以上の各楽器の音声成分を補正する。分離部２２と推定部３２と解析部４２と補正部５２とは、ＣＰＵ及びＣＰＵが用いるメモリにより実現されてよい。

図１５は、分離部２２の処理を表すフローチャートである。分離部２２は、取得部１０から供給された音声を、一定間隔で分割した音声フレーム毎の特徴量に基づいて、各音声フレームに含まれている音声成分を判定する（Ｓ８０１）。本実施形態では、「歌声」、「楽器音」、「歌声＋楽器音」の３種類の音声成分を識別クラスに設定し、楽器音が検出された音声フレームから楽器の基底を学習する。歌声を含む音声フレーム、あるいは、歌声と楽器音とを含む音声フレームからは、楽器の基底を利用して歌声の基底および係数を推定する。（Ｓ８０２）。

分離部２２は、歌声及び楽器音の基底行列・係数行列が推定すると、歌声の基底行列と対応する係数行列の積により歌声のスペクトログラムを近似し、楽器音の基底行列と対応する係数行列の積で楽器音のスペクトログラムを近似する。分離部２２は、これらのスペクトログラムを逆フーリエ変換することにより音声から歌声と各楽器音とを分離する（Ｓ８０３）。なお音声成分の分離方法は、上述に限定されるものではなく、歌声と楽器音とに限定されるものでもない。

以上、分離部２２の処理について説明した。

図１６は、推定部３２の処理を表すフローチャートである。推定部３２は、取得部１０から供給された音声を一定間隔で分割した音声フレーム毎の特徴量に基づいて、当該音声フレームに含まれる音声成分を識別する（Ｓ９０１）。ここで、推定部３２が識別する音声成分としては、シーン境界に共起しやすい拍手音、ジングル音等の特定音がある。

推定部３２は、隣接する音声フレーム間で音声成分を比較し、シーンを推定する（Ｓ９０２）。例えば、推定部３２は、拍手音やジングル音等、シーンの境界に共起しやすい特定音を検出した音声フレームに対応する画像フレームから、シーン境界を推定する。

なお、音声成分の識別の精度を高めるために、分離部２２から供給された背景音の成分を対象としても構わない。さらに突発的に挿入される音声成分による判定のゆらぎに対応するために、第１の実施形態で示したようなカット検出で規定されるショットを判定の単位としてもかまわない。

図１３に示す例では、楽曲の演奏が始まる画像フレームｆ３０の直前に現れる拍手音から、シーン境界があると判定される。これにより、図１３に示す例では、画像フレームｆ２９と、画像フレームｆ３０との間に、シーンの境界があると推定され、シーンＤとシーンＥとが推定される。

なお、本例で推定部３２は、特定音からシーンの境界を推定したが、画像フレームを解析し、タイトルテロップ等の出現からシーンの境界を推定してもよい。

以上、推定部３２の処理について説明した。

図１７は、解析部４２の処理を表すフローチャートである。解析部４２は、取得部１０から供給された動画像において、処理対象の画像フレームから、当該画像フレームを縮小した縮小画像であって、互いにサイズの異なる当該縮小画像を１つ以上生成する（Ｓ１００１）。

解析部４２は、各縮小画像に探索領域を設定し、探索領域における特徴量を算出してテンプレートと照合することにより、探索領域における顔の有無を判定する（Ｓ１００２）。

解析部４２は、検出した人物の顔の領域については、顔の領域と顔の周辺の領域との共起特徴量から、予め保持してある辞書と照合することにより楽器が存在するか否かを判定する（Ｓ１００３）。ここで、楽器としては、打楽器や弦楽器などの代表的な楽器オブジェクトの他、ボーカルが保持するマイクなども学習して保持しておいてよい。解析部４２は、楽器を検出した領域から、楽器の種類、数、位置等の情報を属性情報として得る（Ｓ１００４）。

以上、解析部４２の処理について説明した。

図１８は、補正部５２の処理を表すフローチャートである。補正部５２は、解析部４２が得た属性情報に基づいて、動画像の画像フレーム毎に、対応する音声成分の補正方法を設定する（Ｓ１１０１）。本例において、属性情報は、楽器の数、楽器の種類、楽器の位置を表す情報であるとする。

この場合、補正部５２は、例えば、（１）楽器が検出された場合には、楽器の位置から、当該楽器の音が発生するように、当該楽器の音声成分を補正するよう、補正方法を設定する。（２）楽器が検出されないＢＧＭ区間では、楽曲全体をサラウンド処理により補正するよう、補正方法を設定する。

図１３に示す例において、解析部４２は、画像フレームｆ３０〜ｆ３５で楽器を検出し、画像フレームｆ３６では、楽器を検出していない。

補正部５２は、推定部３２が推定したシーンについて、画像フレーム毎に、設定した補正方法を調整する（Ｓ１１０２）。すなわち、補正部５２は、推定部３２が推定したシーンＤ及びシーンＥについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。

例えば、図１３に示す動画像の場合、シーンＤにおける画像フレームｆ２６〜ｆ２９について、楽器が検出されていない。シーンＥにおける画像フレームｆ３０〜ｆ３５について、楽器が検出されている。画像フレームｆ３６については楽器を検出していない。

よってステップＳ１１０１の段階では、シーンＥにおける画像フレームｆ３６に対応する各音声成分には、上述した（２）の補正方法が設定されている。画像フレームｆ３０〜ｆ３５に対応する各音声成分には、上述した（１）の補正方法が設定されている。

ステップＳ１１０２において、補正部５２は、推定された１つのシーンに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。ここで補正部５２は、１つのシーンに含まれる画像フレームについて設定した補正方法のうち、最も数の多い補正方法を選択し、各画像フレームに対応する音声成分の補正方法を調整してよい。

図１３に示す例では、シーンＥに含まれるショットのうち、上述した（２）の補正方法は画像フレームｆ３６の２フレームであり、上述した（１）の補正方法は画像フレームｆ３０〜ｆ３５の６フレームである。

そのため、補正部５２は、画像フレームｆ３６に対応する音声成分の補正方法を、上述した（１）に変更し、シーンＥに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。

シーンＤに含まれる画像フレームに対応する音声成分に対しては、上述した（２）の補正方法が適用される。

以上、補正部５２の処理について説明した。

本実施例によれば、同一シーン内の他のフレームの補正方法から補完して、楽器が検出されていない画像フレームについても同一の補正方法を適用するため、音声の補正方法を揺るがすことなく、安定した音声補正を行なうことができる。

（第４の実施形態）
第４の実施例に係る音声補正装置４では、動画像からカメラの動き（カメラワーク）を解析する点と、当該カメラワークに応じて音声成分を補正する点が、第３の実施形態の場合と異なる。

図１９は、音声補正装置４を表すブロック図である。音声補正装置４では、音声補正装置３の解析部４０が、解析部４２に置き換わる。補正部５０が、補正部５２に置き換わる。

解析部４３は、取得部１０から供給された音声あるいは動画像を解析し、属性情報を得る。本実施形態の属性情報は、シーンにおけるズーム、パン、ズームイン、ズームアウト等のカメラワーク情報である。解析部４３は、推定されたシーン中の各フレームに出現する物体の動きを検出し、カメラワーク情報を求めてよい。

例えば、解析部４３は、取得部１０から供給された動画像の各画像フレームを、複数の画素を含むブロックに分割する。解析部４３は、時間的に隣接する画像フレーム間において、対応する画像ブロック間での動きベクトルを算出する、ブロックマッチングを行なう。ブロックマッチングでは、ＳＡＤ（ＳｕｍｏｆＡｂｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ）やＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｆｆｅｒｅｃｅ）等の、類似度合の尺度によるテンプレート照合が用いられる。

解析部４３は、各画像フレームの画像ブロック毎の動きベクトルのヒストグラムを算出し、一定方向への動き量が多い場合には、パンやチルトを含む、上下左右への移動等カメラワークがあったと推定する。また、解析部４３は、ヒストグラムの分散が大きく、外側に放射状の動きベクトルが分布する場合はズームインのカメラワーク、内側に放射状の動きベクトルが分布する場合はズームアウトのカメラワークがあったと推定する。なおカメラワークの検出の方法は上述に限らない。

補正部５３は、解析部４３が得たカメラワーク情報に基づいて、推定されたシーンにおける各画像フレームに対応する音声成分の補正方法を設定し、出力時における音声成分の発生する位置を補正する（例えば、右側から大きく聞こえる等）。補正部５３は、シーン境界に基づいて、どのフレームに当該補正方法を設定するかを決定する。

解析部４３と補正部５３とは、ＣＰＵ及びＣＰＵが用いるメモリにより実現されてよい。

図２０は、補正部５３の処理を表すフローチャートである。補正部５３は、解析部４３が解析して得た属性情報であるカメラワーク情報に基づき、補正方法を設定する（Ｓ１２０１）。本実施形態の場合、補正部５２は、（１）ズームイン又はズームアウトを検出した場合は動き量に応じて音量を増減するよう、補正方法を設定する。（２）パン又はチルトを検出した場合は動き量に応じて左右に音声成分の発生位置を移動する。（３）カメラワークがない場合には補正を行なわないよう、補正方法を設定する。

図１３に示す例において、解析部４３は、画像フレームｆ３０〜ｆ３５間でズームアウトを検出し、ｆ３４〜ｆ３６間では、右方向への移動するカメラワークが検出している。

補正部５３は、推定部３２が推定したシーンＤ及びシーンＥについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する（Ｓ１２０２）。すなわち、補正部５２は、推定部３２が推定したシーンＤ及びシーンＥについて、画像フレーム毎に、設定した補正方法を変更するか否かを判定する。

図１３に示す例では、シーンＥに含まれるショットのうち、上述した（２）の補正方法は画像フレームｆ３５〜ｆ３６の２フレームであり、上述した（１）の補正方法は画像フレームｆ３０〜ｆ３４の５フレームである。

そのため、補正部５２は、画像フレームｆ３５〜ｆ３６に対応する音声成分に対する補正方法を、上述した（１）に変更し、シーンＥに含まれる画像フレームに対応する音声成分に対しては、同一の補正方法となるよう、補正方法を調整する。

シーンＤに含まれる画像フレームに対応する音声成分に対しては、上述した（３）の補正方法が適用される。

本実施形態では、補正部５３は、同一シーン（シーンＥ）において、他の画像フレームでのカメラワークと比較して、対応するフレームが相対的に多いカメラワークを優先して追従するように音声成分を補正する。

以上、補正部５３の処理について説明した。

本実施形態によれば、同一シーンと推定された画像フレームに対応する音声成分については、カメラワーク情報を用いて補正方法を同一にする。これにより、音声の補正方法を揺るがすことなく、安定した音声補正を行なうことができる。

上述した実施形態によれば、動画像に対応する音声を、視聴者にとって聞きやすい音声に補正することができる。

なお、上述のオブジェクト音声補正装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、取得部、分離部、推定部、解析部、補正部、合成部、出力部は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、オブジェクト領域特定装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

これまで、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１、２、３、４・・・音声補正装置
１０・・・取得部
２０、２２・・・分離部
３０、３１、３２・・・推定部
４０、４２、４３・・・解析部
５０、５１、５２、５３・・・補正部
６０・・・合成部
７０・・・出力部

Claims

動画像に対応する音声を補正する音声補正装置であって、
前記音声から１つ以上の音声成分を分離する分離部と、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する推定部と、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る解析部と、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する補正部と
を備える、音声補正装置。
前記推定部は、前記動画像の画像フレームの特徴量に基づいて、前記動画像におけるカット境界を求め、一の前記カット境界と、前記カット境界の直前にある他のカット境界と、の間に属する画像フレームの特徴量に基づいて、前記シーンを推定する、
請求項１記載の音声補正装置。
前記解析部は、画像フレームに人物が出現するか否かを属性情報として得、
前記補正部は、同一の前記シーンに含まれる画像フレームで、人物が出現した画像フレームの数と、人物が出現しない画像フレームの数と比較し、各々の数に基づいて同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
請求項２記載の音声補正装置。
前記補正部は、
人物が出現した画像フレームの数、人物が出現しない画像フレーム数のうち、画像フレーム数が多い方の画像フレームに対応する補正方法に従って、同一の前記シーンに含まれる画像フレームに対応する前記音声成分を補正する、
請求項３記載の音声補正装置。
前記推定部は、前記音声フレームに含まれる音声成分の種類を分類し、各々の前記音声フレームに対応する前記音声成分の種類に基づき、前記シーンを推定する、
請求項１記載の音声補正装置。
前記推定部は、各々の前記音声フレームのうち、予め定めた特定音が検出されたかどうかに基づいて、前記シーンを推定する、
請求項１記載の音声補正装置。
動画像に対応する音声を補正する音声補正方法であって、
前記音声から１つ以上の音声成分を分離し、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定し、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する、
音声補正装置。
動画像に対応する音声を補正するために、コンピュータを、
前記音声から１つ以上の音声成分を分離する手段と、
前記動画像の画像フレームの特徴量、あるいは、前記音声の音声フレームの特徴量のうち、少なくともいずれか一方に基づき、前記動画像中において、関連する一連の画像フレームを含むシーンを推定する手段と、
前記動画像を解析して、前記シーンに含まれる画像フレームの属性である属性情報を得る手段と、
前記属性情報に基づき、前記シーンに含まれる画像フレームに対応する前記音声成分の補正方法を決定し、決定した前記補正方法に従って前記音声成分を補正する手段と
して機能させる、音声補正プログラム。