JP4265970B2

JP4265970B2 - 音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化

Info

Publication number: JP4265970B2
Application number: JP2003560925A
Authority: JP
Inventors: カバッソン、ロマン; ペカー、カディア・エイ; ディヴァカラン、アジェイ
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2002-01-15
Filing date: 2003-01-09
Publication date: 2009-05-20
Anticipated expiration: 2023-01-09
Also published as: US6956904B2; JP2005515676A; WO2003060914A3; EP1466274A2; WO2003060914A2; US20030133511A1

Description

本発明は、一般にビデオの要約化に関し、特にビデオから抽出した、相関した動きの特徴および音声の特徴を用いてビデオを要約化することに関する。

ビデオの要約化は概して、ビデオの簡潔なあるいは概要の表現を作成するプロセスとして定義することができる(非特許文献１参照)。ビデオの要約化に関する以前の文献はほとんどが、色の特徴に基づくクラスタリングを強調してきた。これは、色特徴が抽出しやすく雑音に強いためである。要約自体は、ビデオ全体の要約、あるいはビデオの関心のあるセグメントを連結した組からなる。

動き記述子を用いてビデオの要約を作成することも可能である。米国特許出願第０９／７１５，６３９号「Adaptively Processing a Video Based on Content Characteristics of Frames in the Video」(Peker他、２０００年８月９日付で出願)、米国特許出願第０９／８３９，９２４号「Method and System for High Level Structure Analysis and Event Detection in Domain Specific Videos」(Xu他、２０００年７月６日付で出願)、米国特許出願第０９／９９７，４７９号「Unusual Event Detection Using Motion Activity Descriptors」(Divakaran、２００１年１１月１９日付で出願)、および米国特許出願第１０／００５，６２３号「Structure Analysis of Video Using Hidden Markov Models」(Divakaran他、２００１年１２月５日付で出願)を参照されたい。

他の文献として下記の非特許文献２〜４のものがあり、圧縮ドメインの動きベクトルから導き出した動き特徴の、ビデオ中の動きアクティビティおよび動きアクティビティの空間分布を測定するための使用が記載されている。このような記述子は、コンテンツおよび用途に応じて全ての高アクションまたは低アクションのショットをフィルタリングして除去することにより、ビデオ閲覧用途で成功している。

下記の非特許文献４は次のように記している。「ビデオまたは動画シーケンスを観ている人は、それを遅いシーケンス、または高速シーケンスあるいはアクションシーケンス等として知覚する。動き特徴は、ビデオセグメントにおけるこの「アクション強度」または「アクション速度」という直感を捕らえる。高「アクティビティ」の例には、「サッカー試合のゴール得点」、「バスケットボール試合の得点」、「高速カーチェイス」等といったシーンがある。一方、「ニュースアナウンサーのショット」、「インタビューシーン」、「静止ショット」等といったシーンは低アクションショットとして知覚される。ビデオコンテンツは通常、高アクティビティから低アクティビティまでの範囲にわたるため、所与のビデオシーケンス／ショットのアクティビティを正確に表現でき、上記の範囲を包括的にカバーする記述子が必要である。」

最近提案されたＭＰＥＧ−７ビデオ標準は、上記のような動きアクティビティ記述子を提供する。動きアクティビティの強度は、動きベクトルの大きさの標準偏差を適切に量子化することによって測定される。

ビデオの要約化は、動きアクティビティが実際はビデオシーケンスの要約化難易度(summarizability)を示すものであるという概念を基礎とすることができる。例えば、適応的な再生速度調整を用いて、ディスプレイにおいて一定の動きアクティビティを維持することができる。換言すればビデオの、動きアクティビティの量が少ない部分が形成する要約部分はより小さく、動きアクティビティがより大きい部分は要約の大部分を形成する。したがって、より関心の少ない部分は早送りすることができる。

A. HanjalicおよびHong Jiang Zhang著「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis」(IEEE Trans. On Circuits and Systems for Video Technology, Vol.9, No.8, December 1999) A. DivakaranおよびH. Sun著「A Descriptor for spatial distribution of motion activity」(Proc. SPIE Conference on Storage and Retrieval for Media Databases, San Jose, CA, Jan. 2000)、 K. PekerおよびA. Divakaran著「Automatic Measurement of Intensity of Motion Activity of Video Segments」(Proc. SPIE Conference on Storage and Retrieval from Multimedia Databases, San Jose, CA, Jan 2001)、 S. JeanninおよびA. Divakaran著「MPEG-7 visual motion descriptors」(IEEE Trans. Circuits and Systems for Video Technology, June 2001)

従来技術のショット検出は、特にスポーツビデオではあまりうまく機能しないことに気付く。これは、スポーツビデオのショットが通常は非常に長く、かつカメラの動きが大きいためである。したがって、ショットの概念は他のコンテンツほど意味的に重要でない。本発明の発見法はフレーム毎の解析に基づいている。

本発明は、圧縮ドメインで抽出した動きアクティビティの時間パターンを用いて圧縮ビデオを要約化するシステムおよび方法を提供する。時間パターンを、音声特徴、特に音量のピークの時間的位置と相関させる。本発明は、動きアクティビティと音声レベルの時間パターンはビデオの文法に関連しているという事実を基礎とする。非常に簡単な規則を用いることにより、ビデオのコンテンツのタイプに応じて、本発明は、ビデオの関心のない部分を廃棄すること、例えばアクティビティドメインの立ち下がりまたは立ち上がりを特徴とする関心のある事象を割り出すことによって、要約を作成する。さらに、圧縮ドメインにおける動きアクティビティおよび音声強度の抽出は、従来技術のカラーベースの要約化よりも遥かに簡単である。他の圧縮ドメインの特徴またはより複雑な規則を用いて要約精度をさらに上げることもできる。

より詳細には、システムおよび方法は、まず最初にビデオのサブサンプリングした音声信号中の音声ピークを検出することにより、圧縮ビデオを要約化する。次に、ビデオ中の動きアクティビティを抽出してフィルタリングする。フィルタリングした動きアクティビティを量子化して、各フレームにつき１パルスの連続したデジタルパルスストリームにする。動きアクティビティが予め決められた閾値を上回る場合、フレームの持続時間にわたってパルスは”１”、そうでない場合パルスは”０”である。各量子化したパルスを、それぞれの立ち上がりおよび立ち下がりのタイミングに関してテストする。パルスがテストの条件を満たした場合、ビデオ中の関心のある事象に関連する候補パルスとして上記パルスを選択し、そうでない場合は当該パルスを廃棄する(すなわち”０”に設定する)。候補パルスを音声ピークと時間的に相関させ、パルスとピークの間のパターンを調べる。相関のパターンにより、ビデオを関心のない部分と関心のある部分に区分化し、要約化することができる。

本発明の発見法はフレーム毎の解析に基づいている。まず最初に、ピーク検出技法を用いて、ビデオ中の音声ピークの時間軸上の位置を見つける。また、各Ｐフレームの動きアクティビティを求めることによって、時間的な動きアクティビティ信号も得る。次に、例えば１０サンプルの移動平均を、続いて中央値フィルタされるように適用することによって、動きアクティビティ信号を平滑化する。動きアクティビティ信号を２つのレベル(”０”と”１”)に量子化し、量子化されたパルスを予め決められたタイミング情報に従って選択および変換する。変換したパルスを音声ピークと結合し、ピークとパルスの間のタイミングの関係を相関させて、ビデオを関心のある部分と関心のない部分に区分化する。これらの部分は、ビデオを要約化するために用いることができる。

本方法は、全ての関心のある事象を正確に突き止めるのではなく、視覚的に満足できる動的な(moving)要約を提供する。本発明の要約化のシステムおよび方法は、スポーツビデオの関心のない部分のほとんどを効果的にフィルタリングする。

(ビデオの要約化の方法およびシステム)
図１は本発明によるビデオの要約化の方法およびシステムのフロー図である。本発明によるビデオの要約化は、２つの別個の部分、すなわち音声信号１０１およびビデオ信号を用いて圧縮ビデオ１００から主要部分を抽出する。以下で詳述するように、音声部分１０１には音声の大きさの抽出１１０を行い、ビデオ部分１０２には動きアクティビティの抽出１４０を行う。

(音声の大きさの抽出)
音声の大きさの抽出１１０は、平均化により、例えばビデオ１００の４４ＫＨｚの音声信号から１ＫＨｚの音量曲線(volume contour)１２０へのサブサンプルを処理する。次に、サブサンプリングした１ＫＨｚの信号１２０にスライディングウインドウを適用することによってピーク検出１３０を行う。スライディングウインドウ(ｗｎｄ)は、例えば１分(ｍｎ)の幅を有し、３０秒のステップ単位で時間的に前方へスライドする。各時間ステップにおいて、極小値(localMin)、最大値(globalMax)、および最小値(globalMin)を用いて
(localMax−localMin)＞(globalMax−globalMin)／３
である場合に、音量極大値(localMax)をピークとして割り出す。最大値および最小値は予め決めておくことができる。したがって、ビデオ１００全体にわたって音声ピークを検出する。他の音声ピーク検出技法も用いることができることを留意すべきである。

(動きアクティビティの抽出)
ビデオの動きアクティビティの抽出プロセス１４０はまず、圧縮ビデオ１００中の各Ｐフレームの動きアクティビティ(ＭＡ)１４１を求める。この動きアクティビティ１４１は、各Ｐフレームの動きベクトルの大きさの平均値として測定する。次に、抽出した動きアクティビティに移動平均フィルタ(ＭＡ)および移動中央値フィルタ(moving median filter)(ＭＭ)１４２を適用する。これにより、抽出した動きアクティビティの値を著しく平滑化し、ビデオ中の雑音を相殺するようにする。

(動きアクティビティの量子化)
次にバイナリ閾値を用いて、平滑化した動きアクティビティの値をフレーム毎に量子化し(１５０)、ビデオ全体を表す連続した量子化信号を生成する。特定のフレームの動きアクティビティの値がビデオのコンテンツ全体の動きアクティビティの平均値の２分の１を上回る場合、量子化した動きアクティビティの値をそのフレームの持続時間にわたって”１”に、そうでない場合は”０”に設定する。ビデオの動きアクティビティの値の平均値も予め決めておくことができる。

量子化１５０はビデオ１００を、図１に示すような連続した量子化信号のデジタルパルスストリームとして表現する。”１”のすなわち高いパルスが、高い動きアクティビティレベルを有するビデオのフレームの持続時間にわたって延び、”０”のすなわち低いパルスが低い動きアクティビティレベルを有するビデオのフレームにわたって延びる。特に重要なのは、以下に記載する、量子化信号のパルスの立ち下がりである。

(パルス選択)
次に、ビデオ１００の動きアクティビティを表す量子化信号のパルスストリームに特定のコンテンツの発見法(heuristic：ヒューリスティック)を適用することができる。

選択テスト１６０を各立ち下がり１６１(すなわち”１”から”０”への、あるいは高から低への移行)に適用する。アクティビティが少なくとも４秒間レベル”１”であった後でレベル”０”になるかどうかをテストする。またテストにより、量子化信号がその後、例えば、少なくとも０．４秒間レベル”０”であり続けるかを確かめる。立ち下がりがこのテストを満たした場合、その立ち下がりを、ビデオ中の関心のある事象の位置を見つけるための候補として選択する。選択１６０に用いられる正確なタイミングは、用いる発見法、要約化すべきビデオのコンテンツに応じて変化する可能性があることに留意すべきである。

(量子化信号の変換)
さらに量子化信号に対し、上記の選択テストを満たす立ち下がりを有するパルスのみについて変換１７０を行う。上記の要件を満たさないパルスは量子化信号から廃棄される。すなわち、それらのパルスは”０”に設定される。選択された立ち下がりの４秒前の時間に印を付け、この時間を、新しい立ち上がりが上記選択された立ち下がりに関連付けられるべき位置として指定する。したがって変換プロセス１７０の終わりに、ビデオ１００のコンテンツ全体の時間軸にわたって、４秒幅のパルスの組が得られる。４秒間のパルスの各々は、ビデオ中の関心のある事象に関連する可能性がある。この背後にある直感的な理由付けとなるのは、ビデオ中で関心のある事象が起きた時はいつでも、通常はその直後にアクティビティが途切れることである。

例えばスポーツビデオにおいて、得点事象の後にはプレーが中断する。また、関心のある事象の前には通常、連続して広がる高アクティビティがある。これらのアクティビティレベルの移行の正確なタイミングは当然、ビデオコンテンツのドメインに依存する。

(音声ピークとアクティビティパルスの結合)
変換した４秒間のパルスを、ステップ１３０で検出した音声ピークと時間的に結合して(１８０)、時間的に相関する動きアクティビティパルス１８１と音声ピーク１８２の組を得る。

動きアクティビティを音声ピークと相関させることに対する直感的な動機となるのは、関心のある事象を見越した、あるいはその後の音量の局所的な上昇(例えばよく知られている「ドラムロール」またはスポーツイベントを観戦している観客の反応)を実際に測定していることである。

(パターン検出)
ピークがビデオ中の関心のある事象と関連しているかどうかを判定するために、全ての音声ピーク１８２を以下のパターン検出テスト１９０にかける。このテストとともに事象の時間幅を得る。

第１に、音声ピーク１８２の後の１０秒未満に立ち上がりがあるか否かを確かめるテストを行う(１９１)。真である場合、音声ピーク１８２から始まってその後の最初の立ち下がりで終わる持続時間全体を関心のある事象１９１として指定する。偽である場合、その音声ピークは動きアクティビティの次の立ち下がりと相関せず、音声ピークの後に関心のある事象は見られなかったと宣言する。なお、この方法で得た関心のある事象１９１の持続時間は、例えば音声ピークと関連する立ち下がりの相対的な位置に応じて、４秒〜１４秒の間で異なる場合がある。

第２に、音声ピークの前２秒未満に立ち下がりがあるかをテストする。真である場合、立ち上がりの直前から始まって音声ピークまで続く全持続時間を、関心のある事象１９２として指定する。なお、こうして得た関心のある事象１９２の持続時間は、例えば６秒〜４秒異なる場合がある。

(事象の連結)
関心のある事象に関連するパターンを検出した後、上記で得た関心のある事象の持続時間を連結して(１９５)、音声ピークに関連する最終的な関心のある事象を形成する。したがって、例えば第１および第２のテストが偽である場合は関心のある事象がなく、そうでない場合は関心のある事象がある。このプロセスは本質的に、ビデオ１００を時間軸上で関心のある事象と関心のない事象に区分化する。するとこの区分化を用いて、例えば関心のないフレームを全て廃棄し、関心のあるフレームのみを連結して要約とすることによって、入力ビデオ１００を要約化することができる。

上述のように、本発明は、ビデオの「関心のない」フレームを選択的に飛ばす一方で「関心のある」フレームを保持することによって、ビデオを要約化する。この要約化は、ビデオ中のアクティビティのドメイン知識(domain knowledge)を動きアクティビティと音声ピークの時間パターンに適用して、ビデオシーケンスの関心のある部分と関心のない部分とを判定する。

本発明を好ましい実施の形態の例として記載してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および変更をすべて網羅することである。

本発明によるビデオの要約化の方法およびシステムのフロー図である。

符号の説明

１０１圧縮ビデオ、１１０音声の大きさの抽出、１２０音量曲線、１３０ピーク検出、１４０動きアクティビティの抽出、１５０量子化、１６０選択、１７０変換、１８０結合、１９０パターン検出。

Claims

圧縮ビデオの音声信号中の音声ピークを検出するステップと、
前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
前記ビデオの前記音声信号をサブサンプリングして音量曲線にするステップと、
前記音量曲線にスライディングウインドウを適用して、特定の音声ピークに対応する極大値を検出するステップと、
を含み、
前記極大値 (localMax) は、極小値 (localMin) 、予め決められた最大値 (globalMax) および予め決められた最小値 (globalMin) を用いて、
(localMax − localMin) ＞ (globalMax − globalMin) ／３
である場合に検出される圧縮ビデオを要約化する方法。
圧縮ビデオの音声信号中の音声ピークを検出するステップと、
前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
前記ビデオの前記音声信号をサブサンプリングして音量曲線にするステップと、
前記音量曲線にスライディングウインドウを適用して、特定の音声ピークに対応する極大値を検出するステップと、
を含み、
前記スライディングウインドウは１分の持続時間を有し、３０秒のステップ単位で時間的に前方へスライドする圧縮ビデオを要約化する方法。
圧縮ビデオの音声信号中の音声ピークを検出するステップと、
前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
前記ビデオ中の各Ｐフレームから前記動きアクティビティを抽出するステップと、
前記抽出した動きアクティビティに移動平均フィルタおよび移動中央値フィルタを適用して、平滑化された動きアクティビティを生成するステップと、
各Ｐフレームの前記平滑化された動きアクティビティを、予め決められた閾値を上回る場合は”１”に、そうでない場合は”０”に設定し、前記動きアクティビティを前記連続したパルスストリームとして量子化するステップと、
を含む圧縮ビデオを要約化する方法。
前記予め決められた閾値は前記圧縮ビデオの動きアクティビティの平均値の２分の１である請求項３に記載の圧縮ビデオを要約化する方法。
各パルスをテストし、前記量子化した動きアクティビティが、”０”になる前に少なくとも第１の予め決められた時間長の間”１”であって、そして第２の予め決められた時間長の間”０”であり続けるかどうかを判定するステップと、
前記ビデオ中の特定の関心のある事象に関連する候補パルスとして前記テストパルスを選択するステップと、
をさらに含む請求項３に記載の圧縮ビデオを要約化する方法。
前記テストに落ちたパルスを前記連続したパルスストリームから廃棄するステップと、
各候補パルスを、第３の予め決められた時間長を持つように変換するステップと、
をさらに含む請求項５に記載の圧縮ビデオを要約化する方法。
前記変換したパルスを時間的に前記検出した音声ピークと結合し、変換したパルスと音声ピークの時間的に相関した組を得るステップをさらに含む請求項６に記載の圧縮ビデオを要約化する方法。
特定の時間的に相関した音声ピークの後の特定の変換したパルスの立ち上がりが１０秒未満であるか否かをテストするステップと、
真である場合に、前記特定の音声ピークから始まり該特定の音声ピークの後の１番目の立ち下がりで終わる全持続時間を特定の関心のある事象として指定するステップと、
をさらに含む請求項７に記載の圧縮ビデオを要約化する方法。
特定の音声ピークの前の特定の変換したパルスの立ち下がりが２秒未満であるか否かをテストするステップと、
真である場合に、直前の立ち上がりから始まり前記特定の音声ピークで終わる全持続時間を特定の関心のある事象として指定するステップと、
をさらに含む請求項７に記載の圧縮ビデオを要約化する方法。
前記関心のない事象に関連する前記ビデオのフレームを廃棄するステップと、
前記関心のある事象に関連する前記ビデオのフレームを連結して、前記ビデオの要約を作成するステップと、をさらに含む請求項１から９までのいずれか１項に記載の圧縮ビデオを要約化する方法。
各Ｐフレームの動きベクトルの大きさの平均値を測定し、前記動きアクティビティを抽出するステップをさらに含む請求項１から１０までのいずれか１項に記載の圧縮ビデオを要約化する方法。
圧縮ビデオの音声信号中の音声ピークを検出する手段と、
前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化する手段と、
前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化する手段と、
前記ビデオ中の各Ｐフレームから前記動きアクティビティを抽出する手段と、
前記抽出した動きアクティビティに移動平均フィルタおよび移動中央値フィルタを適用して、平滑化された動きアクティビティを生成する手段と、
各Ｐフレームの前記平滑化された動きアクティビティを、予め決められた閾値を上回る場合は”１”に、そうでない場合は”０”に設定して、前記動きアクティビティを前記連続したパルスストリームとして量子化する手段と、
を備える圧縮ビデオを要約化するシステム。
各パルスをテストして、前記量子化した動きアクティビティが、”０”になる前に少なくとも第１の予め決められた時間長の間”１”であって、そして第２の予め決められた時間長の間”０”であり続けるかどうかを判定する手段と、
前記ビデオ中の特定の関心のある事象に関連する候補パルスとして前記テストパルスを選択する手段と、
をさらに備える請求項１２に記載の圧縮ビデオを要約化するシステム。
前記関心のない事象に関連する前記ビデオのフレームを廃棄する手段と、
前記関心のある事象に関連する前記ビデオのフレームを連結して、前記ビデオの要約を作成する手段と、
をさらに備える請求項１２に記載の圧縮ビデオを要約化するシステム。