JP4265970B2 - 音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化 - Google Patents

音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化 Download PDF

Info

Publication number
JP4265970B2
JP4265970B2 JP2003560925A JP2003560925A JP4265970B2 JP 4265970 B2 JP4265970 B2 JP 4265970B2 JP 2003560925 A JP2003560925 A JP 2003560925A JP 2003560925 A JP2003560925 A JP 2003560925A JP 4265970 B2 JP4265970 B2 JP 4265970B2
Authority
JP
Japan
Prior art keywords
video
motion activity
summarizing
pulse
compressed video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003560925A
Other languages
English (en)
Other versions
JP2005515676A (ja
Inventor
カバッソン、ロマン
ペカー、カディア・エイ
ディヴァカラン、アジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2005515676A publication Critical patent/JP2005515676A/ja
Application granted granted Critical
Publication of JP4265970B2 publication Critical patent/JP4265970B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Television Systems (AREA)

Description

本発明は、一般にビデオの要約化に関し、特にビデオから抽出した、相関した動きの特徴および音声の特徴を用いてビデオを要約化することに関する。
ビデオの要約化は概して、ビデオの簡潔なあるいは概要の表現を作成するプロセスとして定義することができる(非特許文献1参照)。ビデオの要約化に関する以前の文献はほとんどが、色の特徴に基づくクラスタリングを強調してきた。これは、色特徴が抽出しやすく雑音に強いためである。要約自体は、ビデオ全体の要約、あるいはビデオの関心のあるセグメントを連結した組からなる。
動き記述子を用いてビデオの要約を作成することも可能である。米国特許出願第09/715,639号「Adaptively Processing a Video Based on Content Characteristics of Frames in the Video」(Peker他、2000年8月9日付で出願)、米国特許出願第09/839,924号「Method and System for High Level Structure Analysis and Event Detection in Domain Specific Videos」(Xu他、2000年7月6日付で出願)、米国特許出願第09/997,479号「Unusual Event Detection Using Motion Activity Descriptors」(Divakaran、2001年11月19日付で出願)、および米国特許出願第10/005,623号「Structure Analysis of Video Using Hidden Markov Models」(Divakaran他、2001年12月5日付で出願)を参照されたい。
他の文献として下記の非特許文献2〜4のものがあり、圧縮ドメインの動きベクトルから導き出した動き特徴の、ビデオ中の動きアクティビティおよび動きアクティビティの空間分布を測定するための使用が記載されている。このような記述子は、コンテンツおよび用途に応じて全ての高アクションまたは低アクションのショットをフィルタリングして除去することにより、ビデオ閲覧用途で成功している。
下記の非特許文献4は次のように記している。「ビデオまたは動画シーケンスを観ている人は、それを遅いシーケンス、または高速シーケンスあるいはアクションシーケンス等として知覚する。動き特徴は、ビデオセグメントにおけるこの「アクション強度」または「アクション速度」という直感を捕らえる。高「アクティビティ」の例には、「サッカー試合のゴール得点」、「バスケットボール試合の得点」、「高速カーチェイス」等といったシーンがある。一方、「ニュースアナウンサーのショット」、「インタビューシーン」、「静止ショット」等といったシーンは低アクションショットとして知覚される。ビデオコンテンツは通常、高アクティビティから低アクティビティまでの範囲にわたるため、所与のビデオシーケンス/ショットのアクティビティを正確に表現でき、上記の範囲を包括的にカバーする記述子が必要である。」
最近提案されたMPEG−7ビデオ標準は、上記のような動きアクティビティ記述子を提供する。動きアクティビティの強度は、動きベクトルの大きさの標準偏差を適切に量子化することによって測定される。
ビデオの要約化は、動きアクティビティが実際はビデオシーケンスの要約化難易度(summarizability)を示すものであるという概念を基礎とすることができる。例えば、適応的な再生速度調整を用いて、ディスプレイにおいて一定の動きアクティビティを維持することができる。換言すればビデオの、動きアクティビティの量が少ない部分が形成する要約部分はより小さく、動きアクティビティがより大きい部分は要約の大部分を形成する。したがって、より関心の少ない部分は早送りすることができる。
A. HanjalicおよびHong Jiang Zhang著「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster-Validity Analysis」(IEEE Trans. On Circuits and Systems for Video Technology, Vol.9, No.8, December 1999) A. DivakaranおよびH. Sun著「A Descriptor for spatial distribution of motion activity」(Proc. SPIE Conference on Storage and Retrieval for Media Databases, San Jose, CA, Jan. 2000)、 K. PekerおよびA. Divakaran著「Automatic Measurement of Intensity of Motion Activity of Video Segments」(Proc. SPIE Conference on Storage and Retrieval from Multimedia Databases, San Jose, CA, Jan 2001)、 S. JeanninおよびA. Divakaran著「MPEG-7 visual motion descriptors」(IEEE Trans. Circuits and Systems for Video Technology, June 2001)
従来技術のショット検出は、特にスポーツビデオではあまりうまく機能しないことに気付く。これは、スポーツビデオのショットが通常は非常に長く、かつカメラの動きが大きいためである。したがって、ショットの概念は他のコンテンツほど意味的に重要でない。本発明の発見法はフレーム毎の解析に基づいている。
本発明は、圧縮ドメインで抽出した動きアクティビティの時間パターンを用いて圧縮ビデオを要約化するシステムおよび方法を提供する。時間パターンを、音声特徴、特に音量のピークの時間的位置と相関させる。本発明は、動きアクティビティと音声レベルの時間パターンはビデオの文法に関連しているという事実を基礎とする。非常に簡単な規則を用いることにより、ビデオのコンテンツのタイプに応じて、本発明は、ビデオの関心のない部分を廃棄すること、例えばアクティビティドメインの立ち下がりまたは立ち上がりを特徴とする関心のある事象を割り出すことによって、要約を作成する。さらに、圧縮ドメインにおける動きアクティビティおよび音声強度の抽出は、従来技術のカラーベースの要約化よりも遥かに簡単である。他の圧縮ドメインの特徴またはより複雑な規則を用いて要約精度をさらに上げることもできる。
より詳細には、システムおよび方法は、まず最初にビデオのサブサンプリングした音声信号中の音声ピークを検出することにより、圧縮ビデオを要約化する。次に、ビデオ中の動きアクティビティを抽出してフィルタリングする。フィルタリングした動きアクティビティを量子化して、各フレームにつき1パルスの連続したデジタルパルスストリームにする。動きアクティビティが予め決められた閾値を上回る場合、フレームの持続時間にわたってパルスは”1”、そうでない場合パルスは”0”である。各量子化したパルスを、それぞれの立ち上がりおよび立ち下がりのタイミングに関してテストする。パルスがテストの条件を満たした場合、ビデオ中の関心のある事象に関連する候補パルスとして上記パルスを選択し、そうでない場合は当該パルスを廃棄する(すなわち”0”に設定する)。候補パルスを音声ピークと時間的に相関させ、パルスとピークの間のパターンを調べる。相関のパターンにより、ビデオを関心のない部分と関心のある部分に区分化し、要約化することができる。
本発明の発見法はフレーム毎の解析に基づいている。まず最初に、ピーク検出技法を用いて、ビデオ中の音声ピークの時間軸上の位置を見つける。また、各Pフレームの動きアクティビティを求めることによって、時間的な動きアクティビティ信号も得る。次に、例えば10サンプルの移動平均を、続いて中央値フィルタされるように適用することによって、動きアクティビティ信号を平滑化する。動きアクティビティ信号を2つのレベル(”0”と”1”)に量子化し、量子化されたパルスを予め決められたタイミング情報に従って選択および変換する。変換したパルスを音声ピークと結合し、ピークとパルスの間のタイミングの関係を相関させて、ビデオを関心のある部分と関心のない部分に区分化する。これらの部分は、ビデオを要約化するために用いることができる。
本方法は、全ての関心のある事象を正確に突き止めるのではなく、視覚的に満足できる動的な(moving)要約を提供する。本発明の要約化のシステムおよび方法は、スポーツビデオの関心のない部分のほとんどを効果的にフィルタリングする。
(ビデオの要約化の方法およびシステム)
図1は本発明によるビデオの要約化の方法およびシステムのフロー図である。本発明によるビデオの要約化は、2つの別個の部分、すなわち音声信号101およびビデオ信号を用いて圧縮ビデオ100から主要部分を抽出する。以下で詳述するように、音声部分101には音声の大きさの抽出110を行い、ビデオ部分102には動きアクティビティの抽出140を行う。
(音声の大きさの抽出)
音声の大きさの抽出110は、平均化により、例えばビデオ100の44KHzの音声信号から1KHzの音量曲線(volume contour)120へのサブサンプルを処理する。次に、サブサンプリングした1KHzの信号120にスライディングウインドウを適用することによってピーク検出130を行う。スライディングウインドウ(wnd)は、例えば1分(mn)の幅を有し、30秒のステップ単位で時間的に前方へスライドする。各時間ステップにおいて、極小値(localMin)、最大値(globalMax)、および最小値(globalMin)を用いて
(localMax−localMin)>(globalMax−globalMin)/3
である場合に、音量極大値(localMax)をピークとして割り出す。最大値および最小値は予め決めておくことができる。したがって、ビデオ100全体にわたって音声ピークを検出する。他の音声ピーク検出技法も用いることができることを留意すべきである。
(動きアクティビティの抽出)
ビデオの動きアクティビティの抽出プロセス140はまず、圧縮ビデオ100中の各Pフレームの動きアクティビティ(MA)141を求める。この動きアクティビティ141は、各Pフレームの動きベクトルの大きさの平均値として測定する。次に、抽出した動きアクティビティに移動平均フィルタ(MA)および移動中央値フィルタ(moving median filter)(MM)142を適用する。これにより、抽出した動きアクティビティの値を著しく平滑化し、ビデオ中の雑音を相殺するようにする。
(動きアクティビティの量子化)
次にバイナリ閾値を用いて、平滑化した動きアクティビティの値をフレーム毎に量子化し(150)、ビデオ全体を表す連続した量子化信号を生成する。特定のフレームの動きアクティビティの値がビデオのコンテンツ全体の動きアクティビティの平均値の2分の1を上回る場合、量子化した動きアクティビティの値をそのフレームの持続時間にわたって”1”に、そうでない場合は”0”に設定する。ビデオの動きアクティビティの値の平均値も予め決めておくことができる。
量子化150はビデオ100を、図1に示すような連続した量子化信号のデジタルパルスストリームとして表現する。”1”のすなわち高いパルスが、高い動きアクティビティレベルを有するビデオのフレームの持続時間にわたって延び、”0”のすなわち低いパルスが低い動きアクティビティレベルを有するビデオのフレームにわたって延びる。特に重要なのは、以下に記載する、量子化信号のパルスの立ち下がりである。
(パルス選択)
次に、ビデオ100の動きアクティビティを表す量子化信号のパルスストリームに特定のコンテンツの発見法(heuristic:ヒューリスティック)を適用することができる。
選択テスト160を各立ち下がり161(すなわち”1”から”0”への、あるいは高から低への移行)に適用する。アクティビティが少なくとも4秒間レベル”1”であった後でレベル”0”になるかどうかをテストする。またテストにより、量子化信号がその後、例えば、少なくとも0.4秒間レベル”0”であり続けるかを確かめる。立ち下がりがこのテストを満たした場合、その立ち下がりを、ビデオ中の関心のある事象の位置を見つけるための候補として選択する。選択160に用いられる正確なタイミングは、用いる発見法、要約化すべきビデオのコンテンツに応じて変化する可能性があることに留意すべきである。
(量子化信号の変換)
さらに量子化信号に対し、上記の選択テストを満たす立ち下がりを有するパルスのみについて変換170を行う。上記の要件を満たさないパルスは量子化信号から廃棄される。すなわち、それらのパルスは”0”に設定される。選択された立ち下がりの4秒前の時間に印を付け、この時間を、新しい立ち上がりが上記選択された立ち下がりに関連付けられるべき位置として指定する。したがって変換プロセス170の終わりに、ビデオ100のコンテンツ全体の時間軸にわたって、4秒幅のパルスの組が得られる。4秒間のパルスの各々は、ビデオ中の関心のある事象に関連する可能性がある。この背後にある直感的な理由付けとなるのは、ビデオ中で関心のある事象が起きた時はいつでも、通常はその直後にアクティビティが途切れることである。
例えばスポーツビデオにおいて、得点事象の後にはプレーが中断する。また、関心のある事象の前には通常、連続して広がる高アクティビティがある。これらのアクティビティレベルの移行の正確なタイミングは当然、ビデオコンテンツのドメインに依存する。
(音声ピークとアクティビティパルスの結合)
変換した4秒間のパルスを、ステップ130で検出した音声ピークと時間的に結合して(180)、時間的に相関する動きアクティビティパルス181と音声ピーク182の組を得る。
動きアクティビティを音声ピークと相関させることに対する直感的な動機となるのは、関心のある事象を見越した、あるいはその後の音量の局所的な上昇(例えばよく知られている「ドラムロール」またはスポーツイベントを観戦している観客の反応)を実際に測定していることである。
(パターン検出)
ピークがビデオ中の関心のある事象と関連しているかどうかを判定するために、全ての音声ピーク182を以下のパターン検出テスト190にかける。このテストとともに事象の時間幅を得る。
第1に、音声ピーク182の後の10秒未満に立ち上がりがあるか否かを確かめるテストを行う(191)。真である場合、音声ピーク182から始まってその後の最初の立ち下がりで終わる持続時間全体を関心のある事象191として指定する。偽である場合、その音声ピークは動きアクティビティの次の立ち下がりと相関せず、音声ピークの後に関心のある事象は見られなかったと宣言する。なお、この方法で得た関心のある事象191の持続時間は、例えば音声ピークと関連する立ち下がりの相対的な位置に応じて、4秒〜14秒の間で異なる場合がある。
第2に、音声ピークの前2秒未満に立ち下がりがあるかをテストする。真である場合、立ち上がりの直前から始まって音声ピークまで続く全持続時間を、関心のある事象192として指定する。なお、こうして得た関心のある事象192の持続時間は、例えば6秒〜4秒異なる場合がある。
(事象の連結)
関心のある事象に関連するパターンを検出した後、上記で得た関心のある事象の持続時間を連結して(195)、音声ピークに関連する最終的な関心のある事象を形成する。したがって、例えば第1および第2のテストが偽である場合は関心のある事象がなく、そうでない場合は関心のある事象がある。このプロセスは本質的に、ビデオ100を時間軸上で関心のある事象と関心のない事象に区分化する。するとこの区分化を用いて、例えば関心のないフレームを全て廃棄し、関心のあるフレームのみを連結して要約とすることによって、入力ビデオ100を要約化することができる。
上述のように、本発明は、ビデオの「関心のない」フレームを選択的に飛ばす一方で「関心のある」フレームを保持することによって、ビデオを要約化する。この要約化は、ビデオ中のアクティビティのドメイン知識(domain knowledge)を動きアクティビティと音声ピークの時間パターンに適用して、ビデオシーケンスの関心のある部分と関心のない部分とを判定する。
本発明を好ましい実施の形態の例として記載してきたが、本発明の精神および範囲内で様々な他の適用および変更を行うことができることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および変更をすべて網羅することである。
本発明によるビデオの要約化の方法およびシステムのフロー図である。
符号の説明
101 圧縮ビデオ、110 音声の大きさの抽出、120 音量曲線、130 ピーク検出、140 動きアクティビティの抽出、150 量子化、160 選択、170 変換、180 結合、190 パターン検出。

Claims (14)

  1. 圧縮ビデオの音声信号中の音声ピークを検出するステップと、
    前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
    前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
    前記ビデオの前記音声信号をサブサンプリングして音量曲線にするステップと、
    前記音量曲線にスライディングウインドウを適用して、特定の音声ピークに対応する極大値を検出するステップと、
    を含み、
    前記極大値 (localMax) は、極小値 (localMin) 、予め決められた最大値 (globalMax) および予め決められた最小値 (globalMin) を用いて、
    (localMax localMin) (globalMax globalMin) /3
    である場合に検出される圧縮ビデオを要約化する方法。
  2. 圧縮ビデオの音声信号中の音声ピークを検出するステップと、
    前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
    前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
    前記ビデオの前記音声信号をサブサンプリングして音量曲線にするステップと、
    前記音量曲線にスライディングウインドウを適用して、特定の音声ピークに対応する極大値を検出するステップと、
    を含み、
    前記スライディングウインドウは1分の持続時間を有し、30秒のステップ単位で時間的に前方へスライドする圧縮ビデオを要約化する方法。
  3. 圧縮ビデオの音声信号中の音声ピークを検出するステップと、
    前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化するステップと、
    前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化するステップと、
    前記ビデオ中の各Pフレームから前記動きアクティビティを抽出するステップと、
    前記抽出した動きアクティビティに移動平均フィルタおよび移動中央値フィルタを適用して、平滑化された動きアクティビティを生成するステップと、
    各Pフレームの前記平滑化された動きアクティビティを、予め決められた閾値を上回る場合は”1”に、そうでない場合は”0”に設定し、前記動きアクティビティを前記連続したパルスストリームとして量子化するステップと、
    を含む圧縮ビデオを要約化する方法。
  4. 前記予め決められた閾値は前記圧縮ビデオの動きアクティビティの平均値の2分の1である請求項3に記載の圧縮ビデオを要約化する方法。
  5. 各パルスをテストし、前記量子化した動きアクティビティが、”0”になる前に少なくとも第1の予め決められた時間長の間”1”であって、そして第2の予め決められた時間長の間”0”であり続けるかどうかを判定するステップと、
    前記ビデオ中の特定の関心のある事象に関連する候補パルスとして前記テストパルスを選択するステップと、
    をさらに含む請求項3に記載の圧縮ビデオを要約化する方法。
  6. 前記テストに落ちたパルスを前記連続したパルスストリームから廃棄するステップと、
    各候補パルスを、第3の予め決められた時間長を持つように変換するステップと、
    をさらに含む請求項5に記載の圧縮ビデオを要約化する方法。
  7. 前記変換したパルスを時間的に前記検出した音声ピークと結合し、変換したパルスと音声ピークの時間的に相関した組を得るステップをさらに含む請求項6に記載の圧縮ビデオを要約化する方法。
  8. 特定の時間的に相関した音声ピークの後の特定の変換したパルスの立ち上がりが10秒未満であるか否かをテストするステップと、
    真である場合に、前記特定の音声ピークから始まり該特定の音声ピークの後の1番目の立ち下がりで終わる全持続時間を特定の関心のある事象として指定するステップと、
    をさらに含む請求項7に記載の圧縮ビデオを要約化する方法。
  9. 特定の音声ピークの前の特定の変換したパルスの立ち下がりが2秒未満であるか否かをテストするステップと、
    真である場合に、直前の立ち上がりから始まり前記特定の音声ピークで終わる全持続時間を特定の関心のある事象として指定するステップと、
    をさらに含む請求項7に記載の圧縮ビデオを要約化する方法。
  10. 前記関心のない事象に関連する前記ビデオのフレームを廃棄するステップと、
    前記関心のある事象に関連する前記ビデオのフレームを連結して、前記ビデオの要約を作成するステップと、をさらに含む請求項1から9までのいずれか1項に記載の圧縮ビデオを要約化する方法。
  11. 各Pフレームの動きベクトルの大きさの平均値を測定し、前記動きアクティビティを抽出するステップをさらに含む請求項1から10までのいずれか1項に記載の圧縮ビデオを要約化する方法。
  12. 圧縮ビデオの音声信号中の音声ピークを検出する手段と、
    前記ビデオ中の動きアクティビティを連続したパルスストリームとして量子化する手段と、
    前記音声ピークを前記量子化したパルスストリームと相関させて、前記ビデオ中の関心のない事象と関心のある事象を区別して該ビデオを要約化する手段と、
    前記ビデオ中の各Pフレームから前記動きアクティビティを抽出する手段と、
    前記抽出した動きアクティビティに移動平均フィルタおよび移動中央値フィルタを適用して、平滑化された動きアクティビティを生成する手段と、
    各Pフレームの前記平滑化された動きアクティビティを、予め決められた閾値を上回る場合は”1”に、そうでない場合は”0”に設定して、前記動きアクティビティを前記連続したパルスストリームとして量子化する手段と、
    を備える圧縮ビデオを要約化するシステム。
  13. 各パルスをテストして、前記量子化した動きアクティビティが、”0”になる前に少なくとも第1の予め決められた時間長の間”1”であって、そして第2の予め決められた時間長の間”0”であり続けるかどうかを判定する手段と、
    前記ビデオ中の特定の関心のある事象に関連する候補パルスとして前記テストパルスを選択する手段と、
    をさらに備える請求項12に記載の圧縮ビデオを要約化するシステム。
  14. 前記関心のない事象に関連する前記ビデオのフレームを廃棄する手段と、
    前記関心のある事象に関連する前記ビデオのフレームを連結して、前記ビデオの要約を作成する手段と、
    をさらに備える請求項12に記載の圧縮ビデオを要約化するシステム。
JP2003560925A 2002-01-15 2003-01-09 音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化 Expired - Fee Related JP4265970B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/046,790 US6956904B2 (en) 2002-01-15 2002-01-15 Summarizing videos using motion activity descriptors correlated with audio features
PCT/JP2003/000128 WO2003060914A2 (en) 2002-01-15 2003-01-09 Summarizing videos using motion activity descriptors correlated with audio features

Publications (2)

Publication Number Publication Date
JP2005515676A JP2005515676A (ja) 2005-05-26
JP4265970B2 true JP4265970B2 (ja) 2009-05-20

Family

ID=21945406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003560925A Expired - Fee Related JP4265970B2 (ja) 2002-01-15 2003-01-09 音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化

Country Status (4)

Country Link
US (1) US6956904B2 (ja)
EP (1) EP1466274A2 (ja)
JP (1) JP4265970B2 (ja)
WO (1) WO2003060914A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3774662B2 (ja) * 2000-12-27 2006-05-17 キヤノン株式会社 画像処理装置、画像処理システム、画像処理方法、プログラム、及び記録媒体
US7593618B2 (en) * 2001-03-29 2009-09-22 British Telecommunications Plc Image processing for analyzing video content
JP4426743B2 (ja) * 2001-09-13 2010-03-03 パイオニア株式会社 映像情報要約装置、映像情報要約方法および映像情報要約処理プログラム
US7120873B2 (en) * 2002-01-28 2006-10-10 Sharp Laboratories Of America, Inc. Summarization of sumo video content
US20040052505A1 (en) * 2002-05-28 2004-03-18 Yesvideo, Inc. Summarization of a visual recording
US7349477B2 (en) * 2002-07-10 2008-03-25 Mitsubishi Electric Research Laboratories, Inc. Audio-assisted video segmentation and summarization
WO2004008770A1 (en) * 2002-07-17 2004-01-22 Koninklijke Philips Electronics N.V. Video coding method and device
US20060074893A1 (en) * 2002-08-26 2006-04-06 Koninklijke Philips Electronics N.V. Unit for and method of detection a content property in a sequence of video images
JP2005538637A (ja) * 2002-09-11 2005-12-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 映像符合化方法及び装置
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
US7483618B1 (en) * 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
CN101036387B (zh) * 2004-06-30 2010-10-27 派尔高公司 检测mpeg视频流中的运动的方法和装置
JP2007189473A (ja) * 2006-01-13 2007-07-26 Hitachi Ltd 動画再生装置
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
CN101506891A (zh) * 2006-08-25 2009-08-12 皇家飞利浦电子股份有限公司 自动产生多媒体内容项目的概要的方法和装置
EP2026264A2 (en) 2007-08-17 2009-02-18 Searete LLC Effectively documenting irregularities in a responsive user's environment
US20100289959A1 (en) 2007-11-22 2010-11-18 Koninklijke Philips Electronics N.V. Method of generating a video summary
CN105989370B (zh) * 2015-02-15 2020-07-31 中国科学院西安光学精密机械研究所 基于属性层次的视音频融合方法
US10984363B2 (en) 2015-09-04 2021-04-20 International Business Machines Corporation Summarization of a recording for quality control
CN106534949A (zh) * 2016-11-25 2017-03-22 济南中维世纪科技有限公司 延长视频监控系统录像存储时间的方法
US10867185B2 (en) * 2017-12-22 2020-12-15 Samuel Chenillo System and method for media segment identification
US10271095B1 (en) * 2017-12-21 2019-04-23 Samuel Chenillo System and method for media segment indentification
US11601713B2 (en) * 2017-05-17 2023-03-07 Oran Gilad System and method for media segment identification
US10192584B1 (en) 2017-07-23 2019-01-29 International Business Machines Corporation Cognitive dynamic video summarization using cognitive analysis enriched feature set
US10764656B2 (en) * 2019-01-04 2020-09-01 International Business Machines Corporation Agglomerated video highlights with custom speckling

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5663296A (en) * 1995-04-10 1996-10-30 Corporate Computer Systems, Inc. System for compression and decompression of audio signals fo r digital transmission
JP3325809B2 (ja) * 1997-08-15 2002-09-17 日本電信電話株式会社 映像制作方法及び装置及びこの方法を記録した記録媒体
US6782049B1 (en) * 1999-01-29 2004-08-24 Hewlett-Packard Development Company, L.P. System for selecting a keyframe to represent a video
JP2003516053A (ja) * 1999-11-29 2003-05-07 ソニー株式会社 映像音声信号処理方法及び映像音声信号処理装置
US6763069B1 (en) * 2000-07-06 2004-07-13 Mitsubishi Electric Research Laboratories, Inc Extraction of high-level features from low-level features of multimedia content

Also Published As

Publication number Publication date
US6956904B2 (en) 2005-10-18
JP2005515676A (ja) 2005-05-26
WO2003060914A3 (en) 2004-07-01
EP1466274A2 (en) 2004-10-13
WO2003060914A2 (en) 2003-07-24
US20030133511A1 (en) 2003-07-17

Similar Documents

Publication Publication Date Title
JP4265970B2 (ja) 音声の特徴と相関した動きアクティビティ記述子を用いたビデオの要約化
Pan et al. Detection of slow-motion replay segments in sports video for highlights generation
US7027508B2 (en) AV signal processing apparatus for detecting a boundary between scenes, method and recording medium therefore
EP1081960B1 (en) Signal processing method and video/voice processing device
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
US6931595B2 (en) Method for automatic extraction of semantically significant events from video
KR100957902B1 (ko) 영상 요약 장치
US20050228849A1 (en) Intelligent key-frame extraction from a video
Hanjalic Generic approach to highlights extraction from a sport video
KR20040070269A (ko) 광고방송 및 다른 비디오 콘텐츠의 검출을 위한 패밀리히스토그램 기반으로 한 기술들
KR100612874B1 (ko) 스포츠 동영상의 요약 방법 및 장치
Wang et al. Affection arousal based highlight extraction for soccer video
JP2009544985A (ja) コンピュータによって実施されるビデオをセグメント化する方法
Zhang et al. Detecting sound events in basketball video archive
TWI408950B (zh) 分析運動視訊之系統、方法及具有程式之電腦可讀取記錄媒體
Truong et al. Improved fade and dissolve detection for reliable video segmentation
US8542983B2 (en) Method and apparatus for generating a summary of an audio/visual data stream
JP4999015B2 (ja) 動画像データの分類装置
EP2092448A1 (en) Method and apparatus for detecting slow motion
Lehane et al. Dialogue scene detection in movies using low and mid-level visual features
Kim et al. Real-time highlight detection in baseball video for TVs with time-shift function
Wang et al. A mid-level scene change representation via audiovisual alignment
JP2004260734A (ja) 動画像データの分類装置
Ren et al. General highlight detection in sport videos
Kyperountas et al. Scene change detection using audiovisual clues

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051221

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081027

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081128

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081205

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090210

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090212

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees