JP2004520760A - 動き記述子を用いてビデオを要約化する方法 - Google Patents

動き記述子を用いてビデオを要約化する方法 Download PDF

Info

Publication number
JP2004520760A
JP2004520760A JP2002586644A JP2002586644A JP2004520760A JP 2004520760 A JP2004520760 A JP 2004520760A JP 2002586644 A JP2002586644 A JP 2002586644A JP 2002586644 A JP2002586644 A JP 2002586644A JP 2004520760 A JP2004520760 A JP 2004520760A
Authority
JP
Japan
Prior art keywords
motion activity
frame
compressed video
video
activity intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002586644A
Other languages
English (en)
Other versions
JP4267327B2 (ja
Inventor
ディヴァカラン、アジェイ
ラドクリシュナン、レギュナータン
ペカー、カディア、エイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2004520760A publication Critical patent/JP2004520760A/ja
Application granted granted Critical
Publication of JP4267327B2 publication Critical patent/JP4267327B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

方法は、圧縮ビデオにおける動きアクティビティの強度を測定する。動きアクティビティの強度を用いて、ビデオを累積動きアクティビティの等しいセグメントに分割する。次に、各セグメントからキーフレームを選択する。選択されたキーフレームを時間順に連結して、ビデオの要約を形成する。

Description

【0001】
【発明の属する技術分野】
本発明は包括的にはビデオに関し、特に、圧縮ビデオの要約化に関する。
【0002】
【従来の技術】
ビデオの要約を自動的に生成すること、特に圧縮デジタルビデオの要約を生成することが望ましい。
【0003】
圧縮ビデオフォーマット
ビデオをデジタル信号として圧縮する標準的な規格が、MPEG(Motion Picture Expert Group)に採用されている。MPEG規格は、画像のフルフレームについての情報を時折にのみ作成することで、高いデータ圧縮率を達成する。フル画像フレーム、すなわちフレーム内符号化フレームは「Iフレーム」または「アンカーフレーム」と呼ばれることが多く、あらゆる他のフレームとは独立したフルフレーム情報を含む。画像差フレーム、すなわちフレーム間符号化フレームは、「Bフレーム」および「Pフレーム」、または「予測フレーム」と呼ばれることが多く、これは、Iフレーム間で符号化され、基準フレームからの画像差、すなわち残余のみを反映する。
【0004】
通常、ビデオシーケンスの各フレームは、より小さな、画素、すなわちピクセルデータのブロックに分割される。各ブロックは離散コサイン変換(DCT)関数を施され、統計上依存した空間領域ピクセルを独立周波数領域DCT係数に変換する。「マクロブロック」と呼ばれる、それぞれの8×8、または16×16のピクセルのブロックは、DCT関数を施されて、符号化信号を提供する。
【0005】
DCT係数は通常エネルギー集中的であるため、1つのマクロブロックにおいて少数の係数のみが、ピクチャ情報の主要部分を含む。たとえば、マクロブロックがオブジェクトのエッジ境界を含む場合、そのブロックのエネルギーは係数のマトリクスにわたって、比較的大きなDC係数と、ランダムに分布するAC係数とを含む。
【0006】
一方、非エッジマクロブロックは通常、同様に大きなDC係数と、そのブロックに関連する他の係数よりも実質的に大きな少数の隣接AC係数とを特徴とする。DCT係数は通常、適応量子化を施されてから、ランレングス符号化および可変長符号化される。このため、送信データのマクロブロックは通常、8×8のマトリクスに満たない符号語を含む。
【0007】
フレーム内符号化フレームデータ、すなわち符号化PまたはBフレームデータのマクロブロックは、予測ピクセルとマクロブロックにおける実際のピクセルとの間の差分のみを表すDCT係数を含む。フレーム内符号化フレームデータおよびフレーム間符号化フレームデータのマクロブロックはまた、用いられた量子化のレベル、マクロブロックのアドレスインジケータまたはロケーションインジケータ、ならびにマクロブロックのタイプ等の情報も含む。後者の情報は、「ヘッダ」または「オーバーヘッド」情報と呼ばれることが多い。
【0008】
各Pフレームは、最後のIフレームまたはPフレームから予測される。各Bフレームは、これを挟むIフレームまたはPフレームから予測される。予測符号化プロセスは、Iフレームのどのマクロブロックの変位量が現在符号化されているBフレームまたはPフレームのマクロブロックと最も密接にマッチしているかを示す、「動きベクトル」としばしば呼ばれる変位ベクトルの生成を含む。Iフレームにおけるマッチするブロックのピクセルデータが、符号化されているPフレームまたはBフレームのブロックからピクセル毎に減じられ、残余が現れる。変換された残余およびベクトルは、PフレームまたはBフレームの符号化データの一部を形成する。
【0009】
ビデオ分析
ビデオ分析は、ビデオコンテンツの理解を意図してのビデオ処理として定義することができる。ビデオの理解は、「低レベル」の統語論的理解(ビデオ中のセグメント境界の検出など)から「高レベル」の意味論的理解(ビデオのジャンルの検出など)までと様々であり得る。低レベルの理解は、カラー、動き、テクスチャ、形状等、低レベルの特徴を分析してコンテンツ記述を生成することでなされる。次にこのコンテンツ記述を用いて、ビデオを索引付けすることができる。
【0010】
ビデオ要約化
ビデオ要約化は、ビデオの意味論的本質を伝えるビデオのコンパクトな表現を作成する。コンパクトな表現には、「キーフレーム」または「キーセグメント」、あるいはキーフレームとセグメントの組み合わせを含めることができる。一例として、テニスの試合のビデオ要約は、2つのフレーム、すなわち双方の選手を取り込んだ第1のフレームと、トロフィーを持った勝者を取り込んだ第2のフレームと、を含み得る。より詳細かつ長い要約には、マッチポイントを取り込んだすべてのフレームをさらに含めることができる。このような要約を手動で生成することは確かに可能であるが、これには時間と費用がかかる。したがって、自動要約化が望まれる。
【0011】
自動ビデオ要約化方法は周知である。S. Pfeifer他著「Abstracting Digital Movies Automatically」(J. Visual Comm. Image Representation, vol. 7, no. 4, pp. 345−353, December 1996)およびHanjalic他著「An Integrated Scheme for Automated Video Abstraction Based on Unsupervised Cluster − Validity Analysis」(IEEE Trans. On Circuits and Systems for Video Technology, Vol. 9, No. 8, December 1999)を参照されたい。
【0012】
ほとんどの従来のビデオ要約化方法は、専らカラーベースの要約化に集中している。Pfeiffer他だけが、ビデオ要約の作成に、動きを他の特徴と組み合わせて用いている。しかし、Pfeiffer他による方法は単に、組み合わせた特徴間の考え得る相関を見過ごした重み付き組み合わせを用いるだけにすぎない。要約化方法によっては、動き特徴を用いてキーフレームを抽出するものもある。
【0013】
図1に示すように、従来技術によるビデオ要約化方法はほとんど、カラー特徴に基づくクラスタ化を強調している。これは、カラー特徴が圧縮領域において抽出し易くかつノイズに耐性があるためである。典型的な方法は、ビデオシーケンスA101を入力としてとり、カラーベースの要約化プロセス100を適用してビデオ要約S(A)102を作成する。ビデオ要約は、シーケンス全体の要約、あるいはシーケンスの関心を引くセグメント、すなわちキーフレームのセットのいずれかを含む。
【0014】
方法100は通常、以下のステップを含む。第1に、カラー特徴に従いビデオのフレームをクラスタ化する。第2に、クラスタをアクセスし易い階層データ構造にする。第3に、各クラスタからキーフレームまたはキーシーケンスを抽出して、要約を生成する。
【0015】
動きアクティビティ記述子
ビデオはまた、様々なレベルのアクティビティ、すなわちアクション強度を有するものとして直観的に理解することができる。比較的高レベルのアクティビティの例は、スポーツビデオでの得点チャンスである。一方、ニュースビデオは比較的低レベルのアクティビティを有する。最近提案されたMPEG−7映像規格は、ビデオ中の動きアクティビティに関連する記述子を提供する。
【0016】
動きアクティビティの1つの尺度には、動きベクトルの大きさの平均および分散がある。Peker他著「Automatic measurement of intensity of motion activity」(Proceedings of SPIE Conference on Storage and Retrieval for Media Databases, January 2001)を参照されたい。しかしながら、用途に応じて多くの変形が可能である。
【0017】
キーフレームのセットの忠実度
単一のキーフレームを見つける最も簡単な方法は、シーケンスから任意のフレームを選択することであるが、単一のキーフレームをベースとする方法は、ビデオのコンテンツが単一のフレームで伝え得るよりも多くの情報を有する場合に機能しない。ビデオセグメントの1番目のフレームを第1のキーフレームとして割り当て、次に、特徴空間において1番目のフレームから最も遠く離れたフレームを第2のキーフレームとして割り当てることができる。M.M. Yeung and B. Liu著「Efficient Matching and Clustering of Video Shots」(Proc. IEEE ICIP, Washington D.C., 1995)を参照されたい。他の多数のキーフレーム生成手法、およびキーフレームのセットの忠実度の尺度に基づくキーフレーム生成手法が、H.S. Chang, S. Sull and S.U. Lee著「Efficient video indexing scheme for content−based retrieval」(IEEE Transactions on Circuits and Systems for Video Technology, Vol. 9, No. 8, 1999)により記載される。忠実度の尺度は、ビデオシーケンスにおけるキーフレームのセットSと、フレームのセットRとの間の半ハウスドルフ(Semi−Hausdorff)距離(dhs)として定義される。半ハウスドルフ距離の実際的な定義は以下の通りである。
【0018】
セットSがi=1、...、mの場合にm個のフレームを含み、フレームのセットRがl=1、...、nの場合にn個のフレームを含むものとする。2つのフレームSおよびR間の距離をd(S,R)とする。各フレームRのdを以下の通り定義する。
=min(d(S,R))、k=0..m
すると、SとRの間の半ハウスドルフ距離は以下の式で与えられる。
sh(S,R)=max(d)、i=1..n
【0019】
換言すると、まずすべてのiについて、フレームRと、これをキーフレームのセットSにおいて最もよく表現するものとの間の距離dを測定する。次に、上で計算した距離dの最大値を求める。この距離は、キーフレームのセットSがどれほど良好にRを表現するかを表す。表現が良好であるほど、SとRの間の半ハウスドルフ距離は小さくなる。たとえば自明な場合において、セットSおよびRが同一である場合、半ハウスドルフ距離はゼロである。一方、距離が大きければ、Rのフレームの少なくとも1つが、キーフレームのセットSのどのフレームにも良好に表現されなかったことを示す。
【0020】
ほとんどの既存の相違度の尺度は、上記定義に用いられる距離空間上の距離に必要な特性を満たす。M.J. Swain and D.H. Ballard著「Color indexing」(J. Computer Vision, vol. 7, no. 1, pp. 11−32, 1991)により記載される、以下の通り定義されるカラーヒストグラム交差距離(intersection metric)を用いることもできる。
【0021】
M×Nサイズの2つの画像fおよびfのKビンカラーヒストグラムがHおよびHである場合、この2つの画像間の相違度は以下の式で与えられる。
【0022】
【数1】
Figure 2004520760
【0023】
相違度は、範囲[0,1]内であることに留意されたい。
【0024】
【発明が解決しようとする課題】
本発明の目的は、動き特徴、特に動きアクティビティ特徴を単独で、また、カラーおよびテクスチャの特徴等、他の低レベルの特徴と組み合わせて用いて自動ビデオ要約化方法を提供することである。
【0025】
【課題を解決するための手段】
本発明は以下の考えに基づく。ビデオの動きアクティビティは、ビデオの要約化の相対的な困難さを示すのによい目安である。動きの量が多くなるほど、そのビデオの要約化は困難である。ビデオ要約は、包含するフレームの数、たとえばキーフレームの数、またはキーセグメントのフレームの数等により、量的に記述することができる。
【0026】
ビデオの動きアクティビティの相対強度は、カラー特徴の変化と強く関係付けられている。換言すれば、動きアクティビティの強度が高い場合、カラー特徴の変化も高い可能性が高い。カラー特徴の変化が高い場合、カラー特徴をベースとする要約には比較的多数のフレームが含まれることになり、カラー特徴の変化が低い場合には、要約にはより少数のフレームが含まれることになる。これは別の言い方をすれば、ビデオから選択されたキーフレームからなる視覚的な要約の忠実度を考慮することである。キーフレームの数を一定に保つことにより要約の長さを一定にしておけば、ショットの動きアクティビティの強度はより高く、その要約の忠実度はより低くなる。
【0027】
たとえば、「トーキングヘッド(talking head)」ビデオでは通常、動きアクティビティのレベルが低く、また同様にカラー変化もごくわずかである。要約化がキーフレームをベースとする場合、ビデオの要約化には1つのキーフレームで十分である。キーセグメントを用いる場合、視覚的なビデオの要約化には、1秒のフレームシーケンスで十分である。一方、スポーツイベントでの得点チャンスでは動きアクティビティ強度およびカラー変化が非常に高く、したがって要約化には数個のキーフレームすなわち数秒が必要である。
【0028】
より詳細には、本発明は、まず圧縮ビデオ中の動きアクティビティの強度を測定することで、ビデオの要約化をする方法を提供する。次に、当該動きアクティビティの強度を用いて、長時間のカラーベースの計算を行うことなくビデオからキーフレームを選択する。
【0029】
本発明はまた、要約化が容易なセグメントでは動きベースの方法を用い、要約化が困難なセグメントではカラーベースの方法を用いることによって、動きベースのキーフレーム抽出とカラーベースのキーフレーム抽出とを組み合わせる方法を提供する。要約化が容易なセグメントは、1つまたは複数のキーフレームからなる迅速に抽出した要約で表され、一方、要約化が困難な各セグメントからは、カラーベースの要約化プロセスがフレームシーケンスを抽出する。単一フレームおよび抽出したフレームシーケンスを時間順に連結して、ビデオの要約を形成する。
【0030】
より詳細には、本発明による方法は、圧縮ビデオ中の動きアクティビティの強度を測定する。動きアクティビティの強度は、ビデオを累積動きアクティビティの等しいセグメントに分割するために用いられる。次に各セグメントからキーフレームを選択する。選択されたキーフレームは時間順に連結されて、ビデオの要約を形成する。一実施形態では、各セグメントの1番目のフレームと、シーケンスの最後のフレームとが選択されて、要約を形成する。別の実施形態では、動きアクティビティに関して中央のフレームが各セグメントから選択され、分割は、累積動きアクティビティー強度を基にした2分割である。
【0031】
【発明の実施の形態】
本発明は、動き特徴を、またオプションでカラー特徴を用いて、圧縮ビデオを要約化する。したがって、本発明の要約化方法は最初に、これらの特徴を圧縮ビデオから測定する。
【0032】
特徴抽出
カラー特徴
既知の手法を用いて、IフレームのDC係数を正確に抽出することができる。PおよびBのフレームの場合、DC係数は、完全に圧縮解除することなく動きベクトルを用いて近似することができる。たとえば、Yeo他著「On the Extraction of DC Sequence from MPEG video」(IEEE ICIP Vol. 2, 1995)を参照されたい。DC画像のYUV値は、カラー特徴を抽出するために、別の色空間に変換することができる。
【0033】
最も一般に使用される手法では、カラーヒストグラムを用いる。カラーヒストグラムは、画像および映像の索引付けおよび検索に広く用いられてきている。Smith他著「Automated Image Retrieval Using Color and Texture」(IEEE Transaction on Pattern Analysis and Machine Intelligence, 1996)を参照されたい。通常、3チャネルRGB色空間では、各チャネルに4つのビンがあり、カラーヒストグラムには総計64(4×4×4)個のビンが必要である。
【0034】
動き特徴
動き情報は、PフレームおよびBフレームの動きベクトルから抽出および測定することができる。動きベクトルは通常、実際のオプティカルフローに対する荒く、散在した近似であるため、ここでは動きベクトルを定性的にのみ用いる。動きベクトルを抽出する多くの異なる方法が記載されている。Tan他著「A new method for camera motion parameter estimation」(Proc. IEEE International Conference on Image Processing, Vol. 2, pp. 722−726, 1995)、Tan他著「Rapid estimation of camera motion from compressed video with application to video annotation」(IEEE Trans. on Circuits and Systems for Video Technology, 1999)、Kobla他著「Detection of slow−motion replay sequences for identifying sports videos」(Proc. IEEE Workshop on Multimedia Signal Processing, 1999)、Kobla他著「Special effect edit detection using VideoTrails: a comparison with existing techniques」(Proc. SPIE Conference on Storage and Retrieval for Image and Video Databases VII, 1999)、Kobla他著「Compressed domain video indexing techniques using DCT and motion vector information in MPEG video」(Proc. SPIE Conference on Storage and Retrieval for Image and Video Databases V, SPIE Vol. 3022, pp. 200−211, 1997)、およびMeng他著「CVEPS − a compressed video editing and parsing system」(Proc. ACM Multimedia 96, 1996)を参照されたい。
【0035】
上述したように、ほとんどの従来技術による要約化方法は、カラー特徴のクラスタ化をベースとして、カラー記述子を得る。カラー記述子は、定義上比較的ノイズに耐性があるが、ビデオの動き特徴を含まない。しかし、動き記述子はノイズに対する耐性がより低い傾向があるため、ビデオの要約化に広くは用いられていない。
【0036】
Divakaran他出願の米国特許出願第09/406,444号「Activity Descriptor for Video Sequences」(2000年8月9日提出、参照により本明細書中に援用)は、圧縮ビデオにおける動きベクトルから導出した動き特徴を用いて、ビデオにおける動きアクティビティおよびビデオにおける動きアクティビティの空間分布を決定する方法を記載している。このような記述子は、上記特許出願に記載されるように、ビデオ閲覧用途に関しては有用である。本明細書では、このような動き記述子を新規のビデオ要約化に適用する。
【0037】
本明細書では動きを、ビデオシーンがどれほど変化しているかを示す強力な指示器であると考える。したがって、ビデオシーンの「要約化可能性(summarizability)」の尺度として動きを用いることにする。例として高速のカーチェイスは、たとえばニュースキャスターのショットと比較した場合に、より多くの「変化」を含むことだろう。したがって、高速のカーチェイスは、視覚的な要約化のためにニュースキャスターのショットよりも多くの資源を要することになる。
【0038】
不都合なことに、動きが実際にシーンの変化に関連するのかどうかをテストする単純で客観的な尺度はない。しかし、シーンの変化はカラー特徴の変化も伴うことが多いため、上記で定義したカラーベースの忠実度と動きアクティビティの強度との間の関係を調べる。
【0039】
ショットAのキーフレームのセットをS、ショットBのキーフレームのセットをセットSとする。セットSとセットSの両方が同数のキーフレームを含み、ショットAの動きアクティビティの強度がショットBの動きアクティビティの強度よりも大きい場合、セットSの忠実度はセットSの忠実度よりも低い。換言すれば、ショットAは、その動きアクティビティの強度がより高いため、ショットBよりも「要約化可能性」が低くなっている。
【0040】
動きアクティビティの強度が要約化可能性を獲得することの証明
MPEG−1フォーマットのMPEG−7テストセットから、標準的なニュースビデオ番組のカラー特徴および動き特徴を抽出する。始めに、番組を複数のショットに区分化する。次に各ショットについて、各Pフレームの動きベクトルの大きさの標準偏差を計算することですべてのPフレームから動きアクティビティ特徴を抽出するとともに、すべてのIフレームから64ビンRGBヒストグラムを抽出する。これらはともに、圧縮領域にある。
【0041】
次に、Pフレームのグループにおける以前のPフレームの動きアクティビティ記述子を平均することにより、各Iフレームについて動きアクティビティ記述子を決定する。したがってIフレームにはすべて、ヒストグラムと、動きアクティビティ値とが関連付けられる。ショット全体の動きアクティビティは、上で計算した個々の動きアクティビティ値を平均することによって得られる。以下、ショット中のIフレームのセットを、上記で定義したようなフレームのセットRとして扱う。動きアクティビティは、動きベクトルの平均の大きさを基にすることができる。
【0042】
単純な要約化方法はショットの単一のキーフレームを、上述のように、当該ショットの1番目のフレームを用いて生成する。したがって、1番目のIフレームをキーフレームとして使用し、その忠実度を上述のように判定する。「トーキングヘッド」シーケンスの例を分析することにより、高くても0.2の忠実度を有するキーフレームが十分な品質のものであることを経験的に判断する。したがって、ショットを2つのカテゴリー、すなわち、キーフレームが0.2以下のdshを有する(キーフレームが許容可能な忠実度を有する)第1のカテゴリーと、キーフレームが0.2より大きいdshを有する(キーフレームが許容不可能な忠実度を有する)第2のカテゴリーとに分類することができる。
【0043】
ショットはまた、表Aに示すように、アクティビティが非常に低いものから非常に高いものまで5つのカテゴリーに分類することができる。
【0044】
【表1】
Figure 2004520760
【0045】
次に、図2に示すように、標準的なニュース番組のビデオ(スペインのニュース)に関し、これらのカテゴリー202のそれぞれにおいて、0.2よりも大きいdshを有するショットの継続時間(duration)を割合201として判定する。動きアクティビティが非常に低から非常に高へ増加するに従い、dshの値も一貫して増加する。換言すれば、ショットの動きアクティビティが増加するに従い、その要約化可能性の容易さは減少する。
【0046】
さらに、単一のキーフレームの忠実度は、動きアクティビティ強度が非常に低いカテゴリーのショットの90%について許容可能である。他のニュース番組(MPEG−7テストセットからのポルトガルのニュース番組など)ならびにNBCのニュース番組からとったニュース番組で同一のパターンを観察することができる。したがって実験的証拠は、ニュース番組ではショットの動きアクティビティ強度がその要約化可能性の直接的な目安であることを示す。
【0047】
ニュース番組はコンテンツが様々であるので、この結果は広範囲のコンテンツに当てはまると思われる。動きアクティビティにMPEG−7の閾値を用いるため、この結果はコンテンツに左右されない。
【0048】
図3は、閾値T以下の動きアクティビティ強度を有するショットにおける許容不可能な忠実度を有するショットの継続時間の割合301と、これに対して、T以下の動きアクティビティを有する番組中のショットの継続時間の全割合302とを示す。このプロットは、スペインのニュース番組に関して、ショットの1番目のフレームを、ショットの30%について許容可能な忠実度のキーフレームとして用いることができることを示す。他のニュース番組についても同様の結果が得られる。したがって、アクションが非常に低いショットでは、MPEG−7の動きアクティビティ閾値を用いて、ショットが1番目のフレームによって良好に要約化されるかを見い出すことができる。
【0049】
要約化方法
上記の結果は、動きアクティビティが増加する(increment)毎に情報が増加することを示す。したがって、ビデオのキーフレームは、連続するキーフレーム間の累積動きアクティビティの差が均一であるようにサンプリングすることができる。すると、各キーフレームは、前のキーフレームと同一の情報増加を提供する。
【0050】
したがって、図4に示すように、まず入力ビデオシーケンス401における累積動きアクティビティの強度を測定する(410)。累積強度とは、(正規化した)累積がビデオの始まりで0.0、終わりで1.0、どこか中間の位置で0.5であることを意味する。ビデオを動きアクティビティに従って「中央」で分割し、ビデオの第1の部分の動きレベルが非常に高い場合、この第1の部分は、第2の部分よりずっと少ないフレームを有することになる。この反対は、アクティビティのほとんどがビデオの後半にある場合になる。たとえば、アクティビティの半分が1時間のビデオの最後の6分(10%)に起こる場合、累積動き(0.5)の動きの「中央」は、完全なビデオが毎秒30フレームで108,000個のフレームを有する場合にフレーム108,000〜10,800にあることになる。換言すれば、動きアクティビティは本質的に、ビデオフレーム上のタイムワープである。アクティビティレベルが高い間、動きを累積するために必要なフレーム数は、アクティビティレベルが低い間よりも少ない。また実際、ビデオの動きがない部分(たとえば「静止」ショット)では、動きの累積は全くない。
【0051】
次に、ビデオシーケンスをn−1個のセグメントに分割する(420)。本発明の分割における各セグメントは、略等しい量の累積動きアクティビティ強度を有する。なお、第1のセグメント421のフレーム数は多いが、累積動きの量はフレーム数の少ない第2のセグメント422と同じである。次に、各セグメントの1番目のフレームと、シーケンスの最後のフレームとを選択して、n個のキーセグメントを得る。次に、セグメントを時間順に連結して要約を形成する。たとえば3つのキーフレーム409を得るために、シーケンスを、それぞれがシーケンス全体の累積動きアクティビティの半分に相当する累積動きアクティビティを有する2つのセグメント421〜422に分割する。次に、第1および第2のセグメントの1番目のフレームと、シーケンスの最後のフレームとを選択する。
【0052】
単一のキーフレームのみを選択する場合、累積動きアクティビティスケールの中間位置にあるキーフレームが最良であろう。したがって、n個のキーフレームを得るための最適な方策は、まずビデオを累積動きアクティビティの等しいn個のセグメントに分割し、次に各セグメントについて、累積動きアクティビティスケールの中間位置にあるフレームをキーフレームとして選択することである。すると最終的なキーフレームのセットは、上述のように得たセグメントの各々のキーフレームからなる。この方法が最も良く機能することが分かった。図5は、1番目のフレームを選択した場合(上の曲線)と、これに対して中央のフレームを選択した場合(下の曲線)とで得られた結果を、非常に低、低、中、および高レベルのアクティビティ501〜504について比較する。すべての場合において、中央のフレームを選択すると、わずかに良い結果が得られる。
【0053】
換言すれば、動きアクティビティの強度に基づきビデオの非均一なサブサンプリングを行う。たとえば、ビデオ中の全アクションがビデオの前半に起こる場合、キーフレームはすべてビデオの前半から引き出されることを保証する。これは、アクティビティベースの時間軸ワーピング、およびこれに続く、ワープした時間軸上での均一なサンプリングとして解釈することもできる。これは、カラーの比較を全く必要としないため、非常に高速な手順であることに留意されたい。
【0054】
この方法は最適であるものの、プログレッシブ(progressive)でないという欠点がある。たとえば、最適な単一のキーフレームは、累積動きアクティビティがシーケンス全体の累積動きアクティビティの半分であるフレームである。しかしながら、選択されるキーフレームのペアは、累積動きアクティビティがセグメント全体の累積動きアクティビティの1/4であるフレームと3/4であるフレームとからなる。したがって、最適なキーフレームのペアには、最適な単一のキーフレームと共通のフレームがない。これは、数nのキーフレーム毎に、より低い数(たとえばn−1)のキーフレームについて得られた結果を活用できないことを意味する。したがって、上記の最適な手法のプログレッシブ近似を以下のように用いる。
【0055】
1番目のフレームと最後のフレームから始めて、ビデオシーケンスの半分をそれぞれ、累積動きアクティビティが等しい部分に繰り返し分けて、1、3、5、9といった個数の最適なキーフレームを得る。任意の他の数(たとえば3)のべき乗を用いることもできる。しかしながら、デジタルコンピュータでは2のべき乗が計算し易い。
【0056】
上記の方法を用いれば、閾値数のフレームが選択されるまで、いかなる数のキーフレームも選択可能であることに留意されたい。閾値は手動で、または対話型アプリケーションにより、あるいは表1に記載したMPEG−7強度カテゴリ毎にキーフレームの数の固定テーブルを設けることによって決定することができる。たとえば、ほとんどのニュースビデオなら、5つのキーフレームで十分である。中、高および非常に高のカテゴリーのビデオでは、5つよりも多くのキーフレームが必要であり得る。
【0057】
上述の方法は、サイズおよびアクティビティの大きい、動きのある領域(moving regions)を有するセグメントには動きベクトルの平均の大きさを動きアクティビティの尺度として用い、大きいグローバルな動きを有するセグメントには最短の動きベクトルの大きさを動きアクティビティの尺度として用いるが、他の統計学上の動きモーメント(偏差、中央値、分散、スキュー、および尖度など)を用いることもできることを理解されたい。MPEG−7の動きアクティビティ記述子は、表1のように、動きベクトルの大きさの標準偏差の量子化した標準偏差を動きアクティビティの強度の尺度として用いる。動きベクトルの大きさの量子化していない標準偏差を動きアクティビティの尺度として用いることも可能である。
【0058】
産業上の利用可能性
最後に、本発明が計算を圧縮領域でのみ用いることに留意されたい。したがって、本発明の方法は、いかなる従来技術によるカラーベースのキーフレーム抽出が圧縮領域に適用されたとしても、それらの方法よりはるかに高速である。したがって本発明の方法は、MPEG−7に従ってこれを低いアクション閾値以下のビデオの大部分に用いること、および、カラーベースの手法をアクションのより高いセグメントのみに用いることによって、従来のカラーベースの抽出を助けるために用いることができる。また、カラーベースの計算に全く頼ることなく、ビデオ全体に本発明の方法のみを用いることもできる。これは計算上、最も速いオプションであるだろう。
【0059】
本発明を好ましい実施形態の例により記載してきたが、本発明の精神および範囲内で様々な他の適用および変更がなされ得ることが理解される。したがって、併記の特許請求の範囲の目的は、本発明の真の精神および範囲内に入るような変形および変更すべてを網羅することである。
【図面の簡単な説明】
【図1】従来技術によるビデオ要約化方法のブロック図である。
【図2】MPEGテストビデオの、動きアクティビティと、これに対して、許容不可能な忠実度を有するショットの割合とを表すグラフである。
【図3】所定の閾値以下のショット継続時間の割合と、これに対して、許容不可能な忠実度を有するショットの割合とを表すグラフである。
【図4】本発明によるビデオ要約化方法を示すブロック図である。
【図5】本発明に従って、1番目のフレームを選択した場合と中央のフレームを選択した場合とを比較するグラフである。
【図6】ビデオの2分割のブロック図である。

Claims (11)

  1. 圧縮ビデオを要約化する方法であって、
    前記圧縮ビデオにおける累積動きアクティビティ強度を測定すること、
    前記累積動きアクティビティ強度に従って前記圧縮ビデオからキーフレームを選択すること、
    前記キーフレームを時間順に連結して、前記圧縮ビデオの要約を形成することを含む方法。
  2. 前記圧縮ビデオを、各々が略等しい量の累積動きアクティビティ強度を有する複数のセグメントに分割すること、
    各セグメントから1つのキーフレームを選択すること
    をさらに含む請求項1に記載の方法。
  3. 前記セグメントの数は、前記要約における所望のキーフレーム数よりも少ない数である請求項1に記載の方法。
  4. 各セグメントの1番目のフレームを前記要約の前記キーフレームの1つとして選択すること、
    前記圧縮ビデオの最後のフレームを前記要約の最後のキーフレームとして選択すること
    をさらに含む請求項3に記載の方法。
  5. 各セグメントの累積動きアクティビティ強度に従って中央のフレームを前記キーフレームの1つとして選択することをさらに含む請求項2に記載の方法。
  6. 前記動きアクティビティ強度は、動きベクトルの平均の大きさから測定される請求項1に記載の方法。
  7. 前記動きアクティビティ強度は、動きベクトルの中央の大きさから測定される請求項1に記載の方法。
  8. 前記動きアクティビティ強度は、動きベクトルの大きさの標準偏差から測定される請求項1に記載の方法。
  9. 前記圧縮ビデオを、ショット境界に従って複数のセグメントに分割すること、
    各セグメントにおける累積動きアクティビティ強度を測定すること、
    前記累積動きアクティビティ強度に従って各セグメントから前記キーフレームを選択すること、
    前記キーフレームを時間順に連結して、前記圧縮ビデオの要約を形成することをさらに含む請求項1に記載の方法。
  10. 2分割(binary partitioning)を用いて前記圧縮ビデオを、前記累積動きアクティビティ強度に基づき複数のセグメントに分割することであって、第1の分割は、ビデオ全体を含む1つのセグメントを生成し、第2の分割は、各々が略等しい量の累積動きアクティビティ強度を有する2つのセグメントを生成し、その後の各分割は、所定数のセグメントが生成されるまで、前の分割のセグメントを前記累積動きアクティビティ強度に基づき2等分すること、
    前記累積動きアクティビティ強度に従って各セグメントから中央のフレームを前記キーフレームの1つとして選択すること、
    前記キーフレームを時間順に連結して、前記圧縮ビデオの要約を形成することをさらに含む請求項1に記載の方法。
  11. 圧縮ビデオのプログレッシブな(progressive)要約を生成する方法であって、
    終了条件に達するまで前記圧縮ビデオからプログレッシブな順序付けでキーフレームを選択すること、
    前記キーフレームを時間順で連結して、前記圧縮ビデオの前記プログレッシブな要約を形成すること
    を含み、前記プログレッシブな順序付けは、
    前記圧縮ビデオの1番目のフレームを第1のキーフレームとして選択すること、
    前記圧縮ビデオの最後のフレームを第2のフレームとして選択すること、
    前記圧縮ビデオにおける累積動きアクティビティ強度を測定し、該累積動きアクティビティ強度に従って前記圧縮ビデオから中央のフレームを第3のキーフレームとして選択すること、
    前記動きアクティビティ強度に従って前記圧縮ビデオを2つの等しいセグメントに分割し、各セグメントの累積動きアクティビティ強度に従って中央のフレームを第4のキーフレームおよび第5のキーフレームとして選択すること、
    前に分割した各セグメントを前記動きアクティビティ強度に従って2つの小さな大きさの等しいセグメントに繰り返し分割し、前記終了条件に達するまで、大きさの小さい各セグメントから前記累積動きアクティビティ強度に従ってさらなる中央のフレームを次の2つのキーフレームとして選択すること
    を含む方法。
JP2002586644A 2001-04-27 2002-04-22 動き記述子を用いてビデオを要約化する方法 Expired - Fee Related JP4267327B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/845,009 US7110458B2 (en) 2001-04-27 2001-04-27 Method for summarizing a video using motion descriptors
PCT/JP2002/003991 WO2002089490A1 (en) 2001-04-27 2002-04-22 Method for summarizing a video using motion descriptors

Publications (2)

Publication Number Publication Date
JP2004520760A true JP2004520760A (ja) 2004-07-08
JP4267327B2 JP4267327B2 (ja) 2009-05-27

Family

ID=25294185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002586644A Expired - Fee Related JP4267327B2 (ja) 2001-04-27 2002-04-22 動き記述子を用いてビデオを要約化する方法

Country Status (5)

Country Link
US (1) US7110458B2 (ja)
EP (1) EP1382207B1 (ja)
JP (1) JP4267327B2 (ja)
CN (1) CN100393132C (ja)
WO (1) WO2002089490A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015588A (ja) * 2009-08-27 2010-01-21 Kddi R & D Laboratories Inc 動画像データの分類装置
JP2013532323A (ja) * 2010-05-25 2013-08-15 インテレクチュアル ベンチャーズ ファンド 83 エルエルシー カメラ位置に基づくキービデオフレームのランク付け
JP2013533668A (ja) * 2010-05-25 2013-08-22 インテレクチュアル ベンチャーズ ファンド 83 エルエルシー キービデオフレームを判定するための方法
JP2015133634A (ja) * 2014-01-14 2015-07-23 日本放送協会 画像選択装置

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US7197709B2 (en) * 1999-09-16 2007-03-27 Sharp Laboratories Of America, Inc. Audiovisual information management system with multiple user identifications
JP3810268B2 (ja) * 2000-04-07 2006-08-16 シャープ株式会社 オーディオビジュアルシステム
US8028314B1 (en) 2000-05-26 2011-09-27 Sharp Laboratories Of America, Inc. Audiovisual information management system
US8020183B2 (en) * 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
US20030061610A1 (en) * 2001-03-27 2003-03-27 Errico James H. Audiovisual management system
US7904814B2 (en) * 2001-04-19 2011-03-08 Sharp Laboratories Of America, Inc. System for presenting audio-video content
US20030121040A1 (en) * 2001-07-02 2003-06-26 Ferman A. Mufit Audiovisual management system
US20030206710A1 (en) * 2001-09-14 2003-11-06 Ferman Ahmet Mufit Audiovisual management system
US7474698B2 (en) * 2001-10-19 2009-01-06 Sharp Laboratories Of America, Inc. Identification of replay segments
US6847680B2 (en) * 2001-12-17 2005-01-25 Mitsubishi Electric Research Laboratories, Inc. Method for detecting talking heads in a compressed video
US8214741B2 (en) * 2002-03-19 2012-07-03 Sharp Laboratories Of America, Inc. Synchronization of video and data
US7657907B2 (en) * 2002-09-30 2010-02-02 Sharp Laboratories Of America, Inc. Automatic user profiling
JP4036328B2 (ja) * 2002-09-30 2008-01-23 株式会社Kddi研究所 動画像データのシーン分類装置
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
US20040197088A1 (en) * 2003-03-31 2004-10-07 Ferman Ahmet Mufit System for presenting audio-video content
KR20040087150A (ko) * 2003-04-04 2004-10-13 삼성전자주식회사 디지털 데이터 복제 장치 및 그 방법
EP1538536A1 (en) * 2003-12-05 2005-06-08 Sony International (Europe) GmbH Visualization and control techniques for multimedia digital content
CN1902937A (zh) * 2004-01-05 2007-01-24 皇家飞利浦电子股份有限公司 编码方法以及相应的已编码信号
US8949899B2 (en) * 2005-03-04 2015-02-03 Sharp Laboratories Of America, Inc. Collaborative recommendation system
US7594245B2 (en) * 2004-03-04 2009-09-22 Sharp Laboratories Of America, Inc. Networked video devices
US8356317B2 (en) 2004-03-04 2013-01-15 Sharp Laboratories Of America, Inc. Presence based technology
JP4424590B2 (ja) * 2004-03-05 2010-03-03 株式会社Kddi研究所 スポーツ映像の分類装置
US7646924B2 (en) 2004-08-09 2010-01-12 David Leigh Donoho Method and apparatus for compressed sensing
US8089563B2 (en) * 2005-06-17 2012-01-03 Fuji Xerox Co., Ltd. Method and system for analyzing fixed-camera video via the selection, visualization, and interaction with storyboard keyframes
US8949235B2 (en) * 2005-11-15 2015-02-03 Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. Methods and systems for producing a video synopsis using clustering
CN101366027B (zh) 2005-11-15 2013-03-20 耶路撒冷希伯来大学伊森姆研究发展公司 用于产生视频概要的方法和系统
US8689253B2 (en) * 2006-03-03 2014-04-01 Sharp Laboratories Of America, Inc. Method and system for configuring media-playing sets
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
KR100850791B1 (ko) * 2006-09-20 2008-08-06 삼성전자주식회사 방송 프로그램 요약 생성 시스템 및 그 방법
US8000533B2 (en) * 2006-11-14 2011-08-16 Microsoft Corporation Space-time video montage
US8311277B2 (en) 2007-02-01 2012-11-13 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for video indexing and video synopsis
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
CN100594713C (zh) * 2008-04-21 2010-03-17 中国科学院计算技术研究所 一种产生视频大纲的方法和系统
WO2009154597A1 (en) * 2008-06-19 2009-12-23 Thomson Licensing Adaptive video key frame selection
JP2012510202A (ja) * 2008-11-25 2012-04-26 トムソン ライセンシング ビデオ符号化および復号のためのスパース性に基づくアーティファクト除去フィルタリングを行う方法および装置
GB0901263D0 (en) * 2009-01-26 2009-03-11 Mitsubishi Elec R&D Ct Europe Detection of similar video segments
US9171578B2 (en) 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
US8467610B2 (en) 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination
US20120148149A1 (en) 2010-12-10 2012-06-14 Mrityunjay Kumar Video key frame extraction using sparse representation
US8467611B2 (en) 2010-12-10 2013-06-18 Eastman Kodak Company Video key-frame extraction using bi-level sparsity
US10373470B2 (en) 2013-04-29 2019-08-06 Intelliview Technologies, Inc. Object detection
US20150208072A1 (en) * 2014-01-22 2015-07-23 Nvidia Corporation Adaptive video compression based on motion
CA2847707C (en) 2014-03-28 2021-03-30 Intelliview Technologies Inc. Leak detection
US9584817B2 (en) 2014-03-31 2017-02-28 Sony Corporation Video transmission system with color prediction and method of operation thereof
US10943357B2 (en) 2014-08-19 2021-03-09 Intelliview Technologies Inc. Video based indoor leak detection
KR101650153B1 (ko) * 2015-03-19 2016-08-23 네이버 주식회사 만화 데이터 편집 방법 및 만화 데이터 편집 장치
KR102527811B1 (ko) 2015-12-22 2023-05-03 삼성전자주식회사 타임랩스 영상을 생성하는 장치 및 방법
CN108243339B (zh) * 2016-12-27 2021-02-26 浙江大学 图像编解码方法及装置
US10638127B2 (en) * 2017-05-15 2020-04-28 Qualcomm Incorporated Adaptive anchor frame and quantization parameter decision in video coding
CN108966042B (zh) * 2018-09-10 2020-12-18 合肥工业大学 一种基于最短路径的视频摘要生成方法及装置
US10855988B2 (en) 2018-12-19 2020-12-01 Qualcomm Incorporated Adaptive prediction structures
CN109726765A (zh) * 2019-01-02 2019-05-07 京东方科技集团股份有限公司 一种视频分类问题的样本提取方法及装置
CA3123159A1 (en) * 2020-06-25 2021-12-25 Command Alkon Incorporated Method and system of performing an operation on a single-table, multi-tenant database and partition key format therefore
US20230169794A1 (en) * 2021-11-30 2023-06-01 Irina Kezele Method, device, and medium for adaptive inference in compressed video domain

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191411A (ja) * 1994-11-08 1996-07-23 Matsushita Electric Ind Co Ltd シーン判別方法および代表画像記録・表示装置
JPH10326480A (ja) * 1997-05-26 1998-12-08 Sony Corp 映像信号記録装置及び映像信号記録方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0712097A2 (en) * 1994-11-10 1996-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for manipulating motion units for computer articulated figure animation
US5893095A (en) * 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5767922A (en) * 1996-04-05 1998-06-16 Cornell Research Foundation, Inc. Apparatus and process for detecting scene breaks in a sequence of video frames
US5870754A (en) * 1996-04-25 1999-02-09 Philips Electronics North America Corporation Video retrieval of MPEG compressed sequences using DC and motion signatures
US6125229A (en) * 1997-06-02 2000-09-26 Philips Electronics North America Corporation Visual indexing system
US6104441A (en) * 1998-04-29 2000-08-15 Hewlett Packard Company System for editing compressed image sequences
US6597738B1 (en) * 1999-02-01 2003-07-22 Hyundai Curitel, Inc. Motion descriptor generating apparatus by using accumulated motion histogram and a method therefor
US6236395B1 (en) * 1999-02-01 2001-05-22 Sharp Laboratories Of America, Inc. Audiovisual information management system
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
US6985623B2 (en) * 2002-06-10 2006-01-10 Pts Corporation Scene change detection by segmentation analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08191411A (ja) * 1994-11-08 1996-07-23 Matsushita Electric Ind Co Ltd シーン判別方法および代表画像記録・表示装置
JPH10326480A (ja) * 1997-05-26 1998-12-08 Sony Corp 映像信号記録装置及び映像信号記録方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015588A (ja) * 2009-08-27 2010-01-21 Kddi R & D Laboratories Inc 動画像データの分類装置
JP2013532323A (ja) * 2010-05-25 2013-08-15 インテレクチュアル ベンチャーズ ファンド 83 エルエルシー カメラ位置に基づくキービデオフレームのランク付け
JP2013533668A (ja) * 2010-05-25 2013-08-22 インテレクチュアル ベンチャーズ ファンド 83 エルエルシー キービデオフレームを判定するための方法
JP2015133634A (ja) * 2014-01-14 2015-07-23 日本放送協会 画像選択装置

Also Published As

Publication number Publication date
EP1382207A1 (en) 2004-01-21
JP4267327B2 (ja) 2009-05-27
CN100393132C (zh) 2008-06-04
US20030007555A1 (en) 2003-01-09
US7110458B2 (en) 2006-09-19
EP1382207B1 (en) 2011-09-28
CN1465191A (zh) 2003-12-31
WO2002089490A1 (en) 2002-11-07

Similar Documents

Publication Publication Date Title
JP4267327B2 (ja) 動き記述子を用いてビデオを要約化する方法
JP4942883B2 (ja) 動き記述子およびカラー記述子を用いてビデオを要約化する方法
US6618507B1 (en) Methods of feature extraction of video sequences
US6600784B1 (en) Descriptor for spatial distribution of motion activity in compressed video
US7003038B2 (en) Activity descriptor for video sequences
US6327390B1 (en) Methods of scene fade detection for indexing of video sequences
US7003154B1 (en) Adaptively processing a video based on content characteristics of frames in a video
KR20040018506A (ko) 비디오 데이터 스트림에서 카툰을 검출하기 위한 방법 및시스템
KR20010089770A (ko) 동적 임계치를 사용하는 비주얼 인덱싱 시스템에 대한중요 장면 검출 및 프레임 필터링
JP2004522354A (ja) データ圧縮パラメータを利用したビデオコンテンツ分析方法およびシステム
US20010021267A1 (en) Method of detecting dissolve/fade in MPEG-compressed video environment
JP4667697B2 (ja) 速い動きのシーンを検出する方法及び装置
US6823011B2 (en) Unusual event detection using motion activity descriptors
Faernando et al. Scene change detection algorithms for content-based video indexing and retrieval
JPH10257436A (ja) 動画像の自動階層構造化方法及びこれを用いたブラウジング方法
JP4225912B2 (ja) 圧縮ビデオにおけるトーキングヘッドの検出方法
Fernando et al. Video segmentation and classification for content-based storage and retrieval using motion vectors
Smeaton et al. An evaluation of alternative techniques for automatic detection of shot boundaries in digital video
Lie et al. News video summarization based on spatial and motion feature analysis
Yeo et al. A framework for sub-window shot detection
JP4618621B2 (ja) フレームを識別する方法及びシステム
He et al. Approach of sports programs classification with motion information in MPEG domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050415

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070530

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080129

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090217

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090218

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120227

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130227

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140227

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees