JP4225912B2 - 圧縮ビデオにおけるトーキングヘッドの検出方法 - Google Patents

圧縮ビデオにおけるトーキングヘッドの検出方法 Download PDF

Info

Publication number
JP4225912B2
JP4225912B2 JP2003553510A JP2003553510A JP4225912B2 JP 4225912 B2 JP4225912 B2 JP 4225912B2 JP 2003553510 A JP2003553510 A JP 2003553510A JP 2003553510 A JP2003553510 A JP 2003553510A JP 4225912 B2 JP4225912 B2 JP 4225912B2
Authority
JP
Japan
Prior art keywords
motion activity
training
descriptor
video
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003553510A
Other languages
English (en)
Other versions
JP2005513631A (ja
Inventor
ディヴァカラン、アジェイ
ラドクリシュナン、レギュナータン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2005513631A publication Critical patent/JP2005513631A/ja
Application granted granted Critical
Publication of JP4225912B2 publication Critical patent/JP4225912B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/142Detection of scene cut or scene change
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/179Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Description

本発明は、包括的には圧縮ビデオからの動きアクティビティの抽出に関し、より詳細には圧縮ビデオにおけるトーキングヘッド(中心的に話をしている画面上の話手:TALKING HEAD)または主要キャストの識別に関する。
圧縮ビデオフォーマット
デジタルカラービデオ信号の帯域幅を圧縮する基本となる規格が、動画専門家グループ(MPEG)に採用されている。MPEG規格では、画像のフルフレームについての情報を時々のみ作り出すことによって、高データ圧縮率を達成している。フルの画像フレーム、すなわちフレーム内符号化フレームは、「Iフレーム」または「アンカーフレーム」としばしば呼ばれ、他のいかなるフレームからも独立したフルフレーム情報を含む。画像差フレーム、すなわちフレーム間符号化フレームは「Bフレーム」および「Pフレーム」、または「予測フレーム」と呼ばれることが多く、Iフレーム間で符号化され、基準フレームに関する画像差、すなわち残差のみを反映している。
通常、ビデオシーケンスのそれぞれのフレームは、より小さな画像要素、すなわち画素のデータブロックに分割される。それぞれのブロックは離散的コサイン変換(DCT)関数を施されて、統計的に依存した空間的ドメイン画素を独立周波数ドメインDCT係数に変換する。マクロブロックと呼ばれる、画素の8×8、または16×16ブロックは、それぞれ、DCT関数を施されて、符号化信号を提供する。
DCT係数は通常エネルギー集中的であるため、1つのマクロブロックにおいて少数の係数のみが、映像情報の主な部分を含む。例えば、マクロブロックがオブジェクトのエッジ境界を含む場合、変換後、すなわちDCT係数で表されると、そのブロックのエネルギーはDC係数が比較的大きく、係数のマトリクスにわたって、AC係数がランダムに分布する。
一方、非エッジマクロブロックは通常、同様の大きなDC係数と、そのブロックに関連する他の係数よりも大幅に大きな数個の隣接AC係数とを特徴とする。DCT係数は通常、適応量子化が施され、次に送信媒体に関してラン・レングス符号化および可変長符号化される。このため、送信データのマクロブロックは通常、符号語の8×8のマトリクスよりも小さいマトリクスを含む。
フレーム間符号化フレームデータ、すなわち符号化PまたはBフレームデータのマクロブロックは、マクロブロックにおける予測画素と実際の画素の間の差のみを表すDCT係数を含む。フレーム内符号化フレームデータおよびフレーム間符号化フレームデータのマクロブロックはまた、用いる量子化のレベル、マクロブロックのアドレスインジケータまたはロケーションインジケータ、およびマクロブロックのタイプ等の情報も含む。後者の情報は、「ヘッダ」または「オーバーヘッド」情報と呼ばれることが多い。
それぞれのPフレームは、最後に現れたIフレームまたはPフレームから予測される。それぞれのBフレームは、Bフレームが間に配置されているIフレームまたはPフレームから予測される。予測符号化プロセスは、Iフレームのどのマクロブロックの変位量が現在符号化されているBフレームまたはPフレームのマクロブロックと最もよく一致しているかを示す、「動きベクトル」としばしば呼ばれる変位ベクトルの生成を含む。Iフレームにおける一致するブロックの画素データが、符号化されているPフレームまたはBフレームのブロックから画素毎に減算され、残差が生ずる。変換された残差およびベクトルは、PフレームおよびBフレームの符号化されたデータの一部を形成する。
ISO MPEG−1およびMPEG−2等の古いビデオ規格は、ビデオ信号の時間圧縮および空間圧縮を主に扱う比較的低位の仕様である。これらの規格を用いることにより、広範な用途で高い圧縮比を達成することができる。MPEG−4等の新しいビデオ符号化規格(「Information Technology--Generic coding of audio/visual objects」ISO/IEC FDIS 14496-2 (MPEG4 Visual), Nov. 1998を参照)では、任意形状のオブジェクトを別個のビデオオブジェクトプレーン(VOP)として符号化および復号化することができる。登場してきたこれらの規格は、インタラクティブビデオ等のマルチメディア用途を可能にすることを意図しており、その規格では、自然素材と合成素材が統合され、アクセスが自在になる。例えば、特定のタイプのビデオオブジェクトから特徴を抽出すること、あるいは特定の種類のビデオオブジェクトを処理する(perform for)ことを可能にする。
インターネット上でのビデオ配信等の新しいデジタルビデオサービスの到来と共に、アクティビティの識別のような、フレームレベルまたはオブジェクトレベルでのビデオシーケンスにおける情報を識別する信号処理技法がますます必要になっている。
特徴抽出
圧縮ビデオから識別および索引付けするための特徴を抽出することに関する以前の研究は、主にDC係数抽出を強調していた。「Rapid Scene Analysis on Compressed Video」という題の論文(IEEE Transactions on Circuits and Systems for Video Technology, Vol. 5, No. 6, December 1995, page 533-544)において、YeoおよびLiuは、MPEG−2圧縮ビデオドメインにおける情景変化検出へのアプローチを説明している。また、著者等は、圧縮していない全画像データのシーケンスをベースにした情景変化を検出するこれまでの努力や、他者の様々な圧縮ビデオ処理技法を概説している。YeoおよびLiuは、情景解析操作に役立つように、オリジナルの画像の空間的に低減したバージョン、いわゆるDC画像、および圧縮ビデオから抽出したDCシーケンスを用いることを紹介した。彼らの「DC画像」は、オリジナルの画像の1ブロックにおける画素の平均値である画素からできており、DCシーケンスは、DC画像の数の低減した画素の組み合わせである。なお、DC画像抽出ベースの技法はIフレームに良好であるが、これは、IフレームからのDC値の抽出が比較的簡単であるためであることに留意する。しかし、その他のタイプのフレームについては、さらなる計算が必要である。
Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, January 1998において発表された論文において、Won等は、DC係数に費やすビットを利用してフレーム中のエッジを見つけ出すことによって、圧縮MPEG−2ビデオから特徴を抽出する方法を説明している。しかし、彼らの研究は、Iフレームのみに限定されている。Kobla等は、同じ会報において、Yeo等のDC画像抽出を用いてビデオクリップを特徴づけるビデオ軌跡を形成する方法を説明している。
Feng等(IEEE International Conference on Image Processing, Vol. II, pp. 821-824, Sept. 16-19, 1996)は、DC画像を抽出することなく、MPEG−2フレームのマクロブロックにわたるビット割り当てを用いて、ショット境界を検出する。Feng等の技法は、圧縮ビットストリームを解析するのに必要な分にそれほど計算量を必要としないので、計算的に最も簡単である。
米国特許出願の「Methods of scene change detection and fade detection for indexing of video sequences」(出願第09/231,698号、1999年1月14日提出)、「Methods of scene fade detection for indexing of video sequence」(出願第09/231,699号、1999年1月14日提出)、および「Methods of Feature Extraction for Video Sequences」(出願第09/236,838号、1999年1月25日)によれば、Feng等のアプローチのある態様とYeo等のアプローチのある態様との組み合わせを用いて正確かつ簡単な情景変化検出を行う、計算的に簡単な技法が説明されている。
DC画像抽出をベースにした技法を用いることによって、情景またはオブジェクト変化があると疑われるものを連続したフレームのグループ内で正確に見つけたら、見つけた情景の近傍のPフレームまたはBフレーム情報に適当なビット割り当てをベースにした技法および/または適当なDC残差係数処理技法を適用することによって、切点を迅速にかつ正確に見つけ出せることが確認されている。この組み合わせた方法は、MPEG−2フレームシーケンスあるいはMPEG−4の多オブジェクトシーケンスのいずれにも適用することができる。MPEG−4の場合には、各オブジェクトの領域を重み付け要素として用いて、フレームの各オブジェクトにおける変化の重み付け総和を用いるのが有利である。情景変化を見つけ出すのはビデオをショットにセグメント化するために有用である。
米国特許出願第09/345,452号の「Compressed Bit-Stream Segment Identification and Descriptor」(Divakaran等、1999年7月1日提出)によれば、フレーム間符号化フレームに関連する圧縮ビットストリーム中のビット数を基にフレーム間符号化フレームの変位量を求める技法が説明されている。フレーム間符号化フレームはマクロブロックを含む。各マクロブロックは、フレーム間符号化フレームビットの個々の部分と関連する。これらのフレーム間符号化フレームビットは、そのマクロブロックから最もよく一致するフレーム内符号化フレームへの変位を表す。変位量は、フレーム間符号化フレームに関連する全てのマクロブロックの変位量の平均値である。変位量の平均値よりも小さいマクロブロックの変位量はゼロに設定される。変位量がゼロのマクロブロックのラン・レングス数を求め、1番目のフレーム間符号化フレームを識別する。
動きアクティビティ
従来技術の動きアクティビティの研究は主に、動きアクティビティの抽出、および低位の用途(情景変化またはショット変化の検出等)での動きアクティビティの使用に焦点を当てていた(米国特許出願第09/236,838号の「Methods of Feature Extraction of Video」(Divakaran等、1999年1月25日提出、参照により本明細書中に援用)を参照)。
動きアクティビティを用いて、ビデオショット中の動きアクティビティ全体および動きアクティビティの空間分布を測定することもできる。このような記述子は、全ての高アクションショットを低アクションショットからフィルタリングにより除去することによって、ビデオ閲覧用途において成功を収めている(米国特許第5,552,832号の「Run-length encoding sequence for video signals」(Astle、1996年9月3日発行)を参照)。このような記述子の強みは計算的な簡単さにある。
トーキングヘッドを含むビデオのセグメントまたはショットと、含まないショットとを速く識別することが望ましい。圧縮ドメインにおいて動きアクティビティを用いることにより、サイズを小さくしたビデオにおけるトーキングヘッドのより高度な検出のためのセグメント化および索引付けを高速化することができる(例えばY. Wang, Z Liu and J-C. Huang「Multimedia Content Analysis」IEEE Signal Processing Magazine, November 2000を参照)。従来技術のトーキングヘッドの検出は主に、色(例えば肌)の検出または顔の検出(複雑な操作が必要)に焦点を当てていた。
発明の開示
本発明は、「主要キャスト」または他の「トーキングヘッド」を含む圧縮ビデオにおいてフレームを識別する方法を提供する。これにより、ビデオを迅速にセグメント化することができ、計算的により費用のかかる顔の検出および認識プロセスを、サイズを小さくしたビデオのフレームに対してのみ使用することができる。
本発明は、グラウンドトルース(ground truth)の特徴セットの重心から得たテンプレートを用いるか、あるいは複数のクラスタリングしたテンプレートを用いることもできる。テンプレートの特徴ベクトルは、訓練用データに適用したガウス混合モデル(GMM)を用いてモデル化することができる。
より詳細には、本発明は、圧縮ビデオにおいてトーキングヘッドまたは主要キャストを識別する方法を提供する。まず最初に、ビデオをショットにセグメント化する。次に、各ショットから動きアクティビティ記述子を抽出し、結合して、1つのショット動きアクティビティ記述子にする。ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子の間の距離を測定する。テンプレート動きアクティビティ記述子は、訓練用ビデオから得る。測定した距離が所定の閾値よりも短い場合、そのショットは、トーキングヘッドを含むものとして識別される。
動きアクティビティ記述子
図1は、本発明による、圧縮ビデオ102におけるトーキングヘッドの検出に用いるアクティビティ記述子100を示す。ビデオ102は、「ショット」103を形成するフレーム(f,...,f)のシーケンスを含む。以下において、ビデオ102のショット、情景、またはセグメントとは、何らかの時間的なまとまりを持つフレームセット(例えばレンズを1回開閉する間に撮影された全てのフレーム)を意味する。本発明は、ビデオ102中の空間、時間、方向、および強度(strength)情報を解析および使用する。
空間情報は、ショット中の移動領域のサイズおよび数をフレーム毎に表す。空間情報は、少数の大きな移動領域を有する「疎な」ショット(例えば「トーキングヘッド」)と、多数の小さな移動領域を有する「密な」ショット(例えばサッカーの試合)とを区別する。したがって、アクティビティレベルが疎なショットは少数の大きな移動領域を有するということができ、アクティビティレベルが密なショットは多数の小さな移動領域を有するということができる。
時間情報の分布は、ショットにおける各アクティビティレベルの持続時間を表す。時間情報は、動きアクティビティの強度を時間次元に拡張したものである。方向情報は、等間隔の8方向のセットにおける主な動きの方向を表す。方向情報は、ビデオ中の動きベクトルの平均角度(方向)から抽出することができる。
したがって、アクティビティ記述子100は、ビデオシーケンス102におけるアクティビティレベルの強度属性111、方向属性112、空間属性113、および時間属性114を結合する(110)。
動きベクトルの大きさ
動きアクティビティ記述子100のパラメータをビデオの動きベクトルの大きさから次のように導き出す。オブジェクトまたはフレームについて「アクティビティマトリクス」Cmvを次のように定義する。
Figure 0004225912
ここで、(xi,j,xi,j)は(i,j)番目のブロックBに関連する動きベクトルである。MPEGビデオ中のアクティビティ記述子100を抽出する目的で、フレームまたはオブジェクトの記述子を以下のステップに従って構築する。
動きアクティビティ記述子の抽出
図2は、アクティビティ属性100を抽出する方法200を示す。ステップ210において、フレーム内符号化ブロックB(i,j)211をゼロに設定する。ステップ220では、フレーム/オブジェクトの各ブロックBについて、動きベクトルの大きさの平均値Cavg mv211、すなわち「動きの複雑度の平均値」を次のように求める。
Figure 0004225912
M=幅(ブロック数)
N=高さ(ブロック数)
ステップ230では、Cavg mvの分散σ 231を次のように求める。
Figure 0004225912
M=幅(ブロック数)
N=高さ(ブロック数)
ステップ240では、動きベクトルアクティビティマトリクスCmvの閾値に平均値を用いることによって、当該アクティビティマトリクスの「ラン・レングス」パラメータ241を次のように求める。
Figure 0004225912
以下の説明上、ラスタスキャンの長さに関して、ゼロのラン・レングス・パラメータを特に関心の対象とする。
ゼロのラン・レングス・パラメータを、短い、中間、長いの3つの種類に分類する。ゼロのラン・レングス・パラメータを、オブジェクト/フレームの幅に関して正規化する。短いゼロのラン・レングスをフレーム幅の1/3以下として、中間のゼロのラン・レングスをフレーム幅の1/3より長くフレーム幅の2/3未満として定義する。長いゼロのラン・レングスはフレーム幅以上である(すなわちラン・レングスがいくつかの連続するラスタスキャンラインにまたがる)。「ゼロのラン・レングス」のさらなる説明については、米国特許出願第09/236,838号の「Methods of Feature Extraction of Video」(Divakaran等、1999年1月25日提出、参照により本明細書中に援用)を参照されたい。
以下の表記では、パラメータNsrを短いゼロのラン・レングスとして用い、同様に中間のゼロのラン・レングスおよび長いゼロのラン・レングスをそれぞれパラメータNmrおよびNlrで定義する。ゼロのラン・レングス・パラメータを量子化し、回転、平行移動、対称移動等に関して何らかの不変性を得る。
したがって、フレーム/オブジェクトの動きアクティビティ記述子100は以下を含む。
Figure 0004225912
ここでσは標準偏差である。
トーキングヘッドの識別方法
図3に示すように、上述のようなMPEG−7動きアクティビティ記述子100を用いて、圧縮ビデオにおいて「トーキングヘッド(中心的に話をしている画面上の話手:TALKING HEAD)」または「主要キャスト」のメンバーを識別する。トーキングヘッド、あるいはより狭い意味では「ニュースアナウンサーのショット」を見つけることにより、例えばニュースストーリーの始まりと終わりを確定することによってビデオの要約化が可能になる。
まず最初に、1回限りの前処理ステップのセットにおいて、テンプレート動きアクティビティ記述子(T)301を形成する。このテンプレートは、代表的な「訓練用」トーキングヘッドショットから半自動的または自動的に作成することができる。自動的な作成は、訓練用ビデオ302から動きアクティビティ記述子(MAD)100を抽出すること(310)によって行う。訓練用ビデオは、多数のショット(例えば10〜100の典型的なトーキングヘッドショット)を含む可能性がある。訓練用ビデオには、米国、メキシコ、日本、中国および他国のニュース番組からの、アナウンサーすなわちトーキングヘッドのみを含む番組部分を示すショットを含めることができる。動きアクティビティ記述子100を結合して(320)、テンプレート動きアクティビティ記述子(T)301を形成する。結合320は、動きアクティビティ記述子100の重心または平均とすることができる。任意選択のステップとして、重み付けまたは正規化した(W)(330)係数を次式により生成することができる。
Figure 0004225912
テンプレート301の形成後、ビデオ303中のトーキングヘッドショットを次のように識別する。まず最初に、任意の既知のセグメント化プロセスを用いてビデオ303をショット304にセグメント化することができる(340)。セグメント化が圧縮したDC画像に基づくものである場合、ショットのセグメント化およびショットの識別は1回のパス(single pass)で行うことができる。
次に、各ショット304から動きアクティビティ記述子を抽出する(350)。テンプレート301に関して上述したように、動きアクティビティ記述子を結合して単一のショット(S)記述子305にする。次に、各ショット304について、次式により距離D(S,T)を測定する(360)。
Figure 0004225912
ここで、Tはテンプレート動きアクティビティ記述子301であり、Sは、トーキングヘッドの識別のためにテストしているショットのショット動きアクティビティ記述子305である。
次に、例えば上述のようなテンプレート動きアクティビティ記述子の標準偏差σを用いて閾値処理370を距離に適用する。測定した距離が標準偏差内である場合、そのショットをトーキングヘッドショット306として識別する。トーキングヘッドショットとして識別されたショットはさらなる処理または索引付けのために保持することができ、他のショットは全て廃棄することができる。
トーキングヘッドショットは同質であるという事実を考慮してもよい。この場合、あるショットを1つのテンプレートからの距離によりトーキングヘッドショットとして識別した後、二重確認としてその同質性をチェックすることができる。この同質性は、動きアクティビティ記述子の平均値と動きアクティビティ記述子の中央値の間の差を求めることによってチェックする。この差が所定の決められた閾値を超える場合、トーキングヘッドではないと宣言する。この追加的なテストを行うことにより、テンプレート(複数可)からの距離のみを用いた場合と比べて結果が幾分向上する。
本発明による基本的な動きをベースにしたトーキングヘッドの識別方法は、従来技術の色または構造ベースの方法と対比して計算的に単純明快である。しかしながら、ショットサイズを小さくしても、誤警報の回数は(減少すべきであるのに)減少しない。これは、動きアクティビティ記述子がショットにわたって平均化されるため、単一のテンプレート301では1ショット全体のトーキングヘッド特徴の時間的な変化を正確に捉えることができないことによるものと思われる。そこで、本発明の方法は複数のテンプレートを用いることもできる。この場合、テンプレートT301はテンプレートセットとなり、距離はショット動きアクティビティ記述子とテンプレートセットの記述子との間で測定される。この場合、閾値処理は、距離の最小値または最大値を基準に行うことができる。
ガウス混合
テンプレートまたはテンプレートセット301は離散関数、例えば4つの要素からなるベクトルを用いて形成する。しかしながら、1回の前処理中に、連続関数、例えば確率密度を用いて、テンプレートの低次元ベクトルも形成することができる。この場合、まず最初に、訓練用ビデオ302に最も適合するガウス混合モデル(GMM)307を訓練する。利点として、GMMは、任意形状の密度に対して平滑な近似値を形成し、訓練用ビデオ302の「ファジーな」すなわち確率的な特徴を捉える。
次に、よく知られた最尤(ML)推定法を用いて、訓練用ビデオ302が与えられた場合にGMMの尤度を最大にするモデルパラメータ(すなわち平均、分散および混合の重み)を更新することができる。識別法に要求されるテンプレートの数に応じて、ガウス成分の平均値をテンプレートセット301として、混合重みの大きい順に選択することができる。
距離メトリック
テンプレートと、特定のショットの各フレームの動きアクティビティ記述子との間の半ハウスドルフ(semi-Hausdorff)距離(dsh)を測定することも可能である。特定のテンプレートT301の動きアクティビティ記述子と、特定のビデオショット304中のフレームセットとの間の半ハウスドルフ距離dshを次のように定義する。
テンプレートセット301は、m個の要素T(i=1,・・・,m)301と、「トーキングヘッド」についてテストする、n個のフレームS(i=1,・・・,n)を含むショットSとを含む。上で定義したように、テンプレートTと特定のフレームSとの間の距離はd(T,S)である。
フレームTの各々の距離d
k=0,・・・,mについてd=min(d(T,T))である場合、
TとSの間の半ハウスドルフ距離は
i=1,・・・,nについてdsh(T,S)=max(d)である。
言い換えれば、まず最初に全てのiについて、各フレームSと、テンプレートセットT301のなかでそれを最も良く表現したものとの間の距離dを測定する。次に、上記のように距離dの最大値を求める。したがって、ショット304がテンプレートセットT301にどれほど「近い」かを判断する。よい表現であるほど、フレームSとテンプレートTの間の半ハウスドルフ距離は短くなる。例えば、あるショットの半ハウスドルフ距離が短いということは、選択したテンプレートセットに対してそのショットが同質であることを示す。
単一のテンプレートのみではなく複数のテンプレートを用いる場合、本発明による方法の性能は良くなる。しかしながら、この向上に伴い、テンプレートセットとショットのフレームとの間の半ハウスドルフ距離を割り出す複雑性もさらに増す。この複雑性は、ショットをサンプリングし(308)、そのショット中のサンプリングしたフレームのサブセットを用いて距離を導き出すことによって、本方法の性能を実質的に下げることなく単純化することができる。
本発明は、具体的な用語および例を用いて説明される。本発明の精神および範囲内で様々な他の適用および変更を行うことができることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および変更をすべて網羅することである。
本発明によるアクティビティ記述子のブロック図である。 フレームの動きベクトルの大きさからアクティビティ記述子を抽出する方法のフロー図である。 本発明による圧縮ビデオにおけるトーキングヘッドの識別方法のフロー図である。

Claims (14)

  1. 圧縮ビデオにおけるトーキングヘッドの識別方法であって、
    入力手段により圧縮ビデオが入力されること、
    抽出手段が、前記圧縮ビデオにおける複数のショットの各々から動きアクティビティ記述子を抽出すること、
    結合手段が、前記ショットの各々の前記複数の動きアクティビティ記述子を結合して、1つのショット動きアクティビティ記述子にすること、
    測定手段が、前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子の間の距離を測定すること、および
    識別手段が、前記測定した距離が所定の閾値よりも短い場合、特定のショットをトーキングヘッドとして識別すること
    を備え
    前記動きアクティビティ記述子の各々はC avg mv ,N sr ,N mr ,N lr ,σ fr の形式であり、ここで、C avg mv は動きベクトルの平均値であり、σ fr はC avg mv の分散であり、N sr ,N mr ,N lr はそれぞれ、短い、中間および長いゼロのラン・レングスの動きベクトルである、
    圧縮ビデオにおけるトーキングヘッドの識別方法。
  2. 訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオから複数の訓練用動きアクティビティ記述子を抽出すること、および
    前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
    をさらに備えた請求項1に記載の方法。
  3. 前記結合することは、前記複数の訓練用動きアクティビティ記述子の中央値を求めることである請求項2に記載の方法。
  4. 前記結合することは、前記複数の訓練用動きアクティビティ記述子の平均値を求めることである請求項2に記載の方法。
  5. 前記閾値は前記テンプレート動きアクティビティ記述子の標準偏差σである請求項1に記載の方法。
  6. 前記距離は次式により測定され、
    Figure 0004225912
    ここで、Wtotは正規化重みであり、Tは前記テンプレート動きアクティビティ記述子であり、Sは前記ショット動きアクティビティ記述子である請求項に記載の方法。
  7. 前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子セットの間の距離を測定すること
    をさらに備えた請求項1に記載の方法。
  8. 前記距離は半ハウスドルフ距離である請求項1に記載の方法。
  9. 前記テンプレート動きアクティビティは離散関数によりモデル化される請求項1に記載の方法。
  10. 前記テンプレート動きアクティビティは連続関数によりモデル化される請求項1に記載の方法。
  11. 前記連続関数は混合ガウス分布である請求項10に記載の方法。
  12. 訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオのサンプリングされたフレームから複数の訓練用動きアクティビティ記述子を抽出すること、および
    前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
    をさらに備えた請求項1に記載の方法。
  13. 前記動きアクティビティ記述子を用いて前記ビデオを前記複数のショットにセグメント化すること
    をさらに備えた請求項1に記載の方法。
  14. トーキングヘッドショットのみを保持することをさらに備えた請求項1に記載の方法。
JP2003553510A 2001-12-17 2002-12-17 圧縮ビデオにおけるトーキングヘッドの検出方法 Expired - Fee Related JP4225912B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/022,789 US6847680B2 (en) 2001-12-17 2001-12-17 Method for detecting talking heads in a compressed video
PCT/JP2002/013192 WO2003052695A2 (en) 2001-12-17 2002-12-17 Method for detecting talking heads in a compressed video

Publications (2)

Publication Number Publication Date
JP2005513631A JP2005513631A (ja) 2005-05-12
JP4225912B2 true JP4225912B2 (ja) 2009-02-18

Family

ID=21811460

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003553510A Expired - Fee Related JP4225912B2 (ja) 2001-12-17 2002-12-17 圧縮ビデオにおけるトーキングヘッドの検出方法

Country Status (3)

Country Link
US (1) US6847680B2 (ja)
JP (1) JP4225912B2 (ja)
WO (1) WO2003052695A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965645B2 (en) * 2001-09-25 2005-11-15 Microsoft Corporation Content-based characterization of video frame sequences
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US8780957B2 (en) 2005-01-14 2014-07-15 Qualcomm Incorporated Optimal weights for MMSE space-time equalizer of multicode CDMA system
CL2006000541A1 (es) 2005-03-10 2008-01-04 Qualcomm Inc Metodo para el procesamiento de datos multimedia que comprende: a) determinar la complejidad de datos multimedia; b) clasificar los datos multimedia en base a la complejidad determinada; y aparato asociado.
US8879857B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Redundant data encoding methods and device
US8948260B2 (en) 2005-10-17 2015-02-03 Qualcomm Incorporated Adaptive GOP structure in video streaming
US8654848B2 (en) 2005-10-17 2014-02-18 Qualcomm Incorporated Method and apparatus for shot detection in video streaming
US7555149B2 (en) * 2005-10-25 2009-06-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting videos using face detection
JP4618166B2 (ja) * 2006-03-07 2011-01-26 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
US9131164B2 (en) 2006-04-04 2015-09-08 Qualcomm Incorporated Preprocessor method and apparatus
EP3683768B1 (en) * 2007-05-03 2023-06-28 Sony Group Corporation Method and system for initializing templates of moving objects
JP6007682B2 (ja) * 2012-08-31 2016-10-12 富士通株式会社 画像処理装置、画像処理方法及びプログラム
CN111178638B (zh) * 2019-12-31 2022-05-27 江西服装学院 一种服装设计优化系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9019538D0 (en) * 1990-09-07 1990-10-24 Philips Electronic Associated Tracking a moving object
US5847776A (en) * 1996-06-24 1998-12-08 Vdonet Corporation Ltd. Method for entropy constrained motion estimation and coding of motion vectors with increased search range
US6553150B1 (en) * 2000-04-25 2003-04-22 Hewlett-Packard Development Co., Lp Image sequence compression featuring independently coded regions
US7110458B2 (en) * 2001-04-27 2006-09-19 Mitsubishi Electric Research Laboratories, Inc. Method for summarizing a video using motion descriptors
US6823011B2 (en) * 2001-11-19 2004-11-23 Mitsubishi Electric Research Laboratories, Inc. Unusual event detection using motion activity descriptors

Also Published As

Publication number Publication date
US20030112865A1 (en) 2003-06-19
WO2003052695A3 (en) 2004-03-25
JP2005513631A (ja) 2005-05-12
WO2003052695A2 (en) 2003-06-26
US6847680B2 (en) 2005-01-25

Similar Documents

Publication Publication Date Title
US6618507B1 (en) Methods of feature extraction of video sequences
JP4566498B2 (ja) ビデオにおける動きアクティビティの記述方法
US7003038B2 (en) Activity descriptor for video sequences
JP4267327B2 (ja) 動き記述子を用いてビデオを要約化する方法
US6449392B1 (en) Methods of scene change detection and fade detection for indexing of video sequences
US7302004B2 (en) Content-based characterization of video frame sequences
US6327390B1 (en) Methods of scene fade detection for indexing of video sequences
JP4225912B2 (ja) 圧縮ビデオにおけるトーキングヘッドの検出方法
Al-Sanjary et al. Detection of video forgery: A review of literature
US6823011B2 (en) Unusual event detection using motion activity descriptors
US7142602B2 (en) Method for segmenting 3D objects from compressed videos
EP3175621B1 (en) Video-segment identification systems and methods
Smeaton et al. An evaluation of alternative techniques for automatic detection of shot boundaries in digital video
JP4618621B2 (ja) フレームを識別する方法及びシステム
Kayaalp Video segmentation using partially decoded mpeg bitstream
Taur et al. High-Resolution Photo Album Through Video Shooting
Gao et al. A novel scene cut detection method in H. 264/AVC compression domain
He et al. Approach of sports programs classification with motion information in MPEG domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051117

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111205

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121205

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131205

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees