JP4225912B2 - 圧縮ビデオにおけるトーキングヘッドの検出方法 - Google Patents
圧縮ビデオにおけるトーキングヘッドの検出方法 Download PDFInfo
- Publication number
- JP4225912B2 JP4225912B2 JP2003553510A JP2003553510A JP4225912B2 JP 4225912 B2 JP4225912 B2 JP 4225912B2 JP 2003553510 A JP2003553510 A JP 2003553510A JP 2003553510 A JP2003553510 A JP 2003553510A JP 4225912 B2 JP4225912 B2 JP 4225912B2
- Authority
- JP
- Japan
- Prior art keywords
- motion activity
- training
- descriptor
- video
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/167—Detection; Localisation; Normalisation using comparisons between temporally consecutive images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/142—Detection of scene cut or scene change
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/179—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scene or a shot
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/46—Embedding additional information in the video signal during the compression process
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
- H04N19/517—Processing of motion vectors by encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Description
デジタルカラービデオ信号の帯域幅を圧縮する基本となる規格が、動画専門家グループ(MPEG)に採用されている。MPEG規格では、画像のフルフレームについての情報を時々のみ作り出すことによって、高データ圧縮率を達成している。フルの画像フレーム、すなわちフレーム内符号化フレームは、「Iフレーム」または「アンカーフレーム」としばしば呼ばれ、他のいかなるフレームからも独立したフルフレーム情報を含む。画像差フレーム、すなわちフレーム間符号化フレームは「Bフレーム」および「Pフレーム」、または「予測フレーム」と呼ばれることが多く、Iフレーム間で符号化され、基準フレームに関する画像差、すなわち残差のみを反映している。
圧縮ビデオから識別および索引付けするための特徴を抽出することに関する以前の研究は、主にDC係数抽出を強調していた。「Rapid Scene Analysis on Compressed Video」という題の論文(IEEE Transactions on Circuits and Systems for Video Technology, Vol. 5, No. 6, December 1995, page 533-544)において、YeoおよびLiuは、MPEG−2圧縮ビデオドメインにおける情景変化検出へのアプローチを説明している。また、著者等は、圧縮していない全画像データのシーケンスをベースにした情景変化を検出するこれまでの努力や、他者の様々な圧縮ビデオ処理技法を概説している。YeoおよびLiuは、情景解析操作に役立つように、オリジナルの画像の空間的に低減したバージョン、いわゆるDC画像、および圧縮ビデオから抽出したDCシーケンスを用いることを紹介した。彼らの「DC画像」は、オリジナルの画像の1ブロックにおける画素の平均値である画素からできており、DCシーケンスは、DC画像の数の低減した画素の組み合わせである。なお、DC画像抽出ベースの技法はIフレームに良好であるが、これは、IフレームからのDC値の抽出が比較的簡単であるためであることに留意する。しかし、その他のタイプのフレームについては、さらなる計算が必要である。
従来技術の動きアクティビティの研究は主に、動きアクティビティの抽出、および低位の用途(情景変化またはショット変化の検出等)での動きアクティビティの使用に焦点を当てていた(米国特許出願第09/236,838号の「Methods of Feature Extraction of Video」(Divakaran等、1999年1月25日提出、参照により本明細書中に援用)を参照)。
本発明は、「主要キャスト」または他の「トーキングヘッド」を含む圧縮ビデオにおいてフレームを識別する方法を提供する。これにより、ビデオを迅速にセグメント化することができ、計算的により費用のかかる顔の検出および認識プロセスを、サイズを小さくしたビデオのフレームに対してのみ使用することができる。
図1は、本発明による、圧縮ビデオ102におけるトーキングヘッドの検出に用いるアクティビティ記述子100を示す。ビデオ102は、「ショット」103を形成するフレーム(f0,...,fn)のシーケンスを含む。以下において、ビデオ102のショット、情景、またはセグメントとは、何らかの時間的なまとまりを持つフレームセット(例えばレンズを1回開閉する間に撮影された全てのフレーム)を意味する。本発明は、ビデオ102中の空間、時間、方向、および強度(strength)情報を解析および使用する。
動きアクティビティ記述子100のパラメータをビデオの動きベクトルの大きさから次のように導き出す。オブジェクトまたはフレームについて「アクティビティマトリクス」Cmvを次のように定義する。
図2は、アクティビティ属性100を抽出する方法200を示す。ステップ210において、フレーム内符号化ブロックB(i,j)211をゼロに設定する。ステップ220では、フレーム/オブジェクトの各ブロックBについて、動きベクトルの大きさの平均値Cavg mv211、すなわち「動きの複雑度の平均値」を次のように求める。
N=高さ(ブロック数)
N=高さ(ブロック数)
図3に示すように、上述のようなMPEG−7動きアクティビティ記述子100を用いて、圧縮ビデオにおいて「トーキングヘッド(中心的に話をしている画面上の話手:TALKING HEAD)」または「主要キャスト」のメンバーを識別する。トーキングヘッド、あるいはより狭い意味では「ニュースアナウンサーのショット」を見つけることにより、例えばニュースストーリーの始まりと終わりを確定することによってビデオの要約化が可能になる。
テンプレートまたはテンプレートセット301は離散関数、例えば4つの要素からなるベクトルを用いて形成する。しかしながら、1回の前処理中に、連続関数、例えば確率密度を用いて、テンプレートの低次元ベクトルも形成することができる。この場合、まず最初に、訓練用ビデオ302に最も適合するガウス混合モデル(GMM)307を訓練する。利点として、GMMは、任意形状の密度に対して平滑な近似値を形成し、訓練用ビデオ302の「ファジーな」すなわち確率的な特徴を捉える。
テンプレートと、特定のショットの各フレームの動きアクティビティ記述子との間の半ハウスドルフ(semi-Hausdorff)距離(dsh)を測定することも可能である。特定のテンプレートT301の動きアクティビティ記述子と、特定のビデオショット304中のフレームセットとの間の半ハウスドルフ距離dshを次のように定義する。
k=0,・・・,mについてdi=min(d(Tk,TR))である場合、
TとSの間の半ハウスドルフ距離は
i=1,・・・,nについてdsh(T,S)=max(di)である。
Claims (14)
- 圧縮ビデオにおけるトーキングヘッドの識別方法であって、
入力手段により圧縮ビデオが入力されること、
抽出手段が、前記圧縮ビデオにおける複数のショットの各々から動きアクティビティ記述子を抽出すること、
結合手段が、前記ショットの各々の前記複数の動きアクティビティ記述子を結合して、1つのショット動きアクティビティ記述子にすること、
測定手段が、前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子の間の距離を測定すること、および
識別手段が、前記測定した距離が所定の閾値よりも短い場合、特定のショットをトーキングヘッドとして識別すること
を備え、
前記動きアクティビティ記述子の各々はC avg mv ,N sr ,N mr ,N lr ,σ fr の形式であり、ここで、C avg mv は動きベクトルの平均値であり、σ fr 2 はC avg mv の分散であり、N sr ,N mr ,N lr はそれぞれ、短い、中間および長いゼロのラン・レングスの動きベクトルである、
圧縮ビデオにおけるトーキングヘッドの識別方法。 - 訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオから複数の訓練用動きアクティビティ記述子を抽出すること、および
前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
をさらに備えた請求項1に記載の方法。 - 前記結合することは、前記複数の訓練用動きアクティビティ記述子の中央値を求めることである請求項2に記載の方法。
- 前記結合することは、前記複数の訓練用動きアクティビティ記述子の平均値を求めることである請求項2に記載の方法。
- 前記閾値は前記テンプレート動きアクティビティ記述子の標準偏差σである請求項1に記載の方法。
- 前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子セットの間の距離を測定すること
をさらに備えた請求項1に記載の方法。 - 前記距離は半ハウスドルフ距離である請求項1に記載の方法。
- 前記テンプレート動きアクティビティは離散関数によりモデル化される請求項1に記載の方法。
- 前記テンプレート動きアクティビティは連続関数によりモデル化される請求項1に記載の方法。
- 前記連続関数は混合ガウス分布である請求項10に記載の方法。
- 訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオのサンプリングされたフレームから複数の訓練用動きアクティビティ記述子を抽出すること、および
前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
をさらに備えた請求項1に記載の方法。 - 前記動きアクティビティ記述子を用いて前記ビデオを前記複数のショットにセグメント化すること
をさらに備えた請求項1に記載の方法。 - トーキングヘッドショットのみを保持することをさらに備えた請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/022,789 US6847680B2 (en) | 2001-12-17 | 2001-12-17 | Method for detecting talking heads in a compressed video |
PCT/JP2002/013192 WO2003052695A2 (en) | 2001-12-17 | 2002-12-17 | Method for detecting talking heads in a compressed video |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005513631A JP2005513631A (ja) | 2005-05-12 |
JP4225912B2 true JP4225912B2 (ja) | 2009-02-18 |
Family
ID=21811460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003553510A Expired - Fee Related JP4225912B2 (ja) | 2001-12-17 | 2002-12-17 | 圧縮ビデオにおけるトーキングヘッドの検出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6847680B2 (ja) |
JP (1) | JP4225912B2 (ja) |
WO (1) | WO2003052695A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6965645B2 (en) * | 2001-09-25 | 2005-11-15 | Microsoft Corporation | Content-based characterization of video frame sequences |
US7983835B2 (en) | 2004-11-03 | 2011-07-19 | Lagassey Paul J | Modular intelligent transportation system |
US8780957B2 (en) | 2005-01-14 | 2014-07-15 | Qualcomm Incorporated | Optimal weights for MMSE space-time equalizer of multicode CDMA system |
CL2006000541A1 (es) | 2005-03-10 | 2008-01-04 | Qualcomm Inc | Metodo para el procesamiento de datos multimedia que comprende: a) determinar la complejidad de datos multimedia; b) clasificar los datos multimedia en base a la complejidad determinada; y aparato asociado. |
US8879857B2 (en) | 2005-09-27 | 2014-11-04 | Qualcomm Incorporated | Redundant data encoding methods and device |
US8948260B2 (en) | 2005-10-17 | 2015-02-03 | Qualcomm Incorporated | Adaptive GOP structure in video streaming |
US8654848B2 (en) | 2005-10-17 | 2014-02-18 | Qualcomm Incorporated | Method and apparatus for shot detection in video streaming |
US7555149B2 (en) * | 2005-10-25 | 2009-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for segmenting videos using face detection |
JP4618166B2 (ja) * | 2006-03-07 | 2011-01-26 | ソニー株式会社 | 画像処理装置、画像処理方法、およびプログラム |
US9131164B2 (en) | 2006-04-04 | 2015-09-08 | Qualcomm Incorporated | Preprocessor method and apparatus |
EP3683768B1 (en) * | 2007-05-03 | 2023-06-28 | Sony Group Corporation | Method and system for initializing templates of moving objects |
JP6007682B2 (ja) * | 2012-08-31 | 2016-10-12 | 富士通株式会社 | 画像処理装置、画像処理方法及びプログラム |
CN111178638B (zh) * | 2019-12-31 | 2022-05-27 | 江西服装学院 | 一种服装设计优化系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9019538D0 (en) * | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
US5847776A (en) * | 1996-06-24 | 1998-12-08 | Vdonet Corporation Ltd. | Method for entropy constrained motion estimation and coding of motion vectors with increased search range |
US6553150B1 (en) * | 2000-04-25 | 2003-04-22 | Hewlett-Packard Development Co., Lp | Image sequence compression featuring independently coded regions |
US7110458B2 (en) * | 2001-04-27 | 2006-09-19 | Mitsubishi Electric Research Laboratories, Inc. | Method for summarizing a video using motion descriptors |
US6823011B2 (en) * | 2001-11-19 | 2004-11-23 | Mitsubishi Electric Research Laboratories, Inc. | Unusual event detection using motion activity descriptors |
-
2001
- 2001-12-17 US US10/022,789 patent/US6847680B2/en not_active Expired - Fee Related
-
2002
- 2002-12-17 WO PCT/JP2002/013192 patent/WO2003052695A2/en active Application Filing
- 2002-12-17 JP JP2003553510A patent/JP4225912B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20030112865A1 (en) | 2003-06-19 |
WO2003052695A3 (en) | 2004-03-25 |
JP2005513631A (ja) | 2005-05-12 |
WO2003052695A2 (en) | 2003-06-26 |
US6847680B2 (en) | 2005-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6618507B1 (en) | Methods of feature extraction of video sequences | |
JP4566498B2 (ja) | ビデオにおける動きアクティビティの記述方法 | |
US7003038B2 (en) | Activity descriptor for video sequences | |
JP4267327B2 (ja) | 動き記述子を用いてビデオを要約化する方法 | |
US6449392B1 (en) | Methods of scene change detection and fade detection for indexing of video sequences | |
US7302004B2 (en) | Content-based characterization of video frame sequences | |
US6327390B1 (en) | Methods of scene fade detection for indexing of video sequences | |
JP4225912B2 (ja) | 圧縮ビデオにおけるトーキングヘッドの検出方法 | |
Al-Sanjary et al. | Detection of video forgery: A review of literature | |
US6823011B2 (en) | Unusual event detection using motion activity descriptors | |
US7142602B2 (en) | Method for segmenting 3D objects from compressed videos | |
EP3175621B1 (en) | Video-segment identification systems and methods | |
Smeaton et al. | An evaluation of alternative techniques for automatic detection of shot boundaries in digital video | |
JP4618621B2 (ja) | フレームを識別する方法及びシステム | |
Kayaalp | Video segmentation using partially decoded mpeg bitstream | |
Taur et al. | High-Resolution Photo Album Through Video Shooting | |
Gao et al. | A novel scene cut detection method in H. 264/AVC compression domain | |
He et al. | Approach of sports programs classification with motion information in MPEG domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051117 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081125 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111205 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121205 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131205 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |