JP5031312B2 - 複数のフレームを含むビデオの要約を生成するための方法およびシステム - Google Patents

複数のフレームを含むビデオの要約を生成するための方法およびシステム Download PDF

Info

Publication number
JP5031312B2
JP5031312B2 JP2006268244A JP2006268244A JP5031312B2 JP 5031312 B2 JP5031312 B2 JP 5031312B2 JP 2006268244 A JP2006268244 A JP 2006268244A JP 2006268244 A JP2006268244 A JP 2006268244A JP 5031312 B2 JP5031312 B2 JP 5031312B2
Authority
JP
Japan
Prior art keywords
video
face
frames
frame
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006268244A
Other languages
English (en)
Other versions
JP2007124636A (ja
Inventor
カディア・エイ・ペカー
アジェイ・ディヴァカラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Research Laboratories Inc
Original Assignee
Mitsubishi Electric Research Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Research Laboratories Inc filed Critical Mitsubishi Electric Research Laboratories Inc
Publication of JP2007124636A publication Critical patent/JP2007124636A/ja
Application granted granted Critical
Publication of JP5031312B2 publication Critical patent/JP5031312B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/745Browsing; Visualisation therefor the internal structure of a single video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Processing (AREA)

Description

本発明は、包括的にはビデオをセグメント化するとともにブラウジングすることに関し、より詳細には、顔検出を用いるニュースビデオのセグメント化、要約およびブラウジングに関する。
従来技術によるニュースビデオのブラウジングシステムは、通常、異なるトピックまたはニュースストーリーを見つける際、ニュース司会者の遷移の検出に頼る。ビデオに遷移がマークされている場合、ユーザは、トピックからトピックへ素早くスキップし、所望のトピックを見つけることができる。
遷移の検出は、通常、ニュースビデオから抽出したテキストに高レベルのヒューリスティックを適用することによって行われる。テキストは、クローズドキャプション情報、埋め込みキャプション、音声認識システム、またはこれらの組み合わせから抽出することができる(Hanjalic他著「ダンサー:デルフト高度ニュース検索システム(Dancers: Delft advanced news retrieval system)」(IS&T/SPIE Electronic Imaging 2001: Storage and retrieval for Media Databases, 2001)およびJasinschi他著「トピックのセグメント化および分類のための統合マルチメディア処理(Integrated multimedia processing for topic segmentation and classification)」(ICIP-2001, pp.366-369, 2001)を参照)。
司会者の検出は、低レベルの聴覚的特徴および視覚的特徴(画像の色、動き、およびテクスチャ等)からも行うことができる。例えば、オーディオ信号の部分をまずクラスタリングして音声または非音声に分類する。音声部分は、各話者のガウス混合モデル(GMM)を覚えさせるために用いる。次に、音声部分を異なるGMMによりセグメント化して様々な司会者を検出する(Wang他著「マルチメディアコンテンツ解析(Multimedia Content Analysis)」(IEEE Signal Processing Magazine, November 2000)を参照)。このような技法は、しばしば計算集約的となり、専門知識を活用しない。
もう1つの動きベースのビデオブラウジングシステムは、ニュースビデオのトピックリストを種々のトピックの開始フレーム番号および終了フレーム番号とともに利用することに頼るものである(Divakaran他著「パーソナルビデオレコーダ用のコンテンツベースのブラウジングシステム(Content Based Browsing System for Personal Video Recorders)」(IEEE International Conference on Consumer Electronics (ICCE), June 2002)を参照)。このシステムの主な利点は、圧縮領域において動作するために、計算量が多くないことである。ビデオセグメントがトピックリストから取得される場合、視覚的要約を生成することができる。取得されない場合、ビデオを要約する前に均一サイズのセグメントに区分することができる。しかしながら、後者の手法は、コンテンツの意味論的セグメント化との一貫性がないため、ユーザには不便である。
したがって、ニュースビデオにおいて関心のあるトピックを確実に見つけることができるシステムが必要とされている。その後、ビデオをセグメント化および要約してブラウジングを容易にする。
本発明は、ビデオの要約を生成するための方法を提供する。ビデオの複数のフレームにおいて顔が検出される。各フレームにおいて検出される顔の数に従ってフレームが分類され、該分類に従ってビデオがセグメントに区分されてビデオの要約が生成される。
ただ1つの顔が検出されたものとして分類されるフレーム毎に、顔の1つまたは複数の特徴が判定される。この特徴に従ってフレームがラベルを付されてラベルを付されたクラスタが生成され、該ラベルを付されたクラスタに従って、セグメントがサブセグメントに区分される。
システムの構造および方法の動作
図1は、本発明によるビデオ101を要約するためのシステムおよび方法100を示す。そのビデオの複数のフレームにおいて顔が検出されて(110)、フレーム毎に顔の数が求められる(111)。フレーム毎に検出された顔の数111によって、フレームが分類され(120)、その分類121に従って、ビデオ101がセグメント131〜133に区分されて(200)、ビデオ101の要約134が生成される。それらのセグメントは、1つの顔131、2つの顔132、および3つ以上の顔133を有するフレームを含むことができる。
図2は、区分200の好ましい実施の形態を示す。1つの顔が検出されたものとして分類されるフレームを含むセグメント131毎に、顔の1つまたは複数の特徴211が判定される(210)。その特徴211に従って、セグメント131内の各フレームがラベルを付される(220)。そのラベルに従って、ラベルを付されたフレーム221がクラスタリングされて(230)、ラベルを付されたクラスタ231が生成され、そのラベルを付されたクラスタに従って、1つの顔を含むフレームとして分類されるフレームを有するセグメント131が、サブセグメント241に区分される(240)。
セグメント131〜133およびサブセグメント141に従って、ユーザがビデオ101をブラウジングすることができる。
コンシューマビデオにおける顔検出
好ましい実施の形態では、高い精度および速い速度を提供するViola−Jones顔検出器が用いられる。2002年7月22日に出願され、参照によりその全体が本明細書に援用される、Viola他による米国特許出願第10/200、464号「画像中の物体を検出するシステムおよび方法(System and Method for Detecting Objects in Images)」を参照願いたい。Viola−Jones検出器は、用いられるパラメータファイルを変更することによって、他の物体を検出することもできる。したがって、同じ検出エンジンを用いて、いくつかの種類の物体を検出することができ、それを用いて、ビデオ101をセグメント化することができる。
Viola−Jones顔検出器は、ブーストされた長方形の画像特徴を基にする。本発明では、フレームが360×240ピクセルに縮小され、画像特徴の1ピクセルシフトに関して検出が実施される。その速度は、復号化および表示オーバーヘッドを含む、ペンティアム(登録商標)4、3GHz PC上でのこれらの設定時に、約15fpsである。正面顔検出器の場合に、30〜60フレーム当たり約1つの誤って検出される顔が生じる。
本発明は、圧縮されたビデオにおいて動作することができる。DC画像を用いることにより、検出器によって(すなわち、検出速度は、画像のピクセル数に比例する)、および復号化の節約によって、顔検出器の速度が大幅に高められる。圧縮されたビデオの場合には、検出される最小顔サイズは、大きくなるが、ニュースビデオ内の対象とする顔は、多くの場合にその範囲内にある。その検出器は、圧縮されたビデオのIフレームだけで動作することができるか、または処理能力に相応しい、時間的にサブサンプリングされた速度において動作することができる。そのビデオの1つのフレーム内の顔の位置であるx位置も求められる。
顔のx位置およびサイズを用いるクラスタリング
最初に、検出された顔の数に基づいて、各ビデオフレームを、またはオプションでは、選択される時間分解能に応じてそれよりも大きなフレーム単位を、「1つの顔」、「2つの顔」および「3つ以上の顔」のクラスに分類する。ニュースビデオ、並びにトークショーおよびインタビューのような他のほとんど変化しないシーンのトークビデオでは、セグメントの大部分が1つの顔を有する。
顔特徴210に基づいて、そのフレーム内の「1つの顔」のセグメントがさらに区分される。本発明で対象とするニュースおよびトークショーのビデオ分野では、顔のサイズおよびx位置が、異なるタイプのビデオシーンを見分けるために用いられる特徴である。図3は、y軸301として顔のx位置を、x軸302として顔のサイズを用いる、放送ニュース番組における「1つの顔」のビデオフレームの自然クラスタリング310を示す。
本発明では、あまり複雑ではなく、広く利用できることから、3〜5クラスタによるk平均クラスタリングが用いられる。図4は、図3のデータの散布図を示しており、k平均クラスタリングによってクラスタ401が得られている。
クラスタリングのためにガウス混合モデル(GMM)を用いることもでき、それは、k平均クラスタリングによって生成されるクラスタよりも、滑らかなクラスタ境界と、直観的に見えるクラスタとを与える。図5は、図3のデータの散布図を示しており、GMMを用いてクラスタ502が得られている。
顔のサイズおよびx位置を用いて、「1つの顔」のフレームをクラスタリングすることにより、ビデオセグメントが複数のシーンに意味論的に有意に分類される。図6は、ニュースビデオ番組からのサンプルを示しており、1つのクラスタ610が総合司会者ショット611に対応し、別のクラスタ620が局外にいる通信記者621に対応し、別のクラスタ630が天気予報631に対応する。
時間平滑化
場合によっては、1つのクラスタの境界にあるただ1つのシーンが複数のクラスタに入り、断片が生じることもある。これをそのままセグメント化すると、セグメントの大部分が非常に短く、結果として再生がぎくしゃくするために、ブラウジングするのに適していない。次のセグメントまたはサブセグメントにスキップすることは、数秒またはそれより短い時間だけ、ただ再生を早送りするだけであろう。
この問題を緩和するために、最初に、時間的コヒーレンスを用いて、顔検出誤りが訂正される。本発明では、動的なウインドウによる追跡が用いられ、誤った検出が除去され、トラック内のギャップが埋められる。閾値よりも短いトラックは、後に除去される。
第2のレベルでは、区分結果が時間的に平滑化される。ラベルを付された各クラスタが個別の要約として取り扱われる。その後、個別の要約毎に、形態的な平滑化が適用され、ある特定の閾値よりも短いギャップおよび短いセグメントが除去される。本発明人による実験では、1〜3秒の閾値が妥当な結果を与える。
ニュースおよび他のトークショーのブラウジング
ユーザは、各セグメントまたはサブセグメントを個別の要約として見ることができる。本発明人のニュースビデオによる実験では、通常、クラスタのうちの1つが、総合司会者のセグメントに対応することがわかった。さらに、別のタイプのセグメントに続く総合司会者のセグメントは、ニュースの導入部を示す。したがって、総合司会者に対応するクラスタにおいて、ユーザは、大抵の場合に局外からの映像によってもたらされる詳細な事柄を見ることなく、ニュースの導入部を通して要約全体を見ることができるか、またはユーザはいつでも、次のニュースの始まりである次のセグメントにスキップすることができる。
さらに、トークショーおよびインタビュー番組のような、ほとんど変化しないシーンを有する他のトークビデオコンテンツも、本発明の方法によって区分することができる。したがって、ユーザは、1人で喋っているジョークを見ることができるか、またはゲストにスキップすることができる。ある番組において、ゲストを見つけ出す良い方法は、通常は、ホストがゲストを紹介している場面に対応する、「2つの顔」のセグメントを用いることによる。
個別のセグメントおよびサブセグメントを融合して、ただ1つの要約、少ない数の要約または任意の数の要約を生成することもできる。1つの方策は、分散が大きなクラスタを捨てることである。たとえば、本発明人による実験において、クラスタのうちの1つが、小さな顔サイズを有し、x位置が相対的に散在していた。これは、通常、天気予報に対応する。したがって、このクラスタは、分散が大きい場合でも、保存される。
他のクラスタ内の外れ値は、削除することもできる。残りのクラスタは、時間的に平滑化して、その後、融合して、ただ1つの要約にすることができる。セグメントおよびサブセグメントの境界点、すなわち、ラベルが変化する場所にマーカを挿入することができる。このようにして、ニュース全体を通して再生が続けられる場合であっても、ユーザは、依然として、そのニュースの異なるセグメントにスキップするためのマーカを有することができる。最終的な要約を再び時間的に平滑化して、融合から生じることがあるギャップが除去される。
本発明によるビデオの要約を生成するための方法のブロック図である。 本発明によるビデオのセグメントを区分するブロック図である。 y軸として顔x位置を、x軸として顔サイズを用いて、放送ニュース番組において1つの顔として分類されるビデオフレームデータの散布図である。 本発明の1つの実施の形態によるk平均クラスタリングを用いて1つのクラスタが得られた図3のデータの散布図である。 本発明の1つの実施の形態によるGMMを用いて複数のクラスタが得られた図3のデータの散布図である。 本発明の1つの実施の形態による例示的なビデオフレームが得られたクラスタに関連付けられている図5の散布図である。

Claims (12)

  1. 複数のフレームを含むビデオの要約を生成するための方法であって、
    前記ビデオの前記複数のフレームの中の顔を検出することと、
    各フレームにおいて検出される顔の数に従って前記フレームを分類することと、
    前記ビデオの要約を生成するために、前記分類に従って前記ビデオをセグメントに区分することと
    を含み、
    前記セグメントに区分することは、
    ただ1つの顔が検出されたものとして分類されるそれぞれのフレームに対して、該顔の1つまたは複数の特徴を判定することと、
    前記特徴に従って前記フレームにラベルを付すことと、
    ラベルを付されたクラスタを生成するために、前記ラベルに従って前記フレームをクラスタリングすることと、
    前記ラベルを付されたクラスタに従って、ただ1つの顔を含むフレームとして分類されるフレームを有する前記セグメントをサブセグメントに区分することと
    をさらに含む
    複数のフレームを含むビデオの要約を生成するための方法。
  2. 前記ビデオは、圧縮されたビデオである請求項1に記載の方法。
  3. 前記検出することは、前記圧縮されたビデオのIフレームにおいて実行される請求項に記載の方法。
  4. 前記特徴は、顔のサイズを含む請求項に記載の方法。
  5. 前記特徴は、顔の位置を含む請求項に記載の方法。
  6. 前記特徴は、顔のカラーヒストグラムを含む請求項に記載の方法。
  7. 前記クラスタリングすることは、k平均クラスタリングである請求項に記載の方法。
  8. 前記クラスタリングすることは、ガウス混合モデルを用いて実行される請求項に記載の方法。
  9. 時間的コヒーレンスを用いて顔検出誤りを訂正することをさらに含む請求項に記載の方法。
  10. 閾値長よりも短いサブセグメントを除去することをさらに含む請求項に記載の方法。
  11. 前記閾値長は1〜3秒の範囲にある請求項10に記載の方法。
  12. 複数のフレームを含むビデオの要約を生成するためのシステムであって、
    前記ビデオの前記複数のフレームにおいて顔を検出するための手段と、
    各フレームにおいて検出される顔の数に従って前記フレームを分類するための手段と、
    前記ビデオの要約を生成するために、前記分類に従って前記ビデオをセグメントに区分するための手段と
    ただ1つの顔が検出されたものとして分類されるそれぞれのフレームに対して、該顔の1つまたは複数の特徴を判定するための手段と、
    前記特徴に従って前記フレームにラベルを付すための手段と、
    ラベルを付されたクラスタを生成するために、前記ラベルに従って前記フレームをクラスタリングするための手段と、
    前記ラベルを付されたクラスタに従って、ただ1つの顔を含むフレームとして分類されるフレームを有する前記セグメントをサブセグメントに区分するための手段と
    を備える複数のフレームを含むビデオの要約を生成するためのシステム。
JP2006268244A 2005-10-25 2006-09-29 複数のフレームを含むビデオの要約を生成するための方法およびシステム Expired - Fee Related JP5031312B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/258,590 2005-10-25
US11/258,590 US7555149B2 (en) 2005-10-25 2005-10-25 Method and system for segmenting videos using face detection

Publications (2)

Publication Number Publication Date
JP2007124636A JP2007124636A (ja) 2007-05-17
JP5031312B2 true JP5031312B2 (ja) 2012-09-19

Family

ID=37984933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006268244A Expired - Fee Related JP5031312B2 (ja) 2005-10-25 2006-09-29 複数のフレームを含むビデオの要約を生成するための方法およびシステム

Country Status (2)

Country Link
US (1) US7555149B2 (ja)
JP (1) JP5031312B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107277557A (zh) * 2017-06-16 2017-10-20 深圳市茁壮网络股份有限公司 一种视频分割方法及系统
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269292B2 (en) * 2003-06-26 2007-09-11 Fotonation Vision Limited Digital image adjustable compression and resolution using face detection information
US7792335B2 (en) 2006-02-24 2010-09-07 Fotonation Vision Limited Method and apparatus for selective disqualification of digital images
US7792970B2 (en) 2005-06-17 2010-09-07 Fotonation Vision Limited Method for establishing a paired connection between media devices
US8363951B2 (en) 2007-03-05 2013-01-29 DigitalOptics Corporation Europe Limited Face recognition training method and apparatus
US8330831B2 (en) 2003-08-05 2012-12-11 DigitalOptics Corporation Europe Limited Method of gathering visual meta data using a reference image
US8155397B2 (en) 2007-09-26 2012-04-10 DigitalOptics Corporation Europe Limited Face tracking in a camera processor
US8948468B2 (en) 2003-06-26 2015-02-03 Fotonation Limited Modification of viewing parameters for digital images using face detection information
US7440593B1 (en) * 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US7574016B2 (en) 2003-06-26 2009-08-11 Fotonation Vision Limited Digital image processing using face detection information
US7620218B2 (en) 2006-08-11 2009-11-17 Fotonation Ireland Limited Real-time face tracking with reference images
US8682097B2 (en) 2006-02-14 2014-03-25 DigitalOptics Corporation Europe Limited Digital image enhancement with reference images
US8494286B2 (en) 2008-02-05 2013-07-23 DigitalOptics Corporation Europe Limited Face detection in mid-shot digital images
US8989453B2 (en) 2003-06-26 2015-03-24 Fotonation Limited Digital image processing using face detection information
US8896725B2 (en) 2007-06-21 2014-11-25 Fotonation Limited Image capture device with contemporaneous reference image capture mechanism
US8498452B2 (en) 2003-06-26 2013-07-30 DigitalOptics Corporation Europe Limited Digital image processing using face detection information
US8593542B2 (en) 2005-12-27 2013-11-26 DigitalOptics Corporation Europe Limited Foreground/background separation using reference images
US8553949B2 (en) * 2004-01-22 2013-10-08 DigitalOptics Corporation Europe Limited Classification and organization of consumer digital images using workflow, and face detection and recognition
US7471846B2 (en) 2003-06-26 2008-12-30 Fotonation Vision Limited Perfecting the effect of flash within an image acquisition devices using face detection
US7565030B2 (en) 2003-06-26 2009-07-21 Fotonation Vision Limited Detecting orientation of digital images using face detection information
US7844076B2 (en) 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
US9692964B2 (en) 2003-06-26 2017-06-27 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US9129381B2 (en) 2003-06-26 2015-09-08 Fotonation Limited Modification of post-viewing parameters for digital images using image region or feature information
US7564994B1 (en) 2004-01-22 2009-07-21 Fotonation Vision Limited Classification system for consumer digital images using automatic workflow and face detection and recognition
US8320641B2 (en) 2004-10-28 2012-11-27 DigitalOptics Corporation Europe Limited Method and apparatus for red-eye detection using preview or other reference images
US7715597B2 (en) * 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
US8488023B2 (en) * 2009-05-20 2013-07-16 DigitalOptics Corporation Europe Limited Identifying facial expressions in acquired digital images
US7315631B1 (en) 2006-08-11 2008-01-01 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
US8503800B2 (en) 2007-03-05 2013-08-06 DigitalOptics Corporation Europe Limited Illumination detection using classifier chains
US7697752B2 (en) * 2005-12-20 2010-04-13 General Instrument Corporation Method and apparatus for performing object detection
US7804983B2 (en) 2006-02-24 2010-09-28 Fotonation Vision Limited Digital image acquisition control and correction method and apparatus
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
EP2033142B1 (en) 2006-06-12 2011-01-26 Tessera Technologies Ireland Limited Advances in extending the aam techniques from grayscale to color images
US7720281B2 (en) * 2006-07-31 2010-05-18 Mavs Lab, Inc. Visual characteristics-based news anchorperson segment detection method
WO2008015586A2 (en) * 2006-08-02 2008-02-07 Fotonation Vision Limited Face recognition with combined pca-based datasets
US7916897B2 (en) 2006-08-11 2011-03-29 Tessera Technologies Ireland Limited Face tracking for controlling imaging parameters
US7403643B2 (en) 2006-08-11 2008-07-22 Fotonation Vision Limited Real-time face tracking in a digital image acquisition device
KR100804678B1 (ko) * 2007-01-04 2008-02-20 삼성전자주식회사 비디오 인물별 신 분류 방법 및 그 시스템
US8055067B2 (en) 2007-01-18 2011-11-08 DigitalOptics Corporation Europe Limited Color segmentation
EP1959449A1 (en) * 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Analysing video material
DE602008001607D1 (de) 2007-02-28 2010-08-05 Fotonation Vision Ltd Trennung der direktionalen beleuchtungsvariabilität in der statistischen gesichtsmodellierung auf basis von texturraumzerlegungen
US8649604B2 (en) 2007-03-05 2014-02-11 DigitalOptics Corporation Europe Limited Face searching and detection in a digital image acquisition device
WO2008109622A1 (en) 2007-03-05 2008-09-12 Fotonation Vision Limited Face categorization and annotation of a mobile phone contact list
US7916971B2 (en) * 2007-05-24 2011-03-29 Tessera Technologies Ireland Limited Image processing method and apparatus
CN101743596B (zh) * 2007-06-15 2012-05-30 皇家飞利浦电子股份有限公司 用于自动生成多媒体文件概要的方法和设备
JP4424396B2 (ja) * 2007-09-03 2010-03-03 ソニー株式会社 データ処理装置および方法、並びにデータ処理プログラムおよびデータ処理プログラムが記録された記録媒体
US8750578B2 (en) 2008-01-29 2014-06-10 DigitalOptics Corporation Europe Limited Detecting facial expressions in digital images
US7855737B2 (en) * 2008-03-26 2010-12-21 Fotonation Ireland Limited Method of making a digital camera image of a scene including the camera user
JP5547730B2 (ja) 2008-07-30 2014-07-16 デジタルオプティックス・コーポレイション・ヨーロッパ・リミテッド 顔検知を用いた顔及び肌の自動美化
WO2010063463A2 (en) * 2008-12-05 2010-06-10 Fotonation Ireland Limited Face recognition using face tracker classifier data
US8379917B2 (en) 2009-10-02 2013-02-19 DigitalOptics Corporation Europe Limited Face recognition performance using additional image features
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US8588534B2 (en) 2011-05-06 2013-11-19 Microsoft Corporation Staged element classification
CN104025117B (zh) 2011-10-31 2018-09-28 惠普发展公司,有限责任合伙企业 时间面部序列
WO2014094275A1 (en) * 2012-12-20 2014-06-26 Intel Corporation Accelerated object detection filter using a video motion estimation module
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
CN104252616B (zh) * 2013-06-28 2018-01-23 广州华多网络科技有限公司 人脸标注方法、装置及设备
KR20150024650A (ko) * 2013-08-27 2015-03-09 삼성전자주식회사 전자 장치에서 사운드를 시각적으로 제공하기 위한 방법 및 장치
US9607224B2 (en) * 2015-05-14 2017-03-28 Google Inc. Entity based temporal segmentation of video streams
US11158344B1 (en) * 2015-09-30 2021-10-26 Amazon Technologies, Inc. Video ingestion and clip creation
US10230866B1 (en) 2015-09-30 2019-03-12 Amazon Technologies, Inc. Video ingestion and clip creation
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN109005451B (zh) * 2018-06-29 2021-07-30 杭州星犀科技有限公司 基于深度学习的视频拆条方法
US11386562B2 (en) 2018-12-28 2022-07-12 Cyberlink Corp. Systems and methods for foreground and background processing of content in a live video
CN110139158B (zh) * 2019-06-21 2021-04-02 上海摩象网络科技有限公司 视频以及子视频的生成方法、装置、电子设备
CN110287949B (zh) * 2019-07-30 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 视频片段提取方法、装置、设备及存储介质
CN111432138B (zh) * 2020-03-16 2022-04-26 Oppo广东移动通信有限公司 视频拼接方法及装置、计算机可读介质和电子设备
CN111464865B (zh) * 2020-06-18 2020-11-17 北京美摄网络科技有限公司 一种视频生成方法、装置、电子设备及计算机可读存储介质
CN112069357B (zh) * 2020-07-29 2024-03-01 北京奇艺世纪科技有限公司 视频资源处理方法、装置、电子设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5802361A (en) * 1994-09-30 1998-09-01 Apple Computer, Inc. Method and system for searching graphic images and videos
JP3823333B2 (ja) * 1995-02-21 2006-09-20 株式会社日立製作所 動画像の変化点検出方法、動画像の変化点検出装置、動画像の変化点検出システム
JPH10178619A (ja) * 1996-12-19 1998-06-30 Nikon Corp 画像再生装置および電子カメラ
US5832115A (en) * 1997-01-02 1998-11-03 Lucent Technologies Inc. Ternary image templates for improved semantic compression
JPH11146325A (ja) * 1997-11-10 1999-05-28 Hitachi Ltd 映像検索方法および装置並びに映像情報作成方法およびその処理プログラムを格納した記憶媒体
GB2333590A (en) * 1998-01-23 1999-07-28 Sharp Kk Detecting a face-like region
US6292575B1 (en) * 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
US6847680B2 (en) * 2001-12-17 2005-01-25 Mitsubishi Electric Research Laboratories, Inc. Method for detecting talking heads in a compressed video
US7167519B2 (en) * 2001-12-20 2007-01-23 Siemens Corporate Research, Inc. Real-time video object generation for smart cameras
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
US7027054B1 (en) * 2002-08-14 2006-04-11 Avaworks, Incorporated Do-it-yourself photo realistic talking head creation system and method
WO2004090752A1 (en) * 2003-04-14 2004-10-21 Koninklijke Philips Electronics N.V. Method and apparatus for summarizing a music video using content analysis

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107277557A (zh) * 2017-06-16 2017-10-20 深圳市茁壮网络股份有限公司 一种视频分割方法及系统
CN107277557B (zh) * 2017-06-16 2019-12-03 深圳市茁壮网络股份有限公司 一种视频分割方法及系统
US11908192B2 (en) 2018-05-29 2024-02-20 Samsung Electronics Co., Ltd. Electronic device and control method therefor

Also Published As

Publication number Publication date
US7555149B2 (en) 2009-06-30
JP2007124636A (ja) 2007-05-17
US20070091203A1 (en) 2007-04-26

Similar Documents

Publication Publication Date Title
JP5031312B2 (ja) 複数のフレームを含むビデオの要約を生成するための方法およびシステム
Li et al. An overview of video abstraction techniques
Brunelli et al. A survey on the automatic indexing of video data
US7796860B2 (en) Method and system for playing back videos at speeds adapted to content
Aigrain et al. Medium knowledge-based macro-segmentation of video into sequences
US6195458B1 (en) Method for content-based temporal segmentation of video
US8818038B2 (en) Method and system for video indexing and video synopsis
KR100411342B1 (ko) 비디오 텍스트 합성 키프레임 생성방법
Srinivasan et al. " What is in that video anyway?": In Search of Better Browsing
Li et al. Video content analysis using multimodal information: For movie content extraction, indexing and representation
WO2006126391A1 (ja) コンテンツ処理装置及びコンテンツ処理方法、並びにコンピュータ・プログラム
KR100374040B1 (ko) 비디오 텍스트 합성 키 프레임 추출방법
Zhang Content-based video browsing and retrieval
Khan et al. Video summarization: survey on event detection and summarization in soccer videos
KR101195613B1 (ko) 동영상의 주제별 분할장치 및 방법
Jiang et al. Advances in video summarization and skimming
WO2006092765A2 (en) Method of video indexing
CN112567416A (zh) 用于处理数字视频的设备及方法
JPH11265396A (ja) 音楽映像分類方法、装置および音楽映像分類プログラムを記録した記録媒体
KR20050033075A (ko) 비디오 이미지들의 시퀀스에서 콘텐트 속성을 검출하는 유닛 및 방법
Liu A hidden markov model approach to the structure of documentaries
Kopf et al. Automatic generation of summaries for the Web
Kolekar et al. Semantic indexing of news video sequences: a multimodal hierarchical approach based on hidden markov model
JP4930364B2 (ja) 映像文字検出方法、装置、およびプログラム
Dimitrova et al. Video classification using object tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090709

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120326

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120627

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees