JP2017528016A - ルールに基づくビデオ重要度解析 - Google Patents

ルールに基づくビデオ重要度解析 Download PDF

Info

Publication number
JP2017528016A
JP2017528016A JP2016572515A JP2016572515A JP2017528016A JP 2017528016 A JP2017528016 A JP 2017528016A JP 2016572515 A JP2016572515 A JP 2016572515A JP 2016572515 A JP2016572515 A JP 2016572515A JP 2017528016 A JP2017528016 A JP 2017528016A
Authority
JP
Japan
Prior art keywords
video
frame
video frame
importance
video file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016572515A
Other languages
English (en)
Other versions
JP2017528016A5 (ja
JP6694829B2 (ja
Inventor
スリ,ニティン
ワン,ツオンジー
メヘンデル,オムカー
エス. アイヴォリー,アンドリュー
エス. アイヴォリー,アンドリュー
ディー. スプロール,ウィリアム
ディー. スプロール,ウィリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2017528016A publication Critical patent/JP2017528016A/ja
Publication of JP2017528016A5 publication Critical patent/JP2017528016A5/ja
Application granted granted Critical
Publication of JP6694829B2 publication Critical patent/JP6694829B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Picture Signal Circuits (AREA)

Abstract

ビデオファイルのビデオセクションの重要度が、ビデオファイルの特徴から決定されることができる。ビデオファイルがデコードされて、ビデオフレームと該ビデオフレームに関連付けられたオーディオデータとが取得されることができる。局所的ルール、大局的ルール、又は双方に基づいてビデオフレーム又は該ビデオフレームに関連付けられたオーディオの特徴を解析することによって、各ビデオフレームの特徴スコアが取得されることができる。特徴スコアはさらに組み合わせられて、ビデオフレームのフレーム重要度スコアが導出される。ビデオファイル内のビデオフレームの特徴スコアに基づいて、ビデオファイルは、異なるセクション重要度値のビデオセクションに区分されることができる。

Description

消費者は、自身のスマートフォン及びパーソナルビデオレコーダを用いて、ビデオをしばしば捕捉する。しかしながら、これら消費者のうち小さいパーセンテージのみが、自身のビデオを編集し、他の人々と共有する。さらに、ビデオが、多くの計画なしに思いつきで一般に撮影され、ごくわずかの興味深い瞬間を含み得るとき、消費者は、こうしたビデオの編集を退屈なプロセスであると思うことがある。時間とともに、より多くのビデオが消費者によって生成されるとき、この消費者は、ビデオの内容を思い出すのに困難を感じることもある。大抵のビデオ再生装置が、ビデオのサムネイル画像表現を提供し得るが、こうしたサムネイル画像表現は、ビデオの内容に対する十分な手がかりを提供しないことがある。
本明細書に説明されるのは、ビデオファイルのルールに基づく解析を実行し、ビデオファイルのセクションをその重要度に基づいてランク付けする手法である。該手法は、さらに、ビデオファイルの集合のルールに基づく解析を実行し、複数のビデオファイルをその重要度に基づいてランク付けすることを含み得る。ビデオファイル又はビデオセクションの重要度は、該ビデオファイル又はビデオセクションが視聴者において発生させることを予期される関心の量に相関し得る。様々な実施形態において、ルールに基づく解析は、ビデオファイル又はビデオセクションの重要度を、該ビデオファイル又はビデオセクション内のビデオフレームの主観的な重要度及び/又は客観的な技術的品質に基づいて評価することができる。
本発明の概要は、以下で詳細な説明においてさらに説明される概念のうち選択されたものを簡素化された形式で紹介するよう提供される。本発明の概要は、請求される対象事項の重要な特徴又は必須の特徴を識別するものではなく、請求される対象事項の範囲を限定するために使用されるものでもない。
詳細な説明は、添付図面を参照して説明される。図面において、参照番号のうち最も左の(複数の)桁は、参照番号が最初に出現する図を識別する。異なる図面における同じ参照番号の使用は、類似の又は同一のアイテムを示す。
ルールに基づくビデオ解析エンジンを使用して、ビデオファイルの集合内のビデオファイルのビデオセクション又はビデオファイルをその重要度に基づいてランク付けする一例示的なスキームを例示するブロック図である。 ビデオファイルの集合内のビデオファイルのビデオセクション又はビデオファイルをその重要度に基づいてランク付けするルールに基づくビデオ解析エンジンの例示的なコンポーネントを示す一例示的な図である。 複数のビデオフレーム内の例示的な特徴点を整列させるホモグラフ変換の使用を示す一例示的な図である。 ルールに基づくビデオ解析を使用してビデオファイル内の特徴を解析して、ビデオファイルのビデオセクションをその重要度に基づいてランク付けする一例示的な処理を例示するフロー図である。 ルールに基づくビデオ解析を使用してビデオファイルの特徴を解析してビデオファイルを重要度に基づいてランク付けする一例示的な処理を例示するフロー図である。 ビデオフレームの顔重要度スコアを計算する一例示的な処理を例示するフロー図である。 特徴点の動きを解析することによってビデオ内の重要ビデオセクションを決定する一例示的な処理を例示するフロー図である。
本明細書に説明されるのは、ビデオファイルのルールに基づく解析を実行してビデオファイルのセクションをその重要度(importance)に基づいてランク付けする手法である。上記手法は、さらに、ビデオファイルの集合のルールに基づく解析を実行してビデオファイルをその重要度に基づいてランク付けすることを含み得る。ビデオファイル又はビデオセクションの重要度は、該ビデオファイル又はビデオセクションが視聴者において発生させることを予期される関心の量に相関し得る。様々な実施形態において、ルールに基づく解析は、ビデオファイル又はビデオセクションの重要度を、該ビデオファイル又はビデオセクション内のビデオフレームの主観的な重要度及び/又は客観的な技術的品質に基づいて評価することができる。主観的な重要度の一例は、視聴者が、該視聴者に知られている人間の顔を表すビデオフレームを、上記視聴者が知らない人間の顔を表すビデオフレームよりもより重要と考えることであり得る。客観的な技術的品質の一例は、ビデオフレームの露出品質であり得る。
ルールに基づく解析は、フレームベースで複数の低レベルの特徴及び高レベルの特徴について、ビデオファイルのオーディオコンテンツ及びビデオコンテンツを解析することを含む。例えば、低レベルの特徴には、露出品質(exposure quality)、彩度品質(saturation quality)、ビデオフレームの揺れ(shakiness)、平均明度(average brightness)、色エントロピー、及び/又は隣接するビデオフレーム間におけるヒストグラム差などの特徴が含まれ得る。高レベルの特徴には、ビデオフレーム内で検出される人間の顔の数量、位置、及び/又は顔面特徴などの特徴が含まれ得る。解析には、局所的ルール及び大局的ルールの適用が含まれ得る。局所的ルールは、ビデオフレームの特徴解析結果の生成の間に適用され得、大局的ルールは、ビデオファイル全体の特徴解析結果の生成の間に適用され得る。
上記ルールは、特徴解析からの結果を提供し、組み合わせて、重要度スコアを生成することができる。重要度スコアは、ビデオファイルのフレーム、ビデオのセクション、及び/又はビデオファイルのその全体について生成されることができる。これら重要度スコアは、ビデオファイルのセクション及び/又はビデオファイルをランク付けするのに使用されることができる。重要度スコアは、ビデオファイルの視聴、編集、及び共有を容易にするのに使用されることができる。例えば、消費者が、ウェブサイト上で共有するために、最も高い重要度スコアを有するビデオファイルのセットを選択することができる。別の例において、アプリケーションが、最も高い重要度スコアを有するビデオファイルのセクションを一緒にまとめて(stitch)、ハイライトビデオファイルを作成することができる。
いくつかの例において、ビデオファイルは、検出されたカメラモーションの量に基づいて、様々な重要性の度合いを有するビデオセクションに区分されることができる。カメラモーションは、ビデオファイルの中のビデオフレーム内で検出される特徴点の動きを介して検出されることができる。いくつかの例において、ビデオセクションの重要度は、該ビデオセクションが視聴者から引き出すことを予期される関心の量に相関し得る。
本明細書に説明される手法の使用は、ユーザがビデオファイルを該ユーザに対するその重要度に基づいてランク付けすることを可能にすることができる。こうしたランク付けに基づいて、ユーザは、どのビデオファイルを保持すべきかとどのビデオファイルを削除すべきかとを決めることができる。いくつかの例において、ユーザは、さらに、ビデオファイルのランク付けを使用して、特定のビデオファイルをオンライン共有ウェブサイト上に投稿するべきかどうかを決定することができる。本明細書に説明される手法は、さらに、ビデオファイルの重要度セクションを表現するサムネイル画像表現を提示することができ、したがって、ユーザは、一見しただけで、ビデオファイルのうち興味深い部分を言うことができる。こうした情報は、ビデオファイルを編集することにおいてユーザを支援して、ビデオファイルのコンテンツ品質を向上させ、あるいは個別セクションを強調することができる。様々な実施形態に従ってビデオファイルのルールに基づく解析を実行する手法の例が、以下で図1〜図7を参照して説明される。
例示的なスキーム
図1は、ルールに基づくビデオ解析エンジンを使用してビデオファイルの集合の中のビデオファイルのビデオセクション又はビデオファイルを重要度に基づいてランク付けする一例示的なスキーム100を例示するブロック図である。例示的なスキーム100は、ビデオ解析エンジン102を含み得る。ビデオ解析エンジン102は、1つ以上のコンピューティング装置104上で実行されることができる。1つ以上のコンピューティング装置104には、汎用目的コンピュータ、例えば、デスクトップコンピュータ、タブレットコンピュータ、ラップトップコンピュータ、サーバなどが含まれ得る。しかしながら、他の実施形態において、コンピューティング装置104には、スマートフォン、ゲームコンソール、又は任意の他の電子装置が含まれてもよい。複数のコンピューティング装置104が、様々なプロセッサ、例えば、中央プロセッサユニット(CPU)、グラフィックスプロセッサユニット(GPU)、他のタイプのプロセッサ、又は上記のうち任意のものの組み合わせなどを含み得る。
ビデオ解析エンジン102は、ビデオ集合106のルールに基づく解析を実行することができる。ビデオ集合106は、複数のビデオファイル、例えば、ビデオファイル108(1)〜108(N)などを含み得る。ルールに基づく解析は、フレームベースで複数の低レベルの特徴110及び複数の高レベルの特徴112について、ビデオファイル108(1)〜108(N)のオーディオコンテンツ及びビデオコンテンツを解析することを含み得る。例えば、複数の低レベルの特徴110には、露出品質、彩度品質、及びビデオフレームの揺れなどの特徴が含まれ得る。複数の高レベルの特徴112には、ビデオフレーム内で検出される人間の顔の数量、位置、及び顔の特徴などの特徴が含まれ得る。
ルールに基づく解析を実行することによって、ビデオ解析エンジン102は、ビデオ集合106のうち、ビデオ108(1)などの一ビデオファイルの複数セクションの重要度スコアと、ビデオファイル108(1)〜108(N)などの複数ビデオファイルの重要度スコアとを生成することができる。このことに応じて、ビデオ解析エンジン102は、ビデオのセクションをその重要度スコアに従ってランク付けすることができる。例えば、ビデオファイル108(1)は、ビデオセクション114及びビデオセクション116を含み得、これらセクションは、その重要度スコア、例えば、重要度スコア118及び120に従ってそれぞれランク付けされる。ビデオセクションがいったんランク付けされると、ビデオ解析エンジン102は、ビデオセクションのサムネイル画像表現を表示することができ、サムネイル画像表現の選択が、対応するビデオセクションをメディアプレーヤ122に再生させることができる。
ビデオ解析エンジン102は、さらに、ビデオ集合106の中のビデオファイルをその重要度スコアに従ってランク付けすることができる。例えば、ビデオ集合106のビデオファイル108(1)〜108(N)は、その重要度スコア124(1)〜124(N)に従ってランク付けされることができる。ビデオファイルがいったんランク付けされると、ビデオ解析エンジン102は、ビデオファイルのサムネイル画像表現を表示することができ、サムネイル画像表現の選択が、対応するビデオファイル又は対応するビデオファイルのセクションをメディアプレーヤ122に再生させることができる。
例示的なコンポーネント
図2は、ビデオファイルの集合の中のビデオファイルのセクション又はビデオファイルをその重要度に基づいてランク付けするルールに基づくビデオ解析エンジン102の例示的なコンポーネントを示す一例示的な図である。ビデオ解析エンジン102は、1つ以上のコンピューティング装置104によって実装されることができる。コンピューティング装置104は、1つ以上のプロセッサ202、インターフェース204、及びメモリ206を含み得る。プロセッサ202の各々は、シングルコアプロセッサ又はマルチコアプロセッサであり得る。インターフェース204には、ユーザインターフェース及びネットワークインターフェースが含まれ得る。ユーザインターフェースは、データ出力装置(例えば、ビジュアルディスプレイ、オーディオスピーカ)と、1つ以上のデータ入力装置とを含み得る。データ入力装置には、これらに限られないが、キーパッド、キーボード、マウス装置、ジェスチャを受け入れるタッチスクリーン、マイクロフォン、音声又は発話認識装置、及び任意の他の適切な装置又は他の電子/ソフトウェア選択方法のうち、1つ又は複数の組み合わせが含まれ得る。
ネットワークインターフェースには、コンピューティング装置104がネットワークを介してデータを送信し及び受信することを可能にする有線及び/又は無線の通信インターフェースコンポーネントが含まれ得る。様々な実施形態において、無線インターフェースコンポーネントには、これらに限られないが、セルラー、Wi−Fi、Ultra−wideband(UWB)、パーソナルエリアネットワーク(例えば、Bluetooth(登録商標))、衛星送信、及び/又は同様のものが含まれ得る。有線インターフェースコンポーネントには、直接I/Oインターフェース、例えば、イーサネット(登録商標)インターフェース、シリアルインターフェース、ユニバーサルシリアルバス(USB)インターフェース、及び/又は同様のものなどが含まれ得る。このようなものとして、コンピューティング装置104はネットワーク能力を有し得る。例えば、コンピューティング装置104は、1つ以上のネットワーク、例えば、インターネット、モバイルネットワーク、ワイドエリアネットワーク、ローカルエリアネットワークなどを介して、他の電子装置(例えば、ラップトップコンピュータ、デスクトップコンピュータ、モバイルフォン、サーバ等)との間でデータを交換することができる。
メモリ206は、コンピュータ読取可能媒体、例えば、コンピュータ記憶媒体などを用いて実装され得る。コンピュータ読取可能媒体には、少なくとも2タイプのコンピュータ読取可能媒体、すなわち、コンピュータ記憶媒体及び通信媒体が含まれる。コンピュータ記憶媒体には、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報の記憶のために任意の方法又はテクノロジーにおいて実装される揮発性及び不揮発性の、取外し可能及び取り外し不能の媒体が含まれる。コンピュータ記憶媒体には、これらに限られないが、RAM、ROM、EEPROM、フラッシュメモリ、若しくは他のメモリテクノロジー、CD−ROM、デジタル多用途ディスク(DVD)、若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置、若しくは他の磁気記憶装置、又は、コンピューティング装置によるアクセスのための情報を記憶することに使用され得る任意の他の非伝送媒体が含まれる。対照的に、通信媒体は、コンピュータ読取可能命令、データ構造、プログラムモジュール、又は他のデータを、搬送波などの変調されたデータ信号、又は他の伝送メカニズムにおいて具現化し得る。本明細書において定義されるとき、コンピュータ記憶媒体は通信媒体を含まない。
コンピューティング装置104のメモリ206は、オペレーティングシステム208と、ビデオ解析エンジン102を実装するモジュールとを記憶し得る。オペレーティングシステム208は、コンピューティング装置104が様々な入力(例えば、ユーザ制御、ネットワークインターフェース、及び/又はメモリ装置)を介してデータを受信し、該データをプロセッサ202を用いて処理して出力を生成することを可能にするコンポーネントを含み得る。オペレーティングシステム208は、出力を提示する(例えば、電子ディスプレイ上に画像を表示する、メモリにデータを記憶する、データを別の電子装置に送信する等)1つ以上のコンポーネントをさらに含み得る。オペレーティングシステム208は、ユーザがインターフェース204を用いてビデオ解析エンジン102のモジュールと相互作用することを可能にすることができる。さらに、オペレーティングシステム208は、オペレーティングシステムに一般に関連付けられる様々な他の機能を実行する他のコンポーネントを含んでもよい。
上記モジュールには、ビデオデコーダモジュール210、低レベル解析モジュール212、高レベル解析モジュール214、モーション解析モジュール216、重要度算出モジュール218、ビデオ区分モジュール220、ビデオランク付けモジュール222、及びユーザインターフェースモジュール224が含まれ得る。モジュールの各々が、特定のタスクを実行し又は特定の抽象データタイプを実装するルーチン、プログラム、命令、オブジェクト、及び/又はデータ構造を含み得る。さらに、データストア226がメモリ206内に存在し得る。低レベル解析モジュール212と高レベル解析モジュール214との各々は、局所的ルール又は大局的ルールを適用して、ビデオファイル内の特徴データ、すなわち、ビデオデータ及び/又はオーディオデータの重要度を解析することができる。局所的ルールは、単一のビデオフレーム内の特徴データに基づく、該単一のビデオフレームの重要度の割り当てに影響し得る。逆に、大局的ルールは、ビデオファイルのうち複数のビデオフレーム内の特徴データに基づく、該ビデオファイル全体の重要度の割り当てに影響し、あるいは、ビデオファイル内のビデオフレームのセットにわたり共有される特徴に基づく、該ビデオフレームのセットの各々についての重要度の割り当てに影響し得る。
ビデオデコーダモジュール210は、ビデオファイル、例えば、ビデオファイル108(1)などをデコードして、ビデオフレーム及び/又は該ビデオフレームの各々に関連付けられたオーディオデータを取得することができる。ビデオデコーダモジュール210は、様々なコーデックを使用して、ビデオファイル、例えば、H.264、MPEG−2、MPEG−4等をデコードすることができる。
低レベル解析モジュール212は、各々のデコードされたビデオフレームを低レベルの特徴について解析して、特徴スコアを作り出すことができる。様々な実施形態において、低レベルの特徴には、露出品質、彩度品質、色相多様性(hue variety)、揺れ、平均明度、色エントロピー、及び/又は隣接するビデオフレーム間におけるヒストグラム差が含まれ得る。低レベル解析モジュール212は、ビデオフレームの露出、彩度、及び色相を示すヒストグラムを導出するアルゴリズムを使用することができる。露出品質の解析において、低レベル解析モジュール212は、ビデオフレームの露出バランスの露出ヒストグラムを解析することができる。低レベル解析モジュール212は、局所的ルールに従って露出バランスに基づいてビデオフレームに露出格付けスコアを割り当てることができ、これにおいて、より高い露出バランスがより高い露出格付けスコアを結果としてもたらし得る。逆に、ビデオフレームのより低い露出バランスは、より低い露出格付けスコアを結果としてもたらし得る。
彩度品質の解析において、低レベル解析モジュール212は、ビデオフレームの彩度ヒストグラム、例えば、HSV色空間の彩度ヒストグラムなどを解析することができる。この解析に基づいて、低レベル解析モジュール212は、局所的ルールに従って彩度ヒストグラムの中の値の中間セット内の彩度の量を反映する彩度スコアを計算することができる。このようなものとして、上記中間レンジ内におけるより大きい彩度は、ビデオフレームのより高い彩度スコアを結果としてもたらす。逆に、上記中間レンジ内におけるより小さい彩度は、ビデオフレームのより低い彩度スコアを結果としてもたらす。
色相多様性の解析において、低レベル解析モジュール212は、ビデオフレームの色相ヒストグラムのバランスを査定することができる。低レベル解析モジュール212は、さらに、局所的ルールに基づいて色相スコアを割り当てることができる。このことに応じて、低レベル解析モジュール212は、ビデオフレームの色相がうまくバランスをとられている、すなわち、より高い多様性の色を示すとき、より高い色相スコアを割り当てることができる。逆に、低レベル解析モジュールは、ビデオフレームの色相があまりバランスをとられていない、すなわち、より低い多様性の色を示すとき、より低い色相スコアを割り当てることができる。
揺れの解析において、低レベル解析モジュール212は、モーション解析モジュール216を使用してフレーム間における特徴点の動きを追跡し、その動きをモデル化する変換を生成することができる。特徴点は、複数のビデオフレームにわたり確実に場所を特定され(located)得る、ビデオフレーム内の関心点である。特徴点は、該特徴点が2次元(2D)構造を含み、且つx方向及びy方向において局所化され(localized)得るという点で、区別可能である。低レベル解析モジュール212は、上記変換を使用して、特徴点モーションの大きさ及び方向に関連した局所的及び大局的トレンドを解析することができる。局所的トレンド及び大局的トレンドは、ビデオファイル内の揺れを、局所的なフレームごとの変化の属性として定量化することができる。ビデオファイルの揺れは、以下でモーション類別解析に関して説明されるとおり、モーション解析モジュール216によって決定されることができる。このことに応じて、低レベル解析モジュール212は大局的ルールを適用して、ビデオファイル内の揺れの量に対して反比例する揺れスコアをビデオファイルに割り当てることができ、したがって、より大きい揺れはより低い揺れスコアを結果としてもたらし、逆もまた同様である。
平均明度の解析において、低レベル解析モジュール212は、ビデオフレーム内のすべての画素の輝度成分の平均を算出することができる。様々な実施形態において、低レベル解析モジュール212は、ビデオフレームのグレースケール画像表現における画素値を平均することができる。例えば、画素値は0〜255に及んでもよく、これにおいて、0は色の黒に対応し、255は色の白に対応する。いくつかの実施形態において、低レベル解析モジュール212は、毎n番目の画素から画素値を読み出すようにさらに最適化されることができる。換言すると、低レベル解析モジュール212は、解析を実行する間、x方向及び/又はy方向において所定数の画素をスキップすることができる。ビデオフレーム内の画素の画素値の平均に基づいて、低レベル解析モジュール212は、ビデオフレームの明度を決定することができる。このことに応じて、低レベル解析モジュール212は局所的ルールを適用して、ビデオフレームの平均画素値が明度の所定中間レンジに入るとき、ビデオフレームの平均画素値に比例する明度スコアを割り当てることができる。しかしながら、低レベル解析モジュール212は、平均画素値が外側に入る、すなわち、明度の所定中間レンジよりもより高いか又はより低いとき、明度の所定中間レンジに入る平均画素値に割り当てられるいかなる明度スコアよりもより低い明度スコアを割り当てることができる。平均画素値が減少するとき、明度の所定中間レンジの下限よりもより小さい間、上記明度スコアは小さくなり得る。さらに、平均画素値が増加するとき、明度の所定中間レンジの上限よりもより大きい間、上記明度スコアは小さくなり得る。
色エントロピーの解析において、低レベル解析モジュール212は、ビデオフレーム内の色エントロピーの量を決定することができる。色エントロピーの量は、ビデオフレーム内の色間における差の指標である。低レベル解析モジュール212によって割り当てられる色エントロピー値は、ビデオフレーム内の色エントロピーの実際量に依存して、“0”から“1”におよび得る。例えば、低レベル解析モジュール212は、ビデオフレームの画素が最大量の差を有するとき、ビデオフレームに“1”の色エントロピー値を割り当てることができる。低レベル解析モジュール212は、ビデオフレームの画素が最小量の差を有するとき、ビデオフレームに“0”の色エントロピー値を割り当てることができる。様々な実施形態において、低レベル解析モジュール212は、色空間(例えば、RGB色空間又はHSV色空間)の色ドメインヒストグラムを算出することによって色エントロピー値を決定することができる。
上記実施形態において、低レベル解析モジュール212は、複数の色次元を捕捉するヒストグラムを最初作成することができる。例えば、RGB色空間において、R、G、及びBの各々は256のとり得る値を有し得、この場合、ヒストグラムは256×256×256バケットを有し得る。少なくとも1つの実施形態において、バケットは、バケットサイズ及び/又は処理スピードを最適化することに対してさらに定量化されることができる。例えば、サイズが25×25×25であってもよく、したがって、複数の色値が同じバケット内に入ることになる。ゆえに、1つの例において、ヒストグラムは、コードにおいて下記のフォーマットで表わされることができる:int Histogram[256 * 256 * 256]。このことは、ヒストグラム配列がRGB色空間におけるすべてのとり得る色のための要素を有することを意味する。このことに応じて、低レベル解析モジュール212が画素を読み出すとき、低レベル解析モジュール212は、下記として値を設定することができる:
Figure 2017528016
上記ステップがビデオフレーム内の各画素についていったん実行されると、低レベル解析モジュール212はヒストグラムを正規化することができる。換言すると、低レベル解析モジュール212は、各値をヒストグラムのサイズを用いて分割する(divide)ことができ、したがってヒストグラム内の値は0と1との間になり、値は最大で1まで増大する。結果として、最も高い値を有する要素が、ビデオフレーム内で最も頻繁に発生する。
ヒストグラム内の画素のエントロピーは、すべての(Histogram[n] * log(Histogram[n]))の総和として、下記のとおり定式化されることができる:
Figure 2017528016
低レベル解析モジュール212は、ヒストグラムからのエントロピーを最大のとり得るエントロピーで除算することによって、相対色エントロピー(すなわち、ビデオフレームの、他のビデオフレームに対する色エントロピー)を決定することができる。最大のとり得るエントロピーは、すべてのHistogram[n]が同じ値を有するとき、すなわち、(1.0 / とり得る値の数)に等しいとして定義されることができる。ビデオフレームの相対色エントロピー値がいったん取得されると、低レベル解析モジュール212は局所的ルールを適用して、ビデオフレームの相対色エントロピーからビデオフレームのエントロピースコアを取得することができる。様々な実施形態において、ビデオフレームのエントロピースコアは、ビデオフレームの相対色エントロピー値に対して正比例してもよく、例えば、より高い相対エントロピー値がより高いエントロピースコアを結果としてもたらし、逆もまた同様である。
ヒストグラム差の解析において、低レベル解析モジュール212は、2つの隣接するビデオフレーム間におけるヒストグラム差を決定することができる。様々な実施形態において、低レベル解析モジュール212は、各ビデオフレームを複数のセル(例えば、10×10セル)に分割することができる。ビデオフレームt及び隣接ビデオフレームt+1の各セルについて、低レベル解析モジュール212は色ヒストグラム(例えば、RGBヒストグラム)を算出することができる。その後、低レベル解析モジュール212は、ビデオフレームt内の各セルについて、そのヒストグラムと隣接ビデオフレームt+1内で対応する位置を有するセルのヒストグラムとにおける差を計算することができる。2つの隣接ビデオフレーム内のセルペアのヒストグラム間における差がさらに標準化されて(例えば、2乗され、正規化され、かつ/あるいは平均される等)、上記2つの隣接フレームの最終的なヒストグラム差値を取得してもよく、これにおいて、その値は“0”と“1”との間におよび得る。2つの隣接ビデオフレームのヒストグラム差値がいったん取得されると、低レベル解析モジュール212は局所的ルールを適用して、ヒストグラム差値からビデオフレームtのヒストグラム差スコアを取得することができる。様々な実施形態において、ビデオフレームのヒストグラム差スコアはヒストグラム差に正比例してもよく、例えば、より高いヒストグラム差値がより高いヒストグラム差スコアを結果としてもたらし、逆もまた同様である。
少なくともいくつかの実施形態において、低レベル解析モジュール212は、解析のいくつかを最適化してビデオファイルの処理をスピードアップすることができる。例えば、低レベル解析モジュール212は、ビデオファイル内のすべてのビデオフレームというよりもビデオファイル内のビデオフレームのサブセットについて、解析(例えば、露出格付け解析、色相多様性解析等)を実行することができる。低レベル解析モジュール212は、さらに、元のフレームの縮小された(scaled down)バージョンに対して解析のうち1つ以上を実行していくらかの効率を得ることができる。例えば、ビデオフレームの色相多様性及び彩度解析が、ビデオフレームのダウンサンプリングされたバージョンに対して実行されることができる。別の例において、露出品質解析が、ビデオフレームのモノクロの且つダウンサンプリングされたバージョンに対して実行されてもよい。低レベル解析モジュール212はさらに、複数の解析を並列に又は実質的に並列に実行してもよい。例えば、彩度品質解析及び色相多様性解析が並列に実行されてもよい。
高レベル解析モジュール214は、各々のデコードされたビデオフレームを高レベルの特徴について解析することができる。少なくとも1つの実施形態において、高レベル特徴解析には、顔検出、顔追跡、顔認識、顕著性(saliency)解析、オーディオパワー解析、オーディオ分類解析、発話解析、及びモーション解析が含まれ得る。
顔検出において、高レベル解析モジュール214は、デコードされたビデオフレームを解析して、人間の顔がビデオフレーム内に提示されているかどうかを検出することができる。検出された顔は、ビデオフレームを捕捉したカメラに対面しているか、又はカメラに対して横向きであり得る。上記検出に基づいて、高レベル解析モジュール214は、検出された顔のリストを、ビデオフレーム内におけるその位置、各顔によりカバーされるビデオフレームのエリア、及び検出における信頼度を示す各顔の検出信頼度スコアと共に生成することができる。
様々な実施形態において、高レベル解析モジュール214は局所的ルールを適用して、検出された顔のサイズに基づいて、ビデオフレームのサイズのパーセンテージとして、ビデオフレームの顔重要度スコアを算出することができる。2つのビデオフレーム上で検出される同じサイズを有する顔は、同じ顔重要度スコアを割り当てられることができる。しかしながら、ビデオフレームt上の顔がビデオフレームt上の顔よりもより大きい場合、ビデオフレームtの顔重要度スコアはより高くなることになり、なぜならば、より大きい顔はより小さい顔よりもより重要と考えられるからである。他の実施形態において、高レベル解析モジュール214は、検出された顔のサイズが最小サイズ閾値と最大サイズ閾値との間である場合、顔重要度スコアを算出するように構成されてもよい。逆に、サイズが最小サイズ閾値よりもより小さいか又は最大サイズ閾値よりもより大きい顔は、高レベル解析モジュール214による顔重要度スコア算出に対して妥当でないと考えられてもよく、あるいは、否定的(negative)スコアバイアスが上記の発生に対して対応ビデオフレームに割り当てられてもよい。
別法として、又は同時的に、ビデオフレームの顔重要度を算出する局所的ルールは、ビデオフレーム内に表される各顔の顔面特徴を考慮に入れてもよい。例えば、顔面特徴には、顔が笑っているか否か、又は目が開いているか否か等が含まれ得る。ゆえに、笑っている顔について対応ビデオフレームに対して肯定的(positive)スコアバイアスが割り当てられることができ、一方、顔が笑っていないときに否定的スコアバイアスが割り当てられることができる。同様にして、開いた目を有する顔について対応ビデオフレームに対して肯定的スコアバイアスが割り当てられることができ、目が閉じられているときに否定的スコアバイアスが割り当てられることができる。
顔認識において、高レベル解析モジュール214は顔認識アルゴリズムを使用して、ビデオフレーム内で検出される各人の顔を、人の既知のアイデンティティ(identity)にマッチさせることができる。いくつかの実施形態において、高レベル解析モジュール214は、既知の顔の知識データベースを使用して、人間の顔を既知の人にマッチさせることができる。別法として、又は同時的に、高レベル解析モジュール214は、ユーザインターフェースモジュール24を使用してユーザインターフェース制御を提供することができる。上記ユーザインターフェース制御は、ユーザが、1つ以上の認識された顔の各々に、アイデンティティ、該顔の重要度格付け、及び/又は該顔を有する人間の視聴者に対する関係でタグ付けすることを可能にする。少なくとも1つの実施形態において、顔に関して視聴者により提供される情報は、知識データベースに追加されることができる。
顔追跡において、高レベル解析モジュール214は、複数のビデオフレームにわたり人間の顔を追跡することができる。こうして、高レベル解析モジュール214は、ビデオファイル内に存在する顔のセットを確認し、さらに、各顔がビデオファイル内に出現する頻度を追跡することができる。さらに、顔グループ化において、高レベル解析モジュール214は、追跡される顔をグループ化して、異なるビデオフレーム上で検出される顔が同じ人間に属するかどうかを決定することができる。様々な実施形態において、高レベル解析モジュール214は、ビデオフレーム内の検出された顔の各々について、顔面特徴のセットを取得することができる。高レベル解析モジュール214は、検出された顔の顔面特徴のセットを比較して、検出された顔を顔面特徴類似度に従ってグループへとグループ化することができる。高レベル解析モジュール214は、顔の各グループの重要度を、各グループ内の顔の数に従って評価することができる。各グループ内の顔の数は、ビデオファイル内における顔の行き渡り(prevalence)に正比例する。さらに、より多くの行き渡りは、その顔を有する人間のより高い重要度を示し得、逆もまた同様である。このことに応じて、顔のグループのためのグループ重要度スコアが、グループ内の顔の顔重要度スコアの合計であり得る。このようなものとして、最高レベル解析モジュール214は、複数のビデオフレーム内に表されるとおりにグループ内の顔の顔重要度スコアを合計して、グループのためのグループ重要度スコアを算出することができる。
例えば、最高グループ重要度スコアを有するグループ内に顔が出現する人は、主要な人物と考えられることができる。こうした情報に基づいて、高レベル解析モジュール214は大局的ルールをビデオフレームに適用することができ、したがって、主要人物を示すビデオフレームの顔重要度スコアがさらに肯定的にバイアスをかけられ、すなわち、高められることができる。さらに、複数のビデオフレーム内で捕捉されたとしてグループ内に含まれる顔の位置が、ビデオフレームに割り当てられる顔重要度スコアを低めてもよい。例えば、特定の人の顔を示すビデオフレームの重要度スコアが、該顔の、ビデオフレームの中心に対する、軸(例えば、x軸又はy軸)に沿った距離に従ってバイアスをかけられてもよく、したがって、中心に対してより近い顔がビデオフレームのより高い重要度を結果としてもたらし、逆もまた同様である。
フレーム顕著性(saliency)解析において、高レベル解析モジュール214は、ビデオフレームの顕著な部分を検出することができる。例えば、ビデオフレームの顕著な部分は、動いているオブジェクトを捕捉することができる。顕著性解析に基づいて、高レベル解析モジュール214は局所的ルールを適用して、ビデオフレーム内のあらゆる画素の顕著性スコアを表示するヒートマップを生成することができる。ヒートマップは、マトリクス内に並べられたデータのグラフィカル表現であり、これにおいて、マトリクス内の個々の値は色を用いて表現される。高レベル解析モジュール214は、ビデオフレーム内の画素の顕著性スコアに基づくビデオフレームのフレーム顕著性スコアをさらに生成することができる。例えば、ビデオフレームのビデオフレーム顕著性スコアは、画素顕著性スコアの平均であってもよい。
オーディオパワー解析において、高レベル解析モジュール214は、継続時間においてビデオフレームに対応するオーディオデータを査定し(例えば、1秒の1/30又は1/60)、オーディオパワーの二乗平均平方根(root mean square)(RMS)値を算出することができる。オーディオパワーのより高いRMS値は、対応するビデオフレームのより高い重要度を示し得、逆もまた同様である。ゆえに、高レベル解析モジュール214は、局所的ルールに従って、オーディオパワー重要度スコアを対応するビデオフレームに割り当てることができる。
オーディオ分類解析において、高レベル解析モジュール214は、機械学習分類器を使用して、継続時間においてビデオフレームに対応するオーディオデータが異なるタイプのオーディオデータ(例えば、雑音、発話、又は音楽)を含むかどうかを決定することができる。異なるタイプのオーディオデータは、対応するビデオフレームの異なる重要度を反映し得る。局所的ルールに基づいて、高レベル解析モジュール214は、オーディオデータのタイプに基づいて、オーディオ分類重要度スコアを対応するビデオフレームに割り当てることができる。例えば、発話の存在が、高レベル解析モジュール214に、高いオーディオ分類重要度を対応ビデオフレーム割り当てさせてもよい。対照的に、音楽の存在が、対応ビデオフレームに対する中位のオーディオ分類スコアの割り当てを引き起こしてもよい。さらに、雑音の存在が、高レベル解析モジュール214に、低いオーディオ分類スコアを対応ビデオフレームに割り当てさせてもよい。
モーション類別解析において、高レベル解析モジュール214は、モーション解析モジュール216を使用してビデオフレーム間における特徴点の動きを追跡し、その動きをモデル化する変換を生成することができる。高レベル解析モジュール214は、上記変換を使用して、動きの大きさ及び方向に関連した局所的トレンド及び大局的トレンドを解析することができる。ひいては、高レベル解析モジュール214は、局所的トレンド及び大局的トレンドを使用して、ビデオフレーム内で捕捉された揺れについて考慮し(account for)、シーンに対するカメラの意図的動作、例えば、ズーミング、パンニング等を決定することができる。
様々な実施形態において、モーション解析モジュール216は、2つの隣接するフレームについて特徴点の場所を特定すること(locating)によって、モーション類別解析を開始することができる。特徴点は、画像の2次元(2D)又は3D変換においてでさえ識別可能なままである、該画像内の点であり得る。特徴点を検出するために、モーション解析モジュール216は、画像をダウンサンプリングし、より小さい次元のダウンサンプリングされた画像のピラミッドを作成することができる。それから、ダウンサンプリングされた画像はモーション解析モジュール216によって比較されて、ダウンサンプリングされた画像間における共通点(すなわち、特徴点)を決定することができる。様々な実施形態において、モーション解析モジュール216は、共通点を検出するためのいくつかの検出アルゴリズムのうち1つ以上、例えば、ラプラス(Laplace)検出アルゴリズム、ハリス(Harris)検出アルゴリズム、ヘシアン(Hessian)検出アルゴリズム、ヘシアンラプラス検出アルゴリズム、ヘシアンアフィン(HessianAffine)検出アルゴリズム、エッジ焦点(EdgeFoci)検出アルゴリズム等を使用することができる。
2つの隣接するフレームについて特徴点がいったん識別されると、モーション解析モジュール216は、最大数の特徴点がマッチするように2つの隣接フレームを整列させる(aligns)変換を決定することができる。変換は、ロバストパラメータ推定の一実装であるジオメトリックマッチングを用いて実行されることができる。変換は、マッチした特徴点から算出されるホモグラフィ(homography)変換マトリクスを提供することができる。様々な実施形態において、モーション解析モジュール216は、ランダムサンプリング及びコンセンサス(Random Sampling and Consensus)(RANSAC)アルゴリズムを使用して、初期パラメータ推定と統計的インライア(statistical inliers)のリストとを取得することができ、これにおいて、初期パラメータ推定はさらに精緻化される。ホモグラフィ変換により整列させられるビデオフレーム内の様々なカメラモーションが、図3に例示される。
図3は、複数のビデオフレーム内で例示的な特徴点を整列させるホモグラフ(homograph)変換の使用を示す一例示的な図である。図示されるとおり、ビデオフレーム302〜312の各々は、円形で表される識別された特徴点のグループをそれぞれ含み得る。例えば、ビデオフレーム302内の特徴点のグループは、円形314(1)〜315(5)によって表される。特徴点のグループ内の各特徴点は、複数のビデオフレームを捕捉したカメラの動作にもかかわらず、この複数のビデオフレームにわたり互いに対する相対位置を保有し得る。例えば、変換されたビデオフレーム316は、ビデオフレーム302に対しての、カメラの追跡動作の結果である後続ビデオフレームであり得る。変換されたビデオフレーム318は、ビデオフレーム304に対しての、カメラのブーム動作の結果である後続ビデオフレームであり得る。変換されたビデオフレーム320は、ビデオフレーム306に対しての、ズーム/ドリー動作の結果である後続ビデオフレームであり得る。変換されたビデオフレーム312は、ビデオフレーム308に対しての、カメラのロール動作の結果である後続ビデオフレームであり得る。変換されたビデオフレーム314は、ビデオフレーム310に対しての、カメラの垂直パン/ピッチ/チルトの結果である後続ビデオフレームであり得る。変換されたビデオフレーム316は、ビデオフレーム312に対しての、カメラの水平パンニングの結果である後続ビデオフレームであり得る。
しかしながら、ビデオフレーム302〜312から変換されたビデオフレーム326〜336を作り出したカメラによる動作にかかわらず、モーション解析モジュール216はホモグラフ変換を使用して、ビデオフレームとその対応する変換されたビデオフレームとの中の特徴点を整列させることができる。
図2に戻ると、RANSACアルゴリズムは、特徴点マッチの最小サブセットから変形(transformation)マトリクスパラメータを直接計算することができる。例えば、2つのフレーム間で対応する2つの特徴点から、相似変換(similarity transform)(例えば、並進、回転、又はスケール変更(scale))が計算されることができる。候補ジオメトリック変形がいったん取得されると、RANSACアルゴリズムは、データセット内のすべての他の特徴点マッチに対して変形をテストすることと、十分な正確さで空間的に投影する(project)特徴点であるインライアの数の総数を生成することとによって、変形を検証することができる。換言すると、RANSACアルゴリズムは、点マッチの最小セットを最初ランダムに選び、このセットから変形パラメータを計算し、それから、インライアマッチの数を数えることによって上記パラメータを検証することができる。その後、RANSACアルゴリズムは、最良の変形を記録する。RANSACアルゴリズムは、変形パラメータの良好なセットを見つける確率がデータミスマッチレートを所与として所定の確率閾値に達するまで、上記手順を複数回繰り返すことができる。
いくつかの実施形態において、RANSACアルゴリズムは、ベイズ統計学のより良好な使用を行うように修正されることができる。変形パラメータの検証の間にインライアを数えるというよりも、RANSACアルゴリズムは、すべての特徴点マッチから、各ランダム変形について、ログ確率スコアを計算することができる。このスコアは2つの部分、すなわち、(1)パラメータと、共通に予期される値からパラメータがどれほど離れているかとに依存する、事前確率スコア、及び(2)特徴点マッチの再投影距離(re-projection distance)のロバスト関数(robust function)に基づく確率スコア、を含むことができる。上記スコアは、正しい場所に投影する特徴点の方を好むが、アウトライア(outliers)が共存することを許容する。
ホモグラフ変換から、モーション解析モジュール216は、ズーミング及び垂直並進成分(zooming and vertical translation components)の大きさ及び方向を抽出すると同時に、他の種類のモーションを無視することができる。上記大きさ及び方向は、2つの隣接するフレーム内に記録されるとおりの、カメラの意図的動作である。換言すると、上記大きさ及び方向は、第1のフレームから第2の隣接フレームへの実際の動きの変化の一次導関数(first order derivative)である。モーション解析モジュール216は、ビデオフレームの動きベクトルのモーションデータ移動平均を算出することによって、ビデオフレームを記録したカメラの揺れ動き(shakiness movement)を決定し、モーションデータ移動平均から上記カメラの意図的動きを減算することができる。モーションデータ移動平均の算出は、局所的分散(local variance)を抑制し、意図的動きを表す長期トレンドを維持する。換言すると、第1のフレームから第2のフレームへの意図的動きと全体的動き変化とにおける差は、2つのフレームを記録したカメラの揺れ動きである。
フレームのセット内に記録されるズーミング及び垂直並進値の大きさは、これらフレームの重要度に関する手がかりを提供することができる。例えば、より高い値が、ビデオフレーム内の1つ以上のオブジェクトに関してのカメラモーションにおける加速を示し得る。さらに、より高い加速度を有するビデオフレームの領域がより重要であると仮定されてもよく、なぜならば、カメラがモーションにおける素早い変化を行って何らかのアクションを捕捉している可能性があるからである。このことに応じて、高レベル解析モジュール214は、モーション加速の量に基づいてモーション重要度スコアを各フレームに割り当てることができる。
モーション解析モジュール216は、意図的動きデータを解析して、ズーム及び垂直並進モーションの双方についてゼロ交差のまわりに置かれる(pivoted)複数の極大及び極小を決定することができる。いくつかの実施形態において、モーション解析モジュール216は、極大及び極小の場所を使用して、データをビデオセクションに区分することができる。別法として、又は同時的に、モーション解析モジュール216は、極大及び極小の場所を使用して、ビデオファイルを、ペアにされた変化の方向を有するビデオセクションに区分することができ、上記のペアにされた方向は、例えば、ズームアウトとペアにされたズームイン、パンダウンとペアにされたパンアップなどである。
ビデオファイルの区分されたビデオセクションは、ビデオファイルのシーンにおける変化と一貫性があり得る。このことに応じて、ビデオファイル内のセクション境界がガイドラインとして使用されて、ビデオファイルを異なる重要度のビデオセクションに分割することができる。上記境界は、重要/非重要セクションの開始及び終了を、カメラの動作におけるシフト又はシーン内の活動の性質における変化が存在する時点に整列させることができる。さらに、モーション解析モジュール216は、セクションのズーム及びパンモーションの大きさを組み合わせ、平均することができる。ビデオセクションのズーム及びパンモーションの大きさの平均によって表現される加速の量がモーション解析モジュール216によって使用されて、フレームに関して上記で説明されたのと同じ仕方でビデオセクションにモーション重要度スコアを割り当てることができる。
少なくともいくつかの実施形態において、高レベル解析モジュール214は、解析のいくつかを最適化して、ビデオファイルの処理をスピードアップすることができる。例えば、高レベル解析モジュール214は、各ビデオフレーム内の1つ以上の顔について、該ビデオフレームの、モノクロの及びダウンサンプリングされたバージョンを用いて、顔検出、顔追跡、及び/又は顔認識を実行することができる。高レベル解析モジュール214は、さらに、複数の解析を並列に又は実質的に並列に実行してもよい。例えば、顔追跡及び顔認識が並列に実行されることができる。
重要度算出モジュール218は、ビデオファイルのビデオフレームについて生成される様々な特徴スコアを正規化し、ビデオファイルのビデオ重要度値を算出することができる。例えば、重要度算出モジュール218は、各ビデオフレームの正規化された特徴スコアのセット(例えば、顔重要度スコア、モーション重要度スコア、露出格付けスコア、彩度スコア等)を平均して、各ビデオフレームのフレーム重要度スコアを取得することができる。ビデオフレーム重要度スコアがさらに平均されて、ビデオファイルのビデオ重要度値を導出してもよい。いくつかの実施形態において、ビデオファイルのビデオ重要度値の算出は、ビデオフレームに関連付けられた1つ以上の特徴スコアにバイアスをかけることをさらに含むことができる。例えば、重要度算出モジュール218は、ビデオフレーム内における顔の存在がビデオフレームの色相多様性スコアよりもより高い度合で該フレームのフレーム重要度スコアに影響するように、肯定的バイアスを適用するよう構成されることができる。
別の例において、重要度算出モジュール218は、ビデオファイルのビデオ重要度値を下記のとおり生成することができる:
Figure 2017528016
これにおいて、Wは重みであり、Fは特徴である。重みは、特徴の重要度を指図することができる。例えば、視聴者が明るいビデオをより好み、Fがこのプロパティに相関する特徴である場合、重要度算出モジュール218は、Wに対して、他の特徴の重みよりもより高い値を割り当てるように構成されることができる。このバイアスは、他のシナリオにおいて適用されてもよい。さらなる例において、視聴者が特定の人を示すビデオファイルを優先的に選択したい場合、この視聴者は、重要度算出モジュール218を構成して、上記特定の人の顔を示すフレームにバイアスをかけて、こうしたビデオフレームのビデオフレーム重要度スコアを上げることができる。様々な実施形態において、重要度算出モジュール218は、ビデオファイルの特徴値{F1,F2,・・・Fn}をデータストア226に記憶することができる。ビデオファイルの特徴値の記憶は、異なる特徴がバイアスをかけられることになるシナリオにおいて、ビデオファイルについての将来の二重の解析を除外することができる。
少なくとも1つの他実施形態において、重要度算出モジュール218は、ビデオフレーム内に示される特徴に対して否定的バイアスを適用するように構成されることができる。例えば、揺れの量に比例する否定的バイアスが重要度算出モジュール218によって実施されて、揺れに比例してビデオフレームのビデオフレーム重要度スコアを低めることができる。
ビデオ区分モジュール220は、重要度に基づいてビデオファイルを複数のビデオセクションに区分することができる。いくつかの実施形態において、ビデオ区分モジュール220は、ビデオファイルの継続時間よりもより短い継続時間tを有するビデオセクションを見つけることができる。こうした実施形態において、ビデオ区分モジュール220はウィンドウマス(window-mass)を算出することができ、ウィンドウマスは、ビデオファイルのうち(t * フレームレート)のビデオフレームを有するウィンドウ内のビデオフレームにおけるフレーム重要度スコアの総和である。上記ウィンドウマスは、シフトする仕方で、ビデオファイルのすべてのビデオフレームについて、連続的に算出されることができる。このことに応じて、ビデオ区分モジュール220は、最も高いウィンドウマスを有するビデオフレームを、t秒の長さの重要ビデオセクションのうちの中心として選択することができる。他の実施形態において、ビデオ区分モジュール220は、モーション解析モジュール216に依存して、モーションデータに基づいてビデオファイルをビデオセクションに区分してもよい。ビデオ区分モジュール220がビデオファイルをビデオセクションにいったん区分すると、重要度算出モジュール218は、各ビデオセクションのセクション重要度値を、ビデオファイル全体に関してと同様の仕方で生成することができる。換言すると、重要度算出モジュール218は、ビデオセクション内のビデオフレームの正規化されたフレーム重要度スコアに基づいてセクション重要度値を生成することができる。いくつかの例において、重要度算出モジュール218は、ビデオセクションのセクション重要度値の生成の間、1つ以上の特徴スコアに対するバイアスかけをさらに適用することができる。
様々な実施形態において、低レベル解析モジュール212と高レベル解析モジュール214と重要度算出モジュール218との各々は、ビデオセクション及び/又はビデオファイルについて取得されたスコア、値、及び他の情報を、関連メタデータとしてデータストア226に記憶することができる。上記メタデータは、ビデオファイルに関連付けられる他のメタデータ、例えば、日付、場所、オンライン共有の数等と組み合わせられることができる。
ビデオランク付けモジュール222は、ビデオファイルのビデオセクションを、そのセクション重要度値に基づいてランク付けすることができる。別法として、又は同時的に、ビデオランク付けモジュール222は、ビデオファイルをそのビデオ重要度値に従ってランク付けすることができる。ランク付けは、最も重要なものから最も重要でないものへであってもよく、あるいは、逆もまた同様である。各々のランク付けされたビデオファイルについて、ビデオランク付けモジュール222は、ランク付けされたビデオファイル内のビデオセクションに関するメタデータをさらに記憶することができる。上記メタデータには、各ビデオセクションのランク付け、各ビデオセクションの開始及び終了時間、各ビデオセクションの継続時間、及び各ビデオセクションのセクション重要度値が含まれ得る。いくつかの実施形態において、ビデオランク付けモジュール222は、ビデオファイル又はビデオセクションについて、さらなる値をさらに算出することができる。こうした値には、重要度密度が含まれてもよく、重要度密度は、重要度スコア閾値を超える重要度スコアを有するビデオファイル又はビデオセクション内のビデオフレームのパーセンテージを反映することができる。さらに、上記値には品質密度が含まれてもよく、品質密度は、対応する閾値を超える否定的又は肯定的特徴を有するビデオファイル又はビデオセクション内のフレームのパーセンテージを反映することができる。上記否定的又は肯定的特徴には、揺れ、過剰露出、過少露出等が含まれ得る。ビデオランク付けモジュール222は、個々のビデオファイル及び/又はビデオセクションのランク付けを生成するのに使用される複数のタイプのスコアと他の計算された値とを、関連メタデータとしてデータストア226に記憶することができる。
ビデオファイル又はビデオセクションのセットがいったんランク付けされると、ビデオランク付けモジュール222は、ランク付けされたビデオファイル又はビデオセクションのサムネイル画像表現を表示することができる。このことに応じて、サムネイル画像表現の選択が、メディアプレーヤ122に対応ビデオセクションを再生させ、あるいは、他のアプリケーションに共有及び又は編集のために対応ビデオセクションを提供させることができる。
ユーザインターフェースモジュール224は、ユーザがインターフェース204を介してビデオ解析エンジン102のモジュールと相互作用することを可能にする。例えば、ユーザインターフェースモジュール224は、ユーザが重要度解析のためのビデオファイルを選択し、ビデオファイル内で識別される人間の顔に情報でタグ付けし、肯定的特徴スコアバイアスかけのために人間の顔を強調し、及び/又はサムネイル画像表現を介してメディアプレーヤ122による再生のためのビデオファイル及びビデオセクションを選択することを可能にする。いくつかの実施形態において、ユーザは、ユーザインターフェース224をさらに使用して、ビデオ解析エンジン102による解析のためにビデオファイルの低レベル特徴のうち1つ以上又は高レベル特徴のうち1つ以上を選択することができる。
データストア226は、様々なモジュールにより使用されるデータを記憶することができる。少なくともいくつかの実施形態において、データストア226は、ビデオファイル228、ランク付けされたビデオファイル230、ランク付けされたビデオセクション232、及び/又は、ランク付けされたビデオファイル230及びランク付けされたビデオセクション232に関連付けられたメタデータ234を記憶することができる。他の実施形態において、データストア226は、ビデオファイル及びビデオセクションをランク付けするのに使用されるビデオファイル又はビデオセクションに関連付けられたデータ(例えば、重要度スコア)を記憶することができる。データストア226は、モジュールにより生成されるさらなる帰結及び値、例えば、ホモグラフ変換マトリクス、特徴スコア、ビデオ重要度スコア、セクション重要度スコア等をさらに記憶することができる。
いくつかの実施形態において、1つ以上のさらなるアプリケーションがコンピューティング装置104上にインストールされることができる。こうしたアプリケーションにはビデオ編集アプリケーションが含まれてもよく、ビデオ編集アプリケーションは、元のビデオファイルのうちの精選ビデオセクションから新しいビデオファイルを編成するのに使用される。例えば、上記ビデオ編集アプリケーションは、ユーザが、一緒にデジタル的に組み合わせられるべき特定のスコア閾値を超えるセクション重要度値を有するビデオセクションを選択して、ハイライトビデオファイルを作成することを可能にすることができる。アプリケーションにはオンライン共有アプリケーションがさらに含まれてもよく、オンライン共有アプリケーションは、ユーザがビデオファイル、ビデオセクション、又はハイライトビデオをオンラインで投稿することを可能にする。さらなる実施形態において、1つ以上の他のアプリケーションがコンピューティング装置104上にインストールされて、ビデオファイル及びビデオセクションについてデータストア226に記憶されたデータにアプリケーションインターフェースを介してアクセスしてもよい。上記アプリケーションはデータにアクセスして、他の方法で解析結果を使用し得る。換言すると、ビデオ解析エンジン102は、より低いレベルのサービスとして機能して、データを上記アプリケーションに提供することができる。
例示的な処理
図4〜図7は、ビデオファイルのルールに基づく重要度解析を実行する様々な例示的処理を説明する。各例示的処理において動作が記載される順序は、限定とみなされることは意図されず、説明される動作のうち任意数が、任意の順序で及び/又は並列に組み合わせられて各処理を実施してもよい。さらに、図4〜図7の各々における動作は、ハードウェア、ソフトウェア、及びこれらの組み合わせにおいて実装され得る。ソフトウェアの文脈において、動作はコンピュータ実行可能命令を表し、該命令は、1つ以上のプロセッサにより実行されるときに、列挙された動作を1つ以上のプロセッサに実行させる。一般に、コンピュータ実行可能命令には、特定機能が実行され又は特定抽象データタイプが実装されることを引き起こすルーチン、プログラム、オブジェクト、コンポーネント、データ構造、及び同様のものが含まれる。
図4は、ルールに基づくビデオ解析を使用してビデオファイル内の特徴を解析してビデオファイルのビデオセクションをその重要度に基づいてランク付けする一例示的な処理400を例示するフロー図である。ブロック402において、ビデオ解析エンジン102は、ビデオファイル、例えばビデオファイル108(1)などをデコードして、ビデオフレームと該ビデオフレームに関連付けられたオーディオデータとを取得することができる。ビデオデコーダモジュール210は、様々なコーデックを使用してビデオファイルをデコードすることができ、例えば、H.264、MPEG−2、MPEG−4等である。上記関連オーディオデータは、ビデオフレームと同じ継続時間、例えば、1秒の1/30又は1秒の1/60を有し得る。しかしながら、いくつかの実施形態において、ビデオデコーダモジュール210は、関連オーディオデータを取得することなくビデオフレームを取得するように構成されてもよく、あるいは、逆もまた同様である。
ブロック404において、ビデオ解析エンジン102は、ビデオフレームのビデオ特徴又はオーディオデータのオーディオ特徴のうち少なくとも1つを解析して、特徴スコアを取得することができる。ビデオ解析エンジン102は、上記解析を、1つ以上の局所的ルールに基づいて実行することができる。様々な実施形態において、解析される1つ以上の特徴には、高レベル特徴及び/又は低レベル特徴が含まれ得る。例えば、低レベル特徴には、露出品質、彩度品質、ビデオフレームの揺れ、平均明度、色エントロピー、及び/又はビデオフレーム間におけるヒストグラム差などの特徴が含まれ得る。高レベル特徴には、ビデオフレーム内で検出される顔の数量、位置、及び/又は顔面特徴などの特徴が含まれ得る。
ブロック406において、ビデオ解析エンジン102は、ビデオフレームの特徴スコアをビデオフレームのメタデータとして記憶することができる。様々な実施形態において、ビデオ解析エンジン102は、メタデータをデータストア226に記憶することができる。こうしたメタデータは、ビデオフレームの解析の再発を、同じビデオフレームを伴う対応ビデオファイル又はビデオセクションの重要度の将来の決定の間、低減させ、あるいは除外することができる。
判断ブロック408において、ビデオ解析エンジン102は、解析すべきビデオファイルのさらなるフレームが存在するかどうかを決定することができる。換言すると、ビデオ解析エンジン102は、ビデオファイルのビデオフレーム及び関連オーディオデータのすべてがデコードされたかどうかを決定することができる。ビデオ解析エンジン102が、解析すべきさらなるフレームが存在すると決定する場合(判断ブロック408において“yes”)、処理400はブロック402にループバックし得る。ブロック402において、ビデオ解析エンジン102は、後続ビデオフレーム及び関連データをビデオファイルから取得することができる。しかしながら、ビデオ解析エンジン102が判断ブロック408において、ビデオファイルのさらなるビデオフレームが解析されることにならないと決定する場合(判断ブロック408において“no”)、処理400はブロック410に進み得る。
ブロック410において、ビデオ解析エンジン102は、少なくとも1つの大局的ルールを1つ以上の特徴結果に適用することができる。例えば、最も高いグループ重要度スコアを有するグループ内に顔が出現する人は、主要な人物と考えられることができる。こうした情報に基づいて、高レベル解析モジュール214は大局的ルールをビデオフレームに適用することができ、したがって、主要人物を示すビデオフレームの顔重要度スコアがさらに評価されることができる。
ブロック412において、ビデオ解析エンジン102は、ビデオファイルの各ビデオフレームのすべての特徴スコアを組み合わせて、各ビデオフレームの対応フレーム重要度スコアを導出することができる。例えば、ビデオ解析エンジン102は、各ビデオフレームの正規化された特徴スコアのセットを平均して、各ビデオフレームのフレーム重要度スコアを取得することができる。
ブロック414において、ビデオ解析エンジン102は、ビデオファイルのメタデータを記憶することができる。メタデータには、ビデオファイルのビデオフレームのビデオフレーム重要度スコア及び/又は各ビデオフレームの特徴スコアが含まれ得る。
ブロック416において、ビデオ解析エンジン102は、ビデオフレームのビデオフレーム重要度スコアに基づいて、ビデオファイルをビデオセクションに区分することができる。いくつかの実施形態において、ビデオ解析エンジン102は、ウィンドウマスの算出を使用して、ビデオファイルをビデオセクションに区分することができる。他の実施形態において、ビデオ解析エンジン102は、ビデオファイル内に捕捉されたモーションデータのズーム及び垂直並進モーションのゼロ交差を使用して、ビデオファイルをビデオセクションに区分することができる。
ブロック418において、ビデオ解析エンジン102は、ビデオファイルの各ビデオセクションのセクション重要度値を算出することができる。様々な実施形態において、ビデオ解析エンジン102は、セクション重要度値を、ビデオセクション内のビデオフレームの正規化されたフレーム重要度スコアに基づいて生成することができる。いくつかの例において、重要度算出モジュール218は、ビデオセクションのセクション重要度値の生成の間、1つ以上の特徴スコアに対するバイアスかけをさらに適用することができる。
ブロック420において、ビデオ解析エンジン102は、ビデオセクションをそのセクション重要度値に従ってランク付けすることができる。例えば、ビデオセクションは、最も高い重要度から最も低い重要度へランク付けされることができ、あるいは、逆もまた同様である。ビデオセクションがいったんランク付けされると、ビデオ解析エンジン102は、ビデオセクションのサムネイル画像表現を表示することができる。サムネイル画像表現の選択は、メディアプレーヤ122が対応ビデオセクションを再生すること、又は他のアプリケーションが対応ビデオセクションを共有及び/又は編集のために提供することを引き起こすことができる。別法として、ビデオ解析エンジン102は、ランク付けデータを別のアプリケーションに提供することができ、したがって、該アプリケーションは、ランク付けされたビデオセクションのサムネイル表現を表示することができる。
図5は、ルールに基づくビデオ解析を使用してビデオファイルの特徴を解析してビデオファイルをその重要度に基づいてランク付けする一例示的な処理500を例示するフロー図である。ブロック502において、ビデオ解析エンジン102は、ビデオファイルの集合、例えばビデオ集合106から、ビデオファイルを取得することができる。様々な実施形態において、ビデオ解析エンジン102は、ビデオファイルをユーザからの選択入力に基づいて取得することができる。
ブロック504において、ビデオ解析エンジン102は、ビデオファイルのビデオ重要度値を、ビデオファイル内のビデオフレームのビデオフレーム重要度スコアに基づいて算出することができる。ビデオ解析エンジン102は、図4に示される処理400のブロック402〜412において説明されたとおり、ビデオファイルの各フレーム重要度スコアを計算することができる。様々な実施形態において、ビデオ解析エンジン102は、ビデオフレーム重要度スコアを平均して、ビデオファイルのビデオ重要度値を導出することができる。別の実施形態において、ビデオ解析エンジン102は、最も高い重要度を有するビデオファイルの1つ以上のビデオセクションのビデオフレーム重要度スコアを平均して、ビデオファイルの重要度値を導出するように構成されてもよい。いくつかの実施形態において、ビデオファイルのビデオ重要度値の算出は、フレームに関連付けられた1つ以上の重要度スコアにバイアスをかけることをさらに含むことができる。
判断ブロック506において、ビデオ解析エンジン102は、さらなるビデオファイルが解析されるべきであるかどうかを決定することができる。ビデオ解析エンジン102は、上記の決定を、ユーザから受信する選択入力に基づいて行うことができる。ビデオ解析エンジン102が、解析されるべきさらなるビデオファイルが存在すると決定する場合(判断ブロック506において“yes”)、処理500はブロック502へループバックし得る。ブロック502において、ビデオ解析エンジン102は、さらなる解析のためにビデオファイルの集合から別のビデオファイルを取得することができる。
しかしながら、ビデオ解析エンジン102が、解析されるべきさらなるビデオファイルがないと決定する場合(判断ブロック506において“no”)、処理500はブロック508に進み得る。ブロック508において、ビデオ解析エンジン102は、解析されるビデオファイルを、対応するビデオ重要度値に基づいてランク付けすることができる。例えば、ビデオファイルは、最も高い重要度から最も低い重要度へランク付けされることができ、あるいは、逆もまた同様である。ビデオファイルがいったんランク付けされると、ビデオ解析エンジン102は、ビデオファイルのサムネイル画像表現を表示することができる。これにおいて、サムネイル画像表現の選択は、メディアプレーヤ122が対応ビデオフレームを再生すること、又は、他のアプリケーションが対応ビデオセクションを共有及び/又は編集のために提供することを引き起こすことができる。別法として、ビデオ解析エンジン102は、ランク付けデータを別のアプリケーションに提供することができ、したがって、該アプリケーションは、ランク付けされたビデオファイルのサムネイル表現を表示することができる。
いくつかの実施形態において、ビデオ解析エンジン102は、ビデオファイルのビデオセクション及び/又はビデオファイルを、ビデオフレームの高レベル特徴について取得される特徴スコアに基づいてランク付けするように最初試みることができる。こうした実施形態において、ビデオ解析エンジン102は、ビデオフレーム内の高レベル特徴の不十分な存在に起因して上記最初の試みが失敗するとき、ビデオフレームの高レベル特徴と低レベル特徴との双方についての特徴スコアを取得することに頼ってランク付けを作り出すことができる。
図6は、ビデオフレームの顔重要度スコアを計算する一例示的な処理600を例示するフロー図である。ブロック602において、高レベル解析モジュール214は、ビデオフレームに対して顔検出を実行して、1つ以上の顔を検出することができる。検出された顔
は、ビデオフレームを捕捉したカメラに対面しているか、又はカメラに対して横向きであり得る。上記検出に基づいて、高レベル解析モジュール214は、検出された顔のリストを、ビデオフレーム内におけるその位置、各顔によりカバーされるビデオフレームのエリア、及び検出における信頼度を示す各顔の検出信頼度スコアと共に生成することができる。
ブロック604において、高レベル解析モジュール214は、顔追跡を実行して、1つ以上の顔を追跡することができる。様々な実施形態において、高レベル解析モジュール214は、複数のビデオフレームにわたり人間の顔を追跡することができる。こうして、高レベル解析モジュール214は、ビデオファイル内に存在する顔のセットを確認し、さらに、各顔がビデオファイル内に出現する頻度を追跡することができる。
ブロック606において、高レベル解析モジュール214は、顔面特性に基づくスコアバイアスがビデオフレームに割り当てられるべきかどうかを決定することができる。様々な実施形態において、上記決定は、1つ以上の顔面特性がビデオフレーム内で存在し又は欠如するかどうかに基づいて行われることができる。ゆえに、高レベル解析モジュール214が、顔面特性に基づくスコアバイアスが割り当てられるべきであると決定する場合(判断ブロック606において“yes”)、処理600はブロック608に進み得る。しかしながら、高レベル解析モジュール214が、顔面特性に基づくスコアバイアスが割り当てられるべきでないと決定する場合(判断ブロック606において“no”)、処理600はブロック610に直接進み得る。
ブロック608において、高レベル解析モジュール214は、ビデオフレーム内の少なくとも1つの顔の顔面特性に基づいて、スコアバイアスをビデオフレームに割り当てることができる。顔面特性には、顔サイズ、顔の動き、及び/又は特定の顔面特徴の存在又は欠如(例えば、笑っているか否か、閉じられた/開かれた目等)が含まれ得る。例えば、最小サイズ閾値よりもより小さいか又は最大サイズ閾値よりもより大きいサイズであるビデオフレーム内の顔が、高レベル解析モジュール214による否定的スコアバイアスの割り当てを結果としてもたらし得る。別の例において、特定の人の顔を示すビデオフレームの重要度スコアが、該顔の、ビデオフレームの中心に対する、軸(例えば、x軸又はy軸)に沿った距離に従って、肯定的又は否定的にバイアスをかけられてもよく、したがって、中心に対してより近い顔がビデオフレームのより高い重要度を結果としてもたらし、逆も又は同様である。否定的スコアバイアスは、ビデオフレームの顔重要度スコアを減少させる重み因子であり得る。さらなる一例において、高レベル解析モジュール214は、笑っている及び/又は開いた目を有する各顔について、肯定的スコアバイアスを割り当ててもよい。
ブロック610において、高レベル解析モジュール214は、少なくとも1つの顔に対して、顔認識又は顔グループ化のうち少なくとも1つを実行することができる。顔グループ化において、高レベル解析モジュール214は、追跡される顔をグループ化して、異なるビデオフレーム上で検出される顔が同じ人間に属するかどうかを決定することができる。顔認識において、高レベル解析モジュール214は、顔認識アルゴリズムを使用して、ビデオフレーム内で検出される各人の顔を人の既知のアイデンティティにマッチさせることができる。
ブロック612において、高レベル解析モジュール214は、顔追跡データ又は顔認識データのうち少なくとも1つに基づいて、1以上の主要人物を識別することができる。例えば、各グループ内の顔の数は、ビデオファイル内における顔の行き渡りに正比例する。さらに、より多くの行き渡りは、その顔を有する人間のより高い重要度を示し、逆もまた同様である。このことに応じて、最多数の顔を有するグループに属する顔が、高レベル解析モジュール214によって、主要人物に属するとして決定されることができる。別の例において、主要人物に属するとして指定された顔が、顔認識アルゴリズムによってビデオフレーム内に存在するとして検出されるとき、主要人物が識別されてもよい。
ブロック614において、高レベル解析モジュール214は、ビデオフレーム内の主要人物の各存在について、ビデオフレームに肯定的スコアバイアスを割り当てることができる。肯定的特徴スコアは、ビデオフレームについて算出される顔重要度スコアを高めることができる。肯定的スコアバイアスは、ビデオフレームの顔重要度スコアを増加させる重み因子であり得る。
ブロック616において、高レベル解析モジュール214は、ビデオフレームの顔重要度スコアを計算することができる。顔重要度スコアは、ビデオフレーム内の各顔のサイズ及び/又は動きに比例して算出されることができる。顔重要度スコアの計算は、肯定的及び/又は否定的スコアバイアスに基づいて算出されることができる。
図7は、特徴点の動きを解析することによってビデオ内の重要セクションを決定する一例示的な処理700を例示するフロー図である。ブロック702において、モーション解析モジュール216は、ビデオファイル、例えばビデオファイル108(1)などの、ビデオフレームを取得することができる。ビデオデコーダモジュール210が、モーション解析モジュール216による解析のためにビデオファイルからビデオフレームを解析していてもよい。
判断ブロック704において、モーション解析モジュール216は、ビデオファイルの終わりが到達されたかどうかを決定することができる。モーション解析モジュール216が、ビデオファイルの終わりが到達されていないと決定する場合(判断ブロック704において“no”)、処理700はブロック706に続き得る。
ブロック706において、モーション解析モジュール216は、ビデオフレーム内の特徴点を検出することができる。様々な実施形態において、モーション解析モジュール216は、ビデオフレームをダウンサンプリングし、より小さい次元のダウンサンプリングされた画像のピラミッドを作成することができる。それから、ダウンサンプリングされた画像がモーション解析モジュール216によって比較されて、ダウンサンプリングされた画像間における共通点(すなわち、特徴点)を決定することができる。
判断ブロック708において、モーション解析モジュール216は、ビデオフレームがビデオファイルの最初のビデオフレームであるかどうかを決定することができる。このことに応じて、モーション解析モジュール216が、ビデオフレームが最初のビデオフレームであると決定する場合(判断ブロック708において“yes”)、処理700はブロック702にループバックし得る。ブロック702に戻ると、モーション解析モジュール216は、ビデオファイルの別のビデオフレームを取得することができる。しかしながら、モーション解析モジュール216が、ビデオファイルがビデオの最初のビデオフレームでないと決定する場合(判断ブロック708において“no”)、処理700はブロック710に進み得る。
ブロック710において、モーション解析モジュール216は、ビデオフレーム内の特徴点を、ビデオファイルの前のビデオフレーム内の特徴点のさらなるセットにマッチさせることができる。様々な実施形態において、モーション解析モジュール216は、最大数の特徴点がマッチするように2つの隣接するフレームを整列させる変換を決定することによって、マッチングを実行することができる。少なくとも1つの実施形態において、上記変換は、ロバストパラメータ推定の一実装であるジオメトリックマッチングを用いて実行されることができる。
ブロック712において、モーション解析モジュール216は、ビデオフレーム間における特徴点の動きを説明するホモグラフィ変換マトリクスを算出することができる。少なくともいくつかの実施形態において、モーション解析モジュール216は、ランダムサンプリング及びコンセンサス(RANSAC)アルゴリズムを使用して、ホモグラフィ変換マトリクスを取得することができる。
ブロック714において、モーション解析モジュール216は、ホモグラフ変換マトリクスから、ビデオフレームのモーションデータを計算することができる。様々な実施形態において、モーション解析モジュール216は、ホモグラフ変換マトリクスを用いて、ズーミング及び垂直並進成分の大きさ及び方向を抽出することができる。上記大きさ及び方向は、2つの隣接フレーム内における、記録したカメラの意図的動作を表す。その後、処理700はブロック702にループバックすることができ、したがって、モーション解析モジュール216は、処理のためにビデオファイルの別のビデオフレームを取得することができる。
判断ブロック704に戻ると、モーション解析モジュール216が、ビデオファイルの終わりが到達されたと決定する場合(判断ブロック704において“yes”)、処理700はブロック716に続き得る。ブロック716において、モーション解析モジュール216は、ビデオフレームのモーションデータの移動平均と、各ビデオフレームのフレーム動き揺れとを算出することができる。ビデオファイルの1つ以上のビデオフレームのモーションデータが、上記算出の前に組み合わせられることができる。様々な実施形態において、モーション解析モジュール216は、ビデオフレームの動きベクトルのモーションデータ移動平均を算出することによって、ビデオフレームを記録したカメラの揺れ動きを決定し、モーションデータ移動平均から上記カメラの意図的動きを減算することができる。モーションデータ移動平均の算出は、局所的分散を抑制し、意図的動きを表す長期トレンドを維持する。換言すると。
ブロック718において、モーション解析モジュール216は、ゼロ交差ゾーンを確認して(ascertain)、モーションデータの局所的なピーク及び谷情報、すなわち極大及び極小を見つけることができる。局所的ピーク及び谷情報は、ビデオファイルのシーン移行点を示し得る。
ブロック720において、モーション解析モジュール216は、局所的ピーク及び谷情報に基づいて、ビデオファイルをビデオセクションに区分することができる。さらに、モーション解析モジュール216は、各ビデオセクションについて、ズーム及びパンモーションの大きさを組み合わせ、平均することができる。ビデオセクションのズーム及びパンモーションの大きさの平均により表される加速の量がモーション解析モジュール216によって使用されて、ビデオセクションにモーション重要度スコアを割り当ててもよい。その後、モーション解析モジュール216は、最も高いモーション重要度スコアを有する1つ以上のビデオセクションをビデオファイルの重要セクションとして指定することができる。
本明細書に説明される手法の使用は、ユーザがビデオファイルをユーザに対する重要度に基づいてランク付けすることを可能にすることができる。こうしたランク付けに基づいて、ユーザは、どのビデオファイルを保持すべきか、及びどのビデオファイルを削除すべきかを決めることができる。いくつかの例において、ユーザは、ビデオファイルのランク付けをさらに使用して、特定のビデオファイルをオンライン共有ウェブサイトに投稿すべきかどうかを決定することができる。本明細書に説明される手法は、ビデオファイルの重要セクションを表すサムネイル画像表現をさらに提示することができ、したがって、ユーザは、一見しただけで、ビデオファイルのうち興味深い部分を言うことができる。上記情報は、ビデオファイルを編集することにおいてユーザを支援して、ビデオファイルのコンテンツ品質を向上させ、あるいは個別セクションを強調することができる。
結び
最後に、様々な実施形態が構造的特徴及び/又は方法論的動作に固有の言語において説明されたが、別記の表現に定義される対象事項は必ずしも説明された特定の特徴又は動作に限定されないことが理解されるべきである。むしろ、上記特定の特徴及び動作は、請求される対象事項を実施する例示的形態として開示されている。

Claims (10)

  1. 実行可能であるコンピュータ実行可能命令を記憶した1つ以上のコンピュータ読取可能媒体であって、前記コンピュータ実行可能命令は、
    ビデオファイルをデコードして、ビデオフレーム又は該ビデオフレームに関連付けられたオーディオデータのうち少なくとも1つを取得することと、
    前記ビデオフレーム又は前記ビデオフレームに関連付けられた前記オーディオデータのうち前記少なくとも1つの、1つ以上の高レベル特徴を、局所的ルール又は大局的ルールのうち少なくとも1つに基づいて解析して、前記ビデオフレームの1つ以上の特徴スコアを取得することであって、前記1つ以上の高レベル特徴は、前記ビデオフレーム内の人間の顔の動き又は位置に関連する少なくとも1つの特徴を含む、ことと、
    前記ビデオフレームの前記1つ以上の特徴スコアを組み合わせて、前記ビデオフレームのフレーム重要度スコアを導出することと、
    前記ビデオファイルを、前記ビデオフレームの前記フレーム重要度スコアと前記ビデオファイルのさらなるビデオフレームの他フレーム重要度スコアとに少なくとも基づいて、異なるセクション重要度値のビデオセクションに区分することと、
    を含む動作を1つ以上のプロセッサに実行させる、1つ以上のコンピュータ読取可能媒体。
  2. 前記セクション重要度値に従って前記ビデオセクションをランク付けすること、をさらに含む請求項1に記載の1つ以上のコンピュータ読取可能媒体。
  3. 前記ビデオファイル内のすべてのビデオフレームの前記フレーム重要度スコアに少なくとも基づいて前記ビデオファイルのビデオ重要度値を算出することと、
    前記ビデオファイルの前記ビデオ重要度値とさらなるビデオファイルの他ビデオ重要度値とに少なくとも基づいて、前記さらなるビデオファイルに対して前記ビデオファイルをランク付けすることと、
    をさらに含む請求項1に記載の1つ以上のコンピュータ読取可能媒体。
  4. 前記解析することは、
    前記ビデオフレームに対して顔検出を実行して1つ以上の人間の顔を検出することと、
    顔追跡を実行して前記1つ以上の人間の顔を追跡することと、
    前記ビデオフレーム内の少なくとも1つの人間の顔の顔サイズ、顔位置、又は1つ以上の顔面特徴に少なくとも基づいて、前記ビデオフレームに否定的又は肯定的スコアバイアスを割り当てることであって、前記1つ以上の顔面特徴は、前記少なくとも1つの人間の顔内の笑み又は開いた目のうち少なくとも1つの、欠如又は存在を含む、ことと、
    前記1つ以上の人間の顔のうち少なくとも1つの人間の顔に対して、顔認識又は顔グループ化のうち少なくとも1つを実行することと、
    顔グループ化データ又は顔認識データのうち少なくとも1つに少なくとも基づいて1以上の主要人物を識別することと、
    前記ビデオフレーム内における主要人物の存在に対して、前記ビデオフレームにさらなる肯定的スコアバイアスを割り当てることと、
    前記否定的スコアバイアスと前記肯定的スコアバイアスとについて考慮する前記ビデオフレームの顔重要度スコアを計算することと、
    を含む、請求項1に記載の1つ以上のコンピュータ読取可能媒体。
  5. ビデオファイルをデコードして、ビデオフレーム又は該ビデオフレームに関連付けられたオーディオデータのうち少なくとも1つを取得することと、
    前記ビデオフレーム又は前記ビデオフレームに関連付けられた前記オーディオデータのうち少なくとも1つの、1つ以上の特徴を、局所的ルール又は大局的ルールのうち少なくとも1つに基づいて解析して、前記ビデオフレームの1つ以上の特徴スコアを取得することと、
    前記ビデオフレームの前記1つ以上の特徴スコアを組み合わせて、前記ビデオフレームのフレーム重要度スコアを導出することと、
    前記ビデオファイルのビデオ重要度値を、前記ビデオフレームの前記フレーム重要度スコアと前記ビデオファイルのさらなるビデオフレームの他フレーム重要度スコアとに少なくとも基づいて算出することと、
    前記ビデオファイルの前記ビデオ重要度値とさらなるビデオファイルの他ビデオ重要度値とに少なくとも基づいて、前記さらなるビデオファイルに対して前記ビデオファイルをランク付けすることと、
    を含む、コンピュータにより実施される方法。
  6. 前記ビデオファイルを、前記ビデオファイル内のすべての前記ビデオフレームの前記フレーム重要度スコア又は前記ビデオファイル内の複数のビデオフレームに関連付けられたモーションデータに少なくとも基づいて、異なるセクション重要度のビデオセクションに区分すること、をさらに含む請求項5に記載のコンピュータにより実施される方法。
  7. 前記ビデオファイルを、前記ビデオファイル内の複数のビデオフレームに関連付けられた前記モーションデータに少なくとも基づいて区分することは、
    前記ビデオファイルの前記ビデオフレーム内の特徴点を、前記ビデオフレームの複数のダウンサンプリングされた画像間における共通点を検出することによって、検出することと、
    前記ビデオフレーム内の前記特徴点を、前記ビデオファイルの前のビデオフレーム内の特徴点のさらなるセットに対してマッチさせることと、
    前記ビデオフレーム間における前記特徴点の動きを説明するホモグラフィ変換マトリクスを算出することと、
    前記ホモグラフィ変換マトリクスから前記ビデオフレームのモーションデータを計算することであって、前記モーションデータは、前記特徴点の動きのズーミング及び垂直並進成分の大きさ及び方向を含む、ことと、
    前記ビデオフレームの前記モーションデータを、前記ビデオファイル内の1つ以上の残りのフレームのモーションデータと組み合わせることと、
    前記ビデオファイル内の前記ビデオフレームの前記モーションデータの移動平均を算出することと、
    ゼロ交差ゾーンを確認して、前記移動平均に少なくとも基づいて前記モーションデータの局所的ピーク及び谷情報を見つけることと、
    前記ビデオファイルのビデオセクションを、前記モーションデータの前記局所的ピーク及び谷情報に少なくとも基づいて決定することと、
    を含む、請求項5に記載のコンピュータにより実施される方法。
  8. 前記解析することは、
    ビデオフレームに対して顔検出を実行して1つ以上の人間の顔を検出することと、
    顔追跡を実行して前記1つ以上の人間の顔を追跡することと、
    前記ビデオフレーム内の少なくとも1つの人間の顔の顔サイズ、顔位置、又は1つ以上の顔面特徴に少なくとも基づいて、前記ビデオフレームに否定的スコアバイアス又は肯定的スコアバイアスを割り当てることであって、前記1つ以上の顔面特徴は、前記少なくとも1つの人間の顔内の笑み又は開いた目のうち少なくとも1つの、欠如又は存在を含む、ことと、
    前記1つ以上の人間の顔のうち少なくとも1つの人間の顔に対して、顔認識又は顔グループ化のうち少なくとも1つを実行することと、
    顔グループ化データ又は顔認識データのうち少なくとも1つに少なくとも基づいて1以上の主要人物を識別することと、
    前記ビデオフレーム内における主要人物の存在に対して、前記ビデオフレームに肯定的スコアバイアスを割り当てることと、
    前記否定的スコアバイアスと前記肯定的スコアバイアスとについて考慮する前記ビデオフレームの顔重要度スコアを計算することと、
    を含む、請求項5に記載のコンピュータにより実施される方法。
  9. システムであって、
    1つ以上のプロセッサと、
    複数の動作を実行するように前記1つ以上のプロセッサにより実行可能である複数のコンピュータ実行可能コンポーネントを含むメモリと、
    を含み、前記複数の動作は、
    ビデオファイルをデコードして、ビデオフレーム又は該ビデオフレームに関連付けられたオーディオデータのうち少なくとも1つを取得することと、
    前記ビデオフレーム又は前記ビデオフレームに関連付けられた前記オーディオデータのうち前記少なくとも1つの、1つ以上の特徴を、局所的ルール又は大局的ルールのうち少なくとも1つに基づいて解析して、前記ビデオフレームの1つ以上の特徴スコアを取得することであって、前記局所的ルールは、前記ビデオフレームの特徴重要度の割り当てに影響し、前記大局的ルールは、前記ビデオフレームを含む前記ビデオファイル内の複数のビデオフレームの特徴重要度の割り当てに影響する、ことと、
    前記ビデオフレームの前記1つ以上の特徴スコアを組み合わせて、前記ビデオフレームのフレーム重要度スコアを導出することと、
    前記ビデオファイルを、前記ビデオフレームと前記ビデオファイル内のさらなるビデオフレームとに関連付けられたモーションデータに少なくとも基づいて、異なるセクション重要度のビデオセクションに区分することと、
    前記ビデオフレームと前記ビデオファイル内の前記さらなるビデオフレームとの前記フレーム重要度スコアに少なくとも基づいて算出される前記ビデオセクションのセクション重要度値に従って、前記ビデオセクションをランク付けすることと、
    を含む、システム。
  10. 前記ビデオファイル内の前記ビデオフレームの前記フレーム重要度スコアに少なくとも基づいて、前記ビデオファイルのビデオ重要度値を算出することと、
    前記ビデオファイルの前記ビデオ重要度値とさらなるビデオファイルの他ビデオ重要度値とに少なくとも基づいて、さらなるビデオファイルに対して前記ビデオファイルをランク付けすることと、
    をさらに含む請求項9に記載のシステム。
JP2016572515A 2014-06-12 2015-06-10 ルールに基づくビデオ重要度解析 Active JP6694829B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/303,466 US10664687B2 (en) 2014-06-12 2014-06-12 Rule-based video importance analysis
US14/303,466 2014-06-12
PCT/US2015/034992 WO2015191650A1 (en) 2014-06-12 2015-06-10 Rule-based video importance analysis

Publications (3)

Publication Number Publication Date
JP2017528016A true JP2017528016A (ja) 2017-09-21
JP2017528016A5 JP2017528016A5 (ja) 2018-06-28
JP6694829B2 JP6694829B2 (ja) 2020-05-20

Family

ID=53488465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016572515A Active JP6694829B2 (ja) 2014-06-12 2015-06-10 ルールに基づくビデオ重要度解析

Country Status (11)

Country Link
US (1) US10664687B2 (ja)
EP (1) EP3155557A1 (ja)
JP (1) JP6694829B2 (ja)
KR (1) KR102354692B1 (ja)
CN (1) CN106462744B (ja)
AU (1) AU2015274708B2 (ja)
BR (1) BR112016028586B1 (ja)
CA (1) CA2948529A1 (ja)
MX (1) MX2016016293A (ja)
RU (1) RU2693906C2 (ja)
WO (1) WO2015191650A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160149956A1 (en) * 2014-11-21 2016-05-26 Whip Networks, Inc. Media management and sharing system
US9607224B2 (en) * 2015-05-14 2017-03-28 Google Inc. Entity based temporal segmentation of video streams
US9832484B2 (en) * 2015-05-20 2017-11-28 Texas Instruments Incorporated Still block detection in a video sequence
US9911202B2 (en) * 2015-08-24 2018-03-06 Disney Enterprises, Inc. Visual salience of online video as a predictor of success
US10602153B2 (en) 2015-09-11 2020-03-24 Facebook, Inc. Ultra-high video compression
US10602157B2 (en) 2015-09-11 2020-03-24 Facebook, Inc. Variable bitrate control for distributed video encoding
US10063872B2 (en) 2015-09-11 2018-08-28 Facebook, Inc. Segment based encoding of video
US10375156B2 (en) 2015-09-11 2019-08-06 Facebook, Inc. Using worker nodes in a distributed video encoding system
US10506235B2 (en) 2015-09-11 2019-12-10 Facebook, Inc. Distributed control of video encoding speeds
US10341561B2 (en) * 2015-09-11 2019-07-02 Facebook, Inc. Distributed image stabilization
US10499070B2 (en) 2015-09-11 2019-12-03 Facebook, Inc. Key frame placement for distributed video encoding
US10002435B2 (en) 2016-01-29 2018-06-19 Google Llc Detecting motion in images
EP3417608B1 (en) * 2016-02-18 2020-05-13 IMINT Image Intelligence AB System and method for video processing
US10432983B2 (en) * 2016-04-04 2019-10-01 Twitter, Inc. Live video classification and preview selection
US10402436B2 (en) * 2016-05-12 2019-09-03 Pixel Forensics, Inc. Automated video categorization, value determination and promotion/demotion via multi-attribute feature computation
US10347294B2 (en) * 2016-06-30 2019-07-09 Google Llc Generating moving thumbnails for videos
WO2018017836A1 (en) 2016-07-21 2018-01-25 Twitter, Inc. Live video streaming services with machine-learning based highlight replays
JP6866142B2 (ja) * 2016-12-09 2021-04-28 キヤノン株式会社 プログラム、画像処理装置、および画像処理方法
JP6948787B2 (ja) * 2016-12-09 2021-10-13 キヤノン株式会社 情報処理装置、方法およびプログラム
US10734027B2 (en) * 2017-02-16 2020-08-04 Fusit, Inc. System and methods for concatenating video sequences using face detection
EP3396964B1 (en) * 2017-04-25 2020-07-22 Accenture Global Solutions Ltd Dynamic content placement in a still image or a video
EP3396963B1 (en) 2017-04-25 2021-04-07 Accenture Global Solutions Limited Dynamic media content rendering
EP3396596B1 (en) * 2017-04-25 2020-08-19 Accenture Global Solutions Limited Heat ranking of media objects
US10409859B2 (en) * 2017-05-15 2019-09-10 Facebook, Inc. Video heat maps personalized for online system users
CN107437083B (zh) * 2017-08-16 2020-09-22 广西荷福智能科技有限公司 一种自适应池化的视频行为识别方法
CN107578000B (zh) * 2017-08-25 2023-10-31 百度在线网络技术(北京)有限公司 用于处理图像的方法及装置
WO2019070325A1 (en) * 2017-10-03 2019-04-11 Google Llc MICRO-VIDEO SYSTEM, FORMAT AND METHOD OF GENERATION
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
EP3528196A1 (en) 2018-02-16 2019-08-21 Accenture Global Solutions Limited Dynamic content generation
CN108337535B (zh) * 2018-03-21 2020-12-29 广州视源电子科技股份有限公司 客户端视频的转发方法、装置、设备和存储介质
US10942816B1 (en) * 2018-09-06 2021-03-09 NortonLifeLock Inc. Systems and methods for dynamically adjusting a backup policy
EP3672256A1 (en) 2018-12-20 2020-06-24 Accenture Global Solutions Limited Dynamic media placement in video feed
US11514713B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Face quality of captured images
CN110087145B (zh) * 2019-06-06 2020-04-21 北京字节跳动网络技术有限公司 用于处理视频的方法和装置
US11373407B2 (en) * 2019-10-25 2022-06-28 International Business Machines Corporation Attention generation
CN111125022A (zh) * 2019-11-15 2020-05-08 浙江大华技术股份有限公司 录像覆盖权重的确定方法、装置、设备和存储介质
WO2021174118A1 (en) * 2020-02-26 2021-09-02 Nvidia Corporation Object detection using image alignment for autonomous machine applications
CN114697700A (zh) * 2020-12-28 2022-07-01 北京小米移动软件有限公司 视频剪辑方法、视频剪辑装置及存储介质
CN112995676A (zh) * 2021-04-25 2021-06-18 北京金和网络股份有限公司 一种音视频压缩方法、装置、设备、系统及存储介质
US11917206B2 (en) 2021-12-17 2024-02-27 Lenovo (Singapore) Pte. Ltd. Video codec aware radio access network configuration and unequal error protection coding
US11824653B2 (en) 2021-12-17 2023-11-21 Lenovo (Singapore) Pte. Ltd. Radio access network configuration for video approximate semantic communications
US20240096102A1 (en) * 2022-09-17 2024-03-21 Nvidia Corporation Freespace detection using machine learning for autonomous systems and applications
CN115396622B (zh) * 2022-10-28 2023-03-24 广东电网有限责任公司中山供电局 一种低码率视频重构的电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005318548A (ja) * 2004-03-30 2005-11-10 Masahiko Yanaida 撮像システム、画像データ列作成装置、画像生成装置、画像データ列生成装置、画像データ列生成システム、及び画像伝送システム
JP2007519053A (ja) * 2003-06-30 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法
US20070169613A1 (en) * 2006-01-26 2007-07-26 Samsung Electronics Co., Ltd. Similar music search method and apparatus using music content summary
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
US20090115864A1 (en) * 2007-11-02 2009-05-07 Sony Corporation Imaging apparatus, method for controlling the same, and program
JP2010062621A (ja) * 2008-09-01 2010-03-18 Sony Corp コンテンツデータ処理装置、コンテンツデータ処理方法、プログラムおよび記録再生装置
US20100070523A1 (en) * 2008-07-11 2010-03-18 Lior Delgo Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
JP2010103878A (ja) * 2008-10-27 2010-05-06 Sony Corp 画像処理装置、画像処理方法およびプログラム
JP2010109592A (ja) * 2008-10-29 2010-05-13 Canon Inc 情報処理装置およびその制御方法
JP2011040860A (ja) * 2009-08-07 2011-02-24 Nikon Corp 画像処理装置及び画像処理プログラム
US20110150275A1 (en) * 2009-12-23 2011-06-23 Xiaofeng Tong Model-based play field registration
US20130179112A1 (en) * 2012-01-09 2013-07-11 Honeywell International Inc. Robust method for signal segmentation for motion classification in personal navigation
WO2013186958A1 (ja) * 2012-06-13 2013-12-19 日本電気株式会社 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体
US20140023348A1 (en) * 2012-07-17 2014-01-23 HighlightCam, Inc. Method And System For Content Relevance Score Determination

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001160066A (ja) 1998-12-25 2001-06-12 Matsushita Electric Ind Co Ltd データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
SE9902328A0 (sv) 1999-06-18 2000-12-19 Ericsson Telefon Ab L M Förfarande och system för att alstra sammanfattad video
EP1182584A3 (en) 2000-08-19 2005-12-28 Lg Electronics Inc. Method and apparatus for video skimming
US20020167537A1 (en) 2001-05-11 2002-11-14 Miroslav Trajkovic Motion-based tracking with pan-tilt-zoom camera
US7143352B2 (en) 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
NZ560223A (en) 2003-06-23 2008-12-24 Sony Pictures Entertainment Fingerprinting of data
US8879856B2 (en) 2005-09-27 2014-11-04 Qualcomm Incorporated Content driven transcoder that orchestrates multimedia transcoding using content information
US20100005485A1 (en) 2005-12-19 2010-01-07 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US7836050B2 (en) 2006-01-25 2010-11-16 Microsoft Corporation Ranking content based on relevance and quality
US7889794B2 (en) 2006-02-03 2011-02-15 Eastman Kodak Company Extracting key frame candidates from video clip
US8200063B2 (en) 2007-09-24 2012-06-12 Fuji Xerox Co., Ltd. System and method for video summarization
EP2112619B1 (en) 2008-04-22 2012-07-25 Universität Stuttgart Video data processing
US8145648B2 (en) 2008-09-03 2012-03-27 Samsung Electronics Co., Ltd. Semantic metadata creation for videos
US8195038B2 (en) 2008-10-24 2012-06-05 At&T Intellectual Property I, L.P. Brief and high-interest video summary generation
CN101853286B (zh) 2010-05-20 2016-08-10 上海全土豆网络科技有限公司 视频缩略图智能选取方法
US8619150B2 (en) 2010-05-25 2013-12-31 Intellectual Ventures Fund 83 Llc Ranking key video frames using camera fixation
US8599316B2 (en) 2010-05-25 2013-12-03 Intellectual Ventures Fund 83 Llc Method for determining key video frames
US8665345B2 (en) 2011-05-18 2014-03-04 Intellectual Ventures Fund 83 Llc Video summary including a feature of interest
US8649558B2 (en) * 2011-05-31 2014-02-11 Wisconsin Alumni Research Foundation Video processing with region-based warping
CN102263907B (zh) 2011-08-04 2013-09-18 央视国际网络有限公司 比赛视频的播放控制方法及其片段信息的生成方法和装置
WO2013030634A1 (en) 2011-08-31 2013-03-07 Rocks International Group Pte Ltd Virtual advertising platform
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US10362977B2 (en) * 2013-10-01 2019-07-30 Sway Operations, Llc System and method for measuring reaction time of a subject

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519053A (ja) * 2003-06-30 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法
JP2005318548A (ja) * 2004-03-30 2005-11-10 Masahiko Yanaida 撮像システム、画像データ列作成装置、画像生成装置、画像データ列生成装置、画像データ列生成システム、及び画像伝送システム
US20070169613A1 (en) * 2006-01-26 2007-07-26 Samsung Electronics Co., Ltd. Similar music search method and apparatus using music content summary
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
US20090115864A1 (en) * 2007-11-02 2009-05-07 Sony Corporation Imaging apparatus, method for controlling the same, and program
US20100070523A1 (en) * 2008-07-11 2010-03-18 Lior Delgo Apparatus and software system for and method of performing a visual-relevance-rank subsequent search
JP2010062621A (ja) * 2008-09-01 2010-03-18 Sony Corp コンテンツデータ処理装置、コンテンツデータ処理方法、プログラムおよび記録再生装置
JP2010103878A (ja) * 2008-10-27 2010-05-06 Sony Corp 画像処理装置、画像処理方法およびプログラム
JP2010109592A (ja) * 2008-10-29 2010-05-13 Canon Inc 情報処理装置およびその制御方法
JP2011040860A (ja) * 2009-08-07 2011-02-24 Nikon Corp 画像処理装置及び画像処理プログラム
US20110150275A1 (en) * 2009-12-23 2011-06-23 Xiaofeng Tong Model-based play field registration
US20130179112A1 (en) * 2012-01-09 2013-07-11 Honeywell International Inc. Robust method for signal segmentation for motion classification in personal navigation
WO2013186958A1 (ja) * 2012-06-13 2013-12-19 日本電気株式会社 映像重要度算出方法、映像処理装置およびその制御方法と制御プログラムを格納した記憶媒体
US20140023348A1 (en) * 2012-07-17 2014-01-23 HighlightCam, Inc. Method And System For Content Relevance Score Determination

Also Published As

Publication number Publication date
CA2948529A1 (en) 2015-12-17
RU2016148407A3 (ja) 2019-01-22
BR112016028586A2 (pt) 2017-08-22
KR20170018042A (ko) 2017-02-15
BR112016028586B1 (pt) 2022-12-20
BR112016028586A8 (pt) 2021-06-08
CN106462744A (zh) 2017-02-22
EP3155557A1 (en) 2017-04-19
KR102354692B1 (ko) 2022-01-21
AU2015274708A1 (en) 2016-11-17
RU2016148407A (ru) 2018-06-09
US10664687B2 (en) 2020-05-26
US20150363635A1 (en) 2015-12-17
AU2015274708B2 (en) 2020-03-26
RU2693906C2 (ru) 2019-07-05
MX2016016293A (es) 2017-03-31
JP6694829B2 (ja) 2020-05-20
CN106462744B (zh) 2019-12-03
WO2015191650A1 (en) 2015-12-17

Similar Documents

Publication Publication Date Title
JP6694829B2 (ja) ルールに基づくビデオ重要度解析
US10157318B2 (en) Systems and methods for automatic key frame extraction and storyboard interface generation for video
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN106663196B (zh) 用于识别主体的方法、系统和计算机可读存储介质
JP2022528294A (ja) 深度を利用した映像背景減算法
WO2020056903A1 (zh) 用于生成信息的方法和装置
KR20200057099A (ko) 얼굴 생체 내 검출 방법 및 장치
US10546208B2 (en) Method, system and apparatus for selecting a video frame
US10068616B2 (en) Thumbnail generation for video
KR20130025944A (ko) 템플릿 스위칭 및 특징 적응을 이용한 오브젝트 추적을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
WO2014074959A1 (en) Real-time face detection using pixel pairs
US10062410B2 (en) Automated seamless video loop
US11647294B2 (en) Panoramic video data process
CN111915713A (zh) 一种三维动态场景的创建方法、计算机设备、存储介质
Gomez-Nieto et al. Quality aware features for performance prediction and time reduction in video object tracking
US11087121B2 (en) High accuracy and volume facial recognition on mobile platforms
JP4449483B2 (ja) 画像解析装置、および画像解析方法、並びにコンピュータ・プログラム
Tiwari et al. Development of Algorithm for Object Detection & Tracking Using RGB Model
JP2020042646A (ja) 動作抽出装置、動作抽出方法、及びプログラム
US20230148112A1 (en) Sports Neural Network Codec
CN110210306B (zh) 一种人脸跟踪方法和相机
Souza et al. Generating an Album with the Best Media Using Computer Vision
KR20240059328A (ko) 주요 객체 정보를 활용한 영상 구도 분석 및 개선을 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180516

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200420

R150 Certificate of patent or registration of utility model

Ref document number: 6694829

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250