JP2009521877A - ビデオ・フレームからキー・フレームを選択すること - Google Patents

ビデオ・フレームからキー・フレームを選択すること Download PDF

Info

Publication number
JP2009521877A
JP2009521877A JP2008547695A JP2008547695A JP2009521877A JP 2009521877 A JP2009521877 A JP 2009521877A JP 2008547695 A JP2008547695 A JP 2008547695A JP 2008547695 A JP2008547695 A JP 2008547695A JP 2009521877 A JP2009521877 A JP 2009521877A
Authority
JP
Japan
Prior art keywords
information
video
value
video frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008547695A
Other languages
English (en)
Other versions
JP4885982B2 (ja
Inventor
ワン、ハオホン
マラヤス、ナレンドラナス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2009521877A publication Critical patent/JP2009521877A/ja
Application granted granted Critical
Publication of JP4885982B2 publication Critical patent/JP4885982B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/93Regeneration of the television signal or of selected parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示は、ビデオ・フレームのシーケンスからキー・フレームを識別することを記述する。未圧縮データにおける操作によって生成された第1の情報のセットがアクセスされる。データの圧縮により生成された第2の情報のセットもアクセスされる。第1および第2の情報のセットは、ビデオ・フレームからキー・フレームを識別するために使用される。

Description

本発明の実施形態は、ビデオ・データの処理に関する。
ユニバーサル・メディア・アクセス(UMA)は、マルチメディア(例えば、ビデオおよびオーディオ)アプリケーションおよびマルチメディア・デバイスの次世代において重要であると予想される。UMAの基本概念は、ユーザがデバイスと相互作用した後に、ユーザ・デバイスを用いるために自動的に選択および/または適応されるコンテンツを用いて、マルチメディア・コンテンツへ普遍的またはシームレスにアクセスすることである。
モバイル電話は、例えば、マルチメディア・コンテンツを検索し、閲覧し、送信するために使用することができる。しかしながら、モバイル電話の機能が増加の一途をたどる一方、そのようなデバイスはまだ多少、パーソナル・コンピュータのようなより強力なプラットフォームに比べて制限されている。データ伝送および検索レートもまた重要でありうる。ビデオ・データの量は、通常、オーディオ・データの量よりも考慮すべきことが多い。
ビデオ・サマライズ技術は、ビデオ・フレームのシーケンスをサマライズする、静止画像ストーリーボードを生成するために使用することができる。ストーリーボードは、より多くのフレームからなる内在ビデオ・フレームから抽出されるキー・フレームとも称される、比較的少数の代表フレームからなる。ビデオ・サマライズ技術は、UMAにとって重要である。なぜなら、より簡単な検索および伝送のために、ビデオ・コンテンツをサマライズするために使用することができるからである。すなわち、キー・フレームは、ビデオ・シーケンス全体と比べて非常に少量のデータしか示さないので、キー・フレームは、例えば、モバイル電話のように限定された機能のデバイス間でより容易に共有され、配信される。
使用されている様々な異なるビデオ・サマライズ技術が存在する。しかしながら、これら従来技術の各々は、1または複数の方式において問題がある。一般に、従来技術に関する1つの問題は、それらが複雑であり、大量のビデオ・データを処理するために、顕著な量の計算リソースを消費することである。複雑さを制限する試みは、しばしば、キー・フレームのより良い選択となる情報が考慮されていないことを意味する。
従って、計算上のリソースを浪費せずに、キー・フレーム選択を改善する方法および/またはシステムが有利であろう。本明細書で記述された実施形態は、これらおよびその他の長所を提供する。
発明の概要
ビデオ・フレームのシーケンスからキー・フレームを識別する方法およびシステムが記述される。1つの実施形態では、未圧縮データに関して操作することによって生成された第1の情報のセットがアクセスされる。データを圧縮することによって生成される第2の情報のセットもまたアクセスされる。第1および第2の情報のセットは、ビデオ・フレームからキー・フレームを識別するために使用される。
一般に、第1および第2の情報のセットは、ローカルな類似性(「サマリ表示」)、コンテンツ変化カバレッジ、および視覚品質の尺度を与える。これらは、結合されて、どのビデオ・フレームがキー・フレームとして使用可能であるかを識別するために解かれる斬新な費用関数を構築する。例えば、この費用関数の値を最小にするフレームのサブセットが、キー・フレームとして使用される。キー・フレームを識別するこの処理は、オンライン(リアルタイムを含む)またはオフラインの何れかで実行される。
1つの実施形態では、上述した第1の情報のセットは、例えば自動ホワイト・バランシング、自動露光制御、および自動焦点制御のようなビデオ・キャプチャ・デバイスによって実行される操作を用いて生成される。1つのそのような実施形態では、第1の情報のセットの種類は、輝度情報、クロミナンス情報、および焦点値を含む。別の実施形態では、上述した第2の情報のセットにおける情報の種類は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報を含む。第1および第2の情報のセットに加えて、ビデオ・キャプチャ・デバイスとのユーザの相互作用に関連付けられた情報もまた考慮される。
生(未圧縮)のビデオ・データ上に関して実行される操作から生成される情報、および、ビデオ・データの圧縮中に生成される情報を利用することによって、実現は、現実的であり、かつ複雑さが比較的少ない。これら特徴およびその他の特徴、局面、および利点は、様々な図面において例示された以下の詳細記載を読んだ後により良く理解されるであろう。
詳細な説明
次の詳細説明では、本発明の実施形態の完全な理解を提供するために、多くの具体的な詳細が述べられる。しかしながら、当業者であれば、これら実施形態は、これら具体的詳細がなくても、またはそれらの均等物を用いても実現されうることを理解するであろう。その他の事例では、これら実施形態の局面を不必要に不明瞭にしないために、周知の方法、手順および構成要素は、詳細には記載されていない。
当業者であれば、本明細書に開示された実施形態に関連して説明された様々な例示的論理ブロック、モジュール、回路、およびアルゴリズム・ステップは、電子的なハードウェア、コンピュータ・ソフトウェア、またはこれらの組み合わせとして実現されうることを理解するだろう。ハードウェアとソフトウェアとの相互置換性を明確に説明するために、様々な例示的な部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとして又はソフトウェアとして実現されるかは、特定のアプリケーション及びシステム全体に課せられている設計制約に依存する。当業者であれば、各特定のアプリケーションに応じて変化する方法で上述した機能を実現することができる。しかしながら、この適用判断は、本発明の範囲からの逸脱をもたらすものと解釈されるべきではない。
本明細書で開示された実施形態に関連して記述された様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)あるいはその他のプログラマブル論理デバイス、ディスクリート・ゲートあるいはトランジスタ・ロジック、ディスクリート・ハードウェア部品、又は上述された機能を実現するために設計された上記何れかの組み合わせを用いて実現又は実施されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、例えばDSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアに接続された1または複数のマイクロプロセッサ、またはその他任意のこのような構成である計算デバイスの組み合わせとして実現することも可能である。
本明細書で開示された実施形態に関連して記述された方法やアルゴリズムのステップは、ハードウェアによって直接的に、プロセッサによって実行されるソフトウェア・モジュールによって、または、これらの組み合わせによって具体化される。ソフトウェア・モジュールは、RAM(揮発性)メモリ、フラッシュ・メモリ、ROMメモリ(不揮発性)、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、リムーバブル・ディスク、CD−ROM、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。典型的な記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。または、記憶媒体はプロセッサに統合されることができる。このプロセッサと記憶媒体とは、ASIC内に存在することができる。ASICは、ユーザ端末内に存在することもできる。あるいはこのプロセッサと記憶媒体とは、ユーザ端末内のディスクリート部品として存在することができる。
本明細書で提供される記載および例は、ビデオ・ベースのデータ(ビデオ・データ、メディア・データ、またはマルチメディア・データあるいはコンテンツとも称される)に関して説明される。しかしながら、限定される訳ではないが、画像ベースのデータ、ウェブ・ページ・ベースのデータ、グラフィック・ベースのデータのようなその他の種類のデータもまた使用されうる。
図1は、ビデオ・データを処理するためのデバイス10の1つの実施形態のブロック図である。デバイス10は、ビデオ・サマライズ・システムの様々な実施形態を実施するための実行プラットフォームの構成要素を含んでいる。図1に示すように、デバイス10は、ホスト・インタフェース11を経由してデジタル信号プロセッサDSP15に結合されたマイクロプロセッサ12(例えば、新型縮小命令セット・コンピュータ・マシン・プロセッサ、すなわちARMプロセッサのような)を含む。ホスト・インタフェース11は、マイクロプロセッサ12とDSP15との間を通るデータおよびコマンドをそれぞれのフォーマットへ変換する。本実施形態では、マイクロプロセッサ12とDSP15との両方が、メモリ・コントローラ16を経由してメモリ17に接続されている。図1の例では、メモリ17は共有メモリである。これによって、メモリ17は、マイクロプロセッサ12とDSP15との両方のための命令およびデータを格納する。そのような実施形態では、共有メモリ17へのアクセスは、メモリ・コントローラ16を経由する。1つの実施形態では、共有メモリ17はまた、接続されたディスプレイ18を駆動するピクセル・データを格納するビデオ・フレーム・バッファを含む。
上述したように、1つの実施形態では、ビデオ・サマライズ・システムのある処理およびステップが、コンピュータ・システム(例えば、デバイス10)のコンピュータ読取可能メモリ(例えば、メモリ17)内に存在する一連の命令群(例えば、ソフトウェア・プログラム)として実現され、デバイス10のマイクロプロセッサ12およびDSP15によって実行される。実行された時、これら命令群は、デバイス10に対して、以下の実施形態の機能を実行させる。他の実施形態では、ある処理およびステップが、ハードウェア内で実現される。
図2は、図1のデバイス10を用いて実現されるビデオ・サマライズ・システム20の1つの実施形態の機能ブロック図である。生の(未圧縮の)画像データのビデオ・シーケンスが、デバイス10の構成要素を組み込んでいるビデオ・キャプチャ・デバイス(例えば、デジタル・ビデオ・カメラ、デジタル・カメラ等)によってキャプチャされる。生の画像データは、データ・フレームのシーケンスを含む。各フレームは、本質的に静止画像を表し、フレームのシーケンスは、プレイ・バック(表示)されたときに動画となる画像の連続したセットを表す。生の画像データは、システム20によって更に処理される前に格納されうる。データが格納された場合、処理は、その後オフラインでなされる。処理はまた、オンラインまたはリアルタイムでもなされる。
図2に関して示すように、本実施形態では、生の画像データのシーケンスが、ビデオ・フロント・エンド(VFE)21へ入る。VFE21は、このデータを解析し、ある種類の情報(本明細書では、第1の情報のセットまたは第1の情報とも称される)を計算し、記憶装置23の中に、この第1の情報のセットを格納する。VFE21の機能、および、第1の情報のセットに含まれうる情報の種類は、図3とともに以下に完全に記述される。
図2のVFE21は、処理されたものの未だに解凍されていないビデオ・データをエンコーダ22へ転送する。エンコーダ22は、このビデオ・データを圧縮(符合化)する。このビデオ・データは、限定される訳ではないが、例えば、MPEG−1、MPEG−2、およびMPEG−4のようなMoving Pictures Experts Group(MPEG)圧縮(符合化)スキームや、例えばH.261、H.263、およびH.264のような国際電気通信連合(ITU)符合化スキームを用いて圧縮されうる。一般に、時間的冗長または動作補償、更に詳しくは、圧縮量(圧縮比)を増加するために、動作ベクトルを用いる符合化スキームを利用する符合化スキームが使用されうる。
エンコーダ22によって符合化された圧縮ビットストリームは、記憶装置25内に格納される。個別のユニットによって例示されているが、記憶装置23,25は、同じメモリ・ユニットの一部でありうる。1つの実施形態では、圧縮ビットストリームは、それぞれフレーム・インデクスによって識別されるIフレーム、Pフレーム、およびBフレームとして周知のビデオ・フレームの圧縮シーケンスを表す。
ある種類の情報(本明細書では、第2の情報のセットまたは第2の情報とも称される)が、圧縮処理の一部としてエンコーダ22によって生成される。1つの実施形態では、第2の情報のセットは、VFE21によって計算された第1の情報のセットとともに、記憶装置23に格納される。1つの実施形態では、第2の情報のセットは、限定される訳ではないが、例えば、歪み尺度情報、マクロブロック予測モード、および前述した動作ベクトル情報のような情報を含む。様々な歪み尺度を用いることができ、当該技術で周知の1つの歪み尺度は、「絶対差合計」(SAD)である。マクロブロック予測モードは、「インター」または「イントラ」でありうる。インター・マクロブロックは、別のマクロブロックのコンテンツに依存し、動作情報を用いて別のマクロブロックから導出することができる。イントラ・マクロブロックは、別のマクロブロックのコンテンツとは独立しており、何れの動作情報をも含んでいない。第1および第2の情報のセットは、集合的にサイド情報またはヒント情報と称されうる。
概説すると、1つの実施形態では、費用関数を構築するために、サマライザ24が、記憶装置23からのサイド情報を用いる。費用関数は、記憶装置25内に格納されたビデオ・フレームのシーケンスからキー・フレームを選択するために評価される。例えば、費用関数の値を最小化するフレームのサブセットが、キー・フレームとして識別される。費用関数の構成および評価は、下記に図4と連携してより詳細に記載される。
1つの実施形態では、図2に再び示すように、サマライザ24が、キー・フレームとして選択されるフレームのインデクスを識別する。このインデクスは、後に、記憶装置25からキー・フレームを検索するために使用することができる。しかしながら、別の実施形態では、キー・フレームであると選択されたビデオ・フレームが複写され、格納されうる。すなわち、キー・フレームと、キー・フレームが選択されたビデオ・フレーム全体との両方が、冗長的に格納される。
1つの実施形態では、サマライザ24は更に、キー・フレームを選択する処理において、ユーザ入力を考慮する。ユーザ入力は、ユーザによって直接入力されるか、または、ユーザの動作から推論されうる。直接的なユーザ入力は、例えば、サマライザ24によって使用される圧縮比(例えば、ビデオ・シーケンス内のフレーム数に対する、キー・フレームの数の比)のように、システム20によって使用されるあるパラメータのためにユーザによって指定された値を含む。他の種類の直接的なユーザ入力は、図4の議論で言及される。推論されたユーザ入力は、ビデオ・キャプチャ・デバイスとのユーザのインタラクションから導出される入力である。例えば、ある期間、サブジェクトに関するユーザの「ズーム・イン」動作は、このサブジェクトが、ユーザが特に興味を持っていることを示すことができる。その期間中、または、シーケンスの最初のフレームにおいてキャプチャされたフレームのシーケンスは、幾つかの方法で識別され(例えば、タグされ)、その後、この情報は、本明細書に記載のキー・フレーム選択処理に分解される。
システム20(特に、サマライザ24)は、オフライン・モード、オンライン・モード、またはリアルタイム・モードで動作しうる。1つの実施形態では、システム20の動作モードは、ユーザによって選択される。
オフライン・モードでは、サマライザ24が、ビデオ・フレームのシーケンス全体について、サイド情報を考慮することができる。オンライン・モードまたはリアルタイム・モードにおいて、サマライザ24は、一度に、ビデオ・フレームのシーケンスの一部のみのために、サイド情報を考慮することができる。すなわち、例えば、オンライン・モードまたはリアルタイム・モードでは、サマライザ24はまず、ビデオ・フレームのシーケンスの一部のみを考慮し、その部分のキー・フレームを選択し、次に、その部分をフラッシュする。次に、サマライザ24は、シーケンスの次の部分を考慮し、それをフラッシュする前に、この部分のキー・フレームを選択する。オフライン処理は、ビデオ・フレームの全シーケンスをよく代表しているキー・フレームを識別することができる。オンライン処理あるいはリアルタイム処理は、オフライン処理よりも少ない記憶装置しか利用しない。
キー・フレームが識別された場合、1つの実施形態では、キー・フレームを識別するフレーム・インデクスが、デコーダ26へ転送される。デコーダ26は、メモリ25から適切なフレームを検索し、それらを解凍する。解凍されたキー・フレームはその後、表示および/または編集のためにマルチメディア・ディスプレイ・プロセッサ(MDP)28に送られる。別の実施形態では、キー・フレームを識別するフレーム・インデクスがトランスコーダ27へ転送される。トランスコーダ27は、メモリ25から適切なフレームを検索し、それらをトランスコードする。トランスコード動作の例は、ビットレート低減、レート波形整形、空間ダウンサンプリング、およびフレーム・レート低減を含む。一般に、トランスコーダ27は、入力として、圧縮ビデオ・ビットストリームを用い、それを処理して、出力として、別の圧縮ビデオ・ビットストリームを生成する。トランスコードされたビットストリームはその後、(例えば、他のモバイル・デバイスのような別のデバイス)へ送信されるために、マルチメディア・メッセージング・サービス(MMS)へ送られる。MMSは、表示および/または編集のためにこのビットストリームを復号する。
図3は、ビデオ・サマライズ・システム(例えば、図2のシステム20)におけるVFE21の1つの実施形態におけるデータの流れを示すブロック図である。上述したように、VFE21は、生の、すなわち未圧縮の画像データの処理中に、第1の情報のセットを生成する。この実施形態では、第1の情報のセットは、VFE21によって実行される自動ホワイト・バランシング動作31、自動露光制御動作32、および自動焦点制御動作33によって生成される。
1つの実施形態では、シーン照明の色による白色値における色変化を補償するために必要な赤チャネル、緑チャネル、および青チャネルにおけるゲインを決定するために、自動ホワイト・バランシング動作31が使用される。1つのそのような実施形態では、自動ホワイト・バランシング動作31は、ピクセル・カラー・メータリング、照明推定、およびホワイト・バランシングを含む。自動ホワイト・バランシング動作31から、各ビデオ・フレームについて(例えば、CbおよびCr、あるいは‘U’および‘V’とも称される)クロミナンス値が決定される。1つの実施形態では、各フレームのクロミナンス値は、128ポイント・ヒストグラム(‘U’に対する64ポイントと、‘V’に対する64ポイント)として表される。
1つの実施形態では、自動露光制御動作32は、光メータリング、シーン分析、および露光補償を含む。1つのそのような実施形態では、入力された画像は256領域に分割される。これら領域の各々はさらに、4つのサブ領域に細分割される。256領域の各々について、領域内のピクセルの輝度値の合計、領域内の最小ローカル合計輝度値、領域内の最大ローカル合計輝度値、および、領域内の最大絶対差分ローカル合計輝度値、が生成される。この情報を使用して、各サブ領域内のピクセルの輝度値の合計が決定される。最終的に、輝度値(Y)の64ポイント・ヒストグラムが、各フレーム毎に決定される。更に、ダウンサンプルされた8×8の輝度画像(L)も、各フレーム毎に生成される。
1つの実施形態では、自動焦点制御動作33は、以下に示す2つのサブ処理を含んでいる。1)与えられたレンズ位置のための焦点値(F)を決定する処理。2)一連の焦点値に基づいて焦点位置を決定する処理。1つの実施形態では、焦点値‘F’は、式(1)を使用して、輝度値‘Y’から決定される。
Figure 2009521877
ここで、j=J*2、J*2+2、J*2+4、・・・2*X−2、およびi=I*2、I*2+2、I*2+4、2*Z−2であり、‘I’は、2によってサブサンプルされた領域における焦点ウィンドウの開始行であり、‘J’は、2によってサブサンプルされた領域における焦点ウィンドウの開始列であり、‘Z’は、2によってサブサンプルされた領域における焦点ウィンドウの最終行であり、‘X’は、2によってサブサンプルされた領域における焦点ウィンドウの最終列(X−J≦508)であり、X−Jは偶数である。‘F’の値が大きくなることは、ぼやけた画像である可能性が低くなることが期待される。
図4は、ビデオ・サマライズ・システム(例えば、図2のシステム20)におけるビデオ・サマライザ24の1つの実施形態におけるデータのフローを示すブロック図である。以下の説明では、‘N’は、考慮中のビデオ・フレームのシーケンスにおける合計フレーム数を示し、‘M’は、ビデオ・サマリの長さを示す(すなわち‘M’はキー・フレームの数である)。一般に、ビデオ・サマライザ24は、‘M’個の選択されたフレームa(i=1,2,・・・,M、およびa=0)のインデクスを識別し、ローカル表示または類似性、コンテンツ変化、および視覚品質を考慮する。
本明細書で使用されるように、満足できるローカル表示または類似性を与えるフレームは、ビデオ・サマリにおいてそれらを表示するために、その近隣フレームと十分に類似したフレームである。すなわち、与えられたビデオ・フレームのシーケンスの場合、キー・フレームのみを見ているユーザが、どのサブジェクトがシーケンスによってキャプチャされたかを思いつくことができるように、そのシーケンスを表すキー・フレームが、そのシーケンス内の他のフレームと十分類似していることが望ましい。図4の例では、近隣フレームのグループの類似性を評価するために、色類似性が用いられる。1つの実施形態では、図3にも示すように、自動露光処理32およびホワイト・バランシング処理31から得られる‘Y’色ヒストグラムおよび‘UV’色ヒストグラムが、単一の192ポイント・ヒストグラム‘H’として示される。これは、式(2)および式(3)を用いて、各フレーム‘i’(i=1,2,・・・,M)のローカル表示(A)を定めるために使用される。
Figure 2009521877
ここで、“Sim”は、以下のように式(4)で定義される2つの1次元ベクトルを比較するために用いられる関数である。
Figure 2009521877
コンテンツ変化は、2つの連続したフレーム間の類似性(更に詳しくは、相違点)を考慮することによって取り組まれる。図4の例では、図3にも示すように、自動露光制御処理32およびホワイト・バランシング処理31から得られるYUV(YCbCr)情報と、自動露光制御処理32からダウンサンプルされた8×8輝度画像とが、式(5)および式(6)を用いた2つのフレームの類似性(B)を定めるために使用される。
Figure 2009521877
ここで‘γ’は、0と1との間の調節値を持つ重み付け係数である。この重み付け係数‘γ’は、プリセット値あるいはユーザ指定された入力でありえる。式(5)および式(6)では、オブジェクトが静止している状況であるか、または、比較的安定した背景を検出するために、輝度における類似性が考慮される。
本明細書で使用されるように、満足できる視覚品質を与えるフレームは、ぼやけが少なく、近隣フレームに対する動きの少ないオブジェクトおよび/またはバックグランドを含むフレームである。図4の例では、図2および図3でも示すように、以下に示すように、自動焦点制御処理33からそのフレームのために決定された焦点値‘F’と、エンコーダ22によって決定された第2の情報のセットとの両方を用いて、フレームの視覚品質(C)が定められる。
Figure 2009521877
ここで、‖MV‖は、フレームのマクロブロック動作ベクトルの合計長さであり、‘S’は、フレーム内の合計マクロブロックSADであり、FMAXは、仮指定された焦点値の上限であり、‘η’は、0と1との間の値を持つ調節可能な重み付け係数である。重み付け係数‘η’は、プリセット値またはユーザ指定された入力でありうる。
1つの実施形態では、キー・フレームは、
Figure 2009521877

Figure 2009521877
とが大きく、
Figure 2009521877
が小さいフレームを識別し、これら項を以下のように結合することによって選択される。
Figure 2009521877
ここで‘α’と‘β’とは、0と1との間の値を持つ調節可能な重み付け係数である。重み付け係数‘α’および‘β’は、プリセット値またはユーザ指定された入力でありうる。
式(9)は、どの組み合わせが‘T’を最小化するかを決定するために、‘M’個のキー・フレームの考えられうるあらゆる組み合わせを考慮することによる網羅的手法で解くことができる。すなわち、1つの実施形態では、‘T’を最小化する‘M’個のフレームの組み合わせが、キー・フレームとして選択されるフレームのセットである。
式(9)を網羅的に解くのではなく、式(10)を用いて、式(9)に基づく費用関数‘G’を定義することができる。
Figure 2009521877
これは、フレームaまでの最小合計を示す。式(10)から、以下が得られる。
Figure 2009521877
費用関数
Figure 2009521877
が与えられると、次のフレームaの選択は、前のフレームa,a,・・・,ak−2の選択とは独立している。費用関数は次のように再帰的に表現することができるので、これは明らかに本当である。
Figure 2009521877
この費用関数の再帰的表現は、過去のステップとは独立した解法処理である将来のステップをなす。これは、動的プログラミングの基本である。式(13)は、その問題を、有向非巡回グラフ(DAG)における最短パスを発見するグラフ理論問題へ変換することによって解くことができる。
図5は、例えば図2のシステム20のようなビデオ・サマライズ・システムによって使用されうるDAG50の例である。図5の例では、‘M’は3であり、‘N’は5である。DAGを用いてグラフ理論問題を解く場合の計算上の複雑さは、O(NM)である。
図6は、ビデオ・サマライズ方法の1つの実施形態のフローチャート60である。1つの実施形態では、フローチャート60によって記述された方法は、図2および図4のビデオ・サマライザ24によって行なわれる。フローチャート60によって記述された方法の局面は、例えば、シーケンス内のビデオ・フレームの数‘N’が、メモリ容量を超える場合、あるいは、計算上の複雑さが、割り当てられたまたは許可された電力および処理時間を超える場合において使用することができる。一般に、フローチャート60の方法の目的は、ビデオ・シーケンスを多くの「ショット」に分割し、その後、各ショット内でキー・フレームを発見することである。実際には、‘M’個のキー・フレームが、‘N’個のビデオ・フレームのシーケンスから選択される場合、フローチャート60の方法は、各ショットにどれだけのフレームが含まれるべきか、および、様々なショットの各々にどれだけのキー・フレームが割り当てられるべきかを識別するために使用される。1ショット当たりのフレームの数は、必ずしも同じである必要はない。更に、1ショット当たりのキー・フレームの数は、同じである必要はない。
図6のブロック61では、ショット境界が識別される。すなわち、例えば、第1のショットに含まれるべきフレームが識別される。1つの実施形態では、2つの連続したフレーム間のローカルな類似性‘A’を決定するために、式(2)および式(3)において色ヒストグラム‘H’が使用される。そのような実施形態では、しきい値が定義され適用される。そして、2つのフレーム間の類似性‘A’が、しきい値を満足しない場合に、2つの連続したフレーム間のショット境界が識別され、シーン変化が起こりうることが示される。
ショット境界の数が、サマリの定められた長さを超える場合、すなわち、ショット境界の数が‘M’より大きい場合、最小のローカル類似性を持つショット境界が選択され、そのショット境界に対応するフレームが、キー・フレームとして選択される。そうでない場合には、1ショット当たりのキー・フレームの数が決定され、フローチャート60はブロック62に移る。
ブロック62では、移動動作に基づくショット圧縮比が、式(14)を用いて計算される。
Figure 2009521877
ここで、‘P’はショットの総数、‘n’は、各ショットの長さ(ショット‘i’におけるフレームの数)、Mは、ショット‘i’におけるキー・フレームの数、‘S’は、フレーム内の合計マクロブロックSADである。式(14)を用いることによって、ビデオ・シーケンスがより多くの移動および動作を含むショットには、より多くのキー・フレームが割り当てられ、移動および動作がより少ないショットには、より少ないキー・フレームしか割り当てられない。
ブロック63では、ショットについて、1または複数のキー・フレームが選択される。1つの実施形態では、図4と共に上述された技術を用いて、キー・フレームが選択される。
図6のブロック64では、考慮される追加ショットが存在するか否かが判定される。存在するのであれば、フローチャート60はブロック63に戻り、存在しないのであれば、フローチャート60はブロック65に移る。
ブロック65では、更に図2にも示すように、既に述べたようにして、1ショット当たりのキー・フレームを識別した結果が、サマライザ24からデコーダ26またはトランスコーダ27へと出力される。
図7は、キー・フレームを識別する方法の実施形態のフローチャート70である。ブロック71では、未圧縮の画像データに関する操作から生成された第1の情報のセットがアクセスされる。1つの実施形態では、図2および図3にも示すように、VFE21によって操作が実行され、第1の情報のセットが記憶装置23からアクセスされる。1つの実施形態では、この操作は、自動ホワイト・バランシング31、自動露光制御32、および自動焦点制御33を含む。1つの実施形態では、第1の情報のセットは、輝度情報(Y)、クロミナンス情報(U,V)、および焦点値(F)を含む。
図7のブロック72では、画像データを圧縮することによって生成された第2の情報のセットがアクセスされる。1つの実施形態では、図2をも用いて示すように、エンコーダ22によって画像データが圧縮され、記憶装置23から第2の情報のセットがアクセスされる。1つの実施形態では、この第2の情報のセットは、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報を含んでいる。
図7のブロック73では、1または複数のキー・フレームを識別するために、第1の情報のセット、および第2の情報のセットが結合される。1つの実施形態では、図4にも示すように、サマライザ24によってキー・フレームが選択される。1つのそのような実施形態では、サマライザ24が、各ビデオ・フレームについて、第1の値と、第2の値と、第3の値とを結合することによって、費用関数を構築する。ここで、第1の値は、ビデオ・フレームと、その他のビデオ・フレームとの間の類似性の尺度(A)に相当し、第2の値は、ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度(B)に相当し、第3の値は、ビデオ・フレームの視覚品質の尺度(C)に相当する。そのような実施形態では、サマライザ24が、費用関数を評価して、ビデオ・フレームのサブセットのスコアを判定する。異なるサブセットを評価することが可能であり、1つの実施形態では、費用関数が最小化されるビデオ・フレームのサブセットが、キー・フレームとして使用される。
1つの実施形態では、図6と共に記述したように、ビデオ・フレームは、隣接するビデオ・フレームの複数のセグメント、すなわちショットへ分離される。1つのそのような実施形態では、ショットの各々に、多くのキー・フレームが割り当てられる。1つの実施形態では、動作ベクトル情報および歪み情報を用いてキー・フレームが割り当てられる。
図6および図7のフローチャート60および70では、具体的なステップが示されているが、そのようなステップは一般的なものである。すなわち、フローチャート60および70で記載されたステップの変形例、およびその他様々なステップが実行されうる。フローチャート60および70の各ステップは、示されたものとは異なる順序で実行することができ、また、フローチャート60および70の各ステップは、図示されたシーケンスで実行される必要は必ずしもないことが認識される。
要約すると、キー・フレームを選択するため、例えばエンコーダやビデオ・フロント・エンドによって生成されたヒント情報を用いる斬新なビデオ・サマライズ技術が記述された。一般的なフレームワークでは、サマリ表示、コンテンツ変化カバレッジ、およびキー・フレーム視覚品質(例えば、焦点)が考慮される。例えば、特定の特徴空間、カバーする色、動作、視覚品質、および恐らくはユーザ入力をも含むものが、斬新な費用関数内で結合され、キー・フレームの選択を導く。1つの実施形態では、この費用関数は、グラフ理論問題へマップされ、動的プログラミングを用いて解かれる。
例えば、ビデオ・フロント・エンドとエンコーダとの出力を利用することによって、本技法は、複雑さが比較的低くなる。なぜなら、オリジナルのビデオ・シーケンスの大量のデータにアクセスしたり、処理する必要がないからである。そのため、本技法は、オフライン処理のみならず、リアルタイム処理またはオンライン処理にも適している。更に、メモリ・リソースが効率的に利用され管理される。
開示された実施形態の前の記載は、当業者が本発明を製造または使用することを可能にするために提供される。当業者には、これら実施形態に対する様々な変形が容易に明らかになるであろう。そして、本明細書で定義された一般原理は、本発明の精神または範囲から逸脱することなくその他の実施形態にも適用されうる。従って、本発明は、本明細書で示された実施形態に限定されるとは意図されておらず、本明細書で示された原理および斬新な特徴と一致する最も広いスコープが与えられることになっている。
図1は、ビデオ・データを処理するためのデバイスの1つの実施形態のブロック図である。 図2は、ビデオ・サマライズ・システムの1つの実施形態の機能ブロック図である。 図3は、ビデオ・サマライズ・システムにおけるビデオ・フロント・エンドの1つの実施形態におけるデータのフローを示すブロック図である。 図4は、ビデオ・サマライズ・システムにおけるビデオ・サマライザの1つの実施形態におけるデータのフローを示すブロック図である。 図5は、ビデオ・サマライズ・システムにおいて使用されうる有向非巡回グラフの例である。 図6は、ビデオ・サマライズ方法の1つの実施形態のフローチャートである。 図7は、ビデオ・サマライズ方法の別の実施形態のフローチャートである。

Claims (30)

  1. ビデオ・フレーム内のキー・フレームを識別する方法であって、
    前記ビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第1の情報へアクセスすることと、
    前記画像データを圧縮することで生成される第2の情報へアクセスすることと、
    前記第1の情報および前記第2の情報を用いて、前記ビデオ・フレームから選択されるキー・フレームを識別することと
    を備える方法。
  2. 前記操作することは、ビデオ機能を持つカメラによって実行され、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも1つを含む請求項1に記載の方法。
  3. 前記第1の情報は、輝度情報、クロミナンス情報、および焦点値のうちの1つである請求項1に記載の方法。
  4. 前記第2の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの1つである請求項1に記載の方法。
  5. 前記ビデオ・フレームと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定するために、輝度情報およびクロミナンス情報を用いることを更に備える請求項1に記載の方法。
  6. 連続した2つのビデオ・フレーム間の類似性の尺度に相当する値を決定するために輝度情報を用いることを更に備える請求項1に記載の方法。
  7. ビデオ・フレームの視覚品質の尺度に相当する値を決定するために焦点値および動作ベクトルを用いることを更に備える請求項1に記載の方法。
  8. 請求項1に記載の方法は更に、
    ビデオ・フレームについて、第1の値と、第2の値と、第3の値とを結合することを備え、
    前記第1の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第2の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第3の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、前記ビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記ビデオ・フレームの別のサブセットについて実行され、
    前記方法は更に、前記スコアを用いて、前記サブセットのうちの1つを選択することを備え、
    前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項1に記載の方法。
  9. 前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分けることと、
    多くのキー・フレームを、前記セグメントの各々に割り当てることとを更に備え、
    前記キー・フレームの合計数は、予め定めた最大値を超えない請求項1に記載の方法。
  10. 前記割り当てることは、動作ベクトル情報と歪み情報とのうちの少なくとも1つから選択される情報を用いて実行される請求項9に記載の方法。
  11. コンピュータ利用可能媒体であって、
    複数のビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第1の情報へアクセスし、
    前記画像データを圧縮することで生成される第2の情報へアクセスし、
    前記第1の情報および前記第2の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する
    ことによって、デバイスに対してキー・フレーム選択を実行させるための具体化されたコンピュータ読取可能プログラム命令群を有するコンピュータ利用可能媒体。
  12. 前記ビデオ・フレームと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定するために、輝度情報およびクロミナンス情報を用いる命令群を更に備える請求項11に記載のコンピュータ利用可能媒体。
  13. 連続した2つのビデオ・フレーム間の類似性の尺度に相当する値を決定するために輝度情報を用いる命令群を更に備える請求項11に記載のコンピュータ利用可能媒体。
  14. 焦点値および動作ベクトルを用いて、ビデオ・フレームの視覚品質の尺度に相当する値を決定する命令群を更に備える請求項11に記載のコンピュータ利用可能媒体。
  15. 請求項11に記載のコンピュータ利用可能媒体は更に、ビデオ・フレームについて、第1の値と、第2の値と、第3の値とを結合する命令群を備え、
    前記第1の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第2の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第3の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、複数のビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記複数のビデオ・フレームの別のサブセットについて実行され、
    前記コンピュータ利用可能媒体は更に、前記スコアを用いて、前記サブセットのうちの1つを選択する命令群を備え、
    前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項11に記載のコンピュータ利用可能媒体。
  16. 前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分け、多くのキー・フレームを、前記セグメントの各々に割り当てる命令群を更に備え、
    前記キー・フレームの合計数は、予め定めた最大値を超えない請求項11に記載のコンピュータ利用可能媒体。
  17. 複数のビデオ・フレーム内のキー・フレームを識別するためのデバイスであって、
    前記ビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第1の情報へアクセスする手段と、
    前記画像データを圧縮することで生成される第2の情報へアクセスする手段と、
    前記第1の情報および前記第2の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する手段と
    を備えるデバイス。
  18. 前記操作することは、ビデオ機能を持つカメラによって実行され、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも1つを含む請求項17に記載のデバイス。
  19. 前記第1の情報は、輝度情報、クロミナンス情報、および焦点値のうちの少なくとも1つである請求項17に記載のデバイス。
  20. 前記第2の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの少なくとも1つである請求項17に記載のデバイス。
  21. 複数のビデオ・フレームを備えた未圧縮の画像データについて操作して、第1の情報を生成するビデオ・フロント・エンドと、
    前記ビデオ・フロント・エンドに接続されており、前記画像データを圧縮し、第2の情報を生成するエンコーダと、
    前記ビデオ・フロント・エンドと前記エンコーダとに接続されており、前記第1および第2の情報を格納するメモリと、
    前記メモリに接続されており、前記複数のビデオ・フレーム内のキー・フレームを識別する方法を実施する命令群を実行するマイクロプロセッサとを備え、
    前記命令群は、
    前記第1の情報にアクセスする命令と、
    前記第2の情報にアクセスする命令と、
    前記第1の情報および前記第2の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する命令とを含むデバイス。
  22. 前記操作することは、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも1つを含む請求項21に記載のデバイス。
  23. 前記第1の情報は、輝度情報、クロミナンス情報、および焦点値のうちの少なくとも1つである請求項21に記載のデバイス。
  24. 前記第2の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの少なくとも1つである請求項21に記載のデバイス。
  25. 前記マイクロプロセッサは、輝度情報およびクロミナンス情報を用いて、前記ビデオ・フレームのうちの1つと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定する命令群を更に備える請求項21に記載のデバイス。
  26. 前記マイクロプロセッサは、輝度情報を用いて、連続した2つのビデオ・フレーム間の類似性の尺度に相当する値を決定する命令群を更に備える請求項21に記載のデバイス。
  27. 前記マイクロプロセッサは、焦点値および動作ベクトルを用いて、ビデオ・フレームの視覚品質の尺度に相当する値を決定する命令群を更に備える請求項21に記載のデバイス。
  28. 前記マイクロプロセッサは更に、ビデオ・フレームについて、第1の値と、第2の値と、第3の値とを結合する命令群を備え、
    前記第1の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第2の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第3の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、前記複数のビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記複数のビデオ・フレームの別のサブセットについて実行され、
    前記マイクロプロセッサは更に、前記スコアを用いて、前記サブセットのうちの1つを選択する命令群を備え、
    前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項21に記載のデバイス。
  29. 前記マイクロプロセッサは更に、前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分け、多くのキー・フレームを、前記セグメントの各々に割り当てる命令群を備え、
    前記キー・フレームの合計数は、予め定めた最大値を超えない請求項21に記載のデバイス。
  30. 前記割り当てることは、動作ベクトル情報と歪み情報とのうちの少なくとも1つ用いて実行される請求項29に記載のデバイス。
JP2008547695A 2005-12-23 2006-12-14 ビデオ・フレームからキー・フレームを選択すること Expired - Fee Related JP4885982B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/317,934 US8036263B2 (en) 2005-12-23 2005-12-23 Selecting key frames from video frames
US11/317,934 2005-12-23
PCT/US2006/062130 WO2007120337A2 (en) 2005-12-23 2006-12-14 Selecting key frames from video frames

Publications (2)

Publication Number Publication Date
JP2009521877A true JP2009521877A (ja) 2009-06-04
JP4885982B2 JP4885982B2 (ja) 2012-02-29

Family

ID=38193694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008547695A Expired - Fee Related JP4885982B2 (ja) 2005-12-23 2006-12-14 ビデオ・フレームからキー・フレームを選択すること

Country Status (6)

Country Link
US (1) US8036263B2 (ja)
EP (1) EP1964006A2 (ja)
JP (1) JP4885982B2 (ja)
KR (1) KR100987365B1 (ja)
CN (1) CN101346719B (ja)
WO (1) WO2007120337A2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5212610B2 (ja) * 2006-02-08 2013-06-19 日本電気株式会社 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
AU2006230691B2 (en) * 2006-10-19 2010-11-25 Canon Kabushiki Kaisha Video Source Coding with Decoder Side Information
EP2206342A2 (en) * 2007-09-10 2010-07-14 Nxp B.V. Method and apparatus for motion estimation and motion compensation in video image data
US8406569B2 (en) * 2009-01-19 2013-03-26 Sharp Laboratories Of America, Inc. Methods and systems for enhanced dynamic range images and video from multiple exposures
US8774559B2 (en) 2009-01-19 2014-07-08 Sharp Laboratories Of America, Inc. Stereoscopic dynamic range image sequence
WO2012037715A1 (en) * 2010-09-20 2012-03-29 Nokia Corporation Identifying a key frame from a video sequence
CN102572356B (zh) 2012-01-16 2014-09-03 华为技术有限公司 记录会议的方法和会议系统
CN102930513B (zh) * 2012-09-25 2015-09-09 北京航空航天大学 一种视频场景的虚实光照融合方法
KR101475148B1 (ko) * 2013-06-27 2014-12-23 한국과학기술원 둘 이상의 특징을 기반으로 만들어진 다차원 공간에서 스카이라인을 이용한 가변수의 키 프레임 추출 장치 및 방법
WO2015021251A1 (en) * 2013-08-07 2015-02-12 AudioStreamTV Inc. Systems and methods for providing synchronized content
US9449374B2 (en) 2014-03-17 2016-09-20 Qualcomm Incoporated System and method for multi-frame temporal de-noising using image alignment
US9786028B2 (en) 2014-08-05 2017-10-10 International Business Machines Corporation Accelerated frame rate advertising-prioritized video frame alignment
US9373054B2 (en) * 2014-09-02 2016-06-21 Kodak Alaris Inc. Method for selecting frames from video sequences based on incremental improvement
US9875443B2 (en) * 2015-06-18 2018-01-23 TCL Research America Inc. Unified attractiveness prediction framework based on content impact factor
CN105046256B (zh) * 2015-07-22 2018-10-16 福建新大陆自动识别技术有限公司 基于畸变图像校正的qr码解码方法和系统
WO2017049577A1 (en) 2015-09-25 2017-03-30 Qualcomm Incorporated Systems and methods for video processing
US10460196B2 (en) * 2016-08-09 2019-10-29 Adobe Inc. Salient video frame establishment
CN106888407B (zh) * 2017-03-28 2019-04-02 腾讯科技(深圳)有限公司 一种视频摘要生成方法及装置
CN109587581A (zh) * 2017-09-29 2019-04-05 阿里巴巴集团控股有限公司 视频缩略生成方法和视频缩略生成装置
US11893791B2 (en) 2019-03-11 2024-02-06 Microsoft Technology Licensing, Llc Pre-processing image frames based on camera statistics
US11514587B2 (en) 2019-03-13 2022-11-29 Microsoft Technology Licensing, Llc Selectively identifying data based on motion data from a digital video to provide as input to an image processing model
US11082168B1 (en) 2020-03-19 2021-08-03 Western Digital Technologies, Inc. Entropy driven endurance for normalized quality of service
CN112714336B (zh) * 2020-12-01 2022-12-02 万兴科技集团股份有限公司 视频分割方法和装置、电子设备、计算机可读存储介质
CN113923504B (zh) * 2021-12-02 2022-03-08 阿里巴巴达摩院(杭州)科技有限公司 视频预览动图生成方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2003061112A (ja) * 2001-08-20 2003-02-28 Univ Waseda カメラワーク検出装置およびカメラワーク検出方法
JP2005525034A (ja) * 2002-05-07 2005-08-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6549643B1 (en) * 1999-11-30 2003-04-15 Siemens Corporate Research, Inc. System and method for selecting key-frames of video data
JP3539394B2 (ja) * 2001-03-26 2004-07-07 ミノルタ株式会社 画像処理装置、プログラムおよび記録媒体
KR100846770B1 (ko) * 2002-03-05 2008-07-16 삼성전자주식회사 동영상 부호화 방법 및 이에 적합한 장치
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003032583A (ja) * 2001-03-23 2003-01-31 Lg Electronics Inc ニュースビデオブラウジングシステムでアンカーショットの自動検出方法
JP2003061112A (ja) * 2001-08-20 2003-02-28 Univ Waseda カメラワーク検出装置およびカメラワーク検出方法
JP2005525034A (ja) * 2002-05-07 2005-08-18 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. スケーラブルなビデオ要約およびナビゲーションのシステムおよび方法

Also Published As

Publication number Publication date
WO2007120337A2 (en) 2007-10-25
US20070147504A1 (en) 2007-06-28
KR20080085182A (ko) 2008-09-23
CN101346719B (zh) 2016-04-20
JP4885982B2 (ja) 2012-02-29
WO2007120337A3 (en) 2008-02-28
CN101346719A (zh) 2009-01-14
KR100987365B1 (ko) 2010-10-12
EP1964006A2 (en) 2008-09-03
US8036263B2 (en) 2011-10-11

Similar Documents

Publication Publication Date Title
JP4885982B2 (ja) ビデオ・フレームからキー・フレームを選択すること
US10390039B2 (en) Motion estimation for screen remoting scenarios
US10003768B2 (en) Apparatus and methods for frame interpolation based on spatial considerations
US6909745B1 (en) Content adaptive video encoder
CN112073737B (zh) 在直播视频流应用中重新编码预测的图像帧
JP3656036B2 (ja) Mpeg圧縮ビデオ環境でのディゾルブ/フェード検出方法
JP4794386B2 (ja) 撮像装置
KR20140019335A (ko) 장면 타입에 기초한 비디오 스트림 인코딩
US8934550B2 (en) Data processing apparatus, data processing method, and program for processing image data of a moving image
JP2014511138A5 (ja)
JP2001527304A (ja) ディジタル動画の階層的要約及び閲覧方法
JP2003087785A (ja) 動画像符号化データの形式変換方法及び装置
JP2002058029A (ja) 動画像符号化装置および動画像符号化方法およびプログラムを記録した媒体
JP2013504256A (ja) シーン切替検出
US7526725B2 (en) Context aware video conversion method and playback system
KR20090045288A (ko) 적응형 비디오 표현을 위한 방법 및 디바이스
Li et al. Perceptual quality assessment of face video compression: A benchmark and an effective method
JP2008035281A (ja) 画像符号化方法
JP2008141354A (ja) 画像符号化装置および撮像装置
JP2002064823A (ja) 圧縮動画像のシーンチェンジ検出装置、圧縮動画像のシーンチェンジ検出方法及びそのプログラムを記録した記録媒体
Jubran et al. Sequence-level reference frames in video coding
JP4225503B2 (ja) 動画像のカット点検出装置
JP2003061112A (ja) カメラワーク検出装置およびカメラワーク検出方法
JPH10112863A (ja) 動き被写体情報抽出方法及び装置
JP2009087323A (ja) 画像処理装置、及び、特定領域検出方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111108

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141216

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4885982

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees