JP2009521877A

JP2009521877A - ビデオ・フレームからキー・フレームを選択すること

Info

Publication number: JP2009521877A
Application number: JP2008547695A
Authority: JP
Inventors: ワン、ハオホン; マラヤス、ナレンドラナス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2005-12-23
Filing date: 2006-12-14
Publication date: 2009-06-04
Anticipated expiration: 2026-12-14
Also published as: WO2007120337A2; US20070147504A1; KR20080085182A; CN101346719B; JP4885982B2; WO2007120337A3; CN101346719A; KR100987365B1; EP1964006A2; US8036263B2

Abstract

本開示は、ビデオ・フレームのシーケンスからキー・フレームを識別することを記述する。未圧縮データにおける操作によって生成された第１の情報のセットがアクセスされる。データの圧縮により生成された第２の情報のセットもアクセスされる。第１および第２の情報のセットは、ビデオ・フレームからキー・フレームを識別するために使用される。

Description

本発明の実施形態は、ビデオ・データの処理に関する。

ユニバーサル・メディア・アクセス（ＵＭＡ）は、マルチメディア（例えば、ビデオおよびオーディオ）アプリケーションおよびマルチメディア・デバイスの次世代において重要であると予想される。ＵＭＡの基本概念は、ユーザがデバイスと相互作用した後に、ユーザ・デバイスを用いるために自動的に選択および／または適応されるコンテンツを用いて、マルチメディア・コンテンツへ普遍的またはシームレスにアクセスすることである。

モバイル電話は、例えば、マルチメディア・コンテンツを検索し、閲覧し、送信するために使用することができる。しかしながら、モバイル電話の機能が増加の一途をたどる一方、そのようなデバイスはまだ多少、パーソナル・コンピュータのようなより強力なプラットフォームに比べて制限されている。データ伝送および検索レートもまた重要でありうる。ビデオ・データの量は、通常、オーディオ・データの量よりも考慮すべきことが多い。

ビデオ・サマライズ技術は、ビデオ・フレームのシーケンスをサマライズする、静止画像ストーリーボードを生成するために使用することができる。ストーリーボードは、より多くのフレームからなる内在ビデオ・フレームから抽出されるキー・フレームとも称される、比較的少数の代表フレームからなる。ビデオ・サマライズ技術は、ＵＭＡにとって重要である。なぜなら、より簡単な検索および伝送のために、ビデオ・コンテンツをサマライズするために使用することができるからである。すなわち、キー・フレームは、ビデオ・シーケンス全体と比べて非常に少量のデータしか示さないので、キー・フレームは、例えば、モバイル電話のように限定された機能のデバイス間でより容易に共有され、配信される。

使用されている様々な異なるビデオ・サマライズ技術が存在する。しかしながら、これら従来技術の各々は、１または複数の方式において問題がある。一般に、従来技術に関する１つの問題は、それらが複雑であり、大量のビデオ・データを処理するために、顕著な量の計算リソースを消費することである。複雑さを制限する試みは、しばしば、キー・フレームのより良い選択となる情報が考慮されていないことを意味する。

従って、計算上のリソースを浪費せずに、キー・フレーム選択を改善する方法および／またはシステムが有利であろう。本明細書で記述された実施形態は、これらおよびその他の長所を提供する。

発明の概要

ビデオ・フレームのシーケンスからキー・フレームを識別する方法およびシステムが記述される。１つの実施形態では、未圧縮データに関して操作することによって生成された第１の情報のセットがアクセスされる。データを圧縮することによって生成される第２の情報のセットもまたアクセスされる。第１および第２の情報のセットは、ビデオ・フレームからキー・フレームを識別するために使用される。

一般に、第１および第２の情報のセットは、ローカルな類似性（「サマリ表示」）、コンテンツ変化カバレッジ、および視覚品質の尺度を与える。これらは、結合されて、どのビデオ・フレームがキー・フレームとして使用可能であるかを識別するために解かれる斬新な費用関数を構築する。例えば、この費用関数の値を最小にするフレームのサブセットが、キー・フレームとして使用される。キー・フレームを識別するこの処理は、オンライン（リアルタイムを含む）またはオフラインの何れかで実行される。

１つの実施形態では、上述した第１の情報のセットは、例えば自動ホワイト・バランシング、自動露光制御、および自動焦点制御のようなビデオ・キャプチャ・デバイスによって実行される操作を用いて生成される。１つのそのような実施形態では、第１の情報のセットの種類は、輝度情報、クロミナンス情報、および焦点値を含む。別の実施形態では、上述した第２の情報のセットにおける情報の種類は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報を含む。第１および第２の情報のセットに加えて、ビデオ・キャプチャ・デバイスとのユーザの相互作用に関連付けられた情報もまた考慮される。

生（未圧縮）のビデオ・データ上に関して実行される操作から生成される情報、および、ビデオ・データの圧縮中に生成される情報を利用することによって、実現は、現実的であり、かつ複雑さが比較的少ない。これら特徴およびその他の特徴、局面、および利点は、様々な図面において例示された以下の詳細記載を読んだ後により良く理解されるであろう。

詳細な説明

次の詳細説明では、本発明の実施形態の完全な理解を提供するために、多くの具体的な詳細が述べられる。しかしながら、当業者であれば、これら実施形態は、これら具体的詳細がなくても、またはそれらの均等物を用いても実現されうることを理解するであろう。その他の事例では、これら実施形態の局面を不必要に不明瞭にしないために、周知の方法、手順および構成要素は、詳細には記載されていない。

当業者であれば、本明細書に開示された実施形態に関連して説明された様々な例示的論理ブロック、モジュール、回路、およびアルゴリズム・ステップは、電子的なハードウェア、コンピュータ・ソフトウェア、またはこれらの組み合わせとして実現されうることを理解するだろう。ハードウェアとソフトウェアとの相互置換性を明確に説明するために、様々な例示的な部品、ブロック、モジュール、回路、およびステップが、それらの機能に関して一般的に記述された。それら機能がハードウェアとして又はソフトウェアとして実現されるかは、特定のアプリケーション及びシステム全体に課せられている設計制約に依存する。当業者であれば、各特定のアプリケーションに応じて変化する方法で上述した機能を実現することができる。しかしながら、この適用判断は、本発明の範囲からの逸脱をもたらすものと解釈されるべきではない。

本明細書で開示された実施形態に関連して記述された様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）あるいはその他のプログラマブル論理デバイス、ディスクリート・ゲートあるいはトランジスタ・ロジック、ディスクリート・ハードウェア部品、又は上述された機能を実現するために設計された上記何れかの組み合わせを用いて実現又は実施されうる。汎用プロセッサとしてマイクロプロセッサを用いることが可能であるが、代わりに、従来技術によるプロセッサ、コントローラ、マイクロコントローラ、あるいは状態機器を用いることも可能である。プロセッサは、例えばＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアに接続された１または複数のマイクロプロセッサ、またはその他任意のこのような構成である計算デバイスの組み合わせとして実現することも可能である。

本明細書で開示された実施形態に関連して記述された方法やアルゴリズムのステップは、ハードウェアによって直接的に、プロセッサによって実行されるソフトウェア・モジュールによって、または、これらの組み合わせによって具体化される。ソフトウェア・モジュールは、ＲＡＭ（揮発性）メモリ、フラッシュ・メモリ、ＲＯＭメモリ（不揮発性）、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、リムーバブル・ディスク、ＣＤ−ＲＯＭ、あるいは当該技術分野で知られているその他の型式の記憶媒体に収納されうる。典型的な記憶媒体は、プロセッサがそこから情報を読み取り、またそこに情報を書き込むことができるようにプロセッサに結合される。または、記憶媒体はプロセッサに統合されることができる。このプロセッサと記憶媒体とは、ＡＳＩＣ内に存在することができる。ＡＳＩＣは、ユーザ端末内に存在することもできる。あるいはこのプロセッサと記憶媒体とは、ユーザ端末内のディスクリート部品として存在することができる。

本明細書で提供される記載および例は、ビデオ・ベースのデータ（ビデオ・データ、メディア・データ、またはマルチメディア・データあるいはコンテンツとも称される）に関して説明される。しかしながら、限定される訳ではないが、画像ベースのデータ、ウェブ・ページ・ベースのデータ、グラフィック・ベースのデータのようなその他の種類のデータもまた使用されうる。

図１は、ビデオ・データを処理するためのデバイス１０の１つの実施形態のブロック図である。デバイス１０は、ビデオ・サマライズ・システムの様々な実施形態を実施するための実行プラットフォームの構成要素を含んでいる。図１に示すように、デバイス１０は、ホスト・インタフェース１１を経由してデジタル信号プロセッサＤＳＰ１５に結合されたマイクロプロセッサ１２（例えば、新型縮小命令セット・コンピュータ・マシン・プロセッサ、すなわちＡＲＭプロセッサのような）を含む。ホスト・インタフェース１１は、マイクロプロセッサ１２とＤＳＰ１５との間を通るデータおよびコマンドをそれぞれのフォーマットへ変換する。本実施形態では、マイクロプロセッサ１２とＤＳＰ１５との両方が、メモリ・コントローラ１６を経由してメモリ１７に接続されている。図１の例では、メモリ１７は共有メモリである。これによって、メモリ１７は、マイクロプロセッサ１２とＤＳＰ１５との両方のための命令およびデータを格納する。そのような実施形態では、共有メモリ１７へのアクセスは、メモリ・コントローラ１６を経由する。１つの実施形態では、共有メモリ１７はまた、接続されたディスプレイ１８を駆動するピクセル・データを格納するビデオ・フレーム・バッファを含む。

上述したように、１つの実施形態では、ビデオ・サマライズ・システムのある処理およびステップが、コンピュータ・システム（例えば、デバイス１０）のコンピュータ読取可能メモリ（例えば、メモリ１７）内に存在する一連の命令群（例えば、ソフトウェア・プログラム）として実現され、デバイス１０のマイクロプロセッサ１２およびＤＳＰ１５によって実行される。実行された時、これら命令群は、デバイス１０に対して、以下の実施形態の機能を実行させる。他の実施形態では、ある処理およびステップが、ハードウェア内で実現される。

図２は、図１のデバイス１０を用いて実現されるビデオ・サマライズ・システム２０の１つの実施形態の機能ブロック図である。生の（未圧縮の）画像データのビデオ・シーケンスが、デバイス１０の構成要素を組み込んでいるビデオ・キャプチャ・デバイス（例えば、デジタル・ビデオ・カメラ、デジタル・カメラ等）によってキャプチャされる。生の画像データは、データ・フレームのシーケンスを含む。各フレームは、本質的に静止画像を表し、フレームのシーケンスは、プレイ・バック（表示）されたときに動画となる画像の連続したセットを表す。生の画像データは、システム２０によって更に処理される前に格納されうる。データが格納された場合、処理は、その後オフラインでなされる。処理はまた、オンラインまたはリアルタイムでもなされる。

図２に関して示すように、本実施形態では、生の画像データのシーケンスが、ビデオ・フロント・エンド（ＶＦＥ）２１へ入る。ＶＦＥ２１は、このデータを解析し、ある種類の情報（本明細書では、第１の情報のセットまたは第１の情報とも称される）を計算し、記憶装置２３の中に、この第１の情報のセットを格納する。ＶＦＥ２１の機能、および、第１の情報のセットに含まれうる情報の種類は、図３とともに以下に完全に記述される。

図２のＶＦＥ２１は、処理されたものの未だに解凍されていないビデオ・データをエンコーダ２２へ転送する。エンコーダ２２は、このビデオ・データを圧縮（符合化）する。このビデオ・データは、限定される訳ではないが、例えば、ＭＰＥＧ−１、ＭＰＥＧ−２、およびＭＰＥＧ−４のようなMoving Pictures Experts Group（ＭＰＥＧ）圧縮（符合化）スキームや、例えばＨ．２６１、Ｈ．２６３、およびＨ．２６４のような国際電気通信連合（ＩＴＵ）符合化スキームを用いて圧縮されうる。一般に、時間的冗長または動作補償、更に詳しくは、圧縮量（圧縮比）を増加するために、動作ベクトルを用いる符合化スキームを利用する符合化スキームが使用されうる。

エンコーダ２２によって符合化された圧縮ビットストリームは、記憶装置２５内に格納される。個別のユニットによって例示されているが、記憶装置２３，２５は、同じメモリ・ユニットの一部でありうる。１つの実施形態では、圧縮ビットストリームは、それぞれフレーム・インデクスによって識別されるＩフレーム、Ｐフレーム、およびＢフレームとして周知のビデオ・フレームの圧縮シーケンスを表す。

ある種類の情報（本明細書では、第２の情報のセットまたは第２の情報とも称される）が、圧縮処理の一部としてエンコーダ２２によって生成される。１つの実施形態では、第２の情報のセットは、ＶＦＥ２１によって計算された第１の情報のセットとともに、記憶装置２３に格納される。１つの実施形態では、第２の情報のセットは、限定される訳ではないが、例えば、歪み尺度情報、マクロブロック予測モード、および前述した動作ベクトル情報のような情報を含む。様々な歪み尺度を用いることができ、当該技術で周知の１つの歪み尺度は、「絶対差合計」（ＳＡＤ）である。マクロブロック予測モードは、「インター」または「イントラ」でありうる。インター・マクロブロックは、別のマクロブロックのコンテンツに依存し、動作情報を用いて別のマクロブロックから導出することができる。イントラ・マクロブロックは、別のマクロブロックのコンテンツとは独立しており、何れの動作情報をも含んでいない。第１および第２の情報のセットは、集合的にサイド情報またはヒント情報と称されうる。

概説すると、１つの実施形態では、費用関数を構築するために、サマライザ２４が、記憶装置２３からのサイド情報を用いる。費用関数は、記憶装置２５内に格納されたビデオ・フレームのシーケンスからキー・フレームを選択するために評価される。例えば、費用関数の値を最小化するフレームのサブセットが、キー・フレームとして識別される。費用関数の構成および評価は、下記に図４と連携してより詳細に記載される。

１つの実施形態では、図２に再び示すように、サマライザ２４が、キー・フレームとして選択されるフレームのインデクスを識別する。このインデクスは、後に、記憶装置２５からキー・フレームを検索するために使用することができる。しかしながら、別の実施形態では、キー・フレームであると選択されたビデオ・フレームが複写され、格納されうる。すなわち、キー・フレームと、キー・フレームが選択されたビデオ・フレーム全体との両方が、冗長的に格納される。

１つの実施形態では、サマライザ２４は更に、キー・フレームを選択する処理において、ユーザ入力を考慮する。ユーザ入力は、ユーザによって直接入力されるか、または、ユーザの動作から推論されうる。直接的なユーザ入力は、例えば、サマライザ２４によって使用される圧縮比（例えば、ビデオ・シーケンス内のフレーム数に対する、キー・フレームの数の比）のように、システム２０によって使用されるあるパラメータのためにユーザによって指定された値を含む。他の種類の直接的なユーザ入力は、図４の議論で言及される。推論されたユーザ入力は、ビデオ・キャプチャ・デバイスとのユーザのインタラクションから導出される入力である。例えば、ある期間、サブジェクトに関するユーザの「ズーム・イン」動作は、このサブジェクトが、ユーザが特に興味を持っていることを示すことができる。その期間中、または、シーケンスの最初のフレームにおいてキャプチャされたフレームのシーケンスは、幾つかの方法で識別され（例えば、タグされ）、その後、この情報は、本明細書に記載のキー・フレーム選択処理に分解される。

システム２０（特に、サマライザ２４）は、オフライン・モード、オンライン・モード、またはリアルタイム・モードで動作しうる。１つの実施形態では、システム２０の動作モードは、ユーザによって選択される。

オフライン・モードでは、サマライザ２４が、ビデオ・フレームのシーケンス全体について、サイド情報を考慮することができる。オンライン・モードまたはリアルタイム・モードにおいて、サマライザ２４は、一度に、ビデオ・フレームのシーケンスの一部のみのために、サイド情報を考慮することができる。すなわち、例えば、オンライン・モードまたはリアルタイム・モードでは、サマライザ２４はまず、ビデオ・フレームのシーケンスの一部のみを考慮し、その部分のキー・フレームを選択し、次に、その部分をフラッシュする。次に、サマライザ２４は、シーケンスの次の部分を考慮し、それをフラッシュする前に、この部分のキー・フレームを選択する。オフライン処理は、ビデオ・フレームの全シーケンスをよく代表しているキー・フレームを識別することができる。オンライン処理あるいはリアルタイム処理は、オフライン処理よりも少ない記憶装置しか利用しない。

キー・フレームが識別された場合、１つの実施形態では、キー・フレームを識別するフレーム・インデクスが、デコーダ２６へ転送される。デコーダ２６は、メモリ２５から適切なフレームを検索し、それらを解凍する。解凍されたキー・フレームはその後、表示および／または編集のためにマルチメディア・ディスプレイ・プロセッサ（ＭＤＰ）２８に送られる。別の実施形態では、キー・フレームを識別するフレーム・インデクスがトランスコーダ２７へ転送される。トランスコーダ２７は、メモリ２５から適切なフレームを検索し、それらをトランスコードする。トランスコード動作の例は、ビットレート低減、レート波形整形、空間ダウンサンプリング、およびフレーム・レート低減を含む。一般に、トランスコーダ２７は、入力として、圧縮ビデオ・ビットストリームを用い、それを処理して、出力として、別の圧縮ビデオ・ビットストリームを生成する。トランスコードされたビットストリームはその後、（例えば、他のモバイル・デバイスのような別のデバイス）へ送信されるために、マルチメディア・メッセージング・サービス（ＭＭＳ）へ送られる。ＭＭＳは、表示および／または編集のためにこのビットストリームを復号する。

図３は、ビデオ・サマライズ・システム（例えば、図２のシステム２０）におけるＶＦＥ２１の１つの実施形態におけるデータの流れを示すブロック図である。上述したように、ＶＦＥ２１は、生の、すなわち未圧縮の画像データの処理中に、第１の情報のセットを生成する。この実施形態では、第１の情報のセットは、ＶＦＥ２１によって実行される自動ホワイト・バランシング動作３１、自動露光制御動作３２、および自動焦点制御動作３３によって生成される。

１つの実施形態では、シーン照明の色による白色値における色変化を補償するために必要な赤チャネル、緑チャネル、および青チャネルにおけるゲインを決定するために、自動ホワイト・バランシング動作３１が使用される。１つのそのような実施形態では、自動ホワイト・バランシング動作３１は、ピクセル・カラー・メータリング、照明推定、およびホワイト・バランシングを含む。自動ホワイト・バランシング動作３１から、各ビデオ・フレームについて（例えば、ＣｂおよびＣｒ、あるいは‘Ｕ’および‘Ｖ’とも称される）クロミナンス値が決定される。１つの実施形態では、各フレームのクロミナンス値は、１２８ポイント・ヒストグラム（‘Ｕ’に対する６４ポイントと、‘Ｖ’に対する６４ポイント）として表される。

１つの実施形態では、自動露光制御動作３２は、光メータリング、シーン分析、および露光補償を含む。１つのそのような実施形態では、入力された画像は２５６領域に分割される。これら領域の各々はさらに、４つのサブ領域に細分割される。２５６領域の各々について、領域内のピクセルの輝度値の合計、領域内の最小ローカル合計輝度値、領域内の最大ローカル合計輝度値、および、領域内の最大絶対差分ローカル合計輝度値、が生成される。この情報を使用して、各サブ領域内のピクセルの輝度値の合計が決定される。最終的に、輝度値（Ｙ）の６４ポイント・ヒストグラムが、各フレーム毎に決定される。更に、ダウンサンプルされた８×８の輝度画像（Ｌ）も、各フレーム毎に生成される。

１つの実施形態では、自動焦点制御動作３３は、以下に示す２つのサブ処理を含んでいる。１）与えられたレンズ位置のための焦点値（Ｆ）を決定する処理。２）一連の焦点値に基づいて焦点位置を決定する処理。１つの実施形態では、焦点値‘Ｆ’は、式（１）を使用して、輝度値‘Ｙ’から決定される。

ここで、ｊ＝Ｊ＊２、Ｊ＊２＋２、Ｊ＊２＋４、・・・２＊Ｘ−２、およびｉ＝Ｉ＊２、Ｉ＊２＋２、Ｉ＊２＋４、２＊Ｚ−２であり、‘Ｉ’は、２によってサブサンプルされた領域における焦点ウィンドウの開始行であり、‘Ｊ’は、２によってサブサンプルされた領域における焦点ウィンドウの開始列であり、‘Ｚ’は、２によってサブサンプルされた領域における焦点ウィンドウの最終行であり、‘Ｘ’は、２によってサブサンプルされた領域における焦点ウィンドウの最終列（Ｘ−Ｊ≦５０８）であり、Ｘ−Ｊは偶数である。‘Ｆ’の値が大きくなることは、ぼやけた画像である可能性が低くなることが期待される。

図４は、ビデオ・サマライズ・システム（例えば、図２のシステム２０）におけるビデオ・サマライザ２４の１つの実施形態におけるデータのフローを示すブロック図である。以下の説明では、‘Ｎ’は、考慮中のビデオ・フレームのシーケンスにおける合計フレーム数を示し、‘Ｍ’は、ビデオ・サマリの長さを示す（すなわち‘Ｍ’はキー・フレームの数である）。一般に、ビデオ・サマライザ２４は、‘Ｍ’個の選択されたフレームａ_ｉ（ｉ＝１，２，・・・，Ｍ、およびａ_０＝０）のインデクスを識別し、ローカル表示または類似性、コンテンツ変化、および視覚品質を考慮する。

本明細書で使用されるように、満足できるローカル表示または類似性を与えるフレームは、ビデオ・サマリにおいてそれらを表示するために、その近隣フレームと十分に類似したフレームである。すなわち、与えられたビデオ・フレームのシーケンスの場合、キー・フレームのみを見ているユーザが、どのサブジェクトがシーケンスによってキャプチャされたかを思いつくことができるように、そのシーケンスを表すキー・フレームが、そのシーケンス内の他のフレームと十分類似していることが望ましい。図４の例では、近隣フレームのグループの類似性を評価するために、色類似性が用いられる。１つの実施形態では、図３にも示すように、自動露光処理３２およびホワイト・バランシング処理３１から得られる‘Ｙ’色ヒストグラムおよび‘ＵＶ’色ヒストグラムが、単一の１９２ポイント・ヒストグラム‘Ｈ’として示される。これは、式（２）および式（３）を用いて、各フレーム‘ｉ’（ｉ＝１，２，・・・，Ｍ）のローカル表示（Ａ）を定めるために使用される。

ここで、“Ｓｉｍ”は、以下のように式（４）で定義される２つの１次元ベクトルを比較するために用いられる関数である。

コンテンツ変化は、２つの連続したフレーム間の類似性（更に詳しくは、相違点）を考慮することによって取り組まれる。図４の例では、図３にも示すように、自動露光制御処理３２およびホワイト・バランシング処理３１から得られるＹＵＶ（ＹＣｂＣｒ）情報と、自動露光制御処理３２からダウンサンプルされた８×８輝度画像とが、式（５）および式（６）を用いた２つのフレームの類似性（Ｂ）を定めるために使用される。

ここで‘γ’は、０と１との間の調節値を持つ重み付け係数である。この重み付け係数‘γ’は、プリセット値あるいはユーザ指定された入力でありえる。式（５）および式（６）では、オブジェクトが静止している状況であるか、または、比較的安定した背景を検出するために、輝度における類似性が考慮される。

本明細書で使用されるように、満足できる視覚品質を与えるフレームは、ぼやけが少なく、近隣フレームに対する動きの少ないオブジェクトおよび／またはバックグランドを含むフレームである。図４の例では、図２および図３でも示すように、以下に示すように、自動焦点制御処理３３からそのフレームのために決定された焦点値‘Ｆ’と、エンコーダ２２によって決定された第２の情報のセットとの両方を用いて、フレームの視覚品質（Ｃ）が定められる。

ここで、‖ＭＶ‖は、フレームのマクロブロック動作ベクトルの合計長さであり、‘Ｓ’は、フレーム内の合計マクロブロックＳＡＤであり、Ｆ_ＭＡＸは、仮指定された焦点値の上限であり、‘η’は、０と１との間の値を持つ調節可能な重み付け係数である。重み付け係数‘η’は、プリセット値またはユーザ指定された入力でありうる。

１つの実施形態では、キー・フレームは、

と

とが大きく、

が小さいフレームを識別し、これら項を以下のように結合することによって選択される。

ここで‘α’と‘β’とは、０と１との間の値を持つ調節可能な重み付け係数である。重み付け係数‘α’および‘β’は、プリセット値またはユーザ指定された入力でありうる。

式（９）は、どの組み合わせが‘Ｔ’を最小化するかを決定するために、‘Ｍ’個のキー・フレームの考えられうるあらゆる組み合わせを考慮することによる網羅的手法で解くことができる。すなわち、１つの実施形態では、‘Ｔ’を最小化する‘Ｍ’個のフレームの組み合わせが、キー・フレームとして選択されるフレームのセットである。

式（９）を網羅的に解くのではなく、式（１０）を用いて、式（９）に基づく費用関数‘Ｇ’を定義することができる。

これは、フレームａ_ｋまでの最小合計を示す。式（１０）から、以下が得られる。

費用関数

が与えられると、次のフレームａ_ｋの選択は、前のフレームａ_１，ａ_２，・・・，ａ_ｋ−２の選択とは独立している。費用関数は次のように再帰的に表現することができるので、これは明らかに本当である。

この費用関数の再帰的表現は、過去のステップとは独立した解法処理である将来のステップをなす。これは、動的プログラミングの基本である。式（１３）は、その問題を、有向非巡回グラフ（ＤＡＧ）における最短パスを発見するグラフ理論問題へ変換することによって解くことができる。

図５は、例えば図２のシステム２０のようなビデオ・サマライズ・システムによって使用されうるＤＡＧ５０の例である。図５の例では、‘Ｍ’は３であり、‘Ｎ’は５である。ＤＡＧを用いてグラフ理論問題を解く場合の計算上の複雑さは、Ｏ（ＮＭ^２）である。

図６は、ビデオ・サマライズ方法の１つの実施形態のフローチャート６０である。１つの実施形態では、フローチャート６０によって記述された方法は、図２および図４のビデオ・サマライザ２４によって行なわれる。フローチャート６０によって記述された方法の局面は、例えば、シーケンス内のビデオ・フレームの数‘Ｎ’が、メモリ容量を超える場合、あるいは、計算上の複雑さが、割り当てられたまたは許可された電力および処理時間を超える場合において使用することができる。一般に、フローチャート６０の方法の目的は、ビデオ・シーケンスを多くの「ショット」に分割し、その後、各ショット内でキー・フレームを発見することである。実際には、‘Ｍ’個のキー・フレームが、‘Ｎ’個のビデオ・フレームのシーケンスから選択される場合、フローチャート６０の方法は、各ショットにどれだけのフレームが含まれるべきか、および、様々なショットの各々にどれだけのキー・フレームが割り当てられるべきかを識別するために使用される。１ショット当たりのフレームの数は、必ずしも同じである必要はない。更に、１ショット当たりのキー・フレームの数は、同じである必要はない。

図６のブロック６１では、ショット境界が識別される。すなわち、例えば、第１のショットに含まれるべきフレームが識別される。１つの実施形態では、２つの連続したフレーム間のローカルな類似性‘Ａ’を決定するために、式（２）および式（３）において色ヒストグラム‘Ｈ’が使用される。そのような実施形態では、しきい値が定義され適用される。そして、２つのフレーム間の類似性‘Ａ’が、しきい値を満足しない場合に、２つの連続したフレーム間のショット境界が識別され、シーン変化が起こりうることが示される。

ショット境界の数が、サマリの定められた長さを超える場合、すなわち、ショット境界の数が‘Ｍ’より大きい場合、最小のローカル類似性を持つショット境界が選択され、そのショット境界に対応するフレームが、キー・フレームとして選択される。そうでない場合には、１ショット当たりのキー・フレームの数が決定され、フローチャート６０はブロック６２に移る。

ブロック６２では、移動動作に基づくショット圧縮比が、式（１４）を用いて計算される。

ここで、‘Ｐ’はショットの総数、‘ｎ_ｉ’は、各ショットの長さ（ショット‘ｉ’におけるフレームの数）、Ｍ_ｉは、ショット‘ｉ’におけるキー・フレームの数、‘Ｓ’は、フレーム内の合計マクロブロックＳＡＤである。式（１４）を用いることによって、ビデオ・シーケンスがより多くの移動および動作を含むショットには、より多くのキー・フレームが割り当てられ、移動および動作がより少ないショットには、より少ないキー・フレームしか割り当てられない。

ブロック６３では、ショットについて、１または複数のキー・フレームが選択される。１つの実施形態では、図４と共に上述された技術を用いて、キー・フレームが選択される。

図６のブロック６４では、考慮される追加ショットが存在するか否かが判定される。存在するのであれば、フローチャート６０はブロック６３に戻り、存在しないのであれば、フローチャート６０はブロック６５に移る。

ブロック６５では、更に図２にも示すように、既に述べたようにして、１ショット当たりのキー・フレームを識別した結果が、サマライザ２４からデコーダ２６またはトランスコーダ２７へと出力される。

図７は、キー・フレームを識別する方法の実施形態のフローチャート７０である。ブロック７１では、未圧縮の画像データに関する操作から生成された第１の情報のセットがアクセスされる。１つの実施形態では、図２および図３にも示すように、ＶＦＥ２１によって操作が実行され、第１の情報のセットが記憶装置２３からアクセスされる。１つの実施形態では、この操作は、自動ホワイト・バランシング３１、自動露光制御３２、および自動焦点制御３３を含む。１つの実施形態では、第１の情報のセットは、輝度情報（Ｙ）、クロミナンス情報（Ｕ，Ｖ）、および焦点値（Ｆ）を含む。

図７のブロック７２では、画像データを圧縮することによって生成された第２の情報のセットがアクセスされる。１つの実施形態では、図２をも用いて示すように、エンコーダ２２によって画像データが圧縮され、記憶装置２３から第２の情報のセットがアクセスされる。１つの実施形態では、この第２の情報のセットは、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報を含んでいる。

図７のブロック７３では、１または複数のキー・フレームを識別するために、第１の情報のセット、および第２の情報のセットが結合される。１つの実施形態では、図４にも示すように、サマライザ２４によってキー・フレームが選択される。１つのそのような実施形態では、サマライザ２４が、各ビデオ・フレームについて、第１の値と、第２の値と、第３の値とを結合することによって、費用関数を構築する。ここで、第１の値は、ビデオ・フレームと、その他のビデオ・フレームとの間の類似性の尺度（Ａ）に相当し、第２の値は、ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度（Ｂ）に相当し、第３の値は、ビデオ・フレームの視覚品質の尺度（Ｃ）に相当する。そのような実施形態では、サマライザ２４が、費用関数を評価して、ビデオ・フレームのサブセットのスコアを判定する。異なるサブセットを評価することが可能であり、１つの実施形態では、費用関数が最小化されるビデオ・フレームのサブセットが、キー・フレームとして使用される。

１つの実施形態では、図６と共に記述したように、ビデオ・フレームは、隣接するビデオ・フレームの複数のセグメント、すなわちショットへ分離される。１つのそのような実施形態では、ショットの各々に、多くのキー・フレームが割り当てられる。１つの実施形態では、動作ベクトル情報および歪み情報を用いてキー・フレームが割り当てられる。

図６および図７のフローチャート６０および７０では、具体的なステップが示されているが、そのようなステップは一般的なものである。すなわち、フローチャート６０および７０で記載されたステップの変形例、およびその他様々なステップが実行されうる。フローチャート６０および７０の各ステップは、示されたものとは異なる順序で実行することができ、また、フローチャート６０および７０の各ステップは、図示されたシーケンスで実行される必要は必ずしもないことが認識される。

要約すると、キー・フレームを選択するため、例えばエンコーダやビデオ・フロント・エンドによって生成されたヒント情報を用いる斬新なビデオ・サマライズ技術が記述された。一般的なフレームワークでは、サマリ表示、コンテンツ変化カバレッジ、およびキー・フレーム視覚品質（例えば、焦点）が考慮される。例えば、特定の特徴空間、カバーする色、動作、視覚品質、および恐らくはユーザ入力をも含むものが、斬新な費用関数内で結合され、キー・フレームの選択を導く。１つの実施形態では、この費用関数は、グラフ理論問題へマップされ、動的プログラミングを用いて解かれる。

例えば、ビデオ・フロント・エンドとエンコーダとの出力を利用することによって、本技法は、複雑さが比較的低くなる。なぜなら、オリジナルのビデオ・シーケンスの大量のデータにアクセスしたり、処理する必要がないからである。そのため、本技法は、オフライン処理のみならず、リアルタイム処理またはオンライン処理にも適している。更に、メモリ・リソースが効率的に利用され管理される。

開示された実施形態の前の記載は、当業者が本発明を製造または使用することを可能にするために提供される。当業者には、これら実施形態に対する様々な変形が容易に明らかになるであろう。そして、本明細書で定義された一般原理は、本発明の精神または範囲から逸脱することなくその他の実施形態にも適用されうる。従って、本発明は、本明細書で示された実施形態に限定されるとは意図されておらず、本明細書で示された原理および斬新な特徴と一致する最も広いスコープが与えられることになっている。

図１は、ビデオ・データを処理するためのデバイスの１つの実施形態のブロック図である。図２は、ビデオ・サマライズ・システムの１つの実施形態の機能ブロック図である。図３は、ビデオ・サマライズ・システムにおけるビデオ・フロント・エンドの１つの実施形態におけるデータのフローを示すブロック図である。図４は、ビデオ・サマライズ・システムにおけるビデオ・サマライザの１つの実施形態におけるデータのフローを示すブロック図である。図５は、ビデオ・サマライズ・システムにおいて使用されうる有向非巡回グラフの例である。図６は、ビデオ・サマライズ方法の１つの実施形態のフローチャートである。図７は、ビデオ・サマライズ方法の別の実施形態のフローチャートである。

Claims

ビデオ・フレーム内のキー・フレームを識別する方法であって、
前記ビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第１の情報へアクセスすることと、
前記画像データを圧縮することで生成される第２の情報へアクセスすることと、
前記第１の情報および前記第２の情報を用いて、前記ビデオ・フレームから選択されるキー・フレームを識別することと
を備える方法。
前記操作することは、ビデオ機能を持つカメラによって実行され、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも１つを含む請求項１に記載の方法。
前記第１の情報は、輝度情報、クロミナンス情報、および焦点値のうちの１つである請求項１に記載の方法。
前記第２の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの１つである請求項１に記載の方法。
前記ビデオ・フレームと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定するために、輝度情報およびクロミナンス情報を用いることを更に備える請求項１に記載の方法。
連続した２つのビデオ・フレーム間の類似性の尺度に相当する値を決定するために輝度情報を用いることを更に備える請求項１に記載の方法。
ビデオ・フレームの視覚品質の尺度に相当する値を決定するために焦点値および動作ベクトルを用いることを更に備える請求項１に記載の方法。
請求項１に記載の方法は更に、
ビデオ・フレームについて、第１の値と、第２の値と、第３の値とを結合することを備え、
前記第１の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第２の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第３の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、前記ビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記ビデオ・フレームの別のサブセットについて実行され、
前記方法は更に、前記スコアを用いて、前記サブセットのうちの１つを選択することを備え、
前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項１に記載の方法。
前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分けることと、
多くのキー・フレームを、前記セグメントの各々に割り当てることとを更に備え、
前記キー・フレームの合計数は、予め定めた最大値を超えない請求項１に記載の方法。
前記割り当てることは、動作ベクトル情報と歪み情報とのうちの少なくとも１つから選択される情報を用いて実行される請求項９に記載の方法。
コンピュータ利用可能媒体であって、
複数のビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第１の情報へアクセスし、
前記画像データを圧縮することで生成される第２の情報へアクセスし、
前記第１の情報および前記第２の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する
ことによって、デバイスに対してキー・フレーム選択を実行させるための具体化されたコンピュータ読取可能プログラム命令群を有するコンピュータ利用可能媒体。
前記ビデオ・フレームと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定するために、輝度情報およびクロミナンス情報を用いる命令群を更に備える請求項１１に記載のコンピュータ利用可能媒体。
連続した２つのビデオ・フレーム間の類似性の尺度に相当する値を決定するために輝度情報を用いる命令群を更に備える請求項１１に記載のコンピュータ利用可能媒体。
焦点値および動作ベクトルを用いて、ビデオ・フレームの視覚品質の尺度に相当する値を決定する命令群を更に備える請求項１１に記載のコンピュータ利用可能媒体。
請求項１１に記載のコンピュータ利用可能媒体は更に、ビデオ・フレームについて、第１の値と、第２の値と、第３の値とを結合する命令群を備え、
前記第１の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第２の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第３の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、複数のビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記複数のビデオ・フレームの別のサブセットについて実行され、
前記コンピュータ利用可能媒体は更に、前記スコアを用いて、前記サブセットのうちの１つを選択する命令群を備え、
前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項１１に記載のコンピュータ利用可能媒体。
前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分け、多くのキー・フレームを、前記セグメントの各々に割り当てる命令群を更に備え、
前記キー・フレームの合計数は、予め定めた最大値を超えない請求項１１に記載のコンピュータ利用可能媒体。
複数のビデオ・フレーム内のキー・フレームを識別するためのデバイスであって、
前記ビデオ・フレームを備えた未圧縮の画像データについて操作することから生成される第１の情報へアクセスする手段と、
前記画像データを圧縮することで生成される第２の情報へアクセスする手段と、
前記第１の情報および前記第２の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する手段と
を備えるデバイス。
前記操作することは、ビデオ機能を持つカメラによって実行され、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも１つを含む請求項１７に記載のデバイス。
前記第１の情報は、輝度情報、クロミナンス情報、および焦点値のうちの少なくとも１つである請求項１７に記載のデバイス。
前記第２の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの少なくとも１つである請求項１７に記載のデバイス。
複数のビデオ・フレームを備えた未圧縮の画像データについて操作して、第１の情報を生成するビデオ・フロント・エンドと、
前記ビデオ・フロント・エンドに接続されており、前記画像データを圧縮し、第２の情報を生成するエンコーダと、
前記ビデオ・フロント・エンドと前記エンコーダとに接続されており、前記第１および第２の情報を格納するメモリと、
前記メモリに接続されており、前記複数のビデオ・フレーム内のキー・フレームを識別する方法を実施する命令群を実行するマイクロプロセッサとを備え、
前記命令群は、
前記第１の情報にアクセスする命令と、
前記第２の情報にアクセスする命令と、
前記第１の情報および前記第２の情報を用いて、前記複数のビデオ・フレームから選択されるキー・フレームを識別する命令とを含むデバイス。
前記操作することは、自動ホワイト・バランシング、自動露光制御、および自動焦点制御のうちの少なくとも１つを含む請求項２１に記載のデバイス。
前記第１の情報は、輝度情報、クロミナンス情報、および焦点値のうちの少なくとも１つである請求項２１に記載のデバイス。
前記第２の情報は、動作ベクトル情報、マクロブロック予測モード情報、および歪み情報のうちの少なくとも１つである請求項２１に記載のデバイス。
前記マイクロプロセッサは、輝度情報およびクロミナンス情報を用いて、前記ビデオ・フレームのうちの１つと、選択された他のビデオ・フレームとの間の類似性の尺度に相当する値を決定する命令群を更に備える請求項２１に記載のデバイス。
前記マイクロプロセッサは、輝度情報を用いて、連続した２つのビデオ・フレーム間の類似性の尺度に相当する値を決定する命令群を更に備える請求項２１に記載のデバイス。
前記マイクロプロセッサは、焦点値および動作ベクトルを用いて、ビデオ・フレームの視覚品質の尺度に相当する値を決定する命令群を更に備える請求項２１に記載のデバイス。
前記マイクロプロセッサは更に、ビデオ・フレームについて、第１の値と、第２の値と、第３の値とを結合する命令群を備え、
前記第１の値は、前記ビデオ・フレームと、他のビデオ・フレームとの間の類似性の尺度に相当し、前記第２の値は、前記ビデオ・フレームと、隣接するビデオ・フレームとの間の類似性の尺度に相当し、前記第３の値は、前記ビデオ・フレームの視覚品質の尺度に相当し、前記結合することは、前記複数のビデオ・フレームのサブセットのスコアを決定するために、前記サブセット内の各ビデオ・フレームについて実行され、前記結合することは、前記サブセットのスコアを決定するために、前記複数のビデオ・フレームの別のサブセットについて実行され、
前記マイクロプロセッサは更に、前記スコアを用いて、前記サブセットのうちの１つを選択する命令群を備え、
前記サブセット内のビデオ・フレームが、前記キー・フレームとして用いられる請求項２１に記載のデバイス。
前記マイクロプロセッサは更に、前記ビデオ・フレームを、隣接するビデオ・フレームの複数のセグメントへ分け、多くのキー・フレームを、前記セグメントの各々に割り当てる命令群を備え、
前記キー・フレームの合計数は、予め定めた最大値を超えない請求項２１に記載のデバイス。
前記割り当てることは、動作ベクトル情報と歪み情報とのうちの少なくとも１つ用いて実行される請求項２９に記載のデバイス。