JP2013533669A

JP2013533669A - ビデオサマリ指示メタデータ格納

Info

Publication number: JP2013533669A
Application number: JP2013512654A
Authority: JP
Inventors: アーロントーマスディーバー
Original assignee: インテレクチュアルベンチャーズファンド８３エルエルシー
Priority date: 2010-05-25
Filing date: 2011-05-17
Publication date: 2013-08-22
Also published as: EP2577664B1; CN102906818A; US9124860B2; US20110292244A1; US8520088B2; CN102906818B; WO2011149698A1; US20130336633A1; EP2577664A1

Abstract

ディジタルビデオ撮影装置で撮影されたディジタルビデオ時系列に関するビデオサマリを格納する方法であって、複数個のビデオフレームを有するディジタルビデオ時系列をディジタルビデオ撮影装置で撮影するステップと、そのディジタルビデオ時系列をプロセッサ可アクセスメモリ内に格納するステップと、格納済ディジタルビデオ時系列から一群のビデオフレームに相応するキービデオ断片を１個又は複数個特定するステップと、キービデオ断片同士を結合させることでビデオサマリを生成するステップと、そのビデオサマリに相応するビデオフレーム群を指し示すメタデータをその格納済ディジタルビデオ時系列に関連付けて格納することでプロセッサ可アクセスメモリにおけるビデオメモリの格納先を特定するステップと、を有する方法を提供する。

Description

本発明はディジタルビデオ処理、特にディジタルビデオサマリを生成する方法に関する。

スチル画像に加えビデオ画像の撮影も可能なディジタル撮影装置は多々あるが、ディジタルビデオコンテンツの管理は面倒な作業になりがちである。これは、ビデオコンテンツの視覚的象徴としてビデオ画像内冒頭フレームのサムネイル画像が一般に使用されているからである。サムネイル画像ではビデオコンテンツを十分に推し量るのが難しいので、得られたビデオ画像にどのような出来事が写っているかを知るためそのビデオ画像全体を視聴せざるを得なくなる場合がある。ユーザは、長々しいビデオ画像全体を視聴することよりはそのビデオ画像の簡潔なサマリを視聴することの方を好むものである。

ディジタルビデオには共有に関わる現実的な問題もある。多くのディジタル撮影装置で記録速度が３０乃至６０フレーム／ｓｅｃの速度であり、空間解像度が１９２０×１０８０画素以上であるため、圧縮してもかなりのデータ量になってしまい短めのビデオ画像でも実際上共有できないことである。

ビデオ編集ソフトウェアを用いたビデオ画像のマニュアル操作で、より容易に共有可能な短縮版（サマリ）を作成することも可能である。しかし、マニュアルでのビデオ編集は長々しく面倒な作業になることが多く、大抵のユーザにとって苦痛なものである。他方、自動ビデオサマリ生成アルゴリズム、即ち撮影で得られたビデオ画像を解析してそのサマリを生成するアルゴリズムも存在している。しかし、ビデオ画像の解析によるサマリ生成時にそのビデオ画像を復号する必要があるため、そうしたアルゴリズムは非常に複雑なものとなる。即ち、その種のアルゴリズムをディジタル撮影装置上で実行し、撮影で得られたばかりのビデオ画像に相応するサマリを即座に視聴に供することができない。撮影で得られたビデオ画像の迅速な確認及び共有を可能とする上で、この短所は妨げとなっている。

国際公開第２００７／１２２５４１号パンフレット欧州特許第２０６３６３５号明細書米国特許第５８１８４３９号明細書米国特許出願公開第２００７／０１８２８６１号明細書米国特許出願公開第２００７／０２３７２２５号明細書米国特許第３９７１０６５号明細書米国特許第４６４２６７８号明細書米国特許第４７７５５７４号明細書米国特許第５１８９５１１号明細書米国特許第５４９３３３５号明細書米国特許第５６５２６２１号明細書米国特許第５６６８５９７号明細書米国特許第５９９５０９５号明細書米国特許第６１９２１６２号明細書米国特許第６２９２２１８号明細書米国特許第６８３３８６５号明細書米国特許第６９３４０５６号明細書米国特許第７０３５４３５号明細書米国特許第７０４６７３１号明細書米国特許第７４０３２２４号明細書米国特許第７４０９１４４号明細書米国特許第７４８３６１８号明細書米国特許第７５４２０７７号明細書米国特許出願公開第２００４／００５２５０５号明細書米国特許出願公開第２００５／０１９１７２９号明細書米国特許出願公開第２００７／０１８３４９７号明細書米国特許出願公開第２００９／０００７２０２号明細書

MA, Y-F et al., "A Generic Framework of User Attention Model and its Application in Video Summarization," IEEE Transactions on Multimedia, IEEE Service Center, Piscata Way, NJ, US, vol.7, no.5, 1 October 2005 (2005-10-01), pages 907-919, XP01113970, ISSN:1520-9210, DOI:10.1109/TMM.2005, 854410 MA, Y-F et al., "A User Attention Model for Video Summarization," Proceedings 10th ACM International Conference on Multimedia, Juanles-Pins, France, Dec.1-6, 2002, vol.Conf.10, 1 December 2002 (2002-12-01), pages 533-543, XP001175055, DOI:10.1145/641107,641116, ISBN:978-1-58113-620-3 Divakaran, A, et al., "Video Browsing System for Personal Video Recorders," Proceedings of SPIE, The International Society for Optical Engineering SPIE, USA, vol.4861, 1 January 2002 (2002-01-01), pages 22-25, XP009092815, ISSN:0277-786X, DOI:10.117/12.470201 Zhang Tong, "Intelligent Keyframe Extraction for Video Printing," Proceedings of SPIE, The International Society for Optical Engineering SPIE, USA, vol.5601, 1 January 2004 (2004-01-01), pages 25-35, XP009093166, ISSN:0277-786X, DOI:10.1117/12.572474

このように、ディジタル撮影装置内でビデオサマリを生成することが可能なシステム及び方法を提供すること、特にビデオ撮影終了からディジタル撮影装置上でのビデオサマリ生成までにかかる時間が短い技術を提供することが望まれている。

ここに、本発明に係る方法は、ディジタルビデオ撮影装置で撮影されたディジタルビデオ時系列に関するビデオサマリを格納する方法であって、
複数個のビデオフレームを有するディジタルビデオ時系列をディジタルビデオ撮影装置で撮影するステップと、
そのディジタルビデオ時系列をプロセッサ可アクセスメモリ内に格納するステップと、
格納済ディジタルビデオ時系列から一群のビデオフレームに相応するキービデオ断片を１個又は複数個特定するステップと、
キービデオ断片同士を結合させることでビデオサマリを生成するステップと、
そのビデオサマリに相応するビデオフレーム群を指し示すメタデータをその格納済ディジタルビデオ時系列に関連付けて格納することでプロセッサ可アクセスメモリにおけるビデオメモリの格納先を特定するステップと、
を有する。

本発明には、ビデオサマリがメタデータとしてディジタルビデオファイル内に格納されているので、ビデオサマリを符号化して別ファイル化する必要がない、という利点がある。そのビデオサマリは、ビデオサマリを指し示すメタデータを理解できるスマートなビデオプレーヤでは簡便に利用でき、そうでないビデオプレーヤでは無視されることとなる。

更に、ビデオサマリが元々のディジタルビデオ時系列に関連付けて同じディジタルビデオファイルに格納される形態には、そのディジタルビデオ時系列をコピーするときや共有化するときにビデオサマリも共にコピー乃至共有化される、という利点がある。

本発明の一実施形態に係るビデオサマリ生成システムの構成要素を示す上位概念図である。本発明の一実施形態に係るビデオサマリ生成方法のフローチャートである。本発明の一実施形態に係るユーザフィードバック利用型ビデオサマリ生成方法のフローチャートである。本発明の一実施形態に係るメタデータ形態ビデオサマリ格納型ビデオサマリ生成方法のフローチャートである。本発明の一実施形態に係るビデオサマリ表示方法のフローチャートである。

以下、本発明の好適な実施形態のうち、概ねソフトウェアプログラムとして実施されるものについて詳細に説明する。本件技術分野で習熟を積まれた方々（いわゆる当業者）には自明な通り、そうしたソフトウェアと等価なものをハードウェアで実現することもできる。画像操作アルゴリズム及びシステムは周知であるので、以下の説明では、本発明に係るシステム及び方法を構成し又はそれと直に連携するアルゴリズム及びシステムに的を絞っている。そうしたアルゴリズム及びシステムの別例や、関連する画像信号の生成乃至処理用ハードウェア乃至ソフトウェアについては、本件技術分野で既知のシステム、アルゴリズム、部材及び要素から選択できるので、具体的な図示や説明を省略する。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。

また、本発明に係る方法を実行するためのコンピュータプログラムは、磁気ディスク（例．ハードディスク，フロッピーディスク）、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）等の固体電子記憶デバイスをはじめとするコンピュータ可読記録媒体、即ち本発明に係る方法が体現されるよう１台又は複数台のコンピュータを制御するコンピュータプログラムの格納に使用可能な諸有形デバイス乃至媒体に格納することができる。

本発明は、本願記載の実施形態同士を組み合わせた構成をも包含する。「具体例」等との記載があるなら、その構成は本発明の実施形態のうち少なくとも１個で採用されうるものである。ある個所で「一実施形態」「具体例」と称したものと別の個所で「一実施形態」「具体例」と称したものとが同一であるとは限らない。反面、明示のある場合やいわゆる当業者にとり自明な場合以外はそれらが相互排他的な関係になるとも限らない。「方法」「諸方法」等といった単複の別には要旨限定的な意味合いはない。語「又は」は、明示がある場合や文脈上当然な場合を除き非排他的な意味合いで使用されているので、その点に留意されたい。

イメージングデバイス、それに付随する信号取得／処理回路、ディスプレイ等を備えたディジタルカメラは周知であるので、以下の説明では本発明に係る方法及び装置を構成し又はそれと直に連携する要素に的を絞ることにする。本願にて具体的に図示、説明されていない要素は本件技術分野で既知のものから選べばよい。説明してある実施形態のうち一部はソフトウェアの形態を採っている。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。

ディジタルカメラに関する以下の説明はいわゆる当業者にとり理解しやすいものであろう。自明な通り、これから説明する構成にはコスト低減、機能追加、カメラ性能向上等を目的とし様々な変形を施すことが可能である。

図１に、本発明の一実施形態に係りビデオ撮影が可能なディジタルカメラ１０を有するディジタル写真システムのブロック構成を示す。好ましくも、このカメラ１０は電池駆動式でその携帯が可能であり、小型であるため撮影時や画像リビュー時にユーザが容易に手に持つことができる。カメラ１０による撮影で得られたディジタル画像はファイル化され画像メモリ３０内に格納される。なお、本願では、「ディジタル画像」「ディジタル画像ファイル」等の語を、スチル画像かビデオ画像かを問わず種々のディジタル画像乃至そのファイルを包含する意味で使用している。

本実施形態のディジタルカメラ１０はビデオ撮影機能及びスチル撮影機能を併有している。本発明は、ビデオしか撮影できないディジタルビデオカメラの形態や、ディジタル音楽プレーヤ（例．ＭＰ３プレーヤ）、携帯電話、ＧＰＳ受信機、携帯情報端末（ＰＤＡ）その他の機能を併有する形態でも実施することができる。

ディジタルカメラ１０にはレンズ４及びそれに付随する可調絞り及び可調シャッタ６が備わっている。本実施形態ではレンズ４がズームレンズであり、それを制御する手段としてズーム／合焦モータドライバ８が設けられている。レンズ４は図示しない光景からの光をイメージセンサ１４上、具体的には単一チップ型のカラーＣＣＤイメージセンサやカラーＣＭＯＳイメージセンサの上に合焦させる。このレンズ４は、センサ１４上に光景の像を発生させうる光学系の一種である。本発明は、このほか、固定焦点長レンズを有しその焦点が可変又は固定の光学系を使用する形態でも実施することができる。

イメージセンサ１４の出力はアナログ信号プロセッサ（ＡＳＰ）及びアナログディジタル（Ａ／Ｄ）コンバータ１６にてディジタルデータに変換されバッファメモリ１８内に一時的に格納される。メモリ１８内に一時格納された画像データはファームウェアメモリ２８内の埋込ソフトウェアプログラム、例えばファームウェアに従いプロセッサ２０によって操作される。本実施形態では、ソフトウェアプログラムを恒久的に保持するＲＯＭ型のメモリ２８が使用されているが、その内容修正が可能なメモリ例えばフラッシュＥＰＲＯＭをメモリ２８として使用する形態でも、本発明を実施することができる。後者なら、有線インタフェース３８やワイヤレスモデム５０を介し外部装置を接続し、その接続を通じメモリ２８内のソフトウェアプログラムを更新することや、イメージセンサ校正データ、ユーザ設定データ等、カメラ電源オフ時でも失いたくないデータの格納にメモリ２８を使用することができる。また、図示しないが、本実施形態ではプロセッサ２０にプログラムメモリが付設されており、メモリ２８内のソフトウェアプログラムはそこにコピーされた上でプロセッサ２０により実行される。

ご理解頂ける通り、このプロセッサ２０には様々な機能が備わっている。それらの機能の実現には、１個又は複数個のプログラマブルプロセッサ例えばディジタル信号プロセッサ（ＤＳＰ）、１個又は複数個のカスタム回路例えばディジタルカメラ向けカスタム集積回路（ＩＣ）、それらプログラマブルプロセッサ及びカスタム回路の組合せ等を使用することができる。同じくご理解頂ける通り、図１に示した諸部材の一部又は全てを共通データバス経由でプロセッサ２０に接続することもできる。例えば、プロセッサ２０、バッファメモリ１８、画像メモリ３０及びファームウェアメモリ２８の間を共通データバスで接続する構成にするとよい。

処理された画像データは画像メモリ３０内に格納される。自明な通り、このメモリ３０は、リムーバブルフラッシュメモリカード、内蔵フラッシュメモリチップ、磁気メモリ、光学メモリ等をはじめ、いわゆる当業者にとり既知の諸形態を採りうる。メモリ３０を、内蔵フラッシュメモリチップ，リムーバブルフラッシュメモリカード対応標準インタフェース併有型の構成にしてもよい。メモリカードとしてはセキュアディジタル（ＳＤ（登録商標））カード、マイクロＳＤ（登録商標）カード、コンパクトフラッシュ（ＣＦ（登録商標））カード、マルチメディアカード（ＭＭＣ）、ｘＤ（登録商標）カード、メモリスティック等を使用することができる。

また、イメージセンサ１４は、ＡＳＰ及びＡ／Ｄコンバータ１６の動作に同期するよう、タイミング発生器１２に発する種々のクロック信号例えばローセレクト信号や画素セレクト信号に従い制御される。この例ではセンサ１４のサイズが１２．４メガ画素（４０８８×３０４０画素）であるので、約４０００×３０００画素のスチル画像データを生成することができる。また、通例に倣いセンサ１４上に色フィルタアレイが重畳され、その色が異なる画素群が混在する画素アレイが形成されているので、このセンサ１４でカラー画像を得ることができる。その画素アレイにおける画素色配列は様々なパターンを採りうる。その一例は、本願出願人を譲受人とする特許文献６（発明者：Ｂａｙｅｒ，名称：カラーイメージングアレイ(Color imaging array)，この参照を以てその内容を本願に繰り入れる）に記載の如く、周知のベイヤ色フィルタアレイが形成される画素色配列パターンである。別例としては、本願出願人を譲受人とする特許文献２５（発明者：Ｃｏｍｐｔｏｎ及びＨａｍｉｌｔｏｎ，出願日：２００７年７月２８日，名称：高光感度イメージセンサ(Image Sensor with Improved Light Sensitivity)，この参照を以てその内容を本願に繰り入れる）に記載の画素色配列パターンがある。これらはいずれも例であり、画素色配列パターンとして使用可能なパターンは多様である。

ご理解頂けるように、これらイメージセンサ１４、タイミング発生器１２並びにＡＳＰ及びＡ／Ｄコンバータ１６は、互いに別々のＩＣとして製造することも、ＣＭＯＳイメージセンサでの通例に倣い単一のＩＣとして製造することも可能である。そうしたＩＣに、図１に示した機能、例えばプロセッサ２０によって担われている機能の一部を担わせることもできる。

タイミング発生器１２によるイメージセンサ１４の駆動モードとしては、まず、低解像度画像データのモーション付時系列が生じる第１モードがある。ビデオ画像撮影時やスチル撮影に先立つプリビュー・構図検討時には、１２８０×７２０画素のＨＤ（登録商標）解像度画像データ、６４０×４８０画素のＶＧＡ解像度画像データ等、センサ１４の解像度に比べかなりカラム数及びロー数が少ないセンサ画像データがこのモード下で生成される。

プリビュー向けのセンサ画像データには、同色隣接画素間で画素値を結合させる処理、一部画素値を無視する処理、ある色について画素値同士を結合させる一方他の色について画素値を無視する処理等が施されうる。本願出願人を譲受人とする特許文献１５（発明者：Ｐａｒｕｌｓｋｉ，ｅｔａｌ．，名称：ビデオ画像プリビュー中にスチル撮影を開始する電子カメラ(Electronic Camera for Initiating Capture of Still Images while Previewing Motion Images)，この参照を以てその内容を本願に繰り入れる）に記載の処理を施すようにしてもよい。

タイミング発生器１２によるイメージセンサ１４の駆動モードとしては、次に、高解像度スチル画像データが生じる第２モードがある。その結果生じる最終的なセンサ画像データは、例えば４０００×３０００画素の解像度を有する１２メガ画素の高解像度画像データである。光景輝度が高い場合はセンサ１４内諸画素の画素値が最終画像データとして使用されるが、光景輝度が低い場合は信号強度ひいてはセンサ１４のＩＳＯ（登録商標）速度を増強すべくセンサ１４内類色画素間で画素値をビニング（結合）したものが最終画像データとして使用される。

プロセッサ２０は、その際、焦点長設定が適正になり光景からの光がイメージセンサ１４上に合焦するよう制御信号を発してズーム／合焦モータドライバ８を制御する。センサ１４の露光レベルは、可調絞り及び可調シャッタ６によるｆ／ナンバー及び露光時間の制御、タイミング発生器１２によるセンサ１４の露光周期の制御、並びにＡＳＰ及びＡ／Ｄコンバータ１６による利得設定即ちＩＳＯ（登録商標）速度設定の制御によって制御される。プロセッサ２０は光景を照らすべくフラッシュ２も制御する。

上掲の第１モードでは、本願出願人を譲受人とする特許文献１２（発明者：Ｐａｒｕｌｓｋｉｅｔａｌ．、名称：プログレッシブスキャンイメージセンサ上に画像を高速自動合焦させる電子カメラ(Electronic Camera with Rapid Automatic Focus of an Image upon a Progressive Scan Image Sensor)，この参照を以てその内容を本願に繰り入れる）記載の通り、ディジタルカメラ１０のレンズ４をスルーザレンズ方式で自動合焦させることができる。これは、ズーム／合焦モータドライバ８を用いレンズ４の焦点位置を至近焦点位置から無限遠焦点位置に至る範囲内で様々に変化させつつ、イメージセンサ１４で撮影された画像の中央領域でシャープネス値がピークを呈する焦点位置即ち最善焦点位置を、プロセッサ２０にて判別することで実行される。この最善焦点位置に対応する焦点距離は、適切な光景モードの自動設定等を含め幾通りかの目的で事後使用できることから、他のレンズ設定情報及びカメラ設定情報と共に画像ファイル内にメタデータとして格納される。

プロセッサ２０は、ディスプレイメモリ３６内に一時格納されていた低解像度カラー画像や作成したメニューを画像ディスプレイ３２上に表示させる。このディスプレイ３２は能動マトリクスカラー液晶ディスプレイ（ＬＣＤ）であるが、有機発光ダイオード（ＯＬＥＤ）ディスプレイをはじめ他種ディスプレイを使用することもできる。ディジタルカメラ１０からのビデオ画像出力信号は、ビデオインタフェース４４を介しビデオディスプレイ４６、具体的にはフラットパネルＨＤＴＶディスプレイに供給される。ビデオ撮影モードやプリビューモードでは、バッファメモリ１８から読み込まれたディジタル画像データがプロセッサ２０によって操作され、一連のモーションプリビュー画像が画像ディスプレイ３２上に原則としてカラーで表示される。画像表示モードでは、画像メモリ３０内に格納されているディジタル画像ファイル内の画像データに基づき画像ディスプレイ３２上に画像が表示される。

その画像ディスプレイ３２上には、ユーザ用コントローラ３４を介したユーザ入力で操作可能なグラフィカルユーザインタフェースが表示される。コントローラ３４は、ビデオ撮影モード、スチル撮影モード、画像表示モード等をはじめとする諸カメラモードの設定や、スチル撮影開始、ビデオ記録開始等の指示に使用される。本実施形態では、コントローラ３４の一種たるシャッタボタンをユーザが半押しすると上掲の第１モードに移行してスチル画像のプリビューが可能となり、全押しすると第２モードに移行してスチル撮影が実行される。コントローラ３４は、更に、カメラへの電源投入、レンズ４の操作及び撮影プロセスの起動にも使用される。コントローラ３４は、ボタン、ロッカスイッチ、ジョイスティック、ロータリダイアル、その任意の組合せ等のほか、ディスプレイ３２に重畳されたタッチスクリーン等の形態を採りうる。ステータスディスプレイや画像ディスプレイを幾つか追加することもできる。

ユーザ用コントローラ３４を用いカメラをタイマーモードに設定することもできる。タイマーモードの許では、ユーザがシャッタボタンを全押しした後、若干の遅延時間例えば１０ｓｅｃを経た後プロセッサ２０によるスチル撮影が開始される。

プロセッサ２０には、更に、マイクロホン２４から音声信号を受け取りスピーカ２６に音声信号を供給するオーディオコーデック２２が接続されている。これらの部材は、オーディオトラックの記録・再生時だけでなく、ビデオ画像時系列、スチル画像等の記録・再生にも使用可能である。ディジタルカメラ１０をカメラ付携帯電話等の多機能デバイスとして構成し、マイクロホン２４及びスピーカ２６を通話手段として使用することも可能である。

本実施形態ではスピーカ２６がユーザインタフェースの一部としても使用される。具体的には、ユーザ用コントローラ３４が操作されたことや、特定のモードが指定されたことが、スピーカ２６に発する種々の可聴信号で通知される。本実施形態では、更にマイクロホン２４、オーディオコーデック２２及びプロセッサ２０を用い音声認識が実行される。従って、ユーザは、コントローラ３４の操作ではなく音声コマンドによってプロセッサ２０に入力することができる。スピーカ２６は、更に、電話コールの到来をユーザに通知する手段等としても使用される。この通知には、ファームウェアメモリ２８内に格納されている標準的なリングトーンが使用される。ワイヤレスネットワーク５８経由で画像メモリ３０内にカスタムリングトーンをダウンロード済であれば、そのカスタムリングトーンを使用することもできる。更に、図示しないが、電話コールの到来をサイレントモード即ち非可聴モードで通知できるよう振動デバイスを設けてもよい。

本実施形態のディジタルカメラ１０は加速度計２７を備えているので、カメラモーションに関する情報をそこから得ることができる。好ましいことに、この加速度計２７は、直交三軸それぞれについて線加速度及び角加速度を検知できるものであるので、合計６次元分の情報を取得することができる。

プロセッサ２０は、また、イメージセンサ１４から得られる画像データに更なる処理を施してｓＲＧＢ（登録商標）画像データに変換し、それを圧縮して最終的な画像ファイル、例えば周知のＥｘｉｆ（登録商標）−ＪＰＥＧ形式による画像ファイルを生成し、そのファイルを画像メモリ３０内に格納する。

ディジタルカメラ１０は、有線インタフェース３８を介しインタフェース／充電器４８、ひいては家庭内又は事務所内のデスクトップ乃至ポータブルコンピュータ４０に接続することが可能である。この例では、そのインタフェース３８として周知のＵＳＢ２．０インタフェース仕様に適合するものが使用されている。そのため、インタフェース／充電器４８からインタフェース３８を介し図示しないカメラ１０内二次電池群へと電力を供給することができる。

ディジタルカメラ１０は、また、ワイヤレスモデム５０を介し無線周波数帯５２経由でワイヤレスネットワーク５８に接続することが可能である。モデム５０が準拠する無線インタフェースプロトコルは、例えば、周知のＢｌｕｅｔｏｏｔｈ（登録商標）無線インタフェース、周知のＩＥＥＥ８０２．１１無線インタフェース等である。コンピュータ４０に届いた画像は、そこからインターネット７０経由でフォトサービスプロバイダ７２、例えばＫｏｄａｋ（登録商標）ＥａｓｙＳｈａｒｅ（登録商標）ギャラリに登録することができる。プロバイダ７２に登録された画像には、図示しない他種装置からもアクセスすることができる。

本発明は、ワイヤレスモデム５０がワイヤレスリンク等の無線周波数リンクを介し図示しない携帯電話網例えば３ＧＳＭ（登録商標）網に接続し、ディジタルカメラ１０内のディジタル画像ファイルをインターネット７０上に送出する形態でも実施することができる。送出されたディジタル画像ファイルはコンピュータ４０やフォトサービスプロバイダ７２で受信される。

次に、図２を参照しつつ本発明の一実施形態に係る方法について説明する。本方法では、まず、ディジタルビデオ撮影装置例えばディジタルカメラ１０を用い、複数個のビデオフレームを有するディジタルビデオ時系列がディジタルビデオ時系列撮影ステップ２１０にて撮影される。

ディジタルビデオ時系列撮影時には特徴量判別ステップ２２０、即ちビデオフレーム群又はその一部の解析を通じ一通り又は複数通りの特徴量を判別するステップも実行される。その判別で求まる特徴量としては、まず、ビデオフレームの色特性やビデオフレーム内顔存否をはじめ、ビデオ属性に関連する特徴量がある。連続ビデオフレーム間大域モーション量や、連続ビデオフレーム内対応要素間局所モーション量をはじめ、モーションに関連する特徴量も求まる。大域モーションが一般に撮影装置の動きに対応するのに対し、局所モーションは光景内被写体の動きに対応している。いわゆる当業者にはご理解頂けるように、上掲の特徴量は一例であり、ビデオフレームに対する解析を通じて他種特徴量を判別することもできる。

同ステップ２２０で判別可能な特徴量としてはオーディオ関連の特徴量もある。例えば、時間領域における信号強度、特定周波数帯域における信号強度等といった特徴量は、ディジタルビデオ時系列撮影時にマイクロホン２４を介し録音され、オーディオコーデック２２で処理された１個又は複数個のオーディオサンプルを、解析に供することで判別することができる。

同ステップ２２０で判別可能な特徴量としては装置設定関連の特徴量もある。例えば、ズーム／合焦モータドライバ８の制御によるズームレンズ４のポジション調整のため、ユーザ用コントローラ３４経由でユーザから与えられた指令、といった特徴量である。この種の特徴量は、ディジタルビデオ時系列撮影時におけるディジタルビデオ撮影装置の設定を解析することで判別できる。ディジタルズームでも像の倍率が変わるので、ディジタルズームを別途特徴量として判別するようにしてもよい。

同ステップ２２０で判別可能な特徴量としては、ディジタルカメラ１０の動きに関する計測結果を示す特徴量もある。この種の特徴量は、例えば、ディジタルビデオ時系列撮影時に加速度計２７から得られた加速度計データを解析することで判別でき、ビデオフレームデータに基づき導出されるモーション関連特徴量の補強乃至代替として使用することができる。

同ステップ２２０で判別可能な特徴量としては、プロセッサ２０でのビデオ符号化処理適用によって生じるデータの解析結果もある。解析対象データの例としては、ビデオ符号化処理中に実行されるモーション推定処理にて生じるモーションベクトル情報等がある。大抵のビデオ符号化処理では、そうしたモーション推定処理が通常処理鎖の一部としてルーチン的に実行される。

ビデオフレーム毎の特徴量判別が済んだ後は、ディジタルビデオ時系列圧縮ステップ２３０にてビデオフレームが圧縮される。使用するビデオ圧縮アルゴリズムは、ＭＰＥＧ規格、Ｈ．２６３規格その他、いわゆる当業者にとり周知の規格に準拠したもの等である。圧縮が済んだビデオフレームはコンテナ、具体的にはＡｐｐｌｅ（登録商標）ＱｕｉｃｋＴｉｍｅ（登録商標）で提供されるビデオファイル用のファイルフォーマットラッパによって収容される。

圧縮版ディジタルビデオ時系列格納ステップ２４０では、圧縮が済んだディジタルビデオ時系列がプロセッサ可アクセスメモリ内例えば画像メモリ３０内に格納される。格納される圧縮版ディジタルビデオ時系列はビデオ情報やオーディオ情報を含むものである。

特徴量判別ステップ２２０で判別された特徴量は、例えば、格納される圧縮版ディジタルビデオ時系列に係るメタデータとして格納される。そのメタデータの格納には、例えば、Ａｐｐｌｅ（登録商標）ＱｕｉｃｋＴｉｍｅ（登録商標）ファイルフォーマット仕様で規定されているユーザデータアトム等を使用することができる。

これに代え、圧縮状態で格納されるディジタルビデオ時系列に関連付けられた別のファイル内に、特徴量判別ステップ２２０で判別された特徴量を格納するようにしてもよい。

また、ディジタルビデオ時系列を圧縮状態で格納する際に、特徴量判別ステップ２２０で判別された特徴量が恒久格納型メモリに格納されないようにしてもよい。この場合、その特徴量はビデオサマリ生成アルゴリズム終了時点で破棄される。

こうしてビデオ撮影動作及び圧縮版ディジタルビデオ時系列の格納が済んだ後、キービデオ断片特定ステップ２５０では、そのディジタルビデオ時系列を代表するキービデオ断片が特定される。即ち、プロセッサを用い諸特徴量を自動解析することで、格納した圧縮版ディジタルビデオ時系列を伸張することなく、幾つかのディジタルビデオ時系列内ビデオフレームを含むキービデオ断片が１個又は複数個特定される。キービデオ断片は、原則として、そのディジタルビデオ時系列内で連なっているビデオフレーム複数個の集まりであるので、始点フレーム番号と、終点フレーム番号又はキービデオ断片長との組合せで、個々別々に特定することができる。

関連する諸特徴量に基づきビデオ時系列内キービデオ断片を特定する手法としては、例えば、本件技術分野既知の諸手法が使用される。その一例は、まずキービデオフレームを幾つか特定し、個々のキービデオフレームを包含するようビデオ時系列の一部を選択することによって、個々のキービデオ断片を生成する手法である。特許文献２６（発明者：Ｌｕｏｅｔａｌ．，この参照を以て本願に繰り入れる）に記載の如く、ディジタルモーション推定で算出されたビデオ内モーションに基づきキービデオフレームを選択する手法や、特許文献４（発明者：Ｌｕｏｅｔａｌ．，この参照を以て本願に繰り入れる）に記載の如く、そのビデオ撮影装置に付随する加速度計からデータとして得られるビデオ内モーションの特徴に基づきキービデオフレームを選択する手法は、本発明の実施に当たり、特徴量判別結果に基づくキービデオ断片の特定に利用可能である。

格納済の圧縮版ディジタルビデオ時系列に関連付けられた別のファイル内に特徴量が格納されている場合は、キービデオ断片特定ステップ２５０で解析すべき特徴量がそのファイルから読み込まれる。

格納済の圧縮版ディジタルビデオ時系列に係るメタデータとして特徴量が格納されている場合は、キービデオ断片特定ステップ２５０にて、格納済の圧縮版ディジタルビデオ時系列に係るビデオフレーム群を伸張することなく、解析すべき特徴量がその圧縮版ディジタルビデオ時系列に係るファイルから抽出される。格納済の圧縮版ディジタルビデオ時系列に係るメタデータとして格納された特徴量の抽出が、その圧縮版ディジタルビデオ時系列の伸張と見なされるべきではないことに留意されたい。格納済の圧縮版ディジタルビデオ時系列を伸張することに該当するのは、寧ろ、圧縮版ディジタルビデオ時系列に係る一連のビデオフレームを再構築する際に使用される圧縮済ビットストリーム内データ、例えばビデオ情報やヘッダ情報を復号することである。

本発明に備わる利点の一つは、格納済の圧縮版ディジタルビデオ時系列を伸張することなくキービデオ断片を特定できることである。そのため、キービデオ断片の特定やそれに後続するビデオサマリの生成が、撮影動作の終了からあまり間をおかずに終了する。格納済の圧縮版ディジタルビデオ時系列から個別のビデオフレームを抽出する手段として伸張が使用される従来の手法では、伸張タスクの実行に必要な時間の長さが桎梏となっていた。

キービデオ断片の特定は、そのディジタルビデオ時系列の撮影時に判別された特徴量に関する解析の結果に全面的に依拠して実行することも、格納済の圧縮版ディジタルビデオ時系列から抽出された情報を解析で得た特徴量と併用して実行することも可能である。後者の場合、格納済の圧縮版ディジタルビデオ時系列に含まれる情報を部分的に復号しなければならなくなることもあり得る。

例えば、格納済の圧縮版ディジタルビデオ時系列から抽出されたオーディオ情報を解析で得た特徴量と併用してキービデオ断片を特定する場合である。ただ、オーディオ情報は、圧縮版ディジタルビデオファイル全体に占める比率が小さいのが普通であり、ビデオフレームを構成する画素データの伸張に比べ迅速に抽出することができる。また、オーディオ属性関連の特徴量を撮影時に生成できなかった場合や、オーディオ属性関連その他の特徴量の判別並びに撮影したビデオの処理及び符号化に利用可能な期間がプロセッサの情報処理サイクル内になかった場合でも、格納済の圧縮版ディジタルビデオ時系列からオーディオ情報を抽出すれば、そのオーディオ情報をキービデオ断片特定に役立てることができる。これは、速度・性能間の折衷を表している。即ち、オーディオ情報を利用することで、キービデオ断片特定に要する処理時間の全体的長期化と引替に、キービデオ断片特定ステップ２５０の性能を高めることができる。

格納済の圧縮版ディジタルビデオ時系列から抽出されたビデオ情報を解析で得た特徴量と併用してキービデオ断片を特定する場合も同様である。ビデオ時系列全体を伸張してしまうと、ビデオ属性関連特徴量を撮影時に判別するメリットが概ね打ち消されてしまうので、格納済の圧縮版ディジタルビデオ時系列を構成するビデオフレームのうち復号されるものの個数を可能な限り少数にするのが望ましい。いわゆる当業者にはご理解頂けるように、他フレームに対し独立に符号化されているフレームであれば、そのフレームを圧縮版ディジタルビデオ時系列から効率的に復号することができる。これも、速度・性能間の折衷を表している。即ち、ビデオ情報を利用することで、キービデオ断片特定に要する処理時間の全体的長期化と引替に、キービデオ断片特定ステップ２５０の性能を高めることができる。

キービデオ断片特定ステップ２５０の実行に当たり、ユーザ用コントローラ３４を介したユーザ入力を受け取り、それに応じビデオサマリの諸属性を制御するようにしてもよい。例えば、ビデオサマリの長さ、個別のキービデオ断片の最短時間長、キービデオ断片の総数等に関しユーザから指定を受ける形態である。

キービデオ断片特定ステップ２５０にて、本願出願人を譲受人とする係属中の米国特許出願第１２／７８６４７１号（発明者：Ｄｅｅｖｅｒ，名称：キービデオフレーム判別方法(Method for Determining Key Video Frames)）に記載の手法を用いるようにしてもよい。この手法は、ディジタルビデオ時系列を解析することで重要度の時間変化を導出し、その結果に基づきそのディジタルビデオ時系列の時間歪曲表現を生成し、その時間歪曲表現を複数個の歪曲等長期間へと分割し、各歪曲等長期間内のビデオフレームを解析することで当該歪曲等長期間毎にキービデオフレームを選択する、というものである。重要度はそのディジタルビデオ時系列に備わる大域モーション、局所モーション等の特性を反映した情報、特に特徴量判別ステップ２２０における特徴量判別の結果に基づき導出される情報である。時間歪曲表現は、ディジタルビデオ時系列内ビデオフレームのうちあるものを長め、他のあるものを短めにする、といった具合に加重した表現である。キービデオフレーム選択は、特徴量判別ステップ２２０にて判別された特徴量のうち対応する歪曲等長期間内のビデオフレーム群に係るものを解析することで行うのが望ましい。例えば、ズームイン動作終了から間もない、その中央領域における局所モーションの程度が中庸である等といった条件を満たすビデオフレームがキーフレームとして選択される。

キービデオフレーム判別後は、個々のキービデオフレームの前後にある一群のビデオフレームを選択することで個々のキービデオ断片を特定すればよい。具体的には、キービデオフレームの前２ｓｅｃから後２ｓｅｃまで、合計４ｓｅｃの期間に属するビデオフレーム群を選択することでキービデオ断片を特定すればよい。

キービデオ断片は、また、キービデオフレームに対しランク付けを行い、最高ランクキービデオフレームに関連する一群のキービデオフレームのみでキービデオ断片を生成する、といった手法でも特定することができる。キービデオフレームに対するランク付けは、ディジタルビデオ時系列を解析することでカメラ移動パターンを判別し、そのカメラ移動パターンに基づきキービデオフレームのランクを決めることで行うことができる。例えば、特徴量判別ステップ２２０で判別された特徴量のうち大域モーションに関連するものを解析することで、そのディジタルビデオ時系列におけるカメラ固定領域の変遷を示す大域モーション軌跡を得ることができる。ビデオ撮影の全過程長に比し高い比率でカメラが固定されていた領域、即ち高頻度固定領域に対応するビデオフレームには、高いランクが付される。このランク付け処理は各周回毎に最高ランクキービデオフレームを選択する反復的な処理として実行すればよく、またその処理の個々の周回では既選択キービデオフレームのそれと同じ固定領域を表すキービデオフレームに比しそれ以外の固定領域を表すキービデオフレームを優先的に選択するようにすればよい。キービデオフレームのランク付け後は、最高ランクキービデオフレームが包含されるようにキービデオ断片を特定すればよい。

上掲の通り、キービデオ断片は、各キービデオフレームの前から後にかけて一群のビデオフレームを選択することで特定することができる。これに代え、ビデオサマリの総時間長やキービデオ断片の最短許容時間長に関する条件を設定し、それらの条件を満たすように選択することでもキービデオ断片を特定することができる。更なる条件を課すこと、例えば話者音声がそのキービデオ断片の開始部分や終了部分で途切れない、といった条件を課すこともできる

キービデオ断片特定後、ビデオサマリ生成ステップ２６０ではビデオサマリが生成される。即ち、キービデオ断片同士を結合させてひとまとまりにすることでビデオサマリが生成される。本実施形態では、ディジタルビデオ時系列における登場順序に合致する順序でキービデオ断片同士が結合される。

ビデオサマリ表現子格納ステップ２７０では、そのビデオサマリの表現子がプロセッサ可アクセスメモリ内に格納される。プロセッサ可アクセスメモリ内に格納されるビデオサマリ表現子は、例えば、ビデオサマリを組成するディジタルビデオ時系列内ビデオフレーム群を指し示すフレーム指示メタデータである。フレーム指示メタデータは格納済の圧縮版ディジタルビデオ時系列と関連付けつつ格納することが可能なデータであり、ビデオサマリを組成する諸キービデオ断片の始点及び終点フレーム等を指し示している。この形態であれば、ビデオサマリ表現子の格納に必要な物理メモリ量を、フレーム指示メタデータの格納に必要なそれに抑えることができる。

プロセッサ可アクセスメモリ内に格納されるビデオサマリ表現子は、或いは、そのビデオサマリに対応する融合版ビデオ時系列である。これは、特定されたキービデオ断片を組成するビデオフレーム群を格納済の圧縮版ディジタルビデオ時系列から抽出し、それらビデオフレーム同士を融合させることで、新規に生成することができる。その際には、ときとして、圧縮版ディジタルビデオ時系列を部分的に復号することや、融合版ビデオ時系列を圧縮して圧縮版ビデオ時系列を生成することが必要になる。融合版ビデオ時系列にビデオデータだけでなくオーディオデータをも含めるには、オーディオデータを圧縮版ディジタルビデオ時系列から抽出する必要もある。

生成された圧縮版ビデオサマリをプロセッサ可アクセスメモリ内に格納する際には、対応する圧縮版ディジタルビデオ時系列のそれとは別のディジタルビデオファイル内にその圧縮版ビデオサマリを格納する形態を採ることができる。この形態ではそのディジタルビデオファイルがビデオサマリ表現子となるので、ビデオサマリ表現子を元々の圧縮版ディジタルビデオ時系列とは独立に視聴乃至共有することが可能である。ビデオサマリ表現子たるディジタルビデオファイルのフォーマットは、標準的なビデオプレーヤで再生可能なフォーマットにするのが望ましい。

抽出されたビデオフレーム群を圧縮して圧縮版ビデオサマリを生成する際には、例えば、そのビデオフレーム群を再サンプリングすることで空間解像度を従前の値から新たな値へと変化させ、新たな空間解像度に係るビデオフレーム群を圧縮して圧縮版ビデオサマリを生成するのが望ましい。この再サンプリングは、高空間解像度で撮影されたビデオを共有する際に有益である。何故なら、含まれるビデオフレームの個数が少なくそのビデオフレームの空間解像度も低い圧縮版ビデオサマリ、即ち圧縮版ディジタルビデオ時系列よりも小サイズで共有しやすいビデオサマリが得られるからである。低空間解像度ビデオサマリは高解像度ビデオサマリ全体を伸張することなく生成することができる。伸張が必要なのは、ビデオサマリの生成に必要なビデオフレームのみである。

同様に、抽出されたビデオフレーム群を圧縮して圧縮版ビデオサマリを生成する際に、そのビデオサマリを組成するビデオフレームを時間軸沿いに再サンプリングして、時間解像度を従前の値から新たな値へと変化させることもできる。

図３に、本発明の他の実施形態に係るビデオサマリ生成方法として、生成されたビデオサマリをユーザがプリビューすること、並びに設定調整を通じユーザがビデオサマリ生成結果の更新を要求することが可能な方法を示す。ディジタルビデオ時系列撮影ステップ２１０、特徴量判別ステップ２２０、ディジタルビデオ時系列圧縮ステップ２３０、圧縮版ディジタルビデオ時系列格納ステップ２４０、キービデオ断片特定ステップ２５０、ビデオサマリ生成ステップ２６０及びビデオサマリ表現子格納ステップ２７０はいずれも図２を参照して説明したものと同じ要領で実行されるが、本実施形態では、ビデオサマリ生成ステップ２６０にて生成されたビデオサマリがその格納に先立ちビデオサマリ表示ステップ２６２にてユーザ向けに表示され、そのビデオサマリに関するユーザの諾否がユーザ諾否判別ステップ２６４にて確認される。ユーザが満足との意向を示した場合はビデオサマリ表現子格納ステップ２７０に移行して図２同様の処理が実行されるが、不満足との意向を示した場合は、一通り又は複数通りの設定に関しユーザ設定調整ステップ２６６にてユーザによる調整を受けた上で新たなビデオサマリが生成される。ユーザ設定の調整はユーザ用コントローラ３４を介し行うことができる。その対象には、ビデオサマリの時間長、キービデオ断片の最短時間長、ビデオサマリに含まれるキービデオ断片の個数等といったパラメタ群の設定が含まれうる。ユーザによる設定調整が済んだ後は、キービデオ断片特定ステップ２５０及びビデオサマリ生成ステップ２６０にて、新たなユーザ設定に基づくビデオサマリが新規生成される。いわゆる当業者にはご理解頂ける通り、ユーザは、ビデオサマリのプリビューや設定調整を、自分が満足できるビデオサマリが得られるまで繰返し実行することができる。

図４に、本発明の他の実施形態に係るビデオサマリ生成方法として、ビデオサマリを特定するデータが格納済ディジタルビデオ時系列に係るメタデータとして格納される方法を示す。まず、ディジタルビデオ時系列撮影ステップ４１０では、複数個のビデオフレームを有するディジタルビデオ時系列がディジタルビデオ撮影装置によって撮影される。ディジタルビデオ時系列格納ステップ４２０では、そのディジタルビデオ時系列がプロセッサ可アクセスメモリ内に格納される。図２中の特徴量判別ステップ２２０で判別されるような特徴量を、そのディジタルビデオ時系列と共に格納してもよいし格納しなくてもよい。

次いで、キービデオ断片特定ステップ４３０では、格納済のディジタルビデオ時系列に含まれるビデオフレームのうち１個又は複数個で組成されるキービデオ断片が１個又は複数個特定される。このステップ４３０は、例えば、図２を参照して説明したキービデオ断片特定ステップ２５０に倣い、格納済の特徴量に基づき実行される。同ステップ４３０を、格納済のディジタルビデオ時系列を構成するフレーム群をビデオ解析アルゴリズムに従い直接解析する過程を含む形態にすることもできる。その場合、ステップ４３０を実行するのに、解析上の必要性に従いディジタルビデオ時系列を伸張することが必要になろう。キービデオ断片特定には、図２を参照して前述したものを含め、本件技術分野で知られている諸手法を使用することができる。

ビデオサマリ生成ステップ４４０では、図２中のビデオサマリ生成ステップ２６０と同じく、特定されたキービデオ断片同士の結合によってビデオサマリが生成される。ビデオサマリ指示メタデータ格納ステップ４５０では、そのビデオサマリに相応するビデオフレーム群を指し示すメタデータを、格納済のディジタルビデオ時系列に関連付けて格納することで、プロセッサ可アクセスメモリにおけるビデオサマリの所在が特定される。

キービデオ断片特定ステップ４３０、ビデオサマリ生成ステップ４４０及びビデオサマリ指示メタデータ格納ステップ４５０は、ディジタルビデオ時系列撮影ステップ４１０やディジタルビデオ時系列格納ステップ４２０が実行されるものとは異なるディジタルビデオ撮影装置上やプロセッサ２０上で実行することもできる。例えば、ステップ４２０にてディジタルビデオ時系列が格納される画像メモリ３０をリムーバブルメモリカードとし、そのメモリカードを用いディジタルビデオ時系列を別の装置に運び、その装置でステップ４３０〜４５０を実行するようにしてもよい。例えば、図１に示したものに類する別のディジタルビデオ撮影装置にディジタルビデオ時系列を運ぶことや、図１に示したコンピュータ４０等の他装置やビデオ編集システムといったシステムにディジタルビデオ時系列をロードしそこでの処理でビデオサマリを生成させるようにしてもよい。

キービデオ断片特定ステップ４３０は、格納済のディジタルビデオ時系列から１個又は複数個のビデオフレームを抽出する過程及び抽出したビデオフレームを解析することでそれらのビデオフレームに係る特徴量を判別する過程を含む形態にすることができる。ステップ４３０は、更に、格納済のディジタルビデオ時系列から１個又は複数個のオーディオサンプルを抽出する過程及びそれらのオーディオサンプルを解析することでそのオーディオサンプルに係る特徴量を判別する過程を含む形態にすることもできる。これらの特徴量に関する解析はキービデオ断片の特定に役立つ。

ビデオサマリ指示メタデータ格納ステップ４５０は、ビデオサマリを組成するディジタルビデオ時系列内ビデオフレーム群を指し示すフレーム指示メタデータを格納する形態にすることができる。この要領に従いビデオサマリをフレーム指示メタデータとして格納することは、ビデオサマリの格納に必要な物理メモリの量がフレーム指示メタデータの格納に必要な最小限の量に留まる点で有益なことである。好ましいことに、フレーム指示メタデータは、格納済の圧縮版ディジタルビデオ時系列に関連付けつつ格納することができる。例えば、ビデオサマリ内キービデオ断片を組成するフレームのうち一群の始点フレーム及び終点フレームを指し示すビデオサマリ表現子を、メタデータとして、格納済の圧縮版ディジタルビデオ時系列に係るファイル内に格納すればよい。格納済の圧縮版ディジタルビデオ時系列に係るファイルとは別のファイル内に、フレーム指示メタデータを格納してもよい。

ビデオサマリ指示メタデータ格納ステップ４５０にて、更に、キービデオ断片を組成するオーディオサンプルのうちビデオサマリを組成するものを指し示すメタデータを格納するようにしてもよい。

ビデオサマリ指示メタデータ格納ステップ４５０にて、更に、特定されたキービデオ断片間の境界に適用されるビデオトランジション効果を指し示すメタデータをも格納するようにしてもよい。ビデオトランジション効果としては、例えば、あるキービデオ断片から次のキービデオ断片へのフェーディング（クロスディゾルブ効果）、あるキービデオ断片からホワイト画面又はブラック画面を経て次のキービデオ断片へのフェーディング等を指定することができる。その他のトランジション効果、例えばクロスワイプ効果、サークル拡／縮効果、横／縦ブラインド効果、チェックボードトランジション効果等の特殊効果を指定することもできる。いわゆる当業者にはご理解頂ける通りこれらは例示に過ぎず、本発明の実施に際してはその他様々なトランジション効果も使用することができる。ビデオトランジション効果を使用することで、ディジタルビデオ時系列内セグメント間の突飛な遷移がなく視覚的品質が総合的に高いビデオサマリを得ることができる。

ビデオサマリ指示メタデータ格納ステップ４５０にて、更に、キービデオ断片間の境界に適用されるオーディオトランジション効果を指し示すメタデータをも格納するようにしてもよい。オーディオトランジション効果としては、例えば、有音から無音へのフェーディングや無音から有音へのフェーディングを指定することができる。そうしたオーディオトランジション効果を使用することで、ディジタルビデオ時系列内オーディオセグメント間の突飛な遷移がなく聴覚的品質が総合的に高いビデオサマリを得ることができる。

図５に、本発明の一実施形態に係りビデオ再生システム上で実行されるビデオサマリ表示方法の流れを示す。図示の方法は、直に表示可能なディジタルビデオファイルとして格納されているビデオサマリではなくその所在がメタデータで特定されているビデオサマリの表示に適した方法である。

まず、データ読込ステップ５１０では、格納済のビデオサマリに係るデータ、具体的には格納済のディジタルビデオ時系列を構成するビデオフレームのうちそのビデオサマリを組成するものを指し示すデータが読み込まれる。例えば、そのビデオサマリを組成するビデオフレームを指し示すデータが、ディジタルビデオ時系列の格納先と同じディジタルビデオファイル内に格納されているメタデータ、特にそのビデオサマリを組成するビデオフレームがどれかを示すメタデータから抽出される。或いは、格納済のディジタルビデオ時系列に関連付けられている別のファイルから抽出される。

次に、ビデオフレーム抽出ステップ５２０では、ビデオフレームのうちキービデオ断片ひいてはビデオサマリを組成しているものが、格納済のディジタルビデオ時系列から抽出される。ディジタルビデオ時系列が通例に倣い圧縮状態で格納されている場合、このステップ５２０ではそのディジタルビデオ時系列の伸張も実行される。

ビデオサマリ生成ステップ５３０では、キービデオ断片毎のビデオフレーム抽出結果に基づきビデオサマリが生成される。このステップ５３０の最も単純な実行形態は、抽出されたビデオフレームを単純に並べて途切れのないビデオクリップを生成する、というものである。

ビデオサマリ生成後、ビデオサマリ表示ステップ５４０では、そのビデオサマリがソフトコピーディスプレイの画面上に表示される。ソフトコピーディスプレイとしては、例えば、ディジタルビデオ撮影装置上の閲覧画面や、コンピュータに接続されているディスプレイや、テレビジョン受像機の画面を使用することができる。

データ読込ステップ５１０は、ビデオサマリに相応するオーディオサンプル群を指し示す指示子をも得る形態にすることができる。この場合、ビデオフレーム抽出ステップ５２０にて、更に、格納済のディジタルビデオ時系列を組成するオーディオサンプル群のなかからそのビデオサマリに相応しいものを抽出するようにすればよい。

データ読込ステップ５１０にて、更に、そのビデオサマリで使用されるビデオトランジション効果を指し示す指示子、そのビデオサマリで使用されるオーディオトランジション効果を指し示す指示子等を得るようにしてもよい。ビデオトランジション効果を指し示す指示子がデータ読込ステップ５１０で得られていれば、ビデオサマリ生成ステップ５３０にて、抽出済のビデオフレーム群をその指示子に係るトランジション効果に従い変形することで、所望のトランジションを呈するように編集されたビデオサマリを生成することができる。従って、例えば、ビデオサマリ内キービデオ断片の末尾に位置する１５個のフレームにブラック化フェーディング性のビデオトランジション効果を適用せよ、との指示子入りのデータが読み込まれた場合、まず、その効果を適用すべきビデオフレーム群が格納済のディジタルビデオ時系列から抽出され、緩慢なブラック化フェーディング様式に従いそれらのフレームに係るデータが修正される。更に、その次のキービデオ断片の冒頭に位置する１５個のフレームが抽出され、緩慢な通常ビデオ復帰フェーディング様式に従いそれらのフレームに係るデータが修正される。

ソフトコピーディスプレイにオーディオ出力用のスピーカが１個又は複数個備わっている場合、同様に、そのスピーカからのオーディオ出力に先立ちオーディオトランジション効果を適用することが可能である。例えば、キービデオ断片の末尾に位置する８０００個のオーディオサンプルに無音化フェーディング性のオーディオトランジション効果を適用せよ、との指示子入りのデータが読み込まれた場合、まず、その効果を適用すべきオーディオサンプル群が格納済のディジタルビデオ時系列から抽出され、緩慢な無音化フェーディング様式に従いそれらのオーディオサンプルに係るデータが修正される。更に、その次のキービデオ断片の冒頭に位置する８０００個のオーディオサンプルが抽出され、緩慢な通常オーディオ復帰フェーディング様式に従いそれらのオーディオサンプルに係るデータが修正される。

本発明では、ビデオサマリ生成方法として、そのビデオサマリに含まれるビデオフレーム群乃至オーディオサンプル群を指し示すメタデータや、それに適用されるビデオ乃至オーディオトランジション効果を指し示すメタデータを、ディジタルビデオ時系列の格納先と同じディジタルビデオファイル内に格納する、といった方法が使用されうる。また、本発明では、ビデオサマリ表示システムとして、ビデオサマリを組成しているため格納済のディジタルビデオ時系列から抽出する必要があるビデオフレーム及びオーディオサンプルや、ディスプレイ上でのビデオ表示及びスピーカからのオーディオ出力に先立ちデータに適用すべきビデオ及びオーディオトランジション効果を、対応するメタデータを読み込んで特定する、といったシステムが使用されうる。こうした方法及びシステムには、別のビデオファイル内にビデオサマリを格納することなくビデオサマリを表示させることができる、という利点がある。

ユーザが原ビデオ視聴かビデオサマリ視聴かを選べるよう、ビデオディスプレイの装置構成に工夫を施してもよい。例えば、ディジタルビデオカムコーダ上に、原ビデオ時系列再生用のそれとビデオサマリ再生用のそれとに分け、複数個の再生ボタンを設けてもよい。早送りボタンの操作に応じビデオサマリが再生されるようにしてもよい。即ち、従来の早送り機能に代わるビデオ時系列内高速縦貫移動手段として、ビデオサマリ再生を使用することができる。ビデオ時系列内フレーム群の単なる時間サンプリングである従来の早送りに比し、ビデオサマリの再生は、ビデオ時系列のうちユーザが視聴したいと望むであろう部分だけをユーザに提示できる点でより有用なものである。

図５を参照して説明したビデオ再生システムは、ビデオサマリに係るメタデータを格納済のディジタルビデオ時系列から抽出すること、そのメタデータを処理しディジタルビデオ時系列のビデオサマリ版をどのように表示すべきかを判断すること等が可能であるという意味で、スマートなビデオプレーヤである。しかも、ディジタルビデオ時系列全体を視聴したいか、それともビデオサマリ版を視聴したいかに関し、ユーザ向けに選択肢を提示することもできる。これに対し、一般的なビデオプレーヤでは、ビデオサマリとそれに対応するメタデータとの関係を認識できない。とはいえ、一般的なビデオプレーヤでも、格納済の原ディジタルビデオ時系列を読み込んで表示に供することは可能である。即ち、一般的なビデオプレーヤでは、格納済のディジタルビデオ時系列に付随するメタデータが無視される。元々のディジタルビデオ時系列全体なら再生できる。

また、図１及び図２に示すように、本発明には、撮影によりディジタルビデオ時系列を取得して相応のビデオサマリを生成するディジタルビデオ撮影システム（例．ディジタルカメラ１０）なる実施形態がある。本実施形態のシステムは、ビデオフレーム取得用のイメージセンサ１４と、光景の像をイメージセンサ上に発現させる光学系（例．レンズ４及びそれに付随する可調絞り及び可調シャッタ６）と、ビデオサマリを生成してプロセッサ可アクセスメモリ内に格納するプロセッサ２０と、ディジタルビデオ時系列閲覧用の画像ディスプレイ３２と、格納されているディジタルビデオ時系列及びビデオサマリの表現子のうちいずれをソフトコピーディスプレイ上に表示させるかをユーザに選択させる手段（例．ユーザ用コントローラ３４）と、を備える。本システムは、例えば、ディジタルビデオカメラ、スチル撮影モード及びビデオ撮影モードを併有するディジタルカメラ、ウェブカメラ付のラップトップ乃至デスクトップコンピュータ等の形態を採りうる。

ディジタルビデオ撮影システム内のプロセッサ２０は、図２に示した方法の諸ステップを担うソフトウェアを実行する。具体的には、ユーザからの指示に応じ、プロセッサ２０が、複数個のビデオフレームを有するディジタルビデオ時系列の撮影を実行し（ディジタルビデオ時系列撮影ステップ２１０）、その撮影と並行しディジタルビデオ時系列内ビデオフレーム群の一部又は全体を自動解析することで一通り又は複数通りの特徴量を判別し（特徴量判別ステップ２２０）、そのディジタルビデオ時系列を圧縮し（ディジタルビデオ時系列圧縮ステップ２３０）、それにより得られた圧縮版ディジタルビデオ時系列をプロセッサ可アクセスメモリ内に格納し（圧縮版ディジタルビデオ時系列格納ステップ２４０）、格納済圧縮版ディジタルビデオ時系列を伸張することなく特徴量を自動解析することでディジタルビデオ時系列内ビデオフレーム群からなるキービデオ断片を１個又は複数個特定し（キービデオ断片特定ステップ２５０）、キービデオ断片同士を結合させることでビデオサマリを生成し（ビデオサマリ生成ステップ２６０）、そしてそのビデオサマリの表現子をプロセッサ可アクセスメモリ内に格納する（ビデオサマリ表現子格納ステップ２７０）。

ディジタルビデオ時系列内オーディオサンプル群の一部又は全体を自動解析し、一通り又は複数通りの特徴量を判別するステップを、ディジタルビデオ撮影システム内のプロセッサ２０にディジタルビデオ時系列の撮影と並行して実行させるようにしてもよい。

プロセッサ可アクセスメモリ内に判別済の特徴量を格納させるステップ、特に当該特徴量を格納済圧縮版ディジタルビデオ時系列に係るメタデータとして格納させるステップを、ディジタルビデオ撮影システム内のプロセッサ２０に実行させるようにしてもよい。

プロセッサ可アクセスメモリ内に判別済の特徴量を格納させるステップ、特に当該特徴量を格納済の圧縮版ディジタルビデオ時系列に関連付けられた別のファイル内に格納させるステップを、ディジタルビデオ撮影システム内のプロセッサ２０に実行させるようにしてもよい。

特徴量及びユーザ入力を自動解析して１個又は複数個のキービデオ断片を特定するステップを、ディジタルビデオ撮影システム内のプロセッサ２０に実行させるようにしてもよい。ユーザ入力はユーザ用コントローラ３４経由で得ることができる。ユーザ入力としては、ビデオサマリの時間長、ビデオサマリ内キービデオ断片の最短時間長、ビデオサマリ内キービデオ断片の個数等に関する条件を使用可能である。

ビデオサマリ表現子をプロセッサ可アクセスメモリ内に格納するステップを、ディジタルビデオ撮影システム内のプロセッサ２０に実行させるようにしてもよい。例えば、ディジタルビデオ時系列内ビデオフレームのうちビデオサマリを組成するものを指し示すメタデータを生成し、格納済圧縮版ディジタルビデオ時系列に関連付けて格納するステップである。

そのビデオサマリは、ディジタルビデオ撮影システムに備わるユーザ用コントローラ３４に対するユーザの操作に従い、ソフトコピー画像ディスプレイ３２や外付けビデオディスプレイ４６の画面上に表示される。そのビデオサマリが、ディジタルビデオ時系列内ビデオフレームのうちビデオサマリを組成するものをメタデータで指し示す形態で格納されている場合は、図５に示した要領でビデオサマリが抽出、表示される。具体的には、そのディジタルビデオ撮影システムがスマートなビデオプレーヤとして振る舞い、そのメタデータに相応しいビデオ及びオーディオデータを抽出する。

ユーザがビデオサマリを視聴してその可否を判断できるようにユーザインタフェースを構成することも可能である。ユーザがビデオサマリを気に入らない場合もあるので、ビデオサマリに関する設定をユーザ自らが調整できるよう、ユーザ用コントローラ３４を利用し相応の手段をディジタルビデオ撮影システムに設けるのが望ましい。調整対象になりうるユーザ設定としては、ビデオサマリの時間長、ビデオサマリ内キービデオ断片の最短時間長、ビデオサマリ内キービデオ断片の個数等がある。キービデオ断片特定ステップ２５０での処理内容や使用する設定を違え、ビデオサマリの候補を複数個、自動的に生成するようにシステムを構成することも可能である。この構成では、ユーザが複数個の候補から適切なビデオサマリを選べるため、納得のいくビデオサマリが生成されない確率を抑え、本発明の効果を全体として高めることができる。

上掲のディジタルビデオ撮影システムには、格納済圧縮版ディジタルビデオ時系列を伸張することなく、またビデオサマリを符号化して新たなファイルを生成することなく、一群のビデオサマリを迅速に生成、表示できるという利点がある。

ビデオサマリが別のファイル内に格納される構成では、ネットワーク上でのビデオサマリ共有や、圧縮版ディジタルビデオ時系列内メタデータを解釈してビデオサマリを抽出することが可能なスマートビデオディスプレイが実装されていない装置でのビデオサマリ参照を、より好適に実行することができる。この場合、ディジタルビデオ撮影システム内のプロセッサ２０で生成されるビデオサマリ表現子の格納先を、一般的なビデオプレーヤで再生可能なフォーマットのディジタルビデオファイル内とするのが望ましい。ビデオサマリが常に別ファイルを形成する構成にしてもよいし、ユーザがユーザ用コントローラ３４を操作しビデオサマリの格納形態を指定する構成、例えばユーザインタフェース上の共有ボタンをユーザが操作した場合にビデオサマリが別ファイルで格納される構成にしてもよい。

ビデオサマリが別ファイルで格納されるタイプのディジタルビデオ撮影システムでは、ビデオサマリ表現子をディジタルビデオファイル化してプロセッサ可アクセスメモリ内に格納するステップを、そのプロセッサ２０に実行させることもできる。例えば、格納されている圧縮版ディジタルビデオ時系列の一部又は全体を伸張することでビデオサマリに相応するビデオフレーム群を抽出し、そのビデオフレーム群を圧縮することで圧縮版ビデオサマリを生成し、その圧縮版ビデオサマリをプロセッサ可アクセスメモリ内に格納するソフトウェアを、そのプロセッサ２０が実行する構成である。更に、格納されている圧縮版ディジタルビデオ時系列の一部又は全体を伸張することでビデオサマリに相応するオーディオサンプル群を抽出し、そのオーディオサンプル群を圧縮して圧縮版ビデオサマリ内に組み込むステップを、ディジタルビデオ撮影システム内のプロセッサ２０に実行させるようにしてもよい。

共有に先立ちディジタルビデオ時系列の空間乃至時間解像度を元々の値から低下させることは、コンピュータネットワーク上でのビデオファイル共有に際し有益である。元々の値と異なる空間乃至時間解像度を有するビデオフレーム群は、抽出されたビデオフレーム群をディジタルビデオ撮影システム内のプロセッサ２０にて再サンプリングすることで得られる。本発明の長所の一つは、このように、元々の圧縮版ディジタルビデオ時系列全体を伸張することなく低解像度のビデオサマリを生成可能なことである。圧縮されているディジタルビデオデータのうちビデオサマリ生成に関連するものだけを伸張すればよいため、元々の圧縮版ディジタルビデオ時系列からビデオサマリへとより高速に符号変換することができる。

ネットワーク上でのビデオファイル共有に際しては、また、圧縮の積極性を高めることで、圧縮版ディジタルビデオ時系列のサイズを抑えることができる。抽出されたビデオフレーム群を、格納されている圧縮版ディジタルビデオ時系列でのそれに比し積極的な圧縮設定に従いディジタルビデオ撮影システム内のプロセッサ２０に圧縮させることで、より強く圧縮されたビデオサマリを生成することができる。本発明の長所の一つは、このように、元々の圧縮版ディジタルビデオ時系列全体を伸張することなく、より強く圧縮されたビデオサマリを生成することが可能な点にある。

イメージセンサ１４、光学系（レンズ４）、プロセッサ２０及びソフトコピーディスプレイ（画像ディスプレイ３２）に加えてユーザインタフェースを備えるディジタルビデオカメラの形態でディジタルビデオ撮影システムを構成すること、特に格納済の圧縮版ディジタルビデオ時系列をそのソフトコピーディスプレイ上に表示させるかそれとも格納済のビデオサマリを表示させるかに関する選択肢をそのユーザインタフェース上でユーザ向けに提示する構成にすることも可能である。この場合、ユーザは、そのディジタルビデオカメラでビデオ撮影を行った直後に、そのビデオのサマリ版を視聴することや、そのビデオサマリに対し随意に修正を求めることや、そのビデオサマリを別ファイルで保存させ共有化することができる。

そのディジタルビデオカメラを外部のソフトコピーディスプレイに接続し、ユーザが視聴できるよう、格納済の圧縮版ディジタルビデオ時系列や格納済のビデオサマリをその上に表示させることもできる。

格納されているディジタルビデオ時系列やビデオサマリにアクセス可能な独立したビデオ視聴システムの一構成部材としてソフトコピーディスプレイを設けることや、格納されているディジタルビデオ時系列及び格納されているビデオサマリのうちいずれをソフトコピーディスプレイ上に表示させるかに関しユーザ向けに選択肢を提示するユーザインタフェースをディジタルカメラ上に設けることも可能である。

ディジタルビデオ撮影システム内のプロセッサ２０が、キービデオ断片間にビデオトランジション効果を適用しつつビデオサマリを生成する構成にしてもよい。ビデオトランジション効果の結果は表示時に算出可能であり、格納済圧縮版ディジタルビデオ時系列に係るメタデータでビデオサマリの所在を特定する構成ではそのことが有利に働く。

ディジタルビデオ撮影システム内のプロセッサ２０でキービデオ断片を解析し、複数個あるビデオトランジション効果のなかから幾つかを自動選択する構成にしてもよい。ホワイト化フェーディング性のトランジション効果が相応しいか、ブラック化フェーディング性のトランジション効果が相応しいか、それともそれ以外のビデオトランジション効果が相応しいかはビデオコンテンツ次第であるので、キービデオ断片の自動解析で得られる情報を利用することは、最適な視覚効果をもたらすキービデオ断片間ビデオトランジション効果を特定する上で有用なことである。

オーディオトランジション効果も同様に扱うことができる。ディジタルビデオ撮影システム内のプロセッサ２０に、キービデオ断片間にオーディオトランジション効果を適用しつつビデオサマリを生成させるようにすればよい。オーディオトランジション効果の結果は表示時に算出可能である。

ディジタルビデオ撮影システム内のプロセッサ２０にキービデオ断片特定ステップ２５０の変形版を実行させる形態、例えば特徴量を自動解析しその結果を格納済圧縮版ディジタルビデオ時系列内の情報と併用してキービデオ断片を特定する形態にて、本発明を実施することも可能である。速度が犠牲になるものの、この形態であれば、ビデオサマリを組成するキービデオ断片の特定をより多くの情報に基づき行うことができる。また、撮影時に時間的な余裕がなくプロセッサ２０にて所望の特徴量を導出できない場合も多かろう。そうした場合でも、格納済圧縮版ディジタルビデオ時系列を部分的に伸張することで、キービデオ断片の導出に役立つ情報を抽出することができる。例えば、格納済圧縮版ディジタルビデオ時系列内のオーディオ情報を抽出することや、格納済圧縮版ディジタルビデオ時系列内のビデオ情報を抽出することができる。

本発明には、マニュアルトリミングを支援できるという特徴もある。マニュアルトリミングは多くのディジタルビデオ撮影装置に備わる編集機能であり、これを利用することで、ユーザは、撮影したビデオのリビュー結果に基づきそのビデオの始点及び終点を随意にトリミングすることができる。本発明の許では、単一のキービデオ断片で組成されたビデオサマリが生成されることがあり、そうした場合にはそのビデオサマリの始点及び終点がマニュアルトリミングの推奨点として提示される。

注記すべきことに、撮影時に特徴量を判別し撮影後に特徴量判別結果を利用するという手順は、ビデオサマリ生成以外の用途にも適している。特徴量に基づくキービデオフレーム判別を含め、他のやり方を採る構成も本発明の技術的範囲内であるものと認められる。

また、ディジタルビデオ圧縮アルゴリズムとしては、ディジタルビデオ時系列を複数個のビデオフレーム群に分割して符号化に供するものが多々ある。個々のビデオフレーム群は、独立符号化ビデオフレーム（Ｉフレーム）１個と、復号の際に他のビデオフレーム１個又は複数個に関する情報が必要になる幾つかの予測符号化ビデオフレーム（Ｐフレーム）と、を含む構成である。そのなかではＩフレーム１個が先行し、それぞれそのＩフレームに基づく予測で生成されたＰフレーム幾つかが後続する。ある符号化対象ビデオフレーム群が終わり次の符号化対象ビデオフレーム群が始まる時点で現れるのは後者内のＩフレームである。こうした圧縮方式では、圧縮されたディジタルビデオ時系列の内部に至るアクセスポイントとしてＩフレームを使用し、Ｉフレームを始点とするフレーム群を抽出することができる。具体的には、その符号化対象ビデオフレーム群を構成する圧縮バイトの位置及び個数を指し示すヘッダ情報を復号するのみで、圧縮版のディジタルビデオ時系列から符号化対象ビデオフレーム群全体を抽出してビデオサマリへと符号変換することができる。従って、ビデオサマリを生成する際、各キービデオ断片の冒頭フレームがＩフレームになるよう求めることや、その断片に含まれる符号化対象ビデオフレーム群の個数に端数が生じないよう求めることは有益なことである。これらの制約を課すことで、元々の圧縮版ディジタルビデオ時系列をあまり伸張せずにビデオサマリを生成することが可能となる。

本発明に係る方法を実行するためのコンピュータプログラム製品は、磁気ディスク（例．フロッピーディスク）、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、ＲＡＭ、ＲＯＭ等の固体電子記憶デバイスをはじめとする１個又は複数個の記録媒体、即ち本発明に係る方法が体現されるよう１台又は複数台のコンピュータを制御するコンピュータプログラムの格納に使用可能な諸有形デバイス乃至媒体に格納可能である。

１フラッシュ、４レンズ、６可調絞り及び可調シャッタ、８ズーム／合焦モータドライバ、１０ディジタルカメラ、１２タイミング発生器、１４イメージセンサ、１６ＡＳＰ及びＡ／Ｄコンバータ、１８バッファメモリ、２０プロセッサ、２２オーディオコーデック、２４マイクロホン、２５圧力センサ、２６スピーカ、２７加速度計、２８ファームウェアメモリ、３０画像メモリ、３２画像ディスプレイ、３４ユーザ用コントローラ、３６ディスプレイメモリ、３８有線インタフェース、４０コンピュータ、４２傾斜センサ、４４ビデオインタフェース、４６ビデオディスプレイ、４８インタフェース／充電器、５０ワイヤレスモデム、５２無線周波数帯、５８ワイヤレスネットワーク、７０インターネット、７２フォトサービスプロバイダ、２１０，４１０ディジタルビデオ時系列撮影ステップ、２２０特徴量判別ステップ、２３０ディジタルビデオ時系列圧縮ステップ、２４０圧縮版ディジタルビデオ時系列格納ステップ、２５０，４３０キービデオ断片特定ステップ、２６０，４４０，５３０ビデオサマリ生成ステップ、２６２，５４０ビデオサマリ表示ステップ、２６４ユーザ諾否判別ステップ、２６６ユーザ設定調整ステップ、２７０ビデオサマリ表現子格納ステップ、４２０ディジタルビデオ時系列格納ステップ、４５０ビデオサマリ指示メタデータ格納ステップ、５１０データ読込ステップ、５２０ビデオフレーム抽出ステップ。

Claims

ディジタルビデオ撮影装置で撮影されたディジタルビデオ時系列に関するビデオサマリを格納する方法であって、
複数個のビデオフレームを有するディジタルビデオ時系列をディジタルビデオ撮影装置で撮影するステップと、
そのディジタルビデオ時系列をプロセッサ可アクセスメモリ内に格納するステップと、
格納済ディジタルビデオ時系列から一群のビデオフレームに相応するキービデオ断片を１個又は複数個特定するステップと、
キービデオ断片同士を結合させることでビデオサマリを生成するステップと、
そのビデオサマリに相応するビデオフレーム群を指し示すメタデータをその格納済ディジタルビデオ時系列に関連付けて格納することでプロセッサ可アクセスメモリにおけるビデオメモリの格納先を特定するステップと、
を有する方法。
請求項１記載の方法であって、上記メタデータが、ビデオサマリに相応するオーディオサンプル群を指し示すメタデータを含む方法。
請求項１記載の方法であって、キービデオ断片間境界に適用されるビデオトランジション効果を指し示すメタデータを格納するステップを有する方法。
請求項１記載の方法であって、キービデオ断片間境界に適用されるオーディオトランジション効果を指し示すメタデータを格納するステップを有する方法。
ビデオサマリに相応するビデオフレーム群を表示するシステムであって、
ビデオフレーム群の表示に使用されるソフトコピーディスプレイと、
プロセッサと、
を備え、そのプロセッサが、
格納済ディジタルビデオ時系列に関連付けられているデータのうちビデオサマリに相応するビデオフレーム群を指し示すデータを読み込む読込ステップと、
ビデオサマリに相応するビデオフレーム群を格納済ディジタルビデオ時系列から抽出する抽出ステップと、
ビデオサマリに相応するビデオフレーム群をソフトコピーディスプレイ上に表示させる表示ステップと、
を実行するシステム。
請求項５記載のシステムであって、上記読込ステップにて、ビデオサマリに相応するオーディオサンプル群を指し示すデータをも読み込むシステム。
請求項６記載のシステムであって、ビデオサマリに相応するオーディオサンプル群を格納済ディジタルビデオ時系列から抽出するシステム。
請求項５記載のシステムであって、上記読込ステップにて、ビデオサマリで使用されるビデオトランジション効果を指し示すデータをも読み込むシステム。
請求項８記載のシステムであって、上記表示ステップにて、表示に先立ちビデオフレーム群にビデオトランジション効果を適用するシステム。
請求項５記載のシステムであって、格納済ディジタルビデオ時系列に関連付けられている上掲のデータがその格納済ディジタルビデオ時系列に係るメタデータであるシステム。
請求項５記載のシステムであって、格納済ディジタルビデオ時系列に関連付けられている上掲のデータが別のファイルに格納されているシステム。