JP2013532323A

JP2013532323A - カメラ位置に基づくキービデオフレームのランク付け

Info

Publication number: JP2013532323A
Application number: JP2013512133A
Authority: JP
Inventors: アーロンディーバー
Original assignee: インテレクチュアルベンチャーズファンド８３エルエルシー
Priority date: 2010-05-25
Filing date: 2011-05-24
Publication date: 2013-08-15
Anticipated expiration: 2031-05-24
Also published as: US20110292229A1; US8619150B2; CN102906746B; EP2577513A1; WO2011149860A1; JP5837922B2; CN102906746A

Abstract

ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、を実行する方法を提供する。

Description

本発明はディジタルビデオ処理、特にキービデオフレームを選択してビデオサマリを生成する方法に関する。

スチル画像に加えビデオ画像の撮影も可能なディジタル撮影装置は多々あるが、ディジタルビデオコンテンツの管理は面倒な作業になりがちである。これは、ビデオコンテンツの視覚的象徴としてビデオ画像内冒頭フレームのサムネイル画像が一般に使用されているからである。サムネイル画像ではビデオコンテンツを十分に推し量るのが難しいので、得られたビデオ画像にどのような出来事が写っているかを知るためそのビデオ画像全体を視聴せざるを得なくなる場合がある。ユーザは、長々しいビデオ画像全体を視聴することよりはそのビデオ画像の簡潔なサマリを視聴することの方を好むものである。

ディジタルビデオには共有に関わる現実的な問題もある。多くのディジタル撮影装置で記録速度が３０乃至６０フレーム／ｓｅｃの速度であり、空間解像度が１９２０×１０８０画素以上であるため、圧縮してもかなりのデータ量になってしまい短めのビデオ画像でも実際上共有できないことである。

ビデオ編集ソフトウェアを用いたビデオ画像のマニュアル操作で、より容易に共有可能な短縮版（サマリ）を作成することも可能である。しかし、マニュアルでのビデオ編集は長々しく面倒な作業になることが多く、大抵のユーザにとって苦痛なものである。他方、自動ビデオサマリ生成アルゴリズム、即ち撮影で得られたビデオ画像を解析してそのサマリを生成するアルゴリズムも存在している。しかし、ビデオ画像の解析によるサマリ生成時にそのビデオ画像を復号する必要があるため、そうしたアルゴリズムは非常に複雑なものとなる。即ち、その種のアルゴリズムをディジタル撮影装置上で実行し、撮影で得られたばかりのビデオ画像に相応するサマリを即座に視聴に供することができない。撮影で得られたビデオ画像の迅速な確認及び共有を可能とする上で、この短所は妨げとなっている。

国際公開第２００７／１２２５４１号パンフレット欧州特許第２０６３６３５号明細書米国特許第５８１８４３９号明細書米国特許第６４６２７５４号明細書米国特許第７０５５１６８号明細書米国特許出願公開第２００８／０４３８４８号明細書米国特許第３９７１０６５号明細書米国特許第４６４２６７８号明細書米国特許第４７７４５７４号明細書米国特許第５１８９５１１号明細書米国特許第５４９３３３５号明細書米国特許第５６５２６２１号明細書米国特許第５６６８５９７号明細書米国特許第５９９５０９５号明細書米国特許第６１９２１６２号明細書米国特許第６２９２２１８号明細書米国特許第６８３３８６５号明細書米国特許第６９３４０５６号明細書米国特許第７０３５４３５号明細書米国特許第７０４６７３１号明細書米国特許第７４０３２２４号明細書米国特許第７４０９１４４号明細書米国特許第７４８３６１８号明細書米国特許第７５４２０７７号明細書米国特許出願公開第２００４／００５２５０５号明細書米国特許出願公開第２００５／０１９１７２９号明細書米国特許出願公開第２００７／０１８２８６１号明細書米国特許出願公開第２００７／０１８３４９７号明細書米国特許出願公開第２００９／０００７２０２号明細書

MA, Y-F et al., "A Generic Framework of User Attention Model and its Application in Video Summarization," IEEE Transactions on Multimedia, IEEE Service Center, Piscata Way, NJ, US, vol.7, no.5, 1 October 2005 (2005-10-01), pages 907-919, XP01113970, ISSN:1520-9210, DOI:10.1109/TMM.2005, 854410 MA, Y-F et al., "A User Attention Model for Video Summarization," Proceedings 10th ACM International Conference on Multimedia, Juanles-Pins, France, Dec.1-6, 2002, vol.Conf.10, 1 December 2002 (2002-12-01), pages 533-543, XP001175055, DOI:10.1145/641107,641116, ISBN:978-1-58113-620-3 Divakaran, A, et al., "Video Browsing System for Personal Video Recorders," Proceedings of SPIE, The International Society for Optical Engineering SPIE, USA, vol.4861, 1 January 2002 (2002-01-01), pages 22-25, XP009092815, ISSN:0277-786X, DOI:10.117/12.470201

このように、ディジタル撮影装置内でビデオサマリを生成することが可能なシステム及び方法を提供すること、特にビデオ撮影終了からディジタル撮影装置上でのビデオサマリ生成までにかかる時間が短い技術を提供することが望まれている。

本発明に係る方法は、ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、
ａ）そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、
ｂ）そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、
ｃ）カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、
を実行する方法である。

本発明によれば、カメラ移動パターンの解析を通じビデオフレームの重要度を求めることができる。

また、そのカメラ移動パターンは、加速度計から得られるデータに基づき、或いは撮影で得られたビデオ画像時系列に対する大域モーション解析の適用を通じ、簡便に判別することができる。

更に、その実施に当たり冗長なキービデオフレームを排除することもできる。

そして、ランク付けされたキービデオフレームを用い、重要なキービデオ断片の時系列で構成されるビデオサマリを生成することもできる。

本発明の一実施形態に係るビデオサマリ生成システムの構成要素を示す上位概念図である。本発明の一実施形態に係るディジタルビデオ時系列内キービデオフレーム判別手順を示すフローチャートである。本発明の一実施形態におけるビデオフレーム分類手順を示すフローチャートである。その長さが等しい複数個の小期間に区分されたディジタルビデオ時系列を示す図である。図４に示したディジタルビデオ時系列の時間歪曲表現を示す図である。時間歪曲表現の等長期間群への分割を示す図である。図４に示した元々のディジタルビデオ時系列に対する図６に示した期間群の時間的対応関係を示す図である。本発明の一実施形態に係るビデオサマリ生成手順を示すフローチャートである。本発明の一実施形態における最高ランクキービデオフレーム判別手順を示すフローチャートである。撮影位置ヒストグラムを示す図である。撮影位置ヒストグラムを示す図である。図１１に示した撮影位置ヒストグラムの数値表現を示す図である。最高ランクキービデオフレームの判別に適したランク付け処理の一例を示す図である。キービデオ断片の生成例を示す図である。キービデオ断片の他の生成例を示す図である。

以下、本発明の好適な実施形態のうち、概ねソフトウェアプログラムとして実施されるものについて詳細に説明する。本件技術分野で習熟を積まれた方々（いわゆる当業者）には自明な通り、そうしたソフトウェアと等価なものをハードウェアで実現することもできる。画像操作アルゴリズム及びシステムは周知であるので、以下の説明では、本発明に係るシステム及び方法を構成し又はそれと直に連携するアルゴリズム及びシステムに的を絞っている。そうしたアルゴリズム及びシステムの別例や、関連する画像信号の生成乃至処理用ハードウェア乃至ソフトウェアについては、本件技術分野で既知のシステム、アルゴリズム、部材及び要素から選択できるので、具体的な図示や説明を省略する。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。

また、本発明に係る方法を実行するためのコンピュータプログラムは、磁気ディスク（例．ハードディスク，フロッピー（登録商標）ディスク）、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）等の固体電子記憶デバイスをはじめとするコンピュータ可読記録媒体、即ち本発明に係る方法が体現されるよう１台又は複数台のコンピュータを制御するコンピュータプログラムの格納に使用可能な諸有形デバイス乃至媒体に格納することができる。

本発明は、本願記載の実施形態同士を組み合わせた構成をも包含する。「具体例」等との記載があるなら、その構成は本発明の実施形態のうち少なくとも１個で採用されうるものである。ある個所で「一実施形態」「具体例」と称したものと別の個所で「一実施形態」「具体例」と称したものとが同一であるとは限らない。反面、明示のある場合やいわゆる当業者にとり自明な場合を除き、それらが相互排他的な関係になるとも限らない。「方法」「諸方法」等といった単複の別には要旨限定的な意味合いはない。語「又は」は、明示がある場合や文脈上当然な場合を除き非排他的な意味合いで使用されているので、その点に留意されたい。

イメージングデバイス、それに関連する信号取得／処理回路、ディスプレイ等を備えたディジタルカメラは周知であるので、以下の説明では、本発明に係る方法及び装置を構成し又はそれと直に連携する要素に的を絞ることにする。本願にて具体的に図示、説明されていない要素は本件技術分野で既知のものから選べばよい。説明してある実施形態のうち一部はソフトウェアの形態を採っている。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。

ディジタルカメラに関する以下の説明はいわゆる当業者にとり理解しやすいものであろう。自明な通り、これから説明する構成については、様々な変形を施し、コスト低減、機能追加、カメラ性能向上等を図ることができる。

図１に、本発明の一実施形態に係りビデオ撮影が可能なディジタルカメラ１０を有するディジタル写真システムのブロック構成を示す。このカメラ１０は好適にも電池駆動式でその携帯が可能な装置であり、撮影時や画像リビュー時にユーザが容易に手に持てるほど小型である。カメラ１０による撮影で得られたディジタル画像は画像メモリ３０内にディジタル画像ファイルとして格納される。なお、本願では、「ディジタル画像」「ディジタル画像ファイル」等の語を、スチル画像かビデオ画像かを問わず種々のディジタル画像乃至そのファイルを包含する意味で使用している。

本実施形態では、ディジタルカメラ１０でビデオ，スチル双方を撮影することができる。ビデオしか撮影できないディジタルビデオカメラの形態をディジタルカメラ１０が採るよう本発明を実施してもよい。このカメラ１０にその他の機能、例えばＭＰ３プレイヤをはじめとするディジタル音楽プレイヤの機能や、携帯電話、ＧＰＳ受信機、携帯情報端末（ＰＤＡ）等の機能を持たせることもできる。

カメラ１０には、レンズ４及びそれに付随する可調絞り及び可調シャッタ６が備わっている。本実施形態ではレンズ４がズームレンズであり、それを制御するズーム／合焦モータドライバ８が設けられている。レンズ４は、図示しない光景から来る光をイメージセンサ１４上、具体的には単一チップ型のカラーＣＣＤイメージセンサやカラーＣＭＯＳイメージセンサの上に合焦させる。このレンズ４はセンサ１４上に光景の像を発生させうる光学系の一種である。本発明は、固定焦点長レンズを有しその焦点が可変又は固定の光学系を使用する形態でも実施することができる。

そのイメージセンサ１４の出力は、アナログ信号プロセッサ（ＡＳＰ）及びアナログディジタル（Ａ／Ｄ）コンバータ１６にてディジタルデータに変換され、バッファメモリ１８内に一時格納される。メモリ１８内に一時格納された画像データは、ファームウェアメモリ２８内に格納されている埋込ソフトウェアプログラム、例えばファームウェアに従いプロセッサ２０によって操作される。本実施形態では、そのファームウェアメモリ２８として、ソフトウェアプログラムを恒久的に保持するＲＯＭ型のものが使用されている。本発明は、ファームウェアメモリ２８として、その内容修正が可能なメモリ例えばフラッシュＥＰＲＯＭを使用する形態でも実施することができる。その場合、外部装置を有線インタフェース３８やワイヤレスモデム５０を介し接続してファームウェアメモリ２８内のソフトウェアプログラムを更新することや、イメージセンサ校正データ、ユーザ設定データ等、カメラ電源がオフしているときでも保存しておくべきデータの保存にファームウェアメモリ２８を使用することができる。図示しないが、本実施形態ではプロセッサ２０にプログラムメモリが備わっており、ファームウェアメモリ２８内のソフトウェアプログラムはそこにコピーされた上でプロセッサ２０により実行される。

ご理解頂けるように、このプロセッサ２０には様々な機能がある。それらの機能の実現には、１個又は複数個のプログラマブルプロセッサ例えばディジタル信号プロセッサ（ＤＳＰ）、１個又は複数個のカスタム回路例えばディジタルカメラ向けカスタム集積回路（ＩＣ）、それらプログラマブルプロセッサ及びカスタム回路の組合せ等を使用することができる。同じくご理解頂けるように、図１に示した諸部材の一部又は全てをプロセッサ２０へと接続するのに共通データバスを使用することもできる。例えば、プロセッサ２０、バッファメモリ１８、画像メモリ３０及びファームウェアメモリ２８の間を共通データバス経由で接続する構成にするとよい。

処理された画像はその後画像メモリ３０内に格納される。自明な通り、このメモリ３０は、リムーバブルフラッシュメモリカード、内蔵フラッシュメモリチップ、磁気メモリ、光学メモリ等をはじめ、いわゆる当業者にとり既知の諸形態を採りうる。メモリ３０を、内蔵フラッシュメモリチップ，リムーバブルフラッシュメモリカード対応標準インタフェース併有型の構成にしてもよい。メモリカードとしては、セキュアディジタル（ＳＤ（登録商標））カード、マイクロＳＤ（登録商標）カード、コンパクトフラッシュ（ＣＦ（登録商標））カード、マルチメディアカード（ＭＭＣ）、ｘＤ（登録商標）カード、メモリスティック等を使用することができる。

また、イメージセンサ１４は、ＡＳＰ及びＡ／Ｄコンバータ１６の動作に同期するよう、タイミング発生器１２に発する種々のクロック信号、例えばローセレクト信号や画素セレクト信号に従い制御される。この例ではセンサ１４のサイズが１２．４メガ画素（４０８８×３０４０画素）であるので、約４０００×３０００画素のスチル画像データを生成することができる。また、通例に倣いセンサ１４上に色フィルタアレイが重畳され、その色が異なる画素群が混在する画素アレイが形成されているので、このセンサ１４でカラー画像を得ることができる。その画素アレイにおける画素色配列は様々なパターンを採りうる。その一例は、本願出願人を譲受人とする特許文献７（発明者：Ｂａｙｅｒ，名称：カラーイメージングアレイ(Color imaging array)，この参照を以てその内容を本願に繰り入れる）に記載の如く、周知のベイヤ色フィルタアレイが形成される画素色配列パターンである。別例としては、本願出願人を譲受人とする特許文献２６（発明者：Ｃｏｍｐｔｏｎ及びＨａｍｉｌｔｏｎ，出願日：２００７年７月２８日，名称：高光感度イメージセンサ(Image Sensor with Improved Light Sensitivity)，この参照を以てその内容を本願に繰り入れる）に記載の画素色配列パターンがある。これらはいずれも例であり、画素色配列パターンとして使用可能なパターンは多様である。

ご理解頂けるように、これらイメージセンサ１４、タイミング発生器１２並びにＡＳＰ及びＡ／Ｄコンバータ１６は、互いに別々のＩＣとして製造することも、ＣＭＯＳイメージセンサでの通例に倣い単一のＩＣとして製造することも可能である。後者ならば、そのＩＣに、図１に示した機能、例えばプロセッサ２０によって担われている機能の一部を担わせることもできる。

タイミング発生器１２によるイメージセンサ１４の駆動モードとしては、まず、低解像度画像データのモーション付時系列が生じる第１モードがある。ビデオ画像を撮影する際や、スチル撮影に先立ちプリビューして画像の構図を検討する際には、このモードの許で、１２８０×７２０画素のＨＤ（登録商標）解像度画像データ、６４０×４８０画素のＶＧＡ解像度画像データ等、センサ１４の解像度に比べかなりカラム数及びロー数が少ないセンサ画像データが生成される。

プリビュー向けのセンサ画像データについては、同色隣接画素間で画素値を結合させる処理、一部画素値を無視する処理、ある色について画素値同士を結合させる一方他の色について画素値を無視する処理等が施されうる。本願出願人を譲受人とする特許文献１６（発明者：Ｐａｒｕｌｓｋｉ，ｅｔａｌ．，名称：ビデオ画像プリビュー中にスチル撮影を開始する電子カメラ(Electronic Camera for Initiating Capture of Still Images while Previewing Motion Images)，この参照を以てその内容を本願に繰り入れる）に記載の処理を施すようにしてもよい。

タイミング発生器１２によるイメージセンサ１４の駆動モードとしては、次に、高解像度スチル画像データが生じる第２モードがある。その結果生じる最終的なセンサ画像データは、例えば４０００×３０００画素の解像度を有する１２メガ画素の高解像度画像データである。光景輝度が高い場合はセンサ１４内諸画素の画素値が最終画像データとして使用されるが、光景輝度が低い場合は、信号強度ひいてはセンサ１４のＩＳＯ（登録商標）速度を増強するため、センサ１４内類色画素間で画素値をビニング（結合）したものが最終画像データとして使用される。

プロセッサ２０は、その際、焦点長設定が適正になり光景からの光がイメージセンサ１４上に合焦するよう、制御信号を発してズーム／合焦モータドライバ８を制御する。センサ１４の露光レベルは、可調絞り及び可調シャッタ６によるｆ／ナンバー及び露光時間の制御、タイミング発生器１２によるセンサ１４の露光周期の制御、並びにＡＳＰ及びＡ／Ｄコンバータ１６による利得設定即ちＩＳＯ（登録商標）速度設定の制御によって制御される。プロセッサ２０は、更に、光景を照らすべくフラッシュ２を制御する。

上掲の第１モードでは、本願出願人を譲受人とする特許文献１３（発明者：Ｐａｒｕｌｓｋｉｅｔａｌ．、名称：プログレッシブスキャンイメージセンサ上に画像を高速自動合焦させる電子カメラ(Electronic Camera with Rapid Automatic Focus of an Image upon a Progressive Scan Image Sensor)，この参照を以てその内容を本願に繰り入れる）記載の通り、ディジタルカメラ１０のレンズ４をスルーザレンズ方式で自動合焦させることができる。これは、ズーム／合焦モータドライバ８を用い、レンズ４の焦点位置を至近焦点位置から無限遠焦点位置に至る範囲内で様々に変化させながら、イメージセンサ１４で撮影された画像の中央領域でシャープネス値がピークを呈する最善焦点位置をプロセッサ２０にて判別することで実行される。この最善焦点位置に対応する焦点距離は、適切な光景モードの自動設定等を含め幾通りかの目的で事後使用できることから、他のレンズ設定情報及びカメラ設定情報と共に画像ファイル内にメタデータとして格納される。

プロセッサ２０は、ディスプレイメモリ３６内に一時格納されていた低解像度カラー画像や作成したメニューを画像ディスプレイ３２上に表示させる。このディスプレイ３２は能動マトリクスカラー液晶ディスプレイ（ＬＣＤ）であるが、有機発光ダイオード（ＯＬＥＤ）ディスプレイ等、他種ディスプレイを使用することもできる。ディジタルカメラ１０からのビデオ画像出力信号は、ビデオインタフェース４４を介しビデオディスプレイ４６、具体的にはフラットパネルＨＤＴＶディスプレイに供給される。ビデオ撮影モードやプリビューモードでは、バッファメモリ１８から読み込まれたディジタル画像データがプロセッサ２０によって操作され、一連のモーションプリビュー画像が画像ディスプレイ３２上に原則としてカラーで表示される。画像閲覧モードでは、画像メモリ３０内に格納されているディジタル画像ファイル内の画像データに基づき画像ディスプレイ３２上に画像が表示される。

その画像ディスプレイ３２上には、ユーザ用コントローラ３４を介したユーザ入力で操作可能なグラフィカルユーザインタフェースが表示される。コントローラ３４は、ビデオ撮影モード、スチル撮影モード、画像閲覧モード等をはじめとする諸カメラモードの設定や、スチル撮影開始、ビデオ記録開始等の指示に使用される。本実施形態では、コントローラ３４の一種たるシャッタボタンをユーザが半押しすると上掲の第１モードに移行してスチル画像のプリビューが可能となり、全押しすると第２モードに移行してスチル撮影が実行される。コントローラ３４は、更に、カメラへの電源投入、レンズ４の操作及び撮影プロセスの起動にも使用される。コントローラ３４は、ボタン、ロッカスイッチ、ジョイスティック、ロータリダイアル、その任意の組合せ等の形態を採りうる。本実施形態では、コントローラ３４の一部が、ディスプレイ３２に重畳されたタッチスクリーンとして構成されている。ステータスディスプレイや画像ディスプレイを幾つか追加することもできる。

ユーザ用コントローラ３４を用いカメラをタイマーモードに設定することもできる。タイマーモードの許では、ユーザがシャッタボタンを全押しした後、短い遅延時間例えば１０ｓｅｃの経過を待ってプロセッサ２０によるスチル撮影が開始される。

プロセッサ２０には、更に、マイクロホン２４から音声信号を受け取りスピーカ２６に音声信号を供給するオーディオコーデック２２が接続されている。これらの部材は、オーディオトラックの記録・再生時だけでなく、ビデオ画像時系列、スチル画像等の記録・再生にも使用可能である。ディジタルカメラ１０をカメラ付携帯電話等の多機能デバイスとして構成し、マイクロホン２４及びスピーカ２６を通話手段にすることも可能である。

本実施形態では、スピーカ２６がユーザインタフェースの一部、具体的にはユーザ用コントローラ３４が操作されたことや個別のモードが指定されたことを種々の可聴信号で通知する部材としても使用される。本実施形態では、ユーザがコントローラ３４の操作ではなく音声コマンドによってプロセッサ２０に入力を与えられるよう、マイクロホン２４、オーディオコーデック２２及びプロセッサ２０を用い音声認識が実行される。スピーカ２６は、更に、電話コールの到来をユーザに通知する手段としても使用されうる。この通知には、ファームウェアメモリ２８内に格納されている標準的なリングトーンを使用してもよいし、ワイヤレスネットワーク５８経由でダウンロードされたカスタムリングトーンを格納先の画像メモリ３０から読み出して使用してもよい。更に、図示しないが、電話コールの到来をサイレントモード即ち非可聴モードで通知できるよう振動デバイスを設けてもよい。

本実施形態では、ディジタルカメラ１０が加速度計２７を備えているので、カメラモーションに関する情報をそこから得ることができる。好ましいことに、この加速度計２７は、直交三軸それぞれについて線加速度及び角加速度を検知できるものであるので、合計６次元分の情報を取得することができる。

プロセッサ２０は、また、イメージセンサ１４から得られる画像データに更なる処理を施すことでｓＲＧＢ（登録商標）画像データに変換し、その圧縮で最終的な画像ファイル、例えば周知のＥｘｉｆ（登録商標）−ＪＰＥＧ形式による画像ファイルを生成し、その画像ファイルを画像メモリ３０内に格納する。

ディジタルカメラ１０は、有線インタフェース３８を介しインタフェース／充電器４８に接続することで、コンピュータ４０例えば家庭内又は事務所内のデスクトップ乃至ポータブルコンピュータに接続することができる。この例では、その有線インタフェース３８として、周知のＵＳＢ２．０インタフェース仕様に適合するものが使用されている。そのため、インタフェース／充電器４８から有線インタフェース３８を介し図示しないカメラ１０内二次電池群へと電力を供給することができる。

ディジタルカメラ１０は、また、そのワイヤレスモデム５０を用い無線周波数帯５２経由でワイヤレスネットワーク５８に接続することができる。モデム５０は諸種無線インタフェースプロトコル、具体的には周知のＢｌｕｅｔｏｏｔｈ（登録商標）無線インタフェースや周知のＩＥＥＥ８０２．１１無線インタフェースに係るそれに従い動作する。コンピュータ４０に届いた画像は、そこからインターネット７０経由でフォトサービスプロバイダ７２、例えばＫｏｄａｋ（登録商標）ＥａｓｙＳｈａｒｅ（登録商標）ギャラリに登録することができる。プロバイダ７２に登録された画像には、図示しない他種装置からもアクセスすることができる。

本発明は、ワイヤレスモデム５０がワイヤレスリンク等の無線周波数リンクを介し図示しない携帯電話網例えば３ＧＳＭ（登録商標）網に接続し、ディジタルカメラ１０内のディジタル画像ファイルをインターネット７０上に送出する形態でも実施することができる。送出されたディジタル画像ファイルはコンピュータ４０やフォトサービスプロバイダ７２で受信される。

図２に、本発明の一実施形態に係るキービデオフレーム判別手順を示す。この手順は、ビデオフレームの時系列を有するディジタルビデオ時系列２００を対象にしてプロセッサ２０上で実行される。まず、ディジタルビデオ解析ステップ２１０では、その時系列２００を解析することで重要度２１５の経時変化が判別される。時間歪曲表現生成ステップ２２０では、重要度２１５の経時変化に基づくビデオフレームの時間再配置によってその時系列２００の時間歪曲表現２２５が生成される。時間歪曲表現分割ステップ２３０ではその表現２２５が一群の等長期間２３５へと分割される。キービデオフレーム選択ステップ２４０では、各期間２３５内のビデオフレーム群を解析することで期間２３５毎にキービデオフレーム２４５が選択される。キービデオフレーム指示子格納ステップ２５０では、その時系列２００に係るフレーム２４５の指示子がプロセッサ可アクセスメモリ内に格納される。

次に、図２に示した諸ステップに関しより詳細に説明する。まず、ディジタルビデオ解析ステップ２１０で判別されるのは重要度２１５の経時変化である。重要度２１５はディジタルビデオ時系列２００内ビデオフレームの重要性を表す量であり、時間の関数となっている。その値は、ディジタルビデオ時系列２００を構成するビデオフレーム毎に数値として求めることができる。例えば、顔が写っているビデオフレームのように重要なビデオフレームの重要度２１５は大きめの数値、高速パンモーション中のビデオフレームのようにあまり重要でないビデオフレームの重要度２１５は小さめの数値となる。

いわゆる当業者にはご理解頂けるように、重要度２１５の経時変化を判別する際には、ディジタルビデオ時系列２００を構成するビデオフレームに多々備わる特徴を利用することができる。本実施形態では、ディジタルビデオ解析ステップ２１０にてそれらに対する大域モーション解析及び局所モーション解析が実行される。大域モーション解析でもたらされるのが一般に撮影装置の動きを示す大域モーション情報であるのに対し、局所モーション解析でもたらされるのは光景内被写体の動きを示す局所モーション情報である。

本実施形態では、２パラメタ型の大域モーションモデルに則り大域モーション解析を実行することで、時間経過に伴う変位を示す情報、例えば横方向変位情報や縦方向変位情報が時間の関数として導出される。本発明は、より複雑な大域モーションモデルに則り大域モーション解析を実行し、直交三軸に関する回動情報やスケール（ズーム）情報といった付加的な情報を得る形態で実施することもできる。

局所モーション解析では、局所モーションモデルに則り細かな局所モーション情報が導出される。本実施形態で局所モーションモデルから得られるのは、画素毎の変位性モーション量がどのように経時変化するかを示す情報である。より粗いモーション推定量、例えば８×８サイズ又は１６×１６サイズの画素ブロックを単位とする変位性モーション量を局所モーションモデルから得るようにしてもよい。本実施形態で得られる局所モーション情報は一種の指示子であり、ビデオフレームの中央領域で生じたモーションの度合いを指し示している。その値は、例えば、ビデオフレームの中央領域にある画素のなかで「動きあり」と見なせる部分に属する画素の個数を計数することで求まる。

本実施形態では、大域及び局所モーション情報の導出が、ディジタルビデオ時系列２００の取得、圧縮及びプロセッサ可アクセスメモリへの格納が済んだ後に実行される。そのため、圧縮済ディジタルビデオ時系列をその解析に先立ち伸張する必要がある。本発明は、大域及び局所モーション情報の導出をディジタルビデオ撮影プロセスの最中、時系列２００の圧縮に先立ち実行する形態でも実施することができる。その場合、大域及び局所モーション解析の実行に際し時系列２００を伸張する必要性が軽減される。求まった大域及び局所モーション情報はその時系列２００に関連付けてメタデータとして格納される。そのメタデータの格納先は、その時系列２００の格納先と同じディジタルビデオファイル内、その時系列２００に関連付けられている他のファイル内等である。この手法については、本願出願人を譲受人とする係属中の米国特許出願第１２／７８６４８３号（名称：ビデオサマリ方法及びシステム(Video Summary Method and System)）に記載がある。

本実施形態では、ディジタルビデオ解析ステップ２１０にてビデオフレーム群分類手順が実行される。図３に、本実施形態におけるその分類手順の一例を示す。この手順では、大域モーション解析で導出された大域モーション情報３１０及び局所モーション解析で導出された局所モーション情報３２０がクラシファイア３３０に入力され、一群のビデオフレームに関しビデオフレーム分類３４０が生成される。本実施形態におけるビデオフレームの分類３４０には「ズーム」「高速パン」「魅力的」及び「静止的」がある。

クラシファイア３３０は、その撮影中にカメラがズームイン又はズームアウトしたビデオフレームを例外なく「ズーム」ビデオフレームに分類する。ズーム動作は、スケールパラメタを内包する大域モーションモデルに則りディジタル画像解析を実行してズーム検知を行うことで、検知することができる。ズーム動作は、ズームレンズ４を調整べくズーム／合焦モータドライバ８に送られる信号を認識することで、その撮影時に検知することもできる。

クラシファイア３３０は、そのフレームにおける変位性大域モーションの規模がしきい値を上回るビデオフレームを例外なく「高速パン」ビデオフレームに分類する。高速パンモーションに関わる個別のビデオフレームは非常にぼけていることが多く、ディジタルビデオ時系列を代表するキービデオフレームの候補として有力ではない。

クラシファイア３３０は、変位性大域モーション、ズームモーション及び局所モーションの程度がそれに対応するしきい値を下回るビデオフレームを例外なく「静止的」ビデオフレームに分類する。この種のビデオフレームは、静止状態に近い撮影装置で撮影されていて、そのモーションが比較的小さな光景内被写体が写っているフレームである。ディジタルビデオ時系列内の静止的な部分を単一のキービデオフレームで代表できることもしばしばである。

他のどの分類にも属さないビデオフレームはいずれも「魅力的」ビデオフレームに分類される。魅力的ビデオフレームが属するディジタルビデオ時系列内部分は、そのディジタルビデオ時系列を代表するキービデオフレームの有力候補を含む部分である可能性が高い。

本実施形態では、個々のビデオフレームに対し図２中の重要度２１５が割り振られる。個々のビデオフレーム分類３４０に相応の重要度を関連付けてあるので、その分類３４０に基づき重要度２１５を導出することができる。次の表は、上述した分類３４０それぞれに対する重要度２１５の関係を例示する表である。

図２中の時間歪曲表現生成ステップ２２０では、重要度２１５の経時変化に基づくビデオフレームの時間的再配置を通じディジタルビデオ時系列の時間歪曲表現２２５が生成される。図４及び図５に、本実施形態で実行される歪曲手順の一例を示す。まず、図４に示されているのは単位時間０を始点、単位時間１００を終点とするディジタルビデオ時系列４００であり、それぞれ５単位時間長を有する等長のディジタルビデオ小期間４１０複数個に細分されている。各単位時間の絶対長は以下の説明に当たり肝要なことではないが、仮に、単位時間が１０ｍｓｅｃに相当していて、ディジタルビデオ時系列内ビデオフレーム１個が５単位時間長断片で表されるものとする。即ち、ビデオフレーム１個の長さが５０ｍｓｅｃで、ディジタルビデオ時系列撮影速度が２０ビデオフレーム／ｓｅｃの例を考える。本発明は、小期間４１０内ビデオフレーム個数が１個ではなく複数個の形態でも実施することができる。

図５に示されているのはそのディジタルビデオ時系列２００の時間歪曲表現２２５であり、対応するビデオフレーム分類に従いディジタルビデオフレーム毎に与えられている重要度２１５に基づき個々のディジタルビデオフレームが時間的に再配置されている。即ち、ディジタルビデオ時系列内断片それぞれを単一のビデオフレームとして扱い、表１で定義された重要度を適用することで、ディジタルビデオ時系列４００に関し、図示の通り複数個の歪曲ディジタルビデオ小期間５１０からなる時間歪曲表現５００が得られる。この例では、ビデオフレーム１が「魅力的」、２〜８が「高速パン」、９〜１２が「魅力的」、１３〜１６が「静止的」、１７〜２０が「魅力的」に分類されている。

ディジタルビデオ小期間４１０（ビデオフレーム）のうちそのビデオフレーム分類が「ズーム」の小期間４１０に対応する歪曲ディジタルビデオ小期間５１０には、その小期間４１０の時間長＝５．０単位時間に「ズーム」の重要度＝０．３を乗じた値である１．５単位時間の時間長が割り振られている。同様に、そのビデオフレーム分類が「高速パン」の小期間４１０に対応する小期間５１０には小期間４１０の時間長＝５．０単位時間に「高速パン」の重要度＝０，２を乗じた１．０単位時間の時間長が、そのビデオフレーム分類が「静止的」の小期間４１０に対応する小期間５１０には小期間４１０の時間長＝５．０単位時間に「静止的」の重要度＝０．６を乗じた３．０単位時間の時間長が、そしてそのビデオフレーム分類が「魅力的」の小期間４１０に対応する小期間５１０には小期間４１０の時間長＝５．０単位時間に「魅力的」の重要度＝１．０を乗じた５．０単位時間の時間長が割り振られている。

本実施形態では、このように、その重要度２１５が低めのディジタルビデオ内部分に属するディジタルビデオ小期間４１０に短めの時間長、高めのディジタルビデオ内部分に属するそれに長めの時間長を割り振ることで時間歪曲表現５００が生成される。

図２中の時間歪曲表現分割ステップ２３０では時間歪曲表現２２５が一群の等長期間２３５へと分割される。図６に、時間歪曲表現５００を５個の等長期間５２０へと分割する場合を例にその手順を示す。この種の時間歪曲表現では、個々の等長期間５２０に含まれるディジタルビデオフレーム即ち歪曲ディジタルビデオ小期間５１０の絶対個数が変動しうることに留意されたい。

図７に、原表現のディジタルビデオ時系列４００に対する時間歪曲表現内等長期間４２０の時間的対応関係を示す。この例では、図示の通り、時系列４００内ディジタルビデオフレーム総数に比し、１個目の等長期間４２０に含まれるディジタルビデオフレームの個数が４０％を上回る一方、２個目の等長期間４２０に含まれるディジタルビデオフレームの個数が１５％を下回っている。

図２に示した時間歪曲表現２２５を使用することは、キービデオフレームがディジタルビデオ時系列全体に亘り散らばるよう、且つ重要度が高い領域が優先されるよう、個々の期間からキービデオフレームを１個ずつ選択できる点で有益である。

図２に示した期間２３５の個数は、ディジタルビデオ時系列の時間歪曲表現が占める総時間長等に基づき決定される。期間２３５の個数をユーザが指定するようにしてもよい。

図２中のキービデオフレーム選択ステップ２４０では、各期間２３５内のビデオフレームを解析することで期間２３５毎にキービデオフレーム２４５が選択される。本実施形態では、この解析に当たり、個々の期間２３５内にある複数個のビデオフレームに対し、大域及び局所モーションに応じた選択スコアが割り振られる。期間２３５からキービデオフレーム２４５として選択されるのは、その期間２３５内で最高の選択スコアを呈したビデオフレームである。

ディジタルビデオ時系列を圧縮する際には、一部のビデオフレーム群を独立符号化ビデオフレーム、他のビデオフレーム群を予測符号化ビデオフレームへと符号化する方式が採られることが多い。本実施形態では、各期間２３５内のビデオフレームのうち独立符号化ビデオフレームのみをキービデオフレームの候補とし、独立符号化ビデオフレームのみについて選択スコアを算出するようにしている。独立符号化ビデオフレームとは、他のビデオフレームを参照せずに符号化されたビデオフレームのことである。その種のビデオフレームは、他のビデオフレームから情報を得ること無しに復号することができる。これに対し、予測符号化ビデオフレームは、隣接する１個又は複数個のビデオフレームに基づく予測で符号化されている。そのため、予測符号化ビデオフレームの復号には他の１個又は複数個のビデオフレームに関する知識が必要であり、独立に復号することはできない。独立符号化ビデオフレームが後続するビデオフレームについての予測に使用されること、またその予測が高品質であれば後続ビデオフレームの符号化が効率化されることから、ビデオ画像符号化方式では独立符号化ビデオフレームが高品質で符号化されることが多い。このように、独立符号化ビデオフレームが一般に高画質であり、他のビデオフレームを復号することなく圧縮版のディジタルビデオ時系列から迅速に復号できることから、独立符号化ビデオフレームはキービデオフレーム２４５の有力候補とされる。

ビデオフレーム用の選択スコアは、変位性大域モーション、ズーム、局所モーション、先行するキービデオフレームに対する近接度等、幾種類かの入力に基づき導出される。本実施形態では、変位性大域モーションの程度が大きいビデオフレームでは一般にモーションによるぼけ（ブラー）が生じることから、対応する変位性大域モーションの程度が大きいビデオフレームには低めの選択スコアが割り振られる。同様に、特定の注目領域に注意が集中するようユーザが故意にズームを実行したと見られることから、ズーム手順終了から間がないビデオフレームには高めの選択スコアが割り振られる。従って、ズーム終了からの経過時間（から撮影装置の再合焦に必要な若干の時間を差し引いた時間）が短いビデオフレームは、重要度が高くキービデオフレーム２４５の有力候補であると見なすことができる。また、注目すべきビデオフレームには何らかの被写体活動が写っているであろうから、被写体モーションの程度が非常に小さいビデオフレームには低めの選択スコアが割り振られる。撮影で得られるビデオ画像が高い時間的相関を呈するものであること、従って時間的近接度が高いビデオフレームには冗長な情報が含まれるであろうことから、他のキービデオフレーム２４５に対する時間的近接度が高いビデオフレームには低めの選択スコアが割り振られる。本実施形態では、キービデオフレームを期間毎に逐次選択するため、その時間的近接度として、先行するキービデオフレームに対する時間的近接度を使用している。全てのキービデオフレームを同時に選択することを狙い連接調和的にキービデオフレームを選択する形態で本発明を実施する場合は、時間的近接度として、時間的に先行するキービデオフレームと後続するキービデオフレームの双方に対する時間的近接度を使用すればよい。

本実施形態では、ビデオフレーム用の選択スコアが、複数通りの要因に基づき且つ次の式

に従い導出される。但し、Ｓ（ｎ）は選択スコア、ＧＭ（ｎ）は大域モーション項、ＬＭ（ｎ）は局所モーション項、Ｚ（ｎ）はズーム項、Ｐ（ｎ）は近接度項、ｎはビデオフレーム番号である。この式中、選択スコアＳ（ｎ）を組成する各項の値域は０から１までの範囲であり、どのような値になるかはそのビデオフレームｎの特性によって左右される。

大域モーション項（ＧＭ）の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、大域モーションベクトルの大きさがしきい値Ｔ_GMを上回るビデオフレーム全てで０値、大域モーションベクトルの大きさが０のビデオフレームで１値となり、大域モーションベクトルの大きさが０超Ｔ_GM未満のビデオフレームで１値から０値へと線形減少する式

に従い大域モーション項の値が導出される。但し、ｘ_GM（ｎ）はビデオフレームｎにおける大域モーションベクトルの大きさである。

これに代え、大域モーション項が１値から０値へと非線形減少する式、例えば余弦関数を用いた式

に従い大域モーション項の値を導出するようにしてもよい。この例のように余弦関数を使用すると、大域モーションベクトルの大きさが小さい領域での大域モーション項の減少が、線形関数を用いた場合に比べてゆっくりになる。

局所モーション項（ＬＭ）の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、大域モーションの影響を勘案したビデオフレーム間差分値に基づき局所モーション項が導出される。具体的には、自ビデオフレーム又は他ビデオフレームを大域モーションベクトルに基づきシフトさせ、その後に両ビデオフレーム間の画素値差分を算出し、そしてその画素値差分の平均を算出することで、自ビデオフレームに係る局所モーション項の値が導出される。総じて、局所モーション項の値が大きいビデオフレームほど多くの局所モーションが含まれているものであるが、照明の変化等が原因でビデオフレーム間に大きな差分が生じることもあり得る。

また、本実施形態では、中庸な局所モーションを呈するビデオフレームが優先的に選択されるよう局所モーション項がバイアスされる。具体的には、ある同一の期間に属するビデオフレーム全てを通じた局所モーション量の平均値に等しい局所モーション量を有するビデオフレームにて、その局所モーション項が１値となる関数が使用される。更に、局所モーション量が０のビデオフレームにて０．９になるよう、局所モーション量の減少に応じ局所モーション項の値を線形減少させる。また、上掲の期間内で局所モーション量が最大のビデオフレームにて０．８になるよう、局所モーション量の増加に応じ局所モーション項の値を線形減少させる。これを式で表すと次の式

となる。但し、ｘ_LM（ｎ）はビデオフレームｎにおける局所モーション量、ｘ_LM ^-は上掲の期間に属するビデオフレーム全てを通じた局所モーション量の平均値、ｘ_LM,maxは上掲の期間に属するビデオフレーム全てを通じた局所モーション量の最大値である。

これに代え、局所モーション項を導出するに当たり、大域モーションを勘案した上でビデオフレーム間の対応する画素に着目し局所モーションベクトルを算出するようにしてもよい。その上で、ビデオフレーム毎に局所モーションベクトルの平均的な大きさを求め、そのビデオフレームの局所モーション項として使用すればよい。

ズーム項（Ｚ）の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、ズーム項が、ズーム動作が進行中又は未完了でズーム動作終了から再合焦所要時間が経過していないビデオフレームで０値、ズーム動作及び再合焦所要時間の終了直後から２ｓｅｃ以上が経過したビデオフレームで１値、他のビデオフレーム全てで０．５値になるようにしている。

近接度項（Ｐ）の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、近接度項が、先行するキービデオフレームから２ｓｅｃ以上離れているビデオフレーム全てで１値となり、先行するキービデオフレームからの距離が０に近づくにつれ０値へと線形減少するようにしている。

いわゆる当業者にはご理解頂けるように、大域モーション上及び局所モーション上の諸特徴に基づき選択スコアを決定してキービデオフレーム２４５を選択する上述の手法は、使用可能な手法の一例に過ぎない。期間２３５内のビデオフレーム群からキービデオフレーム２４５を選択可能な方法であれば、本件技術分野で既知の他手法でも、本発明におけるキービデオフレーム選択に使用することができる。

キービデオフレーム指示子格納ステップ２５０では、キービデオフレーム２４５の指示子がプロセッサ可アクセスメモリ内に格納される。本実施形態では、その際、個別のビデオフレームであるキービデオフレーム２４５が抽出、圧縮される。圧縮されたビデオフレームは、指示子として個別のディジタル画像ファイル例えば周知のＥｘｉｆ（登録商標）−ＪＰＥＧ画像ファイル内に格納される。キービデオフレーム２４５を個別のディジタル画像ファイル内に格納することには、ありふれた画像リーダを用いそれらに迅速アクセスできる、という利点がある。

これに代え、そのディジタルビデオ時系列２００に係るメタデータの格納を以てキービデオフレーム指示子の格納とする形態でも本発明を実施することができる。そのメタデータとしては、キービデオフレーム２４５として選択されたビデオフレームのリストを使用できる。スマートビデオ画像リーダであれば、ディジタルビデオに係るメタデータを解釈してキービデオフレーム２４５を抽出することができる。キービデオフレームリストを含むメタデータをキービデオフレーム２４５の指示子として使用することには、キービデオフレーム指示子の格納に必要な記憶空間を、メタデータ内キービデオフレームリストの格納が可能な小空間に抑えることができる、という利点がある。

また、ディジタルビデオに係るメタデータとしてキービデオフレームサムネイル画像を格納することを以てキービデオフレーム指示子の格納とする形態でも、本発明を実施することができる。キービデオフレームサムネイル画像とはそのキービデオフレームの低解像度版のことである。ディジタルビデオに係るキービデオフレームサムネイル画像をキービデオフレーム指示子として格納することには、ディジタルビデオから抽出する場合に比べメタデータから抽出する方がキービデオフレームの抽出が迅速になる、という利点がある。

本発明は、上述のキービデオフレーム判別手順を含むビデオサマリ生成手順としても実施することができる。図８に、本発明の一実施形態に係るビデオサマリ生成手順を示す。図中、ディジタルビデオ解析ステップ２１０、時間歪曲表現生成ステップ２２０、時間歪曲表現分割ステップ２３０、キービデオフレーム選択ステップ２４０及びキービデオフレーム指示子格納ステップ２５０は、図２を参照して前述した通りに実行される。それに続く最高ランクキービデオフレーム判別ステップ２６０では、指定されている条件に従いキービデオフレーム２４５をランク付けすることで一群の最高ランクキービデオフレーム２６５が判別される。キービデオ断片生成ステップ２７０では、それらのフレーム２６５に対応するキービデオ断片２７５が生成される。ビデオサマリ生成ステップ２８０では、それら断片２７５同士の合成でビデオサマリ２８５が生成される。ビデオサマリ表現子格納ステップ２９０では、そのサマリ２８５の表現子がプロセッサ可アクセスメモリ内に格納される。

最高ランクキービデオフレーム判別ステップ２６０、キービデオ断片生成ステップ２７０及びビデオサマリ生成ステップ２８０で実行される処理は後に詳述する通りである。ビデオサマリ表現子格納ステップ２９０は、本願出願人を譲受人とする係属中の米国特許出願第１２／７８６４８３号（名称：ビデオサマリ方法及びシステム(Video Summary Method and System)，この参照を以てその内容を本願に繰り入れる）に記載の手法等、本件技術分野で既知の諸手法で実行できる。使用可能な手法の一つとしては、格納されているディジタルビデオの一部又は全体を伸張することでビデオサマリに相応するビデオフレームを抽出し、抽出したビデオフレームを圧縮することで圧縮版のビデオサマリを生成し、その圧縮版ビデオサマリをプロセッサ可アクセスメモリ内に保存する、というものがある。他の一つとしては、ビデオサマリに相応するディジタルビデオ時系列内ビデオフレームの指示子となるメタデータを生成し、そのメタデータをその格納済ディジタルビデオ時系列と関連付けて格納する、というものがある。キービデオ断片間トランジションに使用可能な種々のトランジション効果を示す情報を、そのディジタルビデオ時系列に係るメタデータとして格納するようにしてもよい。

図９に、本実施形態における最高ランクキービデオフレーム判別手順２６０の詳細を示す。図中、ディジタルビデオ解析ステップ９１０ではディジタルビデオの解析によってカメラ移動パターン９１５が判別される。キービデオフレームランク付けステップ９２０では、そのパターン９１５に基づきそのディジタルビデオに係る最高ランクキービデオフレーム２６５が判別される。

ディジタルビデオ解析ステップ９１０におけるディジタルビデオの解析ではカメラ移動パターン９１５が判別される。カメラ移動パターンとは、そのカメラで撮影される光景内領域がビデオ撮影プロセスの進行につれどのように経時変化したかを示すパターンのことである。本実施形態では、カメラの大域モーションを解析することでそうしたパターン９１５を判別するようにしている。カメラが固定されていて同一の光景内領域が写り続けている場合、このパターン９１５は単一の点になる。これに対し、カメラが移動している場合のパターン９１５はそのカメラの移動軌跡を示すパターンとなる。

図１０に、ある種のパンモーションを伴うディジタルビデオ時系列２００に関し、図９に示したカメラ移動パターン９１５の一表現たる撮影位置ヒストグラム９３０を示す。図中の移動軌跡９２５は、ビデオ撮影中に生じた変位性大域モーションの解析で導出されたものである。ビデオ撮影プロセスの開始点はその移動軌跡の始点たる任意の点である。例えば、ビデオ撮影プロセスの開始点を二次元平面上の原点（０，０）にすることが可能である。図示例の場合は、横軸値＝約２００、縦軸値＝約１０の点でビデオ撮影が開始されている。変位性大域モーションは、次いで、連続するビデオフレーム間での画素位置ずれを判別することで求まる。移動軌跡９２５は、そうしたビデオ撮影プロセスを通じ累積していく画素位置ずれを追跡することで求まる。

本実施形態では、そうした移動軌跡９２５が撮影時カメラ位置のヒストグラムで表される。このヒストグラムは、対応する位置にあるカメラで撮影されたビデオフレーム１個毎に、その撮影位置に対応するビンが１インクリメントされるヒストグラムである。図１０に示した撮影位置ヒストグラム９３０は、撮影時カメラ位置に関するそうしたヒストグラムの一例である。そのヒストグラム上での画像強度が高めの位置は、その位置にあるカメラで撮影されたビデオフレームの個数が多い位置である。この図からは、撮影プロセス実行中にカメラが縦，横双方向にパンされていることや、おおよそ一定の時間間隔でカメラの位置が変更されていることがわかる。

本実施形態では、こうしたカメラ移動パターンがある画素数を単位に空間量子化される。図１０ではその画素数即ち量子化係数として１０が使用されている。即ち、図１０に示したヒストグラムでは、各ビンの幅が１０画素、ビン同士の縦方向間隔及び横方向間隔も１０画素となっている。所与方向に１０画素分の変位性大域モーションが生じるたびに、撮影時カメラ位置の分類先はヒストグラム内の次のビンへと移動する。

量子化係数を増やし、撮影時カメラ位置のヒストグラムにおけるビン数を抑えることもできる。図１１に、図１０のそれと同じビデオ画像に関し、その量子化係数を２４０にして作成した撮影位置ヒストグラム９４０を示す。このようなヒストグラム９４０では、移動パターンを表現するのに必要なビンの総数が少なくなる。更に、撮影時カメラ位置がよりまとまったかたちで表現されるので、量子化係数が小さければ分類先のビンが変化するようなカメラ揺れや微動があってもその影響を受けることが少ない。図１１に示した例からは、ディジタルビデオ時系列の取得過程中に、主要なカメラ固定領域が４個生じたことを看取することができる。

図１２に、図１１に示した撮影位置ヒストグラム９４０の数値表現を示す。図中の数値は対応するビンに分類されたビデオフレームの個数を表しており、ビデオ撮影全体に亘る撮影位置ヒストグラム９４０がそれらのビンで形成されている。上掲の主要なカメラ固定領域に対応するビンに各２００個超のビデオフレームが分類されているのに対し、過渡的領域に対応する残りのビンには各１００未満のビデオフレームしか分類されていない。本実施形態では、こうしたカメラ移動パターン構成領域それぞれに対し、その領域に属するビデオフレームの個数に相応する固定指数の関連付けが行われる。

また、図１２に示した数値表現では、個々のビンの数値が、対応する領域に属するビデオフレームの絶対個数となっている。これに代え、個々のビンの数値を何らかのスケール係数でスケーリングしてもよい。例えば、そのビデオ画像の撮影で得られたビデオフレームの総数で個々のビンの数値を正規化してもよい。

一般に、ビデオ画像の撮影中にカメラの移動が止まった光景内領域は注目すべき領域であるといえる。従って、固定指数が大きい領域に対応するビデオフレームはキービデオフレームの有力な候補であるといえる。

本実施形態では、図１０〜図１２を参照して説明した通り、カメラ移動パターンが大域モーション解析によって判別される。これに代え、更にズームを勘案してカメラ移動パターンを判別するようにしてもよい。ズームを扱うには、例えば、変位性大域モーションに係る二軸（横軸及び縦軸）とズーム倍率に係る第３の軸を併せ三次元的な移動軌跡を判別する手法を採ればよい。また、更にカメラの回動を勘案してカメラ移動パターンを判別するようにしてもよい。

本実施形態では、大域モーション情報の導出に当たり、図１に示した加速度計２７からのデータが解析される。加速度計２７からのデータは、画素群単位の変位モーションに換算することが可能である。ディジタルモーション推定を通じ大域モーション情報を導出する形態にて本発明を実施することもできる。いわゆる当業者にはご理解頂けるように、一対のディジタル画像間で生じた変位性大域モーションの推定算出に使用可能な手法は数多く知られている。

カメラ移動パターンを示すヒストグラムの生成に使用される量子化係数は、ビデオ撮影時の解像度に応じ設定することが可能である。例えば、ビデオフレーム解像度の１／２に等しい値の量子化係数にするとよい。その場合、６４０カラム×４８０ローのＶＧＡビデオ画像なら横方向の量子化係数が３２０、縦方向の量子化係数が２４０となる。

また、図１０及び図１１に示した移動軌跡は時間情報を含んでいない。即ち、ビデオ撮影中に使用されたカメラ固定領域の位置は指し示されているものの、その領域がビデオ撮影プロセス中のどの時点で発生したかが指し示されていない。本発明は、時間情報を保持する形態、即ち時間に対するカメラ固定位置の関係で移動軌跡が表現される形態でも実施することができる。

翻って、図９に示した手順で使用されるキービデオフレーム２４５は、図２を参照して説明した要領で選択されたものである。フレーム２４５は、これに限らず、本件技術分野で既知の諸手法で定めることができる。また、キービデオフレームランク付けステップ９２０では、それらのフレーム２４５がカメラ移動パターン９１５に基づきランク付けされる。本実施形態では、その際、対応するカメラ移動パターン沿い領域が個々のフレーム２４５毎に特定される。カメラ移動パターン沿い領域は、大域変位性を示す移動軌跡沿いの諸領域のなかから、対応するフレーム２４５の撮影時点に基づきフレーム２４５毎に特定することが可能である。その後は、そのディジタルビデオ時系列に係る撮影位置ヒストグラムに基づき、フレーム２４５毎に相応の固定指数が導出される。フレーム２４５の初期ランク付けはその固定指数に基づき実行することができる。具体的には、対応する固定指数が最も大きなフレーム２４５が最高ランクキービデオフレームに初期設定される。

その他のランク付け手段もキービデオフレームのランク付けに使用できる。本発明は、そうした他種ランク付け手段を固定指数と併用して初期ランク付けを行う形態で実施することができる。本発明は、また、他種ランク付け手段を二次ランク付け手段と位置づけ、その固定指数が等しいキービデオフレーム間のタイブレークにその二次ランク付け手段を使用する形態でも実施することができる。キービデオフレームのランク付けに使用可能な他種ランク付け手段の例としては、図２中のキービデオフレーム選択ステップ２４０との関連で説明したフレーム別の選択スコアがある。

本実施形態では、キービデオフレームのランク付けが反復的に実行される。初回実行時に判別されるのは最高ランクキービデオフレームである。これは、固定指数や他種ランク付け手段に基づき最高ランクのキービデオフレームを選択することで実行できる。

最高ランクキービデオフレームの判別が済んだ後は、反復のたびに、残るキービデオフレームが再びランク付けされ、そのなかで最高ランクのキービデオフレームが選択される。残るキービデオフレームの再ランク付けは、最高ランクキービデオフレームの判別が済んだ後に、冗長性に従い諸キービデオフレームのランク付けを調整することで実行される。冗長性は、複数のキービデオフレームが概ね同一のカメラ位置で撮影された場合に生じるものである。ランク付け済キービデオフレームリストにおける同一カメラ固定領域の再登場がそのリストにおける全カメラ固定領域の登場に先立たないよう諸キービデオフレームをランク付けすべく、キービデオフレームは、反復のたびに、ランク付け済キービデオフレームリストにまだ登場していない領域を優先しつつ再ランク付けされる。

図１３に、このランク付け及び再ランク付け処理の一例を示す。この例では、あるディジタルビデオ時系列を代表するキービデオフレームとして４個のキービデオフレームが選択されている。キービデオフレーム１に対応するカメラ固定領域は３、固定指数は０．４である。更に、キービデオフレーム１の初期ランク付けスコアは、固定指数やその他のスコア付け手段に基づき８０とされている。同様に、キービデオフレーム２に対応するカメラ固定領域は６、固定指数は０．２、初期ランク付けスコアは７０である。キービデオフレーム３に対応するカメラ固定領域は３、固定指数は０．４、初期ランク付けスコアは９０である。キービデオフレーム４に対応するカメラ固定領域は２、固定指数は０．１、初期ランク付けスコアは６０である。

初期ランク付けスコアに基づくキービデオフレームの初期ランクは、高い方から低い方への順で述べると、キービデオフレーム３、１、２、４の順である。それらのうちキービデオフレーム３は、最終ランク付けの初回実行時に最高ランクキービデオフレームとして選択される。次いで、カメラ固定領域３以外のカメラ固定領域で得られたキービデオフレームの選択が促されるよう、残りのキービデオフレームが再ランク付けされる。従って、最終ランク付けの第２回実行時にはキービデオフレーム２が選択される。キービデオフレーム１は、他のカメラ固定領域が選択されてからでないとランク付け処理で選択されないので、結果としては最低ランクのキービデオフレームとなる。

翻って、図８中のキービデオ断片生成ステップ２７０では、１個又は複数個の最高ランクキービデオフレーム２６５に対応するキービデオ断片２７５が生成される。このステップ２７０における断片２７５の生成は、大略、ビデオサマリの総時間長を指定する条件及びキービデオ断片毎の最短時間長を指定する条件をはじめ、所定個数の条件に従い実行される。

最高ランクキービデオフレーム２６５はキービデオ断片２７５の生成、ひいてはビデオサマリ２８５の構築に際し基礎として使用される。断片２７５の生成に当たり選択されるフレーム２６５の個数はサマリ２８５の総時間長及び断片２７５の最短時間長によって大きく左右される。本実施形態では、選択されたフレーム２６５それぞれを中心にして断片２７５が生成される。

本発明は、各キービデオ断片の開始時点及び終了時点が他の条件に依存する形態でも実施することができる。例えば、ディジタルビデオ時系列を解析することで重要度の経時変化を判別し、高い重要度を呈するビデオフレームの繰り込みが促進される条件に従いキービデオ断片の開始時点及び終了時点を決定するようにするとよい。ディジタルビデオ時系列の解析による重要度経時変化の判別は、図２を参照して説明したディジタルビデオ解析ステップ２１０でのそれと同じ要領で実行できる。重要度を使用することで、例えば、静止的フレームや高速パンフレームに比べ魅力的フレームを優先して繰り込ませることが可能となる。各キービデオ断片の開始時点及び終了時点がこの条件に従い調整される実施形態でも、ビデオサマリの総時間長や各キービデオ断片の最短時間長に課されている制約を満足させることができる。

本発明は、ディジタルビデオ時系列を解析することでオーディオ活性レベルの経時変化を判別する形態でも実施することができる。例えば、キービデオ断片２７５の開始時点及び終了時点を、開始時点及び終了時点におけるオーディオ活性レベルが低いレベルになるよう促す条件に従い決定する形態である。これによって、キービデオ断片の開始や終了で話者音声が途切れる確率を抑えることができる。大抵の場合、キービデオ断片内に発声期間全体を捉え、文章の途中での話者音声途切れが生じないようにすることは、望ましいことであろう。いわゆる当業者にはご理解頂けるように、話者音声検出に使用可能な音声解析技術は本件技術分野で周知である。

本発明は、他のキービデオ断片のそれと似通ったコンテンツを有するキービデオ断片の発生を抑える条件に従いキービデオ断片を生成する形態でも実施することができる。他のキービデオ断片のそれと似通ったコンテンツを有するキービデオ断片の発生を抑える手法の一つは、キービデオ断片の生成に使用される最高ランクキービデオフレームをそのカメラ固定領域がユニークなものに限定する、という手法である。そのカメラ固定領域がユニークな最高ランクキービデオフレームの個数が要選択個数に不足する場合は、個々のキービデオ断片の時間長を延ばし、ビデオサマリに課される総時間長条件を充足させるようにすればよい。

本発明は、対応する最高ランクキービデオフレーム２６５間を隔てる期間が所定のしきい値より短いキービデオ断片２７５同士を融合させ、単一のキービデオ断片を生成する形態でも実施することができる。断片２７５同士を融合させることで、先行する断片２７５の終了部分と後続する断片２７５の開始部分とが重なることや、両断片２７５間に僅かな途切れが生じることを、防ぐことができる。そうした継ぎ目が含まれるビデオサマリは視聴者を困惑させかねないので、継ぎ目が見えないよう断片２７５同士を融合させて単一のキービデオ断片にしたビデオサマリは視覚的に望ましいものである。

また、ディジタルビデオ圧縮アルゴリズムとしては、ディジタルビデオ時系列を複数個のビデオフレーム群に分割して符号化に供するものが多々ある。例えば、独立符号化ビデオフレーム（Ｉフレーム）１個が先行し、そのＩフレームに基づく予測で生成された予測符号化ビデオフレーム（Ｐフレーム）複数個が後続する構成になるよう、個々の符号化対象ビデオフレーム群を生成する圧縮方式である。ある符号化対象ビデオフレーム群が終わり次の符号化対象ビデオフレーム群が始まる時点で現れるのは後者内のＩフレームである。こうした圧縮方式では、圧縮されたディジタルビデオ時系列の内部に至るアクセスポイントとしてＩフレームを使用し、Ｉフレームを始点とするフレーム群を抽出することができる。具体的には、その符号化対象ビデオフレーム群を構成する圧縮バイトの位置及び個数を指し示すヘッダ情報を復号するのみで、圧縮版のディジタルビデオ時系列から符号化対象ビデオフレーム群全体を抽出してビデオサマリへと符号変換することができる。従って、ビデオサマリ２８５を生成する際、各キービデオ断片２７５の冒頭フレームがＩフレームになるよう求めることや、その断片２７５に含まれる符号化対象ビデオフレーム群の個数に端数が生じないよう求めることは有益なことである。これらの制約を課すことで、元々の圧縮版ディジタルビデオ時系列をあまり伸張せずにサマリ２８５を生成することが可能となる。

本発明は、ビデオサマリの総時間長が自動決定される形態でも実施できる。原ディジタルビデオ時系列の時間長に基づき決定してもよいし、対応する時間歪曲表現の時間長に基づき決定してもよい。また、本発明は、ビデオサマリの総時間長がユーザによって指定される形態でも実施できる。例えば、ビデオサマリの総時間長として相応しいと思われる値をユーザが指定し、その値に基づきキービデオ断片２７５の個数及び時間長が決定される形態である。

図１４に、本実施形態に従い生成されるキービデオ断片の一例を示す。この例では、互いに等しい時間長になるよう、且つ対応する最高ランクキービデオフレームを中心にして拡がるよう、個々のキービデオ断片が生成されている。具体的には、ディジタルビデオ時系列６１０の解析を通じ３個の最高ランクキービデオフレーム６４０が選択され、そのフレーム６４０それぞれに対応するようキービデオ断片６２０が生成されている。図中の６３０は時系列６１０内の発声期間である。このキービデオ断片生成例では、残念なことに、発声期間６３０の終了より前に１個目の断片６２０が終了している。これもまた残念なことに、２個目の断片６２０と３個目の断片６２０とを隔てる時間が短時間になっている。

図１５に、本発明の他の実施形態に従い且つディジタルビデオ時系列６１０に基づき生成されるキービデオ断片の別例６２０を示す。この例では、キービデオ断片６２０の生成に関し更なる条件が課されている。まず、断片６２０の時間長が互いに等しくなくてもかまわない、対応する最高ランクキービデオフレーム６４０を中心にして個々の断片６２０が拡がる必要はない、との条件が課されている。また、個々の断片６２０が始まる時点及び終わる時点として、対応するオーディオ活性レベルが低い時点を優先的に選択する、との条件が課されている。更に、断片６２０の生成に関し、対応するフレーム６４０間の時間間隔が所定のしきい値より短い断片６２０同士を融合させる、という条件が課されている。そのため、この例では、対応するフレーム６４０に対しずれた点を中心に１個目の断片６２０が長く延びていて、その断片６２０の前後どちらでも発声期間６３０が途切れていない。更に、２個目のフレーム６４０と３個目のフレーム６４０とを隔てる時間が短いため、対応するキービデオ断片同士が単一の断片６２０へと融合されている。総時間長に関する条件は、必要に応じ開始時点及び終了時点を調整することで、時間的に近接した断片６２０同士の融合及び発声期間６３０の途切れ防止と並立させることができる。図１５に示した断片６２０は、図１４に示した断片６２０に比べ、より好適なビデオサマリをかたちづくっているといえよう。

図８中のビデオサマリ生成ステップ２８０では、キービデオ断片２７５同士の合成によってビデオサマリ２８５が生成される。本実施形態では、ディジタルビデオ時系列における登場順序に合致するよう断片２７５が経時順に合成される。

本発明に係る方法を実行するためのコンピュータプログラム製品は、磁気ディスク（例．フロッピー（登録商標）ディスク）、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、ＲＡＭ、ＲＯＭ等の固体電子記憶デバイスをはじめとする１個又は複数個の記録媒体、即ち本発明に係る方法が体現されるよう１台又は複数台のコンピュータを制御するコンピュータプログラムの保存に使用可能な諸有形デバイス乃至媒体に保存可能である。

２フラッシュ、４レンズ、６可調絞り及び可調シャッタ、８ズーム／合焦モータドライバ、１０ディジタルカメラ、１２タイミング発生器、１４イメージセンサ、１６ＡＳＰ及びＡ／Ｄコンバータ、１８バッファメモリ、２０プロセッサ、２２オーディオコーデック、２４マイクロホン、２６スピーカ、２７加速度計、２８ファームウェアメモリ、３０画像メモリ、３２画像ディスプレイ、３４ユーザ用コントローラ、３６ディスプレイメモリ、３８有線インタフェース、４０コンピュータ、４４ビデオインタフェース、４６ビデオディスプレイ、４８インタフェース／充電器、５０ワイヤレスモデム、５２無線周波数帯、５８ワイヤレスネットワーク、７０インターネット、７２フォトサービスプロバイダ、２００，４００，６１０ディジタルビデオ時系列、２１０，９１０ディジタルビデオ解析ステップ、２１５重要度、２２０時間歪曲表現生成ステップ、２２５，５００時間歪曲表現、２３０時間歪曲表現分割ステップ、２３５，５２０等長期間、２４０キービデオフレーム選択ステップ、２４５キービデオフレーム、２５０キービデオフレーム指示子格納ステップ、２６０最高ランクキービデオフレーム判別ステップ、２６５，６４０最高ランクキービデオフレーム、２７０キービデオ断片生成ステップ、２７５，６２０キービデオ断片、２８０ビデオサマリ生成ステップ、２８５ビデオサマリ、２９０ビデオサマリ表現子格納ステップ、３１０大域モーション情報、３２０局所モーション情報、３３０クラシファイア、３４０ビデオフレーム分類、４１０ディジタルビデオ小期間、４２０原表現対応期間、５１０歪曲ディジタルビデオ小期間、６３０発声期間、９１５カメラ移動パターン、９２０キービデオフレームランク付けステップ、９２５移動軌跡、９３０，９４０撮影位置ヒストグラム。

Claims

ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、
ａ）そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、
ｂ）そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、
ｃ）カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、
を実行する方法。
請求項１記載の方法であって、上記カメラ移動パターンを大域モーション解析によって判別する方法。
請求項２記載の方法であって、上記大域モーション解析に当たり加速度計からのデータを解析する方法。
請求項２記載の方法であって、上記大域モーション解析に当たり、ディジタルモーション推定アルゴリズムに則り上記ディジタルビデオを解析する方法。
請求項１記載の方法であって、上記カメラパターンを複数個のカメラ移動パターン領域へと量子化する方法。
請求項５記載の方法であって、上記カメラ移動パターンを構成するカメラ移動パターン領域それぞれに、そのカメラ移動パターン領域内の位置で得られたビデオフレームの個数に相応する固定指数を関連付ける方法。
請求項５記載の方法であって、上記カメラ移動パターンが、対応するカメラ固定領域を有する方法。
請求項６記載の方法であって、上記キービデオフレームを上記固定指数に従い初期的にランク付けする方法。
請求項８記載の方法であって、冗長性を減らすため上記キービデオフレームのランクを事後的に調整する方法。
請求項１記載の方法であって、上記ステップｂ）が、
ｉ）上記ディジタルビデオを解析して重要度の経時変化を判別するステップと、
ｉｉ）重要度の経時変化に応じたビデオフレームの時間的再配置によって上記時系列の時間歪曲表現を生成するステップと、
ｉｉｉ）その時間歪曲表現を一組の等長期間に分割するステップと、
ｉｖ）各等長期間内のビデオフレームを解析することで等長期間毎にキービデオフレームを選択するステップと、
を含む方法。
請求項１記載の方法であって、
ｄ）キービデオフレームのなかで最高のランクが付けられたものに対応するキービデオ断片を生成するステップと、
ｅ）それらキービデオ断片同士を結合させてビデオサマリを生成するステップと、
ｆ）生成されたビデオサマリをプロセッサ可アクセスメモリに保存するステップと、
を実行する方法。
イメージセンサと、
イメージセンサ上に光景の画像を発現させる光学系と、
データ処理システムと、
データ処理システムに対し可通信接続されており、ディジタルビデオに関するキービデオフレームランク付け方法をそのデータ処理システムに実行させるための指令群を格納するメモリシステムと、
を備え、その指令群が、
ビデオフレームの時系列を有するディジタルビデオをイメージセンサに撮影させるための指令と、
そのディジタルビデオを解析してカメラ移動パターンを判別させるための指令と、
そのディジタルビデオに関し一組のキービデオフレームを判別させるための指令と、
カメラ移動パターンに基づきそれらキービデオフレームをランク付けさせるための指令と、
を含むディジタルビデオカメラシステム。