JP2013532323A - カメラ位置に基づくキービデオフレームのランク付け - Google Patents

カメラ位置に基づくキービデオフレームのランク付け Download PDF

Info

Publication number
JP2013532323A
JP2013532323A JP2013512133A JP2013512133A JP2013532323A JP 2013532323 A JP2013532323 A JP 2013532323A JP 2013512133 A JP2013512133 A JP 2013512133A JP 2013512133 A JP2013512133 A JP 2013512133A JP 2013532323 A JP2013532323 A JP 2013532323A
Authority
JP
Japan
Prior art keywords
video
key
digital
video frames
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013512133A
Other languages
English (en)
Other versions
JP2013532323A5 (ja
JP5837922B2 (ja
Inventor
アーロン ディーバー
Original Assignee
インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インテレクチュアル ベンチャーズ ファンド 83 エルエルシー filed Critical インテレクチュアル ベンチャーズ ファンド 83 エルエルシー
Publication of JP2013532323A publication Critical patent/JP2013532323A/ja
Publication of JP2013532323A5 publication Critical patent/JP2013532323A5/ja
Application granted granted Critical
Publication of JP5837922B2 publication Critical patent/JP5837922B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、を実行する方法を提供する。

Description

本発明はディジタルビデオ処理、特にキービデオフレームを選択してビデオサマリを生成する方法に関する。
スチル画像に加えビデオ画像の撮影も可能なディジタル撮影装置は多々あるが、ディジタルビデオコンテンツの管理は面倒な作業になりがちである。これは、ビデオコンテンツの視覚的象徴としてビデオ画像内冒頭フレームのサムネイル画像が一般に使用されているからである。サムネイル画像ではビデオコンテンツを十分に推し量るのが難しいので、得られたビデオ画像にどのような出来事が写っているかを知るためそのビデオ画像全体を視聴せざるを得なくなる場合がある。ユーザは、長々しいビデオ画像全体を視聴することよりはそのビデオ画像の簡潔なサマリを視聴することの方を好むものである。
ディジタルビデオには共有に関わる現実的な問題もある。多くのディジタル撮影装置で記録速度が30乃至60フレーム/secの速度であり、空間解像度が1920×1080画素以上であるため、圧縮してもかなりのデータ量になってしまい短めのビデオ画像でも実際上共有できないことである。
ビデオ編集ソフトウェアを用いたビデオ画像のマニュアル操作で、より容易に共有可能な短縮版(サマリ)を作成することも可能である。しかし、マニュアルでのビデオ編集は長々しく面倒な作業になることが多く、大抵のユーザにとって苦痛なものである。他方、自動ビデオサマリ生成アルゴリズム、即ち撮影で得られたビデオ画像を解析してそのサマリを生成するアルゴリズムも存在している。しかし、ビデオ画像の解析によるサマリ生成時にそのビデオ画像を復号する必要があるため、そうしたアルゴリズムは非常に複雑なものとなる。即ち、その種のアルゴリズムをディジタル撮影装置上で実行し、撮影で得られたばかりのビデオ画像に相応するサマリを即座に視聴に供することができない。撮影で得られたビデオ画像の迅速な確認及び共有を可能とする上で、この短所は妨げとなっている。
国際公開第2007/122541号パンフレット 欧州特許第2063635号明細書 米国特許第5818439号明細書 米国特許第6462754号明細書 米国特許第7055168号明細書 米国特許出願公開第2008/043848号明細書 米国特許第3971065号明細書 米国特許第4642678号明細書 米国特許第4774574号明細書 米国特許第5189511号明細書 米国特許第5493335号明細書 米国特許第5652621号明細書 米国特許第5668597号明細書 米国特許第5995095号明細書 米国特許第6192162号明細書 米国特許第6292218号明細書 米国特許第6833865号明細書 米国特許第6934056号明細書 米国特許第7035435号明細書 米国特許第7046731号明細書 米国特許第7403224号明細書 米国特許第7409144号明細書 米国特許第7483618号明細書 米国特許第7542077号明細書 米国特許出願公開第2004/0052505号明細書 米国特許出願公開第2005/0191729号明細書 米国特許出願公開第2007/0182861号明細書 米国特許出願公開第2007/0183497号明細書 米国特許出願公開第2009/0007202号明細書
MA, Y-F et al., "A Generic Framework of User Attention Model and its Application in Video Summarization," IEEE Transactions on Multimedia, IEEE Service Center, Piscata Way, NJ, US, vol.7, no.5, 1 October 2005 (2005-10-01), pages 907-919, XP01113970, ISSN:1520-9210, DOI:10.1109/TMM.2005, 854410 MA, Y-F et al., "A User Attention Model for Video Summarization," Proceedings 10th ACM International Conference on Multimedia, Juanles-Pins, France, Dec.1-6, 2002, vol.Conf.10, 1 December 2002 (2002-12-01), pages 533-543, XP001175055, DOI:10.1145/641107,641116, ISBN:978-1-58113-620-3 Divakaran, A, et al., "Video Browsing System for Personal Video Recorders," Proceedings of SPIE, The International Society for Optical Engineering SPIE, USA, vol.4861, 1 January 2002 (2002-01-01), pages 22-25, XP009092815, ISSN:0277-786X, DOI:10.117/12.470201
このように、ディジタル撮影装置内でビデオサマリを生成することが可能なシステム及び方法を提供すること、特にビデオ撮影終了からディジタル撮影装置上でのビデオサマリ生成までにかかる時間が短い技術を提供することが望まれている。
本発明に係る方法は、ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、
a)そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、
b)そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、
c)カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、
を実行する方法である。
本発明によれば、カメラ移動パターンの解析を通じビデオフレームの重要度を求めることができる。
また、そのカメラ移動パターンは、加速度計から得られるデータに基づき、或いは撮影で得られたビデオ画像時系列に対する大域モーション解析の適用を通じ、簡便に判別することができる。
更に、その実施に当たり冗長なキービデオフレームを排除することもできる。
そして、ランク付けされたキービデオフレームを用い、重要なキービデオ断片の時系列で構成されるビデオサマリを生成することもできる。
本発明の一実施形態に係るビデオサマリ生成システムの構成要素を示す上位概念図である。 本発明の一実施形態に係るディジタルビデオ時系列内キービデオフレーム判別手順を示すフローチャートである。 本発明の一実施形態におけるビデオフレーム分類手順を示すフローチャートである。 その長さが等しい複数個の小期間に区分されたディジタルビデオ時系列を示す図である。 図4に示したディジタルビデオ時系列の時間歪曲表現を示す図である。 時間歪曲表現の等長期間群への分割を示す図である。 図4に示した元々のディジタルビデオ時系列に対する図6に示した期間群の時間的対応関係を示す図である。 本発明の一実施形態に係るビデオサマリ生成手順を示すフローチャートである。 本発明の一実施形態における最高ランクキービデオフレーム判別手順を示すフローチャートである。 撮影位置ヒストグラムを示す図である。 撮影位置ヒストグラムを示す図である。 図11に示した撮影位置ヒストグラムの数値表現を示す図である。 最高ランクキービデオフレームの判別に適したランク付け処理の一例を示す図である。 キービデオ断片の生成例を示す図である。 キービデオ断片の他の生成例を示す図である。
以下、本発明の好適な実施形態のうち、概ねソフトウェアプログラムとして実施されるものについて詳細に説明する。本件技術分野で習熟を積まれた方々(いわゆる当業者)には自明な通り、そうしたソフトウェアと等価なものをハードウェアで実現することもできる。画像操作アルゴリズム及びシステムは周知であるので、以下の説明では、本発明に係るシステム及び方法を構成し又はそれと直に連携するアルゴリズム及びシステムに的を絞っている。そうしたアルゴリズム及びシステムの別例や、関連する画像信号の生成乃至処理用ハードウェア乃至ソフトウェアについては、本件技術分野で既知のシステム、アルゴリズム、部材及び要素から選択できるので、具体的な図示や説明を省略する。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。
また、本発明に係る方法を実行するためのコンピュータプログラムは、磁気ディスク(例.ハードディスク,フロッピー(登録商標)ディスク)、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)等の固体電子記憶デバイスをはじめとするコンピュータ可読記録媒体、即ち本発明に係る方法が体現されるよう1台又は複数台のコンピュータを制御するコンピュータプログラムの格納に使用可能な諸有形デバイス乃至媒体に格納することができる。
本発明は、本願記載の実施形態同士を組み合わせた構成をも包含する。「具体例」等との記載があるなら、その構成は本発明の実施形態のうち少なくとも1個で採用されうるものである。ある個所で「一実施形態」「具体例」と称したものと別の個所で「一実施形態」「具体例」と称したものとが同一であるとは限らない。反面、明示のある場合やいわゆる当業者にとり自明な場合を除き、それらが相互排他的な関係になるとも限らない。「方法」「諸方法」等といった単複の別には要旨限定的な意味合いはない。語「又は」は、明示がある場合や文脈上当然な場合を除き非排他的な意味合いで使用されているので、その点に留意されたい。
イメージングデバイス、それに関連する信号取得/処理回路、ディスプレイ等を備えたディジタルカメラは周知であるので、以下の説明では、本発明に係る方法及び装置を構成し又はそれと直に連携する要素に的を絞ることにする。本願にて具体的に図示、説明されていない要素は本件技術分野で既知のものから選べばよい。説明してある実施形態のうち一部はソフトウェアの形態を採っている。本発明のシステムに関する以下の説明を参照すれば、本発明の実施に役立つが具体的な図示、示唆及び説明を欠くソフトウェアも、従来技術やいわゆる当業者の常識に従い実現することができよう。
ディジタルカメラに関する以下の説明はいわゆる当業者にとり理解しやすいものであろう。自明な通り、これから説明する構成については、様々な変形を施し、コスト低減、機能追加、カメラ性能向上等を図ることができる。
図1に、本発明の一実施形態に係りビデオ撮影が可能なディジタルカメラ10を有するディジタル写真システムのブロック構成を示す。このカメラ10は好適にも電池駆動式でその携帯が可能な装置であり、撮影時や画像リビュー時にユーザが容易に手に持てるほど小型である。カメラ10による撮影で得られたディジタル画像は画像メモリ30内にディジタル画像ファイルとして格納される。なお、本願では、「ディジタル画像」「ディジタル画像ファイル」等の語を、スチル画像かビデオ画像かを問わず種々のディジタル画像乃至そのファイルを包含する意味で使用している。
本実施形態では、ディジタルカメラ10でビデオ,スチル双方を撮影することができる。ビデオしか撮影できないディジタルビデオカメラの形態をディジタルカメラ10が採るよう本発明を実施してもよい。このカメラ10にその他の機能、例えばMP3プレイヤをはじめとするディジタル音楽プレイヤの機能や、携帯電話、GPS受信機、携帯情報端末(PDA)等の機能を持たせることもできる。
カメラ10には、レンズ4及びそれに付随する可調絞り及び可調シャッタ6が備わっている。本実施形態ではレンズ4がズームレンズであり、それを制御するズーム/合焦モータドライバ8が設けられている。レンズ4は、図示しない光景から来る光をイメージセンサ14上、具体的には単一チップ型のカラーCCDイメージセンサやカラーCMOSイメージセンサの上に合焦させる。このレンズ4はセンサ14上に光景の像を発生させうる光学系の一種である。本発明は、固定焦点長レンズを有しその焦点が可変又は固定の光学系を使用する形態でも実施することができる。
そのイメージセンサ14の出力は、アナログ信号プロセッサ(ASP)及びアナログディジタル(A/D)コンバータ16にてディジタルデータに変換され、バッファメモリ18内に一時格納される。メモリ18内に一時格納された画像データは、ファームウェアメモリ28内に格納されている埋込ソフトウェアプログラム、例えばファームウェアに従いプロセッサ20によって操作される。本実施形態では、そのファームウェアメモリ28として、ソフトウェアプログラムを恒久的に保持するROM型のものが使用されている。本発明は、ファームウェアメモリ28として、その内容修正が可能なメモリ例えばフラッシュEPROMを使用する形態でも実施することができる。その場合、外部装置を有線インタフェース38やワイヤレスモデム50を介し接続してファームウェアメモリ28内のソフトウェアプログラムを更新することや、イメージセンサ校正データ、ユーザ設定データ等、カメラ電源がオフしているときでも保存しておくべきデータの保存にファームウェアメモリ28を使用することができる。図示しないが、本実施形態ではプロセッサ20にプログラムメモリが備わっており、ファームウェアメモリ28内のソフトウェアプログラムはそこにコピーされた上でプロセッサ20により実行される。
ご理解頂けるように、このプロセッサ20には様々な機能がある。それらの機能の実現には、1個又は複数個のプログラマブルプロセッサ例えばディジタル信号プロセッサ(DSP)、1個又は複数個のカスタム回路例えばディジタルカメラ向けカスタム集積回路(IC)、それらプログラマブルプロセッサ及びカスタム回路の組合せ等を使用することができる。同じくご理解頂けるように、図1に示した諸部材の一部又は全てをプロセッサ20へと接続するのに共通データバスを使用することもできる。例えば、プロセッサ20、バッファメモリ18、画像メモリ30及びファームウェアメモリ28の間を共通データバス経由で接続する構成にするとよい。
処理された画像はその後画像メモリ30内に格納される。自明な通り、このメモリ30は、リムーバブルフラッシュメモリカード、内蔵フラッシュメモリチップ、磁気メモリ、光学メモリ等をはじめ、いわゆる当業者にとり既知の諸形態を採りうる。メモリ30を、内蔵フラッシュメモリチップ,リムーバブルフラッシュメモリカード対応標準インタフェース併有型の構成にしてもよい。メモリカードとしては、セキュアディジタル(SD(登録商標))カード、マイクロSD(登録商標)カード、コンパクトフラッシュ(CF(登録商標))カード、マルチメディアカード(MMC)、xD(登録商標)カード、メモリスティック等を使用することができる。
また、イメージセンサ14は、ASP及びA/Dコンバータ16の動作に同期するよう、タイミング発生器12に発する種々のクロック信号、例えばローセレクト信号や画素セレクト信号に従い制御される。この例ではセンサ14のサイズが12.4メガ画素(4088×3040画素)であるので、約4000×3000画素のスチル画像データを生成することができる。また、通例に倣いセンサ14上に色フィルタアレイが重畳され、その色が異なる画素群が混在する画素アレイが形成されているので、このセンサ14でカラー画像を得ることができる。その画素アレイにおける画素色配列は様々なパターンを採りうる。その一例は、本願出願人を譲受人とする特許文献7(発明者:Bayer,名称:カラーイメージングアレイ(Color imaging array),この参照を以てその内容を本願に繰り入れる)に記載の如く、周知のベイヤ色フィルタアレイが形成される画素色配列パターンである。別例としては、本願出願人を譲受人とする特許文献26(発明者:Compton及びHamilton,出願日:2007年7月28日,名称:高光感度イメージセンサ(Image Sensor with Improved Light Sensitivity),この参照を以てその内容を本願に繰り入れる)に記載の画素色配列パターンがある。これらはいずれも例であり、画素色配列パターンとして使用可能なパターンは多様である。
ご理解頂けるように、これらイメージセンサ14、タイミング発生器12並びにASP及びA/Dコンバータ16は、互いに別々のICとして製造することも、CMOSイメージセンサでの通例に倣い単一のICとして製造することも可能である。後者ならば、そのICに、図1に示した機能、例えばプロセッサ20によって担われている機能の一部を担わせることもできる。
タイミング発生器12によるイメージセンサ14の駆動モードとしては、まず、低解像度画像データのモーション付時系列が生じる第1モードがある。ビデオ画像を撮影する際や、スチル撮影に先立ちプリビューして画像の構図を検討する際には、このモードの許で、1280×720画素のHD(登録商標)解像度画像データ、640×480画素のVGA解像度画像データ等、センサ14の解像度に比べかなりカラム数及びロー数が少ないセンサ画像データが生成される。
プリビュー向けのセンサ画像データについては、同色隣接画素間で画素値を結合させる処理、一部画素値を無視する処理、ある色について画素値同士を結合させる一方他の色について画素値を無視する処理等が施されうる。本願出願人を譲受人とする特許文献16(発明者:Parulski, et al.,名称:ビデオ画像プリビュー中にスチル撮影を開始する電子カメラ(Electronic Camera for Initiating Capture of Still Images while Previewing Motion Images),この参照を以てその内容を本願に繰り入れる)に記載の処理を施すようにしてもよい。
タイミング発生器12によるイメージセンサ14の駆動モードとしては、次に、高解像度スチル画像データが生じる第2モードがある。その結果生じる最終的なセンサ画像データは、例えば4000×3000画素の解像度を有する12メガ画素の高解像度画像データである。光景輝度が高い場合はセンサ14内諸画素の画素値が最終画像データとして使用されるが、光景輝度が低い場合は、信号強度ひいてはセンサ14のISO(登録商標)速度を増強するため、センサ14内類色画素間で画素値をビニング(結合)したものが最終画像データとして使用される。
プロセッサ20は、その際、焦点長設定が適正になり光景からの光がイメージセンサ14上に合焦するよう、制御信号を発してズーム/合焦モータドライバ8を制御する。センサ14の露光レベルは、可調絞り及び可調シャッタ6によるf/ナンバー及び露光時間の制御、タイミング発生器12によるセンサ14の露光周期の制御、並びにASP及びA/Dコンバータ16による利得設定即ちISO(登録商標)速度設定の制御によって制御される。プロセッサ20は、更に、光景を照らすべくフラッシュ2を制御する。
上掲の第1モードでは、本願出願人を譲受人とする特許文献13(発明者:Parulski et al.、名称:プログレッシブスキャンイメージセンサ上に画像を高速自動合焦させる電子カメラ(Electronic Camera with Rapid Automatic Focus of an Image upon a Progressive Scan Image Sensor),この参照を以てその内容を本願に繰り入れる)記載の通り、ディジタルカメラ10のレンズ4をスルーザレンズ方式で自動合焦させることができる。これは、ズーム/合焦モータドライバ8を用い、レンズ4の焦点位置を至近焦点位置から無限遠焦点位置に至る範囲内で様々に変化させながら、イメージセンサ14で撮影された画像の中央領域でシャープネス値がピークを呈する最善焦点位置をプロセッサ20にて判別することで実行される。この最善焦点位置に対応する焦点距離は、適切な光景モードの自動設定等を含め幾通りかの目的で事後使用できることから、他のレンズ設定情報及びカメラ設定情報と共に画像ファイル内にメタデータとして格納される。
プロセッサ20は、ディスプレイメモリ36内に一時格納されていた低解像度カラー画像や作成したメニューを画像ディスプレイ32上に表示させる。このディスプレイ32は能動マトリクスカラー液晶ディスプレイ(LCD)であるが、有機発光ダイオード(OLED)ディスプレイ等、他種ディスプレイを使用することもできる。ディジタルカメラ10からのビデオ画像出力信号は、ビデオインタフェース44を介しビデオディスプレイ46、具体的にはフラットパネルHDTVディスプレイに供給される。ビデオ撮影モードやプリビューモードでは、バッファメモリ18から読み込まれたディジタル画像データがプロセッサ20によって操作され、一連のモーションプリビュー画像が画像ディスプレイ32上に原則としてカラーで表示される。画像閲覧モードでは、画像メモリ30内に格納されているディジタル画像ファイル内の画像データに基づき画像ディスプレイ32上に画像が表示される。
その画像ディスプレイ32上には、ユーザ用コントローラ34を介したユーザ入力で操作可能なグラフィカルユーザインタフェースが表示される。コントローラ34は、ビデオ撮影モード、スチル撮影モード、画像閲覧モード等をはじめとする諸カメラモードの設定や、スチル撮影開始、ビデオ記録開始等の指示に使用される。本実施形態では、コントローラ34の一種たるシャッタボタンをユーザが半押しすると上掲の第1モードに移行してスチル画像のプリビューが可能となり、全押しすると第2モードに移行してスチル撮影が実行される。コントローラ34は、更に、カメラへの電源投入、レンズ4の操作及び撮影プロセスの起動にも使用される。コントローラ34は、ボタン、ロッカスイッチ、ジョイスティック、ロータリダイアル、その任意の組合せ等の形態を採りうる。本実施形態では、コントローラ34の一部が、ディスプレイ32に重畳されたタッチスクリーンとして構成されている。ステータスディスプレイや画像ディスプレイを幾つか追加することもできる。
ユーザ用コントローラ34を用いカメラをタイマーモードに設定することもできる。タイマーモードの許では、ユーザがシャッタボタンを全押しした後、短い遅延時間例えば10secの経過を待ってプロセッサ20によるスチル撮影が開始される。
プロセッサ20には、更に、マイクロホン24から音声信号を受け取りスピーカ26に音声信号を供給するオーディオコーデック22が接続されている。これらの部材は、オーディオトラックの記録・再生時だけでなく、ビデオ画像時系列、スチル画像等の記録・再生にも使用可能である。ディジタルカメラ10をカメラ付携帯電話等の多機能デバイスとして構成し、マイクロホン24及びスピーカ26を通話手段にすることも可能である。
本実施形態では、スピーカ26がユーザインタフェースの一部、具体的にはユーザ用コントローラ34が操作されたことや個別のモードが指定されたことを種々の可聴信号で通知する部材としても使用される。本実施形態では、ユーザがコントローラ34の操作ではなく音声コマンドによってプロセッサ20に入力を与えられるよう、マイクロホン24、オーディオコーデック22及びプロセッサ20を用い音声認識が実行される。スピーカ26は、更に、電話コールの到来をユーザに通知する手段としても使用されうる。この通知には、ファームウェアメモリ28内に格納されている標準的なリングトーンを使用してもよいし、ワイヤレスネットワーク58経由でダウンロードされたカスタムリングトーンを格納先の画像メモリ30から読み出して使用してもよい。更に、図示しないが、電話コールの到来をサイレントモード即ち非可聴モードで通知できるよう振動デバイスを設けてもよい。
本実施形態では、ディジタルカメラ10が加速度計27を備えているので、カメラモーションに関する情報をそこから得ることができる。好ましいことに、この加速度計27は、直交三軸それぞれについて線加速度及び角加速度を検知できるものであるので、合計6次元分の情報を取得することができる。
プロセッサ20は、また、イメージセンサ14から得られる画像データに更なる処理を施すことでsRGB(登録商標)画像データに変換し、その圧縮で最終的な画像ファイル、例えば周知のExif(登録商標)−JPEG形式による画像ファイルを生成し、その画像ファイルを画像メモリ30内に格納する。
ディジタルカメラ10は、有線インタフェース38を介しインタフェース/充電器48に接続することで、コンピュータ40例えば家庭内又は事務所内のデスクトップ乃至ポータブルコンピュータに接続することができる。この例では、その有線インタフェース38として、周知のUSB2.0インタフェース仕様に適合するものが使用されている。そのため、インタフェース/充電器48から有線インタフェース38を介し図示しないカメラ10内二次電池群へと電力を供給することができる。
ディジタルカメラ10は、また、そのワイヤレスモデム50を用い無線周波数帯52経由でワイヤレスネットワーク58に接続することができる。モデム50は諸種無線インタフェースプロトコル、具体的には周知のBluetooth(登録商標)無線インタフェースや周知のIEEE802.11無線インタフェースに係るそれに従い動作する。コンピュータ40に届いた画像は、そこからインターネット70経由でフォトサービスプロバイダ72、例えばKodak(登録商標)EasyShare(登録商標)ギャラリに登録することができる。プロバイダ72に登録された画像には、図示しない他種装置からもアクセスすることができる。
本発明は、ワイヤレスモデム50がワイヤレスリンク等の無線周波数リンクを介し図示しない携帯電話網例えば3GSM(登録商標)網に接続し、ディジタルカメラ10内のディジタル画像ファイルをインターネット70上に送出する形態でも実施することができる。送出されたディジタル画像ファイルはコンピュータ40やフォトサービスプロバイダ72で受信される。
図2に、本発明の一実施形態に係るキービデオフレーム判別手順を示す。この手順は、ビデオフレームの時系列を有するディジタルビデオ時系列200を対象にしてプロセッサ20上で実行される。まず、ディジタルビデオ解析ステップ210では、その時系列200を解析することで重要度215の経時変化が判別される。時間歪曲表現生成ステップ220では、重要度215の経時変化に基づくビデオフレームの時間再配置によってその時系列200の時間歪曲表現225が生成される。時間歪曲表現分割ステップ230ではその表現225が一群の等長期間235へと分割される。キービデオフレーム選択ステップ240では、各期間235内のビデオフレーム群を解析することで期間235毎にキービデオフレーム245が選択される。キービデオフレーム指示子格納ステップ250では、その時系列200に係るフレーム245の指示子がプロセッサ可アクセスメモリ内に格納される。
次に、図2に示した諸ステップに関しより詳細に説明する。まず、ディジタルビデオ解析ステップ210で判別されるのは重要度215の経時変化である。重要度215はディジタルビデオ時系列200内ビデオフレームの重要性を表す量であり、時間の関数となっている。その値は、ディジタルビデオ時系列200を構成するビデオフレーム毎に数値として求めることができる。例えば、顔が写っているビデオフレームのように重要なビデオフレームの重要度215は大きめの数値、高速パンモーション中のビデオフレームのようにあまり重要でないビデオフレームの重要度215は小さめの数値となる。
いわゆる当業者にはご理解頂けるように、重要度215の経時変化を判別する際には、ディジタルビデオ時系列200を構成するビデオフレームに多々備わる特徴を利用することができる。本実施形態では、ディジタルビデオ解析ステップ210にてそれらに対する大域モーション解析及び局所モーション解析が実行される。大域モーション解析でもたらされるのが一般に撮影装置の動きを示す大域モーション情報であるのに対し、局所モーション解析でもたらされるのは光景内被写体の動きを示す局所モーション情報である。
本実施形態では、2パラメタ型の大域モーションモデルに則り大域モーション解析を実行することで、時間経過に伴う変位を示す情報、例えば横方向変位情報や縦方向変位情報が時間の関数として導出される。本発明は、より複雑な大域モーションモデルに則り大域モーション解析を実行し、直交三軸に関する回動情報やスケール(ズーム)情報といった付加的な情報を得る形態で実施することもできる。
局所モーション解析では、局所モーションモデルに則り細かな局所モーション情報が導出される。本実施形態で局所モーションモデルから得られるのは、画素毎の変位性モーション量がどのように経時変化するかを示す情報である。より粗いモーション推定量、例えば8×8サイズ又は16×16サイズの画素ブロックを単位とする変位性モーション量を局所モーションモデルから得るようにしてもよい。本実施形態で得られる局所モーション情報は一種の指示子であり、ビデオフレームの中央領域で生じたモーションの度合いを指し示している。その値は、例えば、ビデオフレームの中央領域にある画素のなかで「動きあり」と見なせる部分に属する画素の個数を計数することで求まる。
本実施形態では、大域及び局所モーション情報の導出が、ディジタルビデオ時系列200の取得、圧縮及びプロセッサ可アクセスメモリへの格納が済んだ後に実行される。そのため、圧縮済ディジタルビデオ時系列をその解析に先立ち伸張する必要がある。本発明は、大域及び局所モーション情報の導出をディジタルビデオ撮影プロセスの最中、時系列200の圧縮に先立ち実行する形態でも実施することができる。その場合、大域及び局所モーション解析の実行に際し時系列200を伸張する必要性が軽減される。求まった大域及び局所モーション情報はその時系列200に関連付けてメタデータとして格納される。そのメタデータの格納先は、その時系列200の格納先と同じディジタルビデオファイル内、その時系列200に関連付けられている他のファイル内等である。この手法については、本願出願人を譲受人とする係属中の米国特許出願第12/786483号(名称:ビデオサマリ方法及びシステム(Video Summary Method and System))に記載がある。
本実施形態では、ディジタルビデオ解析ステップ210にてビデオフレーム群分類手順が実行される。図3に、本実施形態におけるその分類手順の一例を示す。この手順では、大域モーション解析で導出された大域モーション情報310及び局所モーション解析で導出された局所モーション情報320がクラシファイア330に入力され、一群のビデオフレームに関しビデオフレーム分類340が生成される。本実施形態におけるビデオフレームの分類340には「ズーム」「高速パン」「魅力的」及び「静止的」がある。
クラシファイア330は、その撮影中にカメラがズームイン又はズームアウトしたビデオフレームを例外なく「ズーム」ビデオフレームに分類する。ズーム動作は、スケールパラメタを内包する大域モーションモデルに則りディジタル画像解析を実行してズーム検知を行うことで、検知することができる。ズーム動作は、ズームレンズ4を調整べくズーム/合焦モータドライバ8に送られる信号を認識することで、その撮影時に検知することもできる。
クラシファイア330は、そのフレームにおける変位性大域モーションの規模がしきい値を上回るビデオフレームを例外なく「高速パン」ビデオフレームに分類する。高速パンモーションに関わる個別のビデオフレームは非常にぼけていることが多く、ディジタルビデオ時系列を代表するキービデオフレームの候補として有力ではない。
クラシファイア330は、変位性大域モーション、ズームモーション及び局所モーションの程度がそれに対応するしきい値を下回るビデオフレームを例外なく「静止的」ビデオフレームに分類する。この種のビデオフレームは、静止状態に近い撮影装置で撮影されていて、そのモーションが比較的小さな光景内被写体が写っているフレームである。ディジタルビデオ時系列内の静止的な部分を単一のキービデオフレームで代表できることもしばしばである。
他のどの分類にも属さないビデオフレームはいずれも「魅力的」ビデオフレームに分類される。魅力的ビデオフレームが属するディジタルビデオ時系列内部分は、そのディジタルビデオ時系列を代表するキービデオフレームの有力候補を含む部分である可能性が高い。
本実施形態では、個々のビデオフレームに対し図2中の重要度215が割り振られる。個々のビデオフレーム分類340に相応の重要度を関連付けてあるので、その分類340に基づき重要度215を導出することができる。次の表は、上述した分類340それぞれに対する重要度215の関係を例示する表である。
Figure 2013532323
図2中の時間歪曲表現生成ステップ220では、重要度215の経時変化に基づくビデオフレームの時間的再配置を通じディジタルビデオ時系列の時間歪曲表現225が生成される。図4及び図5に、本実施形態で実行される歪曲手順の一例を示す。まず、図4に示されているのは単位時間0を始点、単位時間100を終点とするディジタルビデオ時系列400であり、それぞれ5単位時間長を有する等長のディジタルビデオ小期間410複数個に細分されている。各単位時間の絶対長は以下の説明に当たり肝要なことではないが、仮に、単位時間が10msecに相当していて、ディジタルビデオ時系列内ビデオフレーム1個が5単位時間長断片で表されるものとする。即ち、ビデオフレーム1個の長さが50msecで、ディジタルビデオ時系列撮影速度が20ビデオフレーム/secの例を考える。本発明は、小期間410内ビデオフレーム個数が1個ではなく複数個の形態でも実施することができる。
図5に示されているのはそのディジタルビデオ時系列200の時間歪曲表現225であり、対応するビデオフレーム分類に従いディジタルビデオフレーム毎に与えられている重要度215に基づき個々のディジタルビデオフレームが時間的に再配置されている。即ち、ディジタルビデオ時系列内断片それぞれを単一のビデオフレームとして扱い、表1で定義された重要度を適用することで、ディジタルビデオ時系列400に関し、図示の通り複数個の歪曲ディジタルビデオ小期間510からなる時間歪曲表現500が得られる。この例では、ビデオフレーム1が「魅力的」、2〜8が「高速パン」、9〜12が「魅力的」、13〜16が「静止的」、17〜20が「魅力的」に分類されている。
ディジタルビデオ小期間410(ビデオフレーム)のうちそのビデオフレーム分類が「ズーム」の小期間410に対応する歪曲ディジタルビデオ小期間510には、その小期間410の時間長=5.0単位時間に「ズーム」の重要度=0.3を乗じた値である1.5単位時間の時間長が割り振られている。同様に、そのビデオフレーム分類が「高速パン」の小期間410に対応する小期間510には小期間410の時間長=5.0単位時間に「高速パン」の重要度=0,2を乗じた1.0単位時間の時間長が、そのビデオフレーム分類が「静止的」の小期間410に対応する小期間510には小期間410の時間長=5.0単位時間に「静止的」の重要度=0.6を乗じた3.0単位時間の時間長が、そしてそのビデオフレーム分類が「魅力的」の小期間410に対応する小期間510には小期間410の時間長=5.0単位時間に「魅力的」の重要度=1.0を乗じた5.0単位時間の時間長が割り振られている。
本実施形態では、このように、その重要度215が低めのディジタルビデオ内部分に属するディジタルビデオ小期間410に短めの時間長、高めのディジタルビデオ内部分に属するそれに長めの時間長を割り振ることで時間歪曲表現500が生成される。
図2中の時間歪曲表現分割ステップ230では時間歪曲表現225が一群の等長期間235へと分割される。図6に、時間歪曲表現500を5個の等長期間520へと分割する場合を例にその手順を示す。この種の時間歪曲表現では、個々の等長期間520に含まれるディジタルビデオフレーム即ち歪曲ディジタルビデオ小期間510の絶対個数が変動しうることに留意されたい。
図7に、原表現のディジタルビデオ時系列400に対する時間歪曲表現内等長期間420の時間的対応関係を示す。この例では、図示の通り、時系列400内ディジタルビデオフレーム総数に比し、1個目の等長期間420に含まれるディジタルビデオフレームの個数が40%を上回る一方、2個目の等長期間420に含まれるディジタルビデオフレームの個数が15%を下回っている。
図2に示した時間歪曲表現225を使用することは、キービデオフレームがディジタルビデオ時系列全体に亘り散らばるよう、且つ重要度が高い領域が優先されるよう、個々の期間からキービデオフレームを1個ずつ選択できる点で有益である。
図2に示した期間235の個数は、ディジタルビデオ時系列の時間歪曲表現が占める総時間長等に基づき決定される。期間235の個数をユーザが指定するようにしてもよい。
図2中のキービデオフレーム選択ステップ240では、各期間235内のビデオフレームを解析することで期間235毎にキービデオフレーム245が選択される。本実施形態では、この解析に当たり、個々の期間235内にある複数個のビデオフレームに対し、大域及び局所モーションに応じた選択スコアが割り振られる。期間235からキービデオフレーム245として選択されるのは、その期間235内で最高の選択スコアを呈したビデオフレームである。
ディジタルビデオ時系列を圧縮する際には、一部のビデオフレーム群を独立符号化ビデオフレーム、他のビデオフレーム群を予測符号化ビデオフレームへと符号化する方式が採られることが多い。本実施形態では、各期間235内のビデオフレームのうち独立符号化ビデオフレームのみをキービデオフレームの候補とし、独立符号化ビデオフレームのみについて選択スコアを算出するようにしている。独立符号化ビデオフレームとは、他のビデオフレームを参照せずに符号化されたビデオフレームのことである。その種のビデオフレームは、他のビデオフレームから情報を得ること無しに復号することができる。これに対し、予測符号化ビデオフレームは、隣接する1個又は複数個のビデオフレームに基づく予測で符号化されている。そのため、予測符号化ビデオフレームの復号には他の1個又は複数個のビデオフレームに関する知識が必要であり、独立に復号することはできない。独立符号化ビデオフレームが後続するビデオフレームについての予測に使用されること、またその予測が高品質であれば後続ビデオフレームの符号化が効率化されることから、ビデオ画像符号化方式では独立符号化ビデオフレームが高品質で符号化されることが多い。このように、独立符号化ビデオフレームが一般に高画質であり、他のビデオフレームを復号することなく圧縮版のディジタルビデオ時系列から迅速に復号できることから、独立符号化ビデオフレームはキービデオフレーム245の有力候補とされる。
ビデオフレーム用の選択スコアは、変位性大域モーション、ズーム、局所モーション、先行するキービデオフレームに対する近接度等、幾種類かの入力に基づき導出される。本実施形態では、変位性大域モーションの程度が大きいビデオフレームでは一般にモーションによるぼけ(ブラー)が生じることから、対応する変位性大域モーションの程度が大きいビデオフレームには低めの選択スコアが割り振られる。同様に、特定の注目領域に注意が集中するようユーザが故意にズームを実行したと見られることから、ズーム手順終了から間がないビデオフレームには高めの選択スコアが割り振られる。従って、ズーム終了からの経過時間(から撮影装置の再合焦に必要な若干の時間を差し引いた時間)が短いビデオフレームは、重要度が高くキービデオフレーム245の有力候補であると見なすことができる。また、注目すべきビデオフレームには何らかの被写体活動が写っているであろうから、被写体モーションの程度が非常に小さいビデオフレームには低めの選択スコアが割り振られる。撮影で得られるビデオ画像が高い時間的相関を呈するものであること、従って時間的近接度が高いビデオフレームには冗長な情報が含まれるであろうことから、他のキービデオフレーム245に対する時間的近接度が高いビデオフレームには低めの選択スコアが割り振られる。本実施形態では、キービデオフレームを期間毎に逐次選択するため、その時間的近接度として、先行するキービデオフレームに対する時間的近接度を使用している。全てのキービデオフレームを同時に選択することを狙い連接調和的にキービデオフレームを選択する形態で本発明を実施する場合は、時間的近接度として、時間的に先行するキービデオフレームと後続するキービデオフレームの双方に対する時間的近接度を使用すればよい。
本実施形態では、ビデオフレーム用の選択スコアが、複数通りの要因に基づき且つ次の式
Figure 2013532323
に従い導出される。但し、S(n)は選択スコア、GM(n)は大域モーション項、LM(n)は局所モーション項、Z(n)はズーム項、P(n)は近接度項、nはビデオフレーム番号である。この式中、選択スコアS(n)を組成する各項の値域は0から1までの範囲であり、どのような値になるかはそのビデオフレームnの特性によって左右される。
大域モーション項(GM)の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、大域モーションベクトルの大きさがしきい値TGMを上回るビデオフレーム全てで0値、大域モーションベクトルの大きさが0のビデオフレームで1値となり、大域モーションベクトルの大きさが0超TGM未満のビデオフレームで1値から0値へと線形減少する式
Figure 2013532323
に従い大域モーション項の値が導出される。但し、xGM(n)はビデオフレームnにおける大域モーションベクトルの大きさである。
これに代え、大域モーション項が1値から0値へと非線形減少する式、例えば余弦関数を用いた式
Figure 2013532323
に従い大域モーション項の値を導出するようにしてもよい。この例のように余弦関数を使用すると、大域モーションベクトルの大きさが小さい領域での大域モーション項の減少が、線形関数を用いた場合に比べてゆっくりになる。
局所モーション項(LM)の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、大域モーションの影響を勘案したビデオフレーム間差分値に基づき局所モーション項が導出される。具体的には、自ビデオフレーム又は他ビデオフレームを大域モーションベクトルに基づきシフトさせ、その後に両ビデオフレーム間の画素値差分を算出し、そしてその画素値差分の平均を算出することで、自ビデオフレームに係る局所モーション項の値が導出される。総じて、局所モーション項の値が大きいビデオフレームほど多くの局所モーションが含まれているものであるが、照明の変化等が原因でビデオフレーム間に大きな差分が生じることもあり得る。
また、本実施形態では、中庸な局所モーションを呈するビデオフレームが優先的に選択されるよう局所モーション項がバイアスされる。具体的には、ある同一の期間に属するビデオフレーム全てを通じた局所モーション量の平均値に等しい局所モーション量を有するビデオフレームにて、その局所モーション項が1値となる関数が使用される。更に、局所モーション量が0のビデオフレームにて0.9になるよう、局所モーション量の減少に応じ局所モーション項の値を線形減少させる。また、上掲の期間内で局所モーション量が最大のビデオフレームにて0.8になるよう、局所モーション量の増加に応じ局所モーション項の値を線形減少させる。これを式で表すと次の式
Figure 2013532323
となる。但し、xLM(n)はビデオフレームnにおける局所モーション量、xLM -は上掲の期間に属するビデオフレーム全てを通じた局所モーション量の平均値、xLM,maxは上掲の期間に属するビデオフレーム全てを通じた局所モーション量の最大値である。
これに代え、局所モーション項を導出するに当たり、大域モーションを勘案した上でビデオフレーム間の対応する画素に着目し局所モーションベクトルを算出するようにしてもよい。その上で、ビデオフレーム毎に局所モーションベクトルの平均的な大きさを求め、そのビデオフレームの局所モーション項として使用すればよい。
ズーム項(Z)の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、ズーム項が、ズーム動作が進行中又は未完了でズーム動作終了から再合焦所要時間が経過していないビデオフレームで0値、ズーム動作及び再合焦所要時間の終了直後から2sec以上が経過したビデオフレームで1値、他のビデオフレーム全てで0.5値になるようにしている。
近接度項(P)の導出には本件技術分野で既知の諸手法を使用できる。本実施形態では、近接度項が、先行するキービデオフレームから2sec以上離れているビデオフレーム全てで1値となり、先行するキービデオフレームからの距離が0に近づくにつれ0値へと線形減少するようにしている。
いわゆる当業者にはご理解頂けるように、大域モーション上及び局所モーション上の諸特徴に基づき選択スコアを決定してキービデオフレーム245を選択する上述の手法は、使用可能な手法の一例に過ぎない。期間235内のビデオフレーム群からキービデオフレーム245を選択可能な方法であれば、本件技術分野で既知の他手法でも、本発明におけるキービデオフレーム選択に使用することができる。
キービデオフレーム指示子格納ステップ250では、キービデオフレーム245の指示子がプロセッサ可アクセスメモリ内に格納される。本実施形態では、その際、個別のビデオフレームであるキービデオフレーム245が抽出、圧縮される。圧縮されたビデオフレームは、指示子として個別のディジタル画像ファイル例えば周知のExif(登録商標)−JPEG画像ファイル内に格納される。キービデオフレーム245を個別のディジタル画像ファイル内に格納することには、ありふれた画像リーダを用いそれらに迅速アクセスできる、という利点がある。
これに代え、そのディジタルビデオ時系列200に係るメタデータの格納を以てキービデオフレーム指示子の格納とする形態でも本発明を実施することができる。そのメタデータとしては、キービデオフレーム245として選択されたビデオフレームのリストを使用できる。スマートビデオ画像リーダであれば、ディジタルビデオに係るメタデータを解釈してキービデオフレーム245を抽出することができる。キービデオフレームリストを含むメタデータをキービデオフレーム245の指示子として使用することには、キービデオフレーム指示子の格納に必要な記憶空間を、メタデータ内キービデオフレームリストの格納が可能な小空間に抑えることができる、という利点がある。
また、ディジタルビデオに係るメタデータとしてキービデオフレームサムネイル画像を格納することを以てキービデオフレーム指示子の格納とする形態でも、本発明を実施することができる。キービデオフレームサムネイル画像とはそのキービデオフレームの低解像度版のことである。ディジタルビデオに係るキービデオフレームサムネイル画像をキービデオフレーム指示子として格納することには、ディジタルビデオから抽出する場合に比べメタデータから抽出する方がキービデオフレームの抽出が迅速になる、という利点がある。
本発明は、上述のキービデオフレーム判別手順を含むビデオサマリ生成手順としても実施することができる。図8に、本発明の一実施形態に係るビデオサマリ生成手順を示す。図中、ディジタルビデオ解析ステップ210、時間歪曲表現生成ステップ220、時間歪曲表現分割ステップ230、キービデオフレーム選択ステップ240及びキービデオフレーム指示子格納ステップ250は、図2を参照して前述した通りに実行される。それに続く最高ランクキービデオフレーム判別ステップ260では、指定されている条件に従いキービデオフレーム245をランク付けすることで一群の最高ランクキービデオフレーム265が判別される。キービデオ断片生成ステップ270では、それらのフレーム265に対応するキービデオ断片275が生成される。ビデオサマリ生成ステップ280では、それら断片275同士の合成でビデオサマリ285が生成される。ビデオサマリ表現子格納ステップ290では、そのサマリ285の表現子がプロセッサ可アクセスメモリ内に格納される。
最高ランクキービデオフレーム判別ステップ260、キービデオ断片生成ステップ270及びビデオサマリ生成ステップ280で実行される処理は後に詳述する通りである。ビデオサマリ表現子格納ステップ290は、本願出願人を譲受人とする係属中の米国特許出願第12/786483号(名称:ビデオサマリ方法及びシステム(Video Summary Method and System),この参照を以てその内容を本願に繰り入れる)に記載の手法等、本件技術分野で既知の諸手法で実行できる。使用可能な手法の一つとしては、格納されているディジタルビデオの一部又は全体を伸張することでビデオサマリに相応するビデオフレームを抽出し、抽出したビデオフレームを圧縮することで圧縮版のビデオサマリを生成し、その圧縮版ビデオサマリをプロセッサ可アクセスメモリ内に保存する、というものがある。他の一つとしては、ビデオサマリに相応するディジタルビデオ時系列内ビデオフレームの指示子となるメタデータを生成し、そのメタデータをその格納済ディジタルビデオ時系列と関連付けて格納する、というものがある。キービデオ断片間トランジションに使用可能な種々のトランジション効果を示す情報を、そのディジタルビデオ時系列に係るメタデータとして格納するようにしてもよい。
図9に、本実施形態における最高ランクキービデオフレーム判別手順260の詳細を示す。図中、ディジタルビデオ解析ステップ910ではディジタルビデオの解析によってカメラ移動パターン915が判別される。キービデオフレームランク付けステップ920では、そのパターン915に基づきそのディジタルビデオに係る最高ランクキービデオフレーム265が判別される。
ディジタルビデオ解析ステップ910におけるディジタルビデオの解析ではカメラ移動パターン915が判別される。カメラ移動パターンとは、そのカメラで撮影される光景内領域がビデオ撮影プロセスの進行につれどのように経時変化したかを示すパターンのことである。本実施形態では、カメラの大域モーションを解析することでそうしたパターン915を判別するようにしている。カメラが固定されていて同一の光景内領域が写り続けている場合、このパターン915は単一の点になる。これに対し、カメラが移動している場合のパターン915はそのカメラの移動軌跡を示すパターンとなる。
図10に、ある種のパンモーションを伴うディジタルビデオ時系列200に関し、図9に示したカメラ移動パターン915の一表現たる撮影位置ヒストグラム930を示す。図中の移動軌跡925は、ビデオ撮影中に生じた変位性大域モーションの解析で導出されたものである。ビデオ撮影プロセスの開始点はその移動軌跡の始点たる任意の点である。例えば、ビデオ撮影プロセスの開始点を二次元平面上の原点(0,0)にすることが可能である。図示例の場合は、横軸値=約200、縦軸値=約10の点でビデオ撮影が開始されている。変位性大域モーションは、次いで、連続するビデオフレーム間での画素位置ずれを判別することで求まる。移動軌跡925は、そうしたビデオ撮影プロセスを通じ累積していく画素位置ずれを追跡することで求まる。
本実施形態では、そうした移動軌跡925が撮影時カメラ位置のヒストグラムで表される。このヒストグラムは、対応する位置にあるカメラで撮影されたビデオフレーム1個毎に、その撮影位置に対応するビンが1インクリメントされるヒストグラムである。図10に示した撮影位置ヒストグラム930は、撮影時カメラ位置に関するそうしたヒストグラムの一例である。そのヒストグラム上での画像強度が高めの位置は、その位置にあるカメラで撮影されたビデオフレームの個数が多い位置である。この図からは、撮影プロセス実行中にカメラが縦,横双方向にパンされていることや、おおよそ一定の時間間隔でカメラの位置が変更されていることがわかる。
本実施形態では、こうしたカメラ移動パターンがある画素数を単位に空間量子化される。図10ではその画素数即ち量子化係数として10が使用されている。即ち、図10に示したヒストグラムでは、各ビンの幅が10画素、ビン同士の縦方向間隔及び横方向間隔も10画素となっている。所与方向に10画素分の変位性大域モーションが生じるたびに、撮影時カメラ位置の分類先はヒストグラム内の次のビンへと移動する。
量子化係数を増やし、撮影時カメラ位置のヒストグラムにおけるビン数を抑えることもできる。図11に、図10のそれと同じビデオ画像に関し、その量子化係数を240にして作成した撮影位置ヒストグラム940を示す。このようなヒストグラム940では、移動パターンを表現するのに必要なビンの総数が少なくなる。更に、撮影時カメラ位置がよりまとまったかたちで表現されるので、量子化係数が小さければ分類先のビンが変化するようなカメラ揺れや微動があってもその影響を受けることが少ない。図11に示した例からは、ディジタルビデオ時系列の取得過程中に、主要なカメラ固定領域が4個生じたことを看取することができる。
図12に、図11に示した撮影位置ヒストグラム940の数値表現を示す。図中の数値は対応するビンに分類されたビデオフレームの個数を表しており、ビデオ撮影全体に亘る撮影位置ヒストグラム940がそれらのビンで形成されている。上掲の主要なカメラ固定領域に対応するビンに各200個超のビデオフレームが分類されているのに対し、過渡的領域に対応する残りのビンには各100未満のビデオフレームしか分類されていない。本実施形態では、こうしたカメラ移動パターン構成領域それぞれに対し、その領域に属するビデオフレームの個数に相応する固定指数の関連付けが行われる。
また、図12に示した数値表現では、個々のビンの数値が、対応する領域に属するビデオフレームの絶対個数となっている。これに代え、個々のビンの数値を何らかのスケール係数でスケーリングしてもよい。例えば、そのビデオ画像の撮影で得られたビデオフレームの総数で個々のビンの数値を正規化してもよい。
一般に、ビデオ画像の撮影中にカメラの移動が止まった光景内領域は注目すべき領域であるといえる。従って、固定指数が大きい領域に対応するビデオフレームはキービデオフレームの有力な候補であるといえる。
本実施形態では、図10〜図12を参照して説明した通り、カメラ移動パターンが大域モーション解析によって判別される。これに代え、更にズームを勘案してカメラ移動パターンを判別するようにしてもよい。ズームを扱うには、例えば、変位性大域モーションに係る二軸(横軸及び縦軸)とズーム倍率に係る第3の軸を併せ三次元的な移動軌跡を判別する手法を採ればよい。また、更にカメラの回動を勘案してカメラ移動パターンを判別するようにしてもよい。
本実施形態では、大域モーション情報の導出に当たり、図1に示した加速度計27からのデータが解析される。加速度計27からのデータは、画素群単位の変位モーションに換算することが可能である。ディジタルモーション推定を通じ大域モーション情報を導出する形態にて本発明を実施することもできる。いわゆる当業者にはご理解頂けるように、一対のディジタル画像間で生じた変位性大域モーションの推定算出に使用可能な手法は数多く知られている。
カメラ移動パターンを示すヒストグラムの生成に使用される量子化係数は、ビデオ撮影時の解像度に応じ設定することが可能である。例えば、ビデオフレーム解像度の1/2に等しい値の量子化係数にするとよい。その場合、640カラム×480ローのVGAビデオ画像なら横方向の量子化係数が320、縦方向の量子化係数が240となる。
また、図10及び図11に示した移動軌跡は時間情報を含んでいない。即ち、ビデオ撮影中に使用されたカメラ固定領域の位置は指し示されているものの、その領域がビデオ撮影プロセス中のどの時点で発生したかが指し示されていない。本発明は、時間情報を保持する形態、即ち時間に対するカメラ固定位置の関係で移動軌跡が表現される形態でも実施することができる。
翻って、図9に示した手順で使用されるキービデオフレーム245は、図2を参照して説明した要領で選択されたものである。フレーム245は、これに限らず、本件技術分野で既知の諸手法で定めることができる。また、キービデオフレームランク付けステップ920では、それらのフレーム245がカメラ移動パターン915に基づきランク付けされる。本実施形態では、その際、対応するカメラ移動パターン沿い領域が個々のフレーム245毎に特定される。カメラ移動パターン沿い領域は、大域変位性を示す移動軌跡沿いの諸領域のなかから、対応するフレーム245の撮影時点に基づきフレーム245毎に特定することが可能である。その後は、そのディジタルビデオ時系列に係る撮影位置ヒストグラムに基づき、フレーム245毎に相応の固定指数が導出される。フレーム245の初期ランク付けはその固定指数に基づき実行することができる。具体的には、対応する固定指数が最も大きなフレーム245が最高ランクキービデオフレームに初期設定される。
その他のランク付け手段もキービデオフレームのランク付けに使用できる。本発明は、そうした他種ランク付け手段を固定指数と併用して初期ランク付けを行う形態で実施することができる。本発明は、また、他種ランク付け手段を二次ランク付け手段と位置づけ、その固定指数が等しいキービデオフレーム間のタイブレークにその二次ランク付け手段を使用する形態でも実施することができる。キービデオフレームのランク付けに使用可能な他種ランク付け手段の例としては、図2中のキービデオフレーム選択ステップ240との関連で説明したフレーム別の選択スコアがある。
本実施形態では、キービデオフレームのランク付けが反復的に実行される。初回実行時に判別されるのは最高ランクキービデオフレームである。これは、固定指数や他種ランク付け手段に基づき最高ランクのキービデオフレームを選択することで実行できる。
最高ランクキービデオフレームの判別が済んだ後は、反復のたびに、残るキービデオフレームが再びランク付けされ、そのなかで最高ランクのキービデオフレームが選択される。残るキービデオフレームの再ランク付けは、最高ランクキービデオフレームの判別が済んだ後に、冗長性に従い諸キービデオフレームのランク付けを調整することで実行される。冗長性は、複数のキービデオフレームが概ね同一のカメラ位置で撮影された場合に生じるものである。ランク付け済キービデオフレームリストにおける同一カメラ固定領域の再登場がそのリストにおける全カメラ固定領域の登場に先立たないよう諸キービデオフレームをランク付けすべく、キービデオフレームは、反復のたびに、ランク付け済キービデオフレームリストにまだ登場していない領域を優先しつつ再ランク付けされる。
図13に、このランク付け及び再ランク付け処理の一例を示す。この例では、あるディジタルビデオ時系列を代表するキービデオフレームとして4個のキービデオフレームが選択されている。キービデオフレーム1に対応するカメラ固定領域は3、固定指数は0.4である。更に、キービデオフレーム1の初期ランク付けスコアは、固定指数やその他のスコア付け手段に基づき80とされている。同様に、キービデオフレーム2に対応するカメラ固定領域は6、固定指数は0.2、初期ランク付けスコアは70である。キービデオフレーム3に対応するカメラ固定領域は3、固定指数は0.4、初期ランク付けスコアは90である。キービデオフレーム4に対応するカメラ固定領域は2、固定指数は0.1、初期ランク付けスコアは60である。
初期ランク付けスコアに基づくキービデオフレームの初期ランクは、高い方から低い方への順で述べると、キービデオフレーム3、1、2、4の順である。それらのうちキービデオフレーム3は、最終ランク付けの初回実行時に最高ランクキービデオフレームとして選択される。次いで、カメラ固定領域3以外のカメラ固定領域で得られたキービデオフレームの選択が促されるよう、残りのキービデオフレームが再ランク付けされる。従って、最終ランク付けの第2回実行時にはキービデオフレーム2が選択される。キービデオフレーム1は、他のカメラ固定領域が選択されてからでないとランク付け処理で選択されないので、結果としては最低ランクのキービデオフレームとなる。
翻って、図8中のキービデオ断片生成ステップ270では、1個又は複数個の最高ランクキービデオフレーム265に対応するキービデオ断片275が生成される。このステップ270における断片275の生成は、大略、ビデオサマリの総時間長を指定する条件及びキービデオ断片毎の最短時間長を指定する条件をはじめ、所定個数の条件に従い実行される。
最高ランクキービデオフレーム265はキービデオ断片275の生成、ひいてはビデオサマリ285の構築に際し基礎として使用される。断片275の生成に当たり選択されるフレーム265の個数はサマリ285の総時間長及び断片275の最短時間長によって大きく左右される。本実施形態では、選択されたフレーム265それぞれを中心にして断片275が生成される。
本発明は、各キービデオ断片の開始時点及び終了時点が他の条件に依存する形態でも実施することができる。例えば、ディジタルビデオ時系列を解析することで重要度の経時変化を判別し、高い重要度を呈するビデオフレームの繰り込みが促進される条件に従いキービデオ断片の開始時点及び終了時点を決定するようにするとよい。ディジタルビデオ時系列の解析による重要度経時変化の判別は、図2を参照して説明したディジタルビデオ解析ステップ210でのそれと同じ要領で実行できる。重要度を使用することで、例えば、静止的フレームや高速パンフレームに比べ魅力的フレームを優先して繰り込ませることが可能となる。各キービデオ断片の開始時点及び終了時点がこの条件に従い調整される実施形態でも、ビデオサマリの総時間長や各キービデオ断片の最短時間長に課されている制約を満足させることができる。
本発明は、ディジタルビデオ時系列を解析することでオーディオ活性レベルの経時変化を判別する形態でも実施することができる。例えば、キービデオ断片275の開始時点及び終了時点を、開始時点及び終了時点におけるオーディオ活性レベルが低いレベルになるよう促す条件に従い決定する形態である。これによって、キービデオ断片の開始や終了で話者音声が途切れる確率を抑えることができる。大抵の場合、キービデオ断片内に発声期間全体を捉え、文章の途中での話者音声途切れが生じないようにすることは、望ましいことであろう。いわゆる当業者にはご理解頂けるように、話者音声検出に使用可能な音声解析技術は本件技術分野で周知である。
本発明は、他のキービデオ断片のそれと似通ったコンテンツを有するキービデオ断片の発生を抑える条件に従いキービデオ断片を生成する形態でも実施することができる。他のキービデオ断片のそれと似通ったコンテンツを有するキービデオ断片の発生を抑える手法の一つは、キービデオ断片の生成に使用される最高ランクキービデオフレームをそのカメラ固定領域がユニークなものに限定する、という手法である。そのカメラ固定領域がユニークな最高ランクキービデオフレームの個数が要選択個数に不足する場合は、個々のキービデオ断片の時間長を延ばし、ビデオサマリに課される総時間長条件を充足させるようにすればよい。
本発明は、対応する最高ランクキービデオフレーム265間を隔てる期間が所定のしきい値より短いキービデオ断片275同士を融合させ、単一のキービデオ断片を生成する形態でも実施することができる。断片275同士を融合させることで、先行する断片275の終了部分と後続する断片275の開始部分とが重なることや、両断片275間に僅かな途切れが生じることを、防ぐことができる。そうした継ぎ目が含まれるビデオサマリは視聴者を困惑させかねないので、継ぎ目が見えないよう断片275同士を融合させて単一のキービデオ断片にしたビデオサマリは視覚的に望ましいものである。
また、ディジタルビデオ圧縮アルゴリズムとしては、ディジタルビデオ時系列を複数個のビデオフレーム群に分割して符号化に供するものが多々ある。例えば、独立符号化ビデオフレーム(Iフレーム)1個が先行し、そのIフレームに基づく予測で生成された予測符号化ビデオフレーム(Pフレーム)複数個が後続する構成になるよう、個々の符号化対象ビデオフレーム群を生成する圧縮方式である。ある符号化対象ビデオフレーム群が終わり次の符号化対象ビデオフレーム群が始まる時点で現れるのは後者内のIフレームである。こうした圧縮方式では、圧縮されたディジタルビデオ時系列の内部に至るアクセスポイントとしてIフレームを使用し、Iフレームを始点とするフレーム群を抽出することができる。具体的には、その符号化対象ビデオフレーム群を構成する圧縮バイトの位置及び個数を指し示すヘッダ情報を復号するのみで、圧縮版のディジタルビデオ時系列から符号化対象ビデオフレーム群全体を抽出してビデオサマリへと符号変換することができる。従って、ビデオサマリ285を生成する際、各キービデオ断片275の冒頭フレームがIフレームになるよう求めることや、その断片275に含まれる符号化対象ビデオフレーム群の個数に端数が生じないよう求めることは有益なことである。これらの制約を課すことで、元々の圧縮版ディジタルビデオ時系列をあまり伸張せずにサマリ285を生成することが可能となる。
本発明は、ビデオサマリの総時間長が自動決定される形態でも実施できる。原ディジタルビデオ時系列の時間長に基づき決定してもよいし、対応する時間歪曲表現の時間長に基づき決定してもよい。また、本発明は、ビデオサマリの総時間長がユーザによって指定される形態でも実施できる。例えば、ビデオサマリの総時間長として相応しいと思われる値をユーザが指定し、その値に基づきキービデオ断片275の個数及び時間長が決定される形態である。
図14に、本実施形態に従い生成されるキービデオ断片の一例を示す。この例では、互いに等しい時間長になるよう、且つ対応する最高ランクキービデオフレームを中心にして拡がるよう、個々のキービデオ断片が生成されている。具体的には、ディジタルビデオ時系列610の解析を通じ3個の最高ランクキービデオフレーム640が選択され、そのフレーム640それぞれに対応するようキービデオ断片620が生成されている。図中の630は時系列610内の発声期間である。このキービデオ断片生成例では、残念なことに、発声期間630の終了より前に1個目の断片620が終了している。これもまた残念なことに、2個目の断片620と3個目の断片620とを隔てる時間が短時間になっている。
図15に、本発明の他の実施形態に従い且つディジタルビデオ時系列610に基づき生成されるキービデオ断片の別例620を示す。この例では、キービデオ断片620の生成に関し更なる条件が課されている。まず、断片620の時間長が互いに等しくなくてもかまわない、対応する最高ランクキービデオフレーム640を中心にして個々の断片620が拡がる必要はない、との条件が課されている。また、個々の断片620が始まる時点及び終わる時点として、対応するオーディオ活性レベルが低い時点を優先的に選択する、との条件が課されている。更に、断片620の生成に関し、対応するフレーム640間の時間間隔が所定のしきい値より短い断片620同士を融合させる、という条件が課されている。そのため、この例では、対応するフレーム640に対しずれた点を中心に1個目の断片620が長く延びていて、その断片620の前後どちらでも発声期間630が途切れていない。更に、2個目のフレーム640と3個目のフレーム640とを隔てる時間が短いため、対応するキービデオ断片同士が単一の断片620へと融合されている。総時間長に関する条件は、必要に応じ開始時点及び終了時点を調整することで、時間的に近接した断片620同士の融合及び発声期間630の途切れ防止と並立させることができる。図15に示した断片620は、図14に示した断片620に比べ、より好適なビデオサマリをかたちづくっているといえよう。
図8中のビデオサマリ生成ステップ280では、キービデオ断片275同士の合成によってビデオサマリ285が生成される。本実施形態では、ディジタルビデオ時系列における登場順序に合致するよう断片275が経時順に合成される。
本発明に係る方法を実行するためのコンピュータプログラム製品は、磁気ディスク(例.フロッピー(登録商標)ディスク)、磁気テープ等の磁気記録媒体、光ディスク、光テープ、機械可読バーコード等の光記録媒体、RAM、ROM等の固体電子記憶デバイスをはじめとする1個又は複数個の記録媒体、即ち本発明に係る方法が体現されるよう1台又は複数台のコンピュータを制御するコンピュータプログラムの保存に使用可能な諸有形デバイス乃至媒体に保存可能である。
2 フラッシュ、4 レンズ、6 可調絞り及び可調シャッタ、8 ズーム/合焦モータドライバ、10 ディジタルカメラ、12 タイミング発生器、14 イメージセンサ、16 ASP及びA/Dコンバータ、18 バッファメモリ、20 プロセッサ、22 オーディオコーデック、24 マイクロホン、26 スピーカ、27 加速度計、28 ファームウェアメモリ、30 画像メモリ、32 画像ディスプレイ、34 ユーザ用コントローラ、36 ディスプレイメモリ、38 有線インタフェース、40 コンピュータ、44 ビデオインタフェース、46 ビデオディスプレイ、48 インタフェース/充電器、50 ワイヤレスモデム、52 無線周波数帯、58 ワイヤレスネットワーク、70 インターネット、72 フォトサービスプロバイダ、200,400,610 ディジタルビデオ時系列、210,910 ディジタルビデオ解析ステップ、215 重要度、220 時間歪曲表現生成ステップ、225,500 時間歪曲表現、230 時間歪曲表現分割ステップ、235,520 等長期間、240 キービデオフレーム選択ステップ、245 キービデオフレーム、250 キービデオフレーム指示子格納ステップ、260 最高ランクキービデオフレーム判別ステップ、265,640 最高ランクキービデオフレーム、270 キービデオ断片生成ステップ、275,620 キービデオ断片、280 ビデオサマリ生成ステップ、285 ビデオサマリ、290 ビデオサマリ表現子格納ステップ、310 大域モーション情報、320 局所モーション情報、330 クラシファイア、340 ビデオフレーム分類、410 ディジタルビデオ小期間、420 原表現対応期間、510 歪曲ディジタルビデオ小期間、630 発声期間、915 カメラ移動パターン、920 キービデオフレームランク付けステップ、925 移動軌跡、930,940 撮影位置ヒストグラム。

Claims (12)

  1. ビデオフレームの時系列を有するディジタルビデオに関しキービデオフレームのランク付けを行う方法であって、プロセッサを用い、
    a)そのディジタルビデオを解析してカメラ移動パターンを判別するステップと、
    b)そのディジタルビデオに関し一組のキービデオフレームを判別するステップと、
    c)カメラ移動パターンに基づきそれらキービデオフレームをランク付けするステップと、
    を実行する方法。
  2. 請求項1記載の方法であって、上記カメラ移動パターンを大域モーション解析によって判別する方法。
  3. 請求項2記載の方法であって、上記大域モーション解析に当たり加速度計からのデータを解析する方法。
  4. 請求項2記載の方法であって、上記大域モーション解析に当たり、ディジタルモーション推定アルゴリズムに則り上記ディジタルビデオを解析する方法。
  5. 請求項1記載の方法であって、上記カメラパターンを複数個のカメラ移動パターン領域へと量子化する方法。
  6. 請求項5記載の方法であって、上記カメラ移動パターンを構成するカメラ移動パターン領域それぞれに、そのカメラ移動パターン領域内の位置で得られたビデオフレームの個数に相応する固定指数を関連付ける方法。
  7. 請求項5記載の方法であって、上記カメラ移動パターンが、対応するカメラ固定領域を有する方法。
  8. 請求項6記載の方法であって、上記キービデオフレームを上記固定指数に従い初期的にランク付けする方法。
  9. 請求項8記載の方法であって、冗長性を減らすため上記キービデオフレームのランクを事後的に調整する方法。
  10. 請求項1記載の方法であって、上記ステップb)が、
    i)上記ディジタルビデオを解析して重要度の経時変化を判別するステップと、
    ii)重要度の経時変化に応じたビデオフレームの時間的再配置によって上記時系列の時間歪曲表現を生成するステップと、
    iii)その時間歪曲表現を一組の等長期間に分割するステップと、
    iv)各等長期間内のビデオフレームを解析することで等長期間毎にキービデオフレームを選択するステップと、
    を含む方法。
  11. 請求項1記載の方法であって、
    d)キービデオフレームのなかで最高のランクが付けられたものに対応するキービデオ断片を生成するステップと、
    e)それらキービデオ断片同士を結合させてビデオサマリを生成するステップと、
    f)生成されたビデオサマリをプロセッサ可アクセスメモリに保存するステップと、
    を実行する方法。
  12. イメージセンサと、
    イメージセンサ上に光景の画像を発現させる光学系と、
    データ処理システムと、
    データ処理システムに対し可通信接続されており、ディジタルビデオに関するキービデオフレームランク付け方法をそのデータ処理システムに実行させるための指令群を格納するメモリシステムと、
    を備え、その指令群が、
    ビデオフレームの時系列を有するディジタルビデオをイメージセンサに撮影させるための指令と、
    そのディジタルビデオを解析してカメラ移動パターンを判別させるための指令と、
    そのディジタルビデオに関し一組のキービデオフレームを判別させるための指令と、
    カメラ移動パターンに基づきそれらキービデオフレームをランク付けさせるための指令と、
    を含むディジタルビデオカメラシステム。
JP2013512133A 2010-05-25 2011-05-24 カメラ位置に基づくキービデオフレームのランク付け Expired - Fee Related JP5837922B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/786,475 US8619150B2 (en) 2010-05-25 2010-05-25 Ranking key video frames using camera fixation
US12/786,475 2010-05-25
PCT/US2011/037631 WO2011149860A1 (en) 2010-05-25 2011-05-24 Ranking key video frames using camera fixation

Publications (3)

Publication Number Publication Date
JP2013532323A true JP2013532323A (ja) 2013-08-15
JP2013532323A5 JP2013532323A5 (ja) 2014-07-03
JP5837922B2 JP5837922B2 (ja) 2015-12-24

Family

ID=44484219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013512133A Expired - Fee Related JP5837922B2 (ja) 2010-05-25 2011-05-24 カメラ位置に基づくキービデオフレームのランク付け

Country Status (5)

Country Link
US (1) US8619150B2 (ja)
EP (1) EP2577513A1 (ja)
JP (1) JP5837922B2 (ja)
CN (1) CN102906746B (ja)
WO (1) WO2011149860A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9520156B2 (en) * 2010-08-31 2016-12-13 Excalibur Ip, Llc Content preview generation
CN104185089B (zh) * 2013-05-23 2018-02-16 三星电子(中国)研发中心 视频概要生成方法及服务器、客户端
CN103281562A (zh) * 2013-06-20 2013-09-04 天脉聚源(北京)传媒科技有限公司 一种提供视频预览的方法及装置
US9529510B2 (en) 2014-03-07 2016-12-27 Here Global B.V. Determination of share video information
CN105100688B (zh) * 2014-05-12 2019-08-20 索尼公司 图像处理方法、图像处理装置和监视系统
US10664687B2 (en) * 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US9934423B2 (en) 2014-07-29 2018-04-03 Microsoft Technology Licensing, Llc Computerized prominent character recognition in videos
US9646227B2 (en) 2014-07-29 2017-05-09 Microsoft Technology Licensing, Llc Computerized machine learning of interesting video sections
CN105554593B (zh) * 2015-12-10 2019-04-02 杭州当虹科技有限公司 一种flv到mp4的文件容器转换方法
US10777228B1 (en) 2018-03-22 2020-09-15 Gopro, Inc. Systems and methods for creating video edits

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149902A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 動画像記録媒体、動画像記録装置、及び動画像再生装置
JPH10294923A (ja) * 1997-04-18 1998-11-04 Matsushita Electric Ind Co Ltd シーンチェンジ検出方法およびシーンチェンジ検出装置
JP2004070427A (ja) * 2002-08-01 2004-03-04 Sony Corp 重要画像検出装置、重要画像検出方法、プログラム及び記録媒体並びに重要画像検出システム
JP2004520760A (ja) * 2001-04-27 2004-07-08 三菱電機株式会社 動き記述子を用いてビデオを要約化する方法
JP2006279827A (ja) * 2005-03-30 2006-10-12 Hitachi Ltd 要約再生装置及び要約再生装置の制御方法
US20070182861A1 (en) * 2006-02-03 2007-08-09 Jiebo Luo Analyzing camera captured video for key frames

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3971065A (en) 1975-03-05 1976-07-20 Eastman Kodak Company Color imaging array
US4642678A (en) 1984-09-10 1987-02-10 Eastman Kodak Company Signal processing method and apparatus for producing interpolated chrominance values in a sampled color image signal
US4774574A (en) 1987-06-02 1988-09-27 Eastman Kodak Company Adaptive block transform image coding method and apparatus
US5189511A (en) 1990-03-19 1993-02-23 Eastman Kodak Company Method and apparatus for improving the color rendition of hardcopy images from electronic cameras
US5493335A (en) 1993-06-30 1996-02-20 Eastman Kodak Company Single sensor color camera with user selectable image record size
US5668597A (en) 1994-12-30 1997-09-16 Eastman Kodak Company Electronic camera with rapid automatic focus of an image upon a progressive scan image sensor
US5828406A (en) 1994-12-30 1998-10-27 Eastman Kodak Company Electronic camera having a processor for mapping image pixel signals into color display pixels
JP3472659B2 (ja) * 1995-02-20 2003-12-02 株式会社日立製作所 映像供給方法および映像供給システム
US5652621A (en) 1996-02-23 1997-07-29 Eastman Kodak Company Adaptive color plane interpolation in single sensor color electronic camera
US5956026A (en) 1997-12-19 1999-09-21 Sharp Laboratories Of America, Inc. Method for hierarchical summarization and browsing of digital video
US6192162B1 (en) 1998-08-17 2001-02-20 Eastman Kodak Company Edge enhancing colored digital images
US6833865B1 (en) 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
US6625325B2 (en) 1998-12-16 2003-09-23 Eastman Kodak Company Noise cleaning and interpolating sparsely populated color digital image using a variable noise cleaning kernel
US6462754B1 (en) 1999-02-22 2002-10-08 Siemens Corporate Research, Inc. Method and apparatus for authoring and linking video documents
WO2001041451A1 (en) 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
AUPQ535200A0 (en) 2000-01-31 2000-02-17 Canon Kabushiki Kaisha Extracting key frames from a video sequence
US7055168B1 (en) 2000-05-03 2006-05-30 Sharp Laboratories Of America, Inc. Method for interpreting and executing user preferences of audiovisual information
GB0029880D0 (en) 2000-12-07 2001-01-24 Sony Uk Ltd Video and audio information processing
US7035435B2 (en) 2002-05-07 2006-04-25 Hewlett-Packard Development Company, L.P. Scalable video summarization and navigation system and method
US20040052505A1 (en) 2002-05-28 2004-03-18 Yesvideo, Inc. Summarization of a visual recording
US7119837B2 (en) * 2002-06-28 2006-10-10 Microsoft Corporation Video processing system and method for automatic enhancement of digital video
CA2443365C (en) 2002-11-19 2010-01-12 F. Hoffmann-La Roche Ag Methods for the recombinant production of antifusogenic peptides
US7483618B1 (en) 2003-12-04 2009-01-27 Yesvideo, Inc. Automatic editing of a visual recording to eliminate content of unacceptably low quality and/or very little or no interest
JP4849818B2 (ja) 2005-04-14 2012-01-11 イーストマン コダック カンパニー ホワイトバランス調整装置及び色識別装置
US7760956B2 (en) * 2005-05-12 2010-07-20 Hewlett-Packard Development Company, L.P. System and method for producing a page using frames of a video stream
US7889794B2 (en) 2006-02-03 2011-02-15 Eastman Kodak Company Extracting key frame candidates from video clip
US20070237225A1 (en) * 2006-03-30 2007-10-11 Eastman Kodak Company Method for enabling preview of video files
CN101427250B (zh) 2006-04-20 2012-07-04 Nxp股份有限公司 对数据流创建摘要的数据摘要系统和方法
JP5022370B2 (ja) 2006-09-12 2012-09-12 パナソニック株式会社 コンテンツ撮影装置
US8503523B2 (en) 2007-06-29 2013-08-06 Microsoft Corporation Forming a representation of a video item and use thereof
US8054335B2 (en) * 2007-12-20 2011-11-08 Aptina Imaging Corporation Methods and system for digitally stabilizing video captured from rolling shutter cameras
US20100128118A1 (en) * 2008-11-26 2010-05-27 Locarna Systems, Inc. Identification of visual fixations in a video stream
US8520736B2 (en) * 2009-04-14 2013-08-27 Fastvdo, Llc Real-time superresolution and video transmission

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06149902A (ja) * 1992-11-09 1994-05-31 Matsushita Electric Ind Co Ltd 動画像記録媒体、動画像記録装置、及び動画像再生装置
JPH10294923A (ja) * 1997-04-18 1998-11-04 Matsushita Electric Ind Co Ltd シーンチェンジ検出方法およびシーンチェンジ検出装置
JP2004520760A (ja) * 2001-04-27 2004-07-08 三菱電機株式会社 動き記述子を用いてビデオを要約化する方法
JP2004070427A (ja) * 2002-08-01 2004-03-04 Sony Corp 重要画像検出装置、重要画像検出方法、プログラム及び記録媒体並びに重要画像検出システム
JP2006279827A (ja) * 2005-03-30 2006-10-12 Hitachi Ltd 要約再生装置及び要約再生装置の制御方法
US20070182861A1 (en) * 2006-02-03 2007-08-09 Jiebo Luo Analyzing camera captured video for key frames

Also Published As

Publication number Publication date
CN102906746B (zh) 2015-12-02
EP2577513A1 (en) 2013-04-10
CN102906746A (zh) 2013-01-30
JP5837922B2 (ja) 2015-12-24
WO2011149860A1 (en) 2011-12-01
US8619150B2 (en) 2013-12-31
US20110292229A1 (en) 2011-12-01

Similar Documents

Publication Publication Date Title
JP5837922B2 (ja) カメラ位置に基づくキービデオフレームのランク付け
JP5781156B2 (ja) キービデオフレームを判定するための方法
US8605221B2 (en) Determining key video snippets using selection criteria to form a video summary
US9013604B2 (en) Video summary including a particular person
JP5857122B2 (ja) 興味の特徴を含むビデオサマリー
JP2013533669A (ja) ビデオサマリ指示メタデータ格納
JPWO2010116715A1 (ja) 画像撮影装置、画像撮影方法、プログラム、及び集積回路
US9407825B2 (en) Imaging apparatus, image processing apparatus, image processing method, and storage medium
JP5064173B2 (ja) カメラ
JP2011119936A (ja) 撮影装置及び再生方法
JP5368614B2 (ja) 画像検索装置および画像検索方法
JP5613304B2 (ja) 画像検索装置および画像検索方法
JP2006067357A (ja) 画像処理装置及び画像処理方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140516

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151106

R150 Certificate of patent or registration of utility model

Ref document number: 5837922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees