JP2011044140A

JP2011044140A - 画像セットからの動画コンテンツの生成

Info

Publication number: JP2011044140A
Application number: JP2010181562A
Authority: JP
Inventors: Marco Bressan; ブレッサンマルコ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2009-08-20
Filing date: 2010-08-16
Publication date: 2011-03-03
Anticipated expiration: 2030-08-16
Also published as: EP2299371A1; US20110044549A1; JP5507386B2; US8135222B2

Abstract

【課題】多数の類似した画像の中から好適な画像を選択することである。
【解決手段】画像セットをクラスタ化し、各々が、不規則な一群の画像から成る複数の場面を生成する手順と、場面内の画像を動画の一貫性に応じて順序付けることで、規則的な順序の画像から成る規則的場面を生成する手順と、前記複数の場面から成る、前記規則的な順序の画像に基づいて順序付けられた画像として動画コンテンツを生成する手順と、から成り、少なくとも、上述のクラスタ化する手順と順序付けの手順とがデジタルプロセッサによって実行されることを特徴とする画像処理方法。
【選択図】図１

Description

以下の内容は情報処理技術、情報検索技術、画像技術、映像技術、通信技術、及び関連技術に関するものである。

デジタル画像を生成する安価な光学スキャナやデジタルカメラ、大きな画像データベースの保存に十分な記憶容量を備えた大容量記憶媒体の継続的開発、高速デジタルデータネットワーク及び画像の配布を容易にするインターネット接続などの技術が組み合わされた結果、デジタル画像を取得し、それを配布することが、あらゆる場面で行われるようになっている。

米国特許第６７８９０８８号明細書米国特許第６３９６９６３号明細書米国特許第７４５１１６０号明細書

しかし、効率的に画像を閲覧し、選択する技術の進展は、画像の生成、保存、配布技術に対して遅れを取っている。一般的な方法では、画像クエリを受け取ったサーチエンジンが一揃いの画像（場合によっては効率を高めるために、例えば「サムネイル」画像として小サイズ化されたもの）を検索し、取得した画像をモザイク状又は格子状の配列で表示する。モザイクに含まれる画像の数は、例えば表示される画像のサイズや数、表示技術の制限、人間の視覚系の制約等といった様々な要因の折り合いによって決まるが、通常は、１つのモザイクに約２０枚の画像が含まれる。この表示方法では、ユーザは何千といった多数の画像を効率的に閲覧して選択することができない。

加えて、現行のモザイク表示では通常、画像を互いに関連付けることは行われない。一つのモザイクにおいて画像は普通、タイムスタンプ、撮影者、画像サイズ、画像名、画像の種類などのメタデータに記されている個々の基準の順に分類される。クエリ結果の表示にモザイク表示が用いられる場合、画像は普通はそのクエリへの個々の関連度を示す基準の順に分類される。いずれの場合にも、（例えば）２０枚の画像からなる第一のモザイク上の画像が、間に挟まれた何百もの画像によって隔てられている、後のモザイクの画像とほぼ同一である可能性がある。これでは多数の類似した画像の中から「最高」の画像を選択するのは容易ではない。

メタデータ情報は、画像をグループ化するモザイク表示技術を増進するために用いることができる。この方法は通常、手動又は半手動で行われ、どのメタデータが扱うタスクと関連しているかをユーザが指示しなければならない。さらに、もし異なる装置（例えば異なるデジタルカメラ）によって生成された画像を集めることが目的の場合、異なる装置によって生成されたタイムスタンプが互いに同期していないという更なる問題が起こり得る。

一例として、子供の誕生日パーティーについて考える。そこでは、参加している親の数人がデジタルカメラを持参し、そのパーティーの間中、写真を撮るものとする。そして、異なるデジタルカメラを用いて得られたこれらの写真を魅力的で感じの良いプレゼンテーションとして見せたいという希望があるとする。そのための一つの方法はタイムスタンプによって画像を並び替えるというものである。しかし、その結果は見た目にあまり魅力的ではないかもしれない。なぜならば、ほぼ同一時刻に異なるカメラによって得られた異なる画像は、相違するカメラによる非常に異なった観点から撮られた可能性があるからである。その結果は、ある画像から次の画像への観点が一貫せず「飛躍」している。加えて、そのパーティーにおいてもし一つのカメラのデジタル時計が他のデジタルカメラに対して例えば１０分だけずれているならば、その時間的にずれたカメラによって得られた写真は同期しないことになる。従って、例えば、そのプレゼンテーションでは子供が誕生日ケーキのろうそくを吹き消し、次いで誕生日の食事へと移るところが示されるかもしれないが、時間的にずれたカメラによって得られた、その子供がろうそくを吹き消す写真が食事の写真の中にちりばめられることになる。

上記の例は写真を選択する際の難しさを示す実例でもある。例えば、写真を検討している人が、ある瞬間においてある視点から撮られた、子供がろうそくを吹き消している画像が特に魅力的であると思うかもしれない。その検討者は、その瞬間の、他のさらに良い画像が無いかどうかを知りたいと思うかもしれない。残念ながら、タイムスタンプによって並んだプレゼンテーションの一貫性がないため、得られた画像はほぼ同一時刻の他の視点で得られた非常に多くの他の画像の中に分散する可能性が高く、検討者にとって魅力があると感じられた写真に類似した写真を比較することが難しくなる。たとえ画像がさらにカメラの識別番号（このメタデータが利用可能であると仮定して）によって並び替えられたとしても、検討者はやはり、魅力的と思える写真を撮ったカメラの視点に類似した視点を有する、異なるカメラによって撮られたよく似た写真を見逃してしまうかもしれない。

画像選択に限界があることに加え、現在の画像配布形態には幾つかの関連する欠点がある。例えば、オンラインの画像シェアサイトでは、写真を提示するために、通常、モザイク又はスライドショーが用いられている。モザイクの使用については既に論じたが、その欠点は画像シェアの場合においても存在する。

スライドショーでは通常、予め選択された画像間の時間間隔で以て画像が連続的に表示される。スライドショーを用いることでユーザの写真の閲覧可能な速度を高めることができるが、各画像の閲覧時間が短くなってしまう。スライドショーの速度が速すぎると流れが「飛躍」する可能性があり、閲覧者をいらつかせることになる。もし速度が遅すぎるならば、スライドショーの全閲覧時間が長くなりすぎる可能性がある。スライドショーを作成することもまた、制作者にとって多大な時間を必要とし得る。なぜならば、制作者は通常、スライドショーの流れにおける画像の順番を手動で選択しなければならないからである。あるいは、自動的に順序が選択される場合（例えばタイムスタンプに基づいて）には、スライドショーにおける表示の「飛躍」が大きくなってしまう可能性がある。

これらの方法もまた、同一のイベントにおける異なる撮影者による画像を組み合わせるための有用な方法を提供することができない。また、撮影者、カメラの識別番号、タイムスタンプ等のメタデータに基づくもの以外の有効な画像検索方法を提供することができない。こういった、装置によって生成されるメタデータは、実際に画像化された対象との、すなわち、撮影された出来事や人物等との関連が弱い。

ここにおける実例として開示されるいくつかの実施形態では、画像処理方法は、画像セットをクラスタ化して、各々が、不規則な一群の画像から成る複数の場面を生成する手順と、場面内の画像を動画の一貫性に応じて順序付けることで、規則的な順序の画像から成る規則的場面を生成する手順と、前記複数の場面から成る、前記規則的な順序の画像に基づいて並べられた画像として動画コンテンツを生成する手順と、から成る。

ここにおける実例として開示されるいくつかの実施形態では、記録媒体が、画像セットをクラスタ化して複数の場面を生成する手順と、動画の一貫性の基準に応じて各場面内で画像を順序付ける手順と、から成る画像処理方法を実行することが可能な命令を保存する。

ここにおける実例として開示されるいくつかの実施形態では、画像処理方法が、自動的に、動画の一貫性の基準に基づいて画像セットを順序付ける手順と、該画像を、順序付けられた画像セットによって規定され、予め定められたフレームレートで再生されるフレームから成る動画として再生する手順と、から成る。

イメージのセットから動画を生成するシステムの一例。実際に構築された図１のシステムの方法を用いて生成された動画コンテンツの選択された定量的計量を図示するもの。実際に構築された図１のシステムの方法を用いて生成された動画コンテンツの選択された定量的計量を図示するもの。

以下では、画像セットが動画コンテンツとして表示されるインターフェースを用いて画像を閲覧し、任意に選択する方法及び装置が開示される。本明細書で用いられている「動画コンテンツ」なる用語は、効果的な動画話法の原則に関して並べられた画像セットのことを指す。これらの原則には、コンテンツを一又は複数の「場面」に分割することが含まれる。各場面は、視覚的に一貫性がある画像の小セットである。互いに類似した画像セットは視覚的に一貫性がある例の一つであり、類似した画像をグループ化することで場面を求めることができる。この類似性は、いかなる選択された類似性基準によっても与えることが可能であり、その類似性基準は、任意であるが、画像に関連付けられたメタデータを含んでもよい。

効果的な動画話法の原則には更に、各場面内で画像を一貫性があるように順序付けることも含まれる。これは、動画コンテンツが一つの場面内で滑らかに進むべきであるという期待を反映するものである。例えば、一つの場面の中で、人物は、ある場所から別の場所へ滑らかに動くことが期待されており、一つの場面の中において一つの場所から別の場所へ突然「テレポート」することは期待されていない。

一方、場面と場面の間の一貫性は、通常、効果的な動画話法の原則ではない。例えば、ある人が特定の地点、例えば屋内で立っている状態で一つの場面が終了し、次の場面がその人が全く異なるどこか、例えば屋外で立っている状態で始まるのは珍しいことではない。場面間の一貫性は通常は効果的な動画話法の原則ではないが、場面間のある関係を任意に組み込んでも良い。例えば、幾つかの実施形態では、複数の場面は、各場面の画像の平均タイムスタンプに基づいて順序付けられて上映される。場面の順序付けに他の基準を用いることもありえる。

ここで、効果的な動画話法の原則に関して順序付けられた画像セットを動画コンテンツとして示すことには特定の利点があることがわかる。一つの場面内で一貫性を有するようにすることで、プレゼンテーションがスムーズで、美的に心地よいものとなることが保証される。見た目に一貫性があることはまた、順序がばらばらである場合に対して、一定の時間内でユーザがナビゲーションできる画像の量を増加させる。これは、情報がオンラインで処理される場合（ひとまとまりの文章を読む場合と同様に）、例えば一単語のような新たな少しの情報のそれぞれを処理するために必要な時間は、現在の前後関係に基づくその単語の予測可能性と結びついているからである。さらに、画像を選択するという目的において、一つの場面内で一貫性をもって画像を示すことで、一貫性を決定するのに用いられる類似基準に基づいて互いに類似した画像をグループ化することに対する傾向を与える。結果として、ユーザは大雑把な意味で類似している一群の画像（例えば、全てが一人の子供がろうそくを吹き消している場面のもの）を自然に特定することができる。次いで、その場面の類似した画像の中から最高の画像を選択すべく、場面の一貫性によって共にグループ化される類似した画像をさらに詳細に比較するために、例えば多くの動画再生エンジンで利用することが可能な一枚ずつの順次表示モードを用いて、その場面の個々の画像を検討することができる。

一方、ここで、画像セットに対して全体的に一貫性を課すように試みることは実際的でなく、また望ましくないことがわかる。例えば、本明細書で用いられている誕生日パーティーの例において、もしそのパーティーが（食事中に）ダイニングルームから（子供用のゲームのために）居間に移動するならば、ダイニングルームで撮られた写真と居間で撮られた写真との間で一貫性を課すように試みることは望ましくないであろう。このような差は、ヨーロッパをあちこち回る一週間の休暇旅行中に、さまざまな国、異なる大聖堂や建物などにおいて撮られた写真を見せるといった他の利用形態においては、さらに大きなものとなるかもしれない。ここで、このような画像のグループ間の大きな差は、場面の概念を動画技術から画像表示技術にアレンジすることで容易に調整可能であることがわかる。

効果的な動画話法の原則に関して並べられた動画コンテンツとして画像セットを表示する開示された方法の別の利点は、複数の画像のプレゼンテーションを、ＭＰＥＧ、ＤｉｖＸ、Ｘｖｉｄ、ＦＦｍｐｅｇ、ａｖｉ、ｗｍｖなど、標準の動画コーデック用いて保存することが可能であるということと、複数の画像のプレゼンテーションを、MPlayer（http://www.mplayerhq.hu/より入手可能）、VLC media player（http://www.videolan.org/vlc/より入手可能）、Windows（登録商標） Media Player^TM（Microsoft Corporation, Redmond, WA, USAより入手可能）、Quicktime（Apple Corporation, Cupertino, CA, USAより入手可能）などの汎用の動画又はマルチメディアプレーヤーを用いて動画として表示することが可能であることである。これにより、画像を高速で表示（動画のフレームレートの上限まで、通常は一秒あたり２４〜３０フレーム程度）することが可能となり、且つ、個々の画像を選択するための一枚ずつの順次表示モードのような便利な組み込み機能を利用することが可能となる。当然のこととして、本明細書においては、動画は予め定められたフレームレートで再生されるフレームから成る。

また、当然のこととして、動画コンテンツが効果的な動画話法の原則に関して順序付けられた画像セットを指している場合、その動画コンテンツは従来の動画保存形式で保存される必要はなく、さらに、必ずしも動画又はマルチメディアプレーヤーエンジンを用いて動画として表示される必要もない。例えば、効果的な動画話法の原則に関して順序付けられた画像セットから成る動画コンテンツが、ＯＤＰ又はＰＰＴなどの従来のプレゼンテーション形式で以てプレゼンテーションスライドとして保存され、OpenOffice.org Impress（http://openoffice.org/より入手可能）やMicrosoft PowerPoint（Microsoft Corporation, Redmond, WA, USAより入手可能)などの汎用スライドプレゼンテーションアプリケーションを用いて表示されることが考えられる。また、動画コンテンツを非標準の形式を用いて保存し、その動画コンテンツを専用のソフトウエアを用いて再生することも考えられる。

さらに、当然のこととして、「動画コンテンツ」という用語は、効果的な動画話法の原則に関して順序付けられた画像セットが、動画のフレームレートで以て動画として表示されることを求めるものではない。実際、たとえ画像が従来の動画形式で保存されていて汎用の動画又はマルチメディアプレーヤーエンジンを用いて再生されたとしても、それらの画像は、再生レートが動画フレームレートよりもずっと遅くなるように複製することができる。例えば、もしその動画が一秒あたり３０フレームの動画フレームレートで再生され、画像を一秒あたり一枚の速度で表示したいとすると、動画が一秒あたり３０フレームで再生され、画像が一秒間表示されるように、各画像は連続３０枚のフレームを適切に規定することができる。

図１を参照して、画像セット１０を、効果的な動画話法の原則に関して順序付けられた画像セットから成る動画コンテンツに変換する、一例となるシステムについて説明する。画像セット１０は、画像がタイムスタンプ情報又は画像の順序を定義するのに利用することもあり得る他のメタデータを有しているかもしれないものの、不規則な画像セットとして扱われる。

動画コンテンツへの変換の最初の処理作業は、複数の画像を一又は複数の場面に分割することである。そうするために、画像セット１０が、類似性基準（この場合、値が大きいほど類似性が高いことが示される）や、距離又は発散基準（この場合、値が小さいほど類似性が大きいことが示される）といった適切な比較基準によって測定されるような類似性を有する画像を特定するために、クラスタ化される。図示された実施形態では、このクラスタ化する手順は、画像対比較部１２を用いて計算された画像間の対比較に基づいて行われる。比較基準は画像自体に由来する情報を利用してもよいし、画像に関連するメタデータを用いることもできるし、画像由来の情報及び関連するメタデータ情報の組み合わせを用いることもできる。例えば、一つの方法では、各画像は局所的特徴に基づく特徴ベクトルによって表され、比較はフィッシャーカーネルを採用する。（Conference on Computer Vision and Pattern Recognition 2007 (CVPR07)における、Perronnin et al.による"Fisher kernel on visual vocabularies for image categorization"を参照。）画像全体の比較を行うため、幾つかの実施形態では画像が一定の数の領域に分けられ、領域と対応する領域との比較が行われる。最終的な類似基準は、領域あたりの比較基準の和、平均、又は他の集計単位である。

任意であるが、選択された比較基準には、撮像装置の識別番号、画像の題材の識別番号、又は他の使用可能なメタデータといったメタデータが含まれる。他の考えられる比較基準では、顔に焦点を合わせる。画像内で顔を識別する既知の技術を用いて、顔が描かれている画像の部分間の類似度を、適切な比較基準によって比較することができる。例えば、比較基準は顔認識基準であり得る。これにより、次のクラスタ化する手順が、画像に現れている個々の人物に関連した情報に基づいて行われる。

比較部１２の出力は、各種の形態や種類であり得る。その出力は、画像グラフ１４として見ることができる。この画像グラフ１４では、グラフの節点は画像セット１０の画像であり、その節点は対比較基準の関数に相当する重みを有するエッジによって接続される。あるいは、比較部１２の出力は、要素ｄ_ijがｉ番目の画像とｊ番目の画像を比較する比較基準である対類似行列として見ることもできる。（「類似」行列という用語は従来より用いられているが、比較を行う際には、類似基準あるいは距離又は発散基準を採用することができることに注意。）例えば、画像Ｉ_i，Ｉ_j∈[Ｉ_n｝_n=1,…_,N 、ここにおいて[Ｉ_n｝_n=1,…_,Nが画像セット１０である、を考えると、画像間の比較基準はｄ_ij＝f（Ｉ_i，Ｉ_j）と記述することができる。グラフの観点からすると、要素ｄ_ijは画像の節点Ｉ_i，Ｉ_j∈[Ｉ_n｝_n=1,…_,Nを接続するエッジの重みである。通常、類似行列は対称行列（すなわち、ｄ_ij＝ｄ_jiが常に成り立つ）又は非対称行列（すなわち、ｄ_ij≠ｄ_jiがあり得る）のいずれかである。もし比較基準fが非対称であるならば、対称比較行列はｄ_ij＝f（Ｉ_i，Ｉ_j）＋f（Ｉ_j，Ｉ_i）などの適切な対象化を用いることによって作成することができる。

クラスタ化は、比較基準に基づき、クラスタ化モジュール１６によって適切に行うことができ、スペクトルクラスタリング、カーネル関数に基づいたクラスタリング、確率的潜在意味解析（probabilistic latent semantic analysis：PLSA）などの、適切なクラスタ化アルゴリズムをどれでも用いることができる。例えば、スペクトルクラスタリング技術は、より少ない次元でのクラスタリングのために次元縮小を実施するために、データの類似行列のスペクトルを利用する。スペクトルクラスタリングの方法の幾つかの定式では、対称類似行列が固有値分解を用いて分解され、行列の積Ａ・Ｄ・Ａ^Tを生成する。ここで、Ｄは、対角線要素が該対称類似行列の固有値である対角行列であり、Ａは他の行列、そして上付きの「Ｔ」は転置処理を意味する。スペクトルクラスタリングの枠組みの中では、行列Ａの列は画像をクラスタと関連付けるものと解釈される。

クラスタ化は、例えば最大演算子を用いて、各画像が全くただ一つのクラスタにのみ割り当てられる強分割を採用することができる。又は、クラスタ化は、例えば確率の閾値を採用することにより、各画像が通常一又は複数のクラスタに割り当てられる弱分割を採用することもできる。

対比較基準に基づいたクラスタ化技術が本明細書では具体例として説明されるが、Ｋ平均法などのように、画像間での対類似に基づいて機能するものよりも、画像の特徴ベクトル又は他の表現に直接基づいて機能するクラスタ化技術を含む、他のクラスタ化技術を採用することもできる。

クラスタ化モジュール１６の出力は、複数の場面２０である。クラスタ化モジュール１６の出力である各場面は、クラスタ化によって生成された、不規則な画像のクラスタから成る。もしクラスタ化において強分割が採用されるならば、各画像は一つのクラスタに割り当てられる。一方で、クラスタ化において弱分割が採用されるならば、ある画像が二以上のクラスタに割り振られることがあり得る。平均的には、弱分割は、強分割と比較すると、一つのクラスタにより多くの画像が含まれる（一つの画像が二つのクラスタに割り当てられることは「複製された」状態と見ることができる）。一つのクラスタにより多くの画像が含まれるならば、画像間が滑らかに移行する可能性が高くなる。従って、クラスタ内の動画の一貫性が実現される可能性が向上する。一方で、画像選択といった幾つかの用途では、異なる場面の間で画像を繰り返すのは好ましくないかもしれない。そのような用途においては、強分割が好適に用いられる。

任意であるが、クラスタ化モジュール１６は、クラスタ化によって生成されたクラスタのいずれにもうまく合わない画像を削除する異常画像削除サブモジュール２２を含んでもよい。このような異常フィルタリングは、例えば、他の画像と非常に異なっているために動画の一貫性を大幅に低下させるであろう画像を削除することにより、動画コンテンツの一貫性を向上させるのに有用である。クエリに基づいた画像検索アプリケーションでは、異常画像を削除することは検索結果における有効なフィルター効果を及ぼす。検索された画像が他の検索された画像と大きく異なっていると、無関係である可能性がより高いからである。幾つかの実施形態では、例えば、もしクラスタ内の画像の数が非常に少ない場合やクラスタ内における画像間の平均の又は集計した距離が大きすぎる場合には、異常画像削除サブモジュール２２は画像のクラスタ全体を削除することもできる。幾つかの実施形態では、図示された任意の専用の異常画像削除サブモジュール２２を動作させることなく、選択されたクラスタ分割自体において異常画像の削除を実施してもよい。例えば、閾値に基づいた弱分割が用いられる場合、クラスタ化の結果得られるクラスタに帰属する確率がどのクラスタの基準にも合わない「異常」画像は効果的に削除される。

現実に成された実行では、クラスタ化は、事後分布において閾値０．４を採用した弱分割によるＰＬＳＡが用いられた。これにより、複数の画像のうちの幾つかを複製し、場合によっては最終的な順序から幾つかの異常画像を削除することで、さらに同質の場面が得られることがわかった。現実に成された実行ではまた、小さすぎる場面、即ち含まれる画像が１０枚未満の場面は削除された。さらに一般的には、小さなクラスタを削除するためのクラスタサイズ閾値は、画像セット１０のサイズ、画像セット１０の画像の種類、望ましい動画話法の構成などに基づいて適切に選択される。又は、クラスタ化において、不適な程度に小さな場面（すなわち、作成される動画コンテンツの表示を考えた場合、閲覧には不適な程度に短い場面）を防ぐために、閾値のサイズよりも大きなクラスタを出力するようにさせることもできる。上述したように、クラスタ内の画像間の総距離といった他の基準もまた、削除する場面を選択する基準として用いることができる。

クラスタ化モジュール１６によって実行されるクラスタ化処理の目的は、一つの画像から次の画像に移る際に、画像に描かれる人物や物体などが突然にその位置、大きさ、向きなどを変えることがない、一貫性のある画像の流れを形成するために結び付けることができそうな意味において「類似」している画像を合わせてグループ化することである。クラスタ化モジュール１６によって実行されるクラスタ化は互いに類似した画像を場面２０にグループ化する。ここで、比較の尺度は比較部１２によって採用される比較基準である。結果として、一つの場面における画像は互いに類似しているものと期待され、従って、実質的に動画の一貫性を乱さない順番で配列することができる可能性が高い。

終盤が近づくにつれて、場面内順序付けモジュール２６が動画の一貫性に関して場面内で画像を順序付けることにより、規則的な順序の画像から成る規則化場面のセット３０を生成する。Ｎ枚の画像セット１０からクラスタ化されたＳ＜Ｎ枚の画像を有する一つの場面の考える。言い換えると、その場面は、Ｎ枚の画像セット１０からクラスタ化されることによって選択された不規則なＳ枚の画像の小セットとみなすことができる。その画像のセットの特定の順序をＩ₁，Ｉ₂，…，Ｉ_Sと定める。動画の一貫性のためには、その並びにおいて二つの連続する画像はできる限り類似していることが望ましい。従って、全体として、

（ここで、d_i,i+1は類似基準である）の値を最大化する、又は

（ここで、d_i,i+1は相違又は発散基準である）の値を最小化することが望ましい。

別の言い方をすると、画像のペア間での対比較に関して、一つの場面内において複数の画像を通る最短経路を推定することが望ましい。そのような最短経路推定は時に「巡回セールスマン問題」と呼ばれ、最短経路を推定する数多くの方法が知られている。とはいえ、完全な最短距離を決定することは、クラスタ化モジュール１６によって生成された典型的な場面のような多数の対象のセットに関しては、困難または不可能である。従って、「最短経路推定」という語句及びそれに似た表現は、最短経路問題に対する大凡の又は推定の解を指しているのであり、通常、とりわけ場面内の画像の数が増えるにつれ、得ることが困難又は不可能となる、完全な解を指しているのではない。

幾つかの実際に構築されたシステムでは、最短経路推定は、Lin-Kernighan巡回セールスマン解決法を用いて行われる。（Applegate et al., "Concorde TSP Solver" (2006) (available at http://www.tsp.gatech.edu/concorde/)を参照。）任意ではあるが、例えば、画像に伴うタイムスタンプのメタデータより利用できる時間情報のような追加の方法を用いることができる。Lin-Kernighan巡回セールスマン解決法では、経路における第一の節点（本願の場合には第一画像）を選択する必要がある。実際に構築されたシステムでは、経路の第一画像は、場面を構成する複数の画像のうち、最も早いタイムスタンプを有する画像であるように選択された。他に、例えば、場面を定義するクラスタの重心に最も近い画像を選択するといった、第一画像を選択するための基準もあり得る。半管理セッティングでは、ユーザは候補結果に基づいてこの第一画像を選出又は選択するであろう。さらに、Lin-Kernighan巡回セールスマン解決法は単に、最短経路を推定する実例にすぎず、最短経路推定を実行するのに、さらに一般的で実質的には、いかなる正確な又は大凡の最短経路を推定する又は決定する技術をも用いることが可能である。

任意であるが、非一貫場面削除モジュール３２は、十分な動画の一貫性を有していない場面を削除する。例えば、任意で設けられる非一貫場面削除モジュール３２は、推定された最短距離に基づいて並べられた、場面内の連続する画像間の平均の又は集計した距離が閾値よりも大きい全ての場面を削除しても良い。又は、推定された最短距離に基づいて並べられた、場面内の連続する画像間の平均の又は集計した距離が閾値よりも大きい場合には、場面内順序付けモジュール２６を（望ましくはより短い）推定最短距離を与えるために再適用しても良い。不所望なほど高い動画一貫性を有する規則的場面が場面内順序付けモジュール２６によって出力された場合には、クラスタ化モジュール１６を再適用することや、画像対比較部１２を再適用することで対画像比較基準を再定義することもあり得る。クラスタの数は、例えば、個別に検討した場合に動画の一貫性が満足できないような場面を一つにまとめるといった、場面の質を改善するうえで影響を及ぼすパラメータの一つである。

場面内規則性を持った場面のセット３０は（これは本明細書では規則的場面のセット３０とも称される）、各場面内で実質的な動画の一貫性をもたらす。幾つかの実施形態では、これは最終的な動画コンテンツの出力となることがある。例えば、各規則的場面は動画コンテンツの単位として扱うことができ、プレゼンテーションアプリケーションなどを用いて表示することができる。例示される実施例を含む他の実施形態では、規則的場面３０はさらに、その規則的場面３０の順序を選択するために処理される。幾つかの実施形態では、場面の数が、規則的場面３０を手動で順序付けることがあり得る程度に十分に少ないかもしれない。とは言え、手動で場面を順序付けることは、クラスタ化によって多数の場面が生成される画像のセットの数が多い場合には実際的ではない。また、手動での順序付けは、場面の数が少ない場合であっても望ましくないかもしれない。

従って、図示される実施形態では、規則的場面３０の順序付けは、場面順序付けモジュール３６によって自動的に実施される。もし規則的場面３０の順序がある用途において重要ではないと考えられる場合には、場面順序付けモジュール３６は、例えばクラスタ化の間に用いられたクラスタの任意のインデックス化に従って場面を順序付けるといった、任意の、好ましくは計算効率の良い順序付け方案を採用することができる。又は、場面順序付けモジュール３６は、クラスタのサイズによって規則的場面３０を順序付けてもよい。その結果、動画コンテンツは、サイズ（すなわち、表示の観点からした長さ）が小さくなる（もしくは大きくなる）順序で以て示される。この方法は、例えば、画像セット１０がクエリに基づく画像検索システムによって検索された「トップＮ」の画像である場合に、適切かもしれない。このような適用では、最大の場面には最も関連のある画像が含まれる可能性が高い。さらに具体的な例として、もしクエリが「cats」という文字である場合には、最大の場面にはそのクエリ「cats」によって意図された可能性が高い猫科の動物の画像が含まれる可能性が高い。一方で実際には、より小さな場面にはアンドリュー・ロイド・ウェバーによるブロードウェーミュージカルの「Cats」などに関連した画像が含まれるかもしれない。

別の実施形態では、場面順序付けモジュール３６は、場面に含まれる画像のタイムスタンプの平均又は他の集計に基づいて場面を順序付ける。これは実際に構築されたシステムで採用されている方法である。この場面順序付け基準は誕生日パーティーなどのイベントで取得された画像から動画コンテンツを構築するのに適切かもしれない。この場合、閲覧者が大凡時間順にそのイベントの画像を見たい可能性がある。そのような適用では、平均タイムスタンプの昇順に場面を並べることが好ましい。平均集計関数の代わりに、場面内の最小タイムスタンプのような別の集計関数を用いても良い。

場面順序付けモジュール３６が出力するのは、場面内規則性を持った規則的場面のセット４０である。幾つかの実施形態では、これは最終的な動画コンテンツの出力となり得る。図示される実施例のような他の実施形態では、場面内規則性を持った規則的場面のセット４０は更に、任意に、連続する場面間での移行を選択するために処理され、さらに任意に、場面内で連続する画像間での移行を選択するために処理され、さらに任意に、各画像の表示時間を決定するために処理される。この移行の選択は、任意に、手動で行うことができる。

又は、図示される実施例に示されるように、移行選択モジュール４４が自動的に連続する場面間の移行を選択し、自動的に場面内の画像間での移行を選択し、自動的に各画像の表示時間を選択する。幾つかの実施例では、これらの値は均一な初期値として選択される。例えば、ある方法では、各画像に関し、一定の表示時間（例えば０．２秒）を与え、一つの場面内で連続する画像間で急に移行をし、連続する場面間では０．５秒のフェードトゥブラックによる移行のような特定の移行を行う。さらに一般的には、移行は、例えば、急な（すなわち強移行）、フェードトゥブラック、モーフィングなどの、映画のようなあらゆる適切な移行を含む。

幾つかの現実に成された実行では、一つの場面における最後の画像から直後の場面における最初の画像への移行である場面内移行には、初期設定として０．５秒のフェードトゥブラック移行が設定され、一場面内の連続する画像間の移行は急な（強）移行であり、各画像の表示時間はその場面内で一定エントロピー率をもたらすように選択される。一定エントロピー率をもたらす画像表示時間を選択するのは、有効な実際のコミュニケーションは、ノイズのある通信路で最も効率的に情報を送信する方法は一定の割合で送ることであるという情報理論原則に従うということを示唆する証拠に基づいている。（Genzel et al., "Entropy Rate Constancy in Text", in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 199-206を参照。）スピーチの場合、長い時間にわたって一定エントロピー率を維持することは、より注意深く発音していることになり、冗長さはあまり見られない。（Aylett, "Stochastic suprasegmentals: Relationships between redundancy, prosodic structure and care of articulation in spontaneous speech", in Proc. ICPhS99, 1999を参照。）動画の分野において、これは、画像の移行は、次に来る情報の不明確性が増すにつれて遅くすべきであるという原則に言い換えることができる。もし類似する画像間の移行の方が、類似していない画像間の移行よりも生じ易いと仮定すると、一定エントロピー率をもたらす、連続する画像間の距離に比例する移行速度が適切に定義される。全ての任意の画像間の平均距離ｍｄと標準偏差ｓｄを定義し、さらにｍ及びＭがそれぞれ最小及び最大画像移行速度であると定義し、両者の距離がｄ_i,i+1（本具体例において、ｄは類似基準ではなく、距離又は発散基準である）で表される二つの画像Ｉ_i及びＩ_j間の移行速度を考えると、距離がｄ_i,i+1だけ離れた二つの連続した画像間の移行速度は、次のロジスティック関数Ｔ（ｄ_i,i+1）によって適切に定義される：

ここにおいて、パラメータＫは変化の速度を調節するものである。現実に成された実行では、Ｍ＝０．５ｓｅｃ、ｍ＝０．０５ｓｅｃなる値が選択された。

移行選択モジュール４４の出力は、定義された画像のプレゼンテーション時間だけでなく、場面間及び場面内で連続する画像間の移行が定義された規則的場面の規則的セットを含んだ動画コンテンツ５０である。動画コンテンツ５０は任意に、様々な方法で、更に処理を行うことなく保存することができる。例えば一つの方法では、Ｎ枚から成る画像１０が識別インデックスｉ（ここで１≦ｉ≦Ｎ）と共に保存される。そして、動画コンテンツ５０は次の様に保存することができる。（１）規則的経路ベクトルＰ＝［ｐ_1,ｐ_2,…_,ｐ_L］。ここでＬは動画コンテンツ５０内の画像の枚数（異なる場面の複製された画像を含む）であり、ベクトル要素ｐ_lは動画コンテンツ５０の再生中に表示されるｌ番目の画像の識別インデックスを含む。（２）移行ベクトルＴ＝［ｔ_1,ｔ_2,…_,ｔ_L］。ここで、ベクトル要素ｔ_lは動画コンテンツ５０の再生中に表示されるl番目の画像のプレゼンテーション時間を含む情報と、ｌ番目の画像の表示から（ｌ＋１）番目の画像の表示への移行に関する移行情報とを包含している。

任意であるが、動画コンテンツ５０を様々な方法でさらに処理し、パッケージングしても良い。例えば、幾つかの実施形態では、動画コンテンツ５０は、各画像が一つのスライドとして表されたスライドプレゼンテーションファイルとして保存される。OpenOffice.org ImpressやMicrosoft PowerPointなどの既存のスライドプレゼンテーションプログラムは、組み込みの「スライドショー」プレゼンテーションモードを備えており、移行及び画像（即ちスライド）の表示時間を、各移行及び各スライドのそれぞれに関して個別に設定することが可能である。スライドプレゼンテーションとしてパッケージされた動画コンテンツ５０はＯＤＰやＰＰＴといった従来のプレゼンテーション形式で保存することができ、OpenOffice.org ImpressやMicrosoft PowerPointなどの汎用スライドプレゼンテーションアプリケーションを用いて表示することができる。

図示された実施例では、動画コンテンツ５０は、予め定められたフレームレートで再生されるフレームから成る動画として動画生成モジュール５２によってパッケージングされる。各画像のプレゼンテーション時間を動画のフレームレートに適応させるために、画像を有効な回数、複製することができる。例えば、もしある画像の表示時間がｔ_dであり、動画フレームの持続時間がｔ_f（ｔ_d≧ｔ_fであると仮定する）であるとすると、画像をｔ_d／ｔ_fに最も近い整数に等しい回数だけ複製することにより、その画像が表示される。より具体的な例として、もしｔ_d＝０．５ｓｅｃ及びｔ_f＝０．０４ｓｅｃ（これは２５フレーム／秒のフレームレートに相当する）であるならば、ｔ_d／ｔ_f＝１２．５となり、その画像は１２又は１３（丸め方による）フレームのいずれかに適切に複製される。画像１０の解像度及び動画の解像度に応じて、動画生成モジュール５２は適切な動画の解像度を有するフレームを生成するために、画像に対し、ダウンサンプル、アップサンプル、又はその他の処理を行っても良い。カラーパレットやアスペクト比などの他の画像の特性もまた、画像を動画に適合させるために適切に調整することができる。

移行は次のように動画生成モジュール５２によって適切に実行される。急な（強）移行は次の画像を表示するフレームに直ちに進むことによって実行され、一方、フェードトゥブラックのような他の移行は連続的に「より黒い」、又は所望の移行をシミュレートしたり生じさせる、一連のフレームを用いて適切に実行される。

動画生成モジュール５２はＭＰＥＧ、ＤｉｖＸ、Ｘｖｉｄ、ＦＦｍｐｅｇ、ａｖｉ、ｗｍｖなどの選択された動画コーデックを用いて生成されたフレームから成る動画の形式を整えたりコード化したりする。こういった形式を整えることやコード化は、コーデックによって定義される画像圧縮などの処理を含んでいても良い。選択された動画コーデックに沿ってコード化された動画は動画ファイル記憶部５４に保存される。動画ファイル記憶部５４には、コンピュータのハードディスク、光ディスク、静電記憶装置、又は他の記憶媒体、デジタル動画レコーダのハードディスク、光ディスク、又は他の記憶媒体、等が含まれる。

保存された動画はMPlayer、VLC media player、Windows Media Player^TM、Quicktimeなどの汎用動画又はマルチメディアプレーヤーを用いて動画を再生することで適切に表示される。適切に再生するために、選択された汎用動画又はマルチメディアプレーヤーエンジンには、動画が保存されたコーデックを「読む」ことができるデコーダがインストールされているべきである。幾つかの実施形態では、保存作業は割愛しても良い。例えば、動画はインターネット上で又は他のデジタルネットワーク上でストリーミングされても良い。

処理要素１２、１６、２２、２６、３２、３６、４４、５２、５６は、関連する処理を実行するために適切にプログラムされたデジタルプロセッサを含む一又は複数のデジタル素子によって適切に具現化される。図示された実施例では、コンピュータＣはこれらの要素を具現化するために構成されたデジタルプロセッサとメモリ（要素は非図示）を含んでおり、さらに、動画コンテンツを動画、スライドショープレゼンテーションなどとして表示するディスプレイＤを含む。コンピュータの代わりに、他のデジタル処理装置を用いることができる。別の実例では、処理要素１２、１６、２２、２６、３２、３６、４４、５２、５６は、画像セット１０を取得するデジタルカメラによって実現され得る。これによって、デジタルカメラが動画コンテンツ５０を生成し、それをデジタルカメラの画面に表示し、カメラのメモリーカードにその動画を保存し、その動画をコンピュータや他の装置にダウンロードする、といったことができる。他の実施形態では、様々な処理要素が、二つ以上の異なるデジタル装置によって具現化されても良い。例えば、動画生成要素１２、１６、２２、２６、３２、３６、４４、５２はコンピュータによって具現化される一方、マルチメディアプレーヤーエンジン５６は、デジタル動画デコーダー、ＤＶＤ、又は動画再生機能を備える他の装置と動作可能なように接続されたテレビ受信器によって具現化されてもよい。

他の実施形態では、一又は複数の記録媒体が、処理要素１２、１６、２２、２６、３２、３６、４４、５２、５６を具現化するためにデジタル処理装置によって実行可能な命令を保存する。この一又は複数の記録媒体には、例えば、光ディスクや他の光記録媒体、ハードディスクドライブや他の磁気記録媒体、フラッシュメモリや他の静電記録媒体、インターネットサーバに関連した記録装置、などが含まれる。

図２、３を参照して、ヨーロッパの修道院を歩いて回る間にデジタルカメラで撮った画像に適用される図１のシステムの、現実に成された実行によって生成された動画コンテンツのための幾つかの計量が示される。図２は二次元グリッドを描いているが、その軸は、事後分布において閾値０．４を採用した弱分割によるＰＬＳＡクラスタ化アルゴリズムを採用したクラスタ化モジュール１６によって生成された動画コンテンツの場面に対応している。各グリッド要素(i,j)におけるグレースケール強度は場面iの画像と場面jの画像との間の距離の総計を指している。予想された通り、クラスタ化によって、図２において左上から右下に走る暗い斜めの線によって示されているように、i＝jとなるグリッド要素が最大の類似性を持つ。図３は２６枚の画像から成る場面の一連の画像間の距離d_i,i+1（本具体例において、ｄは類似基準ではなく、距離又は発散基準である）をプロットしたものである。ここで、場面内順序付けモジュール２６は異なる三つの最短経路推定技術を用いるように構成された。（１）画像が画像のタイムスタンプメタデータによって順序付けられる時間順序（この方法は時間的にデジタルカメラによって相次いで得られた画像が類似している可能性が高いということを仮定している）、（２）第一画像が選択され、その第一画像に最も類似した第二画像が次に選択され、その第二画像に最も類似した画像が次に選択され…、という手順を不規則な場面内の全ての画像が選択されるまで行うという欲張り選択法、そして、（３）Lin-Kernighan巡回セールスマン解決法である。

引き続いて図３を参照すると、時間順序方法はひどく発散した結果となった。これは、ある場合には根底にある仮定が非常に良いかもしれない（例えば、同一人物の写真を何枚か続けて撮る）し、別の場合には根底にある仮定が非常に貧弱であるかもしれない（例えば、人物の写真に次いでステンドグラスの窓の写真が来る）からである。欲張り法は、初期は画像選択の結果が非常に良かった。なぜならば、初期の段階では、場面の中で、利用できる多数の画像の中から類似した画像を見つけるのは容易だからである。しかし、欲張り法による選択処理が進むにつれ、残っている利用可能な画像の数は着々と少なくなって行き、結果的に、動画コンテンツが場面内で大きくなると共に、連続した画像間の距離d_i,i+1は次第に大きくなる。Lin-Kernighan巡回セールスマン解決法は場面全体の経路の最適化を伴うため、効果的に、場面全体における連続した画像間の良好な「平均」距離d_i,i+1を与える。

図３は、２６枚の画像のみから成る比較的短い場面に関する結果を示す。通常、所定のクラスタ化アルゴリズムにおいては、場面内の画像の枚数が増えるにつれて、得られる動画の一貫性が高まると期待される。この予想では、全ての画像が同一のソースから得られる。結果の質は、画像セット１０が複数のソースから生成されるので、結果の質が高まると期待される。クラスタ化と場面の長さはトレードオフの関係にある。例えば、非常に類似した画像のみをクラスタ化する積極的分割基準を用いると、通常、短い規則的な場面をもたらす非常に類似した画像の小さなクラスタが出力される。こういった短い規則的な場面は、短いにもかかわらず、場面内の画像の類似性が高いため、動画の一貫性が高いかもしれない。一方で、あまり類似していない画像をグループ化する積極性の低い分割基準を用いると、類似性が低い、より大きなクラスタが出力される。結果として得られる規則的な場面は、場面内での画像間の相違性が高いため、より長いにもかかわらず、動画の一貫性はさらに低いかもしれない。動画の並びのダイナミック性は場面の長さと関係がある。従って、クラスタの数のパラメータを、出力される動画の所望のダイナミック性を調節するために用いることができる。

１０画像セット、１２画像対比較部、１４画像グラフ、１６クラスタ化モジュール、２０場面セット、２２異常画像削除サブモジュール、２６場面内順序付けモジュール、３０場面内規則性を持った場面のセット、３２非一貫場面削除モジュール、３６場面順序付けモジュール、４０場面内規則性を持った規則的場面のセット、４４移行選択モジュール、５０動画コンテンツ、５２動画生成モジュール、５４動画ファイル記憶部、５６マルチメディアプレーヤーエンジン、Ｃコンピュータ、Ｄディスプレイ。

Claims

画像セットをクラスタ化し、各々が、不規則な一群の画像から成る複数の場面を生成する手順と、
場面内の画像を動画の一貫性に応じて順序付けることで、規則的な順序の画像から成る規則的場面を生成する手順と、
前記複数の場面から成る、前記規則的な順序の画像に基づいて順序付けられた画像として動画コンテンツを生成する手順と、から成り、
少なくとも、上述のクラスタ化する手順と順序付けの手順とがデジタルプロセッサによって実行されることを特徴とする画像処理方法。
前記場面内の画像を動画の一貫性に応じて順序付ける手順が、
画像の対の間での対比較に応じて場面内の前記複数の画像の最短経路を推定する手順から成ることを特徴とする請求項１に記載の画像処理方法。
画像セットをクラスタ化して複数の場面を生成する手順と、動画の一貫性の基準に応じて各場面内で画像を順序付ける手順と、から成る画像処理方法を実行することが可能な命令を保存した記録媒体。
更に、前記複数の場面から成る、前記規則的な順序の画像に基づいて順序付けられた画像として動画コンテンツを生成する手順を実行可能であり、また更に、各場面内の画像の表示時間が一定エントロピー基準に一致するように選択された、動画コンテンツによって規定されるフレームから成る動画を生成する手順を任意に実行可能な命令を保存したことを特徴とする請求項３に記載の記録媒体。