JP2005038399A

JP2005038399A - 静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム

Info

Publication number: JP2005038399A
Application number: JP2004135676A
Authority: JP
Inventors: David Mark Frohlich; デイヴィッド・マーク・フローリック; David Arthur Grosvenor; デイヴィッド・アーサー・グロヴナー; Glenn Peter Hall; グレン・ピーター・ホール
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2003-04-30
Filing date: 2004-04-30
Publication date: 2005-02-10
Also published as: GB0609354D0; GB2401272B; GB2424535A; US8363058B2; GB2401272A; US20050008343A1

Abstract

【課題】静止デジタル画像からビデオデータおよび／またはオーディオフォトを生成するシステムおよび方法を提供する。
【解決手段】本方法は、静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取ることを含む。本法はまた、ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定すること、および一連のビデオフレームを表す出力データを生成することを含む。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。
【選択図】図６

Description

本願は、包括的に静止デジタル画像の処理に関し、特に、静止デジタル画像からのビデオ動画および／またはオーディオフォトの生成に関するものである。

静止デジタル画像は、たとえば、デジタルカメラまたはスキャナを使用して容易に得ることができる。他の静止画像はコンピュータ生成された画像であったり、または既存の画像データベースからダウンロードされた画像であったりする。静止デジタル画像は、コンピュータモニタ、デジタルプロジェクタ等のデジタル表示装置を使用して表示することが可能であり、通常、個々に、あるいはコンピュータ化された「スライドショー」プレゼンテーション（たとえば、Ｍｉｃｒｏｓｏｆｔ（商標）のＰｏｗｅｒＰｏｉｎｔ（商標）を使用して）の一部として表示される。

しかしながら、静止画像を使用する場合、視聴者の関心および注意を非常に限られた時間期間しか保持することができないことが多い。動画ビデオは多くの場合、視聴者の注意を引きつけておく際により効果的であると考えられている。

従来の（すなわち、非デジタルの）静止画像の場合、テレビおよびフィルム業界は、写真または絵画等の静止画像から動画ビデオを生成し、それによって視聴者の画像に対する関心を高めることができるロストラムカメラ（rostrum camera：演壇カメラ）技法を開発した。ロストラムカメラ技法は定着しており、通常、静止画像に対してカメラを動かしてパン効果を与え、カメラを関心のある特徴にズームインし、そしてより広い視野を見せるためにズームアウトすることを含む。

仮想ロストラムカメラ技法を使用して静止デジタル画像から動画ビデオを生成することも可能である。こういった技法では、視聴者を画像中の関心のある領域を巡るバーチャルツアーに連れ出すことができる。ＷＯ００／０８８５３にはこのような技法の一例が記載されており、ここでは、ユーザが手動で画像にわたってキーフレームの位置を指定し、次にコンピュータが、キーフレーム間を固定レートでパンする経路を自動的に生成する。代替として、ユーザは制御されたレートでキーフレーム間をパンする経路を手動で生成することも可能である。

静止デジタル画像からビデオを生成する技法に関連する一例がＷＯ９７／３１４８２に挙げられている。ここでは、球面画像ファイルのユーザが画像にわたるパンの移動を指定して画像のデフォルトビデオツアーを生成することができるか、または画面上の制御アイコンを使用してツアーに割り込んでユーザ自身の画角を指定してツアーを続けることができる。

静止デジタル画像にわたる仮想ロストラムカメラのパンは、ＧＢ２３７２６５８Ａに記載のようにコンピュータによって自動化することができる。ここでは、画像処理システムが採用されて、画像中の視覚的関心領域（たとえば、人々の顔）を見つけ、それら領域間での自動ロストラムカメラ移動を生成する。この画像処理システムは、視覚的特徴が所定のルールを満たす場合、視覚的関心があるものとしてその領域を指定する。このように抽出された関心領域は次に、画像のビデオツアーにおけるルートの行先になり、これは、パンおよびズームの流れを支配する美観ルール、領域上で一時停止する予め設定された時間、および画像セットが使用される場合、各画像をカバーする予め設定された時間によってさらに制約を受ける。

手動の方法も、また自動の方法もユーザの観点から完全に満足のいくものではない。パンおよびズーム操作を指定する手動の方法は時間がかかり、最も恩恵をうけ得る消費者用途には複雑すぎる傾向がある。一方、自動的な方法は、所定のルールを満たす画像中の視覚的関心領域を見つけるにすぎず、これらは、画像についての物語中で注目すべきである特徴等、心理的な関心領域に対応しない場合がある。

したがって、直観的に使え、使用しやすく、ビデオの内容を、画像についての物語を言葉で話しているか、またはその中の特徴を説明する誰かが指摘するような特徴に対応させることができる、静止画像からビデオを生成する方法が必要である。

本願の第１の態様によれば、静止デジタル画像からビデオデータを生成する方法が提供される。本方法は、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取ることを含む。本法はまた、ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定すること、および一連のビデオフレームを表す出力データを生成することを含む。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。

本願の他の態様によれば、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る手段を有するビデオ処理デバイスが提供される。該ビデオ処理デバイスは、ユーザ入力に応じて各一連のビデオフレームの視覚的内容を決定する、ユーザにより指定された領域の間の時間的な関係を捕捉する手段を有する。該ビデオ処理デバイスはさらに、一連のビデオフレームを表す出力データを生成する手段を有する。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、上記領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。また、一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。

本願の他の態様によれば、オーディオが付随するデジタル画像を作成する方法が提供される。本方法は、第１のデジタル画像中の領域を指定する入力をユーザから受け取ることと、ユーザからオーディオを受け取ることと、第１の画像をユーザによって指定された領域にクロッピングし、それにより、第１の画像から指定領域を含む第２の画像を作成することと、オーディオを第２の画像に関連付けることと、を含む。

本願の他の態様によれば、プロセッサが方法を実行するのを制御することによってオーディオが付随するデジタル画像を作成するよう動作可能なコンピュータプログラムが提供される。本方法は、第１のデジタル画像中の領域を指定する入力をユーザから受け取ることと、ユーザからオーディオを受け取ることと、を含む。本方法はまた、第１の画像をユーザによって指定された領域にクロッピングすることであって、それにより第１の画像から指定領域を含む第２の画像を作成する、クロッピングすることと、オーディオを第２の画像に関連付けることと、を含む。

本願のさらに他の態様によれば、第１のデジタル画像中の領域を指定する入力をユーザから受け取る手段と、ユーザからオーディオを受け取る手段と、を有する画像処理デバイスが提供される。画像処理デバイスはまた、第１の画像をユーザによって指定された領域にクロッピングし、それにより、第１の画像から指定領域を含む第２の画像を作成し、かつ、オーディオを第２の画像に関連付ける手段を含む。

これより本発明の実施形態について、例として、添付図面を参照しながら説明することにする。

本願は、単一の静止デジタル画像から動画ビデオおよび／またはオーディオフォトを生成する方法およびシステムを対象とする。

本願の第１の態様によれば、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る、静止デジタル画像からビデオデータを生成する方法およびシステムが提供される。ユーザ入力を処理し、それにより一連のビデオフレームそれぞれの視覚的内容が決定され、一連のビデオフレームを表す出力データが生成される。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるようにビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。

リアルタイムでユーザ入力を受け取ることにより、ユーザは有利に、画像について物語を話している、または画像中の特徴を話している間に、その静止画像の領域を指定することができる。したがって、画像（または画像セット）について話している人物の自然な振る舞いを使用して、その人物が指定している画像の特徴を巡るビデオツアーを導出することができる。関心領域は、画像について話しながらユーザが直観的に指定する（たとえば、指し示すことによって）ことができる。関心領域はユーザによって指定されるため、自動的な方法によって抽出される視覚的関心領域のみならず、あらゆる領域（特に心理的関心領域）をビデオに特集する（feature）ことができる。同様に、ビデオにおいて領域を訪れる順番、およびビデオにおいて各領域に一時停止する時間もまた、ユーザの自然な物語を語る振る舞いによって直観的に指定することができる。さらなる利点は、結果得られるビデオがユーザのナレーションのタイミングと同じペースで生成され、これによって（所望であれば）ユーザのナレーションをビデオに付随するサウンドトラックとして機能させることができることである。

ビデオの生成を静止画像中の関心のある特徴についてのナレーションと結び付けることで、相互の利点が提供される。視聴者または観客にとって画像を巡るビデオツアーへの関心は、画像についてのナレーション情報を組み込むことによって向上させることができ、ビデオツアーの視覚的内容は、画像の特徴について語ることによってより自然かつ容易に指定することができる。

本願の第２の態様によれば、静止デジタル画像からオーディオフォトを生成する方法およびシステムが提供され、該オーディオフォトは、デジタル画像の識別領域を有し、かつオーディオが付随する。デジタル画像中の第１の領域を指定するユーザからの入力が受け取られる。オーディオはまた、ユーザから受け取られる。デジタル画像はユーザによって指定された領域にクロッピングされ、それにより第１の画像から指定領域を含む第２の画像を作成する。次に、オーディオは第２の画像に関連付けられる。

本明細書において説明する本願の実施形態は、ソフトウェア、ハードウェア、またはこれらの組み合わせで実施することができる。コンピュータプログラムまたは他の実行可能論理命令の順序付きリストのようなソフトウェアにおいて実施される場合、ソフトウェアは、プロセッサまたはソフトウェア命令の実行に適した他の装置で実行することができる。プロセッサは、たとえば、パーソナルコンピュータまたは他のしかるべきデジタル演算装置の一部であってもよく、あるいはたとえばビデオまたは画像処理装置の一部であってもよい。さらに、本明細書において説明する実施形態は、プロセッサまたはプロセッサベースのシステムで可読なように適合されたフォーマットを有する媒体に格納されたコンピュータプログラムとして実施することも可能である。

静止デジタル画像からのビデオ生成
次に、静止デジタル画像からビデオを作成する実施形態について説明する。結果として得られるビデオは概して、映画またはテレビのドキュメンタリーにおいて、ナレーターが静止画像（たとえば、絵画）について説明し、カメラ撮影者がナレーションに合わせてロストラムカメラを画像の特定の部分に動かすときに使用されるものと同様のものである。しかしながら、本願の実施形態はテレビおよびフィルム業界において使用することが可能であるが、目下その意図は個人の写真と併せて使用する家庭内および個人的な使用に、より向けられており、人々は、写真について話すときに写真の部分を指し示すという自然な傾向を有することを利用している。

図１は、ここでは建造物１４付近に立っている人物１２を描写する写真として示される静止またはスチルデジタル画像１０の一例を示す。静止デジタル画像は、たとえば、画像処理装置、たとえばパーソナルコンピュータ（ＰＣ）、携帯情報端末（ＰＤＡ）、またはしかるべきデータ処理性能を有する他の装置（これらに限定されない）のビジュアルディスプレイユニットに表示することができる。

静止デジタル画像の領域は、異なるいくつかの可能な入力装置の１つを使用して、異なるいくつかの可能な技法の１つに従ってユーザの入力によって指定することができる。たとえば、カーソル１５もビジュアルディスプレイユニットに表示して、ユーザがカーソル制御装置、たとえばマウスまたはトラックボール（これらに限定されない）を制御することによって画像の周辺を移動させることができる。代替として、タッチセンシティブディスプレイパネルを使用してもよく、または画像をプリントしたものをデジタイジングタブレット上に配置してもよい。ユーザから入力を受け取るこれらおよび他の可能な方法については以下に、より詳細に述べることにする。

静止画像１０からビデオモーションを作成するために、ユーザは、カーソル制御装置を使用して領域１６、１８、および２０等、一連の複数の領域を指定する。これら領域は、ユーザが画像の内容について言葉で説明している間にユーザによって指定することができる。この場合、領域はユーザがカーソル制御装置を使用してその領域の周囲に円または楕円を描くことによって示されるが、領域を指定する他の方法も可能であり、それらについても以下に述べることにする。

次に、プロセッサが、静止画像からの画像データを使用して、ユーザが指定した領域に対応する一連のビデオフレームを決定する。ビデオフレームは、ユーザが指定した領域毎に、選択された領域がビデオフレームの大半を占めるよう構成されるように決定される。プロセッサが静止画像全体に対するビデオフレームのサイズおよび位置を決定することのできる別の方法については以下に述べることにする。ビデオシーケンスの全体的な構造は、ユーザによって指定された領域がユーザによって指定されたのと同じ順序で特集され、連続して特集される領域間の時間期間は、ユーザがその領域を指定したタイミングパターンに対応するようなものである。言い換えれば、ビデオシーケンスは、ユーザが領域を指定した順序のリアルタイムでの再生を提供する。

生成されるビデオフレームの数は、求められるビデオモーションの品質によって決まる。計算的に単純な実施形態では、ビデオフレームはユーザによって指定された各領域に対応して生成され、各フレームは、ユーザがある領域を示してから次の領域を指定するまでの間隔に対応する必要な持続時間を考慮して維持される。視聴時、ビデオは、ユーザによって指定された領域の間がカットされた一連の変更された静止画像を含む。

より洗練された好ましい実施形態では、指定された領域の間に移動の印象を与えるに十分なビデオフレームが生成される。フレーム数が増大すると、ビデオモーションの流動性が向上する。指定された領域は、指定された領域に直接対応するビデオフレームと定義されるキービデオフレームの生成に使用される。指定された領域の間にビデオの動き（すなわち、パンおよび／またはズーム）の錯覚を与えるために、プロセッサは、キービデオフレームが指定された間の時間期間中にキービデオフレーム間を埋める中間フレームも生成する。中間フレームの視覚的内容は、キービデオフレームの位置間の静止画像から採用される。パン効果は、静止画像の異なる場所からの２つのキービデオフレーム間に中間フレームを生成することによって得られる。

指定された領域のサイズは様々であってよく、キービデオフレームはそれぞれの視覚的内容を適宜、静止画像のより大きな、またはより小さなエリアからとってもよい。ズーム効果は、静止画像の不等エリアをカバーするキービデオフレーム間に中間フレームを生成することによって生み出される。静止画像の解像度がビデオフレームよりも高い場合、画像のズームイン領域は画質を少しも損うことなく実現することができる。

図２Ａ〜図２Ｆは、図１に示す静止画像から導出し得るビデオフレームのいくつかを示し、ビデオフレームは、ユーザによって指定された一連の領域１６、１８、および２０に対応して決定されている。ビデオは、ユーザが最初に領域１６を指定する前の時間期間に対応して、全体画像（図２Ａ）の概観から始めることができる。次に、ユーザが領域１６を指定した時点に対応して、図２Ｂのキービデオフレームが生成され、領域１６に効果的にズームインする。図２Ｂに行き着く前にいくつかの中間ビデオフレームを生成して、この細部へのズームインに滑らかさを与えることができる。次に、図２Ｂのフレームが、ユーザが領域１８を指定する時点の少し前まで、または最大でその時点まで維持される。この領域は図２Ｄのキーフレームを生成するために使用されるが、この領域に直接切り換えるのではなく、いくつかの中間フレームが生成されて（この中の１つを図２Ｃに示す）、図２Ｂから図２Ｄにパン効果を与える。これら中間フレームは、動画ビデオが、領域１８が示される時点で、またはその時点より少し後で図２Ｄのキービデオフレームに行き着くように領域１６と領域１８を指し示すタイミング間に生成することができる。ユーザが領域２０を指定したことに対応して図２Ｅに示すキーフレームが作成され、ここでも、いくつかの中間フレームを生成してシーン間にパン効果を与えることができる。考えられるビデオのエンディングを図２Ｆに示すが、これはもう１つの概観画像である。一連の中間フレームを生成して、図２Ｅのフレームからズームアウトすることができる。こうして、静止画像を巡るビデオツアーの作成が完了する。

図３に示すように、静止デジタル画像から動画ビデオを生成するシステム２５の一実施形態を示す。システム２５は、静止デジタル画像からビデオを生成する上記方法を実施することができる。システム２５は、１つのユーザ入力装置、たとえば、マウス３２、キーボード３４、およびデジタイジングタブレット３６（これらに限定されない）を少なくとも備えたマルチメディアコンピュータ３０または他のしかるべき処理システムを備える。静止画像４０は従来のモニタ３８に表示することができ、カーソル１５（図１）が、マウス３２を使用して関心領域を指定するように操作される。デジタイジングタブレット３６もまた直観的な入力技法を提供し、それによって静止画像３７のプリントコピーがタブレットに配置され、スタイラス４４または同等のポインティングデバイスを使用してユーザが領域を指定する。代替として、静止画像が電子的に表示され、たとえば、スタイラス、手、または指を使用してのユーザによる接触に応答するタッチスクリーン装置（図示せず）を使用してもよい。ＰＤＡまたはペンベースのタブレットコンピュータをこの目的で使用することも可能である。

使用にあたり、ユーザ入力装置は、ビデオに特集する静止画像中の関心領域を指定するように動作し、これは、画像の内容について言葉で説明している間に行うことができる。

画像の内容についてのユーザの言葉でのナレーションも、実質上デジタル画像に対する言葉での注釈として記録することが可能である。これを可能にするために、コンピュータ３０にマイクロフォン４２を装備することができる。マイクロフォン４２は、コンピュータ３０の画像処理装置と一体化されていてもよい。使用にあたり、ユーザは記録ボタン（たとえば、コンピュータキーボード上のキー）を押下して、デジタル画像のナレーションを記録する。画像の説明中、ユーザは、ユーザ入力装置を使用して、たとえば、マウスカーソルまたはタブレット上のスタイラスを使用して指し示すことによって、画像の領域を指定する。これら指定は、それぞれが行われた時間プロファイルともに処理されて、パン、ズーム、およびカットというビデオ効果が適宜行われたビデオが生成される。

本明細書において使用する「ナレーション入力」という語は、静止画像の特徴についてのナレーション（または静止画像の説明的考察）に付随するか、またはこれをサポートするユーザからのあらゆる検出可能な振る舞いを包含するものとして広義に解釈すべきである。ナレーション入力としては、検出・処理することができる任意の様式での話すこと、指し示すこと、および身振りが挙げられるがこれらに限定されない。

ビデオは、ユーザのポインティング指定とリアルタイムで生成してもよく、または代替として、ユーザの指定を記録して、その後ビデオを生成してもよい。ユーザは、入力装置を使用して故意に指定を行ってもよく、または代替として、センサおよび／または処理装置を使用してユーザのスピーチおよび／またはボディランゲージをピックアップし、この情報を解析して静止画像の領域の暗に示された指定を取得してもよい。

ユーザから関心領域を指定する入力を受け取る他の方法も可能である。こういった方法は、マイクロフォンを介してユーザのスピーチを受け取ることと、そのスピーチを処理して、キーワードまたはフレーズ（「人」、「家」等）を識別することと、次に、視覚的特徴認識アルゴリズムを使用して画像中の対応する特徴を見つけることと、を含む。別の代替は、画像（電子的に表示されたものであれ、またはプリントされたものであれ）に向けられたデジタルカメラを配置すること、および画像に対するユーザの身振りを取り込んで処理し、画像内の領域へのユーザ指定に対応するデータを作成することである。画像に対する手の動きを検出するようにデジタルカメラを実装する技法が、英国特許出願第０１１８４３４．０号および第０２１３５３１．７号に記載されている。こういった技法は、画像について発生した自然な会話から身振り情報、スピーチ情報、およびタイミング情報を取り込む際、２人の間での画像の考察に応答してビデオを生成する際に使用することができる。画像中の関心領域を指定するさらなる入力を提供するように、話者変更、手掛かり句（cue phrases）、間、および画像との対話がすべて取り込まれ得る。

ユーザの言葉でのナレーションが、ユーザの画像の特徴のポインティング指定とともに記録された場合、ナレーションをサウンドトラックとして、結果得られるビデオに組み込むことが可能である。

記録された言葉でのナレーションには、一連の領域特定音声注釈として静止画像に関連付けることも可能である。ユーザのポインティング指定は、ナレーションが行われている間に検出されるため、コンピュータ３０に内蔵されているプロセッサ等のプロセッサは、たとえば、各ナレーションを静止画像の対応する領域に関連付けることができる。考えられる再生システムは、静止デジタル画像を表示し、ユーザが画像内の関心領域をクリックできるようにし、クリックによって音声注釈が再生されることを含むことができる。プロセッサは、その領域へのズームイン等、ビデオ効果を適用することが可能である。

マウス、スタイラス、または同等のポインティングデバイスを介して静止画像中の関心領域を指定するユーザ入力を受け取ると、コンピュータ３０の画像処理手段は様々な技法を採用して、対応するキービデオフレームの視覚的内容を決定することができる。こういった可能性を図４、図５Ａ、および図５Ｂに示す。図４は、表示装置（たとえば、モニタ３８）に表示し得る静止画像の一部を示す。ここで、ユーザはカーソル１５を使用して男性の顔をクリックしており、顔が関心領域であることを示している。対応するキービデオフレームに含めるべき、カーソルのポイント周囲の領域の範囲を決定するため、プロセッサまたは画像処理手段は、ＷＯ０２／０５２８３５号に記載のものと同様のシーディング（seeding）および自動クロッピングアルゴリズムを採用する。シーディングプロセスは、カーソルのポイントによって示される位置から開始して、所定のルールに準拠した視覚的内容を有するフレーム（たとえば、５４）が得られるまで、事実上、一連の同心フレーム（破線の矩形、たとえば５２で示されるように）をプロットすることを含む。ルールは、たとえば、人物の頭部の視覚的特徴を特徴とすることができ、したがって、フレーム５４は頭部すべてが包含されるように決定される。他のルールは、関心領域をカーソルによって指定された位置周辺の「コヒーレントカラフルブロッブ」または背景フレーミング画像であることを特徴とすることができる。

さらなる方法を図５Ａおよび図５Ｂに示す。これら両方の場合において、ユーザが関心領域を指定することによって楕円（６０、６４）が静止画像にプロットされている。形状は楕円である必要はなく、円であってもよく、または別の規則的または不規則的な形状であってもよく、または単に関心領域周囲の大まかなフリーハンド指定であってもよい。プロットされた形状が静止画像に表示されることになるとは（これは、行うことはできるが）考えられず、代わりに、形状は単に、関心領域の大まかな範囲を指定するためにトレースされるにすぎない。図５Ａに示すように、プロセッサまたは画像処理手段は、楕円６０内にあるように（可能な限り多くの楕円内の静止画像を包含する）対応するビデオフレーム６２の範囲を決定することができる。代替として、図５Ｂに示すように、ビデオフレーム６６は、楕円６４のすべて（または略すべて）を包含するように決定することができる。

任意のポインティングの動きにどのビデオの動きを適用するかを決定するために、システム２５は様々なルールを使用することができる。たとえば、ある位置に単に触れること（またはカーソル位置でマウスをクリックし押し下げたままにすること）が、選択されたポイント周囲の領域への滑らかなズームイン操作に対応し得る。領域は、上に述べたように、円を描く動きによって指定することができる。ズームは、ポインティングの動きの後に続くことが多い、話中の中断に結び付けることができる。指を離す（またはマウスボタンを解放する）ことにより、画面の全体ビューにカットバックする、すなわち滑らかなズームアウトを行うことができる。代替として、ズームインは、指が離れた後も、次の位置へのパンを制御する第２のポインティングアクションが行われるまで保留することができる。これらルールの厳密な性質は、制御ソフトウェアにおけるユーザ選好において、または経験的な研究によって指定することができる。ユーザの指定は、事実上、システム２５の身振り制御言語を含み、上に述べたように、結果得られるビデオの動きは、元のポインティングの動きのタイミングによって決まるペースでレンダリングされ、ビデオの動きを同時の言葉でのナレーションと同期させたままにすることができる。

プロセッサは、２枚以上の静止画像にわたって生成された仮想ロストラムカメラ効果およびビデオシーケンスを使用することもできる。これにより、たとえば、同じアルバムのページ上に互いに横に並んで置かれた複数の画像にわたって滑らかなパン効果またはズーム効果を実現することができる。この効果は、隣接するシーンの写真、たとえば、一連の静止画像で取り込まれた広大な山脈のパノラマビューにわたるパンおよびズームにも適用することが可能である。２枚以上の静止画像を処理する場合、プロセッサはフェードイン効果およびフェードアウト効果も使用することができる。

図６を参照すると、入力イベントおよび対応するビデオフレーム出力のタイミングシーケンスの一例を示す線図が示されている。コンピュータ３０に内蔵し得るプロセッサ等、プロセッサ１０４は、ユーザ入力を受け取るように動作可能な入力装置１０２に通信可能に接続される。プロセッサ１０４はまた、任意のソースからデジタル画像１００を受け取る。入力装置１０２は、画像の領域（Ａ、Ｂ、Ｃ）を指定するユーザ入力を受け取り、この入力をプロセッサ１０４にリアルタイムで伝達するように構成される。この図に示す例では、３つのユーザ入力（Ａ、Ｂ、Ｃ）の発生が示されている。プロセッサはこの入力をリアルタイムで受け取るため、ユーザ入力発生間の時間的関係を容易に決定することができる。図中、ユーザが画像の第１の領域を指定したとき（Ａ）と第２の領域を指定したとき（Ｂ）の間の時間間隔はｔ１で示され、第２の領域を指定したとき（Ｂ）と第３の領域を指定したとき（Ｃ）の間の時間間隔はｔ２で示される。

プロセッサ１０４は、ユーザ入力を処理して、ユーザによって指定された静止画像の３つの領域（Ａ、Ｂ、Ｃ）に対応する一連のキービデオフレーム（Ａ１、Ｂ１、Ｃ１）を導き出す。たとえば、フレームＡ１は、領域Ａがビデオフレームの大半の部分を占めるように構成される。これらビデオフレーム（Ａ１、Ｂ１、Ｃ１）を表すデータがプロセッサ１０４から出力される。出力されたビデオにおいて、３つの入力領域（Ａ、Ｂ、およびＣ）間の時間的関係は、出力されたビデオフレーム（Ａ１、Ｂ１、およびＣ１）間で実質的に保持される。

ユーザが静止画像中の領域を指定することに応答して、ビデオモーションを表す様々なフォーマットの出力データを生成することができる。出力データは、静止画像周囲のユーザ指定と略同時にビデオに変換することができる。そこからビデオを生成し、ユーザの指定と略同時にリアルタイムで表示することができる。これは、スチル画像についてのユーザの考察を伴った本質的にリアルタイム仮想ロストラムカメラ効果を提供する。代替として、後でビデオを生成するためにビデオ出力を保存することもできる。

ビデオは単一の静止デジタル画像および一連のレンダリング命令から生成することができるため、使用されるデータは、多くの別個のビデオフレームからなる対応のデジタルビデオが作成される場合に使用されるよりも実質的に少ない。したがって、ビデオのメモリ要件、記憶容量要件、およびデータ伝送要件をすべて低減することができる。

出力データは、多くのコンピュータでカスタムソフトウェアを使用せずにビデオを再生できるように、ストリーミングビデオデータファイル、たとえば、オーディオビデオインタリーブ（ＡＶＩ）、「．ｗｍｖ」、または「．ｍｐｇ」ファイル（これらに限定されない）であることができる。ファイルは、オーディオ（たとえば、静止画像の特徴について制作者によって与えられたナレーション）も含むことができる。

代替として、ファイルサイズを低減するために、出力データは、おそらく別個の画像ファイルおよび制御ファイルとして、静止デジタル画像、およびユーザの指定に対応する一連のビデオレンダリング命令を含むことができる。命令は本質的に、ビデオフレーム毎に、静止画像に対するフレームの位置、およびビデオフレームにおいて再生すべき画像の範囲（すなわち、事実上、静止画像に対するフレームのサイズ）を含む。オーディオデータも画像データに付随し得る。ビデオレンダリング命令セットおよび／または静止画像に、その後編集できるように、ストリーミングビデオデータファイルを付随させることもできる。

出力ビデオデータは、特集された画像領域に対応するセクションに構成してもよい。

観客に有利なように変更されたビデオ再生技法を使用してもよい。これは、静止画像の特徴について言葉で考察し、関心領域を指定することによって、プレゼンテーションに先立ってビデオデータを生成すること、および画像のビデオツアーを生成することを含む。言葉でのナレーションもまた、ビデオデータとともに記録・格納される。プレゼンテーションを行うとき、ビデオは観客に示されるが、ナレーションは話者によってライブで提供される。記録されたオーディオは、たとえばイヤホンまたはヘッドフォンを介して話者に別個に再生して、話者に対するプロンプトまたはテンプレートとして機能させてもよい。プレゼンテーション中、ビデオ再生システムは、スピーチ認識を使用して話者が話した言葉をモニタすることができ、ビデオの内容をそれに従って変更することができる。たとえば、話者が考察からある画像の特徴を省いた場合、ビデオもその特徴にズームインしない。

ユーザに、画像中の関心領域を直接指し示している間に画像について話させることによって、画像のビデオツアーを半自動的に生成することができる。これは、いくつかの以下の利点を有する、仮想ロストラムカメラ動作に関する画像の特定の関心領域を指定する自然で直観的な方法である。
（ａ）自動的に抽出可能な関心領域よりもより心理的に有効な関心領域を提供する。
（ｂ）一連の場所を訪れる順序についてのシーケンス情報を提供する。
（ｃ）位置間での仮想ロストラムカメラの移動ペースの調整に使用することができる連続したタイミング情報を提供する。
（ｄ）ビデオを使用してのプレゼンテーションのために、画像についてのユーザの解釈およびコメントを取り込むことができる。
（ｅ）各カメラ移動に理由付けを与える。すなわち、話していることに視聴者の注意を向けるとともに、その明確さを高める。

静止デジタル画像からのオーディオフォトの生成
代替の実施形態では、図３のシステム２５は、静止デジタル画像からオーディオフォトを生成するように構成してもよい。仮想ロストラムカメラを、静止デジタル画像のユーザ選択領域にパンまたはズームする代わりに、静止デジタル画像をユーザ指定領域に向けてクロッピングすることができ、オーディオ（たとえば、その領域に関する説明スピーチ）を記録・格納して、クロッピングされた画像に付随させることができる。ユーザが関心領域を指定することのできる方法の例については上に述べた。

オーディオが付随するクロッピング済みの画像はオーディオフォトと呼ばれる。多くの人々がその生涯の中でデジタル写真について語る傾向が高い場合、この機能は、オリジナル画像の各種領域から切り取られ、それぞれにオーディオが付随するオーディオフォトのアルバムを生成する有効な方法を提供する。単一の画像からのオーディオフォトアルバムは本質的に、その写真の歴史を表し、ある時間期間にわたる写真に対するユーザの対話およびコメントの記録を提供する。

オーディオフォトは様々な方法で所与のデジタル画像から生成することができ、その例は以下である。
１．オリジナル画像から、クロッピング済みのデジタル写真を別個の画像ファイルとして生成することができ、付随するオーディオをクロッピング済み画像のデータファイルの一部として格納することができる。したがって、オーディオフォトは自己完結型である。
２．オリジナル画像から、クロッピング済みデジタル写真を別個の画像ファイルとして生成することができ、付随するオーディオを、クロッピング済み画像に関連するが別個のデータファイルに格納することができる。
３．クロッピング済みデジタル写真をオリジナル画像ファイルの特定の領域として指定する（すなわち、オリジナル内のクロッピング済み画像の位置および範囲を指定する）ことができ、付随するオーディオをオリジナル画像のデータファイルの一部として格納することができる。
４．クロッピング済みデジタル写真をオリジナル画像ファイルの特定の領域として指定する（すなわち、オリジナル内のクロッピング済み画像の位置および範囲を指定する）ことができ、付随するオーディオを、オリジナル画像に関連するが別個のデータファイルに格納することができる。

上記第３および第４のオプションは、クロッピング済み画像の内容を形成すべきオリジナル画像の領域（ユーザによって示される）を指定する一連の命令が付随する単一の画像ファイルを使用して、クロッピング済み画像のアルバム全体を有利に生成できるようにする。したがって、一連のクロッピング済み画像（オーディオを含まない）の生成に使用される全データ量（したがって、対応する必要なメモリおよび格納量）は、オリジナル画像の場合よりも実質的に多くならない。たとえば、２０枚のクロッピング済み画像のアルバムを単一の画像および２０個のクロッピング命令から容易に生成することができる。各クロッピング済み画像に対応するオーディオデータは、各クロッピング命令とともに、または関連するが別個のデータファイルに格納することができる。

ユーザが楕円中の３つの領域を指定した静止デジタル画像の一例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。図１の静止デジタル画像から導出されたビデオフレームの例を示す図である。静止デジタル画像から動画ビデオおよび／またはオーディオフォトを構成するシステムの一実施形態を示す図である。図１の静止デジタル画像の一部および単一点からビデオフレーム領域を選択する動作の一例を示す図である。ユーザが描いた楕円形の一例および楕円形内で導出される、対応する矩形ビデオフレームの一例を示す図である。ユーザが描いた楕円形の別の例、および楕円形を包含するように導出された、対応する矩形ビデオフレームの一例を示す図である。一連のユーザ入力イベントおよび対応するビデオフレーム出力の一例を示す図である。

符号の説明

１００：デジタル画像
１０２：入力装置
１０４：プロセッサ

Claims

静止デジタル画像からビデオデータを生成する方法であって、
前記静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取るステップと、
前記ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定するステップと、
前記一連のビデオフレームを表す出力データを生成するステップと、
を含み、
前記ビデオフレームの順序および構成は、
前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
前記一連のビデオフレームが、前記ユーザが前記領域を指定した順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と実質的にペースを合わせて、前記ユーザによって指定された前記領域を表示する、
ように決定される方法。
前記出力データが、前記静止画像に対するビデオフレームの位置を指定する一連の命令を含む、請求項１記載の方法。
前記一連の命令を前記静止デジタル画像に適用して、ビデオデータを生成するステップをさらに含む、請求項２記載の方法。
前記出力データが、ビデオデータのストリームを含む、請求項１記載の方法。
前記ビデオデータが、リアルタイムで生成される、請求項４記載の方法。
前記ビデオを前記ユーザ入力の受け取りと実質的にリアルタイムで表示するステップをさらに含む、請求項５記載の方法。
前記ユーザから入力を受け取るステップが、前記静止画像を表示するステップと、該画像に対する前記ユーザの手の動きを表すデータを受け取るステップと、をさらに含む、請求項１記載の方法。
前記ユーザから入力を受け取るステップが、前記静止画像をビジュアルディスプレイに表示するステップと、該画像に可動カーソルを重ねるステップと、をさらに含み、該カーソルは、前記ユーザの手の動きを表すデータを生成するように動作可能なカーソル制御装置により制御可能である、請求項７記載の方法。
前記カーソル制御装置上で起動信号を受け取ることにより、前記カーソルによって指し示された前記領域が指定される、請求項８記載の方法。
前記静止画像を表示するステップが、該画像をプリントするステップと、上にあるポインティングデバイスの動きを検出し、前記ユーザの手の動きを表すデータを生成するように動作可能なデジタイジングタブレット上に前記プリントされた静止画像を配置するステップと、をさらに含む、請求項７記載の方法。
前記静止画像を表示するステップが、上にあるポインティングデバイスの動きを検出し、前記ユーザの手の動きを表すデータを生成するように動作可能なタッチセンシティブデバイス上に前記静止画像を表示するステップをさらに含む、請求項７記載の方法。
前記データを受け取るステップが、前記画像に向けられたカメラを使用するステップをさらに含み、前記カメラは、前記画像に対する前記ユーザの手の動きを検出し、該ユーザの手の動きを表すデータを生成するように動作可能な移動処理手段を有する、請求項７記載の方法。
領域が、ユーザがその領域内のポイントを指し示すことによって指定される、請求項７記載の方法。
前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記指定されたポイント周囲の視覚的特徴解析を実行して、前記ビデオフレームに包含すべき関心のある前記領域の範囲を決定する処理手段によって決定される、請求項１３記載の方法。
領域が、ユーザがその領域の周りの形状をトレースすることによって指定される、請求項７記載の方法。
前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記トレースされた形状内にビデオフレームをプロットし、可能な限り多くの前記トレースされた形状を包含するように前記静止画像に対する前記ビデオフレームのサイズを最適化する処理手段によって決定される、請求項１５記載の方法。
前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記トレースされた形状外にビデオフレームをプロットして、実質的に全ての前記トレースされた形状を包含するようにする処理手段によって決定される、請求項１５記載の方法。
前記ユーザから入力を受け取る前記プロセスが、マイクロフォンを使用して前記静止画像の主旨についての前記ユーザからのスピーチを受け取るステップと、スピーチ処理手段を使用して前記スピーチの内容を解析するステップと、画像処理手段を使用して前記スピーチの内容に関連する前記静止画像中の前記領域を見つけて、前記指定された領域を表すデータを生成するステップと、を含む、請求項１記載の方法。
ビデオプレゼンテーションを行う際に使用され、観客に表示される前記一連のビデオフレームが、前記ビデオプレゼンテーション中のナレーターによる前記スピーチの内容に関連する領域に対応してリアルタイムで決定される、請求項１８記載の方法。
前記一連のビデオフレームが、前記ユーザによって指定された前記領域の間にパンおよびズームの効果を与えるように決定される、請求項１記載の方法。
前記一連のビデオフレームが、前記ユーザによって指定された前記領域に対応するキービデオフレームと、前記ユーザによって指定された領域の間の領域に対応する中間ビデオフレームと、を含む、請求項２０記載の方法。
前記ユーザ入力の受け取りと同時にオーディオナレーションを記録するステップをさらに含む、請求項１記載の方法。
前記出力データが、オーディオナレーションをさらに含む、請求項２２記載の方法。
後のオーディオビジュアル再生のために前記出力データを保存するステップをさらに含む、請求項２３記載の方法。
前記一連のビデオフレームを表示するステップと、前記オーディオナレーションを再生するステップと、をさらに含む、請求項２４記載の方法。
ビデオプレゼンテーションを行う際に使用され、前記一連のビデオフレームが観客に表示され、前記オーディオナレーションがイヤホンを介してナレーターに対して再生されて、前記ナレーターによる言葉でのライブのナレーションのプロンプトとして機能する、請求項２５記載の方法。
前記静止画像を表示するステップと、該静止画像の領域を選択するユーザからの入力を受け取るステップと、その領域に対応する前記オーディオナレーションを再生するステップと、をさらに含む、請求項２４記載の方法。
前記選択された領域に対応する前記ビデオを再生するステップをさらに含む、請求項２７記載の方法。
前記ユーザから入力を受け取るステップが、ユーザからナレーション入力を受け取るステップを含む、請求項１記載の方法。
請求項１記載の方法を実施するコンピュータプログラム。
請求項１記載の方法を実施する、データキャリアに格納されたコンピュータプログラム。
請求項１記載の方法を実行するようにプログラムされた処理手段。
静止デジタル画像からビデオデータを生成するコンピュータプログラムであって、該コンピュータプログラムは、
プロセッサに、前記静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取らせるステップと、
前記ユーザ入力を処理して、一連のビデオフレームそれぞれの前記視覚的内容を決定するステップと、
前記一連のビデオフレームを表す出力データを生成するステップと、
を実行することによって、請求項１記載の方法を実行するように前記プロセッサを制御し、
前記ビデオフレームの順序および構成は、
前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
前記一連のビデオフレームが、前記ユーザが前記領域を指定する順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と時間的に実質的に対応して、前記ユーザによって指定された前記領域を表示する、
ように決定される、コンピュータプログラム。
静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る手段と、
前記ユーザ入力に応じて一連のビデオフレームの各々の視覚的内容を決定し、かつユーザにより指定された領域の間の時間的な関係を捕捉する手段と、
前記一連のビデオフレームを表す出力データを生成する手段と、
を含み、
前記ビデオフレームの順序および構成は、
前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
前記一連のビデオフレームが、前記ユーザが前記領域を指定する順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と時間的に実質的に対応して、前記ユーザによって指定された前記領域を表示する、
ように決定される、ビデオ処理デバイス。
オーディオが付随するデジタル画像を作成する方法であって、
第１のデジタル画像中の領域を指定する入力をユーザから受け取るステップと、
前記ユーザからオーディオを受け取るステップと、
前記第１の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第１の画像から前記指定領域を含む第２の画像を作成するステップと、
前記オーディオを前記第２の画像に関連付けるステップと、
を含む方法。
前記第２の画像および前記付随するオーディオを同じデータファイルに格納するステップをさらに含む、請求項３５記載の方法。
前記第２の画像および前記付随するオーディオを、別個であるが関連したデータファイルに格納するステップをさらに含む、請求項３５記載の方法。
前記第１の画像内の前記第２の画像の位置および範囲を指定するクロッピング命令セットを格納することによって前記第２の画像を指定するステップをさらに含む、請求項３５記載の方法。
前記オーディオを前記第１の画像の前記データファイルの一部として格納するステップをさらに含む、請求項３８記載の方法。
前記オーディオを前記第１の画像の前記データファイルと別個であるが関連したデータファイルに格納するステップをさらに含む、請求項３８記載の方法。
請求項３５記載の方法を実施するコンピュータプログラム。
請求項３５記載の方法を実施する、データキャリアに格納されたコンピュータプログラム。
請求項３５記載の方法を実行するようにプログラムされた処理手段。
第１のデジタル画像中の領域を指定する入力をユーザから受け取るステップと、
前記ユーザからオーディオを受け取るステップと、
前記第１の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第１の画像から前記指定領域を含む第２の画像を作成するステップと、
前記オーディオを前記第２の画像に関連付けるステップと、
を含む方法をプロセッサが実行するように制御することによって、オーディオが付随するデジタル画像を作成するよう動作可能なコンピュータプログラム。
第１のデジタル画像中の領域を指定する入力をユーザから受け取る手段と、
前記ユーザからオーディオを受け取る手段と、
前記第１の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第１の画像から前記指定領域を含む第２の画像を作成し、かつ前記オーディオを前記第２の画像に関連付ける手段と、
を含む、画像処理デバイス。