JP2005038399A - 静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム - Google Patents

静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム Download PDF

Info

Publication number
JP2005038399A
JP2005038399A JP2004135676A JP2004135676A JP2005038399A JP 2005038399 A JP2005038399 A JP 2005038399A JP 2004135676 A JP2004135676 A JP 2004135676A JP 2004135676 A JP2004135676 A JP 2004135676A JP 2005038399 A JP2005038399 A JP 2005038399A
Authority
JP
Japan
Prior art keywords
user
image
video
region
still
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004135676A
Other languages
English (en)
Inventor
David Mark Frohlich
デイヴィッド・マーク・フローリック
David Arthur Grosvenor
デイヴィッド・アーサー・グロヴナー
Glenn Peter Hall
グレン・ピーター・ホール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2005038399A publication Critical patent/JP2005038399A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking
    • H04N1/3873Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming
    • H04N1/3875Repositioning or masking defined only by a limited number of coordinate points or parameters, e.g. corners, centre; for trimming combined with enlarging or reducing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

【課題】静止デジタル画像からビデオデータおよび/またはオーディオフォトを生成するシステムおよび方法を提供する。
【解決手段】本方法は、静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取ることを含む。本法はまた、ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定すること、および一連のビデオフレームを表す出力データを生成することを含む。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。
【選択図】図6

Description

本願は、包括的に静止デジタル画像の処理に関し、特に、静止デジタル画像からのビデオ動画および/またはオーディオフォトの生成に関するものである。
静止デジタル画像は、たとえば、デジタルカメラまたはスキャナを使用して容易に得ることができる。他の静止画像はコンピュータ生成された画像であったり、または既存の画像データベースからダウンロードされた画像であったりする。静止デジタル画像は、コンピュータモニタ、デジタルプロジェクタ等のデジタル表示装置を使用して表示することが可能であり、通常、個々に、あるいはコンピュータ化された「スライドショー」プレゼンテーション(たとえば、Microsoft(商標)のPowerPoint(商標)を使用して)の一部として表示される。
しかしながら、静止画像を使用する場合、視聴者の関心および注意を非常に限られた時間期間しか保持することができないことが多い。動画ビデオは多くの場合、視聴者の注意を引きつけておく際により効果的であると考えられている。
従来の(すなわち、非デジタルの)静止画像の場合、テレビおよびフィルム業界は、写真または絵画等の静止画像から動画ビデオを生成し、それによって視聴者の画像に対する関心を高めることができるロストラムカメラ(rostrum camera:演壇カメラ)技法を開発した。ロストラムカメラ技法は定着しており、通常、静止画像に対してカメラを動かしてパン効果を与え、カメラを関心のある特徴にズームインし、そしてより広い視野を見せるためにズームアウトすることを含む。
仮想ロストラムカメラ技法を使用して静止デジタル画像から動画ビデオを生成することも可能である。こういった技法では、視聴者を画像中の関心のある領域を巡るバーチャルツアーに連れ出すことができる。WO00/08853にはこのような技法の一例が記載されており、ここでは、ユーザが手動で画像にわたってキーフレームの位置を指定し、次にコンピュータが、キーフレーム間を固定レートでパンする経路を自動的に生成する。代替として、ユーザは制御されたレートでキーフレーム間をパンする経路を手動で生成することも可能である。
静止デジタル画像からビデオを生成する技法に関連する一例がWO97/31482に挙げられている。ここでは、球面画像ファイルのユーザが画像にわたるパンの移動を指定して画像のデフォルトビデオツアーを生成することができるか、または画面上の制御アイコンを使用してツアーに割り込んでユーザ自身の画角を指定してツアーを続けることができる。
静止デジタル画像にわたる仮想ロストラムカメラのパンは、GB2372658Aに記載のようにコンピュータによって自動化することができる。ここでは、画像処理システムが採用されて、画像中の視覚的関心領域(たとえば、人々の顔)を見つけ、それら領域間での自動ロストラムカメラ移動を生成する。この画像処理システムは、視覚的特徴が所定のルールを満たす場合、視覚的関心があるものとしてその領域を指定する。このように抽出された関心領域は次に、画像のビデオツアーにおけるルートの行先になり、これは、パンおよびズームの流れを支配する美観ルール、領域上で一時停止する予め設定された時間、および画像セットが使用される場合、各画像をカバーする予め設定された時間によってさらに制約を受ける。
手動の方法も、また自動の方法もユーザの観点から完全に満足のいくものではない。パンおよびズーム操作を指定する手動の方法は時間がかかり、最も恩恵をうけ得る消費者用途には複雑すぎる傾向がある。一方、自動的な方法は、所定のルールを満たす画像中の視覚的関心領域を見つけるにすぎず、これらは、画像についての物語中で注目すべきである特徴等、心理的な関心領域に対応しない場合がある。
したがって、直観的に使え、使用しやすく、ビデオの内容を、画像についての物語を言葉で話しているか、またはその中の特徴を説明する誰かが指摘するような特徴に対応させることができる、静止画像からビデオを生成する方法が必要である。
本願の第1の態様によれば、静止デジタル画像からビデオデータを生成する方法が提供される。本方法は、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取ることを含む。本法はまた、ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定すること、および一連のビデオフレームを表す出力データを生成することを含む。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。
本願の他の態様によれば、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る手段を有するビデオ処理デバイスが提供される。該ビデオ処理デバイスは、ユーザ入力に応じて各一連のビデオフレームの視覚的内容を決定する、ユーザにより指定された領域の間の時間的な関係を捕捉する手段を有する。該ビデオ処理デバイスはさらに、一連のビデオフレームを表す出力データを生成する手段を有する。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、上記領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成される。また、一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。
本願の他の態様によれば、オーディオが付随するデジタル画像を作成する方法が提供される。本方法は、第1のデジタル画像中の領域を指定する入力をユーザから受け取ることと、ユーザからオーディオを受け取ることと、第1の画像をユーザによって指定された領域にクロッピングし、それにより、第1の画像から指定領域を含む第2の画像を作成することと、オーディオを第2の画像に関連付けることと、を含む。
本願の他の態様によれば、プロセッサが方法を実行するのを制御することによってオーディオが付随するデジタル画像を作成するよう動作可能なコンピュータプログラムが提供される。本方法は、第1のデジタル画像中の領域を指定する入力をユーザから受け取ることと、ユーザからオーディオを受け取ることと、を含む。本方法はまた、第1の画像をユーザによって指定された領域にクロッピングすることであって、それにより第1の画像から指定領域を含む第2の画像を作成する、クロッピングすることと、オーディオを第2の画像に関連付けることと、を含む。
本願のさらに他の態様によれば、第1のデジタル画像中の領域を指定する入力をユーザから受け取る手段と、ユーザからオーディオを受け取る手段と、を有する画像処理デバイスが提供される。画像処理デバイスはまた、第1の画像をユーザによって指定された領域にクロッピングし、それにより、第1の画像から指定領域を含む第2の画像を作成し、かつ、オーディオを第2の画像に関連付ける手段を含む。
これより本発明の実施形態について、例として、添付図面を参照しながら説明することにする。
本願は、単一の静止デジタル画像から動画ビデオおよび/またはオーディオフォトを生成する方法およびシステムを対象とする。
本願の第1の態様によれば、静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る、静止デジタル画像からビデオデータを生成する方法およびシステムが提供される。ユーザ入力を処理し、それにより一連のビデオフレームそれぞれの視覚的内容が決定され、一連のビデオフレームを表す出力データが生成される。ビデオフレームの順序および構成は、ビデオフレームの視覚的内容が静止デジタル画像からとられるようにして決定される。ユーザによって指定された静止画像の各領域について、領域がビデオフレームの大半の部分を占めるようにビデオフレームが構成される。一連のビデオフレームが、ユーザが領域を指定する順序に順次対応して、かつユーザが領域を指定した時間と実質的にペースを合わせて、ユーザによって指定された領域を表示する。
リアルタイムでユーザ入力を受け取ることにより、ユーザは有利に、画像について物語を話している、または画像中の特徴を話している間に、その静止画像の領域を指定することができる。したがって、画像(または画像セット)について話している人物の自然な振る舞いを使用して、その人物が指定している画像の特徴を巡るビデオツアーを導出することができる。関心領域は、画像について話しながらユーザが直観的に指定する(たとえば、指し示すことによって)ことができる。関心領域はユーザによって指定されるため、自動的な方法によって抽出される視覚的関心領域のみならず、あらゆる領域(特に心理的関心領域)をビデオに特集する(feature)ことができる。同様に、ビデオにおいて領域を訪れる順番、およびビデオにおいて各領域に一時停止する時間もまた、ユーザの自然な物語を語る振る舞いによって直観的に指定することができる。さらなる利点は、結果得られるビデオがユーザのナレーションのタイミングと同じペースで生成され、これによって(所望であれば)ユーザのナレーションをビデオに付随するサウンドトラックとして機能させることができることである。
ビデオの生成を静止画像中の関心のある特徴についてのナレーションと結び付けることで、相互の利点が提供される。視聴者または観客にとって画像を巡るビデオツアーへの関心は、画像についてのナレーション情報を組み込むことによって向上させることができ、ビデオツアーの視覚的内容は、画像の特徴について語ることによってより自然かつ容易に指定することができる。
本願の第2の態様によれば、静止デジタル画像からオーディオフォトを生成する方法およびシステムが提供され、該オーディオフォトは、デジタル画像の識別領域を有し、かつオーディオが付随する。デジタル画像中の第1の領域を指定するユーザからの入力が受け取られる。オーディオはまた、ユーザから受け取られる。デジタル画像はユーザによって指定された領域にクロッピングされ、それにより第1の画像から指定領域を含む第2の画像を作成する。次に、オーディオは第2の画像に関連付けられる。
本明細書において説明する本願の実施形態は、ソフトウェア、ハードウェア、またはこれらの組み合わせで実施することができる。コンピュータプログラムまたは他の実行可能論理命令の順序付きリストのようなソフトウェアにおいて実施される場合、ソフトウェアは、プロセッサまたはソフトウェア命令の実行に適した他の装置で実行することができる。プロセッサは、たとえば、パーソナルコンピュータまたは他のしかるべきデジタル演算装置の一部であってもよく、あるいはたとえばビデオまたは画像処理装置の一部であってもよい。さらに、本明細書において説明する実施形態は、プロセッサまたはプロセッサベースのシステムで可読なように適合されたフォーマットを有する媒体に格納されたコンピュータプログラムとして実施することも可能である。
静止デジタル画像からのビデオ生成
次に、静止デジタル画像からビデオを作成する実施形態について説明する。結果として得られるビデオは概して、映画またはテレビのドキュメンタリーにおいて、ナレーターが静止画像(たとえば、絵画)について説明し、カメラ撮影者がナレーションに合わせてロストラムカメラを画像の特定の部分に動かすときに使用されるものと同様のものである。しかしながら、本願の実施形態はテレビおよびフィルム業界において使用することが可能であるが、目下その意図は個人の写真と併せて使用する家庭内および個人的な使用に、より向けられており、人々は、写真について話すときに写真の部分を指し示すという自然な傾向を有することを利用している。
図1は、ここでは建造物14付近に立っている人物12を描写する写真として示される静止またはスチルデジタル画像10の一例を示す。静止デジタル画像は、たとえば、画像処理装置、たとえばパーソナルコンピュータ(PC)、携帯情報端末(PDA)、またはしかるべきデータ処理性能を有する他の装置(これらに限定されない)のビジュアルディスプレイユニットに表示することができる。
静止デジタル画像の領域は、異なるいくつかの可能な入力装置の1つを使用して、異なるいくつかの可能な技法の1つに従ってユーザの入力によって指定することができる。たとえば、カーソル15もビジュアルディスプレイユニットに表示して、ユーザがカーソル制御装置、たとえばマウスまたはトラックボール(これらに限定されない)を制御することによって画像の周辺を移動させることができる。代替として、タッチセンシティブディスプレイパネルを使用してもよく、または画像をプリントしたものをデジタイジングタブレット上に配置してもよい。ユーザから入力を受け取るこれらおよび他の可能な方法については以下に、より詳細に述べることにする。
静止画像10からビデオモーションを作成するために、ユーザは、カーソル制御装置を使用して領域16、18、および20等、一連の複数の領域を指定する。これら領域は、ユーザが画像の内容について言葉で説明している間にユーザによって指定することができる。この場合、領域はユーザがカーソル制御装置を使用してその領域の周囲に円または楕円を描くことによって示されるが、領域を指定する他の方法も可能であり、それらについても以下に述べることにする。
次に、プロセッサが、静止画像からの画像データを使用して、ユーザが指定した領域に対応する一連のビデオフレームを決定する。ビデオフレームは、ユーザが指定した領域毎に、選択された領域がビデオフレームの大半を占めるよう構成されるように決定される。プロセッサが静止画像全体に対するビデオフレームのサイズおよび位置を決定することのできる別の方法については以下に述べることにする。ビデオシーケンスの全体的な構造は、ユーザによって指定された領域がユーザによって指定されたのと同じ順序で特集され、連続して特集される領域間の時間期間は、ユーザがその領域を指定したタイミングパターンに対応するようなものである。言い換えれば、ビデオシーケンスは、ユーザが領域を指定した順序のリアルタイムでの再生を提供する。
生成されるビデオフレームの数は、求められるビデオモーションの品質によって決まる。計算的に単純な実施形態では、ビデオフレームはユーザによって指定された各領域に対応して生成され、各フレームは、ユーザがある領域を示してから次の領域を指定するまでの間隔に対応する必要な持続時間を考慮して維持される。視聴時、ビデオは、ユーザによって指定された領域の間がカットされた一連の変更された静止画像を含む。
より洗練された好ましい実施形態では、指定された領域の間に移動の印象を与えるに十分なビデオフレームが生成される。フレーム数が増大すると、ビデオモーションの流動性が向上する。指定された領域は、指定された領域に直接対応するビデオフレームと定義されるキービデオフレームの生成に使用される。指定された領域の間にビデオの動き(すなわち、パンおよび/またはズーム)の錯覚を与えるために、プロセッサは、キービデオフレームが指定された間の時間期間中にキービデオフレーム間を埋める中間フレームも生成する。中間フレームの視覚的内容は、キービデオフレームの位置間の静止画像から採用される。パン効果は、静止画像の異なる場所からの2つのキービデオフレーム間に中間フレームを生成することによって得られる。
指定された領域のサイズは様々であってよく、キービデオフレームはそれぞれの視覚的内容を適宜、静止画像のより大きな、またはより小さなエリアからとってもよい。ズーム効果は、静止画像の不等エリアをカバーするキービデオフレーム間に中間フレームを生成することによって生み出される。静止画像の解像度がビデオフレームよりも高い場合、画像のズームイン領域は画質を少しも損うことなく実現することができる。
図2A〜図2Fは、図1に示す静止画像から導出し得るビデオフレームのいくつかを示し、ビデオフレームは、ユーザによって指定された一連の領域16、18、および20に対応して決定されている。ビデオは、ユーザが最初に領域16を指定する前の時間期間に対応して、全体画像(図2A)の概観から始めることができる。次に、ユーザが領域16を指定した時点に対応して、図2Bのキービデオフレームが生成され、領域16に効果的にズームインする。図2Bに行き着く前にいくつかの中間ビデオフレームを生成して、この細部へのズームインに滑らかさを与えることができる。次に、図2Bのフレームが、ユーザが領域18を指定する時点の少し前まで、または最大でその時点まで維持される。この領域は図2Dのキーフレームを生成するために使用されるが、この領域に直接切り換えるのではなく、いくつかの中間フレームが生成されて(この中の1つを図2Cに示す)、図2Bから図2Dにパン効果を与える。これら中間フレームは、動画ビデオが、領域18が示される時点で、またはその時点より少し後で図2Dのキービデオフレームに行き着くように領域16と領域18を指し示すタイミング間に生成することができる。ユーザが領域20を指定したことに対応して図2Eに示すキーフレームが作成され、ここでも、いくつかの中間フレームを生成してシーン間にパン効果を与えることができる。考えられるビデオのエンディングを図2Fに示すが、これはもう1つの概観画像である。一連の中間フレームを生成して、図2Eのフレームからズームアウトすることができる。こうして、静止画像を巡るビデオツアーの作成が完了する。
図3に示すように、静止デジタル画像から動画ビデオを生成するシステム25の一実施形態を示す。システム25は、静止デジタル画像からビデオを生成する上記方法を実施することができる。システム25は、1つのユーザ入力装置、たとえば、マウス32、キーボード34、およびデジタイジングタブレット36(これらに限定されない)を少なくとも備えたマルチメディアコンピュータ30または他のしかるべき処理システムを備える。静止画像40は従来のモニタ38に表示することができ、カーソル15(図1)が、マウス32を使用して関心領域を指定するように操作される。デジタイジングタブレット36もまた直観的な入力技法を提供し、それによって静止画像37のプリントコピーがタブレットに配置され、スタイラス44または同等のポインティングデバイスを使用してユーザが領域を指定する。代替として、静止画像が電子的に表示され、たとえば、スタイラス、手、または指を使用してのユーザによる接触に応答するタッチスクリーン装置(図示せず)を使用してもよい。PDAまたはペンベースのタブレットコンピュータをこの目的で使用することも可能である。
使用にあたり、ユーザ入力装置は、ビデオに特集する静止画像中の関心領域を指定するように動作し、これは、画像の内容について言葉で説明している間に行うことができる。
画像の内容についてのユーザの言葉でのナレーションも、実質上デジタル画像に対する言葉での注釈として記録することが可能である。これを可能にするために、コンピュータ30にマイクロフォン42を装備することができる。マイクロフォン42は、コンピュータ30の画像処理装置と一体化されていてもよい。使用にあたり、ユーザは記録ボタン(たとえば、コンピュータキーボード上のキー)を押下して、デジタル画像のナレーションを記録する。画像の説明中、ユーザは、ユーザ入力装置を使用して、たとえば、マウスカーソルまたはタブレット上のスタイラスを使用して指し示すことによって、画像の領域を指定する。これら指定は、それぞれが行われた時間プロファイルともに処理されて、パン、ズーム、およびカットというビデオ効果が適宜行われたビデオが生成される。
本明細書において使用する「ナレーション入力」という語は、静止画像の特徴についてのナレーション(または静止画像の説明的考察)に付随するか、またはこれをサポートするユーザからのあらゆる検出可能な振る舞いを包含するものとして広義に解釈すべきである。ナレーション入力としては、検出・処理することができる任意の様式での話すこと、指し示すこと、および身振りが挙げられるがこれらに限定されない。
ビデオは、ユーザのポインティング指定とリアルタイムで生成してもよく、または代替として、ユーザの指定を記録して、その後ビデオを生成してもよい。ユーザは、入力装置を使用して故意に指定を行ってもよく、または代替として、センサおよび/または処理装置を使用してユーザのスピーチおよび/またはボディランゲージをピックアップし、この情報を解析して静止画像の領域の暗に示された指定を取得してもよい。
ユーザから関心領域を指定する入力を受け取る他の方法も可能である。こういった方法は、マイクロフォンを介してユーザのスピーチを受け取ることと、そのスピーチを処理して、キーワードまたはフレーズ(「人」、「家」等)を識別することと、次に、視覚的特徴認識アルゴリズムを使用して画像中の対応する特徴を見つけることと、を含む。別の代替は、画像(電子的に表示されたものであれ、またはプリントされたものであれ)に向けられたデジタルカメラを配置すること、および画像に対するユーザの身振りを取り込んで処理し、画像内の領域へのユーザ指定に対応するデータを作成することである。画像に対する手の動きを検出するようにデジタルカメラを実装する技法が、英国特許出願第0118434.0号および第0213531.7号に記載されている。こういった技法は、画像について発生した自然な会話から身振り情報、スピーチ情報、およびタイミング情報を取り込む際、2人の間での画像の考察に応答してビデオを生成する際に使用することができる。画像中の関心領域を指定するさらなる入力を提供するように、話者変更、手掛かり句(cue phrases)、間、および画像との対話がすべて取り込まれ得る。
ユーザの言葉でのナレーションが、ユーザの画像の特徴のポインティング指定とともに記録された場合、ナレーションをサウンドトラックとして、結果得られるビデオに組み込むことが可能である。
記録された言葉でのナレーションには、一連の領域特定音声注釈として静止画像に関連付けることも可能である。ユーザのポインティング指定は、ナレーションが行われている間に検出されるため、コンピュータ30に内蔵されているプロセッサ等のプロセッサは、たとえば、各ナレーションを静止画像の対応する領域に関連付けることができる。考えられる再生システムは、静止デジタル画像を表示し、ユーザが画像内の関心領域をクリックできるようにし、クリックによって音声注釈が再生されることを含むことができる。プロセッサは、その領域へのズームイン等、ビデオ効果を適用することが可能である。
マウス、スタイラス、または同等のポインティングデバイスを介して静止画像中の関心領域を指定するユーザ入力を受け取ると、コンピュータ30の画像処理手段は様々な技法を採用して、対応するキービデオフレームの視覚的内容を決定することができる。こういった可能性を図4、図5A、および図5Bに示す。図4は、表示装置(たとえば、モニタ38)に表示し得る静止画像の一部を示す。ここで、ユーザはカーソル15を使用して男性の顔をクリックしており、顔が関心領域であることを示している。対応するキービデオフレームに含めるべき、カーソルのポイント周囲の領域の範囲を決定するため、プロセッサまたは画像処理手段は、WO02/052835号に記載のものと同様のシーディング(seeding)および自動クロッピングアルゴリズムを採用する。シーディングプロセスは、カーソルのポイントによって示される位置から開始して、所定のルールに準拠した視覚的内容を有するフレーム(たとえば、54)が得られるまで、事実上、一連の同心フレーム(破線の矩形、たとえば52で示されるように)をプロットすることを含む。ルールは、たとえば、人物の頭部の視覚的特徴を特徴とすることができ、したがって、フレーム54は頭部すべてが包含されるように決定される。他のルールは、関心領域をカーソルによって指定された位置周辺の「コヒーレントカラフルブロッブ」または背景フレーミング画像であることを特徴とすることができる。
さらなる方法を図5Aおよび図5Bに示す。これら両方の場合において、ユーザが関心領域を指定することによって楕円(60、64)が静止画像にプロットされている。形状は楕円である必要はなく、円であってもよく、または別の規則的または不規則的な形状であってもよく、または単に関心領域周囲の大まかなフリーハンド指定であってもよい。プロットされた形状が静止画像に表示されることになるとは(これは、行うことはできるが)考えられず、代わりに、形状は単に、関心領域の大まかな範囲を指定するためにトレースされるにすぎない。図5Aに示すように、プロセッサまたは画像処理手段は、楕円60内にあるように(可能な限り多くの楕円内の静止画像を包含する)対応するビデオフレーム62の範囲を決定することができる。代替として、図5Bに示すように、ビデオフレーム66は、楕円64のすべて(または略すべて)を包含するように決定することができる。
任意のポインティングの動きにどのビデオの動きを適用するかを決定するために、システム25は様々なルールを使用することができる。たとえば、ある位置に単に触れること(またはカーソル位置でマウスをクリックし押し下げたままにすること)が、選択されたポイント周囲の領域への滑らかなズームイン操作に対応し得る。領域は、上に述べたように、円を描く動きによって指定することができる。ズームは、ポインティングの動きの後に続くことが多い、話中の中断に結び付けることができる。指を離す(またはマウスボタンを解放する)ことにより、画面の全体ビューにカットバックする、すなわち滑らかなズームアウトを行うことができる。代替として、ズームインは、指が離れた後も、次の位置へのパンを制御する第2のポインティングアクションが行われるまで保留することができる。これらルールの厳密な性質は、制御ソフトウェアにおけるユーザ選好において、または経験的な研究によって指定することができる。ユーザの指定は、事実上、システム25の身振り制御言語を含み、上に述べたように、結果得られるビデオの動きは、元のポインティングの動きのタイミングによって決まるペースでレンダリングされ、ビデオの動きを同時の言葉でのナレーションと同期させたままにすることができる。
プロセッサは、2枚以上の静止画像にわたって生成された仮想ロストラムカメラ効果およびビデオシーケンスを使用することもできる。これにより、たとえば、同じアルバムのページ上に互いに横に並んで置かれた複数の画像にわたって滑らかなパン効果またはズーム効果を実現することができる。この効果は、隣接するシーンの写真、たとえば、一連の静止画像で取り込まれた広大な山脈のパノラマビューにわたるパンおよびズームにも適用することが可能である。2枚以上の静止画像を処理する場合、プロセッサはフェードイン効果およびフェードアウト効果も使用することができる。
図6を参照すると、入力イベントおよび対応するビデオフレーム出力のタイミングシーケンスの一例を示す線図が示されている。コンピュータ30に内蔵し得るプロセッサ等、プロセッサ104は、ユーザ入力を受け取るように動作可能な入力装置102に通信可能に接続される。プロセッサ104はまた、任意のソースからデジタル画像100を受け取る。入力装置102は、画像の領域(A、B、C)を指定するユーザ入力を受け取り、この入力をプロセッサ104にリアルタイムで伝達するように構成される。この図に示す例では、3つのユーザ入力(A、B、C)の発生が示されている。プロセッサはこの入力をリアルタイムで受け取るため、ユーザ入力発生間の時間的関係を容易に決定することができる。図中、ユーザが画像の第1の領域を指定したとき(A)と第2の領域を指定したとき(B)の間の時間間隔はt1で示され、第2の領域を指定したとき(B)と第3の領域を指定したとき(C)の間の時間間隔はt2で示される。
プロセッサ104は、ユーザ入力を処理して、ユーザによって指定された静止画像の3つの領域(A、B、C)に対応する一連のキービデオフレーム(A1、B1、C1)を導き出す。たとえば、フレームA1は、領域Aがビデオフレームの大半の部分を占めるように構成される。これらビデオフレーム(A1、B1、C1)を表すデータがプロセッサ104から出力される。出力されたビデオにおいて、3つの入力領域(A、B、およびC)間の時間的関係は、出力されたビデオフレーム(A1、B1、およびC1)間で実質的に保持される。
ユーザが静止画像中の領域を指定することに応答して、ビデオモーションを表す様々なフォーマットの出力データを生成することができる。出力データは、静止画像周囲のユーザ指定と略同時にビデオに変換することができる。そこからビデオを生成し、ユーザの指定と略同時にリアルタイムで表示することができる。これは、スチル画像についてのユーザの考察を伴った本質的にリアルタイム仮想ロストラムカメラ効果を提供する。代替として、後でビデオを生成するためにビデオ出力を保存することもできる。
ビデオは単一の静止デジタル画像および一連のレンダリング命令から生成することができるため、使用されるデータは、多くの別個のビデオフレームからなる対応のデジタルビデオが作成される場合に使用されるよりも実質的に少ない。したがって、ビデオのメモリ要件、記憶容量要件、およびデータ伝送要件をすべて低減することができる。
出力データは、多くのコンピュータでカスタムソフトウェアを使用せずにビデオを再生できるように、ストリーミングビデオデータファイル、たとえば、オーディオビデオインタリーブ(AVI)、「.wmv」、または「.mpg」ファイル(これらに限定されない)であることができる。ファイルは、オーディオ(たとえば、静止画像の特徴について制作者によって与えられたナレーション)も含むことができる。
代替として、ファイルサイズを低減するために、出力データは、おそらく別個の画像ファイルおよび制御ファイルとして、静止デジタル画像、およびユーザの指定に対応する一連のビデオレンダリング命令を含むことができる。命令は本質的に、ビデオフレーム毎に、静止画像に対するフレームの位置、およびビデオフレームにおいて再生すべき画像の範囲(すなわち、事実上、静止画像に対するフレームのサイズ)を含む。オーディオデータも画像データに付随し得る。ビデオレンダリング命令セットおよび/または静止画像に、その後編集できるように、ストリーミングビデオデータファイルを付随させることもできる。
出力ビデオデータは、特集された画像領域に対応するセクションに構成してもよい。
観客に有利なように変更されたビデオ再生技法を使用してもよい。これは、静止画像の特徴について言葉で考察し、関心領域を指定することによって、プレゼンテーションに先立ってビデオデータを生成すること、および画像のビデオツアーを生成することを含む。言葉でのナレーションもまた、ビデオデータとともに記録・格納される。プレゼンテーションを行うとき、ビデオは観客に示されるが、ナレーションは話者によってライブで提供される。記録されたオーディオは、たとえばイヤホンまたはヘッドフォンを介して話者に別個に再生して、話者に対するプロンプトまたはテンプレートとして機能させてもよい。プレゼンテーション中、ビデオ再生システムは、スピーチ認識を使用して話者が話した言葉をモニタすることができ、ビデオの内容をそれに従って変更することができる。たとえば、話者が考察からある画像の特徴を省いた場合、ビデオもその特徴にズームインしない。
ユーザに、画像中の関心領域を直接指し示している間に画像について話させることによって、画像のビデオツアーを半自動的に生成することができる。これは、いくつかの以下の利点を有する、仮想ロストラムカメラ動作に関する画像の特定の関心領域を指定する自然で直観的な方法である。
(a)自動的に抽出可能な関心領域よりもより心理的に有効な関心領域を提供する。
(b)一連の場所を訪れる順序についてのシーケンス情報を提供する。
(c)位置間での仮想ロストラムカメラの移動ペースの調整に使用することができる連続したタイミング情報を提供する。
(d)ビデオを使用してのプレゼンテーションのために、画像についてのユーザの解釈およびコメントを取り込むことができる。
(e)各カメラ移動に理由付けを与える。すなわち、話していることに視聴者の注意を向けるとともに、その明確さを高める。
静止デジタル画像からのオーディオフォトの生成
代替の実施形態では、図3のシステム25は、静止デジタル画像からオーディオフォトを生成するように構成してもよい。仮想ロストラムカメラを、静止デジタル画像のユーザ選択領域にパンまたはズームする代わりに、静止デジタル画像をユーザ指定領域に向けてクロッピングすることができ、オーディオ(たとえば、その領域に関する説明スピーチ)を記録・格納して、クロッピングされた画像に付随させることができる。ユーザが関心領域を指定することのできる方法の例については上に述べた。
オーディオが付随するクロッピング済みの画像はオーディオフォトと呼ばれる。多くの人々がその生涯の中でデジタル写真について語る傾向が高い場合、この機能は、オリジナル画像の各種領域から切り取られ、それぞれにオーディオが付随するオーディオフォトのアルバムを生成する有効な方法を提供する。単一の画像からのオーディオフォトアルバムは本質的に、その写真の歴史を表し、ある時間期間にわたる写真に対するユーザの対話およびコメントの記録を提供する。
オーディオフォトは様々な方法で所与のデジタル画像から生成することができ、その例は以下である。
1.オリジナル画像から、クロッピング済みのデジタル写真を別個の画像ファイルとして生成することができ、付随するオーディオをクロッピング済み画像のデータファイルの一部として格納することができる。したがって、オーディオフォトは自己完結型である。
2.オリジナル画像から、クロッピング済みデジタル写真を別個の画像ファイルとして生成することができ、付随するオーディオを、クロッピング済み画像に関連するが別個のデータファイルに格納することができる。
3.クロッピング済みデジタル写真をオリジナル画像ファイルの特定の領域として指定する(すなわち、オリジナル内のクロッピング済み画像の位置および範囲を指定する)ことができ、付随するオーディオをオリジナル画像のデータファイルの一部として格納することができる。
4.クロッピング済みデジタル写真をオリジナル画像ファイルの特定の領域として指定する(すなわち、オリジナル内のクロッピング済み画像の位置および範囲を指定する)ことができ、付随するオーディオを、オリジナル画像に関連するが別個のデータファイルに格納することができる。
上記第3および第4のオプションは、クロッピング済み画像の内容を形成すべきオリジナル画像の領域(ユーザによって示される)を指定する一連の命令が付随する単一の画像ファイルを使用して、クロッピング済み画像のアルバム全体を有利に生成できるようにする。したがって、一連のクロッピング済み画像(オーディオを含まない)の生成に使用される全データ量(したがって、対応する必要なメモリおよび格納量)は、オリジナル画像の場合よりも実質的に多くならない。たとえば、20枚のクロッピング済み画像のアルバムを単一の画像および20個のクロッピング命令から容易に生成することができる。各クロッピング済み画像に対応するオーディオデータは、各クロッピング命令とともに、または関連するが別個のデータファイルに格納することができる。
ユーザが楕円中の3つの領域を指定した静止デジタル画像の一例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 図1の静止デジタル画像から導出されたビデオフレームの例を示す図である。 静止デジタル画像から動画ビデオおよび/またはオーディオフォトを構成するシステムの一実施形態を示す図である。 図1の静止デジタル画像の一部および単一点からビデオフレーム領域を選択する動作の一例を示す図である。 ユーザが描いた楕円形の一例および楕円形内で導出される、対応する矩形ビデオフレームの一例を示す図である。 ユーザが描いた楕円形の別の例、および楕円形を包含するように導出された、対応する矩形ビデオフレームの一例を示す図である。 一連のユーザ入力イベントおよび対応するビデオフレーム出力の一例を示す図である。
符号の説明
100:デジタル画像
102:入力装置
104:プロセッサ

Claims (45)

  1. 静止デジタル画像からビデオデータを生成する方法であって、
    前記静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取るステップと、
    前記ユーザ入力を処理して、一連のビデオフレームそれぞれの視覚的内容を決定するステップと、
    前記一連のビデオフレームを表す出力データを生成するステップと、
    を含み、
    前記ビデオフレームの順序および構成は、
    前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
    前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
    前記一連のビデオフレームが、前記ユーザが前記領域を指定した順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と実質的にペースを合わせて、前記ユーザによって指定された前記領域を表示する、
    ように決定される方法。
  2. 前記出力データが、前記静止画像に対するビデオフレームの位置を指定する一連の命令を含む、請求項1記載の方法。
  3. 前記一連の命令を前記静止デジタル画像に適用して、ビデオデータを生成するステップをさらに含む、請求項2記載の方法。
  4. 前記出力データが、ビデオデータのストリームを含む、請求項1記載の方法。
  5. 前記ビデオデータが、リアルタイムで生成される、請求項4記載の方法。
  6. 前記ビデオを前記ユーザ入力の受け取りと実質的にリアルタイムで表示するステップをさらに含む、請求項5記載の方法。
  7. 前記ユーザから入力を受け取るステップが、前記静止画像を表示するステップと、該画像に対する前記ユーザの手の動きを表すデータを受け取るステップと、をさらに含む、請求項1記載の方法。
  8. 前記ユーザから入力を受け取るステップが、前記静止画像をビジュアルディスプレイに表示するステップと、該画像に可動カーソルを重ねるステップと、をさらに含み、該カーソルは、前記ユーザの手の動きを表すデータを生成するように動作可能なカーソル制御装置により制御可能である、請求項7記載の方法。
  9. 前記カーソル制御装置上で起動信号を受け取ることにより、前記カーソルによって指し示された前記領域が指定される、請求項8記載の方法。
  10. 前記静止画像を表示するステップが、該画像をプリントするステップと、上にあるポインティングデバイスの動きを検出し、前記ユーザの手の動きを表すデータを生成するように動作可能なデジタイジングタブレット上に前記プリントされた静止画像を配置するステップと、をさらに含む、請求項7記載の方法。
  11. 前記静止画像を表示するステップが、上にあるポインティングデバイスの動きを検出し、前記ユーザの手の動きを表すデータを生成するように動作可能なタッチセンシティブデバイス上に前記静止画像を表示するステップをさらに含む、請求項7記載の方法。
  12. 前記データを受け取るステップが、前記画像に向けられたカメラを使用するステップをさらに含み、前記カメラは、前記画像に対する前記ユーザの手の動きを検出し、該ユーザの手の動きを表すデータを生成するように動作可能な移動処理手段を有する、請求項7記載の方法。
  13. 領域が、ユーザがその領域内のポイントを指し示すことによって指定される、請求項7記載の方法。
  14. 前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記指定されたポイント周囲の視覚的特徴解析を実行して、前記ビデオフレームに包含すべき関心のある前記領域の範囲を決定する処理手段によって決定される、請求項13記載の方法。
  15. 領域が、ユーザがその領域の周りの形状をトレースすることによって指定される、請求項7記載の方法。
  16. 前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記トレースされた形状内にビデオフレームをプロットし、可能な限り多くの前記トレースされた形状を包含するように前記静止画像に対する前記ビデオフレームのサイズを最適化する処理手段によって決定される、請求項15記載の方法。
  17. 前記指定された領域に対応するビデオフレームの前記視覚的内容が、前記トレースされた形状外にビデオフレームをプロットして、実質的に全ての前記トレースされた形状を包含するようにする処理手段によって決定される、請求項15記載の方法。
  18. 前記ユーザから入力を受け取る前記プロセスが、マイクロフォンを使用して前記静止画像の主旨についての前記ユーザからのスピーチを受け取るステップと、スピーチ処理手段を使用して前記スピーチの内容を解析するステップと、画像処理手段を使用して前記スピーチの内容に関連する前記静止画像中の前記領域を見つけて、前記指定された領域を表すデータを生成するステップと、を含む、請求項1記載の方法。
  19. ビデオプレゼンテーションを行う際に使用され、観客に表示される前記一連のビデオフレームが、前記ビデオプレゼンテーション中のナレーターによる前記スピーチの内容に関連する領域に対応してリアルタイムで決定される、請求項18記載の方法。
  20. 前記一連のビデオフレームが、前記ユーザによって指定された前記領域の間にパンおよびズームの効果を与えるように決定される、請求項1記載の方法。
  21. 前記一連のビデオフレームが、前記ユーザによって指定された前記領域に対応するキービデオフレームと、前記ユーザによって指定された領域の間の領域に対応する中間ビデオフレームと、を含む、請求項20記載の方法。
  22. 前記ユーザ入力の受け取りと同時にオーディオナレーションを記録するステップをさらに含む、請求項1記載の方法。
  23. 前記出力データが、オーディオナレーションをさらに含む、請求項22記載の方法。
  24. 後のオーディオビジュアル再生のために前記出力データを保存するステップをさらに含む、請求項23記載の方法。
  25. 前記一連のビデオフレームを表示するステップと、前記オーディオナレーションを再生するステップと、をさらに含む、請求項24記載の方法。
  26. ビデオプレゼンテーションを行う際に使用され、前記一連のビデオフレームが観客に表示され、前記オーディオナレーションがイヤホンを介してナレーターに対して再生されて、前記ナレーターによる言葉でのライブのナレーションのプロンプトとして機能する、請求項25記載の方法。
  27. 前記静止画像を表示するステップと、該静止画像の領域を選択するユーザからの入力を受け取るステップと、その領域に対応する前記オーディオナレーションを再生するステップと、をさらに含む、請求項24記載の方法。
  28. 前記選択された領域に対応する前記ビデオを再生するステップをさらに含む、請求項27記載の方法。
  29. 前記ユーザから入力を受け取るステップが、ユーザからナレーション入力を受け取るステップを含む、請求項1記載の方法。
  30. 請求項1記載の方法を実施するコンピュータプログラム。
  31. 請求項1記載の方法を実施する、データキャリアに格納されたコンピュータプログラム。
  32. 請求項1記載の方法を実行するようにプログラムされた処理手段。
  33. 静止デジタル画像からビデオデータを生成するコンピュータプログラムであって、該コンピュータプログラムは、
    プロセッサに、前記静止デジタル画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取らせるステップと、
    前記ユーザ入力を処理して、一連のビデオフレームそれぞれの前記視覚的内容を決定するステップと、
    前記一連のビデオフレームを表す出力データを生成するステップと、
    を実行することによって、請求項1記載の方法を実行するように前記プロセッサを制御し、
    前記ビデオフレームの順序および構成は、
    前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
    前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
    前記一連のビデオフレームが、前記ユーザが前記領域を指定する順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と時間的に実質的に対応して、前記ユーザによって指定された前記領域を表示する、
    ように決定される、コンピュータプログラム。
  34. 静止画像の複数の領域をリアルタイムで順次指定するユーザからの入力を受け取る手段と、
    前記ユーザ入力に応じて一連のビデオフレームの各々の視覚的内容を決定し、かつユーザにより指定された領域の間の時間的な関係を捕捉する手段と、
    前記一連のビデオフレームを表す出力データを生成する手段と、
    を含み、
    前記ビデオフレームの順序および構成は、
    前記ビデオフレームの前記視覚的内容が前記静止デジタル画像からとられ、
    前記ユーザによって指定された前記静止画像の各領域について、該領域がビデオフレームの大半の部分を占めるように該ビデオフレームが構成され、
    前記一連のビデオフレームが、前記ユーザが前記領域を指定する順序に順次対応して、かつ前記ユーザが前記領域を指定した時間と時間的に実質的に対応して、前記ユーザによって指定された前記領域を表示する、
    ように決定される、ビデオ処理デバイス。
  35. オーディオが付随するデジタル画像を作成する方法であって、
    第1のデジタル画像中の領域を指定する入力をユーザから受け取るステップと、
    前記ユーザからオーディオを受け取るステップと、
    前記第1の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第1の画像から前記指定領域を含む第2の画像を作成するステップと、
    前記オーディオを前記第2の画像に関連付けるステップと、
    を含む方法。
  36. 前記第2の画像および前記付随するオーディオを同じデータファイルに格納するステップをさらに含む、請求項35記載の方法。
  37. 前記第2の画像および前記付随するオーディオを、別個であるが関連したデータファイルに格納するステップをさらに含む、請求項35記載の方法。
  38. 前記第1の画像内の前記第2の画像の位置および範囲を指定するクロッピング命令セットを格納することによって前記第2の画像を指定するステップをさらに含む、請求項35記載の方法。
  39. 前記オーディオを前記第1の画像の前記データファイルの一部として格納するステップをさらに含む、請求項38記載の方法。
  40. 前記オーディオを前記第1の画像の前記データファイルと別個であるが関連したデータファイルに格納するステップをさらに含む、請求項38記載の方法。
  41. 請求項35記載の方法を実施するコンピュータプログラム。
  42. 請求項35記載の方法を実施する、データキャリアに格納されたコンピュータプログラム。
  43. 請求項35記載の方法を実行するようにプログラムされた処理手段。
  44. 第1のデジタル画像中の領域を指定する入力をユーザから受け取るステップと、
    前記ユーザからオーディオを受け取るステップと、
    前記第1の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第1の画像から前記指定領域を含む第2の画像を作成するステップと、
    前記オーディオを前記第2の画像に関連付けるステップと、
    を含む方法をプロセッサが実行するように制御することによって、オーディオが付随するデジタル画像を作成するよう動作可能なコンピュータプログラム。
  45. 第1のデジタル画像中の領域を指定する入力をユーザから受け取る手段と、
    前記ユーザからオーディオを受け取る手段と、
    前記第1の画像を前記ユーザによって指定された前記領域にクロッピングし、それにより、前記第1の画像から前記指定領域を含む第2の画像を作成し、かつ前記オーディオを前記第2の画像に関連付ける手段と、
    を含む、画像処理デバイス。
JP2004135676A 2003-04-30 2004-04-30 静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム Pending JP2005038399A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0309961A GB2401272B (en) 2003-04-30 2003-04-30 Method and apparatus for enhancing user interest in static digital images

Publications (1)

Publication Number Publication Date
JP2005038399A true JP2005038399A (ja) 2005-02-10

Family

ID=33155778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004135676A Pending JP2005038399A (ja) 2003-04-30 2004-04-30 静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム

Country Status (3)

Country Link
US (1) US8363058B2 (ja)
JP (1) JP2005038399A (ja)
GB (2) GB2424535A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012050050A (ja) * 2010-08-27 2012-03-08 Fuji Mach Mfg Co Ltd 画像表示システムおよび画像表示方法
JP2015008489A (ja) * 2014-08-04 2015-01-15 富士フイルム株式会社 画像表示制御方法及びその装置並びに画像撮像装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262256A1 (en) * 2012-03-30 2013-10-03 Ebay Inc. Method and system to reconstruct an on-line experience
US7694213B2 (en) 2004-11-01 2010-04-06 Advanced Telecommunications Research Institute International Video content creating apparatus
JP4839603B2 (ja) * 2004-11-22 2011-12-21 ソニー株式会社 表示装置、表示方法、表示プログラム及び表示プログラムを記録した記録媒体
US8977063B2 (en) * 2005-03-09 2015-03-10 Qualcomm Incorporated Region-of-interest extraction for video telephony
US8019175B2 (en) 2005-03-09 2011-09-13 Qualcomm Incorporated Region-of-interest processing for video telephony
US8739240B2 (en) * 2006-09-12 2014-05-27 At&T Intellectual Property I, L.P. Authoring system for IPTV network
US20080168478A1 (en) * 2007-01-07 2008-07-10 Andrew Platzer Application Programming Interfaces for Scrolling
US20080168402A1 (en) * 2007-01-07 2008-07-10 Christopher Blumenberg Application Programming Interfaces for Gesture Operations
US7844915B2 (en) 2007-01-07 2010-11-30 Apple Inc. Application programming interfaces for scrolling operations
US8054310B2 (en) * 2007-06-18 2011-11-08 International Business Machines Corporation Recasting a legacy web page as a motion picture with audio
US7945847B2 (en) * 2007-06-26 2011-05-17 International Business Machines Corporation Recasting search engine results as a motion picture with audio
US20090006965A1 (en) * 2007-06-26 2009-01-01 Bodin William K Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page
US8717305B2 (en) 2008-03-04 2014-05-06 Apple Inc. Touch event model for web pages
US8416196B2 (en) * 2008-03-04 2013-04-09 Apple Inc. Touch event model programming interface
US8645827B2 (en) 2008-03-04 2014-02-04 Apple Inc. Touch event model
US8174502B2 (en) 2008-03-04 2012-05-08 Apple Inc. Touch event processing for web pages
US20090249388A1 (en) * 2008-04-01 2009-10-01 Microsoft Corporation Confirmation of Advertisement Viewing
WO2010035180A2 (en) * 2008-09-24 2010-04-01 Koninklijke Philips Electronics N.V. A user interface for a multi-point touch sensitive device
US8831090B2 (en) 2008-11-18 2014-09-09 Avigilon Corporation Method, system and apparatus for image capture, analysis and transmission
US8285499B2 (en) 2009-03-16 2012-10-09 Apple Inc. Event recognition
US8566045B2 (en) 2009-03-16 2013-10-22 Apple Inc. Event recognition
US9684521B2 (en) 2010-01-26 2017-06-20 Apple Inc. Systems having discrete and continuous gesture recognizers
US8566044B2 (en) * 2009-03-16 2013-10-22 Apple Inc. Event recognition
US9311112B2 (en) * 2009-03-16 2016-04-12 Apple Inc. Event recognition
US9292161B2 (en) * 2010-03-24 2016-03-22 Microsoft Technology Licensing, Llc Pointer tool with touch-enabled precise placement
US9053032B2 (en) 2010-05-05 2015-06-09 Microsoft Technology Licensing, Llc Fast and low-RAM-footprint indexing for data deduplication
US20110276744A1 (en) 2010-05-05 2011-11-10 Microsoft Corporation Flash memory cache including for use with persistent key-value store
US8935487B2 (en) 2010-05-05 2015-01-13 Microsoft Corporation Fast and low-RAM-footprint indexing for data deduplication
US10216408B2 (en) 2010-06-14 2019-02-26 Apple Inc. Devices and methods for identifying user interface objects based on view hierarchy
JP5724230B2 (ja) * 2010-07-07 2015-05-27 ソニー株式会社 表示制御装置、表示制御方法、プログラム
KR20120068078A (ko) * 2010-10-26 2012-06-27 삼성전자주식회사 영상 처리 장치 및 그의 영상 데이터와 오디오 데이터의 연결 방법
US9208472B2 (en) 2010-12-11 2015-12-08 Microsoft Technology Licensing, Llc Addition of plan-generation models and expertise by crowd contributors
US9110936B2 (en) 2010-12-28 2015-08-18 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
US9298363B2 (en) 2011-04-11 2016-03-29 Apple Inc. Region activation for touch sensitive surface
US9317196B2 (en) * 2011-08-10 2016-04-19 Microsoft Technology Licensing, Llc Automatic zooming for text selection/cursor placement
KR101919790B1 (ko) * 2012-08-03 2019-02-08 엘지전자 주식회사 이미지 표시 장치 및 그 제어방법
US9462301B2 (en) * 2013-03-15 2016-10-04 Google Inc. Generating videos with multiple viewpoints
US20140362290A1 (en) * 2013-06-06 2014-12-11 Hallmark Cards, Incorporated Facilitating generation and presentation of sound images
US9733716B2 (en) 2013-06-09 2017-08-15 Apple Inc. Proxy gesture recognizer
US9275349B2 (en) * 2013-07-19 2016-03-01 Ricoh Company Ltd. Healthcare system integration
US20150073700A1 (en) * 2013-09-12 2015-03-12 PopWorld Inc. Data processing system and method for generating guiding information
US10057731B2 (en) 2013-10-01 2018-08-21 Ambient Consulting, LLC Image and message integration system and method
US10180776B2 (en) 2013-10-01 2019-01-15 Ambient Consulting, LLC Image grouping with audio commentaries system and method
US9977591B2 (en) * 2013-10-01 2018-05-22 Ambient Consulting, LLC Image with audio conversation system and method
EP3417608B1 (en) * 2016-02-18 2020-05-13 IMINT Image Intelligence AB System and method for video processing
CN112819927A (zh) * 2021-02-04 2021-05-18 上海哔哩哔哩科技有限公司 基于图片的视频生成方法、装置
CN112995536A (zh) * 2021-02-04 2021-06-18 上海哔哩哔哩科技有限公司 视频合成方法及系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2961234B2 (ja) * 1989-12-29 1999-10-12 キヤノン株式会社 画像処理システムおよび像形成装置
US5359363A (en) * 1991-05-13 1994-10-25 Telerobotics International, Inc. Omniview motionless camera surveillance system
US5764276A (en) * 1991-05-13 1998-06-09 Interactive Pictures Corporation Method and apparatus for providing perceived video viewing experiences using still images
US5485554A (en) * 1993-10-29 1996-01-16 Hewlett-Packard Company Method and apparatus for processing an image in a video printing apparatus
US5926190A (en) * 1996-08-21 1999-07-20 Apple Computer, Inc. Method and system for simulating motion in a computer graphics application using image registration and view interpolation
DE29617929U1 (de) * 1996-10-15 1997-01-02 Köpper, Burkhard, 35789 Weilmünster Vorrichtung zur Herstellung eines Fotofilms
US6362850B1 (en) * 1998-08-04 2002-03-26 Flashpoint Technology, Inc. Interactive movie creation from one or more still images in a digital imaging device
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
WO2002005835A2 (en) 2000-07-17 2002-01-24 Washington University Modulation of apoptosis
GB2370438A (en) * 2000-12-22 2002-06-26 Hewlett Packard Co Automated image cropping using selected compositional rules.
GB2372658A (en) 2001-02-23 2002-08-28 Hewlett Packard Co A method of creating moving video data from a static image
GB2378073B (en) 2001-07-27 2005-08-31 Hewlett Packard Co Paper-to-computer interfaces
GB2388265B (en) * 2002-04-30 2005-10-12 Hewlett Packard Co Improvements in and relating to processing of images
US7134080B2 (en) * 2002-08-23 2006-11-07 International Business Machines Corporation Method and system for a user-following interface
US7315630B2 (en) * 2003-06-26 2008-01-01 Fotonation Vision Limited Perfecting of digital image rendering parameters within rendering devices using face detection

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012050050A (ja) * 2010-08-27 2012-03-08 Fuji Mach Mfg Co Ltd 画像表示システムおよび画像表示方法
JP2015008489A (ja) * 2014-08-04 2015-01-15 富士フイルム株式会社 画像表示制御方法及びその装置並びに画像撮像装置

Also Published As

Publication number Publication date
GB0609354D0 (en) 2006-06-21
GB2401272B (en) 2007-11-21
GB2424535A (en) 2006-09-27
US8363058B2 (en) 2013-01-29
GB2401272A (en) 2004-11-03
US20050008343A1 (en) 2005-01-13

Similar Documents

Publication Publication Date Title
JP2005038399A (ja) 静止デジタル画像からビデオおよびオーディオフォトを生成する方法およびシステム
Zhang et al. An automated end-to-end lecture capture and broadcasting system
US7324069B2 (en) Animation review methods and apparatus
KR20140139859A (ko) 멀티미디어 콘텐츠 검색을 위한 사용자 인터페이스 방법 및 장치
KR20210082232A (ko) 실시간 비디오 특수 효과 시스템 및 방법
JP2008141746A (ja) 動画再生システム及び方法
KR20110043612A (ko) 이미지 처리
US11716300B2 (en) Techniques for optimizing the display of videos
US10459976B2 (en) Method, apparatus and system for applying an annotation to a portion of a video sequence
JP2005267279A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
US20150332091A1 (en) Device and method of processing image
US11848031B2 (en) System and method for performing a rewind operation with a mobile image capture device
US20240146863A1 (en) Information processing device, information processing program, and recording medium
US10438632B2 (en) Direct user manipulation of video to generate scrubbing videos
JP4686990B2 (ja) コンテンツ処理システム及びコンテンツ処理方法、並びにコンピュータ・プログラム
US10474743B2 (en) Method for presenting notifications when annotations are received from a remote device
US20170069354A1 (en) Method, system and apparatus for generating a position marker in video images
US20220021941A1 (en) Multi-file streaming media delivery system and method
US20150317071A1 (en) Method and Computer-Readable Medium for Cueing the Display of Active Content to an Audience
Mitarai et al. Shooting assistance by recognizing user's camera manipulation for intelligible video production
WO2023045963A1 (zh) 一种视频生成方法、装置、设备及存储介质
WO2022226809A1 (zh) 拍摄方法、装置及存储介质、终端设备
WO2024003099A1 (en) Video processing method and system
Mitarai et al. Interactive video cam system for emotive video production
WO2023235519A1 (en) Interactive multimedia collaboration platform with remote-controlled camera and annotation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070105

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070322

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071128