JP2004110821A - マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム - Google Patents

マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム Download PDF

Info

Publication number
JP2004110821A
JP2004110821A JP2003307346A JP2003307346A JP2004110821A JP 2004110821 A JP2004110821 A JP 2004110821A JP 2003307346 A JP2003307346 A JP 2003307346A JP 2003307346 A JP2003307346 A JP 2003307346A JP 2004110821 A JP2004110821 A JP 2004110821A
Authority
JP
Japan
Prior art keywords
image
images
event
events
computer code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003307346A
Other languages
English (en)
Other versions
JP4269849B2 (ja
Inventor
T Foote Jonathan
ジョナサン ティー.フート
Matthew L Cooper
マシュー エル.クーパー
David M Hilbert
デイビッド マイケル ヒルバート
William N Schilit
ウィリアム エヌ.シリット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2004110821A publication Critical patent/JP2004110821A/ja
Application granted granted Critical
Publication of JP4269849B2 publication Critical patent/JP4269849B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Television Signal Processing For Recording (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】 マルチメディアプレゼンテーションを自動的に生成する方法、及びこれらを実行するためのコンピュータプログラムの提供。
【解決手段】 マルチメディアプレゼンテーションを自動的に生成する方法は、音声データにおいて発生する事象に関する時間情報を含む事象リストを受け取り(ステップ210)、画像を受け取り(ステップ220)、受け取られた画像上でフォーマットを検出し(ステップ230)、画像が処理され(ステップ240)、画像のプレゼンテーションは事象リストを用いて音声データに自動的に同期する、マルチメディアプレゼンテーションを自動的に生成する(ステップ250)ことを有し、この方法は、コンピュータプログラムによって、実行される。
【選択図】   図2

Description

 本発明は、一般に、マルチメディア処理に係り、より詳細には、マルチメディアプレゼンテーションを、画像データ及び音声データから、自動的に生成することに関する。即ち、本発明は、マルチメディアプレゼンテーションを自動的に生成する方法及びこれを実行するためのコンピュータプログラムに関する。
 コンピュータ、ディジタルカメラ、及びインターネットの発達に伴って、ディジタル画像を表示(ディスプレイ)するための新しい媒体が現れた。ディジタルカメラ及び他のソースから、画像は、電子メールを介して送られ、インターネット上に表示され、スライドショーとして提供されることが多くなってきている。一般に、スライドショーのアプリケーションは、ユーザが、画像を個別に見ること、ユーザ入力時に次の画像へ進むこと、又は一定の速さで自動的に連続して表示されるスライドショーとして画像を見ることの中から選択できるようにする。これらのアプリケーションのいくつかでは、スライドショーを見ると同時に、音声ファイルが再生されてもよい。
 これらの非同期のマルチメディアプレゼンテーションは、作成するのは比較的容易であるが、一定の速さで画像を表示するスライドショーのアプリケーションによって生成されるので、観察者の関心をうまく持続させることができない。現在のところ、画像表示と音声とのいかなる同期も、これらのアプリケーションにおいては、手動で生成されなければならない。この手動による同期は、音声ファイルから情報を解析して画像を手動で検討するのに途方もなく長い時間がかかる。
本発明の背景技術を開示する文献として、非特許文献1乃至3がある。
カーケイ・サン(Kah−Kay Sung)、及びトマソ ポッジオ(Tomaso Poggio)著、「視点ベースの人の顔の検出のための実施例ベースの学習(Example−based Learning for View−based Human Face Detection)」、A.I.メモ No.1521、C.B.C.L.論文 No.112、人工知能研究所及び生物学上及びコンピュータ学習センター(Artificial Intelligence Laboratory and Center for Biological and Computational Learning)発行、マサチューセッツ工科大学(Massachusetts Institute of Technology)、1994年12月 カーケイ・サン(Kah−Kay Sung)、及びトマソ ポッジオ(Tomaso Poggio)著、「視点ベースの人の顔の検出のための実施例ベースの学習(Example−based Learning for View−based Human Face Detection)」、パターン解析とマシン知能についての紀要(Transactions on Pattern Analysis and Machine Intelligence)、IEEE、Vol. 20、No.1、1998年1月 ザッブロドスキー(H.Zabrodsky)、ペーレグ(S.Peleg)、及び アブニル(D.Avnir)著、「連続的特徴としてのシンメトリ(Symmetry as a Continuous Feature)」、ヘブライ大学(Hebrew University)、イエルサレム(Jerusalem)、91904、イエルサレム(Jerusalem)、イスラエル(Israel)
 本発明の目的は、音声ファイルと画像のセットとを自動的に同期させるマルチメディアプレゼンテーションを生成するシステム及び方法を提供することである。
 本発明は、画像データと音声データを自動的に結合してマルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、システムによって受け取られる。音声データは、音声ファイルの中で、時間差をもって、関心が持たれるポイントに対応する事象リストを含む。音声データは、音声ファイル又は音声ストリームを含んでいてもよい。次に、画像は、事象リストを用いて、音声ファイル又は音声ストリームに整合される。
 一つの実施の形態において、事象は、音声ファイルの中で何らかの特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。一つの実施の形態において、音声事象リストは、音声事象を除去したり、分類したり、予測したり、そうでない場合は、生成したりするために処理されてもよい。画像も処理されてもよい。画像処理は、事象リストに整合する画像を決定するための画像解析、画像の削除、及び効果(エフェクト)を取り入れた画像の処理を含んでいてもよい。画像効果は、クロップ、パン、ズーム、及び他の視覚的な効果を含んでいてもよい。
 本発明の請求項1によれば、音声データにおいて発生する事象に関する時間の情報を含む、事象リストを受け取るステップと、画像を受け取るステップと、前記事象リストを用いて前記音声データと自動的に同期する画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するステップと、を有する、マルチメディアプレゼンテーションを自動的に生成する方法である。
 本発明の請求項2は、請求項1において、マルチメディアプレゼンテーションで使用する画像の数を自動的に決定するステップを含む、画像を処理するステップを更に有する、方法であってもよい。
 本発明の請求項3は、請求項2において、使用する画像の数を自動的に決定するステップが、画像より多くの事象が存在する場合、事象を削除するステップを含む、方法であってもよい。
 本発明の請求項4は、請求項3において、事象を削除するステップが、各事象に関連付けられる数値に従って事象を分類するステップと、各事象に関連付けられる数値に従って事象を削除するステップと、を含む、方法であってもよい。
 本発明の請求項5は、請求項4において、数値が重要度スコアである、方法であってもよい。
 本発明の請求項6は、請求項2において、使用する画像の数を自動的に決定するステップが、事象より多くの画像が存在する場合、画像を削除するステップを含む、方法であってもよい。
 本発明の請求項7は、請求項6において、画像を削除するステップが、受け取られた画像内の画像のクラスタを検出するステップであって、クラスタがキーフレームを含む、ステップと、画像の検出されたクラスタ内の画像を削除するステップであって、削除された画像がクラスタキーフレームに最も類似している、ステップと、を含む、方法であってもよい。
 本発明の請求項8は、請求項6において、画像を削除するステップが、事象リスト内の事象に整合させるための整合画像特徴を自動的に決定するステップと、特徴を検出するために画像を解析するステップと、整合画像特徴と、検出された特徴と、に基づいて、画像を削除するステップと、を含む、方法であってもよい。。
本発明の請求項9は、請求項1において、画像を処理するステップを更に含み、画像を処理するステップが、マルチメディアプレゼンテーションで使用する画像の順序を自動的に決定するステップを含む、方法であってもよい。
本発明の請求項10は、請求項9において、画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、請求項9に記載の方法であって、画像の順序を自動的に決定するステップが、(a)特徴タイプを事象タイプに整合させるステップと、(b)画像毎に画像特徴を検出するために画像を自動的に解析するステップと、(c)画像を事象リスト内の事象に整合させることによって画像の順序を自動的に決定するステップであって、整合された画像特徴が、ステップ(a)で整合された特徴タイプに関連付けられ、整合された事象が、ステップ(a)で整合された事象タイプに関連付けられる、ステップを含む、方法であってもよい。
本発明の請求項11は、請求項10において、画像特徴タイプが、輝度、カラー系、及びクラスタとの関連付けを含む、方法であってもよい。
本発明の請求項12は、請求項10において、事象タイプが、振幅のピーク、音の大きさ、バス、トレブル、クレッシェンド、及びディミヌエンドを含む、方法であってもよい。
 本発明の請求項13は、請求項1において、マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定するステップを含む、画像を処理するステップを更に有する、方法であってもよい。
本発明の請求項14は、請求項13において、効果を決定するステップが、事象リスト内の事象の発生時に開始される効果を構成するステップを含む、方法であってもよい。
本発明の請求項15は、請求項13において、効果を決定するステップが、事象リスト内の事象の発生時に終了する効果を構成するステップを含む、方法であってもよい。
 本発明の請求項16は、請求項13において、効果が画像内の観察窓をパンするステップを含む、方法であってもよい。
 本発明の請求項17は、請求項16において、画像が第1のアスペクト比を有する第1のフォーマットで受け取られ、画像が第2のアスペクト比を有する第2のフォーマットでマルチメディアプレゼンテーションにおいて表示され、観察窓が第2のアスペクト比になるように構成される、方法であってもよい。
 本発明の請求項18は、請求項16において、パンするステップが、エッジからホットスポットへパンするステップを含む、方法であってもよい。
 本発明の請求項19は、請求項18において、パンするステップが、画像内のホットスポットを検出するステップと、ホットスポットから最も離れた画像のエッジを決定するステップと、ホットスポットから最も離れたエッジからホットスポットに最も接近したエッジまで観察窓をパンするステップと、を含む、方法であってもよい。
 本発明の請求項20は、請求項16において、観察窓をパンするステップが、画像内の位置から空間的周波数の角分布を検出するステップと、最大の空間周波数を有する方向に沿った位置から観察窓をパンするステップと、を含む、方法であってもよい。
 本発明の請求項21は、請求項13において、効果がズームするステップを有する、方法であってもよい。
 本発明の請求項22は、請求項21において、ズームするステップが、画像内のホットスポットを検出するステップと、ホットスポットにおいてズームオペレーションを実行するステップと、を含む、方法であってもよい。
 本発明の請求項23は、請求項21において、ズームするステップが、画像内でシンメトリを検出するステップであって、シンメトリが中心を有し、中心においてズームオペレーションを実行する、ステップを含む、方法であってもよい。
本発明の請求項24によれば、サーバコンピュータによって実行する、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータプログラムであって、音声データにおいて発生する事象に関する時間情報を含む、事象リストを受け取るコンピュータコードと、画像を受け取るコンピュータコードと、事象リストを用いて音声データに自動的に同期される、画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータコードと、を備える、コンピュータプログラムである。
 本発明の請求項25は、請求項24において、各事象に関連付けられる重要度スコアに従って事象を分類するためのコンピュータコードと、各事象に関連付けられる重要度スコアに従って事象を削除するコンピュータコードと、を含む、使用する画像の数を自動的に決定するコンピュータコードを更に有する、コンピュータプログラムであってもよい。
 本発明の請求項26は、請求項24において、受け取られた画像内の画像のキーフレームを含むクラスタを検出するコンピュータコードと、クラスタキーフレームに最も類似している検出された画像のクラスタ内の画像を削除するコンピュータコードと、を含む、画像を削除するコンピュータコードを更に有する、コンピュータプログラムであってもよい。
 本発明の請求項27は、請求項24において、事象リスト内の事象に整合させる整合画像特徴を自動的に決定するコンピュータコードと、特徴を検出するために画像を解析するコンピュータコードと、整合画像特徴と検出された特徴とに基づいて画像を削除するためのコンピュータコードと、含む、画像を削除するコンピュータコードを更に有する、コンピュータプログラムであってもよい。
 本発明の請求項28は、請求項24において、マルチメディアプレゼンテーションで使用するための画像の順序を自動的に決定するステップを含む、画像を処理するコンピュータコードを更に有する、コンピュータプログラムであってもよい。
 本発明の請求項29は、請求項28において、画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、コンピュータプログラムであって、画像の順序を自動的に決定するコンピュータコードが、(a)特徴タイプを事象タイプに整合させるコンピュータコードと、(b)画像毎に画像特徴を検出するために画像を自動的に解析するコンピュータコードと、(c)事象リスト内の事象に画像を整合させることによって画像の順序を自動的に決定するコンピュータコードであって、整合された画像特徴が、コンピュータコード(a)で整合された特徴タイプに関連付けられ、整合された事象が、コンピュータコード(a)で整合された事象タイプに関連付けられることを含む、コンピュータプログラムであってもよい。
 本発明の請求項30は、請求項24において、マルチメディアプレゼンテーションで表示される画像に取り入れられる効果を自動的に決定することを含む、画像を処理するコンピュータコードを更に有する、コンピュータプログラムであってもよい。
 本発明の請求項31は、請求項30において、効果が、画像内の観察窓をパンすることを有し、画像が、第1のアスペクト比を有する第1のフォーマットで受け取られ、画像が、第2のアスペクト比を有する第2のフォーマットでマルチメディアプレゼンテーションにおいて表示され、観察窓が第2のアスペクト比になるように構成される、コンピュータプログラムであってもよい。
 本発明の請求項32は、請求項31において、パンするコンピュータコードが、エッジからホットスポットへパンすることを含む、コンピュータプログラムであってもよい。
 本発明の請求項33は、請求項31において、観察窓をパンするコンピュータコードが、画像内の位置から空間的周波数の角分布を検出するコンピュータコードと、最大の空間周波数を有する方向に沿った位置から観察窓をパンするコンピュータコードと、を含む、コンピュータプログラムであってもよい。
 本発明の請求項34は、請求項30において、効果がズームを含む、コンピュータプログラムであってもよい。
 本発明は、画像データと音声データを自動的に結合して、マルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、このシステムによって受け取られる。音声データは、音声ファイル内の関心が持たれるポイントに対応する事象のリストを含む。音声データは、音声ファイル又は音声ストリームも含んでいてもよい。次に、画像は、時間を用いて音声ファイル又は音声ストリームに整合される。一つの実施の形態において、事象は、音声ファイル内にある特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。一つの実施の形態において、音声事象リストは、音声事象を、除去したり、分類したり、予測したり、或いは、そうでない場合は、音声事象を生成したりするように、処理されてもよい。画像も処理されてもよい。画像処理は、事象リストに整合する画像を決定するための画像解析、画像の削除、及び効果を取り入れるための画像処理を含んでいてもよい。画像効果は、クロップ、パン、ズーム、及び他の視覚的な効果を含んでいてもよい。
 図1には、マルチメディアプレゼンテーションを生成するシステム100が示されている。システム100は、音声事象リスト110、画像120、マルチメディア処理システム(MPS)130、及びマルチメディアファイル140を含む。MPSは、事象リスト処理システム(ELPS)132、画像処理システム(IPS)134、及び音声処理システム(APS)136を含む。音声事象リスト110及び画像120は、MPS130によって受け取られる。一つの実施の形態において、MPSは、受け取られた音声ファイルから事象リストを生成する。次に、MPS130は、音声事象リストと画像とを処理し、マルチメディアファイル(又は、複数のマルチメディアファイル)140を出力する。
 図1のシステム100のオペレーションは、図2の方法200に示されている。方法200は、スタートステップ205から開始される。次に、ステップ210において、事象リストが受け取られる。事象リストは、音声ファイル又は音声ストリームにおいて事象が発生する時間を導き出すことができる、情報を含む。時間情報は、タイムスタンプデータ又は他の時間に関連する情報であってもよい。一つの実施の形態において、ステップ210において、音声ファイル又は音声ストリームそれ自体が受け取られてもよい。また他の実施の形態において、MPSは、受け取られた音声ファイル又は音声ストリームから事象リストを生成してもよい。この実施の形態において、事象リストの生成は、2000年5月11日に出願された、発明者、ジョナサン・フート(Jonathan Foote)による、「音楽と音声の自動解析のための方法(Methods for the Automatic Analysis of Music and Audio)」と題された米国特許出願第09/569,230号に説明されているように実行されてもよい。本発明は、音声ファイル又は音声ストリームのいずれかからのマルチメディアプレゼンテーションを生成するために実施されてもよいが、本発明は、図示目的のための音声ファイルに関してのみ、説明されている。音声ファイルは、音楽、スピーチ、自然発生的又は人工の音、又はこれらの組合せを含む任意のタイプの音声のコンテンツを含んでいてもよい。一つの実施の形態において、APS136は、音声がマルチメディアプレゼンテーションに使用するための異なるフォーマットに変換されなければならない場合に受け取られる音声ファイルのフォーマットを検出してもよい。例えば、FLASHフォーマットで音声を利用するマルチメディアプレゼンテーションは、mp3ファイルを取り入れる。このように、APS136は、入力音声が、.wavフォーマット、又はmp3以外の何らかのフォーマットであるか否かを検出する場合もある。
 事象リストは、音声ファイルに対応する事象のリストである。事象の発生は、タイムスタンプ又は音声ファイル内で事象が発生する時間を表す他のデータによって表される。一つの実施の形態において、事象は、音声ファイルで発生する、関心が持たれる事象又は重要な変更をさす。事象の例としては、振幅包絡線のピーク、音声の音の大きさ又は音色における変化、クレッシェンド又はディミヌェンド、又はいくつかの他の検出可能な又は予測可能な音声の特性を含む。事象の時間を表すこと以外に、事象に関する識別又は量的な情報などの他の情報が受け取られてもよい。事象の識別情報は、事象の特性のタイプを指定するインジケータ、或いは、事象タイプ、レベル、又は重要度のより詳細を提供する他の情報、を含んでいてもよい。事象の量的情報は、信号特性に対して到達した大きさの比率又は平均レベルのパーセントを含んでいてもよい。一つの実施の形態において、ステップ210において受け取られた事象リストは、ELPSによって処理される。事象リストの処理は、リストの一部を切捨てること、他を保持しながらも、いくつかのタイプの事象を削除すること、又は他の処理を含んでいてもよい。事象リスト処理に関しては、図4及び図5によって、より詳細に説明されている。
 次に、ステップ220において、システムは、画像を受け取る。画像は、ビデオ画像、静止フレーム画像、ディジタルカメラからの画像、非ディジタルカメラからのディジタルフォーマットでの画像、又はいくつかの他のタイプの画像であってもよい。受け取られる画像は、jpeg、bmp、gif、tiff、及びpcxを含む任意の電子フォーマットであってもよい。一つの実施の形態において、ステップ230において、受け取られた画像上でフォーマットの検出が実行される。MPS(マルチメディア処理システム)は、画像が異なるフォーマットで受け取られるように、画像が結果として生じるマルチメディアプレゼンテーションでの画像のフォーマットとは異なるフォーマットで受け取られるように、又は、特別なアプリケーションによって決定されるような他の理由から、このステップを実行してもよい。一つの実施の形態において、フォーマットが認識されると、画像のアスペクト比が求められるだけでなく、マルチメディアプレゼンテーションの所望されるアスペクト比になるように画像を変換するための任意の処理が要求され得る。一つの実施の形態において、受け取られた画像は、MPSによって後から検索(リトリーブ)するためにメモリに入れられる。フォーマットの検出は、生成されるプレゼンテーション次第で選択することが可能なステップであってもよい。次に、ステップ240において、画像が処理される。画像処理は、マルチメディアプレゼンテーションに画像を含むことを前提に準備するために、画像に対して行われる処理を含む。画像処理は、以下の図3によって、より詳細に説明される。
 画像処理後、ステップ250において、マルチメディアプレゼンテーションが生成される。マルチメディアプレゼンテーションは、ステップ220において受け取られた画像を整合することによって生成され、ステップ210において受け取られた事象リストにリストされる事象になるように、ステップ240において、任意に処理される。一つの実施の形態において、プレゼンテーションは、単一ファイル又はメディアフォーマットとして生成される。プレゼンテーションは、エンドユーザがプレゼンテーションを再生する場合があるフォーマットで、提供される。可能性のあるマルチメディアフォーマットの例には、NTSC、又はPAL、VHSビデオテープ、DVD、MPEGビデオ、FLASH、及びSMILなどがある。
 一つの他の実施の形態において、プレゼンテーションは、音声ファイル、画像、及び事象リストの一つ以上を参照する、ディジタルコントロールファイルとして、生成される。例えば、コントロールファイルは、音声ファイル及び処理された画像の事象リスト及びロケーションを含んでいてもよい。実行される際、コントロールファイルは、音声ファイルの再生を開始し、最初に処理された画像を表示してもよい。音声ファイルの再生は、本発明を実施するソフトウェア又はハードウェアに外付けされたメディアプレーヤによって実行され得る。或いは、ファイル再生は、本発明を実施するソフトウェア又はハードウェアによって実行され得る。音声ファイルの再生時には、コントロールファイルは、音声ファイルの再生に関するメディアプレーヤーからのタイミング情報を受け取ったり、音声ファイル再生に同期する内蔵タイマーを維持していてもよい。何れの場合においても、コントロールファイルは、事象リスト内の次の事象に関連付けられる時間がいつ発生するかを検出する。この時間の発生時、コントロールファイルは、その事象において表示される次の画像(又は複数の画像)を表示する。
 本発明の一つの実施の形態において、一つの画像は、事象リスト内の全ての事象に整合される。従って、プレゼンテーションの開始時には、初期画像が表示され、音声ファイルが再生される。事象リストにリストされるように、第1の事象が発生する音声ファイル内のポイントで、第2の画像が表示される。第2の事象の発生時には、第3の画像が表示される。このプロセスは、音声ファイルの再生が終了するまで、続けられる。他の実施の形態において、画像は、二つ以上の事象発生の間で表示されてもよい。この場合、一つ以上の事象の発生時に起きるように、効果が画像内で構成されてもよい。
 他の実施の形態において、音声再生中、複数の画像が、同時に表示されてもよい。この場合、一つの画像が最初に注目されるフォーカスとなっていてもよい。これは、少なくとも一つの他の画像、別の画像とオーバラップする一つの画像、他の複数の画像よりも大きな一つの画像、又はこれらを組合せたものに囲まれた中心画像を表示することによって、又は複数の画像の一つを強調する何らかの他の方法によって、達成され得る。音声事象が発生すると、フォーカスは、他の画像へ変化し得る。画像の配置以外に、輝度の調整や画像に対するズームや回転動作を取り入れることを含む、一つの画像へのフォーカスを生成する他の方法が使用されてもよい。ステップ250においてマルチメディアプレゼンテーションを生成した後、方法200は、ステップ255で、終了する。
 本発明の一つの実施の形態による画像を処理する方法が、図3の方法300において示されている。方法300のステップの順序は、アプリケーションが違えば、変わる場合もあり、示されている方法は、本発明の一つの実施の形態における画像処理の例だけを示すことを目的としている。方法300は、スタートステップ305から、開始される。次に、ステップ310において、プレゼンテーションにおいて使用される画像数が決定される。本発明の一つの実施の形態において、ステップ220においてシステムによって受け取られた画像の全てが、プレゼンテーションを生成するために使用される。他の実施の形態において、ステップ210において受け取られる事象リスト内の事象の数に応じて、より多い画像又はより少ない画像が所望される。ステップ210において受け取られた音声事象リストとステップ220において受け取られた画像の数とが整合しない時、画像と事象の数は変更され得る。システムが、画像が削除すべきであると判断する場合、ステップ310において、これらの画像が削除されてもよい。上述されるように、プレゼンテーションへの影響を最小限に抑えるべく、削除すべき画像が選択される。
 一つの実施の形態において、図4の方法400に従って、画像数が決定される。この実施の形態において、事象リスト処理システム132は、事象リスト内の事象の数と受け取られた画像の数とを調整するための処理を自動的に開始してもよい。方法400は、スタートステップ405から開始される。次に、ステップ410において、事象リスト内の事象の数と、受け取られた画像の数と、が比較される。事象が画像より多い場合、オペレーションはステップ420へ進む。画像が事象より多い場合、オペレーションはステップ440へ進む。
 ステップ420において、ELPSは、事象が削除されるべきか否かを決定する。一つの実施の形態において、この決定はユーザ入力に基づいて行われ得る。他の実施の形態において、この決定は自動的に行われ得る。決定が自動的に行われる場合、ELPSは、事象を削除するための論理手段を提案し得る任意の特性又は特性パターンの存在を決定するために事象リストを解析してもよい。これには、重要度の格付け、事象間のスペーシング、及び事象リストに存在する事象タイプについて、事象リストを解析することを含む場合もある。ステップ420において削除すべき事象がない場合、オペレーションは、ステップ425へ進み、ELPSは、余分な事象を使用するための効果をプレゼンテーションに取り入れることを決定する。効果を画像に取り入れることは、以下の図3のステップ330において、以下により詳細に説明される。
 ステップ420において、ELPSがいくつかの事象を削除すべきであると決定する場合、事象はいくつかの方法で削除されるように解析されて選択され得る。一つの実施の形態において、各事象は、いくつかの方法で、数値に関連付けされる。次に、この数値は、あるとすれば、どの事象が削除されるべきかを決定するために使用され得る。一つの実施の形態において、数値は、重要度を表すスコアである。ステップ432に示されるように、ELPSは重要度によって事象を分類する場合もある。一つの実施の形態において、重要度は、音声事象として表示される遷移(トランジション)のいずれかのサイドにおける音声の二つの部分間の変化の度合であってもよい。或いは、重要度は、音声の特徴の大きさを表したり、音声の特徴又は特性のいくつかの他の表示を示したりすることもある。分類後は、次に、ELPSは、ステップ433において最重要又は最有効の事象のみが残るように、多数の所望される事象になるように事象リストを切り捨てることもできる。より重要な事象に基づいて生成されることによって得られたマルチメディアプレゼンテーションは、より劇的であり、面白いプレゼンテーションである。
 他の実施の形態において、ステップ434におけるように、事象リストは、事象間のスペーシングによって分類されてもよい。この場合、ELPSは、しきい値を生成し、少なくともこのしきい値によってどの事象が離間されていないかを決定し得る。従って、この場合、数値は、事象又はタイムスタンプデータ間の時間間隔を含んでいてもよい。或いは、ELPSは、隣接する事象間のスペーシングによって事象を分類し、削除されるべき事象として最も接近して離間された事象を選択してもよい。次に、ステップ435において、スペーシングによって除去されるべき事象が除去される。これによって、音声ファイルと同期しつつも、プレゼンテーションを提供することができ、このプレゼンテーションにおいて、表示された画像における変化は、当該プレゼンテーションを通して均一に発生する。他の実施の形態において、ステップ436において示されるように、事象リストは、事象タイプを表す数値によって解析されてもよい。存在する事象タイプ及びリスト内に存在する各事象の数に基づいて、ELPSは、事象を除去することができる。一つの実施の形態において、事象タイプの発生頻度に基づいて、除去すべき事象が選択されてもよい。例えば、事象リストは、10個の事象、即ち、四つのクレッシェンド、四つのディミヌエンド、一つの振幅のピーク、及び一つの音色の変化、を有していてもよい。事象の数を8個の事象に減らすように要求された場合、ELPSは、クレッシェンドとディミヌエンドの事象を一つずつ除去してもよい。これでも、音声事象リストにはまだ四つの種類の事象が残されているので、多種多様な事象を提供することによって、プレゼンテーションをより面白いものにすることができる。或いは、特別なタイプの事象は、除去するためにマーキングされてもよい。従って、ELPSは、タイプだけに依存して、ある一定の順序で、事象を除去する場合もある。除去すべき事象タイプは、ユーザ入力、又はシステムにおけるデフォルトな設定によって決定され得る。
 ステップ432乃至437において、ELPSは、所望数の事象がリスト内で得られるまで事象を除去しつづけてもよい。一つの実施の形態においては、所望数の事象は、マルチメディアプレゼンテーション内で使用される画像数であってもよい。他の実施の形態において、所望数の事象は、一回で表示される画像の数及びプレゼンテーションにおいて画像に取り入れられる効果に応じて、使用する画像の数より、わずかに多くなったり、わずかに少なくなったりする場合がある。更に、削除方法の組み合わせを使用して、どの事象を除去すべきかを判断することもできる。一つの実施の形態において、ELPS内の1組のヒューリスティックは、事象リスト内の事象間で受容可能なスペーシングを決定したり、事象の重要度に応じて削除すべき事象の数を決定するために使用されてもよい。これによって、互いに接近しすぎていると判断された二つの事象の間では、より重要であるとされる事象が保持され、あまり重要でないとされる事象が削除される。
 ステップ440において、ELPSは、画像が削除されるべきかを判断する。一つの実施の形態において、これは、任意の画像が削除されるべきか否かを示すユーザ入力に基づいて、判断され得る。他の実施の形態において、ELPSは、任意の画像が削除されるべきかを自動的に判断する。ELPSは、この判断を行う際に、IPSから入力を受け取ってもよい。この実施の形態において、IPSは、画像の特性が、事象を削除するための論理手段を提案するかを判断するために、画像をそのクラスタ及びキーフレーム又は他の特性について解析する場合もある。例えば、クラスタグループについて、1セットの画像を解析すると、結果的に、四つのクラスタを検出することになる。この場合、各クラスタは、そのクラスタ内の他の画像と類似したいくつかの画像を有しているため、このセットから、四つの画像を削除する必要がある。カラーヒストグラム類似度を用いた集塊的(アグロメラティブ)クラスタや階層的アグロメラティブクラスタなどの類似度測定法に基づく種々のクラスタ技術が、受け取られた画像を、自動的に決定された又はユーザが決定したクラスタの数になるように、グルーピングするために使用され得る。この場合、ELPSは、一つの画像が他の画像において捕捉(キャプチャ)されない数多くのもとの内容を失わずに各クラスタから除去され得るため、画像が削除されるべきであることを自動的に判断する場合もある。ELPSが、画像は削除しなくてよいと判断した場合、オペレーションは、ステップ442、ステップ444、又は両ステップへ進む。ELPSが、ステップ440において、画像が削除するべきであると判断した場合、オペレーションは、ステップ452、ステップ454、又は両ステップへ進む。
 一つの実施の形態において、画像が事象より多いときに削除される画像がない場合、ステップ442において、システムは、事象を予測するか、あるいは、事象を生成する場合がある。一つの実施の形態において、事象は、予測可能に規則的な間隔で発生する事象などの関連する事象のパターンを検出することによって予測されてもよい。例えば、予測可能な音声の特性は、ダウンビートを含むこともある。歌は、ダウンビートパターンを有していてもよい。このダウンビートパターンにおいて、ダウンビートは、2連続の小節で発生し、第3の小節をスキップし、次に、第4の小節で再び発生する。ダウンビートは第3の小節で全く存在しないが、この第3の小節が音声ファイルの関心が持たれる事象となるかもしれないことが予測され得る。このように、事象は第3の小節で作成されてもよい。また、事象は、既存の事象間のスペーシングに基づいても発生され得るが、二つの他の事象間の大きな一時的なギャップでは全く検出されない。受け取られた画像が削除されない他の実施の形態において、ステップ444に示されているように、一つ以上の事象の発生時に複数の画像を表示することが決定され得る。
 ステップ440において、ELPSが、画像が削除されるべきであると判断した場合、IPSはいくつかの方法で画像を削除してもよい。一つの実施の形態において、ステップ452において、IPSは、キーフレームが選択され得る画像のクラスタを決定するために、画像を解析することもある。この実施の形態において、クラスタは、単一のクラスタ内の画像がそのクラスタから選択されたキーフレームに類似した特徴を有するように、決定される。クラスタ用にキーフレームが選択されると、ステップ453において、キーフレームに最も類似したクラスタ画像が削除されてもよい。これは、削除された画像を介してのコンテンツロスを最小に抑える。画像は、所望数の画像に達するまで、一つ以上のクラスタから、このようにして削除され得る。他の実施の形態において、画像は、事象リストと画像がどのように整合するかに対応するように、削除される。この実施の形態において、事象リストは、ステップ454において、解析される。事象リストを解析することは、振幅関連事象、音の大きさ事象、又は他の事象タイプなどのうち、どのタイプの事象が事象リストに存在するかを判断することを含んでいてもよい。次に、ステップ455において、画像は、輝度、カラー系、及び他の特徴などの特徴について解析され得る。次に、ステップ456において、IPS又はELPSは、どの画像が事象リストの事象に潜在的に整合したかに基づいて、削除すべき画像を決定することができる。プレゼンテーションは、例えば、画像カラー系によって画像に整合された音声ピッチ関連事象を有していてもよい。この場合、ハイピッチ事象は、暖色系を有する画像に整合され、ローピッチ事象は、寒色系を有する画像に整合される。事象リストが、ハイピッチからローピッチまでの音声の変化を表す事象を含み、大部分の画像が暖色系を有し、少数の画像が寒色系を有する場合、システムは、余分な暖色系の画像を削除することを決定してもよい。
 ステップ452乃至456において、ELPSは、所望数の画像に達するまで、画像を除去し続けてもよい。所望数の画像は、事象リスト内の事象の数と一致していてもよいし、一回に表示される画像数や、プレゼンテーションにおいて画像に取り入れられる任意の効果に応じて、事象の数よりもわずかに多かったり少なかったりする。また、削除方法の組み合わせが、どの画像が削除されるべきかを判断するために使用されてもよい。一つの実施の形態において、IPS内の1組のヒューリスティック(経験則)は、画像のクラスタ、及び事象リストに整合される際にどのようにして画像が削除されるかを判断するために使用され得る。従って、クラスタ内のキーフレームに類似していると判断された二つの画像間では、これら二つの画像間の事象により良好に整合されていると評価された画像が保持され、他は削除される。
 図4の方法400は、本発明の一つの実施の形態による事象リストと画像に基づいたマルチメディアプレゼンテーションにおいて使用される画像を自動的に選択する一つの方法を示す。他の実施の形態は、事象や画像を削除するか又は余分な画像又は事象を取り扱うために、図4に示されたステップよりも少ないか又はそれらに代わるステップを使用してもよい。これらの他の実施の形態は、本発明の範囲を逸脱しないように考慮されており、図4に示されるような方法の図解もまた本発明の範囲を限定しないように意図されている。
 ステップ310において、使用される画像の数を決定した後で、ステップ320において、画像の順序が自動的に決定される。画像の順序はいくつかの方法で達成され得る。一つの実施の形態において、画像は、画像に対する処理又は解析を必要とせずに順序付けられ得る。これは、画像がどのようにして受け取られたか、画像ファイルネームの辞書式順序によって、又は各ファイルに関連付けされたタイムスタンプ情報による、画像の順序付けを含んでいてもよい。他の実施の形態において、画像はそれらの順序を自動的に決定するように解析されてもよい。本発明の実施の形態によるこのタイプの順序付けが、図5の方法500に示されている。
 方法500は、本発明の一つの実施の形態による画像特徴タイプ又は事象タイプを用いた画像の順序付けを検出する方法を示す。整合系が生成され、これによって特徴タイプが事象タイプに整合される。整合系は、自動的に又はユーザ入力によって生成され得る。次に、画像は、画像毎の画像特徴を検出するために解析される。画像は、一つの特徴タイプ、複数のタイプ、又は、事象タイプに整合する非特徴タイプ、に対応する画像特徴を有し得る。次に、画像は、事象タイプに整合する特徴タイプに対応する、任意の検出された特徴に対応する事象リストに応じて順序付けされる。
 本発明の一つの実施の形態による音声事象リストに整合される画像の順序を自動的に決定する方法500は、スタートステップ505から開始される。次に、ステップ510において、画像クラスタ及びキーフレームが決定される。ステップ220において受け取られた画像は、共通の特徴について解析され、これらの特徴に応じたクラスタにグルーピングされる。分光クラスタ又は階層的アグロメラティブ(集塊的)クラスタを含む、類似度の測定に基づく種々のクラスタ技術が、受け取られた画像を、自動的に又はユーザによって決定されるクラスタ数を有するようにグルーピングするために使用され得る。これらのクラスタから、種々のキーフレーム選択アルゴリズム又は特徴ベースのアプローチが、スライドショーに含むための一つ以上の代表的な画像を決定するために使用され得る。クラスタ及びキーフレームが決定される場合には、ステップ520において、これらは、事象タイプ又は事象グループへ整合され得る。事象のグループは、音声部分の最初と最後を示す場合がある。一つの実施の形態において、音声部分は音声ファイルのコーラス及び詩の部分である。この音声の部分は、本明細書中に参照することによって組み込まれる、クーパ(M.Cooper)及びフート(J.Foote)による「自動ディジタル音楽サマライゼーションのための方法(A Method for Automatic Digital Music Summarization)」 と題された米国出願(2001年、番号記載なし)に記載されている記述などの歌の構造解析技術を用いて検出されてもよい。このように、一つのクラスタは、事象によってマーキングされた最初と最後を有する詩の部分に整合されることもある。第2のクラスタは、事象によってマーキングされる最初と最後を有するコーラス部分に整合されてもよい。それぞれの場合において、更なる事象は、セクションの最初と最後をマーキングする事象間に存在してもよい。
 次に、ステップ530において、画像の輝度が、画像特徴として決定され得る。各画像の輝度は、平均化技術に基づいた全体的な輝度値又は画像の異なる部分に対応する一連の輝度の値として表されてもよい。次に、ステップ540において、画像は、輝度によってテンポ又は音の大きさ事象に整合される。一つの実施の形態において、より高い輝度値を有する画像は、より速いテンポの音声を示す事象に整合される一方、より低い輝度を有する画像は、より遅いテンポを示す事象に整合される。より高い輝度を有する画像は、高レベルの音の大きさを示す事象に整合され、低い輝度の画像は、低レベルの音の大きさを示す事象に整合され得る。
 ステップ550において、カラー系は、各画像に対する画像特徴として決定され得る。一つの実施の形態において、カラー系を決定することは、画像が、黄、赤、及び橙色を基調とする暖色系を有するか、青、緑、及び紫を基調とする寒色系を有するかを決定することを含む場合がある。カラー系が決定されると、ステップ560において、画像は、それらのカラー系によるトレブル事象やバス事象などの事象に整合されてもよい。一つの実施の形態において、寒色系を基調とする画像がバス事象に整合されてもよいし、暖色系を基調とする画像がトレブル事象に整合されてもよい。画像の順序付けが終了すると、ステップ565において、オペレーションは終了する。
 方法500は、事象タイプに画像特徴タイプを整合させることによって、音声事象リストに対する画像の順序付けを決定する一つだけの例を示すよう意図されている。異なる画像特性を解析することによる画像の順序付けは、いくつかの方法で行われ得る。例えば、方法500においては、全部で三つの画像特性の代わりに、一つの画像特性のみが決定されて音声事象に整合され得る。また、他の音声事象が、クレッシェンド、ディミヌエンド、楽器関連事象と対極にある音声関連事象その他などの検出された特徴に整合され得る。以上の同様の変形は、本発明の範囲を逸脱するものではない。
 ステップ320において画像の順序付けが決定された後、ステップ330において、画像に取り入れられる任意の効果が、決定され、生成される。画像に取り入れられる効果は、クロップ、パン、ズーム、及び他の視覚的効果を含んでいてもよい。一つの実施の形態において、効果は、画像のいかなる解析をも必要とせずに、画像に自動的に取り入れられてもよい。このタイプの効果の例としては、画像の回転と、画像のフェーディングと、解像及びワイピング効果と、画像の輝度、カラー、又は不透明性の調整と、が挙げられる。フェーディングは、一つの画像がフェードアウトしてから次の画像を表示するフェーディング、又は、一つの画像がフェードアウトすると同時に他の画像が同時にフェードインするクロスフェーディングを含む場合がある。ワイピング効果は、一つの画像から他の画像への遷移であってもよく、この場合、遷移は、画像を横切る「ワイピング」ラインとして見ることができる。ワイピングラインの一つの側には、置き換えられる画像があり、ワイピングラインの他の側には、置き換える画像がある。
 他の実施の形態において、効果は、画像への解析が終了した後の画像に取り入れられる場合がある。これらの方法の例は、ドリフトパン、ホットスポットの検出とその方向へのパン、検出された基調となる空間周波数の方向のパン、及びシンメトリック(対称形)領域の中心へのズームインを含んでいてもよい。
 自動ドリフトパンは、ビューイングフレームを画像の一端から他端へパンするために使用され得る。一つの実施の形態において、パンは、観察者が関心を持つなんらかのオブジェクトをビューイングフレームが含むように画像内の一つのエッジで終了する。パンは、画像全体をカバーする場合もあるし、クロップが必要とされるときに取り入れられる場合もある。何れの方法も、異なるアスペクト比に変換される必要のある画像を表示する際に有用であるかもしれない。例えば、写真フォーマット等の一つのアスペクト比を有するフォーマットで受け取られる画像は、ビデオフォーマット等の異なるアスペクト比を有する他のフォーマットで画像を表示するようにクロップされる必要がある。この場合、得られたアスペクト比に応じる観察窓は、観察者が、クロッピングによってオリジナル画像から失われたコンテンツを見ることができるように画像を横切ってパンするために、使用され得る。
 図6aには、自動ドリフトパンがクロッピングに取り入れられ得る画像の例が示されている。図6aの画像600は、岩の上に横たわるオットセイを示す。画像600において、ビューイングフレーム610は、画像の左端から画像の右端へパンするために使用される。従って、観察窓は、画像が上部エッジ620と下部エッジ630にクロップされ、結果的に得られるプレゼンテーションで使用されるアスペクト比に合わせつつ、オットセイの画像全体を捕捉しながら、左から右へパンされるように選択される。ドリフトパンの他の例が、図6bの画像650に示されている。画像650において、観察窓660は、画像の下部に適合するように選択される。観察窓は、マルチメディアプレゼンテーション内の表示された画像のアスペクト比に合うように選択され得る。次に、観察窓は、画像の上部エッジにパンするように画像内を上方移動され得る。このように、最終画像のアスペクト比に応じた観察窓660は画像全体を表示しないが、「失われた」画像のコンテンツはパンを介して表示される。パンの速度は、画像の一つのエッジから他のエッジまでのパンの継続時間が、ほぼ二つの音声事象間の継続時間続くように、二つの音声事象の間で整合されてもよい。他の実施の形態において、パン効果は、パンが事象に近似する時間で停止したり開始したりするようにパン効果が生成され得るが、両方同時に発生しない。このように、プレゼンテーションの一部は、画像の静止フレームを数秒間特徴づけ、次に、事象の発生時に停止するパン効果を特徴付けてもよい。パンは、事象と同時にスタートする必要はない。これに対して、パンやいくつかの他の効果は、事象の発生時に開始し、その数秒後のある時間に終了し得るが、パン又は効果は、事象と同時に発生しない。
 ホットスポットは、自動パン技術を生成する際に使用されてもよい。ホットスポットは、関心がもたれ得る画像の任意の部分であってもよい。ホットスポットは、特徴検出技術を用いて又はユーザ対話から自動的に検出されてもよい。図7の画像700は、ホットスポットへの自動パンが取り入れられ得る画像を示す。
 図7の画像は、風景を背景として人を描いている。人の顔のクローズアップを含む画像の一部710は、ホットスポットとして自動的に選択されてもよい。人の顔をホットスポットとして検出するための人の顔を検出するために、「非特許文献1」に示すような様々な技術が用いられ得る。ホットスポットを含むビューイングフレームが決定されると、このホットスポットへパンする方向が決定される。一つの実施の形態において、選択された方向は、ホットスポットから最も遠く離れたエッジへ向かう方向である。この方法は、関心がもたれる風景又は景色等のホットスポットから離れて配置される画像内の関心がもたれるエレメントを捕捉する場合もある。図7に示される実施の形態では、北、南、東、及び西の方向のみが表示されている。しかしながら、他の方向も考えられ得る。ホットスポットから最も遠い長さを有するエッジへ向かう方向は、パン方向であると決定される。図7に示される実施の形態では、西側方向における長さLWが、LW、LN、LE、及びLSの中で最も長い。このように、自動的に決定されるビューイングフレームは、長さLWにわたって、画像の西のエッジから、検出された人の顔のホットスポット710まで、パンするように自動的に決定される。考えられる方向が相対的に類似している場合は、パン効果の代わりに、ズームイン効果又はズームアウト効果が画像に取り入れられてもよい。
 他の実施の形態において、パンは、画像内の空間周波数の角分布を解析することによって、自動的に決定され得る。二次元のフーリエ変換は、画像の周波数成分の空間的方向とともに、それらの位相及び大きさを提供する。図8aの画像800及び図8bの画像850は、パン方向を決定するために二次元のフーリエ変換を使用する例を示す。正弦波画像成分810は、周波数平面において二つの強いピークを生成する。正弦波成分の角度は、周波数座標に対するピークの角度θから決定され得る。この方向で観察窓をパンすることによって主要な周波数成分の方向への移動が生成される。この方向を決定するために、「方向性マージン」は、周波数平面における原点から半径方向にフーリエ変換の大きさを合計することによって演算され得る。合計が最大である方向が、図8bに示されるように観察窓をパンする方向として、選択される。これによって、最高の視覚的変化及び対応する視覚的関心を有するパン効果が確実となる。例えば、写真は、浜辺、海、及び空の水平成分を含んでいてもよい。この写真の最大のマージンは垂直方向にあり、垂直方向のパンは水平より多くの視覚的変化(浜辺、海、空)を生じる。フーリエの大きさを決定するために使用される値は、画素強度値、画像内のストリップから取られた画素強度値の平均、又は画像表示に対応する画像全体にわたって変化するいくつかの他の値、であってもよい。
 パン効果が不在の場合、ホットスポットは、写真を最高の効果にクロップするために使用され得る。例えば、画像は、ホットスポットの存在を決定するために解析され得る。一度検出されると、画像は、検出されたホットスポットが、中心に配置されるか、対称的にされるか、そうでない場合は、画像内で特徴付けられるように、クロップされ得る。
 本発明の一つの実施の形態による画像に取り入れられてもよい他の効果は、ズームである。上述のように、ホットスポット又はキーの特徴が、検出されるか、そうでなければ、既知である場合、領域をズームイン又はズームアウトすることによって、ホットスポット領域への関心を集中することができる。ホットスポット及びキー特徴の他に、注意を領域に集中するためにシンメトリがズームとともに使用され得る。本明細書中に参照することによって組み込まれる、「非特許文献2」及び「非特許文献3」に示すようないくつかの技術が、画像内のシンメトリを自動的に決定するために使用され得る。多くの撮影者は、人の顔、乗り物、自動車、動物、ドア、建物、窓及び橋などの建築構造物、木などの自然のオブジェクト、山や日没などの風景を含むシンメトリを有する写真をとる。それらが展開される方向に軸方向に撮影される街並み、道路、川、及び通路の場合、中心へのズームは、通路や運行方向に沿って移動することの視覚的効果を有する。検出されたシンメトリから決定される自動ズームの例が図9aの画像900及び図9bの画像950に示されている。910における垂直ラインに沿ったシンメトリは、画像910において検出される。次に、ズーム効果は、開始アウターフレーム960から最終インナーフレーム970まで実行され得る。或いは、ズーム効果又はズーム動作は、インナーフレームからアウターフレームまで、取り入れられてもよい。
 本発明は、画像データと音声データを自動的に結合してマルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、このシステムによって受け取られる。音声データは、音声ファイル内の関心がもたれるポイントに対応する事象のリストを含む。音声データは、音声ファイル又は音声ストリームも含んでいてもよい。次に、受け取られた画像は、時間を用いて音声ファイル又は音声ストリームに整合される。一つの実施の形態において、事象は、音声ファイル内にある特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。音声事象リストは、音声事象を、除去したり、分類したり、予測したり、そうでない場合は、生成したりするように、処理されてもよい。画像処理は、発生する場合もあるし、また、画像の事象リストへの整合を決定するための画像解析、画像の削除、効果を取り入れるための画像の処理を含む場合もある。画像効果はクロップ、パン、ズーム、及び他の視覚的な効果を含む場合もある。
 本発明の他の特徴、態様、及び目的は、図面及び請求の範囲を再検討することによって得られる。本発明の他の実施の形態が示されているが、本発明及び請求の範囲の精神及び範囲を逸脱するものではない。
 本発明の好ましいとされる実施の形態の以上の記述は、本発明を図解し説明することを目的としてなされているものであり、本発明の全てを網羅しているものでもなく、また、開示されている具体的な形態に限定するものでもない。多くの変更及び変形が行なわれてもよいことは当業者に明確に理解されるものである。実施の形態は、本発明の基本理念及びその実践的な適用性を最もよく説明するために選択され、説明され、これによって、種々の実施の形態を行なったり、考案される特別な使用に適した種々の変更を行なったりすることによって、他の当業者が本発明をより明確に理解できるようにしたものである。本発明の範囲は、以下の請求の範囲及びそれらと同等のものによって定義されるように意図される。
 具体的に設計された集積回路又は他の電子部品からなる本発明の実施の形態に加えて、本発明は、コンピュータ分野の当業者に明確に理解されるように、本発明の開示内容の教示に従ってプログラムされた、従来の汎用又は専用のディジタルコンピュータ又はマイクロプロセッサを用いて便利に実施され得る。
 適切なソフトウェアの符号化(コーディング)は、ソフトウェアの分野の当業者に明確に理解されるように、本発明の開示内容の教示に基づいて、熟練したプログラマーによって容易に提供され得る。本発明は、特定用途向け集積回路の提供によって、又は、従来のコンポーネント回路の適切なネットワークを相互接続することによって、実施されてもよい。
 本発明は、本発明のプロセスのいずれかを実行するためにコンピュータをプログラムするために使用され得るインストラクションを記憶した記憶媒体(メディア)である、コンピュータプログラムプロダクトを含む。この記憶媒体は、限定はされないが、フロッピー(登録商標)ディスク、光学ディスク、DVD、CD−ROM、マイクロドライブ、及び磁気光学ディスク、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、フラッシュメモリデバイス、磁気又は光学カード、ナノシステム(分子メモリICを含む)、又はインストラクション及び/又はデータを記憶する任意のタイプのメディア又はデバイスを含むことができる。
 コンピュータ読込み可能な媒体(複数のメディア)に記憶されると、本発明は、汎用及び/又は専用の両方のコンピュータ又はマイクロプロセッサのハードウェアをコントロールするとともにコンピュータ又はマイクロプロセッサが本発明の結果を使用する人間のユーザ又は他のメカニズムと対話することを可能とするソフトウェアを含む。このようなソフトウェアは、限定はされないが、デバイスドライバ、オペレーティングシステム、及びユーザアプリケーションを含んでいてもよい。最後に、このようなコンピュータリーダブル媒体は、付加的なモデルの表示及び再構築の少なくとも一つを実行するためのソフトウェアを更に有する。
本発明の一つの実施の形態によるマルチメディアプレゼンテーションを生成するためのシステムを示す図である。 本発明の一つの実施の形態によるマルチメディアプレゼンテーションを自動的に生成するための方法を示す図である。 本発明の一つの実施の形態による画像を自動的に解析するための方法を示す図である。 本発明の一つの実施の形態によるマルチメディアプレゼンテーションにおいて使用される画像数を自動的に決定するための方法を示す図である。 本発明の一つの実施の形態によるマルチメディアプレゼンテーションにおいて使用される画像順序を自動的に決定するための方法を示す図である。 本発明の一つの実施の形態によるドリフトパンを取り入れた画像を示す図である。 本発明の一つの実施の形態によるドリフトパンを取り入れた画像を示す図である。 本発明の一つの実施の形態によるパンとホットスポットを取り入れた画像を示す図である。 本発明の一つの実施の形態による、画像の空間周波数の角分布を解析することによってパンを決定することを示す図である。 本発明の一つの実施の形態による、空間周波数の角分布を取り入れることによってパンを決定する画像を示す図である。 本発明の一つの実施の形態による、シンメトリ検出を取り入れる画像を示す図である。 本発明の一つの実施の形態による、シンメトリ画像へのズームを取り入れることを示す図である。
符号の説明
100:システム
110:音声事象リスト
120:画像
130:マルチメディア処理システム
132:事象リスト処理システム
134:画像処理システム
136:音声処理システム
140:マルチメディアファイル



Claims (34)

  1.  音声データにおいて発生する事象に関する時間の情報を含む、事象リストを受け取るステップと、
     画像を受け取るステップと、
     前記事象リストを用いて前記音声データと自動的に同期する画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するステップと、
     を有する、
     マルチメディアプレゼンテーションを自動的に生成する方法。
  2.  前記マルチメディアプレゼンテーションで使用する画像の数を自動的に決定するステップを含む、画像を処理するステップを更に有する、請求項1に記載の方法。
  3.  前記使用する画像の数を自動的に決定するステップが、画像より多くの事象が存在する場合、事象を削除するステップを含む、請求項2に記載の方法。
  4.  前記事象を削除するステップが、各事象に関連付けられる数値に従って前記事象を分類するステップと、各事象に関連付けられる前記数値に従って事象を削除するステップと、を含む、請求項3に記載の方法。
  5.  前記数値が重要度スコアである、請求項4に記載の方法。
  6.  前記使用する画像の数を自動的に決定するステップが、事象より多くの画像が存在する場合、画像を削除するステップを含む、請求項2に記載の方法。
  7.  前記画像を削除するステップが、前記受け取られた画像内の画像のクラスタを検出するステップであって、前記クラスタがキーフレームを含む、ステップと、前記画像の検出されたクラスタ内の画像を削除するステップであって、前記削除された画像が前記クラスタキーフレームに最も類似している、ステップと、を含む、請求項6に記載の方法。
  8.  前記画像を削除するステップが、前記事象リスト内の事象に整合させるための整合画像特徴を自動的に決定するステップと、特徴を検出するために画像を解析するステップと、前記整合画像特徴と、検出された特徴と、に基づいて、画像を削除するステップと、を含む、請求項6に記載の方法。
  9. 画像を処理するステップを更に含み、前記画像を処理するステップが、前記マルチメディアプレゼンテーションで使用する画像の順序を自動的に決定するステップを含む、請求項1に記載の方法。
  10. 前記画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、請求項9に記載の方法であって、前記画像の順序を自動的に決定するステップが、(a)特徴タイプを事象タイプに整合させるステップと、(b)画像毎に画像特徴を検出するために前記画像を自動的に解析するステップと、(c)画像を前記事象リスト内の事象に整合させることによって前記画像の順序を自動的に決定するステップであって、前記整合された画像特徴が、前記ステップ(a)で整合された特徴タイプに関連付けられ、前記整合された事象が、前記ステップ(a)で整合された事象タイプに関連付けられる、ステップを含む、方法。
  11. 画像特徴タイプが、輝度、カラー系、及びクラスタとの関連付けを含む、請求項10に記載の方法。
  12. 事象タイプが、振幅のピーク、音の大きさ、バス、トレブル、クレッシェンド、及びディミヌエンドを含む、請求項10に記載の方法。
  13.  前記マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定するステップを含む、画像を処理するステップを更に有する、請求項1に記載の方法。
  14. 前記効果を決定するステップが、前記事象リスト内の事象の発生時に開始される前記効果を構成するステップを含む、請求項13に記載の方法。
  15. 前記効果を決定するステップが、前記事象リスト内の事象の発生時に終了する前記効果を構成するステップを含む、請求項13に記載の方法。
  16.  効果が画像内の観察窓をパンするステップを含む、請求項13に記載の方法。
  17.  前記画像が第1のアスペクト比を有する第1のフォーマットで受け取られ、前記画像が第2のアスペクト比を有する第2のフォーマットで前記マルチメディアプレゼンテーションにおいて表示され、前記観察窓が前記第2のアスペクト比になるように構成される、請求項16に記載の方法。
  18.  前記パンするステップが、エッジからホットスポットへパンするステップを含む、請求項16に記載の方法。
  19.  前記パンするステップが、前記画像内のホットスポットを検出するステップと、前記ホットスポットから最も離れた画像のエッジを決定するステップと、前記ホットスポットから最も離れたエッジから前記ホットスポットに最も接近したエッジまで前記観察窓をパンするステップと、を含む、請求項18に記載の方法。
  20.  前記観察窓をパンするステップが、前記画像内の位置から空間的周波数の角分布を検出するステップと、前記最大の空間周波数を有する方向に沿った前記位置から前記観察窓をパンするステップと、を含む、請求項16に記載の方法。
  21.  前記効果がズームするステップを有する、請求項13に記載の方法。
  22.  前記ズームするステップが、前記画像内のホットスポットを検出するステップと、前記ホットスポットにおいてズームオペレーションを実行するステップと、を含む、請求項21に記載の方法。
  23.  前記ズームするステップが、前記画像内でシンメトリを検出するステップであって、前記シンメトリが中心を有し、前記中心においてズームオペレーションを実行する、ステップを含む、請求項21に記載の方法。
  24. サーバコンピュータによって実行する、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータプログラムであって、
     音声データにおいて発生する事象に関する時間情報を含む、事象リストを受け取るコンピュータコードと、
    画像を受け取るコンピュータコードと、
    前記事象リストを用いて前記音声データに自動的に同期される、画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータコードと、
    を備える、
     コンピュータプログラム。
  25.  各事象に関連付けられる重要度スコアに従って前記事象を分類するためのコンピュータコードと、各事象に関連付けられる前記重要度スコアに従って事象を削除するコンピュータコードと、を含む、使用する画像の数を自動的に決定するコンピュータコードを更に有する、請求項24に記載のコンピュータプログラム。
  26.  前記受け取られた画像内の画像のキーフレームを含むクラスタを検出するコンピュータコードと、前記クラスタキーフレームに最も類似している前記検出された画像のクラスタ内の画像を削除するコンピュータコードと、を含む、画像を削除するコンピュータコードを更に有する、請求項24に記載のコンピュータプログラム。
  27.  前記事象リスト内の事象に整合させる整合画像特徴を自動的に決定するコンピュータコードと、特徴を検出するために画像を解析するコンピュータコードと、前記整合画像特徴と検出された特徴とに基づいて画像を削除するためのコンピュータコードと、含む、画像を削除するコンピュータコードを更に有する、請求項24に記載のコンピュータプログラム。
  28.  前記マルチメディアプレゼンテーションで使用するための画像の順序を自動的に決定するステップを含む、画像を処理するコンピュータコードを更に有する、請求項24に記載のコンピュータプログラム。
  29.  前記画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、前記事象リスト内の各事象が事象タイプに関連付けられる、請求項28に記載のコンピュータプログラムであって、前記画像の順序を自動的に決定するコンピュータコードが、(a)特徴タイプを事象タイプに整合させるコンピュータコードと、(b)画像毎に画像特徴を検出するために前記画像を自動的に解析するコンピュータコードと、(c)前記事象リスト内の事象に画像を整合させることによって前記画像の順序を自動的に決定するコンピュータコードであって、前記整合された画像特徴が、前記コンピュータコード(a)で整合された特徴タイプに関連付けられ、前記整合された事象が、前記コンピュータコード(a)で整合された事象タイプに関連付けられることを含む、コンピュータプログラム。
  30.  前記マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定することを含む、前記画像を処理するコンピュータコードを更に有する、請求項24に記載のコンピュータプログラム。
  31.  前記効果が、画像内の観察窓をパンすることを有し、前記画像が、第1のアスペクト比を有する第1のフォーマットで受け取られ、前記画像が、第2のアスペクト比を有する第2のフォーマットで前記マルチメディアプレゼンテーションにおいて表示され、前記観察窓が前記第2のアスペクト比になるように構成される、請求項30に記載のコンピュータプログラム。
  32.  前記パンするコンピュータコードが、エッジからホットスポットへパンすることを含む、請求項31に記載のコンピュータプログラム。
  33.  前記観察窓をパンするコンピュータコードが、前記画像内の位置から空間的周波数の角分布を検出するコンピュータコードと、前記最大の空間周波数を有する方向に沿った前記位置から前記観察窓をパンするコンピュータコードと、を含む、請求項31に記載のコンピュータプログラム。
  34.  前記効果がズームを含む、請求項30に記載のコンピュータプログラム。
JP2003307346A 2002-09-13 2003-08-29 マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム Expired - Fee Related JP4269849B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/243,220 US7383509B2 (en) 2002-09-13 2002-09-13 Automatic generation of multimedia presentation

Publications (2)

Publication Number Publication Date
JP2004110821A true JP2004110821A (ja) 2004-04-08
JP4269849B2 JP4269849B2 (ja) 2009-05-27

Family

ID=31991583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003307346A Expired - Fee Related JP4269849B2 (ja) 2002-09-13 2003-08-29 マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム

Country Status (2)

Country Link
US (1) US7383509B2 (ja)
JP (1) JP4269849B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006129453A (ja) * 2004-09-29 2006-05-18 Nikon Corp 画像再生装置、および画像再生プログラム
JP2010539619A (ja) * 2007-09-18 2010-12-16 マイクロソフト コーポレーション スライドショーイベントと音声の同期化

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070022465A1 (en) * 2001-11-20 2007-01-25 Rothschild Trust Holdings, Llc System and method for marking digital media content
US8504652B2 (en) * 2006-04-10 2013-08-06 Portulim Foundation Llc Method and system for selectively supplying media content to a user and media storage device for use therein
US7503059B1 (en) * 2001-12-28 2009-03-10 Rothschild Trust Holdings, Llc Method of enhancing media content and a media enhancement system
US8909729B2 (en) * 2001-11-20 2014-12-09 Portulim Foundation Llc System and method for sharing digital media content
US7711774B1 (en) * 2001-11-20 2010-05-04 Reagan Inventions Llc Interactive, multi-user media delivery system
US8122466B2 (en) * 2001-11-20 2012-02-21 Portulim Foundation Llc System and method for updating digital media content
US7797446B2 (en) 2002-07-16 2010-09-14 Apple Inc. Method and system for updating playlists
US9715500B2 (en) 2004-04-27 2017-07-25 Apple Inc. Method and system for sharing playlists
US8332455B2 (en) * 2002-06-06 2012-12-11 International Business Machines Corporation Simultaneous analysis of multiple data sources by sychronization
US7478323B2 (en) * 2004-10-25 2009-01-13 Apple Inc. Automated creation of media asset illustration collage
JP2004144829A (ja) * 2002-10-22 2004-05-20 Rohm Co Ltd メロディー及び画像同期情報作成装置及びメロディー及び画像同期発生装置
US7882258B1 (en) * 2003-02-05 2011-02-01 Silver Screen Tele-Reality, Inc. System, method, and computer readable medium for creating a video clip
CA2457602A1 (en) * 2003-02-19 2004-08-19 Impatica Inc. Method of synchronizing streams of real time data
US7142250B1 (en) 2003-04-05 2006-11-28 Apple Computer, Inc. Method and apparatus for synchronizing audio and video streams
EP1676278B1 (en) * 2003-10-13 2011-03-09 Koninklijke Philips Electronics N.V. Playback device and method for providing functionality based on event information retrieved from a playlist
US7620896B2 (en) * 2004-01-08 2009-11-17 International Business Machines Corporation Intelligent agenda object for showing contextual location within a presentation application
US8689097B2 (en) * 2004-03-31 2014-04-01 Satyam Computer Services Ltd. System and method for automatic generation of presentations based on agenda
US7724959B2 (en) 2004-09-23 2010-05-25 Fuji Xerox Co., Ltd. Determining regions of interest in photographs and images
US7398921B2 (en) 2004-11-17 2008-07-15 Zito Jr Arthur J User-specific dispensing system
EP3422306A1 (en) 2004-11-17 2019-01-02 Arthur J. Zito, Jr. User-specific dispensing system
US20060165377A1 (en) * 2005-01-26 2006-07-27 Von Wendt Thomas Method for reproducing video clips
EP1851948A1 (fr) * 2005-02-09 2007-11-07 Previsite Procede de realisation en masse de visites virtuelles interactives pour diffusion multimedia, ainsi que systeme de misse en oeuvre
JP2006277283A (ja) * 2005-03-29 2006-10-12 Fuji Xerox Co Ltd 情報処理システムおよび情報処理方法
US20060253783A1 (en) * 2005-05-09 2006-11-09 Microsoft Corporation Story template structures associated with story enhancing content and rules
US20090160862A1 (en) * 2005-10-13 2009-06-25 Tae Hyeon Kim Method and Apparatus for Encoding/Decoding
TWI388216B (zh) * 2005-10-13 2013-03-01 Lg Electronics Inc 用於編碼/解碼之方法與裝置
US20070162839A1 (en) * 2006-01-09 2007-07-12 John Danty Syndicated audio authoring
US7814040B1 (en) 2006-01-31 2010-10-12 The Research Foundation Of State University Of New York System and method for image annotation and multi-modal image retrieval using probabilistic semantic models
WO2007096692A1 (en) * 2006-02-21 2007-08-30 Nokia Corporation Video sequence for a musical alert
US20070226624A1 (en) * 2006-02-23 2007-09-27 Peker Kadir A Content-based video summarization using spectral clustering
JP4388939B2 (ja) * 2006-09-25 2009-12-24 富士フイルム株式会社 画像再生装置ならびにその制御方法およびその制御プログラム
US7987423B2 (en) * 2006-10-11 2011-07-26 Hewlett-Packard Development Company, L.P. Personalized slide show generation
US7669132B2 (en) * 2006-10-30 2010-02-23 Hewlett-Packard Development Company, L.P. Matching a slideshow to an audio track
US7924328B2 (en) * 2007-01-25 2011-04-12 Hewlett-Packard Development Company, L.P. Applying visual effect to image data based on audio data
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US7773099B2 (en) * 2007-06-28 2010-08-10 Mitsubishi Electric Research Laboratories, Inc. Context aware image conversion method and playback system
US8046369B2 (en) 2007-09-04 2011-10-25 Apple Inc. Media asset rating system
US7569761B1 (en) * 2007-09-21 2009-08-04 Adobe Systems Inc. Video editing matched to musical beats
US8713456B2 (en) * 2008-05-15 2014-04-29 International Business Machines Corporation Establishing a graphical user interface (‘GUI’) theme
US9892028B1 (en) 2008-05-16 2018-02-13 On24, Inc. System and method for debugging of webcasting applications during live events
US10430491B1 (en) 2008-05-30 2019-10-01 On24, Inc. System and method for communication between rich internet applications
US8914744B2 (en) * 2008-06-06 2014-12-16 Liquidpixels, Inc. Enhanced zoom and pan for viewing digital images
US20100118037A1 (en) * 2008-09-08 2010-05-13 Apple Inc. Object-aware transitions
US20100064222A1 (en) 2008-09-08 2010-03-11 Apple Inc. Object-aware transitions
US7721209B2 (en) * 2008-09-08 2010-05-18 Apple Inc. Object-aware transitions
EP2338271A1 (en) * 2008-10-07 2011-06-29 Koninklijke Philips Electronics N.V. Method and apparatus for generating a sequence of a plurality of images to be displayed whilst accompanied by audio
US8775918B2 (en) * 2008-10-07 2014-07-08 Visual Software Systems Ltd. System and method for automatic improvement of electronic presentations
US8788963B2 (en) * 2008-10-15 2014-07-22 Apple Inc. Scrollable preview of content
US8522298B2 (en) * 2008-11-07 2013-08-27 Hillcrest Laboratories, Inc. Methods and systems for transmitting synchronized visual and audio media
EP2224357A1 (en) * 2009-02-27 2010-09-01 BRITISH TELECOMMUNICATIONS public limited company Video segmentation
US8392004B2 (en) * 2009-04-30 2013-03-05 Apple Inc. Automatic audio adjustment
US20100306701A1 (en) * 2009-05-29 2010-12-02 Sean Glen Creation, Previsualization, Communication, and Documentation of Choreographed Movement
US20100318916A1 (en) * 2009-06-11 2010-12-16 David Wilkins System and method for generating multimedia presentations
US20110154199A1 (en) * 2009-12-17 2011-06-23 Flying Car Ltd. Method of Playing An Enriched Audio File
US9774948B2 (en) 2010-02-18 2017-09-26 The Trustees Of Dartmouth College System and method for automatically remixing digital music
US11438410B2 (en) 2010-04-07 2022-09-06 On24, Inc. Communication console with component aggregation
US8706812B2 (en) 2010-04-07 2014-04-22 On24, Inc. Communication console with component aggregation
US9323438B2 (en) 2010-07-15 2016-04-26 Apple Inc. Media-editing application with live dragging and live editing capabilities
US8670070B2 (en) * 2010-07-15 2014-03-11 Broadcom Corporation Method and system for achieving better picture quality in various zoom modes
US8726161B2 (en) * 2010-10-19 2014-05-13 Apple Inc. Visual presentation composition
US8862254B2 (en) 2011-01-13 2014-10-14 Apple Inc. Background audio processing
US8775480B2 (en) 2011-01-28 2014-07-08 Apple Inc. Media clip management
US8910032B2 (en) 2011-01-28 2014-12-09 Apple Inc. Media-editing application with automatic background rendering capabilities
US8842842B2 (en) 2011-02-01 2014-09-23 Apple Inc. Detection of audio channel configuration
US8621355B2 (en) 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
US8611655B2 (en) 2011-02-04 2013-12-17 Apple Inc. Hue-based color matching
US8842911B2 (en) 2011-02-04 2014-09-23 Apple Inc. Luma-based color matching
US8594426B2 (en) 2011-02-04 2013-11-26 Apple Inc. Color matching using color segmentation
US8887074B2 (en) 2011-02-16 2014-11-11 Apple Inc. Rigging parameters to create effects and animation
US8854370B2 (en) 2011-02-16 2014-10-07 Apple Inc. Color waveform
US8823726B2 (en) 2011-02-16 2014-09-02 Apple Inc. Color balance
US11747972B2 (en) 2011-02-16 2023-09-05 Apple Inc. Media-editing application with novel editing tools
US8767970B2 (en) 2011-02-16 2014-07-01 Apple Inc. Audio panning with multi-channel surround sound decoding
US9997196B2 (en) 2011-02-16 2018-06-12 Apple Inc. Retiming media presentations
US10543715B2 (en) * 2016-09-08 2020-01-28 Stempf Automotive Industries, Inc. Wheel centering sleeve
US8682895B1 (en) 2011-03-31 2014-03-25 Twitter, Inc. Content resonance
US9319359B1 (en) 2011-03-31 2016-04-19 Twitter, Inc. Promoting content in a real-time messaging platform
US9117227B1 (en) * 2011-03-31 2015-08-25 Twitter, Inc. Temporal features in a messaging platform
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
US8707152B2 (en) * 2012-01-17 2014-04-22 Apple Inc. Presenting images from slow image-event stream
US9613084B2 (en) * 2012-06-13 2017-04-04 Microsoft Technology Licensing, Llc Using cinematic techniques to present data
US9390527B2 (en) * 2012-06-13 2016-07-12 Microsoft Technology Licensing, Llc Using cinematic technique taxonomies to present data
JP5987550B2 (ja) * 2012-08-10 2016-09-07 株式会社リコー 画像処理装置および画像処理方法および画像形成装置
US8995727B2 (en) 2012-08-14 2015-03-31 International Business Machines Corporation Image advocacy in portable computing devices
US9886166B2 (en) * 2012-12-29 2018-02-06 Nokia Technologies Oy Method and apparatus for generating audio information
MX2015011424A (es) 2013-03-06 2016-06-06 Arthur J Zito Jr Sistema de presentacion multimedia.
US10650408B1 (en) 2013-03-15 2020-05-12 Twitter, Inc. Budget smoothing in a messaging platform
US9361322B1 (en) 2013-03-15 2016-06-07 Twitter, Inc. Unidirectional lookalike campaigns in a messaging platform
US10282075B2 (en) 2013-06-24 2019-05-07 Microsoft Technology Licensing, Llc Automatic presentation of slide design suggestions
US20160189404A1 (en) * 2013-06-28 2016-06-30 Microsoft Corporation Selecting and Editing Visual Elements with Attribute Groups
KR20150024650A (ko) * 2013-08-27 2015-03-09 삼성전자주식회사 전자 장치에서 사운드를 시각적으로 제공하기 위한 방법 및 장치
WO2015042901A1 (en) 2013-09-29 2015-04-02 Microsoft Technology Licensing, Llc Media presentation effects
US11429781B1 (en) 2013-10-22 2022-08-30 On24, Inc. System and method of annotating presentation timeline with questions, comments and notes using simple user inputs in mobile devices
EP3138100B1 (en) 2014-05-02 2020-10-28 Saronikos Trading and Services, Unipessoal Lda Sequential method for the presentation of images with enhanced functionality, and apparatus thereof
US10785325B1 (en) 2014-09-03 2020-09-22 On24, Inc. Audience binning system and method for webcasting and on-line presentations
EP3223516A4 (en) * 2014-12-15 2018-08-01 Sony Corporation Information processing method, video processing device, and program
EP3998610A1 (en) * 2015-09-30 2022-05-18 Apple Inc. Synchronizing audio and video components of an automatically generated audio/video presentation
US10726594B2 (en) 2015-09-30 2020-07-28 Apple Inc. Grouping media content for automatically generating a media presentation
US10528547B2 (en) 2015-11-13 2020-01-07 Microsoft Technology Licensing, Llc Transferring files
US10534748B2 (en) 2015-11-13 2020-01-14 Microsoft Technology Licensing, Llc Content file suggestions
US10904615B2 (en) * 2017-09-07 2021-01-26 International Business Machines Corporation Accessing and analyzing data to select an optimal line-of-sight and determine how media content is distributed and displayed
US11188822B2 (en) 2017-10-05 2021-11-30 On24, Inc. Attendee engagement determining system and method
US11281723B2 (en) 2017-10-05 2022-03-22 On24, Inc. Widget recommendation for an online event using co-occurrence matrix
US20190147060A1 (en) * 2017-11-10 2019-05-16 R2 Ipr Limited Method for automatic generation of multimedia message
US10514882B2 (en) * 2018-02-21 2019-12-24 Microsoft Technology Licensing, Llc Digital audio processing system for adjoining digital audio stems based on computed audio intensity/characteristics
US20200118302A1 (en) * 2018-10-10 2020-04-16 Farimehr Schlake Display of a single or plurality of picture(s) or visual element(s) as a set or group to visually convey information that otherwise would be typed or written or read or sounded out as words or sentences.
CN110233976B (zh) * 2019-06-21 2022-09-09 广州酷狗计算机科技有限公司 视频合成的方法及装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2245745B (en) * 1990-07-06 1994-03-09 Sony Corp Editing digital audio signals associated with video signals
US5355450A (en) * 1992-04-10 1994-10-11 Avid Technology, Inc. Media composer with adjustable source material compression
JP3214087B2 (ja) * 1992-09-04 2001-10-02 ソニー株式会社 編集方法及び編集装置
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US6058141A (en) * 1995-09-28 2000-05-02 Digital Bitcasting Corporation Varied frame rate video
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US5918223A (en) * 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US5969716A (en) * 1996-08-06 1999-10-19 Interval Research Corporation Time-based media processing system
US5949410A (en) * 1996-10-18 1999-09-07 Samsung Electronics Company, Ltd. Apparatus and method for synchronizing audio and video frames in an MPEG presentation system
US6360234B2 (en) * 1997-08-14 2002-03-19 Virage, Inc. Video cataloger system with synchronized encoders
US6067126A (en) * 1998-01-05 2000-05-23 Intel Corporation Method and apparatus for editing a video recording with audio selections
US6247072B1 (en) * 1998-01-27 2001-06-12 Cisco Technology, Inc. Real-time data rate matching across a medium
US20020036694A1 (en) * 1998-05-07 2002-03-28 Merril Jonathan R. Method and system for the storage and retrieval of web-based educational materials
US6369835B1 (en) * 1999-05-18 2002-04-09 Microsoft Corporation Method and system for generating a movie file from a slide show presentation
US6453251B1 (en) * 1999-10-07 2002-09-17 Receptec Llc Testing method for components with reception capabilities
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US20020133520A1 (en) * 2001-03-15 2002-09-19 Matthew Tanner Method of preparing a multimedia recording of a live presentation

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006129453A (ja) * 2004-09-29 2006-05-18 Nikon Corp 画像再生装置、および画像再生プログラム
JP4581924B2 (ja) * 2004-09-29 2010-11-17 株式会社ニコン 画像再生装置、および画像再生プログラム
US8176426B2 (en) 2004-09-29 2012-05-08 Nikon Corporation Image reproduction apparatus and image reproduction program product
JP2010539619A (ja) * 2007-09-18 2010-12-16 マイクロソフト コーポレーション スライドショーイベントと音声の同期化

Also Published As

Publication number Publication date
US7383509B2 (en) 2008-06-03
JP4269849B2 (ja) 2009-05-27
US20040054542A1 (en) 2004-03-18

Similar Documents

Publication Publication Date Title
JP4269849B2 (ja) マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム
JP4228320B2 (ja) 画像処理装置および方法、並びにプログラム
US20100094441A1 (en) Image selection apparatus, image selection method and program
Chen et al. Tiling slideshow
JP4250301B2 (ja) 映像シーケンスを編集する方法及びシステム
US7904815B2 (en) Content-based dynamic photo-to-video methods and apparatuses
US7203380B2 (en) Video production and compaction with collage picture frame user interface
US20050123886A1 (en) Systems and methods for personalized karaoke
US20080019661A1 (en) Producing output video from multiple media sources including multiple video sources
US20120082378A1 (en) method and apparatus for selecting a representative image
JP4988011B2 (ja) 電子機器及び画像処理方法
US20090116811A1 (en) Tagboard for video tagging
KR20110043612A (ko) 이미지 처리
JP2011044140A (ja) 画像セットからの動画コンテンツの生成
JP2004023799A (ja) ビデオの短いセグメントを表示するための方法及びグラフィカルユーザインタフェース
US20050238321A1 (en) Image editing apparatus, method and program
TW200839556A (en) A photo display system and its operating method
JP2010237516A (ja) 再生演出プログラムおよび再生演出装置
JP2008146191A (ja) 画像出力装置および画像出力方法
JP2006140559A (ja) 画像再生装置及び画像再生方法
TWI244005B (en) Book producing system and method and computer readable recording medium thereof
JP2008067334A (ja) 画像処理装置および方法、並びにプログラム
Hua et al. Automatically converting photographic series into video
JP3534592B2 (ja) 代表画像生成装置
Chu et al. Tiling slideshow: an audiovisual presentation method for consumer photos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081111

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090216

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120306

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130306

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140306

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees