JP2004110821A

JP2004110821A - マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム

Info

Publication number: JP2004110821A
Application number: JP2003307346A
Authority: JP
Inventors: T Foote Jonathan; ジョナサン　ティー．フート; Matthew L Cooper; マシュー　エル．クーパー; David M Hilbert; デイビッド　マイケル　ヒルバート; William N Schilit; ウィリアム　エヌ．シリット
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-09-13
Filing date: 2003-08-29
Publication date: 2004-04-08
Anticipated expiration: 2023-08-29
Also published as: US7383509B2; JP4269849B2; US20040054542A1

Abstract

【課題】　マルチメディアプレゼンテーションを自動的に生成する方法、及びこれらを実行するためのコンピュータプログラムの提供。
【解決手段】　マルチメディアプレゼンテーションを自動的に生成する方法は、音声データにおいて発生する事象に関する時間情報を含む事象リストを受け取り（ステップ２１０）、画像を受け取り（ステップ２２０）、受け取られた画像上でフォーマットを検出し（ステップ２３０）、画像が処理され（ステップ２４０）、画像のプレゼンテーションは事象リストを用いて音声データに自動的に同期する、マルチメディアプレゼンテーションを自動的に生成する（ステップ２５０）ことを有し、この方法は、コンピュータプログラムによって、実行される。
【選択図】　　　図２

Description

　本発明は、一般に、マルチメディア処理に係り、より詳細には、マルチメディアプレゼンテーションを、画像データ及び音声データから、自動的に生成することに関する。即ち、本発明は、マルチメディアプレゼンテーションを自動的に生成する方法及びこれを実行するためのコンピュータプログラムに関する。

　コンピュータ、ディジタルカメラ、及びインターネットの発達に伴って、ディジタル画像を表示（ディスプレイ）するための新しい媒体が現れた。ディジタルカメラ及び他のソースから、画像は、電子メールを介して送られ、インターネット上に表示され、スライドショーとして提供されることが多くなってきている。一般に、スライドショーのアプリケーションは、ユーザが、画像を個別に見ること、ユーザ入力時に次の画像へ進むこと、又は一定の速さで自動的に連続して表示されるスライドショーとして画像を見ることの中から選択できるようにする。これらのアプリケーションのいくつかでは、スライドショーを見ると同時に、音声ファイルが再生されてもよい。

　これらの非同期のマルチメディアプレゼンテーションは、作成するのは比較的容易であるが、一定の速さで画像を表示するスライドショーのアプリケーションによって生成されるので、観察者の関心をうまく持続させることができない。現在のところ、画像表示と音声とのいかなる同期も、これらのアプリケーションにおいては、手動で生成されなければならない。この手動による同期は、音声ファイルから情報を解析して画像を手動で検討するのに途方もなく長い時間がかかる。

本発明の背景技術を開示する文献として、非特許文献１乃至３がある。
カーケイ・サン（Ｋａｈ−Ｋａｙ　Ｓｕｎｇ）、及びトマソ　ポッジオ（Ｔｏｍａｓｏ　Ｐｏｇｇｉｏ）著、「視点ベースの人の顔の検出のための実施例ベースの学習（Ｅｘａｍｐｌｅ−ｂａｓｅｄ　Ｌｅａｒｎｉｎｇ　ｆｏｒ　Ｖｉｅｗ−ｂａｓｅｄ　Ｈｕｍａｎ　Ｆａｃｅ　Ｄｅｔｅｃｔｉｏｎ）」、Ａ．Ｉ．メモ　Ｎｏ．１５２１、Ｃ．Ｂ．Ｃ．Ｌ．論文　Ｎｏ．１１２、人工知能研究所及び生物学上及びコンピュータ学習センター（Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　Ｌａｂｏｒａｔｏｒｙ　ａｎｄ　Ｃｅｎｔｅｒ　ｆｏｒ　Ｂｉｏｌｏｇｉｃａｌ　ａｎｄ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｅａｒｎｉｎｇ）発行、マサチューセッツ工科大学（Ｍａｓｓａｃｈｕｓｅｔｔｓ　Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｔｅｃｈｎｏｌｏｇｙ）、１９９４年１２月カーケイ・サン（Ｋａｈ−Ｋａｙ　Ｓｕｎｇ）、及びトマソ　ポッジオ（Ｔｏｍａｓｏ　Ｐｏｇｇｉｏ）著、「視点ベースの人の顔の検出のための実施例ベースの学習（Ｅｘａｍｐｌｅ−ｂａｓｅｄ　Ｌｅａｒｎｉｎｇ　ｆｏｒ　Ｖｉｅｗ−ｂａｓｅｄ　Ｈｕｍａｎ　Ｆａｃｅ　Ｄｅｔｅｃｔｉｏｎ）」、パターン解析とマシン知能についての紀要（Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｐａｔｔｅｒｎ　Ａｎａｌｙｓｉｓ　ａｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）、ＩＥＥＥ、Ｖｏｌ．　２０、Ｎｏ.１、１９９８年１月ザッブロドスキー（Ｈ．Ｚａｂｒｏｄｓｋｙ）、ペーレグ（Ｓ．Ｐｅｌｅｇ）、及び　アブニル（Ｄ．Ａｖｎｉｒ）著、「連続的特徴としてのシンメトリ（Ｓｙｍｍｅｔｒｙ　ａｓ　ａ　Ｃｏｎｔｉｎｕｏｕｓ　Ｆｅａｔｕｒｅ）」、ヘブライ大学（Ｈｅｂｒｅｗ　Ｕｎｉｖｅｒｓｉｔｙ）、イエルサレム（Ｊｅｒｕｓａｌｅｍ）、９１９０４、イエルサレム（Ｊｅｒｕｓａｌｅｍ）、イスラエル（Ｉｓｒａｅｌ）

　本発明の目的は、音声ファイルと画像のセットとを自動的に同期させるマルチメディアプレゼンテーションを生成するシステム及び方法を提供することである。

　本発明は、画像データと音声データを自動的に結合してマルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、システムによって受け取られる。音声データは、音声ファイルの中で、時間差をもって、関心が持たれるポイントに対応する事象リストを含む。音声データは、音声ファイル又は音声ストリームを含んでいてもよい。次に、画像は、事象リストを用いて、音声ファイル又は音声ストリームに整合される。

　一つの実施の形態において、事象は、音声ファイルの中で何らかの特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。一つの実施の形態において、音声事象リストは、音声事象を除去したり、分類したり、予測したり、そうでない場合は、生成したりするために処理されてもよい。画像も処理されてもよい。画像処理は、事象リストに整合する画像を決定するための画像解析、画像の削除、及び効果（エフェクト）を取り入れた画像の処理を含んでいてもよい。画像効果は、クロップ、パン、ズーム、及び他の視覚的な効果を含んでいてもよい。

　本発明の請求項１によれば、音声データにおいて発生する事象に関する時間の情報を含む、事象リストを受け取るステップと、画像を受け取るステップと、前記事象リストを用いて前記音声データと自動的に同期する画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するステップと、を有する、マルチメディアプレゼンテーションを自動的に生成する方法である。

　本発明の請求項２は、請求項１において、マルチメディアプレゼンテーションで使用する画像の数を自動的に決定するステップを含む、画像を処理するステップを更に有する、方法であってもよい。

　本発明の請求項３は、請求項２において、使用する画像の数を自動的に決定するステップが、画像より多くの事象が存在する場合、事象を削除するステップを含む、方法であってもよい。

　本発明の請求項４は、請求項３において、事象を削除するステップが、各事象に関連付けられる数値に従って事象を分類するステップと、各事象に関連付けられる数値に従って事象を削除するステップと、を含む、方法であってもよい。

　本発明の請求項５は、請求項４において、数値が重要度スコアである、方法であってもよい。

　本発明の請求項６は、請求項２において、使用する画像の数を自動的に決定するステップが、事象より多くの画像が存在する場合、画像を削除するステップを含む、方法であってもよい。

　本発明の請求項７は、請求項６において、画像を削除するステップが、受け取られた画像内の画像のクラスタを検出するステップであって、クラスタがキーフレームを含む、ステップと、画像の検出されたクラスタ内の画像を削除するステップであって、削除された画像がクラスタキーフレームに最も類似している、ステップと、を含む、方法であってもよい。

　本発明の請求項８は、請求項６において、画像を削除するステップが、事象リスト内の事象に整合させるための整合画像特徴を自動的に決定するステップと、特徴を検出するために画像を解析するステップと、整合画像特徴と、検出された特徴と、に基づいて、画像を削除するステップと、を含む、方法であってもよい。。

本発明の請求項９は、請求項１において、画像を処理するステップを更に含み、画像を処理するステップが、マルチメディアプレゼンテーションで使用する画像の順序を自動的に決定するステップを含む、方法であってもよい。

本発明の請求項１０は、請求項９において、画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、請求項９に記載の方法であって、画像の順序を自動的に決定するステップが、（ａ）特徴タイプを事象タイプに整合させるステップと、（ｂ）画像毎に画像特徴を検出するために画像を自動的に解析するステップと、（ｃ）画像を事象リスト内の事象に整合させることによって画像の順序を自動的に決定するステップであって、整合された画像特徴が、ステップ（ａ）で整合された特徴タイプに関連付けられ、整合された事象が、ステップ（ａ）で整合された事象タイプに関連付けられる、ステップを含む、方法であってもよい。

本発明の請求項１１は、請求項１０において、画像特徴タイプが、輝度、カラー系、及びクラスタとの関連付けを含む、方法であってもよい。

本発明の請求項１２は、請求項１０において、事象タイプが、振幅のピーク、音の大きさ、バス、トレブル、クレッシェンド、及びディミヌエンドを含む、方法であってもよい。

　本発明の請求項１３は、請求項１において、マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定するステップを含む、画像を処理するステップを更に有する、方法であってもよい。

本発明の請求項１４は、請求項１３において、効果を決定するステップが、事象リスト内の事象の発生時に開始される効果を構成するステップを含む、方法であってもよい。

本発明の請求項１５は、請求項１３において、効果を決定するステップが、事象リスト内の事象の発生時に終了する効果を構成するステップを含む、方法であってもよい。

　本発明の請求項１６は、請求項１３において、効果が画像内の観察窓をパンするステップを含む、方法であってもよい。

　本発明の請求項１７は、請求項１６において、画像が第１のアスペクト比を有する第１のフォーマットで受け取られ、画像が第２のアスペクト比を有する第２のフォーマットでマルチメディアプレゼンテーションにおいて表示され、観察窓が第２のアスペクト比になるように構成される、方法であってもよい。

　本発明の請求項１８は、請求項１６において、パンするステップが、エッジからホットスポットへパンするステップを含む、方法であってもよい。

　本発明の請求項１９は、請求項１８において、パンするステップが、画像内のホットスポットを検出するステップと、ホットスポットから最も離れた画像のエッジを決定するステップと、ホットスポットから最も離れたエッジからホットスポットに最も接近したエッジまで観察窓をパンするステップと、を含む、方法であってもよい。

　本発明の請求項２０は、請求項１６において、観察窓をパンするステップが、画像内の位置から空間的周波数の角分布を検出するステップと、最大の空間周波数を有する方向に沿った位置から観察窓をパンするステップと、を含む、方法であってもよい。

　本発明の請求項２１は、請求項１３において、効果がズームするステップを有する、方法であってもよい。

　本発明の請求項２２は、請求項２１において、ズームするステップが、画像内のホットスポットを検出するステップと、ホットスポットにおいてズームオペレーションを実行するステップと、を含む、方法であってもよい。

　本発明の請求項２３は、請求項２１において、ズームするステップが、画像内でシンメトリを検出するステップであって、シンメトリが中心を有し、中心においてズームオペレーションを実行する、ステップを含む、方法であってもよい。

本発明の請求項２４によれば、サーバコンピュータによって実行する、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータプログラムであって、音声データにおいて発生する事象に関する時間情報を含む、事象リストを受け取るコンピュータコードと、画像を受け取るコンピュータコードと、事象リストを用いて音声データに自動的に同期される、画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータコードと、を備える、コンピュータプログラムである。

　本発明の請求項２５は、請求項２４において、各事象に関連付けられる重要度スコアに従って事象を分類するためのコンピュータコードと、各事象に関連付けられる重要度スコアに従って事象を削除するコンピュータコードと、を含む、使用する画像の数を自動的に決定するコンピュータコードを更に有する、コンピュータプログラムであってもよい。

　本発明の請求項２６は、請求項２４において、受け取られた画像内の画像のキーフレームを含むクラスタを検出するコンピュータコードと、クラスタキーフレームに最も類似している検出された画像のクラスタ内の画像を削除するコンピュータコードと、を含む、画像を削除するコンピュータコードを更に有する、コンピュータプログラムであってもよい。

　本発明の請求項２７は、請求項２４において、事象リスト内の事象に整合させる整合画像特徴を自動的に決定するコンピュータコードと、特徴を検出するために画像を解析するコンピュータコードと、整合画像特徴と検出された特徴とに基づいて画像を削除するためのコンピュータコードと、含む、画像を削除するコンピュータコードを更に有する、コンピュータプログラムであってもよい。

　本発明の請求項２８は、請求項２４において、マルチメディアプレゼンテーションで使用するための画像の順序を自動的に決定するステップを含む、画像を処理するコンピュータコードを更に有する、コンピュータプログラムであってもよい。

　本発明の請求項２９は、請求項２８において、画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、コンピュータプログラムであって、画像の順序を自動的に決定するコンピュータコードが、（ａ）特徴タイプを事象タイプに整合させるコンピュータコードと、（ｂ）画像毎に画像特徴を検出するために画像を自動的に解析するコンピュータコードと、（ｃ）事象リスト内の事象に画像を整合させることによって画像の順序を自動的に決定するコンピュータコードであって、整合された画像特徴が、コンピュータコード（ａ）で整合された特徴タイプに関連付けられ、整合された事象が、コンピュータコード（ａ）で整合された事象タイプに関連付けられることを含む、コンピュータプログラムであってもよい。

　本発明の請求項３０は、請求項２４において、マルチメディアプレゼンテーションで表示される画像に取り入れられる効果を自動的に決定することを含む、画像を処理するコンピュータコードを更に有する、コンピュータプログラムであってもよい。

　本発明の請求項３１は、請求項３０において、効果が、画像内の観察窓をパンすることを有し、画像が、第１のアスペクト比を有する第１のフォーマットで受け取られ、画像が、第２のアスペクト比を有する第２のフォーマットでマルチメディアプレゼンテーションにおいて表示され、観察窓が第２のアスペクト比になるように構成される、コンピュータプログラムであってもよい。

　本発明の請求項３２は、請求項３１において、パンするコンピュータコードが、エッジからホットスポットへパンすることを含む、コンピュータプログラムであってもよい。

　本発明の請求項３３は、請求項３１において、観察窓をパンするコンピュータコードが、画像内の位置から空間的周波数の角分布を検出するコンピュータコードと、最大の空間周波数を有する方向に沿った位置から観察窓をパンするコンピュータコードと、を含む、コンピュータプログラムであってもよい。

　本発明の請求項３４は、請求項３０において、効果がズームを含む、コンピュータプログラムであってもよい。

　本発明は、画像データと音声データを自動的に結合して、マルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、このシステムによって受け取られる。音声データは、音声ファイル内の関心が持たれるポイントに対応する事象のリストを含む。音声データは、音声ファイル又は音声ストリームも含んでいてもよい。次に、画像は、時間を用いて音声ファイル又は音声ストリームに整合される。一つの実施の形態において、事象は、音声ファイル内にある特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。一つの実施の形態において、音声事象リストは、音声事象を、除去したり、分類したり、予測したり、或いは、そうでない場合は、音声事象を生成したりするように、処理されてもよい。画像も処理されてもよい。画像処理は、事象リストに整合する画像を決定するための画像解析、画像の削除、及び効果を取り入れるための画像処理を含んでいてもよい。画像効果は、クロップ、パン、ズーム、及び他の視覚的な効果を含んでいてもよい。

　図１には、マルチメディアプレゼンテーションを生成するシステム１００が示されている。システム１００は、音声事象リスト１１０、画像１２０、マルチメディア処理システム（ＭＰＳ）１３０、及びマルチメディアファイル１４０を含む。ＭＰＳは、事象リスト処理システム（ＥＬＰＳ）１３２、画像処理システム（ＩＰＳ）１３４、及び音声処理システム（ＡＰＳ）１３６を含む。音声事象リスト１１０及び画像１２０は、ＭＰＳ１３０によって受け取られる。一つの実施の形態において、ＭＰＳは、受け取られた音声ファイルから事象リストを生成する。次に、ＭＰＳ１３０は、音声事象リストと画像とを処理し、マルチメディアファイル（又は、複数のマルチメディアファイル）１４０を出力する。

　図１のシステム１００のオペレーションは、図２の方法２００に示されている。方法２００は、スタートステップ２０５から開始される。次に、ステップ２１０において、事象リストが受け取られる。事象リストは、音声ファイル又は音声ストリームにおいて事象が発生する時間を導き出すことができる、情報を含む。時間情報は、タイムスタンプデータ又は他の時間に関連する情報であってもよい。一つの実施の形態において、ステップ２１０において、音声ファイル又は音声ストリームそれ自体が受け取られてもよい。また他の実施の形態において、ＭＰＳは、受け取られた音声ファイル又は音声ストリームから事象リストを生成してもよい。この実施の形態において、事象リストの生成は、２０００年５月１１日に出願された、発明者、ジョナサン・フート（Ｊｏｎａｔｈａｎ　Ｆｏｏｔｅ）による、「音楽と音声の自動解析のための方法（Ｍｅｔｈｏｄｓ　ｆｏｒ　ｔｈｅ　Ａｕｔｏｍａｔｉｃ　Ａｎａｌｙｓｉｓ　ｏｆ　Ｍｕｓｉｃ　ａｎｄ　Ａｕｄｉｏ）」と題された米国特許出願第０９／５６９，２３０号に説明されているように実行されてもよい。本発明は、音声ファイル又は音声ストリームのいずれかからのマルチメディアプレゼンテーションを生成するために実施されてもよいが、本発明は、図示目的のための音声ファイルに関してのみ、説明されている。音声ファイルは、音楽、スピーチ、自然発生的又は人工の音、又はこれらの組合せを含む任意のタイプの音声のコンテンツを含んでいてもよい。一つの実施の形態において、ＡＰＳ１３６は、音声がマルチメディアプレゼンテーションに使用するための異なるフォーマットに変換されなければならない場合に受け取られる音声ファイルのフォーマットを検出してもよい。例えば、ＦＬＡＳＨフォーマットで音声を利用するマルチメディアプレゼンテーションは、ｍｐ３ファイルを取り入れる。このように、ＡＰＳ１３６は、入力音声が、．ｗａｖフォーマット、又はｍｐ３以外の何らかのフォーマットであるか否かを検出する場合もある。

　事象リストは、音声ファイルに対応する事象のリストである。事象の発生は、タイムスタンプ又は音声ファイル内で事象が発生する時間を表す他のデータによって表される。一つの実施の形態において、事象は、音声ファイルで発生する、関心が持たれる事象又は重要な変更をさす。事象の例としては、振幅包絡線のピーク、音声の音の大きさ又は音色における変化、クレッシェンド又はディミヌェンド、又はいくつかの他の検出可能な又は予測可能な音声の特性を含む。事象の時間を表すこと以外に、事象に関する識別又は量的な情報などの他の情報が受け取られてもよい。事象の識別情報は、事象の特性のタイプを指定するインジケータ、或いは、事象タイプ、レベル、又は重要度のより詳細を提供する他の情報、を含んでいてもよい。事象の量的情報は、信号特性に対して到達した大きさの比率又は平均レベルのパーセントを含んでいてもよい。一つの実施の形態において、ステップ２１０において受け取られた事象リストは、ＥＬＰＳによって処理される。事象リストの処理は、リストの一部を切捨てること、他を保持しながらも、いくつかのタイプの事象を削除すること、又は他の処理を含んでいてもよい。事象リスト処理に関しては、図４及び図５によって、より詳細に説明されている。

　次に、ステップ２２０において、システムは、画像を受け取る。画像は、ビデオ画像、静止フレーム画像、ディジタルカメラからの画像、非ディジタルカメラからのディジタルフォーマットでの画像、又はいくつかの他のタイプの画像であってもよい。受け取られる画像は、ｊｐｅｇ、ｂｍｐ、ｇｉｆ、ｔｉｆｆ、及びｐｃｘを含む任意の電子フォーマットであってもよい。一つの実施の形態において、ステップ２３０において、受け取られた画像上でフォーマットの検出が実行される。ＭＰＳ（マルチメディア処理システム）は、画像が異なるフォーマットで受け取られるように、画像が結果として生じるマルチメディアプレゼンテーションでの画像のフォーマットとは異なるフォーマットで受け取られるように、又は、特別なアプリケーションによって決定されるような他の理由から、このステップを実行してもよい。一つの実施の形態において、フォーマットが認識されると、画像のアスペクト比が求められるだけでなく、マルチメディアプレゼンテーションの所望されるアスペクト比になるように画像を変換するための任意の処理が要求され得る。一つの実施の形態において、受け取られた画像は、ＭＰＳによって後から検索（リトリーブ）するためにメモリに入れられる。フォーマットの検出は、生成されるプレゼンテーション次第で選択することが可能なステップであってもよい。次に、ステップ２４０において、画像が処理される。画像処理は、マルチメディアプレゼンテーションに画像を含むことを前提に準備するために、画像に対して行われる処理を含む。画像処理は、以下の図３によって、より詳細に説明される。

　画像処理後、ステップ２５０において、マルチメディアプレゼンテーションが生成される。マルチメディアプレゼンテーションは、ステップ２２０において受け取られた画像を整合することによって生成され、ステップ２１０において受け取られた事象リストにリストされる事象になるように、ステップ２４０において、任意に処理される。一つの実施の形態において、プレゼンテーションは、単一ファイル又はメディアフォーマットとして生成される。プレゼンテーションは、エンドユーザがプレゼンテーションを再生する場合があるフォーマットで、提供される。可能性のあるマルチメディアフォーマットの例には、ＮＴＳＣ、又はＰＡＬ、ＶＨＳビデオテープ、ＤＶＤ、ＭＰＥＧビデオ、ＦＬＡＳＨ、及びＳＭＩＬなどがある。

　一つの他の実施の形態において、プレゼンテーションは、音声ファイル、画像、及び事象リストの一つ以上を参照する、ディジタルコントロールファイルとして、生成される。例えば、コントロールファイルは、音声ファイル及び処理された画像の事象リスト及びロケーションを含んでいてもよい。実行される際、コントロールファイルは、音声ファイルの再生を開始し、最初に処理された画像を表示してもよい。音声ファイルの再生は、本発明を実施するソフトウェア又はハードウェアに外付けされたメディアプレーヤによって実行され得る。或いは、ファイル再生は、本発明を実施するソフトウェア又はハードウェアによって実行され得る。音声ファイルの再生時には、コントロールファイルは、音声ファイルの再生に関するメディアプレーヤーからのタイミング情報を受け取ったり、音声ファイル再生に同期する内蔵タイマーを維持していてもよい。何れの場合においても、コントロールファイルは、事象リスト内の次の事象に関連付けられる時間がいつ発生するかを検出する。この時間の発生時、コントロールファイルは、その事象において表示される次の画像（又は複数の画像）を表示する。

　本発明の一つの実施の形態において、一つの画像は、事象リスト内の全ての事象に整合される。従って、プレゼンテーションの開始時には、初期画像が表示され、音声ファイルが再生される。事象リストにリストされるように、第１の事象が発生する音声ファイル内のポイントで、第２の画像が表示される。第２の事象の発生時には、第３の画像が表示される。このプロセスは、音声ファイルの再生が終了するまで、続けられる。他の実施の形態において、画像は、二つ以上の事象発生の間で表示されてもよい。この場合、一つ以上の事象の発生時に起きるように、効果が画像内で構成されてもよい。

　他の実施の形態において、音声再生中、複数の画像が、同時に表示されてもよい。この場合、一つの画像が最初に注目されるフォーカスとなっていてもよい。これは、少なくとも一つの他の画像、別の画像とオーバラップする一つの画像、他の複数の画像よりも大きな一つの画像、又はこれらを組合せたものに囲まれた中心画像を表示することによって、又は複数の画像の一つを強調する何らかの他の方法によって、達成され得る。音声事象が発生すると、フォーカスは、他の画像へ変化し得る。画像の配置以外に、輝度の調整や画像に対するズームや回転動作を取り入れることを含む、一つの画像へのフォーカスを生成する他の方法が使用されてもよい。ステップ２５０においてマルチメディアプレゼンテーションを生成した後、方法２００は、ステップ２５５で、終了する。

　本発明の一つの実施の形態による画像を処理する方法が、図３の方法３００において示されている。方法３００のステップの順序は、アプリケーションが違えば、変わる場合もあり、示されている方法は、本発明の一つの実施の形態における画像処理の例だけを示すことを目的としている。方法３００は、スタートステップ３０５から、開始される。次に、ステップ３１０において、プレゼンテーションにおいて使用される画像数が決定される。本発明の一つの実施の形態において、ステップ２２０においてシステムによって受け取られた画像の全てが、プレゼンテーションを生成するために使用される。他の実施の形態において、ステップ２１０において受け取られる事象リスト内の事象の数に応じて、より多い画像又はより少ない画像が所望される。ステップ２１０において受け取られた音声事象リストとステップ２２０において受け取られた画像の数とが整合しない時、画像と事象の数は変更され得る。システムが、画像が削除すべきであると判断する場合、ステップ３１０において、これらの画像が削除されてもよい。上述されるように、プレゼンテーションへの影響を最小限に抑えるべく、削除すべき画像が選択される。

　一つの実施の形態において、図４の方法４００に従って、画像数が決定される。この実施の形態において、事象リスト処理システム１３２は、事象リスト内の事象の数と受け取られた画像の数とを調整するための処理を自動的に開始してもよい。方法４００は、スタートステップ４０５から開始される。次に、ステップ４１０において、事象リスト内の事象の数と、受け取られた画像の数と、が比較される。事象が画像より多い場合、オペレーションはステップ４２０へ進む。画像が事象より多い場合、オペレーションはステップ４４０へ進む。

　ステップ４２０において、ＥＬＰＳは、事象が削除されるべきか否かを決定する。一つの実施の形態において、この決定はユーザ入力に基づいて行われ得る。他の実施の形態において、この決定は自動的に行われ得る。決定が自動的に行われる場合、ＥＬＰＳは、事象を削除するための論理手段を提案し得る任意の特性又は特性パターンの存在を決定するために事象リストを解析してもよい。これには、重要度の格付け、事象間のスペーシング、及び事象リストに存在する事象タイプについて、事象リストを解析することを含む場合もある。ステップ４２０において削除すべき事象がない場合、オペレーションは、ステップ４２５へ進み、ＥＬＰＳは、余分な事象を使用するための効果をプレゼンテーションに取り入れることを決定する。効果を画像に取り入れることは、以下の図３のステップ３３０において、以下により詳細に説明される。

　ステップ４２０において、ＥＬＰＳがいくつかの事象を削除すべきであると決定する場合、事象はいくつかの方法で削除されるように解析されて選択され得る。一つの実施の形態において、各事象は、いくつかの方法で、数値に関連付けされる。次に、この数値は、あるとすれば、どの事象が削除されるべきかを決定するために使用され得る。一つの実施の形態において、数値は、重要度を表すスコアである。ステップ４３２に示されるように、ＥＬＰＳは重要度によって事象を分類する場合もある。一つの実施の形態において、重要度は、音声事象として表示される遷移（トランジション）のいずれかのサイドにおける音声の二つの部分間の変化の度合であってもよい。或いは、重要度は、音声の特徴の大きさを表したり、音声の特徴又は特性のいくつかの他の表示を示したりすることもある。分類後は、次に、ＥＬＰＳは、ステップ４３３において最重要又は最有効の事象のみが残るように、多数の所望される事象になるように事象リストを切り捨てることもできる。より重要な事象に基づいて生成されることによって得られたマルチメディアプレゼンテーションは、より劇的であり、面白いプレゼンテーションである。

　他の実施の形態において、ステップ４３４におけるように、事象リストは、事象間のスペーシングによって分類されてもよい。この場合、ＥＬＰＳは、しきい値を生成し、少なくともこのしきい値によってどの事象が離間されていないかを決定し得る。従って、この場合、数値は、事象又はタイムスタンプデータ間の時間間隔を含んでいてもよい。或いは、ＥＬＰＳは、隣接する事象間のスペーシングによって事象を分類し、削除されるべき事象として最も接近して離間された事象を選択してもよい。次に、ステップ４３５において、スペーシングによって除去されるべき事象が除去される。これによって、音声ファイルと同期しつつも、プレゼンテーションを提供することができ、このプレゼンテーションにおいて、表示された画像における変化は、当該プレゼンテーションを通して均一に発生する。他の実施の形態において、ステップ４３６において示されるように、事象リストは、事象タイプを表す数値によって解析されてもよい。存在する事象タイプ及びリスト内に存在する各事象の数に基づいて、ＥＬＰＳは、事象を除去することができる。一つの実施の形態において、事象タイプの発生頻度に基づいて、除去すべき事象が選択されてもよい。例えば、事象リストは、１０個の事象、即ち、四つのクレッシェンド、四つのディミヌエンド、一つの振幅のピーク、及び一つの音色の変化、を有していてもよい。事象の数を８個の事象に減らすように要求された場合、ＥＬＰＳは、クレッシェンドとディミヌエンドの事象を一つずつ除去してもよい。これでも、音声事象リストにはまだ四つの種類の事象が残されているので、多種多様な事象を提供することによって、プレゼンテーションをより面白いものにすることができる。或いは、特別なタイプの事象は、除去するためにマーキングされてもよい。従って、ＥＬＰＳは、タイプだけに依存して、ある一定の順序で、事象を除去する場合もある。除去すべき事象タイプは、ユーザ入力、又はシステムにおけるデフォルトな設定によって決定され得る。

　ステップ４３２乃至４３７において、ＥＬＰＳは、所望数の事象がリスト内で得られるまで事象を除去しつづけてもよい。一つの実施の形態においては、所望数の事象は、マルチメディアプレゼンテーション内で使用される画像数であってもよい。他の実施の形態において、所望数の事象は、一回で表示される画像の数及びプレゼンテーションにおいて画像に取り入れられる効果に応じて、使用する画像の数より、わずかに多くなったり、わずかに少なくなったりする場合がある。更に、削除方法の組み合わせを使用して、どの事象を除去すべきかを判断することもできる。一つの実施の形態において、ＥＬＰＳ内の１組のヒューリスティックは、事象リスト内の事象間で受容可能なスペーシングを決定したり、事象の重要度に応じて削除すべき事象の数を決定するために使用されてもよい。これによって、互いに接近しすぎていると判断された二つの事象の間では、より重要であるとされる事象が保持され、あまり重要でないとされる事象が削除される。

　ステップ４４０において、ＥＬＰＳは、画像が削除されるべきかを判断する。一つの実施の形態において、これは、任意の画像が削除されるべきか否かを示すユーザ入力に基づいて、判断され得る。他の実施の形態において、ＥＬＰＳは、任意の画像が削除されるべきかを自動的に判断する。ＥＬＰＳは、この判断を行う際に、ＩＰＳから入力を受け取ってもよい。この実施の形態において、ＩＰＳは、画像の特性が、事象を削除するための論理手段を提案するかを判断するために、画像をそのクラスタ及びキーフレーム又は他の特性について解析する場合もある。例えば、クラスタグループについて、１セットの画像を解析すると、結果的に、四つのクラスタを検出することになる。この場合、各クラスタは、そのクラスタ内の他の画像と類似したいくつかの画像を有しているため、このセットから、四つの画像を削除する必要がある。カラーヒストグラム類似度を用いた集塊的（アグロメラティブ）クラスタや階層的アグロメラティブクラスタなどの類似度測定法に基づく種々のクラスタ技術が、受け取られた画像を、自動的に決定された又はユーザが決定したクラスタの数になるように、グルーピングするために使用され得る。この場合、ＥＬＰＳは、一つの画像が他の画像において捕捉（キャプチャ）されない数多くのもとの内容を失わずに各クラスタから除去され得るため、画像が削除されるべきであることを自動的に判断する場合もある。ＥＬＰＳが、画像は削除しなくてよいと判断した場合、オペレーションは、ステップ４４２、ステップ４４４、又は両ステップへ進む。ＥＬＰＳが、ステップ４４０において、画像が削除するべきであると判断した場合、オペレーションは、ステップ４５２、ステップ４５４、又は両ステップへ進む。

　一つの実施の形態において、画像が事象より多いときに削除される画像がない場合、ステップ４４２において、システムは、事象を予測するか、あるいは、事象を生成する場合がある。一つの実施の形態において、事象は、予測可能に規則的な間隔で発生する事象などの関連する事象のパターンを検出することによって予測されてもよい。例えば、予測可能な音声の特性は、ダウンビートを含むこともある。歌は、ダウンビートパターンを有していてもよい。このダウンビートパターンにおいて、ダウンビートは、２連続の小節で発生し、第３の小節をスキップし、次に、第４の小節で再び発生する。ダウンビートは第３の小節で全く存在しないが、この第３の小節が音声ファイルの関心が持たれる事象となるかもしれないことが予測され得る。このように、事象は第３の小節で作成されてもよい。また、事象は、既存の事象間のスペーシングに基づいても発生され得るが、二つの他の事象間の大きな一時的なギャップでは全く検出されない。受け取られた画像が削除されない他の実施の形態において、ステップ４４４に示されているように、一つ以上の事象の発生時に複数の画像を表示することが決定され得る。

　ステップ４４０において、ＥＬＰＳが、画像が削除されるべきであると判断した場合、ＩＰＳはいくつかの方法で画像を削除してもよい。一つの実施の形態において、ステップ４５２において、ＩＰＳは、キーフレームが選択され得る画像のクラスタを決定するために、画像を解析することもある。この実施の形態において、クラスタは、単一のクラスタ内の画像がそのクラスタから選択されたキーフレームに類似した特徴を有するように、決定される。クラスタ用にキーフレームが選択されると、ステップ４５３において、キーフレームに最も類似したクラスタ画像が削除されてもよい。これは、削除された画像を介してのコンテンツロスを最小に抑える。画像は、所望数の画像に達するまで、一つ以上のクラスタから、このようにして削除され得る。他の実施の形態において、画像は、事象リストと画像がどのように整合するかに対応するように、削除される。この実施の形態において、事象リストは、ステップ４５４において、解析される。事象リストを解析することは、振幅関連事象、音の大きさ事象、又は他の事象タイプなどのうち、どのタイプの事象が事象リストに存在するかを判断することを含んでいてもよい。次に、ステップ４５５において、画像は、輝度、カラー系、及び他の特徴などの特徴について解析され得る。次に、ステップ４５６において、ＩＰＳ又はＥＬＰＳは、どの画像が事象リストの事象に潜在的に整合したかに基づいて、削除すべき画像を決定することができる。プレゼンテーションは、例えば、画像カラー系によって画像に整合された音声ピッチ関連事象を有していてもよい。この場合、ハイピッチ事象は、暖色系を有する画像に整合され、ローピッチ事象は、寒色系を有する画像に整合される。事象リストが、ハイピッチからローピッチまでの音声の変化を表す事象を含み、大部分の画像が暖色系を有し、少数の画像が寒色系を有する場合、システムは、余分な暖色系の画像を削除することを決定してもよい。

　ステップ４５２乃至４５６において、ＥＬＰＳは、所望数の画像に達するまで、画像を除去し続けてもよい。所望数の画像は、事象リスト内の事象の数と一致していてもよいし、一回に表示される画像数や、プレゼンテーションにおいて画像に取り入れられる任意の効果に応じて、事象の数よりもわずかに多かったり少なかったりする。また、削除方法の組み合わせが、どの画像が削除されるべきかを判断するために使用されてもよい。一つの実施の形態において、ＩＰＳ内の１組のヒューリスティック（経験則）は、画像のクラスタ、及び事象リストに整合される際にどのようにして画像が削除されるかを判断するために使用され得る。従って、クラスタ内のキーフレームに類似していると判断された二つの画像間では、これら二つの画像間の事象により良好に整合されていると評価された画像が保持され、他は削除される。

　図４の方法４００は、本発明の一つの実施の形態による事象リストと画像に基づいたマルチメディアプレゼンテーションにおいて使用される画像を自動的に選択する一つの方法を示す。他の実施の形態は、事象や画像を削除するか又は余分な画像又は事象を取り扱うために、図４に示されたステップよりも少ないか又はそれらに代わるステップを使用してもよい。これらの他の実施の形態は、本発明の範囲を逸脱しないように考慮されており、図４に示されるような方法の図解もまた本発明の範囲を限定しないように意図されている。

　ステップ３１０において、使用される画像の数を決定した後で、ステップ３２０において、画像の順序が自動的に決定される。画像の順序はいくつかの方法で達成され得る。一つの実施の形態において、画像は、画像に対する処理又は解析を必要とせずに順序付けられ得る。これは、画像がどのようにして受け取られたか、画像ファイルネームの辞書式順序によって、又は各ファイルに関連付けされたタイムスタンプ情報による、画像の順序付けを含んでいてもよい。他の実施の形態において、画像はそれらの順序を自動的に決定するように解析されてもよい。本発明の実施の形態によるこのタイプの順序付けが、図５の方法５００に示されている。

　方法５００は、本発明の一つの実施の形態による画像特徴タイプ又は事象タイプを用いた画像の順序付けを検出する方法を示す。整合系が生成され、これによって特徴タイプが事象タイプに整合される。整合系は、自動的に又はユーザ入力によって生成され得る。次に、画像は、画像毎の画像特徴を検出するために解析される。画像は、一つの特徴タイプ、複数のタイプ、又は、事象タイプに整合する非特徴タイプ、に対応する画像特徴を有し得る。次に、画像は、事象タイプに整合する特徴タイプに対応する、任意の検出された特徴に対応する事象リストに応じて順序付けされる。

　本発明の一つの実施の形態による音声事象リストに整合される画像の順序を自動的に決定する方法５００は、スタートステップ５０５から開始される。次に、ステップ５１０において、画像クラスタ及びキーフレームが決定される。ステップ２２０において受け取られた画像は、共通の特徴について解析され、これらの特徴に応じたクラスタにグルーピングされる。分光クラスタ又は階層的アグロメラティブ（集塊的）クラスタを含む、類似度の測定に基づく種々のクラスタ技術が、受け取られた画像を、自動的に又はユーザによって決定されるクラスタ数を有するようにグルーピングするために使用され得る。これらのクラスタから、種々のキーフレーム選択アルゴリズム又は特徴ベースのアプローチが、スライドショーに含むための一つ以上の代表的な画像を決定するために使用され得る。クラスタ及びキーフレームが決定される場合には、ステップ５２０において、これらは、事象タイプ又は事象グループへ整合され得る。事象のグループは、音声部分の最初と最後を示す場合がある。一つの実施の形態において、音声部分は音声ファイルのコーラス及び詩の部分である。この音声の部分は、本明細書中に参照することによって組み込まれる、クーパ（Ｍ．Ｃｏｏｐｅｒ）及びフート（Ｊ．Ｆｏｏｔｅ）による「自動ディジタル音楽サマライゼーションのための方法（Ａ　Ｍｅｔｈｏｄ　ｆｏｒ　Ａｕｔｏｍａｔｉｃ　Ｄｉｇｉｔａｌ　Ｍｕｓｉｃ　Ｓｕｍｍａｒｉｚａｔｉｏｎ）」　と題された米国出願（２００１年、番号記載なし）に記載されている記述などの歌の構造解析技術を用いて検出されてもよい。このように、一つのクラスタは、事象によってマーキングされた最初と最後を有する詩の部分に整合されることもある。第２のクラスタは、事象によってマーキングされる最初と最後を有するコーラス部分に整合されてもよい。それぞれの場合において、更なる事象は、セクションの最初と最後をマーキングする事象間に存在してもよい。

　次に、ステップ５３０において、画像の輝度が、画像特徴として決定され得る。各画像の輝度は、平均化技術に基づいた全体的な輝度値又は画像の異なる部分に対応する一連の輝度の値として表されてもよい。次に、ステップ５４０において、画像は、輝度によってテンポ又は音の大きさ事象に整合される。一つの実施の形態において、より高い輝度値を有する画像は、より速いテンポの音声を示す事象に整合される一方、より低い輝度を有する画像は、より遅いテンポを示す事象に整合される。より高い輝度を有する画像は、高レベルの音の大きさを示す事象に整合され、低い輝度の画像は、低レベルの音の大きさを示す事象に整合され得る。

　ステップ５５０において、カラー系は、各画像に対する画像特徴として決定され得る。一つの実施の形態において、カラー系を決定することは、画像が、黄、赤、及び橙色を基調とする暖色系を有するか、青、緑、及び紫を基調とする寒色系を有するかを決定することを含む場合がある。カラー系が決定されると、ステップ５６０において、画像は、それらのカラー系によるトレブル事象やバス事象などの事象に整合されてもよい。一つの実施の形態において、寒色系を基調とする画像がバス事象に整合されてもよいし、暖色系を基調とする画像がトレブル事象に整合されてもよい。画像の順序付けが終了すると、ステップ５６５において、オペレーションは終了する。

　方法５００は、事象タイプに画像特徴タイプを整合させることによって、音声事象リストに対する画像の順序付けを決定する一つだけの例を示すよう意図されている。異なる画像特性を解析することによる画像の順序付けは、いくつかの方法で行われ得る。例えば、方法５００においては、全部で三つの画像特性の代わりに、一つの画像特性のみが決定されて音声事象に整合され得る。また、他の音声事象が、クレッシェンド、ディミヌエンド、楽器関連事象と対極にある音声関連事象その他などの検出された特徴に整合され得る。以上の同様の変形は、本発明の範囲を逸脱するものではない。

　ステップ３２０において画像の順序付けが決定された後、ステップ３３０において、画像に取り入れられる任意の効果が、決定され、生成される。画像に取り入れられる効果は、クロップ、パン、ズーム、及び他の視覚的効果を含んでいてもよい。一つの実施の形態において、効果は、画像のいかなる解析をも必要とせずに、画像に自動的に取り入れられてもよい。このタイプの効果の例としては、画像の回転と、画像のフェーディングと、解像及びワイピング効果と、画像の輝度、カラー、又は不透明性の調整と、が挙げられる。フェーディングは、一つの画像がフェードアウトしてから次の画像を表示するフェーディング、又は、一つの画像がフェードアウトすると同時に他の画像が同時にフェードインするクロスフェーディングを含む場合がある。ワイピング効果は、一つの画像から他の画像への遷移であってもよく、この場合、遷移は、画像を横切る「ワイピング」ラインとして見ることができる。ワイピングラインの一つの側には、置き換えられる画像があり、ワイピングラインの他の側には、置き換える画像がある。

　他の実施の形態において、効果は、画像への解析が終了した後の画像に取り入れられる場合がある。これらの方法の例は、ドリフトパン、ホットスポットの検出とその方向へのパン、検出された基調となる空間周波数の方向のパン、及びシンメトリック（対称形）領域の中心へのズームインを含んでいてもよい。

　自動ドリフトパンは、ビューイングフレームを画像の一端から他端へパンするために使用され得る。一つの実施の形態において、パンは、観察者が関心を持つなんらかのオブジェクトをビューイングフレームが含むように画像内の一つのエッジで終了する。パンは、画像全体をカバーする場合もあるし、クロップが必要とされるときに取り入れられる場合もある。何れの方法も、異なるアスペクト比に変換される必要のある画像を表示する際に有用であるかもしれない。例えば、写真フォーマット等の一つのアスペクト比を有するフォーマットで受け取られる画像は、ビデオフォーマット等の異なるアスペクト比を有する他のフォーマットで画像を表示するようにクロップされる必要がある。この場合、得られたアスペクト比に応じる観察窓は、観察者が、クロッピングによってオリジナル画像から失われたコンテンツを見ることができるように画像を横切ってパンするために、使用され得る。

　図６ａには、自動ドリフトパンがクロッピングに取り入れられ得る画像の例が示されている。図６ａの画像６００は、岩の上に横たわるオットセイを示す。画像６００において、ビューイングフレーム６１０は、画像の左端から画像の右端へパンするために使用される。従って、観察窓は、画像が上部エッジ６２０と下部エッジ６３０にクロップされ、結果的に得られるプレゼンテーションで使用されるアスペクト比に合わせつつ、オットセイの画像全体を捕捉しながら、左から右へパンされるように選択される。ドリフトパンの他の例が、図６ｂの画像６５０に示されている。画像６５０において、観察窓６６０は、画像の下部に適合するように選択される。観察窓は、マルチメディアプレゼンテーション内の表示された画像のアスペクト比に合うように選択され得る。次に、観察窓は、画像の上部エッジにパンするように画像内を上方移動され得る。このように、最終画像のアスペクト比に応じた観察窓６６０は画像全体を表示しないが、「失われた」画像のコンテンツはパンを介して表示される。パンの速度は、画像の一つのエッジから他のエッジまでのパンの継続時間が、ほぼ二つの音声事象間の継続時間続くように、二つの音声事象の間で整合されてもよい。他の実施の形態において、パン効果は、パンが事象に近似する時間で停止したり開始したりするようにパン効果が生成され得るが、両方同時に発生しない。このように、プレゼンテーションの一部は、画像の静止フレームを数秒間特徴づけ、次に、事象の発生時に停止するパン効果を特徴付けてもよい。パンは、事象と同時にスタートする必要はない。これに対して、パンやいくつかの他の効果は、事象の発生時に開始し、その数秒後のある時間に終了し得るが、パン又は効果は、事象と同時に発生しない。

　ホットスポットは、自動パン技術を生成する際に使用されてもよい。ホットスポットは、関心がもたれ得る画像の任意の部分であってもよい。ホットスポットは、特徴検出技術を用いて又はユーザ対話から自動的に検出されてもよい。図７の画像７００は、ホットスポットへの自動パンが取り入れられ得る画像を示す。

　図７の画像は、風景を背景として人を描いている。人の顔のクローズアップを含む画像の一部７１０は、ホットスポットとして自動的に選択されてもよい。人の顔をホットスポットとして検出するための人の顔を検出するために、「非特許文献１」に示すような様々な技術が用いられ得る。ホットスポットを含むビューイングフレームが決定されると、このホットスポットへパンする方向が決定される。一つの実施の形態において、選択された方向は、ホットスポットから最も遠く離れたエッジへ向かう方向である。この方法は、関心がもたれる風景又は景色等のホットスポットから離れて配置される画像内の関心がもたれるエレメントを捕捉する場合もある。図７に示される実施の形態では、北、南、東、及び西の方向のみが表示されている。しかしながら、他の方向も考えられ得る。ホットスポットから最も遠い長さを有するエッジへ向かう方向は、パン方向であると決定される。図７に示される実施の形態では、西側方向における長さＬ_Wが、Ｌ_W、Ｌ_N、Ｌ_E、及びＬ_Sの中で最も長い。このように、自動的に決定されるビューイングフレームは、長さＬ_Wにわたって、画像の西のエッジから、検出された人の顔のホットスポット７１０まで、パンするように自動的に決定される。考えられる方向が相対的に類似している場合は、パン効果の代わりに、ズームイン効果又はズームアウト効果が画像に取り入れられてもよい。

　他の実施の形態において、パンは、画像内の空間周波数の角分布を解析することによって、自動的に決定され得る。二次元のフーリエ変換は、画像の周波数成分の空間的方向とともに、それらの位相及び大きさを提供する。図８ａの画像８００及び図８ｂの画像８５０は、パン方向を決定するために二次元のフーリエ変換を使用する例を示す。正弦波画像成分８１０は、周波数平面において二つの強いピークを生成する。正弦波成分の角度は、周波数座標に対するピークの角度θから決定され得る。この方向で観察窓をパンすることによって主要な周波数成分の方向への移動が生成される。この方向を決定するために、「方向性マージン」は、周波数平面における原点から半径方向にフーリエ変換の大きさを合計することによって演算され得る。合計が最大である方向が、図８ｂに示されるように観察窓をパンする方向として、選択される。これによって、最高の視覚的変化及び対応する視覚的関心を有するパン効果が確実となる。例えば、写真は、浜辺、海、及び空の水平成分を含んでいてもよい。この写真の最大のマージンは垂直方向にあり、垂直方向のパンは水平より多くの視覚的変化（浜辺、海、空）を生じる。フーリエの大きさを決定するために使用される値は、画素強度値、画像内のストリップから取られた画素強度値の平均、又は画像表示に対応する画像全体にわたって変化するいくつかの他の値、であってもよい。

　パン効果が不在の場合、ホットスポットは、写真を最高の効果にクロップするために使用され得る。例えば、画像は、ホットスポットの存在を決定するために解析され得る。一度検出されると、画像は、検出されたホットスポットが、中心に配置されるか、対称的にされるか、そうでない場合は、画像内で特徴付けられるように、クロップされ得る。

　本発明の一つの実施の形態による画像に取り入れられてもよい他の効果は、ズームである。上述のように、ホットスポット又はキーの特徴が、検出されるか、そうでなければ、既知である場合、領域をズームイン又はズームアウトすることによって、ホットスポット領域への関心を集中することができる。ホットスポット及びキー特徴の他に、注意を領域に集中するためにシンメトリがズームとともに使用され得る。本明細書中に参照することによって組み込まれる、「非特許文献２」及び「非特許文献３」に示すようないくつかの技術が、画像内のシンメトリを自動的に決定するために使用され得る。多くの撮影者は、人の顔、乗り物、自動車、動物、ドア、建物、窓及び橋などの建築構造物、木などの自然のオブジェクト、山や日没などの風景を含むシンメトリを有する写真をとる。それらが展開される方向に軸方向に撮影される街並み、道路、川、及び通路の場合、中心へのズームは、通路や運行方向に沿って移動することの視覚的効果を有する。検出されたシンメトリから決定される自動ズームの例が図９ａの画像９００及び図９ｂの画像９５０に示されている。９１０における垂直ラインに沿ったシンメトリは、画像９１０において検出される。次に、ズーム効果は、開始アウターフレーム９６０から最終インナーフレーム９７０まで実行され得る。或いは、ズーム効果又はズーム動作は、インナーフレームからアウターフレームまで、取り入れられてもよい。

　本発明は、画像データと音声データを自動的に結合してマルチメディアプレゼンテーションを生成するためのシステム及び方法を提供する。一つの実施の形態において、音声データ及び画像データは、このシステムによって受け取られる。音声データは、音声ファイル内の関心がもたれるポイントに対応する事象のリストを含む。音声データは、音声ファイル又は音声ストリームも含んでいてもよい。次に、受け取られた画像は、時間を用いて音声ファイル又は音声ストリームに整合される。一つの実施の形態において、事象は、音声ファイル内にある特徴又は特性が存在する、音声ファイル又は音声ストリーム内の時間を表す。音声事象リストは、音声事象を、除去したり、分類したり、予測したり、そうでない場合は、生成したりするように、処理されてもよい。画像処理は、発生する場合もあるし、また、画像の事象リストへの整合を決定するための画像解析、画像の削除、効果を取り入れるための画像の処理を含む場合もある。画像効果はクロップ、パン、ズーム、及び他の視覚的な効果を含む場合もある。

　本発明の他の特徴、態様、及び目的は、図面及び請求の範囲を再検討することによって得られる。本発明の他の実施の形態が示されているが、本発明及び請求の範囲の精神及び範囲を逸脱するものではない。

　本発明の好ましいとされる実施の形態の以上の記述は、本発明を図解し説明することを目的としてなされているものであり、本発明の全てを網羅しているものでもなく、また、開示されている具体的な形態に限定するものでもない。多くの変更及び変形が行なわれてもよいことは当業者に明確に理解されるものである。実施の形態は、本発明の基本理念及びその実践的な適用性を最もよく説明するために選択され、説明され、これによって、種々の実施の形態を行なったり、考案される特別な使用に適した種々の変更を行なったりすることによって、他の当業者が本発明をより明確に理解できるようにしたものである。本発明の範囲は、以下の請求の範囲及びそれらと同等のものによって定義されるように意図される。

　具体的に設計された集積回路又は他の電子部品からなる本発明の実施の形態に加えて、本発明は、コンピュータ分野の当業者に明確に理解されるように、本発明の開示内容の教示に従ってプログラムされた、従来の汎用又は専用のディジタルコンピュータ又はマイクロプロセッサを用いて便利に実施され得る。

　適切なソフトウェアの符号化（コーディング）は、ソフトウェアの分野の当業者に明確に理解されるように、本発明の開示内容の教示に基づいて、熟練したプログラマーによって容易に提供され得る。本発明は、特定用途向け集積回路の提供によって、又は、従来のコンポーネント回路の適切なネットワークを相互接続することによって、実施されてもよい。

　本発明は、本発明のプロセスのいずれかを実行するためにコンピュータをプログラムするために使用され得るインストラクションを記憶した記憶媒体（メディア）である、コンピュータプログラムプロダクトを含む。この記憶媒体は、限定はされないが、フロッピー（登録商標）ディスク、光学ディスク、ＤＶＤ、ＣＤ−ＲＯＭ、マイクロドライブ、及び磁気光学ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＤＲＡＭ、ＶＲＡＭ、フラッシュメモリデバイス、磁気又は光学カード、ナノシステム（分子メモリＩＣを含む）、又はインストラクション及び／又はデータを記憶する任意のタイプのメディア又はデバイスを含むことができる。

　コンピュータ読込み可能な媒体（複数のメディア）に記憶されると、本発明は、汎用及び／又は専用の両方のコンピュータ又はマイクロプロセッサのハードウェアをコントロールするとともにコンピュータ又はマイクロプロセッサが本発明の結果を使用する人間のユーザ又は他のメカニズムと対話することを可能とするソフトウェアを含む。このようなソフトウェアは、限定はされないが、デバイスドライバ、オペレーティングシステム、及びユーザアプリケーションを含んでいてもよい。最後に、このようなコンピュータリーダブル媒体は、付加的なモデルの表示及び再構築の少なくとも一つを実行するためのソフトウェアを更に有する。

本発明の一つの実施の形態によるマルチメディアプレゼンテーションを生成するためのシステムを示す図である。本発明の一つの実施の形態によるマルチメディアプレゼンテーションを自動的に生成するための方法を示す図である。本発明の一つの実施の形態による画像を自動的に解析するための方法を示す図である。本発明の一つの実施の形態によるマルチメディアプレゼンテーションにおいて使用される画像数を自動的に決定するための方法を示す図である。本発明の一つの実施の形態によるマルチメディアプレゼンテーションにおいて使用される画像順序を自動的に決定するための方法を示す図である。本発明の一つの実施の形態によるドリフトパンを取り入れた画像を示す図である。本発明の一つの実施の形態によるドリフトパンを取り入れた画像を示す図である。本発明の一つの実施の形態によるパンとホットスポットを取り入れた画像を示す図である。本発明の一つの実施の形態による、画像の空間周波数の角分布を解析することによってパンを決定することを示す図である。本発明の一つの実施の形態による、空間周波数の角分布を取り入れることによってパンを決定する画像を示す図である。本発明の一つの実施の形態による、シンメトリ検出を取り入れる画像を示す図である。本発明の一つの実施の形態による、シンメトリ画像へのズームを取り入れることを示す図である。

符号の説明

１００：システム
１１０：音声事象リスト
１２０：画像
１３０：マルチメディア処理システム
１３２：事象リスト処理システム
１３４：画像処理システム
１３６：音声処理システム
１４０：マルチメディアファイル

Claims

　音声データにおいて発生する事象に関する時間の情報を含む、事象リストを受け取るステップと、
　画像を受け取るステップと、
　前記事象リストを用いて前記音声データと自動的に同期する画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するステップと、
　を有する、
　マルチメディアプレゼンテーションを自動的に生成する方法。
　前記マルチメディアプレゼンテーションで使用する画像の数を自動的に決定するステップを含む、画像を処理するステップを更に有する、請求項１に記載の方法。
　前記使用する画像の数を自動的に決定するステップが、画像より多くの事象が存在する場合、事象を削除するステップを含む、請求項２に記載の方法。
　前記事象を削除するステップが、各事象に関連付けられる数値に従って前記事象を分類するステップと、各事象に関連付けられる前記数値に従って事象を削除するステップと、を含む、請求項３に記載の方法。
　前記数値が重要度スコアである、請求項４に記載の方法。
　前記使用する画像の数を自動的に決定するステップが、事象より多くの画像が存在する場合、画像を削除するステップを含む、請求項２に記載の方法。
　前記画像を削除するステップが、前記受け取られた画像内の画像のクラスタを検出するステップであって、前記クラスタがキーフレームを含む、ステップと、前記画像の検出されたクラスタ内の画像を削除するステップであって、前記削除された画像が前記クラスタキーフレームに最も類似している、ステップと、を含む、請求項６に記載の方法。
　前記画像を削除するステップが、前記事象リスト内の事象に整合させるための整合画像特徴を自動的に決定するステップと、特徴を検出するために画像を解析するステップと、前記整合画像特徴と、検出された特徴と、に基づいて、画像を削除するステップと、を含む、請求項６に記載の方法。
画像を処理するステップを更に含み、前記画像を処理するステップが、前記マルチメディアプレゼンテーションで使用する画像の順序を自動的に決定するステップを含む、請求項１に記載の方法。
前記画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、事象リスト内の各事象が事象タイプに関連付けられる、請求項９に記載の方法であって、前記画像の順序を自動的に決定するステップが、（ａ）特徴タイプを事象タイプに整合させるステップと、（ｂ）画像毎に画像特徴を検出するために前記画像を自動的に解析するステップと、（ｃ）画像を前記事象リスト内の事象に整合させることによって前記画像の順序を自動的に決定するステップであって、前記整合された画像特徴が、前記ステップ（ａ）で整合された特徴タイプに関連付けられ、前記整合された事象が、前記ステップ（ａ）で整合された事象タイプに関連付けられる、ステップを含む、方法。
画像特徴タイプが、輝度、カラー系、及びクラスタとの関連付けを含む、請求項１０に記載の方法。
事象タイプが、振幅のピーク、音の大きさ、バス、トレブル、クレッシェンド、及びディミヌエンドを含む、請求項１０に記載の方法。
　前記マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定するステップを含む、画像を処理するステップを更に有する、請求項１に記載の方法。
前記効果を決定するステップが、前記事象リスト内の事象の発生時に開始される前記効果を構成するステップを含む、請求項１３に記載の方法。
前記効果を決定するステップが、前記事象リスト内の事象の発生時に終了する前記効果を構成するステップを含む、請求項１３に記載の方法。
　効果が画像内の観察窓をパンするステップを含む、請求項１３に記載の方法。
　前記画像が第１のアスペクト比を有する第１のフォーマットで受け取られ、前記画像が第２のアスペクト比を有する第２のフォーマットで前記マルチメディアプレゼンテーションにおいて表示され、前記観察窓が前記第２のアスペクト比になるように構成される、請求項１６に記載の方法。
　前記パンするステップが、エッジからホットスポットへパンするステップを含む、請求項１６に記載の方法。
　前記パンするステップが、前記画像内のホットスポットを検出するステップと、前記ホットスポットから最も離れた画像のエッジを決定するステップと、前記ホットスポットから最も離れたエッジから前記ホットスポットに最も接近したエッジまで前記観察窓をパンするステップと、を含む、請求項１８に記載の方法。
　前記観察窓をパンするステップが、前記画像内の位置から空間的周波数の角分布を検出するステップと、前記最大の空間周波数を有する方向に沿った前記位置から前記観察窓をパンするステップと、を含む、請求項１６に記載の方法。
　前記効果がズームするステップを有する、請求項１３に記載の方法。
　前記ズームするステップが、前記画像内のホットスポットを検出するステップと、前記ホットスポットにおいてズームオペレーションを実行するステップと、を含む、請求項２１に記載の方法。
　前記ズームするステップが、前記画像内でシンメトリを検出するステップであって、前記シンメトリが中心を有し、前記中心においてズームオペレーションを実行する、ステップを含む、請求項２１に記載の方法。
サーバコンピュータによって実行する、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータプログラムであって、
　音声データにおいて発生する事象に関する時間情報を含む、事象リストを受け取るコンピュータコードと、
画像を受け取るコンピュータコードと、
前記事象リストを用いて前記音声データに自動的に同期される、画像のプレゼンテーションを含む、マルチメディアプレゼンテーションを自動的に生成するためのコンピュータコードと、
を備える、
　コンピュータプログラム。
　各事象に関連付けられる重要度スコアに従って前記事象を分類するためのコンピュータコードと、各事象に関連付けられる前記重要度スコアに従って事象を削除するコンピュータコードと、を含む、使用する画像の数を自動的に決定するコンピュータコードを更に有する、請求項２４に記載のコンピュータプログラム。
　前記受け取られた画像内の画像のキーフレームを含むクラスタを検出するコンピュータコードと、前記クラスタキーフレームに最も類似している前記検出された画像のクラスタ内の画像を削除するコンピュータコードと、を含む、画像を削除するコンピュータコードを更に有する、請求項２４に記載のコンピュータプログラム。
　前記事象リスト内の事象に整合させる整合画像特徴を自動的に決定するコンピュータコードと、特徴を検出するために画像を解析するコンピュータコードと、前記整合画像特徴と検出された特徴とに基づいて画像を削除するためのコンピュータコードと、含む、画像を削除するコンピュータコードを更に有する、請求項２４に記載のコンピュータプログラム。
　前記マルチメディアプレゼンテーションで使用するための画像の順序を自動的に決定するステップを含む、画像を処理するコンピュータコードを更に有する、請求項２４に記載のコンピュータプログラム。
　前記画像の各々が少なくとも一つの画像特徴を有し、各画像特徴が特徴タイプに関連付けられ、前記事象リスト内の各事象が事象タイプに関連付けられる、請求項２８に記載のコンピュータプログラムであって、前記画像の順序を自動的に決定するコンピュータコードが、（ａ）特徴タイプを事象タイプに整合させるコンピュータコードと、（ｂ）画像毎に画像特徴を検出するために前記画像を自動的に解析するコンピュータコードと、（ｃ）前記事象リスト内の事象に画像を整合させることによって前記画像の順序を自動的に決定するコンピュータコードであって、前記整合された画像特徴が、前記コンピュータコード（ａ）で整合された特徴タイプに関連付けられ、前記整合された事象が、前記コンピュータコード（ａ）で整合された事象タイプに関連付けられることを含む、コンピュータプログラム。
　前記マルチメディアプレゼンテーションで表示される画像に取り入れる効果を自動的に決定することを含む、前記画像を処理するコンピュータコードを更に有する、請求項２４に記載のコンピュータプログラム。
　前記効果が、画像内の観察窓をパンすることを有し、前記画像が、第１のアスペクト比を有する第１のフォーマットで受け取られ、前記画像が、第２のアスペクト比を有する第２のフォーマットで前記マルチメディアプレゼンテーションにおいて表示され、前記観察窓が前記第２のアスペクト比になるように構成される、請求項３０に記載のコンピュータプログラム。
　前記パンするコンピュータコードが、エッジからホットスポットへパンすることを含む、請求項３１に記載のコンピュータプログラム。
　前記観察窓をパンするコンピュータコードが、前記画像内の位置から空間的周波数の角分布を検出するコンピュータコードと、前記最大の空間周波数を有する方向に沿った前記位置から前記観察窓をパンするコンピュータコードと、を含む、請求項３１に記載のコンピュータプログラム。
　前記効果がズームを含む、請求項３０に記載のコンピュータプログラム。