JP2015507762A

JP2015507762A - オーディオトラックの決定方法，装置およびコンピュータプログラム

Info

Publication number: JP2015507762A
Application number: JP2014548117A
Authority: JP
Inventors: ローペ・オラヴィヤルヴィネン; カリ・ユハニヤルヴィネン; ユハ・ヘンリクアッラスヴオリ; ミーッカヴィレルモ
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2011-12-22
Filing date: 2011-12-22
Publication date: 2015-03-12
Also published as: CN104011592A; US20140337742A1; KR20140112527A; WO2013093175A1; EP2795402A1; EP2795402A4

Abstract

次のオーディオ処理装置が提供される。この装置は、オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと、第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと、を遂行するように構成されるオーディオ分析部を備える。前記装置は、前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成するように構成されるオーディオトラック決定部を更に備える。前記装置は、複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと、複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと、前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと、を遂行するように構成される分類部を更に備えてもよい。【選択図】図２a

Description

本発明は、オーディオトラックを決定および／または作成する方法，装置およびコンピュータプログラムに関する。特に、本発明は、ユーザに対して複数の画像を連続して（例えば、スライドショーとして）表示する際に一緒に用いられたり、（パノラマ画像等の）統合画像に合成されたり、他の適切な方法で使用されたりするオーディオトラックの決定や準備，作成に関する。

背景

デジタルカメラや、デジタルカメラまたはカメラモジュールを搭載した携帯電話等の現代のイメージングデバイスには、全地球測位システム（GPS）を用いてデバイスの位置を検出する機能を持つものもある。また、こうしたデバイスは、画像をキャプチャする際の現在位置を決定し、決定された現在位置をキャプチャした画像に関連付けることもできる。こうしたデバイスは更に、画像がキャプチャされる時点でのオーディオ信号を記録し、記録したオーディオ信号をキャプチャした画像と一緒に格納することもできる。

摘要

本発明の第1の態様に従って、次の装置が提供される：オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと、第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと、を遂行するように構成されるオーディオ分析部を備える、装置。前記装置は、前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成するように構成されるオーディオトラック決定部を更に備える。

前記装置は、複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと、複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと、前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと、を遂行するように構成される分類部を更に備えてもよい。

本発明の第2の態様に従って、次の装置が提供される：少なくとも一つのプロセッサと、コンピュータプログラムコードを含む少なくとも一つのメモリを備える装置であって、前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に少なくとも：オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；を遂行させるように構成される、装置。

本発明の第3の態様に従って、次の装置が提供される：オーディオ信号のグループを取得する手段であって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得する手段と；第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析する手段であって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析する手段と；前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成する手段と；を備える、装置。

本発明の第4の態様に従って、次の方法が提供される：オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；を含む、方法。

本発明の第5の態様に従って、次のコンピュータプログラムが提供される：一つ以上の命令の一つ以上のシーケンスを含むコンピュータプログラムであって、一つ以上のプロセッサにより実行されると、装置に少なくとも：オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；を遂行させる、コンピュータプログラム。

コンピュータプログラムは揮発性または非揮発性コンピュータ可読記憶媒体に具現化されてもよい。例えば、プログラムコードを格納している少なくとも一つのコンピュータ可読非一時的媒体を含むコンピュータプログラム製品であって、前記プログラムは、装置で実行させると、前記装置に少なくとも、本発明の第5の態様に従うコンピュータプログラムに関して前述した動作を遂行させる、コンピュータプログラム製品として具現化されてもよい。

本発明の種々の実施形態に従う方法や装置，コンピュータプログラムの利点は、複数画像の中の画像に関する追加データの一つまたは複数のアイテムの分析に基づいて、複数画像のプレゼンテーションに付随するオーディオトラックを柔軟かつ自動的に、または一部自動的に合成できることである。

本出願で開示される本発明の例示的実施形態は、添付の特許請求の範囲の適用範囲を限定するものと解釈されるべきではない。「含む／備える（to comprise）」という動詞およびその派生形は、本出願においては、記述されない事項の存在を排除しない包括的限定として使用されている。以降で記述される事項は、明記されない限り、相互に自由な形で組合せることができる。

本発明の特徴と見做される新規性のある事項は、特許請求の範囲で具体的に提示されている。しかし、本発明自体は、以下の特定の実施形態に関する詳細な説明が添付の図面と合わせて読まれることによって、その構成と動作方法の両方に関して最大限に理解されよう。本発明の追加的な目的および利点も共に理解される。

本発明の一実施形態に従うオーディオ処理装置を概略的に示す。オーディオトラックを伴って、複数の画像をスライドショーとして表示する基本概念を概略的に示す。オーディオトラックを伴って、複数の画像を統合画像の一部として表示する基本概念を概略的に示す。本発明の一実施形態に従ってオーディオトラックを作成する実施例を概略的に示す。本発明の一実施形態に従ってオーディオトラックを作成する実施例を概略的に示す。本発明の一実施形態に従ってオーディオトラックを作成する実施例を概略的に示す。本発明の一実施形態に従ってオーディオトラックを作成する実施例を概略的に示す。本発明の一実施形態に従ってオーディオトラックを作成する実施例を概略的に示す。画像に関連する追加データの概念を示す。事前録音機能の原理を示す。本発明の一実施形態に従う方法を示す。本発明の一実施形態に従う方法を示す。本発明の一実施形態に従う方法を示す。本発明の一実施形態に従う方法を示す。本発明の一実施形態に従う方法を示す。本発明の一実施形態に従う装置を概略的に示す。

詳細な説明

画像は、それに関連するオーディオ信号を有してもよい。オーディオ信号はまた、オーディオクリップまたはオーディオサンプル等とも呼ばれる。オーディオ信号はモノラルやステレオ音響，多チャンネルオーディオ信号でもよい。画像に関連するオーディオ信号を特徴付けるオーディオ関連追加情報があってもよい。こうしたオーディオ関連追加情報は例えば、適用されたサンプリング周波数および／またはチャンネル数，オーディオ信号のチャンネル構成に関する情報を含んでもよい。別の実施例として、オーディオ関連追加情報は、オーディオ信号の種類の標示を含んでもよい。こうした標示は例えば、オーディオ信号が音声信号成分や音楽，環境信号成分のみ，空間オーディオ信号成分等の特定の信号成分を含むことを示してもよい。あるいは、オーディオ関連追加情報がその他のオーティオ信号の種類を特徴付ける情報を含んでもよい。さらに別の実施例として、オーディオ関連追加情報は、オーディオ信号の持続時間、すなわち時間的長さ、および／または空間的オーディオ信号に関する到来方向を示してもよい。オーディオ信号を特徴付けるこうしたオーディオ関連追加情報は、オーディオ信号の事前分析に基づいて決定されてもよい。

可能なオーディオ関連追加情報と合わせたオーディオ信号は、オーディオアイテムと呼ばれる。以降では、画像に関連するオーディオ信号を参照して、本発明の様々な実施形態が記述されている。しかし、こうした記述は画像に関連するオーディオアイテムに一般化されうるものである。これは、オーディオ信号が当該オーディオ信号／アイテムの分析に使用されうるオーディオ関連追加情報を伴うことを明示している。

図1は、本発明の一実施形態に従うオーディオ処理装置10を概略的に示す。装置10は、オーディオ分析部12と、オーディオ分析部12と動作可能なように接続されるオーディオトラック決定部14を備える。装置10は、オーディオ分析部12および／またはオーディオトラック決定部14と動作可能なように接続される分類部16を更に備えてもよい。装置10は、オーディオ分析部12および／またはオーディオトラック決定部14と動作可能なように接続される画像分析部18を更に備えてもよい。相互に動作可能なように接続される各部は、情報および／または命令を相互にやり取りするように構成されてもよく、および／またはそうしたやり取りが可能であってもよい。

オーディオ分析部12は、オーディオアナライザとも呼ばれる。オーディオトラック決定部14は、オーディオトラック決定器またはオーディオトラック・コンポーザとも呼ばれる。分類部16は、分類器や画像分類器とも呼ばれる。画像分析部18は、イメージアナライザとも呼ばれる。

オーディオ分析部12は、オーディオ信号グループを取得するように構成され、各オーディオ信号は画像グループ内の一画像に関連付けられる。画像グループは例えば、割当全表示時間（viewing time）を有するプレゼンテーションを作成するように提供されてもよい。各画像はそれぞれ割当表示時間を有する。オーディオ信号グループは一つ以上のオーディオ信号を含んでもよい。

オーディオ分析部12は更に、所望する持続時間を有するオーディオトラックの決定に用いられる、一つ以上の中間オーディオ信号を決定するために、オーディオ信号グループのオーディオ信号のうち少なくとも一つを分析するように構成される。オーディオ分析部12は更に、一つ以上の中間オーディオ信号をオーディオトラック決定部14に提供するように構成されてもよい。

オーディオトラック決定部14は、オーディオ信号グループのオーディオ信号のうちの一つ以上の分析に基づいて決定された前記一つ以上の中間オーディオ信号に基づいて、前記所望する持続時間を有するオーディオトラックを決定または作成するように構成される。オーディオトラックは、画像グループの表示に割当てられる全表示時間をカバーまたは本質的にカバーする持続時間を持つことが望ましい。

ここで、「本質的にカバーする」という語句は、オーディオトラックの持続時間が、画像グループの割当全表示時間と等しいか、それよりも長いことを示している。換言すれば、オーディオトラックの持続時間は、画像グループの割当全表示時間よりも短くならないように決定されることが望ましい。

例として、オーディオトラック決定部14は、所望する長さのオーディオトラックを得るために、一つ以上の中間オーディオ信号を連結すること等により複数の中間オーディオ信号に基づいて、オーディオトラックまたはその一部を作成するように構成されてもよい。別の例として、オーディオトラック決定部14は、オーディオトラックが所望するオーディオ信号特性を持つために、二つ以上の中間オーディオ信号の各サンプルを合計または平均する等の方法で二つ以上の中間オーディオ信号をミキシングすることによって、オーディオトラックまたはその一部を作成するように構成されてもよい。さらに別の例として、オーディオトラック決定部14は、所望する長さのオーディオトラックを得るために、中間オーディオ信号を「ループ」する等、リピートおよび／または一部リピートすることによって、オーディオトラックまたはその一部を作成するように構成されてもよい。あるいは、所望するオーディオ信号特性を持つために、中間オーディオ信号の信号レベルを調節することによって、オーディオトラックまたはその一部を作成するように構成されてもよい。

装置10はプロセッサやメモリ，ユーザインタフェース，通信インタフェース等の構成要素を更に備えてもよい。

オーディオトラック決定部12は、装置10のメモリからオーディオ信号を読取ることや、他の装置から通信インタフェースを介してオーディオ信号を受信すること等によって、オーディオ信号を取得するように構成されてもよい。

オーディオ分析部12および／またはオーディオトラック決定部14は更に、画像グループの画像に対する割当表示時間を取得するように構成されてもよい。特に、オーディオ分析部12またはオーディオトラック決定部14は、画像グループの画像に対する割当表示時間を取得する際、装置10のメモリから対応する割当表示時間を読取ることや、他の装置から通信インタフェースを介して対応する割当表示時間を受信すること等によって、当該割当表示時間を取得するように構成されてもよい。別の例として、関連する割当表示時間は、ユーザインタフェースを介したユーザ入力として受信されてもよい。所定の画像に対する割当表示時間を決定して得られた関連する割当表示時間は、当該所定画像に関連するオーディオ信号の持続時間、すなわち時間の長さと等しいと決定されてもよい。さらに別の例として、オーディオ分析部12またはオーディオトラック決定部14は、画像グループの割当全表示時間に基づいて割当表示時間を決定することによって、所定の画像に対する割当表示時間を取得するように構成されてもよい。こうした割当表示時間の決定は例えば、画像グループの割当全表示時間を画像グループ内の画像の数で除した値に基づいて行われてもよい。

割当表示時間（viewing time）は、割当ディスプレイ時間（display time）や割当提示時間（presentation time）等とも呼ばれる。割当表示時間は、画像グループの割当全表示時間に対する画像の時間的位置を決定する。所定の画像に対する割当表示時間は、参照時刻に対する割当開始時刻と終了時刻を決定してもよい。あるいは、所定の画像に対する割当表示時間は、所定画像に対する割当表示時間と合わせて、所定画像を表示するための割当開始時刻を参照時刻に対して決定してもよい。参照時刻は例えば、画像グループを表示（viewing）／ディスプレイ（displaying）／提示（representing）の開始であって、画像グループの最初の画像の表示開始であってもよい。

オーディオ分析部12および／またはオーディオトラック決定部14は更に、画像グループの割当全表示時間を取得または決定するように構成されてもよい。例として、画像グループの割当全表示時間は、画像グループの画像の割当表示時間の合計として決定されてもよい。別の例として、画像グループに対する割当全表示時間は、画像グループ内の画像の数に基づいて、例えば、画像グループの各画像に対して所定の同一表示時間を割当てることによって、決定されてもよい。別の例として、割当全表示時間は、ユーザインタフェースを介して受信されるユーザ入力に基づいて決定されてもよい。

画像グループの画像は例えば、写真や絵画，グラフ，コンピュータ処理画像等であってもよい。画像グループの画像の一部または全部は、ビデオシーケンスから取り出されたものでもよく、ビデオシーケンスに構成されてもよい。それ故、画像グループ内で画像シーケンスを構成することも可能である。特に、こうした画像シーケンスを含む画像グループは一つの映画を表示するものであってもよい。

決定されたオーディオトラックは、画像グループの表示を伴って構成されてもよい。画像は例えば、スライドショーや複数の画像に基づいて作成された統合画像の一部としてユーザに表示されてもよい。こうした統合画像の例はパノラマ画像である。

ここで、スライドショーは、複数の画像を連続して、例えば1枚ずつ表示することを意味する。スライドショーで表示される各画像は、割当表示時間と呼ばれる所定の時間だけ表示されてもよい。所定の画像に対する割当表示時間は、各画像で同一または実質的に同一である固定の時間として設定されてもよい。あるいは、割当表示時間が画像毎に変わってもよい。また、こうした表示が割当全表示時間を有してもよい。

図2aは、オーディオトラックを伴って、画像A，B，Cという複数の画像をスライドショーとして表示する基本概念の例を示す。この複数画像の割当全表示時間は、t_Aからt_Eまでの時間をカバーする。図2aは、この複数画像の割当全表示時間のカバーもするオーディオトラックも示す。画像Aは、t_Aから開始してt_Bまで表示され、この持続時間は画像Aの割当表示時間をカバーしている。同一の持続時間は、オーディオトラックの部分Aによってもカバーされている。画像Bは、t_Bから開始してt_Cまで表示され、画像Cは、t_Cから開始してt_Eまで表示される。これらは画像BおよびCの割当表示時間をそれぞれカバーしている。画像BおよびCの割当表示時間は、オーディオトラックの部分BおよびCによってそれぞれカバーされている。

複数の画像またはそれらの中の一部の画像グループが映画を表示する場合、こうした画像は、スライドショーとして表示される複数画像に対してなされる前述した様な方法で表示されてもよい。こうした複数画像が画像のビデオシーケンスを構成する画像シーケンスを含む場合、このビデオシーケンスの各画像に対する専用の割当表示時間が存在してもよい。あるいは、ビデオシーケンスに対する単一の割当表示時間があってもよい。

統合画像は、二つ以上の画像の組み合わせから成っていてもよく、それ故、一つの大型合成画像を形成してもよい。こうした統合画像の特定の例はパノラマ画像である。パノラマ画像は通常、パノラマ画像に合成される画像が、同一の位置または本質的に同一の位置から見た二つ以上の異なる向きの異なる見え方（ビュー）を示すことを要求する。パノラマ画像は、こうした画像に基づき、隣接方向からのビューを示す画像の端部から一致するパターンを見付けるために画像を処理または分析し、これらの画像を合成して二つの隣接方向を示す単独の合成画像を形成することによって作成されてもよい。画像合成処理は、二つの隣接方向を示す画像の一方または両方の端部から重複部分を削除することを含んでもよい。統合画像は、所定の期間に統合画像の一部のみが表示されるようにユーザに示されてもよい。統合画像からその時点でユーザに表示される部分は、所定のパターンに従って変更されてもよい。

図2bは、オーディオトラックを伴って、画像A，B，Cという複数の画像を統合画像の部分として表示する基本概念の例を示す。画像A，B，Cは画像部分A'，B'，C'を有する一つの統合画像に合成される。画像部分A'，B'，C'によって形成される複数画像の割当全表示時間は、t_Aからt_Eまでの時間をカバーする。画像部分A'は、t_Aから開始してt_Bまで表示され、この持続時間は画像部分A'の割当表示時間をカバーしている。同一の持続時間は、オーディオトラックの部分Aによってもカバーされている。画像部分B'は、t_Bから開始してt_cまで表示され、画像部分C'は、t_cから開始してt_Eまで表示される。これらは画像部分B'およびC'の割当表示時間をそれぞれカバーしている。画像部分B'およびCの割当表示時間は、オーディオトラックの部分BおよびCによってそれぞれカバーされている。

オーディオトラックは、表現を形成する複数画像の割当全表示時間と等しいまたは本質的に等しい持続時間を持つことが望ましい。オーディオトラックは非明示的または明示的に複数の部分を含み、各部分は、複数画像における所定の画像の割当表示時間と時間的に揃えられている。こうして各部分は、所定の画像の割当表示時間と同時または本質的に同時に再生されるように構成される。

オーディオトラック作成部14は更に、画像グループと決定したオーディオトラックを画像グループのプレゼンテーションに編成するように構成されてもよい。こうしたプレゼンテーションは例えば、スライドショーやパノラマ画像のような統合画像の表示として編成されてもよい。

こうしたプレゼンテーションは例えば、マイクロソフト社のパワーポイントによるプレゼンテーションや、対応するプレゼンテーションソフトウェア／編成方法を用いたプレゼンテーションに編成されてもよい。プレゼンテーションに利用可能なフォーマットと更なる実施例として、MPEG-4やAdobe Flash等、あるいはオーディオと画像／ビデオを同期してプレゼンテーションできるその他のマルチメディアフォーマットも含まれる。また更に、画像とオーディオトラックは、ユーザがアクセスすると画像表示とオーディオ再生が行われるように構成されたウェブページ等として編成されてもよい。

画像は、それに関連する位置標示子を有してもよい。位置標示子は、位置情報や位置識別子等とも呼ばれる。位置標示子は、画像に関連する位置を決定する情報を含んでもよい。例えば写真の場合、位置標示子は、画像をキャプチャした位置を示す情報を含んでもよく、画像に関連するその他の位置を示す情報を含んでもよい。位置標示子は、衛星を利用した測位システムに基づいて提供されてもよい。例えば、全地球測位システム（GPS）の座標や地理的座標（度分秒），所定の参照地点からの方向と距離等がある。

本発明の一実施形態に従って、装置10が分類部16を備えてもよい。分類部16は、複数のオーディオ信号を取得するように構成され、各オーディオ信号は複数画像の中の一画像に関連付けられる。複数画像の中の画像に関連付けられるオーディオ信号は、前述のように取得されてもよい。

分類部16は更に、複数の位置標示子を取得するように構成され、各位置標示子は複数画像の中の一画像に関連付けられてもよい。位置標示子は画像に関連する位置を示し、GPS座標や地理的座標，所定の参照地点からの距離および方向を示す情報等を含んでもよい。

分類部16は更に、複数画像の中のサブセットであって、それに関連する第1位置を表わす位置識別子を有する画像を含むような画像グループとして、第1画像グループを決定するように構成されてもよい。

複数画像の中の画像に関連付けられる位置標示子は、複数画像を一つ以上の画像グループに分割または割当てるように用いられてもよい。例として、画像に関連する第1位置を表わす位置標示子を有する画像は第1画像グループに割当てられ、画像に関連する第2位置を表わす位置標示子を有する画像は第2画像グループに割当てられ、以下同様である。その結果、画像グループのプレゼンテーションに付随するオーディオトラックは、各画像グループに対して別々に決定および／または作成されてもよい。そして得られたオーディオトラックは、複数画像のプレゼンテーションに付随する合成オーディオトラックに合成または連結されてもよい。

例として、特定の位置に関連する参照位置から所定の最大距離以内にある位置を位置標示子が示す場合、その位置標示子は当該特定位置を表わすものと見做されてもよい。別の例として、特定の位置に関連する参照エリア内にある位置を位置標示子が示す場合、その位置標示子は当該特定位置を表わすものと見做されてもよい。参照エリアは、複数の参照位置または参照点等によって定義されてもよい。参照位置または参照エリアは予め決められていてもよく、あるいは複数画像の中の一つ以上の画像に関連する位置情報に基づいて決定されてもよい。

画像は、それに関連する時間標示子を有してもよい。画像に関連する時間標示子は、その画像に関連する時刻や日付等を示してもよい。画像に関連する時間標示子は、写真の撮影日時等を示してもよく、画像に関連するその他の日時を示してもよい。

本発明の一実施形態に従って、分類部16は、複数の時間標示子を取得するように構成され、各時間標示子は複数画像の中の一画像に関連付けられてもよい。時間標示子は画像に関連する日時を示し、分類部16は更に、複数画像の中のサブセットであって、それに関連する第1時間を表わす時間識別子を有する画像を含むような画像グループとして、第1画像グループを決定するように構成されてもよい。また時間標示子は、前述した位置標示子に基づくグループ化と類似する方法で、複数画像における個々の画像を複数の画像グループに割当てるために用いられてもよい。

別のグループ化方法として、分類部16は、関連する位置標示子と時間標示子の両方に基づいて画像のグループ化を実行するように構成されてもよい。例えば、画像に関連する第1位置を表わす位置標示子と第1時間を表わす時間標示子を含む画像が第1グループに割当てられるようにしてもよい。これに対応して、画像に関連する第2位置を表わす位置標示子と第2時間を表わす時間標示子を含む画像が第2グループに割当てられるようにしてもよく、以下同様である。

本発明の一実施形態に従って、オーディオ分析部12は、画像グループの各画像に対し、対応する中間オーディオ信号を決定するために、各画像に関連するオーディオ信号セグメントを決定するように構成されてもよい。オーディオ分析部12は更に、画像グループの各画像に対し中間オーディオ信号を決定し、その中間オーディオ信号は、各画像に関連する決定されたオーディオ信号セグメントに基づいて、対応する画像の割当表示時間に一致または本質的に一致する時間を有するように構成されてもよい。またオーディオ分析部14は、画像グループの割当全表示時間をカバーまたは本質的にカバーする時間を有するオーディオトラックを形成するために、前述の中間オーディオ信号の連結としてのオーディオトラックを作成するように構成されてもよい。

こうして、オーディオ分析部12は、画像グループの各画像に対し、対応する画像に関連するオーディオ信号に基づいて、対応する画像の割当表示時間に時間的に揃えられたオーディオトラックの部分を決定するように構成されてもよい。そして、オーディオトラック決定部14は、オーディオトラックの部分を、所望の持続時間を有する単一のオーディオトラックに連結するように構成されてもよい。オーディオトラックのこうした決定の一般原理は図3に示されている。

画像に関連するオーディオ信号セグメントの決定および／または前記セグメントに基づく中間オーディオ信号の決定は、オーディオ信号の持続時間と信号レベル等に関する分析を含んでもよい。あるいは、または加えて、こうした分析は画像に関連するオーディオ関連追加情報の分析を含んでもよい。

画像グループの所定の画像に対応する中間オーディオ信号は、当該所定画像に関連するオーディオ信号の所定部分として決定されてもよい。例えば、オーディオ信号の始端における所望時間の部分として決定されてもよい。オーディオ信号の持続時間が所定画像の割当表示時間よりも短い場合、対応する中間オーディオ信号は例えば、所定画像の割当表示時間に一致または本質的に一致する時間に到達するまで繰り返される、および／または部分的に繰り返されるオーディオ信号として決定されてもよい。

あるいは、画像グループの所定の画像に対応する中間オーディオ信号が、当該所定画像に関連するオーディオ信号またはそのセグメントの所定の部分を変更することで決定されてもよい。こうした変更は例えば、中間オーディオ信号が所望の全信号レベルを持てるように、オーディオ信号の一部に関する信号レベル調節を含んでもよい。別の例として、こうした変更が、オーディオトラック内で隣接する部分との間で所望される特性のクロスフェードを実装する等のために、所定画像に関連するオーディオ信号の所定部分から選択されたセグメントの信号レベル調整を含んでもよい。

本発明の一実施形態に従って、オーディオ分析部12は、オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために、複数のオーディオ信号の少なくとも一つを分析するように構成されてもよい。オーディオ分析部12は更に、所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、所定画像の割当表示時間に一致または本質的に一致する時間を有する中間オーディオ信号を決定するように構成されてもよい。こうして、中間オーディオ信号は当該所定画像に対応し、この中間オーディオ信号が、所定画像に関連するオーディオ信号内で識別される当該特定オーディオ成分に少なくとも部分的に基づいて決定されてもよい。こうした決定は、オーディオ信号から識別した特定オーディオ成分を抽出またはコピー等をすることを含んでもよい。またオーディオトラック決定部14は、当該中間オーディオ信号に少なくとも部分的に基づいて、所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成するように構成されてもよい。

こうして、画像グループの所定の画像に関連するオーディオ信号で識別された特定のオーディオ信号成分は、オーディオトラックの決定に用いられるように、所定画像に関連するオーディオ信号の一部として使用されてもよい。特に、所定画像の割当表示時間に時間的に揃えられるオーディオトラックの一部の決定において使用されてもよい。

所定画像に対応する中間オーディオ信号は、この様に特定のオーディオ信号成分として決定されてもよい。あるいは、所望の（時間的）長さや所望の持続時間を有する中間オーディオ信号を決定するために、所定の一または複数のオーディオ信号に合成された特定のオーディオ信号成分として決定されてもよい。こうした合成は例えば、所望の持続時間の信号を得るために、特定のオーディオ信号成分を所定のオーディオ信号にミキシングしたり、特定のオーディオ信号成分を一つ以上の所定のオーディオ信号（またはそのコピー）に連結したりすることを含んでもよい。

特定のオーディオ信号成分に少なくとも部分的に基づいてオーディオトラックを作成する実施例は、図4に示されている。

特定のオーディオ信号成分は例えば、人が発した声（や会話）の信号成分や音楽，動物の鳴き声，機械音，または所定の特性を有するその他の特定オーディオ信号成分でもよい。特に、特定オーディオ信号成分は、特定のオーディオ信号を含んでもよく、それ故、当該オーディオ信号に関連する知覚可能な到来方向を有するものでもよい。空間オーディオ信号の知覚可能な到来方向は、二つ以上のオーディオ信号に基づいて、またはステレオ音響や多チャンネルオーディオ信号のチャンネル間での両耳間時間差および／または両耳間信号レベル差の分析を通じての当該ステレオ音響または多チャンネルオーディオ信号に基づいて、決定可能であってもよい。

例として、オーディオ信号が特定信号成分を含むかどうかを決定するためのオーディオ信号分析は、オーディオ信号が音声または会話の信号成分を含むかどうかを決定することを含んでもよい。こうした分析は、音声または会話信号を解釈または認識するよう実際に構成される音声認識技術を利用することを含んでもよい。しかし、その副産物として、会話または音声信号成分の存在を検出するために利用されてもよい。あるいは、または加えて、電気通信等で通常用いられる音声活動検出技術によって、オーディオ信号の一部が会話または音声成分を含むかどうかを決定できる。こうして、オーディオ信号内に会話または音声信号成分の存在を決定する分析ツールの追加例も示すことができる。

オーディオ信号分析の追加例は、空間オーディオ信号の存在および／またはその知覚可能な到来方向を決定することである。こうした例は、前述してきた通りである。例として、二チャンネルまたは多チャンネルのオーディオ信号に対するチャンネル間信号レベル差および／または時間差の分析から、空間オーディオ信号の知覚可能な到来方向を決定できてもよく、その結果、信号の存在に関する標示を行える。一方、知覚可能な到来方向が十分信頼できる方法では決定できないという標示は、空間オーディオ信号成分が存在しないことを示すものでもよい。

画像は更に、それに関する画像モードデータを有してもよい。例として、画像モードデータは画像フォーマットを示す情報を含んでもよい。こうした情報は例えば、画像がポートレートフォーマットであるか、すなわち縦方向よりも横方向が短い画像であるか、または、ランドスケープフォーマットであるか、すなわち縦方向よりも横方向が長い画像であるかを示してもよい。別の例として、特に写真の場合、画像モードデータは、撮像に用いたカメラの動作モード（キャプチャーモードやショットモード，プロファイル等）を示す情報を含んでもよい。こうした動作モードは例えば、「ポートレート」や「人物」，「風景」，「スポーツ」，「パーティー」，「野外」等であってもよく、画像が表示する被写体に関する標示を提供できる。

本発明の一実施形態に従って、オーディオ分析部12は、画像に関する画像モードデータに少なくとも部分的に基づいて、特定オーディオ信号成分の存在を決定する分析を実行するように構成されてもよい。例として、画像フォーマットがポートレートである、または動作モードが「ポートレート」や「人物」等であると示す画像モードデータは、所定画像に関連する信号が、音声または会話信号成分等の特定のオーディオ信号成分や空間オーディオ信号を含みうることを示す標示子として用いられてもよい。その結果、本発明の一実施形態に従って、こうした画像に関連するオーディオ信号のみが、特定のオーディオ信号成分の存在を決定するための分析の対象となってもよい。あるいは、オーディオ分析部12が、オーディオ信号グループの全オーディオ信号に対して、またはオーディオ信号グループの中の所定の信号グループに対して、オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定する分析を遂行するように構成されてもよい。

本発明の一実施形態に従って、装置10が画像分析部18を備えてもよい。画像分析部18は、所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、所定画像における特定の被写体の存在と位置を決定するために、所定画像を分析するように構成されてもよい。オーディオトラック決定部12はまた、所定画像に特定の被写体が存在すると決定することに応じて、中間オーディオ信号を作成するように構成されてもよい。中間オーディオ信号は、所定画像における特定被写体について決定された位置に対する知覚可能な到来方向を持つような空間オーディオ信号として提供されるように、特定のオーディオ信号成分に基づいて作成されてもよい。あるいは、所定画像における特定被写体について決定された位置に対する、知覚可能な到来方向を持つような空間オーディオ成分を含む（時間）成分を含む信号として提供されるように、特定のオーディオ信号成分に基づいて作成されてもよい。

換言すれば、知覚可能な到来方向を持つ空間オーディオ信号は、画像の表示時間に時間的に揃えられるオーディオトラックの一部に関して生成されてもよい。こうした画像は、関連する特定のオーディオ信号成分を含むオーディオ信号を持ち、当該画像データで識別される特定の被写体を有する。空間オーディオ信号の生成は、空間オーディオ信号成分を既に含むオーディオ信号のオーディオ画像、すなわち知覚可能な到来方向の変更を含んでもよい。あるいは、空間オーディオ信号成分を導出するために、非空間オーディオ信号の変更を含んでもよい。前者は、所望の知覚可能な到来方向を持つ空間オーディオ信号に対応する両耳間レベル差および／または両耳間時間差を得るために、単チャンネルオーディオ信号に二つ以上のオーディオチャンネルを追加し、オーディオチャンネルを処理することを含んでもよい。後者は、所望の知覚可能な到来方向を持つ空間オーディオ信号に対応する両耳間レベル差および／または両耳間時間差を得るために、オーディオ信号の複数のチャンネルを変更／処理することを含んでもよい。こうした処理／変更は、所定の画像Aにおける特定の被写体に関連するオーディオ信号成分を含むオーディオ信号全体またはその一部であるオーディオ信号に適用されてもよい。識別される特定の被写体は例えば、人物被写体やその一部、特に人の顔等であってもよい。それ故、所定画像のデータは、人の顔や体型，動物の体型，所定の特性を有するその他適切な形状等を検出するように構成される、適切なパターン認識アルゴリズムを用いて分析されてもよい。さらに、所定画像内の特定の被写体の位置に一致または本質的に一致する知覚可能な到来方向を持つ空間オーディオ信号を決定および／または準備できるように、当該所定画像内の特定の被写体の位置も決定される。特定の被写体の存在および／または位置は、対応する画像に関連する追加データとして格納されたり提供されたりしてもよい。

本発明の一実施形態に従って、オーディオ分析部12は、オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、画像グループの画像に関連するオーディオ信号の少なくとも一つを分析するように構成されてもよい。特に、オーディオ分析部12は、オーディオ信号またはその一部が特定のオーディオ信号成分を含まず周辺環境信号成分のみを含むかどうかを決定するように構成されてもよい。こうした決定は更に、周辺環境トラックを生成するために、使用されるオーディオ信号から周辺環境信号成分を抽出またはコピー等をすることを含んでもよい。

オーディオ分析部12は更に、所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、画像グループの割当全表示時間をカバーまたは本質的にカバーする時間を有する周辺環境トラックを決定または作成するように構成されてもよい。周辺環境トラックは、周辺環境信号成分に基づいて決定されてもよい。オーディオ分析部12は、周辺環境信号成分を抽出またはコピー等をし、および／または周辺環境信号成分をオーディオトラック決定部14に提供するように構成されてもよい。またオーディオトラック決定部14は、周辺環境トラックと一つ以上の中間オーディオ信号に基づいて、オーディオトラックを作成するように構成されてもよい。周辺環境トラックはオーディオトラック決定用の中間オーディオ信号と見做されてもよい。

周辺環境トラックが単独の利用可能な中間オーディオ信号のみである場合、オーディオトラックはその周辺環境トラックに基づいて作成されてもよい。この様な場合、オーディオトラックは例えば、周辺環境トラックのコピーとして、または周辺環境トラックを変更したものとして作成されてもよい。こうした変更は、オーディオトラックは例えば、周辺環境トラックのコピーとして、または周辺環境トラックを変更したものとして作成されてもよい。

オーディオトラックの作成は、周辺環境トラックを一つ以上の（別の）中間オーディオ信号に合成することを含んでもよい。特に、オーディオトラックの作成は、周辺環境トラックを中間オーディオ信号にミキシングすることを含んでもよい。ここで中間オーディオ信号は、所定の画像に関連するオーディオ信号で識別された特定のオーディオ信号成分に基づいて決定され、当該特定のオーディオ信号成分に基づいて決定された中間オーディオ信号が、所定画像の割当表示時間に時間的に揃えられるように決定される。その結果、周辺環境トラックに由来する信号成分が画像グループの割当全表示時間をカバーまたは本質的にカバーすると同時に、オーディオトラックと、所定の画像に関連するオーディオ信号で識別された特定のオーディオ信号成分に基づいて決定された中間オーディオ信号の持続時間は、周辺環境トラックの時間的位置でミキシングされる。こうして、所定画像の割当表示時間に時間的に揃えられるように、オーディオトラックの時間的位置でミキシングされる。こうしたオーディオトラック作成の一般原理は図5に示されている。

本発明の一実施形態に従って、画像グループの第1画像に関連するオーディオ信号に基づいた周辺環境信号の決定は、第1画像またはその一部に関連するオーディオ信号に基づいて周辺環境信号を決定することを含んでもよい。特に、こうした決定は、第1画像に関連するオーディオ信号が特定の信号成分を含まず周辺環境信号成分のみを含むこと、あるいはオーディオ信号の少なくとも一部が特定の信号成分を含まず周辺環境信号成分のみを含むことの決定を含んでもよい。

周辺環境信号成分に基づく周辺環境トラックの決定は、周辺環境信号成分の使用や抽出，コピー等を含んでもよい。ここで、周辺環境トラックの所望の持続時間をカバーするように、周辺環境信号成分の全体またはその一部が繰り返される、または部分的に繰り返されるため、周辺環境信号成分の選択部分または周辺環境トラックが周辺環境信号成分として決定されてもよい。周辺環境トラックの決定または作成の原理に関する実施例は、図6に示されている。

本発明の一実施形態に従って、オーディオ分析部12は、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、画像グループの割当全表示時間をカバーまたは本質的にカバーする時間を有する周辺環境トラックを、第2周辺環境信号成分に基づいて更に決定または作成するように構成されてもよい。

こうして、周辺環境トラックの決定または作成は、二つの、すなわち第1および第2周辺環境信号成分に基づいて決定されてもよい。周辺環境トラックの決定または作成は、第1および第2周辺環境信号成分またはそれらの一部の合成として周辺環境トラックを決定することを含んでもよい。こうした合成は、所望の持続時間を有する周辺環境信号や、所望のオーディオ特性を持つ周辺環境信号を得るために、二つの周辺環境信号成分またはそれらの一部の連結や、二つの周辺環境信号成分またはそれらの一部のミキシングをそれぞれ含んでもよい。周辺環境トラックの決定は更に、第1周辺環境信号成分またはその一部の変更、および／または第2周辺環境信号成分またはその一部の変更を含んでもよい。例として、こうした修正は、周辺環境信号が所望の信号レベルを持つように、オーディオ信号の何れかもしくは両方、またはそれらの一部に関する信号レベル調節を含んでもよい。別の例として、特に周辺環境信号が二つの周辺環境信号成分の連結として決定される場合、こうした変更は、周辺環境信号成分の何れかもしくは両方、またはそれらの一部から選択されたセグメントをレベル調節してクロスフェードを実装することを含んでもよい。二つの周辺環境信号成分に基づく周辺環境信号の決定または作成は、画像グループの画像に関連する複数のオーディオ信号から識別または抽出された周辺環境信号成分を幾つでも決定または作成するように一般化できる。

周辺環境信号成分に基づく周辺環境トラックの決定は、周辺環境信号の使用や抽出，コピー等を含んでもよい。ここで、周辺環境トラックの所望の持続時間をカバーするように、周辺環境信号の全体またはその一部が繰り返される、または部分的に繰り返されるため、周辺環境信号の選択部分または周辺環境トラックが周辺環境信号として決定されてもよい。周辺環境信号に基づく周辺環境トラックの決定または作成の原理に関する実施例は、図7に示されている。

例として、オーディオ信号が周辺環境信号成分を含むかどうかを決定するためのオーディオ信号分析は、オーディオ信号またはその一部が周辺環境信号成分の存在を表わす所定のオーディオ特性を示すかどうかを決定することを含んでもよい。こうした所定のオーディオ特性の例として、信号レベルに関しておよび／または周波数に関して一定時間安定した特性を示すオーディオ信号またはその一部は、周辺環境信号成分を表わすと見做されてもよい。あるいは、または加えて、周辺環境信号成分の存在を決定するオーディオ信号分析は、前述した特定の信号成分の存在を決定する方法を利用してもよい。オーディオ信号またはその一部に特定の信号成分が存在しない場合、当該オーディオ信号またはその一部が周辺環境信号成分のみを含んでいることを示すものと見做されてもよい。

本発明の一実施形態に従って、オーディオ信号が周辺環境信号成分を含むかどうかを決定する分析は、画像グループの画像に関係しうる画像モードデータに少なくとも部分的に基づいている。

前述の通り、画像に関する画像モードデータは、画像フォーマットや画像キャプチャに用いたキャプチャデバイスの動作モード等を示してもよい。その結果、画像フォーマットがランドスケープである、または動作モードが「風景」や「ランドスケープ」等であると示す画像モードデータは、所定画像またはその一部に関連するオーディオ信号が、特定のオーディオ信号成分を含まず周辺環境信号成分のみを含みうることを示す標示子として用いられてもよい。その結果、本発明の一実施形態に従って、こうした画像に関連するオーディオ信号のみが、周辺環境信号成分の存在を決定する分析の対象となってもよい。あるいは、オーディオ分析部12が、オーディオ信号グループの全オーディオ信号に対して、またはオーディオ信号グループの中の所定の信号グループに対して、オーディオ信号が周辺環境信号成分を含むかどうかを決定する分析を遂行するように構成されてもよい。

画像は、その向きを示す方位データを有してもよい。方位データは、一つ以上の参照点に関する画像の向きを示す情報を含んでもよい。例として、方位データは、北向きに対する方位や、磁北極に対する方位を示し、コンパスの向きまたはその推定方向を示す情報を含んでもよい。別の例として、方位データは、水平面に対する画像の向きを示し、水平面に対する画像の傾きを示す情報を含んでもよい。

例として、画像に関する方位データは、空間オーディオ信号に関する到来方向の決定を補助するために、特に、前後の混乱に関する分析において、評価されてもよい。それ故、これに関する例として、方位データによって示されるカメラの「撮影方向」は、こうした混乱が生じる場合には、空間オーディオ信号が画像の前方から来る音声を示すか、画像の後方から来る音声を示すかを決定するのに使用されてもよい。例えば、オーディオ分析部12は、オーディオ信号が特定のオーディオ信号を含むかどうかを決定する分析を制御する方位情報を使用するように構成されてもよい。こうした方位情報は、画像後方に到来方向を持つオーディオ信号および含まれる可能性のある特定の信号成分を示し、分析から所定のオーディオ信号を除外する標示として使用されてもよい。別の例として、オーディオ分析部18は、画像における特定の被写体の存在に関する分析を制御する方位情報を使用するように構成されてもよい。こうした方位情報は、画像後方に到来方向を持つオーディオ信号および含まれる可能性のある特定の信号成分を示し、分析から所定の画像を除外する標示として使用されてもよい。

本発明の種々の実施形態に従って、画像に関する追加データのアイテムも使用され、考慮される。追加データは、画像を特徴付ける知覚情報および／またはその他の情報、および／または画像に関する追加情報の提供を含んでもよい。追加データは、実際の画像データと共に格納および／または提供されてもよい。例えば、（デジタル）画像データと追加データの両方を格納／提供できる適切な格納またはコンテナフォーマットを用いてもよい。あるいは、追加データが、対応する画像データにリンクされる一つ以上の別個のデータ要素として格納または提供されてもよい。例えば、適切なデータベースに構成されてもよい。

図8の実施例は画像に関する追加データの概念を示し、画像に関する追加データアイテムの様々な例を示す。これらの一部は既に説明されている。

例として、複数の画像の中の一つは、特にデジタル画像では、画像キャプチャ可能な装置またはデバイスから得られたものでもよい。こうした装置またはデバイスは例えば、カメラやビデオカメラ、特に、デジタルカメラやデジタルビデオカメラでもよい。別の例として、画像が（デジタル）画像キャプチャ可能な装置またはデバイスから得られたものでもよい。こうした装置またはデバイスの例は、携帯電話やラップトップコンピュータ，デスクトップコンピュータ，携帯情報端末（PDA），タブレット端末等を含む。これらは、カメラやビデオカメラ，カメラモジュール，ビデオカメラモジュール，デジタル画像キャプチャ可能なその他の構成を備えたり、これらに接続されたりする。

画像キャプチャ可能なデバイスは更に、前述した画像に関する追加データとして使用される情報を記録，保存，格納および／または提供できて、そのように構成されてもよい。

画像キャプチャ可能なデバイスは更に、現在位置を決定できる装置を備え、画像キャプチャ時にデバイスの現在位置を決定するように構成されてもよい。デバイスはまた、キャプチャした画像に関する位置を決定する情報として、現在位置を格納および／または提供するように構成されてもよい。

例として、デバイスは更に、オーディオ信号を記録できるオーディオ記録装置を備え、画像キャプチャ時またはその前後に一つ以上のオーディオ信号を記録するように構成されてもよい。記録済みオーディオ信号はモノラルやステレオ音響，多チャンネルオーディオ信号で、空間オーディオ信号を表わしてもよい。デバイスは更に、キャプチャした画像に関する一つ以上のオーディデータアイテムとして、一つ以上の記録済みオーディオ信号を格納および／または提供するように構成されてもよい。

オーディオ記録装置は例えば、一つ以上のマイクロフォンや単一指向性マイクロフォン，マイクロフォン・アレイ等を備えてもよい。一つ以上のマイクロフォンを用いる構成の例として、カメラやデバイスが三つ以上のマイクロフォンを所定の配置で備えてもよい。三つ以上のマイクロフォンで捉えられた三つ以上のオーディオ信号と所定のマイクロフォン配置に関する情報に基づいて、これら三つ以上のオーディオ信号間の位相差等を決定できる。その結果、捉えられた三つ以上のオーディオ信号が表わす音声の到来方向を導出することもできる。この方式は通常の人の聴覚に類似していて、音像定位、すなわち知覚可能な到来方向は、左右の両耳間時間差（ITD）に部分的に基づいている。類似の動作原理がマイクロフォン・アレイの場合に適用されてもよい。

デバイスは、画像キャプチャ前でもオーディオ信号の記録を開始できる、いわゆる事前録音（prerecord）機能を備え、この事前録音機能を用いて一つ以上のオーディオ信号を記録するように構成されてもよい。図9は事前録音機能の原理を示す。画像キャプチャ時刻は時刻tで示され、時刻t−Δtはオーディオ信号の記録開始、時刻t＋Δtはオーディオ信号の記録終了を示す。時刻tより前のオーディオ録音は、t−Δtからt＋Δtまでの時間がカバーされるようにオーディオ信号を連続して記録しバッファに保存する、デバイスのオーディオ録音装置を構成すること等で実装されてもよい。図9の実施例では、画像キャプチャ時刻tの前後で同一のオーディオ録音時間が示されている。しかし、他の実施例では、画像キャプチャ時刻tより前のオーディオ録音時間が時刻tより後のオーディオ録音時間よりも短くてもよく、長くてもよい。

画像キャプチャ可能なデバイスは更に、画像に関する画像モードデータを記録できる装置を備え、画像キャプチャ時に現画像モードを記録するように構成されてもよい。デバイスはまた、キャプチャした画像に関する画像モードとして、記録した現画像モードを格納および／または提供するように構成されてもよい。

画像キャプチャ可能なデバイスは更に、画像に関する方位データを記録できる装置を備え、画像キャプチャ時にデバイスの現方位を記録するように構成されてもよい。デバイスはまた、キャプチャした画像に関連する一つ以上の参照点に対する画像の方位を示す情報として、記録したデバイスの現方位を格納および／または提供するように構成されてもよい。例として、方位データを記録できる装置はコンパスを備えてもよい。別の例として、方位データを記録できる装置は、デバイスの現方位を追跡するように構成された一つ以上の加速度計を備えてもよい。さらに別の例として、方位データを記録できる装置は、既知である（別の）場所が送信する無線信号を受信した一つ以上の信号に基づいて現在位置を決定できる一つ以上の受信機または送受信機を備えてもよい。

画像キャプチャ可能なデバイスは更に、現在時刻を記録できる装置を備え、画像キャプチャ時の現在時刻を記録するように構成されてもよい。デバイスはまた、キャプチャした画像に関連する時間標示子として、記録済み現在時刻を格納および／または提供するように構成されてもよい。こうした時間標示子は、画像に関連する時刻や日付等を示してもよい。

例えば、画像に関する追加データのデータアイテムを記録または保存できる構成を備えた画像キャプチャ可能なデバイスを用いて、画像キャプチャに合わせておよび／または画像キャプチャ時に、画像に関する追加データのデータアイテムを記録または保存する代わりに、こうした画像に関する追加データの対応するデータアイテムが画像キャプチャとは別に提供されてもよい。こうして例えば、画像が、その画像キャプチャとは直接関係のない位置情報，オーディオデータ，画像モードデータおよび／または方位データに関連付けられてもよい。これは特に、絵画やグラフ，コンピュータ処理画像等、写真以外の画像の場合に有益である。特に、画像に関連する任意のユーザ指定のデータが画像キャプチャとは別に提供されてもよい。また例えば、画像に関する追加データの関連するデータアイテムを記録または保存できる構成を備えた画像キャプチャ可能なデバイスを用いて、追加データの一つ以上のデータアイテムを変更または置換することもできる。

本発明の種々の実施形態に従う装置は、前述した構成に関する用語で記述される。前述した複数の構成部分、すなわちオーディオ分析部12，オーディオトラック決定部14，分類部16および／または画像分析部18に割当てられた処理は、別の方法でこれらの構成部分に割当てられてもよい。あるいは、前述した本発明に関する種々の実施形態のコンテキストで奇術された処理の一部を実施する追加部分があってもよい。特に、前述したオーディオ分析部12，オーディオトラック決定部14，分類部16および／または画像分析部18に割当てられた全ての処理は、装置10の単一処理部に割当てられてもよい。本発明の更なる実施形態に従って、機能に関する用語を用いて、以下のオーディオ処理装置が提供される：オーディオ信号グループを取得する手段であって、各オーディオ信号は画像グループの画像に関連付けられ、前記画像グループは割当全表示時間を有するプレゼンテーションに対して提供され、前記画像の各々は割当表示時間を有する、前記取得する手段と；一つ以上の中間オーディオ信号を決定するために前記オーディオ信号の少なくとも一つを分析する手段であって、第1持続時間を有するオーディオトラックを決定するためであり、前記第1持続時間は前記割当全表示時間を本質的にカバーする、前記決定する手段と；前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成する手段を備える、装置。

本発明の一実施形態に従う方法100は図10に示されている。この方法100は、オーディオ信号グループを取得することであって、各オーディオ信号は画像グループの画像に関連付けられ、前記画像グループは割当全表示時間を有するプレゼンテーションに対して提供され、前記画像の各々は割当表示時間を有する、前記取得することを含み、ステップ102で示される。この方法100は更に、一つ以上の中間オーディオ信号を決定するために前記オーディオ信号の少なくとも一つを分析することであって、第1持続時間を有するオーディオトラックを決定するためであり、前記第1持続時間は前記割当全表示時間を本質的にカバーする、前記決定することを含み、ステップ104で示される。この方法100は更に、前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することを含み、ステップ106で示される。

本発明の一実施形態に従う方法120は図11に示されている。この方法120は、複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の一つに関連付けられている、前記取得することを含み、ステップ122で示される。この方法120は更に、複数の位置標示子を取得することであって、各位置標示子は複数の画像の一つに関連付けられている、前記取得することを含み、ステップ124で示される。この方法120は更に、前記複数の画像の中のサブセットとして第1画像グループを決定することであって、前記第1画像グループが、それに関連する第1位置を表わす位置識別子を有する画像を含んでいる、前記決定することを含み、ステップ126で示される。前記第1画像グループは例えば、前述した方法100と共に処理されてもよい。

本発明の一実施形態に従う方法140は図12に示されている。この方法140は、オーディオ信号グループを取得することであって、各オーディオ信号は画像グループの画像に関連付けられ、前記画像グループは割当全表示時間を有するプレゼンテーションに対して提供され、前記画像の各々は割当表示時間を有する、前記取得することを含み、ステップ142で示される。この方法140は更に、画像グループの各画像に対して、それに関連するオーディオ信号のセグメントを決定することであって、対応する中間オーディオ信号を決定するためである、前記決定することを含み、ステップ144で示される。さらにこの方法140は、各画像に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、各画像に関連する決定されたオーディオ信号セグメントに基づいて、対応する画像の割当表示時間に一致または本質的に一致する時間を有する、前記決定することを含み、ステップ146で示される。この方法140は更に、前記中間オーディオ信号の連結として、オーディオトラックを作成することを含み、ステップ148で示される。

本発明の一実施形態に従う方法160は図13に示されている。この方法160は、オーディオ信号グループを取得することであって、各オーディオ信号は画像グループの画像に関連付けられ、前記画像グループは割当全表示時間を有するプレゼンテーションに対して提供され、前記画像の各々は割当表示時間を有する、前記取得することを含み、ステップ162で示される。この方法160は、オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することを含み、ステップ164で示される。この方法160は更に、第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、画像グループの割当全表示時間をカバーまたは本質的にカバーする持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することを含み、ステップ166で示される。この方法160は更に、前記周辺環境トラックおよび前記一つ以上の中間オーディオ信号に基づいて、オーディオトラックを作成することを含み、ステップ168で示される。

本発明の一実施形態に従う方法180は図14に示されている。この方法180は、オーディオ信号グループを取得することであって、各オーディオ信号は画像グループの画像に関連付けられ、前記画像グループは割当全表示時間を有するプレゼンテーションに対して提供され、前記画像の各々は割当表示時間を有する、前記取得することを含み、ステップ182で示される。この方法180は、オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することを含み、ステップ184で示される。この方法180は更に、所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記所定画像の割当表示時間に本質的に一致する持続時間を有する中間オーディオ信号を決定することであって、前記中間オーディオ信号は前記特定のオーディオ信号成分に少なくとも部分的に基づいている、前記決定することを含み、ステップ186で示される。この方法180は更に、前記中間オーディオ信号に少なくとも部分的に基づいて、前記所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成することを含む。

続いて、本発明の更なる例示的実施形態が示される。

本発明の一実施形態に従って、複数の画像であって、各画像が位置標示子に関連付けられている、前記複数画像が取得される。また、複数画像の中の各画像は、オーディオ信号にも関連付けられている。複数画像の中の各画像は、方位データおよび対応する画像のキャプチャに関連する条件を記述するその他の知覚データに関連付けられていてもよい。

前記複数画像の中の画像は、ユーザに対してコンピュータやカメラのディスプレイ画面等に表示され、ユーザは表示内に含まれる画像を選択する。こうした表示は例えば、スライドショーであって、画像がスライドショーの視聴者に一つずつ表示され、各画像はそれぞれに割当てられた表示時間だけ表示されてもよい。

表示する画像の選択中または選択後、各画像の割当表示時間が取得される。表示用に選択された所定の画像に対する割当表示時間は、その所定画像に関する追加データとして事前に割当てられ、取得されてもよい。あるいは、表示する画像を選択するとき等に、表示用に選択された対応する画像に対して所望する表示時間をユーザが割当ててもよい。

スライドショーとして表示用に選択された画像のプレゼンテーションに付随するオーディオトラックの決定は、画像に関連する位置標示子に基づいて、表示用に選択された画像を複数のグループに分類することを含む。ここで、同一の場所や同一の場所と見做される領域を示す画像は、同一のグループに割当てられる。表示用に選択された画像が適切な複数の画像グループに割当てられると、各グループは別々に処理される。

所定のグループに対して、そのグループに割当てられた画像に関連するオーディオ信号は、対応するオーディオ信号内の特定のオーディオ信号成分として会話または音声信号を検出するために、分析アルゴリズムによって処理される。オーディオ信号から会話または音声信号を検出することに応じて、後で所定グループに対するオーディオトラックの組成に使用するために、会話／音声信号が抽出されてもよい。同様に、所定グループの画像に関連するオーディオ信号は、周辺環境信号成分しか含まれていない画像を識別するために処理される。オーディオ信号から周辺環境信号成分のみを検出することに応じて、後で所定グループに対するオーディオトラックの組成に使用するために、周辺環境信号成分が抽出されてもよい。

関連する会話または音声信号を含むと決定されたオーディオ信号を有する画像は、人の顔等の人物被写体の部分とその部分の画像に対する位置を検出するために、画像分析アルゴリズムによって処理される。結果として、画像内に人物被写体またはその部分を検出することに応じて、その画像にタグ等の識別子が付与され、その標示子が、画像内に人物被写体が存在することを示してもよい。こうした標示子またはタグは、画像内で識別された人物被写体の位置を特定する情報を含んでもよい。識別子は、その画像に関する追加データとして（格納されたり提供されたりして）含められてもよい。人物被写体が存在すると決定された画像の分析は更に、空間オーディオ信号成分を検出するために、その画像に関連するオーディオ信号を分析することを含んでもよい。そして、所望する知覚可能な到来方向を表現する音像を持たせるために、空間オーディオ成分を変更できることも含まれる。あるいは、人物被写体が存在すると決定された画像に関連するオーディオ信号は、空間オーディオ信号に変更されてもよい。そして、オーディオ信号に関するオーディオ関連追加情報に、空間オーディオ信号が含まれるという標示が含まれてもよい。場合によっては、こうした標示は空間オーディオ信号成分の知覚可能な方向を示す情報と共に与えられてもよい。

前述の分析アルゴリズムは、画像に関する画像モードデータに適応または応答してもよい。例えば、画像がポートレートフォーマットであることを示す画像モードデータや画像内の人物被写体を示唆するカメラモードやプロファイルによって、その画像に関連するオーディオ信号には会話または音声信号および／または空間オーディオ信号成分が含まれる可能性のある画像であると、優先的または排他的に見做されるような方法で行われてもよい。これとは逆に、ランドスケープフォーマットであることを示す画像モードデータや画像内の風景や景色が含まれることを示唆するカメラモードによって、その画像に関連するオーディオ信号には周辺環境信号成分しか含まれない可能性のある画像であると、優先的または排他的に見做される。

会話または音声成分と周辺環境信号成分に関して全グループが分析された直後に、周辺環境トラックが各グループに対して生成される。所定のグループに対する周辺環境トラックは、識別された周辺環境信号成分に基づいて作成される。周辺環境トラックは、当該所定グループに対して抽出されてもよい。所定の画像グループに対して、当該所定グループに割当てられた画像の割当表示時間の合計に一致する全持続時間を有する周辺環境トラックが生成される。周辺環境トラックは、前述したように、所定のグループに割当てられた画像に関連する一つ以上のオーディオ信号で識別された周辺環境信号成分に基づいて生成されてもよい。

所定のグループに対して周辺環境トラックが生成されると、当該所定グループに割当てられた画像に関連するオーディオ信号から会話／音声信号成分が識別されてもよく、抽出されてもよい。こうした会話／音声信号成分は、当該所定グループに対するオーディオトラックを生成するために、周辺環境トラックにミキシングされてもよい。会話または音声信号成分は、その会話または音声信号成分が関連する画像の割当表示時間に対応する時間的位置でオーディオトラックにミキシングされる。

全画像グループに対するオーディオトラックが生成されると、表示用に選択された画像のプレゼンテーションに付随する合成オーディオトラックが、オーディオトラックを連結することによって生成される。

図15は、本発明の一実施形態に従う装置40を概略的に示す。装置40は、オーディオ処理装置10として使用されてもよい。装置40は最終製品またはモジュールであってもよい。ここでモジュールという用語は、完成品メーカーやユーザが最終製品と成る装置にするために導入され得る特定の部品や要素を除くユニットや装置を表わす。

装置40は、単独のハードウェア（例えば、回路やプログラマブルプロセッサ，非プログラマブルプロセッサ等）として実装されてもよい。また装置40は、単独のソフトウェア（ファームウェア等）として実装された特定の態様を有してもよい。ハードウェアとソフトウェアの組合せとして実装することもできる。

装置40は、ハードウェア機能を実現する命令であって、例えば、汎用プロセッサまたは特定用途向けプロセッサで実行可能なコンピュータプログラム命令を用いて実装されてもよい。こうした命令は、前述のプロセッサで実行されるように、コンピュータ可読記憶媒体（ディスクやメモリ等）に格納されてもよい。

図15の例では、装置40はプロセッサ42とメモリ44，通信インタフェース46を備える。通信インタフェース46は、他の装置と無線または有線通信できるネットワークカードやネットワークアダプタ等である。プロセッサ42は、メモリ44に対して読み書きするように構成される。装置40は更に、データ，命令および／またはその他の入力をプロセッサ42に与える、および／またはプロセッサ42からデータや他の出力を受け取るユーザインタフェース48を備えてもよい。こうしたユーザインタフェースは例えば、一つ以上のディスプレイやキーボードまたはキー，マウスやポインティングデバイス，タッチスクリーン等を含んでもよい。装置は、図15の実施例には示されていない追加部品を備えてもよい。

プロセッサ42は、図15の実施例では単独要素として示されているが、一つ以上の別々の要素として実装されてもよい。メモリ44は、図15の実施例では単独要素として示されているが、一つ以上の別々の要素として実装されてもよい。こうした要素の一部または全部は組込み型／着脱可能型でもよく、および／または、永久／半永久／動的／キャッシュの記憶方式でもよい。

装置40は例えば、携帯電話やカメラ，ビデオカメラ，音楽プレーヤー，ゲーム機器，ラップトップコンピュータ，デスクトップコンピュータ，携帯情報端末（PDA），タブレット端末，テレビ受像機等として具現化されてもよい。

メモリ44は、コンピュータ実行可能な命令であって、プロセッサ42にロードされるときに装置の動作を制御する命令を含むコンピュータプログラム50を格納してもよい。例として、コンピュータプログラム50は一つ以上の命令の一つ以上のシーケンスを含んでもよい。コンピュータプログラム50はコンピュータプログラムコードとして提供されてもよい。プロセッサ42は、メモリ44に格納された一つ以上の命令の一つ以上のシーケンスをそこから読取ることによって、コンピュータプログラム50をロードして実行できる。一つ以上の命令の一つ以上のシーケンスは、一つ以上のプロセッサによって実行されるとき、前述した本発明の一つ以上実施形態に従う処理を装置40等の装置に実装させるように構成されてもよい。

それ故、装置40は、少なくとも一つのプロセッサ42と、一つ以上のコンピュータプログラムのコンピュータプログラムコードを含む少なくとも一つのメモリ44を備えてもよい。少なくとも一つのメモリ44およびコンピュータプログラムコードは、少なくとも一つのプロセッサ42を用いて、前述した本発明の一つ以上実施形態に従う処理を装置40に遂行させるように構成されてもよい。

コンピュータプログラム50は任意適当な配信機構で装置40に提供されてもよい。例として、こうした配信機構は、プログラムコードを格納する少なくとも一つのコンピュータ可読非一時的媒体を備えてもよい。プログラムコードは、装置によって実行されるとき、その装置に、前述した方法100，120，140，160，180の何れかである本発明の一実施形態に従う処理を少なくとも実装させる。配信機構は例えば、コンピュータ可読記憶媒体やコンピュータプログラム製品，メモリデバイス，CD-ROMやDVD等の記憶媒体，コンピュータプログラム50を有形物として具現化するメーカー製品等であってもよい。さらなる例として、配信機構はコンピュータプログラム50を確実に伝達するように構成される信号でもよい。

ここでプロセッサと呼ぶものは、プログラマブルプロセッサのみを包含するものではなく、フィールドプログラマブル・ゲートアレイ（FPGA）や特定用途向け回路（ASIC），シグナルプロセッサ等の専用回路も包含するものであると理解すべきである。これまでに記述してきた事項は、明示的に記述された組合せだけでなく、それ以外の組合せで用いられてもよい。特定の事項を参照して種々の機能を記述してきたが、こうした機能は、記述の有無を問わずその他の事項によって遂行可能であってもよい。特定の実施形態を参照して種々の事項を記述してきたが、こうした事項は、記述の有無を問わずその他の実施形態で用いられてもよい。

Claims

オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと、
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと、
を遂行するように構成されるオーディオ分析部と；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成するように構成されるオーディオトラック決定部と；
を備える、装置。
複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと、
複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと、
前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと、
を遂行するように構成される分類部を更に備える、請求項1に記載の装置。
前記位置情報は全地球測位システムの座標を含む、請求項2に記載の装置。
前記第1位置は、所定の参照位置からの所定の最大距離によって決定される、請求項2または3に記載の装置。
前記オーディオ分析部は、
前記画像の各々に対して、関連する中間オーディオ信号を決定するために、前記各画像に関連するオーディオ信号のセグメントを決定することと、
前記画像の各々に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記各画像に関連するオーディオ信号の決定されたセグメントに基づいて、関連する画像の割当表示時間に本質的に一致する時間を有する、前記決定することと、
を遂行するように構成され、
前記オーディオトラック決定部は、前記中間オーディオ信号の連結として前記オーディオトラックを作成するように構成される、請求項1から4の何れかに記載の装置。
前記オーディオ分析部は、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、前記第1持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することと、
を遂行するように構成され、
前記オーディオトラック決定部は、前記周辺環境トラックと前記一つ以上の中間オーディオ信号に基づいて、前記オーディオトラックを作成するように構成される、請求項1から4の何れかに記載の装置。
前記オーディオ分析部は、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、前記第2周辺環境信号成分に更に基づいて、前記第1持続時間を有する周辺環境トラックを決定するように構成される、請求項6に記載の装置。
前記オーディオ分析部は、オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて、前記オーディオ信号の少なくとも一つを分析するように構成される、請求項6または7に記載の装置。
前記画像モードデータは、関連する画像を提供するカメラの動作モードを標示する、請求項8に記載の装置。
前記オーディオ分析部は、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第3の所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記特定のオーディオ信号成分に少なくとも部分的に基づいて、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記第3の所定画像の割当表示時間に本質的に一致する持続時間を有する、前記決定することと、
を遂行するように構成され、
前記オーディオトラック決定部は、前記中間オーディオ信号に少なくとも部分的に基づいて、前記第3の所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成するように構成される、請求項1から9の何れかに記載の装置。
前記オーディオ分析部は、オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて、前記オーディオ信号の少なくとも一つを分析するように構成される、請求項10に記載の装置。
前記特定のオーディオ信号成分は音声または会話信号を含む、請求項10または11に記載の装置。
前記特定のオーディオ信号成分は空間オーディオ信号を含む、請求項10から12の何れかに記載の装置。
前記第3の所定画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記第3の所定画像における特定の被写体の存在および位置を決定するために、前記第3の所定画像を分析するように構成される、画像分析部を備え、
前記オーディオトラック決定部は、前記第3の所定画像に特定の被写体が存在すると決定することに応じて、前記特定のオーディオ信号成分に基づいて、前記第3の所定画像における前記特定被写体について決定された位置に対する知覚可能な到来方向を有する空間オーディオ信号として、中間オーディオ信号を作成するように構成される、
請求項10から13の何れかに記載の装置。
前記特定被写体は、人の顔または人の顔に対応する形状を含む、請求項14に記載の装置。
オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；
を含む、方法。
複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと；
複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと；
前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと；
を更に含む、請求項1に記載の方法。
前記位置情報は全地球測位システムの座標を含む、請求項17に記載の方法。
前記第1位置は、所定の参照位置からの所定の最大距離によって決定される、請求項17または18に記載の方法。
前記オーディオ信号の少なくとも一つを分析することは、
前記画像の各々に対して、関連する中間オーディオ信号を決定するために、前記各画像に関連するオーディオ信号のセグメントを決定することと、
前記画像の各々に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記各画像に関連するオーディオ信号の決定されたセグメントに基づいて、関連する画像の割当表示時間に本質的に一致する時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号の連結として、前記オーディオトラックを作成することを含む、
請求項16から19の何れかに記載の方法。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、前記第1持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することと、
を含み、
前記作成することは、前記周辺環境トラックおよび前記一つ以上の中間オーディオ信号に基づいて、前記オーディオトラックを作成することを含む、
請求項16から19の何れかに記載の方法。
前記オーディオ信号の少なくとも一つを分析することは、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、
前記第2周辺環境信号成分に更に基づいて、前記第1持続時間を有する周辺環境トラックを決定することを含む、請求項21に記載の方法。
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記関連する画像に関する画像モードデータに少なくとも部分的に基づいている、請求項21または22に記載の方法。
前記画像モードデータは、関連する画像を提供するカメラの動作モードを標示する、請求項23に記載の方法。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第3の所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記特定のオーディオ信号成分に少なくとも部分的に基づいて、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記第3の所定画像の割当表示時間に本質的に一致する持続時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号に少なくとも部分的に基づいて、前記第3の所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成することを含む、請求項16から23の何れかに記載の方法。
オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいている、請求項25に記載の方法。
前記特定のオーディオ信号成分は音声または会話信号を含む、請求項25または26に記載の方法。
前記特定のオーディオ信号成分は空間オーディオ信号を含む、請求項25から27の何れかに記載の方法。
前記第3の所定画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記第3の所定画像における特定の被写体の存在および位置を決定するために、前記第3の所定画像を分析することとを更に含み、
前記作成することは、前記第3の所定画像に特定の被写体が存在すると決定することに応じて、前記特定のオーディオ信号成分に基づいて、前記第3の所定画像における前記特定被写体について決定された位置に対する知覚可能な到来方向を有する空間オーディオ信号として、中間オーディオ信号を作成することを含む、
請求項25から28の何れかに記載の方法。
前記特定被写体は人の顔を含む、請求項29に記載の方法。
少なくとも一つのプロセッサと、
コンピュータプログラムコードを含む少なくとも一つのメモリと、
を備える装置であって、前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサを用いて、前記装置に少なくとも次のこと：
オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；
を遂行させるように構成される、装置。
前記コンピュータ実行可能な命令は、前記プロセッサで実行されると、前記装置に更に、
複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと、
複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと、
前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと、
を遂行させるように構成される、請求項31に記載の装置。
前記位置情報は全地球測位システムの座標を含む、請求項32に記載の装置。
前記第1位置は、所定の参照位置からの所定の最大距離によって決定される、請求項32または33に記載の装置。
前記オーディオ信号の少なくとも一つを分析することは、
前記画像の各々に対して、関連する中間オーディオ信号を決定するために、前記各画像に関連するオーディオ信号のセグメントを決定することと、
前記画像の各々に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記各画像に関連するオーディオ信号の決定されたセグメントに基づいて、関連する画像の割当表示時間に本質的に一致する時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号の連結として、前記オーディオトラックを作成することを含む、
請求項31から34の何れかに記載の装置。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、前記第1持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することと、
を含み、
前記作成することは、前記周辺環境トラックおよび前記一つ以上の中間オーディオ信号に基づいて、前記オーディオトラックを作成することを含む、
請求項31から34の何れかに記載の装置。
前記オーディオ信号の少なくとも一つを分析することは、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、前記第2周辺環境信号成分に更に基づいて、前記第1持続時間を有する周辺環境トラックを決定することを含む、請求項36に記載の装置。
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて遂行される、請求項36または37に記載の装置。
前記画像モードデータは、関連する画像を提供するカメラの動作モードを標示する、請求項38に記載の装置。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第3の所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記特定のオーディオ信号成分に少なくとも部分的に基づいて、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記第3の所定画像の割当表示時間に本質的に一致する持続時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号に少なくとも部分的に基づいて、前記第3の所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成することを含む、請求項31から39の何れかに記載の装置。
オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて遂行される、請求項30に記載の装置。
前記特定のオーディオ信号成分は音声または会話信号を含む、請求項40または41に記載の装置。
前記特定のオーディオ信号成分は空間オーディオ信号を含む、請求項40から42の何れかに記載の装置。
前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に更に、
前記第3の所定画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記第3の所定画像における特定の被写体の存在および位置を決定するために、前記第3の所定画像を分析することとを少なくとも遂行させるように構成され、
前記作成することは、前記第3の所定画像に特定の被写体が存在すると決定することに応じて、前記特定のオーディオ信号成分に基づいて、前記第3の所定画像における前記特定被写体について決定された位置に対する知覚可能な到来方向を有する空間オーディオ信号として、中間オーディオ信号を作成することを含む、
請求項40から43の何れかに記載の装置。
前記特定被写体は、人の顔または人の顔に対応する形状を含む、請求項44に記載の装置。
オーディオ信号のグループを取得する手段であって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得する手段と；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析する手段であって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析する手段と；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成する手段と；
を備える、装置。
複数のオーディオ信号を取得する手段であって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得する手段と；
複数の位置標示子を取得する手段であって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得する手段と；
前記複数画像の中のサブセットとして画像グループを決定する手段であって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定する手段と；
を更に備える、請求項46に記載の装置。
前記位置情報は全地球測位システムの座標を含む、請求項47に記載の装置。
前記第1位置は、所定の参照位置からの所定の最大距離によって決定される、請求項47または48に記載の装置。
前記オーディオ信号の少なくとも一つを分析する手段は、
前記画像の各々に対して、関連する中間オーディオ信号を決定するために、前記各画像に関連するオーディオ信号のセグメントを決定することと、
前記画像の各々に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記各画像に関連するオーディオ信号の決定されたセグメントに基づいて、関連する画像の割当表示時間に本質的に一致する時間を有する、前記決定することと、
を遂行するように構成され、
前記作成する手段は、前記中間オーディオ信号の連結として、前記オーディオトラックを作成するように構成される、
請求項46から49の何れかに記載の装置。
前記オーディオ信号の少なくとも一つを分析する手段は、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、前記第1持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することと、
を遂行するように構成され、
前記作成する手段は、前記周辺環境トラックおよび前記一つ以上の中間オーディオ信号に基づいて、前記オーディオトラックを作成する用に構成される、
請求項46から49の何れかに記載の装置。
前記オーディオ信号の少なくとも一つを分析する手段は、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、前記第2周辺環境信号成分に更に基づいて、前記第1持続時間を有する周辺環境トラックを決定するように構成される、請求項51に記載の装置。
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析する手段は、前記関連する画像に関する画像モードデータに少なくとも部分的に基づいている、請求項51または52に記載の装置。
前記画像モードデータは、関連する画像を提供するカメラの動作モードを標示する、請求項53に記載の装置。
前記オーディオ信号の少なくとも一つを分析する手段は、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第3の所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記特定のオーディオ信号成分に少なくとも部分的に基づいて、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記第3の所定画像の割当表示時間に本質的に一致する持続時間を有する、前記決定することと、
を遂行するように構成され、
前記作成する手段は、前記中間オーディオ信号に少なくとも部分的に基づいて、前記第3の所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成するように構成される、請求項46から53の何れかに記載の装置。
オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析する手段は、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいている、請求項55に記載の装置。
前記特定のオーディオ信号成分は音声または会話信号を含む、請求項55または56に記載の装置。
前記特定のオーディオ信号成分は空間オーディオ信号を含む、請求項55から57の何れかに記載の装置。
前記第3の所定画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記第3の所定画像における特定の被写体の存在および位置を決定するために、前記第3の所定画像を分析する手段を更に備え、
前記作成する手段は、前記第3の所定画像に特定の被写体が存在すると決定することに応じて、前記特定のオーディオ信号成分に基づいて、前記第3の所定画像における前記特定被写体について決定された位置に対する知覚可能な到来方向を有する空間オーディオ信号として、中間オーディオ信号を作成するように構成される、
請求項55から58の何れかに記載の装置。
前記特定被写体は人の顔を含む、請求項59に記載の装置。
一つ以上の命令の一つ以上のシーケンスを含むコンピュータプログラムであって、一つ以上のプロセッサにより実行されると、装置に少なくとも次のこと：
オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；
を遂行させる、コンピュータプログラム。
複数のオーディオ信号を取得することであって、各オーディオ信号は複数の画像の中の一つの画像に関連付けられる、前記取得することと、
複数の位置標示子を取得することであって、各位置標示子は前記複数画像の中の一つの画像に関連付けられる、前記取得することと、
前記複数画像の中のサブセットとして画像グループを決定することであって、前記画像グループは、画像であって該画像に関連する第1位置を表わす位置識別子を有する、該画像を含むように、前記決定することと、
を遂行するように構成されるコンピュータ可読命令を含む、請求項61に記載のコンピュータプログラム。
前記位置情報は全地球測位システムの座標を含む、請求項62に記載のコンピュータプログラム。
前記第1位置は、所定の参照位置からの所定の最大距離によって決定される、請求項62または63に記載のコンピュータプログラム。
前記オーディオ信号の少なくとも一つを分析することは、
前記画像の各々に対して、関連する中間オーディオ信号を決定するために、前記各画像に関連するオーディオ信号のセグメントを決定することと、
前記画像の各々に対して、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記各画像に関連するオーディオ信号の決定されたセグメントに基づいて、関連する画像の割当表示時間に本質的に一致する時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号の連結として、前記オーディオトラックを作成することを含む、
請求項61から64の何れかに記載のコンピュータプログラム。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第1の所定のオーディオ信号が周辺環境信号成分を含むと決定することに応じて、前記第1持続時間を有する周辺環境トラックを決定することであって、前記周辺環境トラックは前記周辺環境信号成分に基づいて決定される、前記決定することと、
を含み、
前記作成することは、前記周辺環境トラックおよび前記一つ以上の中間オーディオ信号に基づいて、前記オーディオトラックを作成することを含む、
請求項61から64の何れかに記載のコンピュータプログラム。
前記オーディオ信号の少なくとも一つを分析することは、第2の所定のオーディオ信号が第2周辺環境信号成分を含むと決定することに応じて、前記第2周辺環境信号成分に更に基づいて、前記第1持続時間を有する周辺環境トラックを決定することを含む、請求項36に記載のコンピュータプログラム。
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて遂行される、請求項66または67に記載のコンピュータプログラム。
前記画像モードデータは、関連する画像を提供するカメラの動作モードを標示する、請求項68に記載のコンピュータプログラム。
前記オーディオ信号の少なくとも一つを分析することは、
オーディオ信号が周辺環境信号成分を含むかどうかを決定するために、前記オーディオ信号の少なくとも一つを分析することと、
第3の所定の画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記特定のオーディオ信号成分に少なくとも部分的に基づいて、中間オーディオ信号を決定することであって、前記中間オーディオ信号は、前記第3の所定画像の割当表示時間に本質的に一致する持続時間を有する、前記決定することと、
を含み、
前記作成することは、前記中間オーディオ信号に少なくとも部分的に基づいて、前記第3の所定画像の表示時間に時間的に揃えられたオーディオトラック部分を作成することを含む、請求項61から69の何れかに記載のコンピュータプログラム。
オーディオ信号が特定のオーディオ信号成分を含むかどうかを決定するために前記オーディオ信号の少なくとも一つを分析することは、前記画像グループの画像に関する画像モードデータに少なくとも部分的に基づいて遂行される、請求項70に記載のコンピュータプログラム。
前記特定のオーディオ信号成分は音声または会話信号を含む、請求項70または71に記載のコンピュータプログラム。
前記特定のオーディオ信号成分は空間オーディオ信号を含む、請求項70から72の何れかに記載のコンピュータプログラム。
一つ以上の命令の一つ以上のシーケンスであって、一つ以上のプロセッサにより実行されると、装置に少なくとも次のこと：
前記第3の所定画像に関連するオーディオ信号が特定のオーディオ信号成分を含むと決定することに応じて、前記第3の所定画像における特定の被写体の存在および位置を決定するために、前記第3の所定画像を分析することを遂行させる、前記一つ以上の命令の一つ以上のシーケンスを更に含み、
前記作成することは、前記第3の所定画像に特定の被写体が存在すると決定することに応じて、前記特定のオーディオ信号成分に基づいて、前記第3の所定画像における前記特定被写体について決定された位置に対する知覚可能な到来方向を有する空間オーディオ信号として、中間オーディオ信号を作成することを含む、
請求項70から73の何れかに記載のコンピュータプログラム。
前記特定被写体は、人の顔または人の顔に対応する形状を含む、請求項74に記載のコンピュータプログラム。
プログラムコードを格納している少なくとも一つのコンピュータ可読非一時的媒体を含むコンピュータプログラム製品であって、前記プログラムは、装置で実行させると、前記装置に少なくとも：
オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；
を遂行させる、コンピュータプログラム製品。
一つ以上の命令の一つ以上のシーケンスを含むコンピュータプログラムであって、一つ以上のプロセッサにより実行されると、装置に少なくとも次のこと：
オーディオ信号のグループを取得することであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得することと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析することであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析することと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成することと；
を遂行させる、コンピュータプログラム製品。
コンピュータ可読媒体を含むコンピュータプログラム製品であって、前記コンピュータ可読媒体はプログラムコードを有し、前記プログラムコードは、コンピュータを用いて利用されるように、前記コンピュータ可読媒体内で具現化され、前記プログラムコードは、
オーディオ信号のグループを取得するコードであって、各オーディオ信号は画像のグループの中の一つの画像に関連付けられ、前記画像グループは、割当表示時間を有する各画像を用いて、割当全表示時間を有するプレゼンテーションに対して提供される、前記取得するコードと；
第1持続時間を有するオーディオトラックを決定するための一つ以上の中間オーディオ信号を決定するために、前記オーディオ信号の少なくとも一つを分析するコードであって、前記第1持続時間は、前記割当全表示時間を本質的にカバーする、前記分析するコードと；
前記一つ以上の中間オーディオ信号に基づいて、前記第1持続時間を有するオーディオトラックを作成するコードと；
を含む、コンピュータプログラム製品。