JP7194200B2

JP7194200B2 - 複数の音源を備える空間オーディオ・シーンのプレビュー

Info

Publication number: JP7194200B2
Application number: JP2020561918A
Authority: JP
Inventors: ラッセラークソネン; ミッカヴィレルモ; アルトレフティニエミ; スジーティシャムスンダルマテ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2018-05-14
Filing date: 2019-05-10
Publication date: 2022-12-21
Anticipated expiration: 2039-05-10
Also published as: US11368807B2; US20210250720A1; EP3570566B1; EP3570566A1; JP2021523603A; WO2019219527A1

Description

本開示の実施形態は、複数の音源を備える空間オーディオ・シーンのプレビューに関する。

背景

聴取者がそのレンダリングされた空間オーディオを１つ以上の特定のロケーションまたは方角における１つ以上の仮想源から発するとして知覚するように空間オーディオ・コンテンツをレンダリングするために複数のスピーカを用いることができる。

オーディオ・シーンとは、あたかも音空間内のある特定の視点から聴かれるような音空間（空間における音源のある配置によって生み出される音場）の表現である。視点は、可変的であってよく、例えば、仮想ユーザのある方位、かつまたおそらくは仮想ユーザのあるロケーションによって決定されてよい。

標準的なステレオ・オーディオ・トラック、例えば、コンパクト・ディスク（ＣＤ）アルバム上の楽曲では、聴取者に対してレンダリングされるコンテンツがコンテンツ作成者によって制御された。聴取者は、受動的であり、彼または彼女の視点を変化させることはできない。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、時間を通してのあるサーチに制約される。

空間オーディオについては、聴取者に対してレンダリングされるコンテンツが仮想ユーザの可変的な視点によって制御される。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、空間および時間の両方を通してのあるサーチである。

摘要

様々な、しかし必ずしもすべてではない、実施形態によれば、装置であって、
ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択し、その空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義され、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択して、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらす
手段を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その少なくとも１つの選択された音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
装置が提供される。

様々な、しかし必ずしもすべてではない、例によれば、そのオーディオ・プレビューの選択によってもたらされるオペレーションは、
その選択された音源およびその少なくとも１つの関連するコンテキスト音源を含む複数の音源を備える、その空間オーディオ・シーンの空間レンダリングをもたらすことを含み、その空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義される。

様々な、しかし必ずしもすべてではない、例によれば、本装置は、ユーザ入力より前に、第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、第１の空間オーディオ・シーンの空間レンダリングをもたらす手段を備え、
ユーザ入力は、第１の空間オーディオ・シーンにおいてレンダリングされた少なくとも１つの第１の音源の選択である。

様々な、しかし必ずしもすべてではない、例によれば、空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択することは、第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、第１の空間オーディオ・シーンの少なくとも１つの第１の音源を選択することを含み、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することは、その少なくとも１つの選択された第１の音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、第１の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
そのオーディオ・プレビューは、第１の空間オーディオ・シーンの複数の第１の音源のすべてではないが、その少なくとも１つの選択された第１の音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された第１の音源およびその少なくとも１つの関連する第１のコンテキスト音源上のオペレーションをもたらす。

様々な、しかし必ずしもすべてではない、例によれば、ユーザ入力は、あるサーチを指定している。

様々な、しかし必ずしもすべてではない、例によれば、空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択することは、第２の空間オーディオ・コンテンツによって定義された、複数の第２の音源を備える、第２の新しい空間オーディオ・シーンの少なくとも１つの第２の音源を選択することを含み、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することは、その少なくとも１つの選択された第２の音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、第２の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
そのオーディオ・プレビューは、第２の空間オーディオ・シーンの複数の第２の音源のすべてではないが、その少なくとも１つの選択された第２の音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された第２の音源上のオペレーションをもたらす。

様々な、しかし必ずしもすべてではない、例によれば、手段は、
その空間オーディオ・コンテンツを表す、そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、複数の音源のレンダリングを含むその空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらし、
その空間オーディオ・シーンと関連付けられた、あるロケーションおよびある方位を備える仮想ユーザ位置を決定して、
ユーザが、仮想ユーザの位置を変化させることによって、そのレンダリングされた空間オーディオ・シーンをその空間オーディオ・シーンから変化させることを可能にするように構成され、仮想ユーザの位置は、ユーザのある変化する方位、またはユーザのある変化するロケーションおよび方位に依存する。

様々な、しかし必ずしもすべてではない、例によれば、手段は、その少なくとも１つの選択された音源に基づいて、複数の音源のうちから、その少なくとも１つの関連するコンテキスト音源を選択するように構成される。

様々な、しかし必ずしもすべてではない、例によれば、手段は、
空間および／またはオーディオ特性に基づいて複数の音源を主要音源および非主要音源へ論理的に分離するように構成され、少なくとも１つの選択された音源は、主要音源を備える群から選択され、その少なくとも１つの関連するコンテキスト音源は、非主要音源を備える群から選択される。

様々な、しかし必ずしもすべてではない、例によれば、手段は、
その少なくとも１つの選択された音源と、
（ｉ）その空間オーディオ・コンテンツの作成者によってその空間オーディオ・コンテンツの元の部分として提供されたメタデータ、および／または
（ｉｉ）複数の音源のラウドネスに依存するあるメトリック、および／または
（ｉｉｉ）複数の音源間の１つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、複数の音源のうちから、その少なくとも１つの関連するコンテキスト音源を選択するように構成される。

様々な、しかし必ずしもすべてではない、例によれば、手段は、
その少なくとも１つの選択された音源に基づいて、複数の音源のあるサブセットのうちから、その少なくとも１つの関連するコンテキスト音源を選択するように構成され、複数の音源のそのサブセットは、ユーザの方位に係わらず同じである音源を備え、ユーザの方位とともに変動する音源を備えず、および／または
その少なくとも１つの選択された音源に基づいて、複数の音源のあるサブセットのうちから、その少なくとも１つの関連するコンテキスト音源を選択するように構成され、複数の音源のそのサブセットは、ユーザに依存する音源を備える。

様々な、しかし必ずしもすべてではない、例によれば、手段は、
異なるそれぞれの空間オーディオ・コンテンツによって定義された、異なるそれぞれ複数の音源を備える、異なるそれぞれの空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビューのレンダリングをもたらし、
あるオーディオ・プレビューは、少なくとも１つのユーザにより選択された音源、および、その少なくとも１つの選択された音源に依存する、少なくとも１つのコンテキストにより選択された音源を含むが、それぞれの空間オーディオ・シーンのそれぞれの複数の音源のすべてを含むわけではない音源のミックスを備え、
ユーザがあるオーディオ・プレビューを選択することなく複数のオーディオ・プレビューをブラウズすることを可能にし、
ユーザがある所望のオーディオ・プレビューに対して複数のオーディオ・プレビューをブラウズして、その所望のオーディオ・プレビューを選択することを可能にし、
あるレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、その選択された空間オーディオ・コンテンツに含まれる複数の音源のレンダリングを含むその選択された空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすように構成される。

様々な、しかし必ずしもすべてではない、実施形態によれば、方法であって、
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源を選択すること、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
方法が提供される。

様々な、しかし必ずしもすべてではない、例によれば、少なくとも１つの関連するコンテキスト音源を選択することは、その少なくとも１つの選択された音源と、
（ｉ）その空間オーディオ・コンテンツの作成者によってその空間オーディオ・コンテンツの元の部分として提供されたメタデータ、および／または
（ｉｉ）複数の音源のラウドネスに依存するあるメトリック、および／または
（ｉｉｉ）複数の音源間の１つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、複数の音源のうちから、その少なくとも１つの関連するコンテキスト音源を選択することを含む。

様々な、しかし必ずしもすべてではない、実施形態によれば、コンピュータ・プログラムであって、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源を選択すること、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を行うための命令を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
コンピュータ・プログラムが提供される。

様々な、しかし必ずしもすべてではない、実施形態によれば、装置であって、
少なくとも１つのプロセッサ、および
コンピュータ・プログラム・コードを含む少なくとも１つのメモリ
を備え、
少なくとも１つのメモリおよびコンピュータ・プログラム・コードは、少なくとも１つのプロセッサとともに、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源を選択すること、
その少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を本装置に行わせるように構成され、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
装置が提供される。

様々な、しかし必ずしもすべてではない、実施形態によれば、方法であって、
ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンのある音源を選択すること、
選択された音源に基づいてあるコンテキスト音源を選択すること、
その空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、空間オーディオ・コンテンツを表す、あるオーディオ・プレビューをレンダリングすること
を含み、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその関連するコンテキスト音源を少なくとも含む音源のミックスを備える、
方法が提供される。

様々な、しかし必ずしもすべてではない、実施形態によれば、添付される請求項において請求されるような例が提供される。

いくつかの実施形態例が添付図面を参照して次に記載される。

本明細書に記載される主題のある実施形態例を示す。本明細書に記載される主題の別の実施形態例を示す。本明細書に記載される主題のある実施形態例を示す。図４Ａ～Ｃは、本明細書に記載される主題の別の実施形態例を示す。図５Ａ，Ｂは、本明細書に記載される主題のある実施形態例を示す。図６Ａ～Ｆは、本明細書に記載される主題の別の実施形態例を示す。本明細書に記載される主題のある実施形態例を示す。本明細書に記載される主題の別の実施形態例を示す。本明細書に記載される主題のある実施形態例を示す。

詳細説明

聴取者がそのレンダリングされた空間オーディオを１つ以上のロケーションまたは方角における１つ以上の仮想源から発するとして知覚するように空間オーディオ・コンテンツをレンダリングするために、複数のスピーカまたはヘッドトラッキング型ヘッドフォンを用いることができる。そのロケーションまたは方角は、ボリュメトリックまたは三次元空間オーディオのための３次元空間におけるあるロケーションまたは方角、あるいは２次元空間オーディオのための面内のあるロケーションまたは方角であってよい。

音空間は、音場を生み出す空間における音源のある配置である。音空間は、音を記録すること（記録音空間）に関連して、および音をレンダリングすること（レンダリング音空間）に関連して定義されてよい。オーディオ・シーンとは、あたかも音空間内のある特定の視点から聴かれるような音空間の表現である。視点は、仮想ユーザのある方位によって、かつまたおそらくは仮想ユーザのあるロケーションによって決定される。音オブジェクトは、どのようにそれがエンコードされるかに係わらず、音空間内に配置されてよいある音源である。それは、例えば、ロケーションによって、または方角によって配置されてよい。記録音オブジェクトは、ある特定のマイクロフォンまたはロケーションにおいて記録された音を表す。レンダリング音オブジェクトは、あたかもある特定のロケーションまたは方角からのようにレンダリングされた音を表す。

空間的に変動する音場を空間オーディオ・コンテンツとしてエンコードするために種々のフォーマットが用いられてよい。例えば、ヘッドフォンを介してあるオーディオ・シーンをレンダリングするためにバイノーラル・エンコーディングが用いられてよく、ある特有の構成のスピーカを介してあるオーディオ・シーンをレンダリングするために相応に特有のタイプのマルチチャネル・エンコーディングが用いられてよく（例えば、５．１または７．１サラウンド音）、定義された方角における少なくとも１つの音源をレンダリングするために方向エンコーディングが用いられてよく、ある定義されたロケーションにおける少なくとも１つの音源をレンダリングするために位置エンコーディングが用いられてよい。

標準的なオーディオ・トラック（または映画）では、聴取者（または視聴者）に対してレンダリングされるコンテンツがコンテンツ作成者によって制御された。聴取者（または視聴者）は、受動的であり、彼または彼女の視点を変化させることができない。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、一次元－時間内にのみある。

空間オーディオにおいては、聴取者に対してレンダリングされるコンテンツが複数のＮ次元、例えば、方位について２または３次元およびロケーションについて２または３次元で変動できる仮想ユーザの可変的な視点によって制御される。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、Ｎ＋１次元－空間についてＮおよび時間について１である。

その空間オーディオ・シーンは、レンダリングされる音源の識別情報および数を含めて、Ｎ＋１次元のうちの１つにおける値の小さい変化のみを伴って変化することが可能である。

以下の例では、コンテキストを依然として提供しつつ利用可能なコンテンツを簡単化するためにあるオーディオ・プレビューが用いられる。

図１は、方法１００のある例を示す。方法１００は、複数の第１の音源を備える空間オーディオ・シーンをプレビューするための方法のある例である。

そのオーディオ・プレビューは、プレビューされるその空間オーディオ・シーンの、ユーザにより選択された音源だけでなく、ユーザにより選択された音源に依存して選択された追加的な少なくとも１つの関連するコンテキスト音源も備える。そのオーディオ・プレビューは、プレビューされるその空間オーディオ・シーンのすべての音源を必ずしも備えるわけではない。そのオーディオ・プレビューは、単一のユーザにより選択された音源に単に限られるばかりでなく、その空間オーディシーンより複雑ではない。そのオーディオ・プレビューは、それゆえに、その空間オーディオ・シーンをレンダリングすることなく、その複雑な空間オーディオ・シーンの趣を与える。

これは、そのオーディオ・プレビューにおいては、主題のオーディオ・シーンに関して、例えば、完全な空間レンダリングのようなオペレーションのためにその空間オーディオ・シーンを選択すべきか否かについて情報に基づく決定を行うための関連情報がユーザに提供されるという利点を有する。

複数のプレビューを、例えば、ユーザを圧倒することなく、同時に、あるいは矢継ぎ早にユーザに提示することができる。

本方法は、ユーザが所望の音源に注目するために、記載されるプレビューを用いて、コンテキスト内で、空間オーディオ・コンテンツをフィルタリングすることも許容する。

本方法は、ユーザが所望のシーンを効率的に見つけるために、記載されるプレビューを用いて空間オーディオ・コンテンツをブラウズまたはサーチすることも許容する。

図１は、ユーザによって選択できるあるオーディオ・プレビューをレンダリングための方法１００のある例を示す。

図４Ａ、４Ｂおよび４Ｃも参照され、これらの図は、音源１２を備える音空間１０のある例を参照して方法１００のオペレーションを示す。

ブロック１０４において、方法１００は、ユーザ入力に応答して、空間オーディオ・シーン２０の少なくとも１つの音源１２を選択することを含む。空間オーディオ・シーン２０は、空間オーディオ・コンテンツによって定義される。空間オーディオ・シーン２０は、複数の音源１２を備える。図４Ａは、空間オーディオ・シーン２０の少なくとも１つの音源１２_ｕの、複数の音源１２のうちからの選択を概略的に示す。

ブロック１０６において、方法１００は、選択された音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源を選択することを含む。これは、図４Ｂに概略的に示され、同図では選択された音源１２_ｕおよび関連するコンテキスト音源１２_ｃ、ならびに選択された音源１２_ｕと関連するコンテキスト音源１２_ｃとの間の関連性が示される。図４Ｂの例では、関連するコンテキスト音源１２_ｃは、ユーザにより選択された音源１２_ｕを備える同じオーディオ・シーン２０のある音源１２である、しかしながら、これが必ずしもすべての例に当て嵌まるわけではないことが認識されるべきである。関連するコンテキスト音源１２_ｃは、例えば、ユーザにより選択された音源１２_ｕを備えるオーディオ・シーン２０に含まれなくてもよい。

ブロック１０８において、方法１００は、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、ユーザによって選択できる。そのオーディオ・プレビューは、空間オーディオ・シーン２０の複数の音源１２のすべてではないが、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備える。

そのオーディオ・プレビューのコンテンツが図４Ｃに概略的に示される。この例では、オーディオ・プレビュー２２は、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃのみを含む音源のミックスを備え、空間オーディオ・シーン２０の複数の音源１２のうちの他のものを備えない。しかしながら、これが単にある図示例であることが理解されるべきである。

そのプレビューは、少なくとも２つの音源の元の空間的ロケーションに対応することができ、または、例えば、モノラル・ダウンミックス、もしくは他の空間的に縮小されたレンダリングとすることができる。これは、いくつかの例では、少なくともユーザに対してレンダリングされている他のいずれかのオーディオに依存することができる。例えば、ユーザが空間オーディオを、仮に、彼らの右側にレンダリングされる場合、空間的に縮小されたプレビューをユーザの左側にレンダリングできるであろう。他方、ユーザが他のオーディオをレンダリングされなかった場合、そのプレビューは、シーン全体をユーザのための空間レンダリングに利用できるであろう。

コンテキスト的に関連する少なくとも第２のオーディオは、それらの少なくとも２つのオーディオが通常のレンダリングでは同時に聴こえないような、異なる空間的ロケーションおよび／または時間などからのものであってもよい。従って、与えられる例が限定的であると理解されるべきではない。

オーディオ・プレビュー２２の選択は、少なくとも、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源上のオペレーションをもたらす。従って、図４Ｃの例では、オーディオ・プレビュー２２の選択は、少なくとも、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす。

図２は、あるオーディオ・プレビューのユーザ選択に応答するための方法１１０のある例を示す。この方法１１０は、図１に示される方法１００から続く。

ブロック１１２において、方法１１０は、ユーザによるそのレンダリングされたオーディオ・プレビューの選択を備える。

ブロック１１４において、方法１１０は、ブロック１１２におけるユーザ選択に応答して、少なくとも、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源上のオペレーションをもたらすことを含む。

それゆえに、オーディオ・プレビュー２２によって表される、ユーザにより選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを含む音源の選択された群を用いて、ユーザは、何をなすべきかを決定することが認識されるであろう。そのオーディオ・プレビューのユーザ選択は、この音源１２群上のオペレーションをもたらす。

いくつかの、しかし必ずしもすべてではない、例では、オペレーションは、その空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすことを含んでよい。この空間オーディオ・シーンは、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを含む複数の音源１２のすべてを備える。

それゆえに、いくつかの例では、方法１００は、ユーザ入力に応答して、複数の音源１２を備える、空間オーディオ・シーン２０のある音源１２_ｕを選択すること、選択された音源１２_ｕに基づいてあるコンテキスト音源１２_ｃを選択すること、およびその空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、空間オーディオ・コンテンツを表す、オーディオ・プレビュー２２をレンダリングすることを含み、そのオーディオ・プレビューは、選択された音源１２_ｕおよび関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備えることが認識されるであろう。

オーディオ・プレビュー２２は、例えば、図５Ａおよび５Ｂに示されるように、ユーザに対して種々の手法でレンダリングされてよい。図５Ａでは、オーディオ・プレビュー２２としてユーザに対してレンダリングされたモノラル音源１２'を形成するために、ユーザにより選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃが一緒にミックスされる。図５Ｂの例では、ユーザにより選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃがオーディオ・プレビュー２２として別々の音源１２'_ｕおよび１２'_ｃのようにレンダリングされる。

ある音源１２_ｕのユーザ選択は、以下に参照される実施形態により詳細に記載されるように種々の手法で発生してよい。いくつかの、しかし必ずしもすべてではない、実施形態では、選択される音源１２_ｕは、選択される音源１２_ｕを備えるレンダリングされる空間オーディオ・シーン２０から選択される。他の例では、選択される音源１２_ｕは、あるユーザサーチの結果として選択され、そこではユーザ入力がそのサーチを指定する。サーチの時間にある空間オーディオ・シーンの空間レンダリングであってもなくてもよい。

図３は、あるオーディオ・プレビューをレンダリングするための方法１００の別の例を示す。

ブロック１０２において、方法１００は、第１の空間オーディオ・シーンの空間レンダリングをもたらすことを含む。第１の空間オーディオ・シーンは、第１の空間オーディオ・コンテンツによって定義される。第１の空間オーディオ・シーンは、複数の第１の音源を備える。

ブロック１０４において、方法１００は、ユーザ入力に応答して、第２の空間オーディオ・シーンの少なくとも１つの音源を選択することを含む。第２の空間オーディオ・シーンは、第２の空間オーディオ・コンテンツによって定義される。第２の空間オーディオ・シーンは、複数の第２の音源を備える。

図４Ａは、複数の第２の音源１２を備える第２の空間オーディオ・シーン２０のある例を示す。選択された少なくとも１つの第２の音源１２_ｕが強調表示される。

ブロック１０６において、方法１００は、少なくとも１つの選択された音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択することを含む。

いくつかの、しかし必ずしもすべてではない例では、その少なくとも１つの関連するコンテキスト音源は、複数の第２の音源のうちの１つである。しかしながら、他の例ではこれが当て嵌まらない。図４Ｂは、少なくとも１つの関連するコンテキスト音源１２_ｃが選択された第２の音源１２_ｕを含む第２の空間オーディオ・シーン２０の複数の第２の音源１２のうちの１つである例を示す。

ブロック１０８において、方法１００は、第２の空間オーディオ・コンテンツを表すあるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、ユーザによって選択できる。そのオーディオ・プレビューは、第２の空間オーディオ・シーン２０の複数の第２の音源１２のすべてではないが、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備える。そのオーディオ・プレビューの選択は、少なくとも、選択された第２の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす。

図１に関連して先に与えられた図２の方法１１０の説明がこの図についても関連する。同様に、オペレーションの先の説明も関連する。例えば、オペレーションは、第２の空間オーディオ・コンテンツによって定義された第２の空間オーディオ・シーン２０の空間レンダリングをもたらしてよい。

図４Ｃは、一例に従ってそのオーディオ・プレビューに含まれる音源１２を概略的に示す。この例では、そのオーディオ・プレビューは、選択された第２の音源１２_ｕ、および、この例では第２の音源１２_ｃである、少なくとも１つの関連するコンテキスト音源のみを含む音源のミックスを備える。

いくつかの、しかし必ずしもすべてではない例では、第１の空間オーディオ・コンテンツは、第２の空間オーディオ・コンテンツと同じであってよく、第１の空間オーディオ・コンテンツによって定義された第１の空間オーディオ・シーンは、第２の空間オーディオ・コンテンツによって定義された第２の空間オーディオ・シーンと同じであってよい。その結果、この例では、第１の音源が第２の音源と同じである。この例では、オーディオ・プレビュー２２は、ユーザにより選択された音源１２_ｕ（およびその関連するコンテキスト音源１２_ｃ）に注目した選択的フィルタとして動作する。オーディオ・プレビュー２２は、第２の空間オーディオ・シーン２０の第２の音源１２のすべてを備えるわけではなく、それゆえに、選択された音源１２_ｕのためのコンテキストを依然として提供しつつ、音源１２_ｕに注目し、またはそれをハイライトする役割を果す。

他の例では、第１および第２のオーディオ・コンテンツ、第１および第２の空間オーディオ・シーンならびに第１および第２の音源は、異なる。第１の空間オーディオ・シーンと第２の空間オーディオ・シーンとの間にいくらかの重なりがあることは可能であるが、完全な重なりがあることにはならず、第１の空間オーディオ・シーンと第２の空間オーディオ・シーンとは異なる。第１および第２の空間オーディオ・シーンは、例えば、異なる音空間に関連してもよく、または、それらは、異なる時間および／または異なるロケーションおよび／または異なる方位に関して同じ音空間に関連してもよい。この例では、オーディオ・プレビュー２２は、ユーザが異なる方位および／または異なるロケーションおよび／または異なる時間へ、および／または異なる空間オーディオ・コンテンツもしくは異なる音空間へジャンプするために用いることができるポータルを表す。

図６Ａは、音源１２のある配置を備える音空間１０のある例を示す。いくつかの例では、音空間１０は、水平方向に３６０°まで及んでよく、垂直方向に１８０°まで及んでよい。

図６Ｂは、空間オーディオ・シーン２０のある例を示す。空間オーディオ・シーン２０は、あたかも音空間１０内の仮想ユーザ４０のある特定の視点４２から聴かれるような音空間１０の表現である。

図６Ａに示されるように、視点４２は、仮想ユーザ４０の方位４４によって、かつまたおそらくは仮想ユーザ４０のロケーション４６によって決定される。

図６Ｄに示されるように、視点４２は、仮想ユーザ４０の方位４４および／またはロケーション４６を変化させることによって変化させることができる。視点４２を変化させると、図６Ｅに示されるように空間オーディオ・シーン２０が変化する。

この例では、音空間１０が６つの音源１２を有する。２つがＮＥ（４５°）へ配置され、２つがＳＷ（２２５°）へ配置され、１つがＮＷ（３１５°）へ配置されて、１つがＳＥ（１３５°）へ配置される。図６Ｂでは、視点がＮＥ（４５°）方向に揃えられる。

空間オーディオ・シーン２０は、空間的に分離された２つの別個の音源として、音空間中でＮＥ（４５°）へ配置された２つの音源１２を備えるが、他の４つの音源を含まない。図６Ｅでは、視点がＳＷ（２２５°）方向へ揃えられる。空間オーディオ・シーン２０は、空間的に分離された２つの別個の音源として、音空間中でＳＷ（２２５°）へ配置された２つの音源１２を備えるが、他の４つの音源を含まない。

図６Ｃは、視点４２がユーザ５０によってどのように制御されてよいかを示す。視点媒介とは、ユーザのアクションが音空間内の視点４２を決定して、空間オーディオ・シーン２０を変化させることを意味する。

視点４２の制御は、全体的または部分的に一人称視点媒介であってもよい。これは、ユーザの現実の視点５２が仮想ユーザ４０の音空間１０内の視点４２を決定するという追加的な制約を伴う視点媒介である。

視点４２の制御は、全体的または部分的に三人称視点媒介であってもよい。これは、ユーザの現実の視点５２が音空間１０内の視点を決定しないという追加的な制約を伴う視点媒介である。

３つの自由度（３ＤｏＦ：ｔｈｒｅｅｄｅｇｒｅｅｓｏｆｆｒｅｅｄｏｍ）は、視点４２が方位４４のみ（例えば、３次元方位の３度）によって決定される場合を記述する。一人称視点の媒介現実に関連して、現実空間６０中のユーザ５０の方位５４のみが視点４２を決定する。

６つの自由度（６ＤｏＦ：ｓｉｘｄｅｇｒｅｅｓｏｆｆｒｅｅｄｏｍ）は、視点４２が仮想ユーザ４０の方位４４（例えば、３次元方位の３度）およびロケーション４６（例えば、３次元ロケーションの３度）の両方によって決定される位置である場合を記述する。三人称視点の媒介現実に関連して、現実空間６０中のユーザ５０の方位５４および現実空間６０中のユーザ５０のロケーション５６の両方が視点４２を決定する。

現実空間（または物理空間）６０は、３次元であってよい、現実環境を指す。

３ＤｏＦでは、現実空間におけるユーザ５０の方位５４が仮想ユーザ４０の仮想方位４４を制御する。実方位５４と仮想方位４４との間に実方位５４における変化が仮想方位４４における同じ変化を作り出すような対応関係がある。ある仮想視野と組み合わせた仮想ユーザ４０の仮想方位４４が空間オーディオ・シーン２０を定義してよい。空間オーディオ・シーン２０は、ユーザに対してレンダリングされた音空間１０の部分である。３ＤｏＦの媒介現実では、現実空間６０中のユーザ５０の実ロケーション５６における変化は、仮想ユーザ４０の仮想ロケーション４６または仮想方位４４を変化させない。

６ＤｏＦの例では、状況は、３ＤｏＦについて記載された通りであり、加えて、ユーザ５０の実ロケーション５６の移動によって、レンダリングされた空間オーディオ・シーン２０を変化させることが可能である。例えば、現実空間６０中のユーザ５０の実ロケーション５６と仮想ユーザ４０の仮想ロケーション４６との間のマッピングがあってよい。ユーザ５０の実ロケーション５６における変化が仮想ユーザ４０の仮想ロケーション４６における対応する変化を作り出す。仮想ユーザ４０の仮想ロケーション４６における変化がレンダリングされた空間オーディオ・シーン２０を変化させる。

図６Ａ、６Ｂ、６Ｃおよび図６Ｄ、６Ｅ、６Ｆは、レンダリングされた空間オーディオ・シーン２０上のユーザ５０の実ロケーション５２および実方位５４における変化の結果を示す。図６Ａ、６Ｂ、６Ｃは、第１の時間における音空間１０、オーディオ・シーン２０および現実空間６０を示す。図６Ｄ、６Ｅ、６Ｆは、第１の時間後の第２の時間における音空間１０、オーディオ・シーン２０および現実空間６０を示す。第１の時間と第２の時間との間に、ユーザ６０は、それらの視点５２を変化させて、仮想ユーザ４０の視点４２を変化させ、それによって、レンダリングされた空間オーディオ・シーン２０が変化する。

現実空間６０におけるユーザ５０の実方位５４および／または実ロケーション５６を追跡するためにヘッドマウント型装置が用いられてよい。方法１００は、次に、ユーザ５０によって装着されたヘッドマウント型装置の３次元内の実方位５４を仮想ユーザ４０の３次元内の対応する方位４４へマッピングしてもよく、および／または３次元内のユーザ５０の追跡された実ロケーション５６を音空間１０の対応する３次元内の仮想ユーザ４０の対応する仮想ロケーション４６へマッピングしてもよい。

先に記載された方法１００を参照すると、ブロック１０２または１１４における、第１の空間オーディオ・シーンの空間レンダリングは、例えば、上記のように仮想ユーザ４０の視点４２を変動させることによって第１の空間オーディオ・シーンを変動させることを含んでよい。同様に、ブロック１１５における、第２の空間オーディオ・シーンの空間レンダリングは、例えば、上記のように仮想ユーザ４０の視点４２を変動させることによって第２の空間オーディオ・シーンを変動させることを含んでよい。従って、そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、方法１００は、第２の空間オーディオ・シーンと関連付けられた仮想ユーザの視点によって決定される第２の空間オーディオ・シーンの空間レンダリングをもたらすことを含んでよい。

いくつかの、しかし必ずしもすべてではない、例では、少なくとも１つの選択された第２の音源１２_ｕは、そのオーディオ・プレビューのユーザ選択後にレンダリングされたときに第２の空間オーディオ・シーンの中心焦点である。これは、少なくとも１つの選択された第２の音源１２_ｕの方へ初めに向けられた仮想ユーザ４０の方位４４に対応する。しかしながら、上記のように、いくつかの例では、ユーザ６０は、仮想ユーザ４０の方位４４および／またはロケーション４６を変化させ、それによって、そのレンダリングされた空間オーディオ・シーンを変化させるために、それらの方位５４および／またはロケーション５６を変化させることが可能である。

先に記載されたように、いくつかの、しかし必ずしもすべてではない例では、方法１００は、ブロック１０６において、少なくとも１つの選択された第２の音源１２_ｕに基づいて、複数の第２の音源１２のうちから、少なくとも１つの関連するコンテキスト音源１２_ｃを選択してよい。すなわち、選択された音源１２_ｕおよび関連するコンテキスト音源１２_ｃは、ある特定の時間における同じ音空間１０からの音源１２であってよい。

いくつかの例では、方法１００は、少なくとも１つの選択された音源１２_ｕおよび少なくとも１つの他の入力に基づいてコンテキストを決定してよく、決定されたコンテキストに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択してよい。

これは、以下の例を参照するとよりよく理解できる。

一例では、方法１００は、空間および／またはオーディオ特性に基づいて複数の第２の音源１２を主要音源および非主要音源へ論理的に分離する。少なくとも１つの選択された第２の音源１２_ｕは、主要音源を備える群からユーザによって選択され、少なくとも１つの関連するコンテキスト音源１２_ｃは、非主要音源を備える群から選択される。

音源を主要および非主要音源へ分離するために用いられてよい空間特性は、例えば、仮想ユーザ４０に対する音源のそのロケーションを含んでよい。例えば、仮想ユーザ４０の閾値距離内にある音源は、主要音源であると考えられてよく、閾値距離を超える、またはあるロケーションを有さないものは、非主要音源であると考えられてよい。

加えてまたは代わりに、音空間１０内のある固有のロケーションまたは方角を有する音源は、主要音源であってよく、周囲音に関連する音源は、非主要音源であると考えられてよい。

主要音源と非主要音源との間を区別するために用いられてよいオーディオ特性は、例えば、音源のラウドネス（強度）を含んでよい。例えば、最もラウドな音源は、主要音源であると考えられてよく、最も静かなものは、非主要音源であると考えられてよい。

用いられてよい他のオーディオ特性は、例えば、音オブジェクトのインタラクティビティ、すなわち、例えば、会話中の人々など、それらが一方から他方へ時間的および空間的に相関付けられているか否かであってよい。会話と関連すると判定された音オブジェクトは、例えば、主要音源であると考えられてよい。

加えてまたは代わりに、最も一貫してラウドな（一貫してラウドネス閾値を超える）、または経時的に最も一貫した（一貫して存在する）音源が主要音源として選択されてもよい。

加えてまたは代わりに、対話に関連する音源が主要音源として選択されてよく、背景音楽テーマを非主要音源として選択できる。従って、その選択は、空間（ダイエジェティック）音源だけからでなく、背景音源、例えば、音楽および／またはナレータ音声のような、（少なくとも主に）非ダイエジェティック音からであってもよい。

それゆえに、音源の主要音源および非主要音源への論理的分割は、定義されたルールに従って行われるが、それらのルールの定義は、変動してよいことが認識されるであろう。

他の例では、方法１００は、少なくとも１つの選択された第２の音源１２_ｕに、かつ第２の空間オーディオ・コンテンツの作成者によって第２の空間オーディオ・コンテンツの元の部分として提供されたメタデータに基づいて、複数の第２の音源の１２のうちから、少なくとも１つの関連するコンテキスト音源１２_ｃを選択する。このように、コンテンツ作成者からのアノテーションを用いて、各オーディオ・シーンにその空間オーディオ・シーンのための１つ以上のコンテキスト源を識別するメタデータを手作業でタグ付けすることができる。

加えてまたは代わりに、方法１００は、少なくとも１つの選択された音源１２_ｕに、かつ複数の第２の音源１２のラウドネスに依存するあるメトリックに基づいて、複数の第２の音源１２のうちから、少なくとも１つの関連するコンテキスト音源１２_ｃを選択してよい。ラウドネスは、例えば、選択された音源１２_ｕのそのロケーションにおいて知覚されるようなラウドネスであってよい。例えば、最もラウドな第２の音源が選択されてもよく、もしくは最も一貫してラウドな音源が選択されてもよく、または最も一貫性のある音源が選択されてもよく、あるいは最近接の第２の音源１２が選択されてもよい。

代わりにまたは加えて、方法１００は、少なくとも、１つの選択された第２の音源１２_ｕに、かつ複数の第２の音源１２間の１つ以上の定義されたオントロジーに依存するあるメトリックに基づいて、複数の第２の音源１２のうちから、少なくとも１つの関連するコンテキスト音源１２_ｃを選択するように構成されてもよい。オントロジーは、音源１２の特性およびそれらの特性間の関連性によって定義される。例えば、関連するコンテキスト音源１２_ｃは、それが選択された第２の音源１２_ｕに用いられる楽器と同じかもしくは同様の楽器を用いるという理由で、またはそれが選択された第２の音源１２_ｕに用いられる楽器と調和するとして定義されたある楽器を用いるという理由で選択されてもよい。

代わりにまたは加えて、方法１００は、少なくとも１つの選択された第２の音源１２_ｕに基づいて、複数の第２の音源１２のあるサブセットのうちから少なくとも１つの関連するコンテキスト音源１２_ｃを選択するように構成されてもよく、ここで複数の第２の音源のそのサブセットは、ユーザ５０の方位５４に係わらず同じである音源を備え、ユーザ５０の方位５４とともに変動する音源１２を備えない。

この例では、複数の第２の音源１２のそのサブセットは、非ダイエジェティック音源を備え、ダイエジェティックとしてラベル付けされた音源を備えない。そのサブセットの音源は、空間中に固定される。そのサブセットの音源は、例えば、周囲または背景雑音を表してもよい。

別の例では、関連するコンテキスト音源１２_ｃは、選択された音源１２_ｕと経時的に高い相関を有するある音源であってもよい。相関は、ここでは必ずしも同様のオーディオ・コンテンツではないが、ある種同様の時間的な発生を意味し、実際には、同様でないオーディオ・コンテンツを有することが望ましい。例えば、少なくとも１つの関連するコンテキスト音源１２_ｃは、選択された音源１２_ｕと同時に発生するある音源であってもよい。例えば、選択された少なくとも１つの関連するコンテキスト音源１２_ｃは、選択された音源１２_ｕが発生するときにはいつでも発生してよい。さらなる条件として、少なくとも１つの関連するコンテキスト音源１２_ｃは、選択された音源１２_ｕが発生しないときにはいつでも発生してはならない。

代わりにまたは加えて、方法１００は、少なくとも１つの選択された第２の音源１２_ｕに基づいて、複数の第２の音源１２のあるサブセットのうちから、少なくとも１つの関連するコンテキスト音源１２_ｃを選択するように構成されてもよく、複数の第２の音源のそのサブセットは、仮想ユーザ４０に依存する音源を備える。例えば、選択された少なくとも１つの関連するコンテキスト音源１２_ｃは、仮想ユーザ４０のロケーション４６に最近接の、または最近接のうちの１つの音源であってもよい。例えば、少なくとも１つの関連するコンテキスト音源１２_ｃまたは複数の第２の音源のそのサブセットは、ユーザ６０とともに定義されたオントロジーを有してもよい。例えば、少なくとも１つの関連するコンテキスト音源１２_ｃおよび複数の第２の音源のそのサブセットは、ユーザ・プレファレンスに基づいてそれらが選択された音源１２_ｕと共有する特性を有してもよい。例えば、少なくとも１つの関連するコンテキスト音源１２_ｃおよび選択された第２の音源１２_ｕは、それらが好むことをユーザが先に示した音源、またはユーザが好むであろう十分な確率があると方法１００が機械学習アルゴリズムに基づいて判定する音源であってもよい。

図７は、複数のプレビュー２２_１，２２_２，２２_３...２２_ｎが同時にレンダリングされる方法１００のある例を示す。方法１００は、異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビュー２２のレンダリングをもたらす。ある特定のオーディオ・プレビュー２２のユーザによる選択は、関連付けられたそれぞれの空間オーディオ・コンテンツによって定義された、そのオーディオ・プレビューと関連付けられた空間オーディオ・シーンの空間レンダリングをもたらす。その空間オーディオ・シーンは、関連付けられたそれぞれの空間オーディオ・コンテンツによって定義された、複数の音源を備える。

各オーディオ・プレビューは、そのオーディオ・プレビューと関連付けられたその空間オーディオ・シーンのそれぞれの複数の音源のすべてを含むわけではないが、少なくとも１つのユーザにより選択された音源１２_ｕ、および少なくとも１つの選択された第２の音源１２_ｕに依存する、少なくとも１つのコンテキストにより選択された音源１２_ｃを含む関連付けられた音源のミックスを備える。

方法１００は、次に、ユーザがあるオーディオ・プレビューを選択することなく複数のオーディオ・プレビュー２２をブラウズすることを可能にし、ユーザがある所望のオーディオ・プレビュー２２に対して複数のオーディオ・プレビュー２２をブラウズして、その所望のオーディオ・プレビュー２２を選択することを可能にする。そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、方法１００は、その選択されたオーディオ・プレビューと関連付けられた空間オーディオ・シーンの空間レンダリングをもたらす。

いくつかの例では、複数のオーディオ・プレビュー２２の各々は、異なる選択された音源１２_ｕに基づいてよい。これらは、例えば、あるキーワードサーチまたは同様のものの結果として生成されてもよい。他の例では、複数のオーディオ・プレビュー２２の各々は、ユーザにより選択された同じかまたは同様の音源１２_ｕを共通に有するが、異なるコンテキストにより選択された音源１２_ｃに基づく。

図８Ａは、コントローラ８０のある例を示す。コントローラ８０の実装は、コントローラ回路素子としてでもあってよい。コントローラ８０は、ハードウェアのみで実装されても、ファームウェアのみを含むソフトウェアにおける一定の態様を有してもよく、またはハードウェアおよびソフトウェア（ファームウェアを含む）の組み合わせとすることができる。

図８Ａに示されるように、コントローラ８０は、ハードウェア機能性を可能にする命令を用いて、例えば、汎用または専用プロセッサ８２による実行のためにコンピュータ可読ストレージ媒体（ディスク、メモリなど）上に格納されてよいコンピュータ・プログラム８６の実行可能な命令をかかるプロセッサ８２において用いることによって実装されてよい。

プロセッサ８２は、メモリ８４から読み出し、それに書き込むように構成される。プロセッサ８２は、データおよび／またはコマンドがそれを介してプロセッサ８２によって出力される出力インターフェース、ならびにデータおよび／またはコマンドがそれを介してプロセッサ８２へ入力される入力インターフェースも備えてよい。

メモリ８４は、プロセッサ８２中へロードされたときに装置８１のオペレーションを制御するコンピュータ・プログラム命令（コンピュータ・プログラム・コード）を備えるコンピュータ・プログラム８６を格納する。コンピュータ・プログラム８６のコンピュータ・プログラム命令は、例えば、図１～３に示されるように本装置が方法１００を行うことを可能にするロジックおよびルーチンを提供する。プロセッサ８２は、メモリ８４を読み出すことによって、コンピュータ・プログラム８６をロードして実行することが可能である。

装置８１は、それゆえに、
少なくとも１つのプロセッサ８２、および
コンピュータ・プログラム・コードを含む少なくとも１つのメモリ８４
を備え、
少なくとも１つのメモリ８４およびコンピュータ・プログラム・コードは、少なくとも１つのプロセッサ８２とともに、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源を選択すること、
少なくとも１つの選択された音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を装置８１に行わせるように構成され、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくとも選択された音源１２ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす。

図８Ｂに示されるように、コンピュータ・プログラム８６は、任意の適切な送達メカニズム９０を介して装置８１に到達してよい。送達メカニズム９０は、例えば、機械可読媒体、コンピュータ可読媒体、非一時的コンピュータ可読ストレージ媒体、コンピュータ・プログラム製品、メモリ・デバイス、コンパクト・ディスク・リードオンリ・メモリ（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）もしくはデジタル多用途ディスク（ＤＶＤ：ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）のような記録媒体またはソリッド・ステート・メモリ、コンピュータ・プログラム８６を備え、または有形に具現する製造品であってもよい。送達メカニズムは、コンピュータ・プログラム８６を確実に転送するように構成された信号であってもよい。装置８１は、コンピュータ・プログラム８６をコンピュータ・データ信号として伝達または伝送してもよい。

少なくとも、
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源の選択をもたらすこと、
少なくとも１つの選択された音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を装置に行わせるため、またはそれらを行うためのコンピュータ・プログラム命令であって、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくとも、選択された音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす、
コンピュータ・プログラム命令。

コンピュータ・プログラム命令は、コンピュータ・プログラム、非一時的なコンピュータ可読媒体、コンピュータ・プログラム製品、機械可読媒体に含まれてよい。いくつかの、しかし必ずしもすべてではない例では、コンピュータ・プログラム命令は、１つより多いコンピュータ・プログラムにわたって分布してよい。

メモリ８４は、単一の構成要素／回路素子として示されるが、１つ以上の別々の構成要素／回路素子として実装されてもよく、それらのいくつかまたはすべてが集積化されても／リムーバブルであってもよく、および／または永久／半永久／動的／キャッシュされたストレージを提供してもよい。

プロセッサ８２は、単一の構成要素／回路素子として示されるが、１つ以上の別々の構成要素／回路素子として実装されてもよく、それらのいくつかまたはすべてが集積化されても／リムーバブルであってもよい。プロセッサ８２は、シングルコアもしくはマルチコア・プロセッサであってもよい。

「コンピュータ可読ストレージ媒体」、「コンピュータ・プログラム製品」、「有形に具現されたコンピュータ・プログラム」など、または「コントローラ」、「コンピュータ」、「プロセッサ」などへの言及は、シングル／マルチプロセッサ・アーキテクチャおよびシーケンシャル（ＶｏｎＮｅｕｍａｎｎ）／パラレル・アーキテクチャなど種々のアーキテクチャを有するコンピュータだけでなく、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、特定用途向け回路（ＡＳＩＣ：ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｃｉｒｃｕｉｔｓ）、信号処理デバイスおよび他の処理回路素子など特化された回路も包含すると理解されるべきである。コンピュータ・プログラム、命令、コードなどへの言及は、プロセッサのための命令、または固定機能デバイス、ゲート・アレイもしくはプログラマブル・ロジック・デバイスなどのための構成設定のいずれにせよ、プログラマブル・プロセッサのためのソフトウェア、あるいは、例えば、ハードウェア・デバイスのプログラマブル・コンテンツのようなファームウェアを包含すると理解されるべきである。

本出願書に用いられるように、「回路素子」という用語は、以下の１つ以上またはすべてを指してよい：
（ａ）ハードウェアのみの回路素子実装（例えば、アナログおよび／またはデジタル回路素子のみで実装）ならびに
（ｂ）ハードウェア回路およびソフトウェアの組み合わせ、例えば（適用できる場合）：
（ｉ）アナログおよび／またはデジタル・ハードウェア回路（単数または複数）とソフトウェア／ファームウェアとの組み合わせ、および
（ｉｉ）装置、例えば、モバイルフォンまたはサーバに様々な機能を行わせるために一緒に作動するソフトウェアをもつハードウェア・プロセッサ（単数または複数）（デジタル信号プロセッサ（単数または複数）を含む）、ソフトウェア、およびメモリ（単数または複数）のいずれかの部分、ならびに
（ｃ）オペレーションのためにソフトウェア（例えば、ファームウェア）を必要とするが、オペレーションのために必要とされないときにはソフトウェアが存在しなくてよいハードウェア回路（単数または複数）および／またはプロセッサ（単数または複数）、例えば、マイクロプロセッサ（単数または複数）もしくはマイクロプロセッサ（単数または複数）の一部分。

回路素子のこの定義は、いずれかの請求項における使用を含めて、本出願書におけるこの用語のすべての使用に当て嵌まる。さらなる例として、本出願書に用いられるように、回路素子という用語は、単にハードウェア回路、もしくはプロセッサおよびそれ（またはそれら）に付随するソフトウェアおよび／またはファームウェアの実装もカバーする。回路素子という用語は、例えば、特定の請求項要素に適用できる場合、モバイル・デバイスのためのベースバンド集積回路、もしくはサーバ中の同様の集積回路、セルラ・ネットワーク・デバイス、または他のコンピューティングもしくはネットワーク・デバイスもカバーする。

図１～３に示されるブロックは、方法におけるステップおよび／またはコンピュータ・プログラム８６におけるコードのセクションを表してよい。ブロックに対するある特定の順序の図示は、ブロックについて必要とされるかまたは好ましい順序があることを必ずしも示唆せず、ブロックのその順序および配列が変動してもよい。さらにまた、いくつかのブロックが除外されることが可能であってよい。

様々な異なる実施形態が次に参照される。

第１の実施形態では、ユーザがある空間オーディオ・シーンにおいてレンダリングされたある音源を選択するときに、この選択は、そのときにそのシーンのための音源１２_ｕ（およびその関連するコンテキスト音源１２_ｃ）のあるオーディオ・プレビューを生成するためのトリガとして作用する。ある特定の選択された音源１２_ｕ（およびその関連するコンテキスト音源１２_ｃ）に注目するために現在レンダリングされた空間オーディオ・シーン２０を「フィルタする」ための手法としてオーディオ・プレビュー２２を用いることができる。

図３の例に戻って参照すると、ブロック１０２において、方法１００は、第１の空間オーディオ・コンテンツによって定義された複数の第１の音源１２を備える第１の空間オーディオ・シーン２０の空間レンダリングを備える。これは、ブロック１０４におけるユーザ入力より前にレンダリングされる。

次に、ブロック１０４において、方法１００は、第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、第１の空間オーディオ・シーンの少なくとも１つの第１の音源を選択することを含む。この選択は、ユーザによって行われる。ユーザ入力は、第１の空間オーディオ・シーンにおいてレンダリングされたその少なくとも１つの第１の音源の選択である。

次に、ブロック１０６において、方法１００は、少なくとも１つの選択された音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択することを含む。このステップは、ユーザ入力なしに自動的に行われてよい。

次に、ブロック１０８において、方法１００は、ユーザによって選択できる、第１の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、第１の空間オーディオ・シーン２０の複数の第１の音源１２のすべてではないが、少なくともその１つの選択された第１の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備える。そのオーディオ・プレビューの選択は、少なくとも、選択された第１の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす。

いくつかの、しかし必ずしもすべてではない、例では、少なくとも１つの選択された第１の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションは、選択された第１の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを含む複数の第１の音源を備える、第１の空間オーディオ・シーンの空間レンダリングをもたらしている。そのオーディオ・プレビューのユーザ選択の結果としてレンダリングされる空間オーディオ・シーンは、それゆえに、ブロック１０４におけるユーザ入力より前にレンダリングされたその空間オーディオ・シーンと同じかまたは同様であってよい。

他の実施形態では、そのレンダリングされたオーディオ・プレビューのユーザ選択は、新しい空間オーディオ・シーンのレンダリングをもたらす。

例えば、図３を参照すると、ブロック１０２は、随意的である。ブロック１０２が存在する場合、それは、ブロック１０４におけるユーザ入力より前に第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、第１の空間オーディオ・シーンの空間レンダリングを備える。

ブロック１０４において、方法１００は、第２の空間オーディオ・コンテンツによって定義された、複数の第２の音源を備える、第２の空間オーディオ・シーン２０の少なくとも１つの第２の音源１２_ｕを選択することを含む。

その少なくとも１つの第２の音源は、この例では、第１の音源のうちの１つではない。

ブロック１０６において、方法１００は、少なくとも１つの選択された第２の音源１２_ｕに基づいて少なくとも１つの関連するコンテキスト音源１２_ｃを選択することを含む。これは、ユーザ入力なしに自動的に行われてよい。少なくとも１つの関連するコンテキスト音源１２_ｃは、必ずしもではないが、第２の空間オーディオ・シーン２０を定義する複数の第２の音源のうちの１つとすることができる。

ブロック１０８において、方法１００は、ユーザによって選択できる、第２の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、第２の空間オーディオ・シーン２０の複数の第２の音源１２のすべてではないが、少なくとも１つの選択された第２の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを少なくとも含む音源のミックスを備える。そのオーディオ・プレビューのユーザ選択は、少なくとも、選択された第２の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションをもたらす。

いくつかの、しかし必ずしもすべてではない例では、少なくとも、選択された第２の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃ上のオペレーションは、選択された第２の音源１２_ｕおよび少なくとも１つの関連するコンテキスト音源１２_ｃを含む複数の第２の音源１２を備える、第２の空間オーディオ・シーン２０の空間レンダリングをもたらしている。

この実施形態の異なるバージョンでは、ブロック１０４における第２の音源１２_ｕの選択は、種々の手法で発生してよい。例えば、ユーザ入力があるサーチを指定できる。

一例では、第１の空間オーディオ・シーンをレンダリングしている間、ブロック１０４におけるユーザ入力は、第１の空間オーディオ・シーンにおいてレンダリングされた少なくとも１つの第１の音源の選択である。すなわち、第１の音源のユーザ選択がある。次に、ユーザにより選択された第１の音源に関連する第２の音源の自動選択がある。第２の音源は、ユーザにより選択された第１の音源に１つ以上の種々の手法で関連してよい。例えば、それらは、異なる時間にまたは異なる音空間において音源の同じ識別情報に関連してもよい。例えば、それらは、ある異なる時間、ある異なる方位、ある異なるロケーションまたはある異なる音空間において同様の音源に関連してもよい。生成されたオーディオ・プレビューは、それゆえに、ユーザにより選択された第１の音源に関連する第２の音源１２_ｕのためのプレビューを生成する。

他の例では、ユーザ入力は、キーワードまたは他の何らかのデータ入力を用いることによってあるサーチを指定してよい。選択された第２の音源１２_ｕがブロック１０４において選択され、そのときには指定されたサーチ基準に基づいて選択される。複数のサーチ結果が返されるいくつかの例では、次に、図７に示されるように複数のオーディオ・プレビュー２２が作り出されてよい。

ある構造的な特徴が記載されたところでは、その特徴は、その機能またはそれらの機能が明示的または暗黙的に記載されるかのいずれにせよ、その構造的な特徴の１つ以上の機能を行う手段によって置き換えられてよい。

ある機能またはプロセスが記載されたところでは、その機能またはプロセスは、それらの手段が明示的または暗黙的に記載されるかのいずれにせよ、装置８１またはその機能を行うためのいずれか適切な手段によって行われてよい。

いくつかの、しかし必ずしもすべてではない例では、装置８１は、装置８１のメモリ８４におけるデータの局所ストレージの有無に係わらず、かつ装置８１の回路素子またはプロセッサによるデータの局所処理の有無に係わらず、装置８１からデータを通信するように構成される。

データは、１つ以上のデバイスに処理後または未処理のフォーマットで遠隔的に格納されてもよい。データは、クラウドに格納されてもよい。

データは、１つ以上のデバイスで遠隔的に処理されてもよい。データは、１つ以上のデバイスで部分的に局所的に処理され、部分的に遠隔的に処理されてもよい。

データは、例えば、Ｗｉ－ＦｉもしくはＢｌｕｅｔｏｏｔｈのような短距離無線電信を介して、または長距離セルラ無線リンクを通じてワイヤレスで遠隔デバイスへ通信されてもよい。本装置は、例えば、データの通信のための無線トランシーバのような通信インターフェースを備えてもよい。

装置８１は、より大きい分散型ネットワークの一部を形成するインターネット・オブ・シングス（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）の一部であってよい。

データの処理は、局所的または遠隔的のいずれにせよ、健康モニタリング、データ集約、患者モニタリング、バイタル・サイン・モニタリングまたは他の目的のためであってよい。

データの処理は、局所的または遠隔的のいずれにせよ、人工知能または機械学習アルゴリズムを伴ってよい。データは、例えば、機械学習ネットワークをトレーニングするための学習入力として用いられてもよく、または応答を提供す、機械学習ネットワークへのクエリ入力として用いられてもよい。機械学習ネットワークは、例えば、線形回帰、ロジスティック回帰、ベクトル・サポート・マシン、あるいは単一または多隠れ層ニューラル・ネットワークのようなアサイクリック機械学習ネットワークを用いてもよい。

データの処理は、局所的または遠隔的のいずれにせよ、出力を作り出してよい。出力は、装置８１へ通信されてよく、装置８１ではその出力がオーディオ出力、ビジュアル出力または触覚出力のような、対象に感知できる出力を作り出してよい。

本システム、装置、方法およびコンピュータ・プログラムは、統計的学習を含むことができる機械学習を用いてよい。機械学習は、コンピュータに明示的にプログラムされることなく学習するための能力を与えるコンピュータ・サイエンスの分野である。何らかのクラスのタスクＴおよび性能尺度Ｐに関して、Ｐによって測定されるような、Ｔ中のタスクにおけるその性能が経験Ｅとともに改善する場合、コンピュータは、経験Ｅから学習する。コンピュータは、しばしば、将来のデータを予測するために前のトレーニングデータから学習できる。機械学習は、全体的または部分的に教師ありの学習および全体的または部分的に教師なしの学習を含む。機械学習は、離散出力（例えば、分類、クラスタリング）および連続出力（例えば、回帰）を可能にしてよい。例えば、機械学習は、例として、コスト関数最小化、人工ニューラル・ネットワーク、サポート・ベクトル・マシンおよびベイジアン・ネットワークのような種々のアプローチを用いて実装されてよい。コスト関数最小化は、例えば、線形および多項回帰ならびにＫ平均クラスタリングに用いられてよい。例えば、１つ以上の隠れ層をもつ、人工ニューラル・ネットワークは、入力ベクトルと出力ベクトルとの間の複雑な関連性をモデリングする。サポート・ベクトル・マシンは、教師ありの学習に用いられてよい。ベイジアン・ネットワークは、いくつかの確率変数の条件付き独立性を表す有向アサイクリック・グラフである。

上記の例は、
自動車システム、電気通信システム、消費者電子製品を含む電子システム、分散型コンピューティング・システム、オーディオ、ビジュアルおよびオーディオ・ビジュアル・コンテンツならびに複合、媒介、仮想および／または拡張現実を含むメディア・コンテンツを生成またはレンダリングするためのメディア・システム、パーソナル・ヘルス・システムまたはパーソナル・フィットネス・システムを含むパーソナル・システム、ナビゲーション・システム、ヒューマン・マシン・インターフェースとしても知られるユーザ・インターフェース、セルラ、非セルラおよび光ネットワークを含むネットワーク、アドホック・ネットワーク、インターネット、インターネット・オブ・シングス、仮想化ネットワークを含むネットワーク、ならびに関連するソフトウェアおよびサービス
の有効な構成要素として用途を見出す。

「備える（含む）（ｃｏｍｐｒｉｓｅ）」という用語は、本文書では包括的で排他的ではない意味で用いられる。すなわち、Ｙを備えるＸへのいずれの言及も、Ｘが１つのみのＹを備えてもよく、または１つより多いＹを備えてもよいことを示す。「備える」を排他的意味で用いることが意図される場合には、「１つのみを備える（ｃｏｍｐｒｉｓｉｎｇｏｎｌｙｏｎｅ）」へ言及することによって、または「なる（ｃｏｎｓｉｓｔｉｎｇ）」を用いることによって文脈中でそのことが明確にされるであろう。

この説明では、様々な例への言及がなされた。ある例に関連する特徴または機能の説明は、それらの特徴または機能がその例に存在することを示す。明示的に述べられるか否かのいずれにせよ、テキストにおける「例（ｅｘａｍｐｌｅ）」もしくは「例えば（ｆｏｒｅｘａｍｐｌｅ）」または「できる（ｃａｎ）」もしくは「してよい（ｍａｙ）」という用語の使用は、ある例として記載されるか否かのいずれにせよ、かかる特徴または機能が少なくともその記載される例に存在すること、および必ずしもではないが、それらがいくつかのまたはすべての他の例に存在しうることを示す。従って、「例」、「例えば」、「できる」または「してよい」は、あるクラスの例におけるある特定のインスタンスを指す。そのインスタンスのある特性とは、そのインスタンスのみのある特性、もしくはそのクラスのある特性、またはそのクラスにおける複数のインスタンスのすべてではないがいくつかを含むそのクラスのあるサブクラスのある特性とすることができる。それゆえに、一例を参照するが別の例を参照しないで記載されるある特徴を、可能なところでは、実用的な組み合わせの一部としてその他の例に用いることができるが、必ずしもその他の例にそれを用いる必要はないことが暗黙的に開示される。

これまでの段落では様々な例を参照して実施形態が記載されたが、当然のことながら、特許請求の範囲から逸脱することなく、与えられた例に対する変更を行うことができる。

先の説明に記載された特徴は、明示的に上に記載された組み合わせ以外の組み合わせで用いられてもよい。

一定の特徴を参照して機能が記載されたが、それらの機能は、記載されるか否かのいずれにせよ、他の特徴によって行うことができてよい。

一定の実施形態を参照して特徴が記載されたが、それらの特徴は、記載されるか否かのいずれにせよ、他の実施形態にも存在してよい。

「ある（ａ）」または「その、前記（ｔｈｅ）」という用語は、本文書では包括的で排他的ではない意味で用いられる。すなわち、ある／そのＹを備えるＸへのいずれかの言及は、文脈が明らかに逆を示さない限り、Ｘが１つのみのＹを備えてもよく、または１つより多いＹを備えてもよいことを示す。「ある」または「その」を排他的意味で用いることが意図される場合には、文脈中でそのことが明確にされるであろう。いくつかの環境では、「少なくとも１つ（ａｔｌｅａｓｔｏｎｅ）」または「１つ以上（ｏｎｅｏｒｍｏｒｅ）」の使用は、包括的意味を強調するために用いられてよいが、これらの用語の欠如が排他的意味を推定すると解釈されるべきではない。

ある請求項におけるある特徴（または特徴の組み合わせ）の存在は、その特徴（または特徴の組み合わせ）自体への、かつまた実質的に同じ技術的効果（同等の特徴）を達成する特徴への言及である。同等の特徴は、例えば、変形であり、実質的に同じ手法で実質的に同じ結果を達成する特徴を含む。同等の特徴は、例えば、実質的に同じ結果を達成するために実質的に同じ手法で実質的に同じ機能を行う特徴を含む。

この説明では、様々な例の特性を記述するために形容詞または形容詞句を用いてそれらの例への言及がなされた。ある例に関連するある特性のかかる説明は、その特性がいくつかの例では正確に記載される通りに存在し、他の例では実質的に記載される通りに存在することを示す。

明示的に述べられるか否かのいずれにせよ、テキストにおける「例」もしくは「例えば」または「できる」もしくは「してよい」という用語の使用は、ある例として記載されるか否かのいずれにせよ、かかる特徴または機能が少なくともその記載される例に存在すること、および必ずしもではないが、それらがいくつかのまたはすべての他の例に存在しうることを示す。従って、「例」、「例えば」、「できる」または「してよい」は、あるクラスの例におけるある特定のインスタンスを指す。そのインスタンスのある特性とは、そのインスタンスのみのある特性、もしくはそのクラスのある特性、またはそのクラスにおける複数のインスタンスのすべてではないがいくつかを含むそのクラスのあるサブクラスのある特性とすることができる。それゆえに、一例を参照するが別の例を参照しないで記載される特徴を、可能なところでは、実用的な組み合わせの一部としてその他の例に用いることができるが、必ずしもその他の例にそれを用いる必要はないことが暗黙的に開示される。

重要であると思われるそれらの特徴に注意を向けるために前述の明細書に尽力する一方で、本出願人は、先に言及され、および／または図面に示されたいずれかの特許性のある特徴または特徴の組み合わせに関して、それに重点が置かれたか否かのいずれにせよ、請求項を通じて保護を求めてよいことが理解されるべきである。

Claims

ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択し、前記空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義され、
前記少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択して、
ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらす
手段を備え、
前記オーディオ・プレビューは、前記空間オーディオ・シーンの前記複数の音源のすべてではないが、前記少なくとも１つの選択された音源および前記少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
前記オーディオ・プレビューの選択は、少なくとも前記選択された音源上のオペレーションをもたらす、
装置であって、前記手段は、
空間および／またはオーディオ特性に基づいて前記複数の音源を主要音源および非主要音源へ論理的に分離するように構成され、前記少なくとも１つの選択された音源は、前記主要音源を備える群から選択され、前記少なくとも１つの関連するコンテキスト音源は、前記非主要音源を備える群から選択される、
装置。
前記手段は、更に、
前記少なくとも１つの選択された音源と、
（ｉ）前記複数の音源のラウドネスに依存するあるメトリック、および／または
（ｉｉ）前記複数の音源間の１つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、前記複数の音源のうちから、前記少なくとも１つの関連するコンテキスト音源を選択するように構成される、請求項１に記載の装置。
前記手段は、更に、
前記少なくとも１つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも１つの関連するコンテキスト音源を選択するように構成され、前記複数の音源の前記サブセットは、前記ユーザに依存する音源を備える、請求項１又は２に記載の装置。
前記手段は、前記少なくとも１つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも１つの関連するコンテキスト音源を選択するように構成され、前記複数の音源の前記サブセットは、前記ユーザの方位に係わらず同じである音源を備え、前記ユーザの方位とともに変動する音源を備えない、請求項３に記載の装置。
前記オーディオ・プレビューの選択によってもたらされる前記オペレーションは、
前記選択された音源および前記少なくとも１つの関連するコンテキスト音源を含む複数の音源を備える、前記空間オーディオ・シーンの空間レンダリングをもたらすことを含み、前記空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義される、
請求項１から４のいずれかに記載の装置。
前記ユーザ入力より前に、第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、第１の空間オーディオ・シーンの空間レンダリングをもたらす手段を備え、
前記ユーザ入力は、前記第１の空間オーディオ・シーンにおいてレンダリングされた少なくとも１つの第１の音源の選択である、
請求項１から５のいずれかに記載の装置。
空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択することは、第１の空間オーディオ・コンテンツによって定義された、複数の第１の音源を備える、前記第１の空間オーディオ・シーンの少なくとも１つの第１の音源を選択することを含み、
前記少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することは、前記少なくとも１つの選択された第１の音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、前記第１の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
前記オーディオ・プレビューは、前記第１の空間オーディオ・シーンの前記複数の音源のすべてではないが、前記少なくとも１つの選択された第１の音源および前記少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
前記オーディオ・プレビューの選択は、少なくとも前記選択された第１の音源および前記少なくとも１つの関連する第１のコンテキスト音源上のオペレーションをもたらす、
請求項６に記載の装置。
前記ユーザ入力は、あるサーチを指定している、請求項１から６のいずれか一項に記載の装置。
空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも１つの音源を選択することは、第２の空間オーディオ・コンテンツによって定義された、複数の第２の音源を備える、第２の新しい空間オーディオ・シーンの少なくとも１つの第２の音源を選択することを含み、
前記少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することは、前記少なくとも１つの選択された第２の音源に基づいて少なくとも１つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、前記第２の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
前記オーディオ・プレビューは、前記第２の空間オーディオ・シーンの前記複数の第２の音源のすべてではないが、前記少なくとも１つの選択された第２の音源および前記少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
前記オーディオ・プレビューの選択は、少なくとも前記選択された第２の音源上のオペレーションをもたらす、
請求項１から６及び８のいずれか一項に記載の装置。
前記手段は、
前記空間オーディオ・コンテンツを表す、前記レンダリングされたオーディオ・プレビューのユーザによる選択に応答して、前記複数の音源のレンダリングを含む前記空間オーディオ・コンテンツによって定義された前記空間オーディオ・シーンの空間レンダリングをもたらし、
前記空間オーディオ・シーンと関連付けられた、あるロケーションおよびある方位を備える仮想ユーザ位置を決定して、
ユーザが、前記仮想ユーザの前記位置を変化させることによって、前記レンダリングされた空間オーディオ・シーンを前記空間オーディオ・シーンから変化させることを可能にするように構成され、前記仮想ユーザの前記位置は、前記ユーザのある変化する方位、または前記ユーザのある変化するロケーションおよび方位に依存する、
請求項１から９のいずれかに記載の装置。
前記手段は、前記少なくとも１つの選択された音源に基づいて、前記複数の音源のうちから、前記少なくとも１つの関連するコンテキスト音源を選択するように構成される、請求項１～１０のいずれか一項に記載の装置。
前記手段は、
異なるそれぞれの空間オーディオ・コンテンツによって定義された、異なるそれぞれ複数の音源を備える、異なるそれぞれの空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、前記異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビューのレンダリングをもたらし、
あるオーディオ・プレビューは、少なくとも１つのユーザにより選択された音源、および、前記少なくとも１つの選択された音源に依存する、少なくとも１つのコンテキストにより選択された音源を含むが、前記それぞれの空間オーディオ・シーンの前記それぞれの複数の音源のすべてを含むわけではない、音源のミックスを備え、
前記ユーザがあるオーディオ・プレビューを選択することなく前記複数のオーディオ・プレビューをブラウズすることを可能にし、
前記ユーザがある所望のオーディオ・プレビューに対して前記複数のオーディオ・プレビューをブラウズして、前記所望のオーディオ・プレビューを選択することを可能にし、
あるレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、前記選択された空間オーディオ・コンテンツに含まれる前記複数の音源のレンダリングを含む前記選択された空間オーディオ・コンテンツによって定義された前記空間オーディオ・シーンの空間レンダリングをもたらす
ように構成される、請求項１～１１のいずれか一項に記載の装置。
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも１つの音源を選択すること、
前記少なくとも１つの選択された音源に基づいて少なくとも１つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を含み、
前記オーディオ・プレビューは、前記空間オーディオ・シーンの前記複数の音源のすべてではないが、前記選択された音源および前記少なくとも１つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
前記オーディオ・プレビューの選択は、少なくとも前記選択された音源上のオペレーションをもたらす
方法であって、空間および／またはオーディオ特性に基づいて前記複数の音源を主要音源および非主要音源へ論理的に分離することを更に含み、前記少なくとも１つの選択された音源は、前記主要音源を備える群から選択され、前記少なくとも１つの関連するコンテキスト音源は、前記非主要音源を備える群から選択される、方法。
前記少なくとも１つの関連するコンテキスト音源を選択することは、前記少なくとも１つの選択された音源と、
（ｉ）前記複数の音源のラウドネスに依存するあるメトリック、および／または
（ｉｉ）前記複数の音源間の１つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、前記複数の音源のうちから、前記少なくとも１つの関連するコンテキスト音源を選択することを含む、請求項１３に記載の方法。
前記少なくとも１つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも１つの関連するコンテキスト音源を選択することを更に含み、前記複数の音源の前記サブセットは、前記ユーザに依存する音源を備える、請求項１３又は１４に記載の方法。
前記少なくとも１つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも１つの関連するコンテキスト音源を選択することを更に含み、前記複数の音源の前記サブセットは、前記ユーザの方位に係わらず同じである音源を備え、前記ユーザの方位とともに変動する音源を備えない、請求項１５に記載の方法。
装置の処理手段に実行されると、前記装置に、請求項１３から１６のいずれかに記載の方法を遂行させるように構成されたプログラム命令を備える、コンピュータ・プログラム。