JP7194200B2 - 複数の音源を備える空間オーディオ・シーンのプレビュー - Google Patents

複数の音源を備える空間オーディオ・シーンのプレビュー Download PDF

Info

Publication number
JP7194200B2
JP7194200B2 JP2020561918A JP2020561918A JP7194200B2 JP 7194200 B2 JP7194200 B2 JP 7194200B2 JP 2020561918 A JP2020561918 A JP 2020561918A JP 2020561918 A JP2020561918 A JP 2020561918A JP 7194200 B2 JP7194200 B2 JP 7194200B2
Authority
JP
Japan
Prior art keywords
sound source
spatial audio
sound
user
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020561918A
Other languages
English (en)
Other versions
JP2021523603A (ja
Inventor
ラッセ ラークソネン
ミッカ ヴィレルモ
アルト レフティニエミ
スジーティ シャムスンダル マテ
Original Assignee
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2021523603A publication Critical patent/JP2021523603A/ja
Application granted granted Critical
Publication of JP7194200B2 publication Critical patent/JP7194200B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本開示の実施形態は、複数の音源を備える空間オーディオ・シーンのプレビューに関する。
背景
聴取者がそのレンダリングされた空間オーディオを1つ以上の特定のロケーションまたは方角における1つ以上の仮想源から発するとして知覚するように空間オーディオ・コンテンツをレンダリングするために複数のスピーカを用いることができる。
オーディオ・シーンとは、あたかも音空間内のある特定の視点から聴かれるような音空間(空間における音源のある配置によって生み出される音場)の表現である。視点は、可変的であってよく、例えば、仮想ユーザのある方位、かつまたおそらくは仮想ユーザのあるロケーションによって決定されてよい。
標準的なステレオ・オーディオ・トラック、例えば、コンパクト・ディスク(CD)アルバム上の楽曲では、聴取者に対してレンダリングされるコンテンツがコンテンツ作成者によって制御された。聴取者は、受動的であり、彼または彼女の視点を変化させることはできない。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、時間を通してのあるサーチに制約される。
空間オーディオについては、聴取者に対してレンダリングされるコンテンツが仮想ユーザの可変的な視点によって制御される。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、空間および時間の両方を通してのあるサーチである。
摘要
様々な、しかし必ずしもすべてではない、実施形態によれば、装置であって、
ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択し、その空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義され、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択して、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらす
手段を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その少なくとも1つの選択された音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
装置が提供される。
様々な、しかし必ずしもすべてではない、例によれば、そのオーディオ・プレビューの選択によってもたらされるオペレーションは、
その選択された音源およびその少なくとも1つの関連するコンテキスト音源を含む複数の音源を備える、その空間オーディオ・シーンの空間レンダリングをもたらすことを含み、その空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義される。
様々な、しかし必ずしもすべてではない、例によれば、本装置は、ユーザ入力より前に、第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、第1の空間オーディオ・シーンの空間レンダリングをもたらす手段を備え、
ユーザ入力は、第1の空間オーディオ・シーンにおいてレンダリングされた少なくとも1つの第1の音源の選択である。
様々な、しかし必ずしもすべてではない、例によれば、空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択することは、第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、第1の空間オーディオ・シーンの少なくとも1つの第1の音源を選択することを含み、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することは、その少なくとも1つの選択された第1の音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、第1の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
そのオーディオ・プレビューは、第1の空間オーディオ・シーンの複数の第1の音源のすべてではないが、その少なくとも1つの選択された第1の音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された第1の音源およびその少なくとも1つの関連する第1のコンテキスト音源上のオペレーションをもたらす。
様々な、しかし必ずしもすべてではない、例によれば、ユーザ入力は、あるサーチを指定している。
様々な、しかし必ずしもすべてではない、例によれば、空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択することは、第2の空間オーディオ・コンテンツによって定義された、複数の第2の音源を備える、第2の新しい空間オーディオ・シーンの少なくとも1つの第2の音源を選択することを含み、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することは、その少なくとも1つの選択された第2の音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することを含み、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、第2の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
そのオーディオ・プレビューは、第2の空間オーディオ・シーンの複数の第2の音源のすべてではないが、その少なくとも1つの選択された第2の音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された第2の音源上のオペレーションをもたらす。
様々な、しかし必ずしもすべてではない、例によれば、手段は、
その空間オーディオ・コンテンツを表す、そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、複数の音源のレンダリングを含むその空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらし、
その空間オーディオ・シーンと関連付けられた、あるロケーションおよびある方位を備える仮想ユーザ位置を決定して、
ユーザが、仮想ユーザの位置を変化させることによって、そのレンダリングされた空間オーディオ・シーンをその空間オーディオ・シーンから変化させることを可能にするように構成され、仮想ユーザの位置は、ユーザのある変化する方位、またはユーザのある変化するロケーションおよび方位に依存する。
様々な、しかし必ずしもすべてではない、例によれば、手段は、その少なくとも1つの選択された音源に基づいて、複数の音源のうちから、その少なくとも1つの関連するコンテキスト音源を選択するように構成される。
様々な、しかし必ずしもすべてではない、例によれば、手段は、
空間および/またはオーディオ特性に基づいて複数の音源を主要音源および非主要音源へ論理的に分離するように構成され、少なくとも1つの選択された音源は、主要音源を備える群から選択され、その少なくとも1つの関連するコンテキスト音源は、非主要音源を備える群から選択される。
様々な、しかし必ずしもすべてではない、例によれば、手段は、
その少なくとも1つの選択された音源と、
(i)その空間オーディオ・コンテンツの作成者によってその空間オーディオ・コンテンツの元の部分として提供されたメタデータ、および/または
(ii)複数の音源のラウドネスに依存するあるメトリック、および/または
(iii)複数の音源間の1つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、複数の音源のうちから、その少なくとも1つの関連するコンテキスト音源を選択するように構成される。
様々な、しかし必ずしもすべてではない、例によれば、手段は、
その少なくとも1つの選択された音源に基づいて、複数の音源のあるサブセットのうちから、その少なくとも1つの関連するコンテキスト音源を選択するように構成され、複数の音源のそのサブセットは、ユーザの方位に係わらず同じである音源を備え、ユーザの方位とともに変動する音源を備えず、および/または
その少なくとも1つの選択された音源に基づいて、複数の音源のあるサブセットのうちから、その少なくとも1つの関連するコンテキスト音源を選択するように構成され、複数の音源のそのサブセットは、ユーザに依存する音源を備える。
様々な、しかし必ずしもすべてではない、例によれば、手段は、
異なるそれぞれの空間オーディオ・コンテンツによって定義された、異なるそれぞれ複数の音源を備える、異なるそれぞれの空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビューのレンダリングをもたらし、
あるオーディオ・プレビューは、少なくとも1つのユーザにより選択された音源、および、その少なくとも1つの選択された音源に依存する、少なくとも1つのコンテキストにより選択された音源を含むが、それぞれの空間オーディオ・シーンのそれぞれの複数の音源のすべてを含むわけではない音源のミックスを備え、
ユーザがあるオーディオ・プレビューを選択することなく複数のオーディオ・プレビューをブラウズすることを可能にし、
ユーザがある所望のオーディオ・プレビューに対して複数のオーディオ・プレビューをブラウズして、その所望のオーディオ・プレビューを選択することを可能にし、
あるレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、その選択された空間オーディオ・コンテンツに含まれる複数の音源のレンダリングを含むその選択された空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすように構成される。
様々な、しかし必ずしもすべてではない、実施形態によれば、方法であって、
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源を選択すること、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
方法が提供される。
様々な、しかし必ずしもすべてではない、例によれば、少なくとも1つの関連するコンテキスト音源を選択することは、その少なくとも1つの選択された音源と、
(i)その空間オーディオ・コンテンツの作成者によってその空間オーディオ・コンテンツの元の部分として提供されたメタデータ、および/または
(ii)複数の音源のラウドネスに依存するあるメトリック、および/または
(iii)複数の音源間の1つ以上の定義されたオントロジーに依存するあるメトリック
とに基づいて、複数の音源のうちから、その少なくとも1つの関連するコンテキスト音源を選択することを含む。
様々な、しかし必ずしもすべてではない、実施形態によれば、コンピュータ・プログラムであって、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源を選択すること、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を行うための命令を備え、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
コンピュータ・プログラムが提供される。
様々な、しかし必ずしもすべてではない、実施形態によれば、装置であって、
少なくとも1つのプロセッサ、および
コンピュータ・プログラム・コードを含む少なくとも1つのメモリ
を備え、
少なくとも1つのメモリおよびコンピュータ・プログラム・コードは、少なくとも1つのプロセッサとともに、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源を選択すること、
その少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を本装置に行わせるように構成され、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくともその選択された音源上のオペレーションをもたらす
装置が提供される。
様々な、しかし必ずしもすべてではない、実施形態によれば、方法であって、
ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンのある音源を選択すること、
選択された音源に基づいてあるコンテキスト音源を選択すること、
その空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、空間オーディオ・コンテンツを表す、あるオーディオ・プレビューをレンダリングすること
を含み、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、その選択された音源およびその関連するコンテキスト音源を少なくとも含む音源のミックスを備える、
方法が提供される。
様々な、しかし必ずしもすべてではない、実施形態によれば、添付される請求項において請求されるような例が提供される。
いくつかの実施形態例が添付図面を参照して次に記載される。
本明細書に記載される主題のある実施形態例を示す。 本明細書に記載される主題の別の実施形態例を示す。 本明細書に記載される主題のある実施形態例を示す。 図4A~Cは、本明細書に記載される主題の別の実施形態例を示す。 図5A,Bは、本明細書に記載される主題のある実施形態例を示す。 図6A~Fは、本明細書に記載される主題の別の実施形態例を示す。 本明細書に記載される主題のある実施形態例を示す。 本明細書に記載される主題の別の実施形態例を示す。 本明細書に記載される主題のある実施形態例を示す。
詳細説明
聴取者がそのレンダリングされた空間オーディオを1つ以上のロケーションまたは方角における1つ以上の仮想源から発するとして知覚するように空間オーディオ・コンテンツをレンダリングするために、複数のスピーカまたはヘッドトラッキング型ヘッドフォンを用いることができる。そのロケーションまたは方角は、ボリュメトリックまたは三次元空間オーディオのための3次元空間におけるあるロケーションまたは方角、あるいは2次元空間オーディオのための面内のあるロケーションまたは方角であってよい。
音空間は、音場を生み出す空間における音源のある配置である。音空間は、音を記録すること(記録音空間)に関連して、および音をレンダリングすること(レンダリング音空間)に関連して定義されてよい。オーディオ・シーンとは、あたかも音空間内のある特定の視点から聴かれるような音空間の表現である。視点は、仮想ユーザのある方位によって、かつまたおそらくは仮想ユーザのあるロケーションによって決定される。音オブジェクトは、どのようにそれがエンコードされるかに係わらず、音空間内に配置されてよいある音源である。それは、例えば、ロケーションによって、または方角によって配置されてよい。記録音オブジェクトは、ある特定のマイクロフォンまたはロケーションにおいて記録された音を表す。レンダリング音オブジェクトは、あたかもある特定のロケーションまたは方角からのようにレンダリングされた音を表す。
空間的に変動する音場を空間オーディオ・コンテンツとしてエンコードするために種々のフォーマットが用いられてよい。例えば、ヘッドフォンを介してあるオーディオ・シーンをレンダリングするためにバイノーラル・エンコーディングが用いられてよく、ある特有の構成のスピーカを介してあるオーディオ・シーンをレンダリングするために相応に特有のタイプのマルチチャネル・エンコーディングが用いられてよく(例えば、5.1または7.1サラウンド音)、定義された方角における少なくとも1つの音源をレンダリングするために方向エンコーディングが用いられてよく、ある定義されたロケーションにおける少なくとも1つの音源をレンダリングするために位置エンコーディングが用いられてよい。
標準的なオーディオ・トラック(または映画)では、聴取者(または視聴者)に対してレンダリングされるコンテンツがコンテンツ作成者によって制御された。聴取者(または視聴者)は、受動的であり、彼または彼女の視点を変化させることができない。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、一次元-時間内にのみある。
空間オーディオにおいては、聴取者に対してレンダリングされるコンテンツが複数のN次元、例えば、方位について2または3次元およびロケーションについて2または3次元で変動できる仮想ユーザの可変的な視点によって制御される。ユーザがある特定のシーンを見つけることを望む場合には、そのサーチは、N+1次元-空間についてNおよび時間について1である。
その空間オーディオ・シーンは、レンダリングされる音源の識別情報および数を含めて、N+1次元のうちの1つにおける値の小さい変化のみを伴って変化することが可能である。
以下の例では、コンテキストを依然として提供しつつ利用可能なコンテンツを簡単化するためにあるオーディオ・プレビューが用いられる。
図1は、方法100のある例を示す。方法100は、複数の第1の音源を備える空間オーディオ・シーンをプレビューするための方法のある例である。
そのオーディオ・プレビューは、プレビューされるその空間オーディオ・シーンの、ユーザにより選択された音源だけでなく、ユーザにより選択された音源に依存して選択された追加的な少なくとも1つの関連するコンテキスト音源も備える。そのオーディオ・プレビューは、プレビューされるその空間オーディオ・シーンのすべての音源を必ずしも備えるわけではない。そのオーディオ・プレビューは、単一のユーザにより選択された音源に単に限られるばかりでなく、その空間オーディシーンより複雑ではない。そのオーディオ・プレビューは、それゆえに、その空間オーディオ・シーンをレンダリングすることなく、その複雑な空間オーディオ・シーンの趣を与える。
これは、そのオーディオ・プレビューにおいては、主題のオーディオ・シーンに関して、例えば、完全な空間レンダリングのようなオペレーションのためにその空間オーディオ・シーンを選択すべきか否かについて情報に基づく決定を行うための関連情報がユーザに提供されるという利点を有する。
複数のプレビューを、例えば、ユーザを圧倒することなく、同時に、あるいは矢継ぎ早にユーザに提示することができる。
本方法は、ユーザが所望の音源に注目するために、記載されるプレビューを用いて、コンテキスト内で、空間オーディオ・コンテンツをフィルタリングすることも許容する。
本方法は、ユーザが所望のシーンを効率的に見つけるために、記載されるプレビューを用いて空間オーディオ・コンテンツをブラウズまたはサーチすることも許容する。
図1は、ユーザによって選択できるあるオーディオ・プレビューをレンダリングための方法100のある例を示す。
図4A、4Bおよび4Cも参照され、これらの図は、音源12を備える音空間10のある例を参照して方法100のオペレーションを示す。
ブロック104において、方法100は、ユーザ入力に応答して、空間オーディオ・シーン20の少なくとも1つの音源12を選択することを含む。空間オーディオ・シーン20は、空間オーディオ・コンテンツによって定義される。空間オーディオ・シーン20は、複数の音源12を備える。図4Aは、空間オーディオ・シーン20の少なくとも1つの音源12の、複数の音源12のうちからの選択を概略的に示す。
ブロック106において、方法100は、選択された音源12に基づいて少なくとも1つの関連するコンテキスト音源を選択することを含む。これは、図4Bに概略的に示され、同図では選択された音源12および関連するコンテキスト音源12、ならびに選択された音源12と関連するコンテキスト音源12との間の関連性が示される。図4Bの例では、関連するコンテキスト音源12は、ユーザにより選択された音源12を備える同じオーディオ・シーン20のある音源12である、しかしながら、これが必ずしもすべての例に当て嵌まるわけではないことが認識されるべきである。関連するコンテキスト音源12は、例えば、ユーザにより選択された音源12を備えるオーディオ・シーン20に含まれなくてもよい。
ブロック108において、方法100は、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、ユーザによって選択できる。そのオーディオ・プレビューは、空間オーディオ・シーン20の複数の音源12のすべてではないが、選択された音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備える。
そのオーディオ・プレビューのコンテンツが図4Cに概略的に示される。この例では、オーディオ・プレビュー22は、選択された音源12および少なくとも1つの関連するコンテキスト音源12のみを含む音源のミックスを備え、空間オーディオ・シーン20の複数の音源12のうちの他のものを備えない。しかしながら、これが単にある図示例であることが理解されるべきである。
そのプレビューは、少なくとも2つの音源の元の空間的ロケーションに対応することができ、または、例えば、モノラル・ダウンミックス、もしくは他の空間的に縮小されたレンダリングとすることができる。これは、いくつかの例では、少なくともユーザに対してレンダリングされている他のいずれかのオーディオに依存することができる。例えば、ユーザが空間オーディオを、仮に、彼らの右側にレンダリングされる場合、空間的に縮小されたプレビューをユーザの左側にレンダリングできるであろう。他方、ユーザが他のオーディオをレンダリングされなかった場合、そのプレビューは、シーン全体をユーザのための空間レンダリングに利用できるであろう。
コンテキスト的に関連する少なくとも第2のオーディオは、それらの少なくとも2つのオーディオが通常のレンダリングでは同時に聴こえないような、異なる空間的ロケーションおよび/または時間などからのものであってもよい。従って、与えられる例が限定的であると理解されるべきではない。
オーディオ・プレビュー22の選択は、少なくとも、選択された音源12および少なくとも1つの関連するコンテキスト音源上のオペレーションをもたらす。従って、図4Cの例では、オーディオ・プレビュー22の選択は、少なくとも、選択された音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす。
図2は、あるオーディオ・プレビューのユーザ選択に応答するための方法110のある例を示す。この方法110は、図1に示される方法100から続く。
ブロック112において、方法110は、ユーザによるそのレンダリングされたオーディオ・プレビューの選択を備える。
ブロック114において、方法110は、ブロック112におけるユーザ選択に応答して、少なくとも、選択された音源12および少なくとも1つの関連するコンテキスト音源上のオペレーションをもたらすことを含む。
それゆえに、オーディオ・プレビュー22によって表される、ユーザにより選択された音源12および少なくとも1つの関連するコンテキスト音源12を含む音源の選択された群を用いて、ユーザは、何をなすべきかを決定することが認識されるであろう。そのオーディオ・プレビューのユーザ選択は、この音源12群上のオペレーションをもたらす。
いくつかの、しかし必ずしもすべてではない、例では、オペレーションは、その空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすことを含んでよい。この空間オーディオ・シーンは、選択された音源12および少なくとも1つの関連するコンテキスト音源12を含む複数の音源12のすべてを備える。
それゆえに、いくつかの例では、方法100は、ユーザ入力に応答して、複数の音源12を備える、空間オーディオ・シーン20のある音源12を選択すること、選択された音源12に基づいてあるコンテキスト音源12を選択すること、およびその空間オーディオ・コンテンツによって定義されたその空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、空間オーディオ・コンテンツを表す、オーディオ・プレビュー22をレンダリングすることを含み、そのオーディオ・プレビューは、選択された音源12および関連するコンテキスト音源12を少なくとも含む音源のミックスを備えることが認識されるであろう。
オーディオ・プレビュー22は、例えば、図5Aおよび5Bに示されるように、ユーザに対して種々の手法でレンダリングされてよい。図5Aでは、オーディオ・プレビュー22としてユーザに対してレンダリングされたモノラル音源12'を形成するために、ユーザにより選択された音源12および少なくとも1つの関連するコンテキスト音源12が一緒にミックスされる。図5Bの例では、ユーザにより選択された音源12および少なくとも1つの関連するコンテキスト音源12がオーディオ・プレビュー22として別々の音源12'および12'のようにレンダリングされる。
ある音源12のユーザ選択は、以下に参照される実施形態により詳細に記載されるように種々の手法で発生してよい。いくつかの、しかし必ずしもすべてではない、実施形態では、選択される音源12は、選択される音源12を備えるレンダリングされる空間オーディオ・シーン20から選択される。他の例では、選択される音源12は、あるユーザサーチの結果として選択され、そこではユーザ入力がそのサーチを指定する。サーチの時間にある空間オーディオ・シーンの空間レンダリングであってもなくてもよい。
図3は、あるオーディオ・プレビューをレンダリングするための方法100の別の例を示す。
ブロック102において、方法100は、第1の空間オーディオ・シーンの空間レンダリングをもたらすことを含む。第1の空間オーディオ・シーンは、第1の空間オーディオ・コンテンツによって定義される。第1の空間オーディオ・シーンは、複数の第1の音源を備える。
ブロック104において、方法100は、ユーザ入力に応答して、第2の空間オーディオ・シーンの少なくとも1つの音源を選択することを含む。第2の空間オーディオ・シーンは、第2の空間オーディオ・コンテンツによって定義される。第2の空間オーディオ・シーンは、複数の第2の音源を備える。
図4Aは、複数の第2の音源12を備える第2の空間オーディオ・シーン20のある例を示す。選択された少なくとも1つの第2の音源12が強調表示される。
ブロック106において、方法100は、少なくとも1つの選択された音源12に基づいて少なくとも1つの関連するコンテキスト音源12を選択することを含む。
いくつかの、しかし必ずしもすべてではない例では、その少なくとも1つの関連するコンテキスト音源は、複数の第2の音源のうちの1つである。しかしながら、他の例ではこれが当て嵌まらない。図4Bは、少なくとも1つの関連するコンテキスト音源12が選択された第2の音源12を含む第2の空間オーディオ・シーン20の複数の第2の音源12のうちの1つである例を示す。
ブロック108において、方法100は、第2の空間オーディオ・コンテンツを表すあるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、ユーザによって選択できる。そのオーディオ・プレビューは、第2の空間オーディオ・シーン20の複数の第2の音源12のすべてではないが、選択された音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備える。そのオーディオ・プレビューの選択は、少なくとも、選択された第2の音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす。
図1に関連して先に与えられた図2の方法110の説明がこの図についても関連する。同様に、オペレーションの先の説明も関連する。例えば、オペレーションは、第2の空間オーディオ・コンテンツによって定義された第2の空間オーディオ・シーン20の空間レンダリングをもたらしてよい。
図4Cは、一例に従ってそのオーディオ・プレビューに含まれる音源12を概略的に示す。この例では、そのオーディオ・プレビューは、選択された第2の音源12、および、この例では第2の音源12である、少なくとも1つの関連するコンテキスト音源のみを含む音源のミックスを備える。
いくつかの、しかし必ずしもすべてではない例では、第1の空間オーディオ・コンテンツは、第2の空間オーディオ・コンテンツと同じであってよく、第1の空間オーディオ・コンテンツによって定義された第1の空間オーディオ・シーンは、第2の空間オーディオ・コンテンツによって定義された第2の空間オーディオ・シーンと同じであってよい。その結果、この例では、第1の音源が第2の音源と同じである。この例では、オーディオ・プレビュー22は、ユーザにより選択された音源12(およびその関連するコンテキスト音源12)に注目した選択的フィルタとして動作する。オーディオ・プレビュー22は、第2の空間オーディオ・シーン20の第2の音源12のすべてを備えるわけではなく、それゆえに、選択された音源12のためのコンテキストを依然として提供しつつ、音源12に注目し、またはそれをハイライトする役割を果す。
他の例では、第1および第2のオーディオ・コンテンツ、第1および第2の空間オーディオ・シーンならびに第1および第2の音源は、異なる。第1の空間オーディオ・シーンと第2の空間オーディオ・シーンとの間にいくらかの重なりがあることは可能であるが、完全な重なりがあることにはならず、第1の空間オーディオ・シーンと第2の空間オーディオ・シーンとは異なる。第1および第2の空間オーディオ・シーンは、例えば、異なる音空間に関連してもよく、または、それらは、異なる時間および/または異なるロケーションおよび/または異なる方位に関して同じ音空間に関連してもよい。この例では、オーディオ・プレビュー22は、ユーザが異なる方位および/または異なるロケーションおよび/または異なる時間へ、および/または異なる空間オーディオ・コンテンツもしくは異なる音空間へジャンプするために用いることができるポータルを表す。
図6Aは、音源12のある配置を備える音空間10のある例を示す。いくつかの例では、音空間10は、水平方向に360°まで及んでよく、垂直方向に180°まで及んでよい。
図6Bは、空間オーディオ・シーン20のある例を示す。空間オーディオ・シーン20は、あたかも音空間10内の仮想ユーザ40のある特定の視点42から聴かれるような音空間10の表現である。
図6Aに示されるように、視点42は、仮想ユーザ40の方位44によって、かつまたおそらくは仮想ユーザ40のロケーション46によって決定される。
図6Dに示されるように、視点42は、仮想ユーザ40の方位44および/またはロケーション46を変化させることによって変化させることができる。視点42を変化させると、図6Eに示されるように空間オーディオ・シーン20が変化する。
この例では、音空間10が6つの音源12を有する。2つがNE(45°)へ配置され、2つがSW(225°)へ配置され、1つがNW(315°)へ配置されて、1つがSE(135°)へ配置される。図6Bでは、視点がNE(45°)方向に揃えられる。
空間オーディオ・シーン20は、空間的に分離された2つの別個の音源として、音空間中でNE(45°)へ配置された2つの音源12を備えるが、他の4つの音源を含まない。図6Eでは、視点がSW(225°)方向へ揃えられる。空間オーディオ・シーン20は、空間的に分離された2つの別個の音源として、音空間中でSW(225°)へ配置された2つの音源12を備えるが、他の4つの音源を含まない。
図6Cは、視点42がユーザ50によってどのように制御されてよいかを示す。視点媒介とは、ユーザのアクションが音空間内の視点42を決定して、空間オーディオ・シーン20を変化させることを意味する。
視点42の制御は、全体的または部分的に一人称視点媒介であってもよい。これは、ユーザの現実の視点52が仮想ユーザ40の音空間10内の視点42を決定するという追加的な制約を伴う視点媒介である。
視点42の制御は、全体的または部分的に三人称視点媒介であってもよい。これは、ユーザの現実の視点52が音空間10内の視点を決定しないという追加的な制約を伴う視点媒介である。
3つの自由度(3DoF:three degrees of freedom)は、視点42が方位44のみ(例えば、3次元方位の3度)によって決定される場合を記述する。一人称視点の媒介現実に関連して、現実空間60中のユーザ50の方位54のみが視点42を決定する。
6つの自由度(6DoF:six degrees of freedom)は、視点42が仮想ユーザ40の方位44(例えば、3次元方位の3度)およびロケーション46(例えば、3次元ロケーションの3度)の両方によって決定される位置である場合を記述する。三人称視点の媒介現実に関連して、現実空間60中のユーザ50の方位54および現実空間60中のユーザ50のロケーション56の両方が視点42を決定する。
現実空間(または物理空間)60は、3次元であってよい、現実環境を指す。
3DoFでは、現実空間におけるユーザ50の方位54が仮想ユーザ40の仮想方位44を制御する。実方位54と仮想方位44との間に実方位54における変化が仮想方位44における同じ変化を作り出すような対応関係がある。ある仮想視野と組み合わせた仮想ユーザ40の仮想方位44が空間オーディオ・シーン20を定義してよい。空間オーディオ・シーン20は、ユーザに対してレンダリングされた音空間10の部分である。3DoFの媒介現実では、現実空間60中のユーザ50の実ロケーション56における変化は、仮想ユーザ40の仮想ロケーション46または仮想方位44を変化させない。
6DoFの例では、状況は、3DoFについて記載された通りであり、加えて、ユーザ50の実ロケーション56の移動によって、レンダリングされた空間オーディオ・シーン20を変化させることが可能である。例えば、現実空間60中のユーザ50の実ロケーション56と仮想ユーザ40の仮想ロケーション46との間のマッピングがあってよい。ユーザ50の実ロケーション56における変化が仮想ユーザ40の仮想ロケーション46における対応する変化を作り出す。仮想ユーザ40の仮想ロケーション46における変化がレンダリングされた空間オーディオ・シーン20を変化させる。
図6A、6B、6Cおよび図6D、6E、6Fは、レンダリングされた空間オーディオ・シーン20上のユーザ50の実ロケーション52および実方位54における変化の結果を示す。図6A、6B、6Cは、第1の時間における音空間10、オーディオ・シーン20および現実空間60を示す。図6D、6E、6Fは、第1の時間後の第2の時間における音空間10、オーディオ・シーン20および現実空間60を示す。第1の時間と第2の時間との間に、ユーザ60は、それらの視点52を変化させて、仮想ユーザ40の視点42を変化させ、それによって、レンダリングされた空間オーディオ・シーン20が変化する。
現実空間60におけるユーザ50の実方位54および/または実ロケーション56を追跡するためにヘッドマウント型装置が用いられてよい。方法100は、次に、ユーザ50によって装着されたヘッドマウント型装置の3次元内の実方位54を仮想ユーザ40の3次元内の対応する方位44へマッピングしてもよく、および/または3次元内のユーザ50の追跡された実ロケーション56を音空間10の対応する3次元内の仮想ユーザ40の対応する仮想ロケーション46へマッピングしてもよい。
先に記載された方法100を参照すると、ブロック102または114における、第1の空間オーディオ・シーンの空間レンダリングは、例えば、上記のように仮想ユーザ40の視点42を変動させることによって第1の空間オーディオ・シーンを変動させることを含んでよい。同様に、ブロック115における、第2の空間オーディオ・シーンの空間レンダリングは、例えば、上記のように仮想ユーザ40の視点42を変動させることによって第2の空間オーディオ・シーンを変動させることを含んでよい。従って、そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、方法100は、第2の空間オーディオ・シーンと関連付けられた仮想ユーザの視点によって決定される第2の空間オーディオ・シーンの空間レンダリングをもたらすことを含んでよい。
いくつかの、しかし必ずしもすべてではない、例では、少なくとも1つの選択された第2の音源12は、そのオーディオ・プレビューのユーザ選択後にレンダリングされたときに第2の空間オーディオ・シーンの中心焦点である。これは、少なくとも1つの選択された第2の音源12の方へ初めに向けられた仮想ユーザ40の方位44に対応する。しかしながら、上記のように、いくつかの例では、ユーザ60は、仮想ユーザ40の方位44および/またはロケーション46を変化させ、それによって、そのレンダリングされた空間オーディオ・シーンを変化させるために、それらの方位54および/またはロケーション56を変化させることが可能である。
先に記載されたように、いくつかの、しかし必ずしもすべてではない例では、方法100は、ブロック106において、少なくとも1つの選択された第2の音源12に基づいて、複数の第2の音源12のうちから、少なくとも1つの関連するコンテキスト音源12を選択してよい。すなわち、選択された音源12および関連するコンテキスト音源12は、ある特定の時間における同じ音空間10からの音源12であってよい。
いくつかの例では、方法100は、少なくとも1つの選択された音源12および少なくとも1つの他の入力に基づいてコンテキストを決定してよく、決定されたコンテキストに基づいて少なくとも1つの関連するコンテキスト音源12を選択してよい。
これは、以下の例を参照するとよりよく理解できる。
一例では、方法100は、空間および/またはオーディオ特性に基づいて複数の第2の音源12を主要音源および非主要音源へ論理的に分離する。少なくとも1つの選択された第2の音源12は、主要音源を備える群からユーザによって選択され、少なくとも1つの関連するコンテキスト音源12は、非主要音源を備える群から選択される。
音源を主要および非主要音源へ分離するために用いられてよい空間特性は、例えば、仮想ユーザ40に対する音源のそのロケーションを含んでよい。例えば、仮想ユーザ40の閾値距離内にある音源は、主要音源であると考えられてよく、閾値距離を超える、またはあるロケーションを有さないものは、非主要音源であると考えられてよい。
加えてまたは代わりに、音空間10内のある固有のロケーションまたは方角を有する音源は、主要音源であってよく、周囲音に関連する音源は、非主要音源であると考えられてよい。
主要音源と非主要音源との間を区別するために用いられてよいオーディオ特性は、例えば、音源のラウドネス(強度)を含んでよい。例えば、最もラウドな音源は、主要音源であると考えられてよく、最も静かなものは、非主要音源であると考えられてよい。
用いられてよい他のオーディオ特性は、例えば、音オブジェクトのインタラクティビティ、すなわち、例えば、会話中の人々など、それらが一方から他方へ時間的および空間的に相関付けられているか否かであってよい。会話と関連すると判定された音オブジェクトは、例えば、主要音源であると考えられてよい。
加えてまたは代わりに、最も一貫してラウドな(一貫してラウドネス閾値を超える)、または経時的に最も一貫した(一貫して存在する)音源が主要音源として選択されてもよい。
加えてまたは代わりに、対話に関連する音源が主要音源として選択されてよく、背景音楽テーマを非主要音源として選択できる。従って、その選択は、空間(ダイエジェティック)音源だけからでなく、背景音源、例えば、音楽および/またはナレータ音声のような、(少なくとも主に)非ダイエジェティック音からであってもよい。
それゆえに、音源の主要音源および非主要音源への論理的分割は、定義されたルールに従って行われるが、それらのルールの定義は、変動してよいことが認識されるであろう。
他の例では、方法100は、少なくとも1つの選択された第2の音源12に、かつ第2の空間オーディオ・コンテンツの作成者によって第2の空間オーディオ・コンテンツの元の部分として提供されたメタデータに基づいて、複数の第2の音源の12のうちから、少なくとも1つの関連するコンテキスト音源12を選択する。このように、コンテンツ作成者からのアノテーションを用いて、各オーディオ・シーンにその空間オーディオ・シーンのための1つ以上のコンテキスト源を識別するメタデータを手作業でタグ付けすることができる。
加えてまたは代わりに、方法100は、少なくとも1つの選択された音源12に、かつ複数の第2の音源12のラウドネスに依存するあるメトリックに基づいて、複数の第2の音源12のうちから、少なくとも1つの関連するコンテキスト音源12を選択してよい。ラウドネスは、例えば、選択された音源12のそのロケーションにおいて知覚されるようなラウドネスであってよい。例えば、最もラウドな第2の音源が選択されてもよく、もしくは最も一貫してラウドな音源が選択されてもよく、または最も一貫性のある音源が選択されてもよく、あるいは最近接の第2の音源12が選択されてもよい。
代わりにまたは加えて、方法100は、少なくとも、1つの選択された第2の音源12に、かつ複数の第2の音源12間の1つ以上の定義されたオントロジーに依存するあるメトリックに基づいて、複数の第2の音源12のうちから、少なくとも1つの関連するコンテキスト音源12を選択するように構成されてもよい。オントロジーは、音源12の特性およびそれらの特性間の関連性によって定義される。例えば、関連するコンテキスト音源12は、それが選択された第2の音源12に用いられる楽器と同じかもしくは同様の楽器を用いるという理由で、またはそれが選択された第2の音源12に用いられる楽器と調和するとして定義されたある楽器を用いるという理由で選択されてもよい。
代わりにまたは加えて、方法100は、少なくとも1つの選択された第2の音源12に基づいて、複数の第2の音源12のあるサブセットのうちから少なくとも1つの関連するコンテキスト音源12を選択するように構成されてもよく、ここで複数の第2の音源のそのサブセットは、ユーザ50の方位54に係わらず同じである音源を備え、ユーザ50の方位54とともに変動する音源12を備えない。
この例では、複数の第2の音源12のそのサブセットは、非ダイエジェティック音源を備え、ダイエジェティックとしてラベル付けされた音源を備えない。そのサブセットの音源は、空間中に固定される。そのサブセットの音源は、例えば、周囲または背景雑音を表してもよい。
別の例では、関連するコンテキスト音源12は、選択された音源12と経時的に高い相関を有するある音源であってもよい。相関は、ここでは必ずしも同様のオーディオ・コンテンツではないが、ある種同様の時間的な発生を意味し、実際には、同様でないオーディオ・コンテンツを有することが望ましい。例えば、少なくとも1つの関連するコンテキスト音源12は、選択された音源12と同時に発生するある音源であってもよい。例えば、選択された少なくとも1つの関連するコンテキスト音源12は、選択された音源12が発生するときにはいつでも発生してよい。さらなる条件として、少なくとも1つの関連するコンテキスト音源12は、選択された音源12が発生しないときにはいつでも発生してはならない。
代わりにまたは加えて、方法100は、少なくとも1つの選択された第2の音源12に基づいて、複数の第2の音源12のあるサブセットのうちから、少なくとも1つの関連するコンテキスト音源12を選択するように構成されてもよく、複数の第2の音源のそのサブセットは、仮想ユーザ40に依存する音源を備える。例えば、選択された少なくとも1つの関連するコンテキスト音源12は、仮想ユーザ40のロケーション46に最近接の、または最近接のうちの1つの音源であってもよい。例えば、少なくとも1つの関連するコンテキスト音源12または複数の第2の音源のそのサブセットは、ユーザ60とともに定義されたオントロジーを有してもよい。例えば、少なくとも1つの関連するコンテキスト音源12および複数の第2の音源のそのサブセットは、ユーザ・プレファレンスに基づいてそれらが選択された音源12と共有する特性を有してもよい。例えば、少なくとも1つの関連するコンテキスト音源12および選択された第2の音源12は、それらが好むことをユーザが先に示した音源、またはユーザが好むであろう十分な確率があると方法100が機械学習アルゴリズムに基づいて判定する音源であってもよい。
図7は、複数のプレビュー221,222,22...22が同時にレンダリングされる方法100のある例を示す。方法100は、異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビュー22のレンダリングをもたらす。ある特定のオーディオ・プレビュー22のユーザによる選択は、関連付けられたそれぞれの空間オーディオ・コンテンツによって定義された、そのオーディオ・プレビューと関連付けられた空間オーディオ・シーンの空間レンダリングをもたらす。その空間オーディオ・シーンは、関連付けられたそれぞれの空間オーディオ・コンテンツによって定義された、複数の音源を備える。
各オーディオ・プレビューは、そのオーディオ・プレビューと関連付けられたその空間オーディオ・シーンのそれぞれの複数の音源のすべてを含むわけではないが、少なくとも1つのユーザにより選択された音源12、および少なくとも1つの選択された第2の音源12に依存する、少なくとも1つのコンテキストにより選択された音源12を含む関連付けられた音源のミックスを備える。
方法100は、次に、ユーザがあるオーディオ・プレビューを選択することなく複数のオーディオ・プレビュー22をブラウズすることを可能にし、ユーザがある所望のオーディオ・プレビュー22に対して複数のオーディオ・プレビュー22をブラウズして、その所望のオーディオ・プレビュー22を選択することを可能にする。そのレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、方法100は、その選択されたオーディオ・プレビューと関連付けられた空間オーディオ・シーンの空間レンダリングをもたらす。
いくつかの例では、複数のオーディオ・プレビュー22の各々は、異なる選択された音源12に基づいてよい。これらは、例えば、あるキーワードサーチまたは同様のものの結果として生成されてもよい。他の例では、複数のオーディオ・プレビュー22の各々は、ユーザにより選択された同じかまたは同様の音源12を共通に有するが、異なるコンテキストにより選択された音源12に基づく。
図8Aは、コントローラ80のある例を示す。コントローラ80の実装は、コントローラ回路素子としてでもあってよい。コントローラ80は、ハードウェアのみで実装されても、ファームウェアのみを含むソフトウェアにおける一定の態様を有してもよく、またはハードウェアおよびソフトウェア(ファームウェアを含む)の組み合わせとすることができる。
図8Aに示されるように、コントローラ80は、ハードウェア機能性を可能にする命令を用いて、例えば、汎用または専用プロセッサ82による実行のためにコンピュータ可読ストレージ媒体(ディスク、メモリなど)上に格納されてよいコンピュータ・プログラム86の実行可能な命令をかかるプロセッサ82において用いることによって実装されてよい。
プロセッサ82は、メモリ84から読み出し、それに書き込むように構成される。プロセッサ82は、データおよび/またはコマンドがそれを介してプロセッサ82によって出力される出力インターフェース、ならびにデータおよび/またはコマンドがそれを介してプロセッサ82へ入力される入力インターフェースも備えてよい。
メモリ84は、プロセッサ82中へロードされたときに装置81のオペレーションを制御するコンピュータ・プログラム命令(コンピュータ・プログラム・コード)を備えるコンピュータ・プログラム86を格納する。コンピュータ・プログラム86のコンピュータ・プログラム命令は、例えば、図1~3に示されるように本装置が方法100を行うことを可能にするロジックおよびルーチンを提供する。プロセッサ82は、メモリ84を読み出すことによって、コンピュータ・プログラム86をロードして実行することが可能である。
装置81は、それゆえに、
少なくとも1つのプロセッサ82、および
コンピュータ・プログラム・コードを含む少なくとも1つのメモリ84
を備え、
少なくとも1つのメモリ84およびコンピュータ・プログラム・コードは、少なくとも1つのプロセッサ82とともに、少なくとも
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源を選択すること、
少なくとも1つの選択された音源12に基づいて少なくとも1つの関連するコンテキスト音源12を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を装置81に行わせるように構成され、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、選択された音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくとも選択された音源12uおよび少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす。
図8Bに示されるように、コンピュータ・プログラム86は、任意の適切な送達メカニズム90を介して装置81に到達してよい。送達メカニズム90は、例えば、機械可読媒体、コンピュータ可読媒体、非一時的コンピュータ可読ストレージ媒体、コンピュータ・プログラム製品、メモリ・デバイス、コンパクト・ディスク・リードオンリ・メモリ(CD-ROM:Compact Disc Read-Only Memory)もしくはデジタル多用途ディスク(DVD:Digital Versatile Disc)のような記録媒体またはソリッド・ステート・メモリ、コンピュータ・プログラム86を備え、または有形に具現する製造品であってもよい。送達メカニズムは、コンピュータ・プログラム86を確実に転送するように構成された信号であってもよい。装置81は、コンピュータ・プログラム86をコンピュータ・データ信号として伝達または伝送してもよい。
少なくとも、
ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源の選択をもたらすこと、
少なくとも1つの選択された音源12に基づいて少なくとも1つの関連するコンテキスト音源12を選択すること、
ユーザによって選択できる、その空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
を装置に行わせるため、またはそれらを行うためのコンピュータ・プログラム命令であって、
そのオーディオ・プレビューは、その空間オーディオ・シーンの複数の音源のすべてではないが、選択された音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備え、
そのオーディオ・プレビューの選択は、少なくとも、選択された音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす、
コンピュータ・プログラム命令。
コンピュータ・プログラム命令は、コンピュータ・プログラム、非一時的なコンピュータ可読媒体、コンピュータ・プログラム製品、機械可読媒体に含まれてよい。いくつかの、しかし必ずしもすべてではない例では、コンピュータ・プログラム命令は、1つより多いコンピュータ・プログラムにわたって分布してよい。
メモリ84は、単一の構成要素/回路素子として示されるが、1つ以上の別々の構成要素/回路素子として実装されてもよく、それらのいくつかまたはすべてが集積化されても/リムーバブルであってもよく、および/または永久/半永久/動的/キャッシュされたストレージを提供してもよい。
プロセッサ82は、単一の構成要素/回路素子として示されるが、1つ以上の別々の構成要素/回路素子として実装されてもよく、それらのいくつかまたはすべてが集積化されても/リムーバブルであってもよい。プロセッサ82は、シングルコアもしくはマルチコア・プロセッサであってもよい。
「コンピュータ可読ストレージ媒体」、「コンピュータ・プログラム製品」、「有形に具現されたコンピュータ・プログラム」など、または「コントローラ」、「コンピュータ」、「プロセッサ」などへの言及は、シングル/マルチプロセッサ・アーキテクチャおよびシーケンシャル(Von Neumann)/パラレル・アーキテクチャなど種々のアーキテクチャを有するコンピュータだけでなく、フィールドプログラマブル・ゲート・アレイ(FPGA:field-programmable gate array)、特定用途向け回路(ASIC:application specific circuits)、信号処理デバイスおよび他の処理回路素子など特化された回路も包含すると理解されるべきである。コンピュータ・プログラム、命令、コードなどへの言及は、プロセッサのための命令、または固定機能デバイス、ゲート・アレイもしくはプログラマブル・ロジック・デバイスなどのための構成設定のいずれにせよ、プログラマブル・プロセッサのためのソフトウェア、あるいは、例えば、ハードウェア・デバイスのプログラマブル・コンテンツのようなファームウェアを包含すると理解されるべきである。
本出願書に用いられるように、「回路素子」という用語は、以下の1つ以上またはすべてを指してよい:
(a)ハードウェアのみの回路素子実装(例えば、アナログおよび/またはデジタル回路素子のみで実装)ならびに
(b)ハードウェア回路およびソフトウェアの組み合わせ、例えば(適用できる場合):
(i)アナログおよび/またはデジタル・ハードウェア回路(単数または複数)とソフトウェア/ファームウェアとの組み合わせ、および
(ii)装置、例えば、モバイルフォンまたはサーバに様々な機能を行わせるために一緒に作動するソフトウェアをもつハードウェア・プロセッサ(単数または複数)(デジタル信号プロセッサ(単数または複数)を含む)、ソフトウェア、およびメモリ(単数または複数)のいずれかの部分、ならびに
(c)オペレーションのためにソフトウェア(例えば、ファームウェア)を必要とするが、オペレーションのために必要とされないときにはソフトウェアが存在しなくてよいハードウェア回路(単数または複数)および/またはプロセッサ(単数または複数)、例えば、マイクロプロセッサ(単数または複数)もしくはマイクロプロセッサ(単数または複数)の一部分。
回路素子のこの定義は、いずれかの請求項における使用を含めて、本出願書におけるこの用語のすべての使用に当て嵌まる。さらなる例として、本出願書に用いられるように、回路素子という用語は、単にハードウェア回路、もしくはプロセッサおよびそれ(またはそれら)に付随するソフトウェアおよび/またはファームウェアの実装もカバーする。回路素子という用語は、例えば、特定の請求項要素に適用できる場合、モバイル・デバイスのためのベースバンド集積回路、もしくはサーバ中の同様の集積回路、セルラ・ネットワーク・デバイス、または他のコンピューティングもしくはネットワーク・デバイスもカバーする。
図1~3に示されるブロックは、方法におけるステップおよび/またはコンピュータ・プログラム86におけるコードのセクションを表してよい。ブロックに対するある特定の順序の図示は、ブロックについて必要とされるかまたは好ましい順序があることを必ずしも示唆せず、ブロックのその順序および配列が変動してもよい。さらにまた、いくつかのブロックが除外されることが可能であってよい。
様々な異なる実施形態が次に参照される。
第1の実施形態では、ユーザがある空間オーディオ・シーンにおいてレンダリングされたある音源を選択するときに、この選択は、そのときにそのシーンのための音源12(およびその関連するコンテキスト音源12)のあるオーディオ・プレビューを生成するためのトリガとして作用する。ある特定の選択された音源12(およびその関連するコンテキスト音源12)に注目するために現在レンダリングされた空間オーディオ・シーン20を「フィルタする」ための手法としてオーディオ・プレビュー22を用いることができる。
図3の例に戻って参照すると、ブロック102において、方法100は、第1の空間オーディオ・コンテンツによって定義された複数の第1の音源12を備える第1の空間オーディオ・シーン20の空間レンダリングを備える。これは、ブロック104におけるユーザ入力より前にレンダリングされる。
次に、ブロック104において、方法100は、第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、第1の空間オーディオ・シーンの少なくとも1つの第1の音源を選択することを含む。この選択は、ユーザによって行われる。ユーザ入力は、第1の空間オーディオ・シーンにおいてレンダリングされたその少なくとも1つの第1の音源の選択である。
次に、ブロック106において、方法100は、少なくとも1つの選択された音源12に基づいて少なくとも1つの関連するコンテキスト音源12を選択することを含む。このステップは、ユーザ入力なしに自動的に行われてよい。
次に、ブロック108において、方法100は、ユーザによって選択できる、第1の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、第1の空間オーディオ・シーン20の複数の第1の音源12のすべてではないが、少なくともその1つの選択された第1の音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備える。そのオーディオ・プレビューの選択は、少なくとも、選択された第1の音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす。
いくつかの、しかし必ずしもすべてではない、例では、少なくとも1つの選択された第1の音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションは、選択された第1の音源12および少なくとも1つの関連するコンテキスト音源12を含む複数の第1の音源を備える、第1の空間オーディオ・シーンの空間レンダリングをもたらしている。そのオーディオ・プレビューのユーザ選択の結果としてレンダリングされる空間オーディオ・シーンは、それゆえに、ブロック104におけるユーザ入力より前にレンダリングされたその空間オーディオ・シーンと同じかまたは同様であってよい。
他の実施形態では、そのレンダリングされたオーディオ・プレビューのユーザ選択は、新しい空間オーディオ・シーンのレンダリングをもたらす。
例えば、図3を参照すると、ブロック102は、随意的である。ブロック102が存在する場合、それは、ブロック104におけるユーザ入力より前に第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、第1の空間オーディオ・シーンの空間レンダリングを備える。
ブロック104において、方法100は、第2の空間オーディオ・コンテンツによって定義された、複数の第2の音源を備える、第2の空間オーディオ・シーン20の少なくとも1つの第2の音源12を選択することを含む。
その少なくとも1つの第2の音源は、この例では、第1の音源のうちの1つではない。
ブロック106において、方法100は、少なくとも1つの選択された第2の音源12に基づいて少なくとも1つの関連するコンテキスト音源12を選択することを含む。これは、ユーザ入力なしに自動的に行われてよい。少なくとも1つの関連するコンテキスト音源12は、必ずしもではないが、第2の空間オーディオ・シーン20を定義する複数の第2の音源のうちの1つとすることができる。
ブロック108において、方法100は、ユーザによって選択できる、第2の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含む。そのオーディオ・プレビューは、第2の空間オーディオ・シーン20の複数の第2の音源12のすべてではないが、少なくとも1つの選択された第2の音源12および少なくとも1つの関連するコンテキスト音源12を少なくとも含む音源のミックスを備える。そのオーディオ・プレビューのユーザ選択は、少なくとも、選択された第2の音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションをもたらす。
いくつかの、しかし必ずしもすべてではない例では、少なくとも、選択された第2の音源12および少なくとも1つの関連するコンテキスト音源12上のオペレーションは、選択された第2の音源12および少なくとも1つの関連するコンテキスト音源12を含む複数の第2の音源12を備える、第2の空間オーディオ・シーン20の空間レンダリングをもたらしている。
この実施形態の異なるバージョンでは、ブロック104における第2の音源12の選択は、種々の手法で発生してよい。例えば、ユーザ入力があるサーチを指定できる。
一例では、第1の空間オーディオ・シーンをレンダリングしている間、ブロック104におけるユーザ入力は、第1の空間オーディオ・シーンにおいてレンダリングされた少なくとも1つの第1の音源の選択である。すなわち、第1の音源のユーザ選択がある。次に、ユーザにより選択された第1の音源に関連する第2の音源の自動選択がある。第2の音源は、ユーザにより選択された第1の音源に1つ以上の種々の手法で関連してよい。例えば、それらは、異なる時間にまたは異なる音空間において音源の同じ識別情報に関連してもよい。例えば、それらは、ある異なる時間、ある異なる方位、ある異なるロケーションまたはある異なる音空間において同様の音源に関連してもよい。生成されたオーディオ・プレビューは、それゆえに、ユーザにより選択された第1の音源に関連する第2の音源12のためのプレビューを生成する。
他の例では、ユーザ入力は、キーワードまたは他の何らかのデータ入力を用いることによってあるサーチを指定してよい。選択された第2の音源12がブロック104において選択され、そのときには指定されたサーチ基準に基づいて選択される。複数のサーチ結果が返されるいくつかの例では、次に、図7に示されるように複数のオーディオ・プレビュー22が作り出されてよい。
ある構造的な特徴が記載されたところでは、その特徴は、その機能またはそれらの機能が明示的または暗黙的に記載されるかのいずれにせよ、その構造的な特徴の1つ以上の機能を行う手段によって置き換えられてよい。
ある機能またはプロセスが記載されたところでは、その機能またはプロセスは、それらの手段が明示的または暗黙的に記載されるかのいずれにせよ、装置81またはその機能を行うためのいずれか適切な手段によって行われてよい。
いくつかの、しかし必ずしもすべてではない例では、装置81は、装置81のメモリ84におけるデータの局所ストレージの有無に係わらず、かつ装置81の回路素子またはプロセッサによるデータの局所処理の有無に係わらず、装置81からデータを通信するように構成される。
データは、1つ以上のデバイスに処理後または未処理のフォーマットで遠隔的に格納されてもよい。データは、クラウドに格納されてもよい。
データは、1つ以上のデバイスで遠隔的に処理されてもよい。データは、1つ以上のデバイスで部分的に局所的に処理され、部分的に遠隔的に処理されてもよい。
データは、例えば、Wi-FiもしくはBluetoothのような短距離無線電信を介して、または長距離セルラ無線リンクを通じてワイヤレスで遠隔デバイスへ通信されてもよい。本装置は、例えば、データの通信のための無線トランシーバのような通信インターフェースを備えてもよい。
装置81は、より大きい分散型ネットワークの一部を形成するインターネット・オブ・シングス(Internet of Things)の一部であってよい。
データの処理は、局所的または遠隔的のいずれにせよ、健康モニタリング、データ集約、患者モニタリング、バイタル・サイン・モニタリングまたは他の目的のためであってよい。
データの処理は、局所的または遠隔的のいずれにせよ、人工知能または機械学習アルゴリズムを伴ってよい。データは、例えば、機械学習ネットワークをトレーニングするための学習入力として用いられてもよく、または応答を提供す、機械学習ネットワークへのクエリ入力として用いられてもよい。機械学習ネットワークは、例えば、線形回帰、ロジスティック回帰、ベクトル・サポート・マシン、あるいは単一または多隠れ層ニューラル・ネットワークのようなアサイクリック機械学習ネットワークを用いてもよい。
データの処理は、局所的または遠隔的のいずれにせよ、出力を作り出してよい。出力は、装置81へ通信されてよく、装置81ではその出力がオーディオ出力、ビジュアル出力または触覚出力のような、対象に感知できる出力を作り出してよい。
本システム、装置、方法およびコンピュータ・プログラムは、統計的学習を含むことができる機械学習を用いてよい。機械学習は、コンピュータに明示的にプログラムされることなく学習するための能力を与えるコンピュータ・サイエンスの分野である。何らかのクラスのタスクTおよび性能尺度Pに関して、Pによって測定されるような、T中のタスクにおけるその性能が経験Eとともに改善する場合、コンピュータは、経験Eから学習する。コンピュータは、しばしば、将来のデータを予測するために前のトレーニングデータから学習できる。機械学習は、全体的または部分的に教師ありの学習および全体的または部分的に教師なしの学習を含む。機械学習は、離散出力(例えば、分類、クラスタリング)および連続出力(例えば、回帰)を可能にしてよい。例えば、機械学習は、例として、コスト関数最小化、人工ニューラル・ネットワーク、サポート・ベクトル・マシンおよびベイジアン・ネットワークのような種々のアプローチを用いて実装されてよい。コスト関数最小化は、例えば、線形および多項回帰ならびにK平均クラスタリングに用いられてよい。例えば、1つ以上の隠れ層をもつ、人工ニューラル・ネットワークは、入力ベクトルと出力ベクトルとの間の複雑な関連性をモデリングする。サポート・ベクトル・マシンは、教師ありの学習に用いられてよい。ベイジアン・ネットワークは、いくつかの確率変数の条件付き独立性を表す有向アサイクリック・グラフである。
上記の例は、
自動車システム、電気通信システム、消費者電子製品を含む電子システム、分散型コンピューティング・システム、オーディオ、ビジュアルおよびオーディオ・ビジュアル・コンテンツならびに複合、媒介、仮想および/または拡張現実を含むメディア・コンテンツを生成またはレンダリングするためのメディア・システム、パーソナル・ヘルス・システムまたはパーソナル・フィットネス・システムを含むパーソナル・システム、ナビゲーション・システム、ヒューマン・マシン・インターフェースとしても知られるユーザ・インターフェース、セルラ、非セルラおよび光ネットワークを含むネットワーク、アドホック・ネットワーク、インターネット、インターネット・オブ・シングス、仮想化ネットワークを含むネットワーク、ならびに関連するソフトウェアおよびサービス
の有効な構成要素として用途を見出す。
「備える(含む)(comprise)」という用語は、本文書では包括的で排他的ではない意味で用いられる。すなわち、Yを備えるXへのいずれの言及も、Xが1つのみのYを備えてもよく、または1つより多いYを備えてもよいことを示す。「備える」を排他的意味で用いることが意図される場合には、「1つのみを備える(comprising only one)」へ言及することによって、または「なる(consisting)」を用いることによって文脈中でそのことが明確にされるであろう。
この説明では、様々な例への言及がなされた。ある例に関連する特徴または機能の説明は、それらの特徴または機能がその例に存在することを示す。明示的に述べられるか否かのいずれにせよ、テキストにおける「例(example)」もしくは「例えば(for example)」または「できる(can)」もしくは「してよい(may)」という用語の使用は、ある例として記載されるか否かのいずれにせよ、かかる特徴または機能が少なくともその記載される例に存在すること、および必ずしもではないが、それらがいくつかのまたはすべての他の例に存在しうることを示す。従って、「例」、「例えば」、「できる」または「してよい」は、あるクラスの例におけるある特定のインスタンスを指す。そのインスタンスのある特性とは、そのインスタンスのみのある特性、もしくはそのクラスのある特性、またはそのクラスにおける複数のインスタンスのすべてではないがいくつかを含むそのクラスのあるサブクラスのある特性とすることができる。それゆえに、一例を参照するが別の例を参照しないで記載されるある特徴を、可能なところでは、実用的な組み合わせの一部としてその他の例に用いることができるが、必ずしもその他の例にそれを用いる必要はないことが暗黙的に開示される。
これまでの段落では様々な例を参照して実施形態が記載されたが、当然のことながら、特許請求の範囲から逸脱することなく、与えられた例に対する変更を行うことができる。
先の説明に記載された特徴は、明示的に上に記載された組み合わせ以外の組み合わせで用いられてもよい。
一定の特徴を参照して機能が記載されたが、それらの機能は、記載されるか否かのいずれにせよ、他の特徴によって行うことができてよい。
一定の実施形態を参照して特徴が記載されたが、それらの特徴は、記載されるか否かのいずれにせよ、他の実施形態にも存在してよい。
「ある(a)」または「その、前記(the)」という用語は、本文書では包括的で排他的ではない意味で用いられる。すなわち、ある/そのYを備えるXへのいずれかの言及は、文脈が明らかに逆を示さない限り、Xが1つのみのYを備えてもよく、または1つより多いYを備えてもよいことを示す。「ある」または「その」を排他的意味で用いることが意図される場合には、文脈中でそのことが明確にされるであろう。いくつかの環境では、「少なくとも1つ(at least one)」または「1つ以上(one or more)」の使用は、包括的意味を強調するために用いられてよいが、これらの用語の欠如が排他的意味を推定すると解釈されるべきではない。
ある請求項におけるある特徴(または特徴の組み合わせ)の存在は、その特徴(または特徴の組み合わせ)自体への、かつまた実質的に同じ技術的効果(同等の特徴)を達成する特徴への言及である。同等の特徴は、例えば、変形であり、実質的に同じ手法で実質的に同じ結果を達成する特徴を含む。同等の特徴は、例えば、実質的に同じ結果を達成するために実質的に同じ手法で実質的に同じ機能を行う特徴を含む。
この説明では、様々な例の特性を記述するために形容詞または形容詞句を用いてそれらの例への言及がなされた。ある例に関連するある特性のかかる説明は、その特性がいくつかの例では正確に記載される通りに存在し、他の例では実質的に記載される通りに存在することを示す。
明示的に述べられるか否かのいずれにせよ、テキストにおける「例」もしくは「例えば」または「できる」もしくは「してよい」という用語の使用は、ある例として記載されるか否かのいずれにせよ、かかる特徴または機能が少なくともその記載される例に存在すること、および必ずしもではないが、それらがいくつかのまたはすべての他の例に存在しうることを示す。従って、「例」、「例えば」、「できる」または「してよい」は、あるクラスの例におけるある特定のインスタンスを指す。そのインスタンスのある特性とは、そのインスタンスのみのある特性、もしくはそのクラスのある特性、またはそのクラスにおける複数のインスタンスのすべてではないがいくつかを含むそのクラスのあるサブクラスのある特性とすることができる。それゆえに、一例を参照するが別の例を参照しないで記載される特徴を、可能なところでは、実用的な組み合わせの一部としてその他の例に用いることができるが、必ずしもその他の例にそれを用いる必要はないことが暗黙的に開示される。
重要であると思われるそれらの特徴に注意を向けるために前述の明細書に尽力する一方で、本出願人は、先に言及され、および/または図面に示されたいずれかの特許性のある特徴または特徴の組み合わせに関して、それに重点が置かれたか否かのいずれにせよ、請求項を通じて保護を求めてよいことが理解されるべきである。

Claims (17)

  1. ユーザ入力に応答して、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択し、前記空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義され、
    前記少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択して、
    ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらす
    手段を備え、
    前記オーディオ・プレビューは、前記空間オーディオ・シーンの前記複数の音源のすべてではないが、前記少なくとも1つの選択された音源および前記少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
    前記オーディオ・プレビューの選択は、少なくとも前記選択された音源上のオペレーションをもたらす、
    装置であって、前記手段は、
    空間および/またはオーディオ特性に基づいて前記複数の音源を主要音源および非主要音源へ論理的に分離するように構成され、前記少なくとも1つの選択された音源は、前記主要音源を備える群から選択され、前記少なくとも1つの関連するコンテキスト音源は、前記非主要音源を備える群から選択される、
    装置。
  2. 前記手段は、更に、
    前記少なくとも1つの選択された音源と、
    (i)前記複数の音源のラウドネスに依存するあるメトリック、および/または
    (ii)前記複数の音源間の1つ以上の定義されたオントロジーに依存するあるメトリック
    とに基づいて、前記複数の音源のうちから、前記少なくとも1つの関連するコンテキスト音源を選択するように構成される、請求項1に記載の装置。
  3. 前記手段は、更に、
    前記少なくとも1つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも1つの関連するコンテキスト音源を選択するように構成され、前記複数の音源の前記サブセットは、前記ユーザに依存する音源を備える、請求項1又は2に記載の装置。
  4. 前記手段は、前記少なくとも1つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも1つの関連するコンテキスト音源を選択するように構成され、前記複数の音源の前記サブセットは、前記ユーザの方位に係わらず同じである音源を備え、前記ユーザの方位とともに変動する音源を備えない、請求項3に記載の装置。
  5. 前記オーディオ・プレビューの選択によってもたらされる前記オペレーションは、
    前記選択された音源および前記少なくとも1つの関連するコンテキスト音源を含む複数の音源を備える、前記空間オーディオ・シーンの空間レンダリングをもたらすことを含み、前記空間オーディオ・シーンは、空間オーディオ・コンテンツによって定義される、
    請求項1から4のいずれかに記載の装置。
  6. 前記ユーザ入力より前に、第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、第1の空間オーディオ・シーンの空間レンダリングをもたらす手段を備え、
    前記ユーザ入力は、前記第1の空間オーディオ・シーンにおいてレンダリングされた少なくとも1つの第1の音源の選択である、
    請求項1から5のいずれかに記載の装置。
  7. 空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択することは、第1の空間オーディオ・コンテンツによって定義された、複数の第1の音源を備える、前記第1の空間オーディオ・シーンの少なくとも1つの第1の音源を選択することを含み、
    前記少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することは、前記少なくとも1つの選択された第1の音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することを含み、
    ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、前記第1の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
    前記オーディオ・プレビューは、前記第1の空間オーディオ・シーンの前記複数の音源のすべてではないが、前記少なくとも1つの選択された第1の音源および前記少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
    前記オーディオ・プレビューの選択は、少なくとも前記選択された第1の音源および前記少なくとも1つの関連する第1のコンテキスト音源上のオペレーションをもたらす、
    請求項6に記載の装置。
  8. 前記ユーザ入力は、あるサーチを指定している、請求項1から6のいずれか一項に記載の装置。
  9. 空間オーディオ・コンテンツによって定義された、複数の音源を備える、ある空間オーディオ・シーンの少なくとも1つの音源を選択することは、第2の空間オーディオ・コンテンツによって定義された、複数の第2の音源を備える、第2の新しい空間オーディオ・シーンの少なくとも1つの第2の音源を選択することを含み、
    前記少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することは、前記少なくとも1つの選択された第2の音源に基づいて少なくとも1つの関連するコンテキスト音源を選択することを含み、
    ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことは、ユーザによって選択できる、前記第2の空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすことを含み、
    前記オーディオ・プレビューは、前記第2の空間オーディオ・シーンの前記複数の第2の音源のすべてではないが、前記少なくとも1つの選択された第2の音源および前記少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
    前記オーディオ・プレビューの選択は、少なくとも前記選択された第2の音源上のオペレーションをもたらす、
    請求項1から6及び8のいずれか一項に記載の装置。
  10. 前記手段は、
    前記空間オーディオ・コンテンツを表す、前記レンダリングされたオーディオ・プレビューのユーザによる選択に応答して、前記複数の音源のレンダリングを含む前記空間オーディオ・コンテンツによって定義された前記空間オーディオ・シーンの空間レンダリングをもたらし、
    前記空間オーディオ・シーンと関連付けられた、あるロケーションおよびある方位を備える仮想ユーザ位置を決定して、
    ユーザが、前記仮想ユーザの前記位置を変化させることによって、前記レンダリングされた空間オーディオ・シーンを前記空間オーディオ・シーンから変化させることを可能にするように構成され、前記仮想ユーザの前記位置は、前記ユーザのある変化する方位、または前記ユーザのある変化するロケーションおよび方位に依存する、
    請求項1から9のいずれかに記載の装置。
  11. 前記手段は、前記少なくとも1つの選択された音源に基づいて、前記複数の音源のうちから、前記少なくとも1つの関連するコンテキスト音源を選択するように構成される、請求項1~10のいずれか一項に記載の装置。
  12. 前記手段は、
    異なるそれぞれの空間オーディオ・コンテンツによって定義された、異なるそれぞれ複数の音源を備える、異なるそれぞれの空間オーディオ・シーンの空間レンダリングをもたらすために、ユーザによって選択できる、前記異なるそれぞれの空間オーディオ・コンテンツを表す、複数のオーディオ・プレビューのレンダリングをもたらし、
    あるオーディオ・プレビューは、少なくとも1つのユーザにより選択された音源、および、前記少なくとも1つの選択された音源に依存する、少なくとも1つのコンテキストにより選択された音源を含むが、前記それぞれの空間オーディオ・シーンの前記それぞれの複数の音源のすべてを含むわけではない、音源のミックスを備え、
    前記ユーザがあるオーディオ・プレビューを選択することなく前記複数のオーディオ・プレビューをブラウズすることを可能にし、
    前記ユーザがある所望のオーディオ・プレビューに対して前記複数のオーディオ・プレビューをブラウズして、前記所望のオーディオ・プレビューを選択することを可能にし、
    あるレンダリングされたオーディオ・プレビューのユーザによる選択に応答して、前記選択された空間オーディオ・コンテンツに含まれる前記複数の音源のレンダリングを含む前記選択された空間オーディオ・コンテンツによって定義された前記空間オーディオ・シーンの空間レンダリングをもたらす
    ように構成される、請求項1~11のいずれか一項に記載の装置。
  13. ユーザ入力に応答して、空間オーディオ・コンテンツによって定義され、複数の音源を備えるある空間オーディオ・シーンの少なくとも1つの音源を選択すること、
    前記少なくとも1つの選択された音源に基づいて少なくとも1つの関連するコンテキスト音源を選択すること、
    ユーザによって選択できる、前記空間オーディオ・コンテンツを表す、あるオーディオ・プレビューのレンダリングをもたらすこと
    を含み、
    前記オーディオ・プレビューは、前記空間オーディオ・シーンの前記複数の音源のすべてではないが、前記選択された音源および前記少なくとも1つの関連するコンテキスト音源を少なくとも含む音源のミックスを備え、
    前記オーディオ・プレビューの選択は、少なくとも前記選択された音源上のオペレーションをもたらす
    方法であって、空間および/またはオーディオ特性に基づいて前記複数の音源を主要音源および非主要音源へ論理的に分離することを更に含み、前記少なくとも1つの選択された音源は、前記主要音源を備える群から選択され、前記少なくとも1つの関連するコンテキスト音源は、前記非主要音源を備える群から選択される、方法。
  14. 前記少なくとも1つの関連するコンテキスト音源を選択することは、前記少なくとも1つの選択された音源と、
    (i)前記複数の音源のラウドネスに依存するあるメトリック、および/または
    (ii)前記複数の音源間の1つ以上の定義されたオントロジーに依存するあるメトリック
    とに基づいて、前記複数の音源のうちから、前記少なくとも1つの関連するコンテキスト音源を選択することを含む、請求項13に記載の方法。
  15. 前記少なくとも1つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも1つの関連するコンテキスト音源を選択することを更に含み、前記複数の音源の前記サブセットは、前記ユーザに依存する音源を備える、請求項13又は14に記載の方法。
  16. 前記少なくとも1つの選択された音源に基づいて、前記複数の音源のあるサブセットのうちから、前記少なくとも1つの関連するコンテキスト音源を選択することを更に含み、前記複数の音源の前記サブセットは、前記ユーザの方位に係わらず同じである音源を備え、前記ユーザの方位とともに変動する音源を備えない、請求項15に記載の方法。
  17. 装置の処理手段に実行されると、前記装置に、請求項13から16のいずれかに記載の方法を遂行させるように構成されたプログラム命令を備える、コンピュータ・プログラム。
JP2020561918A 2018-05-14 2019-05-10 複数の音源を備える空間オーディオ・シーンのプレビュー Active JP7194200B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18171975.8A EP3570566B1 (en) 2018-05-14 2018-05-14 Previewing spatial audio scenes comprising multiple sound sources
EP18171975.8 2018-05-14
PCT/EP2019/062033 WO2019219527A1 (en) 2018-05-14 2019-05-10 Previewing spatial audio scenes comprising multiple sound sources.

Publications (2)

Publication Number Publication Date
JP2021523603A JP2021523603A (ja) 2021-09-02
JP7194200B2 true JP7194200B2 (ja) 2022-12-21

Family

ID=62165379

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020561918A Active JP7194200B2 (ja) 2018-05-14 2019-05-10 複数の音源を備える空間オーディオ・シーンのプレビュー

Country Status (4)

Country Link
US (1) US11368807B2 (ja)
EP (1) EP3570566B1 (ja)
JP (1) JP7194200B2 (ja)
WO (1) WO2019219527A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11304006B2 (en) * 2020-03-27 2022-04-12 Bose Corporation Systems and methods for broadcasting audio

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020141597A1 (en) 2001-01-29 2002-10-03 Hewlett-Packard Company Audio user interface with selectively-mutable synthesised sound sources
JP2008092193A (ja) 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2489037T3 (pl) * 2009-10-16 2022-03-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie, sposób i program komputerowy do dostarczania regulowanych parametrów
EP2829048B1 (en) * 2012-03-23 2017-12-27 Dolby Laboratories Licensing Corporation Placement of sound signals in a 2d or 3d audio conference
EP2840811A1 (en) * 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
US9693009B2 (en) * 2014-09-12 2017-06-27 International Business Machines Corporation Sound source selection for aural interest
EP3414925B1 (en) * 2016-02-09 2019-09-11 Dolby Laboratories Licensing Corporation System and method for spatial processing of soundfield signals
EP3236363A1 (en) 2016-04-18 2017-10-25 Nokia Technologies Oy Content search
ES2713685T3 (es) * 2016-04-26 2019-05-23 Nokia Technologies Oy Métodos, aparatos y programas informáticos relativos a la modificación de una característica asociada a una señal de audio separada
EP3319341A1 (en) * 2016-11-03 2018-05-09 Nokia Technologies OY Audio processing
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
EP3422148B1 (en) 2017-06-29 2021-03-10 Nokia Technologies Oy An apparatus and associated methods for display of virtual reality content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020141597A1 (en) 2001-01-29 2002-10-03 Hewlett-Packard Company Audio user interface with selectively-mutable synthesised sound sources
JP2008092193A (ja) 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置

Also Published As

Publication number Publication date
US11368807B2 (en) 2022-06-21
US20210250720A1 (en) 2021-08-12
EP3570566B1 (en) 2022-12-28
EP3570566A1 (en) 2019-11-20
JP2021523603A (ja) 2021-09-02
WO2019219527A1 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
US10952009B2 (en) Audio parallax for virtual reality, augmented reality, and mixed reality
US11089426B2 (en) Apparatus, method or computer program for rendering sound scenes defined by spatial audio content to a user
US9838818B2 (en) Immersive 3D sound space for searching audio
US8380333B2 (en) Methods, apparatuses and computer program products for facilitating efficient browsing and selection of media content and lowering computational load for processing audio data
US10567902B2 (en) User interface for user selection of sound objects for rendering
US11140507B2 (en) Rendering of spatial audio content
CN111512648A (zh) 启用空间音频内容的渲染以用于由用户消费
CN113316078B (zh) 数据处理方法、装置、计算机设备及存储介质
US20240022870A1 (en) System for and method of controlling a three-dimensional audio engine
US20240098416A1 (en) Audio enhancements based on video detection
JP7037654B2 (ja) キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法
JP7194200B2 (ja) 複数の音源を備える空間オーディオ・シーンのプレビュー
JP2021508193A5 (ja)
EP3691298A1 (en) Apparatus, method or computer program for enabling real-time audio communication between users experiencing immersive audio
US20240080638A1 (en) Method for navigating multidimensional space using sound
Huopaniemi Future of personal audio: Smart applications and immersive communication
Sodnik et al. Spatial Auditory Interfaces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221209

R150 Certificate of patent or registration of utility model

Ref document number: 7194200

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150