JP7037654B2

JP7037654B2 - キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法

Info

Publication number: JP7037654B2
Application number: JP2020533103A
Authority: JP
Inventors: ラッセラークソネン; アルトレフティニエミ; トニマキネン; ミッコヘイッキネン
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2017-12-22
Filing date: 2018-12-11
Publication date: 2022-03-16
Anticipated expiration: 2038-12-11
Also published as: US11223925B2; EP3503102A1; CN111512371A; US20200389755A1; WO2019121150A1; JP2021508193A; CN111512371B

Description

本開示は、空間オーディオコンテンツの提示の分野に関し、特に、空間オーディオコンテンツ、関連する装置、方法、およびコンピュータプログラムの部分に着目した空間オーディオコンテンツの提示に関する。

背景

空間オーディオコンテンツの提示によって、ユーザには豊かな体験がもたらされる。しかし、この体験は、当該コンテンツの提示を圧倒的なもの、または理解しがたいものにしてしまう場合がある。これにより、効果的に空間オーディオコンテンツの提示を行うことが困難な場合がある。

本明細書における以前に公開された文書または任意の背景の列挙または説明は、必ずしも、その文書または背景が最新技術の一部であること、または一般知識であることの自認であると理解されてはならない。本開示の１つ以上の態様／例は、背景の課題の１つ以上に対処するものであってもよく、そうでなくてもよい。

摘要

第１の例示的態様では装置が提供される。この装置は、
（ｉ）音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
（ｉｉ）前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うように構成される手段を備える。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。

１つ以上の例では、前記第２の部分は、前記キャプチャされた視覚的画像群および前記キャプチャされた空間オーディオコンテンツが提示されることが意図されるユーザに特有のオーディオフォーカス情報に基づいて前記装置によって選択され、前記装置は、
ａ）前記ユーザからの、前記シーンの少なくとも１つの部分に対するユーザの選択と、
ｂ１）前記ユーザが好む音声または音源の１つ以上を示すユーザ設定のプロファイル設定と、
ｂ２）前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記ユーザに事前に提示され、前記ユーザによって選択されたキャプチャされた別の視聴覚コンテンツにある共通の特徴に対する、前記ユーザによる１つ以上のユーザの選択を示す履歴データと、
ｃ）前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、または前記キャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、前記シーンのある決定された場所に対応する場所にいる前記ユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す履歴場所データと、
ｄ）前記キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む時間に特有のデータと、
の内の少なくとも１つに基づいて前記オーディオフォーカス情報を決定するように構成される手段を備える。

１つ以上の例では、前記装置は、前記キャプチャされた空間オーディオコンテンツの提示において、前記キャプチャされた空間オーディオコンテンツを、キャプチャされた時間および場所の一方または両方に基づいて、当該キャプチャされた空間オーディオコンテンツに関連する別のキャプチャされた空間オーディオコンテンツと混成するように構成される手段を有し、前記空間オーディオフォーカスは、混成された前記別のキャプチャされた空間オーディオコンテンツの第２の部分に適用される。

１つ以上の例では、前記シーンの前記第１の部分は、
ａ）現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体と、
ｂ）現在提示されている前記キャプチャされたビジュアルコンテンツの空間的広がり全体の小区分と、
ｃ）現在提示されており、前記ユーザによって選択された、前記キャプチャされたビジュアルコンテンツの一部と、
の内の少なくとも１つを含む。

１つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは、ライブで提示され、選択的に適用された前記空間オーディオフォーカスを有する提示用の前記キャプチャされた空間オーディオコンテンツの提示は、前記キャプチャされた空間オーディオコンテンツをキャプチャするコンテンツキャプチャデバイスに対するフィードバックシグナリングの送信を行い、前記フィードバックシグナリングは、前記コンテンツキャプチャデバイスによる前記音声変更効果の適用を行うように構成される。

１つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツは事前に記録されたキャプチャされたコンテンツであり、前記キャプチャされたビジュアルコンテンツは、前記ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされる。

１つ以上の例では、前記装置は、前記シーンの前記キャプチャされた視覚的画像群に基づいて、前記ユーザに対する提示用にフォーカスが当てられた前記ビジュアルフォーカス情報に定義された前記シーンの前記第１の部分を有する前記キャプチャされた視覚的画像群の提示を行うように構成される。

１つ以上の例では、前記シーンの前記第１の部分は、
ｉ）提示用に提供された視界内にある当該シーンの空間的小区分を含む前記第１の部分と、
ｉｉ）光学的フォーカスが小さい表示用に提供された視野における残りの部分に比べて光学的フォーカスが当てられた、提示用に提供された前記視野の空間的小区分を含む前記第１の部分と、
の内の少なくとも１つについて、提示用にフォーカスが当てられる。

１つ以上の例では、前記シーンの前記キャプチャされた視覚的画像群は、
ａ）当該シーンの静止画像と、
ｂ）当該シーンのビデオ画像群と、
ｃ）任意の時点で前記ユーザに提示可能な空間的広がりよりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の１つを含む。

１つ以上の例では、前記装置は、
（ｉ）ユーザへの提示用に提供された前記キャプチャされた視覚的画像群にフォーカスが当てられるべき、前記シーンの少なくとも第３の部分を定義するための、前記ビジュアルフォーカス情報における変更に基づき、さらに（ｉｉ）前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第２の部分とは異なる、前記シーンの第４の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成される手段を有する。

１つ以上の例では、前記装置は、
（ｉ）前記シーン内の音源の変化および前記シーン内の音源の位置の変化の一方または両方を示す前記キャプチャされた空間オーディオコンテンツの分析に基づき、さらに（ｉｉ）前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、
前記第１の部分および前記第２の部分とは異なる、前記シーンの第４の部分からキャプチャされた音声に対して選択的に適用された前記空間オーディオフォーカスにおける変更を行うように構成される手段を有する。

１つ以上の例では、前記キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツはライブで提示され、前記装置は、キャプチャされた時点の前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの１つ以上の候補となる第２の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第２の部分の１つ以上を選択するように構成される。

１つ以上の例では、前記キャプチャされたビジュアルコンテンツおよび前記キャプチャされた空間オーディオコンテンツは事前に記録されたコンテンツであり、前記装置は、少なくとも部分的に、提示用の前記キャプチャされた空間オーディオコンテンツの提供に先行する、前記キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいて、前記シーンの１つ以上の候補となる第２の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第２の部分の１つ以上を選択するように構成される。

１つ以上の例では、空間オーディオフォーカスが設けられた音声は、ユーザが選択可能なリンクと共にさらに提示され、前記装置は、前記リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた視覚的画像群の提示を行うように構成される手段を有し、当該キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、（ｉ）前記空間オーディオフォーカスが設けられた音声と比較した聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、（ｉｉ）前記空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の１つ以上を有する。

１つ以上の例では、前記オーディオフォーカス情報は、前記ユーザに提示された空間オーディオコンテンツの複数の事例に基づくニューラルネットワークを使用して決定される。

第２の例示的態様では方法が提供される。この方法は、
（ｉ）音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
（ｉｉ）前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。

第３の例示的態様では、保存されたコンピュータプログラムコードを備えるコンピュータ可読媒体が提供される。前記コンピュータ可読媒体およびコンピュータプログラムコードは、少なくとも１つのプロセッサ上で実行されると、
（ｉ）音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
（ｉｉ）前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行うことを含む方法を実施するように構成される。
このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。

第４の例示的態様では装置が提供される。この装置は、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、を備え、
前記少なくとも１つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサによって、前記装置に少なくとも、
（ｉ）音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
（ｉｉ）前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
前記キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行わせるように構成される。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。

本開示は、１つ以上の対応する態様、例、または特徴を、単独または様々な組合せで含み、これは、その組合せまたは単独で特定的に記載（特許請求を含む）されたか否かにかかわらない。記載される機能の内の１つ以上を実行する対応する手段および対応する機能ユニット（例えば機能イネーブラ、ＡＲ／ＶＲグラフィックレンダラ、ディスプレイデバイス）も本開示の範囲内にある。

開示された方法の１つ以上を実装する対応するコンピュータプログラムも本開示の範囲内にあり、記載された例の１つ以上に含まれる。

上記の摘要は、単なる例示であり非限定的なものとして意図されている。

以下、単なる例として、添付の図面を参照しながら説明を行う。
コンテンツキャプチャデバイスによってキャプチャされたシーンの、キャプチャされた空間オーディオコンテンツおよび視覚的画像群の提示を行うための例示的装置を示す。同装置の例示的ブロック図である。同装置の例示的動作フローを示すフローチャートである。同装置の例示的動作フローをさらに示すフローチャートである。同装置の例示的動作フローをさらに示すフローチャートである。使用中の同装置の一例を示すフローチャートである。例示的方法を示すフローチャートである。コンピュータ可読媒体を示す。

例示的態様の説明

図１を参照すると、システム１００、特に装置１０１が、キャプチャされた空間オーディオコンテンツの提示を行う。１つ以上の例では、装置１０１は、視聴覚コンテンツの提示を、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの形で行う。空間オーディオコンテンツのキャプチャは、あるシーンにおける複数の音源の空間的配置をキャプチャし、空間オーディオコンテンツの再生における当該シーンの再現を聴覚的に行うような形で行われる。キャプチャされた空間オーディオコンテンツは、ユーザが自身に提示された音声を、当該シーンにおける空間的配置に対応する特定の方向および／または場所から発せられると知覚するように提示されてもよい。これにより、キャプチャされた空間オーディオコンテンツは、仮想音声シーンを提供するとみなすことができ、これは、キャプチャデバイスの周囲に配置された音源で実在シーンを複製してもよいし、あるいはコンピュータが生成したシーンを含んでもよい。

前述のように、空間オーディオは、１つ以上の音源がそれぞれ特定の場所にあるかのように、特定の場所から発せられると知覚されるようにユーザに対して提示される音声を含む。空間オーディオは、視覚的画像群を伴わず提示されてもよいし、静止画または動画の視覚的画像群（例えば、ピクチャまたはビデオ）を伴って提供されてもよい。仮想現実コンテンツには、ＶＲコンテンツの画像群とリンクしていてもよい、仮想現実（ＶＲ）空間内の１つ以上の点から発せられると知覚されるような空間オーディオが設けられてもよい。拡張現実または複合現実コンテンツには、ユーザにとって可視の実在物体から、および／またはユーザの視界に重ねられた拡張現実グラフィックから発せられると知覚されるような空間オーディオが設けられてもよい。

「仮想音声シーン」を生成するための空間オーディオの空間的位置決めは、３Ｄ音声効果（例えば、頭部伝達関数を利用して、ユーザへの提示用に音声を配置できる空間オーディオ空間を作成すること）によって提示されてもよい。空間オーディオは、頭部伝達関数フィルタリング（Head Related Transfer Function Filtering：ＨＲＴＦ）技術を用いてヘッドフォンによって提示されてもよく、スピーカについては、ベクトルベース振幅パンニング（Vector Base Amplitude Panning：ＶＢＡＰ）技術を用いて提示され、知覚される音声コンテンツの音源の位置を決めてもよい。他の実施形態では、アンビソニック音声提示を使用して空間オーディオを提示してもよい。空間オーディオは、ユーザの両耳のそれぞれに対する聴覚提示における音量差、タイミング差、高低差の内の１つ以上によって、当該音声の発生源が空間内の特定の場所にあるという知覚をもたらしてもよい。当該音声の発生源までの知覚された距離は、反射音量の制御、周波数コンテンツおよびゲインの制御によってレンダリングされ、この空間オーディオの知覚された音源からの近さまたは距離を示してもよい。

コンテンツキャプチャデバイス１０２は、シーン１０４からの全方向音声コンテンツに加え、少なくともシーン１０４の空間的部分１０３の視覚的画像群をキャプチャするために使用されてもよい。コンテンツキャプチャデバイス１０２は、空間オーディオキャプチャ能力を有する、またはこれに対応付けられた静止画像カメラを備えてもよい。コンテンツキャプチャデバイス１０２は、空間オーディオキャプチャ能力を有する、またはこれに対応付けられたビデオカメラを備えてもよい。コンテンツキャプチャデバイス１０２は、動画または静止画像をキャプチャし、空間オーディオキャプチャ能力を有する、またはこれに対応付けられたカメラ、またはカメラを備えたスマートフォンを備えてもよい。１つ以上の例では、コンテンツキャプチャデバイスは、以下に記載する仮想現実コンテンツキャプチャデバイスを備える。

仮想現実（ＶＲ）は、メガネ、ゴーグル、網膜ディスプレイ等のヘッドセット、またはユーザを囲む１つ以上のディスプレイ画面を備えるＶＲディスプレイを使用して、ユーザに没入型仮想体験を提供し得る。仮想現実装置は、ＶＲディスプレイを含んでも含んでいなくてもよく、仮想現実シーンを表すマルチメディアＶＲコンテンツをユーザに提示して、ユーザが仮想現実シーンの中に存在するシミュレーションを実現してもよい。よって、１つ以上の例では、ＶＲ装置は、ユーザに対してＶＲコンテンツを表示するためのＶＲディスプレイにシグナリングを提供し、１つ以上の別の例では、ＶＲ装置は、例えばヘッドセットの一部のようにＶＲディスプレイの一部であってもよい。したがって、仮想現実シーンは、ユーザがあたかもその場にいるようにそのシーンに没入していると感じられ、ユーザの周りに表示されたＶＲコンテンツでＶＲ空間を見回すように、３次元仮想現実空間内に表示されたＶＲコンテンツを含んでもよい。仮想現実シーンは、実在シーンを再現し、ユーザが実在の場所に物理的に存在しているようにシミュレーションを実現してもよいし、または仮想現実シーンは、コンピュータが生成したものであっても、コンピュータが生成したものと現実世界のマルチメディアコンテンツとの組合せであってもよい。このように、ＶＲコンテンツは、表示用に仮想現実シーンを生成し得る画像群（例えば静止画または動画像群）、音声および／またはこれらに伴うデータを含むものと考えられてもよい。したがって、ＶＲ装置は、ＶＲコンテンツを表示する仮想で３次元のＶＲ空間を生成することによって、ＶＲシーンを提供してもよい。仮想現実空間は、広視野または３６０°の視野（さらに水平方向の視野の上方および／または下方を含む場合もある。例えば３６０°×１８０°）を有するビデオを含む（パノラマ式生中継等の）パノラマ式ビデオにより提供されることもある。パノラマ式ビデオは、ユーザの視野よりも広く、または当該パノラマ式ビデオの表示を意図されている視野よりも広くなるような広視野を有してもよい。

ユーザへの提示用に提供されたＶＲコンテンツは、例えばＶＲコンテンツキャプチャデバイスが撮影した現実世界のライブ画像群または録画を含んでもよい。ＶＲコンテンツキャプチャデバイスの例としては、ＮｏｋｉａＴｅｃｈｎｏｌｏｇｉｅｓのＯＺＯデバイスが挙げられる。ＶＲシーンは、通常、ユーザがＶＲディスプレイで見ることができる部分よりも大きいため、ＶＲ装置はＶＲディスプレイ上での表示のために、ＶＲシーンの仮想現実視界をユーザに提供してもよい。このＶＲ視界では、一度に見ることができるＶＲコンテンツの空間的部分を示すのみである。ＶＲ装置は、ユーザの頭部および／または目の動きに基づいて、ＶＲシーン内のＶＲ視界のパンニングを実現してもよい。ＶＲコンテンツキャプチャデバイスは、１人以上のユーザに表示するためにＶＲコンテンツを撮影するように構成されてもよい。ＶＲコンテンツキャプチャデバイスは、１つ以上のカメラを備えてもよく、任意で、ある撮影視点の周囲の視聴覚シーンをキャプチャするように構成された１つ以上の（例えば指向性）マイクまたはマイクアレイを備えてもよい。一部の例では、ＶＲコンテンツキャプチャデバイスは、物理的に離して設けられた複数のカメラおよび／またはマイクを備える。これにより、ＶＲコンテンツキャプチャデバイスを用いて、音楽演奏を撮影（および記録）してもよい。このとき、ＶＲコンテンツキャプチャデバイスはステージ上に置かれて、演奏者がその周囲を動き回ってもよいし、または観客の視点からの撮影であってもよい。いずれの場合も、ＶＲコンテンツの消費者は、ＶＲ装置のＶＲディスプレイを用いて周囲を見回し、あたかもその場にいるように撮影地での演奏を体験し得る。

拡張現実（ＡＲ）では、メガネ、ゴーグル、仮想網膜ディスプレイ等のＡＲディスプレイを用いて、（メガネまたはゴーグルを通して見たもの等）現実世界の視界を、（キャプチャされたコンテンツから電子的に作成、切り取り、またはその他の方法で抽出され得る）コンピュータが生成したコンテンツによって拡張してもよい。拡張現実装置は、ＡＲディスプレイを含んでも含んでいなくてもよく、現実世界のユーザの視界に重ねるように構成されたマルチメディアＡＲコンテンツを提示してもよい。これにより、拡張現実のユーザは、拡張現実装置が提供するコンテンツによって拡張または補完される、ユーザの周囲の現実世界環境を見ることができる。これは、現実世界のユーザの視界に重ねてもよく、および／またはユーザに聞こえる聴覚現実世界のシーンに聴覚的に重ねてもよい。コンテンツは、絵、写真、動画、図、文字情報、聴覚コンテンツ等のマルチメディアコンテンツを含んでもよい。これにより、拡張現実が、コンピュータが生成したグラフィックおよび／または音声コンテンツを追加することにより現実世界を直接見ることを可能にする一方、仮想現実のユーザは、実質的に現実世界を直接見ることなしに、仮想現実装置のＶＲディスプレイ上に提示されたコンテンツを見ることができるのみである。

仮想現実コンテンツは、既定視点位置ＶＲまたは自由視点位置ＶＲを備えてもよく、このＶＲコンテンツを提示するＶＲ装置は、既定視点位置ＶＲまたは自由視点位置ＶＲを提供してもよい。既定視点位置ＶＲでは、仮想現実空間におけるユーザの場所は、固定されているか、既定の経路をたどってもよい。これにより、ユーザは、仮想現実空間内でユーザの周囲に表示するために提供される仮想現実画像群に対して見る方向を自由に変えることができ得るが、ＶＲ空間を探索すべくこの空間内の視点位置を任意で変更することはできない場合がある。よってユーザは、固定された視点または視点位置（または複数のＶＲコンテンツキャプチャデバイスがシーン内のどこに置かれているかに基づく限定された数の場所）からこのＶＲコンテンツを体験し得る。既定視点位置ＶＲの一部の例では、画像群がユーザの周囲を通過するととらえられる。現実世界をキャプチャした既定視点位置ＶＲコンテンツでは、ユーザは、ＶＲコンテンツキャプチャデバイスの視点が提供され得る。既定視点位置ＶＲコンテンツでは、ユーザにｘ、ｙ、ｚ軸のいずれか１つを中心とした見る方向の回転を含むＶＲ空間における３自由度が提供され、３自由度（degrees of freedom）ＶＲ（３ＤｏＦＶＲ）として知られている。

本明細書に記載の例示的装置の実施形態は、ＶＲ装置またはＡＲ装置を備えてもよい。ＡＲまたはＶＲコンテンツは、既定視点位置型であっても、自由視点位置型であってもよい。多くの例では、特にコンテンツが実在形状にマッピングされている場合は、ＡＲは主に自由視点位置型であると考えられる。

１つ以上の例では、音声を空間オーディオとして提示すると、特にＶＲコンテンツ等のビジュアルコンテンツと共に使用した場合、空間オーディオの没入型の特性により豊かで圧倒的な体験を提供する。１つ以上の例では、ユーザにとって、キャプチャされた音声の空間オーディオ提示および視覚的画像群の提示からのシーン１０２を理解しにくい場合がある。１つ以上の例では、ユーザにとって、シーン内の最も関連あるコンテンツを即座に特定するのが難しく、例えば、シーンの探索を継続するか、またはコンテンツの提示を終了して別のシーンに切り替えるかの決定が難しい場合がある。装置１０１は、ユーザの体験を向上させるようにキャプチャされた空間オーディオコンテンツを提示してもよく、少なくとも一部の例では、シーンとそこに提供される各種音声およびビジュアルコンテンツの理解を助ける。よって、１つ以上の例では、空間オーディオコンテンツを効果的に提示するのは難しい場合があり得る。現実世界では、ユーザは周囲の状況をよりよく把握し、自らが置かれているシーンを理解することができる。しかし、実在の場所を模した、またはコンピュータが生成した場所を含み得る空間オーディオおよび視覚的画像群の提示では、理解が十分とならず、コンテンツが提示される方法は、コンテンツの消費者に提示されているもののコンテキストを確実に理解させるための技術的課題を伴う。さらなる例として、実在刺激および拡張刺激のある拡張現実の提示は混乱を来す場合があり、よって、拡張現実コンテンツの効果的な提示ができると有利である。

図１の例示的システム１００は、少なくともヘッドフォン１０５やその他の形態の音声提示機器（スピーカ等）を備えてもよい提示デバイスによって、キャプチャされた空間オーディオコンテンツを提示するための装置１０１を示す。装置１０１は、携帯電話、スマートフォン、スマートウォッチ、ノートブックコンピュータ、タブレットコンピュータ、ウェアラブルデバイス等の演算装置１０６の一部を備えてもよい。この例では、プロセッサ１０１Ａおよびメモリ１０１Ｂが演算装置１０６および装置１０１によって共用されているが、別の例では、これらはそれぞれ個別のプロセッサおよび／またはメモリを有してもよい。

装置１０１は、プロセッサ１０１Ａおよびメモリ１０１Ｂを備えるか、これらに接続されてもよく、コンピュータプログラムコードを実行可能に構成されてもよい。装置１０１は、プロセッサ１０１Ａおよびメモリ１０１Ｂをそれぞれ１つのみ有してもよいが、別の実施形態では、複数のプロセッサおよび／または複数のメモリが利用されてもよいことが理解されよう（例えば、プロセッサ／メモリの種類は同じでも異なっていてもよい）。さらに、装置１０１は特定用途向け集積回路（ＡＳＩＣ）であってもよい。

プロセッサは、メモリ内に、コンピュータプログラムコードとしてメモリに記憶された指示に応じて、およびオーディオフォーカス決定装置１０７、コンテンツ記憶部１０８等のその他の構成要素から受信した情報を実行／処理することに特化した汎用プロセッサであってもよい。プロセッサのそのような動作により生成された出力シグナリングは、提示デバイス１０５等のさらなる構成要素へと提供される。

メモリ１０１Ｂ（必ずしも単一のメモリ単位ではない）は、コンピュータプログラムコードを記憶するコンピュータ可読媒体（この例ではソリッドステートメモリだが、ハードドライブ、ＲＯＭ、ＲＡＭ、フラッシュメモリ等その他種類のメモリであってもよい）。コンピュータプログラムコードは、プロセッサ上で動作時に、プロセッサが実行可能な指示を記憶する。１つ以上の例示的実施形態において、メモリとプロセッサとの間の内部接続が、メモリとプロセッサとの間のアクティブ接続を実現することが理解されたい。これにより、プロセッサがメモリに記憶されたコンピュータプログラムコードにアクセスできる。

この例では、各プロセッサおよびメモリは、互いに電気的に内部接続される。これにより、各構成要素間の電気的通信が可能となる。この例では、構成要素は互いに近接しており、ＡＳＩＣを形成する。言い換えると、この構成により、電子デバイスに実装可能な単一のチップ／回路となるように一体化される。いくつかの例では、構成要素の内の１つ、複数、または全てが、互いから離して設けられてもよい。

装置１０１、または装置１０１の制御下にある演算装置１０６は、キャプチャされた空間オーディオコンテンツを提示してもよく、任意で、キャプチャされた視覚的画像群を提示してもよい。１つ以上の例では、装置１０１は、キャプチャされた空間オーディオコンテンツを提示し、キャプチャされた視覚的画像群は提示しないように構成されてもよい。視覚的画像群コンテンツは、装置１０６等の別の装置によって表示用に提供されてもよい。一方、他の実施形態では、装置１０１または装置１０１および１０６の組合せが、キャプチャされた視覚的画像群とキャプチャされた空間オーディオコンテンツとの両方を提示してもよい。１つ以上の例では、提示デバイス１０５はディスプレイおよびヘッドフォンを備え、別の例では、提示デバイスはＶＲヘッドセットを備える。

装置１０１は、記憶部１０８からキャプチャされた空間オーディオコンテンツを示すシグナリングを受信してもよく、このコンテンツは１つ以上のコンテンツキャプチャデバイス１０２によってキャプチャされていてもよい。前述のように、キャプチャデバイス１０２は、ＮｏｋｉａＯＺＯカメラ等のＶＲコンテンツキャプチャデバイスを備えてもよい。キャプチャデバイス１０２は、これが配置されているシーンの少なくとも空間オーディオコンテンツをキャプチャするように構成されてもよい。１つ以上の例では、コンテンツキャプチャデバイス１０２は、シーン１０４の視覚的画像群および空間オーディオコンテンツをキャプチャするように構成される。

装置１０１は、ライブの（例えば、キャプチャされているイベント時点で）、または事前に記録された（例えば、キャプチャされているイベント時点後に）空間オーディオコンテンツを提示するように構成されてもよい。このように、事前に記録されたコンテンツの場合、記憶部１０８は、装置１０１がアクセスする物理的記憶デバイスまたはリモートサーバを表してもよく、これにはキャプチャされた空間オーディオコンテンツのコピーを含む。ライブコンテンツの場合、記憶部１０８は、ユーザに提示される前のキャプチャされた空間オーディオコンテンツのバッファまたは一時的記憶部を表してもよい。さらに、コンテンツキャプチャデバイス１０２、記憶部１０８、および装置１０６、１０８を備えるシステム１００は、１つのデバイスを備えてもよく、これによって、シーンのキャプチャと提示が同じ装置によって実施されてもよい。別の例では、コンテンツキャプチャデバイス１０２は装置１０１、１０６とは切り離されていてもよく、キャプチャされた空間オーディオコンテンツおよび視覚的画像群を、１つ以上の別の装置１０１がアクセスできるように、記憶部１０８に伝達してもよい。システム１００は、コンテンツのキャプチャおよびコンテンツを提示するための装置１０１、１０６、１０５の両方を示しているが、これはシステム全体を理解するために示したのみであり、コンテンツのキャプチャおよび記憶は、このコンテンツの提示とは別に実施されてもよい。

例示的シーン１０４には、父親１１０と息子１１１とペットの犬１１２が含まれている。コンテンツキャプチャデバイス１０２は、キャプチャされた視覚的画像群の視野を表す点線１１３で示されているように、父親と息子１１０、１１１の視覚的画像群をキャプチャしている、あるいは既にキャプチャしており、一方、犬１１２は視野１１３外にいる。視野１１３は、キャプチャされたビジュアルコンテンツ内でキャプチャされ、見ることができるものの空間的広がりを表してもよいと理解されるが、別の例では、キャプチャされたものの空間的広がりは、任意の時点でユーザに提示されたものよりも大きくてもよい。シーン１０４は、父親の叫び１１４、犬の吠え声１１５、さらに別の音源１１６を含む複数の音源を含む。したがって、キャプチャされた音声は、キャプチャデバイス１０２によってキャプチャされた、シーン１０４内の方向１１７、１１８、１１９または場所を有する。このように、１つ以上の例では、複数の指向性マイクまたはマイクアレイを使用して、異なる方向からの音声を聞き分けてもよい。１つ以上の例では、テレビ製作の実施形態等において、音声は、各音源に対応付けられた位置追跡近接マイクから受信されてもよい。１つ以上の例では、アンビソニック音声キャプチャまたはその他の関連する複数マイク構成およびキャプチャ処理等の音声がキャプチャされる方法は、音源の空間的配置の再現を本質的に行っている。

１つ以上の例では、装置１０１は、例えば装置１０１または装置１０６によって提示されてもよいキャプチャされた視覚的画像群の提示を伴うように、キャプチャされた空間オーディオコンテンツを提示するように構成されてもよい。装置１０１は、以下の受信した情報に基づいて前記提示を行ってもよい。
（ｉ）キャプチャされた空間オーディオコンテンツ；
（ｉｉ）ビジュアルフォーカス情報、および、任意で,
（ｉｉｉ）オーディオフォーカス情報。

シーン１０４のキャプチャされた空間オーディオコンテンツは、前記音声がキャプチャされたシーン１０４内の少なくとも方向１１７、１１８、１１９を示す情報と対応付けられた、シーン１０４内の音源１１４、１１５、１１６からキャプチャされた音声を含んでもよい。１つ以上の例では、キャプチャされた音声は、コンテンツキャプチャデバイス１０２の場所に関連する等、シーン１０４内の場所を示す情報に対応付けられていてもよい。キャプチャされた空間オーディオコンテンツは、コンピュータ生成コンテンツを含んでもよい。

キャプチャされた視覚的画像群の提示は、フォーカスを伴っていてもよい。フォーカスは、１つ以上の例では、キャプチャされた視覚的画像群の現在の視野１１３を含んでもよく、よって、シーン１０４に対するフォーカスを含んでもよい。このようにして、フォーカスを有する視覚的画像群の一部は、ユーザに対して現在提示されている視覚的画像群を含んでもよい。１つ以上の例では、キャプチャされた視覚的画像群は、ユーザに提示されているものの空間的広がりよりも大きい空間的広がりを有してもよく、よってフォーカスは、現在提示されているキャプチャされたビジュアルコンテンツの空間的広がり全体の空間的小区分を含んでもよい。１つ以上の例では、フォーカスは、視覚的画像群の空間的広がりの全体、またはユーザに現在提示されているもの、もしくはユーザによって選択されたものの空間的広がり全体の空間的小区分を含んでもよい。この空間的小区分は、ユーザに提示された残りの視覚的画像群から見分けがつくように視覚効果が適用されていてもよい。要するに、フォーカスは、視覚的な違いをもって、ユーザに提示されているものの残りの部分よりも、シーンの視覚的画像群またはその一部にフォーカスを当てて見せることを含む。

装置１０１に提供されるビジュアルフォーカス情報は、装置１０１に、シーン１０４の少なくとも第１の部分１２０を、キャプチャされた視覚的画像群に表されたものとして通知してもよい。または、ユーザに提示されたものの空間的小区分を通知してもよい。よって第１の部分１２０は、キャプチャされたシーンのどこに、またはユーザに現在提示されている視界のどこに、ユーザへの提示用にフォーカスが当てられているのかを指定することを含んでもよい。キャプチャされた視覚的画像群の提示は、別の装置によって行われてもよく、ビジュアルフォーカス情報は、この別の装置によって報告されてもよいし、装置１０１による問合せへの応答として提供されてもよい。１つ以上の例では、装置１０１は、キャプチャされた視覚的画像群を提示し、よって装置１０１は、第１の部分を決定してもよい。

これにより、上述の情報に基づいて、装置１０１は、キャプチャされた視覚的画像群の提示を伴うようにキャプチャされた空間オーディオコンテンツを提示してもよく、このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示される。装置１０１は、１つ以上の例では、第１の部分１２０とはシーンの異なる部分からキャプチャされた空間オーディオコンテンツの一部のみに選択的に適用された空間オーディオフォーカスを有する空間オーディオコンテンツが提示される。この例では、空間オーディオフォーカスが、第１の部分１２０とは異なるキャプチャされたシーン１０４の第２の部分１２１からの音声に適用される。空間オーディオフォーカスは、キャプチャされたシーン１０４において互いに離れていてもよい第２の部分等の１つ以上の第２の部分１２１に適用されてもよいことが理解されよう。

第２の部分１２１は、さらにオーディオフォーカス情報に基づいて選択されてもよい。このオーディオフォーカス情報は、キャプチャされた空間オーディオコンテンツに表されたように、キャプチャされた空間オーディオコンテンツにフォーカスを当て得る、キャプチャされたシーン１０４の少なくとも１つの部分を示す情報を含む。オーディオフォーカス情報は、シーンの複数の候補部分を示してもよい。オーディオフォーカス情報は、音声が受信された（すなわち、方向１１７、１１８、１１９から）キャプチャされた空間オーディオコンテンツに表されたシーンの部分を単に特定してもよい。１つ以上の例では、オーディオフォーカス情報は、オーディオフォーカス決定装置１０７から受信されてもよい。オーディオフォーカス決定装置１０７は、音源１１０、１１２、１１６を特定すべく、キャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析を行ってもよく、その１つ以上を所定の基準に対して最も関連があると示唆してもよい。オーディオフォーカス決定装置１０７は、キャプチャされた視覚的画像群の視覚的分析に基づいてキャプチャされた空間オーディオコンテンツに焦点があてられるべきシーン１０４の一部（複数可）の決定を行ってもよい。このようにして、この例では、オーディオフォーカス決定装置１０７は、音声１１４は犬を呼ぶ父親であるが、その犬は視野内にいないと判断してもよい。これにより、キャプチャされた空間オーディオコンテンツにフォーカスが当てられるべきシーン１０４の少なくとも１つの部分が、方向１１８の犬１１２に対応する部分であると選択されてもよい。１つ以上の例では、オーディオフォーカス決定装置１０７は、装置１０１の一部を含んでもよく、これによって、装置１０１は、キャプチャされた空間オーディオコンテンツにフォーカスが当てられるべきシーン１０４の部分を決定してもよい。

オーディオフォーカス情報は、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの提示が意図されているユーザに特有のものであってもよい。このようにして、装置１０１には、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツが提示されるユーザを特定する情報が提供されてもよく、これによって、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツのユーザへの提示をカスタマイズしてもよい。別の例では、装置１０１には、少なくとも異なる視聴覚コンテンツの視聴履歴に関するパラメータが設けられていてもよく、これを現在の視聴覚コンテンツ用にフォーカスを当てるための空間オーディオコンテンツの一部を特定するために使用してもよい。

これにより、上述の情報に基づいて、装置１０１は、キャプチャされた視覚的画像群の提示を伴うようにキャプチャされた空間オーディオコンテンツを提示してもよく、このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示される。装置１０１は、１つ以上の例では、オーディオフォーカス情報に基づいてキャプチャされた空間オーディオコンテンツの一部のみに選択的に適用された空間オーディオフォーカスを有する空間オーディオコンテンツが提示される。この例では、空間オーディオフォーカスは、第１の部分１２０とは異なるキャプチャされたシーン１０４の第２の部分１２１からの音声に適用される。空間オーディオフォーカスは、キャプチャされたシーン１０４において互いに離れていてもよい第２の部分等の１つ以上の第２の部分１２１に適用されてもよいことが理解されよう。

１つ以上の例では、オーディオフォーカス情報は、キャプチャされたシーン１０４の１つ以上の部分を含んでもよく、第１の部分１２０を除外してもよい。１つ以上の別の例では、オーディオフォーカス情報は、キャプチャされたシーン１０４の複数の部分を示唆してもよく、装置１０１は、第１の部分１２０から場所または方向の異なるという基準に少なくとも基づいて、複数の部分の内の１つを選択してもよい。

この例では、空間オーディオフォーカスは、方向１１７、１１９から等の、キャプチャされたシーン１０４の他の場所からの音声に比べて第２の部分に対応する方向１１８を有する音声の可聴度を増加する音声変更効果を含む。この可聴度の増加は、（ｉ）方向１１８からの音声に対してより大きい相対的音量増加を提供すること、（ｉｉ）キャプチャされたシーン１０２の他の場所からの音声の音量を減衰させること、（ｉｉｉ）方向１１８からの空間オーディオの知覚される空間的幅を増やすこと、または（ｉ）、（ｉｉ）、および（ｉｉｉ）の２つ以上の組合せのいずれかによって実現されてもよい。このようにして、１つ以上の例では、音声変更効果は、第２の部分に対するオーディオフォーカスと共に、第１の部分からではない他の音声に対して、第２の部分からの音声の可聴度を増加する。

これにより、１つ以上の例では、ビジュアルフォーカスとは異なるオーディオフォーカスを当てることにより、キャプチャされた視覚的画像群および空間オーディオコンテンツを理解することを助けてもよい。この例では、第２の部分１２１は第１の部分１２０と重複していないが、別の例では重複していてもよい。１つ以上の例では、第２の部分１２１は、視野１１３の外側となるように選択される。別の例では、第１および第２の部分の両方が視野１１３内にあってもよい。例えば、キャプチャされた視覚的画像群の提示は、息子１１１にフォーカスが当てられていてもよい。一例として、視覚的画像群は被写界深度が小さい場合があり、したがって、コンテンツキャプチャデバイスにより近い息子１１１に光学的フォーカスが当てられ、一方、父親１１０には光学的フォーカスが当てられなくてもよい。これにより、ビジュアルフォーカス情報は、息子１１１が存在するキャプチャされたシーンの部分に対応するものとして第１の部分を示してもよい。オーディオフォーカス情報は、音声変更効果が適用されるべきキャプチャされたシーンの部分として音声１１４を指定してもよく、よって視覚的画像群は、息子１１１にフォーカスが当てられ、一方、空間オーディオコンテンツは、父親１１０からの音声１１４にフォーカスが当てられていてもよい。

前述のように、装置１０１は、オーディオフォーカス情報の決定を行ってもよい。所定の基準を基に、オーディオフォーカス情報は、キャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析およびキャプチャされた視覚的画像群のコンピュータが実施する視覚的分析の一方または両方に基づいてもよい。装置１０１は、ビジュアルフォーカスに対する第１の部分の選択がオーディオフォーカス情報に対する異なる部分の選択を起こさせるように構成されていてもよい。オーディオフォーカス情報は、ニューラルネットワーク処理またはその他の機械学習技術によって決定されてもよい。ニューラルネットワーク処理または機械学習技術は、例えば、ユーザ（または多数の異なるユーザ）に提示されたその他の空間オーディオコンテンツ上で訓練されてもよい。オーディオフォーカス情報は、例えば、ビジュアルフォーカス情報に関連する状況的重要性に基づいて選択されてもよい。このようにして、第２の部分１２１の選択は関連性があり、一部の例では、ユーザに特有のものであってもよい。

１つ以上の例では、オーディオフォーカス情報は、ユーザからの、キャプチャされたシーン１０４の少なくとも１つの部分に対するユーザの選択に基づいていてもよい。このようにして、キャプチャされた空間オーディオおよび視覚的画像群コンテンツを見ているユーザは、手動で第２の部分１２１を選択し、任意で第１の部分１２０を選択してもよい。

１つ以上の例では、オーディオフォーカス情報は、音声の好みを示すユーザ設定のプロファイル設定に基づいていてもよい。この例として、好みの音（音楽の種類または鳥の鳴き声）や特定の音源（視覚的画像群内に現れている家族や動物等）が挙げられる。

１つ以上の例では、オーディオフォーカス情報は、装置１０１が提示用にコンテンツを提供するユーザに対応付けられた履歴データに基づいていてもよい。この履歴データは、ユーザによる、これまで消費した別のコンテンツでの音源に対する１つ以上のユーザの選択を示していてもよい。これにより、キャプチャされた空間オーディオコンテンツに聴覚的に存在する特徴、またはキャプチャされたビジュアルコンテンツに視覚的に現れる特徴は、ユーザに事前に提示され、任意で、ユーザによって手動で選択された、キャプチャされた別の視聴覚コンテンツにも現れる特徴に基づく視覚的分析および／または聴覚的分析によって特定されてもよい。

１つ以上の例では、オーディオフォーカス情報は、ユーザに対応付けられた履歴場所データを含む、場所に特有のデータに基づいていてもよい。この履歴場所データは、キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされたビジュアルコンテンツに視覚的に現れ、さらに、シーンのある決定された場所に対応する場所にいるユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す。対応する場所としては、対応する地理的な場所または対応する地域、建物または部屋、例えば、公園（地理的に異なる場所を有する公園であってもよい）、図書館（地理的に異なる場所を有する図書館であってもよい）、またはリビングルームまたはキッチン（別の家の中であってもよい）が挙げられる。

１つ以上の例では、オーディオフォーカス情報は、時間に特有のデータに基づいていてもよい。この時間に特有のデータは、キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む。このようにして、一例として、去年のクリスマスにキャプチャされたビデオ内にある空間オーディオコンテンツは、今年のクリスマスにキャプチャされたコンテンツ内で特定され、音声変更効果の適用のために特定されてもよい。

要するに、オーディオフォーカス情報は、空間オーディオおよび視覚的画像群の提示が意図されたユーザを特定する情報に基づいてもよく、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツを消費する際にユーザに対して特注の体験を提供するために、ユーザに関する既知の情報に基づいてカスタマイズされる。

１つ以上の例では、装置は、キャプチャされた空間オーディオコンテンツの提示において、キャプチャされた空間オーディオコンテンツを、キャプチャされた時間および場所の一方または両方に基づいて、当該キャプチャされた空間オーディオコンテンツに関連する別のキャプチャされた空間オーディオコンテンツと混成するように構成される手段を有する。空間オーディオフォーカスは、混成された別のキャプチャされた空間オーディオコンテンツの第２の部分に適用される。このようにして、装置１０１が受信したキャプチャされた空間オーディオコンテンツは、シーンからのコンテンツを含んでもよいが、ユーザの好み、時間、または場所の１つによってシーンに対応すると判定された別のシーンからのコンテンツも含んでもよい。

キャプチャされた空間オーディオコンテンツおよび対応する視覚的画像群は、ライブで提示されてもよいし、記録されて後に提示されてもよい。

１つ以上の例では、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは、ライブで提示され、装置１０１による空間オーディオフォーカスの適用によって、コンテンツキャプチャデバイス１０２へのシグナリングのフィードバックを送信する。このようにして、視覚的画像群および空間オーディオコンテンツの消費者は、デバイス１０２によってコンテンツが如何にキャプチャされるかを制御してもよい。フィードバックシグナリングは、コンテンツキャプチャデバイス１０２による音声変更効果の適用を行うように構成されてもよい。このようにして、装置１０１は、コンテンツキャプチャデバイス１０２における空間オーディオゲインの適用の制御を行ってもよいし、マイクが向けられている方向を制御してもよい。これにより、ユーザが所望したものとして、コンテンツキャプチャデバイス１０２によって、キャプチャされた空間オーディオコンテンツが処理またはキャプチャされると、コンテンツキャプチャデバイス１０２によって記憶部１０８に送信されるデータの削減が行われてもよい。このようにして、適切なゲイン設定による空間オーディオコンテンツのキャプチャによって、音声変更効果の適用が行われる。フィードバック制御チャネル１２２は、前記制御を行ってもよい。この通信チャネル１２２は、直接またはネットワークを介して提供されてもよい。

別の例では、ライブまたは事前記録された提示のいずれであっても、キャプチャされた視覚的画像群は、ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされてもよい。視覚的画像群の提示における光学的フォーカスは、キャプチャされた視覚的画像群がキャプチャされた、またはレンダリングされた、視点に対する視覚的画像群に現れる物体の深さを有する視覚的画像群の鮮鋭度を含むことが理解されよう。

コンテンツキャプチャデバイスは、再フォーカス可能な画像フォーマットの当業者には既知のように、光照射野カメラを備えてもよい。別の例では、キャプチャされた視覚的画像群は、キャプチャされた視覚的画像群内の視覚的画像群に現れる物体の深さが既知であり、視覚的画像群の被写界深度の鮮鋭度および深さという点で、シミュレーションされた光学的フォーカスが、キャプチャされた視覚的画像群に対する画像処理によって適用されるように、シーン深さ情報に対応付けられていてもよい。さらなる実施形態では、再フォーカス可能画像フォーマットは、異なるフォーカス距離および／または被写界深度で複数の個別の画像キャプチャに基づくことができる。このような方法は、動画キャプチャよりも静止画像キャプチャに特に適している場合がある。

簡単に前述したように、装置１０１は、記憶部１０８からのシーン１０４のキャプチャされた視覚的画像群に基づいて、ユーザに対する提示用にフォーカスが当てられたビジュアルフォーカス情報に定義された、キャプチャされたシーン１０４の第１の部分１２０を有するキャプチャされた視覚的画像群の提示を行うように構成されてもよい。キャプチャされたシーン１０４の第１の部分１２０は、提示用に提供された視野１１３内にあるキャプチャされたシーン１０４の空間的小区分を含む第１の部分１２０について、ユーザへの提示用にフォーカスが当てられたととらえられる。１つ以上の例では、第１の部分１２０は、光学的フォーカスが小さい表示用に提供された視野１１３における視覚的画像群の残りの部分に比べて光学的フォーカスが当てられた、提示用に提供された視野１１３の空間的小区分を含む。これにより、装置１０１は、再フォーカス可能画像フォーマットを使用して視覚的画像群の光学的フォーカスの制御を行ってもよく、または同様の知覚された視覚的効果を提供するための光学的フォーカス効果の適用を行ってもよい。

キャプチャされた視覚的画像群は、複数の異なる形態であってもよい。例えば、シーン１０４のキャプチャされた視覚的画像群は、
ａ）当該シーンの静止画像と、
ｂ）当該シーンのビデオ画像群と、
ｃ）任意の時点でユーザに提示可能な空間的広がり１１３よりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の１つを含む。

キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツの提示の間、装置１０１は、どの音声に対してオーディオフォーカスが適用されるかの変更または更新を行ってもよい。この変更または更新は、ビジュアルフォーカス情報における変化、またはキャプチャされた空間オーディオコンテンツ自体における変化に応じたものであってもよい。例えば、事前にフォーカスが当てられた音源は、ビデオ画像群の場合はシーン１０４を離れており、キャプチャされた空間オーディオコンテンツ内に既に存在しなくなってもいる場合がある。一方、音源は、時間を経て非動作となってもよい。事前に記録されたコンテンツの場合、動作状態から非動作状態への音源の推移が永続的な変更であるか否かがさらに既知であり得る。ライブキャプチャの場合、例えば、現在の発言が終わった話者（またはその他の音源）がその後は黙ったままでいると、非動作となっているのか否かが一般的には分からない。このような理由により、オーディオフォーカス対象の更新には、時間遅延またはヒステリシスを含んでもよい。

１つ以上の例では、装置１０１は、（ｉ）ユーザへの提示用に提供されたキャプチャされた視覚的画像群にフォーカスを当てるべき、第１の部分１２０とは異なる、キャプチャされたシーン１０４の少なくとも第３の部分を定義するための、ビジュアルフォーカス情報における変更に基づき、さらに（ｉｉ）キャプチャされた視覚的画像群の提示を伴うために、キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、第２の部分１２１とは異なる、シーンの第４の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成されてもよい。

上述の一例として、息子１１１が急に何かに反応する場合があり得る。この例では、第３の部分が息子１１１を示す視覚的画像群の部分を含む。ユーザへの提示用に提供された視覚的画像群は、息子１１１に光学的フォーカスを当て、一方、父親１１０を光学的フォーカスから少し外すように修正してもよい。ビジュアルフォーカス情報における変更は、１つ以上の例では、キャプチャされた空間オーディオコンテンツの聴覚的分析を行うために装置１０１を始動させ、これによって、息子１１１が反応した可能性のある音源１１６からの大きな音の発生を特定してもよい。したがって、オーディオフォーカスは、さらなる音源１１６を含むキャプチャされたシーン１０４の部分を含み得る第４の部分に適用するように変更されてもよい。１つ以上の例では、さらなる音源１１６を含むシーンの部分は、第２の部分１２１内の犬１１２に適用されている既存のオーディオフォーカスを置き換えるのではなく、これに追加されてもよい。これにより、音声変更効果は、犬１１２からの音声を含む第２の部分１２１および音源１１６からの音声を含む第４の部分の両方に適用されてもよい。

装置１０１がキャプチャされた空間オーディオコンテンツの変化に如何に反応するように構成され得るかの一例として、装置１０１は、（ｉ）シーン内の音源１１４、１１５、１１６の変化およびシーン１０４内の音源１１４、１１５、１１６の位置の変化の一方または両方を示すキャプチャされた空間オーディオコンテンツのコンピュータが実施する聴覚的分析に基づき、さらに（ｉｉ）キャプチャされた視覚的画像群の提示を伴うために、キャプチャされた空間オーディオコンテンツの進行中の提示に基づき、第１の部分１２０および第２の部分１２１とは異なる、シーンの第４の部分からキャプチャされた音声に対して選択的に適用された空間オーディオフォーカスにおける変更を行ってもよい。前述の例のように、第４の部分は、音源１１６を含む部分を備えてもよい。聴覚的分析は、１つ以上の例では、装置１０１によって実施されてもよい。聴覚的分析は、音声を含むシーンの部分を特定するために、キャプチャされた空間オーディオに基づいて、シーン１０４からキャプチャされた音声の異なる部分から、音声コンテンツの有無をモニタリングすることを含んでもよい。聴覚的分析は、オーディオフォーカスが適用された部分の位置を更新するために、キャプチャされたシーン１０４の音声を通して、音声の動きを追跡することを含んでもよい。聴覚的分析は、キャプチャされた視覚的画像群内に存在すると特定された物体に対して等、音声を発した物体または音声を生じた出来事（関連性に応じて分類または順位付けされてもよい）の音声認識を含んでもよい。

装置１０１による聴覚的分析は、ライブでキャプチャされた空間オーディオコンテンツまたは事前に記録されたキャプチャされた空間オーディオコンテンツに適用されてもよい。ライブコンテンツの場合、現在のコンテンツおよび／または過去のコンテンツのみが聴覚的分析と対象となり得る。一方、事前に記録されたコンテンツの場合、聴覚的分析は、ユーザへの提示用に提供されてもよい、現在の再生時点より前のキャプチャされた空間オーディオコンテンツに適用されてもよい。

このようにして、キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツがライブ提示用に提供されている１つ以上の例では、装置１０１は、キャプチャされた空間オーディオコンテンツが設けられた方向情報に対して、キャプチャされたシーン１０４の１つ以上の候補となる第２の部分を決定するように構成される手段を備えてもよい。１つ以上の候補となる第２の部分の決定は、キャプチャされた時点のキャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいてもよく、装置１０１は、前記空間オーディオフォーカスの適用のために前記候補となる第２の部分の１つ以上を選択するように構成される。

このようにして、キャプチャされたビジュアルコンテンツおよびキャプチャされた空間オーディオコンテンツが事前に記録されたコンテンツである１つ以上の例では、装置１０１は、キャプチャされた空間オーディオコンテンツが設けられた方向情報に対して、キャプチャされたシーン１０４の１つ以上の候補となる第２の部分を決定するように構成される手段を備えてもよい。１つ以上の候補となる第２の部分の決定は、少なくとも部分的に、提示用のキャプチャされた空間オーディオコンテンツの提供に先行する、キャプチャされた空間オーディオコンテンツのコンピュータにより実施された分析に基づいていてもよく、装置１０１は、前記空間オーディオフォーカスの適用のために前記候補となる第２の部分の１つ以上を選択するように構成される。

上述の例では、ビジュアルフォーカスがユーザに対して提示用に提供されるキャプチャされた視覚的画像群に対するキャプチャされたシーンの部分の変更は、また、オーディオフォーカスが適用されたキャプチャされた空間オーディオコンテンツに対するキャプチャされたシーンオーディオの部分の変更は、フォーカスにおける突然の変更を避けるよう徐々に提供されてもよい。このようにして、変更は所定の経過時間にわたって提供されてもよく、この間に、少なくとも１つの第２の部分の増加された可聴度は減少し、新たな第２の部分の可聴度は増加する。

オーディオフォーカスの適用は、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツを含む視聴覚コンテンツの複数の事例を閲覧する際にさらに有益な適用となり得る。

このようにして、１つ以上の例では、空間オーディオフォーカスが設けられたキャプチャされた空間オーディオの音声が、ユーザが選択可能なリンクと共にさらに提示される。ビジュアルグラフィック、音声、またはその他のフィードバックが、フォーカスが設けられた音声はユーザが選択可能なリンクであると示すように提供されていてもよい。装置１０１は、リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた別の視覚的画像群とを含む別の視聴覚コンテンツの提示を行うように構成される手段を有する。キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、（ｉ）空間オーディオフォーカスが設けられた音声と比較したコンピュータが実施する聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、（ｉｉ）空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の１つ以上を有してもよい。

このようにして、装置１０１は、フォーカスにおける音声の分析と、ユーザによるフォーカスにおける音声のユーザ選択とに基づいて、別の視聴覚コンテンツへのリンクを提供するように構成されてもよい。ユーザの選択は、フォーカスにおける音声の方向１１８での所定のジェスチャ、またはその他の何らかのユーザ入力を含んでもよい。

別の視聴覚コンテンツが類似のキャプチャされた空間オーディオコンテンツを有する場合、両方の視聴覚コンテンツに共通の、または類似の音声は、別の視聴覚コンテンツがユーザに対して提示用に提供された際に、オーディオフォーカスが設けられてもよい。別の視聴覚コンテンツが当該フォーカスを有する音源の特定に関連する類似の視覚的画像群を有する場合、別の視聴覚コンテンツにおける、当該音源を示す視覚的画像群の部分は、提示用にビジュアルフォーカスが設けられてもよい。

例示的な図２は、装置１０１の機能的ブロックの例示的配置を示すブロック図である。

キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは、ブロック２０１で装置に提供されてもよい。キャプチャされた視覚的画像群は、ブロック２０２で装置１０１によってレンダリングのために提供されてもよく、別の装置にレンダリングのために提供されてもよい。キャプチャされた空間オーディオコンテンツは、オーディオフォーカス情報の生成に供するため、１つ以上の第２の部分の特定のために状況による空間聴覚的分析ブロック２０３に渡されてもよい。ブロック２０３は、コンピュータが実施する視覚的および／または聴覚的分析を実施して、キャプチャされたシーン１０４における異なる方向からの音声を特定し、したがって１つ以上の所定の基準に基づいて、ユーザに状況的に関連するシーンの異なる部分からの音声を特定する。ブロック２０４は、視覚的画像群の提示にフォーカスが当てられた第１の部分を決定するための、少なくとも視覚的画像群に対するコンピュータが実施する画像分析の性能を表す状況による画像分析ブロックを含む。これにより、ブロック２０４は、ブロック２０３と同様に、画像群強化効果および音声変更効果を含むフォーカスを伴う提示用のキャプチャされたコンテンツの、状況的に関連する部分を特定するように構成される。ブロック２０５は、第１の部分の選択を示し、したがって、ビジュアルフォーカス情報の生成を示す。状況による空間聴覚的分析ブロック２０３は、特定される第２の部分１２１が第１の部分１２０とは異なるようにビジュアルフォーカス情報を受信してもよい。状況による空間聴覚的分析ブロック２０３は、場所、時間、上述のユーザに特有の基準の内の１つ以上に基づいて、キャプチャされた空間オーディオのコンピュータが実施する分析（ユーザ入力の有無は問わない）を実施してもよく、ブロック２０６に対してオーディオフォーカス情報を提供してもよい。ブロック２０６は、ブロック２０３からのオーディオフォーカス情報に基づいて、１つ以上の第２の部分１２１の選択を示す。ブロック２０７は、決定された第１および第２の部分１２０、１２１に適用された関連するビジュアルフォーカス効果および音声変更効果を有する、キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツのレンダリング用に提供された、視覚的画像群フォーカスの選択された第１の部分および選択された空間オーディオコンテンツフォーカスを示す。ブロック２０８は、所望のビジュアルフォーカスに対する可能なユーザの選択を示す。このユーザの選択による第１の部分１２０の変更は、ブロック２０７に提供されて新たなフォーカスを有する視覚的画像群のレンダリングに供され、さらにブロック２０３に提供されて第１の部分１２０における変更に基づいて別の第２の部分１２１の可能な決定および選択（ブロック２０３および２０６）がなされる。

例示的な図３は、ステップ３０１での提示用の視聴覚コンテンツの提供および視覚的画像群フォーカスまたは空間オーディオフォーカスの適用の変更の決定を示すフローチャートである。ステップ３０２は、提示用に提供されたキャプチャされた視覚的画像群における任意の変更の決定を示す。変更がなされていない場合、または変更が閾値を下回る場合、処理は３０３に戻る。視覚的画像群変更がなされている場合、処理はステップ３０４に進み、ユーザに対する視覚的画像群の提示におけるフォーカスが提供される第１の部分１２０を決定するための状況による画像分析が実施される。ステップ３０５は視覚的画像群フォーカスの選択を示し、ステップ３０６はビジュアルフォーカスを有する視聴覚コンテンツのレンダリングを示す。

ステップ３０７は、音声コンテンツにおける任意の変更を特定するための、キャプチャされた空間オーディオコンテンツに対する聴覚的分析を実施するように構成された装置１０１を示す。ステップ３０８は、所定の「重要な変更」閾値を超えるキャプチャされた空間オーディオコンテンツにおける任意の変更の決定を示す。この閾値は一定であってもよく、少なくとも部分的にコンテンツに基づいて構成されてもよい。変更がなされていない場合、または変更が閾値を下回る場合、処理は３０９に戻る。キャプチャされた空間オーディオにおける変更がなされている場合、処理はステップ３１０に進み、ユーザに対するキャプチャされた空間オーディオコンテンツの提示におけるフォーカスが提供される１つ以上の第２の部分１２１を決定するための状況による空間聴覚的分析が実施される。ステップ３１１は空間オーディオフォーカスの選択を示し、ステップ３０６は選択された空間オーディオフォーカスを有する視聴覚コンテンツのレンダリングを示す。矢印３１２および３１３で示すとおり、視覚的画像群フォーカスにおける変更によってステップ３１０が開始され、ユーザに対するキャプチャされた空間オーディオコンテンツの提示におけるフォーカスが提供される１つ以上の第２の部分１２１を決定するための状況による空間聴覚的分析が実施される。

図４および図５は、別のユーザにコンテンツを送信する第１のユーザによるキャプチャされた空間オーディオコンテンツおよび対応するキャプチャされた視覚的画像群のキャプチャの２つの例を示す。ここで、ビジュアルフォーカスおよび／または空間オーディオフォーカスは、コンテンツが提供されているユーザに基づいて決定される。

図４を参照し、ステップ４０１は、第１のユーザによってキャプチャされている空間オーディオコンテンツおよび対応する視覚的画像群を示す。ステップ３０２は、第１のユーザに対するコンテンツの提示に使用される視覚的画像群フォーカスを決定する、第１のユーザの装置を示す。ステップ３０４は、第１のユーザに対するコンテンツの提示に使用される、第１のユーザのためのオーディオフォーカスを決定する、第１のユーザの装置を示す。ステップ３０５は、キャプチャされたコンテンツの送信先である、第２のユーザの装置を選択する第１のユーザを示す。前述のように、視覚的および／またはオーディオフォーカスは、コンテンツを見ているユーザに特有のものであってもよい。

第１のユーザ装置は、３０６における状況による情報問合せを送信するように示され、これにはコンテンツ内にある物体／音源に関するコンテンツまたは情報を含んでもよい。ステップ３０７では、第２のユーザ装置は、第２のユーザに対する提示用にビジュアルフォーカスおよび空間オーディオフォーカスがどこに当てられるべきかの選択を行う。ステップ３０８は、第１のユーザ装置および第２のユーザ装置の一方または両方によって、コンテンツに適用されている選択されたビジュアルフォーカスおよび空間オーディオフォーカスに関する情報を示す。ステップ３０９は、第２のユーザの選択されたビジュアルフォーカスおよび選択された空間オーディオフォーカスを有する、第２のユーザ装置に対してキャプチャされた空間オーディオコンテンツおよび対応するキャプチャされた視覚的画像群を送信した、第１のユーザ装置を示す。これにより、第２のユーザは、自らの要件に合わせたビジュアルフォーカスおよびオーディオフォーカスを有するコンテンツを受信する。

図５は、別の実施形態を示す。ステップ３０１～３０７は実質的に同一であるため、同一の参照符号が使用される。ただし、ステップ３０７の後、本例の方法はステップ４０８に進み、第２のユーザ装置によるビジュアルフォーカスおよび空間オーディオフォーカス選択（複数可）に関する情報が第１のユーザ装置に伝達される。ステップ４０９は、ステップ３０６で送信された、選択されたビジュアルフォーカスおよび選択された空間オーディオフォーカスを有するコンテンツをレンダリングするため、第２のユーザ装置に指示を出す「受信者によるメディアフォーカス情報」を有するコンテンツを送信する、第１のユーザ装置を示す。ステップ４１０は、指示されたビジュアルフォーカスおよび空間オーディオフォーカスを有するコンテンツをレンダリングする、第２のユーザ装置を示す。

図６は、図４および図５に示す概念の実用例を示す。図６は、スマートフォン６０１を備える第１のユーザ装置によってキャプチャされたシーン６００を示す。第１のユーザ装置は、次に、６０２および６０３において、提示用にキャプチャされたコンテンツを２人の異なる受信者に送信する。ビジュアルフォーカスおよび空間オーディオフォーカスが、１つ以上の例では、コンテンツが提示されるユーザに特有のものであるため、コンテンツは受信者の装置のそれぞれに異なる形で表示されてもよい。これにより、装置６０１は、図４および図５に示す処理をそれぞれ実施してもよい。一例として、コンテンツは、コンテンツ内に現れる第１の人物からの音声に対する、円６０４で示すオーディオフォーカスを有する第１の受信者に提示される。一方、第２の受信者に提示されるコンテンツは、コンテンツ内に現れる第２の人物からの音声に対してフォーカスが当てられた、円６０５で示すオーディオフォーカスを有する。

これにより、１つ以上の例では、装置は、状況選択情報に基づいて第２ユーザ装置に対してキャプチャされた空間オーディオおよび対応する視覚的画像群の送信を行うように構成されてもよく、コンテンツ内のどこにビジュアルフォーカスおよび／または空間オーディオフォーカスが当てられるべきかを含み、当該装置から第２ユーザ装置に送信されたキャプチャされたコンテンツに関する情報に少なくとも応じて、第２ユーザ装置から状況選択情報が受信される。このようにして、シーンのキャプチャされたコンテンツは、第２のユーザに関連するビジュアルフォーカスおよび／または空間オーディオフォーカスを有する第２ユーザ装置によって、第２のユーザに提示されてもよい。

図７は、以下ステップを示すフローチャートである。すなわち、（７００）
（ｉ）音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づき、当該音声はこれがキャプチャされた前記シーンの方向を少なくとも示す情報と対応付けられ、さらに
（ｉｉ）前記シーンの対応するキャプチャされた視覚的画像群に、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づき、
（７０１）キャプチャされた視覚的画像群の提示を伴うように、前記キャプチャされた空間オーディオコンテンツの提示を行う。このキャプチャされた空間オーディオコンテンツは、前記ユーザに対して、当該キャプチャされた空間オーディオコンテンツに示された方向から発せられる音声の知覚を提供するように構成された空間オーディオとして提示され、前記空間オーディオコンテンツは、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有して提示用に提供され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む。

図８は、一例によるプログラムを提供するコンピュータ／プロセッサ可読媒体８００を概略的に示す。この例では、コンピュータ／プロセッサ可読媒体は、デジタル多用途ディスク（Digital Versatile Disc：ＤＶＤ）またはコンパクトディスク（Compact Disc：ＣＤ）等のディスクである。一部の例では、コンピュータ可読媒体は、発明の機能を実行するような形でプログラムされた任意の媒体であってもよい。コンピュータプログラムコードは、同じタイプの複数のメモリ間、またはＲＯＭ、ＲＡＭ、フラッシュ、ハードディスク、ソリッドステート等異なるタイプの複数のメモリ間に分散されてもよい。

ユーザ入力は、タップ、スワイプ、スライド、押下、保持、回転ジェスチャ、デバイスのユーザインタフェース近くでの静止ホバージェスチャ、デバイス近くでの移動ホバージェスチャ、デバイスの少なくとも一部を曲げること、デバイスの少なくとも一部を握りしめること、多指ジェスチャ、デバイスを傾けること、または制御デバイスを裏返すことの内の１つ以上を含むジェスチャであってもよい。さらにジェスチャは、ユーザの腕等のユーザの身体、またはスタイラスもしくは自由空間ユーザジェスチャを実行するの適した他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。

上記の例で示された装置は、携帯可能な電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、携帯情報端末、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペンベースのコンピュータ、携帯可能でない電子デバイス、デスクトップコンピュータ、モニタ、スマートＴＶ、サーバ、ウェアラブル装置、仮想現実装置、またはそれらの内の１つ以上のモジュール／回路構成としてもよい。

言及された任意の装置、および／または言及された所定の装置の他の特徴は、有効化、例えばスイッチをオンにされたとき等にのみ所望の動作を実行するよう構成されたものとなるように準備された装置により提供されてもよい。そのような事例では、非有効化時（例えばスイッチオフ状態）には必ずしもアクティブメモリに適切なソフトウェアをロードしていなくてもよく、有効化時（例えばオン状態）にのみ適切なソフトウェアをロードしてもよい。装置は、ハードウェア回路構成および／またはファームウェアを備えてもよい。装置は、メモリ上にロードされたソフトウェアを備えてもよい。そのようなソフトウェア／コンピュータプログラムは、同じメモリ／プロセッサ／機能ユニット上および／または１つ以上のメモリ／プロセッサ／機能ユニット上に記録されてもよい。

一部の例において、言及された所定の装置は、所望の動作を実行するよう適切なソフトウェアを用いて事前にプログラムされてもよく、この適切なソフトウェアは、例えばそのソフトウェアおよびそれに関連する機能性をロック解除／有効化するため、「キー」をダウンロードするユーザが使用できるようにされてもよい。そのような例に関連する利点としては、デバイスにさらなる機能性が必要なときにデータをダウンロードする必要性が軽減されることを挙げることができ、これは、ユーザが有効化しないかもしれない機能性のためにそのような事前プログラムされたソフトウェアを記憶するのに十分な容量をデバイスが有することが分かっている例において有用な可能性がある。

言及された任意の装置／回路構成／要素／プロセッサは、言及された機能に加えて他の機能も有してもよく、これらの機能は、同じ装置／回路構成／要素／プロセッサにより実行されてもよい。開示された１つ以上の態様は、関連するコンピュータプログラムおよび適切な保持体（例えばメモリ、信号）に記録されたコンピュータプログラム（ソース／トランスポートエンコードされてもよい）の電子的な配布を含んでもよい。

記載された任意の「コンピュータ」は、同じ回路基板に、または回路基板の同じ領域／位置に、または同じデバイスに位置してもしなくてもよい、１つ以上の個々のプロセッサ／処理要素の集合を備えることができる。一部の例では、言及された任意のプロセッサの１つ以上が複数のデバイスにわたって分散されてもよい。同じまたは異なるプロセッサ／処理要素が、本願明細書に記載された１つ以上の機能を実行してもよい。

「シグナリング」という用語は、送信および／または受信される一連の電気／光信号として送信される１つ以上の信号を指してもよい。一連の信号は、前記シグナリングを構成する、１、２、３、４またはそれ以上の個別の信号成分または別個の信号を備えてもよい。これらの個別の信号の一部または全部は、無線または有線通信により同時に、順次に、および／または互いに時間的に重なるように送信／受信されてもよい。

言及された任意のコンピュータならびに／またはプロセッサおよびメモリ（例えばＲＯＭ、ＣＤ－ＲＯＭ等を含む）の任意の説明に関して、これらは、コンピュータプロセッサ、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field-Programmable Gate Array：ＦＰＧＡ）、および／または本発明の機能を実行するような形にプログラムされた他のハードウェアの構成要素を備えてもよい。

出願人は、ここに、本願明細書に記載された個々の特徴それぞれを単独で開示し、さらにかかる特徴２つ以上の任意の組合せを開示する。この開示は、かかる特徴または特徴の組合せが本願明細書に開示された任意の問題を解決するかどうかにはかかわらず、当業者の一般知識を踏まえて、かかる特徴または組合せが本明細書に基づき全体として実行可能となる程度まで行われており、クレームの範囲を限定しない。出願人は、開示された態様／例がそのような任意の個々の特徴からなっても、または特徴の組合せからなってもよいことを指摘する。当業者には当然のことながら、上記の説明に鑑みて、本開示の範囲内で様々な変更が加えられ得る。

基本となる新規な特徴が、その例に適用されて示され、記載され、指摘されたが、当然のことながら、記載されたデバイスおよび方法の形態および詳細について様々な省略および置換および変更が、本開示の範囲から逸脱することなく、当業者によって行われることが可能である。例えば、同じ結果を達成するために実質的に同じ機能を実質的に同じ形で実行する当該要素および／または方法ステップの全ての組合せが、本開示の範囲内であることが明示的に意図される。さらに、当然のことながら、開示された任意の形態または例に関連して示されかつ／または記載された構造および／または要素および／または方法ステップは、一般的な設計上の選択事項として、他の任意の開示または記載または示唆された形態または例に組み込まれてもよい。さらに、特許請求の範囲では、ミーンズ・プラス・ファンクション節は、列挙された機能を実行するものとして本願明細書に記載された構造、さらに構造上の等価物のみならず、等価な構造も対象とすることを意図される。要するに、釘とねじとは、木製部品を留めるという状況において、釘が円柱状の表面を用いて木製部品同士を固定するのに対し、ねじはらせん状の表面を用いるという点で構造上の等価物ではないかもしれないが、釘とねじとは等価な構造体ではあり得る。

Claims

空間オーディオコンテンツの提示を行うように構成される手段を備えた装置であって、
前記空間オーディオコンテンツの提示は、音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づいて行われ、前記音声は、前記シーンにおいて、前記音声がキャプチャされた方向を少なくとも示す情報と対応付けられ、
前記空間オーディオコンテンツの提示は、前記シーンの対応するキャプチャされた視覚的画像群の提示を伴うように行われ、前記視覚的画像群の提示は、前記装置のユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づいて行われ、
前記手段は、前記空間オーディオコンテンツを、前記ユーザに対して、前記音声が、前記キャプチャされた空間オーディオコンテンツに示された前記方向から発せられたとの知覚を提供するように構成された空間オーディオを提示するように構成され、
前記手段は、前記空間オーディオコンテンツを、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有するように提示するように構成され、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む、
装置。
前記空間オーディオフォーカスを、前記キャプチャされた視覚的画像群および前記キャプチャされた空間オーディオコンテンツが提示されることが意図される前記ユーザに特有のオーディオフォーカス情報に基づいて実行するように構成される、請求項１に記載の装置。
ａ）前記ユーザからの、前記シーンの少なくとも１つの部分に対するユーザの選択と、
ｂ１）前記ユーザが好む音声または音源の１つ以上を示すユーザ設定のプロファイル設定と、
ｂ２）前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、またはキャプチャされた視覚的画像群に視覚的に現れ、さらに、前記ユーザに事前に提示され、前記ユーザによって選択されたキャプチャされた別の視聴覚コンテンツにある共通の特徴に対する、前記ユーザによる１つ以上のユーザの選択を示す履歴データと、
ｃ）前記ユーザに対応付けられ、前記キャプチャされた空間オーディオコンテンツに聴覚的に存在し、または前記キャプチャされた視覚的画像群に視覚的に現れ、さらに、前記シーンのある決定された場所に対応する場所にいる前記ユーザに事前に提示されたキャプチャされた別の視聴覚コンテンツにある共通の特徴を示す履歴場所データと、
ｄ）前記キャプチャされた空間オーディオコンテンツと、最近の時間または対応する時刻または時期を含む関連する時間にキャプチャされた、別の視聴覚コンテンツに共通の音声を示す履歴データを含む時間に特有のデータと、
の内の少なくとも１つに基づいて前記オーディオフォーカス情報を決定するように構成される手段を備える、請求項２に記載の装置。
前記シーンの前記第１の部分は、
ａ）現在提示されている前記キャプチャされた視覚的画像群の空間的広がり全体と、
ｂ）現在提示されている前記キャプチャされた視覚的画像群の空間的広がり全体の小区分と、
ｃ）現在提示されており、前記ユーザによって選択された、前記キャプチャされた視覚的画像群の一部と、
の内の少なくとも１つを含む、請求項１から３のいずれかに記載の装置。
前記キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは、ライブで提示され、選択的に適用された前記空間オーディオフォーカスを有する提示用の前記キャプチャされた空間オーディオコンテンツの提示は、前記キャプチャされた空間オーディオコンテンツをキャプチャするコンテンツキャプチャデバイスに対するフィードバックシグナリングの送信を行い、前記フィードバックシグナリングは、前記コンテンツキャプチャデバイスによる前記音声変更効果の適用を行うように構成される、請求項１から４のいずれかに記載の装置。
前記キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツは事前に記録されたキャプチャされたコンテンツであり、前記キャプチャされた視覚的画像群は、前記ビジュアルフォーカス情報に応じて、視覚的画像群の被写界深度の位置および深さの一方または両方に関して、光学的フォーカスを変更できるような光学的に再フォーカス可能なフォーマットでキャプチャされる、請求項１から４のいずれかに記載の装置。
前記シーンの前記キャプチャされた視覚的画像群に基づいて、前記ユーザに対する提示用にフォーカスが当てられた前記ビジュアルフォーカス情報に定義された前記シーンの前記第１の部分を有する前記キャプチャされた視覚的画像群の提示を行うように構成される、請求項１から６のいずれかに記載の装置。
前記シーンの前記キャプチャされた視覚的画像群は、
ａ）当該シーンの静止画像と、
ｂ）当該シーンのビデオ画像群と、
ｃ）任意の時点で前記ユーザに提示可能な空間的広がりよりも大きな空間的広がりを有する、当該シーンの仮想現実画像群と、
の１つを含む、請求項１から７のいずれかに記載の装置。
（ｉ）ユーザへの提示用に提供された前記キャプチャされた視覚的画像群にフォーカスが当てられるべき、前記シーンの少なくとも第３の部分を定義するための、前記ビジュアルフォーカス情報における変更と、
（ｉｉ）前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示と、
に基づき、
前記第２の部分とは異なる、前記シーンの第４の部分からキャプチャされた音声に選択的に適用された空間オーディオフォーカスにおける変更を行うように構成される手段を有する、請求項１から８のいずれかに記載の装置。
（ｉ）前記シーン内の音源の変化および前記シーン内の音源の位置の変化の一方または両方を示す前記キャプチャされた空間オーディオコンテンツの分析と、
（ｉｉ）前記キャプチャされた視覚的画像群の提示を伴うために、前記キャプチャされた空間オーディオコンテンツの進行中の提示と、
に基づき、
前記第１の部分および前記第２の部分とは異なる、前記シーンの第４の部分からキャプチャされた音声に対して選択的に適用された前記空間オーディオフォーカスにおける変更を行うように構成される手段を有する、請求項１から８のいずれかに記載の装置。
前記キャプチャされた視覚的画像群およびキャプチャされた空間オーディオコンテンツはライブで提示され、
前記装置は、キャプチャされた時点の前記キャプチャされた空間オーディオコンテンツの分析に基づいて、前記シーンの１つ以上の候補となる第２の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第２の部分の１つ以上を選択するように構成される、請求項５に記載の装置。
前記キャプチャされた視覚的画像群および前記キャプチャされた空間オーディオコンテンツは事前に記録されたコンテンツであり、
前記装置は、少なくとも部分的に、提示用の前記キャプチャされた空間オーディオコンテンツの提供に先行する、前記キャプチャされた空間オーディオコンテンツの分析に基づいて、前記シーンの１つ以上の候補となる第２の部分を決定するように構成される手段を備え、前記装置は、前記空間オーディオフォーカスの適用のための前記候補となる第２の部分の１つ以上を選択するように構成される、請求項６に記載の装置。
空間オーディオフォーカスが設けられた音声は、ユーザが選択可能なリンクと共にさらに提示され、
前記装置は、前記リンクのユーザ選択によって、キャプチャされた別の視覚的画像群と、対応するキャプチャされた視覚的画像群の提示を行うように構成される手段を有し、
当該キャプチャされた別の視覚的画像群および対応するキャプチャされた視覚的画像群は、（ｉ）前記空間オーディオフォーカスが設けられた音声と比較した聴覚的分析に基づいて、聴覚的に類似していると判定されたキャプチャされた空間オーディオコンテンツと、（ｉｉ）前記空間オーディオフォーカスが設けられた音声の決定された音源に関連する音源の画像群を含むと判断されたキャプチャされた視覚的画像群の内の１つ以上を有する、請求項１から１２のいずれかに記載の装置。
前記ユーザに提示された空間オーディオコンテンツの複数の事例に基づくニューラルネットワークを使用して前記オーディオフォーカス情報を決定する手段を備える、請求項２又は３に記載の装置。
空間オーディオコンテンツを提示する方法であって、
前記空間オーディオコンテンツの提示は、音声を含むシーンのキャプチャされた空間オーディオコンテンツに基づいて行われ、前記音声は、前記シーンにおいて、前記音声がキャプチャされた方向を少なくとも示す情報と対応付けられ、
前記空間オーディオコンテンツの提示は、前記シーンの対応するキャプチャされた視覚的画像群の提示を伴うように行われ、前記視覚的画像群の提示は、ユーザに対する提示用にフォーカスが当てられた、前記シーンの第１の部分を少なくとも示す情報を含むビジュアルフォーカス情報に基づいて行われ、
前記空間オーディオコンテンツの提示は、前記空間オーディオコンテンツを、前記ユーザに対して、前記音声が、前記キャプチャされた空間オーディオコンテンツに示された前記方向から発せられたとの知覚を提供するように構成された空間オーディオを提示することを含み、
前記空間オーディオコンテンツの提示は、前記空間オーディオコンテンツを、前記第１の部分とは異なる前記シーンの第２の部分からキャプチャされた音声に選択的に適用される空間オーディオフォーカスを有するように提示することを含み、前記空間オーディオフォーカスは、前記シーンの他の場所からの音声に比べて、前記第２の部分に対応する方向を有する音声の可聴度を増加させる音声変更効果を含む、
方法。
前記空間オーディオフォーカスを、前記ユーザに特有のオーディオフォーカス情報に基づいて実行することを含む、請求項１５に記載の方法。
装置の少なくとも一つのプロセッサで実行されると、前記装置に、請求項１５又は１６に記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。