JP2020520576A

JP2020520576A - 空間オーディオの提示のための装置および関連する方法

Info

Publication number: JP2020520576A
Application number: JP2019558784A
Authority: JP
Inventors: アンッティエロネン; アルトレフティニエミ; シャムスンダルスジーティマテ; ユッシレッパネン
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2017-05-02
Filing date: 2018-04-27
Publication date: 2020-07-09
Anticipated expiration: 2038-04-27
Also published as: EP3399398B1; JP6932206B2; WO2018202947A1; US20200128348A1; US10887719B2; EP3399398A1

Abstract

場面における移動可能な、所定の物体に関連付けられ、所定の方向から発せられると知覚されるように提示するための空間オーディオについて、物体の所在地はセンサデータにおける自動特定に基づいて判定され、それにより、空間オーディオを、物体の所在地に対応するように定められ、センサからのセンサデータは、任意の時点で実在場面の限られた視野を有し、物体の現在の所在地が不明であることに基づいて、判定済み方向に対応する空間オーディオを聴覚提示し、ユーザの現在の視野が判定済み方向に移動したことに基づいて、少なくとも物体が再度特定されるまで、空間オーディオを判定済み方向から、ユーザの現在の視野外の方向に修正する。【選択図】図１

Description

本開示は、空間オーディオの分野に関し、特に場面における物体の所在地が常に分かっているわけではない状況での空間オーディオの提示に関する。さらに、関連する方法、コンピュータプログラム、装置にも関する。

背景

実在する物質を、グラフィックやオーディオで拡張することが一般的になってきている。拡張現実／仮想現実コンテンツのクリエーターにより、現実世界を拡張するコンテンツを次々と提供しているのである。コンテンツクリエーターの創造性が広がるにつれ、あるいはより現実に近い体験が求められるにつれ、拡張現実を体験するための、エンドユーザに対するハードウェア要件は厳しくなり得る。そのようなハードウェア的な限定にもかかわらず、商業的に十分な水準のコンテンツ提供を保証することが重要となる。

本明細書における以前に公開された文書または任意の背景の列挙または説明は、必ずしも、その文書または背景が最新技術の一部であることまたは一般知識であることの自認であると理解されてはならない。本開示の１つ以上の態様／例は、背景の課題の１つ以上に対処するものであってもよく、そうでなくてもよい。

摘要

第１例示的態様では装置が提供される。当該装置は、
少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、を備えた装置であって、
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに実行されると、前記装置に、
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを少なくとも実行させる。

１つ以上の例では、前記空間オーディオは、拡張現実コンテンツの一部をなしていてもよい。１つ以上の例では、前記実在物体の所在地は、前記物体の自動特定およびその後の所在地の決定に基づき、前記装置に報告される。

１つ以上の実施形態では、前記所定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記装置に、前記空間オーディオの前記所定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することを実行させる。

１つ以上の実施形態では、前記所定の方向の修正後、所定期間、前記センサデータにおいて前記実在物体が特定されないことで、前記実在物体の前記現在の所在地が所定期間不明であることに基づいて、前記装置に、
ｉ）前記空間オーディオの音源が環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示することと、
ｉｉ）前記空間オーディオの提示を停止することと、
のうちの少なくとも一方を実行させる。

１つ以上の実施形態では、前記センサの現在の視野と、前記ユーザの現在の視野が少なくとも部分的に重複するように、前記センサによる前記センサデータに対応する前記実在場面の前記限られた領域は、前記ユーザの前記現在の視野に基づく。

１つ以上の例では、前記ユーザの現在の視野が前記センサの現在の視野に収まるように、前記センサによる前記センサデータに対応する前記実在場面の前記限られた領域は、前記ユーザの現在の視野より大きく、かつこれに揃っている。

１つ以上の実施形態では、前記センサデータは、前記実在場面の少なくとも所定量を直近の所定期間内に網羅し、前記直近の所定時間内に前記実在物体が特定されないという判定により、前記実在物体が前記実在場面内で特定不能であることで、
ｉ）前記空間オーディオが環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示することと、
ｉｉ）前記空間オーディオの提示を終了することと、
のうちの少なくとも一方を実行する。

１つ以上の実施形態では、少なくとも前記実在場面の前記センサデータにおいて前記所定の実在物体が自動特定されたことで、前記実在物体が前記実在場面に戻ったと判定されたことに基づいて、前記ユーザから見て、前記戻った実在物体への方向に対応する所定の方向を持つ前記空間オーディオを提示する。

１つ以上の実施形態では、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することは、前記ユーザが、前記空間オーディオを前記ユーザの視界から若干外れた方向から発せられているように知覚するように、前記所定の方向を、前記ユーザの前記視野の縁から閾値角内の方向に修正することを含む。

１つ以上の実施形態では、前記装置は、
前記空間オーディオを提示するスピーカを有し、前記ユーザが目の前に前記実在場面を見ることを可能にするように構成された拡張現実デバイスと、
前記空間オーディオを提示するスピーカを有し、前記ユーザに、カメラが撮影し、前記ユーザの前記現在の視野を定義する前記実在場面の仮想現実視界を提供するように構成された仮想現実デバイスと、
前記拡張現実デバイスまたは前記仮想現実デバイスと通信する装置と、
のうちの１つを備える。

１つ以上の実施形態では、前記空間オーディオは、知覚される前記空間オーディオの音源の位置を前記所定の方向に定めるように、頭部伝達関数フィルタリングと、３次元音響パンニング方式（vector-base-amplitude panning）のうちの一方を利用して提示される。

１つ以上の実施形態では、前記センサは、
カメラであって、前記センサデータは前記実在場面のカメラ映像を含み、前記センサ視野は前記カメラの視野を含み、前記所定の実在物体の特定は、前記装置と通信する実在物体特定モジュールによる前記カメラ映像内の前記所定の実在物体の自動視覚的特定を含むようにするカメラと、
オーディオセンサアレイであって、前記センサデータは前記実在場面のオーディオマップを含み、前記オーディオマップは前記実在場面からオーディオが到来する方向を含み、前記センサ視野は前記オーディオセンサアレイの視野を含み、前記オーディオセンサアレイの視野は前記オーディオセンサアレイにより前記実在場面においてオーディオを検出する領域を示し、前記所定の実在物体の自動特定は、前記前記装置と通信する実在物体特定モジュールによる前記オーディオマップ内の前記所定の実在物体の自動聴覚的特定を含むようにするオーディオセンサアレイと、
のうちの少なくとも１つを備える。

１つ以上の実施形態では、前記空間オーディオは、特定用データに関連付けられ、前記特定用データは、前記空間オーディオが関連付けられる前記実在物体を定義する。

第２態様では、方法が提供される。当該方法は、
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む。

１つ以上の実施形態では、前記所定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記空間オーディオの前記所定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することをさらに含む。

１つ以上の実施形態では、前記所定の方向の修正後、前記センサデータにおいて前記実在物体が特定され、前記実在物体の現在の所在地が判定されたことに基づいて、前記空間オーディオが環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示する。

第３の態様では、コンピュータプログラムコードが記憶されたコンピュータ可読媒体が提供される。前記コンピュータ可読媒体と前記コンピュータプログラムコードとは、少なくとも１つのプロセッサ上で実行されると、
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む方法を実行する。

さらに別の態様では装置が提供される。当該装置は、実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを実行するように構成された手段を含む。

本開示は、１つ以上の対応する態様、例、または特徴を、単独または様々な組合せで含み、これは、その組合せまたは単独で特定的に記載（特許請求を含む）されたか否かにかかわらない。記載される機能のうちの１つ以上を実行する対応する手段および対応する機能ユニット（例えば機能イネーブラ、空間オーディオ提示部、実在物体特定部、実在物体所在地追跡部、配向センサ）も本開示の範囲内である。

開示された方法の１つ以上を実装する対応するコンピュータプログラムも本開示の範囲内にあり、記載された例の１つ以上に含まれる。

上記の摘要は、単なる例示であり非限定的なものとして意図されている。

以下、単なる例として、添付の図面を参照しながら説明を行う。
図１は、拡張オーディオを提示する例示的装置を示す。図２は、第１構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図３は、第２構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図４は、第３構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図５は、第４構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図６は、第５構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図７は、第６構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図８は、第７構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図９は、第８構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。図１０は、例示的方法を示すフローチャートである。図１１は、コンピュータ可読媒体を示す。

例示的な態様

仮想現実（ＶＲ）は、メガネ、ゴーグル、網膜ディスプレイなどのヘッドセット、またはユーザを囲む１つ以上のディスプレイ画面を備えるＶＲディスプレイを使用して、ユーザに没入型仮想体験を提供し得る。仮想現実装置は、ＶＲディスプレイを含んでも含んでいなくてもよく、仮想現実場面を表すマルチメディアＶＲコンテンツをユーザに提示して、ユーザが仮想現実場面の中に存在するシミュレーションを実現してもよい。よって、１つ以上の例では、ＶＲ装置は、ユーザに対してＶＲコンテンツを表示するためのＶＲディスプレイにシグナリングを提供し、１つ以上の別の例では、ＶＲ装置は、例えばヘッドセットの一部のようにＶＲディスプレイの一部であってもよい。したがって、仮想現実場面は、ユーザがあたかもその場にいるようにその場面に没入していると感じられ、ユーザの周りに表示されたＶＲコンテンツでＶＲ空間を見回すように、３次元仮想現実空間内に表示されたＶＲコンテンツを含んでもよい。仮想現実場面は、実在場面を再現し、ユーザが実在の所在地に物理的に存在しているようにシミュレートしてもよいし、または仮想現実場面は、コンピュータが生成したものであっても、コンピュータが生成したものと現実世界のマルチメディアコンテンツとの組合せであってもよい。このように、ＶＲコンテンツは、表示用に仮想現実場面を生成し得る映像（例えば静止画または動画）、オーディオおよび／またはこれらに伴うデータを含むものと考えられてもよい。したがって、ＶＲ装置は、ＶＲコンテンツを表示する仮想で３次元のＶＲ空間を生成することによって、ＶＲ場面を提供してもよい。仮想現実空間は、広視野または３６０°の視野（さらに水平方向の視野の上方および／または下方を含む場合もある）を有するビデオを含む（パノラマ式生中継などの）パノラマ式ビデオにより提供されることもある。パノラマ式ビデオは、ユーザの視野よりも広く、または当該パノラマ式ビデオの表示を意図されている視野よりも広くなるような広視野を有してもよい。

ユーザに提供されたＶＲコンテンツは、例えばＶＲコンテンツ撮影デバイスが撮影した現実世界のライブ映像または録画を含んでもよい。ＶＲコンテンツ撮影デバイスの例としては、ＮｏｋｉａＴｅｃｈｎｏｌｏｇｉｅｓのＯＺＯデバイスが挙げられる。ＶＲ場面は、通常、ユーザがＶＲディスプレイで見ることができる部分よりも大きいため、ＶＲ装置はＶＲディスプレイ上での表示のために、ＶＲ場面の仮想現実視界をユーザに提供してもよい。このＶＲ視界では、一度に見ることができるＶＲコンテンツの空間的部分を示すのみである。ＶＲ装置は、ユーザの頭部および／または目の動きに基づいて、ＶＲ場面内のＶＲ視界のパンニングを実現してもよい。ＶＲコンテンツ撮影デバイスは、１人以上のユーザに表示するためにＶＲコンテンツを撮影するように構成されてもよい。ＶＲコンテンツ撮影デバイスは、１つ以上のカメラを備えてもよく、任意で、ある撮影視点の周囲の視聴覚場面を捉えるように構成された１つ以上の（例えば指向性）マイクロフォンを備えてもよい。一部の例では、ＶＲコンテンツ撮影デバイスは、物理的に離して設けられた複数のカメラおよび／またはマイクロフォンを備える。これにより、ＶＲコンテンツ撮影デバイスを用いて、演奏を撮影（および録画）してもよい。このとき、ＶＲコンテンツ撮影デバイスはステージ上に置かれて、演奏者がその周囲を動き回ってもよいし、または観客の視点からの撮影であってもよい。いずれの場合も、ＶＲコンテンツの消費者は、ＶＲ装置のＶＲディスプレイを用いて周囲を見回し、あたかもその場にいるように撮影地での演奏を体験し得る。

拡張現実（ＡＲ）では、メガネ、ゴーグル、網膜ディスプレイなどのＡＲディスプレイを用いて、現実世界（メガネやゴーグルを通して見たものなど）の視界を、コンピュータが生成したコンテンツやコンピュータが提供するコンテンツによって拡張してもよい。拡張現実装置は、ＡＲディスプレイを含んでも含んでいなくてもよく、現実世界のユーザの視界に重ねるように構成されたマルチメディアＡＲコンテンツを提示してもよい。これにより、拡張現実のユーザは、拡張現実装置が提供するコンテンツによって拡張または補完される、ユーザの周囲の現実世界環境を見ることができる。これは、現実世界のユーザの視界に重ねてもよく、および／またはユーザに聞こえる聴覚現実世界場面に聴覚的に重ねてもよい。コンテンツは、絵、写真、動画、図、文字情報、聴覚コンテンツなどのマルチメディアコンテンツを含んでもよい。これにより、拡張現実が、コンピュータが生成したグラフィックおよび／またはオーディオコンテンツを追加することにより現実世界を直接見ることを可能にする一方、仮想現実のユーザは、実質的に現実世界を直接見ることなしに、仮想現実装置のＶＲディスプレイ上に提示されたコンテンツを見ることができるのみである。しかし、ＶＲコンテンツは、実在場面のライブコンテンツを含んでもよく、したがって、このＶＲコンテンツは、現実世界のライブビューをＶＲディスプレイ上に拡張するコンテンツを含み得ることから、ＡＲコンテンツとも考えられる。

拡張現実コンテンツ（ユーザの目前の現実世界のライブ映像を含む、仮想現実コンテンツを含む）には、方向性を有する空間オーディオが設けられてもよく、これにより、空間内の所定の方向または点から発せられているように知覚するように当該オーディオは提示される。空間内の所定の方向または点は、現実世界のユーザの視界に紐付けられていてもよく、これにより、空間オーディオが知覚される所定の方向が現実世界のある場面に紐付けられた点に位置決めされる。空間オーディオの空間的位置決めは、マルチチャネルオーディオ配置の各チャネルにオーディオが提示される程度によって実現されてもよく、３Ｄオーディオ効果（例えば、頭部伝達関数を利用して、ユーザへ提示するためにオーディオが位置決め可能な空間オーディオ空間を作成すること）によって提示されてもよい。空間オーディオは、頭部伝達関数フィルタリング（Head Related Transfer Function Filtering：ＨＲＴＦ）技術を用いてヘッドフォンによって提示され、スピーカについては、３次元音響（Vector Base Amplitude：ＶＢＡ）パンニング技術を用いて提示され、知覚されるオーディオコンテンツの音源の位置を決める。

拡張現実コンテンツが空間オーディオを含み、この空間オーディオの位置決めがある場面内の実在物体の位置に依存し、場面内の実在物体の位置がこの場面の限られた視野を有するセンサによって判定される場合、空間オーディオの位置決めが困難であり得る。特に、実在物体がセンサの視野外にある場合、装置は空間内で空間オーディオをどこに位置付けるかを把握できない場合がある。高精度室内位置決めシステムなどの物体追跡システムを使用して物体を追跡すると、センサの限られた視野という技術的な限界がなくなり、システムはその物体がどこであるかを随時「見る」ことができる。しかし、このような物体追跡システムは実現が難しかったり時間を要したりする。よって、視野の限られた物体追跡ハードウェアで、ユーザに提供される拡張現実体験を管理することは困難であり得る。

そこで、ユーザが存在する実在場面を拡張するように構成された装置を開示する。具体的には、ユーザに場面内の実在物体から発せられると知覚されるように、空間オーディオを聴覚提示する。この装置は、実在場面ないの移動可能な実在物体を特定および追跡可能なように、実在場面に対する限られた視野を有するセンサを使用してもよい。

図１の例では、空間オーディオの聴覚的提示を管理する装置１０１を示す、システム１００を示す。

装置１０１は、コンピュータプログラムコードを実行可能に構成されたプロセッサ１０１Ａおよびメモリ１０１Ｂを備えるか、これらに接続されてもよい。装置１０１は、プロセッサ１０１Ａおよびメモリ１０１Ｂをそれぞれ１つのみ有してもよいが、別の実施形態では、複数のプロセッサおよび／または複数のメモリが利用されてもよいことが理解されよう（例えば、プロセッサ／メモリの種類は同じでも異なっていてもよい）。さらに、装置１０１は特定用途向け集積回路（ＡＳＩＣ）であってもよい。

プロセッサは、メモリ内に、コンピュータプログラムコードとしてメモリに記憶された指示に応じて、コンテンツ記憶部１０３および実在物体特定モジュール１０２等のその他構成要素から受信した情報を実行／処理することに特化した汎用プロセッサであってもよい。プロセッサのそのような動作により生成された出力シグナリングは、拡張現実コンテンツをユーザに提示する拡張現実装置１０４等のさらなる構成要素に提供される。

メモリ１０１Ｂ（必ずしも単一のメモリ単位ではない）は、コンピュータプログラムコードを記憶するコンピュータ可読媒体（この例ではソリッドステートメモリだが、ハードドライブ、ＲＯＭ、ＲＡＭ、フラッシュメモリ等その他種類のメモリであってもよい）。コンピュータプログラムコードは、プロセッサ上で動作時に、プロセッサが実行可能な指示を記憶する。１つ以上の例示的実施形態において、メモリとプロセッサとの間の内部接続が、メモリとプロセッサとの間のアクティブ接続を実現することが理解されたい。これにより、プロセッサがメモリに記憶されたコンピュータプログラムコードにアクセスできる。

この例では、各プロセッサおよびメモリは、互いに電気的に内部接続される。これにより、各構成要素間の電気的通信が可能となる。この例では、構成要素は互いに近接しており、ＡＳＩＣを形成する。言い換えると、この構成により、電子デバイスに実装可能な単一のチップ／回路となるように一体化される。いくつかの例では、構成要素のうちの１つ、複数、または全てが、互いから離して設けられてもよい。

図１は、ユーザの実在場面に対する視覚および／または聴覚的認識に対して提示される拡張現実コンテンツを記憶し得るコンテンツ記憶部１０３を示す。この例では、拡張現実コンテンツは少なくとも、ユーザ周囲の実在場面において、移動可能な所定の実在物体に関連付けられるように構成された空間オーディオを含む。したがって、ユーザの周囲の実在場面に対する認識が、空間オーディオにより拡張され得る。空間オーディオは、事前に録音された現実世界の音声のオーディオ、コンピュータ合成オーディオ、または別の実在場面からのオーディオに基づくオーディオ（修正されてもされていなくてもよい）を含んでもよい。一例として、モノローグ含む空間オーディオが実在場面における所定の人物に関連付けられてもよい。これにより、実在場面で聞かれる音が拡張され、ユーザにとっては、当該所定の人物の心の声のように知覚され得る。別の例では、空間オーディオは所定の人物に関連付けられた効果音を含んでもよい。ユーザはこの効果音が当該所定の人物に関連付けられていることを知っており、そのため効果音は所定の人物の所在地を表す聴覚的マーカとして作用してもよい。ＡＲコンテンツ、特に空間オーディオは、実在場面に存在し、空間オーディオが関連付けられる実在物体を示す、特定用データを含んでもよい。特定用データは、所定の人物、人物の種類（例えば、男性、女性、子供）、所定の物体、物体の種類（例えば、ボール、ドローン）、あるいは場面中で自力または他力で移動可能なその他あらゆる物を特定してもよい。別の例では、ＡＲコンテンツは特定用データを含まず、装置１０１またはその他装置が、空間オーディオに関連付けられる実在場面の実在物体を決定してもよい。したがって、空間オーディオはギター音を含んでもよく、実在場面でギターが確認されると、空間オーディオとしてのギター音が実在するギターから聞こえてくるかのように認識されるように提示されてもよい。別の例では、空間オーディオは所定の人物に関連付けられた短い曲、ジングル、または効果音を含んでもよい。実在場面内で所定の人物が確認されると、その曲、ジングル、または効果音がその人物から流れてくると知覚されるように提示される。

この例では、装置１０１は拡張現実において少なくとも空間オーディオを提示する拡張現実装置１０４の一部である。１つ以上の別の例では、装置１０１はＶＲ装置の一部であってもよい。このＶＲ装置には、ユーザが存在する実在場面のライブ映像を含むＶＲコンテンツが提供される。１つ以上の例では、装置１０１はＡＲまたはＶＲ装置から独立して、これらと通信することでその機能を実行し、ＡＲコンテンツをユーザに提示するものであってもよい。この例では、ＡＲ装置１０４および装置１０１はＡＲプロセッサ１０１Ａおよびメモリ１０１Ｂを共有するが、別の例ではそれぞれプロセッサおよび／またはメモリを有してもよい。

装置１０１およびＡＲ装置１０４は、ＡＲヘッドセット１０５（この例では、ヘッドフォン１０６を含む）を使用して、空間オーディオを聴覚的に提示してもよい。

実在物体特定モジュール１０２は、装置１０１に対し、実在場面内の物体の特定を実現するものであってもよい。実在物体特定モジュール１０２は、物体の所在地が特定され追跡可能となるように、実在場面内の物体の自動特定を実現してもよい。実在物体特定モジュール１０２は、センサ１０７からセンサデータを受信するように構成されてもよい。センサデータは、実在場面における実在物体の所在地を示してもよい。実在物体特定モジュール１０２は、センサデータを処理して、場面内の実在物体の所在地を特定してもよい。この例では、装置１０１は、実在物体特定モジュール１０２から、実在物体の所在地を示す情報を受信するように構成される。これにより、空間オーディオを、適宜当該物体に関連付けることができる。

１つ以上の例では、実在物体特定モジュール１０２の機能が装置１０１により実行されてもよい。

この例では、センサ１０７はＡＲヘッドセット１０５に搭載されるが、別の例ではセンサ１０７はＡＲヘッドセット１０５のユーザに関連付けられた、またはそのユーザから離れたその他の場所に設けられてもよい。

上述のように、所定の実在物体の所在地は、実在場面のセンサデータの所定の実在物体の自動特定により判定されてもよい。これにより、装置１０１は、場面内の所定の実在物体の所在地に対応するように、空間オーディオの所定の方向を定めることができる。したがって、空間オーディオは意図した方向から到来したと知覚される。センサ１０７は、任意の時点で、実在場面の限定された領域を網羅するセンサ視野を有する。センサ視野は、実在場面に対するユーザの視野に対応してもよく、例えば、平均的な人間の視覚に基づくものであってもよい。１つ以上の例では、ＡＲ装置１０５に搭載されたセンサがユーザの頭部と同じ方向を向くこと等により、センサ視野はユーザの視野に重複してもよい。１つ以上の例では、センサ視野は、ユーザの視野の略中心となるように構成されてもよい。１つ以上の例では、センサ視野は、ユーザの視野の略中心で、ユーザの視野よりも広くまたは狭く構成されてもよい。若干より広い視野を有するセンサは、ユーザの視界から若干外れた実在場面の部位を含むセンサデータが得られるので有利である。このデータは、所定の実在物体がユーザの視野に入る前に、当該物体に対して分析可能である。

センサ１０７は、センサデータを提供するように構成される。センサデータから、装置１０１は場面における実在物体の所在地についての情報を得られる。センサ１０７は単一のセンサまたは複数のセンサを含んでもよい。ただし、１つ以上のセンサにより提供される物体の全視野は、実在場面の総空間範囲には及ばない。１つ以上の例では、水平方向軸およびユーザ周囲３６０度にかけて延在する方向に広がる実在場面に基づいて、１つ以上のセンサは上述の３６０度未満の、実在場面の領域（２７０、１８０、１５０度未満等）を同時に検知するように構成および配置されてもよい。したがって、１つのセンサの視野、または複数のセンサの合成視野は、実在場面全体またはユーザ周囲の３６０度未満であり得る。

センサ１０７はカメラを有してもよい。したがって、センサデータは実在場面のカメラ映像を含んでもよい。任意の時点で、カメラの視野内で、カメラ映像は撮影される。したがって、この例では、所定の実在物体の自動特定は、カメラ映像内の所定の実在物体の自動視覚的特定を含む。カメラは、可視光カメラ、あるいは赤外線、紫外線、またはその他電磁波長カメラを含んでもよい。

さらに／あるいは、センサ１０７はオーディオセンサアレイを含む。したがって生成されるセンサデータは、実在場面のオーディオマップを含む。当該マップは、実在場面からオーディオが到来する方向を含む。センサ視野は、オーディオセンサアレイが実在場面からのオーディオを検知し得る範囲に対して、オーディオセンサアレイの視野を含む。したがって、オーディオセンサアレイは視野に対する各種方向を向いて、音の到来方向を判定するように構成される指向性マイクロフォンアレイを含んでもよい。これにより、場面のオーディオの視覚的標示またはマップが提供される。したがって、所定の実在物体の自動特定は、オーディオマップにおける所定の実在物体の自動オーディオ特定を含む。別の例では、センサは、場面内の物体を表すセンサデータを生成するように構成されたレーダーまたはソナーセンサを含む。

使用されるセンサ（１つ以上）の種類によらず、センサデータは、少なくともユーザ周囲の実在場面内に存在する移動可能物体に関するコンテンツを表し得る。ＧｏｏｇｌｅのプラットフォームＴａｎｇｏは、任意の時点で、実在場面の限られた視野を有するセンサから生成される当該実在場面のマップを作り出す機能を呈し得るシステムの一例である。

装置１０１の動作をより詳細に以下に説明する。要約すると、センサ１０７からのセンサデータにより所定の実在物体が現状特定できないことで、所定の実在物体の現在の生の所在地が不明である場合に、装置１０１は、最後に把握した方向を含む判定済み方向を含む所定の方向の聴覚的提示を、コンテンツ記憶部１０３から空間オーディオのユーザに提供してもよい。判定済み方向は、前回（例えば、直近に）実在場面で実在物体が、実在物体特定モジュール１０２またはユーザ等により特定された方向を含む。最後に把握した方向は、実在物体特定モジュール１０２またはユーザ等により、最後に実在場面で実在物体が認識された所在地への方向（例えば、直近で判定された方向）を含む。ユーザが、場面の現在の視野を前記判定済み方向または最後に把握した所在地を含む所在地に動かした場合、装置は、少なくともセンサデータにより所定の実在物体が特定されるまで、最後に把握した方向から空間オーディオが知覚された所定の方向が、ユーザの現在の視野外の方向へ変更する。

以下の例および説明において、装置１０１は、現在の所在地が不明の場合、最後に把握した方向を含む所定の方向から、聴覚的提示を空間オーディオのユーザに提供してもよい。ただし、装置１０１が最後に把握した方向以外の判定済み方向を使用し得ることを理解されたい。これにより、視野が限られ、その視野に物体がしばらく含まれなかった物体追跡用センサデータを利用した場合に生じるような、物体の推定所在地（すなわち、最後に把握した方向）と、移動先との不整合が避けられるという技術的効果が得られる。したがって、センサ視野が移動可能な実在物体を含まない場合、その実在物体は、装置の把握していない物体の周りを移動している可能性がある。ユーザの視野内に実在物体が見えない限り、空間オーディオが実在物体の最後に把握した所在地から提示され、その所在地が、実在物体が移動したかしていないかに応じて、実在物体の実際の所在地に等しかろうと、等しくなかろうと、拡張現実コンテンツに対するユーザの知覚にさほどの影響はなかろう。しかし、ユーザが視野を動かして、最後に把握した所在地が含まれたにもかかわらず、既に実在物体がその所在地から装置が把握していない所在地に移動しており、存在しなければ、ユーザは空間オーディオが実在物体の所在地に対応するように配置されていないと認識し、混乱したり、うろたえたりしてしまうかもしれない。装置は、オーディオが関連付けられた実在物体が移動可能で、常に動作追跡されていないまたは、任意の時点で、物体の限られた範囲内のみ追跡されるような状況で、空間オーディオの提示を向上するという技術的効果を提供し得る。

図２は、実在場面２０１内のユーザ２００の例示的平面図である。この例では、ユーザは拡張現実メガネを含み得る、ＡＲヘッドセット１０５を使用している。ユーザはさらに、ヘッドフォン１０６を装着しているため、ユーザに空間オーディオが提示できる。点線２０２、２０３は、実在場面２０１に対するユーザの視野を示す。この例では、センサ１０７の視野は、ユーザ２００の視野に略等しくなるように配置および構成される。したがって、点線２０２、２０３は、センサ１０７の視野も示し得る。

図２は、実在場面２０１に対するユーザの視界２０４も示す。したがって、点線２０２、２０３はユーザの視界２０４の左および右端に対応し得る。ユーザは、その視界２０４内に、第１物体２０５および第２物体２０６を含む２つの移動可能な実在物体が見えている。第１物体２０５はギターを弾くふりをしている第１ミュージシャンを含む。第２物体２０６は同じくギターを弾くふりをしている第２ミュージシャンを含む。ＡＲコンテンツは、第１および第２物体２０５および２０６に関連付けられた、プロの弾いたギターサウンドを含み得る。これにより、第１および第２ミュージシャンがとても上手に演奏しているように見える。

第１および第２物体２０５および２０６の所在地は、それぞれ円２０７および２０８として、平面図に概略的に示されている。

図２に示す構成では、物体２０５および２０６はセンサ１０７の視野内に含まれるため、実在物体特定モジュール１０２は第１および第２物体の所在地を判定できる。実在物体特定モジュール１０２は、物体認識、顔認証、歩行解析の少なくとも１つ、あるいは物体における物体を特定するその他任意の技術を利用してもよい。これにより、それら物体の所在地が、装置１０１またはＡＲ装置１０４に提供される。この例では、ＡＲコンテンツは、それぞれ第１および第２物体２０５、２０６に関連付けられる第１空間オーディオトラックおよび第２空間オーディオトラックを含む空間オーディオを含む。装置１０１またはＡＲ装置１０４は、第１音波アイコン２１０で示す第１空間オーディオトラックの聴覚的提示を所定の方向により提供してもよい。これにより、ユーザの視界に対する第１物体２０５／２０７に対応する方向から到来するように知覚される。装置１０１またはＡＲ装置１０４は、第２音波アイコン２１１で示す第２空間オーディオトラックの聴覚的提示を所定の方向により提供してもよい。これにより、ユーザの視界に対する第２物体２０６／２０８に対応する方向から到来するように知覚される。したがって、空間オーディオトラックが知覚され聴こえてくる所在地を示す第１および第２アイコン２１０、２１１は、関連付けられた実在物体の物理的所在地に重複するように示されている。オーディオトラックは、ダイエジェティックに提示されるものとされ得る。実在物体の物理的所在地に物理的にスピーカを置くのではなく、装置１０１またはＡＲ装置１０４は、ＨＲＴＦまたはＶＢＡパンニング技術を使用して、空間オーディオトラックの知覚音源を配置できることが理解されよう。第１および第２実在物体２０５、２０７；２０６、２０８がセンサ１０７の視野内にとどまる限り、実在物体特定モジュール１０２は物体の特定および、その実在場面における所在地の追跡が可能である。そして、物体の所在地は装置１０１またはＡＲ装置１０４に報告されてもよい。これにより、第１空間オーディオトラックおよび第２空間オーディオトラックの知覚された所定の所在地が、物体の現在所在地に応じて配置可能である。ＡＲヘッドセット１０５は、配向センサ（加速度計等）を含んでもよい。これにより、ユーザの視点から視線方向が観察される。したがって、ユーザの視線方向に基づいて、装置１０１またはＡＲ装置１０４は各オーディオトラックの所定の方向を、ユーザの視線方向を考慮して調整できる。実在物体特定モジュール１０２により報告された物体内の１つ以上の移動可能な実在物体の所在地と、１つ以上の配向センサから報告されたユーザの頭部の向きに基づいて、ＡＲ装置１０４または装置１０１は、ユーザの頭部に対する物体への方向を判定できる。このユーザの頭部に対する物体への方向は、１つ以上の空間オーディオトラックが到来すると知覚される所定の方向として利用されてもよい。

図３の例は、図２の例と同様、実在場面２０１の平面図と、ユーザの視界２０４を示す。この図では、例えば第１ミュージシャン２０５に注目するため、ユーザは頭を右に向けて、実在場面に対する視線方向を変えている。ユーザの視線方向の移動により、第２物体２０６はセンサ１０７の視線２０２、２０３（およびユーザの視野）内から消えている。したがって、第２実在物体２０６はセンサ１０７の視野外に存在するため、センサ１０７からのセンサデータで特定できなくなり、第２実在物体２０６の現在の所在地は分からなくなる。それでも、装置１０１またはＡＲ装置１０４は、実在場面において第２実在物体２０６が特定された、最後に把握した所在地３０１に向かう方向を含む最後に把握した方向３００を含む所定の方向により、第２空間オーディオトラックのユーザ２００に対して、聴覚的提示を提供しようとし続け得る。したがって、円２０８は、最後に認識した所在地３０１にとどまった第２物体の現在の所在地を示す。この所在地は、物体２０６がセンサ１０７の視野内に合った時に実在物体特定モジュール１０２により判定された、またはユーザ入力により判定されたものである。最後に把握した所在地３０１に対する第２アイコン２１１の所在地は、第２オーディオトラックが最後に把握した所在地３０１に向かった方向３００から到来するように知覚されるように音響的に提示されていることを示す。

センサ１０７の視野外にある第２物体２０６は、装置１０１またはＡＲ装置１０４が認識していない場面２０１内で動き得る。したがって、第２物体２０６センサ１０７の視野外にある際に、装置１０１またはＡＲ装置１０４は第２物体２０６の実際の所在地がどこかにかかわらず、最後に把握した所在地を利用するように構成されてもよい。ここでもユーザの頭部に対する、最後に把握した所在地への方向は、第２オーディオトラック２０６が実在場面２０１に対して、固定された最後に把握した所在地から到来するように知覚されるように、配向センサからのデータに基づいて判定されてもよい。

第１実在物体２０５はセンサ１０７の視野内にとどまっており、したがって第１物体２０５のあらゆる動きは追跡され、第１空間オーディオトラックの所定の方向を提示することで第１物体２０５の所在地を追跡してもよい。

図４の例は、ユーザの視線方向が図３から変化しておらず、第２物体２０６が実在場面２０１内で移動している。第２円２０８の所在地が、第２物体２０６の実際の現在の位置を示す。センサ１０７の視野２０２および２０３が限られているため、ＡＲ装置１０４または装置１０１は、場面内のこの第２物体２０６の移動を把握していない。したがって、ＡＲ装置１０４または装置１０１はアイコン２１１で示される第２空間オーディオトラックを、最後に把握した所在地３０１から提示し続けようとする。なお、第２物体２０６は動いているため、第２空間オーディオトラックを提示するこの所定の方向は不正確である。ただし、第２物体２０６はユーザの視界外でもあるので（第２物体２０６は視界２０４に提示されていない）、このような不正確さは、ユーザのＡＲコンテンツに対する認識を邪魔しない場合もある。

次に、ユーザが、第１物体２０６があった位置（すなわち、アイコン２１１で示す、ユーザが第２空間オーディオトラックを知覚する、最後に把握した所在地３０１）を向いた場合について説明する。

図５の例は、ユーザが図２に示す方向に戻すように、視線方向を変えた状態を示す。すなわち、ユーザは現在の視野２０２、２０３を、上記最後に把握した所在地３０１（点線で示す）を含む位置へと動かしている。ただし、上述のように第２物体２０６は既に最後に把握した所在地には存在せず、円２０８に示す所在地に存在する。したがって、第２空間オーディオトラックの到来を知覚する方向（アイコン２１１で示す）と、第２物体（現在見えない所在地２０８に存在）との不一致を感じ得る。

図６の例は、センサ１０７の限られた視野を補うことができるように、装置１０１が実施し得る変形例を示す。

図６の例は、図５で説明したものと同じ状況を示す。ユーザは、第２空間オーディオトラックの聴覚的提示を知覚する場所（アイコン２１１で示す）を向いており、そのため視野２０２および２０３は最後に把握した所在地を含む。装置１０１は、第２空間オーディオトラックの所定の方向を矢印６００で示すように、最後に把握した方向から、ユーザの現在の視野２０２、２０３外の方向６０１に修正している。これは少なくとも第２実在物体２０６がセンサ１０７からのセンサデータで（例えば自動的に）特定されるまで続く。したがって、装置１０１およびＡＲ装置１０４に、第２物体２０６の最後に把握した所在地から更新された所在地が提供されていない、または装置１０１およびＡＲ装置１０４は更新された所在地を判定できない場合、装置１０１は、空間オーディオの提示を、所定の方向から知覚されるように維持しながら、所定の方向をユーザの現在の視野外の所在地へと修正してもよい。上述のように、センサデータを取得するセンサ（複数可）の視野は、ユーザ２００の視野と同じでも、より広くても狭くてもよい。センサデータがユーザの視野よりも広い視野を示す場合、装置１０１は、ユーザの視野内に所定の方向が入る直前に、第２物体２０６の存在を判定可能であり得る。このようにセンサデータがより広い視野に対応することで、物体が最後に把握した所在地から移動したか否かを特定するのに、より長い処理時間をあてることができる。

この例では、装置１０１は、第２オーディオトラックが知覚される所定の方向を、ユーザの視野の縁２０２から所定の角距離閾値内（例えば、若干視野外）内の到来方向に修正する。角距離閾値は、１、２、５、１０、１５、２０、または３０度までであってもよいし、これら例示的な距離閾値のうちの任意の２つの間であってもよい。縁２０２は、視野が最後に把握した所在地を含むように移動する際に、最後に把握した所在地に先に触れる側のユーザの視野の縁に基づいて決定されてもよい。したがって、ユーザは、第２オーディオトラックを、視野２０２、２０３の若干外側の方向から聴こえてくるように知覚する。

図７の例は、ユーザが円２０８で示す第２物体２０６の現在の位置７００を含むように視野を動かした状態を示す。第２オーディオトラック２１１の所定の方向７０１は、再度現在の位置７００に対応するように示されている。

１つ以上の例では、第２実在物体２０６がセンサ１０７からのセンサデータで自動的に特定されると、第２オーディオトラックが到来すると知覚される所定の方向を、再度第２物体への現在の方向に対応するように修正されてもよい。したがって、所定の方向修正後、最後に把握された方向が得られた所在地よりも新しい実在物体の現在の所在地が得られる、センサデータ内の実在物体の特定を受けて、装置１０１は、空間オーディオの所定の方向を、実在物体２０６の判定された現在の所在地に対応するようにさらに修正してもよい。

いくつかの例では、第２物体の（例えば自動的な）特定を受けて、第２オーディオトラックが到来すると知覚される所定の方向を、再度第２物体２０６の現在の方向に対応するように修正してもよいが、別の例では、装置１０１は異なる動作を実行してもよい。例えば、空間オーディオは、到来が知覚される所定の方向が存在しないような環境オーディオとして提示されてもよい。したがって、ユーザには上述の場合と異なり、無指向性の環境オーディオとして提示されてもよいのである。１つ以上の例では、空間オーディオトラックはより広大な空間範囲をもつ所定の方向により聴覚的に提示されてもよい。すなわち、特定の狭い方向から到来するように知覚されるのではなく、より広い範囲、すなわちより幅広い方向から空間オーディオトラックが到来するように知覚されるのである。これは、ＨＲＴＦ技術または非相関化技術により実現され得る。これらの技術は、空間オーディオ提示に関する技術の当業者に知られているとおり、空間オーディオトラックの複数のコピーを、それらが物体への方向を中心に、それぞれ異なる複数の方法から到来するように知覚されるように提示可能である。

図８の例は、図７の例と同様である。図８において、第１物体２０５はセンサ１０７の視野２０１、２０２内に存在しない。したがって、装置１０１は第１物体２０５の所在地を把握していない。第２物体２０６について上述したように、第１空間オーディオトラックは、第１物体２０５の最後に把握した所在地８０１から発せられているように知覚されるよう、所定の方向８００を持つように聴覚的に提示されてもよい。ただし、図８は装置１０１が把握せず、第１物体２０５が完全に実在場面２０１から出た状態を示している。したがって、第１物体２０５の現在の所在地は実在場面２０１にないため、図８の平面図に円２０７は存在しない。

１つ以上の例では、実在物体が所定期間センサデータで特定されないことで、実在物体２０５、２０６のいずれかが現在の所在地が不明のままであることで、装置１０１は、ｉ）空間オーディオの音源が空間オーディオが環境的、無指向性オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示してもよいし、ｉｉ）空間オーディオの提示を停止してもよい。１つ以上の例では、装置１０１は、実在物体の所在地が不明である期間のみに基づいて、空間オーディオの提示を修正してもよい。

１つ以上の例において装置１０１は、センサ１０７により実在場面２０１を走査し、それによるセンサデータに現実世界物体が特定されないことに基づいて、空間オーディオの提示を修正してもよい。

図９の例は、ユーザの視野、すなわちセンサの視野の直近の変化を示す矢印９００のとおり、ユーザ２００が現実空間２０１全体を見渡した状態を示す。センサ１０７の視野が実在場面を走査するのにかかる時間は、第１物体２０５が場面を動いている場合にセンサ１０７の「視界に入る」可能性に影響する。すなわち、第１物体が場面内で動いていると、センサ１０７の視野が向いた空間の走査領域内に入らない可能性がある。したがって、センサ１０７の視界内に第１物体が単純に入らないためである。一方で、所定時間内にセンサ１０７が、実在場面の大部分または全て等の所定の部分を走査したにもかかわらず、第１物体の所在がセンサデータで自動特定されない場合、装置１０１は第１物体が場面内に存在しないと判断してもよい。所定時間は１分、４５、３０、２０、１０または５秒未満、あるいはその他任意の値であってもよい。所定時間は、場面内での物体の移動の測定に基づいて決定されてもよい。すなわち、センサデータが場面で物体が高速移動していることを示す場合、所定時間を短くしてもよく、物体が低速移動していることを示す場合、所定時間を長くしてもよい。なお、センサ１０７の視野は限られており、場面内の物体が移動可能であることで、物体が場面から出たことが絶対確実に判定できるわけではないことが理解されよう。そこでこの例では、装置１０１は所定時間内に場面の所定部分を走査することに基づいてそのような（不正確となり得る）判定を下すように構成されている。

装置１０１は、実在物体２０５が実在場面から出たと判定すると、所定の方向を持たない空間オーディオを提示するように構成されてもよい。これにより、空間オーディオは、環境オーディオのように、特定の音源方向のないものと知覚される。オーディオトラックは非ダイエジェティックに提示されるものと考えられてもよい。すなわち、装置１０１は、実在物体が存在することを確信できない場合、第１オーディオトラックを空間オーディオとして聴覚的に提示しなくてもよい。１つ以上の別の例では、装置１０１は第１空間オーディオトラックの提示を終了するように構成されてもよい。図９は、第１物体２０５に関連付けられていた第１空間オーディオトラック２１０を環境オーディオとして提示することを示す。したがって、アイコン２１０はユーザ２００の頭部内に位置するように図示され、第１空間オーディオトラックが無指向性で、環境的聴覚的に提示されていることを示す。

１つ以上の例では、第１実在物体２０５は場面２０１に戻ってもよい。これは、装置１０１が、第１物体が実際には場面内に存在したにもかかわらず、所定時間内に場面の所定の部分を示すセンサデータ内で単に確認できなかったことで、誤って第１物体が場面から出たと判定した場合も含む。少なくともセンサ１０７からの実在場面２０１のセンサデータで所定の実在物体が自動特定されたことにより実在物体が実在場面２０１に戻ったと判定されたことに基づいて、装置は、ユーザ２００から見て、戻った実在物体への方向に対応する所定の方向を持つ空間オーディオを提示するように構成されてもよい。したがって、装置１０１は戻った第１物体２０５の所在地についての通知を実在物体特定モジュール１０２から受けると、対応する空間オーディオトラックを、当該所在地に対応する音源の聴覚認識可能な所定の方向を持つ空間オーディオとして提示してもよい。

図１０の例は、以下のステップを示すフロー図を示す。
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオを少なくとも含む拡張現実コンテンツに関して、前記実在場面のセンサデータにおける所定の実在物体の自動特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにより前記所定の実在物体が現状特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて（１０００）、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された最後に把握した所在地を含む最後に把握した方向を含む所定の方向により聴覚的提示を行い、前記ユーザの現在の視野が前記最後に把握した所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記最後に把握した方向から、前記ユーザの前記現在の視野外の方向に修正する（１００１）。

図１１は、一例によるプログラムを提供するコンピュータ／プロセッサ可読媒体１１００を概略的に示す。この例では、コンピュータ／プロセッサ可読媒体は、デジタル多用途ディスク（Digital Versatile Disc：ＤＶＤ）またはコンパクトディスク（Compact Disc：ＣＤ）などのディスクである。一部の例では、コンピュータ可読媒体は、発明の機能を実行するような形でプログラムされた任意の媒体であってもよい。コンピュータプログラムコードは、同じタイプの複数のメモリ間、またはＲＯＭ、ＲＡＭ、フラッシュ、ハードディスク、ソリッドステートなど異なるタイプの複数のメモリ間に分散されてもよい。

ユーザ入力は、タップ、スワイプ、スライド、押下、保持、回転ジェスチャ、デバイスのユーザインタフェース近くでの静止ホバージェスチャ、デバイス近くでの移動ホバージェスチャ、デバイスの少なくとも一部を曲げること、デバイスの少なくとも一部を握りしめること、多指ジェスチャ、デバイスを傾けること、または制御デバイスを裏返すことのうちの１つ以上を含むジェスチャであってもよい。さらにジェスチャは、ユーザの腕などのユーザの身体、またはスタイラスもしくは自由空間ユーザジェスチャを実行するのに適した他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。ユーザ入力は、例えば最初に、場面における実在物体２０５、２０６を特定し、物体に空間オーディオを関連付けるために使用され得る。その後に、物体の所在地の追跡を、センサ１０７からのセンサデータに基づいて自動的に行ってもよい。

上記の例で示された装置は、携帯可能な電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、携帯情報端末、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペンベースのコンピュータ、携帯可能でない電子デバイス、デスクトップコンピュータ、モニタ、スマートＴＶ、サーバ、ウェアラブル装置、仮想現実装置、またはそれらのうちの１つ以上のモジュール／回路構成としてもよい。よって、装置は、携帯型ではないデバイスに実施されてもよいが、ユーザの携帯デバイスからの空間オーディオの提示を実現する。

言及された任意の装置、および／または言及された所定の装置の他の特徴は、有効化、例えばスイッチをオンにされたときなどにのみ所望の動作を実行するよう構成されたものとなるように準備された装置により提供されてもよい。そのような事例では、非有効化時（例えばスイッチオフ状態）には必ずしもアクティブメモリに適切なソフトウェアをロードしていなくてもよく、有効化時（例えばオン状態）にのみ適切なソフトウェアをロードしてもよい。装置は、ハードウェア回路構成および／またはファームウェアを備えてもよい。装置は、メモリ上にロードされたソフトウェアを備えてもよい。そのようなソフトウェア／コンピュータプログラムは、同じメモリ／プロセッサ／機能ユニット上および／または１つ以上のメモリ／プロセッサ／機能ユニット上に記録されてもよい。

一部の例において、言及された所定の装置は、所望の動作を実行するよう適切なソフトウェアを用いて事前にプログラムされてもよく、この適切なソフトウェアは、例えばそのソフトウェアおよびそれに関連する機能性をロック解除／有効化するため、「キー」をダ
ウンロードするユーザが使用できるようにされてもよい。そのような例に関連する利点としては、デバイスにさらなる機能性が必要なときにデータをダウンロードする必要性が軽減されることを挙げることができ、これは、ユーザが有効化しないかもしれない機能性のためにそのような事前プログラムされたソフトウェアを記憶するのに十分な容量をデバイスが有することが分かっている例において有用な可能性がある。

言及された任意の装置／回路構成／要素／プロセッサは、言及された機能に加えて他の機能も有してもよく、これらの機能は、同じ装置／回路構成／要素／プロセッサにより実行されてもよい。開示された１つ以上の態様は、関連するコンピュータプログラムおよび適切な保持体（例えばメモリ、信号）に記録されたコンピュータプログラム（ソース／トランスポートエンコードされてもよい）の電子的な配布を含んでもよい。

記載された任意の「コンピュータ」は、同じ回路基板に、または回路基板の同じ領域／位置に、または同じデバイスに位置してもしなくてもよい、１つ以上の個々のプロセッサ／処理要素の集合を備えることができる。一部の例では、言及された任意のプロセッサの１つ以上が複数のデバイスにわたって分散されてもよい。同じまたは異なるプロセッサ／処理要素が、本願明細書に記載された１つ以上の機能を実行してもよい。

「シグナリング」という用語は、送信および／または受信される一連の電気／光信号として送信される１つ以上の信号を指してもよい。一連の信号は、前記シグナリングを構成する、１、２、３、４またはそれ以上の個別の信号成分または別個の信号を備えてもよい。これらの個別の信号の一部または全部は、無線または有線通信により同時に、順次に、および／または互いに時間的に重なるように送信／受信されてもよい。

言及された任意のコンピュータならびに／またはプロセッサおよびメモリ（例えばＲＯＭ、ＣＤ−ＲＯＭなどを含む）の任意の説明に関して、これらは、コンピュータプロセッサ、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field-Programmable Gate Array：ＦＰＧＡ）、および／または本発明の機能を実行するような形にプログラムされた他のハードウェアの構成要素を備えてもよい。

出願人は、ここに、本願明細書に記載された個々の特徴それぞれを単独で開示し、さらにかかる特徴２つ以上の任意の組合せを開示する。この開示は、かかる特徴または特徴の組合せが本願明細書に開示された任意の問題を解決するかどうかにはかかわらず、当業者の一般知識を踏まえて、かかる特徴または組合せが本明細書に基づき全体として実行可能となる程度まで行われており、クレームの範囲を限定しない。出願人は、開示された態様／例がそのような任意の個々の特徴からなっても、または特徴の組合せからなってもよいことを指摘する。当業者には当然のことながら、上記の説明に鑑みて、本開示の範囲内で様々な変更が加えられ得る。

基本となる新規な特徴が、その例に適用されて示され、記載され、指摘されたが、当然のことながら、記載されたデバイスおよび方法の形態および詳細について様々な省略および置換および変更が、本開示の範囲から逸脱することなく、当業者によって行われることが可能である。例えば、同じ結果を達成するために実質的に同じ機能を実質的に同じ形で実行する当該要素および／または方法ステップの全ての組合せが、本開示の範囲内であることが明示的に意図される。さらに、当然のことながら、開示された任意の形態または例に関連して示されかつ／または記載された構造および／または要素および／または方法ステップは、一般的な設計上の選択事項として、他の任意の開示または記載または示唆された形態または例に組み込まれてもよい。さらに、特許請求の範囲では、ミーンズ・
プラス・ファンクション節は、列挙された機能を実行するものとして本願明細書に記載された構造、さらに構造上の等価物のみならず、等価な構造も対象とすることを意図される。要するに、釘とねじとは、木製部品を留めるという状況において、釘が円柱状の表面を用いて木製部品同士を固定するのに対し、ねじはらせん状の表面を用いるという点で構造上の等価物ではないかもしれないが、釘とねじとは等価な構造体ではあり得る。

Claims

少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つのメモリと、を備えた装置であって、
前記コンピュータプログラムコードは、前記少なくとも１つのプロセッサに実行されると、前記装置に、
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを少なくとも実行させる装置。
前記所定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記装置に、前記空間オーディオの前記所定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することを実行させる、請求項１に記載の装置。
前記所定の方向の修正後、所定期間、前記センサデータにおいて前記実在物体が特定されないことで、前記実在物体の前記現在の所在地が所定期間不明であることに基づいて、前記装置に、
ｉ）前記空間オーディオの音源が環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示することと、
ｉｉ）前記空間オーディオの提示を停止することと、
のうちの少なくとも一方を実行させる、請求項１または２に記載の装置。
前記センサの現在の視野と、前記ユーザの現在の視野が少なくとも部分的に重複するように、前記センサによる前記センサデータに対応する前記実在場面の前記限られた領域は、前記ユーザの前記現在の視野に基づく、請求項１から３のいずれか一項に記載の装置。
前記センサデータは、前記実在場面の少なくとも所定量を直近の所定期間内に網羅し、前記直近の所定時間内に前記実在物体が特定されないという判定により、前記実在物体が前記実在場面内で特定不能であることで、
ｉ）前記空間オーディオが環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示することと、
ｉｉ）前記空間オーディオの提示を終了することと、
のうちの少なくとも一方を実行する、請求項１から４のいずれか一項に記載の装置。
少なくとも前記実在場面の前記センサデータにおいて前記所定の実在物体が自動特定されたことで、前記実在物体が前記実在場面に戻ったと判定されたことに基づいて、前記ユーザから見て、前記戻った実在物体への方向に対応する所定の方向を持つ前記空間オーディオを提示する、請求項５に記載の装置。
前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することは、前記ユーザが、前記空間オーディオを前記ユーザの視界から若干外れた方向から発せられているように知覚するように、前記所定の方向を、前記ユーザの前記視野の縁から閾値角内の方向に修正することを含む、請求項１から６のいずれか一項に記載の装置。
前記空間オーディオを提示するスピーカを有し、前記ユーザが目の前に前記実在場面を見ることを可能にするように構成された拡張現実デバイスと、
前記空間オーディオを提示するスピーカを有し、前記ユーザに、カメラが撮影し、前記ユーザの前記現在の視野を定義する前記実在場面の仮想現実視界を提供するように構成された仮想現実デバイスと、
前記拡張現実デバイスまたは前記仮想現実デバイスと通信する装置と、
のうちの１つを備える、請求項１から７のいずれか一項に記載の装置。
前記空間オーディオは、知覚される前記空間オーディオの音源の位置を前記所定の方向に定めるように、頭部伝達関数フィルタリングと、３次元音響パンニング方式（vector-base-amplitude panning）のうちの一方を利用して提示される、請求項１から８のいずれか一項に記載の装置。
前記センサは、
カメラであって、前記センサデータは前記実在場面のカメラ映像を含み、前記センサ視野は前記カメラの視野を含み、前記所定の実在物体の特定は、前記装置と通信する実在物体特定モジュールによる前記カメラ映像内の前記所定の実在物体の自動視覚的特定を含むようにするカメラと、
オーディオセンサアレイであって、前記センサデータは前記実在場面のオーディオマップを含み、前記オーディオマップは前記実在場面からオーディオが到来する方向を含み、前記センサ視野は前記オーディオセンサアレイの視野を含み、前記オーディオセンサアレイの視野は前記オーディオセンサアレイにより前記実在場面においてオーディオを検出する領域を示し、前記所定の実在物体の自動特定は、前記前記装置と通信する実在物体特定モジュールによる前記オーディオマップ内の前記所定の実在物体の自動聴覚的特定を含むようにするオーディオセンサアレイと、
のうちの少なくとも１つを備える、請求項１から９のいずれか一項に記載の装置。
前記空間オーディオは、特定用データに関連付けられ、前記特定用データは、前記空間オーディオが関連付けられる前記実在物体を定義する、請求項１から１０のいずれか一項に記載の装置。
実在場面における移動可能な、所定の実在物体に関連付けられ、前記実在場面の所定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記所定の実在物体の特定に基づいて前記所定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記所定の方向を、前記実在場面の前記所定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも１つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記所定の実在物体が特定できないことで、前記所定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む所定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記所定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記所定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む方法。
前記所定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記空間オーディオの前記所定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することをさらに含む、請求項１２に記載の方法。
前記所定の方向の修正後、前記センサデータにおいて前記実在物体が特定され、前記実在物体の現在の所在地が判定されたことに基づいて、前記空間オーディオが環境的オーディオとして知覚されるように、所定の方向を持たないように空間オーディオを提示する、請求項１２に記載の方法。
装置の少なくとも１つのプロセッサに実行されると、前記装置に、請求項１２から１４のいずれかに記載の方法を遂行させるように構成されるコンピュータプログラムプログラムコードを備える、コンピュータプログラム。