JP2020520576A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2020520576A5 JP2020520576A5 JP2019558784A JP2019558784A JP2020520576A5 JP 2020520576 A5 JP2020520576 A5 JP 2020520576A5 JP 2019558784 A JP2019558784 A JP 2019558784A JP 2019558784 A JP2019558784 A JP 2019558784A JP 2020520576 A5 JP2020520576 A5 JP 2020520576A5
- Authority
- JP
- Japan
- Prior art keywords
- real
- user
- view
- scene
- sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015654 memory Effects 0.000 description 26
- 230000003190 augmentative Effects 0.000 description 23
- 238000004590 computer program Methods 0.000 description 13
- 230000000875 corresponding Effects 0.000 description 13
- 210000003128 Head Anatomy 0.000 description 11
- 230000000007 visual effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000006011 modification reaction Methods 0.000 description 5
- 238000004091 panning Methods 0.000 description 5
- 239000011521 glass Substances 0.000 description 4
- 238000000034 method Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 210000000282 Nails Anatomy 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 229930002945 all-trans-retinaldehyde Natural products 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002207 retinal Effects 0.000 description 2
- 235000020945 retinal Nutrition 0.000 description 2
- 239000011604 retinal Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 240000000800 Allium ursinum Species 0.000 description 1
- 210000000887 Face Anatomy 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001079 digestive Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- -1 goggles Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Description
本開示は、空間オーディオの分野に関し、特に場面における物体の所在地が常に分かっているわけではない状況での空間オーディオの提示に関する。さらに、関連する方法、コンピュータプログラム、装置にも関する。
実在する物質を、グラフィックやオーディオで拡張することが一般的になってきている。拡張現実/仮想現実コンテンツのクリエーターにより、現実世界を拡張するコンテンツを次々と提供しているのである。コンテンツクリエーターの創造性が広がるにつれ、あるいはより現実に近い体験が求められるにつれ、拡張現実を体験するための、エンドユーザに対するハードウェア要件は厳しくなり得る。そのようなハードウェア的な限定にもかかわらず、商業的に十分な水準のコンテンツ提供を保証することが重要となる。
本明細書における以前に公開された文書または任意の背景の列挙または説明は、必ずしも、その文書または背景が最新技術の一部であることまたは一般知識であることの自認であると理解されてはならない。本開示の1つ以上の態様/例は、背景の課題の1つ以上に対処するものであってもよく、そうでなくてもよい。
第1例示的態様では装置が提供される。当該装置は、
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、
前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに実行されると、前記装置に、
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを少なくとも実行させる。
少なくとも1つのプロセッサと、
コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えた装置であって、
前記コンピュータプログラムコードは、前記少なくとも1つのプロセッサに実行されると、前記装置に、
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを少なくとも実行させる。
1つ以上の例では、前記空間オーディオは、拡張現実コンテンツの一部をなしていてもよい。1つ以上の例では、前記実在物体の所在地は、前記物体の自動特定およびその後の所在地の決定に基づき、前記装置に報告される。
1つ以上の実施形態では、前記特定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記装置に、前記空間オーディオの前記特定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することを実行させる。
1つ以上の実施形態では、前記特定の方向の修正後、所定期間、前記センサデータにおいて前記実在物体が特定されないことで、前記実在物体の前記現在の所在地が所定期間不明であることに基づいて、前記装置に、
i)前記空間オーディオの音源が環境的オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示することと、
ii)前記空間オーディオの提示を停止することと、
のうちの少なくとも一方を実行させる。
i)前記空間オーディオの音源が環境的オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示することと、
ii)前記空間オーディオの提示を停止することと、
のうちの少なくとも一方を実行させる。
1つ以上の実施形態では、前記センサの現在の視野と、前記ユーザの現在の視野が少なくとも部分的に重複するように、前記センサによる前記センサデータに対応する前記実在場面の前記限られた領域は、前記ユーザの前記現在の視野に基づく。
1つ以上の例では、前記ユーザの現在の視野が前記センサの現在の視野に収まるように、前記センサによる前記センサデータに対応する前記実在場面の前記限られた領域は、前記ユーザの現在の視野より大きく、かつこれに揃っている。
1つ以上の実施形態では、前記センサデータは、前記実在場面の少なくとも所定量を直近の所定期間内に網羅し、前記直近の所定時間内に前記実在物体が特定されないという判定により、前記実在物体が前記実在場面内で特定不能であることで、
i)前記空間オーディオが環境的オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示することと、
ii)前記空間オーディオの提示を終了することと、
のうちの少なくとも一方を実行する。
i)前記空間オーディオが環境的オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示することと、
ii)前記空間オーディオの提示を終了することと、
のうちの少なくとも一方を実行する。
1つ以上の実施形態では、少なくとも前記実在場面の前記センサデータにおいて前記特定の実在物体が自動特定されたことで、前記実在物体が前記実在場面に戻ったと判定されたことに基づいて、前記ユーザから見て、前記戻った実在物体への方向に対応する特定の方向を持つ前記空間オーディオを提示する。
1つ以上の実施形態では、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することは、前記ユーザが、前記空間オーディオを前記ユーザの視界から若干外れた方向から発せられているように知覚するように、前記特定の方向を、前記ユーザの前記視野の縁から閾値角内の方向に修正することを含む。
1つ以上の実施形態では、前記装置は、
前記空間オーディオを提示するスピーカを有し、前記ユーザが目の前に前記実在場面を見ることを可能にするように構成された拡張現実デバイスと、
前記空間オーディオを提示するスピーカを有し、前記ユーザに、カメラが撮影し、前記ユーザの前記現在の視野を定義する前記実在場面の仮想現実視界を提供するように構成された仮想現実デバイスと、
前記拡張現実デバイスまたは前記仮想現実デバイスと通信する装置と、
のうちの1つを備える。
前記空間オーディオを提示するスピーカを有し、前記ユーザが目の前に前記実在場面を見ることを可能にするように構成された拡張現実デバイスと、
前記空間オーディオを提示するスピーカを有し、前記ユーザに、カメラが撮影し、前記ユーザの前記現在の視野を定義する前記実在場面の仮想現実視界を提供するように構成された仮想現実デバイスと、
前記拡張現実デバイスまたは前記仮想現実デバイスと通信する装置と、
のうちの1つを備える。
1つ以上の実施形態では、前記空間オーディオは、知覚される前記空間オーディオの音源の位置を前記特定の方向に定めるように、頭部伝達関数フィルタリングと、3次元音響パンニング方式(vector-base-amplitude panning)のうちの一方を利用して提示される。
1つ以上の実施形態では、前記センサは、
カメラであって、前記センサデータは前記実在場面のカメラ映像を含み、前記センサ視野は前記カメラの視野を含み、前記特定の実在物体の特定は、前記装置と通信する実在物体特定モジュールによる前記カメラ映像内の前記特定の実在物体の自動視覚的特定を含むようにするカメラと、
オーディオセンサアレイであって、前記センサデータは前記実在場面のオーディオマップを含み、前記オーディオマップは前記実在場面からオーディオが到来する方向を含み、前記センサ視野は前記オーディオセンサアレイの視野を含み、前記オーディオセンサアレイの視野は前記オーディオセンサアレイにより前記実在場面においてオーディオを検出する領域を示し、前記特定の実在物体の自動特定は、前記前記装置と通信する実在物体特定モジュールによる前記オーディオマップ内の前記特定の実在物体の自動聴覚的特定を含むようにするオーディオセンサアレイと、
のうちの少なくとも1つを備える。
カメラであって、前記センサデータは前記実在場面のカメラ映像を含み、前記センサ視野は前記カメラの視野を含み、前記特定の実在物体の特定は、前記装置と通信する実在物体特定モジュールによる前記カメラ映像内の前記特定の実在物体の自動視覚的特定を含むようにするカメラと、
オーディオセンサアレイであって、前記センサデータは前記実在場面のオーディオマップを含み、前記オーディオマップは前記実在場面からオーディオが到来する方向を含み、前記センサ視野は前記オーディオセンサアレイの視野を含み、前記オーディオセンサアレイの視野は前記オーディオセンサアレイにより前記実在場面においてオーディオを検出する領域を示し、前記特定の実在物体の自動特定は、前記前記装置と通信する実在物体特定モジュールによる前記オーディオマップ内の前記特定の実在物体の自動聴覚的特定を含むようにするオーディオセンサアレイと、
のうちの少なくとも1つを備える。
1つ以上の実施形態では、前記空間オーディオは、特定用データに関連付けられ、前記特定用データは、前記空間オーディオが関連付けられる前記実在物体を定義する。
第2態様では、方法が提供される。当該方法は、
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む。
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む。
1つ以上の実施形態では、前記特定の方向の修正後、前記センサデータで前記実在物体が特定され、前記実在物体の現在の所在地が判定されると、前記空間オーディオの前記特定の方向を前記実在物体の判定された前記現在の所在地に対応するようにさらに修正することをさらに含む。
1つ以上の実施形態では、前記特定の方向の修正後、前記センサデータにおいて前記実在物体が特定され、前記実在物体の現在の所在地が判定されたことに基づいて、前記空間オーディオが環境的オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示する。
第3の態様では、コンピュータプログラムコードが記憶されたコンピュータ可読媒体が提供される。前記コンピュータ可読媒体と前記コンピュータプログラムコードとは、少なくとも1つのプロセッサ上で実行されると、
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む方法を実行する。
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することと、
を含む方法を実行する。
さらに別の態様では装置が提供される。当該装置は、実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオに関して、
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを実行するように構成された手段を含む。
前記実在場面のセンサデータにおける前記特定の実在物体の特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、
前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにおいて前記特定の実在物体が特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された判定済み所在地への方向を含む、判定済み方向を含む特定の方向から発せられるように知覚されるような聴覚的提示を行うことと、前記ユーザの現在の視野と、前記センサの現在の視野との一方または両方が前記判定済み所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記判定済み方向から、前記ユーザの前記現在の視野外の方向に修正することを実行するように構成された手段を含む。
本開示は、1つ以上の対応する態様、例、または特徴を、単独または様々な組合せで含み、これは、その組合せまたは単独で特定的に記載(特許請求を含む)されたか否かにかかわらない。記載される機能のうちの1つ以上を実行する対応する手段および対応する機能ユニット(例えば機能イネーブラ、空間オーディオ提示部、実在物体特定部、実在物体所在地追跡部、配向センサ)も本開示の範囲内である。
開示された方法の1つ以上を実装する対応するコンピュータプログラムも本開示の範囲内にあり、記載された例の1つ以上に含まれる。
上記の摘要は、単なる例示であり非限定的なものとして意図されている。
以下、単なる例として、添付の図面を参照しながら説明を行う。
図1は、拡張オーディオを提示する例示的装置を示す。
図2は、第1構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図3は、第2構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図4は、第3構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図5は、第4構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図6は、第5構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図7は、第6構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図8は、第7構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図9は、第8構成における、実在場面の概略的平面図であり、ユーザの視点からの当該実在場面の現在の見え方を示す。
図10は、例示的方法を示すフローチャートである。
図11は、コンピュータ可読媒体を示す。
仮想現実(VR)は、メガネ、ゴーグル、網膜ディスプレイなどのヘッドセット、またはユーザを囲む1つ以上のディスプレイ画面を備えるVRディスプレイを使用して、ユーザに没入型仮想体験を提供し得る。仮想現実装置は、VRディスプレイを含んでも含んでいなくてもよく、仮想現実場面を表すマルチメディアVRコンテンツをユーザに提示して、ユーザが仮想現実場面の中に存在するシミュレーションを実現してもよい。よって、1つ以上の例では、VR装置は、ユーザに対してVRコンテンツを表示するためのVRディスプレイにシグナリングを提供し、1つ以上の別の例では、VR装置は、例えばヘッドセットの一部のようにVRディスプレイの一部であってもよい。したがって、仮想現実場面は、ユーザがあたかもその場にいるようにその場面に没入していると感じられ、ユーザの周りに表示されたVRコンテンツでVR空間を見回すように、3次元仮想現実空間内に表示されたVRコンテンツを含んでもよい。仮想現実場面は、実在場面を再現し、ユーザが実在の所在地に物理的に存在しているようにシミュレートしてもよいし、または仮想現実場面は、コンピュータが生成したものであっても、コンピュータが生成したものと現実世界のマルチメディアコンテンツとの組合せであってもよい。このように、VRコンテンツは、表示用に仮想現実場面を生成し得る映像(例えば静止画または動画)、オーディオおよび/またはこれらに伴うデータを含むものと考えられてもよい。したがって、VR装置は、VRコンテンツを表示する仮想で3次元のVR空間を生成することによって、VR場面を提供してもよい。仮想現実空間は、広視野または360°の視野(さらに水平方向の視野の上方および/または下方を含む場合もある)を有するビデオを含む(パノラマ式生中継などの)パノラマ式ビデオにより提供されることもある。パノラマ式ビデオは、ユーザの視野よりも広く、または当該パノラマ式ビデオの表示を意図されている視野よりも広くなるような広視野を有してもよい。
ユーザに提供されたVRコンテンツは、例えばVRコンテンツ撮影デバイスが撮影した現実世界のライブ映像または録画を含んでもよい。VRコンテンツ撮影デバイスの例としては、Nokia TechnologiesのOZOデバイスが挙げられる。VR場面は、通常、ユーザがVRディスプレイで見ることができる部分よりも大きいため、VR装置はVRディスプレイ上での表示のために、VR場面の仮想現実視界をユーザに提供してもよい。このVR視界では、一度に見ることができるVRコンテンツの空間的部分を示すのみである。VR装置は、ユーザの頭部および/または目の動きに基づいて、VR場面内のVR視界のパンニングを実現してもよい。VRコンテンツ撮影デバイスは、1人以上のユーザに表示するためにVRコンテンツを撮影するように構成されてもよい。VRコンテンツ撮影デバイスは、1つ以上のカメラを備えてもよく、任意で、ある撮影視点の周囲の視聴覚場面を捉えるように構成された1つ以上の(例えば指向性)マイクロフォンを備えてもよい。一部の例では、VRコンテンツ撮影デバイスは、物理的に離して設けられた複数のカメラおよび/またはマイクロフォンを備える。これにより、VRコンテンツ撮影デバイスを用いて、演奏を撮影(および録画)してもよい。このとき、VRコンテンツ撮影デバイスはステージ上に置かれて、演奏者がその周囲を動き回ってもよいし、または観客の視点からの撮影であってもよい。いずれの場合も、VRコンテンツの消費者は、VR装置のVRディスプレイを用いて周囲を見回し、あたかもその場にいるように撮影地での演奏を体験し得る。
拡張現実(AR)では、メガネ、ゴーグル、網膜ディスプレイなどのARディスプレイを用いて、現実世界(メガネやゴーグルを通して見たものなど)の視界を、コンピュータが生成したコンテンツやコンピュータが提供するコンテンツによって拡張してもよい。拡張現実装置は、ARディスプレイを含んでも含んでいなくてもよく、現実世界のユーザの視界に重ねるように構成されたマルチメディアARコンテンツを提示してもよい。これにより、拡張現実のユーザは、拡張現実装置が提供するコンテンツによって拡張または補完される、ユーザの周囲の現実世界環境を見ることができる。これは、現実世界のユーザの視界に重ねてもよく、および/またはユーザに聞こえる聴覚現実世界場面に聴覚的に重ねてもよい。コンテンツは、絵、写真、動画、図、文字情報、聴覚コンテンツなどのマルチメディアコンテンツを含んでもよい。これにより、拡張現実が、コンピュータが生成したグラフィックおよび/またはオーディオコンテンツを追加することにより現実世界を直接見ることを可能にする一方、仮想現実のユーザは、実質的に現実世界を直接見ることなしに、仮想現実装置のVRディスプレイ上に提示されたコンテンツを見ることができるのみである。しかし、VRコンテンツは、実在場面のライブコンテンツを含んでもよく、したがって、このVRコンテンツは、現実世界のライブビューをVRディスプレイ上に拡張するコンテンツを含み得ることから、ARコンテンツとも考えられる。
拡張現実コンテンツ(ユーザの目前の現実世界のライブ映像を含む、仮想現実コンテンツを含む)には、方向性を有する空間オーディオが設けられてもよく、これにより、空間内の特定の方向または点から発せられているように知覚するように当該オーディオは提示される。空間内の特定の方向または点は、現実世界のユーザの視界に紐付けられていてもよく、これにより、空間オーディオが知覚される特定の方向が現実世界のある場面に紐付けられた点に位置決めされる。空間オーディオの空間的位置決めは、マルチチャネルオーディオ配置の各チャネルにオーディオが提示される程度によって実現されてもよく、3Dオーディオ効果(例えば、頭部伝達関数を利用して、ユーザへ提示するためにオーディオが位置決め可能な空間オーディオ空間を作成すること)によって提示されてもよい。空間オーディオは、頭部伝達関数フィルタリング(Head Related Transfer Function Filtering:HRTF)技術を用いてヘッドフォンによって提示され、スピーカについては、3次元音響(Vector Base Amplitude:VBA)パンニング技術を用いて提示され、知覚されるオーディオコンテンツの音源の位置を決める。
拡張現実コンテンツが空間オーディオを含み、この空間オーディオの位置決めがある場面内の実在物体の位置に依存し、場面内の実在物体の位置がこの場面の限られた視野を有するセンサによって判定される場合、空間オーディオの位置決めが困難であり得る。特に、実在物体がセンサの視野外にある場合、装置は空間内で空間オーディオをどこに位置付けるかを把握できない場合がある。高精度室内位置決めシステムなどの物体追跡システムを使用して物体を追跡すると、センサの限られた視野という技術的な限界がなくなり、システムはその物体がどこであるかを随時「見る」ことができる。しかし、このような物体追跡システムは実現が難しかったり時間を要したりする。よって、視野の限られた物体追跡ハードウェアで、ユーザに提供される拡張現実体験を管理することは困難であり得る。
そこで、ユーザが存在する実在場面を拡張するように構成された装置を開示する。具体的には、ユーザに場面内の実在物体から発せられると知覚されるように、空間オーディオを聴覚提示する。この装置は、実在場面ないの移動可能な実在物体を特定および追跡可能なように、実在場面に対する限られた視野を有するセンサを使用してもよい。
図1の例では、空間オーディオの聴覚的提示を管理する装置101を示す、システム100を示す。
装置101は、コンピュータプログラムコードを実行可能に構成されたプロセッサ101Aおよびメモリ101Bを備えるか、これらに接続されてもよい。装置101は、プロセッサ101Aおよびメモリ101Bをそれぞれ1つのみ有してもよいが、別の実施形態では、複数のプロセッサおよび/または複数のメモリが利用されてもよいことが理解されよう(例えば、プロセッサ/メモリの種類は同じでも異なっていてもよい)。さらに、装置101は特定用途向け集積回路(ASIC)であってもよい。
プロセッサは、メモリ内に、コンピュータプログラムコードとしてメモリに記憶された指示に応じて、コンテンツ記憶部103および実在物体特定モジュール102等のその他構成要素から受信した情報を実行/処理することに特化した汎用プロセッサであってもよい。プロセッサのそのような動作により生成された出力シグナリングは、拡張現実コンテンツをユーザに提示する拡張現実装置104等のさらなる構成要素に提供される。
メモリ101B(必ずしも単一のメモリ単位ではない)は、コンピュータプログラムコードを記憶するコンピュータ可読媒体(この例ではソリッドステートメモリだが、ハードドライブ、ROM、RAM、フラッシュメモリ等その他種類のメモリであってもよい)。コンピュータプログラムコードは、プロセッサ上で動作時に、プロセッサが実行可能な指示を記憶する。1つ以上の例示的実施形態において、メモリとプロセッサとの間の内部接続が、メモリとプロセッサとの間のアクティブ接続を実現することが理解されたい。これにより、プロセッサがメモリに記憶されたコンピュータプログラムコードにアクセスできる。
この例では、各プロセッサおよびメモリは、互いに電気的に内部接続される。これにより、各構成要素間の電気的通信が可能となる。この例では、構成要素は互いに近接しており、ASICを形成する。言い換えると、この構成により、電子デバイスに実装可能な単一のチップ/回路となるように一体化される。いくつかの例では、構成要素のうちの1つ、複数、または全てが、互いから離して設けられてもよい。
図1は、ユーザの実在場面に対する視覚および/または聴覚的認識に対して提示される拡張現実コンテンツを記憶し得るコンテンツ記憶部103を示す。この例では、拡張現実コンテンツは少なくとも、ユーザ周囲の実在場面において、移動可能な特定の実在物体に関連付けられるように構成された空間オーディオを含む。したがって、ユーザの周囲の実在場面に対する認識が、空間オーディオにより拡張され得る。空間オーディオは、事前に録音された現実世界の音声のオーディオ、コンピュータ合成オーディオ、または別の実在場面からのオーディオに基づくオーディオ(修正されてもされていなくてもよい)を含んでもよい。一例として、モノローグ含む空間オーディオが実在場面における特定の人物に関連付けられてもよい。これにより、実在場面で聞かれる音が拡張され、ユーザにとっては、当該特定の人物の心の声のように知覚され得る。別の例では、空間オーディオは特定の人物に関連付けられた効果音を含んでもよい。ユーザはこの効果音が当該特定の人物に関連付けられていることを知っており、そのため効果音は特定の人物の所在地を表す聴覚的マーカとして作用してもよい。ARコンテンツ、特に空間オーディオは、実在場面に存在し、空間オーディオが関連付けられる実在物体を示す、特定用データを含んでもよい。特定用データは、特定の人物、人物の種類(例えば、男性、女性、子供)、特定の物体、物体の種類(例えば、ボール、ドローン)、あるいは場面中で自力または他力で移動可能なその他あらゆる物を特定してもよい。別の例では、ARコンテンツは特定用データを含まず、装置101またはその他装置が、空間オーディオに関連付けられる実在場面の実在物体を決定してもよい。したがって、空間オーディオはギター音を含んでもよく、実在場面でギターが確認されると、空間オーディオとしてのギター音が実在するギターから聞こえてくるかのように認識されるように提示されてもよい。別の例では、空間オーディオは特定の人物に関連付けられた短い曲、ジングル、または効果音を含んでもよい。実在場面内で特定の人物が確認されると、その曲、ジングル、または効果音がその人物から流れてくると知覚されるように提示される。
この例では、装置101は拡張現実において少なくとも空間オーディオを提示する拡張現実装置104の一部である。1つ以上の別の例では、装置101はVR装置の一部であってもよい。このVR装置には、ユーザが存在する実在場面のライブ映像を含むVRコンテンツが提供される。1つ以上の例では、装置101はARまたはVR装置から独立して、これらと通信することでその機能を実行し、ARコンテンツをユーザに提示するものであってもよい。この例では、AR装置104および装置101はARプロセッサ101Aおよびメモリ101Bを共有するが、別の例ではそれぞれプロセッサおよび/またはメモリを有してもよい。
装置101およびAR装置104は、ARヘッドセット105(この例では、ヘッドフォン106を含む)を使用して、空間オーディオを聴覚的に提示してもよい。
実在物体特定モジュール102は、装置101に対し、実在場面内の物体の特定を実現するものであってもよい。実在物体特定モジュール102は、物体の所在地が特定され追跡可能となるように、実在場面内の物体の自動特定を実現してもよい。実在物体特定モジュール102は、センサ107からセンサデータを受信するように構成されてもよい。センサデータは、実在場面における実在物体の所在地を示してもよい。実在物体特定モジュール102は、センサデータを処理して、場面内の実在物体の所在地を特定してもよい。この例では、装置101は、実在物体特定モジュール102から、実在物体の所在地を示す情報を受信するように構成される。これにより、空間オーディオを、適宜当該物体に関連付けることができる。
1つ以上の例では、実在物体特定モジュール102の機能が装置101により実行されてもよい。
この例では、センサ107はARヘッドセット105に搭載されるが、別の例ではセンサ107はARヘッドセット105のユーザに関連付けられた、またはそのユーザから離れたその他の場所に設けられてもよい。
上述のように、特定の実在物体の所在地は、実在場面のセンサデータの特定の実在物体の自動特定により判定されてもよい。これにより、装置101は、場面内の特定の実在物体の所在地に対応するように、空間オーディオの特定の方向を定めることができる。したがって、空間オーディオは意図した方向から到来したと知覚される。センサ107は、任意の時点で、実在場面の限定された領域を網羅するセンサ視野を有する。センサ視野は、実在場面に対するユーザの視野に対応してもよく、例えば、平均的な人間の視覚に基づくものであってもよい。1つ以上の例では、AR装置105に搭載されたセンサがユーザの頭部と同じ方向を向くこと等により、センサ視野はユーザの視野に重複してもよい。1つ以上の例では、センサ視野は、ユーザの視野の略中心となるように構成されてもよい。1つ以上の例では、センサ視野は、ユーザの視野の略中心で、ユーザの視野よりも広くまたは狭く構成されてもよい。若干より広い視野を有するセンサは、ユーザの視界から若干外れた実在場面の部位を含むセンサデータが得られるので有利である。このデータは、特定の実在物体がユーザの視野に入る前に、当該物体に対して分析可能である。
センサ107は、センサデータを提供するように構成される。センサデータから、装置101は場面における実在物体の所在地についての情報を得られる。センサ107は単一のセンサまたは複数のセンサを含んでもよい。ただし、1つ以上のセンサにより提供される物体の全視野は、実在場面の総空間範囲には及ばない。1つ以上の例では、水平方向軸およびユーザ周囲360度にかけて延在する方向に広がる実在場面に基づいて、1つ以上のセンサは上述の360度未満の、実在場面の領域(270、180、150度未満等)を同時に検知するように構成および配置されてもよい。したがって、1つのセンサの視野、または複数のセンサの合成視野は、実在場面全体またはユーザ周囲の360度未満であり得る。
センサ107はカメラを有してもよい。したがって、センサデータは実在場面のカメラ映像を含んでもよい。任意の時点で、カメラの視野内で、カメラ映像は撮影される。したがって、この例では、特定の実在物体の自動特定は、カメラ映像内の特定の実在物体の自動視覚的特定を含む。カメラは、可視光カメラ、あるいは赤外線、紫外線、またはその他電磁波長カメラを含んでもよい。
さらに/あるいは、センサ107はオーディオセンサアレイを含む。したがって生成されるセンサデータは、実在場面のオーディオマップを含む。当該マップは、実在場面からオーディオが到来する方向を含む。センサ視野は、オーディオセンサアレイが実在場面からのオーディオを検知し得る範囲に対して、オーディオセンサアレイの視野を含む。したがって、オーディオセンサアレイは視野に対する各種方向を向いて、音の到来方向を判定するように構成される指向性マイクロフォンアレイを含んでもよい。これにより、場面のオーディオの視覚的標示またはマップが提供される。したがって、特定の実在物体の自動特定は、オーディオマップにおける特定の実在物体の自動オーディオ特定を含む。別の例では、センサは、場面内の物体を表すセンサデータを生成するように構成されたレーダーまたはソナーセンサを含む。
使用されるセンサ(1つ以上)の種類によらず、センサデータは、少なくともユーザ周囲の実在場面内に存在する移動可能物体に関するコンテンツを表し得る。GoogleのプラットフォームTangoは、任意の時点で、実在場面の限られた視野を有するセンサから生成される当該実在場面のマップを作り出す機能を呈し得るシステムの一例である。
装置101の動作をより詳細に以下に説明する。要約すると、センサ107からのセンサデータにより特定の実在物体が現状特定できないことで、特定の実在物体の現在の生の所在地が不明である場合に、装置101は、最後に把握した方向を含む判定済み方向を含む特定の方向の聴覚的提示を、コンテンツ記憶部103から空間オーディオのユーザに提供してもよい。判定済み方向は、前回(例えば、直近に)実在場面で実在物体が、実在物体特定モジュール102またはユーザ等により特定された方向を含む。最後に把握した方向は、実在物体特定モジュール102またはユーザ等により、最後に実在場面で実在物体が認識された所在地への方向(例えば、直近で判定された方向)を含む。ユーザが、場面の現在の視野を前記判定済み方向または最後に把握した所在地を含む所在地に動かした場合、装置は、少なくともセンサデータにより特定の実在物体が特定されるまで、最後に把握した方向から空間オーディオが知覚された特定の方向が、ユーザの現在の視野外の方向へ変更する。
以下の例および説明において、装置101は、現在の所在地が不明の場合、最後に把握した方向を含む特定の方向から、聴覚的提示を空間オーディオのユーザに提供してもよい。ただし、装置101が最後に把握した方向以外の判定済み方向を使用し得ることを理解されたい。これにより、視野が限られ、その視野に物体がしばらく含まれなかった物体追跡用センサデータを利用した場合に生じるような、物体の推定所在地(すなわち、最後に把握した方向)と、移動先との不整合が避けられるという技術的効果が得られる。したがって、センサ視野が移動可能な実在物体を含まない場合、その実在物体は、装置の把握していない物体の周りを移動している可能性がある。ユーザの視野内に実在物体が見えない限り、空間オーディオが実在物体の最後に把握した所在地から提示され、その所在地が、実在物体が移動したかしていないかに応じて、実在物体の実際の所在地に等しかろうと、等しくなかろうと、拡張現実コンテンツに対するユーザの知覚にさほどの影響はなかろう。しかし、ユーザが視野を動かして、最後に把握した所在地が含まれたにもかかわらず、既に実在物体がその所在地から装置が把握していない所在地に移動しており、存在しなければ、ユーザは空間オーディオが実在物体の所在地に対応するように配置されていないと認識し、混乱したり、うろたえたりしてしまうかもしれない。装置は、オーディオが関連付けられた実在物体が移動可能で、常に動作追跡されていないまたは、任意の時点で、物体の限られた範囲内のみ追跡されるような状況で、空間オーディオの提示を向上するという技術的効果を提供し得る。
図2は、実在場面201内のユーザ200の例示的平面図である。この例では、ユーザは拡張現実メガネを含み得る、ARヘッドセット105を使用している。ユーザはさらに、ヘッドフォン106を装着しているため、ユーザに空間オーディオが提示できる。点線202、203は、実在場面201に対するユーザの視野を示す。この例では、センサ107の視野は、ユーザ200の視野に略等しくなるように配置および構成される。したがって、点線202、203は、センサ107の視野も示し得る。
図2は、実在場面201に対するユーザの視界204も示す。したがって、点線202、203はユーザの視界204の左および右端に対応し得る。ユーザは、その視界204内に、第1物体205および第2物体206を含む2つの移動可能な実在物体が見えている。第1物体205はギターを弾くふりをしている第1ミュージシャンを含む。第2物体206は同じくギターを弾くふりをしている第2ミュージシャンを含む。ARコンテンツは、第1および第2物体205および206に関連付けられた、プロの弾いたギターサウンドを含み得る。これにより、第1および第2ミュージシャンがとても上手に演奏しているように見える。
第1および第2物体205および206の所在地は、それぞれ円207および208として、平面図に概略的に示されている。
図2に示す構成では、物体205および206はセンサ107の視野内に含まれるため、実在物体特定モジュール102は第1および第2物体の所在地を判定できる。実在物体特定モジュール102は、物体認識、顔認証、歩行解析の少なくとも1つ、あるいは物体における物体を特定するその他任意の技術を利用してもよい。これにより、それら物体の所在地が、装置101またはAR装置104に提供される。この例では、ARコンテンツは、それぞれ第1および第2物体205、206に関連付けられる第1空間オーディオトラックおよび第2空間オーディオトラックを含む空間オーディオを含む。装置101またはAR装置104は、第1音波アイコン210で示す第1空間オーディオトラックの聴覚的提示を特定の方向により提供してもよい。これにより、ユーザの視界に対する第1物体205/207に対応する方向から到来するように知覚される。装置101またはAR装置104は、第2音波アイコン211で示す第2空間オーディオトラックの聴覚的提示を特定の方向により提供してもよい。これにより、ユーザの視界に対する第2物体206/208に対応する方向から到来するように知覚される。したがって、空間オーディオトラックが知覚され聴こえてくる所在地を示す第1および第2アイコン210、211は、関連付けられた実在物体の物理的所在地に重複するように示されている。オーディオトラックは、ダイエジェティックに提示されるものとされ得る。実在物体の物理的所在地に物理的にスピーカを置くのではなく、装置101またはAR装置104は、HRTFまたはVBAパンニング技術を使用して、空間オーディオトラックの知覚音源を配置できることが理解されよう。第1および第2実在物体205、207;206、208がセンサ107の視野内にとどまる限り、実在物体特定モジュール102は物体の特定および、その実在場面における所在地の追跡が可能である。そして、物体の所在地は装置101またはAR装置104に報告されてもよい。これにより、第1空間オーディオトラックおよび第2空間オーディオトラックの知覚された特定の所在地が、物体の現在所在地に応じて配置可能である。ARヘッドセット105は、配向センサ(加速度計等)を含んでもよい。これにより、ユーザの視点から視線方向が観察される。したがって、ユーザの視線方向に基づいて、装置101またはAR装置104は各オーディオトラックの特定の方向を、ユーザの視線方向を考慮して調整できる。実在物体特定モジュール102により報告された物体内の1つ以上の移動可能な実在物体の所在地と、1つ以上の配向センサから報告されたユーザの頭部の向きに基づいて、AR装置104または装置101は、ユーザの頭部に対する物体への方向を判定できる。このユーザの頭部に対する物体への方向は、1つ以上の空間オーディオトラックが到来すると知覚される特定の方向として利用されてもよい。
図3の例は、図2の例と同様、実在場面201の平面図と、ユーザの視界204を示す。この図では、例えば第1ミュージシャン205に注目するため、ユーザは頭を右に向けて、実在場面に対する視線方向を変えている。ユーザの視線方向の移動により、第2物体206はセンサ107の視線202、203(およびユーザの視野)内から消えている。したがって、第2実在物体206はセンサ107の視野外に存在するため、センサ107からのセンサデータで特定できなくなり、第2実在物体206の現在の所在地は分からなくなる。それでも、装置101またはAR装置104は、実在場面において第2実在物体206が特定された、最後に把握した所在地301に向かう方向を含む最後に把握した方向300を含む特定の方向により、第2空間オーディオトラックのユーザ200に対して、聴覚的提示を提供しようとし続け得る。したがって、円208は、最後に認識した所在地301にとどまった第2物体の現在の所在地を示す。この所在地は、物体206がセンサ107の視野内に合った時に実在物体特定モジュール102により判定された、またはユーザ入力により判定されたものである。最後に把握した所在地301に対する第2アイコン211の所在地は、第2オーディオトラックが最後に把握した所在地301に向かった方向300から到来するように知覚されるように音響的に提示されていることを示す。
センサ107の視野外にある第2物体206は、装置101またはAR装置104が認識していない場面201内で動き得る。したがって、第2物体206センサ107の視野外にある際に、装置101またはAR装置104は第2物体206の実際の所在地がどこかにかかわらず、最後に把握した所在地を利用するように構成されてもよい。ここでもユーザの頭部に対する、最後に把握した所在地への方向は、第2オーディオトラック206が実在場面201に対して、固定された最後に把握した所在地から到来するように知覚されるように、配向センサからのデータに基づいて判定されてもよい。
第1実在物体205はセンサ107の視野内にとどまっており、したがって第1物体205のあらゆる動きは追跡され、第1空間オーディオトラックの特定の方向を提示することで第1物体205の所在地を追跡してもよい。
図4の例は、ユーザの視線方向が図3から変化しておらず、第2物体206が実在場面201内で移動している。第2円208の所在地が、第2物体206の実際の現在の位置を示す。センサ107の視野202および203が限られているため、AR装置104または装置101は、場面内のこの第2物体206の移動を把握していない。したがって、AR装置104または装置101はアイコン211で示される第2空間オーディオトラックを、最後に把握した所在地301から提示し続けようとする。なお、第2物体206は動いているため、第2空間オーディオトラックを提示するこの特定の方向は不正確である。ただし、第2物体206はユーザの視界外でもあるので(第2物体206は視界204に提示されていない)、このような不正確さは、ユーザのARコンテンツに対する認識を邪魔しない場合もある。
次に、ユーザが、第1物体206があった位置(すなわち、アイコン211で示す、ユーザが第2空間オーディオトラックを知覚する、最後に把握した所在地301)を向いた場合について説明する。
図5の例は、ユーザが図2に示す方向に戻すように、視線方向を変えた状態を示す。すなわち、ユーザは現在の視野202、203を、上記最後に把握した所在地301(点線で示す)を含む位置へと動かしている。ただし、上述のように第2物体206は既に最後に把握した所在地には存在せず、円208に示す所在地に存在する。したがって、第2空間オーディオトラックの到来を知覚する方向(アイコン211で示す)と、第2物体(現在見えない所在地208に存在)との不一致を感じ得る。
図6の例は、センサ107の限られた視野を補うことができるように、装置101が実施し得る変形例を示す。
図6の例は、図5で説明したものと同じ状況を示す。ユーザは、第2空間オーディオトラックの聴覚的提示を知覚する場所(アイコン211で示す)を向いており、そのため視野202および203は最後に把握した所在地を含む。装置101は、第2空間オーディオトラックの特定の方向を矢印600で示すように、最後に把握した方向から、ユーザの現在の視野202、203外の方向601に修正している。これは少なくとも第2実在物体206がセンサ107からのセンサデータで(例えば自動的に)特定されるまで続く。したがって、装置101およびAR装置104に、第2物体206の最後に把握した所在地から更新された所在地が提供されていない、または装置101およびAR装置104は更新された所在地を判定できない場合、装置101は、空間オーディオの提示を、特定の方向から知覚されるように維持しながら、特定の方向をユーザの現在の視野外の所在地へと修正してもよい。上述のように、センサデータを取得するセンサ(複数可)の視野は、ユーザ200の視野と同じでも、より広くても狭くてもよい。センサデータがユーザの視野よりも広い視野を示す場合、装置101は、ユーザの視野内に特定の方向が入る直前に、第2物体206の存在を判定可能であり得る。このようにセンサデータがより広い視野に対応することで、物体が最後に把握した所在地から移動したか否かを特定するのに、より長い処理時間をあてることができる。
この例では、装置101は、第2オーディオトラックが知覚される特定の方向を、ユーザの視野の縁202から特定の角距離閾値内(例えば、若干視野外)内の到来方向に修正する。角距離閾値は、1、2、5、10、15、20、または30度までであってもよいし、これら例示的な距離閾値のうちの任意の2つの間であってもよい。縁202は、視野が最後に把握した所在地を含むように移動する際に、最後に把握した所在地に先に触れる側のユーザの視野の縁に基づいて決定されてもよい。したがって、ユーザは、第2オーディオトラックを、視野202、203の若干外側の方向から聴こえてくるように知覚する。
図7の例は、ユーザが円208で示す第2物体206の現在の位置700を含むように視野を動かした状態を示す。第2オーディオトラック211の特定の方向701は、再度現在の位置700に対応するように示されている。
1つ以上の例では、第2実在物体206がセンサ107からのセンサデータで自動的に特定されると、第2オーディオトラックが到来すると知覚される特定の方向を、再度第2物体への現在の方向に対応するように修正されてもよい。したがって、特定の方向修正後、最後に把握された方向が得られた所在地よりも新しい実在物体の現在の所在地が得られる、センサデータ内の実在物体の特定を受けて、装置101は、空間オーディオの特定の方向を、実在物体206の判定された現在の所在地に対応するようにさらに修正してもよい。
いくつかの例では、第2物体の(例えば自動的な)特定を受けて、第2オーディオトラックが到来すると知覚される特定の方向を、再度第2物体206の現在の方向に対応するように修正してもよいが、別の例では、装置101は異なる動作を実行してもよい。例えば、空間オーディオは、到来が知覚される特定の方向が存在しないような環境オーディオとして提示されてもよい。したがって、ユーザには上述の場合と異なり、無指向性の環境オーディオとして提示されてもよいのである。1つ以上の例では、空間オーディオトラックはより広大な空間範囲をもつ特定の方向により聴覚的に提示されてもよい。すなわち、特定の狭い方向から到来するように知覚されるのではなく、より広い範囲、すなわちより幅広い方向から空間オーディオトラックが到来するように知覚されるのである。これは、HRTF技術または非相関化技術により実現され得る。これらの技術は、空間オーディオ提示に関する技術の当業者に知られているとおり、空間オーディオトラックの複数のコピーを、それらが物体への方向を中心に、それぞれ異なる複数の方法から到来するように知覚されるように提示可能である。
図8の例は、図7の例と同様である。図8において、第1物体205はセンサ107の視野201、202内に存在しない。したがって、装置101は第1物体205の所在地を把握していない。第2物体206について上述したように、第1空間オーディオトラックは、第1物体205の最後に把握した所在地801から発せられているように知覚されるよう、特定の方向800を持つように聴覚的に提示されてもよい。ただし、図8は装置101が把握せず、第1物体205が完全に実在場面201から出た状態を示している。したがって、第1物体205の現在の所在地は実在場面201にないため、図8の平面図に円207は存在しない。
1つ以上の例では、実在物体が所定期間センサデータで特定されないことで、実在物体205、206のいずれかが現在の所在地が不明のままであることで、装置101は、i)空間オーディオの音源が空間オーディオが環境的、無指向性オーディオとして知覚されるように、特定の方向を持たないように空間オーディオを提示してもよいし、ii)空間オーディオの提示を停止してもよい。1つ以上の例では、装置101は、実在物体の所在地が不明である期間のみに基づいて、空間オーディオの提示を修正してもよい。
1つ以上の例において装置101は、センサ107により実在場面201を走査し、それによるセンサデータに現実世界物体が特定されないことに基づいて、空間オーディオの提示を修正してもよい。
図9の例は、ユーザの視野、すなわちセンサの視野の直近の変化を示す矢印900のとおり、ユーザ200が現実空間201全体を見渡した状態を示す。センサ107の視野が実在場面を走査するのにかかる時間は、第1物体205が場面を動いている場合にセンサ107の「視界に入る」可能性に影響する。すなわち、第1物体が場面内で動いていると、センサ107の視野が向いた空間の走査領域内に入らない可能性がある。したがって、センサ107の視界内に第1物体が単純に入らないためである。一方で、所定時間内にセンサ107が、実在場面の大部分または全て等の特定の部分を走査したにもかかわらず、第1物体の所在がセンサデータで自動特定されない場合、装置101は第1物体が場面内に存在しないと判断してもよい。所定時間は1分、45、30、20、10または5秒未満、あるいはその他任意の値であってもよい。所定時間は、場面内での物体の移動の測定に基づいて決定されてもよい。すなわち、センサデータが場面で物体が高速移動していることを示す場合、所定時間を短くしてもよく、物体が低速移動していることを示す場合、所定時間を長くしてもよい。なお、センサ107の視野は限られており、場面内の物体が移動可能であることで、物体が場面から出たことが絶対確実に判定できるわけではないことが理解されよう。そこでこの例では、装置101は所定時間内に場面の所定部分を走査することに基づいてそのような(不正確となり得る)判定を下すように構成されている。
装置101は、実在物体205が実在場面から出たと判定すると、特定の方向を持たない空間オーディオを提示するように構成されてもよい。これにより、空間オーディオは、環境オーディオのように、特定の音源方向のないものと知覚される。オーディオトラックは非ダイエジェティックに提示されるものと考えられてもよい。すなわち、装置101は、実在物体が存在することを確信できない場合、第1オーディオトラックを空間オーディオとして聴覚的に提示しなくてもよい。1つ以上の別の例では、装置101は第1空間オーディオトラックの提示を終了するように構成されてもよい。図9は、第1物体205に関連付けられていた第1空間オーディオトラック210を環境オーディオとして提示することを示す。したがって、アイコン210はユーザ200の頭部内に位置するように図示され、第1空間オーディオトラックが無指向性で、環境的聴覚的に提示されていることを示す。
1つ以上の例では、第1実在物体205は場面201に戻ってもよい。これは、装置101が、第1物体が実際には場面内に存在したにもかかわらず、所定時間内に場面の特定の部分を示すセンサデータ内で単に確認できなかったことで、誤って第1物体が場面から出たと判定した場合も含む。少なくともセンサ107からの実在場面201のセンサデータで特定の実在物体が自動特定されたことにより実在物体が実在場面201に戻ったと判定されたことに基づいて、装置は、ユーザ200から見て、戻った実在物体への方向に対応する特定の方向を持つ空間オーディオを提示するように構成されてもよい。したがって、装置101は戻った第1物体205の所在地についての通知を実在物体特定モジュール102から受けると、対応する空間オーディオトラックを、当該所在地に対応する音源の聴覚認識可能な特定の方向を持つ空間オーディオとして提示してもよい。
図10の例は、以下のステップを示すフロー図を示す。
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオを少なくとも含む拡張現実コンテンツに関して、前記実在場面のセンサデータにおける特定の実在物体の自動特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにより前記特定の実在物体が現状特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて(1000)、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された最後に把握した所在地を含む最後に把握した方向を含む特定の方向により聴覚的提示を行い、前記ユーザの現在の視野が前記最後に把握した所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記最後に把握した方向から、前記ユーザの前記現在の視野外の方向に修正する(1001)。
実在場面における移動可能な、特定の実在物体に関連付けられ、前記実在場面の特定の方向から発せられると知覚されるような聴覚提示用のオーディオを含む空間オーディオを少なくとも含む拡張現実コンテンツに関して、前記実在場面のセンサデータにおける特定の実在物体の自動特定に基づいて前記特定の実在物体の所在地が判定されて、それにより前記空間オーディオの前記特定の方向を、前記実在場面の前記特定の実在物体の前記所在地に対応するように定められるものとして、前記センサデータは前記実在場面の限られた領域を網羅するセンサ視野を有する少なくとも1つのセンサにより、任意の時点で得られるもので、
前記センサデータにより前記特定の実在物体が現状特定できないことで、前記特定の実在物体の現在の所在地が不明であることに基づいて(1000)、
前記空間オーディオのユーザに、前記実在場面で前記実在物体が特定された最後に把握した所在地を含む最後に把握した方向を含む特定の方向により聴覚的提示を行い、前記ユーザの現在の視野が前記最後に把握した所在地を含む位置に移動したことに基づいて、少なくとも前記特定の実在物体が前記センサデータにおいて特定されるまで、前記空間オーディオの前記特定の方向を、前記最後に把握した方向から、前記ユーザの前記現在の視野外の方向に修正する(1001)。
図11は、一例によるプログラムを提供するコンピュータ/プロセッサ可読媒体1100を概略的に示す。この例では、コンピュータ/プロセッサ可読媒体は、デジタル多用途ディスク(Digital Versatile Disc:DVD)またはコンパクトディスク(Compact Disc:CD)などのディスクである。一部の例では、コンピュータ可読媒体は、発明の機能を実行するような形でプログラムされた任意の媒体であってもよい。コンピュータプログラムコードは、同じタイプの複数のメモリ間、またはROM、RAM、フラッシュ、ハードディスク、ソリッドステートなど異なるタイプの複数のメモリ間に分散されてもよい。
ユーザ入力は、タップ、スワイプ、スライド、押下、保持、回転ジェスチャ、デバイスのユーザインタフェース近くでの静止ホバージェスチャ、デバイス近くでの移動ホバージェスチャ、デバイスの少なくとも一部を曲げること、デバイスの少なくとも一部を握りしめること、多指ジェスチャ、デバイスを傾けること、または制御デバイスを裏返すことのうちの1つ以上を含むジェスチャであってもよい。さらにジェスチャは、ユーザの腕などのユーザの身体、またはスタイラスもしくは自由空間ユーザジェスチャを実行するのに適した他の要素を使用した任意の自由空間ユーザジェスチャであってもよい。ユーザ入力は、例えば最初に、場面における実在物体205、206を特定し、物体に空間オーディオを関連付けるために使用され得る。その後に、物体の所在地の追跡を、センサ107からのセンサデータに基づいて自動的に行ってもよい。
上記の例で示された装置は、携帯可能な電子デバイス、ラップトップコンピュータ、携帯電話、スマートフォン、タブレットコンピュータ、携帯情報端末、デジタルカメラ、スマートウォッチ、スマートアイウェア、ペンベースのコンピュータ、携帯可能でない電子デバイス、デスクトップコンピュータ、モニタ、スマートTV、サーバ、ウェアラブル装置、仮想現実装置、またはそれらのうちの1つ以上のモジュール/回路構成としてもよい。よって、装置は、携帯型ではないデバイスに実施されてもよいが、ユーザの携帯デバイスからの空間オーディオの提示を実現する。
言及された任意の装置、および/または言及された特定の装置の他の特徴は、有効化、例えばスイッチをオンにされたときなどにのみ所望の動作を実行するよう構成されたものとなるように準備された装置により提供されてもよい。そのような事例では、非有効化時(例えばスイッチオフ状態)には必ずしもアクティブメモリに適切なソフトウェアをロードしていなくてもよく、有効化時(例えばオン状態)にのみ適切なソフトウェアをロードしてもよい。装置は、ハードウェア回路構成および/またはファームウェアを備えてもよい。装置は、メモリ上にロードされたソフトウェアを備えてもよい。そのようなソフトウェア/コンピュータプログラムは、同じメモリ/プロセッサ/機能ユニット上および/または1つ以上のメモリ/プロセッサ/機能ユニット上に記録されてもよい。
一部の例において、言及された特定の装置は、所望の動作を実行するよう適切なソフトウェアを用いて事前にプログラムされてもよく、この適切なソフトウェアは、例えばそのソフトウェアおよびそれに関連する機能性をロック解除/有効化するため、「キー」をダ
ウンロードするユーザが使用できるようにされてもよい。そのような例に関連する利点としては、デバイスにさらなる機能性が必要なときにデータをダウンロードする必要性が軽減されることを挙げることができ、これは、ユーザが有効化しないかもしれない機能性のためにそのような事前プログラムされたソフトウェアを記憶するのに十分な容量をデバイスが有することが分かっている例において有用な可能性がある。
ウンロードするユーザが使用できるようにされてもよい。そのような例に関連する利点としては、デバイスにさらなる機能性が必要なときにデータをダウンロードする必要性が軽減されることを挙げることができ、これは、ユーザが有効化しないかもしれない機能性のためにそのような事前プログラムされたソフトウェアを記憶するのに十分な容量をデバイスが有することが分かっている例において有用な可能性がある。
言及された任意の装置/回路構成/要素/プロセッサは、言及された機能に加えて他の機能も有してもよく、これらの機能は、同じ装置/回路構成/要素/プロセッサにより実行されてもよい。開示された1つ以上の態様は、関連するコンピュータプログラムおよび適切な保持体(例えばメモリ、信号)に記録されたコンピュータプログラム(ソース/トランスポートエンコードされてもよい)の電子的な配布を含んでもよい。
記載された任意の「コンピュータ」は、同じ回路基板に、または回路基板の同じ領域/位置に、または同じデバイスに位置してもしなくてもよい、1つ以上の個々のプロセッサ/処理要素の集合を備えることができる。一部の例では、言及された任意のプロセッサの1つ以上が複数のデバイスにわたって分散されてもよい。同じまたは異なるプロセッサ/処理要素が、本願明細書に記載された1つ以上の機能を実行してもよい。
「シグナリング」という用語は、送信および/または受信される一連の電気/光信号として送信される1つ以上の信号を指してもよい。一連の信号は、前記シグナリングを構成する、1、2、3、4またはそれ以上の個別の信号成分または別個の信号を備えてもよい。これらの個別の信号の一部または全部は、無線または有線通信により同時に、順次に、および/または互いに時間的に重なるように送信/受信されてもよい。
言及された任意のコンピュータならびに/またはプロセッサおよびメモリ(例えばROM、CD−ROMなどを含む)の任意の説明に関して、これらは、コンピュータプロセッサ、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、フィールドプログラマブルゲートアレイ(Field-Programmable Gate Array:FPGA)、および/または本発明の機能を実行するような形にプログラムされた他のハードウェアの構成要素を備えてもよい。
出願人は、ここに、本願明細書に記載された個々の特徴それぞれを単独で開示し、さらにかかる特徴2つ以上の任意の組合せを開示する。この開示は、かかる特徴または特徴の組合せが本願明細書に開示された任意の問題を解決するかどうかにはかかわらず、当業者の一般知識を踏まえて、かかる特徴または組合せが本明細書に基づき全体として実行可能となる程度まで行われており、クレームの範囲を限定しない。出願人は、開示された態様/例がそのような任意の個々の特徴からなっても、または特徴の組合せからなってもよいことを指摘する。当業者には当然のことながら、上記の説明に鑑みて、本開示の範囲内で様々な変更が加えられ得る。
基本となる新規な特徴が、その例に適用されて示され、記載され、指摘されたが、当然のことながら、記載されたデバイスおよび方法の形態および詳細について様々な省略および置換および変更が、本開示の範囲から逸脱することなく、当業者によって行われることが可能である。例えば、同じ結果を達成するために実質的に同じ機能を実質的に同じ形で実行する当該要素および/または方法ステップの全ての組合せが、本開示の範囲内であることが明示的に意図される。さらに、当然のことながら、開示された任意の形態または例に関連して示されかつ/または記載された構造および/または要素および/または方法ステップは、一般的な設計上の選択事項として、他の任意の開示または記載または示唆された形態または例に組み込まれてもよい。さらに、特許請求の範囲では、ミーンズ・プラス・ファンクション節は、列挙された機能を実行するものとして本願明細書に記載された構造、さらに構造上の等価物のみならず、等価な構造も対象とすることを意図される。要するに、釘とねじとは、木製部品を留めるという状況において、釘が円柱状の表面を用いて木製部品同士を固定するのに対し、ねじはらせん状の表面を用いるという点で構造上の等価物ではないかもしれないが、釘とねじとは等価な構造体ではあり得る。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17168958.1A EP3399398B1 (en) | 2017-05-02 | 2017-05-02 | An apparatus and associated methods for presentation of spatial audio |
EP17168958.1 | 2017-05-02 | ||
PCT/FI2018/050309 WO2018202947A1 (en) | 2017-05-02 | 2018-04-27 | An apparatus and associated methods for presentation of spatial audio |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020520576A JP2020520576A (ja) | 2020-07-09 |
JP2020520576A5 true JP2020520576A5 (ja) | 2021-04-01 |
JP6932206B2 JP6932206B2 (ja) | 2021-09-08 |
Family
ID=58692343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019558784A Active JP6932206B2 (ja) | 2017-05-02 | 2018-04-27 | 空間オーディオの提示のための装置および関連する方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10887719B2 (ja) |
EP (1) | EP3399398B1 (ja) |
JP (1) | JP6932206B2 (ja) |
WO (1) | WO2018202947A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11297164B2 (en) * | 2018-05-07 | 2022-04-05 | Eolian VR, Inc. | Device and content agnostic, interactive, collaborative, synchronized mixed reality system and method |
US20200296462A1 (en) * | 2019-03-11 | 2020-09-17 | Wci One, Llc | Media content presentation |
GB2582910A (en) * | 2019-04-02 | 2020-10-14 | Nokia Technologies Oy | Audio codec extension |
US11816757B1 (en) * | 2019-12-11 | 2023-11-14 | Meta Platforms Technologies, Llc | Device-side capture of data representative of an artificial reality environment |
CN113467603B (zh) * | 2020-03-31 | 2024-03-08 | 抖音视界有限公司 | 音频处理方法、装置、可读介质及电子设备 |
US11425523B2 (en) * | 2020-04-10 | 2022-08-23 | Facebook Technologies, Llc | Systems and methods for audio adjustment |
US11729573B2 (en) * | 2021-05-18 | 2023-08-15 | Snap Inc. | Audio enhanced augmented reality |
CN115442686B (zh) * | 2022-11-08 | 2023-02-03 | 深圳同创音频技术有限公司 | 一种基于大数据的多通道录音智能管理系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6961439B2 (en) | 2001-09-26 | 2005-11-01 | The United States Of America As Represented By The Secretary Of The Navy | Method and apparatus for producing spatialized audio signals |
US9037468B2 (en) * | 2008-10-27 | 2015-05-19 | Sony Computer Entertainment Inc. | Sound localization for user in motion |
JP4679661B1 (ja) * | 2009-12-15 | 2011-04-27 | 株式会社東芝 | 情報提示装置、情報提示方法及びプログラム |
US8797386B2 (en) * | 2011-04-22 | 2014-08-05 | Microsoft Corporation | Augmented auditory perception for the visually impaired |
US9349218B2 (en) * | 2012-07-26 | 2016-05-24 | Qualcomm Incorporated | Method and apparatus for controlling augmented reality |
US9338420B2 (en) * | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
US9367960B2 (en) | 2013-05-22 | 2016-06-14 | Microsoft Technology Licensing, Llc | Body-locked placement of augmented reality objects |
US9727129B2 (en) * | 2013-06-28 | 2017-08-08 | Harman International Industries, Incorporated | System and method for audio augmented reality |
EP2842529A1 (en) * | 2013-08-30 | 2015-03-04 | GN Store Nord A/S | Audio rendering system categorising geospatial objects |
JP6019302B2 (ja) * | 2013-10-29 | 2016-11-02 | 兵神装備株式会社 | 吐出システム |
US9430038B2 (en) | 2014-05-01 | 2016-08-30 | Microsoft Technology Licensing, Llc | World-locked display quality feedback |
US9904055B2 (en) * | 2014-07-25 | 2018-02-27 | Microsoft Technology Licensing, Llc | Smart placement of virtual objects to stay in the field of view of a head mounted display |
EP3174005A1 (en) * | 2015-11-30 | 2017-05-31 | Nokia Technologies Oy | Apparatus and method for controlling audio mixing in virtual reality environments |
EP3184063B1 (en) * | 2015-12-21 | 2019-07-10 | Biedermann Technologies GmbH & Co. KG | Polyaxial bone anchoring device |
US11032471B2 (en) * | 2016-06-30 | 2021-06-08 | Nokia Technologies Oy | Method and apparatus for providing a visual indication of a point of interest outside of a user's view |
US20180095542A1 (en) * | 2016-09-30 | 2018-04-05 | Sony Interactive Entertainment Inc. | Object Holder for Virtual Reality Interaction |
-
2017
- 2017-05-02 EP EP17168958.1A patent/EP3399398B1/en active Active
-
2018
- 2018-04-27 US US16/605,310 patent/US10887719B2/en active Active
- 2018-04-27 WO PCT/FI2018/050309 patent/WO2018202947A1/en active Application Filing
- 2018-04-27 JP JP2019558784A patent/JP6932206B2/ja active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6932206B2 (ja) | 空間オーディオの提示のための装置および関連する方法 | |
JP2020520576A5 (ja) | ||
US9906885B2 (en) | Methods and systems for inserting virtual sounds into an environment | |
CN110121695B (zh) | 虚拟现实领域中的装置及相关联的方法 | |
US10798518B2 (en) | Apparatus and associated methods | |
US20190180509A1 (en) | Apparatus and associated methods for presentation of first and second virtual-or-augmented reality content | |
US20190139312A1 (en) | An apparatus and associated methods | |
US10560752B2 (en) | Apparatus and associated methods | |
US11061466B2 (en) | Apparatus and associated methods for presenting sensory scenes | |
US10846535B2 (en) | Virtual reality causal summary content | |
US11069137B2 (en) | Rendering captions for media content | |
JP7439131B2 (ja) | 空間オーディオをキャプチャする装置および関連する方法 | |
US11055533B1 (en) | Translating sound events to speech and AR content | |
JP7037654B2 (ja) | キャプチャされた空間オーディオコンテンツの提示用の装置および関連する方法 | |
JP2021508193A5 (ja) | ||
KR20210056414A (ko) | 혼합 현실 환경들에서 오디오-가능 접속된 디바이스들을 제어하기 위한 시스템 |