JP7157985B2

JP7157985B2 - ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法

Info

Publication number: JP7157985B2
Application number: JP2020559554A
Authority: JP
Inventors: ホイスラー・ドミニク; メルビル・フレデリック; ローゼンバーガー・デニス; ドーラ・ステファン
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2018-04-24
Filing date: 2019-04-18
Publication date: 2022-10-21
Anticipated expiration: 2039-04-18
Also published as: EP3785452B1; JP2021522720A; EP3785452A1; RU2759012C1; US20210044913A1; WO2019206827A1; CN112335264A; BR112020021608A2; US11343634B2; CN112335264B

Description

本発明は、オーディオ信号をレンダリングするための装置、より具体的には、音響通信のオーディオ信号の空間レンダリングまたは音場レンダリングを実行するように構成された装置に関する。

空間オーディオデータのバイノーラルレンダリングのための空間オーディオ処理は、ビデオゲームおよび仮想現実（ＶＲ）でのヘッドホンの使用に広く採用されているが、音声通信、例えば、音声通話、会議、標準的なビデオ消費などの他の用途にはまだ浸透していない（つまり、３６０度以外）。空間オーディオデータの静的バイノーラルレンダリングを使用するアプリケーションはいくつか存在するが、ユーザの受け入れは限られているようである。この背後にある理由は、空間オーディオが、説得力があるためには、ユーザの視点のライブ位置情報が空間処理中にアクティブに適用されなければならないということであると仮定されている。脳を上手に錯覚させるには、オーディオは頭の位置の最小の調整にも低遅延で応答する必要がある。

電話通話では、リモートの参加者／ユーザは、リアルな同じ部屋の感覚を与えるために、それぞれが一意の３次元位置（例えば、参加者／リスナとしてのユーザの前に水平に広がる）を持つ、モノラルオブジェクト（参加者／ユーザごと）としてレンダリングできる。

ヘッドホンでのＶＲエクスペリエンスは、慣性測定ユニット（ＩＭＵ）から取得した頭追跡データ（ピッチ角、ヨー角、ロール角の形、または四元数としてなど）を使用してこれを実現し、これには、ユーザのヘッドマウントディスプレイ（ＨＭＤ）内のジャイロスコープや加速度計などのセンサからのデータが含まれる。そのようなセンサがすでに消費者向けヘッドホンで一般的に見られる場合には、電話通話などの日常の用途もヘッドトラック空間処理の恩恵を受ける可能性があるが、現在、これらのセンサが組み込まれているスタンドアロンのヘッドホンはほとんどなく、このデータにすぐに開発者がアクセスできるようにするものはさらに少なくなっている。

例えば、カメラのビデオフィードを使用して頭追跡データを抽出し、このデータをオーディオ信号のバイノーラルレンダリングに使用することは、Ｍｉｃｒｏｓｏｆｔ^ＴＭＫｉｎｅｃｔ^ＴＭカメラと組み合わせてデスクトップコンピュータですでに行われている（例えば、Ｋｒｏｎｌａｃｈｅｒ、Ｍ．（２０１３）．Ａｍｂｉｓｏｎｉｃｓｐｌｕｇ－ｉｎｓｕｉｔｅｆｏｒｐｒｏｄｕｃｔｉｏｎａｎｄｐｅｒｆｏｒｍａｎｃｅｕｓａｇｅ（プロダクションおよびパフォーマンスで使用するためのアンビソニックスプラグインスイート）を参照。例えば、ｈｔｔｐ：／／ｌａｃ．ｌｉｎｕｘａｕｄｉｏ．ｏｒｇ／２０１３／ｐａｐｅｒｓ／５１．ｐｄｆから取得）。加えて、一般的なＷｅｂカメラのビデオフィードからの頭追跡データの抽出も知られている（例えば、Ｌａｍｂｅｒｓ、２０１７、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍａｒｌａｍ／ｗｅｂｃａｍ－ｈｅａｄ－ｔｒａｃｋｅｒ、およびＦａｃｅＴｒａｃｋＮｏｉｒ、２０１０、ｈｔｔｐｓ：／／ｇｉｔ．ｍａｒｌａｍ．ｄｅ／ｇｉｔｗｅｂ／？ｐ＝ｗｅｂｃａｍ－ｈｅａｄ－ｔｒａｃｋｅｒ．ｇｉｔを参照）が、オーディオ信号の空間レンダリングに使用することは提案されていない。さらに、米国特許第２００９／０２１９２２４（Ａ１）号明細書は、モバイルデバイスおよびアダプティブビジュアルオーディオ／ビデオシーンを用いた頭追跡に関連するマルチメディアアプリケーションでの仮想環境をレンダリングするためのシステムを開示している。

米国特許第２００９／０２１９２４（Ａ１）号明細書

Ｋｒｏｎｌａｃｈｅｒ、Ｍ．（２０１３）．Ａｍｂｉｓｏｎｉｃｓｐｌｕｇ－ｉｎｓｕｉｔｅｆｏｒｐｒｏｄｕｃｔｉｏｎａｎｄｐｅｒｆｏｒｍａｎｃｅｕｓａｇｅＬａｍｂｅｒｓ、２０１７、ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｍａｒｌａｍ／ｗｅｂｃａｍ－ｈｅａｄ－ｔｒａｃｋｅｒＦａｃｅＴｒａｃｋＮｏｉｒ、２０１０、ｈｔｔｐｓ：／／ｇｉｔ．ｍａｒｌａｍ．ｄｅ／ｇｉｔｗｅｂ／？ｐ＝ｗｅｂｃａｍ－ｈｅａｄ－ｔｒａｃｋｅｒ．ｇｉｔ

しかしながら、上記の既知の技術を考慮しても、特定の問題はまだ解決されていない、例えば、動的なモバイルシナリオ（例えば、歩き回るユーザ、または移動している車両）での使用など、センサ自体の動きを補正する方法などである。

したがって、本発明の目的は、再生のためのオーディオ信号をユーザにレンダリングするための正確で低遅延の調整の概念を提供し、それを多数のシナリオで堅牢に行うことである。

この目的は、本出願の請求項１に記載の再生のためのオーディオ信号をユーザにレンダリングするための装置、請求項２３に記載の再生のためのオーディオ信号をユーザにレンダリングするための方法、および請求項２４に記載のコンピュータプログラムの主題によって達成される。

本発明によれば、装置は、ユーザの頭の位置を決定するための光学センサおよび配向センサを備える。したがって、装置、例えば、デバイスは光学センサと配向センサとの間の位置関係を参照することにより、ユーザの頭の位置を決定することができ、したがって、ユーザの頭の位置を正確に決定することが可能である。加えて、ユーザの頭の正確に決定された位置を使用して、空間レンダリングの低遅延調整を実装し、ユーザエクスペリエンスを向上させることができる。

本出願の実施形態によれば、再生のためのオーディオ信号をユーザにレンダリングするための装置であって、装置は、光学センサを使用して、例えば、カメラを使用するか、ユーザ向けの動画キャプチャデバイスを使用するか、および／または深度センサを使用するか、および／または視覚的な顔／頭追跡センサを使用して、例えば、頭追跡のためにカメラでキャプチャしたデータを使用して、ユーザの頭の向きに関する情報を決定するように構成され、ここで、装置は、配向センサ、例えば、ジャイロスコープおよび／または磁場センサおよび／または重力センサおよび／または加速度計および／または光学センサなどを使用して、光学センサの向きに関する情報を決定するように構成され、それは、所定の位置関係、例えば、光学センサに対する機械的関係に配置され、例えば、装置が「実世界」または地球固定座標系でのその位置および／または向きを認識できるようにし、ここで、装置は、例えば、光学センサの現在の向き、または光学センサを搭載または備える装置の向きから実質的に独立し、地球固定座標系に対する頭の向きに関する少なくとも１つのパラメータを取得するために、頭部の向きに関する情報を決定するときに、光学センサの向きに関する情報を考慮するように構成され、ここで、装置は、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムまたは装置と通信するヘッドセットを介して、ユーザに再生するために、オーディオ信号の空間レンダリングを実行するように構成され、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させる。

本出願の実施形態によれば、装置は、ユーザの頭の向きに関する情報に応じて、例えば、ユーザの頭の正面方向（例えば、ユーザの目または鼻が指している方向）と、ユーザの頭から装置または装置内に含まれる光学センサに向かう方向との間、あるいは装置のディスプレイに向かうヨー角または方位角を考慮し、並びに／あるいはユーザの頭のロール角を考慮し、並びに／あるいはユーザの頭のピッチ角を考慮して、例えば、ユーザが着用するヘッドセットに対して、または例えば、空間オーディオデータについて、バイノーラルレンダリングを実行するように構成される。

本出願の実施形態によれば、装置は、光学センサ、例えば、カメラまたはユーザ向けの動画キャプチャデバイス、および／または深度センサを備えるものであって、光学センサは、ユーザが装置のディスプレイを見ているときに、ユーザの頭、例えば、ユーザの顔の位置を追跡するように配置される。

本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、ヨー角情報、例えば、ユーザの頭の正面方向と装置の位置との間の角度、または、同等に、ユーザの頭から装置または光学センサへの方向を記述する、角度値または回転行列または四元数を決定するように構成され、並びに／あるいは、ここで装置は、例えば、ユーザの頭の向きに関する情報の一部として、ロール角情報、例えば、垂直方向に対する、例えば、重力の方向に対する、例えば、ユーザの頭のロール角を記述する、角度値または回転行列または四元数を決定するように構成され、並びに／あるいは、ここで装置は、例えば、ユーザの頭の向きに関する情報の一部として、ピッチ角情報、例えば、水平方向の配列に対する、例えば、ユーザの頭のピッチ角を記述する、角度値または回転行列または四元数を決定するように構成される。

本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、ユーザの頭の正面方向と、ヨー角情報が、ユーザの頭の正面方向と、ユーザの頭から、例えば、ユーザの頭の中心から、装置、例えば、装置に含まれる光学センサまでの方向との間の方位角を記述するように、例えば、ヨー角情報が、頭の正面方向、すなわち、ユーザが頭を向けた方向、またはユーザの鼻が指している方向を考慮に入れて、ユーザの頭から見たときの装置の方位位置を記述するような装置の位置との間のヨー角を記述するヨー角情報φを決定するように構成される。

本出願の実施形態によれば、装置は、ユーザの頭から装置への方向と光学センサの光軸の方向との間の偏差、例えば角度φ_エラー、を、例えば、光学センサから取得された画像情報の処理を使用して、少なくとも部分的に補償または補正するように構成される。

本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、垂直方向に対する、例えば、重力と反対の方向に対する、また「上へ」で指定される、または例えば、地球固定座標系に対する、または地球固定垂直方向に対する、または頭の正面方向に対する、ユーザの頭のロール角を記述するロール角情報φ_{ヘッドロール}を決定するように構成され、例えば、ロール角情報が、頭の正面方向に向けられた軸の周りの頭の回転の角度を記述するようにし、例えば、ピッチがない場合、ユーザの頭の垂直軸と「上へ」の垂直方向との間の角度であるが、好適には、装置または光学センサの回転角度とは無関係であるものであって、空間レンダリングを実行するときには、頭のロール角情報が使用される。

本出願の実施形態によれば、装置は、ユーザの頭のロール角を記述するロール角情報を決定するときの光学センサの向きに関する情報に基づいて、例えば、垂直方向に対する、装置または光学センサのロール角φ_{デバイスロール}を少なくとも部分的に補償するように、または任意選択で、装置または光学センサの（全体の）向きを少なくとも部分的に補償するように構成され、例えば、装置または光学センサのみが回転し、そのヘッドがその回転角度を変更しない場合、空間レンダリングが実質的に変化しないままであるようにする。

本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、水平方向の配列に対する、例えば、地球固定座標系に対する、または地球固定水平面に対する、ユーザの頭のピッチ角を記述するピッチ角情報φ_ピッチを決定するように構成され、例えば、ピッチ角情報が頭の正面方向の仰角を記述するが、好適には装置または光学センサのピッチ角とは無関係なようにするものあって、頭のピッチ角を記述するピッチ角情報は、空間レンダリングを実行するときに使用される。

本出願の実施形態によれば、装置は、ユーザの頭のピッチ角情報を決定するときの光学センサの向きに関する情報に基づいて、装置または光学センサの向きを少なくとも部分的に補償するように構成され、例えば、決定されたピッチ角情報が、光学センサを備える装置の位置から実質的に独立し、光学センサを備える装置の整列または回転から実質的に独立した、地球固水平面に対するユーザの頭のピッチ角を表すようにする。

本出願の実施形態によれば、装置は、センサから、好適には装置内に配置された、または装置に機械的に取り付けられた、センサのみからの情報に基づいて、すなわちユーザの頭またはヘッドセットに取り付けられたセンサからの情報を使用しないで、頭の向きに関する情報を決定するように構成される。

本出願の実施形態によれば、装置は、装置内に配置された、または装置に機械的に取り付けられたセンサからの情報に基づいて、および装置の外部にあり、例えば光学センサおよび配向センサを備えるメイン電子デバイスの外部にある１つ以上の追加のセンサに基づいて、頭の向きに関する情報を決定するように構成されるものであって、１つ以上の追加のセンサは、例えば、ヘッドセットまたはイヤホンに配置することができる。

本出願の実施形態によれば、装置は、頭の向きに関する情報が確実に取得できない、または全く取得できないことが判明した場合にのみ、１つ以上の追加のセンサが、ユーザの頭が光学センサの視野を離れるときにユーザの頭の向きの決定の際のバックアップセンサとして機能するような光学センサからの情報に基づいて、外部センサからの情報を考慮するように構成される。

本出願の実施形態によれば、装置は、例えば、ベクトルによって表される、例えば、頭から、例えば、ユーザの頭の中心から、または頭の重心から、装置、例えば、光学センサ、水平面、例えば、重力方向に垂直な平面へのベクトルによって表される、ある方向の投影である、音響正面軸としても指定される、音響正面方向を決定するように構成されるものであって、例えば、仮想オーディオ環境の中心軸を常に頭と同じ高さに保つために、装置とユーザの頭の中心との間の垂直オフセットは無視され、装置は、例えば、一貫した仮想オーディオ環境を維持するために、音響正面方向に応じてオーディオ信号の空間レンダリングを実行するように構成される。

本出願の実施形態によれば、装置は、例えば、ベクトルによって表される、例えば、頭から、例えば、ユーザの頭の中心から、または頭の重心から、装置、例えば、光学センサへのベクトルによって表される、ある方向である、音響正面軸としても指定される、音響正面方向を決定するように構成されるものであって、装置は、例えば、一貫した仮想オーディオ環境を維持するために、音響正面方向に応じてオーディオ信号の空間レンダリングを実行するように構成される。

本出願の実施形態によれば、装置は、装置がユーザの頭よりも高い位置にあるか低い位置にあるかに関係なく、オーディオシーンの中心、例えば、センタースピーカーを、音響正面方向で知覚可能であるか、または知覚可能であるようにレンダリングするように構成され、例えば、オーディオシーンが装置の位置によって決定される方向の中心があるが、ユーザの頭の高さの平面にあるようにする。

本出願の実施形態によれば、装置は、音響正面方向に対するピッチ角を記述するピッチ角情報を決定するように構成され、例えば、ピッチ角が頭の正面方向と音響正面方向との間の角度であるようにする。

本出願の実施形態によれば、装置は、仮想オーディオ環境の中心軸をユーザの頭と同じ高さに保つように構成される。

本出願の実施形態によれば、装置は、水平面に対するユーザの頭のピッチ角を決定することによって、および／または装置とユーザの頭との間の垂直オフセットを無視または補償することによって、ユーザの頭と装置、例えば、頭部の向きに関する情報を決定するときに考慮されない、光学センサの間の高さの差を残すように構成される。

本出願の実施形態によれば、装置は携帯可能なものであって、および／または装置はモバイル通信デバイス、例えば携帯電話である。

本出願の実施形態によれば、装置は、オーディオ会議またはオーディオ／ビデオ会議の複数の参加者からのオーディオ投稿を表す複数のオーディオ信号の空間レンダリングを実行するように構成されるものであって、および／または装置は、ブロードキャスト、またはローカル記憶メディア上のコンテンツ、またはストリーミングされたオーディオコンテンツの空間レンダリングを実行するように構成され、任意選択で、装置のディスプレイ上にレンダリングされるビデオコンテンツを伴って表示できる。

本出願の実施形態によれば、装置は、例えば、装置のディスプレイを参照して、どの方位角位置で、および例えば、ユーザの頭に対する、どの高さまたは高度で、音声コンテンツがレンダリングされるべきかの情報を取得するように構成されるものであって、装置は、光学センサからの情報および光学センサの向きに関する情報を使用して、ユーザの視点から装置の方位角位置に関する情報、例えば、ヨー角またはヨー角情報を決定するように構成され、並びに装置は、光学センサからの情報および光学センサの向きに関する情報を使用して、地球固定座標系に対する頭の向きに関するパラメータ、例えば、ピッチパラメータまたはロールパラメータを決定するように構成され、並びに装置は、方位角位置に関する情報および地球固定座標系に対する頭の向きに関するパラメータを使用し、および任意選択でさらに、装置の向きとユーザの頭から装置への方向との間の角度を記述するパラメータを使用して、オーディオコンテンツをレンダリングするように構成される。

本出願の実施形態によれば、再生のためのオーディオ信号をユーザにレンダリングするための方法であって、方法は、光学センサを使用して、例えば、カメラを使用するか、ユーザ向けの動画キャプチャデバイスを使用するか、および／または深度センサを使用するか、および／または視覚的な顔／頭追跡センサを使用して、例えば、頭追跡のためにカメラでキャプチャしたデータを使用して、ユーザの頭の向きに関する情報を決定することを含み、ここで、方法は、配向センサ、例えば、ジャイロスコープおよび／または磁場センサおよび／または重力センサおよび／または加速度計および／または光学センサなどを使用して、光学センサの向きに関する情報を決定することを含み、それは、所定の位置関係、例えば、光学センサに対する機械的関係に配置され、例えば、装置が「実世界」または地球固定座標系でのその位置および／または向きを認識できるようにし、ここで、方法は、例えば、光学センサの現在の向き、または光学センサを搭載または備える装置の向きから実質的に独立し、地球固定座標系に対する頭の向きに関する少なくとも１つのパラメータを取得するために、頭部の向きに関する情報を決定するときに、光学センサの向きに関する情報を考慮することを含み、ここで、方法は、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムまたは装置と通信するヘッドセットを介して、ユーザに再生するために、オーディオ信号の空間レンダリングを実行することを含み、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させる。

本出願の有利な態様は、従属請求項の対象である。本出願の好適な実施形態は、図に関して以下に説明される。

本出願の一実施形態による、再生のためのオーディオ信号をユーザにレンダリングするための装置の一例を説明する概略図を示す。本出願の実施形態による、再生のためのオーディオ信号をユーザにレンダリングするための装置の一例を例示するブロック図を示す。本出願の一実施形態による、装置を使用する没入型会議の例示的な実装を説明する概略図を示す。本出願の一実施形態による、ユーザの動きの一例を説明する概略図を示す。本出願の一実施形態による、ロール角における装置の向きとユーザの頭の向きとの関係の一例を説明する概略図を示す。本出願の一実施形態による、ヨー角における装置の向きとユーザの頭の向きとの関係の一例を説明する概略図を示す。本出願の一実施形態による、ピッチ角における装置の向きと音響正面の向きとの関係の一例を説明する概略図を示す。本出願の実施形態による、図２に示す装置によって実施される、再生のためのオーディオ信号をユーザにレンダリングするための方法の一例のフローチャートを示す。

以下の説明では、同等または同じ要素または同等または同じ機能を有する要素を同等または同じ参照番号で示している。

以下の説明では、本出願の実施形態のより徹底的な説明を提供するために、複数の詳細が明記されている。しかしながら、本出願の実施形態がこれらの特定の詳細なしで実施され得ることは当業者には明らかであろう。他の例では、本出願の実施形態を曖昧にすることを回避するために、周知の構造およびデバイスが詳細ではなくブロック図の形で示されている。加えて、本明細書で以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。

図１は、ヘッドホン６を装着しているユーザに再生のためのオーディオ信号をレンダリングするための正面カメラ４を備えた、装置２の一実施形態を示している。図１に記載されているように、ユーザの顔は正面カメラ４に向けられ、参照番号４’は正面カメラ４の視野を示す。深度カメラ（例えば、赤外線投影を赤外線深度センサと組み合わせて使用して深度マップを抽出する）も、正面カメラ４の代わりに、またはそれに加えて使用することができる。この実施形態では、装置２は、非移動デバイスすなわち静止デバイスである。

正面カメラ４（例えば、光学センサ）は、ユーザの顔の位置（および／または向き）を追跡するために使用され、位置情報（および／または向き情報）は、（任意選択で）カメラではなくユーザの視点からのものに変換され、最後に、この位置データが空間オーディオ処理中に適用される。代替として、装置２は、配向センサ、例えば、ユーザの顔の向きを追跡するのを支援するジャイロスコープをさらに備える。すなわち、静止デバイスが位置を変えなくても、静止デバイスの正面、例えば、ディスプレイは回転可能であり得る。したがって、静止デバイスの向きも変更可能であり得、したがって、静止デバイスのディスプレイが回転可能な場合、デバイスの位置（向き）に対するユーザの頭の向きに関する情報を正確に決定するために、少なくとも１つの配向センサが必要である。

環境全体は、デバイス（装置）とユーザの頭との関係によって定義され、ユーザがカメラ４’の視野内にいるときにアクティブな処理が行われる。

ハードウェアとソフトウェアの両方での拡張現実（ＡＲ）テクノロジーの最近の進歩により、これらの追跡および変換プロセスがより利用しやすくなっている。その結果、オーディオは３Ｄ空間処理を使用して視覚シーンを補完し、頭追跡により全体的な効果を向上させることができる。

図２は、静止装置（デバイス）並びに光学センサ１２を備えるモバイル装置（デバイス）１０、例えば、カメラ、配向センサ１４、例えば、ジャイロスコープ、頭の向き情報ジェネレータ１６、および空間（バイノーラル）レンダリングコア１８の概略図を示している。配向センサ１４は、光学センサ１２に対して所定の位置関係で配置されている。図２に示されているデバイスは、静止デバイスであり、モバイルデバイスでもある。図２のデバイスは、ディスプレイ、スピーカー、アンテナ、データ送信機、マイクロフォンなどをさらにまたは任意選択で含むことができる。

図１に示すような静止デバイス（デスクトップモニターなど）の場合、ユーザが頭を画面から少し離すと、ビデオシーン（デバイス／装置）は同じ位置に留まるため、オーディオシーンも同じ位置に固定されたままであるはずで、それは、ヘッドホンマウントセンサまたは静止カメラから取得された、頭の回転データを適用し、動きを補正することによって達成される。これにより、ユーザが実生活で慣れているようにオーディオシーンが反応するため、新しい程度のリアリズムが追加される。

モバイルデバイス（モバイル装置）の場合、モバイルデバイスが静止しているときは、上記と同じロジックが適用される。しかしながら、この構成を使って、本出願は、モバイルデバイスで予測される、自由空間におけるユーザとそのデバイスの両方の動きも都合よく説明する。これには、デバイス内で追加のセンサ（例えば、１つ以上の配向センサ）を使用して（例えば、組み込みの加速度計またはジャイロスコープまたは組み込みのカメラまたはそれらの任意の組み合わせ）、デバイスが実世界での（例えば、地球固定座標系に対する）その位置（および／または向き）を認識できるようにする必要がある。上記のように、静止デバイスのディスプレイまたは表面が回転可能である場合、追加のセンサ、例えば、デバイス内に１つ以上の配向センサの使用が必要である。

以下で、モバイルデバイスの場合を詳細に説明し、本出願による装置が、ヘッドホンに組み込まれたセンサからのデータを使用することによるモバイルデバイスの場合に実用的な利点を提供する理由を説明する。

この後者のケースの実施形態は、特に頭追跡にカメラでキャプチャされたデータを使用することにより、真の空間オーディオを促進することによってオーディオ品質と全体的なユーザエクスペリエンスの大幅な改善を可能にし、さまざまなモバイル環境で堅牢にそのようにする。

これは、例えば、対面ビデオ通話およびビデオ消費（サラウンドサウンドなど）の場合に特に有益であり、空間処理の必要性は明らかであるが、それを適用する方法はまだ市場では成熟していない。

本出願による装置の使用は、ビデオの使用例に限定されず、それはまた、音声通話または３Ｄオーディオ再生などのオーディオのみの用途にも改善されたオーディオ品質をもたらし、ここで、ローカルにキャプチャされたビデオは頭追跡のために使用されるが、頭追跡データが抽出されるとすぐに破棄できる。

図３は、没入型会議の実装例を概略的に示しており、正面カメラを介したローカルユーザおよび４人のリモート参加者との電話会議の２Ｄオーバーヘッド表現を示している。ユーザの顔の上の線は、ユーザの頭の方位角位置を示す。

モバイルデバイスでは、（例えば、地球固定座標系または重力の方向に対する）デバイスの位置（および／または向き）と実世界内でのユーザの頭の位置（および／または向き）の両方の知識を得るために、デバイスの追加センサ（例えば、組み込みの加速度計および／またはジャイロスコープ）とともに、正面カメラおよび／または深度センサが使用される。これは、ＡｐｐｌｅのＡＲＫｉｔ^ＴＭまたはＧｏｏｇｌｅのＡＲＣｏｒｅ^ＴＭなどの既存の拡張現実（ＡＲ）フレームワークで達成できる。

これにより、デバイスは同じ頭追跡データを提供できるようになるため、ヘッドホンにセンサが不要になる。この方法で可能性のある（ただし通常は軽微な）欠点は、頭追跡データを利用できるようにするために、ユーザが正面センサに面し、視野内にいる必要が（または、べきで）あることである。対面ビデオ通話やビデオ消費などの用途の場合、とにかくこれはほぼ確実に当てはまる。

ユーザが一時的にカメラの視野から外れる必要がある場合、任意選択（任意選択で実装可能）には、最新の状態を維持することが含まれるか、またはアプリケーションがデフォルトの状態にフォールバックすることも簡単である（例えば、頭の回転値をデフォルトの前方位置に戻す）。さらに別の任意選択（任意選択で実装可能）は、例えば、ヘッドホンに含まれる、他のセンサからの動きデータを使用することであり、これは、ユーザがカメラの視野内にいない場合に、頭追跡位置を推定するためにのみ使用される。任意の外部センサ（例えば、装置に機械的に統合されていないが、例えば、ヘッドホンまたはユーザの体に取り付けられているセンサ）は、没入感が制限される外部センサとデバイスとの間の追加の伝送遅延により、デバイス内のセンサよりも最適ではないことに注意されたい。すなわち、デバイスは、好適には、１つ以上の光学センサ、例えば、１つ以上のカメラおよび１つ以上の配向センサ、例えば、１つ以上のジャイロスコープを備える。

しかしながら、本出願によるデバイス、すなわち、正面空間処理はまた、ヘッドホンに組み込まれたセンサからの頭追跡データを使用することにより１つの重要な利点を提供する。例えば、外出先でビデオ通話を使用する一般的な方法として、図４に示すように、通りを歩きながら、デバイスを腕の長さで伸ばした状態で（図４（ｔ１）を参照）、ユーザが空間オーディオを使用してビデオ通話を行うシナリオを考えてみる。

次に、それらが通りの角を中心に９０度回転するとする（図４のｔ１、ｔ２、ｔ３、ｔ４）。このシナリオでは、ユーザと電話の両方が実世界の空間で回転しているが、ユーザの頭の位置と電話の位置との関係が変わっていないので、オーディオシーン（例では１つのモノラル音源）はユーザにとって一定のままである。ユーザの頭から発生し、デバイスのカメラを通過するベクトルは、本明細書のこの説明では今後「音響正面」と呼ばれる（ここで、任意選択で、頭とカメラとの間の垂直方向の間隔は考慮しなくてもよい）。これ（例えば、ベクトルで表すことができる音響正面の方向）は、空間での方向であり、ここで、５．１オーディオ信号（５．１サラウンドサウンド）のセンタースピーカーがレンダリングされる。

ヘッドホンのセンサからの頭追跡データが使用される場合、これらのセンサは、回転がユーザの頭なのか、全身なのかを自動的に推定することはできない。技術的には、２つのデバイス（ヘッドマウントセンサとデバイスセンサ）のセンサ値を比較し、それぞれの異なる方向を使用して一般的に知られている微積分を使用してこの効果を補正することは可能であるが、これはより複雑で、よりエラーを起こしやすい可能性がある。

デバイス並びにここで提案された方法を使用すると、向きおよび／または位置情報は、単一の基準点、すなわちデバイス（「装置」とも呼ばれる）でキャプチャされる。また、ユーザが移動する車両の乗客である場合など、他の動きを無視する必要がある堅牢なユーザエクスペリエンスも提供される。あらゆるヘッドセットと互換性があり、拡張現実（ＡＲ）のサポートを装備する最新のデバイスに簡単に実装される。

異なるＡＲフレームワークでは、アプリケーション開発者に異なる座標系を提供するので、このドキュメントでは、選択したフレームワークとは関係なく、予測される動作を定義している。

提案された動作の場合、例えば、ユーザエクスペリエンスに有益であると見なされる動きおよび回転のみが空間レンダラーに提供され、残りの動きおよび回転は補正によって無効にされる。

以下では、個別にまたは組み合わせて使用できるさまざまな特徴や機能について説明する。

図５に示すように、デバイス（または装置）１０の向きは、特にユーザが歩いているとき、必ずしも上軸（例えば、重力の方向と反対の垂直方向）と整列するとは限らない場合がある。アプリケーションは、ＡＲフレームワークがデバイスのロール角を補正することを確認する必要があり、そのため、オーディオ信号のレンダリングに使用されなくなる。空間レンダラーを構成するには、ヘッドロール角度のみを使用する必要がある（例えば、空間レンダリングを実行できる）。そうではない場合、ユーザが頭を回転させなくても、オーディオシーンが回転することになる。

音響正面は、例えば図５に示されるように、ユーザの頭とデバイス１０のカメラとの間のベクトルとして定義される（任意選択で、頭とカメラとの間の垂直間隔は、考慮されないままにすることができ、例えば、音響正面は水平のベクトルまたは方向である）。図５（ａ）は、デバイスの向きが音響正面ベクトルと並ぶシナリオを図示している。この場合、ベクトル「頭の正面」とベクトル「デバイスの向き」との間の角度は、正しいヨー角と同じである。しかし、図６（ｂ）に示すように、デバイスの向きが変わると、この角度を使用することにより、空間レンダリングに使用される頭の回転データに誤ったヨー値が発生する。すなわち、ユーザの頭から装置への方向と光学センサの光軸の方向との間の偏差、角度φ_エラーは、例えば、光学センサから取得された画像情報の処理を使用することによって、補償または補正される。したがって、デバイスは、例えば、φ_エラーを決定し、その結果、正しいヨー角を決定することができる。

図７は、デバイスを使用したユーザの２つの側面ビューおよび頭の回転データのピッチ角を図示している。図６のヨー角とは反対に、ピッチ角を決定するために、デバイスの位置も回転も使用されない（または最終結果に反映されない）。つまり、デバイスの位置または向きが変わっても、音響正面のベクトルは変わらない。音響正面は、例えば、常に上軸に対して９０度の角度のベクトルであり（例えば、水平面にある場合がある）、ピッチ角は、例えば、常にベクトル頭の正面と音響正面との間の角度を指す。例えば、デバイス（または装置）は、これらの考慮事項または制限に基づいてピッチ角を決定することができる。

このようにして、標高がゼロのモノラルオーディオオブジェクトは、ユーザの目の高さに空間的にレンダリングされる。図７に示すように、「音響正面」の代わりにベクトル「ヘッドデバイス」を使用してピッチ角を決定すると、そのようなオーディオオブジェクトがデバイスに接続される。５．１オーディオ信号の場合、これにより、ユーザが電話を目の高さより下に保持すると、リアスピーカーが上昇を確保し、これは、提案されたソリューションと比較するとユーザエクスペリエンスが低下する。

図８は、本出願の実施形態による、図２に示す装置によって実施される、再生のためのオーディオ信号をユーザにレンダリングする方法の一例のフローチャートを示す。図７に示すように、本方法は、光学センサ（Ｓ１０）を使用して、ユーザの頭の向きに関する情報を決定するステップを含む。すなわち、ユーザの頭の向きに関する情報は、光学センサ１２を使用することによって決定され、例えば、カメラを使用するか、またはユーザ向けの動画キャプチャデバイスを使用するか、および／または深度センサを使用するか、および／または視覚的な顔／頭追跡センサを使用し、例えば、頭追跡のためにカメラでキャプチャしたデータを使用する。

配向センサ１４を使用して光学センサ１２の向きに関する情報を決定するステップが実行される（Ｓ１２）。すなわち、例えば、光学センサ１２の向きに関する情報は、ジャイロスコープおよび／または磁場センサおよび／または重力センサおよび／または加速度計および／または光学センサなどを使用することによって決定され、これは、所定の位置関係、例えば、光学センサ１２に対する機械的関係で配置され、装置が「実世界」または地球固定座標系におけるその位置および／または向きを認識できるようにすることができる。

次に、ユーザの頭の向きに関する情報を決定するときに、光学センサ１２の向きに関する情報を考慮するステップが実行される（Ｓ１４）。すなわち、例えば、光学センサ１２の現在の向きまたは光学センサ１２を搭載または備える装置１０の向きから実質的に独立して、地球固定座標系に対するユーザの頭の向きに関する少なくとも１つのパラメータを取得することである。

次に、オーディオ信号の空間レンダリングを実行するステップが実行される（Ｓ１６）。すなわち、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させるために、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムを介してまたは装置１０と通信するヘッドセットを介してユーザに再生するためである。

提案されたソリューションは、既存のテクノロジーと、モバイル通信およびメディア消費に理想的な仮想環境を作る新たに定義された音響正面を組み合わせ、次のことにより現在の最先端技術によって改善を提供する。

・真に没入型：頭の動きが最も小さくても、空間音声処理の低遅延調整を使用する本出願による、提案された装置または提案された方法により、新しいレベルの没入感を達成することができ、よりリアルな空間処理を可能にする（現在、テレフォニーでは行われていない、すでにＨＭＤなしの空間処理を使用している会議アプリケーションでも同様である）。

・「外出先」での堅牢性：アダプティブアコースティックフロントにより、デバイスの動きおよび回転（実世界での同時の動き）にもかかわらず、ユーザとモバイルデバイスの両方が、最適なユーザエクスペリエンス（望ましい頭の回転）を維持しながら動き回ることができる。（ＷＡＶＥＳ－ＡＵＤＩＯ－ＬＴＤ、２０１７）内で提案されている方法では、これは、独立して回転できる２つの別個のセンサグループ（センサグループは１つ以上のセンサを含むハードウェアの一部）からのデータセットを組み合わせることによって達成される（例えば、頭に１つのＩＭＵ、胴体に別のＩＭＵ）。この提案されたソリューションは、同じまたはより優れた機能を可能にするが、１つのセンサグループ（例えば、「デバイス」または「装置」と見なされる可能性のある、モバイル端末）のみを使用することでこれを改善し、それによって独立して移動するオブジェクトからのデータセットを組み合わせるこのプロセスからの潜在的なエラーを低減する。

・一般的なハードウェアでアクセス可能：上記のすべては、今日ＨＭＤなしで達成可能であるが、代わりに、現在、他では全く行われていない方法で、一般的に利用可能な消費者向けハードウェア（例えば、モバイルデバイスでステレオヘッドホンの任意のペアと互換性がある）で達成可能である。

以下に、本発明の実施形態の根底にあるいくつかのアイデアを簡単に要約する。しかしながら、以下に記載される一般的な考慮事項、特徴、機能性および詳細は、任意選択で、個別におよび組み合わせて利用の両方で、実施形態のいずれかに導入され得ることに留意されたい。

実施形態は、モバイルデバイスの正面カメラを使用して、没入型オーディオアプリケーションのためのアダプティブアコースティックフロントを作成する。

本発明による実施形態は、既存の技術の新規な組み合わせを使用して空間オーディオ処理の利点を達成するための方法を作成する。この方法には、ヘッドホンと正面カメラを備えたデバイスを装着しているユーザの一般的な消費者環境が含まれる。正面カメラは、ユーザの顔の位置を追跡するために使用され、位置情報は、カメラではなくユーザの視点からのものに変換され、最後に、この位置データが空間オーディオ処理中に適用される。その結果、オーディオは３Ｄ空間処理を使用して視覚シーンを補完し、頭追跡により全体的な効果を向上させることができる。環境全体は、デバイスとユーザの頭との関係によって定義され、ユーザがカメラの視野内にいるときにアクティブな処理が行われる。この方法は、例えばコミュニケーションおよびメディア消費アプリケーションの没入感を改善するために適用することができる。

本出願の実施形態によれば、ユーザの頭の位置および向き（頭の位置）は、装置内のセンサのみを使用することによって決定される。言い換えれば、頭の位置は、頭にマウントされ得るデバイス、例えば、ユーザに取り付けられた、ヘッドマウントディスプレイ、ヘッドホンまたはイヤホンからの情報なしに決定される。したがって、頭の位置を決定するために、ユーザデバイスと装置との間で頭の位置に関するデータを送信する必要がなく、したがって、頭の位置のデータに関する伝送エラーがないので、頭の位置を正確に決定することが可能である。

本出願の実施形態によれば、センサは、装置内にのみ配置され、すなわち、ユーザデバイス内に頭の位置を検出するためのセンサを全く含む必要がない。したがって、ユーザデバイス（例えば、センサ、センサに電力を供給するための電池など）の重量を軽減し、ユーザの装着快適性を改善することが可能である。これはまた、本アプリケーションが既存のヘッドホンとすぐに互換性があることを意味する。

第１の態様では、マルチメディアアプリケーションにおいて仮想オーディオ環境をレンダリングするためのシステム（または装置）は、以下を備える、
ａ）ユーザ向けの動画キャプチャセンサを備えた電子デバイス、
ｂ）ａ）で説明した画像キャプチャデバイスの向きを決定する機能を提供するセンサ、
ｃ）空間オーディオ信号を再生できるスピーカーシステム［任意選択］、
ｄ）ａ）によってキャプチャされた画像シーケンスから頭の回転データを抽出し、その上このデータを目的の仮想オーディオ環境に適用して、レンダリングされた出力を、ｃ）で説明したスピーカーシステムに提供するコントローラー。

第２の態様では、電子デバイスは携帯可能である。第３の態様では、電子デバイスは電子ディスプレイを有する。第４の態様では、ユーザ向けの動画キャプチャセンサの代わりに／該動画キャプチャセンサに加えて、深度センサが使用される。第５の態様では、スピーカーシステムは、電子デバイスと通信するヘッドセットである。

第６の態様では、メイン電子デバイスの外部にある追加のセンサを使用して、ユーザの頭の追加の向きまたは位置データをコントローラーに提供する。第７の態様では、第１から第６の態様の任意の組み合わせを含むシステムを使用して仮想オーディオ環境をレンダリングするための方法であって、ユーザの頭の向きおよび位置データを使用して、仮想オーディオ環境をそれに応じて適合させる。

第８の態様では、一貫した仮想オーディオ環境を維持するために、電子デバイスの向きまたは位置データのあらゆる望ましくないオフセットが、ユーザの頭の向きおよび位置データに対して補償される。

第９の態様では、方法は、「音響正面」軸を、ユーザの頭の中心からモバイルデバイスに向かう方向ベクトルとして定義し、一方、デバイスは、視覚的な顔／頭追跡センサを使用してユーザの頭の向きまたは位置を決定し、この軸を使用して、一貫した仮想オーディオ環境を維持することができる。

第１０の態様では、仮想オーディオ環境の中心軸を常にユーザの頭と同じ高さに保つため、デバイスとユーザの頭の中心との間の垂直オフセットが無視されることを除いて、ユーザの頭の向きおよび位置データはそれに応じて仮想オーディオ環境を適応させるために使用される。

第１１の態様では、仮想オーディオ環境は、リアルタイムの二重通信電話会議でオーディオオブジェクトとしてレンダリングされたリモート参加者（または複数の参加者）から移送されたオーディオで構成され、ローカルオーディオがキャプチャされてリモート参加者に送信される。

第１２の態様では、仮想オーディオ環境は、ブロードキャスト／ストリーミングを目的とした生成されたオーディオコンテンツで構成される。第１３および第１４の態様では、オーディオコンテンツに加えてビデオ要素がレンダリングされる。

第１５の態様では、本方法は、モバイルコンピューティングデバイス上に実装される。第１６の態様では、仮想オーディオ環境は、ユーザの頭の向きまたは位置を決定することができない場合、デフォルトの状態に戻る。

第１７の態様では、ユーザの顔／頭の追跡は、請求項６に記載の外部センサからのデータを使用して改善され、視覚的な顔／頭追跡センサのみを使用してユーザの頭の向きまたは位置を決定することができないときに仮想オーディオ環境を維持できるようにする。

いくつかの態様は装置の文脈で説明されたが、これらの態様は対応する方法の説明も表すことは明らかであり、ここで、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部またはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行することができる。いくつかの実施形態では、最も重要な方法ステップの１つ以上は、そのような装置によって実行され得る。

本発明のデータストリームは、デジタル記憶媒体に記憶することができ、または無線伝送媒体などの伝送媒体またはインターネットなどの有線伝送媒体で送信することができる。

特定の実装要件に応じて、アプリケーションの実施形態をハードウェアまたはソフトウェアで実装することができる。実装は、そこに電子的に読み取り可能な制御信号が格納され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）デジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリを使用して実行できる。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書で説明した方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本出願の実施形態は、プログラムコードを持つコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納されてもよい。

他の実施形態は、機械可読キャリアに格納され、本明細書で説明した方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書で説明した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法の１つを実行するためのコンピュータプログラムを含み、それに記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書で説明した方法の１つを実行するように構成または適合された処理手段、例えば、コンピュータまたはプログラム可能なロジックデバイスを含む。

さらなる実施形態は、本明細書で説明した方法の１つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明した方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。

いくつかの実施形態では、プログラム可能なロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書で説明した方法の機能のいくつかまたはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明した方法の１つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、好適には、任意のハードウェア装置によって実行される。

本明細書で説明した装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装することができる。

本明細書で説明した装置、または本明細書で説明した装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装され得る。

Claims

再生のためのオーディオ信号をユーザにレンダリングするための装置（１０）であって、
前記装置（１０）は、光学センサ（１２）を使用して、前記ユーザの頭の向きに関する情報を決定するように構成され、
前記装置（１０）は、前記光学センサ（１２）に対して所定の位置関係で配置された配向センサ（１４）を使用して、地球固定座標系における前記光学センサ（１２）の向きに関する情報を決定するように構成され、
前記装置（１０）は、前記光学センサ（１２）の現在の向き、または前記光学センサ（１２）を搭載または備える前記装置（１０）の前記向きから実質的に独立し、地球固定座標系に対する前記頭の前記向きに関する少なくとも１つのパラメータを取得することによって、前記頭の前記向きに関する前記情報を決定するときに、前記光学センサ（１２）の前記向きに関する前記情報を考慮するように構成され、
前記装置（１０）は、前記ユーザの前記頭の前記向きに関する前記情報に応じて、オーディオ信号の空間レンダリングを実行するように構成される、装置（１０）。
前記装置（１０）が、前記ユーザの前記頭の前記向きに関する前記情報に応じてバイノーラルレンダリングを実行するように構成された、
請求項１に記載の装置（１０）。
前記装置（１０）が、前記光学センサ（１２）を含むものであって、前記光学センサ（１２）は、前記ユーザの頭を追跡するように配置されている、
請求項１または２に記載の装置（１０）。
前記装置（１０）が、前記ユーザの前記頭の正面方向と前記装置（１０）の位置との間の角度を記述するヨー角情報を決定するように構成され、および／または
前記装置（１０）が、前記ユーザの前記頭のロール角を記述するロール角情報を決定するように構成され、および／または
前記装置（１０）が、前記ユーザの前記頭のピッチ角を記述するピッチ角情報を決定するように構成される、
請求項１から３のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記ユーザの前記頭の正面方向と前記装置（１０）の位置との間のヨー角を記述するヨー角情報を決定するように構成され、前記ヨー角情報が、前記ユーザの前記頭の前記頭の正面方向と前記ユーザの前記頭から前記装置（１０）への方向との間の方位角を記述する、
請求項１から４のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記ユーザの前記頭から前記装置への方向と前記光学センサの光軸の方向との間の偏差を少なくとも部分的に補償するように構成された、
請求項５に記載の装置（１０）。
前記装置（１０）が、垂直方向または頭の正面方向に対する前記ユーザの前記頭のロール角を記述するロール角情報を決定するように構成された、
請求項１から６のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記ユーザの前記頭の前記ロール角を記述する前記ロール角情報を決定するときに、前記光学センサ（１２）の前記向きに関する前記情報に基づいて、前記装置（１０）または前記光学センサのロール角を少なくとも部分的に補償するように構成された、
請求項７に記載の装置（１０）。
前記装置（１０）が、水平方向の配列に対する前記ユーザの前記頭のピッチ角を記述するピッチ角情報を決定するように構成された、
請求項１から８のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記ユーザの前記頭の前記ピッチ角情報を決定するときに、前記光学センサ（１２）の前記向きに関する前記情報に基づいて、前記装置（１０）または前記光学センサの前記向きを少なくとも部分的に補償するように構成された、
請求項９に記載の装置（１０）。
前記装置（１０）が、前記装置（１０）内に配置された、または前記装置（１０）に機械的に取り付けられたセンサからの情報に基づいて、前記頭の前記向きに関する前記情報を決定するように構成された、
請求項１から１０のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記装置（１０）内に配置された、または前記装置（１０）に機械的に取り付けられたセンサからの情報に基づいて、前記頭の前記向きに関する前記情報を決定するように構成され、
前記装置（１０）の外部にある１つ以上の追加センサに基づいている、
請求項１から１１のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記光学センサ（１２）からの前記情報に基づいて前記頭の前記向きに関する前記情報が確実には取得できないことが判明した場合にのみ、前記１つ以上の追加センサからの情報を考慮するように構成された、
請求項１２に記載の装置（１０）。
前記装置（１０）が、前記頭から前記装置（１０）への水平面への方向の投影である音響正面方向を決定するように構成され、
前記装置（１０）が、前記音響正面方向に応じて前記オーディオ信号の前記空間レンダリングを実行するように構成された、
請求項１から１３のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記頭から前記装置（１０）への方向である音響正面方向を決定するように構成され、
前記装置（１０）が、前記音響正面方向に応じて前記オーディオ信号の前記空間レンダリングを実行するように構成された、
請求項１から１３のいずれか一項に記載の装置（１０）。
前記装置（１０）が、オーディオシーンの中心を前記音響正面方向にレンダリングするように構成された、
請求項１４または１５に記載の装置（１０）。
前記装置（１０）が、前記音響正面方向に対するピッチ角を記述する前記ピッチ角情報を決定するように構成された、
請求項１４から１６のいずれか一項に記載の装置（１０）。
前記装置（１０）が、仮想オーディオ環境の中心軸をユーザの頭と同じ高さに保つように構成された、
請求項１から１７のいずれか一項に記載の装置（１０）。
前記装置（１０）が、前記頭の向きに関する前記情報を決定するときに、前記ユーザの頭と前記装置（１０）との間の高さの差を残すように構成された、
請求項１から１８のいずれか一項に記載の装置（１０）。
前記装置（１０）が携帯可能であり、および／または前記装置（１０）がモバイル通信デバイスである、
請求項１から１９のいずれか一項に記載の装置（１０）。
前記装置（１０）が、オーディオ会議またはオーディオ／ビデオ会議の複数の参加者からのオーディオ投稿を表す複数のオーディオ信号の空間レンダリングを実行するように構成され、および／または
前記装置（１０）が、ブロードキャスト、またはローカル記憶メディア上のコンテンツ、またはストリーミングされたオーディオコンテンツの空間レンダリングを実行するように構成された、
請求項１から２０のいずれか一項に記載の装置（１０）。
前記装置（１０）が、どの方位角位置で、およびどの高さまたは高度で、オーディオコンテンツがレンダリングされるべきかの情報を取得するように構成され、
前記装置（１０）が、前記光学センサからの情報および前記光学センサ（１２）の前記向きに関する前記情報を使用して、前記ユーザの視点から前記装置（１０）の方位角位置に関する情報を決定するように構成され、
前記装置（１０）が、前記光学センサ（１２）からの前記情報および前記光学センサ（１２）の前記向きに関する前記情報を使用して、地球固定座標系に対する前記頭の前記向きに関するパラメータを決定するように構成され、
前記装置（１０）が、前記方位角位置に関する前記情報および前記地球固定座標系に対する前記頭の前記向きに関する前記パラメータを使用して、前記オーディオコンテンツをレンダリングするように構成された、
請求項１から２１のいずれか一項に記載の装置（１０）。
再生のためのオーディオ信号をユーザにレンダリングするための方法であって、
前記方法は、光学センサ（１２）を使用して、前記ユーザの頭の向きに関する情報を決定することを含み、
前記方法は、前記光学センサ（１２）に対して所定の位置関係で配置された配向センサ（１４）を使用して、地球固定座標系における前記光学センサ（１２）の向きに関する情報を決定することを含み、
前記方法は、前記光学センサ（１２）の現在の向き、または前記光学センサ（１２）を搭載または備える装置（１０）の前記向きから実質的に独立し、地球固定座標系に対する前記頭の前記向きに関する少なくとも１つのパラメータを取得することによって、前記頭の前記向きに関する前記情報を決定するときに、前記光学センサ（１２）の前記向きに関する前記情報を考慮することを含み、
前記方法は、前記ユーザの前記頭の前記向きに関する前記情報に応じて、オーディオ信号の空間レンダリングを実行することを含む、方法。
コンピュータプログラムがコンピュータ上で実行されるときに、請求項２３に記載の方法を実行するためのコンピュータプログラム。