JP7157985B2 - ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法 - Google Patents

ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法 Download PDF

Info

Publication number
JP7157985B2
JP7157985B2 JP2020559554A JP2020559554A JP7157985B2 JP 7157985 B2 JP7157985 B2 JP 7157985B2 JP 2020559554 A JP2020559554 A JP 2020559554A JP 2020559554 A JP2020559554 A JP 2020559554A JP 7157985 B2 JP7157985 B2 JP 7157985B2
Authority
JP
Japan
Prior art keywords
head
orientation
user
information
optical sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020559554A
Other languages
English (en)
Other versions
JP2021522720A (ja
Inventor
ホイスラー・ドミニク
メルビル・フレデリック
ローゼンバーガー・デニス
ドーラ・ステファン
Original Assignee
フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2021522720A publication Critical patent/JP2021522720A/ja
Application granted granted Critical
Publication of JP7157985B2 publication Critical patent/JP7157985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、オーディオ信号をレンダリングするための装置、より具体的には、音響通信のオーディオ信号の空間レンダリングまたは音場レンダリングを実行するように構成された装置に関する。
空間オーディオデータのバイノーラルレンダリングのための空間オーディオ処理は、ビデオゲームおよび仮想現実(VR)でのヘッドホンの使用に広く採用されているが、音声通信、例えば、音声通話、会議、標準的なビデオ消費などの他の用途にはまだ浸透していない(つまり、360度以外)。空間オーディオデータの静的バイノーラルレンダリングを使用するアプリケーションはいくつか存在するが、ユーザの受け入れは限られているようである。この背後にある理由は、空間オーディオが、説得力があるためには、ユーザの視点のライブ位置情報が空間処理中にアクティブに適用されなければならないということであると仮定されている。脳を上手に錯覚させるには、オーディオは頭の位置の最小の調整にも低遅延で応答する必要がある。
電話通話では、リモートの参加者/ユーザは、リアルな同じ部屋の感覚を与えるために、それぞれが一意の3次元位置(例えば、参加者/リスナとしてのユーザの前に水平に広がる)を持つ、モノラルオブジェクト(参加者/ユーザごと)としてレンダリングできる。
ヘッドホンでのVRエクスペリエンスは、慣性測定ユニット(IMU)から取得した頭追跡データ(ピッチ角、ヨー角、ロール角の形、または四元数としてなど)を使用してこれを実現し、これには、ユーザのヘッドマウントディスプレイ(HMD)内のジャイロスコープや加速度計などのセンサからのデータが含まれる。そのようなセンサがすでに消費者向けヘッドホンで一般的に見られる場合には、電話通話などの日常の用途もヘッドトラック空間処理の恩恵を受ける可能性があるが、現在、これらのセンサが組み込まれているスタンドアロンのヘッドホンはほとんどなく、このデータにすぐに開発者がアクセスできるようにするものはさらに少なくなっている。
例えば、カメラのビデオフィードを使用して頭追跡データを抽出し、このデータをオーディオ信号のバイノーラルレンダリングに使用することは、MicrosoftTM KinectTMカメラと組み合わせてデスクトップコンピュータですでに行われている(例えば、Kronlacher、M.(2013).Ambisonics plug-in suite for production and performance usage(プロダクションおよびパフォーマンスで使用するためのアンビソニックスプラグインスイート)を参照。例えば、http://lac.linuxaudio.org/2013/papers/51.pdfから取得)。加えて、一般的なWebカメラのビデオフィードからの頭追跡データの抽出も知られている(例えば、Lambers、2017、https://github.com/marlam/webcam-head-tracker、およびFace TrackNoir、2010、https://git.marlam.de/gitweb/?p=webcam-head-tracker.gitを参照)が、オーディオ信号の空間レンダリングに使用することは提案されていない。さらに、米国特許第2009/0219224(A1)号明細書は、モバイルデバイスおよびアダプティブビジュアルオーディオ/ビデオシーンを用いた頭追跡に関連するマルチメディアアプリケーションでの仮想環境をレンダリングするためのシステムを開示している。
米国特許第2009/021924(A1)号明細書
Kronlacher、M.(2013).Ambisonics plug-in suite for production and performance usage Lambers、2017、https://github.com/marlam/webcam-head-tracker Face TrackNoir、2010、https://git.marlam.de/gitweb/?p=webcam-head-tracker.git
しかしながら、上記の既知の技術を考慮しても、特定の問題はまだ解決されていない、例えば、動的なモバイルシナリオ(例えば、歩き回るユーザ、または移動している車両)での使用など、センサ自体の動きを補正する方法などである。
したがって、本発明の目的は、再生のためのオーディオ信号をユーザにレンダリングするための正確で低遅延の調整の概念を提供し、それを多数のシナリオで堅牢に行うことである。
この目的は、本出願の請求項1に記載の再生のためのオーディオ信号をユーザにレンダリングするための装置、請求項23に記載の再生のためのオーディオ信号をユーザにレンダリングするための方法、および請求項24に記載のコンピュータプログラムの主題によって達成される。
本発明によれば、装置は、ユーザの頭の位置を決定するための光学センサおよび配向センサを備える。したがって、装置、例えば、デバイスは光学センサと配向センサとの間の位置関係を参照することにより、ユーザの頭の位置を決定することができ、したがって、ユーザの頭の位置を正確に決定することが可能である。加えて、ユーザの頭の正確に決定された位置を使用して、空間レンダリングの低遅延調整を実装し、ユーザエクスペリエンスを向上させることができる。
本出願の実施形態によれば、再生のためのオーディオ信号をユーザにレンダリングするための装置であって、装置は、光学センサを使用して、例えば、カメラを使用するか、ユーザ向けの動画キャプチャデバイスを使用するか、および/または深度センサを使用するか、および/または視覚的な顔/頭追跡センサを使用して、例えば、頭追跡のためにカメラでキャプチャしたデータを使用して、ユーザの頭の向きに関する情報を決定するように構成され、ここで、装置は、配向センサ、例えば、ジャイロスコープおよび/または磁場センサおよび/または重力センサおよび/または加速度計および/または光学センサなどを使用して、光学センサの向きに関する情報を決定するように構成され、それは、所定の位置関係、例えば、光学センサに対する機械的関係に配置され、例えば、装置が「実世界」または地球固定座標系でのその位置および/または向きを認識できるようにし、ここで、装置は、例えば、光学センサの現在の向き、または光学センサを搭載または備える装置の向きから実質的に独立し、地球固定座標系に対する頭の向きに関する少なくとも1つのパラメータを取得するために、頭部の向きに関する情報を決定するときに、光学センサの向きに関する情報を考慮するように構成され、ここで、装置は、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムまたは装置と通信するヘッドセットを介して、ユーザに再生するために、オーディオ信号の空間レンダリングを実行するように構成され、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させる。
本出願の実施形態によれば、装置は、ユーザの頭の向きに関する情報に応じて、例えば、ユーザの頭の正面方向(例えば、ユーザの目または鼻が指している方向)と、ユーザの頭から装置または装置内に含まれる光学センサに向かう方向との間、あるいは装置のディスプレイに向かうヨー角または方位角を考慮し、並びに/あるいはユーザの頭のロール角を考慮し、並びに/あるいはユーザの頭のピッチ角を考慮して、例えば、ユーザが着用するヘッドセットに対して、または例えば、空間オーディオデータについて、バイノーラルレンダリングを実行するように構成される。
本出願の実施形態によれば、装置は、光学センサ、例えば、カメラまたはユーザ向けの動画キャプチャデバイス、および/または深度センサを備えるものであって、光学センサは、ユーザが装置のディスプレイを見ているときに、ユーザの頭、例えば、ユーザの顔の位置を追跡するように配置される。
本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、ヨー角情報、例えば、ユーザの頭の正面方向と装置の位置との間の角度、または、同等に、ユーザの頭から装置または光学センサへの方向を記述する、角度値または回転行列または四元数を決定するように構成され、並びに/あるいは、ここで装置は、例えば、ユーザの頭の向きに関する情報の一部として、ロール角情報、例えば、垂直方向に対する、例えば、重力の方向に対する、例えば、ユーザの頭のロール角を記述する、角度値または回転行列または四元数を決定するように構成され、並びに/あるいは、ここで装置は、例えば、ユーザの頭の向きに関する情報の一部として、ピッチ角情報、例えば、水平方向の配列に対する、例えば、ユーザの頭のピッチ角を記述する、角度値または回転行列または四元数を決定するように構成される。
本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、ユーザの頭の正面方向と、ヨー角情報が、ユーザの頭の正面方向と、ユーザの頭から、例えば、ユーザの頭の中心から、装置、例えば、装置に含まれる光学センサまでの方向との間の方位角を記述するように、例えば、ヨー角情報が、頭の正面方向、すなわち、ユーザが頭を向けた方向、またはユーザの鼻が指している方向を考慮に入れて、ユーザの頭から見たときの装置の方位位置を記述するような装置の位置との間のヨー角を記述するヨー角情報φを決定するように構成される。
本出願の実施形態によれば、装置は、ユーザの頭から装置への方向と光学センサの光軸の方向との間の偏差、例えば角度φエラー、を、例えば、光学センサから取得された画像情報の処理を使用して、少なくとも部分的に補償または補正するように構成される。
本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、垂直方向に対する、例えば、重力と反対の方向に対する、また「上へ」で指定される、または例えば、地球固定座標系に対する、または地球固定垂直方向に対する、または頭の正面方向に対する、ユーザの頭のロール角を記述するロール角情報φヘッドロールを決定するように構成され、例えば、ロール角情報が、頭の正面方向に向けられた軸の周りの頭の回転の角度を記述するようにし、例えば、ピッチがない場合、ユーザの頭の垂直軸と「上へ」の垂直方向との間の角度であるが、好適には、装置または光学センサの回転角度とは無関係であるものであって、空間レンダリングを実行するときには、頭のロール角情報が使用される。
本出願の実施形態によれば、装置は、ユーザの頭のロール角を記述するロール角情報を決定するときの光学センサの向きに関する情報に基づいて、例えば、垂直方向に対する、装置または光学センサのロール角φデバイスロールを少なくとも部分的に補償するように、または任意選択で、装置または光学センサの(全体の)向きを少なくとも部分的に補償するように構成され、例えば、装置または光学センサのみが回転し、そのヘッドがその回転角度を変更しない場合、空間レンダリングが実質的に変化しないままであるようにする。
本出願の実施形態によれば、装置は、例えば、ユーザの頭の向きに関する情報の一部として、水平方向の配列に対する、例えば、地球固定座標系に対する、または地球固定水平面に対する、ユーザの頭のピッチ角を記述するピッチ角情報φピッチを決定するように構成され、例えば、ピッチ角情報が頭の正面方向の仰角を記述するが、好適には装置または光学センサのピッチ角とは無関係なようにするものあって、頭のピッチ角を記述するピッチ角情報は、空間レンダリングを実行するときに使用される。
本出願の実施形態によれば、装置は、ユーザの頭のピッチ角情報を決定するときの光学センサの向きに関する情報に基づいて、装置または光学センサの向きを少なくとも部分的に補償するように構成され、例えば、決定されたピッチ角情報が、光学センサを備える装置の位置から実質的に独立し、光学センサを備える装置の整列または回転から実質的に独立した、地球固水平面に対するユーザの頭のピッチ角を表すようにする。
本出願の実施形態によれば、装置は、センサから、好適には装置内に配置された、または装置に機械的に取り付けられた、センサのみからの情報に基づいて、すなわちユーザの頭またはヘッドセットに取り付けられたセンサからの情報を使用しないで、頭の向きに関する情報を決定するように構成される。
本出願の実施形態によれば、装置は、装置内に配置された、または装置に機械的に取り付けられたセンサからの情報に基づいて、および装置の外部にあり、例えば光学センサおよび配向センサを備えるメイン電子デバイスの外部にある1つ以上の追加のセンサに基づいて、頭の向きに関する情報を決定するように構成されるものであって、1つ以上の追加のセンサは、例えば、ヘッドセットまたはイヤホンに配置することができる。
本出願の実施形態によれば、装置は、頭の向きに関する情報が確実に取得できない、または全く取得できないことが判明した場合にのみ、1つ以上の追加のセンサが、ユーザの頭が光学センサの視野を離れるときにユーザの頭の向きの決定の際のバックアップセンサとして機能するような光学センサからの情報に基づいて、外部センサからの情報を考慮するように構成される。
本出願の実施形態によれば、装置は、例えば、ベクトルによって表される、例えば、頭から、例えば、ユーザの頭の中心から、または頭の重心から、装置、例えば、光学センサ、水平面、例えば、重力方向に垂直な平面へのベクトルによって表される、ある方向の投影である、音響正面軸としても指定される、音響正面方向を決定するように構成されるものであって、例えば、仮想オーディオ環境の中心軸を常に頭と同じ高さに保つために、装置とユーザの頭の中心との間の垂直オフセットは無視され、装置は、例えば、一貫した仮想オーディオ環境を維持するために、音響正面方向に応じてオーディオ信号の空間レンダリングを実行するように構成される。
本出願の実施形態によれば、装置は、例えば、ベクトルによって表される、例えば、頭から、例えば、ユーザの頭の中心から、または頭の重心から、装置、例えば、光学センサへのベクトルによって表される、ある方向である、音響正面軸としても指定される、音響正面方向を決定するように構成されるものであって、装置は、例えば、一貫した仮想オーディオ環境を維持するために、音響正面方向に応じてオーディオ信号の空間レンダリングを実行するように構成される。
本出願の実施形態によれば、装置は、装置がユーザの頭よりも高い位置にあるか低い位置にあるかに関係なく、オーディオシーンの中心、例えば、センタースピーカーを、音響正面方向で知覚可能であるか、または知覚可能であるようにレンダリングするように構成され、例えば、オーディオシーンが装置の位置によって決定される方向の中心があるが、ユーザの頭の高さの平面にあるようにする。
本出願の実施形態によれば、装置は、音響正面方向に対するピッチ角を記述するピッチ角情報を決定するように構成され、例えば、ピッチ角が頭の正面方向と音響正面方向との間の角度であるようにする。
本出願の実施形態によれば、装置は、仮想オーディオ環境の中心軸をユーザの頭と同じ高さに保つように構成される。
本出願の実施形態によれば、装置は、水平面に対するユーザの頭のピッチ角を決定することによって、および/または装置とユーザの頭との間の垂直オフセットを無視または補償することによって、ユーザの頭と装置、例えば、頭部の向きに関する情報を決定するときに考慮されない、光学センサの間の高さの差を残すように構成される。
本出願の実施形態によれば、装置は携帯可能なものであって、および/または装置はモバイル通信デバイス、例えば携帯電話である。
本出願の実施形態によれば、装置は、オーディオ会議またはオーディオ/ビデオ会議の複数の参加者からのオーディオ投稿を表す複数のオーディオ信号の空間レンダリングを実行するように構成されるものであって、および/または装置は、ブロードキャスト、またはローカル記憶メディア上のコンテンツ、またはストリーミングされたオーディオコンテンツの空間レンダリングを実行するように構成され、任意選択で、装置のディスプレイ上にレンダリングされるビデオコンテンツを伴って表示できる。
本出願の実施形態によれば、装置は、例えば、装置のディスプレイを参照して、どの方位角位置で、および例えば、ユーザの頭に対する、どの高さまたは高度で、音声コンテンツがレンダリングされるべきかの情報を取得するように構成されるものであって、装置は、光学センサからの情報および光学センサの向きに関する情報を使用して、ユーザの視点から装置の方位角位置に関する情報、例えば、ヨー角またはヨー角情報を決定するように構成され、並びに装置は、光学センサからの情報および光学センサの向きに関する情報を使用して、地球固定座標系に対する頭の向きに関するパラメータ、例えば、ピッチパラメータまたはロールパラメータを決定するように構成され、並びに装置は、方位角位置に関する情報および地球固定座標系に対する頭の向きに関するパラメータを使用し、および任意選択でさらに、装置の向きとユーザの頭から装置への方向との間の角度を記述するパラメータを使用して、オーディオコンテンツをレンダリングするように構成される。
本出願の実施形態によれば、再生のためのオーディオ信号をユーザにレンダリングするための方法であって、方法は、光学センサを使用して、例えば、カメラを使用するか、ユーザ向けの動画キャプチャデバイスを使用するか、および/または深度センサを使用するか、および/または視覚的な顔/頭追跡センサを使用して、例えば、頭追跡のためにカメラでキャプチャしたデータを使用して、ユーザの頭の向きに関する情報を決定することを含み、ここで、方法は、配向センサ、例えば、ジャイロスコープおよび/または磁場センサおよび/または重力センサおよび/または加速度計および/または光学センサなどを使用して、光学センサの向きに関する情報を決定することを含み、それは、所定の位置関係、例えば、光学センサに対する機械的関係に配置され、例えば、装置が「実世界」または地球固定座標系でのその位置および/または向きを認識できるようにし、ここで、方法は、例えば、光学センサの現在の向き、または光学センサを搭載または備える装置の向きから実質的に独立し、地球固定座標系に対する頭の向きに関する少なくとも1つのパラメータを取得するために、頭部の向きに関する情報を決定するときに、光学センサの向きに関する情報を考慮することを含み、ここで、方法は、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムまたは装置と通信するヘッドセットを介して、ユーザに再生するために、オーディオ信号の空間レンダリングを実行することを含み、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させる。
本出願の有利な態様は、従属請求項の対象である。本出願の好適な実施形態は、図に関して以下に説明される。
本出願の一実施形態による、再生のためのオーディオ信号をユーザにレンダリングするための装置の一例を説明する概略図を示す。 本出願の実施形態による、再生のためのオーディオ信号をユーザにレンダリングするための装置の一例を例示するブロック図を示す。 本出願の一実施形態による、装置を使用する没入型会議の例示的な実装を説明する概略図を示す。 本出願の一実施形態による、ユーザの動きの一例を説明する概略図を示す。 本出願の一実施形態による、ロール角における装置の向きとユーザの頭の向きとの関係の一例を説明する概略図を示す。 本出願の一実施形態による、ヨー角における装置の向きとユーザの頭の向きとの関係の一例を説明する概略図を示す。 本出願の一実施形態による、ピッチ角における装置の向きと音響正面の向きとの関係の一例を説明する概略図を示す。 本出願の実施形態による、図2に示す装置によって実施される、再生のためのオーディオ信号をユーザにレンダリングするための方法の一例のフローチャートを示す。
以下の説明では、同等または同じ要素または同等または同じ機能を有する要素を同等または同じ参照番号で示している。
以下の説明では、本出願の実施形態のより徹底的な説明を提供するために、複数の詳細が明記されている。しかしながら、本出願の実施形態がこれらの特定の詳細なしで実施され得ることは当業者には明らかであろう。他の例では、本出願の実施形態を曖昧にすることを回避するために、周知の構造およびデバイスが詳細ではなくブロック図の形で示されている。加えて、本明細書で以下に説明する異なる実施形態の特徴は、特に明記しない限り、互いに組み合わせることができる。
図1は、ヘッドホン6を装着しているユーザに再生のためのオーディオ信号をレンダリングするための正面カメラ4を備えた、装置2の一実施形態を示している。図1に記載されているように、ユーザの顔は正面カメラ4に向けられ、参照番号4’は正面カメラ4の視野を示す。深度カメラ(例えば、赤外線投影を赤外線深度センサと組み合わせて使用して深度マップを抽出する)も、正面カメラ4の代わりに、またはそれに加えて使用することができる。この実施形態では、装置2は、非移動デバイスすなわち静止デバイスである。
正面カメラ4(例えば、光学センサ)は、ユーザの顔の位置(および/または向き)を追跡するために使用され、位置情報(および/または向き情報)は、(任意選択で)カメラではなくユーザの視点からのものに変換され、最後に、この位置データが空間オーディオ処理中に適用される。代替として、装置2は、配向センサ、例えば、ユーザの顔の向きを追跡するのを支援するジャイロスコープをさらに備える。すなわち、静止デバイスが位置を変えなくても、静止デバイスの正面、例えば、ディスプレイは回転可能であり得る。したがって、静止デバイスの向きも変更可能であり得、したがって、静止デバイスのディスプレイが回転可能な場合、デバイスの位置(向き)に対するユーザの頭の向きに関する情報を正確に決定するために、少なくとも1つの配向センサが必要である。
環境全体は、デバイス(装置)とユーザの頭との関係によって定義され、ユーザがカメラ4’の視野内にいるときにアクティブな処理が行われる。
ハードウェアとソフトウェアの両方での拡張現実(AR)テクノロジーの最近の進歩により、これらの追跡および変換プロセスがより利用しやすくなっている。その結果、オーディオは3D空間処理を使用して視覚シーンを補完し、頭追跡により全体的な効果を向上させることができる。
図2は、静止装置(デバイス)並びに光学センサ12を備えるモバイル装置(デバイス)10、例えば、カメラ、配向センサ14、例えば、ジャイロスコープ、頭の向き情報ジェネレータ16、および空間(バイノーラル)レンダリングコア18の概略図を示している。配向センサ14は、光学センサ12に対して所定の位置関係で配置されている。図2に示されているデバイスは、静止デバイスであり、モバイルデバイスでもある。図2のデバイスは、ディスプレイ、スピーカー、アンテナ、データ送信機、マイクロフォンなどをさらにまたは任意選択で含むことができる。
図1に示すような静止デバイス(デスクトップモニターなど)の場合、ユーザが頭を画面から少し離すと、ビデオシーン(デバイス/装置)は同じ位置に留まるため、オーディオシーンも同じ位置に固定されたままであるはずで、それは、ヘッドホンマウントセンサまたは静止カメラから取得された、頭の回転データを適用し、動きを補正することによって達成される。これにより、ユーザが実生活で慣れているようにオーディオシーンが反応するため、新しい程度のリアリズムが追加される。
モバイルデバイス(モバイル装置)の場合、モバイルデバイスが静止しているときは、上記と同じロジックが適用される。しかしながら、この構成を使って、本出願は、モバイルデバイスで予測される、自由空間におけるユーザとそのデバイスの両方の動きも都合よく説明する。これには、デバイス内で追加のセンサ(例えば、1つ以上の配向センサ)を使用して(例えば、組み込みの加速度計またはジャイロスコープまたは組み込みのカメラまたはそれらの任意の組み合わせ)、デバイスが実世界での(例えば、地球固定座標系に対する)その位置(および/または向き)を認識できるようにする必要がある。上記のように、静止デバイスのディスプレイまたは表面が回転可能である場合、追加のセンサ、例えば、デバイス内に1つ以上の配向センサの使用が必要である。
以下で、モバイルデバイスの場合を詳細に説明し、本出願による装置が、ヘッドホンに組み込まれたセンサからのデータを使用することによるモバイルデバイスの場合に実用的な利点を提供する理由を説明する。
この後者のケースの実施形態は、特に頭追跡にカメラでキャプチャされたデータを使用することにより、真の空間オーディオを促進することによってオーディオ品質と全体的なユーザエクスペリエンスの大幅な改善を可能にし、さまざまなモバイル環境で堅牢にそのようにする。
これは、例えば、対面ビデオ通話およびビデオ消費(サラウンドサウンドなど)の場合に特に有益であり、空間処理の必要性は明らかであるが、それを適用する方法はまだ市場では成熟していない。
本出願による装置の使用は、ビデオの使用例に限定されず、それはまた、音声通話または3Dオーディオ再生などのオーディオのみの用途にも改善されたオーディオ品質をもたらし、ここで、ローカルにキャプチャされたビデオは頭追跡のために使用されるが、頭追跡データが抽出されるとすぐに破棄できる。
図3は、没入型会議の実装例を概略的に示しており、正面カメラを介したローカルユーザおよび4人のリモート参加者との電話会議の2Dオーバーヘッド表現を示している。ユーザの顔の上の線は、ユーザの頭の方位角位置を示す。
モバイルデバイスでは、(例えば、地球固定座標系または重力の方向に対する)デバイスの位置(および/または向き)と実世界内でのユーザの頭の位置(および/または向き)の両方の知識を得るために、デバイスの追加センサ(例えば、組み込みの加速度計および/またはジャイロスコープ)とともに、正面カメラおよび/または深度センサが使用される。これは、AppleのARKitTMまたはGoogleのARCoreTMなどの既存の拡張現実(AR)フレームワークで達成できる。
これにより、デバイスは同じ頭追跡データを提供できるようになるため、ヘッドホンにセンサが不要になる。この方法で可能性のある(ただし通常は軽微な)欠点は、頭追跡データを利用できるようにするために、ユーザが正面センサに面し、視野内にいる必要が(または、べきで)あることである。対面ビデオ通話やビデオ消費などの用途の場合、とにかくこれはほぼ確実に当てはまる。
ユーザが一時的にカメラの視野から外れる必要がある場合、任意選択(任意選択で実装可能)には、最新の状態を維持することが含まれるか、またはアプリケーションがデフォルトの状態にフォールバックすることも簡単である(例えば、頭の回転値をデフォルトの前方位置に戻す)。さらに別の任意選択(任意選択で実装可能)は、例えば、ヘッドホンに含まれる、他のセンサからの動きデータを使用することであり、これは、ユーザがカメラの視野内にいない場合に、頭追跡位置を推定するためにのみ使用される。任意の外部センサ(例えば、装置に機械的に統合されていないが、例えば、ヘッドホンまたはユーザの体に取り付けられているセンサ)は、没入感が制限される外部センサとデバイスとの間の追加の伝送遅延により、デバイス内のセンサよりも最適ではないことに注意されたい。すなわち、デバイスは、好適には、1つ以上の光学センサ、例えば、1つ以上のカメラおよび1つ以上の配向センサ、例えば、1つ以上のジャイロスコープを備える。
しかしながら、本出願によるデバイス、すなわち、正面空間処理はまた、ヘッドホンに組み込まれたセンサからの頭追跡データを使用することにより1つの重要な利点を提供する。例えば、外出先でビデオ通話を使用する一般的な方法として、図4に示すように、通りを歩きながら、デバイスを腕の長さで伸ばした状態で(図4(t1)を参照)、ユーザが空間オーディオを使用してビデオ通話を行うシナリオを考えてみる。
次に、それらが通りの角を中心に90度回転するとする(図4のt1、t2、t3、t4)。このシナリオでは、ユーザと電話の両方が実世界の空間で回転しているが、ユーザの頭の位置と電話の位置との関係が変わっていないので、オーディオシーン(例では1つのモノラル音源)はユーザにとって一定のままである。ユーザの頭から発生し、デバイスのカメラを通過するベクトルは、本明細書のこの説明では今後「音響正面」と呼ばれる(ここで、任意選択で、頭とカメラとの間の垂直方向の間隔は考慮しなくてもよい)。これ(例えば、ベクトルで表すことができる音響正面の方向)は、空間での方向であり、ここで、5.1オーディオ信号(5.1サラウンドサウンド)のセンタースピーカーがレンダリングされる。
ヘッドホンのセンサからの頭追跡データが使用される場合、これらのセンサは、回転がユーザの頭なのか、全身なのかを自動的に推定することはできない。技術的には、2つのデバイス(ヘッドマウントセンサとデバイスセンサ)のセンサ値を比較し、それぞれの異なる方向を使用して一般的に知られている微積分を使用してこの効果を補正することは可能であるが、これはより複雑で、よりエラーを起こしやすい可能性がある。
デバイス並びにここで提案された方法を使用すると、向きおよび/または位置情報は、単一の基準点、すなわちデバイス(「装置」とも呼ばれる)でキャプチャされる。また、ユーザが移動する車両の乗客である場合など、他の動きを無視する必要がある堅牢なユーザエクスペリエンスも提供される。あらゆるヘッドセットと互換性があり、拡張現実(AR)のサポートを装備する最新のデバイスに簡単に実装される。
異なるARフレームワークでは、アプリケーション開発者に異なる座標系を提供するので、このドキュメントでは、選択したフレームワークとは関係なく、予測される動作を定義している。
提案された動作の場合、例えば、ユーザエクスペリエンスに有益であると見なされる動きおよび回転のみが空間レンダラーに提供され、残りの動きおよび回転は補正によって無効にされる。
以下では、個別にまたは組み合わせて使用できるさまざまな特徴や機能について説明する。
図5に示すように、デバイス(または装置)10の向きは、特にユーザが歩いているとき、必ずしも上軸(例えば、重力の方向と反対の垂直方向)と整列するとは限らない場合がある。アプリケーションは、ARフレームワークがデバイスのロール角を補正することを確認する必要があり、そのため、オーディオ信号のレンダリングに使用されなくなる。空間レンダラーを構成するには、ヘッドロール角度のみを使用する必要がある(例えば、空間レンダリングを実行できる)。そうではない場合、ユーザが頭を回転させなくても、オーディオシーンが回転することになる。
音響正面は、例えば図5に示されるように、ユーザの頭とデバイス10のカメラとの間のベクトルとして定義される(任意選択で、頭とカメラとの間の垂直間隔は、考慮されないままにすることができ、例えば、音響正面は水平のベクトルまたは方向である)。図5(a)は、デバイスの向きが音響正面ベクトルと並ぶシナリオを図示している。この場合、ベクトル「頭の正面」とベクトル「デバイスの向き」との間の角度は、正しいヨー角と同じである。しかし、図6(b)に示すように、デバイスの向きが変わると、この角度を使用することにより、空間レンダリングに使用される頭の回転データに誤ったヨー値が発生する。すなわち、ユーザの頭から装置への方向と光学センサの光軸の方向との間の偏差、角度φエラーは、例えば、光学センサから取得された画像情報の処理を使用することによって、補償または補正される。したがって、デバイスは、例えば、φエラーを決定し、その結果、正しいヨー角を決定することができる。
図7は、デバイスを使用したユーザの2つの側面ビューおよび頭の回転データのピッチ角を図示している。図6のヨー角とは反対に、ピッチ角を決定するために、デバイスの位置も回転も使用されない(または最終結果に反映されない)。つまり、デバイスの位置または向きが変わっても、音響正面のベクトルは変わらない。音響正面は、例えば、常に上軸に対して90度の角度のベクトルであり(例えば、水平面にある場合がある)、ピッチ角は、例えば、常にベクトル頭の正面と音響正面との間の角度を指す。例えば、デバイス(または装置)は、これらの考慮事項または制限に基づいてピッチ角を決定することができる。
このようにして、標高がゼロのモノラルオーディオオブジェクトは、ユーザの目の高さに空間的にレンダリングされる。図7に示すように、「音響正面」の代わりにベクトル「ヘッドデバイス」を使用してピッチ角を決定すると、そのようなオーディオオブジェクトがデバイスに接続される。5.1オーディオ信号の場合、これにより、ユーザが電話を目の高さより下に保持すると、リアスピーカーが上昇を確保し、これは、提案されたソリューションと比較するとユーザエクスペリエンスが低下する。
図8は、本出願の実施形態による、図2に示す装置によって実施される、再生のためのオーディオ信号をユーザにレンダリングする方法の一例のフローチャートを示す。図7に示すように、本方法は、光学センサ(S10)を使用して、ユーザの頭の向きに関する情報を決定するステップを含む。すなわち、ユーザの頭の向きに関する情報は、光学センサ12を使用することによって決定され、例えば、カメラを使用するか、またはユーザ向けの動画キャプチャデバイスを使用するか、および/または深度センサを使用するか、および/または視覚的な顔/頭追跡センサを使用し、例えば、頭追跡のためにカメラでキャプチャしたデータを使用する。
配向センサ14を使用して光学センサ12の向きに関する情報を決定するステップが実行される(S12)。すなわち、例えば、光学センサ12の向きに関する情報は、ジャイロスコープおよび/または磁場センサおよび/または重力センサおよび/または加速度計および/または光学センサなどを使用することによって決定され、これは、所定の位置関係、例えば、光学センサ12に対する機械的関係で配置され、装置が「実世界」または地球固定座標系におけるその位置および/または向きを認識できるようにすることができる。
次に、ユーザの頭の向きに関する情報を決定するときに、光学センサ12の向きに関する情報を考慮するステップが実行される(S14)。すなわち、例えば、光学センサ12の現在の向きまたは光学センサ12を搭載または備える装置10の向きから実質的に独立して、地球固定座標系に対するユーザの頭の向きに関する少なくとも1つのパラメータを取得することである。
次に、オーディオ信号の空間レンダリングを実行するステップが実行される(S16)。すなわち、例えば、ユーザの頭の向きに関する情報に応じて仮想オーディオ環境を適応させるために、例えば、ユーザの頭の向きに関する情報に応じて、スピーカーシステムを介してまたは装置10と通信するヘッドセットを介してユーザに再生するためである。
提案されたソリューションは、既存のテクノロジーと、モバイル通信およびメディア消費に理想的な仮想環境を作る新たに定義された音響正面を組み合わせ、次のことにより現在の最先端技術によって改善を提供する。
・真に没入型:頭の動きが最も小さくても、空間音声処理の低遅延調整を使用する本出願による、提案された装置または提案された方法により、新しいレベルの没入感を達成することができ、よりリアルな空間処理を可能にする(現在、テレフォニーでは行われていない、すでにHMDなしの空間処理を使用している会議アプリケーションでも同様である)。
・「外出先」での堅牢性:アダプティブアコースティックフロントにより、デバイスの動きおよび回転(実世界での同時の動き)にもかかわらず、ユーザとモバイルデバイスの両方が、最適なユーザエクスペリエンス(望ましい頭の回転)を維持しながら動き回ることができる。(WAVES-AUDIO-LTD、2017)内で提案されている方法では、これは、独立して回転できる2つの別個のセンサグループ(センサグループは1つ以上のセンサを含むハードウェアの一部)からのデータセットを組み合わせることによって達成される(例えば、頭に1つのIMU、胴体に別のIMU)。この提案されたソリューションは、同じまたはより優れた機能を可能にするが、1つのセンサグループ(例えば、「デバイス」または「装置」と見なされる可能性のある、モバイル端末)のみを使用することでこれを改善し、それによって独立して移動するオブジェクトからのデータセットを組み合わせるこのプロセスからの潜在的なエラーを低減する。
・一般的なハードウェアでアクセス可能:上記のすべては、今日HMDなしで達成可能であるが、代わりに、現在、他では全く行われていない方法で、一般的に利用可能な消費者向けハードウェア(例えば、モバイルデバイスでステレオヘッドホンの任意のペアと互換性がある)で達成可能である。
以下に、本発明の実施形態の根底にあるいくつかのアイデアを簡単に要約する。しかしながら、以下に記載される一般的な考慮事項、特徴、機能性および詳細は、任意選択で、個別におよび組み合わせて利用の両方で、実施形態のいずれかに導入され得ることに留意されたい。
実施形態は、モバイルデバイスの正面カメラを使用して、没入型オーディオアプリケーションのためのアダプティブアコースティックフロントを作成する。
本発明による実施形態は、既存の技術の新規な組み合わせを使用して空間オーディオ処理の利点を達成するための方法を作成する。この方法には、ヘッドホンと正面カメラを備えたデバイスを装着しているユーザの一般的な消費者環境が含まれる。正面カメラは、ユーザの顔の位置を追跡するために使用され、位置情報は、カメラではなくユーザの視点からのものに変換され、最後に、この位置データが空間オーディオ処理中に適用される。その結果、オーディオは3D空間処理を使用して視覚シーンを補完し、頭追跡により全体的な効果を向上させることができる。環境全体は、デバイスとユーザの頭との関係によって定義され、ユーザがカメラの視野内にいるときにアクティブな処理が行われる。この方法は、例えばコミュニケーションおよびメディア消費アプリケーションの没入感を改善するために適用することができる。
本出願の実施形態によれば、ユーザの頭の位置および向き(頭の位置)は、装置内のセンサのみを使用することによって決定される。言い換えれば、頭の位置は、頭にマウントされ得るデバイス、例えば、ユーザに取り付けられた、ヘッドマウントディスプレイ、ヘッドホンまたはイヤホンからの情報なしに決定される。したがって、頭の位置を決定するために、ユーザデバイスと装置との間で頭の位置に関するデータを送信する必要がなく、したがって、頭の位置のデータに関する伝送エラーがないので、頭の位置を正確に決定することが可能である。
本出願の実施形態によれば、センサは、装置内にのみ配置され、すなわち、ユーザデバイス内に頭の位置を検出するためのセンサを全く含む必要がない。したがって、ユーザデバイス(例えば、センサ、センサに電力を供給するための電池など)の重量を軽減し、ユーザの装着快適性を改善することが可能である。これはまた、本アプリケーションが既存のヘッドホンとすぐに互換性があることを意味する。
第1の態様では、マルチメディアアプリケーションにおいて仮想オーディオ環境をレンダリングするためのシステム(または装置)は、以下を備える、
a)ユーザ向けの動画キャプチャセンサを備えた電子デバイス、
b)a)で説明した画像キャプチャデバイスの向きを決定する機能を提供するセンサ、
c)空間オーディオ信号を再生できるスピーカーシステム[任意選択]、
d)a)によってキャプチャされた画像シーケンスから頭の回転データを抽出し、その上このデータを目的の仮想オーディオ環境に適用して、レンダリングされた出力を、c)で説明したスピーカーシステムに提供するコントローラー。
第2の態様では、電子デバイスは携帯可能である。第3の態様では、電子デバイスは電子ディスプレイを有する。第4の態様では、ユーザ向けの動画キャプチャセンサの代わりに/該動画キャプチャセンサに加えて、深度センサが使用される。第5の態様では、スピーカーシステムは、電子デバイスと通信するヘッドセットである。
第6の態様では、メイン電子デバイスの外部にある追加のセンサを使用して、ユーザの頭の追加の向きまたは位置データをコントローラーに提供する。第7の態様では、第1から第6の態様の任意の組み合わせを含むシステムを使用して仮想オーディオ環境をレンダリングするための方法であって、ユーザの頭の向きおよび位置データを使用して、仮想オーディオ環境をそれに応じて適合させる。
第8の態様では、一貫した仮想オーディオ環境を維持するために、電子デバイスの向きまたは位置データのあらゆる望ましくないオフセットが、ユーザの頭の向きおよび位置データに対して補償される。
第9の態様では、方法は、「音響正面」軸を、ユーザの頭の中心からモバイルデバイスに向かう方向ベクトルとして定義し、一方、デバイスは、視覚的な顔/頭追跡センサを使用してユーザの頭の向きまたは位置を決定し、この軸を使用して、一貫した仮想オーディオ環境を維持することができる。
第10の態様では、仮想オーディオ環境の中心軸を常にユーザの頭と同じ高さに保つため、デバイスとユーザの頭の中心との間の垂直オフセットが無視されることを除いて、ユーザの頭の向きおよび位置データはそれに応じて仮想オーディオ環境を適応させるために使用される。
第11の態様では、仮想オーディオ環境は、リアルタイムの二重通信電話会議でオーディオオブジェクトとしてレンダリングされたリモート参加者(または複数の参加者)から移送されたオーディオで構成され、ローカルオーディオがキャプチャされてリモート参加者に送信される。
第12の態様では、仮想オーディオ環境は、ブロードキャスト/ストリーミングを目的とした生成されたオーディオコンテンツで構成される。第13および第14の態様では、オーディオコンテンツに加えてビデオ要素がレンダリングされる。
第15の態様では、本方法は、モバイルコンピューティングデバイス上に実装される。第16の態様では、仮想オーディオ環境は、ユーザの頭の向きまたは位置を決定することができない場合、デフォルトの状態に戻る。
第17の態様では、ユーザの顔/頭の追跡は、請求項6に記載の外部センサからのデータを使用して改善され、視覚的な顔/頭追跡センサのみを使用してユーザの頭の向きまたは位置を決定することができないときに仮想オーディオ環境を維持できるようにする。
いくつかの態様は装置の文脈で説明されたが、これらの態様は対応する方法の説明も表すことは明らかであり、ここで、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたはアイテムまたは特徴の説明も表す。方法ステップの一部またはすべては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって(または使用して)実行することができる。いくつかの実施形態では、最も重要な方法ステップの1つ以上は、そのような装置によって実行され得る。
本発明のデータストリームは、デジタル記憶媒体に記憶することができ、または無線伝送媒体などの伝送媒体またはインターネットなどの有線伝送媒体で送信することができる。
特定の実装要件に応じて、アプリケーションの実施形態をハードウェアまたはソフトウェアで実装することができる。実装は、そこに電子的に読み取り可能な制御信号が格納され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、フラッシュメモリを使用して実行できる。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
本発明によるいくつかの実施形態は、本明細書で説明した方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本出願の実施形態は、プログラムコードを持つコンピュータプログラム製品として実装されてもよく、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読キャリアに格納されてもよい。
他の実施形態は、機械可読キャリアに格納され、本明細書で説明した方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、本発明の方法の一実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書で説明した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法の1つを実行するためのコンピュータプログラムを含み、それに記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、通常、有形および/または非一時的である。
したがって、本発明の方法のさらなる実施形態は、本明細書で説明した方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書で説明した方法の1つを実行するように構成または適合された処理手段、例えば、コンピュータまたはプログラム可能なロジックデバイスを含む。
さらなる実施形態は、本明細書で説明した方法の1つを実行するためのコンピュータプログラムがインストールされているコンピュータを含む。
本発明によるさらなる実施形態は、本明細書で説明した方法の1つを実行するためのコンピュータプログラムを受信機に(例えば、電子的または光学的に)転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラム可能なロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書で説明した方法の機能のいくつかまたはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明した方法の1つを実行するために、マイクロプロセッサと協働し得る。一般に、方法は、好適には、任意のハードウェア装置によって実行される。
本明細書で説明した装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装することができる。
本明細書で説明した装置、または本明細書で説明した装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装され得る。

Claims (24)

  1. 再生のためのオーディオ信号をユーザにレンダリングするための装置(10)であって、
    前記装置(10)は、光学センサ(12)を使用して、前記ユーザの頭の向きに関する情報を決定するように構成され、
    前記装置(10)は、前記光学センサ(12)に対して所定の位置関係で配置された配向センサ(14)を使用して、地球固定座標系における前記光学センサ(12)の向きに関する情報を決定するように構成され、
    前記装置(10)は、前記光学センサ(12)の現在の向き、または前記光学センサ(12)を搭載または備える前記装置(10)の前記向きから実質的に独立し、地球固定座標系に対する前記頭の前記向きに関する少なくとも1つのパラメータを取得することによって、前記頭の前記向きに関する前記情報を決定するときに、前記光学センサ(12)の前記向きに関する前記情報を考慮するように構成され、
    前記装置(10)は、前記ユーザの前記頭の前記向きに関する前記情報に応じて、オーディオ信号の空間レンダリングを実行するように構成される、装置(10)。
  2. 前記装置(10)が、前記ユーザの前記頭の前記向きに関する前記情報に応じてバイノーラルレンダリングを実行するように構成された、
    請求項1に記載の装置(10)。
  3. 前記装置(10)が、前記光学センサ(12)を含むものであって、前記光学センサ(12)は、前記ユーザの頭を追跡するように配置されている、
    請求項1または2に記載の装置(10)。
  4. 前記装置(10)が、前記ユーザの前記頭の正面方向と前記装置(10)の位置との間の角度を記述するヨー角情報を決定するように構成され、および/または
    前記装置(10)が、前記ユーザの前記頭のロール角を記述するロール角情報を決定するように構成され、および/または
    前記装置(10)が、前記ユーザの前記頭のピッチ角を記述するピッチ角情報を決定するように構成される、
    請求項1から3のいずれか一項に記載の装置(10)。
  5. 前記装置(10)が、前記ユーザの前記頭の正面方向と前記装置(10)の位置との間のヨー角を記述するヨー角情報を決定するように構成され、前記ヨー角情報が、前記ユーザの前記頭の前記頭の正面方向と前記ユーザの前記頭から前記装置(10)への方向との間の方位角を記述する、
    請求項1から4のいずれか一項に記載の装置(10)。
  6. 前記装置(10)が、前記ユーザの前記頭から前記装置への方向と前記光学センサの光軸の方向との間の偏差を少なくとも部分的に補償するように構成された、
    請求項5に記載の装置(10)。
  7. 前記装置(10)が、垂直方向または頭の正面方向に対する前記ユーザの前記頭のロール角を記述するロール角情報を決定するように構成された、
    請求項1から6のいずれか一項に記載の装置(10)。
  8. 前記装置(10)が、前記ユーザの前記頭の前記ロール角を記述する前記ロール角情報を決定するときに、前記光学センサ(12)の前記向きに関する前記情報に基づいて、前記装置(10)または前記光学センサのロール角を少なくとも部分的に補償するように構成された、
    請求項7に記載の装置(10)。
  9. 前記装置(10)が、水平方向の配列に対する前記ユーザの前記頭のピッチ角を記述するピッチ角情報を決定するように構成された、
    請求項1から8のいずれか一項に記載の装置(10)。
  10. 前記装置(10)が、前記ユーザの前記頭の前記ピッチ角情報を決定するときに、前記光学センサ(12)の前記向きに関する前記情報に基づいて、前記装置(10)または前記光学センサの前記向きを少なくとも部分的に補償するように構成された、
    請求項9に記載の装置(10)。
  11. 前記装置(10)が、前記装置(10)内に配置された、または前記装置(10)に機械的に取り付けられたセンサからの情報に基づいて、前記頭の前記向きに関する前記情報を決定するように構成された、
    請求項1から10のいずれか一項に記載の装置(10)。
  12. 前記装置(10)が、前記装置(10)内に配置された、または前記装置(10)に機械的に取り付けられたセンサからの情報に基づいて、前記頭の前記向きに関する前記情報を決定するように構成され、
    前記装置(10)の外部にある1つ以上の追加センサに基づいている、
    請求項1から11のいずれか一項に記載の装置(10)。
  13. 前記装置(10)が、前記光学センサ(12)からの前記情報に基づいて前記頭の前記向きに関する前記情報が確実には取得できないことが判明した場合にのみ、前記1つ以上の追加センサからの情報を考慮するように構成された、
    請求項12に記載の装置(10)。
  14. 前記装置(10)が、前記頭から前記装置(10)への水平面への方向の投影である音響正面方向を決定するように構成され、
    前記装置(10)が、前記音響正面方向に応じて前記オーディオ信号の前記空間レンダリングを実行するように構成された、
    請求項1から13のいずれか一項に記載の装置(10)。
  15. 前記装置(10)が、前記頭から前記装置(10)への方向である音響正面方向を決定するように構成され、
    前記装置(10)が、前記音響正面方向に応じて前記オーディオ信号の前記空間レンダリングを実行するように構成された、
    請求項1から13のいずれか一項に記載の装置(10)。
  16. 前記装置(10)が、オーディオシーンの中心を前記音響正面方向にレンダリングするように構成された、
    請求項14または15に記載の装置(10)。
  17. 前記装置(10)が、前記音響正面方向に対するピッチ角を記述する前記ピッチ角情報を決定するように構成された、
    請求項14から16のいずれか一項に記載の装置(10)。
  18. 前記装置(10)が、仮想オーディオ環境の中心軸をユーザの頭と同じ高さに保つように構成された、
    請求項1から17のいずれか一項に記載の装置(10)。
  19. 前記装置(10)が、前記頭の向きに関する前記情報を決定するときに、前記ユーザの頭と前記装置(10)との間の高さの差を残すように構成された、
    請求項1から18のいずれか一項に記載の装置(10)。
  20. 前記装置(10)が携帯可能であり、および/または前記装置(10)がモバイル通信デバイスである、
    請求項1から19のいずれか一項に記載の装置(10)。
  21. 前記装置(10)が、オーディオ会議またはオーディオ/ビデオ会議の複数の参加者からのオーディオ投稿を表す複数のオーディオ信号の空間レンダリングを実行するように構成され、および/または
    前記装置(10)が、ブロードキャスト、またはローカル記憶メディア上のコンテンツ、またはストリーミングされたオーディオコンテンツの空間レンダリングを実行するように構成された、
    請求項1から20のいずれか一項に記載の装置(10)。
  22. 前記装置(10)が、どの方位角位置で、およびどの高さまたは高度で、オーディオコンテンツがレンダリングされるべきかの情報を取得するように構成され、
    前記装置(10)が、前記光学センサからの情報および前記光学センサ(12)の前記向きに関する前記情報を使用して、前記ユーザの視点から前記装置(10)の方位角位置に関する情報を決定するように構成され、
    前記装置(10)が、前記光学センサ(12)からの前記情報および前記光学センサ(12)の前記向きに関する前記情報を使用して、地球固定座標系に対する前記頭の前記向きに関するパラメータを決定するように構成され、
    前記装置(10)が、前記方位角位置に関する前記情報および前記地球固定座標系に対する前記頭の前記向きに関する前記パラメータを使用して、前記オーディオコンテンツをレンダリングするように構成された、
    請求項1から21のいずれか一項に記載の装置(10)。
  23. 再生のためのオーディオ信号をユーザにレンダリングするための方法であって、
    前記方法は、光学センサ(12)を使用して、前記ユーザの頭の向きに関する情報を決定することを含み、
    前記方法は、前記光学センサ(12)に対して所定の位置関係で配置された配向センサ(14)を使用して、地球固定座標系における前記光学センサ(12)の向きに関する情報を決定することを含み、
    前記方法は、前記光学センサ(12)の現在の向き、または前記光学センサ(12)を搭載または備える置(10)の前記向きから実質的に独立し、地球固定座標系に対する前記頭の前記向きに関する少なくとも1つのパラメータを取得することによって、前記頭の前記向きに関する前記情報を決定するときに、前記光学センサ(12)の前記向きに関する前記情報を考慮することを含み、
    前記方法は、前記ユーザの前記頭の前記向きに関する前記情報に応じて、オーディオ信号の空間レンダリングを実行することを含む、方法。
  24. ンピュータプログラムがコンピュータ上で実行されるときに、請求項23に記載の方法を実行するためのコンピュータプログラム。
JP2020559554A 2018-04-24 2019-04-18 ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法 Active JP7157985B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18169137 2018-04-24
EP18169137.9 2018-04-24
PCT/EP2019/060207 WO2019206827A1 (en) 2018-04-24 2019-04-18 Apparatus and method for rendering an audio signal for a playback to a user

Publications (2)

Publication Number Publication Date
JP2021522720A JP2021522720A (ja) 2021-08-30
JP7157985B2 true JP7157985B2 (ja) 2022-10-21

Family

ID=62110863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020559554A Active JP7157985B2 (ja) 2018-04-24 2019-04-18 ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法

Country Status (7)

Country Link
US (1) US11343634B2 (ja)
EP (1) EP3785452B1 (ja)
JP (1) JP7157985B2 (ja)
CN (1) CN112335264B (ja)
BR (1) BR112020021608A2 (ja)
RU (1) RU2759012C1 (ja)
WO (1) WO2019206827A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11304021B2 (en) * 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
US20220103965A1 (en) * 2020-09-25 2022-03-31 Apple Inc. Adaptive Audio Centering for Head Tracking in Spatial Audio Applications
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
GB2601805A (en) * 2020-12-11 2022-06-15 Nokia Technologies Oy Apparatus, Methods and Computer Programs for Providing Spatial Audio
US20220225050A1 (en) * 2021-01-13 2022-07-14 Dolby Laboratories Licensing Corporation Head tracked spatial audio and/or video rendering
WO2023176389A1 (ja) * 2022-03-15 2023-09-21 ソニーグループ株式会社 情報処理装置、情報処理方法、及び記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130041648A1 (en) 2008-10-27 2013-02-14 Sony Computer Entertainment Inc. Sound localization for user in motion
US20150382130A1 (en) 2014-06-27 2015-12-31 Patrick Connor Camera based adjustments to 3d soundscapes

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090219224A1 (en) * 2008-02-28 2009-09-03 Johannes Elg Head tracking for enhanced 3d experience using face detection
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
JP5676487B2 (ja) 2009-02-13 2015-02-25 コーニンクレッカ フィリップス エヌ ヴェ モバイル用途のための頭部追跡
EP2489195A1 (en) * 2009-10-14 2012-08-22 Nokia Corp. Autostereoscopic rendering and display apparatus
US9332372B2 (en) * 2010-06-07 2016-05-03 International Business Machines Corporation Virtual spatial sound scape
KR20130136566A (ko) * 2011-03-29 2013-12-12 퀄컴 인코포레이티드 로컬 멀티-사용자 협업을 위한 모듈식 모바일 접속된 피코 프로젝터들
US9293138B2 (en) 2013-05-14 2016-03-22 Amazon Technologies, Inc. Storing state information from network-based user devices
CN103491397B (zh) * 2013-09-25 2017-04-26 歌尔股份有限公司 一种实现自适应环绕声的方法和系统
CN113630711B (zh) * 2013-10-31 2023-12-01 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
DE102014009298A1 (de) * 2014-06-26 2015-12-31 Audi Ag Verfahren zum Betreiben eines Virtual-Reality-Systems und Virtual-Reality-System
WO2016065137A1 (en) * 2014-10-22 2016-04-28 Small Signals, Llc Information processing system, apparatus and method for measuring a head-related transfer function
US9787846B2 (en) 2015-01-21 2017-10-10 Microsoft Technology Licensing, Llc Spatial audio signal processing for objects with associated audio content
US10705338B2 (en) 2016-05-02 2020-07-07 Waves Audio Ltd. Head tracking with adaptive reference
US10803642B2 (en) * 2017-08-18 2020-10-13 Adobe Inc. Collaborative virtual reality anti-nausea and video streaming techniques
WO2019046706A1 (en) * 2017-09-01 2019-03-07 Dts, Inc. IDEAL POINT ADAPTATION FOR VIRTUALIZED AUDIO
EP3486749B1 (en) * 2017-11-20 2022-05-11 Nokia Technologies Oy Provision of virtual reality content
US11082662B2 (en) * 2017-12-19 2021-08-03 Koninklijke Kpn N.V. Enhanced audiovisual multiuser communication
WO2019170874A1 (en) * 2018-03-08 2019-09-12 Sony Corporation Electronic device, method and computer program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130041648A1 (en) 2008-10-27 2013-02-14 Sony Computer Entertainment Inc. Sound localization for user in motion
US20150382130A1 (en) 2014-06-27 2015-12-31 Patrick Connor Camera based adjustments to 3d soundscapes

Also Published As

Publication number Publication date
EP3785452B1 (en) 2022-05-11
JP2021522720A (ja) 2021-08-30
EP3785452A1 (en) 2021-03-03
RU2759012C1 (ru) 2021-11-08
US20210044913A1 (en) 2021-02-11
WO2019206827A1 (en) 2019-10-31
CN112335264A (zh) 2021-02-05
BR112020021608A2 (pt) 2021-01-26
US11343634B2 (en) 2022-05-24
CN112335264B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
JP7157985B2 (ja) ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法
JP6799141B2 (ja) 空間化オーディオを用いた複合現実システム
CN111466124B (zh) 用于渲染用户的视听记录的方法,处理器系统和计算机可读介质
CN109564504B (zh) 用于基于移动处理空间化音频的多媒体装置
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
KR20190052086A (ko) 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들
US20240098446A1 (en) Head tracked spatial audio and/or video rendering
US20230179756A1 (en) Information processing device, information processing method, and program
CN115699718A (zh) 基于传声器方位对音频数据进行操作的系统、设备和方法
CN110677781B (zh) 利用编码光线引导扬声器阵列和麦克风阵列的系统和方法
CN113906736A (zh) 视频分发系统、视频分发方法和显示终端
US20230283976A1 (en) Device and rendering environment tracking
EP4221263A1 (en) Head tracking and hrtf prediction
CN114866950A (zh) 音频处理方法、装置、电子设备以及耳机
JP6056466B2 (ja) 仮想空間中の音声再生装置及び方法、並びにプログラム
CN115769566A (zh) 基于显示方位进行声学回声消除的系统、设备和方法
JP7047085B2 (ja) 画像生成装置、画像生成方法、およびプログラム
CN115299026A (zh) 基于显示器取向操纵音频数据的系统、设备和方法
WO2021049356A1 (ja) 再生装置、再生方法、及び記録媒体
WO2024040571A1 (en) Delay optimization for multiple audio streams
US20240196152A1 (en) Spatial audio processing method and apparatus therefor

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20201222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220901

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220930

R150 Certificate of patent or registration of utility model

Ref document number: 7157985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150