JP6983484B2 - マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト - Google Patents

マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト Download PDF

Info

Publication number
JP6983484B2
JP6983484B2 JP2020500725A JP2020500725A JP6983484B2 JP 6983484 B2 JP6983484 B2 JP 6983484B2 JP 2020500725 A JP2020500725 A JP 2020500725A JP 2020500725 A JP2020500725 A JP 2020500725A JP 6983484 B2 JP6983484 B2 JP 6983484B2
Authority
JP
Japan
Prior art keywords
sound field
sound
layer
sound source
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020500725A
Other languages
English (en)
Other versions
JP2020527745A (ja
Inventor
ハル・ユルゲン
ハーベッツ・エマニュエル
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2020527745A publication Critical patent/JP2020527745A/ja
Application granted granted Critical
Publication of JP6983484B2 publication Critical patent/JP6983484B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Pinball Game Machines (AREA)
  • Building Environments (AREA)

Description

本発明は、オーディオ処理に関し、特に、マイクまたは仮想マイク位置などの基準位置に関して定義される音場に関するオーディオ処理に関する。
アンビソニックス信号は、音場の切り捨てられた球面調和分解を含む。アンビソニックスには様々なフレーバーがある。今日では「一次アンビソニックス」(FOA)として知られ、4つの信号(すなわち、1つの全方向性信号と最大3つの8桁の方向信号)で構成される「伝統的な」アンビソニックス[31]がある。より最近のアンビソニックス変形例は「高次アンビソンシス」(HOA)として知られ、より多くの信号を伝送することを犠牲にして空間分解能を高め、リスナーのスイートスポット領域を大きくする。一般に、完全に定義されたN次のHOA表現は(N+1)信号で構成される。
アンビソニックスのアイデアに関連して、方向性オーディオ符号化(DirAC)表現は、よりコンパクトなパラメトリックスタイルでFOAまたはHOA音響シーンを表現するために考案された。より具体的には、空間音響シーンは、音響シーンと各時間−周波数(TF)ビンの方向と拡散度の関連するサイド情報のダウンミックスを表す1つ(または複数)の送信オーディオチャネルによって表される。DirACについてのさらなる情報は、[32、33]にある。
DirAC[32]は、様々なマイクシステムおよび任意のスピーカ設定で使用できる。DirACシステムの目的は、マルチチャネル/3Dスピーカシステムを使用して、既存の音響環境の空間的な印象を可能な限り正確に再現することである。選択された環境内で、応答(連続音またはインパルス応答)は、全方向性マイク(W)と、音の到来方向と音の拡散度を測定できるマイクのセットで測定される。一般的な方法は、対応するデカルト座標軸に合わせて3つの8の字型マイク(X、Y、Z)を適用することである[34]。これを行う方法は、音場マイクを使用することであり、これにより、希望するすべての応答が直接得られる。W、X、Y、およびZ信号は、個別の全方向性マイクのセットから計算することもできる。
DirACでは、音響信号は最初に周波数チャネルに分割される。音の方向と拡散度は、各周波数チャネルの時間に応じて測定される。伝送では、解析された方向および拡散度データと共に、1つまたは複数のオーディオチャネルが送信される。合成では、スピーカに適用されるオーディオは、例えば、全方向性チャネルWであるか、または、各スピーカの音は、W、X、Y、およびZの重み付き合計として計算することができ、これは、各スピーカの特定の指向特性を有する信号を形成する。各オーディオチャネルは周波数チャネルに分割され、解析された拡散度に応じて、任意選択で拡散ストリームと非拡散ストリームに分割される。拡散ストリームは、例えばバイノーラルキュー符号化[35−37]で使用される非相関技術など、音響シーンの拡散知覚を生成する技術で再現される。非拡散音は、方向データ(VBAP[38]など)に従って点状の仮想音源を生成することを目的とする手法で再現される。
自由度が制限された6DoFでのナビゲーションのための3つの手法が[39]で提案されている。単一のアンビソニックス信号が与えられた場合、単一のアンビソニックス信号は以下を使用して計算される。1)仮想スピーカアレイ内でのHOA再生とリスナーの動きのシミュレーション、2)平面波に沿った計算と変換、3)リスナーに関する音場の再拡張。
さらに、DirAC技術については、例えば、出版物「Directional Audio Coding−Perception−Based Reproduction of Spatial Sound」、V.Pulkki et al、International Workshop on the Principles and Applications on Spatial Hearing,November 11−13,2009,Zao,Miyagi,Japanを参照されたい。この参考文献は、特に空間オーディオ処理のための知覚的に動機付けられた技術として、音場処理に関連する基準位置の例として指向性オーディオ符号化について説明している。それは、電話会議、指向性フィルタリング、仮想聴覚環境における空間音の取り込み、符号化、再合成での用途がある。
音響シーンの再現は、多くの場合、スピーカの設定に焦点を当てているが、これは、プライベート(リビングルームなど)やプロのコンテキスト(映画館など)での典型的な再現であったためである。ここでは、シーンと再現ジオメトリの関係は静的であり、リスナーが正面方向を見るように強制する2次元画像を伴う。その後に、音響オブジェクトと視覚オブジェクトの空間関係が定義され、制作時に固定される。
仮想現実(VR)では、ユーザがシーン内を自由に移動できるようにすることで、没入感が明示的に実現される。したがって、ユーザの動きを追跡し、視覚と聴覚の再現をユーザの位置に調整する必要がある。通常、ユーザはヘッドマウントディスプレイ(HMD)とヘッドフォンを装着している。ヘッドフォンで没入型の体験をするには、オーディオをバイノーラル化する必要がある。バイノーラル化は、人間の頭、耳、上半身が方向と距離に応じて音源の音をどのように変化させるかのシミュレーションである。これは、相対的な方向の頭部伝達関数(HRTF)で信号を畳み込むことで実現される[1、2]。バイノーラル化により、音は頭の内側からではなく、シーンから来ているように見える[3]。既に良好に対処されている一般的なシナリオは、360°ビデオ再生である[4、5]。ここでは、ユーザはHMDを装着しているか、タブレットまたは電話を手に持っている。頭またはデバイスを動かすことにより、ユーザはあらゆる方向を見ることができる。これは、ユーザが3つの運動度(ピッチ、ヨー、ロール)を有するため、3自由度(3DoF)のシナリオである。視覚的には、これはユーザの周囲の球体にビデオを投影することで実現される。多くの場合、オーディオはビデオカメラの近くの空間マイク[6]、例えば1次アンビソニックス(FOA)で録音される。アンビソニックスドメインでは、ユーザの頭の回転は簡単な方法で適応される[7]。次に、オーディオは、例えば、ユーザの周囲に配置された仮想スピーカにレンダリングされる。次に、これらの仮想スピーカ信号がバイノーラル化される。
最新のVR用途では、6自由度(6DoF)が可能である。頭の回転に加えて、ユーザは動き回ることができ、その結果、3次元でのユーザの位置が並進される。6DoF再生は、歩行エリアの全体的なサイズによって制限される。多くの場合、この領域はかなり小さく、例えば従来のリビングルームである。6DoFは、一般的にVRゲームで遭遇する。ここでは、シーン全体がコンピュータ生成画像(CGI)で合成されている。多くの場合、オーディオはオブジェクトベースのレンダリングを使用して生成され、各オーディオオブジェクトは、追跡データに基づいてユーザからの距離に依存するゲインと相対方向でレンダリングされる。現実性は、人工的な残響と回折によって強化できる[8、9、10]。
記録されたコンテンツに関して、視聴覚6DoF再生を確信させるためのいくつかの明確な課題がある。空間並進ドメインにおける空間音響操作の初期の例は、「音響ズーム」技術の例である[11、12]。ここで、リスナーの位置は、画像にズームインするのと同様に、記録された視覚シーンに仮想的に移動する。ユーザは1つの方向または画像部分を選択し、変換されたポイントからこれを聞くことができる。これは、すべての到来方向(DoA)が元のズームされていない複製に対して変化していることを伴う。
記録されたコンテンツの6DoF再生のための方法は、空間的に分布する記録位置を使用して提案されてきた。ビデオの場合、カメラのアレイを使用して明視野レンダリングを生成できる[13]。オーディオの場合、同様の設定では、分散マイクアレイまたはアンビソニックスマイクを使用する。そのような録音から任意の位置に置かれた「仮想マイク」の信号を生成することが可能であることが示されている[14]。
技術的に便利な方法でこのような空間音の修正を実現するために、パラメトリックな音処理または符号化技術を使用できる(概要については[15]を参照)。指向性オーディオ符号化(DirAC)[16]は、録音をオーディオスペクトルと、音の方向と拡散度に関するパラメトリックなサイド情報で構成される表現に変換する一般的な方法である。これは、音響ズーム[11]および仮想マイク[14]用途に使用される。
ここで提案する方法は、単一のFOAマイクの録音から6DoF再生を可能にする。単一の空間位置からの録音は、3DoF再生または音響ズームに使用されている。しかし、発明者らの知る限り、このようなデータからインタラクティブで完全な6DoFを再生する方法はこれまで提案されていない。録音中の音源の距離に関する情報を統合することにより、6DoF再生を実現する。この距離情報は、変更されたリスナーの視点が正しくマッピングされるように、DirACのパラメータ表現に組み込まれる。
アンビソニックスの音場表現(通常のFOAまたはHOAアンビソニックスとして、またはDirACスタイルのパラメトリック音場表現として)はいずれも、6DoF用途に必要なリスナーの位置の並進シフトを可能にする十分な情報を提供しないが、それはこれらのフォーマットでは、オブジェクトの距離も音響シーン内のオブジェクトの絶対位置も決定されないためである。リスナーの位置のシフトは、反対方向の音響シーンの同等のシフトに変換できることに留意されたい。
6DoFで移動する場合の典型的な問題を図1bに示す。音響シーンがアンビソニックスを使用して位置Aで記述されていると仮定する。この場合、音源Aと音源Bからの音は同じ方向から到着する。すなわち、同じ方向の到来方向(DOA)を有する。位置Bに移動した場合、音源Aと音源BのDOAは異なる。音場の標準的なアンビソニックス記述を使用して、すなわち、追加情報なしでは、位置Aのアンビソニックス信号が与えられると、位置Bのアンビソニックス信号を計算することはできない。
Directional Audio Coding−Perception−Based Reproduction of Spatial Sound、V.Pulkki et al、International Workshop on the Principles and Applications on Spatial Hearing,November 11−13,2009,Zao,Miyagi,Japan
本発明の目的は、改善された、または柔軟な、または効率的な処理を可能にし、一方で拡張音場記述または他方で修正音場記述の生成を提供することである。
この目的は、請求項1の拡張音場記述を生成する装置、請求項10の修正音場記述を生成する装置、請求項27の拡張音場記述を生成する方法、請求項28の修正音場記述を生成する方法、請求項29のコンピュータプログラム、または請求項30の拡張音場記述によって達成される。
本発明は、基準位置に関連する典型的な音場記述には、これらの音場記述を処理することができる追加情報が必要であるという知見に基づくものであり、そのようにすれば、元の基準位置になく、別の基準位置に関連しない修正音場記述を算出することができる。この目的のために、この音場の空間情報に関連するメタデータが生成され、メタデータは音場記述と共に、例えば送信または保存できる拡張音場記述に対応する。音場記述およびメタデータ、具体的には音場記述の空間情報に関連するメタデータから、修正音場記述を生成するために、空間情報、音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して、修正音場が計算される。したがって、音場記述と、音場記述の基礎となるこの音場の空間情報に関連するメタデータで構成される拡張音場記述が処理されて、修正音場記述が取得され、修正音場記述は、例えばデコーダ側で提供または使用できる追加の並進情報によって定義される別の基準位置に関連している。
しかし、本発明は、エンコーダ/デコーダのシナリオに関連するだけでなく、拡張音場記述の生成と修正音場記述の生成の両方が基本的に1つの同じ場所で行われるアプリケーションにも適用することができる。修正音場記述は、例えば、修正音場自体の記述、または実際にはチャネル信号、バイノーラル信号の修正音場、または再び関連する基準位置関連の音場、しかし、元の基準位置ではなく新しいまたは異なる基準位置に関連する基準位置に関連する音場であってもよい。このようなアプリケーションは、例えば、メタデータと一緒に音場記述が存在し、リスナーが、音場が与えられた基準位置から出て別の基準位置に移動する仮想現実のシナリオであって、そこでは、仮想エリア内を動き回るリスナーの音場は、現在ユーザが移動した別の基準位置での音場に対応するように計算される。
一実施形態では、音場生成器は、複数の少なくとも2つのレイヤの各レイヤについて、1つまたは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のDirAC記述を生成することができる。このコンテキストでは、メタデータ生成器はレイヤに含まれるすべての音源とレイヤに関連するすべての周波数ビンで同じであるため、各レイヤの追加の距離または深度情報を生成するように構成されている。好ましい実施形態は、レイヤに関連付けられた距離または距離範囲を有するであろう。あるいは、レイヤごとに深度マップを提供することができる。特に、さらなる実施形態では、空間情報に関連するメタデータは、特定の距離を到来方向情報などの特定の位置情報に関連付ける深度マップである。
実施形態では、到来方向は、仰角のみ、方位角のみ、または両方の角度によって与えられ、深度マップは、レイヤ内の各音源にメートルなどの距離や相対距離または相対距離などの同じ距離情報を関連付ける量子化された絶対距離または相対距離、またはその他の距離情報から、最終的に、音場が関連する異なるまたは新しい基準位置に関する距離を導き出すことができる。
続いて、他の好ましい実施態様の概要を説明する。
アンビソニックスは、仮想現実、拡張現実、複合現実アプリケーションのコンテキストで、3Dオーディオで最も一般的に使用されるフォーマットの1つになった。アンビソニックスフォーマットの出力信号を生成する、様々なオーディオ取得および制作ツールが開発されている。双方向の仮想現実(VR)アプリケーションでアンビソニックス符号化されたコンテンツを表示するために、アンビソニックスフォーマットは再生用のバイノーラル信号またはチャネルに変換される。前述のアプリケーションでは、リスナーは通常、提示されたシーンにおける自分の向きを対話形式で変更することができ、音響シーンで頭を回転させて3自由度(3DoF、すなわち、ピッチ、ヨー、およびロール)を可能にして、適切な音質を経験することができる。これは、頭の向きに従ってレンダリングする前に音響シーンを回転させることで実現され、これは、計算の複雑さを低く抑えて実施することができ、アンビソニックス表現の利点である。しかし、VRなどの新しいアプリケーションでは、方向の変化(いわゆる「6自由度」または6DoF)だけでなく、ユーザが音響シーンで自由に移動できるようにすることが望まれる。結果として、音響シーンの遠近感を変更する(すなわち、x、y、またはz軸に沿って音響シーン内を仮想的に移動する)ために信号処理が必要である。しかし、アンビソニックスの主な欠点は、フォーマットが音響シーンの単一の視点から音場を記述することである。具体的には、6DoFで必要とされるような音響シーンをシフト(「並進」)できる音響シーン内の音源の実際の場所に関する情報は含まれていない。本発明の説明は、アンビソニックスのいくつかの拡張を提供して、この問題を克服し、並進も容易にし、したがって真の6DoFを可能にする。
一次アンビソニックス(FOA)録音は、ヘッドフォンで処理および再生できる。それらは、リスナーの頭の向きに合わせて回転させることができる。しかし、仮想現実(VR)システムでは、リスナーは6自由度(6DoF)、すなわち3つの回転自由度と3つの遷移自由度で移動できる。ここで、音源の見かけの角度と距離は、リスナーの位置に依存する。6DoFを容易にする手法について説明する。特に、FOA録音は、リスナーの位置と音源までの距離に関する情報に基づいて修正されるパラメトリックモデルを使用して記述される。この方法は、リスニングテストによって評価され、リスナーが自由に移動できる合成音響シーンの異なるバイノーラルレンダリングを比較する。
さらに好ましい実施形態では、拡張音場記述は、送信または保存のための出力信号を生成するための出力インターフェースによって出力され、出力信号は、時間フレームについて、時間フレームの音場および空間情報から導出された1つまたは複数のオーディオ信号を含む。特に、音場生成器は、さらなる実施形態では、音場から方向データを導出するように適応可能であり、方向データは、ある期間または周波数ビンの音の到来方向を指し、メタデータ生成器は、距離情報を方向データに関連付けるデータ項目として空間情報を導出するように構成される。
特に、このような実施形態では、出力インターフェースは、時間フレームのデータ項目が異なる周波数ビンの方向データにリンクされるように出力信号を生成するように構成される。
さらなる実施形態では、音場生成器はまた、音場の時間フレームの複数の周波数ビンについて拡散度情報を生成するように構成され、メタデータ生成器は、拡散度の値が所定のしきい値または適応しきい値よりも低い場合に、所定の値と異なる、または無限と異なる周波数ビンの距離情報のみを生成するか、または周波数ビンの距離値をとにかく生成するように構成される。したがって、拡散度の高い時間/周波数ビンの場合、距離値がまったく生成されないか、またはデコーダによって特定の方法で解釈される所定の距離値が生成される。したがって、高い拡散度を有する時間/周波数ビンについては、距離に関連するレンダリングは実行されないことが確認されるが、それは、高い拡散度は、そのような時間/周波数ビンに対して、音が特定の局在化した音源から来るのではなく、任意の方向から来るからであり、したがって、音場が元の基準位置で知覚されるか、異なるまたは新しい基準位置で知覚されるかに関係なく同じであるからである。
音場計算器に関して、好ましい実施形態は、並進情報または修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェースと、メタデータを音場計算器に提供するためのメタデータサプライヤと、音場記述を音場計算器に提供するための音場サプライヤと、さらに、修正音場記述および修正メタデータを含む修正音場を出力するための出力インターフェースと、を含み、修正メタデータは、並進情報を使用してメタデータから導出され、または、出力インターフェースは複数のスピーカチャネルを出力し、各スピーカチャネルは、所定のスピーカ位置に関連付けられ、または、出力インターフェースは、修正音場のバイノーラル表現を出力する。
一実施形態では、音場記述は複数の音場成分を含む。複数の音場成分は、全方向性成分と少なくとも1つの指向性成分を含む。そのような音場記述は、例えば、全方向性成分と3つの指向性成分X、Y、Zを有する1次アンビソニックス音場記述であるか、または、そのような音場は、全方向成分、X、Y、およびZ方向に関する3つの方向成分と、さらに、X、Y、Z方向以外の他の方向に関連するさらなる方向性成分と、を含む高次アンビソニックス記述である。
一実施形態では、装置は、音場成分を解析して、異なる時間または周波数ビンについて、到来方向情報を導出するための解析器を含む。装置は、DoA情報およびメタデータを使用して周波数または時間ビンごとに修正DoA情報を計算するための並進変換器をさらに含み、メタデータは、時間フレームのすべての周波数ビンについて、距離をレイヤ記述、すなわちレイヤのすべての音源に関連付ける深度マップに関連する。したがって、各レイヤには非常に単純な「深度マップ」で十分である。レイヤの深度マップには、図4cのように、少なくともこのレイヤの距離または距離範囲のみが必要である。
さらに、音場計算器は、レイヤからの音源の各周波数または時間ビンに対して同じであるメタデータから、ならびに時間または周波数ビンに関連付けられた新しい距離から提供される距離に依存する距離補償情報を使用して修正音場を計算するための距離補償器を有し、新しい距離は修正DoA情報に関連する。
一実施形態では、音場計算器は、基準位置から音場の解析によって得られた音源を指す第1のベクトルを計算する。さらに、音場計算器は、異なる基準位置から音源を指す第2のベクトルを計算し、この計算は第1のベクトルと並進情報を使用して行われる。並進情報は、基準位置から異なる基準位置への並進ベクトルを定義する。そして、別の基準位置から音源までの距離が第2のベクトルを使用して計算される。
さらに、音場計算器は、並進情報に加えて、ピッチ、ヨー、およびロールによって与えられる3つの回転方向のうちの1つでのリスナーの頭の回転を示す回転情報を受け取るように構成される。次に、音場計算器は、回転情報を使用して回転変換を実行し、音場の修正された到来方向データを回転させるように構成され、修正された到来方向データは、音場記述の音解析および並進情報により得られた到来方向データから導出される。
一実施形態では、音場計算器は、音場記述から音源信号を決定し、音解析によって基準位置に関連する音源信号の方向を決定するように構成される。
次に、異なる基準位置に関連する音源の新しい方向が計算され、これはメタデータを使用して行われ、次に、異なる基準位置に関連する音源の距離情報が計算され、その後に、修正音場が距離情報と音源の新しい方向を使用して合成される。
一実施形態では、音場合成は、再生設定に関して新しい方向情報によって与えられる方向に音源信号をパンニングすることによって実行され、音源信号のスケーリングは、パンニングを実行する前またはパンニングを実行した後に距離情報を使用して行われる。距離が変化した場合、音源信号を新しいレイヤに関連付ける必要がある。次に、音場記述が生成される場合、1とは異なるスケーリング係数が使用される。トランスコーダの意味で、新しいマルチレイヤ記述が生成される場合、距離の変化を説明するには、一方のレイヤから他方のレイヤへの変更だけで十分である。「パンニング」は、特定の場所に関連するフィールドの形式で新しい音場記述を生成するために、図4iに概説されているように実行できる。しかし、スピーカ信号を生成するために、新しいDoAから導出されたパンニングゲインを使用したパンニングを実行することができる。
さらなる実施形態では、音場合成は、再生設定、音源信号のスケーリングに関する新しい方向情報によって与えられる方向に、レイヤ内のFOAまたはHOA音源信号を回転させ、最後に、距離情報を使用して音源信号をレイヤに関連付けることにより実行される。説明したように、これにより「パンニング」を置き換えることができる。
さらなる実施形態では、音源信号の拡散部分が音源信号の直接部分に追加され、直接部分は、拡散部分に追加される前に距離情報によって修正される。
さらなる実施形態では、音源信号の拡散部分が専用レイヤに追加される。この専用レイヤに関連付けられた信号は、再生設定に関する新しい方向情報に基づいて回転される。
特に、新しい方向情報が各周波数ビンに対して計算されるスペクトル表現で音源合成を実行することが好ましく、各周波数ビンについて距離情報が計算され、周波数ビンのオーディオ信号を使用した各周波数ビンの直接合成が、周波数ビンのオーディオ信号、新しい方向情報から導出された周波数ビンのパンニングゲイン、および周波数ビンの距離情報から導出された周波数ビンのスケーリング係数を使用して実行される。
さらに、周波数ビンからのオーディオ信号から導出された拡散オーディオ信号と、周波数ビンの信号解析から導出された拡散パラメータを使用して拡散合成が実行され、直接信号と拡散信号を組み合わせて時間または周波数ビンの合成オーディオ信号を取得し、次に他の時間/周波数ビンのオーディオ信号を使用して周波数−時間変換を実行して、時間領域の合成オーディオ信号を修正音場として取得する。
したがって、一般に、音場計算器は、例えば、音源ごとに、音源信号の新しい方向を使用して音源信号を処理することにより、異なる基準位置に関連する音場を音源ごとに合成し、異なる/新しい基準位置に関連する音源信号の音場記述を取得するように構成される。さらに、音源信号は、音源信号を処理する前、または方向情報を使用して音源信号を処理した後に修正される。そして最後に、音源の音場記述を一緒に追加して、異なる基準位置に関連する修正音場を取得する。
さらなる実施形態では、音場計算器は、DirAC解析または他の任意の音源解析の代わりに、音源分離アルゴリズムを実行する。音源分離アルゴリズムは、最終的には、例えば時間領域または周波数領域の音源信号になる。次に、拡散信号は、元の音場が拡散信号といくつかの音源信号に分解されるように、元の音場から音源信号を減算することによって計算され、各音源信号は特定の方向に関連付けられている。
好ましい実施形態によれば、音場生成器は、基準位置についての第1の音場記述を生成し、第1の音場記述は、基準位置の周りの第1の音場記述に位置する音源からの音データのみを含み、さらに、音場生成器は、基準位置についての第2の音場記述を生成し、第2の音場記述は、基準位置の周りの第2のボリュームに位置する第2の音源からの音データのみを有し、第2のボリュームは第1のボリュームとは異なる。各ボリュームは1つ、好ましくは複数の音源を備えるが、メタデータは、ボリューム内のすべての音源に適用可能な第1のボリュームおよび/または第2のボリュームの空間記述を提供するように構成される。例えば、空間記述が特定のレイヤから基準位置までの代表距離である場合、この距離は、対応する到来方向の推定と共に、レイヤ内の音源の位置を決定するために、レイヤ内のすべての音源に対して同じ方法で使用される。しかし、レイヤ内の位置は、基準位置に対して放射状にのみ決定されるが、同じレイヤ内の各音源の距離は、空間記述、または特定の実施形態では、このボリューム/レイヤに関連する代表距離に対応する。したがって、非常に効率的でコンパクトなメタデータ表現が得られ、これは通常、レイヤ内の任意の数の音源の単一の値で構成され、さらに、音響信号のすべてのサブバンドで同じである。例えば、レイヤの音場の音響解析を使用する場合、距離情報は各サブバンドで同じになる。
ここで、各ボリュームはレイヤで表され、ボリュームが重ならないように個別のレイヤで表されることが好ましいことに留意されたい。
したがって、マルチレイヤ音場記述に関する本発明は、一方で非常にコンパクトなサイド情報を有するが、単一の音場記述に関しては、レイヤごとに完全な音場記述が提供されるため、よりオーバーヘッドが多い。例えば、単一のレイヤがBフォーマット信号で表される場合、各レイヤに4つの音響成分、すなわち全方向性成分と3つの方向性成分が必要である。したがって、音場が3つのレイヤで表される場合、各レイヤが1次アンビソニックス信号またはBフォーマット信号で表される場合、全体で12の音響成分、すなわちレイヤごとに4つが必要である。当然、音源数の少ないレイヤの成分数が少ない音場記述と比較して、音源数が多いレイヤの高次の音場記述など、レイヤごとに異なる音場記述を使用することができる。
しかし、一方で、各音場レイヤのメタデータとして必要なのは単一の幾何学的情報のみである。
好ましい実施形態では、ボリュームは基準位置の周りの球または球殻であり、通常、最下位レイヤは基準位置の周りの球であり、上位レイヤは球で表される第1のレイヤの周りに広がる球殻である。
しかし、音場で表されるボリュームは必ずしも球である必要はない。あるいは、ボリュームは、立方体、平行六面体要素、または他の任意の、通常は三次元の幾何学的形態であってもよい。しかしながら、本発明は、二次元の状況にも適用することができ、その結果、ボリュームは、面積、通常は、三次元における微小な小さな拡がりによって表される。したがって、「ボリューム」という用語は、真の3次元ボリュームを指すだけでなく、2次元の場合のボリュームが第3の方向にわずかに小さな拡がりを有する平面である2次元の場合も指す。したがって、2次元の場合の「ボリューム」は、第1のレイヤの基準点の周りの円と、第1のレイヤの代表半径よりも大きい代表半径を有する第1の「ボリューム」の周りの円環になる。
さらに、拡張音場記述を生成する装置は、元の音場から2つ以上の階層化された音場記述を生成し、これらの音場記述に、第1のボリュームおよび/または第2のボリュームの空間記述を関連付ける一種のエンコーダとして構成されるばかりではない。他の実施形態では、拡張音場記述を生成するための装置は、メタデータを含むレイヤ記述を受け取り、新しいメタデータを含む新しいレイヤ記述を生成するトランスコーダとして実施することもできる。例えば、各レイヤのメタデータが基準点までの代表距離で表される場合、トランスコードされた拡張音場記述が、異なる(新しい)基準点までの代表距離が同じレイヤを有する場合、トランスコーダによって生成された拡張音場のメタデータは元のメタデータと同じになるが、トランスコーダは、個々の音源の新しい方向が考慮された各レイヤの修正音場記述を生成し、さらに、音源から基準位置までの新しい距離は、音源をあるレイヤから別のレイヤに移動することによって、そしてもちろん、音源の音源信号を減衰または増幅することによって考慮される。特に、音源が下位レイヤから上位レイヤに移動する場合、音源信号に減衰が提供されるか、あるいは、音源が上位レイヤから下位レイヤに移動する場合、すなわち、新しい基準位置に近づく場合、音源信号に増幅が提供される。
各レイヤの各音場記述は、レイヤ記述から音源信号を生成するだけでなく、さらにこの音源の到来方向を決定するフルバンドの音源分離技術などの音源分離技術によって解析できる。代わりに、その音場記述は、DirAC解析器で周波数選択音源分離を実行して解析することもでき、これにより、時間/周波数ビンごとに、音源オーディオ信号と、通常は拡散度値が計算される。
しかし、特定の音源から新しい基準位置までの距離の計算に関しては、各レイヤのメタデータから取得された距離情報は、特定のレイヤ記述から決定された各音源で同じである。したがって、例えば、到来方向が異なる2つ以上の音源がレイヤ記述から決定されているブロードバンド解析の場合、距離情報は各音源で同じである。
あるいは、レイヤの音場記述がDirAC解析器によって解析される場合、各時間/周波数ビンの距離情報は再び同じになる。すなわち、対応するレイヤの基準距離に等しくなる。
本発明がデコーダとして適用される場合、すなわち、音場計算器は、修正音場を、例えば、アンビソニックス表現などの完全な指向性成分表現の形で計算する場合、メタデータは、基準位置までの新旧の距離に応じて、対応する音響信号をスケーリングするためにのみ必要である。次に、各レイヤの音源ごとに、特定のアンビソニックス表現を計算し、このアンビソニックス表現は、古い到来方向情報から決定された新しい到来方向と、古い基準位置から新しい基準位置への並進情報を使用して計算され、次に、各音源信号は、音源の以前の基準位置から新しい基準位置までの距離を考慮してスケーリングされ、対応するスケーリングに続いて、音源の個々のアンビソニックス表現を互いに重ね合わせて、音場の完全なアンビソニックス表現を得ることができる。したがって、そのような「デコーダ」は、階層化された表現を新しい基準位置に関する単一の音場記述に変換し、スピーカ信号などに変換するなど、さらに処理できるように構成される。
あるいは、音場計算器は、個々のレイヤからの意図された実際のまたは仮想のスピーカ設定のスピーカ表現、例えばレイヤの音場記述のDirAC合成を実行するように構成することができ、次に、異なるレイヤからの個々のスピーカ信号を一緒に追加して、最終的に、この所定のスピーカ設定でレンダリングできる、またはバイノーラルレンダラでバイノーラル表示に変換できるスピーカ表現を作成することができる。
したがって、本発明は、特定の基準位置に関するメタデータを含む階層化された音場記述を生成するために、または、再度階層化された表現を使用するが、新しい基準位置に関連するレイヤを使用してトランスコードされた拡張音場を再度生成するために、使用することができ、あるいは、本発明は、階層化表現に加えてメタデータを、新しい基準位置に関連するメタデータなしの特定の音場記述に復号化するために適用することができる。
本発明の好ましい実施形態は、添付の図面に関して以下で説明される。
拡張音場記述を生成する装置の好ましい実施形態を示す図である。 本発明の基礎にある例示的な問題を説明する図である。 拡張音場記述を生成するための装置の好ましい実施態様を示す図である。 オーディオデータ、およびオーディオデータのサイド情報を含む拡張音場記述を示す図である。 各レイヤ記述の幾何学的情報などの空間情報に関連するオーディオデータおよびメタデータを含む拡張音場を示すさらなる図である。 修正音場記述を生成する装置の実施態様を示す図である。 修正音場記述を生成するための装置のさらなる実施態様を示す図である。 マルチレイヤシナリオを示す図である。 デコーダまたはトランスコーダのオプション1の実施形態を示す図である。 単一オブジェクトのレンダラを示す図である。 デコーダまたはトランスコーダのオプション2の実施形態を示す図である。 デコーダ/レンダラの一部を示す図である。 トランスコーダの一部を示す図である。 モノラル信号および到来方向データなどのオーディオ信号から音場記述を生成するための例示的なデバイスを示す図である。 空間オーディオの6DoF再生を示す図である。 拡張音場記述を生成するための装置と、レイヤごとに修正音場記述を生成するための装置とを含む第6のDoF再生の好ましい実施形態を示す図である。 新しい/異なる基準位置に対する音源の新しいDoAおよび新しい距離を計算するための好ましい実施態様を示す図である。 スケーリング係数の決定と適用の実施形態を示す図である。 拡張音場記述を生成する装置と、レイヤごとのDirACのコンテキストでレイヤごとに修正音場記述を生成する装置とを含む第6のDoF再生の別の好ましい実施形態を示す図である。 修正音場記述を生成するための装置の好ましい実施態様を示す図である。 修正音場記述を生成するための装置のさらに好ましい実施態様を示す図である。 従来技術のDirAC解析の実施態様を示す図である。 従来技術のDirAC合成の実施態様を示す図である。
前述のアンビソニックス/DirAC表現に対して6DoFアプリケーションを有効にするには、変換処理に不足している情報を提供する方法でこれらの表現を拡張する必要がある。この拡張は、例えば、1)オブジェクトの距離または位置を既存のシーン表現に追加すること、および/または2)個々のオブジェクトを分離するプロセスを容易にする情報を追加すること、ができることに留意されたい。
さらに、既存の(ノンパラメトリックまたはパラメトリック)アンビソニックスシステムの構造を保存/再利用して、
・拡張された表現は、既存の拡張されていない表現(例えば、レンダリング用)に変換することができ、
・拡張表現を使用する場合、既存のソフトウェアとハードウェアの実施態様を再利用することができるという意味で、これらの表現/システムとの下位互換性を提供することが実施形態の目的である。
以下では、いくつかのアプローチ、すなわち、1つの限定された(しかし非常に単純な)アプローチと、6DoFを有効にする3つの異なる拡張アンビソニックスフォーマットについて説明する。
通常のアンビソニックス表現の代わりに、複数のアンビソニックス信号(すなわち、複数の信号のセット)が定義される。各アンビソニックス信号は、音響シーンの特定の距離範囲に対応している。距離範囲は、均一なパーティション(0〜1メートル、1〜2メートル、2〜3メートルなど)または不均一なパーティション(0〜1メートル、1〜3メートル、3メートル以上)を含んでもよい。オーバーラップしない距離範囲は、音響シーンの実際のプロパティに応じて静的に定義されるか、動的に定義されてもよく、マルチレイヤアンビソニックスフォーマットで定義される。あるいは、ウィンドウ関数と共に重なり合う距離範囲を定義することができる。レイヤの1つは、正確な距離記述を必要としないが音響シーン全体に分散された拡散/アンビエント音響に個別に割り当てることができる。
マルチレイヤアンビソニックス表現の概念は、従来のアンビソニックスとパラメトリック(DirACスタイル)アンビソニックスの両方に適用できる。3つのレイヤの一例を図4cに示す。
以下のテキストは、提案されたマルチレイヤアンビソニックスを使用して変換を実施する方法を説明している。
オプションI(図4d):各アンビソニックスレイヤのオブジェクトは、音源分離手法を適用して生成される。アンビエンス/拡散/残差アンビソニックス信号も生成することができる。DOAは1D/2D音源局在化を使用して取得され、距離はレイヤのメタデータによって与えられる。多くの場合、DOAは音源分離フィルタからも抽出でき、音源分離とDOAの同時推定を実行する方法が存在することに留意されたい。
次に、図4eに示すように、各シングルチャネルオブジェクトが1つまたは複数のレイヤにレンダリングされる。第一に、それぞれDOA’およびDistance’で表される変換後のDOAおよび距離は、並進情報(例えば、ベクトルとして表される)およびレイヤ距離(例えば、そのレイヤの平均または代表距離)に基づいて計算される。第二に、DOA’に基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Distance’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第iの修正アンビソニックスレイヤ(i∈{1、…、L})は、すべてのオブジェクトのレイヤiの修正アンビソニックス出力を加算することによって計算される。第iのレイヤのアンビエンス/拡散/残差アンビソニックス信号は、第iの修正アンビソニックス出力に直接追加される。
さらに、距離の変化を補償するために、いわゆる距離補償フィルタを適用できる。フィルタは、Distance’とレイヤ距離に基づいてオブジェクトに直接適用できる。
オプションII(図4f):音源分離手法を適用することにより、すべてのLレイヤを使用してオブジェクトが生成される。単一のアンビエンス/拡散/残差アンビソニックス信号も生成することができる。
次に、図4eに示すように、各シングルチャネルオブジェクトが1つまたは複数のレイヤにレンダリングされる。第一に、それぞれDOA’およびDistance’で表される変換後のDOAおよび距離は、並進情報(例えば、ベクトルとして表される)およびレイヤ距離(例えば、そのレイヤの平均または代表距離)に基づいて計算される。第二に、DOAに基づいてオブジェクトのアンビソニックス信号が生成される。第三に、オブジェクトは、Distance’とオブジェクトが抽出されたレイヤの距離に基づいて適切なレイヤにレンダリングされる。さらに、距離の変化を補償するために、いわゆる距離補償フィルタを各オブジェクトに適用できる。すべてのオブジェクトの修正アンビソニックス信号を生成した後に、第iの修正アンビソニックスレイヤ(i∈{1、…、L})は、すべてのオブジェクトのレイヤiの修正アンビソニックス出力を加算することによって計算される。第iのレイヤのアンビエンス/拡散/残差アンビソニックス信号は、第iの修正アンビソニックス出力に直接追加される。
さらに、距離の変化を補償するために、いわゆる距離補償フィルタを適用できる。フィルタは、Distance’とレイヤ距離に基づいてオブジェクトに直接適用できる。
マルチレイヤのアンビソニックス信号の生成は、コンピュータで生成および制作されたコンテンツに対して簡単である。マイクアレイまたは空間マイク(Bフォーマットのマイクなど)を介した自然な録音をマルチレイヤアンビソニックス信号に変換するのは簡単ではない。
レイヤは、投影、加算、またはダウンミキシングにより、従来のアンビソニックス信号に変換できる。シンプルで計算効率の高い変換を図4gに示す。
向きの変化は、マルチレイヤアンビソニックス信号の各々にレイヤに依存しない回転を適用するか、従来のアンビソニックス信号に単一の回転を適用することで実現することができる。レイヤに依存しない回転は、並進の前または後に実行することができる。
図1aは、少なくとも1つの基準位置に関する音場を示す少なくとも1つの音場記述を生成するための音場(記述)生成器100を含む、拡張音場記述を生成するための装置を示す。さらに、装置は、音場の空間情報に関するメタデータを生成するためのメタデータ生成器110を含む。メタデータは、入力として、音場を受け取るか、その代わりにまたはさらに、音源に関する個別の情報を受け取る。
音場記述生成器100およびメタデータ生成器110の両方の出力は、拡張音場記述を構成する。一実施形態では、音場記述生成器100およびメタデータ生成器110の両方の出力をコンバイナ120または出力インターフェース120内で結合して、空間メタデータまたはメタデータ生成器110によって生成された音場の空間情報を含む拡張音場記述を得ることができる。
図1bは、本発明によって対処される状況を示している。例えば、位置Aは少なくとも1つの基準位置であり、音源Aと音源Bによって音場が生成され、位置Aにある特定の実際のマイクまたは例えば仮想マイクが音源Aおよび音源Bからの音を検出する。音は、放出音源から来る音の重ね合わせである。これは、音場記述生成器によって生成された音場記述を表す。
さらに、メタデータ生成器は、特定の実施態様により、音源Aに関する空間情報と、これらの音源から位置Aなどの基準位置までの距離などの音源Bに関する別の空間情報と、を導出する。
当然、基準位置は代わりに位置Bであってもよい。次に、実際のマイクまたは仮想マイクを位置Bに配置し、音場記述は、例えば、1次アンビソニックス成分または高次アンビソニックス成分、または少なくとも1つの基準位置、つまり位置Bに関する音場を記述する可能性を有する他の任意の音響成分で表される音場である。
メタデータ生成器は、音源に関する情報として、音源Aから位置Bまでの距離、または音源Bから位置Bまでの距離を生成してもよい。音源に関する代替情報は、もちろん、基準位置に対する絶対位置または相対位置であってもよい。基準位置は、一般的な座標系の原点にすることも、一般的な座標系の原点に対して定義された関係に配置することもできる。
他のメタデータには、1つの音源の絶対位置や、第1の音源に対する他の音源の相対位置などがある。
図2は、拡張音場記述を生成するための装置を示し、音場生成器は、第1の音場のための音場生成器250、第2の音場のための音場生成器260、ならびに第3、第4の音場など、1つまたは複数の音場のための任意の数の音場生成器を含む。さらに、メタデータは、第1の音場および第2の音場に関する情報を計算してコンバイナ120に転送するように構成される。このすべての情報は、拡張音場記述を生成するためにコンバイナ120によって使用される。したがって、コンバイナ120はまた、拡張音場記述を生成する出力インターフェースとして構成される。
図3aは、第1の音場記述330、第2の音場記述340、およびそれらに関連する第1の音場記述および第2の音場記述に関する情報を含むメタデータ350を含むデータストリームとして拡張音場記述を示す。第1の音場記述は、例えば、Bフォーマットの記述、高次の記述、またはフルバンド表現または周波数選択表現のいずれかで音源の方向分布を決定できる他の任意の記述であってもよい。したがって、第1の音場記述330および第2の音場記述340は、例えば、ダウンミックス信号および異なる時間/周波数ビンの到来方向データを有する個々のレイヤのパラメトリック音場記述であってもよい。
それにもかかわらず、第1および第2の音場記述の幾何学的情報350は、第1の音場記述330に含まれるすべての音源、または第2の音場記述340の音源に対してそれぞれ同じである。したがって、例示的に、第1の音場記述330に3つの音源が存在し、第1の音場記述に関する幾何学的情報が存在する場合、この幾何学的情報は第1の音場記述の3つの音源に対して同じである。同様に、例えば、第2の音場記述に5つの音源が存在する場合、メタデータ350に含まれる第2の音場の幾何学的情報は、第2の音場記述のすべての音源に対して同じである。
図3bは、図3aのメタデータ350の例示的な構成を示している。一実施形態では、基準点351をメタデータに含めることができる。しかし、これは必ずしも基準点情報351が省略され得るというわけではない。
第1の音場について、第1の幾何学的情報が与えられ、これは、例えば、後述する図4cの例示的な実施形態の0.5メートルの値となる第1のレイヤの中間半径または代表半径であってもよい。
第2のレイヤは1メートルから3メートルに及ぶので、第2の音場は、例えば、図4cの実施形態の2メートルなどの第2のレイヤの中間半径に対応する第2の幾何学的情報353によって記述される。
第3の音場は、第3の幾何学的情報354によって記述され、代表距離は、例えば、4メートル程度などの第3のレイヤの「中間半径」である。当然、各音場記述は複数の音源を含むことが好ましいが、特定のレイヤの音場記述に単一の音源のみが含まれる場合もある。
例えば、好ましいマルチレイヤアンビソニックス手法を示す図4cを考えると、第1のレイヤは0または最小距離、例えば0.5mから1mまで延在する。第2のレイヤは1mから3mまで延在し、第3のレイヤは、図4cに示す3つの円の中心である第1の基準点から3mを超える距離を有するすべての音源を含む。
さらに、図4cは、2つの音源1、2がレイヤ1に含まれ、2つの音源3、4がレイヤ2に含まれ、音源5および6がレイヤ3に含まれることを示している。
概説したように、図3aは、拡張音場記述を含むビットストリームまたは一般的なデータストリームの一例を示している。データストリームは、時間フレームi、i+1など、および対応する時間フレームの関連サイド情報を含んでもよい。
図4bは、図2の音場解析器210が実際にダウンミックスを生成しないが、BフォーマットまたはAフォーマットまたは特定の期間の高次表現などのその他の完全な表現を生成する別の実施態様を示す。
図4cは、新しいリスナーの位置も示している。新しいリスナー位置の周囲に同じレイヤが描画されると、新しいリスナー位置への並進により音源1がレイヤ1からレイヤ3に移動することが明らかになり、したがって(強く)減衰する必要がある。
さらに、音源2はレイヤ1からレイヤ2に移動するので、(弱く)減衰する必要がある。
さらに、音源3は以前のレイヤ2から新しいレイヤ3に移動するので、(弱く)減衰する必要がある。
さらに、音源4は第2のレイヤに残るため、減衰を必要としない。さらに、音源5も同じレイヤに留まるため、スケーリングする必要はない。最後に、音源6は前の第3のレイヤから新しい第1のレイヤに移動するので、(強く)増幅する必要がある。
したがって、一般に、基準点から異なる(新しい)基準点への並進により、音源が移動すると、特定のスケーリング係数が決定される。音源の「移動」が上位レイヤから下位レイヤに移動する場合、スケーリングは減衰であり、「移動」が下位レイヤから上位レイヤに移動する場合、スケーリングは減衰である。さらに、「移動」が1つのレイヤから次のレイヤに移動する場合、スケーリング係数は弱い減衰または弱い増幅などの弱いスケーリング係数になり、移動が1つのレイヤから次のレイヤにではなく、1つのレイヤからその1つの層に隣接するレイヤではない別のレイヤに移動する場合、つまり、第1のレイヤから第3のレイヤ、またはその逆の場合、スケーリング係数は、より強い減衰または増幅が実行されるものになる。
例えば、音源が第3のレイヤから第2のレイヤに移動し、図3bの例示的な値を考慮すると、スケーリング係数は2.0の増幅係数、すなわち4mを2mで除算した値になる。しかし、音源が第2のレイヤから第3のレイヤに移動する場合、スケーリング係数は0.5、すなわち2mを4mで除算した値になる。
あるいは、音源が第1のレイヤから第3のレイヤに移動し、図3bの例示的な図を想定すると、スケーリング係数は0.5mを5mで除算して得られる0.1〜5になる。
あるいは、図4cの実施形態における音源6のように、音源が第3の音場から第1の音場に移動する場合、スケーリング係数は、4mを0.5mで除算することによって得られる8.0になる。
当然、これらの例は図4cに示されている2次元の「ボリューム」の場合に関して説明されているが、図4cの円がレイヤ1の球およびレイヤ2もしくはレイヤ3の球殼を表すと考えられる場合、真の3次元のボリュームの場合にも同じ考慮事項が利用できる。
図4dは、一般に、修正音場記述を生成する装置、またはその代わりに、トランスコーダ表現のコンテキストで拡張音場記述を生成する装置の音場計算器の実施態様を示す。アンビソニックスレイヤ1として例示的に示す第1のレイヤ表現、アンビソニックスレイヤ2として示される第2の音場記述、およびアンビソニックスレイヤLに示す任意の追加の音場記述は、異なる音源分離およびDoA推定ブロック422、422a、422bに導入される。さらに、ブロック422、422a、422bの手順によって見つかったオブジェクトを対応する「新しい」レイヤにレンダリングするように構成されたレンダラ450が使用される。さらに、解析ブロック422、422a、422bは、オブジェクト信号およびオブジェクト信号の到来方向を抽出するように構成されているだけでなく、各レイヤの音場記述からアンビエンス/拡散/残差信号を生成するようにも構成されている。この信号は、例えば、個々の表現から音源分離手順によって導出されたすべての個々の音源信号の合計を減算することによって取得できる。あるいは、例えば、音源分離422、422a、422bがDirAC解析として構成される場合、拡散/アンビエンス/残差信号は、パラメトリックな方法で、拡散度パラメータにより表される。
さらに、図4dは、特定のレイヤの修正されたアンビソニックス表現に、そのレイヤに対応する拡散度信号を追加するための加算器601、602、603を示している。
これは、レイヤ1、レイヤ2、レイヤLの各々に対して行われ、図4dの出力は、トランスコードされた拡張音場記述を再度表すが、それは、ブロック601、602、603によって出力される異なる修正された表現のために、特定のメタデータが、レイヤ1、レイヤ2、およびレイヤLの代表距離を示すことに関連付けられるからである。
図4eは、図4dの場合、単一のオブジェクトまたは音源のレンダラを示している。オブジェクトは、例えば、第1のレイヤのブロック422または第2のレイヤのブロック422aまたは第Lのレイヤのブロック422bによって得られ、アンビソニックス信号を計算するためにブロック430に入力され、ブロック430は、例えば、図4iに示すように構成され得る。アンビソニックス信号を新しいDoA’、すなわち、古いDoAによってブロック423、423a、423bで生成された音源の到来方向の値、元の基準位置から新しいリスナー位置への並進情報を計算するために。
したがって、新しいDoAに関してオブジェクトの新しいアンビソニックス信号が計算され、オブジェクトとして出力される。したがって、例えば、図4iのブロック430の出力は、オブジェクトの信号になる。さらに、ブロック423、423a、423bは、図4cに関して前述したように新しい距離を計算/決定し、したがって、例えば、図4cおよび図4bの例に関して前述したようにスケーリング係数を計算し、次に、レイヤへのレンダリングブロック810は、ブロック430から取得したオブジェクトの信号を、古い距離(レイヤ距離)と新しい距離から導出した特定のスケーリング係数でスケーリングするように構成することができ、次に、図4cの新しいリスナー位置の周囲の特定のレイヤ1、2、またはLに属するすべての信号を対応するように加算して、再び階層化された表現にすることができる。したがって、図4cの実施形態に関して、現在レイヤ1にある唯一の音源は元の音源6であり、一方、元の音源5、3、1は、L=3の場合にレイヤ3の信号を取得するために音源ごとに個別に決定されたスケーリングに続いて、アンビソニックス表現に関して共に追加され、同様に、音源2、4の音源信号はレイヤ2の信号を表さないため、図4cの表に示すように、音源4はスケーリングを必要としないが、音源2はスケーリング操作を必要とする。
したがって、図4eは、各レイヤでオブジェクトがどのように決定され、加算器601、602、603でアンビエンス/拡散/残差信号を加算した後に、各レイヤの完全に修正されたアンビソニックス表現が取得され、これは、図4hに示すように、関連するメタデータと共に拡張/修正音場記述として出力され得る。
しかしながら、代替的に、各レイヤのアンビソニックス表現は、マルチレイヤアンビソニックス表現を従来のアンビソニックス表現に変換し、それを伝統的に実際のまたはスピーカ表現からバイノーラル表現にレンダリングできるようにするために、図4gに示す加算器600によって単純に加算され得る。
図4fに示されている他のオプションIIは、単一のアンビエンス/拡散度/残差信号のみがすべての個々のレイヤから生成され、この単一のアンビエンス/拡散/残差信号は加算器604によって最上位レイヤにのみ追加されるという点で図4eとは異なる。音源分離およびDoA推定422cは、例えば、図4dのように、レイヤごとに各レイヤの各音場記述に対して個別に実行することができる。しかし、音源分離とDoA推定アルゴリズムを実装して、個々のレイヤ記述をすべて加算し、信号レイヤ記述を取得してから、この単一のアンビソニックス表現に対して音源分離とDoA推定を実行することもできる。しかし、各レイヤについて個別に進めることが好ましく、単一の拡散信号を生成するために、図4dの実施形態によって得られた個々の拡散信号をブロック422c内で一緒に追加することができる。
したがって、オプションIIを使用すると、下位レイヤのアンビソニックス表現が完全にドライになり、最上位レイヤの「ウェット」表現のみになり、単一の拡散信号が最上位レイヤにのみ追加される。当然、この手順は拡散信号が距離手順によってスケーリングされないため便利であるが、音場記述が元の基準位置または例えば、図4cのリスナー位置に対応する新しい基準位置に関連しているかどうかに関係なく、最初に決定されたのと同じ方法で使用される。
図6に、例えばDirAC解析として構成できる各レイヤの音源分離アルゴリズムを示す。次いで、ブロック422によって出力される図6に示す拡散信号はそこにないが、この拡散信号は拡散パラメータによって表され、すなわちパラメトリックに表される。これに対応して、オブジェクト信号は、DirAC手順の場合、時間/周波数ビンごとの圧力信号になる。しかし、一般的な場合、オブジェクト信号はフルバンド信号であってもよい。
第1のレイヤは上部ブランチで表され、第2のレイヤは図6の中央のブランチで表され、第3のレイヤは図6の下部のブランチで表される。
一般的な音源分離手順の場合、対応するシンセサイザ425は、例えば図4dまたは図4fに示すように、各レイヤのアンビソニックス信号を生成する。次に、これらのすべてのアンビソニックス信号は、図4gに関して一般的に説明したように結合できる。その後に、例えばバイノーラルの場合、信号が図6の符号500に示されている仮想現実環境のリスナーの頭部に装着されたヘッドフォンに送信されると、レンダラ427によって信号がレンダリングされる。
さらに、図6は、音源分離、並進、アンビソニックス信号の生成、または回転の手順を様々な順序で適用できることを示している。
図6の上部レイヤは、音源分離が回転変換の前に実行され、また並進変換/ボリュームスケーリングの前に実行されることを示しているが、図6のメディアブランチは、音源分離533aが並進423aの前に実行され、アンビソニックス信号の生成がブロック425aによって実行されると述べているが、このステップに続いて、ブロック422aで回転変換が適用される。
繰り返すが、図6の下側の分岐は、回転変換424bを音源分離422bの前に適用することもできるが、音源分離の後に適用することもできることを示しており、それは、リスナーの頭部の動きはもちろん、レイヤのすべての音源、さらにはすべてのレイヤのすべての音源で同じだからである。さらに、並進変換423bは、アンビソニックス信号の生成前および回転変換前でも実行できるが、いずれの並進でも各音源の到来方向が必要なため、音源分離の前には実行することができない。
コンバイナ600への入力でのアンビソニックス信号の場合、およびコンバイナ600の出力がさらに、例えば図4gに関して説明したような従来のアンビソニックス信号である場合、ブロック600の後に回転変換を適用することもでき、次いで、レンダラ427は、バイノーラル表現に直接、またはスピーカ表現、または仮想スピーカ表現を介したバイノーラル表現のいずれかに直接レンダリングしなければならない。完全に並進変換され、完全に回転した音場記述は、もはやレイヤ化されないが、コンバイナ600での組み合わせにより、レイヤの「特性」は放棄される。
これに関連して、図6と図4eからも明らかなように、信号をトランスコードするだけでなく、単一の音場記述を生成する場合、図4cの表のコンテキストで説明した「レイヤへのレンダリング810」は、図4cに関して示された方法では不要である。音場は1つしか生成されないため、音源が1つのレイヤから別のレイヤに移動するかどうかは関係ない。代わりに、スケーリング係数のみが必要であるが、これらのスケーリング係数は、レイヤの代表距離またはレイヤ情報350で指定された古い距離と、古い距離、音源のDoA、および、例えば図7に関して説明した並進情報を使用して取得された新しい距離から直接導出できる。したがって、音源が1つのレイヤから別のレイヤに変更または「移動」するかどうかは、トランスコーダ表現の問題であり、図4gまたは図6の場合は問題ではない。
図4aは、音場記述および音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置の好ましい実施態様を示している。特に、装置は、メタデータ、音場記述、および基準位置から異なる基準位置への並進を示す並進情報を使用して修正音場を生成する音場計算器420を含む。
例えば、図1bの位置Aに関して音場が与えられた場合、異なる基準位置は位置Bになり、並進情報は、例えば位置Aから位置Bへの変換を示すベクトルになる。次に、音場計算器420は、あたかも位置Bにいるリスナーによって知覚されるかのように修正音場を計算し、この計算のために、音場計算器は、位置Aに関連する音場記述と並進情報、さらに音源Aと音源Bの空間位置に関連するメタデータを有する。
一実施形態では、音場計算器420は、例えば図1aまたは2に関して説明したように拡張音場記述を受信するための入力インターフェース400に接続され、入力インターフェース400は、一方で、音場記述、すなわち、図1aのブロック100または図2のブロック210によって生成されたものを分離する。さらに、入力インターフェース400は、拡張音場記述、すなわち図3aの項目350または図3bのオプション351および352〜354からメタデータを分離する。
さらに、変換インターフェース410は、並進情報および/または追加のまたは別個の回転情報をリスナーから取得する。変換インターフェース410の実施態様は、仮想現実環境における頭部の回転を追跡するだけでなく、ある位置、すなわち図1bの位置Aから別の位置、すなわち図1bの位置Bへの頭部の並進も追跡する頭部追跡ユニットであってもよい。
図4bは、図1aと同様の別の実施態様を示しているが、エンコーダ/デコーダのシナリオには関係していないが、メタデータサプライヤ402によって示されるメタデータの供給が行われる一般的なシナリオに関係しており、音場サプライヤ404によって示される音場供給は、符号化または拡張音場記述を分離する特定の入力インターフェースなしで行われるが、例えば、仮想現実アプリケーションなどに存在する実際のシナリオですべて行われる。しかしながら、本発明は、仮想現実アプリケーションに限定されず、第1の基準位置に関連する音場を、異なる第2の基準位置に関連する別の音場に変換するために、基準位置に関連する音場の空間オーディオ処理が有用である他の任意のアプリケーションで実施することもできる。
次に、音場計算器420は、修正音場記述を生成するか、あるいは(仮想)スピーカ表現を生成するか、ヘッドフォン再生用の2チャネル表現などのバイノーラル表現を生成する。したがって、音場計算器420は、修正音場として、元の音場記述と基本的に同じであるが、今は新しい基準位置に関する修正音場記述を生成することができる。代替的な実施形態では、仮想または実際のスピーカ表現は、5.1方式などの所定のスピーカ設定、またはより多くのスピーカを含み、特に2次元配置だけでなく3次元配置のスピーカ配置、すなわち、スピーカがユーザの位置に対して高くなっているスピーカ配置を備えたスピーカ設定に対して生成することができる。仮想現実アプリケーションに特に役立つ他のアプリケーションは、バイノーラル再生用、すなわち、仮想現実のユーザの頭部に適用できるヘッドフォン用のアプリケーションである。
例示的に、後で説明する図6または図9は、DirACシンセサイザは、全方向性または圧力成分などのダウンミックス成分でのみ動作するが、図12bに示したさらに別の実施形態では、DirACシンセサイザは、音場データ全体、すなわち、図12bのこの実施形態では、全方向成分wおよび3つの方向成分x、y、zを有するフィールド記述を有する完全な成分表現で動作するという状況を示している。
図4iは、DirACシンセサイザとは異なる合成を実行するための別の実施態様を示している。例えば、音場解析器が、各音源信号に対して、個別のモノラル信号Sと元の到来方向を生成する場合、および、並進情報に応じて、新しい到来方向が計算される場合、例えば図4iのアンビソニックス信号生成器430を使用して、音源信号の音場記述、すなわち、モノラル信号Sであるが、水平角θまたは仰角θと方位角φからなる新しい到来方向(DoA)データを生成する。次に、図4bの音場計算器420によって実行される手順は、例えば、新しい到来方向を有する各音源について一次アンビソニックス音場表現を生成し、次に、音場から新しい基準位置までの距離に応じてスケーリング係数を使用して、音源ごとにさらに修正を行い、次に、個々の音源からのすべての音場を互いに重ね合わせて、最終的に、再度、例えば、特定の新しい基準位置に関連するアンビソニックスの表現で修正音場を取得することができる。
図6または図9のDirAC解析器422、422a、422bによって処理された各時間/周波数ビンが特定の(バンド幅が制限された)音源を表すと解釈すると、DirACシンセサイザ425、425a、425bの代わりに、アンビソニックス信号生成器430を使用して、各時間/周波数ビンに対して、ダウンミックス信号または圧力信号、またはこの時間/周波数ビンの全方向成分を図4iの「モノラル信号S」として使用する完全なアンビソニックス表現を生成することができる。次に、W、X、Y、Z成分のそれぞれに対する周波数−時間変換器での個々の周波数時間変換により、図4cに示されているものとは異なる音場記述が得られる。
さらなる実施形態を以下に概説する。目標は、元の録音位置での信号と、録音位置からの音源の距離に関する情報が与えられると、リスナーの位置で仮想バイノーラル信号を取得することである。物理的な音源は、録音位置への角度によって分離可能であると想定されている。
シーンは、マイクの視点(PoV)から録音され、この位置は基準座標系の原点として使用される。シーンはリスナーのPoVから再現する必要があり、リスナーは6DoFで追跡される(図5を参照)。ここでは、説明のために単一の音源が示されているが、この関係は、時間−周波数ビンごとに保持される。
図5は、空間オーディオの6DoF再生を示している。音源は、マイクの位置と方向(黒い線と円弧)に対する距離dのDoA rでマイクによって録音される。これは、DoA rと距離d(破線)を使用して、移動するリスナーに対して相対的に再生する必要がある。これは、リスナーの並進lと回転o(点線)を考慮する必要がある。
座標d∈Rの音源は、単位ベクトル
Figure 0006983484
で表される到来方向(DoA)から録音される。このDoAは、録音の解析から推定できる。それは距離
Figure 0006983484
から来ている。この情報は、レイヤ距離として、または一般的に図3bの項目352、353、354として各レイヤのメタデータに含まれ、録音位置から任意の方向rを有するレイヤlの各音源を、基準点からのレイヤの距離(例えばメートルなどで与えられる)にマッピングする深度マップm(l、r)の形式で距離情報として表現できると仮定する。
リスナーは6DoFで追跡される。ある時点で、リスナーはマイクに対して1∈Rの位置にあり、マイクの座標系に対してo∈Rの回転を有する。録音位置は、表記を簡素化するために座標系の原点として選択される。
したがって、音は異なる距離dで再生する必要があり、変化したボリュームと、並進とその後の回転の両方の結果である異なるDoA rをもたらす。
次のセクションで説明するように、パラメトリック表現に基づいた専用の変換によってリスナーの観点から仮想信号を取得する方法の概要を説明する。
提案された方法は、パラメトリック空間音響符号化の基本的なDirAC手法に基づいている[16]。解析されたスペクトルの時間−周波数インスタンスごとに1つの支配的な直接音源があり、これらは独立して処理できると仮定される。録音は、短時間フーリエ変換(STFT)を使用して時間−周波数表現に変換される。時間フレームインデックスはnで、周波数インデックスはkで示される。次に、変換された録音が解析され、複素スペクトルP(k、n)の各時間−周波数ビンの方向r(k、n)および拡散度ψ(k、n)が推定される。合成では、信号は直接部分と拡散部分とに分割される。ここでは、スピーカの位置に応じて直接部分をパンニングし、拡散部分を追加することにより、スピーカ信号が計算される。
6DoFのリスナーの観点に従ってFOA信号を変換する方法は、5つのステップに分割できる(図6を参照)。
図6は、6DoF再生の方法を示している。Bフォーマットで記録されたFOA信号は、複素スペクトルの各時間−周波数ビンの方向と拡散度の値を計算するDirACエンコーダによって処理される。次に、方向ベクトルは、リスナーの追跡された位置によって、各レイヤの距離マップで指定された距離情報に従って変換される。結果として得られる方向ベクトルは、頭部の回転に応じて回転する。最後に、8+4の仮想スピーカチャネルの信号がDirACデコーダで合成される。次に、これらはバイノーラル化される。
実施形態では、入力信号はDirACエンコーダ422で解析され、距離情報は各レイヤの距離を与える距離マップm(l)から追加され、次に、リスナーが並進と回転を追跡したものが新規変換423、424に適用される。DirACデコーダ425は、8+4の仮想スピーカ用の信号を合成し、これらのスピーカは、ヘッドフォン再生用にバイノーラル化427される。並進後の音響シーンの回転は独立した操作であるため、代替的にバイノーラルレンダラに適用することもできることに留意されたい。6DoF用に変換される唯一のパラメータは方向ベクトルである。モデル定義では、拡散部分は等方性で均質であると仮定され、したがって変更されない。
DirACエンコーダへの入力は、Bフォーマット表現のFOA音響信号である。これは4つのチャネル、すなわち全方向音圧と3つの1次空間勾配で構成され、特定の仮定の下では粒子速度に比例する。この信号はパラメトリックな方法で符号化される([18]を参照)。パラメータは、変換された全方向性信号である複素音圧P(k、n)および複素粒子速度ベクトルU(k,n)=[U(k,n),U(k,n),U(k,n)]は、変換された勾配信号に対応する。
DirAC表現は、各時間−周波数ビンでの音波の信号P(k、n)、拡散度ψ(k、n)、および方向r(k、n)で構成される。後者を導出するには、まず、アクティブな音響強度ベクトルI(k、n)を、圧力ベクトルと速度ベクトル[18]の複素共役((・)*で示す)の積の実部(Re(・)で示す)として計算する。
(1)
拡散度は、このベクトル[18]の変動係数から推定される。
(2)
Figure 0006983484
は、移動平均として実施される、時間フレームに沿った期待演算子を示す。
レイヤの各音源から基準位置までの距離を有する方向ベースの距離マップを使用して音響を操作することを目的としているため、方向推定値の分散は低くなければならない。通常、フレームは短いので、これは必ずしもそうではない。したがって、移動平均を適用して、平滑化された方向推定値
Figure 0006983484
(k、n)を取得する。信号の直接部分のDoAは、反対方向の単位長さベクトルとして計算される。
(3)
方向は各時間−周波数ビンの単位長さの3次元ベクトルとして符号化されるため、距離情報を統合するのは簡単である。方向ベクトルは、ベクトルの長さが対応する音源d(k、n)の距離を表すように、対応するマップエントリと乗算される。
Figure 0006983484

Figure 0006983484
(k、n)
(4)
ここで、d(k、n)は、マイクの録音位置から、時間nおよび周波数ビンkでアクティブな音源を指すベクトルである。
リスナーの位置は、現在の処理フレームの追跡システムによってl(n)として指定される。音源位置のベクトル表現を使用すると、追跡位置ベクトルl(n)を減算して、長さ
Figure 0006983484
の新しい変換方向ベクトルd(k、n)を生成できる(図7を参照)。リスナーのPoVから音源までの距離が導出され、DoAは単一のステップで適応される。
(5)
リアルな再現の重要な側面は、距離の減衰である。減衰は、音源とリスナーとの間の距離の関数であると仮定される[19]。方向ベクトルの長さは、再生のために減衰または増幅を符号化することである。録音位置までの距離は、距離マップに従ってd(k、n)で符号化され、再生される距離はd(k、n)で符号化される。ベクトルを単位長に正規化し、古い距離と新しい距離の比率とを乗算すると、d(k、n)を元のベクトルの長さで除算することによって必要な長さが与えられることが分かる。
(6)
リスナーの向きの変更は、次の手順で適用される。トラッキングによって与えられる方向は、原点としての録音位置を基準としたピッチ、ヨー、およびロール
Figure 0006983484
で構成されるベクトルとして記述できる。音源方向は、リスナーの方向に従って回転され、これは、2D回転行列を使用して実施される。
(7)
結果として得られるリスナーのDoAは、単位長に正規化されたベクトルによって与えられる。
(8)
変換された方向ベクトル、拡散度、および複雑なスペクトルを使用して、均一に分散された8+4仮想スピーカ設定用の信号を合成する。8つの仮想スピーカは、リスナー平面上で45°の方位角のステップ(仰角0°)で配置され、4つの仮想スピーカは、45°の仰角で90°のクロスフォーメーションで配置される。合成は、スピーカチャネル
Figure 0006983484
ごとに直接部分および拡散部分に分割され、
Figure 0006983484
はスピーカの数[16]である。
(9)
直接部分では、エッジフェージング振幅パンニング(EFAP)パンニングが適用され、仮想スピーカジオメトリ[20]が与えられると、正しい方向から音が再生される。DoAベクトルr(k、n)が与えられると、これは各仮想スピーカチャネル
Figure 0006983484
のパンニングゲインG(r)を提供する。各DoAの距離依存ゲインは、結果の方向ベクトルの長さd(k、n)から導出される。チャネル
Figure 0006983484
の直接合成は次のようになる。
Figure 0006983484
(10)
ここで、指数γは、通常は約1に設定される調整係数である[19]。γ=0の場合、距離依存ゲインはオフになることに留意されたい。
圧力
Figure 0006983484
は、
Figure 0006983484
非相関信号
Figure 0006983484
を生成するために使用される。これらの非相関信号は、拡散成分として個々のスピーカチャネルに追加される。これは標準の方法[16]に従う。
(11)
各チャネルの拡散部分と直接部分が一緒に加算され、信号は逆STFTによって時間領域に変換される。これらのチャネル時間領域信号は、バイノーラル化された信号を作成するために、スピーカの位置に応じて左右の耳のHRTFと畳み込まれる。
図8は、例えば代表的な距離なしで動作するが、レイヤの距離からではなく、音源があるレイヤから、前のレイヤに隣接する別のレイヤに移動するか隣接しない別のレイヤに移動するかどうかだけから得られるスケーリング係数の一般的な決定で動作するトランスコーダ実装の好ましい実施態様を示す。したがって、ブロック800は、音源が同じレイヤに残っているかどうかを判断するように構成されている。例えば、音源4および5の場合と同じレイヤが結果であると判断された場合、ブロック802は、新しい到来方向のオブジェクト信号の特定のスケーリングは不要であると判断し、「スケーリング係数」は、スケーリングは1に設定されないか、あるいは、そのような音源に対してスケーリングが実行されないように、何らかの方法で単にフラグを立てるか通知することもできることを示す。
しかしながら、音源が下位レイヤに移動すると決定される場合、ブロック804は1より大きいスケーリング係数を決定する。この決定は、2つのレイヤ、すなわち音源レイヤとターゲットレイヤの代表的な距離を使用して行うことができる。しかし、特定のスケーリング係数を使用することもできる。例えば、あるレイヤから隣接するレイヤに移動する場合は1〜2で、例えば音源が2レイヤなどに移動する場合は4になる。
図8は、さらに、音源が例えば音源1、2、3のように上位レイヤに移動するブロック806の状況を示している。次に、この音源のスケーリング係数が決定されるが、これは1未満である。繰り返すが、スケーリング係数は前に説明したように代表的な距離から決定できるが、代わりに、元の基準位置から新しい基準位置またはリスナー位置に並進したために移動したレイヤの数に依存する固定スケーリング係数を使用して取得することもできる。例えば、移動が1つのレイヤのみで行われる場合、0.5〜1などの中程度のスケーリング係数を使用でき、2つ以上のレイヤで移動が行われる場合、0.1〜0.5のより高いスケーリング係数を使用できる。
オブジェクト信号プロセッサ/スケーリング808は、アンビソニックス生成の前にオブジェクト信号にスケーリングを適用するか、アンビソニックス表現のすべての成分にスケーリングを適用して、最終的に、音源ごとのモノ表現またはアンビソニックス表現のいずれかで、処理されたオブジェクト信号を取得する。
図9は、図6と同様であるが、例えば図4dの個々のブロック422、422a、422bがDirACエンコーダ/デコーダ実装として実施されるさらなる実施形態を示す。その結果、個々のスピーカチャネル信号、アンビソニックス信号、または、例えばトランスコーダのその他の信号表現になることができる。しかし、出力がチャネル信号またはバイノーラル信号である場合、それらの対応する信号をコンバイナ600で一緒に追加して、単一の音場記述を表し、その後に、さらなる手順によってブロック427でレンダリングすることができる。
図10は、音場計算器420のさらに好ましい実施態様を示している。図10に示す手順は、各レイヤに対して個別に実行される。唯一の違いは、レイヤごとに異なるレイヤ情報350が使用され、このレイヤ情報はレイヤ内の音源ごとに同じであることである。レイヤ情報は、距離値を生成する距離決定器1120によってメタデータから読み取られる。メタデータに既にメートル単位の距離が含まれている場合、ブロック1120は、データストリームまたはこの情報をブロック1140に転送するものからデータを抽出するだけである。したがって、同じレイヤ内の各音源の各DoAに対して同じ距離情報が生成され、ブロック1140で使用される。
音場記述に基づいて、符号1100でフルバンドの到来方向またはバンドごとの到来方向が決定される。これらの到来方向情報は、音場の到来方向データを表する。この到来方向データに基づいて、並進変換がブロック1110で実行される。この目的のために、ブロック1120は、レイヤの音場記述のメタデータを取得する。データに基づいて、ブロック1110は、この実施では基準位置から異なる基準位置への並進のみに依存する音場の新しい到来方向データを生成する。この目的のために、ブロック1110は、例えば、仮想現実の実施のコンテキストでの追跡により生成された並進情報を受け取る。
好ましくはまたは代わりに、回転データも使用される。このために、ブロック1130は、回転情報を使用して回転変換を実行する。並進と回転の両方が実行される場合、並進からの情報とブロック1120からのレイヤ距離を既に含む音場の新しいDoAの計算に続いて、回転変換を実行することが好ましい。
次に、ブロック1140で、新しい音場記述が生成される。この目的のために、元の音場記述を使用するか、あるいは、音源分離アルゴリズムによって音場記述から分離された音源信号を使用するか、他のアプリケーションを使用できる。基本的に、新しい音場記述は、例えば、アンビソニックス生成器430によって取得されるか、DirACシンセサイザ425によって生成される指向性音場記述であってもよく、または後続のバイノーラルレンダリングで仮想スピーカ表現から生成されるバイノーラル表現であってもよい。
好ましくは、図10に示すように、特定の音源のボリュームまたは音量を新しい場所、すなわち新しいまたは異なる基準位置に適合させるために、新しい音場記述を生成する際に到来方向ごとの距離も使用される。
図10は、回転変換が並進変換の後に実行される状況を示しているが、順序は異なる可能性があることに留意されたい。特に、回転変換は、ブロック1100によって生成された音場のDoAに適用でき、その後に、基準位置から異なる基準位置への対象の並進による追加の並進変換が適用される。
音場のDoAがブロック1100によって決定されるとすぐに、ブロック1120を使用してメタデータから距離情報が取得され、次に、この距離情報は、変更された距離、したがって、特定の基準位置に対する特定の音源の音量の変化を考慮するために、ブロック1140で新しい音場記述を生成することによって使用される。基本的に、距離が大きくなると特定の音源信号が減衰し、距離が短くなると音源信号が増幅されると言える。当然、距離に応じた特定の音源の減衰または増幅は距離の変化に比例して行われるが、他の実施形態では、非常に粗い増分での音源信号のこの増幅または減衰にそれほど複雑でない操作を適用できる。このようなそれほど複雑ではない実施態様でも、距離の変化が完全に無視される状況と比較して、優れた結果が得られる。
図7は、音場計算器420の好ましい実施態様を示している。ブロック1102では、音源分離および各音源の到来方向または一般に方向情報の計算が実行される。次に、ブロック1104で、到来方向ベクトルに距離情報ベクトル、すなわち、元の基準位置から音源までのベクトル、すなわち、例えば図5の項目520から項目510までのベクトルが乗算される。次に、ブロック1106において、並進情報、すなわち図5の項目520から項目500へのベクトルが考慮されて、リスナー位置500から音源位置510へのベクトルである新しい変換方向ベクトルが計算される。次に、ブロック1108で、dで示される正しい長さの新しい到来方向ベクトルが計算される。このベクトルはdと同じ方向に向いているが長さが異なり、このベクトルの長さは音源510が特定のボリュームで元の音場に録音されているという事実を反映しているため、したがってdの長さは多かれ少なかれ音量の変化を示す。これは、ベクトルdを録音距離d、すなわち、マイク520から音源510までのベクトルdの長さで除算することによって得られる。
図5のように、再生距離が録音距離よりも大きい場合、dの長さは1より短くなる。これにより、新しいリスナー位置での再生のための音源510の減衰が生じる。しかし、再生距離dが録音距離よりも小さい場合、ブロック1108で計算されるdの長さは1より大きくなり、対応するスケーリング係数により音源が増幅される。
図11は、音場計算器のさらに好ましい実施態様を示している。
ブロック1200では、音場からの個々の音源が、例えばバンドごとまたはフルバンドのように決定される。フレームおよびバンドごとの決定が実行されると、DirAC解析によってこれを実行できる。フルバンドまたはサブバンドの決定が実行される場合、これはあらゆる種類のフルバンドまたはサブバンドの音源分離アルゴリズムによって実行できる。
ブロック1210において、リスナーの並進および/または回転が、例えば頭部追跡により決定される。
ブロック1220では、各音源の古い距離は、メタデータを使用することにより、例えば、代表距離などのレイヤのメタデータを使用することにより決定される。したがって、各バンドは特定の音源であると見なされ(拡散度が特定のしきい値よりも低い場合)、その後に、低い拡散度値を有する各時間/周波数ビンの特定の距離が決定される。
次に、ブロック1230において、例えば、バンドごとのベクトル計算によって、音源ごとの新しい距離が取得され、これは、例えば、図7のコンテキストで説明されるか、またはレイヤ変更の検出に依存する図8の手順を使用する。
さらに、ブロック1240に示すように、音源ごとの古い方向は、例えば、DirAC解析で得られたDoA計算により、または例えば音源分離アルゴリズムでの到来方向または方向情報解析により決定される。
次に、ブロック1250で、例えばバンドまたはフルバンドごとのベクトル計算を実行することにより、音源ごとの新しい方向が決定される。
次に、ブロック1260で、並進および回転したリスナーの新しい音場が生成される。これは、例えば、DirAC合成でチャネルごとの直接部分をスケーリングすることで実行できる。特定の実施態様に応じて、ブロック1260で距離修正を実行することに加えて、または代替として、ブロック1270a、1270bまたは1270cで距離修正を行うことができる。
例えば、音場が単一の音源のみを有すると決定される場合、距離変更はブロック1270aで既に実行されてもよい。
あるいは、個々の音源信号がブロック1200によって計算される場合、ブロック1260で実際の新しい音場が生成される前に、ブロック1270bで個々の音源に対して距離修正を実行されてもよい。
さらに、例えば、ブロック1260の音場生成がスピーカ設定信号またはバイノーラル信号をレンダリングせず、例えばアンビソニックスエンコーダまたは計算器430を使用する別の音場記述をレンダリングする場合、ブロック1260での生成に続いて距離修正も実行することができ、これはブロック1270cを意味する。実施態様に応じて、距離の変更をいくつかの変更子に分配することもでき、その結果、特定の音源は、音源と基準位置の間の元の距離と、音源と異なる基準位置の間の新しい距離との差によって導かれる特定の音量にある。
図12aは、例えば、2009年のIWPASHから先に引用した参考文献「Directional Audio Coding」に最初に開示したDirAC解析器を示している。
DirAC解析器は、バンドフィルタ1310のバンク、エネルギー解析器1320、強度解析器1330、時間平均化ブロック1340、拡散度計算器1350および方向計算器1360を含む。
DirACでは、解析と合成の両方が周波数領域で実行される。それぞれ異なるプロパティ内で、音響を周波数バンドに分割する方法がいくつかある。最も一般的に使用される周波数変換には、短時間フーリエ変換(STFT)および直交ミラーフィルタバンク(QMF)が含まれる。これらに加えて、特定の目的に最適化された任意のフィルタでフィルタバンクを設計する完全な自由がある。選択された時間−周波数変換に関係なく、設計目標は、人間の空間聴覚の解像度を模倣することである。方向解析の対象は、各周波数バンドで音の到来方向を推定することであり、同時に音が1つまたは複数の方向から同時に到来している場合の推定値である。原則として、これはいくつかの手法で実行できるが、音場のエネルギー解析が適切であることが分かっており、これを図12aに示す。1次元、2次元、または3次元の圧力信号と速度信号が単一の位置から取り込まれると、エネルギー解析を実行できる。1次Bフォーマット信号では、全方向性信号はW信号と呼ばれ、2の平方根でスケールダウンされている。音圧は、
Figure 0006983484
のように推定することができ、STFTドメインで表される。
X、Y、およびZチャネルは、デカルト軸に沿って方向付けられたダイポールの指向性パターンを有し、ベクトルU=[X、Y、Z]を共に形成する。ベクトルは音場速度ベクトルを推定し、STFTドメインでも表現される。音場のエネルギーEが計算される。Bフォーマット信号の取り込みは、指向性マイクの同時配置、または全方向性マイクの狭い間隔のいずれかで取得できる。一部のアプリケーションでは、マイク信号は計算領域で形成、すなわちシミュレートすることができる。
音の方向は、強度ベクトルIの反対方向であると定義される。方向は、送信されたメタデータの対応する角度方位角と仰角の値として示される。音場の拡散度も、強度ベクトルとエネルギーの期待演算子を使用して計算される。この方程式の結果は、音のエネルギーが単一の方向(拡散度がゼロ)から到達するか、すべての方向(拡散度が1)から到達するかを特徴付ける0と1の間の実数値である。この手順は、完全な3D以下の速度情報が利用可能な場合に適している。
図12bは、再びバンドフィルタ1370のバンク、仮想マイクブロック1400、直接/拡散シンセサイザブロック1450、および特定のスピーカ設定または仮想の意図されたスピーカ設定1460を有するDirAC合成を示す。さらに、拡散度ゲイン変換器1380、ベクトルベースの振幅パンニング(VBAP)ゲインテーブルブロック1390、マイク補償ブロック1420、スピーカゲイン平均化ブロック1430および他のチャネルの分配器1440が使用される。
スピーカを使用したこのDirAC合成では、図12bに示す高品質バージョンのDirAC合成がすべてのBフォーマット信号を受信し、これに対して、スピーカ設定1460の各スピーカ方向について仮想マイク信号が計算される。利用される指向性パターンは通常、ダイポールである。その後に、メタデータに応じて、仮想マイク信号が非線形的に修正される。DirACの低ビットレートバージョンは図12bには示されていないが、この状況では、図6に示すようにオーディオの1つのチャネルのみが送信される。処理の違いは、すべての仮想マイク信号が、受信したオーディオの単一チャネルに置き換えられることである。仮想マイク信号は、拡散ストリームと非拡散ストリームの2つのストリームに分けられ、別々に処理される。
非拡散音は、ベクトルベースの振幅パンニング(VBAP)を使用してポイント音源として再現される。パンニングでは、スピーカ固有のゲイン係数を乗算した後に、スピーカのサブセットにモノフォニック音響信号が適用される。ゲイン係数は、スピーカ設定の情報と指定されたパンニング方向を使用して計算される。低ビットレートバージョンでは、入力信号はメタデータによって暗示される方向に単純にパンニングされる。高品質バージョンでは、各仮想マイク信号に対応するゲイン係数が乗算され、これにより、パンニングと同じ効果が得られるが、非線形アーチファクトが発生しにくくなる。
多くの場合、方向性メタデータは急激な時間的変化の影響を受ける。アーチファクトを回避するために、VBAPで計算されたスピーカのゲイン係数は、各バンドで約50サイクル周期に等しい周波数依存時定数との時間積分により平滑化される。これにより、アーチファクトが効果的に除去されるが、ほとんどの場合、方向の変化は平均化しない場合よりも遅いとは感じられない。
拡散音の合成の目的は、リスナーを囲む音の知覚を作成することである。低ビットレートバージョンでは、拡散ストリームは入力信号を非相関化し、すべてのスピーカからそれを再生することにより再生される。高品質バージョンでは、拡散ストリームの仮想マイク信号は既にある程度インコヒーレントであり、わずかに非相関化するだけで済む。この手法は、低ビットレートバージョンよりも、サラウンドリバーブとアンビエント音響の空間品質を向上させる。
ヘッドフォンを使用したDirACシンセシスの場合、DirACは、非拡散ストリーム用のリスナーの周囲に一定量の仮想スピーカ、拡散スチーム用に一定数のスピーカで定式化される。仮想スピーカは、入力信号と測定された頭部伝達関数(HRTF)の畳み込みとして実施される。
いくつかの態様を装置のコンテキストで説明したが、これらの態様は対応する方法の説明も表し、ブロックまたはデバイスが方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップのコンテキストで説明される態様は、対応するブロックまたは項目または対応する装置の機能の説明も表す。
本発明の拡張音場記述は、デジタル記憶媒体または非一時的記憶媒体に記憶することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で伝送することができる。
特定の実施態様に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実施は、電子的に読み取り可能な制御信号が格納されており、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または協働することができる)デジタル記憶媒体、例えばフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。
本発明によるいくつかの実施形態は、本明細書に記載の方法の1つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的データキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の1つを実行するように動作する。プログラムコードは、例えば、機械可読なキャリアに格納されてもよい。
他の実施形態は、機械可読なキャリアに格納された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号シーケンスである。データストリームまたは信号シーケンスは、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。
さらなる実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施形態では、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部またはすべてを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。
上述の実施形態は、本発明の原理の単なる例示にすぎない。本明細書に記載の配置および詳細の修正および変更は、他の当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。


参考文
[1] Liitola,T.,Headphone sound externalization,Ph.D.thesis,Helsinki University of Technology.Department of Electrical and Communications Engineering Laboratory of Acoustics and Audio Signal Processing.,2006
[2] Blauert,J.,Spatial Hearing − Revised Edition:The Psychophysics of Human Sound Localization,The MIT Press,1996,ISBN 0262024136
[3] Zhang,W.,Samarasinghe,P.N.,Chen,H.,and Abhayapala,T.D.,“Surround by Sound:A Re−view of Spatial Audio Recording and Reproduction,”Applied Sciences,7(5),p.532,2017
[4] Bates,E.and Boland,F.,“Spatial Music,Virtual Reality,and 360 Media,”in Audio Eng.Soc.Int.Conf.on Audio for Virtual and Augmented Reality,Los Angeles,CA,U.S.A.,2016
[5] Anderson,R.,Gallup,D.,Barron,J.T.,Kontkanen,J.,Snavely,N.,Esteban,C.H.,Agarwal,S.,and Seitz,S.M.,“Jump:Virtual Reality Video,”ACM Transactions on Graphics,35(6),p.198,2016
[6] Merimaa,J.,Analysis,Synthesis,and Perception of Spatial Sound:Binaural Localization Modeling and Multichannel Loudspeaker Reproduction,Ph.D.thesis,Helsinki University of Technology,2006
[7] Kronlachner,M.and Zotter,F.,“Spatial Trans−formations for the Enhancement of Ambisonics Recordings,”in 2nd International Conference on Spatial Audio,Erlangen,Germany,2014
[8] Tsingos,N.,Gallo,E.,and Drettakis,G.,“Perceptual Audio Rendering of Complex Virtual Environments,”ACM Transactions on Graphics,23(3),pp.249−258,2004
[9] Taylor,M.,Chandak,A.,Mo,Q.,Lauterbach,C.,Schissler,C.,and Manocha,D.,“Guided multi−view ray tracing for fast auralization,”IEEE Trans.Visualization & Comp.Graphics,18,pp.1797−1810,2012
[10] Rungta,A.,Schissler,C.,Rewkowski,N.,Mehra,R.,and Manocha,D.,“Diffraction Kernels for Interactive Sound Propagation in Dynamic Environments,”IEEE Trans.Visualization & Comp.Graphics,24(4),pp.1613−1622,2018
[11] Thiergart,O.,Kowalczyk,K.,and Habets,E.A.P.,“An Acoustical Zoom based on Informed Spatial Filtering,”in Int.Workshop on Acoustic Signal Enhancement,pp.109−113,2014
[12] Khaddour,H.,Schimmel,J.,and Rund,F.,“A Novel Combined System of Direction Estimation and Sound Zooming of Multiple Speakers,”Radioengineering,24(2),2015
[13] Ziegler,M.,Keinert,J.,Holzer,N.,Wolf,T.,Jaschke,T.,op het Veld,R.,Zakeri,F.S.,and Foessel,S.,“Immersive Virtual Reality for Live−Action Video using Camera Arrays,”in IBC,Amsterdam,Netherlands,2017
[14] Thiergart,O.,Galdo,G.D.,Taseska,M.,and Habets,E.A.P.,“Geometry−Based Spatial Sound Acquisition using Distributed Microphone Arrays,”IEEE Trans.Audio,Speech,Language Process.,21(12),pp.2583−2594,2013
[15] Kowalczyk,K.,Thiergart,O.,Taseska,M.,Del Galdo,G.,Pulkki,V.,and Habets,E.A.P.,“Parametric Spatial Sound Processing:A Flexible and Efficient Solution to Sound Scene Acquisition,Modification,and Reproduction,”IEEE Signal Process.Mag.,32(2),pp.31−42,2015
[16] Pulkki,V.,“Spatial Sound Reproduction with Directional Audio Coding,”J.Audio Eng.Soc.,55(6),pp.503−516,2007
[17] International Telecommunication Union,“ITU−R BS.1534−3,Method for the subjective assessment of intermediate quality level of audio systems,”2015
[18] Thiergart,O.,Del Galdo,G.,Kuech,F.,and Prus,M.,“Three−Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators,”in Audio Eng.Soc.Conv.Spatial Audio:Sense the Sound of Space,2010
[19] Kuttruff,H.,Room Acoustics,Taylor & Francis,4 edition,2000
[20] Borβ,C.,“A polygon−based panning method for 3D loudspeaker setups,”in Audio Eng.Soc.Conv.,pp.343−352,Los Angeles,CA,USA,2014
[21] Rummukainen,O.,Schlecht,S.,Plinge,A.,and Habets,E.A.P.,“Evaluating Binaural Reproduction Systems from Behavioral Patterns in a Virtual Reality −A Case Study with Impaired Binaural Cues and Tracking Latency,”in Audio Eng.Soc.Conv.143,New York,NY,USA,2017
[22] Engelke,U.,Darcy,D.P.,Mulliken,G.H.,Bosse,S.,Martini,M.G.,Arndt,S.,Antons,J.−N.,Chan,K.Y.,Ramzan,N.,and Brunnstroem,K.,“Psychophysiology−Based QoE Assessment:A Survey,”IEEE Selected Topics in Signal Processing,11(1),pp.6−21,2017
[23] Schlecht,S.J.and Habets,E.A.P.,“Sign−Agnostic Matrix Design for Spatial Artificial Reverberation with Feedback Delay Networks,”in Proc.Audio Eng.Soc.Conf.,pp.1−10−accepted,Tokyo,Japan,2018
[31] M.A.Gerzon,”Periphony:With−height sound reproduction,”J.Acoust.Soc.Am.,vol.21,110.1,pp.2−10,1973
[32] V.Pulkki,”Directional audio coding in spatial sound reproduction and stereo upmixing,”in Proc.of the 28th AES International Conference,2006
[33] ―,”Spatial sound reproduction with directional audio coding,”Journal Audio Eng.Soc,, vol.55,no.6,pp.503−516,Jun.2007
[34] C.G.and G.M.,”Coincident microphone simulation covering three dimensional space and yielding various directional outputs,”U.S.Patent 4 042 779,1977
[35] C.Faller and F.Baumgarte,”Binaural cue coding − part ii: Schemes and applications,”IEEE Trans.Speech Audio Process,, vol.11,no.6 ,Nov.2003
[36] C.Faller,”Parametric multichannel audio coding: Synthesis of coherence cues,”IEEE Trans.Speech Audio Process.,vol.14,no.1,Jan.2006
[37] H.P.J.E.E.Schuijers,J.Breebaart,”Low complexity parametric stereo coding,”in Proc.of the 116th A ES Convention,Berlin,Germany,2004
[38] V.Pulkki,”Virtual sound source positioning using vector base amplitude panning,”J.Acoust.Soc.A m,, vol.45,no.6,pp.456−466,Jun.1997
[39] J.G.Tylka and E.Y.Choueiri,”Comparison of techniques for binaural navigation of higher− order ambisonics sound fields,”in Proc.of the AES International Conference on Audio for Virtual and Augmented Reality,New York,Sep.2016.

Claims (29)

  1. 拡張音場記述を生成するための装置であって、
    少なくとも1つの基準位置についての音場を示す少なくとも1つの音場記述を生成するための音場生成器(100、250、260)と、
    前記音場の空間情報に関連するメタデータを生成するためのメタデータ生成器(110)と、を含み、
    前記少なくとも1つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
    前記音場生成器(100、250、260)は、前記基準位置についての第1の音場記述を生成するように構成され、前記第1の音場記述は、前記基準位置の周りの第1のボリュームに位置する音源からの音データのみを含み、且つ、前記基準位置についての第2の音場記述を生成するように構成され、前記第2の音場記述は、前記基準位置の周りの第2のボリュームに位置する第2の音源からの音データのみを含み、前記第2のボリュームは前記第1のボリュームとは異なり、
    前記メタデータ生成器(110)は、前記第1のボリュームおよび/または前記第2のボリュームの空間記述を提供するように構成されるか、
    或いは、
    前記音場生成器(100)は、複数のレイヤの各レイヤについて、1つもしくは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のDirAC(指向性オーディオ符号化)記述を生成するように構成され、
    前記メタデータ生成器(110)は、レイヤごとに単一の距離情報項目を生成するように構成されるか、
    或いは、
    前記メタデータ生成器(110)は、前記メタデータとして、前記第1の音場記述についての第1の幾何学的情報(352)、および前記第2の音場記述についての第2の幾何学的情報(353)を生成するように構成され、
    前記第1の幾何学的記述(352)は、第1のボリュームから基準点までの第1の代表距離であり、前記第2の幾何学的情報(353)は、第2のボリュームから前記基準点までの第2の代表距離であり、前記基準点は、前記基準位置であるかまたは前記基準位置から前記基準点を指すベクトルによって記述される、装置。
  2. 前記第1のボリュームは前記基準位置の周りの球であり、前記第2のボリュームは前記基準位置の周りの球殻であり、前記球殻は前記球の直径よりも大きい直径を有するか、または、
    前記第1のボリュームは第1の球殻であり、前記第2のボリュームは第2の球殻であり、前記第1の球殻の直径は前記第2の球殻の直径よりも小さく、
    前記メタデータ生成器(110)は、前記球および前記球殻あるいは第1の球殻および第2の球殻の空間記述を提供するように構成される、
    請求項に記載の装置。
  3. 前記第1の音場記述および前記第2の音場記述は、アンビソニックスまたはDirAC(指向性オーディオ符号化)記述である、
    請求項またはに記載の装置。
  4. 前記音場生成器(100、250、260)は、静的に、または前記音場に依存して、前記第1および前記第2の異なるボリュームを決定するように構成される、
    請求項からのいずれか一項に記載の装置。
  5. 前記メタデータ生成器(110)は、各音場記述の距離範囲を決定するように構成され、前記距離範囲は、各ボリュームに対して均一または不均一であり、前記距離範囲が各ボリュームに対して不均一である場合、前記基準位置からさらに離れて延在するボリュームの距離範囲は、前記基準位置により近い距離範囲よりも大きい、
    請求項からのいずれか一項に記載の装置。
  6. 送信または保存のための出力信号を生成するための出力インターフェース(120)をさらに含み、前記出力信号は、時間フレームについて、前記時間フレームの前記音場および前記空間情報から導出された1つまたは複数のオーディオ信号を含む、請求項1からのいずれか一項に記載の装置。
  7. 前記装置は、前記拡張音場記述が、第1の音場記述(330)、第2の音場記述(340)、および前記第1の音場記述および前記第2の音場記述に関する空間情報(350)を前記メタデータとして含むように、前記拡張音場記述を生成するように構成される、
    請求項1からのいずれか一項に記載の装置。
  8. 前記メタデータ生成器(110)は、前記メタデータとして、前記第1の音場記述についての第1の幾何学的情報(352)、および前記第2の音場記述についての第2の幾何学的情報(353)を生成するように構成される、
    請求項1からに記載の装置。
  9. 音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための装置であって、
    前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するための音場計算器(420)を含み、
    前記音場計算器(420)は、レイヤごとに、
    前記音場記述としてのDirAC(指向性オーディオ符号化)記述について、方向データ、深度情報、および前記並進情報を使用して、異なる時間−周波数ビンの修正方向データを計算し、
    前記修正方向データを使用して、前記DirAC記述を複数のオーディオチャネルを含む音響記述にレンダリングして前記修正音場記述を取得するか、または、前記時間−周波数ビンの前記方向データの代わりに前記修正方向データ、および任意選択で、前記DirAC記述に含まれている拡散度データを使用して、前記修正音場記述として前記DirAC記述を送信または保存する、ように構成されるか、
    或いは、
    前記音場計算器(420)は、前記修正音場記述を取得する際に、レイヤごとに、時間−周波数ビンについて、前記方向データを維持するか、または前記時間−周波数ビンの前記拡散データに基づいて修正方向データを計算する、ように決定するように構成され、修正方向データは、所定のまたは適応的な拡散度レベルよりも低い拡散度を示す拡散度データについてのみ計算されるか、
    或いは、
    前記音場記述は、レイヤごとに、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも1つの指向性成分を含み、
    前記音場計算器(420)は、レイヤごとに、
    前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出するための音場解析器(422)と、
    前記方向情報およびメタデータを使用して、周波数ビンごとに修正到来方向情報を計算するための並進変換器(423)であって、前記メタデータは、距離情報をレイヤに関連付ける深度マップを含む、並進変換器(423)と、
    前記レイヤの前記深度マップによって提供される距離に応じた距離補償情報と、前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離と、を使用して、前記修正音場を計算するための距離補償器と、を含むか、
    或いは、
    前記音場計算器(420)は、レイヤごとに、
    前記基準位置から前記音場の前記解析(1102)により得られた音源(510)を指す第1のベクトルを計算し(1104)、
    前記第1のベクトルおよび前記並進情報を使用して、前記異なる基準位置(500)から前記音源(510)を指す第2のベクトルを計算し(1106)、前記並進情報は、前記基準位置(522)から前記異なる基準位置(500)への並進ベクトルを定義し、
    前記異なる基準位置(500)、前記音源(510)の位置、および前記第2のベクトルを使用して、あるいは、前記異なる基準位置(500)から前記音源(510)の位置までの距離および前記第2のベクトルを使用して、距離修正値を計算する(1106)、ように構成されるか、
    或いは、
    前記音場計算器(420)は、レイヤごとに、
    前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定し(1200)、
    前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算し(1230)、
    前記異なる基準位置に関連する前記音源の距離情報を計算し(1230)、
    前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する(1260)、ように構成され、
    前記音場計算器(420)は、レイヤごとに、または単一レイヤのみに、拡散信号を前記音源信号の直接部分に追加するように構成され、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正されるか、
    或いは、
    前記音場計算器(420)は、レイヤ音場記述ごとに、前記メタデータから前記レイヤ音場記述の代表距離を受け取るように構成され、
    前記音場計算器は、前記並進情報によって決定された前記修正された基準位置に関して前記音源が同じレイヤに残っているかどうかの決定を使用して、前記レイヤ音場記述から決定された音源のスケーリング値を決定するように構成され、
    前記スケーリング値は、前記音源が前記異なる基準位置に対して下位レイヤにある場合には、1より大きいと決定され、
    前記スケーリング値は、前記音源が前記異なる基準位置に対して上位レイヤにある場合には、1より小さいと決定されるか、
    或いは、
    前記音場計算器(420)は、各レイヤ音場記述を解析して、前記レイヤ音場記述に含まれる各音源の到来方向情報を取得し、
    前記到来方向情報および前記レイヤ音場記述の前記メタデータを使用して、前記レイヤ音場記述の音源から前記修正された基準位置までの距離を決定し、
    前記レイヤ音場記述の前記音源から前記異なる基準位置までの前記距離と、前記音源が抽出された前記音場記述の前記メタデータと、を使用して、スケーリング係数を決定する、ように構成されるか、
    或いは、
    前記音場計算器(420)は、音源の位置および前記並進情報を使用して、前記異なる基準位置から前記音源の前記位置までの距離を決定し、
    前記異なる基準位置までの前記距離を、前記異なる基準位置の周りのレイヤの代表距離と比較して、前記比較に従って前記異なる基準位置の周りのレイヤに前記音源がレンダリングされるか、
    或いは、
    前記音場計算器(420)は、音源について、到来方向情報および幾何学的情報を使用して、前記基準位置から前記音源への第1のベクトルを形成するように構成され、レイヤ音場記述の各音源に前記同じ幾何学的情報が使用され、
    前記音場計算器(420)は、前記第1のベクトルおよび前記レイヤ音場記述の各音源の前記並進情報から第2のベクトルを形成するように構成され、
    前記音場計算器は、前記第2のベクトルの長さを前記第1のベクトルの長さで除算することにより、各音源のスケーリング値を計算するように構成される、装置。
  10. 前記音場計算器(420)は、
    前記音場記述として、第1のレイヤ音場記述と第2のレイヤ音場記述を受け取り、
    前記第1および前記第2のレイヤ音場記述の音源分離を実行して、前記第1および前記第2のレイヤ音場記述の音源と抽出された音源の到来方向(DoA)データとを抽出し、
    抽出された音源ごとに、前記DoAデータおよび前記並進情報を使用して、前記異なる位置についての修正DoAデータを計算し、
    前記抽出された音源と前記修正DoAデータを処理して、前記修正音場記述を取得する、ように構成される、
    請求項に記載の装置。
  11. 前記音場計算器(420)は、
    レイヤ音場記述ごとに個別に源分離を実行し、レイヤごとにアンビエンス/拡散/残差信号を抽出するか、または、
    すべてのレイヤについて前記音源分離を一緒に実行し、少なくとも2つのレイヤの単一のアンビエンス/拡散/残差信号を抽出する、ように構成される、
    請求項に記載の装置。
  12. 前記音場計算器(420)は、抽出された音源ごとに、正DoA(抽出された音源の到来方向)データを使用して音場記述を生成し、
    前記対応する抽出された音源と特定のレイヤの前記異なる基準位置との間の距離に基づいて音源の音場記述を選択し、前記レイヤ内の選択された各音源の前記音場記述を追加して、修正レイヤ音場記述を取得するか、または、
    前記音響シーンの各音源の前記音場記述を追加して、修正された全体音場記述を取得する、ように構成される、
    請求項に記載の装置。
  13. 前記音場計算器(420)は、修正レイヤ音場記述を計算する際にレイヤごとにアンビエンス/拡散/残差信号を追加するか、あるいは前記全体音場記述に追加される単一のアンビエンス/拡散/残差信号を計算する、ように構成される、
    請求項12に記載の装置。
  14. 前記音場計算器(420)は、音源ごとに、修正距離を計算し、出された音源の前記修正距離を使用して修正レイヤ音場記述を計算するように構成される、
    請求項から13のいずれか一項に記載の装置。
  15. 前記音場計算器(420)は、各レイヤ音場記述の対応する成分ごとに、前記レイヤ音場記述を追加して、全体音場記述を取得するように構成される、
    請求項から14のいずれか一項に記載の装置。
  16. 前記音場計算器(420)は、前記修正音場記述に回転を適用するように構成され、前記修正音場記述は、前記異なる基準位置に関連するレイヤ音場記述または全体音場記述である、
    請求項から15のいずれか一項に記載の装置。
  17. 前記並進情報または前記修正音場に対する意図されたリスナーの回転を示す回転情報を提供するための変換インターフェース(410)と、
    前記音場計算器(420)に前記メタデータを提供するためのメタデータサプライヤ(402、400)と、
    前記音場計算器(420)に前記音場記述を提供するための音場サプライヤ(404、400)と、
    前記修正音場記述と、前記並進情報を使用して前記メタデータから導出された修正メタデータと、を含む前記修正音場を出力するための、または各スピーカチャネルが所定のスピーカ位置に関連する複数のスピーカチャネルを出力するための、または前記修正音場のバイノーラル表現を出力するための、出力インターフェース(421)と、
    をさらに含む、請求項から16のいずれか一項に記載の装置。
  18. 前記第1のベクトルは、到来方向の単位ベクトルに前記メタデータに含まれる距離を乗算することによって計算されるか、または、
    前記第2のベクトルは、前記第1のベクトルから前記並進ベクトルを減算することによって計算されるか、または、
    前記距離修正値は、前記第2のベクトルを前記第1のベクトルのノルムで除算することにより計算される、
    請求項に記載の装置。
  19. 前記音場計算器(420)は、前記並進情報に加えて、回転情報を受け取るように構成され、
    前記音場計算器(420)は、前記回転情報を使用して回転変換(424)を実行し、音場の到来方向データを回転させるように構成され、前記到来方向データは、前記音場記述の音場解析および前記並進情報を使用することにより得られた到来方向データから導出される、
    請求項から18のいずれか一項に記載の装置。
  20. 前記音場計算器(420)は、レイヤごとに、
    音場解析により前記音場記述および音源の方向から前記音源を決定し(1200、1240)、
    音源ごとに、前記メタデータを使用して前記基準位置から前記音源までの距離を決定し(1220)、
    前記音源の方向および前記並進情報を使用して、前記異なる基準位置に関連する前記音源の新しい方向を決定し(1250)、
    前記異なる基準位置に関連する前記音源の新しい距離情報を決定し(1230)、
    前記音源の前記新しい方向、前記新しい距離情報、および前記音場記述もしくは前記音場記述から導出された前記音源に対応する音源信号を使用して、前記修正音場を生成する(1260)、
    ように構成される、請求項から19のいずれか一項に記載の装置。
  21. 前記音場計算器は、レイヤごとに、
    前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定し(1200)、
    前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算し(1230)、
    前記異なる基準位置に関連する前記音源の距離情報を計算し(1230)、
    前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する(1260)、
    ように構成される、請求項から20のいずれか一項に記載の装置。
  22. 前記音場計算器(420)は、
    再生設定に関連して前記新しい方向により与えられた方向に音源信号をパンニングすることにより、
    ならびに前記パンニングを実行する前または前記パンニングを実行した後に、前記距離情報を使用して前記音源信号をスケーリングすることにより、前記修正音場を合成するように構成される、請求項21に記載の装置。
  23. 前記音場計算器(420)は、レイヤごとに、
    前記音場記述の時間−周波数変換を実行し、時間フレームの複数の周波数ビンの到来方向を計算し(422)、
    周波数ビンごとに前記新しい方向を計算(423、424)し、
    周波数ビンごとに前記距離情報を計算し、
    周波数ビンのオーディオ信号、前記周波数ビンの前記新しい方向から導出された前記周波数ビンのパンニングゲイン、および前記対応するレイヤの前記距離情報から導出された前記周波数ビンのスケーリング値を使用して、周波数ビンごとに直接合成を実行する、
    ように構成される、請求項19から22のいずれか一項に記載の装置。
  24. 前記音場計算器(420)は、レイヤごとに、
    前記周波数ビンの前記オーディオ信号から導出された拡散オーディオ信号を使用し、かつ前記周波数ビンの前記音解析によって導出された拡散度パラメータを使用して拡散合成を実行し、前記直接部分と前記拡散部分とを組み合わせて、前記周波数ビンの合成オーディオ信号を取得し、
    時間フレームの前記周波数ビンの前記オーディオ信号を使用して周波数−時間変換を実行し、前記修正音場として時間領域合成オーディオ信号を取得する、
    ように構成される、請求項23に記載の装置。
  25. 前記音場計算器(420)は、音源ごとに、前記異なる基準位置に関連する音場を合成するように構成され、前記合成は、
    音源ごとに、前記音源信号の前記新しい方向を使用して音源信号を処理して(430)、前記異なる基準位置に関連する前記音源信号の音場記述を取得し、
    前記音源信号を処理する前に前記音源信号を修正するか、または前記方向情報を使用して前記音場記述を修正し、
    前記音源の前記音場記述を追加して、前記異なる基準位置に関連する修正音場を取得する、
    ことを含む、請求項19から24のいずれか一項に記載の装置。
  26. 前記音解析(1200)は、音源分離アルゴリズムによって前記音源信号を決定し、前記拡散信号を取得するために前記音場記述から前記音源信号の少なくともいくつかを減算するように構成される、
    請求項19から25のいずれか一項に記載の装置。
  27. 拡張音場の記述を生成するための方法であって、
    少なくとも1つの基準位置についての音場を示す少なくとも1つの音場記述を生成するステップと、
    前記音場の空間情報に関連するメタデータを生成するステップと、を含み、
    前記少なくとも1つの音場記述および前記メタデータは、前記拡張音場記述を構成し、
    前記少なくとも1つの音場記述を生成するステップは、前記基準位置についての第1の音場記述を生成することを含み、前記第1の音場記述は、前記基準位置の周りの第1のボリュームに位置する音源からの音データのみを含み、且つ、前記基準位置についての第2の音場記述を生成することを含み、前記第2の音場記述は、前記基準位置の周りの第2のボリュームに位置する第2の音源からの音データのみを含み、前記第2のボリュームは前記第1のボリュームとは異なり、
    前記メタデータを生成するステップは、前記第1のボリュームおよび/または前記第2のボリュームの空間記述を提供することを含むか、
    或いは、
    前記少なくとも1つの音場記述を生成するステップは、複数のレイヤの各レイヤについて、1つもしくは複数のダウンミックス信号および個別方向データ、ならびに任意選択で異なる時間−周波数ビンに対する拡散度データを有する音場のDirAC(指向性オーディオ符号化)記述を生成することを含み、
    前記記メタデータを生成するステップは、レイヤごとに単一の距離情報項目を生成することを含むか、
    或いは、
    前記生成するステップは、前記メタデータとして、前記第1の音場記述についての第1の幾何学的情報(352)、および前記第2の音場記述についての第2の幾何学的情報(353)を生成することを含み、
    前記第1の幾何学的記述(352)は、第1のボリュームから基準点までの第1の代表距離であり、前記第2の幾何学的情報(353)は、第2のボリュームから前記基準点までの第2の代表距離であり、前記基準点は、前記基準位置であるかまたは前記基準位置から前記基準点を指すベクトルによって記述される、方法。
  28. 音場記述および前記音場記述の空間情報に関連するメタデータから修正音場記述を生成するための方法であって、前記方法は、
    前記空間情報、前記音場記述、およびある基準位置から異なる基準位置への並進を示す並進情報を使用して前記修正音場を計算するステップを含み、
    前記計算するステップは、レイヤごとに、
    前記音場記述としてのDirAC(指向性オーディオ符号化)記述について、方向データ、深度情報、および前記並進情報を使用して、異なる時間−周波数ビンの修正方向データを計算し、
    前記修正方向データを使用して、前記DirAC記述を複数のオーディオチャネルを含む音響記述にレンダリングして前記修正音場記述を取得するか、または、前記時間−周波数ビンの前記方向データの代わりに前記修正方向データ、および任意選択で、前記DirAC記述に含まれている拡散度データを使用して、前記修正音場記述として前記DirAC記述を送信または保存する、ことを含むか、
    或いは、
    前記計算するステップは、前記修正音場記述を取得する際に、レイヤごとに、時間−周波数ビンについて、前記方向データを維持するか、または前記時間−周波数ビンの前記拡散データに基づいて修正方向データを計算する、ように決定するように構成され、修正方向データは、所定のまたは適応的な拡散度レベルよりも低い拡散度を示す拡散度データについてのみ計算されるか、
    或いは、
    前記音場記述は、レイヤごとに、複数の音場成分を含み、前記複数の音場成分は、全方向性成分および少なくとも1つの指向性成分を含み、
    前記計算するステップは、レイヤごとに、
    前記音場成分を解析して、異なる周波数ビンについて、到来方向情報を導出することと、
    前記方向情報およびメタデータを使用して、周波数ビンごとに修正到来方向情報を計算することであって、前記メタデータは、距離情報をレイヤに関連付ける深度マップを含む、修正到来方向情報を計算することと、
    前記レイヤの前記深度マップによって提供される距離に応じた距離補償情報と、前記修正到来方向情報に関連する前記周波数ビンに関連付けられた新しい距離と、を使用して、前記修正音場を計算することと、を含むか、
    或いは、
    前記計算するステップは、レイヤごとに、
    前記基準位置から前記音場の前記解析(1102)により得られた音源(510)を指す第1のベクトルを計算する(1104)ことと、
    前記第1のベクトルおよび前記並進情報を使用して、前記異なる基準位置(500)から前記音源(510)を指す第2のベクトルを計算すること(1106)であって、前記並進情報は、前記基準位置(522)から前記異なる基準位置(500)への並進ベクトルを定義する、第2のベクトルを計算する(1106)ことと、
    前記異なる基準位置(500)、前記音源(510)の位置、および前記第2のベクトルを使用して、あるいは、前記異なる基準位置(500)から前記音源(510)の位置までの距離および前記第2のベクトルを使用して、距離修正値を計算する(1106)ことと、を含むか、
    或いは、
    前記計算するステップは、レイヤごとに、
    前記音場記述から音源信号を決定し、音解析により前記基準位置に関連する前記音源信号の方向を決定する(1200)ことと、
    前記並進情報を使用して、前記異なる基準位置に関連する前記音源信号の新しい方向を計算する(1230)ことと、
    前記異なる基準位置に関連する前記音源の距離情報を計算する(1230)ことと、
    前記距離情報、前記音源信号、前記新しい方向を使用して前記修正音場を合成する(1260)ことと、
    レイヤごとに、または単一レイヤのみに、拡散信号を前記音源信号の直接部分に追加することであって、前記直接部分は、前記拡散信号に追加される前に前記距離情報によって修正される、追加することと、を含むか、
    或いは、
    前記計算するステップは、レイヤ音場記述ごとに、前記メタデータから前記レイヤ音場記述の代表距離を受け取ることと、
    前記並進情報によって決定された前記修正された基準位置に関して前記音源が同じレイヤに残っているかどうかの決定を使用して、前記レイヤ音場記述から決定された音源のスケーリング値を決定することと、を含み、
    前記スケーリング値は、前記音源が前記異なる基準位置に対して下位レイヤにある場合には、1より大きいと決定され、
    前記スケーリング値は、前記音源が前記異なる基準位置に対して上位レイヤにある場合には、1より小さいと決定されるか、
    或いは、
    前記計算するステップは、各レイヤ音場記述を解析して、前記レイヤ音場記述に含まれる各音源の到来方向情報を取得することと、
    前記到来方向情報および前記レイヤ音場記述の前記メタデータを使用して、前記レイヤ音場記述の音源から前記修正された基準位置までの距離を決定することと、
    前記レイヤ音場記述の前記音源から前記異なる基準位置までの前記距離と、前記音源が抽出された前記音場記述の前記メタデータと、を使用して、スケーリング係数を決定することと、を含むか、
    或いは、
    前記計算するステップは、音源の位置および前記並進情報を使用して、前記異なる基準位置から前記音源の前記位置までの距離を決定することと、
    前記異なる基準位置までの前記距離を、前記異なる基準位置の周りのレイヤの代表距離と比較して、前記比較に従って前記異なる基準位置の周りのレイヤに前記音源がレンダリングされることと、を含むか、
    或いは、
    前記計算するステップは、音源について、到来方向情報および幾何学的情報を使用して、前記基準位置から前記音源への第1のベクトルを形成することであって、レイヤ音場記述の各音源に前記同じ幾何学的情報が使用される、第1のベクトルを形成することと、
    前記第1のベクトルおよび前記レイヤ音場記述の各音源の前記並進情報から第2のベクトルを形成することと、
    前記第2のベクトルの長さを前記第1のベクトルの長さで除算することにより、各音源のスケーリング値を計算することと、を含む、方法。
  29. コンピュータまたはプロセッサで実行される場合に、請求項27に記載の方法または請求項28に記載の方法を実行するためのコンピュータプログラム。
JP2020500725A 2017-07-14 2018-07-13 マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト Active JP6983484B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17181484 2017-07-14
EP17181484.1 2017-07-14
PCT/EP2018/069145 WO2019012133A1 (en) 2017-07-14 2018-07-13 CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION

Publications (2)

Publication Number Publication Date
JP2020527745A JP2020527745A (ja) 2020-09-10
JP6983484B2 true JP6983484B2 (ja) 2021-12-17

Family

ID=59631529

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020500725A Active JP6983484B2 (ja) 2017-07-14 2018-07-13 マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト

Country Status (14)

Country Link
US (2) US11153704B2 (ja)
EP (1) EP3652736A1 (ja)
JP (1) JP6983484B2 (ja)
KR (2) KR102540642B1 (ja)
CN (1) CN111183479B (ja)
AR (1) AR112504A1 (ja)
AU (2) AU2018298876A1 (ja)
BR (1) BR112020000759A2 (ja)
CA (1) CA3069403C (ja)
RU (1) RU2740703C1 (ja)
SG (1) SG11202000285QA (ja)
TW (1) TWI692753B (ja)
WO (1) WO2019012133A1 (ja)
ZA (1) ZA202000023B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109683845B (zh) * 2017-10-18 2021-11-23 宏达国际电子股份有限公司 声音播放装置、方法及非暂态存储媒体
US11019449B2 (en) * 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
US11432097B2 (en) * 2019-07-03 2022-08-30 Qualcomm Incorporated User interface for controlling audio rendering for extended reality experiences
US11430451B2 (en) 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
JPWO2021140959A1 (ja) * 2020-01-10 2021-07-15
CN113747335A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 音频渲染方法及装置
US11558707B2 (en) 2020-06-29 2023-01-17 Qualcomm Incorporated Sound field adjustment
JP2024531541A (ja) * 2021-09-03 2024-08-29 ドルビー ラボラトリーズ ライセンシング コーポレイション 空間的メタデータ出力を有する音楽シンセサイザー
GB2614254A (en) * 2021-12-22 2023-07-05 Nokia Technologies Oy Apparatus, methods and computer programs for generating spatial audio output
GB2620591A (en) * 2022-07-12 2024-01-17 Frontier Dev Ltd System for audio and video simulation
US20240298131A1 (en) * 2023-03-03 2024-09-05 Sony Interactive Entertainment Inc. Systems and methods for modifying spatial audio

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
JPH08107600A (ja) 1994-10-04 1996-04-23 Yamaha Corp 音像定位装置
US5970152A (en) 1996-04-30 1999-10-19 Srs Labs, Inc. Audio enhancement system for use in a surround sound environment
JP2006074589A (ja) 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
EP2450880A1 (en) 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
CN103460285B (zh) * 2010-12-03 2018-01-12 弗劳恩霍夫应用研究促进协会 用于以几何为基础的空间音频编码的装置及方法
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2600343A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for merging geometry - based spatial audio coding streams
EP2600637A1 (en) 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
US9584912B2 (en) 2012-01-19 2017-02-28 Koninklijke Philips N.V. Spatial audio rendering and encoding
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
JP6038312B2 (ja) * 2012-07-27 2016-12-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ラウドスピーカ・エンクロージャ・マイクロホンシステム記述を提供する装置及び方法
EP2891338B1 (en) 2012-08-31 2017-10-25 Dolby Laboratories Licensing Corporation System for rendering and playback of object based audio in various listening environments
WO2014080074A1 (en) 2012-11-20 2014-05-30 Nokia Corporation Spatial audio enhancement apparatus
CN104019885A (zh) * 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析系统
US9685163B2 (en) 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
CN104244164A (zh) 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
US20150127354A1 (en) 2013-10-03 2015-05-07 Qualcomm Incorporated Near field compensation for decomposed representations of a sound field
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
DE102013225892A1 (de) 2013-12-13 2015-06-18 Robert Bosch Gmbh Schrägscheibenmaschine, Schrägscheibe und Verfahren zur hydrostatischen Entlastung einer Stellteilanbindung einer Schrägscheibenmaschine und zum Druckabbau eines Arbeitsmediums während eines Umsteuervorgangs der Schrägscheibenmaschine
SG11201605692WA (en) 2014-01-16 2016-08-30 Sony Corp Audio processing device and method, and program therefor
US10412522B2 (en) 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
CN105635635A (zh) 2014-11-19 2016-06-01 杜比实验室特许公司 调节视频会议系统中的空间一致性
WO2017098949A1 (ja) * 2015-12-10 2017-06-15 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10182303B1 (en) 2017-07-12 2019-01-15 Google Llc Ambisonics sound field navigation using directional decomposition and path distance estimation

Also Published As

Publication number Publication date
AU2018298876A1 (en) 2020-02-27
TW201909170A (zh) 2019-03-01
AR112504A1 (es) 2019-11-06
BR112020000759A2 (pt) 2020-07-14
RU2740703C1 (ru) 2021-01-20
KR102652670B1 (ko) 2024-04-01
SG11202000285QA (en) 2020-02-27
EP3652736A1 (en) 2020-05-20
CA3069403C (en) 2023-05-09
KR102540642B1 (ko) 2023-06-08
JP2020527745A (ja) 2020-09-10
US20210289310A1 (en) 2021-09-16
ZA202000023B (en) 2021-10-27
TWI692753B (zh) 2020-05-01
KR20220044973A (ko) 2022-04-12
WO2019012133A1 (en) 2019-01-17
KR20200041860A (ko) 2020-04-22
CA3069403A1 (en) 2019-01-17
US11153704B2 (en) 2021-10-19
US11863962B2 (en) 2024-01-02
US20200145776A1 (en) 2020-05-07
AU2021225242B2 (en) 2023-07-06
CN111183479B (zh) 2023-11-17
AU2021225242A1 (en) 2021-09-30
CN111183479A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
US11950085B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
JP6983484B2 (ja) マルチレイヤ記述を使用して拡張音場記述または修正音場記述を生成するためのコンセプト
KR102448736B1 (ko) 깊이-확장형 DirAC 기술 또는 기타 기술을 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210128

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210423

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211123

R150 Certificate of patent or registration of utility model

Ref document number: 6983484

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150