JP2017525318A - 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減 - Google Patents

高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減 Download PDF

Info

Publication number
JP2017525318A
JP2017525318A JP2017521041A JP2017521041A JP2017525318A JP 2017525318 A JP2017525318 A JP 2017525318A JP 2017521041 A JP2017521041 A JP 2017521041A JP 2017521041 A JP2017521041 A JP 2017521041A JP 2017525318 A JP2017525318 A JP 2017525318A
Authority
JP
Japan
Prior art keywords
environmental
ambisonic
coefficient
unit
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017521041A
Other languages
English (en)
Other versions
JP2017525318A5 (ja
JP6449455B2 (ja
Inventor
ペーターズ、ニルス・ガンザー
セン、ディパンジャン
モッレル、マーティン・ジェームス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017525318A publication Critical patent/JP2017525318A/ja
Publication of JP2017525318A5 publication Critical patent/JP2017525318A5/ja
Application granted granted Critical
Publication of JP6449455B2 publication Critical patent/JP6449455B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

概して、オーディオデータの圧縮および復号のための技法が説明される。オーディオデータを圧縮するための例示的なデバイスは、無相関化変換を環境アンビソニック係数に適用し、環境アンビソニック係数の無相関化された表現を取得するように構成された1つまたは複数のプロセッサを含む。係数は、複数の高次アンビソニック係数から抽出され、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる。

Description

[0001]本出願は、各々の内容全体が参照により本明細書に組み込まれる、
2014年7月2日に出願された「REDUCING CORRELATION BETWEEN HOA BACKGROUND CHANNELS」と題する米国仮特許出願第62/020,348号、および
2014年10月6日に出願された「REDUCING CORRELATION BETWEEN HOA BACKGROUND CHANNELS」と題する米国仮特許出願第62/060,512号
の利益を主張する。
[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータ(higher-order ambisonic audio data)のコーディングに関する。
[0003]高次アンビソニックス(HOA:higher-order ambisonics)信号(複数の球面調和係数(SHC:spherical harmonic coefficients)または他の階層的な要素によって表されることが多い)は、音場の3次元表現である。このHOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカージオメトリに依存しない方法で、音場を表し得る。SHC信号は、5.1オーディオチャネルフォーマットまたは7.1オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、SHC信号はまた、下位互換性を容易にし得る。したがって、SHC表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。
[0004]概して、高次アンビソニックスオーディオデータをコーディングするための技法が説明される。高次アンビソニックスオーディオデータは、1よりも大きい次数を有する球面調和基底関数(spherical harmonic basis function)に対応する少なくとも1つの高次アンビソニック(HOA)係数を備え得る。高次アンビソニックス(HOA)バックグラウンドチャネル間の相関を低減するための技法が説明される。
[0005]一態様では、方法は、少なくとも左信号と右信号とを有する環境アンビソニック係数(ambient ambisonic coefficients)の無相関化された表現(decorrelated representation)を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを含む。
[0006]別の態様では、方法は、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換(decorrelation transform)を環境アンビソニック係数に適用することを含んでおり、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる。
[0007]別の態様では、オーディオデータを圧縮するためのデバイスは、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行うように構成された1つまたは複数のプロセッサを含む。
[0008]別の態様では、オーディオデータを圧縮するためのデバイスは、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用することを行うように構成された1つまたは複数のプロセッサを含み、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる。
[0009]別の態様では、オーディオデータを圧縮するためのデバイスは、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得するための手段であって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、取得するための手段と、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成するための手段とを含む。
[0010]別の態様では、オーディオデータを圧縮するためのデバイスは、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用するための手段であって、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、適用するための手段と、環境アンビソニック係数の無相関化された表現を記憶するための手段とを含む。
[0011]別の態様では、コンピュータ可読記憶媒体は、実行されると、オーディオ圧縮デバイスの1つまたは複数のプロセッサに、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行わせる命令で符号化される。
[0012]別の態様では、コンピュータ可読記憶媒体は、実行されると、オーディオ圧縮デバイスの1つまたは複数のプロセッサに、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用すること、を行わせる命令で符号化され、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる。
[0013]本技法の1つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。
[0014]様々な次数および副次数の球面調和基底関数を示す図。 [0015]本開示で説明される技法の様々な態様を実行することができるシステムを示す図。 [0016]本開示で説明される技法の様々な態様を実行することができる、図2の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 [0017]図2のオーディオ復号デバイスをより詳細に示すブロック図。 [0018]本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0019]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0020]本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ符号化デバイスおよびオーディオ復号デバイスの例示的な動作を示すフローチャート。
[0021]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカー(loudspeakers)へのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している5.1フォーマット(これは、次の6つのチャネル、すなわち、フロントレフト(FL)と、フロントライト(FR)と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果(LFE)とを含む)、発展中の7.1フォーマット、7.1.4フォーマットおよび22.2フォーマット(たとえば、超高精細度テレビジョン規格とともに使用するための)などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い(対称な、および非対称なジオメトリの)任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される32個のラウドスピーカーを含む。
[0022]将来のMPEGエンコーダへの入力は、任意選択で、次の3つの可能なフォーマット、すなわち、(i)あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、(上で論じられたような)従来のチャネルベースオーディオ、(ii)(情報の中でも)位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調(PCM)データを伴うオブジェクトベースオーディオ、および(iii)球面調和基底関数の係数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)を使用して音場を表すことを伴うシーンベースオーディオのうちの1つである。将来のMPEGエンコーダは、2013年1月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、International Organization for Standardization/International Electrotechnical Commission(ISO)/(IEC) JTC1/SC29/WG11/N13411による「Call for Proposals for 3D Audio」と題される文書においてより詳細に説明され得る。
[0023]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、5.1ホームシアターシステム(リビングルームに進出するという点でステレオ以上に最も成功した)からNHK(Nippon Hoso Kyokaiすなわち日本放送協会)によって開発された22.2システムに及ぶ。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーのジオメトリ(と数)および(レンダラを伴う)再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。
[0024]コンテンツ作成者にそのようなフレキシビリティを提供するために、要素の階層セット(a hierarchical set of elements)が音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。
[0025]要素の階層セットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用する音場の記述または表現を示す。
Figure 2017525318
[0026]この式は、時間tにおける音場の任意の点{rr,θr,φr}における圧力piが、SHC、
Figure 2017525318
によって一意に表され得ることを示す。ここで、
Figure 2017525318
であり、cは音速(約343m/s)であり、{rr,θr,φr}は基準点(または観測点)であり、jn(・)は次数nの球ベッセル関数であり、
Figure 2017525318
は次数nおよび副次数mの球面調和基底関数である。角括弧内の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現(すなわち、S(ω,rr,θr,φr))であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。高次アンビソニックス信号は、0次および1次のみが残るように高次を切り捨てることによって処理される。通常、高次係数における損失エネルギーにより、残りの信号の何らかのエネルギー補償が行われる。
[0027]本開示の様々な態様は、バックグラウンド信号間の相関を低減することを対象とする。たとえば、本開示の技法は、HOA領域において表されるバックグラウンド信号間の相関を低減するかまたは場合によっては除去することができる。バックグラウンドHOA信号間の相関を低減する潜在的な利点は、ノイズマスキング解除の緩和(mitigation of noise unmasking)である。本明細書で使用する「ノイズマスキング解除(noise unmasking)」という表現は、オーディオオブジェクトを、空間領域におけるオーディオオブジェクトに対応しないロケーションに帰することを指し得る。ノイズマスキング解除に関する潜在的な問題を緩和することに加えて、本明細書で説明される符号化技法は、一緒にステレオ出力を形成する信号など、左オーディオ信号と右オーディオ信号とを表す出力信号を生成することができる。今度は、復号デバイスは、ステレオ出力を取得するために左オーディオ信号と右オーディオ信号とを復号することができるか、またはモノ出力を取得するために左信号と右信号とを混合することができる。加えて、符号化ビットストリームが純粋に水平方向のレイアウトを表すシナリオでは、復号デバイスは、水平成分が無相関化されたHOAバックグラウンド信号のみを復号するための本開示の様々な技法を実装し得る。復号プロセスを水平成分が無相関化されたHOAバックグラウンド信号に限定することによって、デコーダは、コンピューティングリソースを節約し、帯域幅消費を低減するための技法を実装し得る。
[0028]図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図1の例では明示的に示されていない副次数mの拡張が存在する。
[0029]SHC
Figure 2017525318
は、様々なマイクロフォンアレイ構成によって物理的に獲得(たとえば、録音)されることができ、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されることもできる。SHCはシーンベースのオーディオを表し、ここで、SHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するために、オーディオエンコーダに入力され得る。たとえば、(1+4)2個の(25個の、したがって4次の)係数を伴う4次表現が使用され得る。
[0030]上述されたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti, M、「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」、J. Audio Eng. Soc.、Vol.53、No.11、2005年11月、1004〜1025ページにおいて説明されている。
[0031]SHCがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数
Figure 2017525318
は、
Figure 2017525318
と表され得、ただし、iは
Figure 2017525318
であり、
Figure 2017525318
は次数nの(第2の種類の)球ハンケル関数であり、{rs,θs、φs}はオブジェクトのロケーションである。周波数の関数として(たとえば、PCMストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して)オブジェクトソースエネルギーg(ω)を知ることで、各PCMオブジェクトと対応するロケーションとをSHC
Figure 2017525318
に変換することが可能となる。さらに、各オブジェクトについての
Figure 2017525318
係数は、(上式は線形であり直交方向の分解であるので)加法的であることが示され得る。このようにして、多数のPCMオブジェクトが
Figure 2017525318
係数によって(たとえば、個々のオブジェクトについての係数ベクトルの和として)表され得る。本質的に、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含んでおり、上記は、観測点{rr,θr,φr}の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびSHCベースのオーディオコーディングの文脈で説明される。
[0032]図2は、本開示で説明される技法の様々な態様を実行することができるシステム10を示す図である。図2の例に示されるように、システム10は、コンテンツ作成者デバイス12と、コンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、SHC(HOA係数とも呼ばれ得る)または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(またはセルラーフォン)、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。
[0033]コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス12は、HOA係数11を圧縮することを望む個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者デバイス14は、個人によって操作され得る。コンテンツ消費者デバイス14は、マルチチャネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム16を含み得る。
[0034]コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、様々なフォーマットのライブ録音7(HOA係数として直接含む)とオーディオオブジェクト9とを取得し、コンテンツ作成者デバイス12は、オーディオ編集システム18を使用してこれらを編集することができる。マイクロフォン5はライブ録音7をキャプチャすることができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト9からのHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス12は次いで、(潜在的に、上記で説明された方法でソースHOA係数がそれから導出され得るオーディオオブジェクト9のうちの様々なオブジェクトの操作を通じて間接的に)HOA係数11を編集することができる。コンテンツ作成者デバイス12は、HOA係数11を生成するためにオーディオ編集システム18を採用することができる。オーディオ編集システム18は、オーディオデータを編集し、このオーディオデータを1つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。
[0035]編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてビットストリーム21を生成することができる。すなわち、コンテンツ作成者デバイス12は、ビットストリーム21を生成するために、本開示で説明される技法の様々な態様に従って、HOA係数11を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、ビットストリーム21を生成することができる。ビットストリーム21は、HOA係数11の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。
[0036]図2では、コンテンツ消費者デバイス14に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス14に後で配信するために、ビットストリーム21を記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム21を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム21を要求するコンテンツ消費者デバイス14などの加入者にビットストリーム21を(場合によっては対応するビデオデータビットストリームを送信するとともに)ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。
[0037]代替的に、コンテンツ作成者デバイス12は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム21を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある(および、小売店と他の店舗ベースの配信機構とを含み得る)。したがって、いずれにしても、本開示の技法は、この点に関して図2の例に限定されるべきではない。
[0038]図2の例にさらに示されるように、コンテンツ消費者デバイス14は、オーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、いくつかの異なるレンダラ22を含み得る。レンダラ22は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング(VBAP:vector-base amplitude panning)を実行する様々な方法の1つもしくは複数、および/または音場合成を実行する様々な方法の1つもしくは複数を含み得る。本明細書で使用される場合、「Aおよび/またはB」は、「AまたはB」、または「AとB」の両方を意味する。
[0039]オーディオ再生システム16は、オーディオ復号デバイス24をさらに含み得る。オーディオ復号デバイス24は、ビットストリーム21からHOA係数11’を復号するように構成されたデバイスを表し得、HOA係数11’は、HOA係数11と類似し得るが、損失のある演算(たとえば、量子化)および/または送信チャネルを介した送信が原因で異なり得る。オーディオ再生システム16は、HOA係数11’を取得するためにビットストリーム21を復号した後、ラウドスピーカーフィード25を出力するためにHOA係数11’をレンダリングすることができる。ラウドスピーカーフィード25は、1つまたは複数のラウドスピーカー(説明を簡単にするために図2の例には示されていない)を駆動することができる。
[0040]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的なジオメトリを示すラウドスピーカー情報13を取得することができる。いくつかの場合には、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報13を取得し、ラウドスピーカー情報13を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報13の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報13を入力するようにユーザに促すことができる。
[0041]オーディオ再生システム16は次いで、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを選択することができる。いくつかの場合には、オーディオ再生システム16は、ラウドスピーカー情報13において指定されたラウドスピーカージオメトリに対する何らかの閾値類似性尺度(threshold similarity measure)(ラウドスピーカーのジオメトリに関する)内にいずれのオーディオレンダラ22もないとき、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを生成することができる。オーディオ再生システム16は、いくつかの場合には、オーディオレンダラ22のうちの既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報13に基づいて、オーディオレンダラ22のうちの1つを生成することができる。その際、1つまたは複数のスピーカー3は、レンダリングされたラウドスピーカーフィード25を再生することができる。
[0042]図3は、本開示で説明される技法の様々な態様を実行することができる、図2の例に示されるオーディオ符号化デバイス20の一例をより詳細に示すブロック図である。オーディオ符号化デバイス20は、コンテンツ分析ユニット26と、ベクトルベース合成方法ユニット(vector-based synthesis methodology unit)27と、指向性ベース合成方法ユニット28と、無相関化ユニット40’とを含む。以下で簡単に説明されるが、オーディオ符号化デバイス20に関するより多くの情報、およびHOA係数を圧縮またはさもなければ符号化する様々な態様は、2014年5月29に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第WO2014/194099号において入手可能である。
[0043]コンテンツ分析ユニット26は、HOA係数11がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、HOA係数11のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベース分解ユニット(vector-based decomposition unit)27に渡す。いくつかの場合には、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を指向性ベース合成ユニット28に渡す。指向性ベース合成ユニット28は、指向性ベースビットストリーム21を生成するためにHOA係数11の指向性ベース合成を実行するように構成されたユニットを表し得る。
[0044]図3の例に示されるように、ベクトルベース分解ユニット27は、線形可逆変換(LIT)ユニット30と、パラメータ計算ユニット32と、並べ替えユニット(reorder unit)34と、フォアグラウンド選択ユニット36と、エネルギー補償ユニット38と、聴覚心理オーディオコーダユニット40と、ビットストリーム生成ユニット42と、音場分析ユニット44と、係数低減ユニット46と、バックグラウンド(BG)選択ユニット48と、空間時間的補間ユニット50と、量子化ユニット52とを含み得る。
[0045]線形可逆変換(LIT)ユニット30は、HOAチャネルの形態でHOA係数11を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム(HOA[k]と示され得、ただし、kはサンプルの現在のフレームまたはブロックを示し得る)を表す。HOA係数11の行列は、次元D:M×(N+1)2を有し得る。
[0046]LITユニット30は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。SVDに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行され得る。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非0のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「PCA」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、PCAは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解(POD)、および固有値分解(EVD)などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。
[0047]いずれにしても、LITユニット30が、例として、特異値分解(やはり「SVD」と呼ばれることがある)を実行すると仮定すると、LITユニット30は、HOA係数11を、変換されたHOA係数の2つ以上のセットに変換することができる。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3の例では、LITユニット30は、いわゆるV行列と、S行列と、U行列とを生成するために、HOA係数11に関してSVDを実行することができる。SVDは、線形代数学では、y×zの実行列または複素行列X(ここで、Xは、HOA係数11などのマルチチャネルオーディオデータを表し得る)の因数分解を以下の形で表し得る。
Figure 2017525318
Uはy×yの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Uのy個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Sは、対角線上に非負実数をもつy×zの矩形対角行列を表し得、ここで、Sの対角線値は、マルチチャネルオーディオデータの特異値として知られる。V(Vの共役転置を示し得る)はz×zの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Vのz個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。
[0048]いくつかの例では、上で参照されたSVD数式中のV行列は、複素数を備える行列にSVDが適用され得ることを反映するために、V行列の共役転置として示される。実数のみを備える行列に適用されるとき、V行列の複素共役(すなわち、言い換えれば、V行列)は、V行列の転置であると見なされ得る。以下では、説明を簡単にするために、HOA係数11が実数を備え、その結果、V行列ではなくV行列がSVDによって出力されると仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切な場合にはV行列の転置を指すものとして理解されるべきである。V行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するHOA係数11に適用されることができ、ここで、SVDの出力はV行列である。したがって、本技法は、この点について、V行列を生成するためにSVDの適用を提供することのみに限定されるべきではなく、V行列を生成するために複素成分を有するHOA係数11へのSVDの適用を含み得る。
[0049]このようにして、LITユニット30は、次元D:M×(N+1)2を有するUS[k]ベクトル33(SベクトルとUベクトルとの組み合わされたバージョンを表し得る)と、次元D:(N+1)2×(N+1)2を有するV[k]ベクトル35とを出力するために、HOA係数11に関してSVDを実行することができる。US[k]行列中の個々のベクトル要素はXps(k)とも呼ばれることがあり、一方、V[k]行列の個々のベクトルはv(k)とも呼ばれることがある。
[0050]U行列、S行列、およびV行列の分析は、それらの行列がXによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される時間期間の間は)時間の関数として、互いに直交しておりあらゆる空間特性(指向性情報とも呼ばれ得る)とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置(r、θ、φ)とを表す空間特性は代わりに、(各々が(N+1)2の長さの)V行列の中の個々のi番目のベクトル、v(i)(k)によって表され得る。v(i)(k)ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状(幅を含む)と位置とを記述するHOA係数を表し得る。U行列中のベクトルとV行列中のベクトルの両方が、それらの2乗平均エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線要素によって表される。したがって、US[k](個々のベクトル要素XPS(k)を有する)を形成するために、UとSとを乗算することは、エネルギーを有するオーディオ信号を表す。(Uにおける)オーディオ時間信号と、(Sにおける)それらのエネルギーと、(Vにおける)それらの空間特性とを切り離すSVD分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のHOA[k]係数XをUS[k]とV[k]とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。
[0051]HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、線形可逆変換をHOA係数11の派生物に適用することができる。たとえば、LITユニット30は、HOA係数11から導出された電力スペクトル密度行列に関してSVDを適用することができる。HOA係数自体ではなくHOA係数の電力スペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は潜在的に、プロセッササイクルおよび記憶空間のうちの1つまたは複数に関してSVDを実行することの計算的な複雑さを低減しつつ、SVDがHOA係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。
[0052]パラメータ計算ユニット32は、相関パラメータ(R)、指向性特性パラメータ(θ、φ、r)、およびエネルギー特性(e)などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]として示され得る。パラメータ計算ユニット32は、パラメータを特定するために、US[k]ベクトル33に関してエネルギー分析および/または相関(もしくはいわゆる相互相関(cross-correlation))を実行することができる。パラメータ計算ユニット32はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、US[k−1]ベクトルおよびV[k−1]ベクトルの以前のフレームに基づいて、R[k−1]、θ[k−1]、φ[k−1]、r[k−1]、およびe[k−1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37と以前のパラメータ39とを並べ替えユニット34に出力することができる。
[0053]パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k−1]ベクトル33のためのパラメータ39の各々に対して順番ごとに比較することができる。並べ替えユニット34は、並べ替えられたUS[k]行列33’(数学的には
Figure 2017525318
として示され得る)と、並べ替えられたV[k]行列35’(数学的には
Figure 2017525318
として示され得る)とをフォアグラウンドサウンド(または支配的サウンド−PS(predominant sound))選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力するために、現在のパラメータ37および以前のパラメータ39に基づいて、US[k]行列33およびV[k]行列35内の様々なベクトルを(一例として、ハンガリー法を使用して)並べ替えることができる。
[0054]音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット44は、その分析および/または受信された目標ビットレート41に基づいて、聴覚心理コーダのインスタンス化の総数(環境またはバックグラウンドチャネルの総数(BGTOT)とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得る)を決定することができる。聴覚心理コーダのインスタンス化の総数は、numHOATransportChannelsとして示され得る。
[0055]音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド(または言い換えれば環境的な)音場の最小次数(NBG、または代替的にはMinAmbHOAorder)と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数(nBGa=(MinAmbHOAorder+1)2)と、送るべき追加のBG HOAチャネルのインデックス(i)(図3の例ではバックグラウンドチャネル情報43として総称的に示され得る)とを決定することができる。バックグラウンドチャネル情報42は、環境チャネル情報43とも呼ばれ得る。numHOATransportChannels−nBGaで残るチャネルの各々は、「追加のバックグラウンド/環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、2ビットによって(「ChannelType」として)示されたシンタックス要素であり得る(たとえば、00:指向性ベースの信号、01:ベクトルベースの支配的な信号、10:追加の環境信号、11:非アクティブな信号)。バックグラウンド信号または環境信号の総数、nBGaは、(MinAmbHOAorder+1)2+(上記の例における)インデックス10がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。
[0056]音場分析ユニット44は、目標ビットレート41に基づいて、バックグラウンド(または言い換えれば環境)チャネルの数とフォアグラウンド(または言い換えれば支配的な)チャネルの数とを選択し、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)はより多くのバックグラウンドチャネルおよび/またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、numHOATransportChannelsは8に設定され得るが、一方で、MinAmbHOAorderは1に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために4つのチャネルが確保され得るが、一方で、他の4つのチャネルは、フレームごとに、チャネルのタイプに応じて変化し得、たとえば、追加のバックグラウンド/環境チャネルまたはフォアグラウンド/支配的なチャネルのいずれかとして使用され得る。フォアグラウンド/支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの1つであり得る。
[0057]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド/環境チャネル(たとえば、10というChannelTypeに対応する)について、(最初の4つ以外の)あり得るHOA係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、4次のHOAコンテンツについては、HOA係数5〜25を示すためのインデックスであり得る。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、5〜25のインデックスを有する追加の環境HOA係数のうちの1つを示すことのみが必要であり得る。その情報はしたがって、「CodedAmbCoeffIdx」として示され得る、(4次のコンテンツのための)5ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット44は、バックグラウンドチャネル情報43とHOA係数11とをバックグラウンド(BG)選択ユニット36に、バックグラウンドチャネル情報43を係数低減ユニット46およびビットストリーム生成ユニット42に、nFG45をフォアグラウンド選択ユニット36に出力する。
[0058]バックグラウンド選択ユニット48は、バックグラウンドチャネル情報(たとえば、バックグラウンド音場(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i)と)に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されたユニットを表し得る。たとえば、NBGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルのHOA係数11を選択することができる。バックグラウンド選択ユニット48は次いで、この例では、インデックス(i)のうちの1つによって特定されるインデックスを有するHOA係数11を、追加のBG HOA係数として選択することができ、ここで、nBGaは、図2および図4の例に示されるオーディオ復号デバイス24などのオーディオ復号デバイスがビットストリーム21からバックグラウンドHOA係数47を解析することを可能にするために、ビットストリーム21において指定されるために、ビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力することができる。環境HOA係数47は、次元D:M×[(NBG+1)2+nBGa]を有し得る。環境HOA係数47はまた、「環境HOA係数47」と呼ばれることもあり、ここで、環境HOA係数47の各々は、聴覚心理オーディオコーダユニット40によって符号化されるべき別個の環境HOAチャネルに対応する。
[0059]フォアグラウンド選択ユニット36は、(フォアグラウンドベクトルを特定する1つまたは複数のインデックスを表し得る)nFG45に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]行列33’と並べ替えられたV[k]行列35’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット36は、(並べ替えられたUS[k]1,...,nFG49、FG1,...,nfG[k]49、または
Figure 2017525318
として示され得る)nFG信号49を、聴覚心理オーディオコーダユニット40に出力することができ、ここで、nFG信号49は次元D:M×nFGを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35’(またはv(1..nFG)(k)35’)を空間時間的補間ユニット50に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35’のサブセットは、次元D:(N+1)2×nFGを有するフォアグラウンドV[k]行列51kとして示され得る(これは、
Figure 2017525318
として数学的に示され得る)。
[0060]エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOAチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33’、並べ替えられたV[k]行列35’、nFG信号49、フォアグラウンドV[k]ベクトル51k、および環境HOA係数47のうちの1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境HOA係数47’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47’を無相関化ユニット40’に出力することができる。今度は、無相関化ユニット40’は、1つまたは複数の無相関化されたHOA係数47’’を形成するために、HOA係数47’のバックグラウンド信号間の相関を低減または除去するための本開示の技法を実装し得る。無相関化ユニット40’は、無相関化されたHOA係数47’’を聴覚心理オーディオコーダユニット40に出力することができる。
[0061]空間時間的補間ユニット50は、k番目のフレームのためのフォアグラウンドV[k]ベクトル51kと以前のフレームのための(したがってk−1という表記である)フォアグラウンドV[k−1]ベクトル51k-1とを受信し、補間されたフォアグラウンドV[k]ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット50は、並べ替えられたフォアグラウンドHOA係数を復元するために、nFG信号49をフォアグラウンドV[k]ベクトル51kと再び組み合わせることができる。空間時間的補間ユニット50は次いで、補間されたnFG信号49’を生成するために、補間されたV[k]ベクトルによって、並べ替えられたフォアグラウンドHOA係数を分割することができる。空間時間的補間ユニット50はまた、オーディオ復号デバイス24などのオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成しそれによってフォアグラウンドV[k]ベクトル51kを復元できるように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kを出力することができる。補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k−1]がエンコーダおよびデコーダにおいて(補間されたベクトルV[k]を作成するために)使用されることを保証するために、ベクトルの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット50は、補間されたnFG信号49’を聴覚心理オーディオコーダユニット46に出力し、補間されたフォアグラウンドV[k]ベクトル51kを係数低減ユニット46に出力することができる。
[0062]係数低減ユニット46は、低減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドV[k]ベクトル55は、次元D:[(N+1)2−(NBG+1)2−BGTOT]×nFGを有し得る。係数低減ユニット46は、この点において、残りのフォアグラウンドV[k]ベクトル53における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット46は、指向性情報をほとんどまたはまったく有しない(残りのフォアグラウンドV[k]ベクトル53を形成する)フォアグラウンドV[k]ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、(NBGと示され得る)1次および0次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドV[k]ベクトルの係数は、指向性情報をほとんど提供せず、したがって、(「係数低減」と呼ばれ得るプロセスを通じて)フォアグラウンドVベクトルから除去され得る。この例では、NBGに対応する係数を特定するだけではなく、追加のHOAチャネル(変数TotalOfAddAmbHOAChanによって示され得る)を[(NBG+1)2+1,(N+1)2]のセットから特定するために、より大きいフレキシビリティが与えられ得る。
[0063]量子化ユニット52は、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために低減されたフォアグラウンドV[k]ベクトル55を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されたユニットを表し得る。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット52は、「NbitQ」で表される量子化モードシンタックス要素によって示されるような、以下の12の量子化モードのうちのいずれか1つを実行することができる。
NbitQ値 量子化モードのタイプ
0〜3: 予約済み
4: ベクトル量子化
5: ハフマンコーディングなしのスカラー量子化
6: ハフマンコーディングありの6ビットスカラー量子化
7: ハフマンコーディングありの7ビットスカラー量子化
8: ハフマンコーディングありの8ビットスカラー量子化
… ・・・
16: ハフマンコーディングありの16ビットスカラー量子化
また、量子化ユニット52は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)と、現在のフレームのVベクトルの要素(またはベクトル量子化が実行されるときの重み)との間の差が決定される。量子化ユニット52は、その際、現在のフレーム自体のVベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。
[0064]量子化ユニット52は、低減されたフォアグラウンドV[k]ベクトル55の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドV[k]ベクトル55のそれぞれに対して複数の形の量子化を実行することができる。量子化ユニット52は、符号化されたフォアグラウンドV[k]ベクトル57として、低減されたフォアグラウンドV[k]ベクトル55の符号化されたバージョンのうちの1つまたは複数を選択することができる。量子化ユニット52は、言い換えれば、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたVベクトルとして使用するために、予測されないベクトル量子化されたVベクトル、予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの1つを選択することができる。いくつかの例では、量子化ユニット52は、ベクトル量子化モードと1つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて(または従って)、入力Vベクトルを量子化することができる。量子化ユニット52は次いで、(たとえば、重み値またはそれを示すビットに関して)予測されないベクトル量子化されたVベクトル、(たとえば、誤差値またはそれを示すビットに関して)予測されベクトル量子化されたVベクトル、ハフマンコーディングされないスカラー量子化されたVベクトル、およびハフマンコーディングされスカラー量子化されたVベクトルのうちの選択されたものを、コーディングされたフォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット52に与えることができる。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)と、Vベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。
[0065]オーディオ符号化デバイス20内に含まれる無相関化ユニット40’は、無相関化されたHOA係数47’’を取得するために、1つまたは複数の無相関化変換をHOA係数47’に適用するように構成されたユニットの単一または複数のインスタンスを表し得る。いくつかの例では、無相関化ユニット40’は、UHJ行列をHOA係数47’に適用することができる。本開示の様々な場合において、UHJ行列は「位相ベース変換(phase-based transform)」と呼ばれることもある。位相ベース変換の適用は、本明細書では「位相シフト無相関化(phaseshift decorrelation)」と呼ばれることもある。
[0066]アンビソニックUHJフォーマットは、モノメディアおよびステレオメディアと互換性があるように設計されたアンビソニックサラウンドサウンドシステムの発展形である。UHJフォーマットは、録音された音場が、利用可能なチャネルに従って変化する精度で再生される、システムの階層を含む。様々な場合では、UHJは「Cフォーマット」とも呼ばれる。頭文字は、システムに組み込まれるソースのいくつかを示し、UはUniversal(UD−4)、HはMatrix H、JはSystem 45Jから来ている。
[0067]UHJは、アンビソニックス技術内で指向性サウンド情報を符号化および復号する階層システムである。利用可能なチャネルの数に応じて、システムはより多いまたはより少ない情報を伝えることができる。UHJは、完全にステレオ互換性およびモノ互換性がある。4つまでのチャネル(L、R、T、Q)が使用され得る。
[0068]一形態では、2チャネル(L、R)UHJ水平方向(または「平面」)サラウンド情報は、聴取端(listening end)においてUHJデコーダを使用することによって復元され得るノーマルステレオ信号チャネル−CD、FMまたはデジタル無線など−によって伝えることができる。2つのチャネルを合計することは、従来の「パンポットを用いたモノ(panpotted mono)」ソースを合計するよりも正確な2チャネルバージョンの表現であり得る、互換性のあるモノ信号をもたらし得る。第3のチャネル(T)が利用可能である場合、第3のチャネルは、3チャネルUHJデコーダを介して復号されるときに、改善された定位精度を平面サラウンド効果にもたらすために使用され得る。第3のチャネルは、このためにフルオーディオ帯域幅を有することが必要ではない場合があり、第3のチャネルが帯域幅制限されている場合、いわゆる「2と1/2チャネル」システムの可能性を招く。一例では、制限は5kHzであり得る。第3のチャネルは、たとえば、位相直交変調を用いて、FM無線を介してブロードキャストされ得る。第4のチャネル(Q)をUHJシステムに追加することは、4チャネルBフォーマットと同一の精度のレベルで、Periphonyと呼ばれることがある、高さを用いたフルサラウンドサウンドの符号化を可能にし得る。
[0069]2チャネルUHJは、アンビソニック録音の配信に一般に使用されるフォーマットである。2チャネルUHJ録音は、すべてのノーマルステレオチャネルを介して送信され得、ノーマル2チャネルメディアのいずれかは、変更なしで使用され得る。UHJは、復号することなしに、リスナーがステレオイメージ、ただし従来のステレオよりもかなり広いステレオイメージ(たとえば、いわゆる「スーパーステレオ」)を知覚することができるという点で、ステレオ互換性がある。左チャネルおよび右チャネルはまた、非常に高度なモノ互換性のために合計され得る。UHJデコーダを介してリプレイされると、サラウンド能力が明らかになる場合がある。
[0070]UHJ行列(または位相ベース変換)を適用する無相関化ユニット40’の例示的な数学的表現は、次のとおりである。
UHJ符号化:
Figure 2017525318
[0071]上記の計算のいくつかの実装形態によれば、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、1次アンビソニックスFuMa正規化される。
[0072]上記に記載した計算では、無相関化ユニット40’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、S信号を取得するために、無相関化ユニット40’は、0.9397の定数値による(たとえば、スカラー乗算による)W行列のスカラー乗算と、0.1856の定数値によるX行列のスカラー乗算とを実行することができる。やはり上記に記載した計算に示されるように、無相関化ユニット40’は、D信号およびT信号の各々を取得する際に(上記のUHJ符号化における「Hilbert( )」関数によって示される)ヒルベルト変換を適用することができる。上記のUHJ符号化における「imag( )」関数は、ヒルベルト変換の結果の(数学的な意味での)虚数が取得されることを示す。
[0073]UHJ行列(または位相ベース変換)を適用する無相関化ユニット40’の別の例示的な数学的表現は、次のとおりである。
UHJ符号化:
Figure 2017525318
[0074]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、1次アンビソニックスN3D(すなわち「フル3D」)正規化される。N3D正規化に関して本明細書で説明されるが、例示的な計算は、SN3D正規化された(すなわち「シュミット半正規化された)HOAバックグラウンドチャネルにも適用され得ることを諒解されよう。N3D正規化およびSN3D正規化は、使用されるスケーリングファクタの点で異なり得る。SN3D正規化に対して、N3D正規化の例示的な表現が以下に表される。
Figure 2017525318
[0075]SN3D正規化において使用される重み付け係数の一例が以下に表される。
Figure 2017525318
[0076]上記に記載した計算では、無相関化ユニット40’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、S信号を取得するために、無相関化ユニット40’は、0.9396926の定数値による(たとえば、スカラー乗算による)W行列のスカラー乗算と、0.151520536509082の定数値によるX行列のスカラー乗算とを実行することができる。やはり上記に記載した計算に示されるように、無相関化ユニット40’は、D信号およびT信号の各々を取得する際に(上記のUHJ符号化または位相シフト無相関化における「Hilbert( )」関数によって示される)ヒルベルト変換を適用することができる。上記のUHJ符号化における「imag( )」関数は、ヒルベルト変換の結果の(数学的な意味での)虚数が取得されることを示す。
[0077]無相関化ユニット40’は、得られたS信号およびD信号が左オーディオ信号と右オーディオ信号と(または言い換えれば、ステレオオーディオ信号)を表すように、上記に記載した計算を実行することができる。いくつかのそのようなシナリオでは、無相関化ユニット40’は、無相関化されたHOA係数47’’の一部としてT信号とQ信号とを出力することができるが、ビットストリーム21を受信する復号デバイスは、ステレオスピーカージオメトリ(または言い換えれば、ステレオスピーカー構成)にレンダリングするとき、T信号とQ信号とを処理しない場合がある。例では、HOA係数47’は、モノオーディオ再生システム上でレンダリングされるべき音場を表し得る。無相関化ユニット40’は、無相関化されたHOA係数47’’の一部としてS信号とD信号とを出力することができ、ビットストリーム21を受信する復号デバイスは、モノオーディオフォーマットでレンダリングおよび/または出力されるべきオーディオ信号を形成するために、S信号とD信号とを組み合わせる(または「混合」する)ことができる。これらの例では、復号デバイスおよび/または再生デバイスは、様々な方法でモノオーディオ信号を復元することができる。一例は、(S信号とD信号とによって表される)左信号と右信号とを混合することによるものである。別の例は、(図5に関して以下でより詳細に説明される)W信号を復号するためにUHJ行列(または位相ベース変換)を適用することによるものである。UHJ行列(または位相ベース変換)を適用することでS信号およびD信号の形態で自然左信号と自然右信号とを生成することによって、無相関化ユニット40’は、(MPEG−H規格に記載されたモード行列などの)他の無相関化変換を適用する技法に対して潜在的な利点および/または潜在的な改善を実現するための本開示の技法を実装し得る。
[0078]様々な例では、無相関化ユニット40’は、受信されたHOA係数47’のビットレートに基づいて、異なる無相関化変換を適用することができる。たとえば、無相関化ユニット40’は、HOA係数47’が4チャネル入力を表すシナリオにおいて、上記で説明されたUHJ行列(または位相ベース変換)を適用することができる。より具体的には、4チャネル入力を表すHOA係数47’に基づいて、無相関化ユニット40’は、4×4UHJ行列(または位相ベース変換)を適用することができる。たとえば、4×4行列は、HOA係数47’の4チャネル入力に直交し得る。言い換えれば、HOA係数47’がより少ない数のチャネル(たとえば、4)を表す事例では、無相関化ユニット40’は、HOA信号47’のバックグラウンド信号を無相関化して、無相関化されたHOA係数47’’を取得するために、選択された無相関化変換としてUHJ行列を適用することができる。
[0079]この例によれば、HOA係数47’がより多い数のチャネル(たとえば、9)を表す場合、無相関化ユニット40’は、UHJ行列(または位相ベース変換)とは異なる無相関化変換を適用することができる。たとえば、HOA係数47’が9チャネル入力を表すシナリオでは、無相関化ユニット40’は、HOA係数47’を無相関化するために、(たとえば、MPEG−H規格に記載された)モード行列を適用することができる。HOA係数47’が9チャネル入力を表す例では、無相関化ユニット40’は、無相関化されたHOA係数47’’を取得するために、9×9モード行列を適用することができる。
[0080]今度は、(聴覚心理オーディオコーダ40などの)オーディオ符号化デバイス20の様々な構成要素は、AACまたはUSACに従って、無相関化されたHOA係数47’’を知覚的にコーディングすることができる。無相関化ユニット40’は、HOAのAAC/USACコーディングを最適化するために、位相シフト無相関化変換(たとえば、4チャネル入力の場合はUHJ行列または位相ベース変換)を適用することができる。HOA係数47’(およびそれによって、無相関化されたHOA係数47’’)がステレオ再生システム上でレンダリングされるべきオーディオデータを表す例では、無相関化ユニット40’は、AACおよびUSACが相対的にステレオオーディオデータ指向である(またはステレオオーディオデータ用に最適化されている)ことに基づいて、圧縮を改善または最適化するための本開示の技法を適用することができる。
[0081]無相関化ユニット40’は、エネルギー補償されたHOA係数47’がフォアグラウンドチャネルを含む状況において、同様に、エネルギー補償されたHOA係数47’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、無相関化ユニット40’は、エネルギー補償されたHOA係数47’が0個(0)のフォアグラウンドチャネルと4個(4)のバックグラウンドチャネルとを含むシナリオ(たとえば、より低い/より少ないビットレートのシナリオ)において、上記で説明された技法および/または計算を適用することができる。
[0082]いくつかの例では、無相関化ユニット40’は、ビットストリーム生成ユニット42に、ベクトルベースビットストリーム21の一部として、無相関化ユニット40’が無相関化変換をHOA係数47’に適用したことを示す1つまたは複数のシンタックス要素をシグナリングさせ得る。そのような指示を復号デバイスに与えることによって、無相関化ユニット40’は、復号デバイスがHOA領域におけるオーディオデータに対して相互無相関化変換(reciprocal decorrelation transforms)を実行するのを可能にし得る。いくつかの例では、無相関化ユニット40’は、ビットストリーム生成ユニット42に、UHJ行列(もしくは他の位相ベース変換)またはモード行列など、どの無相関化変換が適用されたかを示すシンタックス要素をシグナリングさせ得る。
[0083]無相関化ユニット40’は、位相ベース変換をエネルギー補償された環境HOA係数47’に適用することができる。CAMB(k−1)の第1のOMIN HOA係数シーケンスのための位相ベース変換は、
Figure 2017525318
によって定義され、係数dは、表1に定義されるとおりであり、信号フレームS(k−2)およびM(k−2)は、
Figure 2017525318
によって定義され、A+90(k−2)およびB+90(k−2)は、
Figure 2017525318
によって定義される、+90度位相シフトされた信号AおよびBのフレームである。
P,AMB(k−1)の第1のOMIN HOA係数シーケンスのための位相ベース変換は、それに応じて定義される。説明される変換は、1フレームの遅延を導入する場合がある。
[0084]上記では、xAMB,LOW,1(k−2)〜xAMB,LOW,4(k−2)は、無相関化された環境HOA係数47’’に対応し得る。上記の式では、変数CAMB,1(k)変数は、「W」チャネルまたは成分と呼ばれることもある、(0:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,2(k)変数は、「Y」チャネルまたは成分と呼ばれることもある、(1:−1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,3(k)変数は、「Z」チャネルまたは成分と呼ばれることもある、(1:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,4(k)変数は、「X」チャネルまたは成分と呼ばれることもある、(1:1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。CAMB,1(k)〜CAMB,3(k)は、環境HOA係数47’に対応し得る。
[0085]以下の表1は、無相関化ユニット40が位相ベース変換を実行するために使用することができる係数の一例を示す。
Figure 2017525318
[0086]いくつかの例では、(ビットストリーム生成ユニット42などの)オーディオ符号化デバイス20の様々な構成要素は、より低いターゲットビットレート(たとえば、128Kまたは256Kのターゲットビットレート)用の1次HOA表現のみを送信するように構成され得る。いくつかのそのような例によれば、オーディオ符号化デバイス20(または、ビットストリーム生成ユニット42などの、その構成要素)は、高次HOA係数(たとえば、1次よりも大きい次数を有する、または言い換えれば、N>1である係数)を破棄するように構成され得る。ただし、ターゲットビットレートが比較的高いとオーディオ符号化デバイス20が決定する例では、オーディオ符号化デバイス20(たとえば、ビットストリーム生成ユニット42)はフォアグラウンドチャネルとバックグラウンドチャネルとを分離することができ、(たとえば、より多くの量の)ビットをフォアグラウンドチャネルに割り当てることができる。
[0087]オーディオ符号化デバイス20内に含まれる聴覚心理オーディオコーダユニット40は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために、無相関化されたHOA係数47’’および補間されたnFG信号49‘の各々の異なるオーディオオブジェクトまたはHOAチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット40は、符号化された環境HOA係数59と符号化されたnFG信号61とをビットストリーム生成ユニット42に出力することができる。
[0088]オーディオ符号化デバイス20内に含まれるビットストリーム生成ユニット42は、既知のフォーマット(復号デバイスによって知られているフォーマットを指し得る)に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とを受信することができる。ビットストリーム生成ユニット42は次いで、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャネル情報43とに基づいて、ビットストリーム21を生成することができる。このようにして、ビットストリーム生成ユニット42は、それにより、ビットストリーム21を取得するために、ビットストリーム21内のベクトル57を指定することができる。ビットストリーム21は、主要またはメインビットストリームと、1つまたは複数のサイドチャネルビットストリームとを含み得る。
[0089]図3の例には示されないが、オーディオ符号化デバイス20はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス20から出力されるビットストリームを(たとえば、指向性ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)指向性ベース合成が実行されたか、または(HOA係数が録音されたことを検出した結果として)ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム21の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。
[0090]その上、上述されたように、音場分析ユニット44は、フレームごとに変化し得る、BGTOT環境HOA係数47を特定することができる(が、時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。BGTOTにおける変化は、低減されたフォアグラウンドV[k]ベクトル55において表された係数への変化を生じ得る。BGTOTにおける変化は、フレームごとに変化する(「環境HOA係数」と呼ばれることもある)バックグラウンドHOA係数を生じ得る(が、この場合も時々、BGTOTは、2つ以上の(時間的に)隣接するフレームにわたって一定または同じままであり得る)。この変化は、追加の環境HOA係数の追加または除去と、対応する、低減されたフォアグラウンドV[k]ベクトル55からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。
[0091]結果として、音場分析ユニット44は、いつ環境HOA係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境HOA係数への変化を示すフラグまたは他のシンタックス要素を生成することができる(ここで、この変化はまた、環境HOA係数の「遷移」または環境HOA係数の「遷移」と呼ばれることもある)。具体的には、係数低減ユニット46は、(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示され得る)フラグを生成し、そのフラグが(場合によってはサイドチャネル情報の一部として)ビットストリーム21中に含まれ得るように、そのフラグをビットストリーム生成ユニット42に与えることができる。
[0092]係数低減ユニット46は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドV[k]ベクトル55が生成される方法を修正することもできる。一例では、環境HOA環境係数のうちの1つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット46は、遷移中の環境HOA係数に対応する低減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々について、(「ベクトル要素」または「要素」とも呼ばれ得る)ベクトル係数を指定することができる。この場合も、遷移中の環境HOA係数は、BGTOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境HOA係数がビットストリーム中に含まれるか含まれないか、および、Vベクトルの対応する要素が、上記で説明された第2の構成モードおよび第3の構成モードにおいてビットストリーム中で指定されたVベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット46が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドV[k]ベクトル55を指定することができる方法に関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」という名称の米国特許出願第14/594,533号において提供されている。
[0093]したがって、オーディオ符号化デバイス20は、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用することを行うように構成された、オーディオを圧縮するためのデバイスの一例を表し、ここで、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる。いくつかの例では、無相関化変換を適用するために、デバイスは、UHJ行列を環境アンビソニック係数に適用するように構成される。
[0094]いくつかの例では、デバイスは、N3D(フル3D)正規化に従ってUHJ行列を正規化するようにさらに構成される。いくつかの例では、デバイスは、SN3D正規化(シュミット半正規化)に従ってに従ってUHJ行列を正規化するようにさらに構成される。いくつかの例では、環境アンビソニック係数は、0の次数または1の次数を有する球面基底関数に関連付けられ、UHJ行列を環境アンビソニック係数に適用するために、デバイスは、環境アンビソニック係数の少なくともサブセットに対してUHJ行列のスカラー乗算を実行するように構成される。いくつかの例では、無相関化変換を適用するために、デバイスは、モード行列を環境アンビソニック係数に適用するように構成される。
[0095]いくつかの例によれば、無相関化変換を適用するために、デバイスは、無相関化された環境アンビソニック係数から左信号と右信号とを取得するように構成される。いくつかの例によれば、デバイスは、1つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される。いくつかの例によれば、1つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするために、デバイスは、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、1つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするように構成される。
[0096]いくつかの例では、デバイスは、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される。いくつかの例では、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするために、デバイスは、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするように構成される。いくつかの例では、デバイスは、無相関化変換が環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される。いくつかの例では、デバイスは、圧縮されるべきオーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに含む。
[0097]図4は、図2のオーディオ復号デバイス24をより詳細に示すブロック図である。図4の例に示されているように、オーディオ復号デバイス24は、抽出ユニット72と、指向性ベース再構成ユニット90と、ベクトルベース再構成ユニット92と、再相関化ユニット81とを含み得る。
[0098]以下で説明されるが、オーディオ復号デバイス24に関するより多くの情報、およびHOA係数を解凍またはさもなければ復号する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第WO2014/194099号において入手可能である。
[0099]抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されたユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット72は、HOA係数11の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素(図4の例では指向性ベース情報91として示される)とを抽出し、指向性ベース情報91を指向性ベース再構成ユニット90に渡すことができる。指向性ベース再構成ユニット90は、指向性ベース情報91に基づいてHOA係数11’の形態でHOA係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で説明される。
[0100]HOA係数11がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57(コーディングされた重み57および/もしくはインデックス63またはスカラー量子化されたVベクトルを含み得る)と、符号化された環境HOA係数59と、対応するオーディオオブジェクト61(符号化されたnFG信号61と呼ばれる場合もある)とを抽出することができる。オーディオオブジェクト61はそれぞれベクトル57のうちの1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構成ユニット74に渡し、符号化された環境HOA係数59を符号化されたnFG信号61とともに聴覚心理復号ユニット80に渡すことができる。
[0101]Vベクトル再構成ユニット74は、符号化されたフォアグラウンドV[k]ベクトル57から、Vベクトルを再構成するように構成されるユニットを表し得る。Vベクトル再構成ユニット74は、量子化ユニット52の動作と逆の方法で動作することができる。
[0102]聴覚心理復号ユニット80は、符号化された環境HOA係数59と符号化されたnFG信号61とを復号し、それによってエネルギー補償された環境HOA係数47’と補間されたnFG信号49’(補間されたnFGオーディオオブジェクト49’とも呼ばれ得る)とを生成するために、図3の例に示される聴覚心理オーディオコーダユニット40とは逆の方法で動作することができる。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’を再相関化ユニット81に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡すことができる。今度は、再相関化ユニット81は、1つまたは複数の再相関化されたHOA係数47’’(または相関化されたHOA係数47’’)を取得するために、1つまたは複数の再相関化変換をエネルギー補償された環境HOA係数47’に適用することができ、相関化されたHOA係数47’’を(場合によっては、フェードユニット770を通じて)HOA係数編成ユニット82に渡すことができる。
[0103]オーディオ符号化デバイス20の無相関化ユニット40’に関する上記の説明と同様に、再相関化ユニット81は、ノイズマスキング解除を低減または緩和するためにエネルギー補償された環境HOA係数47’のバックグラウンドチャネル間の相関を低減するための本開示の技法を実装し得る。再相関化ユニット81が選択された再相関化変換としてUHJ行列(たとえば、逆UHJ行列)を適用する例では、再相関化ユニット81は、データ処理動作を低減することによって、圧縮レートを改善し、コンピューティングリソースを節約することができる。いくつかの例では、ベクトルベースのビットストリーム21は、符号化中に無相関化変換が適用されたことを示す1つまたは複数のシンタックス要素を含み得る。そのようなシンタックス要素をベクトルベースのビットストリーム21に含めることは、再相関化ユニット81がエネルギー補償されたHOA係数47’に対して相互無相関化(reciprocal decorrelation)(たとえば、相関化(correlation)または再相関化(recorrelation))変換を実行するのを可能にし得る。いくつかの例では、信号シンタックス要素は、UHJ行列またはモード行列など、どの無相関化変換が適用されたかを示し、それによって、再相関化ユニット81がエネルギー補償されたHOA係数47’に適用すべき適切な再相関化変換を選択するのを可能にすることができる。
[0104]ベクトルベース再構成ユニット92がHOA係数11’をステレオシステムを備える再生システムに出力する例では、再相関化ユニット81は、再相関化されたHOA係数47’’を生成するために、S信号とD信号と(たとえば、自然左信号と自然右信号と)を処理することができる。たとえば、S信号とD信号とは、自然左信号と自然右信号とを表すので、再生システムは、2つのステレオ出力ストリームとしてS信号とD信号とを使用することができる。再構成ユニット92がHOA係数11’をモノオーディオシステムを備える再生システムに出力する例では、再生システムは、再生用のモノオーディオ出力を取得するために、(HOA係数11’において表される)S信号とD信号とを組み合わせるかまたは混合することができる。モノオーディオシステムの例では、再生システムは、オーディオ出力を生成するために、混合されたモノオーディオ出力を(任意のフォアグラウンドチャネルがある場合)1つまたは複数のフォアグラウンドチャネルに加えることができる。
[0105]いくつかの既存のUHJ対応エンコーダに関して、信号は、Bフォーマットに似ている信号のセットを復元するために、位相振幅行列において処理される。たいていの場合、信号は実際にBフォーマットであるが、2チャネルUHJの場合、真のBフォーマット信号ではなく、むしろBフォーマット信号と同様の特性を示す信号を再構成することができるように利用可能な十分な情報がない。情報は次いで、シェルフフィルタのセットを介して、スピーカーフィードを作る振幅行列に渡され、シェルフフィルタは、より小さいリスニング環境におけるデコーダの精度と性能とを改善する(これらは、より大規模の適用例では省略される場合がある)。アンビソニックスは、実際の部屋(たとえば、リビングルーム)と実際的なスピーカー位置とに適合するように設計された。すなわち、多くのそのような部屋は長方形であり、結果として、基本システムは、長さが1:2(幅が長さの2倍)から2:1(長さが幅の2倍)の辺を有する長方形内の4つのラウドスピーカーに対して復号するように設計されたので、そのような部屋の大半に適合する。レイアウト制御は概して、デコーダがラウドスピーカー位置用に構成されるのを可能にするために行われる。レイアウト制御は、他のサラウンドサウンドシステムとは異なるアンビソニックリプレイの一態様であり、デコーダは、スピーカーアレイのサイズおよびレイアウト用に特に構成され得る。レイアウト制御は、回転ノブ、2ウェイ(1:2,2:1)スイッチまたは3ウェイ(1:2,1:1,2:1)スイッチの形態をとることができる。4つのスピーカーは、水平方向サラウンド復号に必要とされる最小値であり、4スピーカーレイアウトは、いくつかのリスニング環境に適切であり得るが、より大きい空間は、フルサラウンド定位を与えるために、より多くのスピーカーを必要とし得る。
[0106]再相関化変換としてUHJ行列(たとえば、逆UHJ行列または逆位相ベース変換)を適用することに関して再相関化ユニット81が実行することができる計算の一例が以下に記載される。
[0107]UHJ復号:
Figure 2017525318
[0108]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、1次アンビソニックスFuMa正規化される。
[0109]再相関化変換としてUHJ行列(または逆位相ベース変換)を適用することに関して再相関化ユニット81が実行することができる計算の一例が以下に記載される。
[0110]UHJ復号:
Figure 2017525318
[0111]上記の計算のいくつかの実装形態では、上記の計算に関する仮定は以下を含み得る。HOAバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序W(a00)、X(a11)、Y(a11−)、Z(a10)で、1次アンビソニックスN3D(すなわち「フル3D」)正規化される。N3D正規化に関して本明細書で説明されるが、例示的な計算は、SN3D正規化された(すなわち「シュミット半正規化された)HOAバックグラウンドチャネルにも適用され得ることを諒解されよう。図4に関して上記で説明されたように、N3D正規化およびSN3D正規化は、使用されるスケーリングファクタの点で異なり得る。N3D正規化において使用されるスケーリングファクタの例示的な表現は、図4に関して上記で説明された。SN3D正規化において使用される重み付け係数の例示的な表現は、図4に関して上記で説明された。
[0112]いくつかの例では、エネルギー補償されたHOA係数47’は、いかなる垂直方向チャネルも含まないオーディオデータなど、水平方向のみのレイアウトを表し得る。これらの例では、Z信号は垂直方向の指向性オーディオデータを表すので、再相関化ユニット81は、上記のZ信号に対して計算を実行しない場合がある。代わりに、これらの例では、W信号、X信号、およびY信号は、水平方向の指向性データを表すので、再相関化ユニット81は、W信号、X信号、およびY信号のみに対して上記の計算を実行することができる。エネルギー補償されたHOA係数47’がモノオーディオ再生システム上でレンダリングされるべきオーディオデータを表すいくつかの例では、再相関化ユニット81は、上記の計算からW信号のみを導出することができる。より具体的には、得られたW信号はモノオーディオデータを表すので、W信号は、エネルギー補償されたHOA係数47’がモノオーディオフォーマットでレンダリングされるべきデータを表す場合、または再生システムがモノオーディオシステムを備える場合に、必要なすべてのデータを提供することができる。
[0113]オーディオ符号化デバイス20の無相関化ユニット40’に関して上記で説明されたのと同様に、再相関化ユニット81は、例では、エネルギー補償されたHOA係数47’がより少ない数のバックグラウンドチャネルを含むシナリオにおいては、UHJ行列(または逆UHJ行列もしくは逆位相ベース変換)を適用することができるが、エネルギー補償されたHOA係数47がより多くの数のバックグラウンドチャネルを含むシナリオにおいては、(たとえば、MPEG−H規格に記載された)モード行列または逆モード行列を適用することができる。
[0114]再相関化ユニット81は、エネルギー補償されたHOA係数47’がフォアグラウンドチャネルを含む状況において、同様に、エネルギー補償されたHOA係数47’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、再相関化ユニット81は、エネルギー補償されたHOA係数47’が0個(0)のフォアグラウンドチャネルと8個(8)のバックグラウンドチャネルとを含むシナリオ(たとえば、より低い/より少ないビットレートのシナリオ)において、上記で説明された技法および/または計算を適用することができる。
[0115]再相関化ユニット81などのオーディオ復号デバイス24の様々な構成要素は、フラグUsePhaseShiftDecorrなど、無相関化のために2つの処理方法のうちのどちらが適用されたかを決定するためのシンタックス要素であり得る。無相関化ユニット40’が無相関化のために空間変換を使用した事例では、再相関化ユニット81は、UsePhaseShiftDecorrフラグが0の値に設定されると決定することができる。
[0116]UsePhaseShiftDecorrフラグが1の値に設定されると再相関化ユニット81が決定する場合、再相関化ユニット81は、位相ベース変換を使用して再相関化が実行されるべきであると決定することができる。フラグUsePhaseShiftDecorrが値1である場合、
Figure 2017525318
によって環境HOA成分の第1の4つの係数シーケンスを再構成するために以下の処理が適用され、係数cは、以下の表1に定義されるとおりであり、A+90(k)およびB+90(k)は、
Figure 2017525318
によって定義される、+90度位相シフトされた信号AおよびBのフレームである。
[0117]以下の表2は、無相関化ユニット40’が位相ベース変換を実装するために使用することができる例示的な係数を示す。
Figure 2017525318
[0118]上記の式では、変数CAMB,1(k)変数は、「W」チャネルまたは成分と呼ばれることもある、(0:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,2(k)変数は、「Y」チャネルまたは成分と呼ばれることもある、(1:−1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,3(k)変数は、「Z」チャネルまたは成分と呼ばれることもある、(1:0)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。変数CAMB,4(k)変数は、「X」チャネルまたは成分と呼ばれることもある、(1:1)の(次数:副次数)を有する球面基底関数に対応するk番目のフレームのためのHOA係数を示す。CAMB,1(k)〜CAMB,3(k)は、環境HOA係数47’に対応し得る。
[0119]上記の[CI,AMB,1(k)+CI,AMB,2(k)]表記は、右チャネルを加えた左チャネルと等価である、代替的に「S」と呼ばれるものを示す。CI,AMB,1(k)変数は、UHJ符号化の結果として生成された左チャネルを示すが、CI,AMB,2(k)変数は、UHJ符号化の結果として生成された右チャネルを示す。下付き文字の「I」表記は、対応するチャネルが(たとえば、UHJ行列または位相ベース変換の適用によって)他の環境チャネルから無相関化されていることを示す。[CI,AMB,1(k)−CI,AMB,2(k)]表記は、右チャネルを引いた左チャネルを表す、本開示全体にわたって「D」と呼ばれるものを示す。CI,AMB,3(k)変数は、本開示全体にわたって変数「T」と呼ばれるものを示す。CI,AMB,4(k)変数は、本開示全体にわたって変数「Q」と呼ばれるものを示す。
[0120]A+90表記は、(本開示全体にわたって変数「h1」によっても示される)Sを乗じたc(0)の正の90度位相シフトを示す。B+90(k)表記は、(本開示全体にわたって変数「h2」によっても示される)Dを乗じたc(1)の負の90度位相シフトを示す。
[0121]空間時間的補間ユニット76は、空間時間的補間ユニット50に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット76は、低減されたフォアグラウンドV[k]ベクトル55kを受信し、また、補間されたフォアグラウンドV[k]ベクトル55k’’を生成するために、フォアグラウンドV[k]ベクトル55kおよび低減されたフォアグラウンドV[k−1]ベクトル55k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送することができる。
[0122]抽出ユニット72はまた、いつ環境HOA係数のうちの1つが遷移中であるかを示す信号757を、フェードユニット770に出力することもでき、フェードユニット770は次いで、SCHBG47’(ここで、SCHBG47’は、「環境HOAチャネル47’」または「環境HOA係数47’」とも呼ばれ得る)および補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット770は、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット770は、環境HOA係数47’のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドV[k]ベクトル55k’’の要素のうちの対応する1つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット770は、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55k’’’をフォアグラウンド編成ユニット78に出力することができる。この点において、フェードユニット770は、HOA係数またはその派生物の様々な態様に関して、たとえば、環境HOA係数47’および補間されたフォアグラウンドV[k]ベクトル55k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。
[0123]フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を生成するために、調整されたフォアグラウンドV[k]ベクトル55k’’’および補間されたnFG信号49’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、フォアグラウンド、または言い換えると、HOA係数11’の支配的態様を再構成するために、オーディオオブジェクト49’(それは、補間されたnFG49’を表す別の方法である)をベクトル55k’’’と組み合わせることができる。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55k’’’による補間されたnFG信号49’の行列乗算を実行することができる。
[0124]HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、HOA係数11’がHOA係数11と同様であるが同じではないことがあることを反映している。HOA係数11とHOA係数11’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。
[0125]UHJは、1次アンビソニックス定数から2チャネルステレオストリームを作成するために使用されている行列変換方法である。UHJは、これまで、FM送信機を介してステレオまたは水平方向のみのサラウンドコンテンツを送信するために使用されてきた。しかしながら、UHJはFM送信機において使用することに限定されないことが諒解されよう。MPEG−H HOA符号化方式では、HOAバックグラウンドチャネルは、HOAバックグラウンドチャネルを空間領域における直交点に変換するために、モード行列を用いて前処理され得る。変換されたチャネルは次いで、USACまたはAACを介して知覚的にコーディングされる。
[0126]本開示の技法は、概して、このモード行列を使用する代わりに、HOAバックグラウンドチャネルをコーディングする適用例において、UHJ変換(または位相ベース変換)を使用することを対象とする。両方の方法((1)モード行列を介して空間領域に変換すること(2)UHJ変換)は、概して、復号された音場内のノイズマスキング解除の(潜在的に望ましくない)効果をもたらす場合があるHOAバックグラウンドチャネル間の相関を低減することを対象とする。
[0127]したがって、オーディオ復号デバイス24は、例では、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行うように構成されたデバイスを表し得る。いくつかの例では、デバイスは、複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を環境アンビソニック係数の無相関化された表現に適用するようにさらに構成される。
[0128]いくつかの例では、再相関化変換を適用するために、デバイスは、逆UHJ行列(または位相ベース変換)を環境アンビソニック係数に適用するように構成される。いくつかの例によれば、逆UHJ行列(または逆位相ベース変換)は、N3D(フル3D)正規化に従って正規化されている。いくつかの例によれば、逆UHJ行列(または逆位相ベース変換)は、SN3D正規化(シュミット半正規化)に従って正規化されている。
[0129]いくつかの例によれば、環境アンビソニック係数は、0の次数または1の次数を有する球面基底関数に関連付けられ、逆UHJ行列(または逆位相ベース変換)を適用するために、デバイスは、環境アンビソニック係数の無相関化された表現に対してUHJ行列のスカラー乗算を実行するように構成される。いくつかの例では、再相関化変換を適用するために、デバイスは、逆モード行列を環境アンビソニック係数の無相関化された表現に適用するように構成される。いくつかの例では、スピーカーフィードを生成するために、デバイスは、ステレオ再生システムによる出力のために、左信号に基づいて左スピーカーフィードを生成し、右信号に基づいて右スピーカーフィードを生成するように構成される。
[0130]いくつかの例では、スピーカーフィードを生成するために、デバイスは、再相関化変換を右信号と左信号とに適用することなしに、左スピーカーフィードとして左信号を使用し、右スピーカーフィードとして右信号を使用するように構成される。いくつかの例によれば、スピーカーフィードを生成するために、デバイスは、モノオーディオシステムによる出力のために、左信号と右信号とを混合するように構成される。いくつかの例によれば、スピーカーフィードを生成するために、デバイスは、相関化された環境アンビソニック係数を1つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される。
[0131]いくつかの例によれば、デバイスは、相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される。いくつかの例では、デバイスは、音場がモノオーディオ再生システムを介して出力されるべきであると決定し、モノオーディオ再生システムによる出力のためのデータを含む無相関化された高次アンビソニック係数の少なくともサブセットを復号するようにさらに構成される。いくつかの例では、デバイスは、環境アンビソニック係数の無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される。いくつかの例によれば、デバイスは、環境アンビソニック係数の無相関化された表現に基づいて生成されたスピーカーフィードを出力するように構成されたラウドスピーカーアレイをさらに含む。
[0132]図5は、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図3の例に示されるオーディオ符号化デバイス20などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス20は、HOA係数11を受信する(106)。オーディオ符号化デバイス20はLITユニット30を呼び出すことができ、LITユニット30は、変換されたHOA係数(たとえば、SVDの場合、変換されたHOA係数はUS[k]ベクトル33とV[k]ベクトル35とを備え得る)を出力するためにHOA係数に関してLITを適用することができる(107)。
[0133]オーディオ符号化デバイス20は次に、上記で説明された方法で様々なパラメータを特定するために、US[k]ベクトル33、US[k−1]ベクトル33、V[k]ベクトルおよび/またはV[k−1]ベクトル35の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット32を呼び出すことができる。すなわち、パラメータ計算ユニット32は、変換されたHOA係数33/35の分析に基づいて少なくとも1つのパラメータを決定することができる(108)。
[0134]オーディオ符号化デバイス20は次いで、並べ替えユニット34を呼び出すことができ、並べ替えユニット34は、上記で説明されたように、並べ替えられた変換されたHOA係数33’/35’(または言い換えれば、US[k]ベクトル33’およびV[k]ベクトル35’)を生成するために、パラメータに基づいて、変換されたHOA係数(この場合も、SVDの文脈では、US[k]ベクトル33とV[k]ベクトル35とを指し得る)を並べ替えることができる(109)。オーディオ符号化デバイス20は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット44を呼び出すこともできる。音場分析ユニット44は、上記で説明されたように、フォアグラウンドチャネルの総数(nFG)45と、バックグラウンド音場の次数(NBG)と、送るべき追加のBG HOAチャネルの数(nBGa)およびインデックス(i)(図3の例ではバックグラウンドチャネル情報43としてまとめて示され得る)とを決定するために、HOA係数11および/または変換されたHOA係数33/35に関して音場分析を実行することができる(109)。
[0135]オーディオ符号化デバイス20はまた、バックグラウンド選択ユニット48を呼び出すことができる。バックグラウンド選択ユニット48は、バックグラウンドチャネル情報43に基づいて、バックグラウンドまたは環境HOA係数47を決定することができる(110)。オーディオ符号化デバイス20はさらに、フォアグラウンド選択ユニット36を呼び出すことができ、フォアグラウンド選択ユニット36は、nFG45(フォアグラウンドベクトルを特定する1つまたは複数のインデックスを表し得る)に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]ベクトル33’と並べ替えられたV[k]ベクトル35’とを選択することができる(112)。
[0136]オーディオ符号化デバイス20は、エネルギー補償ユニット38を呼び出すことができる。エネルギー補償ユニット38は、バックグラウンド選択ユニット48によるHOA係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境HOA係数47に関してエネルギー補償を実行し(114)、それによって、エネルギー補償された環境HOA係数47’を生成することができる。
[0137]オーディオ符号化デバイス20はまた、空間時間的補間ユニット50を呼び出すことができる。空間時間的補間ユニット50は、補間されたフォアグラウンド信号49’(「補間されたnFG信号49’」とも呼ばれ得る)と残りのフォアグラウンド指向性情報53(「V[k]ベクトル53」とも呼ばれ得る)とを取得するために、並べ替えられた変換されたHOA係数33’/35’に関して空間時間的補間を実行することができる(116)。オーディオ符号化デバイス20は次いで、係数低減ユニット46を呼び出すことができる。係数低減ユニット46は、低減されたフォアグラウンド指向性情報55(低減されたフォアグラウンドV[k]ベクトル55とも呼ばれ得る)を取得するために、バックグラウンドチャネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関して係数低減を実行することができる(118)。
[0138]オーディオ符号化デバイス20は次いで、上記で説明された方法で、低減されたフォアグラウンドV[k]ベクトル55を圧縮し、コーディングされたフォアグラウンドV[k]ベクトル57を生成するために、量子化ユニット52を呼び出すことができる(120)。オーディオ符号化デバイス20はまた、HOA係数47’のバックグラウンド信号間の相関を低減または除去するための位相シフト無相関化を適用して、1つまたは複数の無相関化されたHOA係数47’’を形成するために、無相関化ユニット40’を呼び出すことができる(121)。
[0139]オーディオ符号化デバイス20はまた、聴覚心理オーディオコーダユニット40を呼び出すことができる。聴覚心理オーディオコーダユニット40は、符号化された環境HOA係数59と符号化されたnFG信号61とを生成するために、エネルギー補償された環境HOA係数47’および補間されたnFG信号49’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット42を呼び出すことができる。ビットストリーム生成ユニット42は、コーディングされたフォアグラウンド指向性情報57と、コーディングされた環境HOA係数59と、コーディングされたnFG信号61と、バックグラウンドチャネル情報43とに基づいて、ビットストリーム21を生成することができる。
[0140]図6Aは、本開示で説明される技法の様々な態様を実行する際の、図4に示されるオーディオ復号デバイス24などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス24は、ビットストリーム21を受信することができる(130)。ビットストリームを受信すると、オーディオ復号デバイス24は抽出ユニット72を呼び出すことができる。説明の目的で、ベクトルベース再構成が実行されるべきであることをビットストリーム21が示すと仮定すると、抽出デバイス72は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット92に渡すことができる。
[0141]言い換えれば、抽出ユニット72は、コーディングされたフォアグラウンド指向性情報57(この場合も、コーディングされたフォアグラウンドV[k]ベクトル57とも呼ばれ得る)と、コーディングされた環境HOA係数59と、コーディングされたフォアグラウンド信号(コーディングされたフォアグラウンドnFG信号59またはコーディングされたフォアグラウンドオーディオオブジェクト59とも呼ばれ得る)とを、上記で説明された方法でビットストリーム21から抽出することができる(132)。
[0142]オーディオ復号デバイス24はさらに、逆量子化ユニット74を呼び出すことができる。逆量子化ユニット74は、低減されたフォアグラウンド指向性情報55kを取得するために、コーディングされたフォアグラウンド指向性情報57をエントロピー復号および逆量子化することができる(136)。オーディオ復号デバイス24は、再相関化ユニット81を呼び出すことができる。再相関化ユニット81は、1つまたは複数の再相関化されたHOA係数47’’(または相関化されたHOA係数47’’)を取得するために、1つまたは複数の再相関化変換をエネルギー補償された環境HOA係数47’に適用することができ、相関化されたHOA係数47’’を(場合によっては、フェードユニット770を通じて)HOA係数編成ユニット82に渡すことができる(137)。オーディオ復号デバイス24はまた、聴覚心理復号ユニット80を呼び出すことができる。聴覚心理オーディオ復号ユニット80は、エネルギー補償された環境HOA係数47’と補間されたフォアグラウンド信号49’とを取得するために、符号化された環境HOA係数59と符号化されたフォアグラウンド信号61とを復号することができる(138)。聴覚心理復号ユニット80は、エネルギー補償された環境HOA係数47’をフェードユニット770に渡し、nFG信号49’をフォアグラウンド編成ユニット78に渡すことができる。
[0143]オーディオ復号デバイス24は次に、空間時間的補間ユニット76を呼び出すことができる。空間時間的補間ユニット76は、並べ替えられたフォアグラウンド指向性情報55k’を受信し、また、補間されたフォアグラウンド指向性情報55k’’を生成するために、低減されたフォアグラウンド指向性情報55k/55k-1に関して空間時間的補間を実行することができる(140)。空間時間的補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55k’’をフェードユニット770に転送することができる。
[0144]オーディオ復号デバイス24は、フェードユニット770を呼び出すことができる。フェードユニット770は、エネルギー補償された環境HOA係数47’がいつ遷移中であるかを示すシンタックス要素(たとえば、AmbCoeffTransitionシンタックス要素)を(たとえば、抽出ユニット72から)受信またはさもなければ取得することができる。フェードユニット770は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境HOA係数47’をフェードインまたはフェードアウトし、調整された環境HOA係数47’’をHOA係数編成ユニット82に出力することができる。フェードユニット770はまた、シンタックス要素と維持された遷移状態情報とに基づいて、補間されたフォアグラウンドV[k]ベクトル55k’’の対応する1つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット78に調整されたフォアグラウンドV[k]ベクトル55k’’’を出力することができる(142)。
[0145]オーディオ復号デバイス24は、フォアグラウンド編成ユニット78を呼び出すことができる。フォアグラウンド編成ユニット78は、フォアグラウンドHOA係数65を取得するために、調整されたフォアグラウンド指向性情報55k’’’によるnFG信号49’行列乗算を実行することができる(144)。オーディオ復号デバイス24はまた、HOA係数編成ユニット82を呼び出すことができる。HOA係数編成ユニット82は、HOA係数11’を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47’’に加算することができる(146)。
[0146]図6Bは、本開示で説明されるコーディング技法を実行する際のオーディオ符号化デバイスおよびオーディオ復号デバイスの例示的な動作を示すフローチャートである。図6Bは、本開示の1つまたは複数の態様による、例示的な符号化および復号プロセス160を示すフローチャートである。プロセス160は様々なデバイスによって実行され得るが、説明しやすいように、プロセス160は、上記で説明されたオーディオ符号化デバイス20およびオーディオ復号デバイス24に関して本明細書で説明される。プロセス160の符号化セクションおよび復号セクションは、図6Bの破線を使用して区分されている。プロセス160は、オーディオ符号化デバイス20の1つまたは複数の構成要素(たとえば、フォアグラウンド選択ユニット36およびバックグラウンド選択ユニット48)が、HOA空間符号化を使用してHOA入力からフォアグラウンドチャネル164と1次HOAバックグラウンドチャネル166とを生成する(162)ことから始まり得る。今度は、無相関化ユニット40’は、(たとえば、位相ベース無相関化変換または行列の形態の)無相関化変換をエネルギー補償された環境HOA係数47’に適用することができる。より具体的には、オーディオ符号化デバイス20は、UHJ行列または位相ベース無相関化変換(たとえば、スカラー乗算による)をエネルギー補償された環境HOA係数47’に適用することができる(168)。
[0147]いくつかの例では、HOAバックグラウンドチャネルがより少ない数のチャネル(たとえば、4)を含むと無相関化ユニット40’が決定する事例では、無相関化ユニット40’場合、無相関化ユニット40’は、UHJ行列(または位相ベース変換)を適用することができる。逆に、これらの例では、HOAバックグラウンドチャネルがより多い数のチャネル(たとえば、9)を含むと無相関化ユニット40’が決定する場合、オーディオ符号化デバイス20は、(MPEG−H規格に記載されたモード行列などの)UHJ行列とは異なる無相関化変換を選択し、HOAバックグラウンドチャネルに適用することができる。無相関化変換(たとえば、UHJ行列)をHOAバックグラウンドチャネルに適用することによって、オーディオ符号化デバイス20は、無相関化されたHOAバックグラウンドチャネルを取得することができる。
[0148]図6Bに示されるように、オーディオ符号化デバイス20は(たとえば、聴覚心理オーディオコーダユニット40を呼び出すことによって)、(たとえば、AACおよび/またはUSACを適用することによって)時間的符号化を無相関化されたHOAバックグラウンド信号に適用し(170)、任意のフォアグラウンドチャネルに適用することができる(166)。いくつかのシナリオでは、聴覚心理オーディオコーダユニット40は、フォアグラウンドチャネルの数が0であり得ると決定することができる(すなわち、これらのシナリオでは、聴覚心理オーディオコーダユニット40は、HOA入力からいかなるフォアグラウンドチャネルも取得しない場合がある)ことが諒解されよう。AACおよび/またはUSACは最適化されていないかまたはさもなければステレオオーディオデータに適していない場合があるので、無相関化ユニット40’は、HOAバックグラウンドチャネル間の相関を低減または除去するために無相関化行列を適用することができる。AACおよびUSACはステレオオーディオデータ用に最適化されていない場合があるので、無相関化されたHOAバックグラウンドチャネルにおいて示される低減された相関は、AAC/USAC時間的符号化段階においてノイズマスキング解除を緩和または除去する潜在的な利点を実現する。
[0149]今度は、オーディオ復号デバイス24は、オーディオ符号化デバイス20によって出力された符号化ビットストリームの時間的復号を実行することができる。プロセス160の例では、オーディオ復号デバイス24の1つまたは複数の構成要素(たとえば、聴覚心理復号ユニット80)は、(ビットストリームに任意のフォアグラウンドチャネルが含まれる場合)フォアグラウンドチャネルに対して(172)およびバックグラウンドチャネルに対して(174)、別々に時間的復号を実行することができる。加えて、再相関化ユニット81は、再相関化変換を時間的に復号されたHOAバックグラウンドチャネルに適用することができる。一例として、再相関化ユニット81は、相互に無相関化変換を無相関化ユニット40’に適用することができる。たとえば、プロセス160の具体例で説明されるように、再相関化ユニット81は、UHJ行列または位相ベース変換を時間的に復号されたHOAバックグラウンド信号に適用することができる(176)。
[0150]いくつかの例では、時間的に復号されたHOAバックグラウンドチャネルがより少ない数のチャネル(たとえば、4)を含むと再相関化ユニット81が決定する場合、再相関化ユニット81は、UHJ行列または位相ベース変換を適用することができる。逆に、これらの例では、時間的に復号されたHOAバックグラウンドチャネルがより多い数のチャネル(たとえば、9)を含むと再相関化ユニット81が決定する場合、再相関化ユニット81は、(MPEG−H規格に記載されたモード行列などの)UHJ行列とは異なる無相関化変換を選択し、HOAバックグラウンドチャネルに適用することができる。
[0151]加えて、HOA係数編成ユニット82は、相関化されたHOAバックグラウンドチャネルと任意の利用可能な復号されたフォアグラウンドチャネルとのHOA空間復号を実行することができる(178)。今度は、HOA係数編成ユニット82は、復号されたオーディオ信号を、(限定はしないが、ステレオまたはサラウンドサウンド機能を有する出力デバイスを含む)ラウドスピーカーおよび/またはヘッドフォンなどの1つまたは複数の出力デバイスにレンダリングすることができる(180)。
[0152]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツ、映画スタジオ、音楽スタジオ、ゲーミングオーディオスタジオ、チャネルベースオーディオコンテンツ、コーディングエンジン、ゲームオーディオステム、ゲームオーディオコーディング/レンダリングエンジン、および配信システムを含み得る。
[0153]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、(たとえば、2.0、5.1、および7.1の)チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、DAWを使用することなどによって、(たとえば、2.0、および5.1の)チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、1つまたは複数のコーデック(たとえば、AAC、AC3、Dolby True HD、Dolby Digital Plus、およびDTS Master Audio)に基づいたチャネルベースのオーディオコンテンツを受信し符号化することができる。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、HOAオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、TV、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。
[0154]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム16など、汎用的なオーディオ再生システムにおいて(すなわち、5.1、7.1などの特定の構成を必要とすることとは対照的に)再生され得る。
[0155]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および/またはワイヤレス獲得デバイス(たとえば、Eigenマイクロフォン)、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス(たとえば、スマートフォンおよびタブレット)を含み得る。いくつかの例では、有線および/またはワイヤレス獲得デバイスは、有線および/またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。
[0156]本開示の1つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および/もしくはワイヤレス獲得デバイス、ならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに統合された複数のマイクロフォン)を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの1つまたは複数による再生のために、獲得された音場をHOA係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合、会議、劇、コンサートなど)を録音し(その音場を獲得し)、録音をHOA係数へとコーディングすることができる。
[0157]モバイルデバイスはまた、HOAコーディングされた音場を再生するために、再生要素のうちの1つまたは複数を利用することができる。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素のうちの1つまたは複数に信号を出力することができ、このことは再生要素のうちの1つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、1つまたは複数のスピーカー(たとえば、スピーカーアレイ、サウンドバーなど)に信号を出力するために、ワイヤレスおよび/またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、1つもしくは複数のドッキングステーションおよび/または1つもしくは複数のドッキングされたスピーカー(たとえば、スマート自動車および/またはスマート住宅の中のサウンドシステム)に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンド(binaural sound)を作り出すために、ヘッドフォンレンダリングを利用することができる。
[0158]いくつかの例では、特定のモバイルデバイスは、3D音場を獲得することと、より後の時間に同じ3D音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、3D音場を獲得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信することができる。
[0159]本技法が実行され得るまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートし得る1つまたは複数のDAWを含み得る。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成され得る、HOAプラグインおよび/またはツールを含み得る。いくつかの例では、ゲームスタジオは、HOAをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。
[0160]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して実行され得る。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、約4cmの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス20は、マイクロフォンから直接ビットストリーム21を出力するために、Eigenマイクロフォンに統合され得る。
[0161]別の例示的なオーディオ獲得状況は、1つまたは複数のEigenマイクロフォンなど、1つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図3のオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[0162]モバイルデバイスはまた、いくつかの場合には、3D音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図3のオーディオエンコーダ20などのオーディオエンコーダを含み得る。
[0163]耐衝撃性のビデオキャプチャデバイスは、3D音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動(たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など)を表す3D音場をキャプチャすることができる。
[0164]本技法はまた、3D音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイス(accessory enhanced mobile device)に関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの3D音場をキャプチャすることができる。
[0165]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として3D音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してデコーダ24に結合され得る。本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。
[0166]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。
[0167]本開示の1つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、再生が6.1スピーカー再生環境で達成され得るように、レンダーが他の6つのスピーカーとともに補償することを可能にする。
[0168]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が獲得され得(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周りに配置され得)、3D音場に対応するHOA係数が取得されデコーダに送信され得、デコーダがHOA係数に基づいて3D音場を再構成して、再構成された3D音場をレンダラに出力することができ、レンダラが再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構成された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングすることができる。
[0169]上記で説明された様々な場合の各々において、オーディオ符号化デバイス20は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス20が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ符号化デバイス20が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0170]1つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の1つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび/またはデータ構造を取り出すために、1つまたは複数のコンピュータあるいは1つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。
[0171]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス24は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス24が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は1つまたは複数のプロセッサを備え得る。いくつかの場合には、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、1つまたは複数のプロセッサに、オーディオ復号デバイス24が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。
[0172]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM(登録商標)、CD−ROMもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)およびBlu−ray(登録商標)ディスク(disc)を含み、ここで、ディスク(disk)は、通常、データを磁気的に再生し、一方、ディスク(disc)は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。
[0173]命令は、1つもしくは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは他の同等の集積回路またはディスクリート論理回路などの1つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび/またはソフトウェアモジュール内で提供され得る。また、本技法は、1つもしくは複数の回路または論理要素で十分に実装され得る。
[0174]本開示の技法は、ワイヤレスハンドセット、集積回路(IC)もしくはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび/またはファームウェアとともに、上記の1つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。
[0175]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
[0175]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を備える方法。
[C2]
複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を前記環境アンビソニック係数の前記無相関化された表現に適用することをさらに備える、上記C1に記載の方法。
[C3]
前記再相関化変換を適用することが、逆位相ベース変換を前記環境アンビソニック係数に適用することを備える、上記C2に記載の方法。
[C4]
前記逆位相ベース変換が、N3D(フル3D)正規化の1つに従って正規化されている、上記C3に記載の方法。
[C5]
前記逆位相ベース変換が、SN3D正規化(シュミット半正規化)に従って正規化されている、上記C3に記載の方法。
[C6]
前記環境アンビソニック係数が、0の次数または1の次数を有する球面基底関数に関連付けられ、前記逆位相ベース変換を適用することが、前記環境アンビソニック係数の前記無相関化された表現に対して位相ベース変換のスカラー乗算を実行することを備える、上記C3に記載の方法。
[C7]
環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得することをさらに備える、上記C1に記載の方法。
[C8]
前記音場のフォアグラウンド成分の空間特性を定義する1つまたは複数の空間成分を取得すること、ここで、前記空間成分は、球面調和領域において定義され、前記複数の高次アンビソニック係数に対して分解を実行することによって生成される、をさらに備え、
前記スピーカーフィードを生成することが、前記相関化された環境アンビソニック係数を、前記1つまたは複数の空間成分に基づいて取得された1つまたは複数のフォアグラウンドチャネルと組み合わせることを備える、
上記C1に記載の方法。
[C9]
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
を備える方法。
[C10]
前記無相関化変換を適用することが、位相ベース変換を前記環境アンビソニック係数に適用することを備える、上記C9に記載の方法。
[C11]
N3D(フル3D)正規化に従って前記位相ベース変換を正規化することをさらに備える、上記C10に記載の方法。
[C12]
SN3D正規化(シュミット半正規化)に従って前記位相ベース変換を正規化することをさらに備える、上記C10に記載の方法。
[C13]
前記環境アンビソニック係数が、0の次数または1の次数を有する球面基底関数に関連付けられ、前記位相ベース変換を前記環境アンビソニック係数に適用することが、前記環境アンビソニック係数の少なくともサブセットに対して前記位相ベース変換のスカラー乗算を実行することを備える、上記C10に記載の方法。
[C14]
前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングすることをさらに備える、上記C10に記載の方法。
[C15]
オーディオデータを処理するためのデバイスであって、
処理されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
1つまたは複数のプロセッサとを備え、前記1つまたは複数のプロセッサが、
少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を行うように構成される、
デバイス。
[C16]
前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、ステレオ再生システムによる出力のために、前記左信号に基づいて左スピーカーフィードを生成し、前記右信号に基づいて右スピーカーフィードを生成するように構成される、上記C15に記載のデバイス。
[C17]
前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、再相関化変換を前記右信号と前記左信号とに適用することなしに、左スピーカーフィードとして前記左信号を使用し、右スピーカーフィードとして前記右信号を使用するように構成される、上記C15に記載のデバイス。
[C18]
前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、モノオーディオシステムによる出力のために、前記左信号と前記右信号とを混合するように構成される、上記C15に記載のデバイス。
[C19]
前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数を1つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される、上記C15に記載のデバイス。
[C20]
前記1つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される、上記C15に記載のデバイス。
[C21]
前記1つまたは複数のプロセッサが、
前記音場がモノオーディオ再生システムを介して出力されるべきであると決定することと、
前記モノオーディオ再生システムによる出力のためのデータを含む前記無相関化された環境アンビソニック係数の少なくともサブセットを復号することと
を行うようにさらに構成される、上記C15に記載のデバイス。
[C22]
前記1つまたは複数のプロセッサが、環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される、上記C15に記載のデバイス。
[C23]
前記環境アンビソニック係数の前記無相関化された表現に基づいて生成された前記スピーカーフィードを出力するように構成されたラウドスピーカーをさらに備える、上記C15に記載のデバイス。
[C24]
オーディオデータを圧縮するためのデバイスであって、
圧縮されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
1つまたは複数のプロセッサとを備え、前記1つまたは複数のプロセッサが、
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
を行うように構成される、
デバイス。
[C25]
前記1つまたは複数のプロセッサが、1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、上記C24に記載のデバイス。
[C26]
1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするために、前記1つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするように構成される、上記C24に記載のデバイス。
[C27]
前記1つまたは複数のプロセッサが、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、上記C24に記載のデバイス。
[C28]
いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするために、前記1つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするように構成される、上記C27に記載のデバイス。
[C29]
前記1つまたは複数のプロセッサが、前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される、上記C28に記載のデバイス。
[C30]
圧縮されるべき前記オーディオデータをキャプチャするように構成されたマイクロフォンをさらに備える、上記C24に記載のデバイス。

Claims (30)

  1. 少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
    前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
    を備える方法。
  2. 複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を前記環境アンビソニック係数の前記無相関化された表現に適用することをさらに備える、請求項1に記載の方法。
  3. 前記再相関化変換を適用することが、逆位相ベース変換を前記環境アンビソニック係数に適用することを備える、請求項2に記載の方法。
  4. 前記逆位相ベース変換が、N3D(フル3D)正規化の1つに従って正規化されている、請求項3に記載の方法。
  5. 前記逆位相ベース変換が、SN3D正規化(シュミット半正規化)に従って正規化されている、請求項3に記載の方法。
  6. 前記環境アンビソニック係数が、0の次数または1の次数を有する球面基底関数に関連付けられ、前記逆位相ベース変換を適用することが、前記環境アンビソニック係数の前記無相関化された表現に対して位相ベース変換のスカラー乗算を実行することを備える、請求項3に記載の方法。
  7. 環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得することをさらに備える、請求項1に記載の方法。
  8. 前記音場のフォアグラウンド成分の空間特性を定義する1つまたは複数の空間成分を取得すること、ここで、前記空間成分は、球面調和領域において定義され、前記複数の高次アンビソニック係数に対して分解を実行することによって生成される、をさらに備え、
    前記スピーカーフィードを生成することが、前記相関化された環境アンビソニック係数を、前記1つまたは複数の空間成分に基づいて取得された1つまたは複数のフォアグラウンドチャネルと組み合わせることを備える、
    請求項1に記載の方法。
  9. 環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
    を備える方法。
  10. 前記無相関化変換を適用することが、位相ベース変換を前記環境アンビソニック係数に適用することを備える、請求項9に記載の方法。
  11. N3D(フル3D)正規化に従って前記位相ベース変換を正規化することをさらに備える、請求項10に記載の方法。
  12. SN3D正規化(シュミット半正規化)に従って前記位相ベース変換を正規化することをさらに備える、請求項10に記載の方法。
  13. 前記環境アンビソニック係数が、0の次数または1の次数を有する球面基底関数に関連付けられ、前記位相ベース変換を前記環境アンビソニック係数に適用することが、前記環境アンビソニック係数の少なくともサブセットに対して前記位相ベース変換のスカラー乗算を実行することを備える、請求項10に記載の方法。
  14. 前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングすることをさらに備える、請求項10に記載の方法。
  15. オーディオデータを処理するためのデバイスであって、
    処理されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
    1つまたは複数のプロセッサとを備え、前記1つまたは複数のプロセッサが、
    少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
    前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
    を行うように構成される、
    デバイス。
  16. 前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、ステレオ再生システムによる出力のために、前記左信号に基づいて左スピーカーフィードを生成し、前記右信号に基づいて右スピーカーフィードを生成するように構成される、請求項15に記載のデバイス。
  17. 前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、再相関化変換を前記右信号と前記左信号とに適用することなしに、左スピーカーフィードとして前記左信号を使用し、右スピーカーフィードとして前記右信号を使用するように構成される、請求項15に記載のデバイス。
  18. 前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、モノオーディオシステムによる出力のために、前記左信号と前記右信号とを混合するように構成される、請求項15に記載のデバイス。
  19. 前記スピーカーフィードを生成するために、前記1つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数を1つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される、請求項15に記載のデバイス。
  20. 前記1つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される、請求項15に記載のデバイス。
  21. 前記1つまたは複数のプロセッサが、
    前記音場がモノオーディオ再生システムを介して出力されるべきであると決定することと、
    前記モノオーディオ再生システムによる出力のためのデータを含む前記無相関化された環境アンビソニック係数の少なくともサブセットを復号することと
    を行うようにさらに構成される、請求項15に記載のデバイス。
  22. 前記1つまたは複数のプロセッサが、環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される、請求項15に記載のデバイス。
  23. 前記環境アンビソニック係数の前記無相関化された表現に基づいて生成された前記スピーカーフィードを出力するように構成されたラウドスピーカーをさらに備える、請求項15に記載のデバイス。
  24. オーディオデータを圧縮するためのデバイスであって、
    圧縮されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
    1つまたは複数のプロセッサとを備え、前記1つまたは複数のプロセッサが、
    環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境HOA係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも1つは、1よりも大きい次数を有する球面基底関数に関連付けられる、
    を行うように構成される、
    デバイス。
  25. 前記1つまたは複数のプロセッサが、1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、請求項24に記載のデバイス。
  26. 1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするために、前記1つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、1つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするように構成される、請求項24に記載のデバイス。
  27. 前記1つまたは複数のプロセッサが、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、請求項24に記載のデバイス。
  28. いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするために、前記1つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするように構成される、請求項27に記載のデバイス。
  29. 前記1つまたは複数のプロセッサが、前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される、請求項28に記載のデバイス。
  30. 圧縮されるべき前記オーディオデータをキャプチャするように構成されたマイクロフォンをさらに備える、請求項24に記載のデバイス。
JP2017521041A 2014-07-02 2015-07-02 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減 Active JP6449455B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201462020348P 2014-07-02 2014-07-02
US62/020,348 2014-07-02
US201462060512P 2014-10-06 2014-10-06
US62/060,512 2014-10-06
US14/789,961 2015-07-01
US14/789,961 US9838819B2 (en) 2014-07-02 2015-07-01 Reducing correlation between higher order ambisonic (HOA) background channels
PCT/US2015/038943 WO2016004277A1 (en) 2014-07-02 2015-07-02 Reducing correlation between higher order ambisonic (hoa) background channels

Publications (3)

Publication Number Publication Date
JP2017525318A true JP2017525318A (ja) 2017-08-31
JP2017525318A5 JP2017525318A5 (ja) 2018-04-26
JP6449455B2 JP6449455B2 (ja) 2019-01-09

Family

ID=55017979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017521041A Active JP6449455B2 (ja) 2014-07-02 2015-07-02 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減

Country Status (20)

Country Link
US (1) US9838819B2 (ja)
EP (1) EP3165001B1 (ja)
JP (1) JP6449455B2 (ja)
KR (1) KR101962000B1 (ja)
CN (1) CN106663433B (ja)
AU (1) AU2015284004B2 (ja)
BR (1) BR112016030558B1 (ja)
CA (1) CA2952333C (ja)
CL (1) CL2016003315A1 (ja)
ES (1) ES2729624T3 (ja)
HU (1) HUE043457T2 (ja)
IL (1) IL249257A0 (ja)
MX (1) MX357008B (ja)
MY (1) MY183858A (ja)
NZ (1) NZ726830A (ja)
PH (1) PH12016502356A1 (ja)
RU (1) RU2741763C2 (ja)
SA (1) SA516380612B1 (ja)
SG (1) SG11201609676VA (ja)
WO (1) WO2016004277A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104823459B (zh) * 2012-11-28 2018-04-17 歌乐株式会社 数字扬声器系统以及数字扬声器系统的接线方法
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US10600425B2 (en) * 2015-11-17 2020-03-24 Dolby Laboratories Licensing Corporation Method and apparatus for converting a channel-based 3D audio signal to an HOA audio signal
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
MC200186B1 (fr) * 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
US10560661B2 (en) 2017-03-16 2020-02-11 Dolby Laboratories Licensing Corporation Detecting and mitigating audio-visual incongruence
US10893373B2 (en) 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US20180338212A1 (en) 2017-05-18 2018-11-22 Qualcomm Incorporated Layered intermediate compression for higher order ambisonic audio data
CN117133297A (zh) 2017-08-10 2023-11-28 华为技术有限公司 时域立体声参数的编码方法和相关产品
US10972851B2 (en) * 2017-10-05 2021-04-06 Qualcomm Incorporated Spatial relation coding of higher order ambisonic coefficients
US10657974B2 (en) * 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
GB201818959D0 (en) 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
KR102323529B1 (ko) 2018-12-17 2021-11-09 한국전자통신연구원 복합 차수 앰비소닉을 이용한 오디오 신호 처리 방법 및 장치
US11538489B2 (en) * 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US20200402521A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Performing psychoacoustic audio coding based on operating conditions
US11743670B2 (en) * 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013536630A (ja) * 2010-07-26 2013-09-19 クゥアルコム・インコーポレイテッド 空間における、音響イメージのエンハンスされた生成のための、システム、方法および装置
EP2688065A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2858512A1 (fr) * 2003-07-30 2005-02-04 France Telecom Procede et dispositif de traitement de donnees sonores en contexte ambiophonique
CN101518100B (zh) * 2006-09-14 2011-12-07 Lg电子株式会社 对话增强技术
CN101136197B (zh) * 2007-10-16 2011-07-20 得理微电子(上海)有限公司 基于时变延迟线的数字混响处理器
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN101981811B (zh) * 2008-03-31 2013-10-23 创新科技有限公司 音频信号的自适应主体-环境分解
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
GB2467534B (en) * 2009-02-04 2014-12-24 Richard Furse Sound system
EP2539892B1 (fr) * 2010-02-26 2014-04-02 Orange Compression de flux audio multicanal
NZ587483A (en) * 2010-08-20 2012-12-21 Ind Res Ltd Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
ES2553398T3 (es) * 2010-11-03 2015-12-09 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2544466A1 (en) * 2011-07-05 2013-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US20140086416A1 (en) * 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) * 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
FR2995752B1 (fr) * 2012-09-18 2015-06-05 Parrot Enceinte acoustique active monobloc configurable pour etre utilisee isolement ou par paire, avec renforcement de l'image stereo.
US9124966B2 (en) * 2012-11-28 2015-09-01 Qualcomm Incorporated Image generation for collaborative sound systems
EP2738962A1 (en) * 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
CN108174341B (zh) * 2013-01-16 2021-01-08 杜比国际公司 测量高阶高保真度立体声响复制响度级的方法及设备
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
CN105706468B (zh) * 2013-09-17 2017-08-11 韦勒斯标准与技术协会公司 用于音频信号处理的方法和设备
EP2866475A1 (en) * 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9940937B2 (en) * 2014-10-10 2018-04-10 Qualcomm Incorporated Screen related adaptation of HOA content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013536630A (ja) * 2010-07-26 2013-09-19 クゥアルコム・インコーポレイテッド 空間における、音響イメージのエンハンスされた生成のための、システム、方法および装置
EP2688065A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for avoiding unmasking of coding noise when mixing perceptually coded multi-channel audio signals
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field

Also Published As

Publication number Publication date
WO2016004277A1 (en) 2016-01-07
BR112016030558B1 (pt) 2023-05-02
BR112016030558A2 (ja) 2017-08-22
CA2952333A1 (en) 2016-01-07
CN106663433A (zh) 2017-05-10
CA2952333C (en) 2020-10-27
SG11201609676VA (en) 2017-01-27
IL249257A0 (en) 2017-02-28
RU2016151352A3 (ja) 2020-08-13
EP3165001A1 (en) 2017-05-10
HUE043457T2 (hu) 2019-08-28
MX357008B (es) 2018-06-22
SA516380612B1 (ar) 2020-09-06
CN106663433B (zh) 2020-12-29
PH12016502356A1 (en) 2017-02-13
RU2016151352A (ru) 2018-08-02
KR20170024584A (ko) 2017-03-07
CL2016003315A1 (es) 2017-07-07
MX2016016566A (es) 2017-04-25
RU2741763C2 (ru) 2021-01-28
NZ726830A (en) 2019-09-27
ES2729624T3 (es) 2019-11-05
US20160007132A1 (en) 2016-01-07
MY183858A (en) 2021-03-17
KR101962000B1 (ko) 2019-03-25
AU2015284004B2 (en) 2020-01-02
EP3165001B1 (en) 2019-03-06
AU2015284004A1 (en) 2016-12-15
US9838819B2 (en) 2017-12-05
JP6449455B2 (ja) 2019-01-09

Similar Documents

Publication Publication Date Title
JP6449455B2 (ja) 高次アンビソニック(hoa)バックグラウンドチャネル間の相関の低減
JP6169805B2 (ja) フレームパラメータ再使用可能性を示すこと
JP6612337B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング
CN106575506B (zh) 用于执行高阶立体混响音频数据的中间压缩的装置和方法
JP6549225B2 (ja) 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング
JP6599451B2 (ja) Hoaコンテンツの画面関連の適応
US20150332682A1 (en) Spatial relation coding for higher order ambisonic coefficients
JP2017513053A (ja) 音場の記述へのオーディオチャンネルの挿入
US10134403B2 (en) Crossfading between higher order ambisonic signals
US9959876B2 (en) Closed loop quantization of higher order ambisonic coefficients
JP6297721B2 (ja) 高次アンビソニックオーディオレンダラのための希薄情報を取得すること
JP6605725B2 (ja) 複数の遷移の間の高次アンビソニック係数のコーディング
JP6423009B2 (ja) 高次アンビソニックオーディオレンダラのためのシンメトリ情報を取得すること

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180319

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180319

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180319

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181205

R150 Certificate of patent or registration of utility model

Ref document number: 6449455

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250