JP2017525318A

JP2017525318A - 高次アンビソニック（ｈｏａ）バックグラウンドチャネル間の相関の低減

Info

Publication number: JP2017525318A
Application number: JP2017521041A
Authority: JP
Inventors: ペーターズ、ニルス・ガンザー; セン、ディパンジャン; モッレル、マーティン・ジェームス
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-07-02
Filing date: 2015-07-02
Publication date: 2017-08-31
Anticipated expiration: 2035-07-02
Also published as: WO2016004277A1; BR112016030558B1; BR112016030558A2; CA2952333A1; CN106663433A; CA2952333C; SG11201609676VA; IL249257A0; RU2016151352A3; EP3165001A1; HUE043457T2; MX357008B; SA516380612B1; CN106663433B; PH12016502356A1; RU2016151352A; KR20170024584A; CL2016003315A1; MX2016016566A; RU2741763C2

Abstract

概して、オーディオデータの圧縮および復号のための技法が説明される。オーディオデータを圧縮するための例示的なデバイスは、無相関化変換を環境アンビソニック係数に適用し、環境アンビソニック係数の無相関化された表現を取得するように構成された１つまたは複数のプロセッサを含む。係数は、複数の高次アンビソニック係数から抽出され、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる。

Description

[0001]本出願は、各々の内容全体が参照により本明細書に組み込まれる、
２０１４年７月２日に出願された「REDUCING CORRELATION BETWEEN HOA BACKGROUND CHANNELS」と題する米国仮特許出願第６２／０２０，３４８号、および
２０１４年１０月６日に出願された「REDUCING CORRELATION BETWEEN HOA BACKGROUND CHANNELS」と題する米国仮特許出願第６２／０６０，５１２号
の利益を主張する。

[0002]本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータ（higher-order ambisonic audio data）のコーディングに関する。

[0003]高次アンビソニックス（ＨＯＡ：higher-order ambisonics）信号（複数の球面調和係数（ＳＨＣ：spherical harmonic coefficients）または他の階層的な要素によって表されることが多い）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカージオメトリに依存しない方法で、音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットなどのよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、下位互換性を容易にし得る。したがって、ＳＨＣ表現は、下位互換性にも対応する、音場のより良い表現を可能にし得る。

[0004]概して、高次アンビソニックスオーディオデータをコーディングするための技法が説明される。高次アンビソニックスオーディオデータは、１よりも大きい次数を有する球面調和基底関数（spherical harmonic basis function）に対応する少なくとも１つの高次アンビソニック（ＨＯＡ）係数を備え得る。高次アンビソニックス（ＨＯＡ）バックグラウンドチャネル間の相関を低減するための技法が説明される。

[0005]一態様では、方法は、少なくとも左信号と右信号とを有する環境アンビソニック係数（ambient ambisonic coefficients）の無相関化された表現（decorrelated representation）を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを含む。

[0006]別の態様では、方法は、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換（decorrelation transform）を環境アンビソニック係数に適用することを含んでおり、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる。

[0007]別の態様では、オーディオデータを圧縮するためのデバイスは、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行うように構成された１つまたは複数のプロセッサを含む。

[0008]別の態様では、オーディオデータを圧縮するためのデバイスは、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用することを行うように構成された１つまたは複数のプロセッサを含み、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる。

[0009]別の態様では、オーディオデータを圧縮するためのデバイスは、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得するための手段であって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、取得するための手段と、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成するための手段とを含む。

[0010]別の態様では、オーディオデータを圧縮するためのデバイスは、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用するための手段であって、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、適用するための手段と、環境アンビソニック係数の無相関化された表現を記憶するための手段とを含む。

[0011]別の態様では、コンピュータ可読記憶媒体は、実行されると、オーディオ圧縮デバイスの１つまたは複数のプロセッサに、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することであって、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、取得することと、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行わせる命令で符号化される。

[0012]別の態様では、コンピュータ可読記憶媒体は、実行されると、オーディオ圧縮デバイスの１つまたは複数のプロセッサに、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用すること、を行わせる命令で符号化され、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる。

[0013]本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、その説明および図面、ならびに特許請求の範囲から明らかになろう。

[0014]様々な次数および副次数の球面調和基底関数を示す図。 [0015]本開示で説明される技法の様々な態様を実行することができるシステムを示す図。 [0016]本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。 [0017]図２のオーディオ復号デバイスをより詳細に示すブロック図。 [0018]本開示で説明されるベクトルベース合成技法の様々な態様を実行する際のオーディオ符号化デバイスの例示的な動作を示すフローチャート。 [0019]本開示で説明される技法の様々な態様を実行する際のオーディオ復号デバイスの例示的な動作を示すフローチャート。 [0020]本開示で説明されるコーディング技法の様々な態様を実行する際のオーディオ符号化デバイスおよびオーディオ復号デバイスの例示的な動作を示すフローチャート。

[0021]サラウンドサウンドの発展は、現今では娯楽のための多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカー（loudspeakers）へのフィードを暗黙的に指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（たとえば、超高精細度テレビジョン規格とともに使用するための）などのハイトスピーカーを含む様々なフォーマットを含む。消費者向けではないフォーマットは、「サラウンドアレイ」と呼ばれることが多い（対称な、および非対称なジオメトリの）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂二十面体の角の座標に配置される３２個のラウドスピーカーを含む。

[0022]将来のＭＰＥＧエンコーダへの入力は、任意選択で、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置でラウドスピーカーを通じて再生されることが意図される、（上で論じられたような）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）位置座標を含む関連付けられたメタデータを有する単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、および（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧエンコーダは、２０１３年１月にスイスのジュネーブで発表された、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、International Organization for Standardization/International Electrotechnical Commission（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「Call for Proposals for 3D Audio」と題される文書においてより詳細に説明され得る。

[0023]市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらのフォーマットは、たとえば、５．１ホームシアターシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（たとえば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各々のスピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーのジオメトリ（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらに依存しない後続の復号とを提供するための方法を考えている。

[0024]コンテンツ作成者にそのようなフレキシビリティを提供するために、要素の階層セット（a hierarchical set of elements）が音場を表すために使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細なものになり、分解能は向上する。

[0025]要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0026]この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は基準点（または観測点）であり、ｊ_n（・）は次数ｎの球ベッセル関数であり、

は次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項は、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換などの様々な時間周波数変換によって近似され得る信号の周波数領域表現（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））であることが認識できよう。階層セットの他の例は、ウェーブレット変換係数のセット、および多分解能基底関数の係数の他のセットを含む。高次アンビソニックス信号は、０次および１次のみが残るように高次を切り捨てることによって処理される。通常、高次係数における損失エネルギーにより、残りの信号の何らかのエネルギー補償が行われる。

[0027]本開示の様々な態様は、バックグラウンド信号間の相関を低減することを対象とする。たとえば、本開示の技法は、ＨＯＡ領域において表されるバックグラウンド信号間の相関を低減するかまたは場合によっては除去することができる。バックグラウンドＨＯＡ信号間の相関を低減する潜在的な利点は、ノイズマスキング解除の緩和（mitigation of noise unmasking）である。本明細書で使用する「ノイズマスキング解除（noise unmasking）」という表現は、オーディオオブジェクトを、空間領域におけるオーディオオブジェクトに対応しないロケーションに帰することを指し得る。ノイズマスキング解除に関する潜在的な問題を緩和することに加えて、本明細書で説明される符号化技法は、一緒にステレオ出力を形成する信号など、左オーディオ信号と右オーディオ信号とを表す出力信号を生成することができる。今度は、復号デバイスは、ステレオ出力を取得するために左オーディオ信号と右オーディオ信号とを復号することができるか、またはモノ出力を取得するために左信号と右信号とを混合することができる。加えて、符号化ビットストリームが純粋に水平方向のレイアウトを表すシナリオでは、復号デバイスは、水平成分が無相関化されたＨＯＡバックグラウンド信号のみを復号するための本開示の様々な技法を実装し得る。復号プロセスを水平成分が無相関化されたＨＯＡバックグラウンド信号に限定することによって、デコーダは、コンピューティングリソースを節約し、帯域幅消費を低減するための技法を実装し得る。

[0028]図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数に対して、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0029]ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に獲得（たとえば、録音）されることができ、または代替的に、それらは音場のチャネルベースまたはオブジェクトベースの記述から導出されることもできる。ＳＨＣはシーンベースのオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオエンコーダに入力され得る。たとえば、（１＋４）²個の（２５個の、したがって４次の）係数を伴う４次表現が使用され得る。

[0030]上述されたように、ＳＨＣは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti, M、「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」、J. Audio Eng. Soc.、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0031]ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ただし、ｉは

であり、

は次数ｎの（第２の種類の）球ハンケル関数であり、｛ｒ_s，θ_s、φ_s｝はオブジェクトのロケーションである。周波数の関数として（たとえば、ＰＣＭストリームに対して高速フーリエ変換を実行するなど、時間周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換することが可能となる。さらに、各オブジェクトについての

係数は、（上式は線形であり直交方向の分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトが

係数によって（たとえば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの数字は、以下でオブジェクトベースのオーディオコーディングおよびＳＨＣベースのオーディオコーディングの文脈で説明される。

[0032]図２は、本開示で説明される技法の様々な態様を実行することができるシステム１０を示す図である。図２の例に示されるように、システム１０は、コンテンツ作成者デバイス１２と、コンテンツ消費者デバイス１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４の文脈で説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、ＳＨＣ（ＨＯＡ係数とも呼ばれ得る）または音場の任意の他の階層的表現が符号化される任意の文脈で実施され得る。その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

[0033]コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４などのコンテンツ消費者デバイスのオペレータによる消費のためのマルチチャネルオーディオコンテンツを生成することができる、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望む個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともに、オーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0034]コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、様々なフォーマットのライブ録音７（ＨＯＡ係数として直接含む）とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集することができる。マイクロフォン５はライブ録音７をキャプチャすることができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようとして、レンダリングされたスピーカーフィードを聞くことができる。コンテンツ作成者デバイス１２は次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集することができる。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用することができる。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0035]編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成することができる。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、有線チャネルまたはワイヤレスチャネル、データ記憶デバイスなどであり得る送信チャネルを介した送信のために、ビットストリーム２１を生成することができる。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャネル情報とも呼ばれ得る別のサイドビットストリームとを含み得る。

[0036]図２では、コンテンツ消費者デバイス１４に直接的に送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力することができる。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶することができる。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求するコンテンツ消費者デバイス１４などの加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在してもよい。

[0037]代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスク、または他の記憶媒体などの記憶媒体にビットストリーム２１を記憶することができ、記憶媒体の大部分はコンピュータによって読み取り可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。この文脈において、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。したがって、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきではない。

[0038]図２の例にさらに示されるように、コンテンツ消費者デバイス１４は、オーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２は各々、異なる形態のレンダリングを提供することができ、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を実行する様々な方法の１つもしくは複数、および／または音場合成を実行する様々な方法の１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0039]オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ＨＯＡ係数１１’は、ＨＯＡ係数１１と類似し得るが、損失のある演算（たとえば、量子化）および／または送信チャネルを介した送信が原因で異なり得る。オーディオ再生システム１６は、ＨＯＡ係数１１’を取得するためにビットストリーム２１を復号した後、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングすることができる。ラウドスピーカーフィード２５は、１つまたは複数のラウドスピーカー（説明を簡単にするために図２の例には示されていない）を駆動することができる。

[0040]適切なレンダラを選択するために、またはいくつかの場合には、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的なジオメトリを示すラウドスピーカー情報１３を取得することができる。いくつかの場合には、オーディオ再生システム１６は、基準マイクロフォンを使用してラウドスピーカー情報１３を取得し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動することができる。他の場合には、またはラウドスピーカー情報１３の動的な決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促すことができる。

[0041]オーディオ再生システム１６は次いで、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを選択することができる。いくつかの場合には、オーディオ再生システム１６は、ラウドスピーカー情報１３において指定されたラウドスピーカージオメトリに対する何らかの閾値類似性尺度（threshold similarity measure）（ラウドスピーカーのジオメトリに関する）内にいずれのオーディオレンダラ２２もないとき、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。オーディオ再生システム１６は、いくつかの場合には、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいて、オーディオレンダラ２２のうちの１つを生成することができる。その際、１つまたは複数のスピーカー３は、レンダリングされたラウドスピーカーフィード２５を再生することができる。

[0042]図３は、本開示で説明される技法の様々な態様を実行することができる、図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース合成方法ユニット（vector-based synthesis methodology unit）２７と、指向性ベース合成方法ユニット２８と、無相関化ユニット４０’とを含む。以下で簡単に説明されるが、オーディオ符号化デバイス２０に関するより多くの情報、およびＨＯＡ係数を圧縮またはさもなければ符号化する様々な態様は、２０１４年５月２９に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0043]コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを特定するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの場合には、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット（vector-based decomposition unit）２７に渡す。いくつかの場合には、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を指向性ベース合成ユニット２８に渡す。指向性ベース合成ユニット２８は、指向性ベースビットストリーム２１を生成するためにＨＯＡ係数１１の指向性ベース合成を実行するように構成されたユニットを表し得る。

[0044]図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット（reorder unit）３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0045]線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連付けられた係数のブロックまたはフレーム（ＨＯＡ［ｋ］と示され得、ただし、ｋはサンプルの現在のフレームまたはブロックを示し得る）を表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0046]ＬＩＴユニット３０は、特異値分解と呼ばれるある形態の分析を実行するように構成されたユニットを表し得る。ＳＶＤに関して説明されているが、本開示で説明される技法は、線形的に無相関な、エネルギーが圧縮された出力のセットを提供する任意の類似の変換または分解に対して実行され得る。また、本開示における「セット」への言及は、一般的に、それとは反対に特に明記されていない限り、非０のセットを指すことが意図され、いわゆる「空集合」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」と呼ばれることが多い、主成分分析を備え得る。文脈に応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネン−レーベ変換、ホテリング変換、固有直交分解（ＰＯＤ）、および固有値分解（ＥＶＤ）などのいくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮」および「無相関化」である。

[0047]いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれることがある）を実行すると仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換することができる。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例では、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＳＶＤは、線形代数学では、ｙ×ｚの実行列または複素行列Ｘ（ここで、Ｘは、ＨＯＡ係数１１などのマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る。

Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトルとして知られる。Ｓは、対角線上に非負実数をもつｙ×ｚの矩形対角行列を表し得、ここで、Ｓの対角線値は、マルチチャネルオーディオデータの特異値として知られる。Ｖ^＊（Ｖの共役転置を示し得る）はｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ^＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトルとして知られる。

[0048]いくつかの例では、上で参照されたＳＶＤ数式中のＶ^＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ^＊行列）は、Ｖ行列の転置であると見なされ得る。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ^＊行列ではなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示ではＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用されることができ、ここで、ＳＶＤの出力はＶ^＊行列である。したがって、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきではなく、Ｖ^＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含み得る。

[0049]このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを実行することができる。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0050]Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的な特性を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（指向性情報とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的な形状と位置（ｒ、θ、φ）とを表す空間特性は代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列の中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連付けられたオーディオオブジェクトのための音場の形状（幅を含む）と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均エネルギーが１に等しくなるように正規化される。したがって、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。したがって、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、エネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様を支援することができる。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解」という用語を生じさせる。

[0051]ＨＯＡ係数１１に関して直接実行されるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換をＨＯＡ係数１１の派生物に適用することができる。たとえば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列に関してＳＶＤを適用することができる。ＨＯＡ係数自体ではなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを実行することによって、ＬＩＴユニット３０は潜在的に、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを実行することの計算的な複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成することができる。

[0052]パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、指向性特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）などの様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］、およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを特定するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関（cross-correlation））を実行することができる。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定することができ、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］、およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力することができる。

[0053]パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較することができる。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンドサウンド（または支配的サウンド−ＰＳ（predominant sound））選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリー法を使用して）並べ替えることができる。

[0054]音場分析ユニット４４は、目標ビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析を実行するように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信された目標ビットレート４１に基づいて、聴覚心理コーダのインスタンス化の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）とフォアグラウンドチャネル、または言い換えれば支配的なチャネルの数との関数であり得る）を決定することができる。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0055]音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境的な）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定することができる。バックグラウンドチャネル情報４２は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル」、「アクティブなベクトルベースの支配的なチャネル」、「アクティブな指向性ベースの支配的な信号」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（たとえば、００：指向性ベースの信号、０１：ベクトルベースの支配的な信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0056]音場分析ユニット４４は、目標ビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数とフォアグラウンド（または言い換えれば支配的な）チャネルの数とを選択し、目標ビットレート４１が比較的高いとき（たとえば、目標ビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択することができる。一態様では、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化し得、たとえば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的なチャネルのいずれかとして使用され得る。フォアグラウンド／支配的な信号は、上記で説明されたように、ベクトルベースの信号または指向性ベースの信号のいずれかの１つであり得る。

[0057]いくつかの場合には、フレームのためのベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、各々の追加のバックグラウンド／環境チャネル（たとえば、１０というＣｈａｎｎｅｌＴｙｐｅに対応する）について、（最初の４つ以外の）あり得るＨＯＡ係数のいずれがそのチャネルにおいて表され得るかの対応する情報。その情報は、４次のＨＯＡコンテンツについては、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、したがって、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報はしたがって、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次のコンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれにしても、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、ｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0058]バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（たとえば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）と）に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。たとえば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択することができる。バックグラウンド選択ユニット４８は次いで、この例では、インデックス（ｉ）のうちの１つによって特定されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択することができ、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力することができる。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、「環境ＨＯＡ係数４７」と呼ばれることもあり、ここで、環境ＨＯＡ係数４７の各々は、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネルに対応する。

[0059]フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力することができ、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0060]エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルのうちの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行するように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_k、および環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するために、そのエネルギー分析に基づいてエネルギー補償を実行することができる。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を無相関化ユニット４０’に出力することができる。今度は、無相関化ユニット４０’は、１つまたは複数の無相関化されたＨＯＡ係数４７’’を形成するために、ＨＯＡ係数４７’のバックグラウンド信号間の相関を低減または除去するための本開示の技法を実装し得る。無相関化ユニット４０’は、無相関化されたＨＯＡ係数４７’’を聴覚心理オーディオコーダユニット４０に出力することができる。

[0061]空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと以前のフレームのための（したがってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を実行するように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせることができる。空間時間的補間ユニット５０は次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割することができる。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４などのオーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元できるように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力することができる。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］がエンコーダおよびデコーダにおいて（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化された／逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を聴覚心理オーディオコーダユニット４６に出力し、補間されたフォアグラウンドＶ［ｋ］ベクトル５１_kを係数低減ユニット４６に出力することができる。

[0062]係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行するように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、指向性情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例では、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明瞭な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、指向性情報をほとんど提供せず、したがって、（「係数低減」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、Ｎ_BGに対応する係数を特定するだけではなく、追加のＨＯＡチャネル（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）を［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから特定するために、より大きいフレキシビリティが与えられ得る。

[0063]量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を実行し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例では低減されたフォアグラウンドＶ［ｋ］ベクトル５５の１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、「ＮｂｉｔＱ」で表される量子化モードシンタックス要素によって示されるような、以下の１２の量子化モードのうちのいずれか１つを実行することができる。
ＮｂｉｔＱ値量子化モードのタイプ
０〜３：予約済み
４：ベクトル量子化
５：ハフマンコーディングなしのスカラー量子化
６：ハフマンコーディングありの６ビットスカラー量子化
７：ハフマンコーディングありの７ビットスカラー量子化
８：ハフマンコーディングありの８ビットスカラー量子化
… ・・・
１６：ハフマンコーディングありの１６ビットスカラー量子化
また、量子化ユニット５２は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを実行することもでき、以前のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）と、現在のフレームのＶベクトルの要素（またはベクトル量子化が実行されるときの重み）との間の差が決定される。量子化ユニット５２は、その際、現在のフレーム自体のＶベクトルの要素の値ではなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化することができる。

[0064]量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５のそれぞれに対して複数の形の量子化を実行することができる。量子化ユニット５２は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７として、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の符号化されたバージョンのうちの１つまたは複数を選択することができる。量子化ユニット５２は、言い換えれば、本開示で説明される基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択することができる。いくつかの例では、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化することができる。量子化ユニット５２は次いで、（たとえば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（たとえば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット５２に与えることができる。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（たとえば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与えることができる。

[0065]オーディオ符号化デバイス２０内に含まれる無相関化ユニット４０’は、無相関化されたＨＯＡ係数４７’’を取得するために、１つまたは複数の無相関化変換をＨＯＡ係数４７’に適用するように構成されたユニットの単一または複数のインスタンスを表し得る。いくつかの例では、無相関化ユニット４０’は、ＵＨＪ行列をＨＯＡ係数４７’に適用することができる。本開示の様々な場合において、ＵＨＪ行列は「位相ベース変換（phase-based transform）」と呼ばれることもある。位相ベース変換の適用は、本明細書では「位相シフト無相関化（phaseshift decorrelation）」と呼ばれることもある。

[0066]アンビソニックＵＨＪフォーマットは、モノメディアおよびステレオメディアと互換性があるように設計されたアンビソニックサラウンドサウンドシステムの発展形である。ＵＨＪフォーマットは、録音された音場が、利用可能なチャネルに従って変化する精度で再生される、システムの階層を含む。様々な場合では、ＵＨＪは「Ｃフォーマット」とも呼ばれる。頭文字は、システムに組み込まれるソースのいくつかを示し、ＵはＵｎｉｖｅｒｓａｌ（ＵＤ−４）、ＨはＭａｔｒｉｘＨ、ＪはＳｙｓｔｅｍ４５Ｊから来ている。

[0067]ＵＨＪは、アンビソニックス技術内で指向性サウンド情報を符号化および復号する階層システムである。利用可能なチャネルの数に応じて、システムはより多いまたはより少ない情報を伝えることができる。ＵＨＪは、完全にステレオ互換性およびモノ互換性がある。４つまでのチャネル（Ｌ、Ｒ、Ｔ、Ｑ）が使用され得る。

[0068]一形態では、２チャネル（Ｌ、Ｒ）ＵＨＪ水平方向（または「平面」）サラウンド情報は、聴取端（listening end）においてＵＨＪデコーダを使用することによって復元され得るノーマルステレオ信号チャネル−ＣＤ、ＦＭまたはデジタル無線など−によって伝えることができる。２つのチャネルを合計することは、従来の「パンポットを用いたモノ（panpotted mono）」ソースを合計するよりも正確な２チャネルバージョンの表現であり得る、互換性のあるモノ信号をもたらし得る。第３のチャネル（Ｔ）が利用可能である場合、第３のチャネルは、３チャネルＵＨＪデコーダを介して復号されるときに、改善された定位精度を平面サラウンド効果にもたらすために使用され得る。第３のチャネルは、このためにフルオーディオ帯域幅を有することが必要ではない場合があり、第３のチャネルが帯域幅制限されている場合、いわゆる「２と１／２チャネル」システムの可能性を招く。一例では、制限は５ｋＨｚであり得る。第３のチャネルは、たとえば、位相直交変調を用いて、ＦＭ無線を介してブロードキャストされ得る。第４のチャネル（Ｑ）をＵＨＪシステムに追加することは、４チャネルＢフォーマットと同一の精度のレベルで、Ｐｅｒｉｐｈｏｎｙと呼ばれることがある、高さを用いたフルサラウンドサウンドの符号化を可能にし得る。

[0069]２チャネルＵＨＪは、アンビソニック録音の配信に一般に使用されるフォーマットである。２チャネルＵＨＪ録音は、すべてのノーマルステレオチャネルを介して送信され得、ノーマル２チャネルメディアのいずれかは、変更なしで使用され得る。ＵＨＪは、復号することなしに、リスナーがステレオイメージ、ただし従来のステレオよりもかなり広いステレオイメージ（たとえば、いわゆる「スーパーステレオ」）を知覚することができるという点で、ステレオ互換性がある。左チャネルおよび右チャネルはまた、非常に高度なモノ互換性のために合計され得る。ＵＨＪデコーダを介してリプレイされると、サラウンド能力が明らかになる場合がある。

[0070]ＵＨＪ行列（または位相ベース変換）を適用する無相関化ユニット４０’の例示的な数学的表現は、次のとおりである。
ＵＨＪ符号化：

[0071]上記の計算のいくつかの実装形態によれば、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、１次アンビソニックスＦｕＭａ正規化される。

[0072]上記に記載した計算では、無相関化ユニット４０’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、Ｓ信号を取得するために、無相関化ユニット４０’は、０．９３９７の定数値による（たとえば、スカラー乗算による）Ｗ行列のスカラー乗算と、０．１８５６の定数値によるＸ行列のスカラー乗算とを実行することができる。やはり上記に記載した計算に示されるように、無相関化ユニット４０’は、Ｄ信号およびＴ信号の各々を取得する際に（上記のＵＨＪ符号化における「Ｈｉｌｂｅｒｔ（）」関数によって示される）ヒルベルト変換を適用することができる。上記のＵＨＪ符号化における「ｉｍａｇ（）」関数は、ヒルベルト変換の結果の（数学的な意味での）虚数が取得されることを示す。

[0073]ＵＨＪ行列（または位相ベース変換）を適用する無相関化ユニット４０’の別の例示的な数学的表現は、次のとおりである。
ＵＨＪ符号化：

[0074]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、１次アンビソニックスＮ３Ｄ（すなわち「フル３Ｄ」）正規化される。Ｎ３Ｄ正規化に関して本明細書で説明されるが、例示的な計算は、ＳＮ３Ｄ正規化された（すなわち「シュミット半正規化された）ＨＯＡバックグラウンドチャネルにも適用され得ることを諒解されよう。Ｎ３Ｄ正規化およびＳＮ３Ｄ正規化は、使用されるスケーリングファクタの点で異なり得る。ＳＮ３Ｄ正規化に対して、Ｎ３Ｄ正規化の例示的な表現が以下に表される。

[0075]ＳＮ３Ｄ正規化において使用される重み付け係数の一例が以下に表される。

[0076]上記に記載した計算では、無相関化ユニット４０’は、定数値による様々な行列のスカラー乗算を実行することができる。たとえば、Ｓ信号を取得するために、無相関化ユニット４０’は、０．９３９６９２６の定数値による（たとえば、スカラー乗算による）Ｗ行列のスカラー乗算と、０．１５１５２０５３６５０９０８２の定数値によるＸ行列のスカラー乗算とを実行することができる。やはり上記に記載した計算に示されるように、無相関化ユニット４０’は、Ｄ信号およびＴ信号の各々を取得する際に（上記のＵＨＪ符号化または位相シフト無相関化における「Ｈｉｌｂｅｒｔ（）」関数によって示される）ヒルベルト変換を適用することができる。上記のＵＨＪ符号化における「ｉｍａｇ（）」関数は、ヒルベルト変換の結果の（数学的な意味での）虚数が取得されることを示す。

[0077]無相関化ユニット４０’は、得られたＳ信号およびＤ信号が左オーディオ信号と右オーディオ信号と（または言い換えれば、ステレオオーディオ信号）を表すように、上記に記載した計算を実行することができる。いくつかのそのようなシナリオでは、無相関化ユニット４０’は、無相関化されたＨＯＡ係数４７’’の一部としてＴ信号とＱ信号とを出力することができるが、ビットストリーム２１を受信する復号デバイスは、ステレオスピーカージオメトリ（または言い換えれば、ステレオスピーカー構成）にレンダリングするとき、Ｔ信号とＱ信号とを処理しない場合がある。例では、ＨＯＡ係数４７’は、モノオーディオ再生システム上でレンダリングされるべき音場を表し得る。無相関化ユニット４０’は、無相関化されたＨＯＡ係数４７’’の一部としてＳ信号とＤ信号とを出力することができ、ビットストリーム２１を受信する復号デバイスは、モノオーディオフォーマットでレンダリングおよび／または出力されるべきオーディオ信号を形成するために、Ｓ信号とＤ信号とを組み合わせる（または「混合」する）ことができる。これらの例では、復号デバイスおよび／または再生デバイスは、様々な方法でモノオーディオ信号を復元することができる。一例は、（Ｓ信号とＤ信号とによって表される）左信号と右信号とを混合することによるものである。別の例は、（図５に関して以下でより詳細に説明される）Ｗ信号を復号するためにＵＨＪ行列（または位相ベース変換）を適用することによるものである。ＵＨＪ行列（または位相ベース変換）を適用することでＳ信号およびＤ信号の形態で自然左信号と自然右信号とを生成することによって、無相関化ユニット４０’は、（ＭＰＥＧ−Ｈ規格に記載されたモード行列などの）他の無相関化変換を適用する技法に対して潜在的な利点および／または潜在的な改善を実現するための本開示の技法を実装し得る。

[0078]様々な例では、無相関化ユニット４０’は、受信されたＨＯＡ係数４７’のビットレートに基づいて、異なる無相関化変換を適用することができる。たとえば、無相関化ユニット４０’は、ＨＯＡ係数４７’が４チャネル入力を表すシナリオにおいて、上記で説明されたＵＨＪ行列（または位相ベース変換）を適用することができる。より具体的には、４チャネル入力を表すＨＯＡ係数４７’に基づいて、無相関化ユニット４０’は、４×４ＵＨＪ行列（または位相ベース変換）を適用することができる。たとえば、４×４行列は、ＨＯＡ係数４７’の４チャネル入力に直交し得る。言い換えれば、ＨＯＡ係数４７’がより少ない数のチャネル（たとえば、４）を表す事例では、無相関化ユニット４０’は、ＨＯＡ信号４７’のバックグラウンド信号を無相関化して、無相関化されたＨＯＡ係数４７’’を取得するために、選択された無相関化変換としてＵＨＪ行列を適用することができる。

[0079]この例によれば、ＨＯＡ係数４７’がより多い数のチャネル（たとえば、９）を表す場合、無相関化ユニット４０’は、ＵＨＪ行列（または位相ベース変換）とは異なる無相関化変換を適用することができる。たとえば、ＨＯＡ係数４７’が９チャネル入力を表すシナリオでは、無相関化ユニット４０’は、ＨＯＡ係数４７’を無相関化するために、（たとえば、ＭＰＥＧ−Ｈ規格に記載された）モード行列を適用することができる。ＨＯＡ係数４７’が９チャネル入力を表す例では、無相関化ユニット４０’は、無相関化されたＨＯＡ係数４７’’を取得するために、９×９モード行列を適用することができる。

[0080]今度は、（聴覚心理オーディオコーダ４０などの）オーディオ符号化デバイス２０の様々な構成要素は、ＡＡＣまたはＵＳＡＣに従って、無相関化されたＨＯＡ係数４７’’を知覚的にコーディングすることができる。無相関化ユニット４０’は、ＨＯＡのＡＡＣ／ＵＳＡＣコーディングを最適化するために、位相シフト無相関化変換（たとえば、４チャネル入力の場合はＵＨＪ行列または位相ベース変換）を適用することができる。ＨＯＡ係数４７’（およびそれによって、無相関化されたＨＯＡ係数４７’’）がステレオ再生システム上でレンダリングされるべきオーディオデータを表す例では、無相関化ユニット４０’は、ＡＡＣおよびＵＳＡＣが相対的にステレオオーディオデータ指向である（またはステレオオーディオデータ用に最適化されている）ことに基づいて、圧縮を改善または最適化するための本開示の技法を適用することができる。

[0081]無相関化ユニット４０’は、エネルギー補償されたＨＯＡ係数４７’がフォアグラウンドチャネルを含む状況において、同様に、エネルギー補償されたＨＯＡ係数４７’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、無相関化ユニット４０’は、エネルギー補償されたＨＯＡ係数４７’が０個（０）のフォアグラウンドチャネルと４個（４）のバックグラウンドチャネルとを含むシナリオ（たとえば、より低い／より少ないビットレートのシナリオ）において、上記で説明された技法および／または計算を適用することができる。

[0082]いくつかの例では、無相関化ユニット４０’は、ビットストリーム生成ユニット４２に、ベクトルベースビットストリーム２１の一部として、無相関化ユニット４０’が無相関化変換をＨＯＡ係数４７’に適用したことを示す１つまたは複数のシンタックス要素をシグナリングさせ得る。そのような指示を復号デバイスに与えることによって、無相関化ユニット４０’は、復号デバイスがＨＯＡ領域におけるオーディオデータに対して相互無相関化変換（reciprocal decorrelation transforms）を実行するのを可能にし得る。いくつかの例では、無相関化ユニット４０’は、ビットストリーム生成ユニット４２に、ＵＨＪ行列（もしくは他の位相ベース変換）またはモード行列など、どの無相関化変換が適用されたかを示すシンタックス要素をシグナリングさせ得る。

[0083]無相関化ユニット４０’は、位相ベース変換をエネルギー補償された環境ＨＯＡ係数４７’に適用することができる。Ｃ_AMB（ｋ−１）の第１のＯ_MIN ＨＯＡ係数シーケンスのための位相ベース変換は、

によって定義され、係数ｄは、表１に定義されるとおりであり、信号フレームＳ（ｋ−２）およびＭ（ｋ−２）は、

によって定義され、Ａ₊₉₀（ｋ−２）およびＢ₊₉₀（ｋ−２）は、

によって定義される、＋９０度位相シフトされた信号ＡおよびＢのフレームである。
Ｃ_P,AMB（ｋ−１）の第１のＯ_MIN ＨＯＡ係数シーケンスのための位相ベース変換は、それに応じて定義される。説明される変換は、１フレームの遅延を導入する場合がある。

[0084]上記では、ｘ_AMB,LOW,1（ｋ−２）〜ｘ_AMB,LOW,4（ｋ−２）は、無相関化された環境ＨＯＡ係数４７’’に対応し得る。上記の式では、変数Ｃ_AMB,1（ｋ）変数は、「Ｗ」チャネルまたは成分と呼ばれることもある、（０：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,2（ｋ）変数は、「Ｙ」チャネルまたは成分と呼ばれることもある、（１：−１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,3（ｋ）変数は、「Ｚ」チャネルまたは成分と呼ばれることもある、（１：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,4（ｋ）変数は、「Ｘ」チャネルまたは成分と呼ばれることもある、（１：１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。Ｃ_AMB,1（ｋ）〜Ｃ_AMB,3（ｋ）は、環境ＨＯＡ係数４７’に対応し得る。

[0085]以下の表１は、無相関化ユニット４０が位相ベース変換を実行するために使用することができる係数の一例を示す。

[0086]いくつかの例では、（ビットストリーム生成ユニット４２などの）オーディオ符号化デバイス２０の様々な構成要素は、より低いターゲットビットレート（たとえば、１２８Ｋまたは２５６Ｋのターゲットビットレート）用の１次ＨＯＡ表現のみを送信するように構成され得る。いくつかのそのような例によれば、オーディオ符号化デバイス２０（または、ビットストリーム生成ユニット４２などの、その構成要素）は、高次ＨＯＡ係数（たとえば、１次よりも大きい次数を有する、または言い換えれば、Ｎ＞１である係数）を破棄するように構成され得る。ただし、ターゲットビットレートが比較的高いとオーディオ符号化デバイス２０が決定する例では、オーディオ符号化デバイス２０（たとえば、ビットストリーム生成ユニット４２）はフォアグラウンドチャネルとバックグラウンドチャネルとを分離することができ、（たとえば、より多くの量の）ビットをフォアグラウンドチャネルに割り当てることができる。

[0087]オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、無相関化されたＨＯＡ係数４７’’および補間されたｎＦＧ信号４９‘の各々の異なるオーディオオブジェクトまたはＨＯＡチャネルを符号化するために使用される。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力することができる。

[0088]オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、既知のフォーマット（復号デバイスによって知られているフォーマットを指し得る）に適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例ではマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信することができる。ビットストリーム生成ユニット４２は次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。このようにして、ビットストリーム生成ユニット４２は、それにより、ビットストリーム２１を取得するために、ビットストリーム２１内のベクトル５７を指定することができる。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0089]図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが指向性ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（たとえば、指向性ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）指向性ベース合成が実行されたか、または（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が実行されたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

[0090]その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得る、ＢＧ_TOT環境ＨＯＡ係数４７を特定することができる（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去またはそれに対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じることが多い。

[0091]結果として、音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成することができる（ここで、この変化はまた、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれることもある）。具体的には、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与えることができる。

[0092]係数低減ユニット４６は、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正することもできる。一例では、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」とも呼ばれ得る）ベクトル係数を指定することができる。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。したがって、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるか否かに影響を及ぼす。係数低減ユニット４６が、エネルギーにおける変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定することができる方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」という名称の米国特許出願第１４／５９４，５３３号において提供されている。

[0093]したがって、オーディオ符号化デバイス２０は、環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を環境アンビソニック係数に適用することを行うように構成された、オーディオを圧縮するためのデバイスの一例を表し、ここで、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる。いくつかの例では、無相関化変換を適用するために、デバイスは、ＵＨＪ行列を環境アンビソニック係数に適用するように構成される。

[0094]いくつかの例では、デバイスは、Ｎ３Ｄ（フル３Ｄ）正規化に従ってＵＨＪ行列を正規化するようにさらに構成される。いくつかの例では、デバイスは、ＳＮ３Ｄ正規化（シュミット半正規化）に従ってに従ってＵＨＪ行列を正規化するようにさらに構成される。いくつかの例では、環境アンビソニック係数は、０の次数または１の次数を有する球面基底関数に関連付けられ、ＵＨＪ行列を環境アンビソニック係数に適用するために、デバイスは、環境アンビソニック係数の少なくともサブセットに対してＵＨＪ行列のスカラー乗算を実行するように構成される。いくつかの例では、無相関化変換を適用するために、デバイスは、モード行列を環境アンビソニック係数に適用するように構成される。

[0095]いくつかの例によれば、無相関化変換を適用するために、デバイスは、無相関化された環境アンビソニック係数から左信号と右信号とを取得するように構成される。いくつかの例によれば、デバイスは、１つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される。いくつかの例によれば、１つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするために、デバイスは、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、１つまたは複数のフォアグラウンドチャネルとともに無相関化された環境アンビソニック係数をシグナリングするように構成される。

[0096]いくつかの例では、デバイスは、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される。いくつかの例では、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするために、デバイスは、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、無相関化された環境アンビソニック係数をシグナリングするように構成される。いくつかの例では、デバイスは、無相関化変換が環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される。いくつかの例では、デバイスは、圧縮されるべきオーディオデータをキャプチャするように構成されたマイクロフォンアレイをさらに含む。

[0097]図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、指向性ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２と、再相関化ユニット８１とを含み得る。

[0098]以下で説明されるが、オーディオ復号デバイス２４に関するより多くの情報、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様は、２０１４年５月２９日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0099]抽出ユニット７２は、ビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述されたシンタックス要素から決定することができる。指向性ベース符号化が実行されたとき、抽出ユニット７２は、ＨＯＡ係数１１の指向性ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では指向性ベース情報９１として示される）とを抽出し、指向性ベース情報９１を指向性ベース再構成ユニット９０に渡すことができる。指向性ベース再構成ユニット９０は、指向性ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。ビットストリームおよびビットストリーム内のシンタックス要素の構成が、以下で説明される。

[0100]ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化されたｎＦＧ信号６１と呼ばれる場合もある）とを抽出することができる。オーディオオブジェクト６１はそれぞれベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡すことができる。

[0101]Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７から、Ｖベクトルを再構成するように構成されるユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の動作と逆の方法で動作することができる。

[0102]聴覚心理復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作することができる。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’を再相関化ユニット８１に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。今度は、再相関化ユニット８１は、１つまたは複数の再相関化されたＨＯＡ係数４７’’（または相関化されたＨＯＡ係数４７’’）を取得するために、１つまたは複数の再相関化変換をエネルギー補償された環境ＨＯＡ係数４７’に適用することができ、相関化されたＨＯＡ係数４７’’を（場合によっては、フェードユニット７７０を通じて）ＨＯＡ係数編成ユニット８２に渡すことができる。

[0103]オーディオ符号化デバイス２０の無相関化ユニット４０’に関する上記の説明と同様に、再相関化ユニット８１は、ノイズマスキング解除を低減または緩和するためにエネルギー補償された環境ＨＯＡ係数４７’のバックグラウンドチャネル間の相関を低減するための本開示の技法を実装し得る。再相関化ユニット８１が選択された再相関化変換としてＵＨＪ行列（たとえば、逆ＵＨＪ行列）を適用する例では、再相関化ユニット８１は、データ処理動作を低減することによって、圧縮レートを改善し、コンピューティングリソースを節約することができる。いくつかの例では、ベクトルベースのビットストリーム２１は、符号化中に無相関化変換が適用されたことを示す１つまたは複数のシンタックス要素を含み得る。そのようなシンタックス要素をベクトルベースのビットストリーム２１に含めることは、再相関化ユニット８１がエネルギー補償されたＨＯＡ係数４７’に対して相互無相関化（reciprocal decorrelation）（たとえば、相関化（correlation）または再相関化（recorrelation））変換を実行するのを可能にし得る。いくつかの例では、信号シンタックス要素は、ＵＨＪ行列またはモード行列など、どの無相関化変換が適用されたかを示し、それによって、再相関化ユニット８１がエネルギー補償されたＨＯＡ係数４７’に適用すべき適切な再相関化変換を選択するのを可能にすることができる。

[0104]ベクトルベース再構成ユニット９２がＨＯＡ係数１１’をステレオシステムを備える再生システムに出力する例では、再相関化ユニット８１は、再相関化されたＨＯＡ係数４７’’を生成するために、Ｓ信号とＤ信号と（たとえば、自然左信号と自然右信号と）を処理することができる。たとえば、Ｓ信号とＤ信号とは、自然左信号と自然右信号とを表すので、再生システムは、２つのステレオ出力ストリームとしてＳ信号とＤ信号とを使用することができる。再構成ユニット９２がＨＯＡ係数１１’をモノオーディオシステムを備える再生システムに出力する例では、再生システムは、再生用のモノオーディオ出力を取得するために、（ＨＯＡ係数１１’において表される）Ｓ信号とＤ信号とを組み合わせるかまたは混合することができる。モノオーディオシステムの例では、再生システムは、オーディオ出力を生成するために、混合されたモノオーディオ出力を（任意のフォアグラウンドチャネルがある場合）１つまたは複数のフォアグラウンドチャネルに加えることができる。

[0105]いくつかの既存のＵＨＪ対応エンコーダに関して、信号は、Ｂフォーマットに似ている信号のセットを復元するために、位相振幅行列において処理される。たいていの場合、信号は実際にＢフォーマットであるが、２チャネルＵＨＪの場合、真のＢフォーマット信号ではなく、むしろＢフォーマット信号と同様の特性を示す信号を再構成することができるように利用可能な十分な情報がない。情報は次いで、シェルフフィルタのセットを介して、スピーカーフィードを作る振幅行列に渡され、シェルフフィルタは、より小さいリスニング環境におけるデコーダの精度と性能とを改善する（これらは、より大規模の適用例では省略される場合がある）。アンビソニックスは、実際の部屋（たとえば、リビングルーム）と実際的なスピーカー位置とに適合するように設計された。すなわち、多くのそのような部屋は長方形であり、結果として、基本システムは、長さが１：２（幅が長さの２倍）から２：１（長さが幅の２倍）の辺を有する長方形内の４つのラウドスピーカーに対して復号するように設計されたので、そのような部屋の大半に適合する。レイアウト制御は概して、デコーダがラウドスピーカー位置用に構成されるのを可能にするために行われる。レイアウト制御は、他のサラウンドサウンドシステムとは異なるアンビソニックリプレイの一態様であり、デコーダは、スピーカーアレイのサイズおよびレイアウト用に特に構成され得る。レイアウト制御は、回転ノブ、２ウェイ（１：２，２：１）スイッチまたは３ウェイ（１：２，１：１，２：１）スイッチの形態をとることができる。４つのスピーカーは、水平方向サラウンド復号に必要とされる最小値であり、４スピーカーレイアウトは、いくつかのリスニング環境に適切であり得るが、より大きい空間は、フルサラウンド定位を与えるために、より多くのスピーカーを必要とし得る。

[0106]再相関化変換としてＵＨＪ行列（たとえば、逆ＵＨＪ行列または逆位相ベース変換）を適用することに関して再相関化ユニット８１が実行することができる計算の一例が以下に記載される。

[0107]ＵＨＪ復号：

[0108]上記の計算のいくつかの例示的な実装形態では、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、１次アンビソニックスＦｕＭａ正規化される。

[0109]再相関化変換としてＵＨＪ行列（または逆位相ベース変換）を適用することに関して再相関化ユニット８１が実行することができる計算の一例が以下に記載される。

[0110]ＵＨＪ復号：

[0111]上記の計算のいくつかの実装形態では、上記の計算に関する仮定は以下を含み得る。ＨＯＡバックグラウンドチャネルは、アンビソニックスチャネル番号付け順序Ｗ（ａ００）、Ｘ（ａ１１）、Ｙ（ａ１１−）、Ｚ（ａ１０）で、１次アンビソニックスＮ３Ｄ（すなわち「フル３Ｄ」）正規化される。Ｎ３Ｄ正規化に関して本明細書で説明されるが、例示的な計算は、ＳＮ３Ｄ正規化された（すなわち「シュミット半正規化された）ＨＯＡバックグラウンドチャネルにも適用され得ることを諒解されよう。図４に関して上記で説明されたように、Ｎ３Ｄ正規化およびＳＮ３Ｄ正規化は、使用されるスケーリングファクタの点で異なり得る。Ｎ３Ｄ正規化において使用されるスケーリングファクタの例示的な表現は、図４に関して上記で説明された。ＳＮ３Ｄ正規化において使用される重み付け係数の例示的な表現は、図４に関して上記で説明された。

[0112]いくつかの例では、エネルギー補償されたＨＯＡ係数４７’は、いかなる垂直方向チャネルも含まないオーディオデータなど、水平方向のみのレイアウトを表し得る。これらの例では、Ｚ信号は垂直方向の指向性オーディオデータを表すので、再相関化ユニット８１は、上記のＺ信号に対して計算を実行しない場合がある。代わりに、これらの例では、Ｗ信号、Ｘ信号、およびＹ信号は、水平方向の指向性データを表すので、再相関化ユニット８１は、Ｗ信号、Ｘ信号、およびＹ信号のみに対して上記の計算を実行することができる。エネルギー補償されたＨＯＡ係数４７’がモノオーディオ再生システム上でレンダリングされるべきオーディオデータを表すいくつかの例では、再相関化ユニット８１は、上記の計算からＷ信号のみを導出することができる。より具体的には、得られたＷ信号はモノオーディオデータを表すので、Ｗ信号は、エネルギー補償されたＨＯＡ係数４７’がモノオーディオフォーマットでレンダリングされるべきデータを表す場合、または再生システムがモノオーディオシステムを備える場合に、必要なすべてのデータを提供することができる。

[0113]オーディオ符号化デバイス２０の無相関化ユニット４０’に関して上記で説明されたのと同様に、再相関化ユニット８１は、例では、エネルギー補償されたＨＯＡ係数４７’がより少ない数のバックグラウンドチャネルを含むシナリオにおいては、ＵＨＪ行列（または逆ＵＨＪ行列もしくは逆位相ベース変換）を適用することができるが、エネルギー補償されたＨＯＡ係数４７がより多くの数のバックグラウンドチャネルを含むシナリオにおいては、（たとえば、ＭＰＥＧ−Ｈ規格に記載された）モード行列または逆モード行列を適用することができる。

[0114]再相関化ユニット８１は、エネルギー補償されたＨＯＡ係数４７’がフォアグラウンドチャネルを含む状況において、同様に、エネルギー補償されたＨＯＡ係数４７’がいかなるフォアグラウンドチャネルも含まない状況においても、本明細書で説明される技法を適用することができることが理解されよう。一例として、再相関化ユニット８１は、エネルギー補償されたＨＯＡ係数４７’が０個（０）のフォアグラウンドチャネルと８個（８）のバックグラウンドチャネルとを含むシナリオ（たとえば、より低い／より少ないビットレートのシナリオ）において、上記で説明された技法および／または計算を適用することができる。

[0115]再相関化ユニット８１などのオーディオ復号デバイス２４の様々な構成要素は、フラグＵｓｅＰｈａｓｅＳｈｉｆｔＤｅｃｏｒｒなど、無相関化のために２つの処理方法のうちのどちらが適用されたかを決定するためのシンタックス要素であり得る。無相関化ユニット４０’が無相関化のために空間変換を使用した事例では、再相関化ユニット８１は、ＵｓｅＰｈａｓｅＳｈｉｆｔＤｅｃｏｒｒフラグが０の値に設定されると決定することができる。

[0116]ＵｓｅＰｈａｓｅＳｈｉｆｔＤｅｃｏｒｒフラグが１の値に設定されると再相関化ユニット８１が決定する場合、再相関化ユニット８１は、位相ベース変換を使用して再相関化が実行されるべきであると決定することができる。フラグＵｓｅＰｈａｓｅＳｈｉｆｔＤｅｃｏｒｒが値１である場合、

によって環境ＨＯＡ成分の第１の４つの係数シーケンスを再構成するために以下の処理が適用され、係数ｃは、以下の表１に定義されるとおりであり、Ａ₊₉₀（ｋ）およびＢ₊₉₀（ｋ）は、

によって定義される、＋９０度位相シフトされた信号ＡおよびＢのフレームである。

[0117]以下の表２は、無相関化ユニット４０’が位相ベース変換を実装するために使用することができる例示的な係数を示す。

[0118]上記の式では、変数Ｃ_AMB,1（ｋ）変数は、「Ｗ」チャネルまたは成分と呼ばれることもある、（０：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,2（ｋ）変数は、「Ｙ」チャネルまたは成分と呼ばれることもある、（１：−１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,3（ｋ）変数は、「Ｚ」チャネルまたは成分と呼ばれることもある、（１：０）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。変数Ｃ_AMB,4（ｋ）変数は、「Ｘ」チャネルまたは成分と呼ばれることもある、（１：１）の（次数：副次数）を有する球面基底関数に対応するｋ番目のフレームのためのＨＯＡ係数を示す。Ｃ_AMB,1（ｋ）〜Ｃ_AMB,3（ｋ）は、環境ＨＯＡ係数４７’に対応し得る。

[0119]上記の［Ｃ_I,AMB,1（ｋ）＋Ｃ_I,AMB,2（ｋ）］表記は、右チャネルを加えた左チャネルと等価である、代替的に「Ｓ」と呼ばれるものを示す。Ｃ_I,AMB,1（ｋ）変数は、ＵＨＪ符号化の結果として生成された左チャネルを示すが、Ｃ_I,AMB,2（ｋ）変数は、ＵＨＪ符号化の結果として生成された右チャネルを示す。下付き文字の「Ｉ」表記は、対応するチャネルが（たとえば、ＵＨＪ行列または位相ベース変換の適用によって）他の環境チャネルから無相関化されていることを示す。［Ｃ_I,AMB,1（ｋ）−Ｃ_I,AMB,2（ｋ）］表記は、右チャネルを引いた左チャネルを表す、本開示全体にわたって「Ｄ」と呼ばれるものを示す。Ｃ_I,AMB,3（ｋ）変数は、本開示全体にわたって変数「Ｔ」と呼ばれるものを示す。Ｃ_I,AMB,4（ｋ）変数は、本開示全体にわたって変数「Ｑ」と呼ばれるものを示す。

[0120]Ａ₊₉₀表記は、（本開示全体にわたって変数「ｈ１」によっても示される）Ｓを乗じたｃ（０）の正の９０度位相シフトを示す。Ｂ₊₉₀（ｋ）表記は、（本開示全体にわたって変数「ｈ２」によっても示される）Ｄを乗じたｃ（１）の負の９０度位相シフトを示す。

[0121]空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明されたものと同様の方法で動作することができる。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を実行することができる。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0122]抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７を、フェードユニット７７０に出力することもでき、フェードユニット７７０は次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は、「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」とも呼ばれ得る）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定することができる。いくつかの例では、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作することができる。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を実行することができ、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力することができる。この点において、フェードユニット７７０は、ＨＯＡ係数またはその派生物の様々な態様に関して、たとえば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード動作を実行するように構成されたユニットを表す。

[0123]フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を実行するように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、フォアグラウンド、または言い換えると、ＨＯＡ係数１１’の支配的態様を再構成するために、オーディオオブジェクト４９’（それは、補間されたｎＦＧ４９’を表す別の方法である）をベクトル５５_k’’’と組み合わせることができる。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’による補間されたｎＦＧ信号４９’の行列乗算を実行することができる。

[0124]ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じではないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0125]ＵＨＪは、１次アンビソニックス定数から２チャネルステレオストリームを作成するために使用されている行列変換方法である。ＵＨＪは、これまで、ＦＭ送信機を介してステレオまたは水平方向のみのサラウンドコンテンツを送信するために使用されてきた。しかしながら、ＵＨＪはＦＭ送信機において使用することに限定されないことが諒解されよう。ＭＰＥＧ−ＨＨＯＡ符号化方式では、ＨＯＡバックグラウンドチャネルは、ＨＯＡバックグラウンドチャネルを空間領域における直交点に変換するために、モード行列を用いて前処理され得る。変換されたチャネルは次いで、ＵＳＡＣまたはＡＡＣを介して知覚的にコーディングされる。

[0126]本開示の技法は、概して、このモード行列を使用する代わりに、ＨＯＡバックグラウンドチャネルをコーディングする適用例において、ＵＨＪ変換（または位相ベース変換）を使用することを対象とする。両方の方法（（１）モード行列を介して空間領域に変換すること（２）ＵＨＪ変換）は、概して、復号された音場内のノイズマスキング解除の（潜在的に望ましくない）効果をもたらす場合があるＨＯＡバックグラウンドチャネル間の相関を低減することを対象とする。

[0127]したがって、オーディオ復号デバイス２４は、例では、少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、環境アンビソニック係数の無相関化された表現に基づいてスピーカーフィードを生成することとを行うように構成されたデバイスを表し得る。いくつかの例では、デバイスは、複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を環境アンビソニック係数の無相関化された表現に適用するようにさらに構成される。

[0128]いくつかの例では、再相関化変換を適用するために、デバイスは、逆ＵＨＪ行列（または位相ベース変換）を環境アンビソニック係数に適用するように構成される。いくつかの例によれば、逆ＵＨＪ行列（または逆位相ベース変換）は、Ｎ３Ｄ（フル３Ｄ）正規化に従って正規化されている。いくつかの例によれば、逆ＵＨＪ行列（または逆位相ベース変換）は、ＳＮ３Ｄ正規化（シュミット半正規化）に従って正規化されている。

[0129]いくつかの例によれば、環境アンビソニック係数は、０の次数または１の次数を有する球面基底関数に関連付けられ、逆ＵＨＪ行列（または逆位相ベース変換）を適用するために、デバイスは、環境アンビソニック係数の無相関化された表現に対してＵＨＪ行列のスカラー乗算を実行するように構成される。いくつかの例では、再相関化変換を適用するために、デバイスは、逆モード行列を環境アンビソニック係数の無相関化された表現に適用するように構成される。いくつかの例では、スピーカーフィードを生成するために、デバイスは、ステレオ再生システムによる出力のために、左信号に基づいて左スピーカーフィードを生成し、右信号に基づいて右スピーカーフィードを生成するように構成される。

[0130]いくつかの例では、スピーカーフィードを生成するために、デバイスは、再相関化変換を右信号と左信号とに適用することなしに、左スピーカーフィードとして左信号を使用し、右スピーカーフィードとして右信号を使用するように構成される。いくつかの例によれば、スピーカーフィードを生成するために、デバイスは、モノオーディオシステムによる出力のために、左信号と右信号とを混合するように構成される。いくつかの例によれば、スピーカーフィードを生成するために、デバイスは、相関化された環境アンビソニック係数を１つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される。

[0131]いくつかの例によれば、デバイスは、相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される。いくつかの例では、デバイスは、音場がモノオーディオ再生システムを介して出力されるべきであると決定し、モノオーディオ再生システムによる出力のためのデータを含む無相関化された高次アンビソニック係数の少なくともサブセットを復号するようにさらに構成される。いくつかの例では、デバイスは、環境アンビソニック係数の無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される。いくつかの例によれば、デバイスは、環境アンビソニック係数の無相関化された表現に基づいて生成されたスピーカーフィードを出力するように構成されたラウドスピーカーアレイをさらに含む。

[0132]図５は、本開示で説明されるベクトルベース合成技法の様々な態様を実行する際の、図３の例に示されるオーディオ符号化デバイス２０などのオーディオ符号化デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ符号化デバイス２０は、ＨＯＡ係数１１を受信する（１０６）。オーディオ符号化デバイス２０はＬＩＴユニット３０を呼び出すことができ、ＬＩＴユニット３０は、変換されたＨＯＡ係数（たとえば、ＳＶＤの場合、変換されたＨＯＡ係数はＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを備え得る）を出力するためにＨＯＡ係数に関してＬＩＴを適用することができる（１０７）。

[0133]オーディオ符号化デバイス２０は次に、上記で説明された方法で様々なパラメータを特定するために、ＵＳ［ｋ］ベクトル３３、ＵＳ［ｋ−１］ベクトル３３、Ｖ［ｋ］ベクトルおよび／またはＶ［ｋ−１］ベクトル３５の任意の組合せに関して上記で説明された分析を実行するために、パラメータ計算ユニット３２を呼び出すことができる。すなわち、パラメータ計算ユニット３２は、変換されたＨＯＡ係数３３／３５の分析に基づいて少なくとも１つのパラメータを決定することができる（１０８）。

[0134]オーディオ符号化デバイス２０は次いで、並べ替えユニット３４を呼び出すことができ、並べ替えユニット３４は、上記で説明されたように、並べ替えられた変換されたＨＯＡ係数３３’／３５’（または言い換えれば、ＵＳ［ｋ］ベクトル３３’およびＶ［ｋ］ベクトル３５’）を生成するために、パラメータに基づいて、変換されたＨＯＡ係数（この場合も、ＳＶＤの文脈では、ＵＳ［ｋ］ベクトル３３とＶ［ｋ］ベクトル３５とを指し得る）を並べ替えることができる（１０９）。オーディオ符号化デバイス２０は、前述の演算または後続の演算のいずれかの間に、音場分析ユニット４４を呼び出すこともできる。音場分析ユニット４４は、上記で説明されたように、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド音場の次数（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３としてまとめて示され得る）とを決定するために、ＨＯＡ係数１１および／または変換されたＨＯＡ係数３３／３５に関して音場分析を実行することができる（１０９）。

[0135]オーディオ符号化デバイス２０はまた、バックグラウンド選択ユニット４８を呼び出すことができる。バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報４３に基づいて、バックグラウンドまたは環境ＨＯＡ係数４７を決定することができる（１１０）。オーディオ符号化デバイス２０はさらに、フォアグラウンド選択ユニット３６を呼び出すことができ、フォアグラウンド選択ユニット３６は、ｎＦＧ４５（フォアグラウンドベクトルを特定する１つまたは複数のインデックスを表し得る）に基づいて、音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたＵＳ［ｋ］ベクトル３３’と並べ替えられたＶ［ｋ］ベクトル３５’とを選択することができる（１１２）。

[0136]オーディオ符号化デバイス２０は、エネルギー補償ユニット３８を呼び出すことができる。エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡ係数のうちの様々なものの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を実行し（１１４）、それによって、エネルギー補償された環境ＨＯＡ係数４７’を生成することができる。

[0137]オーディオ符号化デバイス２０はまた、空間時間的補間ユニット５０を呼び出すことができる。空間時間的補間ユニット５０は、補間されたフォアグラウンド信号４９’（「補間されたｎＦＧ信号４９’」とも呼ばれ得る）と残りのフォアグラウンド指向性情報５３（「Ｖ［ｋ］ベクトル５３」とも呼ばれ得る）とを取得するために、並べ替えられた変換されたＨＯＡ係数３３’／３５’に関して空間時間的補間を実行することができる（１１６）。オーディオ符号化デバイス２０は次いで、係数低減ユニット４６を呼び出すことができる。係数低減ユニット４６は、低減されたフォアグラウンド指向性情報５５（低減されたフォアグラウンドＶ［ｋ］ベクトル５５とも呼ばれ得る）を取得するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を実行することができる（１１８）。

[0138]オーディオ符号化デバイス２０は次いで、上記で説明された方法で、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮し、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために、量子化ユニット５２を呼び出すことができる（１２０）。オーディオ符号化デバイス２０はまた、ＨＯＡ係数４７’のバックグラウンド信号間の相関を低減または除去するための位相シフト無相関化を適用して、１つまたは複数の無相関化されたＨＯＡ係数４７’’を形成するために、無相関化ユニット４０’を呼び出すことができる（１２１）。

[0139]オーディオ符号化デバイス２０はまた、聴覚心理オーディオコーダユニット４０を呼び出すことができる。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各ベクトルを聴覚心理コーディングすることができる。オーディオ符号化デバイスは次いで、ビットストリーム生成ユニット４２を呼び出すことができる。ビットストリーム生成ユニット４２は、コーディングされたフォアグラウンド指向性情報５７と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいて、ビットストリーム２１を生成することができる。

[0140]図６Ａは、本開示で説明される技法の様々な態様を実行する際の、図４に示されるオーディオ復号デバイス２４などのオーディオ復号デバイスの例示的な動作を示すフローチャートである。最初に、オーディオ復号デバイス２４は、ビットストリーム２１を受信することができる（１３０）。ビットストリームを受信すると、オーディオ復号デバイス２４は抽出ユニット７２を呼び出すことができる。説明の目的で、ベクトルベース再構成が実行されるべきであることをビットストリーム２１が示すと仮定すると、抽出デバイス７２は、上述された情報を取り出すためにビットストリームを解析し、その情報をベクトルベース再構成ユニット９２に渡すことができる。

[0141]言い換えれば、抽出ユニット７２は、コーディングされたフォアグラウンド指向性情報５７（この場合も、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７とも呼ばれ得る）と、コーディングされた環境ＨＯＡ係数５９と、コーディングされたフォアグラウンド信号（コーディングされたフォアグラウンドｎＦＧ信号５９またはコーディングされたフォアグラウンドオーディオオブジェクト５９とも呼ばれ得る）とを、上記で説明された方法でビットストリーム２１から抽出することができる（１３２）。

[0142]オーディオ復号デバイス２４はさらに、逆量子化ユニット７４を呼び出すことができる。逆量子化ユニット７４は、低減されたフォアグラウンド指向性情報５５_kを取得するために、コーディングされたフォアグラウンド指向性情報５７をエントロピー復号および逆量子化することができる（１３６）。オーディオ復号デバイス２４は、再相関化ユニット８１を呼び出すことができる。再相関化ユニット８１は、１つまたは複数の再相関化されたＨＯＡ係数４７’’（または相関化されたＨＯＡ係数４７’’）を取得するために、１つまたは複数の再相関化変換をエネルギー補償された環境ＨＯＡ係数４７’に適用することができ、相関化されたＨＯＡ係数４７’’を（場合によっては、フェードユニット７７０を通じて）ＨＯＡ係数編成ユニット８２に渡すことができる（１３７）。オーディオ復号デバイス２４はまた、聴覚心理復号ユニット８０を呼び出すことができる。聴覚心理オーディオ復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’と補間されたフォアグラウンド信号４９’とを取得するために、符号化された環境ＨＯＡ係数５９と符号化されたフォアグラウンド信号６１とを復号することができる（１３８）。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡すことができる。

[0143]オーディオ復号デバイス２４は次に、空間時間的補間ユニット７６を呼び出すことができる。空間時間的補間ユニット７６は、並べ替えられたフォアグラウンド指向性情報５５_k’を受信し、また、補間されたフォアグラウンド指向性情報５５_k’’を生成するために、低減されたフォアグラウンド指向性情報５５_k／５５_k-1に関して空間時間的補間を実行することができる（１４０）。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送することができる。

[0144]オーディオ復号デバイス２４は、フェードユニット７７０を呼び出すことができる。フェードユニット７７０は、エネルギー補償された環境ＨＯＡ係数４７’がいつ遷移中であるかを示すシンタックス要素（たとえば、ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎシンタックス要素）を（たとえば、抽出ユニット７２から）受信またはさもなければ取得することができる。フェードユニット７７０は、遷移シンタックス要素と維持された遷移状態情報とに基づいて、エネルギー補償された環境ＨＯＡ係数４７’をフェードインまたはフェードアウトし、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力することができる。フェードユニット７７０はまた、シンタックス要素と維持された遷移状態情報とに基づいて、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の対応する１つまたは複数の要素をフェードアウトまたはフェードインし、フォアグラウンド編成ユニット７８に調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’を出力することができる（１４２）。

[0145]オーディオ復号デバイス２４は、フォアグラウンド編成ユニット７８を呼び出すことができる。フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を取得するために、調整されたフォアグラウンド指向性情報５５_k’’’によるｎＦＧ信号４９’行列乗算を実行することができる（１４４）。オーディオ復号デバイス２４はまた、ＨＯＡ係数編成ユニット８２を呼び出すことができる。ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に加算することができる（１４６）。

[0146]図６Ｂは、本開示で説明されるコーディング技法を実行する際のオーディオ符号化デバイスおよびオーディオ復号デバイスの例示的な動作を示すフローチャートである。図６Ｂは、本開示の１つまたは複数の態様による、例示的な符号化および復号プロセス１６０を示すフローチャートである。プロセス１６０は様々なデバイスによって実行され得るが、説明しやすいように、プロセス１６０は、上記で説明されたオーディオ符号化デバイス２０およびオーディオ復号デバイス２４に関して本明細書で説明される。プロセス１６０の符号化セクションおよび復号セクションは、図６Ｂの破線を使用して区分されている。プロセス１６０は、オーディオ符号化デバイス２０の１つまたは複数の構成要素（たとえば、フォアグラウンド選択ユニット３６およびバックグラウンド選択ユニット４８）が、ＨＯＡ空間符号化を使用してＨＯＡ入力からフォアグラウンドチャネル１６４と１次ＨＯＡバックグラウンドチャネル１６６とを生成する（１６２）ことから始まり得る。今度は、無相関化ユニット４０’は、（たとえば、位相ベース無相関化変換または行列の形態の）無相関化変換をエネルギー補償された環境ＨＯＡ係数４７’に適用することができる。より具体的には、オーディオ符号化デバイス２０は、ＵＨＪ行列または位相ベース無相関化変換（たとえば、スカラー乗算による）をエネルギー補償された環境ＨＯＡ係数４７’に適用することができる（１６８）。

[0147]いくつかの例では、ＨＯＡバックグラウンドチャネルがより少ない数のチャネル（たとえば、４）を含むと無相関化ユニット４０’が決定する事例では、無相関化ユニット４０’場合、無相関化ユニット４０’は、ＵＨＪ行列（または位相ベース変換）を適用することができる。逆に、これらの例では、ＨＯＡバックグラウンドチャネルがより多い数のチャネル（たとえば、９）を含むと無相関化ユニット４０’が決定する場合、オーディオ符号化デバイス２０は、（ＭＰＥＧ−Ｈ規格に記載されたモード行列などの）ＵＨＪ行列とは異なる無相関化変換を選択し、ＨＯＡバックグラウンドチャネルに適用することができる。無相関化変換（たとえば、ＵＨＪ行列）をＨＯＡバックグラウンドチャネルに適用することによって、オーディオ符号化デバイス２０は、無相関化されたＨＯＡバックグラウンドチャネルを取得することができる。

[0148]図６Ｂに示されるように、オーディオ符号化デバイス２０は（たとえば、聴覚心理オーディオコーダユニット４０を呼び出すことによって）、（たとえば、ＡＡＣおよび／またはＵＳＡＣを適用することによって）時間的符号化を無相関化されたＨＯＡバックグラウンド信号に適用し（１７０）、任意のフォアグラウンドチャネルに適用することができる（１６６）。いくつかのシナリオでは、聴覚心理オーディオコーダユニット４０は、フォアグラウンドチャネルの数が０であり得ると決定することができる（すなわち、これらのシナリオでは、聴覚心理オーディオコーダユニット４０は、ＨＯＡ入力からいかなるフォアグラウンドチャネルも取得しない場合がある）ことが諒解されよう。ＡＡＣおよび／またはＵＳＡＣは最適化されていないかまたはさもなければステレオオーディオデータに適していない場合があるので、無相関化ユニット４０’は、ＨＯＡバックグラウンドチャネル間の相関を低減または除去するために無相関化行列を適用することができる。ＡＡＣおよびＵＳＡＣはステレオオーディオデータ用に最適化されていない場合があるので、無相関化されたＨＯＡバックグラウンドチャネルにおいて示される低減された相関は、ＡＡＣ／ＵＳＡＣ時間的符号化段階においてノイズマスキング解除を緩和または除去する潜在的な利点を実現する。

[0149]今度は、オーディオ復号デバイス２４は、オーディオ符号化デバイス２０によって出力された符号化ビットストリームの時間的復号を実行することができる。プロセス１６０の例では、オーディオ復号デバイス２４の１つまたは複数の構成要素（たとえば、聴覚心理復号ユニット８０）は、（ビットストリームに任意のフォアグラウンドチャネルが含まれる場合）フォアグラウンドチャネルに対して（１７２）およびバックグラウンドチャネルに対して（１７４）、別々に時間的復号を実行することができる。加えて、再相関化ユニット８１は、再相関化変換を時間的に復号されたＨＯＡバックグラウンドチャネルに適用することができる。一例として、再相関化ユニット８１は、相互に無相関化変換を無相関化ユニット４０’に適用することができる。たとえば、プロセス１６０の具体例で説明されるように、再相関化ユニット８１は、ＵＨＪ行列または位相ベース変換を時間的に復号されたＨＯＡバックグラウンド信号に適用することができる（１７６）。

[0150]いくつかの例では、時間的に復号されたＨＯＡバックグラウンドチャネルがより少ない数のチャネル（たとえば、４）を含むと再相関化ユニット８１が決定する場合、再相関化ユニット８１は、ＵＨＪ行列または位相ベース変換を適用することができる。逆に、これらの例では、時間的に復号されたＨＯＡバックグラウンドチャネルがより多い数のチャネル（たとえば、９）を含むと再相関化ユニット８１が決定する場合、再相関化ユニット８１は、（ＭＰＥＧ−Ｈ規格に記載されたモード行列などの）ＵＨＪ行列とは異なる無相関化変換を選択し、ＨＯＡバックグラウンドチャネルに適用することができる。

[0151]加えて、ＨＯＡ係数編成ユニット８２は、相関化されたＨＯＡバックグラウンドチャネルと任意の利用可能な復号されたフォアグラウンドチャネルとのＨＯＡ空間復号を実行することができる（１７８）。今度は、ＨＯＡ係数編成ユニット８２は、復号されたオーディオ信号を、（限定はしないが、ステレオまたはサラウンドサウンド機能を有する出力デバイスを含む）ラウドスピーカーおよび／またはヘッドフォンなどの１つまたは複数の出力デバイスにレンダリングすることができる（１８０）。

[0152]上記の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が以下で説明されるが、本技法はそれらの例示的な状況に限定されるべきではない。１つの例示的なオーディオエコシステムは、オーディオコンテンツ、映画スタジオ、音楽スタジオ、ゲーミングオーディオスタジオ、チャネルベースオーディオコンテンツ、コーディングエンジン、ゲームオーディオステム、ゲームオーディオコーディング／レンダリングエンジン、および配信システムを含み得る。

[0153]映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信することができる。いくつかの例では、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（たとえば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力することができる。音楽スタジオは、ＤＡＷを使用することなどによって、（たとえば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力することができる。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、１つまたは複数のコーデック（たとえば、ＡＡＣ、ＡＣ３、ＤｏｌｂｙＴｒｕｅＨＤ、ＤｏｌｂｙＤｉｇｉｔａｌＰｌｕｓ、およびＤＴＳＭａｓｔｅｒＡｕｄｉｏ）に基づいたチャネルベースのオーディオコンテンツを受信し符号化することができる。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0154]放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、ＨＯＡオーディオフォーマットを使用して、それらの出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、ならびにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６など、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１などの特定の構成を必要とすることとは対照的に）再生され得る。

[0155]本技法が実行され得る状況の他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、有線および／またはワイヤレス獲得デバイス（たとえば、Ｅｉｇｅｎマイクロフォン）、オンデバイスサラウンドサウンドキャプチャ、ならびにモバイルデバイス（たとえば、スマートフォンおよびタブレット）を含み得る。いくつかの例では、有線および／またはワイヤレス獲得デバイスは、有線および／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0156]本開示の１つまたは複数の技法によれば、モバイルデバイスが音場を獲得するために使用され得る。たとえば、モバイルデバイスは、有線および／もしくはワイヤレス獲得デバイス、ならびに／またはオンデバイスサラウンドサウンドキャプチャ（たとえば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得することができる。モバイルデバイスは次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント（たとえば、会合、会議、劇、コンサートなど）を録音し（その音場を獲得し）、録音をＨＯＡ係数へとコーディングすることができる。

[0157]モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用することができる。たとえば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力することができ、このことは再生要素のうちの１つまたは複数に音場を再作成させる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（たとえば、スピーカーアレイ、サウンドバーなど）に信号を出力するために、ワイヤレスおよび／またはワイヤレス通信チャネルを利用することができる。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーションおよび／または１つもしくは複数のドッキングされたスピーカー（たとえば、スマート自動車および／またはスマート住宅の中のサウンドシステム）に信号を出力するために、ドッキング解決手段を利用することができる。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、たとえばリアルなバイノーラルサウンド（binaural sound）を作り出すために、ヘッドフォンレンダリングを利用することができる。

[0158]いくつかの例では、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行うことができる。いくつかの例では、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（たとえば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信することができる。

[0159]本技法が実行され得るまた別の状況は、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。たとえば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（たとえば、機能する）ように構成され得る、ＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例では、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力することができる。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングすることができるレンダリングエンジンに、コーディングされたオーディオコンテンツを出力することができる。

[0160]本技法はまた、例示的なオーディオ獲得デバイスに関して実行され得る。たとえば、本技法は、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して実行され得る。いくつかの例では、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例では、オーディオ符号化デバイス２０は、マイクロフォンから直接ビットストリーム２１を出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0161]別の例示的なオーディオ獲得状況は、１つまたは複数のＥｉｇｅｎマイクロフォンなど、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオエンコーダ２０などのオーディオエンコーダを含み得る。

[0162]モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオエンコーダ２０などのオーディオエンコーダを含み得る。

[0163]耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例では、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。たとえば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周りのすべての活動（たとえば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャすることができる。

[0164]本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイス（accessory enhanced mobile device）に関して実行され得る。いくつかの例では、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。たとえば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述されたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャすることができる。

[0165]本開示で説明される本技法の様々な態様を実行することができる例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してデコーダ２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0166]いくつかの異なる例示的なオーディオ再生環境はまた、本開示で説明される技法の様々な態様を実行するために好適であり得る。たとえば、５．１スピーカー再生環境、２．０（たとえば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を実行するために好適な環境であり得る。

[0167]本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。たとえば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（たとえば、右側のサラウンドスピーカーを配置することが可能ではない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーとともに補償することを可能にする。

[0168]その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見ることができる。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（たとえば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得されデコーダに送信され得、デコーダがＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力することができ、レンダラが再生環境のタイプ（たとえば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングすることができる。

[0169]上記で説明された様々な場合の各々において、オーディオ符号化デバイス２０は、ある方法を実行し、またはさもなければ、オーディオ符号化デバイス２０が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0170]１つまたは複数の例において、前述の機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、コンピュータ可読媒体上の１つまたは複数の命令またはコード上に記憶され、またはこれを介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実装のために命令、コードおよび／またはデータ構造を取り出すために、１つまたは複数のコンピュータあるいは１つまたは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0171]同様に、上記で説明された様々な場合の各々において、オーディオ復号デバイス２４は、ある方法を実行し、またはさもなければ、オーディオ復号デバイス２４が実行するように構成される方法の各ステップを実行するための手段を備え得ることを理解されたい。いくつかの場合には、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの場合には、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成される、専用のプロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が実行するように構成されている方法を実行させる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0172]限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気記憶デバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのではなく、非一時的な有形の記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ここで、ディスク（disk）は、通常、データを磁気的に再生し、一方、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せも、コンピュータ可読媒体の範囲の中に含まれるべきである。

[0173]命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の同等の集積回路またはディスクリート論理回路などの１つもしくは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実装に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明された機能は、符号化および復号のために構成されるか、または複合コーデックに組み込まれる、専用のハードウェアモジュールおよび／またはソフトウェアモジュール内で提供され得る。また、本技法は、１つもしくは複数の回路または論理要素で十分に実装され得る。

[0174]本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）もしくはＩＣのセット（たとえば、チップセット）を含む、多種多様なデバイスまたは装置で実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために様々な構成要素、モジュール、またはユニットが説明されるが、それらの構成要素、モジュール、またはユニットを、必ずしも異なるハードウェアユニットによって実現する必要があるとは限らない。むしろ、上で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記の１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作ハードウェアユニットの集合によって与えられ得る。

[0175]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。

[0175]本開示の様々な態様が説明された。本技法のこれらおよび他の態様は、以下の特許請求の範囲内に入る。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を備える方法。
［Ｃ２］
複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を前記環境アンビソニック係数の前記無相関化された表現に適用することをさらに備える、上記Ｃ１に記載の方法。
［Ｃ３］
前記再相関化変換を適用することが、逆位相ベース変換を前記環境アンビソニック係数に適用することを備える、上記Ｃ２に記載の方法。
［Ｃ４］
前記逆位相ベース変換が、Ｎ３Ｄ（フル３Ｄ）正規化の１つに従って正規化されている、上記Ｃ３に記載の方法。
［Ｃ５］
前記逆位相ベース変換が、ＳＮ３Ｄ正規化（シュミット半正規化）に従って正規化されている、上記Ｃ３に記載の方法。
［Ｃ６］
前記環境アンビソニック係数が、０の次数または１の次数を有する球面基底関数に関連付けられ、前記逆位相ベース変換を適用することが、前記環境アンビソニック係数の前記無相関化された表現に対して位相ベース変換のスカラー乗算を実行することを備える、上記Ｃ３に記載の方法。
［Ｃ７］
環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得することをさらに備える、上記Ｃ１に記載の方法。
［Ｃ８］
前記音場のフォアグラウンド成分の空間特性を定義する１つまたは複数の空間成分を取得すること、ここで、前記空間成分は、球面調和領域において定義され、前記複数の高次アンビソニック係数に対して分解を実行することによって生成される、をさらに備え、
前記スピーカーフィードを生成することが、前記相関化された環境アンビソニック係数を、前記１つまたは複数の空間成分に基づいて取得された１つまたは複数のフォアグラウンドチャネルと組み合わせることを備える、
上記Ｃ１に記載の方法。
［Ｃ９］
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
を備える方法。
［Ｃ１０］
前記無相関化変換を適用することが、位相ベース変換を前記環境アンビソニック係数に適用することを備える、上記Ｃ９に記載の方法。
［Ｃ１１］
Ｎ３Ｄ（フル３Ｄ）正規化に従って前記位相ベース変換を正規化することをさらに備える、上記Ｃ１０に記載の方法。
［Ｃ１２］
ＳＮ３Ｄ正規化（シュミット半正規化）に従って前記位相ベース変換を正規化することをさらに備える、上記Ｃ１０に記載の方法。
［Ｃ１３］
前記環境アンビソニック係数が、０の次数または１の次数を有する球面基底関数に関連付けられ、前記位相ベース変換を前記環境アンビソニック係数に適用することが、前記環境アンビソニック係数の少なくともサブセットに対して前記位相ベース変換のスカラー乗算を実行することを備える、上記Ｃ１０に記載の方法。
［Ｃ１４］
前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングすることをさらに備える、上記Ｃ１０に記載の方法。
［Ｃ１５］
オーディオデータを処理するためのデバイスであって、
処理されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサが、
少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を行うように構成される、
デバイス。
［Ｃ１６］
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、ステレオ再生システムによる出力のために、前記左信号に基づいて左スピーカーフィードを生成し、前記右信号に基づいて右スピーカーフィードを生成するように構成される、上記Ｃ１５に記載のデバイス。
［Ｃ１７］
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、再相関化変換を前記右信号と前記左信号とに適用することなしに、左スピーカーフィードとして前記左信号を使用し、右スピーカーフィードとして前記右信号を使用するように構成される、上記Ｃ１５に記載のデバイス。
［Ｃ１８］
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、モノオーディオシステムによる出力のために、前記左信号と前記右信号とを混合するように構成される、上記Ｃ１５に記載のデバイス。
［Ｃ１９］
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数を１つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される、上記Ｃ１５に記載のデバイス。
［Ｃ２０］
前記１つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される、上記Ｃ１５に記載のデバイス。
［Ｃ２１］
前記１つまたは複数のプロセッサが、
前記音場がモノオーディオ再生システムを介して出力されるべきであると決定することと、
前記モノオーディオ再生システムによる出力のためのデータを含む前記無相関化された環境アンビソニック係数の少なくともサブセットを復号することと
を行うようにさらに構成される、上記Ｃ１５に記載のデバイス。
［Ｃ２２］
前記１つまたは複数のプロセッサが、環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される、上記Ｃ１５に記載のデバイス。
［Ｃ２３］
前記環境アンビソニック係数の前記無相関化された表現に基づいて生成された前記スピーカーフィードを出力するように構成されたラウドスピーカーをさらに備える、上記Ｃ１５に記載のデバイス。
［Ｃ２４］
オーディオデータを圧縮するためのデバイスであって、
圧縮されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサが、
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
を行うように構成される、
デバイス。
［Ｃ２５］
前記１つまたは複数のプロセッサが、１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、上記Ｃ２４に記載のデバイス。
［Ｃ２６］
１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするために、前記１つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするように構成される、上記Ｃ２４に記載のデバイス。
［Ｃ２７］
前記１つまたは複数のプロセッサが、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、上記Ｃ２４に記載のデバイス。
［Ｃ２８］
いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするために、前記１つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするように構成される、上記Ｃ２７に記載のデバイス。
［Ｃ２９］
前記１つまたは複数のプロセッサが、前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される、上記Ｃ２８に記載のデバイス。
［Ｃ３０］
圧縮されるべき前記オーディオデータをキャプチャするように構成されたマイクロフォンをさらに備える、上記Ｃ２４に記載のデバイス。

Claims

少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を備える方法。
複数の相関化された環境アンビソニック係数を取得するために、再相関化変換を前記環境アンビソニック係数の前記無相関化された表現に適用することをさらに備える、請求項１に記載の方法。
前記再相関化変換を適用することが、逆位相ベース変換を前記環境アンビソニック係数に適用することを備える、請求項２に記載の方法。
前記逆位相ベース変換が、Ｎ３Ｄ（フル３Ｄ）正規化の１つに従って正規化されている、請求項３に記載の方法。
前記逆位相ベース変換が、ＳＮ３Ｄ正規化（シュミット半正規化）に従って正規化されている、請求項３に記載の方法。
前記環境アンビソニック係数が、０の次数または１の次数を有する球面基底関数に関連付けられ、前記逆位相ベース変換を適用することが、前記環境アンビソニック係数の前記無相関化された表現に対して位相ベース変換のスカラー乗算を実行することを備える、請求項３に記載の方法。
環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得することをさらに備える、請求項１に記載の方法。
前記音場のフォアグラウンド成分の空間特性を定義する１つまたは複数の空間成分を取得すること、ここで、前記空間成分は、球面調和領域において定義され、前記複数の高次アンビソニック係数に対して分解を実行することによって生成される、をさらに備え、
前記スピーカーフィードを生成することが、前記相関化された環境アンビソニック係数を、前記１つまたは複数の空間成分に基づいて取得された１つまたは複数のフォアグラウンドチャネルと組み合わせることを備える、
請求項１に記載の方法。
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
を備える方法。
前記無相関化変換を適用することが、位相ベース変換を前記環境アンビソニック係数に適用することを備える、請求項９に記載の方法。
Ｎ３Ｄ（フル３Ｄ）正規化に従って前記位相ベース変換を正規化することをさらに備える、請求項１０に記載の方法。
ＳＮ３Ｄ正規化（シュミット半正規化）に従って前記位相ベース変換を正規化することをさらに備える、請求項１０に記載の方法。
前記環境アンビソニック係数が、０の次数または１の次数を有する球面基底関数に関連付けられ、前記位相ベース変換を前記環境アンビソニック係数に適用することが、前記環境アンビソニック係数の少なくともサブセットに対して前記位相ベース変換のスカラー乗算を実行することを備える、請求項１０に記載の方法。
前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングすることをさらに備える、請求項１０に記載の方法。
オーディオデータを処理するためのデバイスであって、
処理されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサが、
少なくとも左信号と右信号とを有する環境アンビソニック係数の無相関化された表現を取得することと、ここで、前記環境アンビソニック係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
前記環境アンビソニック係数の前記無相関化された表現に基づいてスピーカーフィードを生成することと
を行うように構成される、
デバイス。
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、ステレオ再生システムによる出力のために、前記左信号に基づいて左スピーカーフィードを生成し、前記右信号に基づいて右スピーカーフィードを生成するように構成される、請求項１５に記載のデバイス。
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、再相関化変換を前記右信号と前記左信号とに適用することなしに、左スピーカーフィードとして前記左信号を使用し、右スピーカーフィードとして前記右信号を使用するように構成される、請求項１５に記載のデバイス。
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、モノオーディオシステムによる出力のために、前記左信号と前記右信号とを混合するように構成される、請求項１５に記載のデバイス。
前記スピーカーフィードを生成するために、前記１つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数を１つまたは複数のフォアグラウンドチャネルと組み合わせるように構成される、請求項１５に記載のデバイス。
前記１つまたは複数のプロセッサが、前記相関化された環境アンビソニック係数と組み合わせるべきフォアグラウンドチャネルが利用可能ではないと決定するようにさらに構成される、請求項１５に記載のデバイス。
前記１つまたは複数のプロセッサが、
前記音場がモノオーディオ再生システムを介して出力されるべきであると決定することと、
前記モノオーディオ再生システムによる出力のためのデータを含む前記無相関化された環境アンビソニック係数の少なくともサブセットを復号することと
を行うようにさらに構成される、請求項１５に記載のデバイス。
前記１つまたは複数のプロセッサが、環境アンビソニック係数の前記無相関化された表現が無相関化変換で無相関化されたという指示を取得するようにさらに構成される、請求項１５に記載のデバイス。
前記環境アンビソニック係数の前記無相関化された表現に基づいて生成された前記スピーカーフィードを出力するように構成されたラウドスピーカーをさらに備える、請求項１５に記載のデバイス。
オーディオデータを圧縮するためのデバイスであって、
圧縮されるべき前記オーディオデータの少なくとも一部分を記憶するように構成されたメモリと、
１つまたは複数のプロセッサとを備え、前記１つまたは複数のプロセッサが、
環境アンビソニック係数の無相関化された表現を取得するために、無相関化変換を前記環境アンビソニック係数に適用すること、ここで、環境ＨＯＡ係数は、複数の高次アンビソニック係数から抽出されており、前記複数の高次アンビソニック係数によって記述された音場のバックグラウンド成分を表し、ここにおいて、前記複数の高次アンビソニック係数のうちの少なくとも１つは、１よりも大きい次数を有する球面基底関数に関連付けられる、
を行うように構成される、
デバイス。
前記１つまたは複数のプロセッサが、１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、請求項２４に記載のデバイス。
１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするために、前記１つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を満たすかまたは超えるという決定に応答して、１つまたは複数のフォアグラウンドチャネルとともに前記無相関化された環境アンビソニック係数をシグナリングするように構成される、請求項２４に記載のデバイス。
前記１つまたは複数のプロセッサが、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするようにさらに構成される、請求項２４に記載のデバイス。
いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするために、前記１つまたは複数のプロセッサが、ターゲットビットレートが所定の閾値を下回るという決定に応答して、いかなるフォアグラウンドチャネルもシグナリングすることなしに、前記無相関化された環境アンビソニック係数をシグナリングするように構成される、請求項２７に記載のデバイス。
前記１つまたは複数のプロセッサが、前記無相関化変換が前記環境アンビソニック係数に適用されているという指示をシグナリングするようにさらに構成される、請求項２８に記載のデバイス。
圧縮されるべき前記オーディオデータをキャプチャするように構成されたマイクロフォンをさらに備える、請求項２４に記載のデバイス。