JP6605725B2

JP6605725B2 - 複数の遷移の間の高次アンビソニック係数のコーディング

Info

Publication number: JP6605725B2
Application number: JP2018519046A
Authority: JP
Inventors: ペータース、ニルス・ギュンター; セン、ディパンジャン; キム、ム・ユン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-10-14
Filing date: 2016-10-12
Publication date: 2019-11-13
Anticipated expiration: 2036-10-12
Also published as: CN108141690B; US9959880B2; CN108141690A; KR20180068974A; CA2999289A1; BR112018007574A2; CA2999289C; KR102077412B1; EP3363213A1; JP2018534617A; EP3363213B1; US20170110140A1; WO2017066312A1

Description

[0001] 本出願は、その内容全体が参照により本明細書に組み込まれる、２０１５年１０月１４日に出願された「ＣＯＤＩＮＧＨＩＧＨＥＲ−ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳＤＵＲＩＮＧＭＵＬＴＩＰＬＥＴＲＡＮＳＩＴＩＯＮＳ」と題する米国仮出願第６２／２４１，６６５号の利益を主張する。

[0002] 本開示はオーディオデータに関し、より詳細には、高次アンビソニックオーディオデータの圧縮に関する。

[0003] 高次アンビソニックス（ＨＯＡ：higher-order ambisonics）信号（複数の球面調和係数（ＳＨＣ：spherical harmonic coefficient）または他の階層的要素によって表されることが多い）は、音場の３次元表現である。このＨＯＡ表現またはＳＨＣ表現は、ＳＨＣ信号からレンダリングされるマルチチャネルオーディオ信号を再生するために使用されるローカルスピーカー幾何学的配置に依存しない方法で音場を表し得る。ＳＨＣ信号は、５．１オーディオチャネルフォーマットまたは７．１オーディオチャネルフォーマットのようなよく知られており広く採用されているマルチチャネルフォーマットにレンダリングされ得るので、ＳＨＣ信号はまた、後方互換性を容易にし得る。従って、ＳＨＣ表現は、後方互換性にも対応する、音場のより良い表現を可能にし得る。

[0004] 概して、高次アンビソニックスオーディオデータの圧縮のための技法が説明される。高次アンビソニックスオーディオデータは、１よりも大きい次数を有する球面調和基底関数(spherical harmonic basis function)に対応する少なくとも１つの球面調和係数を備え得る。

[0005] 一態様では、高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、本デバイスは、フォアグラウンドオーディオ信号(foreground audio signal)が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数(ambient HOA coefficient)が遷移中であるかどうかの複数遷移指示(multi-transition indication)を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がＨＯＡオーディオデータから分解され(decomposed)ている、を行うように構成された１つまたは複数のプロセッサを備える。本デバイスは、１つまたは複数のプロセッサに結合され、ベクトルを記憶するように構成されたメモリも備える。

[0006] 別の態様では、高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号する方法であって、本方法は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がＨＯＡオーディオデータから分解されている、を備える。

[0007] 別の態様では、非一時的コンピュータ可読記憶媒体が、実行されると、１つまたは複数のプロセッサに、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がＨＯＡオーディオデータから分解されている、を行わせる命令を記憶している。

[0008] 別の態様では、高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するためのデバイスであって、本デバイスは、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がＨＯＡオーディオデータから分解されている、を備える。

[0009] 本技法の１つまたは複数の態様の詳細は、添付の図面および以下の説明に記載される。本技法の他の特徴、目的、および利点は、説明および図面から、並びに特許請求の範囲から明らかになろう。

様々な次数および副次数の球面調和基底関数を示す図。本開示で説明される技法の様々な態様を行い得るシステムを示す図。本開示で説明される技法の様々な態様を行い得る図２の例に示されるオーディオ符号化デバイスの一例をより詳細に示すブロック図。図２のオーディオ復号デバイスをより詳細に示すブロック図。同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図。本開示で説明される技法の様々な態様による、同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ符号化デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。本開示で説明される技法の様々な態様を行う際の図２に示されるオーディオ復号デバイスの例示的な動作を示すフローチャート。

[0018] サラウンドサウンドの発展は、昨今娯楽のために多くの出力フォーマットを利用可能にしている。そのような消費者向けのサラウンドサウンドフォーマットの例は、ある幾何学的な座標にあるラウドスピーカーへのフィードを暗黙のうちに指定するという点で、大半が「チャネル」ベースである。消費者向けのサラウンドサウンドフォーマットは、普及している５．１フォーマット（これは、次の６つのチャネル、すなわち、フロントレフト（ＦＬ）と、フロントライト（ＦＲ）と、センターまたはフロントセンターと、バックレフトまたはサラウンドレフトと、バックライトまたはサラウンドライトと、低周波効果（ＬＦＥ：low frequency effects）とを含む）、発展中の７．１フォーマット、７．１．４フォーマットおよび２２．２フォーマット（例えば、超高精細度テレビジョン規格(Ultra High Definition Television standard)とともに使用するための）のようなハイトスピーカー(height speakers)を含む様々なフォーマットを含む。消費者向けでないフォーマットは、「サラウンドアレイ」としばしば呼ばれる（対称な、および非対称な幾何学的配置の）任意の数のスピーカーに及び得る。そのようなアレイの一例は、切頂２０面体(truncated icosahedron)の角の座標に配置された３２個のラウドスピーカーを含む。

[0019] 将来のＭＰＥＧエンコーダへの入力は、場合によっては、次の３つの可能なフォーマット、すなわち、（ｉ）あらかじめ指定された位置においてラウドスピーカーを通じて再生されることが意図される、（上記で説明された）従来のチャネルベースオーディオ、（ｉｉ）（情報の中でも）ロケーション座標を含んでいる関連するメタデータをもつ単一オーディオオブジェクトのための離散的なパルス符号変調（ＰＣＭ）データを伴うオブジェクトベースオーディオ、並びに（ｉｉｉ）球面調和基底関数の係数（「球面調和係数」すなわちＳＨＣ、「高次アンビソニックス」すなわちＨＯＡ、および「ＨＯＡ係数」とも呼ばれる）を使用して音場を表すことを伴うシーンベースオーディオのうちの１つである。将来のＭＰＥＧエンコーダは、２０１３年１月にスイスのジュネーブで発表された、ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｉｔｅｓ／ｄｅｆａｕｌｔ／ｆｉｌｅｓ／ｆｉｌｅｓ／ｓｔａｎｄａｒｄｓ／ｐａｒｔｓ／ｄｏｃｓ／ｗ１３４１１．ｚｉｐにおいて入手可能な、国際標準化機構／国際電気標準会議（ＩＳＯ）／（ＩＥＣ）ＪＴＣ１／ＳＣ２９／ＷＧ１１／Ｎ１３４１１による「ＣａｌｌｆｏｒＰｒｏｐｏｓａｌｓｆｏｒ３ＤＡｕｄｉｏ」と題する文書においてより詳細に説明され得る。

[0020] 市場には様々な「サラウンドサウンド」チャネルベースフォーマットがある。これらフォーマットは、例えば、５．１ホームシアタシステム（リビングルームに進出するという点でステレオ以上に最も成功した）からＮＨＫ（ＮｉｐｐｏｎＨｏｓｏＫｙｏｋａｉすなわち日本放送協会）によって開発された２２．２システムに及ぶ。コンテンツ作成者（例えば、ハリウッドスタジオ）は、一度に映画のサウンドトラックを作成することを望み、各スピーカー構成のためにサウンドトラックをリミックスする努力を行うことを望まない。最近では、規格開発組織が、規格化されたビットストリームへの符号化と、スピーカーの幾何学的配置（と数）および（レンダラを伴う）再生のロケーションにおける音響条件に適応可能でありそれらにアグノスティック(agnostic)な後続の復号とを提供するための方法を検討している。

[0021] コンテンツ作成者にそのような柔軟性を提供するために、音場を表すための要素の階層セットが使用され得る。要素の階層セットは、モデル化された音場の完全な表現をより低次の要素の基本セットが提供するように要素が順序付けられる、要素のセットを指し得る。セットがより高次の要素を含むように拡張されると、表現はより詳細になり、分解能は向上する。

[0022] 要素の階層セットの一例は、球面調和係数（ＳＨＣ）のセットである。次の式は、ＳＨＣを使用する音場の記述または表現を示す。

[0023] この式は、時間ｔにおける音場の任意の点｛ｒ_r，θ_r，φ_r｝における圧力ｐ_iが、ＳＨＣ、

によって一意に表され得ることを示す。ここで、

であり、ｃは、音速（約３４３ｍ／ｓ）であり、｛ｒ_r，θ_r，φ_r｝は、基準点（または観測点）であり、ｊ_n（・）は、次数ｎの球ベッセル関数であり、

は、次数ｎおよび副次数ｍの球面調和基底関数である。角括弧内の項が、離散フーリエ変換（ＤＦＴ）、離散コサイン変換（ＤＣＴ）、またはウェーブレット変換のような、様々な時間−周波数変換によって概算され得る信号（すなわち、Ｓ（ω，ｒ_r，θ_r，φ_r））の周波数領域表現であることが認識され得る。階層セットの他の例としては、ウェーブレット変換係数のセットおよび多分解能基底関数の係数の他のセットがある。

[0024] 図１は、０次（ｎ＝０）から４次（ｎ＝４）までの球面調和基底関数を示す図である。理解できるように、各次数について、説明を簡単にするために図示されているが図１の例では明示的に示されていない副次数ｍの拡張が存在する。

[0025] ＳＨＣ

は、様々なマイクロフォンアレイ構成によって物理的に取得（例えば、録音）され得るか、または代替的に、それらは音場のチャネルベースもしくはオブジェクトベースの記述から導出され得る。ＳＨＣはシーンベースオーディオを表し、ここで、ＳＨＣは、より効率的な送信または記憶を促し得る符号化されたＳＨＣを取得するために、オーディオエンコーダに入力され得る。例えば、（１＋４）²個の（２５個の、従って４次の）係数を伴う４次表現が使用され得る。

[0026] 上述されたように、ＳＨＣは、マイクロフォンアレイを使用するマイクロフォン録音から導出され得る。ＳＨＣがマイクロフォンアレイからどのように導出され得るかの様々な例は、Ｐｏｌｅｔｔｉ，Ｍ、「Ｔｈｒｅｅ−ＤｉｍｅｎｓｉｏｎａｌＳｕｒｒｏｕｎｄＳｏｕｎｄＳｙｓｔｅｍｓＢａｓｅｄｏｎＳｐｈｅｒｉｃａｌＨａｒｍｏｎｉｃｓ」、Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．、Ｖｏｌ．５３、Ｎｏ．１１、２００５年１１月、１００４〜１０２５ページにおいて説明されている。

[0027] ＳＨＣがどのようにオブジェクトベースの記述から導出され得るかを例示するために、次の式を考える。個々のオーディオオブジェクトに対応する音場についての係数

は、

と表され得、ここで、ｉは

であり、

は、次数ｎの（第二種の）球ハンケル関数(spherical Hankel function)であり、｛ｒ_s，θ_s，φ_s｝は、オブジェクトのロケーションである。周波数の関数として（例えば、ＰＣＭストリームに対して高速フーリエ変換を行うなど、時間−周波数分析技法を使用して）オブジェクトソースエネルギーｇ（ω）を知ることで、各ＰＣＭオブジェクトと対応するロケーションとをＳＨＣ

に変換できる。さらに、各オブジェクトの

係数は、（上記が線形および直交分解であるので）加法的であることが示され得る。このようにして、多数のＰＣＭオブジェクトは

係数によって（例えば、個々のオブジェクトについての係数ベクトルの和として）表され得る。本質的に、これらの係数は、音場についての情報（３Ｄ座標の関数としての圧力）を含んでおり、上記は、観測点｛ｒ_r，θ_r，φ_r｝の近傍における、音場全体の表現への個々のオブジェクトからの変換を表す。残りの図は、以下でオブジェクトベースおよびＳＨＣベースのオーディオコーディングのコンテキストで説明される。

[0028] 図２は、本開示で説明される技法の様々な態様を行い得るシステム１０を示す図である。図２の例に示されているように、システム１０は、コンテンツ作成者デバイス(content creator device)１２と、コンテンツ消費者デバイス(content consumer device)１４とを含む。コンテンツ作成者デバイス１２およびコンテンツ消費者デバイス１４のコンテキストで説明されているが、本技法は、オーディオデータを表すビットストリームを形成するために、（ＨＯＡ係数とも呼ばれ得る）ＳＨＣまたは音場の任意の他の階層的表現が符号化される任意のコンテキストで実施され得る。

[0029] その上、コンテンツ作成者デバイス１２は、いくつか例を挙げると、ハンドセット（もしくはセルラーフォン）、タブレットコンピュータ、スマートフォン、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを代表し得る。同様に、コンテンツ消費者デバイス１４は、いくつか例を挙げると、ハンドセット（またはセルラーフォン）、タブレットコンピュータ、スマートフォン、セットトップボックス、テレビジョン（いわゆる「スマートテレビジョン」を含む）、受信機（オーディオ／ビジュアル、すなわちＡＶ、受信機のような）、メディアプレーヤ（デジタルビデオディスクプレーヤ、ストリーミングメディアプレーヤなどのような）、またはデスクトップコンピュータを含む、本開示で説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを代表し得る。

[0030] コンテンツ消費者デバイス１４がテレビジョンを表すとき、コンテンツ消費者デバイス１４は、統合されたラウドスピーカーを含み得る。この事例において、コンテンツ消費者デバイス１４は、ラウドスピーカーフィードを生成するために、再構成されたＨＯＡ係数をレンダリングし、統合されたラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る。

[0031] コンテンツ消費者デバイス１４が受信機またはメディアプレーヤを表すとき、コンテンツ消費者デバイス１４は、ラウドスピーカーに（電気的またはワイヤレスのいずれかで）結合し得る。コンテンツ消費者デバイス１４は、この事例において、ラウドスピーカーフィードを生成するために、再構成されたＨＯＡ係数をレンダリングし、ラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る。

[0032] コンテンツ作成者デバイス１２は、コンテンツ消費者デバイス１４のような、コンテンツ消費者の操作者による消費のためのマルチチャネルオーディオコンテンツを生成し得る、映画スタジオまたは他のエンティティによって操作され得る。いくつかの例において、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を圧縮することを望み得る個人ユーザによって操作され得る。多くの場合、コンテンツ作成者は、ビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス１４は、個人によって操作され得る。コンテンツ消費者デバイス１４は、マルチチャネルオーディオコンテンツとしての再生のためにＳＨＣをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る、オーディオ再生システム１６を含み得る。

[0033] コンテンツ作成者デバイス１２は、オーディオ編集システム１８を含む。コンテンツ作成者デバイス１２は、（ＨＯＡ係数として直接含む）様々なフォーマットのライブ録音７とオーディオオブジェクト９とを取得し、コンテンツ作成者デバイス１２は、オーディオ編集システム１８を使用してこれらを編集し得る。コンテンツ作成者は、編集プロセス中に、オーディオオブジェクト９からのＨＯＡ係数１１をレンダリングし、さらなる編集を必要とする音場の様々な態様を識別しようとして、レンダリングされたスピーカーフィードを聞き得る。コンテンツ作成者デバイス１２は、次いで、（潜在的に、上記で説明された方法でソースＨＯＡ係数がそれから導出され得るオーディオオブジェクト９のうちの様々なオブジェクトの操作を通じて間接的に）ＨＯＡ係数１１を編集し得る。コンテンツ作成者デバイス１２は、ＨＯＡ係数１１を生成するためにオーディオ編集システム１８を採用し得る。オーディオ編集システム１８は、オーディオデータを編集し、このオーディオデータを１つまたは複数のソース球面調和係数として出力することが可能な任意のシステムを表す。

[0034] 編集プロセスが完了すると、コンテンツ作成者デバイス１２は、ＨＯＡ係数１１に基づいてビットストリーム２１を生成し得る。すなわち、コンテンツ作成者デバイス１２は、ビットストリーム２１を生成するために、本開示で説明される技法の様々な態様に従って、ＨＯＡ係数１１を符号化またはさもなければ圧縮するように構成されたデバイスを表す、オーディオ符号化デバイス２０を含む。オーディオ符号化デバイス２０は、一例として、ワイヤードチャネルまたはワイヤレスチャネルであり得る送信チャネル、データ記憶デバイスなどを介した送信のために、ビットストリーム２１を生成し得る。ビットストリーム２１は、ＨＯＡ係数１１の符号化されたバージョンを表し得、主要ビットストリームと、サイドチャネル情報と呼ばれることがある別のサイドビットストリームとを含み得る。

[0035] 図２において、コンテンツ消費者デバイス１４に直接送信されるものとして示されているが、コンテンツ作成者デバイス１２は、コンテンツ作成者デバイス１２とコンテンツ消費者デバイス１４との間に配置された中間デバイスにビットストリーム２１を出力し得る。中間デバイスは、ビットストリームを要求し得るコンテンツ消費者デバイス１４に後で配信するために、ビットストリーム２１を記憶し得る。中間デバイスは、ファイルサーバ、ウェブサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、モバイルフォン、スマートフォン、または後でのオーディオデコーダによる取出しのためにビットストリーム２１を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム２１を要求する、コンテンツ消費者デバイス１４のような、加入者にビットストリーム２１を（場合によっては対応するビデオデータビットストリームを送信するとともに）ストリーミングすることが可能なコンテンツ配信ネットワーク内に存在し得る。

[0036] 代替的に、コンテンツ作成者デバイス１２は、コンパクトディスク、デジタルビデオディスク、高精細度ビデオディスクまたは他の記憶媒体のような記憶媒体にビットストリーム２１を記憶し得、記憶媒体の大部分はコンピュータによって読み取り可能であり、従って、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれることがある。このコンテキストにおいて、送信チャネルは、これらの媒体に記憶されたコンテンツが送信されるチャネルを指すことがある（および、小売店と他の店舗ベースの配信機構とを含み得る）。従って、いずれにしても、本開示の技法は、この点に関して図２の例に限定されるべきでない。

[0037] 図２の例にさらに示されているように、コンテンツ消費者デバイス１４はオーディオ再生システム１６を含む。オーディオ再生システム１６は、マルチチャネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム１６は、いくつかの異なるレンダラ２２を含み得る。レンダラ２２はそれぞれ、異なる形態のレンダリングを提供し得、ここで、異なる形態のレンダリングは、ベクトルベース振幅パンニング（ＶＢＡＰ：vector-base amplitude panning）を行う様々な方法のうちの１つもしくは複数、および／または音場合成を行う様々な方法のうちの１つもしくは複数を含み得る。本明細書で使用される場合、「Ａおよび／またはＢ」は、「ＡまたはＢ」、または「ＡとＢ」の両方を意味する。

[0038] オーディオ再生システム１６は、オーディオ復号デバイス２４をさらに含み得る。オーディオ復号デバイス２４は、ビットストリーム２１からＨＯＡ係数１１’を復号するように構成されたデバイスを表し得、ここで、ＨＯＡ係数１１’は、ＨＯＡ係数１１と同様であり得るが、損失のある演算（例えば、量子化）および／または送信チャネルを介した送信に起因して異なり得る。

[0039] オーディオ再生システム１６は、ビットストリーム２１を復号してＨＯＡ係数１１’を取得した後に、および、ラウドスピーカーフィード２５を出力するためにＨＯＡ係数１１’をレンダリングし得る。ラウドスピーカーフィード２５は、（説明を簡単にするために図２の例には示されていない）１つまたは複数のラウドスピーカーを駆動し得る。

[0040] 適切なレンダラを選択するために、またはいくつかの事例において、適切なレンダラを生成するために、オーディオ再生システム１６は、ラウドスピーカーの数および／またはラウドスピーカーの空間的な幾何学的配置を示すラウドスピーカー情報１３を取得し得る。いくつかの事例において、オーディオ再生システム１６は、基準マイクロフォンを使用し、ラウドスピーカー情報１３を動的に決定するような方法でラウドスピーカーを駆動して、ラウドスピーカー情報１３を取得し得る。他の事例において、またはラウドスピーカー情報１３の動的決定とともに、オーディオ再生システム１６は、オーディオ再生システム１６とインターフェースをとりラウドスピーカー情報１３を入力するようにユーザに促し得る。

[0041] オーディオ再生システム１６は、次いで、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを選択し得る。いくつかの事例において、オーディオ再生システム１６は、オーディオレンダラ２２のいずれもが、ラウドスピーカー情報１３において指定されたものに対して（ラウドスピーカー幾何学的配置に関する）何らかのしきい値類似性測度内にないとき、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを生成し得る。オーディオ再生システム１６は、いくつかの事例において、オーディオレンダラ２２のうちの既存の１つを選択することを最初に試みることなく、ラウドスピーカー情報１３に基づいてオーディオレンダラ２２のうちの１つを生成し得る。１つまたは複数のスピーカー３は、次いで、レンダリングされたラウドスピーカーフィード２５を再生し得る。

[0042] 図３は、本開示で説明される技法の様々な態様を行い得る図２の例に示されるオーディオ符号化デバイス２０の一例をより詳細に示すブロック図である。オーディオ符号化デバイス２０は、コンテンツ分析ユニット２６と、ベクトルベース分解ユニット２７と、方向ベース分解ユニット２８とを含む。

[0043] 以下で手短に説明されるが、ベクトルベース分解ユニット２７、およびＨＯＡ係数を圧縮する様々な態様に関するより多くの情報は、２０１４年５月２９に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」と題する国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。さらに、以下で要約されるベクトルベース分解の論述を含む、ＭＰＥＧ−Ｈ３Ｄオーディオ規格によるＨＯＡ係数の圧縮の様々な態様のさらなる詳細は、
２０１４年７月２５日付けのＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１による「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ − Ｐａｒｔ３：３Ｄａｕｄｉｏ」と題するＩＳＯ／ＩＥＣＤＩＳ２３００８-３文書（ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｔａｎｄａｒｄｓ／ｍｐｅｇ−ｈ／３ｄ−ａｕｄｉｏ／ｄｉｓ−ｍｐｅｇ−ｈ−３ｄ−ａｕｄｉｏにおいて入手可能であり、以下で「ＭＰＥＧ−Ｈ３Ｄオーディオ規格のフェーズＩ」と呼ばれる）、
２０１５年７月２５日付けのＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１による「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ − Ｈｉｇｈｅｆｆｉｃｉｅｎｃｙｃｏｄｉｎｇａｎｄｍｅｄｉａｄｅｌｉｖｅｒｙｉｎｈｅｔｅｒｏｇｅｎｅｏｕｓｅｎｖｉｒｏｎｍｅｎｔｓ − Ｐａｒｔ３：３Ｄａｕｄｉｏ，ＡＭＥＮＤＭＥＮＴ３：ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏＰｈａｓｅ２」と題するＩＳＯ／ＩＥＣＤＩＳ２３００８−３：２０１５／ＰＤＡＭ３文書（ｈｔｔｐ：／／ｍｐｅｇ．ｃｈｉａｒｉｇｌｉｏｎｅ．ｏｒｇ／ｓｔａｎｄａｒｄｓ／ｍｐｅｇ−ｈ／３ｄ−ａｕｄｉｏ／ｔｅｘｔ−ｉｓｏｉｅｃ−２３００８−３２０１ｘｐｄａｍ−３−ｍｐｅｇ−ｈ−３ｄ−ａｕｄｉｏ−ｐｈａｓｅ−２において入手可能であり、以下で「ＭＰＥＧ−Ｈ３Ｄオーディオ規格のフェーズＩＩ」と呼ばれる）、および
２０１５年８月付けのＩＥＥＥＪｏｕｒｎａｌｏｆＳｅｌｅｃｔｅｄＴｏｐｉｃｓｉｎＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇのＶｏｌ．９、Ｎｏ．５で発表された、ＪｕｒｇｅｎＨｅｒｒｅらの「ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏ − ＴｈｅＮｅｗＳｔａｎｄａｒｄｆｏｒＣｏｄｉｎｇｏｆＩｍｍｅｒｓｉｖｅＳｐａｔｉａｌＡｕｄｉｏ」に見出せる。

[0044] コンテンツ分析ユニット２６は、ＨＯＡ係数１１がライブ録音から生成されたコンテンツを表すか、オーディオオブジェクトから生成されたコンテンツを表すかを識別するために、ＨＯＡ係数１１のコンテンツを分析するように構成されたユニットを表す。コンテンツ分析ユニット２６は、ＨＯＡ係数１１が実際の音場の録音から生成されたか、人工的なオーディオオブジェクトから生成されたかを決定し得る。いくつかの事例において、フレーム化されたＨＯＡ係数１１が録音から生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１をベクトルベース分解ユニット２７に渡す。いくつかの事例において、フレーム化されたＨＯＡ係数１１が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット２６は、ＨＯＡ係数１１を方向ベース合成ユニット２８に渡す。方向ベース合成ユニット２８は、方向ベースビットストリーム２１を生成するためにＨＯＡ係数１１の方向ベース合成を行うように構成されたユニットを表し得る。

[0045] 図３の例に示されるように、ベクトルベース分解ユニット２７は、線形可逆変換（ＬＩＴ）ユニット３０と、パラメータ計算ユニット３２と、並べ替えユニット３４と、フォアグラウンド選択ユニット３６と、エネルギー補償ユニット３８と、聴覚心理オーディオコーダユニット４０と、ビットストリーム生成ユニット４２と、音場分析ユニット４４と、係数低減ユニット４６と、バックグラウンド（ＢＧ）選択ユニット４８と、空間時間的補間ユニット５０と、量子化ユニット５２とを含み得る。

[0046] 線形可逆変換（ＬＩＴ）ユニット３０は、ＨＯＡチャネルの形態でＨＯＡ係数１１を受信し、各チャネルは、球面基底関数の所与の次数、副次数に関連する係数（ＨＯＡ［ｋ］と示され得、ここで、ｋはサンプルの現在のフレームまたはブロックを示し得る）のブロックまたはフレームを表す。ＨＯＡ係数１１の行列は、次元Ｄ：Ｍ×（Ｎ＋１）²を有し得る。

[0047] ＬＩＴユニット３０は、特異値分解(singular value decomposition)と呼ばれる形態の分析を行うように構成されたユニットを表し得る。ＳＶＤに関して説明されるが、本開示で説明される技法は、線形的に無相関な、エネルギー圧縮された出力のセットを提供する任意の同様の変換または分解に対して行われ得る。また、本開示における「セット」への言及は、概して、別段に特に明記されていない限り、非０のセットを指すものであり、いわゆる「空集合(empty set)」を含む集合の古典的な数学的定義を指すことは意図されない。代替的な変換は、「ＰＣＡ」としばしば呼ばれる、主成分分析(principal component analysis)を備え得る。コンテキストに応じて、ＰＣＡは、いくつかの例を挙げれば、離散カルーネンレーベ変換(discrete Karhunen-Loeve transform)、ホテリング変換(Hotelling transform)、固有直交分解（ＰＯＤ：proper orthogonal decomposition）、および固有値分解（ＥＶＤ：eigenvalue decomposition）のような、いくつかの異なる名前によって呼ばれることがある。オーディオデータを圧縮するという背後にある目標につながるそのような演算の特性は、マルチチャネルオーディオデータの「エネルギー圧縮(energy compaction)」および「無相関化(decorrelation)」である。

[0048] いずれにしても、ＬＩＴユニット３０が、例として、特異値分解（やはり「ＳＶＤ」と呼ばれることがある）を行うと仮定すると、ＬＩＴユニット３０は、ＨＯＡ係数１１を、変換されたＨＯＡ係数の２つ以上のセットに変換し得る。変換されたＨＯＡ係数の「セット」は、変換されたＨＯＡ係数のベクトルを含み得る。図３の例において、ＬＩＴユニット３０は、いわゆるＶ行列と、Ｓ行列と、Ｕ行列とを生成するために、ＨＯＡ係数１１に関してＳＶＤを行い得る。ＳＶＤは、線形代数学において、ｙ×ｚの実または複素行列(real or complex matrix)Ｘ（ここで、Ｘは、ＨＯＡ係数１１のようなマルチチャネルオーディオデータを表し得る）の因数分解を以下の形で表し得る。
Ｘ＝ＵＳＶ^*
Ｕはｙ×ｙの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｕのｙ個の列は、マルチチャネルオーディオデータの左特異ベクトル(left-singular vectors)として知られる。Ｓは、対角線上に非負実数(non-negative real numbers)をもつｙ×ｚの矩形対角行列(rectangular diagonal matrix)を表し得、ここで、Ｓの対角線値(diagonal values)は、マルチチャネルオーディオデータの特異値(singular values)として知られる。Ｖ＊（Ｖの共役転置(conjugate transpose)を示し得る）は、ｚ×ｚの実ユニタリー行列または複素ユニタリー行列を表し得、ここで、Ｖ＊のｚ個の列は、マルチチャネルオーディオデータの右特異ベクトル(right-singular vectors)として知られる。

[0049] いくつかの例において、上で参照されたＳＶＤ数式中のＶ＊行列は、複素数を備える行列にＳＶＤが適用され得ることを反映するために、Ｖ行列の共役転置行列として示される。実数のみを備える行列に適用されるとき、Ｖ行列の複素共役（すなわち、言い換えれば、Ｖ＊行列）は、Ｖ行列の転置であると見なされ得る。以下では、説明を簡単にするために、ＨＯＡ係数１１が実数を備え、その結果、Ｖ＊行列でなくＶ行列がＳＶＤによって出力されると仮定される。その上、本開示においてＶ行列として示されるが、Ｖ行列への言及は、適切な場合にはＶ行列の転置を指すものとして理解されるべきである。Ｖ行列であると仮定されているが、本技法は、同様の方式で、複素係数を有するＨＯＡ係数１１に適用され得、ここで、ＳＶＤの出力はＶ＊行列である。従って、本技法は、この点について、Ｖ行列を生成するためにＳＶＤの適用を提供することのみに限定されるべきでなく、Ｖ＊行列を生成するために複素成分を有するＨＯＡ係数１１へのＳＶＤの適用を含み得る。

[0050] このようにして、ＬＩＴユニット３０は、次元Ｄ：Ｍ×（Ｎ＋１）²を有するＵＳ［ｋ］ベクトル３３（ＳベクトルとＵベクトルとの組み合わされたバージョンを表し得る）と、次元Ｄ：（Ｎ＋１）²×（Ｎ＋１）²を有するＶ［ｋ］ベクトル３５とを出力するために、ＨＯＡ係数１１に関してＳＶＤを行い得る。ＵＳ［ｋ］行列中の個々のベクトル要素はＸ_ps（ｋ）とも呼ばれることがあり、一方、Ｖ［ｋ］行列の個々のベクトルはｖ（ｋ）とも呼ばれることがある。

[0051] Ｕ行列、Ｓ行列、およびＶ行列の分析は、それらの行列がＸによって上で表される背後の音場の空間的および時間的特性(spatial and temporal characteristics)を伝え、または表すということを明らかにし得る。（Ｍ個のサンプルの長さの）Ｕの中のＮ個のベクトルの各々は、（Ｍ個のサンプルによって表される時間期間の間は）時間の関数として、互いに直交しておりあらゆる空間特性（方向情報(directional information)とも呼ばれ得る）とは切り離されている、正規化された分離されたオーディオ信号を表し得る。空間的形状および位置（ｒ、シータ、ファイ）を表す空間的特性は、代わりに、（各々が（Ｎ＋１）²の長さの）Ｖ行列中の個々のｉ番目のベクトル、ｖ⁽ⁱ⁾（ｋ）によって表され得る。

[0052] ｖ⁽ⁱ⁾（ｋ）ベクトルの各々の個々の要素は、関連するオーディオオブジェクトについての音場の（幅を含む）形状と位置とを記述するＨＯＡ係数を表し得る。Ｕ行列中のベクトルとＶ行列中のベクトルの両方が、それらの２乗平均平方根(root-mean-square)のエネルギーが１に等しくなるように正規化される。従って、Ｕの中のオーディオ信号のエネルギーは、Ｓの中の対角線要素によって表される。従って、ＵＳ［ｋ］（個々のベクトル要素Ｘ_PS（ｋ）を有する）を形成するために、ＵとＳとを乗算することは、エネルギーを有するオーディオ信号を表す。（Ｕにおける）オーディオ時間信号と、（Ｓにおける）それらのエネルギーと、（Ｖにおける）それらの空間的特性とを切り離すＳＶＤ分解の能力は、本開示で説明される技法の様々な態様をサポートし得る。さらに、背後のＨＯＡ［ｋ］係数ＸをＵＳ［ｋ］とＶ［ｋ］とのベクトル乗算によって合成するモデルは、本文書全体で使用される、「ベクトルベース分解(vector-based decomposition)」という用語を生じさせる。

[0053] ＨＯＡ係数１１に関して直接行われるものとして説明されるが、ＬＩＴユニット３０は、線形可逆変換(linear invertible transform)をＨＯＡ係数１１の派生物に適用し得る。例えば、ＬＩＴユニット３０は、ＨＯＡ係数１１から導出された電力スペクトル密度行列(power spectral density matrix)に関してＳＶＤを適用し得る。ＨＯＡ係数自体でなくＨＯＡ係数の電力スペクトル密度（ＰＳＤ）に関してＳＶＤを行うことによって、ＬＩＴユニット３０は、場合によっては、プロセッササイクルおよび記憶空間のうちの１つまたは複数に関してＳＶＤを行う計算の複雑さを低減しつつ、ＳＶＤがＨＯＡ係数に直接適用されたかのように同じソースオーディオ符号化効率を達成し得る。

[0054] パラメータ計算ユニット３２は、相関パラメータ（Ｒ）、方向特性パラメータ（θ、φ、ｒ）、およびエネルギー特性（ｅ）のような、様々なパラメータを計算するように構成されたユニットを表す。現在のフレームのためのパラメータの各々は、Ｒ［ｋ］、θ［ｋ］、φ［ｋ］、ｒ［ｋ］およびｅ［ｋ］として示され得る。パラメータ計算ユニット３２は、パラメータを識別するために、ＵＳ［ｋ］ベクトル３３に関してエネルギー分析および／または相関（もしくはいわゆる相互相関）を行い得る。パラメータ計算ユニット３２はまた、以前のフレームのためのパラメータを決定し得、ここで、以前のフレームパラメータは、ＵＳ［ｋ−１］ベクトルおよびＶ［ｋ−１］ベクトルの以前のフレームに基づいて、Ｒ［ｋ−１］、θ［ｋ−１］、φ［ｋ−１］、ｒ［ｋ−１］およびｅ［ｋ−１］と示され得る。パラメータ計算ユニット３２は、現在のパラメータ３７と以前のパラメータ３９とを並べ替えユニット３４に出力し得る。

[0055] パラメータ計算ユニット３２によって計算されるパラメータは、オーディオオブジェクトの自然な評価または時間的な継続性を表すようにオーディオオブジェクトを並べ替えるために、並べ替えユニット３４によって使用され得る。並べ替えユニット３４は、第１のＵＳ［ｋ］ベクトル３３からのパラメータ３７の各々を、第２のＵＳ［ｋ−１］ベクトル３３のためのパラメータ３９の各々に対して順番ごとに比較し得る。並べ替えユニット３４は、並べ替えられたＵＳ［ｋ］行列３３’（数学的には

として示され得る）と、並べ替えられたＶ［ｋ］行列３５’（数学的には

として示され得る）とをフォアグラウンド音声（または支配的音声（predominant sound）−ＰＳ）選択ユニット３６（「フォアグラウンド選択ユニット３６」）およびエネルギー補償ユニット３８に出力するために、現在のパラメータ３７および以前のパラメータ３９に基づいて、ＵＳ［ｋ］行列３３およびＶ［ｋ］行列３５内の様々なベクトルを（一例として、ハンガリアンアルゴリズム(Hungarian algorithm)を使用して）並べ替え得る。

[0056] 音場分析ユニット４４は、ターゲットビットレート４１を潜在的に達成するために、ＨＯＡ係数１１に関して音場分析(soundfield analysis)を行うように構成されたユニットを表し得る。音場分析ユニット４４は、その分析および／または受信されたターゲットビットレート４１に基づいて、聴覚心理コーダのインスタンス化(psychoacoustic coder instantiations)の総数（環境またはバックグラウンドチャネルの総数（ＢＧ_TOT）と、フォアグラウンドチャネル、または言い換えれば支配チャネルの数との関数であり得るを決定し得る。聴覚心理コーダのインスタンス化の総数は、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓとして示され得る。

[0057] 音場分析ユニット４４はまた、やはり目標ビットレート４１を潜在的に達成するために、フォアグラウンドチャネルの総数（ｎＦＧ）４５と、バックグラウンド（または言い換えれば環境）音場の最小次数（Ｎ_BG、または代替的にはＭｉｎＡｍｂＨＯＡｏｒｄｅｒ）と、バックグラウンド音場の最小次数を表す実際のチャネルの対応する数（ｎＢＧａ＝（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²）と、送るべき追加のＢＧＨＯＡチャネルのインデックス（ｉ）（図３の例ではバックグラウンドチャネル情報４３として総称的に示され得る）とを決定し得る。バックグラウンドチャネル情報４２は、環境チャネル情報４３とも呼ばれ得る。ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓ−ｎＢＧａで残るチャネルの各々は、「追加のバックグラウンド／環境チャネル(additional background/ambient channel)」、「アクティブなベクトルベースの支配的チャネル(active vector-based predominant channel)」、「アクティブな方向ベースの支配的信号(active directional based predominant signal)」、または「完全に非アクティブ(completely inactive)」のいずれかであり得る。一態様において、チャネルタイプは、２ビットによって（「ＣｈａｎｎｅｌＴｙｐｅ」として）示されたシンタックス要素であり得る（例えば、００：方向ベースの信号、０１：ベクトルベースの支配的信号、１０：追加の環境信号、１１：非アクティブな信号）。バックグラウンド信号または環境信号の総数、ｎＢＧａは、（ＭｉｎＡｍｂＨＯＡｏｒｄｅｒ＋１）²＋（上記の例における）インデックス１０がそのフレームのためのビットストリームにおいてチャネルタイプとして現れる回数によって与えられ得る。

[0058] 音場分析ユニット４４は、ターゲットビットレート４１に基づいて、バックグラウンド（または言い換えれば環境）チャネルの数と、フォアグラウンド（または言い換えれば支配的）チャネルの数とを選択し、ターゲットビットレート４１が比較的高いとき（例えば、ターゲットビットレート４１が５１２Ｋｂｐｓ以上であるとき）はより多くのバックグラウンドチャネルおよび／またはフォアグラウンドチャネルを選択し得る。一態様で、ビットストリームのヘッダセクションにおいて、ｎｕｍＨＯＡＴｒａｎｓｐｏｒｔＣｈａｎｎｅｌｓは８に設定され得るが、一方で、ＭｉｎＡｍｂＨＯＡｏｒｄｅｒは１に設定され得る。このシナリオでは、各フレームにおいて、音場のバックグラウンド部分または環境部分を表すために４つのチャネルが確保され得るが、一方で、他の４つのチャネルは、フレームごとに、チャネルのタイプに応じて変化してよく、例えば、追加のバックグラウンド／環境チャネルまたはフォアグラウンド／支配的チャネルのいずれかとして使用され得る。フォアグラウンド／支配的信号は、上記で説明されたように、ベクトルベースの信号または方向ベースの信号のいずれか１つであり得る。

[0059] いくつかの事例において、フレームのためのベクトルベースの支配的信号の総数は、そのフレームのビットストリームにおいてＣｈａｎｎｅｌＴｙｐｅインデックスが０１である回数によって与えられ得る。上記の態様では、（例えば、１０のＣｈａｎｎｅｌＴｙｐｅに対応する）追加のバックグラウンド／環境チャネルごとに、（最初の４つ以外の）可能なＨＯＡ係数のうちのどれがという対応する情報がそのチャネルにおいて表され得る。この情報は、４次ＨＯＡコンテンツについて、ＨＯＡ係数５〜２５を示すためのインデックスであり得る。最初の４つの環境ＨＯＡ係数１〜４は、ｍｉｎＡｍｂＨＯＡｏｒｄｅｒが１に設定されるときは常に送られ得、従って、オーディオ符号化デバイスは、５〜２５のインデックスを有する追加の環境ＨＯＡ係数のうちの１つを示すことのみが必要であり得る。その情報は従って、「ＣｏｄｅｄＡｍｂＣｏｅｆｆＩｄｘ」として示され得る、（４次コンテンツのための）５ビットのシンタックス要素を使用して送られ得る。いずれの場合も、音場分析ユニット４４は、バックグラウンドチャネル情報４３とＨＯＡ係数１１とをバックグラウンド（ＢＧ）選択ユニット３６に、バックグラウンドチャネル情報４３を係数低減ユニット４６およびビットストリーム生成ユニット４２に、並びにｎＦＧ４５をフォアグラウンド選択ユニット３６に出力する。

[0060] バックグラウンド選択ユニット４８は、バックグラウンドチャネル情報（例えば、バックグラウンド音場（Ｎ_BG）と、送るべき追加のＢＧＨＯＡチャネルの数（ｎＢＧａ）およびインデックス（ｉ））に基づいてバックグラウンドまたは環境ＨＯＡ係数４７を決定するように構成されたユニットを表し得る。例えば、Ｎ_BGが１に等しいとき、バックグラウンド選択ユニット４８は、１以下の次数を有するオーディオフレームの各サンプルのＨＯＡ係数１１を選択し得る。バックグラウンド選択ユニット４８は次いで、この例において、インデックス（ｉ）のうちの１つによって識別されるインデックスを有するＨＯＡ係数１１を、追加のＢＧＨＯＡ係数として選択でき、ここで、ｎＢＧａは、図２および図４の例に示されるオーディオ復号デバイス２４のような、オーディオ復号デバイスがビットストリーム２１からバックグラウンドＨＯＡ係数４７を解析することを可能にするために、ビットストリーム２１において指定されるために、ビットストリーム生成ユニット４２に提供される。バックグラウンド選択ユニット４８は次いで、環境ＨＯＡ係数４７をエネルギー補償ユニット３８に出力し得る。環境ＨＯＡ係数４７は、次元Ｄ：Ｍ×［（Ｎ_BG＋１）²＋ｎＢＧａ］を有し得る。環境ＨＯＡ係数４７はまた、環境ＨＯＡ係数４７の各々が、聴覚心理オーディオコーダユニット４０によって符号化されるべき別個の環境ＨＯＡチャネル４７に対応する「環境ＨＯＡ係数４７」と呼ばれることもある。

[0061] フォアグラウンド選択ユニット３６は、（フォアグラウンドベクトルを識別する１つまたは複数のインデックスを表し得る）ｎＦＧ４５に基づいて、音場のフォアグラウンド成分または明確な成分を表す、並べ替えられたＵＳ［ｋ］行列３３’と、並べ替えられたＶ［ｋ］行列３５’とを選択するように構成されたユニットを表し得る。フォアグラウンド選択ユニット３６は、（並べ替えられたＵＳ［ｋ］_1,...,nFG４９、ＦＧ_1,...,nfG［ｋ］４９、または

として示され得る）ｎＦＧ信号４９を、聴覚心理オーディオコーダユニット４０に出力でき、ここで、ｎＦＧ信号４９は次元Ｄ：Ｍ×ｎＦＧを有し、モノラルオーディオオブジェクトを各々表し得る。フォアグラウンド選択ユニット３６はまた、音場のフォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’（またはｖ^(1..nFG)（ｋ）３５’）を空間時間的補間ユニット５０に出力し得、ここで、フォアグラウンド成分に対応する並べ替えられたＶ［ｋ］行列３５’のサブセットは、次元Ｄ：（Ｎ＋１）²×ｎＦＧを有するフォアグラウンドＶ［ｋ］行列５１_kとして示され得る（これは、

として数学的に示され得る）。

[0062] エネルギー補償ユニット３８は、バックグラウンド選択ユニット４８によるＨＯＡチャネルの様々なチャネルの除去によるエネルギー損失を補償するために、環境ＨＯＡ係数４７に関してエネルギー補償を行うように構成されたユニットを表し得る。エネルギー補償ユニット３８は、並べ替えられたＵＳ［ｋ］行列３３’、並べ替えられたＶ［ｋ］行列３５’、ｎＦＧ信号４９、フォアグラウンドＶ［ｋ］ベクトル５１_kおよび環境ＨＯＡ係数４７のうちの１つまたは複数に関してエネルギー分析を行い、次いで、エネルギー補償された環境ＨＯＡ係数４７’を生成するためにそのエネルギー分析に基づいてエネルギー補償を行い得る。エネルギー補償ユニット３８は、エネルギー補償された環境ＨＯＡ係数４７’を聴覚心理オーディオコーダユニット４０に出力し得る。

[0063] 空間時間的補間ユニット５０は、ｋ番目のフレームのためのフォアグラウンドＶ［ｋ］ベクトル５１_kと、以前のフレームのための（従ってｋ−１という表記である）フォアグラウンドＶ［ｋ−１］ベクトル５１_k-1とを受信し、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために空間時間的補間を行うように構成されたユニットを表し得る。空間時間的補間ユニット５０は、並べ替えられたフォアグラウンドＨＯＡ係数を復元するために、ｎＦＧ信号４９をフォアグラウンドＶ［ｋ］ベクトル５１_kと再び組み合わせ得る。空間時間的補間ユニット５０は、次いで、補間されたｎＦＧ信号４９’を生成するために、補間されたＶ［ｋ］ベクトルによって、並べ替えられたフォアグラウンドＨＯＡ係数を分割し得る。空間時間的補間ユニット５０はまた、オーディオ復号デバイス２４のような、オーディオ復号デバイスが補間されたフォアグラウンドＶ［ｋ］ベクトルを生成しそれによってフォアグラウンドＶ［ｋ］ベクトル５１_kを復元し得るように、補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kを出力し得る。補間されたフォアグラウンドＶ［ｋ］ベクトルを生成するために使用されたフォアグラウンドＶ［ｋ］ベクトル５１_kは、残りのフォアグラウンドＶ［ｋ］ベクトル５３として示される。同じＶ［ｋ］およびＶ［ｋ−１］がエンコーダおよびデコーダにおいて（補間されたベクトルＶ［ｋ］を作成するために）使用されることを保証するために、ベクトルの量子化／逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間時間的補間ユニット５０は、補間されたｎＦＧ信号４９’を聴覚心理オーディオコーダユニット４６に出力し、補間されたフォアグラウンドＶ［ｋ］ベクトル５１_kを係数低減ユニット４６に出力し得る。

[0064] 係数低減ユニット４６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を量子化ユニット５２に出力するために、バックグラウンドチャネル情報４３に基づいて残りのフォアグラウンドＶ［ｋ］ベクトル５３に関して係数低減を行うように構成されたユニットを表し得る。低減されたフォアグラウンドＶ［ｋ］ベクトル５５は、次元Ｄ：［（Ｎ＋１）²−（Ｎ_BG＋１）²−ＢＧ_TOT］×ｎＦＧを有し得る。係数低減ユニット４６は、この点において、残りのフォアグラウンドＶ［ｋ］ベクトル５３における係数の数を低減するように構成されたユニットを表し得る。言い換えれば、係数低減ユニット４６は、方向情報をほとんどまたはまったく有しない（残りのフォアグラウンドＶ［ｋ］ベクトル５３を形成する）フォアグラウンドＶ［ｋ］ベクトルにおける係数を除去するように構成されたユニットを表し得る。いくつかの例において、（Ｎ_BGと示され得る）１次および０次の基底関数に対応する、明確な、または言い換えればフォアグラウンドＶ［ｋ］ベクトルの係数は、方向情報をほとんど提供せず、従って、（「係数低減(coefficient reduction)」と呼ばれ得るプロセスを通じて）フォアグラウンドＶベクトルから除去され得る。この例では、対応する係数Ｎ_BGを識別するだけでなく、（変数ＴｏｔａｌＯｆＡｄｄＡｍｂＨＯＡＣｈａｎによって示され得る）追加のＨＯＡチャネルを［（Ｎ_BG＋１）²＋１，（Ｎ＋１）²］のセットから識別するために、より大きい柔軟性が与えられ得る。

[0065] 量子化ユニット５２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を生成するために低減されたフォアグラウンドＶ［ｋ］ベクトル５５を圧縮するための任意の形態の量子化を行い、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム生成ユニット４２に出力するように構成されたユニットを表し得る。動作において、量子化ユニット５２は、音場の空間成分、すなわちこの例における低減されたフォアグラウンドＶ［ｋ］ベクトル５５のうちの１つまたは複数を圧縮するように構成されたユニットを表し得る。量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々に関して、ベクトル量子化、スカラー量子化、またはハフマンコーディング(Huffman coding)を伴うスカラー量子化を行い得る。量子化ユニット５２は、ビットストリーム２１の各フレームに関して、異なる形態の量子化を行い得る。言い換えれば、量子化ユニット５２は、フレームごとに、異なる形態の量子化の間を切り替え得る。

[0066] また、量子化ユニット５２は、前述のタイプの量子化モードのいずれかの量子化モードの予測されたバージョンを行うこともでき、以前のフレームのＶベクトルの要素（またはベクトル量子化が行われるときの重み）と、現在のフレームのＶベクトルの要素（またはベクトル量子化が行われるときの重み）との間の差が決定される。量子化ユニット５２は、その際、現在のフレーム自体のＶベクトルの要素の値でなく、現在のフレームの要素または重みと、以前のフレームの要素または重みとの間の差を量子化し得る。

[0067] 量子化ユニット５２は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の複数の符号化されたバージョンを取得するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の各々に対して複数の形態の量子化を行い得る。量子化ユニット５２は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７として、低減されたフォアグラウンドＶ［ｋ］ベクトル５５の符号化されたバージョンのうちの１つまたは複数を選択し得る。量子化ユニット５２は、言い換えれば、本開示で説明する基準の任意の組合せに基づいて、出力切替えされ量子化されたＶベクトルとして使用するために、予測されないベクトル量子化されたＶベクトル、予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの１つを選択し得る。いくつかの例において、量子化ユニット５２は、ベクトル量子化モードと１つまたは複数のスカラー量子化モードとを含む、量子化モードのセットから量子化モードを選択し、選択されたモードに基づいて（または従って）、入力Ｖベクトルを量子化し得る。量子化ユニット５２は次いで、（例えば、重み値またはそれを示すビットに関して）予測されないベクトル量子化されたＶベクトル、（例えば、誤差値またはそれを示すビットに関して）予測されベクトル量子化されたＶベクトル、ハフマンコーディングされないスカラー量子化されたＶベクトル、およびハフマンコーディングされスカラー量子化されたＶベクトルのうちの選択されたものを、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７としてビットストリーム生成ユニット４２に与え得る。量子化ユニット５２はまた、量子化モードを示すシンタックス要素（例えば、ＮｂｉｔｓＱシンタックス要素）と、Ｖベクトルを逆量子化またはさもなければ再構成するために使用される任意の他のシンタックス要素とを与え得る。

[0068] オーディオ符号化デバイス２０内に含まれる聴覚心理オーディオコーダユニット４０は、聴覚心理オーディオコーダの複数のインスタンスを表し得、これらの各々は、エネルギー補償された環境ＨＯＡ係数４７’および補間されたｎＦＧ信号４９’の各々の様々なオーディオオブジェクトまたはＨＯＡチャネルを符号化して、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを生成するために使用される。聴覚心理オーディオコーダユニット４０は、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１とをビットストリーム生成ユニット４２に出力し得る。

[0069] オーディオ符号化デバイス２０内に含まれるビットストリーム生成ユニット４２は、（復号デバイスによって知られているフォーマットを指し得る）既知のフォーマットに適合するようにデータをフォーマットし、それによってベクトルベースのビットストリーム２１を生成するユニットを表す。ビットストリーム２１は、言い換えれば、上記で説明された方法で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット４２は、いくつかの例においてマルチプレクサを表し得、マルチプレクサは、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とを受信し得る。ビットストリーム生成ユニット４２は、次いで、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７と、符号化された環境ＨＯＡ係数５９と、符号化されたｎＦＧ信号６１と、バックグラウンドチャネル情報４３とに基づいてビットストリーム２１を生成し得る。このようにして、ビットストリーム生成ユニット４２は、それにより、図７の例に関して以下により詳細に説明されるように、ビットストリーム２１を取得するために、ビットストリーム２１内のベクトル５７を指定し得る。ビットストリーム２１は、主要またはメインビットストリームと、１つまたは複数のサイドチャネルビットストリームとを含み得る。

[0070] 図３の例には示されないが、オーディオ符号化デバイス２０はまた、現在のフレームが方向ベース合成を使用して符号化されるべきであるかベクトルベース合成を使用して符号化されるべきであるかに基づいて、オーディオ符号化デバイス２０から出力されるビットストリームを（例えば、方向ベースのビットストリーム２１とベクトルベースのビットストリーム２１との間で）切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、（ＨＯＡ係数１１が合成オーディオオブジェクトから生成されたことを検出した結果として）方向ベース合成が行われたか、（ＨＯＡ係数が録音されたことを検出した結果として）ベクトルベース合成が行われたかを示す、コンテンツ分析ユニット２６によって出力されるシンタックス要素に基づいて、切替えを行い得る。ビットストリーム出力ユニットは、ビットストリーム２１の各々とともに現在のフレームのために使用される切替えまたは現在の符号化を示すために、正しいヘッダシンタックスを指定し得る。

[0071] その上、上述されたように、音場分析ユニット４４は、フレームごとに変化し得るＢＧ_TOT環境ＨＯＡ係数４７を識別し得る（が、時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。ＢＧ_TOTにおける変化は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５において表された係数への変化を生じさせ得る。ＢＧ_TOTにおける変化は、フレームごとに変化する（「環境ＨＯＡ係数」と呼ばれることもある）バックグラウンドＨＯＡ係数を生じさせ得る（が、この場合も時々、ＢＧ_TOTは、２つ以上の（時間的に）隣接するフレームにわたって一定または同じままであり得る）。この変化は、追加の環境ＨＯＡ係数の追加または除去と、対応する、低減されたフォアグラウンドＶ［ｋ］ベクトル５５からの係数の除去または低減されたフォアグラウンドＶ［ｋ］ベクトル５５に対する係数の追加とによって表される、音場の態様のためのエネルギーの変化を生じさせることが多い。

[0072] その結果、音場分析ユニット４４は、いつ環境ＨＯＡ係数がフレームごとに変化するかをさらに決定し、音場の環境成分を表すために使用されることに関して、環境ＨＯＡ係数への変化を示すフラグまたは他のシンタックス要素を生成し得る（ここで、この変化は、環境ＨＯＡ係数の「遷移」または環境ＨＯＡ係数の「遷移」と呼ばれることもある）。特に、係数低減ユニット４６は、（ＡｍｂＣｏｅｆｆＴｒａｎｓｉｔｉｏｎフラグまたはＡｍｂＣｏｅｆｆＩｄｘＴｒａｎｓｉｔｉｏｎフラグとして示され得る）フラグを生成し、そのフラグが（場合によってはサイドチャネル情報の一部として）ビットストリーム２１中に含まれ得るように、そのフラグをビットストリーム生成ユニット４２に与え得る。

[0073] 係数低減ユニット４６はまた、環境係数遷移フラグを指定することに加えて、低減されたフォアグラウンドＶ［ｋ］ベクトル５５が生成される方法を修正し得る。一例において、環境ＨＯＡ環境係数のうちの１つが現在のフレームの間に遷移中であると決定すると、係数低減ユニット４６は、遷移中の環境ＨＯＡ係数に対応する低減されたフォアグラウンドＶ［ｋ］ベクトル５５のＶベクトルの各々について、（「ベクトル要素」または「要素」と呼ばれることもある）ベクトル係数を指定し得る。この場合も、遷移中の環境ＨＯＡ係数は、ＢＧ_TOTからバックグラウンド係数の総数を追加または除去し得る。従って、バックグラウンド係数の総数において生じた変化は、環境ＨＯＡ係数がビットストリーム中に含まれるか含まれないか、および、Ｖベクトルの対応する要素が、上記で説明された第２の構成モードおよび第３の構成モードにおいてビットストリーム中で指定されたＶベクトルのために含まれるかどうかに影響を及ぼす。係数低減ユニット４６が、エネルギーの変化を克服するために、低減されたフォアグラウンドＶ［ｋ］ベクトル５５を指定し得る方法に関するより多くの情報は、２０１５年１月１２日に出願された「ＴＲＡＮＳＩＴＩＯＮＩＮＧＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」と題する米国出願第１４／５９４，５３３号において提供されている。

[0074] いくつかの例において、ビットストリーム生成ユニット４２は、例えば、デコーダ起動遅延を補償するために、即時プレイアウトフレーム（ＩＰＦ：Immediate Play-out Frame）を含めるように、ビットストリーム２１を生成する。場合によっては、ビットストリーム２１は、動的適応ストリーミングオーバーＨＴＴＰ（ＤＡＳＨ：Dynamic Adaptive Streaming over HTTP）または単方向トランスポートによるファイル配信（ＦＬＵＴＥ：File Delivery over Unidirectional Transport）のようなインターネットストリーミング規格とともに採用され得る。ＤＡＳＨは、ＩＳＯ／ＩＥＣ２３００９−１、「Ｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ−ＤｙｎａｍｉｃａｄａｐｔｉｖｅｓｔｒｅａｍｉｎｇｏｖｅｒＨＴＴＰ（ＤＡＳＨ）」２０１２年４月において記載されている。ＦＬＵＴＥは、ＩＥＴＦＲＦＣ６７２６、「ＦＬＵＴＥ−ＦｉｌｅＤｅｌｉｖｅｒｙｏｖｅｒＵｎｉｄｉｒｅｃｔｉｏｎａｌＴｒａｎｓｐｏｒｔ」、２０１２年１１月において記載されている。前述のＦＬＵＴＥおよびＤＡＳＨのようなインターネットストリーミング規格は、指定されたストリームアクセスポイント（ＳＡＰ）において即時プレイアウトを可能にすること、並びに、ストリームの任意のＳＡＰにおいて、ビットレートおよび／または有効化されたツールにおいて異なるストリームの表現間でプレイアウトを切り替えることによって、フレーム損失／劣化を補償し、ネットワークトランスポートリンク帯域幅に適応する。言い換えれば、オーディオ符号化デバイス２０は、（例えば、第１のビットレートにおいて指定された）コンテンツの第１の表現から（例えば、第２のより高いまたはより低いビットレートにおいて指定された）コンテンツの第２の異なる表現に切り替えるような方法で、フレームを符号化し得る。オーディオ復号デバイス２４は、フレームを受信し、コンテンツの第１の表現からコンテンツの第２の表現に切り替えるために、フレームを独立して復号し得る。オーディオ復号デバイス２４は、コンテンツの第２の表現を取得するために、後続のフレームを復号し続け得る。

[0075] 即時プレイアウト／切替えの場合、フレームを正確に復号するために必須の内部状態を確立するために、ストリームフレームのためのプリロールは復号されておらず、ビットストリーム生成ユニット４２は、即時プレイアウトフレーム（ＩＰＦ）を含めるように、ビットストリーム２１を符号化し得る。ＩＰＦおよびＩＰＦをサポートするためのオーディオデータの符号化に関するより多くの情報は、２０１５年１月２９日に出願された、「ＣＯＤＩＮＧＩＮＤＥＰＥＮＤＥＮＴＦＲＡＭ（登録商標）ＥＳＯＦＡＭＢＩＥＮＴＨＩＧＨＥＲ＿ＯＲＤＥＲＡＭＢＩＳＯＮＩＣＣＯＥＦＦＩＣＩＥＮＴＳ」と題する米国特許出願第１４／６０９，２０８号に見出せる。上記の米国特許出願第１４／６０９，２０８号において、ビットストリーム生成ユニット４２は、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの指示を（例えば、第１のフレーム用のビットストリーム２１のＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ部分中のｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇシンタックス要素を指定することによって）指定し得る。ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇが１にセットされると、第１のフレームは、一例として、独立フレーム（または、言い換えれば、およびＩＰＦ）としてシグナリングされる。ＩＰＦとしてシグナリングされた結果として、ビットストリーム生成ユニット４２は、フレームがＩＰＦであるものとして示されないとき、そうでなければシグナリングされない追加基準情報もシグナリングする。

[0076] いくつかのコーディング状況において、上述の米国特許出願第１４／５９４，５３３号および米国特許出願第１４／６０９，２０８号において論じられるオーディオ符号化デバイス２０は、冗長情報を指定していた。例えば、環境ＨＯＡ係数（例えば、上記のエネルギー補償されたＨＯＡ係数４７’のうちの１つ）が、フォアグラウンドオーディオ信号（例えば、上記の補間されたｎＦＧオーディオ信号４９’）がフェードインされていたときの同じ第１のフレームの間にフェードインされていたとき、係数低減ユニット４６は、環境ＨＯＡ係数４７’に対応するフォアグラウンドＶ［ｋ］ベクトル５３についてのＶベクトル要素を含んでおり、Ｖベクトル要素を２回（１回は実際のＶベクトル要素として、および再度、環境ＨＯＡ係数４７’として組み合わされた形で）、効果的に指定する。

[0077] 本開示で説明される技法は、冗長情報を指定することを避け得るためのやり方を提供する。冗長情報を削除した結果、本技法は、コーディング効率を促進するのに加え、音場再生を改善し得る可能性があり、というのは、冗長情報により、Ｖベクトル要素に対応するＨＯＡ係数を再構成するときのエネルギーが倍になる場合があるからである。以下に、同じフレーム中の、環境ＨＯＡ係数４７’のうちの１つと、補間されたｎＦＧオーディオ信号４９’のうちの１つの、両方のフェードインに関して説明するが、本技法は、同じフレーム中の、環境ＨＯＡ係数４７’のうちの１つと、補間されたｎＦＧオーディオ信号４９’のうちの１つの、両方のフェードアウトについて行われてもよい。

[0078] 図５Ａは同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図である。図５Ａの例において、ビットストリーム生成ユニット４２は、４のインデックスを有する、環境ＨＯＡ係数４７’のうちの１つを含む第１のバックグラウンドチャネル８００Ａを指定し得る。ビットストリーム生成ユニット４２は、補間されたｎＦＧオーディオ信号４９’のうちの１つを含むフォアグラウンドチャネル８００Ｂも指定し得る。ビットストリーム生成ユニット４２は、２のインデックスを有する環境ＨＯＡ係数４７’のうちの１つを含む別のバックグラウンドチャネル８００Ｃも指定し得る。ビットストリーム生成ユニット４２は、対応するチャネル８００Ａ〜８００Ｃが環境ＨＯＡ係数４７’のうちの１つそれとも補間されたｎＦＧ信号４９’のうちの１つを含むかを示す、チャネル８００Ａ〜８００Ｃの各々についてのタイプの指示（例えば、ＣｈａｎｎｅｌＴｙｐｅシンタックス要素）を指定し得る。

[0079] 図５Ａの例に示されるフレーム１０〜１２では、チャネル８００Ａ〜８００Ｃのうちのどれも、遷移を経ない。言い換えれば、オーディオ符号化デバイス２０は、チャネル８００Ａおよび８００Ｃの各々が環境ＨＯＡ係数４７’のうちの同じものを含み、チャネル８００Ｂが、補間されたｎＦＧ信号４９’のうちの同じものを含むと決定する。ただし、フレーム１３中に、音場分析ユニット４４は、バックグラウンドチャネル８００Ａおよび８００Ｃに含まれる環境ＨＯＡ係数４７’の両方が、フレーム１４中で、ｎＦＧオーディオ信号４９’のうちの新しいものおよび環境ＨＯＡ係数４７’のうちの新しいもの（この例では、５のインデックスによって識別される）で置き換えられるべきであると決定する。フレーム１４中に、オーディオ符号化デバイス２０は、ビットストリーム２１中で、バックグラウンドチャネル８００Ａがフォアグラウンドチャネル８００Ｄになることと、バックグラウンドチャネル８００Ｃはバックグラウンドチャネルのままであるが環境ＨＯＡ係数４７’のうちの新しいものを含むこととをシグナリングする。

[0080] 図５Ａの例において、従来のオーディオエンコーダ（上述の米国特許出願第１４／５９４，５３３号および米国特許出願第１４／６０９，２０８号において論じられる）は、フォアグラウンドチャネル８００Ｄ用に全ての２５個の要素がシグナリングされたことを示している。この点において、従来のオーディオエンコーダは、全ての２５個のｖベクトル要素（Ｖｖｅｃ要素＝２５）がバックグラウンドチャネル８００Ｅ中で追加環境ＨＯＡ係数として完全なＨＯＡ形態でシグナリングされる間、そのような要素を指定する際に、冗長情報を指定することになる。従来のオーディオエンコーダは、フレーム１５中で、次いで、バックグラウンドチャネル８００Ｅ中で指定された追加環境ＨＯＡ係数に対応するｖベクトル要素をフェードアウトさせ、２４個のＶｖｅｃ要素のみを生じる、
[0081] 従来のオーディオデコーダ（上述の米国特許出願第１４／５９４，５３３号および米国特許出願第１４／６０９，２０８号において論じられる）は、バックグラウンドチャネル８００Ｅからの追加環境ＨＯＡ係数とともに、フォアグラウンドチャネル８００Ｄを介して、全ての２５個のｖベクトル要素を受信した。ＨＯＡ係数を再構成する際、従来のオーディオデコーダは、フォアグラウンドＨＯＡ係数を取得するために、全ての２５個のｖベクトル要素を利用し、次に、フォアグラウンドＨＯＡ係数を冗長追加環境ＨＯＡ係数と組み合わせ、結果として、ＨＯＡ係数を再構成するときに冗長情報が２回利用されることから、エネルギー増幅が生じる。

[0082] 図５Ｂは本開示で説明される技法の様々な態様による、同じフレームの間に複数の遷移が起きたときのビットストリーム中のフレームのシグナリングを示す図である。バックグラウンドチャネル８００Ｅ中に含まれる環境ＨＯＡ係数４７’のうちの１つに関連付けられたＶベクトル要素を指定するのを避けるために、音場分析ユニット４４は、以下のＨＯＡＦｒａｍｅ（）シンタックス表に示されるように、（例えば、ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ変数の形での）新しい追加環境ＨＯＡ係数の数の指示を追跡するか、またはさもなければ取得し得る。ＨＯＡＦｒａｍｅ（）シンタックス表は復号の観点から規定されているが、音場分析ユニット４４は、オーディオ復号デバイス２４がビットストリーム２１を解析し、復号し得ることを確実にする適切なシンタックス要素を生成するように、オーディオ復号デバイス２４によって説明された方法と同様の方法で動作し得る。

[0083] ＨＯＡＦｒａｍｅ（）のシンタックス：

[0084] 上のＨＯＡＦｒａｍｅ（）シンタックス表中のイタリック体の項目は、本開示で説明される技法の様々な態様を許容するための、シンタックスへの追加を示す。音場分析ユニット４４は、上記ＨＯＡＦｒａｍｅ（）シンタックス表に示されるように、各フレームのコーディングを始めるとき、環境ＨＯＡ係数４７’の新しい追加係数の数の指示（例えば、ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ変数）をゼロに初期化し得る。言い換えれば、音場分析ユニット４４は、ビットストリームの第１のフレームの間に遷移している環境ＨＯＡ係数の数の指示を取得でき、環境ＨＯＡ係数は、ＨＯＡオーディオデータによって表される音場の環境成分を記述する。環境ＨＯＡ係数４７’の追加係数は、最小環境ＨＯＡ係数の指示によって識別されない環境ＨＯＡ係数４７’（例えば、ＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩのＨＯＡＤｅｃｏｄｅｒＣｏｎｆｉｇ（）シンタックス表中で指定されるＭｉｎＡｍｂＨｏａＯｒｄｅｒシンタックス要素）を指し得る。環境ＨＯＡ係数４７’の追加係数はまた、ＭＰＥＧ−Ｈ３Ｄオーディオコーディング規格のフェーズＩにより２のタイプを示す、チャネルのタイプの指示（例えば、ＣｈａｎｎｅｌＴｙｐｅシンタックス要素）によって識別される。

[0085] この点において、チャネルのタイプが２であるとき、音場分析ユニット４４は、上記シンタックス表中のケース２に切り替わり、遷移状態が１に等しい（この例では遷移を示し、フェードインまたはフェードアウトのいずれかを意味する）ときを決定し得る。音場分析ユニット４４が、バックグラウンドチャネル８００Ａがフォアグラウンドチャネル８００Ｄに遷移するべきであると決定すると、音場分析ユニット４４は、環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移しているかを示す指示を（例えば、ＮｅｗＡｄｄＨｏａＣｅｆｆ［ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ］変数の形で）取得し得る。音場分析ユニット４４はまた、ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓを１だけ増分し得る（すなわち、上記の例示的なシンタックス表ではＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ＋＋として示される）。

[0086] 音場分析ユニット４４は、上述の指示を、バックグラウンドチャネル情報４３の一部として係数低減ユニット４３に与え得る。いくつかの例において、係数低減ユニット４６は、（音場分析ユニット４４ではなく）、上で指定されたバックグラウンドチャネル情報４３に基づいて上記指示を取得し得る。係数低減ユニット４６は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの指示を、ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ変数に基づいて取得し得る。

[0087] 係数低減ユニット４６はまた、フォアグラウンドオーディオ信号４９’のうちの１つがビットストリームの第１のフレーム（例えば、図５Ｂの例ではフレーム１４）中に遷移中であるかどうかのフォアグラウンド指示を決定でき、フォアグラウンドオーディオ信号は、ＨＯＡオーディオデータ１１によって表されるとともにＨＯＡオーディオデータ１１から分解された音場のフォアグラウンド成分を記述する。係数低減ユニット４６は、ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（）シンタックス表に示される方法と同様の方法で、フォアグラウンド指示を取得し得る。やはり、以下のシンタックス表は復号の観点から規定されているが、係数低減ユニット４６は、オーディオ復号デバイス２４がビットストリーム２１を解析し、復号し得ることを確実にする適切なシンタックス要素を生成するように、オーディオ復号デバイス２４によって説明された方法と同様の方法で動作し得る。

[0088] ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａ（）のシンタックス：

[0089] やはり、上のシンタックス表中のイタリック体の項目は、本開示で説明される技法の様々な態様を許容するための、シンタックスへの追加を示す。フォアグラウンド指示は、ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏ（）シンタックス表において、ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ（ｋ）［ｉ］シンタックス要素として示される。ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅシンタックス要素はまた、ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏＤａｔａシンタックス表のいくつかのインスタンスにおいて、「ＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ」として示される場合があり、「ＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ」項の前の文字「ｂ」を削除している。係数低減ユニット４６は、先行フレーム１３のトランスポートチャネル８００Ａのタイプの指示（すなわち、上記の例示的なシンタックス表ではＣｈａｎｎｅｌＴｙｐｅシンタックス要素として示される）に基づいて、フォアグラウンド指示を取得し得る。

[0090] より具体的には、係数低減ユニット４６は、フォアグラウンド指示を以下の擬似コードに従って取得し得る。
ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ（ｋ）［ｉ］＝（１！＝ＣｈａｎｎｅｌＴｙｐｅ（ｋ−１）［ｉ］）。
擬似コードにおいて、係数低減ユニット４６は、フレーム１４（第１のフレームと呼ばれ得る）についてのフォアグラウンド指示を、フレーム１３（第２のフレーム、先行フレーム、または直接先行フレームと呼ばれ得る）のトランスポートチャネル８００Ａについてのタイプに基づいて取得し得る。上記擬似コードに従って、係数低減ユニット４６は、第１のフレームについてのフォアグラウンド指示を、第２のフレームについてのＣｈａｎｎｅｌＴｙｐｅシンタックス要素が１に等しくないときは１に等しいものとして、第２のフレームについてのＣｈａｎｎｅｌＴｙｐｅシンタックス要素が１に等しいときはゼロに等しいものとして取得し得る。

[0091] この点において、フォアグラウンド指示（ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ［ｉ］）は、以前のフレーム（ｋ−１）中で、トランスポートチャネルがベクトルベースの信号として初期化されていなかった（または、言い換えれば、補間されたｎＦＧオーディオ信号４９’のうちの１つを含んでいなかった）かどうかを示すフラグを表す。図５Ｂの例において、係数低減ユニット４６は、フォアグラウンドチャネル８００ＤについてのｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅシンタックス要素がフレーム１４について１に等しいと決定し得る。フォアグラウンド指示は、この点において、第２のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。言い方を変えれば、フォアグラウンド指示は、フォアグラウンドオーディオ信号がビットストリームの第１のフレームの間に遷移中であるかどうかを示し得る。

[0092] 上記ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏ（）シンタックス表に示されるように、係数低減ユニット４６は、いくつかの例において、フェードインされている、補間されたｎＦＧオーディオ信号４９’のうちの１つに対応するＶベクトルについてのコーディングモードが１にセットされている（１にセットされている指示ＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈシンタックス要素によって示されるように）ときのみ、フォアグラウンド指示を取得し得る。１にセットされているＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈシンタックス要素によって識別されるコーディングモードにより、係数低減ユニット４６は、低減されたＶベクトルを送ることになり、低減されたＶベクトルは、上記米国特許出願に記載されるように、最小環境ＨＯＡ係数および追加環境ＨＯＡ係数に対応する要素が削除されているＶベクトルを指し得る。

[0093] 係数低減ユニット４６は、いくつかの例において、バックグラウンド指示（ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓ変数を参照するための別のやり方であり得る）、フォアグラウンド指示（ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ［ｉ］シンタックス要素を参照するための別のやり方であり得、変数ｉはトランスポートチャネルのインデックスを示す）、またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号４９’のうちの１つが遷移中であるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数４７’のうちの１つが遷移中であるかどうかの複数遷移指示を取得し得る。バックグラウンド指示は、環境指示とも呼ばれ得る。フォアグラウンド指示は、支配的指示とも呼ばれ得る。係数低減ユニット４６は、複数遷移指示を、バックグラウンド指示で乗算されたフォアグラウンド指示（ｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ［ｉ］＊ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓとして示され得る）として決定し得る。

[0094] 係数低減ユニット４６は次いで、トランスポートチャネルを通して、ｎＦＧオーディオ信号４９’のうちの１つがフェードインされるときの同じ第１のフレームの間に、新しい追加環境ＨＯＡ係数４７’のうちのどれがフェードインされているかを決定することを繰り返し得る。係数低減ユニット４６は次いで、別のフォアグラウンドチャネル（例えば、フォアグラウンドチャネル８００Ｄ）が同じフレーム（例えば、図５Ｂではフレーム１４）の間にフェードインされると、フェードインされている環境ＨＯＡ係数４７’のうちの新しいものに対応するＶベクトル要素（例えば、図５Ｂではバックグラウンドチャネル８００Ｅとして示される）を削除し得る。

[0095] 図５Ｂの例において、係数低減ユニット４６は、（バックグラウンドチャネル８００Ｅ中に示される）第５のインデックスによって識別される、環境ＨＯＡ係数４７’のうちの１つに関連付けられたＶベクトル要素を削除し得る。従って、フォアグラウンドチャネル８００Ｄは、合計２５個のｖベクトル要素を有する、４次表現用の２４個のベクトル要素のみを含む（図５Ｂの例において、Ｖｖｅｃ要素＝２４によって示される）。係数低減ユニット４６は、以前のフレーム中でＶ−ｖｅｃ要素［５］が指定されているので、上で参照された米国特許出願において論じられるように、５のインデックスによって識別される、環境ＨＯＡ係数４７’のうちの１つに対応するＶ−ｖｅｃ要素［５］をフェードアウトさせる。図５Ｂに示される残りのＷａｓＦａｄｅｄＩｎ、ＴｒａｎｓｉｔｉｏｎＭｏｄｅおよびＴｒａｎｓｉｔｉｏｎ項目も、上記の米国特許出願においてより詳しく説明されている。

[0096] このようにして、係数低減ユニット４６は、複数遷移指示に基づいて、低減されたＶ［ｋ］ベクトル５５のうちの１つ（補間されたｎＦＧオーディオ信号４９’のうちの対応する１つの空間的特性を記述するベクトルを表し得る）を取得でき、ベクトルと、対応するＨＯＡオーディオ信号の両方は、上述したように、ＨＯＡオーディオデータから分解される。

[0097] いくつかの実施形態において、ビットストリーム生成ユニット４２は、上述したように、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの指示（すなわち、ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇシンタックス要素）を指定し得る。上記ＣｈａｎｎｅｌＳｉｄｅＩｎｆｏ（）シンタックス表により、ビットストリーム生成ユニット４２は、ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇが、第１のフレームが独立フレームであることを示すとき（すなわち、上記の例示的なシンタックス表における、ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇが１に等しいことを意味する「ｉｆ（ｈｏａＩｎｄｐｅｎｄｅｎｃｙＦｌａｇ）」）、フォアグラウンド指示を指定し得る。ビットストリーム生成ユニット４２は、フレームが他のどのフレームまたは別のフレームからの他のどのシンタックス要素も参照することなく復号されなければならないので、第１のフレームが独立フレームであるとき、フォアグラウンド指示を指定し得る。フォアグラウンド指示が以前のフレーム（ｋ−１）についてのＣｈａｎｎｅｌＴｙｐｅに基づいて決定されることから、ビットストリーム生成ユニット４２は、第１のフレームが独立フレームであるとき、フォアグラウンド指示を指定する。オーディオ符号化デバイス２０に関して上述したが、オーディオ復号デバイス２４は、オーディオ符号化デバイス２０の動作と逆の動作を行い得る。オーディオ復号デバイス２４によって行われる逆の動作は、図４の例に関して以下でより詳しく説明される。

[0098] 図４は、図２のオーディオ復号デバイス２４をより詳細に示すブロック図である。図４の例に示されているように、オーディオ復号デバイス２４は、抽出ユニット７２と、方向ベース再構成ユニット９０と、ベクトルベース再構成ユニット９２とを含み得る。以下で説明されるが、オーディオ復号デバイス２４、およびＨＯＡ係数を解凍またはさもなければ復号する様々な態様に関するより多くの情報は、２０１４年５月２９日に出願された「ＩＮＴＥＲＰＯＬＡＴＩＯＮＦＯＲＤＥＣＯＭＰＯＳＥＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮＳＯＦＡＳＯＵＮＤＦＩＥＬＤ」という名称の国際特許出願公開第ＷＯ２０１４／１９４０９９号において入手可能である。

[0099] 抽出ユニット７２は、ビットストリーム２１を受信し、ＨＯＡ係数１１の様々な符号化されたバージョン（例えば、方向ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン）を抽出するように構成されたユニットを表し得る。抽出ユニット７２は、ＨＯＡ係数１１が様々な方向ベースのバージョンを介して符号化されたか、ベクトルベースのバージョンを介して符号化されたかを示す、上述のシンタックス要素から決定し得る。方向ベース符号化が行われたとき、抽出ユニット７２は、ＨＯＡ係数１１の方向ベースのバージョンと、符号化されたバージョンに関連付けられたシンタックス要素（図４の例では方向ベース情報９１として示される）とを抽出し、方向ベース情報９１を方向ベース再構成ユニット９０に渡し得る。方向ベース再構成ユニット９０は、方向ベース情報９１に基づいてＨＯＡ係数１１’の形態でＨＯＡ係数を再構成するように構成されたユニットを表し得る。

[0100] ＨＯＡ係数１１がベクトルベース合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７（コーディングされた重み５７および／もしくはインデックス６３またはスカラー量子化されたＶベクトルを含み得る）と、符号化された環境ＨＯＡ係数５９と、対応するオーディオオブジェクト６１（符号化されたｎＦＧ信号６１と呼ばれる場合もある）とを抽出し得る。オーディオオブジェクト６１はそれぞれベクトル５７のうちの１つに対応する。抽出ユニット７２は、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をＶベクトル再構成ユニット７４に渡し、符号化された環境ＨＯＡ係数５９を符号化されたｎＦＧ信号６１とともに聴覚心理復号ユニット８０に渡し得る。

[0101] 抽出ユニット７２はまた、ＨＯＡＦｒａｍｅシンタックス表およびＣｈａｎｎｅｌＳｉｄｅＩｎｆｏ（）シンタックス表に関して上述した様々なシンタックス要素および変数のセットを取得するために、オーディオ符号化デバイス２０に関して上述したように動作し得る。抽出ユニット７２は、バックグラウンド指示、フォアグラウンド指示、独立フレーム指示（上記ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇを指し得る）、および複数遷移指示の任意の組合せを取得し得る。

[0102] 抽出ユニット７２は、バックグラウンド指示、フォアグラウンド指示、独立フレーム指示（上記ｈｏａＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇを指し得る）、および複数遷移指示のうちのいずれか１つに基づいて、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７をビットストリーム２１から取得し得る。抽出ユニット７２は、ＣｏｄｅｄＶＶｅｃＬｅｎｇｔｈシンタックス要素が１のコーディングモードを示すとき、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７を抽出するために、以下の擬似コードに従って動作し得る。

[0103] 上記擬似コード中の上記太字イタリック体の項目は、フェーズＩもしくはＩＩまたは３Ｄオーディオコーディング規格に対する更新を示す。上記の擬似コードは、抽出ユニット７２が、複数遷移指示（例えば、フォアグラウンド指示、例えば、バックグラウンド指示、例えば、ＮｕｍＯｆＮｅｗＡｄｄＨｏａＣｈａｎｓで乗算されたｂＮｅｗＣｈａｎｎｅｌＴｙｐｅＯｎｅ［ｉ］）に基づいて、コーディングされたフォアグラウンドＶ［ｋ］ベクトル５７の要素の数を決定し得ることを示す。抽出ユニット７２は、この点において、図３および図５Ｂの例に関して本開示で説明される技法を行うとき、オーディオ符号化デバイス２０が説明されるのとは逆のように作用し得る。

[0104] 図５Ｂの例に関して、抽出ユニット７２は、複数遷移指示に基づいて、２４個のｖベクトル要素のみがフレーム１４および１５中にあると決定し得る。従って、抽出ユニット７２は、本開示で説明される技法を行わないときに従来のオーディオデコーダが抽出する２５個のｖベクトル要素でなく、２４個のｖベクトル要素のみをフォアグラウンドチャネル８００Ｄから抽出し得る。従って、抽出ユニット７２は冗長情報を抽出しなくてよく、そうすることによって、ＨＯＡ係数を再構成するときに冗長情報を含めることにより生じる、上述した増幅を避け得る。

[0105] この点において、オーディオ復号デバイス２４は、第１の例において、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得でき、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得し、ベクトルと、対応するＨＯＡオーディオ信号の両方がＨＯＡオーディオデータから分解される。

[0106] 第１の例のオーディオ復号デバイス２４は、第２の例において、ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得でき、複数遷移指示を取得することは、バックグラウンド指示に基づいて複数遷移指示を取得することを備える。

[0107] 第１および第２の例の任意の組合せのオーディオ復号デバイス２４は、第３の例において、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得でき、複数遷移指示を取得することは、フォアグラウンド指示に基づいて複数遷移指示を取得することを備える。

[0108] 第１〜第３の例の任意の組合せのオーディオ復号デバイス２４は、第４の例において、ビットストリームのフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得でき、複数遷移指示を取得することは、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得することを備える。

[0109] 第１〜第４の例の任意の組合せのオーディオ復号デバイス２４は、第５の例において、環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得し得る。

[0110] 第１〜第５の例の任意の組合せのオーディオ復号デバイス２４は、第６の例において、環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得し得る。

[0111] 第１〜第６の例の任意の組合せのオーディオ復号デバイス２４は、第７の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得し得る。

[0112] 第１〜第７の例の任意の組合せのオーディオ復号デバイス２４は、第８の例において、ビットストリームの第１のフレームから、第１のフレームが、第１のフレームがビットストリームの第２のフレーム（または、言い換えれば、異なるフレーム）を参照することなく復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得し得る。

[0113] 第１〜第８の例の任意の組合せのオーディオ復号デバイス２４は、第９の例において、第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得し得る。

[0114] 第１〜第９の例の任意の組合せのオーディオ復号デバイス２４は、第１０の例において、第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得し得る。

[0115] 第１〜第１０の例の任意の組合せのオーディオ復号デバイス２４は、第１１の例において、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る。

[0116] 第１〜第１１の例の任意の組合せのオーディオ復号デバイス２４は、第１２の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る。

[0117] 第１〜第１２の例の任意の組合せのオーディオ復号デバイス２４は、第１３の例において、フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得し得る。

[0118] 上記の第１〜第１３の例の任意の組合せにおいて、ベクトルは、第１４の例において、ＨＯＡオーディオデータから分解される。

[0119] 上記の第１〜第１４の例の任意の組合せにおいて、複数遷移指示は、第１５の例において、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す。

[0120] 上記の第１〜第１５の例の任意の組合せにおいて、複数遷移指示は、第１６の例において、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す。

[0121] Ｖベクトル再構成ユニット７４は、符号化されたフォアグラウンドＶ［ｋ］ベクトル５７からＶベクトルを再構成するように構成されたユニットを表し得る。Ｖベクトル再構成ユニット７４は、量子化ユニット５２の場合とは逆の方法で動作し得る。

[0122] 聴覚心理復号ユニット８０は、符号化された環境ＨＯＡ係数５９と符号化されたｎＦＧ信号６１とを復号し、それによってエネルギー補償された環境ＨＯＡ係数４７’と補間されたｎＦＧ信号４９’（補間されたｎＦＧオーディオオブジェクト４９’とも呼ばれ得る）とを生成するために、図３の例に示される聴覚心理オーディオコーダユニット４０とは逆の方法で動作し得る。聴覚心理復号ユニット８０は、エネルギー補償された環境ＨＯＡ係数４７’をフェードユニット７７０に渡し、ｎＦＧ信号４９’をフォアグラウンド編成ユニット７８に渡し得る。

[0123] 空間時間的補間ユニット７６は、空間時間的補間ユニット５０に関して上記で説明された方法と同様の方法で動作し得る。空間時間的補間ユニット７６は、低減されたフォアグラウンドＶ［ｋ］ベクトル５５_kを受信し、また、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’を生成するために、フォアグラウンドＶ［ｋ］ベクトル５５_kおよび低減されたフォアグラウンドＶ［ｋ−１］ベクトル５５_k-1に関して空間時間的補間を行い得る。空間時間的補間ユニット７６は、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’をフェードユニット７７０に転送し得る。

[0124] 抽出ユニット７２はまた、いつ環境ＨＯＡ係数のうちの１つが遷移中であるかを示す信号７５７をフェードユニット７７０に出力し得、フェードユニット７７０は、次いで、ＳＣＨ_BG４７’（ここで、ＳＣＨ_BG４７’は「環境ＨＯＡチャネル４７’」または「環境ＨＯＡ係数４７’」と呼ばれることもある）および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちのいずれがフェードインまたはフェードアウトのいずれかを行われるべきであるかを決定し得る。いくつかの例において、フェードユニット７７０は、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の各々に関して、反対に動作し得る。すなわち、フェードユニット７７０は、環境ＨＯＡ係数４７’のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインもしくはフェードアウトの両方を行い得、一方で、補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素のうちの対応する１つに関して、フェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を行い得る。フェードユニット７７０は、調整された環境ＨＯＡ係数４７’’をＨＯＡ係数編成ユニット８２に出力し、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’をフォアグラウンド編成ユニット７８に出力し得る。この点において、フェードユニット７７０は、ＨＯＡ係数またはそれの派生物の様々な態様に関して、例えば、環境ＨＯＡ係数４７’および補間されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’の要素の形態で、フェード演算を行うように構成されたユニットを表す。

[0125] フォアグラウンド編成ユニット７８は、フォアグラウンドＨＯＡ係数６５を生成するために、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’および補間されたｎＦＧ信号４９’に関して行列乗算を行うように構成されたユニットを表し得る。この点において、フォアグラウンド編成ユニット７８は、ＨＯＡ係数１１’のフォアグラウンド態様、または言い換えれば、支配的態様を再構成するために、（補間されたｎＦＧ信号４９’を示すための別の方法である）オーディオオブジェクト４９’をベクトル５５_k’’’と組み合わせ得る。フォアグラウンド編成ユニット７８は、調整されたフォアグラウンドＶ［ｋ］ベクトル５５_k’’’によって、補間されたｎＦＧ信号４９’の行列乗算を行い得る。

[0126] ＨＯＡ係数編成ユニット８２は、ＨＯＡ係数１１’を取得するために、フォアグラウンドＨＯＡ係数６５を調整された環境ＨＯＡ係数４７’’に組み合わせるように構成されたユニットを表し得る。プライム表記法は、ＨＯＡ係数１１’がＨＯＡ係数１１と同様であるが同じでないことがあることを反映している。ＨＯＡ係数１１とＨＯＡ係数１１’との間の差分は、損失のある送信媒体を介した送信、量子化、または他の損失のある演算が原因の損失に起因し得る。

[0127] 図６〜図９は、本開示で説明される技法の様々な態様を行う際のオーディオ符号化デバイス２０の例示的な動作を示すフローチャートである。図６の例において、オーディオ符号化デバイス２０は、最初にＨＯＡオーディオデータを取得し得る（２００）。オーディオ符号化デバイス２０は、ＨＯＡオーディオデータをキャプチャするか、またはさもなければ取得するために、１つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス２０は、次に、上述したように、ＨＯＡオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る（２０２）。オーディオ符号化デバイス２０は、ビットストリームの第１のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。

[0128] オーディオ符号化デバイス２０は、上述したように、ビットストリームの第１のフレーム中で、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定し得る（２０４）。オーディオ符号化デバイス２０はまた、ビットストリームの第１のフレーム中で、および第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定し得る（２０６）。上述したように、フォアグラウンド指示は、第２のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。オーディオ符号化デバイス２０は、ビットストリームの第１のフレーム中で、少なくとも１つの環境ＨＯＡ係数、ベクトルのうちの少なくとも１つ、および対応するフォアグラウンドオーディオオブジェクトのうちの少なくとも１つ、のうちの１つまたは複数を指定し得る（２０８）。

[0129] 本技法は、図６に示される項１Ａの態様を行うように構成されたオーディオ符号化デバイス２０が、以下の従属項に従って動作することを可能にし得る。

[0130] 項２Ａ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を指定するようにさらに構成された、項１Ａに記載のデバイス（例えば、図６の例に関して説明された技法の様々な態様に従って動作するように構成されたオーディオコーディングデバイス２０）。

[0131] 項３Ａ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成される、項２Ａに記載のデバイス。

[0132] 項４Ａ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成される、項２Ａに記載のデバイス。

[0133] 項５Ａ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を指定するように構成される、項１Ａに記載のデバイス。

[0134] 項６Ａ。ベクトルはＨＯＡオーディオデータから分解される、項４Ａおよび５Ａの任意の組合せに記載のデバイス。

[0135] 項７Ａ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を指定し、バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を指定するようにさらに構成された、項１Ａに記載のデバイス。

[0136] 項８Ａ。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を指定するようにさらに構成された、項１Ａまたは７Ａに記載のデバイス。

[0137] 項９Ａ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を指定するように構成される、項７Ａまたは８Ａに記載のデバイス。

[0138] 項１０Ａ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を指定するように構成される、項７Ａまたは８Ａに記載のデバイス。

[0139] 項１１Ａ。ビットストリームのフォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンド指示を指定するように構成される、項８Ａに記載のデバイス。

[0140] 項１２Ａ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項７Ａ〜１１Ａのうちのいずれかに記載のデバイス。

[0141] 項１３Ａ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項７Ａ〜１１Ａのうちのいずれかに記載のデバイス。

[0142] 項１４Ａ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを指定するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方がＨＯＡオーディオデータから分解される、請求項７Ａ〜１３Ａの任意の組合せに記載のデバイス。

[0143] 図７の例において、オーディオ符号化デバイス２０は、最初にＨＯＡオーディオデータを取得し得る（２２０）。オーディオ符号化デバイス２０は、ＨＯＡオーディオデータをキャプチャするか、またはさもなければ取得するために、１つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス２０は、次に、上述したように、ＨＯＡオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る（２２２）。オーディオ符号化デバイス２０は、ビットストリームの第１のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。

[0144] オーディオ符号化デバイス２０はまた、上述したように、フォアグラウンドオーディオオブジェクトが遷移中であるときの、ビットストリームのフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得し得る（２２４）。オーディオ符号化デバイス２０はまた、複数遷移指示に基づいて、ベクトル（上述したように、対応するフォアグラウンドオーディオ信号の空間的特性を表す）を取得し得る（２２６）。上述したように、ベクトルと、対応するフォアグラウンドオーディオ信号の両方がＨＯＡオーディオデータから分解され得る。オーディオ符号化デバイス２０は、ビットストリームのフレーム中で、取得されたベクトルを指定し得る（２２８）。

[0145] 本技法は、図７に示される項１Ｂの態様を行うように構成されたオーディオ符号化デバイス２０が、以下の従属項に従って動作することを可能にし得る。

[0146] 項２Ｂ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、バックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１Ｂに記載のデバイス（例えば、図７の例に関して説明された技法の様々な態様に従って動作するように構成されたオーディオコーディングデバイス２０）。

[0147] 項３Ｂ。ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１Ｂに記載のデバイス。

[0148] 項４Ｂ。ビットストリームのフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１Ｂに記載のデバイス。

[0149] 項５Ｂ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項２Ｂまたは４Ｂに記載のデバイス。

[0150] 項６Ｂ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項２Ｂまたは４Ｂに記載のデバイス。

[0151] 項７Ｂ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項３Ｂまたは４Ｂに記載のデバイス。

[0152] 項８Ｂ。第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項３Ｂまたは４Ｂに記載のデバイス。

[0153] 項９Ｂ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、フォアグラウンド指示を取得するように構成される、項８Ｂに記載のデバイス。

[0154] 項１０Ｂ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、およびビットストリーム中で、第２のフレームのトランスポートチャネルについてのタイプの指示を指定するようにさらに構成された、項８Ｂに記載のデバイス。

[0155] 項１１Ｂ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０Ｂに記載のデバイス。

[0156] 項１２Ｂ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリーム中の第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を指定するように構成され、フォアグラウンド指示は、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、項１０Ｂに記載のデバイス。

[0157] 項１３Ｂ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項１０Ｂに記載のデバイス。

[0158] 項１４Ｂ。ベクトルはＨＯＡオーディオデータから分解される、項１２Ｂまたは１３Ｂに記載のデバイス。

[0159] 項１５Ｂ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項１Ｂ〜１４Ｂのうちのいずれかに記載のデバイス。

[0160] 項１６Ｂ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項１Ｂ〜１４Ｂのうちのいずれかに記載のデバイス。

[0161] 図８の例において、オーディオ符号化デバイス２０は、最初にＨＯＡオーディオデータを取得し得る（２４０）。オーディオ符号化デバイス２０は、ＨＯＡオーディオデータをキャプチャするか、またはさもなければ取得するために、１つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス２０は、次に、上述したように、ＨＯＡオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る（２４２）。オーディオ符号化デバイス２０は、ビットストリームの第１のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。

[0162] オーディオ符号化デバイス２０はまた、ビットストリームのフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得し得る（２４４）。オーディオ符号化デバイス２０は、バックグラウンド指示に基づいて、フレーム中で、少なくとも１つの環境ＨＯＡ係数、ベクトルのうちの少なくとも１つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも１つ、のうちの１つまたは複数を指定し得る（２４６）。

[0163] 本技法は、図８に示される項１Ｃの態様を行うように構成されたオーディオ符号化デバイス２０が、以下の従属項に従って動作することを可能にし得る。

[0164] 項２Ｃ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項１Ｃに記載のデバイス。

[0165] 項３Ｃ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項１Ｃに記載のデバイス。

[0166] 項４Ｃ。バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１Ｃに記載のデバイス。

[0167] 項５Ｃ。フォアグラウンドオーディオ信号がビットストリームの第１のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンドオーディオ信号は、ＨＯＡオーディオデータによって表されるとともにＨＯＡオーディオデータから分解された音場のフォアグラウンド成分を記述する、項１Ｃに記載のデバイス。

[0168] 項６Ｃ。ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項５Ｃに記載のデバイス。

[0169] 項７Ｃ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項５Ｃに記載のデバイス。

[0170] 項８Ｃ。ビットストリームの第１のフレーム中で、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定するようにさらに構成された、項５Ｃに記載のデバイス。

[0171] 項９Ｃ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリーム中で、フォアグラウンド指示を指定するように構成される、項８Ｃに記載のデバイス。

[0172] 項１０Ｃ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項８Ｃに記載のデバイス。

[0173] 項１１Ｃ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０Ｃに記載のデバイス。

[0174] 項１２Ｃ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０Ｃに記載のデバイス。

[0175] 項１３Ｃ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項１０Ｃに記載のデバイス。

[0176] 項１４Ｃ。ベクトルはＨＯＡオーディオデータから分解される、項１２Ｃおよび１３Ｃに記載のデバイス。

[0177] 項１５Ｃ。フォアグラウンドオーディオ信号がビットストリームの第１のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと、フォアグラウンドオーディオ信号は、ＨＯＡオーディオデータによって表されるとともにＨＯＡオーディオデータから分解された音場のフォアグラウンド成分を記述する、フォアグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することとを行うようにさらに構成された、項１Ｃに記載のデバイス。

[0178] 項１６Ｃ。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１Ｃまたは１５Ｃに記載のデバイス。

[0179] 項１７Ｃ。項１５Ｃまたは１６Ｃに記載のデバイスは、環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成され始める。

[0180] 項１８Ｃ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、請求項１５Ｃまたは１６Ｃに記載のデバイス。

[0181] 項１９Ｃ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１６Ｃに記載のデバイス。

[0182] 項２０Ｃ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項４Ｃ〜１９Ｃのうちのいずれかに記載のデバイス。

[0183] 項２１Ｃ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項４Ｃ〜１９Ｃのうちのいずれかに記載のデバイス。

[0184] 項２２Ｃ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方がＨＯＡオーディオデータから分解される、項１Ｃ〜２１Ｃの任意の組合せに記載のデバイス。

[0185] 図９の例において、オーディオ符号化デバイス２０は、最初にＨＯＡオーディオデータを取得し得る（２６０）。オーディオ符号化デバイス２０は、ＨＯＡオーディオデータをキャプチャするか、またはさもなければ取得するために、１つまたは複数のマイクロフォンに結合し得る。オーディオ符号化デバイス２０は、次に、上述したように、ＨＯＡオーディオデータを、ベクトルおよび対応するフォアグラウンドオーディオオブジェクトに分解し得る（２６２）。オーディオ符号化デバイス２０は、ビットストリームの第１のフレーム中で、対応するフォアグラウンドオーディオオブジェクトを指定し得る。

[0186] オーディオ符号化デバイス２０はまた、ビットストリームのフレームの間にフォアグラウンドオーディオオブジェクトが遷移中であるかどうかのフォアグラウンド指示を取得し得る（２６４）。オーディオ符号化デバイス２０は、フォアグラウンド指示に基づいて、フレーム中で、少なくとも１つの環境ＨＯＡ係数、ベクトルのうちの少なくとも１つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも１つ、のうちの１つまたは複数を指定し得る（２６６）。

[0187] 本技法は、図９に示される項１Ｄの態様を行うように構成されたオーディオ符号化デバイス２０が、以下の従属項に従って動作することを可能にし得る。

[0188] 項２Ｄ。ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１Ｄに記載のデバイス。

[0189] 項３Ｄ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１Ｄに記載のデバイス。

[0190] 項４Ｄ。ビットストリームの第１のフレーム中で、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定するようにさらに構成された、項１Ｄに記載のデバイス。

[0191] 項５Ｄ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリーム中で、フォアグラウンド指示を指定するように構成される、項４Ｄに記載のデバイス。

[0192] 項６Ｄ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項４Ｄに記載のデバイス。

[0193] 項７Ｄ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項６Ｄに記載のデバイス。

[0194] 項８Ｄ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項６Ｄに記載のデバイス。

[0195] 項９Ｄ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するようにさらに構成される、項６Ｄに記載のデバイス。

[0196] 項１０Ｄ。ベクトルはＨＯＡオーディオデータから分解される、項８Ｄまたは９Ｄに記載のデバイス。

[0197] 項１１Ｄ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、環境ＨＯＡ係数は、ＨＯＡオーディオデータによって表される音場の環境成分を記述する、項１Ｄに記載のデバイス。

[0198] 項１２Ｄ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項１１Ｄに記載のデバイス。

[0199] 項１３Ｄ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項１１Ｄに記載のデバイス。

[0200] 項１４Ｄ。バックグラウンド指示、フォアグラウンド指示またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、環境ＨＯＡ係数が、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１Ｄまたは１１Ｄに記載のデバイス。

[0201] 項１５Ｄ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項１４Ｄに記載のデバイス。

[0202] 項１６Ｄ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項１４Ｄに記載のデバイス。

[0203] 項１７Ｄ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方がＨＯＡオーディオデータから分解される、項１４Ｄ〜１６Ｄの任意の組合せに記載のデバイス。

[0204] 図１０〜図１３は、本開示で説明される技法の様々な態様を行う際のオーディオ復号デバイス２４の例示的な動作を示すフローチャートである。図１０の例において、オーディオ復号デバイス２４は、ビットストリームの第１のフレームから、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得し得る（３００）。オーディオ復号デバイス２４はまた、第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得し得る（３０２）。上述したように、フォアグラウンド指示は、第２のフレームの同じトランスポートチャネルが、高次アンビソニックオーディオデータから分解されたフォアグラウンドオーディオ信号を含むかどうかを示し得る。

[0205] オーディオ復号デバイス２４は、次に、フォアグラウンド指示（上述したように、ＨＯＡオーディオデータから分解され得る）に基づいて、第１のフレームから、フォアグラウンドオーディオ信号を取得し得る（３０４）。オーディオ復号デバイス２４は、フォアグラウンドオーディオ信号に基づいてＨＯＡオーディオデータを再構成し、ＨＯＡオーディオデータをラウドスピーカーフィードにレンダリングし、１つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る（３０６〜３１０）。オーディオ復号デバイス２４は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。

[0206] 本技法は、図１０に示される項１ＡＡの態様を行うように構成されたオーディオ復号デバイス２４が、以下の従属項に従って動作することを可能にし得る。

[0207] 項２ＡＡ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項１ＡＡに記載のデバイス。

[0208] 項３ＡＡ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項２ＡＡに記載のデバイス。

[0209] 項４ＡＡ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項２ＡＡに記載のデバイス。

[0210] 項５ＡＡ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項１ＡＡに記載のデバイス。

[0211] 項６ＡＡ。ベクトルはＨＯＡオーディオデータから分解される、項４ＡＡおよび５ＡＡに記載のデバイス。

[0212] 項７ＡＡ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得し、バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、請求項１ＡＡに記載のデバイス。

[0213] 項８ＡＡ。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１ＡＡまたは７ＡＡに記載のデバイス。

[0214] 項９Ａ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項７ＡＡまたは８ＡＡに記載のデバイス。

[0215] 項１０ＡＡ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項７ＡＡまたは８ＡＡに記載のデバイス。

[0216] 項１１ＡＡ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項８ＡＡに記載のデバイス。

[0217] 項１２ＡＡ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項７ＡＡ〜１１ＡＡの任意の組合せに記載のデバイス。

[0218] 項１３ＡＡ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項７ＡＡ〜１１ＡＡの任意の組合せに記載のデバイス。

[0219] 項１４ＡＡ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方が、ＨＯＡオーディオデータから分解される、項７ＡＡ〜１３ＡＡの任意の組合せに記載のデバイス。

[0220] 図１１の例において、オーディオ復号デバイス２４は、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得し得る（３２０）。オーディオ復号デバイス２４はまた、複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得し得る（３２２）。上述したように、ベクトルと、対応するＨＯＡオーディオ信号の両方が、ＨＯＡオーディオデータから分解され得る。

[0221] オーディオ復号デバイス２４は、ベクトルに基づいてＨＯＡオーディオデータを再構成し、ＨＯＡオーディオデータをラウドスピーカーフィードにレンダリングし、１つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る（３２４〜３２８）。オーディオ復号デバイス２４は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。

[0222] 本技法は、図１１に示される項１ＢＢの態様を行うように構成されたオーディオ復号デバイス２４が、以下の従属項に従って動作することを可能にし得る。

[0223] 項２ＢＢ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、バックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１ＢＢに記載のデバイス。

[0224] 項３ＢＢ。ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１ＢＢに記載のデバイス。

[0225] 項４ＢＢ。ビットストリームのフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得し、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンド指示およびバックグラウンド指示に基づいて複数遷移指示を取得するように構成される、項１ＢＢに記載のデバイス。

[0226] 項５ＢＢ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項２ＢＢまたは４ＢＢに記載のデバイス。

[0227] 項６ＢＢ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項２ＢＢまたは４ＢＢに記載のデバイス。

[0228] 項７ＢＢ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項３ＢＢまたは４ＢＢに記載のデバイス。

[0229] 項８ＢＢ。ビットストリームの第１のフレームから、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項３ＢＢまたは４ＢＢに記載のデバイス。

[0230] 項９ＢＢ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項８ＢＢに記載のデバイス。

[0231] 項１０ＢＢ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項８ＢＢに記載のデバイス。

[0232] 項１１ＢＢ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０ＢＢに記載のデバイス。

[0233] 項１２ＢＢ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０ＢＢに記載のデバイス。

[0234] 項１３Ｂ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項１０ＢＢに記載のデバイス。

[0235] 項１４ＢＢ。ベクトルはＨＯＡオーディオデータから分解される、項１２ＢＢまたは１３ＢＢに記載のデバイス。

[0236] 項１５ＢＢ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項１ＢＢ〜１４ＢＢの任意の組合せに記載のデバイス。

[0237] 項１６ＢＢ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項１ＢＢ〜１４ＢＢの任意の組合せに記載のデバイス。

[0238] 図１２の例において、オーディオ復号デバイス２４は、ビットストリームの第１のフレームの間に遷移中であるという環境ＨＯＡ係数の数のバックグラウンド指示を取得し得る（３４０）。上述したように、環境ＨＯＡ係数は、ＨＯＡオーディオデータによって表される音場の環境成分を記述し得る。オーディオ復号デバイス２４は、バックグラウンド指示に基づいて、第１のフレームから、少なくとも１つの環境ＨＯＡ係数、少なくとも１つのベクトル、および少なくとも１つのフォアグラウンドオーディオ信号のうちの１つまたは複数を取得し得る（３４２）。

[0239] 少なくとも１つの環境ＨＯＡ係数、少なくとも１つのベクトル、および少なくとも１つのフォアグラウンドオーディオ信号のうちの１つまたは複数に基づいて、オーディオ復号デバイス２４は、ＨＯＡオーディオデータを再構成し得る（３４４）。オーディオ復号デバイス２４は、ＨＯＡオーディオデータをラウドスピーカーフィードにレンダリングし、１つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る（３４６、３４８）。やはり、オーディオ復号デバイス２４は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。

[0240] 本技法は、図１２に示される項１ＣＣの態様を行うように構成されたオーディオ復号デバイス２４が、以下の従属項に従って動作することを可能にし得る。

[0241] 項２ＣＣ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項１ＣＣに記載のデバイス。

[0242] 項３ＣＣ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項１ＣＣに記載のデバイス。

[0243] 項４ＣＣ。バックグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１ＣＣに記載のデバイス。

[0244] 項５ＣＣ。フォアグラウンドオーディオ信号がビットストリームの第１のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、フォアグラウンドオーディオ信号は、ＨＯＡオーディオデータによって表されるとともにＨＯＡオーディオデータから分解された音場のフォアグラウンド成分を記述する、項１ＣＣに記載のデバイス。

[0245] 項６ＣＣ。ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項５ＣＣに記載のデバイス。

[0246] 項７ＣＣ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項５ＣＣに記載のデバイス。

[0247] 項８ＣＣ。ビットストリームの第１のフレームから、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項５ＣＣに記載のデバイス。

[0248] 項９ＣＣ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項８ＣＣに記載のデバイス。

[0249] 項１０ＣＣ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項８ＣＣに記載のデバイス。

[0250] 項１１ＣＣ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項１０ＣＣに記載のデバイス。

[0251] 項１２ＣＣ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するである、項１０ＣＣに記載のデバイス。

[0252] 項１３ＣＣ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項１０ＣＣに記載のデバイス。

[0253] 項１４ＣＣ。ベクトルはＨＯＡオーディオデータから分解される、項１２ＣＣまたは１３ＣＣに記載のデバイス。

[0254] 項１５ＣＣ。フォアグラウンドオーディオ信号がビットストリームの第１のフレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと、フォアグラウンドオーディオ信号は、ＨＯＡオーディオデータによって表されるとともにＨＯＡオーディオデータから分解された音場のフォアグラウンド成分を記述する、フォアグラウンド指示に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することとを行うようにさらに構成された、項１ＣＣに記載のデバイス。

[0255] 項１６ＣＣ。フォアグラウンド指示、バックグラウンド指示またはフォアグラウンド指示とバックグラウンド指示の両方に基づいて、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１ＣＣまたは１５ＣＣに記載のデバイス。

[0256] 項１７ＣＣ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項１５ＣＣまたは１６ＣＣに記載のデバイス。

[0257] 項１８ＣＣ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項１５ＣＣまたは１６ＣＣに記載のデバイス。

[0258] 項１９ＣＣ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１６ＣＣに記載のデバイス。

[0259] 項２０ＣＣ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項４ＣＣ〜１９ＣＣの任意の組合せに記載のデバイス。

[0260] 項２１ＣＣ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項４ＣＣ〜１９ＣＣの任意の組合せに記載のデバイス。

[0261] 項２２ＣＣ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方が、ＨＯＡオーディオデータから分解される、項１ＣＣ〜２１ＣＣの任意の組合せに記載のデバイス。

[0262] 図１３の例において、オーディオ復号デバイス２４はまた、ビットストリームのフレームの間にフォアグラウンドオーディオ信号が遷移中であるかどうかのフォアグラウンド指示を取得し得る（３６０）。オーディオ復号デバイス２４は、フォアグラウンド指示に基づいて、フレームから、少なくとも１つの環境ＨＯＡ係数、ベクトルのうちの少なくとも１つ、およびフォアグラウンドオーディオオブジェクトのうちの少なくとも１つ、のうちの１つまたは複数を取得し得る（３６２）。

[0263] 少なくとも１つの環境ＨＯＡ係数、少なくとも１つのベクトル、および少なくとも１つのフォアグラウンドオーディオ信号のうちの１つまたは複数に基づいて、オーディオ復号デバイス２４は、ＨＯＡオーディオデータを再構成し得る（３６４）。オーディオ復号デバイス２４は、ＨＯＡオーディオデータをラウドスピーカーフィードにレンダリングし、１つまたは複数のラウドスピーカーを駆動するためにラウドスピーカーフィードを出力し得る（３６６、３６８）。やはり、オーディオ復号デバイス２４は、ラウドスピーカーを含むか、またはさもなければラウドスピーカーに結合し得る。

[0264] 本技法は、図１３に示される項１ＤＤの態様を行うように構成されたオーディオ復号デバイス２４が、以下の従属項に従って動作することを可能にし得る。

[0265] 項２ＤＤ。ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１ＤＤに記載のデバイス。

[0266] 項３ＤＤ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、ビットストリームの第２のフレームのトランスポートチャネルについてのタイプの指示に基づいてフォアグラウンド指示を取得するように構成される、項１ＤＤに記載のデバイス。

[0267] 項４ＤＤ。ビットストリームの第１のフレームから、第１のフレームが、ビットストリームの第２のフレームを参照することなく第１のフレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得するようにさらに構成された、項１ＤＤに記載のデバイス。

[0268] 項５ＤＤ。第１のフレームが独立フレームであることを示す独立フレーム指示に応答して、ビットストリームから、フォアグラウンド指示を取得するように構成される、項４ＤＤに記載のデバイス。

[0269] 項６ＤＤ。第１のフレームが独立フレームでないことを示す独立フレーム指示に応答して、第２のフレームのトランスポートチャネルについてのタイプの指示を取得するようにさらに構成された、項４ＤＤに記載のデバイス。

[0270] 項７ＤＤ。第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項６ＤＤに記載のデバイス。

[0271] 項８ＤＤ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームのトランスポートチャネルについてのタイプの指示に基づいて、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについてのフォアグラウンド指示を取得するように構成される、項６ＤＤに記載のデバイス。

[0272] 項９ＤＤ。フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、ベクトルが低減されたベクトルであることを示すとき、第２のフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、第１のフレームのトランスポートチャネルについての独立フレーム指示を取得するように構成される、項６ＤＤに記載のデバイス。

[0273] 項１０ＤＤ。ベクトルはＨＯＡオーディオデータから分解される、項８ＤＤまたは９ＤＤに記載のデバイス。

[0274] 項１１ＤＤ。ビットストリームの第１のフレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、環境ＨＯＡ係数は、ＨＯＡオーディオデータによって表される音場の環境成分を記述する、項１ＤＤに記載のデバイス。

[0275] 項１２ＤＤ。環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、バックグラウンド指示を取得するように構成される、項１１ＤＤに記載のデバイス。

[0276] 項１３ＤＤ。環境ＨＯＡ係数のうちのどれがビットストリームのフレームの間に遷移中であるかを示す指示を取得するように構成される、項１１ＤＤに記載のデバイス。

[0277] 項１４ＤＤ。バックグラウンド指示、フォアグラウンド指示またはバックグラウンド指示とフォアグラウンド指示の両方に基づいて、環境ＨＯＡ係数が、フォアグラウンドオーディオ信号が遷移中であるときの、ビットストリームの同じ第１のフレームの間に遷移中であるかどうかの複数遷移指示を取得するようにさらに構成された、項１ＤＤまたは１１ＤＤに記載のデバイス。

[0278] 項１５ＤＤ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードインされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードインされるかどうかを示す、項１４ＤＤに記載のデバイス。

[0279] 項１６ＤＤ。複数遷移指示は、フォアグラウンドオーディオ信号がフェードアウトされるときの、ビットストリームの同じ第１のフレームの間に環境ＨＯＡ係数がフェードアウトされるかどうかを示す、項１４ＤＤに記載のデバイス。

[0280] 項１７ＤＤ。複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するようにさらに構成され、ベクトルと、対応するＨＯＡオーディオ信号の両方が、ＨＯＡオーディオデータから分解される、項１４ＤＤ〜１６ＤＤの任意の組合せに記載のデバイス。

[0281] 本技法の追加態様は、上述の３Ｄオーディオコーディング規格のフェーズＩまたはＩＩを参照する様々な表およびセクション番号をもつ以下の項目を対象とし得る。以下の下線付きイタリック体項目は、上述の３Ｄオーディオコーディング規格のフェーズＩまたはＩＩに対する追加を示す。

ＨＯＡ行列エンコーダ／デコーダ
ビットストリーム中でＨＯＡレンダリング行列をシグナリングするために、ＨＯＡレンダリング行列は、重み付け値ごとに最大０．１２５ｄＢの精度で量子化される。ただし、所望のレンダリング行列が、エネルギー正規化されるように意図的に設計されている場合、この量子化ノイズは、復号されたＨＯＡレンダリング行列を、それ以上エネルギー正規化されないようにさせる。従って、逆量子化されたレンダリング行列を、その元のエネルギー正規化された状態に再正規化するための選択肢を提案する。

表２３−ＳｙｎｔａｘｏｆＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘ（）において、

を

で置き換える。

サブクローズ５．３．６ＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＤａｔａＥｌｅｍｅｎｔｓにおいて、ｐｒｅｃｉｓｉｏｎＬｅｖｅｌの前に、

を追加する。

表２４５．４．３．３ＤｅｃｏｄｉｎｇｏｆＨＯＡＲｅｎｄｅｒｉｎｇＭａｔｒｉｘＣｏｅｆｆｉｃｉｅｎｔｓにおいて、
この場合、左ラウドスピーカーについての個々の行列要素を復号するためのコードワードは、相応に低減されるか、または完全に省かれる。
の後に、
ビットフィールドｉｓＮｏｒｍａｌｉｚｅｄが１にセットされた場合、非ＬＦＥラウドスピーカーに関連付けられた、ＨＯＡレンダリング行列のＬ個の行中の各重み付け値を、非ＬＦＥラウドスピーカーに関連付けられた行列のＬ個の行から計算された、行列のフロベニウスノルム

で除算することによって、最終ＨＯＡレンダリング行列Ｄが作成される。
を追加する。

サブクローズ１２．４．１．１０．２において、
ベクトルコードブックのサイズは、値ＮｕｍＶｖｅｃＩｎｄｉｃｅｓに、およびＨＯＡ次数に依存する。変数ＮｕｍＶｖｅｃＩｎｄｉｃｅｓが１にセットされている場合、付属書類Ｆから導出されたＨＯＡ拡張係数を含むベクトルコードブックが使われる。ＮｕｍＶｖｅｃＩｎｄｉｃｅｓが１よりも大きい場合、Ｏベクトルをもつベクトルコードブックが、２５６×８個の重み付け値（付属書類Ｆ．１２中の表）と組み合わせて使われる。ＨＯＡ次数４の場合、付属書類Ｆ．６中の表から導出される３２個のエントリをもつベクトルコードブックが使われる。
を、
ベクトルコードブックのサイズは、値ＣｏｄｅｂｋＩｄｘ（ｋ）［ｉ］に、値ＮｕｍＶｖｅｃＩｎｄｉｃｅｓ（ｋ）［ｉ］に、およびＨＯＡ次数に依存する。ＮｕｍＶｖｅｃＩｎｄｉｃｅｓが１よりも大きい場合、（付属書類Ｆ．１２中の表）２５６×８個の重み付け値が使用される。ＮｕｍＶｖｅｃＩｎｄｉｃｅｓが８よりも大きい場合、２５６×８個の重み付け値（付属書類Ｆ．１２中の表）の最後の２列が、モジュール演算子とともに繰り返し使用される。

ＣｏｄｅｂｋＩｄｘ（ｋ）［ｉ］が０にセットされている場合、付属書類Ｆから導出されるＨＯＡ拡張係数を含むコードブックが使われる。

ＣｏｄｅｂｋＩｄｘ（ｋ）［ｉ］が１にセットされている場合、Ｖベクトルコードブックが、表９４中のラウドスピーカー位置（第２および第３の列）に基づいて生成され、スケーリングとともに使用される。ＣｏｄｅｂｋＩｄｘ（ｋ）［ｉ］が２にセットされている場合、表９４中のラウドスピーカー位置（第２および第３の列）に基づくＶベクトルコードブックが生成され、さらなるスケーリングなしに使用される。

ＣｏｄｅｂｋＩｄｘ（ｋ）［ｉ］が７にセットされている場合、Ｏベクトルをもつベクトルが使われる。ＨＯＡ次数４の場合、付属書類Ｆ．６中の表から導出される３２個のエントリをもつベクトルコードブックが使われる。
で置き換える。

サブクローズ１２．４．１．１０．２において、

を、

で置き換える。

サブクローズ１２．４．１．１０．５ＣｏｎｖｅｒｓｉｏｎｏｆＶＶｅｃｅｌｅｍｅｎｔｓにおいて、

を、

で置き換える。

を、

で置き換える。サブクローズ１２．４．１．１０．６ＴｕｐｌｅｓｅｔＭ_VEC（ｋ）の前に、

を追加する。

付属書類Ｆ．ＸＸＸ３４ｄｉｓｔｒｉｂｕｔｅｄＰｏｓｉｔｉｏｎｓｉｎＳｐｈｅｒｉｃａｌＣｏｏｒｄｉｎａｔｅｓとして、

を追加する。

サブクローズ１２．４．２．４．４．２Ｓｐａｔｉｏ−ｔｅｍｐｏｒａｌｉｎｔｅｒｐｏｌａｔｉｏｎｏｆＶ−ｖｅｃｔｏｒｓにおいて、
−第ｋのフレーム（そのインデックスがセットＩ_E（ｋ）中に含まれる）中で明示的にさらに送信され、フェードインされる環境ＨＯＡ成分の係数シーケンスがある場合、ＨＯＡ表現のそれぞれの係数シーケンス

は、ウィンドウｗ_DIRのフェードアウト部を使用してフェードアウトされなければならない。
を、
−第ｋのフレーム（そのインデックスがセットＩ_E（ｋ）中に含まれる）中で明示的にさらに送信され、フェードインされる環境ＨＯＡ成分の係数シーケンスがある場合、ＨＯＡ表現のそれぞれの係数シーケンス

は、ウィンドウｗ_DIRのフェードアウト部を使用してフェードアウトされなければならない。

中のそれぞれのｖベクトル要素は、それらをゼロにセットすることによって、以下のフレームｋ＋１における時空間的補間から破棄される。
で置き換える。

[0282] 上記の技法は、任意の数の異なるコンテキストおよびオーディオエコシステムに関して行われ得る。いくつかの例示的なコンテキストが以下で説明されるが、本技法はそれらの例示的なコンテキストに限定されるべきでない。１つの例示的なオーディオエコシステムは、オーディオコンテンツと、映画スタジオと、音楽スタジオと、ゲーミングオーディオスタジオと、チャネルベースオーディオコンテンツと、コーディングエンジンと、ゲームオーディオステムと、ゲームオーディオコーディング／レンダリングエンジンと、配信システムとを含み得る。

[0283] 映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受信し得る。いくつかの例において、オーディオコンテンツは、獲得物の出力を表し得る。映画スタジオは、デジタルオーディオワークステーション（ＤＡＷ）を使用することなどによって、（例えば、２．０、５．１、および７．１の）チャネルベースオーディオコンテンツを出力し得る。音楽スタジオは、ＤＡＷを使用することなどによって、（例えば、２．０、および５．１の）チャネルベースオーディオコンテンツを出力し得る。いずれの場合も、コーディングエンジンは、配信システムによる出力のために、チャネルベースオーディオコンテンツベースの１つまたは複数のコーデック（例えば、ＡＡＣ、ＡＣ３、ドルビートゥルーＨＤ、ドルビーデジタルプラス、およびＤＴＳマスタオーディオ）を受信し符号化し得る。ゲーミングオーディオスタジオは、ＤＡＷを使用することなどによって、１つまたは複数のゲームオーディオステムを出力し得る。ゲームオーディオコーディング／レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャネルベースオーディオコンテンツへとコーディングおよびまたはレンダリングし得る。本技法が行われ得る別の例示的なコンテキストは、放送録音オーディオオブジェクトと、プロフェッショナルオーディオシステムと、消費者向けオンデバイスキャプチャと、ＨＯＡオーディオフォーマットと、オンデバイスレンダリングと、消費者向けオーディオと、ＴＶ、およびアクセサリと、カーオーディオシステムとを含み得る、オーディオエコシステムを備える。

[0284] 放送録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャは全て、ＨＯＡオーディオフォーマットを使用してそれらの出力をコーディングし得る。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、ＴＶ、およびアクセサリ、並びにカーオーディオシステムを使用して再生され得る単一の表現へと、ＨＯＡオーディオフォーマットを使用してコーディングされ得る。言い換えれば、オーディオコンテンツの単一の表現は、オーディオ再生システム１６のような、汎用的なオーディオ再生システムにおいて（すなわち、５．１、７．１のような特定の構成を必要とすることとは対照的に）再生され得る。

[0285] 本技法が行われ得るコンテキストの他の例には、獲得要素と再生要素とを含み得るオーディオエコシステムがある。獲得要素は、ワイヤードおよび／またはワイヤレス獲得デバイス（例えば、Ｅｉｇｅｎマイクロフォン）と、オンデバイスサラウンドサウンドキャプチャと、モバイルデバイス（例えば、スマートフォンおよびタブレット）とを含み得る。いくつかの例において、ワイヤードおよび／またはワイヤレス獲得デバイスは、ワイヤードおよび／またはワイヤレス通信チャネルを介してモバイルデバイスに結合され得る。

[0286] 本開示の１つまたは複数の技法によれば、モバイルデバイスは、音場を獲得するために使用され得る。例えば、モバイルデバイスは、ワイヤードおよび／もしくはワイヤレス獲得デバイス、並びに／またはオンデバイスサラウンドサウンドキャプチャ（例えば、モバイルデバイスに統合された複数のマイクロフォン）を介して、音場を獲得し得る。モバイルデバイスは、次いで、再生要素のうちの１つまたは複数による再生のために、獲得された音場をＨＯＡ係数へとコーディングし得る。例えば、モバイルデバイスのユーザは、ライブイベント（例えば、会合、会議、劇、コンサートなど）を録音し（ライブイベントの音場を獲得し）、録音をＨＯＡ係数へとコーディングし得る。

[0287] モバイルデバイスはまた、ＨＯＡコーディングされた音場を再生するために、再生要素のうちの１つまたは複数を利用し得る。例えば、モバイルデバイスは、ＨＯＡコーディングされた音場を復号し、再生要素のうちの１つまたは複数に信号を出力し得、それにより、再生要素のうちの１つまたは複数は音場を再作成することになる。一例として、モバイルデバイスは、１つまたは複数のスピーカー（例えば、スピーカーアレイ、サウンドバーなど）に信号を出力するためにワイヤレスおよび／またはワイヤレス通信チャネルを利用し得る。別の例として、モバイルデバイスは、１つもしくは複数のドッキングステーション並びに／または１つもしくは複数のドッキングされたスピーカー（例えば、スマートカーおよび／もしくはスマートホーム内のサウンドシステム）に信号を出力するために、ドッキングソリューションを利用し得る。別の例として、モバイルデバイスは、ヘッドフォンのセットに信号を出力するために、例えばリアルなバイノーラルサウンドを作成するために、ヘッドフォンレンダリングを利用し得る。

[0288] いくつかの例において、特定のモバイルデバイスは、３Ｄ音場を獲得することと、より後の時間に同じ３Ｄ音場を再生することの両方を行い得る。いくつかの例において、モバイルデバイスは、３Ｄ音場を獲得し、３Ｄ音場をＨＯＡへと符号化し、符号化された３Ｄ音場を再生のために１つまたは複数の他のデバイス（例えば、他のモバイルデバイスおよび／または他の非モバイルデバイス）に送信し得る。

[0289] 本技法が行われ得るまた別のコンテキストは、オーディオコンテンツと、ゲームスタジオと、コーディングされたオーディオコンテンツと、レンダリングエンジンと、配信システムとを含み得る、オーディオエコシステムを含む。いくつかの例において、ゲームスタジオは、ＨＯＡ信号の編集をサポートし得る１つまたは複数のＤＡＷを含み得る。例えば、１つまたは複数のＤＡＷは、１つまたは複数のゲームオーディオシステムとともに動作する（例えば、機能する）ように構成され得るＨＯＡプラグインおよび／またはツールを含み得る。いくつかの例において、ゲームスタジオは、ＨＯＡをサポートする新しいステムフォーマットを出力し得る。いずれの場合も、ゲームスタジオは、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに、コーディングされたオーディオコンテンツを出力し得る。

[0290] 本技法はまた、例示的なオーディオ獲得デバイスに関して行われ得る。例えば、本技法は、３Ｄ音場を録音するようにまとめて構成された複数のマイクロフォンを含み得る、Ｅｉｇｅｎマイクロフォンに関して行われ得る。いくつかの例において、Ｅｉｇｅｎマイクロフォンの複数のマイクロフォンは、約４ｃｍの半径を伴う実質的に球状の球体の表面に配置され得る。いくつかの例において、オーディオ符号化デバイス２０は、ビットストリーム２１をマイクロフォンから直接出力するために、Ｅｉｇｅｎマイクロフォンに統合され得る。

[0291] 別の例示的なオーディオ獲得コンテキストは、１つまたは複数のＥｉｇｅｎマイクロフォンのような、１つまたは複数のマイクロフォンから信号を受信するように構成され得る、製作トラックを含み得る。製作トラックはまた、図３のオーディオエンコーダ２０のような、オーディオエンコーダを含み得る。

[0292] モバイルデバイスはまた、いくつかの場合には、３Ｄ音場を録音するようにまとめて構成される複数のマイクロフォンを含み得る。言い換えれば、複数のマイクロフォンは、Ｘ、Ｙ、Ｚのダイバーシティを有し得る。いくつかの例において、モバイルデバイスは、モバイルデバイスの１つまたは複数の他のマイクロフォンに関してＸ、Ｙ、Ｚのダイバーシティを提供するように回転され得るマイクロフォンを含み得る。モバイルデバイスはまた、図３のオーディオエンコーダ２０のような、オーディオエンコーダを含み得る。

[0293] 耐衝撃性のビデオキャプチャデバイスは、３Ｄ音場を録音するようにさらに構成され得る。いくつかの例において、耐衝撃性のビデオキャプチャデバイスは、ある活動に関与するユーザのヘルメットに取り付けられ得る。例えば、耐衝撃性のビデオキャプチャデバイスは、急流下りをしているユーザのヘルメットに取り付けられ得る。このようにして、耐衝撃性のビデオキャプチャデバイスは、ユーザの周り全ての活動（例えば、ユーザの後ろでくだける水、ユーザの前で話している別の乗員など）を表す３Ｄ音場をキャプチャし得る。

[0294] 本技法はまた、３Ｄ音場を録音するように構成され得る、アクセサリで増強されたモバイルデバイスに関して行われ得る。いくつかの例において、モバイルデバイスは、上記で説明されたモバイルデバイスと同様であり得るが、１つまたは複数のアクセサリが追加されている。例えば、Ｅｉｇｅｎマイクロフォンが、アクセサリで増強されたモバイルデバイスを形成するために、上述のモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャ構成要素をただ使用するよりも高品質なバージョンの３Ｄ音場をキャプチャし得る。

[0295] 本開示で説明される技法の様々な態様を行い得る例示的なオーディオ再生デバイスが、以下でさらに説明される。本開示の１つまたは複数の技法によれば、スピーカーおよび／またはサウンドバーは、あらゆる任意の構成で配置され得るが、一方で、依然として３Ｄ音場を再生する。その上、いくつかの例では、ヘッドフォン再生デバイスが、ワイヤード接続またはワイヤレス接続のいずれかを介してデコーダ２４に結合され得る。本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

[0296] また、いくつかの異なる例示的なオーディオ再生環境は、本開示で説明される技法の様々な態様を行うために好適であり得る。例えば、５．１スピーカー再生環境、２．０（例えば、ステレオ）スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う９．１スピーカー再生環境、２２．２スピーカー再生環境、１６．０スピーカー再生環境、自動車スピーカー再生環境、およびイヤバッド再生環境を伴うモバイルデバイスは、本開示で説明される技法の様々な態様を行うために好適な環境であり得る。

[0297] 本開示の１つまたは複数の技法によれば、音場の単一の汎用的な表現が、上記の再生環境のいずれかにおいて音場をレンダリングするために利用され得る。加えて、本開示の技法は、レンダードが、上記で説明されたもの以外の再生環境での再生のために、汎用的な表現から音場をレンダリングすることを可能にする。例えば、設計上の考慮事項が、７．１スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合（例えば、右側のサラウンドスピーカーを配置することが可能でない場合）、本開示の技法は、再生が６．１スピーカー再生環境で達成され得るように、レンダーが他の６つのスピーカーで補償することを可能にする。

[0298] その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を見得る。本開示の１つまたは複数の技法によれば、スポーツの試合の３Ｄ音場が獲得され得（例えば、１つまたは複数のＥｉｇｅｎマイクロフォンが野球場の中および／または周りに配置され得）、３Ｄ音場に対応するＨＯＡ係数が取得されデコーダに送信され得、デコーダはＨＯＡ係数に基づいて３Ｄ音場を再構成して、再構成された３Ｄ音場をレンダラに出力し得、レンダラは、再生環境のタイプ（例えば、ヘッドフォン）についての指示を取得し、再構成された３Ｄ音場を、ヘッドフォンにスポーツの試合の３Ｄ音場の表現を出力させる信号へとレンダリングし得る。

[0299] 上記で説明された様々な事例の各々において、オーディオ符号化デバイス２０は、ある方法を行い、またはさもなければ、オーディオ符号化デバイス２０が行うものとして上述した方法の各ステップを行うための手段を備え得ることを理解されたい。いくつかの事例において、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの事例において、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ符号化デバイス２０が行うように構成されている方法を行わせる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0300] １つまたは複数の例において、説明された機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、機能は、１つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されるか、またはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、データ記憶媒体のような有形媒体に対応するコンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明される技法の実施のための命令、コードおよび／またはデータ構造を取り出すために、１つもしくは複数のコンピュータまたは１つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

[0301] 同様に、上記で説明された様々な事例の各々において、オーディオ復号デバイス２４は、ある方法を行い、またはさもなければ、オーディオ復号デバイス２４が行うように構成された方法の各ステップを行うための手段を備え得ることを理解されたい。いくつかの事例において、これらの手段は１つまたは複数のプロセッサを備え得る。いくつかの事例において、１つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶される命令によって構成された専用プロセッサを表し得る。言い換えれば、符号化の例のセットの各々における本技法の様々な態様は、実行されると、１つまたは複数のプロセッサに、オーディオ復号デバイス２４が行うように構成されている方法を行わせる命令を記憶した、非一時的コンピュータ可読記憶媒体を提供し得る。

[0302] 限定でなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ（登録商標）、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、フラッシュメモリ、または命令もしくはデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備えることができる。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的媒体を含むのでなく、代わりに、非一時的な有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0303] 命令は、１つもしくは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、または他の等価な集積回路もしくはディスクリート論理回路のような、１つまたは複数のプロセッサによって実行され得る。従って、本明細書で使用される「プロセッサ」という用語は、前述の構造、または、本明細書で説明された技法の実施に好適な任意の他の構造のいずれかを指し得る。加えて、いくつかの態様において、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアおよび／もしくはソフトウェアモジュール内で与えられ、または複合コーデックに組み込まれ得る。また、本技法は、１つまたは複数の回路または論理要素で十分に実施され得る。

[0304] 本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）またはＩＣのセット（例えば、チップセット）を含む、多種多様なデバイスまたは装置で実施され得る。様々な構成要素、モジュール、またはユニットは、開示された技法を行うように構成されたデバイスの機能的態様を強調するように本開示において記載されているが、異なるハードウェアユニットによる実現を必ずしも必要としない。むしろ、上記で説明されたように、様々なユニットが、好適なソフトウェアおよび／またはファームウェアとともに、上記で説明された１つまたは複数のプロセッサを含めて、コーデックハードウェアユニットにおいて組み合わせられるか、または相互動作可能なハードウェアユニットの集合によって与えられ得る。

[0305] 本開示の様々な態様が説明された。本技法のこれらの態様および他の態様は、以下の特許請求の範囲内に入る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[Ｃ１] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を行うように構成された１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリとを備えるデバイス。
[Ｃ２] 前記１つまたは複数のプロセッサは、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、Ｃ１に記載のデバイス。
[Ｃ３] 前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得するように構成される、Ｃ２に記載のデバイス。
[Ｃ４] 前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得するように構成される、Ｃ２に記載のデバイス。
[Ｃ５] 前記１つまたは複数のプロセッサは、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、Ｃ１に記載のデバイス。
[Ｃ６] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードインされるかどうかを示す、Ｃ１に記載のデバイス。
[Ｃ７] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードアウトされるかどうかを示す、Ｃ１に記載のデバイス。
[Ｃ８] 前記１つまたは複数のプロセッサは、
前記ベクトルに基づいて前記ＨＯＡオーディオデータを再構成し、
前記ＨＯＡオーディオデータに基づいて、１つまたは複数のラウドスピーカーフィードをレンダリングするようにさらに構成される、Ｃ１に記載のデバイス。
[Ｃ９] １つまたは複数のラウドスピーカーをさらに備え、
前記１つまたは複数のプロセッサは、前記１つまたは複数のラウドスピーカーを駆動するために、前記１つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、Ｃ８に記載のデバイス。
[Ｃ１０] 前記デバイスはテレビジョンを備え、前記テレビジョンは、１つまたは複数の統合されたラウドスピーカーを含み、
前記１つまたは複数のプロセッサは、前記１つまたは複数のラウドスピーカーを駆動するために、前記１つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、Ｃ８に記載のデバイス。
[Ｃ１１] 前記デバイスは受信機を備え、前記受信機は、１つまたは複数のラウドスピーカーに結合され、
前記１つまたは複数のプロセッサは、前記１つまたは複数のラウドスピーカーを駆動するために、前記１つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される、Ｃ８に記載のデバイス。
[Ｃ１２] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号する方法であって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を備える方法。
[Ｃ１３] 前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得することと、
フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することとをさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、Ｃ１２に記載の方法。
[Ｃ１４] 前記バックグラウンド指示を取得することは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して前記バックグラウンド指示を取得することを備える、Ｃ１３に記載の方法。
[Ｃ１５] 前記環境ＨＯＡ係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得することをさらに備える、Ｃ１３に記載の方法。
[Ｃ１６] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、前記フォアグラウンド指示を取得することを備える、Ｃ１３に記載の方法。
[Ｃ１７] 前記ビットストリームの前記フレームから、第１のフレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得することをさらに備える、Ｃ１３に記載の方法。
[Ｃ１８] 前記フォアグラウンド指示を取得することは、前記第１のフレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、Ｃ１７に記載の方法。
[Ｃ１９] 前記第１のフレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、Ｃ１７に記載の方法。
[Ｃ２０] 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、Ｃ１９に記載の方法。
[Ｃ２１] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、Ｃ１９に記載の方法。
[Ｃ２２] 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、Ｃ１９に記載の方法。
[Ｃ２３] 前記方法は、１つまたは複数のラウドスピーカーに結合されたデバイスによって行われ、
前記方法は、
前記ベクトルに基づいて前記ＨＯＡオーディオデータを再構成することと、
前記ＨＯＡオーディオデータに基づいて、１つまたは複数のラウドスピーカーフィードをレンダリングすることと、
前記１つまたは複数のラウドスピーカーを駆動するために前記１つまたは複数のラウドスピーカーフィードを出力することとをさらに備える、Ｃ１２に記載の方法。
[Ｃ２４] 前記デバイスはテレビジョンを備え、
前記１つまたは複数のラウドスピーカーは、前記テレビジョン内に統合された１つまたは複数のラウドスピーカーを備える、Ｃ２３に記載の方法。
ここにおいて、前記１つまたは複数のプロセッサは、前記１つまたは複数のラウドスピーカーを駆動するために、前記１つまたは複数のラウドスピーカーフィードを出力するようにさらに構成される。
[Ｃ２５] 前記デバイスは受信機を備える、Ｃ２３に記載の方法。
[Ｃ２６] 実行されると、１つまたは複数のプロセッサに、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
[Ｃ２７] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するためのデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を備えるデバイス。
[Ｃ２８] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化するように構成されたデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を行うように構成された１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリとを備えるデバイス。
[Ｃ２９] 前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、Ｃ２８に記載のデバイス。
[Ｃ３０] 前記１つまたは複数のプロセッサは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、Ｃ２８に記載のデバイス。
[Ｃ３１] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードインされるかどうかを示す、Ｃ２８に記載のデバイス。
[Ｃ３２] 前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードアウトされるかどうかを示す、Ｃ２８に記載のデバイス。
[Ｃ３３] 前記ＨＯＡオーディオデータまたはその表現をキャプチャするように構成されたマイクロフォンをさらに備える、Ｃ２８に記載のデバイス。
[Ｃ３４] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化する方法であって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を備える方法。
[Ｃ３５] 前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得することと、
前記ビットストリーム中で、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を指定することとをさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、Ｃ３４に記載の方法。
[Ｃ３６] 前記フォアグラウンド指示を取得することは、前記ビットストリーム中で、および前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記フォアグラウンド指示を指定することを備える、Ｃ３５に記載の方法。
[Ｃ３７] 前記ビットストリームの前記フレーム中で、前記フレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定することをさらに備える、Ｃ３５に記載の方法。
[Ｃ３８] 前記フォアグラウンド指示を取得することは、前記フレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、Ｃ３７に記載の方法。
[Ｃ３９] 前記フレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、Ｃ３７に記載の方法。
[Ｃ４０] 前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、Ｃ３７に記載の方法。
[Ｃ４１] 前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、Ｃ４０に記載の方法。
[Ｃ４２] 前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、Ｃ４０に記載の方法。
[Ｃ４３] 前記方法は、マイクロフォンに結合されたデバイスによって行われ、
前記方法は、前記マイクロフォンで、前記ＨＯＡオーディオデータまたはその表現をキャプチャすることをさらに備える、Ｃ３４に記載の方法。
[Ｃ４４] 実行されると、１つまたは複数のプロセッサに、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
[Ｃ４５] 高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化するためのデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号の両方が前記ＨＯＡオーディオデータから分解されている、を備えるデバイス。

Claims

高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するように構成されたデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルは、球面調和領域において定義される、
前記ベクトルに基づいて、１つまたは複数のスピーカーフィードをレンダリングすることと、
前記１つまたは複数のスピーカーに前記１つまたは複数のスピーカーフィードを出力することと
を行うように構成された１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリと
を備えるデバイス。
前記１つまたは複数のプロセッサは、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得するように構成される、請求項２に記載のデバイス。
前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得するように構成される、請求項２に記載のデバイス。
前記１つまたは複数のプロセッサは、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、請求項１に記載のデバイス。
前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードインされるかどうかを示す、請求項１に記載のデバイス。
前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードアウトされるかどうかを示す、請求項１に記載のデバイス。
前記デバイスはテレビジョンを備え、前記テレビジョンは、１つまたは複数の統合されたスピーカーとして前記１つまたは複数のスピーカーを含む、請求項１に記載のデバイス。
前記デバイスは受信機を備え、前記受信機は、前記１つまたは複数のスピーカーに結合される、請求項１に記載のデバイス。
高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号する方法であって、
１つまたは複数のプロセッサによって、フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記１つまたは複数のプロセッサによって、前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、両方の前記ベクトルは、球面調和領域において定義される、
１つまたは複数のプロセッサによっておよび前記ベクトルに基づいて、１つまたは複数のスピーカーフィードをレンダリングすることと、
１つまたは複数のプロセッサによって、前記１つまたは複数のスピーカーに前記１つまたは複数のスピーカーフィードを出力することと
を備える方法。
前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得することと、
フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得することと
をさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、請求項１０に記載の方法。
前記バックグラウンド指示を取得することは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記バックグラウンド指示を取得することを備える、請求項１１に記載の方法。
前記環境ＨＯＡ係数のうちのどれが前記ビットストリームの前記フレームの間に遷移中であるかを示す指示を取得することをさらに備える、請求項１１に記載の方法。
前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、前記フォアグラウンド指示を取得することを備える、請求項１１に記載の方法。
前記ビットストリームの前記フレームから、第１のフレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を取得することをさらに備える、請求項１１に記載の方法。
前記フォアグラウンド指示を取得することは、前記第１のフレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、請求項１５に記載の方法。
前記第１のフレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームのトランスポートチャネルについてのタイプの指示を取得することをさらに備える、請求項１５に記載の方法。
前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項１７に記載の方法。
前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応するベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項１７に記載の方法。
前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、請求項１７に記載の方法。
前記方法は、前記１つまたは複数のスピーカーに結合されたデバイスによって行われる、請求項１０に記載の方法。
前記デバイスはテレビジョンを備え、
前記１つまたは複数のスピーカーは、前記テレビジョン内に統合された１つまたは複数のスピーカーを備える、請求項２１に記載の方法。
前記デバイスは受信機を備える、請求項２１に記載の方法。
実行されると、１つまたは複数のプロセッサに、
フォアグラウンドオーディオ信号が遷移中であるときのビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得することと、前記ベクトルは、球面調和領域において定義される、
前記ベクトルに基づいて、１つまたは複数のスピーカーフィードをレンダリングすることと、
前記１つまたは複数のスピーカーに前記１つまたは複数のスピーカーフィードを出力することと
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを復号するためのデバイスであって、
フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、対応するフォアグラウンドオーディオ信号の空間的特性を記述するベクトルを取得するための手段と、前記ベクトルは、球面調和領域において定義される、
前記ベクトルに基づいて、１つまたは複数のラウドスピーカーフィードをレンダリングするための手段と、
１つまたは複数のラウドスピーカーに前記１つまたは複数のスピーカーフィードを出力するための手段と
を備えるデバイス。
高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化するように構成されたデバイスであって、
マイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記ＨＯＡオーディオデータを取得することと、
フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記ＨＯＡオーディオデータの少なくとも一部分を分解することと、前記ベクトルは、球面調和領域において定義される、
前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
を行うように構成された１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサに結合され、前記ベクトルを記憶するように構成されたメモリと
を備えるデバイス。
前記１つまたは複数のプロセッサは、前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記バックグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
請求項２６に記載のデバイス。
前記１つまたは複数のプロセッサは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を取得するようにさらに構成され、
前記１つまたは複数のプロセッサは、前記フォアグラウンド指示に基づいて前記複数遷移指示を取得するように構成される、
請求項２６に記載のデバイス。
前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードインされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードインされるかどうかを示す、請求項２６に記載のデバイス。
前記複数遷移指示は、前記フォアグラウンドオーディオ信号がフェードアウトされるときの前記ビットストリームの前記同じフレームの間に前記環境ＨＯＡ係数がフェードアウトされるかどうかを示す、請求項２６に記載のデバイス。
前記オーディオ信号をキャプチャするように構成された前記マイクロフォンをさらに備える、請求項２６に記載のデバイス。
高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化する方法であって、
１つまたは複数のプロセッサによっておよびマイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記ＨＯＡオーディオデータを取得することと、
フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記１つまたは複数のプロセッサによって、前記ＨＯＡオーディオデータの少なくとも一部分を分解することと、
前記１つまたは複数のプロセッサによって、前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記１つまたは複数のプロセッサによって、前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
前記１つまたは複数のプロセッサによっておよび前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
を備える方法。
前記環境ＨＯＡ係数のうちの１つに関して遷移が起きたことを示す指示に応答して、前記ビットストリームの前記フレームの間に遷移中である環境ＨＯＡ係数の数のバックグラウンド指示を取得することと、
前記ビットストリーム中で、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、および前記ビットストリームの異なるフレームのトランスポートチャネルについてのタイプの指示に基づいて、フォアグラウンドオーディオ信号が前記ビットストリームの前記フレームの間に遷移中であるかどうかのフォアグラウンド指示を指定することと
をさらに備え、
前記複数遷移指示を取得することは、前記フォアグラウンド指示および前記バックグラウンド指示に基づいて前記複数遷移指示を取得することを備える、
請求項３２に記載の方法。
前記フォアグラウンド指示を取得することは、前記ビットストリーム中で、および前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記フォアグラウンド指示を指定することを備える、請求項３３に記載の方法。
前記ビットストリームの前記フレーム中で、前記フレームが、前記ビットストリームの異なるフレームを参照することなく前記フレームが復号されることを可能にする独立フレームであるかどうかの独立フレーム指示を指定することをさらに備える、請求項３３に記載の方法。
前記フォアグラウンド指示を取得することは、前記フレームが独立フレームであることを示す前記独立フレーム指示に応答して、前記ビットストリームから、前記フォアグラウンド指示を取得することを備える、請求項３５に記載の方法。
前記フレームが独立フレームでないことを示す前記独立フレーム指示に応答して、前記異なるフレームの前記トランスポートチャネルについてのタイプの指示を取得することをさらに備える、請求項３５に記載の方法。
前記フォアグラウンド指示を取得することは、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルがベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項３５に記載の方法。
前記フォアグラウンド指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの前記トランスポートチャネルについての前記タイプの前記指示に基づいて、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記フォアグラウンド指示を取得することを備える、請求項３８に記載の方法。
前記独立フレーム指示を取得することは、前記フォアグラウンドオーディオ信号に対応する前記ベクトルのコーディングモードが、前記ベクトルが低減されたベクトルであることを示すとき、前記異なるフレームの同じトランスポートチャネルが前記ベクトルベースのオーディオ信号を含んでいたかどうかを示す、前記フレームの前記トランスポートチャネルについての前記独立フレーム指示を取得することを備える、請求項３８に記載の方法。
前記１つまたは複数のプロセッサは、マイクロフォンに結合され、
前記方法は、前記マイクロフォンで、前記オーディオ信号をキャプチャすることをさらに備える、請求項３２に記載の方法。
実行されると、１つまたは複数のプロセッサに、
マイクロフォンによってキャプチャされたオーディオ信号に基づいて、高次アンビソニック（ＨＯＡ）オーディオデータを取得することと、
フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記ＨＯＡオーディオデータの少なくとも一部分を分解することと、
フォアグラウンドオーディオ信号が遷移中であるときのビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得することと、
前記複数遷移指示に基づいて、前記ベクトルの要素を取得することと、
前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定することと
を行わせる命令を記憶した非一時的コンピュータ可読記憶媒体。
高次アンビソニック（ＨＯＡ）オーディオデータを表すビットストリームを符号化するためのデバイスであって、
マイクロフォンによってキャプチャされたオーディオ信号に基づいて、前記ＨＯＡオーディオデータを取得するための手段と、
フォアグラウンドオーディオ信号と、前記フォアグラウンドオーディオ信号の空間成分を示すベクトルとを取得するために、前記ＨＯＡオーディオデータの少なくとも一部分を分解するための手段と、
前記フォアグラウンドオーディオ信号が遷移中であるときの前記ビットストリームの同じフレームの間に、環境ＨＯＡ係数が遷移中であるかどうかの複数遷移指示を取得するための手段と、
前記複数遷移指示に基づいて、前記ベクトルの要素を取得するための手段と、
前記ビットストリームにおいて、前記ベクトルの前記取得された要素を指定するための手段と
を備えるデバイス。
前記１つまたは複数のプロセッサは、前記ベクトルに基づいて、前記ＨＯＡオーディオデータを再構成するように構成され、
前記１つまたは複数のプロセッサは、前記再構成されたＨＯＡオーディオデータに基づいて、前記１つまたは複数のスピーカーフィードをレンダリングするように構成される、
請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ベクトルに基づいて、１つまたは複数のバイノーラルオーディオヘッドフォンフィードをレンダリングするように構成され、
前記１つまたは複数のスピーカーは、１つまたは複数のヘッドフォンスピーカーを備える、
請求項１に記載のデバイス。
前記デバイスは、ヘッドフォンを備え、前記ヘッドフォンは、１つまたは複数の統合されたヘッドフォンスピーカーとして前記１つまたは複数のヘッドフォンスピーカーを含む、請求項４５に記載のデバイス。
前記デバイスは、自動車を備え、前記自動車は、１つまたは複数の統合されたスピーカーとして前記１つまたは複数のスピーカーを含む、請求項１に記載のデバイス。
前記１つまたは複数のプロセッサは、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号とに基づいて、前記１つまたは複数のスピーカーフィードをレンダリングするように構成される、請求項１に記載のデバイス。
前記方法は、前記ベクトルに基づいて、前記ＨＯＡオーディオデータを再構成することをさらに備え、
前記１つまたは複数のスピーカーフィードをレンダリングすることは、前記再構成されたＨＯＡオーディオデータに基づいて、前記１つまたは複数のスピーカーフィードをレンダリングすることを備える、
請求項１０に記載の方法。
前記１つまたは複数のスピーカーフィードをレンダリングすることは、前記ベクトルに基づいて、１つまたは複数のバイノーラルオーディオヘッドフォンフィードをレンダリングすることを備え、
前記１つまたは複数のスピーカーは、１つまたは複数のヘッドフォンスピーカーを備える、
請求項１０に記載の方法。
前記１つまたは複数のスピーカーフィードをレンダリングすることは、前記ベクトルと、前記対応するフォアグラウンドオーディオ信号とに基づいて、前記１つまたは複数のスピーカーフィードをレンダリングすることを備える、請求項１０に記載の方法。