JP2024510205A

JP2024510205A - ダウンミックスされた信号の適応利得制御を有するオーディオコーデック

Info

Publication number: JP2024510205A
Application number: JP2023555510A
Authority: JP
Inventors: セティアワン，パンジー; ティアギ，リシャブ; ブルーン，ステファン
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2021-03-11
Filing date: 2022-03-08
Publication date: 2024-03-06
Also published as: TW202242852A; WO2022192217A1; IL305331A; MX2023010602A; EP4305618A1; KR20230153402A; BR112023017361A2; CA3212631A1; AU2022233430A1; US20240153512A1

Abstract

オーディオ信号に対して利得制御を実行する方法が提供される。いくつかの実施態様では、本方法は、符号化されるオーディオ信号の現フレームに関連付けられた１つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることを含む。いくつかの実施態様では、本方法は、エンコーダーについて過負荷状態が存在するか否かを判断することを含む。いくつかの実施態様では、本方法は、利得パラメーターを求めることを含む。いくつかの実施態様では、本方法は、この利得パラメーターと、オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも１つの利得遷移関数を求めることを含む。いくつかの実施態様では、本方法は、少なくとも１つの利得遷移関数をダウンミックスされた信号のうちの１つ以上に適用することを含む。いくつかの実施態様では、本方法は、現フレームに適用された利得制御を示す情報に関して、ダウンミックスされた信号を符号化することを含む。【選択図】図２

Description

［関連出願の相互参照］
本出願は、２０２１年３月１１日に出願された米国仮特許出願第６３／１５９，８０７号、２０２１年３月１６日に出願された米国仮特許出願第６３／１６１，８６８号、及び２０２２年２月１１日に出願された米国仮特許出願第６３／２６７，８７８号の利益を主張し、これらを本願に援用する。

本開示は、適応利得制御のシステム、方法、及び媒体に関する。

利得制御は、例えば、信号を減衰させ、信号をコアコーデックによって予想される範囲内にするのに使用することができる。適用すべき利得を求める多くの利得制御技法は、遅延を必要とし、及び／又は、先行フレームに適用された利得パラメーターに依存する。そのような利得制御技法は、セルラー送信等のエラーを起こしやすい状況及び／又は会話等のリアルタイム処理を必要とする状況で利用されると、問題を引き起こすおそれがある。

表記法及び用語法
特許請求の範囲を含む本開示の全体を通して、「スピーカー」、「ラウドスピーカー」及び「オーディオ再生トランスデューサー」という用語は、同じ意味に使用され、任意の音放出トランスデューサー又は一組の音放出トランスデューサーを示す。通常のヘッドホンセットは、２つのスピーカーを含む。スピーカーは、ウーファー及びツイーター等の複数のトランスデューサーを含むように実装されてもよく、これらの複数のトランスデューサーは、単一の共通スピーカーフィードによって駆動されてもよく、複数のスピーカーフィードによって駆動されてもよい。いくつかの例では、スピーカーフィード（複数の場合もある）は、異なるトランスデューサーに結合された異なる回路ブランチにおいて異なる処理を受け得る。

特許請求の範囲を含む本開示の全体を通して、信号又はデータ「に対して」操作を行う、例えば、信号若しくはデータに対してフィルタリング、スケーリング、変換、又は利得の適用を行うという表現は、広い意味で使用され、信号若しくはデータに対して直接操作を行うこと、又は信号若しくはデータの処理済みのものに対して操作を行うことを示す。例えば、操作は、信号に対してその操作を行う前にその信号に予備フィルタリング又は前処理を行ったものに対して行うことができる。

特許請求の範囲を含む本開示の全体を通して、「システム（system）」という表現は、広い意味で使用され、デバイス、システム、又はサブシステムを示す。例えば、デコーダーを実装するサブシステムを、デコーダーシステムと呼ぶことができ、そのようなサブシステムを含むシステム（例えば、複数の入力に応答してＸ個の出力信号を生成するシステムであって、サブシステムが、入力のうちのＭ個を生成し、他のＸ－Ｍ個の入力が外部発生源から受信される、システム）を、デコーダーシステムと呼ぶこともできる。

特許請求の範囲を含む本開示の全体を通して、「プロセッサ（processor）」という用語は、広い意味で使用され、オーディオ又はビデオ若しくは他の画像データを含み得るデータに対して操作を行うようにプログラム可能又は別様に構成可能な、例えばソフトウェア又はファームウェアを用いたシステム又はデバイスを示す。プロセッサの例としては、フィールドプログラマブルゲートアレイ（又は他の構成可能な集積回路若しくはチップセット）、オーディオ又は他の音データに対してパイプライン化処理を行うようにプログラムされた及び／又は別様に構成されたデジタル信号プロセッサ、プログラマブル汎用プロセッサ又はコンピューター、及びプログラマブルマイクロプロセッサチップ若しくはチップセットが挙げられる。

本開示の少なくともいくつかの態様は、方法によって実装し得る。いくつかの方法は、符号化されるオーディオ信号の現フレームに関連付けられた１つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることを含み得る。いくつかの方法は、前記１つ以上のダウンミックスチャネルのうちの少なくとも１つの前記ダウンミックスされた信号を符号化するのに使用されるエンコーダーについて、過負荷状態が存在するか否かを判断することを含み得る。いくつかの方法は、前記過負荷状態が存在するとの判断に応答して、前記オーディオ信号の前記現フレームの前記１つ以上のダウンミックスチャネルのうちの前記少なくとも１つの利得パラメーターを求めることを含み得る。いくつかの方法は、前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも１つの利得遷移関数を求めることを含み得る。いくつかの方法は、前記少なくとも１つの利得遷移関数を前記ダウンミックスされた信号のうちの１つ以上に適用することを含み得る。いくつかの方法は、前記現フレームに適用された利得制御を示す情報に関して、前記ダウンミックスされた信号を符号化することを含み得る。

いくつかの例では、前記少なくとも１つの利得遷移関数は、部分フレームバッファーを使用して求められる。いくつかの例では、前記部分フレームバッファーを使用して前記少なくとも１つの利得遷移関数を求めることは、実質的に０の付加遅延を導入する。

いくつかの例では、前記少なくとも１つの利得遷移関数は、過渡部分及び定常状態部分を含み、前記過渡部分は、前記オーディオ信号の前記先行フレームに関連付けられた前記利得パラメーターから前記オーディオ信号の前記現フレームに関連付けられた前記利得パラメーターへの遷移に対応する。いくつかの例では、前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも大きいことに応答して、利得が前記現フレームのサンプルの一部分にわたって増加するフェードの過渡タイプを有する。いくつかの例では、前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも小さいことに応答して、利得が前記現フレームのサンプルの一部分にわたって減少する逆フェードの過渡タイプを有する。いくつかの例では、前記過渡部分は、プロトタイプ関数及びスケーリング係数を使用して求められ、前記スケーリング係数は、前記現フレームに関連付けられた前記利得パラメーターと、前記先行フレームに関連付けられた前記利得パラメーターとに基づいて求められる。いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報は、前記少なくとも１つの利得遷移関数の前記過渡部分を示す情報を含む。

いくつかの例では、前記少なくとも１つの利得遷移関数は、前記過負荷状態が存在する前記１つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含む。いくつかの例では、前記少なくとも１つの利得遷移関数は、前記１つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含み、前記過負荷状態は、前記１つ以上のダウンミックスチャネルのサブセットについて存在する。いくつかの例では、前記少なくとも１つの利得遷移関数は、前記過負荷状態が存在する前記１つ以上のダウンミックスチャネルのそれぞれの利得遷移関数を含む。いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数は、前記過負荷状態が存在するダウンミックスチャネルの数とともに実質的に線形にスケーリングする。

いくつかの例では、いくつかの方法は、前記符号化されるオーディオ信号の第２のフレームに関連付けられた前記１つ以上のダウンミックスチャネルに関連付けられた第２のダウンミックスされた信号を求めることと、前記第２のフレームの前記１つ以上のダウンミックスチャネルのうちの少なくとも１つの前記エンコーダーについて、過負荷状態が存在するか否かを判断することと、前記第２のフレームについて前記過負荷状態が存在しないとの判断に応答して、非ユニティ利得を適用することなく、前記第２のダウンミックスされた信号を符号化することとを更に含み得る。いくつかの例では、いくつかの方法は、利得制御が前記第２のフレームに適用されないことを示すフラグをセットすることを更に含み得、前記フラグは１つのビットを含む。

いくつかの例では、いくつかの方法は、前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数を求めることと、前記現フレームに適用された前記利得制御を示す前記情報を符号化するために、１）前記現フレームに関連付けられたメタデータを符号化するのに使用されるビット、及び／又は、２）前記ダウンミックスされた信号を符号化するのに使用されるビットから、前記ビット数を配分することとを更に含み得る。いくつかの例では、前記ビット数は、前記ダウンミックスされた信号を符号化するのに使用されるビットから配分され、前記ダウンミックスされた信号を符号化するのに使用される前記ビットは、前記１つ以上のダウンミックスされたチャネルに関連付けられた空間方向に基づく順序で減少される。

いくつかの方法は、オーディオ信号の現フレームについて、前記オーディオ信号の符号化されたフレームをデコーダーにおいて受信することを含み得る。いくつかの方法は、前記オーディオ信号の前記符号化されたフレームを復号して、前記オーディオ信号の前記現フレームに関連付けられているダウンミックスされた信号と、エンコーダーによって前記オーディオ信号の前記現フレームに適用された利得制御を示す情報とを取得することを含み得る。いくつかの方法は、前記オーディオ信号の前記現フレームに関連付けられた１つ以上のダウンミックスされた信号に適用される逆利得関数を、前記オーディオ信号の前記現フレームに適用された前記利得制御を示す前記情報に少なくとも部分的に基づいて求めることを含み得る。いくつかの方法は、前記逆利得関数を前記１つ以上のダウンミックスされた信号に適用することを含み得る。いくつかの方法は、前記逆利得関数が適用された前記１つ以上のダウンミックスされた信号を含めて、前記ダウンミックスされた信号をアップミックスして、アップミックスされた信号を生成することであって、前記アップミックスされた信号はレンダリングに適していることを含み得る。

いくつかの例では、前記現フレームに適用された前記利得制御を示す前記情報は、前記オーディオ信号の前記現フレームに関連付けられた利得パラメーターを含む。いくつかの例では、前記逆利得関数は、前記オーディオ信号の前記現フレームの前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに少なくとも部分的に基づいて求められる。

いくつかの例では、前記逆利得関数は、過渡部分及び定常状態部分を含む。

いくつかの例では、いくつかの方法は、前記デコーダーにおいて、第２の符号化されたフレームが受信されていないと判断することと、前記デコーダーによって代用フレームを復元して、前記第２の符号化されたフレームと置き換えることと、前記第２の符号化されたフレームに先行していた先行符号化フレームに適用された逆利得パラメーターを前記代用フレームに適用することとを更に含み得る。いくつかの例では、いくつかの方法は、前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記エンコーダーによって前記第３の符号化されたフレームに適用された前記利得制御に関連付けられた逆利得パラメーターを用いて、前記代用フレームに適用された前記逆利得パラメーターを平滑化することによって、前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを求めることとを更に含み得る。いくつかの例では、いくつかの方法は、前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターであって、前記第３の符号化されたフレームからの利得パラメーターの滑らかな遷移を実施するような逆利得パラメーターを求めることとを更に含み得る。いくつかの例では、受信されなかった前記第２の符号化されたフレームと、受信された前記第３の符号化されたフレームとの間に少なくとも１つの中間フレームがあり、前記少なくとも１つの中間フレームは、前記デコーダーにおいて受信されなかったものである。いくつかの例では、いくつかの方法は、前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを、前記デコーダーにおいて受信されなかった前記第２の符号化されたフレームに先行していた前記デコーダーにおいて受信されたフレームに適用される逆利得パラメーターに少なくとも部分的に基づいて求めることとを更に含み得る。いくつかの例では、いくつかの方法は、前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、前記第３の符号化されたフレームに適用された前記利得制御を示す前記情報に基づいて、前記デコーダーの内部状態を再スケーリングすることとを更に含み得る。

いくつかの例では、いくつかの方法は、前記アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成することを更に含み得る。いくつかの例では、いくつかの方法は、ラウドスピーカー又はヘッドホンのうちの１つ以上を使用して、前記レンダリングされたオーディオデータを再生することを更に含み得る。

本明細書において説明する操作、機能、及び／又は方法の一部又は全ては、１つ以上の非一時的媒体上に記憶された命令（例えば、ソフトウェア）に従って１つ以上のデバイスによって実行し得る。そのような非一時的媒体は、本明細書において説明されているようなメモリデバイスを含むことができ、このメモリデバイスは、ランダムアクセスメモリ（ＲＡＭ）デバイス、リードオンリーメモリ（ＲＯＭ）デバイス等を含むが、これに限定されるものではない。したがって、本開示に記載の主題のいくつかの革新的な態様を、ソフトウェアが記憶された１つ以上の非一時的媒体を介して実装することができる。

本開示の少なくともいくつかの態様を、装置によって実装し得る。例えば、１つ以上のデバイスは、本明細書において開示する方法を少なくとも部分的に実施し得る場合がある。いくつかの実施態様において、装置は、インターフェースシステム及び制御システムを有するオーディオ処理システムであるか又はこれを含む。制御システムは、１つ以上の汎用のシングルチッププロセッサ又はマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）若しくは他のプログラマブルロジックデバイス、ディスクリートゲートロジック又はトランジスタロジック、ディスクリートハードウェア構成要素、又はその組み合わせを含むことができる。

本明細書において説明する主題の１つ以上の実施態様の詳細は添付の図面及び下記明細書において説明される。他の特徴、態様及び有利な点は本明細書、図面及び特許請求の範囲から明らかとなる。以下の図の相対的な寸法は、一定比例尺に従って描かれない場合があることに留意されたい。

いくつかの実施形態によるオーディオ信号の利得制御を提供するシステムの概略ブロック図である。

いくつかの実施形態による適応利得制御を実施するシステムの概略ブロック図である。

いくつかの実施形態によるエンコーダーによって実施し得る利得関数の例を示す図である。いくつかの実施形態によるデコーダーによって実施し得る逆利得関数の例を示す図である。

いくつかの実施形態によるドロップされたフレームに応答してデコーダーによって適用し得る逆利得の例示のグラフである。

いくつかの実施形態による適応利得制御を実施するエンコーダーによって実行し得る一例示のプロセスのフローチャートである。

いくつかの実施形態による適応利得制御を実施するデコーダーによって実行し得る一例示のプロセスのフローチャートである。

いくつかの実施形態による空間復元符号化（spatial reconstruction encoding）技法を利用するエンコーダー及びデコーダーの一例示の概略図である。

いくつかの実施形態による適応利得制御を利用する一例示のマルチチャネルコーデックのブロック図である。

いくつかの実施形態による適応利得制御を実施したときのビット分配の一例示のプロセスのフローチャートである。

いくつかの実施形態による没入型音声オーディオサービス（ＩＶＡＳ：Immersive Voice and Audio Services）システムの例示の使用事例を示す図である。

本開示の様々な態様を実施することが可能な装置の構成要素の例を示すブロック図である。

様々な図面における同様の参照符号及び記号は同様の要素を示す。

シーンベースのオーディオ、ステレオオーディオ、マルチチャネルオーディオ、及び／又はオブジェクトオーディオのいくつかのコード化（coding）技法は、ダウンミックス操作後に複数の成分信号をコード化することに依拠している。ダウンミックスは、削減された数のオーディオ成分を、波形を維持する波形符号化方法でコード化することを可能にし、残りの成分は、パラメトリックに符号化してもよい。受信機側では、残りの成分を、パラメトリック符号化を示すパラメトリックメタデータを使用して復元し得る。成分のサブセットのみが波形符号化され、パラメトリックに符号化された成分に関連付けられたパラメトリックメタデータは、ビットレートに関して効率的に符号化し得るので、そのようなコード化技法は、比較的ビットレート効率が良く、それでも、高品質のオーディオが可能であり得る。

起こり得る１つの問題は、空間エンコーダーによって求められるダウンミックスチャネルが、オーディオ信号ビットストリームを構築するコアコーデックによる後続の処理に適していないレベルを有する信号を含む場合があるということである。例えば、いくつかの場合には、ダウンミックス信号は、元の入力信号がその成分信号のいずれにおいても過負荷でないにもかかわらず、レベルが非常に高いことから、コアコーデックが過負荷になるレベルを有する場合がある。これは、復号及びレンダリングの後の復元された信号においてクリッピング等の深刻な歪みを引き起こすおそれがある。これは、最終的にレンダリングされた信号にかなりの品質損失を引き起こすおそれがある。１つの可能性のある解決策は、入力信号を減衰させてコアコーデックの過負荷を回避するものであり得る。しかしながら、この解決策は、信号を符号化するのに利用される量子化器が最適な範囲内で動作していない場合があるので、粒状雑音を増加させるという欠点を有する場合がある。

図１は、符号化された高次アンビソニックス（ＨＯＡ：higher order Ambisonics）信号に対して利得制御を行う従来のシステムの概略ブロック図を示している。図１に示す概略図は、ＭＰＥＧ－Ｈ信号の符号化及び復号に使用され得る。ＭＰＥＧ－Ｈは、国際標準化機構（ＩＳＯ：International Organization for Standardization）／国際電気標準会議（ＩＥＣ：International Electrotechnical Commission）のムービングピクチャーエキスパートグループ（ＭＰＥＧ：Moving Picture Experts Group）による開発中の国際標準規格群である。ＭＰＥＧ－Ｈは、パート３のＭＰＥＧ－Ｈ３Ｄオーディオを含む様々なパートを有する。ＭＰＥＧ－Ｈオーディオは、セルラー通信等のエラーを起こしやすい伝送環境における会話アプリケーション用に設計されていないコーデックであるので、ＭＰＥＧ－Ｈオーディオコーデックは、厳密なコード化レイテンシー要件及び／又は厳密な伝送エラー耐性要件を満たさなくてもよいことに留意すべきである。上記のように適用される利得制御は、その結果、以下でより詳細に論述するように、再帰操作を利用することがあり、遅延を導入し得る。

エンコーダー１０２において、入力ＨＯＡ信号が１０４において処理される。この処理は、例えば、分解を含むことができ、この分解において、ダウンミックスチャネルが生成される。ダウンミックスチャネルは、所与のフレームの［－ｍａｘ，ｍａｘ］によって拘束される（ｂｏｕｎｄ）一組の信号を含むことができる。コアエンコーダー１０８は、［－１，１）の範囲内の信号を符号化することができるので、コアエンコーダー１０８のこの範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは、過負荷を引き起こすおそれがある。過負荷を回避するために、利得制御部１０６が、関連した信号がコアエンコーダー１０８の範囲内（例えば、［－１，１）内）になるようにフレームの利得を調整する。コアエンコーダー１０８は、符号化されたビットストリームを生成するコーデックとみなすことができる。パラメトリックに符号化されたチャネル等に関連付けられたメタデータを含み得る、分解／処理ブロック１０４によって生成されるサイド情報は、コアエンコーダー１０８の出力として生成される信号に関係するビットストリームに符号化され得る。

符号化されたビットストリームはデコーダー１１２によって受信される。デコーダー１１２は、サイド情報を抽出し、コアデコーダー１１６は、ダウンミックス信号を抽出し得る。逆利得制御ブロック１２０は、その後、エンコーダーによって適用される利得を反転し得る。例えば、逆利得制御ブロック１２０は、エンコーダー１０２の利得制御部１０６によって減衰された信号を増幅し得る。ＨＯＡ信号は、その後、ＨＯＡ復元ブロック１２２によって復元され得る。任意選択で、ＨＯＡ信号は、レンダリング／再生ブロック１２４によってレンダリング及び／又は再生され得る。レンダリング／再生ブロック１２４は、例えば、復元されたＨＯＡ出力を、例えば、レンダリングされたオーディオデータとしてレンダリングする様々なアルゴリズムを含み得る。例えば、復元されたＨＯＡ出力をレンダリングすることは、ＨＯＡ出力の１つ以上の信号を複数のスピーカーにわたって分配して特定の知覚的印象を実現することを含み得る。任意選択で、レンダリング／再生ブロック１２４は、レンダリングされたオーディオデータを提示する１つ以上のラウドスピーカー、ヘッドホン等を含むことができる。

利得制御部１０６は、次の技法を使用して利得制御を実施し得る。利得制御部１０６は、フレームにおける信号値の上限を最初に求めてもよい。例えば、ＭＰＥＧ－Ｈオーディオ信号の場合、この上限は、積
として表し得る。なお、この積は、ＭＰＥＧ－Ｈ標準規格において指定されたものである。上限が与えられると、必要とされる最小減衰が、スケーリングされた信号サンプルが間隔［－１，１）によって拘束されるようにし得る。換言すれば、スケーリングされたサンプルは、コアエンコーダー１０８の範囲内に存在し得る。これは、
の利得係数を適用することによって求め得る。ここで、
である。定義によれば、ｅ_ｍｉｎは負の数であり得る。いくつかの実施形態において、増幅は、最大増幅率
によって制限され得る。ここで、ｅ_ｍａｘは非負の整数である。したがって、減衰及び増幅の双方を行うために、利得パラメーターｅを［ｅ_ｍｉｎ，ｅ_ｍａｘ］の範囲内の値とする２^ｅの利得係数を定義することができる。その結果、利得パラメーターｅを表すのに必要とされる最小ビット数は、
として求められる。

上述したように、特定のチャネルｎ及びフレームｊの利得係数ｇ_ｎ（ｊ）は、１つのＨＯＡブロックに対応する１フレーム遅延を適用し、以下の再帰操作を利用することによって求めてもよい。

上記式において、ｇ_ｎ（ｊ－２）は、フレーム（ｊ－２）について適用される利得係数を表し、
は、フレームｊ－１の利得係数ｇ_ｎ（ｊ－１）を計算するのに必要とされる利得係数調整を表す。利得係数調整を求めるために、１フレームの遅延を導入する現フレームｊからの情報が使用される。換言すれば、この技法を使用した利得係数の決定には、１フレーム遅延を導入するとともに、再帰計算を必要とする。

利得ｇ_ｎ（ｊ－２）を知る必要があることは、エンコーダー状態とデコーダー状態との間にずれが存在する場合があり、したがって、利得がデコーダーによって正確に復元されない場合がある潜在的な伝送エラーの場合に問題であり得る。その上、符号化されたコンテンツが、ファイルの先頭以外等のランダムな位置においてアクセスされる場合には、先行フレーム情報がアクセス可能でない場合がある。再帰操作及び遅延を利用する従来の利得制御のこれらの欠点は、したがって、低遅延を必要とするコーデック及びセルラー伝送に利用されるようなエラーを起こしやすい環境における実施には適していない場合がある。

本明細書において、適応利得制御を提供する技法が開示されている。特に、本明細書に説明されているように、利得パラメーターは、コーデックによる使用のために生成されるルックアヘッドサンプルに基づいて求め得るので、ゼロ遅延を有する利得パラメーターを求め得る。コーデックは、知覚的エンコーダーによって使用されるものであり得ることに留意すべきである。その上、求められる利得パラメーターは、非再帰的に求めることができ、これによって、フレームがドロップされる場合があるエラーを起こしやすい環境において適応利得制御技法を利用することが可能になる。利得パラメーターの決定及び関連付けられた利得遷移関数（gain transition function）の適用は、図２～図６に図示され、図２～図６に関して以下で説明される。

また、いくつかの実施態様では、適応利得制御は、１つ以上のダウンミックスチャネルが、コーデックの予想範囲を超えることによってコーデックの過負荷状態を引き起こす信号に関連付けられている場合にのみ適用し得る。本明細書に説明されているように、過負荷状態が存在しない場合等の、利得制御が適用されない場合には、利得パラメーターは、そのフレームについて符号化されない場合がある。全てのフレームではなく、利得制御が適用される場合に利得パラメーターを選択的に符号化することによって、本明細書に説明される利得制御技法は、よりビットレート効率の高い符号化をもたらす。利得パラメーターのより効率的な符号化によって、より多くのビットをダウンミックスチャネルの符号化に利用することが可能になり、より高いオーディオ品質が最終的に得られる。利得情報の符号化に利用されるビットと、メタデータの符号化に使用されるビットと、ダウンミックスチャネルの符号化に使用されるビットとの間でビットを配分する技法は、図７及び図８に図示され、図７及び図８に関して以下で説明される。

図２は、いくつかの実施形態による低遅延適応利得制御を行う一例示のシステム２００の概略ブロック図を示している。図示するように、システム２００は、エンコーダー２０２及びデコーダー２１２を含む。エンコーダー２０２において、入力ＨＯＡ信号（又は１次アンビソニック（ＦＯＡ：first-order Ambisonic））信号が、空間符号化ブロック２０４によって処理を受ける。Ｎチャネル入力の場合には、空間符号化ブロック２０４は、一組のＭ個のダウンミックスチャネルを生成し得る。一組のダウンミックスチャネルにおけるダウンミックスチャネルの数は、１～Ｎの範囲内であり得る。例えば、ＦＯＡ入力の場合には、ダウンミックスチャネルは、プライマリダウンミックスチャネルＷ’と、３つまでの残差チャネルＸ’、Ｙ’、及びＺ’とを含むことができる。プライマリダウンミックスチャネルＷ’は、様々な混合利得を使用して無指向性入力信号Ｗを指向性入力信号Ｘ、Ｙ及びＺと混合することによって生成することができる。残差チャネルＸ’、Ｙ’、及びＺ’はそれぞれ、プライマリダウンミックス信号から予測することができないＸ信号、Ｙ信号、及びＺ信号における信号成分に対応する。１つの例では、空間符号化ブロック２０４は、空間復元（ＳＰＡＲ：Spatial Reconstruction）技法を利用する。ＳＰＡＲについては、D. McGrath、S. Bruhn、H. Purnhagen、M. Eckert、J. Torres、S. Brown、及びD. Darcy著「Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec」（IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 730-734）に更に説明されている。この文献は、その全体が引用することによって本明細書の一部をなす。他の例では、空間符号化ブロック２０４は、カルーネンレーベ変換（ＫＬＴ：Karhunen-Loeve Transform）等のエネルギーコンパクト変換（energy compacting transform）の他の任意の適した線形予測コーデックを利用し得る。いくつかの実施態様では、ダウンミックスチャネルは、コアエンコーダー２０８によって利用されるルックアヘッドサンプルを使用して生成される。いくつかの実施態様では、空間符号化ブロック２０４はサイド情報２１０を追加で生成し、このサイド情報は、コアエンコーダー２０８が利用してもよい。サイド情報２１０は、ダウンミックスされたチャネルをアップミックスするためにデコーダー２１２によって使用されるメタデータを含み得る。例えば、サイド情報２１０は、空間符号化ユニット２０４によってダウンミックスされた元のオーディオ入力の表現を復元するのに利用され得る。

Ｍ個のダウンミックスチャネルに関連付けられた信号は、その後、適応利得制御部２０６によって分析され得る。適応利得制御部２０６は、Ｍ個のダウンミックスチャネルのうちのいずれかに関連付けられた信号が、コアエンコーダー２０８によって予想される範囲を超えており、その結果、コアエンコーダー２０８を過負荷にするか否かを判断し得る。いくつかの実施形態において、適応利得制御部２０６が、Ｍ個のダウンミックスチャネルの信号のいずれもがコアエンコーダー２０８の予想範囲を超えていないとの判断等に応答して、利得を適用しないと判断する場合、適応利得制御部２０６は、利得制御が適用されないことを示すフラグをセットし得る。このフラグは、単一のビットの値をセットすることによってセットされ得る。いくつかの実施態様では、適応利得制御部２０６が利得を適用しないと判断する場合、適応利得制御部２０６は、フラグをセットせず、それによって、１つのビット（例えば、フラグに関連付けられたビット）を保存してもよいことに留意すべきである。例えば、いくつかの実施態様では、空間メタデータビットストリーム及び／又はコアエンコーダービットストリーム（知覚的エンコーダービットストリームであり得る）が自己終端している場合、ビットストリームに何らかの未読ビットがあるか否かを判断することによって、利得制御フラグの存在を判断し得る。未読ビットは、ビットストリーム内の残り物のビットであってもよい。Ｍ個のダウンミックスチャネルは、その後、サイド情報２１０に関してビットストリーム内を符号化するコアエンコーダー２０８に渡され得る。

逆に、適応利得制御部２０６が利得を適用すると判断する場合には、適応利得制御部２０６は、利得パラメーターを求め、求められた利得パラメーターに従って利得（複数の場合もある）をＭ個のダウンミックスチャネルに適用してもよい。利得が適用されたＭ個のダウンミックスチャネルは、その後、サイド情報２１０に関してビットストリーム内を符号化するコアエンコーダー２０８に渡され得る。利得パラメーターは、以下でより詳細に説明するように、例えば、利得パラメーターを示す一組のビットとしてサイド情報２１０に含められ得る。

いくつかの実施態様では、適応利得制御部２０６は、Ｍ個のダウンミックスされたチャネルの中でコアエンコーダー２０８の予想範囲を超える（例えば、過負荷状態を引き起こす）特定のチャネルについて現フレームｊの利得パラメーターｅ（ｊ）を求めることによって、適用される利得を求め得る。いくつかの実施態様では、利得パラメーターｅ（ｊ）は、チャネルに関連付けられた信号を利得パラメーターに基づいて求められた利得係数によってスケーリングしたときに、チャネルに関連付けられた信号を予想範囲内にする最小の正の整数（０を含む）である。上述したように、予想範囲は、［０１，１］であり得る。例えば、利得係数は、
であってもよい。いくつかの実施態様では、スケーリングされたチャネルに過負荷状態を回避させる利得パラメーターを特定するのではなく、信号が、利得係数によってスケーリングされると、過負荷状態に関連付けられた範囲よりも小さな範囲内になるような利得パラメーターを選択し得ることに留意すべきである。換言すれば、スケーリングされた信号が過負荷状態を回避するだけであるか、又は例えば或るヘッドルームを許容するために、過負荷状態に関連付けられた範囲よりも小さな或る所定の範囲内になるような利得パラメーターを選択してもよい。

いくつかの実施態様では、適応利得制御部２０６は、先行フレーム（例えば、第ｊ－１フレーム）に関連付けられた利得パラメーターｅ（ｊ－１）と現フレームの利得パラメーターｅ（ｊ）との間で遷移する利得遷移関数を求め得る。いくつかの実施態様では、利得遷移関数は、利得パラメーターを、第ｊ－１フレームにおける利得パラメーター（例えば、ｅ（ｊ－１））の値から現フレームの利得パラメーター（例えば、ｅ（ｊ））の値へ第ｊフレームのサンプルにわたって滑らかに遷移させ得る。したがって、利得遷移関数は、２つの部分、すなわち、１）過渡部分と、２）定常状態部分とを含み得る。過渡部分は、利得パラメーターが、先行フレームの利得パラメーターから現フレームの利得パラメーターへ遷移部分のサンプルにわたって遷移していく部分であり、定常状態部分は、利得パラメーターが、当該定常状態部分のサンプルについて現フレームの利得パラメーターの値を有する部分である。

いくつかの実施形態において、現フレームに適用される利得が先行フレームに適用された利得よりも小さい場合には、減衰量が現フレームのサンプルにわたって増加するので、過渡部分は、「フェード（fade）」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が先行フレームに適用された利得よりも小さい場合は、ｅ（ｊ）＞ｅ（ｊ－１）と表すことができる。いくつかの実施形態において、現フレームに適用される利得が先行フレームに適用された利得よりも大きい場合には、減衰量が現フレームのサンプルにわたって減少するので、過渡部分は、「逆フェード（reverse fade）」、又は「アンフェード（un-fade）」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が先行フレームに適用された利得よりも大きい場合は、ｅ（ｊ）＜ｅ（ｊ－１）と表すことができる。いくつかの実施形態において、現フレームに適用される利得が現フレームに適用される利得と同じである場合には、過渡部分は、当該過渡部分が過渡的でなく、むしろ定常状態部分と同じ値を有する「ホールド（hold）」の過渡タイプを有すると呼ぶことができる。現フレームに適用される利得が現フレームに適用される利得と同じである場合は、ｅ（ｊ）＝ｅ（ｊ－１）と表すことができる。

いくつかの実施形態において、利得遷移関数の過渡部分は、利得遷移関数の過渡部のプロトタイプ形状を使用して求め得る。ここで、このプロトタイプ形状は、現フレームの利得パラメーターと先行フレームの利得パラメーターとの間の差に基づいてスケーリングされたものである。例えば、プロトタイプ形状は、ｅ（ｊ）－ｅ（ｊ－１）に基づいてスケーリングされ得る。例えば、プロトタイプ関数ｐは、１）ｐ（０）＝１（例えば、０ｄＢ）と、２）ｐ（ｌ_ｅｎｄ）＝０．５（例えば、－６ｄＢ）との特性を有し得る。ここで、ｌ_ｅｎｄは、ｐが定義される右端のインデックスを表す。この例を続けると、そのようなプロトタイプ関数ｐを利用する利得遷移関数は、以下の式として表すことができる。

利得遷移関数の例であって、各例が「フェード」の過渡タイプを有する過渡部分を有する例が図３Ａに示されている。図３Ａに示す例では、各利得遷移関数は、０ｄＢの利得を有する現フレームの先頭に対応し得るサンプル０から開始する過渡部分を有する。ここで、０ｄＢは、先行フレーム（例えば、第ｊ－１フレーム）の利得パラメーターである。図３Ａに示す例では、各利得遷移関数の過渡部分は、利得遷移関数の定常状態部分に向かって約３８４個のサンプルにわたって変化する。図３Ａに示す３つの利得遷移関数のそれぞれについて、定常状態部分は、先行フレームの利得に対してそれぞれ６ｄＢ、１２ｄＢ、及び１８ｄＢの利得の増加を伴う第ｊフレームの異なる利得パラメーターに対応する。換言すれば、図３Ａに示すように、３つの利得遷移関数について、それぞれｅｘｐ＝－［ｅ（ｊ）－ｅ（ｊ－１）］＝－１、－２、及び－３である。図３Ａに示す利得遷移関数のそれぞれについて、過渡部分は、同じ長さ（例えば、約３８４サンプル）であることに留意すべきである。定常状態部分の長さは、コーデックによって導入される遅延、例えば、図３Ａに示す例では１２ミリ秒に関係するオフセットに対応し得ることに留意されたい。それに対応して、過渡部分の長さは、このオフセットの逆数に関係し得る。図３Ａに示す例では、過渡部分の長さは、フレーム長（例えば、２０ミリ秒）からコーデック遅延（例えば、１２ミリ秒）を引いたものである。コーデック遅延は、フレームサイズ遅延を除く総合的なコーダーのアルゴリズム的遅延であり得ることに留意されたい。

また、「逆フェード」又は「アンフェード」の過渡タイプの過渡部分を有する利得遷移関数は、図３Ａに示す利得遷移関数の水平線にわたって反転された鏡像として表すことができることに留意すべきである。例として、水平線はｘ軸であってもよい。

図２を再び参照すると、デコーダー２１２は、符号化されたビットストリームを入力として受信することができ、ＨＯＡ信号を、例えばレンダリング用に復元することができる。いくつかの実施形態において、コアデコーダー２１６は、利得がエンコーダー２０２によって適用されたＭ個のダウンミックスされたチャネルを受信し、Ｍ個のダウンミックスされたチャネルを逆利得制御部２２０に提供する。逆利得制御部２２０は、エンコーダー２０２によって適用された利得パラメーターをサイド情報２１０から取得する。例えば、いくつかの実施態様では、逆利得制御部２２０は、エンコーダー２０２によって適用された利得パラメーターｅ（ｊ）をサイド情報２１０から取り出してもよい。また、逆利得制御ブロック２２０は、エンコーダーによって先行フレーム、例えばｅ（ｊ－１）に適用された利得パラメーターを例えばメモリから取り出してもよい。逆利得制御ブロック２２０は、その後、取得された利得パラメーターを使用して、エンコーダー２０２によって適用された利得を反転してもよい。例えば、いくつかの実施態様では、逆利得制御部２２０は、先行フレームの利得パラメーターから現フレームの利得パラメーターに遷移する逆利得遷移関数を構築し得る。いくつかの実施態様では、逆利得遷移関数は、エンコーダー２０２によって適用される利得遷移関数を、中央の垂直線にわたってミラーリングし、垂直に調整したものであってもよい。例として、垂直線はｙ軸であってもよい。

図３Ｂを参照すると、いくつかの実施態様による、図３Ａに示す利得遷移関数がエンコーダーによって適用されることに応答してデコーダーによって適用される逆利得遷移関数の一例が示されている。図示するように、逆利得遷移関数は、定常状態部分及び過渡部分を有する。逆利得遷移関数の定常状態部分の継続時間及び過渡部分の継続時間は、図３Ａ及び図３Ｂに示すように、利得遷移関数の対応する定常状態部分及び過渡部分の継続時間に対応してもよく、例えば、それらと同じであってもよい。図示するように、図３Ｂに示す各逆利得遷移関数は、０ｄＢから開始し、現在の第ｊフレームに適用される逆利得に向けて遷移する。すなわち、各逆利得遷移関数は、先行フレームｊ－１に適用された逆利得に対応する０ｄＢから開始する。エンコーダーによって適用される利得が、図３Ａの利得遷移関数に示すような０ｄＢ未満の利得を用いて示される減衰に対応する場合には、デコーダーによって適用される逆利得は、図３Ｂの利得遷移関数に示すような０ｄＢよりも大きな利得を有する増幅に対応することに留意すべきである。逆に、エンコーダーによって適用される利得が、例えば、０ｄＢよりも大きな利得を有する増幅に対応する場合には、デコーダーによって適用される逆利得は、例えば、０ｄＢ未満の利得を有する減衰に対応する。

図２を再び参照すると、逆利得が適用された後、逆利得が適用されたＭ個のダウンミックスチャネルは、空間復号ブロック２２２に提供される。空間復号ブロック２２２は、サイド情報２１０を使用してＨＯＡ信号を復元し得る。例えば、空間符号化ブロック２０４がＳＰＡＲ技法を空間符号化に利用する場合には、空間復号ブロック２２２は、ＳＰＡＲ技法を利用して、サイド情報２１０に含まれるメタデータを使用して符号化された１つ以上のチャネルを復元してもよい。復元されたＨＯＡ出力は、その後、レンダリング／再生ブロック２２４によってレンダリングされ得る。例えば、レンダリング／再生ブロック２２４は、復元されたＨＯＡ出力を、例えば、レンダリングされたオーディオデータとしてレンダリングする様々なアルゴリズムを含み得る。例えば、復元されたＨＯＡ出力をレンダリングすることは、ＨＯＡ出力の１つ以上の信号を複数のスピーカーにわたって分配して、特定の知覚的印象を実現することを含み得る。任意選択で、レンダリング／再生ブロック２２４は、レンダリングされたオーディオデータを提示する１つ以上のラウドスピーカー、ヘッドホン等を含んでもよい。

いくつかの実施態様では、デコーダーは、例えば、セルラー伝送中に発生し得るか、又は他のエラーを起こしやすい環境に関連して発生し得るフレームのドロップ又は喪失から回復する様々な技法を利用し得る。フレームがドロップされておらず、デコーダーが先行フレームに関連して利用される利得パラメーターにアクセスすることができる場合には、デコーダーは、先行フレームに関連付けられた利得パラメーターに基づいて逆利得遷移関数を求めてもよい。一方、フレームがドロップされている場合には、ドロップされたフレームの後の最初に回復されたフレーム（本明細書において「回復フレーム」と一般に呼ばれる）を処理するとき、先行フレーム及び関連付けられた利得パラメーターは欠落しているので、デコーダーは、回復されたフレームに先行するフレームの利得パラメーターにアクセスすることができない。したがって、いくつかの実施態様では、デコーダーは、ドロップされたフレームについて、任意の適したフレーム損失隠蔽技法を使用して代用フレームを復元し得る。デコーダーは、その後、先行して受信されたフレームの利得パラメーターを代用フレームに利用し得る。

図４は、いくつかの実施態様による一連のフレームのエンコーダー利得及び対応するデコーダー利得の一例を示している。図示するように、ドロップされたフレーム４０２（図４では「Ｘ」として示される）には、受信フレーム４０１が先行し、回復フレーム４０３が後続している。エンコーダーは、曲線４０４に示すように、エンコーダー利得Ｇ_Ｅを適用する。特に、Ｇ_Ｅは、受信フレーム４０１については０ｄＢであり、ドロップされたフレーム４０２及び回復フレーム４０３について－１８ｄＢである。コアデコーダー出力レベル曲線４０６によって示されるように、ドロップされたフレーム４０２は、代用フレームを生成するフレーム損失隠蔽技法を使用して復元される。代用フレームは、４０８に示すように、先行フレームのデコーダー利得、例えば受信フレーム４０１の利得、すなわち０ｄＢに対応するコーダーデコーダー出力レベルを有し得る。それに対応して、デコーダー利得曲線４１０によって示されるように、代用フレームは、４１２に示すように、先行フレーム、例えば受信フレーム４０１のデコーダー利得と同等のデコーダー利得Ｇ^＊を有する。

同様のプロセスは、ドロップされたフレーム４１４についても起こり得る。この場合、ドロップされたフレーム４１４のエンコーダー利得Ｇ_Ｅは０ｄＢであるのに対して、先行受信フレーム４１３のエンコーダー利得は－１８ｄＢである。換言すれば、ドロップされたフレーム４１４は、－１８ｄＢから０ｄＢへの利得遷移中に発生する。したがって、フレーム損失隠蔽技法を使用すると、コアデコーダー出力レベルは、代用フレームについて－１８ｄＢの利得を復元する。代用フレームの復元された利得は、４１６に示すように、先行受信フレーム４１３の－１８ｄＢのエンコーダー利得に対応する。それに対応して、代用フレームのデコーダー利得は、４１８に示すように、先行受信フレーム４１３のデコーダー利得、すなわち１８ｄＢとして設定され得る。ドロップされたフレーム４２０のエンコーダー利得が先行フレーム４１９のものと同じであるドロップされたフレーム４２０について、ドロップされたフレーム４２０に対応する代用フレームのデコーダー利得を設定することによって、先行フレーム４１９とドロップされたフレーム４２０との間の利得の変化がないので、デコーダー利得の不連続性がなくなることに留意されたい。

また、相対出力利得曲線４２２に示すように、代用フレームのデコーダー利得を先行して受信されたフレームのデコーダー利得と等しくなるように設定する技法を利用することによって、フレーム間に変動がないことを示す、全体として０ｄＢの相対出力利得を得ることができることに留意すべきであり、これは、フレームにわたる出力利得の変化に起因する知覚的不連続性の削減に望ましいものであり得る。

いくつかの実施態様では、デコーダーは、先行して受信されたフレームの利得パラメーターから回復フレームの利得パラメーターに遷移する平滑化技法を実行して、例えば、利得パラメーターが受信されなかった代用フレームを平滑化し得る。

いくつかの実施態様では、平滑化技法は、デコーダーが、サンプルをブレンドする初期部分の間では増加された重みを代用フレームに与えるとともに、サンプルをブレンドする後続部分の間では増加された重みを回復フレームに与えるように、代用フレームと回復フレームとをブレンドすることを含み得る。

別の例として、いくつかの実施態様では、平滑化技法は、喪失フレームの利得を考慮するために回復フレームを復号する前にデコーダー状態メモリを調整することを含み得る。より詳細な例として、回復されたフレームの利得が過度に高いと判断された場合には、回復フレームが適切に低下されたデコーダー状態メモリを用いて復号されるように、デコーダー状態メモリを下方に調整してもよい。換言すれば、先行フレームの復元されたデコーダー利得Ｇ^＊が回復フレームのデコーダー利得Ｇ未満であるとの判断に応答して、デコーダー状態メモリを下方にスケーリングしてもよい。逆に、回復されたフレームの利得が過度に低いと判断された場合には、回復フレームが適切に増加されたデコーダー状態メモリを用いて復号されるように、デコーダー状態メモリを上方に調整してもよい。換言すれば、先行フレームの復元されたデコーダー利得Ｇ^＊が回復フレームのデコーダー利得Ｇよりも大きいとの判断に応答して、デコーダー状態メモリを上方にスケーリングしてもよい。したがって、回復フレームのデコーダー利得Ｇは、復元されたデコーダー利得Ｇ^＊に基づいて調整され得る。復元されたデコーダー利得Ｇ^＊は、ドロップされたフレームに先行していたフレーム、例えば、図４のフレーム４０１の利得に基づいて求め得るので、回復フレームのデコーダー利得Ｇは、ドロップされたフレームに先行していたフレームのデコーダー利得に少なくとも部分的に基づいて調整し得ることに留意されたい。

更に別の例として、いくつかの実施態様では、平滑化技法は、先行して受信されたフレームと回復フレームとの間に平滑化関数を適用することを含み得る。そのような平滑化関数は、デコーダーによって実施及び利用される平滑化関数に対応してもよく、それによって、追加のオーバーヘッドなしで平滑化を実行することが可能になる。或いは、いくつかの実施態様では、平滑化関数は、ドロップされたフレームの場合に利用される専用平滑化関数であり得る。そのような実施態様では、平滑化関数は、秒、ブロック、又はフレーム数によって示され得るパケット損失の継続時間に依存してもよく、これは、複数の連続したフレームがドロップされた場合に有利であり得る。

図５は、いくつかの実施態様による、利得パラメーターを求め、求められた利得パラメーターに従って利得をダウンミックスされた信号に適用するプロセス５００の一例を示している。いくつかの実施態様では、プロセス５００のブロックは、エンコーダーデバイスによって実行し得る。いくつかの実施態様では、プロセス５００のブロックは、図５に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス５００の２つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス５００の１つ以上のブロックは省略し得る。

５０２において、プロセス５００は、符号化されるオーディオ信号のフレームに関連付けられているダウンミックスされた信号を求め得る。例えば、いくつかの実施態様では、プロセス５００は、任意の適した空間符号化技法を使用して、一組のダウンミックスされたチャネルを求め得る。空間符号化技法の例には、ＳＰＡＲ、線形予測技法等が含まれる。一組のダウンミックスされたチャネルは、１～Ｎの任意の数のチャネルを含んでもよく、ここで、Ｎは、入力チャネルの数であり、例えば、ＦＯＡ信号の場合、Ｎは４である。ダウンミックスされた信号は、オーディオ信号の特定のフレームのダウンミックスされたチャネルに対応するオーディオ信号を含んでもよい。いくつかの実施態様では、プロセス５００は、ダウンミックスされた信号を求めるのでなく、「トランスポート信号」を求め得ることに留意すべきである。そのようなトランスポート信号は、必ずしもダウンミックスされるとは限らない符号化される信号を指し得る。

５０４において、プロセス５００は、拡張音声サービス（ＥＶＳ：Enhanced Voice Services）コーデック及び／又は他の任意の適したコーデック等のコーデックの過負荷状態が存在するか否かを判断し得る。例えば、プロセス５００は、少なくとも１つのダウンミックスチャネルの信号が所定の範囲、例えば、［－１，１）、及び／又は他の任意の適した範囲を超えているとの判断に応答して、過負荷状態が存在すると判断してもよい。

５０４において、過負荷状態が存在しないと判断された場合には（５０４において「ｎｏ」）、プロセス５００は、５１２に進むことができ、ダウンミックスされた信号を符号化することができる。例えば、いくつかの実施態様では、プロセス５００は、メタデータ等のサイド情報に関して、ダウンミックスされた信号を符号化するビットストリームを生成することができる。このサイド情報は、デコーダーがダウンミックスされた信号をアップミックスして、例えば、ＦＯＡ出力又はＨＯＡ出力を復元するのに利用することができる。

逆に、５０４において、過負荷状態が存在すると判断された場合には（５０４において「ｙｅｓ」）、プロセス５００は、５０６に進むことができ、過負荷状態の回避をもたらすフレームの利得パラメーターを求めることができる。例えば、いくつかの実施態様では、プロセス５００は、ダウンミックスされたチャネルのダウンミックスされた信号を、利得パラメーターに基づいて求められた利得係数によってスケーリングしたときに、ダウンミックスされた信号が所定の範囲内、例えば［－１，１）内になるような最小の正の整数を求めることによって利得パラメーターを求め得る。例えば、図２に関して上述したように、利得パラメーターは、現フレーム（ｊ）の正の整数（０を含む）ｅ（ｊ）として表すことができ、ここで、ダウンミックスされた信号に利得係数２^{－ｅ（ｊ）}を適用すると、ダウンミックスされた信号は所定の範囲内になる。

５０８において、プロセス５００は、ブロック５０６において求められた現フレーム（例えば、フレームｊ）の利得パラメーターと、先行フレーム（例えば、フレームｊ－１）の利得パラメーターとに基づいて利得遷移関数を求めることができる。例えば、図２に関して上述したように、利得遷移関数は、過渡部分及び定常状態部分を有してもよく、定常状態部分は、現フレームの利得係数に対応し、過渡部分は、先行フレームの終端の利得係数から現フレームの定常状態部分の利得係数に遷移する現フレームのサンプルのサブセットの一続きの中間利得係数に対応する。

先行フレームの利得パラメーターが、現フレームの利得パラメーターよりも少ない減衰に対応する場合には、過渡部分は、「フェード」の過渡タイプを有するということができる。逆に、先行フレームの利得パラメーターが、現フレームの利得パラメーターよりも多くの減衰に対応する場合には、過渡部分は、「逆フェード」又は「アンフェード」の過渡タイプを有するということができる。先行フレームの利得パラメーターが、現フレームの利得パラメーターと同じである場合には、過渡部分は、「ホールド」の過渡タイプを有するということができる。過渡部分が「ホールド」の過渡タイプを有する場合には、過渡部分の間の利得遷移関数の値は、定常状態部分の間の利得遷移関数の値と同じものであってもよい。いくつかの実施態様では、利得遷移関数の過渡部分は、先行フレーム及び／又は現フレームの利得パラメーターに基づいてプロトタイプ関数をスケーリングすることによって求め得る。図２に関して上述したように、利得遷移関数の過渡部分の継続時間は、コーデックによって利用される遅延継続時間に対応し得る。

５１０において、プロセス５００は、フレームに関連付けられているダウンミックスされた信号に利得遷移関数を適用し得る。例えば、いくつかの実施態様では、プロセス５００は、ダウンミックスされた信号のサンプルを、利得遷移関数によって示される利得係数によってスケーリングし得る。より詳細な例として、いくつかの実施態様では、現フレームの最初のサンプルは、先行フレームの利得パラメーターに対応する利得係数によってスケーリングされ、現フレームの最後のサンプルは、現フレームの利得パラメーターに対応する利得係数によってスケーリングされ、間にあるサンプルは、利得遷移関数の過渡部分又は定常状態部分の利得パラメーターに対応する利得係数によってスケーリングされてもよい。例えば、ブロック５０２に関して上述したように、プロセス５００がトランスポート信号に適用される場合には、プロセス５００は、利得遷移関数をトランスポート信号に適用し得ることに留意されたい。

いくつかの実施態様では、利得遷移関数は、過負荷状態がブロック５０４において検出されたダウンミックスチャネルのダウンミックスされた信号にのみ適用し得ることに留意すべきである。例えば、過負荷状態がＹ’チャネル及びＸ’チャネルについて検出された場合には、Ｙ’チャネル及びＸ’チャネルのそれぞれについて別々の利得遷移関数を求め、Ｙ’チャネル及びＸ’チャネルの信号に適用してもよい。この例を続けると、利得遷移関数は、Ｗ’チャネル及びＺ’チャネルに適用されない場合がある。そのような場合には、利得遷移関数が適用されるチャネルと、各チャネルの対応する利得パラメーターとの表示は、例えば、ブロック５１２において符号化され得る。或いは、いくつかの実施態様では、過負荷状態が１つのダウンミックスチャネルについてのみ存在する場合には、対応する利得遷移関数は、全てのダウンミックスチャネルに適用し得る。そのような場合には、利得遷移関数は全てのチャネルに適用されるので、利得が適用されたチャネルの表示を送信する必要はなく、これによって、ビットレート効率を高め得る。

５１２において、プロセス５００は、ダウンミックスされた信号と、利得が適用された場合には、フレームの利得パラメーター（複数の場合もある）を示す情報とを符号化することができる。利得が適用された場合には、符号化されているダウンミックスされた信号は、ブロック５１０における利得遷移関数の適用後のダウンミックスされた信号であってもよい。ダウンミックスされた信号及び利得パラメーターを示す任意の情報は、ダウンミックスされた信号を復元又はアップミックスするためにデコーダーによって使用され得るメタデータ等の任意のサイド情報に関して、ＥＶＳコーデック等のコーデックによって符号化されてもよい。プロセス５００が、例えば、ブロック５０２に関して上述したように、トランスポート信号を利用する場合には、プロセス５００はトランスポート信号を符号化し得ることに留意されたい。

いくつかの実施態様では、プロセス５００は、利得パラメーターを一組のビットによって符号化することができることに留意すべきである。いくつかの実施態様では、追加のビットを、例えば、遷移関数を示す例外フラグとして使用し得る。いくつかの実施態様では、利得遷移関数は、利得遷移関数の過渡部分に関連付けられたプロトタイプ関数を示し得る。いくつかの実施態様では、利得遷移関数は、突発的な比較的大きなレベル変化がフレーム間で発生し、その結果、滑らかな遷移を利得制御によって実施することができない場合に起こるハード遷移、例えばステップ関数を示し得る。例外フラグを使用してそのような例外を設定することによって、デコーダーは、ハード遷移を実施し得る。利得パラメーターは、ｘ個のビットを使用して符号化されてもよく、ｘは、現フレームの利得パラメーターの量子化された値の数、例えば、ｅ（ｊ）の量子化された値の数に依存する。例えば、ｘは、ｃｅｉｌ（ｌｏｇ_２（利得パラメーターの量子化された値の数）によって求め得る。１つの例では、ｅ（ｊ）が０、１、２、及び３の値を取り得る場合、ｘは２ビットである。

一意の利得遷移関数が、過負荷状態をトリガーする信号に関連付けられた各ダウンミックスチャネルに適用されるように、適応利得制御がチャネルごとに有効にされる場合には、利得制御が有効にされるチャネルごとにｘ個のビットが利用されてもよく、この場合チャネルごとの追加の１ビットインジケーターは、利得パラメーターが符号化されていることを示す。そのような場合には、利得制御情報を送信するのに使用される総ビット数はＮ_ｄｍｘ＋（ｘ＋１）＊Ｎである。ここで、Ｎ_ｄｍｘは、ダウンミックスチャネルの数を表し（単一のビットが、Ｎ_ｄｍｘ個のチャネルのそれぞれについて、利得制御が有効にされるか否かを示すのに利用される）、Ｎは、利得制御が有効にされているチャネルの数を表す。利得制御が特定のフレームについて有効にされない場合には、例えば、Ｎ_ｄｍｘ個のチャネルのそれぞれについて１ビットのＮ_ｄｍｘ個のビットを、利得制御が有効にされないことを示すのに使用し得ることに留意すべきである。ダウンミックスチャネルの数が１である場合、例えば、Ｗチャネルのみが波形符号化される場合には、利得制御情報を送信するのに使用される総ビット数は、（ｘ＋１）*Ｎによって表されることに留意されたい。例えば、１つのダウンミックスチャネルを仮定し、利得制御がこの１つのダウンミックスチャネルについて有効にされない場合には（例えば、Ｎ＝０）、使用されるビット数は０である。この例を続けると、利得制御が有効にされる場合には（例えば、Ｎ＝１）、使用されるビット数はｘ＋１である。項「ｘ＋１」において、１は、１ビットの例外フラグ（例えば、以下でより詳細に説明するように、連続するフレーム間を遷移するためにステップ関数等のハード遷移が実施されることを示すのに使用され得る）を表すことに留意されたい。

過負荷状態をトリガーするダウンミックスチャネルに関連付けられた単一の利得遷移関数が全てのダウンミックスチャネルに適用される場合には、より少ないビットを利得制御情報の送信に使用し得る。例えば、現フレームの単一の利得パラメーターは、例えば遷移関数を示す例外フラグに関してｘ個のビットを使用して送信される。より詳細な例として、そのような実施態様では、利得制御情報を送信するためにフレームに使用される総ビット数は、ｘ＋１によって表される。

いくつかの実施態様では、プロセス５００は、通常、ＨＯＡ信号を復元するのに利用されるメタデータ等のサイド情報の送信に配分されるビットから、及び／又は、通常、ダウンミックスされたチャネルを符号化するために配分されるビットから、フレームの利得制御情報を送信するのに使用されるビットを配分し得る。利得制御ビットを配分する例示の技法は、図７及び図８に図示され、図７及び図８に関して以下で説明される。

図６は、いくつかの実施態様による、エンコーダーによって利用される利得パラメーターを取得し、取得された利得パラメーターに基づいて逆利得遷移関数を適用するプロセス６００の一例を示している。いくつかの実施態様では、プロセス６００のブロックは、デコーダーデバイスによって実行し得る。いくつかの実施態様では、プロセス６００のブロックは、図６に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス６００の２つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス６００の１つ以上のブロックは省略され得る。

プロセス６００は、オーディオ信号の符号化されたフレームを受信することによって６０２から開始し得る。受信フレーム（例えば、現フレーム）は、本明細書において第ｊフレームと一般に呼ばれる。受信フレームは、先行して受信されたフレームの直後のフレームである場合もあるし、先行して受信されたフレームの直後でないフレームである場合もある。

６０４において、プロセス６００は、オーディオ信号の符号化されたフレームを復号して、ダウンミックスされた信号と、利得制御がエンコーダーによって適用された場合には、フレームに関連付けられた少なくとも１つの利得パラメーターを示す情報とを取得することができる。いくつかの実施態様では、プロセス６００は、利得制御がエンコーダーによって適用されたか否かを、ハード遷移、例えばステップ関数遷移が実施されるか否かを示す例外フラグ、例えば１ビット例外フラグに基づいて判断し得る。換言すれば、例外フラグがセットされていない場合には、デコーダーは、滑らかな遷移が、連続するフレーム間で行われると判断し得る。エンコーダーがチャネル単位で利得制御を適用する場合には、プロセス６００は、利得制御がどのダウンミックスチャネルに適用されたのかを更に特定し得る。

６０６において、プロセス６００は、現フレーム（本明細書においてｅ（ｊ）として一般に参照される）の利得パラメーターと、先行フレーム（例えば、本明細書においてｅ（ｊ－１）として一般に参照される）の利得パラメーターとに基づいて逆利得遷移関数を求め得る。いくつかの実施態様では、プロセス６００は、先行フレームの利得パラメーターを、メモリ、例えばデコーダー状態メモリから取り出してもよい。利得制御が先行フレームに適用されなかった場合には、プロセス６００は、ｅ（ｊ－１）を０に設定してもよい。

いくつかの実施態様では、プロセス６００は、エンコーダーにおいて適用された利得遷移関数の逆関数となるように逆利得遷移関数を求め得る。例えば、逆利得遷移関数は、利得遷移関数を水平線にわたってミラーリングして調整したものに対応してもよい。ミラーリング及び調整は、ｘ軸に沿っていてもよい。そのような逆利得遷移関数の一例は、図３Ｂに図示され、図３Ｂに関して上述されている。いくつかの実施態様では、逆利得遷移関数は、先行フレームに適用された利得（その場合、利得は先行フレームの利得パラメーターに基づいて求められる。又は、利得制御が先行フレームに適用されなかった場合には、利得は０に設定される）に対応する定常状態部分を有し得る。逆利得遷移関数は、同時に、エンコーダーにおいて適用された利得遷移関数の過渡部分を反転したものである過渡部分を有し得る。例えば、現フレームに適用される利得が、先行フレームに対してより多くの減衰に対応する場合には、逆利得遷移関数は、より少ない増幅からより多くの増幅に遷移する過渡部分を有し得る。逆に、現フレームに適用される利得が、先行フレームに対してより少ない減衰に対応する場合には、逆利得遷移関数は、より多くの増幅からより少ない増幅に遷移する過渡部分を有し得る。過渡部分の継続時間は、コーデックによって導入される遅延に関係してもよく、この場合、過渡部分の継続時間は、フレーム長（例えば、２０ミリ秒）からコーデック遅延（例えば、１２ミリ秒）を引いたものである。コーデックによって導入される遅延がフレーム長よりも長い場合には、逆利得遷移は、１つのフレームの遅延を用いて適用し得ることに留意されたい。いくつかの場合には、遅延は、利得制御ビットからプロセス６００によって（例えば、デコーダーによって）取得され得る。逆利得遷移関数は、エンコーダーの利得制御によって増幅された信号を減衰させるように機能することもできることに留意すべきである。

６０８において、プロセス６００は、逆利得遷移関数をダウンミックスされた信号に適用して、エンコーダーによって適用された利得を反転し得る。例えば、逆利得遷移関数の適用は、エンコーダーによって減衰されているダウンミックスされた信号を増幅して、減衰を反転し得る。別の例として、逆利得遷移関数の適用は、エンコーダーによって増幅されているダウンミックスされた信号を減衰して、増幅を反転し得る。

６１０において、プロセス６００は、ダウンミックスされた信号をアップミックスし得る。アップミックスは、空間エンコーダーによって行われ得る。いくつかの例では、空間エンコーダーは、ＳＰＡＲ技法を利用し得る。アップミックスされた信号は、復元されたＦＯＡオーディオ信号又はＨＯＡオーディオ信号に対応し得る。いくつかの実施態様では、プロセス６００は、ビットストリームに符号化されたサイド情報、例えばメタデータを使用して信号をアップミックスしてもよく、この場合、サイド情報は、パラメトリックに符号化された信号を復元するのに利用され得る。

いくつかの実施態様では、６１２において、プロセス６００は、アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成し得る。いくつかの実施態様では、プロセス６００は、任意の適したレンダリングアルゴリズムを利用して、ＦＯＡオーディオ信号又はＨＯＡオーディオ信号を、例えば、レンダリングされたシーンベースのオーディオデータにレンダリングし得る。いくつかの実施態様では、レンダリングされたオーディオデータは、例えば、その後の提示又は再生のために、任意の適したフォーマットで記憶され得る。いくつかの実施態様では、ブロック６１２は省略し得ることに留意すべきである。

いくつかの実施態様では、６１４において、プロセス６００は、レンダリングされたオーディオデータを再生させ得る。例えば、いくつかの実施態様では、レンダリングされたオーディオデータは、ラウドスピーカー及び／又はヘッドホンのうちの１つ以上を介して提示され得る。いくつかの実施態様では、複数のラウドスピーカーを利用してもよく、これらの複数のラウドスピーカーは、３つの次元において互いに対して任意の適した位置又は向きに位置決めされ得る。いくつかの実施態様では、プロセス６１４は省略し得ることに留意すべきである。

図５に関して上述したように、利得制御情報、例えば、利得パラメーターを示す情報は、一組の利得制御ビットを使用して符号化され得る。いくつかの実施態様では、過負荷状態が検出されるダウンミックスチャネルごとに異なる利得パラメーター及び利得遷移関数が求められ得る。そのような実施態様では、図５に関して上述したように、利得制御がダウンミックスチャネルのそれぞれに適用されているか否かを示すのに利得制御ビットが必要とされ、利得パラメーターが、利得制御が適用されるダウンミックスチャネルのそれぞれについて符号化される。或いは、いくつかの実施態様では、過負荷状態が存在する１つのダウンミックスチャネルに基づいて求められる単一の利得遷移関数をダウンミックスチャネルの全てに適用し得る。そのような実施態様では、利得制御がダウンミックスチャネルごとに適用されているか否かを示すのに、個別のビットフラグは必要とされないので、必要とされる利得制御ビットは少なくなり、したがって、より高いビットレート効率の符号化が得られる。

過負荷状態が存在しないダウンミックスチャネルを含めて全てのダウンミックスチャネルに同じ利得遷移関数を適用することによって符号化のビットレート効率をより高くすることは、例えば、コーデックの過負荷が存在しない信号を減衰させることによって、知覚的品質の劣化をもたらす場合がある。対照的に、利得制御が各ダウンミックスチャネルに的を絞った方法で適用される、より的を絞った利得制御を利用すると、利得制御情報を送信するのにより多くのビットが必要とされる場合がある。一方、追加のビットを利用して、的を絞った利得制御情報、例えばチャネル固有の利得制御情報を送信するには、通常、ダウンミックスチャネルを波形符号化するのに使用されるビットの再配分が必要とされる場合があり、これは、いくつかの場合には知覚的品質を低下させる場合がある。したがって、同じ利得遷移関数を全てのダウンミックスチャネルに適用することと、チャネル固有の利得制御を適用することとの間に、状況に応じたトレードオフが存在し得る。利得制御が全てのダウンミックスチャネルにわたって適用されるのか、又は、的を絞ったチャネル単位で適用されるのかにかかわらず、利得制御情報に関連付けられたビットは、通常、ダウンミックスチャネルの波形符号化に使用されるビットから、及び／又は、通常、ＦＯＡ信号又はＨＯＡ信号をダウンミックスチャネルから復元するのに使用されるメタデータ等のサイド情報の符号化に使用されるビットから配分されてもよく、それによって、ダウンミックスチャネル又はサイド情報のいずれかを符号化するための利用可能なビットの数が削減される。

以下では、利得制御情報を符号化するためのビット分配のより詳細な技法が説明される。背景を提供するために、図７Ａは、図２～図６に関して上述した適応利得制御技法を利用するＳＰＡＲ技法を使用してオーディオ信号を符号化及び復号するＦＯＡコーデックを記載している。図７Ａは、ＳＰＡＲ技法を空間符号化に利用することを記載しているが、図７Ａ及び図８に関して説明される技法は、任意の適した空間符号化技法に関して利用し得ることに留意すべきである。図８は、いくつかの実施形態による、利得制御情報を符号化するのに使用されるビットを配分する一例示のプロセス８００のフローチャートを示している。

図７Ａは、いくつかの実施態様による、ＦＯＡをＳＰＡＲフォーマットで符号化及び復号するＦＯＡコーデック７００のブロック図である。ＦＯＡコーデック７００は、ＳＰＡＲエンコーダー７０１と、コアエンコーダー７０５と、適応利得制御（ＡＧＣ：Adaptive Gain Control）エンコーダー７１３と、ＳＰＡＲデコーダー７０６と、コアデコーダー７０７と、ＡＧＣデコーダー７１４とを含む。いくつかの実施態様では、ＳＰＡＲエンコーダー７０１は、ＦＯＡ入力信号を、ＳＰＡＲデコーダー７０６において入力信号を再生成するのに使用される一組のダウンミックスチャネル及びパラメーターに変換する。ダウンミックス信号は、１チャネル～４チャネルに変化することができ、パラメーターは、予測係数（ＰＲ）と、交差予測係数（Ｃ）と、無相関係数（Ｐ）とを含み得る。ＳＰＡＲを利用し、ＰＲパラメーターと、Ｃパラメーターと、Ｐパラメーターとを使用してオーディオ信号のダウンミックスしたものからオーディオ信号を復元するより詳細な技法は、以下で更に詳細に説明される。

図７Ａに示す例示の実施態様は、Ｗ（受動的予測（passive prediction））チャネル又はＷ’（能動的予測（active prediction））チャネルが単一の予測されたチャネルＹ’とともにＳＰＡＲデコーダー７０６に送信される公称２チャネルダウンミックスを示していることに留意されたい。いくつかの実施態様では、Ｗ’は、アクティブチャネルとすることができる。アクティブＷ’ダウンミックスチャネルは、混合利得に基づいてＸチャネル、Ｙチャネル、及びＺチャネルをＷチャネルに混合することによって構築され得る。１つの例では、Ｗチャネルの能動的予測は、以下の式を使用して求め得る。

上記式において、ｆは、Ｘチャネル、Ｙチャネル、ＺチャネルのうちのいくつかをＷチャネルに混合することを可能にする正規化された入力共分散の関数を表し、ｐｒ_Ｙ、ｐｒ_Ｘ、ｐｒ_Ｚは予測係数を表す。いくつかの実施態様では、ｆは、定数、例えば０．５０とすることもできる。受動的なＷでは、ｆ＝０であり、したがって、Ｘチャネル、Ｙチャネル、ＺチャネルをＷチャネルに混合することは行われない。

交差予測係数（Ｃ）は、少なくとも１つのチャネルが残差として送信され、少なくとも１つのチャネルがパラメトリックに送信される、すなわち、２つ及び３つのチャネルダウンミックス用に送信される場合、パラメトリックチャネルの或る部分を残差チャネルから復元することを可能にする。２つのチャネルダウンミックス（以下で更に詳細に説明する）の場合、以下で更に詳細に説明するように、Ｃ係数は、Ｘチャネル及びＺチャネルのうちのいくつかをＹ’から復元することを可能にし、ＰＲパラメーター及びＣパラメーターから復元することができない残りの信号成分は、Ｗチャネルの無相関化したものによって復元される。３つのチャネルダウンミックスの場合には、Ｙ’及びＸ’が、Ｚだけを復元するのに使用される。

いくつかの実施態様では、ＳＰＡＲエンコーダー７０１は、受動／能動予測器ユニット７０２と、再混合ユニット７０３と、抽出／ダウンミックス選択ユニット７０４とを含む。いくつかの実施態様では、受動／能動予測器は、４チャネルＢフォーマット（Ｗ、Ｙ、Ｚ、Ｘ）のＦＯＡチャネルを受信し、ダウンミックスチャネル（Ｗ（又はＷ’）、Ｙ’、Ｚ’、Ｘ’の表現）を計算してもよい。

いくつかの実施態様では、抽出／ダウンミックス選択ユニット７０４は、以下でより詳細に説明するように、ＳＰＡＲＦＯＡメタデータをビットストリーム（例えば、没入型音声オーディオサービス（ＩＶＡＳ）ビットストリーム）のメタデータペイロードセクションから抽出する。受動／能動予測器ユニット７０２及び再混合ユニット７０３は、ＳＰＡＲＦＯＡメタデータを使用して、再混合されたＦＯＡチャネル（Ｗ又はＷ’及びＡ'）を生成する。これらのチャネルは、コアエンコーダー７０５に入力され、コア符号化ビットストリーム（例えば、ＥＶＳビットストリーム）に符号化され、このビットストリームは、ＳＰＡＲデコーダー７０６に送信されるＩＶＡＳビットストリーム内にカプセル化される。この例では、アンビソニックＢフォーマットチャネルがＡｍｂｉＸ規則で配置されることに留意されたい。ただし、ファーズ－マラム（ＦｕＭａ：Furse-Malham）規則（Ｗ、Ｘ、Ｙ、Ｚ）等の他の規則も同様に使用することができる。

ＳＰＡＲデコーダー７０６を参照すると、コア符号化ビットストリーム（例えば、ＥＶＳビットストリーム）は、コアデコーダー７０７によって復号され、その結果、Ｎ_ｄｍｘ（例えば、Ｎ_ｄｍｘ＝２）個のダウンミックスチャネルが得られる。いくつかの実施態様では、ＳＰＡＲデコーダー７０６は、ＳＰＡＲエンコーダー７０１によって実行された操作の逆を実行する。例えば、図７Ａの例では、再混合されたＦＯＡチャネル（Ｗ’、Ａ’、Ｂ’、Ｃ’の表現）が、ＳＰＡＲＦＯＡ空間メタデータを使用して２つのダウンミックスチャネルから回復される。再混合されたＳＰＡＲＦＯＡチャネルは、逆混合器７１１に入力され、ＳＰＡＲＦＯＡダウンミックスチャネル（Ｗ'、Ｙ’、Ｚ’、Ｘ’の表現）が回復される。予測されたＳＰＡＲＦＯＡチャネルは、その後、逆予測器７１２に入力され、元の混合されていないＳＰＡＲＦＯＡチャネル（Ｗ、Ｙ、Ｚ、Ｘ）が回復される。

この２チャネルの例では、無相関器ブロック７０９Ａ（ｄｅｃ_１）及び７０９Ｂ（ｄｅｃ_２）が、時間領域無相関器又は周波数領域無相関器を使用してＷ’チャネルの無相関化したものを生成するのに使用されることに留意されたい。ダウンミックスチャネル及び無相関化されたチャネルは、ＳＰＡＲＦＯＡメタデータと組み合わせて使用され、Ｘチャネル及びＺチャネルがパラメトリックに復元される。Ｃブロック７０８は、図７Ａに示すように、残差チャネルと２×１のＣ係数行列との乗算を表し、この乗算は２つの交差予測信号を生成し、これらの２つの交差予測信号は、パラメトリックに復元されたチャネルに加算される。Ｐ_１ブロック７１０Ａ及びＰ_２ブロック７１０Ｂは、図７Ａに示すように、無相関器出力と２×２のＰ係数行列の列との乗算を表し、これらの乗算は４つの出力を生成し、これらの４つの出力は、パラメトリックに復元されたチャネルに加算される。

いくつかの実施態様では、ダウンミックスチャネルの数に応じて、ＦＯＡ入力のうちの１つ（Ｗチャネル）が、ＳＰＡＲデコーダー７０６にそのままの状態で送信され、他のチャネルのうちの１つ～３つ（Ｙ、Ｚ、及び／又はＸ）が、残差として又は完全にパラメトリックにＳＰＡＲデコーダー７０６に送信される。ダウンミックスチャネルの数Ｎ_ｄｍｘにかかわらず同じままであるＰＲ係数は、残差ダウンミックスチャネルにおける予測可能なエネルギーを最小にするのに使用される。Ｃ係数は、完全にパラメーター化されたチャネルを残差から再生成することを更に援助するのに使用される。したがって、Ｃ係数は、予測する残差チャネル又はパラメーター化されたチャネルがない１つ及び４つのチャネルダウンミックスの場合には必要とされない。Ｐ係数は、ＰＲ係数及びＣ係数によって考慮されない残りのエネルギーを埋めるのに使用される。Ｐ係数の数は、周波数帯域内のダウンミックスチャネルの数Ｎに依存する。いくつかの実施態様では、ＳＰＡＲＰＲ係数（受動的Ｗのみ）は、以下の４つのステップを使用して求められる。

ステップ１：サイド信号、例えば、Ｙ、Ｚ、Ｘを、無指向性信号を表すことができる主要なＷ信号から予測することができる。いくつかの実施態様では、サイド信号は、対応する予測されたチャネルに関連付けられている予測されたパラメーターに基づいて予測される。１つの例では、サイド信号Ｙ、Ｚ、及びＸは、以下の式を使用して求め得る。

上記式において、各チャネルの予測パラメーターは、共分散行列に基づいて求め得る。１つの例では、
である。

上記式において、Ｒ_ＡＢは、信号Ａ及びＢの入力共分散行列の要素を表す。いくつかの実施態様では、共分散行列は、周波数帯域ごとに求められ得る。予測パラメーターｐｒ_ｚ及びｐｒ_ｘは、それぞれＺ’残差チャネル及びＸ’残差チャネルについて、同様の方法で求め得ることに留意すべきである。本明細書において使用されるように、ベクトルＰＲは予測係数のベクトルを表すことに留意すべきである。例えば、ベクトルＰＲは、［ｐｒ_ｙ，ｐｒ_ｚ，ｐｒ_ｘ］^Ｔとして求められ得る。

ステップ２：Ｗチャネル並びに予測されたＹ’信号、Ｚ’信号、及びＸ’信号を再混合し得る。本明細書において使用されるように、再混合することは、基準に基づいて信号を並べ替えること又は組み合わせ替えすることを指すことができる。例えば、いくつかの実施態様では、Ｗチャネル並びに予測されたＹ’信号、Ｚ’信号、及びＸ’信号は、音響学的に最も関連のあるものから最も関連のないものに再混合され得る。より詳細な例として、いくつかの実施態様では、これらの信号は、入力信号をＷ、Ｙ’、Ｘ’及びＺ’に並べ替えることによって再混合され得る。なぜならば、左右方向からのオーディオキュー、例えばＹ’信号は、前後方向からのオーディオキュー、例えばＸ’信号よりも音響学的に関連している場合があり、また、前後方向からのオーディオキューは、上下方向からのオーディオキュー、例えばＺ’信号よりも音響学的に関連している場合があるからである。一般に、再混合された信号は、以下の式を使用して求め得る。

上記式において、［ｒｅｍｉｘ］は、信号を並べ替える基準を示す行列を表す。

ステップ３：ダウンミックスチャネルの予測及び再混合の後の４つのチャネルの共分散を求め得る。例えば、予測後及び再混合後の４つのチャネルの共分散行列Ｒ_ｐｒは、以下の式によって求め得る。

上記式を使用すると、共分散行列Ｒ_ｐｒは、以下のフォーマットを有し得る。

上記式において、ｄは、残差チャネル（例えば、ダウンミックスされたチャネルの数がＮ_ｄｍｘによって表される場合、残差チャネルは、２番目のチャネルからＮ_ｄｍｘ番目のチャネルである）を表し、ｕは、デコーダーによって完全に復元されるパラメトリックチャネル（例えば、Ｎ_ｄｍｘ＋１番目のチャネルから４番目のチャネル）を表す。Ａ、Ｂ、及びＣが、再混合されたＸチャネル、Ｙチャネル、及び／又はＺチャネルに対応する、Ｗチャネル、Ａチャネル、Ｂチャネル、及びＣチャネルの命名規則が与えられると、以下の表は、Ｎ_ｄｍｘの値を変化させた場合のｄチャネル及びｕチャネルを示している。

いくつかの実施態様では、Ｒ_ｐｒ共分散行列（上述）のＲ_ｄｄ要素、Ｒ_ｕｄ要素、及びＲ_ｕｕ要素を利用すると、ＦＯＡコーデックは、完全パラメトリックチャネルの一部分をデコーダーに送信された残差チャネルから交差予測し得るか否かを判断してもよい。例えば、いくつかの実施態様では、交差予測係数Ｃは、共分散行列のＲ_ｄｄ要素、Ｒ_ｕｄ要素、及びＲ_ｕｕ要素に基づいて求められ得る。１つの例では、交差予測係数Ｃは、以下の式によって求め得る。

Ｃは、３チャネルダウンミックスの場合には形状（１×２）であってもよく、２チャネルダウンミックスの場合には形状（２×１）であってもよいことに留意すべきである。

ステップ４：無相関器７０９Ａ及び７０９Ｂによって復元されるパラメーター化されたチャネルにおける残りのエネルギーを求め得る。いくつかの実施形態において、残りのエネルギーは、行列Ｐによって表すことができる。Ｐは、共分散行列であってもよく、したがってエルミート対称であり得るため、いくつかの実施態様では、行列Ｐの上三角行列又は下三角行列からの要素のみがデコーダーに送信される。行列Ｐの対角要素は実数であってもよく、一方、非対角要素は複素数であってもよい。いくつかの実施態様では、行列Ｐによって表される残りのエネルギーは、アップミックスチャネルにおける残差エネルギーＲｅｓ_ｕｕに基づいて求め得る。１つの例では、Ｐは、以下の式によって求め得る。

別の例では、対角要素のみを使用して、Ｐのパラメーターを計算してもよく、周波数帯域ごとのデコーダーに送信されるＰのパラメーターの数は、デコーダーにおいてパラメトリックに復元されるチャネルの数に等しい。このとき、Ｐは、以下の式によって求め得る。

上記式において、ｓｃａｌｅは、正規化スケーリング係数を表す。いくつかの実施態様では、ｓｃａｌｅは、広帯域値であり得る。１つの例では、ｓｃａｌｅ＝０．０１である。或いは、いくつかの実施態様では、ｓｃａｌｅは、周波数依存であってもよい。いくつかのそのような実施態様では、ｓｃａｌｅは、異なる周波数帯域において異なる値を取り得る。１つの例では、スペクトルを１２個の周波数帯域に分割されてもよく、ｓｃａｌｅは、例えば、ｌｉｎｓｐａｃｅ（０．５，０．０１，１２）によって求められてもよい。

いくつかの実施態様では、アップミックスチャネルにおける残差エネルギーＲｅｓ_ｕｕは、予測後の実際のエネルギー（例えば、Ｒ_ｕｕ）及び再生成された交差予測エネルギーＲｅｇ_ｕｕに基づいて求め得る。１つの例では、アップミックスチャネルにおける残差エネルギーは、予測後の実際のエネルギーと再生成された交差予測エネルギーＲｅｇ_ｕｕとの間の差であってもよい。１つの例では、Ｒｅｓ_ｕｕ＝Ｒ_ｕｕ－Ｒｅｇ_ｕｕである。いくつかの実施態様では、再生成された交差予測エネルギーＲｅｇ_ｕｕは、交差予測係数及び予測共分散行列に基づいて求め得る。例えば、いくつかの実施態様では、Ｒｅｇ_ｕｕは、以下の式によって求め得る。

図７Ａを再び参照すると、いくつかの実施態様では、ダウンミックスされたチャネルに関連付けられた信号、例えば、Ｗ’、Ｙ’、Ｘ’、及び／又はＺ’は、ＡＧＣエンコーダー７１３に提供される。ＡＧＣエンコーダー７１３は、その後、ダウンミックスされたチャネルのうちの少なくとも１つについて過負荷状態が存在するとの判断に応答して、例えば、図２及び図５に関して上述した技法を使用して利得パラメーターを求め得る。利得パラメーター、並びにＰＲ行列、Ｃ行列、及び／又はＰ行列に関連付けられた情報は、メタデータ等のサイド情報として符号化され得る。

図７Ｂは、一実施形態による、ＩＶＡＳビットストリームを符号化及び復号するＩＶＡＳコーデック７５０のブロック図である。ＩＶＡＳコーデック７５０は、エンコーダー及び遠端デコーダーを含む。ＩＶＡＳエンコーダーは、空間分析ダウンミックスユニット７５２と、量子化エントロピーコード化ユニット７５３と、ＡＧＣ利得制御ユニット７６２と、コア符号化ユニット７５６と、モード／ビットレート制御ユニット７５７とを含む。ＩＶＡＳデコーダーは、量子化エントロピー復号ユニット７５４と、コア復号ユニット７５８と、逆利得制御ユニット７６３と、空間合成／レンダリングユニット７５９と、無相関器ユニット７６１とを含む。

空間分析ダウンミックスユニット７５２は、オーディオシーンを表すＮチャネル入力オーディオ信号７５１を受信する。入力オーディオ信号７５１は、モノ信号、ステレオ信号、バイノーラル信号、空間オーディオ信号、例えば、マルチチャネル空間オーディオオブジェクト、ＦＯＡ、高次アンビソニックス（ＨＯＡ）及び他の任意のオーディオデータを含むが、これらに限定されるものではない。Ｎチャネル入力オーディオ信号７５１は、空間分析ダウンミックスユニット７５２によって指定数（Ｎ_ｄｍｘ）のダウンミックスチャネルにダウンミックスされる。この例では、Ｎ_ｄｍｘはＮ以下である。空間分析ダウンミックスユニット７５２は、遠端ＩＶＡＳデコーダーがＮ_ｄｍｘ個のダウンミックスチャネルからのＮチャネル入力オーディオ信号７５１と、空間メタデータと、デコーダーにおいて生成される無相関信号とを合成するために使用することができるサイド情報（例えば、空間メタデータ）も生成する。いくつかの実施形態において、空間分析ダウンミックスユニット７５２は、ステレオ／ＦＯＡオーディオ信号を分析／ダウンミックスする複合アドバンストカップリング（ＣＡＣＰＬ：complex advanced coupling）、及び／又は、ＦＯＡオーディオ信号を分析／ダウンミックスする空間復元器（ＳＰＡＲ）を実施する。他の実施形態において、空間分析ダウンミックスユニット７５２は、他のフォーマットを実施する。

Ｎ_ｄｍｘ個のダウンミックスチャネルは、所与のフレームの［－ｍａｘ，ｍａｘ］によって拘束される一組の信号を含み得る。コアエンコーダー７５６は、［－１，１）の範囲内の信号を符号化することができるので、コアエンコーダー７５６の範囲を超えるダウンミックスチャネルに関連付けられた信号のサンプルは、過負荷を引き起こす場合がある。ダウンミックスチャネルを所望の範囲内に持って行くために、Ｎ_ｄｍｘ個のチャネルは、利得制御ユニット７６２に供給され、利得制御ユニット７６２は、ダウンミックスチャネルがコアコーダーの範囲内になるようにフレームの利得を動的に調整する。利得調整情報（ＡＧＣメタデータ）は、量子化コード化ユニット７５３に送信され、量子化コード化ユニット７５３は、ＡＧＣメタデータをコード化する。

利得調整されたＮ_ｄｍｘ個のチャネルは、コア符号化ユニット７５６に含まれるコアコーデックの１つ以上のインスタンスによってコード化される。サイド情報、例えば空間メタデータ（ＭＤ：metadata）は、ＡＧＣメタデータとともに、量子化エントロピーコード化ユニット７５３によって量子化及びコード化される。コード化されたビットは、その後、ＩＶＡＳビットストリーム（複数の場合もある）内にともにパックされ、ＩＶＡＳデコーダーに送信される。一実施形態において、基本となるコアコーデックは、符号化されたビットストリームを生成するのに使用することができる任意の適したモノコーデック、ステレオコーデック又はマルチチャネルコーデックとすることができる。

いくつかの実施形態において、コアコーデックはＥＶＳコーデックである。ＥＶＳ符号化ユニット７５６は、３ＧＰＰＴＳ２６．４４５に準拠し、狭帯域（ＥＶＳ－ＮＢ）及び広帯域（ＥＶＳ－ＷＢ）の音声サービスの品質及びコード化効率の向上、超広帯域（ＥＶＳ－ＳＷＢ）音声を使用する品質向上、会話アプリケーションにおけるコンテンツ及び音楽を混合したものの品質向上、パケット損失及び遅延ジッターに対するロバスト性、並びにＡＭＲ－ＷＢコーデックへの後方互換性等の広範囲の機能性を提供する。

デコーダーでは、Ｎ_ｄｍｘ個のチャネルは、コア復号ユニット７５８に含まれるコアコーデックの対応する１つ以上のインスタンスによって復号され、ＡＧＣメタデータを含むサイド情報は、量子化エントロピー復号ユニット７５４によって復号される。ＦＯＡ信号フォーマットのＷチャネル等のプライマリダウンミックスチャネルは、無相関器ユニット７６１に供給され、無相関器ユニット７６１は、Ｎ－Ｎ_ｄｍｘ個の無相関化されたチャネルを生成する。Ｎ_ｄｍｘ個のダウンミックスチャネル及びＡＧＣメタデータは、逆利得制御ブロック７６３に供給され、逆利得制御ブロック７６３は、利得制御ユニット７６２によって行われた利得調整を元に戻す。逆利得調整されたＮ_ｄｍｘ個のダウンミックスチャネルと、Ｎ－Ｎ_ｄｍｘ個の無相関化されたチャネルと、サイド情報とは、空間合成／レンダリングユニット７５９に供給され、空間合成／レンダリングユニット７５９は、これらの入力を使用して、元のＮチャネル入力オーディオ信号を合成又は再生成する。この信号は、オーディオデバイス７６０によって提示され得る。一実施形態において、Ｎ_ｄｍｘ個のチャネルは、ＥＶＳ以外のモノコーデックによって復号される。他の実施形態において、Ｎ_ｄｍｘ個のチャネルは、１つ以上のマルチチャネルコアコード化ユニットと１つ以上のシングルチャネルコアコード化ユニットとを組み合わせたものによって復号される。

いくつかの実施態様では、ＦＯＡコーデックは、例えば、ＳＰＡＲにおけるＰＲパラメーター、Ｃパラメーター、及びＰパラメーター等のパラメトリックに符号化されたチャネルを復元するのに利用される空間メタデータを符号化するのに使用されるビットと、ダウンミックスされたチャネルを符号化するのに使用されるビットとの間で、利得制御に使用されるビットを配分又は分配し得る。一般に、メタデータを符号化するのに使用されるビット数は、本明細書においてＭＤ_ｂｉｔｓとして一般に参照され、ダウンミックスされたチャネルを符号化するのに使用されるビット数は、本明細書においてＥＶＳ_ｂｉｔｓとして一般に参照され、ここで、ＥＶＳは、ダウンミックスされたチャネルを符号化するのに使用される知覚的コーデックである。以下に示す例は、コーデックとしてＥＶＳコーデックを使用することに言及しているが、以下で説明する技法は、他の任意の適したコーデックに適用し得ることに留意すべきである。いくつかの実施態様では、ＦＯＡコーデックは、１）利得情報を符号化するのに使用されるビット数を求めることと；２）メタデータを符号化するのに使用されるビット数を求める（例えば、ＭＤ_ｂｉｔｓを求める）ことと；３）ダウンミックスされたチャネルを符号化するのに使用されるビット数を求める（例えば、ＥＶＳ_ｂｉｔｓを求める）ことと；４）メタデータ及び／又はダウンミックスされたチャネルを符号化するのに使用されるビットが、利得制御が適用されない（その結果、利得制御情報が符号化されない）場合と比較してより少なくなるように、メタデータビット及び／又はＥＶＳ_ｂｉｔｓから利得制御ビットを配分することと、によって利得制御に使用されるビットを配分し得る。

図８は、いくつかの実施態様による、利得制御ビットを配分する一例示のプロセス８００のフローチャートである。いくつかの実施態様では、プロセス８００は、エンコーダーデバイスによって実行され得る。いくつかの実施態様では、プロセス８００のブロックは、図８に示すもの以外の順序で実行し得る。いくつかの実施態様では、プロセス８００の２つ以上のブロックは、実質的に並列に実行し得る。いくつかの実施態様では、プロセス８００の１つ以上のブロックは省略し得る。

８０２において、プロセス８００は、利得制御情報の符号化に使用されるビット数を求める得る。利得パラメーターを符号化するのに使用されるビット数は、本明細書において一般にｘと表される。図５に関して上述したように、いくつかの実施態様では、共通の利得遷移関数が全てのダウンミックスチャネルに適用される場合には、利得制御情報を符号化するのに使用されるビット数は、ｘ＋１と表されてもよく、ここで、ｘ個のビットは、利得パラメーター情報を符号化するのに使用され、単一のビットは、遷移関数を示すのに使用される。或いは、図５に関して上述したように、利得遷移関数が、過負荷状態が存在する各ダウンミックスチャネルに個別に適用される場合には、利得制御情報を符号化するのに使用されるビット数は、ダウンミックスチャネルの数（例えば、Ｎ_ｄｍｘ）と、過負荷状態が存在する（その結果、利得制御が適用される）ダウンミックスチャネルの数Ｎとに依存し得る。そのような場合には、利得制御情報を符号化するのに使用されるビット数は、Ｎ_ｄｍｘ＋（ｘ＋１）＊Ｎによって表すことができ、ここで、単一のビットは、各ダウンミックスチャネルについて、利得制御が適用されているか否かを示すのに使用され、例外フラグが、利得制御が適用されている各ダウンミックスチャネルについて遷移関数を示すのに利用される。ダウンミックスチャネルの数が１である（例えば、単一のＷチャネルが利用される）場合には、利得制御情報の符号化に使用されるビット数は、１＋（ｘ＋１）＊Ｎと表すことができることに留意すべきである。

８０４において、プロセス８００は、デコーダーがパラメトリックに符号化されたチャネルを復元するのに使用され得るメタデータ等のメタデータ情報の符号化に使用される、本明細書においてＭＤ_ｂｉｔｓとして一般に参照されるビット数を求め得る。いくつかの実施態様では、ＭＤ_ｂｉｔｓは、ＭＤ_ｂｉｔｓが、メタデータを符号化するのに使用される対象ビット数（本明細書においてＭＤ_ｔａｒとして一般に参照される）と、メタデータを符号化するのに使用され得る最大ビット数（本明細書において、ＭＤ_ｍａｘとして一般に参照される）との間の値になるように求め得る。いくつかの実施態様では、ＭＤ_ｔａｒは、ダウンミックスチャネルを符号化するのに使用される対象ビット数（本明細書において、ＥＶＳ_ｔａｒとして一般に参照される）に基づいて求められてもよく、ＭＤ_{ｍａｘは、}ダウンミックスチャネルを符号化するのに使用される最小ビット数（本明細書においてＥＶＳ_ｍｉｎとして一般に参照される）に基づいて求められてもよい。１つの例では、以下の式となる。

上記式において、ＩＶＡＳ_ｂｉｔｓは、ＩＶＡＳコーデックに関連付けられた情報を符号化するのに利用可能なビット数を表し、ｈｅａｄｅｒ_ｂｉｔｓは、ビットストリームヘッダーを符号化するのに使用されるビット数を表す。いくつかの実施態様では、ＭＤ_ｂｉｔｓは、ＭＤ_ｍａｘ以下であってもよい。換言すれば、メタデータを符号化するのに使用されるビット数は、オーディオ品質を維持するのに十分なビット数を用いてダウンミックスチャネルを符号化することを可能にするビット数であってもよい。

いくつかの実施態様では、ＭＤ_ｂｉｔｓは、反復プロセスを使用して求め得る。そのような反復プロセスの一例は、以下のとおりである。

ステップ１：入力オーディオ信号のフレーム単位で、メタデータパラメーターを例えば非時間差分方法で量子化してもよく、例えば算術コーダーを使用してコード化してもよい。ビット数ＭＤ_ｂｉｔｓが、メタデータ対象ビット数（例えば、ＭＤ_ｔａｒ）未満である場合には、反復プロセスは終了し、メタデータビットは、ビットストリームに符号化されてもよい。任意の余分なビット（例えば、ＭＤ_ｔａｒ－ＭＤ_ｂｉｔｓ）は、コアエンコーダー、例えばＥＶＳコーデックがダウンミックスチャネルを符号化するのに利用されてもよく、それによって、符号化されたダウンミックスオーディオチャネルのビットレートを増加させ得る。ＭＤ_ｂｉｔｓが対象ビット数よりも大きい場合には、反復プロセスは、ステップ２に進んでもよい。

ステップ２：フレームに関連付けられたメタデータパラメーターのサブセットを量子化し、先行フレームの量子化されたメタデータパラメーター値から減算し、差分の量子化されたパラメーター値を（例えば、時間差分コード化を使用して）符号化してもよい。ＭＤ_ｂｉｔｓの更新された値がＭＤ_ｔａｒ未満である場合には、反復プロセスは終了してもよく、メタデータビットはビットストリームに符号化されてもよい。任意の余分なビット（例えば、ＭＤ_ｔａｒ－ＭＤ_ｂｉｔｓ）は、コアエンコーダー、例えばＥＶＳコーデックが利用してもよい。ＭＤ_ｂｉｔｓが対象ビット数よりも大きい場合には、反復プロセスはステップ３に進み得る。

ステップ３：エントロピーを伴わずにメタデータパラメーターを量子化したときのＭＤ_ｂｉｔｓを求めてもよい。ステップ１、２及び３からのＭＤ_ｂｉｔｓの値は、メタデータを符号化するのに使用され得る最大ビット数（例えば、ＭＤ_ｍａｘ）と比較される。ステップ１、２、及び３からのＭＤ_ｂｉｔｓの最小値がＭＤ_ｍａｘ未満である場合には、反復プロセスは終了し、メタデータは、ＭＤ_ｂｉｔｓの最小値を使用してビットストリームに符号化され得る。メタデータ対象ビット数を超えるメタデータを符号化するのに使用されるビット（例えば、ＭＤ_ｂｉｔｓ－ＭＤ_ｔａｒ）は、ダウンミックスチャネルを符号化するのに使用されるビットから配分され得る。一方、ステップ３において、ステップ１、２、及び３からのＭＤ_ｂｉｔｓの最小値がＭＤ_ｍａｘを超えている場合には、反復プロセスはステップ４に進む。

ステップ４：メタデータパラメーターをより粗く量子化し、より粗く量子化されたパラメーターに関連付けられたビット数を、上記ステップ１～３に従って分析してもよい。より粗く量子化されたメタデータパラメーターであっても、メタデータビット数ＭＤ_ｂｉｔｓが、メタデータを符号化する最大配分ビット数未満であるという基準を満たしていない場合には、最大配分ビット数内でのメタデータパラメーターの量子化を保証する量子化方式が利用される。

図８を再び参照すると、ブロック８０６において、プロセス８００は、本明細書においてＥＶＳ_ｂｉｔｓとして一般に参照される、ダウンミックスチャネルの符号化に使用されるビット数を求めることができる。ブロック８０４に関して上述したように、いくつかの実施態様では、ダウンミックスチャネルの符号化に使用されるビット数は、メタデータを符号化するのに使用されるビット数に依存し得る。例えば、メタデータパラメーターを符号化するのに使用されるビットが少なくなる場合には、ダウンミックスチャネルを符号化するのに使用され得るビットは多くなる。逆に、メタデータパラメーターを符号化するのに使用されるビットが多くなる場合には、ダウンミックスチャネルを符号化するのに使用され得るビットは少なくなる。１つの例では、ＥＶＳ_ｂｉｔｓは、以下の式によって求められ得る。

いくつかの実施態様では、ダウンミックスチャネルを符号化するのに利用可能なビット数（例えば、ＥＶＳ_ｂｉｔｓ）が、ダウンミックスチャネルを符号化するのに使用される対象ビット数（本明細書においてＥＶＳ_ｔａｒとして一般に参照される）未満である場合には、異なるダウンミックスチャネルにわたってビットを再配分し得る。いくつかの実施態様では、音響的顕著性（acoustic salience）又は音響的重要性（acoustic importance）に基づいて、チャネルからビットを再配分し得る。例えば、いくつかの実施態様では、上下方向、例えばＺ’チャネルに対応するオーディオ信号は、他の方向、例えば、前後、すなわちＸ’チャネル、又は左右、すなわちＹ’チャネルよりも音響学的に関連性が少ない場合があるので、Ｚ’、Ｘ’、Ｙ’、及びＷ’の順序でチャネルからビットを取得してもよい。

逆に、いくつかの実施態様では、ダウンミックスチャネルを符号化するのに利用可能なビット数（例えば、ＥＶＳ_ｂｉｔｓ）が、対象ビット数ＥＶＳ_ｔａｒよりも大きい場合には、追加のビットをダウンミックスチャネルに分配してもよい。いくつかの実施態様では、追加のビットの分配は、様々なダウンミックスチャネルの音響的重要性に従って行い得る。１つの例では、追加のビットが無指向性チャネルに優先的に配分されるように、Ｗ’、Ｙ’、Ｘ’、及びＺ’の順序で追加のビットを分配され得る。

８０８において、プロセス８００は、利得制御ビット、メタデータビット、及び／又はダウンミックスチャネルビットの間のビット配分を求め得る。換言すれば、プロセス８００は、ブロック８０２において求められた利得制御ビット数を使用して利得制御情報を符号化するために、メタデータビット（例えば、ＭＤ_ｂｉｔｓ）及び／又はダウンミックスチャネルビット（例えば、ＥＶＳ_ｂｉｔｓ）を削減するビット数を求め得る。

いくつかの実施態様では、プロセス８００は、ダウンミックスチャネルを符号化するのに使用されるビットを、利得制御情報を符号化するために配分し得る。例えば、いくつかの実施態様では、プロセス８００は、利得制御情報を符号化するのに使用されるビット数だけＥＶＳ_ｂｉｔｓを削減し得る。いくつかのそのような実施態様では、ダウンミックスチャネルを符号化するのに使用されるビットは、ダウンミックスチャネルの音響的重要性又は音響的関連性に基づく順序で利得制御情報を符号化するために配分され得る。１つの例では、ビットは、Ｚ’、Ｘ’、Ｙ’、及びＷ’の順序でダウンミックスチャネルから取得され得る。いくつかの実施態様では、単一のダウンミックスチャネルから利用することができる最大ビット数は、そのダウンミックスチャネルを符号化するのに使用される対象ビット数と、そのチャネルを符号化するのに使用される最小ビット数との間の差に対応し得る。いくつかの実施態様では、利得制御情報を符号化するために、ダウンミックスチャネルを符号化するために配分されたビットからの利用可能なビットがない場合には、プロセス８００は、１つ以上のダウンミックスチャネルのビットレートを調整し、例えば、ビットレートを削減し、利得制御情報を符号化するためのビットを解放してもよい。１つの例では、全てのダウンミックスチャネルについて、ＥＶＳ_ｂｉｔｓが、そのダウンミックスチャネルを符号化するのに使用される最小ビット数に設定されている場合には、プロセス８００は、ビットレートを削減し得る。或いは、いくつかの実施態様では、プロセス８００は、メタデータパラメーターを符号化するのに使用されるビットから利得制御情報を符号化するビットを配分することもできる。

いくつかの実施態様では、プロセス８００は、ダウンミックスチャネルを符号化するために配分されたビットと、メタデータパラメーターを符号化するために配分されたビットとの双方を使用して、利得制御情報を符号化するのに使用されるビットを配分し得ることに留意すべきである。例えば、いくつかの実施態様では、利得制御情報を符号化するのに必要とされるＡＧＣ_ｂｉｔｓが与えられると、プロセス８００は、例えば、ブロック８０４において求められるように、メタデータパラメーターを符号化するために当初配分されたビットからｍ個のビットを配分するとともに、例えば、ブロック８０６において求められるように、ダウンミックスチャネルを符号化するために当初配分されたビットからＡＧＣ_ｂｉｔｓ－ｍ個のビットを配分し得る。

プロセス８００は、その後、入力オーディオ信号の次のフレームに進むことができる。

図９は、一実施形態による、ＩＶＡＳシステム９００の例示の使用事例を示している。いくつかの実施形態において、様々なデバイスが、例えば、ＰＳＴＮ／他のＰＬＭＮ９０４によって示される公衆交換電話網（ＰＳＴＮ：public switched telephone network）又は公衆陸上モバイルネットワークデバイス（ＰＬＭＮ：public land mobile network device）からオーディオ信号を受信するように構成されるコールサーバー９０２を通じて通信する。使用事例は、モノラルのみでオーディオをレンダリング及びキャプチャするレガシーデバイス９０６をサポートする。これらのレガシーデバイスは、拡張音声サービス（ＥＶＳ）、マルチレート広帯域（ＡＭＲ－ＷＢ：multi-rate wideband）及び適応マルチレート狭帯域（ＡＭＲ－ＮＢ：adaptive multi-rate narrowband）をサポートするデバイスを含むが、これに限定されるものではない。使用事例は、ステレオオーディオ信号をキャプチャ及びレンダリングするユーザー機器（ＵＥ：user equipment）９０８及び／又は９１４、又はモノ信号をキャプチャし、マルチチャネル信号にバイノーラルにレンダリングするＵＥ９１０もサポートする。使用事例は、ビデオ会議室システム９１６及び／又は９１８によってそれぞれキャプチャ及びレンダリングされる没入型信号及びステレオ信号もサポートする。使用事例は、ホームシアターシステム９２０のステレオオーディオ信号のステレオキャプチャ及び没入型レンダリング、並びに、仮想現実（ＶＲ：virtual reality）ギア９２２のオーディオ信号のモノキャプチャ及び没入型レンダリングのコンピューター９１２並びに没入型コンテンツインジェスト９２４もサポートする。

図１０は、本開示の様々な態様を実施することが可能な装置の構成要素の例を示すブロック図である。本明細書に提供された他の図と同様に、図１０に示す要素のタイプ及び数は、例として提供されているにすぎない。他の実施態様は、より多くのタイプ及び数の要素、より少ないタイプ及び数の要素、及び／又は異なるタイプ及び数の要素を含み得る。いくつかの例によれば、装置１０００は、本明細書に開示された方法のうちの少なくともいくつかを実行するように構成され得る。いくつかの実施態様では、装置１０００は、テレビ、オーディオシステムの１つ以上の構成要素、モバイルデバイス（携帯電話等）、ラップトップコンピューター、タブレットデバイス、スマートスピーカー、又は別のタイプのデバイスである場合もあるし、そのようなデバイス等を含む場合もある。

いくつかの代替の実施態様によれば、装置１０００は、サーバーである場合もあるし、サーバーを含む場合もある。いくつかのそのような例では、装置１０００は、エンコーダーである場合もあるし、エンコーダーを含む場合もある。したがって、いくつかの場合には、装置１０００は、ホームオーディオ環境等のオーディオ環境内での使用向けに構成されるデバイスであってもよく、また他の場合には、装置１０００は、「クラウド」における使用向けに構成されるデバイス、例えばサーバーであってもよい。

この例では、装置１０００は、インターフェースシステム１００５と、制御システム１０１０とを含む。インターフェースシステム１００５は、いくつかの実施態様では、オーディオ環境の１つ以上の他のデバイスと通信するように構成され得る。オーディオ環境は、いくつかの例では、ホームオーディオ環境であってもよい。他の例では、オーディオ環境は、オフィス環境、自動車環境、列車環境、道路又は歩道環境、公園環境等の別のタイプの環境であってもよい。インターフェースシステム１００５は、いくつかの実施態様では、制御情報及び関連付けられたデータをオーディオ環境のオーディオデバイスと交換するように構成され得る。制御情報及び関連付けられたデータは、いくつかの例では、装置１０００が実行している１つ以上のソフトウェアアプリケーションに関係するものであってもよい。

インターフェースシステム１００５は、いくつかの実施態様では、コンテンツストリームを受信又は提供するように構成され得る。コンテンツストリームは、オーディオデータを含み得る。オーディオデータは、オーディオ信号を含み得るが、これに限定されない。いくつかの場合には、オーディオデータは、チャネルデータ及び／又は空間メタデータ等の空間データを含み得る。いくつかの例では、コンテンツストリームは、ビデオデータと、このビデオデータに対応するオーディオデータとを含み得る。

インターフェースシステム１００５は、１つ以上のネットワークインターフェース、及び／又は１つ以上のユニバーサルシリアルバス（ＵＳＢ：universal serial bus）インターフェース等の１つ以上の外部デバイスインターフェースを含み得る。いくつかの実施態様によれば、インターフェースシステム１００５は、１つ以上の無線インターフェースを含み得る。インターフェースシステム１００５は、１つ以上のマイクロホン、１つ以上のスピーカー、ディスプレイシステム、タッチセンサーシステム及び／又はジェスチャーセンサーシステム等のユーザーインターフェースを実施する１つ以上のデバイスを含み得る。いくつかの例では、インターフェースシステム１００５は、制御システム１０１０と、図１０に示す任意選択のメモリシステム１０１５等のメモリシステムとの間の１つ以上のインターフェースを含み得る。ただし、いくつかの場合には、制御システム１０１０がメモリシステムを含んでもよい。インターフェースシステム１００５は、いくつかの実施態様では、環境内の１つ以上のマイクロホンからの入力を受信するように構成され得る。

制御システム１０１０は、例えば、汎用のシングルチッププロセッサ若しくはマルチチッププロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又は他のプログラマブルロジックデバイス、ディスクリートゲートロジック若しくはトランジスタロジック、及び／又はディスクリートハードウェア構成要素を含み得る。

いくつかの実施態様では、制御システム１０１０は、２つ以上のデバイスに存在してもよい。例えば、いくつかの実施態様では、制御システム１０１０の一部分は、本明細書に示す環境のうちの１つにおけるデバイスに存在してもよく、制御システム１０１０の別の部分は、サーバー、モバイルデバイス（例えば、スマートフォン又はタブレットコンピューター）等のその環境の外部にあるデバイスに存在してもよい。他の例では、制御システム１０１０の一部分は、１つの環境内のデバイスに存在してもよく、制御システム１０１０の別の部分は、その環境の１つ以上の他のデバイスに存在してもよい。例えば、制御システム１０１０の一部分は、サーバー等のクラウドベースのサービスを実施しているデバイスに存在してもよく、制御システム１０１０の別の部分は、別のサーバー、メモリデバイス等のクラウドベースのサービスを実施している別のデバイスに存在してもよい。インターフェースシステム１００５も、いくつかの例では、２つ以上のデバイスに存在してもよい。

いくつかの実施態様では、制御システム１０１０は、本明細書に開示された方法を少なくとも部分的に実行するように構成され得る。いくつかの例によれば、制御システム１０１０は、利得パラメーターを求めること、利得遷移関数を適用すること、逆利得遷移関数を求めること、逆利得遷移関数を適用すること、ビットストリームに対して利得制御用のビットを分配すること等の方法を実施するように構成され得る。

本明細書に記載の方法の一部又は全ては、１つ以上の非一時的媒体に記憶された命令（例えば、ソフトウェア）に従って１つ以上のデバイスによって実行され得る。そのような非一時的媒体は、本明細書に説明されているようなメモリデバイスを含んでもよく、このメモリデバイスは、ランダムアクセスメモリ（ＲＡＭ）デバイス、リードオンリーメモリ（ＲＯＭ）デバイス等を含むが、これらに限定されるものではない。１つ以上の非一時的媒体は、例えば、図１０に示す任意選択のメモリシステム１０１５及び／又は制御システム１０１０に存在し得る。したがって、本開示に記載の主題の様々な革新的な態様は、ソフトウェアが記憶された１つ以上の非一時的媒体に実装することができる。ソフトウェアは、例えば、利得パラメーターを求める命令、利得遷移関数を適用する命令、逆利得遷移関数を求める命令、逆利得遷移関数を適用する命令、ビットストリームに対して利得制御用のビットを分配する命令等を含み得る。ソフトウェアは、例えば、図１０の制御システム１０１０等の制御システムの１つ以上の構成要素によって実行可能であり得る。

いくつかの例では、装置１０００は、図１０に示す任意選択のマイクロホンシステム１０２０を含み得る。任意選択のマイクロホンシステム１０２０は、１つ以上のマイクロホンを含み得る。いくつかの実施態様では、マイクロホンのうちの１つ以上は、スピーカーシステムのスピーカー、スマートオーディオデバイス等の別のデバイスの一部である場合もあるし、別のデバイスに関連付けられたものである場合もある。いくつかの例では、装置１０００は、マイクロホンシステム１０２０を含まない場合もある。一方、いくつかのそのような実施態様では、装置１０００は、それにもかかわらず、オーディオ環境内の１つ以上のマイクロホンのマイクロホンデータを、インターフェースシステム１０１０を介して受信するように構成され得る。いくつかのそのような実施態様では、装置１０００のクラウドベースの実施態様は、マイクロホンデータ、又はマイクロホンデータに少なくとも部分的に対応するノイズメトリックをオーディオ環境内の１つ以上のマイクロホンからインターフェースシステム１０１０を介して受信するように構成され得る。

いくつかの実施態様によれば、装置１０００は、図１０に示す任意選択のラウドスピーカーシステム１０２５を含み得る。任意選択のラウドスピーカーシステム１０２５は、１つ以上のラウドスピーカーを含み得る。これらのラウドスピーカーも、本明細書において「スピーカー」又はより一般的には「オーディオ再生トランスデューサー」と呼ばれる場合がある。いくつかの例、例えば、クラウドベースの実施態様では、装置１０００は、ラウドスピーカーシステム１０２５を含まなくてもよい。いくつかの実施態様では、装置１０００は、ヘッドホンを含み得る。ヘッドホンは、ヘッドホンジャック又は無線接続、例えばＢＬＵＥＴＯＯＴＨを介して装置１０００に接続又は結合され得る。

本開示のいくつかの態様は、開示された方法の１つ以上の例を実行するように構成される、例えばプログラミングされるシステム又はデバイスと、開示された方法又はそれらのステップの１つ以上の例を実施するコードを記憶する有形のコンピューター可読媒体、例えば、ディスクとを含む。例えば、いくつかの開示されたシステムは、開示された方法又はそれらのステップの一実施形態を含む、データに対して様々な操作のうちの任意のものを実行するようにソフトウェア若しくはファームウェアを用いてプログラミングされ、及び／又は別の方法で構成されたプログラマブルな汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサとすることもできるし、それらを含むものとすることもできる。そのような汎用プロセッサは、入力デバイスと、メモリと、アサートされたデータに応答して開示された方法（又はそれらのステップ）の１つ以上の例を実行するようにプログラミング（及び／又は別の方法で構成）される処理サブシステムとを含むコンピューターシステムである場合もあるし、コンピューターシステムを含むものである場合もある。

いくつかの実施形態は、開示された方法の１つ以上の例の実行を含めて、オーディオ信号（複数の場合もある）に対して必要とされる処理を実行するように構成される（例えば、プログラミング及び別の方法で構成される）構成可能（例えば、プログラマブル）なデジタル信号プロセッサ（ＤＳＰ）として実施し得る。或いは、開示されたシステム（又はそれらの要素）の実施形態は、入力デバイス及びメモリを含み得るとともに、開示された方法の１つ以上の例を含む様々な操作のうちの任意のものを実行するようにソフトウェア又はファームウェアを用いてプログラミングされ及び／又は別の方法で構成される、汎用プロセッサ、例えば、パーソナルコンピューター（ＰＣ：personal computer）若しくは他のコンピューターシステム又はマイクロプロセッサとして実施し得る。或いは、本発明のシステムのいくつかの実施形態の要素は、開示された方法の１つ以上の例を実行するように構成される（例えば、プログラミングされる）汎用プロセッサ又はＤＳＰとして実施され、システムは他の要素も含む。他の要素は、１つ以上のラウドスピーカー及び／又は１つ以上のマイクロホンを含み得る。開示された方法の１つ以上の例を実行するように構成される汎用プロセッサは、入力デバイスに結合され得る。入力デバイスの例は、例えば、マウス及び／又はキーボードを含む。汎用プロセッサは、メモリ、ディスプレイデバイス等に結合され得る。

本開示の別の態様は、例えば、開示された方法又はそれらのステップの１つ以上の例を実行するために実行可能なコーダーによって実行されるコードを記憶するディスク又は他の有形の記憶媒体等のコンピューター可読媒体である。

本開示の特定の実施形態及び本開示の適用例を本明細書に説明してきたが、本明細書に説明及び特許請求された本開示の範囲から逸脱することなく、本明細書に説明された実施形態及び適用例に対する多くの変形が可能であることが当業者に明らかであろう。本開示のいくつかの形態を図示及び説明してきたが、本開示は、説明及び図示された特定の実施形態にも、説明された特定の方法にも限定されるものでないことが理解されるべきである。

Claims

符号化されるオーディオ信号の現フレームに関連付けられた１つ以上のダウンミックスチャネルに関連付けられているダウンミックスされた信号を求めることと、
前記１つ以上のダウンミックスチャネルのうちの少なくとも１つの前記ダウンミックスされた信号を符号化するのに使用されるエンコーダーについて、過負荷状態が存在するか否かを判断することと、
前記過負荷状態が存在するとの判断に応答して、前記オーディオ信号の前記現フレームの前記１つ以上のダウンミックスチャネルのうちの前記少なくとも１つの利得パラメーターを求めることと、
前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに基づいて、少なくとも１つの利得遷移関数を求めることと、
前記ダウンミックスされた信号のうちの１つ以上に前記少なくとも１つの利得遷移関数を適用することと、
前記現フレームに適用された利得制御を示す情報に関して前記ダウンミックスされた信号を符号化することと、
を含む、オーディオ信号に対して利得制御を実行する方法。
前記少なくとも１つの利得遷移関数は、部分フレームバッファーを使用して求められる、請求項１に記載の方法。
前記部分フレームバッファーを使用して前記少なくとも１つの利得遷移関数を求めることは、実質的に０の付加遅延を導入する、請求項２に記載の方法。
前記少なくとも１つの利得遷移関数は、過渡部分及び定常状態部分を含み、前記過渡部分は、前記オーディオ信号の前記先行フレームに関連付けられた前記利得パラメーターから前記オーディオ信号の前記現フレームに関連付けられた前記利得パラメーターへの遷移に対応する、請求項１から３のいずれか１項に記載の方法。
前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも大きいことに応答して、利得が前記現フレームのサンプルの一部分にわたって増加するフェードの過渡タイプを有する、請求項４に記載の方法。
前記過渡部分は、前記先行フレームの前記利得パラメーターに関連付けられた減衰が前記現フレームの前記利得パラメーターに関連付けられた減衰よりも小さいことに応答して、利得が前記現フレームのサンプルの一部分にわたって減少する逆フェードの過渡タイプを有する、請求項４に記載の方法。
前記過渡部分は、プロトタイプ関数及びスケーリング係数を使用して求められ、前記スケーリング係数は、前記現フレームに関連付けられた前記利得パラメーターと、前記先行フレームに関連付けられた前記利得パラメーターとに基づいて求められる、請求項４に記載の方法。
前記現フレームに適用された前記利得制御を示す前記情報は、前記少なくとも１つの利得遷移関数の前記過渡部分を示す情報を含む、請求項４に記載の方法。
前記少なくとも１つの利得遷移関数は、前記過負荷状態が存在する前記１つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含む、請求項１から８のいずれか１項に記載の方法。
前記少なくとも１つの利得遷移関数は、前記１つ以上のダウンミックスチャネルの全てに適用される単一の利得遷移関数を含み、前記過負荷状態は、前記１つ以上のダウンミックスチャネルのサブセットについて存在する、請求項１から８のいずれか１項に記載の方法。
前記少なくとも１つの利得遷移関数は、前記過負荷状態が存在する前記１つ以上のダウンミックスチャネルのそれぞれの利得遷移関数を含む、請求項１から８のいずれか１項に記載の方法。
前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数は、前記過負荷状態が存在するダウンミックスチャネルの数とともに実質的に線形にスケーリングする、請求項１１に記載の方法。
前記符号化されるオーディオ信号の第２のフレームに関連付けられた前記１つ以上のダウンミックスチャネルに関連付けられた第２のダウンミックスされた信号を求めることと、
前記第２のフレームの前記１つ以上のダウンミックスチャネルのうちの少なくとも１つの前記エンコーダーについて、過負荷状態が存在するか否かを判断することと、
前記第２のフレームについて前記過負荷状態が存在しないとの判断に応答して、非ユニティ利得を適用することなく、前記第２のダウンミックスされた信号を符号化することと、
を更に含む、請求項１から１２のいずれか１項に記載の方法。
利得制御が前記第２のフレームに適用されないことを示すフラグをセットすることを更に含み、
前記フラグは１つのビットを含む、請求項１３に記載の方法。
前記現フレームに適用された前記利得制御を示す前記情報を符号化するのに使用されるビット数を求めることと、
前記現フレームに適用された前記利得制御を示す前記情報を符号化するために、１）前記現フレームに関連付けられたメタデータを符号化するのに使用されるビット、及び／又は、２）前記ダウンミックスされた信号を符号化するのに使用されるビットから、前記ビット数を配分することと、
を更に含む、請求項１から１４のいずれか１項に記載の方法。
前記ビット数は、前記ダウンミックスされた信号を符号化するのに使用されるビットから配分され、前記ダウンミックスされた信号を符号化するのに使用される前記ビットは、前記１つ以上のダウンミックスされたチャネルに関連付けられた空間方向に基づく順序で減少される、請求項１５に記載の方法。
オーディオ信号の現フレームについて、前記オーディオ信号の符号化されたフレームをデコーダーにおいて受信することと、
前記オーディオ信号の前記符号化されたフレームを復号して、前記オーディオ信号の前記現フレームに関連付けられているダウンミックスされた信号と、エンコーダーによって前記オーディオ信号の前記現フレームに適用された利得制御を示す情報とを取得することと、
前記オーディオ信号の前記現フレームに関連付けられた１つ以上のダウンミックスされた信号に適用される逆利得関数を、前記オーディオ信号の前記現フレームに適用された前記利得制御を示す前記情報に少なくとも部分的に基づいて求め、前記逆利得関数を前記１つ以上のダウンミックスされた信号に適用することと、
前記逆利得関数が適用された前記１つ以上のダウンミックスされた信号を含めて、前記ダウンミックスされた信号をアップミックスして、アップミックスされた信号を生成することであって、前記アップミックスされた信号はレンダリングに適していることと、
を含む、オーディオ信号に対して利得制御を実行する方法。
前記現フレームに適用された前記利得制御を示す前記情報は、前記オーディオ信号の前記現フレームに関連付けられた利得パラメーターを含む、請求項１７に記載の方法。
前記逆利得関数は、前記オーディオ信号の前記現フレームの前記利得パラメーターと、前記オーディオ信号の先行フレームに関連付けられた利得パラメーターとに少なくとも部分的に基づいて求められる、請求項１８に記載の方法。
前記逆利得関数は、過渡部分及び定常状態部分を含む、請求項１７から１９のいずれか１項に記載の方法。
前記デコーダーにおいて、第２の符号化されたフレームが受信されていないと判断することと、
前記デコーダーによって代用フレームを復元して、前記第２の符号化されたフレームと置き換えることと、
前記第２の符号化されたフレームに先行していた先行符号化フレームに適用された逆利得パラメーターを前記代用フレームに適用することと、
を更に含む、請求項１７から２０のいずれか１項に記載の方法。
前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記エンコーダーによって前記第３の符号化されたフレームに適用された前記利得制御に関連付けられた逆利得パラメーターを用いて、前記代用フレームに適用された前記逆利得パラメーターを平滑化することによって、前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを求めることと、
を更に含む、請求項２１に記載の方法。
前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターであって、前記第３の符号化されたフレームからの利得パラメーターの滑らかな遷移を実施するような逆利得パラメーターを求めることと、
を更に含む、請求項２１に記載の方法。
受信されなかった前記第２の符号化されたフレームと、受信された前記第３の符号化されたフレームとの間に少なくとも１つの中間フレームがあり、前記少なくとも１つの中間フレームは、前記デコーダーにおいて受信されなかったものである、請求項２３に記載の方法。
前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第３の符号化されたフレームに関連付けられた前記ダウンミックスされた信号に適用される逆利得パラメーターを、前記デコーダーにおいて受信されなかった前記第２の符号化されたフレームに先行していた前記デコーダーにおいて受信されたフレームに適用される逆利得パラメーターに少なくとも部分的に基づいて求めることと、
を更に含む、請求項２１に記載の方法。
前記第２の符号化されたフレームに後続する第３の符号化されたフレームを前記デコーダーにおいて受信することと、
前記第３の符号化されたフレームを復号して、前記第３の符号化されたフレームに関連付けられているダウンミックスされた信号と、前記エンコーダーによって前記第３の符号化されたフレームに適用された利得制御を示す情報とを取得することと、
前記第３の符号化されたフレームに適用された前記利得制御を示す前記情報に基づいて、前記デコーダーの内部状態を再スケーリングすることと、
を更に含む、請求項２１に記載の方法。
前記アップミックスされた信号をレンダリングして、レンダリングされたオーディオデータを生成することを更に含む、請求項１７から２６のいずれか１項に記載の方法。
ラウドスピーカー又はヘッドホンのうちの１つ以上を使用して、前記レンダリングされたオーディオデータを再生することを更に含む、請求項２７に記載の方法。
請求項１から２８のいずれか１項に記載の方法を実施するように構成される装置。
１つ以上の非一時的媒体であって、前記１つ以上の非一時的媒体上にソフトウェアを記憶しており、前記ソフトウェアは、請求項１から２８のいずれか一項に記載の方法を実施するように１つ以上のデバイスを制御する命令を含む、１つ以上の非一時的媒体。