JP2023551732A

JP2023551732A - 適応ダウンミックス戦略による没入型音声およびオーディオサービス（ｉｖａｓ）

Info

Publication number: JP2023551732A
Application number: JP2023533783A
Authority: JP
Inventors: ムント，ハラルド; エス．マクグラス，デイヴィッド; チャギ，リシャブ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2020-12-02
Filing date: 2021-12-02
Publication date: 2023-12-12
Also published as: CL2023001573A1; IL303377A; WO2022120093A1; MX2023006501A; CA3203960A1; EP4256555A1; KR20230116895A; AU2021393468A1

Abstract

デコーダにおいて適用される復号リミックス／アップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化／復号方法が開示される。ダウンミックスコーディング方式のタイプに基づいて、本方法は、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップと、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインを決定するステップと、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、このサイドチャネル予測をサイドチャネルから減算することによって、サイドチャネルから残差チャネル（複数可）を決定するステップと、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、一次ダウンミックスチャネルと、残差チャネル（複数可）と、予測ゲインと、無相関ゲインとを符号化するステップと、ビットストリームをデコーダに送るステップとを含む。

Description

［関連出願への相互参照］
本出願は、２０２１年８月３日に出願された米国仮特許出願第６３／２２８，７３２号、２０２１年４月６日に出願された米国仮特許出願第６３／１７１，４０４号、および２０２０年１２月２日に出願された米国仮特許出願第６３／１２０，３６５号に対する優先権の利益を主張するものであり、これらのすべては参照により本明細書に組み込まれる。

［技術分野］
本開示は、一般に、オーディオビットストリーム符号化および復号に関する。

音声およびオーディオエンコーダ／デコーダ（「コーデック」）規格の開発は、最近、没入型音声およびオーディオサービス（ＩＶＡＳ：immersive voice and audio services）用のコーデックの開発に焦点を当てている。ＩＶＡＳは、モノラルからステレオへのアップミックス、ならびに完全没入型オーディオ符号化、復号、およびレンダリングを含むがこれらに限定されない、ある範囲のオーディオサービス能力をサポートすることが期待される。ＩＶＡＳは、携帯電話およびスマートフォン、電子タブレット、パーソナルコンピュータ、会議電話、会議室、仮想現実（ＶＲ）および拡張現実（ＡＲ）デバイス、ホームシアターデバイス、および他の適切なデバイスを含むがこれらに限定されない広範囲のデバイス、エンドポイント、およびネットワークノードによってサポートされることが意図されている。

ＩＶＡＳコーデックは、アンビソニックス入力を含むＮチャネルのマルチチャネル入力を、この入力をＮ＿ｄｍｘ個のチャネル（Ｎ＿ｄｍｘ≦Ｎ）にダウンミックスし、サイド情報（空間メタデータ）を生成することによって効率的にコーディングし、次いで、これらのＮ＿ｄｍｘ個のチャネルは、コアコーデックの１つまたは複数のインスタンスによってコーディングされる。次いで、コアコーデックビットはコーディングされたサイド情報とともにＩＶＡＳデコーダに送信される。ＩＶＡＳデコーダは、コアコーデックの１つまたは複数のインスタンスを使用してＮ＿ｄｍｘ個のダウンミックスチャネルを復号し、次いで、送信されたサイド情報およびデコリレータの１つまたは複数のインスタンスを使用してＮ＿ｄｍｘ個のチャネルからマルチチャネル入力を再構成する。

様々なビットレートでは、異なる数のＮ＿ｄｍｘがコーディングされ得、例えば、３２ｋｂｐｓでは、１つのダウンミックスチャネルのみがコーディングされ得る。Ｎ＿ｄｍｘ個のダウンミックスチャネルのうちの１つは、Ｎ個のチャネル入力の支配的な固有信号（Ｗ’）（以下、「一次ダウンミックスチャネル」と呼ばれることもある）の表現であり、残りのダウンミックスチャネルは、Ｗ’およびマルチチャネル入力の関数として導出され得る。ＩＶＡＳでは、パッシブダウンミックス方式およびアクティブダウンミックス方式という２つのダウンミックス方式が利用可能である。パッシブダウンミックス方式では、支配的な固有信号（Ｗ’）は、中央チャネルまたは一次入力チャネル（アンビソニックス入力の場合のＷチャネル）の遅延バージョンである。アクティブダウンミックス方式では、Ｎチャネル入力中の１つまたは複数のチャネルをスケーリングし、加算することによって固有信号（Ｗ’）が得られる。例えば、一次アンビソニックス（ＦｏＡ）入力の場合、Ｗ’＝ｓ_０Ｗ＋ｓ_１Ｙ＋ｓ_２Ｘ＋ｓ_３Ｚであり、ここで、ｓ_０～３は入力ダウンミックスゲインである。したがって、パッシブダウンミックス方式は、ｓ_０＝１、ｓ_１＝０、ｓ_２＝０およびｓ_３＝０であるアクティブダウンミックス方式の特殊なケースと見なされ得る。

適応ダウンミックス戦略によるＩＶＡＳコーディングのための実装形態が開示され、適応ダウンミックスは、パッシブダウンミックス、アクティブダウンミックス、またはパッシブダウンミックスとアクティブダウンミックスとの組み合わせのいずれかである。一実施形態では、デコーダにおいて適用される復号リミックス／アップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化方法は、少なくとも１つのプロセッサを用いて、入力オーディオ信号を取得するステップであって、入力オーディオ信号は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む、ステップと、少なくとも１つのプロセッサを用いて、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップと、ダウンミックスコーディング方式のタイプに基づいて、少なくとも１つのプロセッサを用いて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき１つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップと、少なくとも１つのプロセッサを用いて、一次ダウンミックスチャネルをスケーリングするための１つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップと、少なくとも１つのプロセッサを用いて、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、少なくとも１つのプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから１つまたは複数の残差チャネルを決定するステップと、少なくとも１つのプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも１つのプロセッサを用いて、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップと、少なくとも１つのプロセッサを用いて、ビットストリームをデコーダに送るステップとを含む。

一実施形態では、本方法は、少なくとも１つのプロセッサを用いて、入力オーディオ信号に基づいて入力共分散を計算するステップと、少なくとも１つのプロセッサを用いて、入力共分散を使用して全体的な予測誤差を決定するステップとをさらに含む。

一実施形態では、ダウンミックススケーリングゲインの計算は、少なくとも１つのプロセッサを用いて、デコーダに送信されたサイド情報の関数としてアップミックススケーリングゲインを決定するステップと、少なくとも１つのプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるようにアップミックススケーリングゲインを一次ダウンミックスチャネルに適用することによって、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を生成するステップと、少なくとも１つのプロセッサを用いて、入力オーディオシーンのエネルギーを保存するために多項式の閉形式解を解くことによってダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、再構成された入力オーディオシーンのエネルギーを入力オーディオシーンのエネルギーと一致させるときに決定される、ステップとをさらに含む。

一実施形態では、一次ダウンミックスチャネルおよびゼロ個以上の残差チャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、一次入力オーディオ信号の再構成された表現が一次ダウンミックスチャネルと同相になるように、サイド情報中でデコーダに送信される予測ゲインおよび無相関ゲインの関数であり、多項式は２次多項式である。

一実施形態では、一次ダウンミックスチャネルから入力オーディオシーンの表現を再構成するためのアップミックススケーリングゲインは、２次多項式を解くことによって得られるダウンミックススケーリングゲインが、指定された量子化範囲内で予測ゲインおよび無相関ゲインをスケーリングするように、デコーダに送信される予測ゲインおよび無相関ゲインの関数である。

一実施形態では、前述の方法は、エンコーダにおいて、少なくとも１つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップと、少なくとも１つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップと、エンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップと、少なくとも１つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも１つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも１つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として設定するステップと、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号（decorrelated signal）を生成するステップと、少なくとも１つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの間の共分散に第１の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散および入力オーディオ信号のサイドチャネルの分散の和に第２の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算され、少なくとも１つのエンコーダプロセッサを用いて、サイドチャネル予測についての予測誤差を最小化し、予測ゲインについて解くことによって、１次多項式を生成するステップ。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、一次ダウンミックスチャネルが一次入力オーディオ信号と同じであるかまたは一次入力オーディオ信号の遅延バージョンのいずれかであるように、パッシブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインは、予測ゲインの関数として計算される。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、少なくとも１つのプロセッサを用いて、一次オーディオ信号と入力オーディオ信号のサイドチャネルとの間の相関を決定するステップと、少なくとも１つのプロセッサを用いて、相関に基づいて入力ダウンミックスゲイン計算方式を選択するステップとを含む。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、エンコーダにおいて、少なくとも１つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいてパッシブ予測ゲインのセットを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットを第１のしきい値と比較するステップと、少なくとも１つのエンコーダプロセッサを用いて、パッシブ予測ゲインのセットが第１のしきい値以下であるかどうかを決定し、そうである場合、入力ダウンミックスゲインの第１のセットを計算するステップと、少なくとも１つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第１のセットを生成するステップと、少なくとも１つのエンコーダプロセッサを用いて、予測ゲインの第１のセットが第２のしきい値よりも高いかどうかを決定し、そうである場合、入力ダウンミックスゲインの第２のセットを計算するステップと、少なくとも１つのエンコーダプロセッサを用いて、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインの第２のセットを生成するステップと、少なくとも１つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルおよび予測ゲインの第２のセットを使用して、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、デコーダに伝送されていない残差チャネルのエネルギーに基づいて無相関ゲインを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内であるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインの第２のセットと、無相関ゲインとを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップと、少なくとも１つのエンコーダプロセッサを用いて、ビットストリームをデコーダに送るステップと、デコーダにおいて、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも１つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインおよび無相関ゲインの関数として決定するステップと、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも１つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用するステップとをさらに含む。

一実施形態では、入力ダウンミックスゲインの第１のセットはパッシブダウンミックスコーディング方式に対応する。

一実施形態では、入力ダウンミックスゲインの第１のセットはアクティブダウンミックス方式に対応し、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの第１のセットは、関数の分子が、一次入力オーディオチャネルとサイドチャネルとの共分散に第１の定数を乗じたものであり、関数の分母が、一次入力オーディオチャネルの分散およびサイドチャネルの分散の和に第２の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算される。

一実施形態では、入力ダウンミックスゲインの第２のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインの第２のセットを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。

一実施形態では、入力ダウンミックスゲインの第２のセットは、２次多項式の係数である。

一実施形態では、予測ゲインが比較されるしきい値は、予測ゲインが指定された量子化範囲内にあるように計算される。

一実施形態では、ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオ信号をスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散を計算するステップと、スケーリングされた一次入力オーディオ信号の共分散に対して固有分析（eigen analysis）を実行するステップと、一次ダウンミックスチャネルが一次入力オーディオチャネルと正に相関するように、最大固有値に対応する固有ベクトルを入力ダウンミックスゲインとして選択するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインを計算するステップは、一次入力オーディオチャネルをスケーリングするためのスケーリング係数を計算するステップと、スケーリングされた一次入力オーディオチャネルの予測ゲインの関数として入力ダウンミックスゲインを設定することによって、スケーリングされた一次入力オーディオチャネルに基づいて入力ダウンミックスゲインを計算するステップと、入力オーディオシーンの全体的なエネルギーが保存されるように一次ダウンミックスチャネルおよびサイド情報をスケーリングするためのダウンミックススケーリングゲインを計算するステップとを含む。

一実施形態では、一次入力オーディオチャネルをスケーリングするためのスケーリング係数は、一次入力オーディオチャネルの分散とサイドチャネルの分散の和の平方根との比である。

一実施形態では、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインの計算は、少なくとも１つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいて予測ゲインを決定するステップと、少なくとも１つのエンコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが入力オーディオシーンの再構成された表現において保存されるように、一次ダウンミックスチャネルおよびサイド情報をスケーリングするための第１のダウンミックススケーリングゲインを計算するステップと、少なくとも１つのエンコーダプロセッサを用いて、第１のダウンミックススケーリングゲインが第１のしきい値以下であるかどうかを決定し、その結果、入力ダウンミックスゲインの第１のセットを計算するステップと、少なくとも１つのエンコーダプロセッサを用いて、第１のダウンミックススケーリングゲインが第２のしきい値よりも高いかどうかを決定し、その結果、入力ダウンミックスゲインの第２のセットを計算するステップと、少なくとも１つのエンコーダプロセッサを用いて、入力オーディオ信号と第１または第２の入力ダウンミックスゲインとに基づいて予測ゲインの第２のセットを生成するステップと、デコーダにおいて、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルと、スケーリングされた予測ゲインの第２のセットおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップと、少なくとも１つのデコーダプロセッサを用いて、アップミックススケーリングゲインを、予測ゲインの第２のセットおよび無相関ゲインの関数として決定するステップと、少なくとも１つのデコーダプロセッサを用いて、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップと、少なくとも１つのデコーダプロセッサを用いて、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと無相関信号との組み合わせに適用するステップとをさらに含む。

一実施形態では、入力ダウンミックスゲインの第２のセットは、アクティブダウンミックスコーディング方式に対応し、一次ダウンミックスチャネルは、入力ダウンミックスゲインを一次入力オーディオチャネルおよびサイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる。

一実施形態では、システムは、１つまたは複数のプロセッサと、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、上記で説明した説明のいずれかによる動作を実行させる命令を記憶する非一時的コンピュータ可読媒体とを備える。

一実施形態では、非一時的コンピュータ可読媒体は、１つまたは複数のプロセッサによって実行されると、１つまたは複数のプロセッサに、上記で説明した方法のいずれかによる動作を実行させる命令を記憶する。

本明細書で開示される他の実装形態は、システム、装置、おびコンピュータ可読媒体を対象とする。開示される実装形態の詳細は、添付の図面および以下の説明に記載される。他の特徴、目的および利点は、説明、図面および特許請求の範囲から明らかである。本明細書で開示される特定の実装形態は、以下の利点のうちの１つまたは複数を提供する。アクティブダウンミックス戦略は、４つのＦｏＡチャネルなどの復号されたオーディオ信号の品質を向上させるためにＩＶＡＳデコーダにおいて実装される。開示されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてＷチャネルを再構成するための追加的なスケーリング項を提供し、これは、ＦｏＡチャネルの再構成に使用されるパラメータ（例えば、空間メタデータ）のより良好な推定を保証するために利用することができる。

追加的に、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改善が開示される。一実施形態では、アクティブダウンミックスコーディング方式は適応的に動作され、１つの可能な動作点はパッシブダウンミックスコーディング方式である。

図面では、説明を容易にするために、デバイス、ユニット、命令ブロック、およびデータ要素を表すものなど、概略的な要素の特定の配置または順序が示されている。しかしながら、図面における概略的な要素の特定の順序または配置が、処理の特定の順序またはシーケンス、またはプロセスの分離が必要とされることを暗示することを意味するものではないことは当業者によって理解されるべきである。さらに、概略的な要素を図面に含めることは、そのような要素がすべての実施形態において必要とされること、またはそのような要素によって表される特徴が、いくつかの実装形態において他の要素に含まれないか、もしくは他の要素と組み合わされない可能性があることを暗示することを意味するものではない。

さらに、図面において、実線または破線または矢印などの接続要素が、２つ以上の他の概略的な要素の間の接続、関係、または関連付けを示すために使用される場合、そのような接続要素が存在しないことは、接続、関係、または関連付けが存在し得ないことを暗示することを意味するものではない。言い換えると、要素間のいくつかの接続、関係、または関連付けは、本開示を不明瞭にしないように、図面に示されていない。加えて、説明を容易にするために、単一の接続要素が要素間の複数の接続、関係、または関連付けを表すために使用される。例えば、接続要素が、信号、データ、または命令の通信を表す場合、そのような要素は、必要に応じて、通信に影響を与えるために、１つまたは複数の信号経路を表すことが当業者によって理解されるべきである。
一実施形態による、ＩＶＡＳコーデックのユースケースを示す。一実施形態による、ＩＶＡＳビットストリームを符号化および復号するためのシステムのブロック図である。一実施形態による、オーディオを符号化するプロセスのフロー図である。一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。一実施形態による、オーディオを符号化および復号するプロセスのフロー図である。一実施形態による、適応ダウンミックス方式を用いて１チャネルダウンミックスモードで動作するＳＰＡＲＦＯＡデコーダのブロック図である。一実施形態による、適応ダウンミックス方式を用いて１チャネルダウンミックスモードで動作するＳＰＡＲＦＯＡエンコーダのブロック図である。一実施形態による、例示的なデバイスアーキテクチャのブロック図である。

様々な図面において使用される同じ参照符号は、同様の要素を示す。

以下の詳細な説明では、説明される様々な実施形態の完全な理解を与えるために、多数の具体的な詳細が記載される。説明される様々な実装形態がこれらの具体的な詳細なしに実施され得ることは、当業者には明らかであろう。他の事例では、周知の方法、手順、構成要素、および回路は、実施形態の態様を不必要に不明瞭にしないように、詳細には説明されていない。それぞれ互いに独立して、または他の特徴の任意の組み合わせとともに使用することができるいくつかの特徴について以下で説明する。
名称

本明細書で使用される場合、「含む（includes）」という用語およびその変形は、「～を含むがこれらに限定されない（includes, but is not limited to）」ことを意味するオープンエンドの用語として読まれるべきである。「または（or）」という用語は、文脈が明らかにそうでないことを示さない限り、「および／または（and/or）」として読まれるべきである。「～に基づいて（based on）」という用語は、「～に少なくとも部分的に基づいて（based at least in part on）」として読まれるべきである。「１つの例示的な実装形態（one example implementation）」および「例示的な実装形態（an example implementation）」という用語は、「少なくとも１つの例示的な実装形態（at least one example implementation）」として読まれるべきである。「別の実装形態（another implementation）」という用語は、「少なくとも１つの他の実装形態（at least one other implementation）」として読まれるべきである。「決定された（determined）」、「決定する（determines）」、または「決定すること（determining）」という用語は、取得すること、受信すること、計算すること、算出すること、推定すること、予測すること、または導出することとして読まれるべきである。加えて、以下の説明および特許請求の範囲では、別様に定義されない限り、本明細書で使用されるすべての技術用語および科学用語は、本開示が属する分野の当業者によって一般に理解されるのと同じ意味を有する。
ＩＶＡＳユースケースの例

図１は、１つまたは複数の実装形態による、ＩＶＡＳコーデック１００のためのユースケース１００を示す。いくつかの実装形態では、様々なデバイスは、例えば、公衆交換電話網（ＰＳＴＮ）またはＰＳＴＮ／他のＰＬＭＮ１０４によって示される公衆陸上移動体通信網デバイス（ＰＬＭＮ）からオーディオ信号を受信するように構成されたコールサーバ１０２を介して通信する。ユースケース１００は、拡張音声サービス（ＥＶＳ）、マルチレート広帯域（ＡＭＲ－ＷＢ）および適応マルチレート狭帯域（ＡＭＲ－ＮＢ）をサポートするデバイスを含むがこれらに限定されない、オーディオをモノラルのみでレンダリングおよびキャプチャするレガシーデバイス１０６をサポートする。ユースケース１００はまた、ステレオオーディオ信号をキャプチャおよびレンダリングするユーザ機器（ＵＥ）１０８、１１４、またはモノラル信号をキャプチャし、マルチチャネル信号へとバイノーラルレンダリングするＵＥ１１０をサポートする。ユースケース１００はまた、それぞれ、ビデオ会議室システム１１６、１１８によってキャプチャおよびレンダリングされる没入型およびステレオ信号をサポートする。ユースケース１００はまた、ホームシアターシステム１２０のためのステレオオーディオ信号のステレオキャプチャおよび没入型レンダリングと、仮想現実（ＶＲ）ギア１２２および没入型コンテンツインジェスト１２４のためのオーディオ信号のモノラルキャプチャおよび没入型レンダリングのためのコンピュータ１１２とをサポートする。
例示的なＩＶＡＳコーデック

図２は、一実施形態による、ＩＶＡＳビットストリームを符号化および復号するためのＩＶＡＳコーデック２００のブロック図である。ＩＶＡＳコーデック２００は、エンコーダおよび遠端デコーダを含む。ＩＶＡＳエンコーダは、空間分析およびダウンミックスユニット２０２と、量子化およびエントロピーコーディングユニット２０３と、コア符号化ユニット２０６と、モード／ビットレート制御ユニット２０７とを含む。ＩＶＡＳデコーダは、量子化およびエントロピー復号ユニット２０４と、コア復号ユニット２０８と、空間合成／レンダリングユニット２０９と、デコリレータユニット２１１とを含む。

空間分析およびダウンミックスユニット２０２は、オーディオシーンを表すＮチャネル入力オーディオ信号２０１を受信する。入力オーディオ信号２０１は、モノラル信号、ステレオ信号、バイノーラル信号、空間オーディオ信号（例えば、マルチチャネル空間オーディオオブジェクト）、ＦｏＡ、高次アンビソニックス（ＨｏＡ）、および任意の他のオーディオデータを含むがこれらに限定されない。Ｎチャネル入力オーディオ信号２０１は、空間分析およびダウンミックスユニット２０２によって、指定された数のダウンミックスチャネル（Ｎ＿ｄｍｘ）にダウンミックスされる。この例では、Ｎ＿ｄｍｘは、Ｎ以下である。空間分析およびダウンミックスユニット２０２はまた、Ｎ＿ｄｍｘ個のダウンミックスチャネル、空間メタデータ、およびデコーダにおいて生成される無相関信号からＮチャネル入力オーディオ信号２０１を合成するために遠端ＩＶＡＳデコーダが使用することができるサイド情報（例えば、空間メタデータ）を生成する。いくつかの実施形態では、空間分析およびダウンミックスユニット２０２は、ステレオ／ＦｏＡオーディオ信号を分析／ダウンミックスするためのＣＡＣＰＬ（complex advanced coupling）および／またはＦｏＡオーディオ信号を分析／ダウンミックスするためのＳＰＡＲ（SPAtial reconstruction）を実装する。他の実施形態では、空間分析およびダウンミックスユニット２０２は、他のフォーマットを実装する。

Ｎ＿ｄｍｘ個のチャネルは、コア符号化ユニット２０６（例えば、ＥＶＳコア符号化ユニット）に含まれるモノラルまたは１つまたは複数のマルチチャネルコアコーデックのＮ＿ｄｍｘ個のインスタンスによってコーディングされ、サイド情報（例えば、空間メタデータ（ＭＤ））は、量子化およびエントロピーコーディングユニット２０３によって量子化およびコーディングされる。次いで、コーディングされたビットは、ビットストリーム（複数可）（例えば、ＩＶＡＳビットストリーム（複数可））に一緒にパックされ、ＩＶＡＳデコーダに送られる。この例示的な実施形態およびＥＶＳコーデックに従う実施形態が説明され得るが、任意のモノラル、ステレオまたはマルチチャネルコーデックが、ＩＶＡＳコーデック２００におけるコアコーデックとして使用され得る。

いくつかの実施形態では、量子化は、次第に粗くなるいくつかのレベルの量子化（例えば、精細量子化、中間量子化、粗量子化、および超粗量子化）を含むことができ、エントロピーコーディングは、ハフマンコーディングまたは算術コーディングを含むことができる。

いくつかの実施形態では、コア符号化ユニット２０６は、３ＧＰＰ（登録商標）ＴＳ２６．４４５に準拠し、狭帯域（ＥＶＳ－ＮＢ）および広帯域（ＥＶＳ－ＷＢ）スピーチサービスのための拡張された品質およびコーディング効率、超広帯域（ＥＶＳ－ＳＷＢ）スピーチを使用する拡張された品質、会話アプリケーションにおける混合コンテンツおよび音楽のための拡張された品質、パケット損失および遅延ジッタに対するロバスト性、ならびにＡＭＲ－ＷＢコーデックへの後方互換性など、広範囲の機能を提供する。

いくつかの実施形態では、コア符号化ユニット２０６は、モード／ビットレート制御ユニット２０７の出力に基づいて、指定されたビットレートで、オーディオ信号を符号化するための知覚コーダと、スピーチ信号を符号化するためのスピーチコーダとから選択する前処理およびモード／ビットレート制御ユニット２０７を含む。いくつかの実施形態では、スピーチエンコーダは、代数符号励振型形予測（ＡＣＥＬＰ：algebraic code-excited linear prediction）の改良型であり、異なるスピーチクラスのための特殊な線形予測（ＬＰ）ベースのモードで拡張されている。いくつかの実施形態では、知覚エンコーダは、低遅延／低ビットレートで向上した効率を有する修正離散コサイン変換（ＭＤＣＴ：modified discrete cosine transform）エンコーダであり、スピーチエンコーダとオーディオエンコーダとの間のシームレスで信頼できる切り替えを実行するよう設計される。

デコーダにおいて、Ｎ＿ｄｍｘ個のチャネルは、コア復号ユニット２０８に含まれるモノラルコーデックの対応するＮ＿ｄｍｘ個のインスタンスによって復号され、サイド情報は、量子化およびエントロピー復号ユニット２０４によって復号される。一次ダウンミックスチャネル（例えば、ＦｏＡ信号フォーマットのＷチャネル）は、Ｎ－Ｎ＿ｄｍｘ個の無相関チャネルを生成するデコリレータユニット２１１に供給される。Ｎ＿ｄｍｘ個のダウンミックスチャネル、Ｎ－Ｎ＿ｄｍｘ個の無相関チャネルおよびサイド情報は、空間合成／レンダリングユニット２０９に供給され、これは、これらの入力を使用して元のＮチャネル入力オーディオ信号を合成または再生成する。一実施形態では、Ｎ＿ｄｍｘ個のチャネルは、ＥＶＳモノラルコーデック以外のモノラルコーデックによって復号される。他の実施形態では、Ｎ＿ｄｍｘ個のチャネルは、１つまたは複数のマルチチャネルコアコーディングユニットおよび１つまたは複数のシングルチャネルコアコーディングユニットの組み合わせによって復号される。
アクティブダウンミックス戦略によるＩＶＡＳコーディング
１．０導入部

以下の開示は、復号されたＦｏＡチャネルの品質を向上させるためのアクティブダウンミックス戦略を説明する。提案されるアクティブダウンミックス技法は、シングルまたはマルチチャネルのダウンミックスチャネル構成で使用可能である。パッシブダウンミックス方式と比較してアクティブダウンミックスコーディング方式は、デコーダにおいてＷチャネルを再構成するための追加的なスケーリング項を提供し、これは、ＦｏＡチャネルの再構成に使用されるパラメータ（例えば、空間メタデータ）のより良好な推定を保証するために利用することができる。

加えて、アクティブダウンミックスコーディング方式が調査され、シングルおよびマルチチャネルダウンミックスの場合について潜在的な改良が提案される。一実施形態では、アクティブダウンミックス方式は、適応的に実行され得、１つの可能な動作点はパッシブダウンミックスコーディング方式である。
２．０用語および問題提起
２．１．ＦｏＡ入力を用いたＳＰＡＲによるパッシブダウンミックスの例示的な実装形態

ＳＰＡＲエンコーダは、ＦｏＡ入力で動作するとき、オーディオシーンを表すＦｏＡ入力オーディオ信号を、ＳＰＡＲデコーダにおいて入力信号を再生成するために使用されるダウンミックスチャネルおよび空間パラメータのセットに変換する。ダウンミックス信号は、１チャネルから４チャネルまで変化することができ、パラメータは、予測パラメータＰ、相互予測パラメータＣおよび無相関パラメータｄを含む。これらのパラメータは、指定された数の周波数帯域（例えば、１２個の周波数帯域）における窓掛けされた入力オーディオ信号の入力共分散行列から計算される。

ＳＰＡＲパラメータ抽出の例示的な表現は、以下の通りである：

１．式［１］を使用して一次オーディオ信号Ｗからすべてのサイド信号（Ｙ，Ｚ，Ｘ）を予測する：

ここで、一例として、予測チャネルＹ’の予測係数は、式［２］に示すように計算される：

ここで、ｎｏｒｍ_{ｓｃａｌｅ}は、正規化スケーリング係数で、０から１の間の定数であり、Ｒ_ＹＷ＝ｃｏｖ（Ｙ，Ｗ）は、チャネルＹおよびＷに対応する入力共分散行列の要素である。同様に、Ｚ’およびＸ’残差チャネルは、対応するパラメータｐｒ_Ｚおよびｐｒ_Ｘを有する。Ｐは、いくつかの実施形態では、［ｐ_１，ｐ_２，ｐ_３］^Ｔとも呼ばれる予測パラメータＰ＝［ｐｒ_Ｙ，ｐｒ_Ｚ，ｐｒ_Ｘ］^Ｔのベクトルである。上述したダウンミックスは、Ｗがダウンミックスプロセス中に全く変更されないか、単に遅延されるかのいずれかであるパッシブＷダウンミックスとも呼ばれる。

２．Ｗチャネルおよび予測チャネル（Ｙ’，Ｚ’，Ｘ’）を音響的に関連性の高いものから低いものへとリミックスする。ここで、リミックスは、式［４］に示されるように、何らかの方法に基づいてチャネルを並べ替えたり再結合したりすることを含む：

リミックスの一実施形態は、左右からのオーディオキューが前後からのキューよりも重要であり、最後に上下のキューが重要であるという仮定を考慮すると、入力チャネルをＷ、Ｙ’、Ｘ’、Ｚ’に並べ替えることであり得ることに留意されたい。

３．式［５］および［６］に示されるように、４チャネルポスト予測（post-prediction）およびリミックスダウンミックスの共分散を計算する：

ここで、ｄｄは、Ｗを超える余分なダウンミックスチャネル（例えば、第２から第Ｎ－ｄｍｘチャネル）を表し、ｕは、完全に再生成される必要があるチャネル（例えば、第（Ｎ＿ｄｍｘ＋１）から４チャネル）を表す。

１～４ダウンミックスチャネルを有するＷＡＢＣダウンミックスの例の場合、ｄおよびｕは、以下のチャネルを表し、ここで、プレースホルダ変数Ａ、Ｂ、Ｃは、ＦｏＡにおけるＸ、Ｙ、Ｚチャネルの任意の組み合わせであり得る：

４．これらの計算から、送信されている残差チャネルから完全パラメトリックチャネルの任意の残りの部分を交差予測することが可能であるかどうかを決定する。必要とされる余分なＣ係数は、次の通りである：

したがって、Ｃは、３チャネルダウンミックスに対して（１×２）の形状を有し、２チャネルダウンミックスに対して（２×１）の形状を有する。空間ノイズ充填の一実装形態は、これらのＣパラメータを必要とせず、これらのパラメータは、０に設定することができる。空間ノイズ充填の代替的な実装形態もまたＣパラメータを含み得る。

５．デコリレータによって充填されなければならないパラメータ化されたチャネルにおける残りのエネルギーを計算する。アップミックスチャネルＲｅｓ_ｕｕにおける残差エネルギーは、実際のエネルギーＲ_ｕｕ（ポスト予測）と再生成された交差予測エネルギーＲｅｇ_ｕｕとの間の差分である：

ここで、ｓｃａｌｅは、正規化スケーリング係数である。ｓｃａｌｅは、広帯域値（例えば、ｓｃａｌｅ＝０．０１）または周波数依存であり得、異なる周波数帯域では異なる値をとり得る（例えば、スペクトルが１２個の帯域に分割される場合、ｓｃａｌｅ＝ｌｉｎｓｐａｃｅ（０．５，０．０１，１２））。式［１１］のｄにおけるパラメータは、予測解除およびミキシング解除の前にＡ、Ｂ、Ｃチャネルを再作成するために、Ｗの無相関化された成分がどれだけ使用されるかを決定する。

１チャネルパッシブダウンミックス構成では、Ｗチャネル、Ｐ（ｐ_１，ｐ_２，ｐ_３）パラメータおよびｄ（ｄ_１，ｄ_２，ｄ_３）パラメータのみがコーディングされ、デコーダに送られる。

パッシブダウンミックスコーディング方式では、サイドチャネルＹ、Ｘ、Ｚは、３つの予測パラメータＰを使用して、送信されたダウンミックスＷからデコーダにおいて予測される。サイドチャネル内の失われたエネルギーは、無相関パラメータｄを使用して無相関化されたダウンミックスＤ（Ｗ）のスケーリングされたバージョンを加算することによって充填される。パッシブダウンミックスの場合、ＦｏＡ入力の再構成は次のように行われる：

ここで、ｐ＝［１ｐ_１ｐ_２ｐ_３］^Ｔ、ｄ＝［０ｄ_１ｄ_２ｄ_３］^Ｔであり、Ｄ（Ｗ）は、デコリレータブロックへの入力としてＷチャネルを有するデコリレータ出力を記述する。完全なデコリレータを仮定し、予測およびデコリレータパラメータの量子化がないと仮定すると、この方式は、入力共分散行列に関して完全な再構成を達成することに留意されたい。

パッシブダウンミックスは、多くの場合、デコリレータが不完全であり、予測パラメータおよびデコリレータパラメータのために利用可能な量子化範囲が限られていることにより、より低いダウンミックスチャネル構成をもつデコーダ出力において入力シーンを再構成することができない。したがって、アクティブダウンミックス方式は、所望の量子化範囲内にあるより良好な予測係数推定値を生成することによって全体的な予測誤差を低減することが望まれる。
２．２既存のアクティブダウンミックスコーディング方式

アクティブダウンミックスを行うための既存のソリューションが、付録Ａの見出し「1. Active Predictor used in IVAS（１．ＩＶＡＳで使用されるアクティブ予測器）」および「2. A solution based on rule 3B（２．規則３Ｂに基づくソリューション）」で記載されている。このソリューションは、Ｗ、Ｘ、Ｙ、Ｚ入力チャネルをスケーリングおよび加算することによって、支配的な固有信号の表現を生成することを目的とする。予測行列またはダウンミックス行列は、付録Ａの式（６）で以下のように与えられる：

ダウンミックスチャネルＷ’は、次のように計算される：

ここで、Ｕは、以下のように与えられる入力ＦｏＡ信号である：

デコーダは、以下のように与えられるアップミックス行列をＷ’に適用する：

ここで、ｄは、無相関パラメータ（ｄ_１，ｄ_２，ｄ_３）であり、再構成されたＦｏＡ信号は、以下のように与えられる：

ここで、Ｄ１（Ｗ’）、Ｄ２（Ｗ’）、Ｄ３（Ｗ’）はデコリレータブロックの３つの出力である。

このソリューションは一般に、パッシブダウンミックス方式よりも良好な予測パラメータの推定値を提供し、予測パラメータを所望の量子化範囲内にし、全体的な予測誤差を低減する。しかしながら、このソリューションは、ダウンミックスＷ’からＷチャネルを再構成するためにデコリレータ出力に依存するので、オーディオアーチファクトにつながる可能性がある。また、入力ダウンミックスゲイン

が予測パラメータに対して正比例することを考慮すると、このソリューションでは、所望されるよりも高い予測パラメータの推定値を提供し、再構成されたＦｏＡ出力に空間歪みをもたらし得ることが観察されている。
２．３提案される適応ダウンミックスコーディング方式の例示的な実施形態
２．３．１適応ダウンミックスコーディング方式

以下で説明される適応ダウンミックス戦略（本明細書では適応アクティブダウンミックス戦略とも呼ばれる）の目標は、様々な方法によって、［１３］で与えられる入力ダウンミックスゲイン（本明細書ではアクティブダウンミックス係数とも呼ばれる）

を計算することによって予測パラメータｐのより良好な推定値を提供することである。

いくつかの実施形態では、入力ダウンミックスゲインは、総二乗予測誤差が最小化されるように計算され、予測波形誤差は、以下のように与えられる：

そして、平均二乗予測誤差（信号あたりの予測誤差）（４×１）は、以下のように与えられる：

ここで、総二乗予測誤差は、以下のように与えられる：

ここで、ｐは、逆予測行列である。

いくつかの実施形態では、入力ダウンミックスゲインは、付録Ａの式（１０）の

によって与えられるポスト予測共分散が最小化されるように計算される。

いくつかの実施形態では、入力ダウンミックスゲインは、予測パラメータが所望の量子化範囲内であるように計算される。

低ダウンミックスチャネル構成について、ＳＰＡＲコーディングによるオーディオ品質は、現在のパッシブダウンミックスコーディング方式よりも、開示されるアクティブダウンミックスコーディング方式を用いたが良好であることが観察されている。しかしながら、いくつかのオーディオコンテンツについては、パッシブダウンミックス方式の方がより品質が良く、アクティブダウンミックスコーディング方式の適応動作を示唆している。

上記で説明した観察に基づいて、信号特性に応じて入力ダウンミックスゲインを計算する適応ダウンミックス方式が以下に開示される。入力ダウンミックスゲインのこの信号依存計算は、処理された周波数帯域およびオーディオフレームごとに、またはオーディオフレームごとにすべての周波数帯域について組み込まれ得る、
２．３．１．１最小誤差に基づく入力ダウンミックスゲインの選択

一実施形態では、［１３］で与えられる入力ダウンミックスゲイン

の係数「ｆ」の選択は、可能性のある各ｆについて総予測誤差（式［２０］）を計算し、最小の総予測誤差を有するものを選択することから導出される。入力共分散Ｒが利用可能になると、総予測誤差を共分散領域において効率的に計算することができることに留意されたい。
２．３．１．２音声アクティビティに基づく適応ダウンミックス方式

音声信号の場合、ｆの値が高いと、データ送信中の空間快適ノイズの性能が損なわれる可能性があることが観測されている。スピーチ信号中の背景ノイズは一般に拡散しており、アグレッシブなアクティブＷ方式では、Ｗダウンミックスチャネルが残差Ｘ、ＹおよびＺチャネルから所望よりも多くのエネルギーを取る結果になる可能性がある。完全パラメトリックコーディングでは、快適ノイズソリューションデコーダは、アクティブＷダウンミックスチャネルと同じスペクトル形状を有する４つの無相関快適ノイズチャネルを生成する。次いで、これらの無相関チャネルは、ＳＰＡＲパラメータを使用して整形される。きわめて低いビットレート、ＳＰＡＲパラメータの粗量子化、および不連続送信モード（ＤＴＸ）フレーム中の完全パラメトリック再構成を考慮すると、現在のパラメトリック再構成の場合、アクティブＷチャネル中の追加のエネルギーは決して除去されず、出力Ｗチャネルは、空間的に崩壊した高エネルギーの快適ノイズである。

また、デコーダにおける再構成された背景ノイズは、音声アクティビティ検出（ＶＡＤ）アクティブフレームおよびＶＡＤ非アクティブフレーム中に連続して聞こえることが望ましい。一実施形態では、ＶＡＤ非アクティブフレーム中のパッシブダウンミックス方式およびＶＡＤアクティブフレーム中のアクティブ方式は、ＩＶＡＳコーデックの全体的な性能を損なう可能性がある。しかしながら、主観的評価では、ｆの値が低減されると（例えば、０．２５）、概して、非アクティブフレームに対して良好に機能し、ｆの値が高いと（例えば、０．５）が、アクティブフレームに対して良好に機能することが観察された。ｆのこの条件付き適用はまた、アクティブフレームと非アクティブフレームとの間の遷移を滑らかに保つのに役立つ。

一実施形態では、アクティブＷ構成におけるＳＰＡＲは、ＶＡＤ決定に基づいて異なるｆの値を動的に選択し、ＶＡＤは、ＦｏＡ信号を入力とする。ＶＡＤがアクティブの場合にはｆの高い値を選択することができ、ＶＡＤが非アクティブの場合にはｆの低い値を選択することができる。
２．３．１．３予測パラメータの所望の範囲に基づく適応ダウンミックスコーディング方式

適応ダウンミックス戦略の以下の実施形態は、付録Ａ（Analysis of ActiveW Method）を参照して説明される。付録Ａ中の式への参照は、角括弧内に配置される付録Ａにない式と区別するために丸括弧内に配置される。
ＩＶＡＳ法の第１の変形（付録Ａの規則３Ｂに基づく）

一実施形態では、ｆ＝０の場合、復号は、上記で説明したパッシブダウンミックス方式に戻り、その結果、予測パラメータ「ｇ」が制限されない可能性があるという問題が生じる。ｆをより大きい値（例えば、ｆ＝０．５）に設定することで、式［１７］の正の実数値「ｇ」の範囲を

に制約することができる。ｆを小さく保ち、ｇが大きくなりすぎるのを防ぐために必要があるときにのみｆのより大きい値を使用することによってアクティブダウンミックス戦略の安定性が向上し得るという証拠がいくつか存在する。

一実施形態では、アクティブダウンミックス戦略の潜在的な変形は、ｇ＜ｇ’（ｇ’は予測パラメータの所望の範囲である）を維持する限り、可能ならいつでもｆ＝０に設定することであり、そうでなければ、ｇ＝ｇ’になるようにｆを選択する。これにより、ｇの値が過度に大きくなる場合（ｇ＞ｇ’の場合）、式（１７）においてｇ＝ｇ’に設定し、次に、ｇ＝ｇ’に設定し、ｆの値を求めることによって、二次方程式Ｑ（ｆ）＝（βｇ’^３）ｆ^２＋（２αｇ’^２－βｇ’）ｆ＋ｗｇ’－αを解いて、ｆを求める：

二次方程式が常に少なくとも１つの実数解をもち、最大の実数解が範囲

にあることを保証するためには、以下であることに留意されたい。

ｇ’についてのいくつかの例示的な値は、１．０（ｆ［０ｔｏ１］）、１．４１４（ｆ［０ｔｏ０．５］）、および２（ｆ［０ｔｏ０．２５］）である。上記の観察は、式［２３］および［２４］に示されるように要約される：

上記の式［２３］および［２４］は、付録Ａの規則１（ｆを一定に保つ）に違反し、したがって、追加のメタデータがデコーダにシグナリングされることを必要とし得ることに留意されたい。値「ｆ」を示すための追加のメタデータを送ることは、セクション２．３．１．４で説明したスケーリング方法を使用することで回避することができる。
ＩＶＡＳ法の第２の変形（付録Ａの規則３Ｂに基づく）

ｇが小さい場合には小さいｆの値が望ましく、ｇが大きい場合にはより大きいｆの値がより良好な結果を与え得ることが観察される。ｆとｇとの間には、すべての場合で最適な結果を与えるために利用することができる何らかの線形関係が存在し得る。例えば、ｆ＝ｋｇ（ｋは１．０以下の定数（典型的には０．５））である場合、

であり、この関数は次の場合に良好に振る舞う：

したがって、０とｋ^－１／３との間には少なくとも１つの根が存在する。この関数の導関数は、以下である：

２．３．１．４スケーリングを伴うアクティブダウンミックスコーディング
ＩＶＡＳ法の変形（付録Ａの規則３Ｂに基づく）

付録Ａの式（８）の元の逆予測行列は、以下のように与えられる：

この逆予測行列を用いて、Ｗ’、Ｙ’、Ｘ’およびＺ’から一次チャネルＷを再構成することができ、ここで、Ｗ’、Ｙ’、Ｘ’およびＺ’は、予測後のダウンミックスチャネルである。しかしながら、パラメトリック再構成の場合、Ｎ_ｄｍｘ個のダウンミックスチャネルのみが存在し、Ｎ_ｄｍｘは４未満である。その場合、欠けているダウンミックスチャネルは、ダウンミックスされたチャネルの帯域化された（banded）エネルギー推定値および無相関化されたＷ’信号を使用してパラメトリックに再構成される。パラメトリック再構成では、［３０］で与えられる逆予測行列は、Ｗ’からＷを再構成することができないことがあり、Ｗをさらに破損することがある。

一実施形態では、この問題を解決する方法を１チャネルダウンミックスについて以下に示す。

新しい逆予測行列は以下のように与えられる：

ここで、ｇ’はｇ／ｒであり、ｒは、逆予測のＷチャネル出力が、定数である予測行列ｆ_ｓへのＷチャネル入力とエネルギー整合するようにＷ’に適用されるスケーリング係数である。

一実施形態では、式［３１］によって与えられる逆予測行列における「ｆ_ｓ」の値は、入力ダウンミックスゲインを計算する間にエンコーダにおいて使用される係数「ｆ」の値に依存しない定数値である。この実施形態では、入力ダウンミックスゲインは、追加のメタデータをデコーダに送ることなく計算することができる。

新しい予測行列は以下のように与えられる：

ポスト予測行列およびポスト逆予測行列（出力共分散行列とも呼ばれる）は、以下のように計算することができる：

ここで、「Ｐｒｅｄ」は、式［３２］で与えられる予測行列であり、ｉｎ_ｃｏｖは、入力チャネルの共分散行列である。出力共分散行列は、以下によって与えられる：

ここで、「ＩｎｖＰｒｅｄ」は、式［３１］で与えられる逆予測行列である。

ｒ＝１のとき、ｗ＝ｉｎ_ｃｏｖ（１，１）（すなわち、入力Ｗチャネルの分散）とし、ｍ＝ｐｏｓｔｐｒｅｄ_ｃｏｖ（１，１）（すなわち、ポスト予測されたＷチャネルの分散）とする。

式［３２］の「Ｐｒｅｄ」および式［３１］の「ＩｎｖＰｒｅｄ」を式［３３］および式［３４］に代入すると、次のようになる：

分散ｏｕｔ_ｃｏｖ（１，１）＝ｗを一致させるために、

これを、ｒについて解くと次のようになる：

予測の後、ダウンミックスチャネルＸ’、Ｙ’およびＺ’は、Ｗ’から予測され得ない信号を含む残差チャネルを示す。パラメトリックアップミックスの場合、１つまたは複数の残差チャネルは、デコーダに送られなくてもよい。むしろ、それらのエネルギーレベルの表現（Ｐｄまたは無相関パラメータとも呼ばれる）がコーディングされてデコーダに送られる。デコーダは、Ｗ’、デコリレータブロック、およびＰｄパラメータを使用して、失われた残差チャネルをパラメトリックに再生成する。

ｄパラメータは、以下のように計算することができる：

ここで、「ｓｃａｌｅ」パラメータは正規化スケール係数である。一実施形態では、ｓｃａｌｅは、広帯域値（例えば、ｓｃａｌｅ＝０．０１）または周波数依存であり得、異なる周波数帯域では異なる値をとり得る（例えば、スペクトルが１２個の帯域に分割される場合、ｓｃａｌｅ＝ｌｉｎｓｐａｃｅ（０．５，０．０１，１２））。式［３３］のようにＲＷＷ＝ｍｒ^２＝ｐｏｓｔｐｒｅｄ_ｃｏｖ（１，１）であり、Ｒｅｓｕｕは、デコーダにおいてパラメトリックにアップミックスされるべき残差チャネルの共分散行列である。１チャネルダウンミックスの場合、Ｒｅｓｕｕは、Ｒｅｓｕｕ＝ｐｏｓｔｐｒｅｄ_ｃｏｖ（２：４，２：４）によって与えられる３×３の共分散行列である。

いくつかの実装形態では、ダウンミックススケール係数「ｒ」は、予測パラメータと無相関パラメータの両方の関数であり得、１チャネルダウンミックスについての無相関パラメータは、式［３９］において定義される。改善されたスケーリングを有する１チャネルダウンミックスの場合、逆予測行列は以下のようになる：

ここで、ｆ_ｓおよびｆ_ｓ ^’は定数であり、例えば、ｆ_ｓ＝ｆ_ｓ’＝０．５、ｄ’＝ｄ／ｒ、ｇ’＝ｇ／ｒであり、ここで、ｒ＝ｆ（ｇ，ｄ）、ｄ＝ｓｑｒｔ（ｓｕｍ（ｄｉａｇ（Ｐｄ）））であり、Ｐｄは、式［３９］にしたがって計算される。

式［３３］および［３４］を使用してｒの値を求める、

最終的な復号／アップミックスされた出力は以下のように与えられる：

Ｗ’は、ポスト予測され、スケーリングされたダウンミックスチャネルであり、Ｄ１（Ｗ’）、Ｄ２（Ｗ’）、およびＤ３（Ｗ’）は、Ｗ’の無相関化された出力であり、Ｗ’’、Ｙ’’、Ｘ’’、Ｚ’’は、復号されたＦｏＡチャネルである。
２．３．１．５スケーリングを伴うパッシブダウンミックスコーディング

パッシブダウンミックス方法では、「ｇ」、例えば予測パラメータのベクトルが制限されない可能性があるという問題がある。これは、パラメトリックアップミックス構成で空間歪みをもたらす。低ビットレートでは、ダウンミックスチャネルの数は４未満とすることができ、残りのチャネルはデコーダにおいてパラメトリックにアップミックスされる。量子化により、「ｇ」が制限され、予測推定が不完全になり、アップミックスは、Ｙ、ＸまたはＺチャネルをパラメトリックに再生成するためにより多くのデコリレータエネルギーに依拠する。この問題は、ダウンミックスプロセス中にＷチャネルに動的スケーリングを適用する、以下で説明する修正されたパッシブ方式によって対処される。スケーリングは、「ｇ」が決して制限から出ないように計算され、パラメトリックアップミックスの間、より多くのエネルギーが、無相関信号の代わりにＷチャネルの利用可能な表現から導出される。

以下は、１チャネルダウンミックスによるスケーリングされたパッシブダウンミックスコーディング方式の例示的な実装形態である。

ＦｏＡ入力は、Ｕ＝［ＷＸＹＺ］^Ｔによって与えられる。入力信号（４×４）共分散行列はＲ＝ＵＵ^Ｔである。デフォルトのパッシブ方式では、予測パラメータは、

として計算され、ここでｐ＝［１ｐ_１ｐ_２ｐ_３］^Ｔである。ダウンミックス予測行列は、以下のように与えられる：

スケーリングにより、ダウンミックス予測行列は以下のように変更される：

これらの値を式［３３］および［３４］に入れ、ｏｕｔ_ｃｏｖ（１，１）＝Ｗを等式化すると、次のようになる：

ここで、ｒの値を求めると、次のようになる：

スケーリングされたパッシブダウンミックス方式では、デコーダに送信される予測パラメータが量子化されてｐ１／ｒ、ｐ２／ｒ、ｐ３／ｒとなる。スケーリング係数「ｒ」は予測パラメータの関数であるので、予測パラメータが所望の範囲内であることを保証するのに十分なだけＷのエネルギーをブーストする。スケーリング係数「ｒ」は、帯域化されるか、または広帯域値であり得る。

いくつかの実装形態では、スケーリング係数「ｒ」は、式［４１］に示すように、予測パラメータと無相関パラメータの両方の関数であり得る。パッシブダウンミックスの場合、このスケーリング係数は次ようになる：

２．３．１．６スケーリングを伴う適応ダウンミックスコーディング

スケーリングされたアクティブＷダウンミックスコーディング方法は、ＷチャネルとＸ、Ｙ、Ｚチャネルとの間に高い相関があるという条件で最良に機能し、スケーリングされたパッシブＷダウンミックスコーディング方法は、相関が低いときに最良に機能することが観察される。したがって、いくつかの実装形態では、スケーリングされたパッシブＷコーディング方式とスケーリングされアクティブＷコーディング方式との間で適切に切り替えることによって、よりロバストなソリューションが導出され得る。

一実施形態では、アクティブＷダウンミックスコーディング方法は、セクション２．３．１．２に記述されたソリューションに基づくか、または付録Ａに記述されるアクティブＷダウンミックスコーディング方法に従うかのいずれかであることができる。アクティブＷダウンミックスコーディング方法のスケーリングは、セクション２．３．１．４に記述されたソリューションにしたがって実行されることができ、パッシブＷダウンミックスコーディング方法のスケーリングは、セクション２．３．１．５に記述されたソリューションにしたがって実行されることができる。スケーリングを伴う適応ダウンミックスの例示的な実装形態について以下で説明する。

ＦｏＡ入力は、Ｕ＝［ＷＸＹＺ］^Ｔによって与えられる。入力信号（４×４）共分散行列はＲ＝ＵＵ^Ｔである。パッシブ予測係数ファクタｇ_ｐｒｅｄを計算し、ここで、

であり、ｐ_１、ｐ_２、ｐ_３エリアは以下のように計算される：

ｇ_ｐｒｅｄ≧ｔｈｒｅｓｈである場合、セクション２．３．１．４の式［３１］から式［４１］に従って、アクティブＷ予測パラメータ

、スケーリング係数「ｒ」、予測行列、逆予測行列、ダウンミックスおよびアップミックス行列を計算する。

ｇ_ｐｒｅｄ＜ｔｈｒｅｓｈである場合、セクション２．３．１．５の式［４４］から式［５０］に従って、パッシブＷ予測パラメータ

デコーダ側の逆予測行列は、式［３１］および式［４７］で与えられるように、スケーリングされたパッシブＷダウンミックスコーディング方法およびスケーリングされたアクティブＷダウンミックスコーディング方法について同じであるので、ダウンミックスが、スケーリングされたアクティブＷダウンミックスコーディング方法でコーディングされるかスケーリングされたパッシブＷダウンミックスコーディング方法でコーディングされかをシグナリングするための追加のサイド情報は必要とされない。別の手法は、セクション２．３．１．７で説明されるように、最大スケール係数ｒに基づく。
２．３．１．７スケーリングされたパッシブダウンミックスとスケーリングされたアクティブダウンミックスとの間のソフト切り替え

この実施形態では、Ｗ信号のスケーリングされたバージョン（例えば、Ｙ、Ｘ、Ｚ信号からの寄与なし）は、必要とされるスケーリング係数ｒが上限を超えない限り、アクティブダウンミックスコーディング方法におけるダウンミックスとして使用される。適応スケーリングは、予測およびデコリレータパラメータを量子化に良好な範囲に押し上げ、Ｙ、Ｘ、Ｚ信号の寄与をダウンミックスに混合しないことで、いくつかのタイプの信号についてはアーチファクトを回避することができる。一方、ダウンミックススケール係数ｒの大きな変動もアーチファクトにつながる可能性がある。したがって、周波数帯域ごとの最大スケール係数が上限（例えば、典型的には２．５）を超える場合、以下で説明される例示的な反復プロセスを使用して、スケーリング係数ｒが最大限界内であるように、Ｙ、Ｘ、Ｚ信号からの寄与をもつダウンミックス係数を決定することができる。元のアクティブＷアルゴリズムと比較して、追加のスケール係数ｒは、最適な予測係数を可能にする。

上記で参照された例示的な反復プロセスは、以下のように説明される：

２．３．１．８固有信号に基づくアクティブダウンミックスコーディング方式

この実施形態では、用語を以下のように定義する：エンコーダへの入力信号＝［ＷＸＹＺ］^Ｔ、ＥＶＳエンコーダに渡されるべきエンコーダ信号＝［Ｗ’ Ｘ’ Ｙ’ Ｚ’］^Ｔ（一部のチャネルは、ＥＶＳ符号化の前に破棄され得る）、デコーダにおける予測セットの前のＥＶＳデコーダ出力＝［Ｗ’’ Ｘ’’ Ｙ’’ Ｚ’’］^Ｔ（エンコーダが一部のチャネルを廃棄した場合、このベクトルのサブセットのみが存在することになる）、デコーダからの出力＝［Ｗ_ｏｕｔＸ_ｏｕｔＹ_ｏｕｔＺ_ｏｕｔ］Ｔ。

ＩＶＡＳ「コアコーダ」が、チャネルＸ’、Ｙ’、Ｚ’を廃棄し、Ｗ’チャネルをＥＶＳコーディングすることによって機能すると仮定すると、以下のようになる。

Ｗから出力信号を生成するためにデコーダにおいて使用されるパラメータに完全な自由度がある場合、一実施形態では、Kanade-Lucas-Tomasi（ＫＬＴ）タイプのＥ１コーダを実装することによって、最小二乗最適解が求められる。代替的な実施形態では、アクティブＷ予測システムの目標は、ＫＬＴ法にいくつかの制約を追加して、しばしば発生する不連続性の問題を低減し、ＫＬＴ法によって達成される最適性能にできるだけ近くなるように制約を最小限に保つ、というものである。

予測方法（パッシブおよびアクティブの両方）は、一般に、ダウンミックス信号（Ｗ’）が、元のＷ信号に対して適度に大きい正の相関を有するべきであるという考えに基づく。これを達成するための潜在的な方法は、ＫＬＴ法を、ブーストされたＷチャネルセット（例えば、Ｗチャネルがスケール係数ｈによって増幅されている４チャネルのセット）に適用することであり、以下「ブーストＫＬＴ」法と呼ぶ。ベクトルＴがこのブーストされたＷ信号を表すものとする：

そして、Ｔ×Ｔ^＊の最大固有ベクトルをＱとする：

候補のセットから固有ベクトルを選択する必要があるという事実は、Ｑが固有ベクトルである場合、λＱも同様であり、ここで、λは、大きさが１の（unity-magnitude）複素スケール係数であり、選択は、ｑ_０を非負の実数にするλの値を選択することで行われるという事実から生じることに留意されたい。λを選択する動作は、コーデックの挙動の不連続性の原因であり得、この不規則な挙動は、ｑ_０がゼロに近くないことを保証し、ブースト係数ｈを大きくして、ブーストされたｈＷ信号がＥ１信号の有意な成分を形成するのに十分な大きさになるようにすることによって回避することができる。

Ｅ１は次のように形成される：

デコーダでは、Ｔの最小二乗最良推定値が固有ベクトルＱを使用して再構成され、次いで、ブーストゲインｈを元に戻すことによって出力が形成され得る：

しかしながら、式［５６］は、送信された予測パラメータ（ｐ_１，ｐ_２，ｐ_３）および定数ｆ_ｓを使用して、スケール係数ｒ（このスケール係数はエンコーダにおいて適用される）をＥ１に適用することによって実装することができる：

式［５６］の所望の「ブーストされたＫＬＴ」挙動は、ｒが以下にしたがって選択される場合、式［５７］の方法によって達成することができる：

次いで、以下を計算する：

上記で説明した実施形態を要約すると、以下のようになる。

２．３．１．９Ｗチャネルのプリスケーリングに基づくスケーリングされたアクティブダウンミックスコーディング方式

アクティブ予測（すなわち、Ｘ、Ｙ、およびＺからの成分をＷに混合）を用いて支配的な固有信号の表現を作成する一方で、課題の１つは、周波数スペクトルにわたって、および時間領域におけるフレーム境界にわたって、支配的な固有信号の滑らかな／連続的な表現を得ることである。先に説明したアクティブ予測手法はこの問題を解決しようとするが、Ｘ、ＹおよびＺチャネルからＷへの回転（または混合）の量が過度にアグレッシブであり、不連続性（または他のオーディオアーチファクト）を生じさせるか、または全く回転せず（パッシブ予測）、最適な予測を与えることができず、予測されないエネルギーを充填するためにデコリレータにより依存するかのいずれかの場合が依然としてある。したがって、上記で説明した手法は、過度にアグレッシブであるか過度に弱すぎる予測を提供し得る。一実施形態では、Ｗは、アクティブ予測を実行する前にスケーリングされる。この実施形態の背後にある考えは、Ｗチャネルをプリスケーリングすることで、ポストアクティブ予測Ｗチャネル（または支配的な固有信号の表現）が元のＷの大部分を含むことになることが保証されることである。これは、Ｗと混合されるべきＸ、ＹおよびＺの量が低減されることを意味しており、したがって、付録Ａに記載されたソリューションと比較してそれ程アグレッシブでないアクティブ予測となるが、それでも上記で説明したパッシブ（またはスケーリングされたパッシブ）手法と比較するとより強い予測が得られる。プリスケーリングの量は、アクティブ予測を行う前にＷが支配的なエネルギー信号に近くなるように、ＷおよびＸ、Ｙ、Ｚチャネルの分散の関数として決定される。

以下は、１チャネルダウンミックスを用いたプリスケーリングされたＷアクティブ予測ダウンミックスコーディング方式の例示的な実装形態である。ＦｏＡ入力がＵ＝［ＷＸＹＺ］^Ｔとして与えられ、入力信号（４×４）共分散行列が、以下のように与えられるとする：

ここで、

は３×１単位ベクトルであり、ＲはＸ、ＹおよびＺチャネルの３×３共分散行列であり、ｗはＷチャネルの分散である。

ここで、アクティブ予測を行う前にＷチャネルをプリスケーリングする。プリスケーリング係数「ｈ」は、Ｘ、Ｙ、ＺおよびＷの分散の関数であり、以下のように計算される：

ここで、ｈはプリスケーリング係数であり、Ｈｍａｘはプリスケーリングに上限を設ける定数（例えば、４）である。

プリスケーリング行列は、以下のように与えられる：

次に、以下で与えられるスケーリングされた共分散行列ｓｃａｌｅ＿ｃｏｖ_{［４ｘ４］}＝Ｈｓｃａｌｅ＊ｉｎ＿ｃｏｖ＊Ｈｓｃａｌｅ’に基づいてアクティブ予測パラメータを計算し、以下のようにｃｕｂｉｃ（ｇ）のスケーリングされた入力共分散結果に基づいて「ｇ」の値を求める（付録Ａの式（１７）を参照）：

代替的に、付録Ａの式（２４）を参照して、以下のようにｇおよびｆの値を求めることができる：

α＞ｇ’ｗｈのとき４βｇ’ｈ（α－ｇ’ｗｈ）＞０であるので、ｆは次のように書くことができる：

ここで、Ｃは、正の定数であり、（β－２αｈｇ’）＋ａｂｓ（β－２αｈｇ’）、は０であるか、またはｈが増加するにつれて常に減少するかのいずれかであることに留意されたい。

また、α＜ｇ’ｗ（２ｈ＋δ）の場合、ｈが増加すると４βｇ’ｈ（α－ｇ’ｗｈ）が減少し、４βｇ’ｈ（α－ｇ’ｗｈ）が減少するとＣが減少することも知られており、ここでδはｈの値の増分である。

したがって、「ｆ」の全体的な値は、入力共分散が高すぎない限り、「ｈ」の値の増加とともに減少するはずであり、その場合、Ｘ、Ｙ、ＺをＷに混合するように制御することは、いずれにしても必要とされない場合がある。

ここで、プリ予測スケーリング「ｈ」およびポスト予測スケーリング「ｒ」を用いて、予測行列が以下のように計算される：

この結果、ポスト予測Ｗ信号は次のようになる：

ここで、

（または［ｐ_１，ｐ_２，ｐ_３］は、予測パラメータｒを表す３×１ベクトルであり、ｒは、アップミックスされたＷのエネルギーが入力Ｗと同じになるように、ポスト予測されたＷをスケーリングするためのスケーリング係数である。

ポスト予測スケーリング係数「ｒ」の計算は、セクション２．３．１．４の式［３７］で与えられるものと同じである：

そして、ｇは、付録Ａの式（１７）を解くことによって計算される。

ここで、スケーリングされた予測パラメータは、次のように計算される：

無相関パラメータ

一実施形態では、ダウンミックスされた（またはポスト予測された）Ｗチャネル分散は、次によって与えられる：

無相関パラメータは、ポスト予測されたＷチャネルに関してＹ、ＸおよびＺチャネルにおける正規化された無相関（または予測不可能な）エネルギーとして計算される。例示的な実装形態では、プリスケーリングされたＷアクティブダウンミックスコーディング方式を用いた無相関パラメータ（Ｐｄパラメータ）は、式［６２］に従ってスケーリングされたスケーリングされた共分散と、次式のように与えられるアクティブダウンミックス行列とから計算されることができる：

ここで、式［７７］は、符号化されてデコーダに送られるべき無相関パラメータ（３×１Ｐｄ行列またはｄ１、ｄ２およびｄ３パラメータ）を与える。また、「ｍ」は式［７２］で与えられる分散であり、ｓｃａｌｅは０から１の間の定数である。
デコーダ

一実施形態では、デコーダは、コーディングされたＷ’ ＰＣＭチャネル（式［６９］によって与えられる）と、コーディングされた予測パラメータ（式［７１］によって与えられる）と、コーディングされた無相関パラメータ（式［７７］によって与えられる）とを受け取る。モノラルチャネルデコーダ（例えば、ＥＶＳ）は、Ｗ’チャネルを復号し（例えば、復号されたチャネルをＷ’’とし）、次いで、ＳＰＡＲデコーダは、逆予測行列をＷ’’チャネルに適用して、Ｗ’’チャネルから予測可能なＸ、ＹおよびＺの要素および元のＷチャネルの表現を再構成する。

一実施形態では、逆予測行列は、以下のように与えられる（付録Ａの式（８）を参照）。

ＳＰＡＲは、逆予測行列および無相関パラメータを適用して、元のＦｏＡ信号の表現を再構成し、ＦｏＡ信号の再構成は、以下のように与えられる：

ここで、ｄ_１、ｄ_２、ｄ_３は無相関パラメータであり、Ｄ_１（Ｗ’’）、Ｄ_２（Ｗ’’）、Ｄ_３（Ｗ’’）は、Ｗ’’チャネルに関する３つの無相関チャネルである。
２．３．１．１０正規化された共分散に基づくスケーリングされたアクティブダウンミックス方式

支配的な固有信号の表現を作成する別の実施形態は、ＷＸ、ＷＹ、およびＷＺチャネルの正規化された共分散の関数としてＦｏＡ入力を回転させることによるものである。この実施形態は、Ｘ、ＹおよびＺチャネルにおける相関された成分のみがＷチャネルに混合されることを保証し、それによって、特に、デコーダ側でＸ、Ｙ、ＺのＷへの不完全な混合を元に戻す方法がないのでパラメトリックアップミックスを扱うときに、先に説明した方法によるアグレッシブな回転（または混合）に起因して生じ得るアーチファクトを低減する。この手法の別の利点は「ｇ」（アクティブ予測係数因子）の計算が簡略化され、「ｇ」の一次方程式が得られることである。

以下は、入力ＦｏＡ信号に対して（正規化された共分散係数の関数である）回転を実行することによって支配的な固有信号の表現が形成される、１チャネルダウンミックスを用いたアクティブ予測ダウンミックスコーディングの例示的な実装形態である。

ＦｏＡ入力がＵ＝［ＷＸＹＺ］^Ｔとして与えられ、入力信号（４×４）の共分散行列を以下とする：

ここで、

は、３×１単位ベクトル、ＲはＸ、ＹおよびＺチャネル間の３×３の共分散行列、ｗはＷチャネルの分散である。

「Ｆ」を、支配的な固有信号の表現を形成するためにＸ、Ｙ、ＺからＷチャネルへと行われるべき混合の量を与える正規化された「α」の関数とする。アクティブ予測行列は、以下のように与えられる（付録Ａの式（６）を参照）：

一実施形態では、「Ｆ」の計算における正規化項は、ＷにおけるエネルギーがＸ、Ｙ、およびＺチャネルと比較して低すぎるまたは高すぎるコーナーケースであっても、Ｘ、Ｙ、ＺのＷへの混合が最適となるように選択される。

式［８３］において、「ｆ」および「ｍ」は、ｆ＜＝１およびｍ＞＝１のような定数（例えば、ｆ＝０．５およびｍ＝３）であり、Ｗ分散がＸ、Ｙ、およびＺチャネル分散と比較してすでに高いとき、より低い値のＦを有することが望まれ得、したがって、係数「ｍ」は、そのような場合に所望の正規化を達成するのに役立つ。

一実施形態では、式［８３］において予測行列を入力に適用した後のポスト予測行列は、以下のように与えられる。

回転がない（すなわち、Ｆ＝０）場合、ｇ＝α／ｗであり、これは、パッシブ予測係数因子と同じである。

ＷとＸ、Ｙ、Ｚチャネルとの間の相関が非常に低く、

これは、Ｘ、Ｙ、ＺからＷに行われるべき混合量がゼロ（または０に近い）ことを意味する。逆に、ＷとＸ、Ｙ、Ｚチャネルとの間に高い相関があり、Ｗの分散がＸ、Ｙ、およびＺチャネルよりも低いとき、それは、所望されるようなＦの高い値をもたらすことになる。アクティブ予測の後、アップミックスされたＷの分散が入力Ｗと同じであることを保証するために、また、予測パラメータが所望の範囲内であることを保証するために、ポスト予測されたＷに対してスケーリングを行うことが依然として望まれ得る。

一実施形態では、スケーリング後の１チャネルダウンミックスについての実際の予測行列は、以下のように与えられる：

ここで、ｒは、ポスト予測スケーリング係数である。

この結果、ポスト予測Ｗ’信号が得られる：

ここで、Ｆは、式［８３］で与えられ、（ｕ１，ｕ２，ｕ３）は式［８２］の

によって与えられる単位ベクトルである。

ポスト予測スケーリング係数「ｒ」の計算は、式［３１］で与えられる逆予測行列および式［８６］で与えられる予測行列を使用し、それらを式［３３］および式［３４］に代入することによって、セクション２．３．１．４の式（３７）で与えられるものと同じである。

ここで、ｍは、式［３３］に従ってｒ＝１としたポスト予測されたＷ分散である。

スケーリングされた予測パラメータは、以下によって与えられる：

無相関パラメータ

式［８２］および［８６］から、ダウンミックスされた（またはポスト予測された）Ｗチャネル分散は、以下によって与えられる：

一実施形態では、無相関パラメータは、ポスト予測されたＷチャネルに関するＹ、ＸおよびＺチャネルにおける正規化された無相関の（または予測不可能な）エネルギーとして計算される。

一実施形態では、無相関パラメータ（Ｐｄパラメータ）は、式［８４］で計算されたＰｏｓｔ＿ｐｒｅｄｉｃｔｉｏｎ_{［４ｘ４］}から計算することができる：

ここで、式［９３］は、符号化されてデコーダに送られるべき無相関パラメータ（３×１Ｐｄ行列またはｄ１、ｄ２およびｄ３パラメータ）を与える。また、「ｍ’」は式［９０］で与えられる分散であり、「ｓｃａｌｅ」は０から１の間の定数である。
デコーダ

一実施形態では、デコーダは、コーディングされたＷ’ ＰＣＭチャネル（式［８７］によって与えられる）と、コーディングされた予測パラメータ（式［８９］によって与えられる）と、コーディングされた無相関パラメータ（式［９３］によって与えられる）とを受け取る。

一実施形態では、モノラルチャネルデコーダ（例えば、ＥＶＳ）は、Ｗ’チャネルを復号し（復号されたチャネルをＷ’’とすし）、次いで、ＳＰＡＲデコーダは、逆予測行列をＷ’’チャネルに適用して、Ｗ’’チャネルから予測可能なＸ、ＹおよびＺの要素および元のＷチャネルの表現を再構成する。

逆予測行列は、式［３１］と同じである：

一実施形態では、ＳＰＡＲは、逆予測行列および無相関パラメータを適用して、元のＦｏＡ信号の表現を再構成し、ＦｏＡ信号の再構成は、以下のように与えられる：

ここで、ｄ１、ｄ２、ｄ３は無相関パラメータであり、Ｄ_１（Ｗ’’）、Ｄ_２（Ｗ’’）、Ｄ_３（Ｗ’’）は、Ｗ’’チャネルに関する３つの無相関チャネルである。
２．３．２パッシブダウンミックスコーディング方式

パッシブダウンミックスコーディング方式では、Ｎ個（例えばＮ＝３）の予測パラメータおよびＭ個（例えばＭ＝３）のデコリレータパラメータを使用してＦｏＡ信号の可能性のある最良の再構成を可能にする任意のダウンミックスが送信のために選択され得る。元のＷは、パッシブダウンミックスコーディング方式のために送信され、例えば、ダウンミックス動作は実行されない。この手法の利点は、ダウンミックス信号が、信号適応ダウンミックスによってもたらされ得る可能性のある不安定性の問題が生じにくいことである。欠点は、ＦｏＡ信号Ｘ、Ｙ、Ｚの再構成（予測）が準最適であることである。したがって、Ｗを送信することと比較してＦｏＡ信号の波形再構成誤差を低減する異なるダウンミックス戦略が以下で説明される。すべての場合において、ＦｏＡ信号Ｘ、Ｙ、Ｚは、それぞれ単一の予測パラメータによって予測され、ダウンミックスはＷを表す。ダウンミックスは、ダウンミックスのエネルギーがＷのエネルギーと一致するようにスケーリングされる。アクティブダウンミックスコーディング方式においても、以下に説明するダウンミックス戦略を適用することが可能である。
２．３．２．１適応ダウンミックス戦略の提案
２．３．２．１．１平滑化

すべての適応ダウンミックス戦略について、ダウンミックス係数またはスケーリング係数が急速に（時間的に）または周波数帯域にわたって変化するとき、時間的な不安定性（アーチファクト）が生じるリスクがある。さらに、ダウンミックスがダウンサンプリングされたフィルタバンク領域で実行される場合、信号を過度に大幅に修正すると、合成におけるエイリアシング歪みが増加する可能性がある。したがって、係数は、時間および周波数にわたって比較的滑らかに変化する必要がある。一次ＩＩＲフィルタまたはＦＩＲフィルタによって時間にわたってダウンミックス係数を滑らかにすることが提案される。周波数帯域にわたって滑らかにすることは、遅延の少ない移動平均ＦＩＲフィルタを用いて行われ得る。

代替的に、適応ダウンミックスはブロードバンドダウンミックスであってもよく、例えば、時間フレーム適応ダウンミックス係数はすべての周波数帯域について同一であるが、予測およびデコリレータパラメータは周波数帯域依存である。
２．３．２．１．２安定化された固有信号

一実施形態では、入力共分散Ｒに基づいて最も高い固有値を有する固有ベクトルから導出される支配的な固有信号がデコーダに送信される。これに伴う問題は、固有信号が時間的に不安定であり得ることである。この問題は、スケーリング係数ｒを維持する追加のエネルギー（Ｗ）で（Ａ＝［ｈｑ_０ｑ_１ｑ_２ｑ_３）］となるように、セクション２．３．１．７の式［５５］にしたがって、Ｗが強制的に支配的にされた（固有ベクトルを導出する前にブーストされた）「ブーストされた」固有信号を送信することによって緩和され得る。
２．３．２．１．３アドホックヒューリスティックダウンミックス規則

この手法は、ダウンミックスが予測すべき信号とある程度相関している必要があるという観察に基づく。これは、ターゲット信号エネルギーが大きく、したがって知覚的に重要である場合に特に当てはまる。負の値の予測パラメータを許容しているので、ダウンミックス信号Ｘ、Ｙ、ＺをＷにコヒーレントに（例えば、正しい符号で）加算するように注意する必要がある。

これらの考察から、以下のダウンミックス規則（Ｍａｔｌａｂ表記）が導かれる：

これは、式［８７］にしたがったエネルギースケーリングを伴う。実験では、このダウンミックス戦略による総予測誤差は、標準的なパッシブダウンミックスの場合よりも著しく小さい。
２．３．２．１．４静的ダウンミックス係数

固定された初期係数を有する経験的に導出されたダウンミックスは、不安定性アーチファクトを受けにくい。１つの可能なダウンミックスは、次の通りである：

係数が固定されていても、Ｗのエネルギーに関してスケーリングするとき、ダウンミックスは適応的になることに留意されたい。
２．３．２．１．５反復調整

この戦略は、反復ごとに測定される式［８６］にしたがって最大予測誤差を生成する信号の寄与をＷに加算することによって、総予測誤差を反復的に低減する。総予測誤差を計算するとき、予測パラメータの量子化制限を考慮することができる。一実施形態では、以下の反復処理が適用される：

図３は、デコーダにおいて適用される復号ダウンミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化プロセス３００のフロー図である。プロセス３００は、例えば、図７を参照して説明されるシステム７００によって実施することができる。

プロセス３００は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む入力オーディオ信号を取得するステップ（３０１）と、入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップ（３０２）と、ダウンミックスコーディング方式のタイプに基づいて、一次ダウンミックスチャネルを構築するために入力オーディオ信号に適用されるべき１つまたは複数の入力ダウンミックスゲインを計算するステップであって、入力ダウンミックスゲインは、サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップ（３０３）と、一次ダウンミックスチャネルをスケーリングするための１つまたは複数のダウンミックススケーリングゲインを決定するステップであって、ダウンミックススケーリングゲインは、一次ダウンミックスチャネルからの入力オーディオシーンの再構成された表現と入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップ（３０４）と、入力オーディオ信号と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップ（３０５）と、一次ダウンミックスチャネルおよび予測ゲインを使用してサイドチャネル予測を生成し、次いでこのサイドチャネル予測をサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから１つまたは複数の残差チャネルを決定するステップ（３０６）と、ゼロ個以上の残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ（３０７）と、一次ダウンミックスチャネル、ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、サイド情報は、予測ゲインおよび無相関ゲインを含む、ステップ（３０８）と、ビットストリームをデコーダに送るステップ（３０９）とを含む。これらのステップのそれぞれは、前のセクションで詳細に説明されている。

図４Ａおよび図４Ｂは、一実施形態による、オーディオを符号化および復号するためのプロセス４００のフロー図である。プロセス４００は、例えば、図７を参照して説明したシステム７００によって実施することができる。

図４Ａを参照すると、エンコーダにおいて、プロセス４００は、一次ダウンミックスチャネルを生成するために入力オーディオ信号に適用されるべき入力ダウンミックスゲインとダウンミックススケーリングゲインとの組み合わせを計算するステップであって、入力ダウンミックスゲインは、入力オーディオ信号の入力共分散の関数として計算される、ステップ（４０１）と、入力オーディオ信号および入力ダウンミックスゲインに基づいて一次ダウンミックスチャネルを生成するステップ（４０２）と、入力オーディオ信号および入力ダウンミックスゲインに基づいて予測ゲインを生成するステップ（４０３）と、一次ダウンミックスチャネルおよび予測ゲインを使用して、サイドチャネル予測を生成し、次いでこのサイドチャネル予測を入力オーディオ信号におけるサイドチャネルから減算することによって、入力オーディオ信号におけるサイドチャネルから残差チャネルを決定するステップ（４０６）と、残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップ（４０７）と、予測ゲインまたは無相関ゲインまたは両方が指定された量子化範囲内にあるように、一次ダウンミックスチャネルをスケーリングするためのダウンミックススケーリングゲインと、予測ゲインと、無相関ゲインとを決定するステップ（４０８）と、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とをビットストリームに符号化するステップ（４０９）と、ビットストリームをデコーダに送るステップ（４１０）とを含む。

図４Ｂを参照すると、デコーダにおいて、プロセス４００は、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、スケーリングされた予測ゲインおよびスケーリングされた無相関ゲインを含むサイド情報とを復号するステップ（４１１）と、アップミックススケーリングゲインをスケーリングされた予測ゲインおよびスケーリングされた無相関ゲインの関数として設定するステップ（４１２）と、一次ダウンミックスチャネルに関して無相関化された無相関信号を生成するステップ（４１３）と、入力オーディオシーンの全体的なエネルギーが保存されるように、入力オーディオシーンの表現を再構成するために、アップミックススケーリングゲインを、一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、無相関信号との組み合わせに適用する（４１４）ステップとが続く。

図５は、一実施形態による、適応ダウンミックス方式を用いて１チャネルダウンミックスモードで動作するＳＰＡＲＦＯＡデコーダのブロック図である。ＳＰＡＲデコーダ５００は、入力としてＳＰＡＲビットストリームを受け取り、デコーダ出力において入力ＦｏＡ信号の表現を再構成し、ＦｏＡ入力信号は、一次チャネルＷと、サイドチャネルＹ、Ｚ、およびＸとを含み、復号された出力は、Ｗ’’、Ｙ’’、Ｚ’’、およびＸ’’チャネルによって与えられる。ＳＰＡＲビットストリームは、コアコーディングビットおよびサイド情報ビットにアンパックされる。コアコーディングビットは、一次ダウンミックスチャネルＷ’を再構成するコア復号ユニット５０１に送られる。サイド情報ビットは、サイド情報ビットを復号および逆量子化するサイド情報復号ユニット５０２に送られ、これは、予測ゲイン（ｐ_１，ｐ_２，ｐ_３）および無相関ゲイン（ｄ_１，ｄ_２，ｄ_３）を含む。

一次ダウンミックスチャネルＷ’は、Ｗ’に関して無相関化された３つの出力を生成するデコリレータユニット５０３に供給される。Ｙ、ＺおよびＸチャネル予測は、予測ゲイン（ｐ_１，ｐ_２，ｐ_３）を用いてＷ’チャネルをスケーリングすることによって計算され、Ｙ、ＺおよびＸチャネルの残りの無相関信号成分は、無相関ゲイン（ｄ_１，ｄ_２，ｄ_３）を用いてユニット５０３の無相関出力をスケーリングすることによって計算される。予測成分および無相関成分は、合算されて、デコーダ５００の出力において出力チャネルＹ’’、Ｚ’’およびＸ’’が得られる。

ユニット５０１の一次チャネルダウンミックスＷ’出力およびユニット５０２の復号されたサイド情報出力は、Ｗ’’チャネルのエネルギーがエンコーダ入力Ｗチャネルのエネルギーと同じになるようにＷ’’チャネルを得るためにＷ’チャネルをスケーリングするためのアップミックススケーリングゲインを計算するスケール計算ユニット５０４に供給される。一実施形態では、デコーダにおけるＦｏＡ信号の再構成は、次式で与えられる：

ここで、ｆは定数（例えば、ｆ＝０．５）であり、Ｄ１（Ｗ’）、Ｄ２（Ｗ’）、Ｄ３（Ｗ’）はデコリレータユニット５０３の出力である。例示的な実施形態では、コア復号ユニット５０１はＥＶＳデコーダであり、コアコーディングビットはＥＶＳビットストリームを構成する。他の実施形態では、コア復号ユニット５０１は、任意のモノラルチャネルコーデックであり得る。

図６は、一実施形態による、適応ダウンミックス方式を用いて１チャネルダウンミックスモードで動作するＳＰＡＲＦＯＡエンコーダ６００のブロック図である。ＳＰＡＲエンコーダ６００は、入力としてＦｏＡ信号を受け取り、図５で説明されたＳＰＡＲデコーダ５００が復号可能なコーディングされたビットストリームを生成し、ＦｏＡ入力は、Ｗ、Ｙ、Ｚ、およびＸチャネルによって与えられる。ＦｏＡ入力は、ＦｏＡ入力を分析し、入力共分散推定値を生成し、共分散推定値に基づいて入力ダウンミックスゲイン（ｓ_０，ｓ_１，ｓ_２，ｓ_３）およびダウンミックススケーリングゲイン（ｒ）を計算する空間分析／サイド情報生成および量子化ユニット６０１に供給される。一実施形態では、入力ダウンミックスゲインｓ_０は１に等しい。

空間分析／サイド情報生成および量子化ユニット６０１は、予測ゲインおよび無相関ゲインが指定された量子化範囲内にあるように、入力共分散推定値と、入力ダウンミックスゲインと、ダウンミックススケーリングゲインとに基づいて予測ゲインおよび無相関ゲインを計算し、次いでそれらを量子化する。次いで、予測ゲインおよび無相関ゲインを含む量子化されたサイド情報が、サイド情報コーディングユニット６０３に送られ、サイド情報がビットストリームにコーディングされる。ＦｏＡ入力、入力ダウンミックスゲインおよびダウンミックススケーリングゲインは、入力ダウンミックスゲインおよびダウンミックススケーリングゲインをＦｏＡ入力に適用することによって１チャネルダウンミックスＷ’（一次ダウンミックスチャネルまたは支配的な固有信号の表現と呼ばれることもある）を生成するダウンミックスユニット６０２に供給される。次いで、ダウンミックスユニット６０２のＷ’出力は、Ｗ’チャネルをコアコーディングビットストリームにコーディングするコアコーディングユニット６０４に供給される。コアコーディングユニット６０４およびサイド情報コーディングユニット６０３の出力は、ビットパッキングユニット６０５によってＳＰＡＲビットストリームにパックされる。

一実施形態では、空間分析／サイド情報生成および量子化ユニット６０１は、デコーダ５００のデコーダ出力Ｗ’’のエネルギー推定値を計算し、それをエンコーダ６００のエンコーダ入力Ｗのエネルギー推定値に等しくする一方で、ダウンミックススケーリングゲイン、予測ゲインおよび無相関ゲインを計算し、それによってエネルギーを保存する。例示的な実施形態では、コアコーディングユニット６０４はＥＶＳエンコーダであり、コアコーディングビットはＥＶＳビットストリームを構成する。他の実施形態では、コアコーディングユニット６０４は、任意のモノラルチャネルコーデックであり得る。
例示的なシステムアーキテクチャ

図７は、本開示の例示的な実施形態を実装するのに適した例示的なシステム７００のブロック図を示す。システム７００は、コールサーバ１０２、レガシーデバイス１０６、ユーザ機器１０８、１１４、会議室システム１１６、１１８、ホームシアターシステム、ＶＲギア１２２、および没入型コンテンツインジェスト１２４などの、図１に示されるデバイスのいずれかを含むがこれらに限定されない、１つまたは複数のサーバコンピュータまたは任意のクライアントデバイスを含む。システム７００は、スマートフォン、タブレットコンピュータ、ウェアラブルコンピュータ、車両コンピュータ、ゲームコンソール、サラウンドシステム、キオスクなどを含むがこれらに限定されない任意の消費者デバイスを含む。

図示のように、システム７００は、例えば、読取り専用メモリ（ＲＯＭ）７０２に記憶されたプログラムまたは例えば、ストレージユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたプログラムにしたがって様々なプロセスを遂行することが可能な中央処理ユニット（ＣＰＵ）７０１を含む。ＲＡＭ７０３では、ＣＰＵ７０１が様々なプロセスを実行する際に必要とされるデータも適宜記憶される。ＣＰＵ７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース７０５もバス７０４に接続されている。

以下の構成要素、すなわち、キーボード、マウスなどを含み得る入力ユニット７０６と、液晶ディスプレイ（ＬＣＤ）などのディスプレイおよび１つまたは複数のスピーカを含み得る出力ユニット７０７と、ハードディスクまたは別の適切なストレージデバイスを含むストレージユニット７０８と、ネットワークカード（例えば、ワイヤードまたはワイヤレス）などのネットワークインターフェースカードを含む通信ユニット７０９とがＩ／Ｏインターフェース７０５に接続される。

いくつかの実装形態では、入力ユニット７０６は、様々なフォーマット（例えば、モノラル、ステレオ、空間、没入型、および他の適切なフォーマット）でのオーディオ信号のキャプチャを可能にする、（ホストデバイスに応じて）異なる位置にある１つまたは複数のマイクロフォンを含む。

いくつかの実装形態では、出力ユニット７０７は、様々な数のスピーカを有するシステムを含む。図１に示すように、出力ユニット７０７は（ホストデバイスの能力に応じて）、様々なフォーマット（例えば、モノラル、ステレオ、没入型、バイノーラル、および他の適切なフォーマット）でオーディオ信号をレンダリングすることができる。

通信ユニット７０９は、（例えば、ネットワークを介して）他のデバイスと通信するように構成される。Ｉ／Ｏインターフェース７０５にはまた、必要に応じてドライブ７１０が接続される。ドライブ７１０には、磁気ディスク、光ディスク、光磁気ディスク、フラッシュドライブ、または他の適切なリムーバブル媒体などのリムーバブル媒体７１１が取り付けられ、そこから読み出されたコンピュータプログラムが必要に応じてストレージユニット７０８にインストールされる。当業者であれば、システム７００が上述の構成要素を含むものとして説明されているが、実際の適用では、これらの構成要素のいくつかを追加、除去、および／または置換することが可能であり、すべてのこれらの修正または変更がすべて本開示の範囲内に入ることを理解するであろう。

本開示の例示的な実施形態によれば、上記で説明したプロセスは、コンピュータソフトウェアプログラムとして、またはコンピュータ可読記憶媒体上に実装され得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、方法を実行するためのプログラムコードを含む。そのような実施形態では、コンピュータプログラムは、図７に示すように、通信ユニット７０９を介してネットワークからダウンロードされ、マウントされ、および／またはリムーバブル媒体７１１からインストールされ得る。

概して、本開示の様々な例示的な実施形態は、ハードウェアまたは専用回路（例えば、制御回路）、ソフトウェア、ロジック、またはそれらの任意の組み合わせで実装され得る。例えば、上記で説明したユニットは、制御回路（例えば、図７の他の構成要素と組み合わせたＣＰＵ）によって実行され得、したがって、制御回路は、本開示で説明するアクションを実行していることがある。一部の態様はハードウェアで実装され得るが、他の態様は、コントローラ、マイクロプロセッサ、または他のコンピューティングデバイス（例えば、制御回路）によって実行され得るファームウェアまたはソフトウェアで実装され得る。本開示の例示的な実施形態の様々な態様は、ブロック図、フローチャートとして、または何らかの他の図的表現を使用して例示および説明されるが、本明細書で説明されるブロック、装置、システム、技法または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、専用回路もしくは論理、汎用ハードウェアもしくはコントローラもしくは他のコンピューティングデバイス、またはそれらの何らかの組み合わせで実装され得ることが理解されよう。

追加的に、フローチャートに示される様々なブロックは、方法ステップとして、および／またはコンピュータプログラムコードの動作から生じる動作として、および／または関連機能（複数可）を実行するように構築される複数の結合された論理回路要素と見なされ得る。例えば、本開示の実施形態は、機械可読媒体上に有形に具現化されたコンピュータプログラムを含むコンピュータプログラム製品を含み、コンピュータプログラムは、上記で説明した方法を実行するように構成されたプログラムコードを含む。

本開示の文脈では、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用するためのプログラムを含むかまたは記憶し得る任意の有形媒であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、非一時的であり得、電子、磁気、光学、電磁気、赤外線、もしくは半導体のシステム、装置、もしくはデバイス、または上記の任意の適切な組み合わせを含み得るがこれらに限定されない。機械可読記憶媒体のより具体的な例には、１つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶デバイス、磁気記憶デバイス、または上記の任意の適切な組み合わせが含まれるであろう。

本開示の方法を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのコンピュータプログラムコードは、汎用コンピュータ、専用コンピュータ、または制御回路を有する他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、プログラムコードは、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図で指定されたコンピュータプログラム／動作を実施させる。プログラムコードは、完全にコンピュータ上で、部分的にコンピュータ上で、独立型ソフトウェアパッケージとして、部分的にコンピュータ上および部分的に遠隔コンピュータ上で、または完全に遠隔コンピュータもしくはサーバ上で、または１つまたは複数の遠隔コンピュータおよび／もしくはサーバを経由して分散されて、実行され得る。

本書には多くの具体的な実装形態の詳細が記載されているが、これらは特許請求され得る範囲を制限するものとして解釈されるべきではなく、むしろ特定の実施形態に特有であり得る特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態において別々に、または任意の適切なサブコンビネーションで実施することもできる。さらに、特徴は、特定の組み合わせで作用するものとして上記で説明され、当初はそのように請求されることさえあるが、請求される組み合わせからの１つまたは複数の特徴は、場合によっては、その組み合わせから削除され得、請求される組み合わせは、部分組み合わせまたは部分組み合わせの変形形態を対象とし得る。図に描かれた論理フローは、望ましい結果を得るために、示された特定の順序、または連続した順序を必要としない。加えて、他のステップが提供され得るか、またはステップが、説明されるフローから削除され得、他の構成要素が、説明されるシステムに追加されてもよく、またはそこから除去されてもよい。したがって、他の実装形態は、以下の特許請求の範囲内にある。

いくつかの実施形態では、コア符号化ユニット２０６は、３ＧＰＰＴＳ２６．４４５に準拠し、狭帯域（ＥＶＳ－ＮＢ）および広帯域（ＥＶＳ－ＷＢ）スピーチサービスのための拡張された品質およびコーディング効率、超広帯域（ＥＶＳ－ＳＷＢ）スピーチを使用する拡張された品質、会話アプリケーションにおける混合コンテンツおよび音楽のための拡張された品質、パケット損失および遅延ジッタに対するロバスト性、ならびにＡＭＲ－ＷＢコーデックへの後方互換性など、広範囲の機能を提供する。

パッシブダウンミックスは、多くの場合、デコリレータが不完全であり、予測パラメータおよびデコリレータパラメータのために利用可能な量子化範囲が限られていることにより、より低いダウンミックスチャネル構成をもつデコーダ出力において入力シーンを再構成することができない。したがって、アクティブダウンミックス方式は、所望の量子化範囲内にあるより良好な予測係数推定値を生成することによって全体的な予測誤差を低減することが望まれる。
２．２アクティブダウンミックスコーディング方式

アクティブダウンミックスを行うためのソリューションが、以下に記載されている。このソリューションは、Ｗ、Ｘ、Ｙ、Ｚ入力チャネルをスケーリングおよび加算することによって、支配的な固有信号の表現を生成することを目的とする。予測行列またはダウンミックス行列は、式（１３）で以下のように与えられる：

ダウンミックスチャネルＷ’は、次のように計算される：

ここで、総二乗予測誤差は、以下のように与えられる：

ここで、ｐは、逆予測行列である。

いくつかの実施形態では、入力ダウンミックスゲインは、ポスト予測共分散が最小化されるように計算される。

一実施形態では、アクティブＷ構成におけるＳＰＡＲは、ＶＡＤ決定に基づいて異なるｆの値を動的に選択し、ＶＡＤは、ＦｏＡ信号を入力とする。ＶＡＤがアクティブの場合にはｆの高い値を選択することができ、ＶＡＤが非アクティブの場合にはｆの低い値を選択することができる。
２．３．１．３予測パラメータの所望の範囲に基づく適応ダウンミックスコーディング方式

ＩＶＡＳ法の第１の変形

上記の式［２３］および［２４］は、追加のメタデータがデコーダにシグナリングされることを必要とし得ることに留意されたい。値「ｆ」を示すための追加のメタデータを送ることは、セクション２．３．１．４で説明したスケーリング方法を使用することで回避することができる。
ＩＶＡＳ法の第２の変形

であり、この関数は次の場合に良好に振る舞う：

２．３．１．４スケーリングを伴うアクティブダウンミックスコーディング
ＩＶＡＳ法の変形

逆予測は、以下のように与えられる：

逆予測行列は以下のように与えられる：

新しい予測行列は以下のように与えられる：

分散ｏｕｔ_ｃｏｖ（１，１）＝ｗを一致させるために、

これを、ｒについて解くと次のようになる：

ｄパラメータは、以下のように計算することができる：

式［３３］および［３４］を使用してｒの値を求める、

ここで、ｒの値を求めると、次のようになる：

一実施形態では、アクティブＷダウンミックスコーディング方法は、セクション２．３．１．２に記述されたソリューションに基づくことができる。アクティブＷダウンミックスコーディング方法のスケーリングは、セクション２．３．１．４に記述されたソリューションにしたがって実行されることができ、パッシブＷダウンミックスコーディング方法のスケーリングは、セクション２．３．１．５に記述されたソリューションにしたがって実行されることができる。スケーリングを伴う適応ダウンミックスの例示的な実装形態について以下で説明する。

そして、Ｔ×Ｔ^＊の最大固有ベクトルをＱとする：

Ｅ１は次のように形成される：

次いで、以下を計算する：

アクティブ予測（すなわち、Ｘ、Ｙ、およびＺからの成分をＷに混合）を用いて支配的な固有信号の表現を作成する一方で、課題の１つは、周波数スペクトルにわたって、および時間領域におけるフレーム境界にわたって、支配的な固有信号の滑らかな／連続的な表現を得ることである。先に説明したアクティブ予測手法はこの問題を解決しようとするが、Ｘ、ＹおよびＺチャネルからＷへの回転（または混合）の量が過度にアグレッシブであり、不連続性（または他のオーディオアーチファクト）を生じさせるか、または全く回転せず（パッシブ予測）、最適な予測を与えることができず、予測されないエネルギーを充填するためにデコリレータにより依存するかのいずれかの場合が依然としてある。したがって、上記で説明した手法は、過度にアグレッシブであるか過度に弱すぎる予測を提供し得る。一実施形態では、Ｗは、アクティブ予測を実行する前にスケーリングされる。この実施形態の背後にある考えは、Ｗチャネルをプリスケーリングすることで、ポストアクティブ予測Ｗチャネル（または支配的な固有信号の表現）が元のＷの大部分を含むことになることが保証されることである。これは、Ｗと混合されるべきＸ、ＹおよびＺの量が低減されることを意味しており、したがって、それ程アグレッシブでないアクティブ予測となるが、それでも上記で説明したパッシブ（またはスケーリングされたパッシブ）手法と比較するとより強い予測が得られる。プリスケーリングの量は、アクティブ予測を行う前にＷが支配的なエネルギー信号に近くなるように、ＷおよびＸ、Ｙ、Ｚチャネルの分散の関数として決定される。

ここで、

プリスケーリング行列は、以下のように与えられる：

次に、以下で与えられるスケーリングされた共分散行列ｓｃａｌｅ＿ｃｏｖ_{［４ｘ４］}＝Ｈｓｃａｌｅ＊ｉｎ＿ｃｏｖ＊Ｈｓｃａｌｅ’に基づいてアクティブ予測パラメータを計算し、以下のようにｃｕｂｉｃ（ｇ）のスケーリングされた入力共分散結果に基づいて「ｇ」の値を求める：

代替的に、以下のようにｇおよびｆの値を求めることができる：

この結果、ポスト予測Ｗ信号は次のようになる：

ここで、

そして、ｇは、上記実施形態で開示された任意の方法を使用して計算される。

無相関パラメータ

一実施形態では、逆予測行列は、以下のように与えられる。

ここで、

「Ｆ」を、支配的な固有信号の表現を形成するためにＸ、Ｙ、ＺからＷチャネルへと行われるべき混合の量を与える正規化された「α」の関数とする。アクティブ予測行列は、以下のように与えられる：

ＷとＸ、Ｙ、Ｚチャネルとの間の相関が非常に低く、

ここで、ｒは、ポスト予測スケーリング係数である。

この結果、ポスト予測Ｗ’信号が得られる：

によって与えられる単位ベクトルである。

無相関パラメータ

逆予測行列は、式［３１］と同じである：

Claims

デコーダにおいて適用される復号リミックスまたはアップミックス戦略とは異なる、エンコーダにおいて適用される符号化ダウンミックス戦略を使用するオーディオ信号符号化方法であって、
少なくとも１つのプロセッサを用いて、入力オーディオ信号を取得するステップであって、前記入力オーディオ信号は、入力オーディオシーンを表し、一次入力オーディオチャネルおよびサイドチャネルを含む、ステップと、
前記少なくとも１つのプロセッサを用いて、前記入力オーディオ信号に基づいてダウンミックスコーディング方式のタイプを決定するステップと、
前記ダウンミックスコーディング方式のタイプに基づいて、
前記少なくとも１つのプロセッサを用いて、一次ダウンミックスチャネルを構築するために前記入力オーディオ信号に適用されるべき１つまたは複数の入力ダウンミックスゲインを計算するステップであって、前記入力ダウンミックスゲインは、前記サイドチャネル上の全体的な予測誤差を最小化するように決定される、ステップと、
前記少なくとも１つのプロセッサを用いて、前記一次ダウンミックスチャネルをスケーリングするための１つまたは複数のダウンミックススケーリングゲインを決定するステップであって、前記ダウンミックススケーリングゲインは、前記一次ダウンミックスチャネルからの前記入力オーディオシーンの再構成された表現と前記入力オーディオ信号との間のエネルギー差を最小化することによって決定される、ステップと、
前記少なくとも１つのプロセッサを用いて、前記入力オーディオ信号と、前記入力ダウンミックスゲインと、前記ダウンミックススケーリングゲインとに基づいて予測ゲインを生成するステップと、
前記少なくとも１つのプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインを使用してサイドチャネル予測を生成し、次いで前記サイドチャネル予測を前記サイドチャネルから減算することによって、前記入力オーディオ信号における前記サイドチャネルから１つまたは複数の残差チャネルを決定するステップと、
前記少なくとも１つのプロセッサを用いて、前記残差チャネルにおけるエネルギーに基づいて無相関ゲインを決定するステップと、
前記少なくとも１つのプロセッサを用いて、前記一次ダウンミックスチャネル、前記ゼロ個以上の残差チャネルおよびサイド情報をビットストリームに符号化するステップであって、前記サイド情報は、前記１つまたは複数の残差チャネルに対応する前記無相関ゲインおよび前記予測ゲインを含む、ステップと、
前記少なくとも１つのプロセッサを用いて、前記ビットストリームをデコーダに送るステップと
を含む方法。
前記少なくとも１つのプロセッサを用いて、前記入力オーディオ信号に基づいて入力共分散を計算するステップと、
前記少なくとも１つのプロセッサを用いて、前記入力共分散を使用して前記全体的な予測誤差を決定するステップと
をさらに含む、請求項１に記載の方法。
前記ダウンミックススケーリングゲインの前記計算は、
前記少なくとも１つのプロセッサを用いて、前記デコーダに送信された前記サイド情報の関数としてアップミックススケーリングゲインを決定するステップと、
前記少なくとも１つのプロセッサを用いて、前記入力オーディオシーンの前記全体的なエネルギーが保存されるように前記アップミックススケーリングゲインを前記一次ダウンミックスチャネルに適用することによって、前記一次ダウンミックスチャネルおよび前記ゼロ個以上の残差チャネルから前記入力オーディオシーンの前記表現を生成するステップと、
前記少なくとも１つのプロセッサを用いて、前記入力オーディオシーンのエネルギーを保存するために多項式の閉形式解を解くことによって前記ダウンミックススケーリングゲインを決定するステップであって、前記ダウンミックススケーリングゲインは、前記再構成された入力オーディオシーンのエネルギーを前記入力オーディオシーンの前記エネルギーと一致させるときに決定される、ステップと
をさらに含む、請求項２に記載の方法。
前記一次ダウンミックスチャネルおよび前記ゼロ個以上の残差チャネルから前記入力オーディオシーンの前記表現を再構成するための前記アップミックススケーリングゲインは、前記一次入力オーディオ信号の前記再構成された表現が前記一次ダウンミックスチャネルと同相になるように、前記サイド情報中で前記デコーダに送信される前記予測ゲインおよび前記無相関ゲインの関数であり、前記多項式は２次多項式である、請求項３に記載の方法。
前記一次ダウンミックスチャネルから前記入力オーディオシーンの前記表現を再構成するための前記アップミックススケーリングゲインは、前記２次多項式を解くことによって得られる前記ダウンミックススケーリングゲインが、指定された量子化範囲内で前記予測ゲインおよび前記無相関ゲインをスケーリングするように、前記デコーダに送信される前記予測ゲインおよび前記無相関ゲインの関数である、請求項４に記載の方法。
前記エンコーダにおいて、
少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインと前記ダウンミックススケーリングゲインとの組み合わせを計算するステップであって、前記入力ダウンミックスゲインは、入力オーディオ信号の前記入力共分散の関数として計算される、ステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて前記一次ダウンミックスチャネルを生成するステップと、
前記エンコーダプロセッサを用いて、前記入力オーディオ信号および入力ダウンミックスゲインに基づいて前記予測ゲインを生成するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインを使用して、前記サイドチャネル予測を生成し、次いで前記サイドチャネル予測を前記入力オーディオ信号における前記サイドチャネルから減算することによって、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記残差チャネルにおける前記エネルギーに基づいて前記無相関ゲインを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記予測ゲインまたは前記無相関ゲインまたは両方が前記指定された量子化範囲内にあるように、前記一次ダウンミックスチャネルをスケーリングするための前記ダウンミックススケーリングゲインと、前記予測ゲインと、前記無相関ゲインとを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
前記デコーダにおいて、
少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを復号するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインの関数として設定するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
をさらに含む、請求項５に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、関数の分子が、前記一次入力オーディオチャネルと前記サイドチャネルとの間の共分散に第１の定数を乗じたものであり、前記関数の分母が、前記一次入力オーディオチャネルの前記分散および前記入力オーディオ信号の前記サイドチャネルの分散の和に第２の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算され、
前記少なくとも１つのエンコーダプロセッサを用いて、前記サイドチャネル予測についての予測誤差を最小化し、前記予測ゲインについて解くことによって、１次多項式を生成するステップ
請求項６に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、前記一次ダウンミックスチャネルが前記一次入力オーディオ信号と同じであるかまたは前記一次入力オーディオ信号の遅延バージョンのいずれかであるように、パッシブダウンミックスコーディング方式に対応する、請求項６または７に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインは、前記予測ゲインの関数として計算される、請求項６から８のいずれか一項に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
前記少なくとも１つのプロセッサを用いて、前記一次オーディオ信号と前記入力オーディオ信号の前記サイドチャネルとの間の相関を決定するステップと、
前記少なくとも１つのプロセッサを用いて、前記相関に基づいて入力ダウンミックスゲイン計算方式を選択するステップと
を含む、請求項６から９のいずれか一項に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインの前記計算は、
前記エンコーダにおいて、
前記少なくとも１つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいてパッシブ予測ゲインのセットを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記パッシブ予測ゲインのセットを第１のしきい値と比較するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記パッシブ予測ゲインのセットが前記第１のしきい値以下であるかどうかを決定し、そうである場合、前記入力ダウンミックスゲインの第１のセットを計算するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて予測ゲインの第１のセットを生成するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記予測ゲインの第１のセットが第２のしきい値よりも高いかどうかを決定し、そうである場合、入力ダウンミックスゲインの第２のセットを計算するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記入力オーディオ信号および前記入力ダウンミックスゲインに基づいて予測ゲインの第２のセットを生成するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインの第２のセットを使用して、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記デコーダに伝送されていない前記残差チャネルのエネルギーに基づいて前記無相関ゲインを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記予測ゲインまたは前記無相関ゲインまたは両方が前記指定された量子化範囲内であるように、前記一次ダウンミックスチャネルをスケーリングするための前記ダウンミックススケーリングゲインと、前記予測ゲインの第２のセットと、前記無相関ゲインとを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
前記デコーダにおいて、
前記少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインを含む前記サイド情報とを復号するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記スケーリングされた予測ゲインおよび前記スケーリングされた無相関ゲインの関数として決定するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
をさらに含む、請求項６から１０のいずれか一項に記載の方法。
前記入力ダウンミックスゲインはパッシブダウンミックスコーディング方式に対応する、請求項６から１１のいずれか一項に記載の方法。
入力ダウンミックスゲインの第１のセットはアクティブダウンミックス方式に対応し、前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインの第１のセットは、関数の分子が、前記一次入力オーディオチャネルと前記サイドチャネルとの共分散に第１の定数を乗じたものであり、前記関数の分母が、前記一次入力オーディオチャネルの分散および前記サイドチャネルの分散の和に第２の定数を乗じたものの最大値であるように、正規化された入力共分散の関数として計算される、請求項７または１１に記載の方法。
入力ダウンミックスゲインの第２のセットは、アクティブダウンミックスコーディング方式に対応し、前記一次ダウンミックスチャネルは、前記入力ダウンミックスゲインの第２のセットを前記一次入力オーディオチャネルおよび前記サイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる、請求項１１に記載の方法。
前記入力ダウンミックスゲインの第２のセットは、２次多項式の係数である、請求項９および１４に記載の方法。
前記予測ゲインが比較される前記しきい値は、前記予測ゲインが前記指定された量子化範囲内にあるように計算される、請求項１１に記載の方法。
前記ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
前記一次入力オーディオ信号をスケーリングするためのスケーリング係数を計算するステップと、
前記スケーリングされた一次入力オーディオ信号の共分散を計算するステップと、
前記スケーリングされた一次入力オーディオ信号の前記共分散に対して固有分析を実行するステップと、
前記一次ダウンミックスチャネルが前記一次入力オーディオチャネルと正に相関するように、最大固有値に対応する固有ベクトルを前記入力ダウンミックスゲインとして選択するステップと、
前記入力オーディオシーンの前記全体的なエネルギーが保存されるように前記一次ダウンミックスチャネルおよび前記サイド情報をスケーリングするための前記ダウンミックススケーリングゲインを計算するステップと
を含む、請求項６に記載の方法。
前記一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき前記入力ダウンミックスゲインを計算するステップは、
前記一次入力オーディオチャネルをスケーリングするためのスケーリング係数を計算するステップと、
前記スケーリングされた一次入力オーディオチャネルの前記予測ゲインの関数として前記入力ダウンミックスゲインを設定することによって、前記スケーリングされた一次入力オーディオチャネルに基づいて前記入力ダウンミックスゲインを計算するステップと、
前記入力オーディオシーンの全体的なエネルギーが保存されるように前記一次ダウンミックスチャネルおよびサイド情報をスケーリングするための前記ダウンミックススケーリングゲインを計算するステップと
を含む、請求項６に記載の方法。
前記一次入力オーディオチャネルをスケーリングするための前記スケーリング係数は、前記一次入力オーディオチャネルの分散と前記サイドチャネルの分散の和の平方根との比である、請求項１７または１８に記載の方法。
一次ダウンミックスチャネルを生成するために前記入力オーディオ信号に適用されるべき入力ダウンミックスゲインの前記計算は、
前記少なくとも１つのエンコーダプロセッサを用いて、パッシブダウンミックスコーディング方式に基づいて前記予測ゲインを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記入力オーディオシーンの前記全体的なエネルギーが入力オーディオシーンの前記再構成された表現において保存されるように、前記一次ダウンミックスチャネルおよびサイド情報をスケーリングするための第１のダウンミックススケーリングゲインを計算するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記第１のダウンミックススケーリングゲインが第１のしきい値以下であるかどうかを決定し、その結果、入力ダウンミックスゲインの第１のセットを計算するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記第１のダウンミックススケーリングゲインが第２のしきい値よりも高いかどうかを決定し、その結果、入力ダウンミックスゲインの第２のセットを計算するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記入力オーディオ信号と前記第１または第２の入力ダウンミックスゲインとに基づいて予測ゲインの第２のセットを生成するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルおよび前記予測ゲインの第２のセットを使用して、前記入力オーディオ信号における前記サイドチャネルから前記残差チャネルを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記デコーダに伝送されていない前記残差チャネルのエネルギーに基づいて前記無相関ゲインを決定するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記予測ゲインの第２のセットおよび前記無相関ゲインを含む前記サイド情報とを前記ビットストリームに符号化するステップと、
前記少なくとも１つのエンコーダプロセッサを用いて、前記ビットストリームを前記デコーダに送るステップと、
前記デコーダにおいて、
前記少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルと、ゼロ個以上の残差チャネルと、前記予測ゲインの第２のセットおよび前記無相関ゲインを含む前記サイド情報とを復号するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記アップミックススケーリングゲインを、前記予測ゲインの第２のセットおよび前記無相関ゲインの関数として決定するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記一次ダウンミックスチャネルに関して無相関化された前記無相関信号を生成するステップと、
前記少なくとも１つのデコーダプロセッサを用いて、前記入力オーディオシーンの全体的なエネルギーが保存されるように、前記入力オーディオシーンの前記表現を再構成するために、前記アップミックススケーリングゲインを、前記一次ダウンミックスチャネルと、前記ゼロ個以上の残差チャネルと、前記無相関信号との組み合わせに適用するステップと
をさらに含む、請求項１１に記載の方法。
前記入力ダウンミックスゲインの第１のセットはパッシブダウンミックスコーディング方式に対応する、請求項８または２０に記載の方法。
前記入力ダウンミックスゲインの第２のセットは、アクティブダウンミックスコーディング方式に対応し、前記一次ダウンミックスチャネルは、前記入力ダウンミックスゲインを前記一次入力オーディオチャネルおよび前記サイドチャネルに適用し、次いでそれらのチャネルを合算することによって得られる、請求項１４から１６または２０のいずれか一項に記載の方法。
システムであって、
１つまたは複数のプロセッサと、
前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、請求項１から２２のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ可読媒体と
を備えるシステム。
１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、請求項１から２２のいずれか一項に記載の動作を実行させる命令を記憶する非一時的コンピュータ可読媒体。