JP2023530409A

JP2023530409A - マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および／または復号するための方法およびデバイス

Info

Publication number: JP2023530409A
Application number: JP2022575887A
Authority: JP
Inventors: エッケルト，マイケル; ティアギ，リシャブ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2020-06-11
Filing date: 2021-06-10
Publication date: 2023-07-18
Also published as: CN115867964A; CA3185659A1; IL298725A; KR20230023725A; AU2021288690A1; WO2021252705A1; EP4165629A1; US20230215445A1; MX2022015324A; BR112022025226A2

Abstract

本明細書は、Ｎ個の異なるチャンネルを含むマルチチャンネル入力信号（１０１）を符号化するための方法（６００）を記載する。方法（６００）は、フレームのシーケンスのうちの現在のフレームに対して、信号および／またはボイスアクティビティ検出器を用いて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ（６０１）と、マルチチャンネル入力信号（１０１）に基づいてＮ個以下のチャンネルを含むダウンミックス信号（１０３）を決定するステップ（６０２）とを含む。さらに、方法（６００）は、ダウンミックス信号（１０３）に基づいてＮ個のチャンネルを含む再構成マルチチャンネル信号（１１１）を生成するためのパラメータセットを含むアップミックスメタデータ（１０５）を決定するステップ（６０３）を含む。アップミックスメタデータ（１０５）は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定される。方法（６００）は、アップミックスメタデータ（１０５）をビットストリームに符号化（６０４）するステップをさらに含む。【選択図】図６ａ

Description

（関連出願への参照）
本願は、２０２１年５月２７日付け出願の米国仮特許出願第６３／１９３，９４６号および２０２０年６月１１日付け出願の米国仮特許出願第６３／０３７，６５０号に基づく優先権を主張するものであり、各出願の開示内容をすべて本願に援用する。

リスニング位置に位置するリスナーのリスニング環境内の音あるいは音場（ｓｏｕｎｄｆｉｅｌｄ）は、アンビソニックス（ａｍｂｉｓｏｎｉｃｓ）信号を用いて記述され得る。アンビソニックス信号は、マルチチャンネルオーディオ信号とみなすことができ、各チャンネルは、リスナーのリスニング位置における音場の特定の指向性パターンに対応する。アンビソニックス信号は、三次元（３Ｄ）デカルト座標系を用いて記述され得る。当該座標系の原点はリスニング位置に対応し、Ｘ軸は前方を、Ｙ軸は左方を、Ｚ軸は上方を向く。

マルチチャンネルオーディオ信号は、スピーチまたはオーディオがアクティブであるアクティブ部分と、スピーチまたはオーディオを含まない非アクティブ部分とを含み得る。非アクティブ部分は、典型的にはバックグラウンドノイズのみを含む。バックグラウンドノイズは、特定の方向から来る空調ノイズなどの空間特性を有し得る。

本明細書は、空間的なバックグラウンドノイズを効率的にモデル化すること、特にマルチチャンネルオーディオ信号のアクティブ部分と非アクティブ部分との間での知覚的に好ましい遷移を提供するための技術課題を扱う。この技術課題は、特許請求の範囲の独立請求項によって解決される。その従属請求項において、好適な実施例が記載される。

一態様によると、Ｎ個の異なるチャンネルを含むマルチチャンネル入力（オーディオ）信号を符号化するための方法（Ｎ＞１、特にＮ＞２）が記載される。当該方法は、信号および／またはボイスアクティビティ検出器を用いて、マルチチャンネル入力信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップを含む。さらに、当該方法は、マルチチャンネル入力信号に基づいて、および／または、マルチチャンネル入力信号を符号化するための目標ビットレートに基づいて、Ｎ個以下のチャンネルを含むダウンミックス信号を決定するステップを含む。当該方法は、ダウンミックス信号に基づいて、Ｎ個のチャンネルを含む再構成マルチチャンネル信号を生成するための（空間）パラメータセットを含むアップミックスメタデータを決定するステップをさらに含む。アップミックスメタデータは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。加えて、当該方法は、アップミックスメタデータをビットストリームに符号化するステップを含む。

さらなる態様によると、Ｎ個のチャンネルを含む再構成マルチチャンネル信号を示すビットストリームを復号するための方法が記載される（Ｎは１よりも大きな正の整数であり、好ましくはＮ＞２）。当該方法は、ビットストリームに基づいて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップを含む。加えて、当該方法は、Ｎ個以下のチャンネルを含む再構成ダウンミックス信号を決定するステップを含む。当該方法は、再構成ダウンミックス信号に基づいて、かつ、ビットストリーム内に含まれるアップミックスメタデータに基づいて、再構成マルチチャンネル信号を生成するステップをさらに含む。再構成マルチチャンネル信号は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。

さらなる態様によると、ソフトウェアプログラムが記載される。ソフトウェアプログラムは、プロセッサ上で実行されるように、かつ、プロセッサ上での実施時に本明細書において概説される方法ステップを行うように適合され得る。

別の態様によると、記憶媒体が記載される。記憶媒体は、プロセッサ上で実行されるように、かつ、プロセッサ上での実施時に本明細書において概説される方法ステップを行うように適合されたソフトウェアプログラムを含み得る。

さらなる態様によると、コンピュータプログラム製品が記載される。コンピュータプログラムは、コンピュータ上での実行時に本明細書において概説される方法ステップを行うための実行可能な命令を含み得る。

別の態様によると、Ｎ個の異なるチャンネルを含む再構成マルチチャンネル信号を符号化するための符号化部が記載される（Ｎは、１よりも大きな正の整数であり、好ましくは、Ｎ＞２）。符号化部は、信号および／またはボイスアクティビティ検出器を用いて、入力信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するように構成される。さらに、符号化部は、マルチチャンネル入力信号に基づいて、および／または、ビットレートに基づいて、ダウンミックス信号を決定するように構成される。ここで、ダウンミックス信号は、Ｎ個以下のチャンネルを含む。加えて、符号化部は、ダウンミックス信号に基づいて、Ｎ個のチャンネルを含む再構成マルチチャンネル信号を生成するためのパラメータセットを含むアップミックスメタデータを決定するように構成される。アップミックスメタデータは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。符号化部は、アップミックスメタデータをビットストリームに符号化するようにさらに構成される。

別の態様によると、Ｎ個のチャンネルを含む再構成マルチチャンネル信号を示すビットストリームを復号するための復号部が記載される。再構成信号は、フレームのシーケンスを含む。復号部は、再構成ダウンミックス信号を決定するように構成される。ここで、再構成ダウンミックス信号は、Ｎ個以下のチャンネルを含む。復号部は、ビットストリームに基づいて、信号の現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するようにさらに構成される。加えて、復号部は、再構成ダウンミックス信号に基づいて、かつ、ビットストリーム内に含まれるアップミックスメタデータに基づいて、再構成マルチチャンネル信号を生成するように構成される。再構成マルチチャンネル信号は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。

なお、本願において概説される好適な実施形態を含む方法、デバイスおよびシステムは、単独で用いられてもよいし、本明細書に開示の他の方法、デバイスおよびシステムと組み合わせて用いられてもよい。さらに、本願において概説される方法、デバイスおよびシステムのすべての態様は、任意に組み合わせられてもよい。特に、特許請求の範囲の特徴は、任意に互いに組み合わされてもよい。

図面の簡単な説明
以下に、添付の図面を参照して、例として、本発明を説明する。
図１は、マルチチャンネル入力信号を符号化および復号するための符号化部および復号部の一例を示す。図２は、空間合成（または再構成）モジュールの一例を示す。図３は、マルチチャンネル信号をＳＰＡＲ符号化およびＳＰＡＲ復号するための符号化部および復号部の一例を示す。図４ａは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。図４ｂは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。図４ｃは、異なるダウンミックス状況に対する異なるダウンミックス状況に対するアンビソニックス信号のアクティブでないフレームの符号化を例示する。図５は、デバイスアーキテクチャの一例を示す。図６ａは、マルチチャンネル信号を符号化するための方法の一例のフローチャートを示す。図６ｂは、マルチチャンネル信号を復号するための方法の一例のフローチャートを示す。

詳細な説明
上記に概説したように、本明細書は、一次アンビソニックス（ＦＯＡ）またはＨＯＡ（高次アンビソニックス）信号などの没入型オーディオ信号に対する空間コンフォート（ｃｏｍｆｏｒｔ）ノイズの効率的な符号化に関する。特に、ＦＯＡまたはＨＯＡ信号は、本明細書において、より一般的に、音場表現（ＳＲ）信号と称される。ＳＲ信号は、比較的多数のチャンネルまたは波形を含み得る。ここで、異なるチャンネルは、異なるパンニング関数に、および／または、異なる指向性パターンに関係する。例として、Ｌ次３ＤＦＯＡまたはＨＯＡ信号は、（Ｌ＋１）^２個のチャンネルを含む。

図１は、マルチチャンネル入力信号１０１を符号化および復号するための符号化部１００および復号部１５０を例示する。マルチチャンネル入力信号１０１は、ＳＲ信号を含み得る。特に、マルチチャンネル入力信号１０１は、１つ以上のモノ信号、１つ以上のステレオ信号、１つ以上のバイノーラル信号、１つ以上の（従来の）マルチチャンネル信号（５．１または７．１信号など）、１つ以上のオーディオオブジェクト、および／または１つ以上のＳＲ信号（おそらくは、その組み合わせ）を含み得る。異なる信号成分は、マルチチャンネル入力信号１０１の個々のチャンネルであると考えられ得る。

符号化部１００は、マルチチャンネル入力信号１０１をダウンミックスして、１つ以上のチャンネルを含むダウンミックス信号１０３にするように構成された空間分析およびダウンミックスモジュール１２０を備える。ダウンミックス信号１０３自体は、入力信号１０１がＨＯＡ信号を含む場合、ＳＲ信号、特に一次アンビソニックス（ＦＯＡ）信号であり得る。ダウンミックスは、サブバンドドメインまたはＱＭＦドメインにおいて（例えば、１０個以上のサブバンドを用いて）行われ得る。

空間分析およびダウンミックスモジュール１２０は、ＳＰＡＲ（すなわち、空間オーディオ解像度再構成（ＳｐａｔｉａｌＡｕｄｉｏＲｅｓｏｌｕｔｉｏｎＲｅｃｏｎｓｔｒｕｃｔｉｏｎ）または空間再構成（ＳｐａｔｉａｌＲｅｃｏｎｓｔｒｕｃｔｉｏｎ）メタデータ１０５を決定するようにさらに構成される。ＳＰＡＲメタデータ１０５は、ダウンミックス信号１０３からマルチチャンネル入力信号１０１を再構成するように構成される。空間分析およびダウンミックスモジュール１２０は、サブバンドドメインにおいてＳＰＡＲメタデータ１０５を決定するように構成されてもよい。ＳＰＡＲメタデータ１０５は、本明細書においてアップミックスメタデータとも称される。

加えて、符号化部１００は、符号化モジュール１４０を備え得る。符号化モジュール１４０は、ダウンミックス信号１０３の波形符号化（例えば、ＥＶＳ符号化）を行うことによって、符号化オーディオデータ１０６を提供するように構成される。ダウンミックス信号１０３の各チャンネルは、モノ波形符号化器を用いて符号化されることによって、効率的な符号化を可能にし得る。さらに、符号化部１００は、量子化モジュール１４１を備える。量子化モジュール１４１は、ＳＰＡＲメタデータ１０５を量子化し、そして（量子化）ＳＰＡＲメタデータ１０５のエントロピー符号化を行うことによって、符号化メタデータ１０７を提供するように構成される。符号化オーディオデータ１０６および符号化メタデータ１０７は、ビットストリームに挿入され得る。ダウンミックス信号１０３の、および／または、ＳＰＡＲメタデータ１０５の符号化は、典型的には、モードおよび／またはビットレート制御モジュール１４２を用いて制御される。

典型的には、空間分析および／またはダウンミックスモジュール１２０の動作は、目標ビットレートに依存する。特に、ダウンミックス信号１０３のチャンネル数は、目標ビットレートに依存し得る。ダウンミックスチャンネルの個数が大きくなると、典型的には、パラメトリック再構成よりも多く波形再構成を可能にするので、パフォーマンスを増大することが可能になる。他方、ダウンミックスチャンネルの個数が大きくなると、典型的には、オーディオ符号化モジュール１４０によって符号化する必要のあるチャンネル数が増大するので、ビットレートが増大する。

ビットレートが低い場合、単一のチャンネルダウンミックスのみを用いることが好ましいことがある。他方、ダウンミックスチャンネルの個数は、ビットレートが増大するにつれ、増大し得る。これは、本明細書に記載のＤＴＸ動作についても同様である。

図１の復号部１５０は、復号モジュール１６０を備える。復号モジュール１６０は、符号化オーディオデータ１０６から再構成ダウンミックス信号１１４を導出するように構成される。さらに、復号部１５０は、メタデータ復号モジュール１６１を備える。メタデータ復号モジュール１６１は、符号化メタデータ１０７からＳＰＡＲメタデータ１０５を導出するように構成される。

加えて、復号部１５０は、再構成モジュール１７０を備える。再構成モジュール１７０は、ＳＰＡＲメタデータ１０５から、および、再構成ダウンミックス信号１１４から再構成マルチチャンネル信号１１１を導出するように構成される。再構成マルチチャンネル信号１１１は、再構成ＳＲ信号を含み得る。特に、再構成マルチチャンネル信号１１１は、マルチチャンネル入力信号１０１と同じタイプのチャンネルを含み得る。再構成マルチチャンネル信号１１１は、スピーカレンダリングのために、ヘッドホンレンダリングのために、および／またはＳＲレンダリングのために用いられ得る。

図２は、再構成モジュール１７０の一例を例示する。再構成モジュール１７０は、再構成ダウンミックス信号１１４の１つ以上のチャンネルを入力として受け取る。第１ミキサ２１１は、再構成ダウンミックス信号１１４の１つ以上のチャンネルをより多くの信号にアップミックスするように構成され得る。第１ミキサ２１１は、ＳＰＡＲメタデータ１０５に依存する。

再構成モジュール１７０は、１つ以上の相関解除器（ｄｅｃｏｒｒｅｌａｔｏｒ）２０１を備え得る。相関解除器２０１は、再構成ダウンミックス信号１１４のＷチャンネルの表現物（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）から信号を生成するように構成される。当該信号は、第２ミキサ２１２において処理され、より多くのチャンネルを生成する。第２ミキサ２１２は、ＳＰＡＲメタデータ１０５に依存する。第１ミキサ２１１の出力および第２ミキサ２１２の出力は、合わさって、再構成マルチチャンネル信号１１１を提供する。再構成マルチチャンネル信号１１１は、マルチチャンネル入力信号１０１と同じタイプであってもよい（特に、同数のチャンネルを含んでもよい）。

ＳＰＡＲメタデータ１０５は、第１ミキサ２１１によって、および／または、第２ミキサ２１２によって用いられるアップミックス行列の係数を表すデータから構成され得る。ミキサ２１１、２１２は、サブバンドドメインにおいて（特に、ＱＭＦドメインにおいて）動作し得る。この場合、ＳＰＡＲメタデータ１０５は、複数の異なるサブバンド（例えば、１０個以上のサブバンド）に対して、第１ミキサ２１１によって、および、第２ミキサ２１２によって用いられるアップミックス行列の係数を表すデータを含む。

図２は、Ｗチャンネル（Ｗ′という）の表現物を含む１チャンネルダウンミックス信号１１４の例を例示する。第１ミキサ２１１は、Ｗ′に基づいて、Ｘ、Ｙおよび／またはＺチャンネルの予測可能部分の再構成物を生成する（ＳＰＡＲメタデータ１０５からの予測係数を用いる）。第２ミキサ２１２は、非相関残留信号Ｘ′、Ｙ′および／またはＺ′の再構成物を生成する。言い換えると、第２ミキサ２１２は、ＳＰＡＲメタデータ１０５を用いて、元の残留信号Ｘ′、Ｙ′および／またはＺ′にしたがって、Ｗ′と非相関な信号をスペクトル形状化することによって、それぞれ残留信号Ｘ′、Ｙ′および／またはＺ′の表現物または再構成物を提供する。

符号化部１００は、ＦＯＡ入力信号１０１を、ダウンミックス信号１０３と、パラメータ群すなわちＳＰＡＲメタデータ１０５とに変換するように構成され得る。ダウンミックス信号１０３およびパラメータ群は、復号部１５０で、入力信号１０１を再生成するために用いられる。ダウンミックス信号１０３のチャンネル数は、１～４チャンネルの間で変動し得る。パラメータ群は、予測パラメータＰｒ、交差予測（ｃｒｏｓｓ－ｐｒｅｄｉｃｔｉｏｎ）パラメータＣ、および／または相関解除パラメータＰを含み得る。これらのパラメータは、ウィンドウ入力信号１０１の共分散行列から計算され得る。さらに、それらのパラメータは、特定数のサブバンドにおいて計算され得る。コンフォートノイズの場合、１２個のサブバンドの代わりに、例えば、６個のサブバンドなどのより少ない個数のサブバンド（周波数バンドとも称する）が用いられてもよい。

以下は、ＳＰＡＲパラメータ抽出の表現物の一例であり得る（図３を参照）。

１．入力信号１０１のうちの主信号Ｗから入力信号１０１のすべての副信号（Ｙ、Ｚ、Ｘ）を予測する。

ここで、例として、予測チャンネルＹ′に対する予測係数は、以下のように計算され得る。

Ｒ_ＡＢ＝ｃｏｖ（Ａ，Ｂ）は、信号ＡおよびＢに対応する入力共分散行列の要素である。同様に、Ｚ′およびＸ′残留チャンネルは、対応するパラメータｐｒ_ｚおよびｐｒ_ｘを有する。ｐｒ_ｚおよびｐｒ_ｘは、上記の式において文字「Ｙ」を文字「Ｚ」または「Ｘ」に置き換えることによって計算され得る。予測パラメータＰｒ（ＰＲとも称される）は、予測係数のベクトル［ｐｒ_Ｙ，ｐｒ_Ｚ，ｐｒ_Ｘ］^Ｔであり得る。

予測パラメータは、図３に示す予測モジュール３１１内で決定されることによって、残留チャンネルＹ′、Ｚ′およびＸ′３０１を提供し得る。

一実装例において、Ｗは、アクティブなチャンネル（または、言い換えると、アクティブな予測により、本明細書においてＷ′と称される）であり得る。一例として（限定しないが）、Ｘ、Ｙ、ＺチャンネルをＷチャンネルにある種のミックスを行うことを可能にするアクティブなＷ′チャンネルは、以下のように定義され得る。

ここで、ｆは、ミックスファクタであり、時間および／または周波数に関して静的または動的であることが可能である。一実装例において、ｆは、アクティブなフレームとアクティブでないフレームとの間で変動し得る。言い換えると、ミックスファクタは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。さらに言い換えると、Ｘ、Ｙおよび／またはＺチャンネルをＷチャンネルにミックスすることは、アクティブなフレームに対して、および、アクティブでないフレームに対して異なり得る。したがって、Ｗチャンネルの表現物、すなわち、Ｗ′チャンネルは、初期Ｗチャンネルをその他のチャンネルのうちの１つ以上とミックスすることによって決定され得る。こうすることによって、知覚品質は、さらに向上し得る。

２．Ｗチャンネルおよび予測チャンネル（Ｙ′、Ｚ′、Ｘ′）（この順で音響的な関与が大きい）をリミックスする。リミックスは、所定の方法論に基づいて信号を並び替え、または、再組み合わせすることに相当し得る。リミックスのための方法論の一例は、左右からのオーディオキューが前後のオーディオキューよりも重要であり、前後のオーディオキューが上下のオーディオキューよりも重要であると仮定した場合の入力信号Ｗ、Ｙ′、Ｘ′、Ｚ′の並び替えであり得る。リミックス方法論は、対応する復号部１５０において既知であってもよく、その場合は、ビットストリーム内でパラメータが伝送される必要がない。リミックスは、図３のリミックスモジュール３１２内で行われることによって、リミックスチャンネル３０２を提供し得る。

３．４チャンネル予測後およびリミックスダウンミックス３０２の共分散を計算する。

ここで、ｄｄは、Ｗを超える１つ以上の剰余のダウンミックスチャンネル（すなわち、２番目からｎ番目のチャンネル）を表し、ｕは、ダウンミックス信号１０３に含まれないので、完全に再生成される必要のある１つ以上のチャンネル（すなわち、（ｎ＋１）番目のチャンネルから４番目のチャンネル）を表す（ここで、ｎは、ダウンミックス信号１０３内のチャンネル数である）。

１～４チャンネルを用いたＷＡＢＣリミックス３０２の例に対して、ｄおよびｕは、以下のチャンネルを表す。

ここで、ｎは、ダウンミックス信号１０３内のチャンネル数である。ＳＰＡＲメタデータ１０５の計算において主に対象となるのは、Ｒ_ｄｄ、Ｒ_ｕｄおよびＲ_ｕｕ共分散である。ＳＰＡＲメタデータは、図３の計算モジュール３１３内で決定され得る。

４．これより、伝送中の残留チャンネル（すなわち、ｄチャンネル）から完全パラメトリックチャンネル（すなわち、ｕチャンネル）の残りの部分を交差予測することが可能かどうかを決定する。

交差予測係数Ｃは、以下のように計算され得る。

したがって、Ｃは、３チャンネルダウンミックスに対して（１×２）の形状、および２チャンネルダウンミックスに対して（２×１）の形状を有し得る。

５．相関解除器２０１によって充填されるべきパラメータ化チャンネルにおける残りのエネルギーを計算する。アップミックスチャンネルＲｅｓ_ｕｕにおける残留エネルギーは、実際のエネルギーＲ_ｕｕ（予測後）と再生成交差予測エネルギーＲｅｇ_ｕｕとの差分である。

scaleパラメータは、定数であり、０≦scale≦１である。scaleパラメータは、周波数に依存し得る。特に、scaleパラメータの異なる値は、異なる周波数バンドに対して用いられ得る。相関解除パラメータ行列Ｐは、エルミート対称である共分散行列であり得る。したがって、相関解除行列の上部または下部三角形からの相関解除パラメータのみがＳＰＡＲメタデータ１０５に含まれる必要があり得る。対角成分は、実数値である一方、非対角成分は、複素数値であり得る。Ｐ係数は、アンプリディクション（ｕｎ－ｐｒｅｄｉｃｔｉｏｎ）およびアンミックス（ｕｎ－ｍｉｘｉｎｇ）を行う前に、Ａ、ＢおよびＣチャンネルを再生成するためにＷチャンネルの相関解除成分をどれくらい用いるかを示す。

いくつかの実装例において、Ｐの対角値のみが計算され、復号部１５０に送られる。これらの対角値は、以下のように計算され得る。

図３は、復号部１５０の再構成モジュール１７０のさらなる成分を例示する。特に、再構成モジュール１７０は、上記リミックス方法論にしたがってチャンネルをリミックスするように構成されたリミックスモジュール３２２を備え得る。さらに、予測パラメータをアンプリディクションモジュール３２１内で用いて、再構成残留チャンネルから再構成マルチチャンネル信号１１１のチャンネルを生成し得る。

本開示の技術課題は、ボイス通信システムにおけるバックグラウンドノイズの空間パラメータをモデリングして、復号部１５０がこれらの空間パラメータおよびマルチチャンネル励起信号を用いて高品質空間コンフォートノイズを生成できるようにすることである。マルチチャンネル励起信号は、すべてのチャンネルが異なるシード（ｓｅｅｄ）を用いて生成され、かつ、互いに非相関であるマルチチャンネルホワイトノイズ信号であり得る。

この目的のために、符号化部１００は、周囲ノイズをサンプリングし、周囲ノイズを記述する１つ以上のパラメータを符号化するように構成され得る。ノイズの空間的側面（ｓｐａｔｉａｌａｓｐｅｃｔ）に対する１つ以上のパラメータは、「ボイスアクティビティなし」の期間中に、推定、符号化、そして復号部１５０に伝送され得る。復号部１５０は、当該１つ以上のパラメータに基づいて、出力すべきノイズを再生成するように構成され得る。

言い換えると、上記１つ以上のパラメータを復号部１５０に伝送可能とするための、比較的小さな集団のパラメータを用いて空間バックグラウンドノイズを符号化する方法を記載する。上記１つ以上のパラメータを用いて、伝送システムの受信側において空間コンフォートノイズを生成し得る。用語「空間」は、ノイズが左／右、上／下および／または前／後に関係する環境（ａｍｂｉａｎｃｅ）を有することを意味する。ノイズは、ある方向において別の方向よりも強い周囲ノイズが存在し得るような異方性であり得る。空間ノイズは、スピーカから出力される場合に、復号部１５０においてヘッドトラッキングと併用されて出力されるように構成され得る。

空間コンフォートノイズを復号器において生成する一般方法論は、米国１０，２２４，０４６に記載されている。この文献の開示内容をすべて本願に援用する。本開示の技術課題は、空間コンフォートノイズを符号化部１００においてどのようにモデリングするかである。具体的には、本開示は、空間コンフォートノイズが復号部１５０において生成可能となるように、空間コンフォートノイズに対する１つ以上の空間パラメータを符号化部１００においてモデリングおよび／または量子化するための手順を記載する。

本開示の方法は、周囲ノイズの周波数スペクトルを特徴付ける機構と異なり、周囲ノイズの空間特性を特徴付ける。具体的には、本開示は、モノコーデックコンフォートノイズ符号化器の利用時に１つ以上の空間コンフォートノイズパラメータを生成することを記載する。ここで、空間コンフォートノイズパラメータは、ノイズの空間成分を特徴付ける。空間およびスペクトル成分を復号部１５０において用いて、空間コンフォートノイズを生成し得る。

入力オーディオ信号１０１が符号化部１００に与えられ得る。ここで、入力オーディオ信号１０１は、ひと続きのフレームを含む。例えば、フレームの時間長は、２０ｍｓであり得る。ひと続きフレームは、１サブセットのオーディオまたはボイスフレームと、バックグラウンドノイズのみからなる１サブセットのフレームとを含み得る。オーディオフレームのシーケンスの一例は、以下のように考えられ得る。

Ａ－－－Ａ－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ａ－－－Ａ－－Ａ－－Ａ

ここで、「Ａ」は、アクティブなスピーチおよび／またはオーディオフレームを示し、「Ｓ」は、サイレンスフレーム（本明細書において、アクティブでないフレームと称される）を示す。

ノイズシェーピングパラメータのみを伝送することによって、かつ、バックグラウンドノイズ特性は、アクティブなスピーチまたはオーディオフレームほどには頻繁に変化しないと仮定することによって、コーデックの実際のビットレートをアクティブでないフレームの期間において実質的に低減し得る不連続伝送（ＤＴＸ）システムに対して、上記シーケンスは、符号化部１００によって、以下のフレームのシーケンスに翻訳され得る。

ＡＢ－ＡＢ－ＳＩＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＳＩＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＳＩＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＡＢ－ＡＢ－ＡＢ－ＡＢ

ここで、「ＡＢ」は、アクティブなフレームに対する符号化器ビットストリームを示し、「ＳＩＤ」は、コンフォートノイズ生成用のひと続きのビットを含むサイレンスインジケータフレームを示し、「ＮＤ」は、データフレームがないこと、すなわち、これらのフレームの期間において何も復号部１５０に伝送されないことを示す。

したがって、符号化部１００は、入力信号１０１の異なるフレームをアクティブ（Ａ）またはサイレント（Ｓ）なフレーム（アクティブでないフレームとも称される）に分類するように構成され得る。さらに、符号化部１００は、「ＳＩＤ」フレーム（例えば、ひと続きのＳフレームのうちの現在のＳフレームに対応する）内のコンフォートノイズ生成用のデータを決定および符号化するように構成され得る。ＳＩＤフレームは、ひと続きのＳフレームに対して、繰り返し、特に周期的に、送られ得る。例として、ＳＩＤフレームは、８フレーム（２０ｍｓフレームを用いる場合、後のＳＩＤフレーム間の時間間隔の１６０ｍｓに対応する）ごとに送られ得る。ひと続きのＳフレームのうちの１つ以上の後続のＳフレームの期間においては、データが伝送されなくてもよい。したがって、符号化部１００は、ＤＴＸ（不連続伝送）を行うか、または、ＤＴＸモードに切り換えるように構成され得る。

言い換えると、符号化部１００は、アクティブなフレームごとにオーディオデータ１０６および符号化メタデータ１０７を復号部１５０に送るように構成され得る。他方、符号化部１００は、アクティブでないフレームの一部に対して（すなわち、ＳＩＤフレームに対して）、符号化メタデータ１０７のみを送る（オーディオデータ１０６は、送らない）ように構成され得る。残りのアクティブでないフレーム（すなわち、ＮＤフレーム）に対しては、データは、全く送られなくてもよい（符号化メタデータ１０７さえも送られなくてもよい）。ＳＩＤフレームに対して送られる符号化メタデータ１０７は、アクティブなフレームに対して送られる符号化メタデータ１０７に対して、低減および／または圧縮され得る。

符号化部１００は、符号化器をＤＴＸモードに切り換えるように構成されたボイスアクティビティ検出器を含み得る。ＤＴＸフラッグ（例えば、後述の組合せＶＡＤフラッグ）が設定されている場合、パケットが入力フレームに基づいて不連続モードで生成され得る。ＤＴＸフラッグが設定されていない場合、フレームは、スピーチおよび／またはオーディオのアクティブなフレームとして符号化され得る。

符号化部１００は、モノダウンミックス信号１０３を決定するように構成され得る。モノダウンミックス信号１０３を用いて、モノダウンミックス信号１０３に対して信号アクティビティ検出器またはボイスアクティビティ検出器（ＳＡＤ／ＶＡＤ）を動作させることによって、アクティブでないフレームを検出し得る。音場Ｂフォーマット入力信号１０１の例について、ＳＡＤ／ＶＡＤは、Ｗチャンネル信号の表現物に対して動作し得る。別の例において、ＳＡＤ／ＶＡＤは、入力信号１０１の複数の（特に、すべての）チャンネル信号に対して動作し得る。次いで、個々のチャンネル信号に対する個々の結果は、単一組合せＶＡＤフラッグに組み入れされ得る。組合せＶＡＤフラッグが設定されている場合、フレームは、アクティブでないと考えられ得る。他方、組合せＶＡＤフラッグが設定されていない場合、フレームは、アクティブであると考えられ得る。

したがって、ＶＡＤおよび／またはＳＡＤを用いて、フレームのシーケンスのうちのフレームをアクティブなフレームまたはアクティブでないフレームに分類し得る。コンフォートノイズの符号化および／または生成は、アクティブでないフレームに適用され得る。符号化部１００内のコンフォートノイズの符号化（特に、ノイズシェーピングパラメータの符号化）は、復号部１５０が音場用の高品質コンフォートノイズを生成可能となるように行われ得る。復号部１５０によって生成されるコンフォートノイズは、好ましくは、入力信号１０１内のバックグラウンドノイズのスペクトルおよび／または空間特性に整合（ｍａｔｃｈ）する。これは、必ずしも入力バックグラウンドノイズの波形再構成を意味しない。ひと続きのアクティブでないフレームに対して音場復号部１５０によって生成されたコンフォートノイズは、好ましくは、直前のアクティブなフレーム内のノイズに対して連続であるように聴こえる。したがって、復号部１５０におけるアクティブなフレームとアクティブでないフレームとの間の遷移は、好ましくは、滑らかであり、かつ、急峻でない（ｎｏｎ－ａｂｒｕｐｔ）。

復号部１５０は、ランダムホワイトノイズを励起信号として生成するように構成され得る。励起信号は、複数チャンネルのホワイトノイズを含み得る。ここで、異なるチャンネルにおけるホワイトノイズは、典型的には、互いに非相関である。符号化部１００からのビットストリームは、ノイズシェーピングパラメータ（符号化メタデータ１０７として）のみを含み得る。復号部１５０は、ビットストリーム内に与えられたノイズシェーピングパラメータを用いて、異なるチャンネル内のランダムホワイトノイズをシェーピング（スペクトル的および空間的に）するように構成され得る。こうすることによって、空間コンフォートノイズが効率的に生成され得る。

以下において、符号化部１５０において空間および／またはスペクトルコンフォートノイズパラメータを決定するための方法を説明する。上記のように、「アクティブなフレーム」は、ボイスおよび／またはオーディオ信号が検出されるフレームであり得る。「非アクティブまたはアクティブでないフレーム」は、ボイスもスピーチも検出されず、バックグラウンドノイズのみが存在するフレームであり得る。フレームは、ボイスおよび／またはスピーチ検出（ＶＡＤおよび／またはＳＡＤ）アルゴリズムを用いて、アクティブなフレームおよびアクティブでないフレームに分類され得る。

ＷＹＺＸは、Ｂフォーマット音場信号の４つのチャンネルであり得る。略語ＣＮＧは、コンフォートノイズ生成（ＣｏｍｆｏｒｔＮｏｉｓｅＧｅｎｅｒａｔｉｏｎ）を指し得る。略語ＳＰＡＲは、空間再構成器（ＳＰＡｔｉａｌＲｅｃｏｎｓｔｒｕｃｔｏｒ）を指し得る。図３を参照して概説したように、ＳＰＡＲスキームは、Ｎ個のチャンネルを有する入力１０１（好ましくは、Ｎ＝４のＦＯＡ入力）を受け取り、ダウンミックスチャンネル（ｄｍｘ＿ｃｈ）の個数ｎが１≦ｎ≦Ｎとなるダウンミックス１０３、および空間メタデータ１０５（いわゆるＳＰＡＲパラメータ）を生成するアルゴリズムであり得る。さらに、ＳＰＡＲスキームは、上記セットのＳＰＡＲパラメータ１０５を用いて、ｎ個のチャンネル１０３を有する（再構成された）ダウンミックス１０３、１１４からＮ個のチャンネルを有するマルチチャンネル信号１１１を再構成する。

ＦＯＡ入力信号１０１に対するＳＰＡＲパラメータ１０５は、ＰＲ（予測係数）、Ｃ（交差項）係数、およびＰ（相関解除器）係数を含み得る。ＹｐｒｅｄまたはＹ′は、Ｙチャンネル信号の、１つ以上の他のチャンネル信号（特に、Ｗチャンネル信号）からの線形予測後の残留であり得る。ＸｐｒｅｄまたはＸ′は、Ｘチャンネル信号の、１つ以上の他のチャンネル信号（特に、Ｗチャンネル信号）からの線形予測後の残留であり得る。ＺｐｒｅｄまたはＺ′は、Ｚチャンネル信号の、１つ以上の他のチャンネル信号（特に、Ｗチャンネル信号）からの線形予測後の残留であり得る。

なお、本明細書は、音場信号内の空間ノイズのモデリングに主に関するが、本明細書に記載の方法は、音場信号に限定されず、かつ、任意の複数次元のノイズフィールドに、および／または、任意の種類のマルチチャンネル信号に適用され得る。特に、本明細書に記載の方法は、１より大きく、好ましくは、２よりも大きい（すなわち、ステレオよりも大きい）次元（ｄｉｍｅｎｓｉｏｎａｌｉｔｙ）Ｎを有する入力信号１０１に対する符号化器に基づいて、チャンネルおよび音場に適用され得る。

空間コンフォートノイズを符号化するための方法は、モノダウンミックス信号１０３（例えば、音場信号に対するＷチャンネル信号）の１フレームに対するＶＡＤおよび／またはＳＡＤを含み得る。当該フレームがアクティブでないフレームであると検出された場合、空間コンフォートノイズパラメータの符号化が行われ得る。

複数の異なる周波数バンドまたはサブバンドに対して、上記フレームの異なるチャンネル信号の共分散が決定され得る。しかし、より少ない数の周波数バンドに対して、共分散行列が上記概説のように決定されてもよい。共分散の平滑化、すなわち、共分散行列の平滑化は、複数の後のフレームにわたって行われ得る。したがって、共分散は、フィルタを用いて、複数フレームにわたって、（ローパス）フィルタ化され得る。異なる周波数バンドに対して異なるフィルタが用いられ得る。言い換えると、異なる平滑化関数および／または異なる忘却係数が異なる周波数バンドにおいて用いられ得る。したがって、共分散の時間平滑化が行われ得る。この結果、バックグラウンドノイズに対するパラメータを符号化するためのデータレートが低減され得る。さらに、空間コンフォートノイズの可聴不連続が回避され得る。時間共分散平滑化の一例が米国６３．０５７．５３３に記載されている。この文献の開示内容をすべて本願に援用する。

コンフォートノイズ生成のための共分散推定Ｒ_ｄｔｘは、好ましくは、比較的広範囲な（ｅｘｔｅｎｓｉｖｅ）共分散平滑化を利用する。コンフォートノイズモデリングのための忘却係数を大きくすることにより、ノイズの空間特性の知覚を安定化させることによって、非定常的に聴こえ、知覚的に不快であり得るノイズを回避し得る。したがって、フレームに対して平滑化された共分散Ｒ_ｄｔｘが決定され、そして平滑化共分散Ｒ_ｄｔｘに基づいてＳＰＡＲメタデータ１０５が決定され得る。

アクティブなフレームと後のアクティブでないフレームとの間の平滑な遷移を可能にするために、共分散計算スキームは、ＳＡＤおよび／またはＶＡＤがアクティブでないフレームを検出すると直ちに、ノーマルな共分散推定（アクティブなフレームに対して用いられる）からノイズ共分散推定に切り換えられ得る。

フレームは、比較的短いバーストまたはトランジェント（例えば、ボイスバーストまたはノック（ｋｎｏｃｋ））を含み得る。そのようなトランジェントは、比較的短く、例えば、２００ｍｓであり得る。そのようなバーストは、１シーケンスのアクティブでないフレームを中断し得る。当該中断があれば、通常、共分散の計算のリセットを招く（なぜなら、アクティブなフレームの短いバーストは、平滑化を用いないか、または改変された平滑化スキームを用いて計算されるからである）。符号化部１００は、共分散推定を決定するための平滑化スキームから、トランジェントまたは短いバーストを有するフレームを除外するように構成され得る。トランジェントまたはボイスバーストが一旦検出されると、バーストまたはトランジェントが終了するまで共分散推定が一定に保持され得る。バーストまたはトランジェントが比較的短い、例えば、２００ｍｓ以下である場合、共分散平滑化は、当該トランジェントの後も継続し得る（バーストまたはトランジェントの前の記憶された共分散に基づく）。したがって、共分散平滑化は、バーストまたはトランジェントの直前のフレームに対する記憶された共分散を用いて継続され得る。言い換えると、トランジェントまたはバーストに対応する１つ以上のアクティブなフレームを除くことによって、共分散の重み付け平均化が継続され得る。

他方、バーストが比較的長時間続く場合は、共分散推定は、リセットされてもよいし、リセットの前の共分散推定は、平均化のために用いられなくてもよい。

こうすることによって、バックグラウンドノイズの空間的側面が時間的に比較的安定であることが考慮され得る。トランジェント、ノック、ガタゴト（ｂｕｍｐ）、チクタク（ｔｉｃｋ）などを平滑化共分散計算から除くことによって、バックグラウンドノイズの空間的側面の知覚可能な途切れ（ｄｉｓｒｕｐｔｉｏｎ）が信頼性良く回避され得る。特に、気づきやすいアーチファクトを招き得る、比較的短いシーケンスのアクティブなフレームの検出による共分散のリセットが回避され得る。

ＳＰＡＲメタデータ１０５の計算は、予測係数（Ｐｒ）の計算、１＜ｎ＜４の場合の交差項係数Ｃの計算、および／または相関解除器係数（Ｐ）の計算（上記に概説）を含み得る。ここで、ｎは、ダウンミックス信号１０３内のチャンネル数である。

上記のように、アクティブでないフレームに対しては、アクティブなフレームの場合よりも少ない数のバンド（例えば、１２バンドの代わりに６バンド）に対して共分散が計算され得る。アクティブでないフレームに対してバンド数を低減する背後にある前提は、バックグラウンドノイズの広帯域性により、ノイズパラメータを得るために、典型的には、より低い周波数解像度が必要となることである。バンド数を低減することによって、データレート、すなわち、ビットレートが低減され得る。さらに、実数値の係数のみが符号化部１００から復号部１５０に送られてもよい。したがって、より少ない周波数バンドを含む低減モデルがバックグラウンドノイズをモデリングするために用いられ得る。このモデルによって、広帯域ノイズの空間特性を効率的にモデリングすることが可能になる。

２チャンネルダウンミックス１０３（例えば、Ｗチャンネル信号およびＹｐｒｅｄまたはＹ′チャンネル信号の表現物を含む）の場合、符号化部１００から復号部１５０へのビットストリーム内に含まれるデータは、以下を含み得る（１フレームの入力信号１０１に対して）。

●符号化モジュール１４０によって符号化されたＷチャンネル信号の表現物
●符号化モジュール１４０によって符号化されたＹｐｒｅｄチャンネル信号。上記に概説したように、Ｙｐｒｅｄチャンネル信号は、Ｙチャンネル信号の非相関部分であり得る。当該非相関部分は、１つ以上の予測係数を用いてＷチャンネル信号から予測することはできない
●Ｙ、ＺおよびＸチャンネル信号に対する（実数値の）予測係数

●ＤＴＸの期間においては、アクティブでないフレームに対して、直接的な係数（交差予測係数またはＣ係数など）は、復号部１５０に送られなくてもよい
●ＸおよびＺチャンネル信号を生成するために用いられる必要のある相関解除Ｗチャンネル信号のレベルを示す（実数値の）相関解除器係数Ｐ

２チャンネルダウンミックス信号１０３の場合に符号化部１００によって行われ得る処理を図４ｂに例示する。

完全パラメトリックＷダウンミックス１０３（ダウンミックス信号１０３としてＷチャンネル信号のみを含む）の場合、符号化部１００から復号部１５０へのビットストリーム内のデータは、以下を含み得る（１フレームの入力信号１０１に対して）。

●符号化モジュール１４０によって符号化されたＷチャンネル信号の表現物
●Ｙ、ＺおよびＸチャンネル信号に対する（実数値の）予測係数

●Ｙ、ＸおよびＺチャンネル信号を生成するために用いる必要のある相関解除Ｗチャンネル信号のレベルを示す（実数値の）相関解除器係数Ｐ

１チャンネルダウンミックス信号１０３の場合に符号化部１００によって行われ得る処理を図４ａに例示する。図４ｃは、３チャンネルダウンミックス信号１０３の場合を例示する。

単一モノチャンネルへのダウンミックス（例えば、３または４チャンネルを有するマルチチャンネル入力信号１０１が１チャンネルにダウンミックスされ、そして３または４チャンネルにアップミックスされることを示す３－１－３または４－１－４ダウンミックス）の場合、モノ（Ｗ′）チャンネルダウンミックス信号１０３（Ｗチャンネルの表現物であり得る）に関するオーディオデータ１０６のみがビットストリームに含められる。ＳＰＡＲメタデータ１０５を用いて再構成ダウンミックス信号１１４に基づいてＦＯＡ空間コンフォートノイズを生成し得る。符号化部１００がアクティブでないフレームを検出した場合、本明細書に概説したように、ＳＰＡＲメタデータ１０５の計算が改変される。特に、アクティブなフレームの後の最初のアクティブでないフレームが符号化され、ＳＩＤフレームを与え得る。この目的のために、符号化ＳＰＡＲメタデータ１０７は、最初のアクティブでないフレームに対して、ビットストリーム内で与えられ得る。さらに、ひと続きのアクティブでないフレームの期間において、さらなるＳＩＤフレームが繰り返し、特に、周期的に与えられ得る。

１チャンネルダウンミックス例に対して、復号部１５０は、オーディオデータ１０６に基づいて再構成ダウンミックス信号１１４を生成するように構成され得る。この再構成ダウンミックス信号１１４は、Ｗ_ＣＮＧと称されることがある。再構成ダウンミックス信号１１４は、アクティブでないフレームの期間において、ホワイトノイズを励起信号として用い、かつ、モノオーディオコーデックによって符号化されたスペクトルシェーピングパラメータ（例えば、ＥＶＳ）を用いた、ダウンミックスにおけるＷチャンネルの非符号化表現物内に存在するバックグラウンドノイズのパラメトリック再構成物を含み得る。Ｙ、ＸおよびＺチャンネル信号を再構成するための３つの相関解除チャンネルは、相関解除器２０１（例えば、時間ドメインまたはフィルタバンクドメイン相関解除器）を用いてＷ_ＣＮＧから生成され得る。あるいは、Ｙ、ＸおよびＺチャンネル信号を再構成するための３つの相関解除チャンネルは、異なるシードを有する非相関コンフォートノイズを生成し、そしてＷ_ＣＮＧにしたがって非相関コンフォートノイズをスペクトルシェーピングすることによって生成され得る。ＳＰＡＲメタデータ１０５は、Ｗ_ＣＮＧおよび相関解除チャンネルに適用され、元のバックグラウンドノイズのスペクトルおよび空間特性を有する、音場フォーマットのコンフォートノイズが生成され得る。

２チャンネルダウンミックス例（一次音場に対する４－２－４）に対して、モノダウンミックス（Ｗ′）チャンネルに対する、および、１つの予測チャンネルに対するコンフォートノイズパラメータが復号部１５０に与えられ得る。復号部１５０は、２チャンネルダウンミックス１０３から、および、ＳＰＡＲメタデータ１０５からＦＯＡ空間コンフォートノイズを生成するための方法を適用し得る。２つのダウンミックスチャンネルは、一方が元のＷチャンネル表現物にしたがって成形されたスペクトルを有する非相関コンフォートノイズ信号であり、他方が元の残留チャンネルにしたがって成形されたスペクトルを有する非相関コンフォートノイズ信号であり得る。

ＳＩＤフレームについて、２つの独立した符号化器モジュール１４０インスタンス（ｉｎｓｔａｎｃｅ）は、それぞれモノ（Ｗ′）チャンネルに関するスペクトル情報および残留チャンネルに関するスペクトル情報を符号化する。さらに、復号部１５０の２つの独立したインスタンスは、異なるシードを有する非相関コンフォートノイズ信号を生成し得る。非相関コンフォートノイズ信号は、それぞれ非符号化ダウンミックス内のＷチャンネルおよび残留チャンネルの表現物に基づいてスペクトルシェーピングされ得る。再構成Ｗチャンネルは、Ｗ_ＣＮＧと称されることがある。再構成残留チャンネルは、Ｐ_ＣＮＧと称されることがある。

Ｐ_ＣＮＧは、典型的には、Ｗ_ＣＮＧの相関解除および相関解除係数の適用（単一ダウンミックスチャンネルのみを利用する完全パラメトリックアプローチにおいて行われる）と比較して、元の非相関残留チャンネルのより良好な近似である。この結果として、バックグラウンドノイズの知覚品質は、典型的には、マルチチャンネルダウンミックス信号１０３をする場合に、より高くなる。

２つの相関解除チャンネルは、時間ドメインまたはフィルタバンクドメイン相関解除器を介したＷ_ＣＮＧの伝送（ｒｕｎ）によって、または、異なるシードを有する非相関コンフォートノイズの生成によって、かつ、Ｗ_ＣＮＧにしたがった非相関コンフォートノイズチャンネルのスペクトルシェーピングによって作成され得る。次いで、Ｗ_ＣＮＧ、Ｐ_ＣＮＧコンフォートノイズ信号および２つの相関解除信号は、ＳＰＡＲメタデータ１０５を用いて、ＦＯＡ出力にアップミックスされ得る。

ダウンミックス信号１０３は、アクティブなフレームおよびアクティブでないフレームで同じダウンミックス構成を有して連続的に伝送されるので、バックグラウンドノイズは、典型的には、遷移フレームの期間においても滑らかなに聴こえる。さらに、復号部１５０は、ＳＰＡＲ符号化器１２０によって計算された予測係数および相関解除係数を用いているので、ＳＰＡＲ復号器１５０によって生成されたコンフォートノイズ内に空間特性が再現（ｒｅｐｌｉｃａｔｅ）される。

Ｃ係数または交差予測係数が０に設定されることによって、ＤＴＸの期間におけるアクティブでないフレームに対するデータレートをさらに低減し得る。コンフォートノイズモデリングの別の実装例は、Ｃパラメータを含み得る。

コンフォートノイズモデリングの一実装例において、Ｐ行列の上または下三角パラメータは、用いられない。Ｐ行列の実数値の対角成分のみを用いて、コンフォートノイズをモデリングし得る。コンフォートノイズモデリングの別の実装例において、Ｐ行列の上または下三角パラメータは、考慮されてもよい。

４－３－４ダウンミックスの場合、モノコーデックＣＮＧパラメータは、Ｗダウンミックスチャンネルのモノ表現物に対して、および、２つの予測チャンネルに対して、生成され、そして伝送され得る。次いで、ＦＯＡ空間コンフォートノイズが３チャンネルダウンミックス１０３から、および、ＳＰＡＲメタデータ１０５から生成され得る。３つのダウンミックスチャンネルは、１つがダウンミックスにおいて非符号化Ｗチャンネル表現物として成形されたスペクトルを有する非相関コンフォートノイズ信号であり、他の２つがダウンミックスにおいて非符号化Ｙ残留チャンネルおよびＸ残留チャンネルとして成形されたスペクトルを有する非相関コンフォートノイズ信号であり得る。

図４ａ、４ｂおよび４ｃは、それぞれ１チャンネルダウンミックス１０３、２チャンネルダウンミックス１０３、または３チャンネルダウンミックス１０３を用いてＦＯＡ入力信号１０１を符号化する場合の、空間コンフォートノイズパラメータのフレーム単位の計算を例示する。Ｙ′は、ＷチャンネルからＹチャンネルを予測した後の残留を示す。Ｘ′は、ＷチャンネルからのＸチャンネルの予測を示す。

好適な例において、パラメータＰｒ（予測係数）および／またはＰ（相関解除器係数）の均一な量子化が行われ得る。量子化スキームは、ノイズの方向に依存し得る。特に、異なるチャンネルに割り当てられる量子化点の個数は、ノイズの方向に依存し得る。

予測係数（Ｐｒ）の量子化は、以下のように行われ得る。
●４－１－４の場合、予測係数は、均一な量子化を用いて量子化され得る。当該係数は、９個の均一に分散された量子化点を用いて、－１．２と１．２との間で量子化され得る。
●４－２－４の場合、Ｙ′およびＸ′に対応する予測係数は、９個の均一に分散された量子化点を用いて、－１と１との間で量子化され得る。Ｚ′チャンネルに対応する予測係数は、７個の均一に分散された量子化点を用いて、－１と１との間で量子化され得る。Ｚ′と比較してＹ′およびＸ′に対する量子化点の個数が増大しているのは、Ｚ′チャンネルと比較してＹ′およびＸ′チャンネルの知覚の重要度が増大していることにより得る。
●４－３－４の場合、Ｙ′に対応する予測係数は、９個の均一に分散された量子化点を用いて、－１と１との間で量子化され得る。Ｘ′チャンネルに対応する予測係数は、７個の均一に分散された量子化点を用いて、－１と１との間で量子化され得る。Ｚ′チャンネルに対応する予測係数は、５個の均一に分散された量子化点を用いて、－１と１との間で量子化され得る。

相関解除係数（Ｐ）の量子化は、以下のとおりであり得る。
●相関解除係数は、０と１．６との間で量子化され得る。
●４－１－４の場合、相関解除係数を増大させる（ｂｏｏｓｔ）ことによってさらなる拡散性（ｄｉｆｆｕｓｅｎｅｓｓ）が付加され得る（これは、相関解除係数が比較的低い、例えば、０．４未満の場合にのみ行われ得る）。次いで、（増大された）相関解除係数は、７個の均一に分散された量子化点を用いて量子化され得る。相関解除係数を増大させることによって、非均一量子化が達成され得る。
●４－２－４の場合、増大は、追加されなくてもよく、かつ、相関解除係数は、７個の均一に分散された量子化点を用いて量子化され得る。
●４－３－４の場合、増大は、追加されなくてもよく、かつ、相関解除係数は、３個の均一に分散された量子化点を用いて量子化され得る。

なお、Ｎ－ｎ－Ｎという表記は、入力信号１０１のチャンネル数Ｎ、ダウンミックス信号１０３のチャンネル数ｎ、および再構成信号１１１のチャンネル数Ｎを示す。

図６ａは、Ｎ個の異なるチャンネルを含むマルチチャンネル入力信号１０１を符号化するための方法例６００のフローチャートを示す。ここで、Ｎは、１よりも大きな正の整数であり、好ましくは、Ｎ＞２である。マルチチャンネル入力信号１０１は、ＳＲ信号、特に、ＦＯＡ信号などのアンビソニックス信号であり得る。入力信号１０１は、フレームのシーケンスを含む。ここで、各フレームは、入力信号１０１のうちのある時間長、例えば、１０～３０ｍｓをカバーし得る。マルチチャンネル入力信号１０１のうちの１フレームは、典型的には、１ブロックのマルチチャンネルＰＣＭデータを含む。特に、１フレームは、マルチチャンネル入力信号１０１の各チャンネルに対し、ある時間（例えば、２０ｍｓ）に対するオーディオサンプル（例えば、２０ｋＨｚ以上、または４０ｋＨｚ以上、特に、４８ｋＨｚなどのあるサンプリングレートで）を含み得る。

方法６００は、フレームのシーケンスの各フレームに対して繰り返され得る。方法６００は、フレームのシーケンスのうちの現在のフレームに対して、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを信号および／またはボイスアクティビティ検出器を用いて判定するステップ６０１を含み得る。言い換えると、現在のフレームは、アクティブなフレーム（信号、特に、スピーチを含む）であること、または、アクティブでないフレーム（バックグラウンドノイズ（のみ）を含む）であることに分類され得る。この目的のために、現在のフレームのサンプルは、例えば、現在のフレーム内のオーディオ信号のエネルギーに関して、および／または、現在のフレーム内のオーディオ信号のスペクトル組成に関して分析され得る。ＳＡＤおよび／またはＶＡＤは、マルチチャンネル入力信号１０１の単一チャンネル（例えば、Ｗチャンネル）に基づいて、または、マルチチャンネル入力信号１０１の複数の、特に、すべてのチャンネルに基づいて行われ得る。

さらに、方法６００は、マルチチャンネル入力信号１０１に基づいて、および／または、演算および／または目標ビットレートに基づいてダウンミックス信号１０３を決定するステップ６０２を含み得る。ここで、ダウンミックス信号１０３は、典型的には、Ｎ個以下のチャンネルを含む。特に、ダウンミックス信号１０３は、ｎ個のチャンネルを含む。ここで、典型的には、ｎ≦Ｎ、好ましくは、ｎ＜Ｎである。ダウンミックス信号１０３のチャンネル数ｎは、特に、比較的高いビットレートに対して、マルチチャンネル入力信号１０１のチャンネル数Ｎに等しくてもよい。ダウンミックス信号１０３は、マルチチャンネル入力信号１０１から１つ以上のチャンネルを選択することによって生成され得る。ダウンミックス信号１０３は、例えば、ＦＯＡ信号のＷチャンネルを含み得る。さらに、ダウンミックス信号１０３は、ＦＯＡ信号の１つ以上の残留チャンネル（本明細書に記載の予測演算を用いて導出され得る）を含み得る．

ダウンミックス信号１０３、特に、ダウンミックス信号１０３のチャンネル数ｎは、典型的には、ビットストリームに対する目標データレートに依存して決定される。

方法６００は、さらに、パラメータセットを含むアップミックスメタデータ１０５、特に、ＳＰＡＲメタデータを決定するステップ６０３を含み得る。アップミックスメタデータ１０５は、ダウンミックス信号１０３に基づいて（または、対応する再構成ダウンミックス信号１１４に基づいて）、Ｎ個のチャンネルを含む再構成マルチチャンネル信号１１１の生成を可能にするように決定され得る。アップミックスメタデータ１０５のパラメータセットは、マルチチャンネル入力信号１０１の現在のフレーム内に含まれるオーディオコンテンツ、特に、ノイズの１つ以上の空間特性を記述および／またはモデリングし得る。

上記のように、マルチチャンネル入力信号１０１は、Ｗチャンネル、Ｙチャンネル、ＺチャンネルおよびＸチャンネルを有するアンビソニックス信号、特に、ＦＯＡ信号を含み得る。アップミックスメタデータ１０５のパラメータセットは、Ｗチャンネルに基づいてＹチャンネル、ＺチャンネルおよびＸチャンネルを予測することによって残留チャンネル（それぞれＹ′チャンネル、Ｚ′チャンネルおよびＸ′チャンネルと称される）を与えるための予測係数を含み得る。予測係数は、本明細書においてＰｒまたはＰＲと称される。ダウンミックス信号１０３は、Ｗチャンネルの表現物および１つ以上の残留信号（特に、最も高いエネルギーを有する１つ以上の残留信号）を含み得る。

ダウンミックス信号がＷチャンネル表現物に加えて第１の残留チャンネルを含む場合、交差予測パラメータが決定され得る（おそらくは、アップミックスメタデータ１０５の一部として）。ここで、交差予測パラメータは、ダウンミックス信号に含まれる１つ以上の残留チャンネルと１つ以上の残りの残留チャンネル（ダウンミックス信号１０３に含まれない）との間の共分散に依存する。１つ以上の交差予測係数は、本明細書においてＣと称される。

さらに、ダウンミックス信号１０３に含めなかった残留チャンネルを再構成する際に相関解除チャンネルを生成するための相関解除パラメータが残留チャンネルの共分散に基づいて決定され得る。相関解除パラメータは、本明細書においてＰと称され、アップミックスメタデータの一部であり得る。

アップミックスメタデータ１０５は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され得る。特に、アップミックスメタデータ１０５内に含まれるパラメータセットは、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。現在のフレームがアクティブなフレームである場合、アップミックスメタデータ１０５のパラメータセットは、現在のフレームがアクティブでないフレームである場合よりも、大きく、かつ／または、多くの異なるパラメータを含み得る。

特に、交差予測パラメータは、現在のフレームがアクティブでないフレームである場合、現在のフレームに対して、アップミックスメタデータ１０５の一部でなくてもよい。他方、交差予測パラメータは、現在のフレームがアクティブなフレームである場合、現在のフレームに対して、アップミックスメタデータ１０５の一部であり得る。

あるいは、または加えて、１つよりも多くの残留チャンネルをダウンミックス信号１０３に含める場合、現在のフレームに対するアップミックスメタデータ１０５のパラメータセットは、現在のフレームがアクティブなフレームである場合、含まれない残留チャンネルと、それ自体と、または、別の１つの含まれない残留チャンネルとの各可能な組み合わせに対して、相関解除パラメータを含み得る。他方、現在のフレームがアクティブでないフレームである場合、現在のフレームに対するアップミックスメタデータ１０５のパラメータセットは、含まれない残留チャンネルとそれ自体との組み合わせに対してのみ相関解除パラメータを含み得る。

したがって、アップミックスメタデータ１０５に含めるパラメータの種類は、アクティブなフレームに対してと、アクティブでないフレームに対してとでは、異なり得る。特に、バックグラウンドノイズの空間特性の再構成にあまり関係しない１つ以上のパラメータは、アクティブでないフレームに対して省かれ得る。この結果として、バックグラウンドノイズを符号化するためのデータレートは、知覚品質に影響を与えることなく低減され得る。

上記パラメータセットは、複数の異なる周波数バンドに対して対応するパラメータを含み得る。言い換えると、所与の種類のパラメータ（例えば、Ｐｒ、Ｃおよび／またはＰパラメータ）は、複数の異なる周波数バンド（サブバンドとも称する）に対して決定され得る。パラメータが決定される異なる周波数バンドの個数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームでのいずれかあるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、異なる周波数バンドの個数は、現在のフレームがアクティブでないフレームである場合よりも大きくてもよい。

したがって、マルチチャンネル入力信号の空間特性を記述する上記パラメータセットの周波数解像度は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して改変され得る。特に、アクティブでないフレームに対するよりもアクティブなフレームに対して高周波数解像度が用いられ得る。こうすることによって、バックグラウンドノイズを符号化するためのデータレートは、知覚品質に影響を与えずに低減され得る。

方法６００は、アップミックスメタデータ１０５をビットストリーム（ここで、ビットストリームは、対応する復号部１５０に伝送または与えられ得る）に符号化するステップ６０４をさらに含み得る。アップミックスメタデータ１０５のパラメータセットは、エントロピー符号化され、ビットストリームに挿入されることになる符号化メタデータ１０７を与え得る。この結果として、空間バックグラウンドノイズの効率的な符号化が提供される。

方法６００は、現在のフレームがアクティブなフレームである場合、特に、その場合のみ、ダウンミックス信号１０３をビットストリームに符号化するステップをさらに含み得る。ダウンミックス信号１０３の１つ以上のチャンネルは、（１つ以上のインスタンスの）単一チャンネルオーディオ符号化器（ＥＶＳ（エンハンスト・ボイスサービス（ｅｎｈａｎｃｅｄｖｏｉｃｅｓｅｒｖｉｃｅｓ））符号化器など）を用いて個別に符号化され、ビットストリームに挿入されることになるオーディオデータ１０６を与え得る。

方法６００は、現在のフレームに対するアップミックスメタデータ１０５をビットストリームに符号化するステップ６０４のために、量子化器を用いて上記パラメータセットからパラメータを量子化するステップを含み得る。言い換えると、量子化器を用いて、ビットストリームに符号化されることになる上記パラメータセットを量子化し得る。量子化器、特に、量子化器の量子化ステップサイズおよび／または量子化ステップ数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、アクティブでないフレームに対するよりもアクティブなフレームに対して、量子化ステップサイズは、小さく、かつ／または、量子化ステップ数は、多くてもよい。あるいは、または加えて、量子化器、特に、量子化器の量子化ステップサイズおよび／または量子化ステップ数は、ダウンミックス信号のチャンネル数に依存し得る。こうすることによって、空間バックグラウンドノイズの高知覚品質な符号化の効率がさらに増大され得る。

あるいは、または加えて、量子化器、特に、量子化器の量子化ステップサイズおよび／または量子化ステップ数は、アップミックスメタデータ１０５が符号化されるチャンネルおよび／またはチャンネルの種類に依存し得る。異なるチャンネルおよび／または異なる種類のチャンネルは、異なる方向に関係し得る。例として、Ｘチャンネルおよび／またはＺチャンネルと比較して、Ｙチャンネルに対し、量子化ステップサイズは、小さく、かつ／または、量子化ステップ数は、多くてもよい。なぜなら、左／右のキュー（ｃｕｅ）は、前／後または上／下のキューよりも知覚的に重要であり得るからである。

上記方法は、フレームのシーケンスからの複数フレームにわたって時間平滑化を行うことによって、マルチチャンネル入力信号の現在のフレームに対して、共分散、特に、共分散行列および／または１セットの共分散値を決定するステップを含み得る。時間平滑化は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して行われ得る。例として、時間平滑化に対する忘却係数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、忘却係数は、現在のフレームがアクティブでないフレームである場合よりも短くてもよい。言い換えると、アクティブでないフレームと比較して、アクティブなフレームに対して、より程度の小さい時間平滑化が行われ得る。一例において、現在のフレームがアクティブなフレームである場合、現在のフレームに対する共分散は、時間平滑化なしに決定されてもよい。他方、現在のフレームがアクティブでないフレームである場合、現在のフレームに対する共分散は、時間平滑化を用いて決定されてもよい。

忘却係数は、周波数に依存し得る。特に、少なくとも、複数の異なる周波数バンドのうちのいくつかに対して、異なる忘却係数、すなわち、忘却係数の異なる値が用いられてもよい。したがって、共分散の時間平滑化は、異なる周波数および／または周波数バンドに対して異なり得る。こうすることによって、空間バックグラウンドノイズの知覚品質は、さらに向上し得る。

アクティブでないフレームの期間において、より程度の大きな平滑化が行われ得る（アクティブなフレームと比較して）。なぜなら、バックグラウンドノイズの空間特性は、典型的には、アクティブなスピーチまたは一般的なオーディオと比較して、より安定していると想定されるからである。これはまた、復号器出力においてより安定した空間コンフォートノイズ体験を与え得る。

忘却係数は、異なる周波数バンドのバンド幅に依存し得る。特に、周波数バンドに対する忘却係数は、周波数バンドのバンド幅に依存し得る。忘却係数は、周波数バンドの周波数解像度が増大するにつれ増大し得る（その逆も然りである）。

アップミックスメタデータの１つ以上のパラメータ（特に、１つ以上の予測パラメータ、１つ以上の交差予測係数および／または１つ以上の相関解除パラメータ）は、現在のフレームに対する共分散に基づいて正確に決定され得る。

したがって、共分散の時間平滑化（空間特性を記述するための基礎となる）は、バックグラウンドノイズを含むアクティブでないフレームに対して行われ得る。こうすることによって、復号部１５０における再構成バックグラウンドノイズの知覚品質が向上し得る。さらに、データレート効率が向上し得る（エントロピー符号化のパフォーマンスが向上するため）。

方法６００は、トランジェントノイズまたはトークバースト（ｔａｌｋｂｕｒｓｔ）に対応する、フレームのシーケンスからの１つ以上のフレームを特定するステップを含み得る。トランジェントノイズおよび／またはトークバーストは、最大で所定のバースト期間閾値のあいだ続く音響イベントであり得る。バースト期間閾値は、例えば、１００ｍｓ～３００ｍｓに、例えば、２００ｍｓに設定され得る。復号部１５０がトランジェントノイズおよび／またはトークバーストをその正しい空間位置において再構成できるように、トランジェントノイズおよび／またはトークバーストに対して、時間平滑化を行わずに、空間パラメータを得ることが知覚上重要であり得る。しかし、また、バックグラウンドノイズの共分散における急な変化は、可聴な不連続および／またはアーチファクトを生じさせ得るので、空間バックグラウンドノイズモデリングするために共分散平滑化フィルタ状態を維持する（トランジェントノイズおよび／またはトークバーストの影響を受けずに）ことが知覚上重要であり得る。

方法６００は、時間平滑化を行う際に１つ以上の特定されたフレーム（トランジェントノイズおよび／またはトークバーストを含む）を無視するステップ、および／または、現在のフレームに対して共分散を決定するための時間平滑化計算から１つ以上の特定されたフレームを除外するステップを含み得る。言い換えると、比較的短いトランジェントノイズおよび／またはトークバーストを含む１つ以上の中間のアクティブなフレームが共分散の時間平滑化演算から除外され得る。この結果として、空間バックグラウンドノイズの知覚品質が向上し得る。その結果、復号部１５０における再構成空間バックグラウンドノイズの空間特性における急な変化を回避でき、知覚品質が向上する。

方法６００は、所定のバースト期間閾値より短く、現在のフレームがフレームのシーケンスから１セットの１つ以上の先行するアクティブでないフレームに（直後に）続くアクティブなフレームであると判定するステップを含み得る。次いで、現在のフレームに対する共分散が現在のフレームを考慮せずに決定され得る。次いで、現在のフレームに対する共分散が１つ以上の先行するアクティブでないフレームのセットに基づいて決定された基準共分散に基づいて決定され得る。したがって、１シーケンスのアクティブでないフレームに続くアクティブなフレームが共分散の時間平滑化時に無視されることによって、復号部１５０における空間バックグラウンドノイズの知覚品質が向上し得る。

あるいは、方法６００は、所定のバースト期間閾値より長く、現在のフレームがフレームのシーケンスから１セットの１つ以上の先行するアクティブでないフレームに（直後に）続くアクティブなフレームであると判定するステップを含み得る。言い換えると、現在のフレームが比較的短いトランジェントおよび／またはバーストの一部ではなく、スピーチおよび／または信号を含むと判定され得る。次いで、現在のフレームに対する共分散がサンプルに基づいて、特に、サンプルのみに基づいて、現在のフレームから決定され得る。したがって、マルチチャンネル入力信号１０１内のスピーチおよび／または信号の開始を検出した後に、共分散計算のリセットが行われ得る。この結果として、再構成マルチチャンネル信号１１１の知覚品質が向上し得る。

方法６００は、現在のフレームがアクティブでないフレームであると判定するステップを含み得る。この場合、現在のフレームに対する共分散は、現在のフレームに（直後に）続く、フレームのシーケンスからの１つ以上の後のフレームに対する共分散を決定するために時間平滑化を行うための基準共分散として記憶され得る。アクティブでないフレームの共分散を、より多くの後の（アクティブでない）フレームの１つの共分散を計算するための基準共分散として記憶することによって、時間平滑化が効率的に行われ得る。

さらに、方法６００は、現在のフレームに（直後に）続く、フレームのシーケンスからの後のフレームに対して、現在のフレームがアクティブでないフレームである場合に、後のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを、上記信号および／またはボイスアクティビティ検出器を用いて判定するステップを含み得る。後のフレームがアクティブでないフレームである場合、後のフレームに対する共分散は、現在のフレームのサンプルに基づいて、特に、現在のフレームに対する共分散に基づいて、および後のフレームのサンプルに基づいて（忘却係数を考慮して）決定され得る。こうすることによって、時間平滑化が信頼性良くかつ効率的に行われ得る。

方法６００は、複数の異なる周波数バンド内のマルチチャンネル入力信号１０１の現在のフレームに対して、共分散、特に、共分散行列を決定するステップを含み得る。上記のように、周波数バンドの個数は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、周波数バンドの個数は、現在のフレームがアクティブでないフレームである場合よりも多くてもよい。次いで、アップミックスメタデータ１０５の１つ以上のパラメータが現在のフレームに対する共分散に基づいて決定され得る。特に、複数のパラメータが、複数の周波数バンドに対する対応の複数の共分散に基づいて、複数の周波数バンドに対して決定され得る。この結果として、周波数依存パラメータは、信頼性良くかつ効率的に決定され得る。

現在のフレームがアクティブでないフレームであると判定された場合、現在のフレームの直前の、フレームのシーケンスからの先行するフレームがアクティブでないフレームであったかどうかが判定され得る。言い換えると、現在のフレームがＳＩＤ（サイレンスインジケータ）フレームまたはＮＤ（データなし）フレームのいずれであるかが判定され得る。先行するフレームがアクティブでないフレームであって、かつ、最後のＳＩＤフレームからの連続するアクティブでないフレームの個数が予め計算されたＳＩＤフレーム間隔未満である（すなわち、現在のフレームがＮＤフレームである）場合、現在のフレームに対するダウンミックス信号１０３および／またはアップミックスメタデータ１０５をビットストリームに符号化するステップ６０４を行わないことにより、空間バックグラウンドノイズを送信するデータレートをさらに低減し得る。他方、先行するフレームがアクティブなフレームであって、または、最後のＳＩＤフレームからの連続するアクティブでないフレームの個数が予め計算されたＳＩＤフレーム間隔に等しい（すなわち、現在のフレームがＳＩＤフレームである）場合、現在のフレームに対するダウンミックス信号１０３およびアップミックスメタデータ１０５がビットストリームに符号化されることによって、空間バックグラウンドノイズの正確な送信を提供し得る。

現在のフレームがアクティブなフレームである場合、ダウンミックス信号１０３の各チャンネルは、モノオーディオ符号化器（ＥＶＳなど）のインスタンスを用いて個別に符号化され得る。ここで、モノオーディオ符号化器は、ダウンミックス信号１０３のチャンネル内のオーディオ信号を（符号化された）励起信号に、および、（符号化された）スペクトルデータに符号化するように構成され得る。

現在のフレームがアクティブでない（ＳＩＤ）フレームである場合、ダウンミックス信号１０３の各チャンネルは、モノオーディオ符号化器（ＥＶＳなど）のインスタンスを用いて個別に符号化され得る。しかし、この場合、（符号化された）励起信号は、ビットストリームに挿入されなくてもよい。他方、（符号化された）スペクトルデータは、ビットストリームに挿入され得る。この結果として、バックグラウンドノイズのスペクトル特性に関するスペクトルデータは、効率的にビットストリームに挿入され得る。

対応する復号部１５０において、ダウンミックス信号１０３の１つ以上のチャンネルの励起信号は、ホワイトノイズによって置き換えられ得る（ここで、異なるチャンネルに対するホワイトノイズは、典型的には、互いに独立している）。さらに、（符号化された）スペクトルデータを用いて、スペクトル特性をダウンミックス信号１０３の１つ以上のチャンネルに付加し、再構成ダウンミックス信号１１４を与えてもよい。

方法６００は、可変レートＤＴＸを含み得る。ここで、ＳＩＤフレームの伝送周波数は、可変である。ＳＩＤフレームの伝送周波数は、入力信号１０１のバックグラウンドノイズの空間および／またはスペクトル特性または信号対ノイズ比の変化に依存して変化し得る。上記に概説したように、入力信号１０１のフレームは、アクティブなフレームまたはアクティブでないフレームに分類され得る。入力信号１０１のフレームのシーケンスは、１サブシーケンスのアクティブでないフレームを含み得る。アクティブでないフレームのサブシーケンス内に含まれるノイズの空間および／またはスペクトル特性に関する情報を与えるために、符号化部１００は、ＳＩＤフレームをビットストリームに繰り返し、特に、周期的に挿入するように構成され得る。各ＳＩＤフレームは、本明細書に記載のアップミックスメタデータ１０５を含み得る。ＳＩＤフレームに対する周波数または繰り返しレートは、入力信号１０１に依存して改変され得る。

特に、現在のアクティブでないフレームを分析して、現在のアクティブでないフレーム内のノイズの空間および／またはスペクトル特性における変化が先回のアクティブでないフレームにおいて生じていたかどうかが判定され得る。例として、現在のアクティブでないフレームに対するアップミックスメタデータ１０５と先回のアクティブでないフレームのアップミックスメタデータ１０５との間の距離測度値が所定の距離閾値よりも大きいかどうかが判定され得る。距離測度値が所定の距離閾値よりも大きい場合、変化したアップミックスメタデータ１０５を復号部１５０に送信するために、現在のアクティブでないフレームに対してＳＩＤフレームが挿入され得る。他方、距離測度値が距離閾値よりも小さい場合、現在のアクティブでないフレームは、ＮＤフレームとして扱われ得る。

上記に概説したように、入力オーディオ信号１０１が符号化部１００に与えられ得る。ここで、入力オーディオ信号１０１は、ひと続きのフレームを含む。フレームの時間長は、例えば、２０ｍｓである。ひと続きフレームは、１サブセットのオーディオまたはボイスフレームと、バックグラウンドノイズのみからなる１サブセットのフレームとを含み得る。１シーケンスのオーディオフレームの一例は、以下のように考えられ得る。

Ａ－－－Ａ－－ＳＴ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－ＳＴ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ｓ－－－Ｓ－－－－Ｓ－－－Ａ－－－Ａ－－Ａ－－Ａ
と考えられ得る。

ここで、「Ａ」は、アクティブなスピーチおよび／またはオーディオフレームを表し、「Ｓ」は、サイレンスフレーム（本明細書にてアクティブでないフレームとも称される）を表し、「ＳＴ」は、サイレンス伝送フレームを表す。サイレンス伝送フレームに対して、バックグラウンドノイズのスペクトルおよび／または空間特性における変化が検出され、したがって、空間および／またはスペクトルパラメータが符号化され、復号部１５０に送られることになる。

ノイズシェーピングパラメータのみを送り、かつ、バックグラウンドノイズ特性がアクティブなスピーチまたはオーディオフレームと同程度には頻繁に変化しないと仮定することによって、コーデックの実際のビットレートがアクティブでないフレームの期間に著しく低減される不連続伝送（ＤＴＸ）システムに対して、上記シーケンスは、符号化部１００によって、以下のフレームのシーケンスに翻訳され得る。

ＡＢ－ＡＢ－ＳＩＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＳＩＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＮＤ－ＡＢ－ＡＢ－ＡＢ－ＡＢ

ここで、「ＡＢ」は、アクティブなフレームに対する符号化器ビットストリームを表し、「ＳＩＤ」は、コンフォートノイズ生成のためのひと続きのビットを含むサイレンスインジケータフレームを表し、「ＮＤ」は、データフレームがないこと、すなわち、これらのフレームの期間において何も復号部１５０に伝送されないことを表す。なお、上記シーケンスにおけるＳＩＤフレームの伝送周波数は、予め決定されておらず、入力バックグラウンドノイズのスペクトルおよび／または空間特性における変化に依存する。

したがって、方法６００は、現在のフレームがアクティブでないフレームである場合、現在のフレームに対する共分散行列における変化に基づいて、バックグラウンドノイズの空間および／またはスペクトル特性における変化を検出するステップを含み得る。当該変化が所定の閾値よりも大きい場合、ＳＩＤフレームのみが送られ得る。

言い換えると、方法６００は、現在のフレームが、１サブシーケンスの（現在のフレームの直前の）１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップを含み得る。さらに、方法６００は、現在のフレームに含まれるバックグラウンドノイズの空間および／もしくはスペクトル特性、ならびに／または、現在のフレームの信号対ノイズ比が、１つ以上の先回のアクティブでないフレームのサブシーケンスにおけるバックグラウンドノイズの対応する空間および／もしくはスペクトル特性に対して、ならびに／または、１つ以上の先回のアクティブでないフレームのサブシーケンスの信号対ノイズ比に対して、変化したかどうかを判定するステップを含み得る。

方法６００は、現在のフレームに含まれるバックグラウンドノイズの空間および／もしくはスペクトル特性、ならびに／または、現在のフレームの信号対ノイズ比が、１つ以上の先回のアクティブでないフレームのサブシーケンスに対して、変化した場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ１０５をビットストリームに符号化するステップ６０４をさらに含み得る。したがって、現在のフレームは、現在のフレームに含まれるバックグラウンドノイズの空間および／もしくはスペクトル特性、ならびに／または、現在のフレームの信号対ノイズ比が変化した場合、特に、そうである場合のみに、ＳＩＤフレームとして符号化され得る。

あるいは、または加えて、方法６００は、現在のフレームが１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップを含み得る。加えて、方法６００は、現在のフレームに対する共分散および／またはアップミックスメタデータ１０５と、１つ以上の先回のアクティブでないフレームに対する先回の共分散および／または先回のアップミックスメタデータ１０５との間の距離測度（例えば、二乗誤差）の値を決定するステップを含み得る。言い換えると、現在のフレームに対する共分散が１つ以上の先回のアクティブでないフレームに対する対応の先回の共分散からどれだけずれているかによって、および／または、現在のフレームに対するアップミックスメタデータ１０５が１つ以上の先回のアクティブでないフレームに対する先回のアップミックスメタデータ１０５からどれだけずれているかによって、決定され得る。先回のアップミックスメタデータ１０５は、最後のＳＩＤフレームにおいて送られたアップミックスメタデータであり得る。先回の共分散は、先回のアップミックスメタデータ１０５を生成するために用いられた共分散であり得る。

方法６００は、距離測度値が所定の距離閾値よりも大きいかどうかを判定するステップをさらに含み得る。距離測度値が所定の距離閾値よりも大きい場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ１０５をビットストリームに符号化するステップ６０４が行われ得る。あるいは、距離測度値が所定の距離閾値よりも小さい場合、特に、そうである場合のみに、現在のフレームに対するアップミックスメタデータ１０５をビットストリームに符号化するステップ６０４が行われなくてもよい。

したがって、バックグラウンドノイズパラメータ（すなわち、アップミックスメタデータ１０５のバックグラウンドノイズパラメータ）の伝送は、非周期的であり得、かつ、入力バックグラウンドノイズの、および／または、信号対ノイズ比の空間および／またはスペクトル特性における変化に依存し得る。特に、空間および／もしくはスペクトル特性ならびに／または信号対ノイズ比における変化が所定の閾値よりも高い場合のみ、バックグラウンドノイズパラメータは、更新され、復号部１５０に送られ得る。

ＳＩＤフレームの適応的伝送を可能にすることによって、コンフォートノイズの知覚品質に影響を与えずにデータレートをさらに低減することができる。

対応する復号方法は、現在のフレームがアクティブでないフレームである場合、復号部１５０において、現在のフレームがＳＩＤフレームまたはデータなしフレームであるかどうかを判定するステップを含み得る。複数のデータなしフレームにわたり、現在のＳＩＤフレームにおける空間バックグラウンドノイズパラメータと、１つ以上の先回のＳＩＤフレームにおける空間バックグラウンドノイズパラメータをクロスフェードさせる。例えば、Ｐ_{ｃｕｒｒ＿ｓｉｄ}が現在のＳＩＤフレームに対するパラメータであり、かつ、Ｐ_{ｐｒｅｖ＿ｓｉｄ}が先回のＳＩＤフレームに対するパラメータである場合、バックグラウンドノイズパラメータにおける変量Ｐ_{ｃｕｒｒ＿ｓｉｄ}－Ｐ_{ｐｒｅｖ＿ｓｉｄ}が複数の（ｘ個の）フレーム（Ｘ＞１）にわたって適用され得る。ここで、いずれの後のフレームにおける空間パラメータも（Ｐ_{ｃｕｒｒ＿ｓｉｄ}－Ｐ_{ｐｒｅｖ＿ｓｉｄ}）／ｘだけ変更される。これにより、ある空間位置から別の空間位置への空間コンフォートノイズの平滑な遷移を確保できる。

方法６００は、現在のフレームの先行の（直前の）フレームがアクティブなフレームであった場合、先行クレームに対するダウンミックス信号１０３のチャンネル数を決定し、先行クレームに対するダウンミックス信号１０３と同じチャンネル数の、現在のフレームに対するダウンミックス信号１０３を維持するステップを含み得る。言い換えると、ダウンミックス信号１０３内のチャンネル数は、アクティブなフレームとアクティブでないフレームとの間の遷移期間において維持され得る。この結果として、空間バックグラウンドノイズの知覚品質は、さらに向上し得る。

上記に概説したように、マルチチャンネル入力信号１０１は、Ｗチャンネル、Ｙチャンネル、ＺチャンネルおよびＸチャンネルを有するアンビソニックス信号を含み得る。特に、マルチチャンネル入力信号１０１は、ＦＯＡ信号であり得る。方法６００は、ミックスファクタｆを用いて、Ｗチャンネルと、Ｙチャンネル、Ｚチャンネルおよび／またはＸチャンネルとをミックスして、１チャンネルのダウンミックス信号１０３を生成するステップを含み得る。ミックス処理の結果、Ｗチャンネルの表現物（本明細書においてＷ′チャンネルと称される）が得られ得る。Ｙ、Ｚおよび／またはＸチャンネルからの情報をＷチャンネルにミックスすることによって、元のＷチャンネルよりも多い空間情報を含む変更Ｗ′チャンネルが得られる。この結果として、符号化スキームの知覚品質が向上し、および／または、ダウンミックス信号１０３内のダウンミックスチャンネルの個数が低減され得る。

ミックスファクタ（Ｙ、Ｚおよび／またはＸチャンネルがＷチャンネルにミックスされる程度を規定する）は、現在のフレームがアクティブなフェームまたはアクティブでないフレームのいずれであるかに依存し得る。特に、現在のフレームがアクティブなフレームである場合、ミックスファクタは、現在のフレームがアクティブでないフレームである場合よりも高くてもよい。言い換えると、Ｙ、Ｚおよび／またはＸチャンネルは、アクティブなフレームに対して、アクティブでないフレームに対するよりも高い程度で、Ｗチャンネルにミックスされ得る。こうすることによって、符号化スキームの知覚品質は、さらに向上し得る。

図６ｂは、Ｎ個のチャンネルを含む再構成マルチチャンネル信号１１１を示すビットストリームを復号するための方法例６１０のフローチャートを示す。ビットストリームは、オーディオデータ１０６および／または符号化アップミックスメタデータ１０７を含み得る。再構成信号１１１は、フレームのシーケンスを含む。

方法６１０は、フレームのシーケンスのうちの現在のフレームに対して、ビットストリームに基づいて、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ６１１を含む。これは、例えば、ビットストリーム内に含まれる符号化アップミックスメタデータ１０７に基づいて判定され得る。さらに、方法６１０は、再構成ダウンミックス信号１１４を決定するステップ６１２を含み得る。再構成ダウンミックス信号１１４は、典型的には、Ｎ個未満のチャンネルを含む（Ｎ個のチャンネルを含んでもよい）。再構成ダウンミックス信号１１４は、現在のフレームがアクティブなフレームである場合、ビットストリーム内に含まれるオーディオデータ１０６に基づいて生成され得る。他方、ビットストリームは、典型的には、アクティブでないフレームに対してオーディオデータ１０６を含まない。再構成ダウンミックス信号１１４は、現在のフレームがアクティブでないフレームである場合、ランダムノイズ生成器を用いて生成され得る。再構成ダウンミックス信号１１４の１つ以上の異なるチャンネルに対して、統計的に独立したノイズ生成器が用いられ得る。

方法６１０は、再構成ダウンミックス信号１１４に基づいて、かつ、パラメータセットを含むアップミックスメタデータ１０５に基づいて、再構成マルチチャンネル信号１１１を生成するステップ６１３をさらに含む。再構成マルチチャンネル信号１１１は、現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成され得る。

特に、方法６１０は、再構成ダウンミックス信号１１４に含まれていない再構成マルチチャンネル信号１１１のチャンネルに対して、相関解除チャンネルを生成するステップを含み得る。相関解除チャンネルは、再構成ダウンミックス信号１０３に基づいて（特に、再構成Ｗチャンネルに基づいて）生成され得る。さらに、方法６１０は、アップミックスメタデータ１０５に基づいて空間性（ｓｐａｔｉａｌｐｒｏｐｅｒｔｙ）を相関解除チャンネル付加して、再構成ダウンミックス信号１１４に含まれる１つ以上の再構成チャンネルを除く、再構成マルチチャンネル信号１１１の再構成チャンネルを生成するステップを含み得る。

信号１１１のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して、再構成マルチチャンネル信号１１１、特に、マルチチャンネル信号１１１の１つ以上の再構成チャンネルの再構成を改変することによって、高品質の空間バックグラウンドノイズが与えられ得る。

対応する符号化方法６００に関して概説したように、アップミックスメタデータ１０５は、典型的には、アクティブでないフレームの一部に対してだけ伝送される。復号部１５０は、ＳＩＤフレームに続く複数のアクティブでないフレームに対して、ＳＩＤフレーム内で伝送されたアップミックスメタデータ１０５を用いるように構成され得る。特に、アップミックスメタデータ１０５は、新たなＳＩＤフレームが受信されるまで用いられ得る。こうすることによって、高品質コンフォートノイズは、データレートが効率的であるように生成され得る。

方法６１０は、現在のフレームが１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定し得る。ここで、１つ以上の先回のアクティブでないフレームに対して再構成マルチチャンネル信号１１１を生成するために、先回のアップミックスメタデータ１０５が用いられた。さらに、方法６１０は、ビットストリームが現在のフレームに対して更新されたアップミックスメタデータ１０５を含むと判定するステップを含み得る。言い換えると、現在のフレームは、ＳＩＤフレーム（バックグラウンドノイズの更新された空間および／またはスペクトル特性を送信するために、更新されたアップミックスメタデータ１０５を含む）であると、判定され得る。

次いで、現在のフレームに対する再構成マルチチャンネル信号１１１（すなわち、空間バックグラウンドノイズ）は、更新されたアップミックスメタデータ１０５に基づいて生成され得る。更新されたアップミックスメタデータ１０５を有するＳＩＤフレームを受信することによって、符号化部１００におけるバックグラウンドノイズの変化を効率的に追跡し得る。

方法６１０は、更新されたアップミックスメタデータ１０５および先回のアップミックスメタデータ１０５に基づいてメタデータ平滑化を行って、平滑化アップミックスメタデータ１０５を決定するステップを含み得る。メタデータ平滑化は、現在のフレームから始まる１つ以上のアクティブでないフレーム内で、先回のアップミックスメタデータ１０５から更新されたアップミックスメタデータ１０５へクロスフェードさせるステップを含み得る。次いで、平滑化アップミックスメタデータ１０５に基づいて、現在のフレームに対する再構成マルチチャンネル信号１１１が決定され得る。

言い換えると、空間メタデータ平滑化が復号部１５０によって行われ、現在のＳＩＤフレームで送られる空間パラメータは、複数のデータなし（ＮＤ）フレームにわたって１つ以上の先回のＳＩＤフレームで送られる空間パラメータとクロスフェードされ得る

したがって、１つ以上のフレーム内で、バックグラウンドノイズの先回の空間および／またはスペクトル特性と更新された空間および／またはスペクトル特性との間で平滑な遷移が行われ得る。こうすることによって、コンフォートノイズの知覚品質は、さらに向上し得る。

さらに、符号化方法６００に対応する符号化部１００および／または復号方法６１０に対応する復号部１５０を本明細書に記載する。

したがって、アクティブなフレームに対して用いられる空間パラメータ１０５および同じまたは異なるダウンミックス１０３を用いて、ノイズの空間特性をモデリングすることによって、アクティブなフレームと非アクティブなフレームとの間で空間的に一定した（ｃｏｎｓｉｓｔｅｎｔ）復号器１５０におけるコンフォートノイズ生成を可能にする方法６００を記載する。方法６００は、ボイス信号がオーディオ入力１０１の１つ以上のフレームに存在するかどうかを判定するステップを含み得る。ボイス信号が存在しないとの判定に応じて、フレーム－フレーム平均化（ｆｒａｍｅｔｏｆｒａｍｅａｖｅｒａｇｉｎｇ）を用いて共分散が推定され得る。さらに、空間ノイズパラメータ１０５が計算され、空間ノイズパラメータ１０５のエントロピー符号化が行われ得る。エントロピー符号化空間ノイズパラメータ１０７は、１つ以上のフレームに対して、ビットストリーム内に組み込まれ（ｐａｃｋ）得る。

方法６００は、１つ以上のフレームのうちの１フレームにおけるトランジェントの検出に応じて、共分散平均化から当該フレームを除外するステップを含み得る。空間ノイズパラメータ１０５の計算は、ノイズにおける空間変動性（ｖａｒｉａｂｉｌｉｔｙ）を回避するために、複数フレームにわたって平滑化する平滑化共分散推定を用いて行われ得る。方法６００は、トランジェントおよび短いトークバーストにわたって共分散を平滑化し、それらを計算から除外するステップを含み得る。あるいは、または加えて、方法６００は、１限定セットのバンドおよび／または１限定セットのパラメータを用いて、ノイズに対するパラメータビットレートを低減し、オーディオが存在する場合に完全なセットに戻すように切り替えるステップを含み得る。あるいは、または加えて、方法６００は、既存のコンフォートノイズ生成器を再利用できるように、ノイズのスペクトル成分（ｅｌｅｍｅｎｔ）とは別に空間成分を計算するステップを含み得る。

図５は、図１～４ｃを参照して説明した特徴およびプロセスを実施するためのモバイルデバイスアーキテクチャである。モバイルデバイスは、例えば、復号部１５０を備え得る。アーキテクチャ８００は、デスクトップコンピュータ、消費者向けオーディオ／ビジュアル（ＡＶ）機器、ラジオ放送機器、モバイルデバイス（例えば、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、ウェアラブルデバイス）を含むが、これらに限定されない、任意の電子デバイスで実装することができる。図示した実施形態例では、アーキテクチャ８００は、スマートフォン用であり、プロセッサ８０１、周辺機器インターフェース８０２、オーディオサブシステム８０３、ラウドスピーカ８０４、マイクロホン８０５、センサ８０６（例えば、加速度計、ジャイロ、気圧計、磁力計、カメラ）、位置プロセッサ８０７（例えば、ＧＮＳＳ受信機）、無線通信サブシステム８０８（例えば、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ、セルラ）およびＩ／Ｏサブシステム８０９を含む。Ｉ／Ｏサブシステム８０９は、タッチコントローラ８１０および他の入力コントローラ８１１、タッチ面８１２、および他の入力／制御デバイス８１３を含む。より多くの構成要素またはより少ない構成要素を有する他のアーキテクチャも、開示された実施形態を実施するために用いることができる。

メモリインタフェース８１４は、プロセッサ８０１、周辺機器インターフェース８０２、およびメモリ８１５（例えば、フラッシュ、ＲＡＭ、ＲＯＭ）に接続される。メモリ８１５は、オペレーティングシステム命令８１６、通信命令８１７、ＧＵＩ命令８１８、センサ処理命令８１９、電話命令８２０、電子メッセージング命令８２１、ウェブブラウジング命令８２２、オーディオ処理命令８２３、ＧＮＳＳ／ナビゲーション命令８２４、およびアプリケーション／データ８２５を含むが、これらに限定されないコンピュータプログラム命令およびデータを記憶する。オーディオ処理命令８２３は、図１～４ｃを参照して説明したオーディオ処理を実行するための命令を含む。

本明細書に記載のシステムの態様は、デジタルまたはデジタル化オーディオファイルを処理するための適切なコンピュータベースのサウンド処理ネットワーク環境で実施され得る。適応的オーディオシステムの一部分は、コンピュータ間で伝送されるデータをバッファリングおよびルーティングするように機能する１つ以上のルータ（図示せず）を含む、任意の所望の個数の個々のマシンを含む１つ以上のネットワークを含んでもよい。そのようなネットワークは、種々の異なるネットワークプロトコル上に構築されてもよく、インターネット、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、またはそれらの任意の組み合わせであってもよい。

コンポーネント、ブロック、プロセス、または他の機能コンポーネントの１つ以上は、システムのプロセッサベースのコンピューティングデバイスの実行を制御するコンピュータプログラムを介して実装され得る。また、本明細書に開示された種々の機能は、ハードウェア、ファームウェアの任意の個数の組み合わせを用いて、ならびに／または種々の機械可読またはコンピュータ可読媒体に具体化されたデータおよび／もしくは命令として、それらの演算、レジスタ転送、論理構成要素、および／または他の特徴に関して記載され得ることに留意されたい。そのようなフォーマット化データおよび／または命令が具体化され得るコンピュータ可読媒体は、光学、磁気または半導体記憶媒体のような種々の形態の物理的（非一時的）不揮発性記憶媒体を含むが、これらに限定されない。

１つまたは複数の実装例を例としておよび特定の実施形態に関して記載したが、１つまたは複数の実装例が開示された実施形態に限定されないことが理解される。逆に、当業者に明らかなように、種々の変更および類似の構成をカバーすることが意図される。従って、添付の特許請求の範囲には、そのような変更及び類似の構成の全てを包含するように、最も広い解釈が与えられるべきである。

Claims

Ｎ個の異なるチャンネルを含むマルチチャンネル入力信号（１０１）を符号化するための方法（６００）であって、前記入力信号（１０１）は、フレームのシーケンスを含み、前記方法（６００）は、前記フレームのシーケンスのうちの現在のフレームに対して、
信号および／またはボイスアクティビティ検出器を用いて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ（６０１）と、
前記マルチチャンネル入力信号（１０１）に基づいて、Ｎ個以下のチャンネルを含むダウンミックス信号（１０３）を決定するステップ（６０２）と、
前記ダウンミックス信号（１０３）に基づいて、Ｎ個のチャンネルを含む再構成マルチチャンネル信号（１１１）を生成するためのパラメータセットを含むアップミックスメタデータ（１０５）を決定するステップ（６０３）であって、前記アップミックスメタデータ（１０５）は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定される、ステップ（６０３）と、
前記アップミックスメタデータ（１０５）をビットストリームに符号化（６０４）するステップと、
を含む、
方法（６００）。
前記方法（６００）は、
前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して、前記フレームのシーケンスからの複数フレームにわたって時間平滑化を行うことによって、前記マルチチャンネル入力信号（１０１）の前記現在のフレームに対して、共分散、特に、共分散行列を決定するステップと、
前記現在のフレームに対する前記共分散に基づいて、前記アップミックスメタデータ（１０５）の１つ以上のパラメータを決定するステップと、
を含む、
請求項１に記載の方法（６００）。
前記時間平滑化に対する忘却係数は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存し、かつ／または
前記現在のフレームがアクティブなフレームである場合、前記忘却係数は、前記現在のフレームがアクティブでないフレームである場合よりも短く、かつ／または
前記現在のフレームがアクティブなフレームである場合、時間平滑化量は、前記現在のフレームがアクティブでないフレームである場合よりも小さい、
請求項２に記載の方法（６００）。
前記共分散の時間平滑化のための前記忘却係数は、周波数に依存する、
請求項３に記載の方法（６００）。
前記方法（６００）は、
トランジェントノイズまたはトークバーストに対応する、前記フレームのシーケンスからの１つ以上のフレームを特定するステップと、
時間平滑化を行う際に前記１つ以上の特定されたフレームを無視するステップ、および／または、前記現在のフレームに対する前記共分散を決定するための前記時間平滑化計算から前記１つ以上の特定されたフレームを除外するステップと、
を含む、
請求項２から４のいずれかに記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームは、所定のバースト期間閾値より短く、前記フレームのシーケンスからの１セットの１つ以上の先行するアクティブでないフレームに続くアクティブなフレームであると判定するステップと、
前記現在のフレームを考慮せずに、前記現在のフレームに対する前記共分散を決定するステップと、
を含む、
請求項２から５のいずれかに記載の方法（６００）。
前記現在のフレームに対する前記共分散は、前記１つ以上の先行するアクティブでないフレームのセットに基づいて決定された基準共分散に基づいて決定される、
請求項６に記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームは、所定のバースト期間閾値よりも長く、前記フレームのシーケンスからの１セットの１つ以上の先行するアクティブでないフレームに続くアクティブなフレームであると判定するステップと、
前記現在のフレームからのサンプル、特に、前記サンプルのみに基づいて、前記現在のフレームに対する前記共分散を決定するステップと、
を含む、
請求項２から５のいずれかに記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームがアクティブでないフレームであると判定するステップと、
前記現在のフレームに続く、前記フレームのシーケンスからの後のフレームに対する前記共分散を決定するために時間平滑化を行うための基準共分散として、前記現在のフレームに対する前記共分散を記憶するステップと、
を含む、
請求項２から５のいずれかに記載の方法（６００）。
前記方法（６００）は、前記現在のフレームに続く、前記フレームのシーケンスからの後のフレームに対して、現在のフレームがアクティブでないフレームである場合、
前記信号および／または前記ボイスアクティビティ検出器を用いて、前記後のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップと、
前記後のフレームがアクティブでないフレームである場合、前記現在のフレームのサンプルに基づいて、特に、前記現在のフレームに対する前記共分散に基づいて、かつ前記後のフレームのサンプルに基づいて、前記後のフレームに対する前記共分散を決定するステップと、
を含む、
請求項２から９のいずれかに記載の方法（６００）。
前記方法（６００）は、
複数の異なる周波数バンド内の前記マルチチャンネル入力信号（１０１）の前記現在のフレームに対して、共分散、特に、共分散行列を決定するステップであって、周波数バンドの個数は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存する、ステップと、
前記現在のフレームに対する前記共分散に基づいて前記アップミックスメタデータ（１０５）の１つ以上のパラメータを決定するステップと、
を含む、
先行する請求項のいずれかに記載の方法（６００）。
前記現在のフレームがアクティブなフレームである場合、周波数バンドの個数は、前記現在のフレームがアクティブでないフレームである場合よりも多い、
請求項１１に記載の方法（６００）。
前記現在のフレームがアクティブなフレームである場合、前記アップミックスメタデータ（１０５）の前記パラメータセットは、前記現在のフレームがアクティブでないフレームである場合よりも大きく、かつ／または、より多数の異なるパラメータを含む、
先行する請求項のいずれかに記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームがアクティブでないフレームであると判定された場合、前記現在のフレームの直前に先行する、前記フレームのシーケンスからの先行するフレームは、アクティブでないフレームであったと判定するステップと、
前記先行するフレームがアクティブでないフレームであった場合、かつ、アップミックスメタデータ（１０５）の最後の伝送から連続するアクティブでないフレームの個数が予め計算された数よりも小さい場合、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化するステップ（６０４）を行わないようにするステップと、
前記先行するがアクティブなフレームであった場合、または、アップミックスメタデータ（１０５）の最後の伝送から連続するアクティブでないフレームの個数が予め計算された数に等しい場合、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化するステップ（６０４）と、
を含む、
先行する請求項のいずれかに記載の方法（６００）。
前記方法（６００）は、前記現在のフレームの直前の、前記フレームのシーケンスからの先行フレームがアクティブなフレームであった場合、
前記先行クレームに対して前記ダウンミックス信号（１０３）のチャンネル数を決定するステップと、
前記先行クレームに対する前記ダウンミックス信号（１０３）と同じチャンネル数の、前記アクティブでない現在のフレームに対する前記ダウンミックス信号（１０３）を維持するステップと、
を含む、
先行する請求項のいずれかに記載の方法（６００）。
前記アップミックスメタデータ（１０５）の前記パラメータセットは、前記マルチチャンネル入力信号（１０１）の前記現在のフレーム内に含まれるオーディオコンテンツ、特に、ノイズの空間特性を記述および／またはモデリングするステップ
を含む、
先行する請求項のいずれかに記載の方法（６００）。
前記マルチチャンネル入力信号（１０１）は、音場表現物（ＳＲと称される）信号を含み、かつ／または、
前記アップミックスメタデータ（１０５）は、空間再構成器（ＳＰＡＲと称される）メタデータを含む、
先行する請求項のいずれかに記載の方法（６００）。
前記マルチチャンネル入力信号（１０１）は、Ｗチャンネル、Ｙチャンネル、ＺチャンネルおよびＸチャンネルを有するアンビソニックス信号を含み、かつ、
前記アップミックスメタデータ（１０５）の前記パラメータセットは、前記Ｗチャンネルの表現物に基づいて、前記Ｙチャンネル、前記Ｚチャンネルおよび前記Ｘチャンネルを予測することによって、それぞれＹ´チャンネル、Ｚ´チャンネルおよびＸ´チャンネルと称される残留チャンネルを提供するための予測係数を含む、
先行する請求項のいずれかに記載の方法（６００）。
前記方法（６００）は、前記ダウンミックス信号（１０３）が前記Ｗチャンネルの前記表現物の加えて第１の残留チャンネルを含む場合、前記第１の残留チャンネルと前記１つ以上の残りの残留チャンネルとの間の共分散に依存する、前記アップミックスメタデータ（１０５）の一部としての交差予測パラメータを決定するステップを含み、
前記交差予測パラメータは、前記現在のフレームがアクティブでないフレームである場合、前記現在のフレームに対する前記ビットストリームに符号化される前記アップミックスメタデータ（１０５）の一部ではなく、かつ、
前記交差予測パラメータは、前記現在のフレームがアクティブなフレームである場合、前記現在のフレームに対する前記ビットストリームに符号化される前記アップミックスメタデータ（１０５）の一部である、
請求項１８に記載の方法（６００）。
前記方法（６００）は、前記残留チャンネルの共分散に基づいて、前記ダウンミックス信号（１０３）に含められなかった残留チャンネルを再構成する際に相関解除チャンネルを生成するための相関解除パラメータを決定するステップを含む、
請求項１８または１９に記載の方法（６００）。
１つよりも多くの残留チャンネルが前記ダウンミックス信号（１０３）に含められなかった場合、
前記現在のフレームに対する前記アップミックスメタデータ（１０５）の前記パラメータセットは、前記現在のフレームがアクティブなフレームである場合、含まれない残留チャンネルとそれ自体または前記含まれない残留チャンネルのうちの別の残留チャンネルとの各可能な組み合わせに対する相関解除パラメータを含み、かつ、
前記現在のフレームに対する前記アップミックスメタデータ（１０５）の前記パラメータセットは、前記現在のフレームがアクティブでないフレームである場合、含まれない残留チャンネルとそれ自体との前記組み合わせのみに対する相関解除パラメータを含む、
請求項２０に記載の方法（６００）。
前記パラメータセットは、複数の異なる周波数バンドに対する対応のパラメータを含み、かつ、
前記現在のフレームがアクティブなフレームである場合、異なる周波数バンドの個数は、前記現在のフレームがアクティブでないフレームである場合よりも多い、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームは、１サブシーケンスの１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップと、
前記現在のフレームに含まれるバックグラウンドノイズの空間および／もしくはスペクトル特性、ならびに／または、前記現在のフレームの信号対ノイズ比が前記１つ以上の先回のアクティブでないフレームのサブシーケンスに関して変更されたかどうかを判定するステップと、
前記現在のフレームに含まれるバックグラウンドノイズの前記空間および／もしくはスペクトル特性、ならびに／または、前記現在のフレームの前記信号対ノイズ比が前記１つ以上の先回のアクティブでないフレームのサブシーケンスに関して変更されたと判定された場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化（６０４）と、
を含む、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、
前記現在のフレームは、１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップと、
前記現在のフレームに対する前記共分散および／または前記アップミックスメタデータ（１０５）と、前記１つ以上の先回のアクティブでないフレームに対する先回の共分散および／または先回のアップミックスメタデータ（１０５）との間の距離測度値を決定するステップと、
前記距離測度値が所定の距離閾値よりも大きいかどうかを判定するステップと、
前記距離測度値が前記所定の距離閾値よりも大きい場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化するステップ（６０４）、および／または、
前記距離測度値が前記所定の距離閾値よりも小さい場合、特に、その場合のみに、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化するステップ（６０４）を行わないようにするステップと、
を含む、先行する請求項に記載の方法（６００）。
前記方法（６００）は、量子化器を用いて、前記現在のフレームに対する前記アップミックスメタデータ（１０５）を前記ビットストリームに符号化するステップ（６０４）のための前記パラメータセットからの前記パラメータを量子化するステップを含み、かつ、
前記量子化器、特に、前記量子化器の量子化ステップサイズおよび／または量子化ステップ数は、
前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるか、および／または、
前記ダウンミックス信号（１０３）のチャンネル数、および／または、
前記パラメータが量子化されることになるチャンネルのタイプ
に依存する、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、
前記ビットストリームに挿入されることになるオーディオデータ（１０６）を与えるために、単一チャンネルオーディオ符号化器の１つ以上のインスタンスを用いて、前記ダウンミックス信号（１０３）の前記１つ以上のチャンネルを個別に符号化するステップ（６０４）と、
前記ビットストリームに挿入されることになる符号化メタデータ（１０７）を与えるために、前記アップミックスメタデータ（１０５）の前記パラメータセットをエントロピー符号化するステップと、
を含む、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、前記現在のフレームがアクティブなフレームである場合、特に、その場合のみに、前記現在のフレームに対する前記ダウンミックス信号（１０３）を前記ビットストリームに符号化するステップを含む、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、前記現在のフレームがアクティブでないフレームである場合、
単一チャンネルオーディオ符号化器の１つ以上のインスタンスを用いて、前記ダウンミックス信号（１０３）の前記１つ以上のチャンネルのそれぞれに対してスペクトルデータを個別に決定するステップと、
記スペクトルデータを前記ビットストリームに挿入するステップと、
を含む、
先行する請求項に記載の方法（６００）。
前記方法（６００）は、前記フレームのシーケンスからの各フレーム対して繰り返される、
先行する請求項に記載の方法（６００）。
Ｎ＞２である、
先行する請求項に記載の方法（６００）。
前記マルチチャンネル入力信号（１０１）は、Ｗチャンネル、Ｙチャンネル、ＺチャンネルおよびＸチャンネルを有するアンビソニックス信号を含み、かつ、
前記方法（６００）は、ミックスファクタを用いて前記Ｗチャンネルと、前記Ｙチャンネル、前記Ｚチャンネルおよび／または前記Ｘチャンネルをミックスして、前記ダウンミックス信号（１０３）の１チャンネルを生成するステップであって、前記ミックスファクタは、前記現在のフレームがアクティブなフェームまたはアクティブでないフレームのいずれであるかに依存する、ステップを含む、
先行する請求項に記載の方法（６００）。
前記現在のフレームがアクティブなフレームである場合、前記ミックスファクタは、前記現在のフレームがアクティブでないフレームである場合よりも高い、
請求項３１に記載の方法（６００）。
Ｎ個のチャンネルを含む再構成マルチチャンネル信号（１１１）を示すビットストリームを復号するための方法（６１０）であり、前記再構成信号（１１１）は、フレームのシーケンスを含み、前記方法（６１０）は、前記フレームのシーケンスのうちの現在のフレームに対して、
前記ビットストリームに基づいて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定するステップ（６１１）と、
再構成ダウンミックス信号（１１４）を決定するステップ（６１２）であって、前記再構成ダウンミックス信号（１１４）は、Ｎ個以下のチャンネルを含む、ステップと、
前記再構成ダウンミックス信号（１１４）に基づいて、かつ、前記ビットストリーム内に含まれるアップミックスメタデータ（１０５）に基づいて、前記再構成マルチチャンネル信号（１１１）を生成するステップ（６１３）であって、前記再構成マルチチャンネル信号（１１１）は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成される、ステップと、
を含む、
方法（６１０）。
前記方法（６１０）は、
前記再構成ダウンミックス信号（１１４）に含まれない前記再構成マルチチャンネル信号（１１１）の１チャンネルに対する相関解除チャンネルを生成するステップと、
前記再構成ダウンミックス信号（１１４）に含まれる前記１つ以上の再構成チャンネルではなく、前記再構成マルチチャンネル信号（１１１）の１再構成チャンネルを生成するために、前記アップミックスメタデータ（１０５）に基づいて前記相関解除チャンネルに空間性を付加するステップと、
を含む、
請求項３３に記載の方法（６１０）。
前記相関解除チャンネルは、前記再構成ダウンミックス信号（１１４）に基づいて生成される、
請求項３４に記載の方法（６１０）。
前記再構成ダウンミックス信号（１１４）は、前記現在のフレームがアクティブなフレームである場合、前記ビットストリーム内に含まれるオーディオデータ（１０６）に基づいて生成され、かつ／または、
前記再構成ダウンミックス信号（１１４）は、現在のフレームがアクティブでないフレームである場合、ランダムノイズ生成器および前記ビットストリーム内に含まれるスペクトルデータを用いて生成される、
請求項３３から３５のいずれかに記載の方法（６１０）。
前記方法（６１０）は、
前記現在のフレームが１つ以上の先回のアクティブでないフレームに続くアクティブでないフレームであると判定するステップであって、先回のアップミックスメタデータ（１０５）が前記１つ以上の先回のアクティブでないフレームに対する前記再構成マルチチャンネル信号（１１１）を生成するために用いられた、ステップと、
前記ビットストリームは、前記現在のフレームに対する更新されたアップミックスメタデータ（１０５）を含むと判定するステップと、
前記更新されたアップミックスメタデータ（１０５）に基づいて、前記現在のフレームに対する前記再構成マルチチャンネル信号（１１１）を生成するステップ（６１３）と、
を含む、
請求項３３から３６のいずれかに記載の方法（６１０）。
前記方法（６１０）は、
前記更新されたアップミックスメタデータ（１０５）および前記先回のアップミックスメタデータ（１０５）に基づいてメタデータ平滑化を行って、平滑化アップミックスメタデータ（１０５）を決定するステップと、
前記平滑化アップミックスメタデータ（１０５）に基づいて、前記現在のフレームに対する前記再構成マルチチャンネル信号（１１１）を生成するステップ（６１３）と、
を含む、
請求項３７に記載の方法（６１０）。
メタデータ平滑化は、前記現在のフレームから始まる１つ以上のアクティブでないフレーム内で、前記先回のアップミックスメタデータ（１０５）から前記更新されたアップミックスメタデータ（１０５）へのクロスフェードを行うステップを含む、
請求項３８に記載の方法（６１０）。
Ｎ個の異なるチャンネルを含むマルチチャンネル入力信号（１０１）を符号化するための符号化部（１００）であって、前記入力信号（１０１）は、フレームのシーケンスを含み、前記符号化部（１００）は、前記フレームのシーケンスのうちの現在のフレームに対して、
信号および／またはボイスアクティビティ検出器を用いて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定し、
前記マルチチャンネル入力信号（１０１）に基づいてダウンミックス信号（１０３）を決定し、前記ダウンミックス信号（１０３）は、Ｎ個以下のチャンネルを含み、
前記ダウンミックス信号（１０３）に基づいて、Ｎ個のチャンネルを含む再構成マルチチャンネル信号（１１１）を生成するためのパラメータセットを含むアップミックスメタデータ（１０５）を決定し、前記アップミックスメタデータ（１０５）は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して決定され、
前記アップミックスメタデータ（１０５）をビットストリームに符号化（６０４）する、
ように構成される、
符号化部（１００）。
Ｎ個のチャンネルを含む再構成マルチチャンネル信号（１１１）を示すビットストリームを復号するための復号部（１５０）であり、前記再構成信号（１１１）は、フレームのシーケンスを含み、前記復号部（１５０）は、前記フレームのシーケンスのうちの現在のフレームに対して、
前記ビットストリームに基づいて、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかを判定し、
再構成ダウンミックス信号（１１４）を決定し、前記再構成ダウンミックス信号（１１４）は、Ｎ個以下のチャンネルを含み、
前記再構成ダウンミックス信号（１１４）に基づいて、かつ、前記ビットストリーム内に含まれるアップミックスメタデータ（１０５）に基づいて、前記再構成マルチチャンネル信号（１１１）を生成し、前記再構成マルチチャンネル信号（１１１）は、前記現在のフレームがアクティブなフレームまたはアクティブでないフレームのいずれであるかに依存して生成される、
ように構成される、
復号器（１５０）。
１つ以上のプロセッサによる実行時に、前記１つ以上のプロセッサに請求項１から３９のいずれか１つを実施させる命令を記憶した非一時的コンピュータ読取可能媒体。