JP2023523763A

JP2023523763A - ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム

Info

Publication number: JP2023523763A
Application number: JP2022565983A
Authority: JP
Inventors: ビスワス，アリジート
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2020-04-30
Filing date: 2021-04-29
Publication date: 2023-06-07
Also published as: EP4143825A2; CN115485769A; US20230178084A1; WO2021219798A2; WO2021219798A3

Abstract

ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法であって、マルチチャネルオーディオ信号は、２つ以上のチャネルを含み、方法は、敵対的生成ネットワーク設定のマルチチャネルジェネレータを用いて、ダイナミックレンジ低減ｒａｗマルチチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップを含む方法が記載されている。さらに、敵対的生成ネットワーク設定のダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置、それぞれのシステム及びコンピュータプログラム製品が記載されている。

Description

［関連出願の相互参照］
本出願は、２０２０年４月３０日に出願された米国仮特許出願第６３／０１８，２８２号（参照：Ｄ２００１１ＵＳＰ１）及び２０２０年５月２０日に出願された欧州特許出願第２０１７５６５４．１号（参照：Ｄ２００１１ＥＰ）に基づく優先権を主張している。
［技術分野］
本開示は、概して、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法に関するものであり、より具体的には、敵対的生成ネットワーク設定のマルチチャネルジェネレータを用いて、ダイナミックレンジ低減ｒａｗマルチチチャネルオーディオ信号の２つ以上のチャネルを共同強調することに関するものである。いくつかの実施形態は、その開示に特に言及してここで説明されるが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることが理解されるであろう。

本開示全体にわたる背景技術の議論は、かかる技術が広く知られていること、又は、当該分野における共通の一般知識の一部を形成することを認めるものと決して見なされるべきではない。オーディオ録音システムは、オーディオ信号を伝送又は保存に適したエンコード信号にエンコードし、その後、コード化された信号を受信し又は取得してデコードし、再生用の元のオーディオ信号のバージョンを取得するために使用される。低ビットレートオーディオコーディングは、帯域幅とストレージ要件を削減できる知覚的なオーディオ圧縮技術である。知覚オーディオ符号化システムの例には、ＡＣ－３、先進的音響コーディング（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ：ＡＡＣ）、及び、ＥＴＳＩによって標準化され、ＡＴＳＣ３．０に含まれている、より最近標準化されたＡＣ－４オーディオ符号化システムが含まれる。

しかしながら、低ビットレートのオーディオコーディングは、不可避のコーディングアーチファクトをもたらす。低ビットレートでコード化されたオーディオは、特にオーディオ信号の細部に影響を受け、量子化とコーディングによってもたらされるノイズのためにオーディオ信号の品質が低下し得る。

これまで、低ビットレートでコード化されたシングルチャネル及びマルチチャネルオーディオの品質を強調又はエンハンスする（ｅｎｈａｎｃｅ）ために、いくつかのアプローチが開発されてきた。マルチチャネルアプローチには、例えば、ビームフォーミングやマルチチャネルウィナーフィルタなどを含む。空間情報を使用するため、マルチチャネルアプローチは概してシングルチャネルアプローチよりも優れたパフォーマンスを発揮することができる。

Ｃ．Ｕｈｌｅ他は、彼らの刊行物「ＭｅｔｈｏｄｓｆｏｒＬｏｗＢｉｔｒａｔｅＣｏｄｉｎｇＥｎｈａｎｃｅｍｅｎｔＰａｒｔＩＩ：ＳｐａｔｉａｌＥｎｈａｎｃｅｍｅｎｔ」ＡＥＳＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｕｔｏｍｏｔｉｖｅＡｕｄｉｏ、２０１７年において、知覚コーディング技術をレビューし、一般的な空間コーディングアーチファクトの性質と起源について議論している。さらに、共通タイプのアーチファクトを軽減するために設計された専用アルゴリズムのセットが提案されている。このセットから、コード化されたオーディオ素材の基礎となるエンコーダ構成に個別に適応するＬＢＣＥ（低ビットレートコーディング強調）エンジンを構築することができる。

コンパンディングはＡＣ－４コーディングシステムのコーディングツールであり、スピーチ及び高密度の一時的事象（例えば拍手（ａｐｐｌａｕｓｅ））の知覚コーディングを改善する。コンパンディングの利点は、入力信号の短時間ダイナミクスを低減し、エンコーダ側でのビットレート要求を削減すると同時に、デコーダ側で適切な時間的ノイズシェーピングを確保することを含む。

ここ数年、ディープラーニングのアプローチは、スピーチ強調を含む種々の応用分野でますます魅力的になってきている。この文脈では、Ｄ．Ｍｉｃｈｅｌｓａｎｔｉ及びＺ．－Ｈ．Ｔａｎは、ＩＮＴＥＲＳＰＥＥＣＨ２０１７において、刊行された彼らの刊行物「ＣｏｎｄｉｔｉｏｎａｌＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓｆｏｒＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔａｎｄＮｏｉｓｅ－ＲｏｂｕｓｔＳｐｅａｋｅｒＶｅｒｉｆｉｃａｔｉｏｎ」の中で、条件付き敵対的生成ネットワーク（ＧＡＮ）方法は、古典的な短時間スペクトル振幅最小平均二乗誤差スピーチ強調アルゴリズムよりも優れており、スピーチ強調に対するディープニューラルネットワークベースのアプローチに匹敵する、と述べている。

Ｎ．Ｔａｗａｒａ、Ｔ．Ｋｏｂａｙａｓｈ及びＴ．Ｏｇａｗａは、ＩＮＴＥＲＳＰＥＥＣＨ２０１９において刊行された、彼らの刊行物「Ｍｕｌｔｉ－ｃｈａｎｎｅｌＳｐｅｅｃｈＥｎｈａｎｃｅｍｅｎｔＵｓｉｎｇＴｉｍｅ－ＤｏｍａｉｎＣｏｎｖｏｌｕｔｉｏｎａｌＤｅｎｏｉｓｉｎｇＡｕｔｏｅｎｃｏｄｅｒ」の中で、マルチチャネル時間領域畳み込みデノイジングオートエンコーダ（ＴＣＤＡＥ）について述べ、マルチチャネル構成でのスピーチ強調パフォーマンスを評価している。ＴＣＤＡＥは、時間領域でノイズの多いスピーチ信号をクリーンな信号に直接マッピングし、空間情報をエンドツーエンドで学習することを目的としている。

Ａ．Ｂｉｓｗａｓ他は、「ＡｕｄｉｏＣｏｄｅｃＥｎｈａｎｃｅｍｅｎｔｗｉｔｈＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ」で、コーディングノイズで汚染された信号を効果的に復元するためのＧＡＮベースのコーディングされたオーディオエンハンサーについて述べている。この方法はデコードされた波形で直接動作するため、この概念はコーデックに依存しない。

概して、最近の研究はほとんどが深層畳み込みＧＡＮに基づいている。ＧＡＮはスピーチ及びオーディオ関連アプリケーションでも使用されることが増えているが、マルチチャネルオーディオへの応用はまだ少ない。さらに、これまでのディープラーニングのアプローチのほとんどは、スピーチのノイズ除去（ｓｐｅｅｃｈｄｅｎｏｉｓｉｎｇ）に関連している。なお、コーディングノイズからのオーディオの復元は困難な問題である。直感的には、コーディングアーチファクトの低減とノイズ除去は非常に関連していると考えることができる。ただし、所望のサウンドとの相関性が高いコーディングアーチファクト／ノイズの除去は、相関性が低いことが多い他のノイズタイプ（ノイズ除去アプリケーション）を除去するよりも複雑に見える。コーディングアーチファクトの特性は、コーデックと採用されるコーディングツール、及び選択されたビットレートによって異なる。したがって、ＧＡＮ設定でトレーニングされたジェネレータの利点とコンパンディング技術の利点を組み合わせて、マルチチャネルオーディオ信号のコーディングアーチファクトを顕著に削減し、高品質なエンハンスドオーディオの利点をユーザーに提供することが望ましい。

本発明の第１態様によれば、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法が提供される。本方法は、オーディオビットストリームを受信するステップを含み得る。本方法はさらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号）を取得するステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、ステップを含み得る。本方法はさらに、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を共同処理するために、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップを含み得る。本方法はさらに、前記ダイナミックレンジ低減ドメインにおいて、前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するステップを含み得る。さらに本方法は、マルチチャネルジェネレータからの出力として、後続のダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、ステップを含み得る。

上記のように構成されたこの方法は、敵対的生成ネットワーク設定で訓練されたマルチチャネルジェネレーを使用して、低減されたダイナミックレンジ領域でマルチチャネルオーディオ信号の品質を改善することができる。この場合、コード化されたオーディオの共同復元と空間強調が実行されることができる。

いくつかの実施形態では、方法はさらに、オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作を実行して、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ステップをさらに含み得る。

いくつかの実施形態では、オーディオビットストリームはＡＣ－４フォーマットであり得る。

いくつかの実施形態では、方法は、２つ以上のチャネルで拡張動作（ａｎｅｘｐａｎｓｉｏｎｏｐｅｒａｔｉｏｎ）を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含み得る。

いくつかの実施形態では、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさ（ｓｐｅｃｔｒａｌｍａｇｎｉｔｕｄｅｓ）のｐノルムに基づくコンパンディング動作であり得る。

いくつかの実施形態では、受信オーディオビットストリームは、メタデータを含み、オーディオビットストリームを受信するステップは、受信オーディオビットストリームをデマルチプレクシングするステップを含み得る。

いくつかの実施形態では、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、メタデータに基づき得る。

いくつかの実施形態では、メタデータは、コンパンディング制御データの１つ以上のアイテムを含み得る。

いくつかの実施形態では、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。

いくつかの実施形態では、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。

いくつかの実施形態では、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。

いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されないことがある。

いくつかの実施形態では、マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータであり得る。

いくつかの実施形態では、マルチチャネルジェネレータは、鏡面対称に配置されたエンコーダステージ及びデコーダステージを含み、エンコーダステージ及び前記デコーダステージはそれぞれ、各層内にＮ個のフィルタを有するＬ個の層を含み、Ｌは１より大きい自然数であり、Ｎは１より大きい自然数であり、エンコーダステージ及びデコーダステージの各層内のＮ個のフィルタのサイズは同一であり、エンコーダステージ及びデコーダステージのＮ個のフィルタのそれぞれは、１より大きいストライドで動作し得る。

いくつかの実施形態では、エンコーダステージの少なくとも１つの層及びデコーダステージの少なくとも１つの層において、ＲｅＬＵ、ＰＲｅＬＵ、ＬＲｅＬＵ、ｅＬＵ及びＳｅＬのうちの１つ以上を含む非線形動作が実行され得る。

いくつかの実施形態では、マルチチャネルジェネレータはさらに、エンコーダステージに先行する（ｐｒｅｐｅｎｄｉｎｇ）入力層として、非ストライド畳み込み層を含み得る。

いくつかの実施形態では、マルチチャネルジェネレータはさらに、デコーダステージの後続の出力層として、非ストライド置換された畳み込み層を含み得る。

いくつかの実施形態では、マルチチャネルジェネレータのそれぞれの同種層間に１つ以上のスキップ接続が存在し得る。

いくつかの実施形態では、マルチチャネルジェネレータは、エンコーダステージ及び前記デコーダステージの間で、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含み得る。

いくつかの実施形態では、ランダムノイズベクトルｚは、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられ得る。

いくつかの実施形態では、ランダムノイズベクトルｚの使用は、オーディオビットストリームのビットレート及びマルチチャネルオーディオ信号のチャネルの数を条件とし得る。

いくつかの実施形態では、方法はさらに、オーディオビットストリームを受信するステップの前に実行されるべき以下のステップ：
ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを含む、ステップと；
マルチチャネルジェネレータによって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと；
強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の２つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、１つ以上のシングルチャネルディスクリミネータの群のうちの１つのシングルチャネルディスクリミネータに、一度に１つずつ入力するステップと；
強化されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に１つずつさらに入力するステップと；
シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと；
シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータの前記パラメータをチューニングするステップと、を含み得る。

いくつかの実施形態では、１つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含み得る。

いくつかの実施形態では、付加的に、ランダムノイズベクトルｚはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルｚに基づき得る。

いくつかの実施形態では、付加的なメタデータはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づき得る。

いくつかの実施形態では、
コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。

いくつかの実施形態では、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。

いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。

本発明の第２態様によれば、マルチチャネルジェネレータ、１つ以上のシングルチャネルディスクリミネータの群及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークの設定において、ダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法が提供される。本方法は、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを含む、ステップを含み得る。本方法は、マルチチャネルジェネレータによって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップを含み得る。本方法は、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の２つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、１つ以上のシングルチャネルディスクリミネータの群のうちの１つのシングルチャネルディスクリミネータに、一度に１つずつ入力するステップを含み得る。本方法は、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に１つずつさらに入力するステップを含み得る。本方法は、シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと；シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含み得る。

いくつかの実施形態では、付加的に、ランダムノイズベクトルｚはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは付加的にランダムノイズベクトルｚに基づき得る。

いくつかの実施形態では、付加的なメタデータはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づき得る。

いくつかの実施形態では、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。

いくつかの実施形態では、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。

本発明の第３態様によれば、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置が提供される。装置は、オーディオビットストリームを受信するための受信器を備え得る。装置は、さらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号）を取得するためのコアデコーダであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、コアデコーダを備え得る。さらに装置は、ダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、マルチチャネルジェネレータを備え得る。

いくつかの実施形態では、装置はさらに、受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、受信オーディオビットストリームは、メタデータを含む、デマルチプレクサをさらに含み得る。

いくつかの実施形態では、マルチチャネルジェネレータは、コンパンディング制御データによって示されるコンパンディングモードに依存するダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するように構成され得る。

いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータは共同強調を実行しないように構成され得る。

いくつかの実施形態では、装置は、さらに、２つ以上のチャネルに拡張動作を実行して、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニットをさらに含み得る。

いくつかの実施形態では、装置は、さらに、オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含み得る。

本発明の第４態様によれば、処理能力を有するデバイスによって実行されたときに、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。

本発明の第５態様によれば、処理能力を有するデバイスによって実行されたときに、マルチチャネルジェネレータ、１つ以上のシングルチャネルディスクリミネータの群及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークの設定において、ダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。

本発明の第６態様によれば、ダイナミックレンジ低減領域においてオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークとのシステムであって、前記敵対的生成ネットワークはマルチチャネルジェネレータと、１つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有し、システムは、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法を実行するように構成されている、システムが提供される。

本発明の第７態様によれば、ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置のシステムが提供される。

ここでは、本開示の例示的な実施形態を、添付の図面を参照して、単なる例として述べる。
図１は、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する方法の一例を示すフロー図である。図２は、低減ダイナミックレンジ領域においてマルチチャネルジェネレータを訓練するためのマルチチャネルディスクリミネータを含む敵対的生成ネットワーク設定の一例を示す図である。図３は、低減ダイナミックレンジ領域でマルチチャネルジェネレータを訓練するためのシングルチャネルディスクリミネータを含む敵対的生成ネットワーク設定の一例を示す図である。図４は、低減ダイナミックレンジ領域でマルチチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定の一例を示す図である。図５は、低減ダイナミックレンジ領域でマルチチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定のさらなる一例を示す図である。図６は、低減されたダイナミックレンジ領域でシングルチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定の一例を示す図である。図７は、低減されたダイナミックレンジ領域でシングルチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定のさらなる一例を示す図である。図８は、マルチチャネルジェネレータキテクチャの一例を示す図である。

コンパンディング（Ｃｏｍｐａｎｄｉｎｇ）
米国特許第９，９４７，３３５号公報に記載されているコンパンディング技術は、ＱＭＦ（直交ミラーフィルタ）領域で実装されるコンパンディングアルゴリズムを使用して、オーディオコーデックにおける量子化ノイズの時間的ノイズシェーピングを達成し、参照によりその全体が本明細書に組み込まれる。概して、コンパンディングは、量子化ノイズ（例えば、ＭＤＣＴ（修正離散コサイン変換）領域に導入された量子化ノイズ）の時間的分布を制御するために使用できるＱＭＦ領域で動作するパラメトリックコーディングツールである。そのため、コンパンディング技術は、ＱＭＦ分析ステップ、その後の実際のコンパンディング動作／アルゴリズムの適用、及び、ＱＭＦ合成ステップを含むことができる。

コンパンディングは、信号のダイナミックレンジを低減させ、同等に信号から時間的エンベロープを除去する技術の例として見られ得る。ここに記載されている方法、装置及びシステムは、低減されたダイナミックレンジ領域におけるマルチチャネルオーディオ信号の品質を改善することを目的としている。かかる改善は、コンパンディング技術を用いた応用に特に有益であり得る。したがって、いくつかの実施形態は、コンパンディングに関連しており、特に、ＱＭＦ領域におけるマルチチャネルオーディオ信号の品質を、ダイナミックレンジ低減領域として改善することに関連する。

概要
図１を参照すると、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する方法を図示する。第１ステップ１０１では、マルチチャネルオーディオ信号を含むオーディオビットストリームを受信する。オーディオビットストリームのコーデックは、限定されず、例えばＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）、ＡＣ－３、ＨＥ－ＡＡＣ、ＵＳＡＣ、ＡＣ－４などの、非可逆オーディオ圧縮で使用される任意のコーデックであり得る。一実施形態では、オーディオビットストリームはＡＣ－４フォーマットであり得る。第２ステップ１０２では、オーディオビットストリームをコアデコードし、受信したオーディオビットストリームに基づいて、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得し、ここで、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、複数のチャネルを含む。例えば、オーディオビットストリームをコアデコードして、マルチチャネルオーディオ信号を含むオーディオビットストリームに基づいて、２つ以上のチャネルを含むダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得することができる。ここで使用されるコアデコードという用語は、一般にＭＤＣＴドメインの波形コーディング後にデコードされたオーディオを指す。ＡＣ－４では、コアコーデックはＡＳＦ（オーディオスペクトルフロントエンド：ＡｕｄｉｏＳｐｅｃｔｒａｌＦｒｏｎｔｅｎｄ）又はＳＳＦ（スピーチスペクトルフロントエンド：ＳｐｅｅｃｈＳｐｅｃｔｒａｌＦｒｏｎｔｅｎｄ）として知られている。

なお、ここで用いられるように、ダイナミックレンジ低減マルチチャネルオーディオ信号に関する用語「ｒａｗ」は、後述のマルチチャネルジェネレータ（以下では単にジェネレータとも称する）による共同強調前のダイナミックレンジ低減マルチチャネルオーディオ信号、即ち非強調ダイナミックレンジ低減マルチチャネルオーディオ信号を指す。

ダイナミックレンジ低減マルチチャネルオーディオ信号は、オーディオビットストリームにエンコードされることができる。

あるいは、オーディオビットストリームのコアデコードの前又は後に、ダイナミックレンジの低減を実行することもできる。したがって、一実施形態では、ステップ１０２は、オーディオビットストリームをコアデコードした後に、例えばコンパンディングなどのダイナミックレンジ低減動作を実行することをさらに含むことができる。

ステップ１０３において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を共同処理するためにマルチチャネルジェネレータに入力される。ここでいう「共同（ｊｏｉｎｔｌｙ）」とは、マルチチャネルオーディオ信号の２つ以上のチャネルで同時に行われる処理／強調等の動作を指す。この場合、共同は、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを同時に強調することを指す。換言すると、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルはマルチチャネルジェネレータに同時に入力される。ステップ１０４では、その後、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルが、ダイナミックレンジ低減領域内のマルチチャネルジェネレータによって共同強調される、その詳細については、以下でさらに述べる。マルチチャネルジェネレータによって実行される強調プロセスは、コーディングアーチファクトと量子化ノイズを低減することによって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の品質を向上させることを意図する。ステップ１０５では、後続のダイナミックレンジ拡張のための強調ダイナミックレンジ低減マルチチャネルオーディオ信号が、マルチチャネルジェネレータからの出力として取得され、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する。

一実施形態において、本方法は、２つ以上のチャネルで拡張動作を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含み得る。一実施形態において、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさ（ｓｐｅｃｔｒａｌｍａｇｎｉｔｕｄｅｓ）のｐノルムに基づくコンパンディング動作であり得る。

一般的なコンパンディング（圧縮／展開：ｃｏｍｐｒｅｓｓｉｏｎ／ｅｘｐａｎｓｉｏｎ）では、圧縮と展開のゲイン値を算出し、フィルタバンクに適用する。個々のゲイン値の適用に関連する潜在的な問題を解決するために、短いプロトタイプフィルタを適用することができる。上記のコンパンディング動作を参照すると、マルチチャネルジェネレータによって出力される強調ダイナミックレンジ低減マルチチャネルオーディオ信号は、フィルタバンクによって分析され、強調ダイナミックレンジ低減マルチチャネルオーディオ信号の２つ以上のチャネルに周波数領域で直接広帯域ゲインが適用されることができる。適用したプロトタイプフィルタの形状によれば、時間領域における対応する効果は、ゲイン適用を自然に滑らかにすることである。その後、変更された周波数信号は、それぞれの合成フィルタバンクで変換されて時間領域に戻される（ｃｏｎｖｅｒｔｅｄｂａｃｋｔｏｔｈｅｔｉｍｅｄｏｍａｉｎ）。これに関連して、ＱＭＦから時間領域に戻るように変換する前に、帯域幅拡張とパラメトリックアップミキシングのうちの１つ以上を非制限的に含む多くのＱＭＦツールがその後実行され得ることに留意されたい。フィルタバンクで信号を分析すると、そのスペクトルコンテンツにアクセスできるようになり、高周波数による寄与を優先的にブーストする（又は弱いスペクトルコンテンツによる寄与をブーストする）ゲインの計算が可能になり、信号の最も強い成分によって支配されないゲイン値が得られるため、異なるソースが混在するオーディオソースに関連する問題を解決できる。これに関連して、ゲイン値は、スペクトルの大きさのｐノルムを使用して計算することができ、ここでｐは典型的に２未満であり、ｐ＝２の場合のようにエネルギーに基づくよりも、量子化ノイズの成形により効果的であることが見出されている。

上記の方法は任意のデコーダで実装できる。上記の方法をコンパンディングと組み合わせて適用する場合、上記の方法をＡＣ－４デコーダで実装することができる。

代替的に又は付加的に、上記の方法は、ダイナミックレンジ低減領域において、オーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークと、のシステムによって実行されることもでき、敵対的生成ネットワークは、マルチチャネルジェネレータと、１つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有する。

装置は、デコーダであることができる。

上記の方法は、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置によって実行することもできる。オーディオビットストリームを受信するための受信器を備え得る。装置は、さらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム（受信オーディオビットストリーム：ｒｅｃｅｉｖｅｄａｕｄｉｏｂｉｔｓｔｒｅａｍ）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号：ｄｙｎａｍｉｃｒａｎｇｅｒｅｄｕｃｅｄｒａｗｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｓｉｇｎａｌ）を取得するためのコアデコーダであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、コアデコーダを備え得る。さらに装置は、ダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、マルチチャネルジェネレータを備え得る。一実施形態において、装置は、さらに、デマルチプレクサを備え得る。一実施形態において、装置は、さらに、拡張ユニットを備え得る。一実施形態において、装置はさらに、ダイナミックレンジ低減ユニットを備え得る。

代替的に又は付加的に、装置は、ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置のシステムの一部であり得る。代替的に又は付加的に、上記の方法は、処理能力を有するデバイスによって実行されたときに、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、それぞれのコンピュータプログラム製品によって実装され得る。

メタデータ（Ｍｅｔａｄａｔａ）
代替的に又は付加的に、上記の方法は、メタデータを含むことができる。一実施形態では、受信オーディオビットストリームはメタデータを含み、ステップ１０１はさらに受信オーディオビットストリームのデマルチプレクシングを含む。一実施形態では、ステップ１０４において、上記のように、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、メタデータに基づき得る。上記のように、ここに記載されている方法、装置及びシステムは、コンパンディングと組み合わせて適用される場合に有益であり得る。一実施形態において、メタデータは、したがって、コンパンディング制御データの１つ以上のアイテムを含み得る。コンパンディングは、概して、スピーチ及び過渡信号（ｓｐｅｅｃｈａｎｄｔｒａｎｓｉｅｎｔｓｉｇｎａｌｓ）に利益をもたらし得るが、各ＱＭＦタイムスロットをゲイン値で個別に変更すると、エンコード中に不連続が発生し得るため、一部の定常信号の品質が低下し、コンパンディングデコーダーにおいて、成形ノイズのエンベロープが不連続になり、可聴アーチファクトにつながり得る。それぞれのコンパンディング制御データにより、過渡信号のコンパンディングをオン、定常信号のコンパンディングをオフに選択的に切り替えるか、又は、必要に応じて平均コンパンディングを適用することができる。ここでいう平均コンパンディングとは、隣接するアクティブなコンパンディングフレームのゲインに似たオーディオフレームに一定のゲインを適用することを指す。コンパンディング制御データは、エンコード中に検出され、オーディオビットストリームを介してデコーダに送信されることができる。一実施形態において、コンパンディング制御データは、したがって、マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。一実施形態において、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。一実施形態では、ステップ１０４において、上記のように、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。一実施形態において、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。実施形態では、コンパンディング制御データの１つ以上のアイテムを含むメタデータが参照されるが、これは限定を意図するものではない。代替的に又は付加的に、マルチチャネルジェネレータによるダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調することは、他のメタデータから導出されたパラメータ又は他のメタデータの組み合わせに基づき得る。

敵対的生成ネットワーク設定（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓｅｔｔｉｎｇ）
ステップ１０４において、上記のように、マルチチャネルジェネレータは、ダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調する。この強調により、コーディングアーチファクトが低減され、ダイナミックレンジ低減マルチチャネルオーディオ信号の品質は、元のコーディングされていないダイナミックレンジ低減マルチチャネルオーディオ信号と比較して、ダイナミックレンジ低減マルチチャネルオーディオ信号の品質は、ダイナミックレンジ低減マルチチャネルオーディオ信号の２つ以上のチャネルのダイナミックレンジを拡張する前にすでに強調されている。

一実施形態において、
マルチチャネルジェネレータは、敵対的生成ネットワーク設定（ＧＡＮ設定）でのダイナミックレンジ低減領域において訓練されたジェネレータであり得る。例えば、ダイナミックレンジ低減領域は、ＡＣ－４コンパンディング領域であり得る。場合によっては（ＡＣ－４コンパンディングなど）、ダイナミックレンジの低減は、信号の時間的エンベロープを除去（又は抑制）することと同等であり得る。したがって、マルチチャネルジェネレータは、信号から時間的エンベロープを除去した後に、領域で訓練されたジェネレータであり得ると言うことができる。さらに、以下ではＧＡＮの設定について述べるが、これは限定的な意味で理解されるものではなく、他の生成モデルも考えられ、本開示の範囲に含まれることに留意されたい。

ＧＡＮ設定には、マルチチャネルジェネレータＧ、１つ以上のシングルチャネルディスクリミネータの群Ｄｋ、及びマルチチャネルディスクリミネータＤｊが含まれ、それぞれが反復プロセスによって訓練される。敵対的生成ネットワーク設定での訓練中に、マルチチャネルジェネレータＧは、２つ以上のチャネルを含み、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘから導かれるダイナミックレンジ低減ｒａｗマルチチャネルオーディオトレーニング信号
［外１］

（以下、ｘ^～とも表す。）（コアエンコード及びコアデコード）に基づいて、２つ以上のチャネルを含む強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を共同生成する。ダイナミックレンジ低減は、マルチチャネルオーディオ信号の２つ以上のチャネルにコンパンディング動作を適用することによって行うことができる。コンパンディング動作は、ＡＣ－４コーデックで特定され、ＡＣ－４エンコーダで実行されるコンパンディング動作であり得る。

一実施形態では、ランダムノイズベクトルｚは、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオトレーニング信号ｘ＊に加えて、マルチチャネルジェネレータに入力することができ、マルチチャネルジェネレータによって、強調ダイナミックレンジ低減マルチチャネルオーディオトレーニング信号ｘ＊を共同生成することは、付加的にランダムノイズベクトルｚに基づくことができる。一実施形態では、ランダムノイズベクトル（ｚ）の付加的な入力は、ダイナミックレンジ低減マルチチャネルオーディオ訓練信号が導出された元のマルチチャネルオーディオ信号を含むオーディオビットストリームのビットレートを条件とし得るか、及び／又はダイナミックレンジ低減マルチチャネルオーディオ訓練信号を条件とし得る。例えば、ステレオ信号の場合、ランダムノイズベクトルｚを３６ｋｂｉｔ／ｓ以下で使用することができる。拍手には（Ｆｏｒａｐｐｌａｕｓｅ）、ランダムノイズベクトルｚが全てのビットレートに使用することができる。ただし、ランダムノイズベクトルをｚ＝０に設定することもできる。ビットレートが低すぎない場合、ランダムノイズベクトルがｚ＝０に設定されていれば、コーディングアーチファクトの低減は良好な結果をもたらす。あるいは、ランダムノイズベクトルｚを入力せずにトレーニングを実行することもできる。代替的に又は付加的に、一実施形態では、メタデータをマルチチャネルジェネレータに入力し、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を共同生成することができ、さらにメタデータに基づくことができる。訓練中に、強調されたダイナミックレンジ低減マルチチャネルオーディオ君ｒ年信号ｘ＊の共同生成は、したがってメタデータに基づいて条件づけることができる。一実施形態において、メタデータは、コンパンディング制御データの１つ以上のアイテムを含み得る。一実施形態において、コンパンディング制御データは、オーディオデータのエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。一実施形態において、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。一実施形態において、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の共同生成は、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。この場合、訓練中に、マルチチャネルジェネレータはコンパンディングモードを条件づけることができる。一実施形態では、コンパンディングモードがコンパンディングオフである場合、これは、入力ｒａｗマルチチャネルオーディオ訓練信号がダイナミックレンジ低減されておらず、マルチチャネルジェネレータによる共同強調が行われないことがあることを示し得る前述のように、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディング中に検出され、過渡信号に対してはコンパンディングをオンにし、定常信号に対してはオフにし、必要に応じて平均コンパンディングを適用するというコンパンディングを選択的に適用することができる。

訓練中、マルチチャネルジェネレータは、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘと区別できない、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を出力しようと試みる。第１ステップでは、１つ以上のシングルチャネルディスクリミネータの群のシングルチャネルディスクリミネータＤｋは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の２つ以上のチャネルの各チャネルと、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号を導出する元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの対応するチャネルと、を一度に１つずつ供給され、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊のチャネルであるか、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの対応するチャネルであるかを真／偽の方法で判断する。ここで、シングルチャネルディスクリミネータＤｋは、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの各チャネルを、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の対応するチャネルから識別することを試みる。反復プロセスの間に、マルチチャネルジェネレータは、そのパラメータを調整して、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘと比較して、ますます好適な強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を生成し、シングルチャネルディスクリミネータＤｋは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の２つ以上のチャネルと、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの対応するチャネルとの間のより良好な判断を学習する。

なお、シングルチャネルディスクリミネータＤｋによって、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊のチャネルであるか、又は元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの対応するチャネルであるか、を真（ｆｒｅａｌ）／偽（ｆａｋｅ）の方法で判定するステップは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の各チャネルについて、同一のシングルチャネルディスクリミネータＤｋによって行うことができる。代替的に又は付加的に、シングルチャネルディスクリミネータＤｋによって、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊のチャネルであるか、又は元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの対応するチャネルであるか、を真／偽の方法で判断するステップは、シングルチャネルディスクリミネータＤｋの群によって実行することができ、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の各チャネルと、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘの各対応チャネルは、そのチャネルで訓練された個々のシングルチャネルディスクリミネータＤｋに入力される。一実施形態では、１つ以上のシングルチャネルディスクリミネータの群Ｄｋは、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択することができ、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含み得る。

第２ステップでは、マルチチャネルディスクリミネータＤｊは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊と、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号を導出する、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘと、を一度に１つずつ（ｏｎｅａｔａｔｉｍｅ）供給され、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊であるか、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘであるかを真／偽の方法で判断する。ここで、マルチチャネルディスクリミネータＤｊは、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘを、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊から識別することを試みる。反復プロセスの間に、マルチチャネルジェネレータは、そのパラメータを調整して、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘと比較して、ますます好適な強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を生成し、マルチチャネルディスクリミネータＤｊは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊と、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘとの間のより良好な判断を学習する。

なお、最終ステップでマルチチャネルジェネレータを訓練するために、先にシングルチャネルディスクリミネータＤｋとマルチチャネルディスクリミネータＤｊを訓練しすることができる。ディスクリミネータの訓練と更新は、ダイナミックレンジ低減ドメインでも実行できる。ディスクリミネータの訓練と更新は、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘにハイスコアを割り当て、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊にロースコアを割り当てる確率を最大化することが含まれることができる。ディスクリミネータの訓練における目標は、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘを真として認識する一方で、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊（生成されたデータ）を偽として認識することであり得る。ディスクリミネータが訓練され更新されている間、マルチチャネルジェネレータのパラメータは固定されることができる。

マルチチャネルジェネレータの訓練と更新には、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘと生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊との差を最小限に抑えることが含まれることができる。マルチチャネルジェネレータを訓練する目的は、シングルチャネルディスクリミネータＤｋが、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊の２つ以上のチャネルのそれぞれを真として認識することである。さらに、マルチチャネルディスクリミネータＤｊは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊を真として認識する。

ここで図２の例を参照して、敵対的生成ネットワーク（ＧＡＮ）設定でのダイナミックレンジ低減ドメインでのマルチチャネルジェネレータＧ，１の訓練について、より詳細に述べる。図２の例では、ＧＡＮ設定はマルチチャネルのジェネレータＧ，１とマルチチャネルディスクリミネータＤｊ，２ｊを含む。マルチチャネルジェネレータＧ，１の訓練は、以下のものを含み得る。

２つ以上のチャネルｘｉｐ，１２を含む元のマルチチャネルオーディオ信号にダイナミックレンジ低減ｃｏｍｐ，１０をかけて、２つ以上のチャネルｘ，９を含むダイナミックレンジが低減した元のマルチチャネルオーディオ信号を取得することができる。ダイナミックレンジの低減は、２つ以上のチャネルのそれぞれにコンパンディング動作、特にＡＣ－４コンパンディング動作を適用し、その後にＱＭＦ（直交ミラーフィルタ）合成ステップを適用することによって行うことができる。コンパンディング動作はＱＭＦドメインで行われるため、その後のＱＭＦ合成ステップが必要となる。マルチチャネルジェネレータＧ，１への入力の前に、コアエンコーディングとコアデコーディングに加えて、ダイナミックレンジが低減した元のマルチチャネルオーディオ信号ｘ，９をかけて、ダイナミックレンジ低減らｗマルチチャネルオーディオ訓練信号ｘ，８を取得することができる。その後、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号、ｘ^～，８、及びランダムノイズベクトルｚ，１１はマルチチャネルジェネレータＧ、１に入力される。その後、入力に基づいて、マルチチャネルジェネレータＧ，１は、ダイナミックレンジ低減領域で、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を共同生成する。一実施形態では、ランダムノイズベクトルｚの入力は、ダイナミックレンジ低減マルチチャネルオーディオ訓練信号が導出された元のマルチチャネルオーディオ信号を含むオーディオビットストリームのビットレート、及び／又はダイナミックレンジ低減マルチチャネルオーディオ訓練信号のチャネルの数（ａｎｕｍｂｅｒｏｆｃｈａｎｎｅｌｓ）を条件とすることができる。一実施形態において、ランダムノイズベクトルｚ１１は、ｚ＝０に設定されることができる。あるいは、ランダムノイズベクトルｚ，１１を入力せずに訓練を実行することができる。付加的に又は代替的に、マルチチャネルジェネレータＧ，１は、ダイナミックレンジが低減したコード化マルチチャネルオーディオ特徴空間の入力としてメタデータを使用して訓練されて、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を変更することができる。一度に１つずつ、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ＊，８が導出される元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９と、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７と、がマルチチャネルディスクリミネータＤｊ，２ｊに入力される。追加情報として、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～，８もマルチチャネルディスクリミネータＤｊ，２ｊに毎回入力することができる。その後、マルチチャネルディスクリミネータＤｊ，２ｊは、入力データが強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７，（偽）であるか、又は、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９，（真）であるかを判断する３ｊ，４ｊ。次のステップでは、マルチチャネルジェネレータＧ，１のパラメータは、マルチチャネルディスクリミネータＤｊ，２ｊが、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９から最早区別できなくなるまで調整される。これは反復プロセス５ｊで行うことができる。

ここで図３の例を参照すると、敵対的生成ネットワーク（ＧＡＮ）設定におけるダイナミックレンジ低減領域でのマルチチャネルジェネレータＧ，１の訓練がより詳細に述べられ、図３の例では、ＧＡＮ設定にマルチチャネルジェネレータＧ，１とシングルチャネルディスクリミネータＤｋ，２ｋとが含まれる。マルチチャネルジェネレータＧ，１の訓練には、以下が含まれ得る。

上記のように、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ＊，８、及び強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を取得することができる。一度に１つずつ、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～，８が導出される元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９のチャネルｋと、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７の対応するチャネルとは、シングルチャネルディスクリミネータＤｋ，２ｋに入力される（なお、細い線は個々のチャネルを示し、太い線はマルチチャネル信号を示す）。追加情報として、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号、ｘ^～８、の対応するチャネルも、シングルチャネルディスクリミネータＤｋ，２ｋに毎回入力することができる。シングルチャネルディスクリミネータＤｋ，２ｋは、その後、入力データが強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７，（偽）のチャネルであるか、又は、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９，（真）の対応するチャネルであるかを判断する３ｋ，４ｋ。

次のステップでは、マルチチャネルジェネレータＧ，１のパラメータは、シングルチャネルディスクリミネータＤ，２ｋが、強化されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７のチャネルを、元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９の対応するチャネルから最早区別できなくなるまで調整される。これは反復プロセス５ｋで行うことができる。なお、上記のような判断するステップは、同一のシングルチャネルディスクリミネータＤｋ，２ｋによって、それぞれの強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７及び元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９の各チャネルについて、代替的に又は追加的に、上記の判断するステップは、１つ以上のシングルチャネルディスクリミネータＤｋの群のそれぞれのチャネル特有のシングルチャネルディスクリミネータＤｋ，２ｋによって、各チャネルに対して個別に行うこともできる。１つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択されることができ、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含み得る。

シングルチャネルディスクリミネータＤｋ及びマルチチャネルディスクリミネータＤｊによる判断は、次の式（１）にしたがい、知覚的に動機付けられた１つ以上の目的関数に基づくことができ、ここで、Ｎｃはマルチチャネルオーディオ信号のチャネルの総数を指す。

添え字ＬＳは最小二乗法の導入を意味する。さらに、式（１）の第１項と第２項からわかるように、コアデコードされたダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号ｘ^～を、シングルチャネルディスクリミネータＤｋとマルチチャネルィスクリミネータＤｊの両方に付加情報として入力することによって、条件付き敵対的生成ネットワーク設定を適用している。これにより、ディスクリミネータは条件付き分類タスク、すなわち、ディスクリミネータの入力が、所与のコード化信号に基づいて元の信号であるか又は強調信号であるかを学習することができる。

上記の式（１）のシングルチャネルディスクリミネータＤｋを指す最後の項の導入は、これらの周波数は通常、より高いビット数でコード化されるため、反復プロセス中にこれらの周波数が乱されないことを保証するのに役立つ。最後の項はλ因子でスケールされた１ノルム距離である。ラムダの値は、マルチチャネルジェネレータに入力されるアプリケーション及び／又は信号の長さに依存して、１０から１００の間で選択できる。たとえば、λ＝１００を選択できる。

ここで図４と図５の例を参照すると、敵対的生成ネットワーク設定でのダイナミックレンジ低減領域でのマルチチャネルディスクリミネータＤｊ，２ｊの訓練は、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～，８と共に、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７及び元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９を、マルチチャネルディスクリミネータＤｊ，２ｊに一度に１つの入力することに応じて６ｊ、１４ｊ、マルチチャネルジェネレータＧ，１のトレーニングについて上記で説明したのと同じ一般的な反復プロセス１３ｊにしたがうことができ、この場合、マルチチャネルジェネレータＧ，１のパラメータが固定され得る場合を除いて、マルチチャネルディスクリミネータＤｊ，２ｊは変化する（図４及び５と比較して図２及び３のディスクリミネータの周りの太い線によって示される）。マルチチャネルディスクリミネータＤｊ，２ｊの訓練は、次の式（２）で記述することができ、マルチチャネルディスクリミネータＤｊ，２ｊは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を偽として決定することができる。

上記の場合、最小二乗法（ＬＳ）と条件付き敵対的生成ネットワーク設定も、コアデコードされたダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～を、マルチチャネルディスクリミネータＤｊに追加情報として入力することによって適用されている。ここで図６と図７の例を参照すると、敵対的生成ネットワーク設定でのダイナミックレンジ低減領域でのマルチチャネルディスクリミネータＤｋ，２ｋの訓練は、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～，８の対応するチャネルと共に、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７のチャネル及び元のダイナミックレンジ低減マルチチャネルオーディオ信号ｘ，９に対応するチャネルを、シングルチャネルディスクリミネータＤｋ，２ｋに一度に１つの入力することに応じて６ｋ，１４ｋ、マルチチャネルジェネレータＧ，１のトレーニングについて上記で説明したのと同じ一般的な反復プロセス１３ｋにしたがうことができ、この場合、マルチチャネルジェネレータＧ，１のパラメータが固定され得る場合を除いて、シングルチャネルディスクリミネータＤｋ，２ｋは変化する（図６及び７と比較して図２及び３のディスクリミネータの周りの太い線によって示される）。シングルチャネルディスクリミネータＤｋ，２ｋの訓練は、次の式（３）で記述することができ、シングルチャネルディスクリミネータＤｋ，２ｋは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７を偽として決定することができる。

上記の場合、最小二乗法（ＬＳ）と条件付き敵対的生成ネットワーク設定も、コアデコードされたダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ｘ^～の対応するチャネルを、シングルチャネルディスクリミネータＤｋに追加情報として入力することによって適用されている。Ｎｃはさらに、マルチチャネルジェネレータが強調するマルチチャネルオーディオ信号のチャネル数を意味する。

上記の訓練に基づいて、シングルチャネルディスクリミネータＤｋを訓練して、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７の１チャネルのみを偽として決定するか、又は、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号ｘ＊，７の各チャネルを偽として決定することができ、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含み得る。

概して、シングルチャネルディスクリミネータとマルチチャネルディスクリミネータとの両方を使用して訓練すると、個々のチャネルだけでなく、全体的な空間的印象をよりよく制御できる。最小二乗法以外にも、ダイナミックレンジ低減領域の敵対的生成ネットワーク設定におけるマルチチャネルディスクリミネータＤｊ及びシングルチャネルディスクリミネータＤｋと同様に、マルチチャネルジェネレータを訓練するために他の訓練方法を使用することもできる。本開示は、特定の訓練方法に限定されない。代替的に又は付加的に、いわゆるワッサースタインアプローチを使用することもできる。この場合、最小二乗法距離の代わりに、ワッサースタイン距離とも呼ばれるＥＭＤ（ＥａｒｔｈＭｏｖｅｒＤｉｓｔａｎｃｅ）を使用することもできる。概して、異なる訓練方法は、マルチチャネルジェネレータとディスクリミネータの訓練がより安定する。ただし、適用される訓練方法の種類は、後述するマルチチャネルジェネレータのアーキテクチャには影響しない。

マルチチャネルジェネレータのアーキテクチャ（Ａｒｃｈｉｔｅｃｔｕｒｅｏｆｔｈｅｍｕｌｔｉ－ｃｈａｎｎｅｌＧｅｎｅｒａｔｏｒ）
マルチチャネルジェネレータのアーキテクチャは一般に制限されないが、一実施形態では、マルチチャネルジェネレータはエンコーダステージとデコーダステージとを含むことができる。マルチチャネルジェネレータのエンコーダステージとデコーダステージとは完全に畳み込み可能である。一実施形態では、デコーダステージはエンコーダステージをミラーリング（ｍｉｒｒｏｒ）してもよく、デコーダステージと同様に、エンコーダステージはそれぞれ、各層Ｌに多数のＮ個のフィルタを有する多数のＬ層を含むことができる。Ｌは１より大きい自然数、Ｎは１より大きい自然数であり得る。Ｎフィルタのサイズ（カーネルサイズとも呼ばれる）は制限されず、マルチチャネルジェネレータによるダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の品質向上の要件に従って選択することができる。ただし、フィルタサイズはＬ層ごとに同じでもよい。

ここで、マルチチャネルジェネレータのアーキテクチャの例を概略的に示した図８の例を参照すると、第１ステップ１５で、複数のチャネルを有するダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力することができる。一実施形態では、この入力層１５は、エンコーダステージに先行する又はエンコーダステージの前段の（ｐｒｅｐｅｎｄｉｎｇ）ストライドなし（例えば、ストライド＝１はストライドなしを意味する）の畳み込み層であることができる。

学習した非ストライド畳み込み層（例えば入力層１５）の出力は、個々の入力チャネルのいくつかの（正確な数は非ストライド畳み込み層のフィルタ又はカーネルの数に依存する）組み合わせとして見ることができる。したがって、このような層の出力は、マルチチャネルの中間ーサイド信号（ｍｉｄ－ｓｉｄｅｓｉｇｎａｌ）として見ることができる。例えば、ステレオ入力信号（例えば、２チャネルの入力信号）の場合、ＸＬ及びＸＲを左右チャネルとすると、中間信号Ｍ＝０．５＊（ＸＬ＋ＸＲ）、サイド信号Ｓ＝０．５＊（ＸＬ－ＸＲ）となる。したがって、マルチチャネルの中間ーサイド信号が作成されると、ＸＬ及びＸＲの複数の組み合わせが生成される。このようなシステムを学習すれば、ＸＬとＸＲとの間の空間的関係についての追加的なヒントを提供することができる。例えば、サイド信号Ｓ＝０の単純な場合を考えると、ＸＬ＝ＸＲである可能性が最も高い。したがって、前段の（ｐｒｅｐｅｎｄｅｄ）非ストライド畳み込み層は、オーディオ信号（例えば、元のオーディオ信号とコード化されたオーディオ信号の両方）とそれに対応する空間関係（例えば、元のオーディオ信号とコード化されたオーディオ信号との間の空間的関係）に関する情報でセットアップを条件づけることができる。そのため、コーディングによって空間的な幅が失われた場合に、提案したシステムで復元することができ、空間的な強調を含むコード化されたオーディオ強調を共同で行うことができる。

入力層におけるフィルタ数Ｎ＝１６及びフィルタサイズ３１の例示的な値は、良好な結果、例えば、コーディングアーチファクトの最小量をもたらす。パラメトリック正規化線形ユニット（ｐａｒａｍｅｔｒｉｃｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉ：ＰＲｅＬＵ）であり得る入力層で非線形活性化を行うことができる。第１の図示されたエンコーダ層１６、層番号Ｌ＝１、３１のフィルタサイズを有するＮ＝１６フィルタを含むことができる。第２の図示されたエンコーダ層１７、層番号Ｌ＝２、３１のフィルタサイズを有するＮ＝３２フィルタを含むことができる。以降の層は、わかりやすく簡潔にするために省略している。第３の図示されたエンコーダ層１８、層番号Ｌ＝１１、３１のフィルタサイズを有するＮ＝５１２フィルタを含むことができる。したがって、各層でフィルタの数が増えることがある。１つの実施形態では、各フィルタは、ストライド＞１で各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の２つ以上のチャネルで動作することができる。各フィルタは、たとえば、ストライド２の各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の２つ以上のチャネルで動作することができる。したがって、２倍の学習可能なダウンサンプリングを行うことができる。

あるいは、各エンコーダ層のストライドを１にしてフィルタを動作させた後、（既知の信号処理のように）２倍のダウンサンプリングを行うこともできる。あるいは、たとえば、各フィルタは、ストライド４で各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の２つ以上のチャネルで動作することができる。これにより、マルチチャネルジェネレータの全体的な層数を半分にできる場合がある。

マルチチャネルジェネレータの少なくとも１つのエンコーダ層及び少なくとも１つのデコーダ層において、活性化として加えて非線形動作を実行することができる。一実施形態では、非線形動作は、パラメトリック正規化線形ユニット（ＰＲｅＬＵ）、正規化線形ユニット（ＲｅＬＵ）、漏れ正規化線形ユニット（ＬＲｅＬＵ）、指数線形ユニット（ｅＬＵ）及びスケールされた指数線形ユニット（ＳｅＬＵ）の１つ以上を含むことができる。図８の例では、非線形動作はＰＲｅＬＵに基づく。

図８に概略的に示すように、それぞれのデコーダ層２２、２１、２０は、エンコーダ層１６、１７、１８をミラーリングしている。各層のフィルタ数と各層のフィルタ幅とは、デコーダステージではエンコーダステージと同じであることができるが、デコーダステージでのマルチチャネルオーディオ信号のアップサンプリングは、２つの代替的アプローチによって行われることができる。一実施形態では、分数的ストライド畳み込み（転置畳み込みとも称される）動作をデコーダステージの層２０、２１、２２において使用することができる。あるいは、デコーダステージの各層において、従来の信号処理と同様にアップサンプリング係数２でアップサンプリングと補間を行った後、ストライド１で各層に入力されたマルチチャネルオーディオ信号の２つ以上のチャネルをフィルタが動作することができる。

さらに、一実施例では、マルチチャネルジェネレータは、出力層２３として、非ストライド（ストライド＝１の転置畳み込みを意味する）転置畳み込み層をさらに含み、その後デコーダステージに続く。この例では、出力層２３は、フィルタサイズが３１のＮ＝２フィルタを含むことができる。なお、出力層のフィルタ数は、マルチチャネルジェネレータが強調するマルチチャネルオーディオ信号のチャネル数Ｎｃと同じであることができる。たとえば、ステレオ強調の場合、出力層Ｎｃ＝Ｎ＝２で保持されることができる。出力層２３では、アクティベーションは、エンコーダ層の少なくとも１つとデコーダ層の少なくとも１つで実行されるアクティベーションとは異なる場合がある。アクティベーションは、ｔａｎｈ動作などに基づいて行うことができる。

エンコーダステージとデコーダステージとの間で、ダイナミックレンジ低減マルチチャネルオーディオ信号を変更して、強調ダイナミックレンジ低減マルチチャネルオーディオ信号を生成することができる。一実施形態では、変更は、ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間２５（ボトルネック層とも称される）に基づくことができる。一実施形態において、ランダムノイズベクトルｚは、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号の、２つ以上のチャネルを変更するために、ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間２５内で用いられ得る。ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間２５での変更は、例えば、ランダムノイズベクトル（ｚ）を、エンコーダ段階の最後の層から出力されるマルチチャネルオーディオ信号の２つ以上のチャネルのベクトル表現（ｃ）と連結することによって行うことができる一実施形態では、ランダムノイズベクトルｚの使用は、オーディオビットストリームのビットレート及び／又はマルチチャネルオーディオ信号のチャネルの数を条件とし得る。例えば、ランダムノイズベクトルｚは、３６ｋｂｉｔ／ｓ以下のステレオ信号の場合に使用され、拍手（ａｐｐｌａｕｓｅ）の場合にはすべてのビットレートに使用されることができる。ただし、ランダムノイズベクトルをｚ＝０に設定することもできる。ビットレートが低すぎない場合、ランダムノイズベクトルがｚ＝０に設定されていれば、コーディングアーチファクトの低減は好適な結果をもたらす。代替的に又は付加的に、この時点でメタデータを入力して、マルチチャネルオーディオ信号の２つ以上のチャネルを変更することもできる。この場合、強調ダイナミックレンジ低減マルチチャネルオーディオ信号の生成は、所与のメタデータに基づいて条件づけられることができる。

一実施形態では、スキップ接続２４は、エンコーダステージとデコーダステージとの同種層の間、及び、エンコーダステージに先行する入力層とデコーダステージの後段の（追加）出力層の間に存在し得る。この場合、前述のダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間２５は、情報の損失を防ぐためにバイパスされる可能性がある。一実施形態では、スキップ接続２４は、一つ以上の連結と信号付加を使用して実装することができる。スキップ接続２４の実装により、フィルタ出力の数が「仮想的に」２倍にすることができる。

図８の例を参照すると、マルチチャネルジェネレータのアーキテクチャは次のようにまとめられる。
１５／入力層：非ストライド畳み込み層：フィルタ数Ｎ＝１６，フィルタサイズ＝３１，活性化＝ＰｒｅＬＵ
１６／エンコーダ層Ｌ＝１：フィルタ数Ｎ＝１６，フィルタサイズ＝３１，活性化＝ＰｒｅＬＵ
１７／エンコーダ層Ｌ＝２：フィルタ数Ｎ＝３２，フィルタサイズ＝３１，活性化＝ＰｒｅＬＵ
．
．
．
１８／エンコーダ層Ｌ＝１１：フィルタ数Ｎ＝５１２，フィルタサイズ＝３１
１９／エンコーダ層Ｌ＝１２：フィルタ数Ｎ＝１０２４，フィルタサイズ＝３１

２５／ダイナミックレンジ低減コード化マルチチャネルオーディオ特徴空間

２０／デコーダ層Ｌ＝１：フィルタ数Ｎ＝５１２，フィルタサイズ＝３１
．
．
．
２１／デコーダ層Ｌ＝１０：フィルタ数Ｎ＝３２，フィルタサイズ＝３１，活性化ＰｒｅＬＵ
２２／デコーダ層Ｌ＝１１：フィルタ数Ｎ＝１６，フィルタサイズ＝３１，活性化ＰｒｅＬＵ
２３／出力層：フィルタ数Ｎ＝２，フィルタサイズ＝３１，活性化ｔａｎｈ
２４／スキップ接続

上記のアーキテクチャは、単に例を表しているに過ぎない。用途に応じて、マルチチャネルジェネレータのエンコーダステージとデコーダステージとの層ー数は、それぞれダウンスケール又はアップスケールされる。

概して、上記のマルチチャネルジェネレータキテクチャは、ＷａｖｅｎｅｔやｓａｍｐｌｅＲＮＮなどの複雑な動作を実行する必要がないため、ワンショットアーチファクト低減の可能性を提供する。

さらに、（例えば、マルチチャネル入力信号上で共同動作する非ストライド畳み込み層で構成され（対応する非ストライド転置畳み込み層でマルチチャネル強調出力信号を生成する））上記のマルチチャネルジェネレータは、１つ以上のシングルチャネルジェネレータを適用する場合と比較して、空間冗長性の利用が優れているため、複雑さが低減される。例えば、ステレオ（例：２チャネル）の（ベストオーディオ品質を有する）入力信号の場合（例：マルチチャネルジェネレータ）、ステレオジェネレータのパラメータは、シングルチャネルのジェネレータと比較して０．１４％多いパラメータを有することができる。このパラメータの増加は、シングルチャネルのジェネレータと比較して１２．１％多い複雑さになる。しかしながら、いまや、ステレオ入力信号は（２つの個別のシングルチャネルジェネレータではなく）ステレオ（例：マルチチャネル）ジェネレータで共同処理されるため、２つの個別のシングルチャネルジェネレータと比較して複雑さが４４％節約された。

ディスクリミネータのアーキテクチャ（ＡｒｃｈｉｔｅｃｔｕｒｅｏｆｔｈｅＤｉｓｃｒｉｍｉｎａｔｏｒ）
シングルチャネルのディスクリミネータとマルチチャネルのディスクリミネータの両方のアーキテクチャは制限されていない。マルチチャネルディスクリミネータのアーキテクチャは、前述のマルチチャネルジェネレータのエンコーダステージと同じ構造に従うことができる。マルチチャネルディスクリミネータのアーキテクチャは、マルチチャネルジェネレータのエンコーダステージをミラーリングすることができる。したがって、マルチチャネルディスクリミネータは多数のＬ層を含み、複数のＮ個のフィルタを含むことができる。Ｌは１より大きい自然数であり、Ｎは１より大きい自然数である。Ｎフィルタのサイズは制限されず、ディスクリミネータの要件に従って選択することもできる。ただし、フィルタサイズはＬ層ーごとに同一であることができる。ディスクリミネータの少なくとも１つのエンコーダ層で実行される非線形動作は、ＬＲｅＬＵを含むことができる。エンコーダステージの前段に（Ｐｒｅｐｅｎｄｉｎｇ）、マルチチャネルディスクリミネータは入力層を含むことができる。入力層は、上記の通りの非ストライド畳み込み層（非ストライドを表すストライド＝１）であることができる。エンコーダステージに続いて、マルチチャネルディスクリミネータは、出力層を含むことができる。出力層は、フィルタサイズが１のＮ＝１フィルタを有することができる（ディスクリミネータはシングル真／偽判断を行う）。この場合、出力層のフィルタサイズとエンコーダ層のフィルタサイズが異なることがある。したがって、出力層は隠れた活性化をダウンサンプリングしない１次元畳み込み層であることができる。
これは、出力層のフィルタがストライド１で動作し得る一方で、マルチチャネルディスクリミネータのエンコーダステージの前段のすべての層がストライド２を使用し得ることを意味する。あるいは、エンコーダステージの前段の層の各フィルタは、ストライド４で動作することができる。これにより、マルチチャネルディスクリミネータの全体的な層数を半分にすることができる。出力層の活性化は、少なくとも１つのエンコーダ層の活性化とは異なることができる。活性化はシグモイド型である。ただし、最小二乗法訓練アプローチを使用する場合は、シグモイド活性化は必要ないことがあるため、任意である。

マルチチャネルディスクリミネータは２つ以上のチャネルを入力として受け入れることができるが、シングルチャネルディスクリミネータは１つのチャネルのみを入力として受け入れることができる。したがって、シングルチャネルディスクリミネータのアーキテクチャは、シングルチャネルディスクリミネータが上記の前段層（ｐｒｅｐｅｎｄｅｄｌａｙｅｒ）を含まないという点で、マルチチャネルディスクリミネータのアーキテクチャとは若干異なる。

概して、マルチチャネルディスクリミネータは、チャネル間の空間関係を考慮して、全体的なプレゼンテーションの品質（例えば、マルチチャネル信号）を評価することを意味する。シングルチャネルディスクリミネータだけを採用した場合、チャネル間の関係を考慮することはできない。したがって、いくつかの実施形態では、シングルチャネルディスクリミネータとマルチチャネルディスクリミネータの両方を使用して、個々のチャネルとすべてのチャネルの品質をそれぞれ共同評価する。

解釈
特に断りのない限り、以下の議論から明らかなように、「処理」、「コンピューティング」、「決定」、「分析」等の用語を利用した開示議論を通して、電子的などの物理的な量として表されるデータを同様に物理的な量として表される他のデータにマニピュレート及び／又は変換する、コンピュータ又はコンピューティングシステム、又は同様の電子計算デバイスのアクション及び／又はプロセスを指すことが理解される。

同様の方法で、「プロセッサ」という用語は、例えば、レジスタ及び／又はメモリから電子データを処理して、その電子データを、例えば、レジスタ及び／又はメモリに格納することができる他の電子データに変換する装置又は装置の一部を指すことができる。「コンピュータ」、「コンピューティングマシン」、「コンピューティングプラットフォーム」は、１つ以上のプロセッサを含むことができる。

ここに記載されているメトロジーは、一例の実施形態において、１つ以上のプロセッサによって実行されたときに、ここに記載されている方法の少なくとも１つを実行する命令セットを含むコンピュータ可読（機械可読とも呼ばれる）コードを受け入れる１つ以上のプロセッサによって実行可能である。実行するアクションを指定する一連の命令（連続的又はそれ以外）を実行できる任意のプロセッサが含まれる。したがって、１つの実施例は、１つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、ＣＰＵ、グラフィック処理ユニット及びプログラム可能なＤＳＰユニットの１つ以上を含むことができる。処理システムはさらに、メインＲＡＭ及び／又はスタティックＲＡＭ及び／又はＲＯＭを含むメモリサブシステムを含むことができる。コンポーネント間の通信用にバスサブシステムが含まれることができる。さらに、処理システムは、ネットワークによって結合されたプロセッサを有する分散処理システムであることができる。処理システムがディスプレイを必要とする場合、例えば、液晶ディスプレイ（ＬＣＤ）又は陰極線管（ＣＲＴ）ディスプレイなどのディスプレイを含むことができる。手動でのデータ入力が必要な場合、処理システムは、キーボードなどの、１つ以上の英数字入力ユニット、マウスなどのポインティングコントロールデバイスなどの入力デバイスも含むことができる。処理システムは、ディスクドライブユニットなどのストレージシステムを含むこともできる。一部の構成の処理システムは、サウンド出力デバイスとネットワークインターフェイスデバイスを含むこともできる。したがって、メモリサブシステムは、１つ以上のプロセッサによって実行されたときに、ここで説明する１つ以上の方法を実行させるための命令セットを含むコンピュータ可読コード（例：ソフトウェア）を坦持するコンピュータ可読キャリア媒体を含む。方法が複数の要素、たとえば複数のステップを含む場合、特に明記されていない限り、そのような要素の順序付けは暗示されないことに留意されたい。ソフトウェアは、ハードディスク内に存在することもあれば、コンピュータシステムによる実行中にＲＡＭ内及び／又はプロセッサ内に完全に又は少なくとも部分的に存在することができる。したがって、メモリとプロセッサは、コンピュータが読み取り可能なコードを坦持するコンピュータ読み取り可能キャリア媒体も構成する。さらに、コンピュータで読み取り可能なキャリア媒体が形成されるか又はコンピュータプログラム製品に含まれることができる。

代替的実施形態では、１つ以上のプロセッサがスタンドアロンデバイスとして動作するか、又は他のプロセッサにネットワーク接続されることができ、ネットワーク展開では、１つ以上のプロセッサが、サーバ・ユーザーネットワーク環境でサーバ又はユーザマシンの容量で動作するか、又は、ピアツーピア又は分散ネットワーク環境でピアマシンとして動作することができる。１つ以上のプロセッサは、パーソナルコンピュータ（ＰＣ）、タブレットＰＣ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はそのマシンによって実行されるアクションを指定する命令セット（連続的又はその他）を実行できる任意のマシンを形成することができる。

「マシン」という用語は、ここで議論されているメトロジーのいずれか１つ以上を実行するための命令のセット（又は複数のセット）を個別に又は共同で実行するマシンの集合も含むものとする。

したがって、ここに記載されている各方法の一つの例示的実施形態は、例えば、１つ以上のプロセッサ、例えば、ウェブサーバアレンジメントの一部である１つ以上のプロセッサ上で実行するためのコンピュータプログラムの、命令セットを坦持するコンピュータ可読キャリア媒体の形式である。したがって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えばコンピュータプログラム製品として、具体化することができる。コンピュータ読み取り可能キャリア媒体は、１つ以上のプロセッサで実行されたときに、１つ以上のプロセッサに方法を実装させる命令のセットを含むコンピュータ読み取り可能コードを坦持する。したがって、本開示の態様は、方法、完全にハードウェアの例の実施形態、完全にソフトウェアの例の実施形態、又はソフトウェアとハードウェアの態様を組み合わせた例の実施形態の形態をとることができる。さらに、本開示は、媒体に具現化されたコンピュータ可読プログラムコードを担持するキャリア媒体（例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品）の形をとることができる。

ソフトウェアは、ネットワークインターフェイスデバイスを介してネットワーク上でさらに送受信されることができる。キャリア媒体は一例の実施形態では、単一媒体であるが、「キャリア媒体」という用語は、１つ以上の命令セットを格納する単一媒体又は複数媒体（例えば、集中型又は分散型データベース、及び／又は関連するキャッシュとサーバ）を含むものとみなすべきである。「キャリア媒体」という用語はまた、１つ以上のプロセッサによる実行のための命令セットを格納、エンコード又は坦持することができ、１つ以上のプロセッサに本開示のメトロジーのいずれか１つ以上を実行させる媒体を含むものとする。キャリア媒体は、不揮発性メディア、揮発性メディア、伝送メディアなど、さまざまな形式を取ることができる。不揮発性媒体は、例えば、光ディスク、磁気ディスク、光磁気ディスクなどを含む。揮発性メディアには、メインメモリなどの動的メモリが含まれる。伝送メディアは、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線及び光ファイバーを含む。伝送媒体は、電波や赤外線データ通信の際に発生する音波や光波の形態をとることもできる。例えば、「キャリア媒体」という用語は、固体メモリ、光学的及び磁気的に実装されたコンピュータ製品、少なくとも１つのプロセッサ又は１つ以上のプロセッサによって検出可能な伝搬信号を保持し、実行時に方法を実装する一連の命令を表す媒体、１つ以上のプロセッサのうちの少なくとも１つのプロセッサによって検出可能であり、命令のセットを表す伝搬信号を担持する、ネットワーク内の伝送媒体、を含むが、これらに限定されないものと解釈されるべきである。

議論された方法のステップは、一例の実施形態において、ストレージに格納された（コンピュータ読み取り可能な）命令を実行する処理システムの適切な（１つ以上の）プロセッサ（例えばコンピュータ）によって実行されることが理解されるであろう。また、この開示は、特定の実装又はプログラミング技術に限定されず、ここに記載されている機能を実装するための適切な技術を使用して実装することができることも理解されるであろう。この開示は、特定のプログラミング言語やオペレーティングシステムに限定されない。

本開示全体を通しての「１つの実施形態」、「いくつかの実施形態」又は「一例の実施形態」あるいは「例示的実施形態」への言及は、その実施形態に関連して記述された特定の特徴、構造又は特性が、本開示の少なくとも１つの実施形態に含まれることを意味する。したがって、本開示全体を通して様々な場所に現れる「１つの実施形態において」、「いくつかの実施形態において」又は「一例の実施形態において」という語句の出現は、必ずしもすべてが同じ一例の実施形態を指しているわけではない。さらに、特定の特徴、構造又は特性は、１つ以上の例示的な実施形態において、本開示から当業者に明らかなように、任意の適切な方法で組み合わせることができる。

ここで使用されているように、特に明記されていない限り、共通の対象物を記述するための序数形容詞「第１」、「第２」、「第３」などの使用は、単に似た対象物の異なるインスタンスが参照されていることを示すだけであり、そのように記述されている対象物が、時間的、空間的、順位付け、又はその他の方法のいずれかで、所与のシーケンスになければならないことを意味するものではない。

以下の請求項及び本明細書中の説明において、備える又は有する（ｃｏｍｐｒｉｓｉｎｇ，ｃｏｍｐｒｉｓｅｄｏｆｏｒｗｈｉｃｈｃｏｍｐｒｉｓｅｓ）という用語のいずれかは、少なくとも後に続く要素／特徴を含むが、他を除外しないことを意味するオープンな用語である。したがって、備える又は有するという用語は、特許請求の範囲において使用される場合、その後に列挙された手段、要素又はステップに限定されると解釈されるべきではない。例えば、ＡとＢを備えるデバイスという表現の範囲は、要素ＡとＢだけで構成されるデバイスに限定されるべきではない。ここで使用されている含む（ｉｎｃｌｕｄｉｎｇｏｒｗｈｉｃｈｉｎｃｌｕｄｅｓ）という用語のいずれかは、少なくとも後に続く要素／特徴を含むが、他を除外しないことを意味するオープンな用語である。したがって、含むは、有する、備えると同義であり、意味する。

開示の例示的な実施形態の上記の説明では、本開示の種々の特徴は、開示を合理化し、種々の発明態様のうちの１つ以上の理解を助ける目的で、単一の例示的実施形態、図面、又は記載にまとめられることがあることを認識すべきである。しかしながら、この開示方法は、各請求項に明示的に記載されているよりも多くの特徴を要求するという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映しているように、発明態様は、前述の開示された単一の一例の実施形態のすべての特徴よりも少ない特徴にある。したがって、本明細書に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。

さらに、ここに記載されているいくつかの例示的実施形態は、他の例の実施形態に含まれる他の特徴を含まないが、異なる例示的実施形態の特徴の組み合わせは、当業者に理解されるように、開示の範囲内にあることを意味し、異なる例示的実施形態を形成する。例えば、以下の特許請求の範囲では、請求項に記載されている任意の例示的実施形態も、任意の組み合わせで使用することができる。

本明細書に提供される説明において、多数の特定の詳細が記載されている。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細なしに実施され得ることが理解される。他の例では、周知の方法、構造及び技術は、この説明の理解を不明瞭にしないために詳細には示されていない。

したがって、開示のベストモードと考えられるものが記載されているが、当業者は、開示の思想から逸脱することなく、他の及びさらなる変更が加えられる可能性があることを認識し、そのような変更及び変形はすべて開示の範囲内にあると主張することを意図している。たとえば、上記の式は、使用可能な手順を表しているにすぎない。ブロック図から機能を追加又は削除したり、機能ブロック間で動作を入れ替えることがでる。ステップは、本開示の範囲内で記述された方法に追加又は削除することができる。

本開示の種々の態様及び実装は、特許請求の範囲ではない以下の列挙された例示的実施形態（ＥＥＥ）から理解され得る。

ＥＥＥ１．
ダイナミックレンジ低減領域（ａｄｙｎａｍｉｃｒａｎｇｅｒｅｄｕｃｅｄｄｏｍａｉｎ）において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号（ａｎｅｎｈａｎｃｅｄｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｓｉｇｎａｌ）を生成する方法であって、方法は、
（ａ）オーディオビットストリームを受信するステップと、
（ｂ）オーディオビットストリームをコアデコーディングするステップ、及び、受信したオーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号：ａｄｙｎａｍｉｃｒａｎｇｅｒｅｄｕｃｅｄｒａｗｍｕｌｔｉ－ｃｈａｎｎｅｌａｕｄｉｏｓｉｇｎａｌ）を取得する、ステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、ステップと、
（ｃ）ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を共同処理するために、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップと、
（ｄ）ダイナミックレンジ低減領域において、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調する（ｊｏｉｎｔｌｙｅｎｈａｎｃｉｎｇ）ステップと、
（ｅ）マルチチャネルジェネレータからの出力として、後続の前記ダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、ステップと、
を含む。

ＥＥＥ２．
ＥＥＥ１による方法であって、ステップ（ｂ）は、オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作（ｄｙｎａｍｉｃｒａｎｇｅｒｅｄｕｃｔｉｏｎｏｐｅｒａｔｉｏｎ）を実行して、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ステップをさらに含む。

ＥＥＥ３．
ＥＥＥ１による方法であって、オーディオビットストリームはＡＣ－４フォーマットである。

ＥＥＥ４．
ＥＥＥ１乃至３いずれかによる方法であって、方法は、２つ以上のチャネルで拡張動作を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップ（ｆ）をさらに含む。

ＥＥＥ５．
ＥＥＥ４による方法であって、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさのｐノルムに基づくコンパンディング動作（ａｃｏｍｐａｎｄｉｎｇｏｐｅｒａｔｉｏｎ）である。

ＥＥＥ６．
ＥＥＥ１乃至３いずれかによる方法であって、受信オーディオビットストリームは、メタデータを含み、ステップ（ａ）は、受信オーディオビットストリームをデマルチプレクシングする（ｄｅｍｕｌｔｉｐｌｅｘｉｎｇ）ステップを含む。

ＥＥＥ７．
ＥＥＥ６による方法であって、ステップ（ｄ）において、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、メタデータに基づく。

ＥＥＥ８．
ＥＥＥ７による方法であって、メタデータは、コンパンディング制御データの１つ以上のアイテムを含む。

ＥＥＥ９．
ＥＥＥ８による方法であって、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。

ＥＥＥ１０．
ＥＥＥ９による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。

ＥＥＥ１１．
ＥＥＥ９又は１０による方法であって、ステップ（ｄ）において、マルチチャネルジェネレータによってダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。

ＥＥＥ１２．
ＥＥＥ１０に従属するＥＥＥ１１による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。

ＥＥＥ１３．
ＥＥＥ１乃至１２いずれかによる方法であって、マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータである。

ＥＥＥ１４．
ＥＥＥ１乃至１３いずれかによる方法であって、マルチチャネルジェネレータは、鏡面対称（ａｍｉｒｒｏｒｓｙｍｍｅｔｒｉｃｍａｎｎｅｒ）に配置されたエンコーダステージ及びデコーダステージを含み、エンコーダステージ及びデコーダステージはそれぞれ、各層内にＮ個のフィルタを有するＬ個の層を含み、Ｌは１より大きい自然数であり、Ｎは１より大きい自然数であり、エンコーダステージ及びデコーダステージの各層内のＮ個のフィルタのサイズは同一であり、エンコーダステージ及びデコーダステージのＮ個のフィルタのそれぞれは、１より大きいストライドで動作する。

ＥＥＥ１５．
ＥＥＥ１４による方法であって、エンコーダステージの少なくとも１つの層及びデコーダステージの少なくとも１つの層において、ＲｅＬＵ、ＰＲｅＬＵ、ＬＲｅＬＵ、ｅＬＵ及びＳｅＬのうちの１つ以上を含む非線形動作が実行される。

ＥＥＥ１６．
ＥＥＥ１４又は１５による方法であって、マルチチャネルジェネレータはさらに、エンコーダステージに先行する入力層として、非ストライド畳み込み層を含む。

ＥＥＥ１７．
ＥＥＥ１４乃至１６いずれかによる方法であって、マルチチャネルジェネレータはさらに、デコーダステージの後続の出力層として、非ストライド置換された畳み込み層（ａｎｏｎ－ｓｔｒｉｄｅｄｔｒａｎｓｐｏｓｅｄｃｏｎｖｏｌｕｔｉｏｎａｌｌａｙｅｒ）を含む。

ＥＥＥ１８．
ＥＥＥ１４乃至１７いずれかによる方法であって、マルチチャネルジェネレータのそれぞれの同種層（ｈｏｍｏｌｏｇｏｕｓｌａｙｅｒｓ）間に１つ以上のスキップ接続が存在する。

ＥＥＥ１９．
ＥＥＥ１４乃至１８いずれかによる方法であって、マルチチャネルジェネレータは、エンコーダステージ及びデコーダステージの間に、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含む。

ＥＥＥ２０．
ＥＥＥ１９による方法であって、ランダムノイズベクトルｚは、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられる。

ＥＥＥ２１．
ＥＥＥ２０による方法であって、ランダムノイズベクトルｚの使用は、オーディオビットストリームのビットレート及びマルチチャネルオーディオ信号のチャネルの数を条件とする。

ＥＥＥ２２．
ＥＥＥ１乃至２１いずれかによる方法であって、方法はさらに、ステップ（ａ）の前に実行されるべき以下のステップ：
（ｉ）ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号）をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを含む、ステップと；
（ｉｉ）マルチチャネルジェネレータによって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号（強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号）を共同生成するステップと；
（ｉｉｉ）強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記２つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、１つ以上のシングルチャネルディスクリミネータの群のうちの１つの（ｏｕｔｏｆ）シングルチャネルディスクリミネータに、一度に１つずつ（ｏｎｅａｔａｔｉｍｅ）入力するステップと；
（ｉｖ）強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に１つずつさらに入力するステップと；
（ｖ）シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと；
（ｖｉ）シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含む。

ＥＥＥ２３．
ＥＥＥ２２による方法であって、１つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含む。

ＥＥＥ２４．
ＥＥＥ２２又は２３による方法であって、ステップ（ｉ）において、付加的に、ランダムノイズベクトルｚはマルチチャネルジェネレータへの入力であり、ステップ（ｉｉ）におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルｚに基づく。

ＥＥＥ２５．
ＥＥＥ２２乃至２４いずれかによる方法であって、ステップ（ｉ）において、付加的なメタデータはマルチチャネルジェネレータへの入力であり、ステップ（ｉｉ）におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づく。

ＥＥＥ２６．
ＥＥＥ２５による方法であって、メタデータは、コンパンディング制御データの１つ以上のアイテムを含む。

ＥＥＥ２７．
ＥＥＥ２６による方法であって、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。

ＥＥＥ２８．
ＥＥＥ２７による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。

ＥＥＥ２９．
ＥＥＥ２７又は２８による方法であって、ステップ（ｉｉ）におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。

ＥＥＥ３０．
ＥＥＥ２８に従属するＥＥＥ２９による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。

ＥＥＥ３１．
マルチチャネルジェネレータと、１つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータと、を有する敵対的生成ネットワークの設定で、ダイナミックレンジ低減領域においてマルチチャネルジェネレータを訓練する方法であって、方法は、
（ａ）ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを含む、ステップと、
（ｂ）マルチチャネルジェネレータによって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと、
（ｃ）強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の２つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、１つ以上のシングルチャネルディスクリミネータの群のうちの１つのシングルチャネルディスクリミネータに、一度に１つずつ入力するステップと、
（ｄ）強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に１つずつさらに入力するステップと、
（ｅ）シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
（ｆ）シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含む。

ＥＥＥ３２．
ＥＥＥ３６による方法であって、１つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含む。

ＥＥＥ３３．
ＥＥＥ３１又は３２による方法であって、ステップ（ｉ）において、付加的に、ランダムノイズベクトルｚはマルチチャネルジェネレータへの入力であり、ステップ（ｉｉ）におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルｚに基づく。

ＥＥＥ３４．
ＥＥＥ３１乃至３３いずれかによる方法であって、ステップ（ｉ）において、付加的なメタデータはマルチチャネルジェネレータへの入力であり、ステップ（ｉｉ）において、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づく。

ＥＥＥ３５．
ＥＥＥ３４による方法であって、メタデータは、コンパンディング制御データの１つ以上のアイテムを含む。

ＥＥＥ３６．
ＥＥＥ３５による方法であって、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。

ＥＥＥ３７．
ＥＥＥ３６による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。

ＥＥＥ３８．
ＥＥＥ３６又は３７による方法であって、ステップ（ｉｉ）におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。

ＥＥＥ３９．
ＥＥＥ３７に従属するＥＥＥ３８による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。

ＥＥＥ４０．
ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置であって、装置は、
（ａ）オーディオビットストリームを受信するための受信器と、
（ｂ）オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号）を取得するためのコアデコーダであって、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、コアデコーダと、
（ｃ）ダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、マルチチャネルジェネレータと、を備える。

ＥＥＥ４１．
ＥＥＥ４０による装置であって、受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、受信オーディオビットストリームは、メタデータを含む、デマルチプレクサをさらに含む。

ＥＥＥ４２．
ＥＥＥ４１による装置であって、メタデータは、コンパンディング制御データの１つ以上のアイテムを含む。

ＥＥＥ４３．
ＥＥＥ４２による装置であって、
コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。

ＥＥＥ４４．
ＥＥＥ４３による装置であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。

ＥＥＥ４５．
ＥＥＥ４３又はＥＥＥ４４による装置、マルチチャネルジェネレータは、コンパンディング制御データによって示されるコンパンディングモードに依存するダイナミックレンジ低減領域において、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の２つ以上のチャネルを共同強調するように構成されている。

ＥＥＥ４６．
ＥＥＥ４４に従属するＥＥＥ４５による装置であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータは共同強調を実行しないように構成されている。

ＥＥＥ４７．
ＥＥＥ４０乃至４６いずれかによる装置であって、装置は、２つ以上のチャネルに拡張動作を実行して、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニット（ａｎｅｘｐａｎｓｉｏｎｕｎｉｔ）をさらに含む。

ＥＥＥ４８．
ＥＥＥ４０乃至４６いずれかによる装置であって、前記装置は、オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含む。

ＥＥＥ４９．
処理能力を有するデバイスによって実行されたときに、ＥＥＥ１乃至ＥＥＥ３０いずれかによる方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。

ＥＥＥ５０．
処理能力を有するデバイスによって実行されたときに、ＥＥＥ３１乃至ＥＥＥ３９いずれかによる方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。

ＥＥＥ５１．
ダイナミックレンジ低減領域においてオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークとのシステムであって、敵対的生成ネットワークはマルチチャネルジェネレータと、１つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有し、システムは、ＥＥＥ１乃至３０いずれかによる方法を実行するように構成されている、システム。

ＥＥＥ５２．
ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含む、オーディオビットストリームから強調マルチチャネルオーディオ信号を生成する、ＥＥＥ４０乃至４８いずれかによる装置、のシステム。

Claims

ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法であって、
当該方法は、
オーディオビットストリームを受信するステップと、
前記オーディオビットストリームをコアデコーディングするステップ、及び、受信した前記オーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減されたｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号）を取得する、ステップであって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は、２つ以上のチャネルを含む、ステップと、
前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を共同処理するために、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップと、
前記ダイナミックレンジ低減領域において、前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するステップと、
前記マルチチャネルジェネレータからの出力として、後続の前記ダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、ステップと、
を含む、方法。
前記オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作を実行して、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ステップをさらに含む、
請求項１記載の方法。
前記オーディオビットストリームはＡＣ－４フォーマットである、
請求項１記載の方法。
当該方法は、前記２つ以上のチャネルで拡張動作を実行することによって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含む、
請求項１記載の方法。
前記拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさのｐノルムに基づくコンパンディング動作である、
請求項４記載の方法。
前記受信オーディオビットストリームは、メタデータを含み、
前記オーディオビットストリームを受信するステップは、前記受信オーディオビットストリームをデマルチプレクシングするステップを含む、
請求項１乃至５いずれか１項記載の方法。
前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するステップは、前記メタデータに基づく、
請求項６記載の方法。
前記メタデータは、コンパンディング制御データの１つ以上のアイテムを含む、
請求項７記載の方法。
前記コンパンディング制御データは、前記マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
請求項８記載の方法。
前記コンパンディングモードは、コンパンディングオンの前記コンパンディングモード、コンパンディングオフの前記コンパンディングモード及び平均コンパンディングの前記コンパンディングモードを含む、
請求項９記載の方法。
前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
請求項９又は１０記載の方法。
前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
請求項１０に従属する請求項１１記載の方法。
前記マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータである、
請求項１乃至１２いずれか１項記載の方法。
前記マルチチャネルジェネレータは、鏡面対称に配置されたエンコーダステージ及びデコーダステージを含み、
前記エンコーダステージ及び前記デコーダステージはそれぞれ、各層内にＮ個のフィルタを有するＬ個の層を含み、
Ｌは１より大きい自然数であり、
Ｎは１より大きい自然数であり、
前記エンコーダステージ及び前記デコーダステージの各層内の前記Ｎ個のフィルタのサイズは同一であり、
前記エンコーダステージ及び前記デコーダステージの前記Ｎ個のフィルタのそれぞれは、１より大きいストライドで動作する、
請求項１乃至１３いずれか１項記載の方法。
前記マルチチャネルジェネレータはさらに、前記エンコーダステージに先行する入力層として、非ストライド畳み込み層を含む、
請求項１４記載の方法。
前記エンコーダステージの少なくとも１つの層及び前記デコーダステージの少なくとも１つの層において、ＲｅＬＵ、ＰＲｅＬＵ、ＬＲｅＬＵ、ｅＬＵ及びＳｅＬのうちの１つ以上を含む非線形動作が実行される、
請求項１４又は１５記載の方法。
前記マルチチャネルジェネレータはさらに、前記デコーダステージの後続の出力層として、非ストライド置換された畳み込み層を含む、
請求項１４乃至１６いずれか１項記載の方法。
マルチチャネルジェネレータのそれぞれの同種層間に１つ以上のスキップ接続が存在する、
請求項１４乃至１７いずれか１項記載の方法。
前記マルチチャネルジェネレータは、前記エンコーダステージ及び前記デコーダステージの間に、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含む、
請求項１４乃至１８いずれか１項記載の方法。
ランダムノイズベクトルｚは、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、前記ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられる、
請求項１９記載の方法。
前記ランダムノイズベクトルｚの使用は、前記オーディオビットストリームのビットレート及び前記マルチチャネルオーディオ信号のチャネルの数を条件とする、
請求項２０記載の方法。
前記方法はさらに、前記オーディオビットストリームを受信するステップの前に実行されるべき以下のステップ：
ダイナミックレンジが低減されたｒａｗマルチチャネルオーディオ訓練信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号）を前記マルチチャネルジェネレータに入力するステップであって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを有する、ステップと、
前記マルチチャネルジェネレータによって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号（強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号）を共同生成するステップと、
前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記２つ以上のチャネルの各チャネル、及び、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、１つ以上のシングルチャネルディスクリミネータの群のうちの１つのシングルチャネルディスクリミネータに、一度に１つずつ入力するステップと、
前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び前記対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に１つずつさらに入力するステップと、
前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータによって、入力された前記ダイナミックレンジ低減マルチチャネルオーディオ信号が前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は前記元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータが前記元のダイナミックレンジ低減マルチチャネルオーディオ信号から前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、前記マルチチャネルジェネレータのパラメータをチューニングするステップと、
を含む、請求項１乃至２１いずれか１項記載の方法。
前記１つ以上のシングルチャネルディスクリミネータの前記群は、前記元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、
前記元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含む、
請求項２２記載の方法。
付加的に、ランダムノイズベクトルｚは前記マルチチャネルジェネレータへの入力であり、
前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記ランダムノイズベクトルｚに基づく、
請求項２２又は２３記載の方法。
付加的なメタデータは前記マルチチャネルジェネレータへの入力であり、
前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記メタデータに基づく、
請求項２２乃至２４いずれか１項記載の方法。
前記メタデータは、コンパンディング制御データの１つ以上のアイテムを含む、
請求項２５記載の方法。
前記コンパンディング制御データは、前記元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
請求項２６記載の方法。
前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
請求項２７記載の方法。
前記マルチチャネルジェネレータによって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
請求項２７又は２８記載の方法。
前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
請求項２８を引用する請求項２９記載の方法。
マルチチャネルジェネレータと、１つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータと、を有する敵対的生成ネットワークの設定で、ダイナミックレンジ低減領域においてマルチチャネルジェネレータを訓練する方法であって、前記方法は、
ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号を前記マルチチャネルジェネレータに入力するステップであって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号は２つ以上のチャネルを含む、ステップと、
前記マルチチャネルジェネレータによって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと、
前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記２つ以上のチャネルの各チャネル、及び、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、前記１つ以上のシングルチャネルディスクリミネータの群のうちの１つのシングルチャネルディスクリミネータに、一度に１つずつ入力するステップと、
前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び前記対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号を前記マルチチャネルディスクリミネータに一度に１つずつさらに入力するステップと、
前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータによって、入力された前記ダイナミックレンジ低減マルチチャネルオーディオ信号が前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は前記元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータが前記元のダイナミックレンジ低減マルチチャネルオーディオ信号から前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、前記マルチチャネルジェネレータのパラメータをチューニングするステップと、
を含む方法。
前記１つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、
前記元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、５．１タイプマルチチャネルオーディオ信号、７．１タイプマルチチャネルオーディオ信号、又は、９．１タイプマルチチャネルオーディオ信号を含む、
請求項３１記載の方法。
付加的に、ランダムノイズベクトルｚは前記マルチチャネルジェネレータへの入力であり、
前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記ランダムノイズベクトルｚに基づく、
請求項３１又は３２記載の方法。
付加的なメタデータは前記マルチチャネルジェネレータへの入力であり、
前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記メタデータに基づく、
請求項３１乃至３３いずれか１項記載の方法。
前記メタデータは、コンパンディング制御データの１つ以上のアイテムを含む、
請求項３４記載の方法。
前記コンパンディング制御データは、前記元のマルチチャネルオーディオ信号のエンコーディングに用いられた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
請求項３５記載の方法。
前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
請求項３６記載の方法。
前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
請求項３６又は３７記載の方法。
前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
請求項３７に従属する請求項３８記載の方法。
ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置であって、装置は、
前記オーディオビットストリームを受信するための受信器と、
前記オーディオビットストリームをコアデコーディングし、受信した前記オーディオビットストリーム（受信オーディオビットストリーム）に基づいてダイナミックレンジが低減したｒａｗマルチチャネルオーディオ信号（ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号）を取得するためのコアデコーダであって、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号は２つ以上のチャネルを含む、コアデコーダと、
前記ダイナミックレンジ低減領域において、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は２つ以上のチャネルを有する、マルチチャネルジェネレータと、
を備える装置。
前記受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、前記受信オーディオビットストリームはメタデータを含む、デマルチプレクサをさらに含む、
請求項４０記載の装置。
前記メタデータは、コンパンディング制御データの１つ以上のアイテムを含む、
請求項４１記載の装置。
前記コンパンディング制御データは、前記マルチチャネルオーディオ信号のエンコーディングに使用されていた、１つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
請求項４２記載の装置。
前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
請求項４３記載の装置。
前記マルチチャネルジェネレータは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する前記ダイナミックレンジ低減領域において、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号の前記２つ以上のチャネルを共同強調するように構成されている、
請求項４３又は４４記載の装置。
前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータは共同強調を実行しないように構成されている、
請求項４４に従属する請求項４５記載装置。
前記装置は、
前記２つ以上のチャネルに拡張動作を実行して、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニットをさらに含む、
請求項４０乃至４６いずれか１項記載の装置。
前記装置は、
前記オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、前記ダイナミックレンジ低減ｒａｗマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含む、
請求項４０乃至４７いずれか１項記載の装置。
処理能力を有するデバイスによって実行されたときに、請求項１乃至３０いずれか１項記載の方法を前記デバイスに実行させるように適合された命令を有するコンピュータプログラム。
処理能力を有するデバイスによって実行されたときに、請求項３１乃至３９いずれか１項記載の方法を前記デバイスに実行させるように適合された命令を有するコンピュータプログラム。
ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する装置と、
マルチチャネルジェネレータ、１つ以上のシングルチャネルディスクリミネータの群、及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークと、のシステムであって、
前記システムは、請求項１乃至３０いずれか１項記載の方法を実行するように構成されている、システム。
ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内の前記ダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置と、
ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含む、オーディオビットストリームから強調マルチチャネルオーディオ信号を生成する、請求項４０乃至４８いずれか１項記載の装置と、
のシステム。