JP2023548650A

JP2023548650A - 帯域幅拡張を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム

Info

Publication number: JP2023548650A
Application number: JP2023520374A
Authority: JP
Inventors: ロイテルフーバー・フランツ; フックス・ギヨーム; ムルトラス・マルクス; フォトポウロウ・エレニ; バイエル・ステファン; ブーテ・ヤン; ドーラ・ステファン
Original assignee: フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2020-10-09
Filing date: 2021-10-08
Publication date: 2023-11-20
Also published as: WO2022074201A3; KR20230084244A; TW202219942A; US20230239644A1; ZA202304044B; MX2023003965A; TWI803999B; EP4226366A2; WO2022074201A2; CA3194876A1; AU2021357840A1

Abstract

音場を表すオーディオシーン（１３０）を処理するための装置であって、オーディオシーンが、トランスポート信号（１２２）およびパラメータセット（１１２；１１４）に関する情報を含む、装置である。装置は、パラメータセット（１１２；１１４）およびトランスポート信号（１２２）に関する情報を使用して処理されたオーディオシーン（１２４）を生成するための出力インターフェース（１２０）であって、パラメータセット（１１２；１１４）およびトランスポート信号（１１２；１４４）を使用して２つ以上のチャネルの生表現を生成するように構成されている、出力インターフェース（１２０）と、トランスポート信号（１２２）を使用して２つ以上のチャネルの拡張表現を生成するマルチチャネルエンハンサ（９９０）と、処理されたオーディオシーン（１２４）を取得するために、２つ以上のチャネルの生表現および２つ以上のチャネルの拡張表現を結合する信号結合器（９４０）と、を備える。【選択図】図１

Description

本発明は、オーディオ処理に関し、特に、レンダリング、記憶の送信のための処理されたオーディオシーンを生成する目的のための符号化されたオーディオシーンの処理に関する。

従来、電話またはテレビ会議のようなユーザ通信のための手段を提供するオーディオアプリケーションは、モノラル録音および再生に主に制限されてきた。しかしながら、近年では、新たな没入型ＶＲ／ＡＲ技術の出現もまた、通信シナリオの空間レンダリングに対する関心を高めている。この関心を満たすために、イマーシブボイスおよびオーディオサービス（ＩＶＡＳ）と呼ばれる新たな３ＧＰＰ（登録商標、以下同じ）オーディオ規格が現在開発中である。最近リリースされた拡張音声サービス（ＥＶＳ）規格に基づいて、ＩＶＡＳは、滑らかなオーディオ通信の低遅延要件を依然として満たしながら、例えば空間テレビ会議などの没入オーディオシーンをレンダリングすることができるマルチチャネルおよびＶＲ拡張を提供する。再生品質を犠牲にすることなくコーデックの全体的な遅延を最小限に保つというこの継続的な必要性は、以下に説明する作業の動機を提供する。

－指向性オーディオ符号化（ＤｉｒＡＣ） [1] [2]のような－パラメトリックオーディオ符号化を使用するシステムによって－三次アンビソニックスコンテンツのような－シーンベースオーディオ（ＳＢＡ）素材を低ビットレート（例えば、３２ｋｂｐｓ以下）で符号化することは、フィルタバンク領域のデコーダにおいてサイドパラメータを介して空間情報を復元しながら、単一の（トランスポート）チャネルのみを直接符号化することを可能にする。デコーダにおけるスピーカ設定がステレオ再生のみが可能である場合、３Ｄオーディオシーンの完全な復元は必要とされない。２つ以上のトランスポートチャネルのより高いビットレート符号化が可能であるため、それらの場合、シーンの立体音響再生は、（空間レンダラを完全にスキップする）いかなるパラメトリック空間アップミックスもおよびそれに伴う余分な遅延もなく、（例えば、複素値低遅延フィルタバンク（ＣＬＤＦＢ）のような追加のフィルタバンク解析／合成に起因して）直接抽出および再生されることができる。しかしながら、ただ１つのトランスポートチャネルを有する低レートの場合、これは不可能である。したがって、ＤｉｒＡＣの場合、これまで、ステレオ出力には、以下のＬ／Ｒ変換を伴うＦＯＡ（一次アンビソニックス）アップミックスが必要であった。この場合、システム内の他の可能なステレオ出力構成よりも全体的な遅延が大きく、全てのステレオ出力構成の位置合わせが望ましいため、これは問題である。

高遅延のＤｉｒＡＣステレオレンダリングの例
図１２は、高遅延のＤｉｒＡＣステレオアップミックスのための従来のデコーダ処理のブロック図の例を示している。

例えば、図示されていないエンコーダにおいて、単一のダウンミックスチャネルが、ＤｉｒＡＣエンコーダ処理における空間ダウンミックスを介して導出され、その後、拡張音声サービス（ＥＶＳ） [3]のようなコアコーダによって符号化される。

デコーダにおいて、例えば、図１２に描かれている従来のＤｉｒＡＣアップミックスプロセスを使用して、１つの利用可能なトランスポートチャネルは、まず、ビットストリーム１２１２からモノラルまたはＩＶＡＳモノラルデコーダ１２１０を使用することによって復号され、結果として、元のオーディオシーンの復号されたモノラルダウンミックス１２１４として見ることができる時間領域信号をもたらす。

復号されたモノラル信号１２１４は、遅延を引き起こす信号１２１４を解析する（信号を周波数領域に変換する）ために、ＣＬＤＦＢ１２２０に入力される。著しく遅延した出力信号１２２２は、ＤｉｒＡＣレンダラ１２３０に入力される。ＤｉｒＡＣレンダラ１２３０は、遅延出力信号１２２２を処理し、送信されたサイド情報、すなわちＤｉｒＡＣサイドパラメータ１２１３は、信号１２２２をＦＯＡ表現、すなわちＤｉｒＡＣサイドパラメータ１２１３から復元された空間情報を有する元のシーンのＦＯＡアップミックス１２３２に変換するために使用される。

送信されたパラメータ１２１３は、指向角、例えば、水平面に対する１つの方位角値および垂直面に対する１つの仰角、ならびに３Ｄオーディオシーン全体を知覚的に記述するための周波数帯域ごとの１つの拡散度値を含むことができる。ＤｉｒＡＣステレオアップミックスの帯域ごとの処理により、パラメータ１２１３は、フレームごとに複数回、すなわち周波数帯域ごとに１セット送信される。さらに、各セットは、時間分解能を高めるために、フレーム全体（例えば２０ｍｓの長さの）内の個々のサブフレームのための複数の指向性パラメータを備える。

ＤｉｒＡＣレンダラ１２３０の結果は、例えば、ＦＯＡフォーマットの完全な３Ｄシーン、すなわちＦＯＡアップミックス１２３２とすることができ、行列変換１２４０を使用して、ステレオスピーカセットアップでの再生に適したＬ／Ｒ信号１２４２に変換されることができる。換言すれば、Ｌ／Ｒ信号１２４２は、ステレオスピーカに入力されることができ、または所定のチャネル重みを使用しているＣＬＤＦＢ合成１２５０に入力されることができる。ＣＬＤＦＢ合成１２５０は、入力された周波数領域の２つの出力チャネル（Ｌ／Ｒ信号１２４２）を時間領域に変換し、ステレオ再生可能な出力信号１２５２とする。

あるいは、同じＤｉｒＡＣステレオアップミックスを使用して、ステレオ出力構成のレンダリングを直接生成することが可能であり、これは、ＦＯＡ信号を生成する中間ステップを回避する。これは、フレームワークの潜在的な複雑化のアルゴリズムの複雑さを軽減する。それにもかかわらず、双方の手法は、コア符号化後に追加のフィルタバンクの使用を必要とし、５ｍｓの追加の遅延をもたらす。ＤｉｒＡＣレンダリングのさらなる例は、 [2]に見出すことができる。

ＤｉｒＡＣステレオアップミックス手法は、遅延および複雑さの双方の点でむしろ準最適である。ＣＬＤＦＢフィルタバンクを使用することにより、出力は大幅に遅延し（ＤｉｒＡＣの例ではさらに５ｍｓ）、したがって、（レンダリングの追加のステップが必要とされないステレオ出力構成の遅延と比較して）完全なＳＢＡアップミックスと同じ全体的な遅延を有する。ステレオ信号を生成するために完全なＳＢＡアップミックスを行うことは、システムの複雑さに関して理想的ではないという合理的な仮定でもある。

本発明の目的は、符号化されたオーディオシーンを処理するための改善された概念を提供することである。

この目的は、請求項１に記載の符号化されたオーディオシーンを処理するための装置、請求項３２に記載の符号化されたオーディオシーンを処理する方法、または請求項３３に記載のコンピュータプログラムによって達成される。

本発明は、パラメータ変換に関する第１の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、仮想聴取者位置に関連する符号化されたオーディオシーン内の所与のパラメータを、所与の出力フォーマットのチャネル表現に関連する変換されたパラメータに変換することによって得られるという発見に基づいている。この手順は、処理の高い柔軟性を提供し、チャネルベースの環境において処理されたオーディオシーンを最終的にレンダリングする。

本発明の第１の態様にかかる実施形態は、仮想聴取者位置に関連する音場を表す符号化されたオーディオシーンを処理するための装置であって、符号化されたオーディオシーンが、トランスポート信号、例えばコア符号化されたオーディオ信号に関する情報と、仮想聴取者位置に関連する第１のパラメータセットとを含む、装置を備える。装置は、第１のパラメータセット、例えば、Ｂフォーマットまたは一次アンビソニックス（ＦＯＡ）フォーマットの指向性オーディオ符号化（ＤｉｒＡＣ）サイドパラメータを、第２のパラメータセット、例えば、２つ以上のチャネルの所定の空間位置における再生のための２つ以上のチャネルを含むチャネル表現に関連するステレオパラメータに変換するためのパラメータ変換器と、第２のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースとを備える。

実施形態では、指向性オーディオ符号化（ＤｉｒＡＣ）レンダラではなくアップミックスに短時間フーリエ変換（ＳＴＦＴ）フィルタバンクが使用される。したがって、（ビットストリームに含まれる）１つのダウンミックスチャネルを追加の全体的な遅延なしにステレオ出力にアップミックスすることが可能になる。デコーダにおける解析に非常に短いオーバーラップを有するウィンドウを使用することにより、アップミックスは、通信コーデックまたは近い将来のイマーシブボイスおよびオーディオサービス（ＩＶＡＳ）に必要な全体的な遅延内に留まることを可能にする。この値は、例えば、３２ミリ秒とすることができる。そのような実施形態では、帯域幅拡張の目的のための任意の後処理は、そのような処理がパラメータ変換またはパラメータマッピングと並行して行われることができるため、回避されることができる。

低帯域（ＬＢ）信号の聴取者固有のパラメータを低帯域のチャネル固有のステレオパラメータセットにマッピングすることにより、ＤＦＴ領域内の低帯域の低遅延アップミキシングが達成されることができる。高帯域の場合、単一のステレオパラメータセットは、時間領域における高帯域でアップミックスを実行することを可能にし、好ましくは低帯域のスペクトル解析、スペクトルアップミキシングおよびスペクトル合成と並行して実行することを可能にする。

例示的には、パラメータ変換器は、パンニングのためのシングルサイドゲインパラメータと、ステレオ幅に密接に関連し、また指向性オーディオ符号化（ＤｉｒＡＣ）において使用される拡散度パラメータにも密接に関連する残差予測パラメータとを使用するように構成されている。

この「ＤＦＴ－ステレオ」手法は、実施形態では、ステレオ出力を得るために符号化されたオーディオシーン（シーンベースオーディオ）を処理する場合、ＩＶＡＳコーデックがＥＶＳと同じ全体的な遅延、特に３２ミリ秒内に留まることを可能にする。空間ＤｉｒＡＣレンダリングの代わりにＤＦＴ－ステレオを介して簡単な処理を実装することにより、パラメトリックステレオアップミックスの複雑さが低減される。

本発明は、帯域幅拡張に関する第２の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が得られるという発見に基づいている。

本発明の第２の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含む、装置を備える。装置は、パラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースであって、出力インターフェースが、パラメータセットおよびトランスポート信号を使用して２つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、トランスポート信号を使用して２つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサと、処理されたオーディオシーンを取得するために、２つ以上のチャネルの生表現および２つ以上のチャネルの拡張表現を結合するための信号結合器と、をさらに備える。

一方では２つ以上のチャネルの生表現を生成し、他方では２つ以上のチャネルの拡張表現を別々に生成することは、生表現および拡張表現のためのアルゴリズムを選択する際の大きな柔軟性を可能にする。最終的な結合は、１つまたは複数の出力チャネルのそれぞれに対して、すなわち、より低いチャネル入力または符号化されたシーン領域ではなくマルチチャネル出力領域において、既に行われている。したがって、結合に続いて、２つ以上のチャネルが合成され、レンダリング、送信、または記憶などのさらなる手順に使用されることができる。

実施形態では、拡張表現用の代数符号励起線形予測（ＡＣＥＬＰ）音声コーダの帯域幅拡張（ＢＷＥ）などのコア処理の一部は、生表現用のＤＦＴ－ステレオ処理と並列に実行されることができる。したがって、双方のアルゴリズムによって発生した遅延は累積せず、１つのアルゴリズムによって発生した所与の遅延のみが最終遅延となる。実施形態では、トランスポート信号、例えば低帯域（ＬＢ）信号（チャネル）のみが出力インターフェース、例えばＤＦＴ－ステレオ処理に入力され、一方、高帯域（ＨＢ）は、例えばマルチチャネルエンハンサを使用して時間領域において別々にアップミックスされ、その結果、ステレオ復号は、３２ミリ秒の目標時間ウィンドウ内で処理されることができる。例えば、パラメータ変換器からのマッピングされたサイドゲインに基づいて、例えば、広帯域パンニングを使用することにより、大きな遅延なしに高帯域全体の直線時間領域アップミックスが得られる。

実施形態では、ＤＦＴ－ステレオにおける遅延の低減は、２つの変換のオーバーラップの差、例えば、ＣＬＤＦＢによって引き起こされる５ｍｓの変換遅延およびＳＴＦＴによって引き起こされる３，１２５ｍｓの変換遅延から完全には生じない場合がある。代わりに、ＤＦＴ－ステレオは、３２ｍｓのＥＶＳコーダの目標遅延からの最後の３，２５ｍｓが本質的にＡＣＥＬＰＢＷＥから到来するという事実を利用する。他の全てのもの（ＥＶＳコーダの目標遅延に到達するまでの残りのミリ秒）は、単に人為的に遅延されて、２つの変換された信号（ＨＢステレオアップミックス信号およびＬＢステレオコア信号によるＨＢフィリング信号）のアライメントを最後に再び達成する。したがって、ＤＦＴ－ステレオにおける追加の遅延を回避するために、エンコーダの他の全ての構成要素のみが、例えば非常に短いＤＦＴウィンドウオーバーラップ内で変換され、一方、例えばマルチチャネルエンハンサを使用するＡＣＥＬＰＢＷＥは、時間領域においてほとんど遅延なしに混合される。

本発明は、パラメータ平滑化に関する第３の態様によれば、符号化されたオーディオシーンを処理するための改善された概念が、平滑化規則にしたがって時間に関してパラメータ平滑化を実行することによって得られるという発見に基づいている。したがって、生パラメータではなく平滑化されたパラメータをトランスポートチャネルに適用することによって得られた処理されたオーディオシーンは、改善されたオーディオ品質を有する。これは、平滑化されたパラメータがアップミックスパラメータである場合に特に当てはまるが、エンベロープパラメータまたはＬＰＣパラメータまたはノイズパラメータまたはスケールファクタパラメータなどの他の任意のパラメータについては、平滑化規則によって得られた使用または平滑化されたパラメータは、得られた処理されたオーディオシーンの改善された主観的オーディオ品質をもたらす。

本発明の第３の態様にかかる実施形態は、音場を表すオーディオシーンを処理するための装置であって、オーディオシーンが、トランスポート信号および第１のパラメータセットに関する情報を含む、装置を備える。装置は、第２のパラメータセットを取得するために第１のパラメータセットを処理するためのパラメータプロセッサであって、パラメータプロセッサが、入力時間フレームについての第１のパラメータセットの少なくとも１つのパラメータを使用して出力時間フレームごとに少なくとも１つの生パラメータを計算し、平滑化規則にしたがって各生パラメータについての係数などの平滑化情報を計算し、出力時間フレームについての第２のパラメータセットのパラメータを導出するために対応する平滑化情報を対応する生パラメータに適用するように構成されている、パラメータプロセッサと、第２のパラメータセットおよびトランスポート信号に関する情報を使用して処理されたオーディオシーンを生成するための出力インターフェースと、をさらに備える。

生パラメータを経時的に平滑化することにより、あるフレームから次のフレームへのゲインまたはパラメータの強い変動が回避される。平滑化係数は、パラメータプロセッサによって、好ましい実施形態では適応的に計算される平滑化の強度を決定し、パラメータプロセッサは、実施形態では、聴取者位置関連パラメータをチャネル関連パラメータに変換するためのパラメータ変換器の機能も有する。適応計算は、オーディオシーンが突然変化するときはいつでもより迅速な応答を得ることを可能にする。適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。帯域ごとのエネルギーは、フレームに含まれる全てのサブフレームにおいて計算される。さらに、短期平均および長期平均の２つの平均によって特徴付けられる経時的なエネルギーの変化は、極端な場合には平滑化に影響を及ぼさないが、それほど大きくないエネルギーの急激な増加は平滑化を減少させない。したがって、平滑化係数は、平均の商から現在のフレーム内のＤＴＦ－ステレオサブフレームのそれぞれについて計算される。

本明細書では、前述および後述の全ての代替形態または態様が、個別に、すなわちいかなる態様もなしで使用されることができることに言及すべきである。しかしながら、他の実施形態では、２つ以上の態様が互いに組み合わされ、他の実施形態では、全ての態様が互いに組み合わされて、全体的な遅延、達成可能なオーディオ品質、および必要な実装労力の間の改善された妥協点が得られる。

本発明の好ましい実施形態が、添付の図面に関して以下に説明される。

実施形態にかかる、パラメータ変換器を使用して符号化されたオーディオシーンを処理するための装置のブロック図である。実施形態にかかる、第１のパラメータセットおよび第２のパラメータセットの概略図を示している。生パラメータを計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。生パラメータを結合するためのパラメータ変換器またはパラメータプロセッサの実施形態である。生パラメータの重み付けされた結合を実行するためのパラメータ変換器またはパラメータプロセッサの実施形態である。サイドゲインパラメータおよび残差予測パラメータを生成するためのパラメータ変換器の実施形態である。生パラメータの平滑化係数を計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。周波数帯域についての平滑化係数を計算するためのパラメータ変換器またはパラメータプロセッサの実施形態である。実施形態にかかる平滑化係数のトランスポート信号の平均化の概略図を示している。再帰的平滑化を計算するためのパラメータ変換器パラメータプロセッサの実施形態である。トランスポート信号を復号するための装置の実施形態である。帯域幅拡張を使用して符号化されたオーディオシーンを処理するための装置の実施形態である。処理されたオーディオシーンを取得するための装置の実施形態である。マルチチャネルエンハンサの実施形態のブロック図である。従来のＤｉｒＡＣステレオアップミックス処理のブロック図である。パラメータマッピングを使用して処理されたオーディオシーンを取得するための装置の実施形態である。帯域幅拡張を使用して処理されたオーディオシーンを取得するための装置の実施形態である。

図１は、例えば、仮想聴取者位置に関連する音場を表す、符号化されたオーディオシーン１３０を処理するための装置を示している。符号化されたオーディオシーン１３０は、トランスポート信号１２２、例えばビットストリームに関する情報と、第１のパラメータセット１１２、例えば同じくビットストリームに含まれる複数のＤｉｒＡＣパラメータを含み、これらは仮想聴取者位置に関連する。第１のパラメータセット１１２は、パラメータ変換器１１０またはパラメータプロセッサに入力され、パラメータ変換器またはパラメータプロセッサは、第１のパラメータセット１１２を、少なくとも２つ以上のチャネルを含むチャネル表現に関連する第２のパラメータセット１１４に変換する。装置は、異なるオーディオフォーマットをサポートすることができる。オーディオ信号は、本質的に音響であってもよく、マイクロフォンによって拾い上げられてもよく、または本質的に電気であってもよく、これらはスピーカに送信されることが想定される。サポートされるオーディオフォーマットは、モノラル信号、低帯域信号、高帯域信号、マルチチャネル信号、一次および高次アンビソニックス成分、およびオーディオオブジェクトとすることができる。オーディオシーンは、異なる入力フォーマットを結合することによって記述されることもできる。

パラメータ変換器１１０は、出力インターフェース１２０に入力されるパラメトリックステレオまたはマルチチャネルパラメータ、例えば、２つ以上のチャネルとして第２のパラメータセット１１４を計算するように構成されている。出力インターフェース１２０は、トランスポート信号１２２またはトランスポート信号に関する情報と第２のパラメータセット１１４とを結合して、処理されたオーディオシーン１２４としてトランスコードされたオーディオシーンを取得することによって、処理されたオーディオシーン１２４を生成するように構成されている。別の実施形態は、第２のパラメータセット１１４を使用してトランスポート信号１２２を、２つ以上のチャネルを含むアップミックス信号にアップミックスすることを含む。換言すれば、パラメータ変換器１２０は、例えばＤｉｒＡＣレンダリングに使用される第１のパラメータセット１１２を第２のパラメータセット１１４にマッピングする。第２のパラメータセットは、パンニングのために使用されるサイドゲインパラメータと、アップミックスにおいて適用されたときにオーディオシーンの改善された空間画像をもたらす残差予測パラメータとを含むことができる。例えば、第１のパラメータセット１１２のパラメータは、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも１つを含むことができる。例えば、第２のパラメータセット１１４のパラメータは、サイドゲインパラメータ、残差予測ゲインパラメータ、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも１つを含むことができる。

図２ａは、実施形態にかかる第１のパラメータセット１１２および第２のパラメータセット１１４の概略図を示している。特に、双方のパラメータ（第１および第２）のパラメータ分解能が描かれている。図２ａの各横軸は時間を表し、図２ａの各縦軸は周波数を表す。図２ａに示すように、第１のパラメータセット１１２が関連する入力時間フレーム２１０は、２つ以上の入力時間サブフレーム２１２および２１３を含む。真下に、第２のパラメータセット１１４が関連する出力時間フレーム２２０が、上の図に関連する対応する図に示されている。これは、出力時間フレーム２２０が入力時間フレーム２１０と比較して小さく、出力時間フレーム２２０が入力時間サブフレーム２１２または２１３と比較して長いことを示す。入力時間サブフレーム２１２または２１３および出力時間フレーム２２０は、周波数帯域として複数の周波数を含むことができることに留意されたい。入力周波数帯域２３０は、出力周波数帯域２４０と同じ周波数を含むことができる。実施形態によれば、入力周波数帯域２３０および出力周波数帯域２４０の周波数帯域は、互いに接続または相関されなくてもよい。

図４において説明したサイドゲインおよび残差ゲインは、典型的には、入力フレーム２１０ごとに単一のサイドゲインおよび残差ゲインが計算されるように、フレームごとに計算されることに留意されたい。しかしながら、他の実施形態では、各フレームについて単一のサイドゲインおよび単一の残差ゲインが計算されるだけでなく、各サイドゲインおよび各残差ゲインが例えば周波数帯域の特定の入力時間サブフレーム２１２または２１３に関連する入力時間フレーム２１０について、サイドゲインのグループおよび残差ゲインのグループが計算される。したがって、実施形態では、パラメータ変換器１１０は、第１のパラメータセット１１２および第２のパラメータセット１１４の各フレームについて、サイドゲインのグループおよび残差ゲインのグループを計算し、入力時間フレーム２１０のサイドおよび残差ゲインの数は、典型的には、入力周波数帯域２３０の数に等しい。

図２ｂは、第２のパラメータセット１１４の生パラメータ２５２を計算する２５０ためのパラメータ変換器１１０の実施形態を示している。パラメータ変換器１１０は、時間的に後続する方法で、２つ以上の入力時間サブフレーム２１２および２１３のそれぞれについて生パラメータ２５２を計算する。例えば、計算２５０は、各入力周波数帯域２３０および時点（入力時間サブフレーム２１２、２１３）について、方位角θの主要到来方向（ＤＯＡ）ならびに仰角φおよび拡散度パラメータψの主要到来方向を導出する。

Ｘ、Ｙ、およびＺのような指向性成分の場合、中心位置における一次球面調和関数は、以下の式を使用して全方向成分ｗ（ｂ，ｎ）およびＤｉｒＡＣパラメータによって導出されることができることから与えられる。

Ｗチャネルは、無指向性マイクロフォンの出力に対応する、信号の無指向性モノラル成分を表す。Ｘ、Ｙ、およびＺチャネルは、３次元の方向成分である。これらの４つのＦＯＡチャネルから、パラメータ変換器１１０を使用して、ＷチャネルおよびＹチャネルを含む復号によってステレオ信号（ステレオバージョン、ステレオ出力）を取得することができ、これは、方位角＋９０度および－９０度を指す２つのカージオイドをもたらす。そのため、以下の式は、ＷチャネルにＹチャネルを追加することによって左チャネルＬが表され、ＷチャネルからＹチャネルを減算することによって右チャネルＲが表される、ステレオ信号の左右の関係を示している。

換言すれば、この復号は、２つの方向を指す一次ビームフォーミングに対応し、これは、以下の式を使用して表されることができる：

その結果、ステレオ出力（左チャネルおよび右チャネル）と第１のパラメータセット１１２、すなわちＤｉｒＡＣパラメータとの間に直接リンクが存在する。

しかしながら、他方では、第２のパラメータセット１１４、すなわちＤＦＴパラメータは、中間信号Ｍおよびサイド信号Ｓに基づく左Ｌチャネルおよび右Ｒチャネルのモデルに依存し、これは、以下の式を使用して表されることができる：

ここで、Ｍは、シーンベースオーディオ（ＳＢＡ）モードの場合の無指向性チャネルＷに対応するモノラル信号（チャネル）として伝送される。さらに、ＤＦＴにおいて、ステレオＳは、以下に説明されるサイドゲインパラメータを使用してＭから予測される。

図４は、例えば計算プロセス４５０を使用して、サイドゲインパラメータ４５５および残差予測パラメータ４５６を生成するためのパラメータ変換器１１０の実施形態を示している。パラメータ変換器１１０は、以下の式を使用して生パラメータ２５２、例えば出力周波数帯域２４１のサイドパラメータ４５５を計算するための計算２５０および４５０を処理することが好ましい。

式によれば、ｂは出力周波数帯域であり、ｓｉｄｅｇａｉｎはサイドゲインパラメータ４５５であり、ａｚｉｍｕｔｈは到来方向パラメータの方位角成分であり、ｅｌｅｖａｔｉｏｎは到来方向パラメータの仰角成分である。図４に示されているように、第１のパラメータセット１１２は、先に述べたような入力周波数帯域２３１の到来方向（ＤＯＡ）パラメータ４５６を含み、第２のパラメータセット１１４は、入力周波数帯域２３０ごとのサイドゲインパラメータ４５５を含む。しかしながら、第１のパラメータセット１１２が入力周波数帯域２３１の拡散度パラメータψ４５３をさらに含む場合、パラメータ変換器１１０は、以下の式を使用して出力周波数帯域２４１のサイドゲインパラメータ４５５を計算する（２５０）ように構成されている。

式によれば、ｄｉｆｆ（ｂ）は入力周波数帯域ｂ２３０の拡散度パラメータψ４５３である。第１のパラメータセット１１２の指向性パラメータ４５６は異なる値の範囲を含んでもよく、例えば方位角パラメータ４５１は、［０；３６０］であり、仰角パラメータ４５２は、［０；１８０］であり、得られたサイドゲインパラメータ４５５は、［－１；１］であることに留意されたい。図２ｃに示すように、パラメータ変換器１１０は、結合器２６０を使用して、少なくとも２つの生パラメータ２５２を結合し、その結果、出力時間フレーム２２０に関連する第２のパラメータセット１１４のパラメータが導出される。

実施形態によれば、第２のパラメータセット１１４は、図４に示す出力周波数帯域２４０の出力周波数帯域２４１についての残差予測パラメータ４５６をさらに含む。パラメータ変換器１１０は、出力周波数帯域２４１についての残差予測パラメータ４５６として、残差セレクタ４１０によって示されるように、入力周波数帯域２３１からの拡散度パラメータψ４５３を使用することができる。入力周波数帯域２３１と出力周波数帯域２４１とが互いに等しい場合、パラメータ変換器１１０は、入力周波数帯域２３１からの拡散度パラメータψ４５３を使用する。入力周波数帯域２３１についての拡散度パラメータψ４５３から、出力周波数帯域２４１についての拡散度パラメータψ４５３が導出され、拡散度パラメータψ４５３が、出力周波数帯域２４１についての残差予測パラメータ４５６として出力周波数帯域２４１に使用される。次いで、パラメータ変換器１１０は、入力周波数帯域２３１からの拡散度パラメータψ４５３を使用することができる。

ＤＦＴステレオ処理では、残差セレクタ４１０を使用する予測の残差は、インコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左Ｌおよび右Ｒに向かう残差信号を非相関化する。中間信号Ｍをモノラル信号（チャネル）として有するサイド信号Ｓの予測の残差は、以下のように表されることができる：

そのエネルギーは、以下の式を使用して残差予測ゲインを使用してＤＦＴステレオ処理においてモデル化される：

残差ゲインは、ステレオ信号のチャネル間非干渉成分と空間幅を表すため、ＤｉｒＡＣによってモデル化された拡散部分に直接リンクされる。したがって、残差エネルギーは、ＤｉｒＡＣ拡散度パラメータの関数として書き換えられることができる。

図３は、実施形態にかかる生パラメータ２５２の重み付け結合３１０を実行するためのパラメータ変換器１１０を示している。少なくとも２つの生パラメータ２５２が重み付け結合３１０に入力され、重み付け結合３１０の重み係数３２４は、対応する入力時間サブフレーム２１２におけるトランスポート信号１２２の振幅関連尺度３２０に基づいて導出される。さらにまた、パラメータ変換器１１０は、振幅関連尺度３２０として、対応する入力時間サブフレーム２１２または２１３におけるトランスポート信号１１２のエネルギーまたは電力値を使用するように構成されている。振幅関連尺度３２０は、例えば、対応する入力時間サブフレーム２１２内のトランスポート信号１２２のエネルギーまたは電力を測定し、その結果、その入力サブフレーム２１２についての重み係数３２４は、対応する入力時間サブフレーム２１２内のトランスポート信号１２２のエネルギーまたは電力がより高い場合、対応する入力時間サブフレーム２１２内のトランスポート信号１２２のエネルギーまたは電力がより低い入力サブフレーム２１２についての重み係数３２４と比較して大きくなる。

前述のように、指向性パラメータ、方位角パラメータ、および仰角パラメータは、対応する値の範囲を有する。しかしながら、第１のパラメータセット１１２の方向パラメータは、通常、第２のパラメータセット１１４よりも高い時間分解能を有し、これは、２つ以上の方位角および仰角値が１つのサイドゲイン値の計算に使用されなければならないことを意味する。実施形態によれば、計算は、振幅関連尺度３２０の出力として取得されることができるエネルギー依存重みに基づく。例えば、全ての

入力時間サブフレーム２１２および２１３について、サブフレームのエネルギーｎｒｇは、以下の式を使用して計算される：

ここで、

は時間領域入力信号、

は各サブフレーム内のサンプル数、および

はサンプルインデックスである。さらにまた、各出力時間フレーム

２３０について、重み３２４は、次に、各出力時間フレーム

内の各入力時間サブフレーム

２１２、２１３の寄与について以下のように計算されることができる：

次に、サイドゲインパラメータ４５５は、以下の式を使用して最終的に計算される：

パラメータ間の類似度により、帯域ごとの拡散度パラメータ４５３は、同じ帯域内の全てのサブフレームの残差予測パラメータ４５６に直接マッピングされる。類似度は、以下の式によって表されることができる：

図５ａは、平滑化規則５１４にしたがって各生パラメータ２５２についての平滑化係数５１２を計算するためのパラメータ変換器１１０またはパラメータプロセッサの実施形態を示している。さらにまた、パラメータ変換器１１０は、平滑化係数５１２（１つの生パラメータに対する対応する平滑化係数）を生パラメータ２５２（平滑化係数に対応する１つの生パラメータ）に適用して、出力時間フレーム２２０の第２のパラメータセット１１４のパラメータ、すなわち出力時間フレームのパラメータを導出するように構成されている。

図５ｂは、圧縮関数５４０を使用して周波数帯域についての平滑化係数５２２を計算するためのパラメータ変換器１１０またはパラメータプロセッサの実施形態を示している。圧縮関数５４０は、異なる周波数帯域に対して異なっていてもよく、その結果、圧縮関数５４０の圧縮強度は、より高い周波数帯域よりも低い周波数帯域の方が強い。パラメータ変換器１１０は、最大境界選択５５０を使用して平滑化係数５１２、５２２を計算するようにさらに構成されている。換言すれば、パラメータ変換器１１０は、より低い周波数帯域の最大境界がより高い周波数帯域の最大境界よりも高くなるように、異なる周波数帯域に対して異なる最大境界を使用することによって平滑化係数５１２、５２２を取得することができる。

圧縮関数５４０および最大境界選択５５０の双方が、周波数帯域５２２についての平滑化係数５２２を取得する計算５２０に入力される。例えば、パラメータ変換器１１０は、平滑化係数５１２および５２２を計算するために２つの計算５１０および５２０を使用することに限定されず、その結果、パラメータ変換器１１０は、平滑化係数５１２および５２２を出力することができるただ１つの計算ブロックを使用して平滑化係数５１２、５２２を計算するように構成されている。換言すれば、平滑化係数は、現在の周波数帯域におけるエネルギーの変化から帯域ごとに（生パラメータ２５２ごとに）計算される。例えば、パラメータ平滑化プロセスを使用することにより、サイドゲインパラメータ４５５および残差予測パラメータ４５６は、ゲインの大きな変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、オーディオシーン１３０が突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数５１２、５２２が適応的に計算される。

したがって、帯域ごとのエネルギーｎｒｇは、以下の式を使用して全てのサブフレーム

において計算される：

ここで、

はＤＦＴ変換された信号の周波数ビン（実数および虚数）であり、

は現在の周波数帯域

における全てのビンにわたるビンインデックスである。

２つの平均にわたるエネルギーの変化を捉えるために、図３に示すように、トランスポート信号１２２の振幅関連尺度３２０を使用して、１つの短期平均３３１および１つの長期平均３３２が計算される。

図６は、実施形態にかかる、平滑化係数５１２についてトランスポート信号１２２を平均化する振幅関連尺度３２０の概略図を示している。ｘ軸は時間を表し、ｙ軸は（トランスポート信号１２２の）エネルギーを表す。トランスポート信号１２２は、正弦関数１２２の概略部分を示している。図６に示すように、第２の時間部分６３１は、第１の時間部分６３２よりも短い。平均３３１および３３２にわたるエネルギーの変化は、以下の式にしたがって各帯域

について計算される：

および

ここで、

および

は、個々の平均が計算される以前の時間サブフレームの数

である。例えば、この特定の実施形態では、

は値３に設定され、

は値１０に設定される。

さらにまた、パラメータ変換器またはパラメータプロセッサ１１０は、計算５１０を使用して、長期平均３３２と短期平均３３１との間の比に基づいて平滑化係数５１２、５２２を計算するように構成されている。換言すれば、２つの平均３３１および３３２の商が計算されるため、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。以下の式は、平滑化係数５１２と２つの平均３３１および３１２との相関を示している。

エネルギーの減少を示すより高い長期平均３３２は平滑化の低下につながらないという事実のために、平滑化係数５１２は、（現在のところ）最大１に設定される。結果として、上記の式は、

の最小値を

（この実施形態では０．３）に制限する。しかしながら、極端な場合には係数が０に近いことが必要であり、これは、以下の式を使用して値が範囲

］から範囲

］に変換される理由である。

実施形態では、平滑化は、前に示した平滑化と比較して過度に低減され、その結果、係数は、値１に向かうルート関数によって圧縮される。最も低い帯域では安定性が特に重要であるため、４次根が周波数帯域

および

において使用される。最低帯域についての式は、以下のとおりである：

他の全ての帯域

についての式は、以下の式を使用して、平方根関数による圧縮を実行する。

他の全ての帯域

に平方根関数を適用することにより、エネルギーが指数関数的に増加する可能性がある極端な場合は小さくなり、エネルギーのあまり急激でない増加はそれほど大きく平滑化を減少させない。

さらにまた、最大平滑化は、以下の式についての周波数帯域に応じて設定される。係数１は、現在のゲインの寄与なしに前の値を単に繰り返すことに留意されたい。

ここで、

は、以下の表にしたがって設定される５つの帯域を有する所与の実装を表す：

平滑化係数は、現在のフレーム内のＤＦＴステレオサブフレーム

のそれぞれについて計算される。

図７は、以下の式にしたがってサイドゲインパラメータ

４５５および残差予測ゲインパラメータ

４５６の双方が再帰的に平滑化される再帰的平滑化７１０を使用する実施形態にかかるパラメータ変換器１１０を示している：

および

第１の重み値によって重み付けされた先行する出力時間フレーム５３２のパラメータと第２の重み値によって重み付けされた現在の出力時間フレーム２２０についての生パラメータ２５２とを結合することにより、現在の出力時間フレームの時間的に後続する出力時間フレームにわたる再帰的平滑化７１０が計算される。換言すれば、第１の重み値および第２の重み値が現在の時間フレームについての平滑化係数から導出されるように、現在の出力時間フレームについての平滑化されたパラメータが計算される。

これらのマッピングされて平滑化されたパラメータ（ｇ_ｓｉｄｅ，ｇ_ｐｒｅｄ）は、ＤＦＴステレオ処理、すなわち出力インターフェース１２０に入力され、ステレオ信号（

は、ダウンミックス

、残差予測信号

、およびマッピングされたパラメータ

および

から生成される。例えば、ダウンミックス

は、オールパスフィルタを使用するエンハンスステレオフィリング、または遅延を使用するステレオフィリングのいずれかによってダウンミックスから得られる。

アップミックスは、以下の式によって記述される：

および

アップミックスは、先に示した表に記載されているように、周波数帯域

における全てのビン

においてサブフレーム

ごとに処理される。さらに、各サイドゲイン

は、上記のようなダウンミックス

のエネルギーおよび残差予測ゲインパラメータ

または

から計算されたエネルギー正規化係数

によって重み付けされる。

マッピングされて平滑化されたサイドゲイン７５５およびマッピングされて平滑化された残差ゲイン７５６は、平滑化されたオーディオシーンを得るために出力インターフェース１２０に入力される。したがって、前述の説明に基づいて、平滑化されたパラメータを使用して符号化されたオーディオシーンを処理することは、達成可能なオーディオ品質と実装努力との間の改善された妥協点をもたらす。

図８は、実施形態にかかるトランスポート信号１２２を復号するための装置を示している。（符号化された）オーディオ信号８１６は、（コア符号化された）オーディオ信号８１６をコア復号して（復号された生）トランスポート信号８１２を得るためのトランスポート信号コアデコーダ８１０に入力され、これは出力インターフェース１２０に入力される。例えば、トランスポート信号１２２は、トランスポート信号コアエンコーダ８１０から出力される符号化されたトランスポート信号８１２とすることができる。トランスポート信号（復号された）８１２は、出力インターフェース１２０に入力され、出力インターフェースは、第２のパラメータセット１１４を含むパラメータセット８１４を使用して、例えば左チャネルおよび右チャネルの２つ以上のチャネルの生表現８１８を生成するように構成されている。例えば、トランスポート信号１２２を得るためにコア符号化オーディオ信号を復号するためのトランスポート信号コアデコーダ８１０は、ＡＣＥＬＰデコーダである。さらにまた、コアデコーダ８１０は、復号された生トランスポート信号８１２を、出力インターフェース１２０を備える２つの並列分岐のうちの第１の分岐と、トランスポート信号エンハンサ８２０もしくはマルチチャネルエンハンサ９９０、またはその双方を備える２つの並列分岐のうちの第２の分岐と、の２つの並列分岐に供給するように構成されている。信号結合器９４０は、第１の分岐から結合されるべき第１の入力と、第２の分岐から結合されるべき第２の入力とを受信するように構成されている。

図９に示されているように、符号化されたオーディオシーン１３０を処理するための装置は、帯域幅拡張プロセッサ９１０を使用することができる。低帯域トランスポート信号９０１は、トランスポート信号９７２の２チャネル低帯域表現を取得するために出力インターフェース１２０に入力される。出力インターフェース１２０は、例えばアップミックス処理９６０の間に周波数領域９５５においてトランスポート信号９０１を処理し、時間領域９６６において２チャネルトランスポート信号９０１を変換することに留意されたい。これは、変換器９７０によって行われ、変換器は、周波数領域９５５を提示しているアップミックスされたスペクトル表現９６２を時間領域に変換して、トランスポート信号９７２の２チャネル低帯域表現を取得する。

図８に示すように、単一チャネル低帯域トランスポート信号９０１は変換器９５０に入力され、例えば、出力時間フレーム２２０に対応するトランスポート信号９０１の時間部分のトランスポート信号９０１のスペクトル表現９５２への変換、すなわち時間領域９６６から周波数領域９５５への変換を実行する。例えば、図２に記載されるように、（出力時間フレームの）部分は、第１のパラメータセット１１２のパラメータ２５２が編成される入力時間フレーム２１０よりも短い。

スペクトル表現９５２は、アップミキサ９６０に入力されて、例えば、第２のパラメータセット１１４を使用してスペクトル表現９５２をアップミックスし、周波数領域９５５において（まだ）処理されているアップミックスされたスペクトル表現９６２を取得する。前述したように、アップミックスされたスペクトル表現９６２は、アップミックスされたスペクトル表現９６２、すなわち、２つ以上のチャネルの各チャネルを周波数領域９５５から時間領域９６６（時間表現）に変換して低帯域表現９７２を取得するために、変換器９７０に入力される。したがって、アップミックスされたスペクトル表現９６２における２つ以上のチャネルが計算される。好ましくは、出力インターフェース１２０は、複素離散フーリエ変換領域において動作するように構成され、アップミックス演算は、複素離散フーリエ変換領域において実行される。複素離散フーリエ変換領域から実数値時間領域表現への変換は、変換器９７０を使用して行われる。換言すれば、出力インターフェース１２０は、第２の領域、すなわち周波数領域９５５においてアップミキサ９６０を使用して２つ以上のチャネルの生表現を生成するように構成されており、第１の領域は時間領域９６６を表す。

実施形態では、アップミキサ９６０のアップミックス演算は、以下の式に基づく：

＝

および

=

、
ここで、

は、フレームｔおよび周波数ビンｋについてのトランスポート信号９０１であり、

は、フレームｔおよびサブ帯域ｂについてのサイドゲインパラメータ４５５であり、

は、フレームｔおよびサブ帯域ｂについての残差予測ゲインパラメータ４５６であり、ｇ_ｎｏｒｍは、存在してもしなくてもよいエネルギー調整係数であり、

は、フレームｔおよび周波数ビンｋについての生残差信号である。

トランスポート信号９０２、１２２は、低帯域トランスポート信号９０１とは対照的に、時間領域９６６において処理される。トランスポート信号９０２は、高帯域信号９１２を生成するために帯域幅拡張プロセッサ（ＢＷＥプロセッサ）９１０に入力され、マルチチャネルフィリング演算を適用するためにマルチチャネルフィルタ９３０に入力される。高帯域信号９１２は、第２のパラメータセット１４４、すなわち出力時間フレーム２６２、５３２のパラメータを使用して、高帯域信号９１２をアップミックスされた高帯域信号９２２にアップミックスするために、アップミキサ９２０に入力される。例えば、アップミキサ９２０は、第２のパラメータセット１１４からの少なくとも１つのパラメータを使用して、時間領域９６６において広帯域パンニングプロセスを高帯域信号９１２に適用してもよい。

低帯域表現９７２、アップミックスされた高帯域信号９２２、およびマルチチャネルフィリングトランスポート信号９３２は、信号結合器９４０に入力され、時間領域９６６において、広帯域パンニング９２２の結果、ステレオフィリング９３２の結果、および２つ以上のチャネル９７２の低帯域表現を結合する。この結合は、チャネル表現としての時間領域９６６における全帯域マルチチャネル信号９４２をもたらす。先に概説したように、変換器９７０は、スペクトル表現９６２内の２つ以上のチャネルの各チャネルを時間表現に変換して、２つ以上のチャネル９７２の生時間表現を取得する。したがって、信号結合器９４０は、２つ以上のチャネルの生時間表現と２つ以上のチャネルの拡張時間表現とを結合する。

実施形態では、低帯域（ＬＢ）トランスポート信号９０１のみが出力インターフェース１２０（ＤＦＴステレオ）処理に入力され、高帯域（ＨＢ）トランスポート信号９１２は、（アップミキサ９２０を使用して）時間領域において別々にアップミックスされる。そのようなプロセスは、アンビエンス寄与を生成するためのマルチチャネルフィラー９３０を使用して、ＢＷＥプロセッサ９１０および時間領域ステレオフィリングを使用するパンニング動作のために実装される。パンニングプロセスは、マッピングされたサイドゲイン、例えばフレームごとにマッピングされて平滑化されたサイドゲイン７５５に基づく広帯域パンニングを含む。ここで、完全な高帯域周波数領域をカバーする１フレーム当たりのゲインは１つしかなく、これは、以下の式に基づくダウンミックスチャネルからの左右の高帯域チャネルの計算を簡略化する：
各サブフレーム

内のサンプル

ごとに、

および

。

高帯域ステレオフィリング信号

、すなわちマルチチャネルフィリングトランスポート信号９３２は、以下の式に記載されるように、

を遅延させ、

によってそれを重み付け、エネルギー正規化係数

をさらに使用することによって取得される：
現在の時間フレーム内の全てのサンプル

に対して（時間サブフレーム２１３および２１３ではなく、全時間フレーム２１０で行われる）、

および

。

は、マルチチャネルフィラー９３０によって得られるフィリング信号９３２を生成するために高帯域ダウンミックスが遅延されるサンプルの数である。より高度な無相関化処理、または遅延と比較して異なる方法でトランスポート信号から導出されたノイズ信号もしくは任意の他の信号の使用など、遅延とは別にフィリング信号を生成するための他の方法が実行されることができる。

パンニングされたステレオ信号９７２および９２２と生成されたステレオフィリング信号９３２との双方は、信号結合器９４０を使用してＤＦＴ合成後にコア信号に結合（ミックスバック）される。

ＡＣＥＬＰ高帯域のこの記載されたプロセスはまた、ＡＣＥＬＰコアおよびＴＣＸフレームがＡＣＥＬＰ高帯域と整合されるように人為的に遅延される高遅延ＤｉｒＡＣ処理とは対照的である。そこで、完全な信号に対してＣＬＤＦＢ（解析）が実行され、これは、ＡＣＥＬＰ高帯域のアップミックスもＣＬＤＦＢ領域（周波数領域）において行われることを意味する。

図１０は、処理されたオーディオシーン１２４を取得するための装置の実施形態を示している。トランスポート信号１２２は、第２のパラメータセット１１４と、２つ以上のチャネルの拡張表現９９２を生成するためのマルチチャネルエンハンサ９９０とを使用して、２つ以上のチャネル９７２の生表現を生成するために出力インターフェース１２０に入力される。例えば、マルチチャネルエンハンサ９９０は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも１つの演算を実行するように構成されている。処理されたオーディオシーン１２４を取得するために、２つ以上のチャネル９７２の生表現および２つ以上のチャネルの拡張表現９９２の双方が信号結合器９４０に入力される。

図１１は、トランスポート信号エンハンサ８２０、アップミキサ８３０およびマルチチャネルフィラー９３０を含む２つ以上のチャネルの拡張表現９９２を生成するためのマルチチャネルエンハンサ９９０の実施形態のブロック図を示している。トランスポート信号１２２および／または復号された生トランスポート信号８１２は、拡張トランスポート信号８２２を生成するトランスポート信号エンハンサ８２０に入力され、これは、アップミキサ８３０およびマルチチャネルフィラー９３０に入力される。例えば、トランスポート信号エンハンサ８２０は、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも１つの演算を実行するように構成されている。

図９に見られるように、マルチチャネルフィラー９３０は、トランスポート信号９０２および少なくとも１つのパラメータ５３２を使用してマルチチャネルフィリングトランスポート信号９３２を生成する。換言すれば、マルチチャネルエンハンサ９９０は、拡張トランスポート信号８２２および第２のパラメータセット１１４を使用して、または拡張トランスポート信号８２２およびアップミックスされた拡張トランスポート信号８３２を使用して、２つ以上のチャネル９９２の拡張表現を生成するように構成されている。例えば、マルチチャネルエンハンサ９９０は、トランスポート信号１２２または拡張トランスポート信号９３３および第２のパラメータセット５３２の少なくとも１つのパラメータを使用して２つ以上のチャネルの拡張表現９９２を生成するために、アップミキサ８３０もしくはマルチチャネルフィラー９３０のいずれか、またはアップミキサ８３０もしくはマルチチャネルフィラー９３０の双方を含む。実施形態では、トランスポート信号エンハンサ８２０またはマルチチャネルエンハンサ９９０は、生表現９７２を生成するときに出力インターフェース１２０と並列に動作するように構成されるか、またはパラメータ変換器１１０は、トランスポート信号エンハンサ８２０と並列に動作するように構成されている。

図１３において、エンコーダからデコーダに伝送されるビットストリーム１３１２は、図１２に示すＤｉｒＡＣベースのアップミキシング方式と同じであってもよい。ＤｉｒＡＣベースの空間ダウンミキシングプロセスから導出された単一のトランスポートチャネル１３１２は、コアデコーダ１３１０に入力され、コアデコーダ、例えばＥＶＳまたはＩＶＡＳモノラルデコーダによって復号され、対応するＤｉｒＡＣサイドパラメータ１３１３とともに送信される。

余分な遅延なしでオーディオシーンを処理するためのこのＤＦＴステレオ手法では、トランスポートチャネルのモノラルコアデコーダ（ＩＶＡＳモノラルデコーダ）における初期復号も変更されないままである。図１２からのＣＬＤＦＢフィルタバンク１２２０を通過する代わりに、復号されたダウンミックス信号１３１４は、非常に短いオーバーラップを有するウィンドウを使用することなどによって、復号されたモノラル信号１３１４をＳＴＦＴ領域（周波数領域）に変換するために、ＤＦＴ解析１３２０に入力される。したがって、ＤＦＴ解析１３２０は、全体的な遅延とコアデコーダのＭＤＣＴ解析／合成によって既に引き起こされたものとの間の残りのヘッドルームのみを使用して、３２ｍｓの目標システム遅延に対していかなる追加の遅延も引き起こさない。

ＤｉｒＡＣサイドパラメータ１３１３または第１のパラメータセット１１２は、パラメータマッピング１３６０に入力され、パラメータマッピングは、例えば、ＤＦＴステレオサイドパラメータ、すなわち第２のパラメータセット１１４を取得するためのパラメータ変換器１１０またはパラメータプロセッサを含むことができる。周波数領域信号１３２２およびＤＦＴサイドパラメータ１３６２は、例えば図９に記載されたアップミキサ９６０を使用することによってステレオアップミックス信号１３３２を生成するＤＦＴステレオデコーダ１３３０に入力される。ステレオアップミックス１３３２の２つのチャネルは、ＤＦＴ合成に入力され、例えば図９に記載された変換器９７０を使用してステレオアップミックス１３３２を周波数領域から時間領域に変換し、その結果、処理されたオーディオシーン１２４を表すことができる出力信号１３４２をもたらす。

図１４は、帯域幅拡張１４７０を使用して符号化されたオーディオシーンを処理するための実施形態を示している。ビットストリーム１４１２は、復号された低帯域信号１４１４を生成するために、図１３に記載されているようなＩＶＡＳモノラルデコーダの代わりに、ＡＣＥＬＰコアまたは低帯域デコーダ１４１０に入力される。復号された低帯域信号１４１４は、信号１４１４を周波数領域信号１４２２、例えば図９からのトランスポート信号９０１のスペクトル表現９５２に変換するために、ＤＦＴ解析１４２０に入力される。ＤＦＴステレオデコーダ１４３０は、周波数領域における復号された低帯域信号１４４２およびパラメータマッピング１４６０からのＤＦＴステレオサイドパラメータ１４６２を使用してＬＢステレオアップミックス１４３２を生成するアップミキサ９６０を表すことができる。生成されたＬＢステレオアップミックス１４３２は、例えば図９の変換器９７０を使用して時間領域への変換を行うＤＦＴ合成ブロック１４４０に入力される。トランスポート信号１２２の低帯域表現９７２、すなわちＤＦＴ合成段１４４０の出力信号１４４２は、アップミックスされた高帯域ステレオ信号９２２およびマルチチャネルフィリング高帯域トランスポート信号９３２と、全帯域マルチチャネル信号９４２をもたらすトランスポート信号９７２の低帯域表現とを結合する信号結合器９４０に入力される。

復号されたＬＢ信号１４１４およびＢＷＥ１４７０についてのパラメータ１４１５は、復号された高帯域信号９１２を生成するためにＡＣＥＬＰＢＷＥデコーダ９１０に入力される。マッピングされたサイドゲイン１４６２、例えば、低帯域スペクトル領域のマッピングされて平滑化されたサイドゲイン７５５は、ＤＦＴステレオブロック１４３０に入力され、高帯域全体のマッピングされて平滑化されたシングルサイドゲインは、高帯域アップミックスブロック９２０およびステレオフィリングブロック９３０に転送される。第２のパラメータセット１１４からの出力時間フレーム２６２のパラメータ５３２など、高帯域サイドゲイン１４７２を使用して復号されたＨＢ信号９１２をアップミックスするためのＨＢアップミックスブロック９２０は、アップミックスされた高帯域信号９２２を生成する。復号された高帯域トランスポート信号９１２、９０２をフィリングするためのステレオフィリングブロック９３０は、第２のパラメータセット１１４からの出力時間フレーム２６２のパラメータ５３２、４５６を使用し、高帯域フィリングトランスポート信号９３２を生成する。

結論として、本発明にかかる実施形態は、パラメータ変換を使用して、および／または帯域幅拡張を使用して、および／またはパラメータ平滑化を使用して、符号化されたオーディオシーンを処理するための概念を作り出し、全体的な遅延、達成可能なオーディオ品質、および実装努力の間の改善された妥協点をもたらす。

続いて、本発明の態様のさらなる実施形態、特に本発明の態様の組み合わせが示される。低遅延アップミックスを達成するための提案された解決策は、パラメトリックステレオ手法、例えばＤｉｒＡＣレンダラではなく短時間フーリエ変換（ＳＴＦＴ）フィルタバンクを使用して [4]に記載された手法を使用することによるものである。この「ＤＦＴ－ステレオ」手法では、１つのダウンミックスチャネルのステレオ出力へのアップミックスが記述される。この方法の利点は、ＥＶＳ [3]または近い将来のＩＶＡＳコーデック（３２ｍｓ）のような通信コーデックに必要とされるはるかに低い全体的な遅延内に留まることを可能にする、非常に短いオーバーラップを有するウィンドウがデコーダにおけるＤＦＴ解析に使用されることである。また、ＤｉｒＡＣＣＬＤＦＢとは異なり、ＤＦＴステレオ処理は、コアコーダに対する後処理ステップではなく、コア処理の一部、すなわち代数符号出口励起予測（ＡＣＥＬＰ）音声コーダの帯域幅拡張（ＢＷＥ）と、この既に与えられた遅延を超えることなく並行して実行される。したがって、ＥＶＳの３２ｍｓの遅延に関して、ＤＦＴステレオ処理は、同じ全体的なコーダ遅延で動作するため、遅延なしと呼ぶことができる。一方、ＤｉｒＡＣは、ＣＬＤＦＢが全体の遅延を３７ｍｓに延長するために５ｍｓの追加の遅延を引き起こすポストプロセッサとして見ることができる。

一般に、遅延のゲインが達成される。低遅延は、コア処理と並行して行われる処理ステップから生じるが、例示的なＣＬＤＦＢバージョンは、コア符号化の後に行われる必要なレンダリングを行うための後処理ステップである。

ＤｉｒＡＣとは異なり、ＤＦＴステレオは、より多くの遅延を引き起こすことなく利用可能なヘッドルームに適合する３．１２５ｍｓの非常に短いオーバーラップを有するウィンドウを使用してそれらの成分をＤＦＴ領域に変換するのみで、ＡＣＥＬＰＢＷＥを除く全ての成分に対して３．２５ｍｓの人工遅延を利用する。したがって、ＢＷＥのないＴＣＸおよびＡＣＥＬＰのみが周波数領域においてアップミックスされるが、ＡＣＥＬＰＢＷＥは、チャネル間帯域幅拡張（ＩＣＢＷＥ） [5]と呼ばれる別個の遅延なし処理ステップによって時間領域においてアップミックスされる。所与の実施形態の特殊なステレオ出力の場合、この時間領域ＢＷＥ処理は僅かに変更され、これについては実施形態の終わりに向かって説明する。

送信されたＤｉｒＡＣパラメータは、ＤＦＴステレオアップミックスに直接使用されることができない。したがって、所与のＤｉｒＡＣパラメータを対応するＤＦＴステレオパラメータにマッピングすることが必要になる。ＤｉｒＡＣは、拡散度パラメータとともに空間配置に方位角および仰角を使用するが、ＤＦＴステレオは、パンニングに使用されるシングルサイドゲインパラメータと、ステレオ幅、したがってＤｉｒＡＣの拡散度パラメータに密接に関連する残差予測パラメータとを有する。パラメータ分解能の観点から、各フレームは、サブフレームごとに２つのサブフレームおよびいくつかの周波数帯域に分割される。ＤＦＴステレオにおいて使用されるサイドゲインおよび残差ゲインは、 [6]に記載されている。

ＤｉｒＡＣパラメータは、元々ＢフォーマットまたはＦＯＡのオーディオシーンの帯域ごとの解析から導出される。次いで、帯域ｋおよび時点ｎごとに、方位角

および仰角

ならびに拡散係数

の主要到来方向を導出する。指向性成分の場合、中心位置における一次球面調和関数は、無指向性成分

およびＤｉｒＡＣパラメータによって導出されることができる。

さらに、ＦＯＡチャネルから、ＷおよびＹを伴う復号によってステレオバージョンを得ることが可能であり、これは、方位角＋９０度および－９０度を指す２つのカージオイドをもたらす。

この復号は、２つの方向を指す一次ビームフォーミングに対応する。

その結果、ステレオ出力とＤｉｒＡＣパラメータとの間に直接リンクが存在する。一方、ＤＦＴパラメータは、中間信号Ｍおよびサイド信号Ｓに基づくＬおよびＲチャネルのモデルに依存する。

Ｍは、モノチャネルとして伝送され、ＳＢＡモードの場合には全方向チャネルＷに対応する。ＤＦＴでは、ステレオＳは、サイドゲインを使用してＭから予測され、サイドゲインは、以下のようにＤｉｒＡＣパラメータを使用して表されることができる：

ＤＦＴステレオでは、予測の残差はインコヒーレントであると仮定および期待され、そのエネルギーによってモデル化され、左右に向かう残差信号を非相関化する。ＭによるＳの予測の残差は、以下のように表されることができる：

また、そのエネルギーは、以下のように予測ゲインを使用してＤＦＴステレオにおいてモデル化される：

通常使用されるＤＦＴステレオの帯域構成はＤｉｒＡＣの帯域構成と同じではないため、ＤｉｒＡＣ帯域と同じ周波数範囲をカバーするように適合される必要がある。これらの帯域の場合、ＤｉｒＡＣの指向角は、

によってＤＦＴステレオのサイドゲインパラメータにマッピングされることができ、ここで、

は現在の帯域であり、パラメータ範囲は、方位角について

、仰角について

、および得られるサイドゲイン値について

である。しかしながら、ＤｉｒＡＣの指向性パラメータは、通常、ＤＦＴステレオよりも高い時間分解能を有し、これは、１つのサイドゲイン値の計算に２つ以上の方位角および仰角値を使用しなければならないことを意味する。１つの方法は、サブフレーム間の平均化を行うことであるが、この実装では、計算はエネルギー依存重みに基づく。全ての

ＤｉｒＡＣサブフレームについて、サブフレームのエネルギーは、

として計算され、ここで、

は時間領域入力信号、

は各サブフレーム内のサンプル数、および

はサンプルインデックスである。各ＤＦＴステレオサブフレーム

について、

として内部

の各ＤｉｒＡＣサブフレーム

の寄与について重みが計算されることができる。

次いで、サイドゲインは、

として最終的に計算される。

パラメータ間の類似度により、帯域ごとの１つの拡散度値は、同じ帯域内の全てのサブフレームの残差予測パラメータに直接マッピングされる。

さらに、パラメータは、ゲインの強い変動を回避するために経時的に平滑化される。これは、ほとんどの場合、比較的強い平滑化を必要とするが、シーンが突然変化するときはいつでもより速い応答を必要とするため、平滑化の強度を決定する平滑化係数は適応的に計算される。この適応平滑化係数は、現在の帯域におけるエネルギーの変化から帯域ごとに計算される。したがって、最初に全てのサブフレーム

において帯域幅エネルギーが計算される必要がある：

ここで、

は現在の帯域

における全てのビンのビンインデックスである。

時間２の平均にわたるエネルギーの変化を捉えるために、次に、１つの短期および１つの長期が、各帯域

について、

および

にしたがって計算される。

ここで、

および

は、個々の平均が計算される前のサブフレームの数

である。この特定の実装では、

は３に設定され、

は１０に設定される。次に、平均の商から平滑化係数が計算され、その結果、最近のエネルギーの増加を示す短期平均が高いほど、平滑化の低下につながる。

エネルギーの減少を示すより高い長期平均は、平滑化の低下につながらないため、平滑化係数は、ここでは最大１に設定される。

上記の式は、

の最小値を

（この実装では０．３）に制限する。しかしながら、極端な場合には係数が０に近いことが必要であり、これは、

を介して値が範囲

］から範囲

］に変換される理由である。

極端でない場合には、平滑化が過度に低減されるため、係数は、値１に向かってルート関数によって圧縮される。安定性は最も低い帯域において特に重要であるため、４次根が帯域

および

において使用される：

一方、他の全ての帯域

は平方根

によって圧縮される。

このようにして、極端な場合は０に近いままであるが、エネルギーの急激な増加がそれほど大きく平滑化を減少させることはない。

最後に、帯域に応じて最大平滑化が設定される（係数１は、単に現在のゲインの寄与なしに前の値を繰り返すことになる）：

ここで、所与の実装では、５つの帯域を有する

が以下の表にしたがって設定される。

平滑化係数は、現在のフレームにおける各ＤＦＴステレオサブフレーム

について計算される。

最後のステップでは、サイドゲインおよび残差予測ゲインの双方が、以下にしたがって再帰的に平滑化される。

および

これらのマッピングされて平滑化されたパラメータは、ここでＤＦＴステレオ処理に供給され、ここで、ステレオ信号

がダウンミックス

から生成され、残差予測信号

（オールパスフィルタ [7]を使用する「拡張ステレオフィリング」または遅延を使用する通常のステレオフィリングのいずれかによってダウンミックスから得られる）ならびにマッピングされたパラメータ

および

が生成される。アップミックスは、一般に以下の式 [6]によって記述される：

および
帯域

内の全てのビン

の各サブフレーム

について、

さらに、各サイドゲイン

は、

および

のエネルギーから計算されたエネルギー正規化係数

によって重み付けされる。

最後に、アップミックス信号は、ＩＤＦＴを介して時間領域に変換されて戻され、所与のステレオ設定で再生される。

ＡＣＥＬＰにおいて使用される「時間領域帯域幅拡張」（ＴＢＥ） [8]は、それ自体の遅延を生成するため（実装では、この実施形態は正確に２．３１２５ｍｓに基づく）、全体の遅延が３２ｍｓ以内に留まる間にＤＦＴ領域に変換されることはできない（ＳＴＦＴが既に３．１２５ｍｓを使用しているステレオデコーダには３．２５ｍｓ残っている）。したがって、低帯域（ＬＢ）のみが図１４の１４５０によって示されるＤＦＴステレオ処理に入れられ、一方、高帯域（ＨＢ）は、図１４のブロック９２０に示されるように時間領域において別々にアップミックスされなければならない。通常のＤＦＴステレオでは、これは、アンビエンスのためのパンニングおよび時間領域ステレオフィリングのためのチャネル間帯域幅拡張（ＩＣＢＷＥ） [5]を介して行われる。所与の場合において、ブロック９３０におけるステレオフィリングは、通常のＤＦＴステレオと同じ方法で計算される。しかしながら、ＩＣＢＷＥ処理は、パラメータが欠落しているために完全にスキップされ、マッピングされたサイドゲイン１４７２に基づいてブロック９２０において広帯域パンニングを必要とする低リソースによって置き換えられる。所与の実施形態では、完全なＨＢ領域をカバーする単一のゲインのみが存在し、これは、ダウンミックスチャネルから以下へのブロック９２０における左右のＨＢチャネルの計算を簡略化する。

および
各サブフレーム

内のサンプル

について

ＨＢステレオフィリング信号

は、ブロック９３０において、遅延

および

による重み付け、以下のようなエネルギー正規化係数

によって取得される。

および
現在のフレーム（サブフレームではなく、全フレームで行われる）内の全てのサンプル

について

であり、ここで、

は、ＨＢダウンミックスがフィリング信号に対して遅延されるサンプル数である。

パンニングされたステレオ信号および生成されたステレオフィリング信号の双方は、最終的に、結合器９４０におけるＤＦＴ合成後にコア信号に混合されて戻される。

ＡＣＥＬＰＨＢのこの特別な処理はまた、ＡＣＥＬＰコアおよびＴＣＸフレームがＡＣＥＬＰＨＢと整合されるように人為的に遅延される高遅延ＤｉｒＡＣ処理とは対照的である。そこで、ＣＬＤＦＢは、完全な信号に対して実行され、すなわち、ＡＣＥＬＰＨＢのアップミックスもＣＬＤＦＢ領域において行われる。

提案された方法の利点
追加の遅延がないことは、ＩＶＡＳコーデックが、ステレオ出力へのＳＢＡ入力のこの特定のケースについて、ＥＶＳ（３２ミリ秒）におけるものと同じ全体的な遅延内に留まることを可能にする。

全体的に単純でより容易な処理のために、空間ＤｉｒＡＣレンダリングよりもＤＦＴによるパラメトリックステレオアップミックスの複雑さがはるかに低い。

さらなる好ましい実施形態
１．前述のように符号化または復号するための装置、方法またはコンピュータプログラム。

２．符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラムであって、
・入力が、第１のパラメータセットを有する音響シーンの空間オーディオ表現に基づくモデルによって符号化され、２つの出力チャネル用のステレオモデル、または第２のパラメータセットを有する２つを超える出力チャネル用のマルチチャネルモデルを用いて出力において復号されるシステム、および／または
・空間パラメータのステレオパラメータへのマッピング、および／または
・１つの周波数領域に基づく入力表現／パラメータから別の周波数領域に基づく出力表現／パラメータへの変換、および／または
・より高い時間分解能を有するパラメータのより低い時間分解能への変換、および／または
・第２の周波数変換のより短いウィンドウオーバーラップによるより低い出力遅延、および／または
・ステレオとしてＳＢＡＤｉｒＡＣ符号化コンテンツを出力するための、ＤｉｒＡＣパラメータ（指向角、拡散度）のＤＦＴステレオパラメータ（サイドゲイン、残差予測ゲイン）へのマッピング、および／または
・ＣＬＤＦＢベースの入力表現／パラメータからＤＦＴベースの出力表現／パラメータへの変換、および／または
・５ｍｓ分解能のパラメータの１０ｍｓ分解能のパラメータへの変換、および／または
・利点：ＣＬＤＦＢと比較してより短いＤＦＴのウィンドウオーバーラップに起因するより低い出力遅延、を含む、符号化もしくは復号のための装置もしくは方法、または関連するコンピュータプログラム。

本明細書では、前述の全ての代替形態または態様、および以下の特許請求の範囲における独立請求項によって定義される全ての態様は、個別に、すなわち、企図される代替形態、目的または独立請求項以外の代替形態または目的なしに使用されることができることに留意されたい。しかしながら、他の実施形態では、２つ以上の代替形態または態様または独立請求項が互いに組み合わせられることができ、他の実施形態では、全ての態様または代替形態および全ての独立請求項が互いに組み合わせられることができる。

本発明の異なる態様は、パラメータ変換態様、平滑化態様、および帯域幅拡張態様に関することが概説されるべきである。これらの態様は、別々にまたは互いに独立して実装されることができ、または少なくとも３つの態様の任意の２つの態様が組み合わせられることができ、または３つの態様全てが上述した実施形態において組み合わせられることができる。

本発明の符号化された信号は、デジタル記憶媒体または非一時的記憶媒体に記憶されることができ、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体上で伝送されることができる。

いくつかの態様が装置の文脈で説明されたが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様は、対応する装置の対応するブロックまたは項目または機能の説明も表す。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実装されることができる。実装は、電子的に読み取り可能な制御信号が記憶され、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）、例えば、フロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して行うことができる。

本発明にかかるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協調することができる電子的に読み取り可能な制御信号を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを備えたコンピュータプログラム製品として実装されることができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するために動作する。プログラムコードは、例えば、機械可読キャリアに記憶されてもよい。

他の実施形態は、機械可読キャリアまたは非一時的記憶媒体に記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

換言すれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをその上に記録したデータキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えば、コンピュータ、またはプログラマブルロジックデバイスを備える。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）が使用されて、本明細書に記載の方法の機能のいくつかまたは全てを実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協調することができる。一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された構成および詳細の変更および変形は、当業者にとって明らかであろうことが理解される。したがって、本明細書の実施形態の説明および説明として提示された特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ限定されることが意図されている。

参考文献
[1] V. Pulkki, M.-V. V. J. Laitinen, J. Ahonen, T. Lokki and T. Pihlajamaeki, "Directional audio coding-perception - based reproduction of spatial sound," in INTERNATIONAL WORKSHOP ON THE PRINCIPLES AND APPLICATION ON SPATIAL HEARING, 2009.

[2] G. Fuchs, O. Thiergart, S. Korse, S. Doehla, M. Multrus, F. Kuech, Boutheon, A. Eichenseer and S. Bayer, "Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using low-order, mid-order and high-order components generators". WO Patent 2020115311A1, 11 06 2020.

[3] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.

[4] S. Bayer, M. Dietz, S. Doehla, E. Fotopoulou, G. Fuchs, W. Jaegers, G. Markovic, M. Multrus, E. Ravelli and M. Schnell, " APPARATUS AND METHOD FOR ESTIMATING AN INTER-CHANNEL TIME DIFFERENCE". Patent WO17125563, 27 07 2017.

[5] V. S. C. S. Chebiyyam and V. Atti, "Inter-channel bandwidth extension". WO Patent 2018187082A1, 11 10 2018.

[6] J. Buethe, G. Fuchs, W. Jaegers, F. Reutelhuber, J. Herre, E. Fotopoulou, M. Multrus and S. Korse, "Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain". WO Patent WO2018086947A1, 17 05 2018.

[7] J. Buethe, F. Reutelhuber, S. Disch, G. Fuchs, M. Multrus and R. Geiger, "Apparatus for Encoding or Decoding an Encoded Multichannel Signal Using a Filling Signal Generated by a Broad Band Filter". WO Patent WO2019020757A2, 31 01 2019.

[8] V. A. e. al., "Super-wideband bandwidth extension for speech in the 3GPP EVS codec," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, 2015.

Claims

音場を表すオーディオシーン（１３０）を処理するための装置であって、前記オーディオシーンが、トランスポート信号（１２２）およびパラメータセット（１１２；１１４）に関する情報を含み、
前記パラメータセット（１１２；１１４）および前記トランスポート信号（１２２）に関する情報を使用して処理されたオーディオシーン（１２４）を生成するための出力インターフェース（１２０）であって、前記出力インターフェース（１２０）が、前記パラメータセット（１１２；１１４）および前記トランスポート信号（１１２；１４４）を使用して２つ以上のチャネルの生表現を生成するように構成されている、出力インターフェースと、
前記トランスポート信号（１２２）を使用して前記２つ以上のチャネルの拡張表現を生成するためのマルチチャネルエンハンサ（９９０）と、
前記処理されたオーディオシーン（１２４）を取得するために、前記２つ以上のチャネルの前記生表現および前記２つ以上のチャネルの前記拡張表現を結合するための信号結合器（９４０）と、を備える、装置。
前記マルチチャネルエンハンサ（９９０）が、前記拡張トランスポート信号（８２２）および前記パラメータセット（１１２；１１４）を使用して前記２つ以上のチャネルの前記拡張表現（９９２）を生成するように構成され、または
前記マルチチャネルエンハンサ（９９０）が、拡張トランスポート信号（８２２）を生成するためのトランスポート信号エンハンサ（８２０）と、前記拡張トランスポート信号（８２２）をアップミックスするためのアップミキサと、を備える、請求項１に記載の装置。
前記トランスポート信号（１２２）が、符号化されたトランスポート信号であり、前記装置が、
復号された生トランスポート信号を生成するためのトランスポート信号コアデコーダ（８１０）をさらに備え、
前記トランスポート信号エンハンサ（８２０）が、前記復号された生トランスポート信号を使用して前記拡張トランスポート信号を生成するように構成され、
前記出力インターフェース（１２０）が、前記パラメータセット（１１２；１１４）および前記復号された生トランスポート信号を使用して前記２つ以上のチャネルの前記生表現を生成するように構成されている、請求項１または２に記載の装置。
前記マルチチャネルエンハンサ（９９０）が、前記トランスポート信号（１２２）または前記拡張トランスポート信号（８２２）および前記パラメータセット（１１４）の少なくとも１つのパラメータを使用して前記２つ以上のチャネルの前記拡張表現を生成するために、前記アップミキサまたはマルチチャネルフィラー（９３０）のいずれか、または前記アップミキサおよび前記マルチチャネルフィラー（９３０）の双方を備える、請求項１または２または請求項３に記載の装置。
前記出力インターフェース（１２０）が、第２の領域におけるアップミックスを使用して前記２つ以上のチャネルの生表現を生成するように構成され、
前記トランスポート信号エンハンサ（８２０）が、前記第２の領域とは異なる第１の領域において前記拡張トランスポート信号（８２２）を生成するように構成されているか、または前記マルチチャネルエンハンサ（９９０）が、前記第１の領域において前記拡張トランスポート信号（８２２）を使用して前記２つ以上のチャネルの前記拡張表現を生成するように構成されており、
前記信号結合器（９４０）が、前記第１の領域において前記２つ以上のチャネルの前記生表現と前記２つ以上のチャネルの前記拡張表現とを結合するように構成されている、請求項１から４のいずれか一項に記載の装置。
前記第１の領域が時間領域であり、前記第２の領域がスペクトル領域である、請求項５に記載の装置。
前記トランスポート信号エンハンサ（８２０）または前記マルチチャネルエンハンサ（９９０）が、帯域幅拡張演算、ギャップフィリング演算、品質強化演算、または補間演算を含む演算グループの少なくとも１つの演算を実行するように構成されている、請求項１から６のいずれか一項に記載の装置。
前記トランスポート信号エンハンサ（８２０）または前記マルチチャネルエンハンサ（９９０）が、前記生表現を生成するときに前記出力インターフェース（１２０）と並列に動作するように構成されるか、または
前記パラメータ変換器（１１０）が、前記トランスポート信号エンハンサ（８２０）と並列に動作するように構成されている、
請求項１から７のいずれか一項に記載の装置。
前記コアデコーダが、前記復号された生トランスポート信号を２つの並列分岐に供給するように構成され、前記２つの並列分岐のうちの第１の分岐が、前記出力インターフェース（１２０）を備え、前記２つの並列分岐のうちの第２の分岐が、前記トランスポート信号エンハンサ（８２０）または前記マルチチャネルエンハンサ（９９０）またはその双方を備え、前記信号結合器（９４０）が、前記第１の分岐から結合されるべき第１の入力および前記第２の分岐から結合されるべき第２の入力を受信するように構成されている、請求項３から８のいずれか一項に記載の装置。
前記出力インターフェース（１２０）が、
出力時間フレーム（２２０）に対応する前記トランスポート信号（１２２）の時間部分のスペクトル表現への変換を実行し、
前記パラメータセット（１１４）を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記２つ以上のチャネルを取得し、
前記スペクトル表現内の前記２つ以上のチャネルの各チャネルを時間表現に変換して、前記２つ以上のチャネルの生時間表現を取得する、ように構成され、
前記信号結合器（９４０）が、前記２つ以上のチャネルの前記生時間表現と前記２つ以上のチャネルの前記拡張時間表現とを結合するように構成されている、請求項１から９のいずれか一項に記載の装置。
前記装置が、受信されたパラメータセットを受信するように構成され、
前記装置が、前記受信されたパラメータセット（１１２）を、前記２つ以上のチャネルについての所定の空間位置における再生のために前記２つ以上のチャネルを備える前記チャネル表現に関連する前記パラメータセット（１１４）に変換するためのパラメータ変換器（１１０）をさらに備え、
前記出力インターフェース（１２０）が、前記パラメータセット（１１４）および前記トランスポート信号（１２２）に関する前記情報を使用して前記処理されたオーディオシーン（１２４）を生成するように構成されている、請求項１から１０のいずれか一項に記載の装置。
前記出力インターフェース（１２０）が、前記パラメータセット（１１４）を使用して前記トランスポート信号（１２２）を前記２つ以上のチャネルを含むアップミックス信号にアップミックスするように構成されている、
請求項１から１１のいずれか一項に記載の装置。
前記出力インターフェース（１２０）が、前記トランスポート信号（１２２）または前記トランスポート信号（１２２）に関する前記情報と前記パラメータセット（１１４）とを結合して、前記処理されたオーディオシーン（１２４）としてトランスコードされたオーディオシーンを取得することによって、前記処理されたオーディオシーン（１２４）を生成するように構成されている、請求項１から１２のいずれか一項に記載の装置。
前記受信されたパラメータセット（１１２）が、複数の入力時間フレームの各入力時間フレーム（２１０）および複数の入力周波数帯域（２３０）の各入力周波数帯域（２３１）について、少なくとも１つのＤｉｒＡＣパラメータを含み、
前記パラメータ変換器（１１０）が、前記パラメータセット（１１４）をパラメトリックステレオまたはマルチチャネルパラメータとして計算するように構成されている、請求項１１から１３のいずれか一項に記載の装置。
前記少なくとも１つのパラメータが、到来方向パラメータ、拡散度パラメータ、仮想聴取位置を球の原点とする前記球に関連する方向情報パラメータ、および距離パラメータのうちの少なくとも１つを含み、
前記パラメトリックステレオまたはマルチチャネルパラメータが、サイドゲインパラメータ（４５５）、残差予測ゲインパラメータ（４５６）、チャネル間レベル差パラメータ、チャネル間時間差パラメータ、チャネル間位相差パラメータ、およびチャネル間コヒーレンスパラメータのうちの少なくとも１つを含む、請求項１４に記載の装置。
前記受信されたパラメータセット（１１２）が関連する入力時間フレーム（１２０）が、２つ以上の入力時間サブフレームを含み、前記パラメータセット（１１４）が関連する出力時間フレーム（２２０）が、前記入力時間フレーム（２１０）よりも小さく、前記２つ以上の入力時間サブフレームのうちの入力時間サブフレームよりも長く、
前記パラメータ変換器（１１０）が、時間的に後続する前記２つ以上の入力時間サブフレームのそれぞれについて前記パラメータセット（１１４）の生パラメータ（２５２）を計算し、少なくとも２つの生パラメータを結合して、前記出力サブフレームに関連する前記パラメータセット（１１４）のパラメータを導出するように構成されている、請求項１１から１５のいずれか一項に記載の装置。
前記パラメータ変換器（１１０）が、前記少なくとも２つの生パラメータの重み付け結合を実行するように構成され、前記重み付け結合の重み係数が、前記対応する入力時間サブフレームにおける前記トランスポート信号（１２２）の振幅関連尺度（３２０）に基づいて導出される、請求項１６に記載の装置。
前記パラメータ変換器（１１０）が、前記振幅関連尺度（３２０）として、エネルギーまたは電力を使用するように構成されており、入力サブフレームについての重み係数が、前記対応する入力時間サブフレーム内の前記トランスポート信号（１２２）のエネルギーまたは電力がより高い場合、前記対応する入力時間サブフレーム内の前記トランスポート信号（１２２）のエネルギーまたは電力がより低い入力サブフレームの重み係数と比較して、より大きい、請求項１７に記載の装置。
前記パラメータ変換器（１１０）が、前記入力時間フレーム（２１０）について前記受信されたパラメータセット（１１２）の少なくとも１つのパラメータを使用して、各出力時間フレーム（２２０）について少なくとも１つの生パラメータ（２５２）を計算するように構成され、
前記パラメータ変換器（１２０）が、平滑化規則にしたがって生パラメータ（２５２）ごとに平滑化係数（５１２；５２２）を計算するように構成され、
前記パラメータ変換器（１１０）が、対応する平滑化係数（５１２；５２２）を前記対応する生パラメータ（２５２）に適用して、前記出力時間フレーム（２２０）についての前記パラメータセット（１１４）の前記パラメータを導出するように構成されている、請求項１４から１８のいずれか一項に記載の装置。
前記パラメータ変換器（１１０）が、
前記トランスポート信号（１２２）の第１の時間部分の振幅関連尺度（３２０）にわたる長期平均（３３２）を計算し、
前記トランスポート信号（１２０）の第２の時間部分であって、前記第１の時間部分よりも短い前記第２の時間部分の振幅関連尺度（３２０）にわたる短期平均（３３１）を計算し、
前記長期平均（３３２）と前記短期平均（３３１）との比に基づいて平滑化係数（５１２；５２２）を計算するように構成されている、請求項１９に記載の装置。
前記パラメータ変換器（１１０）が、圧縮関数（５４０）を使用して帯域についての平滑化係数（５１２；５２２）を計算するように構成され、前記圧縮関数が異なる周波数帯域について異なり、前記圧縮関数の圧縮強度が、より低い周波数帯域の方がより高い周波数帯域よりも強い、請求項１９または２０に記載の装置。
前記パラメータ変換器（１１０）が、異なる帯域に対して異なる最大境界を使用して前記平滑化係数（５１２；５２２）を計算するように構成され、低帯域の最大境界が、高帯域の最大境界よりも高い、請求項１９から２１のいずれか一項に記載の装置。
前記パラメータ変換器（１１０）が、前記平滑化規則として、再帰的平滑化規則（７１０）を時間的に後続の出力時間フレームにわたって適用するように構成され、その結果、現在の出力時間フレーム（２２０）についての平滑化されたパラメータが、第１の重み値によって重み付けされた前の出力時間フレーム（２２０）についての前記パラメータと、第２の重み値によって重み付けされた前記現在の出力時間フレーム（２２０）についての生パラメータ（２５２）とを結合することによって計算され、前記第１の重み値および前記第２の重み値が、前記現在の時間フレームについての前記平滑化係数（５１２；５２２）から導出される、請求項１９から２２のいずれか一項に記載の装置。
前記出力インターフェース（１２０）が、
出力時間フレーム（２２０）に対応する前記トランスポート信号（１２２）の時間部分のスペクトル表現への変換を実行し、前記部分が、前記受信されたパラメータセット（１１２）の前記パラメータが編成される入力時間フレーム（２１０）よりも短く、
前記パラメータセット（１１４）を使用して前記スペクトル表現のアップミックス演算を実行して、前記スペクトル表現内の前記２つ以上のチャネルを取得し、
前記スペクトル表現内の前記２つ以上のチャネルの各チャネルを時間表現に変換するように構成されている、請求項１から２３のいずれか一項に記載の装置。
前記出力インターフェース（１２０）が、
複素離散フーリエ変換領域に変換し、
前記複素離散フーリエ変換領域において前記アップミックス演算を実行し、
前記複素離散フーリエ変換領域から実数値時間領域表現への前記変換を実行するように構成されている、請求項２４に記載の装置。
前記出力インターフェース（１２０）が、以下の式に基づいて前記アップミックス演算を実行するように構成されており、

=

および

=

、
ここで、

は、フレームｔおよび周波数ビンｋについての前記トランスポート信号（１２２）であり、

は、フレームｔおよびサブ帯域ｂについてのサイドゲインであり、

は、フレームｔおよびサブ帯域ｂについての残差予測ゲインであり、ｇ_ｎｏｒｍは、存在してもしなくてもよいエネルギー調整係数であり、

は、フレームｔおよび周波数ビンｋについての生残差信号である、請求項２４または２５に記載の装置。
前記受信されたパラメータセット（１１２）が、入力周波数帯域（２３１）の到来方向パラメータであり、前記パラメータセット（１１４）が、入力周波数帯域（２３１）ごとのサイドゲインパラメータ（４５５）を含み、
前記パラメータ変換器（１１０）が、以下の式を使用して前記出力周波数帯域（２４１）についての前記サイドパラメータを計算するように構成され、

ここで、ｂは出力周波数帯域（２４１）であり、ｓｉｄｅｇａｉｎはサイドゲインパラメータ（４５５）であり、ａｚｉｍｕｔｈは到来方向パラメータの方位角成分であり、ｅｌｅｖａｔｉｏｎは到来方向パラメータの仰角成分である、
請求項１１から２６のいずれか一項に記載の装置。
前記受信されたパラメータセット（１１２）が、前記入力周波数帯域（２３１）についての拡散度パラメータをさらに含み、前記パラメータ変換器（１１０）が、以下の式を使用して前記出力周波数帯域（２４１）についての前記サイドパラメータを計算するように構成され、

ここで、ｄｉｆｆ（ｂ）は前記入力周波数帯域（２３１）ｂについての拡散度パラメータである、
請求項２７に記載の装置。
前記受信されたパラメータセット（１１２）が、入力周波数帯域（２３１）ごとの拡散度パラメータを含み、
前記パラメータセット（１１４）が、出力周波数帯域（２４１）についての残差予測パラメータ（４５６）を含み、
前記パラメータ変換器（１１０）が、前記入力パラメータ帯域と前記出力パラメータ帯域とが互いに等しい場合、前記入力パラメータ帯域からの前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ（４５６）として使用するか、または、前記入力パラメータ帯域についての前記拡散度パラメータから前記出力パラメータ帯域についての拡散度パラメータを導出し、次いで、前記出力パラメータ帯域についての前記拡散度パラメータを前記出力パラメータ帯域についての前記残差予測パラメータ（４５６）として使用する、
請求項１１から２８のいずれか一項に記載の装置。
前記トランスポート信号（１２２）に関する前記情報がコア符号化オーディオ信号を含み、前記装置が、
前記トランスポート信号（１２２）を取得するために前記コア符号化オーディオ信号をコア復号するためのコアデコーダをさらに備える、
請求項３から２９のいずれか一項に記載の装置。
前記コアデコーダがＡＣＥＬＰデコーダ内にあり、または
前記出力インターフェース（１２０）が、低帯域信号である前記トランスポート信号（１２２）をスペクトル表現に変換し、前記スペクトル表現をアップミックスし、時間領域においてアップミックスされたスペクトル表現を変換して、前記２つ以上のチャネルの低帯域表現を取得するように構成され、
前記装置が、前記時間領域において前記トランスポート（１２２）信号から高帯域信号を生成するための帯域幅拡張プロセッサ（９１０）を備え、
前記装置が、前記時間領域において前記トランスポート信号（１２２）にマルチチャネルフィリング演算を適用するためのマルチチャネルフィラー（９３０）を備え、
前記装置が、前記パラメータセット（１１４）からの少なくとも１つのパラメータを使用して前記高帯域信号に前記時間領域における広帯域パンニングを適用するためのアップミキサ（９２０）を備え、
前記装置が、前記チャネル表現として前記時間領域における全帯域マルチチャネル信号を取得するために、前記時間領域において、前記広帯域パンニングの結果、前記ステレオフィリングの結果、および前記２つ以上のチャネルの前記低帯域表現を結合するための信号結合器（９４０）を備える、請求項３または３０のいずれか一項に記載の装置。
仮想聴取者位置に関連する音場を表すオーディオシーンを処理する方法であって、前記オーディオシーンが、トランスポート信号およびパラメータセットに関する情報を含み、
前記パラメータセットおよび前記トランスポート信号に関する前記情報を使用して処理されたオーディオシーンを生成することであって、前記生成することが、前記パラメータセットおよび前記トランスポート信号を使用して２つ以上のチャネルの生表現を生成することを含む、生成することと、
前記トランスポート信号を使用して前記２つ以上のチャネルの拡張表現をマルチチャネル生成することと、
前記処理されたオーディオシーンを取得するために、前記２つ以上のチャネルの前記生表現と前記２つ以上のチャネルの前記拡張表現とを結合することと、を含む、方法。
コンピュータまたはプロセッサ上で実行されると、請求項３２に記載の方法を実行するためのコンピュータプログラム。