JP2019500641A

JP2019500641A - 過渡処理を高めるためのポストプロセッサ、プレプロセッサ、オーディオ符号器、オーディオ復号器、及び関連する方法

Info

Publication number: JP2019500641A
Application number: JP2018527783A
Authority: JP
Inventors: フローリンギード; サシャデッシュ; ユンゲンヘレ; アレクサンダーアダミ; フランツロイテルフーバー
Original assignee: フラウンホファーゲセルシャフトツールフェールデルンクダーアンゲヴァンテンフォルシュンクエー．ファオ．
Priority date: 2016-02-17
Filing date: 2017-02-10
Publication date: 2019-01-10
Anticipated expiration: 2037-02-10
Also published as: US11094331B2; BR112017024480A2; ZA201707336B; PT3417544T; MY191093A; CN107925388A; US10720170B2; CA2985019A1; TWI618053B; JP2020024440A; KR102067044B1; AR107662A1; US20200090670A1; JP7007344B2; PL3417544T3; EP3417544B1; WO2017140600A1; CA2985019C; TW201732784A; EP3627507A1

Abstract

時変高周波ゲイン情報（１０４）をサイド情報として有するオーディオ信号（１０２）を後処理するためのオーディオポストプロセッサ（１００）であって、オーディオ信号（１０２）の高周波帯域（１１２）とオーディオ信号（１０２）の低周波帯域（１１４）とを抽出するための帯域抽出部（１１０）と、時変高周波ゲイン情報（１０４）に従って高周波帯域（１１２）の時変変更を行って処理済高周波帯域（１２２）を取得するための高帯域プロセッサ（１２０）と、処理済高周波帯域（１２２）と低周波帯域（１１４）とを結合するための結合器（１３０）と、を含むオーディオポストプロセッサ（１００）。更に、プレプロセッサが例示されている。

Description

本発明はオーディオ処理に関し、特にオーディオ前処理及びオーディオ後処理の文脈においてオーディオ処理に関する。

＜プレエコー：時間的なマスキング問題＞
典型的なフィルタバンクベースの知覚符号器（例えば、ＭＰ３又はＡＡＣ）は主に、同時マスキングの知覚効果を利用するようにデザインされているが、マスキング現象の時間的側面にも対処しなければならない。ノイズはマスキング信号を与える前及び与えた後の短時間でマスキングされる（プレマスキング及びポストマスキング現象）。ポストマスキングは、プレマスキングよりも非常に長い時間、観察される（マスカのレベル及び継続時間に応じて、０．５ｍｓ〜２．０ｍｓではなく１０．０〜５０．０ｍｓのオーダー）。

その結果、マスキングの時間的側面は、知覚符号化方式に対する更なる要求につながる。知覚的に透明な符号化品質を実現するために、量子化ノイズはまた、時間依存性のマスキングされた閾値を超えてはならない。

実際には、この要求を知覚符号器に対して実現するのは容易ではない。なぜならば、量子化及び符号化に対してスペクトル信号分解を用いることは、このドメインに導入される量子化誤差が、合成フィルタバンクによって再構成された後に時間とともに広がることを意味するからである（時間／周波数不確定性原理）。一般的に用いられるフィルタバンクデザイン（例えば、１０２４ラインＭＤＣＴ）の場合、これは、量子化ノイズが、ＣＤサンプリングレートにおいて４０ミリ秒を超える時間に渡って広がり得ることを意味する。この結果、符号化すべき信号が、分析フィルタバンクウィンドウの部分にのみ強力な信号成分を含むとき（すなわち過渡信号に対して）、問題が生じる。詳細には、量子化ノイズは、信号の開始前に広がり、極端な場合には、ある時間間隔の間に原信号成分のレベルを超える場合さえある。クリティカルな打楽器信号の良く知られた例はカスタネット録音であり、復号後に、量子化ノイズ成分が、原信号の「アタック」前に、ある時間だけ広がる。このような配置は従来、「プレエコー現象」として知られている。［Ｊｏｈ９２ｂ］

ヒトの聴覚系の特性に起因して、このような「プレエコー」がマスキングされるのは、信号開始前に約２．０ｍｓよりも長く存在する著しい量の符号化ノイズがない場合のみである。そうでない場合には、符号化ノイズは、プレエコー人工物（すなわち、信号開始に先行する短いノイズ様事象）として知覚される。このような人工物を回避するために、量子化ノイズの適切な時間特性を維持して、それが依然として時間マスキングに対する条件を満たすように注意を払わなければならない。この時間領域ノイズ整形問題のために、従来、過渡信号（例えば、カスタネット、グロッケンシュピール、三角形など）に対して、低ビットレートにおいて良好な知覚信号品質を実現することが難しかった。

＜拍手様信号（Ａｐｐｌａｕｓｅ−ｌｉｋｅｓｉｇｎａｌｓ）：極めてクリティカルな種類の信号＞
前述した過渡信号は、知覚オーディオ符号復号器においてプレエコーをトリガする場合がある一方で、この過渡信号は単一の分離されたアタックを示す。すなわち、次のアタックが現れるまである最短時間が存在する。そのため、知覚符号器は、最後のアタックの処理から回復するのに多少の時間がかかり、例えば、次のアタックに対処するために予備ビットを再び集める可能性がある（以下に説明する「ビットリザーバ」を参照）。これとは対照的に、観客の拍手の音は、高密度に離隔して配置された拍手の音の安定したストリームからなり、それぞれの拍手の音はそれ自身の過渡事象である。図１１に示すのは、ステレオ拍手信号の高周波時間エンベロープの説明図である。図からわかるように、以後の拍手事象間の平均時間は１０ｍｓを著しく下回る。

この理由のために、拍手及び拍手様信号（例えば、雨滴又はパチパチと音を立てる花火）は、信号の符号化が極めて難しい種類を構成するが、これは多くのライブ録音にとって良く知られていることである。これは、２つ以上のチャンネルの結合符号化に対するパラメータ方法を用いるときにも当てはまる［Ｈｏｔ０８］。

＜過渡信号の符号化に対する従来のアプローチ＞
一組の技術が、符号化／復号信号におけるプレエコー人工物を回避するために提案されている。

・プレエコー制御及びビットリザーバ
１つの方法は、過渡信号部分を最初に覆うフィルタバンクウィンドウのスペクトル係数に対する符号化精度を上げることである（いわゆる「プレエコー制御」、［ＭＰＥＧ１］）。これは、このようなフレームの符号化に対する必要なビット量がかなり増加するため、この方法は一定ビットレート符号器においては適用できない。ビットリザーバを用いることによって、ある程度、ビットレート要求の局所変化を考慮することができる（［Ｂｒａ８７］、［ＭＰＥＧ１］）。この技術によって、平均ビットレートが依然として一定のままで、以前のフレームの符号化の間に取っておいたビットを用いてビットレートにおけるピーク需要を取り扱うことができる。

・適応ウィンドウ切り替え
多くの知覚的オーディオ符号器において用いられる異なる方策は、Ｅｄｌｅｒによって導入された適応ウィンドウ切り替えである［Ｅｄｌ８９］。この技術は、フィルタバンクウィンドウのサイズを入力信号の特徴に適応させる。固定された信号部分を、長いウィンドウ長を用いて符号化する一方で、短いウィンドウを用いて信号の過渡部分を符号化する。このようにして、ピークビット要求をかなり減らすことができる。なぜならば、高符号化精度が要求される領域は時間的に制約されるからである。プレエコーは、変換サイズが短くなることによって暗黙的に継続時間が制限される。

・時間領域ノイズ整形（ＴＮＳ）
時間領域ノイズ整形（ＴＮＳ）を［Ｈｅｒ９６］に導入した。ＴＮＳによって、量子化ノイズの時間整形が、スペクトルドメイン内の時間ブロック上で周波数方向に沿って開ループ予測符号化を適用することによって実現される。

・ゲイン変更（ゲイン制御）
量子化ノイズの時間的広がりを回避する別の方法は、動的ゲイン変更（ゲイン制御プロセス）を信号に、そのスペクトル分解及び符号化を計算する前に適用することである。
このアプローチの原理を図１２に例示する。入力信号のダイナミクスは、その符号化の前に、ゲイン変更（乗法前処理）によって低減される。このようにして、信号中の「ピーク」は符号化の前に減衰される。ゲイン変更のパラメータはビットストリームにおいて伝達される。この情報を用いて、プロセスは復号器サイドで逆になる。すなわち復号後に、別のゲイン変更によって原信号ダイナミクスが復元される。

［Ｌｉｎ９３］では、知覚的オーディオ符号器への追加としてゲイン制御を提案した。ここでは、ゲイン変更は、時間ドメイン信号上で（したがって、信号スペクトル全体に対して）行う。

周波数依存性のゲイン変更／制御が、多くの状況において以前に用いられている。

＜フィルタベースのゲイン制御＞：彼の論文［Ｖａｕ９１］では、Ｖａｕｐｅｌは、全帯域ゲイン制御がうまく機能しないことに注目している。周波数依存性ゲイン制御を実現するために、そのゲイン特徴において動的に制御することができる圧縮拡張器フィルタ対を提案している。この方式を示す図１３ａ及び１３ｂに示す。

フィルタの周波数応答の変動を図１３ｂに示す。

＜ハイブリッドフィルタバンクを伴うゲイン制御＞（図１４に例示）：ＭＰＥＧ−２先進的音響符号化［Ｂｏｓ９６］方式のＳＳＲプロファイルにおいて、ゲイン制御がハイブリッドフィルタバンク構造内で用いられている。第１のフィルタバンクステージ（ＰＱＦ）で、入力信号を等幅の４つの帯域に分割する。次に、ゲイン検出器及びゲイン変更器によってゲイン制御符号器処理を実行する。最後に、第２ステージとして、サイズを縮めた（１０２４の代わりに２５６の）４つの別個のＭＤＣＴフィルタバンクによって、結果として生じる信号を更に分割して、以後の符号化で用いるスペクトル成分を生成する。

・誘導エンベロープ整形（ＧＥＳ）は、チャンネル個別の時間エンベロープパラメータを伝達して復号器サイド上で時間エンベロープを復元するＭＰＥＧサラウンドに含まれるツールである。なお、ＨＲＥＰ処理とは反対に、ダウンミックス上での後方互換性を維持するために、符号器サイドではエンベロープ平坦化はない。エンベロープ整形を実行する働きをするＭＰＥＧサラウンドにおける別のツールは、サブ帯域時間的処理（ＳＴＰ）である。ここで、低次ＬＰＣフィルタを、オーディオ信号のＱＭＦフィルタバンク表現内で適用する。
関連する従来技術は、特許公報ＷＯ２００６／０４５３７３Ａ１、ＷＯ２００６／０４５３７１Ａ１、ＷＯ２００７／０４２１０８Ａ１、ＷＯ２００６／１０８５４３Ａ１、又はＷＯ２００７／１１０１０１Ａ１において記録に残っている。

＜参考文献＞
[Bos96]:M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,Oikawa:"MPEG-2 Advanced Audio Coding",101st
AES Convention,Los Angeles 1996
[Bra87]:K.Brandenburg:"OCF-A New Coding Algorithm for High Quality Soun
d Signals",Proc.IEEEICASSP,1987
[Joh92b]:J.D.Johnston,K.Brandenburg:"Wideband Coding Perceptual Consi
derations for Speech and Music",in S.Furui and M.M.Sondhi,editors:"Ad
vances in Speech Signal Processing",Marcel Dekker,New York,1992
[Edl89]:B.Edler:「Codierung von Audiosignalen mit uberlappender Transformation und adaptiven Fensterfunktionen」、Frequenz,Vol.43,pp.252~256,1989
[Her96]:J.Herre,J.D.Johnston:"Enhancing the Performance of Perceptual
Audio Coders by Using Temporal Noise Shaping(TNS)",101st AES Conventio
n,Los Angeles 1996,Preprint 4384
[Hot08]:Gerard Hotho,Steven van de Par,and Jeroen Breebaart:"Multichann
el coding of applause signals",EURASIP Journal of Advances in Signal P
rocessing,Hindawi,January 2008,doi:10.1155/2008/531693
[Lin93]:M.Link:"An Attack Processing of Audio Signals for Optimizing the Temporal Characteristics of a Low Bit-Rate Audio Coding System",95th AES convention,New York 1993,Preprint 3696
[MPEG1]:ISO/IEC JTC1/SC29/WG11 MPEG,International Standard ISO 11172-3"Coding of moving pictures and associated audio for digital storage media at up to about 1.5Mbit/s"
[Vau91]:T.Vaupel:「Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der'Time Domain Aliasing Cancellation(TDAC)'und einer Signalkompandierung im Zeitbereich」,PhD Thesis,Universitat-Gesamthochschule Duisburg,Germany,1991

ビットリザーバは、知覚符号器におけるビットレートに対するピーク需要を取り扱うことを助けることができ、その結果、過渡信号の知覚品質が向上する。しかし実際には、ビットリザーバのサイズは、非常に過渡的性質の入力信号を更なる予防策を取らずに符号化するときに人工物を回避するために、非現実的なほど大きくせざるを得ない。

適応ウィンドウ切り替えがあれば、過渡事象を短い変換ブロック内に閉じ込めることを通して、信号の過渡部分及び減少したプレエコーのビット需要が制限される。適応ウィンドウ切り替えの制限が、その待ち時間及び繰り返し時間によって与えられる。２つの短いブロックシーケンス間の最速の可能なターンアラウンドサイクルは、少なくとも３つのブロックが必要であり（「短い」→「停止する」→「開始する」→「短い」、５１２〜１０２４のサンプルの典型的なブロックサイズに対して約３０．０〜６０．０ｍｓ）、これは、拍手を含むあるタイプの入力信号にとっては長すぎる。結果として、拍手様信号に対する量子化ノイズの時間的広がりは、短いウィンドウ寸法を永続的に選択することによってのみ回避でき、これは通常、符号器の情報源符号化効率の減少につながる。

ＴＮＳは、符号器における時間平坦化と復号器における時間整形とを実行する。原理的には、任意の高時間分解能が可能である。しかし実際には、性能は、符号器フィルタバンクの時間的エイリアシングによって制限される（典型的にＭＤＣＴ、すなわち５０％重複の重複ブロック変換）。その結果、整形された符号化ノイズはまた、合成フィルタバンクの出力において鏡映しの仕方で現れる。

広帯域ゲイン制御技術はスペクトル分解能が無いという欠点を持つ。しかし、多くの信号に対して良好に機能するためには、ゲイン変更処理がオーディオスペクトルの異なる部分において独立に適用できることが重要である。なぜならば、過渡事象はスペクトルの一部でのみ支配的であることが多いからである（実際には、符号化が難しい事象は、スペクトルの高周波部分においてほとんど常に存在する）。事実上、入力信号の動的な乗法的変更を、符号器におけるそのスペクトル分解の前に適用することは、フィルタバンクの分析ウィンドウの動的変更と同等である。ゲイン変更関数の形状に応じて、分析フィルタの周波数応答は合成ウィンドウ関数により変更される。しかし、フィルタバンクの低周波フィルタチャンネルの周波数応答を広くすることは望ましくない。なぜならば、これによってクリティカルな帯域幅スケールに対する不一致が増すからである。

ハイブリッドフィルタバンクを用いるゲイン制御には計算の複雑性が増えるという欠点がある。なぜならば、第１のステージのフィルタバンクは、第２のフィルタバンクステージによる後の分割の後にエイリアシング歪みが生じることを回避するために、相当な選択性を実現する必要があるからである。また、ゲイン制御帯域間のクロスオーバー周波数は、ナイキスト（Ｎｙｑｕｉｓｔ）周波数の４分の１に固定され、すなわち４８ｋＨｚのサンプリングレートに対して６、１２、及び１８ｋＨｚである。ほとんどの信号に対して、６ｋＨｚにおける第１のクロスオーバーは、優れた性能を得るには高すぎる。

セミパラメトリック多チャンネル符号化解決法（例えば、ＭＰＥＧサラウンド（ＳＴＰ、ＧＥＳ））に含まれるエンベロープ整形技術が、過渡事象の知覚品質を、出力信号又はその一部を復号器内で時間的に再整形することを通して向上させることが知られている。しかしこれらの技術は、符号器の前に時間平坦化を実行しない。したがって、過渡信号は依然として、その当初の短時間ダイナミクスを伴って符号器に入り、符号器ビット配分に対して高ビットレート要求を課す。

本発明の目的は、オーディオ前処理、オーディオ後処理、又はオーディオ符号化、若しくは他方ではオーディオ復号の改善された考え方を提供することである。

この目的は、請求項１に記載のオーディオポストプロセッサ、請求項３２に記載のオーディオプレプロセッサ、請求項５３に記載のオーディオ符号化装置、請求項５５に記載のオーディオ復号装置、請求項５７に記載の後処理する方法、請求項５８に記載の前処理する方法、請求項５９に記載の符号化するする方法、請求項６０に記載のオーディオ復号する方法、又は請求項６１に記載のコンピュータプログラムによって達成される。

本発明の第１の態様は、時変（ｔｉｍｅ−ｖａｒｉａｂｌｅ）高周波ゲイン情報をサイド情報として有するオーディオ信号を後処理するためのオーディオポストプロセッサであって、オーディオ信号の高周波帯域とオーディオ信号の低周波帯域とを抽出するための帯域抽出部と、時変高周波ゲイン情報に従って高帯域の時変変更を行って処理済高周波帯域を取得するための高帯域プロセッサと、処理済高周波帯域と低周波帯域とを結合するための結合器と、を含むオーディオポストプロセッサである。

本発明の第２の態様は、オーディオ信号を前処理するためのオーディオプレプロセッサであって、オーディオ信号を分析して時変高周波ゲイン情報を決定するための信号分析器と、オーディオ信号の高周波帯域とオーディオ信号の低周波帯域とを抽出するための帯域抽出部と、時変高周波ゲイン情報に従って高帯域の時変変更を行って処理済高周波帯域を取得するための高帯域プロセッサと、処理済高周波帯域と低周波帯域とを結合して前処理済オーディオ信号を取得するための結合器と、前処理済オーディオ信号と時変高周波ゲイン情報とをサイド情報として含む出力信号を生成するための出力インターフェースと、を含むオーディオプレプロセッサである。

本発明の第３の態様は、オーディオ信号を符号化するためのオーディオ符号化装置であって、第１の態様のオーディオプレプロセッサであって、時変高周波ゲイン情報をサイド情報として有する出力信号を生成するように構成されたオーディオプレプロセッサと、コア符号化信号とコアサイド情報とを生成するためのコア符号器と、コア符号化信号、コアサイド情報、及び時変高周波ゲイン情報を更なるサイド情報として含む符号化信号を生成するための出力インターフェースと、を含むオーディオ符号化装置である。

本発明の第４の態様はオーディオ復号装置であって、コア符号化信号、コアサイド情報、及び時変高周波ゲイン情報を更なるサイド情報として含む符号化オーディオ信号を受け取るための入力インターフェースと、コアサイド情報を用いてコア符号化信号を復号して復号化コア信号を取得するためのコア復号器と、前述の第２の態様による時変高周波ゲイン情報を用いて復号化コア信号を後処理するためのポストプロセッサと、を含むオーディオ復号装置である。

本発明の第５の態様は、時変高周波ゲイン情報をサイド情報として有するオーディオ信号を後処理する方法であって、オーディオ信号の高周波帯域とオーディオ信号の低周波帯域とを抽出することと、時変高周波ゲイン情報に従って高帯域の時変変更を行って処理済高周波帯域を取得することと、処理済高周波帯域と低周波帯域とを結合することと、を含む方法である。

本発明の第６の態様は、オーディオ信号を前処理する方法であって、オーディオ信号を分析して時変高周波ゲイン情報を決定することと、オーディオ信号の高周波帯域とオーディオ信号の低周波帯域とを抽出することと、時変高周波ゲイン情報に従って高帯域の時変変更を行って処理済高周波帯域を取得することと、処理済高周波帯域と低周波帯域とを結合して前処理済オーディオ信号を取得することと、前処理済オーディオ信号と時変高周波ゲイン情報とをサイド情報として含む出力信号を生成することと、を含む方法である。

本発明の第７の態様は、オーディオ信号を符号化する方法であって、時変高周波ゲイン情報をサイド情報として有する出力信号を生成するように構成された第６の態様に記載のオーディオ前処理する方法と、コア符号化信号とコアサイド情報とを生成することと、コア符号化信号、コアサイド情報、及び時変高周波ゲイン情報を更なるサイド情報として含む符号化信号を生成することと、を含む方法である。

本発明の第８の態様は、オーディオ復号する方法であって、コア符号化信号、コアサイド情報、及び時変高周波ゲイン情報を更なるサイド情報として含む符号化オーディオ信号を受け取ることと、コアサイド情報を用いてコア符号化信号を復号して復号化コア信号を取得することと、第５の態様による時変高周波ゲイン情報を用いて復号化コア信号を後処理することと、を含む方法。

本発明の第９の態様は、コンピュータ又はプロセッサ上で実行されたときに、前述の第５、第６、第７、又は第８の態様による方法のうちのいずれか１つを行うためのコンピュータプログラム又はコンピュータプログラムが記憶された非一時的な記憶媒体に関する。

本発明によって、高帯域に対する時変高周波ゲイン情報を伴うある種類の信号（例えば過渡信号）を選択的に符号化するための帯域選択型高周波処理（例えば、プレプロセッサにおける選択的減衰又はポストプロセッサにおける選択的増幅）が提供される。したがって、前処理済信号は、簡単な時変高周波ゲイン情報の形態の更なるサイド情報と信号自体とを有する信号であるため、ある種類の信号（例えば過渡信号）は、前処理済信号内ではもはや生じないか、より小さい程度で生じるのみである。オーディオ後処理では、原信号形状の回復は、サイド情報としてオーディオ信号に付随する時変高周波ゲイン情報に従って高周波帯域の時変の乗算を行って、最終的に、すなわち前処理、符号化、復号、及び後処理からなるチェーンの後に、聴取者が、内部のコア符号器／コア復号器ブロックを介して、原信号に対する実質的な違いを知覚しないように、特に過渡的性質が減少した信号を知覚しないようにすることによって行う。過渡が減少した信号を処理する位置によって、符号器処理に対して、一方で必要なビット量が減り他方で音響品質が向上する。なぜならば、符号化が難しい種類の信号が、符号器が実際にそのタスクを開始する前に信号から除去されたからである。しかし、符号化が難しい信号部分をこのように除去しても音響品質の低下にはつながらない。なぜならば、これらの信号部分は、復号器動作後のオーディオ後処理によって再構成されるからである。

好ましい実施形態では、プレプロセッサはまた平均のバックグラウンドレベルよりもわずかに静穏な部分を増幅し、ポストプロセッサはそれらを減衰させる。この更なる処理は、個々の強力なアタック及び連続する過渡事象間の部分の両方に対して潜在的に有用である。

続いて、好ましい実施形態の特定の優位点について概説する。

ＨＲＥＰ（高分解能エンベロープ処理）は、主に多くの高密度な過渡事象（例えば、拍手、雨滴音など）からなる信号の符号化を改善するためのツールである。符号器サイドにおいて、ツールは、実際の知覚オーディオ符号復号器の前の高時間分解能を伴うプレプロセッサとして機能することを、入力信号を分析し、過渡事象の高周波部分を減衰させてしたがって時間的に平坦化し、少しのサイド情報（ステレオ信号に対して１〜４ｋｂｐｓ）を生成することによって行う。復号器サイドにおいて、このツールは、オーディオ符号復号器の後のポストプロセッサとして機能することを、過渡事象の高周波部分を高めてしたがって時間整形して、符号化の間に生成されたサイド情報を用いることによって行う。ＨＲＥＰを適用する効果は二重である。ＨＲＥＰは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、ＨＲＥＰは、復号器の（アップ）ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。

更に本発明が優位であるのは、拍手様信号に対する符号化性能を、適切な信号処理方法を例えば一方で前処理又は他方で後処理で用いることによって高めるという点である。

本発明の更なる優位点は、本発明の高分解能エンベロープ処理（ＨＲＥＰ）（すなわち、オーディオ前処理又はオーディオ後処理）によって、従来技術の問題が、符号器前の事前平坦化又は復号器後の対応する逆平坦化を行うことによって解決されることである。

続いて、ＨＲＥＰ信号処理に関する本発明の実施形態の特徴及び新規特徴をまとめ、固有の優位点について説明する。

単に２つの周波数帯域におけるＨＲＥＰプロセスオーディオ信号をフィルタによって分割する。この結果、処理が単純になり計算及び構造の複雑さが低くなる。高帯域のみが処理され、低帯域は変更されないように通過する。

これらの周波数帯域は、第１の帯域を計算するための入力信号のローパスフィルタリングによって得られる。ハイパス（第２の）帯域は単純に、入力信号からのローパス成分を減算することによって得られる。このように、２つではなく１つのフィルタのみを明示的に計算すればよく、したがって複雑さが低減する。代替的に、ハイパスフィルタリングされた信号を明示的に計算することができ、ローパス成分を入力信号とハイパス信号との間の差として得ることができる。

複雑さが低いポストプロセッサ実施態様をサポートするために、以下の制限が可能である。
・アクティブなＨＲＥＰチャンネル／オブジェクトの制限
・非自明な最大伝達ゲイン係数ｇ（ｋ）に対する制限（０ｄＢの自明なゲイン係数であれば、付随するＤＦＴ／ｉＤＦＴ対に対する必要性が軽減される）
・効率的な分割基数２スパーストポロジにおけるＤＦＴ／ｉＤＦＴの計算

一実施形態では、符号器か又はコア符号器に付随するオーディオプレプロセッサが、ＨＲＥＰが同時にアクティブである最大数のチャンネル又はオブジェクトを制限するように構成されているか、又は復号器か若しくはコア復号器に付随するオーディオポストプロセッサが、ＨＲＥＰが同時にアクティブである最大数のチャンネル又はオブジェクトに対する後処理のみを実行するように構成されている。アクティブなチャンネル又はオブジェクトを制限するための好ましい数は１６であり、更にいっそう好ましいのは８である。

更なる実施形態では、ＨＲＥＰ符号器か若しくはコア符号器に付随するオーディオプレプロセッサが、最大値の非自明なゲイン係数に対する出力を制限するように構成されているか、又は復号器か若しくはコア復号器に付随するオーディオポストプロセッサが、値「１」の自明なゲイン係数がＤＦＴ／ｉＤＦＴ対を計算しないが不変の（ウィンドウ処理済）時間ドメイン信号を通過するように構成されている。非自明なゲイン係数を制限するための好ましい数は２４であり、更にいっそう好ましいのは１６である（フレーム及びチャンネル又はオブジェクトあたり）。

更なる実施形態では、ＨＲＥＰ符号器か若しくはコア符号器に付随するオーディオプレプロセッサが、効率的な分割基数２スパーストポロジにおいてＤＦＴ／ｉＤＦＴを計算するように構成されているか、又は復号器か若しくはコア復号器に付随するオーディオポストプロセッサが、効率的な分割基数２スパーストポロジにおいてＤＦＴ／ｉＤＦＴも計算するように構成されている。

ＨＲＥＰローパスフィルタは、スパースＦＦＴアルゴリズムを用いることによって効率的に実施することができる。ここで、Ｎ＝８ポイント時間間引き基数２ＦＦＴトポロジから開始する例を示す、更なる処理に対してＸ（０）とＸ（１）のみが必要である。結果として、Ｅ（２）及びＥ（３）並びにＯ（２）及びＯ（３）は必要ではない。次に、両方のＮ／２−ポイントＤＦＴを更に再分割して、２つのＮ／４−ポイントＤＦＴ＋以後のバタフライにそれぞれすると仮定する。次に、図１５に例示するように、前述の省略を同様に繰り返すことができる。

ハイブリッドフィルタバンク（処理帯域クロスオーバー周波数が、第１のフィルタバンクステージによって指示され、実際にはナイキスト周波数の２のべき乗の部分に結合される）に基づくゲイン制御方式とは対照的に、ＨＲＥＰの分割周波数を自由に調整することが、フィルタに適応することによってできる／できた。この結果、信号特徴及び心理音響的要求に対する最適な適応が可能になる。

ハイブリッドフィルタバンクに基づくゲイン制御方式とは対照的に、第２のフィルタバンクステージ後のエイリアシング問題を回避するために処理帯域を分離する長いフィルタは必要ではない。これは可能である。なぜならば、ＨＲＥＰは、クリティカルサンプリングされたフィルタバンクで動作する必要はないスタンドアローンのプレ／ポストプロセッサだからである。

他のゲイン制御方式とは対照的に、ＨＲＥＰは信号の局所統計量に動的に適応する（入力高周波バックグラウンドエネルギーエンベロープの両側スライディング平均を計算する）。それによって、その当初のサイズのある部分に対する入力信号のダイナミクスが減る（いわゆるアルファ係数）。この結果、この方式の「穏やかな」運用が、オーディオ符号復号器との望ましくないやり取りによって人工物を導入することなく可能になる。

他のゲイン制御方式とは対照的に、ＨＲＥＰは、低ビットレートオーディオ符号復号器によるダイナミクスにおける付加損失を、これを「エネルギーダイナミクスのある部分を失うこと」（いわゆるベータ因子）とモデリングして、この損失を戻すことによって補償することができる。

ＨＲＥＰプレ／ポストプロセッサ対は、量子化がない状態で（すなわち、符号復号器を伴わずに）（ほぼ）完全に再構成する。

これを実現するために、ポストプロセッサは、高周波振幅重み係数に応じて分割フィルタに対して適応勾配を使用し、時間ドメインにおいて補正係数を適用することによって重複Ｔ／Ｆ変換に適用された時間変化のスペクトル重みを戻す際に生じる補間誤差を補正する。

ＨＲＥＰ実施態様は、ＨＲＥＰ処理によってもたらされる知覚効果の強度を適切に制御するいわゆるメタゲイン制御（ＭＧＣ）を含んでいてもよく、また非拍手信号を処理するときに生じる人工物を回避することができる。その結果、ＨＲＥＰの適用を制御するための外部入力信号分類の精度要求が軽減する。

拍手分類結果のＭＧＣ及びＨＲＥＰセッティング上へのマッピング。

ＨＲＥＰは、帯域幅拡大及びパラメータ空間符号化ツールを含むすべての他の符号器構成要素を受け入れるスタンドアローンのプレ／ポストプロセッサである。

ＨＲＥＰによって、高周波時間エンベロープの事前平坦化を通して低ビットレートオーディオ符号器に対する要求が緩和される。事実上、より少ない短いブロックが符号器においてトリガされ、より少ないアクティブなＴＮＳフィルタが必要となる。

ＨＲＥＰはまた、処理済チャンネル間のクロストーク（普通は、制限された時間空間キュー分解能に起因して起こる）を低減することによってパラメータ多チャンネル符号化を改良する。

符号復号器トポロジ：ＴＮＳ／ＴＴＳ、ＩＧＦ及びステレオ充填とのやり取り
ビットストリームフォーマット：ＨＲＥＰ信号送信

好ましい本発明の実施形態を続いて、添付図の文脈で説明する。

実施形態によるオーディオポストプロセッサを例示する図である。図１の帯域抽出部の好ましい実施態様を例示する図である。時変高周波ゲイン情報をサイド情報として有するオーディオ信号の概略図である。帯域抽出部、高帯域プロセッサ、又は結合器による、重複領域を有する重複ブロックとの処理の概略図である。重複加算器を有するオーディオポストプロセッサ例示する図である。図１の帯域抽出部の好ましい実施態様を例示する図である。オーディオポストプロセッサの更なる好ましい実施態様を例示する図である。ＭＰＥＧ−Ｈ３Ｄオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ（ＨＲＥＰ）の好ましい埋め込みを例示する図である。ＭＰＥＧ−Ｈ３Ｄオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ（ＨＲＥＰ）の好ましい埋め込みを例示する図である。ＭＰＥＧ−Ｈ３Ｄオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ（ＨＲＥＰ）の更なる好ましい埋め込みを例示する図である。ＭＰＥＧ−Ｈ３Ｄオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ（ＨＲＥＰ）の更なる好ましい埋め込みを例示する図である。対応する位置情報を含むサイド情報の好ましい実施形態を例示する図である。オーディオポストプロセッサに対するサイド情報復号器と結合されたサイド情報抽出部を例示する図である。好ましい実施形態によるオーディオプレプロセッサを例示する図である。オーディオプレプロセッサによって行われるステップのフローチャートを例示する図である。オーディオプレプロセッサの信号分析器によって行われるステップのフローチャートを例示する図である。オーディオプレプロセッサの信号分析器、高帯域プロセッサ、及び出力インターフェースによって行われる手順のフローチャートを例示する図である。図７のオーディオプレプロセッサによって行われる手順を例示する図である。実施形態によるオーディオプレプロセッサを伴うオーディオ符号化装置を例示する図である。オーディオポストプロセッサを含むオーディオ復号装置を例示する図である。オーディオプレプロセッサの好ましい実施態様を例示する図である。多チャンネル／多オブジェクト機能を伴うオーディオ符号化装置を例示する図である。多チャンネル／多オブジェクト機能を伴うオーディオ復号装置を例示する図である。プレプロセッサ及びポストプロセッサを符号化／復号チェーン内に埋め込む更なる実施態様を例示する図である。ステレオ拍手信号の高周波時間エンベロープを例示する図である。ゲイン変更処理の機能を例示する図である。フィルタベースのゲイン制御処理を例示する図である。図１３ａの対応するフィルタに対する異なるフィルタ機能を例示する図である。ハイブリッドフィルタバンクを伴うゲイン制御を例示する図である。スパースデジタルフーリエ変換実施態様の実施態様を例示する図である。リスニングテストの概略を例示する図である。リスニングテストの概略を例示する図である。１２８ｋｂｐｓ５．１ｃｈテストに対する絶対ＭＵＳＨＲＡスコアを例示する図である。１２８ｋｂｐｓ５．１ｃｈテストに対する異なるＭＵＳＨＲＡスコアを例示する図である。１２８ｋｂｐｓ５．１ｃｈテスト拍手信号に対する絶対ＭＵＳＨＲＡスコアを例示する図である。１２８ｋｂｐｓ５．１ｃｈテスト拍手信号に対する異なるＭＵＳＨＲＡスコアを例示する図である。４８ｋｂｐｓステレオテストに対する絶対ＭＵＳＨＲＡスコアを例示する図である。４８ｋｂｐｓステレオテストに対する異なるＭＵＳＨＲＡスコアを例示する図である。１２８ｋｂｐｓステレオテストに対する絶対ＭＵＳＨＲＡスコアを例示する図である。１２８ｋｂｐｓステレオテストに対する異なるＭＵＳＨＲＡスコアを例示する図である。

図１に例示するのは、時変高周波ゲイン情報１０４をサイド情報１０６（図３ａに例示する）として有するオーディオ信号１０２を後処理するためのオーディオポストプロセッサ１００の好ましい実施形態である。オーディオポストプロセッサは、オーディオ信号１０２の高周波帯域１１２とオーディオ信号１０２の低周波帯域１１４とを抽出するための帯域抽出部１１０を含む。更に、この実施形態によるオーディオポストプロセッサは、時変高周波ゲイン情報１０４に従って高周波帯域１１２の時変変更を行って処理済高周波帯域１２２を取得するための高帯域プロセッサ１２０を含んでいる。更に、オーディオポストプロセッサは、処理済高周波帯域１２２と低周波帯域１１４とを結合するための結合器１３０を含んでいる。

好ましくは、高帯域プロセッサ１２０は、この特定の帯域に対する時変高周波ゲイン情報に従って高周波帯域の選択的増幅を実行する。これは、当初の高周波帯域を元通りにするか又は再構成するためである。なぜならば、対応する高周波帯域が、オーディオプレプロセッサ（例えば、後に説明する図７のオーディオプレプロセッサ）に入る前に減衰されているからである。

特に、実施形態では、帯域抽出部１１０は、その入力に、サイド情報が付随するオーディオ信号から抽出されたオーディオ信号１０２が与えられる。更に、帯域抽出部の出力が結合器の入力に接続されている。更に、第２の結合器の入力が高帯域プロセッサ１２０の出力に接続されて、処理済高周波帯域１２２を結合器１３０内に送る。更に、帯域抽出部１１０の更なる出力が高帯域プロセッサ１２０の入力に接続されている。更に、高帯域プロセッサは更に、図１に例示するように時変高周波ゲイン情報を受け取るための制御入力を有している。

図２に例示するのは、帯域抽出部１１０の好ましい実施態様である。特に、帯域抽出部１１０はローパスフィルタ１１１を含んでいる。ローパスフィルタ１１１は、その出力において、低周波帯域１１４を供給する。更に、高周波帯域１１２は、オーディオ信号１０２（すなわち、ローパスフィルタ１１１内に入力されたオーディオ信号）から低周波帯域１１４を減算することによって生成される。しかし、減算器１１３は、実際の典型的なサンプル毎の減算の前にある種の前処理を実行することができる。これについては、図４のオーディオ信号ウィンドウ処理部（ウィンドウ処理部）１２１又は図５ａの対応するブロック１２１に対して示す。したがって、帯域抽出部１１０は、図２に例示するように、ローパスフィルタ１１１とその後に接続される減算器１１３とを含んでいてもよい。すなわち、減算器１１３は、入力がローパスフィルタ１１１の出力に接続され、更なる入力がローパスフィルタ１１１の入力に接続されている。

しかしその代わりに、帯域抽出部１１０はまた、ハイパスフィルタを実際に用いることによって、またオーディオ信号からハイパス出力信号又は高周波帯域を減算して低周波帯域を得ることによって、実施することができる。又は、代替的に、帯域抽出部を、何らの減算器も伴うことなく、すなわち、例えば２チャンネルフィルタバンクとしてローパスフィルタとハイパスフィルタとを結合することによって、実施することができる。好ましくは、図１（又は図２）の帯域抽出部１１０を実施して、２つの帯域のみ（すなわち、単一の低周波帯域及び単一の高周波帯域）を抽出するが、これらの帯域は全体としてオーディオ信号の全周波数範囲に及ぶ。

好ましくは、帯域抽出部１１０によって抽出された低周波帯域のカットオフ又はコーナー周波数は、オーディオ信号の最大周波数の１／８〜１／３であり、好ましくはオーディオ信号の最大周波数の１／６に等しい。

図３ａに例示するのは、ブロック３００、３０１、３０２、３０３のシーケンスにおいて有用な情報を有するオーディオ信号１０２の概略図である。説明のために、ブロック３０１をサンプリング値の第１のブロックであると考え、ブロック３０２をオーディオ信号のサンプリング値の第２の後ブロックであると考える。ブロック３００は第１のブロック３０１に時間的に先行し、ブロック３０３はブロック３０２に時間的に続き、第１のブロック３０１と第２のブロック３０２とは互いに時間的に隣接している。更に、図３ａの１０６に例示するように、各ブロックにはサイド情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）１０６が付随している。サイド情報１０６には、第１のブロック３０１に対しては、第１のゲイン情報３１１が含まれ、第２のブロックに対しては、第２のゲイン情報３１２が含まれている。

図３ｂに例示するのは、重複ブロックにおける帯域抽出部１１０（及び高帯域プロセッサ１２０及び結合器１３０）の処理である。したがって、第１のブロック３０１を計算するために用いられるウィンドウ３１３は、第２のブロック３０２を抽出するために用いられるウィンドウ３１４と重複しており、両方のウィンドウ３１３及び３１４は、重複範囲３２１内で重複している。

図３ａ及び３ｂにおける尺度によって、各ブロックの長さがウィンドウの長さのサイズの半分であるということが大まかに分かるが、状況が異なっている可能性もある。すなわち、各ブロックの長さが、対応するブロックをウィンドウ処理するために用いられるウィンドウと同じサイズということである。実際に、これは、図４（又は、特にポストプロセッサに対する図５ａ若しくはプレプロセッサに対する図９ｃ）に例示するこれらの以後の好ましい実施形態に対して好ましい実施態様である。

次に、重複範囲３２１の長さは、サンプリング値のブロックの半分サイズ又は長さに対応するウィンドウの半分サイズである。

特に、時変高周波ゲイン情報は、オーディオ信号１０２のサンプリング値のブロックのシーケンス３００〜３０３に対して設けられていて、サンプリング値の第１のブロック３０１に第１のゲイン情報３１１が付随し、オーディオ信号のサンプリング値の第２の後ブロック３０２が異なる第２のゲイン情報３１２を有するようになっており、帯域抽出部１１０は、サンプリング値の第１のブロック３０１から第１の低周波帯域と第１の高周波帯域とを抽出し、サンプリング値の第２のブロック３０２から第２の低周波帯域と第２の高周波帯域とを抽出するように構成されている。更に、高帯域プロセッサ１２０は、第１のゲイン情報３１１を用いて第１の高周波帯域を変更して第１の処理済高周波帯域を取得し、第２のゲイン情報３１２を用いて第２の高周波帯域を変更して第２の処理済高周波帯域を取得するように構成されている。更に、結合器１３０は次に、第１の低周波帯域と第１の処理済高周波帯域とを結合して第１の結合ブロックを取得し、第２の低周波帯域と第２の処理済高周波帯域とを結合して第２の結合ブロックを取得するように構成されている。

図３ｃに例示するように、帯域抽出部１１０、高帯域プロセッサ１２０、及び結合器１３０は、図３ｂに例示した重複ブロックで動作するように構成されている。更に、オーディオポストプロセッサ１００は更に、ブロック重複範囲３２１において第１のブロックのオーディオサンプル３０１と第２のブロックのオーディオサンプル３０２とを加算することによって後処理部分を計算するための重複加算器１４０を含んでいる。好ましくは、重複加算器１４０は、減少又はフェードアウト関数を用いて第１のブロックの後半のオーディオサンプルを重み付けするように、及びフェードイン又は増加関数を用いて第１のブロックの後の第２のブロックの前半を重み付けするように、構成されている。フェードアウト関数及びフェードイン関数は、フェードイン関数に対しては単調増加していて、フェードアウト関数に対しては単調に減少している線形又は非線形関数とすることができる。

重複加算器１４０の出力において、後処理済オーディオ信号（例えば、図３ａに例示したもの）のサンプルのシーケンスが存在するが、ここでは何らのサイド情報もない。なぜならば、サイド情報はオーディオポストプロセッサ１００によって「消費されて」いるからである。

図４に例示するのは、図１に例示したオーディオポストプロセッサの帯域抽出部１１０（又は、代替的に、図７のオーディオプレプロセッサ２００の帯域抽出部２１０）の好ましい実施形態である。図１の帯域抽出部１１０又は図７の帯域抽出部２１０は両方とも、図４に例示したように、又はポストプロセッサに対する図５ａ若しくはプレプロセッサに対する図９ｃに例示するように同じ方法で実施することができる。一実施形態では、オーディオポストプロセッサは、帯域抽出部であって、ある特徴として、分析ウィンドウを用いてオーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部１１５を有する帯域抽出部を含んでおり、ブロックは、図３ｂに例示するように、重複範囲３２１によって時間重複している。更に、帯域抽出部１１０は、スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換を行うためのＤＦＴプロセッサ１１６を含んでいる。その結果、サンプリング値の各個別のブロックが、スペクトル値のブロックであるスペクトルの表現に変換される。したがって、スペクトル値の同じ数のブロックが、まるでサンプリング値のブロックであるかのように生成される。

ＤＦＴプロセッサ１１６の出力は、ローパス整形器１１７の入力に接続されている。ローパス整形器１１７は実際にローパスフィルタリング動作を実行し、ローパス整形器１１７の出力は、ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するためのＤＦＴ逆プロセッサ１１８に接続されている。最後に、合成ウィンドウ処理部１１９がＤＦＴ逆プロセッサの出力に、合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックのシーケンスをウィンドウ処理するために、設けられている。合成ウィンドウ処理部１１９の出力は時間ドメインローパス信号である。その結果、ブロック１１５〜１１９は図２の「ローパスフィルタ」ブロック１１１に対応し、ブロック１２１及び１１３は図２の「減算器」１１３に対応する。そのため、図４に例示した実施形態では、帯域抽出部は更に、分析ウィンドウと合成ウィンドウとを用いてオーディオ信号１０２をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部１２１を含んでいる。特に、オーディオ信号ウィンドウ処理部１２１は分析ウィンドウ処理部１１５及び／又は合成ウィンドウ処理部１１９と同期しているため、合成ウィンドウ処理部１１９によって出力されるローパス時間ドメインサンプリング値のブロックのシーケンスは、ブロック１２１によって出力されるオーディオ信号値のウィンドウ処理済ブロックのシーケンスと時間同期している。これは全帯域信号である。

しかし、全帯域信号をここでは、オーディオ信号ウィンドウ処理部１２１を用いてウィンドウ処理し、したがって、サンプル毎の減算を図４のサンプル毎の減算器１１３によって行って、最終的にハイパス信号を取得する。その結果、ハイパス信号が、更にブロックのシーケンスにおいて利用可能である。なぜならば、サンプル毎の減算１１３が各ブロックに対して行われたからである。

更に、高帯域プロセッサ１２０は、変更を、図３ｃのブロック１１０によって生成されたハイパス時間ドメインサンプリング値のブロックのシーケンスの各ブロックの各サンプルに適用するように構成されている。好ましくは、ブロックのサンプルに対する変更は、再び前ブロックの情報に、及び再び現在のブロックの情報に、又はその代わりに若しくはそれに加えて再び現在のブロックの情報に、及び再び次のブロックの情報に依存する。特に、好ましくは、変更は図５ａの乗算器１２５によって行い、変更の前に補間補正ブロック１２４を行う。図５ａに例示するように、補間補正を現在のブロックに続く次のブロックの先行するゲイン値ｇ［ｋ−１］、ｇ［ｋ］、及び再び係数ｇ［ｋ＋１］の間で行う。

更に、述べたように、乗算器１２５はゲイン補償ブロック１２６によって制御され、ゲイン補償ブロック１２６は、一方でベータ因子（ｂｅｔａ＿ｆａｃｔｏｒ）５００によって他方でゲイン係数ｇ［ｋ］１０４（現在のブロックに対する）によって制御される。特に、ｂｅｔａ＿ｆａｃｔｏｒを用いて、乗算器１２５によって適用される実際の変更（１／ｇｃ［ｋ］として示す）を、現在のブロックに付随しているゲイン係数ｇ［ｋ］から計算する。

その結果、ベータ因子によって過渡事象の更なる減衰が記述され、過渡事象はこのベータ因子によってほぼモデル化される。ここで、この過渡事象の更なる減衰は、図５ａに例示したポストプロセッサの前に動作する符号器又は復号器のいずれかの副次的効果である。

前処理及び後処理は、入力信号をローパス（ＬＰ）部分とハイパス（ＨＰ）部分とに分割することによって適用される。これは以下のようにして行うことができる。ａ）ＦＦＴを用いてＬＰ部分又はＨＰ部分を計算するか、ｂ）ゼロ位相ＦＩＲフィルタを用いてＬＰ部分又はＨＰ部分を計算するか、又はｃ）両方向に適用される（ゼロ位相が達成される）ＩＩＲフィルタを用いて、ＬＰ部分又はＨＰ部分を計算する。ＬＰ部分又はＨＰ部分が与えられたら、他方の部分を時間ドメインにおける単純な減算によって得ることができる。時間依存性のスカラゲインをＨＰ部分に適用する。そして、これをＬＰ部分に加え戻して、前処理済又は後処理済出力を形成する。

○信号をＬＰ部分及びＨＰ部分にＦＦＴを用いて分割する（図５ａ、９ｃ）
提案した実施態様では、ＦＦＴを用いてＬＰ部分を計算する。ＦＦＴ変換サイズをＮ、詳細にはＮ＝１２８にする。入力信号ｓを、サイズＮのブロック（半分重複している）に分割して、入力ブロック
を生成する。ここで、ｋはブロックインデックスであり、ｉはブロックｋ内のサンプル位置である。ウィンドウｗ［ｉ］はｉｂ［ｋ］、詳細には正弦ウィンドウに適用される（１１５、２１５）。正弦ウィンドウは以下のように規定される。
またＦＦＴ（１１６、２１６）を適用した後にも、複素係数ｃ［ｋ］［ｆ］が以下のように得られる。
符号器サイド（図９ｃ）（２１７ａ）では、ＬＰ部分を取得するために、ｃ［ｋ］［ｆ］が要素毎に処理形状ｐｓ［ｆ］と乗算（２１７ａ）される。処理形状（ｐｒｏｃｅｓｓｉｎｇｓｈａｐｅ）は以下からなる。
ｌｐ＿ｓｉｚｅ＝ｌａｓｔＦＦＴＬｉｎｅ［ｓｉｇ］＋１−ｔｒａｎｓｉｔｉｏｎＷｉｄｔｈＬｉｎｅｓ［ｓｉｇ］パラメータは、ローパス領域のＦＦＴラインにおける幅を表し、ｔｒ＿ｓｉｚｅ＝ｔｒａｎｓｉｔｉｏｎＷｉｄｔｈＬｉｎｅｓ［ｓｉｇ］パラメータは、遷移領域のＦＦＴラインにおける幅を表す。提案した処理形状の形状は直線であるが、どんな任意形状も用いることができる。

ＬＰブロックｌｐｂ［ｋ］は、ＩＦＦＴ（２１８）の適用及びウィンドウ処理（２１９）を再び行うことによって、以下のように得られる。
前述の方程式は図９ｃの符号器／プレプロセッサに対して有効である。復号器又はポストプロセッサ、適応的処理形状ｒｓ［ｆ］をｐｓ［ｆ］の代わりに用いる。
ＨＰブロックｈｐｂ［ｋ］を次に、時間ドメインにおける単純な減算（１１３、２１３）によって、以下のように得る。
出力ブロックｏｂ［ｋ］は、スカラゲインｇ［ｋ］を（２２５）（２３０）のようなＨＰブロックに適用することによって、以下のように得られる。
出力ブロックｏｂ［ｋ］を最終的に、重複加算を用いて、以前の出力ブロックｏｂ［ｋ−１］と結合して、Ｎ／２の更なる最終サンプルを、前処理済出力信号ｏに対して、以下のように形成する。
すべての処理は各入力チャネルに対して別個に行われる。これは、ｓｉｇによってインデックス付けされる。

○後処理サイドでの適応的再構成形状（図５ａ）
復号器サイドにおいて、遷移領域において完全な再構成を得るために、遷移領域における適応的再構成形状ｒｓ［ｆ］（１１７ｂ）を、符号器サイドで用いる処理形状ｐｓ［ｆ］（２１７ｂ）の代わりに用いなければならず、これは処理形状ｐｓ［ｆ］及びｇ［ｋ］に以下のように依存する。
ＬＰ領域では、ｐｓ［ｆ］及びｒｓ［ｆ］は両方とも１であり、ＨＰ領域では、ｐｓ［ｆ］及びｒｓ［ｆ］は両方ともゼロであり、それらは遷移領域でのみ異なっている。また、ｇ［ｋ］＝１のときは、ｒｓ［ｆ］＝ｐｓ［ｆ］となる。

適応的再構成形状を、遷移領域におけるＦＦＴラインの絶対値（ｍａｇｎｉｔｕｄｅ）を後処理後に復元することを確実にすることによって差し引くことができる。これによって以下の関係が与えられる。
処理は前処理サイドと同様である。但し、ｒｓ［ｆ］がｐｓ［ｆ］の代わりに、以下のように用いる。
また、出力ブロックｏｂ［ｋ］［ｉ］は、スカラゲインｇ［ｋ］の逆を用いて、（１２５）のように計算する。

○後処理サイドでの補間補正（１２４）（図５ａ）
最終の前処理済出力に対する出力ブロックｋ寄与の前半は、
によって与えられ、
である。したがって、前処理サイドで適用されたゲインｇ［ｋ−１］及びｇ［ｋ］は、ウィンドウ処理及び重複加算操作によって暗黙的に補間される。ＨＰ領域における各ＦＦＴラインの絶対値には、時間ドメインにおいてスカラ係数
が効果的に乗じられる。

同様に、後処理サイドにおいて、ＨＰ領域における各ＦＦＴラインの絶対値を、時間ドメインにおいて以下の係数と効果的に乗じる。

完全な再構成を実現するために、上述した２つの項の積、
（ＨＰ領域内の各ＦＦＴラインに対する位置ｊにおける全体時間ドメインゲインを表す）が、出力ブロックｋの前半において以下のように規格化しなければならない。
ｃｏｒｒ［ｊ］の値を、以下のように単純化して書き換えることができる。

最終の前処理済出力に対する出力ブロックｋ寄与の後半を、
によって与え、補間補正を、ゲインｇ［ｋ］及びｇ［ｋ＋１］に基づいて以下のように書くことができる。
出力ブロックｋの後半に対する更新値が、以下によって与えられる。

○前処理サイドでのゲイン計算（図９ｃ）
前処理サイドにおいて、ブロックｋのＨＰ部分（過渡事象を含むと仮定する）を、スカラゲインｇ［ｋ］を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックｋのＨＰ部分のエネルギーをｈｐ＿ｅ［ｋ］によって示し、ブロックｋの近辺のＨＰバックグラウンドの平均エネルギーをｈｐ＿ｂｇ＿ｅ［ｋ］によって示す。

調整量を制御するパラメータα∈［０，１］を以下のように規定する。
ｇ_float［ｋ］の値を量子化して、拡張ゲイン範囲（ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ）構成選択肢の選択値によって許容される範囲に対してクリップして、ゲインインデックスｇａｉｎＩｄｘ［ｋ］［ｓｉｇ］を以下のように生成する。

処理のために用いる値g[k]が量子化値であり、復号器サイドにおいて以下のように規定される。

αが０のときは、ゲインは値ｇ_float［ｋ］＝１を有しており、したがって調整は行わず、αが１のときは、ゲインは値ｇ_float［ｋ］＝ｈｐ＿ｂｇ＿ｅ［ｋ］／ｈｐ＿ｅ［ｋ］を有しており、したがってバックグラウンドの平均エネルギーと一致するように、調整されたエネルギーを形成する。前述の関係を以下のように書き換えることができる。
これが表しているのは、バックグラウンドｈｐ＿ｂｇ＿ｅ［ｋ］の対応する平均エネルギーの周りでの調整されたエネルギーｇ_float［ｋ］×ｈｐ＿ｅ［ｋ］の変動が、係数（１−α）によって低減されるということである。提案するシステムでは、α＝０．７５を用いているため、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのＨＰエネルギーの変動は、当初の２５％まで低減される。

○後処理サイドでのゲイン補償（１２６）（図５ａ）
コア符号器及び復号器によって、過渡事象の更なる減衰が導入される。この減衰は、追加の減衰ステップを導入することによって、パラメータβ∈［０，１］を用いて、コア符号器構成とフレームの信号特徴とに応じて、以下のようにほぼモデリングされる。
これが表しているのは、コア符号器及び復号器を通過した後に、バックグラウンドｈｐ＿ｂｇ＿ｅ［ｋ］の対応する平均エネルギーの周りでの復号化エネルギーｇｃ_float［ｋ］×ｈｐ＿ｅ［ｋ］の変動が、更なる係数（１−β）によって更に低減されるということである。

単にｇ［ｋ］、α及びβを用いて、ｇｃ［ｋ］の推定を復号器サイドにおいて、以下のように計算することができる。
をｂｅｔａＦａｃｔｏｒＩｄｘ［ｓｉｇ］に対して量子化して、各フレームに対するサイド情報として伝達する。補償されたゲインｇｃ［ｋ］を、ベータ因子（ｂｅｔａ＿ｆａｃｔｏｒ）を用いて、以下のように計算することができる。

○メタゲイン制御（ＭＧＣ）
ライブコンサートなどの拍手信号には通常、拍手音の音だけでなく、群衆の叫び、口笛、及び観客の足の踏みならしも含まれている。多くの場合に、アーチストは、拍手又は長く続く拍手と重複する機器（を扱う）音の間にお知らせを伝える。ここで、時間エンベロープ整形（例えば、ＳＴＰ又はＧＥＳ）の既存の方法はこれらの非拍手成分を、干渉音のまさにその瞬間にアクティブにされると損なう場合がある。したがって、信号分類器によってこのような信号の間に非アクティブ化を保証する。ＨＲＥＰはいわゆるメタゲイン制御（ＭＧＣ）の特徴を示す。ＭＧＣを用いてＨＲＥＰ処理の知覚効果を適切に緩和して、非常に正確な入力信号分類の必要性を回避する。ＭＧＣを用いれば、すべての種類の雰囲気及び干渉音とミックスした拍手を、不要な人為的なものを導入することなく取り扱うことができる。

前述したように、好ましい実施形態は更に、制御パラメータ８０７又は代替的に制御パラメータベータ因子（図５ａの５００に示す）を有している。その代わりに、又はそれに加えて、前述した個々の係数アルファ又はベータを、更なるサイド情報として伝達することができるが、一方でベータ及び他方でアルファからなる単一の制御パラメータベータ因子を有することが好ましい。ここで、ベータはパラメータ０〜１であり、コア符号器構成に、任意的に信号特徴に依存し、更に、係数アルファは、各ブロックの高周波部分エネルギーの、バックグラウンドの対応する平均エネルギーの周りでの変動を決定し、アルファもパラメータ０〜１である。１フレーム内の過渡事象の数が非常に小さいと（例えば、１〜２）、ＴＮＳはそれらを潜在的により良好に保つことができ、その結果、フレームに対して符号器及び復号器を通る更なる減衰が低減される場合がある。したがって、高性能な符号器は、ベータ因子を相応にわずかに減らして過増幅を防止することができる。

言い換えれば、ＭＧＣは現時点で、計算されたゲインｇ（ここではｇ＿ｆｌｏａｔ［ｋ］と示す）を、確率様パラメータ（ｐｒｏｂａｂｉｌｉｔｙ−ｌｉｋｅｐａｒａｍｅｔｅｒ）ｐを用いて変更する（例えば、ｇ’＝ｇ１＾ｐ）。これによって、ゲインが１の方へ、それらが量子化される前にスクイーズされる。ベータ因子パラメータは、量子化ゲインの拡張を制御するための更なるメカニズムであるが、本実施態様では、コア符号器構成に基づいて固定値を用いる（例えばビットレート）。

ベータ因子はβＸ（１−α）／αによって決定され、好ましくは符号器サイド上で計算されて量子化される。量子化されたベータ因子インデックスｂｅｔａＦａｃｔｏｒＩｄｘは、時変高周波ゲイン情報ｇ［ｋ］に加えてフレーム毎に１回、サイド情報として伝達される。

特に、更なる制御パラメータ８０７（例えば、ベータ又はベータ因子５００）の時間分解能は時変高周波ゲイン情報の時間分解能よりも低いか、又は更なる制御パラメータは、特定のコア符号器構成又はオーディオ素片に対して固定さえされている。

好ましくは、高帯域プロセッサ、帯域抽出部、及び結合器は重複ブロック内で動作し、重複範囲としてブロック長の４０％〜６０％、好ましくは５０％重複範囲３２１を用いる。

他の実施形態では、又は同じ実施形態において、ブロック長は０．８ｍｓ〜５．０ｍｓである。

更に、好ましくは又は追加として、高帯域プロセッサ１２０によって行われる変更は、時間依存性の乗算係数を時間ドメイン内のブロックの各サンプルに、ｇ［ｋ］に従って、更に制御パラメータ５００に従って、更に図５ａのブロック１２４の文脈で述べたように補間補正に沿って適用することである。

更に、低周波帯域のカットオフ又はコーナー周波数はオーディオ信号の最大周波数の１／８〜１／３であり、好ましくはオーディオ信号の最大周波数の１／６に等しい。

更に、好ましい実施形態において図５ａの１１７ｂ及び１１７ａからなるローパス整形器は、対応するブロックに対する時変高周波ゲイン情報に依存する整形関数ｒｓ［ｆ］を適用するように構成されている。整形関数ｒｓ［ｆ］の好ましい実施態様について前述したが、代替的な関数を用いることもできる。

更に、好ましくは、整形関数ｒｓ［ｆ］は更に、対応するブロックに対する時変高周波ゲイン情報を用いてオーディオ信号の高周波帯域を変更するか又は減衰させるためのオーディオプレプロセッサ２００において用いられる整形関数ｐｓ［ｆ］に依存する。ｐｓ［ｆ］から得られるｒｓ［ｆ］の特定の依存関係について、図５ａに対して前述したが、他の依存関係を用いることもできる。

更に、図５ａのブロック１２４に関して前述したように、ブロックのサンプルに対する変更は更に、前述した分析ウィンドウ関数又は合成ウィンドウ関数によって規定される（例えば、補正係数であって、ウィンドウ関数ｗ［ｊ］に依存し、更にいっそう好ましくはウィンドウ係数ｗ［ｊ］の二乗に由来する補正係数に対して）あるサンプルに対して適用されるウィンドウ処理係数に依存する。

前述したように、特に図３ｂに対して、帯域抽出部、結合器、及び高帯域プロセッサによって行われる処理は重複ブロック内で行われて、前ブロックの後部分が、前ブロックに時間的に隣接する後ブロックの前部分と同じオーディオ信号のオーディオサンプルから得られるようになっており、すなわち処理は重複範囲３２１内でこの範囲を用いて行われる。この重複ブロック３１３及び３１４の重複範囲３２１は前ブロックの半分に等しく、後ブロックはサンプル値の数に対して前ブロックと同じ長さであり、ポストプロセッサは更に、図３ｃに例示するように重複加算演算を行うための重複加算器１４０を含んでいる。

特に、帯域抽出部１１０は、分割フィルタのストップ範囲とパス範囲との間の分割フィルタ１１１の勾配をオーディオサンプルのブロックに適用するように構成されている。この勾配は、サンプルのブロックに対する時変高周波ゲイン情報に依存する。以前に規定し図５ａの文脈で述べたゲイン情報ｇ［ｋ］に依存する勾配ｒｓ［ｆ］に対して好ましい勾配が与えられているが、他の依存関係も有用である可能性がある。

全般的に、高周波ゲイン情報は好ましくは、現在のブロックｋに対してゲイン値ｇ［ｋ］を有しており、勾配は、より低いゲイン値に対する勾配の増加と比べて、より高いゲイン値に対してより大きく増加される。

図６ａに図３のサイド情報１０６のより詳細な表現を例示する。特に、サイド情報は、ゲインインデックス６０１、ゲイン精度情報６０２、ゲイン補償情報６０３、及び補償精度情報６０４のシーケンスを含む。

好ましくは、オーディオポストプロセッサは、サイド情報を伴うオーディオ信号からオーディオ信号１０２とサイド情報１０６とを抽出するためのサイド情報抽出部６１０を含み、サイド情報は、サイド情報復号器６２０であって、復元済ゲイン６２１及び／又は復元済ゲイン補償値６２２を、対応するゲイン精度情報及び対応する補償精度情報に基づいて生成及び計算するサイド情報復号器６２０に転送される。

特に、精度情報によって、異なる値の数が決定される。ここで、高ゲイン精度情報によって、ゲイン値が有することができるより小さい数の値を示すより低いゲイン精度情報と比べて、ゲインインデックスが有することができるより大きな数の値が規定される。

その結果、高精度ゲイン情報は、ゲイン情報を伝達するために用いられるより小さい数のビットを示すより低いゲイン精度情報と比べて、ゲインインデックスを伝達するために用いられるより大きい数のビットを示す場合がある。高精度情報は４ビット（ゲイン情報に対して１６値）を示すことができ、より低いゲイン情報はゲイン量子化に対して３ビット（８値）のみである。したがって、ゲイン精度情報は、例えば、「拡張ゲイン範囲：ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ」と示される単純なフラッグとすることができる。後者の場合、構成フラッグｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅは、精度も精度情報も示さないが、ゲインが正常範囲なのか拡張範囲なのかを示す。拡張範囲には、正常範囲におけるすべての値と、加えて、正常範囲を用いて可能なものよりも小さい及び大きい値が含まれる。ある実施形態において使用できる拡張範囲によって潜在的に、強力な過渡事象に対してより強い前処理効果を適用することができる（そうでない場合は正常範囲にクリップされる）。

同様に、ベータ因子精度に対しては、すなわちゲイン補償精度情報に対しては、フラッグを用いることもできる。フラッグは、ベータ因子インデックスが用いるのが３ビットなのか又は４ビットなのかを大まかに述べるものであり、このフラッグは拡張ベータ因子精度（ｅｘｔｅｎｄｅｄＢｅｔａＦａｃｔｏｒＰｒｅｃｉｓｉｏｎ）と言ってもよい。

好ましくは、ＦＦＴプロセッサ１１６は、Ｎサンプリング値のブロック長によってブロック毎の離散フーリエ変換を実行して、Ｎ／２複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、帯域抽出部は、低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び遷移周波数範囲内のスペクトル値を重み付けすることによって行うように構成され、遷移周波数範囲は最大周波数又は最大周波数よりも小さい周波数までのみ及んでいる。

この手順を例えば図１５に例示する。ここでは、あるバタフライ操作を例示している。Ｎ＝８ポイント時間間引き基数２ＦＦＴトポロジから開始する例を示す。更なる処理に対してＸ（０）及びＸ（１）のみが必要である。結果として、Ｅ（２）及びＥ（３）並びにＯ（２）及びＯ（３）は必要ではない。次に、両方のＮ／２ポイントＤＦＴを更に、２つのＮ／４ポイントＤＦＴ及びそれ以降のバタフライにそれぞれ再分割することを仮定する。次に、図１５に例示するように、前述の省略を同様に繰り返すことができる。

続いて、オーディオプレプロセッサ２００を図７に関してより詳細に説明する。

オーディオプレプロセッサ２００は、オーディオ信号２０２を分析して時変高周波ゲイン情報２０４を決定するための信号分析器２６０を含んでいる。

更に、オーディオプレプロセッサ２００は、オーディオ信号２０２の高周波帯域２１２とオーディオ信号２０２の低周波帯域２１４とを抽出するための帯域抽出部２１０を含む。更に、高帯域プロセッサ２２０が、時変高周波ゲイン情報２０４に従って高周波帯域２１２の時変変更を行って処理済高周波帯域２２２を取得するために設けられている。

オーディオプレプロセッサ２００は更に、処理済高周波帯域２２２と低周波帯域２１４とを結合して前処理済オーディオ信号２３２を取得するための結合器２３０を含んでいる。更に、出力インターフェース２５０が、前処理済オーディオ信号２３２と時変高周波ゲイン情報２０４とをサイド情報２０６（図３の文脈で説明したサイド情報１０６に対応する）を含む出力信号２５２を生成するために設けられている。

好ましくは、信号分析器２６０は、オーディオ信号を分析して、図８ａのブロック８０１によって例示されるように第１の時間ブロック３０１における第１の特徴と、図８ａのブロック８０２に例示されるようにオーディオ信号の第２の時間ブロック３０２における第２の特徴（第２の特徴は第１の特徴よりも過渡的である）とを決定するように構成されている。

更に、分析器２６０は、第１の特徴に対する第１のゲイン情報３１１と第２の特徴に対する第２のゲイン情報３１２とを決定するように構成されている。これを図８ａのブロック８０３に例示する。次に、高帯域プロセッサ２２０は、第２のゲイン情報に従って第２の時間ブロック３０２の高帯域部分を減衰させることを、第１のゲイン情報に従って第１の時間ブロック３０１の高帯域部分を減衰させるよりも強く行うように構成されている。これを図８ａのブロック８０４に例示する。

更に、信号分析器２６０は、現在時刻ブロックの前に配置されているか若しくは現在時刻ブロックの後に配置されているか若しくは現在時刻ブロックの前後に配置されているか、又は現在時刻ブロックを含むか若しくは現在時刻ブロックを除外する時間的に隣接する１つ以上の時間ブロックに対して、高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算するように構成されている。これを図８ｂのブロック８０５に例示する。更に、ブロック８０８に例示したように、現在のブロックの高帯域に対するエネルギー尺度を計算し、ブロック８０９に概説したように、ゲイン係数の計算を、一方でバックグラウンド尺度及び他方でエネルギー尺度を用いて計算する。したがって、ブロック８０９の結果は図８ｂにおいて８１０で示されたゲイン係数である。

好ましくは、信号分析器２６０は、ｇ＿ｆｌｏａｔの前に例示した方程式に基づいてゲイン係数８１０を計算するように構成されているが、他の計算方法を行うこともできる。

更に、パラメータアルファαは、ゲイン係数に、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも５０％、好ましくは７５％だけ低減されるように影響を与える。その結果、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのハイパスエネルギーの変動は好ましくは、係数アルファによって当初の２５％まで低減される。

更に、メタゲイン制御ブロック／機能８０６は、制御因子ｐを生成するように構成されている。一実施形態では、ＭＧＣブロック８０６は、潜在的な過渡事象を特定するために統計的検出方法を用いている。各ブロック（例えば、１２８サンプル）に対して、それは０〜１の確率様「信頼」因子ｐを生成する。ブロックに適用すべき最終的なゲインはｇ’＝ｇ＾ｐである（ｇは当初のゲインである）。ｐがゼロであるとき、ｇ’＝１であり、したがって処理は適用されない。またｐが１であるとき、ｇ’＝ｇであり、全処理強度が適用される。

ＭＧＣ８０６を用いて、ゲインを１の方へ、前処理中の量子化の前にスクイーズして、無変化と最大効果との間で処理強度を制御する。パラメータベータ因子（パラメータベータの改良パラメータ化である）を用いて、後処理中に逆量子化後にゲインを拡張し、１つの可能性は各符号器構成に対して固定値を用いることである（ビットレートによって規定される）。

一実施形態では、パラメータアルファは０．７５に固定される。したがって、係数αは平均のバックグラウンドの周りでのエネルギー変動の減少であり、ＭＰ
ＥＧ−Ｈ実施態様では７５％に固定されている。図８ｂの制御因子ｐは確率様「信頼」係数ｐとして機能する。

図８ｃに例示するように、信号分析器は、ゲイン情報値の未処理シーケンスを量子化及びクリップして、時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成されており、高帯域プロセッサ２２０は、非量子化値ではなく量子化値のシーケンスに従って高帯域の時変変更を実行するように構成されている。

更に、出力インターフェース２５０は、量子化値のシーケンスをサイド情報２０６内に時変高周波ゲイン情報２０４として導入するように構成されている。これを、図８ｃのブロック８１４に例示する。

更に、オーディオプレプロセッサ２００は、その後に接続される符号器又は復号器によって導入されるエネルギー変動の損失を記述する更なるゲイン補償値を決定する（８１５）ように構成され、更に、オーディオプレプロセッサ２００はこの更なるゲイン補償情報を量子化して（８１６）、この量子化された更なるゲイン補償情報をサイド情報内に導入し（８１７）、更に、信号分析器は好ましくは、時変高周波ゲイン情報を決定するときにメタゲイン制御を適用して、更なる制御データ８０７に従ってオーディオ信号に対する高帯域プロセッサの効果を徐々に減らすか又は徐々に高めるように構成されている。

好ましくは、オーディオプレプロセッサ２００の帯域抽出部２１０を、図４又は図９ｃに例示するように、より詳細に実施する。したがって、帯域抽出部２１０は、ローパスフィルタ装置１１１を用いて低周波帯域を抽出し、オーディオ信号から低周波帯域を減算１１３することによって高周波帯域を抽出することを、ポストプロセッサデバイスに対して前述したものと正確に同じ方法で行うように構成されている。

更に、帯域抽出部２１０、高帯域プロセッサ２２０、及び結合器２３０は、重複ブロック内で動作するように構成されている。結合器２３０は更に、ブロック重複範囲において第１のブロックのオーディオサンプルと第２のブロックのオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器を含んでいる。したがって、図７の結合器２３０に付随する重複加算器は、図３ｃの参照数字１３０に例示したポストプロセッサに対する重複加算器と同じ方法で実施してもよい。

一実施形態では、オーディオプレプロセッサに対して、重複範囲３２０はブロック長の４０％〜ブロック長の６０％である。他の実施形態では、ブロック長は０．８ｍｓ〜５．０ｍｓであり、及び／又は高帯域プロセッサ２２０によって行われる変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるため、前処理全体の結果は過渡的性質が減少した信号である。

更なる実施形態では、低周波帯域のカットオフ又はコーナー周波数は、オーディオ信号２０２の最大の周波数範囲の１／８〜１／３であり、好ましくはオーディオ信号の最大周波数の１／６に等しい。

例えば図９ｃに例示したように、また図４のポストプロセッサに対して説明したように、帯域抽出部２１０は、分析ウィンドウを用いてオーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部２１５を含んでおり、これらのブロックは図３ｂの３２１に例示したように時間重複している。更に、スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ２１６が設けられ、その後に接続されるローパス整形器２１７ａ、２１７ｂも設けられていて、スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するようになっている。更に、時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ２１８が設けられ、合成ウィンドウ処理部２１９が離散逆フーリエ変換プロセッサ２１８の出力に接続されて、合成ウィンドウを用いてローパス時間ドメインサンプリング値に対するブロックのシーケンスをウィンドウ処理するようになっている。

好ましくは、ブロック２１７ａ、２１７ｂからなるローパス整形器は、乗算器２１７ａによって例示されるように個々のＦＦＴラインを乗じることによってローパス形状ｐｓ［ｆ］を適用する。ローパス形状ｐｓ［ｆ］を、図９ｃに対して前述したように計算する。

更に、オーディオ信号自体（すなわち、全帯域オーディオ信号）もオーディオ信号ウィンドウ処理部２２１を用いてウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得し、このオーディオ信号ウィンドウ処理部２２１は分析ウィンドウ処理部２１５及び／又は合成ウィンドウ処理部２１９と同期して、ローパス時間ドメインサンプリング値のブロックのシーケンスがオーディオ信号値のウィンドウブロックのシーケンスと同期するようになっている。

更に、図７の分析器２６０は、更に制御パラメータ８０７（前処理の強度を無及び最大効果の間で制御するために用いられる）と５００（すなわち、更なるサイド情報としてのベータ因子）とをもたらすように構成されている。ここで、高帯域プロセッサ２２０は、変更を更なる制御パラメータ８０７も考慮して適用するように構成され、ベータ因子パラメータの時間分解能は時変高周波ゲイン情報の時間分解能よりも低いか、又は更なる制御パラメータは特定のオーディオ素片に対して固定されている。前述したように、ＭＧＣからの確率様の制御パラメータを用いてゲインを１の方へ、量子化の前にスクイーズし、制御パラメータは明示的にはサイド情報として伝達しない。

更に、結合器２３０は、ローパス時間ドメインサンプリング値のブロックのシーケンスと、ハイパス時間ドメインサンプリング値の変更された（すなわち処理済）ブロックのシーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている。これは、図３ｃのポストプロセッササイドに対して例示した通りである。

図９ａに例示するのは、オーディオ信号を符号化するためのオーディオ符号化装置であって、前述したオーディオプレプロセッサ２００（時変高周波ゲイン情報をサイド情報として有する出力信号２５２を生成するように構成されている）を含む装置である。更に、コア符号器９００が、コア符号化信号９０２及びコアサイド情報９０４を生成するために設けられている。更に、オーディオ符号化装置は、コア符号化信号９０２、コアサイド情報９０４、及び時変高周波ゲイン情報を更なるサイド情報１０６として含む符号化信号９１２を生成するための出力インターフェース９１０を含んでいる。

好ましくは、オーディオプレプロセッサ２００は、図１０ａに例示するように、各チャンネル又は各オブジェクトの前処理を別個に実行する。この場合、オーディオ信号は多チャンネル又は多オブジェクト信号である。更なる実施形態（図５ｃに例示する）では、オーディオプレプロセッサ２００は、各ＳＡＯＣ輸送チャンネル又は各高次アンビソニックス（ＨＯＡ）輸送チャンネルの前処理を別個に実行する（図１０ａに例示する）。この場合、オーディオ信号は、空間オーディオオブジェクト輸送チャンネル又は高次アンビソニックス輸送チャンネルである。

それとは反対に、コア符号器９００は、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器ギャップ充填又は符号器帯域幅拡張処理を、前処理済チャンネル２３２上で適用するように構成されている。

その結果、典型的に、コア符号化信号９０２は、結合多チャンネル／多オブジェクトコア符号器９００内に導入されたときよりもチャンネルが少ない。なぜならば、コア符号器９００は典型的に、ある種のダウンミックス操作を含んでいるからである。

オーディオ復号装置を図９ｂに例示する。オーディオ復号装置は、コア符号化信号９０２、コアサイド情報９０４、及び時変高周波ゲイン情報１０４を更なるサイド情報１０６として含む符号化オーディオ信号９１２を受け取るためのオーディオ入力インターフェース９２０を有している。更に、オーディオ復号装置は、コアサイド情報９０４を用いてコア符号化信号９０２復号して復号化コア信号１０２を取得するためのコア復号器９３０を含んでいる。更に、オーディオ復号装置は、時変高周波ゲイン情報１０４を用いて復号化コア信号１０２を後処理するためのポストプロセッサ１００を有している。

好ましくは、また図１０ｂに例示するように、コア復号器９３０は、多チャンネル復号器処理又は多オブジェクト復号器処理又は帯域幅拡張復号器処理又はギャップ充填復号器処理を適用して、多チャンネル信号１０２の復号化チャンネル又は多オブジェクト信号１０２の復号化オブジェクトを生成するように構成されている。したがって、言い換えれば、結合復号器プロセッサ９３０は典型的に、ある種のアップミックスを含んでいて、符号化オーディオ信号９０２内のより小さい数のチャンネルから、より大きい数の個々のオブジェクト／チャンネルを生成する。これらの個々のチャンネル／オブジェクトは、チャンネル個別の後処理内に、オーディオポストプロセッサ１００によって、各チャンネル又は各オブジェクトに対する個々の時変高周波ゲイン情報を用いて入力される。これを図１０ｂの１０４に例示する。チャンネル個別のポストプロセッサ１００は、後処理済チャンネルを出力する。このチャンネルは、デジタル／アナログ変換器及びその後に接続されたラウドスピーカーに出力することができるか、又はある種の更なる処理若しくは記憶又はオーディオオブジェクト若しくは音響チャンネルを処理するための任意の他の好適な手順に出力することができる。

図１０ｃに例示するのは、図９ａ又は９ｂに例示したものと同様の状況であり、すなわち、完全なチェーンであって、高分解能エンベロープ処理プレプロセッサ１００が、ビットストリームを生成するための符号器９００に接続され、ビットストリームは復号器９３０によって復号化され、復号器出力は、高分解能エンベローププロセッサポストプロセッサ１００によって後処理されて、最終的な出力信号を生成する、チェーンである。

図１６及び図１７ａ〜１７ｈに例示するのは、５．１チャンネルラウドスピーカーリスニング（１２８ｋｂｐｓ）に対するリスニング試験結果である。更に、中間（４８ｋｂｐｓ）及び高（１２８ｋｂｐｓ）品質におけるステレオヘッドフォンリスニングに対する結果を示す。図１６ａにリスニングテストセットアップをまとめる。結果を、１７ａ〜１７ｈに例示する。

図１７ａにおいて、知覚品質は「良い」〜「非常に良い」の範囲にある。拍手様信号は、範囲「良い」における最低スコーリング項目の中であることに注意されたい。

図１７ｂに、すべての拍手項目が著しい改善を示す一方で、非拍手項目に対しては知覚品質における著しい変化が観察されないことを例示する。著しく低下している項目はない。

図１７ｃ及び１７ｄに関して、絶対的な知覚品質は「良い」範囲にあると概説される。差分において、全体として、７つのポイントの著しいゲインがある。個々の品質ゲインは４〜９ポイントの範囲であり、すべて著しい。

図１７ｅにおいて、テストセットのすべての信号は拍手信号である。知覚品質は「並み」〜「良い」の範囲にある。常に、「ＨＲＥＰ」条件のスコアは「ＮＯＨＲＥＰ」条件よりも高い。図１７ｆにおいて、１つを除くすべての項目に対して、「ＨＲＥＰ」スコアは「ＮＯＨＲＥＰ」よりも著しく良好であることが明白である。３〜１７ポイントの範囲の改善が観察された。全体として、１２ポイントの著しい平均ゲインがある。著しく低下している項目はない。

図１７ｇ及び１７ｈに関して、絶対スコアにおいて、すべての信号のスコアが範囲「非常に良い」にあることが明白である。差分スコアにおいて、知覚品質はほとんど透明であるにもかかわらず、８信号のうち６つに対して、全体として３〜９ポイントの著しい改善があって、平均で５ＭＵＳＨＲＡポイントになることが見られる。著しく低下している項目はない。

結果は、好ましい実施形態のＨＲＥＰ技術が広範囲のビットレート／絶対的品質において拍手様信号の符号化に対して著しいメリットがあることを明瞭に示している。また、非拍手信号に対して全く障害がないことが証明されている。ＨＲＥＰは、主に多くの高密度な過渡事象（例えば、拍手、雨音など）からなる信号の知覚符号化を改善するためのツールである。ＨＲＥＰを適用する効果は二重である。ＨＲＥＰは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、ＨＲＥＰは、復号器の（アップ）ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。主観テストをしたところ、４８ｋｂｐｓステレオにおいてＨＲＥＰ処理によって約１２ＭＵＳＨＲＡポイントの改善が見られ、１２８ｋｂｐｓ５．１チャンネルにおいて７ＭＵＳＨＲＡポイントの改善が見られた。

続いて、図５ｂを参照して、ＭＰＥＧ−Ｈ３Ｄオーディオ符号器／復号器フレームワーク内での一方で後処理又は他方で前処理の実施態様を例示する。具体的には、図５ｂに例示するのは、ＭＰＥＧ−Ｈ３Ｄオーディオ復号器内で実施したＨＲＥＰポストプロセッサ１００である。具体的には、本発明のポストプロセッサを図５ｂの１００に示す。

ＨＲＥＰ復号器が、５５０に例示される３Ｄオーディオコア復号器の出力に接続されていることが明白である。更に、上部における要素５５０とブロック１００との間に、ＭＰＥＧサラウンド要素が例示されている。これは典型的に、ブロック５６０の入力におけるベースチャンネルからＭＰＥＧサラウンド実施のアップミックスを実行して、ブロック５６０の出力においてより多くの出力チャンネルを取得する。

更に、図５ｂにオーディオコア部分以外の他の要素を例示する。これらは、オーディオレンダリング部分では、一方でチャンネル及び他方でオブジェクトに対するｄｒｃ＿１（５７０）である。更に、フォーマット変換ブロック５８０、オブジェクトレンダラ５９０、オブジェクトメタデータ復号器５９２、ＳＡＯＣ３Ｄ復号器５９４、及び高次アンビソニックス（ＨＯＡ）復号器５９６が設けられている。

これらの要素はすべて、リサンプラ５８２に送り、リサンプラはその出力データをミキサ５８４内に送る。ミキサはその出力を、チャンネルラウドスピーカーフィード５８６又はヘッドフォンフィード５８８のいずれかに転送する。これらは、「チェーンの終了」における要素を表し、ミキサ５８４出力の後の更なる後処理を表す。

図５ｃに例示するのは、ＭＰＥＧ−Ｈ３Ｄオーディオ復号器のフレームワークにおけるオーディオポストプロセッサ（ＨＲＥＰ）の更なる好ましい埋め込みである。図５ｂとは対照的に、ＨＲＥＰ処理をＳＡＯＣ輸送チャンネル及び／又はＨＯＡ輸送チャンネルにも適用する。図５ｃにおける他方の機能は図５ｂにおけるそれらと同様である。

帯域抽出部に関係する添付の請求項は、たとえ請求項がポストプロセッサ又はプレプロセッサの一方におけるポストプロセッサに対してのみ設けられている場合であっても、オーディオポストプロセッサ内の帯域抽出部及びオーディオプレプロセッサ内の帯域抽出部にも適用されることに注意されたい。高帯域プロセッサ及び結合器に対して同じことが通用する。
特に、付録及び付録Ａに例示した更なる実施形態に言及する。

本発明をいくつかの実施形態に関して説明してきたが、本発明の範囲に含まれる変更、並べ換え、及び均等物が存在する。本発明の方法及び構成を実施する多くの代替的な方法があることにも注意されたい。したがって、以下の添付の請求項は、本発明の真の趣旨及び範囲に含まれるすべてのこのような変更、並べ換え、及び均等物を含むものと解釈することが意図されている。

いくつかの態様は装置の文脈について説明してきたが、これらの態様は、対応する方法の説明も表すことが明らかであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明した態様も、対応する装置の対応するブロック又は項目又は特徴の説明を表す。本方法ステップの一部又は全部を、ハードウェア装置（例えば、マイクロプロセッサ、プログラム可能なコンピュータ、又は電子回路など）によって（又はこれを用いて）実行してもよい。いくつかの実施形態では、最も重要な方法ステップのうちの何らかの１つ以上をこのような装置によって実行してもよい。

本発明の符号化オーディオ信号を、デジタル記憶媒体上に記憶することもできるし、又は伝送媒体（例えば無線伝送媒体又は有線伝送媒体例えばインターネット）上で伝達することができる。

ある実施態様要求に応じて、本発明の実施形態をハードウェア又はソフトウェアで実施することができる。実施態様をデジタル記憶媒体、例えば、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、又はフラッシュメモリであって、電子的に読取可能な制御信号が記憶されているものを用いて行うことができる。これらは、プログラム可能なコンピュータシステムと協同して（又は協同することができて）、対応する方法が行われるようになっている。したがって、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、電子的に読取可能な制御信号を有するデータキャリアを含んでいる。この制御信号は、本明細書で説明した本方法の１つが行われるように、プログラム可能なコンピュータシステムと協同することができる。

全般的に、本発明の実施形態は、プログラムコードを伴うコンピュータプログラム製品として実施することができる。プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されたときに、本方法の１つを行う働きをする。プログラムコードを、例えば機械読取可能なキャリア上に記憶してもよい。

他の実施形態は、本明細書で説明した本方法の１つを行うためのコンピュータプログラム（機械読取可能なキャリア上に記憶された）を含んでいる。

言い換えれば、したがって、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されたときに、本明細書で説明した本方法の１つを行うためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法の更なる実施形態は、本明細書で説明した本方法の１つを行うためのコンピュータプログラムが記録されたデータキャリア（又はデジタル記憶媒体、又はコンピュータ可読媒体）である、データキャリア、デジタル記憶媒体、又は記録された媒体は典型的に、有形及び／又は非一過性である。

したがって、本発明の方法の更なる実施形態は、本明細書で説明した本方法の１つを行うためのコンピュータプログラムを表す信号のデータストリーム又はシーケンスである。信号のデータストリーム又はシーケンスは、例えば、データ通信接続部を介して（例えばインターネットを介して）伝達するように構成してもよい。

更なる実施形態は、本明細書で説明した本方法の１つを実行するように構成された又は適応された処理手段（例えば、コンピュータ、又はプログラマブル論理回路）を含んでいる。

更なる実施形態は、本明細書で説明した本方法の１つを行うためのコンピュータプログラムがインストールされたコンピュータを含んでいる。

本発明による更なる実施形態は、本明細書で説明した本方法の１つを行うためのコンピュータプログラムを受信部に伝達する（例えば、電子的に又は光学的に）ように構成された装置又はシステムを含んでいる。受信部は、例えば、コンピュータ、モバイルデバイス、メモリ装置などであってもよい。装置又はシステムは、例えば、コンピュータプログラムを受信部に伝達するためのファイルサーバを含んでいてもよい。

いくつかの実施形態では、プログラマブル論理回路（例えばフィールドプログラマブルゲートアレイ）を用いて、本明細書で説明した本方法の機能の一部又は全部を実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイがマイクロプロセッサと協同して、本明細書で説明した本方法の１つを実行してもよい。全般的に、本方法は好ましくは、何らかのハードウェア装置によって行う。

本明細書で説明した装置を、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置及びコンピュータの結合を用いて実施してもよい。

本明細書で説明した本方法を、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置及びコンピュータの結合を用いて行ってもよい。

前述の実施形態は単に本発明の原理に対する説明である。当然のことながら、本明細書で説明した配置及び詳細の変更及び変動は当業者には明らかである。したがって、間近の特許請求の範囲によってのみ制限され、本明細書の実施形態の記載及び説明によって示した具体的な詳細によっては制限されないことが意図されている。

＜付録＞
○ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏにおけるＨＲＥＰの更なる実施形態の説明
高分解能エンベロープ処理（ＨＲＥＰ）は、主に多くの高密度な過渡事象（例えば、拍手、雨滴音など）からなる信号の知覚符号化を改善するためのツールである。これらの信号は従来、ＭＰＥＧオーディオ符号復号器を、特に低いビットレートにおいて符号化することが非常に難しかった。主観テストをしたところ、４８ｋｂｐｓステレオにおいてＨＲＥＰ処理によって約１２ＭＵＳＨＲＡポイントの著しい改善が見られた。

○要旨
ＨＲＥＰツールによって、高密度に離隔して配置された過渡事象（例えば拍手信号、これらはライブ録音の重要な部分であるため）を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音（例えば花火）はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び／又はパラメータの符号化ツールを用いて符号化したときに生じる。

図１０ｃに示すのは、ＨＲＥＰが備わった符号復号器における信号フローである。符号器サイドにおいて、ツールは、わずかなサイド情報（ステレオ信号に対して１〜４ｋｂｐｓ）を生成しながら、高周波に対する信号を時間的に平坦化するプリプロセッサとして機能する。復号器サイドにおいて、ツールは、高周波に対する信号を時間的に整形してサイド情報を利用するポストプロセッサとして機能する。ＨＲＥＰを適用する効果は二重である。ＨＲＥＰは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、ＨＲＥＰは、復号器の（アップ）ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。

図１０ｃ：ＨＲＥＰが備わった符号復号器における信号フローの概略。
ＨＲＥＰツールは、すべての入力チャネル構成（モノ、ステレオ、多チャンネル（３Ｄを含む））に対して、またオーディオオブジェクトに対しても機能する。
コア実験において、ＭＵＳＨＲＡリスニング試験結果を行う。これは、拍手信号を符号化するためのＨＲＥＰのメリットを示すものである。知覚品質における著しい改善を以下のテストケースに対して実証する。
１２８ｋｂｉｔ／ｓにおいて５．１チャンネルに対して７ＭＵＳＨＲＡポイント平均改善
ステレオ４８ｋｂｉｔ／ｓに対して１２ＭＵＳＨＲＡポイント平均改善
ステレオ１２８ｋｂｉｔ／ｓに対して５ＭＵＳＨＲＡポイント平均改善
典型的には、フルの良く知られたＭＰＥＧサラウンドテストセットを用いて、５．１ｃｈ信号に対する知覚品質を評価することを通して、非拍手信号の品質がＨＲＥＰによって損なわれないことを証明する。

○ＨＲＥＰの詳細な説明
図１０ｃにＨＲＥＰが備わった符号復号器における信号フローを示す。符号器サイドにおいて、ツールは、実際の知覚オーディオ符号復号器の前に高時間分解能を伴うプレプロセッサとして機能することを、入力信号を分析し、過渡事象の高周波部分を減衰させてしたがって時間的に平坦化し、少しのサイド情報（ステレオ信号に対して１〜４ｋｂｐｓ）を生成することによって行う。拍手分類器が、符号器にＨＲＥＰをアクティブにするか否かの決定を導いてもよい。復号器サイドにおいて、このツールは、オーディオ符号復号器の後のポストプロセッサとして機能することを、過渡事象の高周波部分を高めてしたがって時間整形して、符号化の間に生成されたサイド情報を用いることによって行う。

図９ｃ：符号器内の詳細なＨＲＥＰ信号フロー
図９ｃに符号器内のＨＲＥＰプロセッサの内部の信号フローを表示する。前処理を、入力信号をローパス（ＬＰ）部分及びハイパス（ＨＰ）部分に分割することによって適用する。これは、ＦＦＴを用いてＬＰ部分を計算することによって行う。ＬＰ部分が与えられたら、ＨＰ部分は時間ドメインにおいて減算することによって得られる。時間依存性のスカラゲインをＨＰ部分に適用し、これをＬＰ部分に加え戻して前処理済出力を形成する。

サイド情報は、ローパス（ＬＰ）形状情報及びスカラゲイン（ＨＲＥＰ分析ブロック（図示せず）内で推定される）を含んでいる。ＨＲＥＰ分析ブロックは、ＨＲＥＰが完全に適用できるわけではない場合に、信号コンテンツ（「非拍手信号」）に対するＨＲＥＰ処理の効果を適切に減少させられる更なるメカニズムを含んでいてもよい。その結果、拍手検出精度に対する要求がかなり緩和される。

図５ａ：復号器内の詳細なＨＲＥＰ信号フロー
復号器サイド処理について、図５ａで概説する。ＨＰ形状情報及びスカラゲインに対するサイド情報を、ビットストリーム（図示せず）から構文解析して、符号器前処理のそれと逆の復号器後処理に類似する信号に適用する。後処理を、信号をローパス（ＬＰ）部分及びハイパス（ＨＰ）部分に再び分割することによって適用する。これは、ＦＦＴを用いてＬＰ部分を計算することによって行う。ＬＰ部分が与えられたら、ＨＰ部分は時間ドメインにおいて減算することによって得られる。伝達されたサイド情報に依存するスカラゲインをＨＰ部分に適用し、これをＬＰ部分に加え戻して前処理済出力を形成する。
すべてのＨＲＥＰサイド情報を拡張ペイロードに信号で伝えて、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏビットストリーム内に下位互換性があるように埋め込む。

○仕様テキスト
必要なＷＤ変化、提案したビットストリーム構文、セマンティクス、及び復号プロセスの詳細な説明を、文献の付録Ａにおいてｄｉｆｆテキストとして見ることができる。

○複雑さ
ＨＲＥＰ処理の計算複雑性は、信号のＬＰ／ＨＰ分割を実施するＤＦＴ／ＩＤＦＴ対の計算によって占められている。１０２４の時間ドメイン値を含む各オーディオフレームに対して、１６対の１２８ポイント実数値ＤＦＴ／ＩＤＦＴを計算しなければならない。
低複雑性（ＬＣ）プロファイルに含めるために、以下の制限を提案する。
アクティブなＨＲＥＰチャンネル／オブジェクトの制限
非自明な最大伝達ゲイン係数ｇ（ｋ）に対する制限（０ｄＢの自明なゲイン係数によって、付随するＤＦＴ／ＩＤＦＴ対に対する必要性が軽減される）
効率的な分割基数２スパーストポロジにおけるＤＦＴ／ｉＤＦＴの計算

○メリットの証拠
・リスニングテスト
メリットの証拠として、リスニング試験結果を５．１チャンネルラウドスピーカーリスニング（１２８ｋｂｐｓ）に対して示す。更に、中間（４８ｋｂｐｓ）及び高（１２８ｋｂｐｓ）品質におけるステレオヘッドフォンリスニングに対する結果を示す。図１６にリスニングテストセットアップをまとめる。
図１６−リスニングテスト概略

・結果
＊１２８ｋｂｐｓ５．１ｃｈ
図は、１２８ｋｂｐｓ５．１ｃｈテストの絶対ＭＵＳＨＲＡスコアを示している。知覚品質は「良い」〜「非常に良い」の範囲にある。なお拍手様信号は、範囲「良い」における最も低いスコーリング項目の中にある。

図１７ａ：１２８ｋｂｐｓ５．１ｃｈテストに対する絶対ＭＵＳＨＲＡスコア。
図１７ｂに、１２８ｋｂｐｓ５．１ｃｈテストの差分ＭＵＳＨＲＡスコアを示す。拍手項目はすべて著しい改善を示しているが、非拍手項目に対しては知覚品質における著しい変化は観察されない。著しく低下している項目はない。
図１７ｂ：１２８ｋｂｐｓ５．１ｃｈテストに対する差分ＭＵＳＨＲＡスコア。
図１７ｃに示すのは、テストセットに含まれるすべての拍手項目に対する絶対ＭＵＳＨＲＡスコアであり、図１７ｄに示すのは、テストセットに含まれるすべての拍手項目に対する差分ＭＵＳＨＲＡスコアである。絶対的知覚品質は「良い」範囲にある。差分において、全体として、７ポイントの著しいゲインがある。個々の品質ゲインは４〜９ポイントの範囲にあり、すべて著しい。

図１７ｃ：１２８ｋｂｐｓ５．１ｃｈテスト拍手信号に対する絶対ＭＵＳＨＲＡスコア。
図１７ｄ：１２８ｋｂｐｓ５．１ｃｈテスト拍手信号に対する差分ＭＵＳＨＲＡスコア。

＊４８ｋｂｐｓステレオ
図１７ｅに、４８ｋｂｐｓステレオテストの絶対ＭＵＳＨＲＡスコアを示す。ここで、セットの信号はすべて拍手信号である。知覚品質は「並み」〜「良い」の範囲である。常に、「ｈｒｅｐ」条件のスコアは「ｎｏｈｒｅｐ」条件よりも高い。図１７ｆに差分ＭＵＳＨＲＡスコアを示す。１つを除くすべての項目に対しては、「ｈｒｅｐ」スコアは「ｎｏｈｒｅｐ」よりも著しく良好である。３〜１７ポイントの範囲の改善が観察されている。全体として、１２ポイントの著しい平均のゲインがある。著しく低下している項目はない。
図１７ｅ：４８ｋｂｐｓステレオテストに対する絶対ＭＵＳＨＲＡスコア。
図１７ｆ：４８ｋｂｐｓステレオテストに対する差分ＭＵＳＨＲＡスコア。

＊１２８ｋｂｐｓステレオ
図１７ｇ及び図１７ｈに、１２８ｋｂｐｓステレオテストの絶対及び差分ＭＵＳＨＲＡスコアをそれぞれ示す。絶対スコアにおいて、すべての信号スコアは範囲「非常に良い」にある。差分スコアにおいて、知覚品質はほとんど透明であるにもかかわらず、８信号のうち６つに対して、全体として３〜９ポイントの著しい改善があって、平均で５ＭＵＳＨＲＡポイントになることが見られる。著しく低下している項目はない。

図１７ｇ：１２８ｋｂｐｓステレオテストに対する絶対ＭＵＳＨＲＡスコア。
図１７ｈ：１２８ｋｂｐｓステレオテストに対する差分ＭＵＳＨＲＡスコア。
結果は、ＣＥプロポーザルのＨＲＥＰ技術が、広い範囲のビットレート／絶対的品質において拍手様信号の符号化に対して著しいメリットがあることを明瞭に示している。また、非拍手信号に対して全く障害がないことが証明されている。

・結論
ＨＰＲＥＰは、主に多くの高密度な過渡事象（例えば、拍手、雨滴音など）からなる信号の知覚符号化を改善するためのツールである。ＨＲＥＰを適用する効果は二重である。ＨＲＥＰは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、ＨＲＥＰは、復号器の（アップ）ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。主観テストをしたところ、４８ｋｂｐｓステレオにおいてＨＲＥＰ処理によって約１２ＭＵＳＨＲＡポイントの改善が見られ、１２８ｋｂ５．１ｃｈにおいて７ＭＵＳＨＲＡポイントが見られた。

＜付録Ａ＞
○ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏ内にＨＲＥＰの好ましい実施形態
続いて、ＩＳＯ／ＩＥＣ２３００８−３：２０１５及びＩＳＯ／ＩＥＣ２３００８−３：２０１５／ＥＡＭ３文献に対してＨＲＥＰに対して要求される変化に対するデータ変更を与える。

以下の行を表１、「ＭＰＥＧ−Ｈ３ＤＡ機能ブロック及び内部処理ドメイン。ｆ_s,coreはコア復号器出力サンプリングレートを示し、ｆ_s,outは復号器出力サンプリングレートを示す」（セクション１０．２）に加える：
表１−ＭＰＥＧ−Ｈ３ＤＡ機能ブロック及び内部処理ドメイン。ｆ_s、_coreはコア復号器出力サンプリングレートを示し、ｆ_s、_out復号器出力サンプリングレートを示す。

以下のケースを表１３、「ｍｐｅｇｈ３ｄａＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）の構文」（セクション５．２．２．３）に加える：
表１３−ｍｐｅｇｈ３ｄａＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）の構文

以下の値定義を表５０、「ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅの値」、セクション５．３．４に加える：
表５０−ｕｓａｃＥｘｔＥｌｅｍｅｎｔＴｙｐｅの値

以下の解釈を表５１、「拡張ペイロード復号に対するデータブロックの解釈」（セクション５．３．４）に加える：
表５１−拡張ペイロード復号に対するデータブロックの解釈

新しい従属節（ｓｕｂｃｌａｕｓｅ）を５．２．２の終わりに加え、以下の表を加える：
５．２．２．Ｘ拡張要素構成
表２−ＨＲＥＰＣｏｎｆｉｇ（）の構文

５．２．２．３の終わりに以下の表を加える：
表３−ＨＲＥＰＦｒａｍｅ（）の構文

ヘルパー関数ＨＲＥＰ＿ｄｅｃｏｄｅ＿ａｃ＿ｄａｔａ（ｇａｉｎ＿ｃｏｕｎｔ，ｓｉｇｎａｌ＿ｃｏｕｎｔ）は、以下のＵＳＡＣ低レベル算術符号化関数を用いて配列ｇａｉｎＩｄｘ内へのゲイン値の読み取り値を記述する。

arith_decode(*ari_state,cum_freq,cfl),
arith_start_decoding(*ari_state),
arith_done_decoding(*ari_state).

以下の２つの更なるヘルパー関数を導入する。
ari_decode_bit_with_prob(*ari_state,count_0,count_total),
（ｐ０＝ｃｏｕｎｔ＿０／ｔｏｔａｌ＿ｃｏｕｎｔ及びｐ１＝１−ｐ０として１ビットを復号する）
ari_decode_bit(*ari_state)
（モデリングを用いずに、ｐ０＝０．５及びｐ１＝０．５として１ビットを復号する）

ari_decode_bit_with_prob(*ari_state,count_0,count_total)
[
prob_scale=1<<14;
tbl[0]=probScale-(count_0*prob_scale)/count_total;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
｝

ari_decode_bit(*ari_state)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
res=arith_decode(ari_state,tbl,2);
return res;
]

HREP_decode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];

arith_start_decoding(&ari_state);

for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]
mask_bit=ari_decode_bit_with_prob(&ari_state,cnt_mask[0],cnt_mask[0]+cnt_mask[1]);
cnt_mask[mask_bit]++;

if(mask_bit)[
sign_bit=ari_decode_bit_with_prob(&ari_state,cnt_sign[0],cnt_sign[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;

if(sign_bit)[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_neg[0],cnt_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=-2*large_bit-2+last_bit;
]else[
large_bit=ari_decode_bit_with_prob(&ari_state,cnt_pos[0],cnt_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit)[
gainIdx[pos][sig]=3;
]else[
last_bit=ari_decode_bit(&ari_state);
gainIdx[pos][sig]=2-last_bit;
]
]
]else[
gainIdx[pos][sig]=0;
]

if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3*esc_cnt,prob_scale-4*esc_cnt,0];
sym=gainIdx[pos][sig];
if(sym<=-4)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=-4-esc;
]else if(sym>=3)[
esc=arith_decode(ari_state,tbl_esc,5);
sym=3+esc;
]
gainIdx[pos][sig]=sym;
]

gainIdx[pos][sig]+=GAIN_INDEX_0dB;
]
]

arith_done_decoding(&ari_state);
]

以下の新しい従属節「５．５．Ｘ高分解能エンベロープ処理（ＨＲＥＰ）ツール」を従属節５．５の終わりに加える：
５．５．Ｘ高分解能エンベロープ処理（ＨＲＥＰ）ツール
５．５．Ｘ．１ツール説明
ＨＲＥＰツールによって、高密度に離隔して配置された過渡事象（例えば拍手信号、これらはライブ録音の重要な部分であるため）を含む信号に対する符号化性能の改善が得られる。同様に、雨滴音又は他の音（例えば花火）はこのような特徴を示すことができる。しかしながら、この種類の音によって、既存のオーディオ符号復号器に対する問題が、特に、低ビットレートにおいて及び／又はパラメータの符号化ツールを用いて符号化したときに生じる。

図５ｂ又は５ｃは、ＨＲＥＰが備わった符号復号器における信号フローを示す。符号器サイドにおいて、ツールは、わずかなサイド情報（ステレオ信号に対して１〜４ｋｂｐｓ）を生成しながら、高周波に対する信号を時間的に平坦化するプリプロセッサとして機能する。復号器サイドにおいて、ツールは、高周波に対する信号を時間的に整形してサイド情報を利用するポストプロセッサとして機能する。ＨＲＥＰを適用する効果は二重である：ＨＲＥＰは、符号器に課されるビットレート要求を、入力信号の短時間ダイナミクスを低減することによって緩和する。更に、ＨＲＥＰは、復号器の（アップ）ミックスステージにおける適切なエンベロープ復元を確実にする。これはすべて、パラメータの多チャンネル符号化技術が符号復号器内で適用されているならば、より重要である。ＨＲＥＰツールは、すべての入力チャネル構成（モノ、ステレオ、多チャンネル（３Ｄを含む））に対して、またオーディオオブジェクトに対しても機能する。

５．５．Ｘ．２データ及びヘルプ要素
ｃｕｒｒｅｎｔ＿ｓｉｇｎａｌ＿ｇｒｏｕｐ：ｃｕｒｒｅｎｔ＿ｓｉｇｎａｌ＿ｇｒｏｕｐパラメータは、Ｓｉｇｎａｌｓ３ｄ（）構文要素及びｍｐｅｇｈ３ｄａＤｅｃｏｄｅｒＣｏｎｆｉｇ（）構文要素に基づく。
ｓｉｇｎａｌ＿ｔｙｐｅ：電流信号グループのタイプであり、チャンネル信号及びオブジェクト、ＨＯＡ、及びＳＡＯＣ信号の間を区別するために用いる。
ｓｉｇｎａｌ＿ｃｏｕｎｔ：電流信号グループにおける信号数
ｃｈａｎｎｅｌ＿ｌａｙｏｕｔ：電流信号グループがチャンネル信号を有する場合には、各チャンネルに対する話者の特性（ＬＦＥ話者を特定するために用いる）を含む。
ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ：ゲインインデックスが用いるのが３ビット（８値）なのか４ビット（１６値）なのかを示す（ｎＢｉｔｓＧａｉｎによって計算する）。
ｅｘｔｅｎｄｅｄＢｅｔａＦａｃｔｏｒＰｒｅｃｉｓｉｏｎ：示すベータ因子インデックスが用いるのが３ビットなのか４ビットなのかを示す（ｎＢｉｔｓＢｅｔａによって計算する）。
ｉｓＨＲＥＰＡｃｔｉｖｅ［ｓｉｇ］：ツールが、電流信号グループ内のインデックスｓｉｇ上の信号に対してアクティブか否かを示す。
ｌａｓｔＦＦＴＬｉｎｅ［ｓｉｇ］：ＦＦＴを用いて実施するローパス手順において用いられる最後の非ゼロラインの位置。

ｔｒａｎｓｉｔｉｏｎＷｉｄｔｈＬｉｎｅｓ［ｓｉｇ］：ＦＦＴを用いて実施されるローパス手順で用いられる遷移領域のラインにおける幅。
ｄｅｆａｕｌｔＢｅｔａＦａｃｔｏｒＩｄｘ［ｓｉｇ］：ゲイン補償手順においてゲインを変更するために用いられる初期設定のベータ因子インデックス。
ｏｕｔｐｕｔＦｒａｍｅＬｅｎｇｔｈ：フレームあたりのサンプルの等価数、当初のサンプリング周波数を用いており、ＵＳＡＣ基準において規定されている。
ｇａｉｎ＿ｃｏｕｎｔ：１フレーム内の信号あたりのゲイン数
ｕｓｅＲａｗＣｏｄｉｎｇ：ゲインインデックスは、それぞれｎＢｉｔｓＧａｉｎを用いて未処理を符号化したものなのか、又は算術符号化を用いて符号化したのかを示す。
ｇａｉｎＩｄｘ［ｐｏｓ］［ｓｉｇ］：電流信号グループ内の位置ｓｉｇ上の信号の位置ｐｏｓ上のブロックに対応するゲインインデックス。ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ＝０である場合、可能な値は範囲｛０、…、７｝であり、ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ＝１である場合、可能な値は範囲｛０、…、１５｝である。
ＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢ：０ｄＢに対応するゲインインデックスオフセット、ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ＝０の場合に値４が用いられ、ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ＝１の場合に値８が用いられる。ゲインインデックスはは、ＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢをそれらの当初の符号付きデータ範囲に加えることによって符号無し値として伝達される。
ａｌｌ＿ｚｅｒｏ：電流信号に対する１フレーム内のすべてのゲインインデックスが値ＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢを有するか否かを示す。
ｕｓｅＤｅｆａｕｌｔＢｅｔａＦａｃｔｏｒＩｄｘ：電流信号に対するベータ因子インデックスが、ｄｅｆａｕｌｔＢｅｔａＦａｃｔｏｒ［ｓｉｇ］によって特定される初期設定の値を有するか否かを示す。
ｂｅｔａＦａｃｔｏｒＩｄｘ［ｓｉｇ］：ゲイン補償手順におけるゲインを変更するために用いるベータ因子インデックス。

５．５．Ｘ．２．１低複雑性プロファイルに対する制限
信号の総数（すべての信号群に渡ってカウントされる）が最大で６である場合、制限はない。
そうでない場合、ＨＲＥＰがアクティブである信号の総数（ＨＲＥＰＣｏｎｆｉｇ（）におけるｉｓＨＲＥＰＡｃｔｉｖｅ［ｓｉｇ］構文要素によって示され、すべての信号群に渡ってカウントされる）が最大で４である場合、更なる制限はない。
そうでない場合、ＨＲＥＰがアクティブである信号の総数（ＨＲＥＰＣｏｎｆｉｇ（）におけるｉｓＨＲＥＰＡｃｔｉｖｅ［ｓｉｇ］構文要素によって示され、すべての信号群に渡ってカウントされる）は、最大で８に制限されるものとする。
更に、各フレームに対して、ＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢとは異なるゲインインデックスの総数（ＨＲＥＰがアクティブである信号に対して、すべての信号群に渡ってカウントされる）は、最大で４×ｇａｉｎ＿ｃｏｕｎｔとする。ブロックがＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢと等しいゲインインデックスを有する場合、ＦＦＴ、補間補正、及びＩＦＦＴは省略するものとする。この場合、入力ブロックに正弦ウィンドウの二乗を乗じて、重複加算手順において直接用いるものとする。

５．５．Ｘ．３復号プロセス
５．５．Ｘ．３．１概要
構文要素ｍｐｅｇｈ３ｄａＥｘｔＥｌｅｍｅｎｔＣｏｎｆｉｇ（）において、フィールドｕｓａｃＥｘｔＥｌｅｍｅｎｔＰａｙｌｏａｄＦｒａｇは、ＩＤ＿ＥＸＴ＿ＥＬＥ＿ＨＲＥＰ要素の場合、ゼロとする。ＨＲＥＰツールは、タイプＳｉｇｎａｌＧｒｏｕｐＴｙｐｅＣｈａｎｎｅｌｓ及びＳｉｇｎａｌＧｒｏｕｐＴｙｐｅＯｂｊｅｃｔ（ＳｉｇｎａｌＧｒｏｕｐＴｙｐｅ［ｇｒｐ］Ｓｉｇｎａｌｓ３ｄ（）構文要素によって規定される）の信号群に対してのみ適用可能である。したがって、ＩＤ＿ＥＸＴ＿ＥＬＥ＿ＨＲＥＰ要素は、タイプＳｉｇｎａｌＧｒｏｕｐＴｙｐｅＣｈａｎｎｅｌｓ及びＳｉｇｎａｌＧｒｏｕｐＴｙｐｅＯｂｊｅｃｔの信号グループに対してのみ存在するものとする。
用いるブロックサイズ及び相応にＦＦＴサイズは、Ｎ＝１２８である。
処理全体を、電流信号グループにおける各信号に対して独立に行う。したがって、表記を単純にするために、復号プロセスの説明を、位置ｓｉｇ上の１つの信号に対してのみ行う。

図５ａ：復号サイドにおける高分解能エンベロープ処理（ＨＲＥＰ）ツールのブロック図
５．５．Ｘ．３．２量子化されたベータ因子の復号
ベータ因子インデックスｂｅｔａＦａｃｔｏｒＩｄｘ［ｓｉｇ］をベータ因子ｂｅｔａ＿ｆａｃｔｏｒに変換するための以下のルックアップテーブルを、ｅｘｔｅｎｄｅｄＢｅｔａＦａｃｔｏｒＰｒｅｃｉｓｉｏｎの値に応じて用いるものとする。

tab_beta_factor_dequant_coarse[8]=[
0.000f,0.035f,0.070f,0.120f,0.170f,0.220f,0.270f,0.320f
]
tab_beta_factor_dequant_precise[16]=[
0.000f,0.035f,0.070f,0.095f,0.120f,0.145f,0.170f,0.195f,
0.220f,0.245f,0.270f,0.295f,0.320f,0.345f,0.370f,0.395f
]
extendedBetaFactorPrecision=0の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_coarse[betaFactorIndex[sig]]
extendedBetaFactorPrecision=1の場合、変換を次のように計算する
beta_factor=tab_beta_factor_dequant_precise[betaFactorIndex[sig]]

５．５．Ｘ．３．３量子化ゲインの復号
１フレームを、ｇａｉｎ＿ｃｏｕｎｔブロック（それぞれＮサンプルからなる）として処理する。これらは半分重複している。各ブロックに対するスカラゲインを、ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅの値に基づいて得る。

５．５．Ｘ．３．４ＬＰ部分及びＨＰ部分の計算
入力信号ｓを、サイズＮのブロック（半分重複している）に分割して、入力ブロック
を生成する。ここで、ｋはブロックインデックスであり、ｉはブロックｋ内のサンプル位置である。ウィンドウｗ［ｉ］は、ｉｂ［ｋ］に、詳細には正弦ウィンドウ（と規定される）に適用する。
またＦＦＴを適用した後にも、複素係数ｃ［ｋ］［ｆ］を、以下のように得る。

符号器サイドにおいて、ＬＰ部分を取得するために、ｃ［ｋ］の要素毎の乗算を、処理形状ｐｓ［ｆ］を用いて適用する。処理形状は以下からなる。
ｌｐ＿ｓｉｚｅ＝ｌａｓｔＦＦＴＬｉｎｅ［ｓｉｇ］＋１−ｔｒａｎｓｉｔｉｏｎＷｉｄｔｈＬｉｎｅｓ［ｓｉｇ］パラメータは、ローパス領域のＦＦＴラインにおける幅を表し、ｔｒ＿ｓｉｚｅ＝ｔｒａｎｓｉｔｉｏｎＷｉｄｔｈＬｉｎｅｓ［ｓｉｇ］パラメータは、遷移領域のＦＦＴラインにおける幅を表す。

復号器サイドにおいて、遷移領域において完全な再構成を得るために、遷移領域における適応的再構成形状ｒｓ［ｆ］を、符号器サイドで用いる処理形状ｐｓ［ｆ］の代わりに用いなければならず、これは処理形状ｐｓ［ｆ］及びｇ［ｋ］に以下のように依存する。

ＬＰブロックｉｐｂ［ｋ］を、以下のようにＩＦＦＴとウィンドウ処理とを再び適用することによって得る。
ＨＰブロックｈｐｂ［ｋ］を次に、時間ドメインにおける単純な減算によって得る。

５．５．Ｘ．３．５補間補正の計算
ゲインｇ［ｋ−１］及びｇ［ｋ］は、符号器サイド上で、位置ｋ−１及びｋ上のブロックに適用されるが、ウィンドウ処理及び重複加算操作によって暗黙的に補間される。遷移領域の上方のＨＰ部分において完全な再構成を実現するために、以下のように補間補正係数が必要である。

５．５．Ｘ．３．６補償されたゲインの計算
コア符号器及び復号器によって過渡事象の更なる減衰が導入される。この減衰は、ゲインg[k]を、以前に計算したベータ因子を用いて調整することによって、以下のように補償される。

５．５．Ｘ．３．７出力信号の計算
ｇｃ［ｋ］及びｃｏｒｒ［ｉ］に基づいて、出力ブロックｏｂ［ｋ］の値を、以下のように計算する。

最後に、出力信号を出力ブロックを用いて重複加算を用いて以下のように計算する。

５．５．Ｘ．４符号器説明（参考情報）
図９ｃ：符号化サイドでの高分解能エンベロープ処理（ＨＲＥＰ）ツールのブロック図
５．５．Ｘ．４．１ゲイン及びベータ因子の計算
前処理サイドにおいて、ブロックｋのＨＰ部分（過渡事象を含むと仮定する）を、スカラゲインｇ［ｋ］を用いて調整して、その近辺におけるバックグラウンドにより類似させる。ブロックｋのＨＰ部分のエネルギーをｈｐ＿ｅ［ｋ］によって示し、ブロックｋの近辺のＨＰバックグラウンドの平均エネルギーをｈｐ＿ｂｇ＿ｅ［ｋ］によって示す。
パラメータα∈［０，１］（調整量を制御する）を以下のように規定する。
ｇ_float［ｋ］の値を量子化して、ｅｘｔｅｎｄｅｄＧａｉｎＲａｎｇｅ構成選択肢の選択値によって許容される範囲に対してクリップして、ゲインインデックスｇａｉｎｌｄｘ［ｋ］［ｓｉｇ］を以下のように生成する。
処理のために用いる値ｇ［ｋ］が量子化値であり、復号器サイドにおいて以下のように規定される。

αが０のときは、ゲインは値ｇ_float［ｋ］＝１を有しており、したがって調整は行わず、αが１のときは、ゲインは値
を有しており、したがってバックグラウンドの平均エネルギーと一致するように、調整されたエネルギーを形成する。前述の関係を以下のように書き換えることができる。
これが表しているのは、バックグラウンドｈｐ＿ｂｇ＿ｅ［ｋ］の対応する平均エネルギーの周りでの調整されたエネルギーｇ_float［ｋ］×ｈｐ＿ｅ［ｋ］の変動が、係数（１−α）によって低減されるということである。提案するシステムでは、α＝０．７５を用いているため、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのＨＰエネルギーの変動は、当初の２５％まで低減される。

コア符号器及び復号器によって、過渡事象の更なる減衰が導入される。この減衰は、追加の減衰ステップを導入することによって、パラメータβ∈［０，１］を用いて、コア符号器構成とフレームの信号特徴とに応じて、以下のようにほぼモデリングされる。
これが表しているのは、コア符号器及び復号器を通過した後に、バックグラウンドｈｐ＿ｂｇ＿ｅ［ｋ］の対応する平均エネルギーの周りでの復号化エネルギーｇｃ_float［ｋ］×ｈｐ＿ｅ［ｋ］の変動が、更なる係数（１−β）によって更に低減されることである。

ｇ［ｋ］、α及びβを用いて、ｇｃ［ｋ］の推定値を復号器サイドにおいて、以下のように計算することができる。
パラメータ
を、ｂｅｔａＦａｃｔｏｒＩｄ［ｓｉｇ］に対して量子化して、各フレームに対するサイド情報として伝達する。補償されたゲインｇｃ［ｋ］を、ベータ因子を用いて以下のように計算することができる。

５．５．Ｘ．４．２ＬＰ部分及びＨＰ部分の計算
処理は、以前に規定した復号器サイドにおける対応するものと同一であるが、但し、処理形状ｐｓ［ｆ］を、適応的再構成形状ｒｓ［ｆ］の代わりに、ＬＰブロックｌｐｂ［ｋ］の計算において用いる。ＬＰブロックを、以下のように、ＩＦＦＴとウィンドウ処理とを再び適用することによって得る。

５．５．Ｘ．４．３出力信号の計算
ｇ［ｋ］に基づいて、出力ブロックｏｂ［ｋ］の値を以下のように計算する。
復号器サイドと同じで、出力信号を出力ブロックを用いて重複加算を用いて以下のように計算する。

５．５．Ｘ．４．４算術符号化を用いたゲインの符号化
ヘルパー関数ＨＲＥＰ＿ｅｎｃｏｄｅ＿ａｃ＿ｄａｔａ（ｇａｉｎ＿ｃｏｕｎｔ、ｓｉｇｎａｌ＿ｃｏｕｎｔ）は、以下のＵＳＡＣ低レベル算術符号化関数を用いて配列ｇａｉｎＩｄｘからのゲイン値の書き込みを記述する。
arith_encode(*ari_state,symbol,cum_freq),
arith_encoder_open(*ari_state),
arith_encoder_flush(*ari_state).
２つの更なるヘルパー関数を導入する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total),
これは、１ビットbit_valueを、p0=count_0/total_count及びp1=1-p0及び
ari_encode_bit(*ari_state,bit_value)を用いて符号化する。
これは、１ヒ_ットbit_valueを、モデリングを用いずに、p0=0.5及びp1=0.5を用いて符号化する。
ari_encode_bit_with_prob(*ari_state,bit_value,count_0,count_total)
[
prob_scale=1<<14;
tbl[0]=prob_scale-(count_0*prob_scale)/count_total;
tbl[1]=0;
arith_encode(ari_state,bit_value,tbl);
]

ari_encode_bit(*ari_state,bit_value)
[
prob_scale=1<<14;
tbl[0]=prob_scale>>1;
tbl[1]=0;
ari_encode(ari_state,bit_value,tbl);
]

HREP_encode_ac_data(gain_count,signal_count)
[
cnt_mask[2]=[1,1];
cnt_sign[2]=[1,1];
cnt_neg[2]=[1,1];
cnt_pos[2]=[1,1];

arith_encoder_open(&ari_state);

for(pos=0;pos<gain_count;pos++)[
for(sig=0;sig<signal_count;sig++)[
if(!isHREPActive[sig])[
continue;
]

sym=gainIdx[pos][sig]-GAIN_INDEX_0dB;
if(extendedGainRange)[
sym_ori=sym;
sym=max(min(sym_ori,GAIN_INDEX_0dB/2-1),-GAIN_INDEX_0dB/2);
]

mask_bit=(sym!=0);
arith_encode_bit_with_prob(ari_state,mask_bit,cnt_mask[0],cnt_mask[0]+cnt_mask[1]);
cnt_mask[mask_bit]++;

if(mask_bit)[
sign_bit=(sym<0);
arith_encode_bit_with_prob(ari_state,sign_bit,cnt_sign[0],cnt_sign[0]+cnt_sign[1]);
cnt_sign[sign_bit]+=2;

if(sign_bit)[
large_bit=(sym<-2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_neg[0],cnt_neg[0]+cnt_neg[1]);
cnt_neg[large_bit]+=2;
last_bit=sym&1;
arith_encode_bit(ari_state,last_bit);
]else[
large_bit=(sym>2);
arith_encode_bit_with_prob(ari_state,large_bit,cnt_pos[0],cnt_pos[0]+cnt_pos[1]);
cnt_pos[large_bit]+=2;
if(large_bit==0)[
last_bit=sym&1;
ari_encode_bit(ari_state,last_bit);
]
]
]

if(extendedGainRange)[
prob_scale=1<<14;
esc_cnt=prob_scale/5;
tbl_esc[5]=[prob_scale-esc_cnt,prob_scale-2*esc_cnt,prob_scale-3*esc_cnt,prob_scale-4*esc_cnt,0];
if(sym_ori<=-4)[
esc=-4-sym_ori;
arith_encode(ari_state,esc,tbl_esc);
]else if(sym_ori>=3)[
esc=sym_ori-3;
arith_encode(ari_state,esc,tbl_esc);
]

]
]

arith_encode_flush(ari_state);
]

Claims

時変高周波ゲイン情報（１０４）をサイド情報（１０６）として有するオーディオ信号（１０２）を後処理するためのオーディオポストプロセッサ（１００）であって、
前記オーディオ信号（１０２）の高周波帯域（１１２）と前記オーディオ信号（１０２）の低周波帯域（１１４）とを抽出するための帯域抽出部（１１０）と、
前記時変高周波ゲイン情報（１０４）に従って前記高周波帯域（１１２）の時変増幅を行って処理済高周波帯域（１２２）を取得するための高帯域プロセッサ（１２０）と、
前記処理済高周波帯域（１２２）と前記低周波帯域（１１４）とを結合するための結合器（１３０）と、
を含むオーディオポストプロセッサ（１００）。
前記帯域抽出部（１１０）は、ローパスフィルタ装置（１１１）を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する（１１３）ことによって前記高周波帯域を抽出するように構成されている請求項１に記載のオーディオポストプロセッサ。
前記時変高周波ゲイン情報（１０４）は、前記オーディオ信号（１０２）のサンプリング値のブロックのシーケンス（３００〜３０３）に対して設けられていて、サンプリング値の第１のブロック（３０１）に第１のゲイン情報（３１１）が付随し、前記オーディオ信号のサンプリング値の第２の後ブロック（３０２）が異なる第２のゲイン情報（３１２）を有するようになっており、前記帯域抽出部（１１０）は、前記サンプリング値の第１のブロック（３０１）から第１の低周波帯域と第１の高周波帯域とを抽出し、前記サンプリング値の第２のブロック（３０２）から第２の低周波帯域と第２の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ（１２０）は、前記第１のゲイン情報（３１１）を用いて前記第１の高周波帯域を変更して第１の処理済高周波帯域を取得し、前記第２のゲイン情報（３１２）を用いて前記第２の高周波帯域を変更して第２の処理済高周波帯域を取得するように構成され、
前記結合器（１３０）は、前記第１の低周波帯域と前記第１の処理済高周波帯域とを結合して第１の結合ブロックを取得し、前記第２の低周波帯域と前記第２の処理済高周波帯域とを結合して第２の結合ブロックを取得するように構成されている請求項１又は２に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）と前記高帯域プロセッサ（１２０）と前記結合器（１３０）とは、重複ブロック内で動作するように構成され、
前記オーディオポストプロセッサ（１００）は更に、ブロック重複範囲内の第１のブロック（３０１）のオーディオサンプルと第２のブロック（３０２）のオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器（１４０）を含む請求項１〜３のいずれか１項に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部（１１５）であって、前記ブロックは時間重複している、分析ウィンドウ処理部（１１５）と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ（１１６）と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器（１１７）と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ（１１８）と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部（１１９）と、
を含む、請求項１〜４のいずれか１項に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号（１０２）をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部（１２１）であって、前記オーディオ信号ウィンドウ処理部（１２１）は前記ウィンドウ処理部（１１５、１１９）と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部（１２１）を含む、請求項５に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算（１１３）を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項５又は６に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ（１２０）は、前記変更を、ハイパス時間ドメインサンプリング値のブロックの前記シーケンスの各ブロックの各サンプルに適用するように構成され、ブロックのサンプルに対する変更は、前ブロックのゲイン情報と現在のブロックのゲイン情報か又は現在のブロックのゲイン情報と次のブロックのゲイン情報とに依存する請求項７に記載のオーディオポストプロセッサ。
前記オーディオ信号は更なる制御パラメータ（５００）を更なるサイド情報として含み、前記高帯域プロセッサ（１２０）は、前記変更を前記更なる制御パラメータ（５００）も考慮して適用するように構成され、前記更なる制御パラメータ（５００）の時間分解能は前記時変高周波ゲイン情報の時間分解能よりも低いか、又は前記更なる制御パラメータは特定のオーディオ素片に対して固定されている請求項１〜７のいずれか１項に記載のオーディオポストプロセッサ。
前記結合器（１３０）は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の増幅されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項８に記載のオーディオポストプロセッサ。
更に、ブロック重複範囲（３２１）内の結合信号値の前記シーケンスの第１のブロック（３０１）のオーディオサンプルと前記第１のブロックに隣接する隣の第２のブロック（３０２）のオーディオサンプルとを加算することによって、後処理済オーディオ信号部分を計算するための重複加算（１４０）プロセッサを含む請求項１０に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）、前記高帯域プロセッサ（１２０）、及び前記結合器（１３０）は重複ブロック内で動作して、重複範囲（３２１）はブロック長の４０％〜ブロック長の６０％であるか、又はブロック長は０．８ミリ秒〜５ミリ秒であるか、又は前記高帯域プロセッサ（１２０）によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数であるか、又は前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号の最大周波数の１／８〜１／３であり、好ましくは前記オーディオ信号の前記最大周波数の１／６に等しい請求項１〜１１のいずれか１項に記載のオーディオポストプロセッサ。
前記ローパス整形器（１１７）は、対応するブロックに対する前記時変高周波ゲイン情報（１０４）に応じて整形関数を適用するように構成されている請求項５に記載のオーディオポストプロセッサ。
前記整形関数は更に、対応するブロックに対する前記時変高周波ゲイン情報を用いて前記オーディオ信号の高周波帯域を変更するか又は減衰させるためにオーディオプレプロセッサ（２００）内で用いられる整形関数に依存する請求項１３に記載のオーディオポストプロセッサ。
ブロックのサンプルに対する前記変更は更に、前記分析ウィンドウ関数又は前記合成ウィンドウ関数によって規定されるあるサンプルに対して適用されるウィンドウ処理係数に依存する請求項８に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）、前記高帯域プロセッサ（１２０）、及び前記結合器（１３０）は、前記オーディオ信号から重複ブロックとして得られるブロック（３００〜３０３）のシーケンスを処理して、前ブロックの後部分が、前記前ブロックに時間的に隣接している後ブロックの前部分と同じオーディオ信号オーディオサンプルから得られるように構成されている請求項１〜１５のいずれか１項に記載のオーディオポストプロセッサ。
前記重複ブロックの重複範囲（３２１）は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記ポストプロセッサは更に、前記重複加算演算を行うための重複加算器（１４０）を含む請求項１６に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）は、分割フィルタ（１１１）の勾配であって前記分割フィルタのストップ範囲とパス範囲との間の勾配を、オーディオサンプルのブロックに適用するように構成され、前記勾配はサンプルの前記ブロックに対する前記時変高周波ゲイン情報に依存する請求項１６又は１７に記載のオーディオポストプロセッサ。
前記高周波ゲイン情報はゲイン値を含み、前記勾配は、より低いゲイン値に対する前記勾配の増加と比べて、より高いゲイン値に対してより強く増加される請求項１８に記載のオーディオポストプロセッサ。
前記分割フィルタ（１１１）の前記勾配は、以下の方程式：
に基づいて規定され、式中、ｒｓ［ｆ］は前記分割フィルタ（１１１）の前記勾配であり、ｐｓ［ｆ］は前記オーディオ信号を生成するときに用いられる分割フィルタの勾配であり、ｇ［ｋ］は前記時変高周波ゲイン情報から得られるゲイン係数であり、ｆは周波数インデックスであり、ｋはブロックインデックスである請求項１７〜１９のいずれか１項に記載のオーディオポストプロセッサ
前記高周波ゲイン情報は、隣接するブロックに対するゲイン値を含み、前記高帯域プロセッサ（１２０）は、前記隣接するブロックに対する前記ゲイン値に応じて、及び対応するサンプルに対するウィンドウ係数に応じて、各サンプルに対する補正係数を計算するように構成されている請求項１６〜２０のいずれか一項に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ（１２０）は以下の方程式：
に基づいて動作するように構成され、式中、ｃｏｒｒ［ｊ］はインデックスｊを伴うサンプルに対する補正係数であり、ｇ［ｋ−１］は先行するブロックに対するゲイン係数であり、ｇ［ｋ］は現在のブロックに対するゲイン係数であり、ｗ［ｊ］はサンプルインデックスｊを伴うサンプルに対するウィンドウ関数係数であり、Ｎはブロックのサンプルにおける長さであり、ｇ［ｋ＋１］は前記後ブロックに対するゲイン係数であり、ｋは前記ブロックインデックスであり、前記方程式からの上方の方程式は出力ブロックｋの前半に対するものであり、前記方程式の下方の方程式は前記出力ブロックｋの後半に対するものである請求項２１に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ（１２０）は、前記オーディオポストプロセッサ（１００）による処理の前に行われる処理によって前記オーディオ信号内に導入される過渡事象の減衰を更に補償するように構成されている請求項１７〜２２のいずれか１項に記載のオーディオポストプロセッサ。
前記高帯域プロセッサは、以下の方程式：
に基づいて動作するように構成され、式中、ｇｃ［ｋ］はブロックインデックスｋを伴うブロックに対する補償されたゲインであり、ｇ［ｋ］は、前記サイド情報として含まれる前記時変高周波ゲイン情報によって示される非補償ゲインであり、ベータ因子（５００）は、前記サイド情報（１０６）内に含まれる更なる制御パラメータ値である請求項２３に記載のオーディオポストプロセッサ。
前記高帯域プロセッサ（１２０）は、前記処理済高帯域を以下の方程式：
に基づいて計算するように構成され、式中、ｐｈｐｂ［ｋ］［ｉ］はブロックｋ及びサンプル値ｉに対する処理済高帯域を示し、ｇｃ［ｋ］は補償されたゲインであり、ｃｏｒｒ［ｉ］は補正係数であり、ｋはブロックインデックスであり、ｉはサンプリング値インデックスであり、ｈｐｂ［ｋ］［ｉ］はブロック及びサンプリング値ｉに対する高帯域であり、Ｎはブロックのサンプルにおける長さである請求項２２及び２４のいずれか１項に記載のオーディオポストプロセッサ。
前記結合器（１３０）は前記結合ブロックを、
ｏｂ［ｋ］［ｉ］＝ｌｐｂ［ｋ］［ｉ］＋ｐｈｐｂ［ｋ］［ｉ］
として計算するように構成され、式中、ｌｐｂ［ｋ］［ｉ］はブロックｋ及びサンプルインデックスｉに対する低周波帯域である請求項２５に記載のオーディオポストプロセッサ。
更に、以下の方程式：
に基づいて動作する重複加算器（１４０）を含み、式中、ｏ［］は、ｋ及びｊから得られるサンプルインデックスに対する後処理済オーディオ出力信号のサンプルの値であり、ｋはブロック値であり、Ｎはブロックのサンプルにおける長さであり、ｊはブロック内のサンプリングインデックスであり、ｏｂ［］は、前記前ブロックインデックスｋ−１、現在のブロックインデックスｋ、又は後ブロックインデックスｋ＋１に対する結合ブロックを示す請求項１６〜２６のいずれか１項に記載のオーディオポストプロセッサ。
前記時変高周波ゲイン情報はゲインインデックス（６００）及びゲイン拡張範囲情報（６０２）のシーケンスを含んでいるか、又は前記サイド情報はゲイン補償情報（６０３）及びゲイン補償精度情報（６０４）を更に含み、
前記オーディオポストプロセッサは、
前記ゲイン精度情報（６０２）に応じて前記ゲインインデックス（６０１）を復号して、第１の精度情報に対する第１の数の異なる値の復元済ゲイン（６２１）又は第２の精度情報に対する第２の数の異なる値の復元済ゲイン（６２１）を取得するための復号器（６２０）であって、前記第２の数は前記第１の数よりも大きい、復号器（６２０）、又は
前記補償精度（６０４）情報に応じて前記ゲイン補償インデックス（６０３）を復号して、第１の補償精度情報に対する第１の数の異なる値の復元済ゲイン補償値（６２２）又は第２の異なる補償精度情報に対する第２の異なる数の値の復元済ゲイン補償値（６２２）を取得するための復号器（６２０）であって、前記第１の数は前記第２の数よりも大きい、復号器（６２０）を含む、請求項１〜２７のいずれか１項に記載のオーディオポストプロセッサ。
前記復号器（６２０）は、ブロックに対するゲイン係数（６２１）を計算するように構成され：
式中、ｇ［ｋ］は、ブロックインデックスｋを伴うブロック（３０１）に対するゲイン係数（６２１）であり、ｇａｉｎＩｄｘ［ｋ］［ｓｉｇ］は前記時変高周波ゲイン情報（１０４）として前記サイド情報に含まれる量子化値であり、ＧＡＩＮ＿ＩＮＤＥＸ＿０ｄＢは、前記ゲイン精度情報が第１のステータスを有するときに第１の値を伴い、前記ゲイン精度情報が第２のステータスを有するときに第２の異なる値を伴う０ｄＢに対応するゲインインデックスオフセットである請求項２８に記載のオーディオポストプロセッサ。
前記帯域抽出部（１１０）は、Ｎサンプリング値のブロック長によってブロック毎の離散フーリエ変換（１１６）を実行して、Ｎ／２複素スペクトル値の数よりも小さいスペクトル値の数を、スパース離散フーリエ変換アルゴリズムであって、最大周波数を上回るスペクトル値に対する分岐の計算が省略されるスパース離散フーリエ変換アルゴリズムを行うことによって取得するように構成され、
前記帯域抽出部（１１０）は、前記低周波帯域信号の計算を、遷移開始周波数範囲までのスペクトル値を用いることによって、及び前記遷移開始周波数範囲内のスペクトル値を重み付けする（１１７ａ、１１７ｂ）ことによって行うように構成され、前記遷移開始周波数範囲は前記最大周波数又は前記最大周波数よりも小さい周波数までのみ及んでいる請求項１〜２９のいずれか１項に記載のオーディオポストプロセッサ。
前記高周波帯域の前記時変増幅に対するサイド情報（１０６）が利用可能である最大数のチャンネル又はオブジェクトに対する後処理のみを実行して、前記高周波帯域の前記時変増幅に対する何らのサイド情報も利用できないチャンネル又はオブジェクトの数に対しては何らの後処理も実行しないように構成されているか、又は
前記帯域抽出部（１１０）は、前記高周波帯域の前記時変増幅に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項１〜３０のいずれか１項に記載のオーディオポストプロセッサ
オーディオ信号（２０２）を前処理するためのオーディオプレプロセッサ（２００）であって、
前記オーディオ信号（２０２）を分析して時変高周波ゲイン情報（２０４）を決定するための信号分析器（２６０）と、
前記オーディオ信号（２０２）の高周波帯域（２１２）と前記オーディオ信号の低周波帯域（２１４）とを抽出するための帯域抽出部（２１０）と、
前記時変高周波ゲイン情報に従って前記高周波帯域（２１２）の時変変更を行って処理済高周波帯域（２２２）を取得するための高帯域プロセッサ（２２０）と、前記処理済高周波帯域（２２２）と前記低周波帯域（２１４）とを結合して前処理済オーディオ信号（２３２）を取得するための結合器（２３０）と、
前記前処理済オーディオ信号（２３２）と前記時変高周波ゲイン情報（２０４）とをサイド情報（２０６）として含む出力信号（２５２）を生成するための出力インターフェース（２５０）と、
を含むオーディオプレプロセッサ（２００）。
前記信号分析器（２６０）は、前記オーディオ信号を分析して、前記オーディオ信号の第１の時間ブロック（３０１）内の第１の特徴と前記オーディオ信号の第２の時間ブロック（３０２）内の第２の特徴とを決定する（８０１、８０２）ように構成され、前記第２の特徴は、前記第１の特徴よりも過渡的であるか、又は前記第１の特徴よりも大きい高周波エネルギーレベルであり、
前記信号分析器（２６０）は、前記第１の特徴に対する第１のゲイン情報（３１１）と前記第２の特徴に対する第２のゲイン情報（３１２）とを決定する（８０３）ように構成され、
前記高帯域プロセッサ（２２０）は、乗算係数（８０４）を、前記第２のゲイン情報に従って前記第２の時間ブロック（３０２）の高帯域部分に適用することを、前記第１のゲイン情報に従って前記第１の時間ブロック（３０１）の高帯域部分に適用する場合よりも強く行うように構成されている請求項３２に記載のオーディオプレプロセッサ。
前記信号分析器（２６０）は、前記現在時刻ブロックの前に配置されているか若しくは前記現在時刻ブロックの後に配置されているか若しくは前記現在時刻ブロックの前後に配置されているか、又は前記現在時刻ブロックを含むか若しくは前記現在時刻ブロックを除外する時間的に隣接する１つ以上の時間ブロックに対して、前記高帯域のバックグラウンドエネルギーに対するバックグラウンド尺度を計算し（８０５）、
現在のブロックの高帯域に対するエネルギー尺度を計算し（８０８）、
前記バックグラウンド尺度と前記エネルギー尺度とを用いてゲイン係数を計算する（８０９）ように構成されている請求項３２〜３３のうちのいずれかに記載のオーディオプレプロセッサ。
前記信号分析器（２６０）は、前記ゲイン係数を以下の方程式：
に基づいて計算するように構成され、式中、ｇ_floatは非量子化ゲイン係数であり、ｋはブロックインデックスであり、αは変動影響係数でり、ｈｐ＿ｂｇ＿ｅ［ｋ］はブロックｋに対する高周波バックグラウンドエネルギーであり、ｈｐ＿ｅ［ｋ］は高周波ブロックのエネルギーであり、Ｔ＿ｑｕｉｅｔは静穏な閾値であり、前記係数α及び前記静穏な閾値は予め決められているか又は更なる制御パラメータによって制御可能である請求項３３に記載のオーディオプレプロセッサ。
前記信号分析器（２６０）と前記高帯域プロセッサ（１２０）とは、前記時変高周波ゲイン情報を計算し、前記時変高周波ゲイン情報を適用して、バックグラウンドの対応する平均エネルギーの周りでの各ブロックのエネルギーの変動が少なくとも５０％、好ましくは７５％だけ低減されるように構成されている請求項３２〜３５のいずれか１項に記載のオーディオプレプロセッサ。
前記信号分析器（２６０）は、ゲイン情報値の未処理シーケンスを量子化及びクリップして（８１２）、前記時変高周波ゲイン情報を量子化値のシーケンスとして取得するように構成され、
前記高帯域プロセッサ（２２０）は、前記量子化値のシーケンスに従って前記高帯域の前記時変変更を実行する（８１３）ように構成され、
前記出力インターフェース（２５０）は、前記量子化値のシーケンスを前記サイド情報（２０６）内に前記時変高周波ゲイン情報（２０４）として導入する（８１４）ように構成されている請求項３２〜３６のいずれか１項に記載のオーディオプレプロセッサ。
前記オーディオプレプロセッサ（２００）は、
その後に接続される符号器又は復号器によって導入されるエネルギー変動の損失を記述する更なるゲイン補償値を決定し（８１５）、
前記更なるゲイン補償情報を量子化する（８１６）ように構成され、
前記出力インターフェース（２５０）は、前記量子化された更なるゲイン補償情報を前記サイド情報内に導入する（８１７）ように構成されている請求項３２〜３７のいずれか１項に記載のオーディオプレプロセッサ。
前記信号分析器（２６０）は、前記計算された時変高周波ゲイン情報の前記更なる変更を制御するメタゲイン制御（８０６）を適用して、前記オーディオ信号から更に得られる更なる制御データ（８０７）に従って前記オーディオ信号に対する前記高帯域プロセッサ（２２０）の効果を徐々に減らすか又は徐々に高めるように構成されているか、又は、
前記信号分析器（２６０）は、以下の方程式に基づいて前記ゲイン情報を計算するときに係数アルファに影響を与えるように構成され、アルファを増加させると影響が大きくなり、アルファを減少させると影響が小さくなり、
式中、ｇ_floatは非量子化ゲイン係数であり、ｋはブロックインデックスであり、ｈｐ＿ｂｇ＿ｅ［ｋ］は前記ブロックｋに対する高周波バックグラウンドエネルギーであり、ｈｐ＿ｅ［ｋ］は高周波ブロックのエネルギーであり、Ｔ＿ｑｕｉｅｔは静穏な閾値であり、前記係数α及び前記静穏な閾値は予め決められているか又は更なる制御パラメータによって制御可能である請求項３２〜３８のいずれか１項に記載のオーディオプレプロセッサ。
前記帯域抽出部（２１０）は、ローパスフィルタ装置（１１１）を用いて前記低周波帯域を抽出し、前記オーディオ信号から前記低周波帯域を減算する（１１３）ことによって前記高周波帯域を抽出するように構成されている請求項３２〜３９のいずれか１項に記載のオーディオプレプロセッサ。
前記時変高周波ゲイン情報（２０４）は、前記オーディオ信号のサンプリング値のブロックのシーケンス（３００〜３０３）に対して設けられていて、サンプリング値の第１のブロック（３０１）に第１のゲイン情報（３１１）が付随し、前記オーディオ信号のサンプル値の第２の後ブロック（３０２）が異なる第２のゲイン情報（３１２）を有するようになっており、前記帯域抽出部は、サンプリング値の前記第１のブロックから第１の低周波帯域と第１の高周波帯域とを抽出し、サンプリング値の前記第２のブロックから第２の低周波帯域と第２の高周波帯域とを抽出するように構成され、
前記高帯域プロセッサ（２２０）は、前記第１のゲイン情報（３１１）を用いて前記第１の高周波帯域を変更して第１の処理済高周波帯域を取得し、前記第２のゲイン情報（３１２）を用いて前記第２の高周波帯域を変更して第２の処理済高周波帯域を取得するように構成され、
前記結合器（２３０）は、前記第１の低周波帯域と前記第１の処理済高周波帯域とを結合して第１の結合ブロックを取得し、前記第２の低周波帯域と前記第２の処理済高周波帯域とを結合して第２の結合ブロックを取得するように構成されている請求項３２〜４０のいずれか１項に記載のオーディオプレプロセッサ。
前記帯域抽出部（２１０）と前記高帯域プロセッサ（２２０）と前記結合器（２３０）とは、重複ブロック内で動作するように構成され、
前記結合器（２３０）は更に、ブロック重複範囲（３２１）内の第１のブロックのオーディオサンプルと第２のブロックのオーディオサンプルとを加算することによって後処理部分を計算するための重複加算器を含むか、又は。
前記帯域抽出部（２１０）、前記高帯域プロセッサ（２２０）、及び前記結合器（２３０）は重複ブロック内で動作して、重複範囲（３２１）はブロック長の４０％〜ブロック長の６０％であるか、又は
ブロック長は０．８ミリ秒〜５ミリ秒であるか、又は
前記高帯域プロセッサ（２２０）によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される減衰であるか、又は
前記低周波帯域のカットオフ又はコーナー周波数は、前記オーディオ信号（２０２）の最大周波数の１／８〜１／３であり、好ましくは前記オーディオ信号の前記最大周波数の１／６に等しい請求項３２〜４１のいずれか１項に記載のオーディオプレプロセッサ。
前記帯域抽出部（２１０）は、
分析ウィンドウを用いて前記オーディオ信号のサンプリング値のブロックのシーケンスを生成するための分析ウィンドウ処理部（２１５）であって、前記ブロックは時間重複している、分析ウィンドウ処理部（２１５）と、
スペクトル値のブロックのシーケンスを生成するための離散フーリエ変換プロセッサ（２１６）と、
スペクトル値の各ブロックを整形して、スペクトル値のローパス整形されたブロックのシーケンスを取得するためのローパス整形器（２１７ａ、２１７ｂ）と、
ローパス時間ドメインサンプリング値のブロックのシーケンスを生成するための離散逆フーリエ変換プロセッサ（２１８）と、
合成ウィンドウを用いてローパス時間ドメインサンプリング値のブロックの前記シーケンスをウィンドウ処理するための合成ウィンドウ処理部（２１９）と、
を含む請求項３２〜４２のいずれか１項に記載のオーディオプレプロセッサ。
前記ローパス整形器（２１７ａ、２１７ｂ）は以下の方程式：
に基づいて動作するように構成され、式中、ｐｓ［ｆ］は、周波数値ｆに対して前記ローパス整形器によって適用されるべき整形の整形係数を示し、ｆは周波数値であり、ｔｒ＿ｓｉｚｅは遷移領域のスペクトル線における幅を決定する値であり、ｌｐ＿ｓｉｚｅは、前記遷移領域がないローパス部分のサイズを示し、Ｎはブロックに対するサンプリング値の数を示す請求項４３に記載のオーディオプレプロセッサ。
前記ブロック抽出部は更に、前記分析ウィンドウと前記合成ウィンドウとを用いて前記オーディオ信号をウィンドウ処理して、オーディオ信号値のウィンドウ処理済ブロックのシーケンスを取得するためのオーディオ信号ウィンドウ処理部（２２１）であって、前記オーディオ信号ウィンドウ処理部は、前記ウィンドウ処理部（２１５、２１９）と同期して、ローパス時間ドメインサンプリング値のブロックの前記シーケンスが、オーディオ信号値のウィンドウ処理済ブロックの前記シーケンスと同期するようになっている、オーディオ信号ウィンドウ処理部（２２１）を含む、請求項４３又は４４のいずれか１項に記載のオーディオプレプロセッサ。
前記帯域抽出部（２１０）は、前記オーディオ信号から得られるブロックの対応するシーケンスからローパス時間ドメイン値のブロックの前記シーケンスのサンプル毎の減算（１１３）を実行して、ハイパス時間ドメインサンプリング値のブロックのシーケンスを取得するように構成されている請求項４３〜４５のいずれか１項に記載のオーディオプレプロセッサ。
前記分析器（２６０）は更に、メタゲイン制御（８０６）によって計算される制御パラメータ（８０７）をもたらし、前記高帯域プロセッサ（２２０）は前記変更を前記制御パラメータも考慮して適用するように構成されている請求項３２〜４６のいずれか１項に記載のオーディオプレプロセッサ。
前記結合器（２３０）は、ローパス時間ドメインサンプリング値のブロックの前記シーケンスとハイパス時間ドメインサンプリング値の変更されたブロックの前記シーケンスとの対応するブロックのサンプル毎の加算を実行して、結合信号値のブロックのシーケンスを取得するように構成されている請求項４３〜４７のいずれか１項に記載のオーディオプレプロセッサ。
更に、ブロック重複範囲内の結合信号値の前記シーケンスの第１のブロックのオーディオサンプルと前記第１のブロックに隣接する隣の第２のブロックのオーディオサンプルとを加算することによって、前処理済オーディオ信号部分を計算するための重複加算プロセッサを含む請求項４８に記載のオーディオプレプロセッサ。
前記帯域抽出部（２１１）、前記高帯域プロセッサ（７２０）、及び前記結合器（２３０）は
重複ブロック内で動作して、重複範囲はブロック長の４０％〜ブロック長の６０％であるか、又は
ブロック長は０．８ミリ秒〜５ミリ秒であるか、又は
前記高帯域プロセッサ（２２０）によって行われる前記変更は、時間ドメイン内のブロックの各サンプルに適用される乗算係数である請求項３２〜４９のいずれか１項に記載のオーディオプレプロセッサ。
前記重複ブロックの重複範囲（３２１）は前記前ブロックの半分に等しく、前記後ブロックはサンプル値の数に対して前記前ブロックと同じ長さを有し、前記結合器は前記重複加算演算を行うための重複加算器を含む請求項３２〜５０のいずれか１項に記載のオーディオプレプロセッサ。
最大数のチャンネル又はオブジェクトに対する前処理のみを実行して前記最大数のチャンネル又はオブジェクトに対する前記サイド情報（２０６）を生成し、前記サイド情報（２０６）が生成されないチャンネル又はオブジェクトの数に対しては何らの前処理も実行しないように構成されているか、又は
前記帯域抽出部（２１０）は、前記信号分析器（２６０）によって決定された前記時変高周波ゲイン情報（２０４）に対する自明なゲイン係数に対しては、何らの帯域抽出も実行せず、離散フーリエ変換及び逆離散フーリエ変換対も計算せず、及び前記自明なゲイン係数に付随する不変な又はウィンドウ処理済時間ドメイン信号は通過するように構成されている請求項３２〜５１のいずれか１項に記載のオーディオポストプロセッサ。
オーディオ信号を符号化するためのオーディオ符号化装置であって、
請求項３２〜５２のうちのいずれか一項に記載のオーディオプレプロセッサであって、前記時変高周波ゲイン情報をサイド情報として有する出力信号（２５２）を生成するように構成されたオーディオプレプロセッサと、
コア符号化信号（９０２）とコアサイド情報（９０４）とを生成するためのコア符号器（９００）と、
前記コア符号化信号（９０２）、前記コアサイド情報（９０４）、及び前記時変高周波ゲイン情報を更なるサイド情報（１０６）として含む符号化信号（９１２）を生成するための出力インターフェース（９１０）と、
を含むオーディオ符号化装置。
前記オーディオ信号は多チャンネル又は多オブジェクト信号であり、前記オーディオプレプロセッサ（２００）は各チャンネル又は各オブジェクトを別個に前処理するように構成され、前記コア符号器（９００）は、前記前処理済チャンネル（２３２）に対して、結合多チャンネル符号器処理又は結合多オブジェクト符号器処理又は符号器帯域ギャップ充填又は符号器帯域幅拡張処理を適用するように構成されている請求項５３に記載のオーディオ符号化装置。
オーディオ復号装置であって、
コア符号化信号（９０２）、コアサイド情報（９０４）、及び前記時変高周波ゲイン情報（１０４）を更なるサイド情報として含む符号化オーディオ信号（９１２）を受け取るための入力インターフェース（９２０）と、
前記コアサイド情報（９０４）を用いて前記コア符号化信号（９０２）を復号して復号化コア信号を取得するためのコア復号器（９３０）と、
請求項１〜３１のいずれかに記載の時変高周波ゲイン情報（１０４）を用いて前記復号化コア信号（１０２）を後処理するためのポストプロセッサ（１００）と、
を含むオーディオ復号装置。
前記コア復号器（９３０）は、
多チャンネル信号（１０２）の復号化チャンネル又は多オブジェクト信号（１０２）の復号化オブジェクトを生成するために、多チャンネル復号器処理又は多オブジェクト復号器処理又は帯域幅拡張復号器処理又はギャップ充填復号器処理を適用するように構成されており、
前記ポストプロセッサ（１００）は、各チャンネル又は各オブジェクトに対する前記個々の時変高周波ゲイン情報を用いて、各チャンネル又は各オブジェクトに対して別個に前記後処理を適用するように構成されている請求項５５に記載のオーディオ復号器装置。
時変高周波ゲイン情報（１０４）をサイド情報（１０６）として有するオーディオ信号（１０２）を後処理する（１００）方法であって、
前記オーディオ信号の高周波帯域（１１２）と前記オーディオ信号の低周波帯域（１１４）とを抽出する（１１０）ことと、
前記時変高周波ゲイン情報（１０４）に従って前記高帯域の時変変更を行って（１２０）処理済高周波帯域（１２２）を取得することと、
前記処理済高周波帯域（１２２）と前記低周波帯域（１１４）とを結合する（１３０）ことと、
を含む方法。
オーディオ信号（２０２）を前処理する（２００）方法であって、
前記オーディオ信号（２０２）を分析して（２６０）時変高周波ゲイン情報（２０４）を決定することと、
前記オーディオ信号の高周波帯域（２１２）と前記オーディオ信号の低周波帯域（２１４）とを抽出する（２１０）ことと、
前記時変高周波ゲイン情報に従って前記高周波帯域の時変変更を行って（２２０）処理済高周波帯域を取得することと、
前記処理済高周波帯域（２２２）と前記低周波帯域（２１４）とを結合して（２３０）前処理済オーディオ信号を取得することと、
前記前処理済オーディオ信号（２３２）と前記時変高周波ゲイン情報（２０４）とをサイド情報（１０６）として含む出力信号（２５２）を生成する（２５０）ことと、
を含む方法。
オーディオ信号を符号化する方法であって、
前記時変高周波ゲイン情報（２０４）をサイド情報（１０６）として有する出力信号を生成するように構成された請求項５８に記載のオーディオ前処理する（２００）方法と、
コア符号化信号（９０２）とコアサイド情報（９０４）とを生成することと、
前記コア符号化信号（９０２）、前記コアサイド情報（９０４）、及び前記時変高周波ゲイン情報（２０４）を更なるサイド情報（１０６）として含む符号化信号（９１２）を生成する（９１０）ことと、
を含む方法。
オーディオ復号する方法であって、
コア符号化信号（９０２）、コアサイド情報（９０４）、及び前記時変高周波ゲイン情報（２０４）を更なるサイド情報（１０６）として含む符号化オーディオ信号（９１２）を受け取る（９２０）ことと、
前記コアサイド情報（９０４）を用いて前記コア符号化信号（９０２）を復号して（９３０）復号化コア信号（１０２）を取得することと、
請求項５５に記載の方法による前記時変高周波ゲイン情報（１０４）を用いて前記復号化コア信号（１０２）を後処理（１００）することと、
を含む方法。
コンピュータ又はプロセッサ上で実行されたときに、請求項５７、５８、５９、６０に記載の方法のいずれか一項を行うためのコンピュータプログラム。