JP2021535426A

JP2021535426A - コンパンディングによる密過渡イベントの符号化

Info

Publication number: JP2021535426A
Application number: JP2021509742A
Authority: JP
Inventors: ビスワス，アリジート; ムント，ハラルト
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2018-08-21
Filing date: 2019-08-21
Publication date: 2021-12-16
Anticipated expiration: 2039-08-21
Also published as: EP3841572A1; US20220270624A1; US11830507B2; WO2020039000A1; EP3841572B1; CN112771610A; CN112771610B; JP7447085B2

Abstract

実施形態は、オーディオコーデックにおいて符号化ノイズを低減するコンパンディング方法及びシステムに関する。オーディオ信号を処理する方法は、以下の動作を含む。システムは、オーディオ信号を受信する。前記システムは、前記オーディオ信号の第１フレームが粗過渡信号を含むと決定する。前記システムは、前記オーディオ信号の第２フレームが密過渡信号を含むと決定する。前記システムは、前記オーディオ信号の前記第１フレームに第１コンパンディング指数を適用し及び前記オーディオ信号の前記第２フレームに第２コンパンディング指数を適用するコンパンディングルールを用いて、前記オーディオ信号を圧縮／伸長（コンパンディング）する。各コンパンディング指数は、対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される。前記システムは、次に、前記コンパンディングされたオーディオ信号を下流装置に提供する。

Description

［関連出願］
本願は、以下の基礎出願の優先権を主張する。米国仮特許出願番号第６２/７２０,４４７号（参照番号：D１８０７５USP１）、２０１８年８月２１日出願、参照によりここに組み込まれる。

［技術分野］
１つ以上の実施形態は、概して、オーディオシング脳処理に関し、より詳細には、デジタルオーディオ符号化の最中に信号に依存する方法で圧縮／伸長（compression/expansion）（コンパンディング、companding）技術を最適に使用することに関する。

［著作権表示］
本特許文書の開示の一部は、著作権保護を受ける内容を含む。著作権者は、特許商標庁の特許ファイル又は記録に記載されているように、本特許文書又は特許開示のいずれによる複製にも異議を唱えることがないが、それ以外の場合は全ての著作権を保留する。

多くの一般的なデジタル音声フォーマットは、記憶又はデータレート要件の低減のためにデータの一部を破棄する損失データ圧縮技術を利用する。損失データ圧縮の適用は、ソースコンテンツ（例えば、オーディオコンテンツ）の忠実性を低下させるだけでなく、圧縮アーチファクトの形式で顕著な歪みも導入し得る。オーディオ符号化システムの文脈では、これらの音声アーチファクトは、符号化ノイズ又は量子化ノイズと呼ばれる。デジタルオーディオシステムは、コーデック（コーダ−デコーダコンポーネント）を利用して、所定のオーディオファイルフォーマット又はストリーミングメディアオーディオフォーマットに従い、オーディオデータを圧縮及び伸長する。コーデックは、可能な限り高い忠実度を保ちながら、最小限のビット数でオーディオデータを表現するよう試みるアルゴリズムを実施する。オーディオコーデックで標準的に使用される損失圧縮技術は、人間の聴覚の心理音響モデルの上で動作する。オーディオフォーマットは、通常、時間／周波数ドメイン変換（例えば、修正離散コサイン変換（modified discrete cosine transform, MDCT））の使用、及び周波数マスク又は時間マスクのようなマスク効果の使用、を含み、その結果、任意の明らかな量子化ノイズを含む特定の音声が、実際のコンテンツにより隠蔽され又はマスクされる。

知られているように、オーディオコーデックは、通常、周波数ドメインにおいて符号化ノイズをシェーピングし、その結果、少なくとも聞き取れるようになる。フレームに基づくエンコーダでは、符号化ノイズは、フレームの低強度部分の間に最も聞こえ、復号オーディオ信号の中で高強度セグメントに先行する無音（又は低レベル信号）がノイズによりスワップされるプレエコー歪みとして聞こえることがある。このような効果は、過渡的音声又はカスタネットのような打楽器若しくは他の鋭い打撃音源からの衝撃音（impulses）において最も顕著であり得、標準的に、周波数ドメインに導入された量子化ノイズが時間ドメインにおけるコーデックの変換ウインドウ全体に渡り広がることにより引き起こされる。

プレエコーアーチファクトを最小化するためにフィルタが使用されているが、このようなフィルタは、通常、位相歪み及び時間スミアリング（smearing）を導入する。小さな変換ウインドウの使用も１つのアプローチであるが、これは、周波数解像度を有意に低減し、フレーム内の複数の小さな変換ウインドウの使用は「サイド情報」ビットレートを増大させる。

オーディオコーデックにおいて量子化ノイズの時間的ノイズシェーピングを達成するために、コンパンディング技術の使用を通じて、プレエコーアーチファクトの影響を克服するために、あるシステムが開発された。このような実施形態は、ＱＭＦドメインにおいて実装されるコンパンディングアルゴリズムの使用を含み、マスキング閾値計算方針と関連して、量子化ノイズの時間シェーピングを達成する。しかしながら、これは、通常、特定の信号タイプに適よされる必要のあるコンパンディングのタイプを推測するには直接的ではない。一般に、コンパンディングは、時間ドメイン（時間的）ノイズシェーピングにおいて利益を提供するが、周波数ドメインノイズシェーピングにおいても利益を提供できる。しかしながら、ビットレート制約を満たすｔまえに閾値低下方針と一緒にマスキング閾値を計算することは、高度に非線形の動作であり、周波数ドメインノイズシェーピングの最終結果を予測することは困難である。このため、本来非線形のコンパンディングの動作と同様に、コンテンツに依存する方法で適用される必要のあるコンパンディングのタイプを予測することは極めて困難である。特定のデータ収集の努力を通じて、専ら又は主に会話又は拍手から成るオーディオコンテンツにとってコンパンディングが有利であることが分かった。会話及び拍手に対して独立に機能する検出器を設計する可能性があるが、会話及び拍手の両方を検出できる、複雑さの少ない且つ遅延を有しない単純な検出器を設計することは直接的ではない。更に、本発明の検出器は、常に１００％正確ではない。

必要なことは、従って、入力信号のコンテンツに基づきコンパンディングを適応的に適用できる、信号に依存するコンパンディングシステムである。更に必要なことは、複雑なオーディオ信号にコンパンディングを適切に適用するために、会話／拍手及び更に音色のあるオーディオコンテンツの間を良好に区別できる検出回路である。

背景技術で議論した主題は、単に背景技術の章で言及された結果として従来技術と考えられるべきではない。同様に、背景技術の章で言及された又は背景技術の章の主題に関連する問題は、従来技術で以前に認識されていたと考えられるべきではない。背景技術の章における主題は、単に異なるアプローチを表し、それらのうちのいずれも本発明であってよい。

実施形態は、オーディオ信号を受信し、２つの所定の閾値を用いて純粋な正弦波、ハイブリッド、又は純粋な過渡信号のうちの１つとしてオーディオ信号を分類し、直交変調フィルタ（quadrature modulated filter (QMF)）ドメインにおける時間的急激さの測定を使用するコンパンディングルールを用いて、分類したハイブリッド信号に選択的なコンパンディング（圧縮／伸長）操作を適用することにより、オーディオ信号を処理する方法を対象とする。選択的なコンパンディング操作は、コンパンディングオフモード、コンパンディングオンモード、及び平均コンパンディングモード、のうちの１つを含む。平均コンパンディングモードは、オーディオ信号の複数のフレームのうちの各フレームの利得係数を測定し、各フレームに一定の利得係数を適用することにより導出される。ここで、利得係数は、コンパンディングオフモードの隣接フレームの１．０の利得係数より、コンパンディングオンモードの隣接フレームの利得係数に近い。当該方法は、１つのフレームの中の複数のタイムスロットに渡り平均絶対エネルギレベルを平均化することにより、利得係数を計算するステップを更に含んでよい。分類したハイブリッド信号では、選択的なコンパンディング操作は、コンパンディングオンモード、及び平均コンパンディングモード、のうちの１つを含む。

実施形態では、当該方法は、分類した純粋な正弦波信号に対してコンパンディングをオフにするステップと、分類した純粋な過渡信号に対してコンパンディングをオンにするステップと、を更に含む。分類したハイブリッド信号は、拍手又は会話コンテンツを含んでよい。コンパンディングルールは、直交変調フィルタ（ＱＭＦ）ドメインにおけるスペクトルの急激さの測定を更に使用してよい。実施形態では、当該方法は、選択的なコンパンディング操作を符号化する制御情報を生成するステップと、オーディオエンコーダからオーディオデコーダへのデジタルオーディオ出力と一緒に送信されるビットストリーム内で該制御情報を送信するステップと、を更に含む。分類されたハイブリッド信号は、部分的正弦波及び部分的過渡信号の少なくとも組合せを含み、ハイブリッド信号の優勢な成分に基づき選択的なコンパンディング操作を適用して、圧縮において適用される利得の連続性及び切り替えアーチファクトにより引き起こされるオーディオ歪みを低減するために、部分的正弦波及び部分的過渡信号を区別するために更に処理される。コンパンディングルールは、第１閾数値より高い時間的な急激さを有する周波数帯の数に基づく第１測定と、第１閾数値より低い時間的な急激さの平均に基づく第２測定と、を使用する。

実施形態は、システムを更に対象とし、当該システムは、
広帯域利得値により直交変調フィルタ（ＱＭＦ）タイムスロットを変更するために圧縮を適用するエンコーダであって、利得値が大きいことは、比較的低い強度のスロットの増幅をもたらし、又は小さいことは、比較的高い強度のスロットの減衰をもたらす、エンコーダと、
エンコーダからデコーダへオーディオ出力を送信するインタフェースであって、デコーダは、コンパンディング操作における圧縮の逆である伸長を適用するよう構成される、インタフェースと、
コンパンディング制御部であって、入力オーディオ信号を受信して信号特性に基づき入力オーディオ信号を分類するよう構成される検出器、及び分類された入力オーディオ信号に基づき複数のコンパンディングモードの間で切り替えるよう構成されるスイッチ、を有するコンパンディング制御部と、を含む。

実施形態は、また、オーディオデコーダを更に対象とし、当該オーディオデコーダは、
広帯域利得値により直交変調フィルタ（ＱＭＦ）タイムスロットを変更するために圧縮を適用するエンコーダから、符号化圧縮オーディオ信号を受信する第１インタフェースであって、利得値が大きいことは、比較的低い強度のスロットの増幅をもたらし、又は小さいことは、比較的高い強度のスロットの減衰をもたらす、第１インタフェースと、
コンパンディング操作における圧縮を逆処理するために伸長を適用する伸長コンポーネントと、
信号特性に基づき入力オーディオ信号を分類し及び分類した入力オーディオ信号に基づき複数のコンパンディングモードの間で切り替える制御部から、コンパンディング制御モードを符号化するビットストリームを受信する第２インタフェースと、を含む。

更なる実施形態は、方法、システム、装置、及び、オーディオ信号を処理するよう構成される命令を格納する非一時的コンピュータ可読媒体を対象とする。一実施形態では、オーディオが受信される。オーディオ信号の時間セグメント（例えば、フレーム）について、オーディオ信号の時間セグメントが分析されて、オーディオ信号の時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定する。オーディオ信号の時間セグメントは、決定の結果に基づきコンパンディング（ダイナミックレンジが圧縮又は伸長）される。オーディオ信号のコンパンディングされた時間セグメントが出力される。ここで、オーディオ信号の時間セグメントをコンパンディングするステップは、コンパンディング指数に基づきオーディオ信号の時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含む。第１コンパンディング指数は、オーディオ信号の時間セグメントが粗過渡信号を含む（例えば、第１過渡タイプの信号を含む）と決定された場合に、コンパンディングにおいて使用される。第１コンパンディング指数と異なる第２コンパンディング指数は、オーディオ信号の時間セグメントが密過渡信号を含む（例えば、第２過渡タイプの信号を含む）と決定された場合に、コンパンディングにおいて使用される。

更なる実施形態によると、システムは、オーディオ信号を受信する。システムは、オーディオ信号の第１フレームが粗過渡信号（例えば、第１過渡タイプの信号）を含むと決定する。システムは、オーディオ信号の第２フレームが密過渡信号（例えば、第２過渡タイプの信号）を含むと決定する。システムは、オーディオ信号の第１フレームに第１コンパンディング指数を適用し及びオーディオ信号の第２フレームに第２コンパンディング指数を適用するコンパンディングルールを用いて、オーディオ信号に圧縮／伸長（コンパンディング）操作を適用する。各コンパンディング指数は、対応するフレームについてダイナミックレンジ圧縮のそれぞれの程度を導出するために使用される。システムは、次に、コンパンディングされたオーディオ信号を、それぞれのコンパンディング指数と共に、消費のために下流装置に提供する。

本願明細書に開示される技術は、従来のオーディオ処理技術に勝る１つ以上の利点を達成するために実装できる。例えば、従来、コンパンディングツールの焦点は、低ビットレートにおける会話品質を向上することであった。その結果、コンパンディングツールにおいてα＝０．６５の固定されたコンパンディング指数が、会話に合わせた後に使用され、標準化された。α＝０．６５のコンパンディング指数は、拍手を向上するようにも見える。本願明細書に開示される技術は、「符号化の困難な」密過渡信号（dense transient signal）、例えば拍手、パチパチする火、又は雨を改良することにより、従来技術を改良する。コンテンツの過渡タイプに基づき、コンパンディング指数のために異なる値を選択することにより、開示の技術は、これらの密過渡信号について良好な品質の音声を生成できる。

開示の技術は、オーディオ符号化において最小限のオーバヘッドしか追加しない。以下に詳述されるように、開示の技術は、オーディオ圧縮符号化方式、例えばデジタルオーディオ圧縮（Audio Compression (AC−４)）標準におけるコンパンディング制御データ構造に１ビットのみを追加することにより、過渡タイプのコンテンツの音声を向上できる。従って、開示の技術は、簡易且つ効率的である。

実施形態は、また更に、エンコーダ、デコーダ、又は結合型エンコーダ／デコーダシステムの部分として使用され得る信号に依存するコンパンディングシステムを実現し又は実施する回路及び設計を生成し、使用し又は展開する方法を対象とする。

［関連出願］
本願明細書で言及される各技術的仕様、出版物、特許、及び／又は特許出願は、それぞれの個々の出版物及び／マスａａ特許出願が具体的に及び個々に参照により組み込まれると示されるのと同程度に、参照によりその全体がここに組み込まれる。

以下の図面において、同様の参照符号は同様の要素を表すために使用される。以下の図面は種々の例を示すが、１つ以上の実装は、図視された例に限定されない。

幾つかの実施形態における、コンテンツ検出器と共に使用され得るコーデックに基づくオーディオ処理システムにおける量子化ノイズを低減するコンパンディングシステムを示す。

実施形態における、複数の短時間セグメントに分割されたオーディオ信号を示す。

実施形態における、短時間セグメントの各々に渡る広帯域利得の適用の後の、図２Ａのオーディオ信号を示す。

実施形態における、オーディオ信号を圧縮する方法を示すフローチャートである。

実施形態における、オーディオ信号を伸長する方法を示すフローチャートである。

実施形態における、オーディオ信号を圧縮するシステムを示すブロック図である。

実施形態における、オーディオ信号を伸長するシステムのブロック図である。

実施形態における、オーディオ信号の複数の短時間セグメントへの分割を示す。

例示的な実施形態における、和音（chord）のフレームの例示的なＱＭＦスロットを示す。

幾つかの実施形態における、信号適応型コンパンダを用いるオーディオコンテンツを分類する方法を示すフローチャートである。

幾つかの実施形態における、トーン信号から会話又は拍手を区別するために、スペクトル急激さを用いる方法を示すフローチャートである。

コンテンツに基づくコンパンディング指数を選択する例示的な技術を示す。

コンパンディング指数の例示的な値、及び対応するコンパンディング状態を示すテーブルである。

過渡密度に基づくコンパンディングの第１の例示的な処理を示すフローチャートである。

過渡密度に基づくコンパンディングの第２の例示的な処理を示すフローチャートである。

過渡密度に基づくコンパンディングの第３の例示的な処理を示すフローチャートである。

量子化ノイズの時間シェーピングを達成するために、ＱＭＦドメインにおいて実施されるコンパンディングアルゴリズムの使用を通じて、オーディオコーデック内で量子化ノイズの時間ノイズシェーピングを達成するコンパンディング技術に対して特定の改良の使用のためのシステム及び方法が説明される。実施形態は、オーディオコンテンツの中の信号コンテンツ（例えば、会話及び拍手）の検出器を含み、検出したコンテンツに基づき適切なタイプ又は量のコンパンディングを適用し、従って信号に依存する方法で最適なコンパンディングを提供する。

ここに記載される１つ以上の実施形態の態様は、ソフトウェア命令を実行する１つ以上のコンピュータ又は処理装置を含むネットワークを介して送信するためにオーディオ信号を処理するオーディオシステム内に実装されてよい。記載される実施形態のうちの任意のものは、単独で又は任意の組合せで互いに一緒に使用されてよい。種々の実施形態は、本願明細書の１つ以上の箇所で議論され又は言及され得る従来技術の種々の欠点により動機を与えられ得るが、実施形態は、必ずしもこれらの欠点のうちのいずれかを解決しない。言い換えると、異なる実施形態は、本願明細書で議論され得る異なる欠点を解決し得る。幾つかの実施形態は、本願明細書で議論され得る幾つかの欠点を部分的にのみ又は１つの欠点だけを解決し得る。幾つかの実施形態は、これらの欠点のうちのいずれも解決しないこともある。

図１は、幾つかの実施形態における、コンテンツ検出器と共に使用され得るコーデックに基づくオーディオ処理システムにおける量子化ノイズを低減するコンパンディングシステムを示す。図１は、エンコーダ（又は「コアエンコーダ」）１０６とデコーダ（又は「コアデコーダ」）１１２とを含むオーディオコーデックについて構築されるオーディオ信号処理システムを示す。エンコーダ１０６は、ネットワーク１１０を介して送信するために、オーディオコンテンツをデータストリーム又は信号へと符号化する。データストリーム又は信号は、再生又は更なる処理のために、デコーダ１１２により復号される。実施形態では、コーデックのエンコーダ１０６及びデコーダ１１２は、損失圧縮方法を実施して、デジタルオーディオデータの記憶及び／又はデータレート要件を低減する。従って、コーデックは、ＭＰ３、Ｖｏｒｂｉｓ、ＤｏｌｂｙＤｉｇｉｔａｌ（ＡＣ−３又はＡＣ−４）、ＡＡＣ、又は同様のコーデックとして実装されてよい。コーデックの損失圧縮方法は、通常、コーデックにより定義されるフレームの展開に渡りレベルの固定した符号化ノイズを生成する。このような符号化ノイズは、しばしば、フレームの低強度部分の間に最も聞こえる。システム１００は、コーデックのコアエンコーダ１０６の前に圧縮ステップ前コンポーネント１０４と、コアデコーダ１１２の出力に作用する伸長ステップ後コンポーネント１１４と、を設けることにより、既存の符号化システムにおける知覚符号化ノイズを低減するコンポーネントを含む。圧縮コンポーネント１０４は、元のオーディオ入力信号１０２を複数の時間セグメントに、所定のウインドウ形状を用いて分割し、初期オーディオ信号の周波数ドメインサンプルのエネルギに基づかない平均を用いて、周波数ドメインにおける広帯域利得を計算し適用するよう構成される。ここで、各時間セグメントに適用される利得値は、相対的に低い強度のセグメントを増幅し、相対的に高い強度のセグメントを減衰する。この利得変更は、入力オーディオ信号１０２の元のダイナミックレンジを圧縮し又は有意に低減する効果を有する。圧縮されたオーディオ信号は、次に、エンコーダ１０６内で符号化され、ネットワーク１１０２を介して送信され、デコーダ１１２内で復号される。復号された圧縮信号は、伸長コンポーネント１１４に入力される。伸長コンポーネント１１４は、各時間セグメントに逆利得値を適用して、圧縮オーディオ信号のダイナミックレンジを元の入力オーディオ信号１０２のダイナミックレンジに戻すことにより、圧縮前ステップ１０４の逆操作を実行するよう構成される。従って、オーディオ出力信号１１６は、コンパンディング前及び後ステップを通じて除去される符号化ノイズを有する、元のダイナミックレンジを有するオーディオ信号を含む。

システム１００は、ＱＭＦドメインにおいて圧縮及び伸長（コンパンディング）を実行して、デジタルコーダ（これはオーディオ又は会話スペクトルフロントエンドのいずれか）量子化ノイズの量子化ノイズの時間的シェーピングを達成する。エンコーダは、ＤｏｌｂｙＤｉｇｉｔａｌＡＣ−３又はＡＣ−４コアコーダ、又は任意の他の同様のシステムであってよい。エンコーダは、コアエンコーダの前の圧縮を含む特定の前処理機能、及び前処理の逆操作を正確に実行するコアデコーダ出力の伸長を含む後処理機能を実行する。システムは、所望のデコーダコンパンディングレベルの信号に依存するエンコーダ制御、及び信号に依存するステレオ（及びマルチチャネル）コンパンディング処理を含む。図１に示すように、エンコーダ１０６はエンコードし、圧縮コンポーネント１０４は、コンパンディング決定の状態を検出するコンパンディング検出器１０５を含む。コンパンディングオン／オフ／平均化決定は、エンコーダ１０６内で検出され、デコーダ１１２へ送信される。その結果、圧縮器及び伸張器は、同じＱＭＦタイムスロットで、オン／オフ／平均化を切り替えることができる。ここで、ＱＭＦタイムスロット処理は、以下の詳細に説明される。

更に図１に示すように、圧縮コンポーネント又は圧縮前ステップ１０４は、コアエンコーダ１０６に入力されるオーディオ信号１０２のダイナミックレンジを削減するよう構成される。入力オーディオ信号は、多数の短セグメントに分割される。各短セグメントのサイズ又は長さは、コアエンコーダ１０６により使用されるフレームサイズの一部である。例えば、コアコーダの標準的なフレームサイズは、４０〜８０ミリ秒程度であってよい。この場合、各短セグメントは、１〜３ミリ秒程度であってよい。圧縮コンポーネント１０４は、適切な広帯域利得値を計算し、セグメント毎に入力オーディオ信号を圧縮する。これは、セグメント毎に適切な利得値により信号の短セグメントを変更することにより達成される。相対的に大きな利得値は、相対的に低い強度のセグメントを増幅するために選択され、小さな利得値は、高い強度のセグメントを減衰するために選択される。

図２Ａは、実施形態における、複数の短時間セグメントに分割されたオーディオ信号を示す。図２Ｂは、圧縮コンポーネントによる広帯域利得の適用の後の、同じオーディオ信号を示す。図２Ａに示すように、オーディオ信号２０２は、打楽器（例えば、カスタネット）により生成され得るような過渡（transient）（過渡イベント）又は音声インパルスを表す。信号は、時間ｔに対する電圧Ｖのグラフで示される振幅におけるスパイクを特徴とする。一般的に、信号の振幅は、音声の音響エネルギ又は強度に関連し、任意の時点における音声のパワーの指標を表す。オーディオ信号２０２がフレームに基づくオーディオコーデックを通じて処理されるとき、信号の部分は、変換（例えば、ＭＤＣＴ）フレーム２０４内で処理される。標準的な現在のデジタルオーディオシステムは、比較的長い期間のフレームを利用する。その結果、急激な遷移又は短いインパルス音声では、信号フレームは、低い強度と共に高い強度の音声を含み得る。従って、図２に示すように、単一のＭＤＣＴフレーム２０４は、音声信号のインパルス部分（ピーク）と共に、ピークの前後にある比較的大きな量の提供度信号を含む。実施形態では圧縮コンポーネント１０４は、信号を多数の短時間セグメント２０６に分割し、信号２０２のダイナミックレンジを圧縮するために、広帯域利得を各セグメントに適用する。各短セグメントの数及びサイズは、アプリケーションの必要及びシステム制約に基づき選択されてよい。個々のＭＤＣＴフレームのサイズに対して、短セグメントの数は、１２〜６４個のセグメントの範囲であってよく、標準的に３２個のセグメントを含んでよいが、実施形態はこれに限定されない。

図２Ｂは、実施形態における、短時間セグメントの各々に渡る広帯域利得の適用の後の、図２Ａのオーディオ信号を示す。図２Ｂに示すように、オーディオ信号２１２は、元の信号２０２と同じ相対形状を有する。しかしながら、低強度セグメントの振幅は、利増幅得値の適用により増大されており、高強度セグメントの振幅は、減衰利得値の適用により減少されている。

コアデコーダ１１２の出力は、縮小されたダイナミックレンジを有する入力オーディオ信号（例えば、信号２１２）とコアエンコーダ１０６により導入された量子化ノイズとの和である。この量子化ノイズは、各フレーム内の時間に渡りほぼ均一なレベルを特徴とする。伸長コンポーネント１１４は、復号信号に作用して、元の信号のダイナミックレンジを復元する。伸長コンポーネント１１４は、短セグメントサイズ２０６に基づき同じ短時間解像度を使用し、圧縮コンポーネント１０４において適用された利得を反転する。従って、伸長コンポーネント１１４は、元の信号において低強度を有し圧縮器により増幅されたセグメントには小さな利得（減衰）を適用し、元の信号において高強度を有し圧縮機により減衰されたセグメントには大きな利得（増幅）を適用する。コアコーダにより追加された量子化ノイズは、均一な時間エンベロープを有し、従って、後プロセッサにより同時にシェーピングされて、元の信号の時間エンベロープを近似的に辿る。この処理は、静かな部分（passages）の間にあまり聞こえない量子化ノイズを効果的にレンダリングする。ノイズは、高強度の部分の間に増幅され得るが、オーディオコンテンツ自体の騒々しい信号のマスキング効果によりあまり聞こえないままである。

図２Ａに示すように、コンパンディング処理は、オーディオ信号の離散セグメントを、それぞれの利得値により個々に変更する。特定の場合には、これは、圧縮コンポーネントの出力での不連続を生じることがあり、これはコアエンコーダ１０６内で問題を生じ得る。同様に、伸長コンポーネント１１４における利得の不連続は、シェーピングされたノイズのエンベロープに不連続を生じ得る。これは、オーディオ出力１１６の中に聞こえるクリックを生じ得る。オーディオ信号の短セグメントに個々の利得値を適用することに関連する別の問題は、標準的なオーディオ信号が多数の個々のソースの混合であるという事実に基づく。これらのソースのうちの幾つかは、時間に渡り固定的であってよく、幾つかは過渡的であってよい。固定的信号は、通常、それらの統計的パラメータが一定である。一方で、過渡的信号は、通常、一定ではない。過渡（transient）の広帯域特性が与えられると、混合におけるようなそれらのフィンガープリントは、つうじょう、高い周波数ほどより顕著になる。信号の短期間エネルギ（short−term energy (RMS)）に基づく利得計算は、より強く低い周波数にバイアスされる傾向があり、従って、固定的ソースにより支配的になり、時間に渡り僅かな変動しか示さない。従って、このエネルギに基づくアプローチは、通常、コアエンコーダにより導入されるノイズをシェーピングする際には非効率である。

実施形態では、システム１００は、個々の利得値の適用に関連する潜在的問題を解決するために、短プロトタイプフィルタを有するフィルタバンク内の圧縮及び伸長コンポーネントにおける利得を計算し適用する。変更されるべき信号（圧縮コンポーネント１０４における元の信号、及び伸長コンポーネント１１４内のコアデコーダ１１２の出力）は、先ず、フィルタバンクにより分析され、広帯域利得が周波数ドメインにおいて直接適用される。時間ドメインにおける対応する効果は、プロトタイプフィルタの形状に従い利得適用を自然に円滑にすることである。これは、上述の不連続の問題を解決する。変更された周波数ドメイン信号は、次に、対応する合成フィルタバンクにより、時間ドメインへと変換され戻される。フィルタバンクによる信号の分析は、そのスペクトルコンテンツへのアクセスを提供し、高周波数による貢献を優先的にブーストする（又は弱い任意のスペクトルコンテンツによる貢献をブーストする）ことを可能にし、信号ないの最も強い成分により支配されない利得値を提供する。これは、上述のような異なるソースの混合を含む音源に関連する問題を解決する。実施形態では、システムは、スペクトルの大きさのｐノルム（norm）を用いて、利得を計算する。ここで、ｐは、標準的に２より小さい（ｐ＜２）。これは、エネルギ（ｐ＝２）に基づくときに比べて、弱いスペクトルコンテンツのより大きな強調を可能にする。

上述のように、システムは、利得の適用を円滑にするためにプロトタイプフィルタを含む。通常、プロトタイプフィルタは、フィルタバンクの中で基本ウインドウ形状である。これは、フィルタバンク内の異なるサブバンドフィルタに対するインパルス応答を得るために、正弦波波形により変調される。例えば、短時間フーリエ変換（short−time Fourier transform (STFT)）がフィルタバンクであり、この変換の各周波数ラインはフィルタバンクのサブバンドである。短時間フーリエ変換は、信号を、長方形、Ｈａｎｎ、ＫＢＤ（Kaiser−Bessel derived）、又は何らかの他の形状であり得るウインドウ形状（Ｎサンプルウインドウ）により乗算することにより実施される。ウインドウ化された信号は、次に、ＳＴＦＴを取得するために、離散フーリエ変換（discrete Fourier transform (DFT)）操作を行われる。この場合のウインドウ形状はプロトタイプフィルタである。ＤＦＴは、それぞれが異なる周波数の正弦波に基づく関数から成る。正弦波関数により乗算されたウインドウ形状は、次に、その周波数に対応するサブバンドのためのフィルタを提供する。ウインドウ形状は全周波数において同じなので、「プロトタイプ」と呼ばれる。

実施形態では、システムは、フィルタバンクのために直交変調フィルタ（Quadrature Modulated Filter、QMF）バンクを利用する。特定の実装では、ＱＭＦバンクは、プロトタイプを形成する６４ｐｔウインドウを有してよい。余弦及び正弦関数により変調されたこのウインドウ（６４個の等間隔の周波数に対応する）は、ＱＭＦバンクのためにサブバンドフィルタを形成する。ＱＭＦ関数の各々の適用の後に、ウインドウは、６４サンプルだけ移動される。つまり、この場合の時間セグメントの間の重なり合いは、６４０−６４＝５７６サンプルである。しかしながら、この場合、ウインドウ形状は１０個の時間セグメントに渡って広がり（６４０＝１０＊６４）、ウインドウのメインローブ（そのサンプル値は非常に重要である）は約１２８サンプルの長さである。従って、ウインドウの効果的な長さは、依然として比較的短い。

実施形態では、伸長コンポーネント１１４は、理想的には、圧縮コンポーネント１０４により適用された利得を反転する。圧縮コンポーネントにより適用された利得を、ビットストリームを通じてデコーダへ送信することが可能であるが、このようなアプローチは、標準的に有意なビットレートを消費し得る。実施形態では、代わりに、システム１００は、伸長コンポーネント１１４により要求される利得を、自身に利用可能な信号、つまりデコーダ１１２の出力から直接推定する。これは、事実上、追加ビットを必要としない。圧縮及び伸長コンポーネントにおけるフィルタバンクは、互いに逆である利得を計算するために、同一になるよう選択される。更に、これらのフィルタバンクは、時間同期される。その結果、圧縮コンポーネント１０４の出力と伸長コンポーネント１１４の入力との間の任意の事実上の遅延は、フィルタバンクのストライドの倍数である。コアエンコーダ−デコーダが無損失であり、フィルタバンクが完全な再構成を提供する場合、圧縮及び伸長コンポーネントにおける利得は、互いに正確に逆であり、従って元の信号の正確な再構成を可能にする。実際には、しかしながら、伸長コンポーネントにより適用される利得は、単に圧縮コンポーネント１０４により適用される利得の逆の近い近似である。

実施形態では、圧縮コンポーネント及び伸長コンポーネントにおいて使用されるフィルタバンクはＱＭＦバンクである。標準的な使用適用では、コアオーディオフレームは、４０９６サンプル長であり、近隣フレームと２０４８のオーバラップを有する。４８ｋＨｚで、このようなフレームは、８５．３ミリ秒の長さになり得る。これに対し、使用されるＱＭＦバンクは、６４サンプル（これは１．３ミリ秒の長さである）のストライドを有してよく、これは利得の精細な時間解像度を提供する。更に、ＱＭＦは、６４０サンプル長の円滑なプロトタイプフィルタを有し、利得適用が時間に渡り円滑に変化することを保証する。このＱＭＦフィルタバンクによる分析は、信号の時間−周波数タイル化表現を提供する。各ＱＭＦタイムスロットは、ストライドに等しく、各ＱＭＦタイムスロット内には、６４個の等間隔のサブバンドがある。代替として、短期間フーリエ変換（short term Fourier transform (STFT)）のような他のフィルタバンクが利用されてよく、このような時間−周波数タイル化表現が依然として取得され得る。

実施形態では、圧縮コンポーネント１０４は、コーデック入力をスケーリングする前処理を実行する。本実施形態では、Ｓ_ｔ（ｋ）は、タイムスロットｔ及び周波数ビンｋにおける複素数値フィルタバンクサンプルである。図６は、実施形態における、周波数範囲について、オーディオ信号の複数のタイムスロットへの分割を示す。図６００の実施形態では、図示のような（必ずしも縮尺通りではない）複数の時間−周波数タイルを生成する、６４個の周波数ビンｋ、及び３２個のタイムスロットｔがある。圧縮前ステップは、Ｓ’_ｔ（ｋ）＝Ｓ_ｔ（ｋ）／ｇ_ｔになるよう、コーデック入力をスケーリングする。この式で、ｇ_ｔ＝（Ｓ⁻ _ｔ／Ｓ_０）^γは正規化スロット平均である。

上式で、

は平均絶対レベル／１ノルムであり、Ｓ_０は適切な定数である。一般的なｐノルムは、この文脈では以下のように定義される。

１ノルムは、エネルギを使用する（ＲＭＳ／２ノルム）より、遙かに良好な結果を与え得ることが示された。指数γの値は、標準的に、０〜１の範囲であり、１／３になるよう選択されてよい。定数Ｓ_０は、実装プラットフォームと独立の妥当な利得値を保証する。例えば、全部のＳ_ｔ（ｋ）の値が絶対値で１に限定され得るプラットフォームに実装されるとき、定数Ｓ_０は１であってよい。Ｓ_ｔ（ｋ）が異なる最大絶対値を有し得るプラットフォームでは、定数Ｓ_０は異なる可能性がある。定数Ｓ_０は、大きな信号セットに渡る平均利得値が１に近いことを保証するためにも使用され得る。つまり、それは、コンテンツの大きなコーパスから決定された、最大信号値と最小信号値との間の中間信号値であり得る。

伸長コンポーネント１１４により実行される後ステップの処理では、コーデック出力は、圧縮コンポーネント１０４により適用されたのと逆の利得により伸長される。これは、圧縮コンポーネントのフィルタバンクの正確な又はほぼ正確なレプリカを必要とする。この場合、Ｓ⁻ _ｔ（ｋ）は、この第２フィルタバンクの複素数値サンプルを表す。伸長コンポーネント１１４は、次式になるように、コーデック出力をスケーリングする。

上式でｇ⁻ _ｔは正規化スロット平均であり、以下のように与えられる。

一般的に、伸長コンポーネント１１４は、圧縮コンポーネント１０４で使用されたのと同じｐノルムを使用する。従って、圧縮コンポーネント１０４で、平均絶対レベルが

を定義するために使用される場合、

も、上述の式で１ノルム（ｐ＝１）を用いて定義される。

ＳＴＦＴ又は複素ＱＭＦのような複素フィルタバンク（余弦及び正弦波の両方に基づく関数を含む）が、圧縮及び伸長コンポーネントで使用されるとき、複素サブバンドサンプルの大きさ

の計算は、計算集約的な平方演算を必要とする。これは、種々の方法で、例えばその実数部及び虚数部の大きさを合計することにより、複素サブバンドサンプルの大きさを近似することにより、回避できる。

上式では、値Ｋは、フィルタバンク内のサブバンドの数に等しく、又はそれより小さい。一般的に、ｐノルムは、フィルタバンク内のサブバンドの任意の部分集合を用いて計算され得る。しかしながら、エンコーダ１０６及びデコーダ１１２の両方で同じ部分集合が利用されるべきである。実施形態では、オーディオ信号の高周波数部分（例えば、６ｋＨｚより高いオーディオ成分）は、高度スペクトル拡張（advanced spectral extension (A−SPX)）ツールにより符号化され得る。更に、ノイズシェーピングを誘導するために、１ｋＨｚ（又は同様の周波数）より高い信号のみを使用することが望ましい場合がある。このような場合には、１ｋＨｚ〜６ｋＨｚの範囲内のサブバンドのみが、ｐノルム、従って利得値を計算するために使用されてよい。更に、利得はサブバンドの１つの部分集合から計算されるが、依然として、サブバンドの異なる及び場合によってはより大きな部分集合に適用され得る。

図１に示すように、オーディオコーデックのコアエンコーダ１０６により導入される量子化ノイズをシェーピングするコンパンディング機能は、特定のエンコーダ前圧縮機能及びデコーダ後伸長機能を実行する２つの別個のコンポーネント１０３４及び１１４により実行される。図３Ａは、実施形態における、エンコーダ前圧縮コンポーネント内のオーディオ信号を圧縮する方法を示すフローチャートである、図３Ｂは、実施形態における、デコーダ後伸長コンポーネント内のオーディオ信号を伸長する方法を示すフローチャートである。

図３Ａに示すように、処理３００は、圧縮コンポーネントが入力オーディオ信号を受信することにより開始する（３０２）。このコンポーネントは、オーディオ信号を短時間セグメントに分割し（３０４）、短セグメントの各々に広帯域利得値を適用することにより、オーディオ信号を縮小されたダイナミックレンジに圧縮する（３０６）。圧縮コンポーネントは、また、特定のプロトタイプフィルタリング及びＱＭＦフィルタバンクコンポーネントを実装し、上述のように、連続セグメントに異なる利得値を適用することにより引き起こされる任意の不連続を減少させ又は除去する。特定の場合には、このようなオーディオコンテンツのタイプ又はオーディオコンテンツの特定の特性に基づき、オーディオコーデックの符号化／復号段の前及び後にオーディオ信号を圧縮及び伸長することは、出力オーディオ品質を向上するより、むしろ低下させることがある。このような場合には、コンパンディング処理は、オフにされ、又は異なるコンパンディング（圧縮／伸長）レベルに戻すよう変更されてよい。従って、圧縮コンポーネントは、変数の中でも特に、コンパンディング機能の適性、及び／又は特定の信号入力及びオーディオ再生環境のために要求されるコンパンディングの最適レベルを決定する（３１０）。この決定ステップ３１０は、オーディオ信号３０４の分割又はオーディオ信号３０６の圧縮の前のような、処理３１０の任意の運用上の点で生じてよい。コンパンディングが適切であると考えられる場合、利得が適用され、エンコーダは次に、コーデックのフォーマットに従い、デコーダへ送信するために、信号を符号化する（３１２）。特定のコンパンディング制御データ、例えば、起動データ、同期データ、コンパンディングレベルデータ、及び他の同様の制御データは、伸長コンポーネントによる処理のためにビットストリームの部分として送信されてよい。

図３Ｂは、実施形態における、デコーダ後伸長コンポーネント内のオーディオ信号を伸長する方法を示すフローチャートである、処理３５０に示すように、コーデックのデコーダ段は、エンコーダ段から、オーディオ信号を符号化するビットストリームを受信する（３５２）。デコーダは、次に、コーデックデータフォーマットに従い符号化信号を復号する（３５３）。伸長コンポーネントは、次に、ビットストリームを処理し、任意の符号化制御データを適用して、制御データに基づき、伸長をオフに切り替え又は伸長パラメータを変更する（３５４）。伸長コンポーネントは、適切なウインドウ形状を用いて、オーディオ信号を時間セグメントに分割する（３５６）。実施形態では、時間セグメントは、圧縮コンポーネントにより使用されたのと同じ時間セグメントに対応する。伸長コンポーネントは、次に、周波数ドメインにおいて、セグメント毎に適切な利得値を計算し（３５８）、利得値を書く時間セグメントに適用して、オーディオ信号のダイナミックレンジを拡張して元のダイナミックレンジに戻し、又は任意の他の適切なダイナミックレンジにする（３６０）。

コンパンディング制御
システム１００のコンパンダを含む圧縮及び伸長コンポーネントは、オーディオ信号処理の最中の特定の時間にのみ、又はオーディオコンテンツの特定のタイプについてのみ、前及び後処理ステップを適用するよう構成されてよい。例えば、コンパンディングは会話（これは、インパルスのようなイベントの疑似定常シリーズで構成される）及び音楽過渡信号について利点を示し得る。しかしながら、定常的信号のような他の信号について、コンパンディングは、信号品質を劣化させ得る。従って、図３Ａに示すように、コンパンディング制御メカニズムがブロック３１０として提供され、制御データは、コンパンディング操作を調整するために、圧縮コンポーネント１０４から伸長コンポーネント１１４へ送信される。このような死魚メカニズムの最も単純な形式は、コンパンディングの適用がオーディオ品質を劣化させるオーディオサンプルのブロックについては、コンパンディング機能をオフに切り替えることである。実施形態では、コンパンディングのオン／オフの決定は、エンコーダにおいて検出され、ビットストリーム要素としてデコーダへ送信される。その結果、圧縮器及び伸長器は、同じＱＭＦタイムススロットでオン／オフを切り替えることができる。

２つの状態の間の切り替えは、通常、適用される利得に不連続をもたらし、結果としてアーチファクトの切り替え又はクリックが聞こえてしまう。実施形態は、これらのアーチファクトを低減する又は除去するメカニズムを含む。第１の実施形態では、システムは、コンパンディング機能のオフ及びオンの切り替えを、利得が１に近いフレームにおいてのみ可能にする。この場合コンパンディング機能のオン／オフの切り替えの間に小さな不連続しか存在しない。第２の実施形態では、オンモードとオフモードとの間にある第３の弱いコンパンディングモードが、オンフレームとオフフレームとの間のオーディオフレーム内で適用され、ビットストリーム内でシグナリングされる。弱いコンパンディングモードは、指数γを、コンパンディング中のその規定値から、コンパンディングが無いのと等価な０へゆっくりと遷移させる。中間的な弱いコンパンディングモードの代替として、システムは、開始フレーム及び停止フレームを実施してよい。この間、オーディオサンプルのブロックは、急にコンパンディングモードをオフに切り替える代わりに、コンパンディングモードの無い状態へと円滑にフェードインする。更なる実施形態では、システムは、単にコンパンディングをオフに切り替えるだけではなく、むしろ平均利得を適用するよう構成される。特定の場合には、一定の利得係数が、コンパンディングがおるの状況における１．０の一定の利得係数よりも、隣接するコンパンディングのオンのフレームの利得係数により類似する一定の利得係数がオーディオフレームに適用される場合、音色の固定的な信号のオーディオ品質は、増大され得る。このような一定の平均コンパンディング利得係数は、１つのフレームに渡りタイムスロット当たりに計算された全部の平均絶対レベル／１ノルムを平均することにより計算できる。一定の平均コンパンディング利得を含むフレームは、従って、ビットストリーム内でシグナリングされる。

実施形態は、モノラルオーディオチャネルの文脈で説明されたが、留意すべきことに、直接拡張では、複数のチャネルが、各チャネルに個々に本アプローチを繰り返すことにより処理できる。しかしながら、２以上のチャネルを含むオーディオ信号は、図１のコンパンディングシステムの実施形態により解決される特定の追加の複雑性を提示する。コンパンディング方針は、チャネル間の類似性に依存すべきである。

例えば、ステレオパン過渡信号（stereo−panned transient signal）の場合には、個々のチャネルの独立したコンパンディングは、可聴ステレオ像アーチファクトを生じ得る。実施形態では、システムは、時間セグメント毎に、両方のチャネルのサブバンドサンプルから信号利得値を決定し、同じ利得値を２つの信号を圧縮／伸長するために使用する。本アプローチは、概して、２つのチャネルが非常に類似する信号を有するときは常に適し、ここで、類似性は例えば相互相関を用いて定義される。検出器はチャネル間の類似性を計算し、チャネルの個々のコンパンディングを用いてその間で切り替えるか、又はチャネルを共同でコンパンディングする。より多くのチャネルへの拡張は、類似性基準を用いてチャネルをチャネルグループに分割し、グループに対して共同コンパンディングを適用し得る。このグループ化情報は、次に、ビットストリームを通じて送信できる。

システム実装
図４は、実施形態における、コーデックのエンコーダ段と関連して、オーディオ信号を圧縮するシステムを示すブロック図である。図４は、図３Ａに示したコーデックに基づくシステムにおいて使用される圧縮方法の少なくとも一部を実施するハードウェア回路又はシステムを示す。システム４００に示すように、時間ドメインにおける入力オーディオ信号４０１は、ＱＭＦフィルタバンク４０２へ入力される。このフィルタバンクは、入力信号を複数の成分に分ける分析動作を実行する。ここで、各帯域通過フィルタは、元の信号の周波数サブバンドを伝達する。信号の精鉱製は、ＱＭＦフィルタバンク４１０により実行される合成動作の中で実行される。図４の例示的な実施形態では、分析及び合成フィルタバンクの両方が、６４個の帯域を扱う。コアエンコーダ４１２は、合成フィルタバンク４１０からオーディオ信号を受信し、適切なデジタル形式（例えば、ＭＰ３、ＡＡＣ、ＡＣ−４、等）でオーディオ信号を符号化することにより、周波数ドメインのビットストリーム４１４を生成する。

システム４００は、オーディオ信号が分割された短セグメントの各々に利得値を適用する圧縮器４０６を含む。これは、図２Ｂに示されるように圧縮されたダイナミックレンジのオーディオ信号を生成する。コンパンディング制御ユニット４０４は、オーディオ信号を分析して、信号のタイプ（例えば、会話）又は信号の特性（例えば、固定的か過渡的か）又は他の関連パラメータに基づき、圧縮が適用されるべきか否か、又はどれ位適用されるべきか、を決定する。制御ユニット４０４は、オーディオ信号の時間的ピーク特性を検出するために、検出メカニズムを含んでよい。オーディオ信号の検出した特性、及び特定の所定の基準に基づき、制御ユニット４０４は、適切な制御信号を圧縮器４０６へ送信し、圧縮機能をオフにするか、又は短セグメントに適用される利得値を変更する。

留意すべきことに、用語「ピーク（peakness）」は、「鋭さ（sharpness）」（例えば、Ｔ_ｐ又はＴ_ｓ）を表し、両者は、近い過去及び将来の時間に対する特定の時間における信号の瞬間エネルギを表す。従って、ピークの又は鋭い信号は、エネルギにおけるインパルス又はスパイクとして現れる。

コンパンディングに加えて、多くの他の符号化ツールも、ＱＭＦドメインで動作し得る。１つのこのようなツールはＡ−ＳＰＸであり、図４のブロック４０８に示される。Ａ−ＳＰＸは、知覚的にあまり重要でない周波数を、より重要な周波数より粗い符号化方式で符号化させるために使用される技術である。例えば、デコーダ端にあるＡ−ＳＰＸでは、より低い周波数からのＱＭＦサブバンドサンプルは、より高い周波数において複製されてよく、従って、高周波数帯におけるスペクトルエンベロープは、エンコーダからデコーダへ送信されたサイド情報を用いて先鋭化される。Ａ−ＳＰＸは、ＡＣ−４のような特定の高度符号化により使用される。例えば、他の類似のツールが使用されてもよい。

コンパンディング及びＡ−ＳＰＸ符号化の両方がＱＭＦドメインで実行されるシステムでは、エンコーダにおいて、より高い周波数のエンベロープデータは、図４に示されるような未だ圧縮されていないサブバンドサンプルから抽出されてよく、圧縮は、コアエンコーダ４１２により符号化される信号の周波数範囲に対応するより低い周波数のＱＭＦサンプルにだけ適用されてよい。図５のデコーダ５０２で、復号信号のＱＭＦ分析５０４の後に、伸長処理５０６が先ず適用される。そして、Ａ−ＳＰＸ動作５０８は、続いて、より高いサブバンドサンプルを、より低い周波数における伸長された信号から再生成する。

この例示的な実装では、エンコーダにあるＱＭＦ合成フィルタバンク４１０、及びデコーダにあるＱＭＦ分析フィルタバンクは、６４０−６４＋１サンプル遅延（〜９個のＱＭＦスロット）を一緒に導入する。本例のコアコーデック遅延は、３２００サンプル（５０個のＱＭＦドメインスロット）であり、従って、合計遅延は５９スロットである。この遅延は、制御データをビットストリームに埋め込み、デコーダにおいて使用することにより、対処される。その結果、エンコーダの圧縮器及びデコーダの伸長器は、同調して動作する。

代替として、エンコーダにおいて、元の信号の帯域幅全体に圧縮が適用されてよい。エンベロープデータは、後に、圧縮されたサブバンドサンプルから抽出されてよい。このような場合には、デコーダは、ＱＭＦ分析の後に最初に、先ず、全帯域幅の圧縮された信号を再構成するためのツールを実行する。伸長段は、次に、元のダイナミックレンジを有する信号を復元するために適用される。

ＱＭＦドメインで動作し得る更に別のツールは、図４におけるパラメータステレオ（parametric stereo (PS)）ツール（図示しない）であってよい。パラメータステレオでは、２つのチャネルが、ステレオ出力を再構成するためにデコーダでＱＭＦドメインにおいて適用できる追加パラメータ空間情報と共にモノダウンミックスとして符号化される。別のこのようなツールは、例えばＡＣ−４のような特定の高度符号化により使用されるＡ−ＣＰＬ（Advanced Coupling）ツールセットである。パラメータステレオ（又はＡ−ＣＰＬ）及びコンパンディングが、互いに関連して使用されるとき、パラメータステレオツールは、エンコーダにある圧縮段４０６の後に置かれ、この場合、デコーダにおいて伸長段５０６の前に適用され得る。代替として、パラメータステレオサイド情報は、未圧縮ステレオ信号から抽出されてよい。この場合、パラメータステレオツールは、デコーダにける伸長段５０６の後で動作し得る。

図３Ａ及び３Ｂに示すように、コーデックのエンコーダ段とデコーダ段との間で送信されたビットストリームは、特定の制御データを含む。このような制御データは、システムが異なるコンパンディングモードの間で切り替えることを可能にするサイド情報を構成する。（コンパンディングをオン／オフに切り替えるための）切り替え制御データ及び場合によっては何らかの中間状態が、チャネル当たり、１又は２ビット程度を追加してよい。他の制御データは、離散ステレオの又はマルチチャネル構成の全部のチャネルが共通コンパンディング利得係数を使用するかどうか、又はそれらがチャネル毎に独立に計算されるべきかどうか、を決定するために、信号を含み得る。このようなデータは、単一の追加ビットを必要とするだけである。他の同様の制御データ要素、及びそれらの適切なビット重みは、システム要件及び制約に依存して使用されてよい。

検出メカニズム
実施形態では、コンパンディング制御メカニズムは、ＱＭＦドメインにおいてコンパンディングの制御を提供するために、コンパンディングコンポーネント１０４の部分として含まれる。コンパンディング制御は、多数の因子、例えばオーディオ信号タイプに基づき構成できる。例えば、多くの適用では、コンパンディングは、時間的ピークのある信号（例えば拍手）のクラスの範囲内の会話信号及び過渡的信号又は任意の他の信号についてオンにされるべきである。システムは、コンパンダ機能のために適切な制御信号を生成するのを助けるために、信号のピークを検出するために、検出メカニズム４０５を含む。検出メカニズム４０５は、例えば、信号が粗過渡信号（sparse transient signal）か又は密過渡信号（dense transient signal）かを決定するために、信号を分析すると言うことができる。この場合、信号の時間的ピークは、信号の中の過渡（過渡的イベント）の密度の指標を導出するために使用できる。

実施形態では、正規化された第４時点が、エンベロープ信号の中の変動の程度を測定するために使用される。時間的ピークＴＰ（ｋ）_{ｆｒａｍｅ}の指標は、所与のコアコーデックについて周波数ビンｋに渡り計算され、次式を用いて計算される。

同様に、スペクトルピーク指標は、タイムスロットｔに渡り計算されてよい。上式で、Ｓ_ｔ（ｋ）は、サブバンド信号であり、Ｔは、１つのコアエンコーダフレームに対応するＱＭＦスロットの数である。例示的な実装では、Ｔの値は３２であってよい。帯域毎に計算された時間的ピークは、一般的な２つのカテゴリ、つまり定常的音楽信号、及び音楽的過渡信号若しくは会話信号に、音声コンテンツを分類するために使用できる。ＴＰ（ｋ）_{ｆｒａｍｅ}の値が所定値より小さい場合（例えば１．２）、フレームのそのサブバンド内の信号は、定常的音楽信号である可能性が高い。ＴＰ（ｋ）_{ｆｒａｍｅ}の値がこの値より大きい場合、信号は、音楽的過渡信号又は会話信号である可能性が高い。値が更に高い閾値より高い場合（例えば１．６）、信号は、純粋な音楽的過渡信号、例えばカスタネットである可能性が非常に高い。更に、自然に生じる信号について、異なる帯域で取得される時間的ピークの値は事実上類似しており、この特定は、時間的ピーク値が計算されるべきサブバンドの数を低減するために利用できることが分かっている。

留意すべきことに、ピーク（鋭さ）は、平坦と反対であり、任意の平坦に基づく指標が、同様の方法で使用されてよい。ＡＣ−４で使用されるような複素数値変換では、Ｓ_ｔ（ｋ）の複素数値の大きさが使用される。上述の時間的鋭さの指標は、実数値変換にも適用されてよい。上式で、ＡＣ−４／Ａ−ＳＰＸの実施形態では、Ｔは、（個定常的又は過渡的コンテンツに依存する）最終的な値がＡ−ＳＰＸフレーム生成器により決定されたフレーム内のＱＭＦタイムスロットの合計数である。２０４８フレーム長では、Ｔは、定常的コンテンツでは２０４８／６４＝３２である。ＡＣ−４は（ビデオフレーム同期オーディオ符号化をサポートするために）種々のフレーム長をサポートするので、Ｔの値は、異なるフレーム長で異なる。上述のように、大きさの計算では、複素サブバンドサンプルは、計算集約的な平方根演算が必要である。これは、種々の方法で、例えば実数部及び虚数部の大きさを合計することにより、複素サブバンドサンプルの大きさを近似することにより、回避できる。

図４を参照すると、留意すべきことに、ＱＭＦ行列では、タイムスロットの数は、Ａ−ＳＰＸ分析に基づき変化することがあり、信号により変化してよい。従って、時間境界データが、Ａ−ＳＰＸ分析コンポーネントから生じなければならない。

コンパンディング切り替え
実施形態では、上述のシステムは、コアエンコーダの前の入力信号のダイナミックレンジを縮小させる。この意味でコアエンコーディングの前のコンパンディングは、入力信号のダイナミックレンジの圧縮に対応し得る。システムは、（コア符号化における又は非Ａ−ＳＰＸ周波数範囲内において等価な）ＱＭＦタイムススロットを、広帯域利得値により変更することにより、これを行う。利得値は、相対的に低い強度のスロットに対しては大きく（つまり、増幅）、高い強度のスロットに対しては小さい（つまり減衰）。

通常、コンパンディングは、拍手又は会話又は鋭い衝撃を有する信号（例えば、打撃効果）のようなコンテンツに役立ち、音色オーディオのような他のタイプのコンテンツには役立たないことが分かっている。従って、信号適合型コンパンディングは、検出された信号に依存してコンパンディングを適用する。実施形態では、図１のエンコーダ／デコーダシステム１００は、信号適応型又は信号依存コンパンディングを実行して、信号コンテンツに基づき最適な量のコンパンディングを提供するコンパンディングモード切替処理を実施する。上述のように、コンパンディングは、時間ノイズシェーピングを提供し、知覚的に有利な周波数ドメインノイズシェーピングを提供することが分かった（ここで、「知覚的に有利な」は、量子化ノイズが、マスキング曲線の下に留まるよう（従うよう）良好にシェーピングされることを意味する）。従って、コンパンディングは非線形動作なので、一般的に、心理音響モデル（非線形モデルとも呼ばれる）と関連してその周波数ドメインの利益を予測することが困難である。例えば準最適な切り替え方針を通じてコンパンディングを不適切に適用することは、切り替えアーチファクトを生じ、システムの複雑性及び遅延を増大してしまう。特定の実施形態におけるコンパンディング切り替え処理は、コンパンディングが役立つとき、及びどのように最適に信号適応型コンパンディングを適用するか、を決定する。

図４は、コーデックのエンコーダ段と関連してオーディオ信号を圧縮する、コンパンダ切り替えコンポーネント又は機能４０７を含むシステムを示す。スイッチ４０７は、単にコンパンディングをオフに急に切り替えのではなく、代わりに、コンパンディングがオフの状況での１．０の一定の利得係数よりも隣接するコンパンディングがオンのフレームの利得係数により類似する一定の利得係数をオーディオフレームに適用することにより、最適コンパンディング選択を実現するよう構成される。このような利得係数は、１つのフレーム内のスロットに渡り平均絶対レベルを平均化することにより、計算される。平均コンパンディングが利用されるフレームは、ビットストリーム内でシグナリングされる（例えば、b_compand_avg)）。この文脈における平均は、平均絶対レベルの平均を意味する。

実施形態では、スイッチ４０７は、３つのコンパンディング状態、つまり、コンパンディング無し（Compand_Off）、通常コンパンディング（Compand_On）、及び平均コンパンディング（Compand_Ave）の間の１つに切り替えるよう構成される。特定の実施形態では、compand_offモードは、純粋な正弦波信号のために使用され、他の全部の信号については、システムはオンと平均モードとの間で切り替える。

通常コンパンディングでは、Ｓｔ（ｋ）がタイムススロットｔ及び周波数帯ｋにおいて複素数値フィルタバンクサンプルである場合、前処理ステップは、コアコーデック入力をスケーリングして、次式になるようにする。

ＳＭｔは平均絶対レベル（１ノルム）であり、ｋ＝１〜Ｋの範囲にわたり合計されて次式で与えられ、α＝０．６５である。

ここで、αは、コンパンディング指数と呼ばれてよい。実施形態では、コンパンディング検出器は、大きさが±６４の間にある複素数値Ｓ_ｔ（ｋ）について設計される。複素数値の範囲が異なる場合、設計は、相応してスケーリングされる必要がある。従って、他の実施形態は、適切な場合には異なる値を特徴としてよい。

平均コンパンディングについて、図７は、例示的な実施形態における、和音（chord）のフレームの例示的なＱＭＦスロットを示す。図７のグラフ７００は、適切な楽器（例えば、ピアノ又はギター）で演奏されるような例示的なマルチノート和音（multi−note chord）について、音色（tonal）／調和音（harmonic）コンテンツを示す。図７に示されるように、３つの異なるコンパンディング設定について結果として生じる利得が示される。コンパンディングＯＦＦ軌跡７０２は、平坦な利得を示し、コンパンディングＯＮ軌跡７０６は比較的急な不連続な利得を示す。後プロセッサ（つまり、コンパンディングデコーダ）におけるこのような不連続は、シェーピングされたノイズのエンベロープにおける不連続を生じる。これは、煩わしいクラッキングノイズとして知覚され得る可聴クリックを引き起こす。コンパンディングＡＶＧ軌跡７０４は、（直ぐ前に上述した）通常コンパンディングの代わりに平均コンパンディングの利用が可聴クリックを除去することを示す。同様の考察は、これが他の音色／調和音コンテンツ（例えば、ハープシコード又は同様の楽器）にも当てはまることを示す。言い換えると、コンパンディングは、音色／調和音コンテンツには害になり、音色／調和音コンテンツに対してコンパンディングは「オフ」にされるべきか又は平均コンパンディングが利用されるべきである。

コンパンディングがエンコーダにおいて適用される場合、コアデコーダの出力は、各フレーム内で時間に渡りほぼ均一レベル（時間エンベロープ）の量子化ノイズの追加により、ダイナミックレンジの縮小されたこの信号である。元の信号において低強度を有し前プロセッサにより増幅されたスロットには小さな利得（減衰）が適用され、元の信号において高強度を有し前プロセッサにより減衰されたスロットには大きな利得（増幅）が適用される。量子化ノイズは、従って、後プロセッサにより同時にシェーピングされて、元の信号の時間エンベロープを近似的に辿る。平均コンパンディングがエンコーダにおいて適用される場合には、平均コンパンディングは、デコーダにおいても適用される必要がある。つまり、一定の利得係数がオーディオフレームに適用される。

実施形態では、帯域毎に計算された時間的ピーク（又は鋭さ）は、オーディオコンテンツを、２つの閾値により定義される以下のカテゴリに大まかに分類するために使用できる。

純粋な正弦波／音色／純粋な過渡的オーディオの３つのカテゴリを区別するための１．２及び１．６の閾値は、経験的データから導出され、測定の全体範囲及び単位に依存して異なってよい。１．２及び１．６の特定の値は、大きさが±６４の間にある複素数値Ｓ_ｔ（ｋ）について設計されたコンパンディング検出器のために導出される。複素数値の範囲が異なる場合、異なる閾値が使用され得る。

図８は、幾つかの実施形態における、信号適応型コンパンダを用いるオーディオコンテンツを分類する方法を示すフローチャートである。方法は、ステップ８０２で開始し、３つの主なカテゴリ：（１）純粋な正弦波、（２）定常的／音色、（３）純粋な過渡的、を識別する閾値を定義する。第２のカテゴリ、定常的／音色は、正弦波、過渡的、音色、部分的な音色信号、等の混合を含む任意の信号であってよく、一般的に、オーディオプログラム内に存在する大部分の信号を含む。このようなコンテンツは、従って、過渡的及び正弦波信号の混合を表し、「ハイブリッド」信号と呼ばれる。３つの主なカテゴリへの分類のために、２つの閾値が定義される。閾値は、特定のコンパンディング検出器パラメータ、例えば、複素数値の大きさ、上述のように例えば１．２及び１．６に関して定義されるが、任意の他の値も可能である。ステップ８０４で、これらの閾値に基づき、入力オーディオは、３つのカテゴリに大まかに分類される。決定ブロック８０６で、信号がハイブリッドか否かについて決定が行われる。信号がハイブリッドではない場合、信号は純粋な正弦波又は純粋な過渡的である。この場合、ブロック８０８で、適切なコンパンディングルールが適用できる。例えば、純粋な正弦波信号に対してはコンパンディングをオフにし、純粋な過渡的に対してはコンパンディングをオンにする。信号がハイブリッドである場合、信号は正弦波及び過渡信号の両方を含み、コンパンディングのオン又はオフ設定は最適でない可能性がある。この場合、音色信号を、会話若しくは拍手又は打楽器若しくは同様の楽器のような同様の効果に起因する過渡又は部分的過渡信号から区別するために、更なる処理が必要である。実施形態では、ブロック８１０で、時間的鋭さの特性は、このような会話／拍手信号から、音色信号を区別するのを助ける残りの指標を引き出すために使用される。この処理ステップの詳細は、以下に図９を参照して与えられる。

従って、実施形態では、検出コンポーネント４０５は、所定の閾値と比較される入力信号の値に基づき、信号のタイプを検出するよう構成される。これは、システムが、定常的／音色音楽を、音色部分も有し得る会話から区別することを可能にする。検出器は、より良好な区別のために、スペクトルの鋭さの指標も使用する。検出器は、何からの明らかに時間的に鋭くないものがスペクトル的に鋭いという事実を用いて、時間的鋭さの特性から、残りの指標を導出する。従って、純粋な音色又は純粋な過渡（上述のカテゴリ１又は３）としての信号の大まかな分類の後に、定常的又は過渡（上述のカテゴリ２０）と対照的に、スペクトルの鋭さが、信号を更に区別するために使用される。スペクトルの鋭さは、直接計算されないが、他の計算から残りの指標として導出される。

残りの値の導出に関して、図９は、幾つかの実施形態における、トーン信号から会話を区別するために、スペクトル急激さを用いる方法を示すフローチャートである。ステップ９０２で、処理は、１．２より大きい時間的鋭さを有する帯域数である指標１を取り込む。ステップ９０４で、処理は、残りの指標である、１．２より小さい時間的鋭さの平均である指標２を取り込む。処理は、次に、ブロック９０６で、所定の１又は複数のルールを適用して、コンパンディングをオフ又は平均にする。これは、システムがコンテンツに依存して適応的にコンパンディングを利用することを可能にし、一般的に音色／調和音コンテンツに対してコンパンディングが害となり、図７に示すようにオフ又は平均に切り替えられるべきであるという事実を考慮し続ける。

以下のコードセグメントは、コンパンディングをオン又は平均にするための例示的なルールを示し、［１］は指標１を示し、［２］は指標２を示す。

このルールは、０及び１のシリーズを生成する。１の値は、コンパンディングモードがオンに設定されることを示し、０の値は、コンパンディングモードがオフに設定されることを示す。しかしながら、オフは平均モードの使用を生じてよい。従って、上述のコードの例では、０は平均モードを意味し、従って、コードセグメントは、コンパンディングＯＮ及びＡＶＥＲＡＧＥの間で切り替え可能である。

上述のルールでは、指標２は、音色信号を会話と差別化するために、別の分類ラウンドを行うことを試みる。閾値は、（例えば、指標スケール全体に基づき）適切に定義される。その結果、１．１８より高いものは純粋な過渡であり、１．１より低いものは純粋な音色信号である。しかし、このような純粋な過渡又は純粋な音色信号は、最も外側のｉｆ条件により既に分類されている可能性が非常に高い。従って、内側のｉｆ文が、分類を更に微調整することを試みる。１．１と１．８との間の領域について、会話の音色成分の大部分が１．１２〜１．１８の範囲内にあり、音楽の音色信号は１．１〜１．１２の範囲内にあることが分かっている。

上述のルールで分かるように、一実施形態では、「オン」及び「平均」シーケンスは、コンパンディングモードのオン／オフ又はオン／平均設定に関して、１１１１０１００のように構成される検出器を生成する。代替の検出器は、１０１１１０００のようであってよい。上述の例では、コンパンディングを「オン」又は「平均」に切り替える８個の可能性がある。一般的に、１１１１０１００及び１０１１１０００のようなビット構成は、厳しいリスニング及び／又は特定のリスニングツールの使用により見付かる。代替の構成は、会話に対してコンパンディングを僅かに多くオフに切り替える代わりに、音色信号に対して僅かに頻繁にコンパンディングをオフにするというトレードオフを提示する。これらは、会話品質が僅かに劣化するので、「第２の最良」の代替案を提示し得る。この構成は、システム要件、及び最適対準最適音声の主観的指標、及び会話／拍手に対する音色音声の所望のトレードオフに基づき変化又は変更されてよい。

極端な例では、このような純粋な正弦波では、図８のブロック８０８及び以下のコードセグメントに示されるように、コンパンディングはオフに切り替えられる。

上記のコードセグメントは、幾つかの実施形態における、切り替え方法の実装を示す。理解されるべきことに、コードセグメントは、例示的なソフトウェア実装を示し、変形及び追加又は異なるコードセグメントも使用されてよい。

時間的鋭さとスペクトルの鋭さとの間の関係は、時間的ノイズシェーピングに影響することに加えて、コンパンディングが周波数ドメインにおいて特定の知覚的に有利なノイズシェーピング効果も提供するという事実に基づく。図６を参照すると、ＱＭＦドメインにおいて、ＱＭＦの出力は、ｙ軸が周波数であり、ｘ軸がタイムススロットである行列である。各タイムススロットは、多数のサンプルで構成され、各帯域は多数の周波数で構成される。この周波数×時間の行列は、周波数帯毎の時間的鋭さを検出するために使用できる。ここで、ｘ軸は時間的鋭さを与える。同様に、ｙ軸は、周波数の鋭さを与え、これは必ずしも計算されないが、周波数の鋭さはこの行列から導出できる。

図４は、ＥＴＳＩ（European Telecommunications Standards Institute）でｔｓ１０３１９０として標準化されＤＶＢ（Digital Video Broadcasting）によりＴＳ１０１１５４で採用されたたＤｏｌｂｙＡＣ−４オーディオ配信及び形式に基づくシステムを示す。実施形態は、低ビットレートにおける高周波数の効率的符号化のために、Ａ−ＳＰＸ（Advanced Spectral Extension）符号化ツールに関しても記載される。留意すべきことに、実施形態は、これに限定されず、任意の適切なコーデック設計及びオーディオ符号化及び配信方法が使用されてよい。

実施形態では、エンコーダにおいて（Ａ−ＳＰＸのみの場合又はＡ−ＳＰＸ＋Ａ−ＣＰＬの場合）、圧縮器はＱＭＦ合成の前の最後のステップである。Ａ−ＳＰＸ＋Ａ−ＣＰＬの場合、エンコーダにおけるハイブリッド分析／合成は、圧縮器の前で動作する。コンパンディング制御部４０４の出力に依存して、圧縮器４０６は、スイッチ４０７の機能に基づき、通常のコンパンディングモード又は平均コンパンディングモードを実行してよい。

異なるオーディオ抄録によりコンパンディングモードをテストする種々の実験的試験を通じて、及びオーディオ符号化処理による劣化の観点でオーディオ出力の品質を評価するためにリスニングツールを使用して、コンパンディングオンにより劣化した抄録が、平均コンパンディングが使用されるとき向上されること、及びコンパンディング「オン」により向上した抄録が平均コンパンディングが使用されたときに非常に僅かに劣化したことが分かった。これらの２つの点は、システムが、大部分の時間、コンパンディングオンと平均コンパンディングとの間で切り替えた可能性を示す。これは、適用される利得のより良好な連続性を有する切り替えの利点を提供し、潜在的な切り替えアーチファクトを回避する。また、結果として、コンパンディング制御を組み込んだ、少ない複雑さの及び遅延のない検出器をもたらす。

これまでに記載された実施形態は、コーデック内のエンコーダにより導入される量子化ノイズを低減するコンパンディング処理を含むが、留意すべきことに、このようなコンパンディング処理の態様は、エンコーダ及びデコーダ（コーデック）段を含まない信号処理システムにも適用されてよい。更に、コンパンディング処理がコーデックと関連して使用される場合には、コーデックは、変換に基づき又は変換に基づかなくてよい。

図１０は、コンテンツ（オーディオコンテンツ）に基づきコンパンディング指数（α）を選択する例示的な技術を示す。留意すべきことに、以下では、オーディオ信号の時間セグメントの非限定的な例として理解されるべきオーディオ信号のフレームを参照する。本開示は、フレームに限定されると理解されるべきではないが、時間セグメントのあらゆる可能な実装に同様に適用される。

１つ以上のコンピュータプロセッサを含むシステムは、１つ以上のオーディオ信号を受信する（１００４）。システムは、信号の第１フレームＦ０が第１過渡タイプの信号、例えば過渡（transient）が広い間隔である粗過渡信号を含むことを決定する。これは、過渡が、過渡と過渡との間の無音の（短い）期間により、個々に知覚可能であり識別可能であることを示してよい。第１過渡タイプの信号の幾つかの例は、カスタネット、テクノミュージック、会話、又は何らかの喝采である。これに応答して、システムは、第１フレームＦ０についてコンパンディング指数値が第１値（例えば、α＝０．６５）であることを指定する。

システムは、オーディオ信号の第２フレームＦ１が第２過渡タイプのコンテンツを含むと決定し得る。第２過渡タイプのコンテンツは、密過渡信号を含む。第２過渡タイプのコンテンツの例は、第１タイプのコンテンツより密な過渡を有する喝采である。これに応答して、システムは、第２フレームについてコンパンディング指数値が第２値（例えば、α＝０．５）であることを指定する。

システムは、オーディオ信号の第３フレームＦ２が第３過渡タイプのコンテンツを含むと決定し得る。第３過渡タイプのコンテンツは、第２過渡タイプのコンテンツより密な過渡を有する過渡信号を含む。第３過渡タイプのコンテンツの例は、高い拍手密度を有する密な喝采である。これに応答して、システムは、第３フレームについてコンパンディング指数値が第３値（例えば、α＝０．３５）であることを指定する。一般的に、第１〜第３値は、第１値から第３値へと、例えばα＝０．６５からα＝０．５ｈである。０．５を介してα＝０．３５へと、値が減少してよい。

システムは、オーディオ信号の第４フレームＦ３が第４過渡タイプのコンテンツを含むと決定し得る。第４過渡タイプのコンテンツは、ノイズとして知覚されるほど過渡が密である過渡信号を含む。これに応答して、システムは、第４フレームについてコンパンディング指数値が第４値であることを指定する。第４値は第１値（例えば、α＝０．６５）と等しくてよい。代替として、システムは、第４フレームについてコンパンディングをオフにできる。１．０の値を有するようにコンパンディング指数値を指定することは、コンパンディングをオフにする。

従って、システムは、オーディオ信号のフレームを分析し（時間セグメントの非限定的な例のように）、フレーム毎に、それぞれのフレームが第１〜第４過渡タイプのコンテンツを含むかどうかを決定してよい。幾つかの実装では、システムは、粗過渡タイプ（第１過渡タイプ）及び密過渡タイプ（第２又は第３過渡タイプ）のような、２つ（又は３つ）の過渡タイプのコンテンツのみを区別してよい。次に、システムは、それぞれの過渡タイプのフレームを、それぞれのフレームセット（例えば、第１〜第４フレームセット）に属するとして扱い、それぞれのコンパンディング指数を各フレームセットに割り当ててよい。例えば、第１値のコンパンディング指数は、第１過渡タイプの信号を含む全部のフレームで構成される第１フレームセットに割り当てられてよく、第２値のコンパンディング指数は、第２過渡タイプの信号を含む全部のフレームで構成される第２フレームセットに割り当てられてよく、第３値のコンパンディング指数は、第３過渡タイプの信号を含む全部のフレームで構成される第３フレームセットに割り当てられてよ、第４値のコンパンディング指数は、第４過渡タイプの信号を含む全部のフレームで構成される第４フレームセットに割り当てられてよい。

図１１は、コンパンディング指数の例示的な値、及び対応するコンパンディング状態を示すテーブルである。従来、コンパンディング制御データ構造における１ビット値は、コンパンディングがオンかオフかを決定する。システムが、コンパンディングがオンであると決定した場合、システムは、固定されたコンパンディング指数値α＝０．６５を使用する。本願明細書で開示されたような過渡密度に基づくコンパンディングでは、２つの新しいコンパンディング指数値α＝０．５及びα＝０．３５が、図１０を参照して開示したような第２及び第３タイプｊのコンテンツに対して使用される。コンパンディング指数値を符号化側と復号側との間でシグナリングするために使用されるビット数に依存して、異なるコンパンディング指数のセットが使用されてよい。例えば、１ビットがコンパンディング指数の値をシグナリングするために使用される場合、粗過渡イベントと密過渡イベントとの間で区別されてよい（例えば、粗過渡タイプ及び密過渡タイプの範囲を互いに定めるために、過渡イベントの密度における所定の閾値による）。次に、α＝０．６５の第１値が、粗過渡イベントフレームについて使用されてよく、α＝０．５又はα＝０．３５の第２値が、密過渡イベントフレームについて使用されてよい。２ビットがコンパンディング指数の値をシグナリングするために使用される場合には、例えば上述のコンパンディング指数の第１〜第４値を用いて、４個の異なるフレームタイプの間で区別が行われてよい。

コンパンディングの値αより低いことは、（例えば、コアエンコーディングの前の）コンパンディングにおいてダイナミックレンジ圧縮が高いことに対応する。α＝１の値は、コンパンディングが無いことを示す。相応して、コンパンディングの値αより低いことは、（例えば、コアデコーディングの後の）コンパンディングにおいてダイナミックレンジ伸長が高いことに対応する。ダイナミックレンジ圧縮の程度が高いほど、低い強度信号がより多くブーストされること、高い強度信号はより多く減衰されることを意味する。

システムは、以下に示すコンパンディング制御データ構造の中でコンパンディング指数αの値を示すことができる。

データ構造の中で、b_compand_on[ch]は、特定のチャネルｃｈのための２ビット値を含む。

b_compand_on[ch]は、バイナリ値００、０１、１０、又は１１を有することができ、それぞれ、特定のフレームについて、コンパンディング指数の値αが１、０．６５、０．５、及び０．３５であることを示す。値の他の組み合わせが可能である。

図１２は、過渡密度に基づくコンパンディングの例示的な処理１２００を示すフローチャートである。処理１２００は、図１０及び図１１を参照して説明した技術の例示的な実装である。処理１２００は、１つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はその両方を含むことができる。

システムは、オーディオ信号を受信する（１２０２）。システムは、オーディオ信号の第１フレームが粗過渡信号を含むと決定する（１２０４）。粗過渡信号は、第１過渡密度を有する過渡タイプのオーディオ信号を含む。システムは、オーディオ信号の第２フレームが密過渡信号を含むと決定する（１２０６）。密過渡信号は、第１密度より高い第２過渡密度を有する過渡タイプのオーディオ信号を含む。過渡タイプのオーディオ信号は、拍手、雨、又はパチパチ音のする火、のうちの少なくとも１つを含む。一般的に、システムは、オーディオ信号の時間セグメント（例えば、フレーム）にういて、時間セグメントを分析して、オーディオ信号の時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定してよい。

システムは、オーディオ信号をコンパンディングする（１２０８）。オーディオ信号のコンパンディングは、オーディオ信号の第１フレームに第１コンパンディング指数を適用し及びオーディオ信号の第２フレームに第２コンパンディング指数を適用するコンパンディングルールを用いて、オーディオ信号に圧縮／伸長（コンパンディング）操作を適用する。一般的に、システムは、前述の決定の結果に基づき、オーディオ信号の時間セグメントにコンパンディングを適用する。時間セグメントのこのコンパンディングは、コンパンディング指数に基づきオーディオ信号の時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含んでよい。第１コンパンディング指数（例えば、α＝０．６５）は、オーディオ信号の時間セグメントが粗過渡信号を含むと決定された場合に、コンパンディングで使用されてよい。第１コンパンディング指数と異なる第２コンパンディング指数（例えば、α＝０．５又はα＝０．３５）は、オーディオ信号の時間セグメントが密過渡信号を含むと決定された場合に、コンパンディングで使用されてよい。各コンパンディング指数は、対応するフレームについてダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される。第２コンパンディング指数は、第１コンパンディング指数より値が低く、第１コンパンディング指数のものより高い程度のダイナミックレンジ圧縮及び伸長に対応する。例えば、ダイナミックレンジ圧縮は、タイムススロットｔ及び周波数バンクｋにおける複素数値Ｓ_ｔ（ｋ）について、次式によるオーディオサンプルのスケーリングにより実行されてよい。

ここで、ｇ_ｔ＝（ＳＭ_ｔ）^α−１であり、正規化されたスロット平均（又は利得）であり、ＳＭ_ｔは平均絶対レベル（１ノルム）であり、ｋ＝１〜Ｋの範囲に渡り加算される次式により与えられる。

システムは、コンパンディングされたオーディオ信号を下流装置に提供する、つまり圧縮されたオーディオ信号を出力する（１２０８）。下流装置は、エンコーダ、デコーダ、出力装置、又は記憶装置のうちの少なくとも１つであり得る。

図１３は、過渡密度に基づくコンパンディングの例示的な処理１３００を示すフローチャートである。処理１３００は、図１０及び図１１を参照して説明した技術の例示的な実装である。処理１３００は、１つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はコンパンディング符号化装置のうちの少なくとも１つを含み得る。特に、処理１３００は符号化側で実行できる。この場合、コンパンディングは、オーディオ信号のダイナミックレンジを圧縮することを含んでよい。

システムは、オーディオ信号を受信する（１３０２）。オーディオ信号は、（時間セグメントの非限定的な例として）フレームのシリーズを含み得る。

システムは、対応するフレームの中でオーディオ信号のコンテンツに基づきオーディオ信号のフレーム毎にそれぞれのコンパンディング指数を決定する（１３０４）。これは、オーディオ信号のフレームを、例えばそれらのコンテンツに関して分析することを含む。各コンパンディング指数は、対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される。コンパンディング指数を決定することは、以下の動作を含む。システムは、粗過渡信号を含むと決定されたオーディオ信号の第１フレームのために、第１コンパンディング指数を指定する。システムは、密過渡信号を含むと決定されたオーディオ信号の第２フレームのために、第２コンパンディング指数を指定する。第１コンパンディング指数が第２コンパンディング指数より値が高いことは、ダイナミックレンジ圧縮及び伸長の程度が低いことを示す。図１０を参照して上述したように、コンパンディング指数は、コンパンディングで使用されるダイナミックレンジ圧縮の量を制御する。コンパンディング指数の値が低いほど、高いダイナミックレンジ圧縮及び伸長に対応する。

一般的に、これは、第１コンパンディング指数を、粗過渡信号を含むと決定されたオーディオ信号の全部の時間セグメントで構成される第１時間セグメント（例えばフレーム）セットに割り当てること、及び第１コンパンディング指数と異なる第２コンパンディング指数を、密過渡信号を含むと決定されたオーディオ信号の全部の時間セグメントで構成される第２時間セグメント（例えばフレーム）セットに割り当てることに対応してよい。

粗過渡信号は、第１密度を有する過渡タイプのオーディオ信号を含む。密過渡信号は、第１密度より高い第２過渡密度を有する過渡タイプの信号を含む。粗過渡イベントと密過渡イベントとの間の区別は、例えば、過渡の密度についての所定の閾値に基づき行われてよい。密度の指標は、例えば、信号のスペクトルの又は時間のピークを用いて導出されてよい。過渡タイプのオーディオ信号は、拍手、雨、又はパチパチ音のする火、のうちの少なくとも１つを含む。

システムは、第１コンパンディング指数に従い第１フレームを圧縮すること、及び第２コンパンディング指数に従い第２フレームを圧縮することを含む、コンパンディングの圧縮部分を実行する（つまり、圧縮に対応するコンパンディングの符号化側部分を実行する）（１３０６）。これは、第１コンパンディング指数に従い第１時間セグメントセットを圧縮すること及び第２コンパンディング指数に従い第２時間セグメントセットを圧縮することを含む、オーディオ信号にコンパンディング動作を適用することに等しくてよい。

システムは、圧縮されたオーディオ信号をコアエンコーダに提供する（１３０８）。

システムは、第１コンパンディング指数及び第２コンパンディング指数のそれぞれの指示子を、圧縮されたオーディオ信号に関連付けられたビットストリームに提供する（１３１０）。指示子は、図１１を参照して説明されるコンパンディング制御データ構造の中の値であり得る。各指示子は、オーディオ信号の中のそれぞれのチャネル又はそれぞれのオブジェクトのそれぞれのビットを含み得る。各指示子は、コンパンディング制御データ構造に格納される。指示子の合計サイズは、２ビットデータ構造であり得る。ここで、各指示子は、少なくとも２ビットのそれぞれのコンパンディング状態データを含み、該少なくとも２ビットは、少なくとも４つのコンパンディング状態を決定し、該４つの状態の各々はそれぞれのコンテンツタイプに対応する。

図１４は、過渡密度に基づくコンパンディングの第３の例示的な処理を示すフローチャートである。処理１４００は、図１０及び図１１を参照して説明した技術の例示的な実装である。処理１４００は、１つ以上のコンピュータプロセッサを含むシステムにより実行できる。システムは、オーディオエンコーダ、オーディオデコーダ、又はコンパンディング符号化装置のうちの少なくとも１つを含み得る。特に、処理１４００は復号側で実行できる。この場合、コンパンディングは、オーディオ信号のダイナミックレンジを伸長することを含んでよい。

システムは、複数の指示子に関連付けられた圧縮されたオーディオ信号を受信する（１４０２）。各指示子は、圧縮されたオーディオ信号の対応するフレームに適用されるダイナミックレンジ圧縮の程度を導出するために使用されたそれぞれのコンパンディング指数を示す。つまり、システムは、オーディオ信号の時間セグメント毎に少なくとも１つ関連付けられた指示子と一緒に、オーディオ信号を受信してよい。少なくとも１つの関連付けられた指示子のそれぞれは、符号化の前のコンパンディング動作の間にオーディオ信号のそれぞれの時間セグメントに適用されている縮又は伸長の程度に対応するそれぞれのコンパンディング指数を示す。

システムは、圧縮されたオーディオ信号の中のコンテンツの第１フレームが、第１指示子に関連付けられていること、及び圧縮されたオーディオ信号の中のコンテンツの第２フレームが第２指示子に関連付けられていることを決定する（１４０４）。各指示子は、圧縮されたオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する。各指示子は、圧縮されたオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中に１ビット値を含む。特に、図１１に更に詳細に記載されるように、各指示子は、種々のコンパンディング指数を示すよう構成された少なくとも２ビットのコンパンディング状態データを含む。該少なくとも２ビットは、コンテンツのそれぞれの過渡タイプに対応する少なくとも４個のコンパンディング状態に対応する。一般的に、システムは、第１指示子に関連付けられたオーディオ信号の全部の時間セグメントで構成される第１時間セグメントセットを決定し、及び第２指示子に関連付けられたオーディオ信号の全部の時間セグメントで構成され得第２時間セグメントセットを決定してよい。

システムは、第１指示子及び第２指示子に基づき、第１コンパンディング指数がコンテンツの第１フレームを伸長するために使用されるべきであると、及び第２コンパンディング指数がコンテンツの第２フレームを伸長するために使用されるべきであると、決定する（１４０６）。一般的に、システムは、オーディオ信号の時間セグメント毎に、それぞれの時間セグメントの伸長動作で使用するそれぞれのコンパンディング指数を決定してよい。ここで、第１コンパンディング指数が第１時間セグメントセットのために使用されるべきであること、及び第２コンパンディング指数が第２時間セグメントセットのために使用されるべきであることが決定されてよい。第１コンパンディング指数は、第２コンパンディング指数と異なってよい。

システムは、圧縮されたオーディオ信号に対してコンパンディングの伸長部分を実行する（つまり、伸長に対応する、コンパンディングの復号側部分を実行する）（１４０８）。動作は、第１コンパンディング指数から導出されたダイナミックレンジ伸長の第１の程度に従い、圧縮されたオーディオ信号のコンテンツの第１フレームを伸長すること、及び第２コンパンディング指数から導出されたダイナミックレンジ伸長の第２の程度に従い、圧縮されたオーディオ信号のコンテンツの第２フレームを伸長することを含む。一般的に、システムは、第１コンパンディング指数から導出されたダイナミックレンジ伸長の第１の程度に従い、第１時間セグメントセットを伸長すること、及び第２コンパンディング指数から導出されたダイナミックレンジ伸長の第２の程度に従い、第２時間セグメントセットを伸長することを含む、オーディオ信号に伸長動作（コンパンディングの復号側部分）を適用してよい。

システムは、伸長されたオーディオ信号を、例えば出力装置に提供する（１４１０）。出力装置は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器のうちの少なくとも１つを含む。

処理１２００及び１３００は、（例えば、符号化側にある）上述の圧縮コンポーネント１０４において実行されてよいことが理解される。処理１２００及び１４００は、（例えば、復号側にある）伸長コンポーネント１１４において実行されてよい。

留意すべきことに、処理１２００、１３００、及び１４００は、第１及び第２コンパンディング指数を参照し、同様のものが、２つより多くの過渡タイプの間で区別が実行される場合に適用されてよい。例えば、前述の処理は、コンパンディング指数の第１〜第４の値を割り当て／使用してよい。

ここに記載されるシステムの太陽は、デジタル又はデジタルかされたオーディオファイルを処理する適切なコンピュータに基づく音声処理ネットワーク環境で実施されてよい。適応型オーディオシステムの部分は、コンピュータの間で送信されるデータをバッファリング及びルーティングするよう機能する１つ以上のルータ（図示しない）を含む任意の所望の数の個別機械を含む１つ以上のネットワークを含んでよい。このようなネットワークは、種々の異なるネットワークプロトコル上で構築されてよく、インターネット、広域ネットワーク（Wide Area Network (WAN)）、ローカルエリアネットワーク（Local Area Network (LAN)）、又はそれらの任意の組合せであってよい。

コンポーネント、ブロック、プロセス、又は他の機能的コンポーネントのうちの１つ以上は、システムのプロセッサに基づくコンピューティング装置の実行を制御するコンピュータプログラムを通じて実装されてよい。また、留意すべきことに、ここに開示した種々の機能は、ハードウェア、ファームウェア、及び／又は種々の機械可読若しくはコンピュータ可読媒体の中に具現化されたデータ及び／又は命令として、それらの動作の観点で、レジスタトランスファ、論理コンポーネント、及び／又は他の特性、の任意の数の組合せを用いて記載され得る。このようなフォーマットされたデータ及び／又は命令が具現化されるコンピュータ可読媒体は、限定ではないが、光、磁気、又は半導体記憶媒体のような、種々の形式の物理的（非一時的）不揮発性記憶媒体を含む。

文脈上明確に断りの無い限り、本願明細書及び請求の範囲を通じて、用語「含む、有する（comprise、comprising）」等は、排他的又は網羅的意味ではなく、包含的意味で、言い換えると、限定ではないが「含む、有する（including）」の意味で解釈されるべきである。単数又は複数を使用する語は、複数又は単数もそれぞれ含む。更に、用語「本願明細書で」、「ここで」、「この記載に従い」、「上述の」、「以下の」、及び同様のことを意味する語は、本願を全体として参照し、本願の任意の特定の部分を参照するものではない。語「又は」が２つ以上の項目のリストを参照するときに使用されるとき、その語は、以下のような語の解釈、つまり、リストの中の項目のうちのいずれか、リストの中の項目の全部、及びリストの中の項目の任意の組合せ、の全部をカバーする。

１つ以上の実装が例として、特定の実施形態の観点で記載されたが、１つ以上の実装は、開示された実施形態に限定されないことが理解されるべきである。これに対して、これの実装は、当業者に明らかなように、種々の変形および同様の構成をカバーすることを意図する。従って、添付の請求の範囲は、全部のこのような変形及び同様の構成を包含するように、最も広く解釈されるべきである。

本発明の種々の態様及び実装は、以下に記載する列挙された例示的な実施形態（enumerated example embodiments (EEEs)）からも明らかであり得る。

（ＥＥＥ１）オーディオ信号を処理する方法であって、
オーディオ信号を受信するステップと、
前記オーディオ信号の第１フレームが粗過渡信号を含むと決定するステップと、
前記オーディオ信号の第２フレームが密過渡信号を含むと決定するステップと、
前記オーディオ信号をコンパンディングするステップであって、第１コンパンディング指数を前記オーディオ信号の前記第１フレームに適用し第２コンパンディング指数を前記オーディオ信号の前記第２フレームに適用するコンパンディングルールを用いて、前記オーディオ信号に圧縮／伸長（コンパンディング）動作を適用することを含み、各コンパンディング指数は、対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される、ステップと、
前記コンパンディングされたオーディオ信号を下流装置に提供するステップと、を含む方法。

（ＥＥＥ２）前記粗過渡信号は、過渡の第１密度を有する前記オーディオ信号の過渡タイプを含み、前記密過渡信号は、前記第１密度より高い過渡の第２密度を有する前記オーディオ信号の過渡タイプを含み、
オーディオ信号の前記過渡タイプは、拍手、雨、又はパチパチする火のうちの少なくとも１つを含む、ＥＥＥ１に記載の方法。

（ＥＥＥ３）前記第２コンパンディング指数は、前記第１コンパンディング指数より値が低く、前記第１コンパンディング指数のものより高い程度のダイナミックレンジ圧縮及び伸長に対応する、ＥＥＥ１に記載の方法。

（ＥＥＥ４）オーディオ信号を処理する方法であって、前記方法は、
圧縮／伸長（コンパンディング）符号化装置により、オーディオ信号を受信するステップと、
前記コンパンディング装置により、対応するフレームの中の前記オーディオ信号のコンテンツに基づき、前記オーディオ信号のフレーム毎にそれぞれのコンパンディング指数を決定するステップであって、各コンパンディング指数は、前記対応するフレームのダイナミックレンジ圧縮及び伸長のそれぞれの程度を導出するために使用される、ステップと、
粗過渡信号を含むと決定された前記オーディオ信号の第１フレームのために第１コンパンディング指数を指定するステップと、
密過渡信号を含むと決定された前記オーディオ信号の第２フレームのために第２コンパンディング指数を指定するステップであって、前記第１コンパンディング指数は前記第２コンパンディング指数より値が高い、ステップと、
前記コンパンディングの圧縮部分を実行するステップであって、前記第１コンパンディング指数に従い前記第１フレームを圧縮することと、前記第２コンパンディング指数に従い前記第２フレームを圧縮することとを含む、ステップと、
前記圧縮されたオーディオ信号をコアエンコーダに提供するステップと、
前記第１コンパンディング指数及び前記第２コンパンディング指数のそれぞれの指示子を、前記圧縮されたオーディオ信号に関連付けられたビットストリームに提供するステップと、を含む方法。

（ＥＥＥ５）前記コンパンディング指数は、前記コンパンディングするステップで使用されるダイナミックレンジ圧縮の量を制御し、低い値の前記コンパンディング指数ほど、高い程度のダイナミックレンジ圧縮に対応する、ＥＥＥ４に記載の方法。

（ＥＥＥ６）前記粗過渡信号は、第１密度を有する過渡タイプのオーディオ信号を含み、前記密過渡信号は、前記第１密度より高い第２密度を有する過渡タイプのオーディオ信号を含み、
前記過渡タイプのオーディオ信号は、拍手、雨、又はパチパチする火のうちの少なくとも１つを含む、ＥＥＥ４に記載の方法。

（ＥＥＥ７）各指示子は、前記オーディオ信号の中のそれぞれのチャネル又はそれぞれのオブジェクトのそれぞれのビットを含み、各指示子は、コンパンディング制御データ構造に格納される、ＥＥＥ４に記載の方法。

（ＥＥＥ８）各指示子は、コンパンディングがオンかオフかを示すデータのそれぞれの第２ビットを含む、ＥＥＥ７に記載の方法。

（ＥＥＥ９）各指示子は、少なくとも２ビットのそれぞれのコンパンディング状態データを含み、該少なくとも２ビットは、少なくとも４つのコンパンディング状態を決定し、該４つの状態の各々はそれぞれのコンテンツタイプに対応する、ＥＥＥ８に記載の方法。

（ＥＥＥ１０）オーディオ信号を復号する方法であって、
デコーダ装置により、複数の指示子に関連付けられた圧縮されたオーディオ信号を受信するステップであって、各指示子は、前記圧縮されたオーディオ信号の対応するフレームに適用されたダイナミックレンジ圧縮の程度を導出するために使用されたそれぞれの圧縮／伸長（コンパンディング指数を示す、ステップと、
前記圧縮されたオーディオ信号の中のコンテンツの第１フレームが第１指示子と関連付けられること、及び前記圧縮されたオーディオ信号の中の前記コンテンツの第２フレームが第２指示子と関連付けられること、を決定するステップと、
前記デコーダ装置により、前記第１指示子及び前記第２指示子に基づき、第１コンパンディング指数が前記コンテンツの前記第１フレームを伸長するために使用されるべきであること、及び第２コンパンディング指数が前記コンテンツの前記第２フレームを伸長するために使用されるべきであること、を決定するステップと、
前記圧縮されたオーディオ信号に対して前記コンパンディングの伸長動作を実行するステップであって、前記第１コンパンディング指数から導出された第１の程度のダイナミックレンジ伸長に従い、前記圧縮されたオーディオ信号の前記コンテンツの前記第１フレームを伸長することと、前記第２コンパンディング指数から導出された第２の程度のダイナミックレンジ伸長に従い前記圧縮されたオーディオ信号の前記コンテンツの前記第２フレームを伸長することと、を含むステップと、
前記伸長したオーディオ信号を出力装置に提供するステップと、を含む方法。

（ＥＥＥ１１）各指示子は、前記圧縮したオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する、ＥＥＥ１０に記載の方法。

（ＥＥＥ１２）各指示子は、前記圧縮したオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中に１ビット値を含む、ＥＥＥ１０に記載の方法。

（ＥＥＥ１３）各指示子は、種々のコンパンディング指数を示すよう構成されるコンパンディング状態データの少なくとも２つのビットを含み、前記少なくとも２つのビットはコンパンディングの少なくとも４個の状態に対応し、該状態の各々はコンテンツのそれぞれの過渡タイプに対応する、ＥＥＥ１２に記載の方法。

（ＥＥＥ１４）出力装置は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器のうちの少なくとも１つを含む、ＥＥＥ１０に記載の方法。

（ＥＥＥ１５）機器であって、
１つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、ＥＥＥ１〜１４のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
を含む機器。

（ＥＥＥ１６）命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、ＥＥＥ１〜１４のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体。

Claims

オーディオ信号を処理する方法であって、
オーディオ信号を受信するステップと、
前記オーディオ信号の時間セグメントについて、前記オーディオ信号の前記時間セグメントが粗過渡信号又は密過渡信号を含むかどうかを決定するために、前記オーディオ信号の前記時間セグメントを分析するステップと、
前記決定の結果に基づき、前記オーディオ信号の前記時間セグメントをコンパンディングするステップと、
前記オーディオ信号の前記コンパンディングした時間セグメントを出力するステップと、
を含み、
前記オーディオ信号の前記時間セグメントをコンパンディングする前記ステップは、コンパンディング指数に基づき、前記オーディオ信号の前記時間セグメントのダイナミックレンジを圧縮又は伸長するステップを含み、
前記オーディオ信号の前記時間セグメントが前記粗過渡信号を含むと決定された場合、第１コンパンディング指数が前記コンパンディングするステップで使用され、
前記オーディオ信号の前記時間セグメントが前記密過渡信号を含むと決定された場合、前記第１コンパンディング指数と異なる第２コンパンディング指数が前記コンパンディングするステップで使用される、方法。
前記粗過渡信号は、第１過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記第１過渡イベント密度より高い第２過渡イベント密度を有する過渡イベントを含む、請求項１に記載の方法。
前記粗過渡信号は、所定の閾値より低い第１過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記所定の閾値より高い第２過渡イベント密度を有する過渡イベントを含む、請求項１に記載の方法。
前記粗過渡信号は、拍手、雨、又はパチパチという火、のうちの少なくとも１つに関連する、請求項１〜３のいずれか一項に記載の方法。
前記第２コンパンディング指数は、前記第１コンパンディング指数より高い程度のダイナミックレンジ圧縮又は伸長に対応する、請求項１〜４のいずれか一項に記載の方法。
前記第２コンパンディング指数は、前記第１コンパンディング指数より値が低い、請求項１〜５のいずれか一項に記載の方法。
前記オーディオ信号の前記時間セグメントをコンパンディングする際に使用された前記コンパンディング指数の指示を生成し出力するステップ、を更に含む請求項１〜６のいずれか一項に記載の方法。
オーディオ信号を処理する方法であって、前記方法は、
オーディオ信号を受信するステップと、
前記オーディオ信号の時間セグメント毎に、それぞれの前記時間セグメントの中の前記オーディオ信号のコンテンツに基づき、それぞれのコンパンディング指数を決定するステップであって、各コンパンディング指数は、それぞれの前記時間セグメントのダイナミックレンジの圧縮又は伸長のそれぞれの程度に対応し、前記決定するステップは、
粗過渡信号を含むと決定された前記オーディオ信号の全部の時間セグメントで構成される第１時間セグメントセットに、第１コンパンディング指数を割り当てるステップと、
密過渡信号を含むと決定された前記オーディオ信号の全部の時間セグメントで構成される第２時間セグメントセットに、前記第１コンパンディング指数と異なる第２コンパンディング指数を割り当てるステップと、を含む、ステップと、
前記オーディオ信号にコンパンディング操作を適用するステップであって、前記第１コンパンディング指数に従い前記第１時間セグメントセットを圧縮するステップと、前記第２コンパンディング指数に従い前記第２時間セグメントセットを圧縮するステップと、を含むステップと、
前記圧縮されたオーディオ信号をコアエンコーダに提供するステップと、
前記圧縮されたオーディオ信号に関連付けられたビットストリームに、前記第１コンパンディング指数および前記第２コンパンディング指数のそれぞれの指示を提供するステップと、
を含む方法。
前記第１コンパンディング指数は、前記第２コンパンディング指数より値が高い、請求項８のいずれか一項に記載の方法。
前記コンパンディング指数は、前記コンパンディングするステップで使用されるダイナミックレンジの圧縮の程度を制御し、低い値の前記コンパンディング指数ほど、高い程度のダイナミックレンジの圧縮に対応する、請求項８又は９に記載の方法。
前記粗過渡信号は、第１過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記第１過渡イベント密度より高い第２過渡イベント密度を有する過渡イベントを含む、請求項８〜１０のいずれか一項に記載の方法。
前記粗過渡信号は、所定の閾値より低い第１過渡イベント密度を有する過渡イベントを含み、前記密過渡信号は、前記所定の閾値より高い第２過渡イベント密度を有する過渡イベントを含む、請求項８〜１０のいずれか一項に記載の方法。
前記粗過渡信号は、拍手、雨、又はパチパチという火、のうちの少なくとも１つに関連する、請求項８〜１２のいずれか一項に記載の方法。
各指示子は、前記オーディオ信号の時間セグメント毎にそれぞれの指示子ビットを含む、請求項８〜１３のいずれか一項に記載の方法。
各指示子は、コンパンディングがオンかオフかを示す、時間セグメント毎のそれぞれの第２指示子ビットを含む、請求項１４に記載の方法。
各指示子は、少なくとも２つの指示子ビットを含み、前記少なくとも２つの指示子ビットは、コンパンディングの少なくとも４個の状態を示し、前記４個の状態の各々は、前記オーディオ信号のそれぞれの前記時間セグメントのそれぞれのコンテンツのタイプに対応する、請求項１４又は１５に記載の方法。
オーディオ信号を復号する方法であって、
オーディオ信号の時間セグメント毎に、少なくとも１つの関連付けられた指示子と一緒に前記オーディオ信号を受信するステップであって、各々の少なくとも１つの関連付けられた指示子は、符号化の前のコンパンディング操作の間に前記オーディオ信号のそれぞれの前記時間セグメントに適用された圧縮又は伸長の程度に対応するそれぞれのコンパンディング指数を示す、ステップと、
第１指示子に関連付けられた前記オーディオ信号の全部の時間セグメントで構成される第１時間セグメントセットを決定し、及び第２指示子に関連付けられた前記オーディオ信号の全部の時間セグメントで構成される第２時間セグメントセットを決定するステップと、
前記オーディオ信号の時間セグメント毎に、それぞれの前記時間セグメントについて伸長操作で使用するためのそれぞれのコンパンディング指数を決定するステップであって、第１コンパンディング指数が前記第１時間セグメントセットのために使用されるべきであり、第２コンパンディング指数が前記第２時間セグメントセットのために使用されるべきであると決定され、前記第１コンパンディング指数は前記第２コンパンディング指数と異なる、ステップと、
前記オーディオ信号に伸長操作を適用するステップであって、前記第１コンパンディング指数から導出したダイナミックレンジ伸長の第１の程度に従い前記第１時間セグメントセットを伸長するステップと、前記第２コンパンディング指数から導出したダイナミックレンジ伸長の第２の程度に従い前記第２時間セグメントセットを伸長するステップと、を含むステップと、
前記伸長したオーディオ信号を出力するステップと、
を含む方法。
各指示子は、前記受信したオーディオ信号の中のそれぞれのチャネル又はオブジェクトに対応する、請求項１７に記載の方法。
各指示子は、前記受信したオーディオ信号に関連付けられたメタデータの中のコンパンディング制御データ構造の中に１ビット値を含む、請求項１７又は１８に記載の方法。
各指示子は、種々のコンパンディング指数を示すよう構成されるコンパンディング状態データの少なくとも２つのビットを含み、前記少なくとも２つのビットはコンパンディングの少なくとも４個の状態に対応し、該状態の各々は前記オーディオ信号のコンテンツのそれぞれの過渡タイプに対応する、請求項１９に記載の方法。
前記伸長されたオーディオ信号は、記憶装置、ストリーミングサーバ、オーディオプロセッサ、又は増幅器、のうちの少なくとも１つに出力される、請求項１７〜２０のいずれか一項に記載の方法。
機器であって、
１つ以上のプロセッサと、
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、前記１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、請求項１〜２１のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体と、
を含む機器。
命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、１つ以上のプロセッサにより実行されると、前記１つ以上のプロセッサに、請求項１〜２１のいずれか一項に記載の動作を実行させる、非一時的コンピュータ可読記憶媒体。