JP2021507316A

JP2021507316A - オーディオ信号の高周波再構成技術の後方互換性のある統合

Info

Publication number: JP2021507316A
Application number: JP2020544033A
Authority: JP
Inventors: ショエルリンク，クリストファー; ヴィレモウズ，ラルス; プルンハーゲン，ヘイコ; エクストランド，ペル
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2018-01-26
Filing date: 2019-01-28
Publication date: 2021-02-22
Also published as: AR127540A2; IL278573A; AU2023255020A1; US11961528B2; CN113936672A; UA123426C2; CN113990331A; CN113990332A; MX2020007635A; TW202046293A; US11646041B2; US20230049358A1; US20230050996A1; US20230049695A1; US20230059049A1; AR114312A1; KR20230043248A; US20220180880A1; WO2019148112A1; RU2740688C1

Abstract

符号化された音声ビットストリームをデコードするための方法が開示される。方法は、符号化された音声ビットストリームを受信するステップと、復号化されたローバンド音声信号を生成するために音声データを復号化するステップとを含む。方法は、更に、高周波再構成メタデータを抽出し、復号化されたローバンド音声信号を分析フィルタバンクでフィルタリングして、フィルタリングされたローバンド音声信号を生成するステップを含む。方法は、音声データに対してスペクトル変換又はハーモニック・トランスポジションのいずれが実行されるべきかを示すフラグを抽出し、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド音声信号を利用して音声信号のハイバンド部分を再生成するステップも含む。

Description

関連出願の相互参照
本願は以下の出願に基づく優先権を主張しており、これは本願で援用されている：２０１８年１月２６日付で出願された米国仮出願第６２／６２２，２０５号。

技術分野
実施形態はオーディオ信号処理に関連し、より具体的には、高周波再構成（ＨＦＲ）のベーシック形式又はＨＦＲのエンハンスト形式の何れかがオーディオ・データに関して実行されるべきことを指定する制御データによるオーディオ・ビットストリームのエンコーディング、デコーディング、又はトランスコーディングに関連する。

発明の背景
典型的なオーディオ・ビットストリームは、オーディオ・コンテンツの１つ以上のチャネルを示すオーディオ・データ（例えば、符号化されたオーディオ・データ）と、オーディオ・データ又はオーディオ・コンテンツの少なくとも１つの特徴を示すメタデータとの両方を含む。符号化されたオーディオ・ビットストリームを生成するためのよく知られたフォーマットの１つは、ＭＰＥＧ−４アドバンスト・オーディオ・コーディング（ＡＡＣ）フォーマットであり、これはＭＰＥＧ規格ＩＳＯ／ＩＥＣ１４４９６−３：２００９に記載されている。ＭＰＥＧ４規格では、ＡＡＣは「アドバンスト・オーディオ・コーディング」を意味し、ＨＥ−ＡＡＣは「高効率アドバンスト・オーディオ・コーディング」を意味する。

ＭＰＥＧ−４ＡＡＣ規格は、オブジェクト及び符号化ツールが準拠するエンコーダ又はデコーダに存在することを判定する幾つかのオーディオ・プロファイルを定義している。これらのオーディオ・プロファイルのうちの３つは、（１）ＡＡＣプロファイル、（２）ＨＥ−ＡＡＣプロファイル、及び（３）ＨＥ−ＡＡＣｖ２プロファイルである。ＡＡＣプロファイルは、ＡＡＣ低複雑性（又は「ＡＡＣ−ＬＣ」）オブジェクト・タイプを含む。ＡＡＣ−ＬＣオブジェクトは、若干の調整を伴うＭＰＥＧ−２ＡＡＣ低複雑性プロファイルに対応するものであり、スペクトル・バンド複製（「ＳＢＲ」）オブジェクト・タイプもパラメトリック・ステレオ（「ＰＳ」）オブジェクト・タイプも含まない。ＨＥ−ＡＡＣプロファイルは、ＡＡＣプロファイルのスーパーセットであり、ＳＢＲオブジェクト・タイプを追加的に含む。ＨＥ−ＡＡＣｖ２プロファイルは、ＨＥ−ＡＡＣプロファイルのスーパーセットであり、ＰＳオブジェクト・タイプを追加的に含む。

ＳＢＲオブジェクト・タイプはスペクトル・バンド複製ツールを含み、これは知覚音声コーデックの圧縮効率を著しく改善する重要な高周波再構成（「ＨＦＲ」）符号化ツールである。ＳＢＲは、受信機側で（例えば、デコーダにおいて）オーディオ信号の高周波成分を再構成する。従って、エンコーダは、低周波成分を符号化し、送信することだけを必要とし、低いデータ・レートで非常に高いオーディオ品質を可能にする。ＳＢＲは、エンコーダから得られる制御データ及び利用可能な帯域幅制限信号から、データ・レートを低減するために事前に打ち切られた高調波のシーケンスを複製することに基づいている。トーン成分（ｔｏｎａｌ）及びノイズ成分の間の比率は、ノイズと正弦波の選択的な付加に加えて、適応逆フィルタリングによって維持される。ＭＰＥＧ−４ＡＡＣ規格では、ＳＢＲツールはスペクトル・パッチ処理（線形変換又はスペクトル変換とも呼ばれる）を実行し、この場合、多数の連続した直交ミラー・フィルタ（ＱＭＦ）サブバンドが、デコーダで生成された、オーディオ信号の送信されたローバンド部分から、オーディオ信号のハイバンド部分へコピーされる（又は「パッチ」される）。

スペクトル・パッチ処理又は線形変換は、比較的低いクロス・オーバー周波数を伴う音楽コンテンツのような特定のオーディオ・タイプには理想的ではないかもしれない。従って、スペクトル・バンド複製を改善するための技術が必要とされる。

第１クラスの実施形態に関し、符号化されたオーディオ・ビットストリームをデコードするための方法が開示される。方法は、符号化されたオーディオ・ビットストリームを受信するステップと、デコードされたローバンド・オーディオ信号を生成するためにオーディオ・データをデコードするステップとを含む。方法は、更に、高周波再構成メタデータを抽出するステップと、デコードされたローバンド・オーディオ信号を分析フィルタバンクでフィルタリングして、フィルタリングされたローバンド・オーディオ信号を生成するステップとを含む。方法は、オーディオ・データに対してスペクトル変換又は高調波トランスポジションのいずれが実行されるべきかを示すフラグを抽出するステップと、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド・オーディオ信号を用いてオーディオ信号のハイバンド部分を再生成するステップとを更に含む。最後に、方法は、フィルタリングされたローバンド・オーディオ信号と再生成されたハイバンド部分とを組み合わせて広帯域オーディオ信号を形成するステップを含む。

第２クラスの実施形態は、符号化されたオーディオ・ビットストリームを復号化するためのオーディオ・デコーダに関する。デコーダは、符号化されたオーディオ・ビットストリームを受信するための入力インターフェース（符号化されたオーディオ・ビットストリームは、オーディオ信号のローバンド部分を表すオーディオ・データを含む）と、デコードされたローバンド・オーディオ信号を生成するためにオーディオ・データをデコードするコア・デコーダとを含む。デコーダはまた、符号化されたオーディオ・ビットストリーム高周波再構成メタデータから抽出するためのデマルチプレクサ（高周波再構成メタデータは、オーディオ信号のローバンド部分からオーディオ信号のハイバンド部分へ、連続する数のサブバンドを線形に変換する高周波再構成プロセスのための動作パラメータを含む）と、デコードされたローバンド・オーディオ信号をフィルタリングして、フィルタリングされたローバンド・オーディオ信号を生成するための分析フィルタバンクとを含む。デコーダは更に、オーディオ・データに対して線形変換又は高調波トランスポジションのいずれが実行されるべきかを示すフラグを、符号化されたオーディオ・ビットストリームから抽出するためのデマルチプレクサと、フラグに従って高周波再構成メタデータ及びフィルタリングされたローバンド・オーディオ信号を使用してオーディオ信号のハイバンド部分を再生成するための高周波再生器とを含む。最後に、デコーダは、広帯域オーディオ信号を形成するために、フィルタリングされたローバンド・オーディオ信号と再生成されたハイバンド部分とを組み合わせるための合成フィルタバンクを含む。

他のクラスの実施形態は、強化されたスペクトル・バンド複製（ｅＳＢＲ）処理が実行されるべきかどうかを識別するメタデータを含むオーディオ・ビットストリームをエンコード及びトランスコーディングすることに関する。

本発明の方法の実施形態を実施するように構成される可能性のあるシステムの実施形態のブロック図である。本発明のオーディオ処理ユニットの実施形態であるエンコーダのブロック図である。本発明のオーディオ処理ユニットの実施形態であるデコーダと、オプションとしてそれに結合されたポスト・プロセッサとを含むシステムのブロック図である。本発明のオーディオ処理ユニットの実施形態であるデコーダのブロック図である。本発明のオーディオ処理ユニットの別の実施形態であるデコーダのブロック図である。本発明のオーディオ処理ユニットの別の実施形態のブロック図である。分割されたセグメントを含むＭＰＥＧ−４ＡＡＣビットストリームのブロックの図を示す。

表記及び用語
特許請求の範囲を含む本開示全体を通じて、信号又はデータ「に対して」処理を実行するという表現（例えば、信号又はデータのフィルタリング、スケーリング、変換、又は利得の適用）は、信号又はデータ、又は信号又はデータの処理されたバージョンに（例えば、その処理の実行前に、予備的なフィルタリング又は前処理を施した信号のバージョンに）直接的な処理を実行することを示す広義に使用される。

特許請求の範囲を含む本開示全体を通じて、「オーディオ処理ユニット」又は「オーディオ・プロセッサ」という表現は、オーディオ・データを処理するように構成されたシステム、デバイス、又は装置を示すように広義に使用される。オーディオ処理ユニットの例としては、エンコーダ、トランスコーダ、デコーダ、コーデック、前処理システム、後処理システム、及びビットストリーム処理システム（しばしばビットストリーム処理ツールと言及される）を含むが、これらに限定されない。モバイル・フォン、テレビ、ラップトップ、タブレット・コンピュータのような事実上すべての消費者電子製品は、オーディオ処理ユニット又はオーディオ・プロセッサを内蔵している。

特許請求の範囲を含む本開示全体を通じて、「結合する」又は「結合される」という用語は、直接的又は間接的な接続を意味するように広義に使用される。従って、第１デバイスが第２デバイスに結合する場合、その接続は、直接的な接続を介している可能性、又は他のデバイス及び接続を介する間接的な接続を介している可能性がある。更に、他の構成要素の中に又はそれと共に一体化された構成要素も互いに結合される。

発明の実施形態の詳細な説明
ＭＰＥＧ−４ＡＡＣ規格は、符号化されたＭＰＥＧ−４ＡＡＣビットストリームが、ビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって（もし適用されるべきであるならば）適用されるべき高周波再構成（ＨＦＲ）処理の各タイプを示す、及び／又はそのようなＨＦＲ処理を制御する、及び／又はビットストリームのオーディオ・コンテンツをデコードするために使用されるべき少なくとも１つのＨＦＲツールの少なくとも１つの特性又はパラメータを示すメタデータを含むことを想定している。ここで、我々は、スペクトル・バンド複製（「ＳＢＲ」）で使用するためにＭＰＥＧ−４ＡＡＣ規格で記述又は言及されているこの種のメタデータを示すために、「ＳＢＲメタデータ」という表現を使用する。当業者には理解されるように、ＳＢＲはＨＦＲの一形態である。

ＳＢＲは、好ましくはデュアル・レート・システムとして使用され、基礎となるコーデックはオリジナルのサンプリング・レートの半分で動作する一方、ＳＢＲはオリジナルのサンプリング・レートで動作する。ＳＢＲエンコーダは、より高いサンプリング・レートではあるが、基礎とするコア・コーデックと並列的に動作する。ＳＢＲは主にデコーダにおける後処理であるが、デコーダにおける最も高い精度の高周波再構成を補償するために、重要なパラメータがエンコーダで抽出される。エンコーダは、現在の入力信号セグメント特性に適した時間及び周波数レンジ／分解能に対して、ＳＢＲレンジのスペクトル包絡線を推定する。スペクトル包絡線は、複雑なＱＭＦ解析とその後のエネルギー計算により推定される。スペクトル包絡線の時間及び周波数分解能は、所与の入力セグメントに対して最適な時間周波数分解能を保証するために、高いレベルの自由度で選択されることが可能である。包絡線推定は、オリジナルの領域、主に高周波領域（例えば、ハイ・ハット（ａｈｉｇｔ−ｈａｔ））に位置する一過性のもの（ａｔｒａｎｓｉｅｎｔ）が、包絡線調整前に生成されたＳＢＲハイバンドに僅かに存在することを考慮する必要があり、なぜならデコーダにおけるハイバンドはローバンドに基づくからであり、その一過性のものはハイバンドと比較してはるかに小さいと判断される。この態様は、他のオーディオ符号化アルゴリズムで使用されるような通常のスペクトル包絡線推定と比較して、スペクトル包絡線データの時間周波数分解能に対する異なる条件を課す。

スペクトル包絡線とは別に、異なる時間及び周波数領域に対する入力信号のスペクトル特性を表す幾つかの追加的なパラメータが抽出される。エンコーダは、当然に、オリジナル信号だけでなく、デコーダ内のＳＢＲユニットがどのようにしてハイバンドを生成するかに関する情報に対するアクセスも有するので、ローバンドが強い高調波系列を構成し且つ再生成されるハイバンドが主にランダム信号成分を構成するような状況だけでなく、ハイバンド領域が基礎とするローバンドに対応物が無いオリジナル・ハイバンドに強いトーン成分が存在するような状況を、システムは取り扱うことが可能である。更に、ＳＢＲエンコーダは、基礎とするコア・コーデックと密接に関係して動作し、所与の時間にどの周波数範囲がＳＢＲによってカバーされるべきかを評価する。ＳＢＲデータは、ステレオ信号の場合に、制御データのチャネル依存性だけでなく、エントロピー符号化も利用することによって伝送前に効率的に符号化される。

制御パラメータ抽出アルゴリズムは、典型的には、所与のビットレート及び所与のサンプリング・レートで、基礎とするコーデックに注意深く調整されることを必要とする。これは、より低いビットレートは、通常、高いビットレートと比較して、より大きなＳＢＲ範囲を示し、異なるサンプリング・レートは、ＳＢＲフレームの異なる時間分解能に対応するという事実に起因する。

ＳＢＲデコーダは、典型的には、幾つかの異なるパートを含む。これは、ビットストリーム復号化モジュール、高周波再構成モジュール（ＨＦＲ）、追加的な高周波コンポーネント・モジュール、及び包絡線調整モジュールを含む。システムは、複素数値ＱＭＦフィルタバンク（高品質ＳＢＲに対するもの）又は実数値ＱＭＦフィルタバンク（低電力ＳＢＲに対するもの）に基づいている。本発明の実施形態は、高品質ＳＢＲ及び低電力ＳＢＲの両方に適用可能である。ビットストリーム抽出モジュールでは、制御データがビットストリームから読み出され、デコードされる。時間周波数グリッドは、ビットストリームから包絡線データを読み取る前に、現在フレームに対して得られる。基礎とするコア・デコーダは、（より低いサンプリング・レートではあるが）現在フレームのオーディオ信号をデコードし、時間ドメインのオーディオ・サンプルを生成する。結果のオーディオ・データのフレームは、ＨＦＲモジュールによる高周波再構成に使用される。次いで、デコードされたローバンド信号は、ＱＭＦフィルタバンクを用いて分析される。その後、ＱＭＦフィルタバンクのサブバンド・サンプルに対して高周波再構成と包絡線調整とが実行される。高周波は、与えられた制御パラメータに基づいて、柔軟な方法でローバンドから再構成される。更に、再構成されたハイバンドは、所与の時間／周波数領域の適切なスペクトル特性を保証するために、制御データに従ってサブバンド・チャネル・ベースで適応的にフィルタリングされる。

ＭＰＥＧ−４ＡＡＣビットストリームのトップ・レベルは、データ・ブロックのシーケンス（「ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」要素）であり、それらの各々は、オーディオ・データ（典型的には、１０２４個又は９６０個のサンプルの期間にわたる）及び関連情報及び／又は他のデータを含むデータのセグメント（以下「ブロック」という）である。ここで、我々は、１つの（１つより多くない）「ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」要素を決定するか又は示すオーディオ・データ（及び対応するメタデータ及びオプションとして他の関連データ）を含むＭＰＥＧ−４ＡＡＣビットストリームのセグメントを示すために、用語「ブロック」を使用する。

ＭＰＥＧ−４ＡＡＣビットストリームの各ブロックは、多数の構文要素を含むことが可能である（それらの各々はまた、データのセグメントとしてビットストリームに現れる）。このような構文要素の７つのタイプがＭＰＥＧ−４ＡＡＣ標準で定義されている。各々の構文要素は、データ要素「ｉｄ＿ｓｙｎ＿ｅｌｅ」の異なる値によって識別される。構文要素の具体例は、「ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）」、「ｃｈａｎｎｅｌ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ（）」、及び「ｆｉｌｌ＿ｅｌｅｍｅｎｔ（）」を含む。単一のチャネル要素は、単一のオーディオ・チャネルのオーディオ・データを含むコンテナ（モノラル・オーディオ信号）である。チャネル・ペア要素は、２つのオーディオ・チャネル（ステレオ・オーディオ信号）のオーディオ・データを含む。

フィル要素は、識別子（例えば、上記のｉｄ＿ｓｙｎ＿ｅｌｅ要素の値）と、それに続くデータを含む情報のコンテナであり、これは「フィル・データ」と言及される。フィル要素は、歴史的には、一定のレートのチャネルを介して伝送されるビットストリームの瞬時的なビットレートを調整するために使用されてきた。各ブロックに適切な量のフィル・データを加えることによって、一定のデータ・レートが達成されることが可能である。

本発明の実施形態によれば、フィル・データは、ビットストリームで送信されることが可能なデータのタイプ（例えば、メタデータ）を拡張する１つ以上の拡張ペイロードを含む可能性がある。新しいタイプのデータを含むフィル・データとともにビットストリームを受信するデコーダは、デバイスの機能を拡張するために、ビットストリームを受信するデバイス（例えば、デコーダ）によってオプションとして使用される可能性がある。従って、当業者には理解されるように、フィル要素は、特殊なタイプのデータ構造であり、オーディオ・データを送信するために典型的に使用されるデータ構造（例えば、チャネル・データを含むオーディオ・ペイロード）とは異なる。

本発明の幾つかの実施形態において、フィル要素を識別するために使用される識別子は、０ｘ６という値を有する最上位ビット・ファーストで送信される３ビット符号なし整数（ａｔｈｒｅｅｂｉｔｕｎｓｉｇｎｅｄｉｎｔｅｇｅｒｔｒａｎｓｍｉｔｔｅｄｍｏｓｔｓｉｇｎｉｆｉｃａｎｔｂｉｔｆｉｒｓｔ：ｕｉｍｓｂｆ）から成る可能性がある。１つのブロックでは、同じタイプの構文要素（例えば、複数のフィル要素）の幾つかのインスタンスが発生する可能性がある。

音声ビットストリームを符号化するための別の規格は、ＭＰＥＧ（ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ：ＵＳＡＣ）規格（ＩＳＯ／ＩＥＣ２３００３−３：２０１２）である。ＭＰＥＧＵＳＡＣ規格は、スペクトル・バンド複製処理を用いるオーディオ・コンテンツの符号化及び復号化（ＭＰＥＧ−４ＡＡＣ規格に記載されているようなＳＢＲ処理を含み、また、スペクトル・バンド複製処理の他の強化された形態も含む）を記述している。この処理は、ＭＰＥＧ−４ＡＡＣ規格に記載されている一群のＳＢＲツールの拡張された及び強化されたバージョンのスペクトル・バンド複製ツール（本願では「拡張ＳＢＲツール」又は「ｅＳＢＲツール」としばしば言及する）を適用する。従って、（ＵＳＡＣ規格で定義されているような）ｅＳＢＲは、（ＭＰＥＧ−４ＡＡＣ標準で定義されているような）ＳＢＲに対する改良である。

ここでは、ＭＰＥＧ−４ＡＡＣ規格に記載又は言及されていない少なくとも１つのｅＳＢＲツール（例えば、ＭＰＥＧＵＳＡＣ規格に記載又は言及されている少なくとも１つのｅＳＢＲツール）を用いるスペクトル・バンド複製処理を表すために、「エンハンストＳＢＲ処理」（又は「ｅＳＢＲ処理」）という表現を用いる。このようなｅＳＢＲツールの例は、ハーモニック・トランスポジション及びＱＭＦパッチ処理追加前処理又は「事前平坦化」である。

整数次数Ｔのハーモニック・トランスポーザは、周波数ωの正弦波を周波数Ｔωの正弦波にマッピングする一方、信号持続時間を維持する。可能な最小のトランスポジション次数を用いて所望の出力周波数範囲の各パートを生成するために、典型的には、Ｔ＝２、３、４の３つの次数が順番に使用される。４次のトランスポジション範囲より上の出力が必要とされる場合には、それは周波数シフトにより生成される可能性がある。可能であれば、計算の複雑さを最小限にするために、ほぼ臨界的にサンプリングされるベースバンド時間ドメインが処理のために作成される。

ハーモニック・トランスポーザは、ＱＭＦ又はＤＦＴベースの何れかであってもよい。ＱＭＦベースのハーモニック・トランスポーザを使用する場合、コア符号器時間ドメイン信号の帯域幅拡張は、修正された位相ボコーダ構造を使用して、ＱＭＦドメイン内で完全に実行され、全ＱＭＦサブバンドに対してデシメーションの後に時間伸長を実行する。幾つかのトランスポジション因子（例えば、Ｔ＝２、３、４）を用いるトランスポジションは、共通のＱＭＦ分析／合成変換ステージで実行される。ＱＭＦベースのハーモニック・トランスポーザは信号適応周波数ドメイン・オーバーサンプリングを特徴としないので、ビットストリームの対応するフラグ（ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］）は無視される可能性がある。

ＤＦＴベースのハーモニック・トランスポーザを使用する場合、因子３及び４のトランスポーザ（３次及び４次トランスポーザ）は、好ましくは、複雑性を低減するために、内挿によって因子２のトランスポーザ（２次トランスポーザ）に組み込まれる。（ｃｏｒｅＣｏｄｅｒＦｒａｍｅＬｅｎｇｔｈコア符号化器サンプルに対応する）各フレームに対して、トランスポーザの公称「フル・サイズ」変換サイズが、ビットストリーム内の信号適応周波数ドメイン・オーバーサンプリング・フラグ（ｓｂｒＯｖｅｒＳａｍｐｌｉｎｇＦｌａｇ［ｃｈ］）によって最初に決定される。

ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ＝＝１である場合、線形トランスポジションはハイバンドを生成するために使用されるべきことを示し、後続の包絡線調整器に入力される高周波信号のスペクトル包絡線の形状における不連続性を避けるために、追加のステップが導入される可能性がある。これは、次の包絡線調整ステージの動作を改善し、結果として、より安定的であると知覚されるハイバンド信号を生じる。追加的な前処理の動作は、高周波再構成のために使用されるローバンド信号の粗いスペクトル包絡線がレベルの大きな変動を示す信号タイプにとって有益である。しかしながら、ビットストリーム要素の値は、任意の種類の信号依存分類を適用することによって、エンコーダ内で決定される可能性がある。追加の前処理は、好ましくは、１ビット・ビットストリーム要素ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇによって活性化される。ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇが１に設定される場合、追加的な処理はイネーブルにされる。ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇがゼロに設定される場合、追加的な処理はディセーブルにされる。追加的な処理は、各パッチについてローバンドＸ_Ｌｏｗをスケーリングするために高周波発生器によって使用されるプリゲイン曲線を利用することが好ましい。例えば、プリゲイン曲線は、以下に従って計算されてもよい：

ここで、ｋ_０はマスター周波数バンド・テーブルにおける最初のＱＭＦサブバンドであり、ｌｏｗＥｎｖＳｌｏｐｅは、ｐｏｌｙｆｉｔ（）のような、最良適合多項式の係数を計算する関数を使用して計算される。例えば（３次多項式を用いて）次式が使用される可能性がある：

ここで

であり、ｘ＿ｌｏｗｂａｎｄ（ｋ）＝［０...ｋ_０−１］であり、ｎｕｍＴｉｍｅＳｌｏｔはフレーム内に存在するＳＢＲ包絡線タイムスロットの数であり、ＲＡＴＥはタイムスロットあたりのＱＭＦサブバンド・サンプルの数を示す定数（例えば、２）であり、φ_ｋは線形予測フィルタ係数（共分散法から得られる可能性がある）であり、ここで、次式の関係がある：

ＭＰＥＧＵＳＡＣ規格に従って生成されたビットストリーム（本願では「ＵＳＡＣビットストリーム」としばしば言及される）は、符号化されたオーディオ・コンテンツを含み、典型的には、ＵＳＡＣビットストリームのオーディオ・コンテンツを復号化するためにデコーダによって適用される各タイプのスペクトル・バンド複製処理を示すメタデータ、及び／又は、そのようなスペクトル・バンド複製処理を制御し、及び／又はＵＳＡＣビットストリームのオーディオ・コンテンツを復号化するために使用される少なくとも１つのＳＢＲツール及び／又はｅＳＢＲツールの少なくとも１つの特性又はパラメータを示すメタデータを含む。

本願において、符号化されたオーディオ・ビットストリーム（例えば、ＵＳＡＣビットストリーム）のオーディオ・コンテンツを復号化するためにデコーダによって適用される各タイプのスペクトル・バンド複製処理を示す、及び／又はそのようなスペクトル・バンド複製処理を制御し、及び／又はそのようなオーディオ・コンテンツを復号化するために使用される少なくとも１つのＳＢＲツール及び／又はｅＳＢＲツールの少なくとも１つの特性又はパラメータを示すが、ＭＰＥＧ４ＡＡＣ規格には記述又は言及されてないメタデータを示すために、「エンハンストＳＢＲメタデータ」（又はｅＳＢＲメタデータ）という表現を使用する。ｅＳＢＲメタデータの具体例には、ＭＰＥＧＵＳＡＣ規格では記述又は言及されているが、ＭＰＥＧ−４ＡＡＣ規格では記述又は言及されていないメタデータ（スペクトル・バンド複製処理を示す、又は制御するためのもの）がある。従って、本願におけるｅＳＢＲメタデータは、ＳＢＲメタデータではないメタデータを指し、本願におけるＳＢＲメタデータは、ｅＳＢＲメタデータではないメタデータを指す。

ＵＳＡＣビットストリームは、ＳＢＲメタデータ及びｅＳＢＲメタデータの両方を含む可能性がある。より具体的には、ＵＳＡＣビットストリームは、デコーダによるｅＳＢＲ処理のパフォーマンスを制御するｅＳＢＲメタデータと、デコーダによるＳＢＲ処理のパフォーマンスを制御するＳＢＲメタデータとを含む可能性がある。本発明の典型的な実施形態によれば、ｅＳＢＲメタデータ（例えば、ｅＳＢＲ固有のコンフィギュレーション・データ）は、（本発明によれば）ＭＰＥＧ−４ＡＡＣビットストリーム（例えば、ＳＢＲペイロードの終わりにあるｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）コンテナ）に含まれる。

（少なくとも１つのｅＳＢＲツールを含む）ｅＳＢＲツール・セットを用いる符号化されたビットストリームの復号化中における、デコーダによるｅＳＢＲ処理の実行は、符号化中に切り捨てられた高調波のシーケンスの複製に基づいて、オーディオ信号の高周波バンドを再生成する。このようなｅＳＢＲ処理は、典型的には、生成された高周波バンドのスペクトル包絡線を調整し、逆フィルタリングを適用し、ノイズ及び正弦波成分を加えて、オリジナルのオーディオ信号のスペクトル特性を再現する。

本発明の典型的な実施形態によれば、ｅＳＢＲメタデータは、他のセグメント（オーディオ・データ・セグメント）にエンコードされたオーディオ・データを含むエンコードされたオーディオ・ビットストリーム（例えばＭＰＥＧ−４ＡＡＣビットストリーム）の１つ以上のメタデータ・セグメントに含まれる（例えば、ｅＳＢＲメタデータである少数の制御ビットが含まれる）。典型的には、ビットストリームの各ブロックの少なくとも１つのそのようなメタデータ・セグメントは、フィル要素（フィル要素の開始を示す識別子を含む）であり（又はそれを含み）、ｅＳＢＲメタデータは、識別子の後のフィル要素に含まれる。

図１は、例示的なオーディオ処理チェーン（オーディオ・データ処理システム）のブロック図であり、システムの１つ以上の要素は、本発明の実施形態に従って構成されることが可能である。システムは、エンコーダ１、配信サブシステム２、デコーダ３、及び後処理ユニット４として示されるように共に結合される要素を含む。図示のシステムの変形では、１つ以上の要素が省略されるか、又は追加のオーディオ・データ処理ユニットが含まれる。

幾つかの実装において、エンコーダ１（前処理ユニットをオプションとして含む）は、入力としてオーディオ・コンテンツを含むＰＣＭ（時間ドメイン）サンプルを受け入れ、オーディオ・コンテンツを示す符号化されたオーディオ・ビットストリーム（ＭＰＥＧ−４ＡＡＣ規格に準拠したフォーマットを有する）を出力するように構成される。オーディオ・コンテンツを示すビットストリームのデータは、本願では「オーディオ・データ」又は「符号化されたオーディオ・データ」としばしば言及される。エンコーダが本発明の典型的な実施形態に従って構成される場合、エンコーダから出力されるオーディオ・ビットストリームは、音声データと同様にｅＳＢＲメタデータを（及び典型的には他のメタデータも）含む。

エンコーダ１から出力される１つ以上の符号化されたオーディオ・ビットストリームは、符号化オーディオ配信サブシステム２にアサートされてもよい。サブシステム２は、エンコーダ１からの各エンコードされたビットストリーム出力を格納及び／又は配信するように構成される。エンコーダ１から出力される符号化されたオーディオ・ビットストリームは、サブシステム２によって（例えば、ＤＶＤ又はブルー・レイ・ディスクの形式で）記憶されるか、又は（伝送リンク又はネットワークを実現することが可能な）サブシステム２によって送信されるか、又はサブシステム２によって記憶及び送信の双方が行われる可能性がある。

デコーダ３は、サブシステム２を介して受信するエンコードされた（エンコーダ１によって生成される）ＭＰＥＧ−４ＡＡＣオーディオ・ビットストリームをデコードするように構成される。幾つかの実施形態では、デコーダ３は、ビットストリームの各ブロックからｅＳＢＲメタデータを抽出し、ビットストリームをデコードし（抽出されたｅＳＢＲメタデータを使用してｅＳＢＲ処理を実行することを含む）、デコードされたオーディオ・データ（例えば、デコードされたＰＣＭオーディオ・サンプルのストリーム）を生成するように構成される。幾つかの実施形態では、デコーダ３は、ビットストリームからＳＢＲメタデータを抽出し（ただし、ビットストリームに含まれるｅＳＢＲメタデータを無視する）、ビットストリームをデコードし（抽出されたＳＢＲメタデータを使用してＳＢＲ処理を実行することを含む）、デコードされたオーディオ・データ（例えば、デコードされたＰＣＭオーディオ・サンプルのストリーム）を生成するように構成される。典型的には、デコーダ３は、サブシステム２から受信した符号化されたオーディオ・ビットストリームのセグメントを（例えば、非一時的な方法で）記憶するバッファを含む。

図１の後処理ユニット４は、デコーダ３からのデコードされたオーディオ・データのストリーム（例えば、デコードされたＰＣＭオーディオ・サンプル）を受け入れ、それに対して後処理を実行するように構成される。後処理ユニットはまた、後処理されたオーディオ・コンテンツ（又はデコーダ３から受信したデコードされた音声）を、１つ以上のスピーカによる再生のためにレンダリングするように構成されることも可能である。

図２は、本発明のオーディオ処理ユニットの実施形態であるエンコーダ（１００）のブロック図である。エンコーダ１００の構成要素又は素子のいずれも、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにおいて、１つ以上のプロセス及び／又は１つ以上の回路（例えば、ＡＳＩＣ、ＦＰＧＡ、又は他の集積回路）として実装される可能性がある。エンコーダ１００は、図示のように接続されたエンコーダ１０５、スタッファ／フォーマッタ・ステージ（ｓｔｕｆｆｅｒ／ｆｏｒｍａｔｔｅｒｓｔａｇｅ）１０７、メタデータ生成ステージ１０６、及びバッファ・メモリ１０９を含む。典型的には、エンコーダ１００は、（図示されていない）他の処理要素も含む。エンコーダ１００は、入力音声ビットストリームを、符号化された出力ＭＰＥＧ−４ＡＡＣビットストリームに変換するように構成される。

メタデータ生成部１０６は、エンコーダ１００から出力されるべき符号化されたビットストリーム内にステージ１０７によって含められるべきメタデータ（ｅＳＢＲメタデータ及びＳＢＲメタデータを含む）を生成する（及び／又はステージ１０７を通過する）ように構成され結合される。

エンコーダ１０５は、入力オーディオ・データを（例えば、そこで圧縮を実行することによって）符号化し、その結果得られた符号化された音声を、ステージ１０７から出力されるべき符号化ビットストリームに含めるために、ステージ１０７にアサートするように構成され結合される。

ステージ１０７は、エンコーダ１０５からのエンコードされた音声と、生成部１０６からのメタデータ（ｅＳＢＲメタデータ及びＳＢＲメタデータを含む）とを多重化して、ステージ１０７から出力されるエンコードされたビットストリームを生成するように構成され、好ましくは、エンコードされたビットストリームが、本発明の実施形態のうちの何れかによって特定されるようなフォーマットを有するように構成される。

バッファ・メモリ１０９は、ステージ１０７から出力される符号化されたオーディオ・ビットストリームの少なくとも１つのブロックを（例えば、非一時的な方法で）格納するように構成され、次いで、符号化されたオーディオ・ビットストリームのブロックのシーケンスが、エンコーダ１００から送出システムへの出力としてバッファ・メモリ１０９からアサートされる。

図３は、本発明のオーディオ処理ユニットの実施形態であるデコーダ（２００）と、オプションとしてそれに結合されるポスト・プロセッサ（３００）とを含むシステムのブロック図である。デコーダ２００及びポスト・プロセッサ３００の構成要素又は素子のいずれも、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせにおいて、１つ以上のプロセス及び／又は１つ以上の回路（例えば、ＡＳＩＣ、ＦＰＧＡ、又は他の集積回路）として実装される可能性がある。デコーダ２００は、バッファ・メモリ２０１、ビットストリーム・ペイロード・デフォーマッタ２０５、オーディオ・デコーディング・サブシステム２０２（「コア」デコーディング・ステージ又は「コア」デコーディング・サブシステムと言及されることもある）、ｅＳＢＲ処理ステージ２０３、及び制御ビット生成ステージ２０４を図示のように接続された形式で含む。典型的には、デコーダ２００は、（図示されていない）他の処理要素も含む。

バッファ・メモリ（バッファ）２０１は、デコーダ２００によって受信されるエンコードされたＭＰＥＧ−４ＡＡＣオーディオ・ビットストリームの少なくとも１つのブロックを（例えば、非一時的な形式で）記憶する。デコーダ２００の動作において、ビットストリームのブロックのシーケンスは、バッファ２０１からデフォーマッタ２０５にアサートされる。

図３の実施形態（又は後述する図４の実施形態）の変形例において、デコーダではないＡＰＵ（例えば、図６のＡＰＵ５００）はバッファ・メモリ（例えば、バッファ２０１と同一のバッファ・メモリ）を含み、バッファ・メモリは、図３又は図４のバッファ２０１によって受信された同じタイプの符号化オーディオ・ビットストリーム（例えば、ＭＰＥＧ−４ＡＡＣオーディオ・ビットストリーム）（即ち、ｅＳＢＲメタデータを含む符号化オーディオ・ビットストリーム）の少なくとも１つのブロックを（例えば、非一時的な方法で）格納する。

図３を再度参照すると、デフォーマッタ２０５は、ビットストリームの各ブロックをデマルチプレクス（又は分離）し、（量子化された包絡線データを含む）ＳＢＲメタデータ及びｅＳＢＲメタデータ（及び典型的には他のメタデータ）をそこから抽出し、少なくともｅＳＢＲメタデータ及びＳＢＲメタデータをｅＳＢＲ処理ステージ２０３にアサートし、典型的には、他の抽出されたメタデータを復号化サブシステム２０２にもアサートするように（及び、オプションとして、ビット生成部２０４を制御するようにも）構成され結合される。デフォーマッタ２０５はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データを復号化サブシステム（復号化ステージ）２０２にアサートするように構成され結合される。

図３のシステムは、オプションとしてポスト・プロセッサ３００も含む。ポスト・プロセッサ３００は、バッファ・メモリ（バッファ）３０１及びバッファ３０１に結合された少なくとも１つの処理要素を含む他の処理要素（図示せず）を含む。バッファ３０１は、デコーダ２００からポスト・プロセッサ３００によって受信されたデコードされたオーディオ・データの少なくとも１つのブロック（又はフレーム）を（非一時的な方法で）記憶する。ポスト・プロセッサ３００の処理要素は、デコーディング・サブシステム２０２（及び／又はデフォーマッタ２０５）から出力されるメタデータ及び／又はデコーダ２００のステージ２０４から出力される制御ビットを用いて、バッファ３０１からデコードされたオーディオ出力のブロックのシーケンスを受信し、適応的に処理するように構成され結合される。

デコーダ２００のオーディオ復号化サブシステム２０２は、パーサー２０５によって抽出されたオーディオ・データを復号化して（そのような復号化は「コア」復号化処理と言及されてもよい）、復号化されたオーディオ・データを生成し、復号化されたオーディオ・データをｅＳＢＲ処理ステージ２０３にアサートするように構成される。復号化は周波数ドメインで実行され、典型的には逆量子化とそれに続くスペクトル処理を含む。典型的には、サブシステム２０２における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインの音声データに適用し、その結果、サブシステムの出力は、時間ドメインの復号化されたオーディオ・データである。ステージ２０３は、ｅＳＢＲメタデータ及びｅＳＢＲ（パーサー２０５によって抽出されたもの）によって示されるＳＢＲツール及びｅＳＢＲツールを、デコードされたオーディオ・データに適用し（即ち、ＳＢＲ及びｅＳＢＲメタデータを使用して復号化サブシステム２０２の出力に対してＳＢＲ及びｅＳＢＲ処理を実行し）、デコーダ２００から（例えば、ポスト・プロセッサ３００へ）出力される完全にデコードされたオーディオ・データを生成するように構成される。典型的には、デコーダ２００は、デフォーマッタ２０５からのメタデータ及びデフォーマットされたオーディオ・データを格納するメモリ（サブシステム２０２及びステージ２０３によってアクセス可能である）を含み、ステージ２０３は、ＳＢＲ及びｅＳＢＲ処理中に必要に応じてオーディオ・データ及びメタデータ（ＳＢＲメタデータ及びｅＳＢＲメタデータを含む）にアクセスするように構成される。ステージ２０３におけるＳＢＲ処理及びｅＳＢＲ処理は、コア復号化サブシステム２０２の出力に対する後処理であると考えられてもよい。オプションとして、デコーダ２００はまた、ステージ２０３の出力に対してアップミックスを実行し、デコーダ２００から出力される完全にデコードされたアップミックスされたオーディオを生成するように構成され結合される最終的なアップミキシング・サブシステム（ＭＰＥＧ−４ＡＡＣ規格で定義されるパラメトリック・ステレオ（ＰＳ）ツールを、デフォーマッタ２０５によって抽出されたＰＳメタデータ及び／又はサブシステム２０４で生成された制御ビットを使用して適用することができる）を含む。代替的に、ポスト・プロセッサ３００は、デコーダ２００の出力に対してアップミキシングを実行するように構成される（例えば、デフォーマッタ２０５によって抽出されたＰＳメタデータ及び／又はサブシステム２０４において生成された制御ビットを使用する）。

デフォーマッタ２０５によって抽出されたメタデータに応答して、制御ビット発生部２０４は制御データを生成することが可能であり、制御データはデコーダ２００内で（例えば、最終的なアップミキシング・サブシステムにおいて）使用され、及び／又はデコーダ２００の出力として（例えば、後処理で使用するためにポスト・プロセッサ３００へ）アサートされることが可能である。入力ビットストリームから抽出されたメタデータに応答して（及びオプションとして制御データに応答して）、ステージ２０４は、ｅＳＢＲ処理ステージ２０３からのデコードされたオーディオ・データ出力が特定のタイプの後処理を受けるべきであることを示す制御ビットを生成（及びポスト・プロセッサ３００にアサート）することが可能である。幾つかの実装において、デコーダ２００は、入力ビットストリームからポスト・プロセッサ３００へのデフォーマッタ２０５によって抽出されたメタデータをアサートするように構成され、ポスト・プロセッサ３００は、メタデータを使用してデコーダ２００からのデコードされたオーディオ・データ出力に対して後処理を実行するように構成される。

図４は、本発明のオーディオ処理ユニットの別の実施形態であるオーディオ処理ユニット（「ＡＰＵ」）（２１０）のブロック図である。ＡＰＵ２１０は、ｅＳＢＲ処理を実行するようには構成されていないレガシー・デコーダである。ＡＰＵ２１０のコンポーネント又はエレメントのいずれかは、ハードウェア、ソフトウェア、又はハードウェアの組み合わせで、１つ以上のプロセス及び／又は１つ以上の回路（例えば、ＡＳＩＣ、ＦＰＧＡ、又は他の集積回路）として実装されてもよい。ＡＰＵ２１０は、バッファ・メモリ２０１、ビットストリーム・ペイロード・デフォーマッタ（パーサー）２１５、オーディオ復号化サブシステム２０２（「コア」復号化ステージ又は「コア」復号化サブシステムとしばしば言及される）、及びＳＢＲ処理ステージ２１３を図示のように接続された形式で含む。典型的には、ＡＰＵ２１０は、（図示されていない）他の処理要素を含む。ＡＰＵ２１０は例えばオーディオ・エンコーダ、デコーダ又はトランスコーダを表す可能性がある。

ＡＰＵ２１０のエレメント２０１及び２０２は、（図３の）デコーダ２００と同様に付番されたエレメントと同一であり、それらの上述の説明は繰り返さない。ＡＰＵ２１０の動作において、ＡＰＵ２１０によって受信された符号化オーディオ・ビットストリーム（ＭＰＥＧ−４ＡＡＣビットストリーム）のブロックのシーケンスは、バッファ２０１からデフォーマッタ２１５にアサートされる。

デフォーマッタ２１５は、ビットストリームの各ブロックをデマルチプレクスして、ＳＢＲメタデータ（量子化エンベロープ・データを含む）及び典型的には他のメタデータをそこから抽出するが、本発明の何らかの実施形態に従ってビットストリームに含まれることが可能なｅＳＢＲメタデータは無視するように構成され結合される。デフォーマッタ２１５は、少なくともＳＢＲメタデータをＳＢＲ処理ステージ２１３にアサートするように構成される。デフォーマッタ２１５はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データを復号化サブシステム（復号化ステージ）２０２にアサートするように構成され結合される。

デコーダ２００のオーディオ・デコーディング・サブシステム２０２は、デフォーマッタ２１５によって抽出されたオーディオ・データをデコードしてデコードされたオーディオ・データを生成し（そのようなデコードは「コア」復号化処理と言及されてもよい）、デコードされたオーディオ・データをＳＢＲ処理ステージ２１３にアサートするように構成される。復号化は周波数ドメインで実行される。典型的には、サブシステム２０２における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインのオーディオ・データに適用し、そのため、サブシステムの出力は、時間ドメインの復号化された音声データである。ステージ２１３は、ＳＢＲメタデータ（デフォーマッタ２１５によって抽出される）によって示されるＳＢＲツール（ただし、ｅＳＢＲツールではない）を、デコードされたオーディオ・データに適用し（即ち、ＳＢＲメタデータを使用して復号化サブシステム２０２の出力に対してＳＢＲ処理を実行し）、ＡＰＵ２１０から（例えば、ポスト・プロセッサ３００へ）出力される完全にデコードされたオーディオ・データを生成するように構成される。典型的には、ＡＰＵ２１０は、デフォーマットされたオーディオ・データ及びデフォーマッタ２１５からのメタデータ出力を格納するメモリ（サブシステム２０２及びステージ２１３によってアクセス可能である）を含み、ステージ２１３は、ＳＢＲ処理中に必要に応じてオーディオ・データ及びメタデータ（ＳＢＲメタデータを含む）にアクセスするように構成される。ステージ２１３におけるＳＢＲ処理は、コア復号化サブシステム２０２の出力に対する後処理であると考えられてもよい。オプションとして、ＡＰＵ２１０はまた、ステージ２１３の出力に対してアップミキシングを実行してＡＰＵ２１０から出力される完全にデコードされたアップミキシングされた音声を生成するように構成され結合された最終アップミキシング・サブシステム（これは、ＭＰＥＧ−４ＡＡＣ規格で定義されるパラメトリック・ステレオ（ＰＳ）ツールを、デフォーマッタ２１５によって抽出されたＰＳメタデータを使用して適用することができる）を含む。代替的に、ポスト・プロセッサは、ＡＰＵ２１０の出力に対してアップミキシングを実行するように構成される（例えば、デフォーマッタ２１５によって抽出されたＰＳメタデータ及び／又はＡＰＵ２１０において生成された制御ビットを使用する）。

エンコーダ１００、デコーダ２００、及びＡＰＵ２１０の様々な実装は、本発明の方法の様々な実施形態を実行するように構成される。

幾つかの実施形態によれば、ｅＳＢＲメタデータは、符号化されたオーディオ・ビットストリーム（例えば、ＭＰＥＧ−４ＡＡＣビットストリーム）に含まれ（例えば、ｅＳＢＲメタデータである少数の制御ビットが含まれる）、その結果、（ｅＳＢＲメタデータを解析するように構成されていないか、又はｅＳＢＲメタデータが関係する如何なるｅＳＢＲツールも使用するように構成されていない）レガシー・デコーダはｅＳＢＲメタデータを無視することが可能であるが、それにもかかわらず、ｅＳＢＲメタデータが関係する何らかのｅＳＢＲツール又はｅＳＢＲメタデータを利用すること無く、典型的には復号化されたオーディオ品質における如何なる重大なペナルティも無しに、可能な範囲でビットストリームをデコードすることが可能である。しかしながら、ｅＳＢＲメタデータを識別するためにビットストリームを解析し、ｅＳＢＲメタデータに応じて少なくとも１つのｅＳＢＲツールを使用するように構成されたｅＳＢＲデコーダは、少なくとも１つのそのようなｅＳＢＲツールを利用する音型を享受するであろう。従って、本発明の実施形態は、強化されたスペクトル・バンド複製（ｅＳＢＲ）制御データ又はメタデータを後方互換性のある方法で効率的に伝送する手段を提供する。

典型的には、ビットストリームにおけるｅＳＢＲメタデータは、以下のｅＳＢＲツール（これは、ＭＰＥＧＵＳＡＣ規格で記載されているものであり、ビットストリームの生成中にエンコーダによって適用されてもされていなくてもよい）のうちの１つ以上を示す（例えば、それについての少なくとも１つの特性又はパラメータを示す）：
・ハーモニック・トランスポジション；及び
・ＱＭＦパッチ処理追加前処理（事前フラット化）（ＱＭＦ−ｐａｔｃｈｉｎｇａｄｄｉｔｉｏｎａｌｐｒｅ−ｐｒｏｃｅｓｓｉｎｇ（ｐｒｅ−ｆｌａｔｔｅｎｉｎｇ））。

例えば、ビットストリームに含まれるｅＳＢＲメタデータは、ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］、ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］、及びｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇというパラメータ値を示す可能性がある（これらは、ＭＰＥＧＵＳＡＣ規格及び本開示に記載されている）。

ここで、Ｘが何らかのパラメータである場合に、表記Ｘ［ｃｈ］は、そのパラメータが、復号化されるべき符号化されたビットストリームのオーディオ・コンテンツのチャネル（「ｃｈ」）に関係していることを示す。簡明化のため、我々はしばしば表現［ｃｈ］を省略し、関連するパラメータはオーディオ・コンテンツのチャネルに関連していることを仮定する。

ここで、Ｘが何らかのパラメータである場合に、表記Ｘ［ｃｈ］［ｅｎｖ］は、そのパラメータが、復号化されるべき符号化されたビットストリームのオーディオ・コンテンツのチャネル（「ｃｈ」）のＳＢＲ包絡線（「ｅｎｖ」）に関係していることを示す。簡明化のため、我々はしばしば表現［ｅｎｖ］及び［ｃｈ］を省略し、関連するパラメータはオーディオ・コンテンツのチャネルのＳＢＲ包絡線に関連していることを仮定する。

符号化ビットストリームの復号化の間に、復号化のｅＳＢＲ処理ステージ（ビットストリームによって示される音声コンテンツの各チャネル「ｃｈ」）の間にハーモニック・トランスポジションのパフォーマンス、次のｅＳＢＲメタデータ・パラメータによって制御される：ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］：ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］；ｓｂｒＰｉｔｃｈＩｎＢｉｎｓＦｌａｇ［ｃｈ］；及びｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］。

値「ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］」はｅＳＢＲで使用されるトランスポーザのタイプを示し：ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］＝１は（高品質ＳＢＲ又は低消費電力ＳＢＲで使用されるような）ＭＰＥＧ−４ＡＡＣ規格のセクション４．６．１８に記載されているような線形のトランスポジション・パッチ処理を示し；ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］＝０はＭＰＥＧＵＳＡＣ規格のセクション７．５．３又は７．５．４に記載されているような高調波ＳＢＲパッチ処理を示す。

値「ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］」は、ＭＰＥＧＵＳＡＣ規格のセクション７．５．３に記載されているように、ＤＦＴベースの高調波ＳＢＲパッチ処理と組み合わせたｅＳＢＲにおける信号適応周波数ドメイン・オーバーサンプリングの使用を示す。このフラグは、トランスポーザで使用されるＤＦＴのサイズを制御し：１は、ＭＰＥＧＵＳＡＣ規格のセクション７．５．３．１に記載されているように、信号適応周波数ドメイン・オーバーサンプリングがイネーブルにされていることを示し；０は、ＭＰＥＧＵＳＡＣ規格のセクション７．５．３．１に記載されているように、信号適応周波数ドメイン・オーバーサンプリングがディセーブルにされていることを示す。

値「ｓｂｒＰｉｔｃｈＩｎＢｉｎｓＦｌａｇ［ｃｈ］」は、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］パラメータの解釈を制御し：１は、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］の値が有効であり且つゼロより大きいことを示し；０は、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］の値がゼロに設定されることを示す。

値「ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］」は、ＳＢＲ高調波トランスポーザにおける相互積項（ｃｒｏｓｓｐｒｏｄｕｃｔｔｅｒｍｓ）の追加を制御する。値ｓｂｒＰｉｔｃｈｉｎＢｉｎｓ［ｃｈ］は［０，１２７］の範囲内の整数値であり、コア・コーダのサンプリング周波数に作用する１５３６ラインＤＦＴの周波数ビンで測定される距離を表す。

ＭＰＥＧ−４ＡＡＣビットストリームがＳＢＲチャネル・ペアを示し、それらのチャネルは結合されていない場合（単一のＳＢＲチャネルではない場合）、ビットストリームは、ｓｂｒ＿ｃｈａｎｎｅｌ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ（）の各チャネルに対して１つずつ、上記の構文の２つのインスタンス（高調波又は非高調波トランスポジションに関するもの）を示す。

ｅＳＢＲツールのハーモニック・トランスポジションは、典型的には、比較的低いクロス・オーバー周波数でデコードされた音楽信号の品質を改善する。非ハーモニック・トランスポジション（即ち、レガシー・スペクトル・パッチ処理）は、典型的には、スピーチ信号を改善する。従って、特定のオーディオ・コンテンツを符号化するためにどのタイプのトランスポジションが好ましいかの決定における出発点は、スピーチ／ミュージック検出に依存してトランスポジション方法を選択することであり、ハーモニック・トランスポジションが音楽コンテンツに対して使用され、スペクトル・パッチ処理がスピーチ・コンテンツに対して使用される。

ｅＳＢＲ処理中の事前フラット化のパフォーマンスは、この単一ビットの値に応じて事前フラット化が行われるか又は行われないかという意味で、「ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇ」として知られる１ビットのｅＳＢＲメタデータ・パラメータの値によって制御される。ＭＰＥＧ−４ＡＡＣ規格のセクション４．６．１８．６．３に記載されているようなＳＢＲＱＭＦパッチ処理アルゴリズムが使用される場合、後続の包絡線調整器に入力される高周波信号のスペクトル包絡線の形状における不連続性を回避するために、（「ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇ」パラメータによって示される場合に）事前フラット化のステップが実行される可能性がある（包絡線調整器は、ｅＳＢＲ処理の別のステージを実行する）。事前フラット化は、典型的には、以後の包絡線調整ステージの動作を改善し、その結果、より安定的であると知覚されるハイバンド信号を生じる。

（ハーモニック・トランスポジション及び事前フラット化のような）上述のｅＳＢＲツールを示すｅＳＢＲメタデータをＭＰＥＧ−４ＡＡＣビットストリームに含めるための全体的なビットレート条件は、数百ビット／秒のオーダーであると予想され、なぜならｅＳＢＲ処理を実行するために必要とされる差分の制御データのみが本発明の幾つかの実施形態に従って伝送されるに過ぎないからである。レガシー・デコーダはこの情報を無視することが可能であり、なぜならそれは（後述するように）後方互換性のある方式で含まれるからである。従って、ｅＳＢＲメタデータを包含することに付随するビットレートへの悪影響は、以下を含む多くの理由から無視できるものである：
・（ｅＳＢＲメタデータを含むことに起因する）ビットレート・ペナルティは総ビットレートのごく一部であるにすぎず、なぜならｅＳＢＲ処理を実行するために必要な差分の制御データのみが送信されるからである（ＳＢＲ制御データのサイマルキャストではない）；及び
・ＳＢＲ関連制御情報の調整は、典型的には、トランスポジションの詳細に依存しない。制御データがトランスポーザの動作に依存する場合の例については、本願において後述される。

従って、本発明の実施形態は、強化されたスペクトル・バンド複製（ｅＳＢＲ）制御データ又はメタデータを、後方互換性のある方法で効率的に伝送するための手段を提供する。このｅＳＢＲ制御データの効率的な伝送は、ビットレートに実体的な悪影響を及ぼさない一方、本発明の態様を使用するデコーダ、エンコーダ、及びトランスコーダにおけるメモリ要求を低減する。更に、本発明の実施形態に従ってｅＳＢＲを実行することに関連する複雑性及び処理条件も低減され、なぜならＳＢＲデータはサイマルキャストではなく一度だけ処理されることしか必要としないからであり、サイマルキャストするような場合は、ＭＰＥＧ−４ＡＡＣコーデックに後方互換性のある方法で統合されるのではなく、ｅＳＢＲがＭＰＥＧ−４ＡＡＣにおいて完全に別個のオブジェクト・タイプとして扱われるような場合である。

次に、図７を参照しながら、本発明の幾つかの実施形態に従ってｅＳＢＲメタデータが含まれるＭＰＥＧ−４ＡＡＣビットストリームのブロック（「ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」）の要素を説明する。図７は、ＭＰＥＧ−４ＡＡＣビットストリームのブロック（「ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ」）の図であり、そのうちの幾つかのセグメントを示す。

ＭＰＥＧ−４ＡＡＣビットストリームのブロックは、少なくとも１つの「ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）」（例えば、図７に示すシングル・チャネル要素）及び／又は少なくとも１つの「ｃｈａｎｎｅｌ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ（）」（図７には特に示されていないが、存在する可能性がある）を含む可能性があり、これは音声番組の音声データを含む。そのブロックはまた、プログラムに関連するデータ（例えば、メタデータ）を含む多数の「フィル要素」（例えば、図７のフィル要素１及び／又はフィル要素２）を含むことが可能である。それぞれの「ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（）」は、単一チャネル要素の開始を示す識別子（例えば、図７の「ＩＤ１」）を含み、マルチチャネル・オーディオ・プログラムの異なるチャネルを示すオーディオ・データを含むことが可能である。それぞれの「ｃｈａｎｎｅ＿ｐａｉｒ＿ｅｌｅｍｅｎｔ（）」は、チャネル・ペア要素の開始を示す識別子（図７には示されていない）を含み、プログラムの２つのチャネルを示すオーディオ・データを含むことができる。

ＭＰＥＧ−４ＡＡＣビットストリームの「ｆｉｌｌ＿ｅｌｅｍｅｎｔ」（本願においてフィル要素と言及される）は、フィル要素の開始を示す識別子（図７の「ＩＤ２」）と、識別子の後のフィル・データとを含む。識別子ＩＤ２は、０ｘ６という値を有する最上位ビット・ファーストで送信される３つの符号なし整数（「ｕｉｍｓｂｆ」）から構成されることが可能である。フィル・データは、ＭＰＥＧ−４ＡＡＣ規格の表４．５７にその構文が示されている「ｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）」要素（本願では拡張ペイロードとしばしば言及される）を含むことが可能である。幾つかのタイプの拡張ペイロードが存在し、これは、最上位ビット・ファーストで送信される４ビット符号なし整数（「ｕｉｍｓｂｆ」）である「ｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅ」パラメータによって識別される。

フィル・データ（例えば、その拡張ペイロード）は、ＳＢＲオブジェクトを示すフィル・データのセグメントを示すヘッダ又は識別子（例えば、図７の「ヘッダ１」）を含むことが可能である（即ち、ヘッダは、ＭＰＥＧ−４ＡＡＣ規格においてｓｂｒ＿ｅｘｔｅｎｓｉｏｎ＿ｄａｔａ（）と呼ばれる「ＳＢＲオブジェクト」タイプを初期化する）。例えば、スペクトル・バンド複製（ＳＢＲ）拡張ペイロードは、ヘッダ内のｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅフィールドに対して‘１１０１’又は‘１１１０’の値で識別され、識別子‘１１０１’はＳＢＲデータを有する拡張ペイロードを識別し、‘１１１０’は巡回冗長検査（ＣＲＣ）と共にＳＢＲデータを有する拡張ペイロードを識別し、ＳＢＲデータの適正を検証する。

ヘッダ（例えば、ｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅフィールド）がＳＢＲオブジェクト・タイプを初期化すると、ＳＢＲメタデータ（本願では「スペクトル・バンド複製データ」と呼ばれ、ＭＰＥＧ−４ＡＡＣ規格では「ｓｂｒ＿ｄａｔａ（）」と呼ばれる）がヘッダに続き、少なくとも１つのスペクトル・バンド複製拡張要素（例えば、図７のフィル要素１の「ＳＢＲ拡張要素」）がＳＢＲメタデータに続くことが可能である。そのようなスペクトル・バンド複製拡張要素（ビットストリームのセグメント）は、ＭＰＥＧ−４ＡＡＣ規格では「ｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）」コンテナと呼ばれる。スペクトル・バンド複製拡張要素は、オプションとして、ヘッダ（例えば、図７のフィル要素１の「ＳＢＲ拡張ヘッダ」）を含む。

ＭＰＥＧ−４ＡＡＣ規格は、スペクトル・バンド複製拡張要素がプログラムのオーディオ・データのＰＳ（パラメトリック・ステレオ）データを含むことが可能であることを想定している。ＭＰＥＧ−４ＡＡＣ規格は、フィル要素のヘッダ（例えば、拡張ペイロードのヘッダ）が（図７の「ヘッダ１」のような）ＳＢＲオブジェクト・タイプを初期化し、フィル要素のスペクトル・バンド複製要素がＰＳデータを含む場合、フィル要素（例えば、その拡張ペイロード）はスペクトル・バンド複製データと「ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ」パラメータとを含み、その値（即ち、ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝２）はＰＳデータがフィル要素のスペクトル・バンド複製拡張要素に含まれることを示すことを想定している。

本発明の幾つかの実施形態によれば、ｅＳＢＲメタデータ（例えば、強化されたスペクトル・バンド複製（ｅＳＢＲ）処理がブロックのオーディオ・コンテンツに対して実行されるべきか否かを示すフラグ）が、フィル素子のスペクトル・バンド複製延長要素に含まれる。例えば、このようなフラグは、図７のフィル要素１において示され、この場合において、フラグはフィル要素１の「ＳＢＲ拡張要素」のヘッダ（フィル要素１の「ＳＢＲ拡張ヘッダ」）の後に生じる。オプションとして、このようなフラグ及び追加的なｅＳＢＲメタデータは、スペクトル・バンド複製拡張要素のヘッダの後のスペクトル・バンド複製拡張要素（ＳＢＲ拡張ヘッダの後の、図７のフィル要素１のＳＢＲ拡張要素）に含まれる。本発明の幾つかの実施形態によれば、ＳＢＲメタデータを含むフィル要素もまた「ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ」パラメータを含み、その値（例えば、ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝３）は、ｅＳＢＲメタデータがフィル要素に含まれること、及びｅＳＢＲ処理が関連するブロックのオーディオ・コンテンツで実行されるべきことを示す。

本発明の幾つかの実施形態によれば、ｅＳＢＲメタデータは、フィル要素のスペクトル・バンド複製拡張要素（ＳＢＲ拡張要素）内にではなく、ＭＰＥＧ−４ＡＡＣビットストリームのフィル要素（例えば、図７のフィル要素２）内に含まれる。これは、ＳＢＲデータ又はＣＲＣを伴うＳＢＲデータを有するｅｘｔｅｎｓｉｏｎ＿ｐｅｙｌｏａｄ（）を含むフィル要素は、如何なる他の拡張タイプの如何なる他の拡張ペイロードも含まないからである。従って、ｅＳＢＲメタデータがそれ自身の拡張ペイロードに格納される実施形態では、別個のフィル要素がｅＳＢＲメタデータを格納するために使用される。そのようなフィル要素は、フィル要素の開始を示す識別子（例えば、図７の「ＩＤ２」）と、その識別子の後のフィル・データとを含む。フィル・データはｅｘｔｅｎｓｉｏｎ＿ｐａｙｌｏａｄ（）要素（本願ではしばしば拡張ペイロードと呼ぶことがある）を含み、そのシンタックスはＭＰＥＧ−４ＡＡＣ規格の表４．５７に示されている。フィル・データ（例えば、その拡張ペイロード）は、ｅＳＢＲオブジェクト（即ち、ヘッダは、強化されたスペクトル・バンド複製（ｅＳＢＲ）オブジェクト・タイプを初期化すること）を示すヘッダ（例えば、図７のフィル要素２のヘッダ２）を含み、フィルデータ（例えば、その拡張ペイロード）は、ヘッダの後にｅＳＢＲメタデータを含む。例えば、図７のフィル要素２は、そのようなヘッダ（「ヘッダ２」）を含み、ヘッダの後に、ｅＳＢＲメタデータ（即ち、フィル要素２の「フラグ」であり、これは強化されたスペクトル・バンド複製（ｅＳＢＲ）処理がブロックのオーディオ・コンテンツに対して実行されるべきかどうかを示す）を含む。オプションとして、追加のｅＳＢＲメタデータもまた、ヘッダ２の後に、図７のフィル要素２のフィル・データに含まれる。この段落で説明されている実施形態では、ヘッダ（例えば、図７のヘッダ２）は、ＭＰＥＧ−４ＡＡＣ規格の表４．５７に規定されている従来の値のうちの１つではない、むしろｅＳＢＲ拡張ペイロードを示す識別値を有する（その結果、ヘッダのｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅフィールドは、フィル・データがｅＳＢＲメタデータを含むことを示す）。

第１クラスの実施形態では、本発明はオーディオ処理ユニット（例えば、デコーダ）であり：
符号化されたオーディオ・ビットストリームの少なくとも１つのブロック（例えば、ＭＰＥＧ−４ＡＡＣビットストリームの少なくとも１つのブロック）を格納するように構成されたメモリ（例えば、図３又は４のバッファ２０１）；
メモリに結合され、ビットストリームのブロックの少なくとも一部分をデマルチプレクスするように構成されたビットストリーム・ペイロード・デフォーマッタ（例えば、図３の要素２０５又は図４の要素２１５）；及び
ビットストリームのブロックのオーディオ・コンテンツの少なくとも一部分をデコードするように構成され結合された復号化サブシステム（例えば、図３の要素２０２及び２０３、又は図４の要素２０２及び２１３）；
を含み、ブロックは：
フィル要素の開始を示す識別子と識別子の後のフィル・データとを含むフィル要素であって（例えば、「ｉｄ＿ｓｙｎ＿ｅｌｅ」識別子はＭＰＥＧ−４ＡＡＣ規格の表４．８５の値０ｘ６を有する）、フィル・データは：
強化されたスペクトル・バンド複製（ｅＳＢＲ）処理がブロックのオーディオ・コンテンツに対して実行されるべきかどうかを識別する少なくとも１つのフラグ（例えば、ブロックに含まれるｅＳＢＲメタデータ及びスペクトル・バンド複製データを使用する）を含む。

フラグはｅＳＢＲメタデータであり、フラグの例はｓｂｒＰａｔｃｈｉｎｇＭｏｄｅｆｌａｇである。フラグの別の例は、ｈａｒｍｏｎｉｃＳＢＲフラグである。これら双方のフラグは、スペクトル・バンド複製の基本形式、又はスペクトル複製の強化された形式が、ブロックのオーディオ・データに対して実行されるかどうかを示す。スペクトル複製の基本形式はスペクトル・パッチ処理であり、スペクトル・バンド複製の強化された形式はハーモニック・トランスポジションである。

幾つかの実施形態では、フィル・データは、追加のｅＳＢＲメタデータ（即ち、フラグ以外のｅＳＢＲメタデータ）も含む。

メモリは、符号化されたオーディオ・ビットストリームの少なくとも１つのブロックを（例えば、非一時的な方法で）記憶するバッファ・メモリ（例えば、図４のバッファ２０１の実装）であってもよい。

ｅＳＢＲメタデータ（以下のｅＳＢＲツールを示す）を含むＭＰＥＧ−４ＡＡＣビットストリームの復号化中のｅＳＢＲデコーダによるｅＳＢＲ処理（ｅＳＢＲハーモニック・トランスポジション及び事前フラット化を使用するもの）の性能の詳細は、（指定されたパラメータによる典型的な復号化のために）以下のようになるであろう：
●ハーモニック・トランスポジション（１６ｋｂｐｓ，１４４００／２８８００Ｈｚ）
○ＤＦＴベース：３．６８ＷＭＯＰＳ（ｗｅｉｇｈｔｅｄｍｉｌｌｉｏｎｏｐｅｒａｔｉｏｎｓｐｅｒｓｅｃｏｎｄ）
○ＱＭＦベース：０．９８ＷＭＯＰＳ
●ＱＭＦパッチ処理・事前処理（事前フラット化）：０．１ＷＭＯＰＳ
ＤＦＴベースのトランスポジションは、典型的には、過渡的なものに対してＱＭＦベースのトランスポジションよりも良好に機能することが知られている。

本発明の幾つかの実施形態によれば、ｅＳＢＲメタデータを含む（符号化されたオーディオ・ビットストリームの）フィル要素はまた、
その値が（例えば、ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝３が）ｅＳＢＲメタデータがフィル要素に含まれていること、及びｅＳＢＲ処理が関連するブロックのオーディオ・コンテンツに対して実行されるべきことを示すパラメータ（例えば、ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄパラメータ）、及び／又は
その値が（例えば、ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝２が）がフィル要素のｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）コンテナがＰＳデータを含むことを示すパラメータ（例えば、同じ「ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ」パラメータ）を含む。
例えば、以下の表１に示すように、値ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝２を有するようなパラメータは、フィル要素のｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）コンテナがＰＳデータを含むことを示す可能性があり、値ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝３を有するようなパラメータは、フィル要素のｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）コンテナがｅＳＢＲメタデータを含むことを示す可能性がある。
表１

本発明の幾つかの実施形態によれば、ｅＳＢＲメタデータ及び／又はＰＳデータを含む各スペクトル・バンド複製拡張要素の構文は、以下の表２に示されるようなものである（「ｓｂｒ＿ｅｘｔｅｎｓｉｏｎ（）」はスペクトル・バンド複製拡張要素であるコンテナを示し、「ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ」は上記表１に示されるようなものであり、「ｐｓ＿ｄａｔａ」はＰＳデータを示し、「ｅｓｂｒ＿ｄａｔａ」はｅＳＢＲメタデータを示す）。
表２

例示的な実施形態では、上記の表２で参照されるｅｓｂｒ＿ｄａｔａ（）は、以下のメタデータ・パラメータの値を示す：
１．１ビット・メタデータ・パラメータ「ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇ」；及び
２．復号化されるべき符号化ビットストリームのオーディオ・コンテンツの各チャネル（「ｃｈ」）に対する、上述の各パラメータ：「ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］」；「ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］」；「ｓｂｒＰｉｔｃｈＩｎＢｉｎｓＦｌａｇ［ｃｈ］」；及び「ｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］」。
例えば、幾つかの実施形態では、これらのメタデータ・パラメータを示すために、ｅｓｂｒ＿ｄａｔａ（）は表３で示される構文を有する可能性がある：
表３

上記の構文は、レガシー復号器に対する拡張として、ハーモニック・トランスポジションのようなスペクトル・バンド複製の強化された形式の効率的な実装を可能にする。具体的には、表３のｅＳＢＲデータは、ビットストリームで既にサポートされておらず、またビットストリームで既にサポートされているパラメータから直接的に導出できない、スペクトル・バンド複製の強化された形式を実行するために必要とされるパラメータのみを含む。強化された形式のスペクトル・バンド複製を実行するために必要とされる他の全てのパラメータ及び処理データは、ビットストリーム内の既に定義された場所における既存のパラメータから抽出される。

例えば、ＭＰＥＧ−４ＨＥ−ＡＡＣ又はＨＥ−ＡＡＣｖ２に準拠したデコーダは、ハーモニック・トランスポジションのような強化された形式のスペクトル・バンド複製を含むように拡張される可能性がある。スペクトル・バンド複製のこの強化された形態は、デコーダで既にサポートされているスペクトル・バンド複製の基本形態に加えられる。ＭＰＥＧ−４ＨＥ−ＡＡＣ又はＨＥ−ＡＡＣｖ２に準拠するデコーダの場合において、スペクトル・バンド複製の基本形式は、ＭＰＥＧ−４ＡＡＣ規格のセクション４．６．１８に定義されているＱＭＦスペクトル・パッチ処理ＳＢＲツールである。

増強された形式のスペクトル・バンド複製を実行する場合に、拡張されたＨＥ−ＡＡＣデコーダは、ビットストリームのＳＢＲ拡張ペイロードに既に含まれている多くのビットストリーム・パラメータを再利用することができる。再利用される可能性がある特定の具体的なパラメータは、例えば、マスター周波数帯域テーブルを決定する種々のパラメータを含む。これらのパラメータは、ｂｓ＿ｓｔａｒｔ＿ｆｒｅｑ（マスター周波数テーブル・パラメータの始まりを決定するパラメータ）、ｂｓ＿ｓｔｏｐ＿ｆｒｅｑ（マスター周波数テーブルの終わりを決定するパラメータ）、ｂｓ＿ｆｒｅｑ＿ｓｃａｌｅ（オクターブ毎に周波数帯域数を決定するパラメータ）、ｂｓ＿ａｌｔｅｒ＿ｓｃａｌｅ（周波数帯域のスケールを変更するパラメータ）を含む。再利用される可能性のあるパラメータは、ノイズ・バンド・テーブル（ｂｓ＿ｎｏｉｄ＿ｂａｎｄｓ）を決定するパラメータと、リミッタ・バンド・テーブル・パラメータ（ｂｓ＿ｌｉｍｉｔｅｒ＿ｂａｎｄｓ）とを含む。従って、様々な実施形態において、ＵＳＡＣ規格で指定されている少なくとも幾つかの同等なパラメータはビットストリームから省略され、それによってビットストリームにおける制御オーバーヘッドを低減する。典型的には、ＡＡＣ規格で指定されるパラメータがＵＳＡＣ規格で指定される同等のパラメータを有する場合、ＵＳＡＣ規格で指定される同等のパラメータは、ＡＡＣ規格で指定されるパラメータと同じ名前、例えば包絡線スケールファクタＥ_{ＯｒｉｇＭａｐｐｅｄ}（ｔｈｅｅｎｖｅｌｏｐｅｓｃａｌｅｆａｃｔｏｒＥ_{ＯｒｉｇＭａｐｐｅｄ}）である。しかしながら、ＵＳＡＣ規格で指定されている同等のパラメータは、通常、異なる値を有し、これはＡＡＣ規格で規定されているＳＢＲ処理に対してではなく、ＵＳＡＣ規格で規定される強化されたＳＢＲ処理に対して「調整」される。

高調波周波数構造及び強いトーン特性を有するオーディオ・コンテンツに対する主観的品質を、特に低ビットレートで改善するために、強化されたＳＢＲの起動が推奨される。対応するビットストリーム要素の値（即ち、ｅｓｂｒ＿ｄａｔａ（））は、これらのツールを制御して、信号依存分類メカニズムを適用することによって、エンコーダにおいて決定されてもよい。一般に、ハーモニックパッチ処理方法（ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ＝＝１）を使用することは、非常に低いビットレートで音楽信号を符号化する場合に好ましく、この場合、コア・コーデックはオーディオ帯域幅においてかなり制限される可能性がある。これは、これらの信号が顕著な高調波構造を含む場合に特に当てはまる。反対に、正規のＳＢＲパッチ処理方法を使用することはスピーチ及び混合信号に対して好ましく、なぜならそれはスピーチにおける時間的な構造のより良い保存を提供するからである。

ハーモニック・トランスポーザのパフォーマンスを改善するために、後続の包絡線調整器に向かう信号のスペクトル不連続性の導入を避けるように努める前処理ステップが活性化されることが可能である（ｂｓ＿ｓｂｒ＿ｐｒｅｐｒｏｃｅｓｓｉｎｇ＝＝１）。ツールの動作は、高周波再構成のために使用される低バンド信号の粗いスペクトル包絡線がレベルの大きな変動を示す信号タイプに有益である。

ハーモニックＳＢＲパッチ処理の過渡応答を改善するために、信号適応周波数ドメイン・オーバーサンプリング（ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ＝＝１）を適用することが可能である。信号適応周波数ドメイン・オーバーサンプリングはトランスポンダの計算複雑性を増加させるが、過渡現象を含むフレームにのみ利益をもたらすので、このツールを使用することはビットストリーム要素によって制御され、これはフレーム当たり１回、及び独立ＳＢＲチャネル当たり１回送信される。

提案される強化されたＳＢＲモードで動作するデコーダは、典型的には、レガシーの及び強化されたＳＢＲパッチ処理の間で切り替え可能であることを必要とする。従って、デコーダの設定に応じて、１つのコア・オーディオ・フレームの継続時間と同じ長さの持続時間であることが可能な遅延が導入される可能性がある。典型的には、レガシーの及び強化されたＳＢＲパッチ処理の両方の遅延は、同様であろう。

多数のパラメータに加えて、本発明の実施形態に従って強化された形式のスペクトル・バンド複製を実行する場合、他のデータ要素もまた、拡張されたＨＥ−ＡＡＣデコーダによって再利用される可能性がある。例えば、エンベロープ・データ及びノイズ・フロア・データはまた、ｂｓ＿ｄａｔａ＿ｅｎｖ（ｅｎｖｅｌｏｐｅｓｃａｌｅｆａｃｔｏｒｓ）及びｂｓ＿ｎｏｉｄ＿ｅｎｖ（ｎｏｉｓｅｆｌｏｏｒｓｃａｌｅｆａｃｔｏｒｓ）データから抽出され、強化された形式のスペクトル・バンド複製の間に使用される可能性がある。

本質的に、これらの実施形態は、ＳＢＲ拡張ペイロードにおいてレガシーＨＥ−ＡＡＣ又はＨＥ−ＡＡＣｖ２デコーダによって既にサポートされているコンフィギュレーション・パラメータ及び包絡線データを利用して、可能な限り余分な送信データを必要としない強化された形式のスペクトル・バンド複製を可能にする。メタデータは、元来は（例えば、ＳＢＲのスペクトル変換処理のような）ＨＦＲの基本形式に対して合わせられていたが、実施形態によれば、（ｅＳＢＲのハーモニック・トランスポジションのような）ＨＦＲの強化された形式に対して使用される。前述したように、メタデータは、一般に、（例えば、線形スペクトル変換のような）ＨＦＲの基本形式とともに使用されるように意図され合わせられる動作パラメータを表現する（動作パラメータは、例えば、包絡線スケール因子、ノイズ・フロア・スケール因子、時間／周波数グリッド・パラメータ、正弦波加算情報、可変クロス・オーバー周波数／バンド、逆フィルタリング・モード、包絡線分解能、平滑化モード、周波数補間モードである）。しかしながら、このメタデータは、ＨＦＲの強化された形式（例えば、ハーモニック・トランスポジション）に特有の追加のメタデータ・パラメータと組み合わされて、ＨＦＲの強化された形式を使用してオーディオ・データを効率的かつ効果的に処理するために使用されることが可能である。

従って、スペクトル・バンド複製の強化された形式をサポートする拡張されたデコーダは、既に定義されたビットストリーム要素（例えば、ＳＢＲ拡張ペイロード内の要素）を当てにし、強化された形式のスペクトル・バンド複製をサポートするために必要なパラメータのみを（フィル要素拡張ペイロードに）追加することによって、非常に効率的な方法で作成されることが可能である。このデータ低減の性質は、拡張コンテナのような予約済みデータ・フィールドに新しく追加されたパラメータを配置することで組み合わされ、ビットストリームが、強化された形式のスペクトル・バンド複製をサポートしないレガシー・デコーダと後方互換性があることを保証することによって、強化された形式のスペクトル・バンド複製をサポートするデコーダを生成する際の障壁をかなり削減する。予約済みデータ・フィールドは後方互換性のあるデータ・フィールドであり、即ち、レガシーＨＥ−ＡＡＣ又はＨＥ−ＡＡＣｖ２デコーダのような、以前のデコーダによって既にサポートされているデータ・フィールドであることが理解されるであろう。同様に、拡張コンテナは後方互換性があり、即ち、レガシーＨＥ−ＡＡＣ又はＨＥ−ＡＡＣｖ２デコーダのような、以前のデコーダによって既にサポートされている拡張コンテナである。
表３において、右列の数字は、左列の対応するパラメータのビット数を示す。

幾つかの実施形態では、ＭＰＥＧ−４ＡＡＣで定義されたＳＢＲオブジェクト・タイプは、ＳＢＲ拡張要素（ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝＝ＥＸＴＥＮＳＩＯＮ＿ＩＤ＿ＥＳＢＲ）で示されるように、拡張ＳＢＲ（ｅＳＢＲ）ツールの特徴及びＳＢＲ−Ｔｏｏｌを含むように更新される。デコーダがこのＳＢＲ拡張要素を検出すると、デコーダは、拡張されたＳＢＲツールの通知された特徴を使用する。

幾つかの実施形態では、本発明は、符号化されたビットストリーム（例えば、ＭＰＥＧ−４ＡＡＣビットストリーム）を生成するためにオーディオ・データを符号化するステップを含む方法であり、符号化されたビットストリームの少なくとも１つのブロックの少なくとも１つのセグメントにｅＳＢＲメタデータを含め、ブロックの少なくとも１つの他のセグメントにオーディオ・データを含める。典型的な実施態様において、本方法は、符号化されたビットストリームの各ブロックにおいてオーディオ・データとｅＳＢＲメタデータとを多重化するステップを含む。ｅＳＢＲデコーダにおける符号化ビットストリームの典型的な復号化において、デコーダは、ｅＳＢＲメタデータをビットストリームから抽出し（ｅＳＢＲメタデータ及びオーディオ・データを分離して解析することを含む）、ｅＳＢＲメタデータを使用してオーディオ・データを処理し、復号化されたオーディオ・データのストリームを生成する。

本発明の別の態様は、ｅＳＢＲメタデータを含まない符号化されたオーディオ・ビットストリーム（例えば、ＭＰＥＧ−４ＡＡＣビットストリーム）の復号化中に、ｅＳＢＲ処理を実行する（例えば、ハーモニック・トランスポジション又はプレ・フラット化として知られるｅＳＢＲツールのうちの少なくとも１つが使用される）ように構成されたｅＳＢＲデコーダである。このようなデコーダの一例は図５を参照して説明される。

図５のｅＳＢＲデコーダ（４００）は、バッファ・メモリ２０１（図３及び図４のメモリ２０１と同じである）、ビットストリーム・ペイロード・デフォーマッタ２１５（図４のデフォーマッタ２１５と同じである）、オーディオ復号化サブシステム２０２（「コア」復号化ステージ又は「コア」復号化サブシステムと呼ばれることがあり、図３のコア復号化サブシステム２０２と同じである）、ｅＳＢＲ制御データ生成サブシステム４０１、及びｅＳＢＲ処理ステージ２０３（図３のステージ２０３と同じである）を図示のように接続された形式で含む。典型的には、デコーダ４００は、（図示されていない）他の処理要素も含む。

デコーダ４００の動作において、デコーダ４００によって受信されたエンコードされたオーディオ・ビットストリーム（ＭＰＥＧ−４ＡＡＣビットストリーム）のブロックのシーケンスは、バッファ２０１からデフォーマッタ２１５にアサートされる。

デフォーマッタ２１５は、ビットストリームの各ブロックを分離して、ＳＢＲメタデータ（量子化されたエンベロープ・データを含む）及び典型的には他のメタデータをそこから抽出するように構成され結合される。デフォーマッタ２１５は、少なくともＳＢＲメタデータをｅＳＢＲ処理ステージ２０３にアサートするように構成される。デフォーマッタ２１５はまた、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出したオーディオ・データを復号化サブシステム（復号化ステージ）２０２にアサートするように構成され結合される。

デコーダ４００のオーディオ復号化サブシステム２０２は、デフォーマッタ２１５によって抽出されたオーディオ・データを復号化して（そのような復号化は「コア」復号化処理と言及されてもよい）、復号化されたオーディオ・データを生成し、復号化されたオーディオ・データをｅＳＢＲ処理ステージ２０３にアサートするように構成される。復号化は周波数ドメインで実行される。典型的には、サブシステム２０２における処理の最終ステージは、周波数ドメインから時間ドメインへの変換を、復号化された周波数ドメインのオーディオ・データに適用し、そのため、サブシステムの出力は、時間ドメインの復号化されたオーディオ・データである。ステージ２０３は、ＳＢＲメタデータ（デフォーマッタ２１５によって抽出される）及びサブシステム４０１で生成されたｅＳＢＲメタデータによって示されるＳＢＲツール（及びｅＳＢＲツール）を、復号化されたオーディオ・データに適用し（即ち、ＳＢＲ及びｅＳＢＲメタデータを使用して復号化サブシステム２０２の出力に対してＳＢＲ及びｅＳＢＲ処理を実行し）、デコーダ４００から出力される完全に復号化されたオーディオ・データを生成するように構成される。典型的には、デコーダ４００は、デフォーマッタ２１５（及びオプションとしてサブシステム４０１）からのデフォーマットされたオーディオ・データ及びメタデータ出力を格納するメモリ（サブシステム２０２及びステージ２０３によってアクセス可能）を含み、ステージ２０３は、ＳＢＲ及びｅＳＢＲ処理中に必要に応じてオーディオ・データ及びメタデータにアクセスするように構成される。ステージ２０３におけるＳＢＲ処理は、コア復号化サブシステム２０２の出力に対する後処理であると考えられてもよい。オプションとして、デコーダ４００はまた最終アップミキシング・サブシステム（デフォーマッタ２１５によって抽出されたＰＳメタデータを使用して、ＭＰＥＧ−４ＡＡＣ規格で定義されているパラメトリック・ステレオ（ＰＳ）ツールを適用することができる）を含み、これはステージ２０３の出力に対してアップミキシングを実行し、ＡＰＵ２１０から出力される完全にデコードされたアップミックスされたオーディオを生成するように構成され結合される。

パラメトリック・ステレオは、ステレオ信号の左右チャネルの線形ダウンミックスと、ステレオ・イメージを記述する空間パラメータのセットとを使用してステレオ信号を表すコーディング・ツールである。パラメトリック・ステレオは、典型的には：（１）チャネル間の強度差を記述するチャネル間強度差（ＩＩＤ）；（２）チャネル間の位相差を記述するチャネル間位相差（ＩＰＤ）；及び（３）チャネル間のコヒーレンス（又は類似性）を記述するチャネル間コヒーレンス（ＩＣＣ）という３つのタイプの空間パラメータを使用する。コヒーレンスは、時間又は位相の関数としての相互相関の最大値として測定されてもよい。これらの３つのパラメータは、一般に、ステレオ・イメージの高品質な再構成を可能にする。しかしながら、ＩＰＤパラメータは、ステレオ入力信号のチャネル間の相対的な位相差を指定するだけであり、これらの位相差の左右チャネルに対する分布を示さない。従って、全体的な位相オフセット又は全体的な位相差（ｏｖｅｒａｌｌｐｈａｓｅｄｉｆｆｅｒｅｎｃｅ：ＯＰＤ）を記述する第４タイプのパラメータが追加的に使用されてもよい。ステレオ再構成プロセスでは、受信したダウンミックス信号ｓ［ｎ］と受信したダウンミックスの非相関バージョンｄ［ｎ］の両方の連続したウィンドウ・セグメントが、空間パラメータと共に処理され、次のように左（ｌ_ｋ（ｎ））と右（ｒ_ｋ（ｎ））の再構成された信号を生成する：
ｌ_ｋ（ｎ）＝Ｈ_１１（ｋ，ｎ）ｓ_ｋ（ｎ）＋Ｈ_２１（ｋ，ｎ）ｄ_ｋ（ｎ）
ｒ_ｋ（ｎ）＝Ｈ_１２（ｋ，ｎ）ｓ_ｋ（ｎ）＋Ｈ_２２（ｋ，ｎ）ｄ_ｋ（ｎ）
ここで、Ｈ_１１、Ｈ_１２、Ｈ_２１及びＨ_２２は、ステレオ・パラメータによって定義される。信号ｌ_ｋ（ｎ）及び信号ｒ_ｋ（ｎ）は、周波数−時間変換によって最終的に時間ドメインに変換される。

図５の制御データ生成サブシステム４０１は、復号化されるべき符号化オーディオ・ビットストリームの少なくとも１つの特性を検出し、検出ステップの少なくとも１つの結果に応じてｅＳＢＲ制御データ（本発明の他の実施形態では、符号化オーディオ・ビットストリームに含まれる任意のタイプのｅＳＢＲメタデータであってもよいし、又はそれを含んでもよい）を生成するように構成され結合される。ビットストリームの特定の特性（又は特性の組み合わせ）を検出した場合に、ｅＳＢＲ制御データは、個々のｅＳＢＲツール又はｅＳＢＲツールの組み合わせの適用をトリガするため、及び／又はそのようなｅＳＢＲツールの適用を制御するために、ステージ２０３にアサートされる。例えば、ハーモニック・トランスポジションを用いてｅＳＢＲ処理のパフォーマンスを制御するために、制御データ生成サブシステム４０１の幾つかの実施形態は：ビットストリームが音楽を示すか否かを検出したことに応答して、ｓｂｒＰａｔｃｈｉｎｇＭｏｄｅ［ｃｈ］パラメータを設定する（及び、設定パラメータをステージ２０３にアサートする）音楽検出器；ビットストリームによって示されるオーディオ・コンテンツにおける過渡現象の存否を検出することに応答して、ｓｂｒＯｖｅｒｓａｍｐｌｉｎｇＦｌａｇ［ｃｈ］パラメータを設定する（及び、設定パラメータをステージ２０３にアサートする）過渡性検出器；及び／又はビットストリームによって示されるオーディオ・コンテンツのピッチを検出することに応答して、ｓｂｒＰｉｔｃｈＩｎＢｉｎｓＦｌａｇ［ｃｈ］及びｓｂｒＰｉｔｃｈＩｎＢｉｎｓ［ｃｈ］パラメータを設定する（及び、設定パラメータをステージ２０３にアサートする）ピッチ検出器を含むであろう。本発明の他の態様は、この段落及び先行する段落に記載された本発明のデコーダの任意の実施形態によって実行されるオーディオ・ビットストリーム復号化方法である。

本発明の態様は、本発明のＡＰＵ、システム又はデバイスの任意の実施形態が実行するように構成された（例えば、プログラムされた）タイプの符号化又は復号化方法を含む。本発明の他の態様は、本発明の方法の任意の実施形態を実行するように構成された（例えば、プログラムされた）システム又はデバイスと、本発明の方法又はそのステップの任意の実施形態を実行するためのコードを（例えば、非一時的な方法で）記憶するコンピュータ読み取り可能な媒体（例えば、ディスク）とを含む。例えば、本発明のシステムは、ソフトウェア又はファームウェアでプログラミングされた及び／又はデータに対して任意の様々な動作（本発明の方法又はそのうちのステップの実施形態を含む）を実行するように別に構成されたプログラマブル汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサであること又はそれを含むことが可能である。そのような汎用プロセッサは、入力デバイス、メモリ、及び処理回路を含むコンピュータ・システム（データがアサートされたことに応じて本発明の方法（又はそのうちのステップ）の実施形態を実行するようにプログラムされたもの）である又はそれを含む可能性がある。

本発明の実施形態は、ハードウェア、ファームウェア、又はソフトウェア、又はその両方の組み合わせ（例えば、プログラマブル論理アレイ）で実装されることが可能である。別段の指定がない限り、本発明の一部として含まれるアルゴリズム又はプロセスは、特定のコンピュータ又は他の装置に本質的には関連付けられない。特に、種々の汎用マシンが、本明細書の教示に従って書かれたプログラムと共に使用されることができ、又は、必要な方法ステップを実行するために、より特化された装置（例えば、集積回路）を構築することはより有意義であるかもしれない。従って、本発明は、１つ以上のプログラマブル・コンピュータ・システム（例えば、図１の要素、又は図２のエンコーダ１００（又はその要素）、又は図３のデコーダ２００（又はその要素）、又は図４のデコーダ２１０（又はその要素）、又は図５のデコーダ４００（又はその要素）ののうちの任意のものの実装）において実行する１つ以上のコンピュータ・プログラムで実装される可能性があり、それら各々は少なくとも１つのプロセッサ、少なくとも１つのデータ記憶システム（揮発性及び不揮発性メモリ及び／又は記憶素子を含む）、少なくとも１つの入力デバイス又はポート、及び少なくとも１つの出力デバイス又はポートを含む。プログラム・コードは、本願に記載の機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、公知の方法で１つ以上の出力デバイスに適用される。

このような各プログラムは、コンピュータ・システムと通信するために、任意の所望のコンピュータ言語（マシン、アセンブリ、又はハイレベル手続、論理、又はオブジェクト指向のプログラミング言語を含む）で実装されることができる。いずれの場合においても、言語は、コンパイルされた又は解釈された言語であり得る。

例えば、コンピュータ・ソフトウェア命令シーケンスによって実装される場合、本発明の実施形態の様々な機能及びステップは、適切なデジタル信号処理ハードウェアで動作されるマルチスレッド・ソフトウェア命令シーケンスによって実現されることが可能であり、その場合、実施形態の様々なデバイス、ステップ及び機能がソフトウェア命令の一部に対応する可能性がある。

そのようなコンピュータ・プログラムの各々は、好ましくは、本願で説明される手順を実行するためにコンピュータ・システムによって記憶媒体又はデバイスが読み込まれる場合に、コンピュータを構成及び動作させるために、汎用又は専用のプログラム可能なコンピュータによって読み込むことが可能な記憶媒体又はデバイス（例えば、ソリッド・ステート・メモリ又は媒体、又は磁気又は光学媒体）に記憶される又はダウンロードされる。本発明のシステムは、コンピュータ・プログラムとともに構成される（即ち、記憶する）コンピュータ読み取り可能な記憶媒体として実装されることが可能であり、このように構成された記憶媒体は、コンピュータ・システムを、本願で説明される機能を実行するために特定の所定の方法で動作させる。

本発明の多くの実施形態が説明されている。それにもかかわらず、本発明の精神及び範囲から逸脱することなく様々な修正が行われる可能性があることは理解されるであろう。本発明の多くの修正及び変形は、上記の教示に照らして可能である。例えば、効率的な実装を容易にするために、複雑なＱＭＦ分析及び合成フィルタバンクと組み合わせて位相シフトが使用されてもよい。分析フィルタバンクは、コア・デコーダによって生成される時間ドメイン低バンド信号を、複数のサブバンド（例えば、ＱＭＦサブバンド）にフィルタリングする役割を担う。合成フィルタバンクは、選択されたＨＦＲ技術によって生成される再生ハイバンドを（受信したｓｂｒＰａｔｃｈｉｎｇＭｏｄｅパラメータによって示されるように）復号されたローバンドと組み合わせて広帯域出力オーディオ信号を生成する役割を担う。しかしながら、特定のサンプル・レートモード、例えば通常のデュアル・レート動作又はダウン・サンプリングＳＢＲモードで動作する所与のフィルタバンク実装は、ビットストリームに依存する位相シフトを持つべきでない。ＳＢＲで使用されるＱＭＦバンクは、コサイン変調フィルタバンクの理論の複素指数拡張（ａｃｏｍｐｌｅｘ−ｅｘｐｏｎｅｎｔｉａｌｅｘｔｅｎｓｉｏｎ）である。複素指数変調でコサイン変調フィルタバンクを拡張すると、エイリアス相殺制約はもはや使用されなくなることが示され得る。従って、ＳＢＲＱＭＦバンクでは、分析フィルタｈ_ｋ（ｎ）と合成フィルタｆ_ｋ（ｎ）の両方が次式のように定義されることが可能である：

ここで、ｐ_０（ｎ）は実数値の対称又は非対称プロトタイプ・フィルタ（典型的には低域通過プロトタイプ・フィルタ）であり、Ｍはチャネル数を表し、Ｎはプロトタイプ・フィルタ次数である。分析フィルタバンクで使用されるチャネル数は、合成フィルタバンクで使用されるチャネル数と異なる場合がある。例えば、分析フィルタバンクは３２チャネルを有し、合成フィルタバンクは６４チャネルを有するかもしれない。ダウン・サンプリング・モードで合成フィルタバンクを動作させる場合に、合成フィルタバンクは３２チャネルしか持たなくてよい。フィルタバンクからのサブバンド・サンプルは複素値であるので、おそらく追加的なチャネル依存位相シフト・ステップが、分析フィルタバンクに加えられてもよい。これらの余分な位相シフトは、合成フィルタバンクの前に補償される必要がある。原則として、位相シフト項は、ＱＭＦ分析／合成チェーンの動作を破壊することなく、任意の値とすることが可能であるが、適合性検証（ｃｏｎｆｏｒｍａｎｃｅｖｅｒｉｆｉｃａｔｉｏｎ）のために特定の値に制約されるかもしれない。ＳＢＲ信号は位相因子の選択による影響を受けるが、コア・デコーダから来るローパス信号は影響を受けないであろう。出力信号のオーディオ品質は影響を受けない。

プロトタイプ・フィルタの係数ｐ_０（ｎ）は、以下の表４に示すように、６４０の長さＬで定義されることが可能である。
表４

プロトタイプ・フィルタ、ｐ_０（ｎ）は、丸め、サブサンプリング、補間、及びデシメーションのような１つ以上の数学的な演算によって、表４から導出されることも可能である。

ＳＢＲに関連する制御情報の調整は、典型的には（上述したように）トランスポジションの詳細には依存しないが、幾つかの実施形態では、制御データの特定の要素は、再生成された信号の品質を改善するために、ｅＳＢＲ拡張コンテナ（ｂｓ＿ｅｘｔｅｎｓｉｏｎ＿ｉｄ＝＝ＥＸＴＥＮＳＩＯＮ＿ＩＤ＿ＥＳＢＲ）でサイマルキャストされてもよい。サイマルキャストされる要素の幾つかは、ノイズ・フロア・データ（例えば、ノイズ・フロア・スケール因子、及び各ノイズ・フロアに対するデルタ符号化についての周波数又は時間方向の何れかにおける方向を示すパラメータ）、インバース・フィルタリング・データ（例えば、インバース・フィルタリング無し、低レベルのインバース・フィルタリング、中間レベルのインバース・フィルタリング、及び強レベルのインバース・逆フィルタリングの中から選択されたインバース・フィルタリング・モードを示すパラメータ）、及び欠落ハーモニクス・データ（例えば、再生成されたハイバンドの特定の周波数帯域に正弦波が加えるべきかどうかを示すパラメータ）を含む可能性がある。これらの要素の全ては、エンコーダ内で実行されるデコーダのトランスポーザの合成エミュレーションに依存しており、従って、選択されたトランスポーザに対して適切に調整されるならば、再生成される信号の品質を増加させることが可能である。

具体的には、幾つかの実施形態において、欠落している高調波及びインバース・フィルタリング制御データは、（表３の他のビットストリーム・パラメータとともに）ｅＳＢＲ拡張コンテナで送信され、ｅＳＢＲのハーモニック・トランスポーザに対して調整される。ｅＳＢＲのハーモニック・トランスポーザのために、これら２つのクラスのメタデータを伝送するために必要となる追加のビットレートは比較的小さい。従って、調整された欠落高調波及び／又はインバース・フィルタリング制御データをｅＳＢＲ拡張コンテナで送信することは、ビットレートに最小限の影響しか与えずに、トランスポーザによって生成されるオーディオ品質を増加させるであろう。レガシー・デコーダとの後方互換性を保証するために、ＳＢＲのスペクトル変換処理のために調整されたパラメータは、黙示的又は明示的なシグナリングのいずれかを使用してＳＢＲ制御データの一部としてビットストリームで送信されてもよい。

添付の特許請求の範囲の目的の範囲内で、本発明は、本願で具体的に説明されているようなもの以外の方法で実施されてもよいことが理解されるべきである。以下の請求項に含まれるかもしれない如何なる参照番号も、例示のみを目的とするものであり、如何なる方法によっても特許請求の範囲を解釈又は限定するために使用されるべきではない。本開示の様々な側面は、以下に列挙される例示的な形態（ＥＥＥ）から理解されるであろう：

ＥＥＥ１．
オーディオ信号の高周波再構成を実行する方法であって：
エンコードされたオーディオ・ビットストリームを受信するステップであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、ステップ；及び
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするステップ；
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するステップであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第１値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第２値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、ステップ；
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングするステップ；
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再生成するステップであって、前記再生成は前記パッチ処理モード・パラメータが前記第１値である場合にはスペクトル変換を含み、前記再生成は前記パッチ処理モード・パラメータが前記第２値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、ステップ；及び
広帯域オーディオ信号を形成するために、前記フィルタリングされたローバンド・オーディオ信号と前記再生成されたハイバンド部分とを合成するステップを含む方法。
ＥＥＥ２．
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第２値に等しい場合に使用されるべきインバース・フィルタリング制御データを含む、ＥＥＥ１に記載の方法。
ＥＥＥ３．
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第２値に等しい場合に使用されるべき欠落高調波制御データを更に含む、ＥＥＥ１〜２のうち何れか１項に記載の方法。
ＥＥＥ４．
前記エンコードされたオーディオ・ビットストリームはフィル要素（フィル要素の始まりを示す識別子を有する）と前記識別子の後にあるフィル・データとを含み、前記フィル・データは前記拡張コンテナを含む、先行する何れかのＥＥＥに記載の方法。
ＥＥＥ５．
前記識別子は、最上位ビット・ファーストで送信される３ビット符号なし整数であり、０ｘ６という値を有する、ＥＥＥ４に記載の方法。
ＥＥＥ６．
前記フィル・データは拡張ペイロードを含み、前記拡張ペイロードはスペクトル・バンド複製拡張データを含み、前記拡張ペイロードは、最上位ビット・ファーストで送信される４ビット符号なし整数で識別され、‘１１０１’又は‘１１１０’という値を有し、オプションとして、前記スペクトル・バンド複製拡張データは：
オプションのスペクトル・バンド複製ヘッダ、
前記ヘッダの後のスペクトル・バンド複製データ、及び
前記スペクトル・バンド複製データの後のスペクトル・バンド複製拡張要素
を含み、前記スペクトル・バンド複製拡張要素にフラグが含まれる、ＥＥＥ４又はＥＥＥ５に記載の方法。
ＥＥＥ７．
前記高周波再構成メタデータは、包絡線スケール因子、ノイズ・フロア・スケール因子、時間／周波数グリッド情報、又はクロスオーバー周波数を示すパラメータを含む、ＥＥＥ１〜６のうちの何れか１項に記載の方法。
ＥＥＥ８．
前記フィルタリングは、プロトタイプ・フィルタｐ_０（ｎ）の変調されたバージョンである分析フィルタｈ_ｋ（ｎ）を含む分析フィルタバンクによって次式に従って実行され：

ここで、ｐ_０（ｎ）は実数値の対称又は非対称プロトタイプ・フィルタであり、Ｍは前記分析フィルタバンクにおけるチャネル数であり、Ｎは前記プロトタイプ・フィルタの次数である、ＥＥＥ１〜７のうちの何れか１項に記載の方法。
ＥＥＥ９．
前記プロトタイプ・フィルタｐ_０（ｎ）は本願の表４の係数から導出される、ＥＥＥ８に記載の方法。
ＥＥＥ１０．
前記プロトタイプ・フィルタｐ_０（ｎ）は、丸め、サブサンプリング、補間、又はデシメーションから成る群から選択された１つ以上の数学的演算によって、本願の表４の係数から導出される、ＥＥＥ８に記載の方法。
ＥＥＥ１１．
位相シフトは、前記フィルタリングの後に前記フィルタリングされたローバンド・オーディオ信号に付加され、本方法の複雑性を減らすために前記合成の前に補償される、ＥＥＥ１〜１０のうちの何れか１項に記載の方法。
ＥＥＥ１２．
前記拡張コンテナは、前記パッチ処理モード・パラメータが前記第１値に等しい場合に、前記ハイバンド部分のスペクトル包絡線の形状における不連続性を回避するために追加的な前処理が使用されるかどうかを示すフラグを更に含み、前記フラグの第１値は前記追加的な前処理をイネーブルにし、前記フラグの第２値は前記追加的な前処理をディセーブルにする、先行する何れかのＥＥＥに記載の方法。
ＥＥＥ１３．
前記追加的な前処理は、線形予測フィルタ係数を使用してプリゲイン曲線を計算することを含む、ＥＥＥ１２に記載の方法。
ＥＥＥ１４．
前記拡張コンテナは後方互換性のある拡張コンテナである、ＥＥＥ１〜１３のうちの何れか１項に記載の方法。
ＥＥＥ１５．
エンコードされたオーディオ・ストリームがあるフォーマットに従ってエンコードされ、拡張コンテナは、前記フォーマットの少なくとも１つのレガシー・バージョンで定義される拡張コンテナである、ＥＥＥ１〜１４のうちの何れか１項に記載の方法。
ＥＥＥ１６．
プロセッサにより実行されるとＥＥＥ１〜１５のうちの何れか１項に記載の方法を実行する命令を含む非一時的なコンピュータ読み取り可能な媒体。
ＥＥＥ１７．
オーディオ信号の高周波再構成を実行するためのオーディオ処理ユニットであって、前記オーディオ処理ユニットは、ＥＥＥ１〜１５のうちの何れか１項に記載の方法を実行するように構成されているオーディオ処理ユニット。

Claims

オーディオ信号の高周波再構成を実行する方法であって：
エンコードされたオーディオ・ビットストリームを受信するステップであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、ステップ；
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするステップ；
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するステップであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの後方互換性のある拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第１値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第２値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、ステップ；
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングするステップ；
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再生成するステップであって、前記再生成は前記パッチ処理モード・パラメータが前記第１値である場合にはスペクトル変換を含み、前記再生成は前記パッチ処理モード・パラメータが前記第２値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、ステップ；及び
広帯域オーディオ信号を形成するために、前記フィルタリングされたローバンド・オーディオ信号と前記再生成されたハイバンド部分とを合成するステップ；
を含む方法。
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第２値に等しい場合に使用されるべきインバース・フィルタリング制御データを含む、請求項１に記載の方法。
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第２値に等しい場合に使用されるべき欠落高調波制御データを更に含む、請求項１に記載の方法。
前記エンコードされたオーディオ・ビットストリームはフィル要素であって当該フィル要素の始まりを示す識別子を有するフィル要素と前記識別子の後にあるフィル・データとを含み、前記フィル・データは前記後方互換性のある拡張コンテナを含む、請求項１に記載の方法。
前記識別子は、最上位ビット・ファーストで送信される３ビット符号なし整数であり、０ｘ６という値を有する、請求項４に記載の方法。
前記フィル・データは拡張ペイロードを含み、前記拡張ペイロードはスペクトル・バンド複製拡張データを含み、前記拡張ペイロードは、最上位ビット・ファーストで送信される４ビット符号なし整数で識別され、‘１１０１’又は‘１１１０’という値を有し、オプションとして、前記スペクトル・バンド複製拡張データは：
オプションのスペクトル・バンド複製ヘッダ、
前記ヘッダの後のスペクトル・バンド複製データ、及び
前記スペクトル・バンド複製データの後のスペクトル・バンド複製拡張要素
を含み、前記スペクトル・バンド複製拡張要素にフラグが含まれる、請求項４に記載の方法。
前記高周波再構成メタデータは、包絡線スケール因子、ノイズ・フロア・スケール因子、時間／周波数グリッド情報、又はクロスオーバー周波数を示すパラメータを含む、請求項１に記載の方法。
前記フィルタリングは、プロトタイプ・フィルタｐ_０（ｎ）の変調されたバージョンである分析フィルタｈ_ｋ（ｎ）を含む分析フィルタバンクによって次式に従って実行され：

ここで、ｐ_０（ｎ）は実数値の対称又は非対称プロトタイプ・フィルタであり、Ｍは前記分析フィルタバンクにおけるチャネル数であり、Ｎは前記プロトタイプ・フィルタの次数である、請求項１に記載の方法。
前記プロトタイプ・フィルタｐ_０（ｎ）は本願の表４の係数から導出される、請求項８に記載の方法。
前記プロトタイプ・フィルタｐ_０（ｎ）は、端数処理、サブサンプリング、補間、又はデシメーションから成る群から選択された１つ以上の数学的演算によって、本願の表４の係数から導出される、請求項８に記載の方法。
位相シフトは、前記フィルタリングの後に、前記フィルタリングされたローバンド・オーディオ信号に付加され、本方法の複雑性を減らすために前記合成の前に補償される、請求項１に記載の方法。
前記後方互換性のある拡張コンテナは、前記パッチ処理モード・パラメータが前記第１値に等しい場合に、前記ハイバンド部分のスペクトル包絡線の形状における不連続性を回避するために追加的な前処理が使用されるかどうかを示すフラグを更に含み、前記フラグの第１値は前記追加的な前処理をイネーブルにし、前記フラグの第２値は前記追加的な前処理をディセーブルにする、請求項１に記載の方法。
前記追加的な前処理は、線形予測フィルタ係数を使用してプリゲイン曲線を計算することを含む、請求項１２に記載の方法。
プロセッサにより実行されると請求項１に記載の方法を実行する命令を含む非一時的なコンピュータ読み取り可能な媒体。
オーディオ信号の高周波再構成を実行するオーディオ処理ユニットであって：
エンコードされたオーディオ・ビットストリームを受信する入力インターフェースであって、前記エンコードされたオーディオ・ビットストリームは前記オーディオ信号のローバンド部分を表すオーディオ・データと高周波再構成メタデータとを含む、入力インターフェース；
デコードされたローバンド・オーディオ信号を生成するために前記オーディオ・データをデコードするコア・オーディオ・デコーダ；
前記高周波再構成メタデータを前記エンコードされたオーディオ・ビットストリームから抽出するデフォーマッタであって、前記高周波再構成メタデータは高周波再構成プロセスの動作パラメータを含み、前記動作パラメータは前記エンコードされたオーディオ・ビットストリームの後方互換性のある拡張コンテナ内に位置するパッチ処理モード・パラメータを含み、第１値の前記パッチ処理モード・パラメータはスペクトル変換を示し、第２値の前記パッチ処理モード・パラメータは位相ボコーダ周波数拡散によるハーモニック・トランスポジションを示す、デフォーマッタ；
フィルタリングされたローバンド・オーディオ信号を生成するために、前記デコードされたローバンド・オーディオ信号をフィルタリングする分析フィルタバンク；
前記フィルタリングされたローバンド・オーディオ信号及び前記高周波再構成メタデータを利用して前記オーディオ信号のハイバンド部分を再構成する高周波再生成部であって、前記再構成は前記パッチ処理モード・パラメータが前記第１値である場合にはスペクトル変換を含み、前記再構成は前記パッチ処理モード・パラメータが前記第２値である場合には位相ボコーダ周波数拡散によるハーモニック・トランスポジションを含む、高周波再生成部；及び
広帯域オーディオ信号を形成するために、前記フィルタリングされたローバンド・オーディオ信号と前記再構成されたハイバンド部分とを合成する合成フィルタバンク；
を含むオーディオ処理ユニット。