JP7242767B2 - 後処理遅延低減との高周波再構成技術の統合 - Google Patents

後処理遅延低減との高周波再構成技術の統合 Download PDF

Info

Publication number
JP7242767B2
JP7242767B2 JP2021110192A JP2021110192A JP7242767B2 JP 7242767 B2 JP7242767 B2 JP 7242767B2 JP 2021110192 A JP2021110192 A JP 2021110192A JP 2021110192 A JP2021110192 A JP 2021110192A JP 7242767 B2 JP7242767 B2 JP 7242767B2
Authority
JP
Japan
Prior art keywords
audio
bitstream
sbr
metadata
esbr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021110192A
Other languages
English (en)
Other versions
JP2021157202A5 (ja
JP2021157202A (ja
Inventor
ショエルリング,クリストフェル
ヴィレモエス,ラース
プルンハーゲン,ヘイコ
エクストランド,ペール
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2021157202A publication Critical patent/JP2021157202A/ja
Publication of JP2021157202A5 publication Critical patent/JP2021157202A5/ja
Priority to JP2023035270A priority Critical patent/JP2023060264A/ja
Application granted granted Critical
Publication of JP7242767B2 publication Critical patent/JP7242767B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Description

この出願は、2018年4月25日に出願された米国仮特許出願第62/662,296号に対する優先権の利益を主張するものであり、その全体をここに援用する。
実施形態は、オーディオ信号処理に関し、より具体的には、基本形式の高周波再構成(high frequency reconstruction;“HFR”)又は強化形式のHFRのいずれがオーディオデータに対して実行されるべきかを指定する制御データを有するオーディオビットストリームの符号化、復号、又はトランスコーディングに関する。
典型的なオーディオビットストリームは、オーディオコンテンツの1つ以上のチャンネルを示すオーディオデータ(例えば、符号化されたオーディオデータ)と、オーディオデータ又はオーディオコンテンツの少なくとも1つの特徴を示すメタデータとの双方を含んでいる。符号化されたオーディオビットストリームを生成するためのよく知られた1つのフォーマットは、MPEG規格ISO/IEC 14496-3:2009に記載された、MPEG-4 Advanced Audio Coding(AAC)フォーマットである。MPEG-4規格において、AACは“Advanced Audio Coding”を表し、HE-AACは“High-Efficiency Advanced Audio Coding”を表す。
MPEG-4 AAC規格は、準拠したエンコーダ又はデコーダにどのオブジェクト及び符号化ツールが存在するかを決定するものである幾つかのオーディオプロファイルを規定している。それらのオーディオプロファイルのうちの3つは、(1)AACプロファイル、(2)HE-AACプロファイル、及び(3)HE-AAC v2プロファイルである。AACプロファイルは、AAC low complexity(すなわち、“AAC-LC”)オブジェクトタイプを含む。AAC-LCオブジェクトは、若干の調整を加えられた、MPEG-2 AAC low complexityプロファイルに対応するものであり、スペクトルバンド複製(“SBR”)オブジェクトタイプ及びパラメトリックステレオ(“PS”)オブジェクトタイプのいずれも含まない。HE-AACプロファイルは、AACプロファイルの上位集合であり、SBRオブジェクトタイプを更に含む。HE-AAC v2プロファイルは、HE-AACプロファイルの上位集合であり、PSオブジェクトタイプを更に含む。
SBRオブジェクトタイプはスペクトルバンド複製ツールを含み、これは、知覚的オーディオコーデックの圧縮効率を有意に改善する重要な高周波再構成(“HFR”)符号化ツールである。SBRは、受信器側(例えば、デコーダ内)でオーディオ信号の高周波成分を再構成する。従って、エンコーダは、低周波成分を符号化して送信することを必要とするのみであり、低いデータレートで遥かに高いオーディオ品質を可能にする。SBRは、エンコーダから得られた制御データ及び利用可能な限られた帯域幅の信号からの、データレートを低減させるために以前に切り捨てられた高調波のシーケンスの複製に基づく。音調(tonal)成分と雑音ライク(noise-like)成分との間の比が、適応逆フィルタリングと、オプションでの雑音及び正弦波の付加とによって維持される。MPEG-4 AAC規格において、SBRツールは、スペクトルパッチング(線形変換又はスペクトル変換とも呼ばれる)を実行し、それにおいて、オーディオ信号の送信された低帯域部分からオーディオ信号の高帯域部分に多数の連続した直交ミラーフィルタ(QMF)サブバンドが複製(又は“パッチ”)され、それがデコーダ内で生成される。
スペクトルパッチング又は線形変換は、例えば比較的低いクロスオーバー周波数を持つ音楽コンテンツなどの、ある一定のオーディオタイプには理想的ではないことがある。従って、スペクトルバンド複製を改善する技術が望まれる。
第1のクラスの実施形態は、符号化されたオーディオビットストリームを復号する方法に関する。当該方法は、符号化されたオーディオビットストリームを受信し、オーディオデータを復号して、復号された低帯域オーディオ信号を生成することを含む。当該方法は更に、高周波再構成メタデータを抽出し、復号された低帯域オーディオ信号を分析フィルタバンクでフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成することを含む。当該方法は更に、オーディオデータに対してスペクトル変換又は高調波トランスポジションのいずれが実行されるべきかを指し示すフラグを抽出し、該フラグに従って、フィルタリングされた低帯域オーディオ信号及び高周波再構成メタデータを用いてオーディオ信号の高帯域部分を再生成することを含む。最後に、当該方法は、フィルタリングされた低帯域オーディオ信号と再生成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成することを含む。
第2のクラスの実施形態は、符号化されたオーディオビットストリームを復号するオーディオデコーダに関する。当該デコーダは、符号化されたオーディオビットストリームを受信する入力インタフェースであり、符号化されたオーディオビットストリームは、オーディオ信号の低帯域部分を表すオーディオデータを含む、入力インタフェースと、オーディオデータを復号して、復号された低帯域オーディオ信号を生成するコアデコーダと、を含む。当該デコーダはまた、符号化されたオーディオビットストリームから高周波再構成メタデータを抽出するデマルチプレクサであり、高周波再構成メタデータは、オーディオ信号の低帯域部分からオーディオ信号の高帯域部分へと、連続数のサブバンドを線形変換する高周波再構成プロセスのための動作パラメータを含む、デマルチプレクサと、復号された低帯域オーディオ信号をフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成する分析フィルタバンクと、を含む。当該デコーダは更に、符号化されたオーディオビットストリームから、オーディオデータに対して線形変換又は高調波トランスポジションのいずれが実行されるべきかを指し示すフラグを抽出するデマルチプレクサと、該フラグに従って、フィルタリングされた低帯域オーディオ信号及び高周波再構成メタデータを用いて、オーディオ信号の高帯域部分を再生成する高周波リジェネレータと、を含む。最後に、当該デコーダは、フィルタリングされた低帯域オーディオ信号と再生成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成する合成フィルタバンクを含む。
他のクラスの実施形態は、エンハンストスペクトルバンド複製(enhanced spectral band replication;eSBR)処理が実行されるべきかを特定するメタデータを含むオーディオビットストリームを符号化及びトランスコーディングすることに関する。
発明方法の一実施形態を実行するように構成され得るシステムの一実施形態のブロック図である。 発明オーディオ処理ユニットの一実施形態であるエンコーダのブロック図である。 発明オーディオ処理ユニットの一実施形態であるデコーダを含み、及びオプションで、それに結合されたポストプロセッサを含むシステムのブロック図である。 発明オーディオ処理ユニットの一実施形態であるデコーダのブロック図である。 発明オーディオ処理ユニットの他の一実施形態であるデコーダのブロック図である。 発明オーディオ処理ユニットの他の一実施形態のブロック図である。 MPEG-4 AACビットストリーム(それが分割されるセグメントを含む)のブロックの図である。
表記及び用語体系
特許請求の範囲中を含め、この開示全体を通して、信号又はデータに“対して”処理を実行するという表現(例えば、信号又はデータをフィルタリングする、スケーリングする、変換する、又はそれに利得を適用する)は、信号又はデータに対して直接的に、あるいは号又はデータの処理されたバージョンに対して(例えば、処理実行前の予備的なフィルタリング又は前処理を受けた信号のバージョンに対して)、処理を実行することを表すよう、広い意味で使用される。
特許請求の範囲中を含め、この開示全体を通して、“オーディオ処理ユニット”又は“オーディオプロセッサ”という表現は、オーディオデータを処理するように構成されたシステム、デバイス、又は装置を示すよう、広い意味で使用される。オーディオ処理ユニットの例は、以下に限られないが、エンコーダ、トランスコーダ、デコーダ、コーデック、前処理システム、後処理システム、及びビットストリーム処理システム(ビットストリーム処理ツールとして参照されることもある)を含む。例えば携帯電話、テレビジョン、ラップトップ、及びタブレットコンピュータなど、ほぼ全ての家電製品が、オーディオ処理ユニット又はオーディオプロセッサを含んでいる。
特許請求の範囲中を含め、この開示全体を通して、用語“結合する”又は“結合される”は、直接的又は間接的のいずれの接続も意味するよう、広い意味で使用される。従って、第1のデバイスが第2のデバイスに結合する場合、その接続は、直接的な接続を介してであってもよいし、あるいは、他のデバイス及び接続を介する間接的な接続を介してであってもよい。また、他のコンポーネントに一体化された又は他のコンポーネントと一体化されたコンポーネントも互いに結合されている。
発明の実施形態の詳細な説明
MPEG-4 AAC規格は、符号化されたMPEG-4 AACビットストリームが、以下のメタデータ、すなわち、ビットストリームのオーディオコンテンツを復号するために(もし適用されるべきであれば)デコーダによって適用されるべき高周波再構成(“HFR”)処理の各タイプを示す、及び/又はそのようなHFR処理を制御する、及び/又はビットストリームのオーディオコンテンツを復号するために使用されるべき少なくとも1つのHFRツールの少なくとも1つの特性若しくはパラメータを示すメタデータ、を含むことを企図している。ここでは、スペクトルバンド複製(“SBR”)での使用に関してMPEG-4 AAC規格で記述又は言及されているこのタイプのメタデータを表すために、“SBRメタデータ”という表現を使用する。当業者によって理解されるように、SBRはHFRの一形式である。
SBRは、好ましくは、デュアルレートシステムとして使用され、基礎となるコーデックが、元のサンプリングレートの半分で動作する一方で、SBRは、元のサンプリングレートで動作する。SBRエンコーダは、より高いサンプリングレートではあるが、基礎となるコアコーデックと並列に動作する。SBRは主に、デコーダにおける後処理であるが、デコーダにおける最も正確な高周波再構成を確保するために、重要なパラメータがエンコーダで抽出される。エンコーダは、現在の入力信号セグメント特性に適した時間及び周波数レンジ/解像度に関して、SBRレンジのスペクトルエンベロープを推定する。スペクトルエンベロープは、複素QMF解析とその後のエネルギー計算によって推定される。スペクトルエンベロープの時間及び周波数解像度は、所与の入力セグメントに最も適した時間周波数解像度を確保するために、高い自由度で選択されることができる。エンベロープ推定は、元の、主に高周波領域に位置した、過渡成分(例えば、ハイハット)が、エンベロープ調整前のSBR生成された高帯域において僅かに存在することを考慮する必要がある。何故なら、デコーダにおける高帯域は、高帯域と比較して過渡成分が遥かに目立たない低帯域に基づくからである。この側面は、他のオーディオ符号化アルゴリズムで使用される通常のスペクトルエンベロープ推定と比較して異なる要件を、スペクトルエンベロープデータの時間周波数解像度に関して課す。
スペクトルエンベロープはさておき、異なる時間及び周波数領域の入力信号のスペクトル特性を表す幾つかの更なるパラメータが抽出される。エンコーダは当然に、元の信号だけでなく、特定の制御パラメータセットを所与としてデコーダ内のSBRユニットがどのようにして高帯域を作成するかについての情報へのアクセスを有するので、システムが以下の状況を取り扱うことが可能であり、すなわち、低帯域が強い高調波系列を構成し、再作成される高帯域が主にランダム信号成分を構成する状況、及び、高帯域領域が基礎とする低帯域内には対応物がない強い音調成分が元の高帯域内に存在する状況を取り扱うことが可能である。さらに、SBRエンコーダは、所与の時点においてどの周波数レンジがSBRによってカバーされるべきかを調べるために、基礎となるコアコーデックと密接に関わって動作する。SBRデータは、エントロピー符号化、及びステレオ信号の場合に制御データのチャンネル依存性、を利用することによって、伝送前に効率的に符号化される。
制御パラメータ抽出アルゴリズムは典型的に、所与のビットレート及び所与のサンプリングレートで、基礎となるコーデックに合わせて注意深く調整される必要がある。これは、より低いビットレートは、通常、より高いビットレートと比較して大きいSBRレンジを意味し、且つ異なるサンプリングレートは、SBRフレームの異なる時間解像度に対応する、という事実による。
SBRデコーダは、典型的に、幾つかの異なるパーツを含む。それは、ビットストリーム復号モジュール、高周波再構成(HFR)モジュール、追加の高周波成分モジュール、及びエンベロープ調整モジュールを含む。システムは、複素数値のQMFフィルタバンク(高品質SBR用)又は実数値のQMFフィルタバンク(低電力SBR用)に基づく。発明の実施形態は、高品質SBR及び低電力SBRの双方に適用可能である。ビットストリーム抽出モジュールにて、制御データがビットストリームから読み出されて復号される。ビットストリームからエンベロープデータを読み取る前に、現在フレーム用に時間周波数グリッドが取得される。基礎となるコアデコーダが、(低い方のサンプリングレートではあるが)現在フレームのオーディオ信号を復号して、時間ドメインオーディオサンプルを生成する。結果として得られた、オーディオデータのフレームが、HFRモジュールによる高周波再構成に使用される。次いで、復号された低帯域信号が、QMFフィルタバンクを用いて解析される。続いて、QMFフィルタバンクのサブバンドサンプルに対して高周波再構成及びエンベロープ調整が実行される。高周波は、所与の制御パラメータに基づいて、柔軟なやり方で低帯域から再構成される。さらに、再構成された高帯域は、所与の時間/周波数領域の適切なスペクトル特性を保証するために、制御データに従ってサブバンドチャンネルベースで適応的にフィルタリングされる。
MPEG-4 AACビットストリームの最上位レベルは、データブロック(“raw_data_block”要素)のシーケンスであり、その各々が、オーディオデータ(典型的に1024又は960サンプルの期間にわたる)並びに関連情報及び/又は他のデータを含むデータのセグメント(ここでは、“ブロック”として参照する)である。ここでは、用語“ブロック”を、1つの(1つより多くない)“raw_data_block”要素を決める又は示すオーディオデータ(並びに、対応するメタデータ、及びオプションで他の関連データも)を有するMPEG-4 AACビットストリームのセグメント表すために使用する。
MPEG-4 AACビットストリームの各ブロックは、ある数の構文要素を含むことができる(それらの各々も、データのセグメントとしてビットストリーム内に具現化される)。そのような構文要素の7つのタイプが、MPEG-4 AAC規格で定義されている。各構文要素は、データ要素“id_syn_ele”の異なる値によって識別される。構文要素の例は、“single_channel_element()”、“channel_pair_element()”、“fill_element()”を含む。単一のチャンネル要素は、単一のオーディオチャンネル(モノラルオーディオ信号)のオーディオデータを含むコンテナである。チャンネルペア要素は、2つのオーディオチャンネル(すなわち、ステレオオーディオ信号)のオーディオデータを含む。
充填要素は、識別子(例えば、上記の要素“id_syn_ele”の値)と、それに続くデータ(“充填データ”として参照する)とを含む情報のコンテナである。充填要素は、歴史的に、一定速度のチャンネル上で伝送されるべきビットストリームの瞬時的なビットレートを調整するために使用されてきた。各ブロックに適量の充填データを加えることによって、一定のデータレートが達成され得る。
発明の実施形態によれば、充填データは、ビットストリームで伝送されることが可能なデータ(例えば、メタデータ)のタイプを拡張する1つ以上の拡張ペイロードを含み得る。新たなタイプのデータを含む充填データを有するビットストリームを受信するデコーダは、オプションで、装置の機能を拡張するためにこのビットストリームを受信する装置(例えば、デコーダ)によって使用され得る。従って、当業者によって理解され得るように、充填要素は、特殊なタイプのデータ構造であり、オーディオデータ(例えば、チャンネルデータを含んだオーディオペイロード)を伝送するのに典型的に使用されるデータ構造とは異なる。
発明の一部の実施形態において、充填要素を識別するのに使用される識別子は、0x6の値を持った、最上位ビット(“uimsbf”)が先に伝送される3ビット符号なし整数で構成され得る。1つのブロック内で、同じタイプの構文要素の幾つかのインスタンス(例えば、幾つかの充填要素)が発生してもよい。
オーディオビットストリームを符号化するための別の標準は、MPEG USAC()統一オーディオ及びオーディオ符号化(Unified Speech and Audio Coding)規格(ISO/IEC 23003-3:2012)である。MPEG USAC規格は、スペクトルバンド複製処理(MPEG-4 AAC規格に記載されているSBR処理を含むとともに、他の強化された形式のスペクトルバンド複製処理も含む)を用いたオーディオコンテンツの符号化及び復号を記述している。この処理は、MPEG-4 AAC規格に記載されているSBRツールセットの拡張・強化バージョンのスペクトルバンド複製ツール(ここでは“エンハンストSBRツール”又は“eSBRツール”として参照することもある)を適用する。従って、eSBR(USAC規格で定義されている)は、SBR(MPEG-4 AAC規格で定義されている)の改良である。
ここでは、“エンハンストSBR処理”(又は“eSBR処理”)という表現を、MPEG-4 AAC規格では記述又は言及されていない少なくとも1つのeSBRツール(例えば、MPEG USAC規格で記述又は言及されている少なくとも1つのeSBRツール)を用いたスペクトルバンド複製処理を表すために使用する。このようなeSBRツールの例は、高調波(ハーモニック)トランスポジション並びにQMFパッチングによる追加の前処理又は“プレフラット化(pre-flattening)”である。
整数次数Tの高調波トランスポーザは、信号持続時間を維持しながら、周波数ωの正弦波を周波数Tωの正弦波へとマッピングする。可能な最小のトランスポジション次数を用いて所望の出力周波数レンジの各部分を生成するために、典型的に、T=2,3,4の3つの次数が順に使用される。4次より上のトランスポジションレンジの出力が必要とされる場合、それは周波数シフトによって生成され得る。可能であるとき、計算の複雑さを最小化する処理のために、略クリティカルにサンプリングされたベースバンド時間ドメインが作成される。
高調波トランスポーザは、QMFベース又はDFTベースのいずれであってもよい。QMFベースの高調波トランスポーザを使用するとき、コアコーダ時間ドメイン信号の帯域幅拡張が、改良位相ボコーダ構造を用いてQMFドメイン内で完全に実行され、全てのQMFサブバンドに対してデシメーションとそれに続く時間伸長を実行する。幾つかのトランスポジションファクタ(例えば、T=2,3,4)を用いるトランスポジションが、共通のQMF分析/合成変換ステージで実行される。QMFベースの高調波トランスポーザは信号適応周波数ドメインオーバーサンプリングを特徴としないので、ビットストリーム内の対応するフラグ(sbrOversamplingFlag[ch])は無視され得る。
DFTベースの高調波トランスポーザを使用するとき、好ましくは、複雑さを低減させるために、ファクタ3及び4のトランスポーザ(3次及び4次のトランスポーザ)が、補間によってファクタ2のトランスポーザ(2次のトランスポーザ)に統合される。各フレーム(coreCoderFrameLengthコアコーダサンプルに対応する)に対して、先ず、公称“フルサイズ”の変換サイズのトランスポーザが、ビットストリーム内の信号適応周波数ドメインオーバーサンプリングフラグ(sbrOverSamplingFlag[ch])によって決定される。
sbrPatchingMode==1であるとき、高帯域を生成するために線形トランスポジションが使用されるべきことを指し示しており、後続のエンベロープ調整器に入力される高周波信号のスペクトルエンベロープの形状における不連続を回避するために追加のステップが導入され得る。これは、続くエンベロープ調整ステージの処理を改善し、より安定しているように感じられる高帯域信号をもたらす。この追加の前処理の動作は、高周波再構成に使用される低帯域信号の粗いスペクトルエンベロープが大きいレベル変動を示す信号タイプにとって有益である。しかしながら、ビットストリーム要素の値は、何らかの種類の信号依存分類を適用することによってエンコーダで決定され得る。この追加の前処理は、好ましくは、1ビットのビットストリーム要素であるbs_sbr_preprocessingによってアクティブにされる。bs_sbr_preprocessingが1に設定されるときに、この追加処理がイネーブルされる。bs_sbr_preprocessingがゼロに設定されるときには、この追加の前処理はディセーブルされる。この追加処理は好ましくは、各パッチについて低帯域XLowをスケーリングするために高周波発生器によって使用されるpreGain(プリゲイン)曲線を利用する。例えば、preGain曲線は、
Figure 0007242767000001
に従って計算されることができ、ただし、kは、マスター周波数帯域テーブルの最初のQMFサブバンドであり、lowEnvSlopeは、例えばpolyfit()など、(最小二乗で)最もフィットする多項式の係数を計算する関数を使用して計算される。例えば、
Figure 0007242767000002
を、(三次多項式を用いて)使用することができ、ここで、
Figure 0007242767000003
であり、ただし、x_lowband(k)=[0...k-1]であり、numTimeSlotは、フレーム内に存在するSBRエンベロープタイムスロットの数であり、RATEは、タイムスロット当たりのQMFサブバンドサンプルの数を指し示す定数(例えば、2)であり、φは、(場合により共分散法から取得され得る)線形予測フィルタ係数であり、ここで、
Figure 0007242767000004
である。
MPEG USAC規格に従って生成されるビットストリーム(ここでは“USAC”ビットストリームとして参照することもある)は、符号化されたオーディオコンテンツを含むとともに、典型的に、USACビットストリームのオーディオコンテンツを復号するためにデコーダによって適用される各タイプのスペクトルバンド複製処理を示すメタデータ、及び/又は、そのようなスペクトルバンド複製処理を制御し、且つ/或いはUSACビットストリームのオーディオコンテンツを復号するのに使用される少なくとも1つのSBRツール及び/又はeSBRツールの少なくとも1つの特性又はパラメータを示す、メタデータ、を含む。
ここでは、“エンハンストSBRメタデータ”(又は“eSBRメタデータ”)という表現を、符号化されたオーディオビットストリーム(例えば、USACビットストリーム)のオーディオコンテンツを復号するためにデコーダによって適用される各タイプのスペクトルバンド複製処理を示す、及び/又は、そのようなスペクトルバンド複製処理を制御し、且つ/或いはそのようなオーディオコンテンツを復号するのに使用される少なくとも1つのSBRツール及び/又はeSBRツールの少なくとも1つの特性又はパラメータを示すが、MPEG-4 AAC規格で記述又は言及されていないメタデータを表すために使用する。eSBRメタデータの一例は、MPEG-4 AAC規格では記述又は言及されていないがMPEG USAC規格では記述又は言及されているメタデータ(スペクトルバンド複製処理を指し示す、又はそれを制御する)である。従って、eSBRメタデータは、ここでは、SBRメタデータではないメタデータを表し、SBRメタデータは、ここでは、eSBRメタデータではないメタデータを表す。
USACビットストリームは、SBRメタデータ及びeSBRメタデータの双方を含み得る。より具体的には、USACビットストリームは、デコーダによるeSBR処理の実行を制御するeSBRメタデータと、デコーダによるSBR処理の実行を制御するSBRメタデータとを含み得る。本発明の典型的な実施形態によれば、eSBRメタデータ(例えば、eSBR固有の構成データ)は、(本発明に従って)MPEG-4 AACビットストリーム(例えば、SBRペイロードの終端のsbr_extension()コンテナ内)に含まれる。
デコーダによる、(少なくとも1つのeSBRツールを有する)eSBRツールセットを用いた、符号化されたビットストリームの復号中の、eSBR処理の実行は、符号化中に切り捨てられた高調波のシーケンスの複製に基づいて、オーディオ信号の高周波帯域を再生する。このようなeSBR処理は典型的に、元のオーディオ信号のスペクトル特性を再現するために、生成される高周波帯域のスペクトルエンベロープを調整し、逆フィルタリングを適用し、ノイズ成分及び正弦波成分を加える。
発明の典型的な実施形態によれば、eSBRメタデータは、他のセグメント(オーディオデータセグメント)内に符号化されたオーディオデータも含む符号化されたオーディオビットストリーム(例えばMPEG-4 AACビットストリーム)の複数のメタデータセグメントのうちの1つ以上に含められる(例えば、eSBRメタデータである少数の制御ビットが含められる)。典型的に、ビットストリームの各ブロックの少なくとも1つのそのようなメタデータセグメントは、充填要素(充填要素の始まりを指し示す識別子を含む)であり(又は含み)、eSBRメタデータは、該識別子の後の充填要素に含められる。
図1は、システムの要素のうちの1つ以上が本発明の一実施形態に従って構成され得る例示的なオーディオ処理チェーン(オーディオデータ処理システム)のブロック図である。このシステムは、図示のように共に結合される以下の要素、すなわち、エンコーダ1、送達サブシステム2、デコーダ3、及び後処理ユニット4を含んでいる。図示のシステムのバリエーションでは、これらの要素のうちの1つ以上が省略され、あるいは追加のオーディオデータ処理ユニットが含められる。
一部の実装において、エンコーダ1(これはオプションで前処理ユニットを含む)は、オーディオコンテンツを有するPCM(時間ドメイン)サンプルを入力として受け入れ、オーディオコンテンツを示す符号化されたオーディオビットストリーム(MPEG-4 AAC規格に準拠したフォーマットを持つ)を出力するように構成される。ビットストリームのうち、オーディオコンテンツを示すデータを、ここでは、“オーディオデータ”又は“符号化されたオーディオデータ”として参照することがある。エンコーダが本発明の典型的な実施形態に従って構成される場合、エンコーダから出力されるオーディオビットストリームは、オーディオデータ並びにeSBRメタデータ(及び典型的に、他のメタデータも)を含む。
エンコーダ1から出力される1つ以上の符号化されたオーディオビットストリームは、符号化オーディオ送達サブシステム2にアサートされ得る。サブシステム2は、エンコーダ1から出力された符号化されたビットストリーム各々を格納及び/又は送達するように構成される。エンコーダ1から出力された符号化されたオーディオビットストリームは、サブシステム2によって格納され(例えば、DVD又はBluray(登録商標)ディスクの形態で)、若しくはサブシステム2によって伝送されることができ、又はサブシステム2によって格納されるとともに伝送され得る。
デコーダ3は、サブシステム2を介して受信した(エンコーダ1によって生成された)符号化されたMPEG-4 AACオーディオビットストリームを復号するように構成される。一部の実施形態において、デコーダ3は、ビットストリームの各ブロックからeSBRメタデータを抽出し、そして、ビットストリームをデコードする(抽出したeSBRメタデータを用いてeSBR処理を実行することによって、を含む)ことで、復号されたオーディオデータ(例えば、復号されたPCMオーディオサンプルのストリーム)を生成するように構成される。一部の実施形態において、デコーダ3は、ビットストリームからSBRメタデータを抽出し(しかし、ビットストリームに含まれるeSBRメタデータを無視し)、ビットストリームを復号する(抽出したSBRメタデータを用いてSBR処理を実行することによって、を含む)ことで、復号されたオーディオデータ(例えば、復号されたPCMオーディオサンプルのストリーム)を生成するように構成される。典型的に、デコーダ3は、サブシステム2から受信した符号化されたオーディオビットストリームのセグメントを(例えば、非一時的に)格納するバッファを含む。
図1の後処理ユニット4は、デコーダ3からの復号されたオーディオデータのストリーム(例えば、復号されたPCMオーディオサンプル)を受け入れ、それに対して後処理を実行するように構成される。後処理ユニットはまた、後処理されたオーディオコンテンツ(又はデコーダ3から受信した復号されたオーディオ)を、1つ以上のスピーカによる再生のためにレンダリングするように構成され得る。
図2は、発明オーディオ処理ユニットの一実施形態であるエンコーダ(100)のブロック図である。エンコーダ100のコンポーネント又は要素のいずれも、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として、ハードウェアにて、ソフトウェアにて、あるいはハードウェアとソフトウェアとの組み合わせにて実装され得る。エンコーダ100は、図示のように接続された、エンコーダ105、スタッファ/フォーマッタステージ107、メタデータ生成ステージ106、及びバッファメモリ109を含んでいる。典型的に、エンコーダ100は、他のプロセッシング要素(図示せず)も含む。エンコーダ100は、入力オーディオビットストリームを、符号化された出力MPEG-4 AACビットストリームに変換するように構成される。
メタデータ生成器106は、エンコーダ100から出力される符号化ビットストリームに、ステージ107によって含められるべきメタデータ(eSBRメタデータ及びSBRメタデータを含む)を生成する(及び/又はステージ107へと渡す)ように結合及び構成される。
エンコーダ105は、入力オーディオデータを(例えば、それに対して圧縮を実行することによって)符号化し、得られた符号化されたオーディオを、ステージ107から出力される符号化されたビットストリームに含めるために、ステージ107にアサートするように結合及び構成される。
ステージ107は、エンコーダ105からの符号化されたオーディオと、生成器106からのメタデータ(eSBRメタデータ及びSBRメタデータを含む)とを多重化して、好ましくは、符号化されたビットストリームが、本発明の実施形態のうちの1つによって指定されるフォーマットを有するように、ステージ107から出力される符号化されたビットストリームを生成するように構成される。
バッファメモリ109は、ステージ107から出力された符号化オーディオビットストリームの少なくとも1つのブロックを(例えば、非一時的に)格納するように構成され、そして、符号化されたオーディオビットストリームの一連のブロックが、エンコーダ100から送達システムへの出力としてバッファメモリ109からアサートされる。
図3は、発明オーディオ処理ユニットの一実施形態であるデコーダ(200)を含み、及びオプションで、それに結合されたポストプロセッサ(300)を含むシステムのブロック図である。デコーダ200及びポストプロセッサ300のコンポーネント又は要素のいずれも、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として、ハードウェアにて、ソフトウェアにて、あるいはハードウェアとソフトウェアとの組み合わせにて実装され得る。デコーダ200は、図示のように接続された、バッファメモリ201、ビットストリームペイロードデフォーマッタ(パーサ)205、オーディオ復号サブシステム202(“コア”復号ステージ又は“コア”復号サブシステムとして参照することもある)、eSBR処理ステージ203、及び制御ビット生成ステージ204を有している。典型的に、デコーダ200は、他のプロセッシング要素(図示せず)も含む。
バッファメモリ(バッファ)201は、デコーダ200によって受信された符号化されたMPEG-4 AACオーディオビットストリームの少なくとも1つのブロックを(例えば、非一時的に)格納する。デコーダ200の動作にて、ビットストリームの一連のブロックが、バッファ201からデフォーマッタ205にアサートされる。
図3の実施形態(又は後述する図4の実施形態)についてのバリエーションでは、デコーダではないAPU(例えば、図6のAPU500)が、図3又は図4のバッファ201によって受信されるのと同じタイプの符号化されたオーディオビットストリーム(すなわち、eSBRメタデータを含む符号化されたオーディオビットストリーム)(例えば、MPEG-4 AACオーディオビットストリーム)の少なくとも1つのブロックを(例えば、非一時的に)格納するバッファメモリ(例えば、バッファ201と同じバッファメモリ)を含む。
図3を再び参照するに、デフォーマッタ205は、ビットストリームの各ブロックを逆多重化して、それからSBRメタデータ(量子化されたエンベロープデータを含む)及びeSBRメタデータ(及び典型的に他のメタデータも)を抽出し、少なくともeSBRメタデータ及びSBRメタデータをeSBR処理ステージ203にアサートし、また典型的に、抽出した他のメタデータを復号サブシステム202(及びオプションで、制御ビット生成器204も)にアサートするように結合及び構成される。デフォーマッタ205はまた、ビットストリームの各ブロックからオーディオデータを抽出し、抽出したオーディオデータを復号サブシステム(復号ステージ)202にアサートするように結合及び構成される。
図3のシステムはまた、オプションでポストプロセッサ300も含む。ポストプロセッサ300は、バッファメモリ(バッファ)301と、バッファ301に結合された少なくとも1つのプロセッシング要素を含む他のプロセッシング要素(図示せず)とを含む。バッファ301は、デコーダ200からポストプロセッサ300によって受信された復号されたオーディオデータの少なくとも1つのブロック(又はフレーム)を格納する。ポストプロセッサ300のプロセッシング要素は、バッファ301から出力される復号されたオーディオの一連のブロック(又はフレーム)を受信し、それを、復号サブシステム202(及び/又はデフォーマッタ205)から出力されるメタデータ及び/又はデコーダ200のステージ204から出力される制御ビットを用いて適応的に処理するように結合及び構成される。
デコーダ200のオーディオ復号サブシステム202は、パーサ205によって抽出されたオーディオデータを復号して(このような復号は“コア”復号処理として参照され得る)、復号されたオーディオデータを生成し、そして、復号されたオーディオデータをeSBR処理ステージ203にアサートするように構成される。この復号は周波数ドメインで実行され、典型的に、逆量子化とそれに続くスペクトル処理とを含む。典型的に、サブシステム202の出力が、時間ドメインの復号されたオーディオデータであるように、サブシステム202における処理の最終ステージが、復号された周波数ドメインのオーディオデータに対して、周波数ドメイン-時間ドメイン変換を適用する。ステージ203は、復号されたオーディオデータに、(パーサ205によって抽出された)SBRメタデータ及びeSBRメタデータによって指し示されるSBRツール及びeSBRツールを適用して(すなわち、SBR及びeSBRメタデータを使用して、復号サブシステム202の出力に対してSBR及びeSBR処理を実行して)、デコーダ200から(例えばポストプロセッサ300に)出力される完全に復号されたオーディオデータを生成する。典型的に、デコーダ200は、デフォーマッタ205から出力されるデフォーマットされたオーディオデータ及びメタデータを格納するメモリ(サブシステム202及びステージ203によってアクセス可能)を含み、ステージ203は、SBR及びeSBR処理中に必要に応じてオーディオデータ及びメタデータ(SBRメタデータ及びeSBRメタデータを含む)にアクセスするように構成される。ステージ203におけるSBR処理及びeSBR処理は、コア復号サブシステム202の出力に対する後処理であるとみなされ得る。オプションで、デコーダ200はまた、ステージ203の出力に対してアップミキシングを実行して、デコーダ200から出力される完全に復号され、アップミキシングされたオーディオを生成するように結合及び構成された最終アップミキシングサブシステム(これは、デフォーマッタ205によって抽出されるPSメタデータ及び/又はサブシステム204で生成される制御ビットを用いて、MPEG-4 AAC規格で規定されたパラメトリックステレオ(“PS”)ツールを適用し得る)を含む。あるいは、ポストプロセッサ300が、デコーダ200の出力に対してアップミキシングを実行するように構成される(例えば、デフォーマッタ205によって抽出されるPSメタデータ及び/又はサブシステム204で生成される制御ビットを用いる)。
デフォーマッタ205によって抽出されたメタデータに応答して、制御ビット生成器204は制御データを生成することができ、該制御データが、デコーダ200内で(例えば、最終アップミキシングサブシステムにおいて)使用され及び/又はデコーダ200の出力として(例えば、後処理での使用のためにポストプロセッサ300に)アサートされ得る。入力ビットストリームから抽出されたメタデータに応答して(及びオプションで制御データにも応答して)、ステージ204は、eSBR処理ステージ203から出力される復号されたオーディオデータが特定タイプの後処理を受けるべきであることを指し示す制御ビットを生成(及びポストプロセッサ300にアサート)し得る。一部の実装において、デコーダ200は、入力ビットストリームからデフォーマッタ205によって抽出されたメタデータをポストプロセッサ300にアサートするように構成され、そして、ポストプロセッサ300は、メタデータを使用して、デコーダ200から出力される復号されたオーディオデータに対して後処理を実行するように構成される。
図4は、発明オーディオ処理ユニットの他の一実施形態であるオーディオ処理ユニット(audio processing unit;“APU”)(210)のブロック図である。APU210は、eSBR処理を実行するようには構成されないレガシーデコーダである。APU210のコンポーネント又は要素のいずれも、1つ以上のプロセス及び/又は1つ以上の回路(例えば、ASIC、FPGA、又は他の集積回路)として、ハードウェアにて、ソフトウェアにて、あるいはハードウェアとソフトウェアとの組み合わせにて実装され得る。APU210は、図示のように接続された、バッファメモリ201、ビットストリームペイロードデフォーマッタ(パーサ)215、オーディオ復号サブシステム202(“コア”復号ステージ又は“コア”復号サブシステムとして参照することもある)、及びSBR処理ステージ213を有している。典型的に、APU210は、他のプロセッシング要素(図示せず)も含む。APU210は、例えば、オーディオエンコーダ、デコーダ又はトランスコーダを表し得る。
APU210の要素201及び202は、(図3の)デコーダ200の同じ番号の要素と同じであり、上でのそれらの説明を繰り返すことはしない。APU210の動作にて、APU210によって受信された符号化されたオーディオビットストリーム(MPEG-4 AACビットストリーム)の一連のブロックが、バッファ201からデフォーマッタ205にアサートされる。
デフォーマッタ215は、ビットストリームの各ブロックを逆多重化して、それからSBRメタデータ(量子化されたエンベロープデータを含む)を抽出し及び典型的に他のメタデータも抽出するが、本発明の任意の実施形態に従ってビットストリームに含められ得るeSBRメタデータは無視するように結合及び構成される。デフォーマッタ215は、少なくともSBRメタデータをSBR処理ステージ213にアサートするように構成される。デフォーマッタ215はまた、ビットストリームの各ブロックからオーディオデータを抽出し、抽出したオーディオデータを復号サブシステム(復号ステージ)202にアサートするように結合及び構成される。
APU210のオーディオ復号サブシステム202は、デフォーマッタ215によって抽出されたオーディオデータを復号して(このような復号は“コア”復号処理として参照され得る)、復号されたオーディオデータを生成し、そして、復号されたオーディオデータをSBR処理ステージ213にアサートするように構成される。この復号は周波数ドメインで実行される。典型的に、サブシステム202の出力が、時間ドメインの復号されたオーディオデータであるように、サブシステム202における処理の最終ステージが、復号された周波数ドメインのオーディオデータに対して、周波数ドメイン-時間ドメイン変換を適用する。ステージ213は、復号されたオーディオデータに、(デフォーマッタ215によって抽出された)SBRメタデータによって指し示されるSBRツールを適用して(eSBRツールは適用せずに)(すなわち、SBRメタデータを使用して、復号サブシステム202の出力に対してSBR処理を実行して)、APU210から(例えばポストプロセッサ300に)出力される完全に復号されたオーディオデータを生成する。典型的に、APU210は、デフォーマッタ215から出力されるデフォーマットされたオーディオデータ及びメタデータを格納するメモリ(サブシステム202及びステージ213によってアクセス可能)を含み、ステージ213は、SBR処理中に必要に応じてオーディオデータ及びメタデータ(SBRメタデータを含む)にアクセスするように構成される。ステージ213におけるSBR処理は、コア復号サブシステム202の出力に対する後処理であるとみなされ得る。オプションで、APU210はまた、ステージ213の出力に対してアップミキシングを実行して、APU210から出力される完全に復号され、アップミキシングされたオーディオを生成するように結合及び構成された最終アップミキシングサブシステム(これは、デフォーマッタ205によって抽出されるPSメタデータを用いて、MPEG-4 AAC規格で規定されたパラメトリックステレオ(“PS”)ツールを適用し得る)を含む。あるいは、APU210の出力に対してアップミキシングを実行する(例えば、デフォーマッタ215によって抽出されるPSメタデータ及び/又はAPU210で生成される制御ビットを用いる)ように、ポストプロセッサが構成される。
発明方法の異なる実施形態を実行するように、エンコーダ100、デコーダ200、及びAPU210の様々な実装が構成される。
一部の実施形態によれば、符号化されたオーディオビットストリーム(例えば、MPEG-4 AACビットストリーム)にeSBRメタデータが含められる(例えば、eSBRメタデータである少数の制御ビットが含められる)が、レガシーデコーダ(これは、eSBRメタデータを構文解析(パース)したり、eSBRメタデータが関係するeSBRツールを使用したりするようには構成されない)が、eSBRメタデータを無視することができ、それにもかかわらず、eSBRメタデータ又はeSBRメタデータが関係するeSBRツールの使用なしで、典型的には復号オーディオ品質における重大なペナルティなしで、ビットストリームを可能な範囲で復号することができるようにされる。一方で、ビットストリームを構文解析してeSBRメタデータを識別し、そして、eSBRメタデータに応答して少なくとも1つのeSBRツールを使用するように構成されたeSBRデコーダは、少なくとも1つのそのようなeSBRツールを使用することの利益を享受することになる。従って、発明の実施形態は、エンハンストスペクトルバンド複製(eSBR)制御データ又はメタデータを後方互換性のある方法で効率的に伝送する手段を提供する。
典型的に、ビットストリーム内のeSBRメタデータは、以下のeSBRツール(これらは、MPEG USAC規格にて記述されており、ビットストリームの生成中にエンコーダによって適用されたり適用されなかったりし得る)のうちの1つ以上を示す(例えば、それの少なくとも1つの特性又はパラメータを示す):
・高調波トランスポジション、及び
・QMFパッチングによる追加の前処理(プレフラット化)。
例えば、ビットストリームに含められるeSBRメタデータは、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、及びbs_sbr_preprocessingなるパラメータ(MPEG USAC規格及び本開示に記載されている)の値を示し得る。
ここでは、Xは何らかのパラメータであるとして、X[ch]という表記は、そのパラメータが、復号されるべき符号化されたビットストリームのオーディオコンテンツのチャンネル(“ch”)に関係することを表す。単純化のため、[ch]という表現を省略することがあり、また、該当パラメータがオーディオコンテンツのチャンネルに関係すると仮定することがある。
ここでは、Xは何らかのパラメータであるとして、X[ch][env]という表記は、そのパラメータが、復号されるべき符号化されたビットストリームのオーディオコンテンツのチャンネル(“ch”)のSBRエンベロープ(“env”)に関係することを表す。単純化のため、[env]及び[ch]という表現を省略することがあり、また、該当パラメータがオーディオコンテンツのチャンネルのSBRエンベロープに関係すると仮定することがある。
符号化されたビットストリームの復号において、(ビットストリームによって示されるオーディオコンテンツの各チャンネル”ch”の)復号のeSBR処理ステージ中の高調波トランスポジションの実行は、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBinsFlag[ch]、及びsbrPitchInBins[ch]というeSBRメタデータパラメータによって制御される。
値“sbrPatchingMode[ch]”は、eSBRで使用されるトランスポーザタイプを指し示し、sbrPatchingMode[ch]=1は、MPEG-4 AAC規格のセクション4.6.18に記載されている線形トランスポジションパッチング(高品質SBR又は低電力SBRのいずれとも使用される)を指し示し、sbrPatchingMode[ch]=0は、MPEG USAC規格のセクション7.5.3又は7.5.4に記載されている高調波SBRパッチングを指し示す。
値“sbrOversamplingFlag[ch]”は、MPEG USAC規格のセクション7.5.3に記載されているDFTベースの高調波SBRパッチングと組み合わせての、eSBRにおける信号適応周波数ドメインオーバーサンプリングの使用を指し示す。このフラグは、トランスポーザで使用されるDFTのサイズを制御し、1は、MPEG USAC規格のセクション7.5.3.1に記載されるように信号適応周波数ドメインオーバーサンプリングがイネーブルされることを指し示し、0は、MPEG USAC規格のセクション7.5.3.1に記載されるように信号適応周波数ドメインオーバーサンプリングがディセーブルされることを指し示す。
値“sbrPitchInBinsFlag[ch]”は、sbrPitchInBins[ch]パラメータの解釈を制御し、1は、sbrPitchInBins[ch]の値が有効であってゼロより大きいことを指し示し、0は、sbrPitchInBins[ch]の値がゼロに設定されることを指し示す。
値“sbrPitchInBins[ch]”は、SBR高調波トランスポーザにおける外積項の追加を制御する。値sbrPitchinBins[ch]は、範囲[0,127]内の整数値であり、コアコーダのサンプリング周波数に作用する1536ラインDFTの周波数ビンで測定される距離を表す。
MPEG-4 AACビットストリームが、(単一のSBRチャンネルではなく)それらのチャンネルが結合されないSBRチャンネルペアを示す場合、そのビットストリームは、sbr_channel_pair_element()の各チャンネルに対して1つずつの、(高調波トランスポジション又は非高調波トランスポジションに関する)上の構文の2つのインスタンスを示す。
eSBRツールの高調波トランスポジションは、典型的に、比較的低いクロスオーバー周波数にある復号された音楽信号の品質を改善する。非高調波トランスポジション(すなわち、レガシースペクトルパッチング)は典型的に音声(スピーチ)信号を改善する。従って、特定のオーディオコンテンツを符号化するのにどちらのタイプのトランスポジションが好ましいかに関する決定における出発点は、音楽コンテンツには高調波トランスポジションが使用され、音声コンテンツにはスペクトルパッチングが使用されるとして、音声/音楽検出に応じてトランスポジション方法を選択することである。
eSBR処理におけるプレフラット化の実行は、 “bs_sbr_preprocessing”として知られる1ビットのeSBRメタデータパラメータの値によって(この単一ビットの値に応じてプレフラット化が実行されるか実行されないかのいずれかであるという意味で)制御される。MPEG-4 AAC規格のセクション4.6.18.6.3に記載されているSBR QMFパッチングアルゴリズムが使用されるとき、後プレフラット化のステップは、続くエンベロープ調整器(エンベロープ調整器はeSBR処理の別のステージを実行する)に入力される高周波信号のスペクトルエンベロープの形状における不連続を回避する努力の一環として、(“bs_sbr_preprocessing”パラメータによって指し示されるときに)実行され得る。プレフラット化は、典型的に、続くエンベロープ調整ステージの処理を改善し、より安定しているように感じられる高帯域信号をもたらす。
上述のeSBRツール(高調波トランスポジション及びプレフラット化)を示すeSBRメタデータをMPEG-4 AACビットストリームに含めるための全体的なビットレート要求は、発明の一部の実施形態によれば、eSBR処理を実行するために必要とされる差分の制御データのみが伝送されるので、数百ビット/秒のオーダーであると期待される。この情報は(後述するように)後方互換的に含められるので、レガシーデコーダはこの情報を無視することができる。従って、eSBRメタデータを含めることに伴うビットレートへの悪影響は、以下を含む複数の理由から無視できるものである:
・eSBR処理を実行するために必要とされる差分の制御データのみが伝送される(SBR制御データの同時伝送ではない)ので、(eSBRメタデータを含めることによる)ビットレートペナルティは、ビットレート全体のごく一部である、及び
・SBR関係の制御情報の調整(チューニング)は、典型的に、トランスポジションの詳細に依存しない。制御データがトランスポーザの動作に依存する場合の例については、この出願中で後述する。
従って、発明の実施形態は、エンハンストスペクトルバンド複製(eSBR)制御データ又はメタデータを後方互換性のある方法で効率的に伝送する手段を提供する。eSBR制御データのこの効率的な伝送は、ビットレートに対する目に見える悪影響を有することなく、発明の態様を採用するデコーダ、エンコーダ、及びトランスコーダにおけるメモリ要求を低減させる。さらに、発明の実施形態に従ってeSBRを実行することに関連する複雑さ及び処理要件も低減される。何故なら、SBRデータは、(eSBRが、後方互換的にMPEG-4 AACコーデックに統合される代わりに、MPEG-4 AACにおける完全に別個のオブジェクトタイプとして扱われる、とした場合にそうであるように同時伝送されずに)一度だけ処理されればよいからである。
次に、図7を参照して、本発明の一部の実施形態に従ってeSBRメタデータが含められるMPEG-4 AACビットストリームのブロック(“raw_data_block”)の要素を記述する。図7は、そのセグメントの一部を示すMPEG-4 AACビットストリームのブロック(“raw_data_block”)の図である。
MPEG-4 AACビットストリームのブロックは、オーディオプログラムのオーディオデータを含んだ、少なくとも1つの“single_channel_element()”(例えば、図7に示す単一チャンネル要素)及び/又は少なくとも1つの“channel_pair_element()”(図7には特に示していないが、存在してもよい)を含み得る。このブロックはまた、そのプログラムに関係するデータ(例えば、メタデータ)を含む複数の“充填要素”(例えば、図7の充填要素1及び/又は充填要素2)を含み得る。各“single_channel_element()”は、単一チャンネル要素の始まりを示す識別子(例えば、図7の“ID1”)を含むとともに、マルチチャンネルオーディオプログラムのうちの異なるチャンネルを示すオーディオデータを含むことができる。各“channe_pair_element()”は、チャンネルペア要素の始まりを示す識別子(図7に示されず)を含むとともに、プログラムの2つのチャンネルを示すオーディオデータを含むことができる。
MPEG-4 AACビットストリームのfill_element(ここでは充填要素として参照する)は、充填要素の始まりを示す識別子(図7の“ID2”)と、該識別子の後の充填データとを含む。識別子ID2は、0x6の値を持った、最上位ビット(“uimsbf”)が先に伝送される3ビット符号なし整数で構成され得る。充填データは、extension_peyload()要素(ここでは拡張ペイロードとして参照することもある)を含むことができ、その構文は、MPEG-4 AAC規格の表4.57に示されている。幾つかのタイプの拡張ペイロードが存在し、最上位ビット(“uimsbf”)が先に伝送される4ビット符号なし整数である“extension_type”パラメータを介して識別される。
充填データ(例えば、その拡張ペイロード)は、SBRオブジェクトを示す充填データのセグメントを示すヘッダ又は識別子(例えば、図7の“ヘッダ1”)を含むことができる(すなわち、ヘッダが、MPEG-4 AAC規格においてsbr_extension_data()として参照される“SBRオブジェクト”タイプを開始する)。例えば、ヘッダ内のextension_typeフィールドの‘1101’又は‘1110’の値で、スペクトルバンド複製(SBR)拡張ペイロードが特定され、識別子‘1101’が、SBRデータを有する拡張ペイロードを特定し、‘1110’が、SBRデータの正確性を検証する周期的冗長検査(CRC)を備えたSBRデータを有する拡張ペイロードを特定する。
ヘッダ(例えば、extension_typeeフィールド)がSBRオブジェクトタイプを開始するとき、SBRメタデータ(MPEG-4 AAC規格では“sbr_data()”と呼ばれており、ここでは“スペクトルバンド複製データ”として参照することがある)がヘッダに続き、そして、少なくとも1つのスペクトルバンド複製拡張要素(例えば、図7の充填要素1の“SBR拡張要素”)がSBRメタデータに続くことができる。このようなスペクトルバンド複製拡張要素(ビットストリームの一セグメント)は、MPEG-4 AAC規格では“sbr_extension()”コンテナと呼ばれている。スペクトルバンド複製拡張要素は、オプションで、ヘッダ(例えば、図7の充填要素1の“SBR拡張ヘッダ”)を含む。
MPEG-4 AAC規格は、スペクトルバンド複製拡張要素が、プログラムのオーディオデータに関するPS(パラメトリックステレオ)データを含むことができることを企図している。MPEG-4 AAC規格は、(図7の“ヘッダ1”がそうであるように)充填要素のヘッダ(例えば、その拡張ペイロードのヘッダ)がSBRオブジェクトタイプを開始し、充填要素のスペクトルバンド複製拡張要素がPSデータを含むときに、充填要素(例えば、その拡張ペイロード)が、スペクトルバンド複製データと、PSデータが充填要素のスペクトルバンド複製拡張要素に含まれることを指し示す値(すなわち、bs_extension_id=2)を有する“bs_extension_id”パラメータとを含むことを企図している。
本発明の一部の実施形態によれば、eSBRメタデータ(例えば、ブロックのオーディオコンテンツに対してエンハンストスペクトルバンド複製(eSBR)処理が実行されるべきかを指し示すフラグ)が、充填要素のスペクトルバンド複製拡張要素に含められる。例えば、このようなフラグは、図7の充填要素1に示されており、図7では、該フラグは、充填要素1の“SBR拡張要素”のヘッダ(充填要素1の“SBR拡張ヘッダ”)の後に生じている。オプションで、このようなフラグ及び追加のeSBRメタデータは、スペクトルバンド複製拡張要素のヘッダの後のスペクトルバンド複製拡張要素(例えば、図7の、SBR拡張ヘッダの後の、充填要素1のSBR拡張要素)に含められる。本発明の一部の実施形態によれば、eSBRメタデータを含む充填要素はまた、充填要素にeSBRメタデータが含まれること及び該当ブロックのオーディオコンテンツに対してeSBR処理が実行されるべきであることを指し示す値(例えば、bs_extension_id=3)を持つ“bs_extension_id”パラメータを含む。
本発明の一部の実施形態によれば、eSBRメタデータは、MPEG-4 AACビットストリームのうち、充填要素のスペクトルバンド複製拡張要素(SBR拡張要素)以外の充填要素(例えば、図7の充填要素2)に含められる。これは何故なら、SBRデータ又はCRCを備えたSBRデータを有するextension_peyload()を含む充填要素は、他の拡張タイプの如何なる他の拡張ペイロードも含まないからである。従って、eSBRメタデータがそれ自身の拡張ペイロードを格納される実施形態において、eSBRメタデータを格納するために別個の充填要素が使用される。そのような充填要素は、充填要素の始まりを示す識別子(例えば、図7の“ID2”)と、該識別子の後の充填データとを含む。充填データは、extension_payload()要素(ここでは拡張ペイロードとして参照することがある)を含むことができ、その構文は、MPEG-4 AAC規格の表4.57に示されている。充填データ(例えば、その拡張ペイロード)は、eSBRオブジェクトを示すヘッダ(例えば、図7の充填要素2の“ヘッダ2”)を含み(すなわち、このヘッダがエンハンストスペクトルバンド複製(eSBR)オブジェクトタイプを開始する)、充填データ(例えば、その拡張ペイロード)は、該ヘッダの後にeSBRメタデータを含む。例えば、図7の充填要素2は、そのようなヘッダ(“ヘッダ2”)を含むとともに、該ヘッダの後に、eSBRメタデータ(すなわち、ブロックのオーディオコンテンツに対してエンハンストスペクトルバンド複製(eSBR)処理が実行されるべきかを指し示すものである、充填要素2内の“フラグ”)を含んでいる。オプションで、追加のeSBRメタデータも、ヘッダ2の後で、図7の充填要素2の充填データに含められる。本段落で記述している実施形態において、ヘッダ(例えば、図7のヘッダ2)は、MPEG-4 AAC規格の表4.57に規定されている従来の値のうちの1つではない識別値を持ち、代わりに、eSBR拡張ペイロードを指し示す(充填データがeSBRメタデータを含むことをヘッダのextension_typeフィールドが指し示すようにする)。
第1のクラスの実施形態において、発明はオーディオ処理ユニット(例えば、デコーダ)であり、当該オーディオ処理ユニットは、
符号化されたオーディオビットストリームの少なくとも1つのブロック(例えば、MPEG-4 AACビットストリームの少なくとも1つのブロック)を格納するように構成されたメモリ(例えば、図3又は図4のバッファ201)と、
メモリに結合され、ビットストリームの上記ブロックの少なくとも1つの部分を逆多重化するように構成されたビットストリームペイロードデフォーマッタ(例えば、図3の要素205、又は図4の要素215)と、
ビットストリームの上記ブロックのオーディオコンテンツの少なくとも1つの部分を復号するように結合及び構成された復号サブシステム(例えば、図3の要素202及び203、又は図4の要素202及び213)と、を有し、ブロックは、
充填要素であり、当該充填要素の始まりを示す識別子(例えば、MPEG-4 AAC規格の表4.85の値0x6を持つ“id_syn_ele”識別子)と、該識別子の後の充填データと、を含む充填要素と、
該ブロックのオーディオコンテンツに対してエンハンストスペクトルバンド複製(eSBR)処理が実行される(例えば、該ブロックに含められたスペクトルバンド複製データ及びeSBRメタデータを使用して)べきかを特定する少なくとも1つのフラグと、
を含む。
このフラグはeSBRメタデータであり、フラグの例はsbrPatchingModeフラグである。フラグの他の一例は、harmonicSBRフラグである。これらのフラグはどちらも、ブロックのオーディオデータに対して基本形式のスペクトルバンド複製が実行されるべきか、それとも強化形式のスペクトルバンド複製が実行されるべきかを指し示す。基本形式のスペクトルバンド複製はスペクトルパッチングであり、強化形式のスペクトルバンド複製は高調波トランスポジションである。
一部の実施形態において、充填データはまた、追加のeSBRメタデータ(すなわち、上記フラグ以外のeSBRメタデータ)を含む。
メモリは、符号化されたオーディオビットストリームの少なくとも1つのブロックを(例えば、非一時的に)格納するバッファメモリ(例えば、図4のバッファ201の実装)とし得る。
推定されることには、eSBRメタデータ(これらのeSBRツールを指し示す)を含むMPEG-4 AACビットストリームの復号中のeSBRデコーダによるeSBR処理(eSBR高調波トランスポジション及びプレフラット化を用いる)の実行の複雑さは、(指し示されるパラメータを用いた典型的な復号に関して)以下:
・高調波トランスポジション(16kbps、14400/28800Hz)
〇 DFTベース:3.68WMOPS(weighted million operations per second)
〇 QMFベース:0.98WMOPS
・QMFパッチング前処理(プレフラット化):0.1WMOPS
のようになる。知られることには、DFTベースのトランスポジションは、典型的に、過渡信号に関してQMFベースのトランスポジションよりも良好に機能する。
本発明の一部の実施形態によれば、eSBRメタデータを含む(符号化されたオーディオビットストリームの)充填要素はまた、その値が充填要素にeSBRメタデータが含まれること及び該当ブロックのオーディオコンテンツに対してeSBR処理が実行されるべきことをシグナリングする値(例えば、bs_extension_id=3)を持つパラメータ(例えば、“bs_extension_id”パラメータ)、及び/又は、充填要素のsbr_extension()コンテナがPSデータを含むことをシグナリングする値(例えば、bs_extension_id=2)を持つパラメータ(例えば、同じ“bs_extension_id”パラメータ)を含む。例えば、下の表1に示されるように、このようなパラメータがbs_extension_id=2なる値を持つことが、充填要素のsbr_extension()コンテナがPSデータを含むことをシグナリングし得るとともに、のようなパラメータがbs_extension_id=3なる値を持つことが、充填要素のsbr_extension()コンテナがeSBRメタデータを含むことをシグナリングし得る。
Figure 0007242767000005
発明の一部の実施形態によれば、eSBRメタデータ及び/又はPSデータを含む各スペクトルバンド複製拡張要素の構文は、下の表2に示す通りである(“sbr_extension()”は、スペクトルバンド複製拡張要素であるコンテナを表し、“bs_extension_id”は、上の表1に記載される通りであり、“ps_data”は、PSデータを表し、そして、“esbr_data”は、eSBRメタデータを表す)。
Figure 0007242767000006
例示的な一実施形態において、上の表2で参照されているesbr_data()は、以下のメタデータパラメータの値を指し示す:
1. 1ビットメタデータパラメータ“bs_sbr_processing”、及び
2. 復号されるべき符号化されたビットストリームのオーディオコンテンツの各チャンネル(“ch”)についての、上述のパラメータ“sbrPatchingMode[ch]”、“sbrOversamplingFlag[ch]”、“sbrPitchInBinsFlag[ch]”、及び“sbrPitchInBins[ch]”の各々。
例えば、一部の実施形態において、esbr_data()は、これらのメタデータパラメータを指し示すために、表3に示される構文を持ち得る。
Figure 0007242767000007
Figure 0007242767000008
上の構文は、レガシーデコーダへの拡張として、例えば高調波トランスポジションなどの強化形式のスペクトルバンド複製の効率的な実装を可能にする。具体的には、表3のeSBRデータは、ビットストリームにて既にサポートされているものでもなければ、ビットストリームにて既にサポートされているパラメータから直接的に導出可能なものでもない強化形式のスペクトルバンド複製を実行するために必要なパラメータのみを含む。強化形式のスペクトルバンド複製を実行するために必要な他の全てのパラメータ及び処理データは、ビットストリーム内の既定の位置に前もって存在するパラメータから抽出される。
例えば、MPEG-4 HE-AAC又はHE-AAC v2に準拠したデコーダは、例えば高調波トランスポジションなどの強化形式のスペクトルバンド複製を含むように拡張され得る。この強化形式のスペクトルバンド複製は、デコーダによって既にサポートされている基本形式のスペクトルバンド複製に加えてのものである。MPEG-4 HE-AAC又はHE-AAC v2に準拠したデコーダの文脈において、この基本形式のスペクトルバンド複製は、MPEG-4 AAC規格のセクション4.6.18に規定されるQMFスペクトルパッチングSBRツールである。
強化形式のスペクトルバンド複製を実行するとき、拡張HE-AACデコーダは、ビットストリームのSBR拡張ペイロードに既に含まれているビットストリームパラメータの多くを再使用し得る。再使用され得る具体的なパラメータは、例えば、マスター周波数帯域テーブルを決定する様々なパラメータを含む。それらのパラメータは、bs_start_freq(マスター周波数テーブルパラメータの始まりを特定するパラメータ)、bs_stop_freq(マスター周波数テーブルの終わりを特定するパラメータ)、bs_freq_scale(オクターブ当たりの周波数帯域数を特定するパラメータ)、bs_alter_scale(周波数帯域のスケールを変更するパラメータ)を含む。再使用され得るパラメータはまた、ノイズ帯域テーブル(bs_noise_bands)及びリミッタ帯域テーブル(bs_limiter_bands)を決定するパラメータを含む。従って、様々な実施形態において、USAC規格で規定されるのと等価なパラメータのうちの少なくとも一部がビットストリームから省略され、それによってビットストリームにおける制御オーバーヘッドが低減される。典型的に、AAC規格で規定されるパラメータが、USAC規格で規定される等価なパラメータを持つ場合、USAC規格で規定される等価なパラメータは、AAC規格で規定されるパラメータと同じ名前、例えば、envelope scalefactor EOrigMappedを持つ。しかしながら、USAC規格で規定される等価なパラメータは典型的に、AAC規格で規定されるSBR処理に対してではなく、USAC規格で規定されるエンハンストSBR処理に対して“チューン”されたものである異なる値を持つ。
特に低ビットレートで高調波周波数構造及び強い音調特性を有するオーディオコンテンツの主観的品質を改善するために、エンハンストSBRの起動が推奨される。それらのツールを制御する対応するビットストリーム要素(すなわち、esbr_data())の値は、信号依存分類メカニズムを適用することによって、エンコーダにて決定され得る。一般に、非常に低いビットレートで音楽信号を符号化するには高調波パッチング法(sbrPatchingMode==1)の使用が好ましく、その場合、コアコーデックは、オーディオ帯域幅において相当に制限され得る。これは、特に、これらの信号が顕著な高調波構造を含む場合に当てはまる。対照的に、音声信号及び混合信号に対しては、通常のSBRパッチング法の使用が好ましい。何故なら、それは、音声における時間的構造のいっそう良好な保存を提供するからである。
高調波トランスポーザの性能を改善するために、後続のエンベロープ調整器に入る信号のスペクトル不連続の導入を回避することを目指す前処理ステップ(bs_sbr_preprocessing==1)を起動することができる。このツールの動作は、高周波再構成のために低帯域信号の粗いスペクトルエンベロープを使用することが大きいレベル変動を示す信号タイプに有益である。
高調波SBRパッチングの過渡応答を改善するために、信号適応周波数ドメインオーバーサンプリング(sbrOversamplingFlag==1)を適用することができる。信号適応周波数ドメインオーバーサンプリングはトランスポーザの計算の複雑さを増加させるが、過渡成分を含むフレームに対してのみ利益をもたらすので、このツールの使用は、独立SBRチャンネル当たり及びフレーム当たり1回伝送されるものであるビットストリーム要素によって制御される。
提案するエンハンストSBRモードで動作するデコーダは、典型的に、レガシーSBRパッチングとエンハンストSBRパッチングとの間で切り換わることができる必要がある。従って、デコーダ設定に応じて、1つのコアオーディオフレームの継続時間ほどの長さとし得る遅延が導入され得る。典型的に、この遅延は、レガシーSBRパッチング及びエンハンストSBRパッチングの双方で同等となる。
これら数多くのパラメータに加えて、他のデータ要素も、発明の実施形態に従って強化形式のスペクトルバンド複製を実行するときに拡張HE-AACデコーダによって再使用され得る。例えば、エンベロープデータ及びノイズフロアデータも、bs_data_env(エンベロープスケールファクタ)及びbs_noise_env(ノイズフロアスケールファクタ)データから抽出されて、強化形式のスペクトルバンド複製の間に使用され得る。
本質的に、これらの実施形態は、SBR拡張ペイロード内のレガシーHE-AAC又はHE-AAC v2デコーダによって既にサポートされている構成パラメータ及びエンベロープデータを利用して、可能な限り追加の伝送データを必要しない強化形式のスペクトルバンド複製を可能にする。メタデータは、もともと、基本形式のHFR(例えば、SBRのスペクトル変換動作)に対してチューンされたものであるが、実施形態に従って、強化形式のHFR(例えば、eSBRの高調波トランスポジション)に使用される。前述したように、メタデータは概して、基本形式のHFR(例えば、線形スペクトル変換)で使用されるように意図及びチューンされた動作パラメータ(例えば、エンベロープスケールファクタ、ノイズフロアスケールファクタ、時間/周波数グリッドパラメータ、正弦波加算情報、可変クロスオーバー周波数/帯域、逆フィルタリングモード、エンベロープ解像度、平滑化モード、周波数補間モード)を表す。しかしながら、このメタデータが、強化形式のHFR(例えば、高調波トランスポジション)に特有の追加のメタデータパラメータと組み合わされて、強化形式のHFRを使用してオーディオデータを効率的かつ効果的に処理するために使用され得る。
従って、既に規定されているビットストリーム要素(例えば、SBR拡張ペイロード内のもの)を当てにするとともに、強化形式のスペクトルバンド複製をサポートするために必要なパラメータのみを追加することによって、強化形式のスペクトルバンド複製をサポートする拡張デコーダを非常に効率的に作り出し得る。新たに追加されるパラメータを例えば拡張コンテナなどの保留データフィールドに置くことと組み合わせての、このデータ削減フィーチャは、強化形式のスペクトルバンド複製をサポートしていないレガシーデコーダに対してビットストリームが後方互換であることを保証することによって、強化形式のスペクトルバンド複製をサポートするデコーダを作成することに対する障壁を実質的に低減させる。
表3において、右列内の数字は、左列内の対応するパラメータのビット数を示している。
一部の実施形態において、MPEG-4 AACで規定されるSBRオブジェクトタイプが、SBR拡張要素(bs_extension_id==EXTENSION_ID_ESBR)にてシグナリングされるSBR-Tool及びエンハンストSBR(eSBR)ツールの態様を含むように更新される。デコーダがこのSBR拡張要素をサポートしていてそれを検出すると、該デコーダは、シグナリングされたエンハンストSBRツールの態様を使用する。このようにして更新されたSBRオブジェクトタイプを、SBRエンハンスメントとして参照する。
一部の実施形態において、発明は、オーディオデータを符号化して、符号化されたビットストリーム(例えば、MPEG-4 AACビットストリーム)を生成するステップを含む方法であり、符号化されたビットストリームの少なくとも1つのブロックの少なくとも1つのセグメントにeSBRメタデータを含め、且つ該ブロックの少なくとも1つの他のセグメントにオーディオデータを含めることによって、を含む。典型的な実施形態において、当該方法は、符号化されたビットストリームの各ブロックでオーディオデータをeSBRメタデータと多重化するステップを含む。eSBRデコーダにおける符号化されたビットストリームの典型的な復号において、デコーダは、ビットストリームからeSBRメタデータを抽出し(eSBRメタデータ及びオーディオデータの解析及び逆多重化することによって、を含む)、eSBRメタデータを用いてオーディオデータを処理して、復号されたオーディオデータのストリームを生成する。
発明の他の一態様は、eSBRメタデータを含まない符号化されたオーディオビットストリーム(例えば、MPEG-4 AACビットストリーム)の復号中にeSBR処理を実行する(例えば、高調波トランスポジション又はプレフラット化として知られるeSBRツールのうちの少なくとも1つを使用する)ように構成されたeSBRデコーダである。そのようなデコーダの一例を、図5を参照して説明する。
図5のeSBRデコーダ(400)は、デコーダ200は、図示のように接続された、バッファメモリ201(図3及び図4のメモリ201と同じである)、ビットストリームペイロードデフォーマッタ215(図4のデフォーマッタ215と同じである)、オーディオ復号サブシステム202(“コア”復号ステージ又は“コア”復号サブシステムとして参照することもあり、、図3のコア復号サブシステム202と同じである)、eSBR制御データ生成サブシステム401、及びeSBR処理ステージ203(図3のステージ203と同じである)を含んでいる。典型的に、デコーダ400は、他のプロセッシング要素(図示せず)も含む。
デコーダ400の動作において、デコーダ400によって受信された符号化されたオーディオビットストリーム(MPEG-4 AACビットストリーム)の一連のブロックが、バッファ201からデフォーマッタ215にアサートされる。
デフォーマッタ215は、ビットストリームの各ブロックを逆多重化して、それからSBRメタデータ(量子化されたエンベロープデータを含む)を抽出するとともに典型的に他のメタデータも抽出する。デフォーマッタ215は、少なくともSBRメタデータをeSBR処理ステージ203にアサートするように構成される。デフォーマッタ215はまた、ビットストリームの各ブロックからオーディオデータを抽出し、抽出したオーディオデータを復号サブシステム(復号ステージ)202にアサートするように結合及び構成される。
デコーダ400のオーディオ復号サブシステム202は、デフォーマッタ215によって抽出されたオーディオデータを復号して(このような復号は“コア”復号処理として参照され得る)、復号されたオーディオデータを生成し、そして、復号されたオーディオデータをeSBR処理ステージ203にアサートするように構成される。この復号は周波数ドメインで実行される。典型的に、サブシステム202の出力が、時間ドメインの復号されたオーディオデータであるように、サブシステム202における処理の最終ステージが、復号された周波数ドメインのオーディオデータに対して、周波数ドメイン-時間ドメイン変換を適用する。ステージ203は、復号されたオーディオデータに、(デフォーマッタ215によって抽出された)SBRメタデータによって及びサブシステム401にて生成されるeSBRメタデータによって指し示されるSBRツール(及びeSBRツール)を適用して(すなわち、SBR及びeSBRメタデータを使用して、復号サブシステム202の出力に対してSBR及びeSBR処理を実行して)、デコーダ400から出力される完全に復号されたオーディオデータを生成する。典型的に、デコーダ400は、デフォーマッタ215(及びオプションでサブシステム401も)から出力されるデフォーマットされたオーディオデータ及びメタデータを格納するメモリ(サブシステム202及びステージ203によってアクセス可能)を含み、ステージ203は、SBR及びeSBR処理中に必要に応じてオーディオデータ及びメタデータにアクセスするように構成される。ステージ203におけるSBR処理は、コア復号サブシステム202の出力に対する後処理であるとみなされ得る。オプションで、デコーダ400はまた、ステージ203の出力に対してアップミキシングを実行して、デコーダ400から出力される完全に復号され、アップミキシングされたオーディオを生成するように結合及び構成された最終アップミキシングサブシステム(これは、デフォーマッタ215によって抽出されるPSメタデータを用いて、MPEG-4 AAC規格で規定されたパラメトリックステレオ(“PS”)ツールを適用し得る)を含む。
パラメトリックステレオは、ステレオ信号の左チャンネル及び右チャンネルの線形ダウンミキシングと、ステレオイメージを記述する空間パラメータのセットとを用いてステレオ信号を表す符号化ツールである。パラメトリックステレオは、典型的に、(1)チャンネル間の強度差を記述するチャンネル間強度差(inter-channel intensity differences;IID)、(2)チャンネル間の位相差を記述するチャンネル間位相差(inter-channel phase differences;IPD)、及び(3)チャンネル間のコヒーレンス(又は類似性)を記述するチャンネル間コヒーレンス(inter-channel coherence;ICC)という3つのタイプの空間パラメータを使用する。コヒーレンスは、時間又は位相の関数としての相互相関の最大として測定され得る。これら3つのパラメータは概して、ステレオイメージの高品質再構成を可能にする。しかしながら、IPDパラメータは、ステレオ入力信号のチャンネル間の相対的位相差を記述するのみであり、左チャンネル及び右チャンネルにわたるこれら位相差の分布を示さない。従って、全体的な位相オフセット又は全体的な位相差を記述する第4のタイプのパラメータが、追加で使用され得る。ステレオ再構成プロセスにおいて、受信ダウンミキシング信号s[n]と受信ダウンミキシングの相関解除バージョンd[n]との双方の連続したウィンドウセグメントが、空間パラメータと共に処理され、
(n)=H11(k,n)s(n)+H21(k,n)d(n)
(n)=H12(k,n)s(n)+H22(k,n)d(n)
に従って、左再構成信号(l(n))及び右再構成信号(r(n))が生成され、ここで、H11、H12、H21及びH22は、ステレオパラメータによって規定されるものである。信号l(n)及び信号r(n)は、最終的に周波数-時間変換によって時間ドメインに変換され返す。
図5の制御データ生成サブシステム401は、復号されるべき符号化されたオーディオビットストリームの少なくとも1つの特性を検出し、検出ステップの少なくとも1つの結果に応答してeSBR制御データ(これは、発明の他の実施形態に従って符号化されたオーディオビットストリームに含められるタイプのうちのいずれかのeSBRメタデータであり又はそれを含み得る)を生成するように結合及び構成される。eSBR制御データはステージ203にアサートされ、ビットストリームの特定の特性(又は複数の特性の組み合わせ)を検出したことを受けて個々のeSBRツール又はeSBRツールの組み合わせの適用をトリガし、及び/又はそのようなeSBRツールの適用を制御する。例えば、高調波トランスポジションを用いたeSBR処理の実行を制御するために、制御データ生成サブシステム401の一部の実施形態は、ビットストリームが音楽を示すか否かを検出することに応答してsbrPatchingMode[ch]パラメータを設定する(及び、設定したパラメータをステージ203にアサートする)ミュージック検出器、ビットストリームによって示されるオーディオコンテンツにおける過渡成分の存在又は不存在を検出したことに応答してsbrOversamplingFlag[ch]パラメータを設定する(及び、設定したパラメータをステージ203にアサートする)トランジェント検出器、及び/又は、ビットストリームによって示されるオーディオコンテンツのピッチを検出したことに応答してsbrPitchInsFlag[ch]及びsbrPitchIns[ch]パラメータを設定する(及び、設定したパラメータをステージ203にアサートする)ピッチ検出器を含み得る。発明の他の態様は、本段落及び前段落に記載した発明デコーダのいずれかの実施形態によって実行されるオーディオビットストリーム復号方法である。
発明の態様は、発明APU、システム又は装置のいずれかの実施形態が実行するように構成される(例えば、プログラムされる)タイプの符号化又は復号方法を含む。発明の他の態様は、発明方法のいずれかの実施形態を実行するように構成される(例えば、プログラムされる)システム又は装置、並びに、発明方法のいずれかの実施形態又はそのステップを実装するためのコードを(例えば、非一時的に)格納するコンピュータ読み取り可能媒体(例えば、ディスク)を含む。例えば、発明システムは、発明方法の一実施形態又はそのステップを含め、多様な処理のうちのいずれかをデータに対して実行するようにソフトウェア又はファームウェアでプログラミングされた又はその他の方法で構成された、プログラム可能な汎用プロセッサ、デジタル信号プロセッサ、又はマイクロプロセッサであるか、それを含むかであることができる。そのような汎用プロセッサは、入力装置と、メモリと、それに対してアサートされるデータに応答して発明方法の一実施形態(又はそのステップ)を実行するようにプログラムされる(及び/又はその他の方法で構成される)プロセッシング回路と、を含むコンピュータシステムであるか、それを含むかであるとし得る。
本発明の実施形態は、ハードウェア、ファームウェア、若しくはソフトウェア、又は双方の組み合わせ(例えば、プログラマブル論理アレイ)にて実装され得る。別段の断りがない限り、発明の一部として含まれるアルゴリズム又はプロセスは、特定のコンピュータ又は他の装置に本質的には関係付けられない。特に、ここでの教示に従って記述されたプログラムと共に種々の汎用マシンを使用することができ、あるいは、必要な方法ステップを実行するように、いっそう特殊化された装置(例えば、集積回路)を構築する方がいっそう好都合なこともある。従って、発明は、各々が、少なくとも1つのプロセッサと、少なくとも1つのデータストレージシステム(揮発性及び不揮発性のメモリ及び/又は記憶素子を含む)と、少なくとも1つの入力装置若しくはポートと、少なくとも1つの出力装置若しくはポートと、を有する1つ以上のプログラム可能なコンピュータシステム(例えば、図1の要素のうちのいずれかを実装したもの、又は図2のエンコーダ100(又はその要素)、又は図3のデコーダ200(又はその要素)、又は図4のデコーダ210(又はその要素)、又は図5のデコーダ400(又はその要素)の上で実行する1つ以上のコンピュータプログラムにて実装され得る。プログラムコードが入力データに適用されて、ここに記載された機能が実行され、出力情報が生成される。その出力情報が、知られたやり方で1つ以上の出力装置に与えられる。
このようなプログラムは各々、コンピュータシステムと通信するために、望ましい任意のコンピュータ言語(機械語、アセンブリ言語、又はハイレベルの手続き型、論理型、又はオブジェクト指向型のプログラミング言語を含む)で実装され得る。いずれにしても、言語は、コンパイル型言語であってもよいし、インタープリタ型言語であってもよい。
例えば、コンピュータソフトウェア命令シーケンスによって実装されるとき、発明の実施形態の様々な機能及びステップは、適切なデジタル信号処理ハードウェア上で走るマルチスレッド化ソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態の様々な装置、ステップ及び機能は、ソフトウェア命令の一部に対応し得る。
そのようなコンピュータプログラムは各々、好ましくは、汎用又は専用のプログラマブルコンピュータによって読み取り可能な記憶媒体又は記憶装置(例えば、ソリッドステートメモリ若しくは媒体、又は磁気媒体若しくは光学媒体)に格納又はダウンロードされ、該記憶媒体又は記憶装置がコンピュータシステムによって読み取られるときに、ここに記載された手順を実行するようにコンピュータを構成して動作させる。発明システムはまた、コンピュータプログラムを備えて(すなわち、格納して)構成された、コンピュータ読み取り可能記憶媒体として実装されてもよく、そのように構成された記憶媒体は、コンピュータシステムに、ここに記載された機能を実行するよう、特定の予め定められたように動作させる。
発明の数多くの実施形態を説明してきた。とはいえ、理解されることには、発明の精神及び範囲から逸脱することなく様々な変更が為され得る。上での教示に照らして、本発明の数多くの変更及び変形が可能である。例えば、効率的な実装を支援するために、複素QMF分析及び合成フィルタバンクと組み合わせて位相シフトを使用してもよい。分析フィルタバンクは、コアデコーダによって生成された時間ドメイン低帯域信号を複数のサブバンド(例えば、QMFサブバンド)へとフィルタリングすることを担う。合成フィルタバンクは、選択されたHFR技術(受信されるsbrPatchingModeパラメータによって指し示される)によって生成された再生成高帯域を、復号された低帯域と組み合わせて、広帯域出力オーディオ信号を生成することを担う。例えば通常のデュアルレート動作又はダウンサンプリングSBRモードといった特定のサンプルレートモードで動作する所与のフィルタバンク実装は、しかしながら、ビットストリームに依存する位相シフトを持つべきでない。SBRで使用されるQMFバンクは、余弦変調フィルタバンクの理論の複素指数関数拡張である。示され得ることには、複素指数関数変調を用いて余弦変調フィルタバンクを拡張するとき,エイリアス相殺制約が使われないものとなる。従って、SBR QMFバンクでは、分析フィルタh(n)及び合成フィルタf(n)の双方を、
Figure 0007242767000009
によって規定することができ、ここで、p(n)は実数値の対称又は非対称プロトタイプフィルタ(典型的に、低域通過プロトタイプフィルタ)であり、Mはチャンネル数を表し、Nはプロトタイプフィルタ次数である。分析フィルタバンクで使用されるチャンネルの数は、合成フィルタバンクで使用されるチャンネルの数と異なり得る。例えば、分析フィルタバンクは32チャンネルを有し、合成フィルタバンクは64チャンネルを有し得る。ダウンサンプリングモードで合成フィルタバンクを動作させるとき、合成フィルタバンクは32チャンネルのみを有し得る。フィルタバンクからのサブバンドサンプルは複素数の値であるので、追加のチャンネル依存であり得る位相シフトステップが、分析フィルタバンクに付加され得る。これらの追加の位相シフトは、合成フィルタバンクの前に補償される必要がある。原理的に位相シフト項はQMF分析/合成チェーンの動作を破壊することなく任意の値とすることができるが、それらはまた、適合性検証のために特定の値に制約されてもよい。SBR信号は位相ファクタの選択によって影響されることになるが、コアデコーダから来る低域通過信号は影響されない。出力信号の音質は影響を受けない。
プロトタイプフィルタの係数p(n)の係数は、下の表4に示すように、640の長さLで規定され得る。
Figure 0007242767000010
Figure 0007242767000011
Figure 0007242767000012
Figure 0007242767000013
Figure 0007242767000014
プロトタイプフィルタp(n)はまた、例えば丸め、サブサンプリング、補間、及び間引きなどの1つ以上の数学演算によって、表4から導出されてもよい。
SBR関係の制御情報のチューニングは、典型的には(先述のように)トランスポジションの詳細に依存しないが、一部の実施形態では、再生成される信号の品質を改善するために、制御データのうちの特定の要素が、eSBR拡張コンテナ(bs_extension_id==EXTENSION_ID_ESBR)内で同時伝送されてもよい。同時伝送される要素の一部は、ノイズフロアデータ(例えば、ノイズフロアスケールファクタ、及び各ノイズフロアに対するデルタコーディングの周波数方向又は時間方向のいずれかでの方向を指し示すパラメータ)、逆フィルタリングデータ(例えば、逆フィルタリングなし、低いレベルの逆フィルタリング、中間レベルの逆フィルタリング、及び強いレベルの逆フィルタリングから選択される逆フィルタリングモードを指し示すパラメータ)、及び欠落高調波データ(例えば、再生成される高帯域の特定の周波数帯域に正弦波を加えるべきかを指し示すパラメータ)を含み得る。これらの要素は全て、エンコーダで実行されるデコーダのトランスポーザの合成エミュレーションを当てにしており、従って、選択されたトランスポーザに対して適切に調整される場合に再生成信号の品質を高め得る。
具体的には、一部の実施形態において、欠落高調波及び逆フィルタリング制御データが、eSBR拡張コンテナ内で(表3の他のビットストリームパラメータとともに)伝送され、eSBRの高調波トランスポーザに対して調整される。eSBRの高調波トランスポーザのためにこれらの2つのクラスのメタデータを伝送するのに必要とされる追加のビットレートは比較的低い。従って、調整された欠落高調波及び/又は逆フィルタリング制御データをeSBR拡張コンテナで送ることは、ビットレートに最小限の影響しか与えずに、トランスポーザによって生成されるオーディオの品質を高めることになる。レガシーデコーダとの後方互換性を確保するために、SBRのスペクトル変換処理に対して調整されたパラメータも、暗黙的又は明示的のいずれかのシグナリングを用いてSBR制御データの一部としてビットストリームで送られ得る。
この出願に記載されるSBRエンハンスメントを有するデコーダの複雑さは、実装したものの全体的な計算の複雑さを著しく増加させないように制限されなければならない。好ましくは、eSBRツールを使用するとき、SBRオブジェクトタイプのPCU(MOP)は4.5以下であり、eSBRツールを使用するとき、SBRオブジェクトタイプのRCUは3以下である。近似による処理能力は、整数のMOPS数で規定されるプロセッサ複雑度単位(Processor Complexity Units;PCU)で与えられる。近似によるRAM使用量は、整数のkWords(1000ワード)数で規定されるRAM複雑度単位(RAM Complexity Units;RCU)で与えられる。RCU数は、異なるオブジェクト及び/又はチャンネルの間で共されることが可能な作業バッファを含まない。また、PCUはサンプリング周波数に比例する。PCU値は、チャンネル当たりのMOPS(Million Operations per Second)で与えられ、RCU値はチャンネル当たりのkWordsで与えられる。
異なるデコーダ構成によって復号されることができるものである、HE-AAC符号化オーディオのような、圧縮されたデータでは、特別な注意が必要である。この場合、復号は、後方互換的(AACのみ)及び強化的(AAC+SBR)に行われることができる。圧縮されたデータが、後方互換性のある復号及び強化された復号の双方を許す場合であって、且つデコーダが、幾分の追加遅延を挿入するポストプロセッサ(例えば、HE-AACにおけるSBRポストプロセッサ)を使用しているように、強化的に動作している場合、対応するnの値によって記述される、後方互換モードに対して生じるこの追加の時間遅延が、合成ユニットを提示するときに考慮に入れられることを保証しなければならない。(オーディオが他のメディアと同期したままであるように)合成タイムスタンプが正しく扱われることを確保するために、出力サンプルレートでの(オーディオチャンネル当たりの)サンプル数で与えられる後処理によって導入される追加遅延は、デコーダ動作モードがこの出願に記載されるSBRエンハンスメント(eSBRを含む)を含むときに、3010である。従って、オーディオ合成ユニットにおいて、デコーダ動作モードがこの出願に記載されるSBRエンハンスメントを含むとき、その合成時間が合成ユニット内の3011番目のオーディオサンプルに適用される。
特に低ビットレートで高調波周波数構造及び強い音調特性を有するオーディオコンテンツの主観的品質を改善するには、エンハンストSBRがアクティブにされるべきである。それらのツールを制御する対応するビットストリーム要素(すなわち、esbr_data())の値は、信号依存分類メカニズムを適用することによって、エンコーダにて決定され得る。
一般に、非常に低いビットレートで音楽信号を符号化するには高調波パッチング法(sbrPatchingMode==0)の使用が好ましく、その場合、コアコーデックは、オーディオ帯域幅において相当に制限され得る。これは、特に、これらの信号が顕著な高調波構造を含む場合に当てはまる。対照的に、音声信号及び混合信号に対しては、通常のSBRパッチング法の使用が好ましい。何故なら、それは、音声における時間的構造のいっそう良好な保存を提供するからである。
高調波トランスポーザの性能を改善するために、後続のエンベロープ調整器に入る信号のスペクトル不連続の導入を回避する前処理ステップ(bs_sbr_preprocessing==1)をアクティブにすることができる。このツールの動作は、高周波再構成のために低帯域信号の粗いスペクトルエンベロープを使用することが大きいレベル変動を示す信号タイプに有益である。
高調波SBRパッチング(sbrPatchingMode==0)の過渡応答を改善するために、信号適応周波数ドメインオーバーサンプリング(sbrOversamplingFlag==1)を適用することができる。信号適応周波数ドメインオーバーサンプリングはトランスポーザの計算の複雑さを増加させるが、過渡成分を含むフレームに対してのみ利益をもたらすので、このツールの使用は、独立SBRチャンネル当たり及びフレーム当たり1回伝送されるものであるビットストリーム要素によって制御される。
SBRエンハンスメント(すなわち、eSBRツールの高調波トランスポーザをイネーブルすること)を備えたHE-AACv2の典型的なビットレート設定推奨は、44.1kHz又は48kHzのいずれかのサンプリングレートのステレオオーディオコンテンツに対して20-32kbpsに相当する。SBRエンハンスメントの相対的な主観的品質利得は、低い側のビットレート境界に向かって増加し、適切に構成されたエンコーダは、この範囲をいっそう低いビットレートまで拡張することを可能にする。上で提示したビットレートは推奨に過ぎず、特定のサービス要求に合わせて適応され得る。
提案するエンハンストSBRモードで動作するデコーダは、典型的に、レガシーSBRパッチングとエンハンストSBRパッチングとの間で切り換わることができる必要がある。従って、デコーダ設定に応じて、1つのコアオーディオフレームの継続時間ほどの長さとし得る遅延が導入され得る。典型的に、この遅延は、レガシーSBRパッチング及びエンハンストSBRパッチングの双方で同等となる。
理解されるべきことには、添付の請求項の範囲内で、ここに具体的に記載されたのとは異なるように発明が実施され得る。以下の請求項に含まれる如何なる参照符号も、単に例示目的でのものであり、いかようにも請求項を解釈又は限定するために使用されるべきではない。
本発明の様々な態様が、以下の列挙実施形態例(enumerated example embodiment;EEE)から理解され得る。
EEE1. オーディオ信号の高周波再構成を実行する方法であって、当該方法は、
符号化されたオーディオビットストリームを受信し、該符号化されたオーディオビットストリームは、前記オーディオ信号の低帯域部分を表すオーディオデータと、高周波再構成メタデータとを含み、
前記オーディオデータを復号して、復号された低帯域オーディオ信号を生成し、
前記符号化されたオーディオビットストリームから前記高周波再構成メタデータを抽出し、前記高周波再構成メタデータは、高周波再構成プロセスのための動作パラメータを含み、該動作パラメータは、前記符号化されたオーディオビットストリームの後方互換拡張コンテナ内に置かれたパッチングモードパラメータを含み、該パッチングモードパラメータの第1の値は、スペクトル変換を指し示し、該パッチングモードパラメータの第2の値は、位相ボコーダ周波数拡散による高調波トランスポジションを指し示し、
前記復号された低帯域オーディオ信号をフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成し、
前記フィルタリングされた低帯域オーディオ信号及び前記高周波再構成メタデータを用いて、前記オーディオ信号の高帯域部分を再生成し、当該再生成することは、前記パッチングモードパラメータが前記第1の値である場合にスペクトル変換を含み、当該再生成することは、前記パッチングモードパラメータが前記第2の値である場合に位相ボコーダ周波数拡散による高調波トランスポジションを含み、
前記フィルタリングされた低帯域オーディオ信号を前記再生成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成する、
ことを有し、
前記フィルタリングすること、前記再生成すること、及び前記組み合わせることは、オーディオチャンネル当たり3010サンプル以下の遅延で後処理動作として実行され、前記スペクトル変換は、適応逆フィルタリングによって、音調成分と雑音ライク成分との間の比を維持することを有する、
方法。
EEE2. 前記符号化されたオーディオビットストリームは更に充填要素を含み、該充填要素は、該充填要素の始まりを指し示す識別子と、該識別子の後の充填データとを有し、該充填データが前記後方互換拡張コンテナを含む、EEE1の方法。
EEE3. 前記識別子は、最上位ビットが先に伝送され且つ0x6の値を持つ3ビット符号なし整数である、EEE2の方法。
EEE4. 前記充填データは拡張ペイロードを含み、該拡張ペイロードはスペクトルバンド複製拡張データを含み、前記拡張ペイロードは、最上位ビットが先頭に送信され且つ‘1101’又は‘1110’の値を持つ4ビット符号なし整数で識別され、
オプションで、前記スペクトルバンド複製拡張データは、
オプションのスペクトルバンド複製ヘッダと、
前記ヘッダの後のスペクトルバンド複製データと、
前記スペクトルバンド複製データの後のスペクトルバンド複製拡張要素であり、フラグが含められているスペクトルバンド複製拡張要素と、
を含む、
EEE2又は3の方法。
EEE5. 前記高周波再構成メタデータは、エンベロープスケールファクタ、ノイズフロアスケールファクタ、時間/周波数グリッド情報、又はクロスオーバー周波数を指し示すパラメータを含む、EEE1乃至4のいずれか一の方法。
EEE6. 前記後方互換拡張コンテナは更に、前記パッチングモードパラメータが前記第1の値に等しいときに、前記高帯域部分のスペクトルエンベロープの形状における不連続を回避するために追加の前処理が使用されるかを指し示すフラグを含み、該フラグの第1の値は、前記追加の前処理をイネーブルし、該フラグの第2の値は、前記追加の前処理をディセーブルする、EEE1乃至5のいずれか一の方法。
EEE7. 前記追加の前処理は、線形予測フィルタ係数を用いてプリゲイン曲線を計算することを含む、EEE6の方法。
EEE8. 前記後方互換拡張コンテナは更に、前記パッチングモードパラメータが前記第2の値に等しいときに、信号適応周波数ドメインオーバーサンプリングが適用されるべきかを指し示すフラグを含み、該フラグの第1の値は、前記信号適応周波数ドメインオーバーサンプリングをイネーブルし、該フラグの第2の値は、前記信号適応周波数ドメインオーバーサンプリングをディセーブルする、EEE1乃至5のいずれか一の方法。
EEE9. 前記信号適応周波数ドメインオーバーサンプリングは、過渡信号を含むフレームに対してのみ適用される、EEE8の方法。
EEE10. 位相ボコーダ周波数拡散による前記高調波トランスポジションは、毎秒450万演算及び3kワードのメモリの又はそれよりも低い推定複雑度で実行される、EEE1乃至9のいずれか一の方法。
EEE11. プロセッサによって実行されるときにEEE1乃至10のいずれか一の方法を実行する命令を含んだ非一時的なコンピュータ読み取り可能媒体。
EEE12. 命令を有するコンピュータプログラムプロダクトであって、前記命令は、コンピューティング装置又はシステムによって実行されるときに、該コンピューティング装置又はシステムに、EEE1乃至10のいずれか一の方法を実行させる、コンピュータプログラムプロダクト。
EEE13. オーディオ信号の高周波再構成を実行するオーディオ処理ユニットであって、当該オーディオ処理ユニットは、
符号化されたオーディオビットストリームを受信する入力インタフェースであり、前記符号化されたオーディオビットストリームは、前記オーディオ信号の低帯域部分を表すオーディオデータと、高周波再構成メタデータとを含む、入力インタフェースと、
前記オーディオデータを復号して、復号された低帯域オーディオ信号を生成するコアオーディオデコーダと、
前記符号化されたオーディオビットストリームから前記高周波再構成メタデータを抽出するデフォーマッタであり、前記高周波再構成メタデータは、高周波再構成プロセスのための動作パラメータを含み、該動作パラメータは、前記符号化されたオーディオビットストリームの後方互換拡張コンテナ内に置かれたパッチングモードパラメータを含み、該パッチングモードパラメータの第1の値は、スペクトル変換を指し示し、該パッチングモードパラメータの第2の値は、位相ボコーダ周波数拡散による高調波トランスポジションを指し示す、デフォーマッタと、
前記復号された低帯域オーディオ信号をフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成する分析フィルタバンクと、
前記フィルタリングされた低帯域オーディオ信号及び前記高周波再構成メタデータを用いて、前記オーディオ信号の高帯域部分を再構成する高周波リジェネレータであり、前記再構成することは、前記パッチングモードパラメータが前記第1の値である場合にスペクトル変換を含み、前記再構成することは、前記パッチングモードパラメータが前記第2の値である場合に位相ボコーダ周波数拡散による高調波トランスポジションを含む、高周波リジェネレータと、
前記フィルタリングされた低帯域オーディオ信号を前記再生成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成する合成フィルタバンクと、
を有し、
前記分析フィルタバンク、前記高周波リジェネレータ、及び前記合成フィルタバンクは、オーディオチャンネル当たり3010サンプル以下の遅延でポストプロセッサにて実行され、前記スペクトル変換は、適応逆フィルタリングによって、音調成分と雑音ライク成分との間の比を維持することを有する、
オーディオ処理ユニット。
EEE14. 位相ボコーダ周波数拡散による前記高調波トランスポジションは、毎秒450万演算及び3kワードのメモリの又はそれよりも低い推定複雑度で実行される、EEE13のオーディオ処理ユニット。

Claims (11)

  1. オーディオ信号の高周波再構成を実行する方法であって、当該方法は、
    符号化されたオーディオビットストリームを受信し、該符号化されたオーディオビットストリームは、前記オーディオ信号の低帯域部分を表すオーディオデータと、高周波再構成メタデータとを含み、
    前記オーディオデータを復号して、復号された低帯域オーディオ信号を生成し、
    前記符号化されたオーディオビットストリームから前記高周波再構成メタデータを抽出し、前記高周波再構成メタデータは、高周波再構成プロセスのための動作パラメータを含み、該動作パラメータは、前記符号化されたオーディオビットストリームの後方互換拡張コンテナ内に置かれたパッチングモードパラメータを含み、該パッチングモードパラメータの第1の値は、スペクトル変換を指し示し、該パッチングモードパラメータの第2の値は、位相ボコーダ周波数拡散による高調波トランスポジションを指し示し、
    複素QMF分析フィルタバンクを用いて、前記復号された低帯域オーディオ信号を複数のサブバンドへとフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成し、
    前記フィルタリングされた低帯域オーディオ信号及び前記高周波再構成メタデータを用いて、前記オーディオ信号の高帯域部分を再生成し、当該再生成することは、前記パッチングモードパラメータが前記第1の値である場合にスペクトル変換を含み、当該再生成することは、前記パッチングモードパラメータが前記第2の値である場合に位相ボコーダ周波数拡散による高調波トランスポジションを含み、
    複素QMF合成フィルタバンクを用いて、前記フィルタリングされた低帯域オーディオ信号を前記再生成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成する、
    ことを有し、
    前記複素QMF分析フィルタバンクの分析フィルタh(n)及び前記複素QMF合成フィルタバンクの合成フィルタf(n)は、
    Figure 0007242767000015
    によって規定され、ここで、p(n)は実数値のプロトタイプフィルタであり、Mはチャンネル数を表し、Nはプロトタイプフィルタ次数であり、
    前記フィルタリングすること、前記再生成すること、及び前記組み合わせることは、オーディオチャンネル当たり3010サンプルの遅延で後処理動作として実行され、前記スペクトル変換は、適応逆フィルタリングによって、音調成分と雑音ライク成分との間の比を維持することを有する、
    方法。
  2. 前記高周波再構成メタデータは、エンベロープスケールファクタ、ノイズフロアスケールファクタ、時間/周波数グリッド情報、又はクロスオーバー周波数を指し示すパラメータを含む、請求項1に記載の方法。
  3. 前記後方互換拡張コンテナは更に、前記パッチングモードパラメータが前記第1の値に等しいときに、前記高帯域部分のスペクトルエンベロープの形状における不連続を回避するために追加の前処理が使用されるかを指し示すフラグを含み、該フラグの第1の値は、前記追加の前処理をイネーブルし、該フラグの第2の値は、前記追加の前処理をディセーブルする、請求項1に記載の方法。
  4. 前記追加の前処理は、線形予測フィルタ係数を用いてプリゲイン曲線を計算することを含む、請求項3に記載の方法。
  5. 前記後方互換拡張コンテナは更に、前記パッチングモードパラメータが前記第2の値に等しいときに、信号適応周波数ドメインオーバーサンプリングが適用されるべきかを指し示すフラグを含み、該フラグの第1の値は、前記信号適応周波数ドメインオーバーサンプリングをイネーブルし、該フラグの第2の値は、前記信号適応周波数ドメインオーバーサンプリングをディセーブルする、請求項1に記載の方法。
  6. 前記信号適応周波数ドメインオーバーサンプリングは、過渡信号を含むフレームに対してのみ適用される、請求項5に記載の方法。
  7. 位相ボコーダ周波数拡散による前記高調波トランスポジションは、毎秒450万演算及び3kワードのメモリの又はそれよりも低い推定複雑度で実行される、請求項1に記載の方法。
  8. 前記複素QMF分析フィルタバンクは更に、チャネル依存の位相シフトを有し、該チャネル依存の位相シフトは前記複素QMF合成フィルタバンクによって補償される、
    請求項1に記載の方法。
  9. 命令を有するコンピュータプログラムであって、前記命令は、コンピューティング装置又はシステムによって実行されるときに、該コンピューティング装置又はシステムに、請求項1乃至8のいずれかに記載の方法を実行させる、コンピュータプログラム。
  10. オーディオ信号の高周波再構成を実行するオーディオ処理ユニットであって、当該オーディオ処理ユニットは、
    符号化されたオーディオビットストリームを受信する入力インタフェースであり、前記符号化されたオーディオビットストリームは、前記オーディオ信号の低帯域部分を表すオーディオデータと、高周波再構成メタデータとを含む、入力インタフェースと、
    前記オーディオデータを復号して、復号された低帯域オーディオ信号を生成するコアオーディオデコーダと、
    前記符号化されたオーディオビットストリームから前記高周波再構成メタデータを抽出するデフォーマッタであり、前記高周波再構成メタデータは、高周波再構成プロセスのための動作パラメータを含み、該動作パラメータは、前記符号化されたオーディオビットストリームの後方互換拡張コンテナ内に置かれたパッチングモードパラメータを含み、該パッチングモードパラメータの第1の値は、スペクトル変換を指し示し、該パッチングモードパラメータの第2の値は、位相ボコーダ周波数拡散による高調波トランスポジションを指し示す、デフォーマッタと、
    前記復号された低帯域オーディオ信号をフィルタリングして、フィルタリングされた低帯域オーディオ信号を生成する複素QMF分析フィルタバンクと、
    前記フィルタリングされた低帯域オーディオ信号及び前記高周波再構成メタデータを用いて、前記オーディオ信号の高帯域部分を再構成する高周波リジェネレータであり、前記再構成することは、前記パッチングモードパラメータが前記第1の値である場合にスペクトル変換を含み、前記再構成することは、前記パッチングモードパラメータが前記第2の値である場合に位相ボコーダ周波数拡散による高調波トランスポジションを含む、高周波リジェネレータと、
    前記フィルタリングされた低帯域オーディオ信号を前記再構成された高帯域部分と組み合わせて、広帯域オーディオ信号を形成する複素QMF合成フィルタバンクと、
    を有し、
    前記複素QMF分析フィルタバンク、前記高周波リジェネレータ、及び前記複素QMF合成フィルタバンクは、オーディオチャンネル当たり3010サンプルの遅延でポストプロセッサにて実行され、前記スペクトル変換は、適応逆フィルタリングによって、音調成分と雑音ライク成分との間の比を維持することを有し、
    前記複素QMF分析フィルタバンクの分析フィルタh(n)及び前記複素QMF合成フィルタバンクの合成フィルタf(n)は、
    Figure 0007242767000016
    によって規定され、ここで、p(n)は実数値のプロトタイプフィルタであり、Mはチャンネル数を表し、Nはプロトタイプフィルタ次数である、
    オーディオ処理ユニット。
  11. 位相ボコーダ周波数拡散による前記高調波トランスポジションは、毎秒450万演算及び3kワードのメモリの又はそれよりも低い推定複雑度で実行される、請求項10に記載のオーディオ処理ユニット。
JP2021110192A 2018-04-25 2021-07-01 後処理遅延低減との高周波再構成技術の統合 Active JP7242767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023035270A JP2023060264A (ja) 2018-04-25 2023-03-08 後処理遅延低減との高周波再構成技術の統合

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862662296P 2018-04-25 2018-04-25
US62/662,296 2018-04-25
JP2020559494A JP6908795B2 (ja) 2018-04-25 2019-04-25 後処理遅延低減との高周波再構成技術の統合

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020559494A Division JP6908795B2 (ja) 2018-04-25 2019-04-25 後処理遅延低減との高周波再構成技術の統合

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023035270A Division JP2023060264A (ja) 2018-04-25 2023-03-08 後処理遅延低減との高周波再構成技術の統合

Publications (3)

Publication Number Publication Date
JP2021157202A JP2021157202A (ja) 2021-10-07
JP2021157202A5 JP2021157202A5 (ja) 2022-01-04
JP7242767B2 true JP7242767B2 (ja) 2023-03-20

Family

ID=68294559

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020559494A Active JP6908795B2 (ja) 2018-04-25 2019-04-25 後処理遅延低減との高周波再構成技術の統合
JP2021110192A Active JP7242767B2 (ja) 2018-04-25 2021-07-01 後処理遅延低減との高周波再構成技術の統合
JP2023035270A Pending JP2023060264A (ja) 2018-04-25 2023-03-08 後処理遅延低減との高周波再構成技術の統合

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020559494A Active JP6908795B2 (ja) 2018-04-25 2019-04-25 後処理遅延低減との高周波再構成技術の統合

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023035270A Pending JP2023060264A (ja) 2018-04-25 2023-03-08 後処理遅延低減との高周波再構成技術の統合

Country Status (17)

Country Link
US (6) US11562759B2 (ja)
EP (1) EP3662469A4 (ja)
JP (3) JP6908795B2 (ja)
KR (5) KR102474146B1 (ja)
CN (6) CN114242090A (ja)
AR (3) AR114840A1 (ja)
AU (3) AU2019257701A1 (ja)
BR (1) BR112020021809A2 (ja)
CA (2) CA3152262A1 (ja)
CL (1) CL2020002746A1 (ja)
MA (1) MA50760A (ja)
MX (1) MX2020011212A (ja)
RU (2) RU2758199C1 (ja)
SG (1) SG11202010367YA (ja)
TW (1) TWI820123B (ja)
WO (1) WO2019210068A1 (ja)
ZA (2) ZA202006517B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7257041B2 (ja) 2019-10-28 2023-04-13 国立大学法人東北大学 推定装置、推定方法、及び、材料の製造方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202341126A (zh) * 2017-03-23 2023-10-16 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
CN113113032A (zh) * 2020-01-10 2021-07-13 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527447A (ja) 2008-07-11 2011-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号合成器及びオーディオ信号符号器
JP2012531632A (ja) 2009-06-29 2012-12-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域拡張符号化装置、帯域拡張復号化装置及び位相ボコーダ
JP2013516652A (ja) 2010-01-19 2013-05-13 ドルビー インターナショナル アーベー サブバンドブロックに基づく高調波移調の改善
JP2013521538A (ja) 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. パッチ境界整合を用いてオーディオ信号を処理するための装置および方法
JP2013521536A (ja) 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
CN1279512C (zh) 2001-11-29 2006-10-11 编码技术股份公司 用于改善高频重建的方法和装置
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US6792057B2 (en) 2002-08-29 2004-09-14 Bae Systems Information And Electronic Systems Integration Inc Partial band reconstruction of frequency channelized filters
EP1763017B1 (en) * 2004-07-20 2012-04-25 Panasonic Corporation Sound encoder and sound encoding method
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
WO2009059632A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
CN101458930B (zh) 2007-12-12 2011-09-14 华为技术有限公司 带宽扩展中激励信号的生成及信号重建方法和装置
DE102008015702B4 (de) 2008-01-31 2010-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
JP5336522B2 (ja) 2008-03-10 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 瞬間的事象を有する音声信号の操作装置および操作方法
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
TWI597939B (zh) * 2009-02-18 2017-09-01 杜比國際公司 具相位偏移之複數值合成濾波器組
MX2011009660A (es) 2009-03-17 2011-09-30 Dolby Int Ab Codificacion estereo avanzada basada en una combinacion de codificacion izquierda/derecha o media/lateral seleccionable de manera adaptable y de codificacion estereo parametrica.
TWI556227B (zh) 2009-05-27 2016-11-01 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
US8515768B2 (en) 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CA3203400C (en) 2010-07-19 2023-09-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
US8996976B2 (en) 2011-09-06 2015-03-31 Microsoft Technology Licensing, Llc Hyperlink destination visibility
JP6155274B2 (ja) 2011-11-11 2017-06-28 ドルビー・インターナショナル・アーベー 過剰サンプリングされたsbrを使ったアップサンプリング
WO2013088173A1 (en) * 2011-12-14 2013-06-20 Wolfson Microelectronics Plc Data transfer
EP2631906A1 (en) 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2881943A1 (en) * 2013-12-09 2015-06-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal with low computational resources
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
GR1008810B (el) 2015-03-19 2016-07-07 Νικολαος Ευστρατιου Καβουνης Φυσικος αφρωδης οινος με βιολογικο κροκο κοζανης
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011527447A (ja) 2008-07-11 2011-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号合成器及びオーディオ信号符号器
JP2012531632A (ja) 2009-06-29 2012-12-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 帯域拡張符号化装置、帯域拡張復号化装置及び位相ボコーダ
JP2013516652A (ja) 2010-01-19 2013-05-13 ドルビー インターナショナル アーベー サブバンドブロックに基づく高調波移調の改善
JP2013521538A (ja) 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. パッチ境界整合を用いてオーディオ信号を処理するための装置および方法
JP2013521536A (ja) 2010-03-09 2013-06-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Frederik NAGEL, et al.,A HARMONIC BANDWIDTH EXTENSION METHOD FOR AUDIO CODECS,ICASSP 2009,IEEE,2009年01月,pp.145-148
則松武志他,音声と楽音を統合した音響信号符号化,日本音響学会誌,2012年03月,第68巻,第3号,pp.123-128

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7257041B2 (ja) 2019-10-28 2023-04-13 国立大学法人東北大学 推定装置、推定方法、及び、材料の製造方法

Also Published As

Publication number Publication date
US20230206934A1 (en) 2023-06-29
US20230162748A1 (en) 2023-05-25
CN112204659A (zh) 2021-01-08
ZA202204656B (en) 2023-11-29
KR102474146B1 (ko) 2022-12-06
KR20220166372A (ko) 2022-12-16
AU2023203912A1 (en) 2023-07-13
CL2020002746A1 (es) 2021-01-29
MA50760A (fr) 2020-06-10
CA3098295C (en) 2022-04-26
JP6908795B2 (ja) 2021-07-28
KR20200137026A (ko) 2020-12-08
JP2023060264A (ja) 2023-04-27
KR102560473B1 (ko) 2023-07-27
AR114840A1 (es) 2020-10-21
US11908486B2 (en) 2024-02-20
US20210151062A1 (en) 2021-05-20
WO2019210068A1 (en) 2019-10-31
BR112020021809A2 (pt) 2021-02-23
CN114242090A (zh) 2022-03-25
KR20240042120A (ko) 2024-04-01
RU2021130811A (ru) 2022-03-01
US11823694B2 (en) 2023-11-21
RU2758199C1 (ru) 2021-10-26
TWI820123B (zh) 2023-11-01
SG11202010367YA (en) 2020-11-27
KR20210125108A (ko) 2021-10-15
CA3152262A1 (en) 2019-10-31
US20230206935A1 (en) 2023-06-29
KR20230116088A (ko) 2023-08-03
US20230206933A1 (en) 2023-06-29
AU2019257701A1 (en) 2020-12-03
CA3098295A1 (en) 2019-10-31
CN114242087A (zh) 2022-03-25
CN114242089A (zh) 2022-03-25
KR102649124B1 (ko) 2024-03-20
EP3662469A4 (en) 2020-08-19
AR126606A2 (es) 2023-10-25
US11562759B2 (en) 2023-01-24
CN112204659B (zh) 2021-12-17
AU2021277708A1 (en) 2021-12-23
US11830509B2 (en) 2023-11-28
US11823696B2 (en) 2023-11-21
CN114242086A (zh) 2022-03-25
TW202006706A (zh) 2020-02-01
US11823695B2 (en) 2023-11-21
US20230206932A1 (en) 2023-06-29
ZA202006517B (en) 2023-10-25
AU2021277708B2 (en) 2023-03-30
JP2021157202A (ja) 2021-10-07
JP2021515276A (ja) 2021-06-17
CN114242088A (zh) 2022-03-25
EP3662469A1 (en) 2020-06-10
MX2020011212A (es) 2020-11-09
KR102310937B1 (ko) 2021-10-12
AR126605A2 (es) 2023-10-25

Similar Documents

Publication Publication Date Title
JP7242767B2 (ja) 後処理遅延低減との高周波再構成技術の統合
US11961528B2 (en) Backward-compatible integration of high frequency reconstruction techniques for audio signals
US11810592B2 (en) Integration of high frequency audio reconstruction techniques
EP3518233B1 (en) Backward-compatible integration of high frequency reconstruction techniques for audio signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242767

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150