JP2023164629A - 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード - Google Patents
少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード Download PDFInfo
- Publication number
- JP2023164629A JP2023164629A JP2023151835A JP2023151835A JP2023164629A JP 2023164629 A JP2023164629 A JP 2023164629A JP 2023151835 A JP2023151835 A JP 2023151835A JP 2023151835 A JP2023151835 A JP 2023151835A JP 2023164629 A JP2023164629 A JP 2023164629A
- Authority
- JP
- Japan
- Prior art keywords
- data
- metadata
- bitstream
- band replication
- spectral band
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001228 spectrum Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 125
- 230000010076 replication Effects 0.000 claims abstract description 109
- 230000003595 spectral effect Effects 0.000 claims description 130
- 239000000945 filler Substances 0.000 claims description 92
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 abstract description 26
- 238000012805 post-processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000017105 transposition Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003362 replicative effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
【課題】少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコードを提供する。【解決手段】実施形態は、バッファと、ビットストリーム・ペイロード・フォーマット解除器と、デコード・サブシステムとを含むオーディオ処理ユニットに関する。バッファはエンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを記憶する。ブロックは充填要素を含み、充填要素は識別子で始まり、それに充填データが続く。充填データは、前記ブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製(eSBR)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む。エンコードされたオーディオ・ビットストリームをデコードするための対応する方法も提供される。【選択図】図7
Description
本発明は、オーディオ信号処理に関する。いくつかの実施形態はオーディオ・ビットストリーム(たとえばMPEG-4 AACフォーマットをもつビットストリーム)のエンコードおよびデコードに関する。他の実施形態は、そのようなビットストリームの、eSBR処理を実行するよう構成されておらずそのようなメタデータを無視するレガシー・デコーダによるデコードに関し、あるいはそのようなメタデータを含まないオーディオ・ビットストリームのデコードに関し、それは該ビットストリームに応答してeSBR制御データを生成することによることを含む。
典型的なオーディオ・ビットストリームは、オーディオ・コンテンツの一つまたは複数のチャネルを示すオーディオ・データ(たとえばエンコードされたオーディオ・データ)と、前記オーディオ・データまたはオーディオ・コンテンツの少なくとも一つの特性を示すメタデータとの両方を含む。エンコードされたオーディオ・ビットストリームを生成するための一つのよく知られたフォーマットは、MPEG規格ISO/IEC14496-3:2009に記載されるMPEG-4先進オーディオ符号化(AAC: Advanced Audio Coding)フォーマットである。MPEG-4規格では、AACは「advanced audio coding(先進オーディオ符号化)」を表わし、HE-AACは「high-efficiency advanced audio coding(高効率先進オーディオ符号化)」を表わす。
MPEG-4 AAC規格はいくつかのオーディオ・プロファイルを定義しており、それらのオーディオ・プロファイルがどのオブジェクトおよび符号化ツールが準拠するエンコーダまたはデコーダにおいて存在しているかを決める。これらのオーディオ・プロファイルのうちの三つは、(1)AACプロファイル、(2)HE-AACプロファイルおよび(3)HE-AAC v2プロファイルである。AACプロファイルはAAC低計算量(AAC low complexity)(または「AAC-LC」)オブジェクト型を含む。AAC-LCオブジェクト型は、若干の調整はあるがMPEG-2 AAC低計算量プロファイルに対応するものであり、スペクトル帯域複製(spectral band replication)(「SBR」)オブジェクト型もパラメトリック・ステレオ(parametric stereo)(「PS」)オブジェクト型も含まない。HE-AACプロファイルはAACプロファイルの上位集合であって、追加的にSBRオブジェクト型を含む。HE-AAC v2プロファイルはHE-AACプロファイルの上位集合であって、追加的にPSオブジェクト型を含む。
SBRオブジェクト型は、スペクトル帯域複製ツールを含む。これは、知覚的オーディオ・コーデックの圧縮効率を著しく改善する重要な符号化ツールである。SBRは受信器側で(たとえばデコーダにおいて)オーディオ信号の高周波数成分を再構成する。そのため、エンコーダは低周波数成分をエンコードして伝送するだけでよく、低データ・レートにおいてずっと高いオーディオ品質を許容する。SBRは、データ・レートを削減するために以前に打ち切りされた高調波のシーケンスを、エンコーダから得られる利用可能な帯域幅制限された信号および制御データから複製することに基づく。トーン様成分とノイズ様成分の間の比は適応的な逆フィルタリングならびにノイズおよび正弦波の任意的な追加によって維持される。MPEG-4 AAC規格では、SBRツールは、いくつかの隣り合う直交ミラー・フィルタ(QMF)サブバンドがオーディオ信号の伝送された低域部分から、デコーダにおいて生成されるオーディオ信号の高域部分にコピーされる、スペクトル・パッチング(spectral patching)を実行する。
MPEG規格ISO/IEC14496-3:2009
スペクトル・パッチングは、比較的低いクロスオーバー周波数をもつ音楽コンテンツのようなある種のオーディオ型については理想的ではないことがある。したがって、スペクトル帯域複製を改善するための技法が必要とされている。
第一のクラスの実施形態は、メモリと、ビットストリーム・ペイロード・フォーマット解除器と、デコード・サブシステムとを含むオーディオ処理ユニットに関する。メモリは、エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)の少なくとも一つのブロックを記憶するよう構成される。ビットストリーム・ペイロード・フォーマット解除器は、エンコードされたオーディオ・ブロックを多重分離するよう構成される。デコード・サブシステムは、エンコードされたオーディオ・ブロックのオーディオ・コンテンツをデコードするよう構成される。エンコードされたオーディオ・ブロックは、充填要素(fill element)を含む。充填要素は、該充填要素の先頭を示す識別子と、該識別子後の充填データとをもつ。充填データは、そのエンコードされたオーディオ・ブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む。
第二のクラスの実施形態は、エンコードされたオーディオ・ビットストリームをデコードするための方法に関する。本方法は、エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを受領し、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくともいくつかの部分を多重分離し、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくともいくつかの部分をデコードすることを含む。前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは、充填要素(fill element)を含む。充填要素は、該充填要素の先頭を示す識別子と、該識別子後の充填データとをもつ。充填データは、そのエンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む。
他のクラスの実施形態は、向上スペクトル帯域複製(eSBR: enhanced spectral band replication)処理が実行されるべきかどうかを同定するメタデータを含むオーディオ・ビットストリームをエンコードおよびトランスコードすることに関する。
請求項を含む本開示を通じて、信号またはデータ「に対して」動作を実行する(たとえば信号またはデータをフィルタリングする、スケーリングする、変換するまたは利得を適用する)という表現は、信号またはデータに対して直接的に、または信号またはデータの処理されたバージョンに対して(たとえば、予備的なフィルタリングまたは前処理を該動作の実行に先立って受けている前記信号のバージョンに対して)該動作を実行することを表わすために広義で使用される。
請求項を含む本開示を通じて、「オーディオ処理ユニット」という表現は、オーディオ・データを処理するよう構成されているシステム、デバイスまたは装置を表わす広義で使用される。オーディオ処理ユニットの例は、エンコーダ(たとえばトランスコーダ)、デコーダ、コーデック、前処理システム、後処理システムおよびビットストリーム処理システム(時にビットストリーム処理ツールと称される)を含むがそれに限られない。携帯電話、テレビジョン、ラップトップおよびタブレット・コンピュータといった事実上あらゆる消費者電子装置がオーディオ処理ユニットを含む。
請求項を含む本開示を通じて、「結合する」または「結合される」という用語は、直接的または間接的な接続を意味するために広義で使われる。よって、第一の装置が第二の装置に結合する場合、その接続は、直接接続を通じてであってもよいし、他の装置および接続を介した間接的な接続を通じてであってもよい。さらに、他のコンポーネントの中にまたは他のコンポーネントと一緒に統合されたコンポーネントも互いに結合される。
〈本発明の実施形態の詳細な説明〉
MPEG-4 AAC規格は、エンコードされたMPEG-4 AACビットストリームが、該ビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって適用されるべき(もし適用されるべきものがあるとして)SBR処理のそれぞれの型を示すおよび/またはそのようなSBR処理を制御するおよび/または該ビットストリームのオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールの少なくとも一つの特性またはパラメータを示すメタデータを含むことを考えている。ここで、MPEG-4 AAC規格で記述または言及されているこの型のメタデータを表わすために「SBRメタデータ」という表現を使う。
MPEG-4 AAC規格は、エンコードされたMPEG-4 AACビットストリームが、該ビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって適用されるべき(もし適用されるべきものがあるとして)SBR処理のそれぞれの型を示すおよび/またはそのようなSBR処理を制御するおよび/または該ビットストリームのオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールの少なくとも一つの特性またはパラメータを示すメタデータを含むことを考えている。ここで、MPEG-4 AAC規格で記述または言及されているこの型のメタデータを表わすために「SBRメタデータ」という表現を使う。
MPEG-4 AACビットストリームの最上レベルはデータ・ブロック(「raw_data_block」要素)のシーケンスであり、各データ・ブロックは、(典型的には1024または960サンプルの時間期間にわたる)オーディオ・データおよび関係した情報および/または他のデータを含む、データのセグメント(本稿では「ブロックと称される」)である。ここで、一つの(二つ以上ではない)「raw_data_block」要素を決定するまたは示すオーディオ・データ(および対応するメタデータおよび任意的には他の関係したデータ)を含むMPEG-4 AACビットストリームのセグメントを表わすために、用語「ブロック」を使う。
MPEG-4 AACビットストリームの各ブロックは、いくつかのシンタックス要素を含むことができる(そのそれぞれも、ビットストリームにおけるデータのセグメントとして具現される)。七つの型のそのようなシンタックス要素がMPEG-4 AAC規格において定義されている。各シンタックス要素はデータ要素「id_syn_ele」の異なる値によって識別される。シンタックス要素の例は「single_channel_element()」、「channel_pair_element()」および「fill_element()」を含む。単一チャネル要素(single channel element)は、単一のオーディオ・チャネルのオーディオ・データ(モノフォニック・オーディオ信号)を含むコンテナである。チャネル対要素(channel pair element)は二つのオーディオ・チャネルのオーディオ・データ(すなわち、ステレオ・オーディオ信号)を含む。
充填要素(fill element)は、識別子(たとえば上記の要素「id_syn_ele」の値)および「充填データ」(fill data)と称されるそれに続くデータを含む情報のコンテナである。充填要素は、歴史的には、一定レート・チャネルを通じて伝送されるべきビットストリームの瞬時ビットレートを調整するために使われてきた。各ブロックに適切な量の充填データを加えることによって、一定データ・レートが達成されうる。
本発明の諸実施形態によれば、充填データは、ビットストリームにおいて伝送されることのできるデータ(たとえばメタデータ)の型を拡張する一つまたは複数の拡張ペイロードを含みうる。新しい型のデータを含む充填データをもつビットストリームを受け取るデコーダは、任意的に、該ビットストリームを受け取る装置(たとえばデコーダ)によって、該装置の機能を拡張するために使用されてもよい。このように、当業者には理解できるように、充填要素は特殊な型のデータ構造であり、オーディオ・データ(たとえばチャネル・データを含むオーディオ・ペイロード)を伝送するために典型的に使われるデータ構造とは異なる。
本発明のいくつかの実施形態では、充填要素を識別するために使われる識別子は、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数(unsigned integer transmitted most significant bit first)(「uimsbf」)からなっていてもよい。一つのブロックにおいて、同じ型のシンタックス要素のいくつかのインスタンス(たとえばいくつかの充填要素)が生起してもよい。
オーディオ・ビットストリームをエンコードするためのもう一つの規格は、MPEG統合音声音響符号化(USAC: Unified Speech and Audio Coding)規格(ISO/IEC 23003-3:2012)である。MPEG USAC規格は、スペクトル帯域複製処理(MPEG-4 AAC規格に記述されるSBR処理を含み、他の向上された形のスペクトル帯域複製処理をも含む)を使ってオーディオ・コンテンツをエンコードおよびデコードすることを記述している。この処理は、MPEG-4 AAC規格において記述されているSBRツールの集合の、拡張され、向上されたバージョンのスペクトル帯域複製ツール(本稿では時に「向上SBRツール」または「eSBRツール」と称される)を適用する。このように、eSBR(USAC規格において定義されている)はSBR(MPEG-4 AAC規格において定義されている)に対する改良である。
本稿において、「向上SBR処理」(enhanced SBR processing)(または「eSBR処理」)という表現は、MPEG-4 AACにおいて記述または言及されていない少なくとも一つのeSBRツール(たとえば、MPEG USAC規格において記述または言及されている少なくとも一つのeSBRツール)を使うスペクトル帯域複製処理を表わすために使う。そのようなeSBRツールの例は高調波転換(harmonic transposition)、QMFパッチング追加的前処理もしくは「前置平坦化(pre-flattening)」およびサブバンド・サンプル間時間包絡整形(Temporal Envelope Shaping)または「インターTES」である。
MPEG USAC規格に従って生成されたビットストリーム(本稿では時にUSACビットストリームと称される)は、エンコードされたオーディオ・コンテンツを含み、典型的には、該USACビットストリームのオーディオ・コンテンツをデコードするためにデコーダによって適用されるべきスペクトル帯域複製処理のそれぞれの型を示すメタデータおよび/またはそのようなスペクトル帯域複製処理を制御するおよび/または該USACビットストリームのオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールおよび/またはeSBRツールの少なくとも一つの特性またはパラメータを示すメタデータを含む。
ここでは、「向上SBRメタデータ」(または「eSBRメタデータ」)という表現は、エンコードされたオーディオ・ビットストリーム(たとえばUSACビットストリーム)のオーディオ・コンテンツをデコードするためにデコーダによって適用されるべきスペクトル帯域複製処理のそれぞれの型を示すおよび/またはそのようなスペクトル帯域複製処理を制御するおよび/またはそのようなオーディオ・コンテンツをデコードするために用いられるべき少なくとも一つのSBRツールおよび/またはeSBRツールの少なくとも一つの特性またはパラメータを示すメタデータであって、MPEG-4 AAC規格において記述または言及されていないものを表わすために使う。eSBRメタデータの例は、MPEG USAC規格において記述または言及されているがMPEG-4 AAC規格では記述も言及もされていない(スペクトル帯域複製処理を示すまたは制御するための)メタデータである。このように、本稿でのeSBRメタデータは、SBRメタデータではないメタデータを表わし、本稿でのSBRメタデータはeSBRメタデータではないメタデータを表わす。
USACビットストリームは、SBRメタデータおよびeSBRメタデータ両方を含んでいてもよい。より具体的には、USACビットストリームは、デコーダによるeSBR処理の実行を制御するeSBRメタデータおよびデコーダによるSBR処理の実行を制御するSBRメタデータを含んでいてもよい。本発明の典型的な実施形態によれば、eSBRメタデータ(たとえばeSBR固有の構成設定データ)が(本発明に従って)(たとえばSBRペイロードの末尾のsbr_extension()コンテナにおいて)MPEG-4 AACビットストリームに含められる。
(少なくとも一つのeSBRツールを含む)eSBRツール集合を使ったエンコードされたビットストリームのデコードの間の、デコーダによるeSBR処理の実行は、エンコードの間に打ち切りされた高調波のシーケンスの複製に基づいてオーディオ信号の高周波数帯域を再生成する。そのようなeSBR処理は典型的には、もとのオーディオ信号のスペクトル特性を再現するために、生成された高周波数帯域のスペクトル包絡を調整し、逆フィルタリングを適用し、ノイズおよび正弦波成分を加える。
本発明の典型的な実施形態によれば、eSBRメタデータが(たとえばeSBRメタデータである少数の制御ビットが)、エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)のメタデータ・セグメントの一つまたは複数に含められる。エンコードされたオーディオ・ビットストリームは他のセグメント(オーディオ・データ・セグメント)において、エンコードされたオーディオ・データをも含む。典型的には、ビットストリームの各ブロックの少なくとも一つのそのようなメタデータ・セグメントが充填要素(該充填要素の先頭を示す識別子を含む)であり(または充填要素を含み)、eSBRメタデータは該識別子の後に該充填要素に含められる。
図1は、例示的なオーディオ処理チェーン(オーディオ・データ処理システム)のブロック図であり、該システムの要素の一つまたは複数が本発明の実施形態に従って構成されてもよい。本システムは、図のように一緒に結合された以下の要素を含む:エンコーダ1、送達サブシステム2、デコーダ3および後処理ユニット4。図示したシステムの変形においては、要素の一つまたは複数が省略され、あるいは追加的なオーディオ・データ処理ユニットが含められる。
いくつかの実装では、エンコーダ1(これは任意的には前処理ユニットを含む)は、入力としてオーディオ・コンテンツを含むPCM(時間領域)サンプルを受け入れ、該オーディオ・コンテンツを示すエンコードされたオーディオ・ビットストリーム(MPEG-4 AAC規格に準拠するフォーマットをもつ)を出力するよう構成されている。オーディオ・コンテンツを示すビットストリームのデータは本稿では時に「オーディオ・データ」または「エンコードされたオーディオ・データ」と称される。エンコーダが本発明の典型的な実施形態に従って構成される場合、エンコーダから出力されるオーディオ・ビットストリームは、オーディオ・データのほかにeSBRメタデータを(典型的には他のメタデータも)含む。
エンコーダ1から出力される一つまたは複数のエンコードされたオーディオ・ビットストリームは、エンコードされたオーディオ送達サブシステム2に呈されてもよい。サブシステム2は、エンコーダ1から出力されたそれぞれのエンコードされたビットストリームを記憶および/または送達するよう構成される。エンコーダ1から出力されたエンコードされたオーディオ・ビットストリームはサブシステム2によって(たとえばDVDまたはブルーレイディスクの形で)記憶されてもよく、あるいはサブシステム2(これは伝送リンクまたはネットワークを実装してもよい)によって伝送されてもよく、あるいはサブシステム2によって記憶されかつ伝送されてもよい。
デコーダ3は、サブシステム2を介して受け取る(エンコーダ1によって生成された)エンコードされたMPEG-4 AACオーディオ・ビットストリームをデコードするよう構成される。いくつかの実施形態では、デコーダ3は、ビットストリームの各ブロックからeSBRメタデータを抽出し、ビットストリームをデコードして(抽出されたeSBRメタデータを使ってeSBR処理を実行することによることを含む)、デコードされたオーディオ・データ(たとえば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するよう構成される。いくつかの実施形態では、デコーダ3は、ビットストリームからSBRメタデータを抽出し(だがビットストリームに含まれるeSBRメタデータは無視し)、ビットストリームをデコードして(抽出されたSBRメタデータを使ってSBR処理を実行することによることを含む)、デコードされたオーディオ・データ(たとえば、デコードされたPCMオーディオ・サンプルのストリーム)を生成するよう構成される。典型的には、デコーダ3は、サブシステム2から受領されたエンコードされたオーディオ・ビットストリームの諸セグメントを(たとえば非一時的な仕方で)記憶するバッファを含む。
図1の後処理ユニット4は、デコーダ3からのデコードされたオーディオ・データ(たとえばデコードされたPCMオーディオ・サンプル)のストリームを受け入れ、それに対して後処理を実行するよう構成される。後処理ユニットは、後処理されたオーディオ・コンテンツ(またはデコーダ3から受領されたデコードされたオーディオ)を一つまたは複数のスピーカーによる再生のためにレンダリングするよう構成されてもよい。
図2は、本発明のオーディオ処理ユニットのある実施形態であるエンコーダ(100)のブロック図である。エンコーダ100のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。エンコーダ100は、図のように接続された、エンコーダ105、詰め込み器(stuffer)/フォーマッタ段107、メタデータ生成段106およびバッファ・メモリ109を有する。典型的には、エンコーダ100は、他の処理要素(図示せず)をも含む。エンコーダ100は、入力オーディオ・ビットストリームを、エンコードされた出力MPEG-4 AACビットストリームに変換するよう構成される。
メタデータ生成器106は、エンコーダ100から出力されるべきエンコードされたビットストリームに段107によって含められるべきメタデータ(eSBRメタデータおよびSBRメタデータを含む)を生成する(および/または段107に素通しにする)よう結合され、構成される。
エンコーダ105は、入力オーディオ・データを(たとえばそれに対して圧縮を実行することにより)エンコードし、結果として得られるエンコードされたオーディオを、段107から出力されるべきエンコードされたビットストリームに含めるために、段107に呈するよう結合され、構成される。
段107は、エンコーダ105からのエンコードされたオーディオおよび生成器106からのメタデータ(eSBRメタデータおよびSBRメタデータを含む)を多重化して、段107から出力されるべきエンコードされたビットストリームを生成するよう構成される。好ましくは、エンコードされたビットストリームが本発明の実施形態の一つによって規定されるフォーマットをもつようにする。
バッファ・メモリ109は、段107から出力されたエンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するよう構成される。その後、エンコードされたオーディオ・ビットストリームのブロックのシーケンスがバッファ・メモリ109から、エンコーダ100からの出力として、送達システムに呈される。
図3は、本発明のオーディオ処理ユニットの実施形態であるデコーダ(200)を含み、任意的にはそれに結合された後処理器(300)をも含むシステムのブロック図である。デコーダ200のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。デコーダ200は、図のように接続された、バッファ・メモリ201、ビットストリーム・ペイロード・フォーマット解除器(パーサー)205、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称される)、eSBR処理段203および制御ビット生成段204を有する。典型的には、デコーダ200は、他の処理要素(図示せず)をも含む。
バッファ・メモリ(バッファ)201は、デコーダ200によって受領されるエンコードされたMPEG-4 AACオーディオ・ビットストリームの少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶する。デコーダ200の動作において、ビットストリームのブロックのシーケンスがバッファ201からフォーマット解除器205に呈される。
図3実施形態の変形(またはのちに述べる図4の実施形態)では、デコーダではないAPU(たとえば図6のAPU 500)が、図3または図4のバッファ201によって受領されるのと同じ型のエンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACオーディオ・ビットストリーム)(すなわち、eSBRメタデータを含むエンコードされたオーディオ・ビットストリーム)の少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するバッファ・メモリ(たとえばバッファ201と同一のバッファ・メモリ)を含む。
再び図3を参照するに、フォーマット解除器205は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)およびeSBRメタデータを(典型的には他のメタデータも)抽出し、少なくとも前記eSBRメタデータおよび前記SBRメタデータをeSBR処理段203に呈するとともに、典型的にはさらに他の抽出されたメタデータをデコード・サブシステム202に(任意的には制御ビット生成器204にも)呈するよう結合され、構成される。フォーマット解除器205は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
図3のシステムは任意的には、後処理器300をも含む。後処理器300はバッファ・メモリ(バッファ)301と、バッファ301に結合された少なくとも一つの処理要素を含む他の処理要素(図示せず)とを含む。バッファ301は、デコーダ200から後処理器300によって受領されたデコードされたオーディオ・データの少なくとも一つのブロック(またはフレーム)を(たとえば非一時的な仕方で)記憶する。後処理器300の処理要素は、バッファ301から出力されたデコードされたオーディオのブロック(またはフレーム)のシーケンスを受領し、デコード・サブシステム202(および/またはフォーマット解除器205)から出力されたメタデータおよび/またはデコーダ200の段204から出力された制御ビットを使って適応的に処理するよう結合され、構成される。
デコーダ200のオーディオ・デコード・サブシステム202は、パーサー205によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをeSBR処理段203に呈するよう構成される。デコードは周波数領域で実行され、典型的には逆量子化とそれに続くスペクトル処理(spectral processing)を含む。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段203は、(パーサー205によって抽出された)SBRメタデータおよびeSBRメタデータによって示されるSBRツールおよびeSBRツールを、デコードされたオーディオ・データに適用して(すなわち、SBRおよびeSBRメタデータを使ってデコード・サブシステム202の出力に対してSBRおよびeSBR処理を実行して)、デコーダ200から(たとえば後処理器300に)出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、デコーダ200は、フォーマット解除器205から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段203によってアクセス可能)を含み、段203はSBRおよびeSBR処理の間に必要に応じてオーディオ・データおよびメタデータ(SBRメタデータおよびeSBRメタデータを含む)にアクセスするよう構成される。段203におけるSBR処理およびeSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、デコーダ200は、最終的なアップミックス・サブシステム(これは、フォーマット解除器205によって抽出されたPSメタデータおよび/またはサブシステム204において生成された制御ビットを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段203の出力に対してアップミックスを実行して、デコーダ200から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。あるいはまた、後処理器300が(たとえばフォーマット解除器205によって抽出されたPSメタデータおよび/またはサブシステム204において生成された制御ビットを使って)デコーダ200の出力に対してアップミックスを実行するよう構成される。
フォーマット解除器205によって抽出されたメタデータに応答して、制御ビット生成器204は制御データを生成してもよい。制御データは、デコーダ200内で(たとえば最終的なアップミックス・サブシステムにおいて)使われてもよく、および/またはデコーダ200の出力として(たとえば後処理で使うために後処理器300に)呈されてもよい。入力ビットストリームから抽出されたメタデータに応答して(任意的には制御データにも応答して)、段204は、eSBR処理段203から出力されたデコードされたオーディオ・データが特定の型の後処理を受けるべきであることを示す制御ビットを生成し(後処理器300に呈し)てもよい。いくつかの実装では、デコーダ200は、入力ビットストリームからフォーマット解除器205によって抽出されたメタデータを後処理器300に呈するよう構成され、後処理器300は、デコーダ200から出力されたデコードされたオーディオ・データに対して、前記メタデータを使って後処理を実行するよう構成される。
図4は、本発明のオーディオ処理ユニットのもう一つの実施形態であるオーディオ処理ユニット(「APU」)(210)のブロック図である。APU 210は、eSBR処理を実行するよう構成されていないレガシー・デコーダである。APU 210のコンポーネントまたは要素のいずれも、一つまたは複数のプロセスおよび/または一つまたは複数の回路(たとえばASIC、FPGAまたは他の集積回路)として、ハードウェア、ソフトウェアまたはハードウェアとソフトウェアの組み合わせにおいて、実装されてもよい。APU 210は、図のように接続された、バッファ・メモリ201、ビットストリーム・ペイロード・フォーマット解除器(パーサー)215、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称される)およびSBR処理段213を有する。典型的には、APU 210は、他の処理要素(図示せず)をも含む。
APU 210の要素201および202は、(図3の)デコーダ200の同じ番号を付された要素と同一であり、それらについての上記の記述は繰り返さない。APU 210の動作においては、APU 210によって受領されるエンコードされたオーディオ・ビットストリーム(MPEG-4 AACビットストリーム)のブロックのシーケンスはバッファ201からフォーマット解除器215に呈される。
フォーマット解除器215は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)を、典型的には他のメタデータも抽出するが、本発明の任意の実施形態によりビットストリームに含まれることがありうるeSBRは無視するよう結合され、構成される。フォーマット解除器215は、少なくとも前記SBRメタデータをSBR処理段213に呈するよう構成される。フォーマット解除器215は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
デコーダ200のオーディオ・デコード・サブシステム202は、フォーマット解除器215によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをSBR処理段213に呈するよう構成される。デコードは周波数領域で実行される。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段213は、(フォーマット解除器215によって抽出された)SBRメタデータによって示されるSBRツールをデコードされたオーディオ・データに適用して(だがeSBRツールは適用しない)(すなわち、SBRメタデータを使ってデコード・サブシステム202の出力に対してSBR処理を実行して)、APU 210から(たとえば後処理器300に)出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、APU 210は、フォーマット解除器215から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段213によってアクセス可能)を含み、段213はSBR処理の間に必要に応じてオーディオ・データおよびメタデータ(SBRメタデータを含む)にアクセスするよう構成される。段213におけるSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、APU 210は、最終的なアップミックス・サブシステム(これは、フォーマット解除器215によって抽出されたPSメタデータを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段213の出力に対してアップミックスを実行して、APU 210から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。あるいはまた、後処理器が(たとえばフォーマット解除器215によって抽出されたPSメタデータおよび/またはAPU 210において生成された制御ビットを使って)APU 210の出力に対してアップミックスを実行するよう構成される。
エンコーダ100、デコーダ200およびAPU 210のさまざまな実装が、本発明の方法の異なる実施形態を実行するよう構成される。
いくつかの実施形態によれば、(eSBRメタデータをパースしたりeSBRメタデータが関係する何らかのeSBRツールを使ったりするよう構成されていない)レガシー・デコーダがeSBRメタデータを無視するが、それでもビットストリームをeSBRメタデータやeSBRメタデータが関係する何らかのeSBRツールを使うことなく、典型的にはデコードされたオーディオ品質におけるいかなる有意なペナルティもなしに可能な限りデコードできるように、eSBRメタデータが(たとえば、eSBRメタデータである少数の制御ビットが)エンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)に含められる。しかしながら、ビットストリームをパースしてeSBRメタデータを識別し、該eSBRメタデータに応答して少なくとも一つのeSBRツールを使うよう構成されたeSBRデコーダは、少なくとも一つのそのようなeSBRツールを使うことの恩恵を享受する。したがって、本発明の実施形態は、向上されたスペクトル帯域複製(eSBR)制御データまたはメタデータを、後方互換な仕方で効率的に伝送する手段を提供する。
典型的には、ビットストリーム中のeSBRメタデータは、(MPEG USAC規格において記述されており、ビットストリームの生成の際にエンコーダによって適用されていてもいなくてもよい)次のeSBRツールのうちの一つまたは複数を示す(たとえば、次のeSBRツールのうちの一つまたは複数の、少なくとも一つの特性またはパラメータを示す):
・高調波転換;
・QMFパッチング追加的前処理(前置平坦化(pre-flattening));および
・サブバンド・サンプル間時間包絡整形(Temporal Envelope Shaping)または「インターTES」。
たとえば、ビットストリームに含まれるeSBRメタデータは、(MPEG USAC規格および本開示において記述される)パラメータ:harmonicSBR[ch]、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、bs_interTes、bs_temp_shape[ch][env]、bs_inter_temp_shape_mode[ch][env]およびbs_sbr_preprocessingの値を示してもよい。
・高調波転換;
・QMFパッチング追加的前処理(前置平坦化(pre-flattening));および
・サブバンド・サンプル間時間包絡整形(Temporal Envelope Shaping)または「インターTES」。
たとえば、ビットストリームに含まれるeSBRメタデータは、(MPEG USAC規格および本開示において記述される)パラメータ:harmonicSBR[ch]、sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、bs_interTes、bs_temp_shape[ch][env]、bs_inter_temp_shape_mode[ch][env]およびbs_sbr_preprocessingの値を示してもよい。
ここで、Xが何らかのパラメータであるとして記法X[ch]は、そのパラメータがデコードされるべきエンコードされたビットストリームのオーディオ・コンテンツのあるチャネル(「ch」)に関することを表わす。簡単のため、時に表現[ch]を略し、関連するパラメータがオーディオ・コンテンツのあるチャネルに関することを前提とする。
ここで、Xが何らかのパラメータであるとして記法X[ch][env]は、そのパラメータがデコードされるべきエンコードされたビットストリームのオーディオ・コンテンツのあるチャネル(「ch」)のSBR包絡(「env」)に関することを表わす。簡単のため、時に表現[env]および[ch]を略し、関連するパラメータがオーディオ・コンテンツのあるチャネルのSBR包絡に関することを前提とする。
前記したように、MPEG USACは、USACビットストリームが、デコーダによるeSBR処理の実行を制御するeSBRメタデータを含むことを考えている。eSBRメタデータは、以下の一ビットのメタデータ・パラメータを含む:harmonicSBR;bs_interTES;およびbs_pvc。
パラメータharmonicSBRは、SBRについての高調波パッチング(harmonic patching)(高調波転換(harmonic transposition))の使用を示す。具体的には、harmonicSBR=0は、MPEG-4 AAC規格の4.6.18.6.3節に記載される非高調波(non-harmonic)スペクトル・パッチングを示し;harmonicSBR=1は、(MPEG USAC規格の7.5.3または7.5.4節に記載される、eSBRにおいて使われる型の)高調波SBRパッチングを示す。高調波SBRパッチングは、非eSBRスペクトル帯域複製(すなわち、eSBRでないSBR)によれば使われない。本開示を通じて、スペクトル帯域複製の基本形としてはスペクトル・パッチング(spectral patching)といい、スペクトル帯域複製の向上された形としては高調波転換(harmonic transposition)という。
パラメータbs_interTESの値は、eSBRのインターTESツールの使用を示す。
パラメータbs_pvcの値は、eSBRのPVCツールの使用を示す。
エンコードされたビットストリームのデコードの間、(ビットストリームによって示されるオーディオ・コンテンツの各チャネル「ch」についての)デコードのeSBR処理段の間の高調波転換の実行が、以下のeSBRメタデータ・パラメータによって制御される:sbrPatchingMode[ch];sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch]およびsbrPitchInBins[ch]。
sbrPatchingMode[ch]の値は、eSBRにおいて使われる転換器(transposer)の型を示す。sbrPatchingMode[ch]=1はMPEG-4 AAC規格の4.6.18.6.3節に記載される非高調波パッチングを示し;sbrPatchingMode[ch]=0は、MPEG USAC規格の7.5.3または7.5.4節に記載される高調波SBRパッチングを示す。
sbrOversamplingFlag[ch]の値は、MPEG USAC規格の7.5.3節に記載されるDFTベースの高調波SBRパッチングと組み合わせたeSBRにおける信号適応的な周波数領域オーバーサンプリングの使用を示す。このフラグは転換器において利用されるDFTのサイズを制御する。1はMPEG USAC規格の7.5.3.1節に記載されるように有効にされた信号適応的な周波数領域オーバーサンプリングを示し;0はMPEG USAC規格の7.5.3.1節に記載されるように無効にされた信号適応的な周波数領域オーバーサンプリングを示す。
sbrPitchInBinsFlag[ch]の値は、sbrPitchInBins[ch]パラメータの解釈を制御する。1はsbrPitchInBins[ch]における値が有効であり、0より大きいことを示し;0はsbrPitchInBins[ch]の値が0に設定されていることを示す。
sbrPitchInBins[ch]の値は、SBR高調波転換器におけるクロス積の項の付加(addition)を制御する。値sbrPitchInBins[ch]は[0,127]の範囲内の整数値であり、コア符号化器のサンプリング周波数に対して作用する1536ラインのDFTについての周波数ビンにおいて測られる距離を表わす。
MPEG-4 AACビットストリームが、(単一のSBRチャネルではなく)チャネルどうしが結合されていないSBRチャネル対を示す場合、該ビットストリームは(高調波または非高調波転換について)上記のシンタックスの二つのインスタンスを示す。sbr_channel_pair_element()の各チャネルについて一つのインスタンスである。
eSBRツールの高調波転換は典型的には、比較的低いクロスオーバー周波数におけるデコードされた音楽信号の品質を改善する。非高調波転換(すなわち、レガシーのスペクトル・パッチング)は典型的には発話信号を改善する。よって、特定のオーディオ・コンテンツをエンコードするためにどの型の転換が好ましいかについての判断における出発点は、発話/音楽検出に依存して転換方法を選択することである。ここで、音楽コンテンツに対しては高調波転換が用いられ、発話コンテンツに対してはスペクトル・パッチングが用いられる。
eSBR処理の間の前置平坦化の実行は、bs_sbr_preprocessingとして知られる一ビットのeSBRメタデータ・パラメータの値によって制御される。それは、前置平坦化がこの単一のビットの値に依存して実行されるか、実行されないという意味においてである。MPEG-4 AAC規格の4.6.18.6.3節に記載されるSBR QMFパッチング・アルゴリズムが使われるとき、高周波数信号のスペクトル包絡の形における不連続がその後の包絡調整器(該包絡調整器は前記eSBR処理の別の段階を実行する)に入力されるのを避けようとして、前置平坦化の段階が実行されてもよい(bs_sbr_preprocessingパラメータによって示されるとき)。前置平坦化は典型的には、その後の包絡調整段の動作を改善し、結果として、知覚される高域信号がより安定することになる。
デコーダにおけるeSBR処理の間のサブバンド・サンプル間時間包絡整形(inter-subband sample Temporal Envelope Shaping)(「インターTES」ツール)の実行は、デコードされているUSACビットストリームのオーディオ・コンテンツの各チャネル(「ch」)の各SBR包絡(「env」)についての以下のeSBRメタデータ・パラメータによって制御される:bs_temp_shape[ch][env]およびbs_inter_temp_shape_mode[ch][env]。
インターTESツールは、包絡調整器の後にQMFサブバンド・サンプルを処理する。この処理段階は、包絡調整器の時間的粒度より細かい時間的粒度をもって、より高い周波数帯域の時間的包絡を整形する。SBR包絡における各QMFサブバンド・サンプルに利得因子を適用することによって、インターTESは、諸QMFサブバンド・サンプルの間で時間的包絡を整形する。
パラメータbs_temp_shape[ch][env]は、インターTESの使用を合図するフラグである。パラメータbs_inter_temp_shape_mode[ch][env]は、インターTESにおけるパラメータγの値を(MPEG USAC規格において定義されているように)示す。
MPEG-4 AACビットストリームに上述したeSBRツール(高調波転換、前置平坦化およびインターTES)を示すeSBRメタデータを含めるための全体的なビットレート要求は、毎秒数百ビットのオーダーであると期待される。本発明のいくつかの実施形態によれば、eSBR処理を実行するために必要とされる差分の制御データが伝送されるだけだからである。この情報は(のちに説明するように)後方互換な仕方で含められるので、レガシー・デコーダはこの情報を無視できる。したがって、eSBRメタデータを含めることに関連するビットレートに対する悪影響は、次のことを含むいくつかの理由により、無視できる:
・(eSBRメタデータを含めることに起因する)ビットレート・ペナルティーは、eSBR処理を実行するために必要とされる差分の制御データだけが伝送される(SBR制御データのサイマルキャストではない)ので、全ビットレートの非常に小さな割合であること;
・SBRに関係した制御情報のチューニングは典型的には転換の詳細には依存しないこと;および
・(eSBR処理の間に用いられる)インターTESツールは、転換された信号のシングルエンドの後処理を実行すること。
・(eSBRメタデータを含めることに起因する)ビットレート・ペナルティーは、eSBR処理を実行するために必要とされる差分の制御データだけが伝送される(SBR制御データのサイマルキャストではない)ので、全ビットレートの非常に小さな割合であること;
・SBRに関係した制御情報のチューニングは典型的には転換の詳細には依存しないこと;および
・(eSBR処理の間に用いられる)インターTESツールは、転換された信号のシングルエンドの後処理を実行すること。
このように、本発明の諸実施形態は、向上されたスペクトル帯域複製(eSBR)制御データまたはメタデータを後方互換な仕方で効率的に伝送する手段を提供する。eSBR制御データのこの効率的な伝送は、ビットレートに対して明確な悪影響なしに、本発明の諸側面を用いるデコーダ、エンコーダおよびトランスコーダにおけるメモリ要求を軽減する。さらに、本発明の実施形態に従ってeSBRを実行することに関連する複雑さおよび処理要求も軽減される。SBRデータが処理される必要があるのは一度だけであり、eSBRが後方互換な仕方でMPEG-4 AACコーデックに統合されるのではなくMPEG-4 AACにおける完全に別個のオブジェクト型として扱われるとしたらそうであるようにサイマルキャストされる必要がないからである。
次に、図7を参照して、本発明のいくつかの実施形態に従ってeSBRメタデータが含められるMPEG-4 AACビットストリームのブロック(raw_data_block)の要素を記述する。図7は、MPEG-4 AACビットストリームのブロック(raw_data_block)の図であり、そのセグメントのいくつかを示している。
MPEG-4 AACビットストリームのブロックは、オーディオ・プログラムについてのオーディオ・データを含む、少なくとも一つのsingle_channel_element()(たとえば図7に示される単一チャネル要素)および/または少なくとも一つのchannel_pair_element()(図7には特定的に示していないが、存在しうる)を含んでいてもよい。ブロックは、プログラムに関係したデータ(たとえばメタデータ)を含むいくつかのfill_element(たとえば図7の充填要素1および/または充填要素2)をも含んでいてもよい。各single_channel_element()は、単一チャネル要素の先頭を示す識別子(たとえば図7の「ID1」)を含み、マルチチャネル・オーディオ・プログラムの異なるチャネルを示すオーディオ・データを含むことができる。各channel_pair_elementはチャネル対要素の先頭を示す識別子(図7には示さず)を含み、プログラムの二つのチャネルを示すオーディオ・データを含むことができる。
MPEG-4 AACビットストリームのfill_element(本稿では充填要素と称される)は、充填要素の先頭を示す識別子(たとえば図7の「ID2」)を含み、識別子の後に充填データを含む。識別子ID2は、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数(「uimsbf」)からなっていてもよい。充填データは、extension_payload()要素(本稿では時に拡張ペイロードと称される)を含むことができる。そのシンタックスはMPEG-4 AAC規格の表4.57に示されている。拡張ペイロードのいくつかの型が存在し、extension_typeパラメータを通じて識別される。このパラメータは、四ビットの、最上位ビットが最初に伝送される符号なし整数(「uimsbf」)である。
充填データ(たとえばその拡張ペイロード)は、SBRオブジェクトを示す充填データのセグメントを示すヘッダまたは識別子(たとえば図7の「ヘッダ1」)を含むことができる(すなわち、ヘッダが、MPEG-4 AAC規格においてsbr_extension_data()と称される「SBRオブジェクト」型を初期化する)。たとえば、スペクトル帯域複製(SBR)拡張ペイロードは、ヘッダにおけるextension_typeフィールドについての値「1101」または「1110」をもって識別され、識別子「1101」はSBRデータを用いた拡張ペイロードを同定し、「1110」はSBRデータの正しさを検証するための巡回冗長検査(CRC)をもつSBRデータを用いた拡張ペイロードを同定する。
ヘッダが(たとえばextension_typeフィールドが)SBRオブジェクト型を初期化するとき、ヘッダにはSBRメタデータ(本稿では時に「スペクトル帯域複製データ」と称され、MPEG-4 AAC規格ではsbr_data()と称される)が後続し、該SBRメタデータには少なくとも一つのスペクトル帯域複製拡張要素(たとえば、図7の充填要素1の「SBR拡張要素」)が後続することができる。そのようなスペクトル帯域複製拡張要素(ビットストリームのセグメント)は、MPEG-4 AAC規格ではsbr_extension()コンテナと称される。スペクトル帯域複製拡張要素は任意的に、ヘッダ(たとえば、図7の充填要素1の「SBR拡張ヘッダ」)を含む。
MPEG-4 AAC規格は、スペクトル帯域複製拡張要素がプログラムのオーディオ・データのためのPS(パラメトリック・ステレオ)データを含むことができることを考えている。MPEG-4 AAC規格は、充填要素の(たとえばその拡張ペイロードの)ヘッダが(図7の「ヘッダ1」のように)SBRオブジェクト型を初期化し、充填要素のスペクトル帯域複製拡張要素がPSデータを含むとき、充填要素(たとえばその拡張ペイロード)がスペクトル帯域複製データbs_extension_idパラメータを含むことを考えている。このパラメータの値(すなわちbs_extension_id=2)はPSデータが充填要素のスペクトル帯域複製拡張要素に含まれることを示す。
本発明のいくつかの実施形態によれば、eSBRメタデータ(たとえば向上スペクトル帯域複製(eSBR)処理がそのブロックのオーディオ・コンテンツに対して実行されるかどうかを示すフラグ)が充填要素のスペクトル帯域複製拡張要素に含められる。たとえば、そのようなフラグは図7の充填要素1に含められ、フラグは充填要素1の「SBR拡張要素」のヘッダ(充填要素1の「SBR拡張ヘッダ」)の後に現われる。任意的に、そのようなフラグおよび追加的なeSBRメタデータがスペクトル帯域複製拡張要素において、スペクトル帯域複製拡張要素のヘッダの後に(たとえば図7における充填要素1のSBR拡張要素において、SBR拡張ヘッダ後に)含められる。本発明のいくつかの実施形態によれば、eSBRメタデータを含む充填要素はbs_extension_idパラメータをも含む。そのパラメータの値(たとえばbs_extension_id=3)は、充填要素にeSBRメタデータが含まれ、当該ブロックのオーディオ・コンテンツに対してeSBR処理が実行されるべきであることを示す。
本発明のいくつかの実施形態によれば、eSBRメタデータは、充填要素のスペクトル帯域複製拡張要素(SBR拡張要素)以外のMPEG-4 AACビットストリームの充填要素(たとえば図7の充填要素2)に含められる。これは、SBRデータまたはCRCをもつSBRデータをもつextension_payload()を含む充填要素は、他のいかなる拡張型の他のいかなる拡張ペイロードをも含まないからである。したがって、eSBRメタデータが自分自身の拡張ペイロードに記憶される実施形態では、eSBRメタデータを記憶するために別個の充填要素が使われる。そのような充填要素は、充填要素の先頭を示す識別子(たとえば図7の「ID2」)を含み、該識別子の後に充填データを含む。充填データは、extension_payload()要素(本稿では時に拡張ペイロードと称される)を含むことができる。そのシンタックスはMPEG-4 AAC規格の表4.57に示されている。充填データ(たとえばその拡張ペイロード)は、eSBRオブジェクトを示すヘッダ(たとえば図7の充填要素2の「ヘッダ2」)を含むことができ(すなわち、ヘッダが、向上スペクトル帯域複製(eSBR)オブジェクト型を初期化する)、充填データ(たとえばその拡張ペイロード)は、前記ヘッダ後にeSBRメタデータを含む。たとえば、図7の充填要素2はそのようなヘッダ(「ヘッダ2」)を含み、該ヘッダ後に、eSBRメタデータ(すなわち、向上スペクトル帯域複製(eSBR)処理がそのブロックのオーディオ・コンテンツに対して実行されるかどうかを示す、充填要素2内の「フラグ」)をも含んでいる。任意的には、ヘッダ2後に、図7の充填要素2の充填データに追加的なeSBRメタデータも含められる。本段落で述べている実施形態では、ヘッダ(たとえば図7のヘッダ2)は、MPEG-4 AAC規格の表4.57において指定されている通常の値のうちの一つではなく、eSBR拡張ペイロードを示す識別情報値をもつ(よって、ヘッダのextension_typeフィールドが充填データがeSBRメタデータを含むことを示す)。
第一のクラスの実施形態では、本発明は、オーディオ処理ユニット(たとえばデコーダ)であって:
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロック(たとえばMPEG-4 AACビットストリームの少なくとも一つのブロック)を記憶するよう構成されたメモリ(たとえば図3または図4のバッファ201)と;
前記メモリに結合され、前記ビットストリームの前記ブロックの少なくとも一部を多重分離するよう構成されているビットストリーム・ペイロード・フォーマット解除器(たとえば、図3の要素205または図4の要素215)と;
前記ビットストリームの前記ブロックのオーディオ・コンテンツの少なくとも一つの部分をデコードするよう結合され、構成されたデコード・サブシステム(たとえば図3の要素202および203または図4の要素202および213)とを有し、前記ブロックは、
充填要素を含み、該充填要素の先頭を示す識別子(たとえば、MPEG-4 AAC規格の表4.85の値0x6をもつid_syn_ele識別子)と、該識別子後の充填データとを含み、前記充填データは:
前記ブロックのオーディオ・コンテンツに対して(たとえば前記ブロックに含まれるスペクトル帯域複製データおよびeSBRメタデータを使って)向上スペクトル帯域複製(eSBR)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニットである。
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロック(たとえばMPEG-4 AACビットストリームの少なくとも一つのブロック)を記憶するよう構成されたメモリ(たとえば図3または図4のバッファ201)と;
前記メモリに結合され、前記ビットストリームの前記ブロックの少なくとも一部を多重分離するよう構成されているビットストリーム・ペイロード・フォーマット解除器(たとえば、図3の要素205または図4の要素215)と;
前記ビットストリームの前記ブロックのオーディオ・コンテンツの少なくとも一つの部分をデコードするよう結合され、構成されたデコード・サブシステム(たとえば図3の要素202および203または図4の要素202および213)とを有し、前記ブロックは、
充填要素を含み、該充填要素の先頭を示す識別子(たとえば、MPEG-4 AAC規格の表4.85の値0x6をもつid_syn_ele識別子)と、該識別子後の充填データとを含み、前記充填データは:
前記ブロックのオーディオ・コンテンツに対して(たとえば前記ブロックに含まれるスペクトル帯域複製データおよびeSBRメタデータを使って)向上スペクトル帯域複製(eSBR)処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニットである。
前記フラグは、eSBRメタデータであり、前記フラグの例はsbrPatchingModeフラグである。前記フラグのもう一つの例はharmonicSBRフラグである。これらのフラグはいずれも、基本形のスペクトル帯域複製または向上した形のスペクトル複製のどちらが前記ブロックのオーディオ・データに対して実行されるべきかを示す。基本形のスペクトル複製はスペクトル・パッチングであり、向上した形のスペクトル帯域複製は高調波転換である。
いくつかの実施形態では、前記充填データは追加的なeSBRメタデータ(すなわち、前記フラグ以外のeSBRメタデータ)をも含む。
前記メモリは、エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックを(たとえば非一時的な仕方で)記憶するバッファ・メモリ(たとえば、図4のバッファ201の実装)であってもよい。
eSBRメタデータを含むMPEG-4 AACビットストリームのデコードの間のeSBRデコーダによる(eSBR高調波転換、前置平坦化およびインターTESツールを使う)eSBR処理(前記eSBRメタデータがこれらのeSBRツールを示す)の実行の複雑さは、(示されるパラメータを用いた典型的なデコードについて)以下のようになると推定される:
●高調波転換(16kbps、14400/28800Hz)
○DFTベース:3.68WMOPS(weighted million operations per second[加重百万演算毎秒]);
○WMFベース:0.98WMOPS;
●QMFパッチング前処理(前置平坦化):0.1WMOPS;
●サブバンド・サンプル間時間的包絡整形(インターTES):高々0.16WMOPS
過渡成分については、DFTベースの転換が典型的にはQMFベースの転換よりよい性能を発揮することがわかっている。
●高調波転換(16kbps、14400/28800Hz)
○DFTベース:3.68WMOPS(weighted million operations per second[加重百万演算毎秒]);
○WMFベース:0.98WMOPS;
●QMFパッチング前処理(前置平坦化):0.1WMOPS;
●サブバンド・サンプル間時間的包絡整形(インターTES):高々0.16WMOPS
過渡成分については、DFTベースの転換が典型的にはQMFベースの転換よりよい性能を発揮することがわかっている。
本発明のいくつかの実施形態によれば、eSBRメタデータを含む(エンコードされたオーディオ・ビットストリームの)充填要素は、eSBRメタデータが充填要素に含まれることおよび当該ブロックのオーディオ・コンテンツに対してeSBR処理が実行されるべきであることを合図する値(たとえばbs_extension_id=3)をもつパラメータ(たとえばbs_extension_idパラメータ)および/または充填要素のsbr_extension()コンテナがPSデータを含むことを合図する値(たとえばbs_extension_id=2)をもつパラメータ(たとえば同じbs_extension_idパラメータ)をも含む。たとえば、下記の表1に示されるように、値bs_extension_id=2をもつそのようなパラメータは、充填要素のsbr_extension()コンテナがPSデータを含むことを合図してもよく、値bs_extension_id=3をもつそのようなパラメータは、充填要素のsbr_extension()コンテナがeSBRメタデータを含むことを合図してもよい。
1.上記の一ビットのメタデータ・パラメータharmonicSBR;bs_interTES;およびbs_sbr_preprocessing;
2.デコードされるべきエンコードされたビットストリームのオーディオ・コンテンツの各チャネル(「ch」)について、上記のパラメータ:sbrPatchingMode[ch];sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch];およびsbrPitchInBins[ch]のそれぞれ;および
3.デコードされるべきエンコードされたビットストリームのオーディオ・コンテンツの各チャネル(「ch」)の各SBR包絡(「env」)について、上記のパラメータ:bs_temp_shape[ch][env];およびbs_inter_temp_shape_mode[ch][env]のそれぞれ。
たとえば、いくつかの実施形態では、esbr_data()は、これらのメタデータ・パラメータを示すために、表3に示されるシンタックスを有していてもよい。
たとえば、MPEG-4 HE-AACまたはHE-AAC-v2準拠デコーダは、高調波転換のような向上した形のスペクトル帯域複製を含むよう拡張されてもよい。この向上した形のスペクトル帯域複製は、デコーダによってすでにサポートされている基本形のスペクトル帯域複製に加えてのものである。MPEG-4 HE-AACまたはHE-AAC-v2準拠デコーダのコンテキストでは、この基本形のスペクトル帯域複製は、MPEG-4 AAC規格の4.6.18節において定義されているQMFスペクトル・パッチングSBRツールである。
向上した形のスペクトル帯域複製を実行するとき、拡張されたHE-AACデコーダは、ビットストリームのSBR拡張ペイロードにすでに含まれているビットストリーム・パラメータの多くを再利用しうる。再利用されうる具体的なパラメータは、たとえば、マスター周波数帯域テーブルを決定するさまざまなパラメータを含む。これらのパラメータは、bs_start_freq(マスター周波数テーブル・パラメータの先頭を決定するパラメータ)、bs_stop_freq(マスター周波数テーブルの終わりを決定するパラメータ)、bs_freq_scale(オクターブ当たりの周波数帯域の数を決定するパラメータ)およびbs_alter_scale(周波数帯域のスケールを変更するパラメータ)を含む。再利用されうるパラメータは、ノイズ帯域テーブルを決定するパラメータ(bs_noise_bands)およびリミッター帯域テーブル・パラメータ(bs_limiter_bands)をも含む。よって、さまざまな実施形態において、USAC規格において指定されている等価なパラメータの少なくともいくつかがビットストリームから省略され、それによりビットストリームにおける制御オーバーヘッドを軽減する。典型的には、AAC規格において指定されているパラメータがUSAC規格において指定されている等価なパラメータをもつ場合には、USAC規格において指定されている等価なパラメータはAAC規格において指定されているパラメータと同じ名前をもつ。たとえば、包絡スケール因子(envelope scalefactor)EOrigMapped。しかしながら、USAC規格において指定されている等価なパラメータは典型的には、AAC規格において定義されているSBR処理のためではなくUSAC規格において定義されている向上SBR処理のために「チューニングされた」異なる値をもつ。
前記の数多くのパラメータに加えて、他のデータ要素も、本発明の実施形態に従って向上した形のスペクトル帯域複製を実行するときに、拡張されたHE-AACデコーダによって再利用されてもよい。たとえば、包絡データおよびノイズ・フロア・データは、bs_data_envおよびbs_noise_envデータから抽出されて、向上した形のスペクトル帯域複製の間に使われてもよい。
本質的には、これらの実施形態は、SBR拡張ペイロードにおいてレガシーのHE-AACまたはHE-AAC v2デコーダによってすでにサポートされている構成設定パラメータおよび包絡データを、できるだけ追加的な伝送データを必要とせずに向上した形のスペクトル帯域複製を可能にするために、活用する。よって、向上した形のスペクトル帯域複製をサポートする拡張されたデコーダは、すでに定義されたビットストリーム要素(たとえばSBR拡張ペイロード内のもの)に頼り、向上した形のスペクトル帯域複製をサポートするために必要とされるパラメータのみを(充填要素拡張ペイロード内に)追加することによって、非常に効率的な仕方で生成されうる。このデータ削減特徴は、新たに追加されたパラメータを拡張コンテナのようなリザーブされたデータ・フィールドに配置することと組み合わさって、ビットストリームが向上した形のスペクトル帯域複製をサポートしないレガシー・デコーダと後方互換であることを保証することによって、向上した形のスペクトル帯域複製をサポートするデコーダを作り出すことへの障壁を実質的に軽減する。
表3では、中央の列における数字は左の列における対応するパラメータのビット数を示す。
いくつかの実施形態では、本発明は、エンコードされたビットストリーム(たとえばMPEG-4 AACビットストリーム)を生成するためにオーディオ・データをエンコードする段階を含む方法である。該生成は、eSBRメタデータをエンコードされたビットストリームの少なくとも一つのブロックの少なくとも一つのセグメントに含め、オーディオ・データを前記ブロックの少なくとも一つの他のセグメントに含めることによることを含む。典型的な実施形態では、本方法は、エンコードされたビットストリームの各ブロックにおいてオーディオ・データをeSBRメタデータと多重化する段階を含む。eSBRデコーダにおける前記エンコードされたビットストリームの典型的なデコードでは、デコーダはeSBRメタデータをビットストリームから抽出し(これはeSBRメタデータおよびオーディオ・データをパースして多重分離することによることを含む)、eSBRメタデータを、オーディオ・データを処理してデコードされたオーディオ・データのストリームを生成するために使う。
本発明のもう一つの側面は、eSBRメタデータを含まないエンコードされたオーディオ・ビットストリーム(たとえばMPEG-4 AACビットストリーム)のデコードの間に、(たとえば高調波転換、前置平坦化またはインターTESとして知られるeSBRツールの少なくとも一つを使って)eSBR処理を実行するよう構成されたeSBRデコーダである。そのようなデコーダの例について、図5を参照して述べる。
図5のeSBRデコーダ(400)は、図のように接続された、バッファ・メモリ201(これは図3および図4のメモリ201と同一)と、ビットストリーム・ペイロード・フォーマット解除器215(これは図4のフォーマット解除器215と同一)と、オーディオ・デコード・サブシステム202(時に「コア」デコード段または「コア」デコード・サブシステムと称され、図3のコア・デコード・サブシステム202と同一)と、eSBR制御データ生成サブシステム401と、eSBR処理段203(これは図3の段203と同一)とを含む。典型的には、デコーダ400は他の処理要素(図示せず)も含む。
デコーダ400の動作においては、デコーダ400によって受領されたエンコードされたオーディオ・ビットストリーム(MPEG-4 AACビットストリーム)のブロックのシーケンスがバッファ201からフォーマット解除器215に呈される。
フォーマット解除器215は、ビットストリームの各ブロックを多重分離して、それからSBRメタデータ(量子化された包絡データを含む)を、典型的には他のメタデータも抽出するよう結合され、構成される。フォーマット解除器215は、少なくとも前記SBRメタデータをeSBR処理段203に呈するよう構成される。フォーマット解除器215は、ビットストリームの各ブロックからオーディオ・データを抽出し、抽出されたオーディオ・データをデコード・サブシステム(デコード段)202に呈するようにも結合され、構成される。
デコーダ400のオーディオ・デコード・サブシステム202は、フォーマット解除器215によって抽出されたオーディオ・データをデコードして(そのようなデコードは「コア」デコード動作と称されてもよい)、デコードされたオーディオ・データを生成し、デコードされたオーディオ・データをeSBR処理段203に呈するよう構成される。デコードは周波数領域で実行される。典型的には、サブシステム202における処理の最終段が、デコードされた周波数領域オーディオ・データに周波数領域から時間領域への変換を適用し、そのためサブシステムの出力は時間領域のデコードされたオーディオ・データである。段203は、(フォーマット解除器215によって抽出された)SBRメタデータおよびサブシステム401において生成されたeSBRメタデータによって示されるSBRツール(およびeSBRツール)を、デコードされたオーディオ・データに適用して(すなわち、SBRおよびeSBRメタデータを使ってデコード・サブシステム202の出力に対してSBRおよびeSBR処理を実行して)、デコーダ400から出力される完全にデコードされたオーディオ・データを生成するよう構成される。典型的には、デコーダ400は、フォーマット解除器215(および任意的にはサブシステム401)から出力されるフォーマット解除されたオーディオ・データおよびメタデータを記憶するメモリ(サブシステム202および段203によってアクセス可能)を含み、段203はSBRおよびeSBR処理の間に必要に応じてオーディオ・データおよびメタデータにアクセスするよう構成される。段203におけるSBR処理は、コア・デコード・サブシステム202の出力に対する後処理であると考えられてもよい。任意的に、デコーダ400は、最終的なアップミックス・サブシステム(これは、フォーマット解除器215によって抽出されたPSメタデータを使って、MPEG-4 AAC規格において定義されているパラメトリック・ステレオ(「PS」)ツールを適用しうる)をも含む。アップミックス・サブシステムは、段203の出力に対してアップミックスを実行して、APU 210から出力される、完全にデコードされた、アップミックスされたオーディオを生成するよう結合され、構成される。
図5の制御データ生成サブシステム401は、デコードされるべきエンコードされたオーディオ・ビットストリームの少なくとも一つの属性を検出し、検出段階の少なくとも一つの結果に応答してeSBR制御データ(これは、本発明の他の実施形態に従って、エンコードされたオーディオ・ビットストリームに含まれている型のうちいずれかの型のeSBRメタデータであってもく、それを含んでいてもよい)を生成するよう結合され、構成される。eSBR制御データは、段203に呈されて、ビットストリームの特定の属性(または複数の属性の組み合わせ)を検出したときに個々のeSBRツールまたはeSBRツールの組み合わせの適用を惹起するおよび/またはそのようなeSBRツールの適用を制御する。たとえば、高調波転換を使ったeSBR処理の実行を制御するために、制御データ生成サブシステム401のいくつかの実施形態は:ビットストリームが音楽を示すまたは示さないことを検出することに応答してsbrPatchingMode[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ための音楽検出器(たとえば、通常の音楽検出器の単純化されたバージョン);ビットストリームによって示されるオーディオ・コンテンツにおける過渡成分の存在または不在を検出することに応答してsbrOversamplingFlag[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ための過渡検出器;および/またはビットストリームによって示されるオーディオ・コンテンツのピッチを検出することに応答してsbrPitchInBinsFlag[ch]およびsbrPitchInBins[ch]パラメータを設定する(そして設定されたパラメータを段203に呈する)ためのピッチ検出器を含むことになる。本発明の他の側面は、この段落および前段落において述べた本発明のデコーダのいずれかの実施形態によって実行されるオーディオ・ビットストリーム・デコード方法である。
本発明の諸側面は、本発明のAPU、システムまたはデバイスのいずれかの実施形態が実行するよう構成される(たとえばプログラムされる)型のエンコードまたはデコード方法を含む。本発明の他の側面は、本発明の方法のいずれかの実施形態を実行するよう構成された(たとえばプログラムされた)システムまたはデバイスならびに本発明の方法のいずれかの実施形態もしくはその段階を実装するためのコードを(たとえば非一時的な仕方で)記憶するコンピュータ可読媒体(たとえばディスク)を含む。たとえば、本発明のシステムは、プログラム可能な汎用プロセッサ、デジタル信号プロセッサまたはマイクロプロセッサが、本発明の方法の実施形態またはその段階を含む多様な動作のいずれかをデータに対して実行するようソフトウェアもしくはファームウェアを用いてプログラムされたおよび/または他の仕方で構成されたものであるまたはそれを含むことができる。そのような汎用プロセッサは、入力装置、メモリおよび処理回路を含むコンピュータ・システムが、それに呈されるデータに応答して本発明の方法の実施形態(またはその段階)を実行するようプログラムされた(および/または他の仕方で構成された)ものであってもよく、あるいはそれを含んでいてもよい。
本発明の実施形態は、ハードウェア、ファームウェアまたはソフトウェアまたは両者の組み合わせにおいて(たとえばプログラム可能な論理アレイとして)実装されてもよい。特に断わりのない限り、本発明の一部として含まれるアルゴリズムまたはプロセスは、いかなる特定のコンピュータまたは他の装置にも本来的に関係していることはない。特に、さまざまな汎用機械が、本稿の教示に従って書かれたプログラムと一緒に使われてもよいし、あるいは要求される方法段階を実行するよう、より特化した装置(たとえば集積回路)を構築するほうが便利であることもありうる。このように本発明は、一つまたは複数のプログラム可能なコンピュータ・システム(たとえば、図1の要素または図2のエンコーダ100(またはそのある要素)または図3のデコーダ200(またはそのある要素)または図4のデコーダ210(またはそのある要素)または図5のデコーダ400(またはそのある要素)のいずれかの実装)上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。各コンピュータ・システムは少なくとも一つのプロセッサと、少なくとも一つのデータ記憶システム(揮発性および不揮発性メモリおよび/または記憶要素を含む)と、少なくとも一つの入力装置またはポートと、少なくとも一つの出力装置またはポートとを有する。プログラム・コードは、本稿に記載される機能を実行して出力情報を生成するために、入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に加えられる。
そのような各プログラムは、コンピュータ・システムと連絡するためにいかなる所望されるコンピュータ言語(機械語、アセンブリーまたは高レベルの手続き型、論理的またはオブジェクト指向のプログラミング言語を含む)で実装されてもよい。いずれにせよ、言語はコンパイルまたはインタープリットされる言語でありうる。
たとえば、コンピュータ・ソフトウェア命令シーケンスによって実装されるとき、本発明の実施形態のさまざまな機能および段階は、好適なデジタル信号処理ハードウェアにおいて走るマルチスレッド・ソフトウェア命令シーケンスによって実装されてもよく、その場合、実施形態のさまざまな装置、段階および機能はソフトウェア命令の諸部分に対応しうる。
そのような各コンピュータ・システムは、好ましくは、汎用または特殊目的のプログラム可能なコンピュータによって読み取り可能な記憶媒体またはデバイス(たとえば半導体メモリもしくはメディアまたは磁気もしくは光学式メディア)に記憶され、またはダウンロードされる。該記憶媒体またはデバイスがコンピュータ・システムによって読まれるときに、本稿に記載される手順を実行するようコンピュータを構成し、動作させるためである。本発明のシステムは、コンピュータ・プログラムをもって構成された(すなわちコンピュータ・プログラムを記憶している)コンピュータ可読記憶媒体として実装されてもよい。ここで、そのように構成された記憶媒体はコンピュータ・システムに、本稿に記載される機能を実行するよう、特定のあらかじめ定義された仕方で動作させる。
本発明のいくつかの実施形態を記述してきた。にもかかわらず、本発明の精神および範囲から外れることなくさまざまな修正がなしうることは理解されるであろう。上記の教示に照らして本発明の数多くの修正および変形が可能である。付属の請求項の範囲内で、本発明は、本稿に具体的に記述されている以外の仕方で実施されうることは理解される。請求項に含まれる参照符号があったとしても、単に例解目的のためであり、いかなる仕方であれ請求項を解釈したり限定したりするために使われるべきではない。
いくつかの態様を記載しておく。
〔態様1〕
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを記憶するよう構成されたバッファと;
前記バッファに結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離するよう構成されたビットストリーム・ペイロード・フォーマット解除器と;
前記ビットストリーム・ペイロード・フォーマット解除器に結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードするよう構成されたデコード・サブシステムとを有するオーディオ処理ユニットであって、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニット。
〔態様2〕
前記充填データはさらに向上スペクトル帯域複製メタデータを含む、態様1記載のオーディオ処理ユニット。
〔態様3〕
前記向上スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない、態様2記載のオーディオ処理ユニット。
〔態様4〕
前記向上スペクトル帯域複製メタデータは、高調波転換とスペクトル・パッチングの間で選択するためのパラメータを含まない、態様2または3記載のオーディオ処理ユニット。
〔態様5〕
前記向上スペクトル帯域複製メタデータは、i)前置平坦化を実行するかどうかを示すパラメータ;ii)サブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータ;およびiii)信号適応的な周波数領域オーバーサンプリングを実行するかどうかを示すパラメータのうちの少なくとも一つを含む、態様2ないし4のうちいずれか一項記載のオーディオ処理ユニット。
〔態様6〕
前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータである、態様2ないし5のうちいずれか一項記載のオーディオ処理ユニット。
〔態様7〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックがスペクトル帯域複製メタデータを含む、態様1ないし6のうちいずれか一項記載のオーディオ処理ユニット。
〔態様8〕
前記向上スペクトル帯域複製メタデータは、前記スペクトル帯域複製メタデータのパラメータと等価なパラメータを含まない、態様2を引用する場合の態様7記載のオーディオ処理ユニット。
〔態様9〕
前記スペクトル帯域複製メタデータは、MPEG-4 AAC規格において記述または言及されている少なくとも一つのSBRツールを有効にするよう構成されたメタデータである、態様7または8記載のオーディオ処理ユニット。
〔態様10〕
前記スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含む、態様7ないし9のうちいずれか一項記載のオーディオ処理ユニット。
〔態様11〕
前記向上スペクトル帯域複製処理が高調波転換を含むが、スペクトル・パッチングを含まない、態様1ないし10のうちいずれか一項記載のオーディオ処理ユニット。
〔態様12〕
前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して基本的なスペクトル帯域複製処理が実行されるべきであることを示す、態様1ないし11のうちいずれか一項記載のオーディオ処理ユニット。
〔態様13〕
前記基本的なスペクトル帯域複製処理はスペクトル・パッチングを含むが高調波転換を含まない、態様12記載のオーディオ処理ユニット。
〔態様14〕
前記基本的なスペクトル帯域複製処理は、MPEG-4 AAC規格に記載されるスペクトル・パッチングを使ったスペクトル帯域複製処理である、態様12または13記載のオーディオ処理ユニット。
〔態様15〕
前記向上スペクトル帯域複製処理は、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを使うスペクトル帯域複製処理である、態様1ないし14のうちいずれか一項記載のオーディオ処理ユニット。
〔態様16〕
当該オーディオ処理ユニットがオーディオ・デコーダであり、前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様1ないし15のうちいずれか一項記載のオーディオ処理ユニット。
〔態様17〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様1ないし16のうちいずれか一項記載のオーディオ処理ユニット。
〔態様18〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは、第一の充填要素および第二の充填要素を含み、前記第一の充填要素にはスペクトル帯域複製データが含まれ、前記第二の充填要素には前記フラグが含まれるが、スペクトル帯域複製データは含まれない、態様1ないし17のうちいずれか一項記載のオーディオ処理ユニット。
〔態様19〕
前記少なくとも一つのフラグを使ってまたは前記少なくとも一つのフラグに応答して向上スペクトル帯域複製処理を実行するよう構成された向上スペクトル帯域複製処理サブシステムをさらに有する、態様1ないし18のうちいずれか一項記載のオーディオ処理ユニット。
〔態様20〕
エンコードされたオーディオ・ビットストリームをデコードする方法であって:
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを受領する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードする段階とを含み、
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
方法。
〔態様21〕
前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様20記載の方法。
〔態様22〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様20または21記載の方法。
〔態様23〕
前記向上スペクトル帯域複製処理が高調波転換であり、前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対してスペクトル・パッチングが実行されるべきだが前記高調波転換は実行されるべきではないことを示す、態様20ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータが前置平坦化を実行するかどうかを示すパラメータを含む、または、
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータがサブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータを含む、
態様22または23記載の方法。
〔態様25〕
前記少なくとも一つのフラグを使って向上スペクトル帯域複製処理を実行する段階をさらに含み、前記向上スペクトル帯域複製は高調波転換を含む、態様20ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記エンコードされたオーディオ・ビットストリームがMPEG-4 AACビットストリームである、態様20ないし25のうちいずれか一項記載の方法または態様1ないし19のうちいずれか一項記載のオーディオ処理ユニット。
〔態様1〕
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを記憶するよう構成されたバッファと;
前記バッファに結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離するよう構成されたビットストリーム・ペイロード・フォーマット解除器と;
前記ビットストリーム・ペイロード・フォーマット解除器に結合され、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードするよう構成されたデコード・サブシステムとを有するオーディオ処理ユニットであって、前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
オーディオ処理ユニット。
〔態様2〕
前記充填データはさらに向上スペクトル帯域複製メタデータを含む、態様1記載のオーディオ処理ユニット。
〔態様3〕
前記向上スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない、態様2記載のオーディオ処理ユニット。
〔態様4〕
前記向上スペクトル帯域複製メタデータは、高調波転換とスペクトル・パッチングの間で選択するためのパラメータを含まない、態様2または3記載のオーディオ処理ユニット。
〔態様5〕
前記向上スペクトル帯域複製メタデータは、i)前置平坦化を実行するかどうかを示すパラメータ;ii)サブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータ;およびiii)信号適応的な周波数領域オーバーサンプリングを実行するかどうかを示すパラメータのうちの少なくとも一つを含む、態様2ないし4のうちいずれか一項記載のオーディオ処理ユニット。
〔態様6〕
前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータである、態様2ないし5のうちいずれか一項記載のオーディオ処理ユニット。
〔態様7〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックがスペクトル帯域複製メタデータを含む、態様1ないし6のうちいずれか一項記載のオーディオ処理ユニット。
〔態様8〕
前記向上スペクトル帯域複製メタデータは、前記スペクトル帯域複製メタデータのパラメータと等価なパラメータを含まない、態様2を引用する場合の態様7記載のオーディオ処理ユニット。
〔態様9〕
前記スペクトル帯域複製メタデータは、MPEG-4 AAC規格において記述または言及されている少なくとも一つのSBRツールを有効にするよう構成されたメタデータである、態様7または8記載のオーディオ処理ユニット。
〔態様10〕
前記スペクトル帯域複製メタデータは、スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含む、態様7ないし9のうちいずれか一項記載のオーディオ処理ユニット。
〔態様11〕
前記向上スペクトル帯域複製処理が高調波転換を含むが、スペクトル・パッチングを含まない、態様1ないし10のうちいずれか一項記載のオーディオ処理ユニット。
〔態様12〕
前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して基本的なスペクトル帯域複製処理が実行されるべきであることを示す、態様1ないし11のうちいずれか一項記載のオーディオ処理ユニット。
〔態様13〕
前記基本的なスペクトル帯域複製処理はスペクトル・パッチングを含むが高調波転換を含まない、態様12記載のオーディオ処理ユニット。
〔態様14〕
前記基本的なスペクトル帯域複製処理は、MPEG-4 AAC規格に記載されるスペクトル・パッチングを使ったスペクトル帯域複製処理である、態様12または13記載のオーディオ処理ユニット。
〔態様15〕
前記向上スペクトル帯域複製処理は、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述も言及もされていない少なくとも一つのeSBRツールを使うスペクトル帯域複製処理である、態様1ないし14のうちいずれか一項記載のオーディオ処理ユニット。
〔態様16〕
当該オーディオ処理ユニットがオーディオ・デコーダであり、前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様1ないし15のうちいずれか一項記載のオーディオ処理ユニット。
〔態様17〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様1ないし16のうちいずれか一項記載のオーディオ処理ユニット。
〔態様18〕
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは、第一の充填要素および第二の充填要素を含み、前記第一の充填要素にはスペクトル帯域複製データが含まれ、前記第二の充填要素には前記フラグが含まれるが、スペクトル帯域複製データは含まれない、態様1ないし17のうちいずれか一項記載のオーディオ処理ユニット。
〔態様19〕
前記少なくとも一つのフラグを使ってまたは前記少なくとも一つのフラグに応答して向上スペクトル帯域複製処理を実行するよう構成された向上スペクトル帯域複製処理サブシステムをさらに有する、態様1ないし18のうちいずれか一項記載のオーディオ処理ユニット。
〔態様20〕
エンコードされたオーディオ・ビットストリームをデコードする方法であって:
エンコードされたオーディオ・ビットストリームの少なくとも一つのブロックを受領する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部を多重分離する段階と;
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックの少なくとも一部をデコードする段階とを含み、
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグを含む、
方法。
〔態様21〕
前記識別子が、0x6の値をもつ、三ビットの、最上位ビットが最初に伝送される符号なし整数である、態様20記載の方法。
〔態様22〕
前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、任意的には、
前記スペクトル帯域複製拡張データは:
任意的なスペクトル帯域複製ヘッダ、
前記ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
態様20または21記載の方法。
〔態様23〕
前記向上スペクトル帯域複製処理が高調波転換であり、前記少なくとも一つのフラグのある値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対して前記向上スペクトル帯域複製処理が実行されるべきであることを示し、前記少なくとも一つのフラグの別の値は前記エンコードされたオーディオ・ビットストリームの前記少なくとも一つのブロックのオーディオ・コンテンツに対してスペクトル・パッチングが実行されるべきだが前記高調波転換は実行されるべきではないことを示す、態様20ないし22のうちいずれか一項記載の方法。
〔態様24〕
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータが前置平坦化を実行するかどうかを示すパラメータを含む、または、
前記スペクトル帯域複製拡張要素が、前記フラグ以外の向上スペクトル帯域複製メタデータを含み、前記向上スペクトル帯域複製メタデータがサブバンド・サンプル間時間的包絡整形を実行するかどうかを示すパラメータを含む、
態様22または23記載の方法。
〔態様25〕
前記少なくとも一つのフラグを使って向上スペクトル帯域複製処理を実行する段階をさらに含み、前記向上スペクトル帯域複製は高調波転換を含む、態様20ないし24のうちいずれか一項記載の方法。
〔態様26〕
前記エンコードされたオーディオ・ビットストリームがMPEG-4 AACビットストリームである、態様20ないし25のうちいずれか一項記載の方法または態様1ないし19のうちいずれか一項記載のオーディオ処理ユニット。
Claims (5)
- エンコードされたオーディオ・ビットストリームのブロックを多重分離するよう構成されたビットストリーム・ペイロード・フォーマット解除器であって、前記エンコードされたオーディオ・ビットストリームMPEG-4 AAC規格に準拠する、ビットストリーム・ペイロード・フォーマット解除器と;
前記ビットストリーム・ペイロード・フォーマット解除器に結合され、前記エンコードされたオーディオ・ビットストリームの前記ブロックの少なくとも一部をデコードするよう構成されたデコード・サブシステムとを有するオーディオ処理装置であって、前記エンコードされたオーディオ・ビットストリームの前記ブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記ブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定する少なくとも一つのフラグと;
スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない向上スペクトル帯域複製メタデータとを含み、前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述または言及されていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータであり、
前記向上スペクトル帯域複製メタデータは、信号適応的な周波数領域オーバーサンプリングを実行するかどうかを示すパラメータを含み、前記デコード・サブシステムは、前記パラメータが信号適応的な周波数領域オーバーサンプリングが実行されるべきであることを示す場合、信号適応的な周波数領域オーバーサンプリングを実行するよう構成される、
オーディオ処理装置。 - 前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、前記スペクトル帯域複製拡張データは:
スペクトル帯域複製ヘッダ、
ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
請求項1記載のオーディオ処理装置。 - エンコードされたオーディオ・ビットストリームをデコードする方法であって、当該方法は:
前記エンコードされたオーディオ・ビットストリームのブロックを多重分離する段階であって、前記エンコードされたオーディオ・ビットストリームMPEG-4 AAC規格に準拠する、段階と;
前記エンコードされたオーディオ・ビットストリームの前記ブロックの少なくとも一部をデコードする段階とを含み、
前記エンコードされたオーディオ・ビットストリームの前記ブロックは:
充填要素を含み、該充填要素は、該充填要素の先頭を示す識別子と、該識別子の後の充填データとをもち、前記充填データは:
前記エンコードされたオーディオ・ビットストリームの前記ブロックのオーディオ・コンテンツに対して向上スペクトル帯域複製処理が実行されるべきかどうかを同定するフラグと;
スペクトル・パッチングおよび高調波転換両方のために使われる一つまたは複数のパラメータを含まない向上スペクトル帯域複製メタデータとを含み、前記向上スペクトル帯域複製メタデータは、MPEG USAC規格において記述または言及されておりかつMPEG-4 AAC規格において記述または言及されていない少なくとも一つのeSBRツールを有効にするよう構成されたメタデータであり、
前記向上スペクトル帯域複製メタデータは、信号適応的な周波数領域オーバーサンプリングを実行するかどうかを示すパラメータを含み、デコード・システムは、前記パラメータが信号適応的な周波数領域オーバーサンプリングが実行されるべきであることを示す場合、信号適応的な周波数領域オーバーサンプリングを実行するようにさらに構成されていることを含む、
方法。 - 前記充填データが拡張ペイロードを含み、前記拡張ペイロードがスペクトル帯域複製拡張データを含み、前記拡張ペイロードは、「1101」または「1110」の値をもつ、四ビットの、最上位ビットが最初に伝送される符号なし整数を用いて同定され、前記スペクトル帯域複製拡張データは:
スペクトル帯域複製ヘッダ、
ヘッダの後のスペクトル帯域複製データおよび
前記スペクトル帯域複製データの後のスペクトル帯域複製拡張要素を含み、前記フラグは、前記スペクトル帯域複製拡張要素に含まれる、
請求項3記載の方法。 - プロセッサによって実行されたときに該プロセッサに請求項1に記載の方法を実行させる命令を有する、非一時的なコンピュータ読み取り可能媒体。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15159067 | 2015-03-13 | ||
EP15159067.6 | 2015-03-13 | ||
US201562133800P | 2015-03-16 | 2015-03-16 | |
US62/133,800 | 2015-03-16 | ||
JP2020035671A JP7038747B2 (ja) | 2015-03-13 | 2020-03-03 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2022035108A JP7354328B2 (ja) | 2015-03-13 | 2022-03-08 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022035108A Division JP7354328B2 (ja) | 2015-03-13 | 2022-03-08 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023164629A true JP2023164629A (ja) | 2023-11-10 |
Family
ID=52692473
Family Applications (8)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017547096A Active JP6383501B2 (ja) | 2015-03-13 | 2016-03-10 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2017547097A Active JP6383502B2 (ja) | 2015-03-13 | 2016-03-10 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2018146625A Active JP6671430B2 (ja) | 2015-03-13 | 2018-08-03 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2018146621A Active JP6671429B2 (ja) | 2015-03-13 | 2018-08-03 | オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法 |
JP2020035671A Active JP7038747B2 (ja) | 2015-03-13 | 2020-03-03 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2022035108A Active JP7354328B2 (ja) | 2015-03-13 | 2022-03-08 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2023002650A Active JP7503666B2 (ja) | 2015-03-13 | 2023-01-11 | オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法 |
JP2023151835A Pending JP2023164629A (ja) | 2015-03-13 | 2023-09-20 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
Family Applications Before (7)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017547096A Active JP6383501B2 (ja) | 2015-03-13 | 2016-03-10 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2017547097A Active JP6383502B2 (ja) | 2015-03-13 | 2016-03-10 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2018146625A Active JP6671430B2 (ja) | 2015-03-13 | 2018-08-03 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2018146621A Active JP6671429B2 (ja) | 2015-03-13 | 2018-08-03 | オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法 |
JP2020035671A Active JP7038747B2 (ja) | 2015-03-13 | 2020-03-03 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2022035108A Active JP7354328B2 (ja) | 2015-03-13 | 2022-03-08 | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード |
JP2023002650A Active JP7503666B2 (ja) | 2015-03-13 | 2023-01-11 | オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法 |
Country Status (23)
Country | Link |
---|---|
US (12) | US10262668B2 (ja) |
EP (10) | EP3268961B1 (ja) |
JP (8) | JP6383501B2 (ja) |
KR (11) | KR20230144114A (ja) |
CN (22) | CN109360576B (ja) |
AR (10) | AR103856A1 (ja) |
AU (6) | AU2016233669B2 (ja) |
BR (9) | BR122020018676B1 (ja) |
CA (5) | CA3051966C (ja) |
CL (1) | CL2017002268A1 (ja) |
DK (6) | DK4198974T3 (ja) |
ES (5) | ES2974497T3 (ja) |
FI (3) | FI4141866T3 (ja) |
HU (4) | HUE061857T2 (ja) |
IL (3) | IL307827A (ja) |
MX (2) | MX2017011490A (ja) |
MY (1) | MY184190A (ja) |
PL (8) | PL3268956T3 (ja) |
RU (4) | RU2658535C1 (ja) |
SG (2) | SG10201802002QA (ja) |
TW (4) | TW202242853A (ja) |
WO (2) | WO2016149015A1 (ja) |
ZA (4) | ZA201903963B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW202242853A (zh) * | 2015-03-13 | 2022-11-01 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TWI807562B (zh) * | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
US10573326B2 (en) * | 2017-04-05 | 2020-02-25 | Qualcomm Incorporated | Inter-channel bandwidth extension |
KR20200099560A (ko) | 2017-12-19 | 2020-08-24 | 돌비 인터네셔널 에이비 | 통합 음성 및 오디오 디코딩 및 인코딩 qmf 기반 고조파 트랜스포저 개선을 위한 방법, 장치 및 시스템 |
TWI812658B (zh) | 2017-12-19 | 2023-08-21 | 瑞典商都比國際公司 | 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統 |
BR112020012648A2 (pt) | 2017-12-19 | 2020-12-01 | Dolby International Ab | métodos e sistemas de aparelhos para aprimoramentos de decodificação de fala e áudio unificados |
HUE054531T2 (hu) * | 2018-01-26 | 2021-09-28 | Dolby Int Ab | Visszafelé kompatibilis integrálása magas frekvenciás rekonstrukciós technikáknak audio jelek elõállításához |
TWI809289B (zh) * | 2018-01-26 | 2023-07-21 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
WO2019210068A1 (en) * | 2018-04-25 | 2019-10-31 | Dolby Laboratories Licensing Corporation | Integration of high frequency reconstruction techniques with reduced post-processing delay |
BR112020021832A2 (pt) | 2018-04-25 | 2021-02-23 | Dolby International Ab | integração de técnicas de reconstrução de alta frequência |
US11081116B2 (en) * | 2018-07-03 | 2021-08-03 | Qualcomm Incorporated | Embedding enhanced audio transports in backward compatible audio bitstreams |
JP7455812B2 (ja) * | 2018-08-21 | 2024-03-26 | ドルビー・インターナショナル・アーベー | 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム |
KR102510716B1 (ko) * | 2020-10-08 | 2023-03-16 | 문경미 | 양파를 이용한 잼의 제조방법 및 이로 제조된 양파잼 |
CN114051194A (zh) * | 2021-10-15 | 2022-02-15 | 赛因芯微(北京)电子科技有限公司 | 一种音频轨道元数据和生成方法、电子设备及存储介质 |
WO2024012665A1 (en) * | 2022-07-12 | 2024-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding of precomputed data for rendering early reflections in ar/vr systems |
CN116528330B (zh) * | 2023-07-05 | 2023-10-03 | Tcl通讯科技(成都)有限公司 | 设备入网方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (103)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE512719C2 (sv) | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
DE19747132C2 (de) * | 1997-10-24 | 2002-11-28 | Fraunhofer Ges Forschung | Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms |
GB0003960D0 (en) * | 2000-02-18 | 2000-04-12 | Pfizer Ltd | Purine derivatives |
TW524330U (en) | 2001-09-11 | 2003-03-11 | Inventec Corp | Multi-purposes image capturing module |
DE60204039T2 (de) * | 2001-11-02 | 2006-03-02 | Matsushita Electric Industrial Co., Ltd., Kadoma | Vorrichtung zur kodierung und dekodierung von audiosignalen |
CN100395817C (zh) * | 2001-11-14 | 2008-06-18 | 松下电器产业株式会社 | 编码设备、解码设备和解码方法 |
US7469206B2 (en) * | 2001-11-29 | 2008-12-23 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7043423B2 (en) | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
EP1414273A1 (en) | 2002-10-22 | 2004-04-28 | Koninklijke Philips Electronics N.V. | Embedded data signaling |
CN1739141A (zh) * | 2003-02-06 | 2006-02-22 | 杜比实验室特许公司 | 连续的备份音频 |
KR100917464B1 (ko) | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
KR101106026B1 (ko) * | 2003-10-30 | 2012-01-17 | 돌비 인터네셔널 에이비 | 오디오 신호 인코딩 또는 디코딩 |
KR100571824B1 (ko) * | 2003-11-26 | 2006-04-17 | 삼성전자주식회사 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
JP4741476B2 (ja) * | 2004-04-23 | 2011-08-03 | パナソニック株式会社 | 符号化装置 |
DE102004046746B4 (de) | 2004-09-27 | 2007-03-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten |
WO2006075269A1 (en) * | 2005-01-11 | 2006-07-20 | Koninklijke Philips Electronics N.V. | Scalable encoding/decoding of audio signals |
KR100818268B1 (ko) * | 2005-04-14 | 2008-04-02 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 장치와 방법 |
KR20070003574A (ko) * | 2005-06-30 | 2007-01-05 | 엘지전자 주식회사 | 오디오 신호 인코딩 및 디코딩 방법 및 장치 |
KR100888970B1 (ko) * | 2005-07-29 | 2009-03-17 | 엘지전자 주식회사 | 인코딩된 오디오 신호 생성 및 처리 방법 |
WO2007040364A1 (en) * | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100878766B1 (ko) | 2006-01-11 | 2009-01-14 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 방법과 장치 |
US7610195B2 (en) * | 2006-06-01 | 2009-10-27 | Nokia Corporation | Decoding of predictively coded data using buffer adaptation |
PT2109098T (pt) * | 2006-10-25 | 2020-12-18 | Fraunhofer Ges Forschung | Aparelho e método para gerar amostras de áudio de domínio de tempo |
JP4967618B2 (ja) * | 2006-11-24 | 2012-07-04 | 富士通株式会社 | 復号化装置および復号化方法 |
US8295494B2 (en) * | 2007-08-13 | 2012-10-23 | Lg Electronics Inc. | Enhancing audio with remixing capability |
CN100524462C (zh) * | 2007-09-15 | 2009-08-05 | 华为技术有限公司 | 对高带信号进行帧错误隐藏的方法及装置 |
EP2077551B1 (en) * | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
JP5302980B2 (ja) * | 2008-03-04 | 2013-10-02 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 複数の入力データストリームのミキシングのための装置 |
MX2011000367A (es) | 2008-07-11 | 2011-03-02 | Fraunhofer Ges Forschung | Un aparato y un metodo para calcular una cantidad de envolventes espectrales. |
ES2796552T3 (es) * | 2008-07-11 | 2020-11-27 | Fraunhofer Ges Forschung | Sintetizador de señales de audio y codificador de señales de audio |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP3246918B1 (en) * | 2008-07-11 | 2023-06-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method for decoding an audio signal and computer program |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
US8290782B2 (en) * | 2008-07-24 | 2012-10-16 | Dts, Inc. | Compression of audio scale-factors by two-dimensional transformation |
US8831958B2 (en) | 2008-09-25 | 2014-09-09 | Lg Electronics Inc. | Method and an apparatus for a bandwidth extension using different schemes |
US8364471B2 (en) * | 2008-11-04 | 2013-01-29 | Lg Electronics Inc. | Apparatus and method for processing a time domain audio signal with a noise filling flag |
KR101336891B1 (ko) | 2008-12-19 | 2013-12-04 | 한국전자통신연구원 | G.711 코덱의 음질 향상을 위한 부호화 장치 및 복호화 장치 |
BR122019023704B1 (pt) * | 2009-01-16 | 2020-05-05 | Dolby Int Ab | sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta |
RU2493618C2 (ru) * | 2009-01-28 | 2013-09-20 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
WO2010090427A2 (ko) * | 2009-02-03 | 2010-08-12 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
CN105225667B (zh) * | 2009-03-17 | 2019-04-05 | 杜比国际公司 | 编码器系统、解码器系统、编码方法和解码方法 |
EP2239732A1 (en) * | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
BRPI1011785A2 (pt) | 2009-04-07 | 2016-03-22 | Ericsson Telefon Ab L M | método para fornecer um formato de dados de codec de fala retro e pós-compatível, arranjos de codificador e de decodificador, e, nó em um sistema de telecomunicação. |
US8392200B2 (en) * | 2009-04-14 | 2013-03-05 | Qualcomm Incorporated | Low complexity spectral band replication (SBR) filterbanks |
TWI643187B (zh) * | 2009-05-27 | 2018-12-01 | 瑞典商杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
US8515768B2 (en) * | 2009-08-31 | 2013-08-20 | Apple Inc. | Enhanced audio decoder |
JP5433022B2 (ja) * | 2009-09-18 | 2014-03-05 | ドルビー インターナショナル アーベー | 高調波転換 |
CA2777073C (en) * | 2009-10-08 | 2015-11-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
CN102754159B (zh) * | 2009-10-19 | 2016-08-24 | 杜比国际公司 | 指示音频对象的部分的元数据时间标记信息 |
CN102667923B (zh) * | 2009-10-20 | 2014-11-05 | 弗兰霍菲尔运输应用研究公司 | 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法 |
CA2862715C (en) * | 2009-10-20 | 2017-10-17 | Ralf Geiger | Multi-mode audio codec and celp coding adapted therefore |
TWI430263B (zh) * | 2009-10-20 | 2014-03-11 | Fraunhofer Ges Forschung | 音訊信號編碼器、音訊信號解碼器、使用混疊抵消來將音訊信號編碼或解碼之方法 |
AP3301A (en) | 2009-12-07 | 2015-06-30 | Dolby Lab Licensing Corp | Decoding of multichannel audio encoded bit streamsusing adaptive hybrid transformation |
TWI529703B (zh) * | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
CN102194457B (zh) * | 2010-03-02 | 2013-02-27 | 中兴通讯股份有限公司 | 音频编解码方法、系统及噪声水平估计方法 |
ES2935637T3 (es) * | 2010-03-09 | 2023-03-08 | Fraunhofer Ges Forschung | Reconstrucción de alta frecuencia de una señal de audio de entrada usando bancos de filtros en cascada |
RU2559899C2 (ru) * | 2010-04-09 | 2015-08-20 | Долби Интернешнл Аб | Стереофоническое кодирование на основе mdct с комплексным предсказанием |
BR112012026324B1 (pt) | 2010-04-13 | 2021-08-17 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E. V | Codificador de aúdio ou vídeo, decodificador de aúdio ou vídeo e métodos relacionados para o processamento do sinal de aúdio ou vídeo de múltiplos canais usando uma direção de previsão variável |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
JP5554876B2 (ja) | 2010-04-16 | 2014-07-23 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | ガイドされた帯域幅拡張およびブラインド帯域幅拡張を用いて広帯域信号を生成するため装置、方法およびコンピュータプログラム |
CN102254560B (zh) * | 2010-05-19 | 2013-05-08 | 安凯(广州)微电子技术有限公司 | 一种移动数字电视录像中的音频处理方法 |
US9047875B2 (en) | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
BR112012024360B1 (pt) * | 2010-07-19 | 2020-11-03 | Dolby International Ab | sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento |
US20120029926A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals |
US8489391B2 (en) | 2010-08-05 | 2013-07-16 | Stmicroelectronics Asia Pacific Pte., Ltd. | Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication |
ES2938725T3 (es) * | 2010-09-16 | 2023-04-14 | Dolby Int Ab | Transposición armónica basada en bloque de subbanda mejorado de producto cruzado |
CN102446506B (zh) * | 2010-10-11 | 2013-06-05 | 华为技术有限公司 | 音频信号的分类识别方法及装置 |
WO2014124377A2 (en) | 2013-02-11 | 2014-08-14 | Dolby Laboratories Licensing Corporation | Audio bitstreams with supplementary data and encoding and decoding of such bitstreams |
US9093120B2 (en) * | 2011-02-10 | 2015-07-28 | Yahoo! Inc. | Audio fingerprint extraction by scaling in time and resampling |
RU2586838C2 (ru) * | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
EP2676268B1 (en) | 2011-02-14 | 2014-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
AR085445A1 (es) * | 2011-03-18 | 2013-10-02 | Fraunhofer Ges Forschung | Codificador y decodificador que tiene funcionalidad de configuracion flexible |
RU2571561C2 (ru) | 2011-04-05 | 2015-12-20 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи |
WO2012146757A1 (en) * | 2011-04-28 | 2012-11-01 | Dolby International Ab | Efficient content classification and loudness estimation |
US9117440B2 (en) * | 2011-05-19 | 2015-08-25 | Dolby International Ab | Method, apparatus, and medium for detecting frequency extension coding in the coding history of an audio signal |
WO2012160782A1 (ja) | 2011-05-20 | 2012-11-29 | パナソニック株式会社 | ビットストリーム送信装置、ビットストリーム送受信システム、ビットストリーム受信装置、ビットストリーム送信方法、ビットストリーム受信方法及びビットストリーム |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
TWI543642B (zh) * | 2011-07-01 | 2016-07-21 | 杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
EP3544006A1 (en) * | 2011-11-11 | 2019-09-25 | Dolby International AB | Upsampling using oversampled sbr |
US9779736B2 (en) | 2011-11-18 | 2017-10-03 | Sirius Xm Radio Inc. | Systems and methods for implementing efficient cross-fading between compressed audio streams |
US9697840B2 (en) * | 2011-11-30 | 2017-07-04 | Dolby International Ab | Enhanced chroma extraction from an audio codec |
JP5817499B2 (ja) * | 2011-12-15 | 2015-11-18 | 富士通株式会社 | 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム |
EP2631906A1 (en) * | 2012-02-27 | 2013-08-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Phase coherence control for harmonic signals in perceptual audio codecs |
EP2950308B1 (en) * | 2013-01-22 | 2020-02-19 | Panasonic Corporation | Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method |
JP6445460B2 (ja) * | 2013-01-28 | 2018-12-26 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 新しいメディア装置に関する埋め込み音量メタデータを有する、および、有しないメディアの正規化音声再生のための方法と装置 |
CN103971694B (zh) * | 2013-01-29 | 2016-12-28 | 华为技术有限公司 | 带宽扩展频带信号的预测方法、解码设备 |
MX345622B (es) | 2013-01-29 | 2017-02-08 | Fraunhofer Ges Forschung | Decodificador para generar una señal de audio mejorada en frecuencia, método de decodificación, codificador para generar una señal codificada y metodo de codificación utilizando informacion secundaria de selección compacta. |
SG11201505912QA (en) | 2013-01-29 | 2015-08-28 | Fraunhofer Ges Forschung | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
TWI530941B (zh) * | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
BR112015029574B1 (pt) | 2013-06-11 | 2021-12-21 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método de decodificação de sinal de áudio. |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
EP2830047A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
EP2881943A1 (en) | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
TW202242853A (zh) * | 2015-03-13 | 2022-11-01 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TWI732403B (zh) | 2015-03-13 | 2021-07-01 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
US10628134B2 (en) | 2016-09-16 | 2020-04-21 | Oracle International Corporation | Generic-flat structure rest API editor |
TWI807562B (zh) * | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
TWI809289B (zh) * | 2018-01-26 | 2023-07-21 | 瑞典商都比國際公司 | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 |
-
2016
- 2016-02-22 TW TW111125001A patent/TW202242853A/zh unknown
- 2016-02-22 TW TW110111061A patent/TWI758146B/zh active
- 2016-02-22 TW TW105105119A patent/TWI693594B/zh active
- 2016-02-22 TW TW111107792A patent/TWI771266B/zh active
- 2016-03-04 AR ARP160100577A patent/AR103856A1/es active IP Right Grant
- 2016-03-10 EP EP16709426.7A patent/EP3268961B1/en active Active
- 2016-03-10 BR BR122020018676-3A patent/BR122020018676B1/pt active IP Right Grant
- 2016-03-10 BR BR122019004614-0A patent/BR122019004614B1/pt active IP Right Grant
- 2016-03-10 JP JP2017547096A patent/JP6383501B2/ja active Active
- 2016-03-10 BR BR122020018629-1A patent/BR122020018629B1/pt active IP Right Grant
- 2016-03-10 CN CN201811521220.3A patent/CN109360576B/zh active Active
- 2016-03-10 PL PL16765449T patent/PL3268956T3/pl unknown
- 2016-03-10 SG SG10201802002QA patent/SG10201802002QA/en unknown
- 2016-03-10 DK DK23154574.0T patent/DK4198974T3/da active
- 2016-03-10 CN CN201811521244.9A patent/CN109461453B/zh active Active
- 2016-03-10 CN CN201811521218.6A patent/CN109273013B/zh active Active
- 2016-03-10 CN CN201811521593.0A patent/CN109461454B/zh active Active
- 2016-03-10 ES ES23154574T patent/ES2974497T3/es active Active
- 2016-03-10 DK DK22202090.1T patent/DK4141866T3/da active
- 2016-03-10 BR BR122020018731-0A patent/BR122020018731B1/pt active IP Right Grant
- 2016-03-10 PL PL22202090.1T patent/PL4141866T3/pl unknown
- 2016-03-10 CA CA3051966A patent/CA3051966C/en active Active
- 2016-03-10 CN CN201811521219.0A patent/CN109360575B/zh active Active
- 2016-03-10 US US15/546,965 patent/US10262668B2/en active Active
- 2016-03-10 CN CN201811521577.1A patent/CN109326295B/zh active Active
- 2016-03-10 ES ES19213743T patent/ES2897660T3/es active Active
- 2016-03-10 ES ES21195190T patent/ES2933476T3/es active Active
- 2016-03-10 CN CN201811521243.4A patent/CN109461452B/zh active Active
- 2016-03-10 HU HUE21193211A patent/HUE061857T2/hu unknown
- 2016-03-10 MY MYPI2017703277A patent/MY184190A/en unknown
- 2016-03-10 CN CN201811199403.8A patent/CN109065062B/zh active Active
- 2016-03-10 ES ES16765449T patent/ES2893606T3/es active Active
- 2016-03-10 CN CN201811199404.2A patent/CN109273016B/zh active Active
- 2016-03-10 CN CN201680015378.6A patent/CN107408391B/zh active Active
- 2016-03-10 KR KR1020237033422A patent/KR20230144114A/ko active Application Filing
- 2016-03-10 KR KR1020227031975A patent/KR102530978B1/ko active IP Right Grant
- 2016-03-10 KR KR1020217014850A patent/KR102321882B1/ko active IP Right Grant
- 2016-03-10 MX MX2017011490A patent/MX2017011490A/es active IP Right Grant
- 2016-03-10 EP EP16765449.0A patent/EP3268956B1/en active Active
- 2016-03-10 PL PL21193211.6T patent/PL3985667T3/pl unknown
- 2016-03-10 CN CN201811199399.5A patent/CN109273015B/zh active Active
- 2016-03-10 FI FIEP22202090.1T patent/FI4141866T3/fi active
- 2016-03-10 FI FIEP23154574.0T patent/FI4198974T3/fi active
- 2016-03-10 DK DK19190806.0T patent/DK3598443T3/da active
- 2016-03-10 EP EP21195190.0A patent/EP3958259B8/en active Active
- 2016-03-10 KR KR1020217019073A patent/KR102330202B1/ko active IP Right Grant
- 2016-03-10 PL PL19190806T patent/PL3598443T3/pl unknown
- 2016-03-10 KR KR1020177025803A patent/KR101884829B1/ko active IP Right Grant
- 2016-03-10 CN CN201811199390.4A patent/CN108899039B/zh active Active
- 2016-03-10 CN CN201811199406.1A patent/CN109065063B/zh active Active
- 2016-03-10 DK DK21195190.0T patent/DK3958259T3/da active
- 2016-03-10 HU HUE19213743A patent/HUE057225T2/hu unknown
- 2016-03-10 RU RU2017131851A patent/RU2658535C1/ru active
- 2016-03-10 KR KR1020177025797A patent/KR101871643B1/ko active IP Right Grant
- 2016-03-10 DK DK21193211.6T patent/DK3985667T3/da active
- 2016-03-10 EP EP19190806.0A patent/EP3598443B1/en active Active
- 2016-03-10 CN CN201680015399.8A patent/CN107430867B/zh active Active
- 2016-03-10 PL PL23154574.0T patent/PL4198974T3/pl unknown
- 2016-03-10 PL PL16709426T patent/PL3268961T3/pl unknown
- 2016-03-10 KR KR1020217037713A patent/KR102481326B1/ko not_active Application Discontinuation
- 2016-03-10 KR KR1020187017423A patent/KR102255142B1/ko active IP Right Grant
- 2016-03-10 PL PL21195190.0T patent/PL3958259T3/pl unknown
- 2016-03-10 WO PCT/US2016/021666 patent/WO2016149015A1/en active Application Filing
- 2016-03-10 HU HUE16765449A patent/HUE057183T2/hu unknown
- 2016-03-10 CN CN201811199396.1A patent/CN109003616B/zh active Active
- 2016-03-10 CA CA2989595A patent/CA2989595C/en active Active
- 2016-03-10 CA CA3135370A patent/CA3135370C/en active Active
- 2016-03-10 EP EP23154574.0A patent/EP4198974B1/en active Active
- 2016-03-10 BR BR122020018673-9A patent/BR122020018673B1/pt active IP Right Grant
- 2016-03-10 EP EP22202090.1A patent/EP4141866B1/en active Active
- 2016-03-10 CN CN201811199401.9A patent/CN108962269B/zh active Active
- 2016-03-10 CN CN201811521580.3A patent/CN109509479B/zh active Active
- 2016-03-10 SG SG11201707459SA patent/SG11201707459SA/en unknown
- 2016-03-10 CN CN201811521245.3A patent/CN109273014B/zh active Active
- 2016-03-10 KR KR1020227044962A patent/KR102585375B1/ko active IP Right Grant
- 2016-03-10 EP EP21193211.6A patent/EP3985667B1/en active Active
- 2016-03-10 CN CN201811199400.4A patent/CN109243474B/zh active Active
- 2016-03-10 BR BR122020018627-5A patent/BR122020018627B1/pt active IP Right Grant
- 2016-03-10 BR BR112017018548-2A patent/BR112017018548B1/pt active IP Right Grant
- 2016-03-10 WO PCT/EP2016/055202 patent/WO2016146492A1/en active Application Filing
- 2016-03-10 EP EP24150177.4A patent/EP4328909A3/en active Pending
- 2016-03-10 KR KR1020187021858A patent/KR102269858B1/ko active IP Right Grant
- 2016-03-10 CN CN201811199411.2A patent/CN109243475B/zh active Active
- 2016-03-10 CA CA3210429A patent/CA3210429A1/en active Pending
- 2016-03-10 PL PL19213743T patent/PL3657500T3/pl unknown
- 2016-03-10 CA CA2978915A patent/CA2978915C/en active Active
- 2016-03-10 US US15/546,637 patent/US10134413B2/en active Active
- 2016-03-10 EP EP24152023.8A patent/EP4336499A3/en active Pending
- 2016-03-10 CN CN201811199395.7A patent/CN108899040B/zh active Active
- 2016-03-10 JP JP2017547097A patent/JP6383502B2/ja active Active
- 2016-03-10 BR BR112017019499-6A patent/BR112017019499B1/pt active IP Right Grant
- 2016-03-10 IL IL307827A patent/IL307827A/en unknown
- 2016-03-10 RU RU2017131858A patent/RU2665887C1/ru active
- 2016-03-10 HU HUE21195190A patent/HUE060688T2/hu unknown
- 2016-03-10 EP EP19213743.8A patent/EP3657500B1/en active Active
- 2016-03-10 FI FIEP21193211.6T patent/FI3985667T3/fi active
- 2016-03-10 ES ES21193211T patent/ES2946760T3/es active Active
- 2016-03-10 DK DK19213743.8T patent/DK3657500T3/da active
- 2016-03-10 CN CN201811199383.4A patent/CN109410969B/zh active Active
- 2016-03-10 RU RU2018118173A patent/RU2760700C2/ru active
- 2016-03-10 BR BR122020018736-0A patent/BR122020018736B1/pt active IP Right Grant
- 2016-03-10 IL IL295809A patent/IL295809B2/en unknown
- 2016-03-10 KR KR1020217035410A patent/KR102445316B1/ko active IP Right Grant
- 2016-03-10 RU RU2018126300A patent/RU2764186C2/ru active
- 2016-03-10 AU AU2016233669A patent/AU2016233669B2/en active Active
-
2017
- 2017-08-29 IL IL254195A patent/IL254195B/en active IP Right Grant
- 2017-09-07 MX MX2020005843A patent/MX2020005843A/es unknown
- 2017-09-07 CL CL2017002268A patent/CL2017002268A1/es unknown
- 2017-10-27 AU AU2017251839A patent/AU2017251839B2/en active Active
-
2018
- 2018-07-19 US US16/040,243 patent/US10553232B2/en active Active
- 2018-08-03 JP JP2018146625A patent/JP6671430B2/ja active Active
- 2018-08-03 JP JP2018146621A patent/JP6671429B2/ja active Active
- 2018-11-09 AU AU2018260941A patent/AU2018260941B9/en active Active
- 2018-12-03 US US16/208,325 patent/US10262669B1/en active Active
-
2019
- 2019-02-04 AR ARP190100264A patent/AR114578A2/es active IP Right Grant
- 2019-02-04 AR ARP190100262A patent/AR114576A2/es active IP Right Grant
- 2019-02-04 AR ARP190100266A patent/AR114580A2/es active IP Right Grant
- 2019-02-04 AR ARP190100261A patent/AR114575A2/es active IP Right Grant
- 2019-02-04 AR ARP190100265A patent/AR114579A2/es active IP Right Grant
- 2019-02-04 AR ARP190100258A patent/AR114572A2/es active IP Right Grant
- 2019-02-04 AR ARP190100259A patent/AR114573A2/es active IP Right Grant
- 2019-02-04 AR ARP190100263A patent/AR114577A2/es active IP Right Grant
- 2019-02-04 AR ARP190100260A patent/AR114574A2/es active IP Right Grant
- 2019-02-06 US US16/269,161 patent/US10453468B2/en active Active
- 2019-06-19 ZA ZA2019/03963A patent/ZA201903963B/en unknown
- 2019-09-12 US US16/568,802 patent/US10734010B2/en active Active
- 2019-10-09 ZA ZA2019/06647A patent/ZA201906647B/en unknown
- 2019-12-10 US US16/709,435 patent/US10943595B2/en active Active
-
2020
- 2020-03-03 JP JP2020035671A patent/JP7038747B2/ja active Active
- 2020-07-17 US US16/932,479 patent/US11367455B2/en active Active
- 2020-11-23 AU AU2020277092A patent/AU2020277092B2/en active Active
-
2021
- 2021-01-21 US US17/154,495 patent/US11417350B2/en active Active
- 2021-09-17 ZA ZA2021/06847A patent/ZA202106847B/en unknown
-
2022
- 2022-03-08 JP JP2022035108A patent/JP7354328B2/ja active Active
- 2022-06-02 US US17/831,080 patent/US11664038B2/en active Active
- 2022-06-02 US US17/831,234 patent/US11842743B2/en active Active
- 2022-07-07 AU AU2022204887A patent/AU2022204887B2/en active Active
- 2022-09-08 ZA ZA2022/09998A patent/ZA202209998B/en unknown
-
2023
- 2023-01-11 JP JP2023002650A patent/JP7503666B2/ja active Active
- 2023-05-16 US US18/318,443 patent/US20230368805A1/en active Granted
- 2023-09-20 JP JP2023151835A patent/JP2023164629A/ja active Pending
-
2024
- 2024-05-10 AU AU2024203127A patent/AU2024203127A1/en active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7354328B2 (ja) | 少なくとも一つの充填要素内の向上スペクトル帯域複製メタデータを用いたオーディオ・ビットストリームのデコード | |
JP7210658B2 (ja) | オーディオ処理ユニットおよびエンコードされたオーディオ・ビットストリームをデコードする方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230920 |