JP6007196B2 - オーディオ符号化におけるフレーム要素長さの伝送 - Google Patents

オーディオ符号化におけるフレーム要素長さの伝送 Download PDF

Info

Publication number
JP6007196B2
JP6007196B2 JP2013558472A JP2013558472A JP6007196B2 JP 6007196 B2 JP6007196 B2 JP 6007196B2 JP 2013558472 A JP2013558472 A JP 2013558472A JP 2013558472 A JP2013558472 A JP 2013558472A JP 6007196 B2 JP6007196 B2 JP 6007196B2
Authority
JP
Japan
Prior art keywords
frame
sequence
configuration
frame elements
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013558472A
Other languages
English (en)
Other versions
JP2014510310A (ja
Inventor
ノイエンドルフ、マックス
ムルトルス、マルクス
デーラ、シュティファン
プルンハーゲン、ヘイコ
ボント、フランス デ
ボント、フランス デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Dolby International AB
Original Assignee
Koninklijke Philips NV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Dolby International AB filed Critical Koninklijke Philips NV
Publication of JP2014510310A publication Critical patent/JP2014510310A/ja
Application granted granted Critical
Publication of JP6007196B2 publication Critical patent/JP6007196B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereophonic System (AREA)
  • Communication Control (AREA)
  • Surface Acoustic Wave Elements And Circuit Networks Thereof (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本発明は、所謂USACコーデック(Unified Speech and Audio Coding、音声音響統合符号化)等のオーディオ符号化に関連し、特に、フレーム要素長さの伝送に関連する。
近年、いくつかのオーディオコーデックが利用可能となっており、各オーディオコーデックは、専用アプリケーションにフィットするよう詳細に設計されている。多くの場合、オーディオコーデックは、1を超える数のオーディオチャネルまたはオーディオ信号を並列に符号化することができる。オーディオコンテントのオーディオチャネルまたはオーディオオブジェクトを異なってグループ化してこれらのグループを異なるオーディオ符号化原則の対象にすることで、オーディオコンテントを異なって符号化するのにさえ適したオーディオコーデックが存在する。またさらに、オーディオコーデックには、オーディオコーデックの将来の拡張/展開に対応するようビットストリームへの拡張の挿入を図るものもある。
このようなオーディオコーデックの一例がISO/IEC CD23003−3に規定されるようなUSACコーデックである。この「情報技術―MPEGオーディオ技術―パート3、音声音響統合符号化」と言う名称の標準は、音声音響統合符号化に関する提案について求められるものの基準モデルの機能ブロックを詳細に記述する
図5aおよび図5bは、エンコーダおよびデコーダのブロック図である。以下では、個別のブロックの一般的機能性について簡単に説明する。その上で、結果として得られる構文部分のすべてを結合してビットストリームにすることの問題点について、図6を参照して説明する。
図5aおよび図5bは、エンコーダおよびデコーダのブロック図を示す。USACエンコーダおよびデコーダのブロック図は、MPEG−D USAC符号化の構造を反映する。概略の構造は、次のように記述することができる。まず第1に、ステレオまたは多チャネル処理を扱うMPEGサラウンド(MPEGS)機能部および入力信号におけるより高いオーディオ周波数のパラメータ表現を扱うエンハンストSBR(eSBR)部からなる一般的な前/後処理がある。そして、修正アドバンスドオーディオ符号化(ACC)ツール経路からなる一方の分岐と、LPC残差の周波数領域表現または時間領域表現のいずれかを特徴とする線形予測符号化(LPまたはLPC領域)系の経路とからなる他方の分岐の2つの分岐がある。AACおよびLPCの両方のために伝送されるスペクトルのすべてが、量子化および算術符号化に続くMDCT領域において表現される。時間領域表現はACELP励起符号化スキームを使用する。
MPEG−D USACの基本構造を図5aおよび図5bに示す。この図面におけるデータの流れは、左右および上下である。デコーダの機能は、ビットストリームペイロードにおける量子化オーディオスペクトルまたは時間領域表現の記述を見つけて、量子化された値や他の再構成情報を復号化することである。
送信されたスペクトル情報の場合、デコーダは、量子化スペクトルを再構成し、ビットストリームペイロードにおいて活性であるいずれかのツールで、再構成されたスペクトルを処理して、入力ビットストリームペイロードにより記述される実際の信号スペクトルに到達して、最終的に周波数領域のスペクトルを時間領域に変換する。最初の再構成およびスペクトル再構成のスケーリングに続いて、より効率的符号化を図るために、スペクトルのうち1以上を変更する随意のツールが存在する。
送信された時間領域信号表現の場合、デコーダは、量子化された時間信号を再構成し、この再構成された時間信号をビットストリームペイロードにおいて活性であるいずれかのツールで処理して、入力ビットストリームペイロードにより記述される実際の時間領域信号に到達する。
信号データに対して作用する随意のツールごとに、「パススルー」する選択肢が保持され、かつ処理が省略されるすべての場合において、その入力としてのスペクトルまたは時間サンプルは、修正なしで、ツールを介して直接スルーされる。
ビットストリームが、その信号表現を時間領域から周波数領域の表現へ、または、LP領域から非LP領域へまたはその逆に変更する場合、デコーダは、適当な遷移オーバラップ加算ウィンドウ化により1つの領域から他の領域への遷移を容易にする。
eSBRおよびMPEGS処理を、遷移取扱い後の両方の符号化経路に同じ態様で適用する。
ビットストリームペイロードデマルチプレクサツールへの入力は、MPEG−D USACビットストリームペイロードである。デマルチプレクサは、ビットストリームペイロードをツールごとに部分に分けて、そのツールに関連するビットストリームペイロード情報をツールの各々に付与する。
ビットストリームペイロードデマルチプレクサツールからの出力は以下のとおりである。
・現在のフレームにおけるコア符号化のタイプによって、
‐量子化されかつ雑音なしで符号化されるスペクトルであって、
‐スケールファクタ情報
‐算術的に符号化されたスペクトルラインにより表現され
・または、以下のいずれかにより表現される励起信号を伴う線形予測(LP)パラメータのいずれかである。すなわち、それらは
‐量子化されかつ算術的に符号化されるスペクトルライン(変換符号化励起、TCX)もしくは
‐ACELP符号化時間領域励起
・スペクトルノイズフィリング情報(随意)
・M/S決定情報(随意)
・時間雑音整形(TNS)情報(随意)
・フィルタバンク制御情報
・時間アンワープ(TW)制御情報(随意)
・エンハンストスペクトル帯域幅複製(eSBR)制御情報(随意)
・MPEGサラウンド(MPEGS)制御情報
スケールファクタノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、かつハフマン(Huffman)およびDPCM符号化スケールファクタを復号化する。
スケールファクタノイズレス復号化ツールへの入力は以下のとおりである。
・ノイズレスで符号化されたスペクトルのためのスケールファクタ情報
スケールファクタノイズレス復号化ツールの出力は、以下のとおりである。
・スケールファクタの復号化整数表現。
スペクトルノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、算術的に符号化されたデータを復号化し、かつ量子化スペクトルを再構成する。このノイズレス復号化ツールへの入力は、以下のとおりである。
・ノイズレスに復号化されたスペクトル
このノイズレス復号化ツールの出力は、以下のとおりである。
・スペクトルの量子化された値
逆量子化部ツールは、スペクトルのための量子化された値を得、かつ整数値を非スケーリングの再構成スペクトルへ変換する。この量子化部は、コンパンディング量子化部であり、そのコンパンディングファクタは、選択されるコア符号化モードに依存する。
逆量子化部ツールへの入力は、以下のとおりである。
・スペクトルのための量子化された値
逆量子化部ツールの出力は、以下のとおりである。
・非スケーリングの逆量子化されたスペクトル
ノイズフィリングツールを使用して復号化されたスペクトルにおけるスペクトルギャップを充填するが、これは、たとえば、エンコーダ内のビット要求に対する強い制限等により、スペクトル値がゼロに量子化される場合に発生する。
ノイズフィリングツールに対する入力は、以下のとおりである。
・非スケーリング、逆量子化スペクトル
・ノイズフィリングパラメータ
・スケールファクタの復号化された整数表現
ノイズフィリングツールへの出力は以下のとおりである。
・前回ゼロに量子化されたスペクトルラインの非スケーリング、逆量子化スペクトル値
・スケールファクタの修正された整数表現
再スケーリングツールで、スケールファクタの整数表現を実際の値に変換しかつ非スケーリング、逆量子化スペクトルに関連のスケールファクタを乗算する。
スケールファクタツールへの入力は以下のとおりである。
・スケールファクタの復号化された整数表現
・非スケーリングの、逆量子化されたスペクトル
スケールファクタツールからの出力は以下のとおりである。
・スケーリングされ、逆量子化されたスペクトル
M/Sツールに関する概要については、非特許文献1(ISO/IEC14496−3:2009、4.1.1.2)を参照。
時間雑音整形(TNS)ツールに関する概要については、非特許文献1を参照。
フィルタバンク/ブロック切替ツールを、エンコーダで行われた周波数マッピングの逆に適用する。逆修正離散コサイン変換(IMDCT)は、フィルタバンクツールに使用する。IMDCTは、120、128、240、256、480、512、960、または1024スペクトル係数をサポートするよう構成することができる。
フィルタバンクツールに対する入力は以下のとおりである。
・(逆量子化された)スペクトル
・フィルタバンク制御情報
フィルタバンクツールからの出力(単数または複数)は、以下のとおりである。
・時間領域再構成オーディオ信号(単数または複数)
時間ワープしたフィルタバンク/ブロック切替ツールは、時間ワープモードが可能化された際に、通常のフィルタバンク/ブロック切替ツールを置換する。フィルタバンクは、通常のフィルタバンクについては、同じ(IMDCT)であり、付加的には、ウィンドウ化された時間領域サンプルを、時間可変再サンプリングにより、ワープした時間領域から線形時間領域へマッピングする。
時間ワープしたフィルタバンクツールへの入力は、以下のとおりである。
・逆量子化したスペクトル
・フィルタバンク制御情報
・時間ワープ制御情報
フィルタバンクツールからの出力(単数または複数)は以下のとおりである。
・線形時間領域再構成オーディオ信号(単数または複数)
エンハンストSBR(eSBR)ツールは、オーディオ信号の高帯域を再生成する。これは、符号化の際にトランケートされた高調波のシーケンスの複製による。これは、生成された高帯域のスペクトルエンベロープを調節しかつ逆フィルタリングを適用し、雑音および正弦波成分を付加して、元の信号のスペクトル特性を再現するようになっている。
eSBRツールへの入力は、以下のとおりである。
・量子化されたエンベロープデータ
・Misc.制御データ
・周波数領域コアデコーダまたはACELP/TCXコアデコーダからの時間領域信号
eSBRツールの出力は以下のいずれかである。
・時間領域信号、または
・MPEGサラウンドツール等における信号のQMF領域表現が使用される。
MPEGサラウンド(MPEGS)ツールは、適切な空間パラメータにより制御される入力信号(単数または複数)に複雑なアップミックス過程を適用することにより1以上の入力信号から複数の入力信号を生成する。USACコンテクストでは、MPEGSが、送信されたダウンミックスされた信号と並んでパラメータサイド情報を送信することにより多チャネル信号を符号化するために使用される。
MPEGSツールへの入力は以下のとおりである。
・ダウンミックスされた時間領域信号、または
・eSBRツールからのダウンミックスされた信号のQMF領域表現
MPEGSツールの出力は以下のとおりである。
・多チャネル時間領域信号
信号分類部ツールは、元の入力信号を解析しかつそれから異なる符号化モードの選択をトリガする制御情報を生成する。入力信号の解析は、実装に依存しかつ所与の入力信号フレームについて最適なコア符号化モードを選択しようとする。信号分類部の出力は、MPEGサラウンド、エンハンストSBR、時間ワープしたフィルタバンク等の他のツールの挙動に影響を与えるためにも(随意に)使用できる。
信号分類部ツールへの入力は、以下のとおりである。
・元の、修正されていない入力信号
・追加の実装依存パラメータ
信号分類部ツールの出力は、以下のとおりである。
・コアコーディック(非LPフィルタ化周波数領域符号化、LPフィルタ化周波数領域またはLPフィルタ化時間領域符号化)の選択を制御する制御信号
ACELPツールは、長期予測部(適応コードワード)とパルス様シーケンス(イノベーションコードワード)とを組み合わせることにより時間領域励起信号を効率的に表現する方法を提供する。再構成された励起は、LP合成フィルタを介して送られ、時間領域信号を構成する。
ACELPツールへの入力は、以下のとおりである。
・適合およびイノベーションコードブックインデクス
・適合およびイノベーションコード利得値
・他の制御データ
・逆量子化されかつ補間されたLPCフィルタ係数
ACELPツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号
MDCT系TCX復号化ツールは、MDCT領域からの重み付LP残差表現を時間領域信号に戻しかつ重み付LP合成フィルタリングを含む時間領域信号を出力する。IMDCTは、256、512または1024のスペクトル係数をサポートするよう構成することができる。
TCXツールへの入力は、以下のとおりである。
・(逆量子化された)MDCTスペクトル
・逆量子化されかつ補間されたLPCフィルタ係数
TCXツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号
ISO/IEC CD23003−3に開示される技術(ここに引用により援用)により、チャネル要素の定義が可能になる。たとえば、単一のチャネルのためのペイロードを含むのみの単一のチャネル要素、2つのチャネルのためのペイロードを含むチャネル対要素またはLFEチャネルのためのペイロードを含むLFE(低周波数エンハンスメント)チャネル要素である。
当然のことながら、USACコーデックが、1つのビットストリームを経由して、1または2のオーディオチャネルまたはオーディオオブジェクトのより複雑なオーディオコーデックに関する情報を符号化し転送することができる唯一のコーデックというわけではない。したがって、USACコーデックは、具体例として挙げられているに過ぎない。
図6は、エンコーダおよびデコーダそれぞれのより一般的な例を示し、いずれもエンコーダがオーディオコンテント10をビットストリーム12に符号化し、デコーダがビットストリーム12からオーディオコンテントまたは少なくともその一部を復号化する一般的な背景において示す。復号化、すなわち再構成の結果を14で示す。図6に示すとおり、オーディオコンテント10は、いくつかのオーディオ信号16から構成され得る。たとえば、オーディオコンテント10は、いくつかのオーディオチャネル16からなる空間オーディオシーンであると言える。代替的には、オーディオコンテント10は、オーディオ信号16の集まりを表し、オーディオ信号16が個別にまたはグループで、特定のラウドスピーカーコンフィギュレーションについて、空間オーディオシーン等の形式でオーディオコンテント10の再構成14を得るように、デコーダのユーザの判断によってオーディオシーンに結合させ得る個別のオーディオオブジェクトを表す。エンコーダは、連続する期間からなる単位で、オーディオコンテント10を符号化する。このような期間については、図6に18で例示する。エンコーダはオーディオコンテント10の連続する期間18を、同じ態様で符号化する。すなわち、エンコーダは、ビットストリーム12に、期間18当たり1フレーム20を挿入する。そうすることで、エンコーダは、それぞれ期間18内のオーディオコンテントをフレーム要素に分解する。その数および意味/タイプは、それぞれ期間18およびフレーム20ごとに同じである。上記のUSACコーデックに関しては、エンコーダが、たとえば、各期間18ごとのオーディオ信号16の同じ対を、フレーム20の要素22のチャネル対要素に符号化する一方で、他のオーディオ信号16については、単一チャネル符号化等の他の符号化原則を用いて単一チャネル要素22等を得るようにする。1以上のフレーム要素22により規定されるダウンミクスオーディオ信号からオーディオ信号のアップミクスを得るためのパラメータサイド情報を集めてフレーム20内に他のフレーム要素を形成する。この場合、このサイド情報を伝達するフレーム要素は他のフレーム要素の一種の拡張データに関連するかまたはこれを構成する。当然ながら、このような拡張は、多チャネルまたは多オブジェクトサイド情報に限定されない。
1つの可能性は、各フレーム要素22内で、それぞれのフレーム要素がどのタイプであるかを示すことである。このような過程は、ビットストリーム構文の将来の拡張への対処を図るため有利である。ある種のフレーム要素タイプを扱えないデコーダは、これらのフレーム要素内にあるそれぞれの長さ情報を使用することでビットストリーム内のそれぞれのフレーム要素を単純にスキップすることが考えられる。その上、異なるタイプの標準に準拠したデコーダという可能性を提供する。いくつかは、第1のタイプのセットを理解し、いくつかは、他のタイプのセットを理解しこれを扱うことができる。代替的な要素タイプは、それぞれのデコーダが単純に無視すると考えられる。さらに、エンコーダは、このような追加のフレーム要素を処理できるデコーダに、たとえばデコーダ内のバファリングの必要性を最小限にする順序で、フレーム20内のフレーム要素をフィードし得るように、判断に基づきフレーム要素をソートすることもできる。しかしながら、ビットストリームが、フレーム要素ごとにフレーム要素タイプ情報を伝達する必要がある点が不利であり、この必要性が、今度はビットストリーム12の圧縮率および復号化の複雑性に悪影響を及ぼすが、これは、それぞれのフレーム要素タイプ情報を調べるための構文解析オーバヘッドが各フレーム要素内に生じるためである。
その上、スキップすべきフレーム要素をスキップできるようにするため、ビットストリーム12は、潜在的にスキップすべきフレーム要素に関する上記の長さ情報を伝達する必要がある。今度はこの伝送のせいで圧縮効率が下がる。
当然ながら、従来の方法等によりフレーム要素22の順序をこれ以外に固定することも考えられるが、そのような過程によって、フレーム要素間で異なる順序を要するかまたは提案する等、将来の拡張フレーム要素の特定の特徴によって、エンコーダがフレーム要素を再構成する自由が阻害される。
さらに、長さ情報の伝送をより効果的に行うことができることが好ましい。
ISO/IEC14496−3:2009、4.1.12
したがって、ビットストリーム、エンコーダおよびデコーダそれぞれについての他の概念が必要である。
したがって、本発明の目的は、上記の問題を解決し、かつ、長さ情報伝送の効率的な方法の取得を図るビットストリーム、エンコーダおよびデコーダを提供することである。
この目的は、係属中の独立項の主題により達成される。
本発明は、スキップすることができるようにされるフレーム要素を、以下の構成により、より効率的に伝送し得るという知見に基づく。すなわち、デフォルトペイロード長さ情報をコンフィギュレーションブロック内で別に伝送し、フレーム要素内の長さ情報を今度はデフォルトペイロード長さフラグに細分化し、デフォルトペイロード長さフラグが設定されない場合には、これに、それぞれのフレーム要素のペイロード長さを明示的に符号化するペイロード長さ値が続くとする構成である。しかしながら、デフォルトペイロード長さフラグが設定されている場合には、ペイロード長さの明示的伝送を回避し得る。むしろ、そのデフォルト拡張ペイロード長さフラグが設定されるいずれかのフレーム要素は、デフォルトペイロード長さを有し、かつ、そのデフォルト拡張ペイロード長さフラグが設定されていないいずれかのフレーム要素は、ペイロード長さ値に対応するペイロード長さを有する。これにより、伝送の有効性が向上する。
本件の実施例によれば、ビットストリーム構文は、以下のような知見を利用してさらに設計される。すなわち、高すぎるビットストリームおよび復号化オーバヘッドと、フレーム要素位置決めの柔軟性とのより良い妥協が、ビットストリームのフレームのシーケンスの各々が、N個のフレーム要素のシーケンスを含み、かつビットストリームが要素数Nを表示するフィールドおよびタイプ表示構文部を含むコンフィギュレーションブロックを含み、タイプ表示構文部が、N個の要素位置のシーケンスの各要素位置について、複数の要素タイプのうちから要素タイプを表示し、フレームのN個のフレーム要素のシーケンスにおいて、各フレーム要素が、ビットストリームにおいてそれぞれのフレームのN個のフレーム要素のシーケンス内でそれぞれのフレーム要素が位置するそれぞれの要素位置について、タイプ表示部が表示する要素タイプである構成により得られるとする知見に基づく。このように、各フレームが、同じ順序でビットストリーム内に位置するタイプ表示構文部により表示されるフレーム要素タイプのN個のフレーム要素の同じシーケンスを含む点で、フレームは等しく構成される。この順序は、N個の要素位置のシーケンスの各要素位置について、複数の要素タイプのうちから要素タイプを表示するタイプ表示構文部を使用することによりフレームのシーケンスについて共通に調節可能である。
これにより、フレーム要素タイプは、エンコーダの判断等いずれの順序にも配列が可能であり、それにより、たとえば使用されるフレーム要素タイプについて最も適切な順序を選ぶようにできる。
複数の要素タイプは、たとえば、特定の拡張要素をサポートしないデコーダが、長さ情報をスキップインターバル長さとして使用して拡張要素タイプのこれらのフレーム要素をスキップできるように、それぞれのフレーム要素の長さについて長さ情報を含む拡張要素タイプのフレーム要素のみを有する拡張要素タイプを含み得る。他方、拡張要素タイプのこれらのフレーム要素を扱うことができるデコーダは、応じて、そのコンテントまたはペイロード部を処理する。他の要素タイプのフレーム要素は、このよう長さ情報を含み得ない。上記のより詳細な実施例に従って、エンコーダがフレームのフレーム要素のシーケンス内で拡張要素タイプのこれらのフレーム要素を自由に位置決めできれば、デコーダでのバファリングオーバヘッドは、フレーム要素タイプの順序を適切に選択し、かつ、タイプ表示構文部内にこれを信号伝達することにより最小化され得る。
本発明の実施例の効果的な実現が従属項の主題である。
さらに、本件の好ましい実施例について以下に図面を参照して説明する。
実施例によるエンコーダならびにその入力および出力の模式ブロック図である。 実施例によるデコーダならびにその入力および出力の模式ブロック図である。 実施例によるビットストリームの模式図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 実施例によるビットストリームの具体的構文を示す疑似コードの表を示す図である。 USACエンコーダおよびデコーダのブロック図である。 USACエンコーダおよびデコーダのブロック図である。 エンコーダおよびデコーダの典型的な対を示す図である。
図1は、実施例によるエンコーダ24を示す。エンコーダ24は、オーディオコンテント10をビットストリーム12に符号化するためのものである。
本件明細書の導入部に記載のとおり、オーディオコンテント10は、いくつかのオーディオ信号16の集まりであることが可能である。オーディオ信号16はたとえば空間オーディオシーンの個々のオーディオチャネルを表す。代替的には、オーディオ信号16は、復号化側で自由にミキシングするための、ともにオーディオシーンを規定するオーディオオブジェクトのセットからなるオーディオオブジェクトを構成する。オーディオ信号16は、26で示す共通の時間軸tで規定される。すなわち、オーディオ信号16は、同じ時間間隔に関連し、かつ、従って相互に時間整列し得る。
エンコーダ24は、各フレーム20がオーディオコンテント10の期間18のそれぞれ1つを表すように、オーディオコンテント10の連続する期間18をフレーム20のシーケンスに符号化するよう構成される。エンコーダ24は、ある意味においては、各フレーム20がフレーム要素の要素数Nのシーケンスを含むように各期間を同じ態様で符号化するよう構成される。各フレーム20内では、各フレーム要素22が複数の要素タイプのそれぞれの1つであり、かつある要素位置にあるフレーム要素22が同じまたは等しい要素タイプであるということが成り立つ。特に、フレーム20のシーケンスがフレーム要素22のN個のシーケンスの構成であり、各フレーム20が、それぞれフレーム要素22のN個のシーケンスの各々からの1つのフレーム要素22を含み、かつ、フレーム要素22の各シーケンスについて、フレーム要素22が相互に等しい要素タイプになるように、各フレーム要素22が複数の要素タイプのうちのそれぞれの1つである。以下の実施例においては、ある要素位置に位置するフレーム要素22が同じまたは等しい要素タイプであり、かつ、以下においてサブストリームと呼ぶこともあるフレーム要素のN個のシーケンスのうちの1つを構成するように、各フレーム20内のN個のフレーム要素が、ビットストリーム12内に配列される。すなわち、フレーム20における第1のフレーム要素22は同じ要素タイプであり、フレーム要素の第1のシーケンス(またはサブストリーム)を構成し、全フレーム20の第2のフレーム要素22は、相互に等しい要素タイプからなり、フレーム要素の第2のシーケンスを構成する等である。しかしながら、以下の実施例のこの局面は随意に過ぎず、以下に説明する実施例のすべてがこの点に関して変形可能である点を強調しておく。たとえば、各フレーム20内のN個のサブストリームのフレーム要素間の順序をコンフィギュレーションブロック内のサブストリームの要素タイプに関する情報の伝達に一定に保つ代わりに、各フレーム20内のサブストリーム間の順序が異なるフレーム間で変わり得るように、フレーム要素のそれぞれの要素タイプをフレーム要素構文自体に含めるということで、以下に説明する実施例のすべてを修正することができる。当然ながら、このような変形例では、以下に説明するような伝送有効性に関する利点を犠牲にすることになる。さらに代替的には、コンフィギュレーションブロック内に表示の必要がなくなるように順序を固定して、従来どおりなんらかの形で予め規定することもできる。
以下に詳説するとおり、フレーム20のシーケンスにより伝達されるサブストリームは、デコーダによるオーディオコンテントの再構成を可能にする情報を伝達する。サブストリームのいくつかは必要不可欠であるのに対して、随意であってデコーダのいくつかによってはスキップしても構わないものもある。たとえば、サブストリームのいくつかは、他のサブストリームに関するサイド情報を表し得るが、不可欠ではないものもある。これについては、以下に詳細に述べる。しかしながら、デコーダがフレーム要素のいくつか、より厳密には、フレーム要素のシーケンスの少なくとも一つのフレーム要素、すなわちサブストリームのいくつかをスキップできるようにするために、エンコーダ24は、コンフィギュレーションブロック28をビットストリーム12に書き込むよう構成されるが、これは、デフォルトペイロード長さに関するデフォルトペイロード長さ情報を含む。また、この少なくとも一つのサブストリームの各フレーム要素22について、エンコーダは、長さ情報をビットストリーム12に書き込むが、これは、この少なくとも一つのサブストリームのフレーム要素22の少なくともサブセットについて、デフォルトペイロード長さフラグを含み、デフォルトペイロード長さフラグが設定されていなければ、ペイロード長さ値が後に続く。そのデフォルト拡張ペイロード長さフラグが設定されているフレーム要素22のシーケンスの少なくとも一つのうちのいずれかのフレーム要素は、デフォルトペイロード長さを有し、かつ、そのデフォルト拡張ペイロード長さフラグ64が設定されていないフレーム要素22のシーケンスのこの少なくとも一つのいずれかのフレーム要素は、ペイロード長さ値に対応するペイロード長さを有する。これにより、スキップ可能なサブストリームの各フレーム要素のペイロード長さの明示的な伝送が回避され得る。むしろ、このようなフレーム要素により伝達されるペイロードタイプに依存して、フレーム要素ごとに何度も繰り返しペイロード長さを明示的に伝送するよりも、デフォルトペイロード長さを参照することにより、伝送有効性が多大に向上するようなペイロード長さの統計にできる。
このように、ビットストリームについてやや一般的に説明したが、以下では、より具体的な実施例についてより詳細に説明する。上記のとおり、これらの実施例においては、連続するフレーム20内のサブストリームの間で一定だが、調整可能な順序は、随意の特徴を表すにすぎず、これらの実施例において変更可能である。
実施例によれば、たとえばエンコーダ24は、複数の要素タイプが以下を含むように構成される。
a)たとえば単一チャネル要素タイプのフレーム要素が、1つの単一オーディオ信号を表すために、エンコーダ24により生成され得る。よって、フレーム20内のある要素位置、たとえば0>i>N+1のi番目の要素フレームで、したがって、フレーム要素のi番目のサブストリームを構成する等のフレーム要素22のシーケンスは、ともにこのような単一オーディオ信号の連続する期間18を表すと考えられる。こうして表されるオーディオ信号は、オーディオコンテント10のオーディオ信号16のいずれか1つに直接対相当し得る。しかしながら、代替的には、以下に詳説するとおり、このように表されるオーディオ信号は、ダウンミクス信号からの1チャネルであることが可能であり、これは、フレーム20内の他の要素位置にある他のフレーム要素タイプのフレーム要素のペイロードデータと共に、オーディオコンテント10のいくつかのオーディオ信号16を生成し、それは、上記のダウンミクス信号のチャネル数より多い。以下に詳説する実施例の場合には、このような単一チャネル要素タイプのフレーム要素は、UsacSingleChannelElementと記される。MPEGサラウンドおよびSAOCの場合、たとえば、MPEGサラウンドの場合にはモノ、ステレオまたは多チャネルの可能性さえある単一ダウンミクス信号が存在するに過ぎない。後者の場合には、たとえば、5.1ダウンミクスは、2つのチャネル対要素および1つの単一チャネル要素から構成される。この場合、単一チャネル要素および2つのチャネル対要素は、ダウンミクス信号の一部分に過ぎない。ステレオダウンミクスの場合には、チャネル対要素が使用される。
b)チャネル対要素タイプのフレーム要素は、オーディオ信号のステレオ対を表すように、エンコーダ24により生成され得る。つまり、このタイプのフレーム要素22は、フレーム20内の共通の要素位置に置かれるが、ともにこのようなステレオオーディオ対の連続する期間18を表すフレーム要素のそれぞれのサブストリームを構成すると考えられる。こうして表されるオーディオ信号のステレオ対は、そのままオーディオコンテント10のオーディオ信号16のいずれかの対か、または他の要素位置に位置する他の要素タイプのフレーム要素のペイロードデータと共にオーディオコンテント10の2を超える数のオーディオ信号16を生成するダウンミクス信号を表すことが可能である。以下に詳説する実施例においては、このようなチャネル対要素タイプのフレーム要素は、UsacChannelPairElementとして記される。
c)サブウーファ(subwoofer)チャネル等のより低い帯域幅を必要とするオーディオコンテント10のオーディオ信号16に関する情報を伝達するために、エンコーダ24は、特定のタイプのフレーム要素を、単一のオーディオ信号の連続する期間18等を表す共通の要素位置に位置するこのようなタイプのフレーム要素でサポートし得る。このオーディオ信号は、そのままオーディオコンテント10のオーディオ信号16のいずれかかまたは単一チャネル要素タイプおよびチャネル対要素タイプに関してすでに述べたダウンミクス信号の一部であることが可能である。以下に詳説する実施例では、このような特定のフレーム要素タイプのフレーム要素は、UsacLfeElementと記される。
d)タイプa、bおよび/またはcのいずれかのフレーム要素が表すオーディオ信号のいずれかをデコーダがアップミクスしてより多い数のオーディオ信号を得ることができるように、ビットストリームと共にサイド情報を伝達するよう、拡張要素タイプのフレーム要素をエンコーダ24により生成することができる。このような拡張要素タイプのフレーム要素は、フレーム20内のある共通の要素位置に置かれ、よってより多い数のオーディオ信号のそれぞれの期間が得られるように、他のフレーム要素のいずれかにより表される1以上のオーディオ信号のそれぞれの期間のアップミクスを可能にする連続する期間18に関連するサイド情報を伝達する。後者は、オーディオコンテント10の元のオーディオ信号16に対応し得る。このようなサイド情報の例は、たとえばMPSまたはSAOCサイド情報等のパラメトリックサイド情報である。
以下に詳説する実施例によれば、入手可能な要素タイプは、上記の4つの要素タイプからなるに過ぎないが、他の要素タイプも入手可能かもしれない。他方で、要素タイプa〜cのうち1つまたは2つのみが入手可能かもしれない。
上記の説明から明らかなとおり、ビットストリーム12から拡張要素タイプのフレーム要素22を省くことまたは復号化においてこれらのフレーム要素を無視することで、オーディオコンテント10の再構成が完全にできなくなるというわけではない。少なくとも、他の要素タイプの残りのフレーム要素が、オーディオ信号を生成するために十分な情報を伝達する。これらのオーディオ信号は、オーディオコンテント10の元のオーディオ信号またはその適切なサブセットに必ずしも対応しているわけではないが、オーディオコンテント10の一種の「アマルガム」(混合物)を表わす。すなわち、拡張要素タイプのフレーム要素は、フレーム20内の異なる要素位置の1以上のフレーム要素に関するサイド情報を表す情報(ペイロードデータ)を伝達し得る。
しかしながら、以下の実施例では、拡張要素タイプのフレーム要素は、この種のサイド情報伝達に限定されない。むしろ、拡張要素タイプのフレーム要素は、以下では、UsacExtElementと表記され、長さ情報と共にペイロードデータを伝達するものと規定され、後者の長さ情報が、ビットストリーム12を受信するデコーダを可能化し、それによりデコーダがこれらのフレーム要素内のそれぞれのペイロードデータを処理できない場合等は、拡張要素タイプのこれらのフレーム要素をスキップするようになっている。これについては以下に詳説する。
しかし、図1のエンコーダの説明に進む前に、上記の要素タイプについては代替例としていくつかの可能性が存在する。これは、上記の拡張要素タイプについては特に当てはまる。特に、そのペイロードデータが、たとえば、それぞれのペイロードデータを処理できないデコーダによってスキップ可能なように拡張要素タイプが構成されている場合、これらの拡張要素タイプのフレーム要素のペイロードデータは、いずれかのペイロードデータタイプの可能性がある。このペイロードデータは、他のフレーム要素タイプの他のフレーム要素のペイロードデータに関するサイド情報を構成するかまたは、たとえば他のオーディオ信号を表す自己完結のペイロードデータを構成できる。さらに、他のフレーム要素タイプのフレーム要素のペイロードデータのサイド情報を表す拡張要素タイプのフレーム要素のペイロードデータの場合でさえ、これら拡張要素タイプフレーム要素のペイロードデータは上記の種類、すなわち多チャネルまたは多オブジェクトサイド情報には限定されない。多チャネルサイド情報ペイロードは、たとえば他の要素タイプのフレーム要素のいずれかが表すダウンミクス信号に、インタチャネルコヒーレンス値(ICC)、インタチャネルレベル差(ICLD)および/またはインタチャネル時間差(ICTD)等、バイナリキュー符号化(BCC)パラメータ等の空間キュー、ならびに随意にはそのパラメータがMPEGサラウンド標準等からの先行技術において知られるチャネル予測係数等を伴う。上記の空間キューパラメータは、たとえば、時間/周波数分解能における拡張要素タイプのフレーム要素のペイロードデータ内、すなわち時間/周波数グリッドの時間/周波数タイルごとに1つのパラメータで送信され得る。多オブジェクトサイド情報の場合には、拡張要素タイプフレーム要素のペイロードデータは、インタオブジェクトクロス相関(IOC)パラメータ、オブジェクトレベル差(OLD)、および他の要素タイプのフレーム要素のいずれかにより表されるダウンミクス信号のチャネルへ元のオーディオ信号がどのようにダウンミクスされたかを明らかにするダウンミクスパラメータ等、同様の情報を含み得る。後者のパラメータは、たとえば、SAOC標準から当該技術分野では既知である。しかしながら、拡張要素タイプフレーム要素のペイロードデータが表すことができる異なるサイド情報の例は、たとえばフレーム20内の異なる要素位置にある他のフレーム要素タイプのフレーム要素のいずれかが表すオーディオ信号の高周波数部のエンベロープをパラメトリック的に符号化し、かつ、高周波数部の基礎として後者のオーディオ信号から得られる低周波数部の使用により空間帯域の複製を可能にするためのSBRデータであり、そして、たとえばSBRデータのエンベロープによりこうして得られる高周波数部のエンベロープを形成する。より一般的には、拡張要素タイプのフレーム要素のペイロードデータが、時間領域または周波数領域いずれかのフレーム20内部の異なる要素位置にある他の要素タイプのいずれかのフレーム要素により表されるオーディオ信号を修正するためのサイド情報を伝達できる。周波数領域とは、たとえばQMF領域または他のフィルタバンク領域または変換領域が可能である。
図1のエンコーダ24の機能性をさらに説明するが、エンコーダ24は、要素数Nを表示するフィールドと、N個の要素位置のシーケンスの各要素位置について、それぞれの要素タイプを表示するタイプ表示構文部とを含むコンフィギュレーションブロック28をビットストリーム12に符号化するよう構成される。応じて、エンコーダ24は、ビットストリーム12のN個のフレーム要素22のシーケンス内にあるそれぞれの要素位置にあるN個のフレーム要素22のシーケンスの各フレーム要素22が、それぞれの要素位置についてタイプ表示部により表示される要素タイプになるように、各フレーム20について、N個のフレーム要素22のシーケンスをビットストリーム12に符号化するよう構成される。言い換えれば、エンコーダ24がN個のサブストリームを構成し、その各々が、それぞれの要素タイプのフレーム要素22のシーケンスである。つまり、これらのN個のサブストリームのすべてについて、フレーム要素22が等しい要素タイプであり、一方、異なるサブストリームのフレーム要素が、異なる要素タイプになり得る。エンコーダ24は、1つの共通の期間18に関連するこれらのサブストリームのN個のフレーム要素すべてを連結することによりこれらのフレーム要素のすべてを多重化してビットストリーム12にし、1つのフレーム20を構成するよう構成される。これにより、ビットストリーム12では、これらのフレーム要素22がフレーム20内に配列される。各フレーム20内では、N個のサブストリームを表すもの、すなわち同じ期間18に関するN個のフレーム要素が、要素位置のシーケンスおよびコンフィギュレーションブロック28におけるタイプ表示構文部それぞれにより規定される静的順序で配列される。
タイプ表示構文部を使用することにより、エンコーダ24は、順序を自由に選択することができ、これを利用してN個のサブストリームのフレーム要素22は、フレーム20内に配列される。これにより、エンコーダ24は、たとえば復号化側のバファリングオーバヘッドをできる限り低く保つことができる。たとえば、他のサブストリーム(ベースサブストリーム)のフレーム要素についてのサイド情報を伝達する拡張要素タイプのフレーム要素のサブストリームは、非拡張要素タイプであり、フレーム20においてこれらのベースサブストリームフレーム要素が位置する要素位置の直後のフレーム20内の要素位置に配置され得る。これにより、復号化側が、サイド情報を付与するためベースサブストリームを復号化した結果または中間結果をバッファする必要があるバッファ時間を低く保ち、かつ、バッファオーバヘッドを減じることができる。フレーム要素22(ベースサブストリーム)の他のサブストリームにより表すオーディオ信号の周波数領域等の中間結果に、拡張要素タイプであるサブストリームのフレーム要素のペイロードデータのサイド情報が付与される場合には、すぐにベースサブストリームに追随するように拡張要素タイプフレーム要素22のサブストリームを位置決めすれば、バッファオーバヘッドが最小化するのみならず、デコーダが、表現されるオーディオ信号の再構成のさらなる処理を遮断する必要がある持続時間も最小化される。これは、たとえば、拡張要素タイプフレーム要素のペイロードデータがベースサブストリームの表現に相対的にオーディオ信号の再構成を修正することになるからである。しかしながら、拡張サブストリームが帰する、オーディオ信号を表すそのべースサブストリームに先立って、従属する拡張サブストリームの位置決めすることが好ましいかもしれない。たとえば、エンコーダ24は、チャネル要素タイプサブストリームに対して上流のビットストリーム内に拡張ペイロードのサブストリームを自由に位置決めする。たとえば、サブストリームiの拡張ペイロードは、動的範囲制御(DRC)データを伝達することが可能であり、かつ、たとえば要素位置i+1のチャネルサブストリーム内の周波数領域(FD)符号化を介する等対応のオーディオ信号の符号化に先立ってまたはより早いの要素位置iにおいて送信される。その後、デコーダは、非拡張タイプサブストリームi+1により表すオーディオ信号を復号化かつ再構成する際に直接的にDRCを使用することができる。
ここまで説明したエンコーダ24は、本件の可能な実施例を表す。しかしながら、図1には、単に説明として理解すべきエンコーダの可能な内部構造も示す。図1に示すとおり、エンコーダ24は、ディストリビュータ(distributor)30およびシーケンシャライザ(sequentializer)32を含み、その間に様々な符号化モジュール34a〜34eが以下に詳説する態様で接続される。特に、ディストリビュータ30は、オーディオコンテント10のオーディオ信号16を受信し、かつ、これを個々の符号化モジュール34a〜34eへ分配するよう構成される。ディストリビュータ30がオーディオ信号16の連続期間18を符号化モジュール34a〜34eへ分配する態様は静的である。特に、分配は、各オーディオ信号16を符号化モジュール34a〜34cの1つに排他的に転送するようにしてもよい。LFEエンコーダ34aへフィードされるオーディオ信号は、LFEエンコーダ34aにより、たとえば、タイプc(上記参照)のフレーム要素22のサブストリームに符号化される。単一チャネルエンコーダ34bの入力にフィードされたオーディオ信号は、たとえば、タイプa(上記参照)のフレーム要素22のサブストリームへ後者により符号化される。同様に、チャネル対エンコーダ34cの入力にフィードされたオーディオ信号の対は、後者により、たとえば、タイプd(上記参照)のフレーム要素22のサブストリームへ符号化される。上記の符号化モジュール34a〜34cは、ディストリビュータ30とシーケンシャライザ32との間で、その入力と出力に接続される。
しかしながら、図1に示すように、符号化モジュール34bおよび34cの入力は、ディストリビュータ30の出力インタフェースに接続されているだけではない。むしろ、これらは、符号化モジュール34dおよび34eのいずれかの出力信号によりフィードされ得る。後者の符号化モジュール34dおよび34eは、いくつかのインバウンドオーディオ信号をより少ない数のダウンミクスチャネルのダウンミクス信号におよびタイプd(上記参照)のフレーム要素22のサブストリームに符号化するよう構成される符号化モジュールの例である。上記の説明から明らかなとおり、符号化モジュール34dは、SAOCエンコーダであり、かつ符号化モジュール34eは、MPSエンコーダであり得る。ダウンミクス信号は、符号化モジュール34bおよび34cのいずれかへ転送される。符号化モジュール34a〜34eにより生成されたサブストリームは、これらを上記のとおりビットストリーム12に順序決めするシーケンシャライザ32へ転送される。これにより、符号化モジュール34dおよび34eは、ディストリビュータ30の出力インタフェースに接続されるいくつかのオーディオ信号のためのそれらの入力を有し、一方で、それらのサブストリーム出力がシーケンシャライザ32の入力インタフェースに接続され、かつそれらのダウンミクス出力が符号化モジュール34bおよび/または34cの入力にそれぞれ接続される。
なお、上記の説明では、多オブジェクトエンコーダ34dおよび多チャネルエンコーダ34eの存在は、例示的目的のためのみに選択されており、これらの符号化モジュール34dおよび34eのいずれかを省くか他の符号化モジュール等により置換してもよい。
エンコーダ24およびその考えられる内部構造について説明した後、対応のデコーダについて図2を参照して説明する。図2のデコーダは、一般に参照番号36で示し、ビットストリーム12を受信するための入力と、オーディオコンテント10の再構成したもの38またはそのアマルガムを出力するための出力とを有する。よって、デコーダ36は、図1に示すコンフィギュレーションブロック28およびフレーム20のシーケンスを含むビットストリーム12を復号化し、かつ、それぞれのフレーム要素22がビットストリーム12におけるそれぞれのフレーム20のN個のフレーム要素22のシーケンス内に位置するそれぞれの要素位置についてタイプ表示部により示す要素タイプに従ってフレーム要素22を復号化することにより各フレーム20を復号化するよう構成される。すなわち、デコーダ36は、フレーム要素自体の内部の何らかの情報よりもむしろ現在のフレーム20内のその要素位置に依拠する可能な要素タイプの1つに各フレーム要素22を割り当てるよう構成される。これにより、デコーダ36は、N個のサブストリームを取得し、第1のサブストリームは、フレーム20の第1のフレーム要素から構成され、第2のサブストリームは、フレーム20内の第2のフレーム要素22から構成され、第3のサブストリームは、フレーム20内の第3のフレーム要素22から構成される等である。
拡張要素タイプフレーム要素についてより詳細にデコーダ36の機能性について説明する前に、図2のデコーダ36の可能な内部構造について、図1のエンコーダ24の内部構造と対応するように詳説する。エンコーダ24について説明したとおり、内部構造については例示的に示すものとしてのみ理解されたい。
特に、図2に示すとおり、デコーダ36は、内部にディストリビュータ40およびアレンジャ(arranger)42を備え、その間に復号化モジュール44a〜44eが接続される。各復号化モジュール44a〜44cは、ある種のフレーム要素タイプのフレーム要素22のサブストリームを復号化する役割を果たす。したがって、ディストリビュータ40は、復号化モジュール44a〜44eに対してビットストリーム12のN個のサブストリームを分配するよう構成される。たとえば、復号化モジュール44aは、その出力に狭帯域(たとえば)オーディオ信号を取得するようタイプc(上記を参考)のフレーム要素22のサブストリームを復号化するLFEデコーダである。同様に、単一チャネルのデコーダ44bは、要素タイプa(上記を参照)のフレーム要素22のインバウンドサブストリームを復号化して、その出力に単一オーディオ信号を取得し、かつチャネル対デコーダ44cは、タイプb(上記を参照)のフレーム要素22のインバウンドサブストリームを復号化して、その出力にオーディオ信号の対を取得する。復号化モジュール44a〜44cは、それらの入力と出力とが、ディストリビュータ40の出力インタフェースとアレンジャ42の入力インタフェースとの間に接続される。
デコーダ36は、復号化モジュール44a〜44cを有するのみでよい。他の復号化モジュール44eおよび44dは、拡張要素タイプのフレーム要素を引き受けるので、オーディオコーデックとの適合性に関する限り随意となる。これらの拡張モジュール44eおよび44dの両方またはいずれかが欠ける場合には、ディストリビュータ40は、以下に詳説するとおりビットストリーム12におけるそれぞれの拡張フレーム要素サブストリームをスキップするよう構成され、かつオーディオコンテント10の再構成されたもの38は、オーディオ信号16を有する元のバージョンのアマルガムに過ぎない。
しかしながら、もし存在すれば、すなわち、デコーダ36が、SAOCおよび/またはMPS拡張フレーム要素をサポートする場合、多チャネルデコーダ44eは、エンコーダ34eが生成するサブストリームを復号化するよう構成され、一方で多オブジェクトデコーダ44dは、多オブジェクトエンコーダ34dにより生成されるサブストリームの復号化を引き受ける。よって、復号化モジュール44eおよび/または44dが存在する場合には、スィッチ46が、復号化モジュール44cおよび44bのうちのいずれかの出力を復号化モジュール44eおよび/または44dのダウンミクス信号入力と接続してもよい。多チャネルデコーダ44eは、ディストリビュータ40からのインバウンドサブストリーム内のサイド情報を使用してインバウンドダウンミクス信号をアップミクスして、その出力に増加した数のオーディオ信号を取得するよう構成され得る。多オブジェクトデコーダ44dは、多オブジェクトデコーダ44dが個別のオーディオ信号をオーディオオブジェクトとして扱うのに対して、多チャネルデコーダ44eがその出力でオーディオ信号をオーディオチャネルとして扱うという違いをつけて作用してもよい。
こうして再構成されたオーディオ信号は、アレンジャ42に転送され、アレンジャ42がこれらを配列して、再構成したもの38を構成する。アレンジャ42は、さらにユーザ入力48により制御されてもよく、このユーザ入力は、利用可能なラウドスピーカコンフィギュレーションまたは再構成38の可能な最大数のチャネルを示す。ユーザ入力48に依存して、アレンジャ42は、拡張フレーム要素がビットストリーム12内に存在していても、たとえば拡張モジュール44dおよび44eのいずれかのような復号化モジュール44a〜44eのいずれかを不能化し得る。
一般的に言って、デコーダ36が、ビットストリーム12を構文解析し、かつ、フレーム要素のシーケンスのサブセット、すなわちサブストリームに基づいてオーディオコンテントを再構成し、フレーム要素のシーケンスのサブセットに属さないフレーム要素22のシーケンスの少なくとも一つに対しては、ペイロード長さに関するデフォルトペイロード長さ情報を含む、フレーム要素22のシーケンスの少なくとも1つのコンフィギュレーションブロック28を読み出し、かつ、フレーム要素22のシーケンスの少なくとも1つの各フレーム要素22について、ビットストリーム12から長さ情報を読み出すよう構成され、長さ情報の読み出しが、フレーム要素22のシーケンスの少なくとも1つのフレーム要素22の少なくともサブセットについて、デフォルトペイロード長さフラグを読み出すことを含み、デフォルトペイロード長さフラグが設定されていなければ、ペイロード長さ値の読み出しが後に続くよう構成され得る。デコーダ36は、ビットストリーム12を構文解析する上で、そのデフォルト拡張ペイロード長さフラグが設定されている、フレーム要素のシーケンスの少なくとも1つのいずれかのフレーム要素を、デフォルトペイロード長さをスキップインターバル長さとして使用してスキップし、そのデフォルト拡張ペイロード長さフラグが設定されていないフレーム要素22のシーケンスの少なくとも1つのいずれかのフレーム要素をペイロード長さ値に対応するペイロード長さをスキップインターバル長さとして使用してスキップし得る。
以下に説明する実施例では、この機構は、拡張要素タイプのサブストリームのみに限定されるが、このような機構または構文部が1を超える数の要素タイプに適用できることは当然である。
デコーダ、エンコーダおよびビットストリームそれぞれの可能な詳細についてさらに説明する前に、エンコーダによる拡張要素タイプでないサブストリームのフレーム要素の間に拡張要素タイプのサブストリームのフレーム要素を分散させる能力により、デコーダ36のバッファオーバヘッドは、サブストリーム間の順序および各フレーム20内のサブストリームのフレーム要素間の順序をそれぞれ適切に選ぶエンコーダ24により減じられ得ることを承知されたい。たとえば、チャネル対デコーダ44cに入るサブストリームは、フレーム20内の第1の要素位置に配置され、一方、デコーダ44eの多チャネルサブストリームが、各フレームの最後に配置される。この場合、デコーダ36は、各フレーム20の第1のフレーム要素の到来と、最後のフレーム要素との間の時間にまたがる期間、多チャネルデコーダ44eのダウンミックス信号を表す中間オーディオ信号をバッファする必要があると考えられる。それで初めて多チャネルデコーダ44eがその処理を開始することができる。この延期は、たとえばフレーム20の第2の要素位置で多チャネルデコーダ44e専用のサブストリームを配列するエンコーダ24により回避され得る。一方、ディストリビュータ40は、サブストリームのいずれかについてそのメンバーシップに関して各フレーム要素を調べる必要はない。むしろ、ディストリビュータ40は、コンフィギュレーションブロックおよびそこに含まれるタイプ表示構文部から単純に現在のフレーム20の現在のフレーム要素22のN個のサブストリームのいずれかに対するメンバーシップを推定することができる。
ここで、上記のとおり、コンフィギュレーションブロック28およびフレーム20のシーケンスを含むビットストリーム12を示す図3を参照する。図3を見ると、右へ向かうビットストリーム部分は、左へ向かう他のビットストリーム部の位置に追随する。図3の場合、たとえば、コンフィギュレーションブロック28は、図3に示すフレーム20に先行するが、図3では、図示目的のみで、3つのフレーム20のみが完全に図示される。
さらに、コンフィギュレーションブロック28を、周期的または間欠的にフレーム20の間でビットストリーム12内へ挿入して、ストリーミング伝送アプリケーションにおいてランダムなアクセスポイントを設けることがきることを承知されたい。一般的には、コンフィギュレーションブロック28は、ビットストリーム12の単純に接続された部分でもよい。
コンフィギュレーションブロック28は、上記のとおり、要素の数Nすなわち、各フレーム20内のフレーム要素数Nおよびビットストリーム12に多重化されるサブストリームの数を示すフィールド50を含む。ビットストリーム12の具体的な構文の実施例を記述する以下の実施例において、フィールド50は、numElementsと記され、コンフィギュレーションブロック28は、図4a〜zおよびza〜zcの以下の特定の構文例においてはUsacConfigと呼ばれる。さらに、コンフィギュレーションブロック28は、タイプ表示構文部52を含む。上記のとおり、この部分52は、要素位置ごとに、複数の要素タイプの中から1つの要素タイプを示す。図3に示し、かつ、以下の特定の構文例に関しても同様に、タイプ表示構文部52は、N個の構文要素54のシーケンスを含むことが可能で、その各々の構文要素54は、それぞれの要素位置の要素タイプを示し、その位置において、それぞれの構文要素54は、タイプ表示構文部52の内部に位置する。言い換えれば、部分52内のi番目の構文要素54は、それぞれ、i番目のサブストリームの要素タイプと各フレーム20のi番目のフレーム要素とを示し得る。次に具体的な構文例では、構文要素は、UsacElementTypeと記される。タイプ表示構文部52は、ビットストリーム12内に、ビットストリーム12の単純に接続されるかまたは連続する部分として含まれ得るが、図3では、その要素54がN個の要素位置の各々について個別に存在するコンフィギュレーションブロック28の他の構文要素部と互いにかみ合って例示的に示される。以下に概略を述べる実施例では、このかみ合った構文部分は、サブストリームに特定的なコンフィギュレーションデータ55に関連し、その意味を以下により詳細に説明する。
上記のとおり、各フレーム20は、N個のフレーム要素22のシーケンスから構成される。これらのフレーム要素22の要素タイプは、フレーム要素22自体の内部ではそれぞれのタイプ表示部により信号伝達されない。むしろ、フレーム要素22の要素タイプは、各フレーム20内の要素位置により規定される。フレーム20において最初に生じるフレーム要素22は、図3では、フレーム要素22aと表示され、第1の要素位置を有し、かつ、コンフィギュレーションブロック28内の構文部52により第1の要素位置について表示される要素タイプとなる。同じことが後続のフレーム要素22に関して当てはまる。たとえば、ビットストリーム12内で第1のフレーム要素22aの直後に生じるフレーム要素22b、すなわち要素位置2を有する要素は、構文部52により示される要素タイプになる。
特定の実施例によれば、構文要素54は、それらの要素が帰するフレーム要素22と同じ順序でビットストリーム12内で配列される。第1の構文要素54、すなわちビットストリーム12内で第1に発生し、かつ、図3において最も左側に位置する要素は、各フレーム20の第1に生じるフレーム要素22aの要素タイプを示し、第2の構文要素54は、第2のフレーム要素22bの要素タイプを示す等ある。当然ながら、ビットストリーム12内の構文要素54および構文部52のシーケンシャルな順序または配列を、フレーム20内のフレーム要素22のシーケンシャルな順序に関して切り替えることもできる。他の入れ替えも可能だが、あまり好ましくないと考えられる。
デコーダ36については、これは、タイプ表示構文部52からN個の構文要素54からなるこのシーケンスを読み出すように構成され得ることを意味する。より厳密には、デコーダ36は、ビットストリーム12から読み出されるべき構文要素54の数Nについてわかるようにフィールド50を読み出す。上記のとおり、デコーダ36は、i番目の構文要素54がi番目のフレーム要素22と関連するように、構文要素とそれにより表示される要素タイプとをフレーム20内のフレーム要素22と関連付けるよう構成されてもよい。
上記の説明に加えて、コンフィギュレーションブロック28は、N個のコンフィギュレーション要素56のシーケンス55を含むことが可能で、各コンフィギュレーション要素56が、それぞれのコンフィギュレーション要素56がN個のコンフィギュレーション要素56のシーケンス55内に位置するそれぞれの要素位置に、要素タイプについてのコンフィギュレーション情報を含む。特に、コンフィギュレーション要素56のシーケンスがビットストリーム12に書き込まれる(かつデコーダ36によりビットストリーム12から読み出される)順序は、フレーム要素22および/または構文要素54それぞれについて使用されるものと同じ順序でもよい。つまり、ビットストリーム12において第1に生じるコンフィギュレーション要素56は、第1のフレーム要素22aについてのコンフィギュレーション情報、第2のコンフィギュレーション要素56、フレーム要素22bについてのコンフィギュレーション情報等を含む等である。上記のとおり、タイプ表示構文部52および要素位置に特定的なコンフィギュレーションデータ55が、図3の実施例では、要素位置iに関連するコンフィギュレーション要素56が、ビットストリーム12において、要素位置iおよび要素位置i+1についてのタイプ表示部54間に位置すると言う意味で、互いにインターリーブして示される。さらに言い換えれば、コンフィギュレーション要素56および構文要素54は、ビットストリームにおいて交互に配列され、そこからからデコーダ36により交互に読み出されるが、ブロック28内のビットストリーム12におけるこのデータの他の位置決めも、上記のとおり可能であると考えられる。
コンフィギュレーションブロック28において各要素位置1...Nそれぞれのコンフィギュレーション要素56を伝達することで、ビットストリームは、異なるサブストリームおよび要素位置に属するが同じ要素タイプのフレーム要素をそれぞれ異なって構成することが可能となる。たとえば、ビットストリーム12は、2つの単一チャネルサブストリームを含み、それに応じて各フレーム20内に単一チャネル要素タイプの2つのフレーム要素を含み得る。しかしながら、両方のサブストリームについてコンフィギュレーション情報をビットストリーム12において異なって調節することもできる。これは、図1のエンコーダ24が、これらの異なるサブストリームについてコンフィギュレーション情報内に異なって符号化パラメータを設定できることを意味し、デコーダ36の単一のチャネルデコーダ44bが、これら2つのサブストリームを復号化する際、これらの異なる符号化パラメータを使用することにより制御される。これは、他の復号化モジュールにも当てはまる。より一般的には、デコーダ36は、コンフィギュレーションブロック28からN個のコンフィギュレーション要素56のシーケンスを読出すよう構成され、i番目の構文要素54により表示される要素タイプに従って、かつ、i番目のコンフィギュレーション要素56により構成されるコンフィギュレーション情報を使用してi番目のフレーム要素22を復号化する。
図示目的で、図3において、第2のサブストリーム、すなわち各フレーム20内で第2の要素位置に発生するフレーム要素22bからなるサブストリームは、拡張要素タイプのフレーム要素22bからなる拡張要素タイプサブストリームを有する。当然ながら、これは説明目的のものに過ぎない。
さらに、ビットストリームまたはコンフィギュレーションブロック28が、構文部52により要素位置について示される要素タイプと無関係に要素位置ごとに1つのコンフィギュレーション要素56を含むのは、図示目的のみのことである。たとえば、代替的な実施例によれば、コンフィギュレーションブロック28によりコンフィギュレーション要素が含まれない1以上の要素タイプが存在可能で、後者の場合には、コンフィギュレーションブロック28内のコンフィギュレーション要素56の数は、構文部52およびフレーム20それぞれにおいて発生するこのような要素タイプのフレーム要素の数に依存するNより少ない数になり得る。
いずれしても、図3は、拡張要素タイプに関連するコンフィギュレーション要素56を構築するための他の例を示す。以下に説明する特定の構文の実施例では、これらのコンフィギュレーション要素56は、UsacExtElementConfigとして示される。完全を期す目的のみで、以下に説明する特定の構文の実施例では、他の要素タイプのコンフィギュレーション要素は、UsacSingleChannelElementConfig、UsacChannelPairElementConfigおよびUsacLfeElementConfigと表示されることを承知されたい。
しかしながら、拡張要素タイプについてコンフィギュレーション要素56の可能な構造を説明する前に、拡張要素タイプのフレーム要素の可能な構造、ここでは第2のフレーム要素22bを示す図3の部分を参照する。ここに示すとおり、拡張要素タイプのフレーム要素は、それぞれのフレーム要素22bの長さに関する長さ情報58を含み得る。デコーダ36は、各フレーム20の拡張要素タイプの各フレーム要素22bからこの長さ情報58を読み出すよう構成される。デコーダ36が、拡張要素タイプのこのフレーム要素が属するサブストリームを処理できないか、またはユーザの入力により処理しないよう命令された場合には、デコーダ36は、スキップインターバル長さ、すなわちスキップすべきビットストリームの部分の長さとして長さ情報58を使用してこのフレーム要素22bをスキップする。言い換えれば、デコーダ36は、長さ情報58を使用して、バイト数を計算するかまたは他の適切な手段を用いてビットストリームインターバル長さを規定し、この長さは、現在のフレーム20内の次のフレーム要素または次の後続フレーム20の開始にアクセスまたは訪問してビットストリーム12の読出しをさらに実行するまでスキップされることになる。
以下により詳細に説明するように、拡張要素タイプのフレーム要素は、オーディオコーデックの将来のもしくは代替的な拡張または開発に対処するよう構成され、応じて拡張要素タイプのフレーム要素は、異なる統計的長さ分布を有し得る。いくつかのアプリケーションに従ってあるサブストリームの拡張要素タイプフレーム要素は、一定の長さか、または非常に狭い統計的長さ分布を有する可能性を利用するために、本出願のいくつかの実施例では、拡張要素タイプのためのコンフィギュレーション要素56は、図3に示すようなデフォルトペイロード長さ情報60を含み得る。この場合、それぞれのサブストリームの拡張要素タイプのフレーム要素22bが、ペイロード長さを明示的に送信する代わりに、それぞれのサブストリームについてのそれぞれのコンフィギュレーション要素56内に含まれるデフォルトペイロード長さ情報60を参照することができる。特に、図3に示すとおり、その場合には、デフォルトペイロード長さフラグ64が設定されていなければ、拡張ペイロード長さ値66が後に続くデフォルト拡張ペイロード長さフラグ64の形で、長さ情報58が、条件構文部62を含み得る。拡張要素タイプのいずれかのフレーム要素22bは、拡張要素タイプのそれぞれのフレーム要素22bの長さ情報62のデフォルト拡張ペイロード長さフラグ64が設定されている場合には、対応のコンフィギュレーション要素56において情報60が示すデフォルト拡張ペイロード長さを有し、拡張要素タイプのそれぞれのフレーム22bの長さ情報58のデフォルト拡張ペイロード長さフラグ64が設定されていない場合には、拡張要素タイプのそれぞれのフレーム要素22bの長さ情報58の拡張ペイロード長さ値66に対応する拡張ペイロード長さを有する。つまり、拡張ペイロード長さ値66の明示的な符号化は、それぞれ対応のサブストリームおよび要素位置のコンフィギュレーション要素56内のデフォルトペイロード長さ情報60が示すデフォルト拡張ペイロード長さを単純に参照することができる場合は常に、エンコーダ24により回避され得る。デコーダ36は以下のように動作する。デコーダ36は、コンフィギュレーション要素56の読み出しの際にデフォルトペイロード長さ情報60を読み出す。対応のサブストリームのフレーム要素22bを読み出す際には、デコーダ36は、これらフレーム要素の長さ情報を読み出す上で、デフォルトペイロード長さフラグ64を読み出し、かつ、これが設定されているかどうかをチェックする。デフォルトペイロード長さフラグ64が設定されていない場合には、デコーダは、ビットストリームからの条件構文部62の拡張ペイロード長さ値66の読み出を続け、それぞれのフレーム要素の拡張ペイロード長さを取得する。しかしながら、デフォルトペイロードフラグ64が設定されている場合には、デコーダ36は、それぞれのフレームの拡張ペイロード長さを情報60から生成されるデフォルト拡張ペイロード長さに等しくなるよう設定する。デコーダ36をスキップすることは、スキップインターバル長さ、すなわち現在のフレーム20の次のフレーム要素22または次のフレーム20の始まりにアクセスするように、スキップすべきビットストリーム12の部分の長さとして決定されたばかりの拡張ペイロード長さを使用して現在のフレーム要素のペイロードセクション68をスキップすることを含み得る。
したがって、上記のとおり、あるサブストリームの拡張要素タイプのフレーム要素のペイロード長さをフレームごとに繰り返し送信する事態は、これらのフレーム要素のペイロード長さの多様性がむしろ低い場合には常にフラグ機構64を用いて回避し得る。
しかしながら、あるサブストリームの拡張要素タイプのフレーム要素により伝達されるペイロードが、フレーム要素のペイロード長さに関するそのような統計値を有するかどうか、かつ、応じて拡張要素タイプのフレーム要素のこのようなサブストリームのコンフィギュレーション要素において明示的にデフォルトペイロード長さを送信することに意義があるかどうかは、演繹的に明白ではないので、他の実施例によれば、デフォルトペイロード長さ情報60も後続の特定の構文例においてUsacExtElementDefaultLengthPresentと呼ばれ、かつ、デフォルトペイロード長さの明示的な送信が生じるかどうかを示すフラグ60aを含む条件構文部により実現される。設定されるだけで、条件構文部は、以下の特定の構文例において、UsacExtElementDefaultLengthと呼ぶデフォルトペイロード長さの明示的な送信60bを含む。他の態様では、デフォルトペイロード長さは、デフォルトで0に設定される。デフォルトペイロード長さの明示的な送信が回避されるので、後者の場合、ビットストリームビットの消費が節約される。すなわち、デコーダ36(および上記および以下に記載するすべての読み出過程を引き受けるディストリビュータ40)は、デフォルトペイロード長さ情報60を読み出す上では、ビットストリーム12からのデフォルトペイロード長さプレゼントフラグ60aを読み出し、デフォルトペイロード長さプレゼントフラグ60aが設定されているかどうかチェックし、デフォルトペイロード長さプレゼントフラグ60aが設定されていれば、デフォルト拡張ペイロード長さをゼロになるように設定し、デフォルトペイロード長さプレゼントフラグ60aが設定されていなければ、ビットストリーム12(すなわちフラグ60aに続くフィールド60b)からデフォルト拡張ペイロード長さ60bを明示的に読み出す。
デフォルトペイロード長さ機構に加えてまたはこれに対して代替的には、長さ情報58は、拡張ペイロードプレゼントフラグ70を含むことが可能で、その長さ情報58の拡張ペイロードプレゼントフラグ70がセットされていない拡張要素タイプのいずれかのフレーム22bは、単に拡張ペイロードプレゼントフラグのみからなり、それだけである。つまり、ペイロードセクション68はない。一方、その長さ情報58のペイロードデータプレゼントフラグ70が設定されている拡張要素タイプのなんらかのフレーム要素22bの長さ情報58は、それぞれのフレーム22bの拡張ペイロード長さ、すなわちペイロードセクション68の長さを示す構文部62または66をさらに含む。デフォルトペイロード長さ機構に加えて、すなわちデフォルト拡張ペイロード長さフラグ64と組み合わせて、拡張ペイロードプレゼントフラグ70が2つの効果的に符号化可能なペイロード長さ、すなわちゼロとデフォルトペイロード長さすなわち最も可能性の高いペイロード長さを拡張要素タイプの各フレーム要素に付与することを可能にする。
拡張要素タイプの現在のフレーム要素22bの長さ情報58を構文解析または読み出す上で、デコーダ36は、ビットストリーム12から拡張ペイロードプレゼントフラグ70を読み出して、拡張ペイロードプレゼントフラグ70が設定されているかどうかをチェックし、拡張ペイロードプレゼントフラグ70が設定されていない場合には、それぞれのフレーム要素22bの読み出しを止めて、現在のフレーム20の他の、次のフレーム要素22の読み出しを続けるかまたは次のフレーム20の読み出しまたは構文解析を開始する。ペイロードデータプレゼントフラグ70が設定されている場合には、デコーダ36は、構文部62かまたは少なくとも部分66(この機構が入手可能でないので、フラグ64が存在しない場合)を読み出し、かつ、スキップし、現在のフラグ要素22のペイロードをスキップする場合には、スキップインターバル長さとして拡張要素タイプのそれぞれのフレーム要素22bの拡張ペイロード長さを使用することによりペイロードセクション68を読み出す。
上記のとおり、オーディオコーデックの将来の拡張または現在のデコーダが適していない他の拡張について対処するために、拡張要素タイプのフレーム要素が設けられてもよく、かつこれにより拡張要素タイプのフレーム要素を構成可能にする必要がある。特に、実施例によれば、コンフィギュレーションブロック28が、それについてタイプ表示部52が拡張要素タイプを示す要素位置ごとに、拡張要素タイプに関するコンフィギュレーション情報を含むコンフィギュレーション要素56を含み、コンフィギュレーション情報が、上記の構成要素に付加的にまたは代替的に、複数のペイロードデータタイプから1つのペイロードデータタイプを示す拡張要素タイプフィールド72を含む。複数のペイロードデータタイプは、実施例によれば、将来の開発等に備えた他のデータタイプ以外に、多チャネルサイド情報タイプおよび多オブジェクト符号化サイド情報タイプを含む。表示されるペイロードデータタイプに依存して、コンフィギュレーション要素56は、ペイロードデータタイプに特定的なコンフィギュレーションデータをさらに含む。したがって、対応の要素位置およびそれぞれのサブストリームのフレーム要素22bは、そのペイロードセクション68で、表示されるペイロードデータタイプに対応するペイロードデータを伝達する。ペイロードタイプに特定的なコンフィギュレーションデータ74の長さのペイロードデータタイプへの適合を図るため、かつさらなるペイロードデータタイプの将来の開発に備えるため、以下に記載する特定の構文の実施例は、現在のサブストリームについて表示されるペイロードデータタイプに気づいていないデコーダ36が、コンフィギュレーション要素56およびそのペイロードデータタイプに特定的なコンフィギュレーションデータ74をスキップして、次の要素位置の要素タイプ構文要素54(または図示しない代替の実施例においては、次の要素位置のコンフィギュレーション要素)または図4aに示すようなコンフィギュレーションブロック28に続く第1のフレームまたはなんらかの他のデータ等始まり等、ビットストリーム12のすぐ後続の部分にアクセスできるように、UsacExtElementConfigLengthと呼ばれるコンフィギュレーション要素長さ値をさらに含む拡張要素タイプのコンフィギュレーション要素56を有する。特に、以下の構文に特定的な実施例では、多チャネルサイド情報コンフィギュレーションデータが、SpatialSpecificConfigに含まれる一方で、多オブジェクトサイド情報コンフィギュレーションデータが、SaocSpecificConfigに含まれる。
後者の特徴によれば、デコーダ36は、コンフィギュレーションブロック28を読み出す上で、タイプ表示部52が拡張要素タイプを示す各要素位置またはサブストリームについての以下のステップを実行する。
複数の使用可能なペイロードデータタイプのうちからペイロードデータタイプを表示する拡張要素タイプフィールド72を読み出すステップを含むコンフィギュレーション要素56を読み出すステップ。
拡張要素タイプフィールド72が、多チャネルサイド情報タイプを示す場合、ビットストリーム12からのコンフィギュレーション情報の一部として多チャネルサイド情報コンフィギュレーションデータ74を読み出し、かつ拡張要素タイプフィールド72が多オブジェクトサイド情報タイプを示す場合には、ビットストリーム12からのコンフィギュレーション情報の一部として多オブジェクトサイド情報コンフィギュレーションデータ74を読み出すステップ。
そして、対応のフレーム要素22b、すなわち対応の要素位置およびサブストリームのものをそれぞれ復号化する際に、デコーダ36は、ペイロードデータタイプが多チャネルサイド情報タイプを示す場合には、多チャネルサイド情報コンフィギュレーションデータ74を使用して多チャネルデコーダ44eを構成する一方でこうして構成された多チャネルデコーダ44eにそれぞれのフレーム要素22bのペイロードデータ68を多チャネルサイド情報としてフィードし、かつペイロードデータタイプが、多オブジェクトサイド情報タイプを示す場合には、多オブジェクトサイド情報コンフィギュレーションデータ74を使用して多オブジェクトデコーダ44dを構成することにより対応のフレーム要素22bを復号化し、かつ、こうして構成した多オブジェクトデコーダ44dにそれぞれのフレーム要素22bのペイロードデータ68をフィードする。
しかしながら、未知のペイロードデータタイプがフィールド72により表示された場合、デコーダ36は、現在のコンフィギュレーション要素が含む上記のコンフィギュレーション長さ値を使用してペイロードデータタイプに特定的なコンフィギュレーションデータ74をスキップする。
たとえば、デコーダ36は、タイプ表示部52が拡張要素タイプを表示するいずれかの要素位置について、それぞれの要素位置のコンフィギュレーション要素56のコンフィギュレーション情報の一部としてビットストリーム12からコンフィギュレーションデータ長さフィールド76を読み出して、コンフィギュレーションデータ長さを取得し、かつ、それぞれの要素位置についてコンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド72により示されるペイロードデータタイプが複数のペイロードデータタイプのサブセットであるペイロードデータタイプの予め定められたセットに属するかどうかをチェックする。それぞれの要素位置についてのコンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド72により示されるペイロードデータタイプが予め定められたペイロードデータタイプのセットに属する場合には、デコーダ36は、データストリーム12からそれぞれの要素位置についてのコンフィギュレーション要素のコンフィギュレーション情報の一部としてペイロードデータに依存するコンフィギュレーションデータ74を読出し、ペイロードデータに依存するコンフィギュレーションデータ74を使用して、フレーム20におけるそれぞれの要素位置の拡張要素タイプのフレーム要素を復号化する。しかしながら、それぞれの要素位置についてコンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド72により表示されるペイロードデータタイプが、予め定められたペイロードデータタイプのセットに属していない場合には、デコーダはコンフィギュレーションデータ長を使用してペイロードデータに依存するコンフィギュレーションデータ74をスキップし、かつ内部の長さ情報58を使用してフレーム20におけるそれぞれの要素位置で拡張要素タイプのフレーム要素をスキップする。
上記の機構に付加的にまたは代替的に、あるサブストリームのフレーム要素は、完全にフレームごと1つではなく、フラグメントで送信されるよう構成することもできる。たとえば、拡張要素タイプのコンフィギュレーション要素は、フラグメンテーション使用フラグ78を含むことが可能であり、デコーダは、タイプ表示部が拡張要素タイプを示し、かつ、コンフィギュレーション要素のフラグメンテーション使用フラグ78が設定されたいずれかの要素位置にあるフレーム要素22を読み出す上で、ビットストリーム12からのフラグメント情報80を読み出して、フラグメント情報を利用して、連続するフレームのこれらのフレーム要素のペイロードデータを結合するよう構成され得る。以下の特定の構文例では、フラグメンテーション使用フラグ78が設定されるサブストリームの各拡張タイプフレーム要素は、サブストリームのペイロードの開始を表示するスタートフラグとサブストリームのペイロードアイテムの終了を表示する終了フラグとからなる対を含む。これらのフラグは、以下の特定の構文例では、usacExtElementStartおよびusacExtElementStopと呼ばれる。
さらに、上記の機構に付加的にまたは代替的に、同じ可変長さコードを、長さ情報80、拡張要素タイプフィールド72およびコンフィギュレーションデータ長さフィールド76を読み出すために使用することが可能で、それにより、たとえば、デコーダを実装するための複雑性が低下し、かつ、将来の拡張要素タイプ、より長い拡張要素タイプ長さ等のめったに発生しないケースにのみ追加のビットが必要になるようにすることにより、ビットを節約することができる。以下に説明する具体的な例では、このVLCコードは、図4mから導出可能である。
上記を要約すると、以下のことがデコーダの機能性に当てはまり得る。
(1)コンフィギュレーションブロック28を読み出すステップ。
(2)フレーム20のシーケンスの読出し/構文解析ステップ。ステップ1および2は、デコーダ36およびより厳密にはディストリビュータ40により実行される。
(3)オーディオコンテントの再構成は、これらのサブストリーム、すなわち要素位置におけるこれらのフレーム要素のシーケンスに限定され、その復号化は、デコーダ36によりサポートされる。ステップ3は、たとえばデコーダ36内においてその復号化モジュールで実行される(図2を参照)。
したがって、ステップ1では、デコーダ36は、サブストリームの数50およびフレーム20ごとのフレーム要素22の数ならびにこれらのサブストリームおよび要素位置の各々の要素タイプをそれぞれ明らかにする要素タイプ構文部52を読み出す。ステップ2において、ビットストリームを構文解析するために、デコーダ36は、ビットストリーム12からのフレーム20のシーケンスのフレーム要素22を周期的に読み出す。そうすることで、デコーダ36は、上記のとおり長さ情報58を使用して、フレーム要素またはその残余/ペイロード部分をスキップする。第3のステップでは、デコーダ36は、スキップされなかったフレーム要素を復号化することにより再構成を行う。
ステップ2において、要素位置およびサブストリームのうちどれをスキップするかを決定する際に、デコーダ36は、コンフィギュレーションブロック28内でコンフィギュレーション要素56を調べることが可能である。そうするために、デコーダ36は、要素タイプ表示部54およびフレーム要素22自体に使用したのと同じ順序でビットストリーム12のコンフィギュレーションブロック28からコンフィギュレーション要素56を周期的に読み出すように構成され得る。上記のとおり、コンフィギュレーション要素56の周期的な読み出しは、構文要素54の周期的な読み出しをインターリーブされることも可能である。特に、デコーダ36は、拡張要素タイプサブストリームのコンフィギュレーション要素56内の拡張要素タイプフィールド72を調べることができる。拡張要素タイプがサポートされているものでなければ、デコーダ36は、それぞれのサブストリームおよびフレーム20内のそれぞれのフレーム要素位置で対応のフレーム要素22をスキップする。
長さ情報58の送信に必要なビットレートを緩和するために、デコーダ36は、拡張要素タイプサブストリームのコンフィギュレーション要素56、かつ特にステップ1におけるそのデフォルトペイロード長さ情報60を調べるよう構成される。第2のステップで、デコーダ36は、スキップすべき拡張フレーム要素22の長さ情報58を調べる。特に、まず、デコーダ36がフラグ64を調べる。設定されている場合には、デコーダ36は、残りのスキップすべきペイロード長さとしてデフォルトペイロード長さ情報60によりそれぞれのサブストリームについて表示されるデフォルト長さを使用して、フレームのフレーム要素の周期的な読み出し/構文解析に続ける。しかしながら、フラグ64が設定されていなければ、デコーダ36は、ビットストリーム12から明示的にペイロード長さ66を読み出す。上では明示的には説明していないが、現在のフレームの次のフレーム要素または次のフレームにアクセスするためにデコーダ36が、なんらかの付加的な計算により、スキップすべきビットまたはバイト数を導出し得る。たとえば、デコーダ36が、フラグ78に関して説明したように、フラグメンテーション機構が活性かどうかを考慮に入れることが可能である。活性であれば、デコーダ36は、フラグ78が設定されているサブストリームのフレーム要素は、いずれにしてもフラグメンテーション情報80を有し、したがって、フラグメンテーションフラグ78が設定されていない場合に考えられるようにペイロードデータ68が後程開始することを考慮に入れることができる。
ステップ3の復号化において、デコーダは通常とおり作用する。すなわち、個別のサブストリームが、図2に示すようにそれぞれの復号化機構または復号化モジュールの対象となり、いくつかのサブストリームは、拡張サブストリームの特定の例に関して上に述べたように他のサブストリームに対してサイド情報を構成し得る。
デコーダ機能性に関する他の可能な詳細に関しては、上記の説明を参照する。完全を期すためにのみ、たとえば、フィールド72により表示される拡張要素タイプが、サポートされる拡張要素タイプのセットに適合しないため、デコーダ36はステップ1のコンフィギュレーション要素56のさらなる構文解析を、スキップすべきそれらの要素位置について、スキップすることもできる点を承知されたい。そして、デコーダ36は、コンフィギュレーション要素56の周期的な読み出し/構文解析において、それぞれのコンフィギュレーション要素をスキップするために、すなわち、それぞれの数のビット/バイトをスキップする上で、次の要素位置のタイプ表示部54等の次のビットストリーム構文要素にアクセスするために、コンフィギュレーション長さ情報76を使用し得る。
上記の特定の構文の実施例を続ける前に、本発明が、音声音響統合符号化と、ACCのような周波数領域符号化と、パラメトリック符号化(ACELP)および変換符号化(TCX)を使用するLP符号化との間で両者を組み合わせたものまたは切り替えるものを用いた切替コア符号化のようなその局面とによる実現に限定されないことを承知されたい。むしろ、上記のサブストリームは、いずれかの符号化スキームを使用するオーディオ信号に相当し得る。また、以下に説明する特定の構文の実施例においては、SBRが単一チャネルおよびチャネル対要素タイプのサブストリームを使用してオーディオ信号を表すために使用されるコアコーデックの符号化オプションであることを想定する一方、SBRは、後者の要素タイプのオプションではなく単に拡張要素タイプを使用して使用可能としてもよい。
以下では、ビットストリーム12の特定の構文例について説明する。なお、特定の構文例とは、図3の実施例の可能な実現例に相当しかつ以下の構文の構文と図3のビットストリームの構造との間の一致が、図3のそれぞれの表記および図3の説明から示されるかまたは導きだされる。以下の特定の例の基本的な特徴について、ここで概略を説明する。この点に関して、図3に関連して上にすでに述べた事柄に加えて追加の詳細については、図3の実施例の可能な延長として承知されたい。これら拡張のすべてが、図3の実施例に個別に構築され得る。最後の予備的な説明として、以下に説明する特定の構文例は、図5aおよび図5bにそれぞれ示すデコーダおよびエンコーダ環境を明示的に参照する点を理解されたい。
含まれるオーディオコンテントについてのサンプリングレート、正確なチャネルコンフィギュレーションのような高レベルの情報が、オーディオビットストリーム内に存在する。このためビットストリームはより自立的になり、この情報を明示的に伝送する手段を有し得ない伝達スキームに埋め込まれる場合、コンフィギュレーションおよびペイロードの伝達は確実により容易になる。
このコンフィギュレーション構造は、組合せフレーム長およびSBRサンプリングレートレート比インデクス(coreSbrFrameLengthIndex)を含む。これにより、両方の値の効率的伝送が保証され、かつフレーム長およびSBR比の無意味な組み合わせの信号伝達が確実にできないようになる。後者は、デコーダの実装をより簡素化する。
コンフィギュレーションを、専用のコンフィギュレーション拡張機構により拡張することができる。これにより、MPEG−4 AudioSpecificConfi()から既知のコンフィギュレーション拡張の嵩高く非効率的な伝送が防止される。
コンフィギュレーションは、伝送されるオーディオチャネル各々と関連するラウドスピーカ位置の自由な信号伝達を可能にする。一般に使用されるチャネルからラウドスピーカへのマッピングを信号伝達することは、channelConfigurationIndexにより効率的に行うことができる。
各チャネル要素のコンフィギュレーションは、各チャネル要素が独立して構成できるように、別の構造に含まれる。
SBRコンフィギュレーションデータ(「SBRヘッダ」)は、SbrInfo()とSbrHeader()とに分けられる。SbrHeader()については、デフォルトのバ−ジョンが定義され(SbrDfltHeader())、これをビットストリームにおいて効率的に参照することができる。これにより、SBRコンフィギュレーションデータの再送信が必要とされる場所におけるビット要求を減じられる。
より一般的にSBRに適用されるコンフィギュレーションの変更は、SbrInfo()構文要素の補助により効率的に信号伝達することができる。
パラメータ帯域幅拡張(SBR)およびパラメータステレオ符号化ツール(MPS212、別名MPEGサラウンド2−1−2)のためのコンフィギュレーションは、USACコンフィギュレーション構造にしっかり統合される。これは、両方の技術が実際に標準において採用されるより良い態様を表す。
この構文は、コーデックに対する既存および将来の拡張の伝送を可能にする拡張機構を特徴とする。
これらの拡張は、いずれかの順序でチャネル要素と共に配置(すなわちインターリーブ)され得る。これは、拡張の適用対象である特定のチャネル要素の前または後で読み出すことが必要な拡張を可能にする。
デフォルトの長さを、構文拡張について規定でき、これにより一定長さの拡張の伝送が非常に効率的になる。この場合、拡張ペイロードの長さを毎回伝送する必要がないからである。
必要に応じ値の範囲を拡大するためエスケープ機構の補助により値を信号伝達する一般的な場合は、希望するエスケープ値のコンステレーションおよびビットフィールド拡張すべてをカバーするのに十分な柔軟性を有する専用の純粋な構文要素(escapedValue())にモジュール化されていた。
ビットストリームコンフィギュレーション
UsacConfig()(図4a)
UsacConfig()は、含まれるオーディオコンテントおよび完全なデコーダセットアップのために必要なものすべてについての情報を含むよう拡張されていた。オーディオについてのトップレベルの情報(サンプリングレート、チャネルコンフィギュレーション、出力フレーム長)は、より高い(アプリケーション)レイヤからのアクセスを容易にするために始まりに集められる。
UsacChannelConfig()(図4b)
これらの要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。channelConfigurationIndexにより、実際に関連あると考えられた予め定義されるモノ、ステレオまたは多チャネルコンフィギュレーションの範囲から1つを信号伝達する容易で便利な方法が可能になる。
channelConfigurationIndexによりカバーされないより複雑なコンフィギュレーションについては、UsacChannelConfig()により、家庭やシネマサウンド再生用の既知のスピーカセットアップのすべてにおける現在知られている全スピーカ位置をカバーする32のスピーカ位置のリストからラウドスピーカ位置への要素の自由な割り当てが図られる。
スピーカ位置のこのリストは、MPEGサラウンド標準(ISO/IEC23003−1における表1および図1を参照)における特徴であるリストのスーパーセットである。最近導入された22.2スピーカセットアップをカバーすることができるように4つの追加のスピーカ位置が追加されている(図3a、図3b、図4aおよび図4bを参照)。
UsacDecoderConfig()(図4c)
この要素は、デコーダコンフィギュレーションの中心にあり、したがって、デコーダがビットストリームを解釈するために必要なすべての追加情報を含む。
特に、ビットストリームの構造はここでは、要素の数およびビットストリームにおけるそれらの順序を明示的に述べることにより規定される。
全要素にわたるループにより、全タイプ(単一、対、lfe、拡張)の全要素のコンフィギュレーションを可能にする。
UsacConfigExtension()(図4l)
将来の拡張について対処するため、コンフィギュレーションは、USACのいまだ存在しないコンフィギュレーション拡張のために、コンフィギュレーションを拡張する強力な機構を特徴とする。
UsacSingleChannelElementConfig()(図4d)
この要素コンフィギュレーションは、1つの単一チャネルを復号化するデコーダを構成するために必要な情報すべてを含む。これは、本質的にはコアコーダ関連情報であり、SBRが使用される場合には、SBR関連情報である。
UsacChannelPairElementConfig()(図4e)
上記と同様、この要素コンフィギュレーションは、1つのチャネル対を復号化するデコーダを構成するために必要な情報すべてを含む。上記のコアconfigおよびSBRコンフィギュレーションに加えて、これは適用されるステレオ符号化の正確な種類(MPS212、残差の有無等)のようなステレオ専用のコンフィギュレーションを含む。なお、この要素は、USACにおいて入手可能な全種類のステレオ符号化オプションをカバーする。
UsacLfeElementConfig()(図4f)
LFE要素コンフィギュレーションは、LFE要素が静的コンフィギュレーションを有するのでコンフィギュレーションデータを含まない。
UsacExtElementConfig()(図4k)
この要素コンフィギュレーションは、コーデックに対するいずれかの種類の既存のまたは将来の拡張を構成するために使用され得る。各拡張要素のタイプは、それ自体の専用ID値を有する。デコーダには未知のコンフィギュレーション拡張を都合よくスキップすることができるように、長さフィールドが含まれる。デフォルトペイロード長さの随意の規定により、実際のビットストリームに存在する拡張ペイロードの符号化効率をさらに向上する。
USACと組み合わされることがすでに予見される拡張には、MPEG−4AACから知られるようなMPEGサラウンド、SAOCおよびなんらかのFIL要素を含む。
UsacCoreConfig()(図4g)
この要素は、コアコーダセットアップにインパクトを有するコンフィギュレーションデータを含む。現在、これらは、時間ワープツールおよびノイズフィリングツールのためのスィッチである。
SbrConfig()(図4h)
sbr_header()を頻繁に再送信することにより生成されるビットオーバヘッドを減らすため、典型的には一定に維持されるsbr_header()の要素のためのデフォルト値を、コンフィギュレーション要素SbrDfltHeader()において保持する。さらに、静的SBRコンフィギュレーション要素もSbrConfig()において保持する。これらの静的ビットには、高調波トランスポジションまたはインタTES等のエンハンストSBRの特定の特徴を可能かまたは不能化するフラグを含む。
SbrDfltHeader()(図4i)
これは、典型的には一定に維持されるsbr_header()の要素を保持する。振幅分解能、クロスオーババンド、スペクトル予備平坦化等に影響を及ぼす要素は、ここで、実行中にこれらを効率的に変更し得るSbrInfo()において保持される。
Mps212Config()(図4j)
上記SBRコンフィギュレーションと同様に、MPEGサラウンド2−1−2ツールのための全セットアップパラメータが、このコンフィギュレーションにおいてアセンブルされる。このコンテクストにおいて関連がないかまたは冗長なSpatialSpecificConfig()からの要素はすべて除去される。
ビットストリームペイロード
UsacFrame()(図4n)
これは、USACビットストリームペイロードの最も外側のラッパでかつUSACアクセス単位を表す。それは、config部で信号伝達される、含まれるチャネル要素および拡張要素すべてにわたるループを含む。これは、含み得るものという意味でビットストリームフォーマットをより柔軟にし、かつ、何らかの将来の拡張に対しても将来的に使用可能である。
UsacSingleChannelElement()(図4o)
この要素は、モノストリームを復号化するための全データを含む。コンテントは、コアコーダに関連する部分とeSBRに関連する部分に分かれる。後者は、より密接にコアに接続され、デコーダが必要とするデータの順序をよりよく反映する。
UsacChannelPairElement()(図4p)
この要素は、ステレオ対を符号化するためのすべての可能な方法についてのデータをカバーする。特に、旧式のM/S系符号化からMPEGサラウンド2−1−2の補助による完全なパラメータステレオ符号化まで、統合されたステレオ符号化のフレーバのすべてをカバーする。stereoConfigIndexは、どのフレーバが実際に使用されるかを示す。適切なeSBRデータおよびMPEGサラウンド2−1−2データをこの要素において送る。
UsacLfeElement(図4q)
以前のlfe_channel_element()は、一貫したネーミングスキームに従うためにのみ再ネーミングされる。
UsacExtElement()(図4r)
この拡張要素は、小さいペイロードを有する(またはしばしば全くペイロードがない場合も)拡張についてさえ、最大限の柔軟性が得られしかも同時に最大限効率的になり得るよう慎重に設計された。不可知のデコーダがスキップするよう拡張のペイロード長が信号伝達される。ユーザが定義する拡張については、拡張のタイプの予備範囲により信号伝達することができる。拡張は要素の順序で自由に配置することができる。拡張要素の範囲は、フィルバイトを書き込むための機構を含めてすでに考慮されている。
UsacCoreCoderData()(図4s)
この新しい要素は、コアコーダに影響を与える情報のすべてを要約し、かつまたそれによりfd_channel_stream()’sおよびlpd_channel_stream()’sも含む。
StereoCoreToolInfo()(図4t)
構文の読出し性を緩和するために、ステレオ関連情報のすべてがこの要素に捕捉された。これは、ステレオ符号化モードにおける多数のビットの依存性を扱うものである。
UsacSbrData()(図4x)
CRC機能性およびスケーリング可能なオーディオ符号化の古い記述要素は、かつてsbr_extension_data()要素だったものから除去された。SBRinfoおよびヘッダデータの頻繁な再送信が原因で生じるオーバヘッドを減らすために、これらの存在は、明示的に信号伝達され得る。
SbrInfo()(図4y)
実行中に頻繁に修正されるSBRコンフィギュレーションデータ。これは、振幅分解能、クロスオーババンド、スペクトルの予備平坦化等の以前は完全なsbr_header()の送信を必要とした事項を制御する要素を含む([N11660]の6.3「効率」を参照)。
SbrHeader()(図4z)
実行中にsbr_header()の値を変更するSBRの能力を維持するために、ここでは、SbrDfltHeader()において送られるもの以外の値を使用する必要がある場合には、UsacSbrData()内部にSbrHeaderを保持することができる。最も一般的な場合のために、オーバヘッドをできるだけ低く保つため、bs_header_extra機構は維持された。
sbr_data()(図4za)
ここでも、USACコンテクストでは適用不可能なため、SBRスケーリング可能符号化の残余が取り除かれている。チャネルの数によって、sbr_data()は、1つのsbr_single_channel_element()または1つのsbr_channel_pair_element()を含む。
usacSamplingFrequencyIndex
この表は、オーディオコーディックのサンプリング周波数を信号伝達するためにMPEG−4において使用される表のスーパーセットである。この表は、現在USAC動作モードにおいて使用されるサンプリングレートをカバーするためにもさらに拡張されている。いくつかのサンプリング周波数の倍数も加えられている。
channelConfigurationIndex
この表は、channelConfigurationを信号伝達するためにMPEG−4において使用される表のスーパーセットである。これをさらに拡張して、一般的に使用されかつ将来に見込まれるラウドスピーカのセットアップの信号伝達が可能にされている。この表内へのインデクスを5ビットで信号伝達して、将来の拡張を図る。
usacElementType
4つ要素タイプのみが存在する。4つの基本的ビットストリーム要素:UsacSingleChannelElement()、UsacChannelPairElement()、UsacLfeElement()およびUsacExtElement()の各々について1つである。これらの要素は、必要とされる柔軟性をすべて維持しながら、必要なトップレベルの構造を提供する。
usacExtElementType
UsacExtElement()の内部で、この要素は、過剰な拡張の信号伝達を可能にする。将来も使い続けられるよう、考えられるすべての拡張を可能にするのに十分な広さのビットフィールドが選択されている。現在既知の拡張のうち、いくつかが考慮の対象として提案されている。フィル要素、MPEGサラウンドおよびSAOCである。
usacConfigExtType
ある時点で、コンフィギュレーションを拡張することが必要であれば、新しいコンフィギュレーションごとにタイプを割り当てることが可能なUsacConfigExtension()により対処することができる。現在、信号伝達可能な唯一のタイプは、コンフィギュレーションのためのフィル機構である。
coreSbrFrameLengthIndex
この表は、デコーダの複数のコンフィギュレーション特性を信号伝達する。特に、これらは、出力フレーム長、SBR比および結果として得られるコアコーダフレーム長(ccfl)である。同時に、SBRにおいて使用されるQMF解析および合成帯域数も示す。
stereoConfigIndex
この表は、UsacChannelPairElement()の内部構造を決定する。モノまたはステレオコアの使用、MPS212の使用、ステレオSBRが適用されるかどうかおよび残差符号化がMPS212において適用されるかどうかを示す。
eSBRヘッダフィールドの大部分をデフォルトヘッダフラグで参照することができるデフォルトヘッダへ移動させることにより、eSBR制御データ送信のビット要求は、かなり減じられる。実世界のシステムで変化すると考えられていた以前のsbr_header()ビットフィールドは、現在最大8ビットをカバーする4要素のみから構成されるsbrInfo()要素へアウトソースされている。18ビット以上から構成されるsbr_header()と比較すると、10ビットの節約になる。
ビットレート全体に対するこの変化のインパクトを評価することはより困難である。これは、sbrInfo()におけるeSBR制御データの伝送レートに大きく依存するためである。しかしながら、ビットストリームにおいてsbrクロスオーバが変更される一般的使用の場合についてはすでに、このビットの節約は、完全に伝送されるsbr_header()の代わりにsbrInfo()を送る場合、一回ごとに22ビットにもなり得る。
USACデコーダの出力をMPEGサラウンド(MPS)(ISO/IEC23003−1)またはSAOC(ISO/IEC23003−2)によりさらに処理できる。USACにおけるSBRツールが活性の場合、USACデコーダは典型的には、ISO/IEC23003−14.4におけるHE−AACについて記述されるのと同じやりかたで、QMF領域においてそれらを接続することにより、後続のMPS/SAOCデコーダと効率的に組み合わせることができる。QMF領域における接続が不可能な場合は、時間領域において接続する必要がある。
MPS/SAOCサイド情報がusacExtElement機構(usacExtElementTypeがID_EXT_ELE_MPEGSまたはID_EXT_ELE_SAOCである)によりUSACビットストリームに埋め込まれる場合、USACデータとMPS/SAOCデータ間のタイムアラインメントは、USACデコーダとMPS/SAOCデコーダ間の最も効率的接続を想定する。USACにおけるSBRツールが活性でかつMPS/SAOCが64帯域QMF領域表現(ISO/IEC23003−1 6.6.3)を採用する場合には、最も効率的接続はQMF領域におけるものである。それ以外では、最も効率的接続は時間領域におけるものである。これは、ISO/IEC23003−1 4.4、4.5および7.2.1において規定されるHE−AACおよびMPSの組み合わせについてのタイムアラインメントに対応する。
USAC復号化の後にMPS復号化を追加することにより導入される追加の遅延は、ISO/IEC23003−1 4.5により得られ、かつ、HQ MPSまたはLP MPSが使用されるかどうか、およびQMF領域かまたは時間領域においてMPSがUSACに接続されるかに依存する。
ISO/IEC23003−1 4.4は、USACとMPEGシステムとの間のインタフェースを明確にする。システムインターフェースからオーディオデコーダに伝達される各アクセス単位は、システムインターフェースすなわちコンポジタにオーディオデコーダから送られる対応の成分の単位となる。これは、スタートアップおよびシャットダウン条件、すなわちアクセス単位がアクセス単位の有限のシーケンスにおける最初または最後のものである場合を含む。
オーディオ構成単位については、ISO/IEC14496−1 7.1.3.5コンポジションタイムスタンプ(CTS)が、構成時間が構成単位内のn番目のオーディオサンプルに当てはまることを特定する。USACでは、nの値は常に1である。なお、これは、USACデコーダ自体の出力にも適用される。USACデコーダがたとえば、MPSデコーダと組み合わされている場合を、MPSデコーダの出力で伝達される構成単位について配慮する必要がある。
MPS/SAOCサイド情報を、usacExtElement機構によりUSACビットストリームに埋め込む場合(usacExtElementTypeはID_EXT_ELE_MPEGSまたはID_EXT_ELE_SAOCで)、以下の制限を随意に適用しても良い。
・MPS/SAOC sacTimeAlignパラメータ(ISO/IEC23003−1 7.2.5を参照)は値0に。
・MPS/SAOCのサンプリング周波数はUSACの出力サンプリング周波数と同じに。
・MPS/SAOC bsFrameLengthパラメータ(ISO/IEC23003−1 5.2を参照)は、予め定められたリストのうちの許容される値の1つを有する。
USACビットストリームペイロード構文は、図4n〜4rに示され、かつ補足的ペイロード要素の構文は、図4s〜wに示され、かつエンハンストSBRペイロード構文は図4x〜4zcに示される。
データ要素の簡単な説明
UsacConfig()
この要素は、含まれるオーディオコンテントおよび完全なデコーダセットアップに必要なすべてについての情報を含む。
UsacChannelConfig()
この要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。
UsacDecoderConfig()
この要素は、デコーダがビットストリームを解釈するために必要な他のすべての情報を含む。特に、SBR再サンプリング比がここで信号伝達され、かつビットストリームの構造が、ここでは、ビットストリームにおける要素の数およびそれらの順序を明示的に述べることにより規定される。
UsacConfigExtension()
USACの将来のコンフィギュレーション拡張のためコンフィギュレーションを拡張するコンフィギュレーション拡張機構。
UsacSingleChannelElementConfig()
1つの単一チャネルを復号化するようデコーダを構成するために必要なすべての情報を含む。これは、本質的にコアコーダに関連する情報であり、かつ、SBRが使用される場合には、SBR関連情報である。
UsacChannelPairElementConfig()
上記と同様、この要素コンフィギュレーションは、1つのチャネル対を復号化するようデコーダを構成するために必要なすべての情報を含む。上記のコアconfigおよびsbrコンフィギュレーションに加えて、これは、適用されるステレオ符号化の正確な種類(MPS212、残差等の有無)等のステレオに特定的なコンフィギュレーションを含む。この要素は、USACにおいて現在使用可能なステレオ符号化オプションのすべての種類をカバーする。
UsacLfeElementConfig()
LFE要素コンフィギュレーションは、LFE要素が静的コンフィギュレーションを有するので、コンフィギュレーションデータを含まない。
UsacExtElementConfig()
この要素コンフィギュレーションは、いずれかの種類の既存または将来の拡張をコーデックに対して構成するために使用することができる。各拡張要素タイプは、その独自の専用タイプ値を有する。デコーダに未知のコンフィギュレーション拡張をスキップできるように、長さフィールドが含まれる。
UsacCoreConfig()
コアコーダセットアップに対してインパクトのあるコンフィギュレーションデータを含む。
SbrConfig()
典型的には一定に維持されるeSBRのコンフィギュレーション要素のためのデフォルト値を含む。さらに、静的SBRコンフィギュレーション要素をSbrConfig()内に保持する。これらの静的ビットは、高調波トランスポジションまたはインタTES等のエンハンストSBRの特定の特徴を可能化または不能化するためのフラグを含む。
SbrDfltHeader()
この要素は、SbrHeader()の要素について異なる値を希望しない場合に参照することができるこられの要素のデフォルトバージョンを保持する。
Mps212Config()
MPEGサラウンド2−1−2ツールのためのすべてのセットアップパラメータは、このコンフィギュレーションにおいてアセンブルされる。
escapedValue()
この要素は、可変数のビットを使用して整数値を送信する一般的な方法を実現する。追加ビットの連続送信により表現可能な値の範囲を拡大することができる2レベルエスケープ機構を特徴とする。
usacSamplingFrequencyIndex
このインデクスは、復号化後のオーディオ信号のサンプリング周波数を決定する。usacSamplingFrequencyIndexの値および関連のサンプリング周波数を表Cに示す。
Figure 0006007196
Figure 0006007196
usacSamplingFrequency
usacSamplingFrequencyIndex=0である場合、符号のついていない整数値として符号化されるデコーダの出力サンプリング周波数。
channelConfigurationIndex
このインデクスは、チャネルコンフィギュレーションを決定する。channelConfigurationIndex>0の場合、インデクスは、表Yに従って、チャネルの数、チャネル要素および関連のラウドスピーカマッピングを明白に規定する。ラウドスピーカの位置の名称、使用される略称および利用可能なラウドスピーカの一般的な位置を図3a、図3b、図4aおよび図4bから推定することができる。
bsOutputChannelPos
このインデクスは、表XXに従う所与のチャネルに関連するラウドスピーカの位置を記述する。図Yは、リスナの3D環境におけるラウドスピーカの位置を示す。ラウドスピーカの位置をより容易に理解するため、表XXは、関心のある読者への情報としてここに挙げるIEC100/1706/CDVによるラウドスピーカ位置も含む。
Figure 0006007196
usacConfigExtensionPresent
コンフィギュレーションに対する拡張の存在を示す。
numOutChannels
channelConfigrationIndexの値が、予め規定されたチャネルコンフィギュレーションのどれも使用されないことを示す場合には、この要素が、特定のラウドスピーカ位置が関連付けられるオーディオチャネルの数を決定する。
numElements
このフィールドは、UsacDecoderConfig()におけるループオーバ要素のタイプにおいてフォローする要素の数を含む。
usacElementType[elemIdx]
ビットストリームにおける位置elemIdxの要素のUSACチャネル要素タイプを規定する。4つの要素タイプが存在し、この4つの基本ビットストリーム要素、UsacSingleChannelElement()、UsacChannelPairElement(), UsacLfeElement()、およびUsacExtElement()の各々について1つ存在する。これらの要素は、必要なトップレベルの構造を付与する一方で、必要とされる柔軟性のすべてを維持する。usacElementTypeの意味を表Aに定義する。
Figure 0006007196
stereoConfigIndex
この要素は、UsacChannelPairElement()の内部構造を決定する。表ZZによれば、これは、モノまたはステレオコアの使用、MPS212の使用、ステレオSBR適用の有無およびMPS212における残差符号化適用の有無を示す。この要素はまたヘルパー要素であるbsStereoSBRおよびbsResidualCodingの値も規定する。
Figure 0006007196
tw_mdct
このフラグは、このストリーム内で時間ワープしたMDCTの使用を信号伝達する。
noiseFilling
このフラグは、FDコアデコーダにおけるスペクトルホールのノイズフィリングの使用を信号伝達する。
harmonicSBR
このフラグは、SBRのための高調波パッチングの使用を信号伝達する。
bs_interTes
このフラグは、SBRにおけるインタTESツールの使用を信号伝達する。
dflt_start_freq
これは、フラグsbrUseDfltHeaderが、SbrHeader()要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素bs_stat_freqのデフォルト値である。
dflt_stop_freq
これは、フラグsbrUseDfltHeaderが、SbrHeader()要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素bs_stоp_freqのデフォルト値である。
dflt_header_extra1
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_header_extra1のデフォルト値である。
dflt_header_extra2
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_header_extra2のデフォルト値である。
dflt_freq_scale
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_freq_scaleのデフォルト値である。
dflt_alter_scale
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_alter_scaleのデフォルト値である。
dflt_noise_bands
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_noise_bandsのデフォルト値である。
dflt_limiter_bands
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_limiter_bandsのデフォルト値である。
dflt_limiter_gains
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_limiter_gainsのデフォルト値である。
dflt_interpol_freq
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_interpol_freqのデフォルト値である。
dflt_smoothing_mode
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_smoothing_modeのデフォルト値である。
usacExtElementType
この要素は、ビットストリーム拡張タイプの信号伝達を可能にする。usacExtElementTypeの意味を、表Bにおいて定義する。
Figure 0006007196
usacExtElementConfigLength
バイト(オクテット)で拡張コンフィギュレーションの長さを信号伝達する。
usacExtElementDefaultLengthPresent
このフラグはusacExtElementDefaultLengthがUsacExtElementConfig()で運ばれるかどうかを信号伝達する。
usacExtElementDefaultLength
拡張要素のデフォルト長をバイトで信号伝達する。所与のアクセス単位における拡張要素がこの値からそれている場合にのみ、ビットストリームにおいて追加の長さを伝送する必要がある。この要素が明示的に伝送されない場合(usacExtElementDefaultLengthPresent==0)、usacExtElementDefaultLengthの値がゼロに設定される。
usacExtElementPayloadFrag
このフラグは、この拡張要素のペイロードが分割されて連続するUSACフレームにおいていくつかのセグメントとして送られ得るかどうかを示す。
numConfigExtensions
コンフィギュレーションへの拡張が、UsacConfig()に存在する場合には、この値は、信号伝達されるコンフィギュレーション拡張の数を示す。
confExtIdx
コンフィギュレーション拡張へのインデクス。
usacConfigExtType
この要素は、コンフィギュレーション拡張タイプを信号伝達することを可能にする。usacExtElementTypeの意味は、表Dにおいて定義される。
Figure 0006007196
usacConfigExtLength
バイト(オクテット)でコンフィギュレーション拡張の長さを信号伝達する。
bsPseudoLr
このフラグは、逆mid/side回転をMps212処理の前にコア信号に適用すべきであることを信号伝達する。
Figure 0006007196
bsStereoSbr
このフラグは、MPEGサラウンド復号化と組み合わせたステレオSBRの使用を信号伝達する。
Figure 0006007196
bsResidualCoding
残差符号化を下の表に従って適用するかどうかを示す。bsResidualCodingの値は、stereoConfigIndex(Xを参照)により定義される。
Figure 0006007196
sbrRatioIndex
コアサンプリングレートとeSBR処理後のサンプリングレートとの比率を示す。同時に、下の表によるSBRにおいて使用されるQMF解析および合成帯域の数を示す。
Figure 0006007196
elemIdx
UsacDecoderConfig()およびUsacFrame()に存在する要素へのインデクス。
UsacConfig()
UsacConfig()は、出力サンプリング周波数およびチャネルコンフィギュレーションについての情報を含む。この情報は、MPEG-4AudioSpecificConfig()等におけるこの要素の外部に信号伝達される情報と同じになる。
Usac出力サンプリング周波数
サンプリングレートが表1の右欄に列挙するレートの1つではない場合、サンプリング周波数に依拠する表(コード表、スケールファクタ帯域表等)を推定して、ビットストリームペイロードを構文解析する必要がある。所与のサンプリング周波数は1つのサンプリング周波数表とだけ関連付けられており、かつ、可能なサンプリング周波数の範囲においては最大の柔軟性が望まれるので、以下の表を使用して、暗示されるサンプリング周波数を希望のサンプリング周波数に依拠する表と関連付ける。
Figure 0006007196
UsacChannelConfig()
チャネルコンフィギュレーション表は、最も一般的なラウドスピーカ位置をカバーする。他のフレキシビリティチャネルについては、様々なアプリケーションにおける現代のラウドスピーカセットアップに見られる全部で32のラウドスピーカ一位置の選択肢へマッピングすることができる(図3a、図3bを参照)。
ビットストリームに含まれる各チャネルについては、UsacChannelConfig()が、この特定のチャネルをマッピングする関連のラウドスピーカ位置を特定する。bsOutputChannelPosが指し示すラウドスピーカ位置について、表Xに列挙する。複数のチャネル要素の場合には、bsOutputChannelPos[i]のインデクスiが、ビットストリームにおいてチャネルが現れる位置を示す。図Yは、リスナに関係するラウドスピーカの位置に関する概略を示す。
より正確には、チャネルはそれらがビットストリームに現れる順に0(ゼロ)からナンバリングされる。UsacSingleChannelElement()またはUsacLfeElement()の平凡な例では、チャネル番号がそのチャネルに割り当てられ、かつ、チャネルカウントは1つ増加する。UsacChannelPairElement()の場合には、その要素における最初のチャネルが第1にナンバリングされ(インデクスch==0)、同じ要素における第2のチャネル(インデクスch==1)は、次のより高い番号を受け、かつ、チャネルカウントが2つ増加する。
次に、numOutChannelsが、ビットストリームに含まれる全チャネルの累積合計以下になる。全チャネルの累積合計が、全UsacSingleChannelElement()’sの数+全UsacLfeElement()’sの数+2×全UsacChannelPairElement()’sの数に等しい。
ビットストリームにおけるラウドスピーカの位置を二重に割り当てないように、アレイbsOutputChannelPosにおける全エントリを相互に異ならせる。
channelConfigurationIndexが0であり、かつ、numOutChannelsがビットストリームに含まれる全チャネルの累積合計より小さいという特別な場合には、割り当てられていないチャネルの扱いは、本件明細書の範囲外のものとなる。これに関する情報については、たとえば、より高いアプリケーションレイヤにおける適切な手段により、または詳細に設計された(プライベートな)拡張ペイロードにより伝達できる。
UsacDecoderConfig()
UsacDecoderConfig()は、ビットストリームを解釈するのにデコーダが必要とする他の情報のすべてを含む。まず、sbrRatioIndexの値がコアコーダフレーム長(ccfl)と出力フレーム長との比を決定する。sbrRatioIndexの後は、現在のビットストリームにおいて全チャネル要素にわたるループが続く。各繰り返しについて、要素のタイプがusacElementType[]において信号伝達され、直後に対応のコンフィギュレーション構造が続く。UsacDecoderConfig()において様々な要素が存在する順序は、UsacFrame()における対応のペイロードの順序と同じになる。
要素の各インスタンスを独立して構成することができる。UsacFrame()における各チャネル要素を読み出す際に、要素ごとに、そのインスタンスすなわち同じelemIdxの対応のコンフィギュレーションを使用する。
UsacSingleChannelElementConfig()
UsacSingleChannelElementConfig()は、1つの単一チャネルを復号化するためのデコーダを構成するために必要な全情報を含む。SBRコンフィギュレーションデータは、SBRが実際に採用された場合にのみ送信される。
UsacChannelPairElementConfig()
UsacChannelPairElementConfig()は、コアコーダ関連のコンフィギュレーションデータおよびSBRの使用に依拠するSBRコンフィギュレーションデータを含む。ステレオ符号化アルゴリズムの正確なタイプについては、stereoConfigIndexにより示される。USACにおいては、チャネル対が様々な態様で符号化できる。それらは、
1. MDCT領域において複雑予測の可能性により拡張される伝統的ジョイントステレオ符号化技術を使用するステレオコアコーダ対
2. 完全なパラメータステレオ符号化のためのMPEGサラウンドベースのMPS212と組み合わせたモノコアコーダチャネル。モノSBR処理をコア信号に適用する。
3. 第1のコアコーダチャネルがダウンミックス信号を保持し、かつ、第2のチャネルが残差信号を保持するMPEGサラウンドベースのMPS212と組み合わせたステレオコアコーダ対。残差部を帯域制限して部分残差符号化を実現してもよい。モノSBR処理は、MPS212処理の前のダウンミックス信号にのみ適用される。
4. 第1のコアコーダチャネルがダウンミックス信号を保持し、かつ、第2のチャネルが残差信号を保持するMPEGサラウンドベースのMPS212と組み合わせるステレオコアコーダ対。残差部は、帯域を制限して部分残差符号化を実現してもよい。ステレオSBRをMPS212処理後の再構成されたステレオ信号に適用する。
選択肢の3と4とをコアデコーダ後の疑似LRチャネル回転とさらに組み合わせてもよい。
UsacLfeElementConfig()
時間ワープしたMDCTおよびノイズフィリングの使用はLFEチャネルについては許容されていないので、これらのツールについて通常のコアコーダフラグを送信する必要はない。その代り、これらはゼロに設定される。
また、LFEコンテクストにおけるSBRの使用は、許容されておらず、意味もない。そのため、SBRコンフィギュレーションデータは送信されない。
UsacCoreConfig()
UsacCoreConfig()は、グローバルビットストリームレベルでの時間ワープしたMDCTおよびスペクトルノイズフィリングの使用を可能化または不能化するフラグのみを含む。tw_mdctがゼロに設定されると、時間ワープは適用されない。nоiseFillingがゼロに設定されると、スペクトルノイズフィリングは適用されない。
SbrConfig()
SbrConfig()ビットストリーム要素は、正確なeSBRセットアップパラメータを信号伝達する目的を果たす。一方、SbrConfig()は、eSBRツールの一般的な採用を信号伝達する。他方、SbrConfig()は、SbrHeader()のデフォルトバージョンであるSbrDfltHeader()を含む。異なるSbrHeader()がビットストリームにおいて送信されなければ、このデフォルトヘッダの値が想定されることになる。このメカニズムの背景には、1つのビットストリームにおいては、典型的には1セットのSbrHeader()値しか付与されないことがある。SbrDfltHeader()の送信で、ビットストリームにおける1つのビットのみを使用することにより非常に効率的にこのデフォルト値のセットを参照することが可能になる。ビットストリーム自体における新たなSbrHeaderをインバンドで送信できるようにすることで、依然として、実行中にSbrHeaderの値を変更する可能性は保持される。
SbrDfltHeader()
SbrDfltHeader()は、基本SbrHeader()テンプレートと呼んでもよいもので、主に使用されるeSBRコンフィギュレーションのための値を含む必要がある。ビットストリームにおいて、このコンフィギュレーションは、sbrUseDfltHeaderフラグを設定することにより参照することができる。SbrDfltHeader()の構造は、SbrHeader()のものと同様である。SbrDfltHeader()およびSbrHeader()の値を区別できるように、SbrDfltHeader()におけるビットフィールドは、「bs_」の代わりに「dflt」を接頭辞にする。SbrDfltHeader()の使用が表示されると、SbrHeader()ビットフィールドは、対応のSbrDfltHeader()の値を想定する。すなわち、以下のとおりである。
bs_start_freq=dflt_start_freq;
bs_stop_freq=dflt_stop_freq;etc.
(bs_xxx_yyy=dflt_xxx_yyyのように、SbrHeader()におけるすべての要素について続く)。
Mps212Config()
Mps212Config()は、MPEGサラウンドのSpatialSpecificConfig()に類似し、かつ、多くの部分において、それから推定されていた。しかしながら、USACコンテクストにおけるモノからステレオへのアップミキシングについて関連のある情報のみを含むと言う範囲まで狭められる。結果として、MPS212は、1つのOTTボックスのみを構成する。
UsacExtElementConfig()
UsacExtElementConfig()は、USACのための拡張要素のコンフィギュレーションデータ用の一般的なコンテナである。各USAC拡張は、独自のタイプ識別子であるusacExtElementTypeを有し、これは表Xにおいて定義される。各UsacExtElementConfig()ごとに、含まれる拡張コンフィギュレーションの長さを可変usacExtElementConfigLengthにおいて送信し、含まれる拡張コンフィギュレーションの長さによって、デコーダが、そのusacExtElementTypeが未知である拡張要素を安全にスキップできる。
典型的に一定のペイロード長を有するUSAC拡張については、UsacExtElementConfig()が、usacExtElementDefaultLengthの送信を可能にする。コンフィギュレーションにおいてデフォルトのペイロード長さを規定することで、ビット消費を低く抑える必要があるUsacExtElement()内でusacExtElementPayloadLengthの高度に効率的な信号伝達が可能になる。
多量のデータを蓄積し、フレームごとではなくフレーム2つごとのみにまたはもっと頻度を低くして送信するUSAC拡張の場合、このデータはいくつかのUSACフレームにわたって広がるフラグメントまたはセグメントで送信されてもよい。これは、ビットレザバをより均一に保つために有用である。このメカニズムの使用は、usacExtElementPayloadFragフラグにより信号伝達される。フラグメンテーションのメカニズムについては、6.2.XのusacExtElementの記述においてさらに説明する。
UsacConfigExtension()
UsacConfigExtension()は、UsacConfig()の拡張のための一般的なコンテナである。デコーダ初期化またはセットアップ時に交換される情報を補正または拡張する便利な方法を提供する。config拡張の存在はusacConfigExtensionPresentにより示される。config拡張が存在する場合(usacConfigExtensionPresent==1)、ビットフィールドnumConfigExtensionsにおいて、これらの拡張の正確な数が続く。各コンフィギュレーション拡張は、表Xで定義される独自のタイプ識別子usacConfigExtTypeを有する。各UsacConfigExtensionについて、含まれるコンフィギュレーション拡張の長さは、可変のusacConfigExtLengthにおいて送信され、かつ、コンフィギュレーションビットストリーム構文解析部が、そのusacConfigExtTypeが不明であるコンフィギュレーション拡張を安全にスキップできるようにする。
オーディオオブジェクトタイプUSACのトップレベルペイロード
用語および定義
UsacFrame()
このデータのブロックは、1つのUSACフレームの期間についてのオーディオデータ、関連情報および他のデータを含む。UsacDecoderConfig()において信号伝達されるように、UsacFrame()は、numElement要素を含む。これらの要素は1また2チャネルについてのオーディオデータ、低周波数エンハンスメントのためのオーディオデータまたは拡張ペイロードを含み得る。
UsacSingleChannelElement()
略称はSCE。単一のオーディチャネルのための符号化データを含むビットストリームの構文要素。single_channel_element()は、基本的に、FDまたはLPDコアコーダのためのデータを含むUsacCoreCoderData()からなる。SBRが活性の場合には、UsacSingleChannelElementもSBRデータを含む。
UsacChannelPairElement()
略称はCPE。チャネル対についてのデータを含むビットストリームペイロードの構文要素。チャネル対は、2つのディスクリートなチャネルを送信するかまたは1つのディスクリートなチャネルおよび関連のMps212ペイロードのいずれかにより達成され得る。これは、stereoConfigIndexにより信号伝達される。UsacChannelPairElementはSBRが活性の場合にはSBRデータをさらに含む。
UsacLfeElement()
略称はLFE。低サンプリング周波数エンハンスメントチャネルを含む構文要素。LFEは常にfd_channel_stream()要素を使用して符号化される。
UsacExtElement()
拡張ペイロードを含む構文要素。拡張要素の長さがコンフィギュレーション(USACExtElementConfig())においてデフォルト長さとして信号伝達されるかまたはUsacExtEelement()自体において信号伝達される。存在すれば、拡張ペイロードは、コンフィギュレーションにおいて信号伝達されるようなタイプusacExtElementTypeである。
usacIndependencyFlag
下の表に従って、現在のUsacFrame()が以前のフレームからの情報の知識なしに完全に復号化できるかどうかを表示する。
Figure 0006007196
注:usacIndependencyFlagの使用に関する推奨に関してはXYを参照ください。
usacExtElementUseDefaultLength
拡張要素の長さが、UsacExtElementConfig()に規定されたusacExtElementDefaultLengthに対応するかどうかを示す。
usacExtElementPayloadLength
バイトで表す拡張要素の長さを含む。この値は、現在のアクセス単位における拡張要素の長さがデフォルト値であるusacExtElementDefaultLengthから偏移する場合、ビットストリームにおいて明示的に送信する必要があるのみである。
usacExtElementStart
現在のusacExtElementSegmentDataがデータブロックを開始するかどうかを示す。
usacExtElementStop
現在のusacExtElementSegmentDataがデータブロックを終了するかどうかを示す。
usacExtElementSegmentData
usacExtElementStart==1のUsacExtElement()から始まり、usacExtElementStop==1のUsacExtElement()まで(これを含んで)連続するUSACフレームのUsacExtElement()からの全usacExtElementSegmentDataの連結が1つのデータブロックを構成する。完全なデータブロックが1つのUsacExtElement()に含まれる場合には、usacExtElementStartおよびusacExtElementStopの両方が1に設定される。データブロックは、下の表によるusacExtElementTypeに依存するバイト単位でそろえられた拡張ペイロードとして解釈される。
Figure 0006007196
fill_byte
情報を保持しないビットを有するビットストリームをパディングするために使用され得るビットのオクテット。fill_byteに使用される正確なビットパターンは、「10100101」である必要がある。
ヘルパー要素
nrCoreCoderChannels
チャネル対要素のコンテクストにおいては、この変数は、ステレオ符号化のための基礎を構成するコアコーダチャネルの数を示す。stereoConfigIndexの値によって、この値は1または2になる。
nrSbrChannels
チャネル対要素のコンテクストにおいては、この変数はSBR処理が適用されるチャネルの数を示す。stereoConfigIndexの値によって、この値は1または2になる。
USACについての補足的ペイロード
用語および定義
UsacCoreCoderData()
このデータブロックは、コアコーダオーディオデータを含む。ペイロード要素は、FDまたはLPDモード用のいずれかの1つまたは2つのコアコーダチャネルのためのデータを含む。特定のモードは、要素の開始にチャネルごとに信号伝達される。
StereoCoreToolInfo()
すべてのステレオ関連の情報は、この要素において捕捉される。ステレオ符号化モードにおけるビットフィールドの多数の依存性を扱う。
ヘルパー要素
cоmmоnCoreMode
CPEにおいて、このフラグは、両方の符号化コアコーダチャネルが同じモードを使用するかどうか示す。
Mps212Data()
このデータブロックは、Mps212ステレオモジュールのためのペイロードを含む。このデータの存在は、stereоConfigIndexに依存する。
common_window
CPEのチャネル0およびチャネル1が同じウィンドウパラメータを使用するかどうかを示す。
common_tw
CPEのチャネル0およびチャネル1が時間ワープしたMDCTについて同じパラメータを使用するかどうかを示す。
UsacFrame()の復号化
1つのUsacFrame()は、USACビットストリームの1つのアクセス単位を構成する。各UsacFrameが、表Xから決定されるoutputFrameLengthに従って、768、1024、2048または4096の出力サンプルに復号化する。
UsacFrame()における第1のビットは、所与のフレームが以前のフレームについて何らの知識がなくても復号化され得るかどうかを決定するusacIndependencyFlagである。usacIndependencyFlagが、0に設定されると、以前のフレームに対する依存性が現在のフレームのペイロード内に存在する可能性がある。
UsacFrame()はさらに、UsacDecoderConfig()における対応のコンフィギュレーション要素と同じ順序でビットストリームに現れる1以上の構文要素からなる。全要素の連続における各要素の位置については、elemIdxにより指し示される。各要素については、そのインスタンスの、すなわち同じelemIdxを有するUsacDecoderConfig()において送信されるような対応のコンフィギュレーションを使用する。
これらの構文要素は、表Xに挙げる4つのタイプのうちの1つである。これらの要素の各々のタイプは、usacElementTypeにより判別される。同じタイプの複数の要素が存在する可能性がある。異なるフレームの同じ位置elemIdxに生じる要素は、同じストリームに属することになる。
Figure 0006007196
これらビットストリームペイロードが一定レートのチャネルにわたって送信される場合、それらはID_EXT_ELE_FILLのusacExtElementTypeを有する拡張ペイロード要素を含んで、瞬間のビットレートを調整する可能性がある。この場合、符号化されたステレオ信号の例は、以下のとおりである。
Figure 0006007196
UsacSingleChannelElement()の復号化
UsacSingleChannelElement()の単純な構造は、1に設定されたnrCoreCoderChannelsを有するUsacCoreCoderData()の1つのインスタンスから構成される。この要素のsbrRatioIndexにより、UsacSbrData()要素はこれも1に設定されたnrSbrChannelで続く。
UsacExtEelement()の復号化
ビットストリームにおけるUsacExtElement()構造を、USACデコーダにより復号化またはスキップすることができる。各拡張は、UsacExtElement()’sの関連のUsacExtElementConfig()において伝達されるusacExtElementTypeにより識別される。各usacExtElementTypeについては、特定のデコーダが存在し得る。
拡張のためのデコーダをUSACデコーダが利用可能な場合、拡張のペイロードはUsacExtElement()がUSACデコーダにより構文解析された直後に拡張デコーダへ転送される。
USACデコーダが利用可能な拡張のためのデコーダがない場合、最低限の構造がビットストリーム内に付与され、それによりUSACデコーダが拡張を無視することができるようになる。
拡張要素の長さは、対応のUsacExtElementConfig()内で信号伝達でき、かつ、UsacExtElement()内でオーバルールできるオクテットのデフォルト長により特定されるか、または構文要素escapedValue()を使用する1または3のオクテット長のUsacExtElement()における明示的に付与される長さ情報により特定される。
1以上のUsacFrame()’sにまたがる拡張ペイロードを分割することができ、かつ、それらのペイロードをいくつかのUsacFrame()’sの間で配分することができる。この場合、usacExtElementPayloadFragフラグを1にセットし、かつデコーダは、usacExtElementStartが1に設定されたUsacFrame()からusacExtElementStopが1に設定されたUsacFrame()まで(これを含む)の全フラグメントを集める必要がある。usacExtElementStopが1に設定されると、拡張は完了と考えられ、拡張デコーダへ送られる。
なお、分割された拡張ペイロードの保全性保護についてはこの明細書によっては提供されず、拡張ペイロードの完全性を確保するためには他の手段を用いる必要がある。
なお、全拡張ペイロードデータはバイト単位で揃えられると仮定する。
各UsacExtElement()は、usacIndependencyFlagの使用から結果として得られる要求にしたがう。より明示的には、usacIndependencyFlagを設定(==1)すれば、UsacExElement()が以前のフレーム(およびそれに含まれ得る拡張ペイロード)の知識なしで復号化可能になる。
復号化プロセス
UsacChannelPairElementConfig()において送信されるstereoConfigIndexは、所与のCPEにおいて適用されるステレオ符号化の正確なタイプを決定する。ステレオ符号化のこのタイプに依存して、1または2のコアコーダチャネルが実際にビットストリームにおいて送信され、かつ、可変nrCoreCoderChannelsをこれに応じて設定する必要がある。構文要素UsacCoreCoderData()は、1または2のコアコーダチャネルのためのデータを付与する。
同様に、ステレオ符号化のタイプおよびeSBRの使用(すなわちsbrRatioIndex>0かどうか)に基づき1つまたは2つのチャネル用に使用可能なデータが存在し得る。nrSbrChannelsの値はこれに応じて設定される必要があり、かつ構文要素UsacSbrData()は、1つまたは2つのチャネルのためのeSBRデータを付与する。
最後に、Mps212Data()は、stereoConfigIndexの値に依存して送信される。
低周波数エンハンスメント(LFE)チャネル要素UsacLfeElement()
概要
デコーダにおける規定の構造を維持するため、UsacLfeElement()を標準fd_channel_stream(0,0,0,0,x)要素として規定し、すなわち、周波数領域コーダを使用してUsacCoreCoderData()と等しくする。こうして、UsacCoreCoderData()要素を復号化するための標準的過程を利用して復号化を行うことができる。
しかしながら、LFEデコーダのより高いビットレートおよびハードウェア効率的実装に適応するため、この要素の符号化に使用される選択肢には、いくつかの制約が適用される。
・window_sequenceフィールドは、常に0に設定される(ONLY_LONG_SEQUENCE)。
・LFEの最も低い24のスペクトル係数のみが非ゼロになり得る。
・非時間雑音整形が使用される、すなわちtns_data_presentがゼロに設定される。
・時間ワープが不活性である。
・ノイズフィリィングが適用されない。
UsacCoreCoderData()
UsacCoreCoderData()は、1または2のコアコーダチャネルを復号化するためのすべての情報を含む。
復号化の順序は以下のとおりである。
・チャネルごとのcore_mode[]を取得。
・2つのコア符号化チャネルの場合(nrChannels==2)、StereoCoreToolInfo()を構文解析し、全ステレオ関連パラメータを決定。
・信号伝達されたcore_modeに基づき、チャネルごとにlpd_channel_stream()またはfd_channel_stream()を送信。
上記のリストからわかるとおり、1つのコアコーダチャネル(nrChannels==1)を復号化すると、core_modeビットが得られ、その後に、core_modeに依存して、1つのlpd_channel_streamまたはfd_channel_streamが続く。
2つのコアコーダチャネルの場合、両方のチャネルのcore_modeが0であれば、特に、チャネル間のいくつかの信号伝達冗長性が利用され得る。詳細については、6.2X(StereoCoreToolInfo()の復号化)を参照。
StereoCoreToolInfo()
StereoCoreToolInfo()により、パラメータを効率的に符号化でき、その値は、両方のチャネルがFDモード(core_mode[0,1]=0)で符号化される場合には、CPEのコアコーダチャネルを横断して共有され得る。ビットストリームにおける適切なフラグが1にセットされると、特に以下のデータ要素が共有される。
Figure 0006007196
適切なフラグがセットされない場合、データ要素は、コアコーダチャネルごとにStereoCoreToolInfo()(max_sfb,max_sfb1)またはUsacCoreCoderData()要素においてStereoCoreToolInfo()に追随するfd_channel_stream()のいずれかにおいて、個別に送信される。
common_window==1の場合、StereoCoreToolInfo()はM/Sステレオ符号化についての情報およびMDCT領域における複雑予測データも含む(7.7.2を参照)。
UsacSbrData()
このデータブロックは、1つまたは2つのチャネルについてのSBR帯域幅拡張のためのペイロードを含む。このデータの存在は、sbrRatioIndexに依存する。
SbrInfo()
この要素は、変更されてもデコーダリセットを必要としないSBR制御パラメータを含む。
SbrHeader()
この要素は、SBRコンフィギュレーションパラメータを有するSBRヘッダデータを含み、これらパラメータは典型的にはビットストリームの持続時間にわたって変化しない。
USACのためのSBRペイロード
USACにおいては、SBRペイロードは、UsacSbrData()において送信され、これは、各単一チャネル要素またはチャネル対要素の不可欠な部分である。UsacSbrData()は、UsacCoreCoderData()の直後に続く。LFEチャネルについては、SBRペイロードは存在しない。
numSlots
Mps212Dataフレームにおける時間スロットの数。
装置に関連して、いくつかの特徴について説明したが、これらの特徴が、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する対応の方法の記述にも相当することは明らかである。同様に、方法ステップに関連して説明した特徴は、対応のブロックもしくはアイテムまたは対応の装置の記述にも相当する。
いくつかの実行の要件に基づいて、本発明の実施例は、ハードウェアまたはソフトウェアにおいて実現することができる。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)電子的に可読な制御信号を記憶したフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を用いて実行され得る。
本発明のいくつかの実施例は、本件に記載の方法の1つが実行されるように、プログラム可能コンピュータシステムと協働可能な電子的に可読な制御信号を有する非過渡性のデータキャリアを含む。
符号化されたオーディオ信号は、有線または無線の伝送媒体を経由して送信されるかまたは機械可読キャリアもしくは非過渡性記憶媒体上に記憶することができる。
一般に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現され得るが、このプログラムコードは、コンピュータプログラム製品をコンピュータ上で実行すると、方法の1つを実行するよう動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
他の実施例は、機械可読キャリア上に記憶された、本件に記載の方法の1つを実行するためのコンピュータプログラムを含む。
したがって、言い換えれば、発明の方法の実施例は、コンピュータプログラムをコンピュータ上で実行した際、本件に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明の方法の他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムを記録するデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、発明の方法の他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、インターネットを経由する等、データ通信接続を経由して伝送されるように構成され得る。
他の実施例は、本件に記載の方法の1つを実行するよう構成または適合されたコンピュータ、プログラム可能論理装置等の処理手段を含む。
他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施例においては、プログラム可能論理装置(フィールドプログラマブルゲートアレイ等)を使用して、本件に記載の方法の機能性のいくつかまたはすべてを実行するようにしてもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、本件に記載の方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、これらの方法は、なんらかのハードウェア装置で実行することが好ましい。
上記の実施例は、本発明の原則を説明するためのものに過ぎない。本件に記載の構成および詳細の変形例および修正例が当業者に明らかになることは当然である。したがって、その主旨は請求項の範囲によってのみ限定され、本件に記載の実施例の記述および説明により提示される特定の詳細により限定されない。

Claims (19)

  1. コンフィギュレーションブロック(28)およびそれぞれがオーディオコンテント(10)の連続する期間を表すフレーム(20)のシーケンスを含み、
    フレーム(20)のシーケンスがフレーム要素(22)のN個のシーケンスから構成され、各フレーム(20)がそれぞれフレーム要素(22)のN個のシーケンスからの1つのフレーム要素(22)を含み、かつ、フレーム要素(22)の各シーケンスについて、フレーム要素(22)が相互に等しい要素タイプになるように、各フレーム要素(22)が複数の要素タイプのうちのそれぞれの1つであり、
    デコーダが、ビットストリーム(12)を構文解析し、かつ、フレーム要素のシーケンスのサブセットに基づいてオーディオコンテントを再構成し、フレーム要素のシーケンスのサブセットに属さないフレーム要素(22)の少なくとも一つに対しては、
    フレーム要素(22)のシーケンスの少なくとも1つについて、デフォルトペイロード長さに関するデフォルトペイロード長さ情報(60)をコンフィギュレーションブロック(28)から読み出し、かつ
    フレーム要素(22)のシーケンスの少なくとも1つの各フレーム要素(22)について、ビットストリーム(12)から長さ情報を読み出すよう構成され、長さ情報(58)の読み出しが、フレーム要素(22)のシーケンスの少なくとも1つのフレーム要素(22)の少なくともサブセットについて、デフォルトペイロード長さフラグ(64)を読み出すことを含み、デフォルトペイロード長さフラグ(64)が設定されていなければ、ペイロード長さ値(66)を読み出すことが後に続き、
    ビットストリーム(12)を構文解析する上で、そのデフォルトペイロード長さフラグ(64)が設定されている、フレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素を、デフォルトペイロード長さをスキップインターバル長さとして使用してスキップし、そのデフォルトペイロード長さフラグ(64)が設定されていないフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素をペイロード長さ値(66)に対応するペイロード長さをスキップインターバル長さとして使用してスキップする、デコーダ。
  2. デコーダが、コンフィギュレーションブロック(28)を読み出す上で、要素数Nを表示するフィールド(50)と、N個の要素位置のシーケンスの各要素位置について、複数の要素タイプのうちから要素タイプを表示するタイプ表示構文部(52)とを読み出すよう構成され、
    デコーダが、
    ビットストリーム(12)におけるそれぞれのフレーム(20)のN個のフレーム要素(22)のシーケンス内でそれぞれのフレーム要素が位置するそれぞれの要素位置について、タイプ表示構文部により表示される要素タイプに従って各フレーム要素(22)を復号化することにより各フレーム(20)を復号化するよう構成される、請求項1に記載のデコーダ。
  3. デコーダが、タイプ表示構文部(52)からN個の構文要素(54)のシーケンスを読み出すよう構成され、各要素が、それぞれの構文要素がN個の構文要素のシーケンス内で位置するそれぞれの要素位置について要素タイプを表示する、請求項2に記載のデコーダ。
  4. デコーダが、コンフィギュレーションブロック(28)からフレーム要素の各シーケンスについてコンフィギュレーション要素(56)を読み出すよう構成され、各コンフィギュレーション要素が、フレーム要素のそれぞれのシーケンスについてコンフィギュレーション情報を含み、
    デコーダが、フレーム要素のシーケンスのサブセットに基づきオーディオコンテントを再構成する上で、それぞれのコンフィギュレーション要素のコンフィギュレーション情報を使用してフレーム要素のシーケンスのサブセットの各フレーム要素(22)を復号化するように構成される、請求項1から3のいずれかに記載のデコーダ。
  5. タイプ表示構文部(52)が、N個の構文要素(54)のシーケンスを含み、各構文要素(54)が、それぞれの構文要素(54)がタイプ表示構文部(52)内で位置するそれぞれの要素位置について要素タイプを表示し、デコーダが、ビットストリーム(12)からコンフィギュレーション要素(56)および構文要素(54)を交互に読み出すよう構成される、請求項4に記載のデコーダ。
  6. デコーダが、フレーム要素の少なくとも1つのシーケンスのいずれかのフレーム要素の長さ情報(58)を読み出す上で、ビットストリーム(12)から拡張ペイロードプレゼントフラグ(70)を読み出し、拡張ペイロードプレゼントフラグ(70)が設定されているかどうかをチェックし、拡張ペイロードプレゼントフラグ(70)が設定されていない場合には、それぞれのフレーム要素(22b)を読み出すことを止め、現在のフレーム(20)の他のフレーム要素(22)、または後続のフレーム(20)のフレーム要素の読み出しにとりかかり、かつ拡張ペイロードプレゼントフラグ(70)が設定されている場合には、デフォルトペイロード長さフラグ(64)の読み出しを続け、デフォルトペイロード長さフラグ(64)が設定されていない場合には、ビットストリーム(12)からペイロード長さ値(66)が後に続き、スキップすることにとりかかる、請求項1から5のいずれかに記載のデコーダ。
  7. デコーダが、デフォルトペイロード長さ情報(60)を読み出す上で、
    ビットストリーム(12)からデフォルトペイロード長さプレゼントフラグを読み出し、
    デフォルトペイロード長さプレゼントフラグが設定されているかどうかチェックし、
    デフォルトペイロード長さプレゼントフラグが設定されていない場合は、デフォルト拡張ペイロード長さをゼロに設定し、かつ
    デフォルトペイロード長さプレゼントフラグが設定されている場合には、ビットストリームからデフォルト拡張ペイロード長さを明示的に読み出すように構成される、請求項1から6のいずれかに記載のデコーダ。
  8. デコーダが、コンフィギュレーションブロック(28)を読み出す上で、フレーム要素の少なくとも1つのシーケンスのフレーム要素の各シーケンスについて、
    ビットストリーム(12)から拡張要素タイプについてのコンフィギュレーション情報を含むコンフィギュレーション要素(56)を読み出すように構成され、
    コンフィギュレーション情報が、複数のペイロードデータタイプのうちからペイロードデータタイプを表示する拡張要素タイプフィールド(72)を含む、請求項1から7のいずれかに記載のデコーダ。
  9. 複数のペイロードデータタイプが、多チャネルサイド情報タイプおよび多オブジェクト符号化サイド情報タイプを含み、
    デコーダが、コンフィギュレーションブロック(28)を読み出す上で、フレーム要素の少なくとも1つのシーケンスの各々について、
    拡張要素タイプフィールド(72)が、多チャネルサイド情報タイプを表示する場合、 ビットストリーム(12)からコンフィギュレーション情報の一部として多チャネルサイド情報コンフィギュレーションデータ(74)を読み出し、かつ拡張要素タイプフィールド(72)が多オブジェクトサイド情報タイプを表示する場合には、ビットストリームからのコンフィギュレーショ情報の一部として多オブジェクトサイド情報コンフィギュレーションデータ(74)を読み出すよう構成され、
    デコーダが、各フレームを復号化する上で、
    それについてコンフィギュレーション要素(56)の拡張要素タイプが多チャネルサイド情報タイプを表示するフレーム要素の少なくとも1つのシーケンスのいずれかのフレーム要素を、多チャネルサイド情報コンフィギュレーションデータ(74)を使用して多チャネルデコーダ(44e)を構成し、かつこうして構成された多チャネルデコーダ(44e)に、多チャネルサイド情報として、フレーム要素のそれぞれのシーケンスのフレーム要素(22b)のペイロードデータ(68)をフィードすることにより復号化し、かつ
    それについてコンフィギュレーション要素(56)の拡張要素タイプが多オブジェクトサイド情報タイプを表示するフレーム要素の少なくとも1つのシーケンスのいずれかのフレーム要素を、多オブジェクトサイド情報コンフィギュレーションデータ(74)を使用して多オブジェクトデコーダ(44d)を構成しかつこうして構成した多オブジェクトデコーダ(44d)にフレーム要素のそれぞれのシーケンスのフレーム要素(22)のペイロードデータ(68)をフィードすることにより復号化するよう構成される、請求項8に記載のデコーダ。
  10. デコーダが、フレーム要素の少なくとも1つのシーケンスのいずれかについて、
    フレーム要素のそれぞれのシーケンスについてのコンフィギュレーション要素のコンフィギュレーション情報の一部として、ビットストリーム(12)からコンフィギュレーションデータ長さフィード(76)を読み出し、
    フレーム要素のそれぞれのシーケンスについて、コンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド(72)により表示されるペイロードデータタイプが、複数のペイロードデータタイプのサブセットであるペイロードタイプの予め定められたセットに属するかどうかをチェックし、
    フレーム要素のそれぞれのシーケンスについてのコンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド(72)により表示されるペイロードデータタイプが、ペイロードデータタイプの予め定められたセットに属する場合、
    ビットストリーム(12)からフレーム要素のそれぞれのシーケンスについてのコンフィギュレーション要素のコンフィギュレーション情報の一部としてペイロードデータ依存のコンフィギュレーションデータ(74)を読み出し、かつ
    ペイロードデータ依存のコンフィギュレーションデータ(74)を使用して、フレーム(20)におけるフレーム要素のそれぞれのシーケンスのフレーム要素を復号化し、かつ
    フレーム要素のそれぞれのシーケンスについてのコンフィギュレーション要素のコンフィギュレーション情報の拡張要素タイプフィールド(72)により表示されるペイロードデータタイプが、ペイロードデータタイプの予め定められたセットに属していない場合、
    コンフィギュレーションデータ長さを使用してペイロードデータ依存のコンフィギュレーションデータ(74)をスキップし、かつ
    内部の長さ情報(58)を使用してフレーム(20)内のフレーム要素のそれぞれのシーケンスのフレーム要素をスキップするよう構成される、請求項8または9に記載のデコーダ。
  11. デコーダが、フレーム要素の少なくとも1つのシーケンスの各々について、コンフィギュレーションブロック(28)を読み出す上で、
    ビットストリーム(12)からの拡張要素タイプのコンフィギュレーション情報を含むコンフィギュレーション要素(56)を読み出すよう構成され、コンフィギュレーション情報が、フラグメンテーション使用フラグ(78)を含み、
    デコーダが、それについてコンフィギュレーション要素のフラグメンテーション使用フラグ(78)が設定されているフレーム要素のいずれかのシーケンスのフレーム要素(22)を読み出す上で、
    ビットストリームからフラグメント情報を読み出し、かつ
    連続するフレームのこれらのフレーム要素のペイロードデータを結合させるようフラグメント情報を使用するよう構成される、請求項1から10のいずれかに記載のデコーダ。
  12. 単一チャネル要素タイプであるフレーム要素のシーケンスのサブセットの1つのフレーム要素(22)からオーディオ信号を再構成するように、デコーダが構成される、請求項1から11のいずれかに記載のデコーダ。
  13. チャネル対要素タイプであるフレーム要素のシーケンスのサブセットの1つのフレーム要素(22)からオーディオ信号を再構成するように、デコーダが構成される、請求項1から12のいずれかに記載のデコーダ。
  14. デコーダが、長さ情報(80)、拡張要素タイプフィールド(72)およびコンフィギュレーションデータ長フィールド(76)を読み出すために同じ可変長コードを使用するよう構成される、請求項1から13のいずれかに記載のデコーダ。
  15. オーディオコンテントをビットストリームに符号化するためのエンコーダであって、エンコーダが、
    オーディオコンテント(10)の連続する期間(18)を、それぞれがオーディオコンテント(10)の連続する期間(18)を表すフレーム(20)のシーケンスに符号化し、それにより、フレーム(20)のシーケンスがフレーム要素(22)のN個のシーケンスから構成され、各フレーム(20)がそれぞれフレーム要素(22)のN個のシーケンスからの1つのフレーム要素(22)を含むように、かつフレーム要素(22)の各シーケンスについて、フレーム要素(22)が相互に等しい要素タイプになるよう、各フレーム要素(22)が複数の要素タイプのうちのそれぞれの1つであり、かつ
    フレーム要素(22)のシーケンスの少なくとも1つについて、デフォルトペイロード長さに関するデフォルトペイロード長さ情報(60)を含むコンフィギュレーションブロック(28)をビットストリーム(12)に符号化し、
    フレーム要素(22)のシーケンスの少なくとも1つのフレーム要素(22)の少なくともサブセットについて、デフォルトペイロード長さフラグ(64)を含み、デフォルトペイロード長さフラグ(64)が設定されていない場合は、ペイロード長さ値(66)が後に続くように、かつ
    そのデフォルトペイロード長さフラグ(64)が設定されているフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素が、デフォルトペイロード長さを有するように、そのデフォルトペイロード長さフラグ(64)が設定されていないフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素がペイロード長さ値(66)に対応するペイロード長さを有するように、フレーム要素(22)のシーケンスの少なくとも1つの各フレーム要素(22)をビットストリーム(12)に符号化するよう構成される、エンコーダ。
  16. コンフィギュレーションブロック(28)と、それぞれがオーディオコンテントの連続する期間を表すフレーム(20)のシーケンスとを含むビットストリームを復号化する方法であって、
    フレーム(20)のシーケンスが、フレーム要素(22)のN個のシーケンスからなる構成であり、各フレーム(20)が、それぞれフレーム要素(22)のN個のシーケンスからの1つのフレーム要素(22)を含むように、かつフレーム要素(22)の各シーケンスについて、フレーム要素(22)が相互に等しい要素タイプになるように、各フレーム要素(22)が、複数の要素タイプのうちのそれぞれの1つであり、当該方法がコンピ ュータまたはハードウェア装置によって実行され、
    方法が、ビットストリーム(12)を構文解析し、かつ、フレーム要素のシーケンスのサブセットに基づき、かつ、フレーム要素のシーケンスのサブセットに属していないフレーム要素(22)のシーケンスの少なくとも1つのフレームに関してオーディオコンテントを再構成するステップと、
    フレーム要素(22)のシーケンスの少なくとも1つについて、デフォルトペイロード長さに関するデフォルトペイロード長さ情報(60)をコンフィギュレーションブロック(28)から読み出すステップと、
    フレーム要素(22)のシーケンスの少なくとも1つの各フレーム要素(22)について、ビットストリーム(12)から長さ情報を読み出すステップとを含み、長さ情報を読み出すステップが、フレーム要素(22)のシーケンスの少なくとも1つのフレーム要素(22)の少なくともサブセットについて、デフォルトペイロード長さフラグ(64)を読み出すステップを含み、デフォルトペイロード長さフラグ(64)が設定されていない場合には、ペイロード長さ値(66)を読み出すステップが後に続き、
    さらに、ビットストリーム(12)を構文解析する上で、そのデフォルトペイロード長さフラグ(64)が設定されているフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素を、デフォルトペイロード長さをスキップインターバル長さとして使用して、スキップし、かつそのデフォルトペイロード長さフラグ(64)が設定されていないフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素を、ペイロード長さ値(66)に対応するペイロード長さをスキップインターバル長さとして使用して、スキップするステップを含む、方法。
  17. オーディオコンテントをビットストリームに符号化するための方法であって、
    当該方法がコンピュータまたはハードウェア装置によって実行され、
    方法が、オーディオコンテント(10)の連続する期間(18)をそれぞれがオーディオコンテント(10)の連続する期間(18)を表すフレーム(20)のシーケンスに符号化するステップを含み、それによりフレーム(20)のシーケンスが、フレーム要素(22)のN個のシーケンスの構成となり、各フレーム(20)が、それぞれフレーム要素(22)のN個のシーケンスからの1つのフレーム要素(22)を含むように、かつフレーム要素(22)の各シーケンスについて、フレーム要素(22)が、相互に等しい要素タイプになるように、各フレーム要素(22)が複数の要素タイプのうちのそれぞれの1つのタイプであり、
    さらに、フレーム要素(22)のシーケンスの少なくとも1つについて、デフォルトペイロード長さに関するデフォルトペイロード長さ情報(60)を含むコンフィギュレーションブロック(28)をビットストリーム(12)に符号化するステップと、
    フレーム要素(22)のシーケンスの少なくとも1つのフレーム要素(22)の少なくともサブセットについて、デフォルトペイロード長さフラグ(64)を含む長さ情報(58)を含み、デフォルトペイロード長さフラグ(64)が設定されていない場合は、ペイロード長さ値(66)が後に続き、かつそのデフォルトペイロード長さフラグ(64)が設定されているフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素がデフォルトペイロード長さを有し、かつそのデフォルトペイロード長さフラグ(64)が設定されていないフレーム要素(22)のシーケンスの少なくとも1つのいずれかのフレーム要素が、ペイロード長さ値(66)に対応するペイロード長さを有するように、フレーム要素(22)のシーケンスの少なくとも1つの各フレーム要素(22)をビットストリーム(12)に符号化するステップとを含む、方法。
  18. コンピュータで実行した際に、請求項16に記載の方法を実行するためのコンピュータプログラム。
  19. コンピュータで実行した際に、請求項17に記載の方法を実行するためのコンピュータ プログラム。

JP2013558472A 2011-03-18 2012-03-19 オーディオ符号化におけるフレーム要素長さの伝送 Active JP6007196B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161454121P 2011-03-18 2011-03-18
US61/454,121 2011-03-18
PCT/EP2012/054823 WO2012126893A1 (en) 2011-03-18 2012-03-19 Frame element length transmission in audio coding

Publications (2)

Publication Number Publication Date
JP2014510310A JP2014510310A (ja) 2014-04-24
JP6007196B2 true JP6007196B2 (ja) 2016-10-12

Family

ID=45992196

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2013558472A Active JP6007196B2 (ja) 2011-03-18 2012-03-19 オーディオ符号化におけるフレーム要素長さの伝送
JP2013558468A Active JP5805796B2 (ja) 2011-03-18 2012-03-19 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ
JP2013558471A Active JP5820487B2 (ja) 2011-03-18 2012-03-19 オーディオコンテントを表すビットストリームのフレームにおけるフレーム要素位置決め

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2013558468A Active JP5805796B2 (ja) 2011-03-18 2012-03-19 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ
JP2013558471A Active JP5820487B2 (ja) 2011-03-18 2012-03-19 オーディオコンテントを表すビットストリームのフレームにおけるフレーム要素位置決め

Country Status (16)

Country Link
US (5) US9524722B2 (ja)
EP (3) EP2686849A1 (ja)
JP (3) JP6007196B2 (ja)
KR (7) KR101748760B1 (ja)
CN (5) CN107342091B (ja)
AR (3) AR088777A1 (ja)
AU (5) AU2012230440C1 (ja)
BR (2) BR112013023949A2 (ja)
CA (3) CA2830439C (ja)
HK (1) HK1245491A1 (ja)
MX (3) MX2013010535A (ja)
MY (2) MY167957A (ja)
RU (2) RU2589399C2 (ja)
SG (2) SG193525A1 (ja)
TW (3) TWI480860B (ja)
WO (3) WO2012126891A1 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4372742A2 (en) * 2010-07-08 2024-05-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coder using forward aliasing cancellation
JP6100164B2 (ja) * 2010-10-06 2017-03-22 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号を処理し、音声音響統合符号化方式(usac)のためにより高い時間粒度を供給するための装置および方法
CN103918029B (zh) * 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
WO2014112793A1 (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
IN2015MN01952A (ja) 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN103336747B (zh) * 2013-07-05 2015-09-09 哈尔滨工业大学 VxWorks操作系统下CPCI总线数字量输入与开关量输出可配置驱动器及驱动方法
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
KR102329309B1 (ko) 2013-09-12 2021-11-19 돌비 인터네셔널 에이비 Qmf 기반 처리 데이터의 시간 정렬
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9847804B2 (en) * 2014-04-30 2017-12-19 Skyworks Solutions, Inc. Bypass path loss reduction
EP3258467B1 (en) * 2015-02-10 2019-09-18 Sony Corporation Transmission and reception of audio streams
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
WO2016142380A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Fragment-aligned audio coding
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI732403B (zh) * 2015-03-13 2021-07-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
KR20240050483A (ko) * 2015-06-17 2024-04-18 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
KR102627374B1 (ko) * 2015-06-17 2024-01-19 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2016204579A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
CA3127805C (en) * 2016-11-08 2023-12-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multichannel signal using a side gain and a residual gain
CN116631416A (zh) 2017-01-10 2023-08-22 弗劳恩霍夫应用研究促进协会 音频解码器、提供解码的音频信号的方法、和计算机程序
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
AU2018308668A1 (en) * 2017-07-28 2020-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
BR112020012654A2 (pt) * 2017-12-19 2020-12-01 Dolby International Ab métodos, aparelhos e sistemas para aprimoramentos de decodificação e codificação de fala e áudio unificados com transpositor de harmônico com base em qmf
TWI812658B (zh) 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
TWI834582B (zh) * 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
US10365885B1 (en) 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN110505425B (zh) * 2018-05-18 2021-12-24 杭州海康威视数字技术股份有限公司 一种解码方法、解码装置、电子设备和可读存储介质
CA3091150A1 (en) * 2018-07-02 2020-01-09 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding immersive audio signals
US11081116B2 (en) * 2018-07-03 2021-08-03 Qualcomm Incorporated Embedding enhanced audio transports in backward compatible audio bitstreams
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置
EP3761654A1 (en) * 2019-07-04 2021-01-06 THEO Technologies Media streaming
KR102594160B1 (ko) * 2019-11-29 2023-10-26 한국전자통신연구원 필터뱅크를 이용한 오디오 신호 부호화/복호화 장치 및 방법
TWI772099B (zh) * 2020-09-23 2022-07-21 瑞鼎科技股份有限公司 應用於有機發光二極體顯示器之亮度補償方法
CN112422987B (zh) * 2020-10-26 2022-02-22 眸芯科技(上海)有限公司 适用于avc的熵解码硬件并行计算方法及应用
US11659330B2 (en) * 2021-04-13 2023-05-23 Spatialx Inc. Adaptive structured rendering of audio channels

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146596A (ja) * 1995-11-21 1997-06-06 Japan Radio Co Ltd 音声信号合成方法
US6256487B1 (en) 1998-09-01 2001-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FI120125B (fi) * 2000-08-21 2009-06-30 Nokia Corp Kuvankoodaus
KR20040036948A (ko) * 2001-09-18 2004-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 부호화 및 복호 방법과, 대응하는 신호
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
WO2004059643A1 (en) 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7684521B2 (en) * 2004-02-04 2010-03-23 Broadcom Corporation Apparatus and method for hybrid decoding
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
CA2566368A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
DE102004043521A1 (de) * 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
KR101271069B1 (ko) 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
EP1905002B1 (en) 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP2008542816A (ja) * 2005-05-26 2008-11-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化及び復号化方法
US8050915B2 (en) * 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
RU2380767C2 (ru) 2005-09-14 2010-01-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
EP2555187B1 (en) * 2005-10-12 2016-12-07 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding audio data and extension data
BRPI0706488A2 (pt) 2006-02-23 2011-03-29 Lg Electronics Inc método e aparelho para processar sinal de áudio
KR100917843B1 (ko) 2006-09-29 2009-09-18 한국전자통신연구원 다양한 채널로 구성된 다객체 오디오 신호의 부호화 및복호화 장치 및 방법
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
CN101197703B (zh) 2006-12-08 2011-05-04 华为技术有限公司 对Zigbee网络进行管理的方法及系统及设备
DE102007007830A1 (de) * 2007-02-16 2008-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
JP5686594B2 (ja) * 2007-04-12 2015-03-18 トムソン ライセンシングThomson Licensing スケーラブル・ビデオ符号化のためのビデオ・ユーザビリティ情報(vui)用の方法及び装置
US7778839B2 (en) * 2007-04-27 2010-08-17 Sony Ericsson Mobile Communications Ab Method and apparatus for processing encoded audio data
KR20090004778A (ko) * 2007-07-05 2009-01-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2242047B1 (en) * 2008-01-09 2017-03-15 LG Electronics Inc. Method and apparatus for identifying frame type
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
EP2301019B1 (en) * 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
MX2011000370A (es) * 2008-07-11 2011-03-15 Fraunhofer Ges Forschung Un aparato y un metodo para decodificar una señal de audio codificada.
MX2011000382A (es) 2008-07-11 2011-02-25 Fraunhofer Ges Forschung Codificador de audio, decodificador de audio, metodos para la codificacion y decodificacion de audio; transmision de audio y programa de computacion.
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
WO2010036059A2 (en) * 2008-09-25 2010-04-01 Lg Electronics Inc. A method and an apparatus for processing a signal
EP2169665B1 (en) * 2008-09-25 2018-05-02 LG Electronics Inc. A method and an apparatus for processing a signal
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101751925B (zh) * 2008-12-10 2011-12-21 华为技术有限公司 一种语音解码方法及装置
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CA2750795C (en) 2009-01-28 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
KR20100089772A (ko) * 2009-02-03 2010-08-12 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR20100090962A (ko) * 2009-02-09 2010-08-18 주식회사 코아로직 멀티채널 오디오 디코더, 그 디코더를 포함한 송수신 장치 및 멀티채널 오디오 디코딩 방법
US8780999B2 (en) * 2009-06-12 2014-07-15 Qualcomm Incorporated Assembling multiview video coding sub-BITSTREAMS in MPEG-2 systems
US8411746B2 (en) * 2009-06-12 2013-04-02 Qualcomm Incorporated Multiview video coding over MPEG-2 systems
EP2446539B1 (en) 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
WO2011010876A2 (ko) * 2009-07-24 2011-01-27 한국전자통신연구원 Mdct 프레임과 이종의 프레임 연결을 위한 윈도우 처리 방법 및 장치, 이를 이용한 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
JP5805796B2 (ja) 2015-11-10
HK1245491A1 (zh) 2018-08-24
CA2830439C (en) 2016-10-04
TWI480860B (zh) 2015-04-11
JP2014509754A (ja) 2014-04-21
US9524722B2 (en) 2016-12-20
US20140016787A1 (en) 2014-01-16
AU2012230415B2 (en) 2015-10-29
US9779737B2 (en) 2017-10-03
BR112013023949A2 (pt) 2017-06-27
EP2686847A1 (en) 2014-01-22
CN103620679A (zh) 2014-03-05
CN103703511A (zh) 2014-04-02
TW201303853A (zh) 2013-01-16
CN103562994A (zh) 2014-02-05
SG193525A1 (en) 2013-10-30
JP5820487B2 (ja) 2015-11-24
US20140019146A1 (en) 2014-01-16
RU2013146526A (ru) 2015-04-27
CA2830633C (en) 2017-11-07
WO2012126891A1 (en) 2012-09-27
KR101748760B1 (ko) 2017-06-19
CA2830633A1 (en) 2012-09-27
US9773503B2 (en) 2017-09-26
US9972331B2 (en) 2018-05-15
KR20140018929A (ko) 2014-02-13
KR20160058191A (ko) 2016-05-24
MX2013010535A (es) 2014-03-12
KR20160056328A (ko) 2016-05-19
KR20160056952A (ko) 2016-05-20
CA2830439A1 (en) 2012-09-27
AU2012230442A1 (en) 2013-10-31
KR101854300B1 (ko) 2018-05-03
KR20140000337A (ko) 2014-01-02
AU2016203419B2 (en) 2017-12-14
MX2013010537A (es) 2014-03-21
CN103562994B (zh) 2016-08-17
KR101712470B1 (ko) 2017-03-22
AU2012230440A1 (en) 2013-10-31
AU2016203416A1 (en) 2016-06-23
US10290306B2 (en) 2019-05-14
EP2686849A1 (en) 2014-01-22
KR101748756B1 (ko) 2017-06-19
CA2830631A1 (en) 2012-09-27
AU2016203416B2 (en) 2017-12-14
RU2013146530A (ru) 2015-04-27
TW201243827A (en) 2012-11-01
AR088777A1 (es) 2014-07-10
KR20140000336A (ko) 2014-01-02
AR085445A1 (es) 2013-10-02
MX2013010536A (es) 2014-03-21
KR101767175B1 (ko) 2017-08-10
US20140016785A1 (en) 2014-01-16
MY167957A (en) 2018-10-08
AU2016203417B2 (en) 2017-04-27
CN103620679B (zh) 2017-07-04
US20180233155A1 (en) 2018-08-16
AU2012230442B2 (en) 2016-02-25
RU2571388C2 (ru) 2015-12-20
RU2013146528A (ru) 2015-04-27
CN107342091A (zh) 2017-11-10
BR112013023945A2 (pt) 2022-05-24
AU2012230442A8 (en) 2013-11-21
AR085446A1 (es) 2013-10-02
WO2012126866A1 (en) 2012-09-27
CN107342091B (zh) 2021-06-15
SG194199A1 (en) 2013-12-30
WO2012126893A1 (en) 2012-09-27
CN107516532A (zh) 2017-12-26
JP2014510310A (ja) 2014-04-24
AU2012230415A1 (en) 2013-10-31
CN103703511B (zh) 2017-08-22
AU2016203417A1 (en) 2016-06-23
AU2012230440C1 (en) 2016-09-08
TW201246190A (en) 2012-11-16
MY163427A (en) 2017-09-15
CA2830631C (en) 2016-08-30
CN107516532B (zh) 2020-11-06
US20170270938A1 (en) 2017-09-21
TWI571863B (zh) 2017-02-21
KR20160056953A (ko) 2016-05-20
AU2016203419A1 (en) 2016-06-16
KR101742136B1 (ko) 2017-05-31
RU2589399C2 (ru) 2016-07-10
AU2012230440B2 (en) 2016-02-25
EP2686848A1 (en) 2014-01-22
KR101742135B1 (ko) 2017-05-31
JP2014512020A (ja) 2014-05-19
TWI488178B (zh) 2015-06-11

Similar Documents

Publication Publication Date Title
JP6007196B2 (ja) オーディオ符号化におけるフレーム要素長さの伝送

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150908

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160307

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160912

R150 Certificate of patent or registration of utility model

Ref document number: 6007196

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250