JP3890299B2

JP3890299B2 - スケーラブルデータストリームを生成する方法と装置およびスケーラブルデータストリームを復号化する方法と装置

Info

Publication number: JP3890299B2
Application number: JP2002558261A
Authority: JP
Inventors: ラルフシュペアシュナイダー; ボードタイヒマン; マンフレットルツキー; ベルンハルトグリル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2001-01-18
Filing date: 2002-01-14
Publication date: 2007-03-07
Anticipated expiration: 2022-01-14
Also published as: ATE259533T1; HK1057123A1; EP1327243B1; DE10102155C2; US20040049376A1; DE10102155A1; CA2428477C; JP2004520740A; CA2428477A1; EP1327243A1; KR100546894B1; US7454353B2; DE50200242D1; KR20030076610A; WO2002058054A1

Description

本発明はスケーラブルコーダ（またはエンコーダ）とデコーダに関し、特に、低いスケーリングレイヤの低遅延復号化が保証されるスケーラブルデータストリームの生成に関する。

スケーラブルコーダ（階層符号器）はＥＰ０８４６３７５Ｂ１に示される。一般にスケーラビリティ（分解能可変性）とは、ある符号化されたデータ信号を表すビットストリーム、例えばオーディオ信号やビデオ信号などから、その一部分を取り出して利用可能な信号に復号できる可能性を示すと考えられている。この特徴は、例えばデータ送信チャネルが完全なビットストリームを送信するために必要な全帯域を提供できない時などに、特に望ましい特徴となる。他方では、複雑性の低いデコーダによる不完全な復号化も可能である。一般に、実際の使用においては様々な離散スケーラビリティレイヤが定義されている。

図１に、例えばＭＰＥＧ４標準（ＩＳＯ／ＩＥＣ１４４９６−３：１９９９，サブパート４）のパート３（オーディオ）のサブパート４（一般オーディオ）において定義されたような、スケーラブルコーダの例を示す。符号化されるべきオーディオ信号Ｓ（ｔ）がスケーラブルコーダの入力側に供給される。図１に示すスケーラブルコーダは、ＭＰＥＧＣＥＬＰ（符号励振線型予測）コーダである第１コーダ１２を備える。第２コーダ１４は、高品質オーディオ符号化を実行し、かつＭＰＥＧ２ＡＡＣ(Advanced Audio Coding) 標準（ＩＳＯ／ＩＥＣ１３８１８）に定義されたＡＡＣコーダである。ビットストリームマルチプレクサ（ＢｉｔＭｕｘ）２０に対し、上記ＣＥＬＰコーダ１２は出力ライン１６を介して第１スケーリングレイヤを提供し、上記ＡＡＣコーダ１４は第２出力ライン１８を介して第２スケーリングレイヤを提供する。ビットストリームマルチプレクサは、出力側ではＭＰＥＧ４ＬＡＴＭビットストリーム２２（ＬＡＴＭ＝Low OverheadMPEG 4 Audio Transport Multiplex)を出力する。このＬＡＴＭフォーマットは、ＭＰＥＧ４標準（ＩＳＯ／ＩＥＣ１４４９６−３：１９９９／ＡＭＤ１：２０００）への第１付録パート３（オーディオ）の６．５章に説明されている。

スケーラブルオーディオコーダはまた、他の要素も含む。まず、ＡＡＣ分枝には遅延ステージ２４を含み、ＣＥＬＰ分枝には遅延ステージ２５を含む。これら２個の遅延ステージにより、各分枝に対する選択的遅延は調節可能となる。ダウンサンプリングステージ２８がＣＥＬＰ分枝の遅延ステージ２５の下流に位置し、入力信号ｓ（ｔ）のサンプリングレートをＣＥＬＰコーダが要求するサンプリングレートに適合させる。ＣＥＬＰコーダ１２の下流には逆ＣＥＬＰデコーダ３０が配置され、ＣＥＬＰ符号化／復号化された信号は、アップサンプリングステージ３２に対して入力される。ここでアップサンプリングされた信号は次にさらなる遅延ステージ３４に送られる。このステージ３４は、ＭＰＥＧ４標準では「コアコーダ遅延」("Core Coder Delay")と呼ばれるものである。

コアコーダ遅延ステージ３４は次のような機能を持つ。もし遅延がゼロに設定された場合には、第１コーダ１２および第２コーダ１４は、１つのいわゆるスーパーフレームの中のオーディオ入力信号のまさに同一のサンプルを処理する。１つのスーパーフレームは、例えば３個のＡＡＣフレームを含むことができ、これらは合同してオーディオ信号のある所定個数のサンプル第ｘ番〜第ｙ番を表す。このスーパーフレームはさらに例えば８個のＣＥＬＰブロックを含み、コアコーダ遅延がゼロの場合には、これらのＣＥＬＰブロックは同個数でかつ同一のサンプル第ｘ番〜第ｙ番を表す。

もし時間量としてのコアコーダ遅延Ｄがゼロでないと設定される場合であっても、ＡＡＣフレームの３個のブロックはやはり同じサンプル値第ｘ番〜第ｙ番を表す。しかし他方、ＣＥＬＰフレームの８個のブロックはサンプル値第ｘ−ＦｓＤ番〜第ｙ−ＦｓＤ番を表す。この時、Ｆｓは入力信号のサンプリング周波数を示す。

そのため、１つのスーパーフレーム内においてＡＡＣブロックおよびＣＥＬＰブロックへの入力信号のカレントタイムセクション（現時点の時間セクション）は、コアコーダ遅延Ｄ＝０の場合には同一になることが可能であり、コアコーダ遅延Ｄ＝０でない場合には、互いを参照しながらコアコーダ遅延の分だけシフトされることが可能である。以下に続く説明においては、一般性を制限することなく簡素化する目的で、コアコーダ遅延はゼロに等しいと仮定する。これは、第１コーダへの入力信号のカレントタイムセクションと、第２コーダへの入力信号のカレントタイムセクションとが等しくなるようにするためである。しかし一般的には、スーパーフレームに求められる唯一の条件は、１つのスーパーフレーム内のＡＡＣブロックおよびＣＥＬＰブロックが、同個数のサンプルを表すことであり、そのサンプル自身は必ずしも互いに同一である必要はないが、互いを参照しながらコアコーダ遅延の分だけシフトされることが可能であるということである。

ここで指摘しておくが、構造上の理由からＣＥＬＰコーダは入力信号ｓ（ｔ）の１つのセクションをＡＡＣコーダ１４よりも高速で処理する。ＡＡＣ分枝内においては、ブロック決定ステージ２６が選択的遅延ステージ２４の下流に位置し、入力信号ｓ（ｔ）をウィンドウイング(windowing) するためにショートウィンドウまたはロングウィンドウのいずれを使用すべきかについて決定する。この場合、ショートウィンドウとは過渡的な度合いが高い信号に対して選択され、ロングウィンドウとは過渡的な度合いが低い信号に対して選択されるのが望ましい。なぜなら、ロングウィンドウにおいてはペイロード（有効搭載部、ユーザー情報部）データ量とサイド情報との関係が、ショートウィンドウの場合よりも良好であるからである。

この例の場合には、例えば１ブロックにつき５／８倍による固定遅延が、ブロック決定ステージ２６により実行される。これは、当技術では前方予測機能(look ahead function) と呼ばれるものである。ブロック決定ステージは、ショートウィンドウで符号化されるべき過渡的な信号が将来あるか否かを決定できるように、所定の時間分だけ前方予測しておかなければならない。その後、ＣＥＬＰ分枝およびＡＡＣ分枝内の対応する両信号は、時間表示からスペクトル表示へと変換するための手段に対して供給される。これらの手段は、図１においては、それぞれＭＤＣＴ３６および３８として示されている（ＭＤＣＴ＝変形離散コサイン変換）。ＭＤＣＴブロック３６および３８の出力信号は、次に減算器４０に対して供給される。

この時点で、時間的に一致したサンプル値が存在しなければならない。すなわち、両分枝の遅延は同一でなければならない。

次に続くブロック４４は、入力信号そのものをＡＡＣコーダ１４に供給する方が望ましいか否かを判断する。これはバイパス分枝４２を介して可能となる。しかし、もし例えばエネルギーに関し、減算器４０の出力における差分信号がＭＤＣＴブロック３８により出力される信号よりも小さいと判断される場合には、オリジナル信号ではなく差分信号が、ＡＡＣコーダ１４により符号化されるために用いられ、最終的に第２スケーリングレイヤ１８を形成する。この比較はバンド毎に実行されることが可能であり、図中においては周波数選択的スイッチ手段（ＦＳＳ）４４により示されている。個々の要素の詳細な機能については当業者では公知であり、例えばＭＰＥＧ４標準規格およびさらなるＭＰＥＧ標準規格の中で説明がなされている。

ＭＰＥＧ４標準規格および他のコーダ標準規格の中で重要な特徴は、圧縮されたデータ信号の送信が、あるチャネルを介して一定のビットレートで実行されるという点である。全ての高品質オーディオコーデック（符号化／復号器）はブロックベースで作動する。すなわち、それらはオーディオデータの複数のブロック（４８０〜１０２４サンプルの規模のオーダー）を処理し、１つの圧縮されたビットストリームの複数のパーツ、すなわちフレームとも呼ばれる部分へと変換する。この時このビットストリームフォーマットは、以下のように設定されなければならない。すなわち、フレームの先頭位置に関する事前の情報を持たないデコーダが、フレームの先頭を認識できるようにし、その結果、復号化されたオーディオ信号データを可能な限り小さい遅延で出力開始できるように設定されなければならない。そのため、フレームの各ヘッダまたは決定データブロックは、連続的なビットストリームの中で検索可能なある一定の同期語（synchronization word) で始まる。決定データブロックの他に、データストリーム内のさらなる一般的な要素として、個々のレイヤのメインデータあるいは「ペイロードデータ」と呼ばれるものがあり、この中に実際の圧縮オーディオデータが含まれる。

図４は固定フレーム長を持つビットストリームフォーマットを示す。このビットストリームフォーマットの中では、ヘッダまたは決定データブロックはビットストリームの中に等間隔で挿入されている。このヘッダに関連するサイド情報およびメインデータは直接的にこのヘッダに続いて配列されている。メインデータのための長さ、すなわちビット数は、各フレームにおいて同一となっている。図４に示されるようなビットストリームフォーマットは、例えばＭＰＥＧレイヤ２あるいはＭＰＥＧーＣＥＬＰにおいて使用されている。

図５は固定フレーム長とバックポインタとを備えた他のビットストリームフォーマットを示す。このビットストリームフォーマットにおいては、ヘッダおよびサイド情報は、図４に示されるフォーマットの場合と同様に等間隔で配列されている。しかし、ヘッダの直後にその関連するメインデータの先頭が続くことは例外的な場合であり、殆どの場合には、先頭は前方のフレームの１つの中に存在する。ビットストリーム内においてメインデータの先頭がシフトされたビット数は、サイド情報の可変バックポインタにより伝送される。このメインデータの末部は、このフレーム内または前方のあるフレームの中に存在することができる。そのため、メインデータの長さはもはや一定ではない。このように、１つのブロックが符号化されるためのビット数は、信号の特徴に対して適合させることが可能である。しかし同時に、一定のビットレートを確保することも可能である。この技術は、「ビットセイビングバンク」("bit saving bank") あるいはビットリザーバ（bit reservoir)と呼ばれるものであり、伝送チェイン内の理論上の遅延を増加させるものである。このようなビットストリームフォーマットは、例えばＭＰＥＧレイヤ３（ＭＰ３）で使用されている。ビットセイビングバンクの技術はまた、ＭＰＥＧレイヤ３標準規格の中で説明されている。

一般にビットセイビングバンクとは、ある時間サンプルのブロックを符号化するために、所定の出力データレートにより実際に許容された以上の数のビット数を提供できるように、利用可能となっているビットのバッファを意味する。このビットセイビングバンクの技術では、以下の点を考慮に入れている。すなわち、オーディオサンプル値の複数のブロックは、所定の伝送レートにより予め決められたビット数よりも少ないビット数で符号化できるという点である。この場合、ビットセイビングバンクはこれらのブロックにより満たされる。一方、オーディオサンプルの他のブロックは、その様な大きな圧縮を許容しない聴覚心理的な特徴を備えている。この場合これらのブロックにとって利用可能なビット数は、低インターフェイスまたはインターフェイスなしの符号化にとって充分ではない。必要とされる追加的なビットは、ビットセイビングバンクから取り出されるため、ビットセイビングバンクはそのようなブロックにより空状態に近づく。

しかし、このようなオーディオ信号は、図６に示されるように、可変フレーム長を持つフォーマットにより伝送されることもできる。図６に示されるような「可変フレーム長」ビットストリームフォーマットにおいては、ビットストリーム要素のヘッダ、サイド情報およびメインデータの固定されたシーケンスは、「固定フレーム長」の場合と同様に維持されている。メインデータの長さが一定でないので、この場合においてもビットセイビングバンクの技術が利用可能である。しかし、図５に示される場合のようなバックポインタは必要ではない。図６に示すビットストリームフォーマットの例は、ＭＰＥＧ２ＡＡＣ標準規格に定義されているような伝送フォーマットＡＤＴＳ（Audio Data Transport Stream)である。

ここで注目すべきことは、上述のコーダはスケーラブルコーダではなく、単一のオーディオコーダを備えているだけであるということである。

ＭＰＥＧ４においては、スケーラブルコーダ／デコーダに対する様々なコーダ／デコーダの組合せが提供されている。そのため、第１コーダとしてのＣＥＬＰボイスコーダを、さらなるスケーリングレイヤのためのＡＡＣコーダに対して結合させ、それらのレイヤを１つのビットストリームの中にパックすることが可能かつ実際的となる。この結合の意味は、全てのスケーリングレイヤを復号化して最高のオーディオ品質を得るか、あるいはその一部、場合によると第１スケーリングレイヤのみを復号化してそれ相当の限定されたオーディオ品質を得るかの選択が可能になるということである。最低のスケーリングレイヤのみを復号化する理由は、伝送チャネルの不十分な帯域により、デコーダがビットストリームの第１スケーリングレイヤのみを受け取ったからかもしれない。このように、伝送においては、ビットストリーム内の第１スケーリングレイヤの部分の伝送は、第２あるいはさらなるスケーリングレイヤと比較して、より望ましいものである。そのため、第１スケーリングレイヤの伝送は、伝送ネットワークにおける最低容量(capacity bottle necks) において保証されており、他方、第２スケーリングレイヤは全部あるいは一部が失われる可能性がある。

さらなる理由として、デコーダがコーデックの遅延を最小限にしたいために、第１スケーリングレイヤのみを復号化することも考えられる。ここで注目すべきは、一般的にＣＥＬＰコーデックのコーデック遅延はＡＡＣコーデックの遅延よりもはるかに小さいという点である。

ＭＰＥＧ４第２版の中で、伝送フォーマットＬＡＴＭは標準規格化されており、これは特に、スケーラブルデータストリームをも伝送可能である。

以下に、図２ａを参照しながら説明する。図２ａは入力信号ｓ（ｔ）のサンプル値の全体図を示す。入力信号は別々の連続的なセクション０，１，２および３に分割されることができ、各セクションは所定個数の時間サンプル値を持つ。通常、ＡＡＣコーダ１４（図１参照）は、このセクションを表す符号化データ信号を提供するために、全てのセクション０，１，２または３を処理する。しかし、ＣＥＬＰコーダ１２（図１参照）は通常、符号化ステップ毎により少量の時間サンプル値を処理する。そのため、図２ｂに例として示すように、ＣＥＬＰコーダ、あるいは一般的に呼べば第１コーダまたはコーダ１は、第２コーダのブロック長の４分の１のブロック長を持つことになる。ここで注意すべきは、この分割は完全に任意の分割である点である。第１コーダのブロック長は、第２コーダのブロック長の２分の１、あるいは１１分の１にでもすることが可能である。このように、第１コーダは入力信号の上記セクションから４つのブロック（１１，１２，１３，１４）を生成し、第２コーダはこの入力信号の上記セクションから１つのデータブロックを生成する。図２ｃに一般的なＬＡＴＭビットストリームフォーマットを図示する。

ＭＰＥＧ４の中で表に示されているように、ＣＥＬＰフレームの個数に対するＡＡＣフレームの個数という点で、スーパーフレームは様々な比率の個数を持つことができる。そのため、１つのスーパーフレームは、例えば１個のＡＡＣブロックと１〜１２個のＣＥＬＰブロックを持つことができ、あるいは３個のＡＡＣブロックと８個のＣＥＬＰブロックを持つことができる。しかし、構成によってはまた、ＣＥＬＰブロックよりも多い個数のＡＡＣブロックを持つことも可能である。１つのＬＡＴＭ決定データブロックを備えた１つのＬＡＴＭフレームは、１個または数個のスーパーフレームを含む。

一例として、ヘッダ１により開始されるＬＡＴＭフレームの生成を説明する。初めに、ＣＥＬＰコーダ１２（図１参照）の出力データブロック１１，１２，１３，１４が生成され、バッファリングされる。これと並行して、図２ｃ内では「１」で示されるＡＡＣコーダの出力データブロックが生成される。このＡＡＣコーダの出力データブロックが生成される時、決定データブロック（ヘッダ１）が最初に書き込まれる。標準に従い、第１コーダにより最初に生成された出力データブロック、すなわち図２ｃでは参照番号１１で示されるデータブロックが、ヘッダ１の直後に書き込まれ、すなわち伝送されることができる。通常、図２ｃに示すように、（必要な信号化情報は少ないとして）データストリームのさらなる書き込みまたは伝送のために、第１コーダの出力データブロックは等間隔が選択される。つまり、ブロック１１の書き込みまたは伝送の後で、第１コーダの第２出力データブロック１２の書き込みまたは伝送が行われ、次に第１コーダの第３出力データブロック１３、最後に第１コーダの第４出力データブロック１４の書き込みまたは伝送がそれぞれ等間隔で行われる。第２コーダの出力データブロック１は、伝送の間に残りの隙間に挿入されていく。このようにして１つのＬＡＴＭフレームが完全に書き込まれる。すなわち完全に伝送される。

上述の方法には、次のような欠点となる概念がある。すなわち、コーダからデコーダへのデータストリームの伝送は、最も早い場合でも１つのヘッダに含まれるべきデータ全てが利用可能になった時にスタート可能となるという概念である。そのため、ＬＡＴＭヘッダ１は、第２コーダ（図１内のＡＡＣコーダ１４）がカレントセクションの符号化を完了した時に初めて、書き込みまれることができ、すなわち伝送されることができる。なぜなら、そのＬＡＴＭヘッダ１は、とりわけスーパーフレーム内のブロックの長さに関する情報を含んでいるからである。このため、第１コーダの出力データブロック１１，１２，１３および１４は、より高いフレーム長で作動するために通常は低速となる第２コーダ１４が出力データを生成するまで、コーダの中である程度の時間バッファリングされることが必要となる。たとえデコーダが第１スケーリングレイヤのみ、すなわちブロック１１，１２，１３，１４のみを復号しようとする場合であり、第２スケーリングレイヤには全く無関心な場合であっても、そのデコーダは、第２コーダが入力信号のその時点で考慮されているセクションまたはブロックの処理を完了するまで待たなければならない。これは、エンコーダが第１コーダのブロックをビットストリームの中に遅延と共に書き込むために起こるものである。

この特徴は、リアルタイム作動においては特に悪影響を与えるものとなる。例えば２人の人間が電話で会話をしている場合を考えてみると、ＣＥＬＰ音声コーダが比較的高速で低遅延の符号化を実行する。もし送信側と受信側の両方においてＣＥＬＰ音声コーダのみが提供されている場合には、不快な遅延なしの音声コミュニケーションが可能である。しかしながら、もし送信側と受信側の両方において、例えば音声と音楽とを高品質で伝送できるように、図１に示されるようなスケーラブルコーダが提供されている場合には、図２ｃに示されるビットストリームフォーマットが不快で長い遅延を発生させ、コミュニケーションのリアルタイム作動を略不可能にしてしまうか、あるいはあまりに不快で市場に出るチャンスが殆ど無いような製品ができることになるであろう。

本発明の目的は、スケーラブルデータストリームを生成するための方法および装置であって、第１スケーリングレイヤの低遅延復号化が可能な方法および装置を提供する事である。

この目的は、請求項１に記載の方法と、請求項９に記載の装置とで達成される。

本発明のさらなる目的は、スケーラブルデータストリームを低遅延復号化するための方法および装置を提供する事である。

この目的は、請求項８に記載の方法と、請求項１０に記載の装置とで達成される。

本発明は、次のような認識を基礎とする。すなわち、以下に述べる従来の標準は排除すべきであるという認識であり、その標準とは、データのフレームまたは決定データブロックにより開始されるビットストリームは、入力信号のカレントタイムセクションを表す第１コーダの出力データブロックと、カレントタイムセクションを表す第２コーダの出力データブロックとの両方を含んでいなければならないという標準である。

これに代えて本発明では、第１コーダの少なくとも１個の出力データブロックが、前方、すなわち先行するフレームの中に書き込まれるので、その結果、１つの決定データブロックにより始まる１つのフレームが、入力信号のより遅いタイムセクションのための、第１コーダの少なくとも１個の出力データブロックを含むようになる。入力信号のひとつのタイムセクションに対し、第２コーダよりも多数の出力データブロックを供給する第１コーダを備えたスケーラブルコーダにおいては、第１コーダは、それが第２コーダと比較して少し高速あるいは低速で機能するかにかかわらず、常に最初に符号化を完了するであろう。なぜなら、第１コーダの２個の出力データブロックがある場合、第１コーダは第２コーダの１つの出力データブロックに対する時間サンプル値の半分だけ処理すればよいからである。

デコーダにとって重要なレイヤが最も低い第１スケーリングレイヤのみである場合に、低遅延伝送を可能にするために、デコーダは第１コーダの対応する出力データブロックを、先行技術の場合と比較して、より素早く手に入れる。デコーダが両方のスケーリングレイヤを復号化するか、または２以上のスケーリングレイヤを一緒に復号化しようとする場合には、デコーダが高品質オーディオ信号を生み出すことができるように、オフセット情報が例えば決定データブロック内のある位置に入れられるか、あるいは一般的にスケーラブルデータストリームの中に入れられ、第１コーダのどの出力データブロックが第２コーダのどの出力データブロックに属するのか、すなわちオリジナル入力信号の同一のタイムセクションに帰属するのかを、デコーダが明確かつ疑問なく判断できるようにする。

もし、１個の決定データブロックと、第１コーダおよび第２コーダの複数のデータブロックとからなるひとつのスーパーフレームが、例えば第１コーダの２個のブロックと第２コーダの３個のブロックとを備えているとすれば、第１コーダに関する遅延アドバンテージは、本発明によれば、ＬＡＴＭヘッダの書き込み以前に、第１コーダの第１ブロックの伝送または書き込みがそれぞれ実行された時に既に獲得されている。第２コーダの出力データブロック数と第１コーダの出力データブロック数との比率が１より大きい場合であっても、ひとつのスーパーフレームが第１コーダの出力データブロックを１を超える数すなわち少なくとも２個以上含む限りにおいては、本発明のアドバンテージは既に獲得されている。

本発明の望ましい実施例の中では、ビットストリームは次のような方法で書き込まれる。すなわち、第１コーダの（複数の）出力データブロックは、それらがコーダから出力された時に直接的にビットストリームの中に書き込まれ、直ちにリアルタイム作動で伝送される。これは第２コーダが作業を完成するのにどの程度の時間がかかるのかに関係がない。そのため、第１スケーリングレイヤを伝送する時の遅延が最小となり、この遅延を実際に決定する要因は、スケーラブルコーダ内の第１コーダの内部コーダ遅延と、スケーラブルデコーダ内の第１デコーダの内部デコーダ遅延のみであることが保証される。しかし、もしスケーラブルデコーダが入力データの対応するタイムセクションをフルオーディオ品質で、すなわち全てのスケーリングレイヤを用いて復号化しようとするならば、そのデコーダは、受け取ったデータストリーム内の第１コーダの出力データブロックを、オフセット情報が到着するまでスケーラブルデータストリーム内でバッファリングする必要がある。これは、スケーラブルデコーダが、実際にはこのフレームに属するのではなく後続のフレームに属する出力データブロックがひとつのフレーム内にどれだけ多く存在するのかを判断できるようにして、第１コーダの出力データブロックと第２コーダの出力データブロックとを正確に結合させることができるようにするためである。

本発明のさらに望ましい実施例によれば、第１コーダの出力データブロックは一定の長さを備え、ビットストリーム内に等間隔で書き込まれるので、次に示す２つの利点を得ることができる。まず、第１コーダの出力データブロックの位置および長さに関し、特別な信号が送られる必要がなく、デコーダの中で事前設定されることが可能になる。次に、例えば時間ドメインベースで作動しているＣＥＬＰボイスコーダの場合のように、もしサンプル値を符号化するための処理時間が信号特性に関係なく常に同一であれば、ビットストリーム内に第１コーダの出力データブロックを遅延なしに書き込むことが可能になる。この場合、第２コーダの出力データブロックは単に隙間に挿入されていくことになる。ここで指摘しておくが、本発明によれば、ビットストリームの完全な書き込みのために、第２コーダの出力データが常に存在する。なぜなら、第１コーダの出力データブロックは、実際には前方のタイムセクションのために設けられたあるフレームの中に書き込まれるからである。このフレームは、第２コーダは既に符号化を完了し、そのデータは、スケーラブルデータストリームのカレントタイムセクションを表す第１コーダの出力データブロックの間に挿入されるようにバッファの中に存在する。

本発明のスケーラブルデータストリームはまた、リアルタイムアプリケーションに対しても有効である。また、リアルタイムでないアプリケーションに対しても有効である。

本発明のさらなる利点は、スケーラブルデータストリームを生成するための本発明の概念が、ＭＰＥＧ４により設定されたＬＡＴＭフォーマットに対して適合性があるという点である。つまり、例えばオフセット情報はＬＡＴＭヘッダの中で追加的なサイド情報としてのみ伝送されるという点が挙げられる。オフセットを信号化するためには、非常に少数のビットしか必要でない。例えばオフセット情報のために５ビットが提供されたとすると、最大で３１個の第１コーダの出力データブロックのオフセット情報が、多数のビットを使用せずに信号を送ることが可能になる。

本発明の望ましい実施例を、添付図面を参照しながら以下に詳細に説明する。

図１はＭＰＥＧ４に従ったスケーラブルコーダであり、
図２ａは連続的なタイムセクションに分割された１つの入力信号の全体図であり、
図２ｂは連続的なタイムセクションに分割された１つの入力信号の全体図であって、第１コーダのブロック長と第２コーダのブロック長との比率が示された図であり、
図２ｃは第１スケーリングレイヤの復号化において高遅延を伴うスケーラブルデータストリームの全体図であり、
図２ｄは第１スケーリングレイヤの復号化において低遅延を伴う本発明のスケーラブルデータストリームの全体図であり、
図３は本発明のスケーラブルデータストリームが、第１コーダとしてのＣＥＬＰコーダと第２コーダとしてのＡＡＣコーダとを備えた場合の例を、ビットセイビングバンク機能がある場合とない場合について示す詳細図であり、
図４は固定フレーム長を備えたビットストリームフォーマットの例を示し、
図５は固定フレーム長とバックポインタとを備えたビットストリームフォーマットの例を示し、
図６は可変フレーム長を備えたビットストリームフォーマットの例を示す。

以下に、本発明のビットストリームを説明するために、図２ｄを図２ｃと比較して参照する。図２ｃと同様に、スケーラブルデータストリームはヘッダ１およびヘッダ２と呼ばれる一連の決定データブロックを含む。ＭＰＥＧ４標準規格に従って作られた本発明の望ましい実施例においては、これらの決定データブロックはＬＡＴＭヘッダである。従来技術と同様に、図２ｄ内では矢印２０２で示されたエンコーダからデコーダへの伝送方向におけるＬＡＴＭヘッダ１の後に、図中では左上側から右下側へのハッチング模様で示されるように、ＡＡＣコーダの出力データブロックが、第１コーダの出力データブロック間の隙間に挿入された部分がある。

従来技術とは異なり、ＬＡＴＭヘッダ１によりスタートするフレームの中において、第１コーダの出力データブロックでこのフレームに属するものとしては、例えば出力データブロック１３および１４だけではなく、入力データの後続のセクションの出力データブロック２１および２２が存在する。換言すれば、参照番号１１，１２で示される第１コーダの２個の出力データブロックは、図２ｄに示される例では、ビットストリームの中において伝送方向（矢印２０２）から見て、ＬＡＴＭヘッダ１よりも前の位置に存在する。図２ｄに示される例では、オフセット情報２０４は、第１コーダの出力データブロックの２個の出力データブロックのオフセットを表す。図２ｄと図２ｃとを比較した時、デコーダが第１スケーリングレイヤにしか関心がない場合、図２ｄの場合の方が図２ｃの場合よりも、デコーダはまさにこのオフセットに対応する時間分だけ早く最低のスケーリングレイヤを復号できる。例えば「コアフレームオフセット」の形で信号化されることが可能なオフセット情報は、第１出力データブロック１１のビットストリーム内での位置を決定する役割を果たす。

コアフレームオフセット＝０の場合には、図２ｃに示されるビットストリームが結果として生成される。しかしながら、コアフレームオフセットがゼロより大きい場合には、第１コーダの対応する出力データブロック１１は、第１コーダの出力データブロックのコアフレームオフセットの数だけ早く伝送される。換言すれば、ＬＡＴＭヘッダの後の第１コーダの第１出力データブロックと、第１ＡＡＣフレームとの間の遅延は、コアコーダ遅延（図１）＋コアフレームオフセット×コアブロック長（図２ｂ内のコーダ１のブロック長）の結果として発生する。図２ｃと図２ｄとの比較からわかるように、コアフレームオフセット＝０（図２ｃ）の場合には、ＬＡＴＭヘッダ１の後には第１コーダの出力データブロック１１，１２が伝送される。一方、コアフレームオフセット＝２を伝送することで、出力データブロック１３および１４がＬＡＴＭヘッダ１に続くことができる。そのため、純粋なＣＥＬＰ復号化すなわち第１スケーリングレイヤの復号化における遅延は、２個のＣＥＬＰブロック長の分だけ減少させることができる。この例においては、３個のブロックのオフセットが最適となるかもしれない。しかし、１個または２個のブロックのオフセットもまた、遅延アドバンテージという結果を生じさせる。

このようなビットストリームの構造により、本発明によれば、ＣＥＬＰコーダが生成されたＣＥＬＰブロックを符号化の直後に伝送することが可能になる。この場合、ＣＥＬＰコーダに対し、ビットストリームマルチプレクサ（２０）によりさらなる遅延が追加されることもない。そのため、この場合には、スケーラブルコンビネーションによりＣＥＬＰ遅延に追加される遅延はなく、遅延は最小となる。

ここで指摘しておくが、図２ｄに示された例は単なる一例である。すなわち、第１コーダのブロック長と第２コーダのブロック長との間には、様々な比率が可能である。例えば１：２から１：１２まで変化可能であるし、あるいはまた他の比率をとることも可能である。この場合、本発明によれば、遅延を考慮して１より小さな比率を開発することも可能である。

極端な例（ＭＰＥＧ４，ＣＥＬＰ：ＡＡＣ＝１：１２）でいうと、ＡＡＣコーダが１個の出力データブロックを生成するための入力信号のタイムセクションと同一のタイムセクションに対し、ＣＥＬＰコーダは１２個の出力データブロックを生成することになる。図２ｃに示されたデータストリームと比較して、図２ｄに示された本発明のデータストリームによる遅延アドバンテージは、この場合、１秒の４分の１から２分の１の大きさに達する。この遅延アドバンテージは、第２コーダのブロック長と第１コーダのブロック長との間の比率が大きくなればなるほど大きくなる。第２コーダとしてのＡＡＣコーダの場合には、最大限のブロック長は、もし符号化されるべき信号がこれを許容するならば、ペイロード情報とサイド情報とのより好ましい比率に基づいて目標設定される。

以下においては図３を参照しながら説明する。図３は図２と類似しているが、ＭＰＥＧ４の例を用いた特別な実施例である。１番目のラインには、カレントタイムセクションがハッチング模様で示されている。2 番目のラインには、ＡＡＣコーダで使用されるウィンドウイングが全体的に図解されている。公知のように、５０％のオーバーラップおよび加算が用いられている。これは、図３内の１番目のラインにハッチング模様で示されたカレントタイムセクションと比較して、１個のウィンドウが通常、時間サンプルの２倍の長さを持つようにするためである。図３の中の遅延ｔｄｉｐは、図１においてブロック２６に対応するものでもあり、この例ではブロック長の５／８の長さを持つ。典型的には、カレントタイムセクションのブロック長は、９６０サンプルが用いられるので、そのブロック長の５／８の遅延ｔｄｉｐは、６００サンプルとなる。一例として、ＡＡＣコーダが２４ｋＢｉｔ／ｓのビットストリームを提供し、一方、その下方に図示されたＣＥＬＰコーダが８ｋＢｉｔ／ｓのレートを備えたビットストリームを提供する。その結果、全体のビットレートは３２ｋＢｉｔ／ｓとなる。

図３から分かるように、ＣＥＬＰコーダの出力データブロック０と１とが、第１コーダのカレントタイムセクションと対応している。ＣＥＬＰコーダの出力データブロック２は、第１コーダのための次のタイムセクションに既に対応している。３の番号をつけたＣＥＬＰブロックに関しても同様のことが言える。図３においては、ダウンサンプリングステージ２８およびＣＥＬＰコーダ１２の遅延は、参照符号３０２で示される矢印により表される。この結果、コアコーダ遅延と表され、図３の中では矢印３０４により示される遅延が生じ、この遅延は図１の減算器４０において同一の条件となるように、ステージ３４により調整されるべきものである。この遅延は、代わりに、遅延ステージ２５によって作られることも可能である。よって、例えば次の関係が成り立つ。
コアコーダ遅延＝
＝ｔｄｉｐ−ＣＥＬＰコーダ遅延−ダウンサンプリング遅延
＝６００−１２０−１１７＝３６３サンプル値

ビットセイビングバンク機能がない場合、あるいはビットセイビングバンク（ＢｉｔＭｕｘ出力バッファ) が満たされている場合、つまり変数「バッファ充満度」（Bufferfullness）＝最大の場合には、図２ｄに示された状態となる。このように、第２コーダの１個の出力データブロックに対応して第１コーダの４個の出力データブロックが生成される図２ｄの場合とは異なり、図３では、ＣＥＬＰコーダの２個の出力データブロックであって「０」と「１」とで示されるデータブロックが、図３の下から２列のラインの中でハッチングで示されている第２コーダの１個の出力データブロックに対して生成される。しかし、本発明によれば、第１ＬＡＴＭヘッダ３０６の後に書き込まれるのは、「０」の番号を持つＣＥＬＰコーダの出力データブロックではなく、「１」の番号を持つＣＥＬＰコーダの出力データブロックである。何故なら、「０」の番号を持つ出力データブロックは、既にデコーダに対して伝送されているからである。次のタイムセクションを表すＣＥＬＰブロック２は、ＣＥＬＰデータブロックに対して準備された等間隔をあけてＣＥＬＰブロック１に続く。この時、１個のフレームを完成させるために、ＡＡＣコーダの出力データブロックの残りのデータは、次のタイムセクションのための次のＬＡＴＭヘッダ３０８が開始するまで、データストリーム内に書き込まれる。

図３の最下部のラインに示されるように、本発明はビットセイビングバンク機能と簡単に結合させることができる。ビットセイビングバンクの充満度を示す変数「バッファ充満度」が最大値よりも小さい場合、これは、直前のタイムセクションに対するＡＡＣフレームが実際に容認可能なビット数よりも多くのビット数を要求したということである。つまり、前と同様に、ＣＥＬＰフレームがＬＡＴＭヘッダ３０６の後に書き込まれるという意味であるが、しかし、カレントタイムセクションを表すＡＡＣコーダの出力データブロックの書き込みが開始できる前に、先行するタイムセクションからのＡＡＣコーダの単数または複数の出力データブロックがまず最初にビットストリームの中に書き込まれなければならないという意味である。図３内に「１」，「２」で示される下段の２列のラインを比較すると、ビットセイビングバンク機能は直接的にＡＡＣフレームのためのコーダ内の遅延に結びつくことが分かる。つまり、図３において参照番号３１０で示されるカレントタイムセクションのＡＡＣフレームのデータは「１」で示された場合と同様に存在するが、しかし、直前のタイムセクションを表すＡＡＣデータ３１２がビットストリームの中に書き込まれた後でのみビットストリームの中に書き込まれることができる。ＡＡＣコーダのビットセイビングバンクのレベルに依存して、ＡＡＣフレームの最初の位置がシフトする。

ビットセイビングバンクのレベルは、ＭＰＥＧ４によれば、エレメント「StreamMuxConfig 」の中で変数「バッファ充満度」により伝送される。変数「バッファ充満度」は、変数「ビットリザーバ」をオーディオチャネルの現存するチャネル数の３２倍の数で割り算することで計算することができる。

ここで指摘しておくが、図３において参照番号３１４で示されたポインタは、その長さが「最大バッファ充満度−バッファ充満度」を示すものであるが、いわば将来に向かってポイントする前方ポインタ（forward pointer)であり、一方、図５において示されるポインタは、いわば過去に向かってポイントする後方ポインタ（backward pointer) である。その理由は、この実施例によれば、もし必要ならば前方のタイムセクションからのＡＡＣデータがまだビットストリーム内に書き込まれなければならないかもしれないが、ＬＡＴＭヘッダは、常にカレントタイムセクションがＡＡＣコーダによって処理された後でビットストリームの中に書き込まれるからである。

さらに指摘すべきは、ポインタ３１４がＣＥＬＰブロック２により意図的に中断された状態で示されているのは、ポインタ３１４がＣＥＬＰブロック２の長さまたはＣＥＬＰブロック１の長さを考慮に入れないからであり、その理由は、このＣＥＬＰデータがＡＡＣコーダのビットセイビングバンクとは関係がないからである。さらに、ヘッダデータまたは存在するかもしれないさらなるレイヤのビットもまた、考慮されない。

デコーダ内においては、最初にビットストリームからＣＥＬＰフレームが抽出される。これは、ＣＥＬＰフレームが例えば等間隔でかつ固定の長さを持って配置されていたりするので、容易に実行可能である。

しかしＬＡＴＭヘッダ内では、どの場合においても直接的な復号化が可能となるように、全てのＣＥＬＰブロックの長さおよび間隔が何らかの方法で信号化されてもよい。

このように、直前のタイムセクションのＡＡＣコーダの出力データの部分は、ＣＥＬＰブロック２によって分離されていたのであるが、再度統合され、ＬＡＴＭヘッダ３０６はポインタ３１４の先頭にいわば移動する。その結果、デコーダはポインタ３１４の長さを知り、直前のタイムセクションのデータがいつ終了するのかを理解する。これは、直前のタイムセクションを、これらのデータが完全に読み込まれた時に、それに対して存在するＣＥＬＰデータブロックと供に最高のオーディオ品質で復号化することができるようにするためである。

第１コーダの出力データブロックと、第２コーダの出力データブロックとの両方が、１個のＬＡＴＭヘッダに続く場合が示された図２ｃの場合とは対照的に、第１コーダの出力データブロックが変数、コアフレームオフセットの分だけビットストリーム内で前方へシフトすることが可能である。また他方では、矢印３１４（最大バッファ充満度−バッファ充満度）の分だけ、第２コーダの出力データブロックがスケーラブルデータストリーム内で後方へシフトされ、スケーラブルデータストリーム内でビットセイビング機能が簡単で確実に実行されることも可能である。同時に、ビットストリームの基本ラスターは連続的なＬＡＴＭ決定データブロックにより維持される。このＬＡＴＭ決定データブロックは、ＡＡＣコーダがひとつのタイムセクションを符号化した時は常に書き込まれるものである。そのため、図３内の最下段のラインで示されるように、あるＬＡＴＭヘッダによって参照されたフレーム内のデータの大部分が、たとえ次のタイムセクション（ＣＥＬＰフレームに関して）から発生して来たものである場合や、あるいは前のタイムセクション（ＡＡＣフレームに関して）から発生して来たものである場合であっても、参照ポイントとしての役割を果たすことができる。この時各シフトは、ビットストリーム内で追加的に伝送されるべきの２個の変数により、デコーダに対して伝送されることが可能である。

ＭＰＥＧ４に従ったスケーラブルコーダの回路図である。連続的なタイムセクションに分割された１つの入力信号の全体図である。連続的なタイムセクションに分割された１つの入力信号の全体図であって、第１コーダのブロック長と第２コーダのブロック長との比率が示された図である。第１スケーリングレイヤの復号化において高遅延を伴うスケーラブルデータストリームの全体図である。第１スケーリングレイヤの復号化において低遅延を伴う本発明のスケーラブルデータストリームの全体図である。本発明のスケーラブルデータストリームが、第１コーダとしてのＣＥＬＰコーダと第２コーダとしてのＡＡＣコーダとを備えた場合の例を、ビットセイビングバンク機能がある場合とない場合について示す詳細図である。固定フレーム長を備えたビットストリームフォーマットの例を示す図である。固定フレーム長とバックポインタとを備えたビットストリームフォーマットの例を示す図である。可変フレーム長を備えたビットストリームフォーマットの例を示す図である。

符号の説明

１２第１コーダ
１４第２コーダ
２０４オフセット情報
３０６決定データブロック
３１０出力データブロック

Claims

第１スケーリングレイヤを提供する第１コーダと、第２スケーリングレイヤを提供する第２コーダとを用い、第１コーダ（１２）の出力データの少なくとも２つのブロックと、第２コーダ（１４）の出力データの少なくとも１つのブロックとから、オーディオデータのスケーラブルデータストリームを生成する方法であって、上記第１コーダ（１２）の出力データの少なくとも２つのブロックは合同して上記第１コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第２コーダ（１４）の出力データの少なくとも１つのブロックは上記第２コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第１コーダへのサンプルの個数および上記第２コーダへのサンプルの個数は同数であり、上記第１コーダは上記第２コーダに比べて対応するセクションの符号化を早く完了する方法において、
上記スケーラブルデータストリームの中に、上記第１コーダおよび第２コーダへの入力信号のカレントセクションのためのヘッダブロック（３０６）を書き込むステップと、
上記スケーラブルデータストリームの中に、符号化装置から復号化装置への伝送方向（２０２）からみて上記ヘッダブロック（３０６）の後に、上記第２コーダ（１４）の出力データのブロック（３１０）を書き込むステップと、
上記スケーラブルデータストリームの中に、上記伝送方向（２０２）からみて上記ヘッダブロック（３０６）の前に、上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）を書き込むステップと、
上記スケーラブルデータストリームの中に、上記第１コーダの出力データの少なくとも１つのブロック（０）が上記伝送方向からみて上記ヘッダブロック（３０６）の前に位置することを示すオフセット情報（２０４）を書き込むステップと、を含み、
上記スケーラブルデータストリームは連続する複数のフレームを含み、各フレームは、１つのヘッダブロックと、第１コーダの出力データの少なくとも２つのブロックと、第２コーダの出力データの少なくとも１つのブロックとを含むことを特徴とする方法。
請求項１に記載の方法において、
上記第１コーダの出力データの上記ブロックは上記スケーラブルデータストリームの中に等間隔で配置されるように書き込まれるか、あるいは上記第１コーダ（１２）の出力データの上記ブロックは同一長さを持つことを特徴とする方法。
請求項１または２に記載の方法において、
上記入力信号の同じ長さのセクションを表す上記第２コーダ（１４）の出力データの上記ブロックは様々な長さを持ち、
上記第１コーダへの入力信号のカレントセクションを表す上記第１コーダの出力データのひとつのブロック（１）は、上記ヘッダブロック（３０６）の直後に書き込まれ、
上記入力信号の前のセクションのための上記第２コーダの出力データ（３１２）のひとつのブロックの少なくとも一部は、上記第１コーダの出力データの上記ブロック（１）の後に配置され、
上記第２コーダへの入力信号の上記前のセクションを表す上記第２コーダ（１４）の上記出力データが上記ヘッダブロック（３０６）の後のどの位置まで続くのかを示すバッファ情報が、上記スケーラブルデータストリームの中に書き込まれることを特徴とする方法。
請求項３に記載の方法において、
上記第２コーダ（１４）はビットセイビングバンク機能を備え、上記ビットセイビングバンクのサイズは最大バッファサイズ情報によって与えられ、かつ上記ビットセイビングバンク機能のカレント状態はカレントバッファ情報によって与えられ、
上記バッファ情報は、上記最大バッファ情報から上記カレントバッファ情報を引き算し、さらに上記第２コーダの出力データのみを参照して与えられることを特徴とする方法。
請求項１ないし４のいずれかに記載の方法において、
上記カレントセクションを表す上記第１コーダの出力データの少なくとも１つのブロックを書き込むステップは、上記少なくとも１つのブロックが上記第１コーダ（１２）により出力された時に実行され、
上記カレントセクションに対する上記ヘッダブロック（３０６）を書き込むステップは、上記カレントセクションを表す上記第２コーダの出力データブロックが上記第２コーダにより出力された時にのみ実行され、
上記第２コーダの出力データを書き込むステップは、必要に応じ、上記入力信号の前のあるセクションを表す上記第２コーダの現存する出力データ（３１２）が上記スケーラブルデータストリームの中に書き込まれ、かつ上記カレントセクションを表す上記ヘッダブロック（３０６）が書き込まれ、かつ上記第１コーダ（１２）の出力データの書き込まれるためのブロックがその時点で存在しない時にのみ実行されることを特徴とする方法。
請求項１ないし５のいずれかに記載の方法において、
上記入力信号の上記カレントセクションを表す上記第１コーダ（１２）の出力データの少なくとも１つのブロックは、上記ヘッダブロック（３０６）の前に書き込まれ、
上記オフセット情報（２０４）は、上記入力信号の上記カレントセクションを表す上記第１コーダの出力データの何個のブロックが、上記入力信号の上記カレントセクションのための上記ヘッダブロックの前に配置されているのかを示すことを特徴とする方法。
請求項１ないし６のいずれかに記載の方法において、
上記第２コーダ（１４）の出力データの上記少なくとも１つのブロックと上記第１コーダ（１２）の出力データの上記少なくとも２つのブロックとは、１つのスーパーフレーム内のペイロードデータであり、上記第２コーダの出力データブロック数と上記第１コーダの出力データブロック数との比率が１より小さく、特に次の比率：２／３，１／２，１／３，１／４，１／６，１／１２，３／４のいずれかであることを特徴とする方法。
第１スケーリングレイヤを提供する第１コーダ（１２）の出力データの少なくとも２つのブロックと、第２スケーリングレイヤを提供する第２コーダ（１４）の出力データの少なくとも１つのブロックとを含む、オーディオデータのスケーラブルデータストリームを復号化する方法であって、上記第１コーダ（１２）の出力データの少なくとも２つのブロックは合同して上記第１コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第２コーダ（１４）の出力データの少なくとも１つのブロックは上記第２コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第１コーダへのサンプルの個数および上記第２コーダへのサンプルの個数は同数であり、上記第１コーダは上記第２コーダに比べて対応するセクションの符号化を早く完了し、上記スケーラブルデータストリームはさらに、上記第１コーダおよび第２コーダの上記カレントセクションのための１つのヘッダブロック（３０６）と、上記ヘッダブロックの後に位置する上記第２コーダの出力データの１つのブロック（３１０）と、上記ヘッダブロックの前に位置する上記第１コーダの出力データの少なくとも１つのブロックと、上記第１コーダの出力データの少なくとも１つのブロックが符号化装置から復号化装置へと向かう伝送方向からみて上記ヘッダブロックの前に位置していることを示すオフセット情報と、を備え、上記スケーラブルデータストリームは連続する複数のフレームを含み、各フレームは、１つのヘッダブロックと、第１コーダの出力データの少なくとも２つのブロックと、第２コーダの出力データの少なくとも１つのブロックとを含む方法において、
１つのフレームの上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）を読み取るステップと、
上記フレームの上記第２コーダの出力データ（３１０）を読み取るステップと、
上記フレームの上記オフセット情報（２０４）を読み取るステップと、
上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）がデータストリーム内において上記ヘッダブロック（３０６）の前に位置している場合に、この少なくとも１つのブロック（０）は上記第２コーダの出力データ（３１０）に属することを上記オフセット情報（２０４）を用いて決定するステップと、
上記第２コーダ（１４）の出力データと上記第１コーダ（１２）の出力データとを復号化して上記フレームのための復号化信号を得るステップと、を含むことを特徴とする方法。
第１スケーリングレイヤを提供する第１コーダと、第２スケーリングレイヤを提供する第２コーダとを用い、第１コーダ（１２）の出力データの少なくとも２つのブロックと、第２コーダ（１４）の出力データの少なくとも１つのブロックとから、オーディオデータのスケーラブルデータストリームを生成する装置であって、上記第１コーダ（１２）の出力データの少なくとも２つのブロックは合同して上記第１コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第２コーダ（１４）の出力データの少なくとも１つのブロックは上記第２コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第１コーダへのサンプルの個数および上記第２コーダへのサンプルの個数は同数であり、上記第１コーダは上記第２コーダに比べて対応するセクションの符号化を早く完了する装置において、
上記スケーラブルデータストリームの中に、上記第１および第２コーダへの入力信号の上記カレントセクションのためのヘッダブロック（３０６）を書き込むステップと、
上記スケーラブルデータストリームの中に、符号化装置から復号化装置に向かう伝送方向（２０２）からみて上記ヘッダブロック（３０６）の後に、上記第２コーダ（１４）の出力データの１つのブロック（３１０）を書き込むステップと、
上記スケーラブルデータストリームの中に、上記伝送方向（２０２）からみて上記ヘッダブロック（３０６）の前に、上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）を書き込むステップと、
上記第１コーダの出力データの少なくとも１つのブロック（０）が上記伝送方向からみて上記ヘッダブロック（３０６）の前に位置していることを示すオフセット情報（２０４）を上記スケーラブルデータストリーム内に書き込むステップと、を実行可能なデータストリーム書き込み手段（２０）を備え、
上記スケーラブルデータストリームは連続する複数のフレームを含み、各フレームは、１つのヘッダブロックと、第１コーダの出力データの少なくとも２つのブロックと、第２コーダの出力データの少なくとも１つのブロックとを含むことを特徴とする装置。
第１スケーリングレイヤを提供する第１コーダ（１２）の出力データの少なくとも２つのブロックと、第２スケーリングレイヤを提供する第２コーダ（１４）の出力データの少なくとも１つのブロックとを含む、オーディオデータのスケーラブルデータストリームを復号化する装置であって、上記第１コーダ（１２）の出力データの少なくとも２つのブロックは合同して上記第１コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第２コーダ（１４）の出力データの少なくとも１つのブロックは上記第２コーダへの入力信号のカレントセクションを構成するいくつかのサンプルを表し、上記第１コーダへのサンプルの個数および上記第２コーダへのサンプルの個数は同数であり、上記第１コーダは上記第２コーダに比べて対応するセクションの符号化を早く完了し、上記スケーラブルデータストリームはさらに、上記第１および第２コーダのカレントセクションのためのヘッダブロック（３０６）と、上記ヘッダブロックの後に位置する上記第２コーダの出力データの１つのブロック（３１０）と、上記ヘッダブロックの前に位置する上記第１コーダの出力データの少なくとも１つのブロックと、上記第１コーダの出力データの少なくとも１つのブロックが符号化装置から復号化装置へと向かう伝送方向からみて上記ヘッダブロックの前に位置していることを示すオフセット情報と、を備え、上記スケーラブルデータストリームは連続する複数のフレームを含み、各フレームは、１つのヘッダブロックと、第１コーダの出力データの少なくとも２つのブロックと、第２コーダの出力データの少なくとも１つのブロックとを含む装置において、
上記復号化装置は、
１つのフレームの上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）を読み取るステップと、
上記フレームの上記第２コーダの出力データ（３１０）を読み取るステップと、
上記フレームの上記オフセット情報（２０４）を読み取るステップと、
上記第１コーダ（１２）の出力データの少なくとも１つのブロック（０）がデータストリーム内において上記ヘッダブロック（３０６）の前に位置している場合に、この少なくとも１つのブロック（０）は上記第２コーダの出力データ（３１０）に属することを上記オフセット情報（２０４）を用いて決定するステップと、を実行可能なデータストリームデマルチプレクシング手段と、
上記第２コーダ（１４）の上記出力データと上記第１コーダ（１２）の出力データとを復号化して上記フレームのための復号化信号を得るための手段と、を含むことを特徴とする装置。