JP2021535427A

JP2021535427A - 即時再生フレーム（ｉｐｆ）の生成、輸送及び処理のための方法、装置及びシステム

Info

Publication number: JP2021535427A
Application number: JP2021509899A
Authority: JP
Inventors: フェルシュ，クリストフ; フィッシャー，ダニエル
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2018-08-21
Filing date: 2019-08-20
Publication date: 2021-12-16
Anticipated expiration: 2039-08-20
Also published as: CN112740325A; WO2020038938A1; EP4224473A1; CA3110137A1; CN112740325B; US11972769B2; US20210335376A1; BR112021003104A2; KR20210043679A; JP7455812B2; MX2021001970A; AU2019323625A1; EP3841571B1; EP3841571A1

Abstract

本願では、符号化されたオーディオデータのビットストリームを復号するオーディオデコーダが記載される。符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有する。各フレームは、関連した符号化されたオーディオサンプル値を有する。オーディオデコーダは、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部と、フレームが即時再生フレームであると決定部が決定する場合にデコーダを初期化するよう構成される初期化部とを有する。初期化は、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有する。更に、符号化されたオーディオデータのビットストリームを復号する方法とともに、オーディオエンコーダ、オーディオエンコーダのシステム、及び即時再生フレームを含む符号化されたオーディオデータのビットストリームを生成する方法が記載される。更には、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置、及び各々の非一時的なデジタル記憶媒体も記載される。

Description

本開示は、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法と、即時再生フレームを含む符号化されたオーディオデータのビットストリームを生成する方法とを含め、オーディオエンコーダ、符号化方法、オーディオデコーダ、及び復号化方法に概して関係がある。本開示は、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置に更に関係がある。

本明細書では、いくつかの実施形態が、特にその開示を参照して記載されているが、本開示が、そのような使用分野に限定されず、より広い範囲で適用可能であることは、明らかである。

現在、ISO/IEC 14496-3，Coding of audio-visual objects−Part 3: Audio, for generating, transporting and processing Immediate Playout Frames (IPF)で標準化されたＭＰＥＧ−４オーディオには不足がある。ＩＰＦは、デコーダを直ちに初期化することを可能にする特別なフレームへ情報を与えることができるので、その特別なフレームを含むデータストリームへ切り替わると即時再生される。言い方を変えれば、ＩＰＦは、デコーダがその受信時に、このＩＰＦに符号化されている最初のサンプルから正しいサンプルを直ちに再生することができるフレームである。これは、ＩＰＦがそうするための全ての情報を含むからである。このように、ＩＰＦは、それ自体の中からの情報のみを用いて復号化され得る、独立して復号化可能なフレームを意味する。

符号化されたオーディオは、通常は、データフレーム又はチャンクで現れる。ＭＰＥＧ−４で標準化されたオーディオとの関連で、フレーム／チャンクは、グラニュール（granules）として知られていることがあり、符号化されたチャンク／フレームは、アクセスユニット（access units，ＡＵ）と呼ばれ、復号されたチャンクは、コンポジションユニット（composition units，ＣＵ）と呼ばれる。トランスポートシステムでは、オーディオ信号は、これらのコーディングされたチャンク（アクセスユニット）の細かさでしかアクセス及びアドレス指定できないことがある。

アダプティブストリーミングでは、オーディオが異なる設定（例えば、ＭＰＥＧ−ＤＡＳＨにおいて適応設定内で設定されたビットレートなどの異なるビットレート）へ切り替わる場合に、最初から正確にオーディオサンプルを再生するために、デコーダは、オーディオプログラムの対応する時間セグメントを表すＡＵ_ｎと、ＡＵ_ｎに先行する追加のＡＵ_ｎ−１、ＡＵ_ｎ−２、・・・ＡＵ及び設定データとを供給される必要がある。さもなければ、異なるコーディング設定（例えば、ウィンドウイングデータ、ＳＢＲ関連データ、ＰＳ関連データ）により、デコーダは、ＡＵ_ｎのみを復号する場合に、正確な出力を生成することが保証され得ない。そのため、新しい設定により復号されるべき最初のＡＵ_ｎは、その新しい設定でデコーダを初期化するために必要とされる新しい設定データ及び全てのプレロールデータ（ＡＵ_ｎより前の時間セグメントを表すＡＵ_ｎ−ｘの形を取る）を運ばなければならない。これは、ＭＰＥＧ−Ｈ３Ｄオーディオ標準で又はＭＰＥＧ−ＤＵＳＡＣ標準で定義されている即時再生フレーム（Immediate Playout Frame，ＩＰＦ）を用いて行われ得る。

上記を鑑み、従って、本発明の目的は、オーディオデコーダ及び復号化方法並びにＭＰＥＧ−４オーディオでＩＰＦを処理することが可能なオーディオエンコーダ、オーディオエンコーダのシステム、装置及び符号化方法を提供することである。

本開示の第１の態様に従って、符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、オーディオデコーダが提供される。

オーディオデコーダは、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部を有してよく、追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、先行するフレームの前記符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよく、プレロールフレームに対応する、先行するフレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応し得る。

そして、デコーダは、フレームが即時再生フレームであると決定部が決定する場合に、デコーダを初期化するよう構成される初期化部を有してよく、デコーダを初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよく、初期化部は、フレームが即時再生フレームであると決定部が決定する場合に、かつ、現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、オーディオデコーダを現在のコーデック設定から異なるコーデック設定へ切り替えるよう構成されてよく、デコーダは、現在のコーデック設定を用いて現在のフレームを復号し、フレームが即時再生フレームであると決定部が決定する場合に、かつ、現在のフレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるよう構成されてよい。

いくつかの実施形態において、追加情報は、現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を更に有してよく、決定部は、追加情報のコーデック設定が現在のコーデック設定と異なるかどうかを決定するよう更に構成されてよい。

いくつかの実施形態において、即時再生フレームは、拡張ペイロード（extension payload）として追加情報を有してよく、決定部は、即時再生フレームの拡張ペイロードを評価するよう構成されてよい。

いくつかの実施形態において、符号化されたオーディオデータのビットストリームは、ＭＰＥＧ−４オーディオビットストリームであってよい。

いくつかの実施形態において、追加情報は、データストリーム要素（Data Stream Element，ＤＳＥ）又は拡張ペイロード要素（extension_payload element）のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれてよい。

いくつかの実施形態において、データストリーム要素（ＤＳＥ）又は拡張ペイロード要素のどちらか一方は、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、データストリーム要素（ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグ（instance tag）を有してよい。

拡張ペイロード要素は、例えば、ＭＰＥＧ−４オーディオビットストリームシンタックスの種々の場所に含まれてよい。従って、このことは、ＭＰＥＧ−４オーディオでも即時再生フレーム機能を使用することを可能にする。

いくつかの実施形態において、拡張ペイロード要素は、充てん要素（fill element）（ＩＤ＿ＦＩＬ）内に含まれてよい。

いくつかの実施形態において、追加情報は、一意の識別子を更に有してよく、任意に、一意の識別子は、異なるコーデック設定を検出するために使用されてよい。

いくつかの実施形態において、デコーダは、前のコーデック設定でデコーダをフラッシュ（flush）することによって取得された出力サンプル値と、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号することによって取得された出力サンプル値とのクロスフェード（crossfading）を実行するよう構成されるクロスフェーダを更に有してよい。

いくつかの実施形態において、追加情報に含まれる多数のフレームの最も早いフレームは、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、即時再生フレームは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。

本開示の第２の態様に従って、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法が提供される。

方法は、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するステップを有してよく、追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行するフレームの符号化されたオーディオサンプル値は、即時再生フレームと同じコーデック設定を用いて符号化されていてよく、プレロールフレームに対応する、先行するフレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応してよい。

方法は、フレームが即時再生フレームであると決定される場合にデコーダを初期化するステップを更に有してよく、初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。

方法は、フレームが即時再生フレームであると決定される場合に、かつ、即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、デコーダを現在のコーデック設定から異なるコーデック設定へ切り替えるステップを更に有してよい。

方法は、現在のコーデック設定を用いて即時再生フレームを復号し、フレームが即時再生フレームであると決定される場合に、かつ、即時再生フレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるステップを有してよい。

提案されているように構成されると、方法は、例えば、正確な出力サンプルを連続して生成することと組み合わせて、オーディオ出力に沈黙（silence）のギャップを導入せずに、ISO/IEC 14496-3で定義されるようなオーディオオブジェクトタイプ（AudioObjectType，ＡＯＴ）の切り替えを可能にする。

いくつかの実施形態において、追加情報は、現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を更に有してよく、方法は、追加情報のコーデック設定が、即時再生フレームに先行するビットストリーム内のフレームと関連付けられたオーディオサンプル値を符号化するために使用された現在のコーデック設定と異なるかどうかを決定するステップを更に有してよい。

いくつかの実施形態において、追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれてよい。

いくつかの実施形態において、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方は、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを有してよい。

いくつかの実施形態において、拡張ペイロード要素は、充てん要素（ＩＤ＿ＦＩＬ）内に含まれてよい。

いくつかの実施形態において、追加情報は、一意の識別子を更に更に有してよく、任意に、一意の識別子は、異なるコーデック設定を検出するために使用されてよい。

いくつかの実施形態において、符号化されたオーディオデータのビットストリームは、第１コーデック設定を用いて符号化された第１の数のフレームと、第１の数のフレームに続き、第２コーデック設定を用いて符号化された第２の数のフレームとを有してよく、第２の数のフレームのうちの最初のフレームが即時再生フレームであってよい。

本開示の第３の態様に従って、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダであって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、オーディオエンコーダが提供される。

オーディオエンコーダは、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダを有してよい。

オーディオエンコーダは、予め定義されたコーデック設定を用いて、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。

そして、オーディオエンコーダは、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部を有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。

いくつかの実施形態において、埋め込み部は、予め定義されたコーデック設定に関する情報を追加情報に含めるよう更に構成されてよい。

いくつかの実施形態において、埋め込み部は、追加情報を即時再生フレームに含めるよう更に構成されてよい。

いくつかの実施形態において、符号化されたオーディオデータの生成されたビットストリームは、ＭＰＥＧ−４オーディオビットストリームであってよい。

いくつかの実施形態において、埋め込み部は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して追加情報をビットストリームに埋め込むよう更に構成されてよい。

いくつかの実施形態において、埋め込み部は、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置にデータストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方を位置付けるよう、かつ／あるいは、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成されてよい。

いくつかの実施形態において、埋め込み部は、充てん要素（ＩＤ＿ＦＩＬ）内に拡張ペイロード要素を埋め込むよう更に構成されてよい。

いくつかの実施形態において、埋め込み部は、一意の識別子を追加情報に含めるよう更に構成されてよく、任意に、一意の識別子は、予め定義されたコーデック設定を伝えてよい。

いくつかの実施形態において、オーディオエンコーダは、追加情報に含まれる多数のフレームのうちも最も早いフレームを、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよく、オーディオエンコーダは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよい。

本開示の第４の態様に従って、即時再生フレームを夫々有している符号化されたオーディオデータの複数のビットストリームを生成するために２つ以上のオーディオエンコーダを有するシステムであって、符号化されたオーディオデータの各ビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、システムが提供される。

いくつかの実施形態において、予め定義されたサンプリングレートは、２つ以上のオーディオエンコーダのコアエンコーダの夫々について同じであってよい。従って、デコーダでのリサンプリング及び更なる遅延ハンドリングは、回避され得る。

いくつかの実施形態において、システムは、複数のビットストリームをアライメントする遅延のための遅延アライメントユニットを更に有してよい。従って、このことは、異なるエンコーダ遅延を補償することによってデコーダでのシームレスなスイッチングを可能にする。

本開示の第５の態様に従って、オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法が提供される。

方法は、コアエンコーダによって、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップを有してよい。

方法は、バッファによって、予め定義されたコーデック設定を用いて、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップを更に有してよい。

そして、方法は、埋め込み部によって、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むステップを有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。

いくつかの実施形態において、追加情報は、予め定義されたコーデック設定に関する情報を更に有してよい。

いくつかの実施形態において、即時再生フレームは、追加情報を更に有してよい。

いくつかの実施形態において、追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して、埋め込み部によって、ビットストリームに埋め込まれてよい。

いくつかの実施形態において、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方は、埋め込み部によって、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てられてよい。

いくつかの実施形態において、拡張ペイロード要素は、埋め込み部によって、充てん要素（ＩＤ＿ＦＩＬ）内に埋め込まれてよい。

いくつかの実施形態において、追加情報は、一意の識別子を更に有してよく、任意に、一意の識別子は、予め定義されたコーデック設定を伝えてよい。

いくつかの実施形態において、オーディオエンコーダによって、追加情報に含まれる多数のフレームのうちも最も早いフレームは、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、オーディオエンコーダによって、即時再生フレームは、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。

本開示の第６の態様に従って、符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、装置が提供される。

装置は、符号化されたオーディオデータのビットストリームを受信するよう構成される受信部を有してよく、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。

そして、装置は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部を有してよく、即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。

提案されているように構成されると、装置は、符号化されたオーディオデータのいずれかの既に存在しているビットストリームにおいて、すなわち、必要とされる場合に分配より前に、即時再生フレームを個別に生成することを可能にする。

いくつかの実施形態において、装置は、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。

いくつかの実施形態において、埋め込み部は、現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報を即時再生フレームから除くよう更に構成されてよい。

従って、このことは、例えば、オーディオエンコーダが即時再生フレームのみを生成する場合に、符号化されたオーディオデータのビットストリームから即時再生フレームを個別に除くことを可能にする。

本開示の第７の態様に従って、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法を実行する、非一時的なデジタル記憶媒体が提供される。

本開示の第８の態様に従って、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法を実行する、非一時的なデジタル記憶媒体が提供される。

本開示の例となる実施形態について、これより、単なる例として、添付の図面を参照して説明する。

符号化されたオーディオデータのＭＰＥＧ−４オーディオビットストリームにおける即時再生フレームの例を表す。符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法の例を表す。符号化されたオーディオデータのビットストリームを復号する方法であって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、方法の更なる例を表す。符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、符号化されたオーディオデータのビットストリームが、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームが、関連した符号化されたオーディオサンプル値を有する、オーディオデコーダの例を表す。ランダムアクセスポイント（Immediate Playout Frames，ＩＰＦ）を含む符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダの例を表す。ランダムアクセスポイント（Immediate Playout Frames，ＩＰＦ）を含む符号化されたオーディオデータのビットストリームを生成する方法の例を表す。時間アライメントされたランダムアクセスポイント（Immediate Playout Frames，ＩＰＦ）を夫々が有している符号化されたオーディオデータの複数のビットストリームを生成するオーディオエンコーダのシステムの例を表す。符号化されたオーディオデータのビットストリームにおいてランダムアクセスポイント（Immediate Playout Frames，ＩＰＦ）を生成するための、又は符号化されたオーディオデータのビットストリームからランダムアクセスポイント（Immediate Playout Frames，ＩＰＦ）を除くための装置の例を表す。非一時的なデジタル記憶媒体に記憶されているコンピュータプログラムを実行するプロセッサを備えるデバイスの例を表す。

本発明は、例えば、ＭＰＥＧ−Ｈ３Ｄオーディオ標準などの他の標準規格に従って標準化されたオーディオを含むデータストリームとの関連で、ＭＰＥＧ−４オーディオにおけるＩＰＦの生成（符号化）、輸送（ビットストリーム）及び処理（復号化）に関係がある。ここで、及び以下で、ＭＰＥＧ−４オーディオビットストリームは、ISO/IEC 14496-3，Coding of audio-visual objects−Part 3: Audio, and all future editions, revisions and amendments theretoで示されている標準規格（以降、「ＭＰＥＧ−４オーディオ」と呼ばれる。）に従うビットストリームを指す。ＭＰＥＧ−４オーディオにおいてＩＰＦ機能を有効にするために、ＡＵ_ｎのために使用されるのと同じペイロードパケットの部分として時間においてＡＵ_ｎに先行するＡＵ及び設定データを生成し運ぶためのいくつかのオプションがある。これは、ＡＵ_ｎを復号することにより得られる最初のサンプルからオーディオサンプルの正確な出力を可能にするために、行われる。

符号化されたオーディオデータのビットストリームは、オーディオサンプル値、例えば、ペイロードパケット、の連続を含んでよい。符号化されたオーディオデータのビットストリームは、複数のフレームを更に有してよい。各フレームは、関連付けられた符号化されたオーディオサンプル値を有してよい。すなわち、各ペイロードパケットは、各々のフレーム又はＡＵに属してよい。

一例において、オーディオペイロードパケットは、ISO/IEC 14496-3で定義されている次のシンタックスに従ってよい：

上記のオーディオペイロードパケットは、ＭＰＥＧ−４オーディオ標準などのＭＰＥＧ標準規格の現在及び将来のバージョンに適合し得る。実施形態において、符号化されたオーディオデータのビットストリームは、ＭＰＥＧ−４オーディオビットストリーム（すなわち、ＭＰＥＧ−４オーディオ標準対応ビットストリーム）であってよい。

符号化されたオーディオデータのビットストリームのフレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレーム（ランダムアクセスポイント、特別なフレーム）であってよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行フレームの符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよい。プレロール（pre-roll）フレームに対応する、先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号（full signal）を構成するためにデコーダによって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダの起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダの起動時の最初のフレームであってよい。

実施形態において、追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であり得るＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれてよい。拡張ペイロード要素は、例えば、ＭＰＥＧ−４オーディオビットストリームシンタックスの種々の場所に、例えば、種々のレベルに、含まれてよい。実施形態において、拡張ペイロード要素は、充てん要素（ＩＤ＿ＦＩＬ）内に含まれてよい。

このように、追加情報は、例えば、次のオプションのうちの１つに基づいて、ＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれてよい：
オプション１：

オプション２：

オプション３：

ISO/IEC 14496-3及び／又は将来の標準規格で定義されるような、データストリーム要素（ＩＤ＿ＤＳＥに等しいｉｄ＿ｓｙｎ＿ｅｌｅにより伝えられる）若しくは充てん要素（ＩＤ＿ＦＩＬに等しいｉｄ＿ｓｙｎ＿ｅｌｅにより伝えられる）、又はそれらの同等物は、拡張ペイロードを運ぶために使用されてよい。拡張ペイロードは、レガシーデコーダとの互換性を破らずに、そのようなペイロードパケットで運ばれる情報を更に拡張するために使用されてよい。

従って、ＭＰＥＧ−４オーディオコンテキストでは、充てん要素（ＩＤ＿ＦＩＬ）内に含まれ得るデータストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方が、ＡＵ_ｎ（すなわち、現在のフレーム、即時再生フレーム）と同じペイロードパケット内でＡＵ_ｎの前の時間セグメントを表すＡＵ及び設定情報を運ぶために使用されてよい。これは、ＭＰＥＧ−４オーディオでもＩＰＦ機能を使用することを可能にする処理を適用するために更に使用され得る。同様に、ＭＰＥＧ−ＤＵＳＡＣで見られるように、拡張メカニズム（ｕｓａｃＥｘｔＥｌｅｍｅｎｔ）はＡｕｄｉｏＰｒｅＲｏｌｌ（）ペイロードを運ぶために使用され得るが、いくつかの違いがある。

実施形態において、拡張要素（すなわち、拡張ペイロード要素）は、ＡＵに挿入されてよく、要素タイプは、夫々の要素及びＡＵについてビットストリームで伝えられる。一例において、拡張要素は、最初のオーディオ要素に先行するペイロードパケット内の最初の要素であってよい。

以下で定義される各オーディオプレロール要素は、汎用一意識別子（Universally Unique Identifier，ＵＵＩＤ）によって識別されてよい。ＵＵＩＤフィールドは、ストリーム設定の切り替えをオーディオエンコーダによって通知し、そしてオーディオデコーダによって検出するために、使用されてよい。ＵＵＩＤフィールドが前のフレーム又は（例えば、最初のデコーダ起動時の）初期状態に対して変化している場合に、ストリーム設定は変更されている可能性があり、プレロールペイロードは、正確な復号化を確かにするために評価されるべきである。ＵＵＩＤが前のフレームに対して変化していない場合には、デコーダは、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｅｍｅｎｔ（）をスキップし、いつも復号化を進めてよい。

一例において、ＵＵＩＤが存在しない場合に、デコーダは、ストリーム設定切り替えを検出するよう、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）のＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇを現在のデコーダ設定と比較してよい。

フィールド‘フラグ’（flags）は、追加情報をデコーダへ伝えるために使用され得る８ビットのビットセットとして使用される。これは、クロスフェードが適用されるべきであるかどうか、又はクロスフェードのタイプ（例えば、線形、対数）に関する情報であってよい。以下の例では、プレロールペイロード又はＵＵＩＤのどちらか一方がビットストリームに存在するか否かを伝えるために、１ビットが使用される。

ストリーム設定は、如何なるＡＵも処理する前にデコーダに知られていなければならない。ＭＰＥＧ−４オーディオでは、デコーダ設定は、ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ要素で運ばれる。デコーダ設定及びＵＵＤＩは、プレロールペイロードの部分である。更に、プレロールペイロードは、設定に依存した数のＭＰＥＧ−４オーディオＡＵ（ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ）を有する。

ＭＰＥＧ−４における即時再生フレーム（ＩＰＦ）は、後述されるような厳密に１つのａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）ペイロードと、ISO/IEC 14496-3で定義されている１つ又はいくつかのオーディオ要素ストリーム（例えば、ｓｉｎｇｌｅ＿ｃｈａｎｎｅｌ＿ｅｌｅｍｅｎｔ（））とを有してよい。オーディオエレメンタリ要素ストリームは、現在のタイムスタンプと関連付けられる。プレロールペイロードは、ＭＰＥＧ−４オーディオの拡張ペイロードメカニズムの１つにおいて運ばれてよい。

図１は、２つのプレロールフレーム（ＡＵ_ｎ−１、ＡＵ_ｎ−２）２、３と、対応するストリーム設定４（ＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ）及びストリーム識別子５（ＵＵＩＤ）とを有する即時再生フレーム（ＡＵ_ｎ）を示す。

オーディオプレロール要素は、以下に基づいて定義されてよい：

一例において、オーディオプレロール要素（例えば、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（））は、バイトアライメントされているので、拡張ペイロード要素（例えば、充てん要素内）及びデータストリーム要素の両方による更なるバイトアライメントなしで伝送され得る。

一例において、ＩＰＦは、次の通りにプレロール要素と関係がある：ＩＰＦは、現在のＡＵと、正確に復号するために必要とされる追加のＡＵ（すなわち、多数の先行フレーム）との両方を含む。追加のＡＵは、プレロール要素の部分としてパッケージ化され、それから、それは、（ＩＤ＿ＤＳＥ又はＩＤ＿ＦＩＬを介して）ｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ（）にパッケージ化される。そのようなｒａｗ＿ｄａｔａ＿ｂｌｏｃｋはＩＰＦであることができる。

ＩＰＦは、様々な方法により符号化されてよい。一例において、プレロールフレームは、独立して復号化可能でなければならず、例えば、ＳＢＲが使用される場合には、ＳＢＲヘッダが存在しなければならない。実施形態において、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）は、データストリーム要素にカプセル化されてよい。例えば、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）は、次のシンタックスに基づいてデータストリーム要素にカプセル化されてよい：

ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）を運ぶデータストリーム要素を識別するために、規則（convention）が使用されてよい。実施形態において、ＩＤ＿ＤＳＥは、ストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、ペイロードがａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）であることを伝える特定のインスタンスタグを有してよい。

他の実施形態では、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）は、充てん要素内の拡張ペイロード要素にカプセル化されてよい。例えば、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）は、次のシンタックスに基づいてカプセル化されてよい：

前述の例で見られるように、拡張ペイロード要素のタイプを識別するために、規則が使用されてよく、例えば、ＥＸＴ＿ＤＡＴＡ＿ＥＬＥＭＥＮＴがペイロードパケット内の特定の予め定義された位置で運ばれる場合に、ペイロードはａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）である。従って、実施形態において、拡張ペイロード要素は、ストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、ペイロードがａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）であることを伝える特定のインスタンスタグを有してよい。

一例において、本発明に従う拡張ペイロードは、新しい拡張ペイロードタイプを用いて伝えられてもよく、例えば、ｅｘｔｅｎｓｉｏｎ＿ｔｙｐｅ＝ＥＸＴ＿ＡＵＤＩＯ＿ＰＲＥ＿ＲＯＬＬ＝１０１０ｂである。

一例において、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）を運ぶデータストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素（例えば、充てん要素（ＩＤ＿ＦＩＬ）内）は、同じペイロードパケット内の如何なるオーディオ要素よりも前にビットストリームに埋め込まれてよい。そのようにしてＩＰＦペイロードを埋め込むことのいくつかの例は、以下を含む：

本発明の態様は、ＩＰＦの復号化に関係がある。図２の例を参照すると、復号化プロセスは、符号化されたオーディオデータのビットストリームを受信するステップＳ１０１を含んでよい。符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表してよく、複数のフレームを有してよく、各フレームは、関連した符号化されたオーディオサンプル値を有してよい。

方法は、符号化されたオーディオデータのビットストリームのフレームが即時再生フレームであるかどうかを決定するステップＳ１０２を更に含んでよい。即時再生フレームは、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有してよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよく、先行フレームの符号化されたオーディオサンプル値は、即時再生フレームと同じコーデック設定を用いて符号化されている。プレロールフレームに対応する先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダの起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダの起動時の最初のフレームであってよい。

そして、方法は、フレームが即時再生フレームであると決定される場合にデコーダを初期化するステップＳ１０３を含んでよい。初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。

これより図３の例を参照すると、オーディオデコーダは、フレームが即時再生フレームであると決定される場合、かつ、即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、現在のコーデック設定から異なるコーデック設定へ切り替えられてよい。即時再生フレームは、現在のコーデック設定を用いて復号されてよく、追加情報は、フレームが即時再生フレームであると決定される場合、かつ、即時再生フレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、捨てられてよい。

一例において、復号化プロセスは、ＭＰＥＧ−ＤＵＳＡＣにおけるＩＰＦ復号化からの要素を利用してよい。再び図３の例を参照すると、復号化プロセスは、次の通りに詳細に進んでよい。

●ペイロードが存在する場合、かつ、ｕｕｉｄが前のフレームから変化した場合（ブロックＳ１０４での決定）、又は
●ペイロードが存在し、ｕｕｉｄが存在しない場合（ブロックＳ１０５での決定）、
１．新しいストリーム設定、すなわち、ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）からのＡｕｄｉｏＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）を読み出す（Ｓ１０６）。
２．デコーダの状態をフラッシュし、結果を、例えば、“ＮＵＬＬ”アクセスユニットを用いて、バッファに格納する（Ｓ１０７）。
■結果をバッファ（クロスフェードバッファＡ）に格納する。
３．デコーダを再設定（再初期化）する（Ｓ１０８）。
４．ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ内のｎ＿ｐｒｅｒｏｌｌ＿ｆｒａｍｅｓを復号し、出力を捨てる（Ｓ１０９）。
５．ビットストリーム内の次のオーディオ要素（例えば、ＳＣＥ／ＣＰＥ／ＬＦＥ）を復号し、結果をバッファ（クロスフェードバッファＢ）に格納する。
■フラグによって通知される場合に、クロスフェードバッファＡとデコーダ出力との間にクロスフェードを適用し、結果を出力ＰＣＭバッファに書き込む（Ｓ１１０）。クロスフェードの結果は、このフレームのコンポジションユニットを構成する。
■さもなければ、デコーダ出力をＰＣＭバッファに直接書き込む。
６．次のフレームを続ける。
●その他の場合
１．ａｕｄｉｏ＿ｐｒｅｒｏｌｌ＿ｅｌｍｅｎｔ（）をスキップし、フレームを復号する（Ｓ１１１）。
２．結果をＰＣＭバッファに書き込む（Ｓ１１２）。

復号化プロセスは：
●ペイロードが存在しない場合に、各々のフレームを復号し、次のフレームを続ける
ことを更に含んでもよい。

一例において、この処理は、正確な出力サンプルを連続して生成することと組み合わせて、オーディオ出力に沈黙（silence）のギャップを導入せずに、ISO/IEC 14496-3で定義されるようなオーディオオブジェクトタイプ（AudioObjectType，ＡＯＴ）の切り替えを可能にし得る。一例において、切り替えられるＡＯＴには、ＡＯＴ２（ＡＡＣ）、ＡＯＴ５（ＳＢＲ）、ＡＯＴ２９（ＰＳ）及び他の互換性があるものが含まれ得る。

これより図４の例を参照すると、本発明の態様は、ＩＰＦの復号化のためのオーディオデコーダに関係がある。オーディオデコーダ１００は、決定部１０１を有してよい。決定部１０１は、符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成されてよい。追加情報は、即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有してよい。先行フレームの符号化されたオーディオサンプル値は、現在のフレームと同じコーデック設定を用いて符号化されていてよい。プレロールフレームに対応する先行フレームの数は、即時再生フレームが復号されるときはいつでも、現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダ１００によって必要とされるフレームの数に対応してよい。全信号は、例えば、デコーダ１００の起動又は再起動中に構成されてよい。即時再生フレームは、例えば、デコーダ１００の起動時の最初のフレームであってよい。

そして、オーディオデコーダ１００は、初期化部１０２を有してよい。初期化部１０２は、フレームが即時再生フレームであると決定部１０１が決定する場合に、デコーダ１００を初期化するよう構成されてよい。デコーダ１００を初期化することは、現在のフレームと関連付けられた符号化されたオーディオサンプル値を復号する前に、追加情報によって構成された符号化されたオーディオサンプル値を復号することを有してよい。初期化部１０２は、フレームが即時再生フレームであると決定部１０１が決定する場合、かつ、現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、オーディオデコーダ１００を現在のコーデック設定から異なるコーデック設定へ切り替えるよう更に構成されてよい。そしで、デコーダ１００は、現在のコーデック設定を用いて現在のフレームを復号し、フレームが即時再生フレームであると決定部１０１が決定する場合、かつ、現在のフレームのオーディオサンプル値が現在のコーデック設定を用いて符号化されている場合に、追加情報を捨てるよう構成されてよい。

これより図５の例を参照すると、本発明の態様は、即時再生フレーム（ランダムアクセスポイント）を含む符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダに関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。

オーディオエンコーダ２００は、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダ２０２を有してよい。予め定義されたコーデック設定を使用することは、例えば、所定のサンプリングレートを使用することを含んでよい。一例において、コアエンコーダ２０２は、ＭＰＥＧ−４オーディオ標準の復号化に従うように、圧縮されていないオーディオサンプルを符号化してよい。

オーディオエンコーダ２００は、予め定義されたコーデック設定を用いて符号化されている複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファ２２３を更に有してよい（破線によって示される。）。

例えば、フレームＮを符号化する場合に、関連する前のフレームＮ−１、Ｎ−２、・・・は、常にバッファリング／記憶されてよい。ＩＰＦをフレームＮに書き込むよう指示された場合（例えば、動的スイッチングを可能にするために２秒ごと）、記憶されている関連する前のフレームＮ−１、Ｎ−２、・・・が次いで取られ、現在のフレームＮにパッケージ化されてよい。

そして、オーディオエンコーダ２００は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部２０４を有してよく、即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有してよい。

図５の例では、埋め込み部２０４は、オーディオエンコーダ２００の部分であるものとして定義されているが、代替的には、又は付加的には、埋め込み部２０４はまた、符号化されたオーディオデータのビットストリームのいずれかの現在のフレームに即時再生フレームを書き込むよう、あるいは、符号化されたオーディオデータのビットストリーム内の即時再生フレームを、即時再生フレームから追加情報を除くことによって、“通常”のフレームに変換するよう、個別的に実装されてもよい。この際、埋め込み部２０４は、エンコーダチェーンの部分であり得るが、必ずしもその必要はない。

実施形態において、埋め込み部２０４は、予め定義されたコーデック設定に関する情報を追加情報に含めるよう更に構成されてよい。この際、追加情報は、予め定義されたコーデック設定に関する情報をデコーダへ供給し得る。実施形態において、埋め込み部２０４は、追加情報を即時再生フレームに含めるよう更に構成されてよい。このようにして、追加情報は、ビットストリームにおいてデコーダへ運ばれ得る。

実施形態において、符号化されたオーディオデータの生成されたビットストリームは、ＭＰＥＧ−４オーディオビットストリームであってよい。

実施形態において、埋め込み部２０４は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であり得るＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して追加情報をビットストリームに（例えば、輸送のために）埋め込むよう更に構成されてよい。

実施形態において、埋め込み部２０４は、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置にデータストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方を置くよう、かつ／あるいは、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成されてよい。予め定義された位置は、ＭＰＥＧ−４オーディオビットストリーム内の第１の位置、すなわち、フレームｎ（図１のｒａｗ＿ｄａｔａ＿ｂｌｏｃｋ（）［ｎ］）を復号するために必要とされ得るデコーダ設定を運び得るということでフレーム内の最初、に対応してよい。よって、デコーダは、フレーム内の最初の要素がＩＤ＿ＤＳＥ又は拡張ペイロード要素（ＩＤ＿ＦＩＬ要素内に含まれてよい。）である場合に、この要素がプレロールデータ（先行フレーム、プレロールフレーム）を運ぶと推測し得る。

実施形態において、埋め込み部２０４は、一意の識別子を追加情報に含めるよう更に構成されてよい。任意に、一意の識別子は、予め定義されたコーデック設定を通知してよい。予め定義されたコーデック設定は、次いで、上述されたように、フレームｎを復号するためにデコーダによって使用されてよい。一意の識別子に基づいて、デコーダは、ビットストリームにおいて追加情報を識別し、それに応じてビットストリームをパースすることが可能であり得る。

実施形態において、オーディオエンコーダ２００は、追加情報に含まれる多数のフレームのうちの最も早いフレームを、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよく、オーディオエンコーダ２００は、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して、即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成されてよい。

これより図６の例を参照すると、本発明の態様は、オーディオエンコーダによって、即時再生フレーム（ランダムアクセスポイント）を含む符号化されたオーディオデータのビットストリームを生成する方法に関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。

方法は、コアエンコーダによって、予め定義されたコーデック設定を用いて、複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップＳ２０１を有してよい。予め定義されたコーデック設定を使用することは、例えば、所定のサンプリングレートを使用することを含んでよい。方法は、バッファによって、予め定義されたコーデック設定を用いて符号化された複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップＳ２０２を更に有してよい。

そして、方法は、埋め込み部によって、即時再生フレームを複数のフレームのうちの現在のフレームに書き込むステップＳ２０３を有してよく、即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有する。

実施形態において、追加情報は、予め定義されたコーデック設定に関する情報を更に有してよい。予め定義されたコーデック設定は、先に詳述された復号化プロセスにおいてデコーダによって使用されてよい。

実施形態において、即時再生フレームは、追加情報を更に含んでよい。このようにして、追加情報は、ビットストリームにおいて運ばれ得る。

実施形態において、追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して埋め込み部によってビットストリーム（例えば、輸送のために）埋め込まれてよい。拡張ペイロード要素は、例えば、ＭＰＥＧ−４オーディオビットストリームシンタックスの種々の場所に含まれてよい。実施形態において、拡張ペイロード要素は、充てん要素（ＩＤ＿ＦＩＬ）内に埋め込み部によって（例えば、輸送のために）埋め込まれてよい。

先に詳述されたように、実施形態において、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方は、埋め込み部によって、ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれてよく、かつ／あるいは、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のペイロードが追加情報であることを伝える特定のインスタンスタグを割り当てられてよい。予め定義された位置は、現在のフレーム復号するために必要とされ得るデコーダ設定を運び得るということで、常にフレーム内の最初の位置であってよい。

実施形態において、追加情報は、一意の識別子を更に有してよい。任意に、一意の識別子は、予め定義されたコーデック設定を通知してよい。

実施形態において、追加情報に含まれる多数のフレームのうちの最も早いフレームは、オーディオエンコーダによって、その最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよく、即時再生フレームは、オーディオエンコーダによって、即時再生フレームに先行する多数のフレームのうちの最も早いフレームより前のいずれかのフレームに対して、又は即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されなくてよい。

これより図７の例を参照すると、本発明の態様は、即時再生フレーム（時間アライメントされたランダムアクセスポイント）を夫々が有している符号化されたオーディオデータの複数のビットストリームを生成する２つ以上のオーディオエンコーダを有するシステムに関係があり、符号化されたオーディオデータの各ビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。システム内のオーディオエンコーダの数は制限されず、一方、図７の例では、２つのオーディオエンコーダを有するシステムが表されている。システムは、同じ頻度で即時再生フレームを挿入するが、例えば、ビットレートについて、異なる設定を有しながら、同じ内容に対して並行して２つのオーディオエンコーダを実行し得る。そのようにして生成された両方のビットストリームは、例えば、ウェブサーバ上に、記憶されてよい。クライアントは、（例えば、高ビットレートで）ストリームＡを再生し始めてよい。ある時点で、クライアントは、より低いビットレートストリームＢへ切り替えると決定してよく、従って、同じコンテンツを、しかし異なるビットレートで、要求してよい。ストリームＢの最初のセグメントがデコーダに到着する場合に、そのようなセグメントは、常にＩＰＦから開始し得る（これは、例えば、ＭＰＥＧ−ＤＡＳＨに従うマニフェストファイルを介して、通知されてよい。）。このことは、デコーダが最初から正確なオーディオを出力することを可能にする。

再び図７の例を参照すると、２つのオーディオエンコーダが並行して表されており、オーディオエンコーダの夫々は、コアエンコーダ２０２（エンコーダコア＃１、エンコーダコア＃２）、バッファ（図示せず。）及び埋め込み部２０４（ＩＰＦ挿入）を有する。

実施形態において、所定のサンプリングレートは、コアエンコーダ２０２の夫々について同じであってよい。さもなければ、リサンプリング及び追加の遅延ハンドリングがデコーダ側で必要とされることがある。しかし、コアエンコーダ２０２は、異なるフレームレートで実行されるよう構成されてもよい（例えば、ＡＡＣ−ＬＣ１０２４；ＨＥ−ＡＡＣ２０４８）。更に、コアエンコーダ設定は、異なる数のプレロールフレームｐを必要とし得る。フレームｎ−ｐ及びｐの両方が独立して復号化可能である、すなわち、前のフレームからの情報に依存する必要がないことが必要とされ得る（ＨＥ−ＡＡＣについては、それらはＳＢＲヘッダを含んでよい）。コア符号化の後、ＩＰＦの復号化時間は、異なるストリームにわたってアライメントされてよい。

実施形態において、システムは、複数のビットストリームをアライメントする遅延のための遅延アライメントユニット２０１（遅延＃１、遅延＃２）を更に有してよい。デコーダでのシームレスなスイッチングのために、即時再生フレーム（ＩＰＦ）の復号化時間はアライメントされる必要があり得る。遅延アライメント段は、異なるエンコーダ／デコーダ遅延を補償するように、入力ＰＣＭサンプル（圧縮されていないオーディオサンプル値、入力オーディオサンプル値）を遅延させてよい。

これより図８の例を参照すると、本発明の態様は、符号化されたオーディオデータのビットストリームにおいて即時再生フレーム（ランダムアクセスポイント）を生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレーム（ランダムアクセスポイント）を除くための装置に関係があり、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。

装置３００は、符号化されたオーディオデータのビットストリームを受信するよう構成される受信部３０１を有してよく、符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する。

そして、装置３００は、複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部３０２を有してよく、即時再生フレームは、前記現在のフレームに関連した符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたに対応する追加情報を有する。ＩＰＦを生成することにおいて、埋め込み部３０２は、図５乃至７に関連して上述された原理に従って動作してよい。この動作は、“通常”の（非ＩＰＦ）フレームをＩＰＦに変換することに対応すると言われることがある。

ＩＰＦ挿入は、実際のコピー及びパッケージ化を引き受け得る。コア符号化及びＩＰＦ挿入を分けることによって、上記の装置と同様に、ＩＰＦなしのビットストリームを記憶し、必要な場合にのみ分配の前にＩＰＦを埋め込むことが可能であり得る。シームレスなスイッチングのために構成される場合に、各ＩＰＦは、ストリーム構成ＡＳＣを含む必要があり得る。

実施形態において、装置３００は、複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有してよい。

実施形態において、埋め込み部３０２は、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報を即時再生フレームから除くよう更に構成されてよい。これは、ＩＰＦを“通常”のフレームに変換することに対応すると言われることがある。例えば、オーディオエンコーダは、ＩＰＦのみを生成してよく、それから、ＩＰＦは、各々のチャネル／サービスが有し得る制約に応じて、埋め込み部によって後に除かれてよい。

これより図９の例を参照すると、本発明の態様は、コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、コンピュータプログラムが、コンピュータ又はプロセッサによって実行される場合に、本明細書で説明されている方法を実行する、非一時的なデジタル記憶媒体を含んでよい。図９は、前記コンピュータプログラムを実行し得るプロセッサ４０１を備えたデバイス４００を例として表す。あるいは、デバイス４００は、各々のコンピュータを表してもよい。

本明細書で説明されている方法およびシステムは、ソフトウェア、ファームウェア、及び／又はハードウェアとして実装されてよい。特定のコンポーネントは、例えば、デジタル信号プロセッサ又はマイクロプロセッサで実行されるソフトウェアとして実装されてもよい。他のコンポーネントは、例えば、ハードウェアとして及び／又は特定用途向け集積回路として実装されてもよい。説明されている方法及びシステムで引き起こされる信号は、ランダム・アクセス・メモリ又は光記憶媒体などの媒体に記憶されてよい。それらは、ラジオネットワーク、衛星ネットワーク、ワイヤレスネットワーク又はワイヤラインネットワーク、例えば、インターネットなどのネットワークを介して転送されてよい。本明細書で説明されている方法、装置及びシステムを使用する典型的なデバイスは、オーディオ信号を記憶及び／又はレンダリングするために使用されるポータブル電子デバイス又は他のコンシューマ装置である。

留意されるべきは、明細書及び図面／図は、単に、提案される方法、システム、及び装置の原理を表す点である。当業者であれば、本明細書で明示的に記載又は図示されていないとしても、本発明の原理を具現し、その精神及び範囲の中に含まれている様々な配置を実施することができる。更に、本文書で説明されている全ての例及び実施形態は、提案されている方法の原理を読者が理解することを助ける説明目的のためのみであることが明示的に主に意図されている。更に、本発明の原理、態様及び実施形態並びにそれらの具体例を提供する本明細書中の全ての記述は、それらの同等物を包含するよう意図される。

［関連出願の相互参照］
本願は、２０１８年８月２１日付けで出願された米国特許仮出願第６２／７２０６８０号（参照番号：Ｄ１８０８０ＵＳＰ１）の優先権を主張する。優先権の基礎となるこの米国出願は、参照により本願に援用される。

Claims

符号化されたオーディオデータのビットストリームを復号するオーディオデコーダであって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記オーディオデコーダにおいて、
前記符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するよう構成される決定部と、
当該フレームが即時再生フレームであると前記決定部が決定する場合に、前記デコーダを初期化するよう構成される初期化部と
を有し、
前記追加情報は、前記即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、前記先行するフレームの前記符号化されたオーディオサンプル値は、前記現在のフレームと同じコーデック設定を用いて符号化されており、
プレロールフレームに対応する前記先行するフレームの数は、即時再生フレームが復号されるときはいつでも、前記現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するために前記デコーダによって必要とされるフレームの数に対応し、
前記デコーダを初期化することは、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号する前に、前記追加情報によって構成された前記符号化されたオーディオサンプル値を復号することを有し、
前記初期化部は、当該フレームが即時再生フレームであると前記決定部が決定する場合に、かつ、前記現在のフレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、前記オーディオデコーダを現在のコーデック設定から前記異なるコーデック設定へ切り替えるよう構成され、
前記デコーダは、前記現在のコーデック設定を用いて前記現在のフレームを復号し、当該フレームが即時再生フレームであると前記決定部が決定する場合に、かつ、前記現在のフレームのオーディオサンプル値が前記現在のコーデック設定を用いて符号化されている場合に、前記追加情報を捨てるよう構成される、
オーディオデコーダ。
前記追加情報は、前記現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を有し、
前記決定部は、前記追加情報の前記コーデック設定が前記現在のコーデック設定と異なるかどうかを決定するよう更に構成される、
請求項１に記載のオーディオデコーダ。
前記即時再生フレームは、拡張ペイロードとして前記追加情報を有し、
前記決定部は、前記即時再生フレームの前記拡張ペイロードを評価するよう構成される、
請求項１又は２に記載のオーディオデコーダ。
前記符号化されたオーディオデータのビットストリームは、ＭＰＥＧ−４オーディオビットストリームである、
請求項１乃至３のうちいずれか一項に記載のオーディオデコーダ。
前記追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれる、
請求項４に記載のオーディオデコーダ。
前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のどちらか一方は、前記ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれ、かつ／あるいは、前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを有する、
請求項５に記載のオーディオデコーダ。
前記拡張ペイロード要素は、充てん要素（ＩＤ＿ＦＩＬ）内に含まれる、
請求項５又は６に記載のオーディオデコーダ。
前記追加情報は、一意の識別子を更に有し、
任意に、前記一意の識別子は、前記異なるコーデック設定を検出するために使用される、
請求項１乃至７のうちいずれか一項に記載のオーディオデコーダ。
前のコーデック設定で前記デコーダをフラッシュすることによって取得された出力サンプル値と、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号することによって取得された出力サンプル値とのクロスフェードを実行するよう構成されるクロスフェーダを更に有する、
請求項１乃至８のうちいずれか一項に記載のオーディオデコーダ。
前記追加情報に含まれる前記多数のフレームの最も早いフレームは、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されず、
前記即時再生フレームは、該即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して又は前記即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されない、
請求項１乃至９のうちいずれか一項に記載のオーディオデコーダ。
符号化されたオーディオデータのビットストリームを復号する方法であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記方法において、
前記符号化されたオーディオデータのビットストリームのフレームが、現在のフレームと関連付けられた符号化されたオーディオサンプル値と、追加情報とを有する即時再生フレームであるかどうかを決定するステップであり、前記追加情報は、前記即時再生フレームに先行する多数のフレームの符号化されたオーディオサンプル値を有し、前記先行するフレームの前記符号化されたオーディオサンプル値は、前記即時再生フレームと同じコーデック設定を用いて符号化されており、プレロールフレームに対応する前記先行するフレームの数は、即時再生フレームが復号されるときはいつでも、前記現在のフレームと関連付けられた有効なオーディオサンプル値を出力する位置にあるように、全信号を構成するためにデコーダによって必要とされるフレームの数に対応する、ステップと、
当該フレームが即時再生フレームであると決定される場合に前記デコーダを初期化するステップであり、前記初期化することは、前記現在のフレームと関連付けられた前記符号化されたオーディオサンプル値を復号する前に、前記追加情報によって構成された前記符号化されたオーディオサンプル値を復号することを有する、ステップと、
当該フレームが即時再生フレームであると決定される場合に、かつ、前記即時再生フレームのオーディオサンプル値が異なるコーデック設定を用いて符号化されている場合に、前記デコーダを現在のコーデック設定から前記異なるコーデック設定へ切り替えるステップと、
前記現在のコーデック設定を用いて前記即時再生フレームを復号し、当該フレームが即時再生フレームであると決定される場合に、かつ、前記即時再生フレームのオーディオサンプル値が前記現在のコーデック設定を用いて符号化されている場合に、前記追加情報を捨てるステップと
を有する方法。
前記追加情報は、前記現在のフレームと関連付けられたオーディオサンプル値を符号化するために使用されたコーデック設定に関する情報を有し、
前記方法は、前記追加情報の前記コーデック設定が、前記即時再生フレームに先行する前記ビットストリーム内のフレームと関連付けられたオーディオサンプル値を符号化するために使用された前記現在のコーデック設定と異なるかどうかを決定するステップを更に有する、
請求項１１に記載の方法。
前記符号化されたオーディオデータのビットストリームは、ＭＰＥＧ−４オーディオビットストリームである、
請求項１１又は１２に記載の方法。
前記追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して運ばれる、
請求項１３に記載の方法。
前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のどちらか一方は、前記ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれ、かつ／あるいは、前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを有する、
請求項１４に記載の方法。
前記拡張ペイロード要素は、充てん要素（ＩＤ＿ＦＩＬ）内に含まれる、
請求項１４又は１５に記載の方法。
前記追加情報は、一意の識別子を更に有し、
任意に、前記一意の識別子は、前記異なるコーデック設定を検出するために使用される、
請求項１１乃至１６のうちいずれか一項に記載の方法。
前記符号化されたオーディオデータのビットストリームは、第１コーデック設定を用いて符号化された第１の数のフレームと、該第１の数のフレームに続き、第２コーデック設定を用いて符号化された第２の数のフレームとを有し、
前記第２の数のフレームのうちの最初のフレームが前記即時再生フレームである、
請求項１１乃至１７のうちいずれか一項に記載の方法。
即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成するオーディオエンコーダであって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記オーディオエンコーダにおいて、
予め定義されたコーデック設定を用いて、前記複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するよう構成されるコアエンコーダと、
前記予め定義されたコーデック設定を用いて、前記複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファと、
前記複数のフレームのうちの前記現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部と
を有し、
前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する追加情報とを有する、
オーディオエンコーダ。
前記埋め込み部は、前記予め定義されたコーデック設定に関する情報を前記追加情報に含めるよう更に構成される、
請求項１９に記載のオーディオエンコーダ。
前記埋め込み部は、前記追加情報を前記即時再生フレームに含めるよう更に構成される、
請求項１９又は２０に記載のオーディオエンコーダ。
前記符号化されたオーディオデータの生成されたビットストリームは、ＭＰＥＧ−４オーディオビットストリームである、
請求項１９乃至２１のうちいずれか一項に記載のオーディオエンコーダ。
前記埋め込み部は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して前記追加情報を前記ビットストリームに埋め込むよう更に構成される、
請求項２２に記載のオーディオエンコーダ。
前記埋め込み部は、前記ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のどちらか一方を位置付けるよう、かつ／あるいは、前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを割り当てるよう更に構成される、
請求項２３に記載のオーディオエンコーダ。
前記埋め込み部は、充てん要素（ＩＤ＿ＦＩＬ）内に前記拡張ペイロード要素を埋め込むよう更に構成される、
請求項２３又は２４に記載のオーディオエンコーダ。
前記埋め込み部は、一意の識別子を前記追加情報に含めるよう更に構成され、
任意に、前記一意の識別子は、予め定義されたコーデック設定を伝える、
請求項１９乃至２５のうちいずれか一項に記載のオーディオエンコーダ。
前記オーディオエンコーダは、前記追加情報に含まれる前記多数のフレームのうちも最も早いフレームを、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化しないよう更に構成され、
前記オーディオエンコーダは、前記即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して、又は前記即時再生フレームより前のいずれかのフレームに対して前記即時再生フレームを時間差動的に符号化又はエントロピ符号化しないよう更に構成される、
請求項１９乃至２６のうちいずれか一項に記載のオーディオエンコーダ。
即時再生フレームを夫々有している符号化されたオーディオデータの複数のビットストリームを生成するために、請求項１９乃至２７のうちいずれか一項に記載の２つ以上のオーディオエンコーダを有し、
符号化されたオーディオデータの各ビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、
システム。
予め定義されたサンプリングレートが、前記２つ以上のオーディオエンコーダの前記コアエンコーダの夫々について同じである、
請求項２８に記載のシステム。
前記システムは、前記複数のビットストリームをアライメントする遅延のための遅延アライメントユニットを更に有する、
請求項２８又は２９に記載のシステム。
オーディオエンコーダによって、即時再生フレームを有する符号化されたオーディオデータのビットストリームを生成する方法であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記方法において、
コアエンコーダによって、予め定義されたコーデック設定を用いて、前記複数のフレームと関連付けられた圧縮されていないオーディオサンプル値を符号化するステップと、
バッファによって、前記予め定義されたコーデック設定を用いて、前記複数のフレームのうちの現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値を記憶するステップと、
埋め込み部によって、前記複数のフレームのうちの前記現在のフレームに即時再生フレームを書き込むステップと
を有し、
前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する追加情報とを有する、
方法。
前記追加情報は、前記予め定義されたコーデック設定に関する情報を更に有する、
請求項３１に記載の方法。
前記即時再生フレームは、前記追加情報を更に有する、
請求項３１又は３２に記載の方法。
前記符号化されたオーディオデータの生成されたビットストリームは、ＭＰＥＧ−４オーディオビットストリームである、
請求項３１乃至３３のうちいずれか一項に記載の方法。
前記追加情報は、データストリーム要素（ＩＤ＿ＤＳＥ）又は拡張ペイロード要素のどちらか一方であるＭＰＥＧ−４オーディオビットストリーム拡張メカニズムを介して前記埋め込み部によって前記ビットストリームに埋め込まれる、
請求項３４に記載の方法。
前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のどちらか一方は、前記埋め込み部によって、前記ＭＰＥＧ−４オーディオビットストリーム内の予め定義された位置に置かれ、かつ／あるいは、前記データストリーム要素（ＩＤ＿ＤＳＥ）又は前記拡張ペイロード要素のペイロードが前記追加情報であることを伝える特定のインスタンスタグを割り当てられる、
請求項３５に記載の方法。
前記拡張ペイロード要素は、前記埋め込み部によって、充てん要素（ＩＤ＿ＦＩＬ）内に埋め込まれる、
請求項３５又は３６に記載の方法。
前記追加情報は、一意の識別子を更に有し、
任意に、前記一意の識別子は、予め定義されたコーデック設定を伝える、
請求項３１乃至３７のうちいずれか一項に記載の方法。
前記オーディオエンコーダによって、前記追加情報に含まれる前記多数のフレームのうちも最も早いフレームは、該最も早いフレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されず、
前記オーディオエンコーダによって、前記即時再生フレームは、該即時再生フレームに先行する前記多数のフレームのうちの前記最も早いフレームより前のいずれかのフレームに対して、又は前記即時再生フレームより前のいずれかのフレームに対して時間差動的に符号化又はエントロピ符号化されない、
請求項３１乃至３８のうちいずれか一項に記載の方法。
符号化されたオーディオデータのビットストリームにおいて即時再生フレームを生成するための、又は符号化されたオーディオデータのビットストリームから即時再生フレームを除くための装置であって、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記装置において、
符号化されたオーディオデータのビットストリームを受信するよう構成される受信部であり、前記符号化されたオーディオデータのビットストリームは、オーディオサンプル値の連続を表し、複数のフレームを有し、各フレームは、関連した符号化されたオーディオサンプル値を有する、前記受信部と、
前記複数のフレームのうちの現在のフレームに即時再生フレームを書き込むよう構成される埋め込み部であり、前記即時再生フレームは、前記現在のフレームと関連付けられた符号化されたオーディオサンプル値と、前記現在のフレームの多数の先行フレームの符号化されたオーディオサンプル値に対応する追加情報とを有する、前記埋め込み部と
を有する装置。
前記装置は、前記複数のフレームのうちの前記現在のフレームの前記多数の先行フレームの符号化されたオーディオサンプル値を記憶するよう構成されるバッファを更に有する、
請求項４０に記載の装置。
前記埋め込み部は、前記現在のフレームの前記多数の先行フレームの前記符号化されたオーディオサンプル値に対応する前記追加情報を前記即時再生フレームから除くよう更に構成される、
請求項４０に記載の装置。
コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、
前記コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、請求項１１乃至１８のうちいずれか一項に記載の方法を実行する、
非一時的なデジタル記憶媒体。
コンピュータプログラムを記憶している非一時的なデジタル記憶媒体であって、
前記コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合に、請求項３１乃至３９のうちいずれか一項に記載の方法を実行する、
非一時的なデジタル記憶媒体。