JP2023126775A

JP2023126775A - オーディオデコーダ、オーディオエンコーダ、復号化オーディオ信号の供給方法、符号化オーディオ信号の供給方法、オーディオストリーム、オーディオストリーム供給器、およびストリーム識別子を使用するコンピュータプログラム

Info

Publication number: JP2023126775A
Application number: JP2023094876A
Authority: JP
Inventors: マクスノイエンドルフ; Max Neuendorf; マティアスフェリックス; Felix Matthias; マティアスヒルデンブラント; Hildenbrand Matthias; ルーカスシュースター; Schuster Lukas; インゴホーフマン; Hofmann Ingo; ベルントヘルマン; Herrmann Bernd; ニコラウスレッテルバッハ; Nikolaus Rettelbach
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-01-10
Filing date: 2023-06-08
Publication date: 2023-09-12
Also published as: AU2020244609A1; CA3049729C; KR102572557B1; CN110476207A; PL3822969T3; US20240062768A1; RU2019125257A3; AU2022201458B2; CN117037805A; MX2022015785A; RU2019125257A; AU2020244609B2; US11837247B2; KR20210129255A; SG10202100336WA; EP3822969A1; JP2022008681A; CN116631415A; TWI673708B; CN116631413A

Abstract

【課題】遷移時に特定の符号化／復号化設定（例えば、ウィンドウの選択など）を強制する必要性を回避しながら、適度な実装複雑さで異なるストリーム間の切替えの認識を可能にし、過度のオーバーヘッドおよびオーディオ品質の低下も回避する。【解決手段】オーディオデコーダは、デコードすべきオーディオストリームの１つ以上のフレームに関連付けられた構成構造内の構成情報又はデコードすべき１つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分が、現在の構成情報と異なる場合、現在の構成情報によってデコードすべき１つ以上のフレームに関連付けられた構成構造内の構成情報を、構成構造に含まれるストリーム識別子情報を考慮して比較し、新しい構成情報としてデコードすべき１つ以上のフレームと関連付けられた構成構造内の構成情報を使用し遷移を発生してデコードを行う。【選択図】図１

Description

本願発明に係る実施例は、符号化オーディオ信号表現に基づく復号化オーディオ信号表現を供給するためのオーディオデコーダに関する。

また、本願発明に係る実施例は、符号化オーディオ信号表現を供給するためのオーディオエンコーダに関する。

また、本願発明に係る実施例は、復号化オーディオ信号表現を供給するための方法に関する。

また、本願発明に係る実施例は、符号化オーディオ信号表現を供給するための方法に関する。

また、本願発明に係る実施例は、オーディオストリームに関する。

また、本願発明に係る実施例は、オーディオストリーム供給器に関する。

また、本願発明に係る実施例は、方法の１つを実行するためのコンピュータプログラムに関する。

以下では、本願発明の態様の根底にある問題および本願発明による実施形態の可能な使用シナリオについて説明する。

符号化オーディオフレームの様々なオーディオストリーム間または様々なシーケンスの間に遷移がある状況が存在する。例えば、オーディオフレームの様々なシーケンスは様々なオーディオコンテンツを含むことができ、それらの間で遷移が行われるべきである。

例えば、ＭＰＥＧ－ＤＵＳＡＣ（ＩＳＯ／ＩＥＣ２３００３- ３＋Ａｍｄ．１＋Ａｍｄ．２＋Ａｍｄ．３）が適応ストリーミングを使用するケースで使用されるとき、いわゆる適応セット（例えば、ユーザが切替えることができる２つ以上のストリームをグループ化することができる）内の２つのストリームがたとい、それらのビットレートが異なっていても、全く同一の構成構造を有するという状況が起こり得る。これは、例えば、エンコーダが両方のビットレートに対して全く同じエンコードツールセットを使用してエンコーダを操作することを選択した場合に発生する可能性がある。

例えば、オーディオエンコーダは、同じ基本的な符号化設定（これもまたオーディオデコーダに通知される）を使用することができるが、それでもオーディオ値の様々な表現を供給することができる。例えば、オーディオエンコーダはスペクトル値のより粗い量子化を使用することができ、これは、基本的なエンコーダ設定またはデコーダ設定が変更されないままであるが、より低いビットレートを達成することが望まれる場合、より小さなビット需要をもたらす。

しかしながら、これ（例えば、適応セット内の２つのストリームがそれらのビットレートが異なっていても全く同一の構成構造を有する状況の発生）はそれ自体で問題ではない。

しかしながら、適応ストリーミングを使用する場合では、デコーダは、その後に受信されたアクセスユニット（または"フレーム"）が同じストリームに由来するかどうか、またはストリームの変更が発生したかどうかを知るべきである、ということが分かった。

ストリームの変化が検出された場合、オーディオデコーダは、場合によっては、以下のことを保証する特定の一連の動作ステップを実行することが分かっている。
・１つのデコーダインスタンスが適切にシャットダウンされ、一時的に内部に保存されたデコード済み信号部分がデコーダ出力に送信される。－"フラッシング"と呼ばれるプロセス・デコーダは、変更されたストリームに関連付けられている設定情報を使用して、自分自身を再度インスタンス化して再設定する。
・デコーダは、即時再生フレーム（ＩＰＦ）でピギーバックされる埋め込みアクセスユニットを"プリロール"する。アクセスユニットのこのプレローリングは、デコーダを完全に初期化された状態にし、その結果、最初のフレームをデコードした出力は、完全準拠のデコードされたオーディオ信号となる。
・オプションで、例えば対応するビットストリームシグナリング要素に応じて、デコーダフラッシングプロセスからのオーディオ出力と再構成されたデコーダの第１のアクセスユニットをデコードすることからの出力とが非常に短い期間にわたってクロスフェードされる。

例えば、１つのストリームの復号化オーディオから別のストリームの復号化オーディオへの"シームレスな"遷移を得るという唯一の目的を達成するために、上記のステップのすべてを実行することができる。"シームレス"は、可聴アーチファクトやストリームトランジション自体からのグリッチがないことを意味する。実際には、ストリームの遷移は知覚的に目立つ可能性がある。これは、－例えば－全体的な符号化品質またはオーディオ帯域幅や音質の変動が原因である。しかしながら、遷移の実際の時点（時間内の）は、それ自体では聴覚的印象を引起こさない。換言すれば、遷移点に"クリック"や"ノイズバースト"などの邪魔な音は存在しない。

ストリーム変化が生じたかどうかの情報は、即時再生フレームに埋込まれた構成構造を分析し、それを現在デコードされているストリームの構成と比較することから得られることが分かった。例えば、オーディオデコーダは、受信した構成が現在の構成と異なる場合に限り、ストリームの変更を想定することができる。

例えば、デコーダがさまざまなビットレートでストリームの即時再生フレーム（ＩＰＦ）を受信すると、オーディオプレロール拡張ペイロードの存在を検出し、設定構造を抽出して、この新しい設定と現在の設定とを比較するであろう。詳細については、ＩＳＯ／ＩＥＣ２３００３－３：２０１２／Ａｍｄ.３の小節「ビットレート適応」も参照されたい。

しかしながら、現在および新規の両方の構成構造が同一である場合、デコーダは、それが以前とは異なるストリームからアクセスユニットを受信していることを認識することができず、したがってデコーダを再構成せず、ＩＰＦの拡張ペイロードにあるオーディオプリロールもデコードしない。

代わりに、デコーダはあたかもそれが前のアクティブなストリームから継続的なアクセス単位を受信したかのようにデコードし続けようと試みるであろう。これは（例えば、ｓｔｒｅａｍＩＤが使用または評価されていない従来の場合）、最後の復号化フレームと新しいストリームの新しいフレームのウィンドウ境界および符号化モードが対応しないというありそうな状況につながり、クリック音やノイズバーストなどの可聴アーチファクトの発生をもたらす。これは、ＩＰＦの主な目的と、ストリーム間のシームレスな遷移の概念に基づく適応型オーディオストリーミングのアイデアを妨害するであろう。

以下では、いくつかの従来の手法について説明する。

音声音響統合符号化（ＵＳＡＣ）の場合、既知の解決策は存在しない点に留意すべきである。

ＭＰＥＧ－Ｈ３Ｄオーディオ（ＩＳＯ／ＩＥＣ２３００８- ３＋すべての改訂）において、オーディオデータがＭＰＥＧ－Ｈオーディオストリーム（"ＭＨＡＳ"）パケット化ストリームフォーマットによって送信される場合、問題は解決され得る。ＭＨＡＳパッケージには、ストリーム間で異なる可能性があるパケットラベルが含まれているため、構成を区別する目的を果たすことができる。但し、ＭＨＡＳ形式はＭＰＥＧ－ＤＵＳＡＣには規定されていない。

ＭＰＥＧ- ４ＨＥ- ＡＡＣ（ＩＳＯ／ＩＥＣ１４４９６- ３＋すべての改訂）では、潜在的な遷移点（いわゆるストリームアクセスポイント（ＳＡＰ（複数）））ですべてのストリームが同一のウィンドウ形状およびウィンドウシーケンス、ならびに使用される信号処理ツールに関するさらなる制約を有することを保証することをエンコーダに要求する回避策がある。これは、オーディオ品質に悪影響を及ぼす可能性がある。上記のＩＰＦは、まさにこれらすべての制約から新しいコーデックを解放するように設計されている。

結論として、異なるオーディオストリーム間の切替えを可能にし、オーバーヘッドの量と実装の容易さとの間の改善された妥協点を提供する概念に対する要求がある。

本願発明による実施形態は、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給するためのオーディオデコーダを作成する。オーディオデコーダは、構成情報に応じて復号化パラメータを調整するように構成される。オーディオデコーダは、現在の構成を使用して（例えば、現在アクティブな構成情報を使用して）１つ以上のオーディオフレームをデコードするように構成される。さらに、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報またはデコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分（たとえば、ストリーム識別子までおよびストリーム識別子を含んで）が現在の構成情報とは異なる場合、オーディオデコーダは、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較し、新しい構成情報としてデコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報を使用してデコードを実行するように遷移するように構成されている。オーディオデコーダは、オーディオデコーダによって以前に取得されたストリーム識別子と、デコードされるべき１つ以上のフレームに関連付けられている構成構造内のストリーム識別子情報によって表されるストリーム識別子との相違が、遷移を発生するように、構成情報を比較するときに構成構造に含まれるストリーム識別子情報を考慮するように構成されている。

本願発明によるこの実施形態は、構成構造に含まれるストリーム識別子情報の存在および評価により、オーディオデコーダの側で異なるストリームの区別が可能になり、その結果、実際の復号化構成（例えば、構成構造内の残りの構成情報で記述できる）が両方のストリームで同一である場合でも、遷移の実行が可能になる、というアイデアに基づく。従って、ストリーム識別子は、遷移を行うことができる異なるストリームを区別するための基準として使用できる。ストリーム識別子情報は構成構造に含まれているため（例えば、オーディオデコーダのデコードパラメータを調整する他の構成情報とともに）、遷移を行うかどうかを決定するときに、異なるプロトコルレイヤからの情報を評価する必要はない。例えば、ストリーム識別子情報は、パケットレベルから実際のオーディオデコーダに情報を転送する必要がないように、デコードパラメータ（"構成構造"）を定義するデータ構造のサブデータ構造に含まれている。構成構造にストリーム識別子情報を含めることにより、オーディオデコーダは第１のストリームから第２のストリームへの遷移を認識できるが、単一ストリームの連続部分をデコードするときにデコードパラメータに影響を与えず、異なるストリームで同じデコードパラメータが使用されている状況でも、異なるプロトコルレベルからの情報にアクセスすることなく、オーディオデコーダ側で異なるストリーム間の切替えを認識できる。また、異なるストリーム間の切替えが許容される位置で、異なるストリームで同一の復号化パラメータを使用する必要はない。

結論として、独立請求項１によって定義される概念は、遷移時に特定の符号化／復号化設定（例えば、ウィンドウの選択など）を強制する必要性を回避しながら、適度な実装複雑さ（例えば、異なるプロトコルレベルから専用のシグナリング情報を抽出し、それをオーディオデコーダに転送することなく）で異なるストリーム間の切替えの認識を可能にする。従って、過度のオーバーヘッドおよびオーディオ品質の低下も回避することができる。

好ましい実施形態では、オーディオデコーダは、構成構造がストリーム識別子情報を含むかどうかをチェックし、ストリーム識別子情報が構成構造に含まれる場合、比較においてストリーム識別子情報を選択的に考慮するように構成される。従って、各構成構造にストリーム識別子情報を含める必要はない。むしろ、異なるストリーム間の切替えの可能性が必要とされないオーディオフレームの構成構造においてストリーム識別子を省略することが可能である。従って、いくつかのビットを節約することができ、ストリーム識別情報の評価は、異なるストリーム間の切替えが許容できない点で回避することができる。

好ましい実施形態では、オーディオデコーダは、構成構造が構成拡張構造を含むかどうかをチェックし、構成拡張構造がストリーム識別子を含むかどうかをチェックするように構成される。オーディオデコーダは、ストリーム識別子情報が構成拡張構造に含まれる場合、比較においてストリーム識別子情報を選択的に考慮するように構成され得る。

従って、ストリーム識別子は、その存在がオプションである構成拡張構造内に配置することができ、ストリーム識別子情報の存在は、構成拡張構造が存在していてもオプションと見なすことさえできる。従って、オーディオデコーダは、ストリーム識別子情報が存在するか否かを柔軟に認識することができ、オーディオエンコーダに不要な情報が含まれることを回避することができる。アクティブ化および非アクティブ化が可能なデータ構造にストリーム識別子を配置すると（たとえば、構成構造の固定（常に存在する）部分にあるフラグによって）、ストリーム識別子情報が必要ない場合は、ビットを節約しながら、ストリーム識別子情報を必要な場所に正確に配置できる。ストリーム間の切替えは通常指定された時間にのみ可能であるため、構成構造がある各フレームがストリーム識別子情報も含む必要はないので、これは有利である。

好ましい実施形態では、オーディオデコーダは、構成拡張構造内の構成情報アイテムの可変順序付けを受入れるように構成される。例えば、復号化されるべき１つ以上のフレームに関連する構成構造内の構成情報を現在の構成情報と比較するとき、オーディオデコーダは、ストリーム識別子情報の前（例えば、"ｓｔｒｅａｍＩＤ"という名前のアイテムの前）（例えば、ストリーム識別子情報と同様に）に、構成拡張構造内に配置された構成情報アイテム（例えば、構成拡張）を考慮するように構成される。さらに、オーディオデコーダは、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較するときにストリーム識別子情報が考慮されない後に、構成拡張構造（例えば、"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）"）内に配置された構成情報アイテム（例えば構成拡張）を残すように構成され得る。

そのような概念を使用することによって、異なるストリーム間の遷移の検出を非常に柔軟な方法で行うことができる。例えば、オーディオストリームの「重要な」変更を示すそのようなすべての構成情報アイテムは、これらのパラメータの変更があるストリームから別のストリームへの遷移を引起こすように、ストリーム識別子情報の前に構成拡張構造に配置することができる。一方、復号化されるべき１つ以上のフレームに関連する構成構造内の情報を現在の構成情報と比較するときにいくつかの構成情報アイテムを考慮せずに残すことによって、"遷移"、すなわち１つのストリームから再初期化とつながり得る別のストリームへの切替えをトリガすることなく、オーディオデコーダの"従属"構成パラメータを変更することが可能である。換言すれば、比較において、ストリーム識別情報の前の構成拡張構造内に配置された構成情報アイテムとストリーム識別情報それ自体を評価することのみによって、"従属"復号化パラメータの変更が"遷移"を引起こすことを回避できる。むしろ、オーディオエンコーダが、そのような"従属"構成情報アイテム（従属復号化パラメータに関連する）を構成拡張構造内のストリーム識別子情報の後に配置することが可能である。それから、オーディオエンコーダは、各変更で"遷移"（または再初期化）をトリガすることなく、ストリーム内のそのような"従属"構成情報アイテムを変更することができる。他方、構成拡張構造内のストリーム識別子情報の前にストリーム中に変更されずに残るこれらの構成情報アイテム、およびそのような"関連性の高い"構成情報アイテムの変更（例えば、オーディオストリームの"著しい"変化を示し得る）は、"遷移"（および典型的にはオーディオデコーダの再初期化）をもたらすであろう。オーディオデコーダは構成拡張構造内の構成情報アイテムの可変順序付けも受入れることができるので、オーディオエンコーダは、信号特性または他の基準に応じて、どの構成情報アイテムの変化がオーディオデコーダの"遷移"または再初期化を引起こすかおよびどの構成情報アイテムの変化がオーディオデコーダの"遷移"または再初期化を引起こすことなく、ストリーム内で可能であるかを決定することができる。

好ましい実施形態では、オーディオデコーダは、それぞれの構成情報アイテムに先行する１つ以上の構成拡張タイプ識別子に基づいて構成拡張構造内の１つ以上の構成情報アイテムを識別するように構成される。そのような構成拡張タイプ識別子を使用することで構成情報アイテムの可変順序付けが可能になる。

好ましい実施形態では、構成拡張構造は構成構造のサブデータ構造であり、構成拡張構造の存在は、オーディオデコーダによって評価される構成構造のビットによって示される。ストリーム識別子情報は構成拡張構造のサブデータアイテムであり、ストリーム識別子情報の存在は、オーディオデコーダによって評価されるストリーム識別子情報に関連付けられた構成拡張タイプ識別子によって示される。従って、いつストリーム識別子情報をオーディオストリームに追加すべきかを柔軟に決定することが可能であり、オーディオデコーダは、そのようなストリーム識別子情報がいつ利用可能であるかを容易に決定することができる。従って、異なるストリーム間の切替えがあり得る点にオーディオストリームのストリーム識別子情報（これは多数のビットを必要とする）を含めるのに十分である。連続するオーディオストリーム内の即時再生フレーム（ＩＰＦ）は、異なるストリーム間で切り替える可能性が存在しない位置で、ストリーム識別子情報を伝える必要がないため、ビットレートが節約される。

好ましい実施形態では、オーディオデコーダは、ランダムアクセス情報（例えば、"ＡｕｄｉｏＰｒｅＲｏｌｌ（）"とも示される"オーディオプリロール拡張ペイロード"）を含むオーディオフレーム表現（例えば、即時再生フレーム、ＩＰＦ）を取得し処理するように構成される。ランダムアクセス情報は、オーディオデコーダの処理チェーンの状態を所望の状態にするための構成構造（例えば、" Ｃｏｎｆｉｇ（）"と示される）および情報（例えば" ＡｃｃｅｓｓＵｎｉｔ（）"と示される）を含む。オーディオデコーダは、オーディオデコーダが、ランダムアクセス情報の構成構造と（たとえば、"Ｃｏｎｆｉｇ（）"）内の構成情報、またはランダムアクセス情報の構成構造の構成情報の関連部分が現在の構成情報とは異なることを検出した場合、オーディオデコーダは、ランダムアクセス情報の構成構造を使用してオーディオデコーダの初期化を行った後および処理チェーンの状態を所望の状態にするための情報を使用してオーディオデコーダの状態を調整した後に、ランダムアクセス情報（例えば直接再生フレーム，ＩＰＦ）を含むオーディオフレーム表現に達する前に処理された（復号化された）オーディオフレームによって表現されたオーディオ情報およびランダムアクセス情報を含むオーディオフレーム表現に基づいて導出されたオーディオ情報の間でクロスフェードを行うように構成される。例えば、値"ｎｕｍＰｒｅＲｏｌｌＦｒａｍｅｓ"がゼロの場合、プリロールフレームのデコードは省略できる。

換言すれば、構成構造内の構成情報、またはその関連部分（例えば、ストリーム識別子情報までおよびストリーム識別子を含んで）を評価することによって、オーディオデコーダは、異なるストリーム間に遷移があるかどうかを認識することができ、そして、異なるストリーム間に遷移がある場合、オーディオデコーダはランダムアクセス情報を利用することができる。ランダムアクセス情報は、オーディオデコーダの処理チェーンを適切な状態（通常、遷移がない場合、１つ以上の前のフレームによって影響を受ける）にすることを助け、それによって遷移におけるアーチファクトを回避することができる。結論として、この概念は、異なるストリーム間のアーチファクトのない切替えを可能にし、オーディオデコーダは、一連のフレーム表現を除いて、異なるプロトコルレベルからのいかなる情報をも必要としない。

好ましい実施形態では、オーディオデコーダが、ランダムアクセス情報を含むオーディオフレーム表現によって表されるオーディオフレームの直前のオーディオフレーム（例えば、即時再生フレーム）をデコードした場合、およびオーディオデコーダが、ランダムアクセス情報の構成構造における構成情報の関連部分が、現在の構成情報と等しいことを発見した場合、オーディオデコーダは、オーディオデコーダの初期化を実行することなく、かつオーディオデコーダの処理チェーンの状態を所望の状態にするための情報（例えば、プリロール拡張ペイロード）を使用することなくデコードを継続するように構成される。従って、オーディオデコーダが、構成構造内の構成情報の関連部分を現在の構成情報と比較することによって、異なるストリーム間の遷移ではなく同じストリームの連続的な再生があることを認識すると、オーディオデコーダの初期化の実行によって引起こされるであろうオーバーヘッド（例えば、処理オーバーヘッドまたは計算上のオーバーヘッド）が回避される。従って、高レベルの効率が達成され、オーディオデコーダの初期化はそれが必要とされるときにのみ実行される。

好ましい実施形態では、オーディオデコーダは、ランダムアクセス情報の構成構造を使用してオーディオデコーダの初期化を実行し、ランダムアクセス情報を含むオーディオフレーム表現によって表されるオーディオフレームの直前のオーディオフレームをオーディオデコーダがデコードを行っていない場合、処理チェーンの状態を所望の状態にするための情報を使用してオーディオデコーダの状態を調整するように構成される。換言すれば、実際の"ランダムアクセス"（ここで、オーディオデコーダは先行するオーディオフレームがデコードされていないことを知っている）がある場合、初期化も実行される。従って、ランダムアクセス情報は、実際の"ランダムアクセス"の場合（すなわち、特定のフレームにジャンプするとき）および異なるストリーム間で切替えるとき（"実際の"ランダムアクセスがオーディオデコーダにシグナリングされ得る場合、および異なるストリーム間の切替えが、ストリーム識別子情報の評価によりオーディオデコーダによってのみ認識可能であり得る場合）に使用される。

本明細書で説明したオーディオデコーダは、本明細書で説明した特徴、機能性および詳細のいずれかの個々または組合せのいずれかによってオプションで追加できることに留意すべきである。

本願発明による実施形態は、符号化音声信号表現を供給するためのオーディオエンコーダを作成する。オーディオエンコーダは、符号化パラメータを使用してオーディオ信号の重畳または非重畳フレームを符号化し、符号化オーディオ信号表現を取得するように構成される。オーディオエンコーダは、符号化パラメータ（または、同様に、オーディオデコーダによって使用される復号化パラメータ）を記述する構成構造を供給するように構成される。構成構造はまた、ストリーム識別子を含む。

従って、オーディオエンコーダは、上述のオーディオデコーダによって十分に使用可能なオーディオ信号表現を供給する。例えば、オーディオエンコーダは、異なるストリームの構成構造に異なるストリーム識別子を含めることができる。従って、ストリーム識別子は、オーディオデコーダによって使用されるべきデコーダ構成（またはデコードパラメータ）を記述せず、むしろストリームを識別する情報であり得る。従って、符号化オーディオ信号表現はストリーム識別子を含み、異なるプロトコルレベルからの情報を必要とせずに、符号化オーディオ信号情報自体に基づいて異なるストリームの識別が可能である。例えば、ストリーム識別子情報はオーディオ信号表現、またはオーディオ信号表現内に含まれる構成構造の不可欠な部分であるため、パケットレベルで供給される情報の使用は必要ではない。その結果、本明細書で論じられるように、オーディオデコーダは、デコーダの実際の構成パラメータが変更されないままであっても、異なるストリーム間の切替えを認識することができる。

好ましい実施形態では、オーディオエンコーダは、構成構造の構成拡張構造にストリーム識別子を含めるように構成され、ストリーム識別子を含む構成拡張構造は、オーディオエンコーダによってイネーブルおよびディセーブルにすることができる。従って、オーディオエンコーダ側で、ストリーム識別子情報を含めるべきか否かを柔軟に決定することができる。例えば、ストリーム識別子情報の包含は、オーディオエンコーダがストリーム切替えが存在しないことを知っているオーディオフレームについては選択的に省略され得る。

好ましい実施形態では、オーディオエンコーダは、構成拡張構造内にストリーム識別子の存在を知らせるために、構成拡張構造にストリーム識別子を指定する構成拡張タイプ識別子を含めるように構成される。従って、構成拡張構造内に他の構成拡張情報が存在する場合、ストリーム識別子情報を省略することさえ可能である。換言すれば、すべての構成拡張構造が必ずしもストリーム識別子を含む必要があるわけではなく、ビットを節約するのに役立つ。

好ましい実施形態では、オーディオエンコーダは、ストリーム識別子を含む少なくとも１つの構成構造と、ストリーム識別子を含まない少なくとも１つの構成構造とを供給するように構成される。従って、オーディオエンコーダがこれが必要であると認識した場合、ストリーム識別子は構成構造に含まれるだけである。例えば、オーディオエンコーダは、ストリーム識別子をストリーム間の切替えが可能であるフレームの構成構造に含めるのみでよい。そうすることによって、ビットレートをかなり小さく保つことができる。

好ましい実施形態では、オーディオエンコーダは、第１のオーディオフレームのシーケンスによって表される第１の符号化オーディオ情報の供給と、第２のフレームのシーケンスによって表される第２の符号化オーディオ情報の供給との間で切替えるように構成され、ここで、オーディオフレームの第１のシーケンスの最後のフレームのレンダリングの後のオーディオフレームの第２のシーケンスの最初のオーディオフレームの適切なレンダリングは、オーディオデコーダの再初期化を必要とする。この場合、オーディオエンコーダは、第２のオーディオフレームのシーケンスの最初のオーディオフレームを表すオーディオフレーム表現に、第２のオーディオフレームのシーケンスに関連するストリーム識別子を含む構成構造を含めるように構成される。オーディオフレームの第２のシーケンスに関連付けられたストリーム識別子は、フレームの第１のシーケンスに関連付けられたストリーム識別子とは異なるように選択される。従って、オーディオエンコーダは、構成構造内で、オーディオデコーダが異なるストリームを区別し、再初期化（「遷移」とも呼ばれる）がいつ実行されるべきかを認識することを可能にするシグナリングを供給することができる。

好ましい実施形態では、オーディオエンコーダは、ストリーム識別子を除いて、オーディオフレームの第１のシーケンスからオーディオフレームの第２のシーケンスへの切替えを示す他のいかなるシグナリング情報も供給しない。従って、ビットレートをかなり小さく保つことができる。特に、シグナリングが符号化オーディオ情報以外の異なるプロトコルレベルに含まれることを回避することができる。さらに、オーディオエンコーダは、オーディオフレームの第１のシーケンスからオーディオフレームの第２のシーケンスへの切替えが実際にいつ行われるかは事前には知らない。例えば、オーディオデコーダは、最初にオーディオフレームの第１のシーケンスからオーディオフレームを要求し、オーディオデコーダが何らかの必要性を認識したとき（例えば、利用可能なビットレートの増減があ
るとき）、オーディオデコーダ（又はオーディオフレームの供給を制御する他の制御装置）は、第２のストリームからのオーディオフレームがオーディオデコーダによって処理されるべきであると決定することができる。しかしながら、場合によっては、オーディオデコーダは、いつ（または正確にいつ）第１のシーケンスからのオーディオフレームの供給と第２のシーケンスからのオーディオフレームの供給との間の切替えがあるかをそれ自体で知らないことが起こり得て、構成構造に含まれるストリーム識別子を評価することによって、現在受信しているオーディオフレームがどのシーケンスのオーディオフレームから発生したかを認識することのみが可能であろう。

好ましい実施形態では、オーディオエンコーダは、異なるビットレートを使用してオーディオフレームの第１のシーケンス（たとえば第１のストリーム）およびオーディオフレームの第２のシーケンス（たとえば第２のストリーム）を供給するように構成される（但し、第１のストリームと第２のストリームとは同じオーディオコンテンツを表すことができる）。さらに、オーディオエンコーダは、異なるビットストリーム識別子を除いて、オーディオフレームの第１のシーケンスの復号化およびオーディオフレームの第２のシーケンスの復号化のために同一のデコーダ構成情報をオーディオデコーダに示すように構成され得る。換言すれば、オーディオエンコーダは、同じデコーダパラメータを使用するようにオーディオデコーダに示し得るが、第１のストリームおよび第２のストリームは、依然異なるビットレートを含み得る。これは、例えば、第１のオーディオストリームと第２のオーディオストリームとを供給するときに、異なる量子化分解能または異なる心理音響モデルを使用することによって引起こされ得る。しかしながら、これらの異なる量子化分解能または異なる音響心理学的モデルは、オーディオデコーダによって使用される復号化パラメータに影響を与えず、実際のビットレートにのみ影響を与える。従って、異なるビットストリーム識別子は、復号化されるべきオーディオフレームが第１のストリームからのものであるか第２のストリームからのものであるかをオーディオデコーダが区別するための唯一の可能性であり得て、ビットストリーム識別子の評価は、オーディオデコーダが遷移（または再初期化）をいつ行うべきかを認識するのをも可能とする。

従って、オーディオエンコーダは、利用可能なビットレートの変化が起こり得て、シグナリングのオーバーヘッドが適度に小さく保たれ得る環境において機能し得る。

さらに、本明細書で説明したオーディオエンコーダは、本明細書で説明した特徴、機能、および詳細のいずれかをオプションで追加できることに留意すべきである。

本願発明による別の実施形態は、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給する方法に関する。その方法は、構成情報に応じて復号化パラメータを調整することを含み、方法は、現在の構成情報（例えば、現在アクティブな構成情報）を使用して１つ以上のオーディオフレームを復号化することを含む。方法は、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報を現在の構成情報と比較することをも含み、かつ方法は、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報またはデコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分（例えば、ストリーム識別子までおよびストリーム識別子を含む）が現在の構成情報と異なる場合、新しい構成としてデコードされるべき１つ以上のフレームに関連する構成構造内の構成情報を使用してデコードを実行するための遷移（例えば、デコードの再初期化を含む）を行うことを含む。この方法は、構成情報を比較するときに構成構造に含まれるストリーム識別子情報を考慮することも含んでおり、その結果、オーディオ復号化で以前に取得されたストリーム識別子と、デコードされるべき１つ以上のフレームと関連する構成構造内のストリーム識別子情報によって表されるストリーム識別子との相違が遷移を引起こす。この方法は、上述のオーディオデコーダと同じ考察に基づく。

この方法は、本明細書に記載された任意の特徴および機能性および詳細を、個別にまたは組合せてのいずれかで追加することができる。

本願発明による別の実施形態は、符号化オーディオ信号表現を供給する方法を作成する。この方法は、符号化パラメータを使用してオーディオ信号の重畳または非重畳フレームをエンコードすることを含んで、符号化オーディオ信号表現を取得する。方法は、符号化パラメータ（または、等価的に、オーディオデコーダによって使用される復号化パラメータ）を記述する構成構造を供給することを含み、構成構造はストリーム識別子を含む。この方法は、上述したようにオーディオエンコーダと同じ考慮に基づく。

さらに、本明細書で説明された方法は、対応するオーディオデコーダおよびオーディオエンコーダに関して上記で説明された任意の特徴および機能を追加され得ることに留意すべきである。さらに、本方法は、本明細書に記載された任意の特徴、機能性および詳細を、個別にまたは組合せて追加することができる。

本願発明による実施形態は、オーディオストリームを作成する。オーディオストリームは、オーディオ信号の重畳または非重畳フレームの符号化表現を含む。オーディオストリームはまた、符号化パラメータ（または、等価的に、オーディオデコーダによって使用されるべき復号化パラメータ）を記述する構成構造を含む。構成構造は、ストリーム識別子を表す（例えば、整数値の形式で）ストリーム識別子情報を含む。

オーディオストリームは、上記の考慮に基づく。特に、符号化パラメータ（または、同様に、オーディオデコーダによって使用される復号化パラメータ）を記述するオーディオストリームの構成構造に含まれるストリーム識別子は、同じ符号化パラメータ（または復号化パラメータ）が使用される場合、オーディオデコーダが異なるストリームを区別することを可能にする。

好ましい実施形態では、ストリーム識別子情報は構成拡張構造に含まれる。この場合、構成拡張構造は、好ましくは、構成構造のサブデータ構造であり、構成拡張構造の存在は、構成構造のビットによって示される。さらに、ストリーム識別子情報は、構成拡張構造のサブデータアイテムであり、ストリーム識別子情報の存在は、ストリーム識別子情報に関連付けられた構成拡張タイプ識別子によって示される。そのようなオーディオストリームの使用は、それが必要とされるときはいつでもストリーム識別子情報の柔軟な包含を可能にし、一方、それが必要でない場合にはストリーム識別子情報の包含は省略できる（例えば、複数のストリーム間で切替えが許可されていないフレームの場合など）。従って、ビットレートを節約することができる。

好ましい実施形態では、ストリーム識別子は、オーディオフレームの表現のサブデータ構造に埋込まれる（そしてそのようなサブデータ構造からオーディオデコーダによって抽出され得る）。オーディオフレームの表現のサブデータ構造にストリーム識別子を埋込むことによって、オーディオデコーダがより高いプロトコルレベルからの情報を使用しなければならないのを回避できる。むしろ、オーディオフレームをデコードするために、オーディオデコーダは、オーディオフレームの表現を必要とするだけであり、異なるストリーム間の切替えがあったかどうかを決定することができる。

好ましい実施形態では、ストリーム識別子は、構成構造を含むオーディオフレームの表現のサブデータ構造に埋込まれるだけである（そして、構成構造を含むオーディオフレームの表現のサブデータ構造からオーディオデコーダによって抽出され得る）。このアイデアは、ストリーム間の切替え（顕著なアーチファクトなし）は、構成構造を含むフレームでしか実行できないという知見に基づいている。従って、構成構造を含むオーディオフレームの表現のサブデータ構造にストリーム識別子を埋込むことで十分である一方、構成構造を含まないオーディオフレームの表現に含まれるストリーム識別子は存在しないことが分かった。

本明細書で説明されているオーディオストリームは、本明細書で説明されている任意の特徴、機能、および詳細を、個々にまたは組合せて追加することができる。特に、オーディオエンコーダ、オーディオデコーダ、およびストリーム供給器に関して説明されたそのような機能は、オーディオストリームにも適用することができる。

本願発明による実施形態は、符号化オーディオ信号表現を供給するためのオーディオストリーム供給器を作成する。オーディオストリーム供給器は、符号化オーディオ信号表現の一部として、符号化パラメータを使用してエンコードされた、オーディオ信号の時間的に重畳するフレームまたは重畳しないフレームの符号化バージョンを供給するように構成される。オーディオストリーム供給器は、符号化オーディオ信号表現の一部として符号化パラメータ（または、同様に、オーディオデコーダによって使用される復号化パラメータ）を記述する構成構造を供給するように構成され、構成構造はストリーム識別子を含む。このオーディオストリーム供給器は、上述のオーディオエンコーダおよび上述のオーディオデコーダと同じ考察に基づいている。

好ましい実施形態では、オーディオストリーム供給器は、ストリーム識別子が構成構造の構成拡張構造に含まれるように符号化オーディオ信号表現を供給するように構成され、ストリーム識別子を含む構成拡張構造は、構成構造内の１つ以上のビットによって有効化および無効化することができる。この実施形態は、オーディオエンコーダに関してもオーディオデコーダに関しても上述したのと同じアイデアに基づいている。換言すれば、オーディオストリーム供給器は、（たとえば並行して動作する複数のオーディオエンコーダによって供給される、またはストレージメディアから供給されるなど、異なるストリームの供給を切替えるように、オーディオストリーム供給器が構成できている場合でも）オーディオエンコーダによって供給されるオーディオストリームに対応するオーディオストリームを供給する。

好ましい実施形態では、オーディオストリーム供給器は、構成拡張構造が、構成拡張構造内のストリーム識別子の存在を示すためにストリーム識別子を指定する構成拡張タイプ識別子を含むように、符号化オーディオ信号表現を供給するように構成される。この実施形態は、オーディオエンコーダおよびオーディオストリームに関して上述したものと同じ考察に基づいている。

好ましい実施形態では、オーディオストリーム供給器は、符号化オーディオ信号表現がストリーム識別子を含む少なくとも１つの構成構造とストリーム識別子を含まない少なくとも１つの構成構造とを含むように、符号化オーディオ信号表現を供給するように構成される。上述のように、ストリーム識別子が各構成構造に含まれる必要はない。むしろ、どの構成構造にストリーム識別子を含めるべきかという柔軟な調整があり得る。典型的には、ストリーム識別子は、ストリーム間の切替えがある（またはストリーム間の切替えが予想されるかまたは許可される）ようなオーディオフレームの構成構造に含まれることになる。換言すれば、異なるストリーム識別子を除いて、同一の構成構造を含む異なるストリーム間の切替えは、ストリーム識別子が存在するフレームでストリーム供給器によってのみ実行されることになる。従って、（構成構造によって示される）復号化パラメータが実質的に同一または完全に同一でさえあっても、オーディオデコーダ（オーディオストリーム供給器から符号化音声表現を受信する）は異なるストリーム間の切替えを認識する可能性がある。

好ましい実施形態では、オーディオストリーム供給器は、オーディオフレームの第１のシーケンスによって表される符号化オーディオ情報の第１の部分の供給と、オーディオフレームの第２のシーケンスによって表される符号化オーディオ情報の第２の部分の供給とで切替えるように構成され、オーディオフレームの第１のシーケンスの最後のフレームのレンダリング後にオーディオフレームの第２のシーケンスの第１のオーディオフレームを適切にレンダリングすることは、オーディオデコーダの再初期化を必要とする。オーディオストリーム供給器は、オーディオフレームの第２のシーケンスの第１のフレームを表すオーディオフレーム表現が、オーディオフレームの第２のシーケンスに関連するストリーム識別子を含む構成構造を含むように、符号化オーディオ信号表現を供給するように構成され、ここで、オーディオフレームの第２のシーケンスに関連付けられたストリーム識別子は、オーディオフレームの第１のシーケンスに関連付けられたストリーム識別子とは異なる。換言すれば、オーディオストリーム供給器は、関連する異なるストリーム識別子を有する２つのオーディオストリーム（オーディオフレームのシーケンス）を切替える。従って、オーディオデコーダは通常、オーディオフレームの第１のシーケンスに関連するストリーム識別子を（例えば、オーディオフレームの第１のシーケンスに関連する構成構造を評価することによって）知っており、オーディオデコーダは、オーディオフレームの第２のシーケンスの第１のフレームを受信するとき、オーディオデコーダは、オーディオフレームの第２のシーケンスに関連付けられたストリーム識別子を含む構成構造を評価することができ、ストリーム識別子（ストリームごとに異なる）の比較によって第１のストリームから第２のストリームへの切替えを認識することができる。従って、オーディオストリーム供給器は、第１のストリームからのオーディオフレームを供給し、次いで第２のストリームからのオーディオフレームの供給に切替え、切替え後に供給される第２のオーディオストリームの第１のフレームの構成構造内で適切なシグナリング情報、すなわちストリーム識別子を供給する。従って、異なるオーディオストリーム間の切替えをシグナリングするために追加のシグナリングを必要としない。

好ましい実施形態では、オーディオストリーム供給器は、符号化オーディオ信号表現がストリーム識別子を除くオーディオフレームの第１のシーケンスからオーディオフレームの第２のシーケンスへの切替えを示す他のシグナリング情報を供給しないように、符号化オーディオ信号表現を供給するように構成される。従って、ビットレートの大幅な節約を達成することができる。また、異なるプロトコルレベルの情報を含み、オーディオデコーダ側で異なるプロトコルレベルからそのような情報を抽出する必要がないので、プロトコルの複雑さも小さく保たれる。

好ましい実施形態では、オーディオストリーム供給器は、オーディオフレームの第１のシーケンス（たとえば第１のストリーム）およびオーディオフレームの第２のシーケンス（たとえば第２のストリーム）が異なるビットレートを使用してエンコードされるように、符号化オーディオ信号表現を供給するように構成される。さらに、オーディオストリーム供給器は、符号化オーディオ信号表現が、異なるビットストリーム識別子を除いて、オーディオフレームの第１のシーケンスを復号化するためのかつオーディオフレームの第２のシーケンスを復号化するためのデコーダ構成情報（またはデコーダパラメータ、または復号化パラメータ）と同一のオーディオデコーダに示すように符号化オーディオ信号表現を供給するように構成される。従って、オーディオストリーム供給器は、異なるストリーム（第１のストリームと第２のストリーム）に対して非常に類似した構成情報を供給し、それは、例えば、ビットストリーム識別子によってのみ異なる可能性がある。このシナリオでは、ビットストリーム識別子を使用すると、シグナリングオーバーヘッドを最小限に抑えながら、異なるビットストリームを確実に区別できるため、ビットストリーム識別子を使用することは特に有用である。

好ましい実施形態では、オーディオストリーム供給器は、オーディオデコーダへのオーディオフレームの第１のシーケンス（例えば第１のストリーム）の供給とオーディオフレームの第２のシーケンス（例えば第２のストリーム）とを切替えるように構成され、オーディオフレームの第１のシーケンスとオーディオフレームの第２のシーケンスとは、異なるビットレートを使用して符号化される。オーディオストリーム供給器は、ランダムアクセス情報を含まないオーディオフレームでのシーケンス間の切替えを回避しながら、オーディオフレーム表現（例えば、即時再生フレーム、ＩＰＦ）がランダムアクセス情報（例えば、オーディオプリロール拡張ペイロード、"ＡｕｄｉｏＰｒｅＲｏｌｌ（）"を含むオーディオフレームにおいてオーディオフレームの第１のシーケンスの供給とオーディオフレームの第２のシーケンスの供給とを選択的に切替えるように構成される。オーディオストリーム供給器は、ストリーム識別子がオーディオフレームの第１のシーケンスからオーディオフレームの第２のシーケンスに切替わるときに供給されるオーディオフレームの構成構造に含まれるように、符号化オーディオ信号表現を供給するように構成される。例えば、オーディオフレームの第２のシーケンスの最初のフレームがストリーム識別子およびランダムアクセス情報をも有する構成構造を含むとき、オーディオストリーム供給器のそのような構成によって、オーディオフレームの第１のシーケンスからのフレームの供給とオーディオフレームの第２のシーケンスのフレームの供給との間の切替えのみがあることが保証される。その結果、オーディオデコーダは、異なるオーディオストリーム間の切替えを検出することができ、したがって、ランダムアクセス情報が評価されるべきであることを認識することができる（一方、ランダムアクセス情報は、異なるオーディオストリーム間の切替えがないときおよびオーディオデコーダが単一ストリームのオーディオフレームの連続したシーケンスがレンダリングされることを前提としているときに通常は評価されない。）。

従って、異なるオーディオストリーム間で切替えるときにアーチファクトのない良好なオーディオ品質をそのような概念によって達成することができる。

さらなる実施形態では、オーディオストリーム供給器は、異なるビットレートを使用して符号化されたオーディオフレームの複数の並列シーケンスを取得するように構成され、オーディオストリーム供給器は、異なる並列シーケンスからのオーディオデコーダへのフレームの供給を切替えるように構成され、オーディオストリーム供給器は、切替え後に供給される最初のオーディオフレーム表現の構成構造に含まれるストリーム識別子を使用して、どのシーケンスに１つ以上のフレームが関連付けられるかをオーディオデコーダに示すように構成される。従って、オーディオデコーダは、わずかなオーバーヘッドで、他のプロトコル層からの情報を使用することなく、異なるストリーム間の遷移を認識することができる。

本明細書で説明したオーディオストリーム供給器は、本明細書で説明した特徴、機能および詳細のいずれかを個々にまたは組合せて追加することができることに留意すべきである。

本願発明による別の実施形態は、符号化オーディオ信号表現を供給する方法を作成する。方法は、符号化されたオーディオ信号表現の一部として、符号化パラメータを使用して符号化された、オーディオ信号のオーバーラップまたは非オーバーラップフレームの符号化バージョンを供給することを含む。方法は、符号化オーディオ信号表現の一部として符号化パラメータ（または、等価的に、オーディオデコーダによって使用される復号化パラメータ）を記述する構成構造を供給することを含み、構成構造はストリーム識別子を含む。

この方法は、上述したストリーム供給器と同じ考慮に基づいている。この方法は、例えばストリーム供給器に関してではなく、オーディオエンコーダ、オーディオデコーダまたはオーディオストリームに関しても、本明細書に記載されている他の任意の特徴、機能および詳細を追加することができる。

本願発明による別の実施形態は、本明細書に記載の方法を実行するためのコンピュータプログラムを作成する。

本願発明による実施形態は、添付の図面を参照して後述される。

図１は、本願発明の（簡単な）実施形態による、オーディオデコーダの概略ブロック図を示す。図２Ａは、本願発明の一実施形態による、オーディオデコーダのブロック概略図を示す。図２Ｂは、本願発明の一実施形態による、オーディオデコーダのブロック概略図を示す。図３は、本願発明の（簡単な）実施形態によるオーディオエンコーダのブロック概略図を示す。図４は、本願発明の（簡単な）実施形態によるオーディオストリーム供給器の概略ブロック図を示す。図５は、本願発明の一実施形態によるオーディオストリーム供給器のブロック概略図を示す。図６は、本願発明の一実施形態による、ランダムアクセスを可能にし、構成拡張部分内にストリーム識別子を有する構成部分を含むオーディオフレームの表現を示す図である。図７は、本願発明の一実施形態による、オーディオストリームの一例の表現を示す図である。図８は、本願発明の一実施形態による、例示的なオーディオストリームの表現を示す図である。図９は、本明細書に記載のオーディオデコーダの可能なデコーダ機能の概略表現を示す図である。図１０ａは、本明細書に記載のオーディオエンコーダおよびオーディオデコーダによって使用される構成構造の一例の表現を示す図である。図１０ｂは、本明細書に記載のオーディオエンコーダおよびオーディオデコーダによって使用される構成拡張構造の一例の表現を示す図である。図１０ｃは、ストリーム識別子ビットストリーム要素の一例の表現を示す図である。図１０ｄは、ＵＳＡＣ規格のテーブル７４をオプションで置き換えることができる"ｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅ"の値の一例を示す図である。図１１ａは、本願発明の実施形態による、符号化オーディオ信号表現に基づいて復号化オーディオ信号表現を供給する方法のフローチャートを示す図である。図１１ｂは、本願発明の実施形態による、符号化オーディオ信号表現を供給する方法のフローチャートを示す図である。図１１ｃは、本願発明の実施形態による、符号化オーディオ信号表現を供給する方法のフローチャートを示す図である。

１．図１に係るオーディオデコーダ
図１は、本願発明の（簡単な）実施形態による、オーディオデコーダのブロック概略図を示す。

オーディオデコーダ１００は、符号化オーディオ信号表現１１０を受取り、それに基づいて、復号化オーディオ信号表現１１２を供給する。例えば、符号化オーディオ信号表現１１０は、一連の統合音声音響符号化（ＵＳＡＣ）フレームを含むオーディオストリームとすることができる。しかしながら、符号化オーディオ信号表現は異なる形式をとることができ、例えば、既知のオーディオ符号化規格のいずれかのビットストリームシンタックスによって定義されたオーディオ表現とすることができる。エンコードされたオーディオ信号表現は、例えば、構成構造に含まれることができ、かつ例えばストリーム識別子を含むことができる構成情報１１０を含むことができる。ストリーム識別子は、例えば、構成情報または構成構造に含まれてもよい。構成情報または構成構造は、例えば、デコードされるべき１つ以上のフレームに関連付けられてもよく、例えば、オーディオデコーダによって使用される復号化パラメータを記述してもよい。

ここで、デコーダ１００は、例えば、現在の構成情報を使用して１つ以上のオーディオフレームをデコードするように構成され得る（現在の構成情報は、例えば復号化パラメータを定義し得る）デコーダコア１３０を含み得る。オーディオデコーダは、構成情報１１０ａに応じて復号化パラメータを調整するようにも構成される。オーディオデコーダは、構成情報１１０ａに応じて復号化パラメータを調整するようにも構成される。

例えば、オーディオデコーダは、復号化される１つ以上のフレームに関連する構成構造内の構成情報を現在の構成情報（たとえば、１つ以上の以前にデコードされたフレームのデコードに使用される構成情報）と比較するように構成される。さらに、デコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報、またはデコードされるべき１つ以上のフレームに関連付けられた構成構造内の構成情報の関連部分が現在の構成情報と異なる場合、オーディオデコーダは、新しい構成情報としてデコードされる１つ以上のフレームに関連付けられた構成構造内の構成情報を使用して復号化を実行するように遷移するように構成され得る。"遷移"を行うとき、オーディオデコーダは、例えば、ランダムアクセス情報を使用してデコーダコア１３０を再初期化でき、ランダムアクセス情報は、"遷移"の後のオーディオフレーム（または最初のオーディオフレーム）を適切にデコードするために使用されるべきデコーダコアの状態を記述することを意図している。

特に、オーディオデコーダは、オーディオデコーダによって以前に取得されたストリーム識別子と、デコードされるべき１つ以上のフレームに関連付けられた構成構造内のストリーム識別子情報によって表されるストリーム識別子との違いが遷移を引起こすように、構成情報を比較するとき（つまり、現在の構成情報でデコードされるべき１つ以上のフレームに関連付けられている構成構造内の構成情報を比較するとき）に、構成構造に（つまり、構成情報内に）含まれるストリーム識別子を考慮するように構成されている。

換言すれば、オーディオデコーダは、例えば、１４０で指定され得る現在の構成（または現在の構成情報）のためのメモリを含み得る。オーディオデコーダ１００は、ストリーム識別子を含む現在の構成情報の少なくとも関連する部分を、ストリーム識別子を含む、デコードされる次の（オーディオ）フレームと関連する構成情報の対応する部分と比較することができる比較器（または比較を実行する任意の他の手段）１５０も含むことができる。関連部分は、例えば、ストリーム識別子までおよびストリーム識別子を含む部分であり、いくつかの実施形態では、構成情報を表すビットストリーム内のストリーム識別子の後の構成情報は無視され得る。

比較器１５０によって実行され得るこの比較が、現在の構成情報（またはその関連部分）と次にデコードされる（オーディオ）フレーム（またはその関連部分）に関連する構成情報との間の相違を示す場合、"遷移"がなされるべきであると認識されるかもしれない。

遷移を行うことは、例えば、デコードされるべき次の（オーディオ）フレームに関連する構成情報によって記述された復号化パラメータが現在の構成情報（ここで、復号化されるべき次のオーディオフレームに関連する構成情報は、ストリーム識別子が異なるという点で現在の構成情報と異なるだけである）によって記述されたデコーダ構成（復号化パラメータ）と同一である場合でも、デコーダコアを再初期化することを含み得る。一方、例えば異なる復号化パラメータを定義することによって、デコードされるべき次のオーディオフレームに関連する構成情報が現在の構成情報とさらに異なる場合、オーディオデコーダ１００は、デコーダコア１３０を再初期化し復号化パラメータを変更することを通常意味する"遷移"も当然行う。

結論として、図１に係るオーディオデコーダ１００は、デコーダコア１３０によって使用される復号化パラメータが、オーディオフレームの構成構造に含まれるストリーム識別子を評価することによって不変のままであっても、異なるオーディオストリームのフレーム間の遷移を認識することができ、これは、オーディオストリーム間の遷移および／またはデコーダコアを再初期化するための条件の専用のシグナリングの必要性を排除する。従って、オーディオデコーダは、そのような遷移を認識し、例えばオーディオデコーダを再初期化し、（必要ならば）新しい設定パラメータを持つオーディオデコーダを再構成することによって、それを適切に扱うことができるので、デコーダ１００は、１つのストリームから別のストリームへの遷移があっても適切にオーディオフレームを復号化することができる。

図１に係るオーディオデコーダ１００は、個々にまたは組合せて、本明細書に記載された特徴および機能および詳細のうちの任意のものによってオプションで追加されることができることに留意すべきである。

２．図２に係るオーディオデコーダ
図２は、本願発明の一実施形態によるオーディオデコーダ２００のブロック概略図を示す。

オーディオデコーダ２００は、符号化オーディオ信号表現２１０を受信し、それに基づいて、復号化オーディオ信号表現２１２を供給するように構成される。符号化オーディオ信号表現２１０は、例えば、一連の統合音声音響符号化（ＵＳＡＣ）フレームを含むオーディオストリームとすることができる。しかしながら、異なるオーディオ符号化概念を使用して符号化されたオーディオフレームのシーケンスもまたオーディオデコーダ２００に入力されてもよい。例えば、オーディオデコーダは、第１のストリームのオーディオフレーム２２０を受信し、続いて（次のオーディオフレームとして）第２のストリームのオーディオフレーム２２２を受信することができる。オーディオフレーム２２０、２２２は、例えば、オーディオストリーム供給器によって供給され得る。オーディオフレーム２２０は、例えば、符号化スペクトル値および符号化スケール係数の形で、および／または符号化スペクトル値および符号化線形予測符号化係数（ＴＸＣ）の形で、および／または符号化励振および符号化線形予測符号化係数の形で例えば、オーディオ信号の符号化表現２２０ａを含むことができる。オーディオフレーム２２２は、例えば、フレーム２２０に含まれるオーディオ信号の符号化表現２２０ａとして同じ形式であり得るオーディオ信号の符号化表現２２２ａも含み得る。しかしながら、さらに、フレーム２２２はランダムアクセス情報２２２ｂをも含むことができ、これは構成構造２２２ｃおよび望ましい状態への処理チェーン（たとえばデコーダコア）の状態をもたらすための情報２２２ｄを含むことができる。この情報２２２ｄは、例えば、"ＡｕｄｉｏＰｒｅＲｏｌｌ"として示すことができる。

オーディオデコーダ２００は、例えば、符号化オーディオ信号表現２１０から構成構造２２２ｃを抽出することができ、これは構成情報と見なすこともできる。構成構造２２２ｃは、例えば、構成拡張構造２２６が構成構造の一部として存在するかどうかを示す情報またはフラグ（またはビット）を含むことができる。この情報またはフラグまたはビットは２２４ａで示される。

構成拡張構造２２６は、例えば、ストリーム識別子が存在するかどうかを示す情報またはフラグまたはビットまたは識別子を含み得る。後者の情報、フラグ、ビットまたは識別子は２２８で示される。情報またはフラグまたはビットまたは識別子２２８がストリーム識別子の存在を示す場合、ストリーム識別子２３０も存在し、これは典型的には構成拡張構造２２６の一部であり得る。

さらに、構成拡張構造は、適切なビット、フラグ、または識別子など、他の情報があるかどうかの情報を含むことができ、また（該当する場合）他の情報も含むことができる。

オーディオデコーダ１００は、例えば、現在の構成情報（例えば、前のフレームの復号化に使用されかつ前のフレームまたは先行するフレームの構成構造から抽出された構成情報）を保存することができるメモリ２４０を含むことができる。オーディオデコーダ２００はまた、デコードされるべきオーディオフレームに関連する構成情報をメモリ２４０に格納されている現在の構成情報と比較するように構成されている比較器または比較２５０を含む。例えば、比較器または比較２５０は、デコードされるべきオーディオフレームの構成構造２２２ｃの構成情報を、ストリーム識別子までおよびそれを含むメモリに格納された現在の構成情報と比較するように構成され得る。換言すれば、ストリーム識別子を含むまでの構成構造２２２ｃの任意の情報アイテムをメモリ２４０からの現在の構成情報と比較して、フレーム２２２内の構成情報（ストリーム識別子までおよびストリーム識別子を含んで）が前のオーディオフレームの１つから抽出された現在の構成情報と同じか否かを判定できる。この比較では、構成構造２２２ｃが構成拡張構造２２６とストリーム識別子２３０を実際に含むか否かが当然にチェックされる。構成拡張構造２２６が存在しない場合、当然のことながら比較において考慮することはできない。また、ストリーム識別子２３０が存在しない場合（たとえば、フラグ２２８がフレーム２２２に含まれていないことを示すため）、それは当然比較で評価されない。また、構成構造２２２ｃ内のストリーム識別子２３０の後にある構成情報は、そのような構成情報の重要度は低く、構成構造２２２ｃ内のストリーム識別子２３０の後にあるそのような構成情報の変更は、異なるストリーム間の切替えを示さないが、単一のストリーム内でも発生する可能性があると想定されるため、通常、比較では無視される。

結論として、比較２５０は、通常、デコードされるべきオーディオフレームのストリーム識別子（ただし、好ましくはストリーム識別子の後に構成拡張構造に配置される構成を省略する）までおよびストリーム識別子を含む構成情報を（以前にデコードされたオーディオフレームから取得された）現在の構成情報と比較する。従って、比較２５０は、比較で見つかった構成情報に違いがある場合に、新しいストリーム（またはサブストリーム）を検出する。従って、比較は、第１のストリーム（またはサブストリーム）から第２のストリーム（またはサブストリーム）への遷移を制御するために使用される。

例えば、そのような遷移を生じることは、第１のストリームの最後のフレームのデコード、再構成、処理チェーンの状態の所望の状態への初期化、および例えば第１のストリームの最後のフレームと第２のストリームの最初のフレームの時間領域表現の間のクロスフェーディングの実行、を生じさせることを含み得る。

オーディオデコーダ２００はまた、第１の構成（現在の構成情報によって記述され得る
）を使用して第１のストリーム（またはフレームの第１のシーケンス）のフレームをデコードするように構成され得るデコーダコア２１６を含む。さらに、デコーダコア２１６は、第２の構成を使用して（例えば、デコードされるべきオーディオフレームの構成情報２２２ｃによって記述される新しい構成を使用して）第２のストリームまたはフレームの第２のシーケンスをデコードするように構成され得る。例えば、デコーダコアの再初期化は、比較２５０により、デコードされるべきオーディオフレーム２２２の構成情報２２２ｃの重要な部分とメモリ２４０内の現在の構成情報との相違が発見されたときにトリガされ得る。

例えば、デコーダの再初期化は、第１のストリームの最後のフレームのデコードと第２のストリームの最初のフレームのデコードとの間で使用されてもよい。あるいは、例えば、デコーダがソフトウェアで（少なくとも部分的に）実装される場合、デコーダの"新しいインスタンス"が使用されてもよい。さらに、第１のストリームのデコードから第２のストリームのデコード（"遷移"）に切替えるとき、デコーダコアの処理チェーンの状態は、何らかのサイド情報を使用して所望の状態にもたらされ得る。例えば、算術復号化のコンテキスト状態を所望の状態にすることができ、または時間離散フィルタの内容を所望の状態にすることができる。これは、"オーディオプレロール"ＡＰＲとしても示される専用情報を使用して実行できる。オーディオデコーダによって処理（デコード）される第２のストリームの最初のフレームは、第２のオーディオストリームの実際の最初のフレームではない場合があるため、処理チェーンの状態を望ましい状態にすることは重要である。むしろ、オーディオデコーダによって処理される第２のオーディオストリームの最初のフレームは、オーディオストリーム供給器が第１のオーディオストリームからのフレームの供給から第２のオーディオストリームからのフレームの供給に切替わるときの第２のオーディオストリーム間のいくつかのフレームである場合がある。従って、オーディオデコーダによって処理される"第２のオーディオストリームの最初のフレーム"は、第２のオーディオストリーム（デコードされるオーディオフレームに先行し、これは、遷移後にオーディオデコーダによって扱われる第２のオーディオストリームの最初のオーディオフレームである）の前のフレームのデコードによって通常引起こされるデコードチェーンの状態の特定の設定に依存する場合がある。従って、第１のオーディオストリームのオーディオフレームのデコードから第２のオーディオストリームのオーディオフレームのデコードに切替えるとき、第２のオーディオストリームに先行するフレームのデコードによって通常もたらされるオーディオデコーダの状態の設定の欠落は、オーディオデコードの状態の適切な設定を定義する"オーディオプレロール"情報を使用して作成される。

参照符号２７０に見られるように、第１のオーディオストリームの最後のフレームのデコードは、デコードされた部分２７２（"有用な部分"としても示される）を供給する。オプションで、最初のオーディオストリームの最後のフレームのデコードは、さらに長いデコード部分を供給でき、それは部分的に破棄される。さらに、第２のオーディオストリームの最初のフレームをデコードするとき、第２のオーディオストリームの最初のフレームの適切なデコードのためにデコーダ状態が初期化される間に"プリロール部分"２７４が設けられる。さらに、デコーダコア２６０は、デコーダ２００によって扱われる第２のオーディオストリームの第１のフレームの有用な部分２７６も供給し、第２のオーディオストリームの最初のフレームの有用な部分２７６は、第１のストリームの最後のフレームの有用な部分２７２と時間的に重畳する。従って、第１のストリームの最後のフレームの有用な部分２７２の終わりと第２のストリームの第１のフレームの有用な部分の始まりとの間で、オプションでクロスフェードを実行できる。従って、復号化された出力信号２１２を導出でき、第１のストリームの最後のフレーム（オーディオデコーダ２００によって処理される）と第２のストリームの最初のフレーム（オーディオデコーダ２００によって処理される）との間にアーチファクトのない遷移がある。

要約すると、オーディオデコーダ２００は、オーディオエンコーダまたはオーディオス
トリーム供給器が、第１のストリームのオーディオフレームの供給から第２のストリームのオーディオフレームの供給に切替えるときを認識できる。この目的のために、オーディオデコーダは、構成情報２２２ｃ（構成構造とも呼ばれる）を評価し、メモリ２４０に格納されている現在の構成情報との比較を実行する。以前にデコードされたオーディオフレームと比較して、デコードされるべきオーディオフレームが異なるオーディオストリームに属していることを認識すると、デコーダコアの再初期化が実行され、これには通常、"オーディオプレロール"情報を評価して、デコーダコアの処理チェーンの状態を望ましい状態にすることが含まれる。従って、オーディオデコーダは、オーディオエンコーダまたはオーディオストリーム供給器が、さらなる通知なしで（ストリーム識別子２３０を含む構成構造２２２ｃの供給を除く）新しいストリーム（第２のオーディオストリーム）からオーディオフレームを供給する状況を適切に対処できる。

本明細書で説明するオーディオデコーダ２００は、本明細書で説明する特徴および機能性および詳細のいずれかを個々にまたは組合せて追加できることに留意すべきである。

３．図３に係るオーディオエンコーダ
図３は、本願発明の一実施形態によるオーディオエンコーダのブロック概略図を示す。

オーディオエンコーダ３００は、（例えば、時間領域表現の形式の）入力オーディオ信号３１０を受信し、それに基づいて、エンコードされたオーディオ信号表現３１２を供給する。オーディオエンコーダ３００は、符号化パラメータを使用して入力オーディオ信号３１０の重畳するフレームまたは非重畳のフレームをエンコードし、エンコードされたオーディオ信号表現を取得するように構成されたエンコーダコア３２０を含む。オーディオエンコーダ３２０は、例えば、時間領域からスペクトル領域への変換およびスペクトル領域表現の符号化を含んでもよい。処理は、例えば、フレームごとに実行されてもよい。

さらに、オーディオエンコーダは、例えば、エンコードパラメータ（または、同等に、オーディオデコーダによって使用されるデコードパラメータ）を記述する構成構造３３２を供給するように構成される構成構造供給３３０を含んでもよい。構成構造３３２は、例えば、構成構造２２２ｃに対応し得る。特に、構成構造３３２は、エンコードされたオーディオ信号表現３１２をデコードするときデコーダ（またはデコーダコア）によって使用されるべき設定を記述する符号化パラメータ（例えば、符号化形態）または同等に、復号化パラメータ（例えば、符号化形態）を含み得る。構成構造３３２の例は以下に記述されるであろう。さらに、構成構造３３２は、ストリーム識別子２３０に対応し得るストリーム識別子を含む。例えば、ストリーム識別子は、オーディオストリーム（例えば、特定のエンコーダ設定を使用して連続的にエンコードされるオーディオコンテンツの連続部分）を指定できる。例えば、構成構造供給３３０によって供給されるストリーム識別子は、アーチファクトなしに、かつ切替えについてオーディオデコーダに明示的に通知せずに切替える可能性があるすべてのオーディオストリームが異なるストリーム識別子を伝達するように選択することができる。しかしながら、場合によっては、関連する同一のエンコードパラメータ（または、同等に、オーディオデコーダで使用されるべきデコードパラメータ）を持つストリームに異なるストリーム識別子が含まれていれば十分な場合がある。換言すれば、異なるストリーム識別子は、他のエンコードパラメータまたはデコードパラメータが同一であるようなストリームにのみ必要となる場合がある。

従って、エンコーダ制御３４０は、例えば、エンコーダコア３２０と構成構造供給３３０との両方を制御することができる。エンコーダ制御３４０は、例えば、エンコーダコア３２０により使用される符号化パラメータ（例えば、オーディオデコーダにより使用される復号化パラメータに少なくとも部分的に対応し得る）について決定することができ、構成構造３３２に含まれる符号化パラメータ／復号化パラメータに関する構成構造規定３３０にも通知することができる。従って、エンコードされたオーディオ表現３１２は、エンコードされた音声コンテンツおよび構成構造３３２も含む。従って、オーディオデコーダ（例えば、オーディオデコーダ１００またはオーディオデコーダ２００）は、（すべてのエンコードパラメータが構成構造内に含まれるデコードパラメータに反映されていなくても）異なるエンコードパラメータを使用してエンコードされた異なるオーディオストリームが供給されるときを即座に認識できる。

この問題に関して、すべてのエンコードパラメータをオーディオデコーダに示す必要は通常ないことに留意すべきである。例えば、デコードアルゴリズムに影響を与えるオーディオデコーダにエンコードパラメータを示す必要があるのみである。オーディオデコーダの設定を決定するためにオーディオデコーダに送信されるエンコードパラメータも、デコードパラメータとして示される。一方、いくつかの重要なエンコードパラメータは、通常、オーディオデコーダに通知されず、むしろエンコードされたオーディオ信号表現に暗黙的に反映される。例えば、所望のビットレートは重要なエンコードパラメータであり得て、オーディオエンコーダがスペクトル値をどれだけ粗く量子化するか、および／またはオーディオが小さい値またはゼロ値にさえ量子化するスペクトル値がどれだけかを決定し得る場合がある。但し、オーディオデコーダでは、エンコードの結果を確認するだけで十分であるが、ビットレートを適度に小さく保つエンコーダの特定の戦略を知る必要はない。また、オーディオコンテンツのタイプに応じて、また実際に必要なビットレートに応じて、エンコーダの側で十分に小さいビットレートを実現するためのさまざまなアプローチが存在し得る。これらのパラメータは"エンコードパラメータ"と見なされ得るが、"デコードパラメータ"のセットには反映されない（また、オーディオフレームのエンコードされた表現に含まれない）。デコードパラメータ（およびこれらのエンコードオーディオ表現に組込まれるエンコードパラメータ）は、通常、デコーダが使用する設定、すなわち、エンコーダによって供給されたエンコードされた情報をどのように処理するかを記述するだけである。

従って、実際には、エンコーダコアが異なるエンコードパラメータを使用している場合でも、設定構造３３２に含まれる可能性のあるデコードパラメータが同一である場合がある（例えば、ターゲットビットレートに関して、または量子化解像度や心理音響モデルなどが含まれるターゲットビットレートに影響するパラメータに関して）。

換言すれば、オーディオエンコーダは、例えば、デコーダによって使用されるデコードパラメータが（オーディオコンテンツのエンコードされた表現を処理およびデコードするために）同一であるかもしれないにしても、異なるエンコードパラメータを使用して特定のオーディオコンテンツをエンコードできる場合がある。

そのような場合、オーディオエンコーダは、オーディオデコーダがオーディオコンテンツのそのような異なる符号化表現を依然として区別できるように、構成構造３３２内で異なるストリーム識別子を供給してもよい。

さらに、図３によるオーディオエンコーダ３００は、本明細書で説明される特徴、機能性、および詳細のいずれかによってオプションで追加できることに留意すべきである。

４．図４に係るオーディオストリーム供給器
図４は、本願発明の実施形態による、オーディオストリーム供給器のブロック概略図を示す。

オーディオストリーム供給器４００は、エンコードされたオーディオ信号表現４１２を供給するように構成される。オーディオストリーム供給器は、エンコードされたオーディオ信号表現４１２の一部として、エンコードパラメータを使用してエンコードされた、オーディオ信号の（一時的に）重畳または非重畳フレームのエンコードされたバージョン４２２を供給するように構成される。

さらに、オーディオストリーム供給器は、エンコードされたオーディオ信号表現の一部として、エンコードパラメータ（または、同等に、オーディオデコーダによって使用されるデコードパラメータ）を記述する構成構造４２４を供給するように構成され、構成構造４２４はストリーム識別子を含む。

例えば、オーディオストリーム供給器は、オーディオ信号の重畳または非重畳フレームのエンコードされたバージョンの供給（または供給器）を含んでもよい。さらに、オーディオストリーム供給器は、構成構造４２４を供給するための構成構造供給または構成構造供給器４２３を備えてもよい。

従って、オーディオストリーム供給器は、エンコードされたオーディオ信号表現４１２の一部として、オーディオストリーム供給器が例えばメモリに格納し得るか、オーディオエンコーダから受信し得る様々なオーディオストリームの一部を供給してもよい。第１のオーディオストリームの一部を供給し、次に第２のオーディオストリームの一部の供給に切替えるとき、構成構造４２４は、第１のオーディオストリームから第２のオーディオストリームへの切替え後に供給される第２のオーディオストリームの第１のオーディオフレームに関連付けられ得る。構成構造４２４は、例えば、オーディオエンコーダからオーディオストリーム供給器によって受信されるか、オーディオストリーム供給器のメモリに格納されるそれぞれのオーディオストリームの一部であってもよい。従って、オーディオストリーム供給器は、例えば、第１のオーディオストリームのオーディオフレームの連続したシーケンスを保存し、かつ第２のオーディオストリームのオーディオフレームの連続したシーケンスを保存してもよい。第１のオーディオストリームのフレームの少なくともいくつかおよび第２のオーディオストリームのフレームのいくつかは、オーディオデコーダによって使用される復号化パラメータを記述する関連するそれぞれの構成構造を有し得る。構成構造は、それぞれのストリーム識別子、たとえば、オーディオストリームを識別する整数も含むことができる。例えば、オーディオストリーム供給器は、第１のオーディオフレームのためにフレーム１～ｎ－１（１からｎ－１は時間インデックスでもよい）を供給しかつ符号化オーディオ信号表現４１２の一部として第２のオーディオストリームのフレームｎ～ｎ＋ｘ（ｎからｎ＋ｘは時間インデックスでもよい）を供給するように構成され、第２のオーディオストリームのフレーム１～ｎ－１は、特定のオーディオデコーダまたは特定のオーディオデコーダグループに向けられた符号化オーディオ信号表現４１２の一部として供給されない場合がある。第１のオーディオストリームおよび第２のオーディオストリームは、例えば、異なるビットレートでエンコードされた同一のコンテンツを表してもよい。従って、オーディオコンテンツのフレーム１～ｎ－１は、第１のオーディオストリームにより第１のビットレートで符号化された特定のデバイスまたはデバイスのグループに向けられた符号化オーディオ信号表現４１２で、表わされ、かつオーディオコンテンツのフレームｎ～ｎ+ｘは、第１のビットレートとは異なる第２のビットレートでエンコードされた第２のオーディオストリームのフレームｎ～ｎ+ｘで表わされる。

例えば、オーディオストリーム供給器４００、または何らかの外部制御は、エンコードされたオーディオ信号表現４１２に含まれる第２のオーディオストリームの第１のフレームｎが構成構造を含むことを保証してもよい。換言すれば、例えば、第１のオーディオストリームからのオーディオフレームの供給と第２のオーディオストリームからのオーディオフレームの供給との間の切替えは、"適切な"フレームでのみ行われることが保証され得てもよく、これは、構成構造を含み、好ましくは、オーディオデコーダを初期化するための何らかの情報（たとえば、オーディオプリロールなど）も含む。

従って、オーディオストリーム供給器は、例えば、第１のビットレートでエンコードされたオーディオコンテンツの一部（例えば、第１のオーディオストリームのフレーム１からｎ－１を供給することによって）および第２のビットレートを用いてエンコードされたオーディオストリームの他の部分（例えば、第２のオーディオストリームのオーディオフレームｎからｎ＋ｘを供給することによって）を供給できる。おそらく、第１のオーディオストリームと第２のオーディオストリームの構成構造は、ストリーム識別子が異なるという事実を除いて同一になるであろう。これは、実際にはストリーム識別子（のみ）であり、これも構成構造に含まれており、これにより、オーディオデコーダは、"遷移"を行うべきかどうかを決定できる（例えば、デコーダコアを再初期化することにより）ように、構成構造４２４に反映される復号化パラメータが、第１のオーディオストリームの符号化および第２のオーディオストリームの符号化に使用される異なる符号化パラメータ（またはすべての符号化パラメータ）を必ずしも反映する必要がないという事実による。

いくつかの実施形態では、第１のオーディオストリームまたは第２のオーディオストリームからオーディオフレームを供給するかどうかの決定は、オーディオストリーム供給器によって行われてもよい（例えば、ネットワーク条件の知識に基づいて行われた、例えばネットワーク負荷またはオーディオストリーム供給器とオーディオデコーダ間のネットワークの利用可能なネットワークビットレート）。但し、代りに、オーディオデコーダ、または中間デバイス（例えばネットワーク管理デバイス）が、使用するオーディオストリームを決定し得る。

しかしながら、オーディオデコーダまたは少なくともオーディオデコーダコアは、ストリームの変更が発生したことをオーディオストリーム供給器および／または中間ネットワークから明示的に通知され得ない場合があることに留意すべきである。換言すれば、オーディオデコーダは、構成構造４２４を除いて、フレームｎからｎ＋ｘは第２のオーディオストリームからのものであり、フレーム１からｎ－１は第１のオーディオストリームからのものであることをオーディオデコーダに示す追加情報を受信しない。

結論として、オーディオストリーム供給器は、オーディオコンテンツのエンコードされた表現を、エンコードされたオーディオ信号表現の形式でオーディオデコーダに柔軟に供給できる。オーディオストリーム供給器は、例えば、第１のオーディオストリームからの符号化フレームと第２のオーディオストリームからの符号化フレームの供給を柔軟に切替えることができ、ここで、オーディオストリーム間の切替えは、エンコードされたオーディオ信号表現４１２の一部である構成構造４２４に含まれるストリーム識別子の変更によって示される。

ここで、オーディオストリーム供給器４００は、本明細書で説明される特徴、機能、および詳細のいずれかによってオプションで追加できることに留意すべきである。

以下では、本願発明の実施形態によるオーディオストリーム供給器のブロック概略図を示す図５を参照しながら、オーディオストリーム供給器４００の機能の例を説明する。

図５に示されるオーディオストリーム供給器は、５００で示され、図４によるオーディオストリーム供給器４００に対応し得る。オーディオストリーム供給器５００は、エンコードされたオーディオ信号表現４１２に対応し得るエンコードされたオーディオ信号表現５１２を供給するように構成される。

特に、オーディオストリーム供給器は、第１のオーディオストリームからのフレームの供給と第２のオーディオストリームからのフレームの供給とを切替えるように構成されてもよい。例えば、オーディオストリーム供給器５００は、いわゆる"独立再生（playout）フレーム"（"ＩＰＦ"とも呼ばれる）でのみ、第１のオーディオストリームからのフレームの供給と第２のオーディオストリームからのフレームの供給とを切替えるように構成されてもよい。

オーディオストリーム供給器５００は、メモリに格納されていてもよいし、オーディオエンコーダから第１オーディオストリーム５２０および第２オーディオストリーム５３０を受信してもよい。第１のオーディオストリームは、例えば、第１のビットレートでエンコードされてもよく、（例えば、即時再生フレームの）構成構造において、第１のストリーム識別子を備えてもよい。第２のオーディオストリーム５３０は、第２のビットレートでエンコードされてもよく、（例えば、即時再生フレームの）構成構造において、第２のストリーム識別子を備えてもよい。しかしながら、第１のオーディオストリームおよび第２のオーディオストリームは、例えば、同じオーディオコンテンツを表してもよい。ただし、第１のオーディオストリームと第２のオーディオストリームは、異なるオーディオコンテンツを表すこともできる。

例えば、第１のオーディオストリーム５２０は、ｎ₁、ｎ₂、ｎ₃、およびｎ₄で示されるフレームで独立再生フレームを備えてもよい。例えば、独立した再生フレームではない１つ以上の"通常の"オーディオフレームを、２つの隣接する独立した再生フレームの間に配置することができる。但し、状況によっては、独立した再生フレームも隣接していることもあり得る。

同様に、第２のオーディオストリーム５３０は、フレーム位置ｎ₁、ｎ₂、ｎ₃およびｎ₄に独立した再生フレームも含む。

２つのストリーム５２０、５３０内の独立した再生フレームの位置は、オプションで同一であってもよいが、異なっていてもよいことに留意すべきである。簡単のために、ここでは、独立した再生フレームのフレーム位置は両方のストリームで同一であると仮定する。

ただし、原則として、切替え後の最初のフレームが独立した再生フレームであることがのみが重要である。例えば、第１のオーディオストリームのオーディオフレームの供給から第２のオーディオストリームからのオーディオフレームの供給に切替えるとき、オーディオストリーム供給器５００により、第２のオーディオストリームから供給されるフレームの一部の最初のフレームは、独立した再生フレームであることを確実にする必要がある。

実施例は、参照符号５５０で示される符号化されたオーディオ信号表現を参照して説明される。参照して分かるように、符号化されたオーディオ信号表現５１２は、その開始に、第１のオーディオストリームの１つ以上のフレームを含む部分５５２を含む。しかしながら、第１のオーディオストリームのインデックスｎ₁- １を有するオーディオフレームを供給した後、オーディオストリーム供給器５００は、（内部決定に基づいて、または外部から受信した何らかの制御情報に基づいて）第２のオーディオストリームに切替えることを決定し得る。従って、第２のオーディオストリームのオーディオフレームの一部５５４は、エンコードされたオーディオ信号表現５１２内に供給される。例えば、第２のオーディオストリームのｎ₁からｎ₂－１までのフレームインデックスを有するフレームは、エンコードされたオーディオ信号表現５１２内の部分５５４に供給される。部分５５４の第１のフレームは独立した再生フレームであり、それは、第２のオーディオストリーム５３０内のフレームインデックスｎ₁にあることに留意すべきである。しかしながら、フレームインデックスｎ₂- １を有するフレームがエンコードされたオーディオ信号表現５１２内に供給されたとき、オーディオストリーム供給器は再び第１のオーディオストリーム５２０からのオーディオフレームの供給に戻ることを決定するかもしれない。従って、（第２のオーディオストリーム５３０に基づく）フレームインデックスｎ₂- １を有するオーディオフレームの後（または直後）に、第１のオーディオストリーム５２０から取得されたフレームインデックスｎ₂を有するフレームがエンコードされたオーディオ信号表現内に供給され得る。インデックスｎ₂を持つフレームも独立した再生フレームであることに注意すべきである。従って、第１のオーディオストリームからの部分は、インデックスｎ₂を有するフレームから始まり、フレームインデックスｎ₄- １で終わるものとされる。

結論として、エンコードされたオーディオ信号表現５１２は、１つ以上のフレームの一部の連結であり、フレームのいくつかの部分は第１のオーディオストリーム５２０から取得され、フレームのいくつかの部分は第２のオーディオストリーム５３０から取得される。各部分の最初のフレームは、独立した再生フレームであることが好ましく、これは、オーディオストリーム供給器の動作によって保証されることが好ましい。

そのような独立した再生フレームは、好ましくはストリーム識別子を有する構成構造を含み、ストリーム識別子は、例えば、構成拡張構造に含まれていてもよい。例えば、第１のストリームと第２のストリームの構成情報は、ストリーム識別子を除いて同一である可能性がある（そして、おそらく、ストリーム識別子の後に構成拡張構造内に含まれる構成情報を除く）。

例えば、独立した再生フレームは、オーディオデコーダ２００に関して上記で説明したようにフレーム２２０に対応してもよい。

さらに結論として、オーディオストリーム供給器５００は、複数のオーディオストリーム（例えば、第１のオーディオストリーム５２０および第２のオーディオストリーム５３０、およびオプションとしてさらなるオーディオストリーム）にアクセスすることができ、これらの２つ以上のオーディオストリームからエンコードされたオーディオ信号表現５１２に含めるため、オーディオデコーダに（例えば、通信ネットワークを介して）転送されるフレームの部分を選択することができる。エンコードされたオーディオ信号表現５１２に含まれるフレームの部分を選択するとき、オーディオストリーム供給器は、各部分の最初のフレームが、当該オーディオストリームの前のフレームをデコードせずに（アーチファクトのない）レンダリングのために十分な情報を含む独立した再生フレームであることを保証できる。さらに、オーディオストリーム供給器は、異なるストリームからのオーディオフレームの部分間の切替えが、構成構造の関連部分内の相違からエンコードされたオーディオ信号表現５１２を受信するオーディオデコーダで認識できるように、エンコードされたオーディオ信号表現を供給する。一部の遷移では、デコーダの構成パラメータに関して構成構造が異なる場合があるが、１つ以上の他の遷移の場合、構成構造はストリーム識別子のみが異なり、他のデコード構成パラメータは同一である場合がある。

その結果、オーディオデコーダは異なるオーディオストリーム間の切替えを認識でき、適切な場合はいつでも再初期化（"遷移"）を実行できる。

５．図６に係るオーディオフレーム
図６は、ランダムアクセスを可能にし、構成拡張部分にストリーム識別子を備えた構成部分を含むオーディオフレームの表現を示す。

例えば、図６は、図２を参照して説明したオーディオフレーム２２２の役割を引き継ぐことができるオーディオフレームの例を示している。例えば、オーディオフレームは"ＵＳＡＣフレーム"とすることができる。図６のオーディオフレームは、"ストリームアクセスポイント"または"中間再生フレーム"と見なすことができる。

フレームは、例えば、利用可能な修正を含む、統合音声音響符号化規格の構文規則に従うことができるが、他のまたはより新しいオーディオ規格のビットストリーム構文に適合させることもできる。

例えば、ＵＳＡＣフレーム６００は、ＵＳＡＣ独立フラグ６１０を含んでもよい。さらに、ＵＳＡＣフレームは、"ＵＳＡＣＥｘｔＥｌｅｍｅｎｔ"として指定された拡張要素を含み得る。拡張要素６２０は、構成情報およびプレロールデータを備えた拡張要素であってもよい。

オプションで、さらなるデータの存在を示すフラグ"ＵＳＡＣＥｘｔＥｌｅｍｅｎｔＰｒｅｓｅｎｔ"が存在する場合がある。例えば、ＩＰＦ（例えば、ストリームアクセスポイント）の場合、このフラグは１であることが好ましい。但し、このフラグはオプションと見なすことができる。

さらに、オプションで、拡張要素のデフォルトの長さを使用するか、拡張要素の長さをエンコードするかをエンコードするために使用できるフラグ"ＵＳＡＣＥｘｔＥｌｅｍｅｎｔＵｓｅＤｅｆａｕｌｔＬｅｎｇｔｈ"があってもよい。例えば、ＩＰＦの場合、このフラグの値はゼロであることが好ましい（しかし必須ではない）。

さらに、"ＵＳＡＣＥｘｔＥｌｅｍｅｎｔＳｅｇｍｅｎｔＤａｔａ"としても示される拡張要素セグメントデータがある。これらの拡張要素セグメントデータは、ＵＳＡＣ規格の改訂で"ＡｕｄｉｏＰｒｅＲｏｌｌ（）"としても示されるオーディオプレロール情報を含む。オーディオプレロールは、構成長情報"ｃｏｎｆｉｇＬｅｎ"および構成情報"Ｃｏｎｆｉｇ（）"をオプションで含み、構成情報は"ＵｓａｃＣｏｎｆｉｇ（）"としても示される"ＵＳＡＣ構成情報"と同一であってもよい。構成情報が存在する場合、"ｃｏｎｆｉｇＬｅｎ"はゼロより大きい値を取る必要があるが、好ましくは必ずしもそうある必要はない。例えば、"ｃｏｎｆｉｇＬｅｎ"のゼロ値は、構成情報が存在しないことを示す場合がある。構成情報は、サンプリング周波数に関する情報、ＳＢＲフレーム長に関する情報、チャネル構成およびその他の（オプションの）デコーダ構成アイテムの数に関する情報など、いくつかの基本的な構成情報を含むことができる。他のデコーダ構成アイテムは、例えば、ＵＳＡＣ規格の"ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ（）"構文要素の定義に記述された１つ以上またはすべての構成アイテムを含むことができる。

さらに、構成情報は、サブデータ構造として、構成拡張構造を含む。構成拡張構造は、例えば、構文要素"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）"の構文に従うことができる。例えば、構成拡張構造は、多くの構成拡張"ｎｕｍＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎｓ"に関する情報を含んでもよい。本願発明による実施形態の典型的な場合であるｔｙｐｅＩＤ＿Ｃｏｎｆｉｇ＿Ｅｘｔ＿Ｓｔｒｅａｍ＿ＩＤの構成拡張がある場合、ストリーム識別子は、例えば、１６ビット値によって表され得るビットストリーム構文要素"ｓｔｒｅａｍＩｄ（）"によって表される。

結論として、拡張要素のＵＳＡＣフレームに含まれる構成構造は、デコーダパラメータを設定するためのいくつかの構成情報を含み、さらに、構成拡張として例えば１６ビットの整数値として表わされ得るストリーム識別子を含む。

オーディオプレロール情報は、クロスフェードを適用するかどうかを示すフラグ"ａｐｐｌｙＣｒｏｓｓｆａｄｅ"（たとえば、ゼロ値はクロスフェードを適用しないことを示す場合がある）、プリロールフレームの数を示す情報および"ａｕＬｅｎ"および"ＡｃｃｅｓｓＵｎｉｔ（）"として指定できるプリロールフレームに関する情報などのさらなる情報をオプションで含む。

ＵＳＡＣフレームは、オプションで、追加の拡張要素をさらに含み、通常、単一のチャネル要素、チャネルペア要素、または低周波効果要素のうちの１つ以上を備える。

結論として、ＵＳＡＣフレーム（例えば、ＵＳＡＣフレーム２２２または即時再生フレームＩＰＦの１つ）は、例えば、拡張構文要素を含むことができ、前記拡張構文要素は、構成構造（例えば、２２２ｃ）および１つ以上のプリロールフレームに関する情報を含むことができ、構成構造および１つ以上のプリロールフレームに関する情報は、例えば処理チェーンの状態を所望の状態にするために使用され、かつ例えば、情報２２２ｄに対応できる。さらに、ＵＳＡＣフレームは、単一チャネル要素、チャネルペア要素、または低周波効果要素などのエンコードされたオーディオ情報も備える。従って、オーディオデコーダは、ストリーム識別子"ｓｔｒｅａｍＩｄ（）"に基づいてオーディオストリームの変化を認識することが可能である。また、復号化パラメータは構成構造に含まれる構成情報に基づいて設定でき、オーディオデコードの適切な状態がプリロールフレーム情報に基づいて設定できるため、オーディオデコーダがＵＳＡＣフレーム６００のアーチファクトのないデコードを実行することが可能である。従って、記載されているＵＳＡＣフレームは、異なるオーディオストリームからのフレームのデコードを切替えることを可能にし、追加の制御情報なしでオーディオデコーダによる切替えの検出も可能にする。

本明細書で説明するＵＳＡＣフレーム６００は、オーディオフレーム２２２に対応するか、符号化オーディオ信号表現３１２に含まれる第２のオーディオストリームの第１のフレームに対応するか、符号化信号に含まれる第２のオーディオストリームの第１のフレームに対応するか、符号化信号表現４１２に含まれる第２のオーディオストリームの第１のフレームに対応するか、または図５に示されるような即時再生フレームＩＰＦに対応することができる。

６．図７に係るオーディオストリームの例
図７は、本明細書に記載のオーディオエンコーダの１つにより供給され、本明細書に記載のオーディオデコーダの１つによりデコードされ得る例示的なオーディオストリームの表現を示す。図７のオーディオストリームは、本明細書で説明されるように、オーディオストリーム供給器によって供給されることもできる。

オーディオストリーム７００は、例えば、第１の情報ブロックとして、デコーダ構成情報を含む。デコーダ構成情報は、例えば、ＵＳＡＣ規格で定義されているようにビットストリーム要素"ＵｓａｃＣｏｎｆｉｇ（）"を含んでもよい。デコーダ構成情報は、例えば、１のストリーム識別子を示してもよく、ストリームの先頭にあるストリームアクセスポイントとみなされてもよい。

オーディオストリームはまた、例えば、プリロールデータを含まなくてもよく、またストリーム識別子情報も含まなくてもよいオーディオフレームデータ情報ユニット７２０を含む。例えば、情報単位７２０は、ＵＳＡＣフレームであってもよく、例えば、ＵＳＡＣ規格で定義されているビットストリーム構文要素"ＵｓａｃＦｒａｍｅ（）"に対応してもよい。

情報単位７１０および７２０は、例えば、両方とも第１のオーディオストリームに属し得る。

オーディオストリーム７００は、例えばオーディオストリーム７００に含まれる第２のストリームの第１のフレームを表すことができる情報単位７３０も含むことができる。情報単位７３０は、例えば、オーディオフレームデータ、プリロールデータ、およびストリーム識別子情報を備えてもよい。ストリーム識別子情報は、例えば、情報単位７１０に含まれるストリーム識別子とは異なる２つのストリーム識別子を示してもよい。

情報単位７３０は、例えば、ストリームアクセスポイントと見なされ得る。

例えば、情報単位７３０は、ＵＳＡＣ規格で定義されているように、ビットストリーム要素"ＵｓａｃＦｒａｍｅ（）"のシンタックスに従うことができる。しかしながら、情報単位７３０は、タイプ"ｉｄ＿ｅｘｔ＿ｅｌｅ＿ａｕｄｉｏｐｒｅｒｏｌｌ"の拡張要素を備えてもよい。この拡張要素は、例えば、ビットストリーム構文"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ"による構成拡張構造を備えた例えばビットストリーム構文"ＵｓａｃＣｏｎｆｉｇ"による構成構造を含むことができる。構成拡張構造は、例えば、ストリーム識別子をエンコードするタイプ"ＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤ"の拡張要素を含んでもよい。従って、情報アイテムまたは情報単位７３０は、例えば、上で説明したようにＵＳＡＣフレーム６００の情報を含んでもよい。

従って、情報単位７３０は、第２のストリームのオーディオフレームを表し、オーディオフレームを適切にデコードするようにオーディオデコーダを構成するための完全な構成情報を供給し得る。特に、構成情報は、オーディオデコーダの状態を設定するためのオーディオプリロール情報も含み、構成情報は、情報単位７３０が情報単位７００、７１０と比較したとき異なるオーディオストリームに関連付けられているかどうかをオーディオデコーダが認識できるようにするストリーム識別子を含む。

オーディオストリーム７００は、情報単位７００に続く情報単位７４０も含む。情報ユニット７４０は、例えば、プリロールデータ、構成データおよびストリーム識別子のない、オーディオフレームデータのみを含む"通常の"オーディオフレームであってもよい。例えば、情報ユニット７４０は、拡張要素を利用せずにビットストリーム構文"ＵｓａｃＦｒａｍｅ（）"に従い得る。

オーディオストリーム７００は、例えばオーディオフレームデータおよびプリロールデータを含むことができるが、ストリーム識別子を含まないこともある情報ユニット７５０も含むことができる。従って、情報ユニット７５０は、ストリームアクセスポイントとして使用可能であるが、異なるストリーム間の切替えを検出できない場合がある。

例えば、情報ユニット７５０は、拡張要素ＩＤ＿ｅｘｔ＿ｅｌｅ＿ａｕｄｉｏｐｒｅｒｏｌｌを伴うビットストリーム構文"ＵｓａｃＦｒａｍｅ（）"に従うことができる。しかしながら、情報ユニット７５０では、オーディオプリロール拡張要素の一部である構成情報は、ストリーム識別子を含まない。従って、情報ユニット７５０は、異なるオーディオストリーム間の切替え後、第１の情報ユニットとして確実に使用することはできない。他方、情報ユニット７３０は、そこに含まれるストリーム識別子は、異なるストリーム間の切替えの検出を可能にし、情報ユニットは、構成情報およびプリロール情報を含むデコードのための完全な情報も含むので、異なるオーディオストリーム間の切替え後の最初の情報ユニットとして確実に使用できる。

結論として、オーディオストリーム７００は、異なる情報コンテンツを有する"情報ユニット"またはエンコードされたオーディオフレームを備えてもよい。構成データなしおよびプリロールデータなしの、エンコードされたオーディオデータのみを含む"非常に単純な"オーディオフレームが存在する場合がある。また、エンコードされたオーディオ情報だけでなく、ストリーム識別子とプリロール情報も含む構成情報を含むオーディオフレームが存在する場合がある。このようなフレームにより、異なるオーディオストリーム間の切替えの識別と完全に独立したデコードが可能になる。

さらに、オプションとして、部分的な情報しか持たないが、たとえば、ストリーム識別子情報がないため、異なるストリーム間の切替えの信頼できる識別を可能にしないフレームもあり得る。

図１および図２によるオーディオデコーダは、通常、オーディオストリーム７００を利用することができ、図３および図４によるオーディオエンコーダおよびオーディオストリーム供給器は、図７に示されるように（例えば、エンコードされたオーディオ信号表現３１２、３１４として）典型的にオーディオストリーム７００を供給できることに留意すべきである。

７．図８に係るオーディオストリーム
図８は、本願発明の別の実施形態による例示的なオーディオストリームの表現を示す。

図８のオーディオストリームは、全体が８００で示されている。

情報ユニット８１０ａから８１０ｅは第１のオーディオストリームに属することに留意すべきである。例えば、情報単位８１０ａは、デコーダ構成を備えてもよく、例えば、ＵＳＡＣ規格で定義されるビットストリーム構文"ＵｓａｃＣｏｎｆｉｇ（）"に従ってもよい。デコーダ構成は、例えば、構成構造２２２ｃに類似し得る構成構造を備えてもよい。例えば、情報単位８１０は、ストリーム識別子拡張を含むことができ、ストリーム識別子は、例えば、構成構造の構成拡張構造に含まれることができる。

情報単位８１０ｂは、例えば、プリロールデータおよびストリーム識別子のないオーディオフレームデータ（例えば、エンコードされたスペクトル値およびエンコードされたスケールファクター情報のような）を含み得る。情報単位８１０ｄは、情報単位８１０ｂと構造が類似または同一であってもよく、また、プリロールデータおよびストリーム識別子のないオーディオフレームデータを表してもよい。

さらに、オーディオストリームは、部分８１０に続く部分８２０を含むことができ、部分８２０は、第１のオーディオストリームとは異なる第２のオーディオストリームに関連付けられる。部分８２０は、情報ユニット８２０ａを含み、情報ユニット８２０ａは、プリロールデータを伴うオーディオフレームデータを含み、プリロールデータは、（例えば、構成構造内に）ストリーム識別子拡張を含む。従って、情報ユニット８２０ａはオーディオフレームを表す。オーディオデコーダが、ストリーム識別子の拡張に基づいて、以前にデコードされたオーディオフレームが別のオーディオストリームからのものであることを検出した場合、プリロールデータはオーディオデコーダによって使用され、情報ユニット８２０ａ内のオーディオフレームデータをデコードする前にオーディオデコーダを適切な状態に設定する。従って、情報ユニット８２０ａは、異なるオーディオストリーム間の切替え後の最初の情報ユニットであるのに適している。

ブロック８２０は、１つ、２つまたはそれ以上の情報ユニット８２０ｂ、８２０ｄも含み、それはオーディオフレームデータを含むが、プリロールデータを含まず、ストリーム識別子も含まない。

データストリーム８００は、第３のオーディオストリームに関連する部分８３０も含む。部分８３０は、情報ユニット８３０ａを備え、情報ユニット８３０ａは、プリロールデータを伴うオーディオフレームデータを含み、ストリーム識別子拡張を含む。部分８３０は、プリロールデータおよびストリーム識別子のないオーディオフレームデータを含む情報ユニット８３０ｂをさらに含む。第３の部分８３０は、プリロールデータを有するがストリーム識別子を有さないオーディオフレームデータを含む情報ユニット８３０ｄも含む。

従って、オーディオストリーム８００は、異なるオーディオストリームから生じる後続部分を含み、あるストリームから別のストリームへの各遷移において、プレロールデータとストリーム識別子を持つオーディオフレームデータを含む情報ユニット（例えば、エンコードされたオーディオフレーム）がある。従って、エンコードされたオーディオフレーム内のオーディオストリームから別のオーディオストリームへの各切替えで利用可能なストリーム識別子情報があるため、オーディオデコーダは、ストリーム識別子を評価することで（たとえば、以前に取得した保存されたストリーム識別子との比較に関して）、遷移を容易に認識できる。

オーディオストリームは、本明細書に記載のオーディオエンコーダまたはビットストリーム供給器によって供給でき、オーディオストリーム８００は本明細書に記載のオーディオデコーダによって評価できることに留意すべきである。

８．図９に係るデコーダ機能
図９は、本明細書で説明されるオーディオデコーダの可能なデコーダ機能の概略図を示す。

例えば、図９を参照して説明した機能は、図１によるオーディオエンコーダ１００または図２によるオーディオデコーダ２００に実装され得る。例えば、図５で説明した機能を使用して、デコードを続行する方法を決定できる。

しかしながら、図９を参照して説明した機能は単なる例であり、たとえば、機能全体が同じである限り、決定の順序を変更できることに留意すべきである。また、全体的な機能が変更されない限り、決定を組合せることができる。

図９で説明される機能は、以前にデコードされたフレームに関する情報についての知識を有し、本明細書で説明される構文に準拠し得る新しいオーディオフレームを評価することが想定される。

例えば、第１のチェック１１０では、オーディオデコーダは、"ランダムアクセス"、すなわちストリームアクセスポイントへのジャンプ操作があるかどうかをチェックすることができる。フレームの"通常の"順序が意図的に変更されるストリームアクセスポイントへのジャンプがあることが認識された場合、デコーダ機能は、デコーダを再初期化するためにストリームアクセスポイントの構成データを評価するステップ９２０に進む。突然の切替えを避けるために、オプションでクロスフェードを実行できる。ランダムアクセスとは、第１のフレームから第２のフレームへの"ジャンプ"を意味し、第２のフレームは、以前にデコードされたフレームのフレームインデックスのすぐ後ではないフレームインデックスを有することに留意すべきである。換言すれば、ランダムアクセスは、フレームインデックスｎを有するフレームからフレームインデックスｏを有するフレームへのジャンプであり、ｏはｎ＋１とは異なる。

ステップ９２０では、ジャンプが実行され、ジャンプターゲットは、即時再生フレームであり、デコーダを再初期化するのに十分な情報を含むフレームである。

しかしながら、チェック９１０において、"ランダムアクセス"ではなく"連続再生"が存在することが判明した場合、さらなるチェック９３０を実行することができる。換言すれば、デコードがフレームインデックスｎを有するフレームからフレームインデックスｎ＋１を有するフレームに進む場合、チェック９３０が実行される。

チェック９３０では、ストリーム識別子を考慮せずに（例えば、ストリーム識別子まででストリーム識別子を含まない）ストリームアクセスポイント（または中間再生フレーム）の構成構造で定義された（関連する）構成が現在の構成と異なるかどうかがチェックされる。ストリームアクセスポイントの構成構造に記述された（関連する）構成が現在の構成（パス"はい"）と異なる場合、デコードはステップ９４０で進行し得る。しかしながら、次のフレームが構成構造を含むストリームアクセスポイントである場合にのみ、ステップ９３０を当然実行できることに留意すべきである。次のフレームが構成構造を含まない場合、ステップ９３０は当然実行できず、現在の構成との違いは発見できない。

しかしながら、ステップ９３０で、次のフレームの構成構造の構成が（ストリーム識別子を考慮せずに）現在の構成と同一であることが検出された場合、ブロック９５０に示される次のチェックが行われる。ステップ９５０では、ストリームアクセスポイントが（例えば、構成構造内に）ストリーム識別子を含むかどうかが判定される。例えば、ストリーム識別子は必ずしも含める必要はないが、構成拡張構造があり、この構成拡張構造がストリーム識別子であるデータ構造要素を実際に含む場合にのみ、構成構造に含まれる。比較９５０において、ストリームアクセスポイントがストリーム識別子を含むことが判明した場合（分岐"はい"）、次のフレーム（復号化されるフレーム）のストリームアクセスポイントに含まれるストリーム識別子が現在の（保存された）ストリーム識別子と比較される。次のフレーム（デコードされるフレーム）に含まれるストリーム識別子が現在のストリーム識別子（判断９６０の分岐"はい"）と異なることが判明した場合、ブロック９４０にジャンプする。他方、次のフレームのストリーム識別子が保存されたストリーム識別子と同一であることが検出された場合、ストリーム識別子の後の構成拡張構造に続く追加の構成情報（構成拡張など）は、"遷移"または最初の初期化（ステップ９６０の分岐"いいえ"）のどちらを実行するかを決定するため、考慮されないままになる。

しかしながら、チェック９５０で、ストリームアクセスポイント（デコードする次のフレーム）がストリーム識別子を含まないことがわかった場合、またはデコードする次のフレームのストリーム識別子が保存されたストリーム識別子と等しいことが判明した場合、手順はステップ９７０で継続する。

さらに、ステップ９４０は、古い構成を使用するオーディオフレームと新しい構成を使用するオーディオフレームとの間のフェージングを含むことに留意すべきである。新しい構成を使用してオーディオフレームをデコードするために、オーディオデコーダの再初期化が存在する（新しいデコーダインスタンスの初期化が含まれる場合がある）。また、古いデコーダインスタンスは"フラッシュ"され、クロスフェードが実行される。

一方、ステップ９７０は、デコーダを再初期化することなく次のフレームをデコードすることを含み、次のフレームに含まれる可能性のあるプリロール情報は破棄される（考慮されないままにされる）。

結論として、オーディオデコーダが"ストリームアクセスポイント"とも見なされ得る"中間再生フレーム"に到達するたびに実行できるさまざまな可能性がある。また、そのようなオーディオフレームには利用可能な構成構造やプリロール情報がなく、そのようなオーディオフレームは、オーディオデコーダの再初期化を許可しないため、"中間再生フレーム"または"ストリームアクセスポイント"ではないフレームでは、通常、特定の処理が行われないことに注意されたい。

デコーダが"ジャンプ"、つまり通常のフレーム順序からの逸脱があることを認識すると、通常、プリロール情報と（同じストリーム内でジャンプする）新しい構成構造を使用するオーディオデコーダの再初期化が自然に行われる。

そのようなジャンプが存在する場合、異なるケースが存在する。

オーディオデコーダは、構成識別子までおよび構成識別子を含んでデコードされる次のストリームの構成情報が、格納されている情報と異なることを検出した場合、オーディオデコーダの再初期化も行われる。他方、オーディオデコーダが、ストリーム識別子（存在する場合）までのおよびストリーム識別子を含んで、デコードされる次のフレームの構成情報が、以前にデコードされたフレームから取得した保存情報と同一であることを検出した場合、再初期化は実行されない。いずれの場合でも、再初期化を実行するかどうかを決定するときに、構成構造内のストリーム識別子の後に配置される構成情報は、オーディオデコーダによって無視される。また、オーディオデコーダが構成構造内にストリーム識別子が存在しないことを検出した場合、オーディオデコーダは保存された情報との比較でストリーム識別子を当然考慮しない。

ただし、計算的に効率的な方法で評価を実行するために、デコーダはまず、ストリーム識別子の前にある構成情報を保存された構成情報で確認し得て、次に、構成構造に含まれるストリーム識別子が存在するかどうかを確認し、ストリーム識別子（構成構造に存在する場合）と保存されているストリーム識別子との比較に進む。オーディオデコーダが相違を検出するとすぐに、それは再初期化を決定するかもしれない。一方、オーディオデコーダがストリーム識別子を含むまで構成情報間の相違を検出できない場合、オーディオデコーダは再初期化を省略することを決定できる。

従って、オーディオエンコーダによる構成拡張構造内のストリーム識別子の後に、再初期化にならないマイナーな構成変更を通知でき、この場合、オーディオデコーダはわずかに構成を変更しただけでデコードに進むことができる（再初期化を必要としない）。

結論として、図９を参照して説明したデコーダ機能は、本明細書で説明したオーディオデコーダのいずれでも使用できるが、オプションであると見なされるべきである。

９．図１０ａ，１０ｂ，１０ｃおよび図１０ｄによるビットストリームシンタックス
以下では、ビットストリームの構文について説明する。特に、構成構造の構文について説明する。例として、構成構造"ＵｓａｃＣｏｎｆｉｇ（）"の構文を説明するが、これは、構成構造２２２ｃまたは構成構造３３２または構成構造４２４または図６に示す構成構造"Ｃｏｎｆｉｇ（）"または図７に示す構成構造"ＵｓａｃＣｏｎｆｉｇ（）"または図８に示す構成構造"Ｃｏｎｆｉｇ"の代わりになり得る。

図１０は、構成構造"ＵｓａｃＣｏｎｆｉｇ（）"の表現を示す。図から分かるように、前記構成構造は、例えば、サンプリング周波数インデックス情報１０２０ａと、オプションでサンプリング周波数情報１０２０ｂとを含んでもよい。サンプリング周波数インデックス情報１０２０ａ（おそらくサンプリング周波数情報１０２０ｂと組合せて）は、例えば、エンコーダによって使用されるサンプリング周波数を記述し、従って、オーディオデコーダによって使用されるサンプリング周波数も記述する。

さらに、構成構造は、スペクトル帯域複製（ＳＢＲ）のフレーム長インデックス情報も含むことができる。例えば、インデックスは、例えばＵＳＡＣ規格で定義されているように、スペクトル帯域幅複製のいくつかのパラメータを決定する場合がある。

さらに、構成構造はまた、例えば、チャネル構成を決定することができるチャネル構成インデックス１０２４を含むこともできる。チャネル構成インデックス情報は、例えば、多数のチャネルと関連するスピーカーマッピングとを定義する場合がある。例えば、チャネル構成インデックス情報には、ＵＳＡＣ規格で定義されているような意味があり得る。例えば、チャネル構成インデックス情報がゼロに等しい場合、チャネル構成に関する詳細は、"ＵｓａｃＣｈａｎｎｅｌＣｏｎｆｉｇ（）"データ構造１０２４ｂに含まれてもよい。

さらに、構成構造は、例えば、オーディオフレームデータ構造に存在する情報要素を記述（または列挙）し得るデコーダ構成情報１０２６ａを含んでもよい。例えば、デコーダ構成情報は、ＵＳＡＣ規格に記載されている要素の１つ以上を含むことができる。

さらに、構成構造１０１０は、構成拡張構造（例えば、構成拡張構造２２６）の存在を示すフラグ（例えば、"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ"という名前）も含む。構成構造１０１０は、例えば"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）"１０２８ａで示される構成拡張構造も含む。構成拡張構造は、好ましくは、構成構造１０１０の一部であり、例えば、構成構造１０１０の他の構成アイテムを表すビットのすぐ後に続くビットシーケンスによって表すことができる。構成拡張構造は、以下で説明するように、例えば、ストリーム識別子情報を伝えることができる。

以下では、構成拡張構造の可能な構文を図１０ｂを参照して説明するが、構成拡張構造は全体が１０３０で示され、構成拡張構造１０２８ａに対応する。

構成拡張構造（"ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）"としても示される）は、例えば、構文要素１０４０ａ内のいくつかの構成拡張をエンコードしてもよい。各構成拡張アイテムごとに構成拡張タイプ情報１０４２ａおよび構成拡張長情報１０４４ａがあるため、異なる構成拡張情報アイテムの順序は任意に選択できることに留意すべきである。従って、構成拡張構造１０３０は、複数の構成拡張アイテム（または構成拡張情報アイテム）を可変の順序で伝えることができ、オーディオエンコーダは、どの構成拡張アイテムが最初にエンコードされ、どの構成拡張アイテムが後にエンコードされるかを決定できる。例えば、各構成情報アイテムについて、最初に構成拡張タイプ識別子１０４２ａが存在し、続いて構成拡張長情報１０４４が存在し、次にそれぞれの構成拡張情報アイテムの"ペイロード"が存在する場合がある。それぞれの構成拡張情報アイテムのペイロードのエンコードは、例えば、構成拡張タイプ情報によって示される構成拡張情報アイテムのタイプに応じて異なり、それぞれの構成拡張情報アイテムのペイロードの長さは、それぞれの構成拡張長情報１０４４ａの値によって決定できる。例えば、構成拡張情報アイテムが充填情報である場合、１つ以上の充填バイトが存在する場合がある。他方、構成拡張情報アイテムが構成拡張ラウドネス情報である場合、（例えば、"ｌｏｕｄｎｅｓｓＩｎｆｏＳｅｔ（）"として示される）ラウドネスに関する情報を含むデータ構造があり得る。

さらに、構成拡張情報アイテムがストリーム識別子である場合、"ｓｔｒｅａｍＩｄ（）"として指定されるストリーム識別子の番号表現があり得る。さまざまなタイプの構成拡張情報アイテムの構文例が、参照符号１０４６ａ、１０４８ａ、および１０５０ａで示されている。

結論として、構成拡張構造の構文は、異なる構成情報アイテムの順序を変えることができるようなものである。例えば、ストリーム識別子構成拡張情報アイテムは、オーディオエンコーダによって他の構成拡張情報アイテムの前後に配置することができる。従って、現在の構成構造によって示される構成とオーディオデコーダによって以前に取得された構成情報との比較において構成拡張構造の他の情報アイテムを考慮すべきである、構成拡張構造内のストリーム識別子構成拡張情報アイテムの配置によって、オーディオエンコーダは、制御可能である。通常、構成拡張構造に先行する構成情報アイテムおよびストリーム識別子情報までのかつストリーム識別子情報を含むすべての構成拡張情報アイテムは、このような比較で考慮されるが、ストリーム識別子構成拡張情報アイテムの後にビットストリームでエンコードされるすべての構成拡張情報アイテムは、比較では無視される。

以上のようにして、図１０ａ及び図１０ｂに関して説明した構成構造は、本願発明による概念に非常に適している。

図１０は、ストリーム識別子（構成拡張）情報アイテムのシンタックスを示しており、これも"ＳｔｒｅａｍＩｄ（）"（または"ｓｔｒｅａｍＩｄ（）"）と表記されている。図示されるように、ストリーム識別子は１６ビットの２進数表現によって表すことができる。従って、６５０００を超える異なる値をストリーム識別子として符号化することができ、これは通常、異なるオーディオストリーム間の遷移を認識するのに十分である。

図１０ｄは、異なる構成拡張情報アイテムに対するタイプ識別子の割当ての一例を示す。例えば、タイプ"ストリーム識別子"の構成拡張情報アイテムは、構成拡張タイプ情報１０４２ａの値７によって表され得る。他のタイプの構成拡張情報アイテムは、例えば、構成拡張タイプ識別子１０４２ａの他の値によって表すことができる。

結論として、図１０ａ～図１０ｄは、ストリーム識別子情報を抽出するためにオーディオデコーダによって使用され得るストリーム識別子情報を符号化するためにオーディオエンコーダによって使用され得る構成構造の可能なシンタックス（またはシンタックス拡張）を記述する。

しかしながら、本明細書に記載された構成構造は単に例として考慮されるべきであり、広い範囲にわたって変更され得ることに留意すべきである。例えば、サンプリング周波数インデックス情報および／またはサンプリング周波数情報および／またはスペクトル帯域幅複製フレーム長インデックス情報および／またはチャネル構成インデックス情報は、異なる方法でエンコードすることができる。また、オプションで、上記の情報アイテムの１つ以上をドロップすることができる。さらに、ＵｓａｃＤｅｃｏｄｅｒＣｏｎｆｉｇ情報アイテムも省略することができる。

さらに、構成拡張タイプおよび構成拡張長の構成拡張の番号のエンコードは修正することが可能である。また、異なる構成拡張情報アイテムもオプションとして考慮されるべきであり、おそらく異なる方法で符号化することもできる。

さらに、ストリーム識別子は、より多いまたはより少ないビットでエンコードすることもでき、そこでは異なるタイプの番号表現を使用することができる。さらに、異なる構成拡張タイプへの識別子番号の割当ては、好ましい例としてではあるが本質的な特徴としてではなく考慮されるべきである。

９．結論

以下では、本願発明によるいくつかの態様を説明するが、それらは個別にまたは本明細書に記載の実施形態と組合せて使用することができる。

特に、本願発明による解決策が本明細書で説明される。

本願発明による実施形態の態様は、添付の特許請求の範囲によって説明されることに留意すべきである。

しかしながら、特許請求の範囲によって定義される実施形態は、個別にまたは組合せてのいずれかで、本明細書に記載される特徴のうちのいずれかによってオプションで追加され得る。また、括弧"（）"または"［］"内の定義は、特に特許請求の範囲で使用されるときには、オプションであると見なすべきであることに留意すべきである。

それにもかかわらず、以下に記載される本願発明の特徴はまた、特許請求の範囲の特徴とは別に使用されてもよいことに留意すべきである。

さらに、特許請求の範囲に記載され、以下に記載される特徴および機能は、本願発明の態様の根底にある問題、実施形態および従来のアプローチのための可能な使用シナリオについて説明する節に記載される特徴および機能とオプションで組合せることができる。特に、本明細書に記載の特徴および機能は、改訂３、小節"ビットレート適応"（例えば、本願の優先権出願の出願日に標準化されているように、または本願発明の出願日に標準化されているように、しかし場合によってはさらなる将来の改訂を含む）を含むＩＳＯ／ＩＥＣ２３００３－３：２０１２に従うＵＳＡＣオーディオデコーダにおいて使用され得る。

本願発明の一態様によれば、ｕｓａｃＣｏｎｆｉｇＥｘｔＴｙｐｅ＝＝ＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤを持つＵＳＡＣの新しい構成拡張を単純なユニバーサル１６ビット識別子ビットフィールドを含む関連したビットストリーム構造とともに（たとえば、ＵＳＡＣビットストリーム構文に）導入することが提案される。この識別子は、それらの間のシームレスな切替えを意図したストリームのセット内のすべてのストリームに対する任意の２つの構成構造の間で異なる（例えば、オーディオエンコーダまたはオーディオストリーム供給器によって異なるように選択され得る）。そのようなストリームのセットの一例は、ＭＰＥＧ- ＤＡＳＨ配信の使用事例におけるいわゆる"適応セット"である。

提案された固有のストリームＩＤ構成拡張は、例えば、現在の（または現在の構成）を新しい構成構造（例えば、オーディオエンコーダ側またはオーディオデコーダ側）と比較する時点で確実になり、新しい構成（ひいては新しいストリーム）は正しく識別され、デコーダは期待し意図したとおりに動作し、たとえば、デコーダは適切なデコーダフラッシュを実行し、アクセスユニットをプレロールし、クロスフェードを実行するであろう（該当する場合）。

以下は、（本出願の出願日に標準化されあるいは優先権出願の出願日に標準化されており、オプションで将来の修正を含む（例えば、ＭＰＥＧ- ＤＵＳＡＣ（ＩＳＯ／ＩＥＣ２３００３- ３＋ＡＭＤ．１＋ＡＭＤ- ２＋ＡＭＤ．３）の））仕様書テキスト（修正）の提案である。

以下に記載される本願発明の態様で言及される節は、個別にまたはＵＳＡＣオーディオデコーダと組合せて、あるいは別のフレームベースのオーディオデコーダ内で使用され得る。

次の表１５に示すように、構成拡張は、オーディオエンコーダがオーディオビットストリームを提供するために使用でき、オーディオデコーダがオーディオビットストリームから情報を抽出するために使用できる。

上述のＵＳＡＣ規格に従ってオーディオの符号化および復号化を使用する場合、セクション５．２の表１５は、表１５の次の更新版に置き換える必要がある。

表１５－ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）のシンタックス

また、ＵＳＡＣ規格のオーディオエンコードまたはオーディオデコードを検討する場合、ＵＳＡＣ規格のセクション５．２の最後に、次のような新しいテーブルＡＭＤ．０１を追加する必要がある（エンコードの詳細、ビット数はオプションである）。

表ＡＭＤ．０１－ＳｔｒｅａｍＩｄ（）のシンタックス

しかしながら、上記の表において、符号化の詳細および例えば多数のビットはオプションであると見なされるべきである。

また、ＵＳＡＣ規格に従った符号化または復号化を検討するときは、"６．１．１４ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（）"の後に次の従属節６．１．１５を追加する必要がある。

"６．１．１５一意のストリーム識別子（ｓｔｒｅａｍＩＤ）
６．１．１５．１用語、定義および意味

ストリーム識別子
これらのストリーム間のシームレスな切替えを目的とした、関連付けられた一連のストリーム内のストリームの構成を一意に識別する２バイトの符号なし整数ストリーム識別子（ストリームＩＤ）。ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒは０から６５５３５までの値を取ることができる（エンコードの詳細はオプション）。

例ＩＳＯ／ＩＥＣ２３００９で定義されているＭＰＥＧ－ＤＡＳＨ適合セットの一部である場合、そのＤＡＳＨ適合セット内のストリームのすべてのストリームＩＤはペアごとに異なる。

６．１．１５．２ストリーム識別子の説明
タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤの構成拡張は、ストリーム識別子（省略形： "ｓｔｒｅａｍＩＤ"）を示すためのコンテナを提供する。ストリームＩＤ構成拡張は、構成構造の残りが（ビット）同一であっても、２つのストリームのオーディオビットストリーム構成を区別することができるように、一意の整数を構成構造に付加することを可能にする。

タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤの構成拡張のｕｓａｃＣｏｎｆｉｇＥｘｔＬｅｎｇｔｈは、値２（２）を持つものとする（オプションで、異なる場合もある）。

どの既定のオーディオビットストリームも、タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤの構成拡張を複数持つことはできない（オプションで）。

例えばＩＤ＿ＥＸＴ＿ＥＬＥ＿ＡＵＤＩＯＰＲＥＲＯＬＬ拡張ペイロードの中のＣｏｎｆｉｇ（）によって、通常動作しているデコーダインスタンスが新しい構成構造を受信する場合、それはこの新しい構成構造を現在アクティブな構成と比較しなければならない（例えば７．１８．３．３参照）。そのような比較は、例えば、対応する構成構造のビットごとの比較によって行うことができる。

構成構造が構成拡張を含む場合、例えば、タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤの構成拡張までのおよびを含むすべての構成拡張が比較に含まれなければならない。タイプＩＤ＿ＣＯＮＦＩＧ＿ＥＸＴ＿ＳＴＲＥＡＭ＿ＩＤの構成拡張に続くすべての構成拡張は、例えば、比較中に考慮されないものとする（オプションで）。

註上記の規則は、エンコーダが特定の構成拡張における変更がデコーダ再構成の原因になるかどうかを制御することを可能にする。"

規格に追加されるべきこの文章からの定義および詳細は、本願発明による実施形態において、オプションで個々にも組み合わせてもいずれにしても、使用することができることに留意すべきである。

ＵＳＡＣの符号化または復号化を検討するときには、条項６の表７４を図１０ｄに示す表で置き換える必要がある。

ＵＳＡＣ規格に導入されるかもしれないいくつかの可能な変更を結論づけることが説明された。しかしながら、ここで説明されているような概念は他のオーディオ符号化規格と
関連しても使用され得る。換言すれば、本明細書で説明されるように、他の任意のオーディオコーディング規格のいくつかの構成構造にストリーム識別子情報を導入することも可能であろう。

本明細書でストリーム識別子情報に関して説明した特徴は、他の符号化規格と組み合わせて採用したときにも適用することができる。この場合、用語はそれぞれのオーディオ符号化規格の用語に適合されるべきである。

以下に、本願発明によるいくつかのオプションの効果および利点または特徴を説明する。

提示された構成拡張は、それ以外はビット同一である構成構造を区別するための容易に実施可能な解決策を提供する。構成間で獲得された区別可能性は、例えば、ストリーム間のシームレスな遷移を伴う動的適応ストリーミングの正確かつ本来意図された機能を可能にする。

以下では、いくつかの代替解決策を説明する。

例えば、エンコーダが、ストリームのセット内のすべてのストリームが異なる構成を有すること、すなわちそれらが異なる符号化ツールを使用すること、または異なるパラメータ化を使用することを保証する場合、上述の問題は回避され得る。個々のストリームのビットレートの相違が十分に大きい場合、これは通常ペアごとに異なる設定になる。これはよくあるが、ビットレートの細かいグリッドが必要な場合、（従来の）解決策ではうまくいかない場合がある。

対照的に、構成部分（構成構造とも呼ばれる）に含まれるストリーム識別子を使用して異なるストリームを区別することにより、残りの構成構造が同一である場合にも（ビットレートは似ていることもある）ストリームを区別することができる。

代わりに（例えば、ストリーム識別子を使用する代わりとして）、ストリームごとに異なるが、どういうわけか異なるように構造化された、適切な未指定の構成拡張を作成することができる。効果は同じになる。上述のシナリオで構成が比較されるときにすべてのデコーダ実装がこの未指定の構成拡張を評価することを保証することはできないため、正しい機能は保証できない。

対照的に、本願発明による実施形態は、ストリーム識別子が構成構造内で明確に指定され、異なるストリームの明確な区別を可能にするという概念を生み出す。

本願発明の概念の実施は、ＵＳＡＣストリームの構成構造の分析によって認識することができることに留意すべきである。さらに、本願発明の概念の実施は、上述のように構成拡張の存在についてテストすることによって認識することができる。

以下では、本願発明による態様のいくつかの可能な適用分野について説明する。

本願発明による実施形態は、その他の点では同一のデータ構造の識別可能性を提供する。

本願発明によるさらなる実施形態は、他の点では同一のオーディオコーデック構成構造の識別可能性を提供する。

本願発明による実施形態は、任意の伝送ネットワーク上で音声のシームレスで動的な適応ストリーミングを可能にする。

以下では、いくつかのさらなる態様が説明され、それらはオプションであると見なされるべきである。

例えば、オーディオエンコーダ／オーディオストリーム供給器の振舞いを以下に説明する。以下では、（オーディオストリーム供給器の形態をとることもできる）オーディオエンコーダに関するいくつかのオプションの詳細について説明する。

オーディオエンコーダは通常、その構成を突然変更する１つの（単一の）ストリームを生成しないが、エンコーダまたは複数のエンコーダインスタンスを含むエンコーダフレームワークは、ストリーム内の同期位置（時点）でＩＰＦ（複数）（"即時再生フレーム"）（複数））をそれぞれ含む複数のストリームを並列に生成する。

次いで、デコーダフレームワークは、特定のおよび／または所定の基準に従って、たとえばインターネット接続の品質、並列に生成されたストリームのうちの１つを選択し、かつエンコーダ側サーバに"依頼"（または要求）してストリームを正確に送信する。そしてそのストリームをデコーダに転送する。それ以上エンコードされたストリームはすべて単に無視される。ストリーム間の変更は、ＩＰＦでのみ許可される。

オーディオデコーダは、最初はそのような変更を認識しない、および／またはそのような変更について、例えばデコーダフレームワークによって通知されない。むしろ、オーディオデコーダは、埋込まれた構成構造（"Ｃｏｎｆｉｇ－ｓｔｒｕｃｔｕｒｅｓ"）の比較によってストリームの変化を検出する必要がある。デコーダから見ると、エンコーダは構成（"Ｃｏｎｆｉｇ"）が変更されたストリームを生成しただけのように見える。実際、これは通常そうではない。むしろ、（異なるビットレートを含む）複数の変形が常に（連続的に）エンコーダによって並行して生成され、デコーダフレームワークおよびエンコーダ側サーバ（またはストリーム供給器）のみがストリームを分割し、ストリームの一部（またはストリーム）を再配置（再連結）する。

さらなるオプションの詳細が図示されている。

さらに、図面に示されている装置は、個々にまたは組合せてのいずれかで、本明細書に記載されている任意の特徴および機能によって追加できることに留意すべきである。

結論として、オーディオエンコーダまたはオーディオストリーム供給器は、異なるストリームの供給を特定のオーディオデコーダ（またはオーディオ復号化装置）に切替えることができ、この切替えは、例えばオーディオデコーダの要求に応じて、あるいは、オーディオ復号化装置、または他のネットワーク管理装置の要求に応じて、あるいはオーディオエンコーダまたはオーディオストリーム供給器の決定によってさえ実行できる。異なるオーディオストリームからのフレームの供給間の切替えは、実際のビットレートを利用可能なビットレートに適応させるために使用され得る。オーディオエンコーダ（またはオーディオストリーム供給器）からオーディオデコーダに示されるデコーダ構成は、異なるストリーム間で同一であり得るが、ストリーム識別子は異なるストリーム間で異なるはずである。従って、オーディオデコーダは、ストリーム識別子を用いて、即時再生フレームに含まれる付加情報（例えば、設定情報およびプリロール情報）を用いてオーディオデコーダの再初期化がいつ行われるべきかを認識することができる。

さらなる結論として、本願明細書で説明されるようにストリーム識別子（"ｓｔｒｅａｍＩＤ」）を使用することは、本願発明の態様の根底にある問題および実施形態の可能な使用シナリオを説明するセクションで述べられる問題を克服し得る。

１０．方法

図１１ａ～図１１ｃは、本願発明による実施形態による方法のフローチャートを示す。

図１１ａ～図１１ｃに示される方法は、本明細書に記載される特徴および機能のうちのいずれかによって補足され得る。

１１．代替の実装

いくつかの態様が装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様はまた、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。方法ステップのいくつかまたはすべては、例えばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって（または使用して）実行されてもよい。いくつかの実施形態では、そのような装置によって１つ以上の最も重要な方法ステップを実行することができる。

本願発明の符号化オーディオ信号は、デジタル記憶媒体に記憶することができ、あるいは無線伝送媒体またはインターネットのような有線伝送媒体のような伝送媒体に伝送することができる。

特定の実施要件に応じて、本願発明の実施形態はハードウェアまたはソフトウェアで実装することができる。実装は、電子的に読み取り可能な制御信号が記憶されているデジタル記憶媒体、例えばフロッピーディスク（フロッピーは登録商標）、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して実行することができ、それらは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。従って、デジタル記憶媒体はコンピュータ可読であり得る。

本願発明によるいくつかの実施形態は、本明細書に記載の方法のうちの１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータ担体を含む。

一般に、本願発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するときに方法のうちの１つを実行するように動作可能である。プログラムコードは、例えば機械可読キャリアに格納してもよい。

他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含む。

換言すれば、本願発明の方法の一実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記録したデータ担体（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データ担体、デジタル記憶媒体、または記録された媒体は通常、有形および／または非一時的である。

従って、本願発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、例えばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合された処理手段、例えばコンピュータ、またはプログラマブルロジックデバイスを含む。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本願発明によるさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを（例えば、電子的または光学的に）レシーバに転送するように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ機器などであり得る。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含み得る。

いくつかの実施形態では、プログラマブルロジックデバイス（例えばフィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの１つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実装することができる。

本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装することができる。

本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、あるいはハードウェア装置とコンピュータとの組み合わせを使用して実行することができる。

本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行され得る。

上述の実施形態は、本願発明の原理を説明するための例示にすぎない。本明細書に記載された配置および詳細の修正および変形は、他の当業者にとって明らかであろうことが理解される。従って、差し迫った特許請求の範囲によってのみ限定され、本明細書の実施形態の記述または説明のために提示された具体的な詳細によっては限定されないことが意図されている。

Claims

エンコードされたオーディオ信号表現（１１０；２１０；３１２；４１２；５５０；６００；７００；８００）に基づいてデコードされたオーディオ信号表現（１１２；２１２）を供給するためのオーディオデコーダ（１００；２００）であって、
前記オーディオデコーダは構成情報（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）に依存して復号化パラメータを調整するように構成され、
前記オーディオデコーダは現在の構成情報（１４０；２４０）を使用して１つ以上のオーディオフレームをデコードするように構成され、かつ、
前記オーディオデコーダはデコードされるべき１つ以上のフレーム（２２２）と関連付けられた構成構造における構成情報（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）を現在の構成情報（１４０；２４０）と比較し、前記デコードされるべき１つ以上のフレームと関連付けられた前記構成構造における構成情報または前記デコードされるべき１つ以上のフレームと関連付けられた前記構成構造における前記構成情報の関連部分（１０２０ａ，１０２０ｂ，１０２２ａ，１０２４ａ，１０２４ｂ，１０２６ａ，１０５０ａ）が前記現在の構成情報と異なる場合、遷移を実行して、前記デコードされるべき１つ以上のフレーム（２２２）と関連付けられた前記構成構造における前記構成情報（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）を新しい構成情報として使用してデコードするように構成されており、
前記オーディオデコーダは前記構成情報を比較する際に、前記構成構造に含まれるストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を考慮して、前記オーディオデコーダが以前に獲得したストリーム識別子と前記デコードされるべき１つ以上のフレームに関連付けられた前記構成構造におけるストリーム識別子情報により表されるストリーム識別子との相違によって前記遷移が実行されるようにするように構成される、オーディオデコーダ。
前記オーディオデコーダは、前記構成構造が前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含むかをチェックし、前記ストリーム識別子情報が前記構成構造（２２２ｃ；１０１０，１０３０）に含まれている場合、前記比較において前記ストリーム識別子情報を選択的に考慮するように構成される、請求項１に記載のオーディオデコーダ。
前記オーディオデコーダは、前記構成構造（２２２ｃ；１０１０，１０３０）が構成拡張構造（２２６；１０３０）を含んでいるかをチェックし、かつ、前記構成拡張構造が前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含んでいるかをチェックするように構成され、かつ、
前記オーディオデコーダは、前記ストリーム識別子情報が前記構成拡張構造に含まれている場合、前記比較において前記ストリーム識別子情報を選択的に考慮するように構成される、請求項１または２に記載のオーディオデコーダ。
前記オーディオデコーダは、前記構成拡張構造（２２６；１０３０；ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（））における構成情報アイテムの順序が可変であることを受け入れるように構成され、かつ、
前記オーディオデコーダは、デコードされるべき１つ以上のフレームに関連付けられた前記構成構造における前記構成情報を前記現在の構成情報（１４０；２４０）と比較するとき、前記構成拡張構造において前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）より前に配置された構成情報アイテムを考慮するように構成され、かつ、
前記オーディオデコーダは、デコードされるべき１つ以上のフレームに関連付けられた前記構成構造における前記構成情報を前記現在の構成情報と比較するとき、前記構成拡張構造において前記ストリーム識別子情報の後に配置された構成情報アイテムを、考慮しないままにするように構成される、請求項３に記載のオーディオデコーダ。
前記オーディオデコーダは、前記各構成情報アイテムに先行する１つ以上の構成拡張タイプ識別子（１０４２）に基づいて、前記構成拡張構造における１つ以上の構成情報アイテム（１０４６ａ，１０４８ａ，１０５０ａ）を識別するように構成される、請求項４に記載のオーディオデコーダ。
前記構成拡張構造（２２６；１０３０）は前記構成構造（２２２ｃ；１０１０，１０３０）のサブデータ構造であり、前記構成拡張構造の存在は前記オーディオデコーダによって評価される前記構成構造（２２２ｃ；１０１０，１０３０）のビット（ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ）により示され、かつ、
前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）は前記構成拡張構造のサブデータアイテムであり、
前記ストリーム識別子情報の存在は、前記オーディオデコーダによって評価される前記ストリーム識別子情報に関連付けられた構成拡張タイプ識別子（１０４２）によって示される、請求項３ないし５のいずれか１つに記載のオーディオデコーダ。
前記オーディオデコーダはランダムアクセス情報（２２２ｂ）を含むオーディオフレーム表現を取得して処理するように構成され、
前記ランダムアクセス情報は構成構造（２２２ｃ，１０１０，１０３０）と前記オーディオデコーダの処理チェーンを所望の状態にするための情報（２２２ｄ；ＡｃｃｅｓｓＵｎｉｔ（））とを含み、
前記オーディオデコーダが前記ランダムアクセス情報の前記構成構造（２２２ｃ）における前記構成情報または前記ランダムアクセス情報の前記構成構造における前記構成情報の関連部分が、前記現在の構成情報（２４０）と異なることを検出した場合、前記オーディオデコーダは、前記ランダムアクセス情報の前記構成構造（２２２ｃ）を使用した前記オーディオデコーダの初期化を行った後および処理チェーンの状態を所望の状態にするための前記情報（２２２ｄ）を使用して前記オーディオデコーダの状態を調整した後に、前記ランダムアクセス情報を含む前記オーディオフレーム表現に到達する前に処理されたオーディオフレーム（２２０）により表わされるオーディオ情報（２７２）と前記ランダムアクセス情報を含む前記オーディオフレーム表現（２２２）に基づいて導出されるオーディオ情報（２７６）との間でクロスフェードを行うように構成されている、請求項１ないし６のいずれかに記載のオーディオデコーダ。
前記オーディオデコーダが前記ランダムアクセス情報を含む前記オーディオフレーム表現により表わされるオーディオフレームの直前のオーディオフレームをデコードした場合および前記オーディオデコーダが前記ランダムアクセス情報の前記構成構造における前記構成情報（２２２ｃ）の前記関連部分が前記現在の構成情報（２４０）に等しいことを検知した場合、前記オーディオデコーダは前記オーディオデコーダの初期化を実行することなく、かつ前記オーディオデコーダの前記処理チェーンの状態を所望の状態にするための前記情報（２２２ｄ）を使用することなく、デコードを実行し続けるように構成されている、請求項７に記載のオーディオデコーダ。
前記オーディオデコーダが前記ランダムアクセス情報を含む前記オーディオフレーム表現により表わされるオーディオフレームの直前のオーディオフレームをデコードしなかった場合、前記オーディオデコーダは前記ランダムアクセス情報の前記構成構造（２２２ｃ）を使用して前記オーディオデコーダの初期化を実行し、前記処理チェーンの状態を所望の状態にするための前記情報（２２２ｄ）を使用して前記オーディオデコーダの状態を調整するように構成されている、請求項７または８に記載のオーディオデコーダ。
エンコードされたオーディオ信号表現（１１０；２１０；３１２；４１２；５５０；６００；７００；８００）を供給するためのオーディオエンコーダ（３００）であって、
前記オーディオエンコーダは符号化パラメータを使用してオーディオ信号（３１０）の重畳あるいは非重畳フレームをエンコードして前記エンコードされたオーディオ信号表現を得るように構成され、
前記オーディオエンコーダは前記符号化パラメータまたはオーディオデコーダが使用する復号化パラメータを記述する構成構造（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）を供給するように構成され、
前記構成構造はストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む、オーディオエンコーダ。
前記オーディオエンコーダは前記構成構造（２２２ｃ；１０１０）の構成拡張構造（２２６；１０３０；ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（））に前記ストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含めるように構成され、前記ストリーム識別子を含む前記構成拡張構造は前記オーディオエンコーダによりイネーブルおよびディセーブルにすることができる、請求項１０に記載のオーディオエンコーダ。
前記オーディオエンコーダは前記構成拡張構造（２２６；１０３０；ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎ（））に、前記構成拡張構造における前記ストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）の存在をシグナリングするよう前記ストリーム識別子に指定する構成拡張タイプ識別子（１０４２）を含めるように構成される、請求項１１に記載のオーディオエンコーダ。
前記オーディオエンコーダは前記ストリーム識別子を含む少なくとも１つの構成構造（２２２ｃ；１０１０，１０３０）および前記ストリーム識別子を含まない少なくとも１つの構成構造を供給するように構成されている、請求項１０ないし１２の１つに記載のオーディオエンコーダ。
前記オーディオエンコーダは、オーディオフレームの第１のシーケンスにより表わされる第１のエンコードされたオーディオ情報（５５２；７１０，７２０；８１０）の提供と、オーディオフレームの第２のシーケンスにより表わされる第２のエンコードされたオーディオ情報（５５４；７３０，７４０，７５０；８２０）の提供との間で切替わるように構成され、
オーディオフレームの前記第１のシーケンスの最後のフレーム（７２０；８１０ｅ）をレンダリングした後でオーディオフレームの前記第２のシーケンスの第１のオーディオフレーム（７３０；８２０ａ）を適切にレンダリングするには、オーディオデコーダの再初期化が必要とされ、
前記オーディオエンコーダは、オーディオフレームの前記第２のシーケンスの前記第１のフレームを表わすオーディオフレーム表現に、オーディオフレームの前記第２のシーケンスに関連付けられたストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む構成構造（２２２ｃ，１０１０，１０３０）を含めるように構成され、
オーディオフレームの前記第２のシーケンスに関連付けられた前記ストリーム識別子は、オーディオフレームの前記第１のシーケンスに関連付けられたストリーム識別子とは異なる、請求項１０ないし１３の１つに記載のオーディオエンコーダ。
前記オーディオエンコーダは、オーディオフレーム情報の第１のシーケンス（５５２；７１０，７２０；８１０）からオーディオフレームの第２のシーケンス（５５４；７３０
，７４０，７５０；８２０）への切り替えを示す他のいかなるシグナリング情報もストリーム識別子以外に提供しない、請求項１０ないし１４の１つに記載のオーディオエンコーダ。
前記オーディオエンコーダは異なるビットレートを使用して、オーディオフレームの前記第１のシーケンス（５５２；７１０，７２０；８１０）およびオーディオフレームの前記第２のシーケンス（５５４；７３０，７４０，７５０；８２０）を提供するように構成され、かつ、
前記オーディオエンコーダは、異なるビットストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を除き、オーディオフレームの前記第１のシーケンスの前記デコードのためおよびオーディオフレームの前記第２のシーケンスのデコードのために同じデコーダ構成情報（２２２ｃ；１０１０，１０３０）をオーディオデコーダにシグナリングするように構成される、請求項１４または１５に記載のオーディオエンコーダ。
エンコードされたオーディオ信号表現に基づいてデコードされたオーディオ信号表現を提供するための方法であって、
前記方法は構成情報（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）に応じて復号化パラメータを調整するステップを含み、
前記方法は現在の構成情報（１４０；２４０）を使用して１つ以上のオーディオフレームをデコードするステップを含み、
前記方法はデコードされる１つ以上のフレーム（２２２）に関連付けられた構成構造における構成情報（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）を前記現在の構成情報と比較するステップを含み、かつ前記方法は、デコードされる前記１つ以上のフレームに関連付けられた前記構成構造における前記構成情報またはデコードされる前記１つ以上のフレームに関連付けられた前記構成構造における前記構成情報の関連部分（１０２０ａ，１０２０ｂ，１０２２ａ，１０２４ａ，１０２４ｂ，１０２６ａ，１０５０ａ）が前記現在の構成情報と異なる場合、遷移を実行して、デコードされる前記１つ以上のフレームと関連付けられた前記構成構造における前記構成情報を新たな構成情報として使用して、デコードを実行するステップを含み、
前記方法は前記構成情報を比較するとき、前記構成構造に含まれるストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を考慮して、前記オーディオデコードにおいて以前に獲得したストリーム識別子とデコードされる前記１つ以上のフレームに関連付けられた前記構成構造における前記ストリーム識別子情報により表わされるストリーム識別子との間の相違が前記遷移を発生させるようにするステップを含む、方法。
エンコードされたオーディオ信号表現（１１０；２１０；３１２；４１２；５５０；６００；７００；８００）を供給するための方法であって、
前記方法は符号化パラメータを使用してオーディオ信号（３１０）の重畳または非重畳フレームをエンコードして前記エンコードされたオーディオ信号表現を取得するステップを含み、
前記方法は符号化パラメータまたはオーディオデコーダが使用する復号化パラメータを記述する構成構造（１１０ａ；２２２ｃ；３３２；４２４；１０１０，１０３０）を供給するステップを含み、
前記構成構造はストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む、方法。
オーディオ信号の重畳または非重畳フレームのエンコード表現（２２２ａ）と、
符号化パラメータまたはオーディオデコーダが使用する復号化パラメータを記述する構成構造（２２２ｃ）とを備えるオーディオストリーム（１１０；２１０；３１２；４１２；５５０；６００；７００；８００）であって、
前記構成構造は、ストリーム識別子を表すストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む、オーディオストリーム。
前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）は構成拡張構造（２２６；１０３０；ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｔｉｏｎ（））に含まれ、
前記構成拡張構造は構成構造（２２２ｃ；１０１０）のサブデータ構造であり、前記構成拡張構造の存在は前記構成構造のビット（ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ）により示され、
前記ストリーム識別子情報（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）は前記構成拡張構造のサブデータアイテムであり、
前記ストリーム識別子情報の存在は前記ストリーム識別子情報と関連付けられた構成拡張タイプ識別子（１０４２）により示される、請求項１９に記載のオーディオストリーム。
前記ストリーム識別子はオーディオフレームの表現（２２２）のサブデータ構造（２２２ｃ，２２６；１０１０，１０３０）に埋め込まれている、請求項１９または２０に記載のオーディオストリーム。
前記ストリーム識別子は構成構造を含むオーディオフレームの表現のサブデータ構造にのみ埋め込まれている、請求項１９ないし２１の１つに記載のオーディオストリーム。
エンコードされたオーディオ信号表現（１１０；２１０；３１２；４１２；５００；６００；７００；８００）を供給するためのオーディオストリーム供給器であって、
前記オーディオストリーム供給器は、前記エンコードされたオーディオ信号表現の一部として、符号化パラメータを使用してエンコードされた、オーディオ信号の重畳または非重畳フレームのエンコードされたバージョン（２２０，２２２；７１０，７２０，７３０，７４０，７５０；８１０ａ－８１０ｅ，８２０ａ－８２０ｄ，８３０ａ－８３０ｄ）を供給するように構成され、
前記オーディオストリーム供給器は前記エンコードされたオーディオ信号表現の一部として、前記符号化パラメータまたはオーディオデコーダが使用する復号化パラメータを記述する構成構造（２２０；１０１０；１０３０）を供給するように構成され、
前記構成構造はストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む、オーディオストリーム供給器（４００）。
前記オーディオストリーム供給器は、前記ストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）が前記構成構造の構成拡張構造（２２２ｃ；１０３０）に含まれるように前記エンコードされたオーディオ信号表現を供給するように構成され、前記ストリーム識別子を含む前記構成拡張構造は、前記構成構造における１つ以上のビット（ＵｓａｃＣｏｎｆｉｇＥｘｔｅｎｓｉｏｎＰｒｅｓｅｎｔ）によってイネーブルおよびディセーブルすることができる、請求項２３に記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は、前記構成拡張構造が前記ストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）に、前記構成拡張構造における前記ストリーム識別子の存在を示すように指定する構成拡張タイプ識別子（１０４２）を含むように、前記エンコードされたオーディオ信号表現を供給するよう
に構成される、請求項２４に記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は、前記エンコードされたオーディオ信号表現が前記ストリーム識別子を含む少なくとも１つの構成構造（２２２ｃ；１０１０，１０３０）および前記ストリーム識別子を含まない少なくとも１つの構成構造を含むように、前記エンコードされたオーディオ信号表現を供給するように構成されている、請求項２３ないし２５の１つに記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は、オーディオフレームの第１のシーケンスにより表わされるエンコードされたオーディオ情報の第１の部分情報（５５２；７１０，７２０；８１０）の供給と、オーディオフレームの第２のシーケンスにより表される前記エンコードされたオーディオ情報の第２の部分（５５４；７３０，７４０，７５０；８２０）の供給との間で切替わるように構成され、
オーディオフレームの前記第１のシーケンスの最後のフレーム（７２０；８１０ｅ）をレンダリングした後でオーディオフレームの前記第２のシーケンスの第１のオーディオフレーム（７３０；８２０ａ）を適切にレンダリングするにはオーディオデコーダの再初期化が必要とされ、
前記オーディオストリーム供給器は、オーディオフレームの前記第２のシーケンスの前記第１のフレームを表わすオーディオフレーム表現がオーディオフレームの前記第２のシーケンスと関連付けられたストリーム識別子（２３０；ｓｔｒｅａｍＩＤ，１０５０ａ，ｓｔｒｅａｍＩｄｅｎｔｉｆｉｅｒ）を含む構成構造（２２２ｃ；１０１０）を含むように、前記エンコードされたオーディオ信号表現を供給するように構成されており、
オーディオフレームの前記第２のシーケンスに関連付けられた前記ストリーム識別子はオーディオフレームの前記第１のシーケンスに関連付けられたストリーム識別子とは異なる、請求項２３ないし２６の１つに記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は、前記エンコードされたオーディオ信号表現がオーディオフレームの前記第１のシーケンスからオーディオフレームの前記第２のシーケンスへの切替えを示す他のいかなるシグナリング情報も前記ストリーム識別子以外に供給しないように、前記エンコードされたオーディオ信号表現を供給するように構成される、請求項２３ないし２７の１つに記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は、オーディオフレームの前記第１のシーケンス（５５２；７１０，７２０；８１０）およびオーディオフレームの前記第２のシーケンス（５５４；７３０，７４０，７５０；８２０）が異なるビットレートを使用してエンコードされるように、前記エンコードされたオーディオ信号表現を供給するように構成され、かつ、
前記オーディオストリーム供給器は、前記エンコードされたオーディオ信号表現が異なるビットストリーム識別子を除いて、オーディオフレームの前記第１のシーケンスの前記デコードおよびオーディオフレームの前記第２のシーケンスの前記デコードについて同じデコーダ構成情報をオーディオデコーダにシグナリングするように、エンコードされたオーディオ信号表現を供給するように構成されている、請求項２７または請求項２８の１つに記載のオーディオストリーム供給器。
前記オーディオストリーム供給器はオーディオデコーダへのオーディオフレーム（５５２；７１０，７２０；８１０）の第１のシーケンスの供給およびオーディオデコーダへのオーディオフレーム（５５４；７３０，７４０，７５０；８２０）の第２のシーケンスの供給との間で選択的に切替わるように構成され、
オーディオフレームの前記第１のシーケンスおよびオーディオフレームの前記第２のシーケンスは異なるビットレートを使用してエンコードされ、
前記オーディオストリーム供給器は、前記オーディオフレーム表現がランダムアクセス情報（２２２ｂ;ＡｕｄｉｏＰｒｅＲｏｌｌ（））を含むオーディオフレームにおいて、ランダムアクセス情報を含まないオーディオフレームではシーケンス間の切替えを回避しながら、オーディオフレームの第１のシーケンスの供給とオーディオフレームの第２のシーケンスの供給とを選択的に切替えるように構成され、
前記オーディオストリーム供給器は、ストリーム識別子がオーディオフレームの前記第１のシーケンスからオーディオフレームの前記第２のシーケンスへの切替の際に供給されるオーディオフレームの構成構造（２２２ｃ；１０１０，１０３０）に含まれるように、エンコードされたオーディオ信号表現を供給するように構成される、請求項２３ないし２９の１つに記載のオーディオストリーム供給器。
前記オーディオストリーム供給器は異なるビットレートを使用してエンコードされたオーディオフレームの複数の並列シーケンス（５２０，５３０）を取得するように構成され、かつ前記オーディオストリーム供給器はオーディオデコーダへのフレームの供給を異なるシーケンスから切替えるように構成され、前記オーディオストリーム供給器は切替え後に提供される第１のオーディオフレーム表現の構成構造に含まれるストリーム識別子を使用して、１つ以上のフレームがどちらのシーケンスに関連付けられているかをオーディオデコーダにシグナリングするように構成されている、請求項３０に記載のオーディオストリーム供給器。
エンコードされたオーディオ信号表現を供給するための方法であって、
前記方法は、符号化パラメータを使用してエンコードされたオーディオ信号の重畳または非重畳フレームのエンコードされたバージョンを前記エンコードされたオーディオ信号表現の一部として供給するステップを含み、
前記方法は前記エンコードされたオーディオ信号表現の一部として、前記符号化パラメータまたはオーディオデコーダが使用する復号化パラメータを記述する構成構造を供給するステップを含み、
前記構成構造はストリーム識別子を含む、方法。
コンピュータプログラムがコンピュータ上で動作するとき、請求項１７または１８または３２に記載の方法を実行するためのコンピュータプログラム。