JP2021145343A

JP2021145343A - 効率的な適応ストリーミング

Info

Publication number: JP2021145343A
Application number: JP2021078695A
Authority: JP
Inventors: ローベルトスクーピン; Skupin Robert; ヤーゴサンチェス; Sanchez Yago; トーマスシーアル; Schierl Thomas; コルネリウスヘルゲ; Hellge Cornelius; カルステングルーエネベルク; Grueneberg Karsten; トーマスウィーガント; Thomas Wiegand
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-02-16
Filing date: 2021-05-06
Publication date: 2021-09-24
Anticipated expiration: 2037-02-14
Also published as: JP2019509672A; CN109076252A; JP7026627B2; KR102287703B1; EP3417625A1; US20190014363A1; CA3014370A1; WO2017140685A1; JP7483657B2; KR20180113593A; US10986383B2; CN109076252B; TWI670974B; TW201731295A

Abstract

【課題】効率的な適応型ストリーミングを提供する。【解決手段】適応型ストリーミングは、第１のビデオストリーム３６から第２のビデオストリーム３８に切り替える前に移行フェーズをスケジューリングするようにビデオを取り出す装置を構成することおよび／またはアダプティブストリーミングプロトコルに従ってビデオを出力する装置を構成することにより、そのような同じことが、残留ビデオ符号化なしで層間予測を使用して高められた空間解像度でビデオを符号化した第２の層Ｌ２を有する、階層化ビデオストリームまたは高空間分解能ストリームの形態でビデオを出力することを切り替えることをサポートすることによって、オープンＧＯＰ構造の使用とより効率的に組み合わせ可能になる。ビデオなどのメディアコンテンツは、それを従属（第２）表現で表現することを可能にすることによって、適応ストリーミングを介してより効率的にストリーミング可能にする。【選択図】図５

Description

本発明は、本出願は、ＤＡＳＨを使用するような適応型ストリーミングに関する。

アダプティブストリーミングを使用して、メディアデータストリームが、時間セグメントでサーバからクライアントに提供される。アプリケーションに応じて、サーバは異なるビットレートでメディアをクライアントに提供することができる。すなわち、異なるバージョンのメディアコンテンツの時間的セグメンのシーケンスがダウンロードのためにクライアントに利用可能であり、メディアストリーミングの間に、異なるバージョン間の切り替えが実現可能である。したがって、クライアントからサーバから取り出された時間セグメントのシーケンスは、インターリーブ化された形式で、第１のバージョンに由来するものと、別のバージョンに由来するものとを含む。しかし、メディアコンテンツを符号化するためのより効率的なオープンＧＯＰ構造（この場合は参照ピクチャ）を利用したい場合には、問題が生じる可能性があり、特に、ストリームをデコードする際に参照が欠けている先頭のピクチャが、それらの関連するランダムアクセスポイント（例えば、ランダムアクセススキップ先行画像−ＨＥＶＣのＲＡＳＬピクチャ）で開始されると、そのような状況では失われる可能性がある。メディアコンテンツを符号化するためにクローズドＧＯＰ構造を使用しても、これらの問題は発生しないが、より低い符号化／圧縮効率に終わる。

適応型ストリーミングの改善を達成することに一般的に関心がある他の態様は、次の時間的セグメントの発行を要求するためにクライアントからサーバへの必要な要求の頻度のようなストリーミングパラメータ、平均チューンイン待ち時間、すなわちクライアントが特定のメディアコンテンツへのアクセスを得ることができる平均時間に関し、そして、それは、レイテンシを最小限に抑える必要があり、ストリーミングメディアコンテンツのビットレートピークとしてのビットレートピークの回避は、ビットレート変動を補償するためにクライアントでより大きな入力バッファを必要とする。

したがって、本発明の目的は、上述の改良点を達成する適応型ストリーミングの概念を提供することである。

この目的は、独立請求項の主題によって解決される。

本出願の第１の態様に係る考えによれば、適応型ストリーミングは、第１のビデオストリームから第２のビデオストリームに切り替える前に移行フェーズをスケジューリングするようにビデオを取り出す装置を構成することにより、オープンＧＯＰ構造の使用とより効率的に組み合わせ可能になる。移行フェーズが、第１のビデオストリームに基づいてＲＡＳＬピクチャのようなランダムアクセス依存ピクチャの欠落した参照ピクチャを補償するのに十分な時間を提供するので、第２のビデオストリームは、この手段によって、オープンＧＯＰ構造を使用して符号化される。

本出願の第１の態様に関する第２の考えによれば、適応型ストリーミングは、アダプティブストリーミングプロトコルに従ってビデオを出力する装置を構成することにより、オープンＧＯＰ構造の使用とより効率的に組み合わせることができ、そのような同じことが、残留ビデオ符号化なしで層間予測を使用して高められた空間解像度でビデオを符号化し
た第２の層を有する、階層されたビデオストリームまたは高い空間分解能ストリームの形式でビデオを出力することを切り替えることをサポートする。この手段により、ＲＡＳＬピクチャのようなランダムアクセス依存ピクチャの前述の欠落参照ピクチャを置換するための情報がクライアントで容易に利用可能になる。ランダムアクセス依存ピクチャの参照ピクチャが残余符号化なしで符号化された階層化されたビデオを使用して利用可能になる第２のストリームは、層間予測を使用して符号化された階層化されたビデオの層であってもよく、すなわち、層間予測なしに符号化された層である。後者の場合、層間予測は、利用可能なランダムアクセス依存ピクチャの参照ピクチャを作成するためにのみ使用されることを意味する。

本出願の第２の態様によれば、ビデオなどのメディアコンテンツは、それを従属（第２）表現で表現することを可能にすることによって、適応ストリーミングを介してより効率的にストリーミング可能にする。この従属（第２）表現は、時間セグメントの第１のセットに時間的に対応するメディアコンテンツの第１（参考）表現の第１の部分に依存して、メディアコンテンツをそこに符号化した時間セグメントの第１のセットから構成される。また、従属（第２の）表現は、時間セグメントの第２のセットに時間的に対応する第１の表現の第２の部分から独立してメディアコンテンツをそこに符号化した第２の表現の時間セグメントの第２のセットから構成される。そのため、第２の表現からのメディアコンテンツの成功した再構成は、第２の部分なしで第１の表現に沿って進む。

本出願の第３の態様によれば、いくつかのチャネルからなるメディアシーンは、各チャネルについて、より効率的にストリーミング可能に消費され、ランダムアクセスポイントの時間的分布が異なる各チャネルの表現の集合である。この測定によって、クライアントデバイスは、高速チューンインおよび低ビットレートの変動を最適化するための表現の間の切り替えをスケジュールすることができる。

本出願の第４の態様によれば、適応型ストリーミング品質は、クライアントに提供することによってサーバで提供される２つの表現またはメディアストリーム間で移行（遷移）するときに増加し、第１および第２のメディアストリームに加えて、前記第１および第２のメディアストリームに依存して、前記メディアコンテンツを符号化した補助メディアストリームを有している。
クライアントは、第１および第２のメディアストリームと共に補助メディアストリームを取り出し、第２の補助ストリームの代わりに補助メディアストリームを再生するフェーディングフェーズによって、第１の表現から第２の表現に切り替えるときに、フェードするために同じものを使用することができる。

有利な実施形態は、従属請求項の主題である。本出願の好ましい実施形態を図面に関して以下に説明する。

図１は、オープンＧＯＰ構造を使用して符号化されたビデオを有するビデオデータストリームを示す図であり、提示時間順のビデオデータストリームを示す図である。図２は、オープンＧＯＰ構造を使用してピクチャを符号化したビデオデータストリームのピクチャのパスを提示時間順に示す概略図であり、オープンＧＯＰ構造は、図１のものに対応し、例としてサーバだけである。図３は、上半分では、適応的ストリーミングのためのセグメントに時間的に細分された２つの別個に／独立して符号化されたビデオデータストリームの概略図を示し、下半分では、より低い品質からより高い品質への移行でクライアントに到着するステッチデータストリームの概略図を示す。図４は、本発明の第１の態様に関する実施形態による出力装置を示す概略図である。図５は、一実施形態による、図４の出力デバイスによって使用される階層化ビデオストリームおよび増加空間解像度ビデオストリームを示す概略図である。図６は、本発明の第１の態様に関する実施形態によるクライアント装置を示す概略図である。図７は、一実施形態による、より低い空間解像度からより高い空間解像度への切り替え時に移行フェーズを挿入することに関する図６のクライアント装置の動作モードを示す概略図である。図８は、図５のストリームを使用しているときに、図６のクライアント装置によってサーバから取得されたインバウンドステッチビデオデータストリームを示す概略図である。図９は、増加した空間解像度のビデオストリームが階層化されたビデオストリームであることを示すことによって、図８の使用されたストリームを示す概略図である。図１０は、空間分解能の高いビデオデータストリームのために独立して符号化された層を使用し、階層化されたビデオデータストリームを生成するための第１および第２の層の両方を搬送するセグメントを使用する場合に、図６のクライアントデバイスによって受信されたスプライスされたビデオデータストリームのスプライスポイントを示す概略図である。図１１は、層状ビデオストリームのセグメントが共通セグメント内の第１の層および第２の層を含む実施形態による、サーバ側で適応的ストリーミングのために準備されたデータ構造を示す概略図である。図１２は、図１１の代替実施形態によるデータ構造を示す概略図であり、別個のセグメントが、層状ビデオストリーム内の第１の層および第２の層に使用される。図１３は、図１０の状況を示す概略図を示しているが、ここでは、階層化されたビデオストリームの第１および第２の層のための別個のセグメントを使用する。図１４は、２つの表現の４つの連続するセグメントを示す概略図を示し、表現Ｑ２は表現Ｑ１に依存し、上半分では、ＲＡＰを担持するセグメントが時間的に整列されている例が示されており、下半分には、セグメントが非整列であることが示されており、ダウンロード表現Ｑ２で結果として得られるダウンロードビットレートを示し、それによって非整列ＲＡＰを使用する場合にはより低いビットレートのピークを示す。図１５は、表現Ｑ２が表現Ｑ１に依存している場合の８つの連続するセグメントを示す概略図であり、表現Ｑ１とは独立した表現Ｑ２のセグメントのいくつかを符号化している。図１６は、図１５に示す構造を利用し得る出力装置を示す概略図である。図１７は、図１６の出力装置に適合し得るクライアント装置を示す概略図である。図１８は、完全なシーンをダウンロードする際に得られるビットレートピークを示すと共に、表現において時間的に整列したＲＡＰを有する共通の特徴シーンのセクションごとに１つの表現を有する場合を示す概略図である。図１９は、マルチチャネルメディアシーンの各チャネルについて異なる時間的に分布したＲＡＰのいくつかの表現を有する改善されたメディアシーン構造を示す概略図である。図２０は、出力装置の概略図を示す概略図である。図２１は、本出願の第４の態様を示すためにフェーディング目的の補助トラックをサーバに追加して提供する図１３の状況を示す概略図である。図２２は、フェーディングフェーズの間の補助トラック内の第１および第２の表現に基づく予測の線形結合の因子の時間的減少および増加を示す２つの時間的グラフを例示しており、減少と増加は直線的に起こる。図２３は、本願の第４の態様に係る実施形態に係る出力装置を示す模式図である。図２４は、本発明の第４の態様に関する実施形態によるクライアント装置を示す概略図である。図２５は、図２５と比較して変更されたクライアント装置を示す概略図であり、クライアント装置も本願の第１の態様に従って動作する。

図面に関する本出願の説明は、本出願の第１の態様から始まる。ここで、オープンＧＯＰ構造の使用は、異なる空間解像度に関連するビデオの表現間の切り替えに関して、ペナルティを低減したアダプティブストリーミングプロトコルを使用するビデオストリーミングに利用可能になる。

後述する第１の態様に関する実施形態の理解を容易にするために、先にオープンＧＯＰ構造について説明する。

オープンＧＯＰ構造は、同じランダムアクセス周期でＧＯＰ構造よりもビデオをより効率的に圧縮することを可能にする。図１に示されるように、オープンＧＯＰ構造を有するストリーム符号化にランダムアクセスするとき、図１にＲＡＳＬで示されるある種のピクチャが存在し、それらの参照が欠けているので適切にデコードされないため、再生／出力／表示されない。

図１は、ピクチャタイプを示すＨＥＶＣ命名法を用いた出力順のオープンＧＯＰ構造を示す。ランダムアクセスポイントは、ここでは、クリーンランダムアクセス（ＣＲＡ）ピクチャであり、ランダムアクセススキップリード（ＲＡＳＬ）ピクチャは、ランダムアクセスに依存するピクチャであり、ＣＲＡピクチャでランダムにアクセスするとき、左側の図に示す参照Ｐピクチャが欠落している。

この説明をより簡単にするために、図２を参照すると、図２の上部に、提示時間順のビデオ１２の９個のピクチャ１０のシーケンスが示されている。ピクチャ１０は、提示時間順に沿って１〜９の番号が付けられている。図２は、図２の最下部において、デコード順にピクチャ１０が示され、ピクチャ１０がデータストリームにエンコードされる。図２の図は、ピクチャ１０が図１に示すオープンＧＯＰ構造を使用してデータストリームに符号化される場合を示している。図２の下半分におけるピクチャ１０の番号付けは、ピクチャ１０が時間的に再配置されていること、すなわち、復号順序が提示時間順序から逸脱していることを示している。

特に、図２は、提示時間順の第５のピクチャ１０がランダムアクセスポイントピクチャとして符号化されることを示す。すなわち、第５ピクチャの表示時刻順またはピクチャ番号５は、他の表示時刻のピクチャに依存せずに符号化され、復号順序で先行する。図２に示すように、ピクチャ番号２〜４は、ピクチャ番号５のランダムアクセスポイントピクチャと他のピクチャとを時間的に参照して直接的または間接的に参照符号化され、すなわち、ここではピクチャ番号１であり、これは、提示時刻順および復号順の両方の点でランダムアクセスポイントピクチャに先行する。例えば、ピクチャ番号３は、時間予測によって、ピクチャ番号５およびピクチャ番号１を直接参照する。すなわち、ピクチャ番号３は、例えば、ピクチャ番号５および番号１に基づいて、動き補償された予測によって時間的に予測される。ピクチャ番号４は、ピクチャ１を時間的に予測するのではなく、間接的に、すなわちピクチャ番号３を介して直接参照する。
すなわち、ピクチャ番号２，３および４のセットは、共通して以下を有する。
１）それらは、時間的予測によって、ランダムアクセスポイントピクチャ、ここでは例
示的ピクチャ番号５を直接的または間接的に参照し、
２）提示時間順序及び復号順序に先行する参照ピクチャを時間的予測により直接的又は間接的に参照し、直接的または間接的に参照されるランダムアクセスポイントピクチャであり、図２では例示的な参照ピクチャ番号１である。ランダムアクセスポイントピクチャ番号５がビデオデータストリームにランダムにアクセスするために使用される場合、ピクチャのこのセットはスキップされる可能性があるこのピクチャ番号２，３および４のセットに対する参照ピクチャ番号１が存在するため欠落しているので、ビデオ１０はオープンＧＯＰ構造を使用して符号化され、復号順では、ランダムアクセスポイントピクチャ番号５の上流にある。

典型的なブロードキャストシナリオに対してオープンＧＯＰ構造を使用することに加えて、ランダムアクセス時にＲＡＳＬピクチャのようなピクチャのいくつかをスキップする場合、例えばプログラム間のチャネル切替えの間に受け入れられるならば、ＤＡＳＨでは、異なる品質の１つまたは別のストリームへの切り替えが、ピクチャをスキップせずにＣＲＡなどのランダムアクセスポイントピクチャに合わせて行われるように、オープンなＧＯＰ構造は適応型ストリーミングにとって有益であることが示されている。解像度が同じでストリームが慎重に作成されている限り、異なる品質を有する２つのストリームを連結または縫い合わせることが可能であり、ビデオコーデック仕様の視点から単一のビデオシーケンスを形成することができる仕様準拠のビットストリームを得ることが可能である。

後半の状況は、その上半分に、ビデオの２つの表現Ｑ１およびＱ２、特にそれらの２つの連続する時間セグメントＳｅｇ＃１およびＳｅｇ＃２を示す図３に関して示される。図３の下半分では、それらの時間的セグメントが、サーバからクライアントによって実際に取り出された連結で示されている。図３に示すように、図３の例では、クライアントは、表現Ｑ１から時間セグメントＳｅｇ＃１を取り出し、表現Ｑ２から次の時間セグメントＳｅｇ＃２を取り出すことを選択した。言い換えれば、図３は、クライアントが品質Ｑ１で第１のセグメントＳｅｇ＃１をダウンロードし、次に品質Ｑ２で第２の時間セグメントＳｅｇ＃２をダウンロードする例を示す。

図１および図２の場合と同様に、図３は、参照されるそれぞれの参照ピクチャに予測符号化されたピクチャを指す矢印によって示されるピクチャ間の相互依存性を示し、ここでは時間的予測によって、それぞれのピクチャによって表示される。各セグメントは、デコード順に、ＣＲＡピクチャ、すなわちランダムアクセスポイントピクチャで開始するが、ピクチャが図３で順序付けられるように示されている提示時間順で、各セグメントのこのランダムアクセスポイントピクチャの前にＲＡＳＬピクチャがある。この状況の説明は、図２に関して上で説明した。品質Ｑ１から品質Ｑ２に切り替えることにより、データストリームＱ２の第２セグメントのＲＡＳＬピクチャの参照ピクチャは失われなかった。すなわち、ストリームＱ２の第２セグメントのＲＡＳＬピクチャをストリームＱ２内で、ストリームＱ２の第１セグメントの参照ピクチャＰを参照し、ストリームＱ２の第２セグメントがストリームＱ１の第１セグメントに続くステッチングされたデータストリーム内で、これらのＲＡＳＬピクチャは、品質Ｑ１の第１のセグメントの時間的に位置合わせされた低品質ピクチャＰを代替として参照する。図３は、この参照ピクチャ変化の影響を示す。特に、図３は、表現Ｑ２のピクチャを陰影付きの形で示しているが、表現Ｑ１のピクチャは陰影なしで描かれている。品質セグメントＱ２が品質Ｑ１の第１のセグメントに続くステッチまたは連結ストリームでは、品質Ｑ２の第２セグメントのＲＡＳＬピクチャは、シェーディングを伴わない半分で示され、残りの半分はシェーディング付きで示され、これらのＲＡＳＬピクチャの復号結果が、Ｑ２またはＱ１の連続ストリームを復号するときの対応するＲＡＳＬピクチャの結果ではないことを示す。しかし、仕様に準拠しているだけでなく、正しく作成されていれば、Ｑ２に関する品質の劣化は重要ではない。これは、ＤＡＳＨのメディアプレゼンテーション記述（ＭＰＤ）、すなわちマニフェストファイル内
の＠mediaStreamStructure属性で既に通知することが可能である。

異なる品質Ｑ１およびＱ２が同じ解像度を有さない場合、オープンＧＯＰスイッチングに必要な参照ピクチャが適切な解像度で存在しないためである。これは、例えば、ＨＥＶＣのような現在の既存の単一層コーデックによる解像度変更を伴うオープンＧＯＰスイッチングを実行することができないことを意味する。そのような目的のために、ＳＨＶＣのような階層化コーデックを使用することができる。

ＳＨＶＣでは、デコード処理を下位の層から上位の層に切り替えると、ＲＡＳＬピクチャは自動的に非出力ピクチャとしてマークされる。ＲＡＳＬピクチャは、利用不可能な参照ピクチャに対して指定されたプロセスを使用した後に復号することができる。しかし、デコード結果は視覚的に損なわれ、これらのピクチャは、非ＲＡＳＬピクチャに影響を与えないので、ＲＡＳＬピクチャは、出力される下位の層のピクチャのすべての結果として生じることがある。

続いて説明される実施形態は、一般に、２つの選択肢に続く。最初のものは、全階層（常に存在する全ての層を有する）で層間予測を使用する階層化コーデックのためにオープンＧＯＰ構造を使用する場合、より高い品質のＲＡＳＬピクチャが最高品質で示されるように、ユーザーにとって十分な情報を提供する。しかしながら、より高い圧縮効率のために独立した層のビットストリームを有するが、アップスイッチのための層間予測を依然として使用することが望ましい場合には、別の選択肢が提供される。

本出願の第１の態様に関する様々な実施形態の以下のより詳細な説明の理解を容易にするために、図４は、アダプティブストリーミングプロトコルを用いてビデオをクライアントに出力するための装置を示す。装置は、図４の出力装置として示され、符号２０を用いて示されている。したがって、出力装置２０は、ストリーミングサーバとして動作し、装置２０によって使用されるアダプティブストリーミングプロトコルは、ＤＡＳＨまたは任意の他のアダプティブストリーミングプロトコルであってもよい。装置２０は、ハードウェア、ファームウェア、またはソフトウェアの形態で実施されてもよく、ハードウェアで実施される場合、装置２０は、例えば、集積回路であってもよい。ファームウェアで実施される場合、装置２０はＦＰＧＡであってもよく、ソフトウェアで実施される場合、装置２０は、適切なコンピュータプログラムによってプログラムされた１つ以上のプロセスを含むことができる。

装置２０は、少なくとも、第１の空間解像度でビデオを動作させ、第２の空間解像度でビデオを出力することを切り替えることをサポートする。すなわち、出力装置２０によってクライアントに出力されるストリーム２２は、時間的に変化する空間分解能でビデオ２４を表すか、またはその中に符号化されてもよく、例えば、第１の空間解像度と、第１の空間分解能よりも大きい第２の空間解像度と、の間で切り替わる。「空間解像度」は、例えば、ピクチャ毎のサンプルで測定される。図４は、例えば、出力装置２０が、時間間隔２６の間に第１の空間解像度でストリーム２２から離れたビデオ２４を出力することを示し、時間的間隔２８内の第２の空間分解能で行われる。時間的間隔２６内で、ストリーム２２は、第１の空間解像度でビデオ２４のピクチャ３０を表し、時間的インターバル２８の間、ストリーム２２は、第２の空間解像度でピクチャ３０を表す。時間間隔２６および２８の間にピクチャ３０によって捕捉されたシーンセクションは、ピクチャ３０が、時間間隔２６と２８との間で異なるシーンを空間的にサンプリングするか、または代替の実施形態による同じシーンの異なるサイズのセクション、またはそれらの組み合わせを示すことができる単にサンプルピッチで同じであってもよい。

出力装置２０が、第１の空間解像度でビデオ２４を出力することと、第２の空間解像度
でビデオを出力することとの間の切り替えをサポートするという事実は、例えば、クライアントの能力に現れ、特定の表現を出力装置２０に要求することによって異なる空間分解能でビデオ２４を出力装置２０から取り出すために、後で説明する実施形態を使用することができる。後で説明するように、出力装置２０は、例えば、一方では適切に概念化されたデータ構造を記憶する記憶装置３２と、他方ではマニフェストプロバイダ３４との組み合わせであってもよい。マニフェストプロバイダ３４は、例えば、クライアントがそれぞれの要求によってストレージ３２にどのようにアクセスする可能性があるかを記述するマニフェストをクライアントに提供することができる。そうすることで、クライアントは、マニフェストに基づいて、第１の空間解像度でビデオにエンコードされた時間セグメントと、第２の空間解像度でビデオにエンコードされた時間セグメントとの間で選択する。この点に関する詳細は以下に述べる。

図５は、出力装置２０が、拡大された空間解像度でビデオ２４を表現し符号化するためのオープンＧＯＰ構造の使用をどのように可能にするかを示すにもかかわらず、空間表現間の切り替えの場合に図２に関して提示されるようなランダムアクセス依存ピクチャの損失を回避する。特に、図５は、出力装置20が、時間的に、ビデオを階層ビデオストリーム３６の形態で出力することと、空間解像度ビデオストリーム３８を増加させることとの間で切り替えることを示す。これらのストリームに関する詳細は以下でさらに説明する。すなわち、出力装置２０によって出力されたストリーム２２は、出力ストリーム２２が層状ビデオストリーム３６である時間間隔２６と、出力ストリーム２２が空間解像度の高いビデオストリーム３８である時間フェーズ２８との間で変化する。例えば、区間２６の間に出力された階層化されたビデオストリーム３６は、区間２６の間のビデオを表し、空間解像度の高いビデオストリーム３８と連結されるか、またはステッチされ、そしてそれは、例えば、時間的に後続する間隔２８でビデオを表すか、またはその中に符号化されている。

層状ビデオストリーム３６は、図５に示すように、第１の空間解像度でビデオを符号化した第１の層Ｌ１を含む。図５では、層Ｌ１に符号化されるときのビデオのピクチャは参照符号４０で示されている。しかしながら、層ビデオストリーム３６は、第２の空間解像度でビデオを符号化した第２の層Ｌ２も含む。第２の層Ｌ２のピクチャは、参照符号４２を用いて図５に示されている。しかしながら、ビデオ２４が層Ｌ１およびＬ２にコード化される方法は異なる。後述するように、時間予測は、例えば、ピクチャ４０を層Ｌ１に符号化するために使用される。例えば、クローズドＧＯＰ構造を使用することができる。しかしながら、第２の層のピクチャ４２は、層間のアップサンプリングによって、しかし残余のコーディングなしで、第１の層Ｌ１から第２の層Ｌ２への層間予測を使用して、層Ｌ２に符号化される。層間のアップサンプリングは、垂直矢印４４を使用して図５に示されており、各ピクチャ４２は、層Ｌ１の時間的に位置合わせされたピクチャ４０に基づいて純粋に層間予測されることを示す。例えば、ピクチャ４２のピクチャ内容全体は、ピクチャ４０の対応する部分からアップサンプリングすることによって得られる。ピクチャ４２のこの「コーディング」は、層Ｌ２に対して残余データを伝送する必要がないため、非常に低いビットレートのコストになることが強調されるべきであり、層間予測モードは、例えば、可能な限り粗い粒度でピクチャ４２に対してシグナリングされてもよい。

空間解像度の高いビデオストリーム３８は、オープンＧＯＰ構造を使用して第２の空間解像度でビデオを符号化している。すなわち、増加した空間解像度ビデオストリーム３８に符号化されているときのビデオ２４のピクチャ４６は、第２の空間解像度のものであり、そして、これらのピクチャの中には、図２に示すピクチャ番号５および図２のピクチャ番号２，３および４のようなランダムアクセス依存ピクチャのようなランダムアクセスポイントピクチャがある。図５は、層Ｌ１、層Ｌ２および増加した空間解像度ビデオストリーム３８が、ピクチャのそれぞれについて、対応する時間的に位置合わせされたピクチャ
をそれぞれ他のものに有する場合を示している。これは代替の実施形態による場合である必要はないことに留意されたい。出力装置２０の動作モードが、このストリームのランダムアクセス依存ピクチャを失うことなく、増大した空間解像度ビデオストリーム３８を形成するためのオープンＧＯＰ構造の使用をどのように可能にするかを説明するためであり、出力装置２０の説明は、図６に示す対応するクライアント装置の記述によって短時間中断されなければならない。

図６は、アダプティブストリーミングプロトコルを用いて、図４の出力装置などのサーバからビデオを取り出すための装置を示す。図６の装置は、クライアント装置５０として示され、出力装置２０の場合と同様に、ハードウェア、ファームウェアまたはソフトウェアで実施されてもよい。すなわち、装置５０は、集積回路、適切にプログラムされたＦＰＧＡ、または適切なコンピュータプログラムによって適切にプログラムされた１つまたは複数のプロセスであってもよい。クライアント装置５０は、第１の空間解像度でビデオを取り出すことと、第２の空間解像度でビデオを取り出すこととを切り替えることをサポートする。この目的を達成するために、クライアント装置５０は、ビデオの異なるバージョンまたは異なるビットレートでビデオを表す異なるストリームのうち、時間セグメントごとに選択された、時間セグメントのストリーム５２をサーバから取り出す。例えば、ストリーム５２は、図１および図２のストリーム２２とすることができる。図４および図５に示すように、クライアント装置５０は、階層化されたビデオストリーム３６を介してビデオを取り出すことと、階層化されたビデオストリーム３６よりも高いビットレートに対応する空間解像度ビデオストリーム３８を増加させることとを切り替える。内部的には、クライアント装置５０は、例えば、前述のマニフェストをサーバから要求し、ストリーム３６および３８の間の時間的セグメントであり、その間でリクエスタ５４は、例えばバッファのオーバーフローまたはアンダーフローを回避するように切り替えるようなサーバから提供されたストリームの時間セグメントをフェッチする要求を、サーバに送信することを担当するリクエスタ５４を備えることができる。例えば、クライアント装置５０はまた、バッファされた時間セグメントをビデオデコーダに転送することによってデコードされる前に、リクエスタ５４によってフェッチされたインバウンド時間セグメントをバッファリングするためのバッファ５６を含む。ビデオデコーダは、クライアント装置５０の一部であってもよいし、クライアント装置５０の外部にあってもよい。図６は、ビデオデコーダ５８をクライアント装置５０の外部に示す図である。

したがって、装置５０は、ビデオを異なるビットレートで符号化した異なるストリームの時間セグメントを要求することによってサーバからストリーム５２を受信し、ストリーム５２をビデオデコーダ５８に出力または転送することにより、様々な空間解像度でビデオを取り出す。

そうすることで、装置５０は、ビデオの第１の部分と第１の空間解像度を取り出すことと、第２の空間解像度でビデオの第３の部分を取り出すこととの間の移行フェーズにおいて、ビデオの第２の部分を取り出し、第１の部分と第３の部分の後に、第１の空間分解能から第２の空間分解能へのアップサンプリングを使用することによって、第２の空間分解能で検出する。

後者の状況を説明するために、装置５０は、ビデオをランダムアクセス依存ピクチャを失うことなく第２の空間解像度でストリーム５２に符号化するためのオープンＧＯＰ構造の使用を可能にする方法については、図７を参照する。図７に示すように、クライアント装置５０は、第１の時間的部分６０内でビデオ２４を第１の空間解像度で取り出し、第３の時間的部分６２内で第２の空間解像度を高くする。図７は、異なるサイズのビデオ２４のピクチャを描写することによってこれを示している。すなわち、フェーズ６０の時間的部分内で、クライアント装置５０は、提供された第１のストリームの時間的セグメントを
取り出すか、サーバにおいて、第３の時間的部分６２または位相内で、クライアント装置５０は、サーバにおいて提供された、またはダウンロード可能な他のストリームの時間セグメントを取り出す。その間に、第２の時間的部分６４、すなわち、時間的部分６２の前にあり、次の時間的部分６０がある。この時間的部分内で、クライアント装置５０は、矢印６６で示すように、第１の空間解像度から第２の空間解像度へアップサンプリングすることによって、第２の空間解像度の第２のピクチャの代替を取得する。この測定によって、クライアント装置５０は、第２の空間解像度のピクチャ、すなわち代替ピクチャ６８の代替または補足推定値６８を取得する。これらの代替ピクチャ６８のうち、その一部は、時間的部分６２内のビデオ２４のランダムアクセス依存ピクチャのランダムアクセス依存ピクチャの参照ピクチャの代替として使用することができる。これらの代替ピクチャ６８のうち、それらのうちの幾つかは、時間的部分６２内のビデオ２４のランダムアクセス依存ピクチャのランダムアクセス依存ピクチャの参照ピクチャの代替として使用されてもよい。すなわち、時間フェーズ６２の間にクライアント装置５０によってダウンロードされた表現は、オープンＧＯＰ構造を使用して符号化されてもよく、それにもかかわらず、ランダムアクセス依存ピクチャが失われるのを防ぐことができる。

図８は、クライアント装置５０が図５に関して説明したストリーム３６および３８を提供する出力装置２０と協働する実施形態によるクライアント装置５０の動作モードを示す。すなわち、ストリーム５２は、図５に関して説明したストリーム２２のようなストリームである。図８に示すように、クライアント装置５０は、出力装置２０からその時間的セグメントを取り出すことによって、出力装置からの階層化されたビデオストリーム３６の層1および層２、Ｌ１およびＬ２を、第２の時間部分６４中に取り出す。クライアント装
置５０は、層Ｌ１およびＬ２の両方をビデオデコーダ５８に送り、そしてそれは、上述のように層間予測４４を用いて第２の層Ｌ２が符号化されるときに第２の層Ｌ２を復号する際にアップサンプリング６６を実行する。この対策により、ビデオデコーダ５８は、内部復号ピクチャバッファを第２の空間解像度のピクチャで満たし、そしてそれは、次に、クライアント装置５０が、後続の時間部分６２の間に、対応する時間セグメントを取得することによって取り出される空間分解能の高いビデオストリーム３８のランダムアクセス依存ピクチャのための参照ピクチャとして働くことができる。先行する時的部分６０において、クライアント装置５０は、復号化のために第１の層をビデオデコーダ５８に、すなわち第２の層なしで単に提出するだけでよい。クライアント装置５０は、時的部分６０中に第２の層を取り出してもよいし、例えば、出力装置２０は、階層化されたビデオストリーム３６の層Ｌ１および層Ｌ２を別個に取り出しまたは取得することを可能にする。

図９は、空間解像度の高いビデオストリーム３８が、第１の層Ｌ１および第２の層Ｌ２を有する階層化されたビデオストリームであり、第２の空間解像度のピクチャ４６は、オープンＧＯＰ構造を使用して、すなわち時間的予測を使用して符号化されるだけでなく、ストリーム３８の層Ｌ１のピクチャ７２からピクチャ４６の第２の解像度へのアップサンプリングを使用する層間予測７０を用いてもよい。しかしながら、ストリーム３８はまた、層Ｌ２のピクチャ４２を符号化するために残差符号化を使用する。言い換えると、図９の例では、階層化ビデオストリーム３６の層Ｌ２のピクチャ４２は、時間的冗長性を利用せずにデータストリーム３６に符号化されるがゆえに、ピクチャ４６は、層間および時間的冗長性の両方を利用して、すなわち、それらを除去し残差予測を使用することによってストリーム３８に符号化される。これは、図４の説明の前に述べた第１の選択肢に対応する。別の実施形態によれば、ピクチャ４６は、階層化されたビデオストリームの層として、層間予測なしに、すなわち独立した層としてストリーム３８に符号化される。データストリーム３８に符号化されたピクチャの層のインデックスは、階層化されたビデオストリーム３６における層のインデックスＬ２と同じであってもよい。次に、時間的部分６４と６２との間の移行（遷移）が図１０に示されている。図１０は、時間的部分６４と６２との間の接合部で装置５０に到着するストリーム５２内の２つの連続するセグメントを示し
、すなわち、データストリーム５２の第１のセグメントは、階層化されたビデオストリーム３６の層Ｌ１およびＬ２を搬送し、それに続く時間的セグメントは、ストリーム３８と独立して符号化された層Ｌ２を運ぶ。理解されるように、層間のアップサンプリングによって得られた階層化されたデータストリーム３６の層Ｌ２のピクチャは、ストリーム３８の次のセグメントのＲＡＳＬピクチャに対する参照ピクチャとして機能し、このセグメントは、層間予測なしで符号化され、すなわち、ストリーム３８の独立した層Ｌ２内のＲＡＳＬピクチャの参照ピクチャは、デコーダ５８の復号ピクチャバッファ（ＤＰＢ）内に正しい解像度で存在することが要求されるが、これは、上記の方法で異なる空間分解能を切り替える可能性を妨げるものではありません。

かくして、上記の例に関して、ビデオのより高い空間解像度表現を符号化するためのアダプティブストリーミングにおけるオープンＧＯＰ構造の使用を可能にするために、ＳＨＶＣなどの階層化コーデックが使用されてきた実施形態が記載されている。実施形態は、このようなトラックの存在および使用の情報をユーザー／クライアントに生成するとともに、「補助スイッチングトラック」を提供する。

以下でより詳細に説明するように、より低い空間解像度からより高い空間解像度表現への切り替えの間の移行フェーズ６４がどれくらい長くあるべきかについてクライアントに通知するために、タイミング情報をサーバからクライアントに伝えることができる。この対策により、クライアントは、例えば、時間的部分６２の間に実際のより高品質のトラックに切り替える前にある時間復号されるべきである「補助スイッチングトラック」内にカプセル化された追加のＮＡＬニットを復号する必要性について通知される。したがって、図１０に示すような高品質の層のＲＡＳＬピクチャは、階層間予測を用いた階層化されたコーデックのためのオープンＧＯＰ構造を考慮する場合には、視覚的に魅力的な品質で有意に少ない障害で復号化され、低品質のトラックの対応するピクチャの代わりに出力される。単一の層予測（いわゆる独立した層）に階層化されたコーデックを使用する場合には、クライアントは、例えば、関連付けられたＲＡＳＬピクチャを有するピクチャ４６のようなオープンＧＯＰ構成で符号化されたより高い独立した層の復号を開始する前の特定の時間、ピクチャ４２によって表される「補助スイッチングトラック」を復号するのに十分な時間をスケジューリングすべきである。

簡単に言うと、図６の説明を参照すると、クライアント装置５０は、サーバでの取り出しに必要可能なストリームまたは表現が符号化される方法に関して、不可知論的であり得ることに留意すべきである。したがって、一実施形態によれば、出力装置またはサーバは、ビデオストリーム３８を切り替える前に、第１の空間解像度でのビデオの取り出しと第２の空間解像度でのビデオの取り出しとの間に、第２の時間部分６４に関する移行フェーズをスケジューリングする必要性をクライアント装置またはクライアントに通知する。このシグナリングに応じて、クライアント装置５０は、移行フェーズをスキップするか、または中止するか否かを決定することができる。この対策により、より高い空間解像度表現が符号化されている、異なる空間解像度表現で同じサーバまたは別のサーバで利用可能な別のビデオ、例えば、クローズドＧＯＰ構造では、より低い空間解像度表現からより高い空間解像度表現に切り替えるときに、移行フェーズなしに取り出すことができる。

具体的な例では、ストリーム２２および５２は＜それぞれ、サーバおよびクライアントまたは装置２０および５０の間で、階層化されたビデオストリーム３６の層Ｌ２を搬送するために追加のトラックが費やされるファイルフォーマットで転送されてもよい。このトラックは「トラック／表示の切り替え」としてマークすることができる。切り替えトラックとしてのマーキング指示は、ファイル形式に含める必要はなく、サーバーからクライアントに送信されるマニフェストに含めることができ、すなわち、装置２０から装置５０に、例えば、ＤＡＳＨのＭＰＤまたはそれぞれのビデオの最初のセグメントに転送される。
しかし、サーバおよびクライアント、すなわち装置２０および５０は、時間的部分６４の移行フェーズにデフォルトの一時的な名前を使用することができ、そのため、上述の信号伝達は、例えば、移行フェーズに関するマニフェストが、単に、所定の長さの移行フェーズの必要性と、各移行フェーズの離脱とを切り換えるという意味でのバイナリ信号化に対応するだけであり、あるいは、サーバが、移行フェーズの長さおよび時間的な部分６４の長さにそれぞれクライアントに通知することも可能である。長さは、サーバとクライアントとの間で合意された複数の所定の長さ値のうちの１つをインデックス付けすることによって示すことができ、ビデオがアダプティブストリーミングプロトコルによって取り出し可能な時間セグメントの長さおよび単位の表示、またはピクチャ順序カウントなどのような時間単位での表示を含む。例えば、サーバまたは装置２０からクライアントまたは装置５０に送信されるマニフェストまたはメディアプレゼンテーション記述は、スイッチング時間シフトまたはnumSwitchRepSegmentsのような時間的部分６４の長さの指示を提供され得る。

その後、ストリーム３８は、それぞれの参照ピクチャを参照するＲＡＳＬピクチャから参照ピクチャまでの最大距離に関する情報を提供することによって、上述した移行フェーズの長さの導出を可能にする補助エンハンスメント情報（ＳＥＩ）を含むビデオストリームであってもよいことが示される。この情報は約束として理解されるべきである。ＨＥＶＣにおいて、ピクチャＳＥＩの構造は、例えば、符号化されたビデオシーケンス（ＣＶＳ）全体についてスコープされておらず、従って、この点で十分ではない。したがって、新しいタイプの補足的強化情報ＳＥＩが有利であろう。

したがって、サーバのデ装置２０は、この補足拡張情報から移行期間６４の長さを導出し、それに応じてマニフェストを介して装置５０上のクライアントに通知することができる。

上記の説明からも明らかなように、クライアントまたは装置５０は、必然的に時間的部分６４に関する移行フェーズを適用し、それにより不可避的にスイッチングトラックを再生するか、層Ｌ２の形態で表現を切り替えるように構成するか、または移行フェーズは任意であり、例えばマニフェストにおける前述の信号化を使用してサーバまたは装置２０によってスイッチオンされる。言い換えれば、階層化されたビデオストリーム３６の層Ｌ２の形式で表現のスイッチングトラックを再生することは、オプションでも必須でもよい。

階層化されたビデオストリーム３６の層Ｌ１に関しては、それは、例えば、ＩＤＲピクチャを用いてクローズドＧＯＰ構造で符号化されてもよいことに留意されたい。この手段によって、クライアントまたはクライアント装置５０は、直接的に、すなわち、いかなる移行（遷移）もなしに、より高い空間解像度、すなわちストリーム３８をダウンロードすることからより低い空間解像度、すなわちストリーム３６の層Ｌ１をダウンロードすることに切り替えることができる。

図１１は、階層化されたビデオストリーム３６の層Ｌ２の形の補助スイッチングトラックがクライアントに提供される方法に関する具体例を示す。図１１は、出力装置２０の記憶装置３２に記憶され得るデータ構造を示す。データ構造は、符号１８を用いて示され、空間分解能の高いビデオストリーム３８と階層化されたビデオストリーム３６とを含む。両方とも時間的セグメントのシーケンスに時間的に細分される。ストリーム３８の時間セグメントは、３０₁・・・３８_Nと示され、ストリーム３６の時間セグメントは、３０₁・
・・３６_Nと示される。時間整合された時間セグメント３８_iおよび３６_iは、ビデオの対
応する時間的部分に関連し、またはその中に符号化されている。図１１の実施形態によれば、階層化されたビデオストリーム３６の層Ｌ２は、クライアントによる別個に取り出しは可能ではない。むしろ、層Ｌ２は、ストリーム３６の層Ｌ１が搬送される同じセグメン
ト３６_i内に追加のトラックとして含まれる。したがって、８２で示すように、クライア
ントまたはクライアント装置５０は、サーバまたは装置２０からデータストリーム３８の形態でビデオを取り出す任意の開始８６の前に移行フェーズ８４をスケジュールする。移行フェーズ８４内で、ストリーム２２／５２は、ストリーム３６の対応する時間セグメントのシーケンスを含む。すなわち、移行フェーズ８４の間に、装置５０は、階層化されたビデオストリーム３６のセグメントから移行フェーズ８４に属するセグメントを取り出し、それによって時間的部分６４を形成する。８６以降、装置５０は、高い空間解像度からより低い空間解像度に切り替えるまで、ストリーム３８のセグメントのシーケンスから時間セグメントを取り出す。移行フェーズ８４の間の装置５０の動作モードと前の時間との間の差は以下の通りである。

図１１から分かるように、図示された実施形態では、クライアント装置は、階層化されたビデオストリーム３６のセグメントを引き出すか、または空間解像度の高いビデオストリーム３８のセグメントを取得するかの選択しかしない。空間解像度の高いビデオストリーム３８に切り替える前に、クライアント装置５０は移行段階８４を予定する。移行フェーズの前に、クライアント装置５０は、階層化されたビデオストリーム３６の層Ｌ１をビデオデコーダ５８による復号化に転送するだけであり、移行フェーズの間に、クライアント装置５０は、層Ｌ１およびＬ２の両方をビデオデコーダ５８に転送する。この時間８４の間に、ビデオデコーダ５８は、階層化されたビデオストリームの層Ｌ２のピクチャ４２を再構築し、そしてそのとき、時間８６以降のサーバまたは装置２０から取り出された空間分解能の高いビデオストリーム３８の１つまたは複数のセグメントのランダムアクセス依存ピクチャの参照ピクチャとして機能する。図１１は、クライアント装置５０が、サーバまたは出力装置２０からの対応する信号化８８に応答して、移行フェーズ８４をスケジューリングする上述の可能性を示している。この信号化８８は、例えば、メディアプレゼンテーション記述またはマニフェスト９０に含めることができる。信号化８８が、移行フェーズ８４で参照ピクチャの代替リザーバとして使用される層Ｌ２を示す場合、クライアント装置５０は、これまで説明したように動作する。そうでなければ、クライアント装置５０は、空間解像度の高いビデオストリーム３８の時間セグメントを取り出す時間８６を開始する前に、移行フェーズ８４をスケジュールしないが、しかし、図１１の下部に示されているように、層Ｌ１を単に処理する段階を、ビデオデコーダ５８による復号化に、切り替え時間８６まで、直接、延長する。

図１１の後者の実施形態は、階層化されたビデオストリーム３６のセグメント内のストリーム３６の「補助スイッチングトラック」Ｌ２を含む。メディアプレゼンテーションの記述またはマニフェスト９０において、この補助スイッチングトラックは、階層化されたビデオストリーム３６の層Ｌ１によって形成された表現とは別個の表現として示される。
マニフェスト９０は、例えば、ビデオデコーダ５８が必要とする、層Ｌ２を復号するための復号能力を知らせ、そしてそれは、層Ｌ１に依存し、すなわち、「補助スイッチングトラック」を復号化し、ビデオデコーダ５８が階層化されたビデオストリーム３６の低解像度の層Ｌ１だけを復号するための復号能力を示す。

補助スイッチングトラックＬ２に関する情報をクライアント装置５０に通知するために、例えば補助スイッチングトラックＬ２の存在を指示する情報８８と、おそらく同時に移行フェーズ８４の長さとを示す情報８８を含むような、以下の具体的な信号化をマニフェスト９０内で使用することができる。さらに、ちょうど概説したように、Ｌ２に関する要求された能力は単に通知されるだけである。

表現の必要な機能は、現在、＠mimeType属性で通知されている。定義される必要がある第１の属性は、所与の表現に切り替えること、すなわち、必要な「補助トラック」がセグメント内に含まれることである。そのような属性は、例えば、＠switchableToである。さ
らに、＠switchingMimeTypeの属性は、「補助スイッチングトラック」が復号化されたと
きに必要な機能を記述するように定義する必要がある。最後に、「補助スイッチングトラック」を復号化する必要があるスイッチの前に、ＤＡＳＨのクライアントがより高い解像度の表示にシームレスに切り替えることができるかどうかを判断できるように信号を送る必要がある（＠switchingTimeShift／＠numSwitchRepSegments）。このような高い解像度表現に切り替えるには、（＠switchingTimeShift／＠numSwitchRepSegments）で記述された時間よりも早く、ＳＡＰから下位表現にランダムアクセスする必要がある。具体的なシグナリングは次のように見ることができる。

図１１に関して説明の代替案は、クライアント装置５０が、補助スイッチングトラックＬ２にビデオデコーダ５８による復号を行うクライアント装置５０と出力装置２０との間で合意されたものであってもよい。ビデオデコーダ５８は、手元に用意された空間解像度の高いビデオストリーム３８のランダムアクセス依存ピクチャのための参照ピクチャ置換を自動的に有し、空間解像度の高いビデオストリーム３８への切り替えは、移行フェーズ８４の長さが、階層化されたビデオストリーム３６のセグメントのシーケンスの取得を開始することよりも早くは行われない。したがって、クライアント装置５０に必然的に層Ｌ２に復号処理を要求するこの場合であっても、クライアント装置５０は、空間解像度の高いデータストリーム３８に切り替える前に移行フェーズ８４をスケジューリングすることになる。したがって、図１１に関して説明した代替実施形態は、代替的に、別の実施形態は、別の表現ｎ＋１にシームレスに切り替えることができるようにユーザーに通知し、追加の時間情報は必要ではないが、ユーザーは、セグメントｎの補助トラックに存在する最初のＡＵからの「補助スイッチングトラック」全体を復号しなければならない。このような場合でも、この代替表現のmimeTypeは、ユーザーがそのようなトラックを復号化できることが必要であるかを知るために必要であろう。また、＠switchableToの属性が指す表現から出力の解像度を派生させることができる。このような高い解像度表現に切り替えるためには、ユーザーは、より高い解像度のＳＡＰよりも前の任意のＳＡＰからの下位の表現にランダムアクセスする必要がある。

上記のように、移行フェーズ８４の長さは、それを送信する必要がないようにデフォルト値に設定することができる。例えば、デフォルトでは、移行フェーズは、１セグメント長の長さ８４になる。すなわち、時間的コーディング相互依存性は、少なくとも表現スイッチングインスタンスに関する限り、１つのセグメント長より長くならないように制限することができ、つまり、表現間の切り替えが許される時間である。異なる品質間のスイッチングを改善するために移行フェーズを使用するさらなる代替の実施形態は、このデフォルトの設定を使用し、以下のように実施することができる。特に、上記の実施形態は、ＤＡＳＨＭＰＤ、より高い品質の層に切り替える際の移行フェーズを有利に考慮するクラ
イアントのようなマニフェストファイルに通知するために使用され得る。

例えば、補足プロパティ記述子は、「urn：mpeg：dash：resolutionSwitching：2016」と表示され、この表現では、ＳＡＰタイプが１から３の範囲で始まるセグメントの開始時にシームレスな解像度の切り替えが可能になる。記述子は、ＤＡＳＨで使用される場合、ＭＰＤの階層のAdaptation SetまたはRepresentationのレベルに置くことができる。補足的なプロパティの記述子の＠valueは、次の表で指定されているように、空白で区切られ
た２つの値のリストである。

すなわち、この例は、記述子がＬ₁のような特定の表現について、どの表現がＬ₂のよう
に切り替え可能であるかを示すことができることを示している。そのような表現を明示的に示すこの記述子とは無関係に、記述子はそのＭＰＤ内に存在することによって可能であり、表現Ｌ₂に切り替える前に予め完全化された１つのセグメントは、例えばオープンＧ
ＯＰ構造のためにスイッチングポイントに先行するすべての時間的参照を有することが十分であることを示す。言い換えれば、デフォルトでは、［Ｔ_EPT、Ｔ_DEC］内の提示時間を有するセグメントＮ内の全てのアクセスユニットが制約されない限り、それらは、セグメントＮまたはセグメントＮ−１のアクセスユニットにのみ依存する。したがって、この記述子が存在するセグメントＮで表現が変更された場合、セグメントＮ−１の間に追加のメディアストリームを復号する必要があり、すなわち、図１１では、「switch-from」の表
現で示された＠codecsの属性に一致する階層化されたストリームのエンハンスメント層が存在し、その存在はswitchingMimeTypeの存在によって示され、第１のＳＡＰ（すなわち
、インターバル［Ｔ_EPT、Ｔ_DEC］内の）に先行する全てのアクセスユニットを復号することができるようにするために、図１１では、単一の層の高品質ストリームを使用する。
したがって、この記述子が存在するセグメントＮで表現が変更された場合、セグメントＮ−１の間に追加のメディアストリームを復号する必要があり、つまり、図１１では、階層化されたストリームのエンハンスメントレイヤーであり、「switch-from」の表現で示
される＠codecs属性に適合する層とは異なる。その存在はswitchingMimeTypeの存在によ
って示され、第１のＳＡＰ（すなわち、インターバル［Ｔ_EPT、Ｔ_DEC］内の）に先行する全てのアクセスユニットを復号することができるようにするために、図１１では単一の層の高品質ストリームを使用する。

図１２は、図１１の実施形態と比較した別の実施形態を示し、データ構造８０は、階層化されたビデオストリーム３６の層Ｌ１およびＬ２のための別々の時間整合セグメントを有し、すなわち時間整列セグメント３６² _iおよび３６¹ _iを含む。全ての時間セグメント３６¹ _i、３６² _i、および３８_iは、異なるアドレスに関連付けられ、したがって、クライア
ント装置５０によって個々に取得可能である。ここで、クライアント装置５０は、移行フェーズ８４に先行する時間部分の間に、出力装置２０からセグメント３６¹ _iを単に取り出すだけである。移行フェーズ８４の間に、クライアント装置５０は、出力装置２０から時間セグメント３６¹ _iおよび３６² _iの両方のビデオの各時間セグメントｉを取り出し、層Ｌ１だけでなく層Ｌ２にもビデオデコーダ５８に転送される。時間８６から、クライアント装置５０は、空間解像度の高いビデオストリーム３８の時間セグメント３８_iを取り出し
または取り込み、ビデオデコーダ５８にそれを転送する。再び、図１２は、情報８８がクライアント装置５０を制御して移行フェーズ８４を適用するか適用しないかを示すことができることを示している。

すなわち、図１２、スイッチングに必要な追加のデータを含む別個の表現が使用される実施形態を示し、階層化されたビデオストリーム３６の層Ｌ２内のデータである。すなわち、図１２の実施形態では、このデータは、基本の層Ｌ１を担持する同じセグメント内に含まれていない。

図１３は、後者の実施形態では、図３に示すのと同じ状況を示しているが、クライアント装置は、ビデオの第１の時間セグメントの２つのセグメントを取り出し、すなわち、階層化されたビデオストリーム３６の層Ｌ１に対応する表現１と、階層化されたビデオストリームの層Ｌ２に対応する表現３の対応する時間セグメントとのうちの１つである。マニフェスト９０および出力装置またはサーバ２０におけるビデオの利用可能性の記述に関する限り、以下のことに留意されたい。

そのような場合、Ｒｅｐ３には＠dependencyId =Ｒｅｐ１が含まれ、Ｒｅｐ２とＲｅｐ３には同じ＠mediaStreamStructureIdが必要である。このような場合、Ｒｅｐ３は＠mimeTypeを追加する必要はない。しかし、この表示は、たとえばパラメータ＠switchingRepre
senationを使用して「切り替え専用」としてマークする必要がある。前の場合に関しては、タイミング情報が含まれて、その時点以降、他の表現に切り替えることができるように、そのような表現を復号する必要があるか、またはＲｅｐ２の切り替えポイントより前のＲｅｐ１のＳＡＰから復号されている限り、すべての必要な参照が利用できるように制限することができる。

別の実施形態は、最も低い解像度のクローズドＧＯＰＲＡＰ（またはスイッチングポ
イント）と、より高い解像度のオープンＯｐｅｎＧＯＰＲＡＰのみを有することからなる。これにより、使用可能なすべてのＲＡＰで最低品質にシームレスに切り替えることができる。あるいは、より多くの解像度が利用可能な場合、例えば３、最も低い解像度はＧＯＰＲＡＰを閉じただけであり、最も高い解像度はＯｐｅｎＧＯＰＲＡＰｓのみであ
り、中間解像度表現は、両方の混合を有する。切り替えは、ＲＡＰが存在する場合には可能であるが、クローズドＧＯＰの現在の場合にのみ切り替わる。そのような場合、既存の＠switchingPeriodをupSwitchingとdownSwitchingとを区別するように拡張する必要があ
る。

さらなる実施形態は、ＲＡＳＬピクチャが予測のために参照することができる過去の最大量のピクチャに関する情報のビデオにおける存在に関する。この情報は、前のパラグラフのＭＰＤで記述された属性を引き出すために必要となる。この情報は、例えばＳＥＩの形態で、またはＶＵＩ自体に含めることができる。

上記の構文例では、サブレイヤー固有のシグナリングが例示されており、max＿reference＿poc＿difference [i] は、ＲＡＤピクチャとＲＡＭピクチャとの間の最大差を示し、例えばＴＲＡＩＬおよびＲＡＳＩピクチャを図３のＱ２に示す。ＶＵＩに構文要素を含め
る場合において、有効範囲は、ＳＰＳのもの、すなわち次の有効なＳＰＳによって置換されるまでのピクチャのシーケンスであってもよく、ＳＥＩにおいて構文要素を伝達する場合において、スコープは、そのソートの次のＳＥＩ、すなわちconstrained＿skipped＿leading＿pictures ＳＥＩメッセージによって置換されるまでピクチャのシーケンスであってもよい。すなわち、そのスコープの間、ビデオは、max＿reference＿poc＿difference [i] に関して約束に従うビデオストリームにコード化される。「サブレイヤ」は、異なる時間レイヤを区別し、例えば減少するサブレイヤＩＤｉでは、増加するピクチャ数が放棄される。そのため、上位サブレイヤから下位サブレイヤへの時間的なピクチャ相互依存性の消失のために、max＿reference＿poc＿difference [i] は、ｉが減少するにつれて単調に減少する。あるいは、max＿reference＿poc＿difference [i] ≦max＿reference＿poc
＿difference [i+1]である。しかし、他の構造も想像できるかも知れません。しかしながら、上記シグナリングは単なる例として理解されるべきであり、長さ表示max＿reference＿poc＿difference [i] のサブレイヤ依存性は、中断されている可能性があることに注意して下さい。例えば、時間的スケーラビリティをまったくサポートしていないか、または最高のサブレイヤに対する単なるシグナリングmax＿reference＿poc＿differenceであっ
てもよい。max＿reference＿poc＿differenceは、例えばＰＯＣの数、すなわちピクチャ
の数において、最初に参照された後続のＲＡＳＬと最初に参照されるＲＡＳＬとの間の興味深い時間差を測定する。その差または長さは、提示時間順に測定される。

したがって、上記の実施形態は、ＤＡＳＨまたは別のアダプティブストリーミングプロトコルなどのアダプティブストリーミングプロトコルを使用して、ビデオ２４をクライアントに出力するための装置２０を明らかにし、装置２０は、少なくとも、階層化されたビデオストリーム３６の形でビデオ２４を出力することと、空間解像度の高いビデオストリーム３８の形態でビデオ２４を出力することとの間の切り替えをサポートする。空間解像度の高いビデオストリーム３８は、オープンＧＯＰ（Group of Pictures）構造を使用し
て、すなわち図２に例示的に示されるようなオープンＧＯＰ構造における時間的予測を使用して符号化される。すなわち、ピクチャは、表示／表示順にＲＡピクチャに先行するＲＡＤ（ランダムアクセス依存）ピクチャによって、デコード順に従うＲＡ（ランダムアクセス）ピクチャをそれぞれ含むＧＯＰにグルーピングされる構成と、復号化順に先行するＲＡピクチャに先行するＲＡＭ（潜在的にはMissingのランダムアクセスの場合）はもち
ろん、ＲＡピクチャも参照する。階層化されたビデオストリーム３６は、第１の空間解像度でビデオを符号化した第１の層Ｌ１と、第２の空間解像度および第２の品質よりも低い第１の品質のビデオのピクチャを符号化し、層間アップサンプリングによって、予測残差符号化なしで第１の層から第２の層への層間予測（４４）を使用する第２の層Ｌ２と、を含む。
上記の例に示すように、第２の層Ｌ２は、層間アップサンプリングによって、すなわち予測残差符号化なしでかつ時間予測なしで、第１の層から第２の層への層間予測（４４）を単に使用してビデオのピクチャを符号化することができる。つまり、Ｌ２のピクチャは、層Ｌ１の時間的に対応するピクチャのアップサンプリングされたバージョンとして単に符号化される。

装置２０は、ビデオストリームがその間で切り替えるために提供される正確な方法に関して不可知であり得るので、上記の実施形態はまた、アダプティブストリーミングプロトコルを使用して出力する装置２０を明らかにし、第１のビデオストリームの形態でビデオを出力することと、少なくとも第１のビデオストリームの形態でビデオを出力することとを切り替えることをサポートする。すなわち、別々のセグメントに層Ｌ１およびＬ２を伝送する場合はＬ２であり、共通のセグメント内で層３６を伝送する場合は３６であり、そして、第２のビデオストリーム３８の形式でビデオを出力する。装置２０は、第１のビデオストリームの形態のビデオの取り出しから第２のビデオストリーム３８の形態のビデオの取り出しに切り替える前に、移行フェーズ６４をスケジュールする必要性をクライアン
ト５０に通知するように構成される。図１０および図１１に示すような共通セグメントを使用する場合、出力装置は、第１のビデオストリーム３６の形態の第１の空間解像度でクライアントのビデオの可用性を記述するマニフェストをクライアントに提供し、そして、第２のビデオストリーム３８の形態の第２の空間解像度で、第１のビデオストリームの時間セグメントおよび第２の層Ｌ２の目的の中に第２の層Ｌ２が存在することを示し、第２のビデオストリーム（３８）に切り替える前に、移送区間の間に第１の空間解像度から第２の空間解像度に切り替えるときに再生されることを意味する。次いで、マニフェストは、それぞれ、第１のビデオストリームおよび第２のビデオストリームの時間セグメントを取り出すためのアドレスを計算する計算ルールを示す。別個のセグメントを使用する場合には、装置２０は、第３のビデオストリーム、すなわち層Ｌ１によって表されるストリームの形態で取り出すためにビデオをクライアントに提供する。装置２０は、第３のビデオストリームＬ１の形態の第１の空間解像度で、第２のビデオストリーム３８の形態の第２の空間解像度のクライアントのためのビデオの可用性を記述するマニフェストをクライアントに提供する。次に、マニフェストは、第１の空間解像度から第２の空間解像度に切り替える際に、第１のビデオストリームの時間セグメント、すなわちＬ２が、移行フェーズ６４の間に第３のビデオストリームＬ１の時間セグメントとともに取り出されることを示し、すなわち第３のビデオストリームから第１のビデオストリームに、次に、第１のビデオストリームから第２のビデオストリームへの切換えの間に行われる。マニフェストは、第１、第２および第３のビデオストリームの時間セグメントを取り出すためのアドレスを計算する計算ルールを示す。付加的に、ビデオは、さらなるビデオストリームの形態で、第１の空間解像度よりもさらに高い追加の第３の空間解像度でクライアントに提供されてもよいことが示されており、しかしながら、第２のビデオストリーム４４は、閉状態および開状態のＧＯＰ構造を使用して交互に符号化される。次いで、装置は、さらに、第３の空間解像度でクライアントのためのビデオの可用性を記述するマニフェストを有する更なるビデオストリームの形態で取り出すためにクライアントにビデオを提供するように構成されてもよく、更なるビデオストリームの形態で第１および第２の空間分解能よりも高く、更なるビデオストリームの時間的セグメントを取り出すためのアドレスを計算する計算ルールをマニフェストに示すと共に、装置２０は、第３の空間解像度から第２の空間解像度に切り替えるためのダウンスイッチング時にクライアントに通知してもよく、第１または第３のビデオストリームから第２のビデオストリームへの切り換えのために、別々の時間インスタンス上に落ちる可能性があるので、アップ−スイッチングの機会を提供する。一般に、例えば、ダウンスイッチングは、クローズドＧＯＰ構造のランダムアクセスポイントにおいてのみ許可されてもよく、第２のビデオストリームをアップスイッチングすることは、オープンＧＯＰ構造のランダムアクセスポイントにおいても可能である。すなわち、第１のビデオストリームＬ２使用し、時間シフトまたは移行フェーズの長さに従う上記の輪郭を描いたやり方で可能であり、装置２０は、マニフェスト内に指示することができる。第１のビデオストリームＬ２および第２のビデオストリームは、１つのデコーダに供給されるように一緒にスプライスされることが可能である。これは、Ｌ１のクローズドＧＯＰ構造へのダウンスイッチングを制限する場合にＬ１およびストリーム３８を一緒にスプライシングする場合にも当てはまる。

上記の実施形態は、また、排他的ではないがＤＡＳＨのようなアダプティブストリーミングプロトコルを使用して、ビデオ２４を取り出すための装置５０を明らかにした。装置は、少なくとも第１のビデオストリーム３６の形態でビデオを取り出し、第２のビデオストリーム３８の形態でビデオを取り出すことの間の切り替えをサポートする。別の実施形態では、装置５０は、例えば、装置５０がアップサンプリング６６を内部的に実行するように設計されている場合には、ストリーム３６の層Ｌ１に単に対応する第１のビデオストリームで動作することさえできることに留意されたい。サーバから装置５０に出力される階層化されたビデオストリーム３６の概念を使用すると、装置５０の負担が軽減され、上述のような別の階層化されたビデオストリームによって第２のビデオストリーム３８を設
計する場合には、アップサンプリング６６が、スケーラブルビデオデコーダによって実行されるように、ストリーム３６とストリーム３８とを切り替える接合部においてストリーム３６と３８とを容易に連結することができる。装置５０は、第１のビデオストリームの形式のビデオの取り出しから第２のビデオストリームの形態のビデオの取り出しに切り替える前に、移行フェーズ６４をスケジュールするように構成される。これは、アップサンプリング６６を用いてＲＡＭピクチャを置換するのに十分な時間を提供する。

上記したように、空間解像度の高い（第２の）ビデオストリーム３８は、第１の空間解像度でビデオを符号化したさらなる第１の層Ｌ１と、オープンＧＯＰ構造の時間的予測を使用して第２の空間解像度でビデオを符号化した更なる第２の層Ｌ２とを含むさらなる階層化されたビデオストリームであってもよく、そして、更なる第１の層Ｌ１から更なる第２の層Ｌ２への層間予測を用いて、層間アップサンプリングおよび予測残差符号化を使用する。第１の層および更なる第１の層は、階層化されたビデオストリーム３６および更なる階層化されたデータストリーム３８に基づいてビデオの再構成を行うように、その中で符号化されたビデオを第１の空間解像度で等しく符号化されてもよく、第１の空間解像度でのスプライスポイントで一緒にスプライスされたピクチャは、階層化されたビデオストリームのいずれかに基づいて第１の空間解像度でのビデオの再構成に等しく、さらに、更なる階層化されたデータストリームを生成する。第１の層、更なる第１の層、および更なる第２の層は、オープンＧＯＰ構造を用いて符号化されてもよい。縮小された空間解像度を得るために、ストリーム３８からの空間解像度の向上またはストリーム３６または層Ｌ１への切り替えは、層Ｌ１が連続的に復号されるので問題はない。

空間解像度の高い（第２の）ビデオストリーム３８は、第２の空間解像度でビデオを符号化した更なる第２の層Ｌ２を含む更なる階層化されたビデオストリームであってもよく、オープンＧＯＰ構造内の時間予測を使用し、予測残差符号化を使用するが、層間予測は使用しない。層Ｌ１は、ここでは全く見当たりません。次いで、ストリーム３６の第１の層Ｌ１は、クローズドＧＯＰ構造を使用して、すなわち、ＲＡＤピクチャが存在しないＧＯＰにおいて時間的予測を用いて符号化されてもよい。縮小された空間解像度を得るために、ストリーム３８からの空間解像度の向上またはストリーム３６または層Ｌ１への切り替えは、オープンＧＯＰ構造が、参照ピクチャを置換する必要なしに、切り替え後に即座に再生を可能にするので、問題ではない。

ストリーム３６および３８の第２の層および更なる第２の層は、階層化されたビデオストリームとさらに階層化されたビデオストリームとをスプライスすることにより、第２の空間解像度でビデオを符号化した共通の層のＩＤを有する層を含むスプライスされた階層化されたビデオストリームが得られるように、共通の層のＩＤを用いてラベル付けされてもよい。

装置２０は、クライアント５０に、第１のビデオストリーム３６から空間解像度の高い（第２の）ビデオストリーム３８への切り替えの前に移行フェーズ６６をスケジューリングすることをクライアント５０に通知するように構成することができ、その中で、クライアントは、少なくともＲＡＭ参照ピクチャに関して、階層化されたビデオストリームの第２の層を使用して、第２の空間解像度でビデオの補足的な推定値を導出する。移行フェーズの長さは、ＲＡＤピクチャと参照されるＲＡＭ参照ピクチャの一対の間の最大距離を超えてもよいし、等しくてもよい。情報はマニフェストに含まれていてもよい。装置は、シンタックス要素max＿reference＿poc＿differenceのような空間解像度の高いビデオスト
リームのＳＥＩから移行フェーズの長さを導出するように構成することができる。これに関して、上記の説明はまた、例えば図２に例示されているオープンＧＯＰ構造における時間的予測を使用するやり方で、ピクチャのシーケンスを符号化したビデオストリームを明らかにし、すなわち、時間的予測により、提示時間順序に関して直接的または間接的に参
照する少なくとも１つのＲＡＤピクチャがピクチャのシーケンスの中に存在するようにし、ピクチャのシーケンスの後続するＲＡピクチャと、ランダムアクセスポイントピクチャを、提示時間順序および復号順序の点で先行するＲＡＭ参照ピクチャとに分割する。ビデオストリームは、少なくとも１つのランダムアクセス依存ピクチャの参照ピクチャと、少なくとも１つのランダムアクセス依存ピクチャによって直接的または間接的に参照される参照ピクチャとの間の最大時間的距離を示すmax＿reference＿poc＿differenceなどの構
文要素を含む。ビデオストリームは、階層化されたビデオストリームであってもよく、ピクチャのシーケンスは、階層化されたビデオストリームの層の１つのピクチャであってもよい。ストリーム３８は、例えば、そのようなビデオストリームであってもよい。対応するピクチャのシーケンスをビデオストリームに符号化するビデオエンコーダは、シンタックス要素をデータストリームに挿入することができる。そのようなエンコーダは、図２の１９に例示的に示されている。したがって、構文要素は、最大時間距離を示す情報である。それは、ＰＯＣ（ピクチャ順序数）または他の適切な単位で距離を測定することができる。

ストリーム３６の層Ｌ１および層Ｌ２は、クライアント２０によって個別に取り出し可能であってもよく、または装置２０によって個別に出力されてもよい。言い換えると、装置２０は、少なくとも、層Ｌ１およびＬ２のセグメント３６¹ _iおよび３６² _iを取得するクライアントによってＬ１およびＬ２の両方を含む階層化されたビデオストリーム３６の形態でビデオを出力すること、第２のビデオストリーム３８の形態でビデオを出力すること、および、ビデオを第１の空間解像度でビデオに符号化した空間解像度の低いストリームの形態でビデオを出力すること、の間の切り替えをサポートすることができる。後者の選択肢は、クライアント５０がストリーム３６の層Ｌ１に関するセグメントだけを取り出すことに対応することができる。すなわち、装置５０は、第１および第２の層Ｌ１およびＬ２を別々に含む時間セグメント３６¹ _iおよび３６² _iにおいて階層化されたビデオストリーム３６を取り出すことが可能になり、装置５０は、移行フェーズの外側で第１の層Ｌ１に関するセグメント３６¹ _iとともに第２の層２を含む時間セグメント３６² _iを取り出すことを控えることができる。代替的に、別個のセグメントが空間解像度の低いビデオストリームを伝送することに留意すべきであり、ストリーム３６の第１層のＬ１として等しく符号化され、あるいは異なる符号化されたものであっても、装置２０でのダウンロードのために提供されてもよい。

ストリーム３６の層Ｌ１および層Ｌ２は、クライアント２０によって取り出し可能であってもよいし、装置２０によって共通のセグメント３６_i内に単に一緒に出力されてもよ
い。装置５０は、次に、第１および第２の層を含む時間的セグメント内の階層化されたビデオストリームを取り出す。装置５０は、第２の層に、第１の層と共に、移行フェーズの間の時間を復号することを制限することができる。移行フェーズの外では、取り出されたストリーム３６のセグメント内で、層Ｌ２が搬送されているにもかかわらず、第１の層Ｌ１のみが復号される可能性がある。

上述したように、他の／クライアント側では、装置５０は、第１のビデオストリーム３６から復号されたピクチャは、第２のビデオストリーム３８のＲＡＤピクチャのために、ＲＡＤピクチャによって参照されるＲＡＭ参照ピクチャの代替物を形成するように、例えばスケーラブルデコーダによる復号化に一緒にステッチされた方法で第１のビデオストリーム３６および第２のビデオストリーム３８を処理することができる。

装置２０は、装置５０に送信することができ、装置５０は、例えば、セグメントまたは時間単位の単位で移行フェーズの長さの情報を装置２０から取得することができる。追加的または代替的に、信号化は、信号化、スケジューリングの非アクティブ化、またはスケジューリングのアクティブ化に応じて、装置２０から装置５０に、また、装置５０を用い
て装置２０から送信されてもよい。このように、装置５０は、オープンＧＯＰ構造の符号化されたビデオストリームではペナルティなしで可能になるので、２つのビデオストリームの間の切り替えを伴うが、あるビデオストリームから別のビデオストリームへの切り替え前の移行フェーズのスケジューリングを伴わずに、同じサーバまたは別のビデオから別のビデオを取り出すことができる。情報および／または信号はマニフェストに含まれていてもよい。

次に、実施形態を説明する本出願の態様は、従属表現の時間的セグメントの単なるサブセットが、従属表現によって参照される表現の時間的に対応するセグメントのクライアント装置への出力または取り出しを必要とするように、適応ストリーミングの従属表現をある方法で符号化することを可能にする態様に関する。これらの実施形態が説明される前に、そこからもたらされる利点の簡単な説明が提供される。

既存のスケーラブルビデオ符号化技術は、対応する単一のレイヤーコーデックと比較して無視できない符号化効率のペナルティと共に来ることはよく知られている。同時に、スケーラブルなコーデックにはこのような欠点がありますが、スケーラブルなコーデックでは使用するのに非常に魅力的な機能がいくつかある。

例えば、スケーラブルなコーデックは、非一様ランダムアクセスと、非整列ランダムアクセスポイント（ＲＡＰ）とを可能にし、後者は、整列したＲＡＰで同じ機能性を提供することと比較して、ランダムアクセスポイントでビットレートの時間的により良い分布を可能にする。図１４は、図１４の上半分に示されている整列したＲＡＰと、図１４の下半分に示されている整列していないＲＡＰとで説明した問題を示している。整列したＲＡＰおよび整列していないＲＡＰについて、セグメント分布に関連するビットレートがそれぞれ右側に示されている。図１４から分かるように、整列したＲＡＰの場合、ランダムアクセスピクチャ、ここにおいて、ＩＤＲピクチャは、サーバからクライアントに伝達されるストリームのビットレートが、ビデオのこれらの時間的セグメントに対応するビットレートピークを示すように、表現Ｑ１およびＱ２の時間的に位置合わせされた時間的セグメント、すなわち第１および第３セグメントに含まれる。非整列ＲＡＰの場合、状況はそれほど厳しくはない。ここで、ＲＡＰ、例えばＩＤＲピクチャは、表現Ｑ１とＱ２とを比較するときに時間的に整列していない時間的セグメント内に配置される。表現Ｑ１のランダムアクセスポイントピクチャは、セグメントＳｅｇ＃１およびＳｅｇ＃３内に含まれ、表現Ｑ２のランダムアクセスピクチャは、時間セグメントＳｅｇ＃２およびＳｅｇ＃４内に配置される。表現Ｑ２でサーバからクライアントへビデオコンテンツを送信するとき、サーバからクライアントに送信されるストリームのビットレートの時間的分散が低減される。すなわち、ビットレートのピークは、整列したＲＡＰの場合と比較してあまり重要ではない。

しかしながら、典型的には、下位層、すなわち、図１４の例ではＱ１を有する基本の層におけるより高い数のランダムアクセスポイントが上位層よりも多いので、すなわち、図１４のＱ２を有するエンハンスメントレイヤ（向上階層）は、高速チューンイン（高感度の調整）を可能にすることが望ましく、スケーラブルストリームは、単層の場合と比較して妥当な高圧縮オーバーヘッドを伴い、図１４の下半分でこのように説明された解決策をあまり魅力的にしない。

したがって、時間の経過とともにランダムアクセスを提供するのに必要なビットレートを配信することを可能にするが、特に、基本の層における頻繁なＲＡＰを伴う上記の場合の圧縮オーバーヘッドペナルティを回避することができるコンテンツを提供することが望ましい。

図１５は、サーバ上のクライアントによる取り出しのために利用可能なレンダリングされたメディアコンテンツの有利な実施形態を示す。これまでに説明した他の実施形態と同様に、メディアコンテンツはビデオであると仮定されるが、メディアコンテンツは、代替的に、例えばオーディオコンテンツなどの何か他のものであってもよい。メディアコンテンツは、第１のビットレートおよび品質Ｑ１および第２のビットレートおよび品質Ｑ２で利用可能である。第２ビットレートは、Ｑ１に対する品質Ｑ２と同様に、第１ビットレートに対して増加する。表現Ｑ２は、基本の層によって形成される。基本の層は、時間的に連続する８つのセグメントに時間的に細分される。このような８の連続したセグメントが図１５に示されている。第１、第３、第５および第７のセグメントは、ここではＩＤＲピクチャの形態のランダムアクセスポイントを含み、したがって、チューンインを可能にする。第２の表現Ｑ２は、基本の層に依存して符号化されたエンハンスメントレイヤ（向上階層）を介して符号化される。エンハンスメントレイヤ（向上階層）はまた、表現Ｑ１の時間セグメントに時間的に整列された時間セグメントに時間的に細分される。しかし、表現Ｑ２のこれらの時間的セグメントのうち、サブセットは、基本の層の時間的に対応する時間的セグメントに依存して符号化されるだけである。例えば、表現Ｑ２の中の図１５に示される第３、第４、第７および第８のセグメントは、表現Ｑ２のそれぞれの前のセグメントに応じて符号化されるが、基本の層の時間的に同じ位置にある時間的セグメントから独立している。したがって、表現Ｑ２でメディアコンテンツを取り出すことに関心のあるクライアントは、品質Ｑ２のメディアコンテンツを得るために、表現Ｑ２の時間セグメントに加えて、基本の層のすべての時間セグメントをダウンロードする必要はない。むしろ、クライアントは、表現Ｑ２の第３、第４、第７および第８のセグメントの取り出しから離れることができる。

したがって、本出願の一実施形態によれば、サーバからクライアントに送信されたマニフェストまたはメディアプレゼンテーション記述は、後者は、参照表現の不要なセグメントのダウンロードをスキップすることができるように、図１５に示されるような階層化された単一の層の符号化の混合をクライアントに通知するように拡張することができる。

たとえば、現在のＤＡＳＨの仕様では、さまざまなスケーラブルな層を所謂、表現として扱う。現在、ＤＡＳＨは、表現に基づいて比較的粗く依存するコーディングを記述している。以下でさらに説明されるコーディングを使用すると、いくつかのエンハンスメントレイヤセグメント（向上階層セグメント）が、必要でない基本の層セグメントの多くの不必要なトラフィックを誘発し、図１５に従って符号化されたとき、単一の層の符号化性能が達成され、インター予測が適用されないように符号化される。したがって、本出願の実施形態によれば、ＤＡＳＨにおける構文要素＠dependencyIdは、ユーザーが不要な基本層のセグメントのダウンロードを避けることができるように、例えば、必要なセグメントのみを示すためのセグメント依存性をシグナリングすることを可能にする追加の属性で拡張することができる。図１５の実施形態に関して、表現Ｑ２のセグメント＃３、＃４、＃７および＃８のみがダウンロードされる間、クライアントはＱ１およびＱ２からセグメント＃１、＃２、＃５および＃６をダウンロードすることができる。

そのようなマニフェストを解釈するために使用される属性の例を以下の表に示す。それは＠dependencyPatternを含んでいて、これは、クライアントに、あるエンハンスメント
レイヤの表現にほとんど必要とされない基本層の基本層セグメントを取り出す能力をクライアントに提供する。

たとえば、図１５の例では、属性は次のようになる。
＠dependencyPattern＝４１２
これは、インデックス１＋４^*ｎまたは２＋４^*ｎを有するセグメントが復号に必要であることを意味する。
したがって、このインデックスを持たない他のすべてのセグメントは、＠dependencyIdのみを使用する場合と比較して、ダウンロードしたビットレートを向上させることができませんでした。

セグメントの依存性または非依存性をより詳細にシグナリングすることに加えて、非整列のＲＡＰは、時間の経過とともにビットレートを分散するのに役立つ。さらなる実施形態は、異なる表現のためにＲＡＰにオフセットをシグナリングすることからなる。
＠rapOffsetまたは＠switchingOffsetである。

最後に、補足表現（すなわち、所与の表現が依存する表現）からの非依存セグメントがダウンロードされない場合、保存されたスループットを記述する属性をＭＤＢ＠savedBan
dwidthに追加して、記述された＠bandwidth attributeの意味を変更することができる。

図１６は、対応する出力装置またはサーバおよび関連するデータ構造の実施形態を示し、それは、クライアントによってダウンロード可能にレンダリングされることがある。図１６の出力装置は、参照符号１００を用いて示されており、図４に関して、上に概説した方法でハードウェア、ファームウェアまたはソフトウェアで実施することができる。内部的には、出力装置は、図４に関して説明した出力装置のように構成することができ、すなわち、記憶装置１０２とマニフェストプロバイダ１０４とを備えることができる。図１５に関して説明したように、出力装置１００は、変化するビットレートでアダプティブストリーミングプロトコルを介してメディアコンテンツを出力するか、またはメディアコンテンツのダウンロードを許可する。例えば、出力装置１００は、第１および第２の表現にそれぞれ関連付けられた第１および第２のビットレート間の切り替えをクライアントに提供する。表現は、階層コーデックの層に対応することができる。図１６では、より高いビットレートおよびより高い品質に対応する表現がＱ２で示され、より低いビットレートおよびより低い品質に対応する表現がＱ１で示される。したがって、表現Ｑ１は、それぞれメディアデータストリームの時間セグメント１０６のシーケンスであり、それぞれの品質Ｑ１でのビデオコンテンツの時間部分１０８のシーケンスに対応する時間部分である。これらのセグメント１０６のいくつかは、メディアの再生またはチューンインに適していてもよい。すなわち、表現Ｑ１の前のセグメントから独立して符号化することができる。表現Ｑ１の他のセグメントは、時間的に先行するセグメントに依存してもよい。後者は、図１６に斜線で示されている。同様に、表現Ｑ２は、データストリームの時間セグメントのシーケンスによって形成することもできる。これらのセグメントは、図１６において符号１１０で示され、それぞれ、メディアコンテンツの時間的部分１０８のそれぞれ１つが符号化されている。しかし、セグメント１１０は、表現Ｑ１の時間的に整列したセグメント１０６と、表現Ｑ１の時間的に対応するセグメント１０６から独立してコード化されたものと、に依存してコード化されたものを含む。前者は、図１６に斜線で示されている。他のものは、図１６ではハッチングされておらず、セグメント１１０の先行する１つに依存する方法で、メディアコンテンツのそれぞれの時間的部分１０８を符号化しているかも知れない。表現Ｑ１の対応する時間的に位置合わせされたセグメント１０６に依存して符号化されたセグメント１１０の中には、品質Ｑ２の任意の先行セグメント１１０から独立して符号化されてもよく、図１６の場合にはクロスハッチングで示されているが、他のものは前のセグメント１１０に依存している。

出力装置１００は、記憶装置１０２内に時間セグメント１０６および１１０の形態でデータ構造を記憶していてもよい。セグメント１０６および１１０は、それぞれ、マニフェストプロバイダ１０４がクライアントに出力するマニフェストに基づいて、クライアントが計算することができる固有のアドレスを関連付けることができる。マニフェストは、また、表現Ｑ１およびＱ２の記述を、例えば、それぞれの表現をダウンロードするために必要なビットレートおよびそれぞれの表現がメディアコンテンツを表す品質に関して表現することもできる。例えば、品質は、ある表現がメディアコンテンツの例としてビデオを表す空間解像度に対応することができる。

図１７は、図６に関連して説明したように、ハードウェア、ファームウェアまたはソフトウェアで実施することができるクライアント装置１２０を示す。内部的には、クライアント装置は、リクエスタ１２２とバッファ１２４とを備えることができる。図１７のクライアント装置１２０は、アダプティブストリーミングプロトコルに従って、出力装置１００と通信してメディアコンテンツを取り出しまたはダウンロードするように構成される。クライアント装置１２０が、例えば表現Ｑ１でメディアコンテンツをダウンロードしようとする場合、クライアント装置１２０は、出力装置１００からの表現Ｑ１のセグメント１０６のシーケンスをリクエスタ１２２によって順次要求する。リクエスタ１２２は、例え
ば、マニフェスト内でシグナリングされた対応するセグメントテンプレートに基づいてセグメント１０６のアドレスを計算し、出力装置１００は、リクエスタ１２２によって対応するリクエストをクライアント装置１２０に送信する。バッファー１２４によってバッファーされると、クライアント装置１２０は、取り出されたセグメント１０６のシーケンスを、メディアコンテンツがビデオである場合に、ビデオデコーダなどのメディアデコーダに転送する。

しかし、メディアコンテンツの表現Ｑ２に関心がある場合、クライアント装置１２０は、表現Ｑ１から独立して符号化された表現Ｑ２のセグメントに関して表現Ｑ１を取り出すことをスキップする。すなわち、クライアント装置１２０は、出力装置１００から表現Ｑ２のセグメント１１０のシーケンスを、表現Ｑ１に依存してコード化されたセグメント１１０に時間的に整列された表現Ｑ１のセグメントだけで取り出しまたはダウンロードする。したがって、クライアント装置１２０は、図１６に示す非ハッチングセグメント１１０に一時的に整列された表示Ｑ１のセグメント１０６をダウンロードまたは取り出すことを控える。

前述したように、出力装置１００からクライアント装置１２０に送信されるマニフェストは、決定論的な周期的な方法に関する情報を含むことができ、表現Ｑ１から独立して符号化される第２の表現のセグメント１１０は、表現Ｑ１に依存して符号化された表現Ｑ２のセグメント１１０と時間的にインターリーブされる。さらに、装置１００から装置１２０に送信されるマニフェストは、クライアント装置１２０がセグメント１０６および１１０の固有のアドレスを計算することができるようにする１つ以上のセグメントテンプレートを含むことができる。セグメントテンプレートおよび周期的な情報を使用して、クライアントデバイス１２０およびリクエスタ１２２は、それぞれ、セグメント１０６および１１０の必要なものだけを特にダウンロードすることが可能となる。マニフェストは、セグメント１０６および１１０の間でちょうど言及されたものだけをダウンロードすることから生じるビットレートを表現Ｑ２のためのビットレートとして示すことができる。あるいは、出力装置１００は、表現Ｑ１のセグメント１０６の不要な部分のスキップを任意に扱い、表現Ｑ２のためにマニフェスト内に２つのビットレートを示すことができる。１つは、表現Ｑ１のすべてのセグメント１０６がセグメント１１０に加えてダウンロードされ、他方が、表現Ｑ１のセグメント１０６のうちの不要なセグメントがスキップされ、セグメント１１０に加えてダウンロードされない場合についてのものである。

別の実施形態によれば、セグメント１１０のファイルヘッダ内のメッセージボックスは、出力装置１００からクライアント装置１２０に、後のセグメント１１０に依存するか否かにかかわらず、１つ以上の後続のセグメント１１０について信号を送るために使用されてもよく、表現Ｑ１の時間的に対応するセグメントをダウンロードすることを必要とする。この手段により、出力装置１２０は、クライアント装置１２０がマニフェストを検査し、例えば、最初に表現Ｑ２をダウンロードするかどうかを決定し、クライアント装置１２０は、表現Ｑ１の時間的に対応するセグメント１０６に沿って一列に並んだ表現Ｑ２の第１のセグメントをダウンロードすることから始めることができる。マニフェストは、例えば、Ｑ２の次のセグメントがＱ１の時間的に対応するセグメントを必要とするか否かを示すメッセージボックスの存在についてクライアント装置１２０に通知するヒントを含むことができる。次に、クライアント装置１２０は、このセグメント１１０内のメッセージボックスを検査して、１つ以上の次のセグメント１１０がラインＱ１内の対応する時間的に対応するセグメント１０６も取り出し／ダウンロードされなければならないか否かをチェックする。必要とされるもの１０６は、クライアント装置１２０によってダウンロード／取り出しされる。このようにして、クライアント装置１２０は、次のセグメント１１０のメッセージボックスを検査して、表現Ｑ１のそれぞれの時間的に対応するセグメント１０６の取り出し／ダウンロードを同じ必要性または必要としないかどうかを、さらなるセグ
メント１１０について調べる。

したがって、上述の実施形態は、メディアコンテンツをクライアントに限定するのではなく、ＤＡＳＨのようなアダプティブストリーミングプロトコルを使用して出力するための装置１００を明らかにした。メディアコンテンツは、ビデオに限定されず、オーディオデータまたは他のメディアデータであってもよい。装置１００は、少なくとも第１の表現Ｑ１と、第１の表現Ｑ１に依存するビデオを符号化した第２の表現Ｑ２との間の時間セグメント１０８の単位でのスイッチングをサポートし、装置１００は、クライアントに、第２の表現の時間セグメント１１０の第１のセット（図１６ではハッチングされている）の間を識別する情報をクライアントに提供し、第２の表現は、時間セグメントの第１のセットに時間的に対応する第１の表現の第１の部分、すなわちハッチングされたセグメント１１０に時間的に整列したＱ１のセグメント１０６に依存するメディアコンテンツをその中に符号化する。そして、第２の表現Ｑ２は、第２の時間セグメントの第２のセットに時間的に対応する第１の表現の第２の部分から独立してメディアコンテンツを符号化した時間セグメント１１０の第２のセット（図１６ではハッチングされていない）セットであり、すなわち、セグメント１０６は、非ハッチングセグメント１１０と時間的に整列している。したがって、第２の表現からのメディアコンテンツの首尾良い再構成は、第２の部分なしで第１の表現に沿って進み、すなわち、後者のセグメント１０６なしで再構成が可能である。

対応するデバイス１２０は、アダプティブストリーミングプロトコルを使用して、少なくとも、メディアコンテンツの第１の表現を取り出すことと、メディアコンテンツの第２の表現を取り出すこととの間で、時間セグメントの単位での切り替えをサポートするメディアコンテンツは、上記のように構成されていると説明した。第２の表現を取り出すとき、前記第１の表現の前記第１の部分とともに前記第２の表現の前記時間的セグメントの前記第１のセットを取り出し、そして、第１の表現の第２の部分を含まない第２の表現の時間セグメントの第２のセットを取り出す。

クライアント装置１２０によって使用される両方の装置１００と１２０との間で、第１の部分と第２の部分内にそれぞれ存在する第１の表現の時間セグメントのアドレスを区別するための計算規則を合意することができ、それは、メディアコンテンツが取り出される装置１００から送信されたマニフェストから計算ルールを導出することができる。したがって、上記の実施形態はまた、アダプティブストリーミングプロトコルにおける使用のためのマニフェストと、メディアコンテンツを記述するマニフェストと、前記メディアコンテンツを前記メディアコンテンツの第１の表現の形で利用可能であるものとして記述するマニフェストと、前記第１の表現に依存する前記メディアコンテンツを符号化した第２の表現と、を明らかにし、マニフェストは、第２の表現の時間セグメントの第１のセットと第２の表現の時間セグメントの第２のセットとを識別する情報を含み、第２の表現の時間セグメントの第１のセットは、時間セグメントの第１のセットに時間的に対応する第１の表現の第１の部分に依存してメディアコンテンツを符号化し、第２の表現の時間セグメントの第２のセットは、時間セグメントの第２のセットに時間的に対応する第１の表現の第２の部分から独立してメディアコンテンツを符号化する。そのため、第２の表現からのメディアコンテンツの首尾良い再構成は、第２の部分なしで第１の表現に沿って得られる。

追加的または代替的に、ファイルボックス内のような、第２の表現の時間セグメントの第１のセットおよび／または第２のセットの所定の時間的セグメントにおけるヒントは、装置１２０が、所定の時間セグメントに続く第２のプレゼンテーションの１つ以上の後続の時間セグメントを、第１および第２の時間セグメントのうちの１つに帰属させることを可能にすることができる。メディアコンテンツを表現し、ストリーミングのために概念化されたデータ構造は、アダプティブストリーミングプロトコルを使用して、メディアコン
テンツをクライアントに送信する。前記データ構造は、メディアコンテンツの第１の表現と、第１の表現に依存してメディアコンテンツを符号化した第２の表現と、を含み、前記データ構造は、前記第２の表現の時間セグメントの第１のセットと、前記第２の表現の時間セグメントの第２のセットとを識別する情報を含む。第２の表現の時間セグメントの第１のセットは、時間セグメントの第１のセットに時間的に対応する第１の表現の第１の部分に依存してメディアコンテンツを符号化し、第２の表現の時間セグメントの第２のセットは、時間セグメントの第２のセットに時間的に対応する第１の表現の第２の部分から独立してメディアコンテンツを符号化する。そのため、第２の表現からのメディアコンテンツの首尾良い再構成は、第２の部分なしで第１の表現に沿って得られる。ここでは、メディアコンテンツは、第２の表現の時間セグメントの第１のセットおよび／または第２のセットの所定の時間的セグメントにおけるマニフェストまたはヒントを含むことができる。

本出願の次の態様に進む前に、ビデオのようなメディアコンテンツは、後者には、表現間の依存性およびイントラ表現の符号化された時間セグメントのインターリービング、すなわち、ストリームＱ２の時間セグメントのシーケンス内で交互に起こるそれらのオーダーを導出することを可能にする情報が提供されるように、出力装置またはサーバにある方法で提供されてもよいことに留意すべきである。言い換えると、階層化されたビデオストリームは、図１４のＱ１およびＱ２に対応する層Ｌ１およびＬ２にビデオを符号化することができ、ピクチャのシーケンスが、他の層から独立して符号化されたピクチャのサブシーケンスを交互に含むように、すなわち、層間予測なしに、Ｌ１のような別の層に依存して符号化されたピクチャのサブシーケンス、つまり、層間予測を使用して、この階層化されたビデオデータストリームは、このサブシーケンスの交替についての指示を含むことができる。そのため、出力装置はそれに応じてクライアントに通知することができる。すなわち、１６個の矩形によって図１４に示すセグメントを得るために、階層化されたビデオストリームを時間に沿った時間セグメントおよび層間の時間セグメントに細分することによって達成され、例えば、階層化されたビデオストリーム内の表示を考慮に入れて、または伴わずに、各時間セグメントに、ビデオストリーム内の指示に従って、インター表現依存セグメントまたはイントラ表現符号化時間セグメントを指定することができる。特に、階層化されたビデオストリームに示されている層内符号化ピクチャのランの１つの中のピクチャのみを含むか、またはその中に符号化された時間セグメントは、図１６においてハッチングされていないもの、すなわち、Ｑ２のイントラ表現符号化されたセグメントになり、一方、階層化されたビデオストリームの層Ｌ２が、時間的に細分される他のすべてのセグメントは、図１６に関して表現Ｑ２のハッチングされたものになる。

言い換えれば、上述の実施形態におけるトランスポートレベルに表示される時間的セグメントの細分性を有するビデオ表現の依存性情報は、エンコーダからのサイドチャネル情報を介して、または完全なビデオビットストリームを構文解析して分析すること、すなわち、すべての指示された層依存性、参照画像セット、および時間の経過に伴う層間予測の実際の使用によって得ることができる。エンコーダがビデオビットストリーム内でこの情報を容易に利用可能な形で直接伝達する手段を提供することは便利である。以下の例示的な構文は、この機能をＳＥＩメッセージとして可能にする。

所与の層に対して、参照層に対する層の層間予測依存性は、ＳＥＩの範囲について記述／保証／指示される。スコープは、ＳＥＩの次の発生（num＿AUs＝０の場合）またはアクセスユニットの明示的な量（そうでない場合）まで続く。ilp＿idcの値は、ＳＥＩの範囲内で表現された層間にＩＬＰ依存性がないかどうかを示す。すなわち、ＳＥＩは、ある層ｉの次のすべてのピクチャについて、その層ｉの符号化が排他的に依存する層ｊ＜ｉであるかどうかについてのそのタイプの次のＳＥＩを示す。このピクチャのランは、上記の名前を使用してピクチャのランまたはサブシーケンスを形成し、ピクチャの次のランまたはサブシーケンスは、次に依存するＳＥＩによって開始され、参照層のセットを変更することができる。図１６の参照符号１１９を使用して示されるビデオエンコーダは、このような情報を有する階層化されたビデオストリームを提供することができ、装置１２０などのネットワークデバイスは、情報を使用して各ＳＥＩメッセージ、例えば、各ＳＥＩメッセージから次のＳＥＩメッセージまでのピクチャのサブシーケンスに及ぶそれらのピクチャに転送することができる。

次に説明される実施形態は、本出願のさらなる態様、すなわち、一方ではチャネル自体、他方では表現、によって広がる空間におけるマルチチャネル信号内のランダムアクセスポイントを分配する態様に関する。本出願の他の態様に関して前と同じように、説明は基本的な問題を説明する序文から始まる。

ランダムアクセスポイントは、通常、ストリーミングシステムで使用され、それらはライブサービスまたはシーク機能のいずれかの異なるポイントでストリームへのチューンインを可能にするからであり、そして、メディアビットレートをネットワークから測定された利用可能なスループットに適合させる必要がある動的適応型ストリーミングセッションにおけるスイッチングポイントとして使用することができる。

ランダムアクセスポイントの頻度を最適化することは、最後に符号化効率とランダムアクセス能力との間のトレードオフである。また、ＲＡＰの頻度が高いほど、それから、ライブイベントに近いほど、ライブシナリオでのユーザーのチューンインが可能になる。

符号化効率に加えて、クライアントバッファが可能な限り低く保たれる低遅延シナリオでは、ピークビットレートは実際にバッファによって吸収されることはできず、ユーザーはピークビットレートに基づいてその動作ポイントを最適化することができる。同時に、ＤＡＳＨシナリオでは、セグメントを可能な限り小さく（例えば、ＧＯＰサイズ）維持して、サーバ側の遅延を低減することができる。このような環境では、すべてのセグメントがＲＡＰで符号化されるわけではなく、時間の経過とともにサイズの変動が大きいセグメントにつながるわけではありません。ＲＡＰを含むセグメントは、ＲＡＰを含まないセグメントよりもはるかに大きくなる。

ユーザーは、最悪の場合のシナリオ、すなわちＲＡＰを含むシナリオに対応する最大のセグメントについて所望の品質を選択しなければならない。セグメントサイズの変動性に関する問題を図１８に示す。図１８は、あるサーバによって提供される４つの表現が、図１８の右側の２００に示すように、４つの異なるタイルまたは１つのシーンの部分に対応する場合を示す。各表現は、例えば左から右への時間順に沿って図１８に配置された時間セグメントのシーケンスから構成される。ＲＡＰを含むセグメントは、３×３アレイとして示されている。図１８の下部に示すように、クライアントへのすべての表現の送信は、ＲＡＰを含む時間セグメントに関連するビットレートピークを有する時変ビットレートをもたらし、図１８の例では、表現１から４の間で時間的に整列される。

段階的復号化リフレッシュ（ＧＤＲ）は、エンコーダが時間の経過（またはビットストリームのピクチャ）と共に符号化予測のリフレッシュ（再開）を分散することを可能にする技術であり、例えばピクチャの異なる空間領域について異なる時点で予測を破ることによって、予測することができる。このような機能を提供する簡単な方法は、タイルを使用してビデオを符号化し、ＲＡＰまたは予測破損（予測−リセット）ピクチャを異なる（サブ）セグメントに配信することにより、散在したＲＡＰを時間内に使用することである。サーバー側でこれを行うだけでは、ランダムなアクセスポイントを（「全体的に」クリーンな）無制限にすることはできない。したがって、ＲＡＰを含むセグメントを、共通シーンの別のチャネルに関係する表現に渡って時間的に分配することは、シーンの対応するセクションのように、ビットレートのピークの問題を非常に満足に解決するものではなく、実際、この測定によって、様々なチャネルの以前の「共通の」または時間的に整合したランダムアクセスポイントは単に時間的に汚れているだけであり、チューンインレートをシーン全体またはメディアコンテンツにそのまま残す。以下に説明する実施形態によれば、ビットレートピークの問題を低減し、クライアントに必要なチューンイン時間を短縮することができる。

次に説明される実施形態によって適用される解決策は、メディアシーンの複数のチャネル、すなわちシーンの４つの異なるセクションの例として、図１８と同じ例を使用する図１９に関して最初に説明される。図１９の例では、各チャネルについて３つの表現、すなわち、シーンの右上のセクションに対応する第１のチャネルの最初の３つの表現が提供される。シーンの右上のセクションに関する第２のチャネルの表現４〜６、表現７〜９の表現は、シーンの左下側の第３のチャネルに対応し、表現１０〜１２は、シーンの右下の部分に関連する第４のチャネルに費やされる。したがって、完全なシーンを取得することに関心のあるクライアントは、各チャネルの表現の１つを取り出す必要がある。各チャネルについて１つ以上の表現が利用可能であるという事実は、例えば、速い曲のために、または表現を訪問するために、クライアントに、ある時間的セグメントについて、ＲＡＰを含むチャネルの表現を具体的に訪問する機会を提供し、その平均数は、それぞれの時間セグメントにおいて、４つのチャネルのためにダウンロードされたＲＡＰを含む時間セグメントの平均数が時間の経過と共に実質的に一定になるようにＲＡＰを決定し、これにより、サーバからクライアントへのチャネルの時間セグメントを合理的に低速にストリーミングするための時間的ビットレート分散を維持するのを助ける。

ダウンロードされたビットレートは、前の場合よりも時間の経過とともにどのように均質であるかを見ることができる。

ＭＰＤで必要なシグナリング：
第１の実施形態
−ＲＡＰオフセットまたは同様のもの
○ 上記で定義した＠rapOffsetまたは＠switchingOffset
○ これは、上記のタイル型のユースケースや散在したＲＡＰ／スイッチングポイントを使った高速チューンに使用できる。したがって、各表現のビットレートは小さくなりますが、より頻繁なＲＡＰ／スイッチングポイント
■ それが同等の表現であることを示す。
第２の実施形態
−調整に必要な調整済みのＲＡＰのみ−散乱したＲＡＰのみを提供するＲｅｐｓおよびドリフト付きのＲＡＰを整列させた追加の「非完全」のＲｅｐｓ
第３の実施形態
−ピークレート低減測定
○ ＠peakBitrateReductionを記述する属性。ピークビットレートは、＠minBufferTimeおよび＠bandwidthを使用して導き出すことができる。スケジューラは、このピークビットレートの導出に基づいて動作する。このような属性は、スケジューラが実際の分散レートを考慮に入れるのに役立つ。これは、高品質のストリームで時間を延長するのに役立つ。今までどおり整列したＲＡＰは、スイッチングまたはランダムアクセスに使用できる。

図２０は、図１９に関して概説した考え方を利用することができる出力装置またはサーバ２２０を示す。出力装置２２０は、図４および図１６に関して上述したように、ハードウェア、ファームウェアまたはソフトウェアで実施することができる。内部的には、出力装置２２０は、記憶装置２２２およびマニフェストプロバイダ２２４を備えることができる。図２０の出力装置２２０は、アダプティブストリーミングプロトコルの使用によって、クライアントのために利用可能なレンダリングのためのものであり、複数のチャンネルから構成されるメディアシーンを生成する。各チャネルについて、出力装置２２０は、いくつかの表現のうちの１つでそれぞれのチャネルの取り出しまたはダウンロードをサポートする。図２０では、チャネル当たり２つの表現のみが例示的に示され、チャネルの数は例示的に３である。しかしながら、チャネルの数は、１より大きい任意の数であってもよく、チャネル当たりの表現の数は、同様に、１より大きい任意の数であってもよい。出力装置２２は、各チャネルの各表現について、セグメントのシーケンスの出力または取り出しを提供する。図２０では、セグメントは３つの英数字記号を用いて示されている。最初のものはチャネルを示し、２番目のものは表現を示し、３番目のものは大文字Ａ、Ｂ、Ｃ・・・を使用して時間的にセグメントのシーケンスを区別する。これらのセグメントのすべては、個々の要求によってそれぞれのクライアントによって個別に取り出し可能またはダウンロード可能である。すなわち、各セグメントはそれ自身の一意のアドレスを含む。

出力装置２２０は、利用可能なメディアシーンをマニフェストに記述し、利用可能な表現と、メディアシーンの個々のチャネルとの関連性の観点から見たものである。表現は、互いに依存してもよく、独立していてもよいことに留意されたい。チャネルは、オーディオシーンであるメディアシーンを伴うオーディオチャネルに対応してもよく、または、チャネルは、パノラマシーンのシーンセクションであってもよい。個々の表現は、関連チャネルが符号化されたデータストリームであり、例えば関連するシーンセクションをそれぞれ有するビデオストリームを符号化する。１つのチャネルに属する表現は、異なるビットレートなどに対応する必要はない。１つのチャネルに属する表現は、同じビットレートまたは同じ品質のものであってもよい。しかし、出力装置２２０は、マニフェストに、様々なチャネルの個々の表現におけるアクセスポイントがどこであるかを示す情報を提供する。それらは互いに時間的に異なる分布をしている。すなわち、ランダムアクセスポイントを含む時間的セグメントは、１つのチャネルに属する表現と比較して異なる時間的に配置／分配される。好ましくは、それらは、ランダムアクセスポイントを含む時間的セグメントが、１つのチャネルに属する表現間の時間と一致しないように分散されるか、またはそのような一致は、１つのチャネルのこれらの表現内のランダムアクセスポイントを運ぶ時間セグメントの数およびこのチャネルの表現の数を考慮して最小に対応する。例えば、ラ
ンダムアクセスポイントの時間的分布は、そのような、各チャネルの各表現内において、時間セグメントを担持するランダムアクセスポイントが、全体的なメディアシーンの初めから一定のオフセットｊでｉ番目の時間セグメントごとに周期的に配置される。１つのチャネル内で、周期性ｉおよび／またはオフセットｊは、それぞれのチャネルの表現の間で変化し得る。

図２０の実施形態に適合するクライアント装置は、余分な図形が取り除かれるように、図１７に示されるものとして構成され構築されてもよい。クライアント装置１２０は、図２０に適合する実施形態によれば、マニフェストを要求し、そこから、上で概説したように、チャネルに属する様々な表現のランダムアクセスポイントの位置を導出し、１つのチャネルに属する表現を比較するときに異なる方法で時間的に分散され、これはすべてのチャネルに当てはまる。次に、クライアント装置は、現在の時間セグメントの各チャネルについて、それぞれのチャネルの表現のうちの１つを選択し、この選択は、ランダムアクセスポイントを搬送するセグメントの位置に応じて行われる。上記したように、クライアント装置１２０は、例えば、高速チューンインのために、速いチューンインを可能にする特定の時間セグメントにおける各チャネルの表現を選択し、メディアシーンのダウンロード中に、各時間セグメントに対して各チャネルの表現を選択し、これらの表現は、時間的に変化の少ないランダムアクセスポイント運搬セグメントの数を示す。

したがって、第３の態様によれば、装置２００は、排他的ではないがＤＡＳＨのようなアダプティブストリーミングプロトコルを使用してメディアシーンのチャネルをクライアントに出力するように構成されてもよいことに留意されたい。メディアシーンはピクチャであってもよく、チャネルはそのセクションであってもよい。あるいは、メディアシーンはオーディオシーンであってもよく、チャネルはオーディオチャネルであってもよい。装置２００は、各チャネルについて、ランダムアクセスポイントの時間的分布が異なるそれぞれのチャネルの表現のセット間の切り替えをサポートすることができる。すなわち、装置２００は、ダウンロードまたは同じものをフェッチするためにクライアントにそのような表現を提供する。異なるチャネルに属する表現は、相互に独立して符号化されてもよい。同じチャネルに属する表現は、相互に独立して符号化されてもよいし、互いに依存してもよい。

断続的に発生する時間インスタンスでは、チャネルの表現のセットのうちの少なくとも１つのランダムアクセスポイントが時間的に整列されてもよい。たとえば、第１、第８および第１６セグメントの表示＃１，４，７および１０を参照。アダプティブストリーミングプロトコルを使用してメディアシーンのチャネルを取り出すための対応するクライアント装置１２０は、各チャネルについて、それぞれのチャネルの表現のセットの間で切り替えるように構成されてもよい。そうすることで、装置１２０は、各チャネルについて、そのチャネルの表現のセットの中のそれぞれのチャネルについて現在取り出される表現を選択するように構成されてもよく、チャネルの表現のセットにおけるランダムアクセスポイントの時間的分布に依存する。時間的分布、すなわち、様々な表現内のランダムアクセスポイントの時間的位置は、サーバとクライアントとの間で合意されてもよい。装置１２０は、メディアシーンが取り出されるサーバからチャネルの表現のセット内のランダムアクセスポイントの時間的分布を明らかにする情報を取り出すように構成することができる。特に、情報は、サーバ２００から送信されたマニフェストを介して輸送されてもよい。あるいは、情報は、チャネルの表現のセットの所定の時間的セグメント内のヒントを使用して伝達されてもよい。所定のセグメントは、各チャネルの現在取り出されている表現にかかわらず、クライアントは含まれている情報を取得するように、断続的に発生する機会において時間的に全チャネルのすべての表現のセグメントであってもよい。この情報は、例えば、フォーマットファイルボックスに含まれていてもよい。

サーバ２２０は、達成可能なビットレートピーク低減についてクライアントに通知してもよいことに留意されたい。達成可能なピークビットレートの低減は、各チャネルについて、各チャネルの表現セットの中のそれぞれのチャネルについて現在取り出されるべき表現を選択することによってメディアシーンを取り出して得られるものであってもよく、チャネルの表現のセットにおけるランダムアクセスポイントの時間的分布に依存する。そのため、ランダムアクセスポイントを含む選択された時間セグメントのうちのいくつかの時間セグメントは、可能な限り最小限の方法で時間的に変化する。サーバ２２０は、実現可能なピークビットレートの低減を異なる方法でクライアントに通知することができる。サーバ２２０は、クライアントに、以下の（１）〜（３）のことを、通知することができる。
（１）メディアシーン、すなわちすべてのチャネルを１つまたは複数の所定の表現の集合でダウンロードしてチャネルごとに１つの表現を選択する際に必要な平均ビットレート、
（２）これらの１つまたは複数の所定のコレクションのダウンロードに関連するビットレートのピーク、および
（３）ＲＡＰ数分散回避方法における表現間の各チャネルの切り替え時に、メディアシーンのダウンロードに関連するビットレートピーク。
代わりの方法も実現可能であろう。

以下の説明は、本出願の第４の態様に関する。この態様は、クライアントとサーバとの間のアダプティブストリーミングシナリオにおける異なる表現間の切り替えに関係する。クライアントに到着するメディアストリームの品質を改善するために、以下に提示される概念は、ある表現から別の表現に切り替える際の移行フェーズのスケジューリングを示唆する。

図２１は、そのようなフェーディングフェーズが有利に適用され得る例を例示的に示し、図２１は、本発明の第１の態様に関する実施形態に関して上に概説した移行フェーズの挿入と本移行フェーズ挿入アイデアを組み合わせた場合を例示的に示す。すなわち、図２１は、それぞれのクライアントの要求に応じて、サーバからクライアントに送信される２つの連続する時間セグメントを示す。図２１は、クライアントが第１の表現のセグメントＳｅｇ＃１から表現２のセグメントＳｅｇ＃２に切り替わる図１３の状況を開始点として例示的に示す。表現２のＲＡＤピクチャのＲＡＭピクチャの損失を補償するために、クライアントは、時間セグメントＳｅｇ＃１中の第１表現の対応する時間セグメントに加えて、別個の時間セグメントの形態の補助トラックを取り出す。したがって、クライアントで再生されたビデオは、第１の表現に基づいて再構成されたピクチャのシーケンスから第２の表現のピクチャに移行（遷移）する。しかしながら、この移行（遷移）は、例えば図２１の例では、第２の表現のＲＡＳＬピクチャの参照ピクチャの補足的な推定にさらに苦しんでいるが、表現１から表現２への変化により、プレゼンテーション品質が低下する可能性がある。この欠点を解決するために、本出願の第４の態様の実施形態は、層間予測、すなわち、それぞれ表現１と表現２に基づいて別々に導出された予測子の線形結合を使用して、表現１および表現２に基づいて双方向予測されるデータストリームである追加の補助トラック２９０をクライアントに提供することを提案する。言い換えれば、追加の補助トラック２９０は、層間予測の使用によって、すなわち、追加の補助トラック２９０の各ピクチャについて、表現１の時間的に対応するピクチャのコピーおよび表現２の時間的に対応するピクチャのコピーを使用して、それぞれのピクチャを予測し、そのうち１つが減少し、他の１つが段階２９２の間に増加する重みを使用する。そのため、両方の表現の間の移行は、減少する重みが属するものから、増加する重みが属するものへと起こる。図２１において、補助トラック２９０のデータストリームの各ピクチャの別個の予測子を導出するための層間予測は、補助トラック２９０のそれぞれのピクチャから、表現１および表現２のそれぞれに時間的に対応するピクチャまで垂直に導く２つの破線の矢印を使用して例
示的に示される。このようにして、クライアントは、第２の表現に関するセグメントに加えて、補助要求２９０および表現１の時間的に対応するセグメントに加えて、移行フェーズ中に取得し、この移行フェーズ２９２中に補助トラック２９０の再構成を行い、移行フェーズの後に、単に、第２の表現を取り出して再生することに進む。補助トラック２９０のピクチャは、例えば、第２の表現のピクチャおよび第１の表現のピクチャからそれぞれ導出された予測子の線形結合として、双方向予測された形で符号化することができる。線形結合は、移行フェーズの間に、２つのプレディクタの重みを時間的に変化させることができ、そのような中で、第１の表現のピクチャが線形コンビネーションにますます少なく寄与する一方、第２の表現のピクチャは移行フェーズの間に線形コンビネーションにますます寄与する。例えば、補助トラック２９０のピクチャは、第１の表現の時間的に対応するピクチャの層間予測コピーを第１の係数倍したものと、第２の表現の時間的に対応するピクチャの層間コピーバージョンを第２の係数倍したものと、の線形結合によって形成され、第１の係数は、フェーディングフェーズ中に１から０へ単調に減少し、第２の係数はフェーディングフェーズ中に０から１へ単調に増加する。これは、図２２に例示的に示されており、第１および第２の因子の時間的変化に関する別々のグラフを示し、それぞれ、時間軸における中括弧は移行フェーズ２９２を示している。

図２３は、上述した第４の態様を使用するさらなる実施形態における出力装置３００を示す。出力装置３００は、実装されてもよく、本出願の他の態様の他の出力装置に関して説明されるように、任意の内部構造を有してもよい。すなわち、出力装置３００は、上述したように、ハードウェア、ファームウェアまたはソフトウェアで実装されてもよく、内部で記憶装置３０２およびマニフェストプロバイダ３０４から構成されてもよい。

図２３の出力装置３００は、排他的ではないが、ＤＡＳＨ、ビデオなどのメディアコンテンツなどのアダプティブストリーミングプロトコルを使用して出力するように構成されている。装置３００は、第１の品質でメディアコンテンツを符号化した少なくとも、第１のメディアストリーム３０６、第２の品質のメディアコンテンツを符号化した第２のメディアストリーム３０８、そして、第１および第２のメディアストリーム３０６および３０８に依存するメディアコンテンツを符号化した補助メディアストリーム３１０の形態で引き出すために、メディアコンテンツをクライアントに提供する。したがって、第１のメディアストリーム３０６は、メディアコンテンツの第１の表現を形成し、第２のメディアストリーム３０８は、第２の表現を形成する。第２の表現は、第１の表現に依存してもしなくてもよい。メディアストリーム３０６〜３１０は、破線のボックスを使用して示されているが、メディアストリーム３０６，３０８の時間セグメント３１２から出力装置３００からクライアントによって別個に取り出し可能な補助メディアストリーム３１０の時間セグメント３１２を有する時間セグメント３１２のシーケンスとしてそれぞれ示されている。代替的には、補助メディアストリーム３１０は、第２のメディアストリーム３０８の時間的セグメント内に含まれてもよく、このオプションは２４で示されているか、または第１のメディアストリーム３０６の時間的セグメント内に示されている。マニフェストプロバイダ３０４がそれぞれのクライアント要求に応じてクライアントに出力するマニフェストは、例えば、それぞれの表現を復号するために必要な復号能力、その品質、その伝送ビットレートなどの表現１および２を記述する。さらに、マニフェストは、時間セグメント３１２を取得するためのアドレスを計算する１つまたは複数のセグメントテンプレートをクライアントに提供し、そしてそれは、アドレスが、一方では、メディアストリーム３０６とメディアストリーム３０８の時間的セグメントに対して異なり、他方では、補助メディアストリーム３１０がこれらの時間的セグメントに含まれていて、または結果を有する１つまたは複数のセグメントテンプレートは、ストリーム３０６，３０８および３１０の時間セグメントを別々に取り出すための別々のアドレスの計算になる。

図２４のクライアント装置３２０は、ハードウェアの形態での実装に関して他のクライ
アント装置に関して上述したのと同じ方法で実装することができ、クライアント装置３２０が任意にリクエスタ３２２とバッファ３２４とを備えることができる内部構造に関して、クライアント装置３２０と通信することができる。図２４のクライアント装置は、排他的ではないがＤＡＳＨなどのアダプティブストリーミングプロトコルを使用して、サーバからの排他的ではないビデオなどのメディアコンテンツを受信し、この目的のために、少なくとも、図２３の出力装置などのサーバから第１のメディアストリームまたは第２のメディアストリームを取り出すことを切り替える。クライアント装置は、装置３２０が、第１および第２のメディアストリームを有する補助メディアストリームを取り出し、第２の補助ストリームの代わりに補助メディアストリームを再生するその中で、第１のメディアストリームを取り出すことから第２のメディアストリームを取り出すことに切り替える際にフェーディングフェーズ２９２をスケジューリングするように構成される。例えば、図２４は、フェーディングフェーズに先行する時間フェーズ３２６中のクライアント装置３２０が、サーバからの第１のメディアストリーム３０６を単に取り出し、セグメント化し、または取り出し、それぞれのデコーダによって復号化することと同様であるように、第１の表現から独立した第２の表現３０８の場合を示す。フェーディングフェーズ２９２の間、クライアント装置３２０は、メディアストリーム３０６および３０８の時間的に対応する時間的セグメントと共に、補助メディアストリーム３１０のフェーディングフェーズ２９２内の時間セグメントを取得し、フェーディングフェーズ２９２に続いて時間的フェーズ３２８にある間に、対応するデコーダによってそれらすべてに復号する。クライアント装置３２０は、第２のメディアストリーム３０８を再生してサーバから取り出すことにより補助メディアストリーム３１０を取り出すことを控える。第２の表現が第１の表現に依存する表現である場合、クライアント装置３２０は、メディアストリーム３０６の時間的に対応するセグメントと共に、時間フェーズ３２８の間に第２のメディアストリーム３０８の時間セグメントを取り出す。

既に上述したように、本出願の第１の態様に関して上述した実施形態と本出願の第４の態様に関して説明した実施形態とを組み合わせることができる。例えば、図２５は、クライアント装置３２０がサーバと対話することを示しており、第１、第２および補助表現３０６，３０８および３１０に加えて、３６のスイッチングトラックＬ２の形態で取り出すためのメディアコンテンツ、ここではビデオを提供する。したがって、クライアント装置３２０は、表現１から表現２への移行（遷移）で移行フェーズ８４およびフェーディングフェーズ２９２の両方をスケジューリングするように構成される。移行フェーズ８４の間に、クライアント装置３２０は、サーバから、階層化されたビデオストリーム３６の層Ｌ１に対応する第１のメディアストリーム３０６に加えて、階層化されたビデオストリーム３６のスイッチングトラック、すなわち、第２の層Ｌ２を取り出し、別個の時間的セグメントまたは共通の時間的セグメントのいずれかにおいて、クライアント装置３２０は、移行フェーズ８４の間に行われたように、３６のスイッチングトラックＬ２を再生しないフェーディングフェーズに移行し、補助メディアストリーム３１０から導出された補助表現は、それぞれメディアストリーム３０６および３０８に依存して符号化される。

言い換えると、一実施形態によれば、重畳信号が表示され、出力信号は複数のトラックの重み付きバージョンであり、いくつかのトラックを重ね合わせる前にアップサンプリングすることができる。１つのそのような重み付けは、指定された点で２つのトラック間を切り替える。別の重み付けは、あるトラックから他のトラックへの漸進的な移行を可能にする。重畳信号は、出力信号が両方のトラックの重み付けバージョンで表示される。
＊トラックの１つには、重畳前に影響を受ける符号化ドリフト（例えば、オープンＧＯＰエンコーディングが使用された場合など）が高品質（例えば、元のものより高い解像度またはより高い忠実度）でビデオが含まれる。
＊１つのそのような重み付けは、あるトラックから他のトラックへの漸進的な移行を可能にする。
＊重畳は、コーデックドメイン外で実現される。
＊重畳は、コーデックドメイン内で以下の図に従い、ここでは、Ｒｅｐ１とＲｅｐ２（破線のオレンジ色の矢印）からの単なる重み付け予測を特徴とする追加の表現「重み付け」として示された第３の「層」が再生される。

符号化された先頭のピクチャのようなオープンＧＯＰ（ドリフトの影響を受けるか否か）がない場合でも、この方法は、（徐々に）層の切り替えを可能にする。

後者の実施形態に関して、別の実施形態は、第１のメディアストリームと第２のメディアストリームとの間を切り替えるときに、クライアントにフェーディングを制御するメタデータをクライアントに提供する装置３００を含むことに留意されたい。メタデータは、例えば、フェーディングで使用される上述の重みの増減の強さを記述することができる。クライアント装置１２０は、サーバからメタデータを受信し、第１および第２のメディアストリームを切り替える際にメタデータを使用してフェーディングを制御する。

上記の説明に関して、示されている任意のエンコーダ、デコーダまたはネットワークデバイスは、ハードウェア、ファームウェアまたはソフトウェアで具体化または実装されてもよいことに留意されたい。ハードウェアで実装する場合、それぞれのエンコーダ、デコーダまたはネットワークデバイスは、例えば、特定用途向けの集積回路の形態で実施されてもよい。ファームウェアで実装されている場合、それぞれのデバイスは、フィールドプログラマブルアレイとして実装されてもよく、ソフトウェアで実装される場合、それぞれのデバイスは、記載された機能を実行するようにプログラムされたプロセッサまたはコンピュータであってもよい。

いくつかの態様は、装置の文脈で記載されているが、これらの態様は、対応する方法の説明も表していることは明らかであり、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたは対応する装置のアイテムまたは特徴の記述も表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって実行されてもよい（または使用されてもよい）。
いくつかの実施形態では、最も重要な方法ステップの１つまたは複数は、そのような装置によって実行されてもよい。

本発明の符号化されたデータストリームまたは信号は、デジタル記憶媒体に格納することができ、あるいは無線伝送媒体またはインターネットなどの有線伝送媒体のような伝送媒体上で伝送することができる。データストリームへの何らかの情報の挿入または符号化が記述されているところでは、この説明は、結果として得られるデータストリームがそれぞれの情報、フラグのシンタックス要素などを含むことの開示と同時に理解されるべきである。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実施することができる。実装は、電子的に読み取り可能な制御信号が記憶されたフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリなどのデジタル記憶媒体を使用して実行することができ、そこで、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（または協働することができる）。従って、デジタル記憶媒体はコンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、プログラム可能なコンピュータシステムと協働して、本明細書に記載の方法の１つが実行されるように、電子的に読み取り可能な制御信号
を有するデータキャリアを備える。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施することができ、前記プログラムコードは、前記コンピュータプログラム製品がコンピュータ上で動作するときに前記方法の１つを実行するように動作する。プログラムコードは、例えば、機械読み取り可能なキャリアに格納することができる。

他の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。

換言すれば、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを含むデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形および／または非移行型である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、インターネットを介して、例えばデータ通信接続を介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法のうちの１つを実行するように構成された、または適用される処理手段、例えばコンピュータまたはプログラマブル論理装置を含む。

さらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書で説明される方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的にまたは光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであってもよい。この装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えることができる。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書で説明する方法の１つを実行するためにマイクロプロセッサと協働することができる。一般に、これらの方法は、好ましくは、任意のハードウェア装置によって実行される。

本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実装することができる。

本明細書に記載された装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実施されてもよい。

ここに記載された方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組み合わせを使用して実行されてもよい。

本明細書に記載の方法、または本明細書に記載の装置の任意の構成要素は、ハードウェアおよび／またはソフトウェアによって少なくとも部分的に実行することができる。

上述の実施形態は、本発明の原理の単なる例示である。本明細書に記載された構成および詳細の変更および変形は、当業者には明らかであることは明らかである。したがって、本発明は、添付の特許請求の範囲によってのみ限定され、実施形態の説明および議論に基づいて本明細書に提示される特定の詳細によっては限定されないことが意図される。

Claims

アダプティブストリーミングプロトコルを用いてクライアントにビデオ（２４）を出力する装置であって、
前記装置は、少なくとも、
階層化されたビデオストリーム（３６）の形態での前記ビデオ（２４）の出力と、
オープンＧＯＰ構造を用いて符号化され、前記ビデオを第２の空間解像度および第２の品質で符号化した空間解像度の高いビデオストリーム（３８）の形態での前記ビデオ（２４）の出力
の切り替えをサポートし、
前記階層化されたビデオストリーム（３６）は、
前記ビデオを第１の空間解像度で符号化した第１の層（Ｌ１）と、
前記ビデオを第２の空間解像度および前記第２の品質よりも低い第１の品質で、層間のアップサンプリングによる前記第１から前記第２の層への層間予測（４４）を用いて、ただし予測残差の符号化がなしで符号化した第２の層（Ｌ２）と、を含む、装置。
前記空間解像度の高いビデオストリーム（３８）は、更なる階層化されたビデオストリームであり、
前記更なる階層化されたビデオストリームは、
前記ビデオを前記第１の空間解像度で符号化した更なる第１の層（Ｌ１）と、
前記オープンＧＯＰ構造における時間的予測を用い、そして層間のアップサンプリングによる、且つ予測残差の符合化を用いる前記更なる第１の層（Ｌ１）から更なる第２の層（Ｌ２）への層間予測を用いて、前記ビデオを第２の空間解像度で符号化した更なる第２の層（Ｌ２）と、を含む、請求項１に記載の装置。
前記第１の層および前記さらなる第１の層は、スプライスポイントで一緒にスプライスされる前記階層化されたビデオストリーム（３６）および前記更なる階層化されたデータストリームに基づいての前記ビデオの前記第１の空間解像度での再構成が、前記階層化されたビデオストリームおよび前記更なる階層化されたデータストリームのいずれかに基づいての前記ビデオの第１の空間解像度での再構成に等しくなるように、それぞれ、前記ビデオを前記第１の空間解像度で均質に符号化している、請求項２に記載の装置。
前記第１の層、前記更なる第１の層および前記更なる第２の層は、オープンＧＯＰ構造を用いて符号化される、請求項２または請求項３に記載の装置。
前記空間解像度の高いビデオストリームは、前記オープンＧＯＰ構造における時間予測を用いて、および予測残差符号化を使用して、且つ層間予測なしで、前記ビデオを前記第２の空間解像度で符号化した更なる第２の層を含む更なる階層化されたビデオストリームである、請求項１に記載の装置。
前記第１の層は、閉じたＧＯＰ構造を用いて符号化される、請求項２、請求項３および請求項５のいずれか１項に記載の装置。
前記第２の層および前記更なる第２の層は共通の層ＩＤを使用してラベル付けされて、前記階層化されたビデオストリームと前記更なる階層化されたビデオストリームとのスプライスすることによって、前記ビデオを前記第２の空間解像度で符号化した、前記共通の層ＩＤを有する層を含むスプライスされた階層化されたビデオストリームが得られる、請求項２〜請求項６のいずれか１項に記載の装置。
前記空間解像度の高いビデオストリーム（３８）は、前記ビデオを前記第２の空間解像
度で符号化した更なる第２の層を含む更なる階層化されたビデオストリームであり、前記第２の層および前記更なる第２の層は前記共通の層ＩＤを使用してラベル付けされて、前記階層化されたビデオストリームおよび前記更なる階層化されたデータストリームをスプライスすることによって、前記ビデオを前記第２の空間解像度で符号化した、前記共通の層ＩＤを有する層を含むスプライスされた階層化されたビデオストリームが得られる、請求項１に記載の装置。
前記装置は、前記クライアントに、前記階層化されたビデオストリームから前記空間解像度の高いビデオストリームへの切り替えの前に、前記クライアントが、前記階層化されたビデオストリームの前記第２の層を使用して、前記第２の空間解像度での前記ビデオの補足推定値を導出する移行フェーズを前記クライアントがスケジューリングするよう通知する、請求項１〜請求項８のいずれか１項に記載の装置。
前記移行フェーズの長さは、
提示時間順序において後続する、前記空間解像度の高いビデオストリームのランダムアクセスポイントピクチャ、および、提示時間順序およびデコード順序において、前記ランダムアクセスポイントピクチャに先行する参照ピクチャをそれぞれ直接的又は間接的に参照する、前記空間解像度の高いビデオストリームのランダムアクセス依存ピクチャと、
前記ランダムアクセス依存ピクチャが直接的または間接的に参照する前記参照ピクチャとの間の最大距離
を超えるか、またはそれに等しい、請求項９に記載の装置。
前記装置は、前記移行フェーズの長さを、前記階層化されたビデオストリームおよび前記空間解像度の高いビデオストリームの時間セグメント単位で、または時間単位で、前記クライアントに示すように構成される、請求項９または請求項１０に記載の装置。
前記装置は、
前記クライアントにとっての前記ビデオの可用性を、前記階層化されたビデオストリーム（３６）の形態での前記第１の空間解像度と、前記空間解像度の高いビデオストリーム（３８）の形態での前記第２の空間解像度とで記述し、
前記階層化されたビデオストリームの時間セグメントにおける前記階層化されたビデオストリーム（３６）の前記第１の層（Ｌ１）と共に前記階層化されたビデオストリーム（３６）の前記第２の層（Ｌ２）の存在、および前記第２の空間解像度で前記ビデオの補足推定値を導出して前記階層化されたビデオストリームから前記空間解像度の高いビデオストリームに切り替えるための手段としての前記第２の層（Ｌ２）の目的を示し、且つ
前記階層化されたビデオストリームおよび前記空間解像度の高いビデオストリームの時間セグメントを取り出すためのアドレスを計算する計算ルールを示すマニフェストを、
前記クライアントに提供するように構成される、請求項１〜請求項１１のいずれか１項に記載の装置。
サーバは、前記階層化されたビデオストリームから前記空間解像度の高いビデオストリームに切り替える前に、前記クライアントが、第１のストリームの前記第２の層を使用して、前記第２の空間解像度の前記ビデオの補足的な推定値を導き出す、移行フェーズを前記クライアントがスケジュールことになることを示す情報を前記マニフェストに挿入するように構成される、請求項９〜請求項１２のいずれか１項に記載の装置。
前記装置は、前記空間解像度の高いビデオストリームのＳＥＩから前記移行フェーズの長さを導き出すように構成されている、請求項１３に記載の装置。
前記装置は、少なくとも、
前記階層化されたビデオストリームの形態での前記ビデオの出力と、
前記空間解像度の高いビデオストリームの形態での前記ビデオの出力と、
前記ビデオを前記第１の空間解像度で符号化した、空間解像度の低いビデオストリームの形態での前記ビデオの出力、
の間での切り替えをサポートする、請求項１〜請求項１４のいずれか１項に記載のスイッチ。
前記空間解像度の低いビデオストリームは、前記ビデオを前記第１の空間解像度で符号化した、
単一レイヤビデオストリームであるか、または、
更なる別の第１の層を含む更なる符号化されたビデオストリームである、請求項１５に記載の装置。
前記空間解像度の低いビデオストリームは、更なる別の第１の層を含む更なる別の階層化されたビデオストリームであって、
前記第１の層および前記更なる別の第１の層は、それぞれ、前記ビデオを前記第１の空間解像度で均質的に符号化して、スプライスポイントで一緒にスプライスされる、前記階層化されたビデオストリームおよび前記更なる別の階層化されたビデオストリームに基づいて、前記第１の空間解像度で符号化される前記ビデオの再構成が、前記階層化されたビデオストリームおよび前記更なる別の階層化されたビデオストリームのいずれかに基づいた、前記第１の空間解像度での前記ビデオの再構成に等しい、請求項１５に記載の装置。
前記更なる別の第１の層は、閉じたＧＯＰ構造を使用して符号化される、請求項１７に記載の装置。
前記装置は、前記クライアントにとっての前記サーバにおける前記ビデオの前記第１の空間解像度および前記第２の空間解像度での可用性を記述し、且つ、前記第１の層、前記第２の層および前記空間解像度の高いビデオストリームに関しては異なるが、更なる別の第１の層および前記第１の層については等しい、前記第１の層、前記第２の層、前記更なる別の第１の層および前記空間解像度の高いビデオストリームの時間セグメントを取り出すためのアドレスを計算する計算ルールを示すマニフェストを前記クライアントに提供するように構成される、請求項１７または請求項１８に記載の装置。
前記装置は、前記クライアントにとっての前記サーバにおける前記ビデオの前記第１の空間解像度および前記第２の空間解像度での可用性を記述し、且つ、
前記空間解像度の高いビデオストリームと、前記第１の層と、前記第２の層と、前記空間解像度の低いビデオストリームとで異なる、前記空間解像度の高いビデオストリーム、前記第１の層、前記第２の層および前記空間解像度の低いビデオストリームの時間セグメントを取り出すためのアドレスを計算する計算ルールを示すマニフェストを前記クライアントに提供するように構成される、請求項１５〜請求項１９のいずれか１項に記載の装置。
アダプティブストリーミングプロトコルを使用してビデオを取り出すための装置であって、
前記装置は、
第１のビデオストリーム（３６）の形態での前記ビデオの取り出しと、
第２のビデオストリーム（３８）の形態での前記ビデオの取り出し、
との切り替えをサポートし、
前記装置は、前記第１のビデオストリーム（３６）の形態での前記ビデオの取り出しから前記第２のビデオストリーム（３８）の形態での前記ビデオの取り出しとの切り替えの
前に、移行フェーズ（６４）をスケジューリングするように構成される、装置。
前記第２のビデオストリーム（３８）はオープンＧＯＰを使用して符号化され、前記装置は、前記第１のビデオストリーム（３６）と第２のビデオストリーム（３８）をまとめてスプライシングして符号化させて、前記第１のビデオストリームからデコードされたピクチャが、提示時間順序において後続の前記第２のビデオストリームのランダムアクセスポイントピクチャと、提示時間順序およびデコード順序において、前記ランダムアクセスポイントピクチャに先行する参照ピクチャをそれぞれ直接的または間接的に参照する前記第２のビデオストリームのランダムアクセス依存ピクチャについて、前記参照ピクチャを代替するものを形成するように構成される、請求項２１に記載の装置。
前記第１のビデオストリームは、階層化されたビデオストリームであり、
前記階層化されたビデオストリームは、
前記ビデオを前記第１の空間解像度で符号化した第１の層、および
前記ビデオを前記第１の空間解像度より大きい第２の空間解像度で、且つ、層間アップサンプリングによる前記第１の層から前記第２の層への層間予測を使用して、しかし残差符号化なしで符号化した第２の層を含む、請求項２１または請求項２２に記載の装置。
前記装置は、前記階層化されたビデオストリームを、前記第１および第２の層を含む時間セグメントで取り出すように構成されている、請求項２３に記載の装置。
前記装置は、前記第２の層および前記第１の層のデコードを前記移行フェーズ中の時間に制限するように構成されている、請求項２４に記載の装置。
前記装置は、前記階層化されたビデオストリームを、前記第１および前記第２の層を別々に含む時間的セグメントで取り出すように構成される、請求項２３に記載の装置。
前記装置は、前期移行フェーズ外では、前記第２の層を含む時間的セグメントの取り出しを控えるように構成される、請求項２６に記載の装置。
前記第２のビデオストリームは、前記ビデオを層間予測なしに前記第２の空間解像度で符号化した更なる第２の層を含む更なる階層化されたビデオストリームであり、
前記装置は、前記移行フェーズにおいて、前記第１および第２の層にスケーラブルビデオデコーダによるデコードを施し、前記移行フェーズの直後に、前記更なる階層化されたビデオストリームを前記スケーラブルビデオデコーダによるデコードを施して、前記スケーラブルビデオデコーダが、提示時間順序において後続の前記さらなる階層化されたビデオストリームのランダムアクセスポイントピクチャと、提示時間順序およびデコード順序において、前記ランダムアクセスポイントピクチャに先行する参照ピクチャを直接的または間接的に参照する前記更なる階層化されたビデオストリームの前記第２の空間解像度のランダムアクセス依存ピクチャについて、前記階層化されたビデオストリームの前記第２の層から、前記参照ピクチャを代替するものを取得するように構成されている、請求項２３〜請求項２７のいずれか１項に記載の装置。
前記第１の層は、閉じたＧＯＰ構造を使用して符号化され、
前記装置は、前記第２のビデオストリームの形態での前記ビデオの取り出しから前記第１のビデオストリームの形態での前記ビデオの取り出しに切り替える際に、
前記ビデオの第２の部分に関連する階層化されたビデオストリームの第２の部分の前記第１の層に続く前記第２の空間解像度で前記ビデオの前記第１の部分を取り出すように、前記第１の部分の次に位置し、前記第１の空間解像度で前記ビデオの前記第２の部分を取り出すように、前記スケーラブルビデオデコーダに、前記ビデオの第１の部分に関連する
前記更なる階層化されたビデオストリームの部分を前記スケーラブルビデオデコーダにかけて前記ビデオの前記第１の部分を前記第２の空間解像度で取り出し、続いて、前記第１の部分の直後の前記ビデオの第２の部分に関連する前記階層化されたビデオストリームの第２の部分の前記第１のレイヤを前記スケーラブルビデオデコーダに直ちに連続してかけて、前記ビデオの前記第２の部分を前記第１の空間解像度で取り出す、請求項２８に記載の装置。
前記ビデオが取り出されるサーバから、前記移行フェーズの長さの情報を取得するように構成された、請求項２１から請求項２９のいずれか１項に記載の装置。
前記ビデオが取り出されるサーバから、信号を取得し、前記信号に応じて、前記スケジューリングを非アクティブ化するか、または前記スケジューリングをアクティブにするように構成された、請求項２１〜請求項２９のいずれか１項に記載の装置。
前記サーバから、前記クライアントにとっての前記ビデオの前記第１のビデオストリームの形態及び前記第２のビデオストリームの形態での可用性を記述するマニフェストを要求し、前記マニフェストから前記移行フェーズの長さまたは前記信号に関する情報を取得するように構成された、請求項３０または請求項３１に記載の装置。
ビデオを表すデータ構造であって、
前記データ構造は、クライアントが少なくとも第１の空間解像度での取り出しと前記第１の空間解像度よりも大きい第２の空間解像度での取り出しとの間で切り替えることによって、アダプティブストリーミングプロトコルを使用した前記ビデオの取り出しについて概念化されており、
前記データ構造は、オープンＧＯＰ構造を使用して前記ビデオを前記第２の空間解像度および第２の品質で符号化した空間解像度の高いビデオストリームと、階層化されたビデオストリームと、を含み、
前記階層化されたビデオストリームは、
前記ビデオを前記第１の空間解像度で符号化した第１の層、および
前記ビデオを前記第２の空間解像度および前記第２の品質に比べて低い第１の品質で、層間のアップサンプリングによる前記第１の層から前記第２の層への層間予測を使用するが、残差符号化なしで符号化した第２の層を含む、データ構造。
前記空間解像度の高いビデオストリームは、更なる階層化されたビデオストリームであり、前記更なる階層化されたビデオストリームは、
前記ビデオを前記第１の空間解像度で符号化した更なる第１の層、および
層間のアップサンプリングによる、残差符号化を使用した前記更なる第１の層から前記更なる第２の層までの層間予測を使用して、前記ビデオを前記第２の空間解像度で符号化した更なる第２の層を含む、請求項３３に記載のデータ構造。
前記第１の層および前記更なる第１の層は、前記ビデオを前記第１の空間解像度でそれぞれ均質的に符号化していて、スプライシングポイントで一緒にスプライスされた前記階層化されたビデオストリームおよび前記更なる階層化されたデータストリームに基づく前記ビデオの前記第１の空間解像度での再構成が、前記第１のストリームおよび前記第２のストリームのいずれかに基づく前記ビデオの前記第１の空間解像度での再構成に等しくなる、請求項３４に記載のデータ構造。
前記第１の層、前記更なる第１の層および前記更なる第２の層は、オープンＧＯＰ構造を用いて符号化される、請求項３４または請求項３５に記載のデータ構造。
前記空間解像度の高いビデオストリームは、層間予測なしに前記ビデオを前記第２の空間解像度で符号化した更なる第２の層を含む更なる階層化されたビデオストリームである、請求項３３に記載のデータ構造。
前記第１の層は、閉じたＧＯＰ構造を使用して符号化される、請求項３４〜請求項３７のいずれか１項に記載のデータ構造。
前記第２の層と前記更なる第２の層は共通の層ＩＤを用いて符号化され、前記階層化されたビデオストリームおよび更なる階層化されたビデオストリームをスプライスすることにより、前記ビデオを前記第２の空間解像度で符号化した、共通の層ＩＤを有する層を含むスプライスされ階層化されたビデオストリームがもたらされる、請求項３５〜請求項３８のいずれか１項に記載のデータ構造。
前記空間解像度の高いビデオストリームは、前記ビデオを前記第２の空間解像度で符号化した更なる第２の層を含む更なる階層化されたビデオストリームであり、
前記第２の層および前記更なる第２の層は、共通の層ＩＤを使用してラベル付けされ、前記階層化されたビデオストリームおよび前記更なる階層化されたデータストリームをスプライスすることにより、前記ビデオを前記第２の空間解像度で符号化した、共通の層ＩＤを備えた層を含むスプライスされ階層化されたビデオストリームがもたらされる、請求項３３に記載のデータ構造。
アダプティブストリーミングプロトコルを使用してビデオをクライアントに出力するための装置であって、
前記装置は、少なくとも、第１のビデオストリーム（３６）および第２のビデオストリーム（３８）の形態での取り出しのために前記ビデオを前記クライアントに提供するように構成され、
前記装置は前記クライアントに対し、前記第１のビデオストリーム（３６）の形態での前記ビデオの取り出しから前記第２のビデオストリーム（３８）の形態での前記ビデオの取り出しへと切り替える前に、移行フェーズ（６４）をスケジューリングする必要性を通知するように構成されている、装置。
前記装置は、
前記クライアントにとっての前記ビデオの可用性を、前記第１のビデオストリーム（３６）の形態での前記第１の空間解像度と、前記第２のビデオストリーム（３８）の形態での前記第１の空間解像度よりも高い第２の空間解像度とで記述し、
前記第１のビデオストリームの時間セグメントにおける第２の層（Ｌ２）の存在、および前記第２のビデオストリーム（３８）に切り替える前の前記移行フェーズ中に前記第１の空間解像度から前記第２の空間解像度に切り替える際に再生されるという前記第２の層（Ｌ２）の目的を示し、
前記第１のビデオストリームおよび前記第２のビデオストリームの時間的セグメントを取り出すためのアドレスをそれぞれ計算する計算ルールを示す、
マニフェストを前記クライアントに提供するように構成される、請求項４１に記載の装置。
前記装置は、さらに第３のビデオストリームの形態での取り出しのために前記ビデオを前記クライアントに提供するように構成され、
前記装置は、
前記クライアントにとっての前記ビデオの可用性を、第３のビデオストリーム（Ｌ１）の形態での第１の空間解像度と、第２のビデオストリーム（３８）の形態での前記第１の空間解像度よりも高い第２の空間解像度とで記述し、および
前記第３のビデオストリームから前記第１のビデオストリームを介して前記第２のビデオストリームに切り替える間に前記第１の空間解像度から前記第２の空間解像度に切り替える際に、前記第１のビデオストリームの時間的セグメントが、前記第３のビデオストリームの時間的セグメントと共に前記移行フェーズの間に取り出されることを示し、
前記第１、第２および第３のビデオストリームの時間的セグメントを取り出すためのアドレスを計算する計算ルールを示す、
マニフェストを提供するように構成される、請求項４１に記載の装置。
前記装置は、前記マニフェストが前記クライアントにとっての前記ビデオの可用性を前記更なるビデオストリームの形態で前記第１および第２の空間解像度よりも高い第３の空間解像度で記述する、更なるビデオストリームの形態での取り出しのために前記クライアントに前記ビデオをさらに提供するように構成され、
前記第３の空間解像度から前記第２の空間解像度へ切り替えるダウンスイッチングの機会、および
前記第１または第３のビデオストリームから前記第２のビデオストリームに切り替えるアップ−スイッチングの機会を知らせる、請求項４２および請求項４３のいずれか１項に記載の装置。
前記装置は、前記マニフェストにおいて、前記第１のビデオストリームと前記第２のビデオストリームとを一緒にスプライスして１つのデコーダに供給されることがあることを示す、請求項４２〜請求項４４のいずれか１項に記載の装置。
前記装置は、前記移行フェーズの長さをクライアントに知らせる、請求項４１〜請求項４５のいずれか１項に記載の装置。
ピクチャのシーケンスを、前記ピクチャのシーケンスの中に、提示時間順序において後続の前記ピクチャのシーケンスのランダムアクセスポイントピクチャと、提示時間順序および復号順序において前記ランダムアクセスポイントに先行する参照ピクチャを時間的予測によって直接的また間接的に参照する少なくとも１つのランダムアクセス依存ピクチャが存在するように符号化したビデオストリームであって、
前記ビデオストリームは、
前記少なくとも１つのランダムアクセス依存ピクチャと、前記少なくとも１つのランダムアクセス依存ピクチャが直接的または間接的に参照する前記参照ピクチャとの間の最大時間的距離を示すシンタックス要素とを含む、ビデオストリーム。
ピクチャのシーケンスを、前記ピクチャのシーケンスの中に、提示時間順序において後続の前記ピクチャのシーケンスのランダムアクセスポイントピクチャと、提示時間順序および復号順序において前記ランダムアクセスポイントピクチャに先行する参照ピクチャを時間的予測によって直接的または間接的に参照する少なくとも１つのランダムアクセス依存ピクチャが存在するように、ビデオストリームに符号化し、
少なくとも１つのランダムアクセス依存ピクチャ参照ピクチャと、前記少なくとも１つのランダムアクセス依存ピクチャが直接的または間接的に参照する前記参照ピクチャとの間の保証された最大時間距離を示すシンタックス要素を前記データストリームに挿入するように構成される、ビデオエンコーダ。
アダプティブストリーミングプロトコルを使用して、クライアントにメディアコンテンツを出力する装置であって、前記装置は、少なくとも、
第１の表現と、前記第１の表現に依存する前記ビデオを符号化した第２の表現と、の間の時間セグメントの単位での切り替えをサポートし、
前記装置は、前記クライアントに対し、
前記第２の表現の時間セグメントの第１のセットと、前記第２の表現の時間セグメントの第２のセットとを区別する情報を提供し、
前記第２の表現の時間セグメントの第１のセットには、時間的セグメントの前記第１のセットに時間的に対応する前記第１の表現の第１の部分に依存してメディアコンテンツが符号化されており、
前記第２の表現の時間セグメントの第２のセットには、時間セグメントの前記第２のセットに時間的に対応する前記第１の表現の第２の部分から独立したメディアコンテンツが符号化されていて、前記第２の表現からの前記メディアコンテンツの再構成が前記第１の表現の前記第２の部分なしで成功するようになっている、装置。
前記クライアントに対し、それを使用すれば前記第１の部分および前記第２の部分内にそれぞれ存在する前記第１の表現の時間的セグメントのアドレスを区別することが可能な計算ルールを提供するように構成される、請求項４９に記載の装置。
前記計算ルールを前記クライアントに送信されたマニフェストに挿入するように構成される、請求項５０に記載の装置。
前記第２の表現の時間的セグメントの前記第１のセットおよび／または前記第２のセットの所定の時間的セグメントにおけるヒントを使用して、前記所定の時間的セグメントに続く前記第２の表現の１つ以上の後続の時間的セグメントを、時間セグメントの前記第１のセットおよび第２のセットのうちの１つに割り当てるように構成される、請求項４９〜請求項５１のいずれか１項に記載の装置。
前記クライアントに対し、
前記第２の表現の前記第１および第２の時間的セグメントに加えての、前記第１の表現の前記第１および第２の部分の伝送に対応する、前記第２の表現のための第１の伝送ビットレートと、
前記第２の表現の前記第１および第２の時間的セグメントに加えて、前記第１の表現の前記第２の部分なしでの前記第１の表現の前記第１の部分の伝送に対応する、前記第２の表現のための第２の伝送ビットレート
についての情報を含むマニフェストを提供するように構成された、請求項４９〜請求項５２のいずれか１項に記載の装置。
アダプティブストリーミングプロトコルを使用して、メディアコンテンツを取り出すための装置であって、前記装置は、少なくとも、
第１の表現の取り出しと、
前記第１の表現に依存してメディアコンテンツが符号化された第２の表現の取り出し、
との間での、時間的セグメントの単位での切り替えをサポートし、
前記装置は、前記第２の表現を取り出す際に、
前記第２の表現の時間的セグメントの第１のセットに時間的に対応する前記第１の表現の第１の部分に依存して前記メディアコンテンツが符号化された前記第２の表現の時間的セグメントの第１のセットを前記第１の表現の前記第１の部分と共に取り出し、
前記第１の表現の前記第２の部分なしで、時間的セグメントの前記第２のセットに時間的に対応する前記第１の表現の第２の部分から独立して前記メディアコンテンツが符号化された前記第２の表現の時間的セグメントの第２のセットを取り出す
ように構成された、装置。
計算ルールを使用して、前記第１の部分および前記第２の部分内にそれぞれ存在する前記第１の表現の時間的セグメントのアドレスを区別するように構成される、請求項５４に
記載の装置。
前記メディアコンテンツが取り出されるサーバから送信されたマニフェストから前記計算ルールを導くように構成される、請求項５５に記載の装置。
前記第２の表現の時間的セグメントの前記第１のセットおよび／または前記第２のセットの所定の時間的セグメントにおけるヒントを使用して、前記所定の時間的セグメントに続く前記第２の表現の１つ以上の後続の時間的セグメントを、時間的セグメントの前記第１のセットおよび前記第２のセットのうちの１つに割り当てるように構成される、請求項５４〜請求項５６のいずれか１項に記載の装置。
前記所定の時間的セグメント内のヒントを使用して、前記メディアコンテンツが取り出されるサーバから送信されたマニフェストにおける信号に応答して、前記所定の時間的セグメントに続く前記第２の表現の前記１つ以上の後続の時間的セグメントを、時間的セグメントの前記第１のセットおよび第２のセットのうちの１つに割り当てるように構成される、請求項５７に記載の装置。
メディアコンテンツを記述する、アダプティブストリーミングプロトコルで使用するためのマニフェストであって、
前記マニフェストは前記メディアコンテンツが、
前記メディアコンテンツの第１の表現、および
前記第１の表現に依存して前記メディアコンテンツを符号化した第２の表現
の形態で、利用可能であるとして記述し、
前記マニフェストは、
前記第２の表現の時間セグメントの第１のセットであって、時間セグメントの前記第１のセットに時間的に対応する前記第１の表現の第１の部分に依存して前記メディアコンテンツが符号化された前記第２の表現の時間セグメントの第１のセットと、
前記第２の表現の時間セグメントの第２のセットであって、前記メディアコンテンツが時間セグメントの前記第２のセットに時間的に対応する前記第１の表現の前記第２の部分とは独立して符号化され、前記第２の表現からの前記メディアコンテンツの再構成が前記第１の表現の前記第２の部分なしに成功するようになっている、前記第２の表現の時間セグメントの第２のセット
を区別する情報を含む、マニフェスト。
メディアコンテンツを表し、アダプティブストリーミングプロトコルを使用して前記メディアコンテンツをクライアントにストリーミングするために概念化されたデータ構造であって、前記データ構造は、
前記メディアコンテンツを符号化した第１の表現と、
前記第１の表現に依存して前記メディアコンテンツを符号化した第２の表現と、
を含み、
前記データ構造は、
前記第２の表現の時間セグメントの第１のセットであって、時間セグメントの前記第１のセットに対応する前記第１の表現の第１の部分に依存して前記メディアコンテンツが符号化された、前記第２の表現の時間セグメントの第１のセットと、
前記第２の表現の時間セグメントの第２のセットであって、前記メディアコンテンツが時間セグメントの前記第２のセットに時間的に対応する前記第１の表現の第２の部分から独立して符号化され、前記第２の表現からの前記メディアコンテンツの再構成が、前記第２の部分なしで成功する、前記第２の表現の時間セグメントの第２のセット
を区別する情報を含む、データ構造。
ビデオを第１および第２の層（Ｌ１，Ｌ２）に、前記第１の層から前記第２の層への層間予測を用いて符号化した階層化されたビデオストリームであって、
前記階層化されたビデオストリームは、前記第２の層のピクチャのシーケンスを、前記第１の層から独立して符号化されたピクチャのサブシーケンス、および前記第１の層に依存して符号化されたピクチャのサブシーケンスへの交互での時間的再分割を示す情報を含む、階層化されたビデオストリーム。
階層化されたビデオストリームが第１および第２の層（Ｌ１，Ｌ２）を有するように、前記第１の層から前記第２の層への相関予測を使ってビデオを前記階層化されたビデオストリームに符号化して、前記第２の層のピクチャのシーケンスが、前記第２の層の前記ピクチャのシーケンスの第２のサブシーケンスが間に存在する、前記第１の層から独立して符号化された第１のピクチャのサブシーケンスを含むようにし、且つ、
前記階層化されたビデオストリームに、前記第１の層から独立して符号化された前記第１のピクチャのサブシーケンスおよび前記第２のピクチャのサブシーケンスへの前記第２の層の前記ピクチャのシーケンスの時間的再分割を示す情報を提供する
ように構成される、ビデオエンコーダ。
ビデオを第１の層および前記第２の層（Ｌ１，Ｌ２）に、前記第１の層から前記第２の層への層間予測を用いて符号化した階層化ビデオストリームを受信し、
前記階層化されたビデオストリームから、前記第１の層から独立して符号化されたピクチャのサブシーケンスと、前記第１の層に依存して符号化されたピクチャのサブシーケンスへの交互での、前記第２の層のピクチャのサブシーケンスの時間的再分割を示す情報を読み出し、
前記情報を利用して、アダプティブストリーミングプロトコルを使用して前記ビデオをストリーミングするように構成される、ネットワーク装置。
アダプティブストリーミングプロトコルを使用して、メディアシーンのチャネルをクライアントに出力する装置であって、前記装置は、各チャネルについて、ランダムアクセスポイントの時間的分布が異なる前記各チャネルの表現のセットの間の切り替えをサポートする、装置。
断続的に発生する時間インスタンスにおいて、前記チャネルの表現の前記セットのうちの少なくとも１つのセットのランダムアクセスポイントが時間的に整列される、請求項６３に記載の装置。
前記チャネルの表現の前記セットにおけるランダムアクセスポイントの前記時間的分布を明らかにする情報を前記クライアントに提供するように構成された、請求項６３または請求項６４に記載の装置。
マニフェスト内の前記情報を提供するように構成された、請求項６５に記載の装置。
前記チャネルの表現の前記セットの所定の時間的セグメントにおけるヒントを使用して前記情報を提供するように構成された、請求項６６に記載の装置。
各チャネルについて、前記チャネルの表現の前記セットにおけるランダムアクセスポイントの前記時間的分布に応じて、前記各チャネルのための表現の前記セットの中から前記各チャネルのために現在取り出されるべき表現を選択して、ランダムアクセスポイントを含む前記選択された時間的セグメントのうちのいくつかの時間的セグメントが可能な限り最小限に時間的に変化することによる、前記メディアシーンの取り出しによって達成可能なビットレートピークの低減について、前記クライアントに通知するように構成される、
請求項６３〜請求項６７のいずれか１項に記載の装置。
アダプティブストリーミングプロトコルを使用して、メディアシーンのチャネルを取り出すための装置であって、各チャネルについて、ランダムアクセスポイントの時間的分布が異なる前記各チャネルの表現のセットの間で切り替えるように構成された装置。
前記各チャネルについて、前記各チャネルの表現の前記セットの中のランダムアクセスポイントの前記時間的分布に依存して、前記各チャネルのための表現の前記セットの中から前記各チャネルについて現在取り出されるべき表現を選択するように構成される、請求項７０に記載の装置。
前記チャネルの表現の前記セット内のランダムアクセスポイントの前記時間的分布を明らかにする情報を前記メディアシーンが取り出されるサーバから取り出すように構成された、請求項７０または請求項７１に記載の装置。
前記情報を前記サーバから送信されたマニフェストから取り出すように構成された、請求項７２に記載の装置。
前記チャネルの表現の前記セットの所定の時間的セグメント内のヒントを使用して前記情報を取り出すように構成された、請求項７２に記載の装置。
メディアシーンを表し、前記メディアシーンのチャネルを、アダプティブストリーミングプロトコルを使用してクライアントにストリーミングするために概念化されたデータ構造であって、
前記データ構造は、各チャネルについて、ランダムアクセスポイントの時間的分布が異なる前記各チャネルの表現のセットを含む、データ構造。
アダプティブストリーミングプロトコルを使用して、メディアコンテンツをクライアントに出力するための装置であって、
前記デバイスは、少なくとも、
前記メディアコンテンツを第１の品質で符号化した第１のメディアストリーム、
前記メディアコンテンツを第２の品質で符号化した第２のメディアストリーム、および
前記第１および第２のメディアストリームに依存して前記メディアコンテンツを符号化した補助メディアストリーム
の形態で、前記メディアを取り出しのために前記クライアントに提供する、装置。
前記装置は、前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替えるときに、前記第２のメディアストリームではなく前記補助メディアストリームが再生されることになるフェーディングフェーズをスケジューリングする可能性について前記クライアントに通知するように構成される、請求項７６に記載の装置。
前記装置は、前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替えるときに前記クライアントがスケジューリングし、前記第２のメディアストリームではなく前記補助メディアストリームが再生されることになるフェーディングフェーズの長さに関して、前記クライアントに通知するように構成される、請求項７６または請求項７７に記載の装置。
前記第１のメディアストリーム、前記第２のメディアストリームおよび前記補助メディ
アストリームは、階層化されたメディアストリームの別々の層を示し、
前記補助メディアストリームの前記層は、前記第１および第２のメディアストリームの層から層間予測によって別々に導出された予測子の線形結合によって符号化される、請求項７６〜請求項７８のいずれか１項に記載の装置。
前記第２のメディアストリームには、前記メディアコンテンツが前記第１のメディアストリームに依存して符号化されている、請求項７６〜請求項７９のいずれか１項に記載の装置。
前記第２のメディアストリームには、前記メディアコンテンツが前記第１のメディアストリームとは独立して符号化されている、請求項７６〜請求項７９のいずれか１項に記載の装置。
前記第３のメディアストリームは、前記第１のメディアストリームおよび前記第２のメディアストリームの時間的セグメントから別個の時間的セグメントで、前記クライアントが前記装置から取り出すことができる、請求項７６〜請求項８１のいずれか１項に記載の装置。
前記装置は前記クライアントに対し前記メディアコンテンツを、前記第１のメディアストリームに依存して前記メディアコンテンツを符号化したスイッチングメディアストリームの形態で、取り出しのために追加して提供するように構成される、請求項７６〜請求項８２のいずれか１項に記載の装置。
前記装置は、前記第１のメディアストリームの形態での前記ビデオの取り出しから前記第２のメディアストリームの形態での前記ビデオの取り出しに切り替える前に、移行フェーズ（６４）をスケジューリングする必要性を前記クライアントに通知するように構成され、前記移行フェーズは前記フェーディングフェーズの前にある、請求項８３に記載の装置。
アダプティブストリーミングプロトコルを使用して、サーバからメディアコンテンツを取り出すための装置であって、
前記装置は、少なくとも、
前記メディアコンテンツを第１の品質で符号化した第１のメディアストリームの取り出しと、
前記メディアコンテンツを第２の品質で符号化した第２のメディアストリームの取り出し
との切り替えをサポートし、
前記装置は、前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替えるときに、前記装置が、前記第１および第２のメディアストリームとともに、前記第１および前記第２のメディアストリームに依存して前記メディアコンテンツを符号化した補助メディアストリームを取り出し、前記第２の補助ストリームの代わりに前記補助メディアストリームを再生する、フェーディングフェーズをスケジューリングするように構成された、装置。
前記装置は、前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替えるときに、前記サーバからの信号に依存して、前記フェージィングフェーズのスケジューリングをアクティブ化または非アクティブ化するように構成される、請求項８５に記載の装置。
前記装置は、前記フェーディングフェーズの長さに関する情報を前記サーバから受信し
、それに応じて前記フェーディングフェーズの長さを設定するように構成される、請求項８５または請求項８６に記載の装置。
前記第１のメディアストリーム、前記第２のメディアストリームおよび前記補助メディアストリームは、階層化されたメディアストリームの別々の層を示し、
前記補助メディアストリームの層は、前記第１および第２のメディアストリームの層から層間予測によって別々に導出された予測子の線形結合によって符号化され、
前記装置は、前記フェーディングフェーズ中に、前記第１のメディアストリーム、前記第２のメディアストリーム、および前記補助メディアストリームの前記層をメディアデコーダにまとめて入力するとともに、前記フェーディングフェーズ外は前記補助メディアストリームを前記メディアデコーダに入力しないように構成される、請求項８５〜請求項８７のいずれか１項に記載の装置。
前記第２のメディアストリームには、前記第１のメディアストリームに依存して前記メディアコンテンツが符号化され、
前記装置は、前記フェーディングフェーズ外では、
前記第２のメディアストリームの取り出しに前記第１のメディアストリームの取り出しを付随させ、そして、
前記第１のメディアストリームの取り出しの間には、前記第２のメディアストリームの取り出しを控える、
ように構成された、請求項８５〜請求項８８のいずれか１項に記載の装置。
前記第２のメディアストリームには、前記第１のメディアストリームから独立して前記メディアコンテンツが符号化され、
前記装置は、前記フェーディングフェーズ外では、
前記第２のメディアストリームの取り出しの間には、前記第１のメディアストリームの取り出しを控え、そして、
前記第１のメディアストリームの取り出しの間には、前記第２のメディアストリームの取り出しを控える、
ように構成された、請求項８５〜請求項８９のいずれか１項に記載の装置。
前記フェーディングフェーズの間に、前記第１および第２のメディアストリームの時間的セグメントとは別個に、且つこれらに加えて、前記第３のメディアストリームを取り出すように構成された、請求項８５〜請求項８９のいずれか１項に記載の装置。
前記装置は、前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替える前に、移行フェーズにおいて、前記サーバから前記第１のメディアストリームに加えてスイッチングメディアストリームを取り出すように構成され、
前記スイッチングメディアストリームには、前記第１のメディアストリームに依存して前記メディアコンテンツが符号化され、そして、提示時間順序において後続の前記第２のメディアストリームの後続するランダムアクセスポイントピクチャおよび、提示時間順序および復号順序において前記ランダムアクセスポイントに先行する、前記第２のメディアストリームの参照ピクチャを時間的予測によって直接的または間接的にそれぞれ参照する前記第２のメディアストリームのランダムアクセス依存ピクチャについて、前記参照ピクチャを代替するものに使用するように構成される、請求項８５〜請求項９１のいずれか１項に記載の装置。
前記装置は、前記サーバから送信された情報に応じて、前記移行フェーズ（６４）の長さを設定するように構成されている、請求項９２に記載の装置。
メディアコンテンツを表し、アダプティブストリーミングプロトコルを使用して前記メディアコンテンツをクライアントにストリーミングするために概念化されたデータ構造であって、
前記データ構造は、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリーム、
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリーム、および
前記第１および第２のメディアストリームに依存して前記メディアコンテンツが符号化された補助メディアストリーム
を含む、データ構造。
アダプティブストリーミングプロトコルを使用して、前記メディアコンテンツをクライアントに出力するための装置であって、
前記装置は、少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリーム、および
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリーム、
の形態での引き出しのために、前記メディアコンテンツを前記クライアントに提供し、
前記装置は前記クライアントに対し、前記第１のメディアストリームと前記第２のメディアストリームを切り替えるときに、前記クライアントにおけるフェーディングを制御するメタデータを提供するように構成された、装置。
アダプティブストリーミングプロトコルを使用して、サーバからメディアコンテンツを取り出すための装置であって、
前記装置は、少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリームの取り出し、および
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリームの取り出し
の間の切り替えをサポートし、
前記装置は、前記サーバからメタデータを受信し、前記第１および第２のメディアストリームを切り替えるときに、前記メタデータを使用してフェーディングを制御するように構成される、装置。
アダプティブストリーミングプロトコルを使用して、ビデオ（２４）をクライアントに出力するための方法であって、
前記方法は、少なくとも、
階層化されたビデオストリーム（３６）の形態での前記ビデオ（２４）の出力と、
オープンＧＯＰ構造を使用して符号化され、前記ビデオが第２の空間解像度および第２の品質で前記ビデオを符号化された空間解像度の高いビデオストリーム（３８）の形態での前記ビデオ（２４）の出力
との間で切り替えるステップを含み、
前記階層化されたビデオストリーム（３６）は、
前記ビデオが第１の空間解像度で符号化された第１の層（Ｌ１）、および
前記ビデオが第２の空間解像度および前記第２の品質よりも低い第１の品質で、且つ、予測残差符号化をすることなく、層間のアップサンプリングによる前記第１の層から第２の層への層間予測（４４）を用いて符号化された、第２の層（Ｌ２）
を含む、方法。
アダプティブストリーミングプロトコルを使用してビデオを取り出す方法であって、
前記方法は、少なくとも、
第１のビデオストリーム（３６）の形態での前記ビデオの取り出し、および
第２のビデオストリーム（３８）の形態での前記ビデオの取り出し
を、切り替えるステップを含み、
前記方法は、前記第１のビデオストリーム（３６）の形態での前記ビデオの取り出しから前記第２のビデオストリーム（３８）の形態での前記ビデオの取り出しに切り替える前に移行フェーズ（６４）をスケジュールするステップを含む方法。
請求項３３〜請求項４０、請求項６０および請求項９４のいずれか１項に記載のデータ構造を格納するデジタル記憶媒体。
アダプティブストリーミングプロトコルを使用してビデオをクライアントに出力する方法であって、
前記方法は、少なくとも、
第１のビデオストリーム（３６）と、
第２のビデオストリーム（３８）
の形態で、前記クライアントに取り出しのために前記ビデを提供するステップと、
前記第１のビデオストリーム（３６）の形態での前記ビデオの取り出しから、前記第２のビデオストリーム（３８）の形態での前記ビデオの取り出しに切り替える前に、移行フェーズ（６４）をスケジュールする必要性をクライアントに通知するステップ
を含む、方法。
請求項４７に記載のビデオストリームを格納するデジタル記憶媒体。
提示時間順序において後続の、ピクチャのシーケンスのランダムアクセスポイントピクチャと、提示時間順序および復号順序において前記ランダムアクセスポイントピクチャに先行する参照ピクチャを時間的予測によって直接的または間接的に参照する少なくとも１つのランダムアクセス依存ピクチャが、前記ピクチャのシーケンスの中に存在するように、ビデオストリームに前記ピクチャのシーケンスを符号化するステップと、
少なくとも１つのランダムアクセス依存ピクチャ参照ピクチャと、前記少なくとも1つ
のランダムアクセス依存ピクチャが直接的または間接的に参照する前記参照ピクチャとの間の保証された最大時間的距離を示すシンタックス要素を前記データストリームに挿入するステップ
を含む、方法。
アダプティブストリーミングプロトコルを使用して、メディアコンテンツをクライアントに出力する方法であって、前記方法は、
少なくとも、
第１の表現と、
前記第１の表現に依存して前記ビデオを符号化した第２の表現
と、の間を時間的セグメント単位で切り替えるステップと、
前記クライアントに対し、
前記第２の表現の時間的セグメントの第１のセットであって、時間的セグメントの前記第１のセットに時間的に対応する前記第１の表現の第１の部分に依存して前記メディアコンテンツが符号化された、前記第２の表現の時間的セグメントの第１のセットと、
前記第２の表現の時間セグメントの第２のセットであって、時間セグメントの前記第２のセットに時間的に対応する前記第１の表現の第２の部分から独立して前記メディアコンテンツが符号化されて、前記第２の表現からの前記メディアコンテンツの再構成が、前記第１の表現の前記第２の部分なしで成功する、前記第２の表現の時間セグメントの第２のセット
を区別する情報を提供するステップを含む、方法。
アダプティブストリーミングプロトコルを用いて、メディアコンテンツを取り出す方法であって、前記方法は、
少なくとも、
第１の表現の取り出しと、
前記第１の表現に依存して前記メディアコンテンツを符号化した第２の表現の取り出し
との間を時間的セグメント単位での切り替えをサポートするステップを含み、
前記第２の表現を取り出すときに、
前記第２の表現の時間的セグメントの第１のセットに時間的に対応する前記第１の表現の第１の部分に依存して、前記メディアコンテンツを符号化した前記第２の表現の時間的セグメントの第１のセットを、前記第１の表現の前記第１の部分とともに取り出すステップ、および
時間的セグメントの前記第２のセットに時間的に対応する前記第１の表現の第２の部分とは独立して前記メディアコンテンツを符号化した前記第２の表現の時間的セグメントの第２のセットを、前記第１の表現の前記第２の部分なしで取り出すステップ、
を含む、方法。
請求項５９に記載のマニフェストを格納するデジタル記憶媒体。
請求項６１に記載の階層化されたビデオストリームを格納するデジタル記憶媒体。
階層化されたビデオストリームが第１および第２の層（Ｌ１，Ｌ２）を有するように、前記階層化されたビデオストリームに前記第１の層から前記第２への層の層間予測を使用してビデオを符号化して、前記第２の層のピクチャのシーケンスが、前記第１の層から独立して符号化された、間に前記第２の層の前記ピクチャのシーケンスの第２のサブシーケンスが存在する、ピクチャの第１のサブシーケンスを含むようにするステップ、および
前記階層化されたビデオストリームに対し、前記第１の層から独立して符号化された前記ピクチャの第１のサブシーケンスおよび前記ピクチャの第２のサブシーケンスへの、前記第２の層の前記ピクチャのシーケンスの時間的再分割を示す情報を前記階層化されたビデオストリームに供給するステップ
を含む、ビデオ符号化方法。
ビデオを第１及び第２の層（Ｌ１，Ｌ２）に、前記第１の層から前記第２の層への層間予測を用いて符号化した階層化されたビデオストリームを受信し、
前記階層化されたビデオストリームから、前記第２の層のピクチャのシーケンスの、前記第１の層とは独立して符号化されたピクチャのサブシーケンスと、前記第１の層に依存して符号化されたピクチャのサブシーケンスへの交互の時間的再分割を示す情報を読み出し、
前記情報を使用して、前記ビデオを、アダプティブストリーミングプロトコルを用いてストリーミングするように構成される、ネットワーク装置。
アダプティブストリーミングプロトコルを使用して、メディアシーンのチャネルをクライアントに出力する方法であって、各チャネルについて、ランダムアクセスポイントの時間的分布が異なる各チャネルの表現のセットの間で切り替えるステップを含む、方法。
アダプティブストリーミングプロトコルを使用して、メディアシーンのチャネルを取り出す方法であって、各チャネルについて、ランダムアクセスポイントの時間的分布が異なる各チャネルの表現のセットの間で切り替えるステップを含む、方法。
アダプティブストリーミングプロトコルを使用して、メディアコンテンツをクライアントに出力する方法であって、前記方法は、少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリーム、
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリーム、および
前記メディアコンテンツが前記第１および第２のメディアストリームに依存して符号化された補助メディアストリーム
の形態での取り出しのために、前記メディアコンテンツを前記クライアントに提供するステップを含む、方法。
アダプティブストリーミングプロトコルを使用して、サーバからメディアコンテンツを取り出す方法であって、前記方法は、
少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリームの取り出し、および
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリームの取り出し
の間で切り替えるステップと、
前記第１のメディアストリームの取り出しから前記第２のメディアストリームの取り出しに切り替えるときに、前記第１および第２のメディアストリームに依存して前記メディアコンテンツを符号化した補助メディアストリームを前記第１および第２のメディアストリームと共に取り出し、前記第２の補助ストリームの代わりに前記補助メディアストリームを再生するフェーディングフェーズをスケジューリングするステップ、
を含む方法。
アダプティブストリーミングプロトコルを使用して、メディアコンテンツをクライアントに出力する方法であって、この方法は、
少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリーム、および
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリーム
の形態での取り出しのために、前記クライアントに前記メディアコンテンツを提供するステップと、
前記クライアントに対し、前記第１のメディアストリームと前記第２のメディアストリームとを切り替える際に、前記クライアントにおけるフェーディングを制御するメタデータを提供するステップと、
を含む、方法。
アダプティブストリーミングプロトコルを用いて、サーバからメディアコンテンツを取り出す方法であって、前記方法は、
少なくとも、
前記メディアコンテンツが第１の品質で符号化された第１のメディアストリームの取り出しと、
前記メディアコンテンツが第２の品質で符号化された第２のメディアストリームの取り出し
を切り替えるステップ、および
前記サーバからメタデータを受信し、前記メタデータを使用して、前記第１のメディアストリームと前記第２のメディアストリームとを切り替える際のフェーディングを制御するステップ
を含む、方法。
コンピュータ上で実行される時に、請求項９７〜請求項１１４のいずれか１項に記載の方法を実行するためのプログラムコードを有するコンピュータプログラム。