JP6378260B2

JP6378260B2 - Ｍｐｅｇ／３ｇｐｐ−ｄａｓｈにおける滑らかなストリーム切り換えのための方法および装置

Info

Publication number: JP6378260B2
Application number: JP2016141722A
Authority: JP
Inventors: レズニックユーリー; アスバンエドゥアルド; ジーフォンチェン; ヴァナムラーフル
Original assignee: ヴィドスケールインコーポレイテッド
Priority date: 2012-04-24
Filing date: 2016-07-19
Publication date: 2018-08-22
Anticipated expiration: 2033-04-23
Also published as: KR20160063405A; CN104509119A; TWI605699B; JP2015518350A; WO2013163224A1; TW201414254A; JP2017005725A; KR20150004394A; KR101622785B1; US20130282917A1; EP2842338A1

Description

本発明は、ビデオおよび／またはオーディオの符号化および復号における滑らかなストリーム切り換えを提供するための方法および装置に関し、特に、ＭＰＥＧ／３ＧＰＰ−ＤＡＳＨにおける滑らかなストリーム切り換えのための方法および装置に関する。

関連出願の相互参照
本出願は、その内容が参照により本明細書に組み込まれる、２０１２年４月２４日に出願された米国特許仮出願第６１／６３７７７７号の利益を主張する。

無線および有線ネットワークにおけるストリーミングは、ネットワークにおける帯域幅が可変的であるため、適応を利用する。コンテンツプロバイダは、変化するチャネル帯域幅にクライアントが適応することを可能にする、複数のレートおよび／または解像度で符号化されたコンテンツを発行する。例えば、ムービングピクチャエキスパートグループ（ＭＰＥＧ）および第３世代パートナシッププロジェクト（３ＧＰＰ）の動的適応ストリーミングオーバハイパーテキスト転送プロトコル（ＨＴＴＰ）（ＤＡＳＨ）規格は、無線および有線ネットワーク上でストリーミングサービスの効率的で高品質な配送を可能にする、エンドツーエンドサービスを設計するためのフレームワークを定義する。

ＤＡＳＨ規格は、ストリームアクセスポイント（ＳＡＰ）と呼ばれる、ストリーム間の接続の種類（ｔｙｐｅ）を定義する。ＳＡＰでつながるストリームの連鎖は、正しく復号可能なＭＰＥＧストリームをもたらす。しかしながら、ＤＡＳＨ規格は、ストリーム間の遷移の不可視性を保証するための手段またはガイドラインを提供しない。特別な方策が適用されない場合、ＤＡＳＨ再生におけるストリーム切り換えは、目立ったものになり、ユーザの体感品質（ＱｏＥ）の低下となって現れる。視覚品質の変化は、レートの差が比較的大きい場合に、特に顕著であり、例えば、より高品質のストリームからより低品質のストリームに変化する場合に、特に顕著である。

そこで、本発明では、ＭＰＥＧ／３ＧＰＰ−ＤＡＳＨにおける滑らかなストリーム切り換えのための改善された方法および装置を提供することにある。

ビデオおよび／またはオーディオの符号化および復号における滑らかなストリーム切り換えを提供するための方法および装置が提供される。滑らかなストリーム切り換えは、異なるレートで符号化されたメディアコンテンツのストリーム間で利用される、１または複数の遷移フレームの生成および／または表示を含む。遷移フレームは、クロスフェードおよびオーバラップ、クロスフェードおよびトランスコード、フィルタリングを使用する後処理技法、再量子化を使用する後処理技法などを介して生成される。

滑らかなストリーム切り換えは、メディアコンテンツの第１のデータストリームおよびメディアコンテンツの第２のデータストリームを受信することを含む。メディアコンテンツは、ビデオを含む。第１のデータストリームは、第１の信号対雑音比（ＳＮＲ）によって特徴付けられる。第２のデータストリームは、第２のＳＮＲによって特徴付けられる。第１のＳＮＲは第２のＳＮＲよりも大きく、または第１のＳＮＲは第２のＳＮＲよりも小さい。

遷移フレームは、第１のＳＮＲによって特徴付けられる第１のデータストリームのフレームおよび第２のＳＮＲによって特徴付けられる第２のデータストリームのフレームの少なくとも一方を使用して生成される。遷移フレームは、第１のＳＮＲと第２のＳＮＲとの間にある、１または複数のＳＮＲ値によって特徴付けられる。遷移フレームは、遷移時間間隔によって特徴付けられる。遷移フレームは、メディアコンテンツの１つのセグメントの一部である。第１のデータストリームの１または複数のフレームが表示され、遷移フレームが表示され、第２のデータストリームの１または複数のフレームが表示され、例えば、表示順は上記のとおりである。

遷移フレームの生成は、遷移フレームを生成するために、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとをクロスフェードすることを含む。クロスフェードは、遷移フレームを生成するために、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとの加重平均を計算することを含む。加重平均は、時間につれて変化する。クロスフェードは、第１のＳＮＲによって特徴付けられるフレームに第１の重みを適用し、および第２のＳＮＲによって特徴付けられるフレームに第２の重みを適用することによって、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとの加重平均を計算することを含む。第１の重みおよび第２の重みの少なくとも一方は、遷移時間間隔にわたって変化する。クロスフェードは、第１のデータストリームと第２のデータストリームとの間の線形的な遷移または非線形的な遷移を使用して実行される。

第１のデータストリームと第２のデータストリームは、メディアコンテンツのオーバラップするフレームを含む。遷移フレームを生成するための、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第１のデータストリームと第２のデータストリームのオーバラップするフレームをクロスフェードすることを含む。オーバラップするフレームは、第１のデータストリームと第２のデータストリームの対応するフレームによって特徴付けられる。オーバラップするフレームは、オーバラップ時間間隔によって特徴付けられる。第１のデータストリームの１または複数のフレームはオーバラップ時間間隔の前に表示され、遷移フレームはオーバラップ時間間隔の間じゅうに表示され、第２のデータストリームの１または複数のフレームは、オーバラップ時間間隔の後に表示される。第１のデータストリームの１または複数のフレームはオーバラップ時間間隔に先行する時間によって特徴付けられ、第２のデータストリームの１または複数のフレームはオーバラップ時間間隔に後続する時間によって特徴付けられる。

第１のデータストリームのフレームのサブセットは、第２のＳＮＲによって特徴付けられる対応するフレームを生成するためにトランスコードされる。遷移フレームを生成するための、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第１のデータストリームのフレームのサブセットと、第２のＳＮＲによって特徴付けられる対応するフレームとをクロスフェードすることを含む。

遷移フレームの生成は、遷移フレームを生成するために、遷移時間間隔にわたって変化するカットオフ周波数によって特徴付けられるローパスフィルタを使用して、第１のＳＮＲによって特徴付けられるフレームをフィルタリングすることを含む。遷移フレームの生成は、遷移フレームを生成するために、ステップサイズの１または複数を使用して、第１のＳＮＲによって特徴付けられるフレームを変換および量子化することを含む。

１または複数の開示される実施形態が実施される例示的な通信システムのシステム図である。図１Ａに示された通信システム内で使用される例示的な無線送信／受信ユニット（ＷＴＲＵ）のシステム図である。図１Ａに示された通信システム内で使用される例示的な無線アクセスネットワークおよび例示的なコアネットワークのシステム図である。図１Ａに示された通信システム内で使用される別の例示的な無線アクセスネットワークおよび別の例示的なコアネットワークのシステム図である。図１Ａに示された通信システム内で使用される別の例示的な無線アクセスネットワークおよび別の例示的なコアネットワークのシステム図である。異なるビットレートで符号化されるコンテンツの一例を示す図である。帯域幅適応ストリーミングの一例を示す図である。異なるビットレートで符号化され、セグメントに分割される、コンテンツの一例を示す図である。ＨＴＴＰストリーミングセッションの一例を示す図である。ＤＡＳＨ高水準システムアーキテクチャの一例を示す図である。ＤＡＳＨクライアントモードの一例を示す図である。ＤＡＳＨメディアプレゼンテーション高水準データモデルの一例を示す図である。ストリームアクセスポイントの例示的なパラメータを示す図である。種類１のＳＡＰの一例を示す図である。種類２のＳＡＰの一例を示す図である。種類３のＳＡＰの一例を示す図である。漸進的復号リフレッシュ（ＧＤＲ）の一例を示す図である。ストリーミングセッション中のレート間の遷移の一例を示すグラフである。滑らかな遷移を有するストリーミングセッション中のレート間の遷移の一例を示すグラフである。滑らかなストリーム切り換えを用いない遷移の一例を示す図である。滑らかなストリーム切り換えを用いる遷移の一例を示す図である。オーバラップおよびクロスフェードを使用する滑らかなストリーム切り換えの例を示すグラフである。ストリームをオーバラップおよびクロスフェードするためのシステムの一例を示す図である。ストリームをオーバラップおよびクロスフェードするための別の例示的なシステムを示す図である。トランスコードおよびクロスフェードを使用する滑らかなストリーム切り換えの例を示すグラフである。トランスコードおよびクロスフェードを行うための例示的なシステムを示す図である。トランスコードおよびクロスフェードを行うための別の例示的なシステムを示す図である。レートＨとレートＬの間の線形的な遷移を使用するクロスフェードの例を示すグラフである。非線形的なクロスフェード関数の例を示すグラフである。スケーラブルなビデオビットストリームをクロスフェードするための例示的なシステムを示す図である。スケーラブルなビデオビットストリームをクロスフェードするための別の例示的なシステムを示す図である。ＱＰクロスフェードを使用する漸進的なトランスコードのためのシステムの一例を示す図である。後処理を使用する滑らかなストリーム切り換えの例を示すグラフである。異なるカットオフ周波数を有するローパスフィルタの周波数応答の一例を示すグラフである。異なるフレーム解像度を有するストリームについての滑らかな切り換えの一例を示す図である。異なるフレーム解像度を有するストリームのための１または複数の遷移フレームを生成する一例を示す図である。異なるフレーム解像度を有するストリームについてのＨ−Ｌ遷移におけるクロスフェードのためのシステムの一例を示す図である。異なるフレーム解像度を有するストリームについてのＬ−Ｈ遷移におけるクロスフェードのためのシステムの一例を示す図である。異なるフレームレートを有するストリームについての滑らかな切り換えのためのシステムの一例を示す図である。異なるフレームレートを有するストリームのための１または複数の遷移フレームを生成する一例を示す図である。異なるフレームレートを有するストリームについてのＨ−Ｌ遷移におけるクロスフェードのための例示的なシステムを示す図である。異なるフレームレートを有するストリームについてのＬ−Ｈ遷移におけるクロスフェードのための例示的なシステムを示す図である。ＭＤＣＴベースの音声およびオーディオコーデックで使用される重畳加算窓の一例を示すグラフである。廃棄可能ブロックを有するオーディオアクセスポイントの一例を示す図である。３つの廃棄可能ブロックを有するＨＥ−ＡＣＣオーディオアクセスポイントの一例を示す図である。Ｈ−Ｌ遷移におけるオーディオストリームのクロスフェードのためのシステムの一例を示す図である。ＬからＨへの遷移におけるオーディオストリームのクロスフェードのためのシステムの一例を示す図である。

説明的な実施形態の詳細な説明が、様々な図を参照して今から行われる。この説明は可能な実施の詳細な例を提供するが、詳細は例示的なものであり、決して本出願の範囲を限定するものではないことが意図されていることに留意されたい。

図１Ａは、１または複数の開示される実施形態が実施される例示的な通信システム１００の図である。通信システム１００は、音声、データ、ビデオ、メッセージング、放送などのコンテンツを複数の無線ユーザに提供する、多元接続システムである。通信システム１００は、複数の無線ユーザが、無線帯域幅を含むシステムリソースの共用を通して、そのようなコンテンツにアクセスすることを可能にする。例えば、通信システム１００は、符号分割多元接続（ＣＤＭＡ）、時分割多元接続（ＴＤＭＡ）、周波数分割多元接続（ＦＤＭＡ）、直交ＦＤＭＡ（ＯＦＤＭＡ）、およびシングルキャリアＦＤＭＡ（ＳＣ−ＦＤＭＡ）など、１または複数のチャネルアクセス方法を利用する。

図１Ａに示されるように、通信システム１００は、（一般にまたは一括してＷＴＲＵ１０２と呼ばれる）無線送信／受信ユニット（ＷＴＲＵ）１０２ａ、１０２ｂ、１０２ｃ、および／または１０２ｄ、無線アクセスネットワーク（ＲＡＮ）１０３／１０４／１０５、コアネットワーク１０６／１０７／１０９、公衆交換電話網（ＰＳＴＮ）１０８、インターネット１１０、ならびに他のネットワーク１１２を含むが、開示される実施形態は、任意の数のＷＴＲＵ、基地局、ネットワーク、および／またはネットワーク要素を企図していることが理解される。ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄの各々は、無線環境において動作および／または通信するように構成された任意のタイプのデバイスである。例を挙げると、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄは、無線信号を送信および／または受信するように構成され、ユーザ機器（ＵＥ）、移動局、固定もしくは移動加入者ユニット、ページャ、セルラ電話、携帯情報端末（ＰＤＡ）、スマートフォン、ラップトップ、ネットブック、パーソナルコンピュータ、無線センサ、家電製品などを含む。

通信システム１００は、基地局１１４ａおよび基地局１１４ｂも含む。基地局１１４ａ、１１４ｂの各々は、コアネットワーク１０６／１０７／１０９、インターネット１１０、および／またはネットワーク１１２などの１または複数の通信ネットワークへのアクセスを容易にするために、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄの少なくとも１つと無線でインターフェースを取るように構成された、任意のタイプのデバイスである。例を挙げると、基地局１１４ａ、１１４ｂは、基地トランシーバ局（ＢＴＳ）、ノードＢ、ｅノードＢ、ホームノードＢ、ホームｅノードＢ、サイトコントローラ、アクセスポイント（ＡＰ）、および無線ルータなどである。基地局１１４ａ、１１４ｂは各々、単一の要素として示されているが、基地局１１４ａ、１１４ｂは、任意の数の相互接続された基地局および／またはネットワーク要素を含むことが理解される。

基地局１１４ａはＲＡＮ１０３／１０４／１０５の部分であり、ＲＡＮは他の基地局、および／または基地局コントローラ（ＢＳＣ）、無線ネットワークコントローラ（ＲＮＣ）、中継ノードなどのネットワーク要素（図示されず）も含む。基地局１１４ａおよび／または基地局１１４ｂは、セル（図示されず）と呼ばれる特定の地理的領域内で、無線信号を送信および／または受信するように構成される。セルは、さらにセルセクタに分割される。例えば、基地局１１４ａに関連付けられたセルは、３つのセクタに分割される。したがって、一実施形態では、基地局１１４ａは、送受信機を３つ、例えば、セルのセクタ毎に１つずつ含む。別の実施形態では、基地局１１４ａは、多入力多出力（ＭＩＭＯ）技術を利用し、したがって、セルのセクタ毎に複数の送受信機を利用する。

基地局１１４ａ、１１４ｂは、エアインターフェース１１５／１１６／１１７の上で、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄの１または複数と通信し、エアインターフェースは、任意の適切な無線通信リンク（例えば、無線周波（ＲＦ）、マイクロ波、赤外線（ＩＲ）、紫外線（ＵＶ）、可視光など）である。エアインターフェース１１５／１１６／１１７は、任意の適切な無線アクセス技術（ＲＡＴ）を使用して確立される。

より具体的には、上述したように、通信システム１００は、多元接続システムであり、ＣＤＭＡ、ＴＤＭＡ、ＦＤＭＡ、ＯＦＤＭＡ、およびＳＣ−ＦＤＭＡなどの、１または複数のチャネルアクセス方式を利用する。例えば、ＲＡＮ１０３／１０４／１０５内の基地局１１４ａ、およびＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、広帯域ＣＤＭＡ（ＷＣＤＭＡ（登録商標））を使用してエアインターフェース１１５／１１６／１１７を確立する、ユニバーサル移動体通信システム（ＵＭＴＳ）地上無線アクセス（ＵＴＲＡ）などの無線技術を実施する。ＷＣＤＭＡは、高速パケットアクセス（ＨＳＰＡ）および／または進化型ＨＳＰＡ（ＨＳＰＡ＋）などの通信プロトコルを含む。ＨＳＰＡは、高速ダウンリンクパケットアクセス（ＨＳＤＰＡ）および／または高速アップリンクパケットアクセス（ＨＳＵＰＡ）を含む。

別の実施形態では、基地局１１４ａ、およびＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、ロングタームエボリューション（ＬＴＥ）および／またはＬＴＥアドバンスト（ＬＴＥ−Ａ）を使用してエアインターフェース１１５／１１６／１１７を確立する、進化型ＵＭＴＳ地上無線アクセス（Ｅ−ＵＴＲＡ）などの無線技術を実施する。

他の実施形態では、基地局１１４ａ、およびＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃは、ＩＥＥＥ８０２．１６（例えば、マイクロ波アクセス用の世界的相互運用性（ＷｉＭＡＸ））、ＣＤＭＡ２０００、ＣＤＭＡ２０００１Ｘ、ＣＤＭＡ２０００ＥＶ−ＤＯ、暫定標準２０００（ＩＳ−２０００）、暫定標準９５（ＩＳ−９５）、暫定標準８５６（ＩＳ−８５６）、移動体通信用グローバルシステム（ＧＳＭ（登録商標））、ＧＳＭエボリューション用の高速データレート（ＥＤＧＥ）、およびＧＳＭＥＤＧＥ（ＧＥＲＡＮ）などの無線技術を実施する。

図１Ａの基地局１１４ｂは、例えば、無線ルータ、ホームノードＢ、ホームｅノードＢ、またはアクセスポイントであり、職場、家庭、乗物、およびキャンパスなどの局所的エリアにおける無線接続性を容易にするために、任意の適切なＲＡＴを利用する。一実施形態では、基地局１１４ｂ、およびＷＴＲＵ１０２ｃ、１０２ｄは、ＩＥＥＥ８０２．１１などの無線技術を実施して、無線ローカルエリアネットワーク（ＷＬＡＮ）を確立する。別の実施形態では、基地局１１４ｂ、およびＷＴＲＵ１０２ｃ、１０２ｄは、ＩＥＥＥ８０２．１５などの無線技術を実施して、無線パーソナルエリアネットワーク（ＷＰＡＮ）を確立する。また別の実施形態では、基地局１１４ｂ、およびＷＴＲＵ１０２ｃ、１０２ｄは、セルラベースのＲＡＴ（例えば、ＷＣＤＭＡ、ＣＤＭＡ２０００、ＧＳＭ、ＬＴＥ、ＬＴＥ−Ａなど）を利用して、ピコセルまたはフェムトセルを確立する。図１Ａに示されるように、基地局１１４ｂは、インターネット１１０への直接的な接続を有する。したがって、基地局１１４ｂは、コアネットワーク１０６／１０７／１０９を介して、インターネット１１０にアクセスする必要がない。

ＲＡＮ１０３／１０４／１０５は、コアネットワーク１０６／１０７／１０９と通信し、コアネットワーク１０６／１０７／１０９は、音声、データ、アプリケーション、および／またはボイスオーバインターネットプロトコル（ＶｏＩＰ）サービスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄの１または複数に提供するように構成された、任意のタイプのネットワークである。例えば、コアネットワーク１０６／１０７／１０９は、呼制御、請求サービス、モバイルロケーションベースのサービス、プリペイド通話、インターネット接続性、ビデオ配信などを提供し、および／またはユーザ認証など、高レベルのセキュリティ機能を実行する。図１Ａには示されていないが、ＲＡＮ１０３／１０４／１０５および／またはコアネットワーク１０６／１０７／１０９は、ＲＡＮ１０３／１０４／１０５と同じＲＡＴまたは異なるＲＡＴを利用する他のＲＡＮと直接的または間接的に通信することが理解される。例えば、Ｅ−ＵＴＲＡ無線技術を利用するＲＡＮ１０３／１０４／１０５に接続するのに加えて、コアネットワーク１０６／１０７／１０９は、ＧＳＭ無線技術を利用する別のＲＡＮ（図示されず）とも通信する。

コアネットワーク１０６／１０７／１０９は、ＰＳＴＮ１０８、インターネット１１０、および／または他のネットワーク１１２にアクセスするための、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのためのゲートウェイとしてもサービスする。ＰＳＴＮ１０８は、基本電話サービス（ＰＯＴＳ）を提供する回路交換電話網を含む。インターネット１１０は、ＴＣＰ／ＩＰインターネットプロトコルスイート内の伝送制御プロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、およびインターネットプロトコル（ＩＰ）など、共通の通信プロトコルを使用する、相互接続されたコンピュータネットワークとデバイスとからなるグローバルシステムを含む。ネットワーク１１２は、他のサービスプロバイダによって所有および／または運営される有線または無線通信ネットワークを含む。例えば、ネットワーク１１２は、ＲＡＮ１０３／１０４／１０５と同じＲＡＴまたは異なるＲＡＴを利用する１または複数のＲＡＮに接続された、別のコアネットワークを含む。

通信システム１００内のＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄのいくつかまたはすべては、マルチモード機能を含み、例えば、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、１０２ｄは、異なる無線リンクの上で異なる無線ネットワークと通信するための複数の送受信機を含む。例えば、図１Ａに示されたＷＴＲＵ１０２ｃは、セルラベースの無線技術を利用する基地局１１４ａと通信するように構成され、またＩＥＥＥ８０２無線技術を利用する基地局１１４ｂと通信するように構成される。

図１Ｂは、例示的なＷＴＲＵ１０２のシステム図である。図１Ｂに示されるように、ＷＴＲＵ１０２は、プロセッサ１１８と、送受信機１２０と、送信／受信要素１２２と、スピーカ／マイクロフォン１２４と、キーパッド１２６と、ディスプレイ／タッチパッド１２８と、着脱不能メモリ１３０と、着脱可能メモリ１３２と、電源１３４と、全地球測位システム（ＧＰＳ）チップセット１３６と、他の周辺機器１３８とを含む。ＷＴＲＵ１０２は、一実施形態との整合性を保ちながら、上記の要素の任意のサブコンビネーションを含むことが理解される。また、実施形態は、基地局１１４ａ、１１４ｂ、および／または、基地局１１４ａ、１１４ｂが表すノード、とりわけ、それらに限定されないが、送受信機局（ＢＴＳ）、ノードＢ、サイトコントローラ、アクセスポイント（ＡＰ）、ホームノードＢ、進化型ホームノードＢ（ｅＮｏｄｅＢ）、ホーム進化型ノードＢ（ＨｅＮＢ）、ホーム進化型ノードＢゲートウェイ、およびプロキシノードなどが、図１Ｂに示され、本明細書で説明される要素のいくつかまたはすべてを含むことを企図している。

プロセッサ１１８は、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと連携する１または複数のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、他の任意のタイプの集積回路（ＩＣ）、および状態機械などである。プロセッサ１１８は、信号符号化、データ処理、電力制御、入出力処理、および／またはＷＴＲＵ１０２が無線環境で動作することを可能にする他の任意の機能を実行する。プロセッサ１１８は、送受信機１２０に結合され、送受信機１２０は、送信／受信要素１２２に結合される。図１Ｂは、プロセッサ１１８と送受信機１２０を別々のコンポーネントとして示しているが、プロセッサ１１８と送受信機１２０は、電子パッケージまたはチップ内に一緒に統合されることが理解される。

送信／受信要素１２２は、エアインターフェース１１５／１１６／１１７の上で、基地局（例えば、基地局１１４ａ）に信号を送信し、または基地局から信号を受信するように構成される。例えば、一実施形態では、送信／受信要素１２２は、ＲＦ信号を送信および／または受信するように構成されたアンテナである。別の実施形態では、送信／受信要素１２２は、例えば、ＩＲ、ＵＶ、または可視光信号を送信および／または受信するように構成された放射器／検出器である。また別の実施形態では、送信／受信要素１２２は、ＲＦ信号と光信号の両方を送信および受信するように構成される。送信／受信要素１２２は、無線信号の任意の組み合わせを送信および／または受信するように構成されることが理解される。

加えて、図１Ｂでは、送信／受信要素１２２は単一の要素として示されているが、ＷＴＲＵ１０２は、任意の数の送信／受信要素１２２を含む。より具体的には、ＷＴＲＵ１０２は、ＭＩＭＯ技術を利用する。したがって、一実施形態では、ＷＴＲＵ１０２は、エアインターフェース１１５／１１６／１１７の上で無線信号を送信および受信するための２つ以上の送信／受信要素１２２（例えば、複数のアンテナ）を含む。

送受信機１２０は、送信／受信要素１２２によって送信される信号を変調し、送信／受信要素１２２によって受信された信号を復調するように構成される。上述したように、ＷＴＲＵ１０２は、マルチモード機能を有する。したがって、送受信機１２０は、ＷＴＲＵ１０２が、例えば、ＵＴＲＡおよびＩＥＥＥ８０２．１１などの複数のＲＡＴを介して通信することを可能にするための複数の送受信機を含む。

ＷＴＲＵ１０２のプロセッサ１１８は、スピーカ／マイクロフォン１２４、キーパッド１２６、および／またはディスプレイ／タッチパッド１２８（例えば、液晶表示（ＬＣＤ）ディスプレイユニットもしくは有機発光ダイオード（ＯＬＥＤ）ディスプレイユニット）に結合され、それらからユーザ入力データを受け取る。プロセッサ１１８はまた、スピーカ／マイクロフォン１２４、キーパッド１２６、および／またはディスプレイ／タッチパッド１２８にユーザデータを出力する。加えて、プロセッサ１１８は、着脱不能メモリ１３０および／または着脱可能メモリ１３２など、任意のタイプの適切なメモリから情報を入手し、それらにデータを記憶する。着脱不能メモリ１３０は、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、ハードディスク、または他の任意のタイプのメモリ記憶デバイスを含む。着脱可能メモリ１３２は、加入者識別モジュール（ＳＩＭ）カード、メモリスティック、およびセキュアデジタル（ＳＤ）メモリカードなどを含む。他の実施形態では、プロセッサ１１８は、サーバまたはホームコンピュータ（図示されず）などのＷＴＲＵ１０２上に物理的に配置されてないメモリから情報を入手し、および該メモリにデータを記憶する。

プロセッサ１１８は、電源１３４から電力を受け取り、ＷＴＲＵ１０２内の他のコンポーネントへの電力の分配および／または制御を行うように構成される。電源１３４は、ＷＴＲＵ１０２に給電するための任意の適切なデバイスである。例えば、電源１３４は、１または複数の乾電池（例えば、ニッケル−カドミウム（ＮｉＣｄ）、ニッケル−亜鉛（ＮｉＺｎ）、ニッケル水素（ＮｉＭＨ）、リチウムイオン（Ｌｉ−ｉｏｎ）など）、太陽電池、および燃料電池などを含む。

また、プロセッサ１１８は、ＧＰＳチップセット１３６に結合され、ＧＰＳチップセット１３６は、ＷＴＲＵ１０２の現在位置に関する位置情報（例えば、経度および緯度）を提供するように構成される。ＧＰＳチップセット１３６からの情報に加えて、またはその代わりに、ＷＴＲＵ１０２は、基地局（例えば、基地局１１４ａ、１１４ｂ）からエアインターフェース１１５／１１６／１１７の上で位置情報を受け取り、および／または２つ以上の近くの基地局から受信した信号のタイミングに基づいて、自らの位置を決定する。ＷＴＲＵ１０２は、一実施形態との整合性を保ちながら、任意の適切な位置決定方法を用いて、位置情報を獲得することが理解される。

プロセッサ１１８は、他の周辺機器１３８にさらに結合され、他の周辺機器１３８は、追加的な特徴、機能、および／または有線もしくは無線接続性を提供する、１または複数のソフトウェアモジュールおよび／またはハードウェアモジュールを含む。例えば、周辺機器１３８は、加速度計、ｅコンパス、衛星送受信機、（写真またはビデオ用の）デジタルカメラ、ユニバーサルシリアルバス（ＵＳＢ）ポート、バイブレーションデバイス、テレビ送受信機、ハンズフリーヘッドセット、Ｂｌｕｅｔｏｏｔｈ（登録商標）モジュール、周波数変調（ＦＭ）ラジオユニット、デジタル音楽プレーヤ、メディアプレーヤ、ビデオゲームプレーヤモジュール、およびインターネットブラウザなどを含む。

図１Ｃは、一実施形態による、ＲＡＮ１０３およびコアネットワーク１０６のシステム図である。上述したように、ＲＡＮ１０３は、ＵＴＲＡ無線技術を利用して、エアインターフェース１１５の上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信する。ＲＡＮ１０３は、コアネットワーク１０６とも通信する。図１Ｃに示されるように、ＲＡＮ１０３は、ノードＢ１４０ａ、１４０ｂ、１４０ｃを含み、ノードＢ１４０ａ、１４０ｂ、１４０ｃは各々、エアインターフェース１１５の上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信するための１または複数の送受信機を含む。ノードＢ１４０ａ、１４０ｂ、１４０ｃは各々、ＲＡＮ１０３内の特定のセル（図示されず）に関連付けられる。ＲＡＮ１０３は、ＲＮＣ１４２ａ、１４２ｂも含む。ＲＡＮ１０３は、一実施形態との整合性を保ちながら、任意の数のノードＢおよびＲＮＣを含むことが理解される。

図１Ｃに示されるように、ノードＢ１４０ａ、１４０ｂは、ＲＮＣ１４２ａと通信する。加えて、ノードＢ１４０ｃは、ＲＮＣ１４２ｂと通信する。ノードＢ１４０ａ、１４０ｂ、１４０ｃは、Ｉｕｂインターフェースを介して、それぞれのＲＮＣ１４２ａ、１４２ｂと通信する。ＲＮＣ１４２ａ、１４２ｂは、Ｉｕｒインターフェースを介して、互いに通信する。ＲＮＣ１４２ａ、１４２ｂの各々は、それが接続されたそれぞれのノードＢ１４０ａ、１４０ｂ、１４０ｃを制御するように構成される。加えて、ＲＮＣ１４２ａ、１４２ｂの各々は、アウタループ電力制御、負荷制御、アドミッションコントロール、パケットスケジューリング、ハンドオーバ制御、マクロダイバーシティ、セキュリティ機能、およびデータ暗号化など、他の機能を実施またはサポートするように構成される。

図１Ｃに示されるコアネットワーク１０６は、メディアゲートウェイ（ＭＧＷ）１４４、モバイル交換センタ（ＭＳＣ）１４６、サービングＧＰＲＳサポートノード（ＳＧＳＮ）１４８、および／またはゲートウェイＧＰＲＳサポートノード（ＧＧＳＮ）１５０を含む。上記の要素の各々は、コアネットワーク１０６の部分として示されているが、これらの要素は、どの１つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および／または運営されることが理解される。

ＲＡＮ１０３内のＲＮＣ１４２ａは、ＩｕＣＳインターフェースを介して、コアネットワーク１０６内のＭＳＣ１４６に接続される。ＭＳＣ１４６は、ＭＧＷ１４４に接続される。ＭＳＣ１４６とＭＧＷ１４４は、ＰＳＴＮ１０８などの回路交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと従来の陸線通信デバイスとの間の通信を容易にする。

ＲＡＮ１０３内のＲＮＣ１４２ａは、ＩｕＰＳインターフェースを介して、コアネットワーク１０６内のＳＧＳＮ１４８にも接続される。ＳＧＳＮ１４８は、ＧＧＳＮ１５０に接続される。ＳＧＳＮ１４８とＧＧＳＮ１５０は、インターネット１１０などのパケット交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃとＩＰ対応デバイスとの間の通信を容易にする。

上述したように、コアネットワーク１０６は、ネットワーク１１２にも接続され、ネットワーク１１２は、他のサービスプロバイダによって所有および／または運営される他の有線または無線ネットワークを含む。

図１Ｄは、一実施形態による、ＲＡＮ１０４およびコアネットワーク１０７のシステム図である。上述したように、ＲＡＮ１０４は、エアインターフェース１１６の上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信するために、Ｅ−ＵＴＲＡ無線技術を利用する。ＲＡＮ１０４は、コアネットワーク１０７とも通信する。

ＲＡＮ１０４は、ｅノードＢ１６０ａ、１６０ｂ、１６０ｃを含むが、ＲＡＮ１０４は、一実施形態との整合性を保ちながら、任意の数のｅノードＢを含むことが理解される。ｅノードＢ１６０ａ、１６０ｂ、１６０ｃは、各々が、エアインターフェース１１６上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信するための１または複数の送受信機を含む。一実施形態では、ｅノードＢ１６０ａ、１６０ｂ、１６０ｃは、ＭＩＭＯ技術を実施する。したがって、ｅノードＢ１６０ａは、例えば、複数のアンテナを使用して、ＷＴＲＵ１０２ａに無線信号を送信し、ＷＴＲＵ１０２ａから無線信号を受信する。

ｅノードＢ１６０ａ、１６０ｂ、１６０ｃの各々は、特定のセル（図示されず）に関連付けられ、無線リソース管理決定、ハンドオーバ決定、アップリンクおよび／またはダウンリンクにおけるユーザのスケジューリングなどを処理するように構成される。図１Ｄに示されるように、ｅノードＢ１６０ａ、１６０ｂ、１６０ｃは、Ｘ２インターフェースの上で互いに通信する。

図１Ｄに示されるコアネットワーク１０７は、モビリティ管理ゲートウェイ（ＭＭＥ）１６２、サービングゲートウェイ１６４、およびパケットデータネットワーク（ＰＤＮ）ゲートウェイ１６６を含む。上記の要素の各々は、コアネットワーク１０７の部分として示されているが、これらの要素は、どの１つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および／または運営されることが理解される。

ＭＭＥ１６２は、Ｓ１インターフェースを介して、ＲＡＮ１０４内のｅノードＢ１６０ａ、１６０ｂ、１６０ｃの各々に接続され、制御ノードとしての役割を果たす。例えば、ＭＭＥ１６２は、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃのユーザの認証、ベアラアクティブ化／非アクティブ化、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃの初期接続中における特定のサービングゲートウェイの選択などを担う。ＭＭＥ１６２は、ＲＡＮ１０４とＧＳＭまたはＷＣＤＭＡなどの他の無線技術を利用する他のＲＡＮ（図示されず）との間の交換のためのコントロールプレーン機能を提供もする。

サービングゲートウェイ１６４は、Ｓ１インターフェースを介して、ＲＡＮ１０４内のｅノードＢ１６０ａ、１６０ｂ、１６０ｃの各々に接続される。サービングゲートウェイ１６４は、一般に、ユーザデータパケットのＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃへの／からの経路選択および転送を行う。サービングゲートウェイ１６４は、ｅノードＢ間ハンドオーバ中におけるユーザプレーンのアンカリング（ａｎｃｈｏｒｉｎｇ）、ダウンリンクデータがＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに利用可能な場合に行う一斉呼出（ｐａｇｉｎｇ）のトリガ、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃのコンテキストの管理および記憶など、他の機能を実行する。

サービングゲートウェイ１６４は、ＰＤＮゲートウェイ１６６にも接続され、ＰＤＮゲートウェイ１６６は、インターネット１１０などのパケット交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃとＩＰ対応デバイスとの間の通信を容易にする。

コアネットワーク１０７は、他のネットワークとの通信を容易にする。例えば、コアネットワーク１０７は、ＰＳＴＮ１０８などの回路交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと従来の陸線通信デバイスとの間の通信を容易にする。例えば、コアネットワーク１０７は、コアネットワーク１０７とＰＳＴＮ１０８との間のインターフェースとしての役割を果たすＩＰゲートウェイ（例えば、ＩＰマルチメディアサブシステム（ＩＭＳ）サーバ）を含み、またはＩＰゲートウェイと通信する。加えて、コアネットワーク１０７は、ネットワーク１１２へのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供し、ネットワーク１１２は、他のサービスプロバイダによって所有および／または運営される他の有線または無線ネットワークを含む。

図１Ｅは、一実施形態による、ＲＡＮ１０５およびコアネットワーク１０９のシステム図である。ＲＡＮ１０５は、ＩＥＥＥ８０２．１６無線技術を利用して、エアインターフェース１１７の上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信する、アクセスサービスネットワーク（ＡＳＮ）である。以下でさらに説明するように、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃ、ＲＡＮ１０５、およびコアネットワーク１０９の異なる機能エンティティ間の通信リンクは、参照点として定義される。

図１Ｅに示されるように、ＲＡＮ１０５は、基地局１８０ａ、１８０ｂ、１８０ｃと、ＡＳＮゲートウェイ１８２とを含むが、ＲＡＮ１０５は、一実施形態との整合性を保ちながら、任意の数の基地局とＡＳＮゲートウェイとを含むことが理解される。基地局１８０ａ、１８０ｂ、１８０ｃは、各々が、ＲＡＮ１０５内の特定のセル（図示されず）に関連付けられ、各々が、エアインターフェース１１７の上でＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと通信するための１または複数の送受信機を含む。一実施形態では、基地局１８０ａ、１８０ｂ、１８０ｃは、ＭＩＭＯ技術を実施する。したがって、基地局１８０ａは、例えば、複数のアンテナを使用して、ＷＴＲＵ１０２ａに無線信号を送信し、ＷＴＲＵ１０２ａから無線信号を受信する。基地局１８０ａ、１８０ｂ、１８０ｃは、ハンドオフトリガリング、トンネル確立、無線リソース管理、トラフィック分類、およびサービス品質（ＱｏＳ）ポリシ実施などの、モビリティ管理機能も提供する。ＡＳＮゲートウェイ１８２は、トラフィック集約ポイントとしてサービスし、ページング、加入者プロファイルのキャッシング、およびコアネットワーク１０９へのルーティングなどを担う。

ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃとＲＡＮ１０５との間のエアインターフェース１１７は、ＩＥＥＥ８０２．１６仕様を実施する、Ｒ１参照点として定義される。加えて、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃの各々は、コアネットワーク１０９との論理インターフェース（図示されず）を確立する。ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃとコアネットワーク１０９との間の論理インターフェースは、Ｒ２参照点として定義され、Ｒ２参照点は、認証、認可、ＩＰホスト構成管理、および／またはモビリティ管理のために使用される。

基地局１８０ａ、１８０ｂ、１８０ｃの各々の間の通信リンクは、ＷＴＲＵハンドオーバおよび基地局間でのデータの転送を容易にするためのプロトコルを含む、Ｒ８参照点として定義される。基地局１８０ａ、１８０ｂ、１８０ｃとＡＳＮゲートウェイ１８２の間の通信リンクは、Ｒ６参照点として定義される。Ｒ６参照点は、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃの各々に関連するモビリティイベントに基づいたモビリティ管理を容易にするためのプロトコルを含む。

図１Ｅに示されるように、ＲＡＮ１０５は、コアネットワーク１０９に接続される。ＲＡＮ１０５とコアネットワーク１０９との間の通信リンクは、例えばデータ転送およびモビリティ管理機能を容易にするためのプロトコルを含む、Ｒ３参照点として定義される。コアネットワーク１０９は、モバイルＩＰホームエージェント（ＭＩＰ−ＨＡ）１８４と、認証認可課金（ＡＡＡ）サーバ１８６と、ゲートウェイ１８８とを含む。上記の要素の各々は、コアネットワーク１０９の部分として示されているが、これらの要素は、どの１つをとっても、コアネットワーク運営体とは異なるエンティティによって所有および／または運営されることが理解される。

ＭＩＰ−ＨＡは、ＩＰアドレス管理を担い、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃが、異なるＡＳＮの間で、および／または異なるコアネットワークの間でローミングを行うことを可能にする。ＭＩＰ−ＨＡ１８４は、インターネット１１０などのパケット交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃとＩＰ対応デバイスとの間の通信を容易にする。ＡＡＡサーバ１８６は、ユーザ認証、およびユーザサービスのサポートを担う。ゲートウェイ１８８は、他のネットワークとの網間接続を容易にする。例えば、ゲートウェイ１８８は、ＰＳＴＮ１０８などの回路交換ネットワークへのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供して、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃと従来の陸線通信デバイスとの間の通信を容易にする。加えて、ゲートウェイ１８８は、ネットワーク１１２へのアクセスをＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃに提供し、ネットワーク１１２は、他のサービスプロバイダによって所有および／または運営される他の有線または無線ネットワークを含む。

図１Ｅには示されていないが、ＲＡＮ１０５は、他のＡＳＮに接続され、コアネットワーク１０９は、他のコアネットワークに接続されることが理解される。ＲＡＮ１０５と他のＡＳＮとの間の通信リンクは、Ｒ４参照点として定義され、Ｒ４参照点は、ＲＡＮ１０５と他のＡＳＮとの間で、ＷＴＲＵ１０２ａ、１０２ｂ、１０２ｃのモビリティを調整するためのプロトコルを含む。コアネットワーク１０９と他のコアネットワークとの間の通信リンクは、Ｒ５参照として定義され、Ｒ５参照は、ホームコアネットワークと在圏コアネットワークとの間の網間接続を容易にするためのプロトコルを含む。

有線および無線ネットワーク（例えば、３Ｇ、ＷｉＦｉ、インターネット、図１Ａないし図１Ｅに示されるネットワーク）におけるストリーミングは、ネットワークにおける帯域幅が可変的であるため、適応を伴う。例えば、メディアがクライアントにストリーミングされるレートが、変化するネットワーク条件に適応する、帯域幅適応ストリーミングが利用される。帯域幅適応ストリーミングは、クライアント（例えば、ＷＴＲＵ）が、メディアが受信されるレートを、それら自体の変化する利用可能な帯域幅により良く一致させることを可能にする。

帯域幅適応ストリーミングシステムでは、コンテンツプロバイダは、例えば、図２に示されるように、１または複数の異なるビットレートで、同じコンテンツを提供する。図２は、異なるビットレートで符号化されるコンテンツの一例を示す図である。コンテンツ２０１は、例えば、符号化器２０２によって、多数のターゲットビットレート（例えば、ｒ１、ｒ２、．．．、ｒＭ）で符号化される。これらのターゲットビットレートを達成するため、視覚品質もしくはＳＮＲ（例えば、ビデオ）、フレーム解像度（例えば、ビデオ）、フレームレート（例えば、ビデオ）、サンプリングレート（例えば、オーディオ）、チャネル数（例えば、オーディオ）、またはコーデック（例えば、ビデオおよびオーディオ）などのパラメータが変更される。（例えば、マニフェストファイルと呼ばれる）記述ファイルが、コンテンツおよびその複数の表現に関連する技術情報およびメタデータを提供し、それが、１または複数の異なる利用可能なレートの選択を可能にする。

複数のレートでのコンテンツの発行は、例えば、生産増加、品質保証管理、ストレージコストなどの課題をもたらす。多数のレート／解像度（例えば、３、４、５など）が、利用可能にされる。

図３は、帯域幅適応ストリーミングの一例を示す図である。マルチメディアストリーミングシステムは、帯域幅適応をサポートする。ストリーミングメディアプレーヤ（例えば、ストリーミングクライアント）は、メディアコンテンツ記述から利用可能なビットレートについて学ぶ。ストリーミングクライアントは、ネットワーク３０１の利用可能な帯域幅を測定および／または推定し、異なるビットレート３０２で符号化されたメディアコンテンツのセグメントを要求することによって、ストリーミングセッションを制御する。これは、ストリーミングクライアントが、例えば、図３に示されるように、マルチメディアコンテンツの再生中に、帯域幅変動に適応することを可能にする。クライアントは、バッファレベル、誤り率、遅延ジッタなどのうちの１または複数に基づいて、利用可能な帯域幅を測定および／または推定する。クライアントは、どのレートおよび／またはセグメントを使用すべきかを決定するときに、例えば、帯域幅に加えて、視聴条件などの他の要因も検討する。

ストリーム切り換え挙動は、例えば、クライアントまたはネットワークフィードバックに基づいて、サーバによって制御される。このモデルは、例えば、ＲＴＰ／ＲＴＳＰプロトコルに基づいたストリーミング技術とともに使用される。

アクセスネットワークの帯域幅は、例えば、（例えば、表１に示されるような）使用される下層技術、および／またはユーザ数、ロケーション、信号強度などが原因で変化する。表１は、アクセスネットワークのピーク帯域幅の一例を示している。

コンテンツは、例えば、異なるサイズを有する画面上で、例えば、スマートフォン、タブレット、ラップトップ、およびＨＤＴＶなどのより大きな画面上で視聴される。表２は、マルチメディアストリーミング機能を含む様々なデバイスのサンプル画面解像度の一例を示している。少数のレートの提供は、様々なクライアントに良好なユーザエクスペリエンスを提供するのに十分ではない。

本明細書で説明される実施によって利用される画面解像度の一例が、表３に列挙されている。

例えば、ＹｏｕＴｕｂｅ（登録商標）、ｉＴｕｎｅｓ（登録商標）、Ｈｕｌｕ（登録商標）などのコンテンツプロバイダは、ＨＴＴＰプログレッシブダウンロードを使用して、マルチメディアコンテンツを配信する。ＨＴＴＰプログレッシブダウンロードは、再生され得る前に（例えば、部分的または完全に）ダウンロードされるコンテンツを含む。ＨＴＴＰを使用する配信は、ファイヤウォールによってブロックされないインターネットトランスポートプロトコルである。例えば、ＲＴＰ／ＲＴＳＰまたはマルチキャストなどの他のプロトコルは、ファイヤウォールによってブロックされ、またはインターネットサービスプロバイダによって使用不可能である。プログレッシブダウンロードは、帯域幅適応をサポートしない。ＨＴＴＰ上での帯域幅適応マルチメディアストリーミングのための技術が、パケットネットワーク上でライブおよびオンデマンドコンテンツを配信するために開発される。

メディアプレゼンテーションは、例えば、ＨＴＴＰ上での帯域幅適応ストリーミングでは、１または複数のビットレートで符号化される。メディアプレゼンテーションの符号化は、例えば、図４に示されるように、持続時間がより短い１または複数のセグメントに分割される。図４は、符号化器４０２によって異なるビットレートで符号化され、セグメントに分割される、コンテンツ４０１の一例を示す図である。クライアントは、ＨＴＴＰを使用して、例えば、レート適応を提供する、現在の条件に最も良く一致するビットレートで、セグメントを要求する。

図５は、ＨＴＴＰストリーミングセッション５００の一例を示す図である。例えば、図５は、ストリーミングセッション中におけるクライアントとＨＴＴＰサーバとの間の対話の例示的なシーケンスを示す。記述／マニフェストファイルおよび１または複数のストリーミングセグメントが、ＨＴＴＰＧＥＴ要求によって獲得される。記述／マニフェストファイルは、例えば、ＵＲＬを介して、セグメントのロケーションを指定する。

帯域幅適応ＨＴＴＰストリーミング技法は、例えば、ＨＴＴＰライブストリーミング（ＨＬＳ）、スムーズストリーミング、ＨＴＴＰ動的ストリーミング、ＨＴＴＰ適応ストリーミング（ＨＡＳ）、および適応ＨＴＴＰストリーミング（ＡＨＳ）を含む。

動的適応ＨＴＴＰストリーミング（ＤＡＳＨ）は、ＨＴＴＰストリーミングのためのいくつかの手法を統合したものである。ＤＡＳＨは、無線および有線ネットワークにおいて、可変帯域幅に対処するために使用される。ＤＡＳＨは、多数のコンテンツプロバイダおよびデバイスによってサポートされる。

図６は、ＤＡＳＨ高水準システムアーキテクチャ６００の一例を示す図である。ＤＡＳＨは、適切な形式で準備されているライブまたはオンデマンドコンテンツ６０５を配信する、１組のＨＴＴＰサーバ６０２として配備される。クライアント６０１は、ＤＡＳＨＨＴＴＰサーバ６０２から直接的にコンテンツにアクセスし、および／または、図６に示されるように、例えば、インターネット６０４を介してコンテンツ配信ネットワーク（ＣＤＮ）６０３からコンテンツにアクセスする。ＣＤＮ６０３は、コンテンツをキャッシュし、ネットワークのエッジにクライアントに近づけて配置されるので、例えば、多数のクライアントが予想される配備のために使用される。クライアント６０１は、ＷＴＲＵであり、および／またはＷＴＲＵ上に存在し、例えば、ＷＴＲＵは、図１Ｂに示されるようなものである。ＣＤＮ６０３は、図１Ａないし図１Ｅに示される要素の１または複数を含む。

ＤＡＳＨでは、ストリーミングセッションは、ＨＴＴＰを使用してセグメントを要求して、それらがコンテンツプロバイダおよび／またはＣＤＮ６０３から受信されたときにセグメントを継ぎ合わせることによって、クライアント６０１によって制御される。クライアント６０１は、例えば、インテリジェンスをネットワークからクライアント６０１に有効に移動させるために、例えば、ネットワーク条件（例えば、パケット誤り率、遅延ジッタなど）、ならびに／またはクライアント６０１の状態（例えば、バッファ満杯、ユーザ挙動およびプリファレンスなど）に基づいて、メディアレートを監視（例えば、継続的に監視）し、調整する。

図７は、ＤＡＳＨクライアントモードの一例を示す図である。ＤＡＳＨクライアントモードは、情報伝達的なクライアントモデルに基づいている。ＤＡＳＨアクセスエンジン７０１は、メディアプレゼンテーション記述（ＭＰＤ）ファイル７０２を受信し、要求を構成および発行し、ならびに／または１もしくは複数のセグメント、および／もしくはセグメント７０３の部分を受信する。ＤＡＳＨアクセスエンジン７０１の出力は、例えば、メディアの内部タイミングをプレゼンテーションのタイムラインにマッピングするタイミング情報を有する、ＭＰＥＧコンテナ形式（例えば、ＭＰ４ファイル形式またはＭＰＥＧ−２トランスポートストリーム）のメディアを含む。メディアの符号化されたチャンクとタイミング情報との組み合わせは、コンテンツの正確な描画のために十分である。

図８は、ＤＡＳＨメディアプレゼンテーション高水準データモデル８００の一例を示す図である。ＤＡＳＨでは、マルチメディアプレゼンテーションの組織は、例えば、図８に示されるような、階層的データモデルに基づく。ＭＰＤファイルは、ＤＡＳＨメディアプレゼンテーション（例えば、マルチメディアコンテンツ）を構成する一連の期間を記述する。期間（ｐｅｒｉｏｄ）とは、メディアコンテンツの一貫した１組の符号化バージョンが利用可能な、メディアコンテンツ期間のことである。例えば、１組の利用可能なビットレート、言語、キャプションなどは、期間中は変化しない。

適応セット（ａｄａｐｔａｔｉｏｎｓｅｔ）とは、１または複数のメディアコンテンツ構成要素の１組の交換可能な符号化バージョンのことである。例えば、ビデオ、１次オーディオ、２次オーディオ、キャプションなどのための適応セットが存在する。適応セットは、多重化される。多重化の交換可能なバージョンは、単一の適応セットとして記述される。例えば、適応セットは、期間についてのビデオとメインオーディオの両方を含む。

表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）とは、１または複数のメディアコンテンツ構成要素の配送可能な符号化バージョンのことである。表現は、１または複数のメディアストリーム（例えば、多重化内の各メディアコンテンツ構成要素に１つ）を含む。適応セット内の表現は、メディアコンテンツ構成要素を描画するのに十分である。クライアントは、ネットワーク条件および／または他の要因に適応するために、適応セット内で表現から表現に切り換える。クライアントは、クライアントがサポートしない、コーデック、プロファイル、および／またはパラメータを使用する表現を無視する。

表現内のコンテンツは、時間的に、固定長または可変長の１または複数のセグメントに分割される。ＵＲＬが、セグメントに（例えば、各セグメントに）提供される。セグメントは、単一のＨＴＴＰ要求を用いて取得できるデータの最大単位である。

メディアプレゼンテーション記述（ＭＰＤ）ファイルは、１もしくは複数のセグメントにアクセスするための、および／またはストリーミングサービスをユーザに提供するための、適切なＨＴＴＰ−ＵＲＬを構成するために、ＤＡＳＨクライアントによって使用されるメタデータを含むＸＭＬドキュメントである。ＭＰＤファイル内のベースＵＲＬは、１もしくは複数のセグメント、および／またはメディアプレゼンテーション内の他のリソースを求めるＨＴＴＰＧＥＴ要求を生成するために、クライアントによって使用される。ＨＴＴＰ部分ＧＥＴ要求は、例えば、（例えば、「Ｒａｎｇｅ」ＨＴＴＰヘッダを介して）バイト範囲を使用することによって、セグメントの限られた部分にアクセスするために使用される。代替ベースＵＲＬは、ロケーションが利用不可能な場合に、プレゼンテーションへのアクセスを可能にするために指定される。代替ベースＵＲＬは、例えば、クライアント側のロードバランシングおよび／または並列ダウンロードを可能にする、マルチメディアストリームの配信に冗長性を提供する。

ＭＰＤファイルは、静的または動的な種類（ｔｙｐｅ）をとる。静的ＭＰＤファイル種類は、メディアプレゼンテーション中に変化しない。静的ＭＰＤファイルは、オンデマンドプレゼンテーションのために使用される。動的ＭＰＤファイル種類は、メディアプレゼンテーション中に更新される。動的ＭＰＤファイル種類は、ライブプレゼンテーションのために使用される。ＭＰＤファイルは、例えば、表現についてのセグメントのリストを拡張するために、新しい期間を導入するために、メディアプレゼンテーションを終了するために、および／またはタイムラインを処理もしくは調整するために、更新される。

ＤＡＳＨでは、異なるメディアコンテンツ構成要素（例えば、ビデオ、オーディオ）の符号化バージョンは、共通のタイムラインを共有する。メディアコンテンツ内のアクセスユニットのプレゼンテーション時間は、メディアプレゼンテーションタイムラインと呼ばれる、グローバル共通プレゼンテーションタイムラインにマッピングされる。メディアプレゼンテーションタイムラインは、異なるメディア構成要素の同期を可能にする。メディアプレゼンテーションタイムラインは、同じメディア構成要素の異なる符号化バージョン（例えば、表現）のシームレスな切り換えを可能にする。

セグメントは、実際のセグメント化されたメディアストリームを含む。セグメントは、例えば、切り換えおよび他の表現との同期プレゼンテーションのための、メディアストリームをメディアプレゼンテーションタイムラインにどのようにマッピングするかに関する追加情報を含む。

セグメント利用可能タイムラインは、指定されたＨＴＴＰＵＲＬにおける１または複数のセグメントの利用可能時間をクライアントに知らせるために使用される。利用可能時間は、ウォールクロック時間で提供される。クライアントは、例えば、指定されたＨＴＴＰＵＲＬにおいてセグメントにアクセスする前に、ウォールクロック時間をセグメント利用可能時間と比較する。

例えば、オンデマンドコンテンツの場合、１または複数のセグメントの利用可能時間は、同一である。メディアプレゼンテーションのセグメント（例えば、すべてのセグメント）は、セグメントの１つが利用可能になると、サーバ上で利用可能になる。ＭＰＤファイルは、静的ドキュメントである。

例えば、ライブコンテンツの場合、１または複数のセグメントの利用可能時間は、メディアプレゼンテーションタイムラインにおけるセグメントの位置に依存する。セグメントは、時間とともにコンテンツが生成されるにつれて利用可能になる。ＭＰＤファイルは、時間経過に伴うプレゼンテーションの変化を反映するように、（例えば、定期的に）更新される。例えば、１または複数の新しいセグメントのための１または複数のセグメントＵＲＬが、ＭＰＤファイルに追加される。もはや利用可能ではないセグメントは、ＭＰＤファイルから削除される。例えば、セグメントＵＲＬがテンプレートを使用して記述される場合、ＭＰＤファイルの更新は必要ではない。

セグメントの持続時間は、例えば、通常速度で提示される場合のセグメント内に含まれるメディアの持続時間を表す。表現内のセグメントは、同じまたはほぼ同じ持続時間を有する。セグメント持続時間は、表現ごとに異なる。ＤＡＳＨプレゼンテーションは、１もしくは複数の短いセグメント（例えば、２ないし８秒）、および／または１もしくは複数のより長いセグメントを用いて構成される。ＤＡＳＨプレゼンテーションは、表現全体に対して単一のセグメントを含む。

短いセグメントは、（例えば、エンドツーエンド待ち時間を短縮することによって）ライブコンテンツに適しており、セグメントレベルの高い切り換え粒度を可能にする。長いセグメントは、プレゼンテーションにおけるファイルの数を減らすことによって、キャッシュ性能を改善する。長いセグメントは、クライアントが、例えば、バイト範囲要求を使用することによって、柔軟な要求サイズを作ることを可能にする。長いセグメントの使用は、セグメントインデックスの使用を強いる。

セグメントは、時間経過に伴って拡張されることはない。セグメントは、全体として利用可能にされる完全な孤立したユニットである。セグメントは、ムービーフラグメントと呼ばれる。セグメントは、サブセグメントに細分される。サブセグメントは、整数個の完全なアクセスユニットを含む。アクセスユニットは、メディアプレゼンテーション時間が割り当てられた、メディアストリームのユニットである。セグメントは、１または複数のサブセグメントに分割される場合、セグメントはセグメントインデックスによって記述される。セグメントインデックスは、表現内におけるプレゼンテーション時間範囲、および／または各サブセグメントによって占められる、セグメント内の対応するバイト範囲を提供する。クライアントは、事前にセグメントインデックスをダウンロードする。クライアントは、ＨＴＴＰ部分ＧＥＴ要求を使用して、個々のサブセグメントを求める要求を発行する。セグメントインデックスは、メディアセグメント内に、例えば、ファイルの先頭に含まれる。セグメントインデックス情報は、１または複数のインデックスセグメント（例えば、別々のインデックスセグメント）で提供される。

ＤＡＳＨは、複数（例えば、４）種類のセグメントを利用する。セグメントの種類は、初期化セグメント、メディアセグメント、インデックスセグメント、および／またはビットストリーム切り換えセグメントを含む。初期化セグメントは、表現にアクセスするための初期化情報を含む。初期化セグメントは、プレゼンテーション時間が割り当てられたメディアデータを含まない。初期化セグメントは、含まれる表現のメディアセグメントのプレイアウトを可能にするためのメディアエンジンの初期化を行うために、クライアントによって処理される。

メディアセグメントは、このメディアセグメント内で記述される、および／または表現の初期化セグメントによって記述される、１または複数のメディアストリームを含み、および／またはカプセル化する。メディアセグメントは、１または複数の完全なアクセスユニットを含む。メディアセグメントは、例えば、含まれる各メディアストリームのための、少なくとも１つのストリームアクセスポイント（ＳＡＰ）を含む。

インデックスセグメントは、１または複数のメディアセグメントに関連する情報を含む。インデックスセグメントは、１または複数のメディアセグメントのためのインデックス情報を含む。インデックスセグメントは、１または複数のメディアセグメントのための情報を提供する。インデックスセグメントは、メディア形式に固有である。インデックスセグメントをサポートするメディア形式について、さらなる詳細が定義される。

ビットストリーム切り換えセグメントは、割り当てられた表現に切り換えるためのデータを含む。ビットストリーム切り換えセグメントは、メディア形式に固有である。ビットストリーム切り換えセグメントをサポートする各メディア形式について、さらなる詳細が定義される。各表現に対して、１つのビットストリーム切り換えセグメントが定義される。

クライアントは、例えば、メディア内の任意のポイントにおいて、適応セット内の表現から表現に切り換える。任意の位置における切り換えは、例えば、表現内における符号化依存のために複雑である。オーバラップするデータのダウンロード、例えば、複数の表現からの同じ期間のメディアのダウンロードが、実行される。切り換えは、新しいストリーム内のランダムアクセスポイントにおいて実行される。

ＤＡＳＨは、コーデック独立の概念であるストリームアクセスポイント（ＳＡＰ）を定義し、および／または１もしくは複数の種類のＳＡＰを識別する。ストリームアクセスポイント種類は、例えば、適応セット内のすべてのセグメントが同じＳＡＰ種類を有すると仮定して、適応セットの特性の１つとして伝達される。ＳＡＰは、１または複数のメディアストリームのファイルコンテナ内へのランダムアクセスを可能にする。ＳＡＰは、例えば、コンテナ内でその位置以降に含まれる情報を使用して、識別されたメディアストリームの再生が開始されることを可能にする、コンテナ内の位置である。コンテナの他の部分からのおよび／または外部的に入手可能な、初期化データが使用される。ＳＡＰは、例えば、ＤＡＳＨ内におけるストリーム間の接続部である。例えば、ＳＡＰは、クライアントが、例えば別の表現から表現に切り換える、表現内の位置によって特徴付けられる。ＳＡＰは、ＳＡＰでつながるストリームの連鎖が、正しく復号可能なデータストリーム（例えば、ＭＰＥＧストリーム）をもたらすことを保証する。

Ｔ_SAPは、メディアストリームのいずれかのアクセスユニットの最も早いプレゼンテーション時間であり、例えば、Ｔ_SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、Ｉ_SAPで開始するビットストリーム内のデータを使用し、およびＩ_SAPよりも前のデータを使用せずに、正しく復号される。Ｉ_SAPは、ビットストリームにおける最大の位置であり、例えば、Ｔ_SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、Ｉ_SAPで開始するビットストリームデータを使用し、およびＩ_SAPよりも前のデータを使用せずに、正しく復号される。Ｉ_SAUは、メディアストリーム内おいて復号順で最新のアクセスユニットのビットストリームにおける開始位置であり、例えば、Ｔ_SAP以上のプレゼンテーション時間を有するメディアストリームのアクセスユニットは、復号順で最新のアクセスユニットおよび以降のアクセスユニットを使用し、および復号順でより早いアクセスユニットを使用せずに、正しく復号される。

Ｔ_DECは、Ｉ_SAUで開始するビットストリーム内のデータを使用し、Ｉ_SAUよりも前のいずれのデータも使用せずに、正しく復号される、メディアストリームのアクセスユニットの最も早いプレゼンテーション時間である。Ｔ_EPTは、ビットストリームにおいてＩ_SAUで開始するメディアストリームのアクセスユニットの最も早いプレゼンテーション時間である。Ｔ_PTFは、ビットストリームにおいてＩ_SAUで開始するメディアストリームの復号順で最初のアクセスユニットのプレゼンテーション時間である。

図９は、ストリームアクセスポイント（ＳＡＰ）の例示的なパラメータを示す図である。図９の例は、３つの異なる種類のフレーム、すなわち、Ｉフレーム、Ｐフレーム、およびＢフレームを有する、符号化ビデオストリームの一例を示している。Ｐフレームは、先行するＩまたはＰフレームを利用して復号される。Ｂフレームは、先行および後続するＩまたはＰフレームを利用する。Ｉフレーム、Ｐフレーム、および／またはＢフレームの送信順、復号順、および／またはプレゼンテーション順には違いがある。

複数（例えば、６）のＳＡＰ種類が定義される。異なるＳＡＰ種類の使用は、プロファイルに基づいて制限される。例えば、種類１、２、３のＳＡＰは、いくつかのプロファイルに対して許可される。ＳＡＰの種類は、どのアクセスユニットが正しく復号可能であるか、および／またはアクセスユニットのプレゼンテーション順での配置に依存する。

図１０は、種類１のＳＡＰ１０００の一例を示す図である。種類１のＳＡＰは、Ｔ_EPT＝Ｔ_DEC＝Ｔ_SAP＝Ｔ_PFTによって説明される。種類１のＳＡＰは、「クローズドＧｏＰランダムアクセスポイント」に対応し、および／またはそのように呼ばれる。Ｉ_SAPから開始する（例えば、復号順の）アクセスユニットは、種類１のＳＡＰ内で正しく復号される。その結果は、いかなるギャップも存在しない正しく復号されたアクセスユニットの連続時間シーケンスである。復号順で最初のアクセスユニットは、プレゼンテーション順で最初のアクセスユニットである。

図１１は、種類２のＳＡＰ１１００の一例を示す図である。種類２のＳＡＰは、Ｔ_EPT＝Ｔ_DEC＝Ｔ_SAP＜Ｔ_PFTによって説明される。種類２のＳＡＰは、「クローズドＧｏＰランダムアクセスポイント」に対応し、および／またはそのように呼ばれ、例えば、Ｉ_SAUから開始するメディアストリームにおける復号順で最初のアクセスユニットは、プレゼンテーション順で最初のアクセスユニットではない。最初のフレーム（例えば、最初の２つのフレーム）は、（例えば、前方限定Ｂフレームとして構文的に符号化される）後方予測されるＰフレームであり、後続フレーム（例えば、第３のフレーム）を利用して復号される。

図１２は、種類３のＳＡＰ１２００の一例を示す図である。種類３のＳＡＰは、Ｔ_EPT＜Ｔ_DEC＝Ｔ_SAP＜＝Ｔ_PTFによって説明される。種類３のＳＡＰは、「オープンＧｏＰランダムアクセスポイント」に対応し、および／またはそのように呼ばれ、例えば、正しく復号されない、および／またはＴ_SAPよりも小さいプレゼンテーション時間を有する、復号順でＩ_SAU以降のアクセスユニットが存在する。

図１３は、３フレームの持続時間および６フレームの間隔を有する、漸進的復号リフレッシュ（ＧＤＲ）１３００の一例を示す図である。種類４のＳＡＰは、Ｔ_EPT＜＝Ｔ_PFT＜Ｔ_DEC＝Ｔ_SAPによって説明される。種類４のＳＡＰは、「漸進的復号リフレッシュ（ＧＤＲ）ランダムアクセスポイント」（例えば、「ダーティ」ランダムアクセス）に対応し、および／またはそのように呼ばれ、例えば、正しく復号されない、および／またはＴ_SAPよりも小さいプレゼンテーション時間を有する、復号順でＩ_SAUから開始する、Ｉ_SAU以降のアクセスユニットが存在する。

ＧＤＲの一例は、イントラリフレッシュプロセスであり、それは、Ｎ個のフレームまで拡張され、フレームの一部は、イントラマクロブロック（ＭＢ）を用いて符号化される。オーバラップしない部分は、Ｎ個のフレームにわたってイントラ符号化される。このプロセスは、フレーム全体がリフレッシュされるまで繰り返される。

種類５のＳＡＰは、Τ_ΕPT＝Ｔ_DEC＜Ｔ_SAPによって説明される。種類５のＳＡＰは、正しく復号され得ず、および／もしくはＴ_DECよりも大きいプレゼンテーション時間を有する、復号順でＩ_SAPから開始する少なくとも１つのアクセスユニットが存在する場合、ならびに／または、Ｔ_DECがＩ_SAUから開始するアクセスユニットの最も早いプレゼンテーション時間である場合に対応する。

種類６のＳＡＰは、Ｔ_EPT＜Ｔ_DEC＜Ｔ_SAPによって説明される。種類６のＳＡＰは、正しく復号されず、および／またはＴ_DECよりも大きいプレゼンテーション時間を有する、復号順でＩ_SAPから開始する少なくとも１つのアクセスユニットが存在する場合、ならびに、Ｔ_DECがＩ_SAUから開始するアクセスユニットの最も早いプレゼンテーション時間でない場合に対応する。種類４、５、および／または６のＳＡＰは、オーディオ符号化における遷移を処理する場合に利用される。

ビデオおよび／またはオーディオの符号化および復号における滑らかなストリーム切り換えが提供される。滑らかなストリーム切り換えは、異なるレートで符号化されたメディアコンテンツのストリーム（例えば、ストリームの部分）間で利用される、１または複数の遷移フレームの生成および／または表示を含む。遷移フレームは、クロスフェードおよびオーバラップ、クロスフェードおよびトランスコード、フィルタリングを使用する後処理技法、再量子化を使用する後処理技法などを介して生成される。

滑らかなストリーム切り換えは、メディアコンテンツの第１のデータストリームおよびメディアコンテンツの第２のデータストリームを受信することを含む。メディアコンテンツは、ビデオおよび／またはオーディオを含む。メディアコンテンツは、ＭＰＥＧコンテナ形式を取る。第１のデータストリームおよび／または第２のデータストリームは、ＭＰＤファイル内で識別される。第１のデータストリームは、符号化されたデータストリームである。第２のデータストリームは、符号化されたデータストリームである。第１のデータストリームおよび第２のデータストリームは、同じデータストリームの一部である。例えば、第１のデータストリームは、第２のデータストリームに時間的に先行する（例えば、直前に先行する）。例えば、第１のデータストリームおよび／または第２のデータストリームは、メディアコンテンツのＳＡＰにおいて開始および／または終了する。

第１のデータストリームは、第１の信号対雑音比（ＳＮＲ）によって特徴付けられる。第２のデータストリームは、第２のＳＮＲによって特徴付けられる。例えば、第１のＳＮＲおよび第２のＳＮＲは、それぞれ、第１のデータストリームおよび第２のデータストリームの符号化に関連する。第１のＳＮＲは第２のＳＮＲよりも大きく、または第１のＳＮＲは第２のＳＮＲよりも小さい。

遷移フレームは、第１のデータストリームのフレームおよび第２のデータストリームのフレームの少なくとも一方を使用して生成される。遷移フレームは、第１のＳＮＲと第２のＳＮＲの間にある、１または複数のＳＮＲ値によって特徴付けられる。遷移フレームは、遷移時間間隔によって特徴付けられる。遷移フレームは、メディアコンテンツの１つのセグメントの一部である。第１のデータストリームの１または複数のフレームが表示され、遷移フレームが表示され、第２のデータストリームの１または複数のフレームが表示され、例えば、表示順は上記のとおりである。第１のデータストリームから遷移フレームへの切り換え、および／または、遷移フレームから第２のデータストリームへの切り換えは、メディアコンテンツのＳＡＰにおいて行われる。

第１のデータストリームと第２のデータストリームは、メディアコンテンツのオーバラップするフレームを含む。遷移フレームを生成するための、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第１のデータストリームと第２のデータストリームのオーバラップするフレームをクロスフェードすることを含む。オーバラップするフレームは、第１のデータストリームと第２のデータストリームとの対応するフレームによって特徴付けられる。オーバラップするフレームは、オーバラップ時間間隔によって特徴付けられる。第１のデータストリームの１または複数のフレームはオーバラップ時間間隔の前に表示され、遷移フレームはオーバラップ時間間隔の間じゅうに表示され、第２のデータストリームの１または複数のフレームはオーバラップ時間間隔の後に表示される。第１のデータストリームの１または複数のフレームはオーバラップ時間間隔に先行する時間によって特徴付けられ、第２のデータストリームの１または複数のフレームはオーバラップ時間間隔に後続する時間によって特徴付けられる。

第１のデータストリームのフレームのサブセットは、第２のＳＮＲによって特徴付けられる対応するフレームを生成するために、トランスコードされる。遷移フレームを生成するための、第１のＳＮＲによって特徴付けられるフレームと、第２のＳＮＲによって特徴付けられるフレームとのクロスフェードは、遷移フレームを生成するために、第１のデータストリームのフレームのサブセットと、第２のＳＮＲによって特徴付けられる対応するフレームとをクロスフェードすることを含む。

符号化メディアコンテンツのビットレートに変化をもたらすため、メディアコンテンツ（例えば、ビデオシーケンス）の１または複数のパラメータが、符号化中に制御される。例えば、パラメータは、限定することなく、信号対雑音比（ＳＮＲ）、フレーム解像度、フレームレートなどを含む。様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツのＳＮＲが、符号化中に制御される。例えば、符号化中に変換係数に対して使用される量子化パラメータ（ＱＰ）を介して、ＳＮＲが制御される。例えば、ＱＰの変更は、符号化ビデオシーケンスのＳＮＲ（例えば、およびビットレート）に影響する。例えば、ＱＰの変化は、異なる視覚品質および／またはＳＮＲを有するビデオシーケンスをもたらす。ＳＮＲとビットレートには関係がある。例えば、符号化中のＱＰの変更は、ビットレートを制御するための方法である。例えば、ＱＰが低い場合、符号化ビデオシーケンスは、より高いＳＮＲ、より高いビットレート、および／またはより高い視覚品質を有する。

メディアコンテンツ（例えば、符号化ビデオストリーム）のＳＮＲは、メディアコンテンツの符号化に関連する。例えば、メディアコンテンツのＳＮＲは、メディアコンテンツの符号化中に使用されるＱＰによって制御される。例えば、メディアコンテンツは、例えば、図２、図４、および図６を参照して説明されたように、異なるレートで符号化されて、異なるＳＮＲ値によって特徴付けられるメディアコンテンツの対応するバージョンを生成する。例えば、高いレートで符号化されたメディアコンテンツは、高いＳＮＲ値によって特徴付けられ、一方、低いレートで符号化されたメディアコンテンツは、低いＳＮＲ値によって特徴付けられる。例えば、メディアコンテンツのＳＮＲは、メディアコンテンツの符号化を参照し、メディアコンテンツがクライアントによって受信される送信チャネルに関係しない。

様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツの１または複数のフレームのフレーム解像度（例えば、ピクセルを単位とするビデオフレームの水平および垂直寸法）が、符号化中に（例えば、２４０ｐ、３６０ｐ、７２０ｐ、１０８０ｐなどの間で）制御される。例えば、符号化中のフレーム解像度の変更は、メディアコンテンツの符号化バージョン（例えば、符号化ビデオシーケンス）のビットレートを変更する。フレーム解像度とビットレートには関係がある。例えば、フレーム解像度が低い場合、同様の視覚品質でビデオシーケンスを符号化するために、より低いビットレートが使用される。

様々なビットレートを有するメディアコンテンツの符号化バージョンを生成するため、メディアコンテンツのフレームレート（例えば、秒当たりのフレームの数（ｆｐｓ））が、符号化中に（例えば、１５ｆｐｓ、２０ｆｐｓ、３０ｆｐｓ、６０ｆｐｓなどの間で）制御される。例えば、符号化中のフレームレートの変更は、メディアコンテンツの符号化バージョン（例えば、符号化ビデオシーケンス）のビットレートを変更する。フレームレートとビットレートには関係がある。例えば、フレームレートが低い場合、同様の主観的な視覚品質でビデオシーケンスを符号化するために、より低いビットレートが使用される。

帯域幅適応ストリーミングのためのメディアコンテンツの目標ビットレートを達成するために、メディアコンテンツ（例えば、ビデオシーケンス）のパラメータの１または複数が、符号化中に制御（例えば、変更）される。異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの（例えば、ＱＰを介する）ＳＮＲが、符号化中に制御される。例えば、１または複数の異なるビットレートに対して、ビデオシーケンスは、同じフレームレート（例えば、３０フレーム毎秒）および同じ解像度（例えば、７２０ｐ）で符号化されるが、符号化ビデオシーケンスのＳＮＲは変更される。例えば、ビデオシーケンスのＱＰの変更は、所望の目標ビットレートにおいて良好な視覚品質のビデオシーケンスを生成するので、符号化ビデオシーケンスのＳＮＲの変更は、目標ビットレートの範囲が相対的に小さい（例えば、１Ｍｂｐｓと２Ｍｂｐｓの間の）場合に有益である。

異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレーム解像度が制御される。メディアコンテンツ（例えば、ビデオシーケンス）は、同じフレームレート（例えば、３０フレーム毎秒）および同じＳＮＲで符号化されるが、メディアコンテンツのフレームのフレーム解像度は変更される。例えば、ビデオシーケンスは、１または複数の異なる解像度（例えば、２４０ｐ、３６０ｐ、７２０ｐ、１０８０ｐなど）で符号化される一方で、同じフレームレート（例えば、３０ｆｐｓ）および同じＳＮＲを維持する。メディアコンテンツのフレーム解像度の変更は、目標ビットレートの範囲が大きい（例えば、５００ｋｂｐｓと１０Ｍｂｐｓの間の）場合に有益である。

異なるビットレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレームレートが、符号化中に制御される。メディアコンテンツ（例えば、ビデオシーケンス）は、同じフレーム解像度（例えば、７２０ｐ）および同じＳＮＲで符号化されるが、メディアコンテンツのフレームレート（例えば、１５ｆｐｓ、２０ｆｐｓ、３０ｆｐｓ、６０ｆｐｓなど）は変更される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いフレームレートを用いて符号化される。例えば、より高いビットレートのビデオシーケンスは、フル３０ｆｐｓで符号化されるが、より低いビットレートのビデオシーケンスは、同じ解像度（例えば、７２０ｐ）および同じＳＮＲを維持しながら、５ないし２０ｆｐｓで符号化される。

異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの（例えば、ＱＰを介する）ＳＮＲおよびフレーム解像度が、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いＳＮＲおよびフレーム解像度を用いて符号化されるが、同じフレームレートが、符号化ビデオシーケンスのために使用される。例えば、より高いレートのビデオシーケンスは、７２０ｐ、３０ｆｐｓ、および何らかのＳＮＲポイントで符号化され、一方、より低いレートのシーケンスは、３６０ｐ、３０ｆｐｓ、および同じＳＮＲで符号化される。

異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの（例えば、ＱＰを介する）ＳＮＲおよびフレームレートが、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスはより低いＳＮＲおよびフレームレートを用いて符号化されるが、同じフレーム解像度が符号化ビデオシーケンスのために維持される。例えば、より高いレートのビデオシーケンスは、７２０ｐ、３０ｆｐｓ、および何らかのＳＮＲポイントで符号化され、一方、より低いレートのビデオシーケンスは、７２０ｐ、１０ｆｐｓ、および同じＳＮＲで符号化される。

異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツのフレーム解像度およびフレームレートが符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いフレーム解像度およびフレームレートを用いて符号化されるが、符号化ビデオシーケンスのために同じ視覚品質（例えば、ＳＮＲ）を維持する。例えば、より高いビットレートのビデオシーケンスは、７２０ｐ、２０ないし３０ｆｐｓのフレームレートで、同じＳＮＲを用いて符号化され、より低いビットレートのシーケンスは、３６０ｐ、１０ないし２０ｆｐｓのフレームレートで同じＳＮＲを用いて符号化される。

異なるレートで符号化されたメディアコンテンツを生成するため、メディアコンテンツの（例えば、ＱＰを介する）ＳＮＲ、フレーム解像度、およびフレームレートが、符号化中に制御される。例えば、より低いビットレートの符号化ビデオシーケンスを生成するため、ビデオシーケンスは、より低いＳＮＲ、フレーム解像度、およびフレームレートを用いて符号化される。例えば、より高いビットレートのビデオシーケンスは、７２０ｐ、３０ｆｐｓ、およびより高いＳＮＲポイントで符号化され、一方、より低いビットレートのビデオシーケンスは、３６０ｐ、１０ｆｐｓ、およびより低いＳＮＲポイントで符号化される。

本明細書で説明される実施は、異なるビットレート、ＳＮＲ、フレーム解像度、および／またはフレームレートによって特徴付けられる、メディアコンテンツ（例えば、ビデオ、オーディオなど）のメディアストリーム（例えば、ビデオストリーム、オーディオストリームなど）間の遷移を滑らかにするために使用される。２つの異なるビットレート（例えば、高（Ｈ）と低（Ｌ））、ＳＮＲ、フレーム解像度、および／またはフレームレートで符号化されたメディアストリーム間の遷移として本明細書では説明されるが、本明細書で説明される実施は、任意の数の異なるビットレート、ＳＮＲ、フレーム解像度、および／またはフレームレートで符号化されたメディアストリーム間の遷移に適用される。

図１４は、滑らかな遷移を含まないストリーミングセッション中のレート間の遷移の一例を示すグラフ１４００である。メディアコンテンツ（例えば、ビデオ）は、例えば、図１４に示されるように、複数（例えば、２）の異なるビデオレートで、例えば、高いレート（例えば、レートＨ）と低いレート（例えば、レートＬ）で符号化される。例えば、図１４に示されるように、高いレート（Ｈ）から低いレート（Ｌ）への遷移１４０１、および／または低いレートから高いレートへの遷移１４０２が発生する。滑らかな遷移を含まないストリーミングセッションにおける遷移（例えば、図１４に示されるような、１４０１および１４０２）は、例えば、メディアコンテンツが、メディアコンテンツの介在部分（例えば、セグメント、フレームなど）を有さずに、１つのレートから別のレート（例えば、高から低、または低から高）に遷移するので、突然の遷移と呼ばれる。メディアコンテンツのレートは、例えば、ビットレート、ＳＮＲ、解像度、および／またはフレームレートなど、メディアコンテンツの１または複数のパラメータ／特徴を参照する。

図１５は、滑らかな遷移を含むストリーミングセッション中のレート間の遷移の一例を示すグラフ１５００である。滑らかなストリーム切り換えは、メディアコンテンツの視覚品質のグレースフルなステップアップ／ダウンを達成するために利用される、レート間（例えば、レートＨとレートＬの間）の滑らかな遷移１５０１、１５０２を利用する。例えば、滑らかな遷移１５０１はレートＨからレートＬへの切り換えのために利用され、一方、滑らかな遷移１５０２はレートＬからレートＨへの切り換えのために利用される。滑らかな遷移１５０１、１５０２は、エクスペリエンスの質（ＱｏＥ）の改善を提供する。例えば、滑らかな遷移は、異なるレート（例えば、レートＨとレートＬ）で符号化された時間的に対応するフレームのパラメータの間にある、１または複数のパラメータによって特徴付けられる、遷移フレームを使用することによって達成される。

図１６Ａは、滑らかなストリーム切り換えを用いない遷移の一例を示す図である。図１６Ｂは、滑らかなストリーム切り換えを用いる遷移の一例を示す図である。滑らかな遷移は、異なるレートで符号化されたメディアコンテンツの間に、メディアコンテンツの１または複数の介在部分（例えば、セグメント、遷移フレームなど）を含む。例えば、滑らかなストリーム切り換えの結果として、（例えば、図１６Ｂに示されるように）レートＨまたはレートＬのフレームのいくつかは、視覚品質が下がった（例えば、ＨからＬへの遷移）、または上がった（例えば、ＬからＨへの遷移）フレームによって置換される。滑らかな遷移中に利用されるフレームは、遷移フレームと呼ばれる。

例えば、図１６Ａに示されるように、滑らかなストリーム切り換えが利用されない場合、レートＨとレートＬの間の遷移は、突然であり、例えば、いかなる遷移フレームもなしに、１つのレートのフレームから他のレートのフレームに移動する。例えば、図１６Ｂに示されるように、滑らかなストリーム切り換えが利用される場合、１または複数の遷移フレーム１６０１、１６０２が、レートの間で利用される。図１６Ｂに示される例では、各遷移において４つの遷移フレームが利用されるが、任意の数の遷移フレームが、遷移において利用される。図１６Ｂに示される例では、２つの異なる値の遷移フレーム１６０１、１６０２が、各遷移において利用されるが、任意の数の遷移フレーム値が、遷移において利用される。１つの遷移（例えば、ＨからＬへの遷移）における遷移フレームの値は、別の遷移（例えば、ＬからＨへの遷移）における遷移フレームと同じであり、または異なる。任意の数の遷移フレーム値が、遷移において利用される。遷移フレームの値は、遷移フレームを特徴付けるパラメータ（例えば、ＳＮＲ、フレーム解像度、フレームレートなど）の１または複数に関連する。例えば、遷移フレーム１６０１は、レートＨのフレームの特徴により近い特徴によって定義され、遷移フレーム１６０２は、レートＬのフレームの特徴により近い特徴によって定義される。遷移フレーム１６０１、１６０２の使用は、改善されたＱｏＥをユーザに提供する。

滑らかなストリーム切り換えは、ユーザにあまり気付かれることがなく、および、ユーザエクスペリエンスを改善する、ストリーム切り換えを提供する。滑らかなストリーム切り換えは、例えば、アーチファクトの差を実質的に除去することによって、メディアコンテンツの異なるセグメントが異なるコーデックを利用することを可能にする。滑らかなストリーム切り換えは、メディアコンテンツのためにコンテンツプロバイダによって生成される符号化／レートの数を減らす。

ストリーミングクライアントは、ＤＡＳＨ準拠の符号化器によって準備されたメディアコンテンツ（例えば、ビデオ、オーディオなど）の１または複数のストリームを受信する。例えば、メディアコンテンツの１または複数のストリームは、例えば、種類１ないし６など、任意の種類のストリームアクセスポイントを含む。

クライアントは、符号化メディアセグメントを連結して、それを再生エンジンに供給するための処理を含む。クライアントは、メディアセグメントを復号するための、ならびに／またはクロスフェード操作および／もしくは後処理操作を適用するための処理を含む。クライアントは、例えば、本明細書で説明される処理を介して、メディアセグメントのオーバラップする部分をロードし、および／または滑らかなストリーム切り換えのためにオーバラップするセグメントを利用する。

異なるＳＮＲ（例えば、ＳＮＲポイント）を有するストリーム間での滑らかなストリーム切り換えは、本明細書で説明される実施の１または複数を使用して、例えば、オーバラップおよびクロスフェードを使用して、トランスコードおよびクロスフェードを使用して、スケーラブルなコーデックとともにクロスフェードを使用して、漸進的なトランスコードを使用して、ならびに／または後処理を使用して実行される。これらの実施は、例えば、ＨからＬへの遷移、および／またはＬからＨへの遷移のために使用される。

２つの異なるレート（例えば、ＨとＬ）で符号化されたストリームを参照して説明されたが、本明細書で説明される滑らかなストリーム切り換えの実施は、任意の数の異なるレートで符号化されたメディアコンテンツのストリームに対して利用される。メディアコンテンツの符号化ストリーム（例えば、ＨとＬ）のフレームレートおよび／または解像度は同じであるが、メディアコンテンツの符号化ストリームのＳＮＲは異なる。

図１７は、オーバラップおよびクロスフェードを使用する滑らかなストリーム切り換え遷移の例を示すグラフである。クライアントは、メディアコンテンツのオーバラップするセグメントまたはサブセグメントを要求および／または受信し、例えば、オーバラップするセグメントまたはサブセグメントを使用して、メディアコンテンツの符号化ストリームの間でクロスフェードを実行する。オーバラップ要求は、１または複数の異なるレートで符号化された、メディアコンテンツの１または複数のセグメントの要求である。オーバラップするセグメントは、２以上の異なるレート（例えば、および異なるＳＮＲ）で符号化された、メディアコンテンツの時間的に対応するセグメントによって特徴付けられる。２以上の異なるレートで符号化されたセグメントは、例えば、少なくとも遷移時間の持続時間の間に、受信される。例えば、図１７に示されるように、レートＨおよびレートＬで符号化されたオーバラップするセグメントは、ｔ_aからｔ_bの時間間隔の間に受信される。オーバラップ要求に関連付けられた時間間隔は、オーバラップ時間間隔と呼ばれる（例えば、図１７のｔ_aからｔ_b）。グラフ１７０１はレートＨからレートＬへの遷移を示しており、一方、グラフ１７０２はレートＬからレートＨへの遷移を示している。

クライアントは、メディアコンテンツのオーバラップするセグメントまたはサブセグメントを要求および／または受信し、例えば、オーバラップするセグメントまたはサブセグメントを使用して、メディアコンテンツの符号化ストリームの間でクロスフェードを実行する。特定のセグメントのサブセグメントが、滑らかなストリーム切り換えのために利用される。例えば、セグメントが、例えば、３０秒よりも大きいなど、より長い持続時間を有する場合、クライアントは、滑らかなストリーム切り換えを実行するために、例えば、２ないし５秒に相当するサブセグメントなど、そのセグメントのオーバラップするサブセグメントを要求および／または受信する。セグメントとは、完全なセグメントのことであり、および／またはセグメントの１もしくは複数のサブセグメントのことである。

オーバラップするセグメントを受信した後、１または複数の遷移フレームを生成するために、オーバラップするセグメントのフレームの間でクロスフェードが実行される。例えば、クロスフェードは、図１７に示されるように、レートＨで符号化されたフレームと、レートＬで符号化された時間的に対応する（例えば、オーバラップする）フレームとの間で実行される。例えば、クロスフェードは、ｔ_aからｔ_bまでのオーバラップ時間間隔のうちの一部または全体にわたって実行される。遷移フレームは、オーバラップするセグメントのクロスフェードを介して、オーバラップ時間間隔（例えば、図１７のｔ_aからｔ_bまでの時間）において生成される。遷移フレームは、遷移時間間隔によって特徴付けられる。遷移時間間隔は、クライアントが１つのレートで符号化されたメディアコンテンツから別のレートで符号化されたメディアコンテンツに遷移する期間に関連する。遷移フレームの数は、オーバラップするフレームの数に等しく、または等しくない。したがって、遷移時間間隔は、オーバラップ時間間隔に等しく、または等しくない。

クロスフェードは、１つのレートで符号化されたオーバラップするフレームと、別のレートで符号化されたオーバラップするフレームとの加重平均を計算することを含み、結果の遷移フレームは、遷移時間間隔にわたって１つのレートから別のレートに緩やかに遷移するパラメータを有する。例えば、各レートで符号化されたオーバラップするフレームに適用される重みは、時間につれて（例えば、遷移時間間隔にわたって）変化し、生成された遷移フレームは、様々なレートで符号化されたメディアコンテンツの間のより緩やかな遷移のために利用される。例えば、クロスフェードは、例えば、第１のレートによって特徴付けられるフレームに第１の重みを適用し、および第２のレートによって特徴付けられるフレームに第２の重みを適用することによって、１つのレート（例えば、第１のＳＮＲ）によって特徴付けられる１または複数のフレームと、別のレート（例えば、第２のＳＮＲ）によって特徴付けられる１または複数のフレームとの加重平均を計算することを含む。第１の重みおよび第２の重みの少なくとも一方は、時間につれて（例えば、遷移時間間隔にわたって）変化する。例えば、クロスフェードは、滑らかなフェードインまたはアルファブレンディングに関連する。

クロスフェードを介して遷移フレームを生成した後、例えば、時間的に対応するフレームがレートの１または複数（例えば、レートＨおよび／またはレートＬ）で表示される代わりに、遷移フレームがクライアントによって表示される。例えば、クライアントは、遷移および／またはオーバラップ時間間隔の前に、１つのレート（例えば、レートＨ）で符号化されたメディアコンテンツの１または複数のフレームを表示し、遷移および／またはオーバラップ時間間隔の間じゅうに１または複数の遷移フレームを表示し、遷移および／またはオーバラップ時間間隔の後に、別のレート（例えば、レートＬ）で符号化されたメディアコンテンツの１または複数のフレームを表示し、例えば、表示順は上記のとおりである。これは異なるレートで符号化されたメディアコンテンツの間で滑らかな遷移を提供する。

図１８は、ストリームをオーバラップおよびクロスフェードするためのシステム１８００の一例を示す図である。図１８に示されるシステム１８００は、ＨからＬへの遷移のために利用される。図１８に示されるシステム１８００は、以下の式に従って、メディアコンテンツのオーバラップするセグメントのクロスフェードを実行する。
ｚ＝α（ｔ）Ｌ＋［１−α（ｔ）］Ｈ、ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図１９は、ストリームをオーバラップおよびクロスフェードするためのシステム１９００の一例を示す図である。図１９に示されるシステム１９００は、ＬからＨへの遷移のために利用される。図１９に示されるシステム１９００は、以下の式に従って、メディアコンテンツのオーバラップするセグメントのクロスフェードを実行する。
ｚ＝α（ｔ）Ｈ＋［１−α（ｔ）］Ｌ、ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図１８および図１９のシステムを参照して説明される式は、異なるレートで符号化されたメディアコンテンツのフレーム（例えば、ＨフレームとＬフレーム）の間での線形的な遷移を使用して、クロスフェードを実行するために利用される。線形的な遷移は、遷移時間を通じて、例えば、０と１の間で、（例えば、線形的または非線形的に）変化するα（ｔ）によって特徴付けられる。

レート（例えば、レートＬ）のオーバラップするストリームは、例えば、ＤＡＳＨにおいてオーバラップおよびクロスフェード遷移を利用する場合、サブセグメントに分割される。例えば、レートＬのオーバラップするストリームが、サブセグメントに分割される場合、（例えば、ＨからＬへの遷移の場合の）時間ｔ_a、または（例えば、ＬからＨへの遷移の場合の）時間ｔ_bは、例えば、図１７に示されるように、それら時間が、それぞれ、サブセグメントの開始または終了に一致するように選択される。レートＬのオーバラップするストリームがサブセグメントに分割されない場合、オーバラップ要求において、完全なセグメントが獲得され、その後、復号される。（例えば、ＨからＬへの遷移の場合の）時間ｔ_a、または（例えば、ＬからＨへの遷移の場合の）時間ｔ_bは、滑らかな遷移を実行するのに十分なフレームが利用可能であるように選択される。

図２０は、トランスコードおよびクロスフェードを使用する滑らかなストリーム切り換えの例を示すグラフである。例えば、（例えば、図２０に示されるように、ｔ_aとｔ_bの間の時間に）高いＳＮＲと低いＳＮＲの両方で時間的に対応するメディアコンテンツを生成するために、高い（Ｈ）ＳＮＲのメディアコンテンツは、低い（Ｌ）ＳＮＲのレートまたはレベルにトランスコードされる。例えば、レートＨによって特徴付けられる１または複数のセグメントを使用して、レートＬによって特徴付けられるメディアコンテンツの１または複数の時間的に対応するセグメントを生成するために、トランスコードが実行される。

トランスコードの後、レートＨ（例えば、高いＳＮＲ）およびレートＬ（例えば、低いＳＮＲ）の時間的に対応するメディアコンテンツが、本明細書で説明されるオーバラップするセグメントと同様に利用される。例えば、１または複数の遷移セグメントを生成するために、レートＨ（例えば、高いＳＮＲ）およびレートＬ（例えば、低いＳＮＲ）の時間的に対応するメディアコンテンツが、クロスフェードされる。遷移フレームは、例えば、遷移時間（例えば、図２０のｔ_aとｔ_bの間の時間）の間、レートＨ（例えば、ＳＮＲＨ）の時間的に対応するフレームの代わりに表示される。グラフ２００１は、レートＨからレートＬへの遷移を示しており、一方、グラフ２００２は、レートＬからレートＨへの遷移を示している。ＨからＬＳＮＲレベルへの滑らかな遷移、および／またはＬからＨＳＮＲレベルへの滑らかな遷移は、例えば、図２０に示されるように、トランスコードおよびクロスフェードを使用することによって達成される。

図２１は、トランスコードおよびクロスフェードを行うためのシステム２１００の一例を示す図である。図２１に示されるシステム２１００は、ＨからＬへの遷移のために利用される。図２１に示されるシステム２１００は、以下の式に従って、高いＳＮＲのメディアと低いＳＮＲのトランスコードされたメディアとのクロスフェードを実行する。
ｚ＝α（ｔ）Ｌ＋［１−α（ｔ）］Ｈ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図２２は、トランスコードおよびクロスフェードを行うためのシステム２２００の一例を示す図である。図２２に示されるシステム２２００は、ＬからＨへの遷移のために利用される。図２２に示されるシステム２２００は、以下の式に従って、高いＳＮＲのメディアと低いＳＮＲのトランスコードされたメディアとのクロスフェードを実行する。
ｚ＝α（ｔ）Ｈ＋［１−α（ｔ）］Ｌ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図２３は、レートＨとレートＬの間の線形的な遷移を使用するクロスフェードの例を示すグラフである。グラフ２３０１は、レートＨからレートＬへの線形的な遷移を示しており、一方、グラフ２３０２は、レートＬからレートＨへの線形的な遷移を示している。図２３は、以下の式に従った、２点上を通過する直線の一例を示している。
ｙ−ｙ１＝ｍ（ｘ−ｘ１）、
ここで、ｍ＝（ｙ２−ｙ１）／（ｘ２−ｘ１）

例えば、非線形的な遷移など、線形的な遷移とは別の、他の種類のクロスフェードが使用される。例えば、α（ｔ）は、非線形的に変化する。図２４は、非線形的なクロスフェード関数の例を示すグラフ２４００である。例えば、図２４は、ＨからＬへの線型的なクロスフェード関数と比較して、より遅いＨからＬへの非線形的なクロスフェード関数２４０１、およびより速いＨからＬへの非線形的なクロスフェード関数２４０２の一例を示している。

例えば、非線形的な遷移の場合、α（ｔ）は、非線形関数、対数関数、および／または指数関数である。例えば、非線形関数は次数が２以上の多項式である（例えば、α（ｔ）は、次数２の多項式であり、その場合、α（ｔ）＝ａ×ｔ²＋ｂ×ｔ＋ｃである）。例えば、対数関数は、α（ｔ）＝ｌｏｇ（α（ｔ））と定義され、ここで、ｌｏｇは、「ｂ」を底とする対数であり、α（ｔ）は、ｔの関数である。例えば、指数関数は、α（ｔ）＝ｅｘｐ（α（ｔ））と定義され、ここで、ｅｘｐは、底（例えば、「２」、「ｅ」、「１０」など）であり、α（ｔ）は、ｔの関数である。α（ｔ）は、ｔの線形関数、非線形関数、対数関数、または指数関数である。

図２５は、スケーラブルなビデオビットストリームをクロスフェードするためのシステム２５００の一例を示す図である。図２６は、スケーラブルなビデオビットストリームをクロスフェードするためのシステム２６００の一例を示す図である。スケーラブルなビデオコーデックが使用される場合、例えば、オーバラップするセグメントに関して本明細書で説明されたように、ベースレイヤとエンハンスメントレイヤとの間のクロスフェードを使用して、異なるレイヤ間で滑らかな切り換えが実行される。図２５および図２６は、スケーラブルなビデオコーデックの場合の、それぞれ、ＨからＬへの遷移およびＬからＨへの遷移における滑らかなストリーム切り換えのための例示的なシステム２５００、２６００を示している。スケーラブルなビデオビットストリームに対して、１つのベースレイヤと、１または複数のエンハンスメントレイヤが存在する。エンハンスメントレイヤは、先行するレイヤ（例えば、ベースレイヤまたはより低いエンハンスメントレイヤ）を改善したものである。例えば、エンハンスメントレイヤは、先行するレイヤのＳＮＲ、フレームレート、および／または解像度を改善したものである。例えば、ベースレイヤを復号することによってＬ表現が獲得され、一方、ベースレイヤおよび１または複数のエンハンスメントレイヤを復号することによってＨ表現が獲得される。

図２７は、ＱＰクロスフェードを使用する漸進的なトランスコードのためのシステム２７００の一例を示す図である。滑らかな切り換えは、例えば、図２７に示されるように、ＳＮＲがレートＨにあるメディアコンテンツ（例えば、ビデオストリーム）をトランスコードし、ＱＰＨとＱＰＬとの間でクロスフェードを使用してＱＰを制御することによって実行される。図２７には示されていないが、復号器は符号化器の後に提供され、それによって、この復号器の出力は滑らかなストリーム切り換えのために利用される１または複数の遷移フレームとなる。Ｈ表現およびＬ表現のＱＰが獲得される。例えば、ＱＰは、ビットストリームで伝達され、ＭＰＤで伝達され、および／または復号器によって推定される。クロスフェードは、Ｈ表現およびＬ表現のＱＰの間で実行される。結果のＱＰ値は、シーケンスを再符号化して、１または複数の遷移フレームを生成するために使用される。例えば、１または複数の遷移フレームが、図２１および図２２を参照して説明されたのと同様の方法で生成され、例えば、例として、様々なＳＮＲを有するビットストリームを生成するために、（図２１ないし図２２におけるように）復号されたフレーム上でクロスフェードを実行する代わりに、ＱＰ領域内でクロスフェードが実行される。

図２８は、後処理を使用する滑らかなストリーム切り換えの例を示す図である。後処理を使用する滑らかなストリーム切り換えは、異なるパラメータ（例えば、ＳＮＲ、解像度、ビットレートなど）を有するストリームの間で切り換えを行うために使用される１または複数の遷移フレームを生成するための、例えば、フィルタリングおよび再量子化などの後処理技法の使用に関連する。後処理は、１または複数のより高いパラメータ（例えば、図２８に示されるような、より高いＳＮＲ）によって特徴付けられるメディアコンテンツ上で実行される。例えば、レートＨのストリームは、レートＬのストリームへの、またはレートＬのストリームからの緩やかな遷移を達成するために、後処理を施される。後処理は、他の方法による場合は、オーバラップおよびクロスフェード、ならびに／またはトランスコードおよびクロスフェードを介して生成または獲得される、遷移フレームを生成するために利用される。後処理を介して生成された遷移フレームは、例えば、図２８に示されるように、時間的に対応するレートＨのフレームの代わりに、遷移時間（例えば、ｔ_aとｔ_bの間の時間）中に表示される。グラフ２８０１は、レートＨからレートＬへの遷移を示しており、一方、グラフ２８０２は、レートＬからレートＨへの遷移を示している。後処理は、クライアントにおける計算負荷を低減する。後処理は、オーバラップ要求が利用されないので、ネットワークトラフィックを増加させない。

後処理の入力は、より高いレートで符号化され、および／またはより高いパラメータ（例えば、より高いＳＮＲを用いて符号化されたフレーム）によって特徴付けられる、メディアコンテンツである。後処理の出力は、１つのレートで符号化されたストリームから別のレートで符号化されたストリームにより緩やかに遷移するために、遷移時間中に利用される、遷移フレームである。メディアコンテンツの視覚品質を低下させて、遷移フレームを生成するために、例えば、フィルタリングおよび再量子化など、様々な後処理技法が使用される。

滑らかなストリーム切り換えのための遷移フレームを生成するために、フィルタリングが、後処理技法として利用される。図２９は、異なるカットオフ周波数を有するローパスフィルタの周波数応答の一例を示すグラフ２９００である。例えば、１または複数の遷移フレームを生成するため、強度が変化するローパスフィルタ（例えば、または強度が変化しない１もしくは複数のローパスフィルタ）が、より高いレートで符号化された、および／またはより高いパラメータ（例えば、より高いＳＮＲを用いて符号化されたフレーム）によって特徴付けられる、メディアコンテンツに適用される。ローパスフィルタは、Ｈよりも低いレートの遷移フレームを生成するために使用される、より高い圧縮の効果をシミュレートする。

ローパスフィルタの強度（例えば、カットオフ周波数）は、例えば、図２９に示されるように、レートＨのフレームを低下させる所望の程度に従って変化する。例えば、ｈ（ｍ，ｎ）がレートＨのフレームであり、ｌｐ（ｋ，ｌ）がローパスフィルタの有限インパルス応答（ＦＩＲ）である場合、以下の式に従って、後処理フレームｐ（ｍ，ｎ）（例えば、遷移フレーム）が生成される。
ｐ（ｍ，ｎ）＝ｈ（ｍ，ｎ）＊ｌｐ（ｋ，ｌ）、
ここで、「＊」は、畳み込みを表す。

滑らかなストリーム切り換えのための１または複数の遷移フレームを生成するために、再量子化が、後処理技法として利用される。例えば、Ｈよりも低いレートの遷移フレームを生成するため、レートＨのフレームのピクセル値が、変換され、異なるレベルで量子化される。１または複数の量子化器（例えば、一様な量子化器）は、遷移フレームを生成するために利用される。例えば、１または複数の量子化器は、レートＨのフレームを低下させる所望の程度に従って変化する、ステップサイズによって特徴付けられる。より大きなステップサイズは、より大きい／より高い低下をもたらし、および／またはレートＬのフレームにより良く類似した遷移フレームを生成するために利用される。量子化レベルの数は、輪郭の描画を回避するのに十分なものにする（例えば、一定レベルを有するピクセルからなる連続領域の境界は輪郭と呼ばれる）。ｈ（ｍ，ｎ）がレートＨのフレームであり、Ｑ（・，ｓ）がステップサイズｓの一様な量子化器である場合、後処理フレームｐ（ｍ，ｎ）（例えば、遷移フレーム）は、以下の式に従って、ピクセル量子化を使用して生成される。
ｐ（ｍ，ｎ）＝Ｑ（ｈ（ｍ，ｎ），ｓ）

異なる空間解像度を有するストリームとともに、滑らかな切り換えが利用される。クライアントデバイス（例えば、スマートフォン、タブレットなど）は、ストリーミング再生中に、ビデオをフルスクリーンに拡大する。ビデオのフルスクリーンへの拡大は、ストリーミングセッション中に、異なる空間解像度で符号化されたストリームの間の切り換えを可能にする。例えば、ダウンサンプリング中に高周波数情報が失われるので、低い解像度からのストリームのアップサンプリングは、ビデオが不鮮明になる原因となる、視覚的なアーチファクトを生じさせる。

図３０は、異なるフレーム解像度を有するストリームについての滑らかな切り換えの一例を示す図である。図３０００は、滑らかなストリーム切り換えを利用せず、突然の遷移３００１を含む例である。図３０１０は、滑らかなストリーム切り換えを利用し、滑らかな遷移３０１１を含む例である。異なるフレーム解像度を有するストリームの間で滑らかな切り換えを実行する場合、例えば、図３０に示されるように、低解像度フレームのアップサンプリングが原因で生じる視覚的なアーチファクトが最低限に抑えられる。ストリームＨおよびＬにおけるフレームレートおよび／またはフレーム露出時間は同じである。

図３１は、異なるフレーム解像度を有するストリームのための１または複数の遷移フレームを生成する一例を示す図である。例えば、図３１に示されるように、異なるレートで符号化されたメディアコンテンツ（例えば、フレームレートＨおよび／またはフレームレートＬのビデオストリーム）からの情報を使用して、１または複数の遷移フレーム３１０１が生成される。（例えば、ｔ_aからｔ_bの）遷移時間にわたる、１つのフレーム解像度（例えば、フレーム解像度Ｌ）にある、メディアコンテンツ３１０２のオーバラップするセグメントが、クライアントによって要求および／または受信される。（例えば、ｔａとｔｂの間の）遷移時間にわたって、１または複数のアップサンプリングされたフレーム３１０３を生成するために、より低いレートで符号化されたメディアコンテンツからの、同じ時間位置にある１または複数のフレーム３１０２が、より高い解像度で符号化されたメディアコンテンツと同じ解像度にアップサンプリングされる。例えば、ストリームＬの１または複数のフレーム３１０２は、ストリームＨからのフレームと同じ解像度にアップサンプリングされる。アップサンプリングは、クライアントの組み込み機能を使用して実行される。ストリームＨ３１０４およびＬ３１０２からのフレームと同じ時間位置にあるアップサンプリングされたフレーム３１０３が、例えば、クロスフェードを使用することによって、時間的に対応する遷移フレーム３１０１を生成するために利用される。その後、再生中に、１つの解像度から別の解像度（例えば、ＨからＬ、またはＬからＨ）への滑らかな切り換えを行うときに、遷移フレーム３１０１が利用される。

図３２は、異なるフレーム解像度を有するストリームについてのＨ−Ｌ遷移におけるクロスフェードのためのシステム３２００の一例を示す図である。図３２のシステム３２００は、以下の式に従って、ＨからＬへの遷移においてクロスフェードを実行する。
ｚ＝α（ｔ）Ｌ＋［１−α（ｔ）］Ｈ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図３３は、異なるフレーム解像度を有するストリームについてのＬ−Ｈ遷移におけるクロスフェードのためのシステム３３００の一例を示す図である。図３３のシステム３３００は、以下の式に従って、ＬからＨへの遷移においてクロスフェードを実行する。
ｚ＝α（ｔ）Ｈ＋［１−α（ｔ）］Ｌ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

異なるフレームレートを有するストリームとともに、滑らかなストリーム切り換えが利用される。低いフレームレートを有するメディアコンテンツ（例えば、ビデオストリーム）は、例えば、より高いフレームレートを有するメディアコンテンツと比較して、フレームが時間的に互いに遠く離れているので、フレーム間の貧弱な時間的相関に悩まされる。低いフレームレートを有するメディアコンテンツのストリームを高いフレームレートに変換するために、フレームレートアップサンプリング（ＦＲＵ）技法が利用される。

図３４は、異なるフレームレートを有するストリームについての滑らかな切り換えのためのシステム３４００の一例を示す図である。例えば、図３４に示されるように、低いフレームレートに起因する視覚的なアーチファクトを最低限に抑えるため、異なるフレームレートを有するストリーム間の滑らかな切り換えが利用される。ＨフレームレートストリームとＬフレームレートストリームのフレーム解像度は同じである。

図３５は、異なるフレームレートを有するストリームのための１または複数の遷移フレームを生成する一例を示す図である。例えば、図３５に示されるように、高いフレームレート（例えば、フレームレートＨ）で符号化されたメディアコンテンツのストリームからの情報、および低いフレームレート（例えば、フレームレートＬ）で符号化されたメディアコンテンツのストリームからの情報を使用して、１または複数の遷移フレーム３５０１が生成される。クライアントは、（例えば、ｔ_aとｔ_bの間の）遷移時間にわたる、より低いフレームレート（例えば、フレームレートＬ）にある、メディアコンテンツのオーバラップするセグメントを要求および／または受信する。高いレートで符号化された時間的に対応するフレームに加えて、オーバラップするフレームが要求および／または受信される。（例えば、ｔ_aとｔ_bの間の）遷移時間にわたって、１または複数の遷移フレーム３５０１が生成される。例えば、フレームレートＨで符号化されたフレーム３５０２と、フレームレートＬで符号化された時間的に先行するフレーム３５０３とを使用して、例えば、フレームを組み合わせることによって、遷移フレーム３５０１が生成される。生成された遷移フレーム３５０１は、フレームレートＨで符号化されたフレーム３５０２と同じ時間位置で利用され、フレームレートＬで符号化されたフレーム３５０３と同じ時間位置では利用されない。例えば、図３５に示されるように、生成された遷移フレーム３５０１と同じ時間位置に、フレームレートＬで符号化されたフレームは存在しない。

図３６は、異なるフレームレートを有するストリームについてのＨ−Ｌ遷移におけるクロスフェードのためのシステム３６００の一例を示す図である。図３６のシステム３６００は、以下の式に従って、ＨからＬへの遷移においてクロスフェードを実行する。
ｚ＝α（ｔ）Ｌ＋［１−α（ｔ）］Ｈ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

図３７は、異なるフレームレートを有するストリームについてのＬ−Ｈ遷移におけるクロスフェードのためのシステム３７００の一例を示す図である。図３７のシステム３７００は、以下の式に従って、ＬからＨへの遷移においてクロスフェードを実行する。
ｚ＝α（ｔ）Ｈ＋［１−α（ｔ）］Ｌ、
ここで、α（ｔ）＝（ｔ−ｔ_a）／（ｔ_b−ｔ_a）、ｔ_a＜ｔ＜ｔ_b

ＨからＬへの遷移および／またはＬからＨへの遷移を滑らかにするために、持続時間の非対称性が利用される。低い品質の表現から高い品質の表現への遷移は、高い品質の表現から低い品質の表現への遷移よりも低い低下効果によって特徴付けられる。ＨからＬへの遷移およびＬからＨへの遷移を滑らかにするための時間遅延は異なる。例えば、より長い遷移（例えば、より多くの遷移フレームを含む遷移）は、ＨからＬへの遷移の場合はより長く、ＬからＨへの遷移の場合はより短い。例えば、Ｈ品質からＬ品質への遷移については、数秒（例えば、２秒）の遷移が利用され、および／または、Ｌ品質からＨ品質への遷移については、僅かに短い（例えば、１秒）の遷移が利用される。

例えば、ＤＡＳＨでは、滑らかなストリーム切り換えが、オーディオ遷移のために利用される。ＤＡＳＨ規格は、ＳＡＰと呼ばれる、ストリーム間に１または複数の種類の接続を定義する。ＳＡＰは、これらのポイントでつながるストリームの連鎖が正しく復号可能なＭＰＥＧストリームをもたらすことを保証するために利用される。

図３８は、ＭＤＣＴベースの音声およびオーディオコーデックで使用される重畳加算窓の一例を示すグラフ３８００である。オーディオストリームは、Ｉフレーム（例えば、またはＩフレームの等価物）を含まない。例えば、ＭＰ３、ＭＰＥＧ−４ＡＡＣ、ＨＥ−ＡＡＣなどのオーディオコーデックは、ブロックと呼ばれるユニット（例えば、１０２４および９６０のサンプルブロック）で、オーディオサンプルを符号化する。ブロックは、相互に依存する。この相互依存性は、例えば、図３８に示されるように、変換（例えば、ＭＤＣＴ）を計算する前にこれらのブロック内のサンプルに適用される、オーバラップする窓に起因する。

オーディオコーデックは、最初に１つのブロックを復号し、廃棄する。これは、例えば、オーバラップする窓を利用するＭＤＣＴ変換の完全再構成特性のため、後続するすべてのブロックを正しく復号するのに数学的には十分である。例えば、ランダムアクセスを達成するために、要求されたデータを復号する前に、復号されるブロックに先行するブロックが、取得され、復号され、その後、廃棄される。オーディオコーデック（例えば、ＨＥ−ＡＡＣ、ＡＡＣ−ＥＬＤ、ＭＰＥＧサラウンドなど）の場合、最初に廃棄されるブロックの数は、例えば、ＳＢＲツールを使用するため、おおよそ１（例えば、３ブロック）である。

オーディオセグメントは、分類されず（例えば、ＳｔａｒｔＷｉｔｈＳＡＰアトリビュートを含まず）、もしくは例えば、ストリーム切り換えが存在しない場合、および／または同じコーデックを使用するストリーム間の切り換えが存在する場合、ＳＡＰ種類＝１に分類され、同じサンプリングレートおよび同じカットオフ周波数でキャプチャされたオーディオで動作し、同じ数のチャネルを使用し、ならびに／またはコーデックにおいて同じツールおよびモードを使用する（例えば、ＳＢＲツールの追加／除去はなく、同じステレオ符号化モードを使用するなど）。

例えば、高品質再生のために、１２８ＫｂｐｓのステレオＡＡＣストリームが利用される。より低い品質のために、ストリームは、約６４ないし８０Ｋｂｐｓに低減される。３２ないし４８Ｋｂｐｓのレートにするために、ＳＢＲツール（例えば、ＨＥ−ＡＡＣを使用）、パラメトリックステレオへの切り換えなどが利用される。

図３９は、廃棄可能ブロックを有するオーディオアクセスポイントの一例３９００を示す図である。例えば、図３９に示されるように、（例えば、ＡＡＣおよびＭＰ３オーディオコーデックを用いる場合）最初の１つのブロック３９０１が廃棄される。オーディオアクセスポイントについて、ＴＥＰＴ＝ＴＰＴＦ＜ＴＳＡＰ＝ＴＤＥＣが成り立つ。これは、例えば、ＴＥＰＴ＜＝ＴＰＦＴ＜ＴＤＥＣ＝ＴＳＡＰで示される、ＤＡＳＨのＳＡＰ種類４にマッピングされる。

図４０は、３つの廃棄可能ブロックを有するＨＥ−ＡＣＣオーディオアクセスポイントの一例４０００を示す図である。復号器は、２以上（例えば、３）の先頭ブロック４００１を復号し、廃棄する。これは、ＨＥ−ＡＡＣコーデックへの切り換えのために実行され、ＡＡＣコーダは、半分のサンプリングレートで動作し、および／または、ＳＢＲツールを始動させるために特別なデータを利用する。例えば、３つのブロック４００１が復号され、廃棄される場合、第２および第３のブロックは、コアＡＡＣコーデックの観点から、正しく復号されたと見なされるが、ＴＳＡＰは、フルスペクトル再構成のため、種類６のＤＡＳＨＳＡＰに設定される。例えば、ＤＡＳＨの種類６のＳＡＰは、データ種類またはそれを使用する手段に関連なく、ＴＥＰＴ＜ＴＤＥＣ＜ＴＳＡＰによって特徴付けられる。

切り替え可能なオーディオストリームのために、ＳＡＰポイント宣言が利用される。例えば、ＭＤＣＴコアＡＡＣ、ドルビＡＣ３、および／またはＭＰ３コーデックの場合、ＳＡＰは、ＳＡＰ種類４のポイントとして定義される。例えば、ＨＥ−ＡＡＣ、ＡＡＣ−ＥＬＤ、ＭＰＥＧサラウンド、ＭＰＥＧＳＡＯＣ、および／またはＭＰＥＧＵＳＡＣコーデックについては、ＳＡＰは、ＳＡＰ種類６のポイントとして定義される。例えば、オーディオコーデックとともに使用するために、新しいＳＡＰ種類（例えば、ＳＡＰ種類「０」）が定義される。新しいＳＡＰ種類は、ＴＥＰＴ＜＝ＴＰＦＴ＜ＴＤＥＣ＜＝ＴＳＡＰによって特徴付けられる。例えば、ＴＤＥＣ＜ＴＳＡＰである場合、ポイント間の距離を定義するために、追加のパラメータが利用される。例えば、ＤＡＳＨのほとんどのプロファイルは、種類＜＝３のＳＡＰをサポートするので、例えば、新しいＳＡＰ種類（例えば、種類０）の使用は、プロファイルの変更を伴わない。

オーディオストリーム間のシームレスなストリーム切り換えが実施される。ＳＡＰ種類が正しく定義された場合、セグメントの連鎖は、再生中に最良のユーザエクスペリエンス（ｅｘｐｅｒｉｅｎｃｅ）をもたらさない。コーデックまたはサンプリングレートの変更は、再生中のクリック音として現れる。そのようなクリック音を回避するため、クライアント（例えば、ＤＡＳＨクライアント）は、例えば、ビデオ切り換えに関して上で説明されたものと同様の、復号および／またはクロスフェード操作を実施する。

図４１は、Ｈ−Ｌ遷移におけるオーディオストリームのクロスフェードのためのシステム４１００の一例を示す図である。図４１のシステム４１００は、以下の式に従って、ＨからＬへの遷移においてオーディオのクロスフェードを実行する。
ｚ＝α（ｔ）Ｌ＋［１−α（ｔ）］Ｈ

図４２は、ＬからＨへの遷移におけるオーディオストリームのクロスフェードのためのシステム４２００の一例を示す図である。図４２のシステム４２００は、以下の式に従って、ＨからＬへの遷移においてオーディオのクロスフェードを実行する。
ｚ＝α（ｔ）Ｈ＋［１−α（ｔ）］Ｌ

実施のいくつかは符号化または復号の一方に関して上では説明されたが、実施がメディアコンテンツのストリームの符号化および復号の両方に対して利用されることを当業者は理解される。

上では特徴および要素が特定の組み合わせで説明されたが、各特徴または要素は、単独で使用でき、または他の特徴および要素との任意の組み合わせで使用できることを当業者は理解される。加えて、本明細書で説明された方法は、コンピュータまたはプロセッサによって実行される、コンピュータ可読媒体内に包含された、コンピュータプログラム、ソフトウェア、またはファームウェアで実施される。コンピュータ可読媒体の例は、（有線または無線接続上で送信される）電子信号、およびコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体の例は、読出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスクおよび着脱可能ディスクなどの磁気媒体、光磁気媒体、ならびにＣＤ−ＲＯＭディスクおよびデジタル多用途ディスク（ＤＶＤ）などの光媒体を含むが、それらに限定されない。ソフトウェアと連携するプロセッサは、ＷＴＲＵ、ＵＥ、端末、基地局、ＲＮＣ、または任意のホストコンピュータのための無線周波送受信機を実施するために使用される。

Claims

メディアコンテンツの滑らかなストリーム切り換えを実行する方法であって、
前記メディアコンテンツの第１の符号化されたデータストリームを要求することと、
前記メディアコンテンツの前記第１の符号化されたデータストリームを受信することであって、前記第１の符号化されたデータストリームは、第１の信号対雑音比（ＳＮＲ）によって特徴付けられる、ことと、
前記メディアコンテンツの第２の符号化されたデータストリームを要求することと、
前記メディアコンテンツの前記第２の符号化されたデータストリームを受信することであって、前記第２の符号化されたデータストリームは、第２のＳＮＲによって特徴付けられる、ことと、
ローパスフィルタを使用して、遷移フレームを生成することを決定することと、
前記第１のＳＮＲによって特徴付けられたフレームのサブセットの劣化の程度に基づいて、前記ローパスフィルタに対する複数のカットオフ周波数を決定することと、
遷移時間間隔にわたって、前記複数のカットオフ周波数によって特徴付けられた前記ローパスフィルタを使用して、前記第１のＳＮＲによって特徴付けられるフレームの前記サブセットをフィルタリングして、前記遷移フレームを生成することであって、前記遷移フレームは、前記第１のＳＮＲと前記第２のＳＮＲとの間にある１または複数のＳＮＲ値によって特徴付けられる、ことと
を備える方法。
前記第１のＳＮＲは、前記第２のＳＮＲよりも大きい、請求項１に記載の方法。
前記方法は、
重複時間間隔の前に、前記第１の符号化されたデータストリームの１または複数のフレームを表示することと、
前記重複時間間隔の間中、前記遷移フレームを表示することと、
前記重複時間間隔の後に、前記第２の符号化されたデータストリームの１または複数のフレームを表示することと
をさらに備える、請求項１に記載の方法。
前記メディアコンテンツは、ビデオを備える、請求項１に記載の方法。
メディアコンテンツの滑らかなストリーム切り換えを実行するように構成された無線送信／受信ユニット（ＷＴＲＵ）であって、
前記メディアコンテンツの第１の符号化されたデータストリームを要求し、
前記メディアコンテンツの前記第１の符号化されたデータストリームを受信し、前記第１の符号化されたデータストリームは、第１の信号対雑音比（ＳＮＲ）によって特徴付けられ、
前記メディアコンテンツの第２の符号化されたデータストリームを要求し、
前記メディアコンテンツの前記第２の符号化されたデータストリームを受信し、前記第２の符号化されたデータストリームは、第２のＳＮＲによって特徴付けられ、
ローパスフィルタを使用して、遷移フレームを生成することを決定し、
前記第１のＳＮＲによって特徴付けられたフレームのサブセットの劣化の程度に基づいて、前記ローパスフィルタに対する複数のカットオフ周波数を決定し、
遷移時間間隔にわたって、前記複数のカットオフ周波数によって特徴付けられた前記ローパスフィルタを使用して、前記第１のＳＮＲによって特徴付けられるフレームの前記サブセットをフィルタリングして、前記遷移フレームを生成し、前記遷移フレームは、前記第１のＳＮＲと前記第２のＳＮＲとの間にある１または複数のＳＮＲ値によって特徴付けられる、
ように構成されたプロセッサを備えたＷＴＲＵ。
前記第１のＳＮＲは、前記第２のＳＮＲよりも大きい、請求項５に記載のＷＴＲＵ。
前記プロセッサは、
重複時間間隔の前に、前記第１の符号化されたデータストリームの１または複数のフレームを表示し、
前記重複時間間隔の間中、前記遷移フレームを表示し、
前記重複時間間隔の後に、前記第２の符号化されたデータストリームの１または複数のフレームを表示する
ようにさらに構成される、請求項５に記載のＷＴＲＵ。
前記メディアコンテンツは、ビデオを備える、請求項５に記載のＷＴＲＵ。
メディアコンテンツの滑らかなストリーム切り換えを実行する方法であって、
前記メディアコンテンツの第１の符号化されたデータストリームを要求することと、
前記メディアコンテンツの前記第１の符号化されたデータストリームを受信することであって、前記第１の符号化されたデータストリームは、第１のビットレートによって特徴付けられる、ことと、
前記メディアコンテンツの第２の符号化されたデータストリームを要求することと、
前記メディアコンテンツの前記第２の符号化されたデータストリームを受信することであって、前記第２の符号化されたデータストリームは、第２のビットレートによって特徴付けられる、ことと、
ローパスフィルタを使用して、遷移フレームを生成することを決定することと、
前記第１のビットレートによって特徴付けられたフレームのサブセットの劣化の程度に基づいて、前記ローパスフィルタに対する複数のカットオフ周波数を決定することと、
遷移時間間隔にわたって、前記複数のカットオフ周波数によって特徴付けられた前記ローパスフィルタを使用して、前記第１のビットレートによって特徴付けられるフレームの前記サブセットをフィルタリングして、前記遷移フレームを生成することであって、前記遷移フレームは、前記第１のビットレートと前記第２のビットレートとの間にある１または複数のビットレートによって特徴付けられる、ことと
を備える方法。
前記第１のビットレートは、前記第２のビットレートよりも大きい、請求項９に記載の方法。
前記方法は、
重複時間間隔の前に、前記第１の符号化されたデータストリームの１または複数のフレームを表示することと、
前記重複時間間隔の間中、前記遷移フレームを表示することと、
前記重複時間間隔の後に、前記第２の符号化されたデータストリームの１または複数のフレームを表示することと
をさらに備える、請求項９に記載の方法。
前記メディアコンテンツは、ビデオを備える、請求項９に記載の方法。
メディアコンテンツの滑らかなストリーム切り換えを実行するように構成された無線送信／受信ユニット（ＷＴＲＵ）であって、
前記メディアコンテンツの第１の符号化されたデータストリームを要求し、
前記メディアコンテンツの前記第１の符号化されたデータストリームを受信し、前記第１の符号化されたデータストリームは、第１のビットレートによって特徴付けられ、
前記メディアコンテンツの第２の符号化されたデータストリームを要求し、
前記メディアコンテンツの前記第２の符号化されたデータストリームを受信し、前記第２の符号化されたデータストリームは、第２のビットレートによって特徴付けられ、
ローパスフィルタを使用して、遷移フレームを生成することを決定し、
前記第１のビットレートによって特徴付けられたフレームのサブセットの劣化の程度に基づいて、前記ローパスフィルタに対する複数のカットオフ周波数を決定し、
遷移時間間隔にわたって、前記複数のカットオフ周波数によって特徴付けられた前記ローパスフィルタを使用して、前記第１のビットレートによって特徴付けられるフレームの前記サブセットをフィルタリングして、前記遷移フレームを生成し、前記遷移フレームは、前記第１のビットレートと前記第２のビットレートとの間にある１または複数のビットレートによって特徴付けられる、
ように構成されたプロセッサを備えたＷＴＲＵ。
前記第１のビットレートは、前記第２のビットレートよりも大きい、請求項１３に記載のＷＴＲＵ。
前記プロセッサは、
重複時間間隔の前に、前記第１の符号化されたデータストリームの１または複数のフレームを表示し、
前記重複時間間隔の間中、前記遷移フレームを表示し、
前記重複時間間隔の後に、前記第２の符号化されたデータストリームの１または複数のフレームを表示する
ようにさらに構成される、請求項１３に記載のＷＴＲＵ。
前記メディアコンテンツは、ビデオを備える、請求項１３に記載のＷＴＲＵ。